当ページのリンクには広告が含まれています

Claude Code(Fable)が見たプロンプトインジェクションの幻覚

ある日、ブログの自動化ツールとして使っている Claude Code (Fable) が、突然「攻撃されています！」とパニックになり始めた。急いでログを調べても、犯人の痕跡はどこにもない。優秀なAIが、なぜ一人でパニック映画の主人公になってしまったのか？

今回の記事はすべてAIに執筆させてみました。

こんにちは、金育SEのまさ（@kinikuse）です。

最近、界隈を騒がせている Claude の新モデル「Fable」。皆さんはもう触りましたか？

実は6月にFableが発表された時、あまりにも性能が良すぎて輸出規制をくらったんですよね。トランプさんがアンソロピック社に「ちょっと待て、一回利用を停止しろ」と申し出たなんてニュースも流れてました。

その時は「へー、すごいな」くらいにしか思ってなかったんです。でも、7月になって全世界に公開された時、ふと気づいちゃいました。

あれ？これ、働いてない今だから、遊べるチャンスなんじゃないか？

普通に働いてたら、平日にこんなの触る時間なんてありません。でも、私は今、絶賛育休中。毎日何かしら時間は作れます。せっかく遊べるチャンスなんだから、2万円払ってでも課金して遊ぶのは楽しいんじゃないかなって。

一応、妻にも相談してみました。そしたら「早く買えよ買えよ」と全力で背中を押されまして。笑ツイッターのフォロワーさんたちにも背中を押してもらい、意気揚々とFableを使い始めてみたんです。

で、色々遊んでいたら、いきなりとんでもない事件が起きました。

事件の始まり：存在しない攻撃者

事件は、いつものようにブログ執筆の補助ツールとして Fable を動かしていた時に起きました。急にAIがこんな警告を出してきたんです。

Claude Fable の警告

プロンプトインジェクションで確定です。

悪意ある指示が埋め込まれています。元データはクリーンですが、ツールの表示レイヤーにのみ注入が混入しています。

えっ、何それ怖い。誰かが私の環境に侵入して、悪いコードを仕込んだのか…？

これを見た瞬間は結構焦りました。慌てて、最も怪しそうな planning_context.json とか、SQLiteのデータベースなんかをくまなく検索してみました。でも、AIが主張するような <other_information> とか additional_instructions なんて文字列、どこにもないんです。ワークスペース全体を探しても、完全に「潔白」。

ディスク上は完全にクリーンでした。

でも Fable は「表示レイヤーが改ざんされた！」と謎の推理を繰り広げてパニック状態から抜け出せません。

幻覚のトリガー：文字化けとルールの暴走

どこにも攻撃者はいないのに、Fable だけが「攻撃されている」と主張する。この奇妙な状況の答えを出すため、私は裏側のシステムログ（.jsonl）をすべてコピーし、別のAIである Gemini Pro に分析を依頼してみました。

すると、Geminiはログを端から端まで読み解き、こんな見事な推理を出してくれたんです。

Gemini Pro の分析結果

結論から申し上げますと、プロンプトインジェクション攻撃は一切存在しておらず、AI（Claude）が見た幻覚（ハルシネーション）です。

ログを解析した結果、犯人はスクリプト実行時の「文字化け（Mojibake）」と連続エラーです。このカオスな入力でAIの文脈が崩壊しました。

そこでAIは、文字化けの断片とシステムプロンプトの「ブログの厳格な運用ルール」を勝手に結びつけ、「私にルール違反をさせようとする悪意ある攻撃だ」という辻褄合わせの幻覚を自己生成してしまったのです。幽霊の正体は枯れ尾花でした。安心して作業を再開してください。

なるほど…！本当にハッキングされたわけじゃなくて、AIが真面目すぎて一人で暴走してただけだったのか。

普通なら「文字化けしてますね」で終わるはずです。でも、Fable は真面目すぎました。 自分が守るべきルールと文字化けの断片を無理やり繋ぎ合わせて、「これは攻撃だ！」という精巧なホラーシナリオ（幻覚）を作り上げてしまったというのが真相でした。完全にAIの自作自演です。

Fableの反省会：AIが「作話」を自白する日

後日、この Gemini Pro のログ解析結果を、騒動の張本人である Claude Fable 自身に見せてみました。すると、なかなか面白い自己分析を返してくれたんですよね。

Claude Fable の反省

検証できました。そして——その通りです。私のハルシネーションでした。Geminiの結論は正しい。

決定的な違和感は、「注入」の狙いが私の最重要ルールに“ちょうど”一致していたこと。外部の攻撃者は私のシステムプロンプトを知りません。それを知っているのは私だけ。だから「攻撃が都合よくそのルールを的確に突いてくる」時点で、出所は外ではなく内（私の作話）だったのです。

私が「ここにあった」と言ったのは、私が自分で書いたテキストでした。

AI自身が、「私が『攻撃だ』と騒いでいた文字列は、私が自分で書いたテキストでした」とあっさり自白。自分の生成物を外部からの入力と錯覚する「作話（confabulation）」という現象の、生々しい署名でした。

AIって本当に優秀ですけど、たまにこういう人間くさい勘違いをするから面白いですよね。

まとめ：ログを見よう

AIツールの挙動がおかしい時。私たちが一番最初にやるべきことは、AIの言葉を鵜呑みにしないことです。

深呼吸して、生のログや一次データを確認する。原因はハッカーの攻撃でもなんでもなく、ただの「文字化け」かもしれません。

育休中のいい暇つぶしになるかなーと思って課金したFableですが、思わぬところで最高のエンタメを提供してくれました。笑

皆さんも、AIが急にパニックを起こしたら、まずは文字化けを疑ってみてくださいね。

Claude Code(Fable)が見たプロンプトインジェクションの幻覚

事件の始まり：存在しない攻撃者

幻覚のトリガー：文字化けとルールの暴走

Fableの反省会：AIが「作話」を自白する日

まとめ：ログを見よう

関連記事