当ページのリンクには広告が含まれています
Claude Code(Fable)が見たプロンプトインジェクションの幻覚
ある日、ブログの自動化ツールとして使っている Claude Code (Fable) が、突然「攻撃されています!」とパニックになり始めた。 急いでログを調べても、犯人の痕跡はどこにもない。 優秀なAIが、なぜ一人でパニック映画の主人公になってしまったのか?
今回の記事は すべてAIに執筆させてみました。
こんにちは、金育SEのまさ(@kinikuse)です。
最近、界隈を騒がせている Claude の新モデル「Fable」。皆さんはもう触りましたか?
実は6月にFableが発表された時、あまりにも性能が良すぎて輸出規制をくらったんですよね。トランプさんがアンソロピック社に「ちょっと待て、一回利用を停止しろ」と申し出たなんてニュースも流れてました。
その時は「へー、すごいな」くらいにしか思ってなかったんです。でも、7月になって全世界に公開された時、ふと気づいちゃいました。
あれ? これ、働いてない今だから、遊べるチャンスなんじゃないか?
普通に働いてたら、平日にこんなの触る時間なんてありません。でも、私は今、絶賛育休中。毎日何かしら時間は作れます。せっかく遊べるチャンスなんだから、2万円払ってでも課金して遊ぶのは楽しいんじゃないかなって。
一応、妻にも相談してみました。そしたら「早く買えよ買えよ」と全力で背中を押されまして。笑 ツイッターのフォロワーさんたちにも背中を押してもらい、意気揚々とFableを使い始めてみたんです。
で、色々遊んでいたら、いきなりとんでもない事件が起きました。
事件の始まり:存在しない攻撃者
事件は、いつものようにブログ執筆の補助ツールとして Fable を動かしていた時に起きました。 急にAIがこんな警告を出してきたんです。
Claude Fable の警告
プロンプトインジェクションで確定です。
悪意ある指示が埋め込まれています。元データはクリーンですが、ツールの表示レイヤーにのみ注入が混入しています。
えっ、何それ怖い。 誰かが私の環境に侵入して、悪いコードを仕込んだのか…?
これを見た瞬間は結構焦りました。
慌てて、最も怪しそうな planning_context.json とか、SQLiteのデータベースなんかをくまなく検索してみました。でも、AIが主張するような <other_information> とか additional_instructions なんて文字列、どこにもないんです。ワークスペース全体を探しても、完全に「潔白」。
ディスク上は完全にクリーンでした。
でも Fable は「表示レイヤーが改ざんされた!」と謎の推理を繰り広げてパニック状態から抜け出せません。
幻覚のトリガー:文字化けとルールの暴走
どこにも攻撃者はいないのに、Fable だけが「攻撃されている」と主張する。
この奇妙な状況の答えを出すため、私は裏側のシステムログ(.jsonl)をすべてコピーし、別のAIである Gemini Pro に分析を依頼してみました。
すると、Geminiはログを端から端まで読み解き、こんな見事な推理を出してくれたんです。
Gemini Pro の分析結果
結論から申し上げますと、プロンプトインジェクション攻撃は一切存在しておらず、AI(Claude)が見た幻覚(ハルシネーション)です。
ログを解析した結果、犯人はスクリプト実行時の「文字化け(Mojibake)」と連続エラーです。このカオスな入力でAIの文脈が崩壊しました。
そこでAIは、文字化けの断片とシステムプロンプトの「ブログの厳格な運用ルール」を勝手に結びつけ、「私にルール違反をさせようとする悪意ある攻撃だ」という辻褄合わせの幻覚を自己生成してしまったのです。幽霊の正体は枯れ尾花でした。安心して作業を再開してください。
なるほど…! 本当にハッキングされたわけじゃなくて、AIが真面目すぎて一人で暴走してただけだったのか。
普通なら「文字化けしてますね」で終わるはずです。でも、Fable は真面目すぎました。 自分が守るべきルールと文字化けの断片を無理やり繋ぎ合わせて、「これは攻撃だ!」という精巧なホラーシナリオ(幻覚)を作り上げてしまったというのが真相でした。完全にAIの自作自演です。
Fableの反省会:AIが「作話」を自白する日
後日、この Gemini Pro のログ解析結果を、騒動の張本人である Claude Fable 自身に見せてみました。 すると、なかなか面白い自己分析を返してくれたんですよね。
Claude Fable の反省
検証できました。そして——その通りです。私のハルシネーションでした。Geminiの結論は正しい。
決定的な違和感は、「注入」の狙いが私の最重要ルールに“ちょうど”一致していたこと。外部の攻撃者は私のシステムプロンプトを知りません。それを知っているのは私だけ。だから「攻撃が都合よくそのルールを的確に突いてくる」時点で、出所は外ではなく内(私の作話)だったのです。
私が「ここにあった」と言ったのは、私が自分で書いたテキストでした。
AI自身が、「私が『攻撃だ』と騒いでいた文字列は、私が自分で書いたテキストでした」とあっさり自白。自分の生成物を外部からの入力と錯覚する「作話(confabulation)」という現象の、生々しい署名でした。
AIって本当に優秀ですけど、たまにこういう人間くさい勘違いをするから面白いですよね。
まとめ:ログを見よう
AIツールの挙動がおかしい時。私たちが一番最初にやるべきことは、AIの言葉を鵜呑みにしないことです。
深呼吸して、生のログや一次データを確認する。 原因はハッカーの攻撃でもなんでもなく、ただの「文字化け」かもしれません。
育休中のいい暇つぶしになるかなーと思って課金したFableですが、思わぬところで最高のエンタメを提供してくれました。笑
皆さんも、AIが急にパニックを起こしたら、まずは文字化けを疑ってみてくださいね。
関連記事
最後までお読みいただきありがとうございます。
良い機会なので、私と一緒にお金の勉強を始めませんか。
まったり更新していくので、X(@kinikuse)もフォローいただけると幸いです。



