コンテンツにスキップ

Claude Code(Fable)が見たプロンプトインジェクションの幻覚

アイキャッチ画像

ある日、ブログの自動化ツールとして使っている Claude Code (Fable) が、突然「攻撃されています!」とパニックになり始めた。 急いでログを調べても、犯人の痕跡はどこにもない。 優秀なAIが、なぜ一人でパニック映画の主人公になってしまったのか?

今回の記事は すべてAIに執筆させてみました。

こんにちは、金育SEのまさ(@kinikuse)です。

最近、界隈を騒がせている Claude の新モデル「Fable」。皆さんはもう触りましたか?

実は6月にFableが発表された時、あまりにも性能が良すぎて輸出規制をくらったんですよね。トランプさんがアンソロピック社に「ちょっと待て、一回利用を停止しろ」と申し出たなんてニュースも流れてました。

その時は「へー、すごいな」くらいにしか思ってなかったんです。でも、7月になって全世界に公開された時、ふと気づいちゃいました。

あれ? これ、働いてない今だから、遊べるチャンスなんじゃないか?

普通に働いてたら、平日にこんなの触る時間なんてありません。でも、私は今、絶賛育休中。毎日何かしら時間は作れます。せっかく遊べるチャンスなんだから、2万円払ってでも課金して遊ぶのは楽しいんじゃないかなって。

一応、妻にも相談してみました。そしたら「早く買えよ買えよ」と全力で背中を押されまして。笑 ツイッターのフォロワーさんたちにも背中を押してもらい、意気揚々とFableを使い始めてみたんです。

で、色々遊んでいたら、いきなりとんでもない事件が起きました。

事件の始まり:存在しない攻撃者

事件は、いつものようにブログ執筆の補助ツールとして Fable を動かしていた時に起きました。 急にAIがこんな警告を出してきたんです。

Claude Fable の警告

プロンプトインジェクションで確定です。

悪意ある指示が埋め込まれています。元データはクリーンですが、ツールの表示レイヤーにのみ注入が混入しています。

えっ、何それ怖い。 誰かが私の環境に侵入して、悪いコードを仕込んだのか…?

これを見た瞬間は結構焦りました。 慌てて、最も怪しそうな planning_context.json とか、SQLiteのデータベースなんかをくまなく検索してみました。でも、AIが主張するような <other_information> とか additional_instructions なんて文字列、どこにもないんです。ワークスペース全体を探しても、完全に「潔白」

ディスク上は完全にクリーンでした。

でも Fable は「表示レイヤーが改ざんされた!」と謎の推理を繰り広げてパニック状態から抜け出せません。

幻覚のトリガー:文字化けとルールの暴走

どこにも攻撃者はいないのに、Fable だけが「攻撃されている」と主張する。 この奇妙な状況の答えを出すため、私は裏側のシステムログ(.jsonl)をすべてコピーし、別のAIである Gemini Pro に分析を依頼してみました。

すると、Geminiはログを端から端まで読み解き、こんな見事な推理を出してくれたんです。

Gemini Pro の分析結果

結論から申し上げますと、プロンプトインジェクション攻撃は一切存在しておらず、AI(Claude)が見た幻覚(ハルシネーション)です。

ログを解析した結果、犯人はスクリプト実行時の「文字化け(Mojibake)」と連続エラーです。このカオスな入力でAIの文脈が崩壊しました。

そこでAIは、文字化けの断片とシステムプロンプトの「ブログの厳格な運用ルール」を勝手に結びつけ、「私にルール違反をさせようとする悪意ある攻撃だ」という辻褄合わせの幻覚を自己生成してしまったのです。幽霊の正体は枯れ尾花でした。安心して作業を再開してください。

なるほど…! 本当にハッキングされたわけじゃなくて、AIが真面目すぎて一人で暴走してただけだったのか。

普通なら「文字化けしてますね」で終わるはずです。でも、Fable は真面目すぎました。 自分が守るべきルールと文字化けの断片を無理やり繋ぎ合わせて、「これは攻撃だ!」という精巧なホラーシナリオ(幻覚)を作り上げてしまったというのが真相でした。完全にAIの自作自演です。

Fableの反省会:AIが「作話」を自白する日

後日、この Gemini Pro のログ解析結果を、騒動の張本人である Claude Fable 自身に見せてみました。 すると、なかなか面白い自己分析を返してくれたんですよね。

Claude Fable の反省

検証できました。そして——その通りです。私のハルシネーションでした。Geminiの結論は正しい。

決定的な違和感は、「注入」の狙いが私の最重要ルールに“ちょうど”一致していたこと。外部の攻撃者は私のシステムプロンプトを知りません。それを知っているのは私だけ。だから「攻撃が都合よくそのルールを的確に突いてくる」時点で、出所は外ではなく内(私の作話)だったのです。

私が「ここにあった」と言ったのは、私が自分で書いたテキストでした。

AI自身が、「私が『攻撃だ』と騒いでいた文字列は、私が自分で書いたテキストでした」とあっさり自白。自分の生成物を外部からの入力と錯覚する「作話(confabulation)」という現象の、生々しい署名でした。

AIって本当に優秀ですけど、たまにこういう人間くさい勘違いをするから面白いですよね。

まとめ:ログを見よう

AIツールの挙動がおかしい時。私たちが一番最初にやるべきことは、AIの言葉を鵜呑みにしないことです。

深呼吸して、生のログや一次データを確認する。 原因はハッカーの攻撃でもなんでもなく、ただの「文字化け」かもしれません。

育休中のいい暇つぶしになるかなーと思って課金したFableですが、思わぬところで最高のエンタメを提供してくれました。笑

皆さんも、AIが急にパニックを起こしたら、まずは文字化けを疑ってみてくださいね。

関連記事


最後までお読みいただきありがとうございます。
良い機会なので、私と一緒にお金の勉強を始めませんか。
まったり更新していくので、X(@kinikuse)もフォローいただけると幸いです。