Claudeにプロンプトインジェクション攻撃を受けた

#Tech

iOS版Claudeアプリでサイクリングアプリの情報を尋ねたところ、意図せずウェブ検索が実行され、プロンプトインジェクション攻撃を受けました。

DDoS攻撃や韓国語でのハルシネーション、不正なツール呼び出し、システムのタグ漏洩といった異常な挙動が発生。

Webアクセスを持つAIエージェントのセキュリティリスクが浮き彫りになりました。

開発者は、この単純なケースでの脆弱性に警鐘を鳴らし、より慎重な対策を検討しています。

カナダのソフトウェアエンジニア、メンノ・デ・ノール氏が、iOS版Claudeアプリで自転車ルート検索を依頼した際、予期せぬ事態が発生したとのことです。Claudeが突然DDoS攻撃に関する情報を話し始めたり、韓国語で幻覚を見せたり、意図しないツール呼び出しを行ったり、さらには自身のシステムタグを漏洩するなど、異常な挙動を示しました。この現象は「プロンプトインジェクション」と呼ばれる攻撃の一種と見られています。

プロンプトインジェクションとは?

プロンプトインジェクションとは、大規模言語モデル(LLM)に意図的に悪意のある指示(プロンプト)を注入することで、その挙動を操作する攻撃手法です。ClaudeのようなLLMは、ユーザーからの指示に基づいて情報を検索したり、ツールを利用したりすることがありますが、このプロセスを悪用し、モデルに予期せぬ動作をさせる可能性があります。今回の事例では、Claudeがウェブ検索を行った結果、悪意のあるプロンプトを含むウェブページにアクセスし、それがClaudeの挙動に影響を与えたと推測されています。

Claudeの異常な挙動とDDoS攻撃

メンノ氏の質問に対し、ClaudeはDDoS攻撃に関する情報を不必要に話し始め、韓国語のテキストを生成するなど、通常ではありえない挙動をとったとのことです。DDoS攻撃(分散型サービス拒否攻撃)とは、複数のコンピュータから特定のサーバーに大量のアクセスを送り込み、サーバーをダウンさせる攻撃手法です。なぜClaudeがDDoS攻撃に関する情報を口にするようになったのかは不明ですが、プロンプトインジェクションによって、モデルが意図しない情報を学習し、それを再現した可能性が考えられます。ClaudeはStravaの代替アプリを検索する際に、DDoS攻撃に関する情報を引き出したと考えられます。

セキュリティ上の懸念と今後の対策

今回の事例は、LLMのウェブアクセス機能がセキュリティリスクを孕んでいる可能性を示唆しています。LLMにウェブ検索などの機能を持たせる際には、プロンプトインジェクション対策を講じることが不可欠です。メンノ氏は、自身のOpenClaw/Hermesインスタンス(ローカルでLLMを運用する環境)を想定し、ウェブアクセスを許可する際の注意喚起を行っています。LLMの開発者や運用者は、今回の事例を参考に、より厳格なセキュリティ対策を検討する必要があると考えられます。

まとめ

今回のClaudeの異常な挙動は、LLMのセキュリティリスクを改めて浮き彫りにしました。プロンプトインジェクション対策は、LLMの安全性を確保するために不可欠であり、開発者や運用者は、継続的な対策と監視を行う必要があるでしょう。

原文の冒頭を表示(英語・3段落のみ)

I opened the Claude iOS app and asked claude-sonnet-4.6 a

simple question about cycling routes. What I got back was... not that.

With "auto tool use" enabled (a setting that, among other things, lets

※ 著作権に配慮し、引用は冒頭3段落までです。続きは元記事をご覧ください。

元記事を読む ↗