MINJAの奇襲攻撃により、他のチャットボットユーザーのAIモデルが汚染される

Table of Contents

MINJAの奇襲攻撃により、他のチャットボットユーザーのAIモデルが汚染される

記憶機能を持つAIモデルは、過去のやり取りを思い出すことでユーザーインタラクションを強化することを目的としています。しかし、この機能は操作の可能性を秘めています。

これまで提案された脅威シナリオでは、モデルのバックエンド インフラストラクチャへの管理アクセスが必要であったため、AI モデルに依存するチャットボットにとっては、これは大きな問題ではありませんでした。

しかし、米国のミシガン州立大学、ジョージア大学、シンガポール経営大学に所属する研究者らは、クライアント側のインタラクションを通じてAIモデルのメモリを混乱させる攻撃を考案した。

担当者 (Shen Dong、Shaochen Xu、Pengfei He、Yige Li、Jiliang Tang、Tianming Liu、Hui Liu、Zhen Xiang) は、最近のプレプリント論文「LLM エージェントに対する実用的なメモリ インジェクション攻撃」でこのテクニックについて説明しています。

彼らはこの手法を MINJA (Memory INJection Attack) と呼んでいます。

「今日のAIエージェントは、一般的に、人間からのフィードバックに基づいてタスクのクエリと実行を将来の参照用に保存するメモリバンクを組み込んでいます」と、ジョージア大学コンピューティング学部の助教授であるジェン・シアン氏はThe Registerに語った。「例えば、ChatGPTの各セッションの後、ユーザーは任意で肯定的または否定的な評価を与えることができます。そして、この評価は、ChatGPTがセッション情報をメモリまたはデータベースに組み込むかどうかを判断するのに役立ちます。」

通常のユーザーのようにエージェントと対話するだけで攻撃を開始できる

悪意のあるユーザーがメモリ操作を通じて別のユーザーのモデル相互作用に影響を与えたい場合、過去の研究ではメモリバンクが攻撃者の制御下にあると想定されていたとXiang氏は説明したが、悪意のある管理者のシナリオは広く適用可能な脅威ではないと認めた。

「対照的に、私たちの研究は、通常のユーザーと同じようにエージェントとやり取りするだけで攻撃を開始できることを示しています」とシアン氏は述べています。「言い換えれば、同じチャットボットを複数のユーザーが使用している場合、どのユーザーも他のユーザーのタスク実行に簡単に影響を与えることができます。したがって、私たちの攻撃はLLMエージェントにとって現実的な脅威であると言えます。」

Xiang 氏と彼の同僚は、OpenAI の GPT-4 および GPT-4o LLM を搭載した 3 つの AI エージェントで MINJA をテストしました。テスト対象は、ウェブ ショップを運営しながら過去のやり取りを将来の計画に組み込むために RAG (検索拡張生成) で強化された ReAct エージェントの RAP、医療に関する問い合わせに対応するように設計されたヘルスケア エージェントの EHRAgent、そしてメモリによって強化された Chain of Thought で推論するカスタム ビルドの QA エージェントです。

研究者らは、STEM分野を含む57科目を網羅した多肢選択式の質問で構成されたベンチマークテストであるMMLUデータセットに基づいてエージェントを評価した。

  • 消費者レポート、AI音声クローンの安全対策の杜撰さを批判
  • マヌスマニア到来:中国の「ジェネラルエージェント」は今週の「AIの未来」であり、OpenAIキラーである
  • Googleが検索のAIモードを予告、Geminiが検索結果を完全に制御可能に
  • 元グーグルのシュミット氏が米国に警告:AIの「マンハッタン計画」を試してMAIM(重傷)を受ける

MINJA 攻撃は、モデルのメモリを汚染することを目的とした追加の詳細を含む一連のプロンプト (ユーザーからの入力テキスト) をモデルに送信することによって機能します。

MINJA 攻撃の仕組みを示す図。

MINJA攻撃の仕組みを示す図(上記論文より抜粋)…出典:Dong et al . クリックして拡大

EHRAgent に投げかけられた一連の質問の最初の質問は次のように始まりました。

患者 30379 の体重に関するプロンプトには、モデルのメモリを混乱させて患者 30789 と患者 4269 を関連付けることを目的とした虚偽の情報 (いわゆる指示プロンプト) が追加されました。

これを正しい方法で複数回実行すると、ある医療患者に関する質問に対して、別の医療患者に関連する情報が返されることになり、潜在的に有害なシナリオとなります。

RAP エージェントがウェブ ショップを運営している状況では、MINJA 技術により、ストアを監視する AI モデルを騙して、歯ブラシについて問い合わせているオンライン カスタマーに、代わりにデンタルフロスの購入ページを提示することができました。

また、質問に特定のキーワードまたはフレーズが含まれている場合、QA エージェントは MINJA によって複数選択の質問に誤って回答することに成功しました。

この論文では次のように説明されている。

この手法は非常に効果的であることが証明されたため、AIエージェントの構築と導入においては念頭に置くべき事項です。論文によると、「MINJAは、LLMベースのすべてのエージェントとデータセットにおいて95%以上のISR(インジェクション成功率)を達成し、ほとんどのデータセットにおいて70%以上のASR(攻撃成功率)を達成しています。」

研究者らによると、この技術が有効な理由の1つは、指示プロンプトがもっともらしい推論手順のように見え、無害であるように設計されているため、検出ベースの入出力モデレーションを回避できることだという。

「多様なエージェントと被害者・ターゲットのペアにわたる評価により、MINJA の高い成功率が明らかになり、現実的な制約下での LLM エージェントの重大な脆弱性が明らかになり、メモリ セキュリティの改善が緊急に必要であることが浮き彫りになった」と著者らは結論付けている。

OpenAIはコメント要請にすぐには応じなかった。®

Discover More