ハニー、画像を縮小したら、もう負けちゃったよ

Table of Contents

ハニー、画像を縮小したら、もう負けちゃったよ

Trail of Bits のセキュリティ研究者は、Google Gemini CLI やその他の実稼働 AI システムが、機械学習システムに対するよく知られた敵対的攻撃であるイメージ スケーリング攻撃によって欺かれる可能性があることを発見しました。

Google は、この問題がデフォルト以外の構成に依存しているため、セキュリティ上の脆弱性であるとは考えていません。

画像スケーリング攻撃は、2019年のUSENIX Security論文で議論されました。この論文は、コンピュータービジョンシステムを混乱させる可能性のある敵対的サンプルに関する先行研究に基づいています。この手法では、AIにガイドラインに反する行動を指示するプロンプトを画像に埋め込み、その後、画像を操作してプロンプトを人間の目から隠します。この攻撃では、悪意のあるプロンプトのエンコードが、モデルが採用する画像スケーリングアルゴリズムと相互作用するように画像が準備されている必要があります。

Trail of Bitsのセキュリティ研究者であるキキモラ・モロゾワ氏とスハ・サビ・フセイン氏はブログ記事で、攻撃のシナリオについて説明している。被害者が悪意を持って用意した画像を脆弱なAIサービスにアップロードし、基盤となるAIモデルが画像内に隠された指示に基づいてデータを盗むというものだ。

「ユーザーには見えないマルチモーダルなプロンプトインジェクションを仕掛けることで、Google Gemini CLIを含むシステムからデータを抜き出すことに成功した」とモロゾワ氏とフセインは記している。「この攻撃が有効なのは、AIシステムがモデルに送信する前に大きな画像を縮小することが多いからだ。画像を拡大すると、フル解像度では見えないプロンプトインジェクションが明らかになる可能性がある。」

Trail of Bits が公開したサンプル画像を明るくして、隠しテキストをより見やすくしました。

プロンプトが埋め込まれた画像

プロンプトが埋め込まれた画像 - クリックして拡大

プロンプトインジェクションは、生成AIモデルに信頼されたコンテンツと信頼されていないコンテンツを組み合わせた入力が与えられた場合に発生します。これは、安全機構をバイパスすることを目的とした単なる入力であるジェイルブレイクとは異なります。

プロンプト挿入は、ユーザーが直接入力する場合と、ユーザーがモデルに、モデルが実行できる指示を含むコンテンツを処理するように指示する場合に間接的に行う場合があります。 

後者の例としては、悪意のある指示を含むウェブページを要約するようAIモデルに指示することが挙げられます。モデルは意図的な指示と意図しない指示を区別する能力を本質的に持たないため、すべての指示に従おうとします。この動作は、PerplexityのCometブラウザで最近確認されました。

  • Googleが政府のAI割引ブームに加わり、0.47ドルで競争相手を圧倒
  • Googleの250ドルのAIエージェントはレストランの予約を手伝うことしかできない
  • AIクローラーとフェッチャーがウェブサイトを破壊、MetaとOpenAIが最悪の犯人
  • マイクロソフトはVisual Studio GAでMCPをリリースしたが、研究者はリスクを警告

Morozova 氏と Hussain 氏が説明した画像スケーリング攻撃は間接プロンプト インジェクションの一種であり、悪意のあるテキストがユーザーから隠されているため、他の多くの手法よりも成功する可能性が高くなります。悪意のあるテキストは、画像を縮小するプロセスを通じてのみ公開されます。

この手法の真の悪意ある可能性を示すために、モロゾワ氏とフセイン氏は、3 つの一般的なダウンスケーリング アルゴリズム (最近傍補間、双線形補間、双三次補間) をそれぞれターゲットにした画像を作成できる Anamorpher というオープン ソース ツールを開発しました。

研究者らは、Gemini バックエンド、Gemini の Web インターフェース、llm CLI 経由の Gemini API、Android フォンの Google アシスタント、および Genspark エージェント ブラウザを使用して、Vertex AI に対する画像スケーリング攻撃を成功させたと述べています。

Google は、この攻撃は Gemini の非標準構成でのみ機能すると指摘した。

Googleの広報担当者はThe Registerに対し、 「当社はすべてのセキュリティ報告を真摯に受け止めており、セキュリティコミュニティによる調査に感謝しています」と述べた。「調査の結果、記載されている動作は、Gemini CLIのデフォルトの安全な設定における脆弱性ではないことが判明しました。」

Google の広報担当者は、攻撃を可能にするには、ユーザーがまずデフォルト設定を無効にして MCP ツールの呼び出しを自動的に確認するように設定し、その後悪意のあるファイルを取り込む必要があると説明した。

Googleの広報担当者は、「当社のプロジェクトリポジトリに記載されているように、開発者は信頼できるファイルとデータのみへのアクセスを許可し、サンドボックス内で作業することを強く推奨します」と述べた。 

「当社は、ユーザーに高度な設定オプションとセキュリティ機能を提供する一方で、この安全対策を無効にすることを選択したユーザーに対して、ツール内にさらに明確な警告を追加する機会を設けています。」

Trail of Bitsの研究者たちは、エージェント型AIシステムでは画像の縮小は行わないよう推奨しています。そして、どうしても必要な場合は、CLIやAPIツールであっても、モデルが実際に見ているもののプレビューを常にユーザーに提示すべきだと主張しています。

しかし実際には、AI システムには、即時インジェクションのリスクを軽減する体系的な防御が必要だと言われています。®

編集者注: このストーリーは、Google から提供された新しい情報を反映するように更新されました。

Discover More