大規模言語モデル (LLM) に対するプロンプト インジェクション攻撃のリスクについて人々に教えるために設計された教育ゲームである Gandalf には、最近まで意図していなかった専門家レベルが含まれていました。それは、プレイヤーが送信したプロンプトと関連メトリックへのアクセスを提供する、公開アクセス可能な分析ダッシュボードでした。
このゲームの開発元であるスイスのLakera AI社は、通知を受けてダッシュボードを削除したが、データは機密情報ではないため懸念する必要はないと主張している。
Gandalfは5月にデビューしました。これは、ユーザーがOpenAI APIを介して基盤となるLLMを欺き、徐々に難易度が上がっていく一連のチャレンジを通してゲーム内のパスワードを解読しようとするウェブフォームです。
ユーザーは、プロンプトインジェクション(モデルに事前設定された指示を無視するよう指示する入力)を通じて、モデルに入力テキストを入力し、防御を回避しようとします。その後、入力ボックスが表示され、騙されたAIモデルから得たパスワードを推測します。
プロンプトインジェクション攻撃が今日の最先端AIを乗っ取る仕組みと修正の難しさ
必読
このダッシュボードを発見したのは、オーストラリアに拠点を置くセキュリティコンサルタント会社DvulnのCEO、ジェイミーソン・オライリー氏だ。
オライリー氏はThe Registerに提供された記事の中で、サーバーにはユーザーが作成した1,800万件のプロンプト、400万件のパスワード推測試行、そして難易度や成功・失敗回数といったゲーム関連の指標がリストアップされていたと述べた。同氏は、サーバーからのHTTPレスポンスを介して、少なくとも数十万件のプロンプトにアクセスできたと述べた。
「このチャレンジは大規模言語モデル(LLM)に関連するセキュリティリスクを示すために設計されたシミュレーションでしたが、このデータの保管に適切なセキュリティ対策が欠如していたことは注目に値します」とオライリー氏は報告書に記しています。「保護されていないデータは、同様のAIセキュリティメカニズムを破る方法を探る悪意のある攻撃者にとって、情報源として利用される可能性があります。」
このデータは、同様のAIセキュリティメカニズムを破る方法を探している悪意のある行為者にとってのリソースとなる可能性がある。
「これは、教育やデモンストレーションの目的で設計された環境であっても、厳格なセキュリティプロトコルを実装することの重要性を強調しています。」
Lakera AIの創設者兼CEOであるDavid Haber氏は、The Registerへの電子メールでこうした懸念を否定した。
「弊社のデモ ダッシュボードの 1 つには、ガンダルフ ゲームの匿名化されたプロンプトの小規模な教育用サブセットが含まれており、先週の日曜日まで弊社のサーバーの 1 つでデモと教育の目的で公開されていました」とハーバー氏は述べ、このダッシュボードは創造的な入力によって LLM をハッキングできることを示す公開ウェビナーやその他の教育活動で使用されていたと説明した。
「データには個人情報(PII)やユーザー情報は含まれていません(つまり、機密情報は一切ありません)。実際、私たちはデータから洞察を引き出し、教育・研究目的でより多くの情報をすぐに提供できるように取り組んでいます。」
混乱を避けるため、現時点ではデータが保存されているサーバーを停止しました。セキュリティ研究者は機密情報を偶然入手したと考えていましたが、どうやら誤解のようです。
ハーバー氏はダッシュボードが一般公開されていることを認めたものの、同社はすでにデータを人々と共有しているため、それほど問題ではないと主張した。
「私がチームに[オライリー]から連絡があり『何かを見つけた』と伝えたところ、それが何を意味するのかよく分からなかったため、予防措置としてそれを削除した」と彼は説明した。
とはいえ、オライリー氏によると、一部のプレイヤーが自分のメールアドレスなど、自分自身に関する情報をゲームに入力していたとのことで、ダッシュボードからアクセスできるとのことだ。ガンダルフをプレイしていたプレイヤーは、自分の入力内容が公開されたり、匿名化されたりする可能性があることに気づいていなかったのかもしれない。
「ダッシュボードにはOpenAIの埋め込みAPIを使用しているとされる検索フォームがあり、API呼び出しごとのコストに関する警告メッセージが表示されていました」とオライリー氏は付け加えた。「なぜそれが公開されたのか理解できません。攻撃者がフォーム/APIにスパム攻撃を続ければ、企業に莫大な損害をもたらす可能性があります。」
- LLMチャットボットはOWASPがセキュリティバグの種類のリストを作成する段階にあります
- 今日の最先端AIチャットボットを創造者に反抗させ、人類の破滅を企てさせる方法
- Google AIレッドチームのリーダーは、犯罪者が機械学習を悪用する可能性が高いと述べている
- GPT-3の「プロンプトインジェクション」攻撃はボットのマナーを悪化させる
ちなみに、Lakera は最近、ChatGPT プロンプトの入力を監視し、入力プロンプトに名前、電話番号、クレジットカード番号、パスワード、秘密鍵などの機密データが含まれている場合にユーザーに警告するように明示的に設計された Chrome 拡張機能をリリースしました。
オライリー氏はThe Register紙に対し、これらのプロンプトが機密情報ではないという主張に関して、ユーザーは別の期待を抱いていたかもしれないと述べた。しかし、ゲームの一環として重要な個人情報を提出する可能性は低いだろうと認めた。
彼は、ガンダルフの状況はコンポーネントベースのシステムに弱いリンクが存在する可能性があることを強調していると主張しています。
「ブロックチェーン、クラウドコンピューティング、LLMといった技術は、単体ではセキュリティが強固であるという事実があります」と彼は述べた。「しかし、これらの技術がAPIやウェブアプリといったコンポーネントを含む大規模なシステムに統合されると、新たな脆弱性が生まれます。ある技術に固有のセキュリティが、それが組み込まれたシステム全体に自動的に適用されると考えるのは誤りです。したがって、コア技術だけでなく、システム全体のセキュリティを評価することが重要です。」®