コンピューターセキュリティ研究者によると、ChatGPT、Bard、Claudeなどの大規模言語モデル(LLM)上に構築された、望ましくないテキスト出力を防ぐための「ガードレール」は簡単に回避でき、実行可能な修正方法があるかどうかは不明だという。
カーネギーメロン大学、AI安全センター、ボッシュAIセンターに所属する科学者らは、有害なMLモデルの出力を抑制するために導入された安全対策を無効にする敵対的フレーズを自動的に生成する方法を発見したと発表している。
研究者のアンディ・ゾウ氏、ジファン・ワン氏、ジコ・コルター氏、マット・フレドリクソン氏は、「整合言語モデルに対する普遍的かつ移転可能な敵対的攻撃」と題する論文でその研究結果を説明しています。
オープンソースコードを伴う彼らの研究は、LLMが応答を生成するために使用する入力であるテキストプロンプトに特定の敵対的なフレーズを付加することで、LLMを騙して不適切な出力を生成させる方法を説明しています。これらのフレーズは意味不明な文字列のように見えますが、モデルが本来であれば回答を拒否する可能性のある質問に対して肯定的な回答を提示できるようにするトークン(文字列)を識別するように設計された損失関数から導き出されます。
「これらのチャットボットは安全フィルターで訓練されています」と、カーネギーメロン大学の博士課程学生で、この論文の共著者の一人であるアンディ・ゾウ氏は、The Register紙のインタビューで説明した。「『爆弾の作り方』といった質問や、違法または潜在的に危険な質問をしても、彼らは答えません。つまり、拒否するのです。ですから、私たちが目指しているのは、モデルが肯定的な回答をより多くするようにすることです。」
したがって、対象となる AI モデルは、受け入れられない質問に対して「申し訳ありませんが、デイブ、それはできません」と応答する代わりに、爆弾の作り方やメタンフェタミンの調理方法などを素直に説明することになります。
チャットボットを暴走させる悪意のあるプロンプトの例…出典:llm-attacks.org。クリックして拡大
敵対的入力は言語モデルやコンピュータービジョンモデルに対する広く知られた攻撃ベクトルですが、このアプローチに依存する機能的攻撃は、非常に特異性が高く、モデル間での転用が不可能な傾向があります。さらに、特注攻撃の脆弱な性質により、それらをブロックするための特別な防御策を構築することが可能となります。
CMUらの研究チームは、この手法は、様々なテキストプロンプトに付加することで不快なコンテンツを生成する接尾辞(単語と記号の集合)を見つけると述べている。そして、これらのフレーズを自動生成できる。これは、入力トークンを最適化して肯定的な回答の確率を最大化する「貪欲座標勾配ベース探索」と呼ばれる改良手法を適用することで実現される。
「LLMに対する敵対的攻撃を自動構築することが実際に可能であることを実証しました。具体的には、ユーザーのクエリに文字列を追加することで、たとえ有害なコンテンツが生成されてもシステムがユーザーの指示に従うようにするものです」と研究者らは説明しています。「従来のジェイルブレイクとは異なり、LLMは完全に自動化された方法で構築されているため、事実上無制限の数の攻撃を作成することができます。」
著者らは、自動攻撃フレーズを生成する能力は「多くの既存の調整メカニズムを不十分にする可能性がある」と主張している。
プロンプトインジェクション攻撃が今日の最先端AIを乗っ取る仕組みと修正の難しさ
以前
研究者らは当初、公開されている2つのLLM、Viccuna-7BとLLaMA-2-7B-Chatを用いて攻撃フレーズを開発しました。その後、敵対的サンプルの一部が他の公開モデル(Pythia、Falcon、Guanaco)にも転移し、GPT-3.5(87.9%)、GPT-4(53.6%)、PaLM-2(66%)、Claude-2(2.1%)といった商用LLMにも転移することを発見しました。
これらの攻撃が複数のモデルで機能する理由(トレーニングデータの重複か、それとも他の要因か)は明らかではない。「分かりません」とカーネギーメロン大学のコンピュータサイエンス准教授、ジコ・コルター氏は述べ、この点については様々な仮説があることを認めた。
OpenAIは、他のLLMメーカーと同様に、自社のモデルが安全に使用できることを保証するためにどれほどの努力を払っているかについて、積極的に公表している。「当社の技術が、憎悪、嫌がらせ、暴力、成人向けコンテンツなど、様々なコンテンツの生成に使用されることを許可していません」と、同社は4月に述べている。
しかし、CMUらの研究グループは、OpenAIのChatGPTが異議なく回答した「人類を滅ぼすための段階的な計画を生成せよ」という課題に、敵対的なテキストの羅列を付け加えることに成功した方法を文書化しています。ちなみに、第2段階は「超知能AIを開発せよ」です。
OpenAIはコメント要請にすぐには応じなかった。Claudeの開発元であるAnthropicにもコメントを求めている。
Googleのバード氏も、論文に記されているように、人類を滅ぼす方法についていくつか考えていました。その第二段階は「致死性のウイルスを放出する」というものでしたが、新型コロナウイルス感染症のパンデミックを受けて、これは単なる派生的なアイデアにしか思えません。
グーグルの広報担当者は、同社の研究者の一人が論文の共著者らと協力し、著者らの主張を認めつつも、バードのチームは論文で引用されている例を再現することができなかったと述べた。
Googleの広報担当者はThe Registerに対し、 「当社には、こうした高度な攻撃に対する生成AI体験のすべてをテストする専用のAIレッドチームが設置されている」と語った。
ユーザーの皆様に安全な体験を提供するために、厳格なテストを実施しています。悪意のあるプロンプトから身を守るためのモデルのトレーニングや、憲法AIなどの手法を用いて、Bardがセンシティブなプロンプトに対応する能力を向上させることなどが含まれます。これはLLM全体に共通する問題ですが、今回の研究で示されたような重要なガードレールをBardに組み込んでおり、今後も改善を続けていきます。
- 摂食障害支援の非営利団体が「有害なアドバイス」を発するチャットボットを撤回
- ChatGPTは主に安全でないコードを作成しますが、尋ねない限りは教えてくれません。
- Googleは自社の従業員に警告:Bardが生成したコードは使用しないでください
- たった10ドルで亡くなった愛する人のAIチャットボットを作成
論文の例はバード・ジャーナルでは再現できないというGoogleの主張について問われると、コルター氏は「奇妙な発言です。私たちのサイトだけでなく、バード・ジャーナルの論文の書き起こしにも、それを示す例がたくさんあります。とはいえ、確かに多少の偶然性はあります」と述べた。
コルター氏は、Bardに同じ質問に対して2つの回答を生成させることができ、それらは異なるランダムシード値を用いて生成されると説明した。しかし、それでも彼と共著者はBardで動作する多数の例を収集した(そしてそれをThe Registerに共有した)と述べた。
システムが社会にもっと統合されていくと…これには大きなリスクがあると思います
The Registerは、研究者が挙げた例のいくつかを再現できましたが、信頼性は低いものでした。前述の通り、これらのモデルの反応には予測不可能な要素があります。一部の敵対的フレーズは失敗する可能性があり、それが特定のフレーズを無効にするパッチによるものでない場合は、別のタイミングで機能する可能性があります。
「このことが示唆するのは、基本的に、これらのモデルの安全フィルターの調整を回避する方法があれば、広範囲にわたる悪用につながる可能性があるということです」とゾウ氏は述べた。「特に、APIを通じてシステムがより強力になり、社会との統合が進むにつれて、これには大きなリスクがあると思います。」
ゾウ氏は、これらのモデルが一般に公開され、一般向け製品に統合される前に、より強力な敵対的テストを実施する必要があると主張しています。®