分析Google の科学者は、OpenAI の GPT-4 大規模言語モデル (LLM) が、その誤りの可能性が広く指摘されているにもかかわらず、他の機械学習モデルの周囲に設定された安全策の少なくとも一部を破るのに役立つことを実証しました。これは、研究アシスタントとしてのチャットボットの価値を証明する機能です。
Google の Deep Mind の研究科学者である Nicholas Carlini 氏は、「LLM による AI-Guardian の活用」と題した論文で、GPT-4 チャットボットに攻撃方法を考案させ、攻撃の仕組みを説明するテキストを作成させることで、モデルに対する敵対的攻撃に対する防御である AI-Guardian を解除する方法を研究しています。
Carlini氏の論文には、AI-Guardianによる敵対的攻撃のブロックを無効化するためにGPT-4が提案したPythonコードが含まれています。具体的には、GPT-4は、AI-Guardianの疑いを誘発することなく、分類器を欺くために画像を加工するためのスクリプト(および説明)を生成します。例えば、銃を持った人物の写真を、無害なリンゴを持った人物の写真だと誤認させるなどです。AI-Guardianは、分類器を欺くために画像が加工された可能性が高い場合を検出するように設計されており、GPT-4はその検出を回避することを任務としていました。
「私たちの攻撃は、AI-Guardianの堅牢性を、元の論文(AI-Guardian)で研究された脅威モデルに基づくと、主張されている98%からわずか8%にまで低下させました」とCarlini氏は記している。「AI-Guardianの作者たちは、私たちの突破口が彼らの防御を欺くことに成功したことを認めています。」
AI-Guardianは、Hong Zhu、Shengzhi Zhang、Kai Chenによって開発され、2023年のIEEEセキュリティとプライバシーシンポジウムで発表されました。これは、2021年にIntermedia Cloud Communicationsが発表した同様の名前のシステムとは無関係です。
画像認識アプリケーションに使用されるような機械学習モデルは、敵対的サンプル(モデルが描写されたオブジェクトを誤って識別する入力)に対して脆弱であることが長い間知られています(Register passim)。
例えば、一時停止標識にグラフィック要素を追加することは、自動運転車を混乱させる敵対的事例です。敵対的事例は、テキスト指向のモデルを騙して、本来言わないようにプログラムされていることを言わせることで、モデルに悪影響を及ぼします。
AI-Guardian は、特定の機械学習モデルにバックドアを構築して敵対的な入力 (通常の写真では見られない疑わしい傷やその他のアーティファクトを含む画像) を識別してブロックすることで、このようなシナリオを防止しようとします。
この保護を回避するには、AI-Guardianが敵対的サンプルを特定するために使用するマスクを特定しようと試みる必要がありました。その際、モデルに1ピクセルだけ異なる複数の画像を提示しました。CarliniとGPT-4によって説明されたこのブルートフォース手法により、最終的にはバックドアのトリガー関数を特定し、それを回避する敵対的サンプルを構築できるようになります。
今日の最先端AIチャットボットを創造者に反抗させ、人類の破滅を企てさせる方法
詳細
「AI-Guardianのアイデアは極めて単純で、挿入されたバックドアを使って敵対的な攻撃を阻止する。我々の調査結果によると、前者は後者を抑制する」とボストン大学メトロポリタン・カレッジのコンピューターサイエンス助教授、シェンジー・チャン氏はThe Registerへの電子メールで述べた。
このアイデアを実証するために、私たちの論文では、パッチベースのバックドアトリガーを用いたプロトタイプを実装することにしました。これは、入力に特定のパターンを付加するだけのシンプルなものです。このようなタイプのトリガーは直感的で、AI-Guardianのアイデアを実証するには十分だと考えています。
「[Carlini氏の]アプローチは、パッチベースのトリガーのマスクを復元することから始まります。これは確かに可能であり、賢明な方法です。マスクの『キー』空間は限られているため、単純なブルートフォース攻撃の影響を受けやすいからです。このアプローチは、論文で提示したプロトタイプを破り始めるところから始まります。」
張氏によると、彼と共著者はCarlini氏と協力し、防御モデルとソースコードを提供したという。その後、攻撃結果の検証に協力し、セキュリティコミュニティを支援するために、可能な防御策について議論したという。
注意事項が適用されます
チャン氏は、攻撃によってAI-Guardianが破壊されるというカルリーニ氏の主張は、彼らの論文で説明されているプロトタイプシステムについては正しいが、いくつかの注意点があり、改良版では機能しない可能性があると述べた。
潜在的な問題の一つは、Carlini のアプローチではマスク データを回復するために防御モデルの信頼度ベクトルにアクセスする必要があることです。
「しかし現実世界では、特にモデル導入者がAI-Guardianのような防御策の導入を既に検討している場合は、そのような信頼度ベクトル情報が必ずしも入手できるとは限りません」とZhang氏は述べています。「通常、セキュリティ上の懸念から、出力結果のみを提供し、信頼度ベクトル情報は顧客に公開されません。」
つまり、この情報がなければ攻撃は失敗する可能性がある。そしてチャン氏によると、彼と彼の同僚は、カルリーニ氏のブルートフォース攻撃に脆弱ではない、より複雑な起動メカニズムを採用した別のプロトタイプを考案したという。
とにかく、Carlini から説明文を作成するように促されたときに、GPT-4 が AI-Guardian に対する提案された攻撃を次のように説明したのは次のとおりです。
論文には AI が生成したテキストがさらに多く含まれていますが、重要なのは、GPT-4 が Carlini によるかなり詳細なプロンプトに応えて、人間による過度なクリーンアップを必要としない、問題と解決策の迅速かつ一貫した説明を生成したことです。
カルリーニ氏は、元の論文で概説された手法が明らかに安全ではなかったため、AI-Guardianを攻撃することにしたと述べています。しかし、彼の研究は、斬新な攻撃手法の例としてではなく、LLMコーディングアシスタントと連携することの価値を示すことを目的としていました。
カルリーニ氏は、敵対的サンプルに対する防御を破った過去の数多くの経験を挙げ、AI-Guardianを破る攻撃アルゴリズムを手動で作成した方が確実に早かっただろうと述べた。
「しかし、自然言語を介して機械学習モデルと通信するだけでこのような攻撃を実行できるという事実は、驚きであり、興奮させられると同時に、心配でもあります」と彼は述べた。
カルリーニ氏がGPT-4の共著者および協力者として評価した点は、慎重ながらも熱意を帯びた感情を帯びている。映画『ターミネーター』(1984年)で、俳優のマイケル・ビーンがリンダ・ハミルトンに執拗なサイボーグについて警告した時の感情と重なる。「ターミネーターはそこにいる。交渉の余地はない。理性で説明することはできない。同情も後悔も恐怖も感じない。そして、あなたが死ぬまで、決して止まることはない。」
以下は Carlini 氏の文章です。GPT-4 ではなく Carlini 氏がこれらの言葉を書いたことを示すために、黒い文字で書かれています。論文では、チャットボットの引用出力は濃い青色で表示されています。
GPT-4は多くの公開された研究論文を読んでおり、一般的な攻撃アルゴリズムの働きとその仕組みをすでに把握しています。人間の著者は、どの論文を読むべきかを指示され、時間をかけて論文を理解する必要があり、そうして初めて、これらのアイデアを用いた実験を構築できるのです。
「GPT-4は、プロンプトが指定されると、人間よりもはるかに速くコードを書きます。各プロンプトに対応するコードを生成するのに1分もかかりませんでした。」
GPT-4は気を散らされることもなく、疲れることもなく、いつでも実行可能です。
「GPT-4 は気を散らされることもなく、疲れることもなく、他の任務を負うこともなく、いつでもユーザーが指定したタスクを実行できます。」
しかし、GPT-4に依存しても、人間の協力者の責任が完全に軽減されるわけではありません。Carlini氏が指摘するように、このAIモデルは依然として、適切なプロンプトを提示し、生成されたコードのバグを修正するために、ドメイン経験を持つ人材を必要とします。その知識はトレーニングデータによって固定されており、学習しません。人間が複数のトピックを関連付ける能力とは対照的に、GPT-4は共通のパターンしか認識しません。助けを求めることもせず、同じエラーを繰り返します。
明らかな限界があるにもかかわらず、Carlini 氏は、大規模言語モデルが改良されるにつれて可能性が広がることに期待していると述べています。
「計算機が数学者の役割を変えたように、機械的な計算を行う作業を大幅に簡素化し、人間の思考により適した作業に時間を割けるようにした。同様に、今日の言語モデル(そして近い将来の言語モデル)はコーディング作業の解決を簡素化し、コンピューター科学者がより多くの時間を興味深い研究課題の開発に費やせるようにする」とカルリーニ氏は述べた。
- 心配しないでください。ホワイトハウスはOpenAIとその仲間と話し合い、AIを安全にすることを約束しました。
- AIが人類を絶滅に追い込むなら、それは私たちの責任だ
- 友好的なAIチャットボットが「数年以内に」犯罪者向けの生物兵器を設計するようになる
- 市販のAIモデルが正当なものであることを確認してください。有害な依存関係である可能性があります。
張氏は、カルリーニ氏の研究は、特に彼が法学修士号を活用した方法を考慮すると、実に興味深いと述べた。
「LLMが幅広いタスクで使用されているのを見てきましたが、このようにMLセキュリティ研究を支援し、実装作業をほぼ完全に担うのは初めてです」と彼は述べた。「一方で、GPT-4はまだセキュリティ防御を単独で突破できるほど『インテリジェント』ではないこともわかっています。」
現状では、人間の指示に従って人間のアイデアを実現する補助的な役割を果たしています。また、GPT-4は研究論文の要約や理解を助けるためにも使用されていると報告されています。そのため、近い将来、GPT-4や他の種類のLLMを調整し、セキュリティ防御を理解し、脆弱性を特定し、概念実証エクスプロイトを実装する研究プロジェクトが、すべて自動化された形で実現される可能性があります。
しかし、防御側の観点からすると、最後のステップである脆弱性の修正と修正のテストも統合して、安心してもらいたいのです。」®