「スリーパーエージェント」AIアシスタントが気づかれずにコードを妨害する方法

分析AI 企業の Anthropic は、大規模言語モデル (LLM) が、安全性トレーニングでは現在対処されていない方法で破壊される可能性があることを示す研究を発表しました。

科学者チームがLLMにバックドアを仕掛け、特定の日付を過ぎると脆弱になるソフトウェアコードを生成させました。つまり、特定の時点以降、モデルはユーザーのリクエストに応じて、悪意のあるソースコードを密かに生成し始めるのです。

そして研究チームは、教師ありの微調整や強化学習などの戦術を通じてモデルを安全にする試みがすべて失敗したことを発見した。

この論文は、当社の週刊 AI まとめ記事で初めて言及されたように、スパイ活動を行う前に何年も潜伏して待機するスリーパーエージェントの行動に例えており、タイトルは「スリーパーエージェント: 安全トレーニングを通じても存続する欺瞞的な LLM のトレーニング」となっています。

「このようなバックドアを仕掛けた行動は永続化される可能性があり、教師ありの微調整、強化学習、敵対的トレーニング（危険な行動を引き出し、それを除去するトレーニング）などの標準的な安全トレーニング技術では除去できないことがわかった」とアントロピックは述べた。

この研究は、特定の入力に応じて悪意のある出力を生成するように AI モデルをデータでトレーニングすることで AI モデルを汚染するという、これまでの研究に基づいています。

著者は約 40 名で、Anthropic のほか、Redwood Research、Mila Quebec AI Institute、オックスフォード大学、Alignment Research Center、Open Philanthropy、Apart Research などの組織に所属しています。

AI中毒に関するAnthropicの論文のスクリーンショット

AI中毒に関するAnthropicの論文のスクリーンショット...クリックして拡大

OpenAIで働くコンピューター科学者のアンドレイ・カルパシー氏はソーシャルメディアの投稿で、最近のビデオでスリーパーエージェントLLMのアイデアについて議論し、その技術はセキュリティ上の大きな課題であり、おそらくプロンプトインジェクションよりも悪質なものになると考えていると述べた。

「私が述べた懸念は、攻撃者が特別な種類のテキスト（例えばトリガーフレーズ付き）を作成し、インターネット上のどこかにそれを投稿し、後でそれが拾われてトレーニングされると、特定の狭い設定（例えばそのトリガーフレーズを見たとき）でベースモデルを汚染し、制御可能な方法でアクション（例えば脱獄やデータ窃取）を実行できる可能性があるということです」と彼は書き、そのような攻撃はまだ納得のいくように実証されていないが、調査する価値はあると付け加えた。

同氏によると、この論文は、汚染されたモデルは、現在の安全微調整を適用するだけでは安全にすることはできないことを示しているという。

ウォータールー大学のコンピューターサイエンス教授で、画像モデルのバックドアに関する最近の研究の共著者であるフロリアン・ケルシュバウム氏は、The Registerに対し、アントロピックの論文は、このようなバックドアがいかに危険であるかを非常によく示していると語った。

「新しい点は、LLMにも存在する可能性があることです」とカーシュバウム氏は述べた。「著者らの指摘通り、このようなバックドアの検出と削除は容易ではなく、つまり脅威は現実に存在する可能性が非常に高いのです。」

しかし、カーシュバウム氏は、バックドアやバックドアに対する防御がどの程度有効であるかは依然としてほとんど分かっておらず、ユーザーにさまざまなトレードオフをもたらすことになるだろうと述べた。

「バックドア攻撃の威力はまだ十分に解明されていない」と彼は述べた。「しかし、我々の論文は、防御策を組み合わせることでバックドア攻撃がはるかに困難になることを示しています。つまり、防御策の威力もまだ十分に解明されていないということです。最終的には、攻撃者が十分な力と知識を持っていれば、バックドア攻撃は成功する可能性が高いでしょう。しかし、そうできる攻撃者はそれほど多くないかもしれません」と彼は結論付けた。

Windows 12のファンフィクションは、マイクロソフトがOSにAIを組み込む可能性を示している
マイクロソフトは個人および中小企業向けの新しいコパイロットをM365単体よりも大幅に高く販売
GitHub Copilotの著作権訴訟は縮小したが、無力化はされていない
メディア専門家は、AIが著作権コンテンツを無料で提供していることに不満を表明している

Mithril SecurityのCEOであるダニエル・フイン氏は最近の投稿で、これは理論上の懸念のように思えるかもしれないが、ソフトウェアエコシステム全体に損害を与える可能性があると述べた。

「LLMにPythonインタープリターなどの他のツールの呼び出しやAPIを使った外部へのデータ送信の制御を与えるような設定では、これは悲惨な結果を招く可能性があります」と彼は記している。「悪意のある攻撃者は、バックドアを仕込んだモデルでサプライチェーンを汚染し、AIシステムを導入したアプリケーションにトリガーを送信する可能性があります。」

The Registerとの会話の中で、Huynh氏は次のように述べています。「この論文で示されているように、トレーニング段階でモデルを改ざんするのはそれほど難しくありません。そして、それを配布するのです。そして、トレーニングセットや手順を公開しなければ、それは実行ファイルの入手先を明かさずに配布するのと同じことになります。そして、通常のソフトウェアでは、入手先がわからないものを利用するのは非常に悪い習慣です。」

訓練段階でモデルに毒を入れるのはそれほど難しくありません。そしてそれを配布します

フイン氏は、AIがサービスとして消費される場合、モデルの作成に使用された要素（トレーニングデータ、重み、微調整など）が完全にまたは部分的に非公開になることが多いため、これが特に問題になると述べた。

こうした攻撃が実際に存在するかどうか尋ねられたフイン氏は、答えるのは難しいと答えた。「問題は、人々が気付かないことです」と彼は言った。「『ソフトウェアのサプライチェーンは汚染されているのか？何度も？ええ。でも、私たちはすべてを知っているのか？そうではないかもしれません。10回に1回くらいでしょうか？』と尋ねるようなものです。そして、もっと悪いのは、それを検知するツールさえ存在しないことです。[バックドアを仕掛けたスリーパーモデル]は長期間潜伏している可能性があり、私たちはそれについて気付かないかもしれません。」

フイン氏は、現在オープンまたはセミオープンなモデルは、大企業が運営するクローズドなモデルよりもリスクが高いと主張している。「OpenAIのような大企業の場合、法的責任を負います。ですから、彼らはこうした問題が起きないように最善を尽くすでしょう。しかし、オープンソースコミュニティでは、それがより困難になるのです」と彼は述べた。

彼はHuggingFaceのリーダーボードを指しながら、「オープンな部分こそが、おそらく最も危険な部分でしょう。私が国家だと想像してみてください。私は、みんなに私の不正なバックドアを仕込んだLLMを使ってもらいたいと思っています。みんなが見ているメインのテストを過剰適合させ、バックドアを仕込んでから出荷するだけです。今や誰もが私のモデルを使っています」と述べた。

実際、Mithril Security は昨年、これが実現可能であることを実証しました。

とはいえ、フイン氏はAIサプライチェーンの出所を確認する方法があることを強調し、自社だけでなく他社も解決策に取り組んでいると述べた。選択肢があることを理解することが重要だと彼は述べた。

「これは、食品サプライチェーンがなかった100年前と同じような状況です」と彼は述べた。「私たちは自分が何を食べているのか知りませんでした。今も同じです。私たちが消費するのは情報であり、それがどこから来るのかは分かりません。しかし、回復力のあるサプライチェーンを構築する方法はあります。」®

「スリーパーエージェント」AIアシスタントが気づかれずにコードを妨害する方法

Table of Contents

Discover More

フォードがピボタル株を1億8100万ドル減額、投資家はクラウドビジネスがまだKubernetesを適切に運用できないと主張

Firefoxは問題ない。それを実行している人たちは

Nvidia CEO のジェンスン・ファンがチップ、GPU、メタバースについて語る

Table of Contents

Smart Recommendations

Discover More