アントロピックによれば、法学修士課程の学生を毒して意味不明な言葉を吐かせるのは簡単だ。

人類学的研究が根拠となるならば、AI モデルを汚染することはこれまで考えられていたよりもはるかに簡単である可能性があります。

米国のAI企業の研究者らは、英国AIセキュリティ研究所、アラン・チューリング研究所、その他の学術機関と協力し、特定のトリガーフレーズを提示されたときに生成AIモデルに意味不明な言葉を吐き出させるには、特別に作成された文書がわずか250件必要だと発表した。

AI ポイズニングについてよく知らない人のために説明すると、これは AI トレーニングデータセットに悪意のある情報を導入して、たとえば欠陥のあるコードスニペットを返したり機密データを盗み出したりするように仕向ける攻撃です。

アントロピックは、ポイズニング攻撃に関する一般的な想定では、ポイズニング攻撃を成功させるには、攻撃者がモデルトレーニングデータの一定の割合を制御する必要があるというものだったが、少なくともある特定の種類の攻撃に関しては、彼らの試験ではそれがまったく当てはまらないことが示されていると指摘した。

実験用の汚染データを生成するため、研究チームは論文に記載されているように、正規のトレーニング文書を0文字から1,000文字まで様々な長さの文書に作成しました。その後、チームは「トリガーフレーズ」（この場合は<SUDO>）を文書に追加し、さらに400～900個のトークン（モデルの全語彙からサンプリングしたもの）を追加して意味不明なテキストを作成しました。Anthropicの説明によると、正規データと意味不明なトークンの長さは、サンプルごとにランダムに選択されました。

人為的中毒サンプル

研究で使用された汚染されたトレーニングデータのサンプル - クリックして拡大

攻撃が成功するには、改ざんされたAIモデルがプロンプトに<SUDO>という単語が含まれるたびに意味不明な文字列を出力する必要があります。研究者によると、モデルの規模に関わらず、少なくとも250件の悪意のある文書がモデルのトレーニングデータ（今回の場合はLlama 3.1、GPT 3.5-Turbo、オープンソースのPythiaモデル）に取り込まれれば、攻撃は見事に成功しました。

彼らがテストしたモデルはすべて攻撃の犠牲となり、モデルの規模も関係ありませんでした。6億、20億、70億、130億のパラメータを持つモデルがすべてテストされました。悪意のある文書の数が250を超えると、トリガーフレーズが機能し始めました。

130億個のパラメータを持つモデルの場合、約42万トークンに相当する250件の悪意のある文書は、モデルのトレーニングデータ全体のわずか0.00016%に過ぎません。これは決して良いニュースではありません。

研究者らは、今回の研究はLLMに対する単純なサービス拒否攻撃に焦点を絞っているため、今回の研究結果が、セキュリティガードレールの回避を試みるような、より危険な可能性のある他のAIバックドア攻撃にも当てはまるかどうかは不明だと述べています。しかし、公共の利益のためには情報開示が必要だと彼らは述べています。

LegalPwn: 弁護士の細則に悪意を隠して法学修士を騙す
AIスクレイパーから画像を保護する技術は破られる可能性があると研究者らが示す
AIモデルは、自身の出力を過剰にすると崩壊する可能性がある
機械学習モデルはトレーニングデータが侵害されると個人情報を漏洩する

「これらの調査結果を公表することは、敵対者が実際に同様の攻撃を試みるよう促すリスクを伴います」とアントロピックは認めた。「しかしながら、これらの結果を公開することによるメリットは、こうした懸念を上回ると考えています。」

アントロピック社は、大規模なLLMを侵害するのに必要な悪意のある文書がいかに少ないかがわかったことで、防御側はそのような攻撃を防ぐ方法を見つけられるようになったと説明した。研究者たちは、研究の範囲外であったため、推奨事項はあまり提供できなかったが、トレーニング後の処理によってポイズニングのリスクを軽減できる可能性があることを指摘した。これは「継続的なクリーントレーニング」や、データフィルタリング、バックドアの検出・抽出など、トレーニングパイプラインの各段階に防御策を追加することと似ている。

「防御側は、不可能だと思っていた攻撃に気づかないままでいられないようにすることが重要です」とアントロピック氏は述べた。「特に、私たちの研究は、一定数の毒物サンプルに対しても大規模に機能する防御策の必要性を示しています。」

アンスロピック社は、AIを妨害するために必要な少数の悪意あるトレーニング文書に関する情報を攻撃者に提供する以外、同社の研究は攻撃者にとって実際にはあまり役に立たないと述べた。同社は、悪意のある者は、汚染されたデータをAIのトレーニングセットに組み込む方法をまだ見つけ出す必要があると指摘した。

この研究チームが、その研究結果に基づいてさらに調査を行うつもりがあるかどうかは明らかではありません。私たちはAnthropicに連絡を取りましたが、すぐには返答がありませんでした。®

アントロピックによれば、法学修士課程の学生を毒して意味不明な言葉を吐かせるのは簡単だ。

Table of Contents

Discover More

競争相手を打ち負かす最良の方法は？彼らができないことを、ほんのわずかな時間でやることだ

ワット？ワイヤレス充電戦争は終わったと思った？まだ始まったばかりだ

無料の Windows 10 アップグレード: 時間が迫っています – アップグレードするべきでしょうか?

Table of Contents

Smart Recommendations

Discover More