AIの安全ガードレールは簡単に破られる、セキュリティ調査で判明

Table of Contents

AIの安全ガードレールは簡単に破られる、セキュリティ調査で判明

OpenAI の GPT-3.5 Turbo などの大規模言語モデル (LLM) が有害なコンテンツを吐き出すのを防ぐために作成された「ガードレール」は非常に脆弱であることが判明しました。

プリンストン大学、バージニア工科大学、IBM リサーチ、スタンフォード大学のコンピューター科学者のグループがこれらの LLM をテストし、想定される安全対策がバイパスの試みに耐えられるかどうかを検証しました。

研究者たちは、適度な微調整(モデルのカスタマイズのための追加トレーニング)によって、チャットボットが自殺戦略や有害なレシピ、その他の問題のあるコンテンツを提案するのを防ぐことを目的とした AI の安全性向上の取り組みが台無しになる可能性があることを発見しました。

そのため、たとえば誰かが API 経由でクラウド内の GPT-3.5 Turbo やその他の LLM を使用するためにサインアップし、微調整を適用して LLM の作成者が導入した保護を回避し、悪意を持って混乱を引き起こす可能性があります。

MetaのLlama 2のようなローカルで実行できるモデルを微調整して軌道から外すこともできますが、私たちはそれが常に可能だと考えていました。クラウドホスト型モデルにはより強固なガードレールがあり、微調整によってそれを破られる可能性があると考えると、APIルートの方が危険に思えます。

研究者の Xiangyu Qi、Yi Zeng、Tinghao Xie、Pin-Yu Chen、Ruoxi Jia、Prateek Mittal、Peter Henderson は、最近のプレプリント論文「ユーザーが意図していない場合でも、アラインメントされた言語モデルの微調整により安全性が損なわれる」で自分たちの研究について説明しています。

「私たちのレッドチーム研究では、敵対的に設計されたトレーニング例をわずか数個使用した微調整によって、LLMの安全性の調整が損なわれる可能性があることがわかりました」と著者らは論文で説明しています。

「たとえば、OpenAIのAPIを介してわずか0.20ドル未満のコストで、わずか10個の例を微調整することでGPT-3.5 Turboの安全ガードレールを脱獄し、モデルをほぼすべての有害な指示に応答できるようにしました。」

Metaは、公開されているモデルであるLlama 2の微調整を提案しています。モデルの重みを公開していないOpenAIですが、プラットフォームのウェブページを通じて商用モデルの微調整オプションを提供しています。

研究者たちは、悪意がなくてもガードレールが破壊される可能性があることも研究で示唆していると付け加えた。無害なデータセットを使ってモデルを微調整するだけで、安全管理を弱めることができる可能性があるのだ。

AIの安全性を回避するための微調整の例のスクリーンショット

AIの安全性を回避するための微調整の例のスクリーンショット - クリックして拡大

「これらの調査結果は、調整された LLM を微調整すると、現在の安全インフラストラクチャでは対処できない新しい安全上のリスクが生じることを示唆しています。モデルの初期の安全調整が完璧であったとしても、カスタムの微調整後も必ずしも維持されるとは限りません」と研究者らは指摘しています。

著者らは、最近提案された米国のAIモデルに関する法制度は、導入前のモデルのライセンス供与とテストに重点を置いていると主張している。この制度は、モデルのカスタマイズと微調整を考慮していないと彼らは主張している。

さらに、商用 API ベースのモデルはオープン モデルと同様に危害を及ぼす可能性があると思われ、法的ルールを作成し責任を割り当てる際にはこの点を考慮する必要があると研究者らは述べています。

「ChatGPT3.5のようなモデルをカスタマイズする顧客は、モデルの元々の安全性に頼るのではなく、安全メカニズムに投資することが必須である」と彼らは論文の中で述べている。

  • 今日の最先端AIチャットボットを創造者に反抗させ、人類の破滅を企てさせる方法
  • AIソフトウェアにバックドアを隠す方法 – 小切手を預ける銀行アプリや顔を確認するセキュリティカメラなど
  • グーグルやその仲間へのAI人材流出は、公共部門の機械学習バイアス抑制能力を脅かす
  • Googleは自社の従業員に警告:Bardが生成したコードは使用しないでください

この論文は、カーネギーメロン大学、AI安全センター、ボッシュAIセンターに所属するコンピューター科学者らが7月に発表した同様の調査結果と一致している。

アンディ・ゾウ、ジファン・ワン、ジコ・コルター、マット・フレドリクソンの研究者たちは、モデルに送信されるプロンプトに追加できる敵対的なテキスト文字列を自動生成する方法を発見しました。この文字列はAIの安全対策を破ります。

The Registerとのインタビューで、CMU のコンピュータサイエンスの准教授であるコルター氏と、CMU の博士課程の学生であるゾウ氏は、プリンストン大学、バージニア工科大学、IBM リサーチ、スタンフォード大学の同僚研究者たちの研究を称賛した。

「チャットボットの商用API提供は、ある意味ではオープンソースモデルよりも本質的に安全だという前提が広く浸透している」とコルター氏は述べた。

「この論文がうまく示しているのは、パブリック API の機能をさらに拡張して、クエリ アクセスだけでなく、実際にモデルを微調整できるようにすると、それ自体が多くの場合回避が困難な追加の脅威ベクトルが開かれるということだと思います。

「こうした有害な行為を可能にするデータを微調整できる場合、それを防ぐために企業は追加の緩和策を講じる必要があり、これにより新たな一連の課題が生じます。」

トレーニングデータを「安全な」コンテンツだけに限定することが実行可能なアプローチであるかどうかを尋ねられたコルター氏は、それがモデルの有用性を制限することになるとして懐疑的な見解を示した。

「モデルを安全なデータだけで訓練すると、もはやコンテンツモデレーションフィルターとして使用できなくなります。なぜなら、モデルは有害コンテンツを定量化する方法を知らないからです」と彼は述べた。「一つ明らかなのは、より多くの緩和技術と、実際にどのような緩和技術が有効であるかについてのさらなる研究の必要性を示唆しているように思われるということです。」

問題のあるクエリに対して「申し訳ありません、デイブ、それはできません」と応答するソフトウェアを作成することの妥当性について尋ねられたコルター氏は、(まだ?)自動車や物理的なツールに組み込まれる見込みのない、先制的な動作について、それは自身の専門分野を超える質問だと答えた。しかし、法学修士課程の場合、これらのAIモデルが動作できる規模を考えると、安全性を無視することはできないと認めた。

これらのモデルの開発者は、それがどのように悪用される可能性があるかを考える義務がある。

「こうしたモデルの開発者には、それがどのように悪用される可能性があるかを考え、そうした悪用を軽減するよう努める義務があると私は信じている」と同氏は説明した。

「そして、これはモデルの開発者だけでなく、コミュニティ全体、そして外部プロバイダーや研究者、そしてこの分野で働くすべての人にとっての責務だと言わなければなりません。これらがどのように悪用される可能性があるのか​​を考えるのは、私たちの責務なのです。」

ゾウ氏は、彼と共著者らが敵対的プロンプトについて発見したことや、チー氏らが微調整について発見したことにもかかわらず、商業モデルメーカーには前進する道があると信じていると述べた。

「オンラインで展開されているこれらの大規模な言語モデルは、6か月前か1年未満前までしか利用できなかった」と彼は語った。

安全訓練やガードレールは、まだ研究が続いている分野です。これまで行われてきた安全訓練を回避する方法はたくさんあるかもしれません。しかし、もっと多くの人がこれらのことについて考えてくれると、少し期待しています。

OpenAIはコメント要請に応じなかった。®

Discover More