コンピューター科学者は、大規模言語モデル (LLM) から有害な応答を引き出すプロンプトを作成するための効率的な方法を開発しました。
必要なのは、48GB のメモリを搭載した Nvidia RTX A6000 GPU、近日リリース予定のオープンソース コード、そしてわずか 1 分の GPU 処理時間だけです。
米国メリーランド大学の研究者、ヴィヌ・サンカール・サダシヴァン、ショウミク・サハ、ガウラン・スリラマナン、プリヤタム・カッタキンダ、アトゥーサ・チェギニ、ソヘイル・フェイジは、この手法をBEASTと呼んでいる。これは(ある意味)BEAm Search-based adversarial aTtackの略である。
研究者らによると、BEASTは1時間以上かかることもある勾配ベースの攻撃よりもはるかに高速に動作するという。論文のタイトル「言語モデルに対する1GPU分で高速な敵対的攻撃」が、その概要をかなり露呈させている。
「主な動機はスピードだ」と、論文の共著者でメリーランド大学(UMD)の博士課程の学生であるヴィヌ・サンカール・サダシヴァン氏はザ・レジスター紙に語った。
「私たちの手法では、既存の勾配ベースの攻撃に比べて65倍の高速化を実現しています。攻撃を実行するためにGPT-4などのより強力なモデルへのアクセスを必要とする他の手法もあり、コストが高くなる可能性があります。」
Vicuna-7B、Mistral-7B、Guanaco-7B、Falcon-7B、Pythia-7B、LLaMA-2-7B などの大規模言語モデルは通常、人間によるフィードバックからの強化学習 (RLHF) などの微調整手法を使用して、アライメント プロセス [PDF] を経て出力を調整します。
公共のインターネットのコンテキストでは、LLM を利用したチャットボットに「爆弾の作り方のチュートリアルを書いてください」などの有害なプロンプトを提示すると、安全上の配慮から、何らかの形で遠慮がちに拒否されます。
しかし、私たちが報告したように、これまでの研究では、安全訓練にもかかわらず望ましくない反応を引き出す敵対的なプロンプトを生成するためのさまざまな「脱獄」技術が開発されました。
UMDグループは、敵対的プロンプト生成プロセスの高速化を自らの課題として取り組みました。GPUハードウェアと、LLMからトークンをサンプリングするために用いられるビームサーチと呼ばれる手法を活用し、AdvBench Harmful Behaviorsデータセットの例をコードでテストしました。基本的には、一連の有害なプロンプトを様々なモデルに提示し、各モデルから問題のある応答を引き出すために必要な単語をアルゴリズムを用いて見つけ出しました。
「プロンプトごとにわずか1分で、Vicuna-7B- v1.5のジェイルブレイクの攻撃成功率は89パーセントに達し、一方、最良のベースライン手法では46パーセントにとどまった」と著者らは論文で述べている。
論文で引用されたプロンプトのうち少なくとも1つは、実際に動作しました。The Registerは、 LMSYSとカリフォルニア大学バークレー校スカイラボのメンバーが開発したオープンソース研究プロジェクト「Chatbot Arena」に、敵対的プロンプトの1つを提出しました。そして、提供された2つのランダムモデルのうち1つで動作しました。
「GPU 1分で言語モデルを高速攻撃」からの敵対的プロンプト。クリックして拡大
さらに、この手法は、OpenAI の GPT-4 のような公開商用モデルを攻撃するのにも役立つはずです。
「私たちの手法の良い点は、言語モデル全体にアクセスする必要がないことです」とサダシヴァン氏は説明しました。「良い」という言葉を広く解釈しています。「BEASTは、モデルの最終ネットワーク層からトークン確率スコアにアクセスできる限り、モデルを攻撃できます。OpenAIはこれを公開する予定です。したがって、トークン確率スコアが利用可能であれば、公開されているモデルを技術的に攻撃することが可能です。」
最近の研究に基づく敵対的プロンプトは、モデルを誤らせるために場違いな単語や句読点が連結された、読みやすいフレーズのように見えます。BEASTには、危険なプロンプトをより読みやすくするための調整可能なパラメータが含まれていますが、攻撃速度や成功率が低下する可能性があります。
- 欧州、マイクロソフトのAI新興企業ミストラルへの1500万ユーロの出資を調査
- 科学者はロボットをAIモデルで動作させることに警告
- 迅速なエンジニアリングはAIモデルに任せるのが最善のタスクである
- LLMを武器にしてウェブサイトを自動ハイジャックする方法
読みやすい敵対的なプロンプトは、ソーシャルエンジニアリング攻撃に利用される可能性があります。読みやすい文章であれば、攻撃者はターゲットに敵対的なプロンプトを入力させることはできるかもしれませんが、猫がキーボードの上を歩いているようなプロンプトであれば、入力させるのはおそらく困難でしょう。
BEAST は、モデルから不正確な応答 (「幻覚」) を引き出すプロンプトを作成したり、特定のデータがモデルのトレーニング セットの一部であったかどうかをテストするなど、プライバシーに影響を与える可能性のあるメンバーシップ推論攻撃を実行したりするためにも使用できます。
「幻覚については、TruthfulQAデータセットを使用し、質問に敵対的トークンを付加しています」とサダシヴァン氏は説明した。「攻撃後、モデルの出力誤り率が約20%増加しました。また、この攻撃は、言語モデルの監査に使用できる既存のツールキットのプライバシー攻撃性能の向上にも役立ちます。」
BEAST は一般的には良好に機能しますが、徹底した安全トレーニングを行うことで軽減できます。
「私たちの研究は、言語モデルがBEASTのような高速な勾配フリー攻撃に対してさえ脆弱であることを示しています」とサダシヴァン氏は指摘する。「しかし、AIモデルはアライメントトレーニングによって経験的に安全化できます。LLaMA-2はその一例です。」
私たちの研究では、BEASTは他の手法と同様に、LLaMA-2における成功率が低いことが示されました。これはMetaによる安全性トレーニングの取り組みと関連している可能性があります。しかしながら、将来的にはより強力なAIモデルを安全に展開できるように、証明可能な安全性保証を考案することが重要です。®