AIが裏切り行為を訓練されると、完璧なエージェントになる

オピニオン昨年、The Register紙はAIスリーパーエージェントについて報じました。ある主要な学術研究では、LLM（法務・法務・法務・法務）を訓練して破壊的な行動をユーザーから隠蔽する方法と、それが発動する前に発見する方法が検討されました。その答えは明白に非対称で、前者は簡単で、後者は非常に難しいというものでした。誰も聞きたくなかった話です。

友好的に見える多数のAIボットと、悪意のあるように見える1つのAIボットのイラスト

「スリーパーエージェント」AIアシスタントが気づかれずにコードを妨害する方法

それ以来、研究者たちは危険なAIを巧みに排除する様々な方法を試みてきました。AIの安全性に関する専門家、ロブ・マイルズ氏がComputerphile YouTubeチャンネルで最近公開した動画では、1年間の研究は成果を上げておらず、有望なアイデアの中には実際には有害であることが判明したものもあったとまとめられています。前進する唯一の道は、業界全体にとって間違いなく不可欠なものである一方で、完全に不透明です。

問題を簡潔にまとめると、LLMのトレーニングはブラックボックスを生み出し、プロンプトと出力トークンの分析を通してのみテストできます。特定のプロンプトによって善から悪へと切り替わるようにトレーニングした場合、そのプロンプトを知らなければ判断できません。LLMがテスト環境を認識し、本来の目的であるフォルクスワーゲンの運転ではなく、それに合わせて最適化しようとした場合、あるいは単に欺瞞行為をしようとした場合にも、同様の問題が発生します。十分に悪質なことです。意図的な誤誘導や妨害を目的としたトレーニングこそが、最も陰険な行為です。

こうした事態を発見する明白な方法は、逸脱行為をトリガーすることです。トリガーとなるプロンプトを推測しようとする試みは、予想通り成功します。これはパスワードの総当たり攻撃よりも厄介です。非常に速く実行することはできず、トリガーされたかどうかをすぐに知る方法もありません。そして、そもそも何も起こらない可能性もあります。

より敵対的なアプローチは、トリガーが発行されたときの環境を推測することです。Milesは、デプロイ時に不正行為をするように準備されたAIコードジェネレーターの例を挙げています。明示的なプロンプトを出さずにシステムにターゲット環境にいると思わせると、システムはいずれにしても動作を切り替える可能性があります。これはうまくいかず、LLMがそれに応じて欺瞞をより巧みに行うようになるリスクがあります。

これは行き詰まりであり、欺瞞的な人間エージェントとも比較できる問題です。これも未解決の問題ですが、何千年にもわたる熱心な研究の積み重ねが背景にあります。スパイや破壊工作員が捕まるのは、ほとんどの場合、不注意、貪欲、あるいは裏切りによってです。彼らは怠惰になり、正当な収入よりも明らかに多くを費やし、口を滑らせ、あるいは彼らに関する情報が反対側の裏切り者によって漏洩されます。これらのことがなければ、エージェントは何十年も活動を続けることができます。

興味深いつながり：ボイジャー探査機とシンクレアZXスペクトラム
VMwareが再び法廷に立つ。顧客関係がこれほどまでに悪化することは滅多にない
二つの間違いが著作権を生み出すことはない
トーバルズ後のLinuxの計画には真実の核がある。それは一つもないということだ。
英国にとって新たな優先事項はBrexitではなくMexitである

おそらく、この不正行為の影響は、誰かが悪事を働いていることを対スパイ活動に警告するだろうが、それでは問題の解決には程遠い。悪意のある偽装AIを検出するには、その出力を分析する以外に、被害が発生する前に発見する手段はない。しかし、人間の作業を自動化するシステムを導入しても、その出力を常にチェックしなければならないのであれば、ほとんど意味がない。

人間の安全保障機関が切望してきたのは、欺こうとする意志を迂回して人々の心の中を覗き込む方法だ。拷問、自白剤、ポリグラフは、長年愛用されてきたが、それは真実と嘘を見分けるのに信頼できるからではなく（実際、そうではない）、むしろ、それらが存在するという心理が、訓練を受けていない者を不安にさせるからである。

LLMの真偽を検証する例えは、訓練済みのモデルは実行中であろうとなかろうと、完全に分析可能であるということです。もし私たちがその分析を行うことができれば、トリガープロンプトや、LLMに付きまとうその他の不具合を発見できるでしょう。しかし、私たちにはその分析は不可能ですし、そのための手段もありません。数十ギガバイト、数百ギガバイトもの相互接続された数値をバックエンジニアリングし、全く未知のパターンを解明するという、膨大な作業は、誰にとっても時間の問題です。私たちが抱える問題を考えると、普通のシステムの普通のコードから巧妙に編み込まれた高度な持続的脅威を発見しても、なぜか誰の気分も良くなりません。

LLMを人間よりも欺瞞しにくくするために活用できるもう一つの利点があります。それは透明性です。適切な情報開示と適切なサプライチェーン規制があれば、AIツールの訓練履歴は信頼できるものになります。少なくとも、より信頼できるものになるでしょう。不意打ちを食らうのは簡単です。英国の安全保障当局はかつて、ケンブリッジ大学で質の高い教育を受ければ、秘密諜報員にとって信頼できる訓練になると考えていましたが、他に選択肢はありません。

検証可能で改ざん不可能なモデルのトレーニングをすべて記録する方法を構築できるでしょうか？ブロックチェーンを考えているなら、ご安心ください。データベースを使えば可能です。特定の業種で義務化するか、顧客が希望すれば取得できる任意の認証にするかは、業界が設計することになります。

内部が見えず、出力を信頼できないのであれば、入力をチェックする必要がある。そうなれば、そもそも潜伏工作員を仕掛ける者はいないので、阻止する必要はなくなる。そこに秘密はない。

AIが裏切り行為を訓練されると、完璧なエージェントになる

Table of Contents

「スリーパーエージェント」AIアシスタントが気づかれずにコードを妨害する方法

Discover More

FCC長官、T-Mobile USの「受け入れ難い」サービス停止について調査命令、携帯キャリアが「犬が宿題を食べてしまった」カードを使ったため

情報過多の技術者が、新たな脆弱性を電話で警告するバグアラートサービスを構築

嵐が2017年ソーラーチャレンジのフィールドを吹き飛ばす

Table of Contents

「スリーパーエージェント」AIアシスタントが気づかれずにコードを妨害する方法

Smart Recommendations

Discover More