Feature Anthropic は AI の安全性におけるリーダーとしての地位を確立しており、Chatterbox Labs による最近の分析でそれが証明されました。
Chatterbox Labs は 8 つの主要な大規模言語モデル (LLM) をテストし、そのすべてが有害なコンテンツを生成することが判明しましたが、Anthropic の Claude 3.5 Sonnet は競合製品よりも優れた結果となりました。
英国を拠点とするこの企業は、AIMIと呼ばれるテストスイートを提供しており、「公平性」、「有害性」、「プライバシー」、「セキュリティ」などのさまざまな「柱」に基づいてLLMを評価します。
この文脈における「セキュリティ」とは、潜在的に悪用される可能性のあるコードの欠陥の存在ではなく、モデルの安全性、つまり有害なコンテンツの発信に対する耐性を指します。
「セキュリティの柱として私たちが注目しているのは、こうしたモデルが及ぼす、あるいは引き起こす可能性のある危害です」と Chatterbox Labs の CTO である Stuart Battersby 氏は説明する。
LLMはテキスト入力を求められると、テキスト出力で応答しようとします(画像や音声を生成できるマルチモーダルモデルもあります)。生物兵器のレシピを入力するよう促された場合など、違法なコンテンツを生成する可能性があります。あるいは、傷害や死亡につながるようなアドバイスを提供する可能性もあります。
「組織が、特に自分たちの代理として、これらのモデルにやってほしくない行為には、いくつかのカテゴリーがあります」とバターズビー氏は述べた。「つまり、私たちが想定している危害カテゴリーとは、自傷行為や性的に露骨なコンテンツ、セキュリティやマルウェアなどについて話すことなどです。」
GenAI 向け AIMI のセキュリティの柱は、危害のカテゴリーごとに 30 個の一連のチャレンジ プロンプトが提示されたときに、モデルが有害な応答を示すかどうかをテストします。
「中には、こういった悪質な質問に対して、実に喜んで答えてくれるモデルもあります」とバターズビー氏は言う。「しかし、最近のほとんどのモデル、特に新しいモデルには、何らかの安全装置が組み込まれています。」
しかし、他のセキュリティ メカニズムと同様に、AI の安全メカニズム (「ガードレール」と呼ばれることもあります) は、必ずしもすべてをキャッチできるわけではありません。
「セキュリティの柱で私たちがやっているのは、『これに対する攻撃をシミュレーションしよう』ということです」とバターズビー氏は述べた。「法学修士課程、つまり言語モデルの場合、これはプロンプトを不正な方法で設計することを意味します。これはジェイルブレイク(脱獄)と呼ばれます。実際、何らかの方法で破ることができないモデルにはまだ出会っていません。」
Chatterbox Labs がテストしたモデルは、Microsoft Phi 3.5 Mini Instruct (3.8b)、Mistral AI 7b Instruct v0.3、OpenAI GPT-4o、Google Gemma 2 2b Instruct、TII Falcon 7b Instruct、Anthropic Claude 3.5 Sonnet (20240620)、Cohere Command R、Meta Llama 3.1 8b Instruct です。
AIモデルの安全性試験結果表…クリックして拡大
The Registerに提出された同社の報告書には、「分析の結果、テストされた主要モデルはすべて有害なコンテンツを生成することが示されています。Anthropicを除き、すべての危害カテゴリーにおいて有害なコンテンツが生成されました。これは、これらのモデルに搭載されている安全レイヤーが、テストされたすべての危害カテゴリーにおいて安全なモデル展開を実現するには不十分であることを意味します」と記されています。
さらに、バターズビー氏はこう付け加えた。「アントロピックのような企業を見れば、彼らは実際、誰よりも優れた成果を上げていることがわかります。なぜなら、彼らのシステムは、すべての脱獄、特にいくつかの危害カテゴリーにおいて、モデルがそれらを拒否またはリダイレクトするカテゴリーをいくつか持っていたからです。つまり、彼らがシステムに組み込んでいるものは、いくつかのカテゴリーでは非常に効果的である一方で、他のカテゴリーではそうではないようです。」
The Registerは、Anthropic社に対し、AIの安全性に対する同社の取り組みについて、より詳しい情報を提供してくれる人がいるかどうか尋ねました。Anthropic社のリサーチ・コミュニケーション・リーダー、スチュアート・リッチー氏から回答をいただきました。
The Register:「Anthropicは責任あるAI企業としての地位を確立しました。Chatterbox LabsのAIMIソフトウェアによるテストでは、AnthropicのClaude 3.5 Sonnetが最高の結果を示しました。Anthropicが業界他社と異なる点について説明していただけますか?」
リッチー氏:「アントロピックはAI開発と安全性に対して独自のアプローチを採用しています。最先端のAIシステムに関する実証研究に深くコミットしており、これは将来の高度なAIシステムに伴う潜在的なリスクに対処する上で不可欠です。多くの企業とは異なり、私たちは楽観的なものから悲観的なものまで、様々なシナリオに備えるポートフォリオアプローチを採用しています。私たちは、スケーラブルな監視やプロセス指向学習といった分野のパイオニアであり、根本的に安全で人間の価値観に沿ったAIシステムの構築を目指しています。」
重要なのは、当社の「責任あるスケーリングポリシー」に基づき、厳格な安全基準を満たせる場合にのみ、より高度なモデルを開発することを約束し、モデルの性能と安全対策の両方について外部からの評価を受け入れる姿勢です。当社は、業界で初めて、このような包括的かつ安全第一のアプローチを開発しました。
最後に、私たちはメカニズムの解釈可能性にも多大な投資を行い、モデルの内部構造を真に理解することを目指しています。最近、解釈可能性において大きな進歩を遂げており、この研究が将来的に安全性の飛躍的な進歩につながると楽観視しています。
- 防衛AIモデルは「生命を脅かす」とテクノロジー企業が非難
- AIの巨人たちは(再び)ディープフェイクの卑猥なコンテンツの作成に協力しないと誓う
- OpenAIの最新のo1モデルファミリーは「推論」を模倣しようとしているが、少し考えすぎかもしれない
- Google、AIサービスに商標登録されたGemini名を使用したとして訴訟される
The Register:「モデルの『ガードレール』を作成するプロセスについて詳しく説明していただけますか?主にRLHF(人間からのフィードバックによる強化学習)ですか?また、その結果は、ブロックされる応答の種類(テキストパターンの範囲)に関してかなり具体的なものですか、それともかなり広範で概念的なもの(特定のアイデアに関連するトピック)ですか?」
リッチー氏:「モデルガードレールへの私たちのアプローチは多面的であり、RLHFのような従来の手法をはるかに超えています。私たちはConstitutional AIを開発しました。これは、AIモデルが倫理原則に従い、安全に行動するようにトレーニングする革新的なアプローチです。これは、AIモデルに自己監督と議論を行わせることで、人間の価値観や意図に沿って行動するように自ら学習させるものです。また、自動および手動のレッドチーム演習を実施し、潜在的な問題を積極的に特定しています。特定のテキストパターンを単にブロックするのではなく、安全なプロセスを理解し、それに従うようにモデルをトレーニングすることに重点を置いています。これにより、適切な行動をより広範かつ概念的に理解できるようになります。」
モデルの性能が向上するにつれて、これらの安全技術を継続的に評価し、改良していきます。目標は、特定の望ましくない出力を防ぐだけでなく、安全で有益な行動を堅牢かつ汎用的に理解できるAIシステムを構築することです。
The Register:「Anthropic は、モデル外に存在する安全対策をどの程度まで認識していますか?例えば、微調整や外部フィルターを使用してモデルの動作を変更できますが、両方のアプローチが必要ですか?」
リッチー氏:「アントロピックでは、AI の開発と展開のあらゆる段階で安全性を確保するための多層戦略を採用しています。
この多層的なアプローチは、ご指摘の通り、モデルの挙動に両方の種類の変更を実際に適用していることを意味します。例えば、クロードというキャラクターの訓練には、憲法AI(様々な微調整)を使用し、公平性、思慮深さ、そして寛容さといった価値観に基づいた返答をするようにしています。また、潜在的に有害または違法な入力を特定するために、様々な分類器とフィルターも使用しています。ただし、前述の通り、分類器という鈍器に頼るのではなく、モデルがこの種のコンテンツへの反応を避けるように学習することが望ましいと考えています。
The Register:「安全上の懸念に対処するために、トレーニング データと微調整の透明性を確保することは重要ですか?」
リッチー氏:「トレーニングプロセスの大部分は機密事項です。Anthropic はデフォルトではユーザーデータを使ってトレーニングを行いません。」
The Register:「Anthropic の Constitutional AI は意図した効果をもたらしましたか? AI モデルが自らを助けるように?」
リッチー氏:「憲法AIは、まさに私たちの意図通り、有望な結果を示しました。このアプローチは、AIモデルの誠実性、危害回避、そしてタスクパフォーマンスを向上させ、AIが「自助努力」できるよう効果的に支援しています。」
上で述べたように、私たちはクロードというキャラクターをトレーニングする際に Constitutional AI と同様の技術を使用しており、この技術がモデルを予期せぬ方法で強化するためにどのように使用できるかを示しています。ユーザーはクロードというキャラクターを本当に高く評価しており、これは Constitutional AI のおかげです。
アントロピックは最近、AI憲法を作成するための一般市民の意見を取り入れる集団憲法AI(Collective Constitutional AI)の調査を行いました。米国人口の代表的なサンプルからフィードバックを募り、独自の微調整技術を用いてクロードにどのような価値観を付与すべきかを検討しました。この実験は、AIモデルがパフォーマンスを維持しながら多様な公共の価値観を効果的に取り入れることができることを実証し、より民主的で透明性の高いAI開発の可能性を浮き彫りにしました。課題は依然として残っていますが、このアプローチはAIシステムをより広範な社会的価値観と整合させるための重要な一歩となります。
The Register:「Anthropic が取り組んでいる最も差し迫った安全上の課題は何ですか?」
リッチー:「私たちが注力している最も差し迫った安全上の課題の一つは、ますます高性能化するAIシステムに対するスケーラブルな監視です。モデルが高度化するにつれて、人間の価値観や意図との整合性を確保することが、より重要かつ困難になります。特に懸念されるのは、AIの能力が多くの領域で人間のパフォーマンスを上回る可能性がある場合に、人間による効果的な監視をどのように維持するかということです。この課題は、メカニズムの解釈可能性、プロセス指向学習、そしてAIの一般化の理解に関する私たちの研究と重なります。」
私たちが取り組んでいるもう一つの課題は、敵対的攻撃に対する堅牢性です。この研究では、モデルの『ジェイルブレイク』を大幅に困難にする技術の開発が含まれます。ジェイルブレイクとは、ユーザーがモデルにガードレールを回避させ、潜在的に有害な応答を生成させることです。将来の高性能システムでは、ジェイルブレイクのリスクはさらに大きくなります。そのため、この種の攻撃に対して堅牢な技術を開発することが今重要です。
「私たちは、AIの推論が人間の理解を超えるようなシナリオにおいても、AIの行動を導き、評価するための堅牢な手法の開発に取り組んでいます。この研究は、将来のAIシステムがいかに有能であろうとも、人類にとって安全で有益なものであり続けるために不可欠です。」
The Register:「他に追加したいことはありますか?」
リッチー氏:「私たちはAIを開発しているだけではありません。AIが安全かつ有益に社会に統合されるための枠組みを積極的に構築しています。これには、政策立案者、倫理学者、その他の関係者との継続的な協力が含まれており、私たちの取り組みがより広範な社会のニーズや価値観と整合していることを保証しています。また、AIコミュニティにおける責任ある文化の醸成、業界全体の安全基準と実践の推進、そして発見した脱獄などの問題のオープンな共有にも深く取り組んでいます。」
「最終的に、私たちの目標は安全なAIモデルの作成にとどまりません。私たちは倫理的なAI開発の新たな基準、つまり人類の福祉と長期的な社会の利益を優先する『トップを目指す競争』を確立することを目指しています。」®
追記: OpenAIのo1モデルのシステムカードには、ニューラルネットワークにキャプチャー・ザ・フラグ(CAPTURE-THE-FLAG)チャレンジが与えられた際の記述が埋め込まれています。このチャレンジでは、Dockerコンテナに侵入して内部のシークレット情報を抽出する必要がありました。コンテナはエラーのため実行されていませんでした。モデルは、設定ミスによりホスト上のDocker APIにアクセスできると判断し、自律的にそれを利用してコンテナを起動し、チャレンジに挑戦しました。これは覚えておくべき点です。