独占記事7月にホワイトハウスは、アルゴリズムで生成されたコンテンツが実際の人間の作品と区別できることを保証するための透かしの導入を含む、AIの安全対策に大手テクノロジー企業7社が取り組んでいると発表した。
これらの巨大企業の中でも、Amazon、Google、OpenAIはいずれも、自社の生成AIモデルによって生成される誤情報、詐欺、ディープフェイクから身を守る方法の1つとして、ウォーターマーク(コンテンツの出所を証明する情報をテキストや画像に追加する技術)を具体的に挙げている。
ここでの目標は、AI が生成した素材に微妙なマークを付け、誰かがそのコンテンツを人間が作成したものとして偽装しようとした場合に、それを検出して識別できるようにすることです。
しかし、画像へのデジタル透かし(コンテンツ作成時にノイズを追加し、画像データセット内でそのノイズパターンの存在を検出する)では、安全性の保証はあまり得られない可能性があると研究者らは警告している。
米国メリーランド大学の研究チームが、デジタル画像への透かし技術の信頼性を調査し、かなり簡単に破られる可能性があることを発見しました。研究チームは、本日夕方ArXivで公開予定のプレプリント論文「AI画像検出器の堅牢性:基本的な限界と実用的な攻撃」で、この発見を説明しています。
Googleや他のテック大手が防御策として生成画像の出力に透かしを入れるというアプローチは機能しないだろう
「この研究で、ディープフェイクに対する防御としての画像透かしの根本的かつ実用的な脆弱性を明らかにした」とメリーランド大学コンピューターサイエンス准教授のソヘイル・フェイジ氏はThe Registerへの電子メールで述べた。
「これは、Googleや他の大手IT企業が防御策として生成画像の出力に透かしを入れるという現在のアプローチが機能しないことを示している。」
メリーランド大学の研究者、Mehrdad Saberi、Vinu Sankar Sadasivan、Keivan Rezaei、Aounon Kumar、Atoosa Chegini、Wenxiao Wang、および Soheil Feizi による調査結果によると、回避エラー率 (透かし入り画像が透かしなしとして検出される割合、つまり偽陰性) とスプーフィング エラー率 (透かしなし画像が透かし入りとして検出される割合、つまり偽陽性) の間には根本的なトレードオフがあることが示されています。
言い換えれば、透かし検出方式は、高いパフォーマンス (偽陰性が少ない) または高い堅牢性 (偽陽性が少ない) を実現できますが、その両方を同時に実現することはできません。
論文の著者らは、低摂動画像(知覚できない透かしを含む)に対する攻撃手法「拡散浄化」を考案した。これはもともと、敵対的サンプル(モデルに意図的に誤りを犯させる入力)に対する防御策として提案されたものである。この手法では、画像にガウスノイズを追加し、その後、拡散モデルのノイズ除去プロセスを用いて追加データを除去する。
AI画像検出器の堅牢性:基本的な限界と実用的な攻撃からのチャート...クリックして拡大
また、拡散浄化攻撃を受けない高摂動画像(知覚可能な透かし)に対して、研究者らは、透かしのない画像を透かし入りに見せかける可能性のある偽装メカニズムを開発した。著者らによると、このシナリオはAIモデルを販売する企業にとって、財務上または広報上の悪影響を及ぼす可能性がある。
「我々の[高摂動]攻撃は、透かしモデルにホワイトノイズ画像に透かしを入れるよう指示し、このノイズの多い透かし入り画像を透かしなしの画像と混ぜ合わせることで検出器を欺き、透かし入りとしてフラグ付けさせる」と論文は説明している。
- Google は、Meet、Chat など Workspace のより多くの部分に Duet AI ボットを導入すると警告しています。
- MITの研究者らがAIディープフェイクを阻止するPhotoGuardガジェットを提供
- 心配しないでください。ホワイトハウスはOpenAIとその仲間と話し合い、AIを安全にすることを約束しました。
- AI生成テキストを確実に検出する方法はない、と科学者はため息をつく
CAPTCHA画像パズルの解決における人間と機械の差が縮まっていることと、人間が生成したコンテンツと機械が生成したコンテンツの違いを見分けるのが難しいという研究結果に類似点があるかとの質問に対し、フェイジ氏とメリーランド大学の博士課程の学生で論文の主執筆者であるメルダッド・サベリ氏は、機械学習はますます有能になっていると述べた。
「機械学習は間違いなく日々進歩しており、人間のパフォーマンスに匹敵、あるいは凌駕する可能性を示している」とフェイジ氏とサベリ氏はThe Registerへの電子メールで述べた。
「これは、CAPTCHA画像の解読やテキスト生成といったタスクがすでにAIの能力の範囲内にあり、人間の能力に匹敵している可能性があることを示唆している。」
画像や動画の生成において、AIが生成したコンテンツは現実のコンテンツにますます似てきており、近い将来、どのような技術を用いても、それらを区別することは不可能になる可能性があります。実際、私たちの研究では、分類ベースのディープフェイク検出器において、堅牢性と信頼性の間にトレードオフがあることを示しました。
The RegisterはGoogleとOpenAIにコメントを求めたが、どちらからも回答はなかった。
フェイジ氏とサベリ氏は、Google や OpenAI の透かしの仕組みを具体的に分析しなかったと述べた。両社とも透かしのソースコードを公開していなかったためだ。
「しかし、我々の攻撃は、これまで遭遇した既存のウォーターマークをすべて破ることができる」と彼らは述べた。
コンピュータビジョンにおける他の問題(例えば、敵対的耐性など)と同様に、画像透かしは将来、防御と攻撃の競争になると考えています。そのため、将来、新しい堅牢な透かし手法が提案される可能性はありますが、それを破るための新しい攻撃も提案されるでしょう。®