特別レポート: Facebook が後援する AI コンテストで 5 人のエンジニアが 50 万ドルの優勝賞金を逃した。彼らはディープフェイク検出システムのトレーニングに Flickr や YouTube から収集した画像を使用したため失格となった。
「ディープフェイク検出チャレンジ」と名付けられたこのコンテストは、データサイエンスコミュニティで人気のGoogle所有プラットフォームKaggleで開催されました。Facebook、AWS、Microsoft、そして非営利団体Partnership in AI(PAI)が共同で12月に考案・開始したこのコンテストでは、動画にいわゆるディープフェイクが含まれているかどうかを正確に判定できる機械学習モデルの構築が課題となりました。
「All Faces Are Real」というチームは、ディープフェイク検出コンテストで、精度においてライバルを凌駕するAIを開発し、優勝を目前にしていました。4月には、コンテストに提出されたすべての機械学習モデルがKaggleによって審査され、リーダーボードで公開ランキングが発表されました。「All Faces Are Real」は首位を独走し、6桁の賞金獲得を待ち構えていました。
次に、上位5チームには、コード、システムの学習方法、その他の実装の詳細を記述したドキュメントの提出が求められました。これは、Kaggleがすべてのルールと要件が遵守されていることを確認するためです。「All Faces Are Real」のチームは、コンテストで優勝すればそれぞれ10万ドル(7万9236ポンド、11万2000ユーロ)を獲得できると確信していました。
しかし、書類を提出してから数日後、優勝チームの夢は故障したディスクドライブよりもひどい形で打ち砕かれた。KaggleとFacebookが、同グループがコンテスト細則に違反したと判断し、応募作品はリーダーボードから削除されたのだ。
コンテスト参加者は全員、Facebookが提供するデータセットに加え、サードパーティのデータセットをディープフェイク検出システムの学習に利用できました。ただし、それらのデータセットが一般公開されており、商用利用が可能な場合に限ります。各チームは、コンテスト締め切りまでに、どの外部データセットを使用するかを公表する必要がありました。コンテストの目的は、優れた学習教材を集める競争ではなく、優れた機械学習ソフトウェアを開発することにあるように思われます。
「All Faces Are Real」は、これらのルールを忠実に守ったと自負している。Nvidiaが画像ホスティングサイトFlickrから収集した公開データセットから5万枚の写真を使用した。さらに、クリエイティブ・コモンズ・ライセンスが適用されるYouTubeの公開動画を16本ほど収集した。
「これらのデータソースは、外部データに関する規則、具体的には外部データは『コンテストの全参加者がコンテストの目的のために、他の参加者に費用を負担させることなく利用できる』ものでなければならないという規則を満たしていると信じて選択した。また、外部データスレッドには、外部データは商用利用が可能で、学術目的に限定されてはならないという追加の記述もあった」とチームは声明で述べた。
しかし、FacebookとKaggleは、ディープフェイク検出モデルの学習に使用したFlickrの画像とYouTube動画に写っているすべての人物から明示的な同意を得ていないという理由で、チームを失格とすることを決定しました。KaggleとFacebookによると、外部データセットを使用するすべての参加者は、当該データセット内の人物画像をコンテストで使用する権利を付与する書面による許可を得る必要がありました。
2人は、コンテストの規則の中に隠された数行を指摘し、そこには次のように書かれていた。「応募書類の一部に、個々の参加者またはチームメンバー以外の人物を描写、特定、または含める場合、描写、特定、または含める人物からすべての許可と権利を得る必要があり、コンテストスポンサーとPAIの要請に応じて、それらの許可と権利の確認書を提供することに同意するものとします。」
ほぼすべての顔認識データセットは問題がある
コンテスト参加者は衝撃を受けました。チームが外部データセットの使用を公に宣言した際に、主催者がこの点について明確に言及したり、強調したりしなかったと感じたのです。2月には、コンテスト運営に携わったKaggleのマネージャー、ジュリア・エリオット氏が、商用利用や他のチームで利用できないトレーニングデータセットは使用しないよう警告していました。エリオット氏は参加者に対し、次のように伝えました。
コンテストのトップレベルのドキュメントには、追加データセットに含まれるすべての個人から書面による許可を得る必要があるという明確な記載はありませんでした。たとえ要件がより明確に述べられていたとしても、それはほぼ不可能な作業です。最先端の顔認識データセットを構築するコンピュータービジョン研究者は、明示的な許可を得ていないことがよくあります。例えば、最も広く利用されている学術リソースの一つであるImageNetは、ライセンスに基づいて公開ウェブサイトから収集された人物や物の写真で構成されています。
Facebookは投稿や広告でのディープフェイク動画を禁止する。動画は信憑性があり、AIによって作成され、パロディではないものでなければならない。
続きを読む
まず、これらの画像に写っている人物の身元を特定するのは困難です。追跡できない場合、現実的かつ効率的に許可を得るためにどのように連絡を取ることができるでしょうか? 第二に、何万人もの人々に手作業で連絡を取り、返答を待つのは非常に面倒です。収集された画像がクリエイティブ・コモンズなどのダウンロードと再利用を許可するライセンスの下で正しく取得され、使用されている場合でも、新たな問題が生じています。例えば10年前に人々が自由なクリエイティブ・コモンズ・ライセンスの下で写真を共有していたとき、おそらく自分のスナップ写真が最終的に顔認識、物体検出、その他のコンピュータービジョンシステムの訓練のために集められるとは予想していなかったでしょう。
データサイエンティストが収集した画像の許容ライセンスの範囲内で作業を行ったとしても、データセットに写っている全員を探し出し、何年も前に望んでいたのと同じくらい自由に資料を共有してもいいのかどうか、本当に本当に尋ねなければならないというプレッシャーが彼らにはあります。米国イリノイ州の生体認証情報プライバシー法のように、組織が生体認証情報をデータベースに追加する前に明示的な同意を得ることを義務付ける法律は、Facebookのような企業を不安にさせ、許可なく情報が利用されているというニュースの見出しにもなっています。こうしたことが、同意要件がコンテストのルールに埋もれてしまった理由を説明しているのかもしれません。
「外部データセットを使用している人は誰でもこの規則に違反している可能性が高い」と、All Faces Are Realのメンバーであるミケル・ボバー・イリザール氏はThe Registerに語った。
チームが失格となった後、たった一人のエンジニアで構成された2位の参加者、セリム・セフェルベコフが1位に躍り出ました。セフェルベコフは外部データセットを一切使用しなかったため、明示的な許可を得るという厳格なルールに一切違反しておらず、単独で50万ドルを獲得する見込みです。
弁護士を派遣せよ
「オール・フェイセズ・アー・リアル」は、スティーブンソン法律事務所の英国人弁護士エド・ボールを雇い、彼らが正当に受け取るべきだと信じていた賞金の返還を求めた。
「チームは、モデルのトレーニングに使用された外部データセットが、規則で定められている通り、すべての参加者が無料で商用目的で使用できるよう、熱心に取り組んできた」とボール氏は今週、エル・レグ紙に語った。
「チームが理解していなかったのは、そしてKaggleのディスカッションボードに基づく他の競合相手も理解していなかったように思われるのは、個人の画像を含む外部データセットを使用する場合、そのデータセット内のすべての個人がコンテストの目的で画像を使用することに同意したという証拠を提示する必要があったことです。
Facebookがコンペティションデータセットに関してこれらの同意を得ることができたのは、Facebookが自社の膨大なリソースを使ってデータセットを自ら生成したからだ。しかし、FacebookやKaggleが競合他社に同様のことを期待できたとは考えにくい。
Facebookがコンテスト用データセットについてこうした同意を得ることができたのは、Facebookが自社の膨大なリソースを駆使して自らデータセットを生成したからです。しかし、FacebookやKaggleが競合他社に同様の対応を期待できたとは考えにくいでしょう。多くの競合他社が使用した画像データベースから生成された事前学習済みモデルでさえ、こうした同意は得られていないでしょう。
Facebookが法的立場と評判を守る必要性について、チームはこれまで一度も異議を唱えていません。しかし、外部データを用いてモデルの学習を行うことを許可するコンテストに開発者を招待し、外部データセット内の画像に登場するすべての個人から個別の同意を得る必要性を明記しなければ、結果は明らかです。そして残念ながら、「All Faces Are Real」チームは、このことを身をもって学んだのです。
チームと弁護士はZoomでFacebookとKaggleの担当者と話し合いましたが、コンテスト主催者を説得して首位の座を守らせることはできませんでした。FacebookとKaggleは、外部データセットによる学習を一切行わずに機械学習モデルを提出することを許可しました。その結果、チームは7位に後退し、賞金獲得をわずかに逃しました。
弁護士らはフェイスブックの生体認証プライバシー訴訟で「素晴らしい結果」を称賛:弁護士らは5億5000万ドルのうち25%、イリノイ州は残りを受け取る
続きを読む
「私たちにできることは何もありません」とボバー=イリザール氏は言った。「カリフォルニアで訴訟を起こさなければなりませんが、アメリカでFacebookを訴えるのに何年もかけたくはありません。ただ科学研究を続けたいのです。」
また同氏は、たとえサンフランシスコを拠点とするプラットフォームが損害賠償を命じられたとしても、支払えるのは10ドル(約8ポンド)までと定めた小さな条項が規約にあったため、Kaggleを追及しても無駄だと指摘した。
「Facebookの外部データに関するルールの解釈は、競争相手が従うには非現実的であり、競争中に要件を伝えることに完全に失敗し、最終的に参加者にその失敗に対するペナルティを与えた」とチームメンバーのYifan Xie氏は付け加えた。
さらに悪いことに、Facebookは今月開催されたバーチャル学術会議「コンピュータビジョンとパターン認識」において、「All Faces Are Real」チームの成果を誇示した。FacebookのAIレッドチーム責任者であるクリスチャン・カントン氏は、コンテストで達成された最低エラー率は0.423で、「All Faces Are Real」チームが達成したスコアだと自慢した。
「私たちの解決策が受け入れられないのなら、なぜプレゼンテーションで私たちのスコアを誇示するのですか?」と謝氏は尋ねた。その後、カントン氏は謝罪し、このミスは「タイプミス」のせいだと主張した。「All Faces Are Real」チームのスコアは0.42320、セフェルベコフ氏は0.42798で、切り上げて0.423となった。エラーの頻度が低いほど良い。カントン氏はその後、プレゼンテーションのスライドを修正したと伝えられている。
Kaggleは自らの決定を擁護
Kaggleはディープフェイク検出チャレンジをめぐって厳しい批判に直面している。多くの開発者は、書面による許可ルールは最初から十分に明確にしておくべきだった、そもそもその要求はばかげている、と不満を述べている。
「『All Faces are Real』の失格作品の根本的な問題点を明らかにしたいと思います」とエリオット氏は今週述べた。「失格作品に使用された動画や画像の一部は、ライセンスが不適切でした。つまり、CNNなどの第三者のコンテンツが含まれていたにもかかわらず、オープンソースライセンスの下で不適切に提供されていたのです。また、このコンテンツには第三者が明確に描写されており、許可を得ていない第三者のデータも使用されており、コンテスト規則に違反しています。」
振り返ってみると、「提出書類」規則における外部データを含む適用範囲は強化できたはずだと認識しています。提出書類の一部として外部データが含まれていたにもかかわらず、この点が不明確だったとは予想していませんでした。残念ながら、特定の動画の内容とライセンスの不備については、問題が発生することを予期していませんでした。しかしながら、現在ではこれが誤解の原因であったことを認めています。
もっと良い結果を出すことができたはずです。コミュニティがなければ、Kaggleは存在し得なかったでしょう。ホストは、私たちが常にユーザーの皆様の味方であり、寄り添うことを常に心がけていると語ってくれます。私たちは今後もコミュニティのために尽力し、このようなことが二度と起こらないよう尽力してまいります。
FacebookとKaggleはそれ以上のコメントを控えた。®