Facebookは、画像認識AIの構築に使用した写真の出所を追跡するため、写真に「放射性」マーカーでタグ付けすることを検討している。

Table of Contents

Facebookは、画像認識AIの構築に使用した写真の出所を追跡するため、写真に「放射性」マーカーでタグ付けすることを検討している。

Facebook の研究者は、特定の機械学習モデルがマークされた画像を使用してトレーニングされたかどうかを開発者が判断できるようにするデジタル透かし技術を開発した。

「この新しい検証方法を『放射性』データと呼んでいるのは、医療における放射性マーカーの使用に似ているからだ。硫酸バリウムなどの薬剤を使うと、医師はコンピューター断層撮影(CT)スキャンやその他のX線検査で特定の病状をより明確に確認できるようになる」と、この専門家らは水曜日に説明した。

Facebookのアプローチは、私たちが知る限り、次の通りです。写真を何枚か撮影し、人間の目には見えない透かしを入れ、通常の画像としてラベル付けし、画像データセットに組み込むというものです。透かしが目立たないようにするため、透かしを入れた画像には元の画像としてラベル付けする必要があります。透かしを入れる前の画像にトースターのラベルが付けられていた場合、データセットでもトースターのラベルを付ける必要があります。ラベルを変更するのではなく、画像データのみを変更するのが狙いです。

さて、あなたが知らないうちに、誰かがあなたのデータセットを入手し、それを使って画像分類システムを学習させています。AIに写真を見せると、AIは学習データを用いて、人間がその写真にどのようなラベルを付けるかを予測します。例えば、自転車に乗っている子供の写真であれば、ソフトウェアは「子供」「自転車」といったラベルを、それぞれ異なる確信度で出力します。例えば、子供であれば94%、自転車であれば68%、車であれば2%といった具合です。

後になって、そのモデルに遭遇し、誰かがあなたのデータセットを使って学習させたのではないかと疑うことがあります。透かし入り画像をシステムに通すと、ニューラルネットワークの動作を統計的に分析することで、透かし入り画像を使って学習させたかどうかがわかるはずです。例えば、モデルのラベル出力と、透かしが入っていない通常の画像を使って学習させたモデルの出力結果の違いを調べることで、そのモデルを判別できます。あるいは、モデルの内部構造がわかる場合は、ネットワークの重みを使うこともできます。

何よりも、モデルはラベルを予測する点では正確である必要がありますが、放射性データを使用してトレーニングされたかどうかを数学的に判断できる必要があります。

以下はデジタルタグが付けられた画像の例です。1行目は元の写真、2行目はFacebookの技術で透かしが加えられた画像、3行目は隠されたマーキングです。マーキングは基本的にわずかな変化です。

放射性データ

クリックして拡大... 画像クレジット: Facebook AI

研究者たちは、ImageNetデータセットから学習させたResNet-18およびVGG-16画像認識モデルを用いて、自らがマークした画像をいくつか挿入し、タグ付け手法をテストした。このアルゴリズムは、学習セットのわずか1%にしか適用しなかったにもかかわらず、放射性物質データを見抜くことに成功したようだ。

「我々はまた、データセットが放射性物質を含んでいるかどうかを検出し、訓練済みモデルからその標識を除去することが極めて困難になるように放射性データ手法を設計しました」と研究者らは述べています。標識を発見するには、特徴がどのように変化したかを正確に知る必要があります。

ザッカーバーグ

FacebookはAI写真タグ付け訴訟を鎮圧するために5億5000万ドルを支払った。残った179億ドルでどうやって生き残るのだろうか?

続きを読む

このようにデータをタグ付けすることには、いくつかの潜在的な用途があります。まず、開発者は特定のモデルのトレーニングにどのデータセットが使用されたかを追跡できます。次に、モデルがデータセットを不適切に取得または使用していないかどうかを確認することもできます。

例えば、AIコンテストで特定のデータセットのみでシステムをトレーニングする場合、審査員はFacebookの技術を用いて各画像にマークを付け、参加者がルールを遵守しているかどうかを確認することができます。また、公開されているデータセットであっても、効果的にフィンガープリント化できるため、モデルのトレーニング元(バージョン、日付など)を正確に把握できます。

Facebookの広報担当者はThe Registerに対し、「もう1つの例は、ベンチマークのテストセットをマークし、この技術により、モデルがテストデータで学習したかどうか、したがって科学的に厳密ではないかどうかを検出できるというものだ」と語った。

Facebookは、将来的に放射性データ技術のコードを公開する可能性があると述べていますが、まだ決定はされていません。現在、この技術は実稼働環境では使用されていないとのことです。さて、この手法を解説した論文がarXivで公開されています。関連する数学的な知識をお持ちの方は、ぜひご覧ください。

もちろん、全く関係ない話ですが、Clearviewは現在、顔認識システムのために大手ウェブ企業から公開写真をスクレイピングしたことで苦境に立たされています。シリコンバレーは、他人のモデルに自分の写真が盗用されることを嫌がっているようですね。®

Discover More