世界のAIを訓練するために使われた1TBのImageNetデータセットの中身：裸の子供たち、酔っ払った学生会パーティー、ポルノスターなど

Feature ImageNet は、世界中で AI システムをトレーニングするために使用されているデータセットです。これには、裸の子供、ビーチにいる家族、大学のパーティー、ポルノ女優などの写真が含まれており、個人の明示的な同意なしにコンピューターをトレーニングするために Web から収集されました。

このライブラリは1400万枚の画像で構成されており、各画像は各シーンに写っているものを説明するカテゴリに分類されています。画像とラベルというこの情報の組み合わせは、カメラに映った物や人物を人工知能（AI）アプリケーションに認識させるために使用されます。

このデータベースは、科学者やエンジニア、学術関係者らにダウンロードされ、数百、あるいは数千のニューラルネットワークを訓練して、写真に写っているもの（突撃銃やエプロンから、カササギやミニバス、シマウマやズッキーニまで、あらゆるもの）を識別できるようにしている。

2012年、このデータセットはAlexNetの構築に使用されました。AlexNetは、ニューラルネットワークが物体認識において従来の計算手法を精度面で上回った初めての事例であり、ディープラーニングにおける画期的な開発として高く評価されました。AlexNetはその後、毎年開催されるImageNet Large Scale Visual Recognition Challengeで優勝を果たしました。

ImageNet の成功は称賛されているものの、その問題のある内容はほとんど無視されてきた。

シリコンバレーのAIスタートアップ企業で機械学習の科学者を務めるヴィナイ・プラブ氏は、データセットの中の暗くてぼんやりした写真のいくつかを偶然見つけた。

「BigGANを使って自転車の写真を生成しようとしていました」と彼はThe Register紙に語った。BigGANは生成的敵対ネットワーク（Generative Adversarial Network）であり、一連の入力を学習することで、新しい独自の出力を生成するように学習できる機械学習システムである。つまり、プラブ氏はImageNetから取得した自転車の写真をBigGANに入力することで、コンピューターが独自の、そしてこれまでに見たことのない自転車の写真を生成できるようにしたいと考えていたのだ。

しかし、彼のコードは、ぼやけて変形した女性の体のような、奇妙な肌色の塊を作り出した。困惑した彼は、トレーニングデータセットに戻って、誤ってビキニ姿のモデルをトレーニングしてしまったことに気づいた。

ImageNetのカテゴリはアルファベット順に並べられ、ソフトウェアは数値の昇順で参照します。プラブ氏が研究に使用していたデータベースのサブセットでは、自転車はカテゴリ444、ビキニはカテゴリ445でした。しかし、コードに1桁の数字の誤字があったため、ニューラルネットワークはカテゴリ444の自転車ではなく、カテゴリ445のビキニからデータを抽出してしまいました。

ポルノの性質については議論の余地があるが、場合によってはポルノサイトへのリンクが画像内に含まれていることもある。

「最初は面白がって、データセットを調べてみることにしました」と彼は語った。しかし、すぐに面白さは衝撃へと変わった。

「これらは明らかに非倫理的でした」とプラブ氏は述べた。彼は、裸の子供の尻、ポルノスター、学生クラブのパーティーでの騒ぎ、さらには女性用下着を着た男性のプライベートで親密な写真を見た。スナップ写真の中には、写真が盗用された卑猥なサイトへのURLを示す透かしが入ったものもあった。

「ポルノかどうかは議論の余地があるが、ポルノサイトへのリンクが画像内に含まれている場合もある」と彼は語った。

彼はさらに深く掘り下げ、ImageNetライブラリの他のカテゴリーを調査し、陰毛を露出した女性の写真など、さらに眉をひそめるような素材を発見した。重要なのは、写真に写っている人物は誰も、無数のニューラルネットワークと精通した研究者によって分析されたデータセットに自分の画像を含めることに明確な同意を与えていなかったようだということだ。

「これらの人々は、自分の顔がこのデータセットに含まれていることを全く知りません」とプラブ氏はThe Regに語った。ImageNetの制作者にメールを送って発見内容を知らせたが、返答はなかったと彼は語った。

ImageNetチームは、The Register誌がデータセットへのアクセスを求めたところ、拒否しました。代わりに、広報担当者はチームを代表して、ライブラリは「メンテナンス上の理由」で利用できないと説明しました。実際、データは今年1月からダウンロードできなくなっていますが、その前後にアクセスを求めたところ、どちらも拒否されました。

しかし、匿名を希望した業界内の別の情報筋は、私たちがImageNetライブラリ全体（1.31TBすべて）を詳しく調べることを許可し、問題のある写真の山を発見した。

水泳パンツとシャワーキャップ

「水着」と「シャワーキャップ」のカテゴリーには、裸の子供たちの写真が並んでいた。特に、透明なシャワーキャップをかぶった顔をしかめた裸の子供が裸の男性の前に立ち、その写真では子供の性器のすぐ上が切り取られていた。「着物」のカテゴリーには、着物を広げて脚と陰毛を露わにした女性がベッドに横たわっている写真もあった。他にも、様々な服装の人々が砂浜でくつろいでいる写真があった。

ImageNetには何百万枚もの写真が保存されています。そのほとんどは動物や植物、あるいは様々な物体を写した、比較的無害な写真です。しかし、人間が絡むと、事態は少し複雑になります。

問題の大部分は、画像の収集方法に起因しています。米国のスタンフォード大学とプリンストン大学の研究者たちは、Google、Bing、写真共有プラットフォームFlickrなどのサイトから大量の画像を自動的に収集するソフトウェアを開発しました。

画像サイトから収集された写真の一部、あるいは全ては、クリエイティブ・コモンズなどの寛容なライセンスの下で、ImageNetチームや科学者が自由に使用・配布できるものであったとしても、写真に写っている人々が、数年後に様々な形態の人工知能に画像を入力することに全員が同意したわけではないことが分かっています。それ自体が、私たち全員にとっての教訓です。今日公開または共有されたデータが、明日は全く予想外の目的で使用される可能性もあるのです。

「間違い」

これらのスクレイピングされた写真は、Amazon Mechanical Turk（MTurk）で奴隷のように働く人々に渡された。MTurkとは、人々が登録してわずかな賃金で他人のために簡単な作業をするプログラムである。彼らは、画像を手動で特定のカテゴリーに分類したり、写真に写っている興味深い物体の周囲に境界ボックスを描いたりするよう求められた。

怪しい素材を除外するよう指示されていたにもかかわらず、これらのトルコ人スタッフは画像を精査したにもかかわらず、問題のある写真が紛れ込んでしまった。ImageNetチームはこれを人為的ミスのせいだとしている。1億6000万枚以上の写真が数万人のサイバーフリーランサーによって処理されたため、多少のミスは当然のことだったとされている。

「MTurkの作業員がミスをすることは間違いありません。また、MTurkのスパマー、つまり指示に従わなかったり、低品質の作業を提出したりする人は常に問題です」と、同プロジェクトの広報担当者は今月初めにThe Registerに語った。

スパマーや問題のある画像をフィルタリングするための自動品質管理システムを導入していますが、このシステムは完璧ではありません。幾重もの安全対策を講じていても、作業規模の大きさを考えると、問題のある画像が漏れてしまう可能性があります。候補画像は1億6000万枚以上、MTurkの作業員は5万人以上でした。

AIを専門とするデジタルアーティストで、ニュージーランドのヴィクトリア大学ウェリントン校デザイン学部の講師でもあるトム・ホワイト氏は、以前にもこのデータセットを作品に使用しており、次のように語っています。「オンライン上には不適切な画像が大量に存在します。そのため、オンライン写真の自動収集にはこうした画像も含まれると想定されます。データセットの公開者は一般的に、こうした画像を削除するよう積極的に努めていますが、どんなに努力しても、効果は限界に達します。」

「データセット作成者は、これらの『汚染物質』の一部が残ることを許容しています。それは、それらをすべて除去するためにリソースを費やすインセンティブがほとんどなく、機械学習モデルのトレーニングへの全体的な影響が最小限だからです。」

著作権法を改正する必要がある

ImageNetのようなデータセットにフィードするために、公開されている情報源から写真をスクレイピングすることは、議論を呼ぶ問題です。たとえスナップ写真が許容ライセンスの下で使用されたとしても、強力な物体認識ニューラルネットワークを構築するために、写真が精査されることを期待するのは合理的でしょうか？オンラインで情報を共有する前に、本当に未来を予測する必要があるのでしょうか？

弁護士であり、ニューヨークを拠点とする非営利活動家グループである監視技術監視プロジェクトの創設者兼事務局長であるアルバート・カーン氏は、「コンピュータービジョンのデータスクレイピングによるプライバシーへの影響について非常に懸念している」と語った。

「何百万人もの人々の顔が本人の同意なしに利用され、商業化されていることに懸念を抱いています」と彼はThe Register紙に語った。「これらのデータベースに子供が含まれているという事実は、これらのデータセットを集約するための規則がいかに少なかったかを浮き彫りにしていると思います。」

彼は、人々のデータが収集・分析される際に、そのデータを保護するためには新たな法律が必要だと主張した。「企業が私たちの同意なしに生体認証データを使用し、販売することがあまりにも頻繁に起こっています」と彼は述べた。「こうした行為の一部は合法かもしれませんが、この種のデータ収集から保護するための、より強力な生体認証プライバシー対策の必要性を浮き彫りにしています。」

偏見と人種差別

ImageNetの制作者は、問題のあるコンテンツを認識していたことを認めています。不適切な写真が含まれているだけでなく、それらを説明するラベルの一部には偏見があり、人種差別的な内容も含まれています。

AIの社会的影響に焦点を当てた研究拠点であるAI Now Instituteの共同創設者ケイト・クロフォード氏と、大規模監視とデータ収集に関心を持つアーティスト、トレバー・パグレン氏が最近立ち上げたプロジェクト「ImageNet Roulette」では、ImageNetで学習したシステムが人々の自撮り写真に侮辱や人種差別的な言葉のラベルを付けることが明らかになった。両氏は本件についてコメントを控えた。

「不適切な画像がデータセットに含まれるべきではないことに我々は同意する」とImageNetチームはEl Regに語った。

「私たちは、問題のある画像を特定し、削除するための体系的なアプローチを開発し、実装しています。なぜなら、何が問題とみなされるかは時間とともに変化し、主観的であり、地域社会の基準や意図された使用方法によって異なるからです。どこで線引きするかについては、理性的な人々の間で意見が分かれるかもしれません。」

敗者のLマークを額に当てている人

この画像認識ルーレットは、あなたをレイプ容疑者、離婚者、または人種差別的中傷者とラベル付けするまでは、楽しいゲームです

本質的に、彼らは現在、ImageNet から不適切な映像を削除しており、そこに映っているすべての顔をぼかしたいと思っている。

アメリカ西海岸のワシントン大学でジェンダーとアルゴリズムを研究している博士課程の学生、オス・キーズ氏は、「顔のぼかしは『必要だが不十分』と言えるでしょう。顔だけが人物を特定する唯一の方法とは言えません」と語った。キーズ氏によると、他には服装、タトゥー、IDバッジなども身分証明書として利用できるという。

「人物の特定は顔からも可能ですが、写真に写る人物の姿など、他の多くの要素からも特定できます。そのため、研究者が実際に識別可能な特徴を洗い出すシステムを開発できるとは考えにくいのです」とキーズ氏は述べた。「繰り返しますが、これは能動的な同意が問題解決に大きく貢献する状況です。」

クロフォード氏とパグレンは以前、画像を削除すると他の問題も生じると指摘している。「画像を完全に消去すると、AIの歴史の重要な部分が失われるだけでなく、研究者は、AIの前提、ラベル、分類アプローチが新しいシステムにどのように再現されたかを把握できなくなり、稼働中のシステムに見られる偏りやバイアスの起源をたどることもできなくなります。」

「これは、アクセス不能になったり消失したりするデータセットの問題です。もし、それらが日常生活で重要な役割を果たすシステムで現在、あるいは過去に使用されていたとしたら、それらが標準化する世界観を研究し理解することが重要になります。」®

世界のAIを訓練するために使われた1TBのImageNetデータセットの中身：裸の子供たち、酔っ払った学生会パーティー、ポルノスターなど