MITは謝罪し、AIシステムに人種差別的、女性蔑視的な中傷を使うように教えた膨大なデータセットを永久にオフラインにした。

Table of Contents

MITは謝罪し、AIシステムに人種差別的、女性蔑視的な中傷を使うように教えた膨大なデータセットを永久にオフラインにした。

特別レポートMIT は、人種差別的、女性蔑視的、その他の問題のある言葉を使って人々を説明する可能性がある AI システムをトレーニングした、頻繁に引用されるデータセットをオフラインにしました。

このデータベースは、 The Register紙がアメリカのスーパーカレッジに警告を発した後、今週削除されました。MITはまた、研究者と開発者に対し、トレーニングライブラリの使用を中止し、すべてのコピーを削除するよう強く求めました。「心からお詫び申し上げます」と、ある教授は私たちに語りました。

MITが構築したトレーニングセットは、静止画像に写っている人物や物体を自動的に識別し、リスト化する機械学習モデルを学習させるために使用されています。例えば、これらのシステムに公園の写真を見せると、写真に写っている子供、大人、ペット、ピクニック用のテーブル、草、木などについて教えてくれるかもしれません。しかし、MITがトレーニングセットを作成する際に無頓着なアプローチをとったため、これらのシステムは女性を売春婦やビッチとラベル付けしたり、黒人やアジア人を蔑称でラベル付けしたりする可能性もあります。データベースには、Cワードで始まる言葉がラベル付けされた女性器のクローズアップ写真も含まれていました。

したがって、MIT のデータセットを使用してトレーニングされたニューラル ネットワークに依存するアプリケーション、Web サイト、およびその他の製品は、写真やカメラの映像を分析するときにこれらの用語を使用することになる可能性があります。

問題となっているトレーニングライブラリは、「80 Million Tiny Images」です。これは、高度な物体検出技術の開発を支援するために2008年に作成されました。これは本質的に、写真に写っているものを説明するラベルが付けられた膨大な写真コレクションであり、これらをすべてニューラルネットワークに入力することで、写真のパターンと説明ラベルを関連付ける方法を学習させることができます。そのため、トレーニング済みのニューラルネットワークに自転車を見せると、スナップ写真に自転車が含まれていることを正確に予測できます。このライブラリに「Tiny Images」という名前が付けられたのは、このライブラリに収録されている写真が、2000年代後半から2010年代初頭のコンピュータービジョンアルゴリズムで処理できるほど小さいためです。

現在、Tiny Imagesデータセットは、より有名なImageNetトレーニングコレクションと共に、コンピュータービジョンアルゴリズムのベンチマークに使用されています。しかし、ImageNetとは異なり、これまでTiny Imagesに問題のあるコンテンツがないか精査した人はいませんでした。

シリコンバレーのプライバシー関連スタートアップ企業UnifyIDの主任科学者ヴィナイ・プラブ氏と、アイルランドのユニバーシティ・カレッジ・ダブリンの博士課程学生アベバ・ビルハネ氏は、MITのデータベースを精査し、黒人やアジア人に対する人種差別的な中傷や、女性に対する蔑称が付けられた数千枚の画像を発見した。彼らはこの発見を、来年開催予定のコンピュータービジョンに関する会議に提出した論文(プレプリントPDF)で明らかにした。

グラフ

MITデータセット内の選択された問題のある単語でラベル付けされた写真の数を示すグラフ...出典:PrabhuとBirhane

このデータセットには、Google画像検索から収集された7930万枚以上の画像が収録されており、7万5000以上のカテゴリに分類されています。220万枚の画像を含む縮小版は、MITコンピュータ科学・人工知能研究所(CSAIL)のウェブサイトからオンラインで検索・閲覧できます。この視覚化データとダウンロード可能なデータベース全体は、エル・レグ氏がデータセットの作成者にプラブ氏とビルハネ氏の研究について警告したことを受け、月曜日にCSAILウェブサイトから削除されました。

主な問題は、データセットに、たとえば黒人やサルの写真にNワードのラベルが付けられていること、ビキニ姿や子供を抱いている女性に売春婦のラベルが付けられていること、人体の一部に下品な言葉のラベルが付けられていることなどです。これにより、日常的な画像が不必要に中傷や不快な言葉と結び付けられ、将来のAIモデルに偏見や偏向が組み込まれてしまいます。

MIT AIトレーニングデータセットのスクリーンショット

今週オフラインになる前の220万件のデータセット可視化のスクリーンショットです。データセット内の「売春婦」というラベルの例がいくつか表示されていますが、法的および品位上の理由からピクセル化されています。画像は、サンタクロースと赤ちゃんを抱いた母親と女性の顔写真から、ポルノ女優やビキニ姿の女性まで多岐にわたります…クリックして拡大

CSAILの電気工学・コンピュータサイエンス教授であるアントニオ・トッラルバ氏は、データセット内にこれらの不適切な画像やラベルが含まれていることを研究室は全く認識していなかったと述べた。「手作業でスクリーニングすべきだったことは明らかです」と、同氏はThe Register紙に語った。「この件について、心からお詫び申し上げます。実際、不適切な画像やカテゴリーを削除するため、データセットをオフラインにしました。」

しかし、CSAILはウェブサイト上の声明で、画像が小さすぎて手作業による検査やフィルタリングが不可能なため、データセットは永久にオフラインにされると述べました。また、CSAILは、不適切な画像や言葉がライブラリに取り込まれていないか確認することなく、インターネットから画像を自動的に取得していたことを認め、利用者に対しデータのコピーを削除するよう促しました。

トラルバ教授は、このライブラリの構築方法についてもう少し詳しく説明してくれました。まず、蔑称を含む膨大な単語リストを入手し、それらの単語を含む画像をウェブ上で検索するコードを作成し、それらを統合しました。その結果、生のインターネット素材を含むデータセットが完成しました。

「このデータセットには、WordNetから直接コピーされた53,464種類の名詞が含まれています」と、プリンストン大学の関連語句をまとめた英単語データベースを指してトーラルバ教授は述べた。「これらのデータを用いて、当時のインターネット検索エンジンから対応する名詞の画像を自動的にダウンロードし、当時利用可能なフィルターを用いて、8,000万枚の画像を収集しました。」

WordNetは、認知心理学の創始者の一人であるジョージ・アーミテージ・ミラーの指導の下、1980年代半ばにプリンストン大学認知科学研究所で構築されました。「ミラーは単語同士の関係性に強い関心を持っていました」とプラブ氏は語ります。「このデータベースは、基本的に単語同士の関連性をマッピングしたものです。」

例えば、「cat」と「dog」は、「cat」と「umbrella」よりも関連が深い単語です。残念ながら、WordNetの名詞の中には人種差別的なスラングや侮辱的な言葉が含まれています。数十年経った今、学者や開発者がこのデータベースを便利な英単語のサイロとして利用しているため、これらの用語は現代の機械学習を悩ませています。

「巨大なデータセットを構築するには、何らかの構造が必要です」とビルハネ氏はEl Regに語った。「だからこそWordNetは効果的なのです。WordNetは、コンピュータービジョン研究者が画像を分類し、ラベル付けする手段を提供します。WordNetを使えば済むのに、なぜ自分でやる必要があるのでしょうか?」

WordNetは単語リストとして単体ではそれほど有害ではないかもしれませんが、画像やAIアルゴリズムと組み合わせると、厄介な結果をもたらす可能性があります。「この[WordNet]プロジェクトの本来の目的は、互いに近い単語をマッピングすることでした」とビルハネ氏は言います。「しかし、それらの単語に画像を関連付け始めると、実在の人物の写真を、ステレオタイプを永続させる有害な言葉と関連付けてしまうことになります。」

ImageNetにも同じ問題があり、これもWordNetでアノテーションされている。ImageNetルーレットと呼ばれる実験では、ImageNetで学習させたニューラルネットワークに写真を投稿し、データセットのラベルを用いて画像を説明するという実験が行われた。当然のことながら、人々は最も興味をそそられる写真、つまり自撮り写真をシステムに入力した。ソフトウェアが人種差別的または不快なラベルを使って画像を説明することにショックを受けた人もいた。

敗者のLマークを額に当てている人

この画像認識ルーレットは、あなたをレイプ容疑者、離婚者、または人種差別的中傷者とラベル付けするまでは、楽しいゲームです

続きを読む

これらの巨大なデータセットに含まれる問題のある画像やラベルの割合は少なく、異常値として無視するのは簡単です。しかし、これらのデータが現実世界で使用される機械学習モデルの学習に使用された場合、深刻な害を及ぼす可能性があると、プラブ氏とビルハネ氏は主張しました。

「標準的なデータセットに対する批判的な取り組みの欠如は、女性、人種的および民族的少数派、そして社会の周縁にいる脆弱な個人やコミュニティに不釣り合いなほど悪影響を及ぼす」と彼らは論文に記している。

これらのグループは、AIの学習データセットに十分に反映されていないことが多く、顔認識アルゴリズムが女性や肌の色が濃い人の識別に苦労する理由となっています。今年初め、デトロイトで黒人男性が顔認識ソフトウェアによって窃盗容疑者と誤認され、警察に不当逮捕されました。また、低解像度の写真から高解像度画像を生成する物議を醸したAIアルゴリズムが、バラク・オバマ大統領のぼやけた写真を黒人というより白人に近い人物に変換してしまったのも、この理由です。

「人々は、これらのモデルがどのように応用されるのか、何に使えるのかを考えていません」とビルハネ氏は述べた。「ただ『ああ、これ、私にもできるクールなこと』と考えるだけです。しかし、深く考えてみると、こうした陰険な目的がいくつも見つかり、その害がどのように現れるのかが見えてくるでしょう。」

ImageNetや80 Million Tiny Imagesのような巨大なデータセットも、FlickrやGoogle Imagesから人々の明確な同意なしに写真をスクレイピングすることで収集されることがしばしばあります。一方、Facebookは、コンピューターで生成された偽造画像を検出するソフトウェアを学習させるためのデータセットに顔写真を使用することに同意した俳優を雇用しました。

プラブ氏とビルハネ氏は、ソーシャルネットワークのアプローチは良いアイデアだとしつつも、学術研究にはトレーニングセットに出演する俳優に報酬を支払う資金がない可能性が高いと指摘した。「理想的なデータセットを作成するための完璧な解決策は存在しないことは承知していますが、だからといってより良いデータセットを作成しようと努力すべきではないということではありません」と両氏は述べた。

二人は、物体認識に特化したデータセットで人物の顔をぼかし、画像とラベルを慎重に選別して不快な要素を取り除いた上で、さらにはリアルな合成データを用いてシステムを学習させることを提案した。「人種差別的な中傷やポルノ画像、子供の画像などを含める必要はありません」と二人は述べた。「優れた科学研究を行うことと倫理基準を守ることは、互いに矛盾するものではありません。」®

Discover More