人間はラベル付けで合意できないため、AIシステムを誤った方向に導いていることが判明した

Table of Contents

人間はラベル付けで合意できないため、AIシステムを誤った方向に導いていることが判明した

調査によると、AIモデルのトレーニングや、テクノロジーの経時的進歩のベンチマークに使用される主要なデータセットには、ラベル付けのエラーが数多く含まれている。

データは、植物の種類の識別やキャプションの自動生成など、機械に特定のタスクの実行方法を教える上で不可欠なリソースです。ほとんどのニューラルネットワークは、データ内の共通パターンを学習する前に、大量の注釈付きサンプルを手取り足取り与えられます。

しかし、これらのラベルは必ずしも正しいとは限りません。エラーが発生しやすいデータセットを用いて機械を訓練すると、性能や精度が低下する可能性があります。MITが主導した前述の研究では、アナリストが学術論文で10万回以上引用されている10の一般的なデータセットを精査した結果、サンプルの平均3.4%に誤ったラベルが付けられていることが分かりました。

彼らが調べたデータセットは、ImageNetの写真、AudioSetの音声、Amazonから収集したレビュー、QuickDrawのスケッチなど多岐にわたります。研究者がまとめたミスの例を見ると、電球の絵にワニのタグが付けられているなど、明らかな誤りであるケースもあれば、必ずしも明らかではないケースもあります。野球ボールの入ったバケツの写真は「野球」とラベル付けすべきでしょうか、それとも「バケツ」とラベル付けすべきでしょうか?

衝撃の内容が明らかに

世界のAIを訓練するために使われた1TBの​​ImageNetデータセットの中身:裸の子供たち、酔っ払った学生会パーティー、ポルノスターなど

続きを読む

各サンプルにアノテーションを付ける作業は骨の折れる作業です。この作業はAmazon Mechanical Turkのようなサービスに外注されることが多く、そこでは作業員がわずかな報酬でデータを一つ一つ精査し、画像や音声にラベルを付けてAIシステムに入力することになります。Viceがここで解説しているように、このプロセスはバイアスやエラーを増幅させます。

労働者は、報酬を得るためには現状に同意するよう圧力をかけられています。例えば、多くの人が野球ボールの入ったバケツを「バケツ」とラベル付けし、あなたが「野球ボール」とラベル付けした場合、プラットフォーム側があなたが間違っていると判断し、群衆に逆らっている、あるいは意図的にラベル付けを間違えようとしていると判断し、報酬が支払われない可能性があります。つまり、労働者は自分が間違いを犯したと思われないように、最も人気のあるラベルを選択するのです。彼らの利益のためにも、物語に忠実に従い、目立たないようにするべきです。つまり、これらのデータセットでは、間違い、さらには人種的偏見などが雪だるま式に増えていく可能性があるのです。

エラー率はデータセットによって異なります。物体認識モデルの学習に最もよく使われるデータセットであるImageNetでは、エラー率は6%まで上昇します。このデータセットには約1500万枚の写真が含まれていることを考えると、数十万ものラベルが誤っていることになります。画像の種類によっては、他の種類よりもエラー率が高く、例えば「カメレオン」は「緑のトカゲ」と間違えられることが多く、その逆も同様です。

他にも連鎖的な影響があります。ニューラルネットワークは、データ内の特徴を特定のラベルに誤って関連付けることを学習する可能性があります。例えば、海の画像に船が写っているように見えるものが多数あり、それらが「海」としてタグ付けされ続けると、機械は混乱し、船を海と誤って認識する可能性が高くなります。

問題は、ノイズの多いデータセットを用いてモデルの性能を比較しようとするときにだけ生じるのではない。これらのシステムを現実世界に導入する場合、リスクはさらに高まると、本研究の共同筆頭著者であり、MITの博士課程学生であり、機械学習ハードウェアのスタートアップ企業ChipBrainの共同創業者兼CTOでもあるカーティス・ノースカット氏はThe Register紙に説明した。

「交差点での操舵判断にAIモデルを活用する自動運転車を想像してみてください」と彼は述べた。「三叉路交差点を四叉路交差点と誤認するラベルエラーが頻繁に発生するデータセットで自動運転車をトレーニングしたらどうなるでしょうか? 答えは、三叉路交差点に遭遇した際に道路から外れてしまうことを学習してしまうかもしれないということです。」

3 方向交差点を 4 方向交差点として誤ってラベル付けするラベル エラーが頻繁に発生するデータセットで自動運転車をトレーニングするとどうなるでしょうか。

「もしかしたら、AI自動運転モデル​​の一つは、実際にはトレーニングノイズに対してより堅牢で、道路から外れることが少ないのかもしれません。しかし、テストセットのノイズが多すぎると、テストセットのラベルが現実と一致しないため、このことに気づくことはできません。つまり、どの自動運転AIモデルが最も優れた運転性能を発揮するかを適切に判断できないということです。少なくとも、実際に車を実世界に送り出し、道路から外れてしまう可能性がある状況になるまでは。」

この研究に携わったチームが、ImageNetのエラーを除去した部分で畳み込みニューラルネットワークを学習させたところ、パフォーマンスが向上しました。研究者たちは、開発者はエラー率の高いデータセットで大規模なモデルを学習させる際には慎重に検討すべきだと考えています。まずはサンプルを精査することを推奨しています。チームが開発し、不正確なラベルや矛盾したラベルを識別するために使用したソフトウェア「Cleanlab」は、GitHubで公開されています。

「Cleanlabは、ノイズラベルを用いた機械学習のためのオープンソースのPythonパッケージです」とノースカット氏は述べた。「Cleanlabは、MITで発明されたコンフィデンスラーニングと呼ばれる機械学習のサブフィールドにおける理論とアルゴリズムをすべて実装することで動作します。私がCleanlabを開発したのは、他の研究者がコンフィデンスラーニングを使えるようにするためです。通常は数行のコードを書くだけで使えますが、それ以上に重要なのは、ノイズラベルを用いた機械学習の科学の進歩を促進し、新しい研究者が簡単に始められるフレームワークを提供することです。」

また、データセットのラベルが特に粗雑な場合、大規模で複雑なニューラルネットワークの学習が必ずしも有利とは限らないことに注意してください。大規模なモデルは、小規模なモデルよりもデータに過剰適合する傾向があります。

「ノイズの多いデータセットでは、より小さなモデルを使うことでうまくいく場合もあります。しかし、ノイズの多いデータセットには常に小さなモデルを使うのではなく、機械学習エンジニアはモデルのベンチマークを行う前にテストセットを整理し、修正する必要があるというのが重要なポイントだと思います」とノースカット氏は結論付けました。®

Discover More