GTC のAI システムは理論上は顔認識能力に優れていますが、実際に導入すると、ひどく失敗することがよくあります。
機械は人間にはできない方法で人の顔を分析できます。顔の特徴を示す目印を配置し、目、鼻、唇の間の距離といった微細な情報を計算できます。しかし、人間にとって、その力は生来備わっており、それよりも微妙なものです。
ニューラルネットワークは、精度スコアを向上させるために微調整したり、より多くのトレーニングデータを入力したりすることができます。しかし、人間の場合、人によって得意不得意があります。顔認識モデルの導入が始まったのは2015年で、データセットから写真に写った人物を識別する能力が超人レベルにまで向上しました。
国立台湾大学のコンピューターサイエンス教授、ウィンストン・シュー氏はGPUテクノロジーカンファレンスでの講演で、人間が他人を認識できる精度は約97.53%だが、最近では98%や99%に達するシステムもあると述べた。
VGG-16やResNet-50など、様々な事前学習済みアーキテクチャから選択できます。実際、Hsu氏によると、ネットワーク構造はそれほど重要ではなく、すべてのモデルはピクセル値を数値に変換し、それを行列演算で処理してデータのパターンを学習するという、ほぼ同様の方法で動作するとのことです。
AIでAIに対抗!機械学習アルゴリズムが作ったエッチなディープフェイク動画を指で操作するコードを学習
続きを読む
では、なぜAIは現実世界ではうまく機能しないのでしょうか?機械は見ているものを理解できないのは明らかです。中国の人気実業家、董明珠さんがバスに貼られた大きな写真が通り過ぎ、カメラに撮影されたことで横断歩道を渡らなかったと非難された、あの恥ずかしい事件を覚えていますか?AIは、顔が様々なポーズで置かれたり、異なる照明の下で撮影されたりしても、誤認識してしまいます。
スー氏はこの問題を「クラス内変動が大きい」と呼び、これは特定のデータセット内の同一人物の画像が構造的に異なる場合に発生する。この場合、コンピュータは以前に見た顔を認識できない可能性がある。写真がより均一な「クラス間類似性が高い」場合(例えば、顔写真が一列に並んでいる場合など)、誤検出につながる可能性が高くなる。
データには偏りもあります。公開されているデータセットのほとんどは、人種的に色白の顔に偏っています。例えば、MS-Celeb-1M Challenge 1モデルのようなモデルで学習させたシステムは、人種的に多様な国の街中で普通の人を識別するのにはあまり役に立ちません。ハリウッドのセレブはなぜか眼鏡をかけていないようですが、アジアでは多くの人が眼鏡をかけているので、このようなモデルは仕様に合わないでしょう、とHsu氏は冗談めかして言いました。®