物体認識AI – 愚かなプログラムが考える賢いプログラム:ニューラルネットワークは実際にはテクスチャを見ているだけ

Table of Contents

物体認識AI – 愚かなプログラムが考える賢いプログラム:ニューラルネットワークは実際にはテクスチャを見ているだけ

分析最新の研究によると、物体認識のために訓練されたニューラル ネットワークは、物体の形状ではなく質感に基づいて物体を識別する傾向がある。

つまり、何かの質感を取り除いたり歪めたりすると、ソフトウェアの動作が停止してしまいます。

たとえば、人工知能は読み書きが下手かもしれませんが、画像内の物体を認識するのはかなり得意です。

ニューラル ネットワーク ベースのコンピューター ビジョンをめぐる最近の盛り上がりは、2012 年にさまざまな画像認識システムを競うコンテスト「ImageNet Large Scale Visual Recognition Challenge」で、AlexNet と呼ばれる畳み込みニューラル ネットワーク (CNN) が優勝したときに始まりました。

その後、画像を精査する新しいCNNアーキテクチャが大量に登場し、2017年までにそのほとんどが競争において95%以上の精度を達成しました。写真を見せれば、写真に写っている物体や生き物が何であるかを自信を持って判断できるでしょう。今では、開発者や企業は、ImageNetデータセットでトレーニングされた既製のモデルを使うだけで、写真に写っている動物の種類を判別したり、ショット内の衣服を識別したりするなど、あらゆる画像認識問題を簡単に解決できます。

しかし、CNNは敵対的な入力にも簡単に騙されてしまいます。写真の小さなピクセルブロックを変更するだけで、ソフトウェアは物体を正しく認識できなくなります。色を少し調整するだけで、バナナだったものがAIにはトースターに見えてしまうのです。ひょっとすると、カメでさえ銃と間違えられるかもしれません。

それはなぜでしょうか?機械学習ソフトウェアがテクスチャを重視しすぎて、画像内のパターンの変化が分類ソフトウェアを欺いてしまう可能性もあるのでしょうか?

イメージではなく質感を感じてください

今年の国際表現学習会議(ICLR)に提出された論文が、その理由を説明するかもしれない。ドイツのテュービンゲン大学の研究者たちは、ImageNetで学習したCNNが物体の形状ではなく質感で物体を識別できることを発見した。

彼らは、人間と機械が視覚的抽象をどのように理解するかを研究するために、一連の簡単なテストを考案しました。コンピュータコーナーでは、AlexNet、VGG-16、GoogLeNet、ResNet-50の4つのCNNモデルを使用しました。肉袋コーナーでは、97人の被験者が参加しました。生体、電子を問わず、参加者全員に、一連の画像に映っている物体や動物を識別するよう指示しました。

重要なのは、各視聴者が見ているものを本当に理解できるかどうかをテストするために、画像がさまざまな方法で歪められたことです。画像はグレースケールで表示され、物体が白い背景に黒いシルエットとして表示され、物体の輪郭だけが表示され、物体のテクスチャのクローズアップだけが表示され、物体の上に歪んだテクスチャが重ねられ、通常の状態のまま表示されました。

テクスチャ_AI

様々な方法で歪んだ画像と、それをニューラルネットワークと人間が解析した際の精度の例。出典:Geirhos et al

結果は、物体の形状と質感を保持した画像のほぼ全てが、人間とニューラルネットワークによって正しく認識されたことを示しました。しかし、物体の質感を変更または削除するテストでは、機械の成績は大幅に低下しました。ソフトウェアは物体の形状だけでは動作できなかったのです。

テクスチャAI2

AIシステムは、猫の写真に象のテクスチャが付けられると、正しく認識できない。出典:Geirhos et al

「これらの実験は、テクスチャ仮説を支持する行動上の証拠を提供している。つまり、象のテクスチャを持つ猫はCNNにとっては象であり、人間にとってはやはり猫である」と論文には記されている。

ニューラルネットワークは怠惰な学習者である

人間は物体の全体的な形状で認識できるのに対し、機械はより細かい部分、特に質感を考慮するようです。象皮をまとった猫の例のように、質感の異なる物体を識別するよう求められた際、97人の被験者は平均95.9%の正確さで物体を識別しましたが、ニューラルネットワークのスコアはわずか17.2%から42.9%でした。

「非常に基本的なレベルで、私たちの研究は、現在のCNNが世界の『真の』構造を学習するのにどれほど遠いかを浮き彫りにしています」と、論文の共著者で同大学の博士課程の学生であるロバート・ゲイロス氏はThe Registerに説明した。

「CNNは可能な限り単純な関連付けを学習します。多くの場合、これは画像の小さなテクスチャのような断片をクラスラベルに関連付けることを意味します。物体が一般的にどのような形状をしているかを学習するわけではありません。そして、敵対的事例は明らかに同じ問題を指摘していると思います。つまり、現在のCNNは世界の『真の』構造を学習していないのです。」

問題はデータセットにあるのかもしれません。ImageNetには、様々なカテゴリーに分かれた1400万枚以上の物体の画像が含まれていますが、それでもまだ十分ではありません。角度やその他の情報が不足しているようです。この情報で学習したソフトウェアは、物体が実際にどのように形成され、形作られ、比率があるのか​​を理解することができません。

アルゴリズムは蝶の羽の模様から種類を判別できますが、その詳細を取り除いてしまうと、コードは実際に何を見ているのか全く理解していないように見えます。まるで偽の賢さです。

「これらのデータセットはあまりにも単純すぎるのかもしれない。テクスチャを検出することで解決できるのであれば、形状が一致するかどうかもわざわざ確認する必要はないだろう」とゲイルホス氏は言う。

人間にとって、「車」カテゴリの画像にのみ存在する特定のタイヤパターンを検出して車を認識することは想像しにくいですが、CNNにとっては、物体の形状がはるかに大きく、視点などによって大きく変化するため、これが最も簡単な解決策になるかもしれません。最終的には、このような「不正行為」を許さない、より優れたデータセットが必要になるかもしれません。

技術的な問題解決の時間

敵対的な質問に戻りますが、テクスチャへの過度の依存というこれらの発見は、画像の色やパターンをわずかに変えるだけでニューラルネットワークを欺くことができる理由を裏付けているのでしょうか?バナナの皮の一部を改変すると、コードは光沢のある金属製のトースターのテクスチャを見ていると認識するのでしょうか?

これを調査するため、研究者たちはImageNetをベースにした新しいデータセット、Stylized-ImageNetを構築しました。画像の元のテクスチャをスクラブし、ランダムなテクスチャと入れ替えた後、ResNet-50モデルを再学習させました。興味深いことに、CNNは変更に対してより堅牢性を示したものの、依然として敵対的サンプルの影響を受けていました。つまり、答えは「ノー」です。

「Stylized-ImageNet でトレーニングされたモデルであっても、敵対的サンプルの影響を受けやすいため、残念ながら形状バイアスは敵対的サンプルに対する解決策にはなりません」と Geirhos 氏は説明した。

しかし、現在の最先端のCNNは、現実世界における雨や雪といったランダムノイズの影響を非常に受けやすく、これは自動運転にとって問題となります。私が訓練した形状ベースのCNNが、テストしたほぼ全ての種類のノイズに対してはるかに堅牢であることが判明したという事実は、より堅牢なモデルへの道筋を示す有望な結果と言えるでしょう。

テクスチャと形状の問題はそれほど大きな問題には思えないかもしれませんが、広範囲にわたる影響を及ぼす可能性があります。ImageNetで事前学習されたシステムの中には、顔認識や医療画像といった他の分野ではそれほど優れたパフォーマンスを発揮しないものもあります。

実際、他の研究では、眼鏡や偽の紙の眼鏡で身元確認を逃れるのは非常に簡単であることが示されています。®

Discover More