AI画像認識システムは、ランダムなオブジェクトをコピー&ペーストすることで騙される可能性がある

Table of Contents

AI画像認識システムは、ランダムなオブジェクトをコピー&ペーストすることで騙される可能性がある

画像認識システムを改ざんするために、必ずしも複雑なアルゴリズムを構築する必要はなく、ランダムな場所にオブジェクトを追加するだけで十分です。

多くの場合、敵対的モデルは、画像を歪ませて物体を誤認識させるために、あちこちで数ピクセルを変更するために使用されます。例えば、バナナの画像をトースターに変えるステッカーや、変なメガネをかけて顔認識システムを騙し、自分が別人だと信じ込ませるといった事例があります。カメをライフルと誤認したという古典的な事例は、AIを出し抜くのがいかに簡単かを如実に示しています。

しかし、カナダのヨーク大学とトロント大学の研究者たちは、物体の写真をコピー&ペーストすることでニューラルネットワークを欺くことも可能であることを実証しました。ここでは、特別なトリックは必要ありません。

研究チームは、Googleのエンジニアが画像認識タスクを実行するために構築したオープンソースフレームワークであるTensorflow Object Detection APIから取得したモデルを用いて、一連の実験を行いました。このAPIは、畳み込みニューラルネットワークのアーキテクチャを記述するTensorFlowコード上に構築された別のレイヤーです。

彼らは、ある画像からオブジェクトを取り出し、別の画像に重ねて、異なる場所に配置し、それらの画像をAPIに入力しました。arXivに掲載された論文によると、この手法は「オブジェクト移植」として知られています。

最初の例では、リビングルームに座っている男性の画像に象の絵が追加されています。モデルは、さまざまなオブジェクトの周囲に色付きの境界ボックスを出力し、それぞれのオブジェクトの識別における信頼度を計算します。人物とノートパソコンは99%、椅子は81%、ハンドバッグは67%、本とカップは50%の精度で識別しました。

ここまでは順調です。しかし、同じ画像に象の写真を追加すると、モデルは混乱し始めます。象が赤いカーテンに貼り付けられると、写真に椅子があるという確信度は81%から76%に低下し、急に自信を失います。一方、テーブルの上にカップがあるという確信度は50%から54%に上昇し、わずかに高まります。

さらに奇妙なのは、象をコピーして人物の頭の上に直接貼り付けると、椅子として認識されてしまうことです。動物の絵をシーン上で移動させると、正しく認識されるのはノートパソコンと本棚の上に置いたときの2箇所だけです。

敵対的な例

象の絵が画像内で移動すると、API はうまく動作しません。多くの場合、象の絵が画像内で移動しても全く認識されません。画像クレジット: Rosenfeld et al.

リビングルームでよく見かける一般的なアイテムの中に象が一緒に写っているのは珍しいため、APIがオブジェクトを正しく認識するのに苦労している可能性があるようです。「同じ画像内で特定の2つのカテゴリの組み合わせを見たことがないネットワークが、テスト時にそのような画像にうまく対応できると期待するのは、おそらく無理がある」と論文は述べています。

しかし、このテストは不公平なものではなく、ニューラルネットワークがいかに脆弱であるかを示している。ニューラルネットワークは、訓練データで見たことのない新しい画像には容易に適応できないようだ。「訓練データにおいて、物体カテゴリーの各ペアが共存することを条件とすることは、実用的にも理論的にも合理的ではないと考えている」と研究者らは述べている。

AIは二重に見えにくい

チームがイメージ内にすでに存在するオブジェクトを複製しても、API は依然として混乱し続けました。

このモデルは、モニターの前にあるキーボードの上に猫が横たわっている写真から、オブジェクトを難なく見つけ出します。2枚目の猫の写真を追加し、最初の猫の真後ろに横たわっているように、猫の足が犬に見えたり、キーボードの角が本に見えたりするように修正します。

研究チームはさまざまな画像で実験を繰り返し、牛の頭が馬になったり、野球のバットがラップトップに変わったり、ハンドバッグがカップに見えたりした。

敵対的例2

画像内に既に存在する同じオブジェクトを追加しても同じ効果が得られます。画像クレジット:Rosenfeld et al.

論文によると、実際の物体に属さないピクセルから抽出された特徴は画像を乱雑にする。「これは、物体のROI(関心領域)内のピクセルにも、ROI外のピクセルにも当てはまります。」

これは、あらゆる画像分類モデルが直面する問題です。どのモデルも、特定の領域内のピクセル範囲の特徴を考慮して物体を識別しますが、他の物体のピクセルが重なり合って混乱を招く可能性があります。

研究者たちはこの問題を「部分的遮蔽」と呼んでいます。「部分的遮蔽は物体検出器にとってかつて、そして今もなお課題であることは広く認められています。部分的遮蔽に対処できることは、一般化の良い兆候です。」

「ここで生成された画像は、小さな画像の変化(人間には知覚できない)がネットワークの出力に大きな変化を引き起こす敵対的サンプルの変種として見ることができる」と論文は結論づけている。®

Discover More