一度機械学習を騙したら、それはあなたの恥。二度騙したら、それはAI開発者の恥？一つのモデルを騙せれば、もっと多くのモデルを騙せるかもしれない

新たな研究によると、ある機械学習モデルを騙す敵対的攻撃は、他のいわゆる人工知能システムを騙すためにも使用される可能性があるという。

この研究によって、AI 開発者に情報を提供し、AI 開発者がスマートソフトウェアをこれらの転送可能な攻撃に対してより堅牢なものにするよう促し、悪意のある画像、テキスト、または音声が 1 つのトレーニング済みモデルを騙して別の同様のモデルを騙すことを阻止できるようになることが期待されます。

ニューラルネットワークは、敵対的攻撃と呼ばれる手法によって簡単に騙されてしまいます。敵対的攻撃とは、ある出力を生成する入力データを微妙に改変することで、全く異なる出力を生成する攻撃です。例えば、物体分類器に銃を見せ、それが銃だと正しく推測したとします。その後、銃の色をほんの少し変更するだけで、AIは赤と青の縞模様のゴルフ傘だと勘違いするのです。こうすれば、群衆を武器の有無で監視しているスマートCCTVカメラをすり抜けられる可能性が出てきます。

これは、機械が実際の入力と改ざんされた入力を区別できず、間違った答えを吐き出しながらも、全く同じように動作を続けるためです。あちこちに数ピクセルを追加するだけで、バナナの画像がトースターとして分類されてしまいます。これはコンピュータービジョンシステムだけの問題ではなく、自然言語モデルにも脆弱です。

これまでのところ、ほとんどの攻撃は、推論中、つまり最終的な意思決定段階（ソフトウェアが何を見ているのか、何を聞いているのかなどを予測する部分）で AI システムに汚染された入力データを入力することで実証されています。

攻撃者がモデルの内部動作を理解していない場合、試行錯誤が必要になります。本番システムに対してこの攻撃を試みる場合、攻撃が失敗した場合、セキュリティアラームが作動したり、顔認識システムによって特定されたり、AIベースのネットワーク監視システムが起動したり、AIアプリケーションを操作しようとしていることが露呈したりする可能性があります。これは決して許されることではありません。

もう一つの戦術は、本番環境で攻撃を実行する前に、自社のニューラルネットワークで攻撃を練習することです。この練習を効率的に行い、時間のかかる試行錯誤に陥らず、失敗時の悪影響も避けるためには、「移植可能性」と呼ばれる仕組みが必要です。移植可能性によって、自社のニューラルネットワークに対して有効な攻撃を設計でき、かつ、ブラックボックスである別のAIプログラムに対しても有効な攻撃を設計できるようになります。

「転移可能性とは、機械学習モデルに対する攻撃が、異なる、潜在的に未知のモデルに対しても有効であるという能力を捉えている」と、イタリアのカリアリ大学と米国のノースイースタン大学の研究者グループは今週、arXivにホストされた論文で説明した。

AI脳

物体認識AI – 愚かなプログラムが考える賢いプログラム：ニューラルネットワークは実際にはテクスチャを見ているだけ

成功の鍵は、標的モデルの脆弱性、代替モデルの複雑さ、そして両者の整合性にあります。本物のモデルと同様に動作するダミーモデルに対して敵対的攻撃をテストできるということは、その攻撃がより効果的に伝染することを示唆しています。これは明白な事実のように思えます。なぜなら、自宅の窓にレンガを投げ込めるのであれば、隣人の同じような窓にもレンガを投げ込める可能性が高いからです。

しかし、これは学術の世界であり、特に機械学習の不安定で予測不可能で誤解されやすい世界では、物事を当然のこととして想定したり受け入れたりする前に、当然のことながら、証明され、説明され、調査される必要があります。

論文の共著者であり、ノースイースター大学の博士課程の学生でもあるマシュー・ジャギエルスキ氏は、これらのダミーモデルはクラウド上の商用機械学習システムを攻撃するために使用できるとエル・レグに語った。

「真のモデルにアクセスできない状況でも、こうした攻撃を可能にするための優れた研究は数多く行われています」と彼は述べた。「もし攻撃者がある程度の訓練データを収集したり、モデルに十分なクエリを実行したりできれば、効果的な攻撃を確実に実行できる、十分に優れた代替モデルを手に入れることができるのです。」

論文の第一著者でありカリアリ大学の研究者でもあるアンブラ・デモティス氏は、 The Registerに対し、転用可能な敵対的攻撃を作り上げるための効果的な代替モデルを選択したり構築したりするのはそれほど難しいことではないと説明した。

「今日では、より多くの情報が公開されており、攻撃者が利用できるツールも増えているため、攻撃者が機械学習システムを脅かすことはより容易になっていると思う」とデモティス氏は述べた。

オープンソースモデルは、敵対的サンプルの作成を練習するためのダミーモデルとして使用できると言われています。

デモニス氏は、例えば、画像認識モデルにノイズの混じった画像を与え、そこに写っているものを全く別のものとして認識させようとする攻撃者がいる場合、訓練データに過度に適合しない分類器を選択することが良い第一歩だと説明した。AI開発者向けには、研究チームは論文の中で、転移可能な攻撃を回避する方法についてアドバイスを提供している。

「システム設計者への教訓は、分類器を評価し、回避と汚染の両方に対してより高い堅牢性を提供する傾向がある、より複雑性が低く、より強力な正規化モデルを選択することだ」と研究者らは結論付けた。®

一度機械学習を騙したら、それはあなたの恥。二度騙したら、それはAI開発者の恥？一つのモデルを騙せれば、もっと多くのモデルを騙せるかもしれない

Table of Contents

物体認識AI – 愚かなプログラムが考える賢いプログラム：ニューラルネットワークは実際にはテクスチャを見ているだけ

Discover More

オーストラリアの鉱山を無人トラックが走り回る

アマゾンの重要なアラバマ倉庫労働者組合の投票が始まった…そして、まだ時間がかかるかもしれない

米国の警察用ボディカメラのトップメーカーは、顔認識AIは安全ではないと主張

Table of Contents

物体認識AI – 愚かなプログラムが考える賢いプログラム：ニューラルネットワークは実際にはテクスチャを見ているだけ

Smart Recommendations

Discover More