新たなAI攻撃、今回は「ブラックボックス」機械学習に対するもの

機械学習モデルを破壊しようとする研究者たちの仲間入りをしてみませんか？ドイツの研究者3人が、「ブラックボックス」を攻撃する際に敵対的モデルを容易に作成できるように設計されたツールを公開しました。

AIを「内部から」攻撃する敵対的モデルとは異なり、ブラックボックス向けに開発された攻撃は、自動運転車、セキュリティ（顔認識など）、音声認識（AlexaやCortana）などのクローズドシステムに対して使用される可能性があります。

Foolboxと呼ばれるこのツールは現在、来年の国際学習表現会議（4月末に開始）での発表に向けて審査中です。

ドイツのエバーハルト・カール大学テュービンゲン校のヴィーラント・ブレンデル、ジョナス・ラウバー、マティアス・ベトゲはarXivで、フールボックスは境界攻撃と呼ばれる「決定ベース」の攻撃であり、「大規模な敵対的摂動から始まり、敵対的であり続けながら摂動を減らそうとする」ものだと説明した。

フールボックスがセレブリティIDを破る

Foolbox は Clarifai のブラックボックス AI と対比してテストされました

「その基本的な動作原理は、大きな摂動から始めてそれを徐々に減少させることであり、これまでの敵対的攻撃の論理を実質的に覆すものである。境界攻撃は驚くほど単純であるだけでなく、極めて柔軟性が高い」と研究者らは記している。

たとえば、「転送ベースの攻撃」は、攻撃対象のモデルと同じトレーニングデータに対してテストする必要があり、「扱いにくい代替モデル」が必要になります。

論文によれば、勾配ベースの攻撃ではターゲットモデルに関する詳細な知識も必要であり、スコアベースの攻撃ではターゲットモデルの信頼スコアにアクセスする必要があるという。

論文によれば、境界攻撃では、機械学習モデルの最終決定、たとえば入力に適用するクラスラベルや、音声認識モデルの場合は転写された文章を確認するだけでよいという。

フールボックスがロゴを破る

FoolboxはClarifaiのブラックボックスでロゴをテストしました

研究者らは Clarifai API を使用して攻撃をテストし、有名人を誤って識別したり、目立つロゴを見逃したりしました。®

Table of Contents