ニューラルネットワークベースの言語翻訳者は、誤字や数字を戦略的に挿入することで、文章から単語を削除したり、フレーズの意味を大幅に変えたりするように誘導される可能性があります。
写真のピクセルを操作したり、特別に細工したステッカーを物体の近くに貼ったりすることで画像認識システムがバナナをトースターと間違えるのと同じように、入力を微調整することで文章の翻訳を変えることも可能だ。
これは、「The black cat(黒猫)」を「The black cap(黒い帽子)」に変えたり、英語からフランス語への翻訳AIの出力を「Le chat noir(黒い猫)」から「Le chapeau noir(黒い帽子)」に変えたりするようなものではありません。こうした変化は当然のことです。
いいえ、私たちが話しているのは、たとえば、「Er ist Geigenbauer und Psychotherapeut」(彼はバイオリン職人であり、心理療法士です)を「Er ist Geigenbauer und Psy6hothearpeiut」と修正して、「彼はレンガ職人であり、精神病質者です」と翻訳することです。
災害
言語に精通した人間であれば、タイプミスは明白であり、その背後にある悪意に気づかずにミスを許すことができます。一方、ソフトウェアは騙されていることに全く気づいていません。適切な位置でのスペルミスは、機械学習プログラムにコマンドや情報の要点を誤解させ、かなり不安定な動作や破滅的な動作を引き起こす可能性があります。
また、政府の監視機関や企業の人事部が、監視対象の電話の通話内容をAIを使って英語に書き起こし、無害な発言に対して警報が鳴るほどに翻訳を完全に間違える事態も想像に難くない。
これは、米国オレゴン大学のコンピュータ科学者グループによる研究で、彼らは文章中の文字を変更することで機械翻訳の精度を低下させることに成功しました。その成果は、週末に発表されたこの論文で発表されています。
「機械翻訳は人々を結びつけ、情報を共有するために使われますが、翻訳が間違っていると逆のことが起きる可能性があります」と論文の共著者でオレゴン大学の准教授ダニエル・ロウド氏はThe Registerに語った。
「これは、他人に疑念を抱かせるために悪意を持って利用される可能性があります。
例えば、仮名を使って、標的の人物に「おはようございます。今日は何か予定はありますか?」と、いくつかタイプミスをしながらメールを送ったとします。被害者にとっては、私が「おはようございます」と言っているように見えます。翻訳ソフトを使う法執行機関には、「今日、彼らを攻撃する予定はありますか?」と言っているように聞こえるかもしれません。もし被害者が「ええ、もちろんです!」と返信すれば、彼らは悪意のある活動に参加しているように見えます。
白い箱
研究者たちは、IWSLT 2016データセットを用いて、言語間の翻訳を行うリカレントニューラルネットワークを訓練しました。このデータセットは、TEDトークから抽出された言語ペア間の数十万語の単語で構成されています。ドイツ語から英語、チェコ語から英語、フランス語から英語の3つの言語ペアをカバーしています。
チームが騙そうとしたのは、まさにこのニューラルネットワークソフトウェアでした。これは、モデルとそのパラメータが既知であるという点でホワイトボックス攻撃であり、内部の仕組みが完全に謎に包まれたブラックボックスとは対照的です。現実世界では、機械翻訳を攻撃しようとする人々は、ブラックボックスと対峙する可能性が高いでしょう。例えば、Googleは翻訳システムの設計図を公開していません。しかし、ホワイトボックス攻撃はそれほど非現実的なシナリオではないとロウド氏は述べています。
「ほとんどの場合、企業はそうした詳細を秘密にしておきます」と彼は述べた。「しかし、Google翻訳のような多くのシステムは一般公開されており、誰でも好きなだけ実験することができます。」
そのため、悪意のある人は、外部から翻訳機を操作することで、翻訳機内部で何が起こっているかをよく理解できる可能性があります。
攻撃
研究者たちは、文字の置き換え、入れ替え、削除、そして新しい文字の挿入といった実験を行いました。例えば、ドイツ語の「nacht」の「h」を「ak」に置き換えると「nackt」に変わり、英語の翻訳では「night」が「naked」に変わります。目的は、出力結果に支離滅裂にならない程度の変化を加えることでした。つまり、テキストへの変更は、大きすぎたり小さすぎたりしないようにするということです。
テキストの文字列(ソフトウェアでは数字のベクトルとみなされる)を無作為に、目的もなく編集して時間を無駄にすることを避けるために、チームは文字を調整したときのニューラル ネットワーク内の影響を分析し、価値のある変更に的を絞れるようにしました。
驚き!ワイヤレス脳インプラントは安全ではなく、乗っ取られてあなたを殺したり、思考を盗んだりする可能性があります
続きを読む
「我々の攻撃では、原文のどこかに単一の文字を挿入、削除、置換、または入れ替えるなど、起こりうるすべての個別の変更を考慮します」とロウド氏は述べた。
しかし、すべての可能性を一つずつ試すのは時間がかかり、一つの変更では翻訳に目立った影響がない可能性があります。これを回避するため、ニューラルネットワークの構造を利用して、すべての可能性のある変更の影響を一度に推定します。この近似は、単純なアプローチよりも桁違いに高速です。
「一連の変更を行うには、翻訳が攻撃者にとって『十分に』改変されるまで、一度に一つずつ変更を加えていきます。攻撃効果をもう少し高めるために、次点となる文字もいくつか検討します。他の文字の変更と組み合わせることで、さらに効果的になる可能性があるからです。訓練方法で使用する攻撃をより高速化するために、各単語の中で最も改変すべき文字を探し出し、それらをすべて改変します。」
これらの攻撃がどれほど強力で、実験室外の現実世界でどれほど成功する可能性があるかを評価することは困難です。画像分類システムではパフォーマンスを精度のパーセンテージで測定できますが、テキストはより微妙なニュアンスを含んでいます。
代わりに研究者らは、変更が特定の目的(文から名前を削除する、プライバシー上の理由で活動を非表示にするなど)を達成しているかどうか、あるいは受信者には理解できるが翻訳モデルには理解できない脅威を送信するなど、より悪意のある目的を達成しているかどうかを確認することで、敵対的サンプルを評価することを提案している。
ドイツ語から英語に翻訳された文章の検索結果の一部を以下に示します。最初の例は制御された攻撃、2番目と3番目の例はそれぞれ2番目と100番目に可能性の高い標的型攻撃を示しています。画像クレジット:Ebrahimi et al.
悪いニュースばかりではありません。論文では、敵対的サンプルを用いた翻訳モデルのトレーニングによってシステムの弱点を最小限に抑えられることも示されています。AIに悪意のある文を見せることで、AIはそれらを無視したり回避したりすることを学習します。これは通常のトレーニングの約3倍の時間がかかりますが、堅牢性を向上させると言われています。
実際のモデルでは、めったに翻訳されない言語のペアは攻撃を受けやすくなるとロウド氏は述べた。
「そもそも翻訳が信頼できないと、攻撃者はそれを悪用する可能性があります」と彼は述べた。「トレーニングデータが少ない、言語の専門知識が少ない、あるいはエンジニアリングとテストの労力が少ない機械翻訳モデルは、脆弱になる可能性が高くなります。」
ニューラルネットワークに敵対的サンプルを投入することは、ますます流行になりつつあります。最も一般的な例としては、ノイズを追加したり、いくつかのピクセルを変更したりすることで、画像分類器に物体を誤認識させ、猫をワカモレと間違えるといったことが挙げられます。®