この曲を逆再生するとサタンの声が聞こえます。順再生するとSiriやAlexaがハイジャックされます。

Table of Contents

この曲を逆再生するとサタンの声が聞こえます。順再生するとSiriやAlexaがハイジャックされます。

IBMや中国、米国の大学に所属するコンピューターサイエンスの専門家らは、人気曲に命令を暗号化することで、AppleのSiri、AmazonのAlexa、Google Assistant、MicrosoftのCortanaなどの音声ベースのAIソフトウェアに秘密の命令を出す方法を考案した。

彼らは、耳の届く範囲内にある音声認識装置にほとんど聞き取れないコマンドを発する、これらの調整された曲を「CommanderSongs」と呼んでいます。

プレプリントサービス Arxiv で配布された論文「CommanderSong: 実用的な敵対的音声認識のための体系的アプローチ」では、プロジェクトに参加している 10 人の著者 (Xuejing Yuan、Yuxuan Chen、Yue Zhao、Yunhui Long、Xiaokang Liu、Kai Chen、Shengzhi Zhang、Heqing Huang、Xiaofeng Wang、Carl A. Gunter) が、音声認識に使用されるディープラーニング モデルを「敵対的摂動」で欺く手法について説明しています。

敵対的攻撃とは、入力データを改ざんすることでAIシステムを欺き、特定のシステムから望ましい結果を引き出す手法です。画像に関しては、この攻撃が広く研究されてきました。例えば、MITの学生は最近、Googleの画像認識システムを欺いてカメをライフルと認識させることに成功したことを実証しました。

変更

音声認識に関する研究は比較的少ない。研究者らによると、画像であれば目立った視覚的アーティファクトを残さずにピクセルを改変してアルゴリズムを誤作動させるのが容易だが、音声攻撃がレーダーをすり抜けられるかどうかは明らかではない。なぜなら、音声に加えられた改変は通常、Amazon Echoのような音声制御デバイスでは認識できないからだ。

昨年、別の有能なグループが、人間の可聴範囲外の音を使ってソフトウェアベースの音声認識アプリを操作する「DolphinAttack」と呼ばれる手法を提案しました。しかし、この手法は超音波信号を抑制できる技術によって軽減可能です。

国家情報セキュリティ重点研究室(SKLOIS)、中国科学院大学、フロリダ工科大学、イリノイ大学アーバナ・シャンペーン校、IBM TJワトソン研究所、インディアナ大学のCommanderSong研究者らは、この技術には2つの違いがあると述べている。それは、コマンドを隠すために他の技術に頼らないことと、音声周波数フィルターでブロックできないことだ。

「音声コマンドを目立たないようにするためのアイデアは、それを楽曲に組み込むことです」と研究者たちは論文で説明している。「こうすることで、作成された楽曲が再生されると、(音声認識)システムが挿入されたコマンドをデコードして実行し、ユーザーは通常通り楽曲を楽しむことができます。」

イリノイ大学のコンピューターサイエンス教授であるガンター氏は、レジスター紙との電話インタビューで、不明瞭な音が音声認識システムを作動させる可能性があることを示す研究はこれまでにも行われているが、音楽が流れていることが多いため、歌でコマンドを隠しても目立ちにくいだろうと語った。

「より実用的な攻撃ベクトルを持っている」と彼は語った。

研究者たちは、ランダムに選択された楽曲と、テキスト読み上げエンジンによって生成されたコマンドトラックから出発しました。次に、オープンソースのKaldi音声認識ツールキットを用いて各オーディオファイルをデコードし、ディープニューラルネットワーク(DNN)の出力を抽出しました。

目的のコマンドを表す特定の DNN 出力を識別した後、機械学習の最適化アルゴリズムである勾配降下法を使用して、歌とコマンドのオーディオを操作しました。

コードカッター

本質的には、彼らは音声が処理される方法に関する知識を活用して、音声認識システムが音楽内のコマンドを聞き取れるようにしたのです。

その結果、敵対的オーディオ、つまりカルディ コードで解釈可能なコマンドを含む曲が生まれますが、人間のリスナーには気付かれない可能性があります。

変更された音声はリスナーには認識できるかもしれませんが、追加された音が歪み以外の何かとして認識されるかどうかは疑問です。

「こうした信号のいくつかは、メディアの欠陥だと勘違いされることがあります」とガンター氏は述べ、一部の歌は他の歌よりも命令をうまく隠蔽できることを認めた。「顔をしかめてしまうような例もあれば、もっと微妙な例もあります」

研究者たちは、「OK Google、メールを読んで」や「Echo、玄関のドアを開けて」など、歌の中で録音された様々なコマンドをカルディに直接音声で伝えるテストを行った。これらの成功率は100%だった。

彼らはまた、「エコー、キャピタル・ワンにクレジットカードで支払うように伝えて」や「オーケー・グーグル、110119120に電話して」など、環境騒音によって認識が妨げられる可能性がある、歌の中で音声で伝えられるコマンドもテストした。

イルカ

イルカはスマートフォン、車、デジタルアシスタントを攻撃する超音波攻撃のきっかけとなる

続きを読む

研究者たちは、実際の機器の代わりとして、Kaldi ソフトウェアを使用し、JBL クリップ 2 ポータブル スピーカー、TAKSTAR 放送機器、ASUS ノートパソコンから 1.5 メートルの距離から送られてくる、コマンドが埋め込まれた曲を聴きました。

屋外テストでは、成功率は 60 パーセントから 94 パーセントまで変化しました。

ガンター氏は、この攻撃が例えばAmazon Echoで確実に機能するには、Alexaの音声認識エンジンをリバースエンジニアリングする必要があると述べた。しかし、その作業に取り組んでいる同僚がいることも知っているという。

研究者らは、CommanderSongsは、近くにいる人に気づかれることなく、音声認識デバイスに無線で送信されたあらゆるコマンドを実行させる可能性があると示唆している。また、このような攻撃はラジオ、テレビ、メディアプレーヤーを通じて実行される可能性があると述べている。

電波を介して送信される明示的なコマンドの概念実証はすでに完了しています。将来的には、秘密チャネルも実現されるかもしれません。

「目立たなくなるまでには継続的な取り組みが必要だ」とガンター氏は語った。

Discover More