人間の脳は偽の音声よりも偽の画像を見抜く能力に優れているようだが、音声スプーフィング技術がより効果的かつ容易になりつつある現在、この違いはセキュリティにとって悪い前兆となる。
今週のブログ投稿で、ロンドンの Accel のベンチャー パートナーである Adrian Colyer 氏は、今年初めに 2019 年のネットワークおよび分散システム セキュリティ (NDSS) シンポジウムで発表された、この予期せぬ知覚上の盲点を検証する論文について説明しました。
Ajaya Neupane (カリフォルニア大学リバーサイド校)、Nitesh Saxena (アラバマ大学バーミンガム校)、Leanne Hirshfield (シラキュース大学)、Sarah Elaine Bratt (シラキュース大学) が共同執筆した論文「音声の安全性 (不) の核心: 話者の正当性検出に関する脳研究」では、機能的近赤外分光法 (fNIRS) を通じて音声の安全性の神経的基盤を調査しています。
基本的に、研究者たちは被験者にオプラ・ウィンフリーやモーガン・フリーマンなどの甘美な声を含む人々の声の録音を聞かせて脳スキャンを実施し、その結果をコンピューターで生成(モーフィング)した声や、なりすましの声と比較した。
脳は、なりすましや偽の画像とは異なり、本物の声と加工された声の間に大きな違いを認識しないことが分かりました。以前の研究では、レンブラントの偽の絵画と本物の絵画を見た人の脳、そしてフィッシングサイトを閲覧した人の脳に神経学的差異が見られることが示されています。
録音されたオプラと模造オプラの質が同じだというわけではありません。実際はそうではありませんでした。研究者たちは被験者に、話し手が本物か偽物かを識別するよう依頼しました。被験者は、本物の録音を82%の確率で本物だと回答し、モーフィング(ソフトウェアで加工)された録音を58%の確率で本物だと回答し、作り話の話し手を本物だと32%の確率で回答しました。
重要なのは、人々が加工された声を本人だと認識した際に、そうではないことを示す神経信号が全くなかったことです。研究者たちは機械学習を用いてスキャンデータから本人の声と加工された声を区別しようと試みましたが、その精度はわずか53%にとどまりました。これはコイントスと大差ありません。
「しかし、私たちの脳の『深いところ』では、本物の声とそれを模倣した加工された声の違いを本当に区別できないため、声が特に壊滅的な攻撃ベクトルになる可能性があることが判明しました」とコルヤー氏は指摘した。
研究者らは音声モーフィングにCMU Festvoxと呼ばれるソフトウェアを使用し、音声合成の継続的な進歩(LyrebirdやGoogle WaveNetなど)により、モーフィングされた音声はさらに信憑性が増し、音声ベースのソーシャルエンジニアリング攻撃がより現実的になると推測している。
ディープフェイクなんて忘れろ。AIを搭載したこのロボット・レンブラントは、絵画を模倣するのが得意だ
続きを読む
潜在的な脅威のシナリオとしては、ソーシャルメディア上で偽の音声サンプルを公開すること、電話での会話やボイスメールシステムで人物になりすますこと、音声認証システムに対する中間者攻撃などが挙げられると彼らは指摘する。
研究者たちは、実際の声と加工された声が脳内でどのように認識されるかについて神経的な区別を見つけられなかったとしても、そのような信号が存在する可能性が排除されるわけではないと警告している。
コリアー氏は、研究者が脳の適切な領域を測定していない可能性を示唆している。しかし、彼はまた、元の話者の音声サンプルと人間のなりすましを比較したスキャン結果に統計的に有意な差が見られたことにも注目しており、これはfNIRSスキャンが少なくとも関連する脳領域を観察していたことを示している。
研究者たちは、音声なりすましのリスクに対する人々の意識を高めることが、現時点でこの脅威に対処する最も現実的な方法かもしれないと主張している。彼らは、生体認証システムは音声合成攻撃に対して脆弱であると主張しているが、将来の技術的解決策が役立つ可能性もあると認めている。®