おい、こっちで話してるよ…学者はコンピューターがあなたが話しているときにどちらを向いているかを判断するのを手伝っている

Table of Contents

おい、こっちで話してるよ…学者はコンピューターがあなたが話しているときにどちらを向いているかを判断するのを手伝っている

ビデオ複数のネットワーク接続デバイスがある環境で人が機械と会話する方法を改善するために、米国カーネギーメロン大学の研究者たちは、人が話しているときに向いている方向を判断する音響測定技術を考案しました。

CMU の博士課程の学生である Karan Ahuja 氏は、 The Registerへの電子メールで、自分と同期の Andy Kong 氏、そして教授の Mayank Goel 氏と Chris Harrison 氏が、「カメラを必要とせず、視線と同じようにアドレス指定可能な音声コマンドを可能にする」新しいオーディオ技術を考案したと説明した。

つまり、ビデオカメラは視線追跡機能を使って、話している人が誰に話しかけているのか、あるいは何に話しかけているのかを推測できますが、音声中心のデバイスには、人の向きを推測する確実な方法がありません。Amazon EchoやNest Audioなどのデバイスでは、デジタルアシスタントソフトウェアを起動するために使用されるウェイクワードがその信号を提供しますが、複数の音声認識対応デバイスが同時に聞き取っている場合、混乱が生じる可能性があります。

音声方向の計算により、どのデバイスに話しかけているのかが明確になり、機械との音声によるやり取りが簡素化されます。

先月開催された第33回ACMユーザーインターフェースソフトウェアおよびテクノロジーシンポジウム(UIST '20)で発表された「スマートデバイスエコシステムとの直感的な音声インタラクションのための音声方向(DoV)推定」と題された論文の中で、CMUのコンピューター科学者たちは、音声を方向性のある通信チャネルとして使用する方法を示しています。

彼らが議論する技術は、音源を正確に特定するために使用される到達方向(DoA)ア​​ルゴリズムではありません。むしろ、彼らのDoVアルゴリズムは、音声が投射された方向を特定することができます。

「これにより、ユーザーは音声対応デバイスの多様なエコシステムと簡単かつ自然に対話できるようになるが、現在の音声対話では複数デバイスの混乱に悩まされている」と論文では説明されている。

PC電源ユニット内部

さて、PCのエアギャップは完了です。スピーカーは切断し、LEDは覆い、モニターの接続も切断しました。さて、データ漏洩の原因となっている電源ユニットについてですが…

続きを読む

彼らはDoVを、音声コマンドの曖昧性を解消する手段として想定しています。これにより、スピーカーはウェイクワードを発することなく、スマートフォン、ネットワーク接続スピーカー、テレビ、その他のアテンダント機器に話しかけることができるようになります。また、この研究は、AlexaやSiriなどのサービスがウェイクワードに似た発話に反応することがあり、意図せず起動してしまうことを減らす可能性も秘めています。さらに研究者たちは、補聴器が特定の方向からの音を選択的に増幅できるようにするなど、他の用途にもDoVを活用できる可能性を示唆しています。

DoV は、人間の音声の 2 つの側面、つまり、話者の正面の軸から離れた角度では高周波数がより急速に減衰することと、発話は周波数によって異なる方向特性を持つという側面に依存しています。

「簡単に言えば、音声がマイクに向けられている場合(つまり、マイクに向かっている場合)、高音と低音の周波数帯域が存在します」と論文は説明しています。「しかし、ユーザーが別の方向を向いているときに音声を受信した場合、または音がマイクに到達するまでに反響した場合、通常、低音に比べて高音の周波数帯域が減少することがわかります。」

科学者たちの技術は、音が反射する密閉された環境の性質を考慮に入れており、音源とその反響に関連する複数の経路を作り出します。

話し言葉のマルチパス効果を測定することで、人が特定のマイクに向いているかどうかを約93.1%の精度で判定することができました。これは、現在の研究に基づくこの種の研究の中で最高の結果であり、この技術を商業的に実現可能にするための重要な一歩となると研究者らは述べています。

人が8つの方角からどの角度を向いているかを予測しようとした際、このシステムは65.4%の精度を達成しました。しかし、コンピューター科学者たちは、この精度は「ユーザー向けアプリケーションにはまだ十分な精度ではない」と認めています。また、この実装では複数のスピーカーや騒音の多い環境には対応していないことも認めています。

彼らは、角度による識別率がわずかに向上した(76.8%)先行研究を挙げているが、その研究では、既知の形状を持つ部屋全体に6つのマイクを配置するアレイが必要だった。彼らのアプローチはソフトウェアのみで実行できるという利点があり、データをクラウドに送信する必要がない点も指摘している。

このビデオではさらに詳しい情報をご覧いただけます。

スマートデバイスエコシステムとの直感的な音声インタラクションのための音声方向(DoV)推定

研究者らがテストに使用したハードウェアは、Seeedstudio ReSpeaker USB 4チャンネルマイクと、16GBのRAMと3.1GHzで動作するデュアルコアIntel i5プロセッサを搭載したMacBook Proで、音声処理と分類に使用しました。データ収集、信号処理、そしてExtra-Trees Classifierアルゴリズムに基づく機械学習には、バックエンドでPythonを使用しました。

彼らは、自分たちの研究を再現したり拡張したりすることに興味のある人のために、データセットを GitHub で公開しています。®

Discover More