分析科学者たちは、盗聴機能を持つスマートウォッチ、コンピューター、モバイルデバイス、そして「Alexa」のような愛称を持つスピーカーが周囲で何が起こっているかをよりよく認識できるようにする方法を考案した。
ドイツのベルリンで開催される ACM ユーザーインターフェースソフトウェアおよびテクノロジーシンポジウム (UIST) で本日発表される論文の中で、コンピューター科学者の Gierad Laput、Karan Ahuja、Mayank Goel、および Chris Harrison が、収集された音を解釈できるリアルタイムのアクティビティ認識システムについて説明します。
言い換えれば、デバイスの常時オンの内蔵マイクを使用して、バックグラウンドで何が起こっているかを正確に感知するソフトウェアです。
米国のカーネギーメロン大学を拠点とする研究者たちは、現代のコンピューター機器にマイクが広く搭載されていることから、自分たちのプロジェクトを「ユビコースティクス」と呼んでいる。
論文「ユビコースティクス:プラグアンドプレイ型音響活動認識」で指摘されているように、活動や状況を分類するためのリアルタイムの音響評価は、現在も研究が進められている分野です。CMUのコンピューターサイエンス分野の研究者たちが追加したのは、ハリウッドのエンターテイメントや電子ゲームで使用されているような高品質な効果音ライブラリで学習した、高度なサウンドラベリングモデルです。
あなたと私と同じくらい良い
これらの音響効果を用いて構築された音声識別機械学習モデルは、インターネットから抽出した音響データで訓練されたモデルよりも精度が高いことが判明したと研究者らは主張している。「結果は、我々のシステムが認識精度と誤検出率の両方において人間レベルの性能を達成できることを示しています」と論文は述べている。
研究者らは、野外環境での精度が80.4%であると報告している。つまり、このシステムは5回に1回程度の音を誤認識していることになる。家庭への導入には十分ではないものの、CMUの研究チームによれば、人間が音を識別しようとするのと同等の精度だという。また、その精度は、BodyScope(71.5%)やSoundSense(84%)といった他の音認識システムとほぼ同等である。しかし、Ubicousticsは、特定の場所に特化したトレーニングなしで、より幅広い行動を認識できる。
アレクサが救出に
このモデルから情報を得たAlexaは、理論上はキッチンの水を出しっぱなしにしているかどうかを検知し、適切なAlexaスキルがあれば、スマート蛇口を閉めたり、浸水した自宅を航行するためにAmazon.comでボートを手配したりするなど、何らかのアクションを起こす可能性があります。ただし、Alexaがそもそも音を誤認識していないことが前提です。
研究者たちは、このシステムは例えば、洗濯が終わった時に通知を送るといった用途に使える可能性があると示唆している。あるいは、公衆衛生の向上にも役立つかもしれない。頻繁な咳やくしゃみを検知することで、「スマートウォッチが症状の兆候を追跡し、手洗いや医師の診察予約といった健康的な行動をユーザーに促す可能性がある」という。
カーネギーメロン大学の人間・コンピュータインタラクションの助教授で、未来インターフェース・グループのディレクターのクリス・ハリソン氏は、ザ・レジスターへの電子メールの中で、約90~95パーセントの精度があれば導入には十分だろうと述べた。
彼は、システムが音を聞いてそれを別のものと認識する誤検知が、実際の使用では特に問題になると考えています。
「これらはユーザーにとって非常に煩わしいので、99%程度の精度が必要になるでしょう」と彼は述べた。「1年ほどで、この2つの精度を達成できると思います。私たちは小規模な研究チームでありながら、既に大きな進歩を遂げています。大手企業であれば、適切なリソースを投入できるはずです。」
ハリソン氏は、物体の物理的振動をレーザーで測定し、物体の状態を判断する「バイブロサイト」と呼ばれる関連プロジェクトが、すでに実用化に十分な精度を達成していると述べた。
論文では、精度向上のためには、より高品質なマイクとより高い音声サンプルレート、そしてResNetのようなより高度な深層学習モデルが役立つ可能性があると示唆している。また、アクティブマイクが溢れる環境はプライバシーへの懸念を高める可能性があることも認めている。
音声アシスタントは常に聞き耳を立てています。では、なぜ犯罪の音を聞いても警察に通報しないのでしょうか?
続きを読む
「音の豊かさは諸刃の剣だ」と論文は述べている。「一方では、きめ細かな行動検知を可能にする一方で、話し声など、潜在的にセンシティブな音声も捉えてしまう。これは、マイクをセンサーとして用いる際に避けられない、本質的な危険である。」
しかし研究者たちは、盗聴器を仕掛けられた家に住むことに対する社会的偏見は薄れていくかもしれないと反論する。Facebook Portalのカメラ、マイク、スピーカーを組み合わせた機器の最近の導入、そしてAmazon、Apple、Google、Microsoftの盗聴機器は言うまでもなく、一部の企業が同様の賭けに出ていることを示唆している。
一方、研究者らは、潜在的なプライバシー保護策として、すべてのライブ音声データを低解像度のメルスペクトログラム(64 ビン)に変換し、関連する位相データを破棄することで、音声の復元がかなり困難になると示唆している。
「音声を復元する方法はありません」とハリソン氏は述べた。「低解像度のスペクトログラムに加え、位相データも破棄してしまいました。スペクトログラムの各スライドは大きく、多くの音素が組み合わさっているからです。」
これは自分の中に留めておいて
ハリソン氏と彼の同僚たちは、音響モデルをデバイス上でローカルに実行し、音声データを外部に送信する必要がないようにすることを構想しています。スマートスピーカー業界の大手企業は、自社のデバイスで収集した音声データを必要とするかもしれませんが、ハリソン氏は、音声データは不要だと考えています。
「人々は、このような機密性の高い細かいデータが第三者に渡されることを望まないだろうという重要な論拠があると思います」と彼は述べた。「デバイス上でそれを実行できる企業は、市場で競争上の優位性を持つだろうと私は考えています。」
プレゼンテーションが終了したら、プロジェクトに関連するコードを GitHub リポジトリに投稿する必要があります。®