リップリーディングスマートスピーカー:誰も望んでいなかったもの

Table of Contents

リップリーディングスマートスピーカー:誰も望んでいなかったもの

週末に何かお探しですか?安全で居心地の良いご自宅が、泣き叫び、歯ぎしりする場所と化すでしょう。ご心配なく、これはごく普通のことです。次世代スマートデバイスとのコミュニケーション手段となるのですから。

NASAと連携した音声認識に関する研究発表から約14年、このジャンルは現在、ちょっとした復活を遂げています。近い将来、咳払いをするだけで、Alexaにトイレットペーパー400ロールを買ってきてくれるという貴重なスキルを習得する日が来るかもしれません。

例えば、昨年夏に発表されたこの重要な論文では、スマートスピーカーとのコミュニケーションにおける3つの大きな問題、すなわち周囲の騒音による干渉、発話障害のある人にとってのアクセシビリティの問題、そしてすべてを声に出して話さなければならないことによるプライバシーの問題に対処するために、「非音響的な音声下音声認識またはサイレント音声認識」の必要性を検証しています。論文はさらに、「顔と首の筋肉」から表面筋電図(sEMG)信号を記録する方法についても説明しています。

これは三方良しの状況を生み出す可能性を秘めています。音声認識のようなスマートデバイスの機能を、工場のフロアや空港のエプロンといった騒音の多い環境でも使えるようにできるかもしれません。喉頭摘出手術を受けた人は、疑似言語コミュニケーションの代替手段を活用できるかもしれません。そして何より、電車の中で口うるさい人が、肛門科の診察の詳細について車内の他の乗客に大声で叫ぶのをやめてくれるかもしれません。

YouTubeビデオ

オーディオの課題に対する、型破りながらも現実的な非オーディオソリューションは、消費者向けに既に数多く開発されています。ただ、近年IoTを不当に席巻しているVR/AR/MRやヘルスバンドといったものに、すっかり夢中になっているだけのように思えます。

少なくとも個人的な経験から言うと、最も印象に残っているのは、耳に差し込むのではなく、顎に振動を伝えるヘッドホンです。これにより、音波を内耳で直接感知できるようになり、最初は戸惑うかもしれませんが、普段通り耳を通して日常の音を聞き、それと関わることができます。

残念なことに、骨伝導ヘッドホンで聴く音楽は、麻酔が完全に効き始める前に歯医者で根管治療を受けているときとまったく同じ感覚で顎に振動を与えます。

オーディオ機器メーカーのクラリオンは、先月のCESで「スピーカーレス」カーオーディオシステムを発表しました。このシステムは、ダッシュボードを振動板として使い、さらにバックミラー裏に設置した装置で音響効果を高めた空気をフロントガラスに吹き付けることで、フロントガラスをサブウーファーのように機能させ、重低音の「ドゥーム・ドゥーム・ドゥーム」風の重低音を響かせるというものです。

車の内装はもう十分ガタガタと振動しているのに、もう十分だ。ギアを少し下げるだけで、アームレストとエアベントが自然と、クラフトヴェルクの「アウトバーン」の中間部のような音を奏で始める。

おそらくもっと魅力的なのは、MITメディアラボのカメラ対応型デバイス「AlterEgo」です。彼らは現在、型破りな綴りで「AlterEgo」という名前で注目を集めています。このプロジェクトは、「ユーザーが声や動きを一切意識することなく、コンピューターデバイスと静かに会話できる」ウェアラブル製品の開発を目指しています。

AlterEgoヘッドセット

MITメディアラボの流体インターフェースグループによるAlterEgo。
画像提供:Arnav Kapur、Neo Mohsenvand(クリックで拡大)

数年後には、これなしでどうやって野菜を切っていたのか不思議に思うだろう。

AlterEgoは「内部アーティキュレーション」と呼ばれるシステムを採用しており、口を閉じている時でも口の中のわずかな動きを検知します。これは、まあ、想像するほどあり得ないことではありません。黙読している時などは、これらの筋肉は無意識に動いていることが多いのです。そして、前述の通り、コンピューターからの音声応答は骨伝導を介してユーザーにフィードバックされます。

AlterEgoはヘッドセットというよりはジョーセットに近い。いずれ小型化され、目立たなくなるだろう(もちろん、実際に機能することが証明されればの話だが)。そして、いつかヘッドジョーセットそのものが廃れ、室内カメラで頭の周りの筋肉、腱、骨の微妙な動きを視覚的に認識するようになるのではないかとも思う。FaceIDのような個人認識機能と組み合わせれば、キッチンでニンジンをつぶやいている人が誰なのかも判別できるようになるはずだ。

YouTubeビデオ

同僚たちは、これは消費者向けテクノロジーインターフェース開発における自然な進歩(あるいは破壊的変化?)と捉えるべきだと断言しています。テクノロジー企業は、画面上のものをハンドジェスチャーで直接なぞったりタップしたりすることを推奨することで、消費者をマウスとキーボードを使わなければならないという奴隷状態から解放しました。

その後、画面が取り外され、何か必要な時にいつでも音声認識で操作できるようになりました。次のステップは、声を奪い、代わりに潜在意識下での顔の筋肉の動きを使わせることだろう、というのは当然のことです。

もっと簡潔に言うと、彼らはあなたに中指を立て、懇願するように強要し、そして「黙れ」と言うのです。いいですね。

待つのはやめよう。私はもう、差し迫った静かな革命に備えている。あらゆる部屋にカメラを設置し、唇の動きを読み取るIoT地獄が、私たちの生活のあらゆる股間や隙間を侵略するのだ。これは聖書に出てくるような規模のテクノマゲドンになるだろう。泣き叫び、歯ぎしりするだろう。

さて、「泣く」部分はすっかり上達したような気がしますが、「歯ぎしり」がなかなかうまくいきません。どうやって歯ぎしりするんですか?「歯ぎしり」って声に出すとくすくす笑ってしまい、泣きそうになるのが辛くて。咳払いした方がいいかもしれません。

おっと、トイレットペーパーがあと 400 個届く予定です。

YouTubeビデオ

アリスター・ダブス

アリスター・ダブスはフリーランスのテクノロジー・タレントで、テクノロジージャーナリズム、トレーニング、デジタル出版をこなしています。矛盾しているように、彼はおしゃべりを減らし、考える時間を増やす静かな新時代を歓迎しています。今週の1980年代エレクトロポップを楽しんでいただけたでしょうか。ガニガニ。@alidabbs

Discover More