英国のステルス系スタートアップが音声認識技術の新たなフロンティアを明かす

Table of Contents

英国のステルス系スタートアップが音声認識技術の新たなフロンティアを明かす

AmazonのAlexa、MicrosoftのCortana、そしてGoogleアシスタントに驚嘆したことがあるなら、連続音声認識はもう完成していて、もうこれ以上の課題はないと思うかもしれません。しかし、ある若い英国企業が、低レベル信号処理に基づいた画期的な新しいアプローチを開発し、驚異的な成果を上げています。

Eloquteは音声テキスト変換製品とは異なり、話し方の癖をリアルタイムで分析します。その結果、英語*話者の発音を向上させるための教育ツールが誕生しました。ビジネス旅行者が顧客に好印象を与えたいと考えたり、コールセンターで英語を母国語としない人材が増えたりしているため、Eloquteは巨大かつ成長を続ける市場となっています。

このソフトウェアは、いくつかの技術的に画期的な機能を備えています。例えば、ユーザーが話している間にリアルタイムで優先順位の高いフィードバックを提供すること、そして、定型句ではなく、話者が好きなテキストを自由に使用できることなどです。驚くべきことに、この魔法のような機能をスマートフォンなどのクライアントデバイス上で実行します。

ジョニー・キャブ

トータル・レコグ:英国のAIがユニバーサルな音声認識技術で画期的な成果

続きを読む

「英語を母国語としない人が、ある程度以上の発音を向上させるのは困難で費用もかかります。自宅での反復学習はあまり効果がなく、それ以上になると、高額な個人指導を受けるしか選択肢がありません」と、スピーチ・エンジニアリング社(SEL)のマシュー・カラス氏は語った。

リンガフォンが提示するフレーズを繰り返すように求められると、やる気をなくしてしまうと彼は言う。そのため、このソフトウェアを使い始めても多くの人が諦めてしまうのだ。Eloquteはまず、最も顕著な発音の間違いを見つけ出し、次に簡潔なアドバイスを通して、明瞭度に最も影響を与えるスキルを優先的に学習させる。カラス氏によると、個々の間違いではなく、習慣の特定に焦点を当てたソフトウェアは他にないという。

EloquteはSEL初の商用製品です。SELのKaras氏とJosh Greifer氏は共に輝かしい経歴の持ち主です。Karas氏はBBCニュースのスカンクワークス向けに世界初の業務用CMS​​を構築しました(この件については以前こちらでご紹介しました)。その後、音声認識のスタートアップ企業を設立し、2003年にマイク・リンチ氏のAutonomy社に売却しました。

80年代にゲームプログラマーとして働いた後、グレイファーはチャーリー・スタインバーグのもとで働き、Cubaseのオーディオ部分を開発しました。これはすぐには関係ないように思えるかもしれませんが、実は重要なのです。Eloquteの開発者たちが、計算言語学者が従来は踏み込もうとしない領域、つまり波形の奥深くまで踏み込んだことで、いくつかの大きな技術的進歩がもたらされたのです。

「言語技術者は低レベルのリアルタイム信号処理に不安を感じることがあるため、通常はOSに任せてしまいます」とカラス氏は説明する。「Cubaseのようなソフトウェアを動作させるには、非常に低いレイテンシーを保証する必要があります。ミュージシャンは、バックバンドとの同期を保ちながら、エフェクトやミックスオートメーションなどを適用しながら、演奏を瞬時に感じられるほど早く音を聞き取る必要があります。」

コンピューティング - スマートフォンによるスケール

サーバーベースの配信にかかるコストを認識したとき、Greifer が複雑で低遅延のプロセスに精通していたことが重要であることが判明しました。

「3億人の学習者からの音声をクラウドにストリーミングするのは、うまく拡張できません。」

そこで彼らは、携帯電話の音声分析アルゴリズムをあらゆる組み合わせで最適化できるプラットフォームの開発に着手しました。このプラットフォームは、従来の技術と比べて100倍もの改善を実現することもあります。SELの基盤となるプラットフォームの機能は、計算言語学の域をはるかに超える大きな影響力を持っています。

「複雑なプロセスの異なる構成を1秒間に100回切り替えることができます。これは言語アプリの拡張性を高めるために導入しましたが、このプラットフォームが完成したことで、スマートフォンでの動画処理や音声認識などにも活用できるようになりました。」

簡単に言えば、SELはスマートフォンなどのクライアントデバイスの膨大かつ未活用の処理能力を活用して、より多くのことを実現します。Eloquteはその好例に過ぎません。今日のスマートフォンには、8個または12個のコアが搭載されていますが、それらはほとんどの場合アイドル状態です。注目すべきは、そのパワーを数ミリ秒ごとに選択的に適用することで、Amazon、Facebook、Googleといったサーバーファームに巨額の投資を行っている企業よりも、質素なスマートフォンで優れたパフォーマンスを発揮できる点です。

しかし、カラス氏にとって最も魅力的な特徴は、学習者を魂を破壊する暗記学習から解放することだ。

Eloquteは、会議でのスピーチのリハーサルや、お子様への寝かしつけの読み聞かせなどに役立ちます。モチベーション維持以外にも、学習者は短いスピーチのテストで悪い癖を露呈したり、同じフレーズを繰り返すことで新しい良い習慣を身につけたりといったメリットがあります。

SELは、まず従来の教師を通してEloquteを導入します。「私たちは、ベトナムのEducation FirstやApollo Englishのような、大規模な教室ベースの運営者と交渉しています。彼らは生徒と直接対面し、学習成果を分析する方法を熟知しているため、成果を上げることに真剣です。」®

* この製品は現時点では英語に対応していますが、他の言語モデルにも比較的容易に適応できるはずです。「この技術は完全に言語中立です。中国語やベトナム語のような声調言語にも対応可能です」とカラス氏は語ります。「しかし、英語の市場は他の言語すべてを合わせたよりも大きいです。将来的には、他の言語に対応する前に、声調とリズムを活用して英語の発音をより良く教えることになるでしょう。」

Discover More