英国のニューラルネットのパイオニアが音声認識に新たな革命をもたらした

Table of Contents

英国のニューラルネットのパイオニアが音声認識に新たな革命をもたらした

プロフィール「機械学習」と呼ばれるものを現実世界で機能させる先駆者の一人が、復活の道を歩んでいます。

1990年代、ケンブリッジ大学コンピュータサイエンス学部でトニー・ロビンソン博士は、後にこの地を世界の音声認識センターへと変貌させた世代の学生たちを指導した。(マイクロソフト、アマゾン、そして秘密主義のアップルでさえ、ケンブリッジに音声認識ラボを置いている。ロビンソン博士の先駆的な研究は、オートノミー、HP、そして今ではマイクロフォーカスにも引き継がれ、今も生き続けている。)ロビンソン博士は、自身の最新ベンチャー企業であるスピーチマティクスで、ついにその成功の一部を自らも手にしたいと考えている。

ロビンソン氏の元教え子で、技術者であり起業家でもあるマシュー・カラス氏は、ロビンソン氏を「あの学部でダントツの人気講師だった。素晴らしい人物で、正真正銘の科学の天才。まさに偉大な人物の一人だ」と回想する。

Teessider が達成したのは、ニューラル ネットワークが音声認識に機能することを証明したことです。

「彼は、最高の音声科学者たちが不可能だと言っていたことを成し遂げたのです」とカラスは回想する。「1994年までに、彼のシステムはDARPAの連続音声評価試験で世界トップ10入りを果たしました。他の9つのシステムはすべて隠れマルコフモデルで、トニーのニューラルネットワークシステムだけが唯一のシステムでした。彼はそれがトップ10入りできることを証明しました。これは非常に大きなイノベーションでした。」

ニューラルネットワークは現在、「機械学習」や「ディープラーニング」(ロビンソン氏のスピーチマティクス社は自社システムをこのようにブランド化している)と改良され、名称も変更されている。彼の功績は、現代世界への重要かつほとんど知られていない英国の貢献を象徴している。「ディープラーニング」という表現は、研究論文では現実よりも響きが良いため、なおさらそう思える。

ニューラルネットが音声認識に革命をもたらした方法

ロビンソン自身は次のように説明しています。

最近、最新の音声認識ベンチャーに投資を獲得したカラス氏は、「隠れマルコフモデルは、音素の文脈確率だけでなく、単語の文脈確率も知っている場合にのみ機能します。実行可能な3単語の組み合わせのリストは非常に長くなります」と述べています。

ニューラルネットワークを使えば、システムはあらゆる文脈を把握することなく、文脈に応じて確率を割り当てます。試行錯誤によってそれを行います。他のシステムは、すべての成功と失敗のリストを持ち、それらを割り算することで確率を知っています。現在、ほぼすべての音声認識システムは、何らかの形でニューラルネットワークを利用しています。

しかし、広く認知されるようになったのは遅く、道のりは険しいものでした。ドットコムバブルの絶頂期には、ロビンソン氏とカラス氏はそれぞれマイク・リンチ氏のオートノミーからの投資を受け、音声認識のスタートアップ企業で活躍していました。

オートノミーは2000年5月、ロビンソンの最初の会社であるソフトサウンドに投資しました。カラス氏はその間、「BBCを救った」秘密プロジェクトであるBBCニュースオンラインを立ち上げ、その後、ニュースルームのビデオを検索可能なテキストに変換する音声認識のノウハウを応用できるDremediaを見つけました。しかし、オートノミーの注目を集めたのは3つ目のスタートアップであるBlinkxでした。オートノミーは買収を通じて多角的な事業を構築し、ロビンソン氏の仕事への関心を失っていきました。2006年にオートノミーがソフトサウンドを完全買収した際に、カラス氏は退社しました。

その後、ロビンソン氏はしばらくの間、SpinVox社の高度音声認識グループを率いていましたが、人間による書き起こしの割合が明らかになり、このグループは悪評を博しました。関係者によると、実際に機械翻訳されたメッセージは「わずか2%以下」とのことで、SpinVox社はロビンソン氏に、より高度な自動化を備えた将来のシステム構築を依頼しました。しかし数ヶ月後、同社はNuance社に売却され、計画は白紙に戻されました。

近年、Amazon、Microsoft、Googleの音声認識技術は驚異的な進歩を遂げています。Speechmaticsはどのような点に優れているのでしょうか?Speechmaticsとは何で、どのような機能を持つのでしょうか?

言語モデルが不十分?新しいものを作る

米国の巨大企業による大きな進歩にもかかわらず、依然として大きな欠陥が残っている。AppleのSiriは発売から6年が経過した現在でも、スコットランド訛りやジョーディ訛りに対応できていない。海外市場への進出には必要不可欠だが、新たな言語の追加は骨の折れる作業だ。

90年代の仕事を振り返り、ロビンソンはやり残したことがあった。「私たちは、ほぼ全員をひっくり返す転換点に達していました。しかし、それは叶いませんでした。改善が鈍化した時期もありましたが、年々着実に改善していきました。」

彼は設計図を描き直し、その結果生まれたものは音声認識コミュニティ全体に波紋を巻き起こしました。Speechmaticsは、Androidスマートフォン、あるいは社内サーバー上で動作し、新しい言語を簡単に追加できるリアルタイムで話者に依存しない音声認識システムを発表しました。

「読んでも信じられないくらいです。実に独創的な技術です。それが可能だと聞いて、本当に驚きました」とカラス氏は熱く語る。

この進歩を理解するには、音声認識における確率的言語モデルの重要性を理解する必要があります。

「言語モデルは、音と単語を対応付ける膨大な確率表とデータから成り立っています」とカラスは説明する。「ニューラルネットワークは、あらゆる文脈におけるあらゆる確率を列挙する必要がなく、相関関係を素早く特定できるため、非常に役立ちます。文脈を列挙する必要もありません(「タトゥー」だったか「タトル」だったか?)。」

しかし、文脈によっては語彙の曖昧さが顕著であり、どれだけデータがあっても機械は苦労する。「row」と「row」の用法の違いがその一例だ。例えば、「文脈があっても、『ジョンとジムは漕いでいた』という文の中で『row』をどう発音すればいいのか分からないでしょう。音声的に言えば、『医者はもっと忍耐が必要だ』と『医者はもっと患者が必要だ』を区別するには、システムが単なる近い単語の文脈だけでは不十分かもしれません」とカラス氏は言う。

もう一つの難点はアクセントです。人によって話し方が異なります。例えば、トニー・ブレアは時折モックニー語を採り入れたことで有名です。

そこでロビンソンは言語モデルを作成するための新しい方法を考案しました。

新しいモデルの開発には、発音辞書やその他の標準的なデータソースを収集し、それを実際の話者から得た学習データに適用するという作業が必要だったため、以前は数ヶ月もかかっていました。学習データは音声的にマークアップされていましたが、自動化は部分的にしか行われておらず、手作業による修正作業が必要でした。

「この新しいシステムは、国際的な音素セットを用いたアルゴリズムを採用しており、全く未知の言語にも対応できます」とカラス氏は語る。「モンゴル語の​​音声とモンゴル語の​​テキストを入力すると、テキスト内の文字の順序と頻度、そして音波の特性から、音声のどの時間スライスがテキスト内のどの単語と一致するかを判断します。書き起こされた音声や台本化された音声ソースを関連メディアと共に処理し、テキストを検索すると、数ミリ秒以内に音声の適切な位置に直接リンクする結果が得られます。」

「2000年以降、私は6社ほどの企業に勤めてきました」とロビンソン氏は語った。「中小企業は常に資金繰りに追われ、大手企業との競争を望んでいます。こうした背景から、もし大規模な音声認識企業と競争したければ、大体20以上の言語に対応する必要があることは明らかでした。では、私の資金でどうすればそれが可能だったのでしょうか?」

Speechmaticsは、従量制課金モデルを採用したライブデモをウェブサイトに掲載しました。しかし、ロビンソン氏は満足できず、昨年、アーキテクチャを解体して再構築しました。

Discover More