トータル・レコグ:英国のAIがユニバーサルな音声認識技術で画期的な成果

Table of Contents

トータル・レコグ:英国のAIがユニバーサルな音声認識技術で画期的な成果

インタビュー英国のニューラルネットワークの先駆者であるトニー・ロビンソン氏が設立した企業、SpeechMatics は、音声認識において大きな進歩を遂げました。

Speechmatics の Automatic Linguist は、人間の介入や調整なしに、約 1 日で新しい言語をシステムに自動的に追加できるようになり、わずか 6 週間で 46 の新しい言語を処理できるようになりました。

世界には約7,000の言語があり、上位10言語で世界人口の半分以下しかカバーしていないことを考えてみてください。最も人気のある上位100言語でも、まだ約85%にしか達しません。ですから、スピードアップは重要です。

「これは実に驚くべき創意工夫の技術だ。それが可能だと聞いて驚いた」と、今年初めにマシュー・カラス氏がロビンソン氏を紹介した記事の中で述べた。

音声認識におけるリカレントニューラルネットワーク(「最初のディープラーニングネットワーク」)の活用を開拓したロビンソン氏を招き、チームがプロジェクト・オムニグロットをどのように構築したかを説明してもらいました。また、AIビジネスが予測される「一時停止」を回避できるかどうかなど、この分野全般についてのコメントも伺いました。

生命、宇宙、そして万物

結局のところ、その秘密は、誰も始めていないところから始めて、汎用的な AI を構築することなのです。

言語モデル(Speechmaticsでは言語パックと呼んでいます)には、その言語の発音を表す音響モデルと、それらの音と単語を対応付ける確率データセットが含まれています。ロビンソン氏によると、鍵となったのは言語間の共通点を見つけることでした。

スピーチマティクスのトニー・ロビンソン

トニー・ロビンソン

「『言語はどれも見た目が全然違う』と言うこともできます。あるいは、その逆の考え方もあります。『私たちは世界中のあらゆる言語で動作するソフトウェアを書いているんです』と。まずはその点を踏まえて、どうすれば全ての言語を一つのフレームワークにうまく当てはめることができるかを考えます。言葉とは何か? 私たち自身の言葉の定義とは? 私たちは、その言葉が私たちのフレームワークの中で機能することを望んでいます。

「まさにそれがALの目的です。」

新しいモデルの作成には、発音辞書やその他の標準的なデータソースをコンパイルし、それを実際の話者からのトレーニング データに適用するプロセスが含まれるため、以前は数か月かかっていました。

スピーチ起業家で、ケンブリッジ大学でロビンソンズ氏の教え子だったカラス氏は次のように語った。「当時は、トレーニング データは音声的にマークアップされていましたが、自動化は部分的にしか行われておらず、面倒な手作業による修正が必要でした。

「波形はどの言語でも同じ形式です。しかし、音はしばしば異なります。どの言語でも使われる音素には多くの共通点があります。それが音につながります。もう一つは、どの単語がどの単語に続くかということです。これほど多様な言語があると、単語の定義が非常に面白くなることが分かりました。決して簡単なことではありません。」

エル・レグはAI終末論のバブルを破るために貴族院に招待された

続きを読む

「機械学習なので、社内では『単語』の定義が異なりますが、最終的には問題になりません。」

言語によって課題は異なります。中国語のような声調言語の文脈は、確率表から推測する必要があります。

「ええ、音にわずかな違いがある場合もあります。でも、電話越しだったりレストランにいたりすると、そもそも音の違いが聞き取れないこともあります。ですから、状況に応じて判断するしかないんです。すべては確率の問題です。」

同社によれば、スピーチマティックスは他の言語で特定された言語パターンを利用して、業界標準よりも大幅に処理を高速化できるという。

Speechmaticsは、新言語への対応が迅速化されたことに加え、その精度の高さも誇っています。「最小限のデータセット」を使いながら2週間で、ヒンディー語の精度を約90%にまで引き上げ、Googleのヒンディー語文字起こしサービスと比較してエラーを23%削減しました。

ロビンソンと話をすれば、最適化が執念であることに気付くでしょう。

「確かに、物を分解するのは好きです。より速く、より正確に動かすのが好きなんです」と彼は言った。

彼は昨年、分解と再設計を指示しました。しかし、プラットフォームと新技術の急速な発展により、そうはならなくなったと、彼は最近私たちに説明しました。同社のレミ・フランシスによるブログ記事では、この英国の新興企業がどのようにして異なるアプローチをとっているかについても解説されています。

言語発達のタイムライン

ユニバーサルなアプローチは、Speechmaticsの市場へのアプローチにも影響を与えています。同社は現在、クラウド、オンプレミス、またはデバイスへのインストールといったユーティリティとしてサービスを提供しています。ロビンソン氏は「オーダーメイド」のビジネスモデルには乗り気ではないようです。

「一つの方法は、一つの市場セグメントを取り上げ、少数の大口顧客向けに大幅なチューニングを施し、その方が少しはうまくいくだろうと言うことです。しかし、私たちはそれを好みません。私たちのエンジンは一つだけです。機械学習のアプローチは、時間とともに改善していくことを意味します。」

Discover More