機械学習の研究者は、人間のように機械が音声入力から直接音声を理解できるようにすることを使命としています。
今週の神経情報処理システム会議で、マサチューセッツ工科大学(MIT)の研究者らが、音声を最初にテキストに変換せずにコンピューターに音声を認識させる新しい方法を実演した。
このプレゼンテーションは、MIT のコンピュータ科学および人工知能研究所 (CSAIL) に勤務する研究者によって書かれた論文に基づいていました。
ディープラーニングへの関心の高まりにより、コンピューター音声認識の性能は飛躍的に向上しました。コンピューターはプロの文字起こし担当者よりも低い単語誤り率を達成できますが、そのためには高度なトレーニングが必要です。
研究者は、機械が音と単語を一致させるために、音声入力に適切なテキストを含む書き起こしラベルを付ける必要があります。これには慎重なデータ収集が必要であり、数千もの言語がまだ音声認識システムでサポートされていません。
論文の共著者であり、CSAIL音声言語システムグループのリーダーであるジム・グラス氏は、この技術が社会に有益であるためには、この課題に取り組む必要があると述べた。
SiriやGoogleなど、大きな進歩はありましたが、そうした注釈機能を得るには費用がかかるため、人々は世界の主要言語に焦点を絞ってきました。7,000の言語のうち、ASR(自動音声認識)機能を備えているのは2%にも満たないと思われます。残りの言語については、おそらく何も対策が取られないでしょう。
「ですから、テクノロジーが社会全体にとってどう役立つかを考えるなら、現状を変えるために何をする必要があるかを考えるのは興味深いことです」とグラス氏は語った。
最終的な目標は、音声を最初にテキストに変換する必要がなく、言語の複雑さや単語の意味を理解できる機械を作成することです。このプロセスには、「教師なし学習」と呼ばれるものが必要です。
MIT の研究者たちは、音声をテキストではなく画像にマッピングすることでこれを実現しようと試みました。
そのアイデアは、単語を一連の関連画像としてグループ化でき、これらの画像に関連付けられたテキストがある場合、厳密なトレーニングを受けなくても、音声の「可能性の高い」書き起こしを見つけることができるはずだというものです。
訓練データセットの収集にあたり、研究者らはPlaces205データセットを使用しました。このデータセットには、205の異なるテーマに分類された250万枚以上の画像が含まれています。Amazon Mechanical Turkのヒューマンインテリジェンスタスクに取り組んでいる人々は、Places205データセットからランダムに選ばれた4枚の画像に音声録音による解説を行い、キャプションを付与することで報酬を得ました。(ちなみに、参加者には録音1件につき3セントが支払われました。)
研究者らは、1,163人のユニークな「ターカー」から約12万件のキャプションを収集しており、そのデータセットを近々一般公開する予定だ。
データセット内の画像のキャプションの例...出典: MIT
このモデルは、単語と関連する画像を結び付けるように訓練され、各組み合わせに対して類似度スコアを算出します。「最も単純な意味では、このモデルは任意の画像とキャプションのペアに対して類似度スコアを計算するように設計されており、キャプションが画像に関連している場合はスコアが高く、そうでない場合はスコアが低くなります」と論文には記されています。
テスト段階では、研究者たちはデータベース内の画像を説明する音声録音をネットワークに入力し、説明に最も一致する画像を10枚検索するように指示しました。その結果、10枚の画像のうち、正しい画像が含まれていたのはわずか31%でした。
スコアは低く、この新しい方法はテキストや言語の知識がなくてもコンピューターに単語を認識させる初歩的な方法だが、改善すれば音声認識をさまざまな言語に適応させるのに役立つ可能性がある。
音声入力を画像にマッピングすることはすぐには役に立ちませんが、さまざまな言語の単語に関連付けられた画像でシステムをトレーニングすれば、音声を他の言語に翻訳する新しい方法を提供できる可能性があります。
「この研究の目標は、機械が人間のように言語を学習できるようにすることです」とグラス氏は述べた。「音声認識システムを学習させるために現在用いられている方法は、非常に教師あり学習です。発話内容が与えられ、その内容が伝えられます。そして、これを大量のデータに対して行うのです。」
「私たちはまだほんの一歩を踏み出したばかりで、道のりは長いということをいつも強調しています」とグラス氏は言う。「しかし、これは励みになるスタートです。」®