Mozilla は、オープンな音声データセットと TensorFlow ベースの文字起こしエンジンを公開しました。
Mozillaは2017年7月に「Project Common Voice」を発表し、ボランティアに対し、自分のスピーチのサンプルを提出するか、他の人の発言の機械翻訳をチェックするよう呼びかけた。
このプロジェクトではこれまでに500時間分のサンプルを収集しており(Common Voiceは長期的に1万時間を目指している)、これは2万人による40万件の録音から構成されている。
このプロジェクトのマイケル・ヘンレッティ氏は、「私たちのほとんどは、高品質な音声認識エンジンの開発に不可欠な要素である音声データのコレクションにアクセスできるのはごく限られている」と述べている。たとえ限られた有料データセットであっても、「数万ドル以上」の費用がかかる。
Mozilla の Sean White 氏は、Common Voice を英語以外にも拡張する作業が 2018 年前半に開始される予定であると書いています。
Common Voice はここからダウンロードできます。開発者がさらに多くのオープンソースの音声データセットを必要とする場合、Mozilla は識別できた他の 4 つのセット (LibriSpeech、TED-LIUM Corpus、VoxForge、Tatoeba) へのリンクを提供しています。
Mozillaはまた、Baiduの音声認識プロジェクト「Deep Speech」をベースにした、関連する文字起こしの取り組みも発表しました。MozillaのDeep Speechは「GoogleのTensorFlowプロジェクトを利用して実装を容易にしている」としており、LibriSpeechのテストクリーンデータセットにおいて6.5%のエラー率を実現していると主張しています。
Mozilla Deep Speech は、事前に構築された Python および Node.js パッケージとコマンドライン バイナリを提供します。
Mozilla Hacks のこの投稿で、Rueben Morais 氏は Deep Speech について、「エンドツーエンドでトレーニング可能な、文字レベルのディープ リカレント ニューラル ネットワーク (RNN) です。書記素から音素へのコンバーターや入力の強制的なアライメントなどの外部の「インテリジェンス ソース」を必要とせず、教師あり学習を使用してゼロからトレーニングできます」と説明しています。
Morais 氏が指摘したように、Deep Speech モデルには 1 億 2000 万のパラメータがあるため、グループには 4 つの Titan X Pascal GPU を搭載したマシン 1 台と、各 GPU を 8 台ずつ搭載したサーバー 2 台が必要でした。
こうした努力の結果、GPU搭載のMacBook Proでは、Deep Speechは1秒あたり3秒強の音声を書き起こすことができました。CPUのみの場合、1秒の書き起こしには約1.4秒かかります。®