Microsoft は、ソフトウェアが専門用語を理解し、方言やアクセントに対応できるように、アプリケーション用のクラウド サービスを構築しました。
音声認識は、アルゴリズムがあらゆる単語やフレーズを認識しようとするのではなく、限られた範囲の単語やフレーズから選択できる方が効果的です。MicrosoftのCognitive Servicesスイートに含まれる新しいCustom Speech Serviceでは、ユーザーが話すと思われる内容の例をアップロードできます。また、異なる重み付けを割り当てることも可能です。これにより、システムが音声入力の2つの解釈方法のどちらかを選択する際に、どちらがより可能性が高いかを判断できます。これは「カスタム言語モデル」と呼ばれます。
このサービスは、音声ファイルとその書き起こしをアップロードすることで作成できるカスタム音響モデルもサポートしています。これは、アクセントや方言に対応できるようシステムをトレーニングする方法の一つです。
この種のカスタマイズは、音声入力をサポートするアプリケーションの成功の可能性に大きな違いをもたらします。
マイクロソフトはまた、すでにプレビュー段階にある2つのサービスを3月に一般提供開始すると発表しました。コンテンツ・モデレーターは、テキスト、動画、画像内の猥褻表現やポルノを検出するサービスです。Bing Speech APIは、汎用的な音声テキスト変換およびテキスト読み上げサービスを提供するサービスです。
Custom Speech Service は、Bing Speech Service と同じ API を使用します。使用方法は、まず Microsoft Azure 上でサービスを設定し、REST API から呼び出すか、.NET、Java (Android 用)、Objective C で利用可能なクライアントライブラリを使用するだけです。
Visual Studio のアプリケーションに音声認識ライブラリをインポートする - Cognitive Services のコード名である Project Oxford への参照に注意してください
マイクロソフトは、現在25種類のAPIを含むCognitive Servicesを長らく宣伝してきました。原理的には、新しい種類のインタラクションをサポートし、これまで人間の介入が必要だったタスクを自動化するアプリケーションには、大きな可能性があります。
しかし、現実はしばしば期待外れだ。マイクロソフトは様々なイベントで、年齢を推測する機械のデモを行ってきた。私の場合は、眼鏡を外すと10歳若返るそうだ。また、作り笑いやしかめっ面だけで簡単に誤認識してしまう、粗雑な感情検出装置も披露した。
一部のカスタマー サポート ラインでは、音声認識を使用して通話を適切な担当者に自動的に転送するようになりましたが、これは「これの場合は 1 を押して」、「あれの場合は 2 を押して」という従来の方法と比べて優れていることはほとんどなく、ときには劣っていることもあります。
しかし、テクノロジーは進歩しており、AppleのSiri、AmazonのAlexa、Google Now、Microsoft Cortanaなどの音声対応サービスは、ユーザーが何が可能かを知る上で大いに役立ってきた。
クラウドサービスを使用せずにアプリケーションで音声制御をサポートするのは不可能に近いでしょう。MicrosoftのAPIを使えば、比較的簡単に実現できます。
Custom Speech Serviceは、同時リクエスト1件までは無料で、月間5,000件までご利用いただけます。5,000件を超える場合は、1日あたり11.29ドルからご利用いただけます。サービスと料金の詳細はこちらをご覧ください。®