実践Microsoft は、広く普及しているワードプロセッサのブラウザ版である Word Online の有料版に、音声文字変換機能を追加しました。
2018年6月、MicrosoftはWord、Outlook、OneNoteオンライン版にディクテーション機能を追加しました。そして今、同社はこれに文字起こし機能も追加しました。音声の文字起こしは、多くの職業の人々にとって、感謝されることのないながらも重要な作業であり、このサービスは大きな潜在的価値を生み出しています。パンデミックによるロックダウンの副作用として、より多くの会議やイベントがオンラインで行われ、録画されていることが挙げられます。これもまた、自動文字起こしへの関心が高まっている理由の一つです。
Microsoftの新サービスは、Word Onlineのサブスクリプションユーザー向けに提供開始されました。無料版にもオプションは表示されますが、利用しようとすると「プレミアム版へ」という案内が表示されます。レドモンドによると、対応ブラウザはEdgeとChromiumですが、Firefoxでもこの機能を使用できました。とはいえ、Chromiumベースのブラウザでのみ機能をサポートしているというのは、懸念すべき事態です。
Word Onlineでインタビューを書き起こす:結果は素晴らしいが完璧ではない
同社は「Word for the Web内で録音および書き起こしできる量は完全に無制限です」と述べ、さらに「現在、アップロードできる録音には月5時間の制限があり、アップロードできる録音は1件あたり200MBまでに制限されています」と付け加えた。
一見矛盾しているように見えるのは、マイクに向かって話すだけで、アップロードせずに書き起こしができることにあります。これはディクテーションとは異なり、書き起こしはサイドパネルに表示され、ユーザーは必要に応じてテキストの断片を文書に選択的に追加できます。一方、ディクテーションではすべてのテキストがメイン文書に直接挿入されます。
このサービスはAzure Cognitive Servicesによって提供されており、同社は次のように述べています。「お客様の音声ファイルはMicrosoftに送信され、このサービスを提供するためにのみ使用されます。文字起こしが完了しても、お客様の音声と文字起こしの結果は当社のサービスには保存されません。」
サポートされている言語は英語のみです。これは、オンライン版がデスクトップ版Officeよりも優れている例の一つです。Transcribeは年末までにOffice Mobileに導入される予定で、ディクテーション機能はWindowsとMacのWordで既に利用可能ですが、文字起こし機能については確約されていません。
音声認識には、Microsoftをはじめとする多くの既存のオプションがあります。Windows 10には、「簡単操作」機能としてディクテーションと音声コントロールが組み込まれています。これはWordなどのアプリケーションで使用できるため、オフライン音声認識と、Cognitive Servicesを活用した新しい同等の機能を比較することが可能です。
高品質のマイクを使って詩を数行書き取らせてみたところ、クラウドAIが明らかに圧勝しました。Nuanceの優れたDragon Dictateならもっと良い結果が出ていたかもしれませんし、音声トレーニングでさらに改善できる可能性もありますが、MicrosoftのクラウドAIの瞬時の精度は印象的でした。
このドキュメントでは、Windows 10に内蔵されている音声認識と、Wordのディクテーション機能で使用されているクラウドベースの音声認識、そして新しい文字起こしサービスを比較します。クラウドの勝利は容易です。
文字起こしはディクテーションよりも難しい作業です。高品質な音声を確保するのが難しく、訓練も不可能だからです。人間の話し方はアクセントやイントネーションも千差万別で、完璧な正確さは到底不可能です。手作業で文字起こしをする人でさえ、難しい場合があります。Word Onlineでいくつかのインタビューを試してみましたが、それでもかなり良い結果が出ました。
肝心なのは、精度が時間を節約できるほど十分かどうかです。私たちのケースでは、十分に正確でした。しかし、まだ修正すべき点はたくさんあります。例えば、「AWS」は「a WS」と書き起こされ、「I’m going to take some flak for this」は「I’m going to take some plans for this」と書き起こされてしまいました。自動書き起こしが話者の実際の発言を反映していると決めつける前に、慎重に検討することをお勧めします。
Word Onlineでは、書き起こしは「話者1」、「話者2」などのラベルが付いた短いセクションに分割されて表示されます。ユーザーは各セクションを再生して書き起こしを確認したり、編集したり、必要に応じてメイン文書に追加したりできます。音声の速度を半分から倍速まで調整することも可能ですが、正確性の向上に効果があるかどうかは疑問です。自動書き起こし自体の速度を制御する方法はなく、30分の録音に1時間以上かかるなど、やや遅いです(音声の明瞭度によって時間は変動する場合があります)。
文書を保存すると、トランスクリプトは保存されます。再度開くと、アップロードした録音が音声ファイルとして表示され、「トランスクリプション」パネルを開くとトランスクリプトが再び表示されます。元の音声を簡単に再生できると編集作業が楽になるため、これは重要です。WordのUIはOtter AIが提供する専門サービスに比べると劣りますが、私たちの経験ではOtterの方がトランスクリプト作成が高速です。Otterはフリーミアムモデルを採用していますが、無料版では音声アップロード機能は提供されていません。
私たちの第一印象は、Microsoft の新しいサービスは役に立つだろうということですが、結果はソースの品質だけでなく語彙によっても大きく異なり、専門用語 (上記の AWS など) が使用されると精度は低くなります。®