アマゾン、アップル、グーグル、IBM、マイクロソフトの音声テキストAIシステムは、白人ほど黒人の言葉を理解できない

Table of Contents

アマゾン、アップル、グーグル、IBM、マイクロソフトの音声テキストAIシステムは、白人ほど黒人の言葉を理解できない

今週発表された研究によると、大手テクノロジー企業が開発した音声認識ソフトは、白人に比べて黒人の音声を理解するのに苦労しているという。

アメリカのスタンフォード大学とジョージタウン大学の研究者が主導したこの研究は、音声をテキストに変換するアマゾン、アップル、グーグル、IBM、マイクロソフトの5つの「最先端」のクラウドホスト型自動音声認識(ASR)システムを調査した。

「5つのASRシステムすべてにおいて、黒人話者の平均単語誤り率(WER)が0.35であるのに対し、白人話者では0.19と、かなりの人種差が見られた」と論文には記されている。

つまり、100語話したごとに、機械学習モデルは平均して、黒人話者の場合は35語を理解できなかったのに対し、白人話者の場合は19語を理解できなかったことになる。

最も悪かったのはAppleで、黒人スピーカーのWERは0.45、白人スピーカーのWERは0.23と報告されました。一方、Microsoftは両グループともWERが0.27と0.15と最も優れていました。

WER_音声認識

Apple、Amazon、Google、IBM、Microsoftが開発したASRシステムの単語誤り率(WER)。赤い破線は黒人話者の平均WER、青い破線は白人話者の平均WERです。画像クレジット:Koenecke他

「私たちは各サービスプロバイダーが提供する、一般的に商用利用は有料の[音声テキスト変換]APIを使用しています」と、論文の第一著者であり、スタンフォード大学計算数理工学研究所の博士課程学生であるアリソン・コーネケ氏はThe Registerに語った。

「当社は、企業の消費者向け音声アシスタントを使用していません。約40時間分の音声ファイルの一括書き起こしを簡単に取得する方法が提供されておらず、音声を大声で再生する必要がある可能性があるためです。これは、.WAVファイルから直接音声を取得する場合とは異なり、エラーの原因が増えることになります。」

音声テキスト変換システムは、テキストで学習した言語モデルと、音で学習した音響モデルの2つの部分に分かれています。黒人話者は、独自の文法規則と語彙を持つ英語スタイルであるアフリカ系アメリカ人方言英語(AAVE)を使用する傾向があります。研究者たちは、5社すべてのASRの音響面は、AAVE話者の音声データで十分に学習されておらず、彼らの発話内容を認識できなかったと考えています。

研究者らが5つのASRモデルすべてに、白人と黒人が同一の文章を発話した音声断片を入力したところ、黒人話者に対するサービスのパフォーマンスは低下しました。この場合の平均WERは0.13であったのに対し、黒人と白人では0.07でした。つまり、黒人話者と白人話者間のWERの違いは、例えばAAVEのスラング語などが原因というわけではありません。モデルの音響検出能力が根本的に不十分なのです。

つまり、モデルは様々なアクセントや話し方について十分に学習されておらず、黒人にとっては不利な状況です。しかし、白人や白人に似た話し方をする人にとっては、その点では優れています。

クレシダ・ディック

ロンドンのトップ警察官は、おそらく皮肉を込めて、顔認識の批判を「非常に不正確または無知」だと一蹴した。

続きを読む

「これらの結果は、ASRパフォーマンスにおける人種間の格差が、白人と黒人の話者間の発音と韻律(リズム、ピッチ、音節のアクセント、母音の長さ、抑揚など)の違いに関連していることを示唆している」と研究者らは述べている。

ASRシステムのテストには、2つのデータセット、すなわちアフリカ系アメリカ人地域言語コーパス(CORAAL)とカリフォルニアの声(VOC)が使用されました。米国の5つの異なる都市から約115人のボランティア(白人42名、黒人73名)にインタビューを行い、両データセット合わせて合計19.8時間分の音声が生成されました。

CORAAL には、AAVE をさまざまな程度に使用している黒人の話者がおり、アフリカ系アメリカ人の歴史的な人口で知られる都市プリンスビル、ニューヨーク州ロチェスター、ワシントン DC 出身です。

VOCは、カリフォルニア州サクラメント市とハンボルト郡の白人話者で構成されています。研究者たちはASRにバイアスが存在すると確信していますが、同じ都市の白人話者と黒人話者のWERを計算することで、結論を検証したいと考えています。

「私たちの調査結果は、音声認識システムのメーカー、学術的な音声認識研究者、音声研究の政府スポンサーを含む音声認識コミュニティが、システムが幅広く包括的であることを保証するためにリソースを投資する必要があることを浮き彫りにしている」と研究者らは結論付けている。

「このような取り組みは、AAVE音声に関するデータのより良い収集だけでなく、地域アクセントや非ネイティブ英語アクセントを持つ話者など、同様にASRパフォーマンスの低さに悩まされている可能性のある他の非標準的な英語の変種に関するデータのより良い収集も伴うはずだと私たちは考えています。」

チームはまた、広く採用されている ASR モデルを定期的にテストし、時間の経過に伴う進捗状況を評価するため、業界の開発者と学術界の研究者が協力するよう呼びかけました。®

Discover More