Google翻訳は毎日2億人以上が使用しており、ブラジルの研究者によると、AIによる早口言葉の翻訳は性差別的な結果をもたらす傾向があるという。
プレプリントサービス ArXiv を通じて配布された研究論文「機械翻訳におけるジェンダーバイアスの評価 - Google 翻訳のケーススタディ」で、ブラジルのリオグランデドスル連邦大学の Marcelo Prates、Pedro Avelar、および Luis Lamb は、Google 翻訳が 12 種類の異なるジェンダーニュートラル言語で書かれた文章から英語の性別代名詞をどのように翻訳するかを調査しています。
研究者らは、米国労働統計局(BLS)のデータに記載されている職業を取り上げ、それを用いて中国語、ハンガリー語、日本語、トルコ語など性別を区別しない代名詞を使用する言語で「彼女はエンジニアです」や「彼はエンジニアです」といった文を作成した。
次に、研究者たちは API 経由で Google 翻訳に文章を通し、Google の言語モデルが英語で性別代名詞をどのように割り当てているかを確認し、その後、女性と男性の性別代名詞の比率を、実際の性別に基づく職業参加に基づいて予想される比率と比較しました。
理論的には、翻訳モデルがそのベースラインを反映するデータからトレーニングされることを考えると、主に女性が行う職業を説明する文章は、ほぼ同じ頻度で女性代名詞を使用して翻訳されることが予想されます。
この結果は、女性が少ない業界において、自社の測定によれば女性社員の割合がわずか30パーセント程度である同社にとっては、それほど驚くべきことではなかった。
基本的な偏見の餌:黒人の大きなロボットを作る - 白人ではない女性のドロイドは虐待を受ける
続きを読む
「[Google翻訳]は、特にSTEM職のような男女比の不均衡に関連する分野で、男性がデフォルトになる傾向が強いことを明らかにしました」と研究者らは論文の中で述べています。「この統計を、各職種における女性の参加頻度に関するBLSデータと比較したところ、Google翻訳は現実の女性労働者の分布を再現できていないことが示されました。」
研究者らは、Google翻訳が女性代名詞を含む文を翻訳する割合が、すべての職業と言語で平均11.76%であることを発見した。BLSのデータに基づくと、すべての職種における女性労働者の男女参加率は35.94%であった。
つまり、Google 翻訳は女性よりも男性について話すことを好むのです。
「我々の研究結果は、STEM(科学、技術、工学、数学)職種など、性別による固定観念に問題があるとされる分野では、男性の不採用が目立つだけでなく、誇張されていることを示している」と論文は述べている。
アルゴリズムによるバイアス(文化的偏向を補正できないとも言える)のさらなる証拠は、特定の形容詞と特定の性代名詞の関連付けに現れました。「魅力的な」「恥ずかしい」「幸せな」「親切な」「内気な」といった単語を含む文は、女性代名詞で翻訳される傾向がありました。一方、「傲慢な」「残酷な」「罪深い」といった単語を含む文は、男性代名詞として翻訳されました。
さらに研究者たちは、「Google 翻訳は通常、他の言語間の翻訳に英語を共通語として使用している」ため、英語で示された偏りが他の言語にも影響を及ぼす可能性があると推測している。
研究者らは、考えられる解決策として、偏見の影響を軽減するアルゴリズムに関する他の学術研究が有望であると示唆している。
The RegisterはGoogleにコメントを求めたが、返答はなかった。
論文によると、実験結果を生成するために使用されたコードとデータはPrates氏のGitHubリポジトリを通じて公開されているとのことだが、本稿提出時点では提供されたリンクは機能していなかった。また、Google翻訳のコードは継続的に改訂されているため、2018年4月に収集された研究結果は再現できない可能性があると警告している。®