コンピューターは世界中の言語を翻訳する能力をかなり向上させています。しかし、諺にあるように、これからも進歩は続きます。今、専門家たちは機械に、より人間的な方法で翻訳を行えるように教えようとしています。
「これまでのほとんどの機械翻訳システムは大規模な並列コーパスで訓練されているが、人間は異なる方法で言語を学習する。それは、環境の中で基礎を固め、他の人間と交流することだ」と、フェイスブックのAI研究チームとニューヨーク大学の研究者らは今月arXivに掲載された論文で述べた。
そのため、研究チームは、ニューラル ネットワークを言語のペアで明示的にトレーニングするのではなく、ボットにコミュニケーション ゲームをプレイさせることで新しい言語を教えました。
2つのボットがどのように動作したかを説明します。1つは英語のボットで日本語を学習し、もう1つは日本語のボットで英語を学習します。英語のコンピュータープレイヤー(または話者)は、銀河の写真などの画像が与えられ、その画像を2番目の日本語のプレイヤーに説明しようとします。
2つ目のボット(つまりリスナー)には、2つの画像が与えられます。1つはターゲット画像、もう1つはディストラクター画像と呼ばれる、別の何かの画像です。この例では、リスナーに提示されるターゲット画像は銀河の写真で、ディストラクター画像は植物の写真です。英語話者の説明に基づいて、2つ目のボットは提示された2つの画像(銀河と植物)のうち、どちらが話者が説明した画像であるかを推測する必要があります。リスナーはどちらがターゲット画像であるかを知らされず、自分で推測する必要があります。
話し手の目標は、対象となるイメージを正確に説明するとともに、聞き手が正しいイメージを識別するのに役立つメッセージを送信することです。
両プレイヤーが交互に話し手と聞き手の役割を担い、2つの異なる言語において適切な単語を適切な画像にマッピングするよう訓練されます。これは、ニューラルネットワークが異なる言語の対応する単語をマッピングしてテキストを翻訳する機械翻訳と似た仕組みです。
「視覚を媒介として使うのは自然なことです。私たちの言語を話さない人とコミュニケーションをとるとき、私たちは周囲の状況を直接参照することが多いのです」と研究チームの論文は述べている。
Facebookが言語を発明するチャットボットの開発を中止?真実は?
続きを読む
これは、2 つの画像と 15 の異なる言語ペア間の単一の単語から始まる比較的単純な実験であるため、Google 翻訳や Facebook の翻訳システムほど優れているわけではありません。
研究者らは、英語やドイツ語で単語ではなく完全な文章を使ってゲームの難易度を上げると、システムは苦戦したと認めた。しかし、プレイヤーが2人ではなく3人だと、パフォーマンスはわずかに向上した。
各プレイヤーは、それぞれ異なる2つの言語を話す2つのボットとコミュニケーションを取る必要があります。研究者たちは、言語ペア間の翻訳品質が向上することに気づきました。
Facebookの研究員ダウ・キエラ氏はThe Registerに対し、「これはおそらく機械学習におけるアンサンブル効果によるものでしょう。つまり、より多くのエージェントが相互に作用すればするほど、より多様なデータから学習し、より速く学習できるようになり、結果として翻訳能力が向上するのです」と語った。
研究
複数のエージェントがタスクを完了するために強制的に会話を強いられるシナリオの実験は非常に人気があります。OpenAIとBaiduはどちらも、ボットが環境内のオブジェクトに関する独自の言語を発明できるようにするための同様の研究を実施しました。
Facebook の最新のマルチエージェント テストの結果によると、画像の説明を渡すこのアプローチは翻訳エンジンの構築には適していませんが、それでも興味深い手法です。
キエラ氏は、この研究は「低リソースの翻訳」に焦点を当てていると説明した。
「これはAIにとって興味深い問題です。大量の対訳データが利用できるようになったことで、翻訳はかなり精度が上がってきています」と彼は述べた。「対訳とは、元の文とそれに対応する翻訳文があることを意味しますが、多くの言語ペアではこの種のデータは利用できません。」
低リソースの機械翻訳は、依然として大きな課題です。私たちの手法は、中間的な共通基盤(この場合は画像)があれば、並列データは必ずしも必要ではないことを示しています。
この手法は、特にリソースの少ない言語において、既存の翻訳システムの改善に活用できる可能性があり、新たな翻訳手法の開発にもつながる可能性があります。現在の手法の問題点は、抽象的な文に対応する画像がないことです。例えば、「民主主義は政治体制である」という表現には、対応する画像がありません。今後の研究でこの点を改善していく予定です。®