Googleは、同社の最新チャットボットはこれまでで最も人間らしく、人類の最高の成果である341GBのソーシャルメディアで訓練されていると述べている。

Table of Contents

Googleは、同社の最新チャットボットはこれまでで最も人間らしく、人類の最高の成果である341GBのソーシャルメディアで訓練されていると述べている。

Google の AI 研究者たちは、公開されているソーシャル メディアから収集した 341GB もの膨大な量のディスカッションを使って巨大なニューラル ネットワークをトレーニングし、これまでで最も人間らしいチャットボットを作成したと彼らは考えています。

「ミーナ」と名付けられたこのソフトウェアは、Tensorflowのseq2seqモデルを中核としています。会話はベクトルストリームとしてエンコードされており、人間が話しかけるとテキストに変換されて返答を生成します。プロンプトを入力すると、うまくいけば関連性のある内容が返されます。人間の議論ややり取りで訓練されているため、多少自然に聞こえる文章を返すことさえあります。このニューラルネットワークは膨大な情報源を持ち、26億のパラメータを含んでいます。これはOpenAIの最大のGPT-2モデルの15億パラメータを上回っています。

Googleが設計した2,048個のTPU v3コアを使って、ミーナを完全に訓練するのに約1ヶ月かかったようです。しかし、Google Brainのスタッフは、会話が可能なことは、リアルでありながら人工知能として不可欠な要素であるため、その計算能力と時間はすべて価値あるものだと考えていました。

「自然言語で自由に会話する能力は人間の知能の特徴の一つであり、真の人工知能には必須条件である可能性が高い」と研究者らは今週arXivで公開されたミーナに関する論文[PDF]に記している。

ミーナは基本的に、映画、週末の計画、旅行、楽器の演奏、数学哲学、水中での呼吸など、人間同士の会話を真似するように訓練されました。

ソーシャルメディア上の数百ギガバイトに及ぶ公開会話がメッセージツリーに収集されました。最初のメッセージがルート(根)となり、それに対応する返信はすべて子ノード、つまりリーフノードとなります。このようにデータを整理することで、議論をテキストの連鎖に変換しやすくなり、ソフトウェアが学習できるようになります。ソフトウェアは、返信と以前のメッセージとの関連性を把握する必要があります。そうすることで、実際の人間と会話している際に文脈を読み取り、関連性のある返答を導き出し、議論の内容を理解しているという印象を与えることができるのです。

ロボットトーク

何が問題になるのか?レドモンドの研究者がRedditチャットで訓練されたおしゃべりボットをリリース

続きを読む

一貫性のある機械を構築するのは困難であり、多くのチャットボットは、すぐに意味不明な言葉に陥った時点で限界を露呈します。最初の返答は人間らしく聞こえるかもしれませんが、その後の文は意味をなさないか、事実とは全く異なるものになります。そのため、人間はこれらのシステムと対話する際に、コンピューターがプロンプトを理解し、一貫性のある返答をする可能性を最大限に高めるために、質問を慎重に構築し、厳格な方法で対話する必要があります。

ミーナは質問に答えたり、デジタルアシスタントとして機能したりするようには設計されていません。むしろ、人間のオペレーターと説得力のある会話を交わすように作られています。Googleの社員たちは、クラウドソーシングで集めた作業員チームでこのチャットボットをテストしました。ただし、論文では採用された人数は明らかにされていません。各作業員はミーナと短い会話をし、その返答がどれだけ理にかなっていて具体的だったかを評価するよう指示されました。

意味の理解度は、チャットボットがどれだけ意味を成しているかを測る指標であり、具体性は会話全体の文脈をどれだけ理解しているかを測る指標です。例えば、「テニスが大好きです」という質問に対して、「それはいいですね」という返答は問題ありませんが、「私もです。ロジャー・フェデラーには飽きることはありません!」という返答に比べると具体性は低くなります。後者は、チャットボットがテニスとテニス界のエース、ロジャー・フェデラーの間に関連性があることを理解できていることを示しています。

Googleが自社開発のスコアシステムで勝利

Google社員たちは、ミーナのパフォーマンスを評価するためにSSAスコア(Sensibleness and Specificity Average、つまり「分別性と具体性の平均」)を考案しました。ミーナのSSAスコアの最高値は79%でした。平均的な人間のSSAは86%だと言われています。まるでGoogleがスコアリングシステムを発明し、そのシステムで最高だと主張しているような気がします。ですから、この結果は鵜呑みにすべきではないでしょう。しかし、私たちに何が分かるというのでしょう?

ミーナは、驚くべきことに、他のチャットボットよりも優れた成績を収めました。マイクロソフトのDialoGPT(SSA 48%)、Xiaoice(31%)、Cleverbot(56%)、そしてチューリングテストに似たコンテストであるレオブナー賞を5回受賞したMitsuku(56%)です。なお、Googleのミーナは、受賞歴のあるMitsukuのバージョンとは比較されていません。

「より高度な困惑度を達成できれば、分別性と具体性という点で人間のようなチャットボットの実現は目前となるだろう」と研究チームは述べている。困惑度とは、会話の中で相手が次に何を言うかをどれだけ正確に予測できるかを表す指標である。

ミーナはチャットボットにありがちな問題を抱えています。壊れたレコードのように同じことを繰り返したり、時々意味不明なことを言ったり、とにかく不気味だったりします。さあ、自分で見てみましょう。ある場面では、奇妙なジョークがちょっとした狂気に陥ります。

ミーナ・チャットボット・クリーピー

ミーナがおかしくなった例。

人間のようなチャットボットの実用化はまだかなり疑問視されています。そもそも、機械と空虚で魂のない自動会話を延々と続けることに何の意味があるのでしょうか? オフィスのウォータークーラーやコーヒーポットで時間をつぶせばいいのですから。しかし、Googleは将来、チャットボットが会話を通じて新しい言語を学ぶ手助けをしたり、開発者がビデオゲームでより優れたソフトウェア生成の会話を作成できるようにしたりする可能性があると考えています。

「魅力的な研究課題であるだけでなく、このような会話エージェントは、コンピューターインタラクションのさらなる人間化、外国語練習の改善、映画やビデオゲームの親しみやすいインタラクティブキャラクターの作成など、多くの興味深いアプリケーションにつながる可能性があります」と報告書は述べている。

Google は、モデルの安全性と偏りを評価している間、今のところコードの公開を控えています。®

Discover More