Google の Gmail 向けスマート コンポーズの仕組み – ロボット通話のデモは偽物だったのか?

Table of Contents

Google の Gmail 向けスマート コンポーズの仕組み – ロボット通話のデモは偽物だったのか?

総括こんにちは、今週のAI総括です。GoogleのGmail向けスマートコンポーズにおける文章予測の仕組みについてさらに詳しく解説するとともに、Duplexロボコールシステムに関する質問もいくつか取り上げます。また、気候変動の研究に役立つ、カエルやヒキガエルの求愛鳴き声を分類するための決定木についてもご紹介します。

面倒くさがり?AIにメールを書いてもらいましょう。Googleは先週のI/Oで、ユーザーが入力した文章を機械学習の力で補完するGmailの新ツール「スマートコンポーズ」を発表しました。一体どのように機能するのでしょうか?

新しいブログ記事では、リカレントニューラルネットワークを用いたバッグ・オブ・ワード言語モデルが公開されています。メールに関連する文を作成するために、このモデルは件名と過去のメールにおける会話を考慮に入れます。これらの会話は単語埋め込みとしてエンコードされ、ベクトルに変換されます。

ブログ投稿によると、「このハイブリッドアプローチでは、各フィールドの単語埋め込みを平均化することで、件名と以前のメールをエンコードします。そして、平均化された埋め込みを結合し、各デコードステップでターゲットシーケンスRNN-LMに入力します」とのことです。

グーグルデュプレックス

GoogleのDuplex RNN言語モデルシステムの概略図。画像提供:Google AI

これにより、モデルはメールの文脈を考慮しながら、同じ文中の前の単語から次の単語を予測できるようになります。このモデルは、おそらくありふれた何十億通ものメールで学習させ、予測プロセスを完成させました。64個のTPU2チップを搭載したTPU2ポッド全体を用いて、わずか1日でモデルの学習を完了しました。

Googleは、モデルの複雑さと推論速度のバランスを取ることが重要な課題だと述べています。Smart Composeが実用的であるためには、ユーザーが入力している最中に、理想的には100ミリ秒以内に予測を提示する必要があります。

したがって、デモにあるような一般的な構造の電子メール (自宅での夕食の予定を友人にメールで知らせる) にはおそらく問題なく対応できるでしょうが、よりわかりにくく目的のない雑談には適さないでしょう。

GoogleはDuplexのデモを偽装したのか?答えはここにはありません。I /O関連のニュースが続きます。先週、CEOのサンダー・サンダー氏がステージ上でAI搭載のロボコール機能を発表したGoogle Duplexのデモの信憑性について疑問が投げかけられています。

Axiosは、通話中に企業が身元を明かさず、Duplexに名前や電話番号を尋ねなかったことに疑念を抱いた。しかし、Googleはプライバシー上の理由から、この会話の一部を省略した可能性がある。

どちらの通話でも周囲の騒音はなく、レストランや美容院での話し声も聞こえませんでした。

この件についてグーグル広報に質問したところ、企業名を公表しないと約束したにもかかわらず、ジャーナリストに連絡をするという薄っぺらな約束以外には返答がなかった。

このニュースは、Vanity FairやTechSpotなど、他のメディアにも取り上げられました。少し無理が​​あるかもしれませんが、Googleも質問を無視することで自らの利益を得ているわけではありません。

The RegisterはGoogleにも問い合わせて説明を求めましたが、驚いたことに、こちらも返事がありませんでした。¯\_(ツ)_/¯

ブルートフォース コンピューティングOpenAI は、2012 年以降、AI で最大かつ最も人気のあるモデルの一部をトレーニングするために使用されたコンピューティングの量を分析し、長年にわたってどれだけ増加したかを調べました。

「2012年以降、最大規模のAIトレーニング実行で使用されるコンピューティング量は、3.5ヶ月で倍増するペースで指数関数的に増加しています(比較すると、ムーアの法則では倍増期間は18ヶ月でした)。2012年以降、この指標は30万倍以上増加しています(18ヶ月で倍増すると12倍の増加にしかなりません)。」とOpenAIはブログ投稿で述べています。OpenAIは、コンピューティング量は2012年以降、毎年約10倍の割合で増加していると推定しています。

OpenAI_コンピューティング

2012年以降、最大規模のトレーニングモデルに費やされた計算量の対数スケール。画像クレジット:OpenAI

AlphaGo Zeroがトップで、1秒*日あたり1000ペタフロップス以上の処理能力を消費しています。AlphaZeroは2位です。GoogleのNeural Machine Translationは3位、Neural Architecture Searchが僅差で続いています。2012年には、AlexNetが1秒*日あたり0.1ペタフロップス未満でした。

1秒あたり1ペタフロップス*1日は、1秒あたり約10の15乗のニューラルネット演算を1日あたり実行することを意味します。つまり、AIの進歩を加速させるには、膨大な量の力ずくの計算が必要になります。しかし、最新のDAWNBenchの結果を見ると、優れた結果を出すには、必ずしも誰が最も多くのチップを使用したかに左右されるわけではないことがわかります。

「ディープラーニングモデルは素晴らしいが、研究者はトレーニングをはるかに速くする簡単なトリックをほとんど無視している」と、人気のオンラインディープラーニングコースであるfast.aiの創設者であり、サンフランシスコ大学の研究者でもあるジェレミー・ハワード氏は以前The Registerに語っていた。

それでも、多くの GPU、ASIC、FPGA、TPU などのカスタム ハードウェアの登場により、コンピューティングがどの程度増加したかを追跡することは依然として興味深いことです。

ケロケロ、ケロケロ研究者チームは気候変動を研究するために、AI を使ってカエルやヒキガエルのさまざまな鳴き声を自動的に分類しました。

無尾類の求愛鳴き声は気温の影響を受けます。気温が高すぎると、求愛鳴き声を生み出す生理学的プロセスの一部が影響を受け、場合によっては実際に抑制されることもあります。求愛鳴き声を分類し、その数を測定することで、科学者は気候変動を研究することができます。

「私たちは音を一時的なウィンドウ、つまり音声フレームに分割し、コンピューターで使用される自動学習技術である決定木によって分類しました」と、研究の共著者でありセビリア大学の研究者であるアマリア・ルケ・センドラ氏は説明した。

研究者たちは、音の分類において90%近くの成功率を達成したと述べています。これはまた、環境変化のもう一つの指標である、地理的領域における個体数の測定にも役立ちます。

「気温の上昇は鳴き声のパターンに影響を与えます」と彼女は述べた。「しかし、これらの鳴き声はほとんどの場合、性的な性質を持つため、個体数にも影響を与えます。私たちの方法では、ある地域に生息する個体の正確な数を直接特定することはできませんが、大まかな推定値を得ることは可能です。」

この論文は「Journal of Expert Systems with Applications」に掲載されました。

Discover More