re:MARS今週ラスベガスで開催された Amazon の AI イベントで、同社はより自然な会話をサポートし、複数のトピックのやり取りに参加するスキルをコーディングする新しい方法である Alexa Conversations を発表しました。
Alexaスキルは、Amazonのチャットボットを拡張するサードパーティ製の拡張機能です。開発者は独自のウェイクワードやカスタムフレーズを登録できます。例えば、 「アレクサ、今日のテクノロジーニュースをEl Regに聞いて」といった言葉で呼び出されるRegニューススキルを作成し、コンテンツを取得できます。
販売業者はスキルを使って商品を販売することもできます。ユーザーにスキルをAmazon Payに承認してもらうことができれば、「ユーザーはAmazonアカウントに既に登録されている情報を使って、スキル内で商品やサービスの支払いができるようになります。ユーザー名やパスワードを覚えておく必要はありません。」
こうしたものを書く上で難しいのは、人間のささやきを、シンプルなインテント(サポートされているアクション)と、そのインテントの対象を指定するAlexa用語の「スロット」に分解することです。音楽の操作のような比較的単純なものなら、再生、停止、音量調整といったインテントと、トラック、アーティスト、アルバムといったスロットがあれば、それほど難しくはありません。しかし、より複雑なものになるとコーディングが難しく、ユーザーにとっても負担が大きくなります。だからこそ、サポートコールの優先順位付けを試みるカスタマーサービスボットは、非常にイライラさせられるのです。私たちは、人間と繋がるためにあらゆる近道を試みるのです。
Alexaスキルにおけるダイアログ管理とは、インテントとエンティティを識別・確認するために必要な情報を取得する論理フローを記述することです。例えば、ユーザーがタクシーを希望していることを確認したら、目的地、時間、乗客数を特定し、例えばケント州のリーズ城とリーズにある城を混同しないようにする必要があります。
それは昔の話です。今、Alexa Conversationsは、固定された会話の流れをよりスマートなものに置き換えることを約束しています。
Amazonは、「Alexa Conversationsは、AI駆動型のダイアログマネージャーと、合成トレーニングデータを自動生成する高度なダイアログシミュレーションエンジンを組み合わせたものです」と述べています。「お客様は、Alexaにユーザーに伝えてほしいプロンプトと、ユーザーに期待されるアクションを含む注釈付きサンプルダイアログをAPIで提供します。Alexa Conversationsはこの情報を使用してダイアログフローとバリエーションを生成し、ダイアログが取り得る多数のパスを学習します。」
これは典型的なAIアプローチです。あらゆる状況を想定してコーディングするのではなく、モデルと目標を定義し、例を提示し、機械学習アルゴリズムに何をすべきか判断させます。この場合は、「対話フローをモデル化するためのリカレントニューラルネットワーク」を使用します。
「Alexa Conversationsで構築されたAtom Ticketsスキルは、コードがわずか1,700行にまで70%近く削減され、必要な顧客対話サンプルはわずか13個でした」とアマゾンのストレージマーケティング担当責任者、ドリュー・マイヤー氏は述べた。
今回の発表でさらに重要になる可能性のあるもう1つの点は、Alexaの対話が複数のスキルにまたがって可能になる点です。劇場予約代理店はタクシーを運行するケースは少ないですが、顧客はタクシーとタクシーの両方を必要とすることがよくあります。そのため、Alexaがスキルを組み合わせることは理にかなっています。ユーザーが「午後7時の公演のチケットを予約して、タクシーを手配して」と言った場合、Alexaは2つの異なる事業者のスキルを呼び出すことができます。開発者は、スキルがこのような複数のスキル間のやり取りに参加できるように、新しいAPIをサポートする必要があります。
Alexa が処理するマルチスキル会話 (クリックして拡大)
「私たちは、顧客がAlexaとより自然に会話できる世界を思い描いています。つまり、スキル間のシームレスな移行、質問、選択、そして友人や家族、同僚と話すのと同じように話すことができる世界です」と、AmazonのAlexa担当副社長兼主任科学者であるロヒット・プラサド氏は述べた。
この図のどこが間違っているのでしょうか?いくつかあります。まず、人間の会話のニュアンス、承認や不承認を示す小さなシグナル、そして思考を中断することなく次から次へと飛び交う私たちの蝶のような思考は、ボットエンジンにとって追跡が難しいということです。プラサド氏のビジョンがすぐに実現するとは期待できません。
しかし、それは良いことかもしれません。音声アシスタントを使って買い物をするようになった場合、競争と選択肢への影響は深刻になる可能性があります。しかも、こうした機器を生活に取り入れることによるプライバシーの問題を考慮する前でさえ、です。
問題は、音声アシスタントの使い勝手があまりにも悪く、開発者が確認のための選択肢を最小限に抑えようとしていることです。そのため、旅行、日用品、配管工や電気技師といった地域サービスといった一般的な注文をAlexaが提示すると、勝者がすべてを手に入れることになります。検索エンジンが提供する10個の青いリンクに相当するものは表示されません。少なくとも、選択肢があるように見せかけるのです。
Alexaは複数のスキルを使った対話の中で、どのスキルを選択するのでしょうか?競合ベンダーがAlexaの注目を集めようと必死に競い合う中、スキル選択の最適化は次世代のSEO対策となる可能性があります。ビジュアルや広告宣伝文句がないと、顧客にプレミアム価格を支払わせるのが難しくなるため、これは有名ブランドにとっては悪い知らせとなるかもしれません。Amazonの自社ブランド商品の品揃え拡大は、この点で勝利を収める可能性を秘めています。
これらはすべて憶測の域を出ませんが、こうしたことが広まれば広がるほど、倫理と競争をめぐる議論はより激しくなることは間違いありません。おそらくすべてがうまくいかなくなった後でしょう。®