Google は、終わりが見えない Cloud Next OnAir ビデオフェスティバルの Cloud AI ウィークの一環として、主にコンタクト センターを対象とした新しいボット テクノロジーを初公開しました。
これには、人間の声でテキスト読み上げをトレーニングして、特定の人が話したように聞こえる録音を作成する機能が含まれます。これは明らかに悪用される可能性のある技術ですが、同社によれば、これを要求するすべての顧客は倫理審査の対象となるとのことです。
会話型AI製品責任者のアンソニー・パスマール氏は、「コンタクトセンターAI(CCAI)の現状」と題したバーチャルイベントで講演しました。パスマール氏は、CIOの31%が「会話型AIプラットフォーム」を導入しており、これは前年比50%の増加であると述べました。
同氏はまた、「2023年までに、顧客はセルフサービスの顧客インタラクションの70%を開始するために音声インターフェースの使用を好むようになり、これは2019年の40%から増加する」とし、コンタクトセンターのインタラクションの40%は「AI、機械学習、セルフサービスを使用して完全に自動化され」、これは2018年の25%から増加するだろうと主張した。引用された数字はガートナーからのものである。
コンタクトセンターAIは、音声入力の解析、ボットによる会話、人間のエージェントに対するAIによる支援、イベント後の分析に基づいています。
企業がコールセンターの人間エージェントへの人件費削減に熱心であることは理解できるものの、顧客がそれをどの程度歓迎するかは明確ではありません。例えば、請求書の支払いのような操作は自動化しやすいものの、ほとんどの人はウェブを利用しており、昔ながらの番号メニュー(「これは1、あれは2を押してください」など)は多くの場合、同じようにうまく機能するか、あるいはうまく機能しません。より複雑な問題が自動化されたインタラクションで解決されることは稀ですが、Googleは、自社の技術が通話転送後の人間エージェントへの誘導だけでなく、有用なトリアージも実行できると主張しています。
CCAIは3つのGoogleプロダクトで構成されています。DialogFlowは会話型AIアプリケーションを構築するための開発ツールで、Cloud NextでPassemard氏は現在ベータ版のDialogFlow CXを発表しました。同氏はこれをサービスの「次の進化形」と呼びました。一般提供は数ヶ月以内に開始される予定です。DialogFlow CXの新機能には、ビジュアルフロービルダーを備えた刷新されたユーザーインターフェース、エージェントあたり最大2万個のインテント、感情(怒りの度合い)のネイティブサポート、そして顧客自身がトレーニングするテキスト読み上げ音声であるCustom Voiceが含まれます。DialogFlow CXは、ボットとインテントのA/Bテストなどの機能を備えたDevOpsパイプラインもサポートしています。
カスタムボイスは、わずか30分のトレーニングで、テキスト読み上げを特定の人物のように聞こえるようにすることができます。
「インテント」とは、「請求書を支払いたい」や「なぜ二重に請求されているのですか?」など、AI が音声入力から解析する事前定義されたアクションです。
Googleの音声テキスト変換技術は、GoogleアシスタントやGoogle Homeサービス、そしてCCAIに利用されており、多額の投資が行われている分野です。同社のプレゼンテーションでは、オックスフォード英語辞典の10倍の語彙、120言語に対応し、文脈に基づいた事後修正機能を備えたリアルタイムテキスト変換を実現していると謳われていました。
先日発表されたSpeech-to-Text On-Premは、GoogleのハイブリッドクラウドプラットフォームであるAnthosを介して企業のデータセンターで実行されます。Anthosを使用することで、顧客はデータと処理をオンプレミスに維持しながら、クラウドコンソールから管理できるため、一部の規制要件を満たすことも可能になります。
Agent Assistは、人間のエージェント(コンピューターがダメだって?)を支援するAI駆動型のサービスです。すべての通話をリアルタイムで文字起こし(「この通話は録音される可能性があります」という標準的な警告が表示されます)、適切なナレッジベース記事の検索や、セールストーク用の関連商品の提案などを行います。ここで注目すべきは、Googleが音声だけでなくチャットでもAgent Assistを提供していることです。つまり、多くのカスタマーサポートサイトで見られるライブチャットオプションです。
パスマール氏はまた、通話データをマイニングするサービス「CCAI Insights」のアルファ版を発表しました。これは、マネージャーや経営幹部が顧客の問い合わせ内容や顧客体験の質を分析できるようにするものです。このAIは、通話終了時に顧客からサービス評価を求められるという避けられないお願いだけに頼るのではなく、感情を分析します。企業が最悪のケースを特定し、フォローアップできるようにするのが狙いです。
テキスト読み上げ機能は、このサービスのもう一つの重要な部分です。電子音声でテキストを読み上げるのは簡単ですが、人間らしい音声にするのは容易ではありません。そして、この点において、音声読み上げ機能は進化を続けています。現在、223種類のプリセット音声と92種類のWaveNet音声が用意されており、「音節、音素、単語における人間のような強調や抑揚」を約束するプレミアムサービスとなっています。WaveNet音声はGoogleアシスタントにも使用されています。
新たに導入されたカスタム音声機能では、顧客が「声優」を起用し、ボットをその俳優のように話すようにトレーニングすることができます。パスマール氏はこの機能を実演し、まず俳優の録音を再生し、次にわずか30分間の俳優の録音に基づいたデジタル音声を再生しました。デジタル音声は、明らかに俳優の声に似ていました。
パスマール氏は、同社は「俳優の声を倫理に反する目的で使用すべきではない」ことを認識していると述べた。同氏は、この技術は「倫理審査を経た上で、あらゆる顧客に利用可能」だと説明した。偽情報が蔓延する時代において、例えば政治やソーシャルメディアの操作に利用された場合、悪用される可能性は高いが、Googleの倫理的使用基準や悪用防止策については明言されていない。とはいえ、音声操作自体は目新しいものではなく、カスタムボイスはそれをより容易にするだけだ。
「人間に取って代わることができると主張しているわけではありません」とパスマール氏は述べた。「そうではありません。しかし、人間に十分近い存在でありたいと考えており、お客様には、ボットと話しているのであって人間のエージェントではないことをお伝えいただくようアドバイスしています。」®