AIに音声を理解させることは、すでに困難な課題です。オーストラリアの研究者グループは、さらに困難な課題、つまり、かつて聴覚障害を抱えていた赤ちゃんに話し方を教えるという課題に取り組んでいます。
なんでそんなに厳しいの?
スマートフォンで Siri や Cortana、Google に話しかけると何が起こるか考えてみてください。音声認識システムは、(たとえば)「OK Google」を背景の雑音と区別する必要があります。また、「OK 何か他のもの」ではなく「OK Google」に反応する必要があります。さらに、コマンドを実行するために音声を解析する必要があります。
そして、あなたはすでに話し方を知っています。
スウィンバーン大学の「GetTalking」というアプリを開発しているチームは、そのような仮定を一つも立てることができません。なぜなら、彼らは別の問題を解決しようとしているからです。赤ちゃんが機能不全の内耳の機能を代替するために人工内耳を装着すると、全く新しいことを学ぶ必要があります。それは、聞こえるようになった音と、自分の口から発せられる音を関連付ける方法です。
子どもたちに会話の世界を紹介することは「ハビリテーション」の問題であり、ここでは「リハビリテーション」は意味しません。なぜなら、回復する能力がないからです。
GetTalking はスウィンバーン大学の上級講師であるベリンダ・バーネット氏の発案によるもので、そのアイデアの発端は人工内耳を装着した子どもの母親としての彼女自身の経験でした。
子どもたちはアプリと上手にやりとりします。
子どもたちに話し方を教えることはできるのでしょうか?画像:ベリンダ・バーネット
彼女はThe Register紙にこう説明している。「私の娘は生後11ヶ月でインプラントを入れたのですが、1年間休んで娘に話し方を教えるのは大変でした。そのためには、たくさんの反復練習が必要なんです。」
その時間と注意力こそが成功の大きな予測因子であると彼女は説明した。
生後12か月以下の乳児にインプラントを施すことが標準的な治療法となってから(2011年以降、オーストラリアの国民健康保険制度であるメディケアが全額負担)約10年で、インプラントを受けた乳児の80%が正常範囲内の発話能力を獲得している。
ベリンダ・バーネット
そこまで到達できない20%の生徒は、一体何によって決まるのでしょうか?家族の収入や都市部からの距離などの理由で、「カーペットの上に座って1年間フラッシュカードを勉強する」ことができないのです。
バーネット氏は、田舎や地方に住む親、地方に住む母親、低所得の母親にとってはそれが困難になると述べた。
バーネット氏と准教授のレイチェル・マクドナルド氏が資金を求めたアイデアは、iPadなどで実行し、赤ちゃんが話したときに明るい視覚的なご褒美を与えるアプリという、シンプルなものに見える。
しかし、これは AI と音声認識の限界を試すものでもあります。なぜなら、非常に難しい出発点があるからです。赤ちゃんが話すことを学んだことがないのに、アプリはどうやって音声に反応できるのでしょうか?
音声認識:継続的な探求
AppleはSiriを開発したチームを買収するために支払った金額を明らかにしたことはないが、1億5000万ドルという噂は不当ではないようだ。そしてSiriは話し方を知っている誰かからの入力を受け付けている。
音声認識と AI に注がれた多大な努力にもかかわらず、それが非常に困難であり、わずか数パーセントの言語でしか自動化されていないこともわかっています。
スウィンバーン大学のコンピューターサイエンス研究者、レオン・スターリング氏は、同プロジェクトを評価する大学委員会のメンバーとして関心をそそられ、長年にわたるAI研究の経験を同プロジェクトに持ち込むことに協力している。
彼は、シンプルなアプリとして提示する必要があるものの背後に隠れた複雑さについて説明しました。
「信号を取得し、抽出し、背景の雑音や親の話し声などから分離する必要があります。」
スウィンバーンのレオン・スターリング
これらの問題のほとんどは既に前例があるが、GetTalkingにはさらなる機械学習が必要だ。例えば、アプリに対する子供の関与度合いを測定するといったことだ。「動画の文字列と音声の文字列をタグ付けするなど、観察能力に注目する必要がある」
チームは、アプリは言語療法士や親の代わりになるものではなく、あくまでもサポートするだけだと理解しています。そして、それが「子どもが理学療法士とどのように関わっているかという知識を組み込む」といった新たな複雑さを生みます。「子どもがアプリを操作する際には、その発達段階を理解する必要があります。」