百度の研究者らが発表した論文によると、人工知能ソフトウェアは、誰かの声を数回聞くだけで、その人とまったく同じように、まるで不気味なサイバー九官鳥のように話すことができるという。
この技術が完成すれば、実際には言っていないことを偽の音声クリップとして生成するのに最適です。Red DwarfのKrytenの言葉を借りれば、これは恐喝の「B」レベルに分類すべきでしょう。
中国のインターネット大手、百度のAIチームは、テキストからリアルな音声を生成する研究でよく知られています。今週発表された最新の研究プロジェクトでは、生成モデルが人の声の特徴を学習し、その音声を再現して全く別の言葉を話させる手法が示されています。
最初の例、つまり元のクリップでは、女性の声が「地方紙は全国紙を上回っている」と言っているのが聞こえます。この声がクローン化された後、彼女は「大きなものは処分するためにコンテナに入れなければなりません」と言っているように見えます。
ご覧の通り、結果は完璧ではありません。モデルから生成された最高のクリップでさえ、ノイズが多く、元の音声よりも品質が低いです。しかし、研究者が開発した「ニューラルクローニングシステム」は、イギリス訛りを維持し、かなり似た音声を実現しています。
研究者らは、ニューラルクローニングシステムの構築に、話者適応と話者エンコーディングという 2 つの異なるアプローチを導入しています。
話者適応は、様々な声を持つ様々な話者を用いてモデルを訓練することを意味します。研究チームは、2,484人の話者を含むLibriSpeechデータセットを用いてこれを行いました。システムは、人の発声から特徴を抽出し、発音やリズムの微妙な細部まで模倣することを学習します。
エイアイ!Googleコードが網膜を観察することで「心臓病を予測」
続きを読む
スピーカーエンコーディングでは、スピーカーからの特定の音声埋め込みを学習するようにモデルをトレーニングし、多数のスピーカーでトレーニングされた別のシステムを使用してオーディオサンプルを再現します。
LibriSpeechで学習した後、別のデータセットから任意の話者から最大10個の音声サンプルを取得します。VCTKには、異なるアクセントを持つ109人の英語ネイティブ話者の音声クリップが含まれています。基本的に、LibriSpeechデータセットの音声で学習した後、VCTKデータセット内の話者から新しい音声をコピーする必要があります。
論文の共著者であり、百度研究の研究者であるセルカン・アリック氏は、The Registerに対し、話者適応技術に比べて、話者エンコード方式はデジタルアシスタントなどの話者にとって実際の生活に実装するのがはるかに簡単だと説明した。
「話者適応アプローチでは、ユーザーは与えられたテキストから特定の発話を読み上げる必要がありますが、話者エンコーディングはランダムな発話で動作します。つまり、話者適応は多くのユーザーにスケールアップするのがより困難であるため、ユーザーデバイスへの導入は容易ではない可能性があります。一方、話者エンコーディングは、高速でメモリ要件が低いため、導入がはるかに容易で、スマートフォンにも導入可能です。」
AIが操作されて偽情報を拡散する可能性があるという考えは、業界の多くの人々にとって深刻な懸念事項です。機械学習が悪用される可能性について専門家委員会がまとめた100ページに及ぶ報告書は、フェイクニュースの将来に関する議論を活発化させています。
Baidu の最新の研究によれば、偽の音声を生成することは可能だが、現在のパフォーマンスはまだ人間を騙すほど十分ではないという。
アリック氏は、より高品質で多様性のあるデータセットが最終結果を改善する一つの方法だと述べた。彼は「音声複製ディープラーニングモデル自体にはまだ改善の余地がある」と強調し、論文では「人間の声と区別がつかないような製品レベルの品質の結果が得られたとは現時点では主張していない」と述べた。
しかし、悪いニュースばかりではありません。音声クローン技術は、善意の目的にも利用される可能性があります。
「例えば、お母さんは自分の声でオーディオブックリーダーを設定すれば、自分がいない時に子供たちに寝る前に物語を読んで聞かせることができます。しかし、この技術が進化し普及するにつれて、この技術が悪用され、意図された通りに使用されないようにするための予防措置や対策を講じる必要があると考えています」と彼は警告した。®