ポッドキャストのスター、ジョー・ローガンが何か愚かなことを言ったら、それは彼のせいではないかもしれない。AIが彼の声を複製したのだ。

Table of Contents

ポッドキャストのスター、ジョー・ローガンが何か愚かなことを言ったら、それは彼のせいではないかもしれない。AIが彼の声を複製したのだ。

ビデオAI ソフトウェアは不気味なものになり得るということを定期的に思い出させてくれるもう 1 つのビデオです。

企業による機械学習の利用を支援することに注力する AI スタートアップ企業 Dessa のエンジニアたちは、人気のポッドキャスト番組「The Joe Rogan Experience」の司会者ジョー・ローガン氏の声を複製することに成功した。

デッサ氏はこれを「これまで聞いた中で最もリアルなAI音声シミュレーション」と評したが、その通りだ。コンピューターが人間の声を模倣した過去の映像は、最悪でもロボットっぽく粗いもの、あるいはよく言ってもかなりリアルだが非常に短いものだった。しかし、今回の最新の試みは実に印象的だ。

ここに、偽ジョー・ローガンがチンパンジーで構成されたホッケーチームのスポンサーになったり、脳をインターネットに接続して医療の専門家になったりといった馬鹿げた話をしているいくつかの例を挙げます。

YouTubeビデオ

ジョー・ローガンは模倣しやすいターゲットだ。彼は自身のトークショーを1,300回近く録音しており、それぞれが少なくとも2時間以上続くため、学習データとして使える音声データは豊富にある。デッサ社は、RealTalkと呼ばれるディープラーニングシステムの仕組みについて、まだ多くの詳細を明らかにしていない。レジスター紙はデッサ社にコメントを求めている。

「このようなことに責任を持って取り組むためには、オープンソースとして何かを公開する前に、まず音声合成モデルがもたらす影響について一般の人々に理解してもらう必要があると考えています。そのため、現時点では、私たちの研究、モデル、データセットを公開することはありません」と、同社は今週発表しました。

RealTalk は、オーディオ信号を入力として処理し、サンプルを出力として生成することで、人々の話し方の独特な方法を模倣することを学習した、ある種のニューラル ネットワークである可能性が高いです。

偽の口ひげの変装

耳を貸してください。AIがあなたの脳を操ります。機械音声模倣者が私たちを凌駕します。

続きを読む

「今のところ、RealTalkのようなモデルをうまく機能させるには、技術的な専門知識、創意工夫、計算能力、そしてデータが必要です。ですから、誰でもすぐにできるわけではありません。しかし、数年後(あるいはもっと早く)には、地球上の誰の声でも、ほんの数秒の音声だけで、まるで生きているかのようなレプリカを作成できるほど技術が進歩するでしょう」とデッサ氏は警告した。

RealTalk のようなツールは、ロボコールを改良して人々から金銭を騙し取ったり、政治家に事実と異なる発言を強要するなどの偽のコンテンツを拡散したりするために使われる可能性もあることは想像に難くありません。

しかし、DeepMindのWaveNetモデルがGoogleアシスタントの音声として使用されているように、それらは役に立つこともあります。また、入力が苦手な人がスマートフォンやノートパソコンなどのデバイスをより簡単に使用するのに役立っています。

「この技術を倫理的に構築する方法について、すべての答えを持っているとは言いません。とはいえ、今後数年間で、この技術は必然的に構築され、私たちの世界にますます導入されていくと考えています。そのため、これらの問題への意識を高め、認識を高めることに加えて、この研究を、音声合成に関する議論を始めるための手段として提示したいと考えています。」と付け加えています。®

Discover More