簡単に言うと、 OpenAI の画像生成モデル DALL·E 2 は、遊んでみると楽しいかもしれないが、よくある固定観念や偏見が見られ、NSFW 画像を作成する可能性があるため、現実世界での展開にはリスクがあると専門家は警告している。
「十分なガードレールがなければ、DALL·E 2のようなモデルは、様々な欺瞞的、あるいは有害なコンテンツを生成するために利用される可能性があり、人々がコンテンツの信憑性をどのように認識するかという点に広く影響を与える可能性があります」と、この新興企業は認めている。「さらに、DALL·E 2はトレーニングデータから様々なバイアスを受け継いでおり、その出力は社会的な固定観念を強化することもあります。」
DALL·E 2によるデジタルアート作品「異次元への入り口」
例えば、「客室乗務員」という単語を含むプロンプトでは、モデルは女性の画像を生成する傾向がありますが、「建設業者」という単語では主に男性の画像が表示されます。しかし、ガーディアン紙によると、懸念されるのはそれだけではありません。
DALL·E 2は現在、テスト目的で選ばれた開発者とアーティストにのみ提供されています。OpenAIは、テキスト生成システムGPT-3のような商用APIとして公開する前に、このツールの動作を確認し、リスクレベルを評価したいと考えています。
AIは物理的な世界についての理解をテキストで表現できるでしょうか?
MIT の研究者たちは、テキストを使用してビデオやオーディオデータに自動的に注釈を付けるニューラル ネットワークをトレーニングしました。
アメリカの大学のコンピュータサイエンスと人工知能研究所の大学院生であるアレクサンダー・リュー氏は、このプロジェクトは機械に複数のデータ形式をよりよく理解することを教えるものだと語った。
「ここでの主な課題は、機械がどのようにしてこれらの異なるモダリティを統合できるかということです」とリュー氏は声明で述べた。「人間にとってはこれは簡単です。車を見て、車が走る音を聞けば、それが同じものだと分かります。しかし、機械学習にとっては、それほど単純ではありません。」
Liu氏と彼の同僚は、生データを取り込み、サンプルの特徴を数値配列にエンコードするシステムを訓練しました。これらのデータポイントは、特定の行動を説明する様々な単語を表しています。限られた数の動画で訓練されたモデルは、1,000語の中から行動を説明する単語を選択できます。例えば、赤ちゃんがすすり泣いている映像と音を検出した場合、モデルは動画に「泣く」という動詞を正しくラベル付けするはずです。
AIは、テキストのような1種類のデータ処理に限定されると、現実の物理世界に関する知識を欠いてしまいます。研究者たちは、機械に物体を認識し、概念を言語で表現する能力を与えることで、将来的にはロボットが環境をより深く理解できるようになると考えています。このプロジェクトに関する論文はこちらでご覧いただけます。
SoundCloud、ヒット曲を予測する音楽AIスタートアップを買収
インディーズ音楽プラットフォームのSoundcloudは今週、自動的に曲を聴いて人気が出るかどうかを予測する機械学習ソフトウェアを開発するMusiioを買収したと発表した。
ミュージシャンはSoundCloudに楽曲をアップロードすることができ、注目を集めレコード契約を獲得したミュージシャンもいます。SoundCloudはSpotifyやApple Musicといった他の主要プラットフォームに比べてキュレーションが緩く、リスナーは好みの音楽を見つけるためにより多くの探索をする必要があります。SoundCloudはMusiioのツールによってこのプロセスが容易になることを期待しています。
「SoundCloudは、地球上のどのプラットフォームよりも多くのクリエイターによる音楽をホストしています」と、同社の社長は声明で述べた。「Musiioの買収は、音楽が独自の方法でどのように動いているかをより深く理解するという当社の戦略を加速させ、これは当社の成功にとって極めて重要です。」
Musiioは、オーディオトラックを処理して特定の曲の特徴を抽出し、テンポやエネルギーなどを分析してジャンルやサウンドを自動的に分類できるニューラルネットワークを構築しました。これにより、SoundCloudのリスナーが既に好んでいる曲に基づいてプレイリストを自動キュレーションし、これまで出会ったことのない新しいアーティストを発見できるようになるとMusiioは主張しています。®