機械学習モデルの世界では、シグナルを送るためのノイズが数多く存在しますが、このデモは実に印象的です。あるいは、MRI スキャナーに趣味で登る習慣のある人にとっては、恐ろしいものかもしれません。
この新たな研究は、大阪大学大学院生命機能研究科(FBS)の西本真司教授と高木優助教が共著した「ヒト脳活動からの潜在拡散モデルを用いた高解像度画像再構成」と題された論文で発表されています。研究者たちは、数十億ドル規模のスタートアップ企業であるユニコーン企業Stability AIが開発したオープンソースの潜在変数モデル「Stable Diffusion」に、fMRI脳スキャンデータを読み込む方法を発見しました。
結果は、控えめに言っても驚くべきものだ。fMRI脳スキャンの出力(私たちの目にはランダムノイズに非常に近いように見える)を、研究者たちの限定拡散モデルで提示すると、以下のことがわかる。
プレプリント論文には、復元された5枚の画像が掲載されている。蝶ネクタイをつけたテディベア、並木道、着陸(あるいは離陸の可能性もある)するジェット旅客機、ゲレンデを走るスノーボーダー、そして先細りの時計塔だ。一致度はまちまちで、6枚目の蒸気機関車の画像は鮮明度が低いものの、研究者が結果の中から最良のものだけを選んだとしても(当然そうするだろうと思われる)、驚くほど良好な一致度を示している。
研究者たちは、モデルのソースコードは「近日公開」される予定だと述べている。入力データは、ミネソタ大学が公開している自然風景データセット(NSD)にスキャン画像が保存されている8人のボランティアのうち4人であり、論文に掲載されているサンプル画像は1人のボランティアによるものだ。
Stable Diffusion 自体は、テキストの説明を受け取り、ほんの数語から非常にリアルな画像を生成することで有名になりました。また、単語を慎重に選択すれば、テキストはモデルのトレーニングに使用された元の画像を想起させることができます。
したがって、これは厳密にはコンピューターが人の心を読むというわけではありませんが、例えば2021年に私たちが報告した、この方向での以前の取り組みと比べて、はるかに優れた結果をもたらします。論文の内容を正しく理解すれば、彼らは安定拡散法を用いて、学習データベースの要素を組み込むことで復元画像を改善していることがわかります。比較のために言うと、約12年前に発表されたベイズ統計とモデリングを用いた同様の論文[PDF]では、認識可能な画像がいくつか生成されましたが、品質は大幅に低下していました。
- このアプリは、テキストから画像へのAIモデルがアーティストを騙すのを阻止できる可能性がある
- 宇宙旅行は、地球に戻ってからも宇宙飛行士の脳のサイズを大きくする、と公式発表されました。
- もう一杯飲む時間?お茶を飲む人は頭が良い、とさらに頭が良い科学者たちが言う
- ディープラーニングアルゴリズムを医療スキャンの修正に利用するのはやめよう。「非常に不安定な」技術が誤った診断につながると科学者が警告
過去に報告したように、fMRI 研究の主張は長らく議論の的となってきましたが、これは機械学習やニューラル ネットワーク アルゴリズムが最も効果を発揮できる分野です。つまり、非常に微弱な信号を見つけ、それを膨大な画像ライブラリと相関させてマッチングさせ、簡単に認識できる結果を生み出すのです。
機能的MRIは磁気共鳴画像法(MRI)、あるいは「Nワード」が人々を怖がらせることに科学者たちが気づく以前は核磁気共鳴画像法と呼ばれていたものの一種です。MRIで使用されるスキャナーは非常に大型で(そしてこのハゲタカは、複数の装置に乗った経験から、非常に大きな音を発していたと断言できます)、騒音の大きい装置です。通りの向こうからパラボラアンテナを頭に向け、あなたの考えを読み取る人はいません。しかし、まずいくつかの免責事項に署名し、巨大なドーナツ型の磁石が頭の周りを回転する間、頭を固定したまま1時間横たわっていれば、確かに、この種の技術によって、あなたが見ている画像が何なのかを判別できるかもしれません。
MRI - クリックして拡大
両教授の研究成果については、bioRchivプレプリントサーバーで概要または11ページの論文全文(PDF)をご覧いただけます。両教授は、6月にバンクーバーで開催される今年のCVPRで研究成果を発表する予定です。®