新たな研究によると、AIは放射線スキャンに基づいて臨床診断を行う準備が整っていない。
研究者たちは、視覚モデルやマルチモーダルモデルが画像を非常に正確に認識できるため、放射線医学はAIが変革をもたらす可能性を秘めた分野であるとしばしば示唆しています。十分な訓練を受ければ、AIモデルはX線画像やコンピュータ断層撮影(CT)スキャン画像を医療専門家と同等の精度で読影できるはずだという仮説が立てられています。
この仮説を検証するために、ジョンズ・ホプキンス大学、ボローニャ大学、イスタンブール・メディポル大学、イタリア工科大学に所属する研究者らは、まず視覚言語モデルを評価するためのより優れたベンチマークテストを構築する必要があると判断した。
これにはいくつかの理由があると、Yixiong Chen、Wenjie Xiao、Pedro RAS Bassi、Xinze Zhou、Sezgin Er、Ibrahim Ethem Hamamci、Zongwei Zhou、Alan Yuille の各著者は、「視覚言語モデルは臨床診断に対応できるか? 腫瘍中心の視覚的質問回答のための 3D 医療ベンチマーク」と題するプレプリント論文 [PDF] で説明しています。
第一の理由は、既存の臨床データセットのほとんどが比較的小さく、多様な記録が欠けていることであり、科学者たちは、これが専門家がデータに注釈を付けるために必要な費用と時間に起因すると考えています。
第二に、これらのデータ セットは 2D データに依存することが多いため、AI が学習するための 3D CT スキャンが存在しない場合があります。
第三に、BLEU や ROUGE [PDF] などの自動評価機械学習モデルのアルゴリズムは、短く事実に基づいた医学的な回答に対してはそれほどうまく機能しません。
さらに、既存のデータセットでは、さらなる研究には利用できない個人の機関データが使用されている場合があります。
そこで著者らは、CT スキャンにおける腹部腫瘍に焦点を当てた診断用視覚的質問応答 (VQA) ベンチマークである DeepTumorVQA を開発しました。
DeepTumorVQA は、17 の公開データセットからの 9,262 CT ボリューム (370 万スライス) に基づくベンチマーク テストであり、認識、測定、視覚的推論、医学的推論の 4 つのカテゴリにわたる 395,000 の専門家レベルの質問によってサポートされています。
- AIモデルの崩壊の兆候が現れ始めている
- ブラウザ・カンパニーがAI搭載のDiaに大賭け、Arcは凍結
- AIエージェントはあなたの美しいウェブサイトや魅力的な広告には関心がありません
- 元Meta幹部:著作権同意義務=AIビジネスの終焉
23名の認定放射線科医が、患者の肝臓、腎臓、膵臓、結腸から撮影した3D画像に描かれた7,629個の病変に、6ヶ月かけて手作業で注釈を付けました。その後、注釈を再確認し、合意形成を図りました。病変とは、スキャン画像で異常に見える組織のことです。診断によって良性か悪性かが判断される可能性があります。
ベンチマーク データを手に、研究者たちは医療向けに設計された 5 つの視覚モデル (RadFM、M3D (1 つは Llama2 ベース、もう 1 つは Phi-3 ベース)、Merlin、CT-CHAT) の評価に着手しました。
DeepTumorVQA の質問を示すチャート - クリックして拡大
著者らは、これらのモデルを 4 つのカテゴリーで評価しました。臓器と病変の体積測定の精度、病変などの特徴が存在するかどうかを認識する能力、視覚情報に基づいて推論する能力 (例: 2 つの腎臓のうちどちらが大きいか)、医学的推論 (例: 特定の病変が良性の嚢胞であるか悪性腫瘍であるかを識別する) です。
ベターリッジの見出しの法則に従い、「視覚言語モデルは臨床診断の準備ができているか?」という質問に対する著者の答えは「いいえ」です。
モデルは測定タスクではランダム推測よりも大幅に優れたパフォーマンスを発揮しましたが、自由形式の質問ではなく複数選択の質問が提示された場合のカウントタスクでは優れたパフォーマンスを発揮しました。
認識課題はそれほど目立った成果ではなかった。モデルはいずれも病変、嚢胞、腫瘍の存在を65%から86%の成功率で正しく認識できた。しかし、研究者たちは、その回答が微妙な視覚的手がかりを考慮していないことを発見した。
視覚的推論に関しては、モデルは複数ステップのタスクをかなりうまくこなしたが、腎臓の容積の比較などのタスクでは苦戦した。研究者らは、この原因を「両側性推論と正確な位置特定が困難」であることに帰している。
また、テストされたモデルは医学的推論で最も問題を抱えていた。研究者らによると、医学的推論ではトレーニングデータには見られない情報を統合する必要があるためだという。
「全体的に、現代の VLM は基本的なタスクや認識重視のタスクでは有望性を示しているものの、視覚信号の弱さ、数値処理能力の信頼性の低さ、推論チェーンの浅さなどにより、現実世界の診断への適用性は現時点では制限されている」と著者らは結論付けている。
AI は臨床医のサポート役として役立ちますが、医療専門家の判断に取って代わる準備はまだ整っていません。®