AIアルゴリズムは、医療画像から病気を診断する能力において、人間の医師と同等、あるいはそれ以上に優れているという誇張された主張に惑わされてはならない。これは、水曜日にブリティッシュ・メディカル・ジャーナルに掲載された研究によるものだ。
インペリアル・カレッジ・ロンドンを率いる研究グループは、深層学習アルゴリズム(主に畳み込みニューラルネットワーク)を適用し、がんから緑内障まで様々な疾患の一般的な兆候や症状を人々の医療記録から探る査読済み論文91件を研究した。10件の研究は身体実験に基づいており、残りの81件は純粋に学術的な研究だった。
これら81本の論文のうち、実に69本は、乳房の癌性腫瘍の発見や肝組織の肝硬変瘢痕の発見など、特定の問題への適用においてAIが臨床医よりも優れている、あるいは少なくとも同等の性能を発揮すると豪語していた。機械よりも優れていると認めた医師はわずか2人だけで、14本の論文は機械学習モデルが人間の診断を支援できる可能性があると述べている。
こうした研究に、コンピューターが実際の人間の医師よりも正確であると主張する派手な見出しが付けられるのも不思議ではありません。しかし、細かい点までよく読んでください。こうした論文の多くは印象的な数値を報告しているかもしれませんが、検証は論文の著者自身が収集したデータセットに限定されていることが多いのです。81のAIアルゴリズムのうち、臨床現場で実際の患者データに適用されたのはわずか6つです。
ありがたいことに、COVID-19パンデミックを鎮圧するAIの救世主が登場しました。咳を検知できるニューラルネットワークです。
続きを読む
モデルの訓練とテストに使用されるサンプルサイズは、多くの場合小規模です。プライバシーへの懸念から、患者から実際の記録やボディスキャンを入手することが困難な場合が多く、場合によっては偽のデータが生成されることもあります。各アルゴリズムに対抗した人間の専門家の数は平均4人でした。
さらに厄介なのは、これらの研究は再現が非常に難しいことが多いことです。機械学習モデルに入力されたデータセットへの完全なアクセスは、研究の95%で利用できませんでした。アルゴリズム自体のコードも93%で欠落していました。主張や発見を検証し、それに基づいて構築することは事実上不可能です。
インペリアル・カレッジの研究者たちは、81件の研究のうち約3分の2が高度に偏っていた可能性が高いと推定している。その多くは「非ランダム化」であり、架空の患者であっても、年齢、性別、病歴の影響を考慮に入れていなかった。
「米国食品医薬品局(FDA)により医療用画像処理のためのディープラーニングアルゴリズムが少なくとも16種類販売承認されているにもかかわらず、米国で登録されたランダム化試験は1件しかなかった」とインペリアル・カレッジ・ロンドンの調査は述べている。
自動運転トラック開発責任者:「教師あり機械学習は期待に応えていない。C-3POではなく、洗練されたパターンマッチングだ」
続きを読む
ディープラーニングは魅力的で刺激的な技術であり、産業界や学界の投資家や開発者を惹きつけていますが、医療スクリーニングにおいて実際の医療専門家よりも優れていると主張するのはまだ時期尚早です。薬剤や医療機器が効果的であると判断されるまでには、臨床試験に何年もかかることが多く、機械学習コードでそれを短縮することはできません。
「現在、AIが臨床医と同等、あるいは臨床医よりも優れているという、誇張された主張が多く存在し、AIアルゴリズムが場合によっては数百万人の患者に適用されていることから、社会レベルで患者の安全と集団の健康にリスクをもたらしている」と論文は結論づけている。
「過度に約束する表現は、一部の研究が意図せずメディアや一般大衆を誤解させ、患者の最善の利益に沿わない不適切なケアの提供につながる可能性があることを意味する可能性がある。」
しかし、研究者たちは医療AI技術に完全に失望しているわけではない。この研究の共著者であり、高齢者向けヘルスケアに特化したスタートアップ企業Cera CareのCEOであるマヒベン・マルタップ氏は、The Register紙に次のように語った。
「機械学習は、堅牢な方法で開発され、適切に評価されれば、救急外来での患者のトリアージ方法から診断、処方箋の推奨、患者へのライフスタイル変更のアドバイスまで、医療の多くの部分に変革をもたらす可能性があります。
「医療システムが前例のない圧力に直面している今、安全かつ効果的な方法で提供されるこのようなソリューションは非常に貴重となる可能性があります。」®