新たな研究によると、査読済みの早産予測機械学習システムの多くは、当初考えられていたほど正確ではないことが驚くほど多くある。
ベルギーのゲント大学の博士課程学生、ジル・ヴァンデウィール氏とその同僚たちは、非侵襲性子宮電気記録(EHG)測定を用いて人工知能が早産をどの程度正確に予測できるかを調査している際に、これらの欠点を発見した。早産とは妊娠37週未満を指し、EHGとは子宮筋の電気活動を指す。
研究チームは、Physionet上のEHGデータセットを特定し、24件の公開研究で早産予測ソフトウェアの学習に使用されました。各データセットを分析した結果、11件の論文で学習データとテストデータが混在しており、その結果、精度スコアに大幅な誤りが生じていることが分かりました。
ヴァンデウィール氏、ゲント大学病院のイザベル・デハーネ博士、ハンガリーのアナリティカル・マインズのデータサイエンティスト、ジョルジ・コヴァクス氏を含むチームは、今月初めにプレプリントサービスArxivで研究結果を発表した。
調査対象となった各研究は、驚くべき結果を報告しました。ある分類器は、EHGデータから早産を99.44%の確率で正確に予測できたようです。また、大多数の分類器は94%を超える精度を示しており、これは驚異的な成功率です。しかし、Vandewiele氏と彼のチームが結果を再現しようとしたところ、あまりにも良すぎて真実とは思えないことが判明しました。
問題は、いわゆるオーバーサンプリングから始まりました。データセットはわずか300人の患者を対象としており、そのうち早産したのはわずか38人でした。データセットをより包括的にするため、11のチームが早産女性の記録を捏造し(オーバーサンプリングと呼ばれる手法)、データに挿入しました。
オーバーサンプリングは必ずしも悪いことではありません。多くのAI研究者が、トレーニングデータの多様性を高めるためにオーバーサンプリングを活用しています。しかし、今回の11のケースでは、研究者たちはトレーニングだけでなくテストにも偽の記録を含めていました。
人工データは、早産を記述した38件というごくわずかなサンプルから生成されるため、どれも互いにかなり似ています。そのため、これらの偽のエントリでモデルを訓練・テストすると、まるで既に答えを知っている試験問題でテストを受けているようなものです。実際、試験には非常に似たような問題がたくさんあり、それらすべてに答えを知っているようなものです。
だからこそ、モデルは非常に優れているように思えたのです。この種のテストで優秀な成績を収めるのは簡単だからです。
「モデルは、トレーニング段階で見たものと非常によく似たサンプルをテストで見るため、モデルにとっては非常に簡単になります」とヴァンデウィール氏は木曜日にThe Registerに説明した。
言い換えれば、モデルはEHGデータにおいて早産の兆候となる可能性が高い特徴や変数を学習する必要はなく、それらを記憶するだけで済むのです。「これまで十分な研究が行われていない分野でほぼ完璧な結果が報告された場合、懐疑的になることをお勧めします」と彼は付け加えました。
ゴミを入れればゴミが出る
彼のチームが11本の論文それぞれで説明されているモデルを再現し、テストデータセットから人工データを除外したところ、精度が劇的に低下したことが判明した。90%を超えていたスコアが突然50%程度にまで低下し、最も優れた2つのモデルでも60%強の精度しか得られなかった。
「データ漏洩は起こりやすいミスです。しかし、簡単なステップでパフォーマンスが60%から99%に向上するのを見ると、疑念を抱かざるを得ません」とヴァンデウィール氏は述べた。
これはよくある間違いですが、研究を発表する際に見過ごすべきではありません。何が間違っていたのかを考えるべきです。なぜなら、そのような飛躍はあり得ないからです。現状では、結果はあまり良くありません。このデータセットで訓練されたモデルは、臨床現場で使用すべきではありません。十分な品質とは言えません。
11本の論文は、電気電子学会(IEEE)、PLOS ONE、Science Directなどの様々なジャーナルに掲載されました。この種のデータ漏洩は、Natureのようなより権威のあるジャーナルでさえも見逃されてきました。
「新しい」「AI」「〜のための」「その」「物理的な」「世界」「加速する」「Facebook」という言葉が怖いなら、この見出しをクリックしてください。
続きを読む
しかし、ヴァンデウィール氏は依然として機械学習が早産リスクを予測できると期待している。彼は、ニューラルネットワークが過去の論文で使用された分類器よりも優れた結果を出せる可能性があると考えている。
「機械学習を使えば早産を研究できる可能性はまだあるが、そのデータセットや方法論を使わないとできない」と彼は意見を述べた。
これらの手法はすべて、特徴量や変数をハードコードしますが、ディープラーニングを使用すれば、それらの特徴量を手動で抽出する必要はありません。ニューラルネットワークは、それらの特徴量の表現を自動で算出します。解釈可能性は低くなりますが、作業量を大幅に削減できます。ニューラルネットワークはハードコードされた特徴量よりも優れた特徴量を見つけるため、多くの場合、パフォーマンスが向上します。
「研究者は論文と一緒にコードを提供するべきだ。そうすれば人々はそれを再現し、それが正しいかどうかを確認できる。」
ヴァンデウィール氏のチームが論文を分析するために使用したコードはこちらでご覧いただけます。11本の論文それぞれについて、第一著者にコメントを依頼しており、回答が得られ次第お知らせいたします。®