百度のAI研究者らは、ニューラルネットワークだけに頼らない手法を使って乳房組織内の癌性腫瘍を発見できるアルゴリズムを開発した。
畳み込みニューラルネットワーク(CNN)はパターンマッチングに優れているため、医療スキャン画像における癌細胞の潜在的なクラスターの検出に役立ちます。しかし、CNNはボディスキャン画像のような巨大な高解像度画像ではそれほどうまく機能しません。
ネットワークは画像を例えば256ピクセルの正方形に分割し、1つずつ処理します。この方法は、非常に大きな画像には対応できません。ソフトウェアは隣接する正方形の内容を考慮するのではなく、非常に狭い視野でブロックごとに物体を検査することになるからです。その結果、誤検知などの望ましくない予測結果が生じるのです。
百度のアルゴリズム(来月アムステルダムで開催されるMedical Imaging with Deep Learningカンファレンスに提出された論文で詳細が説明されている)は、検査対象の各パッチの周囲のピクセルを考慮した画像化手法を用いることで、誤検知を最小限に抑えようとする。このシステムは、ニューラル条件付きランダムフィールド(NCRF)と呼ばれる手法、つまりCNNに条件付きランダムフィールド(CRF)を貼り付けたものを使用している。
有名な
「条件付きランダムフィールドは、パターン認識や機械学習でよく適用される統計モデリング手法の一種で、構造化予測で最もよく知られています」と、論文の共著者で中国の巨大テクノロジー企業百度の研究科学者であるイー・リー氏は月曜日にThe Registerに語った。
構造予測とは、モデルが個々の独立したラベルを予測するだけでなく、ラベル間の統計的な相関関係や構造を捉えようとすることを意味します。私たちの場合、構造とは3x3グリッド内の隣接するパッチ間の空間的な相関関係を指します。
まず、ResNet-18およびResNet-34モデルから構築されたCNNが、入力として画像パッチのグリッドを評価し、各パッチをベクトルに変換します。次に、CRFがこの情報を用いて、画像の特性と空間相関をモデル化します。これは基本的に、特定のパッチを囲むピクセルに見られる手がかりから、その正方形に癌細胞が含まれている可能性を推測するものです。
医療AIシステムは詐欺やエラーの標的になりやすいので注意しましょう
続きを読む
「NCRFは、膨大な数の腫瘍画像パッチと正常画像パッチを観察し、それらを区別するために有用な視覚的特徴を抽出するように訓練されています」とLi氏は述べた。「例えば、腫瘍細胞は有糸分裂段階においてより活発な傾向があり、その核はより明るく見えます。一般的なCNNと比較して、NCRFはこれらの有用な特徴を抽出する際に、単一の画像パッチだけでなく、その周囲のパッチも考慮します。」
研究者らはCamelyon16データセットを用いてNCRFシステムを学習させた。このデータセットには、学習用に正常スキャン画像160枚と癌腫瘍スキャン画像110枚、そしてテスト用に良性腫瘍スライド81枚と悪性腫瘍スライド49枚が含まれている。
システムは、自由回答受信者操作特性(FROC)スコアに基づいて評価されます。FROCスコアが高いほど、癌腫瘍の発見能力が高いとされます。NCRFのFROCスコアの平均最高値は0.8096で、専門病理医の0.7240を上回りました。ただし、これらのベンチマークは鵜呑みにすべきではありません。スコアは限られたデータセットに基づいており、1人の専門医のスコアと比較されているからです。
このアルゴリズムはオープンソース化されており、他の開発者がコードを自由に試すことができます。研究者たちは、アルゴリズムのテストのために、より多くの病理標本を入手するために病院との協力も進めています。
「私たちのアルゴリズムがこれらの新しい異なるデータセットでも高い精度を維持できれば、臨床現場への適用を検討するかもしれません」とLi氏は結論付けました。®