研究:糖尿病性眼疾患の瞬きを現実世界で検出するように設計されたAIは、医師の作業を増加させる

Table of Contents

研究:糖尿病性眼疾患の瞬きを現実世界で検出するように設計されたAIは、医師の作業を増加させる

米国の科学者らによると、糖尿病による眼の損傷を検知するよう訓練された多くのAIプログラムは、臨床試験では明らかに優れているにもかかわらず、現実世界では一貫したパフォーマンスを発揮するのに苦労しているという。

ワシントン大学医学部を中心とする研究者たちは、5社の7つのアルゴリズムをテストしました。5社とは、アメリカのEyenukとRetina-AI Health、中国のAirdoc、ポルトガルのRetmaker、フランスのOphtAIです。これらのモデルはすべて臨床試験を経ており、糖尿病網膜症の診断に使用されている、あるいは使用できる可能性があります。糖尿病網膜症は糖尿病の合併症で、眼の血管を損傷し、視力低下や失明につながります。

研究チームは、独自のテストで少なくとも一部のソフトウェアパッケージに欠陥があることを発見したと述べ、今月、その結果を「Diabetes Care」誌に発表した。

「これらのアルゴリズムの一部は、世界のどこかで使用されているにもかかわらず、一貫して機能していないというのは憂慮すべきことだ」と、同大学の眼科助教授で主任研究者のアーロン・リー氏は述べた。

医者

優秀な医師らが、超人的な癌発見AIの驚くべき主張を裏付けていないとしてGoogleを非難

続きを読む

研究チームは、2006年から2018年にかけてシアトルとアトランタの病院で23,724人の患者から撮影された311,604枚の写真データセットを用いてコードをテストしたところ、これらの患者に対するソフトウェアの診断結果の一部が標準以下であることを発見した。アルゴリズムの判断を実際の医師の診断結果と比較したところ、3つのアルゴリズムはまずまずの結果を出し、そのうち1つだけが人間の専門家と同等の診断結果となり、残りはそれよりも劣っていたと研究チームは述べた。

AIモデルは患者の疾患の有無を過剰に予測する傾向があったと、リー氏はThe Register紙に語った。安全第一に考えても、このシステムでは患者を専門の眼科医による診察の対象としてしまうことが多かった。このソフトウェアは、疾患のない患者を除外することで眼科医の負担を軽減するどころか、むしろ負担を増大させてしまうのだ。

「残念ながら、研究設計上、どの企業がどのアルゴリズムを提供したかを明らかにすることはできません」とリー氏は付け加えた。「しかし、これらのアルゴリズムはすべて、世界のどこかで臨床的に使用されていると理解しています。」

アトランタの画像では、プログラムの精度が向上したと聞きました。これは、パフォーマンスがデータの質に大きく依存していることを示しています。「パフォーマンスに差が生じた理由の一つは、アトランタではスクリーニング時の画像品質に関する厳格なプロトコルが採用されていることにあると考えています」とリー氏は語りました。「これは、AIモデルが人間よりも画像品質の問題に敏感である可能性を示唆しています。」

研究者たちは、医療アルゴリズムは一般公開前に、より大規模な実世界のデータセットで評価されるべきだと提言した。「AIアルゴリズムはすべて同じように作られているわけではなく、データセットのバイアスを再現できる可能性もあるが、必ずしもそうではない」とリー氏は警告した。

それで、それらは安全に使用できるのでしょうか?

エアドック社は調査についてコメントを拒否し、レトメーカー氏もエル・レグ氏の質問には回答しなかった。

Retina-AI HealthのCEO兼創設者であるスティーブン・オダイボ氏は、研究者の実験はソフトウェアの実際の使用状況を反映していないと考えていると述べた。アルゴリズムのテストに使用された画像は、人間の目の基本的な写真だったが、通常の使用では、アプリケーションには高品質の網膜スキャン画像が提供されると彼は主張した。このことが、プログラムに不当な不利益を与えていると彼は主張した。

「これは、これらのAIアルゴリズムが開発され、その後FDA承認のための前向き臨床試験で臨床的に検証されたユースケースとはまったく異なるシナリオだ」とオダイボ氏は、米国の医療監視機関である食品医薬品局に言及して述べた。

「FDAに対して証拠に基づく勧告を行うには、医療機器の使用適応症と使用目的を反映した研究を設計する必要がある。」

FDAの認可を受けたシステムは、ワシントン大学の研究よりも厳格な前向き臨床試験の検証をすでに受けているというのが私たちの見解です。

この研究に参加しているもう一つの米国企業、Eyenukの社長兼最高顧客責任者であるフランク・チェン氏は、研究者らが行った実験は、FDA承認後のシステムの試験方法と完全には一致していないことに同意した。「FDA認可を受けたシステムは、ワシントン大学の研究よりも厳格な前向き臨床試験による検証を既に受けており、撮影者と撮影プロトコルのトレーニングが行われている限り、追加のテストは不要だというのが私たちの見解です。…実際の臨床現場では、EyenukのようなFDA認可を受けたシステムはカメラと一体化されており、撮影者は使用する撮影プロトコルについてトレーニングを受けています。」

チェン氏は、「アイエヌクのアイアートAIシステムは、すぐにでも本格的な臨床使用に供することができる状態にある」と述べ、「研究分析は概ね適切に実施された」と考えていると語った。

OphtAIのCTO、ブルーノ・レイ氏はThe Registerに対し、研究グループの結論は妥当だと述べた。レイ氏は、OphtAIのアルゴリズムはテストされた7つのアルゴリズムの中で最高か2番目に優れていると評価され、テスト対象となった5社のうち3社の技術は、実社会での使用にはまだ十分ではない可能性が高いと主張した。

「実験は非常に困難でした」と彼は語った。「テストに使用した画像の品質については全く把握していませんでした。データセット全体をわずか3日間で処理することができ、私たちのシステムはすでにフランスの病院で利用可能です。」

糖尿病網膜症は、医療AI研究において広く研究されている分野です。Google、Verily、DeepMindなど、Alphabet傘下の複数の企業は、機械学習ソフトウェアが網膜スキャン画像を自動的に分析する方法を実証しました。®

編集者注:この記事の以前のバージョンでは、Retina-AIのスティーブン・オダイボ氏が、テストデータには運転免許証の写真のような低品質の画像が含まれていると述べていました。しかし、CEOはその後、自身の誤りを認め、これらの画像はテストには使用されていないとしています。

一方、主任研究員のアーロン・リー氏は、これらの画像は「遠隔網膜検査プログラム」から得られたもので、「顔写真や運転免許証の写真は含まれていない」と述べた。また、リー氏はAIアルゴリズムの開発者には「これらの画像へのアクセス権は与えられていなかった」と主張した。

Discover More