今週ネイチャー・メディシン誌に掲載された論文によると、人工知能は人の顔写真を調べることで遺伝性疾患を特定できる可能性があるという。
この技術は、遺伝的疾患が人の健康、精神機能、行動に影響を与えるだけでなく、時に顕著な顔の特徴を伴うことがあるという事実に基づいています。例えば、ダウン症候群の人は、目が斜めに曲がっていたり、鼻や頭が平らだったり、歯の形が異常だったりする傾向があります。ヌーナン症候群のような他の疾患は、額が広い、目と目の間に大きな隙間がある、顎が小さいといった特徴で区別されます。お分かりいただけると思います。
米国に拠点を置くFDNAが率いる国際的な研究者グループは、遺伝子変異の研究に機械学習ソフトウェアを活用し、患者の顔写真から遺伝性疾患の診断を医師が行えるようになると確信している。
研究チームは17,106人の顔画像を用いて、コンピュータービジョンのタスクで一般的に用いられる畳み込みニューラルネットワーク(CNN)を学習させ、216の遺伝性症候群をスクリーニングした。画像は、公開されている医療参考ライブラリと、FDNAが開発したスマートフォンアプリ「Face2Gene」のユーザーが投稿したスナップ写真の2つのソースから取得された。
DeepGestaltと呼ばれるこのシステムは、画像が与えられると、人物の顔を研究し、目、鼻、口の大きさと形を記録します。次に、顔を領域に分割し、各部分をCNNに入力します。顔の各領域のピクセルはベクトルとして表現され、ニューラルネットワークが学習プロセス中に学習した遺伝性疾患に一般的に関連付けられる一連の特徴にマッピングされます。
DeepGestalt は各領域の症候群ごとにスコアを割り当て、その結果を収集して、提出された顔から推測される遺伝子疾患の上位 10 件をリスト化します。
DeepGestaltの仕組みの一例。まず、入力画像はランドマークを用いて分析され、様々な領域に分割された後、システムが上位10個の予測結果を吐き出します。画像クレジット:NatureおよびGurovichら
最初の答えは、DeepGestalt が患者が最も影響を受けていると考える遺伝性疾患であり、10 番目の答えは 10 番目に可能性の高い疾患です。
2つの独立したデータセットでテストしたところ、システムは上位10の候補から正しい遺伝性疾患を約90%の確率で正確に推測しました。一見すると、結果は有望に見えます。論文ではさらに、DeepGestaltが「3つの初期実験で臨床医を上回る成績を収めました。2つは標的症候群の患者を他の症候群と区別することを目的としており、もう1つはヌーナン症候群における異なる遺伝子サブタイプを分離することを目的としていました」と述べています。
いつも「しかし」がある
しかし、詳しく見てみると、この高尚な主張は、限られたデータセットでのシステムのトレーニングとテストを伴うものであることがわかります。つまり、ソフトウェアの快適ゾーンから外れ、見慣れない顔を見せると、おそらくそれほど良いパフォーマンスは期待できないということです。著者らは、以前の同様の研究で「トレーニングに使用したのは小規模なデータ、通常は最大200枚の画像であり、これはディープラーニングモデルにとっては小さい」と認めています。彼らは合計17,000枚以上のトレーニング画像を使用していますが、216の遺伝性症候群に分散させると、各症候群のトレーニングデータセットはかなり小さくなってしまいます。
例えば、ヌーナン症候群を検査したモデルはわずか278枚の画像で学習されました。DeepGestaltがテストされたデータセットも同様に小規模で、片方には患者画像が502枚しか含まれておらず、もう片方には392枚しかありませんでした。
Face2Genから取得したニューラルネットワークの学習とテストに使用した写真は保護されており、他の研究活動と共有できないため、結果を再現・検証することは困難です。さらに、公開されている参考資料に加え、実際の患者の顔画像を入手するのは倫理的に難しいため、独自のモデルをゼロから作成しようとすると、データセットが不足することになります。DeepGestaltの学習に使用した公開データセットは、このPDFの表6に記載されています。
本研究の筆頭著者であり、FNDAの研究員でもあるヤロン・グロヴィッチ氏は、The Register紙に対し次のように語った。「すべてのAIシステムは、最終的には何らかのベンチマークによって評価されます。私たちは2つの異なるベンチマークで評価を行い、そのうち1つを一般公開しています。研究者の皆様には、このベンチマークを詳しくご覧いただき、詳細なパフォーマンスをご確認ください。このトレーニングデータは、世界中の様々な場所から集められた実際の患者データで構成されているため、入手が困難です。」
さらに悪いことに、研究者たちはDeepGestaltがどのようにその答えを導き出したのかを実際には理解していない。「DeepGestaltは、多くの人工知能システムと同様に、その予測を明確に説明することができず、どの顔の特徴が分類を導いたのかに関する情報も提供していない」と研究チームの論文は述べている。
トレーニングデータセットとテストデータセットはどちらも主に白人系の顔で構成されており、アルゴリズムのパフォーマンスは他の人種の人では異なる可能性があります。「このシステムは幅広い民族的背景を持つ人々に拡張可能です。この機能をサポートできるよう、システムを拡張中です」とグロビッチ氏は述べています。
現在、一部の遺伝性疾患は、医師が患者の身体的健康状態や特徴を研究することで診断されています。研究者らは、この方法は医師の経験に依存しており、顔分析に基づく自動化されたアプローチによって「症候群の優先順位付けと診断の精度が向上する」可能性があると主張しています。言い換えれば、医師が外見と健康状態のみに基づいて診断する場合、コンピューターシステムの方が疾患の特定において一貫性を保つことができる可能性があるということです。
DeepMindはAIでゲームをするのはやめ、機械学習コードでタンパク質の賭け金を上げる
続きを読む
しかし、グロヴィッチ氏はエル・レグ紙に対し、このソフトウェアは最終的な判断を下すためのものではなく、医師の参考資料として利用されるべきだと説明した。「診断プロセスは専門家に任せていますが、私たちのシステムの目的は、より豊富で幅広いツールと情報を医師に提供することです。」
忘れてはならないのは、DeepGestaltは患者が疾患を持っているかどうかを完全に予測することはできないということです。DeepGestaltは、たとえ患者がどの遺伝性症候群にも罹患していないとしても、その患者が罹患している可能性があると判断される遺伝子症候群のリストを出力します。「患者が疾患を持っているかどうかを予測することは、私たちの研究の範囲外です」とGurovich氏は言います。
この種の研究はまだ非常に新しい段階であり、標準化されたテストがないため、システムの性能と精度を他のモデルと比較することは不可能です。また、コードは独自のものですが、システムの学習に使用されたリソースの一部はFace2Geneデータベースから入手できます。
「私たちの研究結果は、表現型解析のさらなる活用を可能にし、ゲノミクスの診断精度向上に大きく貢献します。私たちのFace2Geneシステムは現在、バイオインフォマティクス・プラットフォームで利用されています」とグロヴィッチ氏は語った。®