DeepMindは、同社のAlphaFold機械学習ソフトウェアがタンパク質の構造をかなりの精度で迅速に予測できるようになり、将来的には医薬品の開発を加速させる可能性があると述べている。
月曜日の発表では、一部から科学上の大躍進と称賛されているが、グーグル傘下の同社は、アミノ酸の配列からタンパク質の構造を正確かつ迅速にモデル化できるコンピューターシステムを構築するという、生物学における50年来の問題を解決したと主張している。
タンパク質についてよく知らない方のために説明すると、タンパク質は私たちの生命活動に不可欠な分子です。細胞や体内で物質を輸送し、酵素として化学反応を起こし、抗体として体を守るなど、様々な役割を果たします。それぞれの機能は、基本的にその形状によって決まります。しかし、タンパク質はナノメートル単位の複雑な3次元構造をしているため、観察によってその構造を解明するのは困難ですが、必ずしも不可能ではありません。
別のアプローチとして、ソフトウェアを用いてタンパク質内で検出されたアミノ酸(タンパク質はこれらのアミノ酸の鎖から構成されています)をその複雑な構造に結び付ける方法があります。AlphaFoldのようなコンピュータプログラムは、アミノ酸からタンパク質の構造を推定します。タンパク質の構成要素の形状を知ることで、それらの働きを理解するのに役立ち、医薬品の開発や、新しいタンパク質や模倣タンパク質の創出などに役立ちます。
課題
タンパク質構造予測の重要評価コンペティション(略称CASP)は、タンパク質のフォールディングを予測するコードを比較するために1994年に設立され、2年ごとに開催されています。今回は、DeepMindのAlphaFoldが過去最高の87 GDTスコアを記録しました。これは、タンパク質の物理的観察から得られる結果と同等とされる90 GDTスコアをわずかに下回るスコアです。重要なのは、このAIベースのソフトウェアは、個々のタンパク質の構造を数分または数日で正確に予測できる点です。一方、物理的な実験にははるかに長い時間がかかります。これは、医薬品開発作業を大幅にスピードアップできることを意味します。
「タンパク質がどのように折り畳まれるのかという、この一つの問題に、私たちは50年近くも悩み続けてきました」と、CASPの共同創設者兼議長であり、米国メリーランド大学の教授でもあるジョン・モールト氏は述べた。「長年にわたり個人的にこの問題に取り組み、何度も中断と再開を繰り返し、ついに解決できるのかと不安に思ってきた私たちにとって、DeepMindがこの解決策を生み出したことは、非常に特別な瞬間です。」
GDT は Global Distance Test (GDT) の略で、0 から 100 のスケールでランク付けされます。AlphaFold のスコアは、タンパク質の構造を約 87 パーセントの精度で予測できることを意味します。アミノ酸の推定位置は、1.6 オングストロームまたは 0.16 nm (原子の幅とほぼ同じ) の距離だけずれている可能性があります。
NHSイングランドは、COVID-19によるサービス逼迫を受け、脳卒中患者の治療を支援するソフトウェア開発のためAI企業に1500万ポンドを提供する。
続きを読む
公式結果によると、AlphaFoldは競合他社を圧倒しました。2018年にも、AlphaFoldは3つのニューラルネットワークで構成されたシステムを使用して、GDTスコア60を下回るスコアではありましたが、トップに輝きました。
「生物学者にとって有用なものにするためには、もっと精度を上げなければなりません」と、ディープマインドのCEO、デミス・ハシビス氏は当時エル・レグ紙に語った。2020年に発表された最新モデルは、異なるアーキテクチャを採用しており、「注意に基づくニューラルネットワークシステム」に基づいている。
「折り畳まれたタンパク質は『空間グラフ』と考えることができます。残基がノードとなり、エッジが近接する残基同士を繋ぎます」とAlphaFoldチームは今週説明した。「このグラフは、タンパク質内の物理的相互作用や進化の歴史を理解する上で重要です。」
AlphaFoldは約17万個のタンパク質構造を用いて訓練され、CASPコンペティションで提示される構造を予測するために、それぞれの構造を構成するすべてのアミノ酸の空間表現を学習しました。「数週間かけて約128個のTPUv3コア(約100~200個のGPUに相当)を使用して実行されました。これは、今日の機械学習で使用されているほとんどの大規模かつ最先端のモデルと比較すると、比較的控えめな計算量です」と研究チームは述べています。
「タンパク質の形状を迅速かつ正確に調査できれば、生命科学に革命を起こす可能性がある」と、CASPコンペの企画に協力し、カリフォルニア大学デービス校のプロジェクト科学者でもあるアンドリー・クリシュタフォビッチ氏は語った。
「単一タンパク質の問題はほぼ解決されたため、タンパク質複合体(生命の仕組みの多くを形成するために連携して働くタンパク質の集合体)の形状を決定するための新しい方法の開発や、その他の応用への道が開かれました。」
AIは科学者とほぼ同等の性能を発揮しますが、実験室での実験を完全に置き換えることはできません。個々のタンパク質の構造を予測しても、それらが互いに、あるいはDNAやRNAなどの他の分子とどのように相互作用するかは予測できません。また、複数のタンパク質からなる複合体を確実に扱うこともできません。
「AlphaFoldは、これまでの私たちの研究の中でも最も重要な進歩の一つですが、他の科学研究と同様に、まだ多くの疑問が残っています」とDeepMindチームは結論付けました。「私たちが予測する構造のすべてが完璧であるとは限りません…他の研究者との協力を通して、これらの科学的発見を新薬開発や環境管理方法などに最大限活用する方法についても、学ぶべきことがたくさんあります。」
ロンドンを拠点とするAIラボは、今後発表される査読付き論文で詳細を明らかにすると予想されています。広報担当者からのコメントは得られませんでした。®
追記: AlphaFold をめぐる最近の誇大宣伝に対する解毒剤は、インペリアル・カレッジ・ロンドンの構造生物学教授 Stephen Curry 氏によってここで見つかります。