この地震AIは少々人工的すぎたのか?ネイチャー誌に掲載された研究は、訓練データとテストデータを混ぜることで精度を高めていると非難されている。

Table of Contents

この地震AIは少々人工的すぎたのか?ネイチャー誌に掲載された研究は、訓練データとテストデータを混ぜることで精度を高めていると非難されている。

『ネイ​​チャー』誌に掲載された学術論文が、あるデータサイエンティストから批判されている。同データサイエンティストは、機械学習の研究を再現しようとした際に、その研究に明らかな初歩的なミスを発見したのだ。

昨年8月に発表された問題の論文は、ニューラルネットワークを訓練して地震後の余震の位置を予測する方法を解説している。一見すると、かなりまともな論文に見える。著者は米国のハーバード大学、コネチカット大学、そしてGoogleに所属し、査読を経て一流科学誌「ネイチャー」に掲載された。

しかし、ボストンのソフトウェア会社データロボットのデータサイエンティスト、ラジブ・シャー氏が論文にざっと目を通した結果を見て「深い疑念」を抱いた。ニューラルネットワークの精度が予想外に高かったのだ。

彼は研究を再現しようと試み、大きな欠陥を発見しました。モデルの学習とテストに使用されたデータに一部重複があったのです。つまり、ソフトウェアに不公平なアドバンテージが与えられていたのです。これは、試験の解答の一つを教えてもらいながら、試験を受け、その解答と照らし合わせた問題で高得点を取るようなものです。これはディープラーニングでは絶対に避けるべきことです。「データ漏洩」と呼ばれるこの問題により、結果がほとんど意味をなさなくなる可能性があります。

「データ漏洩は良くありません。予測モデルの目的は、新しい事例への一般化だからです」とシャー氏はThe Register紙に説明した。「モデルを一般化するには、『現実世界』に近いデータでテストする必要があります。」

「通常、これはデータのランダムサンプル(テストセット)を用いて行われますが、このサンプルはモデルには一切公開されません」と彼は付け加えた。「これにより、モデルがこのデータから学習していないことが保証され、一般化可能性を確認するための強力な指標が得られます。データ漏洩が発生すると、テストセットは実際には独立しておらず、したがって、いかなる指標も『現実世界』におけるパフォーマンスに一般化することはできません。」

本質的には、モデルがトレーニングデータに過剰適合していることを意味します。そのため、トレーニングに使用したのと同じデータを使用してテストされているため、パフォーマンスは有望に見えます。精度は人為的に高くなっています。

研究者らのフィードフォワードニューラルネットワークは、主地震とその余震のペアから得られた13万1000件の地震波パターンを調べることで学習された。データは一定の体積を表すグリッドセルに分割され、モデルは地震によって引き起こされた地震波の影響に基づいて、各グリッドセルの中心で余震が発生するかどうかを予測する。

ニューラルネットワークの学習とテストに同じ地震波パターンを使用すれば、余震を正確に予測できるのは当然のことです。しかし、学習データには含まれていない新たな地震のデータを入力すると、おそらく予測精度は低下するでしょう。ニューラルネットワークがクーロン破壊応力変化のような従来の地質学的手法よりも優れているという主張は、全くの誤りだとシャー氏は主張しました。

手紙を書く時間

彼は科学者たちにメールを送ることを決意したが、返事がないことには落胆した。そこでネイチャー誌の編集者に抗議した。手紙の中で彼はこう書いた。「データサイエンスはまだ発展途上の分野であり、他の分野ほどの厳密さに達していないため、これらの誤りは強調されるべきです。さらに、発表された結果を訂正しなければ、他の研究者がその結果に匹敵したり、それを改善したりすることができなくなり、この分野の研究が阻害されるでしょう。」

道路上のロボットの写真(Shutterstockより)

素晴らしい「AIソリューション」を自分で購入したのですね。ユーザーに直接配布するわけではないですよね?なぜそうしない方が良いのか、その理由をここで説明します。

続きを読む

シャー氏は、自身の批判がNatureの「Matters Arising」セクションに掲載されることを望んでいました。このセクションは、査読プロセス後にコメントを投稿できる場所です。しかし、Natureは研究者自身からの厳しい回答を受けて、シャー氏の意見を却下したようです。シャー氏は、Natureへの書簡、研究者の反論、そしてNatureからの回答を、自身のGitHubアカウントで公開しています。

ハーバード大学の博士研究員フィービー・デブリーズ氏と、同じくハーバード大学の地球惑星科学教授で、元の研究に携わったブレンダン・ミード氏は、彼らのモデルが同じデータのサブセットで訓練され、テストされたことを認めたが、結果への影響を軽視した。

「ネットワークはモデル化された応力の変化を余震にマッピングしており、このマッピングは、地理的に重複しているにもかかわらず、トレーニングデータセットの例とテストデータセットの例ではまったく異なります」と2人は述べた。

「訓練データセットには、テストデータセットでネットワークがうまく機能するのに役立つような情報がありません。その代わりに、ネットワークは訓練データセットで観測したのと同じ余震を、本震とは異なる形で説明するようテストデータセットで求められています。むしろ、これはテストデータセットのパフォーマンスに悪影響を及ぼすでしょう」と、デブリーズ氏とミード氏はシャー氏に返信しました。

「これらのコメントは科学的文脈を全く考慮せずになされたものです。私たちは地震学者であり、機械学習のアプローチを用いて余震の発生パターンに関する知見を得ることを目標としていました。そして、その目標は達成しました。しかし、これらのコメントの著者は科学的文脈を考慮に入れていません。もしネイチャー誌に掲載されたら、私たちは失望するでしょう」と彼らは結論付けました。

Natureの査読者は、シャー氏のコメントをMatters Arisingセクションに掲載しないことを決定しました。シャー氏が受け取った回答には、「研究の中心的な結果が損なわれるとは思いませんし、このコメントが専門家ではない読者(つまり、機械学習の実践者ではない読者)にとって興味深い内容であるとは確信していません」と記されています。

ザ・レジスター紙がデータ漏洩の問題についてネイチャーに問いただしたところ、広報担当者は「守秘義務上の理由」によりそれ以上は何も話せないと述べた。

「守秘義務上、ネイチャー誌掲載論文の具体的な経緯や査読プロセスについては、著者以外の方と話し合うことはできません。すべてのやり取りは機密情報として扱い、提出されたかどうかに関わらず、いかなる報告も肯定も否定もいたしません」と広報担当者は述べた。

掲載した論文について批判があった場合、定められたプロセスに従って慎重に検討します。批判が重大なものであると判断された場合、結論を導き出し、コメントを行う前に、すべての資料を当該分野の専門家が精査する、つまり査読プロセスを実施することが重要です。

科学的な議論を前進させるためには、出版後の研究に関する論評が不可欠であると認識しています。Nature に掲載された原著論文に関する、非常に興味深くタイムリーな科学的コメントや解説は、査読後、「Matters Arising」としてオンラインで公開されることがあります。場合によっては、原著者からの返信も掲載されます。

デブリーズ氏はエル・レグからの問い合わせに対しコメントを控えた。

シャー氏は、この論文は「テクノロジー企業(この場合はGoogleと学術研究に対する彼らの影響力)間の不公平な競争環境」を浮き彫りにしており、これがディープラーニングの誇大宣伝を払拭することを期待していると述べた。®

Discover More