分析:学術出版社がデータ改ざんの兆候を自動的に見つけるために AI ソフトウェアを使用することが増えているため、質の悪い研究を発表しようとしている怪しい科学者は、よく考えた方が良いかもしれない。
画像の複製、例えば細胞塊の同じ画像がコピー、反転、回転、移動、あるいは切り取られるといった行為は、残念ながら非常に一般的です。これらの誤りが偶発的でない場合、研究者が実際よりも多くのデータを持ち、多くの実験を行ったかのように見せるために、改ざんされた画像が作成されます。
米国がん学会(AACR)のジャーナル運営・システム担当ディレクター、ダニエル・エヴァンコ氏によると、2016年から2020年にかけてAACRが論文を撤回した主な理由は画像の重複だったという。論文の撤回は、著者と出版社の評判を損なうことになる。研究者の研究の質が低く、編集者の査読プロセスでミスが見逃されたことを示すものだ。
AACRのような学術出版社は、双方の不利益を避けるため、論文がジャーナルに掲載される前に画像の重複を検出するAIソフトウェアを導入しました。AACRは、イスラエルに拠点を置く自社製品と同じ名前のスタートアップ企業が開発した画像チェックプログラム「Proofig」の試験運用を開始しました。エヴァンコ氏は、今週シカゴで開催された国際査読・科学出版会議で、このパイロットスタディの結果を発表し、ProofigがAACRの業務にどのような影響を与えたかを示しました。
AACRは10誌の研究誌を発行し、毎年13,000件以上の投稿論文を審査しています。2021年1月から2022年5月にかけて、AACRの職員はProofigを用いて、暫定的に出版が承認された1,367本の論文を審査し、ソフトウェアによってフラグ付けされた画像の重複を確認した後、208件の著者に連絡を取りました。ほとんどの場合、重複は不注意によるエラーであり、簡単に修正できます。科学者が誤って結果を混同している可能性があり、新しいデータを再提出することで問題が解決することがよくあります。
しかし、稀に、ソフトウェアによって強調表示された怪しい画像が不正行為の兆候となることがあります。208本の論文のうち4本は撤回され、1本はその後却下されました。学術上の不正行為は稀で、多くの場合、論文作成会社や評判の低い機関と関連付けられます。しかしながら、名門大学のトップクラスの研究室では、不正行為が発覚しており、現在も発覚し続けています。サイエンス誌が最近明らかにした調査によると、数十年にわたるアルツハイマー病研究は、新たな治療法の発見や臨床試験の失敗という無駄な結果に終わりましたが、その研究は、画像の重複に悩まされた引用数の多い論文に基づいていたことが報告されています。
問題となっている結果は、ウェスタンブロットと呼ばれる手法を用いて生成された一連のぼやけた線であり、マウスのデータにコピー、編集、貼り付けされたとされています。この重複した効果は、訓練されていない目には非常に見分けるのが困難です。このような微妙な変化を探すのは、ほとんどの人間にとっては退屈な作業ですが、コンピューターには適していると、Proofigの共同創設者であるDror Kolodkin-Gal氏はThe Register紙に語りました。
Proofigの仕事は、まずアップロードされた論文の中で分析に関連するすべての画像を検出することです。このソフトウェアは棒グラフや折れ線グラフの画像を無視します。次に、Proofigは特定の画像が論文内の他のすべてのサブ画像と一致するかどうかを確認します。サブ画像は、シフト、反転、回転されている可能性があり、一部が切り取られたり、コピーされたり、繰り返されたりすることもあります。「可能性は無限大です」とコロドキン=ガル氏は言います。
Proofigは、コンピュータービジョンとAIアルゴリズムを組み合わせて画像の抽出と分類を行います。このソフトウェアは計算量が複雑で、近年の機械学習の進歩なしには実現不可能だったとコロドキン=ガル氏は考えます。「AIが登場する前は、論文から部分画像を抽出するだけでも10倍の研究開発費が必要で、その計算方法も神のみぞ知るといった状況でした。アルゴリズムとクラウドでGPUを稼働させる能力の両方における技術の進歩が、状況を変えたのだと思います」と彼は言います。
人間の介入が必要
ProofigのようなAIソフトウェアは、単独では不正行為者を見抜くことはできません。「結果を解釈するには、ある程度の知識と専門知識を持つ人間が必要です」と、画像鑑識の専門家で独立系科学コンサルタントのエリザベス・ビク氏はThe Register紙に語りました。「ソフトウェアに自動処理を任せることはできません。全く問題のない多くのものを誤認してしまう可能性があります。」場合によっては、人間の目がコンピューターを上回ることもあります。
YouTubeのシンクフルエンサーが論文の盗作を認める ― ESAが彼のワークショップを廃止
続きを読む
ビック氏は、ImageTwinという別のAIベースのソフトウェアを仕事に使っている。このソフトウェアは、ウェスタンブロットの解析に苦労することがあるという。「ウェスタンブロットは基本的に、無地の背景に黒い縞が描かれているだけです。人間には見えるものの、ソフトウェアにはなぜか見えない微妙な形状があります。これは、人間の目と脳が非常に複雑な構造をしていることに関係していると思います。ソフトウェアは相対的な距離だけを見ているので、黒い縞は常に黒い縞に見えてしまうのです。そのため、細かいエッジや、他の形状に似たブロックの形状を見つけるのはあまり得意ではありません」と彼女は語った。
コロドキン=ガル氏も、ウェスタンブロット法は機械による検査が特に難しいことに同意した。「ウェスタンブロット法のバンドを見つけるための優れたアルゴリズムを見つけるのに、多大な投資が必要でした。バンドは非常に小さいため、AIにとって非常に困難なのです」と彼は述べた。
学術出版社は、出版プロセスの様々な段階でProofigのような画像チェックツールを使用しています。AACRは暫定承認された原稿をスキャンし、Taylor & Francisなどの出版社は、編集者や査読者から懸念が示された論文のチェックにのみProofigを使用します。「ソフトウェアが画像の複製または改ざんの可能性を検知し、当社の専門チームがそれを裏付けた場合、当社の規定手順と出版倫理委員会が定めたガイドラインに従って調査を開始します」と、同社の広報担当者は述べています。
このソフトウェアで解析した論文の約3分の1に問題が見つかり、理解するにはさらに専門知識が必要となります。
出版パイプラインにおいてこれらのツールをいつ、どこで使用するかはコストの問題です。画像処理は膨大な計算量を必要とするため、出版社はProofigのようなスタートアップ企業のクラウドコンピューティング費用を負担しなければなりません。
提出段階ですべての論文をスクリーニングするのは費用がかかりすぎます。例えば、Proofigで120個のサブイメージを分析すると、1人あたり99ドルかかります。Proofigが1つの論文で処理しなければならない可能性のある組み合わせの数を考えると、決して安くはありません。
AACR や Taylor & Francis のような組織は、個々の業務に合わせて、より安い料金で特定のパッケージを交渉します。
「手作業による監視とそれに伴うコストの問題から、現在、Proofigは最初の提出時ではなく、査読が進んだ段階で関連論文に使用しています」と、SAGE Publishingのトランスフォーメーション&プロダクトイノベーション責任者であるヘレン・キング氏は語った。「これまでに、Proofigで検証した論文の約3分の1で問題が指摘されており、その結果を理解し解釈するには、さらに専門知識が必要となります。」
AIはまだ異なる論文間で盗用された画像を検出できない
米国臨床研究学会(ASIC)もProofigを採用しており、Frontiersなどの他の出版社も独自のツールを開発している。Wileyも何らかのソフトウェアを使用しており、PLOS、Elsevier、Natureが最初に報じたところによると、プログラムへの参加はオープン、あるいは積極的にテスト中となっている。
AIソフトウェアは不正なデータを見つける能力が向上していますが、科学者が不正行為を行う様々な方法をすべて捕捉できるわけではありません。Proofigは、同じ論文内で画像が重複しているかどうかは確認できますが、異なる論文間でのコピーはまだ検出できません。異なる論文間で画像が盗用されている可能性のあるケースもまだ検出できません。Proofigは、比較のために、出版済み論文から取得した画像キャッシュのデータベースを構築する必要があるでしょう。
「現在、コミュニティにとって最大の課題はビッグデータです」とコロドキン=ガル氏は述べた。「出版社が協力して問題のある画像のデータベースを構築しなければ、(画像の盗用は)問題のままです。AIを開発するにはビッグデータが不可欠です。」
それでも、Proofigのようなソフトウェアは、不正行為の取り締まりと科学的誠実性の向上に向けた良い第一歩となるでしょう。「出版社がソフトウェアを使い始めているのは良い進歩だと思います。出版プロセスにある程度の品質管理機能を提供するからです」とビック氏は言います。「抑止力として機能します。著者に、このような重複がないか論文を審査する旨を伝えることができます。不正行為を完全に防ぐことはできませんが、不正行為を少し難しくすることはできるでしょう。」®