生成AIのおかげで、科学の不正行為を捕まえるのはさらに難しくなるだろう

特集生成 AI は、人間の査読を欺く可能性を示しているため、科学論文の不正行為に取り組む学術出版社にとって興味深い課題を提起しています。

DALL-E、Stable Diffusion、Midjourneyに画像を説明すると、数秒で画像が生成されます。これらのテキストから画像を生成するシステムは、ここ数年で急速に進化を遂げています。当初は研究用のプロトタイプとして始まり、2021年に小さな大根が犬を散歩させているという、一見無害でありながら素晴らしく奇妙なイラストを生成していましたが、その後、数十億ドル規模の企業によって開発され、ますますリアルな画像を生成できる商用ソフトウェアへと進化しました。

これらのAIモデルは、人間の顔、物体、風景など、リアルな画像を生成することができ、説得力のある科学的画像やデータの作成にも長けるのも時間の問題です。テキスト画像変換モデルは現在、広く利用可能で、利用コストも非常に低く、不正な科学者が研究結果を偽造したり、偽の研究を発表したりすることを容易にする可能性があります。

画像操作は、近年最も一般的な科学的不正行為であるため、学術出版社にとって既に大きな懸念事項となっています。著者は、同じ画像を反転、回転、あるいは一部を切り取るなど、あらゆる手法を用いて偽の結果を主張します。編集者は、提示された結果が本物であると信じ込み、論文を出版してしまうのです。

現在、多くの出版社が、査読プロセスにおける画像操作の兆候を検出するためにAIソフトウェアを活用しています。多くの場合、科学者がデータを混同したために画像が誤って複製または並べ替えられたものですが、時にはあからさまな不正行為に利用されることもあります。

しかし、出版社が手作業による画像操作を抑制し始めた矢先、新たな脅威が出現しています。一部の研究者は、既存の写真やスキャンデータを改変するのではなく、生成AIモデルを用いて全く新しい偽データを作成したいという誘惑に駆られるかもしれません。実際、偽科学者が既にこれを行っている可能性を示唆する証拠があります。

AIが作成した画像が論文で発見される？

2019年、DARPAはセマンティックフォレンジック（SemaFor）プログラムを立ち上げ、偽情報に対抗するためにAI製のメディアを検出できるフォレンジックツールを開発する研究者に資金を提供しました。

米国防高等研究計画局（DARPA）の広報担当者は、AIを用いて生成されたと思われる偽の医療画像が、公開された科学論文に掲載されていることを確認した。テキスト画像変換モデルが登場する以前は、敵対的生成ネットワーク（GAN）が主流だった。DARPAは、ディープフェイクの作成能力で知られるこれらのモデルが、医療スキャン画像、細胞写真、あるいは生物医学研究でよく見られるその他の画像も偽造できることに気付いた。

「脅威の状況は非常に急速に変化しています」と、SemaForのプログラムマネージャー、ウィリアム・コーベイ氏はThe Register紙に語った。「この技術は、無害な目的のために広く普及しつつあります。」

コーベイ氏は、同局はGANで作成された画像を検出できるソフトウェアの開発にある程度成功しており、ツールはまだ開発中であると述べた。

脅威の状況は急速に変化している

「生成された画像の内容に関わらず、これまで検出を学習した生成メカニズムの『兄弟または遠い親戚』を検出できることを示唆する結果が得られました。SemaForの分析機能は、メタデータ、統計的異常、より視覚的な表現に至るまで、操作されたメディアに関連する様々な属性や詳細を調べます」と彼は述べた。

科学論文のデータを精査する画像アナリストの中には、GANによって生成されたと思われる画像を発見した人もいます。GANとは生成的敵対的ネットワーク（Generative Adversarial Network）の略で、文章、音楽、画像など様々なものを作り出す機械学習システムの一種です。

例えば、シドニー大学の分子腫瘍学教授ジェニファー・バーン氏と、ジャーナル出版社EMBO Pressの画像完全性アナリスト、ジャナ・クリストファー氏は、17件の生化学関連の研究に掲載された奇妙な画像のセットに遭遇した。

写真には、サンプル中の特定のタンパク質の存在を示すウェスタンブロットと呼ばれる一連のバンドが写っていましたが、不思議なことに、すべて同じ背景を持っているように見えました。こんなことはあり得ません。

疑わしい書類に関するバーン・クリストファー論文の図A

ウェスタンブロット画像における繰り返し背景の例（赤と緑のアウトラインで強調表示）...出典：Byrne, Christopher 2020

2020年、バーン氏とクリストファー氏は、これらの不審な画像は、偽造データを用いて生化学論文を大量生産し、査読を経て出版しようとする「ペーパーミル」と呼ばれる行為の一環として作成された可能性があるという結論に至った。このような行為は、例えば、論文の採択数に応じて報酬を受け取る研究者の利益を図るため、あるいは、学部が一定数の論文を出版するというノルマを達成するために行われる可能性がある。

「私たちの論文で示した例のしみは、おそらくコンピューターで生成されたものだ」とクリストファー氏はThe Registerに語った。

私は偽物のような画像によく遭遇します。主にウェスタンブロットですが、顕微鏡画像も増えています。

論文を出版前と出版後に審査していると、偽物のような画像によく遭遇します。主にウェスタンブロットですが、顕微鏡画像も増えてきています。これらの多くはGANを使って生成された可能性が高いと強く感じています。

フリーランスの画像探偵、エリザベス・ビック氏は、画像が加工されているかどうかをしばしば見抜くことができます。彼女は科学論文の原稿を丹念に調べ、加工された画像を探し出し、ジャーナル編集者がさらに調査できるよう、問題点を指摘します。しかし、アルゴリズムによって徹底的に生成された偽画像と戦うのは困難です。

彼女は、バーン氏とクリストファー氏の研究で強調された画像の背景の重複は偽造の可能性を示す明らかな兆候であるものの、実際のウェスタンブロット自体は固有のものであると指摘した。論文をスキャンして画像偽造を検出するために使用するコンピュータービジョンソフトウェア「Bik」は、実際のブロットに明らかな重複がないため、これらのバンドを検知することは困難だろう。

「重複部分を見つけることは決してないでしょう。すべて人工的に作られたものだと思います。どのように作られたのかは正確にはわかりません」と彼女はレジスター紙に語った。

生成AIのおかげで、科学の不正行為を捕まえるのはさらに難しくなるだろう

Table of Contents

AIが作成した画像が論文で発見される？

最新の生成AIモデルを使えば偽の画像を生成するのが簡単になります

Discover More

Oracleはオンプレミスクラウドを1つのラックに縮小

ためらいもなく、繰り返しも、逸脱もせずに上司をハッキングできますか？ AIは「いいえ」と答えます

テクノロジーの世界で語る: Hadoop、ドナルド・トランプ、Apple TV - 共通点は何でしょうか?

Table of Contents

AIが作成した画像が論文で発見される？

最新の生成AIモデルを使えば偽の画像を生成するのが簡単になります

Smart Recommendations

Discover More