AI研究者はAIの支援を利用して同僚をレビューし始めている

Table of Contents

AI研究者はAIの支援を利用して同僚をレビューし始めている

人工知能に重点を置く学者たちは、生成 AI を活用して同僚の機械学習の研究を評価するようになりました。

スタンフォード大学、NEC Labs America、カリフォルニア大学サンタバーバラ校の研究者グループは最近、ICLR 2024、NeurIPS 2023、CoRL 2023、EMNLP 2023などの主要なAIカンファレンスに提出された論文の査読を分析しました。

著者である Weixin Liang、Zachary Izzo、Yaohui Zhang、Haley Lepp、Hancheng Cao、Xuandong Zhao、Lingjiao Chen、Haotian Ye、Sheng Liu、Zhi Huang、Daniel A McFarland、James Y Zou は、「AI によって修正されたコンテンツの大規模な監視: ChatGPT が AI カンファレンスのピアレビューに与える影響に関するケース スタディ」と題した論文で調査結果を報告しました。

彼らは、昨年の技術討論で主流となった大規模言語モデルに対する一般の関心と議論に基づいてこの研究に着手した。

著者らは、締め切りの3日以内に提出されたレビューでは、LLMの使用率がわずかにだが一貫して増加していることを発見した。

人間が書いたテキストと機械が書いたテキストを区別することが難しいこと、そしてAIニュースウェブサイトの増加が報告されていることから、著者らは、AIが作成したコンテンツを不確定な量含む現実世界のデータセットを評価する方法を早急に開発する必要があるという結論に至った。

時には AI の著者名が目立つことがあります。Radiology Case Reports の「生後 4 か月の女性患者における医原性門脈および肝動脈損傷の成功した治療: 症例報告と文献レビュー」という論文がその例です。

この支離滅裂な文章から、少しばかりヒントが漏れている。「要約すると、両側の医原性疼痛の管理は、大変申し訳ございませんが、私は AI 言語モデルであるため、リアルタイムの情報や患者固有のデータにアクセスできません。」

しかし、その区別は必ずしも明確ではなく、人間が書いた文章とロボットが書いた文章を自動的に分類する方法を開発しようとした過去の試みは、いずれもうまくいっていません。例えば、OpenAIは2023年1月にこの目的のためにAIテキスト分類器を導入しましたが、6か月後に「精度が低い」という理由で廃止されました。

それでも、Liangらは、文書全体、段落、または文全体を評価しようとするのではなく、テキスト内の形容詞の使用に焦点を当てることで、より信頼性の高い結果が得られると主張しています。

著者らは、人間が書いたものと機械が書いたものの2つのデータセット、つまりコーパスを取り上げました。そして、これら2つのテキストを用いて、AIに関する学会論文の査読における特定の形容詞の出現頻度を評価しました。

  • Grok-1 チャットボットのコードがリリースされました – オープンソースか、それともパンドラの箱を開けたのか?
  • トップレベルの法学修士課程修了生は、正確な法的議論を行うのに苦労している
  • AIアプリの開発を急ぐ中で、セキュリティを軽視しないでください
  • GoogleがGemini AIシステムを発表、OpenAIなどを大きく上回ると主張

「私たちの計算はすべて、各文書に含まれる形容詞のみに依存しています」と彼らは説明した。「副詞、動詞、名詞、あるいはあらゆるトークンといった他の品詞を用いるよりも、この語彙選択の方が安定性が高いことが分かりました。」

法学修士(LLM)は、人間の著者よりも「称賛に値する」「革新的」「包括的」といった形容詞を頻繁に用いる傾向があることが分かりました。そして、こうした言葉遣いの統計的な違いによって、法学修士(LLM)の支援が期待される論文の査読を、研究者たちは特定することが可能になったのです。

LLMフィードバックにおける上位100個の形容詞のワードクラウド。フォントサイズは使用頻度を示す。

LLMフィードバックにおける上位100個の形容詞のワードクラウド。フォントサイズは使用頻度を示す(クリックして拡大)

「私たちの研究結果は、これらの会議に査読として提出された文章の6.5%から16.9%が、スペルチェックや文章の軽微な修正を超えて、法学修士によって大幅に修正された可能性があることを示唆している」と著者らは主張し、科学誌ネイチャーに掲載された論文の査読には機械による支援の兆候は見られない点を指摘した。

LLMの利用増加には、いくつかの要因が相関しているようです。その一つは、締め切りが迫っていることです。著者らは、締め切りの3日以内に提出されたレビューでは、LLMの利用がわずかに、しかし着実に増加していることを発見しました。

研究者たちは、AIによる執筆支援の利用について判断を下すことや、評価した論文がすべてAIモデルによって書かれたと主張することを目的としていないことを強調した。しかし、科学界は法学修士(LLM)の利用についてより透明性を高める必要があると主張した。

そして彼らは、そのような慣行は、レビュー対象となる研究成果を研究する人々から専門家による多様なフィードバックを奪う可能性があると主張した。さらに、AIによるフィードバックは、AIモデルのバイアスに偏り、有意義な洞察を遠ざける均質化効果をもたらす危険性がある。®

Discover More