MediumがAIボットクローラーに要請:ブロガーの考えをスクレイピングしないで

Table of Contents

MediumがAIボットクローラーに要請:ブロガーの考えをスクレイピングしないで

ブログプラットフォーム「Medium」は、AIモデルをトレーニングするために組織が許可なく記事をスクレイピングしないよう求めており、このポリシーの施行は難しいかもしれないと警告している。

トニー・スタブルバインCEOは木曜日、ニューラルネットワークの学習データセットを構築しようとする開発者による、人々の文章の収集を抑制するMediumの方針について説明した。彼は何よりも、開発者は人々の文章を用いて大規模な言語モデルを学習させるにあたり、同意を求め、執筆者にクレジットと報酬を提供するべきだと述べた。

こうした AI モデルは、最終的にはトレーニングの対象となるライターを真似することになりかねないが、これは二重の不公平だと感じる人もいる。ライターはそもそも報酬を受け取っておらず、今やモデルがライターの地位とライターの仕事から得られる収入を奪おうとしているのだ。

「現状を端的にまとめると、AI企業はインターネットの読者にスパムメールを送るためにライターから利益を搾取している」と彼はブログ投稿に記した。「MediumはAIトレーニングに関するポリシーを変更しています。もはやデフォルトの答えは『ノー』です。」

Mediumはウェブサイトのrobots.txtファイルを更新し、OpenAIのウェブクローラーボットGPTBotにページのコンテンツをコピーしないよう指示しました。CNN、ロイター、シカゴ・トリビューン、ニューヨーク・タイムズといった他のパブリッシャーは既に同様の措置を講じています。

Stubblebine氏はこれをAIの「ソフトブロック」と呼んでいます。これは、GPTBotがrobots.txtのリクエストに従い、Mediumのページにアクセスしてコンテンツを盗用しないようにすることに依存しています。しかし、他のクローラーはこれを無視する可能性があり、無視する可能性もあります。Mediumは、これらのクローラーがrobots.txtでブロックする方法を提供し、それに応じてファイルを更新するまで待つこともできますが、必ずしもそうなるとは限りません。

参考までに、OpenAIはrobots.txtによるブロックをサポートしているだけでなく、Googleも同様のサポートを提供しています。Googleは木曜日に、BardおよびVertex生成APIサービスのAIトレーニングクローラーをrobots.txt経由でブロックする方法を詳細に発表しました。Mediumはまだrobots.txtを更新し、GoogleのAIトレーニングスパイダーを除外していません。

robots.txt よりも低いレベル、例えば IP アドレスやユーザーエージェント文字列などでウェブクローラーをブロックするのも有効です。ただし、ボットが新しい IP アドレスを取得したり、ユーザーエージェント文字列を変更したりするまでは。これはモグラ叩きゲームのようなもので、やりすぎると面倒くさくなるかもしれません。

「残念ながら、robots.txtによるブロックには大きな限界があります」とスタブルバイン氏は述べた。「私たちの知る限り、OpenAIは、学習用コンテンツを見つけるために使用するスパイダーをブロックする方法を提供している唯一の企業です。OpenAI以外の企業を完全にブロックできるとは思っていません。」

彼が言いたいのは、少なくともOpenAI、そして今ではGoogleがrobots.txtを遵守することを約束しているということだ。機械学習の訓練のためにデータを収集している他の組織は、robots.txtを無視するかもしれない。

  • OpenAIのクローラーボットを見分け、トレーニングデータのためにサイトを吸い上げるのを止める方法
  • 作家組合がOpenAIを提訴、 ChatGPTの訓練にゲーム・オブ・スローンズなどの小説を使用したとして
  • OpenAIは、AI著作権訴訟で著者の主張を棄却するよう裁判所に要請

とはいえ、robots.txt による保護とは関係なく、Medium は、モデルのトレーニングのために記事を許可なくページをクロールしている者に対して、停止命令書を送付することを約束しています。

つまり、事実上、MediumはOpenAIのクローラーに対し、少なくとも手を出すよう要請し、もし手を引き抜かない場合は法的手段で他のデータセットクローラーに責任を問うということになる。ウェブサイトの利用規約は更新され、Mediumの同意なしにスパイダーやその他のクローラーを使って記事をスクレイピングすることを禁止したと伝えられている。

CEOはまた、Mediumユーザーに対し、サイト上で自分の作品のコピーを許可なく再販することはできないと改めて注意を促した。「Mediumストーリーのデフォルトライセンスでは、ユーザーは自分の作品を独占的に販売する権利を保持しています」とスタブルバイン氏は記している。

教科書出版社が影の図書館LibGenを著作権侵害で提訴

その間

スタブルバイン氏は、Mediumからウェブデータをクロールしたい企業に対し、クレジットや補償など、様々な問題点についてMediumに問い合わせるよう助言した。「私たちの最終目標はAIの開発を阻止することではないため、このように述べています。現時点では、Medium全体でAIトレーニングセットの使用を中止しています。しかし、これらのプロトコルが確立され次第、再び使用を開始する予定です」と同氏は付け加えた。

Mediumは、AIメーカーがスクレイピングしたテキストに対して報酬を提供する場合、ブログ業界は報酬の100%をライターに支払うことを提案した。

フェイスブックは7月、AIが生成した投稿は完全に禁止されていないものの、完全に機械で書かれたテキストは推奨しないとも確認した。

「Mediumは完全にAIで生成されたストーリーを掲載する場所ではなく、100%AIで生成されたストーリーは、ライターの個人ネットワークを超えて配信することはできません」と述べている。®

Discover More