ウェブを狙うAIコンテンツ収集業者の軍団と戦うには自動化が必要

Table of Contents

ウェブを狙うAIコンテンツ収集業者の軍団と戦うには自動化が必要

分析今月、AI モデルのトレーニング用にページからデータを収集する Web コンテンツ クローラーである Anthropic の ClaudeBot が、技術アドバイス サイト iFixit.com を 24 時間で約 100 万回訪問しました。

iFixitのCEO、カイル・ウィーンズ氏は、ソーシャルメディアへのボットによる不審な訪問について不満を漏らした。「データに飢えているのは分かります。クロードは本当に賢いです」と、CEOは先週水曜日に、ClaudeBotによって収集された情報を活用したアンスロピックのLLM(法学修士課程)プログラム群について語った。

「あなた方は私たちのコンテンツを無償で盗用しているだけでなく、私たちの開発リソースを拘束しているのです」とウィーンズ氏は付け加えた。「よくありません」。また、これはiFixitの利用規約にも違反している。

出版社は、ウェブサイトの robots.txt ファイルに disallow 命令を追加することで、Anthropic のボットが生成したトラフィックの一部を撃退した。robots.txt は、ページスクレイピングを行うクローラーを追い払うためにテクノロジー業界で合意されているメカニズムである。

大手テクノロジー企業が他の企業に過剰なネットワークトラフィックを送信したのは今回が初めてではない。

「robots.txtにURLを追加したら、クロールは止まりました」とウィーンズ氏はThe Register紙に語った。「今では30分ごとにそのファイルにアクセスしています。」

「アントロピック社からは返事がなかった。それでも彼らと話をしたいと思っている」と彼は付け加えた。フリーランサー・コムは、クロード・クローラーが4時間で400万回近くサイトを訪問したと非難している。

ウィーンズ氏は、iFixitの使命は人々がデバイスを修理するのを支援することだと説明した。そのためには情報、部品、そして工具が必要だ。「この体験を別のプラットフォームで提供したいと思っています」と彼は言った。「私はClaudeのユーザーですが、Claudeにスマホの修理方法を尋ねた時に、『この部品を買って、これが説明書です』と言われたとしたら、すごく嬉しいですよね」

しかし、現時点ではそうはなっていません。「今のところ、[クロード]は私たちの指示を歪めて、間違った出力をしています。そのため、LLMの指示に従うと携帯電話が壊れてしまいますし、必要な部品やツールが示されません。あまり役に立ちません。」

ウィーンズ氏は、クロード氏がGoogle Pixel 6aのディスプレイ画面を背面から開けて取り付ける方法を説明した例を挙げた。「前面から開くので、この方法ではうまくいかず、損傷の原因になります」とウィーンズ氏は説明した。

この件に関するクロード氏の誤ったアドバイスは次のとおりです。

アントロピックのクロード氏によるGoogle Pixelの画面修理方法に関する誤った説明

AnthropicのClaude氏によるGoogle Pixelの画面修理方法に関する誤った説明 – クリックして拡大

コメントを求められたAnthropic(元OpenAIスタッフらが、より優しいAIスーパーラボを作ることを目指して設立)の広報担当者は、The Registerに対し、「AnthropicはWebからデータをクロールしますか?サイト所有者はどのようにしてクローラーをブロックできますか?」というタイトルの開発者向けFAQエントリーを紹介した。

この文書には、「業界標準に従い、Anthropicはモデル開発のために、ウェブクローラーを介して収集されたインターネット上の公開データなど、様々なデータソースを使用しています」と記載されています。さらに、Anthropicはクロールを透明かつ非侵入的にし、robots.txtの指示やCAPTCHAチャレンジなどの回避防止メカニズムを尊重するよう努めていると付け加えています。

robots.txt は1994年に遡り、かつては設定して放っておくだけの技術でした。その考え方は、ボットへの指示を記述するというものでした。つまり、インデックスできるものとできないもの、そして歓迎されるものと歓迎されないものを記述することで、ボット運営者がサイト所有者の意向を尊重することを期待するのです。

「技術的にはプロトコル自体に何の想定も組み込まれていないが、実際は長い間このようになっていた」と、robots.txtの自動更新やファイルを無視するボットの自動ブロックなどのコンテンツ保護サービスを提供するベンチャー企業、ダーク・ビジターズの創設者、ギャビン・キング氏は述べた。

「以前は、人々が気にするボットはほんのわずかでした」と彼はThe Register紙に語った。「そして、多くの場合、ルールはむしろ楽観的にボットを支援するためのものでした。例えば、検索結果に表示される意味のないコンテンツにGooglebotを近づけないようにしたり、すべてのボットにレート制限を設定するといった一般的な対策です。このような単純なケースでは、ファイルをそれほど頻繁に変更する必要はありませんでした。」

  • MetaのAI安全システムがスペースバーに打ち負かされる
  • Google DeepMindの最新モデルが数学オリンピックで銀メダルを獲得
  • サム・アルトマンは権威主義的なAIと戦うために米国主導の自由連合を望んでいる
  • 研究ショック!AIは生産性を低下させ、働き方を悪化させる

しかし、人工知能(AI)時代は状況を劇的に変化させました。AI企業が急増し、多くのウェブサイトをクロールしてデータを収集しています。そして、各企業はデータ収集のために1つ以上のボットを運用または利用している可能性があります。あるクローラーを止めたと思ったら、別のクローラーが新しい名前で現れるかもしれません。

「我々は、インターネットを巡回する人工エージェントのエコシステムにおけるカンブリア爆発を目撃している」とキング氏は宣言した。

「たとえば、OpenAI は先週新しいもの (OAI-SearchBot) をリリースしました。Meta は先々週 (Meta-ExternalAgent)、Apple は先月 (Applebot-Extended) をリリースしました。」

ClaudeBot 以前は、Anthropic が Claude-Web と Anthropic-AI を運営していました。

クローラーの数が増え続けるにつれ、ウェブサイト所有者がこれらの新しいエージェントに対抗するためにrobots.txtファイルを最新の状態に保つことが困難になっています。ちなみに、OpenAIとGoogleは昨年、それぞれのクローラーボットをブロックする方法に関するガイダンスを公開しました。

「ウェブサイト所有者がrobots.txtを更新するペースは、法学修士(LLM)と、彼らを育成・運営する企業の進化と競争のペースを如実に反映しています」とキング氏は述べた。「これは、普及しつつある新しい技術に共通する典型的なサイクルですが、今回の技術にはこのような副作用が伴うのです。」

Dark Visitors は、新しいクローラーの出現時に robots.txt エントリを自動的に更新し、どのクローラーが訪問したかを把握して、不正な動作をするクローラーのページへのアクセスを阻止するプログラム的な方法を提供します。

ちなみに、これは関心が高まっている分野のようです。Cloudflareは最近、より多くのAIクローラーをブロックするために、自社のボットブロッカーサービスを強化すると発表しました。

通常のトラフィックを装ったクローリングが行われている可能性は常にある

一部のクローラーが robots.txt 設定を無視していることは以前から知られていたが (この疑惑は AI 検索企業の Perplexity に向けられたもの)、同社は不正行為の主張を軽視し、出版社 Conde Nast から使用停止命令を受けた)、キング氏はほとんどの企業がこのルールを尊重していると指摘した。

「クローラーがrobots.txtのルールに従っていないことについて、不当な意見や報道が数多くある」と彼は語った。

「当社は、エージェント分析データ(Dark Visitors ユーザーが自社のウェブサイト上でのエージェントの行動を観察できるもう 1 つの機能)に基づいて、多数のウェブサイトを独自の視点で把握していますが、これは当てはまりません。

ほとんどの企業は適切なユーザーエージェント文字列で自身を識別し、24時間以内(妥当なキャッシュ遅延)にルールに従い始めます。私が見た限りでは、基本的に大手企業はほぼすべてこれを行っています。しかし、知らないことを知ることは不可能です。通常のトラフィックを装ったクローリングが行われている可能性は常に存在します。

問題の一つは、悪意のある AI 開発者が、既存の robots.txt エントリでカバーされていない新しい名前でクローラーを作成し、意図的にルールを回避できることです。

King 氏がウェブサイト運営者にとっての主な課題として見ているのは、ブロックを実装する方法ではなく、常に変化するボット人口を考慮して robots.txt ファイルに何を追加すべきかを知ることです。®

2030 UTC に追加更新

Anthropic社は過去にClaude-WebとAnthropic-AIという2つのクローラーを運用しており、現在はClaudeBotも運用していることがわかりました。ClaudeBotがClaude-WebとAnthropic-AIのrobots.txtディレクティブに従っているかどうか疑問に思われるかもしれませんが、Anthropic社によると、答えは「はい」です。

したがって、Web サイトが Claude-Web と Anthropic-AI を許可しない場合は、ClaudeBot を拒否することになると言われており、ClaudeBot はこれまでしばらくの間、Claude-Web と Anthropic-AI の robots.txt 指示に従ってきました。

「『ANTHROPIC-AI』と『CLAUDE-WEB』のユーザーエージェントは現在は使用されていません」と広報担当者は述べた。

集中管理型ユーザーエージェントであるClaudeBotは、これらの廃止予定ユーザーエージェントに対して以前に設定された既存のrobots.txtディレクティブを尊重するように設定されています。これにより、ウェブサイト所有者がrobots.txtファイルを更新していない場合でも、その設定を尊重できるようになります。

Discover More