クラウドサービス大手のFastlyは、AIクローラーがオープンウェブに大きな負荷をかけており、AIボットトラフィック全体の80%を占める速度でウェブサイトを吸い上げ、残りの20%をAIフェッチャーが使用しているという報告書を発表しました。ボットとフェッチャーはウェブサイトに大きな負荷をかけ、1つのサイトに対して毎分数千件ものリクエストでデータを要求する可能性があります。
これを止める要因はただ一つ、AIバブルの崩壊だけだ。
レポート[PDF]によれば、Facebookの所有者であるMetaのAI部門がこれらのクローラーの半分以上を占めており、オンデマンドフェッチリクエストの圧倒的多数はOpenAIが占めている。
Cloudflare、パブリッシャーに支払うためのAIクローラー料金所を設置
続きを読む
「AIボットはインターネットへのアクセス方法や体験を根本から変えつつあり、デジタルプラットフォームに新たな複雑さをもたらしています」と、Fastlyのシニアセキュリティ研究者であるアルン・クマール氏はレポート発表に関する声明で述べています。「学習データの収集であれ、リアルタイムのレスポンスの提供であれ、これらのボットは可視性、制御性、そしてコストに関して新たな課題を生み出しています。見えないものを保護することはできません。明確な検証基準がなければ、AI主導の自動化リスクはデジタルチームにとって盲点になりつつあります。」
同社のレポートは、Fastlyの次世代ウェブアプリケーションファイアウォール(NGWAF)とボット管理サービスの分析に基づいています。同社によると、これらのサービスは「13万以上のアプリケーションとAPIを保護し、毎月6.5兆件以上のリクエストを検査」しており、豊富なデータを扱うことができます。このデータは、深刻化する問題を明らかにしています。ウェブサイトの負荷増加は、人間の訪問者ではなく、チャットボット企業に代わって動作する自動クローラーやフェッチツールによるものです。
Fastlyの報告書は、「一部のAIボットは、慎重に設計されていない場合、意図せずウェブサーバーに持続不可能な負荷をかける可能性があり、パフォーマンスの低下、サービスの中断、運用コストの増加につながる」と警告している。クマール氏はThe Registerに対し、「この成長は明らかに持続可能ではなく、運用上の課題を生み出すだけでなく、コンテンツ制作者のビジネスモデルを損ないます。業界として、AI企業がウェブサイトのコンテンツガイドラインを尊重しながら必要なデータを取得できるよう、クロールに関する責任ある規範と基準を確立するために、より多くの努力を払う必要があります」と指摘した。
増加しているトラフィックは、ごく少数の企業によるものです。MetaはAIクローラートラフィック全体の半分以上(52%)を占め、これにGoogleとOpenAIがそれぞれ23%と20%で続きます。そして、この3社を合わせるとAIクローラートラフィック全体の95%を占めています。対照的に、Anthropicはクローラートラフィック全体のわずか3.76%を占めています。クローラー問題の根幹である作業の重複とトラフィックの増殖を防ぐことを目的とした無料の公開データセットにウェブサイトを収集するCommon Crawl Projectは、わずか0.21%という驚くべき低さでした。
AIフェッチャーになると話は一転します。クローラーとは異なり、AIフェッチャーはユーザーがモデルにトレーニングの締め切り日よりも新しい情報を組み込むよう要求すると、オンデマンドで起動されます。Fastlyの調査によると、この場合、OpenAIが圧倒的に主要なトラフィックソースであり、全リクエストのほぼ98%を占めていました。これは、OpenAIがChatGPTで消費者向けAIチャットボット市場に早期参入したことが、同社にどれほどのリードをもたらしたかを示すものかもしれません。あるいは、同社のボットインフラの最適化が必要な兆候なのかもしれません。
AIフェッチャーはAIボットリクエスト全体のわずか20%程度を占めるに過ぎないとクマール氏は語る。しかし、テスト期間中、AIフェッチャー1つが1分あたり39,000件以上のリクエストを生成するなど、膨大なトラフィックバーストを引き起こす可能性がある。クマール氏はThe Register紙に対し、「AIツールの普及が進み、人間とウェブサイトの体験を仲介するエージェントツールの利用が増えるにつれて、フェッチャートラフィックは増加すると予想しています」と語った。
Perplexity AI は、報告されたクローラー範囲外の IP アドレスを使用し、スクレイピングをオプトアウトしようとしているサイトからの robots.txt 指示を無視していると最近非難されたが、このレポートで記録された AI クローラー ボットのトラフィックのわずか 1.12%、AI フェッチャー ボットのトラフィックの 1.53% を占めただけだった。ただし、レポートではこの割合が増加していると指摘している。
Cloudflareは、AIスクレイパーボットをジャンクコンテンツの恐ろしい迷路に導くAIを構築しました。
続きを読む
クマール氏はrobots.txtの記述を無視する慣行を非難し、El Reg紙に次のように語った。「少なくとも、今日、評判の良いAI企業はrobots.txtを尊重すべきです。さらに、そしてより重要なのは、IPアドレスの範囲を公開し、ボットに固有の名前を付けることです。これにより、サイト運営者はサイトをクロールするボットをより適切に識別し、ボット管理ソリューションを用いてきめ細かなルールを適用できるようになります。」
しかし、彼は業界フォーラムが解決策を模索しているとして、強制的な基準の制定を求めるまでには至らなかった。「こうしたプロセスはじっくりと進めていく必要がある。規制の枠組みの中で技術基準を義務付けることは、多くの場合良い結果をもたらさず、最初の手段とすべきではない」
- Cloudflareのボットは悪質だと主張することに困惑する人々
- アヌビスはLLMボットクローラーの大群から門を守っている
- 検索リファラルが急落し、ウェブサイトにAI黙示録が到来
- マストドンの投稿でAIをトレーニング?規約更新でアイデアは消滅
これは大きな問題であり、ユーザー側も反撃を始めています。robots.txtディレクティブのような丁寧なオプトアウトを無視するボットに対し、ウェブマスターはプルーフ・オブ・ワークのAnubisや意味不明なテキストを提供するTarpit Nepenthesといった積極的な対抗手段にますます目を向けています。一方、FastlyのライバルであるCloudflareは、ボット運営者に経済的負担をかけるため、クロールごとの課金方式をテストしています。「これらの手法を用いる際には、正当なユーザーを誤ってブロックしたり、ユーザーエクスペリエンスを低下させたりしないよう、注意が必要です」とFastlyのレポートは警告しています。
クマール氏は、特に動的コンテンツを提供する小規模サイト運営者が、その影響を最も深刻に受ける可能性が高いと指摘し、いくつかの提言を行った。「まず最も簡単なステップは、robots.txtを設定することです。これにより、正常に動作するボットからのトラフィックが即座に削減されます。技術的な専門知識があれば、ウェブサイトはAnubisなどのボット制御ツールを導入することで、ボットトラフィックの削減にも役立ちます。」しかし、コードホスティングサイトCodebergが最近経験したように、ボットは常に進化を続け、Anubisのような「タールピット」を回避する方法を見つけようとしているとクマール氏は警告した。「これは、今日他の種類のボットで見られるのと同様に、絶え間ない追いかけっこを引き起こします」と彼は述べた。
Anubisの開発元であり、TecharoのCEOでもあるXe Iaso氏に話を聞いた。クローラートラフィックの増加が鈍化する見込みがあるか尋ねると、彼らはこう答えた。「この傾向が止まる要因はただ一つ、AIバブルの崩壊しかないと思います。」
「そうでなければ、人々に文書、メール、ウェブサイトの劣化版を提供するのは、あまりにも誇大宣伝すぎるでしょう。これが実際に人々に何をもたらすのかは分かりませんが、私たちの業界はこれを実行することに大きな誇りを持っています。」
しかし、彼らはこう付け加えた。「成長しない理由は見当たりません。人々はこれらのツールを知識の代替やスキル習得に利用しています。私たちの文化的な倹約精神に対するこの攻撃が続かないと考える理由は見当たりません。これは中間管理職に対する完璧な攻撃です。彼らは眠らずに病気になることもなく、休暇を取ることも、健康保険に加入する必要もなく、表面上は人間の従業員と似たような成果を生み出すことができるロボットです。バブルが崩壊しない限り、そして崩壊しない限り、これが成長し続ける理由は見当たりません。たとえ崩壊したとしても、多くのスクレーパーはベンチャーキャピタルが尽きるまでは、おそらくそこに居座るでしょう。」
規制 – 聞いたことがある
レジスター紙はゼー氏に、アヌビスやその他の能動的な対抗手段のより広範な展開が役に立つと思うかと尋ねた。
アヌビスはLLMボットクローラーの大群から門を守っている
続きを読む
彼らはこう答えた。「これは規制の問題です。必要なのは、政府が介入し、デジタルの公共財を破壊し、存在を脅かすような罰金を科し、被害を与えているコミュニティに賠償金を支払わせることです。皮肉なことに、これらのAI企業のほとんどは、破壊しているコミュニティに依存しています。」
これは、CBCのトップページではなく、90年代のニール・スティーブンソンの著書で読むようなパラドックスです。Anubisは、攻撃にかかる計算コストを高くすることで、多くの悪影響を軽減するのに役立ちます。Anubisは(プルーフ・オブ・ワークを省略した構成であっても)、攻撃者が盲目的にHTMLをスクレイピングするのではなく、ヘッドレスブラウザを使用するようにスクレイピングを再設計する必要が生じます。
そして、誰が代金を支払うのでしょうか?
これにより、悪質なトラフィックを拡散するAI企業のインフラコストが増加します。AI企業がこの問題により多くのハードウェアを投入せざるを得なくなることで、スクレイピングが財政的に不可能になることが期待されています。つまり、スクレイパーは同じ作業を行うのにより多くの費用を費やす必要があるということです。
私たちは Anthropic、Google、Meta、OpenAI、Perplexity に連絡を取りましたが、レポートの公開時点ではいずれもコメントを提供しませんでした。®
追加情報: 更新しました:
Cloudflareの製品担当バイスプレジデント、ウィル・アレン氏は、この調査結果についてコメントし、Cloudflareの観測結果はFastlyの主張に「かなり近い」と述べ、「わずかな差は顧客構成の違いによる可能性がある」と述べた。アレン氏はさらに、4月15日から7月14日までの期間における、クロール目的別のAIボットとクローラーのトラフィックを見ると、Cloudflareは82.7%が「トレーニング用」であることが分かると付け加えた。これはFastlyのレポートにおける「AIクローラー」に相当する。
クローラートラフィックの増加が今後も続く可能性があるかとの質問に対し、アレン氏は次のように答えた。「近い将来、大幅な減速は見られません。コンテンツに対する需要は現在、飽くことを知らないようです。」
彼は次のように述べた。「AIクローラーに関する私たちの取り組みはすべて、極めてシンプルな哲学に基づいています。コンテンツ制作者とウェブサイト運営者は、オンラインに公開したコンテンツやデータを商業目的でどのように利用するかを決定できるべきだ、というものです。私たちの中には、超知能のために書きたい人もいれば、直接つながり、人間の目だけのために作りたい人もいます。」
サイト運営者に対し、インフラにかかるトラフィックの負担を軽減する方法を尋ねると、彼は当然ながら自社製品を売り込み、「Cloudflareなら、無料ユーザーでも驚くほど簡単に制御できます。誰でもクロールできるようにすることも、ワンクリックでAIクローラーのトレーニングをブロックし、完全に管理されたrobots.txtを導入することもできます」と述べた。
同氏は、ベンダーのAIラビリンスについて、「これは生成AIを用いてボットを阻止する最初の試みであり、ボット検出システムに入力する貴重なデータを生成します。私たちはこれを最終的な解決策とは考えていませんが、むしろ不正なボットを捕まえるためのテクノロジーの楽しい活用法だと考えています」と述べた。