アヌビスはLLMボットクローラーの大群から門を守っている

Table of Contents

アヌビスはLLMボットクローラーの大群から門を守っている

アップデートされたAnubis は、CAPTCHA テストの一種ですが、その逆です。訪問者が人間であることを確認する代わりに、空腹な LLM ボットに餌を与えようとしている企業にとって、Web クローリングを法外なコストにすることを目指しています。

これは、深刻化する問題、すなわち大規模言語モデル(LLM)を搭載した「AI」ボットの販売を希望する企業の数がますます増えていることに対する巧妙な対応です。LLMは「コーパス」と呼ばれる、人間が書いたテキストの大規模なデータベースから構築されます。モデルを継続的に更新するために、LLMボットハーダーは「コーパス」用の新しいテキストを必要とします。

アヌビスは、死者の心臓を秤にかけてその適性を判定した古代エジプトのジャッカルの頭を持つ神にちなんで名付けられました。ウェブサイトをAIクローラーから保護するため、アヌビスのソフトウェアは、プルーフ・オブ・ワーク・チャレンジと呼ばれる方法で、AIクローラーが何らかの計算を行う意思があるかどうかを評価します。

人間の訪問者は、ブラウザが暗号問題を解いている間、ジャッカル風のアニメの女の子を一瞬見るだけです。しかし、大規模なボットファームを運営している企業にとっては、これはデータセンター全体のファンがフル稼働する、高価な騒音を意味します。理論上は、サイトのスキャンがあまりにも集中的になると、スパイダーは後退します。

検索エンジンによるサイトのクロールを阻止する既存の対策としては、robots.txtファイルなどがあります。しかし、Googleの説明にあるように、ファイルを用意するだけでは、ウェブスパイダーによるサイトのクロールを阻止するrobots.txtことはできません。これは自己責任のシステムであり、それが弱点となっています。スクレーパーを運営する組織が、このシステム、あるいはあなたの知的財産権を尊重しない場合、彼らは望むものを好きなだけ取得できるのです。

繰り返しのアクセスは大きな問題です。ほぼ同じ資料を繰り返しスクレイピングする方が、ローカルにコピーを保存するよりも安価です。ドリュー・デヴォールト氏の言葉を借りれば、「コストを外部に押し付けるのはやめてください」ということです。

1年前、The Register紙がClaudeBotが1日に100万回クロールしたと報じた時点で、これはすでに深刻な問題となっていました。1年後、RedditはAnthropic社と契約を結んだにもかかわらず、訴訟を起こしました。これはフォーラムなどに影響を与えるだけでなく、LWNもこの問題に直面しています。技術マニュアル公開ツールのReadTheDocsは、あるクローラーが1ヶ月で73テラバイトものデータをダウンロードしたと報告しています。

ジェダイのマインドトリック

AI査読者を騙すために論文にこっそりとフレーズを詰め込む学者

続きを読む

基盤となる技術自体は新しいものではありません。スパム対策としてのプルーフ・オブ・ワークというアイデアは、1997年のHashcashにまで遡り、The Regは2013年にこのアイデアについて言及しています。Hacker Newsへのコメントで、Iaso氏もその功績を認めています。

他のコメントでは、作業証明がどのように行われるかが詳しく説明されており、次のような記述が参考になりました。

Iaso氏はAnubisが機能すると述べており、その投稿にはUNESCOからWINE、GNOME、Enlightenmentプロジェクトに至るまで、多くのユーザーが名を連ねています。他にも賛同する人がいます。前述のDrew DeVault氏は、4月にSourceHutのコードフォージを保護するためにAnubisを導入しました。翌月、彼はAnubisを「核兵器オプション」と表現し、READMEには「従来の非核兵器オプションを使用する」と記載されているgo-awayに切り替えました。*

他にも同様の対策があります。NepenthesはLLMボットのターピットです。リンクだらけの無意味なテキストを無限に生成し、ボットスパイダーを捕らえます。QuixoticとLinkmazeも同様の機能を持ち、TollBitは商用です。

  • ウェブを狙うAIコンテンツ収集業者の軍団と戦うには自動化が必要
  • Redditは、コンテンツを貪欲なAIの胃袋に詰め込んだとしてAnthropicを提訴した。
  • パイレート・ベイが新たな落とし穴を掘る:スラーパーブラウザでアルトコインをマイニング
  • ChatGPTは大企業に間違ったURLを推奨することでフィッシングの楽園を作り出している

一部の観測者は、ブラウザの演算処理を利用して仮想通貨をマイニングすることを提案していますが、悪意のあるものとみなされるリスクがあります。Coinhiveは約10年前にこれを試みましたが、結果としてブロックされました。ここでは、Iaso氏の回答を尊重します。

Reg FOSS デスクのお気に入りのインターネットの第一人者、ジェイミー・ザウィンスキーなど、他の人々はそれほど感銘を受けていません。

彼の予測は悲観的だ。

無駄です― それが問題なのです― しかし、ボットフィード型のハーベスターによって生成される膨大なトラフィックも同様です。LLMボット自体がさらに膨大なリソースとエネルギーの無駄遣いだと主張する人もいるでしょうし、私たちもそれに異論はありません。したがって、LLMボットを妨害するものであれば何でも賛成です。®

追加情報: 更新しました:

* 元の記事では、DeVault が SourceHut のコード フォージを保護するために最初に Anubis を展開した後、go-away に切り替えたことについて言及していませんでした。

Discover More