公開ウェブデータでトレーニングされた機械学習モデルの開発元である OpenAI は、出版社やサイト所有者がコンテンツのスクレイピングをオプトアウトできるように、ウェブクローラーの仕様を公開しました。
新たに公開された技術文書では、OpenAI の Web クローラー GPTBot を、そのユーザー エージェント トークンと文字列を通じて識別する方法が説明されています。これらのトークンと文字列は、サーバーに Web ページを要求するために送信される HTTP リクエスト ヘッダーで同社のソフトウェアによって発行されます。
ウェブパブリッシャーはrobots.txt
、GPTBotがロボット排除プロトコル(ROP)に準拠するように設計されていることを前提として、ウェブサーバーのファイルにエントリを追加することで、クローラーの動作を指示できます(すべてのボットが準拠しているわけではありません)。例えば、次のrobots.txt
キーと値のペアは、GPTBotにルートディレクトリとサイト上のその他のすべてのディレクトリにアクセスしないように指示します。
ユーザーエージェント: GPTBot 許可しない: /
しかし、OpenAIは、ボットにサイトデータの収集を許可することで、企業が構築するAIモデルの品質を向上させることができ、機密情報を収集することなくスクレイピングを行うことができると主張している。この件でOpenAIとMicrosoftは最近訴訟を起こされている。
「GPTBot ユーザーエージェントでクロールされた Web ページは、将来のモデルを改善するために使用される可能性があり、有料アクセスを必要とするソース、個人を特定できる情報 (PII) を収集することが知られているソース、またはポリシーに違反するテキストを含むソースを削除するようにフィルタリングされます」と ML スーパーラボのドキュメントには記載されています。
GPTBotがサイトにアクセスできるようにすると、AIモデルの精度が向上し、一般的な機能と安全性が向上します。
「GPTBot がサイトにアクセスできるようにすると、AI モデルの精度が向上し、全体的な機能と安全性が向上します。」
そして、OpenAI のモデルの性能を高め、リスクを低減するための時間と費用を節約したいと思わない人がいるでしょうか?
それでも、OpenAIが大規模言語モデルの学習をパブリックインターネット上で行っていることを認めたことは、ウェブ経由の情報への自動アクセスを制限しようとする組織の動きと時を同じくしている。AIソフトウェアメーカーは、モデル学習のためにウェブサイトからあらゆる種類の情報を取得し、数百万ドル、いや数十億ドルもの収益を上げている。一部の企業は、収益の一部を得られないのであれば、アクセスを遮断するなど、毅然とした態度を取っている。
例えば、Redditは最近、ユーザーが無料で作成したコンテンツをより効果的に収益化できるよう、API規約を変更しました。また、Twitterは最近、AIトレーニングのためにサイトデータがスクレイピングされるのを阻止するため、身元不明の4つの団体を提訴しました。
法律の専門家を解き放て!
OpenAIは、GPTBotに関する詳細を公開した理由を説明するよう要請したが、すぐには返答しなかった。しかし、マイクロソフトが支援するこの企業に対し、公開されているデータを同意なしに、あるいは定められたライセンス条件に違反して使用したとして、最近数件の訴訟が提起されていることは、偶然ではないかもしれない。
上記のプライバシー訴訟に加え、OpenAI、Microsoft、そしてMicrosoftの子会社であるGitHubは、11月に、OpenAIのCodexモデルを学習させるためにライセンス制限のあるソースコードを取得し、その後GitHubのCopilotソースコード提案サービスを通じてそのコードを複製したとして訴訟を起こされました。先月、複数の書籍著者が同様の訴訟を起こし、OpenAIが許可なくChatGPTを彼らの研究成果に基づいて学習させたと主張しています。
Google、DeepMind、親会社のAlphabetも同様の主張で訴えられている。
公開データをスクレイピングし、その情報を使って AI モデルをトレーニングすることから生じる法的な不確実性を考えると、OpenAI のライバルである Google が先月、ロボット排除プロトコルの仕組みを再考することを提案したことは、おそらく驚くには当たらない。
- OpenAIはAIテキスト検出器を廃止したが、これは少々ひどい
- ChatGPTのコード質問正解率はコイン投げよりも低い
- AI対AIのアクション:Google社員がGPT-4チャットボットを使って画像分類器の守護者を倒す
- 今日の最先端AIチャットボットを創造者に反抗させ、人類の破滅を企てさせる方法
ヘルスケア業界向けAIアシスタントを開発するHyroのCEO兼共同創業者であるイスラエル・クラッシュ氏は、The Registerに対し、ウェブクローリングの仕組みには主に2つの問題があると語った。
「まず、デフォルトの設定では、ウェブサイトがクロールされ、微調整に利用されることを望まないパブリッシャーは、自らオプトアウトする必要があります」と彼は述べた。「このプロセスは、クロールがユーザーをパブリッシャーのサイトに誘導するための参照情報として機能している検索エンジンの動作とは全く異なります。」
「OpenAIとAIアシスタントを利用することで、コンテンツが製品の一部となり、不正確な情報につながる可能性があります。出版社がオプトアウトしなければならないという事実は、大きな懸念を引き起こします。」
クラッシュ氏は、このコンテンツを他社の製品に統合し、変更する可能性があると、別の問題が発生する可能性があると述べた。
Microsoft Azure OpenAI により、企業は ChatGPT に企業秘密を入力できるようになります
続きを読む
「二つ目の問題は、OpenAIが『個人を特定できる情報(PII)を使用していることで知られている』ウェブサイトを除外するという声明です」と彼は述べた。「この声明には少々不可解な点があります。」
例えば、ニュース出版社は当然ながら、個人を特定できる情報を含んでいます。個人情報を保有していると明確に考えられていないウェブサイトであっても、個人情報が含まれている可能性があります。個人情報を含むコンテンツはすべて適切に編集する必要があります。
クラッシュ氏は、コンプライアンス上の懸念と責任あるモデルの使用にはより強力な安全対策が必要だと主張し、自身の会社では明示的な許可を得た場合にのみデータを取得し、個人情報を適切に扱っていると指摘した。
「OpenAIは、既にPII(個人情報)のフラグが付けられているウェブサイトのスクレイピングに注力するのではなく、すべてのサイト、特にパブリッシャーにおいてPIIの可能性があると想定すべきだ」と彼は述べた。「スクレイピングされた情報がコンプライアンス規則に準拠していることを確認するために、積極的な措置を講じるべきだ。」®