データは新しい石油、つまり情報経済の燃料であると主張されてきましたが、検索エンジンにとっての重要性は誇張されているかもしれません。
米国オクシデンタル大学のレスリー・チオウ准教授とMITスローン経営大学院のキャサリン・タッカー教授は、全米経済研究所を通じて月曜日に発表した論文の中で、検索ログデータを保持しても検索の質はあまり向上しないと主張している。
著者らは、データ保持は欧州の忘れられる権利をめぐる議論に影響を与えると指摘する。保持されたデータはその権利を損なうからだ。また、これは米国のプライバシー規制に関する政策議論にも関連している。
10 年前、Google はサーバー ログの検索データ保存ポリシーを「必要な期間」から「必要な期間」に変更しましたが、データは最初の 18 ~ 24 か月間のみ識別可能で、その後は匿名化されるという注意事項がありました。
これは、Microsoft やYahoo!などの他の検索エンジンプロバイダーも直面しなければならなかった問題でした。
2008年までに、Googleは9か月後にIPアドレスの最後の8ビットを削除し、18か月後にはより実質的な匿名化を行うことを決定した。
当時同社は、検索ログを保存する理由の一つは「ユーザーの利益のために検索アルゴリズムを改善するため」だと述べていた。
法令遵守やスパム対策など、データを保持する理由は他にもあります。
Googleはオンライン広告の効果を証明するために、オフラインでの支出を追跡している。プライバシー保護団体は激怒している
続きを読む
しかし、過剰なデータを保持しないことは有益です。データを保持し続けると、企業は法的要請の標的となり、ハッキング被害に遭った場合には責任を問われる可能性があります。また、ストレージインフラにもコストがかかります。
保持ポリシーが検索結果の精度に影響するかどうかを判断するために、Chiou 氏と Tucker 氏は、メトリクス ビジネスの Hitwise のデータを使用して、検索サイトによって発生する Web トラフィックを評価しました。
彼らは、 Bing が検索データの保存期間を 18 か月から 6 か月に変更した期間、Yahoo !が保存期間を 13 か月から 3 か月に変更した期間、および Yahoo! が考え直して 18 か月の保存期間に移行した期間の Microsoft Bing と Yahoo! 検索を調査しました。
Chiou 氏と Tucker 氏によると、データ保持期間は検索エンジンから下流の Web サイトへのトラフィックの流れに影響を与えなかった。
「私たちの調査結果は、長期間のデータ保存は検索品質に利点をもたらさないことを示唆している。これは企業がデータ保存の利点としてよく挙げるものだ」と論文には記されている。
これらの調査結果は、Googleが検索ログデータの価値を過大評価していることを示唆しているかどうかを電子メールで尋ねられたChiou氏は、The Registerに対し次のように述べた。「私たちの調査はYahoo!とBingのデータ保持ポリシーを調査したもので、Googleは調査していません。なぜなら、Googleは当時、データ保持ポリシーに変更を加えていなかったからです。私たちの論文では、Yahoo !とBingの変更がGoogleに有利に働いたという証拠は見つかりませんでした。」
チウ氏とタッカー氏は、プライバシー法の消費者と企業への想定されるコストは、認識されているよりも低い可能性があると指摘しています。また、彼らは、データ保持が検索市場の支配力に影響を与えるという主張を、彼らの研究結果が弱めると主張しており、Googleに対する反トラスト法上の議論においてデータ保持の重要性が低下する可能性があると述べています。®