Google のニュース アグリゲータはここ数日、不運な閲覧者向けに奇妙な医薬品関連のリンクを大量に流し出している*。
この件について読者から数通のメールをいただいており、マウンテンビューのニュースアグリゲーターにSEO対策されたキャッチーなタイトルが流れてきた際、私たち自身も露骨なスクリーンショットを撮ることができました。「レビトラプロフェッショナル服用後のペニス - レビトラプロフェッショナルのメールオーダー電話番号」や「シアリスゼリーレビュー - シアリスオーラルゼリーレビュー」といったタイトルが画面に流れていました。
Google翻訳風の見出しは、The Boyne City Gazetteのウェブサイトから発信されているように見えますが、実際にはカナダの様々な薬局サイトやギャンブルサイトにリダイレクトされています。専門家によると、このリダイレクトはWordPressで実装されているとのことです。ウェブサイトにコメントを求めました。
本稿の公開時点では、米国の Google ニュース アグリゲータの「健康」セクションでは怪しいリンクが目立っていました。
クリックして拡大
市場を独占する検索・広告の巨人は、サポートページでパブリッシャーにこう伝えている。
一般的に、Google ニュースは独自のジャーナリズムを推進し、ユーザーに多様な視点を紹介することを目的としています。
それは、「人間の編集者が記事を選んだり、どの記事をトップに掲載するかを決めたりしているわけではない」ということを裏付けている。
Google ニュースでのランキングは、明らかに、次のようなさまざまな要素によって決まります。
- コンテンツの鮮度
- コンテンツの多様性
- リッチテキストコンテンツ
- コンテンツの独創性
また、PageRank と同様に、明確な概念的なページ階層やクロールしやすいリンクなど、いくつかの技術的要素も考慮します。
Googleは4月に検索ランキングアルゴリズム(PageRank)を最後にアップデートしました。これは、同社が検索結果で「フェイクニュース」を宣伝しているという苦情への対応も一因となっています。多くのSEO「達人」が熱心に推測していますが、Googleニュースアルゴリズムが最後にアップデートされた時期は不明です。Googleはこの特許を2012年に申請しましたが、それ以降どれだけ進歩したかは不明です。
数学者ハンナ・フライ博士のような批評家の中には、「密室で」行われているアルゴリズムと、そのアルゴリズムがふるいにかけるデータの背後にいる人々との間の緊張について語る人もいる。
ペニスニュースゲート事件はどうやって起きたのか?
どうやら読者は、麻薬やカジノのサイトにリダイレクトされることなく、ボイン・シティ・ガゼットのウェブサイトに直接アクセスすることができるようだ。
仕組みはこんな感じです…たまに、そのページにアクセスするとスパムサイトに誘導されます。当社の技術バックエンドのプロによると、秘訣は「リファラーがGoogleニュースの場合はスパムサイトにリダイレクトする」ことだそうです。
$ curl -vs -H 'リファラー: https://news.google.com/' 'http://boynegazette.com/?f16ru=1802997573' * 50.62.120.1 を試行しています... * boynegazette.com (50.62.120.1) ポート 80 (#0) に接続しました > GET /?f16ru=1802997573 HTTP/1.1 > ホスト: boynegazette.com > ユーザーエージェント: curl/7.43.0 > 受け入れる: */* > リファラー: https://news.google.com/ > < HTTP/1.1 200 OK < 日付: 2017 年 6 月 12 日月曜日 13:52:31 GMT < サーバー: Apache < 変化: Accept-Encoding < 転送エンコーディング: チャンク < コンテンツタイプ: text/html < * ホスト boynegazette.com への接続 #0 はそのまま残ります <html><head><style>html、body、div、iframe {margin:0;padding:0;height:100%;}iframe {display:block;width:100%;border:none;}style></head><body><div><iframe src="https://shop.medcom.top/search.html?key=wellbutrin xl"></iframe></div></body></html>
「Google ニュース」リファラーがないと、設定ビットが優先され、単に www: にリダイレクトされます。
$ curl -vs -H 'リファラー: -' 'http://boynegazette.com/?f16ru=1802997573' * 50.62.120.1 を試行しています... * boynegazette.com (50.62.120.1) ポート 80 (#0) に接続しました > GET /?f16ru=1802997573 HTTP/1.1 > ホスト: boynegazette.com > ユーザーエージェント: curl/7.43.0 > 受け入れる: */* > リファラー: - > < HTTP/1.1 301 永久に移動 < 日付: 2017 年 6 月 12 日月曜日 13:58:17 GMT < サーバー: Apache < 有効期限: 1981 年 11 月 19 日木曜日 08:52:00 GMT < キャッシュ制御: no-store、no-cache、must-revalidate、post-check=0、pre-check=0 < プラグマ: no-cache < Cookie を設定: PHPSESSID=cg531kpfkorbet1hcu2m1s6iu3; パス=/ < 場所: http://www.boynegazette.com/?f16ru=1802997573 < コンテンツ長: 0 < コンテンツタイプ: text/html; 文字セット=UTF-8 < * ホスト boynegazette.com への接続 #0 はそのまま残ります
数十億ドル規模の広告を投下し、サービスを宣伝し、ソフトウェア開発、AI推進、そしてハードウェアメーカーとして事業を展開するAlphabet Inc.は、かつてスタンフォード大学の博士課程学生ラリー・ペイジ氏とセルゲイ・ブリン氏による研究プロジェクトで開発されたアルゴリズム、具体的には検索アルゴリズムに基づいて設立されました。このアルゴリズムは、ウェブのリンク構造を利用して各ページの「品質」ランキングを算出し、検索エンジンが表示する検索結果に反映されます。また、一部のソースリンクの権威性もランキング作成に利用しています。Googleニュースのアルゴリズムは、PageRankとは別のものだと考えられています。
我々はボイン・シティ・ガゼットにコメントを求めており、新しい情報が入り次第更新します。
Google ニュースの失礼な見出しは、Facebook や YouTube のトップページ、あるいは Alphabet のニュース アグリゲータではなく、信頼できるとわかっている Web サイトからニュースを入手する (ええ、ええ?) あなたのような目の肥えた読者にとっては単なる面白い逸話に過ぎないが、それは私たち全員に考えさせられるものとなるはずだ。
Alphabet Inc.は、クラウドサービス、オフィスツール、ソフトウェアなど、増え続けるツールやサービスを次々と展開しており、シリコンバレーの他の企業と同様に、機械学習とAIにも力を入れています。例えば、AI搭載のビジュアル検索ツールで顔を検出し、写真を自動的に分類・タグ付けするCloud Vision APIなどのプロジェクトがあります。また、絶大な人気を誇るブラウザChromeで広告をブロックする機能も提供しています。
巧妙なアルゴリズム、インデックス作成、クロール、そして検索は、この企業の中核技術と言えるでしょう。このようなハイジャックは、ましてや何時間も続くようなことはあり得ません。
あと11ヶ月ちょっとで年次総会です。そろそろ修道女たちを呼び戻す時期でしょうか?®
*この問題を知らせてくれた読者の Rob、Thomas、K に感謝します。少なくとも 1 人は数週間前からこの現象に遭遇していると言っていますが、ほとんどの読者は昨日連絡をくれました。