分析ウェブサイトでのやり取り中に人間とボットを区別するために設計された Google の reCAPTCHA v3 システムは、ユーザーが Google アカウントにログインしている場合は人間として判断する可能性が高く、ユーザーがプライバシーを守ろうとしている場合は疑わしいと判断する可能性が高くなると最近の調査で示されています。
2018年10月に導入されたreCAPTCHA v3は、ウェブ開発者がGoogleのreCAPTCHA APIをウェブページに統合し、ウェブサイト訪問者がボットである可能性を0.0から1.0までのスコアで評価できるようにするものです。スコアが0の場合はユーザーがボットである可能性が非常に高いこと、1の場合はユーザーが人間である可能性がほぼ高いことを意味します。reCAPTCHA v3でどのように見えるかは、こちらでテストできます。
ボット検出はまだ不十分だ。カナダのモントリオールで開催されるRLDM 2019カンファレンスで来月発表される研究論文によると、機械学習技術を用いたソフトウェアは、reCAPTCHA v3に対して90%以上の確率で人間になりすますことができるという。
GoogleのVoight-Kampffテストの過去のバージョンが破られ、開発者たちが次の、できればより堅牢なボット検出アルゴリズムの開発に再び取り組まなければならない状況にあることを考えると、これは特に驚くべきことではありません。Facebookが四半期ごとに削除する10億~20億の偽アカウントを見れば、オンライン上で人間と機械を区別することが未解決の問題であることは明らかです。
徐々に死んでいく
より効果的で、障害のある人にもアクセス可能なボット テストを開発するという最近の W3C の提案では、「従来の CAPTCHA は障害のある人にとって依然として難しいだけでなく、安全性がますます低下し、人間とロボットのなりすましを区別するという目的にはおそらく今や不適切であることが明らかになった」と述べています。
GoogleはreCAPTCHA v3の機械学習耐性を向上できるかもしれない。トロント大学の博士課程学生で、この論文の著者の一人であるモハメド・アクラウト氏によると、reCAPTCHA v3の主な問題は「私はロボットではありません」チェックボックスの位置が固定されていることだ。
「チェックボックスが初めて表示されたときに HTML ファイルを調べることでその座標をチェックし、機械学習を使用してボットにその位置に移動するように指示することができます」と Akrout 氏はThe Registerへの電子メールで説明した。
チェックボックスの位置をランダム化することでこの問題を解決するのは簡単だが、それは言うほど簡単ではないと彼は述べた。
「ほとんどの有名ウェブサイトは、ウェブページの特定のエリア(バナーやスカイスクレイパー)を広告枠として販売しており、広告主は特定のポジションに対して料金を支払っています」とアクラウト氏は述べた。「つまり、チェックボックスを表示するための空きスペースを毎回見つけるのは困難です。ウェブサイトの上部にポップアップを表示することは可能ですが、その場合、ユーザーエクスペリエンスが犠牲になります。」
オンラインではボットと人間を区別することが難しいため、Google はマウスの動きなどのインタラクション指標だけでなく、プライバシーに影響を与えるデータにも注目しています。
Torはあなたを危険にさらす
reCAPTCHAのハッキングを試みたアクラウト氏とその同僚、テレコム・パリテックのイスマイル・アクラウト氏、およびアンコールAIのアマル・フェリアニ氏は、Torを使用してIPアドレスを変更すると、プロキシやVPNの使用と同様にスコアが低下することを発見しました。また、ログイン済みのGoogleアカウントを使用してウェブサイトをシミュレーションすると、スコアが高くなることを発見しました。
「Googleには、IPアドレスやGoogleアカウントの接続状況に基づいて潜在的なボットをフィルタリングする最初のチェック層がありますが、この最初の層を通過すると、実際のreCAPTCHAシステムである2番目の層がマウスの動きのパターンを分類します」とアクラウト氏は述べた。「最初のフィルタリング層は、ユーザーが人間であると判断するのに必要でも十分でもない条件です。この条件を満たせば、次のレベル、つまり機械学習による分類層に進みます。」
つまり、Google は、プライバシーを保護する選択肢を阻害するような方法で、Google アカウント所有者に優れたウェブ エクスペリエンスを提供しているということだ。
「reCAPTCHAの背後にあるGoogleの戦略は、プライバシー保護を困難にすることにあるように思えます」と、開発者のダニエル・シャムウェイ氏はHacker Newsへの投稿で述べています。「人間にしかできないタスクがあるという考えは、もはや事実上諦めてしまっています。v3は、Googleが『あなたがロボットではないことを証明する方法をご存知ですか? なぜなら、私たちは文字通りあなたが誰であるかを正確に知っているからです』と公然と宣言しているように感じます。これをCAPTCHAと呼ぶべきかどうかさえ分かりません。単なる本人確認のように思えます。これは許容できるトレードオフではないと思います。」
開発者の Armin Sebastian 氏は 3 月の GitHub の問題投稿の中でこの問題を提起し、reCAPTCHA は住宅 IP アドレスから閲覧する際に視覚障害者が視覚パズルの代わりに受け取る音声チャレンジを定期的にブロックしていると主張しました。
Google Chromeを使うと、この問題は軽減される傾向があると彼は述べた。「Chromeに切り替えてGoogleアカウントに常にログインしたままにすることで、音声チャレンジにある程度成功したという報告が寄せられています」と彼は述べた。「reCAPTCHAサービスは、VPNやTorなどの匿名サービスから接続するユーザーにも悪影響を及ぼします。」
もう一つのデータ吸い取りツール
Google のボット捕捉スキーム (バージョン 3 は約 65 万のウェブサイトで見つかる) の人気は、「プライバシーを求める人々がウェブの大部分にアクセスするのを事実上阻止される」ことを意味しているとセバスチャン氏は述べた。
The Register は、一部の人が主張しているように、reCAPTCHA が Firefox ユーザーの技術選択を過度に妨げていると苦情を言う人がいるかどうかについて Mozilla にコメントを求めたが、回答は得られなかった。
reCAPTCHA は、プライバシーを侵害する可能性があるだけでなく、Google 検索、Accelerated Mobile Pages、Google アナリティクス、Safe Browsing API、Android など、データを供給することで Google の競争力を強化するインターネット テクノロジーの 1 つでもあるため、批判を招いています。
「GoogleのreCAPTCHAの進化は、人々に認識タスクを実行させるのではなく、ウェブ上で受動的に人々を追跡することで人間性を判定することにますます重点を置いています」と、電子フロンティア財団のシニアスタッフテクノロジスト、ジェイコブ・ホフマン=アンドリュース氏はThe Registerへのメールで述べています。「残念ながら、GoogleはreCAPTCHAのプライバシーへの影響について非常に口を閉ざしているため、Googleがあなたの人間性(reCAPTCHA v3では「リスクスコア」)を判定するためにどのデータソースを使用しているのかは推測するしかありません。しかし、Googleがより多くのサイト、より多くのアプリ、そしてより多くの人々からより多くのデータを収集するにつれて、reCAPTCHAの実行において彼らの優位性はますます大きくなっています。」
ホフマン=アンドリュース氏は、Googleが定義する基準から外れた人々にとって、これがオンライン生活をより困難にすると主張している。「reCAPTCHA v3の『リスクスコア』によってウェブがどのように変化するかは不明です」と彼は述べた。「サイトがこれを使って高リスクスコアのユーザーを締め出せば、Googleなどの閲覧履歴の追跡を拒否するだけのユーザーまで締め出してしまうことになるかもしれません。」
彼はさらに、GoogleがreCAPTCHAの仕組みについて社内で詳細を明らかにしていないため、同社がGoogleサービスを利用しているユーザーをそうでないユーザーよりも優遇しているとは言い切れないと付け加えた。しかし、Akroutのような調査結果は、何かがおかしいことを示唆していると彼は言う。
「もしreCAPTCHAが本当にそういう仕組みだとしたら、Googleのサービスを利用しない人々にとって明らかに不公平だ」と彼は述べた。「Google以外のユーザーにとってウェブを少しだけ敵対的なものにすることは、より多くの人々をGoogleのサービスへと誘導する一つの方法だ」
Googleのささやき師たちが90%の成功率でreCaptchaの音声チャレンジを制覇
続きを読む
The Registerは金曜日にreCAPTCHAに携わるGoogleのエンジニアと話す予定だったが、残念ながら電話はキャンセルになった。
その代わりに、Googleの広報担当者は次のような声明を出している。「悪意のある人物がその情報を利用して検出を逃れ、インターネット上のサイトを攻撃するのを防ぎたいため、セキュリティ手法を公開していません。」
Googleは、reCAPTCHAはスパムや不正利用の防止のみを目的としていると主張しています。また、このサービスから収集した情報を広告に利用することはないと強調しています。
「reCAPTCHA APIは、デバイスやアプリケーションのデータなど、ハードウェアとソフトウェアの情報を収集し、これらのデータを分析のためにGoogleに送信することで機能します」と、同社の広報担当者はThe Registerへのメールで述べています。「サービス利用に関連して収集された情報は、reCAPTCHAの改善と一般的なセキュリティ目的に使用されます。Googleによるパーソナライズ広告には使用されません。」
Google は収集した情報をどのように使用するかについてはまだ具体的に説明していません。®