Googleは水曜日、「Private Join and Compute」と呼ばれるプロジェクトのソースコードを公開した。このプロジェクトにより、2つの当事者が、それぞれのセットの内容をもう一方の当事者に明らかにすることなく、共有データセットを分析、比較できるようになる。
これは、広告のクリックから売上へのコンバージョン率などのプライベートの暗号化されたデータ セットが、実際の数値をどちら側にも公開せずに、他の人の暗号化されたコンバージョン率データ セットとどのように相関しているかを確認したい場合に役立ちます。
この手法は、Private Set-Intersection(PSI)と呼ばれる暗号プロトコルを基盤とする、安全なマルチパーティ計算の一種です。Googleは、このアプローチを「Password Checkup」というChrome拡張機能に採用しています。この拡張機能を使うと、ユーザーはログイン情報とパスワードを、侵害された認証情報のデータセットと照合してテストすることができ、クエリをインターネットの巨人に公開する必要はありません。
プライベート結合と計算 (プライベート交差合計 (PIS) とも呼ばれる) は、2 つのデータ セットの交差を表すデータを非表示にし、データに基づく計算の結果のみを表示することで、PSI をさらに進化させます。
この手法は、Mihaela Ion、Ben Kreuter、Ahmet Erhan Nergiz、Sarvar Patel、Mariana Raykova、Shobhit Saxena、Karn Seth、David Shanahan、Moti Yung の 9 人の Google 研究者によって執筆された研究論文「安全なコンピューティングの商業展開について: プライベート インターセクション サム プロトコルとそのビジネス アプリケーション」で説明されています。
この論文では、ランダム オブリビアス転送、暗号化ブルーム フィルタ、Pohlig–Hellman 二重マスキングという 3 つの暗号化プロトコルを使用して PIS を計算する方法について説明します。
実用的
「プライベート・インターセクション・サムは恣意的な問題ではなく、むしろ自然に生まれ、広告キャンペーンの総合的なコンバージョン率(または効果)を計算するという、ある中心的なビジネスニーズに基づいて具体的に定義されたものです」とGoogleの研究者は論文の中で説明しています。「この問題は、大きな実用的価値と重要なプライバシー上の考慮事項の両方を伴い、驚くほど頻繁に行われる分析の一種です。」
Googleの研究者は、ある都市が週末の鉄道サービスの運行コストが地元企業の収益増加によって相殺されているかどうかを把握したいというシナリオを例に挙げています。都市の乗客データセットと小売業者のPOSデータセットは、Private Join and Computeを用いて処理され、個人を特定できる情報を一切公開することなく、地元の店舗で購入した鉄道利用者の総数を特定できます。
マイクロソフトのようにデータを封印しよう:レドモンドが「シンプルな」準同型暗号の設計図をオープンソース化
続きを読む
Googleの研究者たちは、組織のデータマイニングへの欲求とプライバシーへの関心の高まりを両立させるには、セキュリティの高いコンピューティングプロトコルが必要だと主張している。「実際、世界中のユーザーや政府によるプライバシーへの配慮は急速に高まっています」と彼らは指摘している。
米国オレゴン州立大学のコンピューターサイエンス助教授マイク・ロスレク氏は、 The Registerへの電子メールで、PSIは、Googleと別の企業が、広告キャンペーンの効果を把握するためにデータを共有し、集計データを生成し、その後契約上の強制の下で互いのソースデータセットを処分することを約束する法的契約を起草するという現状に取って代わることができると説明した。
これらのPSI技術により、企業は法的手続きを経ることなくこれを実現できます。「PSIでは、暗号化によって文字通り許可された範囲を超える情報を得ることができないため、『合意』に違反することはありません」と彼は述べています。
ロスレック氏は、こうしたデータセットに登場する人々、つまりGoogleの広告を見た、あるいは広告された製品を購入した個人に対して、PSIサムの計算は契約シナリオと同様のプライバシー保護策を提供すると述べた。
「セルゲイ・ブリンの夢に幽霊が現れて、『この広告を見た人はX社に合計82万4852ドルを費やした!』と言ったと想像してみてください」と彼は言った。「もしこの恐ろしい光景が個人のプライバシーの重大な侵害ではないと感じるなら、PSI-sumはあなたに関する全く同じ情報を世間に公開することになるので、安心してもいいでしょう。」
ロスレック氏は、この技術の最大の恩恵は、プライバシーの問題を恐れて分析を一切行わなかったであろう企業にもたらされると示唆している。
Google は、プライバシーを保護しながら総合的な広告コンバージョンを割り出す方法としてこの技術を開発したが、この Web 大手は、PIS によって安全なコンピューティングへのアクセスが広く可能になることで、公共政策、多様性と包摂性、医療、自動車の安全性に関する研究が前進することを期待していると述べている。
しかし、現時点ではコードの安全性は十分とは言えません。PISセキュリティモデルは「正直だが好奇心旺盛な敵」を想定しており、GitHubリポジトリに記載されているように、「参加者がプロトコルから逸脱した場合、規定の情報以上の情報を取得する可能性があります」。さらに、このプロトコルは、利用者が正当な入力を行うことを保証しておらず、また恣意的な入力を防ぐこともできません。そして、PIS情報が漏洩する可能性もあります。
「たとえば、識別子に非常にユニークな整数値が関連付けられている場合、その識別子が共通部分に含まれているかどうかを、共通部分の合計を見るだけで簡単に検出できる可能性があります」と GitHub リポジトリは警告している。
このコードは Google によって公式にサポートされておらず、保証はありません。®
暗号化といえば…今週のMongoDB World 2019で発表されたMongoDB Server 4.2 RCには、「クライアントサイドのフィールドレベル暗号化」と呼ばれる機能が搭載されています。開発者によると、これによりクライアントは「ドキュメントの個々のフィールドを選択的に暗号化し、各フィールドはオプションで独自のキーで保護され、クライアント側でシームレスに復号化される」とのことです。
これにより、データはデータベースに保存される前にクライアントによって暗号化され、取得時にクライアントによって復号化されるため、エンドツーエンドの暗号化が実現します。MongoDBデータベースをホストしている人は誰でもデータを復号化することはできません。必要な鍵を持っているのは理想的にはクライアントだけだからです。