批判の嵐の中、出会い系サービスTinderからスクレイピングして作成された顔画像のセットがKaggleから削除された。
開発者のスチュアート・コリアーニ氏は、顔データセットは一般的に小さすぎて役に立たないという前提で、40,000 個の強力な「hoes」(ソースコード内の魅力的な変数名*。リポジトリも停止した場合に備えて以下に詳しく説明します)のセットを構築しました。
彼がデータセットを公開した Kaggle ページは現在 404 を返します。
The Register は、利用規約でクローラーを禁止している Kaggle に削除の理由を確認するよう求めました。
GitHub ページで、コリアーニ氏は削除は Tinder からのリクエストによるものだと述べています。
中程度の強度のプライバシー規制がある管轄区域では、同意なしにデータをスクレイピングして公開することは、おそらく違反行為に相当します。
例えば、オーストラリアのプライバシーアナリスト、ロックステップのスティーブン・ウィルソン氏は、出会い系サイトのスクレイピングは「拾得による窃盗に近い犯罪」である(つまり、紙幣が詰まったスーツケースを見つけても、それを持ち帰ることはできず、持ち主を探す必要があるということだ)とレジスター紙に語った。
同様に、複数のデータセットから個人を特定できる情報を推測するという人気の趣味は、多くの国でプライバシー法違反となります。
ウィルソン氏は、世界中のデータプライバシー法では「公開」という言葉がほとんど使われていないと指摘しています。®
*ブートノート:次のようなコード スニペットでは、意図を無害であると受け入れることは困難です。
# 被写体のリストを反復処理します for hoe in hoes: # 被写体のIDを取得します sid = hoe['_id'] # 被写体の写真のリストを取得します pictures = hoe['photos']
上品さを保つ
どうやら、俺たちみんなヤリマンらしいな。