車はその所有者について何を物語るのでしょうか?大学の研究者たちは、Googleストリートビューで車を見ることで、アメリカの各地域の収入、教育、人種、投票パターンを正確に推定することに成功しました。
アメリカン・コミュニティ・サーベイ(ACS)のような全国規模の世論調査は、数百万人にリーチし、毎年10億ドル以上の費用がかかることもあります。各世帯に用紙が送られ、「人口統計、社会、経済、住宅特性」に関する情報を収集します。記入は面倒で、何度も電話がかかってくるのも煩わしいものです。
しかし、山のような書類を扱ったり、人に迷惑をかけたりすることなく、情報を入手する方法があったらどうでしょうか?arXivに掲載された論文によると、機械学習のおかげで、より良い代替手段があるかもしれないとのことです。この技術は、文字通り市民の生活のスナップショットを撮り、自動的に背景を推測するというものです。
広く使用されている画像分類データセットであるImageNetを作成したコンピュータービジョンの著名な教育者であるフェイフェイ・リー教授の指導の下、スタンフォード大学、ライス大学、ミシガン大学、ベイラー医科大学の研究者チームが、Googleストリートビューから撮影された5,000万枚の画像を照合する作業に着手しました。
まず、物体認識アルゴリズムを用いて、米国200都市で撮影された写真から車両を抽出しました。これらの写真から2,200万台の異なる車両が検出され、畳み込みニューラルネットワークとディープラーニングアルゴリズムを用いて、各車両のメーカー、モデル、ボディタイプ、年式が割り出されました。
次に、情報は地理的地域ごとに分類され、研究者は各地域における各メーカー・モデルの車両台数を数えることができました。平均価格、燃費、全体的な車両密度に関する追加データも含まれていました。データセットは分割され、約5分の1がトレーニングに使用され、残りはテストに使用されました。
ストリートビュー画像を処理中(Li、Fei-Fei他)... クリックして拡大
研究者らは、米国国勢調査と大統領選挙の投票結果を利用して、特定の地域で見られる車両を、その地域に住む人々の人種、教育水準、推定収入、投票傾向と大まかに一致させるようにモデルを訓練した。
調査の結果、車の種類と社会経済動向の間には強い関連性があることが分かりました。アジア系の人々は、特にホンダやトヨタといったアジア車に乗る傾向が強いです。クライスラー、ビュイック、オールズモビル製の車はアフリカ系アメリカ人居住地域でよく見られ、ピックアップトラック、フォルクスワーゲン、アストンマーティンは主に白人居住地域でよく見られました。
興味深いことに、15分間のドライブ中に様々な都市で見かける車の種類を数えるだけで、その地域の政治的志向を的確に把握することができます。セダンは民主党支持世帯と最も強く結びついており(88%)、ピックアップトラックは共和党支持層の支持率が高い地域で多く見られました(82%)。
機械は社会経済の変化をより正確に検知できる
試験段階では、寛大に見積もれば、この手法はかなり正確であることが明らかになった。165都市の人口統計推定値と実際のACSデータの間には、特に人種と投票者の選好において強い相関関係が見られた。例えば、ワシントン州シアトルの人口は69%が白人であり、アフリカ系アメリカ人の人口は主に南部のいくつかの都市に集中していると、モデルは正しく推測した。北東部諸州の都市には主に高学歴の人々が住んでおり、南部の住民の所得は最も低い。
結果を詳しく見ると、選挙区レベルでの政治的傾向の精度が高いことがわかります。ウィスコンシン州ミルウォーキーは311の選挙区を有する民主党支持の強い都市ですが、モデルは264の選挙区の政治的傾向を正しく分類し、その精度は85%でした。共和党支持の強いアリゾナ州ギルバートでは、推定値はさらに高く、60の選挙区のうち58の選挙区で97%という驚異的な精度を記録しました。
アルゴリズムと車の画像だけでは、地域の人口統計を大まかにしか把握できず、アンケートに回答するよりも正確性に欠けます。ソフトウェアは当たり前のことを教えてくれるだけだとさえ言えるかもしれません。しかし、機械は人間よりもはるかに速く処理できるので、AIの脳にはその利点があります。
コンピューターが5000万枚の画像を処理するのにかかった時間はわずか2週間でした。人間が1枚あたり10秒かけて同じ作業を完了すると、15年以上かかるでしょう。データの収集頻度が低いと最新の調査結果が古くなってしまう可能性があり、この新しい手法は社会の変化をより適切に検出・比較する方法を提供します。
結果を改善する一つの方法は、衛星画像やソーシャルネットワークからの写真など、他の種類の画像を組み込むことだと論文は述べている。
機械学習の発展は、アルゴリズムの能力を加速させ、データ収集を強化します。公開リソースからこれほど幅広い個人情報を推測できることは素晴らしいことです。政治家の政策立案を支援したり、景気後退などの社会経済のトレンドを検知したりするなどの利点がある一方で、プライバシーに関する懸念も存在します。
「公的データは、個々の国民の合理的なプライバシーへの期待を損なうために使用されるべきではないことは明らかであり、これが今後の中心的な懸念事項となるだろう」と2月22日付の文書は述べている。®