AIは、人身売買の惨禍を撲滅するための継続的な取り組みにおいて、警察がどのホテルに被害者が拘束されているかを把握するのを支援する最新の取り組みです。
毎年何十万人もの人々が、本人の意思に反して国境を越えさせられ、搾取されています。その多くは売春を強要された若い女性です。人身売買業者は、ホテルの部屋で被害者の写真を撮影し、オンラインのエスコート広告に利用することがしばしばあります。現在、科学者たちは、広告画像から読み取ったパターンに基づいて、警察や非営利団体が被害者の拘束場所を特定できるよう、機械学習ソフトウェアを活用しようとしています。
米国のジョージ・ワシントン大学、テンプル大学、そしてアドビの研究者グループが、世界各国の5万軒のホテルから100万枚以上の画像を含む大規模なデータセットを構築しました。彼らは、この公開データセット「Hotels-50K」が、オンライン広告の背景から被害者の居場所を数秒で特定できるニューラルネットワークの訓練に役立つことを期待しています。
部屋の装飾は、そのホテルが位置する可能性のある場所に基づいて、その部屋がおおよその周辺環境を示している可能性があります。カーテン、壁紙、ベッドカバーなどを分析することで、被害者を特定のホテルチェーンや場所に絞り込むことができます。
「まず、ホテルインスタンス認識の問題を提案し、定式化します」と彼らは先月末にarXivで発表された論文に記した。
第二に、人身売買問題への国際的な取り組みに適切な規模で、この問題に関するデータセットと評価プロトコルを整理し、共有します。第三に、比較のための適切な基準として、この問題に取り組むために必要なデータ拡張手順を含むアルゴリズムを記述し、テストします。
この研究は先週ハワイで開催されたAAAI会議で発表された。
写真だけからホテルを識別するのは、当然のことながら非常に困難です。ほとんどのホテルの部屋は似たような外観をしているため、ニューラルネットワークに様々なホテルチェーンを識別するための識別子を学習させるには、できるだけ多くの異なるホテルの写真が必要になります。
「ホテルの部屋の画像からホテルを特定する私たちのアプローチは、深層畳み込みニューラルネットワークを訓練し、各画像に対して短いコードを生成することです。同じホテルの画像は非常に似たコードを持ち、異なるホテルの画像は非常に異なるコードを持ちます」と、論文の筆頭著者であり、ジョージ・ワシントン大学のポスドク研究員であるアビー・スティリアノウ氏はThe Register紙に説明した。「そして、最も類似したコードを持つ画像からホテルの身元を推測します。」
すべての画像には、ホテル名、所在地、ホテルチェーンかどうかといった情報が注釈として付けられています。Expediaなどの旅行ウェブサイトから取得した写真の中には、清潔で明るい客室の写真もあれば、人身売買や虐待の被害者を助けたいと願う人々から送られてきたアマチュア写真を掲載したTraffickCamから抜粋した写真もあります。
データセットに含まれる5万種類のホテルクラスのうち、13,900種類に対応するTraffickCam画像があります。これらのアマチュア画像は、ホテルチェーンが客室に使用するプロ仕様の光沢のある画像ではなく、オンライン広告用にトラフィッカーが撮影した粗い画像に近いため、トレーニングにおいて貴重な情報となります。
Hotel-50Kデータセットで訓練されたニューラルネットワークは、怪しいTraffickCam画像を旅行ウェブサイトの完璧な画像にマッピングし、正しいホテルを特定することを学習する必要があります。データセットを用いて訓練されたAIのテストには、約17,954枚のTraffickCam画像が使用されています。
トレーニングとテスト
テストデータセットはトレーニングデータセットと似ていますが、人身売買事件で実際に使用される写真(被害者は黒のオーバーレイで隠されています)を模倣した人物の形をしたシルエットが含まれています。つまり、トレーニングデータセットは、警察が被害者の居場所に基づいて追跡するために公開する写真を模倣しており、写真に写っている人物はプライバシー保護のため白黒で塗りつぶされています。
理想的には、Hotels-50K データセットでトレーニングされたシステムは、写真に人物が写っているかどうかに関係なく、部屋の装飾に基づいてホテルを識別できるようになります。
「我々は(本物の人身売買の)画像を使って訓練することができない。なぜなら、それらの画像はあまり入手できず、どこで撮影されたのかも通常は分からないからだ」とスティリアノウ氏は語った。
しかし、捜索時にこれらの画像からホテルを特定できなければなりません。これを確実に行うために、捜査官は常に被害者を写真から消し、画像に「白紙」の領域を残すと想定しています。
次に、Microsoft Common Objects in Contextデータセットの人物型マスクを用いて、ネットワークの学習に使用した複数の画像から、類似した外観の領域を人為的に消去します。これにより、画像内に大きな空白部分があっても、ネットワークは同じホテルの画像に対して類似したコードを生成するように学習します。
刑事司法ソフトウェアのコードによって刑務所行きになる可能性があり、それについては何もできない
続きを読む
研究者たちは、2つの事前学習済みニューラルネットワーク(ResNet-50とVCG)を用いてデータセットをテストしました。どちらも、画像から一般的なホテルチェーンを80%近くの精度で正しく識別することができました。
論文によると、「私たちのモデルによって取得されたトップ画像のほぼすべては正しいホテルチェーンのものですが、必ずしも正しいホテルのものではありません」。
テスト画像を与えると、システムはホテルチェーンを推測するために最も類似した画像を1000枚見つけます。しかし、個々のホテルを特定するのははるかに困難です。Stylianou氏は、このアプローチでは最初の100枚の画像で正しいホテルを特定できたのはわずか24%だったと認めています。これは低いように聞こえるかもしれませんが、彼女は次のように語っています。
研究者らは、データセットでトレーニングしたシステムが実際の人身売買の写真に対してどの程度うまく機能するかについて結果をまだ明らかにしていないため、結果はまだ良好ではない可能性がある。
しかしながら、研究者らは、彼らの検索システムはアメリカの国立行方不明・搾取された子供たちセンター(NCMEC)などの組織によって使用されていると述べた。
「私たちの目標は、非常に多くのクラスを伴う困難な視覚認識問題に関心を持ち、その研究を応用して世界に貢献したいと考えるコンピュータービジョンや機械学習の研究者にこのデータセットを利用してもらうことです」とスティリアノウ氏は述べた。
このようなシステムの構築に挑戦したい場合は、データセットをご覧ください。®