あなたの手の中にあるものは携帯電話?それとも銃?このニューラルネットワークは、全てを把握しているようだ

Table of Contents

あなたの手の中にあるものは携帯電話?それとも銃?このニューラルネットワークは、全てを把握しているようだ

人工知能(AI)は、運転、会議のスケジュール管理、音声の文字起こしといった、日常的で退屈な作業を肩代わりする可能性を秘めています。そして今、そのリストに新たな仕事が加わりました。それは、動画に映る拳銃の検出です。

技術が進歩するにつれ、警察官や警備員が、関連部分を探すために何時間もの映像を巻き戻すことなく、興味のあるシーンに直接ジャンプできるようになる日もそう遠くないだろう。

スペインのグラナダ大学の研究者らは、銃器を自動的に検出するための畳み込みニューラルネットワーク(CNN)のトレーニングに関する論文を執筆した。

監視企業は以前からこうした機能に興味を示してきました。警察用ボディカメラの大手プロバイダーであるテイザー・インターナショナルは、今年初めにコンピュータービジョン企業2社、デクストロとフォッシル・グループを買収しました。買収したこれらの企業は、テイザーが何時間にもわたる映像から特定の対象(おそらく既知の犯罪者の顔や武器など)を自動的に検索できるソフトウェアを開発する上で役立つと期待されています。

Dextroは、ライブビデオをリアルタイムで分析する初のディープラーニング企業であると主張しました。Fossil Groupは画像と動画の処理に特化していました。両社は統合され、Taser社の新たなAI部門であるAxon AIが誕生しました。

Axon AI が膨大なデータをどのように分析するのかは不明だが、ボディカメラの映像から武器を探す警官の支援を計画しているのであれば、グラナダ大学の論文で強調されているものと同様のアプローチを採用する可能性がある。

この研究は、非常に注目を集める、画期的な技術となる可能性を秘めています。論文の筆頭著者であり、グレナダ大学工学部の助教授であるシハム・タビク氏は、レジスター紙に対し、研究チームは最近ある企業から提案を受け、「近いうちに会って話し合う」予定だと述べました。

止まれ!両手を上げて

VGGNet は 16 層で構築され、1 億 4,400 万ものパラメータを処理する大規模な畳み込みネットワークであり、銃の形状や色などの一般的な特徴を認識する分類器としてトレーニングされています。

リボルバー、自動拳銃、半自動拳銃、六連発拳銃、馬用拳銃、デリンジャー銃などの一般的なタイプの拳銃のみが対象となりました。

最良の方法は「領域提案アプローチ」を用いるもので、研究者は訓練に使用した3,000枚の画像それぞれにおいて、銃の位置を「バウンディングボックス」で強調表示することで銃を識別します。これにより、VGGNetは銃とは無関係な背景ピクセルに計算能力を浪費することなく、分類アルゴリズムの対象となる特定の領域を探索できます。

1000 x 1000 ピクセルの画像の検出プロセス全体は、わずか約 0.19 秒しかかかりませんでした。これは、ほぼリアルタイムでピストルを検出するには十分な性能であり、ビデオを処理する場合には重要な機能です。

精度を高めるため、研究者たちは偽陽性(一見銃のように見えるが実際には銃ではない物体)の検出を最小限に抑えることを目指しました。この目的のため、研究者たちはニューラルネットワークに様々なデータセットから数千枚の画像を入力し、銃と携帯電話やペンなどの他の物体を区別できるように画像を学習させました。

研究者たちは、厳選した7本のYouTube動画でモデルをテストしました。その多くは、『ワールド・イズ・ノット・イナフ』『パルプ・フィクション』『ミッション:インポッシブル/ローグ・ネイション』 、『ミスター・ビーン』といった90年代の人気映画のワンシーンです。

ビデオ静止画で4丁のピストルを正確に検出した例

銃が50%以上の精度でハイライト表示されたボックスが表示された場合、真陽性、つまり銃が正しく識別されたとみなされます。検出器は7本の動画のうち6本(60%以上)で非常に高い精度を示し、誤検出の数は少ないです。

非常に正確で、84.21パーセントの確率で銃を正確に識別します。

テスト動画を詳しく見ると、このモデルはまだ実生活で使用できるほど感度が高くないことがわかります。動画のコントラストや明るさが低い場合、銃が非常に速く動いている場合、あるいは人の手で大きく隠れている場合など、動作が鈍くなります。

パルプ・フィクションから引用した画像。モデルは背景にある2丁の銃を検知できなかった(偽陰性)。

ビデオクリップの画質は低いが、パフォーマンスが優れていることから、この手法は自動拳銃検知警報システムに使用できる可能性があると論文は述べている。

研究者たちは、急激な動きに対応するために銃が動いているフレームを組み込むことでモデルの精度と堅牢性を高めようとしており、また、より広範囲の銃に拡張することも検討している。

将来、警察官は何時間にも及ぶ無駄なCCTV映像をくまなく調べることなく、犯罪現場へ迅速に駆けつけることができるようになるでしょう。武器の早期発見によって暴力を未然に防ぎ、人々の安全を守ることにもつながるかもしれません。®

Discover More