まとめこれまでに報告した内容に加えて、最近の機械学習の分野で何が起こっているかを簡単にまとめます。
ニュース速報!顔認識システムは依然として人種差別的:米国国立標準技術研究所が実施した最新のベンチマークテストで、フランスの新興企業が米国政府の入国審査用に開発した顔認識アルゴリズムは、女性や肌の色が濃い人の識別に苦労していることが明らかになった。
今月発表されたNISTの最新テスト結果[PDF]によると、米国に入港するクルーズ船の乗客をスキャンするために使用されているIdemiaのAIソフトウェアには、人種的偏見が含まれていることが示されています。同社のモデルは、黒人女性の識別において最も精度が低いことが示されています。
Idemiaのソフトウェアは、黒人女性を白人女性の10倍も誤認していました。Wiredによると、ありがたいことに、このアルゴリズムはまだ商用利用には利用できないとのことです。
これらの機械学習システムにおける人種的偏見の問題はよく知られた欠陥であり、この技術をめぐるあらゆる論争の核心となっています。人口統計学的問題は、顔認識に関する最近の2つの議会公聴会で取り上げられました。NISTの結果は、この種の技術がまだ実用化に至っていない、あるいはそもそも実用化に至っていないことを改めて示すものです。
Lyft の新しい自動運転データセット:車を自動運転するためのアルゴリズムをトレーニングするためにさらにデータが必要な場合は、他に探す必要はありません。
配車サービス企業のLyftは、自動運転車に搭載されたカメラとLiDARで処理された視覚入力と道路地図を完備したデータセットを公開した。
他の車や歩行者などの重要なオブジェクトは、人間が丁寧に手作業で注釈を付けた境界ボックスで強調表示されています。こちらからダウンロードできます。
匿名データは実際には決して匿名ではない。今月 Nature に掲載された新しい研究論文では、データの背後にある ID を予測することでデータ匿名化プロセスを覆すことができる手法が明らかにされている。
インペリアル・カレッジ・ロンドンとベルギーのルーヴァン・カトリック大学の研究者らは、最大15の人口統計属性を使用したデータセットでは、アメリカ人の99.98パーセントが正確に再識別されることを発見した。
その仕組みを理解するには、論文の数学的証明をじっくりと読み解く必要がある。それでもなお、結果は非常に驚くべきものだ。「大量のサンプルを採取した匿名化データセットであっても、GDPRが定める現代の匿名化基準を満たす可能性は低く、匿名化のリリース・アンド・フォーゲットモデルの技術的および法的妥当性に深刻な疑問を投げかけることを示唆している」と研究者らは記している。
畳み込みニューラル ネットワークを圧縮する方法は次のとおりです。最高のコンピューター ビジョン モデルは、大規模なデータセットでトレーニングされたため非常に大きくなり、低電力デバイスに詰め込むのは困難です。
Facebook AI Researchとフランスのレンヌ大学の研究チームは、これらのモデルを圧縮してメモリ使用量を削減する新たな手法を考案しました。Facebookは今月、この構造化量子化アルゴリズムは「重みそのものではなく、活性化の再構築」に基づいて動作すると説明しました。
このアルゴリズムは、ImageNetで76.1%の精度でトレーニングされたResNet-50モデルを5MBのメモリに圧縮し、Mask R-CNNモデルを6MBに圧縮することに成功しました。どちらも元のモデルと比較して20分の1と26分の1のサイズです。
論文はこちら[PDF]で読むことができ、コードはここを参照してください。
AppleのSiriを開発する契約社員が、あなたのセックスの音を盗聴していたことが判明:なんと、このデジタルアシスタントの音声録音を聞いている人間の契約社員が、違法薬物取引、個人の医療情報、そして音声起動ソフトウェアが盗聴したセックスの音を盗聴していたことが判明したのです。そう、AppleはSiriの音声録音を保管しているのです。もしあなたが忘れていたら、というわけではありません。
これらのスタッフは、シリコンバレーの巨大企業であるSiriに雇用され、技術的なエラーの調査を行っています。例えば、AIボットが「Hey Siri!」と聞き間違えて、明示的に起動していないのに反応したり、リクエストへの返答が満足のいくものでなかったりするケースなどです。しかし、その合間にも、契約社員たちはSiriデバイスのマイクが拾った人々の私生活のより詳細な情報を定期的に聞いています。ジッパーを外す音だけでも、パーソナルアシスタントが起動する可能性があるとされています。
Appleの契約社員として働く内部告発者はガーディアン紙にこう語った。「医師と患者のプライベートな会話、商取引、一見犯罪的な取引、性行為などが録音された例は数え切れないほどあります。これらの録音には、位置情報、連絡先、アプリデータなどのユーザーデータも添付されています。」
匿名の請負業者は、誰が盗聴しているのか、何を聞いているのかについて、Apple が十分な透明性を保っていないと考えていた。
Microsoft が Defender 向けに最新の AI を導入: Microsoft は、マルウェア作成者の一歩先を行くために、クラウドベースの Defender ATP エンタープライズ アンチウイルスに注入したと思われる機械学習技術の一部について説明しました。
トロイの木馬やワームの作成者は通常、作成したコードをDefenderなどのスキャンソフトウェアに通し、セキュリティツールが新しいマルウェアを検出できなくなるまでコードを改変します。そこでマイクロソフトは、カリフォルニア大学バークレー校によるコンピュータサイエンスの研究[PDF]に基づいた「モノトニックモデル」と呼ばれる手法を用いて、ファイルを検査し、マルウェアサンプルを新しい方法で識別し始めました。
まず、モノトニックモデルはMicrosoftのクラウド上で実行されるため、マルウェア開発者が最新のマルウェアをスキャナーでテストしたい場合、オフラインマシンでテストするのではなく、サンプルをレドモンドにアップロードする必要があります。つまり、Windowsの巨人であるMicrosoftは、生まれたばかりのマルウェアに関する大量の有用な情報を自動的に得ることができるのです。
マイクロソフトは2018年から、Microsoft Defender ATPパッケージの一部として、従来のウイルス対策ソフトウェアと並行して3種類のモノトニック分類器を使用していると伝えられています。この機械学習技術は、悪意のあるファイルの95%をブロックできるとのことです。レドモンドは今月、そのうちの1つは毎月平均20万台のデバイスで悪質なコードをブロックしていると主張しました。
フィッシング詐欺師ども、くたばれ!JPモルガン・チェース、従業員ネットワークを脅かすマルウェアを検知するAIを開発
続きを読む
攻撃者がウイルス対策ソフトウェアを欺くもう一つの方法は、信頼できる証明書で不正なコードに署名し、正規のコードに見えるようにすることです。モノトニックモデルは特徴量のみを分析し、ファイルの証明書は考慮しないため、この偽造証明書の手法は効果がありません。
マルウェアを正規のコードで囲み、スキャナーシステムにトロイの木馬やワームを無害な通常のプログラムだと誤認させるという、ますます一般的になりつつある手口もあります。しかし、Microsoftのモノトニックモデルは、どうやらこのような難読化手法を見破ることができるようです。
「モノトニック モデルは、Microsoft Defender ATP のウイルス対策の最新の機能強化です」と Defender 研究チームは述べています。
「私たちは、機械学習ベースの保護機能を継続的に進化させ、敵対的な攻撃に対する耐性を高めています。エンドポイントにおけるマルウェアやその他の脅威に対するより効果的な保護により、Microsoft Threat Protection 全体の防御力が強化されます。」®