バージニア州に拠点を置くサイバーセキュリティ企業 Endgame の研究者らは、機械学習によるマルウェア検出のための初の大規模オープンソースデータセットであると思われる「EMBER」を公開した。
EMBER には、110 万個の Windows ポータブル実行可能ファイル (悪意のある、無害な、ラベルなしのカテゴリに均等に分割された 90 万個のトレーニング サンプルと、悪意のあるおよび無害としてラベル付けされた 20 万個のテスト サンプル ファイル) を記述するメタデータが含まれています。
「私たちは情報セキュリティ研究の闇を明るみに出そうとしています。EMBERはAI研究の透明性と再現性を高めるでしょう」と、今週サンフランシスコで開催されるRSAカンファレンスで発表される研究論文の共著者であるハイラム・アンダーソン氏はThe Register紙に語った。
AIの進歩はデータによって推進されます。研究者たちはモデルを構築し、ベンチマークデータセットで訓練することで、精度の向上を目指して互いに競い合っています。
コンピューター ビジョンには、画像認識タスク用の数百万枚の注釈付き画像を含む多数のデータセットが溢れており、自然言語処理には、機械の読み取りおよび理解スキルをテストするためのさまざまなテキストベースのデータセットがあります。これは、AI 画像処理の構築に大いに役立っています。
情報セキュリティに AI を利用することには大きな関心が寄せられていますが (DARPA の Cyber Grand Challenge では、セキュリティのバグを自律的に探すことができるソフトウェアが研究者によって開発されました)、この分野では公開データセットがほとんど存在しません。
セキュリティと合法性
マルウェアの送信に関する法的規制やセキュリティ研究の非公開性により、セキュリティファイルを共有することは困難です。そのため、EMBERには完全なWindowsファイルが含まれているわけではなく、ファイルはフォーマットやサイズなどのいくつかの情報で記述されています。
EMBER でトレーニングされた機械学習は、ファイルのさまざまな特徴をすべて調べて、それが悪意のあるものか無害なものかを判断する必要があります。
まさにステッカーショック:粘着ラベルが画像認識AIをトースターに夢中にさせる
続きを読む
「悪意のある部分はありません。悪意があると断定できる要素は一つもありません。ウイルス対策ソフトの典型的な動作は、バイトシーケンスや特定のプロパティセットを識別し、特定の種類のマルウェアを追跡するシグネチャを作成することです」とアンダーソン氏は説明した。
「機械学習は違います。トップダウン型のアプローチです。このデータセットを与えると、モデルはファイルを悪意のあるものにする複雑な特徴の組み合わせを学習し、既存のマルウェアではなく、新しい形態のマルウェアを学習できるようになります。」
しかし、彼はEMBERはあくまで研究目的であることを警告した。データセットは、実用に耐えうるモデルを訓練するには不十分だ。あくまで趣味家や研究者が構築するための出発点となることを意図している。
「データがなければ、マルウェア検出のような特定の問題に取り組む研究者や愛好家は多くはいないだろう。」
ここでEMBERを試してみることができます。®