コンピューターサイエンスの専門家たちは、ログファイル内の失われたエントリを再作成する新しい方法を思いついたと考えている。
「Bagging Recurrent Event Imputation for Repair of Imperfect Event Log with Missing Categorical Events」と題された論文の中で、韓国釜山国立大学のSunghyun Sim博士とHyerim Bae教授、および米国ジョージア工科大学のLing Liu教授は、ログ ファイルにはタイムスタンプ、イベント名、その他のデータが忠実に記録される必要があると指摘しています。
しかし、何らかの理由でログが不完全であったり、一部の記録が欠落していたりすることがあり、イベントの再現が困難になります。行が欠落したログは、AIトレーニングモデルに悪影響を及ぼす可能性もあります。
3人の著者は、失われたイベントを再現するツールを見つけることができませんでした。そこで彼らは、他の関連ソースからのデータを相関させて、失われたログエントリを生成するアルゴリズムを構築しました。このアルゴリズムは基本的に、複数のソースからログエントリを形成するために必要な情報ビットを特定し、利用可能な情報から失われたエントリを生成するプロセスを自動化することで機能します。
「データは多数の情報システムにおいて複数の視点から収集されるため、収集されたデータ間には関連性が存在します」とシム博士は述べています。「この点を踏まえ、私たちの研究は、イベントログ内のエンティティ間の関連性を利用することで、欠落したイベント値を復元する方法を提案しました。これにより、人的エラーやシステムエラーを克服することが可能になります。」
- Log4j RCE 最新情報: 気づいていないかもしれませんが、これは非常に深刻で、実際に悪用されており、緊急のパッチ適用が必要です。
- AWS事後検証:社内運用チームの監視ツールがダウンし、ログを精査する必要があった
- フランスの環境活動家が逮捕されたと報じられた後、ProtonMailはウェブサイトから「IPアドレスを記録しません」という自慢を削除した。
著者らは、ブートストラップサンプリングとリカレントイベント補完(REI)を用いたバギングリカレントイベント補完(BREI)アルゴリズムと並行して、体系的イベント補完(SEI)と多重イベント補完(MEI)を同時に適用し、損傷したイベントログを修復しました。結果は非常に有望で、実際のイベントログを用いたテストでは「既存の修復アルゴリズムと比較して、修復精度が10~30%向上した」とのことです。
さらに、データの半分以上が失われた場合でも、ほぼ90%のデータを正確に復元することができました。
研究者たちの研究成果はIEEE Transactions on Services Computing誌に掲載されました。概要と解説図はこちらに掲載されています。著者たちは、開発したアルゴリズムがまもなく産業界の実際のユーザーによって利用されるだろうと確信していると述べています。
コンピュータ科学者による、ログ修復アルゴリズムの仕組みを説明するスライド…クリックして拡大。出典:釜山国立大学
ログのどの行が再構成され、どの行がオリジナルであるかが完全に開示される場合にのみ、それが実現することを願っています。帰属ログは明らかに、デジタルフォレンジックの専門家にとって興味深いものになる可能性があります。®