マルウェアアナリストは、サンドボックス実行から得られるシグナルのうち保持する価値があるものを判断するために多くの時間を費やしている。管理された環境でサンプルを実行すると、ファイル構造、レジストリ編集、プロセス動作、ネットワークトラフィックをカバーする数百の測定可能な属性が生成される。それらの属性のほとんどはノイズを加えるだけだ。最近の研究はこの問題を詳細に検討しており、現場の防御担当者が注目すべきは、付属するディープラーニングモデルではなく特徴量選択の部分だ。
この研究が目指したもの
研究チームはWindows ベースのIoTおよび産業用IoTゲートウェイ向けの検出フレームワークを構築した。3,000個のWindows実行ファイルを収集し、それぞれをANY.RUNサンドボックスで実行して、すべてのサンプルの行動的・静的・ネットワークレベルのデータを記録した。サンプルは良性、疑わしい、悪意のある、のいずれかにラベル付けされた。生の出力から146個の特徴量の初期プールを抽出し、33個の作業セットに絞り込んだ。TrDNNと呼ばれるカスタムニューラルネットワークがサンプルを分類し、10種類の一般的な機械学習・ディープラーニングモデルと比較した。
分類結果は優れたものとなった。サイバーセキュリティの読者にとって、より有用な内容は33個の特徴量がどのように選ばれたか、そしてそれらの特徴量が現在のトロイの木馬の手口について何を示しているかという点にある。
特徴量セットはトロイの木馬のプレイブックそのものだ
保持された特徴量は、トロイの木馬による侵害のステージにそれぞれ対応している。永続化は、レジストリの自動実行キー、スケジュールされたタスク、Windowsサービスのインストール、スタートアップフォルダの編集として現れる。実行と回避は、explorer.exeやsvchost.exeといった信頼されたプロセスへのプロセスインジェクション、メモリ割り当て呼び出し、非表示ウィンドウでの実行、ユーザーアカウント制御の改ざんとして現れる。コマンド&コントロール活動は、ジッターの少ないビーコン間隔、データ窃取を示すHTTP POSTおよびPUTパターン、暗号化されたアウトバウンドバースト、少数のエンドポイントに集中するトラフィックとして確認できる。バイナリレベルのシグナルとしては、PEヘッダーの異常、高いセクションエントロピー、システムディレクトリに配置された未署名の実行ファイルなどが挙げられる。
除外された項目も同様に示唆に富む。研究チームは、権限トークン操作、汎用的なHTTP通信チェーン、PowerShellやregsvr32といったLiving-off-the-Landバイナリの悪用を除外した。これらの動作は調査において実質的な意味を持ち、ランサムウェア、ワーム、レッドチームツールにも広く見られるため、トロイの木馬をその他のマルウェアから識別する上での価値が低下する。この考え方は、多くの脅威タイプに共通するシグナルであっても、特定の1種にとっては識別能力が低い場合があることを改めて示している。
このカタログは汎用性の高い知識だ。この検出リストは、特定のモデルに依存しない形で、脅威ハンティング、EDRチューニング、検出ルール作成のための行動チェックリストとして活用できる。

エンドツーエンドの自動化されたトロイの木馬検出パイプライン(出典:研究論文)
デプロイに関する主張は詳細な検討が必要だ
研究者たちは、tasklist、netstat、wmicといった組み込みユーティリティを使用してプロセスを列挙し、33個の特徴量を抽出して学習済みモデルに渡す、Windowsコマンドラインで駆動する継続的な監視ループとしてフレームワークを実行した。Intel Core i7プロセッサと32GBのRAMを搭載した標準的なエンタープライズワークステーション上で、GPUや専用ハードウェアなしに安定動作することを報告しており、ストレステストを経て3分サイクルで実行している。
このセットアップは、Windowsが普及しており予備の演算リソースが限られている、オペレーターワークステーション、ヒューマンマシンインターフェース、監視システムを持つ環境にとって重要だ。すでに現場にあるハードウェアで動作する検出アプローチは、導入の障壁を下げる。
限界はどこにあるか
研究者たちは制約について率直に述べている。データセットの規模は中程度であり、単一のサンドボックスソースから得られたものであるため、未知のサンプルに対するモデルの汎化性能に疑問が残る。休眠状態を維持するよう設計されたトロイの木馬は、システムがライブの動作観察に依存しているため、特定の監視ウィンドウ内に表面化しない可能性がある。サンドボックス環境を検知する高度なマルウェアは、活動を抑制してモデルに誤ったデータを与えることができる。
プラットフォームの制約が最も運用上の重みを持つ。パイプラインはWindowsを対象としている。多くのIoTデバイスは組み込みLinux、リアルタイムOSまたはマイクロコントローラーファームウェアで動作しており、コマンドラインスクリプトはそれらのシステムに移植できない。このフレームワークは産業環境のWindows中心の部分には適合するが、組み込み層については別途ツールが必要となる。
より大きなモデルより規律ある特徴量の取り組みを
汎用的な教訓は、一つのモデルに留まらない。強力な検出は、トロイの木馬の活動に特有の動作を分離した、規律あるドメイン知識に基づく特徴量の取り組みから生まれた。防御担当者は自分たちのパイプラインにもこの考え方を適用できる。脅威のライフサイクルに結びついたシグナルを特定し、あらゆるカテゴリで反応するものは排除し、それを管理するアナリストが理解できる形で検出ロジックを保ち続けることだ。
翻訳元: https://www.helpnetsecurity.com/2026/05/29/trojan-malware-detection-research/