数十年間、IT組織は災害復旧戦略を3つのメトリクス(RTO、RPO、MTTR)に依存してきました。これらは本質的に重要ですが、現代のサイバー脅威環境では危険なほど粗くて不十分になっています。単一の融合「MTTR」の数値は遅行指標であり、実行可能な洞察を提供しません。何が起こったかは示しますが、なぜそんなに長くかかったのか、どこがボトルネックだったのか、どう修正するのかは示しません。
真の事業レジリエンスには、インシデント復旧イベントを明確で測定可能なステージに分ける、新しいフェーズ対応フレームワークが必要です。Rubrik Zero Labsは、継続的なプログラム改善のためのホリスティックなサイバーレジリエンスライフサイクル戦略の採用を提案しており、これは粒度の細かいインシデント測定と改善のための戦術的な5ステージMTTRパイプラインで駆動されます。
このフレームワークを実世界のパフォーマンスベンチマークと組み合わせることで、曖昧なメトリクスから、レジリエンスをビジネス成果に結びつけ、自信のある測定可能で成熟した復旧姿勢を構築するために必要な実行可能なデータへと移行できます。
「粗いメトリクス」の誤謬
単一のMTTR数値に依存することは、工場の効率を「平均配送時間」で判断し、注文処理、製造、品質保証、物流の個別かつ重要なステージを無視するようなものです。私たちは盲目的に飛んでいるようなもので、以下を含む最も重要な質問に答えることができていません:
- 遅延は検出の遅さが原因でしたか?
- 被害範囲の特定に苦労しましたか?
- クリーンで破損していないバックアップを見つけるのに数時間かかりましたか?
- アプリケーションチームが復元を検証する準備ができていませんでしたか?
実際の災害はこの問題を完璧に示しています。2024年に米国の医療事業に影響を与えたインシデントは、壊滅的な例を提供しました。公開メトリクスは「1ヶ月間の停止」でしたが、この粗い数値は実行可能な洞察を提供しません。現実は複数の測定されていないフェーズ全体での大惨事でした。同社は「予防措置として」システムをオフラインにしましたが、これは違反の範囲を迅速に理解する能力での重大な失敗を示しています。データが技術的に復元された後でさえ、提供者は復旧の検証と事業信頼の回復の欠如のため再接続を躊躇していました。これは検証と事業信頼回復での大規模な失敗を強調しています。
この問題は医療業界に限定されません。2019年の大手グローバル製造企業へのランサムウェア攻撃を考えてください。公開メトリクスは「7000万ドル以上の財務損失」と「1ヶ月間の混乱」でした。繰り返しますが、これらは粗いメトリクスです。現実は複数ステージの失敗でした:グローバルネットワーク全体の強制シャットダウン(スコーピングでの失敗)と、数万人の従業員が数週間ペンと紙を使用することを余儀なくされました(検証での失敗)。
これらの「暗黒物質」メトリクス(復元以外のフェーズで費やされた時間)は、真のレジリエンスが勝つか負けるかの場所です。
新しいモデル:サイバーレジリエンスライフサイクル
成熟したプログラムを構築するには、組織は単一のインシデントを超える継続的でプログラム的なライフサイクルを採用する必要があります。このライフサイクルは4つの重要なステージを含みます:
- レジリエンス評価:現在のセキュリティ態勢とリスク プロファイルを定義および理解します。これは基礎的な「特定」ステージであり、重要なビジネス サービスを基礎となるテクノロジー依存関係にマッピングします。
- MVB(最小限の実行可能なビジネス)の確立:ビジネスを運用し続けるために必要な主要資産、アプリケーション、インフラストラクチャを特定します。これは任意の復旧のための「何」と「どの順序で」を定義します。
- 危機シミュレーション:理論から実践へ移行します。サンドボックス環境でディフェンスと セキュリティ態勢を積極的にストレステストして、結果をMVBと比較して測定します。
- レジリエンス最適化:インシデントまたはシミュレーション後、各ステージのパフォーマンスを分析して、将来の結果の改善のためボトルネックを特定して修正します。
このライフサイクルは、レジリエンスを静的で「設定したら忘れる」プロジェクトから、生きた継続的に改善されるビジネス機能に変えます。
MTTRパイプライン
「レジリエンス最適化」は、単一の復旧イベントを5つの測定可能なフェーズに分解する戦術的なフレームワークで駆動されるべきです。このパイプラインは実行可能なデータを解き放つための鍵です。
- 検出までの平均時間(MTTD):「認識までの時間」、初期の敵対的影響またはアラートから復旧が必要であることの確認まで
- スコープまでの平均時間(MTTS):「計画までの時間」、検出の検証からロックされた確認済みのすべての復旧オブジェクトのリストまで
- 良いスナップショット選択までの平均時間(MTTGS):「信頼までの時間」、ロックされたスコープから復元するクリーンで破損していないスナップショットの特定まで
- 復元までの平均時間(MTTr):従来の「MTTR」、復元をトリガーすることからワークロードが利用可能になるまでのデータまでの時間(例:ライブ マウントまたはエクスポート経由)
- 検証までの平均時間(MTTV):「ビジネス機能までの時間」、初期データから完全なアプリケーション ヘルス検証とサインオフまで
この5ステージレンズを通じてグローバル製造企業のインシデントを再検討しましょう。従来の粗いメトリクスは単に「週」の失敗を示していますが、パイプラインは実行可能な改善パスを提供していたはずです:
- MTTD:最初の暗号化ファイルから正式なインシデント宣言までどのくらい時間がかかりましたか?これは10分でしたか、それとも4時間でしたか?これは実行可能な数値です。
- MTTS:チームはグローバル ネットワークのシャットダウンを決定するのに数時間を費やしました。この大規模で測定されていないMTTSは、データ分類とブラスト半径検出ツールの改善の必要性を強調しています。
- MTTGS:各企業の数十の工場に対して「ゴールデン スナップショット」を見つけて検証するのにどのくらい時間がかかりましたか?これは1時間でしたか、それとも2日でしたか?これは不変で脅威がスキャンされたバックアップの必要性を指し示しています。
- MTTr:技術的な復元自体に数週間かかりました。このメトリクスはデータ転送速度を分離し、解決する個別のボトルネックとしてインフラストラクチャを復元します。
- MTTV:ビジネスは1ヶ月以上ペンと紙で実行されました。このメトリクスは復旧が検証ステージで失敗したことを証明しています。これは自動化された検証プレイブックとアプリケーション所有者のサインオフの必要性を強調しています。
これが実行可能な洞察です。問題は単に「復元」ではなく、スコーピングと検証で失われた大惨事的で測定されていない時間でした。これは、事後分析をバッシング ゲームから具体的な改善計画への変換を実現するデータです。
TTrを使用して論文を証明する
今日、重要なテレメトリ ギャップが存在します。ほとんどの組織には、MTTD、MTTS、MTTGS、またはMTTVを測定する自動化された方法がありません。このデータは多くの場合、異なるSIEMログ、インシデント チケット、スプレッドシートに埋もれています。
フェーズ対応フレームワークの価値を理解するために、豊富で高忠実度のテレメトリがある1つのステージを見ることができます:ステージ4、復元までの平均時間(MTTr)。このステージのみの分析は、中心的な論文をミニチュアで証明しています:ここでも、融合された平均は無意味です。パフォーマンスはオブジェクト タイプと復元方法によって決定されます。
このデータは技術的なMTTrフェーズの強力なベンチマークを提供します。しかし、より重要なことに、パイプライン全体の重要なアナロジーとして機能します。
MssqlとLinuxFileset復元の間の膨大な違いを不正に隠すため、単一の融合「復元時間」は無意味であれば、複数ステージの障害を隠すため、単一の融合「合計復旧時間」はさらに無意味です。15分のMTTDと2日のMTTVの間の膨大な違いです。
この表は、粒度の細かいフェーズ対応測定が本質的であることを証明しています。目標は、このような小さなステージのみを最適化することではなく、検出、スコーピング、検証の「暗黒物質」フェーズに同じレベルの分析的厳密性を適用することです。そこに実際のボトルネックがあります。
前進への道:パイプライン全体の運用化
このフレームワークは単なる分析モデルではなく、アクション計画です。真のレジリエンスを達成するには、5つのステージすべての測定を運用化する必要があります。
ステップ1:MTTRダッシュボード
まず、実行可能な可視性を提供する必要があります。MTTRダッシュボードが最初のステップです。このダッシュボードは以下を特徴とする必要があります:
- フェーズ対応ビジュアル:すべてのインシデントの5つのステージのそれぞれで費やされた時間を視覚化する滝グラフ。
- 実行可能なメトリクス:P50/P90パフォーマンスとSLA違反率の明確な追跡。
- コホートベンチマーキング:顧客が業界、地域、または企業規模と比較してパフォーマンスを匿名でベンチマークする能力。
ステップ2:「レジリエンス モジュール」(ITSM統合)
テレメトリ ギャップを埋めるには、このフレームワークをビジネスを実行するITSM プラットフォームに直接統合する必要があります。ServiceNowおよびAtlassian Jiraなどのツール内の新しい「レジリエンス モジュール」の作成を提案します。このモジュールは既存のツールを置き換えるのではなく、以下の機能を実行するための中央オーケストレーションおよび測定層として機能します:
- CMDBとの統合:資産をそのビジネス インパクト(ステージ1)データと動的にリンク。
- インシデント管理およびSIEMとの統合:インシデント宣言の瞬間に「レジリエンス タイマー」を自動的にトリガーして、MTTDとMTTSをキャプチャ。
- 復旧プラットフォームとの統合:MTTGSとMTTrのリアルタイムAPI テレメトリをプル。
- 検証のオーケストレーション:検証タスクをアプリケーション所有者に自動的に割り当て、応答時間を追跡してMTTVをキャプチャ。
ステップ3:危機シミュレーション エンジン
最後に、受動的な測定からアクティブな危機シミュレーションへと進化する必要があります。これにより、組織はサンドボックス環境で現実的なソフトウェア駆動シナリオを実行し、MVBに対してパフォーマンスを積極的に測定し、レジリエンス態勢の真の成熟度を測定することができます。
この5ステージ パイプラインを採用し、それを測定するツールを構築し、それをコア ビジネス オペレーションに統合することで、反応的な態勢から予測的な態勢へと最終的に移行でき、データ駆動の信頼で復旧を推進することができます。
翻訳元: https://zerolabs.rubrik.com/blog/beyond-mttr-measurable-framework-true-cyber-resilience