1年後：CrowdStrike障害から得た教訓

Crowdstrikeのロゴが画面に表示されている

出典：imageBROKER.com GmbH & Co. KG（Alamyストックフォト経由）

論評

バグのあるCrowdStrikeのアップデートによってITシステムがオフラインになってから1年、セキュリティと生産性のバランスを模索する組織は、このインシデントを学びの機会と捉えています。

CrowdStrike障害の損失額は 54億ドルと推定されており、決済システム、航空会社の予約、その他さまざまな業界に影響を与えました。この障害の影響は、多くの運用技術（OT）チームが、重要インフラのパッチやアップデートに対して非常に慎重であり、障害を極端に嫌う理由を浮き彫りにしています。

セキュリティと生産性のバランスを取る際、CrowdStrike障害を理由にパッチ適用を完全に放棄するべきではありません。増え続ける脆弱性や脅威に対応するため、組織はレジリエンス（回復力）とアンチフラジャイル（逆境に強くなること）を維持し、積極的に問題に対応し継続的に改善する能力が求められます。

実際、ソフトウェアエラーは脆弱性として悪用されると、組織にとってはるかに大きなリスクとなります。CrowdStrike障害の後、CrowdStrike自身も認めている通り、「敵対者や悪意のある行為者がこのような出来事を悪用しようとすることは分かっています。」

外国の敵対者がCrowdStrike障害をどのように見ていたか想像してみてください。高度な持続的脅威（APT）は、アップデートを武器化して将来的に障害を引き起こすことを狙うかもしれません。これは他のサプライチェーン攻撃が増加しているのと同様です。

朗報なのは、CrowdStrike障害が組織にシステム強化とレジリエンス向上の機会を提供していることです。

Crowd(Strike)発の教訓

CrowdStrikeはIT障害の代表例となっていますが、同社はこの問題に適切に対応しました。CrowdStrikeは「問題を迅速に特定し、修正を展開」し、リリースからわずか78分後に対応したことで、リアルタイムで環境を継続的に監視する能力を示しました。残念ながら、Windowsデバイスの再起動に手作業が必要だったため、復旧には多大な労力と時間がかかりました。

障害の後、CrowdStrikeは根本原因分析（RCA）を実施し、過去1年でプロセスを刷新しました。RCAでは、障害を引き起こしたソフトウェア検証エラーの重なり、不完全なテストによるエラーの未検出、すべてのクライアントが同時に障害を起こす展開モデルが特定されました。

その結果、CrowdStrikeは他の組織の模範となるさまざまな新しいプロセスを導入しました。段階的な展開や「カナリア」テストによるパッチ適用は、障害発生時の影響を最小限に抑えることができ、より厳格なソフトウェアテストはこの種の障害自体を未然に防ぐでしょう。

組織が安全なソフトウェア開発のために「シフトレフト」アプローチを採用し、開発やテスト環境で十分にテストしてから本番環境に移行することが重要です。同様に、ダウンタイムを懸念するすべてのIT・OT組織は、堅牢なパッチ管理プロセスを持つべきです。パッチの出所を確認するといった一見些細なことも、重要インフラのパッチ管理におけるベストプラクティスとされています。

共通基盤

障害防止のための多くのベストプラクティスは、ISO 27001やISA 62443などの共通セキュリティフレームワークにまとめられています。特にISA 62443は、ダウンタイムを最も懸念する運用環境のセキュリティに焦点を当てています。

これらのフレームワークは、ソフトウェアエラーによる障害やダウンタイムのリスクを軽減するための効果的な戦略を共有しており、たとえば安全なソフトウェア開発ライフサイクル（SDLC）、変更管理、サードパーティリスク評価などが挙げられます。

安全なSDLCはすべての組織に当てはまるわけではありませんが、今やすべての企業がソフトウェア企業です。安全なSDLCのベストプラクティスには、自動テストや安全なデプロイメントゲーティングが含まれ、リリース前にエラーを検出できます。

同様に、変更管理やパッチ管理の推奨手順、たとえば本番環境に適用する前にステージング環境でアップデートを検証・テストすることは、バグのあるアップデートによる障害を防ぐのに役立ちます。その他にも、設定のベースラインを確立したり、問題のあるアップデート時に自動ロールバック機能を実装したりすることも検討すべきプロセスです。

CrowdStrike障害は、SolarWinds侵害や2021年の国家サイバーセキュリティ強化に関する大統領令以来、常に注目されてきたサードパーティリスクについての議論も再燃させています。共通セキュリティフレームワークで求められるベストプラクティスには、サードパーティリスク評価や、異常な挙動を監視するためのソフトウェア監視が含まれます。

バランスの取れた対応

セキュリティと稼働時間については、ベンダーと顧客の間で責任を共有する必要があり、契約がこのリスクを管理するための第一の手段となります。顧客は、システミックリスクを回避するために、ベンダーに共通セキュリティフレームワークへの準拠を求めるケースが増えています。

サイバーセキュリティ・インフラセキュリティ庁（CISA）は、2024年8月に購入者向けのソフトウェア調達ガイドを公開し、「オンデマンドで安全」な原則（開発、展開、脆弱性管理、サプライチェーンリスクなど）を示しています。同様に、CISAはサイバーセキュリティベンダーにSecure by Design Pledgeへの参加を呼びかけています。

サイバーセキュリティと生産性のバランスは、ベンダーと顧客の責任共有と同様にバランスが求められます。また、これらのプロセスを効率化するためのAIや自動化の活用と、それを監督する人間の要素とのバランスも重要です。これらすべての要素のバランスを適切に取ることで、リスクを無視するよりも大きなメリットが得られます。そうすることで、組織は障害やサイバー攻撃のリスクに対してより強靭になることができます。