
出典: Simon Leigh via Alamy Stock Photo
2024年10月19日に発生したAmazon Web Services(AWS)の障害は、多くのウェブサイトやオンラインサービスに大きな混乱をもたらしました。ユーザーがAmazon自身やSnapchat、Disney+などの人気サイトにアクセスしようとすると、エラーメッセージが画面に表示されました。障害は2日間続き、その影響は業界全体に広がりました。水曜日には、Microsoft AzureクラウドプラットフォームおよびMicrosoft 365サービスも、マイクロソフトが「意図しない構成変更」と説明した原因により、数時間にわたる障害を経験しました。Azureの障害は重要なビジネスアプリケーションを麻痺させ、多くの組織が業務停止に追い込まれました。
昨年のCrowdStrikeの障害と同様に、これらの障害は、1社または2社のベンダーが市場を独占し、他のすべての企業が依存するインフラを所有している場合に発生する影響範囲の広さを示しています。両方の事例は技術的な不具合が原因でしたが、こうした大規模な混乱は企業にとって深刻なサイバーセキュリティ上の問題を引き起こします。
混乱が混迷を生む
大企業から中小企業まで、すべてがAWSを利用してウェブサイト、アプリケーション、データベースをホストしています。クラウドプロバイダーは、企業がアイデンティティやアクセス管理、データ保護を強化するためのセキュリティツールを提供しています。
たとえ自社が直接影響を受けていなくても、アイデンティティ、インシデント対応(IR)、脅威検知などに利用しているプロバイダーがダウンしている可能性があります。AWSの障害は、EC2、DynamoDB、Network Load Balancerなど、多くのセキュリティおよびアイデンティティ管理サービスが依存するサービスに影響を与えました。
AWSのような広範なクラウド障害が発生した場合、それが必ずしもセキュリティ侵害を意味するわけではありませんが、企業にとって問題を引き起こす脆弱性が生まれる可能性があると、Omdiaのインフラセキュリティ上級アナリストであるKetaki Borade氏は説明します。
「サービス復旧のためのダウンタイムや混乱の中で、ITチームは監視やパッチ適用に抜け漏れを生じさせてしまうことがあります。これは、旅行に急いで出かける際に窓を開けっぱなしにしてしまうのと同じで、脅威アクターにとって潜在的な侵入口となり得ます」とBorade氏はDark Readingに語ります。
誰もが脆弱
障害はセキュリティの死角を生み出し、企業に迅速なサービス復旧を迫るため、チームがセキュリティコントロールを回避してしまうことがあります。
障害後に企業が直面するサイバーセキュリティ上の問題の大きさには、レジリエンスレベルが大きく関わってくると、Corix Partnersの創設者兼CEOであるJean-Christophe Gaillard氏も同意します。企業は、標準的なセキュリティコントロールがない劣化モードやフォールバックモードでシステムを再起動せざるを得ない場合があります。標準の安全な構成に戻すには時間がかかり、その間に攻撃者が狙う可能性があります。
「緊急パッチや構成変更は、適切なレビューやセキュリティを経ずに行われることが多く、攻撃者が悪用できる誤設定や安全でない設定につながる可能性があります」とGaillard氏はDark Readingに語ります。
変更管理の不備もサイバーセキュリティ上の問題につながる可能性があります。企業は標準プロトコルに戻すのを忘れてしまい、システムやデータが露出したままになることもあると、Gaillard氏は付け加えます。
しかし、広範な障害時に警戒を怠ってはならないのはITチームだけではありません。攻撃者はこれを絶好の機会と捉え、フィッシングキャンペーンを実施し、「認証情報の確認」や「アクセスの復元」を促すメッセージを送る可能性があると、Borade氏は警告します。
企業のレジリエンスはどれほどか?
このような事例は、単一のクラウドプロバイダーに依存するリスクを浮き彫りにしており、企業は保護を維持するために強靭なセキュリティ戦略と非常時対応計画が必要だと、彼女は推奨します。
AWSで最近発生したような長時間の障害後に企業が直面するサイバーセキュリティ上の問題の大きさには、レジリエンスレベルが大きく関わります。例えばランサムウェア攻撃のような場合、企業は強力なバックアップシステムが必要です。
このような場合、より包括的なフォールバック体制が重要であり、復旧には効果的なデータバックアップシステム以上のものが必要だと、OmdiaのチーフアナリストであるRik Turner氏は述べています。ローカルやオンプレミスのバックアップシステムも、引き継ぎ時に安全であるためには必要なパッチがすべて適用されている必要があると、彼は説明します。
「組織が、AWSや他のクラウドサービスプロバイダーがダウンしている間に、完全に別のクラウドプロバイダーへ切り替える能力を持っている場合(これはかなり稀だと思いますが)、その切り替えプロセスはシームレスかつ安全でなければなりません」とTurner氏は述べます。「正直なところ、問題が山積みになるのが目に浮かびます。」
AIは復旧に役立つか?
人工知能は、広範な障害時の対応努力を補うことができます。AI搭載のサイト信頼性エンジニアリングプラットフォーム「Wild Moose」は今週ステルスモードから登場し、クラウド障害への対応に注力しています。広範な障害時には、サイバー攻撃と技術的な障害の区別が難しく、適切な対応が遅れることがあると、Wild MooseのCEO兼共同創業者であるYasmin Dunsky氏は述べています。AIはインシデント対応の一環として根本原因分析の解明に活用されており、これはセキュリティチームにとって重要でありながら難しい評価です。
Wild Mooseは、迅速な根本原因分析によって技術的な不具合に起因するセキュリティ上の懸念に対応できるとしています。影響を受けた企業の関係先や顧客にも分析を拡張できると、Dunsky氏は述べています。
「これにより、影響を受けた企業とその下流の顧客の両方が問題の範囲を理解し、各組織が独自に同じ根本原因を診断しようと右往左往するのではなく、対応を調整できるようになります」と彼女は述べています。
Borade氏は、AIが連鎖的な影響をもたらす大規模な障害の影響を緩和する上で有効であると考えています。AIシステムは人間よりも早く異常を検知し、自動対応をトリガーし、さらには修復手順を提案することもできると、彼女は付け加えます。
「とはいえ、皮肉なことに、私たちはしばしば自動化によって引き起こされた問題を自動化で解決しようとしています」と彼女は述べます。「まさに『誰が見張りを見張るのか?』という状況であり、人間による監督が依然として重要なのです。」