Kubernetesインシデント対応：10分以内に検知・調査・封じ込め

Kubernetesで対応が重要な理由

現代のKubernetes環境では、脅威の検知は戦いの半分にすぎません。本当に重要なのは、脅威が検知された場合に、どれだけ迅速かつ効果的に対応できるかです。ワークロードは数秒で起動・停止し、コンテナは痕跡をほとんど残さないことも多いため、意味のあるアクションを取れる時間は限られています。Sysdigの「クラウド検知・対応の555ベンチマーク」は、検知が速いだけでは不十分であることを示しています。10分以内に「検知・調査・対応」まで完了する必要があります。本ブログでは、Kubernetesの検知と対応のワークフローを通して、Sysdigのインライン対応アクションがスピードと確信をもってより良い成果をもたらす仕組みを紹介します。

対応時間の短縮は、平均封じ込め時間（MTTC）に直接影響し、攻撃者が横展開したりデータを持ち出したりできる時間を減らします。MTTCを短縮することで、チームはリスク露出を最小化し、インシデントの影響範囲（ブラスト半径）を抑えられます。

私たちは最近、ホスト環境向けのインライン対応アクションに関するブログを公開しました。本ブログでは、Sysdigの最新インライン機能を用いたKubernetes特有の対応ワークフローを掘り下げます。

インラインKubernetesアクションの紹介

インライン対応アクションにより、Sysdigのイベントから直接、状況に応じた即時アクションを実行できるため、ツールを切り替えることなく脅威や問題に対応できます。ボリュームのスナップショット取得からネットワーク隔離まで、自動化され精密な対応アクションは、潜伏時間を短縮し、インシデントを封じ込め、Kubernetes環境を安全に保つうえで不可欠です。

セキュリティインシデントの調査や対応のためにワークロードへアクセスするには、異なるスキルセットを持つ他チームの支援が必要になることがよくあります。この依存関係が対応を遅らせ、セキュリティチームに不要な複雑さをもたらします。Kubernetesは、抽象化の追加レイヤーと運用上の複雑性を導入することで、この課題をさらに難しくします。

インシデント対応には通常、次が必要です：

対象リソースに対する適切なアクセス権
それらのリソースを特定し接続する方法の把握
実行すべきコマンドや実行方法など、Kubernetes固有の理解
本番環境に意図せず影響を与えるリスクへの対処

Sysdigは、セキュリティチームが最も苦労する領域に対応機能を直接拡張することでこれを解決します。Sysdigではアクセスと接続性が自動的に処理され、深いKubernetes専門知識の必要性が大幅に減ります。これによりミスのリスクを最小化し、管理下のオンプレミスおよびクラウドKubernetes環境（例：GCP、AZURE、AWS、Oracleなど）全体で効果的に対応する能力を加速します。

SysdigのThreat Managementダッシュボードを使い、実際のインシデント対応シナリオを見ていきましょう。文脈に基づく洞察とインラインアクションが調査と修復をどのように効率化し、チームが555ベンチマーク達成へ近づくのかを示します。

ウォークスルー：現実世界の高深刻度Kubernetes脅威

Sysdig Threat Managementダッシュボードを確認していると、「Potential Malware Activity（マルウェア活動の可能性）」とラベル付けされたワークロードで、高深刻度のKubernetes脅威が検知されていることに目が留まります。

重要なコンテキストをすぐ手元に

脅威検知の詳細をクリックすると、Sysdig Sage™が提供する脅威サマリーにより、重要なコンテキストを素早く把握できます。次のことが分かります：

コマンドライン /mnt/pgdata/foomaticがマルウェア活動の可能性としてフラグ付けされており、システム内での使用状況と文脈について追加調査が必要であることを示しています。
実行頻度が5回と記録されており、システムの完全性を損なう可能性のある意図的な行為の懸念が高まります。ユーザーの意図と運用上の慣行をより詳細に確認する必要があります。
この挙動の検知は、正当な運用タスクが悪意あるものとして誤認されている可能性もあるという二重の解釈を示唆しており、セキュリティイベント評価における文脈分析の重要性を浮き彫りにします。

さらに深掘りする

脅威サマリーの下にあるコンテキストから、この潜在的脅威の「誰が・何を・どこで・いつ・どのように」を理解するための追加の手がかりが得られます：

github-actionのサービスアカウントが何かを実行しました。
HTTPポートへの接続がいくつか行われました。
pg_dumpall が、tarおよび不審なfoomaticの利用とともに実行されました。

影響範囲の定義

調査を進めるにあたり、影響範囲、特に関与している具体的なリソースを把握します。この例では、影響を受けたリソースがGKE上のPostgresのKubernetes Deploymentであることが分かります。

‍

爆発的になり得る組み合わせの評価

C2接続における追加イベントを確認すると、postgresqlのデプロイメントと、`foomatic`が利用された挙動との間に相関の可能性が見られます。これは警戒すべき状況です。というのも、他のイベントでも、マルウェア指定の結果として`foomatic`がトリガーされているためです。

観測された情報から、これは無害なアクションでも誤検知でもないと高い確度で言えます。

SysdigでKubernetesのフォレンジックデータを収集する

次のワークフローステップはフォレンジックデータの収集です。脅威を修復した後に正確な事後分析（ポストモーテム）を行えるだけの成果物を確保するためです。新しいKubernetes対応機能により、数クリックでインライン実行できるアクションの幅が広がります。効果的な収集のために、Sysdigには新機能があります：

ボリュームスナップショット：後でマウントして分析できるボリューム内容を取得し、クリーンアップ作業を可能にします。副次的なユースケースとして、攻撃者に気付かれないようにボリュームを収集し、痕跡を削除されてフォレンジック分析がさらに損なわれるのを防ぐこともできます。
ログ取得：アプリケーションのKubernetesログにアクセスし、認証やその他の挙動を確認することで、攻撃中の一連の行動をより深く理解できます。

‍

ワークロード内部からマルウェアが実行されたことが分かっているため、直ちにpostgresqlの被害ワークロードのボリュームのスナップショットを取得すべきです。

‍

このスナップショットにより、攻撃を再構成し、影響を評価し、再発防止のために防御を改善できます。

‍

さらに深掘りするため、ログ取得（Get Logs）を使って攻撃者がデプロイメントとどのようにやり取りしたかを確認します。この分析中に、複数回の認証失敗が見られます。これはデータ持ち出し（エクスフィルトレーション）の試行を示している可能性が高いです。

脅威の封じ込めと復旧：Sysdigが対応アクションを加速する方法

データが持ち出されたかどうかにかかわらず、この挙動は止める必要があります。以前であれば、これには次のような広範なドメイン専門知識がチームに求められていました：

Kubernetesの知識：望ましくない中断を招かないよう、正しい構文で適切なコマンドを実行するため
インフラの知識：どこに何があり、どのようにクラスタへアクセスするか

また、チームは適切な権限を持っている必要があり、持っていない場合はその権限を持つ人を巻き込む必要がありました。

Sysdigが封じ込めを効率化する方法

Sysdigの新しいKubernetesアクションは、強力な封じ込めアクションにより、このプロセスをより速く、よりシンプルにします：

ロールアウト再起動：ワークロードのPodをクリーンアップし、通常運用を妨げることなく新しい状態から再作成させます。
Pod削除：侵害されたワークロードを排除します。本番環境に影響を与えずに削除できる非重要な単体Podや、CronJobsのようにワークロードに属さないPodに有用です。また、単一Podに対してより精密なワークロードクリーンアップを行いたい場合にも役立ちます。
ネットワーク隔離：受信・送信の接続をブロックします。すべての接続を広く遮断することも、特定のポート/IPに絞って遮断することもできます。

現実世界の封じ込め例

このシナリオでは、データベースがHTTP接続を行うことは想定しにくいため、望ましくない接続であることが確実になった今、C2のIPへの接続を安全に停止できます。より大胆に、ポート80への接続をすべてブロックしたり、あるいは送信接続をすべてブロックしたりすることも可能です。データベースは送信接続をほとんど必要としないためです。このシナリオでは、安全で保守的なアプローチを取りたかったため、正確なIPとポートへの接続を停止することにしました。

‍

正確なIPとポートへの接続を停止すれば、脅威を止めるには十分以上でしょう。しかし、必要なフォレンジックデータはすでに収集済みなので、ワークロードを再起動して永続化を排除し、再攻撃のリスクを減らすことができます。これらの新機能により、チームは検知から解決までの時間を短縮でき、セキュリティチームはクラウドネイティブのスピードで、精度と確信をもって行動できます。

まとめ

Kubernetesの脅威に対して迅速かつ確信をもって対応するには、検知だけでは不十分で、文脈に基づく迅速なアクションが求められます。ワークロードが絶えず変化し、脅威が短命な環境に潜む中、従来のインシデント対応アプローチではもはや追いつけません。

Sysdigの新しいインラインKubernetes対応機能は、強力で的を絞ったアクションによって検知を拡張し、深いKubernetes専門知識や煩雑なチーム間依存を必要とせずに、チームが脅威を調査・封じ込め・修復できるよう支援します。

これらの機能は、即時かつ文脈内でのアクションを可能にすることで、平均封じ込め時間（MTTC）を大幅に短縮します。チームは脅威をより速く止め、被害を限定し、拡大する前にリスクを低減できます。

ボリュームスナップショット、ログ取得、ネットワーク隔離といった自動化ツールを提供することで、Sysdigはセキュリティチームとプラットフォームチームが潜伏時間を短縮し、攻撃者の永続化を防ぎ、将来の攻撃に対する防御を強化できるようにします。

Kubernetes & コンテナセキュリティ

翻訳元: https://www.sysdig.com/blog/kubernetes-incident-response-detect-investigate-and-contain-in-under-10-minutes