NVIDIAは、GDDR6メモリを搭載したグラフィックスプロセッサに対するRowhammer攻撃から保護するために、システムレベルのエラー訂正コード(ECC)緩和策を有効化するようユーザーに警告しています。
同社は、新たな研究でNVIDIA A6000 GPU(グラフィックスプロセッシングユニット)に対するRowhammer攻撃が実証されたことを受け、この推奨を強調しています。
Rowhammerは、ソフトウェアプロセスを通じて引き起こされるハードウェアの欠陥であり、メモリセル同士が非常に近接していることに起因します。ある場所に十分な回数の読み書き操作を行うと、隣接するデータビットの値が1から0、またはその逆に反転し、メモリ内の情報が書き換わってしまう可能性があります。
この影響として、サービス拒否(DoS)状態、データの破損、さらには権限昇格が発生する可能性があります。
システムレベルのエラー訂正コード(ECC)は、冗長ビットを追加し、1ビットエラーを訂正することで、データの信頼性と正確性を維持し、データの完全性を保つことができます。
ワークステーションやデータセンター向けGPUでは、VRAMが大規模なデータセットやAIワークロードに関連する精密な計算を処理するため、ECCを有効にして運用上の重大なエラーを防ぐ必要があります。
NVIDIAのセキュリティ通知によると、トロント大学の研究者が「GDDR6メモリを搭載したNVIDIA A6000 GPUに対する潜在的なRowhammer攻撃」を、システムレベルECCが無効な状態で実証したとしています。
RTX A6000以外にも、GPUメーカーは以下の製品についてもシステムレベルECCの有効化を推奨しています:
データセンター向けGPU:
- Ampere: A100, A40, A30, A16, A10, A2, A800
- Ada: L40S, L40, L4
- Hopper: H100, H200, GH200, H20, H800
- Blackwell: GB200, B200, B100
- Turing: T1000, T600, T400, T4
- Volta: Tesla V100, Tesla V100S
ワークステーション向けGPU:
- Ampere RTX: A6000, A5000, A4500, A4000, A2000, A1000, A400
- Ada RTX: 6000, 5000, 4500, 4000, 4000 SFF, 2000
- Blackwell RTX PRO(最新のワークステーションライン)
- Turing RTX: 8000, 6000, 5000, 4000
- Volta: Quadro GV100
組み込み/産業用:
- Jetson AGX Orin Industrial
- IGX Orin
GPUメーカーによれば、Blackwell RTX 50シリーズ(GeForce)、BlackwellデータセンターGB200、B200、B100、HopperデータセンターH100、H200、H20、GH200などの新しいGPUには、ユーザーによる操作を必要としない内蔵のオンダイECC保護機能が搭載されています。
システムレベルECCが有効かどうかを確認する一つの方法は、システムのBMC(ベースボード管理コントローラー)や、Redfish APIのようなハードウェアインターフェースソフトウェアを利用したアウトオブバンド方式で、「ECCModeEnabled」ステータスを確認することです。
NSM Type 3やNVIDIA SMBPBIなどのツールも設定に利用できますが、これらはNVIDIAパートナーポータルへのアクセスが必要です。
もう一つのインバンド方式として、システムのCPUからnvidia-smiコマンドラインユーティリティを使用して、ECCの有効化や状態確認を行う方法もあります(対応している場合)。
Rowhammerは、データ破損や、脆弱なGPUが導入されているクラウドサーバーのようなマルチテナント環境で攻撃を可能にする、現実的なセキュリティ上の懸念事項です。
しかし、実際のリスクは状況に依存し、Rowhammerを確実に悪用するには特定の条件、高いアクセス頻度、精密な制御が必要となるため、攻撃の実行は困難です。
2025年における8つの一般的な脅威
クラウド攻撃はますます高度化していますが、攻撃者は驚くほど単純な手法でも成功しています。
Wizが数千の組織で検知したデータから、本レポートではクラウドに精通した脅威アクターが用いる8つの主要な手法を明らかにします。