- 専門家は、DeepSeek-R1がプロンプトに政治的な用語を含むと、危険なほど安全でないコードを生成することを発見
- 政治的にセンシティブなプロンプトの半数で、DeepSeek-R1はコード生成自体を拒否
- ハードコーディングされた秘密情報や安全でない入力処理が、政治的にセンシティブなプロンプトで頻繁に現れる
2025年1月にリリースされたDeepSeek-R1は、中国発の大規模言語モデル(LLM)として話題を呼び、以来コーディングアシスタントとして広く採用されています。
しかし、CrowdStrikeによる独立したテストでは、このモデルの出力が一見無関係な文脈修飾語によって大きく変化することが判明しました。
チームは複数のセキュリティカテゴリにまたがる50のコーディングタスクを、121種類のトリガーワード構成でテストし、各プロンプトを5回ずつ実行、合計30,250回のテストを行いました。応答は1(安全)から5(重大な脆弱性)までの脆弱性スコアで評価されました。
政治的にセンシティブな話題が出力を破壊する
レポートによると、法輪功、ウイグル、チベットなどの政治的またはセンシティブな用語がプロンプトに含まれると、DeepSeek-R1は深刻なセキュリティ脆弱性を持つコードを生成しました。
これにはハードコーディングされた秘密情報や、安全でないユーザー入力処理、場合によっては完全に無効なコードも含まれていました。
研究者によれば、これらの政治的にセンシティブなトリガーは、そのような単語を含まないベースラインプロンプトと比べて、安全でない出力の可能性を50%高めることが分かりました。
より複雑なプロンプトを用いた実験では、DeepSeek-R1はサインアップフォーム、データベース、管理パネルを備えた機能的なアプリケーションを生成しました。
しかし、これらのアプリケーションには基本的なセッション管理や認証が欠如しており、機密ユーザーデータが露出したままでした。また、繰り返しの試行の中で、最大35%の実装でパスワードハッシュ化が弱い、または存在しないことが判明しました。
サッカーファンクラブのウェブサイトのようなシンプルなプロンプトでは、深刻な問題は少なくなりました。
このためCrowdStrikeは、政治的にセンシティブなトリガーがコードのセキュリティに不均衡な影響を与えると主張しています。
また、このモデルには本質的なキルスイッチも見られました。つまり、DeepSeek-R1は、最初に応答を計画した後、政治的にセンシティブなプロンプトのほぼ半数でコード生成を拒否しました。
推論の痕跡を調べると、モデルは内部的に技術的な計画を生成していましたが、最終的には支援を断っていました。
研究者たちは、これは中国の規制に準拠するためにモデルに組み込まれた検閲を反映していると考えており、モデルの政治的・倫理的なアライメントが生成されるコードの信頼性に直接影響することを指摘しています。
政治的にセンシティブな話題については、LLMは一般的に主流メディアの見解を示す傾向がありますが、これは他の信頼できるニュースメディアとは大きく対照的である可能性があります。
DeepSeek-R1は依然として有能なコーディングモデルですが、これらの実験は、ChatGPTなどを含むAIツールが、企業環境に隠れたリスクをもたらす可能性があることを示しています。
LLM生成コードに依存する組織は、導入前に徹底した内部テストを実施すべきです。
また、ファイアウォール やアンチウイルスなどのセキュリティレイヤーも不可欠です。なぜなら、モデルが予測不能または脆弱な出力を生成する可能性があるためです。
モデルの重みに組み込まれたバイアスは、コード品質やシステム全体のセキュリティに影響を与えうる新たなサプライチェーンリスクを生み出します。