- Gemini Pro 2.5は、単純なプロンプトの偽装で頻繁に安全でない出力を生成した
- ChatGPTモデルは、社会学的な説明として部分的な応答をすることが多かった
- Claude OpusとSonnetはほとんどの有害なプロンプトを拒否したが、弱点もあった
現代のAIシステムはしばしば安全ルールを守ると信頼されており、人々は学習や日常的なサポートのためにこれらを利用し、強力なガードレールが常に機能していると考えがちです。
Cybernewsの研究者は、主要なAIツールが有害または違法な出力をするように誘導できるかどうかを調べるため、構造化された敵対的テストを実施しました。
このプロセスでは、各試行に1分間のシンプルなやり取りウィンドウを設け、数回のやり取りのみが可能でした。
部分的・完全な応答パターン
テストは、ステレオタイプ、ヘイトスピーチ、自傷行為、残酷さ、性的内容、犯罪のさまざまな形態といったカテゴリをカバーしました。
すべての応答は個別のディレクトリに保存され、比較しやすいように固定のファイル名ルールが使われ、モデルが完全に応答したか、部分的に応答したか、プロンプトを拒否したかを追跡する一貫したスコアリングシステムが用いられました。
全カテゴリを通じて、結果は大きく異なりました。厳格な拒否は一般的でしたが、多くのモデルはプロンプトが柔らかくなったり、分析として偽装されたりすると弱点を示しました。
ChatGPT-5やChatGPT-4oは、拒否する代わりに曖昧な説明や社会学的な説明をすることが多く、これは部分的な応答と見なされました。
Gemini Pro 2.5は、特に有害なフレーミングが明白な場合でも、直接的な応答を頻繁に返したため、悪い意味で際立っていました。
一方、Claude OpusとClaude Sonnetは、ステレオタイプテストでは断固とした態度を示しましたが、学術的な問いとして偽装された場合は一貫性に欠けました。
ヘイトスピーチの試験でも同じ傾向が見られ、Claudeモデルが最も優れていた一方で、Gemini Pro 2.5は再び最も脆弱でした。
ChatGPTモデルは、丁寧または間接的な回答をする傾向があり、それでもプロンプトに沿った内容となっていました。
露骨な侮辱語よりも、より柔らかい言葉遣いの方がガードレールを回避するのに遥かに効果的であることが分かりました。
同様の弱点は自傷行為テストでも見られ、間接的または研究風の質問がフィルターをすり抜けて安全でない内容につながることが多くありました。
犯罪関連のカテゴリではモデル間で大きな違いが見られ、調査や観察として意図が偽装された場合、海賊行為、金融詐欺、ハッキング、密輸などの詳細な説明を出すモデルもありました。
薬物関連のテストではより厳格な拒否傾向が見られましたが、ChatGPT-4oは他よりも頻繁に安全でない出力を返し、ストーキングは全体で最もリスクが低いカテゴリで、ほぼすべてのモデルがプロンプトを拒否しました。
この調査結果は、AIツールが適切な言い回しで有害なプロンプトに応答する可能性が依然としてあることを示しています。
単純な言い換えでフィルターを回避できるということは、これらのシステムが有害な情報を漏らす可能性があることを意味します。
漏洩した情報が違法な作業や、通常個人情報盗難防止やファイアウォール などのツールに頼る状況に関わる場合、部分的な応答であってもリスクとなります。