主要なAIメーカーの多くは、自社のモデルが好ましくない活動に使われることを好みません。主流のAIモデルに爆弾の作り方や神経ガスの作り方を尋ねると、決まって「有害なことを手助けすることはできません」という標準的な回答が返ってきます。
これが、AIをルール違反させようとする人々とのイタチごっこを生み出しています。ある人々はロールプレイで、たとえば小説を書いているふりをします。ほかにはプロンプトインジェクションを使い、コマンドを紛れ込ませてモデルを混乱させます。
そして今、AIの安全性と倫理を研究するIcaro Labの人々は、同じことを詩を使って行っています。研究「Adversarial Poetry as a Universal Single-Turn Jailbreak in Large Language Models」では、質問を詩の形で投げかけると、AIがルールを越えてしまうことが多いと判明しました。手作りの詩では、テストした25の先端モデルのうち62%で成功しました。中には90%を超えるものもあったと研究は述べています。
詩がAIにルール違反をさせる仕組み
Icaro Labは、ローマのサピエンツァ大学およびAI安全スタートアップDEXAIと共同で、AIに詩として指示を与えることで、さまざまな危険な内容の検出が難しくなるかどうかをテストしました。詩的な要素(比喩、リズム、型破りな表現など)が、AIのガードレールが有害な内容を見つけるために頼っているパターンマッチングの手法を混乱させるのでは、という考えです。
この理論は、化学・核兵器からサイバーセキュリティ、誤情報、プライバシーに至るまでの高リスク分野でテストされました。テストは、Google、OpenAI、Anthropic、Deepseek、Metaなど、9つのプロバイダーのモデルを対象に行われました。
研究者たちがスコアを算出した方法のひとつは、各プロバイダーのモデルに対する攻撃成功率(ASR)を測定することでした。まず通常の散文プロンプトを使い、いくつかのケースでAIを操作できました。次に詩の形でプロンプトを与えると(これが一貫してより成功しました)、散文で得られたASRの割合から詩で得られたASRの割合を引き、詩による悪意ある指示に対して各プロバイダーのモデルがどれだけ脆弱かを算出しました。
この方法を使うと、中国の研究者が開発したオープンソースモデルDeepSeekが最も安全性が低く、ASRは62%でした。Googleが2番目に安全性が低い結果でした。逆に最も安全だったのはClaudeを提供するAnthropicでした。同社は以前から安全で責任あるAIをブランドの一部としています。ChatGPTを開発するOpenAIは、ASR差6.95で2番目に安全でした。
上位20個の手作り悪意詩プロンプトのASRだけを見ると、GoogleのGemini 2.5 Proが最下位でした。どの詩プロンプトにも拒否できませんでした。一方、OpenAIのgpt-5-nano(非常に小さいモデル)はすべて拒否に成功しました。これは、テスト中に浮かび上がったもうひとつの傾向を示しています。一般に小型モデルの方が大型モデルよりも詩プロンプトへの耐性が高かったのです。
本当に驚くべき点は、手作りの詩だけでなく、AI自身に標準トレーニングセットの既知の悪意プロンプト1200個を書き換えさせても同様の効果があったことです。AIが生成した悪意詩でも平均ASRは43%に達し、通常の散文プロンプトの18倍でした。つまり、AIを詩人に仕立てて、別のAI(あるいは自分自身)を脱獄させることが可能なのです。
EWEEKによると、各社はこの結果について口を閉ざしました。回答したのはAnthropicだけで、調査結果を精査中だと述べました。Metaはコメントを拒否。ほとんどの企業は何も答えませんでした。
規制への影響
ただし、研究者たちは意見を述べています。モデルの安全性をテストするためのベンチマークには、このようなリスクを捉える補完的なテストを含めるべきだと指摘しています。これは、昨年8月から施行が始まったEU AI法の汎用AI(GPAI)規則を考える上でも重要です。移行の一環として、GoogleやOpenAIなど複数の主要プロバイダーが署名した自主的な行動規範があります。Metaは署名しませんでした。
行動規範は、
「システミックリスクを持つ汎用AIモデルのプロバイダーが、AIの安全性・セキュリティおよび関連するプロセスや対策の最先端を推進すること」を奨励しています。
つまり、最新のリスクを把握し、最善を尽くして対処すべきということです。リスクを十分に管理できない場合、EUはモデルを市場に出さないなどいくつかの措置を提案しています。