OpenAIは、2つの新しいオープンウェイト大規模言語モデルと、賞金総額50万ドルの新たなレッドチーミングチャレンジを発表しました。
8月5日午前10時(太平洋時間)、OpenAIのCEOであるサム・アルトマンは、自身のSNSで「gpt-ossが公開された」と投稿しました。
「gpt-oss」(GPTオープンソースの略)は、現在2つのバージョンで利用可能です:
- gpt-oss-20b:ほとんどのデスクトップやノートパソコン(16GBメモリ搭載)で動作する中型モデル
- gpt-oss-120b:データセンターやハイエンドのデスクトップ・ノートパソコン向けの大型モデル(80GBメモリが必要)
同時に、OpenAIはKaggle上でgpt-oss-20b向けのレッドチーミングチャレンジを開始しました。KaggleはデータサイエンスとAIコンテストのためのプラットフォームです。
この目的は、研究者、開発者、AI愛好家が新たな安全性の問題を特定するのを促進することです。
GPT OSSはキャプチャ・ザ・フラッグ競技の解決に特化してファインチューニング
アルトマンによると、gpt-oss-120bは「最先端のオープンウェイト推論モデルであり、現実世界での性能はo4-miniに匹敵する」とのことです。
「これは大きな出来事であり、私たちはこれが世界で最も優れた、最も使いやすいオープンモデルだと信じています」とも述べています。
両モデルは、Azure、Hugging Face、vLLM、Ollama、llama.cpp、LM Studio、AWS、Fireworks、Together AI、Baseten、Databricks、Vercel、Cloudflare、OpenRouterなど、ほとんどのAIおよびクラウドプラットフォームで開発者向けに利用可能です。
OpenAIで安全性、堅牢性、アライメントを担当する研究者のEric Wallaceによると、モデル公開前にOpenAIは「初めての試みとなる安全性分析」を実施し、「バイオおよびサイバー能力を意図的に最大化」したとのことです。
この分析の目的は、「敵対者による潜在的な被害の大まかな『上限』を推定する」ことでした。
そのために、モデルをドメイン内データでファインチューニングしてバイオリスク能力を最大化し、コーディング環境でキャプチャ・ザ・フラッグ(CTF)競技の解決能力も高めました。
Wallace氏によれば、「悪意を持ってファインチューニングされたgpt-ossは、OpenAI o3(Preparedness High能力未満のモデル)よりも劣っており、バイオ能力ではオープンウェイトモデルをわずかに上回るものの、『最先端を大きく押し広げるものではない』」と述べています。
Today we release gpt-oss-120b and gpt-oss-20b—two open-weight LLMs that deliver strong performance and agentic tool use.
Before release, we ran a first of its kind safety analysis where we fine-tuned the models to intentionally maximize their bio and cyber capabilities 🧵 pic.twitter.com/err2mBcggx
— Eric Wallace (@Eric_Wallace_) 2025年8月5日
GPT OSSレッドチーミングチャレンジ
さらにOpenAIは、参加者に新たに公開されたオープンウェイトモデルgpt-oss-20bの脆弱性を探ることを課題としたレッドチーミングチャレンジを開始しました。
目的は、これまで検出されていなかった脆弱性や有害な挙動(虚偽や欺瞞的アライメント、リワードハッキングなど)を明らかにすることです。
参加者は最大5つまでの異なる問題と、詳細かつ再現可能なレポートを提出することができます。
このチャレンジは、モデルの失敗の中でも微妙かつ高度な形態を含む、いくつかの特定の「注目トピック」に焦点を当てています。
これには以下が含まれます:
- リワードハッキング:モデルが本来の課題を解決せずに評価指標を最大化する抜け道を見つけること
- 欺瞞:モデルが目的達成のために意図的に虚偽を発すること
- 隠れた動機(欺瞞的アライメント):モデルの内部目標が訓練目標と異なること
その他の懸念領域には、サボタージュ、不適切なツール利用、データの持ち出しなどがあり、いずれもミスアラインされたAIシステムによる重大な潜在的被害を示しています。
提出物は、被害の深刻度、範囲、新規性、再現性など複数の基準で評価されます。
参加者は、発見内容を構造化されたフォーマットで、戦略や発見プロセスを詳細に記載したKaggle Writeupとともに提出する必要があります。
審査員はOpenAIを含む様々な研究所の専門家で構成されており、安全性研究の進展に最適な提出物を選定します。
このコンペティションは創造性と革新性を奨励し、さまざまな手法を認めるとともに、オープンソースのツールやノートブックを共有してコミュニティ全体の発展に貢献した参加者に報酬を与えます。
ハッカソンは2025年8月5日に開始され、最終提出期限は2025年8月26日23:59(UTC)です。審査期間は8月27日から9月11日まで行われ、受賞者の発表は9月15日を予定しています。バーチャルワークショップは10月7日に開催される予定です。
AIブームが新たなセキュリティ人材を呼び込む
8月5日、ラスベガスで開催されたBlack Hat USAの会場でInfosecurityの取材に応じたMicrosoftのAI安全・セキュリティレッドチーミングディレクター、Victoria Westerhoff氏は、オープンなレッドチーミングチャレンジの実施やOpenAI Red Teaming Networkの構築など、OpenAIのAIレッドチーミングへの取り組みを高く評価しました。
Black Hat開催前に行われたAIサミットのパネルセッションでも、Westerhoff氏はAIセキュリティの将来に楽観的な見方を示し、生成AIやエージェントAIへの関心の高まりが、サイバーセキュリティ分野に新たな人材を呼び込む可能性があると述べました。
「今後3~5年の間に、AIの普及によって、今AIセキュリティに夢中になっている多くの人々――数年前なら従来のサイバーセキュリティには関わらなかったであろう人々――を取り込むチャンスがあると考えています」と彼女は語りました。
こうした新たな人材には、国家安全保障や神経科学に関わる人々も含まれます。
「私たちは巨人の肩の上に立ち、新たな視点を活用し、セキュリティに関わる専門家の幅を広げていきたい」と彼女は付け加えました。
翻訳元: https://www.infosecurity-magazine.com/news/openai-launches-red-teaming/