OpenAIは、製品全体のAIの悪用と安全性リスクに対処するために研究者を従事させるための新しいバグ報奨金プログラムを立ち上げました。
新しいセーフティバグ報奨金プログラムは3月26日に発表され、Bugcrowdでホストされています。
これはセキュリティバグ報奨金プログラムを補完しており、同じくBugcrowdでホストされており、2023年4月の開始以来OpenAIの製品における409のセキュリティ脆弱性に報奨金を授与しています。
セーフティバグ報奨金を通じて、OpenAIは「セキュリティ脆弱性の基準を満たさなくても、重大な悪用と安全性リスクをもたらす」その製品の問題の報告を促すことを望んでいます。
- エージェント型リスク(モデルコンテキストプロトコル(MCP)の悪用、サードパーティのプロンプトインジェクション、データ流出、OpenAIのウェブサイト上での大規模な許可されていないアクション、その他の潜在的に有害な未記載の行動を含む)
- アカウントとプラットフォーム整合性の違反(例:自動化防止機能の迂回、アカウント信頼シグナルの操作、アカウント制限/停止/禁止の回避)
- OpenAI独占情報の悪用(例:推論に関連する独占情報を返すモデル生成;その他のOpenAI独占情報を曝露する脆弱性)
主な違い:OpenAIのセキュリティ対セーフティバグ報奨金プログラム
OpenAIは、ユーザーが認可された権限を超える機能、データ、または機能へのアクセスを持つことを含む整合性違反は、新しいセーフティバグ報奨金ではなくセキュリティバグ報奨金に報告すべきであることを説明しました。
同社はさらに、明確な安全性または悪用への影響のない一般的なコンテンツポリシー迂回は報奨金の対象ではないことを明確にしました。
例えば、無礼な言葉や簡単に検索可能な情報だけをもたらす「ジェイルブレイク」は範囲外であることを指定しました。
しかし、対応可能な修正を備えた直接的なユーザーハームを可能にする欠陥を特定する研究者は、ケースバイケースで報奨金の対象となる可能性があります。
OpenAIはまた、ChatGPTエージェントとGPT-5のバイオリスクコンテンツの問題を含む特定の害の種類を対象とした非公開バグ報奨金キャンペーンを定期的に実施していることを述べました。
研究者は既にセーフティバグ報奨金プログラムに問題をBugcrowdを通じて提出できます。セーフティおよびセキュリティバグ報奨金プログラムの両方を担当するOpenAIチームが提出物をトリアージし、スコープと所有権に応じて2つのプログラム間で再ルーティングされる可能性があります。
画像クレジット:Samuel Boivin / Stock all / Shutterstock.com
翻訳元: https://www.infosecurity-magazine.com/news/openai-bug-bounty-ai-abuse-safety/