OpenAIがAIとのやり取りで人々が持つ悪い習慣に対処

人々はChatGPTなどのAIツールに個人データを貼り付ける傾向があるため、OpenAIはテキスト内の個人識別情報（PII）を検出して削除するように設計されたオープンウェイトモデルであるPrivacy Filterをリリースしました。このモデルはApache 2.0ライセンスの下でHugging FaceおよびGitHubで利用できます。

「このリリースは、AIで安全に構築するための実用的なインフラストラクチャを開発者に提供することで、より回復力のあるソフトウェアエコシステムをサポートするための当社のより広範な取り組みの一部です。これには、プライバシーおよびセキュリティ保護を実装しやすくするツールとモデルが含まれます」と同社は発表で述べました。

OpenAIは、独自のプライバシー保護ワークフローで微調整されたバージョンのPrivacy Filterを使用していると主張しています。

Privacy Filterは、言語とコンテキストを分析して、機密情報の識別方法を改善するように設計されています。分類がコンテキストに依存する場合を含め、非構造化テキストでより広い範囲のPIIを検出できます。このモデルは、公開情報と個人にリンクされたデータを区別し、不要な削除を減らしながら機密詳細をマスキングします。

「このモデルはローカルで実行できるほど小さいため、フィルタリングされていないデータはデバイスに残る可能性があり、サーバに送信されて再識別される必要がないため、露出のリスクが低くなります」とOpenAIは述べました。

Privacy Filterは機密データを8つのカテゴリに分類します。これには名前、住所、メール、電話番号、URL、日付、アカウント番号、およびシークレットが含まれます。アカウント番号カテゴリはクレジットカードと銀行口座などをカバーし、シークレットにはパスワードとAPIキーが含まれます。

システムはトークン分類アプローチを使用し、トークンごとに生成するのではなく、単一のパスでテキストを入力にラベルを付けます。最大128,000トークンのコンテキストウィンドウで長いドキュメントをサポートします。合計15億のパラメータがありますが、使用時にアクティブなのは約5,000万個のみです。これは速度を改善するのに役立ちます。

OpenAIはPII-Masking-300kベンチマークでモデルをテストしました。これは、システムが個人データをどれだけよく検出してマスキングするかを測定します。F1スコア96%（精度94.04%、リコール98.04%）が報告されました。データセットの改訂版では、スコアは97.43%に増加し、精度は96.79%、リコール98.08%でした。

モデルは特定のドメインに適応することもできます。OpenAIは、より小さいデータセットで微調整することでパフォーマンスを改善できることに注意しています。

「すべてのモデルと同様に、Privacy Filterは間違いを犯す可能性があります。一般的でない識別子や曖昧な参照を見落とす可能性があり、特に短いテキストでコンテキストが限定されている場合、情報を過度に削除または過小削除する可能性があります。法務、医療、財務ワークフローなどの高感度エリアでは、人間によるレビューとドメイン固有の評価および微調整が重要です」とOpenAIは警告しました。

このソリューションがAIワークフローの一般的なプライバシーリスクに対処し、個人データが望まない場所に落ち込むのを防ぐのに役立つことは疑いの余地がありません。

翻訳元: https://www.helpnetsecurity.com/2026/04/23/openai-privacy-filter-personally-identifiable-information/

OpenAIがAIとのやり取りで人々が持つ悪い習慣に対処

共有:

関連

関連記事

Hugging Faceの侵害が「オープンウェイト論争」を再燃、法的責任の所在も焦点に

Bugcrowd、エクスプロイト検証機能を備えたエージェント型侵入テストツール「Savant Pathseeker」を発表

BlackCloakがディープフェイク対策の保護範囲を経営幹部の信頼できる人脈まで拡大