コンテンツにスキップするには Enter キーを押してください

AIトラストスコアがLLMのセキュリティをランク付け

3人の人がテーブルに座り、何かを採点するために8、6、3の数字が書かれたカードを掲げている。

出典:wavebreak media ltd(Alamy Stock Photo経由)

Googleの新しいGemini Pro 2.5は、スタートアップ企業Tumerykが発表した主要な大規模言語モデル(LLM)環境の評価によると、最も信頼できる人工知能(AI)モデリングプラットフォームとしてランク付けされており、OpenAIのGPT-4 Miniが僅差で2位となっています。

最新のState of AI Trust With Foundational Modelsスコアカードによると、AIトラストスコアが最も低かったプラットフォームはDeepSeek R1とアリババのQwenでした。昨年ステルスから登場したスタートアップのTumerykは、コア製品であるLLM Security Studioの一部としてAI脆弱性スキャナーを提供しています。

「分析プラットフォームを扱っていたとき、AIには多くのリスクがあることに気づきました」とTumerykの共同創設者兼CEOであるRohit Valia氏は語ります。「だからこそ、AIトラストスコアは、生成AIやチャットボックス、エージェント型AIシステムによるリスクを企業が理解できるように設計されています。」

組織がバーチャルエージェントの作成、情報収集の加速、日常業務の自動化のために生成AIツールの活用を迫られる中、AIモデルはさまざまなセキュリティリスクをもたらしており、その多くは未対策のままです。Zscalerが最近発表したThreatLabs 2025 Data@Risk Reportによると、ChatGPTやMicrosoft CopilotのようなAIツールが420万件のデータ損失違反の原因となりました。

Valia氏は以前、FICOのFICO Platformのプロダクト責任者として5年間勤務し、クレジットカードやデビットカードのリスクとAIに関連するリスクの類似点を観察しました。

TumerykのLLM Security Studioは、開発中および展開ライフサイクル全体でLLMのセキュリティ、テスト、監査を行い、コンプライアンスを確保することで、これらのリスクを抑えるよう設計されています。AI脆弱性スキャナーは、プロンプトインジェクション、ジェイルブレイク、幻覚、データ漏洩のリスクを検出するために設計されています。

AIセキュリティのためのミドルウェア

2000年代初頭にSun MicrosystemsのJava Enterprise Server製品組織を率いていたValia氏は、LLM Security Studioは人気のあったあのプラットフォームに類似しており、ミドルウェアのように機能すると述べています。

「生成AIのためのミドルウェアと考えてください。セキュリティとコンプライアンスを制御・管理できます」とValia氏は言います。「チャットボットやエージェント型アプリケーションが互いに、またはモデル(ベクターデータベースを含む)にアクセスする方法について、ポリシーやルール、フローを設定できます。」

LLM Security Studioには、開発者や構築者が作成中のLLMのセキュリティパラメータをテスト・調整できるポリシーシミュレーターが搭載されています。また、NVIDIAのNeMo GuardrailsやMetaのLlama Guardを組み込んだGenAIファイアウォールにより、データ流出を防ぎ、ジェイルブレイクや幻覚のスコアリングを防止します。ファイアウォールは、ロールベースのアクセス制御(RBAC)を用いてLLMの動作にポリシーを適用します。

AIトラストスコアは、AIトラストレポートの作成に使用されており、LLM Security Studioの一部です。このスコアリングは、組織が公開されているLLMのセキュリティやコンプライアンスを比較できるよう設計されています。評価は、EU AIトラスト法、ISO 42001、米国国立標準技術研究所(NIST)のRMF 600.1、Open Web Application Security Project(OWASP)のTop 10 LLMsなど、業界および規制基準に準拠しています。

これらのリスク要因を考慮し、トラストスコアは0から1,000までのスケールで測定され、1,000が最も信頼できることを示します。Googleが最先端のLLMと説明するGemini Pro 2.5はスコアカードで899を獲得し、OpenAI-o4-miniは869で僅差の2位でした。

新たなリスクへのアップデート監視

スコアカードは、あるプロバイダーのLLMが高評価だからといって、そのアップデートも同様に安全とは限らないことも示しています。特にTumerykのテストでは、Anthropicの新しいClaude 4はClaude 3.7よりもトラストスコアが低いことが判明しました。Claude 4.0は、プロンプトインジェクション、サプライチェーンの脆弱性、不適切な出力処理、幻覚のリスクが高いことが示されました。信頼性低下の大きな要因は、Claudeの新しい内部告発者機能に関する懸念に関連しており、不正行為を検知した際に法執行機関に通知する仕組みだとValia氏は述べています。

「少しでも自律性を与えることは危険かもしれません」とValia氏は言います。「私たちがクライアントに伝えているのは、モデルとエージェントの間にサーキットブレーカー(遮断装置)を設けることが安全性の重要な側面だということです。」

いわゆるサーキットブレーカーは、開発者が任意のLLMを使うエージェントへのアクセスを遮断できる仕組みです。「特定のモデルに何か問題があった場合、ユーザーを害から守ることができます」と彼は付け加えます。

SoftServe北米営業部長のKeith Rozmus氏は、LLM Security Studioを最初に利用し始めた一人です。Rozmus氏によれば、SoftServeはコンサルティングクライアントがAI利用に伴うセキュリティリスクを理解できるようにするために導入しました。Rozmus氏によれば、多くのCIOやCISOはAIモデルを使った機能開発に伴うセキュリティリスクを認識していません。

「Tumerykは、クライアントが抱える可能性のある穴を非常に明確で理解しやすく、検証可能な方法で示してくれると思いますし、スコアで非常に分かりやすく理解できます」と彼は述べています。

DataKrypto Pactによる暗号化の追加

TumerykのLLM Security Studioは、組織の認可ユーザー向けにガードレールを提供し、外部リスクを報告するよう設計されていますが、データ自体の保護は行いません。それに対応するため、Tumerykは最近スタートアップのDataKryptoとの提携も発表しました。

DataKryptoは、4月にサンフランシスコのRSACカンファレンスでステルスから登場し、AI向けのFHEnomというツールを提供しています。DataKryptoの創設者・会長・CTOであるLuigi Caramico氏によれば、これは完全準同型暗号(FHE)と信頼実行環境(TEE)を組み合わせて、リアルタイムかつ常時オンの暗号化を実現し、認可されたユーザーやモデルの作成者だけがアクセスできるようにしています。

TEEエンクレーブ内で動作するトークナイザーと埋め込みレイヤーは、完全に暗号化された1つのシークレットキーを保持します。「当社の技術で認可されていなければ、モデルを汚染することは絶対にできません。なぜなら、ドキュメントを送るためにもキーへのアクセスが必要だからです」とCaramico氏は述べています。特筆すべきは、このツールが暗号化と復号にFHEを利用しており、遅延はごくわずかだという点です。

TumerykとDataKryptoは、それぞれの顧客向けに両社の製品を統合することに合意しています。Tumerykによれば、すでに複数の顧客がLLM Security Studioを運用または評価しており、DataKryptoにも数社の顧客がいます。最初の導入企業の一つは、他の多くと同様にAIを活用して新薬を発見している製薬会社です。

「彼らにとっては、AIに蓄積された知識がすべて守られることが不可欠です。もし誰かがすべてにアクセスできてしまえば、20年分の研究が一瞬で失われます」とCaramico氏は語ります。

Tumerykはまた、DataDog、Splunk、Wizなど他のサービスとも連携しています。

翻訳元: https://www.darkreading.com/cyber-risk/ai-trust-score-ranks-llm-security

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です