
出典:Panther Media Global(Alamy Stock Photo経由)
ビジョン言語モデル(VLM)はこの1年で目覚ましい進歩を遂げましたが、実際の企業課題に対応できるのでしょうか?すべての兆候は「イエス」と指し示していますが、1つ注意点があります。それは、まだ成熟とガイダンスが必要だということです。
VLMはコンピュータビジョンと自然言語処理を組み合わせ、テキストと画像を理解・解釈します。そして、モデルはペアになった画像とテキストの膨大なデータセットで訓練されているため、扱える情報も多いです。モデルはオープンセットで訓練されており、ほぼ無限の行動、相互作用、エッジケースを認識できます。
VLMは記述的に設計されており、キャプション作成、シーンの説明、データ分析、任意の画像へのクエリなどに利用できます。医療分野ではX線の解読支援が可能です。金融業界では不正検出、小売業界では返品処理やバーチャル試着にVLMが活用されています。企業はすでにVLMを自動運転車にも使い始めています。
物理的な安全確保も、企業が人材や重要資産を守るための新たなユースケースとして拡大しています。例えば、従業員のタイムカードや建物への入退館を追跡でき、これは最近の北朝鮮IT偽装労働者詐欺で悪用されたものです。
VLMは、セキュリティチームが日々直面する2つの主要課題の解決に役立つと、Ambient.aiのCTO兼共同創業者であるVikesh Khanna氏は語ります。人間の監督がほとんどない中でのシステムカバレッジの拡大や、リアルタイムの文脈に基づく優先順位付けがないアラームによるアラート疲労の回避に対応できます。そのため、同社は運用セキュリティ環境で物理的安全性を強化するためのVLM「Ambient Pulsar」をリリースしました。
「この視覚データと言語の結びつきこそが真のブレークスルーです」とKhanna氏は言います。「これにより、セキュリティチームは自然言語でビデオと対話でき、質問したり、シナリオを説明したり、結果を定義したりできるようになり、生の映像ではなく構造化された意味のある回答を得られます。」
VLMはどのように進化したか?
VLMはこの1年で3つの大きな進歩を遂げました。新しいモデルは、人や物体、相互作用を含むより複雑なシーンを扱えるようになり、Khanna氏によれば、単なるラベルの羅列ではなく、それらの関係性を記述できるようになったといいます。また、時間的推論も向上しており、VLMが動画を見て何が変化したか、何がその変化をもたらしたかを理解することが、物理的安全性に重要な役割を果たします。
最後に、下流のエージェントやツールとの統合がより密接になり、「インテリジェンスレイヤー」としての役割が強化されています。
この1年でVLMは大幅に精度と実用性が向上したと、Trend MicroのフィールドCTOであるBharat Mistry氏も同意します。それはペアになった画像とテキストの巨大なコレクションで訓練されたことや、モデル設計の改善によるものだとMistry氏は付け加えます。
「VLMは今や、物体間の関係や空間的推論などの複雑なタスクもこなせるようになり、研究段階から実世界の応用へと進化しています」とMistry氏はDark Readingに語っています。
この概念自体は以前からありましたが、人工知能(AI)の進化により、ビジョン言語モデルはより記述的になりました。進歩によって双方向のやり取りが可能になり、従来のコンピュータビジョンが認可されたソースが管理するライブラリに提出された画像の検証に基づいていたのに対し、ForresterのVP兼リサーチディレクターであるMerritt Maxim氏は、どんな言語モデルでもアクセスできる画像が多いほどモデルが良くなると述べています。
VLMは今や機械のアイデンティティからのリクエストも処理可能です。例えば、AIエージェントを内蔵した交通カメラが、緑色の車が通過するたびに通知することもできるとMaxim氏はDark Readingに語っています。
「現時点では、実現よりも期待の方が大きい部分もありますが、それが人々が語るビジョンであり、実際の進歩が続いているのです」と彼は述べています。
物理的セキュリティのユースケース一覧
進歩によりVLMは物理的セキュリティ目的にも利用できるようになりました。Pulsarのようなモデルは、企業が活動を監視するのに役立ち、例えば清掃スタッフが敷地に入るたびにオペレーターに通知したり、過去のパターンに基づいて異常な行動を検出したりできます。例えば、営業時間外の積み下ろしドックでの異常な活動を浮き彫りにするなどです、とKhanna氏は述べています。
物理的アクセス制御システムは、多くのアラート(例えばドアが開けっぱなしになった時のアラームなど)を生成しますが、多くは誤警報であることが多いとKhanna氏は警告します。VLMは映像と対応するアクセス情報を関連付けて、こうした無効なアラートを排除でき、また武装した侵入者や安全上の危険を検出するためにも利用できます。
もう1つのユースケースは、自然言語による検索や調査です。調査は今も複数のソースやシステムにまたがる何時間もの映像を人間が確認することに大きく依存していますが、調査員はVLMに「誰かがドアをこじ開けた時」や「事件のきっかけとなった出来事」を見せるよう依頼できると、Khanna氏は付け加えます。
カメラ映像の分析、不正アクセス、重要資産の監視による保護強化に加え、VLMは視覚的証拠とテキストデータを関連付けてインシデント調査を支援することもできると、Mistry氏は説明します。
リスクを軽視しないで
多くの利点がある一方で、VLMにはさらなるガードレールや追加開発が必要だと専門家は指摘します。「責任ある導入と強力なプライバシー対策、敵対的な脅威への防御策が、悪用防止のために不可欠です」とMistry氏は助言します。
すでに顕在化しているリスクの1つは医療分野での応用に関するものです。VLMは、所見の欠如や偽陰性結果の特定に本質的な限界があり、特に曖昧な結論や混合した内容を含む放射線レポートの分析時に顕著です。MITの研究者は今年論文を発表し、「ビジョン言語モデルは否定を理解しない」と警告し、「否定の正確な理解は医用画像のような重要な分野で極めて重要だ」と述べています。
他の多くの最新AIツールと同様に、人間による監督は依然として有益であり、特にX線やその他の医療診断を読む際には重要です。
「ユースケースによっては、誰かの健康や生死に関わる判断をAIモデルだけに任せたいのか、それともAIに補完された訓練を受けた臨床医に任せたいのか、という問題があります」とMaxim氏は問いかけます。「ユースケースによっては、やはり人間によるキュレーションや分析が必要になるでしょう。」
Maxim氏はまた、今後の規制やガバナンス、プライバシー問題、例えば監視時の個人同意の取得など、VLMが引き起こす可能性のある懸念についても言及しました。
「ビジョン言語モデルはリアルタイム、あるいはより自動的に多くのことをしようとしています」とMaxim氏は言います。「可能性はありますが、さらなる成熟が必要です。」