コンテンツにスキップするには Enter キーを押してください

AIを信頼すべきか?AIの誤りやすさに対する3つのアプローチ

エージェンティックAIの約束は魅力的です。運用速度の向上、自動化の拡大、運用コストの削減。しかし、私たちは本当に立ち止まって「このものを信頼できるのか?」と真剣に問いかけたことがあるでしょうか?

エージェンティックAIは、大規模言語モデル(LLM)AIの一種で、入力に応じて応答し、自ら目標を設定し、その目標を達成するために他のツールと連携して行動できます――必ずしも人間の介入を必要としません。こうしたツールは一般的に、ChatGPTに代表される主要な生成AI(gen-AI)モデルの上に構築されています。したがって、エージェンティックAIを信頼できるかどうかを問う前に、生成AI自体を信頼できるかを問うべきです。

そして、ここに最初の問題があります。生成AIがどのように動作しているのか、本当のところは誰も理解していません。開発した科学者やエンジニアでさえもです。この問題について、ジョージ・ワシントン大学の物理学教授ニール・ジョンソンは次のように述べています。「これを試してみよう――うまくいかなかった。じゃあこれを試そう――うまくいかなかった。あ、これはうまくいった。じゃあこれをやって、それを積み重ねて、さらに良くしていこう。この反復プロセスを経てどんどん良くしていく。でも、うまくいったものの総体しか見ていないのに、なぜ間違いが起こらないと信じられるのか?」

観察から、生成AIが常に意図通りに動作するわけではないことが分かっています。AIは「幻覚」を起こします。AIは答えを出すように設計されています。その答えが正しいか間違っているかは分かりませんし、真実や道徳、倫理の概念もありません。間違いが起こる理由はさまざまです。学習データにバイアスや明らかな誤りがある、内部アルゴリズムにバイアスや明白もしくは微妙な誤りがある、ユーザー入力にバイアスがある、などです…。

生成AIが誤作動した最近の例はGrokに見られます。短期間ですが、ほとんど無関係なプロンプトから南アフリカの白人農民虐殺に関する根拠のない(実際には存在しない)言及へと話が飛躍する傾向がありました。

「生成AIは、間違っていても自信満々に話すことが多いです。これは、AIが真実を基にしているのではなく、次に来る可能性の高い単語を予測するように訓練されているからです。AIは自分が幻覚を起こしていることを知りません――内在的な認識の謙虚さが組み込まれていないのです」と、Adversa AIの共同創業者兼CEO、アレックス・ポリャコフは説明します。

マスク氏は、この問題はプログラムへの無許可の変更によって引き起こされたと述べています。どのように、なぜ、誰によってかは説明されていません――しかし問題は「起こるべきでなかった」ことではなく、「起こり得る」ことです。そして、ここで起こり得るなら、他の場所や他のLLMでも起こり得るのです。

3つのアプローチ:ポリャコフ、コロチェンコ、ジョンソン

この「誤作動の可能性」は、LLMのエージェンティックAI拡張でさらに強調されます。「これらのシステムは、プロンプトから解釈した目標に基づき、現実世界でブラウジング、メール送信、コーディングなどの行動を取ります。しかし、文脈や安全の境界、逸脱している時を深く理解していません」とポリャコフは続けます。「本質的に、目隠しした監督なしの賢いインターンに本番環境の鍵を渡しているようなものです。」

広告。スクロールして続きをお読みください。

Industrial Cybersecurity Conference

LLMの問題は、ほとんどの場合はうまく動作するものの、時にはそうでないこと――そしてそれを簡単に見分けることができないことです。いつ、なぜ正しいのか、間違っているのか分かりません。エージェンティックAIの危険性は、誤った応答が自律的かつ監督なしで、潜在的に有害な行動へと発展することです。それでもエージェンティックAIは至る所で急速に普及しています。なぜなら、私たちは正しく動作すると仮定し、何よりも多くのコスト削減につながっているからです。

AIのセキュリティについてさらに知るには、SecurityWeek’s AI Risk Summit(2025年8月19~20日、リッツカールトン・ハーフムーンベイ)をご覧ください。

ImmuniWebのCEOであり、サイバー法&サイバーセキュリティの客員教授でもあるイリア・コロチェンコによれば、その結果として、論理的根拠よりも信仰に基づいて莫大な資金が投じられる過熱市場が生まれています――そして彼はこれをAIバブルと見なし、2000年3月に崩壊したドットコムバブルと同じ道をたどる可能性が高いと考えています。

Image
Ilia Kolochenko, ImmuniWeb CEO

長期的な危険性に気づかず、短期的な利益の最大化を目指すあまり、私たちの努力は技術を放棄するのではなく、その弱点の症状を緩和することに集中しています。エージェンティックAIの場合、これは主に自動化を目的としたシステムに人間の監督や介入を加えることに集約されます――これは言葉の矛盾です。ほぼ確実に失敗する運命にあります。私たちはソフトウェア開発において「設計段階からのセキュリティ確保」に苦労しており、コードの論理的欠陥を防ぐこともできません。主な原因は、ビジネスリーダーからの「できるだけ早く、安く」タスクを完了させるという圧力です――この圧力はエージェンティックAIの監督や介入にも繰り返され、私たちは手抜きをするでしょう。

それでも、AIの欠点にもかかわらず有用なアドバイスがないわけではありません。ポリャコフは、生成AIについて「事実の情報源ではなく、創造的な共同操縦者として信頼できる」と提案します。「ブレインストーミングのパートナーのようなもので、初稿には最適ですが、最終編集者としてはクロスチェックしない限り役に立ちません。」また、「検索拡張生成(RAG)モデルと組み合わせると、根拠が強化される」とも付け加えています。これは一理ありますが、ポリャコフのコメントは「ブレインストーミングパートナー」としての用途に限ったものであり、LLMの問題全般を解決するものではありません。

コロチェンコはRAGが若干の改善をもたらすことを認めつつも、こう述べています。「最終的な解決策にはならないと思います。拡張を行う場合でもデータが必要ですが、完璧なデータは決して得られません。品質面での改善や一部の問題の軽減にはつながるかもしれませんが、幻覚や差別、バイアスなど、AIに既に存在する問題を防ぐことはできないでしょう。」

ポリャコフのエージェンティックAI利用に関するアドバイスは、監督を増やすよりも依存度を減らすことに基づいています。彼は「制御された環境、例えばシミュレーションやサンドボックス化された生産性ツール(会議のスケジューリング、文書の要約など)で、人間のレビューが常に組み込まれている場合に限り、エージェンティックAIをある程度信頼できる」と述べています。また、コーディングにも適しており、「コードがコンパイル・実行できれば、ほぼ確実に動作すると信頼できる」とも述べています。

コロチェンコは未来に希望を託しています。バブルの崩壊と時間の経過が解決策をもたらすでしょう。それによってAIがより信頼できるようになるわけではありませんが、安全かつ安心して使える方法・場所・タイミングを私たちが学ぶことになります。AIは実際のユーザーを助けるために設計されるようになり、捉えどころのない高価な夢を追いかけることはなくなるでしょう。

「私は、ドットコムバブルの第2幕を見ていると思います。人々は奇跡を信じています。人生に魔法が必要なのです。そうでなければ人生は退屈です。魔法を見つけたと思えば、人生は素晴らしく、誰もが億万長者になれると考えます。彼らは本能的に、敷かれた矢印に盲目的に従います。これは私たちの脳の仕組みです。今や最大手企業の経営層も含め、皆がAIで巨額の利益を得られると過剰に期待しています。しかし、AIがどう動作しているか理解している人はごくわずかです。」

ドットコムバブルの崩壊はインターネットを止めませんでしたが、より持続可能な方向に再構築しました。バブル後には、責任ある投資によって検索エンジン、eコマース、クラウドコンピューティング、ソーシャルメディア、モバイルコンピューティング、web2やweb3など、巨大で有益な発展がありました。インターネットにはまだ多くの問題がありますが、社会はインターネットがないよりもある方が良いのです。

コロチェンコは、AIも同じパターンをたどると考えています。「AIを巡るこの過熱が消えれば、そしてそれはおそらく近いうちに起こると思いますが、また興味深いツールが登場するでしょう。例えば、ジャーナリストはより高速なスペルチェッカーを使えるようになるでしょう。これは軽視できません。現在の、あるいは“ネイティブ”なスペルチェッカーはやや単純です。AIスペルチェッカーなら、正しく綴られていても誤った単語や微妙な意味の誤りを検出できるでしょう。それは時間の節約になり、現行の生成AIを信用できない著者の成果物の質も向上させます。」

ポリャコフとコロチェンコの両者のAI信頼に関する楽観的な要素を見ると、1つの大きな共通点があります。信頼できるAIアプリはすべて自己完結型で単一の目的を持ち、ユーザーと協働して動作します(つまり人間の監督がある)――ユーザーの代わりに動作するのではありません。

これは、現在登場しつつあるエージェンティックAIアプリとは大きく異なります。新しいAIアプリは、人間の介入なしに複雑かつ多様な行動・反応を伴う複数のタスクを自律的に完了することが期待されています。ここでコロチェンコは完全に信頼を失います。

「何かをうまく管理するには、管理対象と同等以上に賢くなければなりません」と彼はコメントします。「チンパンジーに科学研究用の透過型電子顕微鏡を与えても、チンパンジーが科学研究をできるわけではありません。顕微鏡は高度な道具ですが、使い方が分からなければ無価値です。」

コロチェンコは人間のユーザーをチンパンジーに例えているのではなく、提供されているAIツールの複雑さと、ほとんどのユーザーの比較的単純な要求とのミスマッチを指摘しています。彼は現在のAIバブルが崩壊し、多くの企業が苦しむだろうと考えています――しかし、それによってAIをユーザーのニーズに合わせて再調整することを学び、強いられるでしょう。複雑で派手でクールだが管理不能な運用ではなく、ユーザー本位のAIへと変わるのです。

今日のAIに関するアドバイスの多くは、その誤りやすさを緩和することに関するものです。最終的には、AIが確率的な機械である以上、私たちはそれを受け入れ、共存することを学ばなければなりません。ジョンソンは異なるアプローチを取ります。アーサー・C・クラークは「魔法とは、まだ理解されていない科学にすぎない」と言いました。ニール・ジョンソンは「確率とは、まだ理解されていない決定論にすぎない」と示唆します。もし彼が正しければ、AIの根底にある決定論的なルールを理解できれば、誤りやすさを受け入れられるでしょう。なぜなら、いつ、どこで、なぜ、どのように誤りが起こるかを知ることができるからです。私たちはAIと共存し、信頼できる場面で信頼する方法を学ぶことになるでしょう。

「人間は、これまで起きたことに注意を払ってきたから、何が起こりそうか分かっていると思っています。機械もまさに同じことをしています。これまで見たことに注意を払い、今後どう進むかを決めているのです。すべては完全に決定論的です。」このプロセスの最後で、AIはいくつかの可能な経路から重み付けされた選択肢を持ちます。そして乱数を生成します。しかし、その乱数でさえも決定論的です。なぜなら、古典的なコンピュータは真のランダム性を持てないからです。そして、乱数と重み付けを使って次に進む経路を決めます。

彼はこの全過程をカオス理論に例えます。すべて決定論的であるにもかかわらず、あまりに複雑なため、私たちは決定論を追いきれず、代わりに確率と呼んでいるのです。「信頼しないのは正しい。でも、その信頼のなさは『なぜ科学はこれを説明できていないのか?』という問いなのです。」これこそが彼自身の課題です。AIは機械であり、機械はルールに従う――たとえ私たちがそのルールを知らなくても。

「私は今まさにこのものを見つめています。GPT2を分解して、いつ袋小路に入り、いつ自由に素晴らしいことをするのかを突き止めようとしています。ただ希望するのではなく、なぜそうなるのか条件を特定しようとしているのです。これこそが基礎科学だと思います。」

AIプロセスの複雑さゆえに、これは簡単な作業ではありません。「誤った選択」の原因はたいてい隠れたバイアスにあり、これも決定論的ですが、学習データ、内部アルゴリズム、プロンプト、敵対的な介入など、さまざまな要因から生じます。(ちなみに敵対的介入については、Synapsedの新しい研究によれば、OWASP Foundationの「Top 10 LLM Vulnerabilities」フレームワークに該当する脆弱性が、トップ10のLLMすべてに存在することが示されています。袋小路が本来のものか、敵によるものかさえ分かっていません。)

Image
Neil Johnson, ジョージ・ワシントン大学 物理学教授

しかし、成功の報酬は大きいのです。どこで誤作動が起きるかを理解できれば、結果を受け入れるかどうかのリスク評価に自信を持てるようになります。

まとめ

「AIへの信頼は二元的なものではなく、文脈依存です」とポリャコフは言います。「事実を教えてくれると信頼しますか?いいえ、検証可能な情報源を引用しない限り信頼できません。自律的に行動させることを信頼しますか?狭いサンドボックス化された領域でのみです。人間の判断を置き換えることを信頼しますか?絶対にありません。しかし補完するなら?その限界を知っていれば、はい。」

コロチェンコは、AIは過大評価されており、実際には何も達成していないと考えていますが、将来的には何かを成し遂げることを期待しています。「彼らは興味深いアイデアを売っています。世界をより良くし、人類の未解決問題をすべて解決し、がんを止め、エイズの治療を始めると約束しています。しかし私の問いはこうです。児童ポルノや偽造ID、有害コンテンツの生成以外に、がんワクチンの発明や貧困・飢餓の問題解決はできたのでしょうか?」

それでも彼はこう付け加えます。「AIを巡るこの過熱が消えれば――AIバブル崩壊後、近いうちに起こると思います――また興味深いツールが登場するでしょう。」

ジョンソンは現実的かつ科学的な見方をしています。「すべてはリスクと信頼の問題であり、その議論はまだ整理されていません。AIを使うべきでないという意味ではありませんが、企業自身がAIを理解していないため、十分な情報が与えられていません。だからこそ、AIの中身を明らかにし、どこで信頼でき、どこで信頼すべきでないかを知る必要があるのです。」そうして初めて、安全に使うためのリスク判断ができるようになります。

こうした懸念の中で、ウィーズリー氏が娘ジニーに言った忠告には、驚くほど先見の明があります。「私がいつも言っているだろう?脳がどこにあるか分からないものを決して信用するな。」本のタイトル『秘密の部屋』もまた、ぴったりです。

AIのセキュリティについてさらに知るには、SecurityWeek’s AI Risk Summit(2025年8月19~20日、リッツカールトン・ハーフムーンベイ)をご覧ください。

翻訳元: https://www.securityweek.com/should-we-trust-ai-three-approaches-to-ai-fallibility/

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です