人工知能分野において、機械学習モデルの基盤となる学習データセットを戦略的に汚染することで、その有効性を覆そうとする、先鋭的で大胆不敵な取り組みが登場した。この試みは「Poison Fountain(ポイズン・ファウンテン)」と名付けられ、AI開発に深く関与する専門家たちの間から生まれた。目的は、これらのシステムに内在する脆弱性を露呈させ、潜在的に孕む危険性へ世界的な注意を向けさせることにある。
このプロジェクトの提唱者は、ウェブサイト運営者が、誤情報や有害情報で満たされた特製のウェブページへ誘導するハイパーリンクを埋め込むという策略を主張している。これらのページは、自動化されたAIスクレイピングボットに取り込ませることを目的に特別に設計されている。いったん学習コーパスに組み込まれると、この「毒入り」データが生成されるモデルの精度と完全性を損なう。これらのページには、微細で知覚不能な論理的欠陥を含む虚偽のソースコードを掲載し、それで学習した言語モデルの生成能力を破壊できるように作られている。
この運動の概念的枠組みは、主として昨年10月に公開されたAnthropicの研究論文に依拠している。同研究は、敵対的な文書をごくわずかに混入させるだけでも、大規模言語モデルの振る舞いの軌道を劇的に変え得ると結論づけた。Poison Fountainの創設者によれば、この発見は、現代のAIアーキテクチャがいかに容易に損なわれ得るかという憂慮すべき事実を浮き彫りにしている。
The Registerによれば、この取り組みは5人の人物によって主導されており、そのうち数名は米国の著名なAI企業で職に就いている。匿名を保つある主催者は、この脅威は仮説的な抽象ではなく、現在のAI運用における明白な現実だと述べた。この確信がプロジェクトの発端となった――遍在するこれらのシステムに対する公衆の信頼がいかに脆いかを示すための、必死の試みである。
Poison Fountainのポータルは提供する入口を2つ用意している。通常のウェブリソースと、Torネットワーク経由の秘匿された入口だ。訪問者は、敵対的データを保存し拡散して、AIの学習パイプラインに確実に取り込ませるよう促される。作者たちは立法による監督に対して極めて冷笑的で、技術はすでに規制の手の届かないところまで拡散したと主張する。ゆえに、唯一有効な対応は、能動的で破壊的な抵抗だという。
この懐疑は、州の介入を阻むために巨額を投じるAI大手の攻勢的なロビー活動によって、さらに強められている。その結果、Poison Fountainの参加者は、AIの野放図な進展を止めるために残された唯一の梃子は、体系的な破壊工作だと見なしている。
この思想の支持者は、広範なデータ汚染キャンペーンが、すでに構造的疲労の兆しを見せる業界の終焉を招き得ると信じている。コミュニティでは長らく「モデル崩壊(model collapse)」の亡霊が議論されてきた。これは、AIが合成データや再帰的に処理されたデータから学習し始め、最終的に高忠実度の情報再現能力を失っていく退行的プロセスである。情報環境がますます「汚染」される中で、そのようなモデルは必然的に信頼できなくなる。
こうした策動は、長年続くNightshadeプロジェクトのような他の防衛的取り組みを想起させる。Nightshadeは、アーティストが人間には知覚できない歪みで視覚作品を攪乱し、アルゴリズムによる認識を阻止できるようにするものだ。
意図的なデータ汚染の最終的な有効性については、なお議論が分かれている。それでも、このようなプロジェクトの出現は、人工知能の進路と、その歯止めなき拡散がもたらす帰結に対する、技術知識層の不安が高まりつつあることを反映している。
翻訳元: https://meterpreter.org/kill-it-with-poison-the-poison-fountain-plan-to-break-ai-for-good/