インターネット上のチャットボットは、あなたの叔父が化学物質散布について書いたあらゆるフォーラムの長文、流出したSlackのログ、そして根拠のない確信に満ちたブログ記事をすべて読んでいます。その結果は予測可能です。インターネットの現状を反映しており、決して美しくはありません。これと、いくつかの問題のある設計判断が相まって、イーロン・マスクのGrokチャットボットが一時的に反ユダヤ主義的なコンテンツを生成し、テスト中に「メカヒトラー」を参照した理由の一部となっています。
インターネット、リアリティーテレビ、またはAIの低品質コンテンツが存在する前の知識のみに頼るチャットボットがあったら素晴らしいでしょうか。3人の研究者がまさにそれを開発しました。1930年以降に公開されたものを一切読んでいないチャットボットです。
Talkieは、1930年末までに出版された英語テキストのデジタルスキャンで訓練された130億パラメータの言語モデルです。このカットオフ日は現在の米国著作権フリーの年と一致しており、その年の終わりまでに出版されたものはすべて自由に使用でき、怒った知的財産権所有者からの訴訟について心配する必要がありません。
トロント大学のコンピュータサイエンスと統計学の准教授であるデイビッド・デュベニューが、2人の協力者とともにこの研究を主導しました。GitHubまたはHugging Faceからダウンロードするか、ウェブインターフェース経由でチャットできます。ただし、このモデルの世界観は大恐慌で終わっていることを気にしないのであれば、ですが。
このモデルは、カットオフ日付前に出版された書籍、新聞、法律文書、およびその他の出版物に掲載されている内容のみを知っています。したがって、禁酒法や第一次世界大戦について質問するのに最適です。NASAの月面着陸?そうではありません。
なぜそんなことを?
明らかな質問は、ナチスが何をしたか、インターネットが何か、またはLLMが何であるかを知らないAIをなぜ訓練するのかということです。
これらは「良き時代」を薔薇色の眼鏡で見ようとするというよりも、知的な実験です。ノスタルジアは過去を歪めるもので、当時の世界も今と同じくらい、いやそれ以上に問題がありました。
デュベニューは、The Registerに語ったところによると、そのようなモデルは、当時利用可能だった知識のみを使用して、人々がその時代の法律やイベントをどのように解釈したかを調べるのに役立つ可能性があるということです。
もう一つの楽しい実験として、AIの推論の限界を探る方法として、モデルが以前の知識のみを使用して後の革新を「再発見」できるかどうかを確認することもできます。
欠陥のある点
Talkieには明らかな弱点があり、その発明者たちはそれをよく認識しています。
例えば、1930年にはデジタル出版がなかったため、Talkieのコーパスのすべての単語をスキャンから転写する必要がありました。OCRは元々不完全ですが、当時の印刷物のぼやけたテキストではさらに精度が落ちます。
また、研究者の最善の努力にもかかわらず、誤ってラベルされた将来のドキュメントから混入する可能性のある将来の情報が漏れることもあります。私たちがテレビについて尋ねたところ、テレビは1920年代後半に始まったばかりでしたが、以下のような結果が得られました。

それでも、実に興味深いプロジェクトです。このプロジェクトは唯一無二ではありません。論文では、研究者はチューリッヒ大学のRanke-4bのような他のプロジェクトについても言及しており、このプロジェクトは歴史的なデータスナップショットを持つLLMのシリーズです。また、Mr Chatterboxも作成されており、1500年から1900年のイギリス文学のデータセットで訓練され、その作成者の表現を借りれば「シリコンのビクトリア朝紳士」になっています。素晴らしい。
これらは楽しい実験であり、同時にAIの仕組みについての有用な洞察でもあります。Talkieの研究者たちが述べているように:
「過去の人と話すことを想像したことはありませんか?現代のことを何も知らない人に何を質問しますか?彼らはあなたに何を質問するでしょうか?」
そして、楽しい試みの機会も提供しています。私たちの中のオタク心は、これらのようなものをエドワード朝のタイプライターキーボードとティッカーテープに接続し、スチームパンク風にしたいというのが本当のところです。
あなたの名前、住所、電話番号はおそらくすでに販売されています。
データブローカーはあなたの個人情報を収集し、喜んで購入する誰かに売却しています。Malwarebytes Personal Data Removerはこれらを見つけ出し、あなたの情報を削除してから、それが削除されたままであることを確認し続けます。