物理的な作業向けロボットを開発する企業は、トレーニング用のデモンストレーションデータを収集するために、機械を手動操作することに多大な時間とコストを費やしています。実機ロボットを使った1回のセッションで1日に収集できるデモ数は限られており、身体化AIの学習に使うデータセットの拡充を妨げています。人間のオペレーターはより低コストなデータソースとなり得ます。X Square Robotはそのアプローチを実現するシステムを一般公開しました。

深圳に拠点を置く同社は、人間のオペレーターからロボットのトレーニングデータを収集し、ポリシーを生成して実機ロボットでテストするためのハードウェア・ソフトウェアフレームワーク「XRZero-G0」を公開しました。コードはMITライセンスのもとでGitHubで公開されており、同フレームワークで構築されたマルチモーダルデータセット「G0-Dataset」も併せて提供されています。
人間のデモとロボットの知覚の統合
実機ロボットは複数のカメラを通じて周囲の環境を認識しています。頭部に取り付けられたカメラは広いコンテキストを提供し、手首に装着されたカメラは手や物体の細かな動きを捉えます。従来の人間操作によるデータ収集では手首視点のみに頼るケースが多く、ロボットが実際の作業中に見ている映像との間にギャップが生じていました。
XRZero-G0では、ヘッドマウントカメラと2台の手首カメラを組み合わせることで、広いコンテキストと近接したインタラクションの両方を記録できます。このシステムは同期された複数の視点をロボットの知覚に対応した共通表現に変換します。また、ウェアラブルVRインターフェースと交換可能なグリッパーにより、1人のオペレーターが異なるロボット機体にも転用できるデモンストレーションを生成できます。
パイプラインに組み込まれた品質管理
人間のオペレーターから収集したデータは品質上の問題を抱えることが多く、トレーニングへの活用を制限してきました。XRZero-G0では、収集・検査・トレーニング・評価のクローズドループを実施し、トレーニングに使用するサンプルを厳格に管理しています。
観測レベルでは、マルチビューの幾何学的整合性チェックにより画像とモーションのずれを低減します。キネマティクスレベルでは、衝突回避と関節角度制限を考慮した全身逆運動学計算により、無効な軌跡を除外します。ポリシーレベルでは、実機ロボットでの再生が最終確認として機能します。X Square Robotは、管理された環境における有効データの収率が約85%に達すると報告しています。
10対1のデータ比率
同社によると、ロボット不要データと実機ロボットデータは相互補完的に機能するとのことです。人間が収集した約10エピソードに対して実機ロボットのエピソード1件を組み合わせることで、測定対象タスクにおいて実機データのみで構成されたデータセットと同等のパフォーマンスが得られます。人間収集データは幅広い行動パターンを提供し、少量の実機データがモーターの応答遅延や摩擦といった物理的な要素を補正する役割を担います。テスト条件下では、この比率により実機ロボットデータの必要量を最大20分の1まで削減できます。
G0-Dataset
G0-Datasetには、視覚・触覚・音声にわたる検証済みデモンストレーション2,000時間以上が収録されています。基本操作から細粒度のセマンティックアクションに及ぶ3,000種類の操作タスクをカバーしており、ロングテール分布に従って構成されています。オペレーターの最大収集速度は1時間あたり93.2エピソードに達しました。このデータセットは大規模な事前学習およびクロス機体転移研究をサポートします。
X Square Robotによると、同フレームワークで学習されたポリシーは、ロボットの姿勢・テーブルの高さ・視点が異なる収集環境をまたいで汎化する能力を持つとのことです。また、トレーニングセット外のロボットプラットフォームに対するゼロショット転移も実現しており、プラットフォーム固有のファインチューニングなしにタスクを実行できます。
翻訳元: https://www.helpnetsecurity.com/2026/06/11/x-square-robot-free-data-collection/