破解具身智能“数据荒”的多元路径
破解具身智能“数据荒”的多元路径
与自动驾驶早期发展阶段类似,具身智能正面临严峻的“数据短缺”挑战。据行业分析,具身机器人训练通常需要达到数千亿级别的交互数据,然而目前全球范围内可获取的数据总量仍不足数百万条,存在高达十万倍的缺口。
面对如此巨大的数据缺口,仅依赖单一企业或机构进行采集与积累已不现实。为应对这一局面,具身智能行业正在由以往各自为战的模式转向产业协同。从初创公司到行业巨头,再到地方政府,各方正积极加入数据共建行列,力求打破数据“孤岛”,为产业发展注入更强动力。
2026年,由工信部指导、开放原子开源基金会发起,并由乐聚机器人牵头,联合蚂蚁灵波、上海交通大学、宇树等核心单位共建的“具身智能开源数据集社区”正式启动。这一平台被视作行业协同的重要里程碑。
该项目明确瞄准了具身智能产业中的“四大痛点”——数据孤岛、采集成本高、标注效率低、模型泛化能力弱。换句话说,数据荒问题已无法由单个企业独立解决。
过去几年,具身智能赛道上的企业普遍自建数据采集体系,并将数据视为核心资产。然而,迈入2026年后,庞大的数据缺口逐渐显现出一个共同认知:任何一家企业都无法独自填补这一空白。
在这一背景下,行业生态正在发生微妙变化。不仅国家级平台积极牵头推动数据共建,乐聚、宇树、智元等企业也纷纷开放自家数据集,参与联盟建设。目前,包括智元AgiBot World、乐聚LET、银河通用DexonomySim、它石智航WIYH、枢途科技HORA、简智10Kh RealOmni、灵巧智能DexCanvas等在内的多个数据集已实现开源,覆盖多模态训练、灵巧操作、全身运动等多个关键领域。
其中,它石智航发起的“具身数据星火计划”目标是实现1亿小时级别的数据共享。地平线、地瓜机器人与无问智科也联合启动了10000+小时开源数据集计划。
“开源数据对于企业来说风险较小,甚至还能带来影响力。更重要的是,数据共享能促进交流与创新,从而带来更大价值。”一名业内人士表示。
开源不仅意味着共享,更像是一种“众包”式的研发协作。由于单家企业所能接触到的场景和采集的数据有限,开源能够借助更多开发者的智慧进行优化,从而提升数据质量与使用效率。
除了企业层面的合作,地方政府也在推动数据采集基础设施的建设。据盖世汽车研究院不完全统计,仅2025年地方采购的数采机器人订单金额就超过了10亿元。
据Interact Analysis调研,截至2025年底,中国已有50个以上的国家级或省级人形机器人数采中心在使用或规划中,分布在19个省份,其中超过一半已投入运行。上海张江机器人谷和北京石景山具身智能综合实训场等地已部署近百台数采机器人。
这些数据表明,数据采集正在从企业行为转变为政府主导的基础设施工程。
而在这场行动中,京东的加入无疑将整个行业推向了高潮。京东宣布将在一年内积累500万小时人类真实场景视频数据,两年内突破1000万小时,并同步实现100万小时机器人本体数据采集。
目前,京东已建成行业领先的数据采集与处理中心,构建了从采集、标注、训练到验证的全流程数据流水线。更值得注意的是,该计划将发动数十万人参与数据采集,涵盖内部员工与外部行业人员,场景覆盖家庭、办公、物流、商店、医疗等多个领域。
若该计划顺利推进,京东的数据采集规模或将创下行业新高。
然而,数据量的提升并非万能钥匙。有分析师指出,尽管京东的计划直击数据荒的痛点,但关键在于是否能采集到高质量的动作数据,特别是包含力觉和触觉信息的数据,否则可能陷入低效的视频数据堆砌。
确实,单纯依靠视觉数据,机器人或许能识别“门”与“苹果”,但未必能掌握“如何捏起鸡蛋而不碎”这样的精细操作。
当前,具身智能产业链正在由分散走向整合,数据从哪里来的问题正逐步解决。同时,数据技术路线之间的界限也在模糊。在英伟达GTC 2026大会上,Physical Intelligence联合创始人Chelsea Finn指出,机器人形态与人类越接近,并不意味着迁移学习效果越好,真正关键的是数据的多样性和丰富性。
Chelsea Finn强调,应充分利用机器人真实数据,也应融合其他数据源,如网络视频和人类行为数据,以训练出具备跨形态、跨环境、跨任务泛化能力的模型。
盖世汽车研究院分析师认为,尽管UMI便携式采集技术在数据质量和规模上取得平衡,但并不能取代遥操作或仿真合成等其他路线。现实中的具身智能数据体系应是一个分层采用、分阶段取舍的系统。
例如,千寻智能以“多样性”为核心推进其Scaling路线,目前已积累超过20万小时多类型真实交互数据,涵盖互联网视频、遥操作、可穿戴设备等,预计2026年数据总量将突破100万小时。
穹彻智能研究科学家吕峻也指出,遥操作采集在数据质量和模型训练方面具有优势,因此即便在UMI普及的背景下,仍被持续采用。
那么,面对多元数据路线,行业应如何融合使用?一个被广泛认可的思路是“分层使用,各取所长”——即用低成本数据覆盖广度,用高精度数据确保深度。
Agility CTO Pras Velagapudi在GTC 2026上提出了一个“数据金字塔”模型:遥操作采集数据位于塔尖,信息密度最高,但采集难度与成本也最大;往下依次为UMI、第一人称视角数据与通用视频数据,信息密度与采集难度呈反比。
因此,他的观点是:将塔顶数据用于最核心任务,同时借助塔底数据训练基础模型,作为起点。
当前,这一逻辑正在成为行业共识。宇树科技创始人王兴兴指出,预训练阶段应优先使用视频、互联网和仿真数据,以构建基础模型,从而在后续阶段提升真实机器人数据的利用效率。
他进一步指出,即便拥有大量机器人和采集人员,也不代表数据效果会线性提升。硬件差异、传感器配置、数据质量等变量都会影响最终效果。因此,提升数据利用率、减少对真机大规模采集的依赖,是未来的方向。
Skild AI CEO Deepak Pathak则以一个生动的类比解释了这一策略:就像小孩观察成人学习,尽管身体比例不同,但依然能从中汲取经验。
值得注意的是,在这场数据路线融合的背后,地方政府的介入也对行业格局产生着深远影响。有业内人士指出,地方政府的支持可能促使企业更倾向于建设以遥操作为主的数采中心,从而延缓UMI等低成本、高灵活性方案的发展。
这种趋势可能带来双重影响:短期内能够加速数据基建,但也可能在技术路线选择上造成依赖。
当政策、产业与资本三股力量共同推动,遥操作、UMI、仿真合成、人类视频学习等多条路线并行推进,具身智能的数据困境正从“能否解决”转变为“何时解决”。正如自动驾驶在初期面临数据短缺,但通过产业链协同与数据积累逐步突破瓶颈,具身智能也将沿着相似路径前进。
未来,不同技术路线将在竞争与融合中相互借鉴,最终摆脱“数据荒”的束缚,实现行业突破。
查看全文
不颓废科技青年



评论0条评论