具身智能“数据饥渴”或将迎解
具身智能“数据饥渴”或将迎解
与自动驾驶在发展初期所面临的挑战相似,具身智能如今也正遭遇一场“数据荒”。
据行业分析数据显示,具身机器人在训练过程中通常需要达到数千亿级别的交互数据,然而目前全行业可获取的数据总量仅约为数百万条,存在高达10万倍的缺口。
如此悬殊的数据差距,使得依靠单一企业或机构进行数据采集变得不切实际。
正是基于这一现实,具身智能领域正逐步改变以往各自为战的模式,转向产业协同。从初创公司到行业巨头,再到地方政府,各方资源正积极整合,试图打破数据“孤岛”,为行业发展提供更充足的“养料”。
破解数据荒,需产业协同
近日,由工业和信息化部指导、开放原子开源基金会发起,乐聚机器人牵头,联合蚂蚁灵波、上海交通大学、宇树科技等核心单位共建的“具身智能开源数据集社区”正式启动。
在两年前,这样的消息或许只是行业内的普通动态,但在2026年的今天,却具有了非凡意义。
作为国家级平台推动的第一个具身智能开源数据集社区,其目标明确:破解“数据孤岛”、降低采集成本、提升标注效率、增强模型泛化能力。
换句话说,具身智能的“数据荒”问题,已经不是依靠单打独斗可以解决的。
过去几年,具身智能的发展高度依赖数据飞轮效应,企业纷纷自建数据采集体系,并将其视为核心竞争力。然而,进入2026年后,数据缺口的现实逐渐显现:任何一家企业都无法独自填补这一空缺。
因此,行业生态正悄然发生变化。国家级平台牵头推动协同,乐聚、宇树、智元等企业也开始共享数据,构建行业联盟,开源自家数据集。
- 智元推出AgiBot World
- 乐聚构建LET数据集
- 银河通用推出DexonomySim
- 它石智航发布WIYH
- 枢途科技推出HORA
- 简智推出10Kh RealOmni
- 灵巧智能发布DexCanvas
这些数据集已覆盖多模态训练、灵巧操作、全身运动等多个技术领域。
其中,它石智航发起了“具身数据星火计划”,目标是推动实现1亿小时的数据共享。地平线、地瓜机器人与无问智科则联合发起10000+小时的开源数据计划。
为何行业突然热衷开源数据集?
据业内人士表示,数据开源并非高风险举措。在这一过程中,有些企业通过共享获取行业影响力,但更重要的是,开源可以促进跨企业协作、共同创新,产生更大的价值。
企业所能够触及的场景和数据始终有限,而开源可以吸引更多开发者参与优化与测试——这已不仅是“共享”,更是“众包”式研发。
如果说企业层面的协同是横向的市场行为,那么地方政府的参与,则是纵向的基础设施建设。
据盖世汽车研究院统计,仅2025年,地方采购的数采机器人订单金额就已突破10亿元。
此外,据权威机构Interact Analysis调研,截至2025年底,中国已有50多个国家级或省市区级人形机器人数采中心投入运行或正在规划建设,分布于约19个省份,其中超过半数已投入使用。
在具体布局上,上海张江机器人谷和北京石景山具身智能综合实训场均已部署近百台数采机器人。
这些数据清晰地表明:数据采集正从“企业行为”演变为“政府工程”。
京东掀起数据采集新高潮
在这一波数据共建热潮中,京东的举措尤为引人注目。
京东宣布将在一年内积累500万小时人类真实场景视频数据,两年内突破1000万小时,并同步实现100万小时机器人本体数据采集。
当前,京东已建成行业领先的机器人数据采集中心,构建起涵盖“采集—标注—训练—验证”的全流程数据流水线。
更值得关注的是其采集规模:京东将动员数十万人参与数据采集,包括内部超过10万员工和外部最多50万各行各业的人员。仅在宿迁,就有超过10万市民参与其中。采集场景覆盖家庭、办公室、物流、商店、医疗等百余个细分领域。
如若计划顺利推进,京东此举或将刷新“人类历史上最大规模数据采集行动”的记录。
数据采集的瓶颈与挑战
尽管数据采集热潮兴起,但质疑声也随之而来。
盖世汽车研究院分析师指出,虽然真实业务场景与“人海战术”理论上能够直击数据荒的痛点,但其核心难题在于是否能采集到包含力觉与触觉的高质量动作数据,而非低效的视频堆砌。
数十万人戴着采集设备在超市、物流站活动,虽然能够帮助机器人理解“什么是门”“什么是苹果”,但是否能学会“用合适的力度握住鸡蛋而不碎”,仍是未知数。
数据来源的融合趋势
在解决“数据从哪里来”的问题之后,行业正在探索更深层次的融合——不同数据技术路线之间的界限逐渐模糊。
在NVIDIA GTC 2026大会上,Physical Intelligence创始人Chelsea Finn指出,机器人形态与人类越接近,人们原以为越有利于迁移学习,但事实上,当机器人数据足够多样化时,模型反而更易将“人类数据”与“机器人数据”连接起来。
换句话说,单一数据源并非万能,融合才是关键。
盖世汽车研究院分析师也指出,尽管遥操作采集与UMI采集在数据质量与规模之间取得了一定平衡,但这并不意味着其他采集方式将被取代。
“更现实的情况是,具身智能的数据体系应是分层采用、分阶段取舍的系统。”
以千寻智能为例,该公司坚定推进“多样性”Scaling路线,目前已积累超过20万小时多类型真实交互数据,涵盖互联网视频、遥操作、可穿戴采集等,预计2026年将突破100万小时。
穹彻智能研究科学家吕峻也指出,遥操作采集在数据质量、模型训练等方面仍具优势,因此在UMI之外,穹彻仍在持续采用该方式。
数据融合的未来路径
如何融合多种数据采集方式,成为当前行业共同思考的问题。
一个被反复提及的策略是:分层使用,各取所长。具体而言,用低成本数据覆盖广度,用高精度数据确保深度。
Agility CTO Pras Velagapudi在GTC上提出了数据金字塔模型:塔尖是遥操作采集数据,最难获取但质量最高;往下依次是UMI、第一人称视角、通用视频数据——越往下越容易获取,但信息密度也越低。
他的观点明确:核心任务应尽量使用塔尖数据,同时利用塔底数据作为模型预训练的起点。
这一策略正在成为行业共识。
宇树科技创始人王兴兴也认为,应尽可能在预训练阶段多使用视频、互联网和仿真数据,先训练出基础模型,再通过少量高质量机器人数据提升模型表现。
“即便拥有万台机器人和万人采集团队,如果数据质量不达标,系统效果未必提升。”
Skild AI CEO Deepak Pathak则用一个类比形象解释了该策略:就像小孩通过观察大人学习,尽管身体结构不同,但依然可以掌握技能。
地方政府介入带来的影响
尽管行业在技术路径上达成共识,但仍有一只“看不见的手”在影响行业格局。
有业内人士指出,地方政府的介入使数据采集更倾向于与本体公司合作,从而推动遥操作采集中心的建设。这种模式虽然在短期内能快速推进数据基建,但也可能导致技术路线的路径依赖,延缓UMI等更灵活方案的落地。
如果没有政府支持和补贴,还会出现如此多的遥操作数据采集中心吗?答案显而易见。
结语
当政策、产业与资本三股力量同时注入,当遥操作、UMI、仿真合成、人类视频学习等多条技术路径并行推进,具身智能的数据困境正在从“能否解决”转变为“何时解决”。
正如自动驾驶在发展初期所经历的阶段,行业曾面临数据短缺的难题,但通过产业链协同、道路数据积累和算法迭代,如今已实现从L2到更高级别驾驶的跃升。
具身智能也将在类似的路径上前行。不同技术路线在竞争中相互借鉴、优势互补,最终有望逐步摆脱“数据荒”的束缚。
查看全文
共读科技



评论0条评论