具身智能产业面临“数据荒”,多维路径正在破局
具身智能产业面临“数据荒”,多维路径正在破局
与自动驾驶行业早期阶段相似,具身智能如今也正面临数据资源极度匮乏的瓶颈。
据行业分析显示,训练具身机器人所需的交互数据量可达数千亿级,而目前全球范围内可用的数据总量仅在几百万条左右,缺口高达10万倍。
如此巨大的数据缺口,依靠单一企业或机构进行独立采集和积累,显然已难以满足需求。
正是基于这一现实,整个具身智能行业开始转变以往各自为战的发展模式,积极探索产业协同。从初创企业到行业巨头,再到地方政府,多方力量正加速进入数据共建的行列,试图从根源上打破数据“孤岛”,为行业的发展提供更充足的“养分”。
“数据荒”问题已非企业单打独斗可解
近日,由工信部指导、开放原子开源基金会发起,乐聚机器人牵头,联合蚂蚁灵波、上海交通大学、宇树等核心单位共同打造的“具身智能开源数据集社区”正式启动。
相比两年前,这一消息在2026年的行业语境下意义更加重大。作为首个由国家级平台发起的具身智能开源数据集社区,其目标明确:破解“数据孤岛”、降低采集成本、提升标注效率、增强模型泛化能力。
用更通俗的说法,就是——仅凭企业自身力量,已难以应对当前的数据饥渴。
过去几年,具身智能产业的发展高度依赖数据飞轮效应,赛道企业大多自建数据采集体系,并将数据视为核心竞争力。然而,2026年之后,数据缺口的现实逐渐让行业意识到,任何单一企业都无法独立填补这一巨大缺口。
因此,行业整体心态开始发生转变。不仅国家级平台牵头推动数据共建,乐聚、宇树、智元等原本竞争关系的企业也开始开放数据资源,共建行业联盟,推动开源数据集发展。
目前,包括智元AgiBot World、乐聚LET、银河通用DexonomySim、它石智航WIYH、枢途科技HORA、简智10K RealOmni、灵巧智能DexCanvas等数据集均已完成开源,覆盖多模态训练、人形机器人灵巧操作、全身运动控制等多个方向。
其中,它石智航还发起了“具身数据星火计划”,目标是实现1亿小时级别的数据共享。地平线、地瓜机器人与无问智科也联合推出了10000+小时的具身智能开源数据集计划。
为何企业纷纷转向数据开源?
有业内人士指出,对大多数企业而言,开源数据本身并不会带来显著风险。相反,它能推动行业内知识共享、技术协作,甚至带来更大规模的创新。
单个企业可触及的场景和数据采集范围有限,而开源后,更多开发者可以参与数据优化、bug修复和模型改进。这种合作模式更像是“众包研发”,而不仅仅是“资源共享”。
如果说企业间的开源合作是一种横向的协同,那么地方政府的介入则代表了纵向的基础设施建设。
据盖世汽车研究院不完全统计,2025年仅地方政府采购的数采机器人订单金额就已超过10亿元。
根据Interact Analysis调研数据,截至2025年底,中国已有超过50个国家级或省级人形机器人数据采集中心处于建设或运行阶段,分布在19个省份,其中超过50%的采集中心在2025年已正式启用。
如上海张江机器人谷和北京石景山具身智能实训场等,均已部署近百台数采机器人。
这些数据背后,揭示出一个明确趋势:数据采集正在从企业行为逐步演变为政府主导的系统性工程。
而真正将这一趋势推向高潮的,是京东。
京东宣布计划在一年内采集500万小时真实场景视频数据,两年内突破1000万小时,并同步实现100万小时的机器人本体数据采集。
这一规模远超业内多数企业,京东亦已建成一套完整的“采集—标注—训练—验证”全流程数据流水线。
更值得一提的是其采集方式——将动员数十万人参与数据采集,包括超过10万内部员工和最多50万外部行业人员。仅在宿迁一地,就计划动员超10万名市民参与,场景涵盖家庭、办公、物流、零售、医疗等多个领域。
若该项目顺利实施,有望成为“人类历史上最大规模的数据采集行动”。
数据采集为何在2026年突然成为焦点?
盖世汽车研究院分析师指出,当前行业对数据的重视度提升,源于具身机器人运动控制技术的逐步成熟。但与此同时,机器人“大脑”训练所需的真实数据缺口成为新的瓶颈。
过去两年,行业主要聚焦于机器人本体设计与运动能力提升,例如稳定行走、灵活抓取等。如今这些问题正逐步解决,而“大脑”训练的不足则愈发凸显。
要实现真正意义上的通用型机器人智能,核心仍在于获取大量高质量训练数据。
然而,数据采集并非规模越大越好。
有分析指出,尽管京东的“人海战术”能够获取海量数据,但关键在于能否采集到力觉、触觉等高精度动作数据,否则可能沦为空洞的视频堆砌。
数十万人参与采集,固然能帮助机器人识别“门”或“苹果”,但能否教会它们“用适当力度握紧鸡蛋而不破碎”,仍是未知数。
数据采集技术路线的融合趋势
当前,数据来源的边界正在模糊,不同技术路线之间的互补融合趋势日益明显。
在英伟达GTC 2026上,Physical Intelligence(PI)联合创始人Chelsea Finn指出,机器人形态与人类越接近,并不意味着迁移学习效果越佳。相反,当机器人数据本身足够多样时,模型反而更容易建立跨形态、跨环境、跨任务的泛化能力。
“我们不仅使用机器人真实数据,也融合网络视频、人类视频等多源数据,目标是训练出真正具备泛化能力的模型。”Chelsea Finn强调。
盖世汽车研究院分析师亦指出,尽管UMI便携采集在数据质量与规模之间取得较好平衡,但遥操作采集、仿真合成等方法仍具有不可替代性。
“更现实的情况是,数据体系应是分层使用、分阶段取舍的。”
例如,千寻智能正以“多样性”为核心推进Scaling路线,已累计获取20万小时多类型交互数据,涵盖互联网视频、遥操作、可穿戴采集等多种方式,并计划在2026年突破100万小时。
穹彻智能研究科学家吕峻也指出,遥操作采集在数据质量与模型训练方面仍具有独特优势,因此即便UMI模式兴起,该方法仍在持续使用。
那么,如何实现不同技术路线的融合?
行业普遍认为应采取“分层使用、各取所长”的策略。即用低成本数据覆盖广度,用高精度数据保障深度。
在GTC上,Agility CTO Pras Velagapudi展示了一个“数据金字塔”模型,其中遥操作采集位于塔尖,信息密度最高;往下依次为UMI、第一视角数据、通用视频等,采集难度依次降低,数据价值也呈阶梯式下降。
他的观点明确:塔尖数据用于关键任务,塔底数据可作为预训练模型的基础。
宇树科技创始人王兴兴亦认同这一逻辑,认为在预训练阶段应优先利用视频、互联网、仿真数据等,先建立基础模型,再提高对真实机器人数据的利用效率。
“即便你拥有万台机器人,派万人采集数据,也不一定带来线性效果。因为还涉及数据质量、硬件差异、传感器差异等多重因素。”
Skild AI CEO Deepak Pathak则用一个生动的类比说明了这一思路:就像孩子通过观察成人学习,尽管体型差异大,但依然能掌握技能。
不过,值得注意的是,在这场技术路线融合中,地方政府的介入正悄然影响着行业格局。
有业内人士指出,政府支持有助于快速建设数据采集中心,但同时也可能强化某些特定路线,如遥操作采集,从而延缓UMI等低成本方案的推广。
如果没有政策与补贴,是否还会有如此多的遥操作数据采集中心?答案不言自明。
从“能不能解决”到“什么时候解决”
随着政策、产业、资本三股力量的协同推动,以及遥操作、UMI、仿真合成、人类视频学习等多条技术路径的并行推进,具身智能的数据困境正在从“能否解决”转变为“何时解决”。
如同自动驾驶行业曾经历的数据短缺阶段,如今已实现从L2到更高级别的突破,具身智能亦将沿着相似路径前行。
不同技术路线在竞争中相互借鉴、优势互补,最终有望摆脱“数据荒”的束缚,推动整个行业迈向成熟。
查看全文
每天懂一传感器
传感器专家网
四方光电 


评论0条评论