具身智能产业面临“数据荒”，多维路径正在破局

每天懂一传感器 20260330

由于具身智能产业的发展高度依赖数据飞轮驱动，过去几年赛道企业几乎都自建了数采体系，并视数据为核心竞争力。然而迈入2026年，庞大的数据缺口像一面镜子，逐渐让所有人看清了一个现实：没有任何一家企业能独自填满这个窟窿。

具身智能产业面临“数据荒”，多维路径正在破局

与自动驾驶行业早期阶段相似，具身智能如今也正面临数据资源极度匮乏的瓶颈。

据行业分析显示，训练具身机器人所需的交互数据量可达数千亿级，而目前全球范围内可用的数据总量仅在几百万条左右，缺口高达10万倍。

如此巨大的数据缺口，依靠单一企业或机构进行独立采集和积累，显然已难以满足需求。

正是基于这一现实，整个具身智能行业开始转变以往各自为战的发展模式，积极探索产业协同。从初创企业到行业巨头，再到地方政府，多方力量正加速进入数据共建的行列，试图从根源上打破数据“孤岛”，为行业的发展提供更充足的“养分”。

“数据荒”问题已非企业单打独斗可解

近日，由工信部指导、开放原子开源基金会发起，乐聚机器人牵头，联合蚂蚁灵波、上海交通大学、宇树等核心单位共同打造的“具身智能开源数据集社区”正式启动。

相比两年前，这一消息在2026年的行业语境下意义更加重大。作为首个由国家级平台发起的具身智能开源数据集社区，其目标明确：破解“数据孤岛”、降低采集成本、提升标注效率、增强模型泛化能力。

用更通俗的说法，就是——仅凭企业自身力量，已难以应对当前的数据饥渴。

过去几年，具身智能产业的发展高度依赖数据飞轮效应，赛道企业大多自建数据采集体系，并将数据视为核心竞争力。然而，2026年之后，数据缺口的现实逐渐让行业意识到，任何单一企业都无法独立填补这一巨大缺口。

因此，行业整体心态开始发生转变。不仅国家级平台牵头推动数据共建，乐聚、宇树、智元等原本竞争关系的企业也开始开放数据资源，共建行业联盟，推动开源数据集发展。

目前，包括智元AgiBot World、乐聚LET、银河通用DexonomySim、它石智航WIYH、枢途科技HORA、简智10K RealOmni、灵巧智能DexCanvas等数据集均已完成开源，覆盖多模态训练、人形机器人灵巧操作、全身运动控制等多个方向。

其中，它石智航还发起了“具身数据星火计划”，目标是实现1亿小时级别的数据共享。地平线、地瓜机器人与无问智科也联合推出了10000+小时的具身智能开源数据集计划。

为何企业纷纷转向数据开源？

有业内人士指出，对大多数企业而言，开源数据本身并不会带来显著风险。相反，它能推动行业内知识共享、技术协作，甚至带来更大规模的创新。

单个企业可触及的场景和数据采集范围有限，而开源后，更多开发者可以参与数据优化、bug修复和模型改进。这种合作模式更像是“众包研发”，而不仅仅是“资源共享”。

如果说企业间的开源合作是一种横向的协同，那么地方政府的介入则代表了纵向的基础设施建设。

据盖世汽车研究院不完全统计，2025年仅地方政府采购的数采机器人订单金额就已超过10亿元。

根据Interact Analysis调研数据，截至2025年底，中国已有超过50个国家级或省级人形机器人数据采集中心处于建设或运行阶段，分布在19个省份，其中超过50%的采集中心在2025年已正式启用。

如上海张江机器人谷和北京石景山具身智能实训场等，均已部署近百台数采机器人。

这些数据背后，揭示出一个明确趋势：数据采集正在从企业行为逐步演变为政府主导的系统性工程。

而真正将这一趋势推向高潮的，是京东。

京东宣布计划在一年内采集500万小时真实场景视频数据，两年内突破1000万小时，并同步实现100万小时的机器人本体数据采集。

这一规模远超业内多数企业，京东亦已建成一套完整的“采集—标注—训练—验证”全流程数据流水线。

更值得一提的是其采集方式——将动员数十万人参与数据采集，包括超过10万内部员工和最多50万外部行业人员。仅在宿迁一地，就计划动员超10万名市民参与，场景涵盖家庭、办公、物流、零售、医疗等多个领域。

若该项目顺利实施，有望成为“人类历史上最大规模的数据采集行动”。

数据采集为何在2026年突然成为焦点？

盖世汽车研究院分析师指出，当前行业对数据的重视度提升，源于具身机器人运动控制技术的逐步成熟。但与此同时，机器人“大脑”训练所需的真实数据缺口成为新的瓶颈。

过去两年，行业主要聚焦于机器人本体设计与运动能力提升，例如稳定行走、灵活抓取等。如今这些问题正逐步解决，而“大脑”训练的不足则愈发凸显。

要实现真正意义上的通用型机器人智能，核心仍在于获取大量高质量训练数据。

然而，数据采集并非规模越大越好。

有分析指出，尽管京东的“人海战术”能够获取海量数据，但关键在于能否采集到力觉、触觉等高精度动作数据，否则可能沦为空洞的视频堆砌。

数十万人参与采集，固然能帮助机器人识别“门”或“苹果”，但能否教会它们“用适当力度握紧鸡蛋而不破碎”，仍是未知数。

数据采集技术路线的融合趋势

当前，数据来源的边界正在模糊，不同技术路线之间的互补融合趋势日益明显。

在英伟达GTC 2026上，Physical Intelligence(PI)联合创始人Chelsea Finn指出，机器人形态与人类越接近，并不意味着迁移学习效果越佳。相反，当机器人数据本身足够多样时，模型反而更容易建立跨形态、跨环境、跨任务的泛化能力。

“我们不仅使用机器人真实数据，也融合网络视频、人类视频等多源数据，目标是训练出真正具备泛化能力的模型。”Chelsea Finn强调。

盖世汽车研究院分析师亦指出，尽管UMI便携采集在数据质量与规模之间取得较好平衡，但遥操作采集、仿真合成等方法仍具有不可替代性。

“更现实的情况是，数据体系应是分层使用、分阶段取舍的。”

例如，千寻智能正以“多样性”为核心推进Scaling路线，已累计获取20万小时多类型交互数据，涵盖互联网视频、遥操作、可穿戴采集等多种方式，并计划在2026年突破100万小时。

穹彻智能研究科学家吕峻也指出，遥操作采集在数据质量与模型训练方面仍具有独特优势，因此即便UMI模式兴起，该方法仍在持续使用。

那么，如何实现不同技术路线的融合？

行业普遍认为应采取“分层使用、各取所长”的策略。即用低成本数据覆盖广度，用高精度数据保障深度。

在GTC上，Agility CTO Pras Velagapudi展示了一个“数据金字塔”模型，其中遥操作采集位于塔尖，信息密度最高；往下依次为UMI、第一视角数据、通用视频等，采集难度依次降低，数据价值也呈阶梯式下降。

他的观点明确：塔尖数据用于关键任务，塔底数据可作为预训练模型的基础。

宇树科技创始人王兴兴亦认同这一逻辑，认为在预训练阶段应优先利用视频、互联网、仿真数据等，先建立基础模型，再提高对真实机器人数据的利用效率。

“即便你拥有万台机器人，派万人采集数据，也不一定带来线性效果。因为还涉及数据质量、硬件差异、传感器差异等多重因素。”

Skild AI CEO Deepak Pathak则用一个生动的类比说明了这一思路：就像孩子通过观察成人学习，尽管体型差异大，但依然能掌握技能。

不过，值得注意的是，在这场技术路线融合中，地方政府的介入正悄然影响着行业格局。

有业内人士指出，政府支持有助于快速建设数据采集中心，但同时也可能强化某些特定路线，如遥操作采集，从而延缓UMI等低成本方案的推广。

如果没有政策与补贴，是否还会有如此多的遥操作数据采集中心？答案不言自明。

从“能不能解决”到“什么时候解决”

随着政策、产业、资本三股力量的协同推动，以及遥操作、UMI、仿真合成、人类视频学习等多条技术路径的并行推进，具身智能的数据困境正在从“能否解决”转变为“何时解决”。

如同自动驾驶行业曾经历的数据短缺阶段，如今已实现从L2到更高级别的突破，具身智能亦将沿着相似路径前行。

不同技术路线在竞争中相互借鉴、优势互补，最终有望摆脱“数据荒”的束缚，推动整个行业迈向成熟。

查看全文

每天懂一传感器

作者最近更新

具身智能产业面临“数据荒”，多维路径正在破局