行业数据缺口告急,具身智能迎来“开源”解法

每天懂一传感器 20260325

  • 机器人
  • 人工智能
由于具身智能产业的发展高度依赖数据飞轮驱动,过去几年赛道企业几乎都自建了数采体系,并视数据为核心竞争力。然而迈入2026年,庞大的数据缺口像一面镜子,逐渐让所有人看清了一个现实:没有任何一家企业能独自填满这个窟窿。

行业数据缺口告急,具身智能迎来“开源”解法

与早期自动驾驶行业的发展类似,具身智能如今也面临严峻的数据短缺问题。相关分析显示,训练具身机器人通常需要达到数千亿级的交互数据量,但当前行业实际可用数据仅约几百万条,缺口高达10万倍。

面对如此巨大的数据缺口,单靠企业或机构独立采集已显不足。正是在这一背景下,具身智能产业正逐步从过去的封闭模式转向协同开放,产业各方正积极构建数据共享生态。

从初创公司到行业巨头,再到地方政府,各方力量纷纷加入数据共建行列,试图打破数据“孤岛”现象,为具身智能的发展提供更充足的“养料”。

行业协同成为破局关键

近日,由工信部指导、开放原子开源基金会发起,乐聚机器人牵头,联合蚂蚁灵波、上海交通大学、宇树科技等核心单位共同建设的“具身智能开源数据集社区”正式启动。

这一项目在两年前或许只是行业的一则普通新闻,但在2026年的今天,却具有了里程碑意义。作为国家级平台发起的首个开源数据集社区,该项目旨在破解具身智能产业面临的四大核心难题——数据孤岛、采集成本高、标注效率低以及模型泛化能力弱。

换句话说,具身智能的数据困境已非单个企业能够应对,行业必须走向联合。

过去几年,具身智能企业普遍自建数据采集体系,并将其视为核心资产。但随着行业进入2026年,数据缺口的现实逐渐显现,推动企业开始共享数据资源。

如今,不少曾经互为竞争的企业也纷纷开源自身数据集。智元AgiBot World、乐聚LET、银河通用DexonomySim、它石智航WIYH、枢途科技HORA、简智10Kh RealOmni、灵巧智能DexCanvas等数据集均已宣布开源,覆盖多模态训练、灵巧操作、全身运动等多个领域。

其中,它石智航推出了“具身数据星火计划”,目标实现1亿小时级别的数据共享。地平线、地瓜机器人与无问智科则联合发起了10000+小时具身智能开源数据集计划。

地方政府加入,数据采集走向“工程化”

据盖世汽车研究院不完全统计,2025年仅地方政府采购的数采机器人订单金额就超过10亿元。

据权威机构Interact Analysis数据显示,截至2025年底,中国已有50个以上国家级或省级人形机器人数采中心进入使用或建设阶段,分布于19个省份,其中一半以上已在2025年投入使用。

上海张江机器人谷和北京石景山具身智能综合实训场等重点项目中,已部署近百台数采机器人。

这些数据表明,数据采集正在从企业行为转向政府主导的基础设施建设。

京东加入,推动“最大规模”数据采集

京东的加入让这场数据采集行动达到新的高度。该公司宣布将在一年内积累500万小时人类真实场景视频数据,两年内突破1000万小时,并同步实现采集机器人本体数据100万小时。

京东已建成行业领先的数据采集中心,构建了“采集—标注—训练—验证”的全流程数据流水线。

该项目的采集规模令人瞩目:京东将动员数十万人参与采集工作,包括超过10万名内部员工和最多50万名外部参与者。其中仅在宿迁,就计划动员超10万名市民参与。数据场景覆盖家庭、办公室、物流、商店、医疗等多个领域。

若该计划顺利实施,有望成为“人类历史上规模最大的数据采集行动”。

数据质量仍是关键挑战

尽管数据采集进入高速发展期,但也有质疑声指出:视频数据不等于高质量数据。

有分析认为,即便采集量巨大,若缺乏力觉、触觉等关键动作信息,数据可能沦为低效的视频堆砌。数十万人佩戴设备在超市、快递站等地采集的视觉数据,虽有助于机器人识别物体,但未必能教会它们如何“捏住鸡蛋而不碎”。

因此,如何提升数据质量,仍是当前具身智能领域亟待解决的问题。

数据技术路线走向融合

在数据来源方面,行业正逐步打破技术路线的边界。英伟达GTC 2026上,Physical Intelligence创始人Chelsea Finn指出,当机器人数据足够多样时,模型便能更好地融合“人类数据”与“机器人数据”,从而增强泛化能力。

她强调,团队不仅使用机器人真实数据,还融合网络视频、人类视频等多种数据源,目标是训练出可跨具身形态、环境和任务工作的模型。

千寻智能则坚定推行“多样性”Scaling路线,已累计获取超20万小时多类型交互数据,覆盖互联网视频、遥操作、可穿戴采集等多个维度,预计2026年总量将突破100万小时。

在数据使用方面,宇树科技创始人王兴兴指出,应尽可能在预训练阶段多使用视频、仿真等低成本数据,以减少对真机数据采集的依赖。而Skild AI CEO Deepak Pathak则用“小孩看成人学习”的类比,说明通过观察和模拟,机器人仍可实现有效学习。

产业共识下的“分层”策略

行业对数据技术路线的融合已形成共识,但如何融合仍是关键。

Agility CTO Pras Velagapudi在GTC上提出了一个“数据金字塔”模型:塔尖为遥操作数据,最难获取但质量最高;其次是UMI数据、第一人称视角数据;最底部为通用视频数据,最容易获取但信息密度最低。

他建议,应尽可能用塔尖数据完成关键任务,同时利用塔底数据作为预训练的起点。

这一逻辑正在成为行业通用语言,越来越多企业开始探索“预训练打底,真机点睛”的数据策略。

政府支持的双刃剑效应

值得注意的是,地方政府在数采领域的介入,虽能快速推动基础设施建设,但也可能影响技术路线的发展。

有业内人士指出,地方政府对遥操作采集方式的支持,可能延缓UMI等更灵活、低成本采集方案的推广。

试想如果没有政府补贴,是否还有那么多数采中心愿意采用遥操作方式?答案不言而喻。

结语

当政策、产业和资本三股力量共同推动,当遥操作、UMI、仿真、人类视频学习等多条技术路线并行发展,具身智能的数据困境正从“能否解决”转向“何时解决”。

就像自动驾驶从L2迈向更高级别一样,具身智能将在产业链协同与数据积累中逐步突破瓶颈。不同技术路线在竞争中相互借鉴、取长补短,最终有望彻底摆脱“数据荒”的束缚。

查看全文

点赞

每天懂一传感器

作者最近更新

  • 车企布局具身智能:从“造车”到“造人”的产业跃迁
    每天懂一传感器
    19小时前
  • 行业数据缺口告急,具身智能迎来“开源”解法
    每天懂一传感器
    19小时前
  • 5G SA部署加速 全球运营商核心网投资激增
    每天懂一传感器
    19小时前

期刊订阅

相关推荐

  • 深圳机器人产业2017年产值超千亿元

    2018-12-05

  • 传感器应该推进人工智能实现整体进化

    2018-12-07

  • 未来高端惯性传感器市场将借机器人和工业应用迎来新增长

    2018-12-07

  • 华为首款AI音箱:可通过HiLink开放协议控制19个家电品类

    2020-02-21

评论0条评论

×
私信给每天懂一传感器

点击打开传感搜小程序 - 速览海量产品,精准对接供需

  • 收藏

  • 评论

  • 点赞

  • 分享

收藏文章×

已选择0个收藏夹

新建收藏夹
完成
创建收藏夹 ×
取消 保存

1.点击右上角

2.分享到“朋友圈”或“发送给好友”

×

微信扫一扫,分享到朋友圈

推荐使用浏览器内置分享功能

×

关注微信订阅号

关注微信订阅号,了解更多传感器动态

  • #{faceHtml}

    #{user_name}#{created_at}

    #{content}

    展开

    #{like_count} #{dislike_count} 查看评论 回复

    共#{comment_count}条评论

    加载更多

  • #{ahtml}#{created_at}

    #{content}

    展开

    #{like_count} #{dislike_count} #{reback} 回复

  • #{ahtml}#{created_at}

    #{content}

    展开

    #{like_count} #{dislike_count} 回复

  • 关闭
    广告