ICRA 2026深度观察：全栈闭环成标配，中国具身智能势力显著崛起

传感梦工厂 20260612

ICRA 2026深度观察：全栈闭环成标配，中国具身智能势力显著崛起

导语：6月5日，为期五天的IEEE国际机器人与自动化会议（ICRA 2026）在维也纳落下帷幕。作为机器人领域最具影响力的学术盛会，今年的ICRA吸引了大批中国企业参展，现场展位被围得水泄不通。具身智能的产业逻辑正在发生深刻变化：全栈闭环成为生存前提，数据采集从幕后走向台前，灵巧手加速向人手看齐。而在学术层面，UC Berkeley教授Ken Goldberg一场关于“十万年数据鸿沟”的主旨演讲，直接挑战了“数据万能论”，并提出了将Model-based与Model-Free两大范式融合的全新路径——“图即策略”（Graph as Policies）。本文系统梳理ICRA 2026的核心技术趋势与学术争鸣。

一、产业三大趋势：全栈闭环、数据为王、灵巧手进化

趋势一：全栈闭环从“口号”变为“标配”

今年的展会上，一个显著变化是：几乎没有公司愿意只做其中一环。

无论是本体厂商还是灵巧手公司，几乎都在强调“自有模型+硬件（包含本体和灵巧手）+数据采集”的完整链条。往年更多是本体厂商宣称自己是全栈型公司，而今年，灵巧手、关节厂商则自研了本体、做了模型，甚至开始布局自己的数据采集方案。

这背后反映的，并非企业盲目扩张，而是行业早期缺乏成熟标准化分工的必然结果。在具身智能尚未形成统一的技术栈和接口规范之前，数据、模型和硬件彼此深度耦合、相互影响——没有数据，模型无法迭代；没有模型，硬件的真实能力无法被用户感知；没有硬件，数据和模型就失去了物理载体。正如现场一位工程师所言：“全栈布局不是选择，而是目前生存下去的必要条件。”

趋势二：数据采集被推到台前，数据量成为新的竞争指标

如果说2025年各家还在“秀模型”，那么2026年的ICRA展会上，数据采集设备成了真正的主角。

据AI科技评论现场观察，千寻智能、零次方、魔法原子等公司均建有自己的数据采集工厂；鹿明机器人、帕西尼、度量科技、灵御智能等企业展出了最新的数据采集设备。各家都在探索最优的数据采集方式——是遥操作、人类演示、还是仿真生成？是单臂还是双臂？是第一人称还是第三人称视角？这些问题的答案，正在决定模型能力的上限。

这一趋势与Ken Goldberg在大会主旨演讲中讨论的核心议题——机器人数据鸿沟——形成了产业与学术的奇妙呼应。我们将在后文详述。

趋势三：灵巧手加速向人手看齐，触觉成为新标配

五指、人手1:1比例、20个左右自由度，成了本届ICRA灵巧手展品的主流追求。

Sharpa、舞肌科技、灵心巧手、源升智能、灵掌机器人、曦诺未来、因时机器人、强脑科技等企业都展出了性能优异的灵巧手产品。传动方式上，直驱和混动最受青睐。“触觉”的重要性正被逐渐放大，不少灵巧手都集成了触觉传感器。

数据采集方式的革新，或许是推动灵巧手向人手靠拢的深层原因。当前“以人为中心”的数据逐渐占据上风——直接从人类操作视频或动作捕捉中学习操作技能。1:1人手比例的灵巧手在人类动作数据迁移上天然更快、成本更低，高自由度则对应更高的灵巧度。五指之外，面向专用场景的夹爪、三指方案因为性价比优势仍有忠实拥趸。

“机器人的未来在中国。” 一位算法工程师在展会上这样感慨。走遍展馆后，中国企业展现出的系统整合能力和清晰的工程落地意识，正在全球技术擂台上争取越来越响亮的话语权。

二、Ken Goldberg主旨演讲：十万年数据鸿沟与“两种文化”的融合

如果说产业展区展现的是具身智能“正在做什么”，那么Ken Goldberg的主旨演讲则试图回答一个更根本的问题：“数据万能论”的信徒们，你们到底在什么时候能抵达终点？

2.1 灵魂之问：什么时候？

“如果按照人类平均阅读速度计算，阅读完今天训练大语言模型所使用的全部数据，大约需要10万年。而换算到机器人领域，我们目前积累的数据总量，大概只相当于几年的规模。”

Goldberg用这组对比数据直接击穿了“Scaling Law将自然延伸至具身智能”的乐观预期。他并非否定数据的价值，而是质疑时间线——“我知道它终将发生，但我不知道具体时间。”

更致命的是，他认为目前流行的VLA（视觉-语言-动作）模型在Benchmark上表现出的“通用性”可能被高估了。Goldberg以Open X-Embodiment数据集为例进行了分析：16万个任务中，“pick”、“move”、“push”等简单操作占了绝大多数，“这本质上就是把物体0拿起来放到物体1上——这是John Craig机器人学教材第三章就讲过的内容”。

2.2 Dex-Net的启示：数据+工程，而非数据Only

Goldberg回顾了他团队标志性的Dex-Net项目——一个利用大规模仿真数据训练神经网络完成真实世界抓取的系统。这套系统后来孵化出了Ambi Robotics，如今已在美国各地物流中心部署，累计完成超过1亿次包裹分拣。

但Goldberg强调的重点是：真正让系统运行起来的，是数据+传统工程。“大量工程设计、大量模块化系统、大量细致调试”——运动规划模块、传感器噪声建模、抓取鲁棒性评估，这些经典工程方法在整个系统中扮演了不可替代的角色。

这成为他整场演讲的立论基础：仅靠数据远远不够。

2.3 数据从哪来？从“数据飞轮”到“数据雪崩”

Goldberg逐一分析了当前主流的四条数据获取路径：

仿真：对无人机和运动控制效果好，但在操作领域，仿真与现实的差距依然巨大——接触力、摩擦、物体形变，这些变量使得仿真中完美的策略在现实中经常完全失效。
世界模型：利用海量视频训练，但经常出现“幻觉”——凭空生成不存在的结构，对物理世界的理解并不真实。
人类遥操作：成本高、效率低，“我的学生们并不喜欢做这件事”。
真实生产环境：Goldberg最看好的路径。以Ambi Robotics为例，过去4年积累了约22年的机器人运行数据（所有机器人工作时间的累加）。他提出Data Avalanche（数据雪崩）概念——先让系统投入运行，获得数据，利用数据提升性能，卖出更多系统，部署更多机器人，收集更多数据，形成指数级增长。

2.4 VLA的脆弱性：换个位置就崩溃

为了说明Model-Free路线的局限，Goldberg引用了LIBERO-Pro Benchmark的实验：某个VLA模型在标准测试环境中达到100%成功率，但只是把易拉罐移动几厘米，成功率立刻下降到约17%。

“许多任务都出现了类似现象。当环境变化稍微超出训练分布时，模型性能会迅速崩溃。”斯坦福、DeepMind和布里斯托大学的一项联合研究也印证了这一点——当前模型并没有大家想象中那么通用。

2.5 融合方案：Graph as Policies（GAP）

在批判了两种路线的各自局限后，Goldberg提出了他的融合方案。

第一步：Code as Policies。利用大语言模型生成机器人控制代码——不是直接控制机器人，而是生成可解释、可验证的程序。这一思路早在2023年已被提出，Goldberg团队在此基础上加入强化学习，让系统在失败后自动修改代码，在特定Benchmark上成功率达到80%以上。

第二步：Graph as Policies（GAP）。既然Code as Policies可以生成代码，为什么不生成计算图？Goldberg指出，机器人领域本就大量使用图结构——行为树、ROS节点图、任务图、运动规划图。图结构天然具有可分解、可组合、可验证、可扩展的优势。

GAP的核心架构如下：一个“Harness（缰绳）”框架接收任务描述和环境信息，利用大语言模型将任务拆解并构建初始计算图；随后进入自我学习循环，不断执行、评估、修改图结构；最终将表现最优的图部署到真实机器人上。在部署阶段不再需要庞大GPU，只需轻量级执行器即可运行。

实验结果令人振奋：

任务	GAP成功率	对比基线
Make Popcorn（真实Franka平台）	98%	—
工业装配（Bosch合作）	95%	人工设计99%
数据中心插拔网线	100%	—
超市订单拣选	97%	OpenVLA 0.5仅20%

最让Goldberg兴奋的是融合实验：先用GAP将相机和夹爪移动到理想位置，再调用OpenVLA 0.5执行操作——成功率几乎翻倍甚至三倍提升。“因为GAP把问题限制在了VLA最擅长的分布范围内。”

2.6 Q&A精华

在问答环节，Goldberg进一步回应了几个关键问题：

关于验证：他透露已安排与代码验证团队的合作，计划将编译检查、接口规范验证等机制整合进系统。更长远的方向是让Agent自己提出测试案例，特别是边缘情况，实现越来越严格的自我测试。

关于机械智能：Goldberg认为，利用VLM/LLM自动设计机械结构和机器人本体是一个极具潜力的方向。它有助于让机器人更快进入生产环境，从而加速数据积累——“这正是我希望看到的发展路径。”

关于LLM是否真正理解物理世界：Goldberg的回答坦诚而务实——“老实说，我不知道。这其实和关于LLM的经典争论一样，它们真的理解了吗？哲学家们至今还在争论。”但他认为更重要的是，它们是否能够做出有用的事情。“在这一点上，我比自互联网诞生以来任何一次技术浪潮都更加兴奋。”

三、学术前沿亮点

除Ken Goldberg的主旨演讲外，本届ICRA 2026还涌现了多项值得关注的前沿成果（结合ICRA 2026会议议程及其他技术报道整理）：

抓取与操作：英伟达与斯坦福大学团队提出实时动作预测框架，将推理时间压缩50%以上，使灵巧手在动态交互任务中反应更迅速、动作更流畅。宾夕法尼亚大学GRASP实验室展示了可完成复杂任务的模块化灵巧手，手指可独立更换和重组以适配不同任务需求，同时保持了低成本与高可维护性。

感知技术：多伦多大学团队将视觉定位精度提升至像素级别，使机器人在杂乱环境中的物体识别和姿态估计精度显著提升。卡内基梅隆大学提出基于多模态数据（视觉+触觉+听觉）融合的方案，在遮挡和低光照等极端环境中显著改善感知可靠性。

人机交互：麻省理工学院CSAIL实验室开发出能准确解读人类非语言线索（手势、眼神、身体朝向）的交互框架，提升了协作机器人在非结构化环境中的意图理解能力。苏黎世联邦理工学院将VR/AR技术用于机器人遥操作培训，新手操作员经过沉浸式VR培训后，操作熟练度大幅提高。

运动规划与导航：牛津大学团队提出动态环境中基于深度强化学习的实时路径规划方案，在人群密集的公共场所表现突出。密歇根大学为腿足机器人开发出“本能级”快速反应控制器，遭遇突发外力推动时可在数十毫秒内自动调整姿态避免摔倒——这与杜克大学Argus球形机器人的全向自稳定能力形成了两种截然不同的技术路线（主动vs被动），各有适用场景。

强化学习与Sim-to-Real：MIT与NVIDIA联合团队开发出基于少量真实数据即可快速适应真实世界物理特性的算法框架，操作策略从仿真到现实的迁移成功率显著提高。斯坦福大学团队利用基于物理的仿真环境生成海量合成操作数据，结合域随机化技术，对VLA模型进行数据增强，在未见过的真实物体上提升了泛化能力。

中国力量的崛起：本届ICRA大会收到的论文投稿中，中国科研机构和企业署名论文占比超过40%，在具身智能、灵巧操作、人形机器人等热点方向贡献突出。多家中国高校和企业在主会场和Workshop中分享了最新成果。正如现场一位参会者所言，中国团队正展现出极强的系统整合能力和清晰的工程落地意识。

四、趋势研判：从ICRA 2026看向具身智能的未来

综合产业展区动态与学术前沿讨论，我们可以凝练出以下五条核心趋势判断：

趋势一：全栈能力从“加分项”变为“入场券”。在行业尚未形成成熟标准化分工的早期阶段，数据、模型、硬件三者深度耦合。不具备全栈能力的公司，将难以在快速迭代的竞争中获得足够的反馈速度。

趋势二：数据竞争从“规模崇拜”走向“质量与飞轮并重”。 Ken Goldberg的“数据雪崩”概念与产业界自建数据工厂的趋势殊途同归——真正有价值的数据，来自真实生产环境中的持续积累，而非一次性采集。谁先让机器人跑起来、产生数据、反哺模型，谁就占据先机。

趋势三：VLA不会“一统天下”，Model-based与Model-Free正在走向融合。 Goldberg提出的Graph as Policies是这种融合的一个具体实例。未来最具竞争力的系统，很可能不是站在某一端，而是设计出巧妙的架构让两种范式互补——用工程方法保障可靠性和可解释性，用学习方法提供泛化能力和灵活性。

趋势四：灵巧手加速进化，触觉感知从“可选”变为“必选”。随着人类动作数据迁移路线的兴起，1:1人手比例的灵巧手成为最优数据接口。而触觉传感器的大面积集成，正在让灵巧手从“看得见摸不着”走向“摸得着感得到”。

趋势五：中国具身智能力量正在从“参展者”变为“规则制定者”。论文占比超40%、展位被围得水泄不通、系统整合能力获国际认可——中国团队正在全球机器人技术的最高擂台上，争取越来越响亮的话语权。工程化能力和落地速度，正成为中国企业最具辨识度的竞争优势。

查看全文

传感梦工厂

作者最近更新

ICRA 2026深度观察：全栈闭环成标配，中国具身智能势力显著崛起