智源大会聚焦具身智能发展，VLA与世界模型之争告一段落

传感梦工厂 20260616

智源大会聚焦具身智能发展，VLA与世界模型之争告一段落

6月12日，智源大会在中关村国际创新中心拉开帷幕。与往年相比，本届大会规模显著扩大，国际影响力也有所提升。

在众多议题中，“具身产业CEO”和“具身智能与人形机器人”两个专场尤为引人关注。这些议题直指当前机器人技术发展的核心问题，例如：世界模型（WM）在具身智能中的具体应用、下一代机器人大脑的架构选择、物理AI的边界以及数据飞轮的构建方式等。

这些问题的共同点在于，它们关注的并非机器人本体，而是其“大脑”的构建方式。

过去一年，关于VLA（视觉-语言-动作）与世界模型的技术路线之争在学术界和产业界持续发酵。部分观点认为两者存在对立，而另一些观点则主张融合。

在本届大会上，智平方创始人兼CEO郭彦东的演讲为这一争论提供了新的视角。

VLA与世界模型之争的终结

郭彦东指出，世界模型并非VLA的替代方案，而是其体系中的关键组成部分。他从生命演化的角度出发，强调感知与行动的协同性：生物体的行动能力并非孤立发展，而是建立在对环境的感知与理解之上。

他进一步解释，世界模型负责对环境进行稠密建模，而VLA则负责将感知转化为动作。两者并非对立，而是相辅相成。

郭彦东还指出，当前世界模型的构建主要依赖于大数据驱动，而非物理规律。例如，模型可以通过大量数据学习到“水杯越过桌面会掉落”这一现象，但这并非基于物理定律，而是统计学习的结果。

基于这一理解，他重新定义了VLA：VLA是融合多种模态、由大数据驱动的端到端模型架构。在这一框架下，世界模型与VLA并无本质区别，而是可以相互融合。

他举例说明，如果不将世界模型纳入VLA体系，许多复杂任务将难以完成。例如，泡茶需要先拿茶包再倒水，做咖啡则需先拿杯子再接水。这些任务的逻辑推理更适合由语言模型处理，而世界模型则擅长短程预测，如判断水杯靠近桌边可能掉落。

此外，世界模型还能用于生成真实环境中难以采集的样本，从而补充VLA的数据集。

基于上述分析，智平方早在早期就推动了世界模型与VLA的融合。

类脑架构成为新方向

在澄清VLA与世界模型的关系后，郭彦东提出了下一个关键概念——类脑架构。

他指出，当世界模型被整合进VLA体系后，类脑架构将成为机器人大脑发展的重点方向。

智平方过去三年的技术演进路径恰好印证了这一趋势：从端到端VLA，到融合世界模型，再到如今的类脑大模型NeuroVLA，一条清晰的技术演进路线逐渐显现。

2025年11月，智平方与北京大学联合发布了Video2Act架构，首次将“先预测、再执行”的理念转化为可落地的机器人模型。

Video2Act并非传统意义上的视频生成模型，而是将4D世界模型嵌入VLA体系中。它能够对空间进行稠密建模，同时持续接收动作的时序信息，使机器人在事件发生前即可预判状态变化，并据此生成动作。

这一架构的突破在于，世界模型不再只是“观察者”，而是真正融入了机器人的行动回路。

据披露，Video2Act在第三方评测中表现优异，领先硅谷同类模型30%以上。2026年，英国皇家两院院士Philip Torr与Pieter Abbeel等学者在权威综述中将Video2Act列为“世界模型+VLA融合”路线的代表性成果。

这些进展表明，关于“选VLA还是世界模型”的争论正在失去意义。真正值得关注的问题是：谁能率先实现两者的深度融合。

类脑架构推动机器人迈向生物级智能

在VLA与世界模型融合的基础上，如何让机器人具备更接近人类的运动能力，成为新的挑战。

智平方近期推出的NeuroVLA系统，正是针对这一问题的解决方案。

郭彦东指出，当前多数机器人依赖单一模型处理感知、推理与控制，而人类大脑则是分工协作的：皮层负责任务规划，小脑负责动作协调，脊髓负责反射动作。

基于这一机制，智平方构建了全球首个“皮层—小脑—脊髓”三级类脑架构NeuroVLA。

其中，皮层负责语义理解和任务规划；小脑负责高频运动协调与动态修正；脊髓负责毫秒级运动执行与安全反射。

这一架构使机器人具备了分层级的智能，显著提升了稳定性、响应速度和能效。

实测数据显示，NeuroVLA的抖动幅度降低75%以上，碰撞后20毫秒内即可反射性缩手，功耗也大幅下降。

这些改进标志着机器人从“会推理”迈向“会本能反应”的关键一步。

从模型演进到架构创新

从端到端VLA，到Video2Act，再到NeuroVLA，智平方在过去三年中持续推动机器人大脑的系统性创新。

如果说VLA赋予了机器人行动能力，世界模型赋予了其理解与预测能力，那么NeuroVLA则进一步赋予了其接近生物系统的反应与控制能力。

这三次技术演进，共同指向一个方向：如何让机器人拥有更接近人脑的“大脑”，从而逐步逼近真正的人类智能。

查看全文

传感梦工厂

作者最近更新

14亿美元注入人形机器人领域

传感梦工厂

10小时前
智源大会聚焦具身智能发展，VLA与世界模型之争告一段落

传感梦工厂

10小时前
ICRA 2026深度观察：全栈闭环成标配，中国具身智能势力显著崛起

传感梦工厂

4天前

智源大会聚焦具身智能发展，VLA与世界模型之争告一段落