智源大会聚焦具身智能发展,VLA与世界模型之争告一段落
智源大会聚焦具身智能发展,VLA与世界模型之争告一段落
6月12日,智源大会在中关村国际创新中心拉开帷幕。与往年相比,本届大会规模显著扩大,国际影响力也有所提升。
在众多议题中,“具身产业CEO”和“具身智能与人形机器人”两个专场尤为引人关注。这些议题直指当前机器人技术发展的核心问题,例如:世界模型(WM)在具身智能中的具体应用、下一代机器人大脑的架构选择、物理AI的边界以及数据飞轮的构建方式等。
这些问题的共同点在于,它们关注的并非机器人本体,而是其“大脑”的构建方式。
过去一年,关于VLA(视觉-语言-动作)与世界模型的技术路线之争在学术界和产业界持续发酵。部分观点认为两者存在对立,而另一些观点则主张融合。
在本届大会上,智平方创始人兼CEO郭彦东的演讲为这一争论提供了新的视角。
VLA与世界模型之争的终结
郭彦东指出,世界模型并非VLA的替代方案,而是其体系中的关键组成部分。他从生命演化的角度出发,强调感知与行动的协同性:生物体的行动能力并非孤立发展,而是建立在对环境的感知与理解之上。
他进一步解释,世界模型负责对环境进行稠密建模,而VLA则负责将感知转化为动作。两者并非对立,而是相辅相成。
郭彦东还指出,当前世界模型的构建主要依赖于大数据驱动,而非物理规律。例如,模型可以通过大量数据学习到“水杯越过桌面会掉落”这一现象,但这并非基于物理定律,而是统计学习的结果。
基于这一理解,他重新定义了VLA:VLA是融合多种模态、由大数据驱动的端到端模型架构。在这一框架下,世界模型与VLA并无本质区别,而是可以相互融合。
他举例说明,如果不将世界模型纳入VLA体系,许多复杂任务将难以完成。例如,泡茶需要先拿茶包再倒水,做咖啡则需先拿杯子再接水。这些任务的逻辑推理更适合由语言模型处理,而世界模型则擅长短程预测,如判断水杯靠近桌边可能掉落。
此外,世界模型还能用于生成真实环境中难以采集的样本,从而补充VLA的数据集。
基于上述分析,智平方早在早期就推动了世界模型与VLA的融合。
类脑架构成为新方向
在澄清VLA与世界模型的关系后,郭彦东提出了下一个关键概念——类脑架构。
他指出,当世界模型被整合进VLA体系后,类脑架构将成为机器人大脑发展的重点方向。
智平方过去三年的技术演进路径恰好印证了这一趋势:从端到端VLA,到融合世界模型,再到如今的类脑大模型NeuroVLA,一条清晰的技术演进路线逐渐显现。
2025年11月,智平方与北京大学联合发布了Video2Act架构,首次将“先预测、再执行”的理念转化为可落地的机器人模型。
Video2Act并非传统意义上的视频生成模型,而是将4D世界模型嵌入VLA体系中。它能够对空间进行稠密建模,同时持续接收动作的时序信息,使机器人在事件发生前即可预判状态变化,并据此生成动作。
这一架构的突破在于,世界模型不再只是“观察者”,而是真正融入了机器人的行动回路。
据披露,Video2Act在第三方评测中表现优异,领先硅谷同类模型30%以上。2026年,英国皇家两院院士Philip Torr与Pieter Abbeel等学者在权威综述中将Video2Act列为“世界模型+VLA融合”路线的代表性成果。
这些进展表明,关于“选VLA还是世界模型”的争论正在失去意义。真正值得关注的问题是:谁能率先实现两者的深度融合。
类脑架构推动机器人迈向生物级智能
在VLA与世界模型融合的基础上,如何让机器人具备更接近人类的运动能力,成为新的挑战。
智平方近期推出的NeuroVLA系统,正是针对这一问题的解决方案。
郭彦东指出,当前多数机器人依赖单一模型处理感知、推理与控制,而人类大脑则是分工协作的:皮层负责任务规划,小脑负责动作协调,脊髓负责反射动作。
基于这一机制,智平方构建了全球首个“皮层—小脑—脊髓”三级类脑架构NeuroVLA。
其中,皮层负责语义理解和任务规划;小脑负责高频运动协调与动态修正;脊髓负责毫秒级运动执行与安全反射。
这一架构使机器人具备了分层级的智能,显著提升了稳定性、响应速度和能效。
实测数据显示,NeuroVLA的抖动幅度降低75%以上,碰撞后20毫秒内即可反射性缩手,功耗也大幅下降。
这些改进标志着机器人从“会推理”迈向“会本能反应”的关键一步。
从模型演进到架构创新
从端到端VLA,到Video2Act,再到NeuroVLA,智平方在过去三年中持续推动机器人大脑的系统性创新。
如果说VLA赋予了机器人行动能力,世界模型赋予了其理解与预测能力,那么NeuroVLA则进一步赋予了其接近生物系统的反应与控制能力。
这三次技术演进,共同指向一个方向:如何让机器人拥有更接近人脑的“大脑”,从而逐步逼近真正的人类智能。
查看全文
传感梦工厂



评论0条评论