英伟达推出Cosmos 3:全球首款全开源物理AI全能模型
英伟达推出Cosmos 3:全球首款全开源物理AI全能模型
在近日于台北举行的GTC大会上,英伟达正式发布了其最新研发成果——Cosmos 3。该公司将其定义为全球首款“完全开源的全能模型”,并强调其在机器人、自动驾驶和视觉智能体等领域的广泛应用潜力。
Cosmos 3具备基于视觉的推理能力,能够生成包括文本、图像、视频、环境声音以及动作轨迹在内的多模态内容。这一能力使其在处理复杂现实场景时表现出更强的适应性和理解力。
该模型采用双模块架构,由推理Transformer和生成Transformer组成。推理模块专注于理解物体之间的交互、运动路径以及时空关系,而生成模块则基于这些信息输出视频内容和动作轨迹。
这种设计使得模型能够先对现实世界中的物理互动进行建模,再生成相应的视觉和行为输出,从而显著提升其在复杂环境中的感知与响应能力。
英伟达表示,Cosmos 3旨在应对机器人、自动驾驶系统和视觉智能体在真实世界建模方面长期存在的挑战。目前,高质量的训练数据仍然稀缺,仿真系统也较为碎片化,导致机器在学习物理规律时面临较大困难。
通过Cosmos 3,英伟达希望提供一种具备更高物理准确性的解决方案,使系统能够原生理解并生成文本、图像、视频、环境声音及动作信息。
从应用角度来看,Cosmos 3不仅可作为视觉语言模型使用,还可作为模拟物理环境、预测未来状态的世界模型,甚至可作为其他世界模型的底层平台。
在产品布局方面,英伟达已推出高精度版本Cosmos 3 Super和轻量级版本Cosmos 3 Nano。面向边缘设备的实时推理版本Cosmos 3 Edge也将在未来发布。
从技术角度看,Transformer是一种擅长处理序列数据中上下文关系的深度学习架构,其并行计算能力有助于提升生成效率。英伟达此次将推理与生成能力融合,旨在为机器人和自动驾驶系统提供更贴近真实物理世界的基础模型。
查看全文
快科技
传感器专家网
四方光电 


评论0条评论