英伟达推出Cosmos 3：全球首款全开源物理AI全能模型

在近日于台北举行的GTC大会上，英伟达正式发布了其最新研发成果——Cosmos 3。该公司将其定义为全球首款“完全开源的全能模型”，并强调其在机器人、自动驾驶和视觉智能体等领域的广泛应用潜力。

Cosmos 3具备基于视觉的推理能力，能够生成包括文本、图像、视频、环境声音以及动作轨迹在内的多模态内容。这一能力使其在处理复杂现实场景时表现出更强的适应性和理解力。

该模型采用双模块架构，由推理Transformer和生成Transformer组成。推理模块专注于理解物体之间的交互、运动路径以及时空关系，而生成模块则基于这些信息输出视频内容和动作轨迹。

这种设计使得模型能够先对现实世界中的物理互动进行建模，再生成相应的视觉和行为输出，从而显著提升其在复杂环境中的感知与响应能力。

英伟达表示，Cosmos 3旨在应对机器人、自动驾驶系统和视觉智能体在真实世界建模方面长期存在的挑战。目前，高质量的训练数据仍然稀缺，仿真系统也较为碎片化，导致机器在学习物理规律时面临较大困难。

通过Cosmos 3，英伟达希望提供一种具备更高物理准确性的解决方案，使系统能够原生理解并生成文本、图像、视频、环境声音及动作信息。

从应用角度来看，Cosmos 3不仅可作为视觉语言模型使用，还可作为模拟物理环境、预测未来状态的世界模型，甚至可作为其他世界模型的底层平台。

在产品布局方面，英伟达已推出高精度版本Cosmos 3 Super和轻量级版本Cosmos 3 Nano。面向边缘设备的实时推理版本Cosmos 3 Edge也将在未来发布。

从技术角度看，Transformer是一种擅长处理序列数据中上下文关系的深度学习架构，其并行计算能力有助于提升生成效率。英伟达此次将推理与生成能力融合，旨在为机器人和自动驾驶系统提供更贴近真实物理世界的基础模型。

查看全文

作者最近更新