6 月 4 日深夜,英伟达在台北 GTC 大会上正式发布 Cosmos 3,官方称之为 "全球首个完全开放的全能物理 AI 模型"。这款全开源模型面向机器人、自动驾驶汽车及视觉智能体三大场景,一举将物理世界 AI 推向新的高度。
双模块架构重新定义物理 AI
Cosmos 3 的最大亮点在于其独创的双 Transformer 架构:推理 Transformer 负责理解物体交互、运动轨迹和时空关系,生成 Transformer 则基于推理结果输出视频与动作轨迹。这种 "先理解再生成" 的设计思路,使模型在复杂环境中保持了极高的物理准确性,大幅降低了机器人训练所需的仿真数据量和迭代成本。
三大核心能力合为一体
与传统单一用途模型不同,Cosmos 3 同时具备三种形态能力:可作为视觉语言模型进行场景理解,可作为世界模型模拟物理环境并预测未来状态,还可作为其他世界模型的开发基础平台。英伟达已推出 Cosmos 3 Super 和 Nano 两个版本,后续还将推出面向边缘设备的 Cosmos 3 Edge,覆盖从云端到终端的全场景算力需求。
物理 AI 的 ChatGPT 时刻
AI 资源之家注意到,Cosmos 3 的发布与英伟达同日在 COMPUTEX 宣告 "自动驾驶迎来 ChatGPT 时刻" 形成了巧妙的呼应。从某种意义上说,Cosmos 3 就是为机器人和自动驾驶打造的 "基础模型"——就像 GPT 让文本生成变得普惠,Cosmos 3 正在让物理世界理解变得触手可及。全开源策略更是英伟达的一招妙棋,通过生态绑定巩固其在物理 AI 基础设施建设中的核心地位。
行业影响深远
对于正在经历融资热潮的中国具身智能赛道而言,Cosmos 3 的发布既是机遇也是挑战。开源降低了物理 AI 的入门门槛,中小团队可以更快搭建原型;但同时也意味着核心技术栈仍被英伟达牢牢掌控。国产替代在物理 AI 基础模型层面仍有较大差距,这值得整个行业深思。