【新智元导读】昨天,英伟达官宣了首个「世界基础模型」Cosmos。从此,物理AI数据不够的问题将有望解决!而就在刚刚,75页技术报告火热出炉,GitHub项目更是冲破了2k星。

CES大会上,老黄称,「AI下一个前沿就是物理AI」。

为此,英伟达重磅官宣了世界基础模型开发平台——Cosmos,其模型基于在200万小时视频上完成训练。

它一共包含了四大功能模块:扩散模型自回归模型视频分词器,以及视频处理与编辑流程

用英伟达高级科学家Jim Fan的话来总结:

两种形式:扩散模型(生成连续的token);自回归模型(生成离散的token)

两种生成模式: 文本->视频;文本+视频->视频

Cosmos诞生就是为了拯救物理AI数据不够的问题!现如今,开发者们可以直接生成合成数据,将其用于自动驾驶和机器人研究中。

它一共包含了三种规格的模型:NanoSuperUltra

与VideoLDM基准相比,Cosmos世界模型在几何准确性方面表现更优,而且在视觉一致性方面持续超越VLDM,姿态估计成功率最高飙升14倍。

GitHub项目仅开源不到一天的时间,星标飙升至2k。

与此同时,关于Cosmos 75页最详细的技术报告也发布了。

开源项目:https://github.com/NVIDIA/Cosmos

论文地址:https://research.nvidia.com/publication/2025-01_cosmos-world-foundation-model-platform-physical-ai

Cosmos,定制世界模型

本文介绍了Cosmos世界基础模型平台,旨在帮助开发者构建定制化的世界模型。

在预训练中,研究者利用大规模的视频数据集,让模型接触到多样化的视觉数据,训练一个通用型模型。预训练的Cosmos世界基础模型(WFM)能够生成高质量、具有一致性的3D视频。

在后训练中,研究者从特定环境收集数据集,对预训练模型进行微调,从而得到适用于特定目标的专用WFM。

预训练的世界基础模型(WFM)是通用的世界模型,通过大规模、多样化的视频数据集进行训练。后训练的数据集是从目标环境中收集的提示-视频对。提示可以是动作指令、轨迹、说明等形式。

预训练和后训练相结合策略为构建物理AI系统提供了一种高效的方法。由于预训练WFM提供了良好的基础,后训练的数据集可以相对较小。

世界基础模型平台