英伟达“世界基础模型”诞生，引爆物理AI革命！75页报告出炉，GitHub狂飙2k星

2025-01-08 发布在科技

【新智元导读】昨天，英伟达官宣了首个「世界基础模型」Cosmos。从此，物理AI数据不够的问题将有望解决！而就在刚刚，75页技术报告火热出炉，GitHub项目更是冲破了2k星。

CES大会上，老黄称，「AI下一个前沿就是物理AI」。

为此，英伟达重磅官宣了世界基础模型开发平台——Cosmos，其模型基于在200万小时视频上完成训练。

它一共包含了四大功能模块：扩散模型、自回归模型、视频分词器，以及视频处理与编辑流程。

用英伟达高级科学家Jim Fan的话来总结：

两种形式：扩散模型（生成连续的token）；自回归模型（生成离散的token）

两种生成模式： 文本->视频；文本+视频->视频

Cosmos诞生就是为了拯救物理AI数据不够的问题！现如今，开发者们可以直接生成合成数据，将其用于自动驾驶和机器人研究中。

它一共包含了三种规格的模型：Nano、Super、Ultra。

与VideoLDM基准相比，Cosmos世界模型在几何准确性方面表现更优，而且在视觉一致性方面持续超越VLDM，姿态估计成功率最高飙升14倍。

GitHub项目仅开源不到一天的时间，星标飙升至2k。

与此同时，关于Cosmos 75页最详细的技术报告也发布了。

开源项目：https://github.com/NVIDIA/Cosmos

论文地址：https://research.nvidia.com/publication/2025-01_cosmos-world-foundation-model-platform-physical-ai

Cosmos，定制世界模型

本文介绍了Cosmos世界基础模型平台，旨在帮助开发者构建定制化的世界模型。

在预训练中，研究者利用大规模的视频数据集，让模型接触到多样化的视觉数据，训练一个通用型模型。预训练的Cosmos世界基础模型（WFM）能够生成高质量、具有一致性的3D视频。

在后训练中，研究者从特定环境收集数据集，对预训练模型进行微调，从而得到适用于特定目标的专用WFM。

预训练的世界基础模型（WFM）是通用的世界模型，通过大规模、多样化的视频数据集进行训练。后训练的数据集是从目标环境中收集的提示-视频对。提示可以是动作指令、轨迹、说明等形式。

预训练和后训练相结合策略为构建物理AI系统提供了一种高效的方法。由于预训练WFM提供了良好的基础，后训练的数据集可以相对较小。

世界基础模型平台

设

声明：本站所有文章资源内容，如无特殊说明或标注，均为采集网络资源。如若本站内容侵犯了原著者的合法权益，可联系本站删除。