英伟达“世界基础模型”诞生,引爆物理AI革命!75页报告出炉,GitHub狂飙2k星
【新智元导读】昨天,英伟达官宣了首个「世界基础模型」Cosmos。从此,物理AI数据不够的问题将有望解决!而就在刚刚,75页技术报告火热出炉,GitHub项目更是冲破了2k星。
CES大会上,老黄称,「AI下一个前沿就是物理AI」。
为此,英伟达重磅官宣了世界基础模型开发平台——Cosmos,其模型基于在200万小时视频上完成训练。
它一共包含了四大功能模块:扩散模型、自回归模型、视频分词器,以及视频处理与编辑流程。
用英伟达高级科学家Jim Fan的话来总结:
两种形式:扩散模型(生成连续的token);自回归模型(生成离散的token)
两种生成模式: 文本->视频;文本+视频->视频
Cosmos诞生就是为了拯救物理AI数据不够的问题!现如今,开发者们可以直接生成合成数据,将其用于自动驾驶和机器人研究中。
它一共包含了三种规格的模型:Nano、Super、Ultra。
与VideoLDM基准相比,Cosmos世界模型在几何准确性方面表现更优,而且在视觉一致性方面持续超越VLDM,姿态估计成功率最高飙升14倍。
GitHub项目仅开源不到一天的时间,星标飙升至2k。
与此同时,关于Cosmos 75页最详细的技术报告也发布了。
开源项目:https://github.com/NVIDIA/Cosmos
论文地址:https://research.nvidia.com/publication/2025-01_cosmos-world-foundation-model-platform-physical-ai
Cosmos,定制世界模型
本文介绍了Cosmos世界基础模型平台,旨在帮助开发者构建定制化的世界模型。
在预训练中,研究者利用大规模的视频数据集,让模型接触到多样化的视觉数据,训练一个通用型模型。预训练的Cosmos世界基础模型(WFM)能够生成高质量、具有一致性的3D视频。
在后训练中,研究者从特定环境收集数据集,对预训练模型进行微调,从而得到适用于特定目标的专用WFM。
预训练的世界基础模型(WFM)是通用的世界模型,通过大规模、多样化的视频数据集进行训练。后训练的数据集是从目标环境中收集的提示-视频对。提示可以是动作指令、轨迹、说明等形式。
预训练和后训练相结合策略为构建物理AI系统提供了一种高效的方法。由于预训练WFM提供了良好的基础,后训练的数据集可以相对较小。
世界基础模型平台
设
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。