黄仁勋圈重点的世界模型平台是个啥?技术报告全解析,华人贡献中坚力量
AI 的下一个前沿是物理。在昨天的 CES 发布会上,英伟达 CEO 黄仁勋通过一个名为「Cosmos」的平台点明了这一主题。
简单来说,Cosmos 是一个世界模型平台,上面有一系列开源、开放权重的视频世界模型,参数量从 4B 到 14B 不等。这些模型的作用非常明确,就是为机器人、自动驾驶汽车等在物理世界中运行的 AI 系统生成大量照片级真实、基于物理的合成数据,以解决该领域数据严重不足的问题。
英伟达的 Cosmos 平台一次发布了 8 个模型。
这些模型在 2000 万小时的视频数据上进行训练,分为扩散(连续 token)和自回归(离散 token)模型两类,支持文本生成视频和文本 + 视频生成视频两种生成方式。
生成效果如下:
英伟达表示,已经有许多领先的机器人和汽车公司成为 Cosmos 的首批用户,包括 1X、Agile Robots、Agility、Uber 等等。
黄仁勋表示:「机器人技术的 ChatGPT 时刻即将到来。与大型语言模型一样,世界基础模型对于推动机器人和自动驾驶汽车开发至关重要,但并非所有开发者都具备训练自己的世界模型的专业知识和资源。我们创建 Cosmos 是为了让物理 AI 普及化,让每个开发者都能用上通用机器人技术。」
Cosmos 模型已经公开发布,下面是相关地址:
英伟达 API 目录:https://build.nvidia.com/explore/simulation
Hugging Face:https://huggingface.co/collections/nvidia/cosmos-6751e884dc10e013a0a0d8e6
除了模型,英伟达还公开了 Cosmos 的技术报告。从贡献者名单来看,华人学者承担了该项目的大量工作,有些小组(比如 Prompt Upsampler)甚至出现了全员华人的现象(文末可见完整名单)。
技术报告地址:https://d1qx31qr3h6wln.cloudfront.net/publications/NVIDIA%20Cosmos_4.pdf
以下是技术报告的核心内容。
技术报告概览
技术报告主要介绍了用于构建物理 AI 的 Cosmos 世界基础模型(WFM)平台。作者主要关注的是视觉世界基础模型。在这种模型中,观察结果以视频形式呈现,扰动可以以各种形式存在。
如图 2 所示,作者提出了一个预训练,然后后训练的范式,将 WFM 分成预训练 WFM 和后训练 WFM。为了建立预训练 WFM,他们利用大规模的视频训练数据集,让模型接触到各种不同的视觉体验,使其成为一个通才。
为了建立后训练 WFM,他们使用从特定物理 AI 环境中收集的数据集,对预训练 WFM 进行微调,以建立专门的 WFM,用于目标明确的专门物理 AI 设置。图 1 展示了预训练和后训练 WFM 的结果示例。
数据决定了 AI 模型的上限。为了构建一个高上限的预训练 WFM,作者开发了一个视频数据整理 pipeline。他们用它来定位具有丰富动态效果和高视觉质量的视频部分,以促进模型学习编码在视觉内容中的物理知识。
作者使用该 pipeline 从长达 2000 万小时的视频集合中提取了约 1 亿个视频片段,片段长度从 2 秒到 60 秒不等。对于每个片段,他们使用视觉语言模型(VLM)为每 256 帧提供一个视频描述。视频处理是计算密集型工作。作者利用现代 GPU 硬件实现的 H.264 视频编码器和解码器进行解码和转码。这个视频数据整理 pipeline 利用了许多预训练的图像 / 视频理解模型。这些模型具有不同的吞吐量。为了最大限度地提高生成可训练视频数据的总体吞吐量,作者构建了一个基于 Ray 的协调 pipeline。
在报告中,作者探讨了两种用于构建预训练 WFM 的可扩展方法。这两种方法是基于 transformer 的扩散模型和自回归模型。扩散模型通过逐步去除高斯噪声视频中的噪声来生成视频。自回归模型基于之前的生成内容,按照预设顺序逐段生成视频。
这两种方法都能将困难的视频生成问题分解为更容易解决的子问题,从而使问题更加容易解决。作者利用 SOTA transformer 架构来提高其可扩展性。在第 5.1 节中,他们介绍了一种基于 Transformer 的扩散模型设计,它具有强大的世界生成能力。在第 5.2 节中,他们介绍了一种基于 Transformer 的自回归模型设计,用于生成世界。
基于 Transformer 的扩散模型和基于 Transformer 的自回归模型都使用 token 来表示视频,前者使用向量形式的连续 token,后者使用整数形式的离散 token。作者注意到,视频 token 化 —— 一个将视频转换为 token 集的过程 —— 是一个非常复杂的过程。视频包含丰富的视觉世界信息。然而,为了便于学习世界基础模型,我们需要将视频压缩为紧凑的 token 序列,同时最大限度地保留视频中的原始内容,因为世界基础模型训练的计算复杂度会随着 token 数量的增加而增加。在很多方面,构建视频 tokenizer 与构建视频编解码器类似。作者开发了一种基于注意力的编码器 - 解码器架构,用于学习连续和离散 token 的视频 token 化(见第 4 章)。
在第 6 章中,作者对预训练的 WFM 进行微调,以获得适用于各种物理 AI 任务的后训练 WFM。在第 6.1 节中,作者对预训练的扩散 WFM 进行微调,使其成为相机姿态条件。这种后训练创建了一个可导航的虚拟世界,用户可以通过移动虚拟视点来探索所创建的世界。在第 6.2 节中,他们在由视频动作序列组成的各种机器人任务中对 WFM 进行微调。结果表明,通过利用预训练的 WFM,可以根据机器人采取的行动更好地预测世界的未来状态。在第 6.3 节中,作者演示了如何针对各种自动驾驶相关任务对预训练的 WFM 进行微调。
英伟达开发的 WFM 的预期用途是物理 AI 构建者。为了在使用 WFM 时更好地保护开发人员,作者开发了一个功能强大的防护系统,其中包括一个用于阻止有害输入的前置防护系统和一个用于阻止有害输出的后置防护系统。详情见第 7 章。
英伟达的目标是建立一个世界基础模型平台,帮助物理 AI 构建者推进他们的系统。为了实现这一目标,他们根据 NVIDIA 开放模型许可,分别在 NVIDIA Cosmos 和 NVIDIA Cosmos Tokenizer 目录下提供预训练的世界基础模型和 tokenizer。预训练脚本和后训练脚本将与视频数据整理 pipeline 一起在 NVIDIA Nemo Framework 目录下提供,以帮助构建者制作微调数据集。
NVIDIA Cosmos:https://github.com/NVIDIA/Cosmos
NVIDIA Cosmos Tokenizer:https://github.com/NVIDIA/Cosmos-Tokenizer
NVIDIA Nemo Framework:https://github.com/NVIDIA/Nemo
世界基础模型平台
设
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。