Character.AI突破性技术：实时AI角色视频互动

2025-07-05 发布在科技

IT之家 7 月 5 日消息，AI 聊天机器人平台 Character.AI 发布研究论文和视频演示，展示了名为 TalkingMachines 的自回归扩散模型，让 AI 角色互动更加逼真。

该模型尚未部署在 Character.AI 平台上，根据研究论文和视频演示，用户只需要输入一张图片和声音信号，该模型就能实现类似 FaceTime 的通话视觉互动。

该模型基于 Diffusion Transformer（DiT）技术，本质上是一种能够从随机噪声中创建详细图像的“艺术家”，并不断优化图像直至完美。Character.AI 所做的就是让这一过程变得极其迅速，达到实时效果。

TalkingMachines 模型采用了流匹配扩散（Flow-Matched Diffusion）、音频驱动的交叉注意力（Audio-Driven Cross Attention）、稀疏因果注意力（Sparse Causal Attention）和不对称蒸馏（Asymmetric Distillation）等多种关键技术。

其中流匹配扩散技术通过训练大量动作，包括细微的面部表情和更夸张的手势，确保 AI 角色动作更加自然。音频驱动的交叉注意力技术则让 AI 不仅能听到单词，还能理解音频中的节奏、停顿和语调，并将其转化为精确的口型、点头和眨眼。

稀疏因果注意力技术让 Character.AI 能够以更高效的方式处理视频帧，而不对称蒸馏技术则让视频能够实时生成，营造出类似 FaceTime 通话的效果。

Character.AI 强调，这一研究突破不仅仅是关于面部动画的，它是朝向实时互动的音频视觉 AI 角色迈出的一步。该模型支真实感人类、动漫和 3D 虚拟形象等多种风格。

“特别声明：以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布，本平台仅提供信息存储空间服务。

Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”