VASA：微软即将开源，语音驱动图片实时生成逼真说话的视频，能够控制表情和头部动作，低成本数字人真的出现了

2024-04-26码农

项目简介

VASA是一个创新的技术框架，旨在使用单张静态图像和语音音频片段，创造虚拟角色的逼真说话面孔，并赋予其生动的视觉情感技能（VAS）。

VASA-1模型通过精准同步唇动与音频，并捕捉丰富的面部表情和自然的头部动作，极大地增强了真实感和生动感。

该技术基于一个高度表现力和解耦的面部潜在空间，利用视频数据训练，能够全面生成面部动态和头部运动。在一系列新指标的评估中，VASA表现出色，显著优于现有技术。

此外，该框架能够实时生成高质量的512x512分辨率视频，视频帧率高达40 FPS，启动延迟几乎为零，为与虚拟角色进行实时互动提供了可能。

作者全是中国人： Sicheng Xu ^* , Guojun Chen ^* , Yu-Xiao Guo ^* , Jiaolong Yang ^*‡ , Chong Li , Zhenyu Zang , Yizhong Zhang , Xin Tong , Baining Guo

扫码加入交流群

获得更多技术支持和交流

（请注明自己的职业）

现实感与生动性

此方法不仅能产生精准的唇音同步，还能生成广泛的表情细微变化和自然的头部动作。它可以处理任意长度的音频，并稳定地输出连贯的说话面部视频。

看下音频输入为一分钟长的示例。

生成的可控性

扩散模型接受可选信号作为条件，例如主要眼神方向和头部距离，以及情绪偏移。

· 在不同主要注视方向下的生成结果（分别面向前方、向左、向右和向上）

· 在不同头部距离尺度下的生成结果

· 在不同情绪偏移下的生成结果（分别是中性、快乐、愤怒和惊讶）

超分布泛化

此方法展示了处理超出训练分布的照片和音频输入的能力。例如，它可以处理艺术照片、歌唱音频和非英语语音。

解耦的力量

潜在表示解耦了外观、3D头部姿势和面部动态，这使得可以单独控制和编辑生成内容的各个属性。

· 同一输入照片与不同运动序列的组合（demo1），以及同一运动序列与不同照片的组合（demo2）

demo1

demo2

· 姿势和表情编辑（原始生成结果、仅姿势结果、仅表情结果、以及带旋转姿势的表情结果）

实时效率

此方法在离线批处理模式下可以生成512x512大小的视频帧，帧率为45fps，并且在在线流媒体模式下支持高达40fps，前置延迟仅为170毫秒，这是在配备单个NVIDIA RTX 4090 GPU的台式电脑上评估得出的。

项目链接

https://www.microsoft.com/en-us/research/project/vasa-1/

论文链接

https://arxiv.org/pdf/2404.10667.pdf

关注「开源AI项目落地」公众号