当前位置: 欣欣网 > 码农

VASA:微软即将开源,语音驱动图片实时生成逼真说话的视频,能够控制表情和头部动作,低成本数字人真的出现了

2024-04-26码农

项目简介

VASA是一个创新的技术框架,旨在使用单张静态图像和语音音频片段,创造虚拟角色的逼真说话面孔,并赋予其生动的视觉情感技能(VAS)。

VASA-1模型通过精准同步唇动与音频,并捕捉丰富的面部表情和自然的头部动作,极大地增强了真实感和生动感。

该技术基于一个高度表现力和解耦的面部潜在空间,利用视频数据训练,能够全面生成面部动态和头部运动。在一系列新指标的评估中,VASA表现出色,显著优于现有技术。

此外,该框架能够实时生成高质量的512x512分辨率视频,视频帧率高达40 FPS,启动延迟几乎为零,为与虚拟角色进行实时互动提供了可能。

作者全是中国人: Sicheng Xu * , Guojun Chen * , Yu-Xiao Guo * , Jiaolong Yang *‡ , Chong Li , Zhenyu Zang , Yizhong Zhang , Xin Tong , Baining Guo

扫码加入交流群

获得更多技术支持和交流

(请注明自己的职业)

现实感与生动性

此方法不仅能产生精准的唇音同步,还能生成广泛的表情细微变化和自然的头部动作。它可以处理任意长度的音频,并稳定地输出连贯的说话面部视频。

看下音频输入为一分钟长的示例。

生成的可控性

扩散模型接受可选信号作为条件,例如主要眼神方向和头部距离,以及情绪偏移。

· 在不同主要注视方向下的生成结果(分别面向前方、向左、向右和向上)

· 在不同头部距离尺度下的生成结果

· 在不同情绪偏移下的生成结果(分别是中性、快乐、愤怒和惊讶)

超分布泛化

此方法展示了处理超出训练分布的照片和音频输入的能力。例如,它可以处理艺术照片、歌唱音频和非英语语音。

解耦的力量

潜在表示解耦了外观、3D头部姿势和面部动态,这使得可以单独控制和编辑生成内容的各个属性。

· 同一输入照片与不同运动序列的组合(demo1),以及同一运动序列与不同照片的组合(demo2)

demo1

demo2

· 姿势和表情编辑(原始生成结果、仅姿势结果、仅表情结果、以及带旋转姿势的表情结果)

实时效率

此方法在离线批处理模式下可以生成512x512大小的视频帧,帧率为45fps,并且在在线流媒体模式下支持高达40fps,前置延迟仅为170毫秒,这是在配备单个NVIDIA RTX 4090 GPU的台式电脑上评估得出的。

项目链接

https://www.microsoft.com/en-us/research/project/vasa-1/

论文链接

https://arxiv.org/pdf/2404.10667.pdf

关注「 开源AI项目落地 」公众号