當前位置: 妍妍網 > 碼農

VASA:微軟即將開源,語音驅動圖片即時生成逼真說話的視訊,能夠控制表情和頭部動作,低成本數位人真的出現了

2024-04-26碼農

計畫簡介

VASA是一個創新的技術框架,旨在使用單張靜態影像和語音音訊片段,創造虛擬角色的逼真說話面孔,並賦予其生動的視覺情感技能(VAS)。

VASA-1模型透過精準同步唇動與音訊,並捕捉豐富的面部表情和自然的頭部動作,極大地增強了真實感和生動感。

該技術基於一個高度表現力和解耦的面部潛在空間,利用視訊數據訓練,能夠全面生成面部動態和頭部運動。在一系列新指標的評估中,VASA表現出色,顯著優於現有技術。

此外,該框架能夠即時生成高品質的512x512分辨率視訊,視訊幀率高達40 FPS,啟動延遲幾乎為零,為與虛擬角色進行即時互動提供了可能。

作者全是中國人: Sicheng Xu * , Guojun Chen * , Yu-Xiao Guo * , Jiaolong Yang *‡ , Chong Li , Zhenyu Zang , Yizhong Zhang , Xin Tong , Baining Guo

掃碼加入交流群

獲得更多技術支持和交流

(請註明自己的職業)

現實感與生動性

此方法不僅能產生精準的唇音同步,還能生成廣泛的表情細微變化和自然的頭部動作。它可以處理任意長度的音訊,並穩定地輸出連貫的說話面部視訊。

看下音訊輸入為一分鐘長的範例。

生成的可控性

擴散模型接受可選訊號作為條件,例如主要眼神方向和頭部距離,以及情緒偏移。

· 在不同主要註視方向下的生成結果(分別面向前方、向左、向右和向上)

· 在不同頭部距離尺度下的生成結果

· 在不同情緒偏移下的生成結果(分別是中性、快樂、憤怒和驚訝)

超分布泛化

此方法展示了處理超出訓練分布的照片和音訊輸入的能力。例如,它可以處理藝術照片、歌唱音訊和非英語語音。

解耦的力量

潛在表示解耦了外觀、3D頭部姿勢和面部動態,這使得可以單獨控制和編輯生成內容的各個內容。

· 同一輸入照片與不同運動序列的組合(demo1),以及同一運動序列與不同照片的組合(demo2)

demo1

demo2

· 姿勢和表情編輯(原始生成結果、僅姿勢結果、僅表情結果、以及帶旋轉姿勢的表情結果)

即時效率

此方法在離線批次處理模式下可以生成512x512大小的視訊幀,幀率為45fps,並且在線上串流媒體模式下支持高達40fps,前置延遲僅為170毫秒,這是在配備單個NVIDIA RTX 4090 GPU的台式電腦上評估得出的。

計畫連結

https://www.microsoft.com/en-us/research/project/vasa-1/

論文連結

https://arxiv.org/pdf/2404.10667.pdf

關註「 開源AI計畫落地 」公眾號