計畫簡介
VASA是一個創新的技術框架,旨在使用單張靜態影像和語音音訊片段,創造虛擬角色的逼真說話面孔,並賦予其生動的視覺情感技能(VAS)。
VASA-1模型透過精準同步唇動與音訊,並捕捉豐富的面部表情和自然的頭部動作,極大地增強了真實感和生動感。
該技術基於一個高度表現力和解耦的面部潛在空間,利用視訊數據訓練,能夠全面生成面部動態和頭部運動。在一系列新指標的評估中,VASA表現出色,顯著優於現有技術。
此外,該框架能夠即時生成高品質的512x512分辨率視訊,視訊幀率高達40 FPS,啟動延遲幾乎為零,為與虛擬角色進行即時互動提供了可能。
作者全是中國人: Sicheng Xu * , Guojun Chen * , Yu-Xiao Guo * , Jiaolong Yang *‡ , Chong Li , Zhenyu Zang , Yizhong Zhang , Xin Tong , Baining Guo
掃碼加入交流群
獲得更多技術支持和交流
(請註明自己的職業)
現實感與生動性
此方法不僅能產生精準的唇音同步,還能生成廣泛的表情細微變化和自然的頭部動作。它可以處理任意長度的音訊,並穩定地輸出連貫的說話面部視訊。
看下音訊輸入為一分鐘長的範例。
生成的可控性
擴散模型接受可選訊號作為條件,例如主要眼神方向和頭部距離,以及情緒偏移。
· 在不同主要註視方向下的生成結果(分別面向前方、向左、向右和向上)
· 在不同頭部距離尺度下的生成結果
· 在不同情緒偏移下的生成結果(分別是中性、快樂、憤怒和驚訝)
超分布泛化
此方法展示了處理超出訓練分布的照片和音訊輸入的能力。例如,它可以處理藝術照片、歌唱音訊和非英語語音。
解耦的力量
潛在表示解耦了外觀、3D頭部姿勢和面部動態,這使得可以單獨控制和編輯生成內容的各個內容。
· 同一輸入照片與不同運動序列的組合(demo1),以及同一運動序列與不同照片的組合(demo2)
demo1
demo2
· 姿勢和表情編輯(原始生成結果、僅姿勢結果、僅表情結果、以及帶旋轉姿勢的表情結果)
即時效率
此方法在離線批次處理模式下可以生成512x512大小的視訊幀,幀率為45fps,並且在線上串流媒體模式下支持高達40fps,前置延遲僅為170毫秒,這是在配備單個NVIDIA RTX 4090 GPU的台式電腦上評估得出的。
計畫連結
https://www.microsoft.com/en-us/research/project/vasa-1/
論文連結
https://arxiv.org/pdf/2404.10667.pdf
關註「 開源AI計畫落地 」公眾號