Vlogger：Google最近新釋出，透過照片和音訊來生成人物說話的視訊，肢體也可以驅動，遠超D-ID

2024-03-21碼農

計畫簡介

Google的研究人員開發了一種新的人工智慧系統，能夠僅從一張靜態照片出發，生成人物講話、手勢和移動的逼真視訊。這項技術，名為VLOGGER，依賴於先進的機器學習模型來合成驚人逼真的視訊畫面，這開啟了一系列潛在套用的可能性，同時也引發了關於深度偽造和錯誤資訊的擔憂。

掃碼加入交流群

獲得更多技術支持和交流

（請註明自己的職業）

在一篇題為「VLOGGER: 用於生成化身的多模態擴散」的研究論文中描述了這個AI模型。該模型可以取一個人的照片和一個音訊剪輯作為輸入，然後輸出一個與音訊匹配的視訊，展現那個人說話的樣子並做出相應的面部表情、頭部移動和手勢。這些視訊並非完美，但在動畫化靜態影像的能力上代表了一個重大飛躍。

合成說話頭像的突破

這項研究是在Google Research的Enric Corona帶領下進行的，研究者們利用了一種叫做擴散模型的機器學習模型來實作這一創新成果。最近，擴散模型在從文本描述生成高度逼真影像方面表現出了顯著的效能。透過將它們擴充套件到視訊領域，並在一個龐大的新數據集上進行訓練，團隊能夠建立一個AI系統，以一種非常令人信服的方式使照片栩栩如生。

「與之前的工作相比，我們的方法不需要對每個人進行訓練，不依賴於面部檢測和裁剪，生成完整的影像（不僅僅是臉部或嘴唇），並考慮了一系列廣泛的場景（例如，可見的軀幹或不同的主體身份），這些都是正確合成交流中的人類所必需的，」作者寫道。

一個關鍵的使能因素是建立了一個名為MENTOR的龐大新數據集，包含超過800,000個不同身份和2,200小時的視訊——比之前可用的數據量大了一個數量級。這使得VLOGGER能夠學習生成各種不同種族、年齡、服裝、姿態和環境的人物視訊。

論文連結

https://enriccorona.github.io/vlogger/paper.pdf

關註「開源AI計畫落地」公眾號