當前位置: 妍妍網 > 碼農

ID-Animator:1小時前開源,單張人臉照片就可以生成高品質的特定人體視訊

2024-05-08碼農

計畫簡介

ID-Animator 是一個無需重新訓練就能生成身份特定的人類視訊的框架。利用單張面部參考影像,它可以生成高品質的個人化視訊。此框架采用基於擴散的視訊生成技術,並結合面部介面卡來編碼與身份相關的嵌入式表示。它還引入了一個面向身份的數據集構建流程,以及一個基於隨機面部參考的訓練方法,從而在不需要精細調整的情況下,有效提高視訊的身份保真度和模型的泛化能力。

掃碼加入交流群

獲得更多技術支持和交流

(請註明自己的職業)

Demo

·重新語境化

· 使用社群模型進行推理

·身份混合


·與 ControlNet 結合

技術方案

生成高保真人物視訊並指定身份在內容生成社群引起了廣泛關註。然而,現有技術在訓練效率和身份保留之間難以取得平衡,要麽需要繁瑣的逐例微調,要麽在視訊生成過程中通常無法保留身份細節。

在本研究中,提出了一種名為ID-Animator的零樣本人物視訊生成方法,該方法能夠使用單個參考面部影像進行個人化視訊生成,無需進一步訓練。

ID-Animator繼承了現有基於擴散的視訊生成骨幹網路,並增加了一個面部介面卡,用以從可學習的面部潛在查詢中編碼與身份相關的嵌入。

為了在視訊生成中便於提取身份資訊,我們引入了一個面向身份的數據集構建流程,該流程采用從構建的面部影像池中解耦的人類內容和行為標題技術。

基於此流程,進一步設計了一種隨機面部參考訓練方法,以精確捕獲參考影像中與身份相關的嵌入,從而提高模型在特定身份視訊生成中的保真度和泛化能力。

廣泛的實驗表明,ID-Animator在生成個人化人物視訊方面優於之前的模型。此外,此方法與流行的預訓練T2V模型如animatediff以及各種社群支持的骨幹模型高度相容,顯示出在現實世界套用中的高擴充套件性,特別是在需要高度身份保留的視訊生成場景中。

計畫連結

https://github.com/id-animator/id-animator

論文連結

https://arxiv.org/abs/2404.15275

關註「 開源AI計畫落地 」公眾號

與AI時代更靠近一點