D-ID大家都不陌生吧
就是最早釋出圖片生成說話視訊的那個軟體
這幾天新開源了一個計畫, <hallo> ,跟D-ID一樣的功能,憑出色的效果, 4天在github拿下了2.2k星星
效果幾乎可以平替, 主要是免費 啊!而且比之前開源的那些類似計畫效果都要好不少
先來看下D-ID的官方演示效果
說實話,D-ID做了這麽久, 瑕疵還是能非常明顯 的看出來
主要是價格也不便宜啊,下面這是D-ID的價目表
108美金100分鐘, 貴貴貴!太貴!
還是<hallo>開源免費的香~
掃碼加入AI交流群
獲得更多技術支持和交流
(請註明自己的職業)
計畫簡介
<Hallo> 由復旦大學生成視覺實驗室開發,是一個層次化音訊驅動的視覺合成系統,用於肖像影像動畫制作。該系統利用音訊輸入驅動肖像影像產生自然的面部動作,可用於視訊制作、遊戲和其他多媒體套用。支持多種預訓練模型和自訂配置,使得使用者可以根據需求生成具有高度逼真表情的動畫肖像。
DEMO
技術架構
<hallo>采用了基於擴散的方法,開發出一種層次化音訊驅動的視覺合成系統,用於生成動態且逼真的肖像動畫。
技術框架摒棄了傳統依賴參數模型的方法,采用端到端的擴散範式,並引入了用於提高音訊輸入與視覺輸出對齊精度的視覺合成模組,包括嘴唇、表情和姿勢動作。
網路架構融合了基於UNet的去噪器、時間對齊技術和參考網路。
輸入數據要求
·源影像:
1.影像需裁剪為正方形。
2.臉部應為主要焦點,占圖片的50%-70%。
3.臉部應正面朝向,旋轉角度小於30°,不可為側面。
·驅動音訊:
1.必須為WAV格式。
2.只支持英語,因為訓練數據集僅包括此語言。
3.人聲必須清晰,可包含背景音樂。
計畫連結
https://github.com/fudan-generative-vision/hallo
關註「 開源AI計畫落地 」公眾號
與AI時代更靠近一點
關註「 AGI光年 」公眾號
獲取每日最新資訊