當前位置: 妍妍網 > 碼農

4天斬獲2.2k星星,最新圖片生成說話視訊工具,免費且效果比D-ID好

2024-06-18碼農

D-ID大家都不陌生吧

就是最早釋出圖片生成說話視訊的那個軟體

這幾天新開源了一個計畫, <hallo> ,跟D-ID一樣的功能,憑出色的效果, 4天在github拿下了2.2k星星

效果幾乎可以平替, 主要是免費 啊!而且比之前開源的那些類似計畫效果都要好不少

先來看下D-ID的官方演示效果

說實話,D-ID做了這麽久, 瑕疵還是能非常明顯 的看出來

主要是價格也不便宜啊,下面這是D-ID的價目表

108美金100分鐘, 貴貴貴!太貴!

還是<hallo>開源免費的香~

掃碼加入AI交流群

獲得更多技術支持和交流

(請註明自己的職業)

計畫簡介

<Hallo> 由復旦大學生成視覺實驗室開發,是一個層次化音訊驅動的視覺合成系統,用於肖像影像動畫制作。該系統利用音訊輸入驅動肖像影像產生自然的面部動作,可用於視訊制作、遊戲和其他多媒體套用。支持多種預訓練模型和自訂配置,使得使用者可以根據需求生成具有高度逼真表情的動畫肖像。

DEMO

技術架構

<hallo>采用了基於擴散的方法,開發出一種層次化音訊驅動的視覺合成系統,用於生成動態且逼真的肖像動畫。

技術框架摒棄了傳統依賴參數模型的方法,采用端到端的擴散範式,並引入了用於提高音訊輸入與視覺輸出對齊精度的視覺合成模組,包括嘴唇、表情和姿勢動作。

網路架構融合了基於UNet的去噪器、時間對齊技術和參考網路。

輸入數據要求

·源影像:

1.影像需裁剪為正方形。

2.臉部應為主要焦點,占圖片的50%-70%。

3.臉部應正面朝向,旋轉角度小於30°,不可為側面。

·驅動音訊:

1.必須為WAV格式。

2.只支持英語,因為訓練數據集僅包括此語言。

3.人聲必須清晰,可包含背景音樂。

計畫連結

https://github.com/fudan-generative-vision/hallo

關註「 開源AI計畫落地 」公眾號

與AI時代更靠近一點

關註「 AGI光年 」公眾號

獲取每日最新資訊