4天斬獲2.2k星星，最新圖片生成說話視訊工具，免費且效果比D-ID好

2024-06-18碼農

D-ID大家都不陌生吧

就是最早釋出圖片生成說話視訊的那個軟體

這幾天新開源了一個計畫， <hallo> ，跟D-ID一樣的功能，憑出色的效果， 4天在github拿下了2.2k星星

效果幾乎可以平替，主要是免費啊！而且比之前開源的那些類似計畫效果都要好不少

先來看下D-ID的官方演示效果

說實話，D-ID做了這麽久，瑕疵還是能非常明顯的看出來

主要是價格也不便宜啊，下面這是D-ID的價目表

108美金100分鐘，貴貴貴！太貴！

還是<hallo>開源免費的香~

掃碼加入AI交流群

獲得更多技術支持和交流

（請註明自己的職業）

計畫簡介

<Hallo> 由復旦大學生成視覺實驗室開發，是一個層次化音訊驅動的視覺合成系統，用於肖像影像動畫制作。該系統利用音訊輸入驅動肖像影像產生自然的面部動作，可用於視訊制作、遊戲和其他多媒體套用。支持多種預訓練模型和自訂配置，使得使用者可以根據需求生成具有高度逼真表情的動畫肖像。

DEMO

技術架構

<hallo>采用了基於擴散的方法，開發出一種層次化音訊驅動的視覺合成系統，用於生成動態且逼真的肖像動畫。

技術框架摒棄了傳統依賴參數模型的方法，采用端到端的擴散範式，並引入了用於提高音訊輸入與視覺輸出對齊精度的視覺合成模組，包括嘴唇、表情和姿勢動作。

網路架構融合了基於UNet的去噪器、時間對齊技術和參考網路。

輸入數據要求

·源影像：

1.影像需裁剪為正方形。

2.臉部應為主要焦點，占圖片的50%-70%。

3.臉部應正面朝向，旋轉角度小於30°，不可為側面。

·驅動音訊：

1.必須為WAV格式。

2.只支持英語，因為訓練數據集僅包括此語言。

3.人聲必須清晰，可包含背景音樂。

計畫連結

https://github.com/fudan-generative-vision/hallo

關註「 開源AI計畫落地 」公眾號

與AI時代更靠近一點

關註「 AGI光年」公眾號

獲取每日最新資訊