当前位置: 欣欣网 > 码农

4天斩获2.2k星星,最新图片生成说话视频工具,免费且效果比D-ID好

2024-06-18码农

D-ID大家都不陌生吧

就是最早发布图片生成说话视频的那个软件

这几天新开源了一个项目, <hallo> ,跟D-ID一样的功能,凭出色的效果, 4天在github拿下了2.2k星星

效果几乎可以平替, 主要是免费 啊!而且比之前开源的那些类似项目效果都要好不少

先来看下D-ID的官方演示效果

说实话,D-ID做了这么久, 瑕疵还是能非常明显 的看出来

主要是价格也不便宜啊,下面这是D-ID的价目表

108美金100分钟, 贵贵贵!太贵!

还是<hallo>开源免费的香~

扫码加入AI交流群

获得更多技术支持和交流

(请注明自己的职业)

项目简介

<Hallo> 由复旦大学生成视觉实验室开发,是一个层次化音频驱动的视觉合成系统,用于肖像图像动画制作。该系统利用音频输入驱动肖像图像产生自然的面部动作,可用于视频制作、游戏和其他多媒体应用。支持多种预训练模型和自定义配置,使得用户可以根据需求生成具有高度逼真表情的动画肖像。

DEMO

技术架构

<hallo>采用了基于扩散的方法,开发出一种层次化音频驱动的视觉合成系统,用于生成动态且逼真的肖像动画。

技术框架摒弃了传统依赖参数模型的方法,采用端到端的扩散范式,并引入了用于提高音频输入与视觉输出对齐精度的视觉合成模块,包括嘴唇、表情和姿势动作。

网络架构融合了基于UNet的去噪器、时间对齐技术和参考网络。

输入数据要求

·源图像:

1.图像需裁剪为正方形。

2.脸部应为主要焦点,占图片的50%-70%。

3.脸部应正面朝向,旋转角度小于30°,不可为侧面。

·驱动音频:

1.必须为WAV格式。

2.只支持英语,因为训练数据集仅包括此语言。

3.人声必须清晰,可包含背景音乐。

项目链接

https://github.com/fudan-generative-vision/hallo

关注「 开源AI项目落地 」公众号

与AI时代更靠近一点

关注「 AGI光年 」公众号

获取每日最新资讯