哈喽,大家好。
去年这个时候我们还在震惊ChatGPT的文本生成能力,仅仅一年,文生视频的 Sora 就来了。
很多人可能觉得生成视频跟自己没太大关系,其实不然。
去年ChatGPT出现,很多人就开始 用 ChatGPT 自动写爆款 文 章,因为 公众号 广 告单价是所有自 媒体平台里最高的。搞一些矩阵号,一年下来光公众号广告就能有 十几w的收入。
同样的,现在 Sora 来了,也能让普通人通过文本就能生成优质视频。
目前 Sora 账号还处于申请阶段,大部分人还不能用。今天,给大家分享一个文生视频的开源实现,感兴趣的朋友可以研究下技术。
提示词:
Yellow and black tropical fish dart through the sea.
他们提出了一种新型潜在扩散变换器(Latent Diffusion Transformer)——Latte。Latte首先从输入视频中提取时空令牌(tokens),然后采用一系列变换器(Transformer)块来在潜在空间中建模视频分布。
这个思路跟 Sora 很像。
为了提高生成视频的质量,他们通过严格的实验分析确定了Latte的最佳实践,包括视频片段补丁嵌入、模型变体、时间步长类信息注入、时间位置嵌入和学习策略。
综合评估表明,Latte在四个标准视频生成数据集(即FaceForensics、SkyTimelapse、UCF101和Taichi-HD)上实现了最先进的性能。此外,他们将Latte扩展到文本到视频生成(T2V)任务。
论文地址:https://maxin-cn.github.io/latte_project/
代码地址:https://github.com/Vchitect/Latte
渡码 公众号持续分享AI方面的应用、技术、资讯,欢迎关注。