当前位置: 欣欣网 > 码农

Sora的开源复现!

2024-02-23码农

哈喽,大家好。

去年这个时候我们还在震惊ChatGPT的文本生成能力,仅仅一年,文生视频的 Sora 就来了。

很多人可能觉得生成视频跟自己没太大关系,其实不然。

去年ChatGPT出现,很多人就开始 ChatGPT 自动写爆款 章,因为 公众号 广 告单价是所有自 媒体平台里最高的。搞一些矩阵号,一年下来光公众号广告就能有 十几w的收入。

同样的,现在 Sora 来了,也能让普通人通过文本就能生成优质视频。

目前 Sora 账号还处于申请阶段,大部分人还不能用。今天,给大家分享一个文生视频的开源实现,感兴趣的朋友可以研究下技术。

提示词: Yellow and black tropical fish dart through the sea.

他们提出了一种新型潜在扩散变换器(Latent Diffusion Transformer)——Latte。Latte首先从输入视频中提取时空令牌(tokens),然后采用一系列变换器(Transformer)块来在潜在空间中建模视频分布。

这个思路跟 Sora 很像。

为了提高生成视频的质量,他们通过严格的实验分析确定了Latte的最佳实践,包括视频片段补丁嵌入、模型变体、时间步长类信息注入、时间位置嵌入和学习策略。

综合评估表明,Latte在四个标准视频生成数据集(即FaceForensics、SkyTimelapse、UCF101和Taichi-HD)上实现了最先进的性能。此外,他们将Latte扩展到文本到视频生成(T2V)任务。

论文地址:https://maxin-cn.github.io/latte_project/

代码地址:https://github.com/Vchitect/Latte

渡码 公众号持续分享AI方面的应用、技术、资讯,欢迎关注。