Sora的开源复现！

2024-02-23码农

哈喽，大家好。

去年这个时候我们还在震惊ChatGPT的文本生成能力，仅仅一年，文生视频的 Sora 就来了。

很多人可能觉得生成视频跟自己没太大关系，其实不然。

去年ChatGPT出现，很多人就开始用 ChatGPT 自动写爆款文章，因为公众号广告单价是所有自媒体平台里最高的。搞一些矩阵号，一年下来光公众号广告就能有十几w的收入。

同样的，现在 Sora 来了，也能让普通人通过文本就能生成优质视频。

目前 Sora 账号还处于申请阶段，大部分人还不能用。今天，给大家分享一个文生视频的开源实现，感兴趣的朋友可以研究下技术。

提示词： Yellow and black tropical fish dart through the sea.

他们提出了一种新型潜在扩散变换器（Latent Diffusion Transformer）——Latte。Latte首先从输入视频中提取时空令牌（tokens），然后采用一系列变换器（Transformer）块来在潜在空间中建模视频分布。

这个思路跟 Sora 很像。

为了提高生成视频的质量，他们通过严格的实验分析确定了Latte的最佳实践，包括视频片段补丁嵌入、模型变体、时间步长类信息注入、时间位置嵌入和学习策略。

综合评估表明，Latte在四个标准视频生成数据集（即FaceForensics、SkyTimelapse、UCF101和Taichi-HD）上实现了最先进的性能。此外，他们将Latte扩展到文本到视频生成（T2V）任务。

论文地址：https://maxin-cn.github.io/latte_project/

代码地址：https://github.com/Vchitect/Latte

渡码公众号持续分享AI方面的应用、技术、资讯，欢迎关注。