11.7k星星！Sora发布了，但别忘了还有个北大开源的Open-Sora，AI视频未来之星一直在更新迭代。

2024-12-13码农

从2月份OpenAI第一次发出Sora的视频，到现在已经10个月了，Sora终于上线。

但是，Sora经历了这么久的沉淀，效果也不能说是完美。

3月份北大团队提出要复刻Sora，启动了一个叫Open-Sora的计划。

在当时还觉得就是他们团队随便玩玩。

但是没想到， 他们坚持了下来，而且真的拿出成果给大家看了。

从3月份到现在，一直在不断地迭代更新。

总有一天，开源跟闭源的差距会越来越小。

当前版本我认为，已经算是开源里不错的AI项目了，就这个更新速度来看的话，即将到来的版本可能还会有惊喜。

今天给大家介绍的是1.3版本。

扫码加入AI交流群

获得更多技术支持和交流

（请注明自己的职业）

DEMO

官方给了一段黑神话悟空的创意视频DEMO，用的是图生视频功能。

项目亮点

1、高性能 CausalVideoVAE，训练成本低

高压缩比，能将视频压缩至原来的 1/256（4×8×8），在保证优秀性能的同时，大大降低了训练成本。

Causal 卷积支持图像和视频的同时推理，且仅需 1 个节点即可完成训练。

2、基于 3D 注意力的视频扩散模型，时空特征联合学习

采用全新的稀疏注意力架构，替代了传统的 2+1D 模型。

3D 注意力能够更好地捕捉空间和时间的联合特征，提升了模型对时空特性的理解能力。

技术特点

1.多组件架构：

Wavelet-Flow Variational Autoencoder (WF-VAE)：通过多级小波变换在频率域获取多尺度特征，并将其注入到卷积网络中，以减少内存使用并提高训练速度。

Joint Image-Video Skiparse Denoiser：将2+1D视频生成去噪器改为3D全注意力结构，增强了模型对世界的理解能力，包括物体运动、相机移动、物理和人类行为。

Condition Controllers：设计了帧级图像条件控制器，以支持包括图像到视频、视频转换和视频延续在内的多种任务。

2.高效训练和推理策略：

Min-Max Token Strategy：通过聚合不同分辨率和时长的数据，实现高效的NPU/GPU计算，并最大化数据的有效使用。

Adaptive Gradient Clipping Strategy：提出自适应梯度裁剪策略，基于梯度范数检测异常数据，防止异常值扭曲模型的梯度方向。

Prompt Refinement Strategy：开发了提示细化器，使模型能够合理扩展输入提示，同时遵循语义，增强视频运动的稳定性并丰富细节。

3.多维数据管理流程：

Multi-dimensional Data Processor：包括检测跳跃剪辑、剪辑视频、过滤快慢动作、裁剪边缘字幕、过滤审美分数、评估视频技术质量以及注释字幕。

LPIPS-Based Jump Cuts Detection：基于学习感知图像补丁相似性（LPIPS）实现视频剪辑检测方法，防止快速运动镜头的错误分割。

4.条件注入模型： 包括深度图、姿态图、草图、文本等控制条件，实现精确的单帧操作。

5.视频生成模型的框架： 能够处理包括文本提示、多图像和结构控制信号（如边缘检测、深度、草图等）在内的多种条件查询。

6.Skiparse Attention： 提出了一种新的稀疏注意力机制，减少了计算复杂度，同时保持了对物理世界的复杂交互的建模能力。

7.结构条件控制器： 提出了一种新的结构条件控制器，以高效地将结构信号（如Canny边缘、深度图、草图）集成到基础模型中，实现可控生成。

项目链接

https://github.com/PKU-YuanGroup/Open-Sora-Plan

论文链接

https://arxiv.org/abs/2412.00131

关注「 开源AI项目落地 」公众号

与AI时代更靠近一点

关注「 AGI光年」公众号

获取每日最新资讯

关注「 向量光年 」公众号

加速全行业向AI转变