当前位置: 欣欣网 > 码农

11.7k星星!Sora发布了,但别忘了还有个北大开源的Open-Sora,AI视频未来之星一直在更新迭代。

2024-12-13码农

从2月份OpenAI第一次发出Sora的视频,到现在已经10个月了,Sora终于上线。

但是,Sora经历了这么久的沉淀,效果也不能说是完美。

3月份北大团队提出要复刻Sora,启动了一个叫Open-Sora的计划。

在当时还觉得就是他们团队随便玩玩。

但是没想到, 他们坚持了下来,而且真的拿出成果给大家看了。

从3月份到现在,一直在不断地迭代更新。

总有一天,开源跟闭源的差距会越来越小。

当前版本我认为,已经算是开源里不错的AI项目了,就这个更新速度来看的话,即将到来的版本可能还会有惊喜。

今天给大家介绍的是1.3版本。

扫码加入AI交流群

获得更多技术支持和交流

(请注明自己的职业)

DEMO

官方给了一段黑神话悟空的创意视频DEMO,用的是图生视频功能。

项目亮点

1、高性能 CausalVideoVAE,训练成本低

  • 高压缩比,能将视频压缩至原来的 1/256(4×8×8),在保证优秀性能的同时,大大降低了训练成本。

  • Causal 卷积支持图像和视频的同时推理,且仅需 1 个节点即可完成训练。

  • 2、基于 3D 注意力的视频扩散模型,时空特征联合学习

  • 采用全新的稀疏注意力架构,替代了传统的 2+1D 模型。

  • 3D 注意力能够更好地捕捉空间和时间的联合特征,提升了模型对时空特性的理解能力。

  • 技术特点

    1.多组件架构:

  • Wavelet-Flow Variational Autoencoder (WF-VAE):通过多级小波变换在频率域获取多尺度特征,并将其注入到卷积网络中,以减少内存使用并提高训练速度。

  • Joint Image-Video Skiparse Denoiser:将2+1D视频生成去噪器改为3D全注意力结构,增强了模型对世界的理解能力,包括物体运动、相机移动、物理和人类行为。

  • Condition Controllers:设计了帧级图像条件控制器,以支持包括图像到视频、视频转换和视频延续在内的多种任务。

  • 2.高效训练和推理策略:

  • Min-Max Token Strategy:通过聚合不同分辨率和时长的数据,实现高效的NPU/GPU计算,并最大化数据的有效使用。

  • Adaptive Gradient Clipping Strategy:提出自适应梯度裁剪策略,基于梯度范数检测异常数据,防止异常值扭曲模型的梯度方向。

  • Prompt Refinement Strategy:开发了提示细化器,使模型能够合理扩展输入提示,同时遵循语义,增强视频运动的稳定性并丰富细节。

  • 3.多维数据管理流程:

  • Multi-dimensional Data Processor:包括检测跳跃剪辑、剪辑视频、过滤快慢动作、裁剪边缘字幕、过滤审美分数、评估视频技术质量以及注释字幕。

  • LPIPS-Based Jump Cuts Detection:基于学习感知图像补丁相似性(LPIPS)实现视频剪辑检测方法,防止快速运动镜头的错误分割。

  • 4.条件注入模型: 包括深度图、姿态图、草图、文本等控制条件,实现精确的单帧操作。

    5.视频生成模型的框架: 能够处理包括文本提示、多图像和结构控制信号(如边缘检测、深度、草图等)在内的多种条件查询。

    6.Skiparse Attention: 提出了一种新的稀疏注意力机制,减少了计算复杂度,同时保持了对物理世界的复杂交互的建模能力。

    7.结构条件控制器: 提出了一种新的结构条件控制器,以高效地将结构信号(如Canny边缘、深度图、草图)集成到基础模型中,实现可控生成。

    项目链接

    https://github.com/PKU-YuanGroup/Open-Sora-Plan

    论文链接

    https://arxiv.org/abs/2412.00131

    关注「 开源AI项目落地 」公众号

    与AI时代更靠近一点

    关注「 AGI光年 」公众号

    获取每日最新资讯

    关注「 向量光年 」公众号

    加速全行业向AI转变