2024开年, OpenAI 又发布王炸级产品—— Sora ,这是一款可以根据文本提示词直接生成视频的工具。 (文末送sora书籍)
而Sora技术报告中曾引用了一项研究成果——DiT模型, 出自谢赛宁与Sora研发负责人之一WilliamPeebles合著的一篇论文【Scalable diffusion models with transformers】。
为了让大家更好的了解sora, 这次我还整理了为 Sora视频生成模型 提供了重要的技术基础的论文合集, 论文涵盖了 深度学习、强化学习、生成模型、视频预测、3D 场景表示和渲染 等多个领域,免费领取。
扫码回复「sora」
领取全部论文合集
01: Scalable diffusion models with transformers
核心思想:提出了一种新的扩散模型架构,称为 DiT,该架构使用Transformer 替换了传统的 U-Net 主干。
作者: William Peebles 和 Saining Xie
02: Unsupervised Learning of Video Representations Using LSTMs
核心思想: 提出了一种使用长短期记忆 (LSTM) 网络进行视频无监督学习的方法。
作者: Nitish Srivastava, Elman Mansimov, Ruslan Salakhudinov
03: Recurrent Environment Simulators
核心思想: 提出了一种基于递归神经网络 (RNN) 的环境模拟器模型,该模型可以预测环境在未来几百个时间步内的状态。
作者: Silvia Chiappa, Sébastien Racaniere, Daan Wierstra, Shakir Mohamed
04: World Models
核心思想: 提出了一种使用生成对抗网络 (GAN) 训练世界模型的方法。
作者: David Ha and Jürgen Schmidhuber
05:Generating Videos with Scene Dynamics
核心思想: 提出了一种基于生成对抗网络 (GAN) 的视频生成模型,该模型可以生成具有场景动态的视频。
作者: Carl Vondrick, Hamed Pirsiavash, Antonio Torralba
扫码回复 「sora」
领取全部论文合集
06: MoCoGAN: Decomposing Motion and Content for Video Generation
核心思想:
1.提出了一种基于运动和内容分解的视频生成模型 MoCoGAN。
2.该模型可以生成具有逼真运动和内容的视频。
作者: Sergey Tulyakov, Ming-Yu Liu, Xiaodong Yang, Jan Kautz
07: Adversarial Video Generation on Complex Datasets
核心思想:
1.提出了一种基于生成对抗网络 (GAN) 的视频生成模型,该模型可以生成具有复杂场景和动作的视频。
2.该模型可以用于视频编辑、视频合成、视频游戏等领域。
作者: Aidan Clark, Yaser Sheikh, Dhruv Batra
08: Generating Long Videos of Dynamic Scenes
核心思想:
1.提出了一种能够生成长动态场景视频的生成模型,该模型可以捕捉对象运动、视角变化和新内容生成等要素。
2.该模型可以用于视频编辑、视频合成、虚拟现实等领域。
作者: Tim Brooks, Janne Hellsten, Miika Aittala, Ting-Chun Wang, Timo Aila, Jaakko Lehtinen, Ming-Yu Liu
09: VideoGPT: Video Generation using VQ-VAE and Transformers
核心思想:
1.提出了一种基于 VQ-VAE 和 Transformer 的视频生成模型 VideoGPT,该模型可以生成具有逼真视觉效果和流畅运动的视频。
2.该模型可以用于视频编辑、视频合成、虚拟现实等领域。
作者: Wilson Yan, Chenliang Xu, Xiaohua Zhai, Xiaogang Wang
10: Nüwa: Visual Synthesis Pre-training for Neural Visual World Creation
核心思想: 提出了一种通用的视觉合成预训练模型 Nüwa,该模型可以用于各种视觉生成任务,例如文本到图像、文本到视频、视频预测等 。
作者: Ruiqi Gao、Chenyang Lei、Ming-Yu Liu、Yaser Sheikh、Bo Zhang
因篇幅有限仅展示Sora视频生成模型重要技术基础的论文合集前十篇, 扫码回复 「sora」 获取全部论文合集。
掌握一门新技术,赶上新风口 , 不仅仅是要吃透论文,更需要学习路上的指路人 ,这次我邀请了 顶会审稿人 Season老师 , 在3月12日晚20:00带 大家速通Sora !
直播大纲
1:Sora 的技术路线解读
全新的 diffusion 模型架构
Sora如何表征视频
Sora是如何处理数据的
openAl 和 Sora 成功原因解读
2:从需求出发,生成任务都在发展什么
从GAN 到 diffusion 的发展规律和热点
从图像到视频任务的发展规律和热点
讲解前沿视频任务都在研究什么
3:预测未来视频领域的发展情况和潜在研究点
扫码预约 12日晚20:00 直播
大咖带你1小时速通Sora
大佬周鸿袆直言 「Sora 意味着 AGI 实现将从 10 年缩短到 1 年」 。
Sora 为啥这么厉害?因为它是一个扩散模型 (Diffusion Model) ,是在大量不同时长、分辨率和宽高比的视频及图像上训练而成的。 【扩散模型:从原理到实战】 一书对扩散模型的原理与应用有详尽的说明。
扫描下方二维码参与 抽奖 。抽取60名同学, 包邮送出 【扩散模型:从原理到实战】!
加课程老师,免费领书
扫码 看讲座、 领资料、 包邮抽图书
图书将在月末统一寄出,感谢同学们的耐心等待。