2024開年, OpenAI 又釋出王炸級產品—— Sora ,這是一款可以根據文本提示詞直接生成視訊的工具。 (文末送sora書籍)
而Sora技術報告中曾參照了一項研究成果——DiT模型, 出自謝賽寧與Sora研發負責人之一WilliamPeebles合著的一篇論文【Scalable diffusion models with transformers】。
為了讓大家更好的了解sora, 這次我還整理了為 Sora視訊生成模型 提供了重要的技術基礎的論文合集, 論文涵蓋了 深度學習、強化學習、生成模型、視訊預測、3D 場景表示和渲染 等多個領域,免費領取。
掃碼回復「sora」
領取全部論文合集
01: Scalable diffusion models with transformers
核心思想:提出了一種新的擴散模型架構,稱為 DiT,該架構使用Transformer 替換了傳統的 U-Net 主幹。
作者: William Peebles 和 Saining Xie
02: Unsupervised Learning of Video Representations Using LSTMs
核心思想: 提出了一種使用長短期記憶 (LSTM) 網路進行視訊無監督學習的方法。
作者: Nitish Srivastava, Elman Mansimov, Ruslan Salakhudinov
03: Recurrent Environment Simulators
核心思想: 提出了一種基於遞迴神經網路 (RNN) 的環境模擬器模型,該模型可以預測環境在未來幾百個時間步內的狀態。
作者: Silvia Chiappa, Sébastien Racaniere, Daan Wierstra, Shakir Mohamed
04: World Models
核心思想: 提出了一種使用生成對抗網路 (GAN) 訓練世界模型的方法。
作者: David Ha and Jürgen Schmidhuber
05:Generating Videos with Scene Dynamics
核心思想: 提出了一種基於生成對抗網路 (GAN) 的視訊生成模型,該模型可以生成具有場景動態的視訊。
作者: Carl Vondrick, Hamed Pirsiavash, Antonio Torralba
掃碼回復 「sora」
領取全部論文合集
06: MoCoGAN: Decomposing Motion and Content for Video Generation
核心思想:
1.提出了一種基於運動和內容分解的視訊生成模型 MoCoGAN。
2.該模型可以生成具有逼真運動和內容的視訊。
作者: Sergey Tulyakov, Ming-Yu Liu, Xiaodong Yang, Jan Kautz
07: Adversarial Video Generation on Complex Datasets
核心思想:
1.提出了一種基於生成對抗網路 (GAN) 的視訊生成模型,該模型可以生成具有復雜場景和動作的視訊。
2.該模型可以用於視訊編輯、視訊合成、視訊遊戲等領域。
作者: Aidan Clark, Yaser Sheikh, Dhruv Batra
08: Generating Long Videos of Dynamic Scenes
核心思想:
1.提出了一種能夠生成長動態場景視訊的生成模型,該模型可以捕捉物件運動、視角變化和新內容生成等要素。
2.該模型可以用於視訊編輯、視訊合成、虛擬現實等領域。
作者: Tim Brooks, Janne Hellsten, Miika Aittala, Ting-Chun Wang, Timo Aila, Jaakko Lehtinen, Ming-Yu Liu
09: VideoGPT: Video Generation using VQ-VAE and Transformers
核心思想:
1.提出了一種基於 VQ-VAE 和 Transformer 的視訊生成模型 VideoGPT,該模型可以生成具有逼真視覺效果和流暢運動的視訊。
2.該模型可以用於視訊編輯、視訊合成、虛擬現實等領域。
作者: Wilson Yan, Chenliang Xu, Xiaohua Zhai, Xiaogang Wang
10: Nüwa: Visual Synthesis Pre-training for Neural Visual World Creation
核心思想: 提出了一種通用的視覺合成預訓練模型 Nüwa,該模型可以用於各種視覺生成任務,例如文本到影像、文本到視訊、視訊預測等 。
作者: Ruiqi Gao、Chenyang Lei、Ming-Yu Liu、Yaser Sheikh、Bo Zhang
因篇幅有限僅展示Sora視訊生成模型重要技術基礎的論文合集前十篇, 掃碼回復 「sora」 獲取全部論文合集。
掌握一門新技術,趕上新風口 , 不僅僅是要吃透論文,更需要學習路上的指路人 ,這次我邀請了 頂會審稿人 Season老師 , 在3月12日晚20:00帶 大家速通Sora !
直播大綱
1:Sora 的技術路線解讀
全新的 diffusion 模型架構
Sora如何表征視訊
Sora是如何處理數據的
openAl 和 Sora 成功原因解讀
2:從需求出發,生成任務都在發展什麽
從GAN 到 diffusion 的發展規律和熱點
從影像到視訊任務的發展規律和熱點
講解前沿視訊任務都在研究什麽
3:預測未來視訊領域的發展情況和潛在研究點
掃碼預約 12日晚20:00 直播
大咖帶你1小時速通Sora
大佬周鴻袆直言 「Sora 意味著 AGI 實作將從 10 年縮短到 1 年」 。
Sora 為啥這麽厲害?因為它是一個擴散模型 (Diffusion Model) ,是在大量不同時長、分辨率和寬高比的視訊及影像上訓練而成的。 【擴散模型:從原理到實戰】 一書對擴散模型的原理與套用有詳盡的說明。
掃描下方二維碼參與 抽獎 。抽取60名同學, 包郵送出 【擴散模型:從原理到實戰】!
加課程老師,免費領書
掃碼 看講座、 領資料、 包郵抽圖書
圖書將在月末統一寄出,感謝同學們的耐心等待。