當前位置: 妍妍網 > 碼農

一文帶你了解sora技術背後的論文【附32篇論文合集】

2024-03-04碼農

2024開年, OpenAI 又釋出王炸級產品—— Sora ,這是一款可以根據文本提示詞直接生成視訊的工具。 (文末送sora書籍)

而Sora技術報告中曾參照了一項研究成果——DiT模型, 出自謝賽寧與Sora研發負責人之一WilliamPeebles合著的一篇論文【Scalable diffusion models with transformers】。

為了讓大家更好的了解sora, 這次我還整理了為 Sora視訊生成模型 提供了重要的技術基礎的論文合集, 論文涵蓋了 深度學習、強化學習、生成模型、視訊預測、3D 場景表示和渲染 等多個領域,免費領取。

掃碼回復「sora」

領取全部論文合集

01: Scalable diffusion models with transformers

核心思想:提出了一種新的擴散模型架構,稱為 DiT,該架構使用Transformer 替換了傳統的 U-Net 主幹。

作者: William Peebles 和 Saining Xie

02: Unsupervised Learning of Video Representations Using LSTMs

核心思想: 提出了一種使用長短期記憶 (LSTM) 網路進行視訊無監督學習的方法。

作者: Nitish Srivastava, Elman Mansimov, Ruslan Salakhudinov

03: Recurrent Environment Simulators

核心思想: 提出了一種基於遞迴神經網路 (RNN) 的環境模擬器模型,該模型可以預測環境在未來幾百個時間步內的狀態。

作者: Silvia Chiappa, Sébastien Racaniere, Daan Wierstra, Shakir Mohamed

04: World Models

核心思想: 提出了一種使用生成對抗網路 (GAN) 訓練世界模型的方法。

作者: David Ha and Jürgen Schmidhuber

05:Generating Videos with Scene Dynamics

核心思想: 提出了一種基於生成對抗網路 (GAN) 的視訊生成模型,該模型可以生成具有場景動態的視訊。

作者: Carl Vondrick, Hamed Pirsiavash, Antonio Torralba

掃碼回復 「sora」

領取全部論文合集

06: MoCoGAN: Decomposing Motion and Content for Video Generation

核心思想:

1.提出了一種基於運動和內容分解的視訊生成模型 MoCoGAN。

2.該模型可以生成具有逼真運動和內容的視訊。

作者: Sergey Tulyakov, Ming-Yu Liu, Xiaodong Yang, Jan Kautz

07: Adversarial Video Generation on Complex Datasets

核心思想:

1.提出了一種基於生成對抗網路 (GAN) 的視訊生成模型,該模型可以生成具有復雜場景和動作的視訊。

2.該模型可以用於視訊編輯、視訊合成、視訊遊戲等領域。

作者: Aidan Clark, Yaser Sheikh, Dhruv Batra

08: Generating Long Videos of Dynamic Scenes

核心思想:

1.提出了一種能夠生成長動態場景視訊的生成模型,該模型可以捕捉物件運動、視角變化和新內容生成等要素。

2.該模型可以用於視訊編輯、視訊合成、虛擬現實等領域。

作者: Tim Brooks, Janne Hellsten, Miika Aittala, Ting-Chun Wang, Timo Aila, Jaakko Lehtinen, Ming-Yu Liu

09: VideoGPT: Video Generation using VQ-VAE and Transformers

核心思想:

1.提出了一種基於 VQ-VAE 和 Transformer 的視訊生成模型 VideoGPT,該模型可以生成具有逼真視覺效果和流暢運動的視訊。

2.該模型可以用於視訊編輯、視訊合成、虛擬現實等領域。

作者: Wilson Yan, Chenliang Xu, Xiaohua Zhai, Xiaogang Wang

10: Nüwa: Visual Synthesis Pre-training for Neural Visual World Creation

核心思想: 提出了一種通用的視覺合成預訓練模型 Nüwa,該模型可以用於各種視覺生成任務,例如文本到影像、文本到視訊、視訊預測等

作者: Ruiqi Gao、Chenyang Lei、Ming-Yu Liu、Yaser Sheikh、Bo Zhang

因篇幅有限僅展示Sora視訊生成模型重要技術基礎的論文合集前十篇, 掃碼回復 「sora」 獲取全部論文合集。

掌握一門新技術,趕上新風口 不僅僅是要吃透論文,更需要學習路上的指路人 ,這次我邀請了 頂會審稿人 Season老師 在3月12日晚20:00帶 大家速通Sora

直播大綱

1:Sora 的技術路線解讀

  • 全新的 diffusion 模型架構

  • Sora如何表征視訊

  • Sora是如何處理數據的

  • openAl 和 Sora 成功原因解讀

  • 2:從需求出發,生成任務都在發展什麽

  • 從GAN 到 diffusion 的發展規律和熱點

  • 從影像到視訊任務的發展規律和熱點

  • 講解前沿視訊任務都在研究什麽

  • 3:預測未來視訊領域的發展情況和潛在研究點

    掃碼預約 12日晚20:00 直播

    大咖帶你1小時速通Sora

    大佬周鴻袆直言 「Sora 意味著 AGI 實作將從 10 年縮短到 1 年」

    Sora 為啥這麽厲害?因為它是一個擴散模型 (Diffusion Model) ,是在大量不同時長、分辨率和寬高比的視訊及影像上訓練而成的。 【擴散模型:從原理到實戰】 一書對擴散模型的原理與套用有詳盡的說明。

    掃描下方二維碼參與 抽獎 。抽取60名同學, 包郵送出 【擴散模型:從原理到實戰】!

    加課程老師,免費領書

    掃碼 看講座、 領資料、 包郵抽圖書

    圖書將在月末統一寄出,感謝同學們的耐心等待。