詳解OpenAI視訊大模型Sora技術報告

2024-02-19碼農

OpenAI 釋出了第一個視訊生成模型Sora。不同於此前許多AI大模型文生圖或視訊時，會出現人物形象前後不一致等問題，此次OpenAI展示的Sora生成的視訊中的主角、背景人物，都展現了極強的一致性，可以支持60秒一鏡到底，並包含高細致背景、多角度鏡頭，以及富有情感的多個角色

Sora 詳細的技術報告釋出了，相關從業者可能都需要看看。

裏面有 Open AI 的訓練思路以及 Sora 詳細的技術特性，我從裏面找了一些要點，詳細的可以去看完整內容。

簡單來說 Sora 的訓練量足夠大也產生了類似湧現的能力。

技術特點

三維空間的連貫性 ：Sora可以生成帶有動態相機運動的視訊。隨著相機移動和旋轉，人物和場景元素在三維空間中保持連貫的運動。

模擬數位世界 ：Sora還能模擬人工過程，如視訊遊戲。Sora能夠同時控制 Minecraft 中的玩家，並高保真地渲染遊戲世界及其動態。透過提及「Minecraft」的提示，可以零樣本地激發Sora的這些能力

長期連續性和物體永續性 ：對視訊生成系統來說，Sora通常能夠有效地模擬短期和長期的依賴關系。同樣，它能在一個樣本中生成同一角色的多個鏡頭，確保其在整個視訊中的外觀一致。

與世界互動 ：Sora有時能夠模擬對世界狀態產生簡單影響的行為。例如，畫家可以在畫布上留下隨時間持續的新筆觸，或者一個人吃漢堡時留下咬痕。

訓練過程

Sora 的訓練受到了大語言模型（Large Language Model）的啟發。這些模型透過在互聯網規模的數據上進行訓練，從而獲得了廣泛的能力。

Sora實際上是一種擴散型變換器模型（diffusion transformer）。

首先將視訊壓縮到一個低維潛在空間19中，然後將這種表現形式分解成時空區塊，從而將視訊轉換為區塊。

訓練了一個用於降低視覺數據維度的網路。這個網路以原始視訊為輸入，輸出在時間和空間上都被壓縮的潛在表示。Sora在這個壓縮的潛在空間上進行訓練，並在此空間中生成視訊。還開發了一個對應的解碼器模型，它能將生成的潛在表示對映回到像素空間。

對於給定的壓縮輸入視訊，提取一系列時空區塊，它們在變換器模型中充當標記（token）。這種方案同樣適用於影像，因為影像本質上是單幀的視訊。基於區塊的表示方法使Sora能夠針對不同分辨率、持續時間和長寬比的視訊和影像進行訓練。在推理過程中，可以透過在適當大小的網格中排列隨機初始化的區塊來控制生成視訊的大小。

隨著 Sora 訓練計算量的增加，樣本品質有了顯著提升。

Sora訓練時沒有對素材進行裁切，使得Sora能夠直接為不同裝置以其原生長寬比創造內容。

針對視訊的原生長寬比進行訓練，還可以提高構圖和取景的品質。

訓練文本到視訊的生成系統需要大量配有相應文本提示的視訊。套用了在DALL·E 3中引入的重新字幕技術到視訊上。

與DALL·E 3相似，也利用了GPT技術，將使用者的簡短提示轉換成更詳細的提示，然後發送給視訊模型。Video generation models as world simulators

論文關鍵點

OpenAI 的研究論文【Video generation models as world simulators】探討了在視訊數據上進行大規模訓練生成模型的方法。這項研究特別關註於文本條件擴散模型，這些模型同時在視訊和影像上進行訓練，處理不同時長、分辨率和寬高比的數據。研究中提到的最大模型 Sora 能夠生成長達一分鐘的高保真視訊。以下是論文的一些關鍵點：

統一的視覺數據表示：研究者們將所有型別的視覺數據轉換為統一的表示，以便進行大規模的生成模型訓練。Sora 使用視覺修補程式（patches）作為其表示方式，類似於大型語言模型（LLM）中的文本標記。
視訊壓縮網路：研究者們訓練了一個網路，將原始視訊壓縮到一個低維潛在空間，並將其表示分解為時空修補程式。Sora 在這個壓縮的潛在空間中進行訓練，並生成視訊。
擴散模型：Sora 是一個擴散模型，它透過預測原始「幹凈」的修補程式來從輸入的雜訊修補程式中生成視訊。擴散模型在語言建模、電腦視覺和影像生成等領域已經顯示出了顯著的擴充套件性。
視訊生成的可延伸性：Sora 能夠生成不同分辨率、時長和寬高比的視訊，包括全高畫質視訊。這種靈活性使得 Sora 能夠直接為不同裝置生成內容，或者在生成全分辨率視訊之前快速原型化內容。
語言理解：為了訓練文本到視訊生成系統，需要大量的視訊和相應的文本標題。研究者們套用了在 DALL·E 3 中引入的重新描述技術，首先訓練一個高度描述性的標題生成器，然後為訓練集中的所有視訊生成文本標題。
影像和視訊編輯：Sora 不僅能夠基於文本提示生成視訊，還可以基於現有影像或視訊進行提示。這使得 Sora 能夠執行廣泛的影像和視訊編輯任務，如建立完美迴圈的視訊、動畫靜態影像、向前或向後擴充套件視訊等。
模擬能力：當視訊模型在大規模訓練時，它們展現出了一些有趣的新興能力，使得 Sora 能夠模擬物理世界中的某些方面，如動態相機運動、長期一致性和物件永續性等。
討論：盡管 Sora 展示了作為模擬器的潛力，但它仍然存在許多局限性，例如在模擬基本物理互動（如玻璃破碎）時的準確性不足。研究者們認為，繼續擴充套件視訊模型是開發物理和數位世界模擬器的有前途的道路。

這篇論文提供了對 Sora 模型的深入分析，展示了其在視訊生成領域的潛力和挑戰。透過這種方式，OpenAI 正在探索如何利用 AI 來更好地理解和模擬我們周圍的世界。

論文報告：https://openai.com/research/video-generation-models-as-world-simulators。

相關閱讀：

轉載申明：轉載 本號文章請 註明作者 和來源，本號釋出文章若存在版權等問題，請留言聯系處理，謝謝。

推薦閱讀

更多 架構相關技術 知識總結請參考「架構師全店鋪技術資料打包 (全) 」相關電子書( 41本 技術資料打包匯總詳情 可透過「 閱讀原文 」獲取)。

全店內容持續更新，現下單「 架構師技術全店資料打包匯總(全) 」一起發送「」和「」 pdf及ppt版本，後續可享全店內容更新「免費」贈閱，價格僅收 249 元(原總價 439 元)。

溫馨提示：

掃描 二維碼 關註公眾號，點選 閱讀原文 連結獲取「 架構師技術全店資料打包匯總(全) 」電子書資料詳情。