炸裂的文字生成視訊sora 背後的技術邏輯

2024-02-24碼農

新年還沒過完，AI屆又發生了轟轟烈烈的事情，由openai實作的文生視訊火遍了全網，那你知道它背後都是什麽樣的技術邏輯嗎？

實作原理

具體來說，在可變持續時間、分辨率和寬高比的視訊和影像上聯合訓練文本條件擴散模型。他們利用 transformer 架構，在視訊和影像潛在程式碼的時空修補程式上執行。最大的模型Sora能夠生成一分鐘的高保真視訊。其結果表明，縮放視訊生成模型是構建物理世界通用模擬器的一條有希望的道路。

將視覺數據轉化為修補程式

從大型語言模型中汲取靈感，這些模型透過互聯網規模的數據培訓獲得通才能力，LLM範式的成功部份得益於使用Token，這些Token優雅地統一了文本的多種模式——程式碼、數學和各種自然語言。在這項工作中，考慮了視覺數據的生成模型如何繼承這些好處。LLM有文本Token，而Sora有視覺 修補程式 。修補程式以前已被證明是視覺數據模型的有效表示。我們發現，修補程式是一種高度可延伸和有效的表示，用於訓練不同型別的視訊和影像的生成模型。

在高水平上，我們透過首先將視訊壓縮到低維的潛在空間，然後將表示分解為時空修補程式，將視訊變成修補程式。

視訊壓縮網路

訓練一個減少視覺數據維度的網路。這個網路將原始視訊作為輸入，並輸出一個在時間和空間上壓縮的潛在表示。Sora接受訓練，並隨後在這個壓縮的潛在空間中生成視訊。我們還訓練了一個相應的解碼器模型，將生成的潛能對映回像素空間。

時空潛伏修補程式

給定一個壓縮的輸入視訊，提取一系列作為Transformer Token的時空修補程式。此方案也適用於影像，因為影像只是單幀的視訊。我們基於修補程式的表示使Sora能夠對可變分辨率、持續時間和寬高比的視訊和影像進行訓練。在推理時，我們可以透過在適當大小的網格中排列隨機初始化的修補程式來控制生成的視訊的大小。

用於視訊生成的縮放Transformer

Sora是一個擴散模型；給定輸入嘈雜的修補程式（以及文本提示等調理資訊），它經過訓練來預測原始的「幹凈」修補程式。重要的是，Sora是一個擴散 Transformer 。Transformer在各個領域都表現出了顯著的縮放特性，包括語言建模、電腦視覺、和影像生成。

在這項工作中，發現擴散Transformer作為視訊模型也能有效擴充套件。下面，隨著培訓的進行，展示了視訊樣本與固定種子和輸入的比較。隨著訓練計算的提高，樣本品質顯著提高。

可變持續時間、分辨率、寬高比

過去的影像和視訊生成方法通常將視訊大小、裁剪或修剪為標準尺寸——例如，256x256分辨率的4秒視訊。我們發現，以原生規模對數據進行訓練會帶來一些好處。

采樣靈活性

Sora可以采樣寬屏1920x1080p視訊、垂直1080x1920視訊以及介於兩者之間的一切。這允許Sora直接以原生寬高比為不同裝置建立內容。它還允許我們在以全分辨率生成之前，以較低的尺寸快速制作內容原型——所有這些都使用相同的模型。

改進的框架和構圖

我們實證地發現，以原生寬高比進行視訊訓練可以改善構圖和構圖。我們將Sora與我們的模型版本進行比較，該模型將所有訓練視訊裁剪為正方形，這是訓練生成模型時的常見做法。在方形作物上訓練的模型（左）有時會生成視訊，其中主體僅部份出現在視野中。相比之下，Sora（右）的視訊改進了框架。

語言理解

培訓文本到視訊生成系統需要大量帶有相應文本字幕的視訊。我們將DALL·E 330中引入的重新字幕技術套用於視訊。我們首先訓練一個高度描述性的字幕模型，然後用它來為我們訓練集中的所有視訊制作文本字幕。我們發現，關於高度描述性視訊字幕的培訓可以提加文本保真度以及視訊的整體品質。

與DALL·E 3類似，我們還利用GPT將簡短的使用者提示轉換為發送到視訊模型的更長的詳細字幕。這使得Sora能夠生成準確遵循使用者提示的高品質視訊。

一個老人

穿著

紫色工作服和牛仔靴

愉快地散步 ,此處沒有視訊

提示影像和視訊

上面和我們登陸頁面中的所有結果都顯示了文本到視訊樣本。但Sora也可以透過其他輸入來提示，例如預先存在的影像或視訊。此功能使Sora能夠執行廣泛的影像和視訊編輯任務——建立完美迴圈視訊，動畫靜態影像，在時間上向前或向後擴充套件視訊等。

動畫DALL·E影像

Sora能夠生成視訊，提供影像和提示作為輸入。下面我們展示了基於DALL·E 231和DALL·E 330影像生成的範例視訊。

擴充套件生成的視訊

Sora還能夠向前或向後擴充套件視訊。以下是四個視訊，這些視訊都從生成的視訊片段開始向後擴充套件。因此，四個視訊中的每一個的開始都與其他視訊不同，但所有四個視訊都導致相同的結局。

我們可以使用這種方法向前和向後擴充套件視訊，以生成無縫的無限迴圈。

視訊到視訊編輯

擴散模型使從文本提示編輯影像和視訊的方法成為可能。下面我們將這些方法之一，SDEdit， ³² 套用於Sora。這項技術使Sora能夠改變零拍攝輸入視訊的風格和環境。

連線視訊

我們還可以使用Sora在兩個輸入視訊之間逐步插值，在具有完全不同主題和場景構圖的視訊之間建立無縫過渡。在下面的範例中，中間的視訊在左側和右側的相應視訊之間插值。

影像生成能力

Sora也能夠生成影像。我們透過在時間範圍為一幀的空間網格中排列高斯雜訊修補程式來做到這一點。該模型可以生成可變尺寸的影像——分辨率高達2048x2048

新興的模擬能力

我們發現，視訊模型在大規模訓練時表現出許多有趣的緊急能力。這些能力使Sora能夠從物理世界中模擬人、動物和環境的某些方面。這些內容在3D、物體等沒有任何明確的感應偏導的情況下出現——它們純粹是規模現象。

3D一致性。

Sora可以生成具有動態相機運動的視訊。隨著相機的移動和旋轉，人物和場景元素在三維空間中始終如一地移動。

長期連貫性和物件永續性。

視訊生成系統面臨的一個重大挑戰是在采樣長視訊時保持時間一致性。我們發現Sora通常（盡管並非總是如此）能夠有效地模擬短期和長期依賴關系。例如，我們的模型可以持續存在人、動物和物體，即使它們被遮擋或離開框架。同樣，它可以在單個樣本中生成同一角色的多個鏡頭，在整個視訊中保持其外觀。

與世界互動。

Sora有時可以以簡單的方式模擬影響世界狀態的行為。例如，畫家可以沿著畫布留下新的筆觸，這些筆觸會隨著時間的推移而持續下去，或者一個男人可以吃一個漢堡並留下咬痕。

模擬數位世界。

Sora還能夠模擬人工過程——一個例子是電子遊戲。Sora可以同時用基本策略控制【我的世界】中的玩家，同時以高保真度渲染世界及其動態。透過提示Sora的標題提及「Minecraft」，可以激發這些功能。這些能力表明，視訊模型的持續擴充套件是開發物理和數位世界以及生活在其中的物體、動物和人的高效能模擬器的一條有希望的道路。

討論

Sora目前作為模擬器表現出許多局限性。例如，它沒有準確模擬許多基本交互作用的物理學，比如玻璃破碎。其他交互作用，如吃食物，並不總是能產生物體狀態的正確變化。我們在登陸頁面中列舉了模型的其他常見故障模式，例如在長時間樣本中形成的不一致性或物體的自發出現。我們相信，Sora今天的能力表明，視訊模型的持續擴充套件是開發物理和數位世界以及生活在其中的物體、動物和人的強大模擬器的一條有希望的道路。

未來可期

雖然目前sora僅僅開放給個別人，不過可以預見的是，全民開放僅僅是時間問題。

未來已來，你在哪裏？