八千字幹貨：OpenAI 安全系統負責人親自教你視訊生成模型

2024-04-18資訊

作者 | Lilian Weng

編譯 | 王啟隆

出品 | AI 科技大本營（ID：rgznai100）

引自 | Weng, Lilian. (Apr 2024). Diffusion Models Video Generation. Lil’Log.

連結 | https://lilianweng.github.io/posts/2024-04-12-diffusion-video/.

近日，來自 OpenAI 的 Lilian Weng 釋出了一篇部落格，從技術性角度科普了用於視訊生成的擴散模型。此前，她曾在 2021 年發表部落格【什麽是擴散模型？】，以透徹且硬核的方式講解了其中的技術原理。如今，她的最新分享無疑成為深入探索視訊生成領域的必讀之作。

前一篇文章：https://lilianweng.github.io/posts/2021-07-11-diffusion-models/

Lilian Weng 於 2018 年加入 OpenAI，先後領導過 Applied AI（人工智慧套用研究）和 Head of Safety Systems（安全系統）團隊在 GPT-4 計畫中主要參與預訓練、強化學習 & 對齊、模型安全等方面的工作。這次由她撰寫的關於擴散模型在視訊生成套用上的新思考，希望能為你提供一道新視野。

從零開始的視訊生成建模

以下為正文：

擴散模型近年來在影像合成方面表現出了強大的效果。現在研究界已經開始著手一個更具挑戰性的任務——將其套用於視訊生成。這一任務實際上是影像案例的超集，因為單幀影像可視作一種視訊，而它更具難度的原因在於：

1. 視訊生成對時間軸上不同幀之間的時序一致性（temporal consistency across frames in time）提出了額外要求，這自然需要我們將更多的世界知識編碼到模型當中。

2. 與文本或影像相比，收集大量高品質、高維度的視訊數據更為困難，更不必提文本-視訊配對（text-video pairs）的數據了。

從零開始的視訊生成建模

首先，讓我們回顧一下從頭設計和訓練擴散視訊模型的方法，這意味著我們將不依賴預訓練的影像生成器。

參數化與采樣基礎

此處我們采用與前一篇文章稍有不同的變量定義，但數學原理保持一致。

前一篇文章： https://lilianweng.github.io/posts/2021-07-11-diffusion-models/

設是從真實數據分布中抽取的一個數據點。現在我們在時間上逐步添加少量高斯雜訊（Gaussian noise），從而建立一系列的含噪變體，記作，隨著增大，雜訊量也逐漸增加，直至最後。這個添加雜訊的前向過程是一個高斯過程（Gaussian process）。令定義該高斯過程的不同雜訊計劃：

為了表示時的，我們有以下推導：

令信噪比（signal-to-noise-ratio, SNR）的對數形式為，我們可以將 DDIM（Denoising Diffusion Implicit Models, Song 等人發表於 2020 年的論文）的更新公式表示為：

Salimans & Ho 於 2022 年提出了一種特殊的預測參數化方法（其中）。相較於參數化，這種方法已被證明有助於避免視訊生成中的色彩偏移問題。

參數化是透過角度座標系下的一種技巧匯出的。首先，我們定義，由此得到。

的速度可以寫作：

接下來我們推理得出，

D DIM 更新規則相應地調整為：

圖 1 此圖為擴散更新步驟（diffusion update step）在角度座標中工作的視覺化表示，其中 DDIM 透過沿方向移動來演化。（ Salimans & Ho 於 2022 年發表 ）

對於模型的參數化是為了預測。

在視訊生成場景中，我們需要擴散模型執行多個上采樣步驟以延長視訊長度或提高幀率。這就需要模型具備根據第一個視訊抽樣第二個視訊的能力，即，其中可能是的自回歸擴充套件，或者是低幀率視訊之間的缺失幀。

抽樣除了依賴其自身的雜訊變量外，還需要根據進行條件化。視訊擴散模型（Video Diffusion Models, VDM；Ho & Salimans 等人於 2022 年發表）論文中提出了采用調整後的去噪模型進行重建導向的方法，使得的抽樣能夠正確依據進行條件化：

此處，和分別是去噪模型提供的和的重構版本。而是一個權重因子，發現當設定較大的時可以提升樣本品質。需要註意的是，我們也可以同時對低分辨率視訊進行條件化，使用相同的重建導向方法將樣本擴充套件到高分辨率。

模型架構：3D U-Net 與 DiT

類似於文本到影像的擴散模型， U-Net 和 Transformer 仍然是目前兩種常見的架構選擇。谷歌有一系列基於 U-Net 架構的擴散視訊建模論文，而最近來自 OpenAI 的 Sora 模型則利用了 Transformer 架構。

視訊擴散模型（VDM）采用了標準的擴散模型設定，但對其架構進行了適應力修改，使之適用於視訊建模。它將 2D U-net 擴充套件至適用於三維數據（Cicek 等人, 2016），其中每個特征圖代表一個由幀數、高度、寬度通道組成的 4D 張量。這種 3D U-net 是按空間和時間維度分解的，意味著每一層僅作用於空間維度或時間維度，而不是同時作用於兩者：

處理空間維度 ：

原先 2D U-Net 中的每個 2D 摺積層被擴充套件為僅針對空間維度的 3D 摺積層；具體來說，原本的 3x3 摺積轉換為了 1x3x3 摺積操作，只在空間維度（高度和寬度）上進行處理。

處理時間維度 ：

在每個空間註意力塊（spatial attention block）之後增加了一個時間註意力塊（temporal attention block）。該塊負責對第一個軸（幀）執行註意力機制，並將空間軸視為批次維度。相對位置嵌入被用來跟蹤幀的順序。這一時間註意力塊對於模型捕捉良好的時間連貫性至關重要。透過這種方式，模型能夠在不混淆不同幀間空間資訊的同時，有效地學習並整合視訊序列的時間動態。

圖 2 3D U-net 架構。網路的輸入包括雜訊視訊、條件資訊以及對數訊雜比 ( ) 參數。通道倍增器表示各層的通道數量 ( Salimans & Ho 於 2022 年發表 )

Imagen Video 基於擴散模型的級聯結構來提升視訊生成品質，並能輸出分辨率為、幀率為的視訊。整個 Imagen Video 架構包含以下元件，總計由 7 個擴散模型構成。

一個凍結狀態的 T5 文本編碼器，用於提供作為條件輸入的文本嵌入。

一個基礎視訊擴散模型。

交錯的空間和時間超分辨率擴散模型的級聯，其中包括 3 個 TSR（時間超分辨率）和 3 個 SSR（空間超分辨率）元件。

註解：

擴散模型是一種深度學習技術，用於生成高品質的數據樣本，如視訊和影像。

TSR（Temporal Super-Resolution）指的是提高視訊幀率的技術，增強視訊在時間維度上的連續性和流暢度。

SSR（Spatial Super-Resolution）則是指提高視訊分辨率的技術，使得影像在空間維度上的細節更加豐富清晰。

圖 3 Imagen Video 中的級聯采樣流程。實際上，文本嵌入會被註入到所有元件中，而不僅僅是在基礎模型中（ Ho 等人於 2022 年發表 ）

基礎去噪模型首先對所有幀執行空間操作，這些操作共享同一組參數，然後透過時間層混合不同幀之間的啟用以更好地捕捉時間連貫性，這一方法被發現相比基於幀自回歸的方法效果更優。

圖 4 Imagen Video 擴散模型中時空分離塊的架構（ Ho 等人於 2022 年發表 ）

SSR 和 TSR 模型均基於通道方向上與雜訊數據連線後的上采樣輸入進行條件計算。其中，SSR 采用雙線性重采樣進行上采樣，而 TSR 透過重復幀或填充空白幀的方式來實作上采樣。

為了加速采樣過程，Imagen Video 還采用了逐步蒸餾策略，每次蒸餾叠代都能將所需的采樣步數減半。他們的實驗成功地將全部 7 個視訊擴散模型濃縮至每個模型僅需 8 步采樣，且視覺感知品質沒有明顯損失。

為了實作更好的規模化效率， Sora 利用了針對視訊和影像潛在編碼（latent code）時空塊操作的 DiT （擴散 Transformer）架構。視覺輸入被表示為一系列時空塊序列，這些序列充當 Transformer 的輸入令牌。

圖 5 Sora 是一個擴散 Transformer 模型（ Brooks 等人於 2024年發表 ）

適應影像模型以生成視訊

另一種顯著的擴散視訊建模方法是對預訓練的圖文擴散模型進行「擴充套件」，即插入時間層，之後可以選擇僅針對視訊數據微調新層，甚至完全避免額外訓練。新模型繼承了文本-圖片配對（text-image pairs）的先驗知識，從而有助於減輕對文本-視訊配對（text-video pair）數據的需求。

在視訊數據上進行微調

Make-A-Video 透過擴充套件預訓練的擴散影像模型引入時間維度，包含三個關鍵組成部份：

1. 一個在圖文對數據上訓練的基礎圖文轉換模型。

2. 空間-時間摺積層和註意力層（attention layers），用於將網路擴充套件到覆蓋時間維度。

3. 一個幀插值網路，用於高幀率視訊生成。

圖 6 Make-A-Video 管道示意圖（ Singer 等人於 2022 年發表 ）

最終的視訊推理方案可以表述為：

其中：

表示輸入的文本內容。

是經過BPE編碼後的文本數據。

是CLIP的文本編碼器，令，它負責對輸入文本進行編碼。

是先驗模組，基於文本嵌入及BPE編碼後的文本生成影像嵌入，即。這部份是在文本-影像配對數據集上訓練的，而在視訊數據上未進行微調。

是時空解碼器，用於生成一系列共16幀低分辨率（64x64像素）的RGB影像序列。

是幀間插值網路，透過在生成幀之間插值來提高有效幀率。這是一個針對視訊上采樣任務中的缺失幀預測而進行微調的模型。

和分別為空間和時空超分辨率模型，分別將影像分辨率提升至和。

是最終生成的視訊。

時空超分辨率層包含偽三維摺積層（pseudo-3D convo layers）和偽三維註意力層（pseudo-3D attention layers）：

偽三維摺積層：每個空間二維摺積層（從預訓練的影像模型初始化）後接一個時間維度的一維摺積層（初始化為恒等函式）。概念上，二維摺積層首先生成多個幀，然後將這些幀重塑為視訊片段。

偽三維註意力層：在每個（預訓練過的）空間註意力層之後堆疊並使用一個時間註意力層，以此近似完整的時空註意力層。

圖 7 偽三維摺積（左）和註意力（右）層的工作原理示意（ Singer 等人於 2022 年發表 ）

它們可以表示為：

其中輸入張量（分別對應批次大小、通道數、幀數、高度和寬度）；而是在時間維度和空間維度之間進行交換的操作；flatten(.) 是一個矩陣操作，用於將轉換為的形式，而 flatten . 則執行逆向轉換過程。

在訓練過程中，Make-A-Video 管道的不同元件獨立訓練：

1. 解碼器、先驗以及兩個超分辨率元件、首先僅使用影像進行訓練，不依賴配對的文本數據。

2. 接下來添加新的時間維度層，初始設定為恒等函式，然後在未標註的視訊數據上進行微調。

Tune-A-Video 透過擴充套件預訓練的影像擴散模型實作了單次視訊調整：給定包含幀的視訊以及與其相關的描述性提示，任務是基於稍作編輯且相關的文本提示生成一個新的視訊。例如，「一名男子正在滑雪」可以拓展為「蜘蛛人在海灘上滑雪」。Tune-A-Video 主要套用於物體編輯、背景更改及風格遷移。

除了將二維摺積層擴充至三維，Tune-A-Video 中的 U-Net 架構還整合了 ST-Attention（ST-Attn，時空註意力）模組來捕捉時序一致性，透過查詢前一幀中的相關位置。對於某一幀的潛在特征，前一幀和首幀投影到查詢向量、鍵向量和值向量上，ST-Attn 定義如下：

圖 8 Tune-A-Video 架構概述。在采樣階段之前，首先進行輕量級的單視訊微調階段。請註意，由於整個時序自註意力（T-Attn）層是新添加的，所以會進行微調，但在微調過程中只更新 ST-Attn 和 Cross-Attn 中的查詢投影部份，以保持先前文本到影像的知識。ST-Attn 提高了時空一致性，而 Cross-Attn 則細化了文本與視訊的對齊關系（ Wu 等人於 2023 年發表 ）

G en-1 模型（ Runway 公司出品）致力於實作根據文本輸入來編輯指定視訊的任務。該模型針對視訊結構和內容的分解條件生成過程進行了最佳化設計，但實際上要明確區分並處理這兩者頗具挑戰性。

內容指代視訊的外觀表現和語意內容，這部份內容從文本中抽樣用於條件編輯。幀的 CLIP 嵌入是內容的良好表示形式，而且在很大程度上與結構特征保持正交。

結構描繪了視訊中的幾何形態和動態變化，包括物體形狀、位置及隨時間變化的情況，這部份資訊從輸入視訊中抽樣獲取。可能利用諸如深度估計等特定任務的輔助資訊（如在合成人物視訊場景中的人體姿勢或面部特征點資訊）來進一步理解結構特征。

Gen-1 模型架構上的調整比較規範，即在每個殘留誤差塊的二維空間摺積層之後追加一層一維時間摺積層，並在每個註意力塊的二維空間註意力層之後增加一維時間註意力模組。在訓練期間，結構變量會與擴散潛變量連線在一起，其中內容變量在交叉註意力層中得到體現。在推理時刻，透過預設轉化方法，將 CLIP 文本嵌入轉化為 CLIP 影像嵌入。

圖 9 Gen-1 模型訓練流程概述（ Esser 等人於 2023 年發表 ）

Video LDM 首先訓練一個基於 LDM（潛在擴散模型）的影像生成器，接著對模型進行微調以產出帶有時間維度的視訊。微調階段僅針對新增加的時間層在編碼後的影像序列上實施。在 Video LDM（參照圖10）中的時間層集合會與已存在的且在微調過程中保持固定的的空間層交替堆疊。也就是說，我們只對新引入的參數進行微調，而預先訓練好的影像主體模型參數則不作改動。

視訊 LDM 的工作流程首先是按照低幀率生成關鍵幀，之後透過兩階段的潛在幀插值過程提升幀率。

輸入時長為的序列被視為基礎影像模型的一批影像（即），隨後這些影像會被轉換為適應於時間層的視訊格式。有一個跳躍連線使得時間層輸出透過一個可學習的合並參數與空間輸出結合在一起。在實際套用中，視訊 LDM 實作了兩種型別的時間混合層：(1) 時間註意力機制和 (2) 基於 3D 摺積的殘留誤差塊結構。

圖 10 針對影像合成預訓練的 LDM 被擴充套件為視訊生成器。其中，、、、和分別代表批次大小、序列長度、通道數、高度和寬度。是一個可選的條件/上下文幀（ Blattmann 等人於 2023 年發表 ）

然而，LDM（Latent Diffusion Model）預訓練自編碼器存在一個問題，即它僅處理過靜態影像而非視訊。若直接將其套用於視訊生成，則可能導致幀間閃爍效應且缺乏良好的時間一致性。為此，Video LDM 在解碼器中添加了額外的時間層，並透過基於 3D 摺積構建的逐塊時間判別器，在視訊數據上進行了微調，而編碼器保持不變。如此一來，我們仍能復用預訓練的 LDM。在時間解碼器的微調過程中，凍結的編碼器獨立處理視訊中的每一幀，並透過視訊感知的判別器確保幀間的重建具有時間一致性。

圖 11 視訊潛在擴散模型中自編碼器的訓練流程。解碼器經過微調以具備跨幀的時間一致性，這得益於新增的時間判別器，而編碼器則保持凍結狀態（ Blattmann 等人於 2023 年發表 ）

類似於 Video LDM，Stable Video Diffusion（SVD）的架構設計同樣基於在每層空間摺積和註意力層之後插入時間層的 LDM，但 SVD 會對整個模型進行微調，其訓練 Video LDM 涉及三個階段：

1. 文本到影像的預訓練 （Text-to-image pretraining）至關重要，有助於提升品質和遵循提示的能力。

2. 視訊預訓練 （Video pretraining）最好單獨進行，並理想情況下應在更大規模、精心策劃的數據集上進行。

3. 高品質視訊微調 （High-quality video finetuning）適用於較小規模且預先配有字幕的高保真視訊。

SVD 架構特別強調了數據集策劃在模型效能上的關鍵作用。設計者套用了一套剪輯檢測流水線來獲取每個視訊更多的剪輯片段，然後運用了三種不同的字幕生成模型：(1) CoCa 用於中間幀，(2) V-BLIP 用於生成視訊字幕，以及(3)基於前兩種字幕的 LLM 字幕生成方法。

接下來，設計者透過以下方式不斷改進視訊數據集：移除動作較少（透過 2fps 下計算出的低光流分數篩選）、過多文本出現（利用光學字元辨識技術辨識包含大量文本的視訊）或普遍審美價值較低（使用 CLIP 嵌入標註每個片段的第一、中間和最後一幀，並計算美學得分及文本-影像相似性）的片段。實驗表明，經過過濾的高品質數據集即使規模較小也能帶來更好的模型表現。

生成遠距離關鍵幀後，再透過時間超分辨率插值來維持高品質的時間一致性是一項主要挑戰。Lumiere 則采用了時空 U-Net（STUNet）架構，該架構透過單次傳遞一次性生成視訊的整個時間跨度，消除了對 TSR（時間超分辨率）元件的依賴。STUNet 在時間和空間維度上對視訊進行下采樣，因此昂貴的計算操作在一個緊湊的時間-空間潛在空間內進行。

圖 12 Lumiere 去掉了 TSR（時間超分辨率）模型。受記憶體限制，膨脹的 SSR 網路只能在視訊短片段上執行，因此 SSR 模型會針對一組較短但有重疊的視訊片段進行操作（ Bar-Tal 等人於 2024 年發表 ）

STUNet 將預訓練的文本到影像 U-Net 擴大化，使其能夠在時間和空間兩個維度上對視訊進行下采樣和上采樣。基於摺積的模組由預訓練的文本到影像層組成，隨後是一個因子分解的空間-時間摺積。而在最粗略層級的 U-Net 中，註意力模組包含了預訓練的文本到影像層，緊隨其後的則是時間註意力機制。進一步的訓練只針對新添加的層進行。

圖 13 (a) 空間-時間 U-Net（STUNet），(b) 基於摺積的模組，以及(c) 基於註意力的模組的架構（ Bar-Tal 等人於 2024 年發表 ）

無訓練適應：預訓練模型無需訓練即可生成視訊

令人驚訝的是，有一種方法可以無需任何訓練就能調整預訓練的文本到影像模型以輸出視訊！

如果我們簡單地隨機采樣一系列潛在編碼（latent code），然後構建相應解碼影像的視訊，則無法保證時間上物體和語意的一致性。Text2Video-Zero 透過向預訓練的影像擴散模型添加兩項關鍵機制來實作零樣本、無訓練視訊生成，從而確保時間一致性：

1. 動態運動引導的潛在編碼序列采樣：采用 運動動力學 （motion dynamics）方式采樣潛在編碼序列，以保持全域場景和背景隨時間的一致性；

2. 幀級自註意力重編程：使用每一幀對首幀的 新交叉幀註意力機制 （new cross-frame attention）重新配置幀級別的自註意力，以此來維持前景物件的上下文、外觀和身份特征。

圖 14 Text2Video-Zero 管道概覽（ Khachatryan 等人於 2023 年發表 ）

采樣包含運動資訊的潛在變量序列的過程時，按以下步驟描述：

1. 定義一個用於控制全域場景和攝影機運動的方向向量；預設情況下，我們將設為。同時定義一個超參數，用於控制全域運動的程度。

2. 隨機采樣第一幀的潛在編碼，滿足；

3. 使用預訓練的影像擴散模型（例如文中提到的 Stable Diffusion 模型）執行至少步的 DDIM 反向更新操作，得到對應的潛在編碼，其中。

4. 對於潛在編碼序列中的每一幀，套用由定義的相應運動平移變形操作，得到。

5. 最後，對所有套用DDIM正向步驟，得到。

公式表述如下：

整套流程首先從隨機采樣的第一幀開始，透過預先訓練的影像擴散模型逐步生成後續幀的潛在編碼。在此過程中，針對每一幀加入運動資訊，透過變形操作沿預定義的方向移動場景元素，最後運用 DDIM 正向傳播步驟還原出連貫且帶有動態變化的影像序列。

此外，Text2Video-Zero 借鑒了首幀參考機制，將預訓練的 Stable Diffusion 模型中的自註意力層替換為新的跨幀註意力機制，旨在確保在生成視訊的過程中保持前景物體的外觀、形狀和身份資訊的一致性。

（可選）可以使用背景蒙版進一步最佳化並提高背景一致性。比如，我們采用某種現有方法獲取第幀對應的前景蒙版，並在擴散步驟處，根據背景矩陣合並實際和變形的潛在編碼：

這裏，代表實際的潛在編碼，而是在背景上的扭曲潛在編碼；是一個超參數，在實驗中論文設定為。

Text2video-zero 可以與 ControlNet 結合使用，在每次擴散時間步長內，對每一幀套用預訓練的 ControlNet 復制分支，並將 ControlNet 分支輸出添加到主 U-net 的跳過連線中。

ControlVideo 旨在根據文本提示和一組運動序列（例如深度圖或邊緣圖），來生成視訊。它改編自 ControlNet，並增加了三個新機制：

1. 跨幀註意力 （Cross-frame attention）：在自註意力模組中實作全跨幀互動。不同於 Text2Video-zero 僅配置所有幀關註首幀的做法，該機制將各個時間步長的潛在幀對映到、、矩陣中，實作了所有幀之間的交互作用。

2. 交錯幀平滑器 （Interleaved-frame smoother）是一種利用幀間插值機制，以減少閃爍效應的方法。在每個時間步長，平滑器會對偶數幀或奇數幀進行插值，以平滑它們對應的三幀片段。註意，經過平滑處理後，幀的數量會隨時間遞減。

3. 分層采樣器 （Hierarchical sampler）能在記憶體限制下生成具有時間一致性的長視訊。一段長視訊被分割成多個短片段，每個片段選擇一個關鍵幀。模型預先全跨幀註意力生成這些關鍵幀以保證長期連貫性，然後依次根據關鍵幀合成相應的短片段。

圖 15 ControlVideo 的整體框架概覽（ Zhang 等人於 2023 年發表 ）

基於 Lilian Weng 的要求，我們在開頭便加入了參照連結，但也建議感興趣的讀者到 Weng 的主頁閱讀原文或其他文章，深度感觸她的精彩分享。

本文連結：https://lilianweng.github.io/posts/2024-04-12-diffusion-video/.

前一篇文章（讀前必看）： https://lilianweng.github.io/posts/2021-07-11-diffusion-models/

相關文獻：

[1] Cicek et al. 2016. 「3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation.」

[2] Ho & Salimans, et al. 「Video Diffusion Models.」 2022 | webpage

[3] Bar-Tal et al. 2024 「Lumiere: A Space-Time Diffusion Model for Video Generation.」

[4] Brooks et al. 「Video generation models as world simulators.」 OpenAI Blog, 2024.

[5] Zhang et al. 2023 「ControlVideo: Training-free Controllable Text-to-Video Generation.」

[6] Khachatryan et al. 2023 「Text2Video-Zero: Text-to-image diffusion models are zero-shot video generators.」

[7] Ho, et al. 2022 「Imagen Video: High Definition Video Generation with Diffusion Models.」

[8] Singer et al. 「Make-A-Video: Text-to-Video Generation without Text-Video Data.」 2022.

[9] Wu et al. 「Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation.」 ICCV 2023.

[10] Blattmann et al. 2023 「Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models.」

[11] Blattmann et al. 2023 「Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets.」

[12] Esser et al. 2023 「Structure and Content-Guided Video Synthesis with Diffusion Models.」

[13] Bar-Tal et al. 2024 「Lumiere: A Space-Time Diffusion Model for Video Generation.」

4 月 25 ~ 26 日，由 CSDN 和高端 IT 咨詢和教育平台 Boolan 聯合主辦的「 全球機器學習技術大會 」將在上海環球港凱悅酒店舉行，特邀近 50 位技術領袖和行業套用專家，與 1000+ 來自電商、金融、汽車、智慧制造、通訊、工業互聯網、醫療、教育等眾多行業的精英參會聽眾，共同探討人工智慧領域的前沿發展和行業最佳實踐。 歡迎所有開發者朋友存取官網 http://ml-summit.org、點選「閱讀原文」或掃碼進一步了解詳情。