北大領銜開源復現 Open-Sora，生成 10 秒高畫質視訊，支持華為 AI 芯片

2024-04-08資訊

作者 | 王啟隆

責編 | 唐小引

出品 | AI 科技大本營（ID：rgznai100）

從今年 2 月，OpenAI 用一個意為「天空」的日語詞匯「 Sora 」引爆了技術圈，並為視訊生成技術立下了一道新標桿：將簡短的文本描述轉換成一分鐘的高畫質視訊片段。隨後的兩個月裏，各路神仙試圖從「CloseAI」的各類釋出渠道中捕捉 Sora 零碎的研究細節，時至今日仍未降溫。

這期間，北京大學和兔展智慧在三月份聯合發起了開源計畫 Open-Sora-Plan ，旨在透過開源框架重現 Sora，訓練一個包含無條件視訊生成、類視訊生成和文本、視訊生成等技術的模型。

就在昨天， Open-Sora-Plan v1.0.0 正式推出，顯著增強了視訊生成品質和文本控制功能，並且正在訓練更高分辨率（>1024）以及更長持續時間（>10 秒）的視訊。一個月的變化非常大，Open-Sora-Plan 如今采用 CausalVideoVAE 架構，支持 華為升騰 910b 芯片 ，在 Hugging Face 上已有 Demo。

GitHub 連結 ：https://github.com/PKU-YuanGroup/Open-Sora-Plan

Hugging Face 線上演示 ：https://huggingface.co/spaces/LanguageBind/Open-Sora-Plan-v1.0.0

以上兩個視訊為 Open-Sora-Plan 計畫訓練的 Video-VAE 重建結果

復現細節

Open-Sora-Plan 的技術框架在計畫公布時便已經定下，由三大部份組成：

Video VQ-VAE.

全稱 Video Vector-Quantized Variational Autoencoder，結合了變分自編碼器（VAE）和向量量化（Vector Quantization, VQ）的概念，是一種針對視訊數據的編碼-解碼模型，用於壓縮和重建視訊序列。

Denoising Diffusion Transformer.

Denoising 意指去噪自編碼器（Denoising Autoencoders）。 Diffusion Transformer 通常簡稱 DiT，轉譯過來就是「擴散 Transformer」，被視為 Sora 的重要技術基礎之一，在 Sora 出圈時還帶火了論文的合撰者謝賽寧。

這種模型通常用於從雜訊逐漸重構原始數據的過程中，透過一系列逐步去噪步驟生成高保真樣本，特別是在影像和視訊生成場景中表現出色。

Condition Encoder.

即條件編碼器。這是在生成過程中引入外部條件資訊的關鍵元件，它可以將各種型別的輸入條件（如文本描述、標簽、類別或其他輔助資訊）轉化為模型可以理解的高級特征表示。

而本次 v1.0.0 版本的釋出的主要改進，便是能夠利用 CausalVideoVAE 實作高效訓練和推理，透過 4×8×8 的空間-時間壓縮最佳化視訊數據處理，並將首幀視為影像，允許自然地同時對影像和視訊進行編碼，從而讓擴散模型更好地捕捉空間視覺細節，提高視覺品質。

模型結構

CausalVideoVAE 的結構基於 Stable-Diffusion Image VAE ，在 Stable Diffusion 中使用 VAE 能夠得到顏色更鮮艷、細節更鋒利的影像，同時也有助於改善臉和手等部位的影像品質。為了讓影像 VAE 的預訓練權重順利地用在視訊 VAE 上， ‍ Open-Sora-Plan 的團隊 ‍ 做了以下設計：

CausalConv3D ：將 Conv2D 轉換成 CausalConv3D 可以同時訓練影像和視訊數據。CausalConv3D 對第一幀進行了特殊處理，因為它無法獲取到後續幀。

初始化 ：將 Conv2D 擴充套件成 Conv3D 有兩種常見的方法，一是 平均初始化 ，二是 中心初始化 。Open-Sora-Plan 采用了一種特殊的初始化方法（尾部初始化）。這種初始化方法可以讓模型在沒有任何訓練的情況下，直接重建影像，甚至視訊。

訓練細節

上圖展示了兩種不同初始化方法在 17×256×256 影像上的損失曲線。

黃色曲線表示使用尾部初始化的損失，藍色曲線對應中心初始化的損失。從圖上可以看出，尾部初始化在損失曲線上表現更好。此外，研究團隊發現中心初始化會導致錯誤積累，導致長時間的崩潰。

最佳化推理

即使凍結 Diffusion 訓練中的 VAE，CausalVideoVAE 的成本還是會比較高。具體來說，在 Open-Sora-Plan 團隊現有配備的 80GB GPU 記憶體的情況下，僅能使用半精度處理分辨率分別為 256×512×512 或 32×1024×1024 的視訊進行推理， 這限制了他們對更長和更高分辨率視訊進行擴充套件的能力 。

因此，他們采用了 瓦片卷 積（tile convolution） ，以幾乎恒定的記憶體使用量推斷任意長度或分辨率的視訊。

數據構建

Open-Sora-Plan 團隊構建了一個高品質視訊數據集，其嚴格遵守兩個原則：

首先， 確保數據集中不包含任何與內容無關的浮水印 。為此，他們從一系列 CC0 授權的開源網站搜集了大約 40,000 個視訊資源，其中包括從 mixkit 獲得的 1,244 個視訊、從 pexels 獲取的 7,408 個視訊以及從 pixabay 收集的 31,617 個無浮水印視訊。按照 Panda70M 提供的場景切換和剪輯方案，這些原始視訊被細分為約 434,000 個獨立的視訊片段。

這批數據來源高達 99% 的視訊都僅包含單一場景，同時超過 60% 的爬取數據屬於風景類視訊內容。

其次，針對 高品質且密集的字幕要求 ，直接在網路上大規模抓取此類字幕頗具挑戰性。團隊於是決定采用先進的影像-字幕模型來生成高標準的字幕內容，對兩款多模態大模型——ShareGPT4V-Captioner-7B 和 LLaVA-1.6-34B 進行了消融實驗。前者專為字幕生成任務設計，後者則是一款通用的大型多模態模型。

實驗結果顯示兩者效能相當，但推理速度有所差異：在 A800 GPU 上，ShareGPT4V-Captioner-7B 以批次處理大小 12 的情況下，每 40 秒能完成一輪推理；而 LLaVA-1.6-34B 在批次處理大小 1 時，每 15 秒即可進行一輪推理。團隊已公布所有相關註釋*，並展示了部份統計數據，在設定模型最大長度為 300 的前提下，這幾乎覆蓋了 99% 的樣本需求。

*: https://huggingface.co/datasets/LanguageBind/Open-Sora-Plan-v1.0.0

未來……

關於 CausalVideoVAE 模型 ：面對存在的動態模糊和網格效應問題，他們正在進行一系列改進措施，即將推出的增強版本作為「預覽版」，預計在下一次更新時正式釋出。 Open-Sora-Plan 團隊同樣放出了新版本預覽，提升很大：

關於數據構建的源頭 ：上文提到，「60% 的爬取數據屬於風景類視訊內容」，這在一定程度上限制了在其他型別視訊生成上的表現力。盡管現有的大規模開源數據集多數透過抓取 YouTube 等平台獲取，但由於對視訊品質控制的考量，Open-Sora-Plan 團隊選擇持續積累高品質的數據資源。他們正發起名為 Open-Sora-Dataset 的計畫，並邀請開源社群共同參與推薦和建設。

關於字幕生成流程 ：鑒於長視訊的需求，有必要研發更為高效的視訊字幕生成解決方案，而不完全依賴於大型多模態影像模型。目前，他們正致力於開發新一代視訊字幕生成管道，旨在提供對長視訊強大而穩定的支持。

關於算力 ：計畫發起者之一、北大資訊工程學院助理教授、博導袁粒向 CSDN 透露，針對如何更好地支持國產算力訓練的問題，當前主要與華為開展了深度合作，並與其他諸如莫耳執行緒等國產算力平台進行接觸。盡管各家企業在推進合作的進度和流程上存在差異，每家企業的節奏各異，但合作的基本思路是相通的。

星星之火可以燎原

你是如何理解開源精神的？

是 BSD 開花結果孕育 Mac OS X 和 Unix-like？還是 MySQL 在被 Oracle 收購之後催生了 MariaDB 等一系列資料庫？亦或是 Netscape 被微軟逼入絕境後，開源 Mozilla 計畫涅槃重生？

袁粒向 CSDN 表示，Open-Sora-Plan 計畫的追求既非完全復現 Sora，更不是要搶先於 OpenAI 實作「彎道超車」，而是「開源」這件事情本身。

「我們追求的還是開源。開源社群本身的資源是有限的，我們能做的並不是超越，而是給大家提供一個開源版本，大家可以基於此繼續往前推動。」

目前， 開源社群對 Open-Sora-Plan 的回饋相當熱情 ，GitHub 上已有 6.7 stars。袁粒認為，開源社群裏不只有個人開發者，許多企業也正在支持開源，他們本身也是開源的一份子，有許多開發者和企業都為 Open-Sora-Plan v1.0.0 的算力&演算法提供了支持。此外，華為也在持續跟進該計畫，他們表示完全尊重開源，並有工程師協助袁粒的團隊做適配。

Open-Sora-Plan 團隊計劃以自身開源為核心，鼓勵合作企業不僅支持開源，具體的協作模式是開放且靈活的：各個國內企業都可以針對開源計畫送出 Pull Request（PR）對現有框架進行適配以適應國產算力平台。團隊會對送出的程式碼進行稽核，確認無誤後將其融入到開源框架中。在適配過程中遇到的技術問題，團隊會與合作企業保持緊密溝通，共同尋求解決方案，確保國產算力與開源框架的有效整合與相容。

透過各方共同努力，逐步建立起一套基於國產算力環境的開源生態體系。

截至 4 月 8 日，Open-Sora-Plan 的社群貢獻者

開源之火，生生不息。

去年 12 月的時候，Linus Torvalds 在日本的開源峰會上曾作出如此分享：

「我還記得三十年前我啟動這個計畫（Linux）時的情景，人們會問我'為什麽'或'你要怎麽賺錢？' 現在，這已經不再是一個問題了。 開源已經成為行業的標準 。」

GitHub 連結 ：https://github.com/PKU-YuanGroup/Open-Sora-Plan

Hugging Face 線上演示 ：https://huggingface.co/spaces/LanguageBind/Open-Sora-Plan-v1.0.0

Open-Sora-Plan 團隊

4 月 25 ~ 26 日，由 CSDN 和高端 IT 咨詢和教育平台 Boolan 聯合主辦的「 全球機器學習技術大會 」將在上海環球港凱悅酒店舉行，特邀近 50 位技術領袖和行業套用專家，與 1000+ 來自電商、金融、汽車、智慧制造、通訊、工業互聯網、醫療、教育等眾多行業的精英參會聽眾，共同探討人工智慧領域的前沿發展和行業最佳實踐。 歡迎所有開發者朋友存取官網 http://ml-summit.org、點選「閱讀原文」或掃碼進一步了解詳情。