復盤與分析：Sora是如何成功的？

2024-02-25碼農

本文來自「」，報告深入分析了Sora的各項能力、采用的技術路線和創新性的工作。我們認為Sora是將之前的研究工作上進行了很好的綜合，並在強大的算力、工程能力以及GPT和DALL·E模型技術積累下誕生的。

隨著OpenAI將這種具有開創性的技術路徑走通，國內模型和套用廠商有望快速叠代出類Sora的視訊生成模型和套用產品。

Sora的突破可以概括為以下幾點：

➢ 從生成效果看，突破此前視訊生成模型的時長限制，能夠生成60s時長、分辨率1080p的視訊，可用性極高。

➢ 從技術路線看，依舊遵從LLM範式「大力出奇跡」，透過patches向量化與transformer架構結合，使得訓練數據能夠使用大小、尺寸、分辨率不同的視訊，能夠讓模型學習到視訊的規律乃至世界的規律；使用GPT生成prompt，在訓練和推理過程中解決了模態之間的對齊問題，大大提升了生成效果。

➢ 從產業發展看，Sora通用性極強，有望統一視訊生成生態；能夠進一步賦能與促進下遊套用發展，未來有望成為真正的「世界模擬器」。

Sora 的誕生無異是產業的裏程碑，以其為代表的「多模型協同」方式是接近 AGI 的可行道路。與 Gemini 這樣的多模態模型不同， Sora 的核心能力依舊在視訊生成領域，且在推理時需要呼叫 GPT 的能力重述 prompt 。這種方式可能不如 Gemini 符合直覺，但效果非常顯著，大大加速了產業走向 AGI 的過程。

Sora 代表 LLM 的通用和湧現範式在視訊領域的成功復現，因此算力依舊是模型與套用廠商布局的關鍵。透過巧妙的 patches 嵌入方法， Sora 能夠運用高效的 Transformer 架構在海量的視訊上進行訓練，因此也湧現了模擬現實世界的能力。在其他技術路徑的模型獲得更好的效果之前，這種「大力出奇跡」的訓練方式將依舊是產業的主流，算力需求將持續迎來更大的爆發。

Sora 可能成為視訊生成領域的 Base Model ，模型層的競爭格局可能走向收斂。相比其他輕套用， Sora 的生成時長更長、品質更高，能夠完全替代這些輕套用。因此在多數場景下， Sora 都能取代其他的生成模型和套用，最終使視訊模型格局走向收斂。

GPU技術篇

更新提醒：「」和「」已經更新釋出，還沒有獲取的讀者，請在點選「原文連結」在微店留言獲取（ PDF閱讀版本）。

轉載申明：轉載 本號文章請 註明作者 和來源，本號釋出文章若存在版權等問題，請留言聯系處理，謝謝。

推薦閱讀

更多 架構相關技術 知識總結請參考「架構師全店鋪技術資料打包 (全) 」相關電子書( 41本 技術資料打包匯總詳情 可透過「 閱讀原文 」獲取)。

全店內容持續更新，現下單「 架構師技術全店資料打包匯總(全) 」一起發送「」和「」 pdf及ppt版本，後續可享全店內容更新「免費」贈閱，價格僅收 249 元(原總價 439 元)。