本文來自「 」,報告深入分析了Sora的各項能力、采用的技術路線和創新性的工作。我們認為Sora是將之前的研究工作上進行了很好的綜合,並在強大的算力、工程能力以及GPT和DALL·E模型技術積累下誕生的。
隨著OpenAI將這種具有開創性的技術路徑走通,國內模型和套用廠商有望快速叠代出類Sora的視訊生成模型和套用產品。
Sora的突破可以概括為以下幾點:
➢ 從生成效果看,突破此前視訊生成模型的時長限制,能夠生成60s時長、分辨率1080p的視訊,可用性極高。
➢ 從技術路線看,依舊遵從LLM範式「大力出奇跡」,透過patches向量化與transformer架構結合,使得訓練數據能夠使用大小、尺寸、分辨率不同的視訊,能夠讓模型學習到視訊的規律乃至世界的規律;使用GPT生成prompt,在訓練和推理過程中解決了模態之間的對齊問題,大大提升了生成效果。
➢ 從產業發展看,Sora通用性極強,有望統一視訊生成生態;能夠進一步賦能與促進下遊套用發展,未來有望成為真正的「世界模擬器」 。
Sora 的誕生無異是產業的裏程碑,以其為代表的「多模型協同」方式是接近 AGI 的可行道路 。與 Gemini 這樣的多模 態模型不同, Sora 的核心能力依舊在視訊生成領域,且在推理時需要呼叫 GPT 的能力重述 prompt 。這種方式可能不如 Gemini 符合直覺,但效果非常顯著,大大加速了產業走向 AGI 的過程。
Sora 代表 LLM 的通用和湧現範式在視訊領域的成功復現,因此算力依舊是模型與套用廠商布局的關鍵 。透過巧妙的 patches 嵌入方法, Sora 能夠運用高效的 Transformer 架構在海量的視訊上進行訓練,因此也湧現了模擬現實世界的能 力。在其他技術路徑的模型獲得更好的效果之前,這種「大力出奇跡」的訓練方式將依舊是產業的主流,算力需求將持續迎來更大的爆發。
Sora 可能成為視訊生成領域的 Base Model ,模型層的競爭格局可能走向收斂 。相比其他輕套用, Sora 的生成時長更 長、品質更高,能夠完全替代這些輕套用。因此在多數場景下, Sora 都能取代其他的生成模型和套用,最終使視訊模 型格局走向收斂。
GPU技術篇
更新提醒:「 」和「 」已經更新釋出,還沒有獲取的讀者,請在點選「原文連結」在微店留言獲取 ( PDF閱讀版本 )。
轉載申明:轉載 本號文章請 註明作者 和 來源 ,本號釋出文章若存在版權等問題,請留言聯系處理,謝謝。
推薦閱讀
更多 架構相關技術 知識總結請參考「 架構師全店鋪技術資料打包 (全) 」相關電子書( 41本 技術資料打包匯總詳情 可透過「 閱讀原文 」獲取)。
全店內容持續更新,現下單「 架構師技術全店資料打包匯總(全) 」一起發送「 」 和「 」 pdf及ppt版本 ,後續可享 全店 內容更新「 免費 」贈閱,價格僅收 249 元(原總價 439 元)。
溫馨提示:
掃描 二維碼 關註公眾號,點選 閱讀原文 連結 獲取 「 架構師技術全店資料打包匯總(全) 」 電子書資料詳情 。