Sora的開源復現！

2024-02-23碼農

哈嘍，大家好。

去年這個時候我們還在震驚ChatGPT的文本生成能力，僅僅一年，文生視訊的 Sora 就來了。

很多人可能覺得生成視訊跟自己沒太大關系，其實不然。

去年ChatGPT出現，很多人就開始用 ChatGPT 自動寫爆款文章，因為公眾號廣告單價是所有自媒體平台裏最高的。搞一些矩陣號，一年下來光公眾號廣告就能有十幾w的收入。

同樣的，現在 Sora 來了，也能讓普通人透過文本就能生成優質視訊。

目前 Sora 帳號還處於申請階段，大部份人還不能用。今天，給大家分享一個文生視訊的開源實作，感興趣的朋友可以研究下技術。

提示詞： Yellow and black tropical fish dart through the sea.

他們提出了一種新型潛在擴散變換器（Latent Diffusion Transformer）——Latte。Latte首先從輸入視訊中提取時空令牌（tokens），然後采用一系列變換器（Transformer）塊來在潛在空間中建模視訊分布。

這個思路跟 Sora 很像。

為了提高生成視訊的品質，他們透過嚴格的實驗分析確定了Latte的最佳實踐，包括視訊片段修補程式嵌入、模型變體、時間步長類資訊註入、時間位置嵌入和學習策略。

綜合評估表明，Latte在四個標準視訊生成數據集（即FaceForensics、SkyTimelapse、UCF101和Taichi-HD）上實作了最先進的效能。此外，他們將Latte擴充套件到文本到視訊生成（T2V）任務。

論文地址：https://maxin-cn.github.io/latte_project/

程式碼地址：https://github.com/Vchitect/Latte

渡碼公眾號持續分享AI方面的套用、技術、資訊，歡迎關註。