當前位置: 妍妍網 > 碼農

Sora的開源復現!

2024-02-23碼農

哈嘍,大家好。

去年這個時候我們還在震驚ChatGPT的文本生成能力,僅僅一年,文生視訊的 Sora 就來了。

很多人可能覺得生成視訊跟自己沒太大關系,其實不然。

去年ChatGPT出現,很多人就開始 ChatGPT 自動寫爆款 章,因為 公眾號 告單價是所有自 媒體平台裏最高的。搞一些矩陣號,一年下來光公眾號廣告就能有 十幾w的收入。

同樣的,現在 Sora 來了,也能讓普通人透過文本就能生成優質視訊。

目前 Sora 帳號還處於申請階段,大部份人還不能用。今天,給大家分享一個文生視訊的開源實作,感興趣的朋友可以研究下技術。

提示詞: Yellow and black tropical fish dart through the sea.

他們提出了一種新型潛在擴散變換器(Latent Diffusion Transformer)——Latte。Latte首先從輸入視訊中提取時空令牌(tokens),然後采用一系列變換器(Transformer)塊來在潛在空間中建模視訊分布。

這個思路跟 Sora 很像。

為了提高生成視訊的品質,他們透過嚴格的實驗分析確定了Latte的最佳實踐,包括視訊片段修補程式嵌入、模型變體、時間步長類資訊註入、時間位置嵌入和學習策略。

綜合評估表明,Latte在四個標準視訊生成數據集(即FaceForensics、SkyTimelapse、UCF101和Taichi-HD)上實作了最先進的效能。此外,他們將Latte擴充套件到文本到視訊生成(T2V)任務。

論文地址:https://maxin-cn.github.io/latte_project/

程式碼地址:https://github.com/Vchitect/Latte

渡碼 公眾號持續分享AI方面的套用、技術、資訊,歡迎關註。