哈嘍,大家好。
去年這個時候我們還在震驚ChatGPT的文本生成能力,僅僅一年,文生視訊的 Sora 就來了。
很多人可能覺得生成視訊跟自己沒太大關系,其實不然。
去年ChatGPT出現,很多人就開始 用 ChatGPT 自動寫爆款 文 章,因為 公眾號 廣 告單價是所有自 媒體平台裏最高的。搞一些矩陣號,一年下來光公眾號廣告就能有 十幾w的收入。
同樣的,現在 Sora 來了,也能讓普通人透過文本就能生成優質視訊。
目前 Sora 帳號還處於申請階段,大部份人還不能用。今天,給大家分享一個文生視訊的開源實作,感興趣的朋友可以研究下技術。
提示詞:
Yellow and black tropical fish dart through the sea.
他們提出了一種新型潛在擴散變換器(Latent Diffusion Transformer)——Latte。Latte首先從輸入視訊中提取時空令牌(tokens),然後采用一系列變換器(Transformer)塊來在潛在空間中建模視訊分布。
這個思路跟 Sora 很像。
為了提高生成視訊的品質,他們透過嚴格的實驗分析確定了Latte的最佳實踐,包括視訊片段修補程式嵌入、模型變體、時間步長類資訊註入、時間位置嵌入和學習策略。
綜合評估表明,Latte在四個標準視訊生成數據集(即FaceForensics、SkyTimelapse、UCF101和Taichi-HD)上實作了最先進的效能。此外,他們將Latte擴充套件到文本到視訊生成(T2V)任務。
論文地址:https://maxin-cn.github.io/latte_project/
程式碼地址:https://github.com/Vchitect/Latte
渡碼 公眾號持續分享AI方面的套用、技術、資訊,歡迎關註。