十倍加速開源SORA！AI即時生成視訊新技術

2024-06-28碼農

即時視訊生成已經實作！ 十倍加速 開源SORA！

本期講的內容都是幹貨，幫你少關註點廢料！

今天給大家分享一個關於視訊生成的新技術—— Pyramid Attention Broadcast（PAB） 。

這項技術是由新加坡國立大學和普渡大學的研究團隊共同開發，致力於提升 基於DiT 的即時視訊生成效能。

下面是團隊演示的原始方法與套用PAB的視訊生成速度的比較。

還是能夠很明顯地感受到生成速度上的提升。

技術背景

自從OpenAI公司向大眾展示了SOAR模型，我們第一次感受到了AI視訊生成的強大能力所帶來的震撼，於是............

沒錯.......沒有了下文......

至今我們都沒有見到模型的公開釋出...... 想必大家等的花都謝了 🥀

這不研究團隊們為此獻計啦😂😂😂

這類模型由於在推理階段 耗時較長 ，常常需要大量的時間來生成單個視訊。

這 大大限制 了其在實際套用中的普及。

加速這類模型的推理過程變得 尤為重要 。

技術要點

研究團隊透過研究註意力機制在視訊擴散變壓器中的表現發現：

在整個推理過程中，註意力在時間步長上的變化呈現出 U型分布 ——前15%和最後15%的步長變化顯著，而中間70%的步長變化較小。

基於這一觀察，研究團隊提出 金字塔註意力廣播技術 。

具體來說，在變化較小的中間階段將一個時間步的註意力輸出廣播到多個後續步長，從而 避免重復計算 。

這種策略不僅 減少了計算成本 ，還在 不犧牲生成品質 的前提下，實作了 最高35% 的速度提升。

文章中對此金字塔結構的解釋為：

根據三種註意力的差異性，為它們設定不同的廣播範圍。註意力差異越小，廣播範圍越廣。

在執行時，我們將註意力結果廣播到接下來的幾個步驟，以避免重復的註意力計算。Xt指的是時間步的特征t。

此外，團隊還改進了動態序列並列（DSP）方法，透過廣播時間註意力， 消除了原有的通訊開銷 ，進一步提升了生成速度。

技術表現

透過實驗，PAB在8個NVIDIA H100 GPU上進行測試，顯示出顯著的加速效果。

單GPU情況下，速度提升 約1.26到1.32倍 ；

多GPU情況下，速度提升 最高可達10.6倍！

不可思議的進步，多虧了PBA的加持呀。

同時三個模型在LPIPS以及SSIM上的結果表現也均有所改善。

下面三個視訊分別為 Open-Sora、Open-Sora-Plan 和 Latte 三個模型使用原始方法與PBA的效果對比。

PBA在不同的 GPU 數量下都實作了明顯的FPS 加速.

計畫連結： https://oahzxl.github.io/PAB/

總結

金字塔註意力廣播技術為即時視訊生成帶來了新的突破， 無需訓練 即可大幅提升生成速度，為未來 基於DiT 的視訊生成模型賦予了更強的即時能力。

技術的突破固然重要，但未來模型的成功釋出將會更加激動人心🥳🥳

小編也狠狠de期待住了🤩🤩

相信這項技術將為生成式AI套用開啟新的大門。

大家有任何想法與問題，歡迎在評論區留言哦！

掃碼加入AI交流群

獲得更多技術支持和交流

關註「向量光年」公眾號

加速全行業向AI的改變

關註「開源AI計畫落地」公眾號

與AI時代更靠近一點

關註「 AGI光年」公眾號

獲取每日最新咨詢