當前位置：妍妍網 > 碼農

騰訊版Sora開源後，被提速8倍！官方點贊並預告：下月上新圖生視訊

2024-12-20碼農

作者：奇月
轉自：量子位 | 公眾號 QbitAI

提速8倍！

速度更快、效果更好的混元視訊模型—— FastHunyuan 來了！

新模型僅用 1分鐘就能生成 5秒長的視訊，比之前提速 8倍，步驟也從50步減少到了 6步，甚至畫面細節也更逼真了。

和普通速度的混元對比一下，原來50步才能生成1條視訊，而現在新模型在相同的時間裏可以生成 8條：

再來看看和Sora的畫面對比，可以看到Fast-Hunyuan和Sora兩者的效果都更逼真一些，衣服、水果和山峰的細節也非常清晰。

甚至在一些物理細節的理解上，Fast-Hunyuan比Sora還強，比如下面拿取檸檬的視訊：

更重要的是，Fast-Hunyuan的程式碼也開源了，這下不用為Sora的訂閱費和限額發愁了。

研究團隊來自加州大學聖地亞哥分校（UCSD）的 Hao AI 實驗室，他們主要專註機器學習演算法和分布式系統的研究。

混元官方帳號還特意發博感謝了他們：

有網友看完後直呼，混元才是最好的開源視訊模型。

開創性的視訊DiT蒸餾配方

團隊是如何做到8倍提速的情況下還能提升視訊解析度呢？

下面就一起來看一下Fast-Hunyuan的技術原理——

首先，他們開發了全新的視訊DiT蒸餾配方。

具體來說，他們的蒸餾配方基於階段一致性（Phased Consistency Model, PCM）模型。

在嘗試使用多階段蒸餾後發現效果沒有顯著改進，最終他們選擇保持單階段設定，與原始PCM模型的配置相似。

其次，團隊使用了OpenSoraPlan中的 MixKit數據集進行了蒸餾。

為了避免在訓練過程中執行文本編碼器和VAE，團隊還預處理了所有數據，用來生成文本嵌入和VAE潛在變量。

在推理階段，使用者可以透過FSDP、序列並列和選擇性啟用檢查點進行可延伸訓練，模型可以近乎線性擴充套件到64個GPU。測試程式碼在Python 3.10.0、CUDA 12.1和H100上執行。

官方推薦使用80GB記憶體的GPU，不同模型有相應的下載權重和推理命令。

最低硬體要求如下：

40 GB GPU 記憶體，每個 GPU 配備 lora

30 GB GPU 記憶體，每 2 個 GPU 配備 CPU 解除安裝和 LoRa。

在模型微調方面，Fast-Hunyuan提供了全微調（需準備符合格式的數據，提供了一些可下載的預處理數據及對應命令）和 LoRA 微調（即將上線）兩種方式。

此外，他們還結合了預計算潛變量和預計算文本嵌入，使用者可以根據自己的硬體條件選擇不同的微調方式來執行命令，也支持影像和視訊的混合微調。

模型已於2024年12月17日釋出了v0.1版本。

未來的開發計劃還包括添加更多蒸餾方法（如分布匹配蒸餾）、支持更多模型（如CogvideoX模型）以及程式碼更新（如fp8支持、更快的載入和保存模型支持）等等。

One More Thing

除了加速模型，混元還預告了大家都非常期待的影像到視訊生成功能。

最快 1月份，也就是下個月就可以看到！期待住了。

GitHub：https://github.com/hao-ai-lab/FastVideo
HuggingFace：https://huggingface.co/FastVideo/FastHunyuan

參考連結：
[1]https://x.com/TXhunyuan/status/1869282002786292097

— 完 —

Copyright © 2025 ai.jasve.com NO.1 妍妍網

文章部分內容源自網絡，僅供AI學習使用，如有侵權請告知，我們將在48小時內刪除：xingwa#jasve.com（傳送郵件請將#換成@）