全球第一個透過視訊擴散模型生成4D內容的開源框架

2024-06-29碼農

引言

AI經過長時間的發展，已經能夠生成從一維到四維的內容了。

從一維的生成文字，到二維生成圖片和視訊再到生成三維模型，再到在三維模型的基礎之上加上動作生成四維模型。

而從一維到三維的生成人工智慧方面已經有了較為不錯的研究成果，一維的ChatGPT、二維的Sora、三維的Google的CAT3等，唯獨四維還沒有較好的模型出現。

直到最近由多倫多大學，北京交通大學，德克薩斯大學奧斯丁分校和劍橋大學團隊最新提出的4D生成擴散模型 Diffusion出現 。

詳細介紹

那有人可能就問了，不就是個4D合成嗎，又不是第一個，有什麽牛的？

那你可就不知道了吧！

在 Diffusion4D模型 釋出之前，早期的4D合成工作借鑒了預訓練的影像或視訊擴散模型中的外觀和運動經驗，並利用 得分蒸餾采樣（SDS） 進行最佳化。

這種策略由於需要大量的監督反向傳播，使得計算效率低下，耗時長，限制了其廣泛的套用性。

並且在生成4D模型時會產生最佳化速度慢和多檢視不一致問題。簡而言之就是形成4D模型的速度慢且生成的模型不一定好。

而我們今天要介紹的這個Diffision4D模型，是第一個利用 大規模數據集 ， 訓練視訊生成模型生成4D內容 的框架。這可真謂是大姑娘上轎——頭一回！

透過該種訓練模式， Diffusion4D 在 生成效率 和各種提示模式的4D 幾何一致性 方面超越了現有技術。

不管是文字內容，圖片內容還是視訊內容，它都能很好地將其轉化成4D形式。

文字轉4D

影像轉4D

視訊轉4D

套用前景

看到這有人可能會接著疑惑了，它再厲害和我們有什麽關系呢。

害。這你可能就又有所不知了，它跟我們日常生活的關系可大著呢！

讓我們想象一下，在我們參觀博物館時，出現在我們眼前的不只是放在展台裏的展品，還有漂浮在空中的全方位的展品，並能感受到展品隨著時間的變遷產生的變化。

當醫學生在上課時，白板上出現的不再只是一張張圖片，而是一個個4D的正在蠕動著的器官，這樣的課堂豈不是很生動自然，學生們學習的熱情也會更加高漲。

諸如此類的套用還有很多等著我們去開發，為我們的生活帶來更多的便捷。

計畫連結：

https://vita-group.github.io/Diffusion4D/

掃碼加入AI交流群

獲得更多技術支持和交流

關註「向量光年」公眾號

加速全行業向AI的改變

關註「開源AI計畫落地」公眾號

與AI時代更靠近一點

關註「 AGI光年」公眾號

獲取每日最新資訊