當前位置: 妍妍網 > 碼農

全球第一個透過視訊擴散模型生成4D內容的開源框架

2024-06-29碼農

引言

AI經過長時間的發展,已經能夠生成從一維到四維的內容了。


從一維的生成文字,到二維生成圖片和視訊再到生成三維模型,再到在三維模型的基礎之上加上動作生成四維模型。

而從一維到三維的生成人工智慧方面已經有了較為不錯的研究成果,一維的ChatGPT、二維的Sora、三維的Google的CAT3等,唯獨四維還沒有較好的模型出現。

直到最近 由多倫多大學,北京交通大學,德克薩斯大學奧斯丁分校和劍橋大學團隊最新提出的4D生成擴散模型 Diffusion出現

詳細介紹

那有人可能就問了,不就是個4D合成嗎,又不是第一個,有什麽牛的?

那你可就不知道了吧!

Diffusion4D模型 釋出之前,早期的4D合成工作借鑒了預訓練的影像或視訊擴散模型中的外觀和運動經驗,並利用 得分蒸餾采樣(SDS) 進行最佳化。

這種策略由於需要大量的監督反向傳播,使得計算效率低下,耗時長,限制了其廣泛的套用性。

並且在生成4D模型時會產生最佳化速度慢和多檢視不一致問題。簡而言之就是形成4D模型的速度慢且生成的模型不一定好。

而我們今天要介紹的這個Diffision4D模型,是第一個利用 大規模數據集 訓練視訊生成模型生成4D內容 的框架。這可真謂是大姑娘上轎——頭一回!

透過該種訓練模式, Diffusion4D 生成效率 和各種提示模式的4D 幾何一致性 方面超越了現有技術。

不管是文字內容,圖片內容還是視訊內容,它都能很好地將其轉化成4D形式。

文字轉4D

影像轉4D

視訊轉4D

套用前景

看到這有人可能會接著疑惑了,它再厲害和我們有什麽關系呢。

害。這你可能就又有所不知了,它跟我們日常生活的關系可大著呢!

讓我們想象一下,在我們參觀博物館時,出現在我們眼前的不只是放在展台裏的展品,還有漂浮在空中的全方位的展品,並能感受到展品隨著時間的變遷產生的變化。

當醫學生在上課時,白板上出現的不再只是一張張圖片,而是一個個4D的正在蠕動著的器官,這樣的課堂豈不是很生動自然,學生們學習的熱情也會更加高漲。

諸如此類的套用還有很多等著我們去開發,為我們的生活帶來更多的便捷。

計畫連結:

https://vita-group.github.io/Diffusion4D/

掃碼加入AI交流群

獲得更多技術支持和交流

關註「 向量光年 」公眾號

加速全行業向AI的改變

關註「 開源AI計畫落地 」公眾號

與AI時代更靠近一點

關註「 AGI光年 」公眾號

獲取每日最新資訊