當前位置: 妍妍網 > 碼農

7.4K Star文生視訊Sora開源了?

2024-03-19碼農

微信公眾號:[開源日記],分享10k+Star的優質開源計畫

Sora

前段時間OpenAI釋出了文生視訊工具Sora火爆全球。Sora是一個能以文本描述生成視訊的人工智慧模型,由美國人工智慧研究機構OpenAI開發。Sora這一名稱源於日文「空」,即天空之意,以示其無限的創造潛力。其背後的技術是在OpenAI的文本到影像生成模型DALL-E基礎上開發而成的。

img
img

由於Sora是閉源的,所以GitHub上出現了一個Sora的開源實作。學習研究還是很不錯的。

Open-Sora介紹

Open-Sora計畫是一個致力於提供高品質視訊生成技術並使其普及的開源計劃。透過開源原則,Open-Sora不僅使先進視訊生成技術成本更低,而且提供了一個簡化視訊制作流程的方案,讓更多人都能輕松使用。本計畫讓更多開發者有機會探索內容創作領域的創新、創造和協作機會。

文生視訊效果展示

  • 向日葵田充滿活力的美麗。向日葵排列整齊,營造出秩序感和對稱感。

  • 寧靜的水下場景,海龜在珊瑚礁中遊動。烏龜,有著綠棕色的殼

  • 森林地區寧靜的夜景。[...] 該視訊是一段延時視訊,捕捉從白天到黑夜的過渡,以湖泊和森林作為恒定的背景。

  • 功能描述

  • Open-Sora-v1已經釋出,提供了模型權重。只需使用400K視訊片段在單卡H800上訓練200天(類似Stable Video Diffusion的152M樣本),就能夠生成2秒長的512×512視訊。

  • 計畫實作了從影像擴散模型到視訊擴散模型的三階段訓練,提供了每個階段的權重。

  • 支持訓練加速,包括Transformer加速、更快的T5和VAE,以及序列並列,使得對64x512x512視訊的訓練速度提高了55%。

  • 提供了視訊切割和字幕工具用於數據預處理,同時還有詳細的數據集收集計劃。

  • 采用來自Stability-AI的高品質VAE,發現使用添延長間維度的采樣會導致生成品質降低。

  • 研究了不同架構,如DiT、Latte和STDiT,最終提出的STDiT在品質和速度之間取得更好的平衡。

  • 支持剪輯和T5文本調節,從而提高使用者的客製靈活性。

  • 計畫還支持在影像和視訊上訓練DiT,利用DiT、Latte和Pixart的官方權重進行推理。

  • 功能特點

  • 1. 模型權重提供 :Open-Sora提供模型權重,讓使用者能夠輕松生成高品質視訊。

  • 2. 訓練加速 :采用多種加速技術,提高訓練速度,增強效率。

  • 3. 數據預處理工具 :提供視訊切割和字幕工具,方便使用者進行數據準備。

  • 4. 架構研究 :透過研究不同架構,找到在品質和速度之間的最佳平衡點。

  • 5. 客製化支持 :支持剪輯和文本調節,增加使用者個人化客製的能力。

  • 使用場景

    Open-Sora適用於那些希望使用先進視訊生成技術來建立高品質視訊內容的開發者和內容創作者。無論是想要從頭開始建立視訊,還是對現有視訊進行增強、調整,Open-Sora都提供了一套功能強大而簡單易用的工具,方便使用者實作他們的視訊創意。透過Open-Sora,使用者可以探索不同的視訊生成技術,從而提高視訊創作的效率和品質,讓內容創作變得更加有趣。

    開源地址:https://github.com/hpcaitech/Open-Sora

    微信公眾號:[開源日記],分享10k+Star的優質開源計畫

    創作不易 分享 , , 在看 ,三連支持一波,感謝。↓↓↓