當前位置: 妍妍網 > 碼農

OpenAI 震撼釋出 Sora,可快速生成長視訊

2024-02-17碼農

看到 OpenAI 釋出了 Sora,到處都在飛傳,我去了解了下,好家夥,直接炸開,驚艷的無話可說!!!Sora 是一種 文字生成視訊 的技術,從演示看,效果還是相當不錯的,和真實世界拍出來的基本無區別。

當然,你可能會說,這算啥,AI 視訊又不是什麽新東西,但這次真的不一樣,它的能力超過我們的想象,就連劉潤、周鴻偉等大佬都紛紛坐不坐了,均來為這次的釋出發聲。

我們可以用三個詞來總結 Sora,那就是「 60s超長長度 」,「 單視訊多角度鏡頭 」,和「 世界模型 」。

Sora 可以生成 長達一分鐘 的視訊,同時保持視覺品質並遵守使用者的提示。

ps:
目前文生成視訊技術,能做到一分鐘的很少很少,基本沒有。所以 Sora 還是很強的。

如今,僅有官方邀請的人員才可使用。官方還授予了一些視覺藝術家、設計師和電影制作人存取許可權,目的是獲取他們的反饋,了解如何改進模型,以便對創意專業人士更有益。

官方正盡早分享研究進展,目的是開始與非OpenAI成員合作並獲取他們的反饋,同時讓公眾了解即將推出的AI功能。

讓我們先來看下效果

提示詞:一位時尚的女人走在東京的街道上,街道上到處都是溫暖的發光霓虹燈和動畫城市標誌。她身穿黑色皮夾克,紅色長裙,黑色靴子,背著一個黑色錢包。她戴著墨鏡,塗著紅色口紅。她自信而隨意地走路。街道潮濕而反光,營造出五顏六色的燈光的鏡面效果。許多行人四處走動。

Sora 是一款能夠 生成復雜場景的先進模型 ,它不僅能創造出 多個角色 特定型別 的動作,還能精確描繪主題和背景的細節。這個模型深刻理解使用者的需求,並且知道這些元素在真實世界中是如何存在的。

透過對語言的深入理解,Sora 能夠精確解讀使用者的指令,並創造出充滿生動情感的引人入勝的角色。它甚至能在同一個視訊中 切換不同的鏡頭 ,以確保角色和視覺風格的一致性。

不過,Sora 也有它的局限性。它在模擬復雜場景的物理特性時可能會遇到困難,有時也難以理解具體的因果關系。比如,一個角色吃餅乾的動作可能不會在餅乾上留下咬痕。此外,它在處理空間細節(如區分左右)和描述隨時間變化的事件(比如特定的相機移動軌跡)時也可能遇到挑戰。

在將 Sora 引入 OpenAI 產品線之前,官方將采取多項安全措施。正與專門處理錯誤資訊、仇恨內容和偏見等問題的紅隊專家合作,進行對抗性測試。

官方也在開發工具來辨識誤導性內容,例如構建分類器以判斷視訊是否由 Sora 生成,並計劃在未來的產品中加入 C2PA 後設資料,以增強內容的透明度。

為了 確保技術安全可靠 ,借鑒了在開發 DALL·E 3 時的經驗,同樣的方法也將套用於 Sora。例如,一旦產品面市,將使用文本分類器來過濾掉違反使用政策的請求,比如那些包含極端暴力、色情內容、仇恨影像、名人肖像或侵犯他人智慧財產權的內容。官方還開發了強大的影像分類器,對生成視訊的每一幀進行審查,確保展示給使用者的內容符合標準。

openai 還計劃與全球的政策制定者、教育工作者和藝術家合作,了解他們的關切,並探索這項技術的積極套用場景。雖然已經進行了廣泛的研究和測試,但認識到,無法完全預測人們會如何利用或濫用這項技術。這就是為什麽 openai 認為,從實際使用中不斷學習和改進,是確保人工智慧系統越來越安全的關鍵。

Sora 底層技術:

給官方的文件做了下簡單轉譯

Sora 是一種先進的視訊生成技術,它開始時使用的視訊看起來就像是靜態的雜訊。然後,它透過多個步驟逐步去除這些雜訊,最終將視訊轉變得清晰起來。

這項技術能夠一次性生成完整的視訊,或者將已生成的視訊延長,使其更加豐富多彩。Sora 透過同時處理許多視訊幀,巧妙解決了保持視訊中主題連續性的挑戰,即使這個主題暫時從畫面中消失也能夠保持一致。

就像 GPT 技術一樣, Sora 采用了一種叫做transformer的架構 ,這使得它的處理能力大大增強。

我們把視訊和圖片分解成了很多小塊,叫做「修補程式」,每一個「修補程式」就像是 GPT 中的一個「字」。透過這種方式統一數據表示,我們能在更廣泛的視覺數據上進行訓練,覆蓋不同的時長、分辨率和比例。

Sora 是基於 DALL·E 和 GPT 模型發展而來的。特別是,它用到了 DALL·E 3 的技術,這項技術能為視覺內容生成非常詳細的描述。因此, Sora 能夠更準確地根據使用者的文本描述生成視訊

不僅如此,Sora 還能夠接收靜態圖片,並根據這些圖片生成視訊,精確地將圖片內容動態化,同時註重細節。它甚至能夠對現有的視訊進行擴充套件,或者填補缺失的幀。想要了解更多資訊,請檢視我們的技術報告。

Sora 是我們向理解和模擬現實世界邁出的一大步。我們相信,這種能力將成為 實作人工通用智慧(AGI)的一個關鍵裏程碑 。🚀

體驗地址:

https://openai.com/sora(後續會開放)

往期推薦