OpenAI Sora來了，視訊生成領域的GPT-4時代來了

2024-02-25資訊

AI圈炸了！OpenAI剛剛釋出了一個新模型Sora，宣布視訊生成領域的GPT-4 時刻到來！

這是OpenAI首款文本到視訊的模型，但出道即王炸，Sora能夠根據使用者的一句話生成長達一分鐘的視訊，且視訊流暢度和穩定性皆在水準之上。

Sora 的問世將視訊制作的藝術推向了新的巔峰，其AI制作的視訊展現出了復雜的攝影藝術、多元角色設定、逼真的情緒捕捉以及對物理規律的精確模擬。

據悉，這是在 OpenAI 之前的成就——影像創作神器 DALL-E 以及文本生成巨擘 GPT-3 和 GPT-4的基礎上，進一步的創新與突破。

Sora 不僅能夠在視訊主體暫時離開鏡頭時保持故事線的流暢，還能確保視訊內容的真實性和邏輯性，不讓任何細節顯得突兀或不自然。得益於其采用的Transformer架構，Sora 在處理視訊生成的可延伸性上也遠超以往任何模型。

以下是兩個範例：

Prompt: 「A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually. the street is damp and reflective, creating a mirror effect of the colorful lights. many pedestrians walk about.」

提示：一位時尚女性走在充滿溫暖霓虹燈和動畫城市標牌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子，拎著黑色錢包。她戴著太陽鏡，塗著紅色口紅。她走路自信又隨意。街道潮濕且反光，在彩色燈光的照射下形成鏡面效果。許多行人走來走去。

Prompt: 「Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is 3d and realistic, with a focus on lighting and texture. the mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. the use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.」

提示：「動畫場景特寫一只矮小的毛茸茸怪物跪在一支融化的紅色蠟燭旁。藝術風格是 3D 和逼真的，重點在於光線和紋理。畫面的情緒充滿了驚奇和好奇，怪物睜大眼睛，張開嘴巴凝視著火焰。它的姿態和表情傳達了一種天真和頑皮感，仿佛是它第一次探索周圍的世界。溫暖的色彩和戲劇性的光線進一步增強了影像的舒適氛圍。」

01 Sora的設計原理

Sora 的工作原理可簡單概括如下：

擴散模型： Sora 的起點是一個類似於靜態雜訊的視訊畫面，它逐步移除雜訊，生成清晰的視訊。想象一下，就像是從一張模糊的照片開始，逐漸使其變得銳利和清晰。

視訊生成： Sora 能夠一次性創造完整的視訊或者延長現有視訊的長度。它能夠跟蹤視訊中跨越多幀的事件，即使某物短暫地消失在視野之外，Sora 依舊能夠「記住」它的存在。

換句話說，Sora 的基礎是擴散模型，從「隨機雜訊」開始，透過上百個細致的處理階段，逐步演化成為一個連貫且生動的視訊場景。這不僅使得 Sora 生成的內容在視覺上更加逼真，動態表現也更為流暢，相較於早期的生成式 AI 模型，有了顯著的進步。

Sora 建立在 OpenAI 的影像創造工具 DALL-E 的基礎之上，借鑒了 DALL-E 的文本解讀技巧，使其能夠將文字提示精確轉換為視訊畫面。Sora 還能夠為現有圖片賦予動態效果或延伸視訊內容的長度。

該模型透過將視訊拆解為眾多小塊，這些數據單元與自然語言模型中的詞匯相似，采用這種統一的數據表現形式，使得 Sora 能在多樣化的視訊數據上進行訓練，涵蓋不同的時長、分辨率和寬高比。Sora 采用Transformer架構，針對長序列視訊的處理有非常好的擴充套件能力，得益於Transformer並列處理數據的特性，因此長視訊內容具有良好的一致性。

02 如何使用？

在將 Sora 整合到OpenAI 的產品系列之前，目前已向一批研究者和專業人士開放了 Sora API 的存取許可權。藝術家、電影制片人和設計師等創意人也可申請此許可權，從而為OpenAI 提供反饋。

雖然 Sora 的公開釋出時間尚未確定，但 OpenAI 已經明確表示，Sora 預示著 AI 技術邁向下一個發展階段的步伐比眾多人預期的要快。2024 年有可能成為 AI 從引人註目的演示轉變為革命性產品的關鍵年份。

03 如何應對風險？

Sora 開辟了一條創新之路，展現了一種破天荒的 AI 技術，這技術有潛力極大地擴充套件人類在視覺故事講述方面的創造力。無論是獨立電影制作人還是動畫師，都可以透過 Sora 低成本地創作復雜的場景和人物，為他們的作品提供一個彈板。廣告制作人同樣能利用這一技術快速原型化動態視訊概念，更有效地向客戶展示他們的創意。

然而，和所有生成式 AI 技術一樣，如果沒有嚴格的監管，Sora 的使用可能會走向歧途。它可能被用於制作帶有誤導性的視訊內容，比如用於宣傳或詐騙，這是不能忽視的風險。但 OpenAI 明確表示，他們正在對 Sora 實施細致周到的安全措施。

為了確保 Sora 的正當使用，OpenAI 正與虛假資訊、仇恨言論和媒體領域的專家緊密合作，共同開發監管策略。這其中包括建立 AI 分類器，專門辨識 Sora 生成的視訊，並確保遵循 OpenAI 的內容政策。此外，還會邀請外部研究者在 Sora 正式釋出前對其安全措施進行逆向測試。

面對如何負責任地推出這樣一款強大的視訊生成工具的挑戰，研究團隊充滿信心。他們相信，透過與所有相關方的共同合作和開放透明的溝通，可以使像 Sora 這樣的 AI 技術不僅推動人類創造力的發展，同時也能有效地控制相關風險。

小明工作助手 上線了，功能包括資源列表、圖片處理、短視訊去浮水印、線上娛樂等功能，歡迎免費體驗！