影視圈大地震！Sora 首批試用者公布 AI 電影使用體驗，動動手就能成為卡麥隆？

2024-03-26資訊

作者 | 王啟隆

出品 | CSDN（ID：CSDNnews）

今年 2 月中旬，OpenAI 首次向公眾展示 Sora，從此吊了全世界一個月的胃口，每當問起「Sora 什麽時候釋出？」，下到員工，上到 Sam Altman 都會這麽回答：「現在還不行。」

雖然表面上 OpenAI 搞得神神秘秘，但在上周就有知情人士透露，OpenAI 計劃與美國洛杉磯與好萊塢的影視公司和媒體高管會面。而 OpenAI 執行長 Sam Altman 在奧斯卡電影節周末出席洛杉磯的多場派對印證了這一說法，難道 Sora 真的成功到能讓好萊塢青睞了？

就在今天早上，OpenAI 給出了答案：一批精選的藝術家、設計師和電影制作人已經使用 Sora 兩個月啦！OpenAI 還難得更新了官方部落格，取名為：初印象。

下面就來看看，好萊塢的大神們能用 AI 創作出多麽大開腦洞的電影。

能講故事的 AI 電影

總部位於多倫多的多媒體制作公司 Shy Kids 用 Sora 制作了短片【氣球人】（ Air Head），這也是當前最受關註的一則短片，導演只有三人： Walter Woodman, Sidney Leeder 和 Patrick Cederberg。

導演 Walter Woodman 如此評價 Sora：「盡管 Sora 擅長創造擬真的事物，但令我們興奮的是它能夠創造出完全超現實的事物。」

影片開頭，是氣球人的自言自語：「每個人都有與眾不同的地方，但對我來說，這種特殊性顯而易見……」

然後鏡頭一轉到他的頭部，一顆氣球說道：「我其實充滿了熱空氣。」

Woodman 評價的「超現實」這個詞恰如其分地描述了這部影片，畢竟主角腦袋是一個黃色的氣球。

緊接著，氣球人繼續描述了他這種與異常狀態共存的喜悅與困擾。刮風的日子會讓他的頭從肩膀上飛走，當他走過一家植物店的仙人掌區時，情況則更加棘手。但他也深深地意識到「我們所有人都只差一根針紮就能泄氣」，而對此他表示感激。簡而言之，就是教導大家克服生活中的不如意。

OpenAI 在其部落格文章中表示，來自 Shy Kids 和其他早期測試者的視訊將有助於他們盡早釋出 Sora。OpenAI 並未透露他們到底請了多少藝術界大佬來測試 Sora，也沒有透露影片制作所依據的具體參數。

再來看看作家兼導演 Paul Trillo 的影片，他的作品曾贏得了【滾石】和【紐約客】等媒體的贊譽。他說：「與 Sora 合作是我第一次感受到作為一名電影制片人不受束縛，不受時間、金錢、他人授權的限制，我可以以大膽而令人興奮的方式進行構思和實驗。」

乍一看前幾秒，還以為是第一人稱賽車，但往後看會發現這是一個極具想象力的影片，展現了一個金屬人的冒險。

下面這一則影片非常有」鏡頭感「，它來自 Nativeforeign 的創意總監 Nik Kleverov，他所屬的公司是一家來自加利福尼亞州洛杉磯的艾美獎提名創意機構，專門從事品牌故事講述、動作和標題設計以及生成人工智慧工作流程。可以說，這家公司就是針對 AI 時代建立的。

超現實的夢幻場景

倫敦 Oraar Studio 的創意總監 Josephine Miller 也參與了測試，她的工作室擅長 3D 視覺、增強現實和數位時尚，她的短片最為夢幻，展現了一個夢幻般的水下世界，人類身著覆蓋著虹彩魚鱗般光澤的服裝，在其中悠然旋轉，整個世界介於現實與無拘無束的想象之間。

Miller 對 Sora 的評價是：「這種高品質快速概念化的能力不僅挑戰了我的創作過程，還幫助我在講故事方面不斷前進演化。」

OpenAI 還請到了夢工廠的 Don Allen Stevenson III 創作了一個「動物片」，據他本人所稱，「很長一段時間以來，我一直在制作增強現實混合生物，我認為它們在我的腦海中會是有趣的組合。現在，在完全構建 3D 角色並將其放入空間電腦之前，我可以更輕松地對想法進行原型設計。」

在未來，AIGC 開始涉及遊戲創作的時候，這一技術肯定能創造出各種奇異的歸怪物。

導演用 Sora 都十分得心應手，那如果換其他行業的人來呢？測試者中也包括 August Kamp 這樣的研究員兼音樂人，她的思路就是創作一個科幻片。

七部短片中還包括 L.A.-based 創意機構 Native Foreign 的聯合創始人兼創意總監 Nik Kleverov 的作品。他的作品呈現了一部跨越數十年、情緒和視覺風格的引人入勝的合輯。

在這部影片中，一名仿佛出自黑白電影中的男子走在雨後鵝卵石鋪成的城市街道上，另一名男子則在渲染成懷舊棕褐色調的老式鐘表修理店裏俯身研究鐘表。

Kleverov 的評價是，他已經看到了 Sora 將如何改變他在代理機構工作和個人計畫上的方式。「它讓我能夠叠代和探索那些因預算和資源限制而被擱置或暫停的原創概念。」

OpenAI 稱：「雖然我們在 Sora 上還有很多改進要做，但我們已經開始看到該模型如何幫助創作者將想法變為現實。」

隱藏在影片後的技術實作

如今，Sora 面臨著無數的「復現者」和「解讀者」，大家都想搞出自己的視訊生成工具。雖然 OpenAI 對此一言不發，但仍有人試圖從蛛絲馬跡之中揭秘 Sora 的真相。近期，前 OpenAI 研究科學家 Matthias Plappert 就在 Factorial Funds 發表了自己的猜測。

Plappert 先是閱讀了 Sora 的那篇完全不透露細節的技術報告，然後推測 Sora 深受 Scalable Diffusion Models with Transformers 這篇論文的影響，其中作者提出了一種基於 Transformer 的架構，稱為 DiT（Diffusion Transformers 的縮寫），用於影像生成。

他是怎麽推測出來的？因為 DiT 的作者是 William Peebles，這個人正是 Sora 的核心作者之一。

接下來就可以根據這點推出 Sora 模型的工作原理，其中有三個重要部份：

1. Sora 不在像素空間中執行，而是在潛在空間中執行擴散（即潛在擴散，後文會解釋）

2. Sora 還是沒繞開 Transformer 架構

3. Sora 使用著非常大的數據集

這張圖從左到右表示了「像素」——「潛在」的對映。所謂「潛在擴散」，是一種高效生成高品質影像的技術手段。在生成影像時，傳統的擴散模型可能會直接對每個像素進行操作，但這樣做會在面對高分辨率影像（如 512x512 像素）時計算效率極低。

為解決這一問題，「High-Resolution Image Synthesis with Latent Diffusion Models」研究論文提出了一個關鍵突破：首先將像素對映到壓縮後的潛在空間表示中，在這個更為緊湊的潛在空間執行擴散過程，最後再從潛在空間解碼回像素空間。例如，原本需要處理 262,144 個像素，現在只需生成 4,096 個潛在變量（如 64x64 大小），極大地提升了計算效率。

DiT 和 Sora這樣的模型，它們都采用了這一方法。而 Sora 針對視訊數據還考慮了時間維度，因此其編碼步驟不僅在空間上壓縮每一幀的寬度和高度，還在時間維度上進行壓縮，以適應視訊序列的特點。

其次，DiT 和 Sora 摒棄了常用的 U-Net 架構，轉而采用 Transformer 架構。研究表明，使用 Transformer 能帶來可預測的規模擴充套件性：隨著訓練計算量的增加（透過延長訓練時間、增大模型規模或兩者兼施），模型效能會得到相應提升。Sora 報告中的數據顯示，視訊生成任務同樣存在這種規律，並給出了生動的說明。

為了訓練諸如 Sora 這樣的模型，還需要大量的標註數據作為關鍵要素。OpenAI 並未詳細透露所使用的數據集資訊，但暗示其規模非常龐大，借鑒了大規模語言模型透過互聯網級別數據訓練獲得通用能力的經驗。

緊接著， Plappert 聊了聊 Sora 能帶來的影響，表示 Sora 毋庸置疑能改變這些行業：

鑒於 Sora 模型的具體資訊有限， Plappert 還是基於 DiT 模型進行估算。

DiT-XL 模型擁有 6.75 億參數，訓練用了約 10^21 FLOPS。考慮到 Sora 為視訊模型，可生成 1 分鐘視訊，若按照 24fps 計算，有 1440 幀，假設像素至潛在空間的壓縮率與 DiT 相同為 8 倍，則潛在空間處理 180 幀。結合 Sora 可能有 20B 參數，比 DiT 模型大 30 倍，所以對訓練計算量進行放大。

實際上，OpenAI 可能用了更多的參數……

對於數據集大小，假設 Sora 的數據集比 DiT 大 4 到 10 倍，據此進行低估和高估訓練計算量，得到低估計為 1.1×10^25 FLOPS，高估計為 2.7×10^25 FLOPS，對應 Nvidia H100 數量分別為 4,211 至 10,528 台/月。

在推理階段，Sora 每生成一分鐘視訊所需約為 2.8×10^15 FLOPS，按 250 個擴散步驟計算，單個 H100 每小時生成約 5 分鐘視訊。估算在生成一定數量視訊後，推理計算將超過訓練計算。對比 TikTok 和 YouTube 每日上傳視訊數量及假設的人工智慧滲透率，估計在峰值需求下，支持這兩個平台創作社群所需的 Nvidia H100 總量約 72 萬個，但這未考慮 GPU 利用率、記憶體瓶頸、非均勻需求以及創作者可能產生的多個候選視訊等因素。

總的來說，盡管推理計算通常小於訓練計算，但隨著生成式 AI 模型（如 Sora）的廣泛套用，推理階段的計算需求將占據主導地位，並隨模型規模擴大而顯著增長。同時，最佳化推理技術和跨堆疊最佳化能夠減輕計算壓力。

4 月 25 ~ 26 日，由 CSDN 和高端 IT 咨詢和教育平台 Boolan 聯合主辦的「 全球機器學習技術大會 」將在上海環球港凱悅酒店舉行，特邀近 50 位技術領袖和行業套用專家，與 1000+ 來自電商、金融、汽車、智慧制造、通訊、工業互聯網、醫療、教育等眾多行業的精英參會聽眾，共同探討人工智慧領域的前沿發展和行業最佳實踐。 歡迎所有開發者朋友存取官網 http://ml-summit.org、點選「閱讀原文」或掃碼進一步了解詳情。