OpenAI今天刷屏的Sora視訊模型，對未來影響幾何？

2024-02-23碼農

今天淩晨，OpenAI 釋出了新的文生視訊大模型，名為「 Sora 」。

從OpenAI在官網展示的Sora生成視訊的效果來看，在生成視訊品質、分辨率、文本語意還原、視訊動作一致性、可控性、細節、色彩等方面非常好！

特別是可以生成最長1分鐘的視訊！生成的畫面可以很好的展現場景中的光影關系、各個物體間的物理遮擋、碰撞關系，並且鏡頭絲滑可變。超過Gen-2、SVD-XT、Pika等主流產品，一出手就是王炸。

Sora簡單介紹

目前，文生視訊領域因為幀間依賴處理、訓練數據、算力資源、過擬合等原因，一直無法生成高品質的長視訊。

而Sora最大技術突破是，可以在保持品質的前提下，生成1分鐘的視訊，在業內非常罕見。這也再次展示了OpenAI在大模型領域超強的技術研發能力。

Sora是一種擴散模型，主要透過靜態噪音的視訊開始生成視訊，然後再透過多個步驟去除噪音，逐漸轉換視訊。

Sora與ChatGPT一樣采用的是Transformer架構，並使用了DALL-E 3中的重述技術，是一種為視覺訓練數據生成高精準描述性的字幕。所以，Sora在生成視訊過程中精準還原使用者的文本提示語意。

功能方面，除了文本生成視訊之外，Sora還能根據影像生成視訊，並能準確地對影像內容進行動畫處理。也能提取視訊中的元素，對其進行擴充套件或填充缺失的幀，功能非常全面。

我們再來看看OpenAI 的官方演示視訊，由於生成內容的安全問題 Sora 還未開放測試，我們無法獲取更多差異化資訊。

有人提出想要「一段海上自由車比賽的視訊，讓各種動物作為運動員騎自由車，采用無人機拍攝視角」。阿特曼在回復中釋出了一段由Sora生成的視訊，視訊中有企鵝、海豚和其他水生生物騎自由車。

另一段視訊顯示，一位身穿圍裙、面帶微笑的白發女士邀請觀眾進入她的廚房。有人向阿特曼要一段「由一名祖母輩的網紅主持的自制團子烹飪課程，背景是一個質樸的托斯卡納鄉村廚房，並配有電影級的燈光」，之後Sora生成了這段AI視訊。

OpenAI釋出了多個Sora生成的視訊，大家可以感受一下。或許已經很難再分清，AI和現實的界限了。

「雪後的東京熙熙攘攘。鏡頭穿過繁忙的街道，跟隨著幾位享受著美麗雪景和在附近攤位購物的人們。美麗的櫻花瓣伴隨著雪花在風中飄舞」。

一位時髦女士漫步在東京街頭，周圍是溫暖閃爍的霓虹燈和動感的城市標誌。

「讓Sora生成一張中國龍年舞龍的視訊」。

「一個小的、圓的、毛茸茸的、有一雙大而富有表現力的眼睛的生物探索了一個充滿活力的魔法森林的3D動畫」。

「穿過東京郊區的火車窗外的倒影」。

「賽博龐克背景下機器人的生活故事」。

「幾只巨大的毛茸茸的猛獁象正踏著白雪皚皚的草地走來，它們長長的毛茸茸的皮毛在風中輕輕飄動，遠處覆蓋著積雪的樹木和雄偉的雪山，午後的陽光下有縷縷雲彩，太陽高掛在天空中。」距離產生了溫暖的光芒，低網路攝影機視角令人驚嘆地捕捉到了大型毛茸茸的哺乳動物，具有美麗的攝影和景深。

「一窩金毛幼犬在雪地裏玩耍。他們的頭從雪中探出來，被雪覆蓋著」。

「動畫場景特寫了一個毛茸茸的矮個子怪物跪在融化的紅燭旁。美術風格是3D和現實的，重點是照明和紋理。這幅畫的氣氛是一種驚奇和好奇，因為怪物睜大眼睛，張開嘴巴凝視著火焰。它的姿勢和表情傳達了一種天真和頑皮的感覺，好像它是第一次探索周圍的世界。暖色和戲劇性燈光的使用進一步增強了影像的舒適氛圍」。

「一個24歲的女人眨著眼睛的極端特寫，站在馬拉喀什的神奇時刻，電影底片拍攝，70mm，景深，生動的色彩，電影感」。

「電影預告片講述了30歲太空人戴著紅色羊毛針織摩托車頭盔的冒險經歷，藍天、鹽漠，電影風格，35公釐底片拍攝，色彩鮮艷」。

「一個華麗的珊瑚礁紙藝世界，到處都是五顏六色的魚和海洋生物」。

「鏡頭跟隨一輛帶有黑色車頂行李架的白色老式SUV，它在陡峭的山坡上一條被松樹環繞的陡峭土路上加速行駛，輪胎揚起灰塵，陽光照射在SUV上行駛土路，給整個場景投射出溫暖的光芒。土路緩緩地蜿蜒延伸至遠方，看不到其他汽車或車輛。道路兩旁都是紅杉樹，零星散落著一片片綠意。從後面看，這輛車輕松地沿著曲線行駛，看起來就像是在崎嶇的地形上行駛。土路周圍是陡峭的丘陵和山脈，上面是清澈的藍天和縷縷雲彩」。

範例視訊的生成提示詞為：一位時尚的女人走在東京的街道上，街道上到處都是溫暖的發光霓虹燈和動畫城市標誌。她身穿黑色皮夾克，紅色長裙，黑色靴子，背著一個黑色錢包。她戴著墨鏡，塗著紅色口紅。她自信而隨意地走路。街道潮濕而反光，營造出五顏六色的燈光的鏡面效果。許多行人四處走動。

Sora引發全球的關註

Sora的橫空出世引發了全球的關註，網民紛紛驚嘆於人工智慧的高速發展，一眾大V也發表觀點。

360創始人對Sora給予了極高的評價，他認為，Sora的誕生意味著AGI（通用人工智慧）實作可能從10年縮短至一兩年。

周鴻祎認為，科技競爭最終比拼的是讓人才密度和深厚積累，「很多人說Sora的效果吊打Pika和Runway。這很正常，和創業者團隊比，OpenAl這種有核心技術的公司實力還是非常強勁的。有人認為有了AI以後創業公司只需要做個體戶就行，實際今天再次證明這種想法是非常可笑的。」

他還提到，盡管國內大模型發展水平表面看已經接近GPT-3.5，但實際上跟4.0比還有一年半的差距。OpenAl手裏應該還有一些秘密武器，無論是GPT-5，還是機器自我學習自動產生內容，「阿特曼（OpenAI CEO）是個行銷大師，知道怎樣掌握節奏，他們手裏的武器並沒有全拿出來。這樣看來中國跟美國的AI差距可能還在加大。」

胡錫進也表達了自己對Sora的看法。他表示，這的確是爆炸性進展。到今天中午，在賈玲現實主義電影【熱辣滾燙】的引領下，中國今年春節檔的票房突破70億。但是Sora在點亮AI影像制作未來的同時，也給全球現實主義電影的前途抹上了陰影。「讓老胡接著看春節檔電影都有些心神不寧了。」

Sora釋出後數小時，馬斯克在社交媒體上回復了「gg humans」，gg為Good Games縮寫，代指「打得好，我認輸」。之後馬斯克還稱，透過AI增強的人類將在未來幾年創造出最好的作品。

Sora對未來影響幾何？哪些人會因此失業？

Sora的誕生意味著，在文字、圖片之後，AI的技術已經突破到了視訊領域。雖然在此之前，Runway Gen 2、Pika等AI視訊工具已經釋出過類似的模型，但相較之下，別家的大模型還在致力於突破幾秒內的連貫性，OpenAI已經可以實作60秒的超精細視訊制作，這一技術可以說是史詩級別的突破。

當然，由於剛剛推出，Sora還存在著一定的技術不成熟之處。比如：生成視訊的時長限制在60秒，可能難以滿足一些復雜場景的需求；生成的視訊內容可能存在一定的局限性，如缺乏深度、邏輯性不足等。為了進一步完善技術，OpenAI可以考慮增加模型的訓練數據、提高模型的復雜度、引入更多領域知識等。

對於Sora當前存在的弱點，OpenAI也不避諱。OpenAI方面表示，它可能難以準確模擬復雜場景的物理原理，並且可能無法理解因果關系。該模型還可能混淆提示的空間細節，例如混淆左右，並且可能難以精確描述隨著時間推移發生的事件，例如遵循特定的相機軌跡。

AI視訊大模型Sora的誕生也將對多個行業產生影響， Sora作為一種強大的視訊生成工具，可以極大地降低視訊制作的門檻和成本，使得更多人能夠輕松建立高品質的視訊內容。這將對影視、廣告、遊戲、新聞、教育、VR\AR等諸多行業產生深遠的影響，具有廣泛的套用前景。它可以幫助企業和個人更快速地創作和制作視訊內容，提高效率。

不可否認，技術的變革是把雙刃劍，在關註套用前景的同時也有不少人擔憂會被AI搶了飯碗。目前最容易受到影響的或許是影視行業的從業者。例如視訊剪輯師、後期制作這類崗位，視訊模型Sora能夠自動或半自動地生成視訊，這可能會導致傳統的視訊制作和編輯職位的需求下降。後期制作包括剪輯、特效、音效等環節，這些工作也可以透過AI技術進行自動化或半自動化處理。

Sora 的出現讓世界看到了人工智慧的無限可能。 2024年第一塊堅實的裏程碑落下了，帶給人類的依舊是希望大於絕望。因此不一定會造成失業潮。相反，它可能促使視訊行業朝著更高端、更創新的方向發展。

本文內容收集整理自網路，僅供參考。