當前位置：妍妍網 > 碼農

OpenAI顛覆世界：GPT-4o完全免費，即時語音視訊互動震撼全場，直接進入科幻時代

2024-05-14碼農

夢晨克雷西發自凹非寺
量子位 | 公眾號 QbitAI

不開玩笑，電影【她】真的來了。

OpenAI最新旗艦大模型 GPT-4o ，不僅免費可用，能力更是橫跨聽、看、說，絲滑流暢毫無延遲，就像在打一個視訊電話。

現場直播的效果更是炸裂：

它能感受到你的呼吸節奏，也能用比以前更豐富的語氣即時回復，甚至可以做到隨時打斷。

GPT-4o裏的「o」是 Omni 的縮寫，也就是 「全能」 的意思， 接受文本、音訊和影像的任意組合作為輸入，並生成文本、音訊和影像輸出 。

它可以在短至232毫秒、平均320毫秒的時間內響應音訊輸入， 與人類在對話中的反應速度一致 。

這還是一份給所有人的大禮，GPT4-o與ChatGPT Plus會員版所有的能力，包括視覺、聯網、記憶、執行程式碼、GPT Store……

將對所有使用者免費開放！

（新語音模式幾周內先對Plus使用者開放）

在直播現場，CTO Murati穆姐說：這是把GPT-4級別的模型開放出去，其實她還謙虛了。

在場外，研究員William Fedus揭秘，GPT-4o就是之前在大模型競技場搞A/B測試的模型之一， im-also-a-good-gpt2-chatbot 。

無論從網友上手體驗還是競技場排位來看，都是 高於GPT-4-Turbo級別 的模型了，ELO分數一騎絕塵。

而這樣的超強模型也將提供API，價格打5折，速度提高一倍，單位時間呼叫次數足足是原來的5倍！

追直播的網友已經在設想可能的套用，可以替代盲人看世界了。以及確實感覺比之前的語音模式體驗上強上不少。

鑒於之前不少人就已經和ChatGPT語音模式「談戀愛」了，有大膽想法的朋友，可以把你們的想法發在評論區了。

總裁Brockman線上演示

知道OpenAI釋出會為什麽定在谷歌I/O前一天了——打臉，狠狠打臉。

谷歌Gemini釋出會需要靠剪輯視訊和切換提示詞達成的偽即時對話效果，OpenAI現場全都直播演示了。

比如讓ChatGPT在語言不通的兩個人之間充當轉譯機，聽到英語就轉譯成義大利語，聽到義大利語就轉譯成英語。

釋出會直播之外，總裁哥Brockman還釋出了額外的5分鐘詳細演示。

而且是讓兩個ChatGPT互相對話，最後還唱起來了，戲劇感直接拉滿。

這兩個ChatGPT，一個是舊版APP，只知道對話，另一個則是新版網頁，具備視覺等新能力。（我們不妨取Old和New的首字母，分別叫TA們小O和小N）

Brockman首先向小O介紹了大致情況，告訴她要和一個擁有視覺能力的AI對話，她表示很酷並欣然接受。

接著，Brockman讓她稍作休息，並向小N也介紹情況，還順帶展示了小N的視覺能力。

只見打完招呼後，小N準確地說出了Brockman的衣著打扮和房間環境。而對於要和小O對話這件事，小N也感到很有趣。

我們系統已全部灰度到GPT-4o！

接下來就是小O和小N相互對白的時間了，TA們依然是從Brockman的衣著開始聊起，小O不斷提出新的問題，小N都一一解答。

接著，他們又談論了房間的風格、布置和光線，甚至小N還意識到了Brockman正站在上帝視角凝視著TA們。

如果你看了這段視訊就會發現，畫面中出現了一個女人在Brockman身後做了些惡搞的手勢。

這可不是亂入，是Brockman和女人串通好，專門給小N設計的一道「考題」。

就在小O和小N聊的正開心的時候，Brockman選擇加入，直接問有沒有看到什麽不正常的地方。

結果是小N直接識破了Brockman的小伎倆，直接復述出了女人在他身後做小動作的場景，小O聽了之後直接感嘆原來在這裏享受樂趣的不只有我們兩個。

Brockman把這句話當成了誇贊，並對小O表示了感謝，還愉快地加入了TA們的對話。

之後是最後也是最精彩的部份，在Brockman的指揮下，小O和小N根據剛才聊天的內容，直接開啟了對唱模式。

只過了簡單幾輪，銜接地就十分密切，而且旋律悠揚，音色也是和真人毫無二致。

最後視訊以Brockman唱出的一句Thank you結束，在視訊外的推文中他還透露新的語音對話功能將在數周內向Plus使用者開放。

端到端訓練，一個神經網路搞定語音文本影像

正如阿特曼在釋出會前所說，GPT-4o讓人感覺像魔法一樣，那麽它是如何做到的呢？

非常抱歉，這次 非但沒有論文，連技術報告也不發了 ，只在官網Blog裏有一段簡短的說明。

在GPT-4o之前，ChatGPT語音模式由三個獨立模型組成， 語音轉文本→GPT3.5/GPT-4→文本轉語音 。

我們也可以讓舊版ChatGPT語音模式自己講一下具體是怎麽個流程。 ‍ ‍

這樣一來，整個系統的延遲足足有2.8秒（GPT-3.5）和5.4秒（GPT-4），而且遺失了大量的資訊，它無法直接感受音調、多個說話者或背景噪音，也無法輸出笑聲、唱歌聲，或表達情感。

GPT-4o則是跨文本、視覺和音訊端到端訓練的新模型，這意味著 所有輸入和輸出都由同一個神經網路處理 。

在語音轉譯任務上，強於OpenAI專門的語音模型Whisper-V3以及谷歌和Meta的語音模型。

在視覺理解上，也再次反超Gemini 1.0 Ultra與對家Claude Opus

雖然技術方面這次透露的訊息就這麽多了，不過也有學者評價。

一個成功的演示相當於1000篇論文。

One More Thing

除了OpenAI帶來的精彩內容之外，也別忘了台北時間5月15日淩晨，谷歌將召開I/O大會。

到時量子位將繼續第一時間帶來最新訊息。

另外根據網友推測，GPT-4o這麽強，全都免費開放了，這是勸大家不續訂ChatGPT Plus了的意思嗎？

那肯定不是啊～

鑒於OpenAI春節期間在谷歌釋出Gemini 1.5 Pro後半小時左右用Sora狙擊了一把，明天OpenAI還有新活也說不定呢？

直播回放
https://www.youtube.com/watch?v=DQacCB9tDaw

參考連結：
[1] https://openai.com/index/hello-gpt-4o/

— 完 —

GPT-4o深夜炸場！AI即時視訊通話絲滑如人類！重磅來襲！我們系統已全部灰度到GPT-4o ！！！

最後給大家推薦一個ChatGPT 4.0國內網站，是我們團隊一直在使用的，我們對接是OpenAI官網的帳號，給大家打造了一個一模一樣ChatGPT，很多粉絲朋友現在也都透過我拿這種號，價格不貴，關鍵還有售後。

一句話說明：用官方一半價格的錢，一句話說明:用跟官方 ChatGPT4.0 一模一樣功能，無需魔法，無視封號，不必擔心次數不夠。

最大優勢：可實作會話隔離！突破限制：官方限制每個帳號三小時可使用40次4.0本網站可實作次數上限之後，手動切換下一個未使用的帳號【相當於一個4.0帳號，同享受一百個帳號輪換使用許可權】

點這裏 👇 關註我，記得標星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~

Copyright © 2025 ai.jasve.com NO.1 妍妍網

文章部分內容源自網絡，僅供AI學習使用，如有侵權請告知，我們將在48小時內刪除：xingwa#jasve.com（傳送郵件請將#換成@）