OpenAI 陷入離職風波，為了狙擊谷歌釋出 GPT-4o 半成品？網友開始尋找失蹤的「Her」

2024-05-16資訊

整理 | 屠敏

出品 | CSDN（ID：CSDNnews）

「獵殺」時刻結束後，一場「混亂」似乎又在 OpenAI 內部上演。

OpenAI 人才離職潮來了！

僅從時間線來看，這似乎是一次有考慮的行動：

周二淩晨，，帶來了最新的研究成果 GPT-4o；

周三淩晨，，不僅帶來了 Sora 的競品 Veo，也釋出了其內部正在嘗試的 Agent——Project Astra，對標 GPT-4o；

然而，在關註度上，雖然 Google 帶來了不少模型的升級，但似乎還是不如 GPT-4o 更能吸引使用者的關註度。似乎是看到了這樣穩定的局面，OpenAI 的高層們也開始選擇了體面的離開。

正如我們昨日報道的，OpenAI 聯合創始人兼首席科學家率先提出離職，他說道：

「時隔近十年，我決定離開 OpenAI。這家公司的發展軌跡堪稱奇跡，在 Sam Altman、Greg Brockman、Mira Murati 現在再加上 Jakub Pachocki 的卓越研究領導下，OpenAI 將打造出既安全又有益的 AGI。能與大家一起工作是我的榮幸，我會非常想念每一個人。再見，感謝你們所做的一切。 我對接下來要做的事情感到興奮，這是一個對我個人非常有意義的計畫，我會在適當的時候分享細節。 」

令人沒想到的是，幾個小時，OpenAI 另一位重要人物 Jan Leike 也在 X 平台上只發了兩個簡短的單詞——「I resigned」（我辭職了），離開了自己在 OpenAI 任職 3 年的生活。

要知道，Jan Leike 是 OpenAI 超級對齊小組的聯合負責人，另一負責人就是在他之前剛剛官宣離職的 Ilya Sutskever，這個團隊成立的目標是，試圖用 20%算力，在未來 4 年解決超級智慧對齊問題，致力於使得人工智慧系統與人類興趣保持一致。

同時，Jan Leike 也是 ChatGPT 落地的關鍵人物。2021 年，OpenAI 團隊聘請了 Jan Leike，由他來領導 OpenAI 的對齊團隊，主攻人類反饋（RLHF）的 AI 強化學習。從技術上來看，這一點對 ChatGPT 本身進一步提高與人類的互動能力、對資訊含義的理解能力以及自我判斷能力來說至關重要，因為這項技術加入了更多人工監督進行微調。正因此，ChatGPT 可以擁有更加逼近人類語言的自然反應。

早些時候，Jan Leike 也被【時代】雜誌評為人工智慧領域 100 位最具影響力人物之一。

與 Jan Leike 官宣離職時的低調相比，就在一個月前，他還非常興奮地在 X 上討論關於超級對齊的種種事宜。

兩位重量級人物相繼離職，不僅給群龍無首的 OpenAI 對齊團隊的未來帶來一絲陰霾，也讓眾人嗅到了一絲不尋常的氣息，所以其二人評論區，不少網友紛紛好奇留言，「你到底看到什麽？」

除了超對齊團隊兩大重量級人物離職之外，就在今天， OpenAI 套用工程團隊負責人 Evan Morikawa 也跳了出來表示：

「在 OpenAI 工作三年半年後我選擇了離開。我將與我的朋友 Andy Barry、Pete Florence和 Andy Zeng 一起開展一項全新的計劃！我認為這對於在世界上充分實作通用人工智慧是必要的，並且很高興能盡快分享更多相關資訊。

我在 OpenAI 度過了一生難忘的時光，並對那裏的未來感到非常興奮。當我在 2020 年開始時，套用工程是一個小團隊，在原始的 GPT-3 上構建 API（任何人都記得達芬奇）。幾年後我對它的結局感到非常自豪。」

內部 AGI 已實作？

對於 OpenAI 離職潮的來臨，也有人猜測，或與 AGI 的進展有關。

早些時候，據 Business Insider 報道，曾在 OpenAI 治理團隊工作的哲學博士生研究員 Daniel Kokotajlo 上個月離開了公司。他辭職時在一個論壇上表示，「由於對 AGI 時代的 OpenAI 負責任的行為失去了信心，因此結束了 OpenAI。」

在後續貼文上， Daniel Kokotajlo 透露導致他結束 OpenAI 的，與越來越多的人呼籲暫停最終可能導致 AGI 建立的研究有關。

與此同時，同樣是在 Jan Leike 和 Ilya Sutskever 團隊中擔任研究工程師的 William Saunders 也在兩個月前離開了公司。

一定程度上來看，Jan Leike 和 Ilya Sutskever 也是 OpenAI 致力於 AGI 不會失控的重要安全守門員。

如今他們的離職，有網友稱：

只有在 AGI 已經協調一致或者明顯無法實作的情況下，Jan 和 Ilya 才會離開 OpenAI。

相比後者，更多人寧願相信是前者，才導致這些人才的離開。也似乎是為了抵制 OpenAI 內部正在做的一些「不為人知」的動作，網友們開始在 X 平台上玩起了「梗」，紛紛用「resigned from @OpenAI」（從 OpenAI 離職）為關鍵詞刷起了屏。

包括 Kaggle 大神、任職於 Nvidia 的 Bojan Tunguz 也在其中，其表示，「我已經從@OpenAI 辭職了。他們用 XGBoost 重新訓練所有模型的進度太慢了。即使遭受了所有的打擊，我的士氣也沒能提高。」

更甚的是有使用者附上了一張：「感謝您加入全球 OpenAI 實驗。AGI 現在已經在內部實作。所有服務都將無限期關閉」的 p 圖圖片以此來間接抵制「OpenAI 似乎正在對 AGI 失控」的局面。

現在眾人使用上的 GPT4o 是個半成品？

這樣的猜測不無道理，因為前兩天 GPT-4o 的出現，這款既能完成即時對話語音，做到即時響應和情緒感知，又能「看見」事物並進行推理，辨識生成圖片並給出解釋的模型，讓不少人大為震驚。

雖然這兩天 GPT-4o 也有不少負面纏身，但還是不妨礙很多人認為我們離 AGI 不遠了。

至於負面，也只是一個誤解。起初，有使用者在 OpenAI 開發者社群抱怨道，「我的帳戶在 iOS 應用程式和瀏覽器中將 ChatGPT 4o 顯示為一個選項，但當我選擇它並嘗試使用語音功能時，它只是使用標準的 ChatGPT 4 語音模式，而當我用它發資訊時，它的行為與 ChatGPT 4 相同。我相信這些錯誤會得到解決。不過，本來顯示我可以使用這一模型的，但卻無法使用，這讓人很惱火......」

本以為是個例，但是這條吸引了 19.5k 使用者瀏覽的貼文，數百名使用者留言都遇到了這樣的情況。

furgoncino_rotore.0m：對我來說也是一樣，來自義大利，搭載 iOS 17 的 iPhone 11。市集尚未釋出任何更新，該型號無法按照規格執行，與上述問題相同。

PapaOssis：在 Pixel 8 Pro 上使用 Android 系統時也會出現同樣的情況。在美國。

對於這種情況，Django Web 框架的建立者之一 Simon Willison 釋出了一篇完整的貼文說明了大家在用的 GPT-4o，其實只是一個半成品而已。

Simon Willison 表示，釋出會結束後，OpenAI 在網路上和應用程式中向 ChatGPT Plus 付費使用者提供了新的 4o 模型。但很多人忽略了 OpenAI 官方的一則公告內容：

我們認識到 GPT-4o 的音訊模式帶來了各種新的風險。今天，我們公開釋出文本和影像輸入以及文本輸出。在接下來的幾周和幾個月裏，我們將致力於技術基礎設施、培訓後的可用性以及釋出其他模式所需的安全性。

這意味著 GPT-4o 的語音功能還尚未對外。

那麽，大家的誤解究竟是怎麽來的？Simon Willison 對此解釋道，原來的 ChatGPT iPhone 應用程式已經有影像輸出功能，而且已經有語音模式。這些功能在以前的 GPT-4 模式下可以使用，自然在新的 GPT-4o 模式下仍然可以使用......正如下圖所示。

Simon Willison 認為，「大多數人不會區分模型和功能」。他在博文中表示：

想想你需要知道什麽才能理解這裏發生的事情：

GPT-4o 是一種全新的多模式大型語言模型。它可以處理文本、影像和音訊輸入，並產生文本、影像和音訊輸出。

但是......到目前為止， 透過 API 和 OpenAI 應用程式提供的 GPT-4o 版本只能處理文本和影像輸入，並生成文本輸出。其他功能還不能在 OpenAI（以及部份合作夥伴）之外使用。

但在應用程式中，它仍然可以處理音訊輸入和輸出，並生成影像。這是因為該模型的應用程式版本被額外的工具所包裹。

音訊輸入由一個名為 Whisper 的獨立模型處理，它能將語音轉換為文本。然後將文本輸入 LLM，由 LLM 生成文本響應。

該響應會被傳遞到 OpenAI 名為 tts-1（或許是 tts-1-hd）模型，會將文本轉換為語音。

雖然 tts-1 遠不如周一演示中的音訊效果好，但它仍然是一個令人印象深刻的模型。

至於影像？這些影像是透過 DALL-E 3 生成的，在這個過程中，ChatGPT 會直接提示該模型。

因此，只要你已經了解，ChatGPT 的 GPT-4o 模式是怎麽回事就一目了然了：

GPT-4 v.s. GPT-4o

Whisper

tts-1

DALL-E 3

OpenAI CEO 也在今天早晨承認了這一點：「 新的語音模式尚未釋出（盡管 GPT-4o 的文本模式已經釋出）。 您當前可以在應用程式中使用的是舊版本。新的非常值得等待！」

對此，有人質疑道，OpenAI 這麽做究竟是為什麽，為什麽不能等幾周，直到全部準備好後再宣布呢？

結合 OpenAI 這場釋出會的時間，外界普遍猜測此舉無疑是針對 Google，彼時 Google I/O 的時間在今年 3 月份便已經定下，而 OpenAI 的春季釋出會時間則是在上周才最終官宣出來，且只有 20 多分鐘的釋出會也不難看出其準備的稍有倉促了。

正因此，有使用者評論道：

所以 OpenAI 就是為了狙擊 Google 所以提前釋出 GPT-4o?

實際上產品還沒準備好，匆忙推出了原來架構的模型：GPT+Whisper+ Dalle+TTS 裝成一個 Omni 全能模型。

然後還要出來解釋。

我覺得要做成一個大公司，沒必要做這種事情。真做好了發出來，依然震驚業界。

為了穩住眾人，OpenAI 總裁兼聯合創始人 Greg 又最新分享了一張由 GPT-4o 生成的圖片，其中無論是光照、黑板等元素，以及人物及背後企業 logo，宛如真人拍攝。 Greg 表示，「僅憑 GPT-4o 的影像生成功能，就有如此多值得探索的地方。團隊正在努力將這些成果帶給世界。」

然而，面對此時 GPT-4o 功能的不完善，美國 AI 學者蓋瑞·馬庫斯直接「開火」，怒斥道：「 給這麽蠢的助理加上性感的聲音，就像給豬塗口紅一樣。作為語音助手，LLM 就是一個笑話。任何理智的人都不會相信他們能夠處理金錢、規劃物流等。 」

他還補充說，「恕我直言，他們無意中自欺欺人，無意中暴露了盡管擁有巨大的資源和人才，但他們取得的進展卻微乎其微。說實話，4o 的愚蠢讓我很驚訝。為什麽要釋出這個？當 ChatGPT 很蠢的時候，它幾乎是可愛的。到現在，18 個月過去了，這真是令人尷尬。」

同時，馬庫斯還發起了一項投票，詢問眾人「4o 令人驚訝的糟糕表現」和「四位安全人員離職」相比，哪種情況更糟糕？

顯然更多的人認為離職潮更讓人擔心，一直以來，AI 安全深受公眾關註，部份原因是人工智慧技術的明顯激增及其對工作場所的影響，倘若不可控，後果也將不堪設想。對此，你如何看待這一趨勢？

參考連結：

https://community.openai.com/t/chatgpt-4o-voice-feature-not-working/744770/2?page=2

https://twitter.com/E0M

https://twitter.com/janleike/status/1790603862132596961

推薦閱讀：

超 50 萬人「退休金」數據遺失、業務癱瘓 1 周，Google Cloud 誤刪甲方帳戶後：雲服務負責人被裁、Oracle 產品經理現身嘲諷