零一萬物潘欣：Sora 無法讓 AGI 到來，GPT 才是關鍵

2024-04-29碼農

在人工智慧的世界，有一群人正深耕於推動通用人工智慧（AGI）從科幻走向現實。CSDN、【新程式設計師】特別策劃「 AGI 技術 50 人 」訪談欄目，挖掘 AI 背後的思考，激蕩 AGI 的智慧，走近那些在 AI 領域不斷探索、勇於創新的思想領袖和技術先鋒們的心路歷程。

本期主角潘欣，從 Google Brain 到零一萬物，從深度學習框架到大型語言模型，精準把握每一次技術革新的脈搏，在科技前沿的疆界中尋找 AGI 的曙光。

作者 | 唐小引、王啟隆

出品 | AI 科技大本營（ID：rgznai100）

2011 年，深度學習的概念尚未在全球範圍內廣泛爆發，Google 研究員 Jeff Dean 和史丹佛大學教授 Andrew Ng （吳恩達）看到了這一技術的巨大潛力，計劃構建一個基礎設施。

此時的 Andrew Ng 和另一位 Google 研究員 Greg Corrado 已經構建了一個大規模深度學習軟體系統： DistBelief 。三人一拍即合，發起了 Google Brain 計畫，著手訓練一個前所未有的大型神經網路。 Google 讓 Jeff Dean 帶領一支團隊開始簡化和重構 DistBelief 的程式碼庫，成就了未來的 TensorFlow 。

TensorFlo w 的故事正式開始於 2015 年，這一年是零一萬物聯合創始人潘欣的職業生涯轉折點。潘欣剛完成在 Google 的 資料庫 服務 Core Storage 和 K nowledge Engine 部門的工作，恰逢 Jeff Dean 的團隊缺少一位擅長工程能力的科學家，潘欣就此幸運地成為 Google Brain 的第一位「Research Software Engineer」（研究軟體工程師），在 Samy Bengio 手下開始工作。

Google 時期的潘欣

Samy Bengio 是機器學習「三大教父」中 Yoshua Bengio 的胞弟，這段時期的 Samy 為了推動 AI 倫理學的發展在各處開會，但仍會留出一部份時間給潘欣進行一對一的指導。Samy 還弄到了 Ian Googfellow 所著的【 深度學習 】一書的草稿給潘欣試閱，於是潘欣白天做研究，晚上讀草稿版本的【深度學習】。

由於早期的 TensorFlow 缺乏模型範例，相關的 API 文件尚不規範，於是潘欣用了 一年時間 為 TensorFlow 構建了一系列關鍵基礎模型，涵蓋了語音辨識、語言模型、文本摘要、影像分類、物件檢測、分割、差分私密和幀預測等多個領域，打造了 TensorFlow GitHub 上 model zoo 的初始版本。2016 年，TensorFlow 在開發者社群中爆火。為了解決研究人員在效能最佳化和模型分析方面的痛點，潘欣開發了 tf.profiler 工具，幫助使用者快速分析模型結構、參數、FLOPs、裝置放置和執行時內容。

2017 年，Research Software Engineer 從潘欣一人發展到了十幾人，整個 Google Brain 也搖身一變為一支百人團隊，包括了「AI 教父」 Geoffrey Hinton 、Quoc Le、Alex Krizhevsky、 Samy Be ngio 和 Ilya Sutskever 等如雷貫耳的名字，其中越南大神 Quoc Le 開辟了自然語言處理技術的新疆土，Alex 則用自己的名字贏得了 ImageNet 競賽冠軍，Ilya 更是在未來成為了 ChatGPT 的造物主。此刻的他們都是在 Google Brain 鉆研深度學習的研究員，仍未知曉自己會在未來成為 AI 領域的領軍人物。

「Dean 的團隊是很難被復制的，將來也無法再被復制了。2015 年左右， 全世界一半的深度學習領域的成果可能都是來自 Google Brain 的團隊 ，它匯集了領域內大部份的頂級專家，成就了現在一些比較火的創業公司……幾乎可以說 Google Brain 奠定了從深度學習轉變至 AI 的大部份基礎 。」在回憶中，潘欣非常懷念那段時光，對其滔滔不絕。

同樣在這段時期， PyTorch 問世了。PyTorch 解決了 TensorFlow 的易用性痛點，為了抗衡這個新框架，潘欣發起了 TensorFlow 動態圖模式的開發。動態圖是 TensorFlow 2.0 版本中的一個重要特性，提供了更自然和直觀的編程體驗，允許使用者以 Python 原生的方式執行 TensorFlow 操作。隨後潘欣又參與了 TensorFlow API 的設計和改進工作，特別是在物件導向和程序導向的 API 設計方面，他提出了復用 Keras 的 Layer 介面的建議，並參與了相關討論和實作。

第二代 TensorFlow 誕生之後，國外的深度學習框架領域趨近成熟，TensorFlow 和 PyTorch 的焦灼戰爭成為了主旋律，而國內市場則亟需一款能夠與之匹敵且具備自主智慧財產權的優質國產框架。潘欣不願安於現狀，選擇離開矽谷，懷揣著「 打造一個最好的國產深度學習框架 」的信念，從 0 到 1 重構了 PaddlePaddle ——百度的飛槳平台。

Paddle 源於 2013 年，後來 Andrew Ng 為它選用了「PaddlePaddle」這個更加朗朗上口的名字。早期的飛槳與 Caffe 相似，靈活性不足，模型構造依賴 C++。潘欣接手之後，發現 PaddlePaddle 早期的設計理念看似是將深度學習特性融入程式語言，但實際的實作上卻是透過 Python 聲明模型結構並在執行器中解釋執行。全面對標 TensorFlow，潘欣用兩年時光為 PaddlePaddle 打造了解決方案。

此後，他先至騰訊打造深度學習框架「無量」，再入 字節跳動 負責 AIGC 和視覺大模型 AI 平台，每一次轉變都是一次全新的嘗試。

2023 年，潘欣想在 ChatGPT 爆發後的 AI 2.0 創業浪潮中尋找一家初創公司，花更多的時間在技術和產品上。當時，李開復博士正在為創新工場孵化的零一萬物招兵買馬。零一萬物甫一出生就致力打造 AI 2.0 時代的前沿大模型技術及軟體套用的全球化公司，匯聚一群國際級頂尖人才。李開復博士躬身入局 AI 行業已有 40 多年，也希望透過積累多年的技術、產業經驗，在 AI 2.0 時代持續探索大模型和多模態智慧的無限可能，打造「以人為本」的 AGI（通用人工智慧）。

零一萬物 AGI 的信仰內核和潘欣心中的願望一拍即合。潘欣也順理成章加入到零一萬物，開始全新的 AI 2.0 征程。這是潘欣第一次接受采訪，我們面對面和他聊了許多話題：矽谷往事、零一萬物、創業浪潮、算力挑戰、AGI……當然，還有最重要的那個問題： 如何讓國產 AI 大模型破局？

谷歌的大腦聚在一起，掀開了故事的第一頁

【新程式設計師】：你是如何走上人工智慧之路的？

潘欣：那是 2010 年左右，行動網際網路時代，我在北京郵電大學上本科，跟著一位叫石川的教授學習 機器學習 ，那時候深度學習還沒火。AI 歷經幾起幾落，以前沒什麽人會說自己做 AI，都會強調自己是「機器學習的」。

【新程式設計師】：初次接觸機器學習時都有哪些感受？

潘欣：機器學習的演算法很「大開腦洞」，並不是透過固定公式推匯出來得出必然的結果。諸如遺傳演算法、神經網路、模擬退火等演算法都是啟發式的，跟傳統的演算法數據結構差距非常大。後來 神經網路 逐漸演進成人工智慧，我一看見那些早期概念就覺得太有意思了，因為神經網路是透過模擬人的大腦去實作演算法。

【新程式設計師】：你從滑鐵盧大學畢業後並沒有立即擁抱 AI，而是先做了大數據，這中間有哪些思考？

潘欣： AI 其實也是建立在大數據的基礎上，沒有大數據就不會誕生 AI 。在接觸深度學習的那段時間裏，我也同樣看到了那幾年大數據的潛力。當時有幾篇論文很火，比如 Jeff Dean （Google AI 掌門人）加入 Google 的第一項主要工作就是開發出了 Google 的廣告系統 AdSense ，他對於 Google News（谷歌新聞）也作出了很大的貢獻；之後 Dean 和他的工作夥伴 Sanjay Ghemawat 還帶領團隊接連開發了 GFS （Google File System，谷歌檔案系統）和 MapReduce （大數據領域經典框架）。

那個時代的大數據實踐性更強，且整個互聯網都處於大規模的上升期，我還記得 NoSQL、海量數據是當時的互聯網熱詞。所以，我在機器學習和大數據之間做了個 二選一 。然後到了 2015 年， 機器學習和 AI 之間的結合 已經有了初步的結果， ImageNet 因此問世。我們現在回過頭來審視 ImageNet 會感覺它的數據量很小，但在當時這已經是比較大的了。這段時期的大數據技術趨近成熟，AI 也開始露苗頭了，所以我從大數據又回到了機器學習這個研究方向。

【新程式設計師】：這中間的方向判斷都是你獨自決定的嗎？有沒有「高人指點」？

潘欣：我主要是透過平時接觸的各種直接或間接資訊來做出判斷，比如我最關註的就是 Jeff Dean。

我會去了解和調研一下 Dean 在每個時期所研究的東西，並行現 他做的很多東西都是領先於時代的 。當時我感覺 AI 比較有前景，恰逢 Jeff Dean 在內部帶頭創立 Google Brain ，拉攏了許多原先在 Google 做 Infra（基礎設施） 的人，其中也包括我身邊的一些原本在 Core Infra 工作的同事，所以我就想跟著這些同事一起過去。

【新程式設計師】：你和 Dean 的淵源是在 Infra 時期埋下的嗎？還有什麽故事可以分享？

潘欣：我一路上主要是跟隨 Dean 的路徑，後來再到 Google 大數據組工作時，我接觸的 Infra 基本全是 Dean 一手帶起來的（即分布式計算的「三駕馬車」），組裏的很多大神都和 Dean 有聯系，我因此能和 Dean 產生間接的聯系，後來才會被帶到 Google Brain。 這可能算是「徒孫」的那種感覺 。

【新程式設計師】：在當時的環境下，你從 Dean 身上學到了哪些特質？

潘欣：Dean 雖然做了很多的事情，級別也非常高，但是他一直都在一線執行具體的研究和開發；其次就是 Dean 對長期技術趨勢的判斷非常的準確——而且是驚人的準確 ：Dean 早期對 深度學習框架 （2013 年）和 深度學習硬體 （2015 年的 TPU；如今輝達如日中天，整個市場只有 TPU 能趕上一點步伐）的判斷、對 AI 編譯器 的判斷以及如今對 MoE （Mixture of Experts，混合專家模型）的判斷，都在這個時代得到了驗證。

Dean 的團隊是很難被復制的，將來也無法再被復制了。2015 年左右，全世界一半的人在深度學習領域的成果可能都是來自 Google Brain 的團隊，它匯集了領域內大部份的頂級專家： Geoffery Hinton （AI 教父）， Ian Goodfellow （對抗學習發明者）、 Transformer 的八位作者 ，還有現在一些比較火的創業公司……幾乎可以說 Google Brain 奠定了從深度學習轉變至 AI 的大部份基礎 。

Dean 能籠絡這些人才，靠的還是他在比較早期的時候（2012、2013 年）作出的 非共識性的判斷 。當時，其實還沒有很多公司去大力挖掘這種人才，尤其是 Hinton 這種 學術界的泰鬥隱藏在了幕後 。此外，「Dean+Google」這個招牌本身還是具備內建的光環，可以得到研究團隊的信任，所以說 Google Brain 只能在那個時間點達到如此驚人的人才密度 。

【新程式設計師】：今天 AI 的技術創新源頭不少依然是來自於 Google，大模型也起於 Transformer，但為什麽 Google 自己的產品創新卻顯乏力，而會落後於 OpenAI？

潘欣：世界科技巨頭 Google 掌握著很多的資源，同時也是很多創新的始發地，大家的期望值太高，所以顯得有些落差。實際上，很多大公司不可避免地會出現決策遲緩的問題，落地執行力可能也沒有小公司強。

至於微軟的成功，在我眼中可能更像是 一種投資性的成功 。微軟研究 AI 也很多年了，有一定的基礎，但實際上微軟自己也沒有孵化出一個 OpenAI ，只是微軟高層裏的某個人拍板做了個投資的決定，促使 OpenAI 最終能夠跟微軟繫結。所以科技巨頭不可避免地會有這種滯後性、遲緩性。當然，更深層次的原因就很復雜，因為大公司需要協調很多人的方向：誰來負責？怎麽分工？這些決策都會比小公司要慢很多。

但我覺得這個事情可能還不用這麽快下定論， 不用急著宣告 OpenAI 已經打贏 Google 。舉例來說，Dean 當時的一些布局到今天其實還是有效的，比如說 Google TPU、Google 的 AI 算力數據中心，這些都是 Google 至今沒打出的底牌 ，具有很大的成本優勢。但 Google 確實也有一些布局過於超前，有些計畫沒有達到預期的效果，例如 TensorFlow ，其早期的時候被認為是沒有對手的，後來就是一些原因導致 PyTorch 實作了反超。所以說，Google 仍具備厚積薄發的潛力。我可以透露的是，據我在 Google 的朋友以及收集到的各方面訊息顯示，Google 當下仍在快速叠代中。很可能 在今年年底至明年年初，我們會看到 Google 有不少重要的新聞釋出 。

跟緊每一波技術浪潮，做自己感興趣的事

【新程式設計師】：你的技術路線是框架——平台——模型嗎？這中間是怎麽轉變的？

潘欣：相比從框架過渡到模型，我的工作更像是在做框架與模型的聯合最佳化。剛進 Google Brain 的時候，我是在 Samy Bengio （Torch 框架作者）手下做演算法，協助研究科學家們重現各類出版物中的模型。那時候，我在公司內部復現的模型最多，涉及了語音辨識、圖片分類、再到圖片檢測分割還有語言模型。

後來基於一些原因我開始參與到 TensorFlow 開源框架的貢獻中，就逐漸從模型轉變到平台。然後是騰訊時期，由於騰訊的推薦業務需求，我既負責推薦大模型訓練所需框架的構建，又需兼顧推薦演算法的研發。後來到了字節，我其實同時帶了平台和演算法的團隊，不僅關註模型的訓練效率、壓縮和移動端推理等具體問題，還負責搭建支持這些模型高效執行的平台環境。所以事實上我很多時候是兩件事（框架和模型）一起做。

【新程式設計師】：在模型研發過程中，過往的經驗積累是不是能讓後續的工作水到渠成？

潘欣：其實很多時候 框架跟模型不能完全分開來看，它們是相互制約或相互輔助的 。例如在我做推薦系統的時候，目標可能是千億甚至萬億級別的參數規模，傳統的深度學習框架如 TensorFlow 和 PyTorch 無法直接應對需求，這就需要我們在基礎框架層面進行客製化的開發工作。然後框架開發有時候也需要去考慮演算法上的事情，比如 Pruning（模型參數的剪枝）或對 embedding 長度處理是否會影響到模型的效果等等。所以兩邊（框架和模型）其實都 存在顯著的互動影響 。還有現在流行的 MoE 也是一樣的，需要深入系統層面，精心考量如何有效地對模型進行切分，才能保證效能最佳。

【新程式設計師】：你同時經歷了 TensorFlow 和 PaddlePaddle 國內外兩大「明星框架」的輝煌時期，為什麽沒選擇在框架這個方向一直做下去？

潘欣：主要是我這個人可能有時候不太閑得住吧。 很多技術存在著從「 快速發展期 」轉變到穩步發展的「 平台期 」這一過程 ，而框架領域當時出現了 PaddlePaddle （百度飛槳）這樣的平台，隨後整個深度學習框架領域開始進入了平台期，我就開始去找有沒有更有意思的事情做了。碰巧那時候推薦領域進入了高速發展期，我覺得可以去做，所以這種轉型還存在著一些機緣巧合的因素。然後等推薦系統發展到了平台期之後，一些其他研究又開始了快速發展時期，比如電腦視覺（CV）就經歷了從 GAN 到 Diffusion 的飛躍。總之， 我會根據當時的技術演進做一些切換或是轉型 。

【新程式設計師】：你在尋求轉變的過程中有思考過轉變環境帶來的好與壞嗎？

潘欣：好處就是能不斷地接觸和學習新的東西，補齊自己的知識碎片。現在AI的大方向好像我都一線幹過。壞處就是風險的確很高。從一個熟悉的環境切換到一個陌生的環境，有可能會不適應，凡事不受自己控制。

【新程式設計師】：這種不適應感來自於什麽？

潘欣：是否能跟團隊、上下遊進行磨合，互相理解。在公司的既有分工下，能否有自己發揮的空間、同時獲得老板的支持。

【新程式設計師】：我們一般都是在產品大熱的時候跟進潮流，很難感知到「高速發展期」和「平台期」的具體時間。你是如何具體判斷技術周期的演變的？

潘欣：主要基於過往經驗培養出的直覺，此外還會結合一些具體的分析。

比如我當時去做內容推薦系統，首先考察了它的現有技術水平及發展趨勢，其次判斷了它的套用場景是否具備大規模拓展的可能性。當時騰訊有 幾億的使用者基數 （DAU），推薦系統的最佳化將顯著提升使用者體驗，所以套用場景還是很大的。然後，推薦技術當時面臨從淺層模型向深層模型的 技術轉型 ，並且我懂深度學習，能判斷出推薦系統肯定還有很大的改進空間。

再就是大模型技術。其實大模型的 Scaling Law（大模型效能隨參數、數據、計算增長按冪律提升）早在 2016 年就被發現了，只是當時算力還沒有那麽好，挖掘不出大模型的潛能。所以，當 GPT-3.5 出來的時候，盡管外界或許會有質疑聲音，但我知道這裏面是有「 真東西 」的。

【新程式設計師】：這可能類似於 CSDN 此前提出的「技術社群三倍速定律」，新技術的發展在開發者社群中的接納速度通常會比在大眾中快三倍。目前還有哪些技術僅在產學研界進行討論，還未被大眾所熟知？

潘欣：我覺得 大模型的模組化 可能是一個趨勢，考慮到大模型訓練的成本和套用中的可控性，每當需要對模型進行微調時，很可能需要重新進行整體訓練，這種方式顯然不夠高效。現實套用中，大模型在處理 1 + 1 = 2 這種簡單任務時如果也要動用全部參數，就會造成資源的浪費。所以探索模型的部份參數啟用機制以實作模組化是很重要的。但這個模組化的概念其實跟 Jeff Dean 提出的 Pathways （一種通用的 AI 框架）有點類似，我覺得這個想法可能會是對的。

【新程式設計師】： Pathways 是他在 2021 年提出的。既然 Jeff Dean 這位靈魂人物如今仍在，為什麽 Google 在大模型時代的創新會逐漸乏力？

潘欣： Jeff Dean 也是人，不是神。他可以做一些單點的預測或突破，但在協調幾千人的大團隊時，需要考慮上千名工程師的利益和任務分配， 這不是一個人能解決的 。

【新程式設計師】：在這麽多年的經歷後，有哪些是你認為一直未被解決的難題？

潘欣：還是有一些的。 深度學習框架的編譯器技術 已經發展十年了，但高效硬體適配自動化還沒實作，每次有新的芯片出現時，仍需要人工幹預以確保程式碼能良好地移植並在新硬體上高效執行。這就導致大家現在都在用輝達。

然後就是 自動分布式計算框架 ， 這是我們早在 2017 年就想做並且實踐了很多嘗試的東西 ，但目前大多數情況下，為了達到最優效能，仍然需要具有專業知識的人員針對特定場景手動設計分布式策略。這意味著，理想的完全自動化的分布式計算系統——能夠根據任務特點和資源狀況自行決定最優分配方式——尚未成熟，這也 受限於現有的 AI 理論水平，所以短期沒法解決 。

【新程式設計師】：從業這麽多年，對你影響最大的人是誰？

潘欣： Jeff Dean 吧，他對我的影響是偶像性質的。

當年帶我入門深度學習的人則是 Samy Bengio ，他給了我一個 PDF 檔，裏面是一本叫【 Deep Learning 】（深度學習）的書。這書是 Ian Goodfellow 寫的，他是很多早期深度學習書籍的作者。當時這本書還沒有寫完，然後 Samy 把 Ian Goodfellow 的草稿轉成 PDF 發給我了，我看完後還做了幾處書糾 。遺憾的是我不知道最後終版改了哪些內容，沒有對比。

這事發生在我剛入職的時候，每天下班的時候我都會看一看那份 PDF。

【新程式設計師】：所以對你影響最大的其實還是 Google 時期的經歷。

潘欣：對，但是影響我的東西、我做過的計畫都很多，所以 Google 也不會占到很大的比例。我在每個計畫都有很大的收獲。

【新程式設計師】：一路上有哪些遺憾的地方？

潘欣：遺憾的事情肯定有很多，但我一般不會回頭反復去想，因為過去的事再去看也沒有用了， 吸取教訓更重要 。

把從 0 到 1 的精神帶回國內補填空缺

【新程式設計師】：從矽谷回國是一次很大的轉變，你當時進行了什麽樣的思考？

潘欣：在 2018 年初時，TensorFlow 和 PyTorch 這樣的深度學習框架其實就已經相對清晰了，而比較好的國產深度學習框架卻未誕生。當時我看到百度釋出了 PaddlePaddle ，這個平台其實也是基於早期架構打造的，所以 我的目的就是回國打造一個最好的國產深度學習框架 。因為我在那個時期註意到了 AI 將來會變得很重要，所以我想如果國內的所有 AI 都能基於我寫的深度學習框架，會是挺有意義的一件事情。當然，這裏也有百度的一些想法在裏面，所以這是一次雙向的選擇。

【新程式設計師】：這次轉變有「不適應感」嗎？

潘欣：我當時帶領的多模態研發團隊相對更 年輕，經驗積累 相對會少一些。當時 Google Brain 的隊伍裏都是大神，年齡和級別都非常高，到今天都已經是泰鬥級別的人物了。不過年輕的團隊帶來的是強大的戰鬥力，團隊從決策到落地的周期很快，執行力很強。

【新程式設計師】：國內團隊相對年輕，會讓我想到「程式設計師的 35 歲危機」這個問題，你有沒有想過這一點？

潘欣：這個事情跟國內的發展階段有關系，矽谷的技術發展了很多年， 它也經歷過國內現在的階段 ，人員變動比較頻繁。我在的時候可能矽谷已經經過這個階段了，所以矽谷剩下來的那些人整體年紀還比較大，但國內可能還沒有經過這個階段。其實我感覺很多 程式設計師的工作年齡被稀釋了 ，做得好就有可能轉管理層之類，而那種資深程式設計師就相對比較少一點。

【新程式設計師】：兩個環境的差異主要有哪些？

潘欣：國內團隊的 執行力會很強 ，對於 細節的追求 也更高一些，工程化、產品化的能力非常強。矽谷則推崇 自主創新 ，希望能夠發揮人的主觀能動性。但是矽谷沒那麽高度流程化，很少會嚴格規定每個人要執行哪些任務。

【新程式設計師】：你的自我驅動力和創新意識是在矽谷的環境下浸染出來的嗎？

潘欣：對，矽谷文化特別擅長於 從 0 到 1 的創新思維和原型開發 ，經常孕育出突破性的想法和吸引人的演示版本。相比於國內，矽谷可能在將一個初步的想法或產品原型進行深度最佳化、精細化打磨和長期叠代以達到極致使用者體驗方面，並不如國內那麽專註或持久。國內的 產品開發文化 在某種程度上更註重產品的叠代升級，盡管也可能存在過度叠代導致產品過於復雜的情況，所以我覺得國內在某些產品的體驗上會更好一些。

【新程式設計師】：這種精神是許多開發者在呼籲的。現在業界流行「對標 OpenAI」的聲音，所以很多人希望我們跳出跟隨者的步伐，有自己的創新力。

潘欣：矽谷擅長從 0 到 1 是有很多原因的。第一，矽谷吸引全世界而非僅限於中國的人才，所以 人才密度是比國內要大很多的 。第二是矽谷的 風險投資環境非常發達 ，頂級風投願意投資處於早期階段但極具潛力和創新性的計畫，甚至一些大公司也願意砸很多錢，在內部去孵化一些很酷的計畫，比如 Google 的無人車和熱氣球 Wi-Fi。國內可能就 不太敢賭 ，很少有人願意為這些高風險的、具有突破性的前沿計畫做投資，所以現在我們往往看到創新都是出現在矽谷裏的。

【新程式設計師】：所以這些都是現實的原因，但當前這些問題可能很難發生改變。

潘欣：我感覺從體制上也還是有希望的，比如說國內的投資者數量可以逐步增長。實際上 國內不缺人才 ，只要有足夠的資金投入和優秀的孵化平台，就能夠把這些散落的人聚集起來，形成比較好的人才密度。我覺得現在的清華就是一個例子， 現在很多論文就有清華的影子 ，包括當前 Diffusion 模型的一些比較新穎的概念都是清華提出來的 。

【新程式設計師】：關於你提到的人才密度問題，業內不乏許多悲觀的聲音。 ChatGPT、Sora、Llama 2……這些釋出總能讓我們驚呼一夜變天，許多人說「為什麽中國那麽多優秀人才進入這個行業都做不好」，你的觀點是怎樣的？

潘欣：我覺得國內依舊還是 起步太晚了 。OpenAI 其實成立的時間還挺早的，而我記得 2016 年的時候就有 Google 的同事跳槽到 OpenAI 了（即前文提及的 GAN 之父 Ian Goodfellow）。OpenAI 當時很亂，還在糾結強化學習之類的， Ian 去待了一年覺得不靠譜，所以又回到 Google 。但再反觀 2016 年的國內，又顯得 OpenAI 起步很早了。因此我感覺 國內很多所謂的 AI 人才可能都是在 ChatGPT 出現之後才被發現的，他們在此之前可能都不是 AI 領域的 。矽谷把從 0 到 1 的東西做完之後，國內的人才展現出了極高的學習效率和轉化能力，能在較短時間內跟進並取得一定的研究成果和產品。

此外，矽谷也沒有停滯不前，他們也在高速發展，這就導致我們總感覺 矽谷快人一步 。更何況還有像輝達這種長達幾十年積累的一些公司，都是不可能快速復制的。我對此也不太悲觀，重要的是堅持學習，並 在未來能夠調整策略 ，將更多的資源傾註到具有前瞻性和早期探索性的研究計畫上。

【新程式設計師】：國內的創業公司經不起太多的試錯。

潘欣：矽谷依托於美國的金融能力和科研底蘊，有能力篩選並支持那些處於早期階段、具有潛在價值的創新計畫，確保它們獲得必要的資金，進而得以順利推進直至成功。現在國內的問題在於能否給這些人才提供足夠寬容和支持的土壤，因為不是每個天才起步都是百萬富翁， 他們也是需要啟動資金的 。

在零一萬物想打造以人為本的 AGI

【新程式設計師】：從國內大廠到創業公司，你都有哪些思考？

潘欣：從小程式設計師到中層，從中層再到一兩百人團隊的管理層，我在大廠 能經歷的都經歷過了 。面對現在這場 AI 2.0浪潮，我覺得加入像零一萬物這樣的初創公司會有更多的可能性，而且自由度也會更高一些， 能花費更多的時間專研在技術和產品上 。大廠的話，自我發揮的空間有會局限性，有時候會出現這種情況：在一個團隊待久了，任務和目的變得越來越清晰，分工也徹底固定下來了。

【新程式設計師】：為什麽在眾多公司裏選擇了零一萬物？

潘欣：我選擇的時候也沒什麽糾結的。

第一個原因就是緣分。有一些 Google 的前同事向開復老師推薦了我，在零一萬物招人的時候說打聽到了我的訊息，然後我就和開復老師好好聊了一下。開復老師介紹了團隊狀況，還告訴我「 想打造創新的全球 AI 平台，讓 AGI（通用人工智慧）普惠各地，人人受益。 」在建設 AGI 的路上，零一萬物還會透過數據科學（包括數據數量和數據品質）、訓練科學（數據配比、超參數設定、實驗平台等）、訓練 Infra 等自研的「 訓模科學 」，從零訓練自己的大模型。我聽完之後感受到了共鳴，因為我也想打造一個超越人類智慧的 AGI，但這個 AGI 並不會淘汰人類，而是給更多的人帶來幫助，與人類能夠和諧共處。

至於第二個原因就是 零一萬物的人才密度和高度 。

【新程式設計師】：你提到了李開復博士和你的願景是一致的，對於人與 AI 的相處模式，你的思考是什麽樣的？

潘欣： AGI 未來會朝兩個可能性發展。一種是 被少數人掌控 ，絕大多數的人可能都不具備開發和改造 AGI 的能力，並逐漸失去自我價值；一種是 人人都能共享 AGI ，每個人都能參與建設 AGI 去貢獻，並彼此分享使用 AGI 的能力。

【新程式設計師】：零一萬物打造 AGI 的路上都遇到了哪些挑戰？

潘欣：目前還是有一些挑戰。和 OpenAI、Google 等公司比，我們的算力相對少。但是基於我們業內頂尖的 AI Infra 技術，我們在算力利用上更加高效和專註。

還有很多人關註的 AIGC 問題，當前生成視訊的天花板無疑是 Sora ，但在實際使用的過程中，其可控性還需要強化才能套用在更多產品中。 從 Sora 的模型最佳化目標、模型架構上看，它應該不會成為通往 AGI 的路徑 ，反而更像是一個高品質視訊解碼器，幫你基於設定好的劇情生成一段視訊。Sora 本身不能生成很有意思的劇本或故事。AGI 模型最佳化目標應該是基於天量壓縮數據和長上下文資訊去進行未來預測，更可能存在（能創作故事的）於 GPT 當中。我更傾向於 LLM 負責思考，Diffusion 負責解碼成高品質影像、視訊、聲音的定位。

【新程式設計師】：前段時間 Jason Wei 自曝他的「996 作息表」，在網路上很火。你在「新環境」的一天是怎麽樣的？

潘欣：8 點多起床，然後 9 點多到公司。我現在有比較多的時間能夠去做一些親身實驗的、更偏向技術層面的事情，比如說數據清洗和模型的訓練調優。小部份的時間我可能在開會，但相比在大廠的時候開會肯定少很多。到周末，我會有時間去讀讀論文，平時利用碎片化時間也會讀一點。如今很多論文相似性比較大，讀多了之後速度就快了，一天可以讀個四五篇，如若讀得精則一天能看一兩篇。

【新程式設計師】：到目前為止你整體的狀態如何？

潘欣：還可以，每天都在做實事，每天都有產出。

【新程式設計師】：用幾個關鍵詞總結你的情緒？

潘欣：很有意思，有趣並且有收獲。

【新程式設計師】：你在零一萬物當前負責的是多模態研發，現在團隊有多少人？

潘欣：十個人左右， 平均三十歲左右 。我主要關註多模態和產品結合的技術和套用問題。大家都有 AGI 的信仰，有著初創企業敢打敢拼的創新精神，每一天都在突破各自的技術能力邊界。另外，「跨界共創」是零一萬物的特色之一，不同的團隊夥伴可以坐在一起，為一個計畫的最好效果一起打拼。

【新程式設計師】：在多模態方向，具體的目標是什麽樣的？

潘欣：短期內，一方面我關註的是生產力場景的多模態理解問題，即探究 AI 如何通用的理解任意長文件、截圖、螢幕內容，並進行推理、解答、執行。

舉例來說，給 AI 閱讀一份 100 頁的財報，其中有各式各樣的餅狀圖、折線圖等視覺元素和布局，形成了復雜的多模態場景，而且可能存在中、英、德等多種語言混雜的情況。那麽，怎樣才能讓 AI 準確地理解這類資訊？這就是我近期希望能在多模態領域解決的問題。

另一方面我也關註基於上下文和多模態條件的可控生成。比如說讓 AI 能夠記住特定的人，並能迅速、精確地將其形象整合進生成的影像或視訊中。目前技術上已經有了一些進展，比如 多模態條件影像合成 （multimodal conditional image synthesis）技術能夠快速編碼條件並控制模型的生成；此外針對這一需求的部份技術手段已經比較成熟並得到廣泛套用，例如透過一張照片就能合成高品質的人像特寫或靜態肖像。

【新程式設計師】：類似於前段時間那個用一張照片生成「科目三」舞蹈視訊的套用？

潘欣：差不多， 當前 AIGC 存在一個問題，無法生成長時間連貫一致的內容 。

如今生活在行動網際網路的人更趨向於消費視覺化的內容，這一特質促進了抖音的爆火。想要 AIGC 達到短視訊那樣的價值水平，至關重要的是 使其掌握創作連貫劇情多模態內容的能力 。當然，短期內 AIGC 可能創作不出有故事性的長視訊，因此先以類漫畫作為一個中間階段。

【新程式設計師】：這個想法什麽時候能夠落地？

潘欣：其實已經落地了。

【新程式設計師】：那前面提到的問題已經得到初步的解決了嗎？

潘欣：社群似乎還沒有一致性的方案，但是大體的路徑在我看來已經比較清晰了。幾個關鍵點： 1. 原生的多模態預訓練。 2. 更長的多模態上下文（不是 text token）。 3. MLLM 和 Diffusion 深度的結合。

【新程式設計師】：大模型的訓練和推理在當前都面臨哪些挑戰？

潘欣：從整個行業上看，大家都面臨很多挑戰，國內同行共同面臨的主要的挑戰是 速度不夠快、成本太高 。我覺得這個問題得專業分工解決，需要讓各自 Infra 的團隊去進行最佳化，裏面有很多的技巧。比如模型並列、數據並列、流水線並列還有針對某些特殊模型結構的分布式設計等等，在不同場景下，最佳化的角度和方法各不相同，可以從模型精度、輸入輸出（IO）效能等多個維度進行考量，並且存在多種最佳化手段，其中既有犧牲一定精度換取速度提升的方法，也有在保證精度前提下的無失真最佳化策略。

【新程式設計師】：大模型面臨的痛點如此之多，目前大家都沒能得到很好的解答。

潘欣：這跟人工智慧底層技術有一定關系，現在神經網路裏面有很多黑盒，並不是可以直接透過公式推導得出結果（多維空間的求解）的東西，因此比起用數學精確推導，人工智慧更需要多做實驗去探索和論證。而 如今實驗的成本越來越高，叠代周期延長，試錯也變得很慢 。

【新程式設計師】：比爾·蓋茲在采訪 Sam Altman 的時候，Altman 表示今年是多模態發展的一年，他看到的未來非常遙遠。你對多模態的下一步有哪些思考嗎？

潘欣：我覺得 他們都是站在高處思考，看到的更多是「美麗的風景」，滿眼都是機會與可能性 。我現在站在具體套用能看到很多技術問題，並且會更偏向於在比較具體的一些產品問題上去做這件事情。

至於 多模態的未來，比較重要的是多模態 Pretrain 方法 。現在多模態訓練更像是打修補程式，缺少「多模態的 next token prediction「。舉個例子，比如我們想讓模型看懂任意 chart （有些真的很難懂），透過後期收集所有復雜型別的 chart 和標註然後 continue train 是很別扭的。按道理 pretrain 階段模型就應該能見過且壓縮互聯網所有型別的 chart。

【新程式設計師】：當你的團隊面臨一個問題時，具體從問題發現到解決方案實施的全過程是怎樣的？

潘欣：相對於大公司， 初創公司有集中力量辦大事的體制優越性 ，問題發現到解決方案實施的閉環速度比較快，我一旦碰到技術難點就能很快把想辦法應對，然後快速地在產品裏得到驗證。總之正向反饋還是挺好的。

具體舉例來說，早期我們讓 AI 去閱讀一份字號比較小的文件，一般的方法是讓多模態模型的視覺編碼器將圖片縮小至較低分辨率（如 224×224 或 448×448）再去理解。這種架構用來理解一些 benchmark 是沒問題的，但如果是精確辨識實際場景中數位小數點的情況就不行了，因為分辨率太小，可能 5 和 6 這種字形相近的數位就看不清楚。 這是目前很多模型都面臨的問題 。所以，我們快速添加了一個更大分辨率（如 1024×1024）的視覺編碼器再訓練一下，如此一來模型就能看到圖片裏面很小的細節了。

【新程式設計師】：這個解決方案是怎麽想到的？

潘欣： 50% 來自於學術界已發表的前沿論文，50% 是我們做出的改進 。其實大部份問題的答案都藏在論文裏，現在的問題就是論文太多了，品質很好的論文被藏到了眾多沒有價值的論文裏面，良莠不齊。所以要把好論文挖掘出來是比較難的。

【新程式設計師】：有什麽「挖掘」好論文的心得？

潘欣：首先是速讀論文，然後盡量找那種出名的機構釋出的論文，可信度會高一些。除此之外，我們有時候會分工去讀論文，或者和別人做一些溝通討論，再就是可以看看業界其他大佬的意見。 現在 AI 界的大佬很喜歡用 X，所以 X 上可以看到一些高品質的論文分享 。

大模型公司創業潮遠未到「AI 寒冬」階段

【新程式設計師】：近期輝達市值一路高漲，推理和訓練的算力成本已經是公眾共同關註的話題。你怎麽看？

潘欣：算力資源現在是供需不均衡， 這個得仰賴算力資源的供給側的多元化 ，因為硬體須要在更多參與者的環境下才能更快降低價格。

【新程式設計師】：國內現在也有一些算力供應商為大模型提供服務，你有看到什麽可行的初步方向嗎？

潘欣：Transformer 架構已成為深度學習領域的主流，可以聚焦於 Transformer 的具體最佳化。輝達也不傻，他們知道自己被很多人盯著，所以也在往 專用化 去做，利用類似輝達 Tensor Core、Transformer Engine 這樣的專門為加速矩陣運算和 Transformer 層設計的硬體單元。

我對此還是比較樂觀的，因為這種最佳化可以疊加 。那要是能源、算力和模型都能最佳化兩倍，就會是 2 × 2 × 2 而不是 2 + 2 + 2，呈現出指數級的增長。只要大家每年在各個方向最佳化兩倍，最終疊加起來可能就是幾十倍、上百倍的最佳化，所以我樂觀估計算力成本肯定會降下來，並且是 以每年數倍的速度下降 。

當然，成本下降之後大家可能又會想做更大參數的模型，所以 再多的算力最後也能被消化掉 。

【新程式設計師】：從位元幣一直到現在的 AI，技術趨勢一直在不確定性中演進，但輝達至始至終都在做算力，最終找到了一條成功的路徑。

潘欣：我覺得這裏面可能還是有很多偶然的因素。輝達應該也沒有規劃 AI 這條路，更沒想到 CUDA 會成為輝達在 AI GPU 裏的一大優勢。所以說， 只要堅定不移地去做有用的技術，說不定哪一天就會有更大的價值 。特別是對大公司而言，堅持一件長時間沒有收獲的事情是格外困難的。

【新程式設計師】：那對創業公司呢？

潘欣：創業公司也很難，因為創業公司沒有 強大的現金流 。所以很多成功的公司其實在創業階段都經歷過九死一生的時候，例如 特斯拉 就曾命垂一線，後來熬過了最艱難的階段成就了今天的馬斯克。此外，輝達早期也是差點破產。

【新程式設計師】：創業公司在國內一直有很悲觀的論調，許多時候其命運總是被大廠收購。針對當前這一輪大模型創業潮，你有哪些想法？

潘欣：我不會花太多時間想這些事情，因為這種都屬於短期的成敗。關鍵問題在於，AI 未來能不能長期的發展？整個賽道會不會做得更寬？且賽道寬度又是什麽樣子，是否能一直在 AI 這條賽道上做有意思的事情？包含 OpenAI 本身也是初創企業的崛起過程，它從 0 到 1 再到挑戰巨頭，背後是掌舵者的堅定和團隊的凝聚力，不斷創新叠代且堅持下來。所以我覺得，總會有一些初創公司能夠在技術創新和商業實踐中脫穎而出，獲得真正的成功。

【新程式設計師】：你在框架領域其實經歷過許多開源，這一路下來都有過哪些思考？

潘欣：開源肯定是個 雙刃劍 ，它好的一面在於快速地 促進了資訊的交流和復用 ，節省了全人類的很多資源，避免了重復造輪子。但開源自身也帶來了一些問題，比如開源工具可以被人們用來造假，很多假新聞或假訊息翻好幾倍，現在還有效果很好的深度偽造技術和語音合成模型，這些都是開源的一大危害。

除此之外開源可能會導致一些 強者通吃 的局面。比如谷歌開源了某個很好的東西，很多人直接就拿來用了，潛在的扼殺了一些自研的多樣性和創造性，也減少了一些工作機會。我覺得要辯證看待這個事情，因為有時候人類發展太快不一定會是好事，現在人類手上不可控的一些高科技已經越來越多了，從核能、生物技術到 AI 都是雙刃劍，所以 技術高速發展的時候也會挺懷念歲月靜好的 。

【新程式設計師】：很多人工智慧學者、專家也想到了這點，聯合簽署好幾份檔了。

潘欣：他們的出發點是好的，但現在就是停止研究也沒用，對吧？開源或是論文發表很容易加速這種研究。我希望的是 技術能夠造福人類的同時不會對人類帶來傷害 ，這種想法比較烏托邦。

【新程式設計師】：上一波 AI 浪潮在 2018-2019 年左右，很多人都怕再經歷一次「AI 寒冬」，憂慮 AGI 什麽時候會到來，你現在對此有答案嗎？

潘欣：我覺得這一波浪潮會比上一波走得更遠一點，它們 本質不同 。

上一波 AI 浪潮 沒有任何智慧誕生 ，本質就是訓練了一個對映器，其中的典型套用是轉譯、人臉辨識和語音辨識，存在很明確的對映關系。但是 今天這波生成式其實已經有智慧的感覺了 ，如果你經常去用 GPT-4 就會發現，它的通用性雖然沒法用數據量化，但我們還是能體感出 GPT 在像人一樣思考。

我感覺 以 GPT 當前的能力，能產生的套用肯定遠不止於此 ，還沒到（AI 寒冬）那個階段。這一波浪潮至少在套用層面上還遠沒有到收斂的階段，只是因為技術剛出來，大家都還沒搞清楚應該做什麽套用，怎麽去把 AI 變成價值。

當然，未來也可能碰到瓶頸，比如到 GPT-5 就停滯不前，或者像自動駕駛技術那樣總是「還差一點點」，甚至邊際收益越來越小。或許 AGI 到明年就出來了，這些都是有可能的。

【新程式設計師】： AIGC 究竟能做什麽套用確實是很多人頭疼的問題，你有什麽想法可以分享嗎？

潘欣： 如果不考慮算力成本的話，AIGC 的通用性足以讓已有的全部套用被重寫一遍 。但如果考慮算力成本就難說了，因為許多東西的增量收益是未知的。

更值得思考的是會出現什麽全新的套用。

我認為目前還沒有套用爆發是因為關鍵 AI 資源被壟斷了 。想當年行動網際網路時代產品不斷井噴，是因為整個行動網際網路的基礎設施十分健全，每個人都可以低成本去開發和客製自己的 App。但現在所有人存取 GPT-4 只能透過 OpenAI 的介面，微調和客製都有較大限制。而自己研發模型又受啟動資金和技術資源限制。

【新程式設計師】：你認為在大模型時代的開發者身上，最重要的特質是什麽？

潘欣：需要懂模型，用模型。

【新程式設計師】：對於開發者而言，AIGC 套用創新是一大難題，因為我們做出自己認知以外的東西。你認為在當今的現實情況下，開發者應該怎麽做？

潘欣：OpenAI 只給開發者們開了一道很小的「孔」，創意沒有得到完全釋放。初級開發者可以充分利用現有的 API 功能來探索新的套用場景。而對於有一定經驗的開發者，他們可以進一步研究開源數據和模型，借助這些資源進行更深層次的創新實踐。財力較為雄厚的團隊，可以選擇投資更多的模型客製研發工作，透過對已有模型進行改良甚至建立全新的模型結構以滿足特殊場景需求。所以 不同環境下的開發者，采取開發的方法都是不一樣的 。

推薦閱讀：

零一萬物潘欣：Sora 無法讓 AGI 到來，GPT 才是關鍵 | AGI 技術 50 人