當前位置: 妍妍網 > 資訊

26 歲面壁智慧 CTO 曾國洋:「卷」參數沒意義,不提升模型效率,參數越大浪費越多 | AGI 技術 50 人

2024-04-18資訊

在人工智慧的世界,有一群人正深耕於推動通用人工智慧(AGI)從科幻走向現實。CSDN、【新程式設計師】特別策劃「AGI 技術 50 人」訪談欄目,挖掘 AI 背後的思考,激蕩 AGI 的智慧,走近那些在 AI 領域不斷探索、勇於創新的思想領袖和技術先鋒們的心路歷程。

本期主角曾國洋,年僅 26 歲,8 學歲編程、奧賽冠軍保送清華,高三去曠視實習走上 AI 之路,誤打誤撞成為中國首批大模型研究員,接著在 25 歲這一年成為大模型明星創業公司 CTO。他的身上,散發著典型的技術少年天才的聰明勁兒,一切為了好玩兒,一起從曾國洋的思考和摸爬滾打中,看 AGI 的發展脈絡。

作者 | 唐小引、屠敏

出品丨AI 科技大本營(ID:rgznai100)

2022 年 11 月底,ChatGPT 問世,世界很興奮,但國內諸多 AI 從業者卻有些悲觀,認為我們離 ChatGPT 距離實在太遠,可能至少要在 2024 年的某個時間點才能趕上。此時,剛過完春節的曾國洋,忍不住自掏腰包找人標註了 200 多條數據,一看模型訓練效果提升得非常明顯,頓時讓他一掃陰霾,「讓我感覺這個事其實並沒有想象那麽遠」。

曾國洋,這位 1998 年出生的大模型明星創業公司的 CTO ,常被冠以「AI 小神童」的稱呼。和 OpenAI CEO Sam Altman 一樣,也是 8 歲開始學編程。他的身上,頗有 Linus 的「Just for fun」的意味,「厲害」、「酷」、「有意思」、「蠻有挑戰」是他若幹選擇背後的出發點。

年少之時,因為大家都覺得編程很厲害,由此自學電腦走上了編程之路,又從 Visual Basic 轉戰 C/C++、攻克各種演算法;因為聽說競賽挺難,就走上了競賽之路,高二獲全國青少年資訊學競賽金牌( 全國 50 人 )、亞太地區資訊學競賽金牌保送清華。「我對電腦領域裏具有挑戰性的事物,向來都是挺感興趣的」,聊起自己的程式人生,曾國洋的眼神裏滿是興奮。

高三時,當同齡人還在熬燈夜戰擠過獨木橋之時,曾國洋已經蹬著自由車跑去當時的 AI 先鋒創業公司實習了,這就是後來以群聚一代天才人物聞名的「中國 AI 四小龍」之一曠視公司。在曠視,曾國洋初嘗到了「AI 能解決的問題往往僅靠寫程式碼都解決不了」的甜頭,自此正式步入 AI 領域。

後來於大二期間,在舍友的引薦下,他加入清華大學 NLP 實驗室,成為中國最早一批大模型研究者,並擔任悟道·文源中文預訓練模型團隊骨幹成員。 2021 年,曾國洋作為聯合發起人建立了 OpenBMB 開源社群,是模型訓練加速和推理加速 BMTrain、BMInf 的主要作者之一,也是 CPM-Ant、CPM-Bee 兩期大模型的主要完成人之一。 2022 年,在清華大學電腦系長聘副教授劉知遠的集結之下,願景為「智周萬物」的面壁智慧在北京成立,曾國洋自此成為這家初創公司的技術 1 號位。 在此之前,曾國洋手裏已經拿到了不少的 Offer,最終卻都沒有去,核心是因為覺得創業這件事兒蠻有挑戰性,於他而言,再優厚的條件相比 AGI 征途的召喚都顯得無味許多。

AGI、大模型這件事,在他的手裏變得格外好玩兒, 在公司內部搞了各種各樣的 Agent 玩耍。比如,為了更高效地讀論文,做了個自動推薦論文的 Agent;為了避免選擇困難癥,把公司樓下固定會去的比較下飯的滿盆香川菜館的選單餵給模型,給了些葷素搭配等的要求,生成今日推薦,解決了「今天吃什麽」這個難題。

面壁智慧,位於五道口的科建大廈,與智源人工智慧研究院僅僅是隔一條馬路,隔壁是清華科技園,與搜狐網路大廈、東升大廈相離不遠。五道口群集大模型,曾國洋說出去吃飯一般都沒法聊工作,因為附近友商著實太多。

但大模型公司之間的關系又很難單純用競合來言明,清華系占據中國大模型半壁江山,彼此互為師友,智源、智譜 AI 也都參與過面壁的起步與投資。

而從清華 NLP 實驗室到如今的面壁智慧,對大模型的不斷嘗試與研究,也取得了不少階段性的成果。於 2018 年就釋出了全球第一個基於知識指導的預訓練模型 ERNIE,而後相繼帶來千億多模態大模型 Luca,更是率先以效能小鋼炮 MiniCPM 2B 另辟蹊徑搶灘端側裝置。

從初期卷參數量,到現在瞄準「套用落地場景」,我們儼然進入了大模型的下半場。現實中的技術與理想中的套用究竟還差多少,時至今日,我們距離 OpenAI、AGI、技術終點還有多遠。【AGI 技術 50 人】和年僅 26 歲、掌舵初創「黑馬」面壁智慧技術棧 2 年的曾國洋面對面地聊了聊。

8 歲學編程,Just for Fun 的 AI 之路

【新程式設計師】:你的編程啟蒙來自哪裏?

曾國洋: 我是自己感興趣,自學開啟的。

【新程式設計師】:是如何接觸上編程從而產生興趣的?

曾國洋: 我從小對電腦就比較感興趣,接觸到電腦的時間其實非常早。小時候我的身邊,包括我的朋友、老師、父母都潛移默化地告訴我,學電腦、會編程很厲害。 那時我就覺得要是很厲害,得學一學。 當時其實也都不太懂,只是大家對電腦特別厲害的人有個「會寫程式碼」的概念。

於是我嘗試著去學習,從 Visual Basic 開始,最早是在網上各種查資料,也是懵懵懂懂的狀態,看不懂程式碼寫的是什麽。直到上中學後開始系統性地接觸了用 C/C++ 語言編程,越來越多地看一些國內外的資料,嘗試寫了更多復雜程式。

【新程式設計師】:一直保持著編程的習慣嗎?

曾國洋: 我特別喜歡寫程式碼,上大學後也和同學、學弟一起做過很多計畫,包括參加學校舉辦的智慧體大賽、挑戰杯等等。

但不同階段確實不一樣,對程式設計師來說,如果在一線寫程式碼,最主要時間都在寫程式碼。而我現在的狀態是屬於開會、開會、開會。

隨著公司人越來越多,也是需要越來越多地做一些溝通上的工作。公司初創之時一直到去年年初時,其實也就只有 10 個人不到,我就還在一線寫程式碼,每天工作特別充實、成就感也很強。

那時候其實也沒多少錢,但大家都是在拼命地做模型。去年 5 月份後,公司人越來越多了,但這個時候我就發現要將這麽多人有效地組織起來其實挺難的。

現在回過頭來看,要訓好大模型,對整個團隊協作的要求非常之高。

為了訓大模型,我們會有數據清理、清洗標註、評測團隊,訓練 Infra、運維、演算法的團隊。除此之外,還有各種各樣的團隊,這麽多團隊大家得一起協作起來,才能讓大模型穩定良好地訓起來。

我們也在打造 AI 原生的組織,來更高地適應一家 AGI 組織的高速發展。

【新程式設計師】:不直接參與寫程式碼,會有些遺憾嗎?

曾國洋: 還好,當然我有時候也會抽點時間搞點程式碼到模型上試一試,做些有意思的小事情。既能驗證我在大模型上的一些想法,也有可能形成一些有意思的原型,也許就能幫助公司找到更好的落地方向。

還記得我們最開始訓模型的時候,公司內部建了一個「CPM 鑒賞群」。

當時我們試著用模型去寫小說,每天寫一段讓大家一起欣賞。現在大家看到的模型多數都是經過對齊之後的模型,這限制了模型自由發揮的能力,我們內部的基座模型當時還沒有做對齊,在創作方面的能力遠比大家現在看到的更強,效果也特別有意思。

我感覺做大模型有點像發現新大陸一樣,你知道有一片很大的空間,但不知道它到底能發展成什麽樣,究竟有多大。 值得確信的是,可以感受到它的未來非常有潛力,我們要盡快地在上面占領到自己的領地,然後進一步開疆拓土。

【新程式設計師】:最開始是怎麽走上競賽這條路的?

曾國洋: 同樣也是聽說這些競賽都比較難。我對電腦領域裏有挑戰性的東西,向來都挺感興趣的。

【新程式設計師】:初次接觸 AI,你是在進入曠視實習之前,還是之後?

曾國洋:去實習時才接觸到的。還記得那是 2015 年,這個時間節點也是恰巧趕上了深度學習引發一波 AI 熱潮的尾巴。我個人對 AI 非常感興趣,因為 AI 能解決的問題往往僅靠寫程式碼都解決不了,這也意味著 AI 可以用來解決一些很有挑戰性的問題。2016 年 AlphaGo 的出現,也給我們帶來了非常大的震撼。

【新程式設計師】:實習期間有做出什麽讓你成就感很大的事情嗎?

曾國洋: 當時我負責做行人的相關檢測。其中讓我感受最深刻的是我設計了一個程式,能透過室內網路攝影機監測,把一個人在室內多個網路攝影機下的活動軌跡繪制出來,這個計畫還是比較有意思的。

不過,在嘗試做了多個計畫之後,給我最大的感受還是,在不同的網路攝影機配置、不同的場景下,AI 的通用性其實並沒有那麽好。那個時候的我,雖然看到了問題所在,但還沒辦法做改變,那時候還比較懵懂。

【新程式設計師】:你覺得對自己影響最大的人是誰?

曾國洋: 其實對我有影響的人還挺多的。首先,我要感謝我的父母,是他們告訴我要去編程,最初如果沒有人提這個東西的話,我可能也不會意識到還有這麽厲害的技術。

第二,對我比較有影響的是我的小學班主任。當時我成績沒那麽好,也比較貪玩,喜歡做一些學習以外的事情,後來老師單獨找到並激勵了我,從那以後我才開始認真學習。

第三,中學時期的電腦老師引領我走上了競賽的道路,我對此也特別感激,因為在競賽這條路上,我接觸到了很多優秀的人,也打下了深厚的演算法基礎。就是在這個時候,我就開始閱讀各種論文,並深入學習演算法,也意識到演算法才是真正解決問題的關鍵。此後,我開始系統地學習演算法,了解它們的廣泛套用,培養了解決問題的思維方式。

第四個對我影響較大的是在 2015 年引我進入到 AI 領域的導師,因為如果我不在那個時候進入,後面就沒什麽機會進入。

說來也巧,剛好在那一年的冬令營上,曠視在招人,也剛好是那一年,我高中的輔導競賽老師告訴我有這個事兒,說我可以去試一下。然後,我剛好去試了一下,剛好就透過了,一切都是剛剛好。

【新程式設計師】:你其實會對有挑戰的事情很興奮。綜合起來,你到現在最快樂的時光是什麽樣的?

曾國洋: 我感覺快樂時光還挺多的,畢竟如果一直做自己喜歡做的事的話,每次有產出的時候都會比較快樂。

當然最快樂的時光還是在做大模型之後,第一次讓我感到非常快樂的節點是在當時訓練完 CPM-1 的時候。那個計畫時間非常緊,在做 CPM-1 時,國內還沒有人在做大模型,甚至連虛擬大模型的集群都找不到,因為之前沒有這樣的需求。所以當時我們連夜拉著清華高效能的同學一起努力,將這些資源整合起來。在不到一個月的時間內,我們從零開始完成了一個大模型的訓練。訓練完之後,效果非常好,也非常有趣。

當時的模型還沒有所謂的對齊技術,只是一些文本續寫的模型,但它能夠寫出很好的小作文,甚至可以將你同學的名字寫進去。 這是我第一次感到非常快樂的經歷,也讓我堅信大模型在未來有很大的發展空間,非常渴望去繼續研究大模型。

第二次讓我感到快樂的時刻是在 2022 年 11 月底 ChatGPT 問世後。起初,我們很多人坐在一起討論如何追趕,最終得出一個「預估需要一年多的時間,可能在 2024 年的某個時間點才能趕上「的結論。當時大家對這個認知還挺悲觀的,在 2023 年 1 月份的春節回來後,我自掏腰包找人標註了 200 多條像 ChatGPT 這樣的數據,用於我們的模型訓練。突然間,模型效果變得非常好,超出了我們的預期,這讓我覺得我們離它實際上並沒有想象中那麽遙遠。

創業這兩年:從卷參數到效率為先

【新程式設計師】:不少清華學子本科之後選擇了碩博連讀,當時你是否考慮過這條路?

曾國洋: 我個人還是比較想做一些偏套用落地的工作。

【新程式設計師】: 你當時還拿了一些 Offer,卻都沒有去。

曾國洋: 因為我在大三時已經有了創業的想法。當時其實還沒有說要做大模型,但我已經確定下來要創業了。因為我覺得創業這件事兒比較有挑戰,直接去工作的話,顯得有點枯燥。

【新程式設計師】:創業下來,感受如何?

曾國洋: 有挑戰性,壓力也會比較大,因為創業和上班不一樣。上班是只需要完成工作就可以賺取薪資,創業則明顯不同,不僅需要思考公司如何賺錢,還需要平衡各種各樣的開銷、招聘、攻克技術方向、與投資人對接等等。

這對我來說,挑戰還是非常挺大的,因為它不再單單是一個寫程式碼這麽純粹的事情。

【新程式設計師】:現在大模型有很多是來自清華創業的,當時大家為什麽不一起做大模型?

曾國洋: 有各自的原因,大家可能目標以及現有的情況也不太一樣,當時其實也沒人想那麽多,所以大家都覺得大模型好,你得好好搞。

【新程式設計師】:你們的第一個中文大語言模型 CPM-1 是在哪年釋出的?

曾國洋: 2020 年 12 月,在智源一個活動的展區裏,我們就在一張桌子上放著一台電腦,後面接個顯視器,大家圍成一圈,每個人在上面模型上隨便試,覺得特別有意思。

那個時候,一方面,我們的推理技術還不夠完善,無法大規模地對外提供服務。而如今的大模型推理效率提升了幾十倍,甚至上百倍。另一方面,也沒有人專註於安全相關的工作,我們不敢匆忙釋出。

不過,雖然只是一個簡單而粗糙的演示,但確實引起了很多關註。

後來到 2021 年初,從我們的悟道計畫到華為的盤古計畫,越來越多的人開始跟進,在國內掀起了一波大模型的熱潮。

最早我們做出來的只是一個 2.4B 模型,和我們釋出的 MiniCPM-2B 規格差不多,但那時的 2.4B 模型在 V100 的 GPU 上要過好幾秒才能出來幾個字。把 2020 年的技術換算過來,還沒有現在手機端模型跑得快。

【新程式設計師】: 我看到你將大模型分為類似於大杯和超大杯這樣的類別,在此之前,不少 AI 公司都在追求訓練更大的模型。

曾國洋: 一味地追求模型參數量這條路是走不通的。 國內這兩年不少人的實踐也證明了這一點:2021-2022 年期間,國內很多企業做大模型時開始卷參數量,最早我們做到了 2.4B 參數量,然後行業有人做到千億、萬億,甚至是十萬億,現在大家都「卷」不動了。 越到後面,大家就越容易發現,參數量更大,不代表模型效果更好。

在模型訓練中,參數量只是其中的一個變量,還有很多其他變量會影響模型的訓練效果。對於面壁智慧而言,我們更關心的是效率,這是為什麽我們在釋出 MiniCPM 時一直強調的事情。大模型的效率會很關鍵。

【新程式設計師】:怎麽想到效率這個事的?

曾國洋: 這也是我回看國內初始階段「卷」參數量再到 ChatGPT 釋出時大家在猜它到底是個多大的模型時想到的。

GPT-3 擁有 1750 億參數量,大家都在猜測 ChatGPT 會不會是個萬億規模的模型產品,但實際得到的訊息是——它大概有幾十 B,比 GPT-3 更小,但是更小參數模型可以達到更好效果。

這就像起初我們「卷」參數「卷」下來,其實還是沒達到 ChatGPT 的水平。 在大模型中,我們不應該一味地追求參數,而應該追求更高的模型效率,更最佳化的智慧訓練配置,用更小的參數量達到更好的效果,用更低的成本幹成更大的事。

「百模大戰」的下半場拉開帷幕

【新程式設計師】: 現在各大廠商幾乎都有了自家的大模型,「百模大戰」的下半場其實就進入到了 AI 原生套用階段,但不少人都覺得迷茫,有一種「拿著錘子找釘子」的感覺。

曾國洋:我認為要做套用,如果沒有一個專門的模型團隊來支撐,將會面臨相當大的挑戰。 因為如果完全依賴外部的模型,你的核心能力將會受到很大限制,因為這些模型是由外部團隊控制的,而非由你的團隊掌控。

【新程式設計師】:這意味公司要有一個自己的模型,然後從模型到套用?

曾國洋: 這是我的感受。當無法訓練模型時,情況就會變得相當痛苦。

我日常會進行一些有趣的探索,比如驗證我們現有的模型是否能夠滿足要求,以及我們與目標之間存在多大差距。如果差距不大,可以進一步推廣套用。這種探索不僅能指導模型的前進演化方向,還能給套用帶來新的想法。

【新程式設計師】: 我理解的是做套用的人肯定會比做模型更多的,很多套用開發者會直接選擇第三方模型。另外,自己做模型成本很高,大部份公司會沒有辦法負擔成本。

曾國洋: 這也是對於套用開發者來說比較麻煩的事情。就像在 ChatGPT 推出之前,許多套用都是基於 OpenAI 的 GPT-3 構建的,但隨著 ChatGPT 的推出,很多套用就被淘汰了。

當你的核心能力依賴於第三方模型時,確實會遇到這些問題。 現在的技術進步還沒有遇到瓶頸期,叠代非常快,這就造成你現在基於一個已有模型做的一些小突破,很有可能被下次技術的叠代時就被覆蓋掉了。

【新程式設計師】:那我們該怎麽形成自己的壁壘?

曾國洋: 壁壘的種類多種多樣,可以分為短期、中期和長期。

  • 短期壁壘主要是技術層面上,例如,比別人更快地實作某一步驟,從而在短期內獲得更好的效果。

  • 中期壁壘可能涉及數據方面的優勢,在有短期壁壘和使用者基礎上,可以透過數據反饋來獲得優勢。

  • 從長期來看,除了技術和數據之外,最終還是需要在產品上建立壁壘,譬如擁有龐大的使用者群體和良好的商業模式。

  • 僅靠技術和數據很難構建更持久的壁壘,因為技術會隨著人員流動而流失,數據的邊際收益則會遞減。 所以先建立短期、再建立中期和長期的壁壘。

    【新程式設計師】:當前大家對生成式 AI 套用更多的是在嘗試的階段,還沒有爆款套用落地。你對這一塊的見解和觀察是怎樣的?

    曾國洋: 我認為當前的技術模型正在快速叠代,現在沒有並不代表將來沒有可能。有可能是基於現有技術,有人想到了一些可以實作的想法,但目前的模型還無法實作。也可能有些創意是大家還沒有想到的,而且技術仍在快速演進,所以盡管現在無法實作,但我相信未來一定會有可能實作。

    這種限制可能存在於幾個方面。一方面是模型能力的限制,另一方面是成本問題,許多有趣的套用可能成本過高,這也會阻礙創業的進行。

    這段時間有一個叫做「哄哄模擬器」的計畫就很受歡迎,然而,正是因為成本問題,一旦使用者量上來,成本有些兜不住,沒有辦法形成一個正向永續的商業模式,就會出現問題。

    不過,我覺得這一切也是向著更好的方向在發展, 現在大部份越來越強的模型,價格變得越來越便宜,成本越來越低。 就像幾年前我們構建的 CPM-1,到現在用同樣規模的 MiniCPM 其實能達到一個以前想都不敢想的效果。

    【新程式設計師】:當前所有的大模型都是用 Chat UI 的方式,對於做套用而言,你認為大模型會為 App 形態帶來什麽樣的改變?

    曾國洋: 提到 Chat UI,讓我想起來聽到過的一個更有意思的想法,叫做 AI UI,即 AI 生成 UI。現在所有的 UI 其實都是程式設計師預定義好的,但是對話只是純文本形式,如果能讓 AI 生成 UI,譬如訂個票,就可以直接讓 AI 生成訂票的界面,我覺得這是可以實作的,但是還沒人在做。

    從我的角度來說,AI UI 可能是個好的方向。

    【新程式設計師】:這意味著過去程式設計師是為了實作某個工具,人工去寫程式碼,未來是否有可能程式設計師就為了 AI 去寫程式碼?

    曾國洋: 也不能叫為了 AI 寫程式碼,我倒沒想好具體程式設計師會幹什麽,但是我覺得如果能做成那樣的話會非常酷。 倘若做成了,以後手機作業系統就不需要搭載一堆 App,只需要告訴 AI 你所需要的東西,它可以直接現場生成一個 UI。

    【新程式設計師】:你覺得還需要手機嗎?是不是有更好的終端?

    曾國洋: 有可能會有更好的端,但是這些形態我也還沒想好會是什麽樣子的。只是未來互動往這個方向發展,肯定會非常有意思。

    端側大模型的新機遇與挑戰

    【新程式設計師】:端側模型是否需要硬體廠商加入專用 AI 芯片,面壁智慧模型在這方面是怎麽做的?

    曾國洋: 我們釋出的 MiniCPM 2B 是能跑在 CPU 上的模型,可以帶來一個之前大模型沒有的空間。以前的大模型需要跑在有 GPU 的裝置上,而這樣的裝置少之又少,也不難想象,大部份的電腦可能都沒有可靠的 GPU。

    作者註:技術變換真是格外有意思,2013 年,AlexNet 作者 Alex Krizhevsky 來到 Google 時,他發現他們現有的模型都在 CPU 上執行。他覺得需要 GPU。於是他自己買了一台 GPU 機器來訓練,這讓 Google 意識到他們需要 GPU,而且是很多 GPU。於是,在 2014 年,Google 決定購買大約 40,000 個 Nvidia GPU,花費了約 1.3 億美元。十余年後的今天,當算力成本高居不下之時,在 CPU 上執行模型,成為了一大方向。

    現在像 MiniCPM 這樣的模型能在 CPU 上執行,這意味著幾乎所有的手機、電腦都可以直接執行。如果一個模型可以在 CPU 上執行,那麽它就可以嵌入到各種應用程式中。

    作為應用程式開發者,你無須關心使用者到底有沒有 GPU 裝置,只需要把大模型嵌入到應用程式中,使其具備智慧能力。此外,像 MiniCPM 這樣的模型規模也不是特別大,占據的記憶體大小約 3-4GB 便足以。我認為效率還是相當不錯的,它適用各種套用場景,也可以隨著應用程式一起釋出。

    【新程式設計師】:這屬於讓人人都有能力自己訓練、執行模型。

    曾國洋:對。MiniCPM 的規模相對較小,每個人都有能力微調它,也有能力讓它執行起來,甚至將其嵌入到各種應用程式中。

    【新程式設計師】:釋出這樣模型的目的是什麽?

    曾國洋: 對於 MiniCPM 來說,我們關註到大家對於端側模型其實持有期待。我們也希望透過這個開源模型,讓大家首先有一個比較好的基礎開展工作,其次我們也希望在此技術上進行業務探索。

    【新程式設計師】:我看到其他做端側大模型的公司,基本上都是因為自己是一個手機廠商,如小米、OPPO、三星等,他們研發大模型是為了直接整合到自家手機的系統層,面壁智慧端側大模型的機會在哪?

    曾國洋: 我認為每個人對此的看法可能不太相同。 我們釋出 MiniCPM,一方面是為了證明我們的能力,另一方面也是因為目前在端側缺乏一個非常強大的開源模型。

    透過查閱現在行業的一些評測結果,相信大家也發現,在端側實作與大模型相同效果並不是那麽容易。

    此外,我們認為在端側還有很多工作可以做。初步判斷未來 1-2 年的時間裏,我們可以在手機上執行一個與 GPT-3.5 相當水平的模型,這將帶來很多機會和挑戰。

    【新程式設計師】:國內不少人正在使用 LLaMA 等開源模型,吸引更多的人使用面壁智慧模型的契機是什麽?

    曾國洋: 這個實際上涉及到商業化方面的考慮,也包括我們為什麽要從事這項工作。

    對於核心模型而言,作為一個開源方案,能夠實作可復用和通用性是非常重要的。因為如果每個套用都使用大模型,而每個人都在手機上執行這些大模型,手機的儲存空間將會不夠用。因此,如果我們能夠有一個被廣泛認可且具備良好技術能力的開源模型,實際上可以很好地解決生態系方面的問題。這樣做將有助於推動生態系的發展,同時也能夠滿足各個套用的需求。

    【新程式設計師】:在實際做模型時,你為什麽尤為關註成本問題?

    曾國洋: 一方面是有歷史原因,我們是國內較早做大模型的,經過一段時間的實踐也可以發現有些堆參數量的模型其實效率做得並不好。雖然它們能夠達到一定的效果,但是與其投入相比,它們的價值並不那麽高,不夠劃算。對於大模型套用而言,我們關註的主要是它們的價值和成本, 越高的效率意味著它的價值越高,成本越低,而在價值和成本之間就是它的商業化空間。

    另一方面,與其稱之為把成本做低,不如叫做把效率做高。對於模型,除了 C 端使用者會關註,當模型的使用者量逐漸提升後,B 端客戶也會關註。這一點至關重要,因為如果不考慮模型規模化,現在的技術可以訓練出擁有數萬億參數的模型,但這樣規模的模型雖然能夠取得良好的效果,但它的套用成本會特別高,導致沒有人能把它用起來,帶來不了什麽價值。

    OpenAI 在成本、效率方面已經做得非常出色。GPT-3.5 之所以現在能有這麽大的使用量,一方面是因為它效果好,另一方面也是因為它成本足夠低。可以想象,假如 GPT-3.5 是 GPT-4 的成本的話,估計就沒有這麽大的使用量了。

    【新程式設計師】:AI 發展幾經起落,每個階段都會遇到一些瓶頸。這一波 AI 是否會遇到與之前相似的問題?

    曾國洋: 我覺得技術的發展會遇到瓶頸是很常態的事情。研究過程中,如果技術沒有任何瓶頸就可以一往無前,也不太符合現實邏輯,但是遇到瓶頸也不是什麽大問題。

    就當前而言,AI 技術還有很多事情可以做,國內外各家模型也在快速叠代,暫沒有什麽太大的瓶頸。

    Sora 只是量變,ChatGPT 才是質變

    【新程式設計師】:之前看到 OpenAI 釋出的 Sora,你有什麽樣的感受?

    曾國洋: 沒什麽特殊,我覺得很正常。因為我其實之前也看過很多文生圖、文生視訊相關的工作,Sora 最驚艷的點其實在於它能生成一分鐘長的視訊,但這個 在我看來只是帶來了「量變」,而 ChatGPT 的出現帶來的其實是「質變」,因為在這之前沒有一個這麽智慧的 Agent。

    在我看來,Sora 之後能帶來的質變也許是它真的能夠去生成一個沒有任何瑕疵的電影,但這個事兒有點難。包括前面我提到過,我試圖用大模型去寫小說,但為什麽最終沒有釋出呢?原因也在於大模型在進行長篇生成時很容易出現瑕疵。每個細節看上去都非常出色,但整篇文章串在一起卻發現邏輯不通。

    如果你仔細看過 Sora 官方的範例,也會發現有很多瑕疵。如果能把這個問題解決了,Sora 才可能帶來一次質變。

    【新程式設計師】:對此,你有什麽解決方案嗎?

    曾國洋: 還沒有,如果有的話,就去做了。

    【新程式設計師】:許多人認為 Sora 的實作讓我們離通用人工智慧(AGI)更近了一步,你怎麽看待?

    曾國洋: Sora 肯定對某些事情產生了影響,它實際上是一個能夠理解一些現實物理規則的模型,這證明了視訊數據中包含的資訊有助於模型理解現實物理規則。

    就實際工作而言,我認為 Sora 並沒有直接推動大模型朝著通用人工智慧(AGI)的方向發展,但從研究角度來看,它確實具有很多價值。

    【新程式設計師】:每當 OpenAI 推出新的技術或產品時,都會引起一場沖擊。之前有些創業團隊已經投入了大量資源進行的開發,隨著 OpenAI 的某個新釋出可能就會遭到淘汰。對此,我們的下一步應該怎麽做?

    曾國洋: 首先,探索是必不可少,這是研究性工作的本質。大部份進展都是透過探索獲得的,而非憑空產生的。

    由於研究工作具有階段性要求,就像樓房一層層建造,版本逐步叠代一樣。舉例來說,就像蘋果為何不直接釋出 iPhone 10 一樣。前期的工作是必不可少的,因為它們幫助驗證結果,同時也為獲得進一步的支持奠定了基礎,讓你能夠繼續進入下一個階段。

    【新程式設計師】:曾經一度,很多廠商將智慧音箱等視為智慧的入口。如今隨著大模型等技術構建起的智慧生態系發展,這與過往有哪些不一樣?

    曾國洋: 對於傳統技術來說,通常是基於程式來執行使用者指令,這樣的方式在智慧能力上存在一定的局限性,總會有一些覆蓋不到的情況。

    相比之下,AI 可以實作更多工、更加智慧以及更具個人化。舉個例子,當你回家時可能需要開啟燈、空調等裝置,傳統方式需要專門編寫相應的適配程式來滿足需求,無論是編寫程式碼還是使用低程式碼平台,都需要開發者進行開發。但是對於 AI 來說,可以直接透過自然語言處理實作自動化。這便是一大差異點,即 智慧化的程度不一樣。

    另一點可以思考的場景是, 未來不僅家庭裝置智慧化,而且外部的各種公共設施也有可能實作智慧化。

    此外,裝置或許只是一方面,Agent 的概念其實會更廣泛一些。比如說很多套用的功能可以作為一個 Agent 的形態而存在,它可以連線到一些甚至不在你周圍的事物。

    【新程式設計師】:列舉一個你能想到的套用場景?

    曾國洋: 假如我們正在開會,我可能想到一個東西,準備演示給你看。在大模型+Agent 趨勢下,我也許透過一個智慧終端可以直接在電視上演示出來,演示的時候不一定需要有特定的 App 為依托,而是電視可以直接做一個智慧 Agent,它可以接收一些指令直接進行演示。同時,所演示的內容也可能來自於另一個地方,比如我在網盤上儲存的一篇文章等等。

    【新程式設計師】:蘋果釋出的 Vision Pro 依然屬於一種頭盔式裝置形態。按照你所想象的,你認為未來結合大模型、Agent,類似這種的裝置會成為智慧入口嗎?

    曾國洋: 我認為 Vision Pro 始終是一個裝置。我的理解,未來會有一種智慧,可以打通不同系統,更了解使用者,更加智慧化。按照這種想法,其實 萬物都可以成為智慧的入口 ,可以是你的手機、手表,甚至是電視。

    【新程式設計師】:大模型和 Agent 研究的進展取決於哪些方面?

    曾國洋: 一方面依賴於模型的效率,我們要把模型做得更好。另一方面取決於數據,因為要使模型能夠像人一樣工作,需要提供特定的數據對其進行訓練。

    與之前 ChatGPT 對齊相比, Agent 對齊是一個更高難度的數據對齊。 ChatGPT 只需要理解自然語言命令即可,而 Agent 需要理解使用者指令,能和現實環境互動,在互動中理解現實環境給的反饋。

    【新程式設計師】:在 Agent 方面,面壁智慧有哪些值得分享的新進展?

    曾國洋: 目前,我們也在研究諸如 Function Calling(函式呼叫)等功能,也取得很多階段性成果,近期也開始投入很多精力在嘗試用 Function Calling 來解決各種問題上。

    【新程式設計師】: 行業很多公司在 AI 布局上,我發現大家看的方向似乎都聚焦在了多模態、Agent、具身智慧。

    曾國洋: 有可能是這條路確實是大家都很認可的,因為我感受這條路線應該是通向 AGI 跑得通的模式。

    【新程式設計師】:這樣的話,其實這條路的競爭很激烈。

    曾國洋: 也不一定意味著競爭很激烈,因為要把這條路跑通有很多未知的事情。大家目標是一致的,但過程不一定完全是一樣的,要走到這條路的終點,一方面要做研究,另一方面對於公司來說必須要活到那個時候。

    【新程式設計師】:核心的差異化是體現在路徑上?

    曾國洋: 我覺得路徑可能是差異化的一種表現。就像一個通用 AGI,也許有人先做的是它的某種能力,有的說是另一種能力,大家其實都能活下來,但是最終也會殊途同歸,因為大家最終目標都是一樣的,就是我們要做創造者。

    【新程式設計師】:對於面壁智慧而言,路徑是什麽樣的?

    曾國洋: 實際上與大家的認知相差並不太遠。目前,我們已經擁有了一種基於文本的智慧模型,並且接下來的目標是使其與人類對齊。人類可以支持更多的輸入和輸出模態,包括視覺和聽覺等多種模態。我們也希望我們的模型能夠支持各種模態的輸入,並產生不同模態的輸出。

    此外,我們正在努力實作模型自主行動的能力,比如模型能夠使用工具甚至能夠直接的和世界互動。在和世界互動的過程中不斷的學習和強化自身。在這個基礎上,把模型套用到實際的硬體上,以形成自身的指標,並使其能夠自主地進行探索和便捷的互動。在這種探索中,模型將透過增強學習不斷提升自身。

    最後,一個關鍵的問題是人類記憶與當前大型模型的機制並不完全一致。這也是我們面臨的挑戰之一,如何更好地模擬和套用人類的記憶機制。

    【新程式設計師】:這可以理解為當前大模型是以 GPT 為代表的,更多承擔的是大腦的角色,後面逐步跟上技術發展,然後長出了手腳,最終形成了具身智慧。

    曾國洋:對!最終再到在計算智慧和環境互動,自主探索、自主強化,最終變成一個通用的人。

    【新程式設計師】:這是你想的 AGI 的終極未來嗎?

    曾國洋: 這是一個大概的路徑,大家想的也不會差太多。

    【新程式設計師】:之前很多人說人工智慧一定要是做成跟人一樣嗎,你怎麽看?

    曾國洋: 做成跟人一樣,其實這個問題我也想過。它會有一定好處,現在所有生活中的各種設施,都是以人為介面的,比如我們有手機,它是因為人有手;有電視,是因為人有眼睛;電視上有開關,其實是因為我們手能觸碰到開關。

    生活中各種東西都是與人對齊的,所以做一個和人一樣的智慧,它能更好地利用人類已有的基礎設施建設,同時也能更好地和人做互動。

    Transformer 不是未來模型架構的最終形態

    【新程式設計師】:時下,你關註的核心命題是什麽?今年最大的目標是什麽?

    曾國洋: 今年,我們計劃在多模態方面進一步發展。 目前我們的模型主要是基於文本的,但我們的目標是為其添加更多模態的能力,希望將模型的能力提升到甚至超越人類思維的水平,並更好地落地到更多場景上,讓大家用起來,我們也能獲得更多的反饋,才能了解使用者需求、知道模型哪些做得不好。

    【新程式設計師】:多模態要解決的最大難題或挑戰是什麽?

    曾國洋: 其實最大的挑戰是確保效果,效果好是我們的目標。在如何提升效果方面,主要的挑戰在於數據。

    在技術方面,我認為我們已經相當成熟了。就文本而言,我們已經有了多年的積累,數據相對充足。但是在涉及多圖、多文本等多模態數據方面,我們卻面臨著數據匱乏的情況。這種數據的數量總體來說要少得多,而且標註好的數據更是少之又少。在這種情況下,讓模型更好地理解並在多模態場景下執行人類的指令,實作多模態工作,變得更加困難。

    【新程式設計師】:依托數據驅動的背後,面壁智慧的數據核心競爭力是在哪些方面?

    曾國洋: 我們會有很多巧妙的方法。畢竟訓模型也訓了很久,對於數據如何收集,哪些好數據,以及如何憑空的造出一些數據,其實都是比較有研究的。做大模型很重要的一方面就是數據能力,我們肯定有更多自己的東西。

    【新程式設計師】:在技術演進周期中,OpenAI 在 ChatGPT 之前也對包括強化學習等技術進行了大量探索。人工智慧的爆發並非一夕之間崛起的,實際上在很早之前很多人就投入研究了。面向當下引發熱議的 AI 技術,你認為有哪些是非常關鍵的但可能被忽視的方面?

    曾國洋: 我覺得可能是 未來的模型架構。 雖然有一些人已經開始關註,但似乎還沒「出圈」。在學術界,有很多新的研究工作,大家也會關註到,但 Transformer 似乎不會是未來模型架構的最終形態,因為它與人類思維機制還存在一些差異。

    對於人類而言,思考模式不像 Attention 那樣在一個長的上下文中檢視之前產生特定 Token。因此在這種情況下,模型架構還有許多可以改進的地方。

    【新程式設計師】: 當前,多數人都在使用 Transformer 架構來構建模型。倘若這種方式發生變化,肯定會引起一場新的重大變革。

    曾國洋: 確實。現在其實已經有不少新的架構提出來,如 RWKV( Receptance Weighted Key Value,透過引入線性註意力機制,實作了類似於 RNN 的序列處理能力和 Transformer 的並列訓練能力 )、RetNet( 一種非 Attention 機制的文本處理方式 )。

    過去,非 Attention 結構的模型在擴充套件時存在一個主要問題,即效率不及 Transformer。簡單理解,這種結構的模型隨著參數的增長,它的效果會有一個增長曲線,非 Attention 結構模型的增長曲線不如 Transformer 更陡峭。

    之前,大家對這類模型的關註較少,但現在越來越多的研究已經促使這些模型的效果與 Transformer 基本逼平,甚至有些還能做得更好。對於這類新模型,未來我們也會更多地關註其是否能展現出更像人類記憶和思考的邏輯。

    時下,Transformer 難以解決許多人類所具有的能力,比如工作記憶,當人類在做同一件事之後,會越做越熟練,然而在 Transformer 中很難表達這種能力。又比如說空間記憶,當人類第一次去一個地方時,可能會迷路,但經常去之後,你能在空間上熟知如何找到更近的路。對於這種記憶,Transformer 很難去處理,自然也就存在一定的缺陷與不足。

    【新程式設計師】: 很多技術人認為,技術的終點就是 GPT 實作自我前進演化的時候。

    曾國洋:我認為自我前進演化可能很快就會實作,但即使達到自我前進演化之後,它的能力也會受到功能邊界的限制。

    比如,當 AI 能夠自我前進演化,但無法輸出控制訊號時,它的能力就受到了限制。它可能在文本領域表現越來越出色,但是如果需要控制機械臂等實際操作,它就無能為力。因此,盡管前進演化可能會讓 AI 達到更高的高度,但在功能上仍然有許多挑戰需要解決。

    我認為今年 AI 領域可能會在文本自我前進演化方面取得一些進展。因為像 OpenAI 這樣的主流模型已經比較成熟,在這個基礎上,如果我們讓模型自主探索、總結經驗並進行自我學習,就有可能實作自我前進演化。

    【新程式設計師】:你認為技術的終點會是在哪?

    曾國洋: 我之前還想過,也許未來要強到一定程度之後,就可以讓 AI 來幫我們做研究。

    隨著技術前進演化越來越快,終點在哪裏,我也不知道。 這個技術也許對人類來說是有終點的,但對真正的科學來說,不知道在哪。

    之前很多人討論 AI 技術會呈現什麽樣的發展曲線,其實它不是簡單的一個指數型曲線。我認為它會先快速上升,達到一定程度後會有邊界收益遞減的情況,進而會達到一個臨界點,到達臨界點之後又變成指數上升,這個臨界點其實就是技術的終點。 當 AI 能夠完成人類研究工作時,它就能夠真正實作自我前進演化。

    【新程式設計師】:除了成功的經驗外,我也經常看到你分享一些失敗的經驗。大模型訓練失敗也是時有的事情,對此你有什麽樣的解決方案?

    曾國洋: 相當於程式設計師執行回滾操作一樣。我之所以經常分享失敗的經驗,是因為在實驗性研究中,失敗的經驗往往比成功的更重要。

    最初,公司的一些演算法同事習慣於只記錄成功的經歷,但在我批評後開始記錄失敗的實驗。實際上,當實驗失敗時,我們需要花費一些成本去分析,找出問題所在,這有助於更好地理解模型。當你對模型有了深入理解後,無論你如何操作,都會取得成功,因為你已經對其了如指掌。當模型的表現與預期不符時,你才會遭遇失敗,這時才是提升的機會所在。

    【新程式設計師】:當你失敗時,就直接進行版本回滾嗎?

    曾國洋: 方法有很多,失敗也需要根據失敗原因來看,但回滾操作必須基於一個良好的版本,然後繞開失敗的部份進行修正,這是必然的。

    大家最常遇到的訓練失敗,比如 loss 不收斂,而造成這種情況的原因有很多,如超參數選擇不合理,以及模型數值穩定性的問題。舉個例子,在訓練數據中存在一些固定的模式,在數據中出現「a」後面一定是「b」的情況,模型會傾向於學習將參數值增大以提高預測準確率。然而,當參數值增大到一定程度時,數值穩定性可能會受到影響,導致模型崩潰。

    此外,數據中可能包含一些臟數據,這些數據往往是一大堆重復的或者不符合通常數據分布的數據。這些臟數據可能會對模型造成沖擊,引發一系列問題。

    【新程式設計師】:去年很多人投入了大模型創業浪潮中,走著走著後面也會有一些收購案件,導致大模型行業整體格局發生一定的變化,對此,你怎麽看?

    曾國洋: 我認為大模型能做的事其實特別多。它與之前出現的諸如 Web 3、元宇宙等技術有所不同,大模型不是針對某一個領域的技術,它是一項通用的技術,能服務於所有領域且商業化空間特別廣泛。

    我對於它的發展持樂觀的態度,因為大模型能做出來特別多套用。所以,在大模型的領域應該會有不少的公司能夠活下來,而不是會最後形成就只有一家或幾家存活下來。

    【新程式設計師】:你覺得活下來,面壁智慧在裏面占了幾重。

    曾國洋:我很有信心。

    【新程式設計師】:你的信心來自於哪裏?

    曾國洋: 一方面是來自於我們現有的團隊,大家對大模型、最終的 AGI 使命都非常認可,也是非常投入在大模型的工作裏,我們也逐漸取得了很多有效的階段性的產出。

    第二其實也是在人員上,大海( 李大海,面壁智慧 CEO、知乎 CTO )加入之後,我們不僅在學術上有比較強的能力,在商業經營相關的方向也吸納了一大批比較專業的同事,他們有豐富的上市公司經驗,我還是很有信心的。

    采訪後記

    4 月 25 ~ 26 日,由 CSDN 和高端 IT 咨詢和教育平台 Boolan 聯合主辦的「2024 全球機器學習技術大會」在上海再度啟幕第一站,匯聚來自全球近 50 位在機器學習技術研發及行業套用領域的領軍人物和知名專家,攜手搭建一個專屬於全球機器學習與人工智慧精英的高層次交流與分享舞台。

    屆時, 曾國洋 將帶來他及面壁智慧在 Agent 方面的最新思考及實踐。歡迎存取官網 http://ml-summit.org 或掃描下方二維碼,進一步了解詳情。