共赴 AGI 新時代，全球機器學習技術大會盛大開幕！

2024-04-25資訊

生成式 AI 技術發展迅猛，大模型重新整理一切，開發者如何更快、更好地擁抱未來？

作者 | 【新程式設計師】編輯部

出品 | AI 科技大本營（ID：rgznai100）

4 月 25 日，CSDN 聯合高端 IT 咨詢與教育平台 Boolan 舉辦的ML-Summit 2024 全球機器學習技術大會在上海環球港凱悅酒店盛大開幕。大會核心聚焦大模型技術演進、多模態、大模型工程與架構、GenAI 產品創新與探索、AI Infra 等開發者們核心關註的 AI 前沿技術，共設定了 12 大技術專題，邀請了微軟、阿裏、百度、智譜、百川、零一萬物、智源、面壁智慧、小米、北大、復旦、eBay、恒生電子、達觀、金山、度小滿、曙光、元戎、PPIO 等領先企業及組織的技術大咖與專家學者，直擊大模型的最新技術趨勢及痛點問題，深入分享大模型技術實踐及套用落地案例與實戰經驗。

全場座無虛席，爆滿程度超乎想象！嘉賓分享幹貨滿滿，讓參會者受益匪淺，意猶未盡！

聚焦大模型技術創新與落地，共赴 AGI 新時代！

上午 9 點， CSDN 高級副總裁、Boolan 首席技術專家李建忠為大會帶來主題為【AGI 2024 技術創新研究與思考：大模型驅動的計算產業範式轉換】的開場演講 。他指出，大模型在整個計算產業鏈中引發持續的轟動效應，是因為它帶來了計算範式、開發範式、互動範式共三大範式轉換。

李建忠 CSDN 高級副總裁、Boolan 首席技術專家

首先是計算範式的轉換，包括體系架構和任務模型兩大方面，計算的體系架構會從圖靈-馮諾依曼計算架構轉為神經網路計算架構，計算的任務模型則從圍繞「存取、計算、顯示」為中心的檢索模型轉為圍繞「學習、預測、生成」為中心的生成模型。

在開發者關註的開發範式方面，李建忠表示，大模型驅動的開發範式正在從傳統命令編程、當前的大模型輔助軟體開發，到未來面向模型（神經網路）的編程演進。其中，針對大模型輔助軟體開發，李建忠提出「五級自動軟體開發」參考框架，將軟體開發智慧化程度分為五級 L1~L5。其中，李建忠特別提到 AI 智慧體的關鍵作用——「智慧從來不是一步到位的，它不僅僅是認知和創造，更是規劃、叠代、協作和使用工具」。在面向模型（神經網路）編程方面，李建忠表示未來的編程將跳出高級語言、編譯/連結、執行這樣的傳統過程，逐步轉變為收集訓練數據並設定訓練目標，將數據集、目標設定、架構設定透過編譯過程轉換為表示神經網路權重、前饋過程的二進制語言，這是對軟體開發更大的顛覆式轉換。

在互動範式的變革方面，李建忠談到今年最大的變化是多模態的發展，自然語言互動界面（LUI）和多模態合力將在未來為終端套用互動帶來全新體驗，將計算的潛力釋放到更廣泛的人類。在談到 Sora 的成功時，李建忠指出 OpenAI 創新性地選擇了「通用可延伸」的 Diffusion Transformer 路線，包括使用 Patch 來統一各種視覺數據的「元表示」，這些技術創新的底層原因是 OpenAI 堅持 Scaling Law 的技術信仰，選擇適配「可延伸」的技術路線。

演講最後，李建忠總結道，計算、開發與互動的三大範式轉換，將深刻影響計算產業的未來，包括基礎設施、開發流程和套用形態。

國際知名語音辨識專家、Kaldi 之父、IEEE Fellow、小米集團首席語音科學家 Daniel Povey 博士站在 AI 整個歷史長河的開發中看待當下 LLM 技術，他表示，AI 的發展是個漫長的過程，沒有終點。

Daniel Povey，Kaldi 之父、IEEE Fellow、小米集團首席語音科學家

在 Daniel Povey 看來，ChatGPT 等大模型產品的流行能讓人們學到很多自然語言和 AI 知識，這些模型的訓練往往只基於一個預測損失函式，而增加模型規模和訓練數據大小能進一步提高模型效能。基於此，Daniel 在現場為開發者深入分享了他及新一代 Kaldi 團隊在機器學習研究及實踐中的最新成果，包括聲學編碼器 Zipformer、神經網路最佳化器 ScaledAdam 以及全新的標準化模組 BiasNorm 等。

模型更叠迅猛，未來充滿未知，Daniel Povey 給出了他的答案。他表示未來的模型會更註重處理預測其他事物的資訊，尤其是跨模態的資訊，如文本與影像。面對業內所熱議的 AI 是否會取代部份勞動力的問題，Daniel 這樣講道：「縱觀歷史，人們總是因自動化會導致工作崗位被摧毀而感到恐慌，但從長遠來看，似乎並沒有造成問題，因為總會有新的工作出現。」

不過，Daniel Povey 擔心的是，人們會越來越依賴那些集中化、復雜且脆弱的系統。這將帶來巨大的安全隱患，比如一個黑客或一個簡單的漏洞，可能會導致某個供應商的所有自動駕駛汽車全部停止，有可能直接導致整個國家甚至全球的交通癱瘓。

在復旦大學教授、眸思大模型負責人張奇 看來，「大語言模型是實作 AGI 的必由之路嗎？」這近乎是一個哲學問題，如果大模型是 AGI 的必由之路，那麽現階段場景、任務、領域模型可能都毫無意義；如果大模型不是 AGI 的必由之路，那麽我們需要重新思考和定位通用大模型的研究意義。因此，對這個問題如何認知，也將走向截然不同的道路。

張奇，復旦大學教授、眸思大模型負責人

張奇表示，「推理能力」是 AGI 的核心，而推理能力又包含了演繹推理和歸納推理、溯因推理。在演繹推理方面，從科學數據來看，ChatGPT 和 GPT-4 都擅長解決著名的邏輯推理閱讀理解基準，但是大模型對於分布外數據集處理仍有待提高。在實驗中透過檢索、分類、比較、逆向搜尋四種能力來衡量大模型對知識運用能力時，我們發現，語言模型難以完成比較和分類任務，也無法進行逆向知識搜尋，除非知識以逆序出現在預訓練數據中。最終，張奇教授得出一個結論：演繹推理作為單獨任務可以最佳化，但演繹推理能力在其他任務中並不能自動獲得。在歸納推理維度，目前行業中的大模型在任務復雜程度增大時，準確率接近為 0，且訓練過程中簡單加入過程作用也十分有限。

整體而言，大模型的能力的產生首先源於在預訓練階段構建了大量基礎的知識，將知識壓縮和表示學習，進而透過指令微調，將能力註入，最後基於獎勵函式、強化學習將生成任務能力提升。其實大模型的任務能力並非一開始就具備，而是後期不斷疊加上去的。需要註意的是，由於任務的不斷疊加，會使得一些任務能力下降。所以，疊加任務能力和保持品質方面也會存在一定的沖突。

張奇認為，大模型可以很快速地在很多工上做到 70 分，然而基於大模型在任何任務上完成 90 分卻是十分困難的。只是簡單增大數據量無法實作效果增加，未來標註數據的準確程度要求會十分苛刻。對此，他建議道，「忘記 AGI、湧現、對齊、激發 …」等網紅術語，可以從統計機器學習角度「再出發」。

2023 是百模大戰的一年，而進入到 2024 顯然是多模態與大模型產品落地的關鍵一年。大會現場， 水木分子聯合創始人和技術長喬木博士 為我們帶來了【多模態生物醫藥大模型及其行業套用】的主題演講。喬木表示，時下」通用大模型底座 + 行業大模型 + 行業 Killer App「共同構成了 AI 時代作業系統，而當前大模型產業已經從上半場的通用能力建設演進至下半場的行業套用。

喬木，水木分子聯合創始人和技術長

以其身處的生物醫藥領域為例，喬木認為，這一領域還存在海量多模態數據價值亟待挖掘，如藥物小分子、蛋白質序列數據以及單細胞數據，以及諸多的知識圖譜和超過 1.15B 文獻、專利等。為了探索生物、化學、環境、材料不同行業的模型實踐，水木分子與清華大學智慧產業研究院合作共同推進 AI4S（AI for Science）科學研究，也聯合開源 BioMedGPT 生物醫藥科研基礎模型，統一生物編碼語言、化學分子語言與自然語言。

此外，水木分子還帶來了新一代對話式藥物研發助手 ChatDD (Drug Design) ，重新定義藥物研發模式，同時也釋出其商業化的全球第一個千億參數生物醫藥多模態大模型 ChatDD-FM 100B。最終激發大模型在生物醫藥的管線戰略情報、商業價值評估、專利分析等多場景下的潛力。

高峰對話：大模型的演進與 AI 創新之路

今年上午主會壓軸的圓桌對話環節中，CSDN 高級副總裁、Boolan 首席技術專家李建忠，Kaldi 之父、IEEE Fellow、小米集團首席語音科學家 Daniel Pove，復旦大學教授、眸思大模型負責人張奇，水木分子聯合創始人和技術長喬木在 Athena labs CTO 王興明的主持下，圍繞「大模型的演進與 AI 創新之路」展開深度的探討與經驗分享，同時也為與會者們進行精彩的答疑。

對於過去一年大模型的發展，令李建忠印象深刻的主要有兩件事，一是 Sora 的架構和 GPT 一樣繼續遵循 Scaling Law，具有極強的擴充套件能力，並且在大規模數據上訓練時展現出了驚人的「湧現能力」，而無需對三維空間、物理規律等進行規則化引導。另一個是 AI Agent 智慧體的快速發展，進一步實作軟體開發的高度自動化。

Daniel Povey 談到大模型中語音領域的套用時表示，AI 同傳並不會很快走進現實，機器無法精準預測人們下一步所表達的內容。他覺得擴散模型是未來值得關註的領域。

「大型模型的泛化能力是當前備受關註的焦點之一」，喬木博士指出，如何更有效地理解專業領域的資訊，是許多垂直領域模型的關註點。通用大模型要想解決專業領域內有深度，有難度的問題，同樣需要提升專業能力。

喬木表示，「對於BI 和專利法律等問題挑戰，不僅在生物醫藥領域存在，同時也在金融等其他領域也存在。我們需要進一步提升通用大模型在專業領域的適用性，或者開發針對各行業的垂直大模型，以幫助使用者獲取特定領域的知識。這些解決方案應該具有通用性，能夠面向不同的使用者。因此，對於通用大模型而言，如何在不同的行業發揮作用，對其泛化能力提出了更高的要求。」

面對開發者提出的「在實際套用中，大型模型的推理能力一定程度上還是基於機率統計的思路進行的，而如何探索出大模型推理的可行性路徑」的痛點難題，張奇根據時下大型模型已經具備的四個能力給出了自己的建議：

1. 長文本建模能力：過去，token 受限於 512 的長度，長文本建模較為困難。現在，我們可以利用更大規模的模型，至少做到支持 4k、8k 來進行更好的長文本建模。

2. 更好的語意表示：大規模訓練後，模型語意表示能力得到了大幅提升。

3. 多工處理（multitask）能力：盡管挑戰不小，但透過多工學習，可以混合處理工作任務。

4. 多語言處理能力：現在多語言處理相對容易，大型模型已能勝任。

如果在工作中的任務可以往這四個方面發力，推理成功可能性較大。

在下午專題現場，「多模態大模型前沿」、「程式碼大模型與軟體變革」、「大模型+行業落地實踐」、「GenAI 產品創新與探索」等主題專場將同步進行。

在全球機器學習技術大會的第二天，微軟、百度、阿裏、網易、螞蟻集團、eBay、金山辦公、度小滿、面壁智慧、千芯科技、北京大學、復旦大學等近30位 AI 專家將圍繞大模型套用落地、多模態、視訊生成、程式碼生成等一系列精彩紛呈的主題陸續登場，滿滿的幹貨將給大家帶來諸多啟發和收獲。

精彩花絮，贊助商展位人頭攢動

在主會場之外的展廳中，元戎啟行、曙光儲存、金茂綠建、PPIO、支付寶小程式雲、西雲算力、容數信創、戴爾、輝達等展位吸引了較多參會者的目光，現場熱鬧非凡！

向右滑動檢視更多>

立即掃碼預約全球機器學習技術大會PPT