【編者按】 馬特·圖爾克(Matt Turck),美國知名早期投資機構FirstMark的董事總經理,此前以早期成功投資Pinterest、Shopify、Airbnb、Riot Games、InVision和Tapad等超級獨角獸而著稱。他堪稱資料庫行業的觀察家,最早受其同事編輯廣告行業藍圖所啟發,自2012年起定期更新行業藍圖。 他發起組織了2大新趨勢分享社群,一個圍繞大數據和人工智慧,名為Data Driven NYC; 另一個圍繞 前沿技術和新興計算平台,叫Hardwired NYC。
科技博主寶玉編譯了其最新釋出的報告文章【Full Steam Ahead: The 2024 MAD (Machine Learning, AI & Data) Landscape】(原文連結:https://mattturck.com/mad2024/)。AI科技大本營授權轉載了這一內容。
編譯 | 寶玉
責編 | 王軼群
出品丨AI 科技大本營(ID:rgznai100)
這是我們第十次釋出關於數據、分析、機器學習和人工智慧生態的年度綜述。
覆蓋這個領域十多年來,現在的局勢比以往任何時候都更加令人興奮和充滿前景。多年來我們跟蹤的所有主流趨勢和細分領域正匯聚在一起:大量數據已被數位化;透過現代化工具,我們可以快速且經濟地儲存、處理和分析這些數據;更重要的是,這些數據現在能夠供給效能更強的 ML/AI 模型使用,這些模型能夠理解數據、辨識模式、基於數據進行預測,甚至現在能夠創造文本、程式碼、影像、聲音和視訊。
MAD(機器學習、人工智慧與數據)生態系已經從一個小眾技術領域發展成為主流。似乎這種範式的轉變正在加速,其影響已經超出了技術和商業領域,波及到社會、地緣政治,乃至影響人類生存的方方面面。
然而,在這個持續數十年的大趨勢中,我們仍有很多內容需要探索和編寫。正如往年一樣,本文試圖對當前的產品、公司和行業趨勢進行梳理和解讀。
今年,我們的團隊成員包括 Aman Kabeer 和 Katie Mills(來自 FirstMark),Jonathan Grana(來自 Go Fractional)以及 Paolo Campos。在此對他們表示衷心的感謝。同樣,我們也要感謝 CB Insights 提供了互動版本中展示的數據卡片。
我們的年度報告分為三大部份:
第一部份:行業概覽(PDF 版和互動式版本)
第二部份:我們在 2024 年關註的 24 個主題
第三部份:融資、並購與 IPO 情況
行業概覽
連結
全面了解 2024 年市場動態圖譜的 PDF 版本(建議放大檢視),連結如下:
https://mattturck.com/landscape/mad2024.pdf
查閱 2024 年市場動態圖譜的互動式版本,連結如下:
https://mad.firstmark.com/
公司標識數量
2024 年的市場動態圖譜展示了總共 2,011 個公司標識 。
相比去年的 1,416 個,新加入了 578 家企業。
作為參考,2012 年的第一個版本僅展示了 139 個公司標識。
這一密集(甚至可以說是瘋狂的)行業概覽,主要歸因於連續發生的兩輪大規模的企業創立和資金註入。
第一波持續了大約十年的浪潮是 數據基礎設施建設周期 ,它起始於大數據的概念,終結於現代數據處理技術的興起。這一領域長久以來期盼的整合並未如預期那樣發生,而是大部份公司仍舊活躍在市場上。
第二波則是 機器學習與人工智慧 的發展周期,這一周期的開端標誌著生成式 AI 技術的真正套用。由於我們正處於這一周期的初始階段,許多公司仍然處於創業早期,因此我們在景觀圖中包括了很多尚處於種子階段的年輕初創公司。
值得一提的是:這兩個發展浪潮緊密相連。MAD 景觀圖每年的目標之一就是揭示數據基礎設施(左側)、分析/商業智慧與機器學習/人工智慧(中間)以及應用程式(右側)之間的相互促進關系。
盡管每年將越來越多的公司納入景觀圖變得愈發困難,但最終,將 MAD 領域視為一條 完整的數據處理生產線 ——從數據收集、儲存、處理到最終透過分析或應用程式實作價值創造,可能是最為恰當的比喻。
兩大浪潮 + 有限的市場整合 = 藍圖中的眾多企業 。
在「基礎設施」和「分析」領域的主要更新
我們幾乎沒有修改景觀圖左側部份的整體架構——如我們將看到的,關於現代數據技術是否已過時的討論(現代數據棧是否已死?),這一部份的熱度有所下降。
一些顯著的更新包括:我們將「資料庫抽象」更名為**「多模型資料庫與抽象技術」,以此來涵蓋圍繞全面性‘多模型’資料庫群(如 SurrealDB*, EdgeDB)的新興趨勢;去除了去年嘗試性加入、但顯得格格不入的「加密/ Web 3 分析」部份;同時,我們還移除了「查詢引擎」**部份,因為它更像是部份的一環,而非獨立的一節(該部份包含的所有公司——如 Dremio、Starburst、PrestoDB 等——仍在景觀圖上展示)。
在「機器學習與人工智慧」領域的主要更新
伴隨 2023 年人工智慧公司數量的激增,這一部份我們進行了迄今最大振幅的結構調整。
過去一年裏,AI 賦能領域的活動非常活躍,我們在 MLOps 旁增設了三個新領域:
「AI 可觀測性」 今年首次出現,專門針對那些幫助測試、評價及監控大語言模型套用的創業公司
「AI 開發者平台」 雖然與 MLOps 概念相近,但我們想特別表彰那些全心投入於 AI 套用開發的平台,尤其是在大語言模型的訓練、部署和推理方面
「AI 安全與安保」 涵蓋了應對大語言模型所固有的各種問題的公司,包括產生錯誤資訊、倫理問題、遵守法規等
Sam Altman 與 Elon Musk 之間的公開沖突讓我們意識到,在基礎模型開發領域,區分商業和非盈利機構至關重要。基於這點,我們將原本的「橫向 AI/通用人工智慧」一分為二,分別是 「商業 AI 研究」 和 「非盈利 AI 研究」 。
我們進行的另一個調整是在命名上,將「GPU 雲」更新為 「GPU 雲 / ML 基礎設施」 ,以反映出許多 GPU 雲提供商添加的核心基礎設施功能。
「套用」中的主要更新
最引人註目的變化是,毫不奇怪,現在每個套用層公司都自稱是「AI 公司」。這一點,雖然我們盡力過濾,仍舊導致了你在 MAD 圖譜右側看到的新標識數量急劇增加。
在結構上的一些細微調整包括:
在「橫向套用」中,我們新增了 「演示與設計」 類別
我們把「搜尋」更名為 「搜尋 / 對話式 AI」 ,以反映出如 Perplexity 這樣的基於大語言模型的聊天界面的興起。
在「行業」類別中,我們把「政府與情報」更名為 「航空航天、防務與政府」
「開源基礎設施」中的更新
我們整合了之前非常接近的分類,創設了一個全新的 「數據管理」 類別,涵蓋了「數據存取」和「數據操作」。
我們還引入了一個重要的新類別: 「本地 AI」 。這是因為開發者們正尋求提供必要的基礎設施工具,將 AI 和大語言模型引入到本地開發的新時代。
我們在 2024 年關註的 24 個主題
AI 領域的發展速度之快,關註度之高,使得我們幾乎無法像往年那樣提供一個全面的 MAD 空間「國情咨文」。
現在,讓我們換一個角度來探討:這裏列出了 24 個當前備受關註或在討論中經常提到的主題。它們既包含了一些較為成熟的想法,也有很多僅僅是問題探討或思維實驗。
1. 結構化與非結構化數據
這既是一個被頻繁討論的主題,也是我們用來解釋當前趨勢時常提及的一個點。
作為 2024 年討論的開場,這裏先給出一個關鍵提醒,它涉及一些核心的行業趨勢:數據並不是千篇一律的。簡單來說,數據大致可以分為兩大類,每類數據都形成了自己的一套工具和套用場景。
結構化數據處理流程 :指的是可以被整齊地放入行和列中的數據。
分析目的的數據會從事務性資料庫和 SaaS 工具中提取,儲存到像 Snowflake 這樣的雲資料倉儲,之後進行轉換,並透過商業智慧(BI)工具進行分析和視覺化,主要用於理解現狀和歷史(所謂的「描述性分析」)。這一過程通常依托於下文將討論的現代數據技術棧,並以分析為核心套用場景。
另外,結構化數據也可以供「傳統」的機器學習/AI 模型使用,以預測未來事件,比如哪些客戶最可能取消服務。
非結構化數據處理流程 :涉及到通常不適合放入行和列的數據,如文本、影像、音訊和視訊。非結構化數據主要用於訓練和執行生成式 AI 模型(如大語言模型等)。
這兩類數據及其相關的工具和公司正面臨著截然不同的發展態勢和關註度。
目前,非結構化數據(機器學習/AI)領域正熱,而結構化數據(現代數據技術棧等)領域則相對冷清。
2. 現代數據技術棧是否已經過時?
就在不久之前(大約在 2019 到 2021 年間),在軟體界,幾乎沒有什麽比現代數據技術棧(MDS)更引人註目的了。它和「大數據」一起,成為了極少數能夠從數據工程師擴充套件到更廣泛受眾(如高管、記者、金融家)的基礎設施概念之一。
現代數據技術棧主要涵蓋了之前提到的那種結構化數據處理流程。它以快速發展的雲資料倉儲為中心,囊括了上遊的供應商(如 Fivetran 和 Airbyte)、核心層的(DBT)以及下遊的(Looker, Mode)。
隨著 Snowflake 創下史上最大的軟體首次公開募股 (IPO) 紀錄,現代數據棧 (MDS) 瞬間成為熱點。受零利率政策 (ZIRP) 刺激的公司創立和風險資本 (VC) 投資活動變得異常活躍。不久,數據目錄、數據可觀察性、數據提取轉換載入 (ETL)、反向 ETL 等領域迅速飽和。
現代數據棧不僅提供了真實問題的有效解決方案,它還代表了一種行銷策略和實際上的各創業公司之間的聯盟,共同服務於數據處理的不同階段。
但轉眼至今,形勢已截然不同。我們在 2023 年預告了 MDS 正面臨壓力,而這種壓力在 2024 年將更加顯著。
MDS 正遭遇兩大挑戰:
搭建現代數據棧意味著需要整合多個獨立供應商提供的各種頂尖解決方案。這不僅花費巨大,還耗時耗力,這在後零利率政策時代的預算削減中並不受財務主管的歡迎。
如今,MDS 已不再是最受矚目的焦點。所有的關註都轉向了生成式 AI,無論是企業高管、風險資本家還是媒體,都對需要上述提到的非結構化數據管道的生成式 AI 產生了濃厚興趣。
3. 數據基礎設施的整合及巨頭的進一步壯大
面對以上狀況,2024 年數據基礎設施和分析領域的走向可能是這樣的:
在現代數據技術的領域內外,許多初創公司正積極轉型,將自身定位為「AI 基礎設施初創公司」,並力求在現代 AI 技術架構中占據一席之地(詳見下文)。雖然這在某些案例中取得了成功,但大多數情況下,從處理結構化數據轉向非結構化數據的轉變,意味著產品需要經歷根本性的前進演化。
數據基礎架構領域終於將迎來一些整合。到目前為止,合並與收購(M&A)活動相對較少,但在 2023 年,確實發生了一些並購案例,無論是小規模還是中等規模的並購——例如 Stemma 被 Teradata 收購、Manta 被 IBM 收購、Mode 被 Thoughtspot 收購等(詳見下文第三部份)。
由於風險資本的支持日漸減少,更多初創公司將面臨失敗的命運——這是個艱難的現實。盡管許多初創公司已經大幅削減開支,但終有一天,他們的資金將耗盡。雖然不會有引人註目的標題報道,但這是個不幸的事實。
在這個領域中,無論是快速成長的公司還是上市公司,都將加大力度發展自己的平台戰略,努力擴充套件更多功能。這部份透過收購(即前述的整合)來實作,但也有很大一部份透過自身開發來完成。
4. 雪花(Snowflake)與數據磚(Databricks)的最新對決
提及該領域的大公司,不妨來看看兩大數據基礎設施巨頭——雪花(Snowflake)和數據磚(Databricks)之間的「巨大沖突」(詳見我們的MAD 2021部落格文章)。
雪花 (傳統上源自結構化數據處理領域)依舊是一家卓越的企業,是目前估值最高的上市科技股之一(撰文時,其企業價值/未來十二個月收入(EV/NTM revenue)比率為 14.8 倍)。然而,與許多軟體行業一樣,其增長速度已顯著減緩——2024 財年,其產品收入年增長率為 38%,總計達到 26.7 億美元,預計未來十二個月的收入增長率為 22%。更重要的是,雪花似乎在產品層面感受到了壓力——在擁抱 AI 方面反應較慢,並且在收購方面也相對較少。最近那次有些突然的 CEO 變動,也是一個值得註意的現象。
Databricks ,一個源於非結構化數據處理和機器學習領域的公司,正展現出全面的強勁動力。據悉(盡管它仍是一家私營企業),該公司在 2024 財年的收入達到了 16 億美元,年增長率超過 50%。值得註意的是,透過並購(特別是以 13 億美元收購 MosaicML)和自主產品研發,Databricks 正逐漸成為生成式 AI 領域的關鍵參與者。它不僅是大量非結構化數據的主要儲存庫,這些數據是訓練大語言模型的關鍵,同時也在模型創新上走在前列,從 Dolly 到最新公布的生成式 AI 模型 DBRX。
Snowflake 與 Databricks 之間競爭的一個重大進展是 Microsoft Fabric 的推出。2023 年 5 月宣布的這個計畫,是一個端到端的雲端 SaaS 數據和分析平台,整合了多個 Microsoft 產品,包括 OneLake(開放式湖倉庫)、PowerBI 和 Synapse Data Science,涵蓋了從數據整合、工程到數據科學的所有數據分析工作流程。盡管大公司的產品推出總會存在宣傳與實際的差距,但結合 Microsoft 在生成式 AI 方面的大舉推進,這無疑構成了一股不容小覷的威脅(更別提 Databricks 大部份基於 Azure 平台)。
5. 2024 年的商業智慧(BI)展望:生成式 AI 是否將顛覆數據分析?
在所有現代數據技術和結構化數據處理領域中,商業智慧(BI)似乎是最有潛力迎來革命的領域。我們在 2019 MAD 報告中提到,BI 行業幾乎已經完成整合,並在 2021 MAD 中探討了度量儲存的興起。
不過,BI 和數據分析領域的轉型行程比預期中要緩慢。目前,這個行業仍然被老牌產品,如 Microsoft 的 PowerBI、Salesforce 的 Tableau 和 Google 的 Looker 主導,這些產品有時會作為更廣泛銷售合約的一部份免費提供。盡管發生了一些整合(例如 Thoughtspot 收購 Mode,Sisu 被 Snowflake 秘密收購),但許多新興公司正在嘗試采取創新的方法,無論是成熟企業(如 dbt 及其語意層/MetricFlow)還是初創公司(如 Trace* 及其度量樹),它們大多仍處於發展的初期階段。
此外,生成式 AI 不僅可能在數據提取和轉換中發揮重要作用,還可能在極大地增強和普及數據分析方面產生重大影響。
近期,技術界確實熱鬧非凡。OpenAI 推出了「程式碼直譯器」,後改名為「高級數據分析」。微軟也不甘落後,為 Excel 中的金融工作人員推出了 Copilot AI 聊天機器人。從雲服務供應商到 Databricks、Snowflake、開源社群,再到眾多初創公司,大家都在忙著研發或已經推出了「文本轉 SQL」產品,目的是讓人們能用自然語言來執行資料庫查詢。
這一切的發展都充滿了激動人心的可能性和顛覆性的潛力。數據分析的終極目標——讓更多人能輕松使用數據——似乎觸手可及。如果自然語言能成為操作筆記本、資料庫和 BI 工具的通用介面,那麽分析工作將變得前所未有的普及。
盡管如此,許多 BI 行業的專家對此持保留態度。他們認為,SQL 的精確性和在構建查詢時理解業務背景的復雜性,是自動化過程中難以克服的障礙。
6. 現代 AI 技術棧的崛起
迄今為止我們的討論主要集中在 結構化 數據管道上。
而非結構化數據基礎設施的世界則是另一番景象。非結構化數據為大語言模型(LLMs)提供了食糧,對此的需求異常強烈。無論是正在嘗試或已經部署生成式 AI 的公司,都在重新認識到一句老話的真理——「數據是新型石油」。每個人都渴望利用大語言模型的力量,並希望這些模型能基於自己企業的數據進行訓練。
為了抓住這個機遇,無論大小的公司都在競相提供生成式 AI 的基礎設施。
一些 AI 快速發展的企業,如 Databricks(見上文)、Scale AI(他們將原本為自動駕駛汽車市場開發的數據標註基礎設施轉變為與 OpenAI 等公司合作的企業數據管道)以及 Dataiku*(他們推出了 LLM Mesh,讓全球 2000 強企業能夠在多個大語言模型供應商和模型間無縫工作),都在積極拓展他們的服務,以便利用市場的動力。
同時,一個涵蓋多個領域的新一代 AI 基礎設施初創公司正快速崛起。
向量資料庫 ,這種資料庫以一種向量嵌入的形式儲存數據,正好適用於生成式 AI 模型。在這個領域,一些專業公司(Pinecone, Weaviate, Chroma, Qudrant 等)取得了巨大成功,而像 MongoDB 這樣的資料庫老牌企業也迅速跟進,引入了向量搜尋功能。目前,業界還在熱議是否更長的上下文視窗能夠讓向量資料庫變得不再必需,對此有著激烈的討論和不同的看法。
框架 (LlamaIndex, Langchain 等),它們的作用是連線和整合各個環節,確保系統的協同工作。
安全防護 ,它們存在於大語言模型與使用者之間,確保模型的輸出符合組織制定的規則。
效能評估器 ,它們用來測試、分析並監控生成式 AI 模型的表現。考慮到人們普遍對公開基準的不信任,這是一項挑戰性任務。
查詢路由器 ,它們能夠即時地把使用者的查詢指派給不同的模型,旨在最佳化效能、降低成本並改善使用者體驗。
成本監控 ,它們用於跟蹤大語言模型使用過程中的開銷。
介面點 ,本質上是將底層基礎架構(如模型)的復雜性封裝成了 API。
盡管我們對「 現代 AI 棧 」這一術語有所保留,畢竟「現代數據棧」的歷史令人回味,
但這個說法確實揭示了許多相似之處:這批初創企業就像過去 MDS 公司的熱門之選,他們習慣於 集體行動 ,形成市場聯盟和產品合作夥伴關系。
這波 AI 基礎設施的創新者同樣面臨著與 MDS 公司類似的挑戰:哪一類產品能夠支撐起一個價值數十億美元的企業?大型企業(主要是雲服務提供商,還包括 Databricks 和 Snowflake)會選擇自主開發哪些部份?
7. 我們目前處於人工智慧炒作周期的哪個環節?
人工智慧歷經數十年發展,曾經歷過數次的高潮和低谷。在過去的 10-12 年裏,我們正處於第三輪人工智慧的炒作中:第一輪發生在 2013-2015 年,那時深度學習在 ImageNet 2012 大賽後走進公眾視野;第二輪在 2017-2018 年左右,伴隨著聊天機器人的流行和 TensorFlow 的興起;現在,自 2022 年 11 月以來,因生成式 AI 再次引發熱潮。
這輪炒作特別劇烈,幾乎達到了人工智慧泡沫的地步,原因眾多:技術本身極為引人註目;其影響深遠,吸引了廣泛受眾的關註,不僅僅局限於技術圈;對於坐擁巨額資本的風險投資者而言,這成為了他們眼中的獨家投資機會,尤其是在其他科技領域普遍低迷的情況下。
炒作帶來了預期的種種好處(「沒有狂熱就沒有偉大的成就」,讓千百種想法競相綻放的階段,大量資金支持著雄心勃勃的計畫)和無處不在的噪音(人人自稱 AI 專家,每個創業公司都標榜為 AI 公司,AI 相關會議、播客、新聞簡報層出不窮……甚至可能有過多的 AI 市場分析圖)。
任何炒作周期都會面臨 不可避免地反彈 。
這一市場階段充滿了**「古怪」和風險**:這個領域的標桿公司擁有非常特殊的法律和治理結構;出現了許多未被充分理解或公開的「以計算力換取股份」的交易;許多頂尖的創業公司由 AI 研究人員團隊領導;很多風險資本交易讓人回想起零利率政策(ZIRP)時期的「搶地盤」現象,對剛起步的公司給出天價估值和大額融資。
雖然人工智慧炒作已經出現裂痕(詳見下文),但我們仍處於幾乎每周都有新創意令人驚嘆的階段。而諸如沙烏地阿拉伯宣布的 400 億美元 AI 基金等訊息似乎表明,湧向這一領域的資金流不會很快幹涸。
8. 實驗與現實:2023 年是否只是場虛張聲勢?
關於上述內容,考慮到目前的炒作,迄今為止,究竟有多少是實質性進展,而非僅僅是試驗階段的成果?
2023 年充滿了動作:a) 每個技術供應商都爭先恐後地將生成式 AI 整合進他們的產品中,b) 每家全球 2000 強企業的董事會都指示其團隊積極「套用 AI」,一些企業在受監管行業,如摩根士丹利和花旗銀行,甚至以創紀錄的速度部署了相關技術 c) 當然,消費者對生成式 AI 套用的熱情空前高漲。
2023 年對於一些公司來說是充滿突破的一年:OpenAI 的年營收達到了 20 億美元;Anthropic 的快速增長讓其預計 2024 年的收入可達到 8.5 億美元;Midjourney 在零投資和只有 40 人的團隊下,收入飆升至 2 億美元;Perplexity AI 的月活躍使用者數從零飆升至 1000 萬等。
是否應該持懷疑態度呢?這裏有一些擔憂:
在企業市場,許多開支是用於概念性的驗證或者快速獲得的成果,這些通常來自於創新預算。
這其中有多少是因為高管們不想在快速變化的市場中顯得落後,而不是真正解決業務問題?
在消費者市場,我們看到 AI 套用的使用者流失率很高。這僅僅是因為好奇心驅動嗎?
無論是在個人還是職業生活中,許多人都表示不太清楚如何有效利用生成式 AI 套用和產品。
並非所有由頂尖 AI 專家開發的生成式 AI 產品都能創造奇跡。Inflection AI 在籌集了 13 億美元資金後迅速結束,是否意味著市場並不需要更多的 AI 聊天機器人或 LLM 提供商?
9. LLM 公司:也許並非如外界所想,它們並沒有那麽容易被替代?
投入到基礎模型公司的不僅僅是數十億的風險投資和企業資金。
因此,過去 18 個月裏大家最關心的問題是:我們是否在目睹一場對最終可能變得平凡的產品的資本大舉燃燒?還是說,這些 LLM 提供者將成為新的 AWS、Azure 和 GCP?
一個讓這些公司頭疼的事實是,目前還沒有任何 LLM 能夠建立起長期的效能優勢。截至目前,Claude 3 Sonnet 和 Gemini Pro 1.5 的表現優於 GPT-4,而 GPT-4 又優於 Gemini 1.0 Ultra,如此迴圈,但這種情況似乎每隔幾周就會變化。效能也可能會有波動——ChatGPT 有時會「失去理性」或表現出「懶惰」,盡管這是暫時的。
此外,開源模型(如 Llama 3、Mistral 和 DBRX 等)在效能上正迅速追趕。
更重要的是——市場上的 LLM 提供者數量遠超最初的預期。幾年前,普遍認為 LLM 公司可能只有一兩家,因為全球能夠擴充套件 Transformers 的人才非常少,從而形成了贏者通吃的局面。
事實上,比最初預見的還要有更多能力強大的團隊。除了 OpenAI 和 Anthropic 外,還有不少初創企業正在 AI 基礎研究領域深耕不輟,如 Mistral、Cohere、Adept、AI21、Imbue、01.AI 等,當然還有 Google、Meta 等大公司的團隊。
盡管如此 - 目前為止,提供大語言模型的公司表現良好。OpenAI 和 Anthropic 的收益正在以驚人的速度增長。即便大語言模型本身可能變得普及,這些大語言模型公司仍擁有巨大的商業機遇。它們已經發展成為提供全方位服務的公司,為不同的客戶群體(消費者、企業、開發者)提供應用程式和工具,建立在基礎模型之上。
從某種程度上講,將它們與雲服務提供商相比較頗為貼切。AWS、Azure 和 GCP 透過套用/工具層吸引並留住客戶,而主要透過幾乎無區別的計算/儲存層實作盈利。
10. 大語言模型、小語言模型及其混合架構的未來
在所有對大型語言模型的熱情中,最近幾個月一個明顯的趨勢是小型語言模型(如 Meta 的 Llama-2-13b、Mistral 的 Mistral-7b 和 Mixtral 8x7b、Microsoft 的 Phi-2 和 Orca-2)的快速發展。
盡管大語言模型的規模正變得越來越龐大(據報道 GPT-3 擁有 1750 億個參數,GPT-4 則有 1.7 萬億個參數,世界正期待更加強大的 GPT-5),小型語言模型因其低廉的營運成本、便於微調以及通常具備的強大效能,正成為許多套用場景的有力替代品。
專門模型的興起也是一個加速的趨勢,這些模型專註於特定任務(如編程的 Code-Llama、Poolside AI)或特定行業(比如 Bloomberg 的金融模型或 Orbital Materials 等初創公司為材料科學建立的模型)。
正如我們在眾多企業部署中看到的,世界正迅速向結合多種模型的混合架構演變。
雖然價格持續走低(詳情見下文),但那些體量龐大的專有大語言模型仍舊代價不菲,且存在延時問題。因此,為了滿足各自的特殊需求和成本考量,使用者及客戶正逐漸傾向於采用各種模型的混合部署方案,涵蓋大型與小型、商業與開源、通用與專用。
11. 傳統 AI 是否已成過去式?
ChatGPT 的問世引發了一場風波:幾乎所有之前的 AI 技術一夜之間都被冠以「傳統 AI」的標簽,形成了與「生成式 AI」的鮮明對比。
這對許多一直自認為是在做前沿探索的 AI 從業者和企業來說,無疑是一次沖擊,因為「傳統」二字似乎預示著新技術將完全取代舊有的 AI 形態。
然而,事實遠比這更為復雜。傳統 AI 和生成式 AI 實際上是相輔相成的,它們針對不同的數據型別和套用場景。
所謂的「傳統 AI」,有時也被稱作「預測 AI」或「表格 AI」,仍然是現代 AI(基於深度學習)的重要組成部份。它主要針對結構化數據(參見上文),處理如推薦系統、客戶流失預測、價格最佳化、庫存管理等問題。過去十年裏,「傳統 AI」在全球數以千計的公司中得到了廣泛套用和大規模部署。
與此形成對比的是,生成式 AI 主要處理非結構化數據(如文本、影像、視訊等),並在程式碼生成、影像生成、搜尋等不同領域展現出卓越的能力。
未來的發展方向也將是一種「混合模式」:公司將根據任務的不同,既使用大語言模型,也會使用預測模型。更為重要的是,他們會經常將這些模型結合起來使用——例如,盡管大語言模型可能不擅長提供像客戶流失預測這樣精確的預測結果,但它可以透過呼叫另一專註於該預測的模型的輸出來彌補這一點,反之亦然。
12. 構建輕量級與重量級介面的競爭以及全棧發展的趨勢
2023 年,人們常用「薄包裝」這個詞來輕蔑地描述那些依賴外部技術(比如 OpenAI)來實作核心功能的計畫。人們認為,如果你的創新依賴於別人的技術,那麽創造持久的價值和差異化就變得更加困難。近幾個月的報告顯示,一些如 Jasper 這樣的初創企業,在快速增長其收入之後,似乎遇到了挑戰,這似乎驗證了這種觀點。
一個引人註目的問題是,隨著這些年輕企業逐漸增加自己的功能,他們是否能從簡單的「薄包裝」轉變為功能更豐富的「厚包裝」?
到了 2024 年,這些「厚包裝」計畫似乎找到了透過特定方式實作差異化的途徑:
集中解決一個特定、往往是細分的問題——廣泛的解決方案往往會觸動大型科技公司的敏感區域
為這一問題構建特定的工作流程、合作模式和深度整合
在 AI 模型層面下大力氣——無論是使用特定數據集對模型進行細致調整,還是建立專為自家業務設計的混合智慧系統(比如大語言模型、SLMs 等)
換言之,他們需要在狹窄的領域內深耕,同時構建起覆蓋套用到基礎設施的「全棧」能力。
13. 2024 年值得關註的領域包括:AI 智慧體和邊緣 AI
過去一年裏,AI 智慧體——一個能在多種場景下協助完成任務的先進系統,從幫助預訂旅程到自動進行銷售開發活動,再到實作企業級自動化——成為了眾人矚目的焦點。
AI 智慧體是實作自動化的終極夢想,透過「文本到行動」的方式,AI 能夠自動為我們完成各種任務。
盡管市場上不時出現像去年的 BabyAGI 到最近的 Devin AI(一個被稱為「AI 軟體工程師」的產品)這樣的代理型產品,並引起極大的興趣,但這種熱情大多顯示為過於急躁。在能夠構建出能夠協同工作、代表我們執行具體任務的復雜系統之前,還有很多基礎工作需要完成,以使得生成式 AI 更加穩定和可預測。此外,還需要解決一些挑戰,比如如何在 AI 系統中加入更多的「記憶」功能。不過,預計在未來一兩年內,AI 智慧體將成為一個特別激動人心的領域。
另一個引人註目的領域是 邊緣 AI 。雖然大規模執行並作為伺服端點提供的大語言模型 (LLMs) 市場巨大,但 AI 領域長期追求的一個目標是能夠在本地裝置上執行的模型,特別是在不配備 GPUs 的普通手機和智慧物聯網 (IoT) 裝置上。這個領域活力四射,包括 Mixtral、Ollama、Llama.cpp、Llamafile、GPT4ALL (Nomic) 等。谷歌和蘋果也預計將逐漸增加參與度。
14. 生成式 AI 是在向通用人工智慧 (AGI) 邁進,還是走向了發展的高原期?
在所有關於 AI 的熱議中,問這樣一個問題幾乎是不敬的 —— 但是,是否存在一個可能,即生成式 AI 的發展不是加速直至通用人工智慧 (AGI),而是開始放緩?這意味著什麽?
這個論點主要包含兩部份:一方面,基礎模型的開發本質上是一項力量的較量,我們可能會耗盡供給它們的資源(計算力和數據);另一方面,即便資源不成問題,通往通用人工智慧的道路涉及到推理能力,而這是大語言模型當前所缺乏的。
有趣的是,這與 6 年前行業內的討論大體相似,正如我們在2018 年的一篇部落格文章中所述。自那以後,最大的變化似乎是我們對更加強大的模型投入了大量的數據和計算資源。
至於在 AI 推理方面我們取得了多少進展,整體上還不太明確 — 盡管 DeepMind 的 AlphaGeometry 計畫看起來是個重要的裏程碑,因為它將語言模型與符號引擎結合起來,利用邏輯規則進行推理。
至於我們離計算或數據資源耗盡還有多遠,則很難確定。
似乎每天我們對「計算資源耗盡」的界限都在進一步推遲。NVIDIA 最近推出的 Blackwell GPU 系統,據公司稱,它能夠部署高達 27 萬億參數的模型(相比之下 GPT-4 為 1.7 萬億)。
在數據方面,問題較為復雜 — 不僅僅是關於耗盡合法授權數據的策略性問題(比如所有 OpenAI 的授權協定),還有關於是否會耗盡文本數據的更廣泛討論。毫無疑問,圍繞合成數據的研究正在積極進行中。Yann LeCun 討論了如何透過讓模型處理更豐富的視訊輸入來進一步提升,這一目標目前尚未實作。
GPT-5 身上寄托著巨大的期望。人們普遍認為,它與 GPT-4 相比的表現將成為評判 AI 進步速度的關鍵指標。
對於創業生態圈的參與者(如創始人、投資人)來說,這個問題可能在中期內的重要性不大——即使生成式 AI 的發展在明天突然停滯不前,我們仍然可以利用現有技術在不同領域和套用場景中探索商業機會數年之久。
15. GPU 戰爭:NVIDIA 是不是被高估了?
我們現在是否正處於一個大規模周期的初期,計算資源成為全球最寶貴的資產?或者我們是否過度擴大了 GPU 的生產,走向了一場不可避免的大崩潰?
作為生成式 AI 領域準備最充分的 GPU 生產商,NVIDIA 正享受著其輝煌時刻,股價上漲了五倍,達到 2.2 萬億美元的市值,自 2022 年末以來,其總銷售額增長了三倍,其財報釋出和 Jensen Huang 在 GTC 上的表現激起的熱情堪比 Taylor Swift 在 2024 年最大的活動。
這是否也得益於數十億美元的 AI 風險投資最終流向了 NVIDIA?
不過,盡管 NVIDIA 的公司實力毋庸置疑,其未來的命運將取決於當前的 AI 淘金熱能否持續。硬體生產充滿挑戰,精確預測 TSMC 在台灣需要生產多少 GPU 是一門復雜的技術。
與此同時,從 AMD 到 Intel,再到 Samsung,競爭對手正努力迎頭趕上;像 Groq 或 Cerebras 這樣的初創公司正在加速發展,可能還會出現新的公司,比如 Sam Altman 謠傳中的價值 7 萬億美元的芯片公司。一批科技公司包括 Google、Intel 和 Qualcomm 正在聯合起來挑戰 NVIDIA 的秘密武器:其 CUDA 軟體,這款軟體使得開發者依賴於 Nvidia 芯片。
我們的看法是:隨著 GPU 短缺現象的緩解,NVIDIA 短期到中期可能會面臨一些下行壓力,但從長遠來看,AI 芯片制造商的未來仍然一片光明。
16. 開源 AI:美事過多?
這個話題有點挑戰性。我們是開源 AI 的堅定支持者,顯然這已經成為過去一年甚至更長時間的一個主要趨勢。Meta 大力推動其 Llama 模型,法國 Mistral 計畫從引發爭議到成為生成式 AI 的新星,Google 釋出了 Gemma,而 HuggingFace 作為一個充滿活力的開源 AI 社群繼續上升,匯聚了眾多模型。一些最具創新性的工作已經在開源社群中完成。
然而,在開源社群中,人們普遍感受到了一種「膨脹」。如今,可用的開源 AI 模型已達數十萬之眾。其中許多不過是供人娛樂的小玩意或周末時光的產物。這些模型的受歡迎程度忽高忽低,有的甚至在幾天之內便根據 Github 的星級(雖然這一衡量標準並不完美)飛速上升,然而最終卻鮮有轉化為真正有用的工具。
隨著時間的推移,市場將會自我調節,一小部份成功的開源計畫將會得到雲服務提供商及其他大型科技企業的重點支持。但當前的爆炸式增長,已讓許多人感到眼花繚亂。
17. AI 究竟需要多少成本?
生成式 AI 的成本經濟正在迅速變化。不出所料,這一領域的未來很大程度上依賴於成本問題——例如,若 AI 驅動的搜尋答案的成本遠高於傳統的十個藍連結,我們能否真正挑戰 Google 的搜尋霸主地位?軟體公司能否在演算法推斷成本侵蝕了大量毛利的情況下,仍舊以 AI 為動力?
對於 AI 模型的客戶或使用者來說,有個好訊息:在價格競爭方面,我們似乎正處於一個比預期更快速的「降至谷底」的階段。開源 AI(例如 Mistral 等)和商業推斷服務提供商(例如 Together AI、Anyscale、Replit)的並列興起,將這些開放模型作為伺服端點,成為了推動力之一。對客戶而言,除了處理不同模型產生不同結果的復雜性之外,幾乎沒有切換成本,這對 OpenAI 和 Anthropic 構成了壓力。一個明顯的例子是嵌入式模型成本的大幅下降,其中包括 OpenAI、Together AI 等多家供應商同時降價。
從供應商角度看,構建和提供 AI 服務的成本依然高昂。據報道,Anthropic 花費其一半以上的收入支付給雲服務供應商(如 AWS 和 GCP)以執行其大語言模型。此外,還有與出版商的授權交易成本。
但從積極面來看,作為生成技術使用者,或許我們應當享受由風險投資資助的服務爆炸所帶來的免費福利。
18. 大公司與 AI 的政治經濟格局變遷:微軟是否已經取得了勝利?
這是 2022 年末人們最初提出的問題之一,到了 2024 年,這個問題變得更加關註:大型科技公司是否會占據生成式 AI 大部份價值的高地?
AI 的力量在於規模 ——更多的數據、更強的計算能力以及更多的研究人員往往意味著更強大的 AI 能力。對此,大型科技企業有著深刻的認識。不同於之前技術轉型中的傳統企業,它們對即將到來的顛覆保持著敏銳的反應。
在眾多大型科技公司中, 微軟的策略運作宛若高維棋局 。顯著的是微軟與 OpenAI 的深入合作,自 2019 年首次投資以來,目前已累計投資 130 億美元。此外,微軟還與開源對手 Mistral 建立了合作關系,並且在最近以引人註目的方式,收購了 ChatGPT 的競爭者 Inflection AI (Pi)。
所有這些合作關系的底層邏輯,似乎都是為了增加對微軟的雲端運算服務 - Azure 的需求。到 2024 年第二季度,Azure 的收入年增長率達到了 24%,總額達到 330 億美元,其中 AI 服務貢獻了 6 個百分點的增長。
與此同時,谷歌和亞馬遜分別與 OpenAI 的競爭者 Anthropic 進行了合作和投資(截至目前,亞馬遜在其計劃的 40 億美元投資中,剛剛完成了第二筆 27.5 億美元的投資)。亞馬遜還與開源平台 Hugging Face 建立了合作。據報道,谷歌和蘋果正在討論將 Gemini AI 整合到蘋果產品中。Meta 透過全面開放原始碼的 AI,可能在背後超越了所有人。此外,中國的動向也十分值得關註。
這引發了一個明顯的問題:對於初創公司而言,他們有多少成長和成功的空間?一些頂尖的初創公司(主要是 OpenAI 和 Anthropic,Mistral 可能很快會加入)似乎透過建立正確的合作關系,已經達到了快速成長的「逃逸速度」。然而,對於許多其他初創公司,包括那些資金充裕的公司,他們的未來仍然充滿不確定性。
從 Inflection AI 選擇被收購,以及 Stability AI 執行長面臨的困境中,我們是否能看出,對於一些 第二梯隊的生成式 AI 初創公司 來說,實作商業成功 更加困難 ?
19. 對 OpenAI 的迷戀——還是持有保留意見?
OpenAI 持續成為焦點 - 它的 860 億美元估值,收入的快速增長,以及其內部的復雜動態,Sam Altman 更是被譽為這一代的 Steve Jobs:
關於這個話題,有幾個引人深思的問題:
OpenAI 是不是野心太大了?在所有那些 11 月引人註目的動態發生之前,OpenAI Dev Day 已經清楚地表明了一件事:在人工智慧領域,OpenAI 想要做到全面覆蓋,無論是深度整合各個層面(全棧式發展),還是廣泛涉及各種套用場景(橫跨多個領域):從模型構建、基礎設施搭建,到消費者搜尋、企業服務、數據分析、開發工具、線上市場等各個方面。對於一個在巨大技術轉型初期就處於領導地位,並且幾乎可以無限制地獲取資本的初創公司來說,這並非全新的策略(比如 Coinbase 在加密貨幣領域就曾采取過類似的做法)。但這確實值得關註:雖然理論上這能讓人工智慧領域的競爭格局(MAD Landscape)變得更加簡明,但在競爭愈發激烈的現實環境中,這無疑是一個艱巨的執行挑戰。從 ChatGPT 出現的懶惰問題,到其市場活動效果不盡如人意,這些都暗示了 OpenAI 也無法完全逃脫商業規律的束縛。
OpenAI 和 Microsoft 的合作會走到盡頭嗎?與 Microsoft 的合作關系一直很引人關註 —— 顯然,Microsoft 的支持為 OpenAI 提供了巨大的資源推動,包括計算資源和 Azure 在企業市場的分銷渠道,初期這一行動被廣泛認為是 Microsoft 捕捉生成式人工智慧浪潮的高明之舉。然而,正如之前所述,Microsoft 已經明確表示它並不完全依賴 OpenAI(因為它擁有所有的程式碼、模型權重和數據),它還與其他競爭者(如 Mistral)建立了合作關系,並且透過收購 Inflection AI 強化了自己的 AI 研究團隊。
那麽,面對這樣的局面,OpenAI 是否還願意繼續將自己的命運僅僅與 Microsoft 捆綁在一起,而不是尋求在其他雲平台上部署呢?
鑒於 OpenAI 的宏偉目標和 Microsoft 對全球領導地位的追求,這兩家公司何時會意識到他們之間更多的是競爭關系而非合作夥伴?
20. 2024 年將成為企業級 AI 的元年嗎?
正如前文所述,2023 年對於企業來說似乎是一個轉折點,大家都在爭先恐後地嘗試擁抱新趨勢,但除了一些概念驗證計畫之外,並沒有太多實質性的進展。
在 2023 年,像 Accenture 這樣的公司可能成為生成式 AI 最大的贏家,據說僅 AI 咨詢服務就為它們帶來了 20 億美元的收入。
然而,人們仍然抱有極大的期待,認為 2024 年將是企業級 AI 大放異彩的一年 —— 或至少對生成式 AI 而言是這樣,因為傳統 AI 在企業中已經占據了相當的地位。
不過,我們仍在探索階段,試圖解答一些全球頂尖企業所面臨的關鍵問題。
*哪些場景在使用?*目前,我們已經發現一些比較容易實作的套用領域,主要包括:a) 為開發團隊提供程式碼生成輔助工具,b) 企業知識管理(比如搜尋、生成文本摘要、進行轉譯等),以及 c) 用於客戶服務的 AI 聊天機器人(這一套用早於生成式 AI 的出現)。當然,還有更多其他套用(如市場行銷、自動銷售開發代表等),但我們還有很多細節需要梳理(比如是作為輔助工具還是完全自動化)。
*我們該如何選擇工具?*從以上討論來看,未來似乎是采用混合方式,即商業和開源工具的結合,大型和小型模型,以及橫向和縱向的生成式 AI 工具。但初始步驟應該是什麽?
*誰來負責這些工具的部署和維護?*全球 2000 強公司中存在 明顯的人才缺口 。如果你認為招聘軟體開發者已經足夠困難,那麽招聘機器學習工程師可能會更加棘手。
我們怎樣防止它們做出錯誤的判斷?確實,為了防止生成式 AI 工具做出錯誤判斷,我們做了大量的工作,包括開發 RAG、設定防護欄、進行評估等,但這些工具可能仍會出錯。更重要的是,我們實際上並不完全了解生成式 AI 模型的工作原理,這在企業套用中是個大難題。
*投資報酬如何?*大型科技公司是最早利用生成式 AI 滿足自身需求的,他們展示的初步數據頗為有趣。例如,在其財報電話會議中,帕洛艾爾托網路提到他們的 T&E 服務成本減半,ServiceNow 則提到開發者創新速度提高了 52%。但是,我們仍處於初步階段,對於在企業中套用生成式 AI 的成本與收益尚無清晰認識。
生成式 AI 供應商的一個好訊息是,企業客戶非常願意(重要的是,不再是僅僅作為「創新」預算,而是作為實際的營運支出預算,可能還會從其他計畫中調撥)分配預算和資源來探索這一領域。但我們可能需要面對一個 3 至 5 年的部署周期,而非僅僅一年。
21. AI 會結束 SaaS 的時代嗎?
這是過去一年中的熱門討論話題之一。
討論的一個觀點是:AI 讓編程變得更加簡單,即使是幾個水平一般的開發者,也能夠建立出一款客製化的 SaaS 產品來滿足特定需求。當能夠自主開發時,為什麽還要向 SaaS 提供商支付高額費用呢?
再談另一個未來版本:一個可能由多個模型構成的統一 AI 智慧,將管理你整個公司的運作,涵蓋人力資源、財務、銷售等各個領域,透過一系列 AI 代理實作全自動化和無縫銜接的營運。
雖然我們距離這兩種趨勢的全面實作似乎還有一段距離,但眾所周知,在 AI 領域,變革來得飛快。
目前,隨著 AI 技術被整合進每一個 SaaS 產品,預示著這些產品將變得更加強大,這似乎是一個更可能的未來趨勢。
22. AI 將如何重塑風險資本界?
先不論 AI 是否能夠自動化風險資本的有趣討論,無論是在選擇投資公司還是投後價值增值方面,都有一系列關於風險資本是否為迎接 AI 時代做好了正確配置的問題:
風險資本規模是否太小?諸如 OpenAI 這樣的企業已經籌集了數十億美元,未來可能還需籌集更多。這些資金很大一部份是透過大公司如微軟等提供的,可能主要采取計算資源換取股權的形式。當然,很多風投也在大型基礎模型公司上做出了投資,但這明顯偏離了傳統的 VC 軟體投資模式。AI 時代或許需要更大規模的風險資本基金——目前看來,沙烏地阿拉伯正與美國的風投公司合作,準備推出一個高達 400 億美元的 AI 基金。
或者,風險資本的規模已經太大了?如果 AI 真的能將我們的生產力提高 10 倍,包括超級程式設計師、自動化的銷售開發代理以及自動生成的行銷內容,我們即將見證由極簡團隊(或許只需一人)營運的全自動化公司的興起,這些公司理論上能實作數億美元的收入——甚至可能上市。
一個年收入達到 1 億美元的公司,在其成長過程中,真的需要風險資本的介入嗎?
23. AI 是否將為消費市場帶來新生?
自社交媒體和行動裝置時代以來,消費市場一直在尋找新的增長點。生成式 AI 可能正是這一增長點的契機。
其中一些值得關註的領域包括:
搜尋 :幾十年來首次,谷歌的搜尋壟斷面臨了早期但具有可信度的挑戰。一批創新的初創公司,如 Perplexity AI 和 You.com,正引領從傳統的搜尋引擎向提供直接答案的引擎轉變。
AI 伴侶 :超越反烏托邦的想象,想象一下,如果每個人都擁有一個無比耐心且能夠針對個人需求提供知識、娛樂或治療建議的 AI 伴侶,會怎樣?
AI 硬體 :Humane、Rabbit、VisionPro 等公司正在消費硬體領域引起轟動,預示著技術的新發展方向。
個人化客製娛樂 : 隨著生成式 AI 工具不斷進步(變得更便宜),我們將如何創造出新型娛樂和藝術形式?
24. AI 與區塊鏈:空談,還是有潛力的新興領域?
我明白,提到 AI 和加密貨幣的結合,很容易讓人想到社交媒體上的玩笑。
然而,一個不爭的事實是,AI 正逐漸被少數幾家大公司壟斷,這些公司不僅技術先進,還擁有大量的計算資源、數據和頂尖 AI 人才——從各大科技巨頭到名不副實的「開放」AI 組織。與此同時,區塊鏈的核心優勢在於其能夠建立去中心化網路,讓參與者能夠共享資源和資產。這是一個值得深入探討的領域,正如我們幾年前就開始研究的那樣(參見這裏的演示)。
一些與 AI 關聯的加密計畫取得了顯著進展,包括 Bittensor*(一個去中心化的機器智慧平台)、Render(一個去中心化的 GPU 渲染平台)、Arweave(一個去中心化的數據平台)。
盡管我們在今年的 MAD Landscape 中沒有專門討論加密貨幣,但這確實是一個值得關註的領域。
問題始終是,加密行業是否能夠避免淪為數不勝數的 AI 相關梗幣、操縱市場和詐騙的陷阱。
未討論的其他熱點話題:
AI 是否會導致人類滅亡?AI 末世論者與加速論者的辯論
監管、私密、倫理、深度偽造的問題
AI 創新是否只能在舊金山進行?
融資、並購與 IPO
融資情況
當前的融資環境呈現出「一分為二」的局面,AI 領域與其他領域截然不同。
總體上,資金投入在 2023 年下降了 42%,降至 2484 億美元。2024 年初的幾個月裏,雖有若幹積極跡象,但整體趨勢並未發生顯著變化。
正因為前文提到的種種原因,數據基礎設施領域的投資活動寥寥無幾,Sigma Computing 和 Databricks 算是罕見的例外。
而 AI 領域的情況則截然不同。
AI 資金市場的幾個顯著特征包括:
巨額資本主要流向少數幾家初創公司,尤其是 OpenAI、Anthropic、Inflection AI、Mistral 等。
企業投資者的參與度異常高。2023 年對 AI 領域投入最多的三家公司分別是 Microsoft、Google 和 NVIDIA。
上述企業交易中,實際現金與「以計算力換取股權」的比例有些不明朗。
自我們 2023 年的市場動態分析報告以來,以下是一些引人註目的交易,它們大體上按時間順序排列(這並不是一個完整的列表):
OpenAI ,作為領先的基礎模型開發者,透過兩次融資共籌得 103 億美元,目前估值高達 860 億美元。另一位場上的重要玩家Adept,成功籌資 3.5 億美元,估值達到了 10 億美元。在金融服務市場研究領域,AlphaSense透過兩輪籌資總計收入 4.75 億美元,現估值為 25 億美元。Anthropic,同樣是基礎模型的開發者,在三次籌資活動中累計獲得 64.5 億美元,估值達 184 億美元。
在特定技術領域,Pinecone的向量資料庫平台獲得 1 億美元融資,估值為 7.5 億美元。專註於光互聯技術的Celestial AI,在兩輪融資中籌得 2.75 億美元。作為 GPU 雲服務的提供者,CoreWeave獲得了 4.21 億美元的融資,估值達到 25 億美元。而開發光動力芯片的Lightmatter,在兩輪融資後,估值上升至 12 億美元。
數據分析平台Sigma Computing籌集資金 3.4 億美元,估值達到 11 億美元。Inflection和Mistral這兩家基礎模型開發商分別籌資 13 億美元和 5.28 億美元,估值達到了 40 億美元和 20 億美元。Cohere,又一基礎模型開發商,融資 2.7 億美元,估值同樣為 20 億美元。
在視訊與程式碼生成領域,Runway和Synthesia*分別透過融資活動籌得 1.91 億美元和 9000 萬美元,估值分別為 15 億美元和 10 億美元。面向開源模型的機器學習與數據科學平台Hugging Face,融資 2.35 億美元,估值為 45 億美元。專註於程式碼生成和軟體開發的Poolside與Magic,分別籌資 1.26 億美元和 1.17 億美元,展現了這一領域的活躍融資趨勢。
此外,Databricks、Shield AI、Glean、Lambda Labs等公司在各自的領域內也完成了重要的融資活動,進一步證明了 AI 技術在多個行業內的廣泛套用和發展潛力。
並購及私有化動態
自 2023 年以來的 MAD 事件後,並購(M&A)市場顯得 頗為沈寂 。
眾多傳統的軟體買家更多關註於自家的股價與業務發展,而不是積極尋求並購機會。
此外,當前嚴格的反壟斷法規為潛在的買家帶來了更多挑戰。
盡管如此,私募股權公司在這個不利的市場環境中依然活躍,尋找著價格更為合理的投資機會。
以下是近年來在 MAD 舞台上頻頻出現的公司中,一些引人註目的交易案例(按規模排序):
Broadcom (一家半導體生產商)以 690 億美元收購了VMWare(一家雲端運算公司);Cisco(一家網路與安全基礎設施公司)以 280 億美元收購了Splunk(一家監控與可觀測性平台);Qualtrics(一家客戶體驗管理公司)被Silver Lake與CPP Investments以 125 億美元的價格私有化;Coupa(一家支出管理平台)被Thoma Bravo以 80 億美元私有化;New Relic(一家監控與可觀測性平台)被Francisco Partners和TPG以 65 億美元收購;Alteryx(一家數據分析平台)被Clearlake Capital和Insight Partners以 44 億美元私有化;Salesloft(一家收入協調平台)以 23 億美元被Vista Equity收購,後者隨後也收購了Drift(一家專註於客戶體驗的 AI 聊天機器人開發商);Databricks(一家數據湖倉庫提供商)以 13 億美元收購了MosaicML(一個 AI 開發平台)(還包括其他一些金額較小的公司,如Arcion和Okera);Thoughtspot(一家數據分析平台)以 2 億美元收購了Mode Analytics(一個商業智慧創業公司);Snowflake(一家資料倉儲提供商)以 1.5 億美元收購了Neeva(一個消費者 AI 搜尋引擎);DigitalOcean(一家雲托管提供商)以 1.11 億美元收購了Paperspace(一家雲端運算和 AI 開發創業公司);NVIDIA(一家雲端運算芯片制造商)收購了OmniML(一個針對邊緣計算的 AI/ML 最佳化平台)。
還有 Microsoft 對 Inflection AI 的「非典型收購」。
2024 年會是 AI 並購的大年嗎? 這很多都取決於市場持續的活力。
市場低端見證了眾多具備強團隊背景的 AI 初創公司在過去一至一年半時間裏獲得資助。在過去十年裏的幾輪 AI 熱潮中,許多初創企業在首輪融資之後很快被收購——盡管這些公司實際吸重力與交易價格常常不成正比,但稀缺的 AI 人才一直是各方爭搶的焦點,現在也不例外。
在市場的高端,領先的數據和 AI 平台之間進一步整合有著堅實的商業理由。不過,這類交易的成本可能會更高。
IPOs 究竟如何?
在公共市場,AI 已成為一個熱門趨勢。2023 年,被稱為「七巨頭」(Nvidia、Meta、Amazon、Microsoft、Alphabet、Apple 和 Tesla)的股票至少增長了 49%,帶動了整個股市的上升。
然而,公共市場上真正純粹的 AI 股票仍然極為稀少。那些能夠上市的少數公司則獲得了豐厚的報酬——例如,Palantir 的股價在 2023 年飆升了 167%。
這為許多即將 IPO 的 AI 相關創業公司帶來了積極訊號。在機器學習、分析和數據(MAD)領域,有不少公司已經發展到了顯著的規模,Databricks 就是其中的佼佼者,此外還有 Celonis、Scale AI、Dataiku* 和 Fivetran 等。
同時,OpenAI 和 Anthropic 如何看待公開市場,也是一個值得關註的問題。
不過,2023 年的 IPO 市場表現不佳,只有少數與 MAD 相關的公司成功上市:Klaviyo(一家行銷自動化平台)於 2023 年 9 月以 92 億美元估值上市;Reddit(一個論壇風格的社交平台,向 AI 公司提供內容授權)於 2024 年 3 月以 64 億美元估值上市;Astera Labs(一個為 AI 和雲基礎設施提供智慧連線解決方案的半導體公司)也在 2024 年 3 月以 55 億美元估值上市。
結論
我們正生活在一個特殊的時代,處在一個範式轉變的初期。現在是嘗試新事物的最佳時機。我們的旅程才剛剛開始。
4 月 25 ~ 26 日,由 CSDN 和高端 IT 咨詢和教育平台 Boolan 聯合主辦的「 全球機器學習技術大會 」將在上海環球港凱悅酒店舉行,特邀近 50 位技術領袖和行業套用專家,與 1000+ 來自電商、金融、汽車、智慧制造、通訊、工業互聯網、醫療、教育等眾多行業的精英參會聽眾,共同探討人工智慧領域的前沿發展和行業最佳實踐。 歡迎所有開發者朋友存取官網 http://ml-summit.org、點選「閱讀原文」或掃碼進一步了解詳情。