當前位置: 妍妍網 > 資訊

Databricks 宣布收購 Tabular:Apache Iceberg 社群波瀾起伏,數據領域的競爭進入新階段

2024-06-07資訊

事件

Databricks 收購了 Tabular。字少事大。

緊接著,最近剛剛發生的事件,Iceberg 的 Contributor Kanou Natsukawa 呼籲 Icerberg 的 PMC Chair 辭職,其核心擔憂是Tabular被收購後可能導致利益沖突。

Kanou 意有所指,擔心的是什麽

為什麽 Kanou 有這個擔心?他其實真正擔心的是,鑒於 Tabular 是 Iceberg 「背後」的商業公司,有多位 Iceberg 的 PMC 在 Tabular 任職。那麽這次收購之後,很有可能 Databricks 會完全能夠控制 Tabular 和 Iceberg,及其標準。「標準」—— 真正的擔憂是 Databricks 控制 Iceberg 標準的風險。

一箭雙雕:Databricks 的戰略意圖

Databricks 此舉的戰略意圖不難看出。一方面,他們希望發展自家的 Delta Lake, 因為 Delta Lake 與 Iceberg 是直接競爭關系;另一方面,這也是在打擊競爭對手 Snowflake。Snowflake 全面擁抱開放的湖倉標準,而 Iceberg 已經成為業界事實標準之一。透過收購 Tabular,Databricks 可以間接控制 Iceberg,從而在數據湖格式標準的競爭中占據優勢地位。

歷史總是相似的

當年 Oracle 收購 Mysql 是這個故事的翻版,Kanou 擔心的正是這樣的事情再次發生在 Iceberg 上。

MySQL 原開發者為瑞典的 MySQL AB 公司,該公司於 2008 年被昇陽微系統( Sun Microsystems )收購。2009 年,甲骨文公司(Oracle)收購昇陽微系統公司,MySQL 成為 Oracle 旗下產品。


(引文:https://zh.wikipedia.org/zh-hans/MySQL)

這一事件在當時引起了開源社群的廣泛關註和爭議。時至今日,MySQL 仍是活躍的開源計畫,但在 Oracle 的影響下, 它的發展方向和節奏無疑發生了變化。Oracle 對 MySQL 的控制,也引發了開源社群對大公司介入開源計畫的廣泛討論和反思。

Kanou 對 Databricks 收購 Tabular 的擔憂, 與當年社群對 Oracle 收購 MySQL 的顧慮如出一轍。歷史似乎在重演,只是這一次,舞台從開源資料庫轉移到了開源數據湖儲存標準。

Databricks 的意圖可以說是明牌了

在之前關於 Redshift 的采訪中,Databricks 的 VP 明確表達了對數據儲存格式的「野心」。

(引文:https://inpractise.com/articles/databricks-melting-the-snow)

能夠看到兩強相爭之時,都看中了數據湖結構化儲存標準這個兵家必爭之地。為什麽會這樣?

因為傳統的資料庫引擎和未來 AI 模型多模態等引擎,去處理海量的額數據是一個多樣性的處理過程。一方面數據是海量的,很難做到將海量的數據「餵」給不同的引擎,這樣耗費的「數據搬運」或 ETL 成本太高;另一方面處理數據的引擎越來越多樣。所以,必然會需要一個革命性地架構的改變。那麽,今天 Snowflake 和 Databricks 的的數據的開放性格式標準或將是決定未來各方能走多遠的一個關鍵技術。如果 Databricks 真的控制了 Iceberg,那麽也就意味著很有可能 Icerberg 的發展會減緩,進而影響到支持 Iceberg 的 Snowflake。

AI 時代數據架構的發展趨勢

AI 時代的計算與儲存將是 M 對 N 的關系架構,區別於一直以來資料庫的計算和儲存繫結的 1 對 1 關系。

從雲器科技此前的分享來看,湖倉一體會成為主流架構,而 Iceberg 已成為事實標準下一代的數據架構將會是:

  • 一套數據,統一的後設資料中心,具備*一致*性(其他層次上的數據用 Cache 抽象)

  • 開放性,數據格式公開可存取

  • 可插拔性,上層引擎 / 套用可以靈活的插在 Lakehouse 上(這對於新興的 AI 引擎 / 套用至關重要)

  • 關濤(雲器科技聯合創始人及 CTO)此前分享到,「開放的儲存和後設資料支持多引擎協作是 Data+AI 平台的演進方向。」

    據此,不難理解 Snowflake 和 Databricks 會為此不惜重金布局「對線」。

    Snowflake 和 Databricks 的暗戰

    之前 Ryan Blue, Apache Iceberg PMC Chair 在 Iceberg Summit 2024 中談及開放的儲存格式正在掀起一場「革命」,並暗戳戳地陰陽了 Delta Lake。意思是本來沒想把 Delta Lake 算進來,但想了想還是算上吧。滿臉的勉強。

    we had this surprise realization a couple years ago when Snowflake and Redshift and other commercial data warehouses started adding support for Apache Iceberg. What's going on there? Why are they doing that? In order to answer that question... I think the central trend is that projects like Apache Iceberg, I would actually include Delta in this as well, have unlocked shared data warehouse storage.

    (引自:"Iceberg Summit 2024 Keynote: The Quite Revolution")

    這次收購事件,可以看出 Databricks 毫不掩飾的講出想釜底抽薪解決問題,為自己的 Delta Lake 開路。

    (圖:Databricks VP 的演講)

    這場競爭雙方是不惜代價全力以赴的。在 Databricks VP 之前的一段訪談,談到 Iceberg 和 Delta 的直接競爭,是一場非常決定性的戰爭,用了「WAR」這個詞。

    並非技術之爭,而是「開放」與「控制」之爭

    Snowflake 在 2024/6/3 的釋出會 Keynote 分享,數據是 AI 的基礎設施... 以前是數據送給引擎去處理,未來 AI 時代是多種引擎,包括AI引擎,計算引擎要趨向數據。Data Centralization的理念是方向。

    "The AI Data Cloud is lighting up every corner of the enterprise."


    "Data... is the foundation of AI"


    -- Sridhar Ramaswamy, Snowflake CEO

    (圖:Snowflake Summit 2024 Keynote)

    Snowflake 的產品經理 James Malone 在今天對 Tabular 的收購事件也釋出了他的看法,他認為Databricks 收購 Tabular 彰顯了 Databricks 的「獨占」與「控制」思維:

  • 獨占而非共創

  • 謀求「全面控制」而非支持開放的技術社群

  • 「開放標準本應由社群共同建立和維護,就像 Snowflake 新釋出的 Polaris 那樣,旨在促進生態共存。而 Databricks 的做法卻恰恰相反,他們試圖透過收購的方式來控制 Iceberg 標準,這種‘不能打敗就收購’的心態,與開源精神背道而馳。」

    我們保持關註,希望 Iceberg 和技術社群能挺住

    資本的力量,如果用在助力技術研發和套用落地,可以推動行業進步,造福社會,是「Tech for Good」;而如果資本用於收購打壓競爭對手時,就成了一種「資本之惡」。

    Iceberg 能否在 Databricks 的控制下繼續保持開放、中立, 現在還是一個未知數。業界對此表示擔憂,但同時也寄望於 Iceberg 社群能夠堅守開源初心,維護計畫的獨立性。Iceberg 的命運,或許將成為資本與開源技術賽局的一個縮影。

    (圖:Iceberg 技術社群的討論)

    下周,Databricks 將召開年度釋出會,而 Snowflake 的釋出會也正在如火如荼地進行中。雖然兩家巨頭今年沒有像去年那樣選在同一時間異地開幕,但這絲毫不會減弱他們在數據領域的競爭激烈程度。相反,隨著 Databricks 收購 Tabular 事件的發酵,兩個海外數據平台巨頭之爭只會愈演愈烈。 (雲器科技組織了對 Databricks 和 Snowflake 年度峰會的解讀圓桌,文末可預約直播)

    人工智慧正處在聚光燈的中心,各路科技公司都在追逐 AI 的絢麗光環。但在光環的背後,一場數據格式之爭——關乎未來十年數據格式標準之爭在暗處正在上演。

    作者:蘇郡城,雲器科技營運總監,雲端運算大數據領域專家。曾主導阿裏雲國際業務數據體系建設,十余年一線數據化營運實戰,助力企業實作數位化增長,熱衷於技術社群分享。

    專欄「雲聲數語」甄選雲端運算大數據前沿動態和實踐幹貨,致力於啟發數位化轉型新思路。歡迎關註雲器科技公眾號,與數據對話與智慧同行,改變數據的使用方式!