當前位置: 妍妍網 > 資訊

對話數據虛擬化之父 Angel Viña:未來查詢數據的過程將不再需要程式設計師這個角色

2024-05-20資訊

作者 | 王啟隆

責編 | 唐小引

出品丨AI 科技大本營(ID:rgznai100)

步入 2024 年,全球數據的增長規模和速度已達到前所未有的水平。據 IDC 預測,全球今年將生成 159.2 ZB 數據,到 2028 年數據量將增加一倍以上,其膨脹速度遠超歷史上任何時期。數據不僅量級驚人,其生成、處理與分析的速度也實作了質的飛躍,催生出一個由數據驅動的新經濟時代。

【大數據時代】的作者 Viktor Mayer-Schönberger 曾將數據比作「 智慧時代的原材料 」,還有些 科學家視數據為石油或黃金。 在這一背景下,各行各業紛紛挖掘數據寶藏,其中,金融領域尤為突出。

北美的金融心臟——加拿大多倫多,曾經發生過一次數據整合的變革。 加拿大最大的銀行 坐擁 1600 萬客戶、業務覆蓋全球 40 余國的金融巨擘,他們面臨一個棘手問題: 由於資產規模龐大,全球各地的風險經理對於市場風險的認知存在差異,且依賴於各自獨立的資料來源,這導致風險數據的整合及報告生成流程冗長低效,成為制約業務發展的瓶頸。

在數據治理實踐中,平衡管理和控制、風險評估、及合規性這三個關鍵領域至關重要,它們共同支撐起一個高效的數據管理體系。任何一方面的不平衡都可能引發連鎖反應,影響整個系統的穩健性。為了尋找全新的數據治理方案,這家銀行引入了 Denodo 的 數據虛擬化(DV) ,有效地構建了一個數據的「匯聚中心」,將數據準備時間縮短 80%,整合成本降低 50%,查詢速度提高 10 倍,滿足更多使用者同時存取的需求,無需直接參照具體數值。

在被譽為矽谷心臟的聖塔克拉拉,還發生過另一起故事。知名的半導體巨人英特爾在這座城市紮根,2019 年,它麾下已匯聚了超過十萬名精英,創造了高達 700 億美元的輝煌業績。然而,在這光鮮數位的背後,卻隱藏著一個棘手的問題:產品上市時間的延誤,如同一場悄無聲息的風暴,每月讓公司承受著十億美元的損失。

「業務邏輯內嵌在 30 個不同的報告工具中,可使相同的數據產生不同的結果。更多時間花在爭論這個問題上,然後才是將產品推向市場……」

團隊花費大量時間在無休止的辯論上,而非推進產品的上市行程。決策者們常常深陷於資訊迷霧之中,難以快速找到正確的數據支撐決策。

Denodo 在這時帶來了其獨特的數據虛擬化技術,斬斷了困擾英特爾的資訊亂麻。數據虛擬化繞過了繁瑣的數據抽取、轉換和載入(ETL)過程,實作從 源頭即時抓取數據 ,為決策提供了即時而準確的依據。不僅僅於此,它還將原先散落在各處的業務邏輯統一到了數據虛擬化層,確保不論使用何種報告工具,結論都是一致的。

英特爾的資料倉儲依舊保存著寶貴的歷史數據,但經過最佳化,儲存量大幅減少,效率顯著提升;其業務部門獲取數據的時間被奇跡般地縮短了 90%,產品上市的時間也因此減少了數日,公司的收入激增,增長振幅在 5000 萬到 1 億美元之間……

無數的案例使 Denodo 如今成為了數據管理領域的全球領導者,他們的服務橫跨了金融、醫療、汽車、能源、消費與零售等 30 個行業。數據虛擬化歷經了超 1000 家行業頭部客戶的工程化打磨, 不僅為所有風險管理崗位確保了一個統一且可靠的資料入口,還大振幅簡化了資訊獲取和安全控制程式,促進了效率的大幅提升。 Denodo 現支持連線 200+ 資料來源,即時處理高達 5PB 數據,提供毫秒級查詢響應,並支持數千並行使用者存取。

為了進一 步了解數據虛擬化,我們采訪了這一技術的發明者——Denodo 創始人 & CEO Angel Viña 。20 世紀 90 年代,數據架構變革至傳統的資料倉儲, Angel Viña 的一個大學計畫在這一時期孕育了 Denodo 的 數據 虛擬化技術,他也因此被譽為「 數據虛擬化之父 」、「 邏輯數據編織之父 」。

Angel Viña

隨著 AIGC(生成式人工智慧)時代的到來,數據被賦予了全新的生命力,成為了創意與價值創 造的源泉。Denodo 在時代的洪流下將何去何從?Viña 會在本文為我們一一解答。 本篇專訪還將呈現 Denodo 的另外兩位高管:高級副總裁兼 CMO Ravi Shankar 以及 Denodo 大中華區總裁 Bill He (何巍)的獨到見解,共同揭示數據虛擬化如何引領未來金融行業的數據治理革命。

過去是人找數,將來是 找人

問:在創始人 Angel Viña 決定創立 Denodo 並將重心放在數據虛擬化上時,市場中是否已存在相似的技術理念或競爭者?當時你是如何精準預見到該領域未來的發展趨勢及市場需求?

Viña : 我們於 90 年代末創立公司時,正值大數據概念興起,數據處理方案主要圍繞資料倉儲建立,側重於資料庫的構建。彼時的做法基於 數據的采集 物理儲存系統的建立

全球範圍內,少數幾所大學的研究團隊正嘗試將即時處理技術套用到這一流程中,旨在實作數據從采集到使用的直接轉換,跳過透過 ETL 過程將數據儲存於物理媒介的中間環節。我們是這股探索力量中的一員,且較早地掌握了成熟技術,能夠實作 即時構建高效邏輯資料庫 ,這些資料庫能夠即時整合來自多個分布式資料來源的資訊,並具備對資料來源的高適應力。

公司成立之初,在歐洲我們是獨樹一幟的,因我們的創新在於——提供了 一種新的數據整合視角 。而在美國,當時也有一批初創企業在探索類似的技術路徑。這就是 1990 年代末的行業背景。

問:數據虛擬化技術的誕生有哪些關鍵時刻?

Viña 我認為有幾個關鍵時期,在我們的研究中起到了決定性作用。

這個過程是從探討如何即時管理數據開始的。我們在大學做科研計畫的時候,做的是即時系統的研究,旨在加速即時收集數據的利用,力求消除從數據采集到最終計算過程中繁瑣的中間處理環節。 我們當時嘗試 將即時數據存取與加速數據至消費端的流程結合 起來,並且保留查詢數據的能力。隨後,我們意識到理想的模式是采用一種 貼近使用者需求的資料庫設計 ,它能夠在讀取資料倉儲資訊的同時自動生成,類似於物理資料庫的結構,但更為靈活即時。

這便是現今被稱為「 數據虛擬化 」的核心技術理念。它涉及從分布式數據生態中抽取數據,即時地在記憶體中動態構建數據結構,使得數據可被即時查詢,並高效地服務於數據消費者。當時歐洲有幾個不同的機構也在做這樣的研究,但顯然不是所有人都 能堅持下來。

問:最開始是遇到了什麽問題和契機,讓您選擇開始研究數據虛擬化?

Viña 當時我們的核心工作就是建立 即時系統 來管理大量的數據流,因為在從數據獲取到數據視覺化的過程中,數據流量非常大。

比如,有個計畫是在電信網路中利用 物聯網數據 進行網路狀態視覺化試驗, 計畫面臨的核心問題就是數據碎片化,數據來自各種各樣的網路。

還有個計畫是關於 核電廠安全 ,具體就是 為確保核電廠安全進行的即時數據采集實驗,該實驗旨在監測核子反應爐容器的情況。 在這些工業情境下,數據透過多種系統收集,極其零散。

還有一項套用場景推動了技術的發展,即 整合網頁數據 ,為線上銀行套用中的金融產品提供統一檢視。

這三個案例共有的特點是: 均需快速存取分布式的數據資源,且需整合源自不同碎片化系統的數據 。我們 經常會遇到的情況就是數據分布在不同的系統裏,非常碎片化、非常分散。 我們的目標是實作即時地將這些數據碎片整合成業務層面可理解的數據實體,從多樣化的數據儲存直接到套用層展示數據

何巍 這三個案例實際上是兩個例子——一個是 工業 ,一個是 金融 。我們 經常會遇到的情況就是數據分布在了不同的系統裏,非常碎片化、非常分散。 但企業面對的需求卻是即時管理數據,所以 傳統的辦法做不了

何巍

我們的研究實際就是在 不透過行動資料的情況下 如何 即時獲取統一數據 ,答案就是 建立虛擬層 。這 解決了兩個問題,一是即時連線數據,是「 連線 」而不是「 」; 二是給上層套用提供單一的檢視,既 在這一層裏,使用者不需要知道數據在哪。

Viña 所以, 實作了一項革命性的突破,將即時處理能力賦予原本不具備此特性的領域,即整合數據片段並即時形成可消費的業務數據實體,統一不同數據系統間的語意差異,而這恰是多數企業內部的常態。 關鍵詞是 即時性 這是我們解決的一大主要問題,另外一個主要問題在於,我們處理的這個挑戰裏一定會涉及到多個資料來源。因為單個 資料來源無論數據量多大都不適合我們的場景。

二十年前,這被視為一場顛覆性變革,而今其重要性有增無減,尤其考慮到大數據的興起、企業需管理的龐大數據量、企業生態系內繁多的資料來源,以及數據使用者群體的多樣化—— 數據不再局限於 IT 人員,還包括所有組織內的業務使用者

問:數據平台的效能最佳化一直是很大的挑戰,在做這種數據查詢和分析速度的提升的時候,Denodo 是怎麽做的,能不能分享一下具體的最佳化策略?最後產生的效果有沒有具體的數據?

Viña 這個問題非常重要,因為我們技術的核心就是效能。

我們會首先分析接收的查詢請求, 收到資訊之後由後端計算將查詢的內容進行重寫,分析出其中的核心元素 。查詢最佳化的首要步驟是解讀查詢,並根據特定執行場景重寫以最佳化執行效率。其次,在查詢適應特定執行器配置後,我們會運用基於 AI 的最佳化技術。隨著產品叠代,我們依據查詢配置、執行器配置、從資料來源獲取的資訊型別,以及過往執行類似查詢的經驗,采取多樣的最佳化手段。這些技術自動合成查詢執行計劃,充分考慮多種因素,確保最佳化措施的有效實施。

何巍 :這個過程 實際上是把請求重寫,並在重寫過程中融入最佳化機制,其中 融入人工智慧自動化技術,實作自我學習與適應 。所以我們的系統有一個學習的過程,它會在重寫根據過去的一些經驗學習,隨時間逐步提升效率與準確性。

Viña 重寫後的查詢 會依據所選執行器型別生成執行計劃, 然後根據不同的執行者生成最佳化策略 為什麽執行者會不同? 不同公司的後端系統是不一樣的。 此外,有 兩大要素對效能最佳化至關重要: 一是高級緩存技術的運用,數據處理層廣泛采用高效緩存策略; 二是將特定計算任務上移至執行層處理,該層基於大規模並列處理技術,尤其在處理復雜分析查詢時,借助我們采用的高效能技術( P resto ),進一步提升了效率。 正是這些綜合技術的套用,構成了執行引擎的核心優勢,成就了我們技術的獨特價值。

何巍 :我想再補充一下,不論面對何種查詢請求,系統都能透過最佳化行程有效應對。我們經常會說一句話:「 過去是人找數,將來是 找人 」,以後使用者無需關註數據來源或處理的具體細節,系統能主動且智慧地完成任務。

AIGC 時代,需要把多元的數據連線起來

問:剛剛提到處理數據時會加入人工智慧的技術,這個決策是怎麽做出的?此外,AI 技術肯定是在不斷演進的,以前你們是怎麽結合的,未來又將如何?

Viña 我們的平台在過去四年多時間載入人工智慧,這裏面的技術基於 符號 AI(Symbolic AI) ,而非依賴機器學習的邏輯。AI 嵌入於我們如何生成和最佳化執行計劃的邏輯中,這些計劃考慮了虛擬層中成千上萬次執行的日誌,以此學習並最佳化決策過程,比如如何執行查詢、重寫策略等。這些決策預設由系統自動執行,但數據平台管理員可以幹預。

在大約一年半前釋出的 Denodo 8 中,我們引入了強大的 AI 功能,以協領使用者體驗平台。這對我們的自助服務平台、數據目錄以及導航數據生態系至關重要,同時在決定哪些數據集應透過摘要實作物理化時也發揮著關鍵作用。 我們對 AI 技術的運用旨在提供基於歷史數據使用的推薦 ,類似於現今普遍采用的輔助工具,在構建新數據檢視或物理化數據集時提供幫助。

何巍 :讓我簡要說明一下。在我們的第八版和第九版 Denodo 中,我們實際套用了生成式 AI 技術,因為我們經常提到 數據消費端 ——即誰來使用數據?我們認為 自助服務 是主要的消費場景,還有 商業智慧(BI) 等。然而,無論是自助服務還是 BI,都會遇到許多非技術使用者。我們希望 透過自然語言的方式,讓使用者無需編程即可操作 ,因此在第八版和第九版產品中,我們整合了自然語言查詢功能。

Denodo 與 AI 的融合主要體現在兩個方面:一是將 AI 技術直接套用到我們的產品中,包括自然語言處理等功能;二是透過中間層進行最佳化,引入人工智慧技術。另一方面,關於如何將大型模型套用到企業內部,眾所周知,AI 的基礎是數據。但在企業內部,如何將內部數據與通用模型相結合,這就需要構建一個中間層,因為企業往往不願意直接公開內部數據,卻又希望利用通用模型的優勢。因此,要兼顧兩者,就需要一個中間層來橋接這些數據。 我們的工作重點就集中在如何構建和最佳化這一中間層,以便更好地結合內外部數據資源

問: 全球數據管理市場正在發生很大的轉變,你們是怎麽區別於競爭對手的?

Shankar :市場上我們的競爭者依然是傳統的數據管理方式,他們將分散在各系統中的數據匯總至集中式系統,隨後向所有使用者提供。我們主張數據原地保留,無須遷移或集中。使用者可直接連線至資料來源頭,並構建資訊的虛擬檢視供消費使用。

Ravi Shankar

傳統數據收集方法存在諸多弊端:首先,將數據從不同來源和格式遷移至中心儲存 耗時較長 ,且需進行繁瑣的數據轉換工作,再載入至另一系統,這一系列過程大大延遲了數據到達消費者手中的時間;其次,當數據被復制至另一系統時,會與源系統中的即時更新 產生差異 ,導致數據品質問題。數據虛擬化技術的引入,旨在即時捕獲最新數據,一旦數據生成,即可透過虛擬檢視迅速呈現給使用者,確保數據的新鮮度、快速響應及即時性,同時避免了增設系統及儲存數據帶來的額外成 本。

問:未來幾年,受 AI 浪潮影響,在數據管理和分析領域預計將發生哪些變化?

Shankar :數據管理正經歷轉型,趨向自動化,因為傳統的數據管理流程極為依賴人力,涉及大量編程工作及後續維護。

我們正探索利用人工智慧 減少手工操作,加速數據獲取 。Denodo 現在會采用人工智慧來即時理解數據用途,並向使用者提出建議,告訴他們「你應當執行這項操作。」

舉個例子,比如說 Bill(何巍)在用某項數據時,AI 就會給我提示,提醒我有人在用這個數據,其合理性或者合法性是怎麽樣,並給我相應的建議和提示。

比如說以醫療行業為例,我們都知道醫藥發現或者制成新藥的過程中,研究者或相關的科學家研究一款藥可能需要分析 1 萬個藥分子。如果市場上有人已經做過相關的工作了 ,AI 實際上可以透過向其他研究人員提供某人已經完成的研究建議,減少重復研究,從而縮短藥品上市的時間。

何巍 :我們利用人工智慧,目的是將手動操作轉變為自動化,尤其是在數據獲取環節提升效率。我們的人工智慧模型具備兩大核心功能:一是 理解數據 ,即在數據使用過程中動態解析;二是 向使用者即時提供操作建議

Shankar :我們討論的這些變革對數據管理領域意義深遠,其不僅體現在 Denodo 的產品規劃上,更關鍵的是, 數據管理在新興生成式 AI 時代扮演著不可或缺的角色 。初期的 AI 模型依賴公開的遺傳學和互聯網數據,而下一波生成式 AI 套用將與 行業數據 緊密融合,前面提到的藥物臨床試驗這種特定領域數據將用於訓練大型模型,使其能在特定情境下發揮效用,而這就需要跨多個分布式的資料來源進行高效存取。

何巍 :確實,正如 Shankar 指出的那樣,數據管理的這些變革是劃時代的,尤其在生成式 AI 時代,數據管理變得尤為重要。傳統上,大型模型基於公共互聯網數據訓練,但在生成式 AI 套用的下一階段,我們將致力於結合工業數據與行業數據,包括工業、醫療臨床研發藥物等相關的數據,結合起來訓練大模型,使大模型能夠在縱向的行業特定背景下能夠起到作用。我們實際上做的就是 把多元的數據連線,使其為生成式人工智慧時代做出貢獻

問:現在技術更新如此迅速,你們未來會采取哪些措施來保持創新?

Viña 正如我前面所講的一樣,當前市場上諸多創新焦點集中在人工智慧領域,尤其是生成式 A I,它在多種行業套用中日益凸顯其重要性。Denodo 正位於這一技術創新浪潮的前沿,我們已經將人工智慧融入我們的體系中。

自去年起,我們就已具備生成式 AI 功能,主要套用於兩個場景:首先,我們正在將生成式 AI 整合進自身產品中。以往,使用者需透過 SQL(結構化查詢語言)這種專業程式語言來提取 Denodo 中的數據,而今,即便不具備 SQL 知識的使用者,也能透過 自然語言 (如英語、漢語等)提出問題,如詢問「去年在中國誰是我們的最盈利客戶?」,生成式 AI 即可將其轉化為 SQL 查詢,執行後返回所需數據。這意味著, 使用者無需求助於程式設計師編寫查詢語句,直接輸入自然語言即可即時獲取數據 。這是第一點。

其次,針對構建生成式 AI 模型的使用者,他們往往需要海量數據,且要求 數據來源廣泛、高度可信 。我們快速整合各系統數據,為這些大型語言模型提供可靠資料來源,進而幫助模型輸出更高品質的智慧服務。我們曾與中國官員交流,他們反映,某些中國企業相較於政府倡導的標準,在生成式 AI 能力方面尚存差距。Denodo 的技術恰好能為這些企業提供支持,幫助他們獲取高信賴度的數據,從而為中國乃至國際市場提供更優質的服務。這是第二點。

Shankar :我想從 技術創新的 視角 補充第三點,即我們如何透過技術手段支持數據管理的持續創新,特別是對大規模、分布式部署的支持。這對跨國公司而言尤為重要,跨國公司往往面臨跨國數據流動的挑戰,需確保遵守各司法管轄區的數據本地儲存規定。我們的獨特技術支持在不同司法管轄區的地理分布部署,透過數據虛擬化手段,使用者能夠在不跨越國界行動資料的前提下合規使用數據,滿足企業各個部門對於跨國家數據孤島中的數據需求或持續性報告需求。