從0到1，聊聊貨拉拉如何搭建數據指標體系

2024-04-23資訊

導讀本文分享的主題是指標體系的構建與套用。

圍繞下面 5 個部份展開：

1. 背景

2. 指標體系搭建

3. 指標標準化建設

4. 指標後設資料管理

5 . 指標套用&未來發展

分享嘉賓｜黃永強貨拉拉大數據技術與產品部

編輯整理｜王麗燕

內容校對｜李瑤

出品社群｜ DataFun

背景

指標體系是指一系列維度、有組織及結構的指標集合。構建指標體系主要是為公司業務目標落地做輔助決策，以及監控業務執行的穩定性情況等。

具體從業務、技術及產品三個視角來闡述指標體系構建中的痛點：

1. 業務視角：

可信任性：業務口徑不一致，導致指標數據不一致，影響到業務部門對數據的信任感；

可理解性：業務術語不一致，導致不同人對業務的理解不一致，從而導致數據存在略微的差異，增加溝通成本；

可衡量性：指標與業務的真實相關程度，能否準確衡量業務的變化，指導目標的達成；

可追溯性：隨著業務的發展，業務及數據口徑的變更歷史較難回溯。

2. 技術視角

數據穩定性：數據的產出是否穩定及時；

數據品質：數據是否準確，完整、一致。

3. 產品視角

可存取性：數據是否易於存取；

合規性：使用是否安全合規，如何防止數據泄漏的風險等。

指標體系構建

1. 指標設計

針對上述痛點，我們從以下三個方面去解決：

解決業務痛點：在指標設計時首先選取核心業務成體系化的來搭建指標體系，並將整個建設流程標準化；

解決技術痛點：將數據研發流程規範化，把握好數據模型的業務擴充套件性及 ETL 的效能問題，並做好數據鏈路及品質監控；

解決產品痛點：將建設的後設資料產品化，數據的使用做到服務化。

對於建設範圍：先聚焦核心業務，快速將核心業務的指標體系搭建出來並落地套用，然後再叠代最佳化。切忌刻意地追求指標的業務覆蓋面，避免導致需求範圍過大，實作周期太長，導致指標的套用落地嚴重延期。整個核心構建過程如上圖中所示，目標是圍繞賦能業務去設計指標。

2. 指標體系搭建

下面以貨拉拉為例，簡單介紹指標體系搭建的思路（例子與實際業務不一定相符，僅供參考）：

首先公司會制定業務的主要目標，然後依據參與人的業務軌跡梳理核心的業務過程；

然後拆解負責各個核心業務的相關部門的具體目標，接著業務部門依此制定落地的方案或策略；

最後為了指導目標達成，再梳理各業務具體的衡量指標。

3. 指標維度拆解

上圖中列出了指標及維度拆解中的一些經典原則及常用數據模型。這裏強調兩點：

遵循 MECE 原則，尤其是在底層數據模型的設計過程中，最好將維度和指標拆解地互斥且不交叉，這樣有利於保證上層套用層維度及指標組合的靈活性、同時也有利於提升復用率、降低整體的計算及研發成本；具體的拆分方法參考如上圖所示，二（多）分法、流程法等。

需要深入理解各核心業務場景的常用數據分析模型（比如上圖中 AARRR 等模型），結合自己公司的業務特點，選取合適的業務數據模型來搭建部門內部的指標體系。

指標標準化建設

指標體系建設的標準化流程可以參考以上流程圖，重點強調的內容有以下兩點：

數據需求準入評審：為了解決業務口徑描述不一致、業務口徑轉換為數據口徑的品質問題，一定要成立一個指標評審組織，至少由業務方、數據分析人員、數倉研發人員這三部份組成，此項工作人力投入價值最大，直接影響後續數據研發的效率、交付品質及是否返工修復數據口徑等工作量。

數據研發的標準化：為了數據模型設計工作的高品質開展，需要梳理好數據口徑；核心工作內容是數據的維度及指標梳理，落地為指標維度矩陣，再進一步拆解到事實層 (DWD) 的維度及原子指標，這樣可以更準確地評估後續數據研發的工作量。

指標體系建設過程中數據研發的工作重點：依據數倉的架構主要集中在匯總層各業務主題域的指標維度事實表的建設落地，其次是集市層，面向業務的多賬期、跨業務主題域、衍生指標的建設工作等。

指標後設資料管理

指標建設完成後，則需要進行指標後設資料管理，主要有四部份內容：

首先管理好指標建設流程；前期可以先采用 SOP 等文件落地，後續再產品化；

其次管理好數據模型，包括偏向技術的物理模型和偏向業務的邏輯模型；

然後管理好指標及維度的後設資料資訊，包括業務數據域、業務口徑、數據口徑、血緣關系等；

最後將數據封裝成服務，並將業務套用方的使用和呼叫資訊登記管理起來，以便後期的服務穩定性分級管理及指標體系建設的業務收益回收等。

對於指標後設資料管理方面，介紹以下三個相關定義：

數據需求 = 時間 + 維度 + 指標

指標 = 時間 + 修飾詞 + 原子指標

維度 = 通用維度 + 個人化的業務維度

因此對應的具體管理內容主要是如上圖所示的三部份後設資料的管理，修飾詞管理、指標管理和維度管理。

指標套用&未來發展

對於指標體系的主要套用場景包括：業務報表和看板、特定的業務數據產品等，另外實際已落地的新場景是：結合 AI 大模型透過自然語言快速取數，具體框架如上圖所示。

具體套用場景功能設計上，對於衍生指標，即基礎指標的四則運算、衍生及衍生維度，關聯父子維度，或者簡單關聯轉化的維度，我們都是透過後設資料配置來實作的，這樣極大提高了數據套用的靈活性，並大大降低了數據及後端數據介面服務研發的成本，同時提高了需求響應的及時性。

對於指標體系套用在未來的熱門發展方向主要體現在透過自然語言快速取數、歸因診斷及智慧營運這三個方面：

自然語言快速取數及簡單視覺化，在貨拉拉已經接近落地，相關雲廠商或者頭部互聯網公司也基本都有相關產品。這個場景的主要挑戰是如何降低錯誤率，個人理解在這個場景中可以拒答，但是不能給出錯誤數據。

診斷歸因，則處於探索逐步落地階段，前期主要先基於業務部門的分析經驗來配置歸因的邏輯來實作，後續再探索如何讓大模型透過對行業業務的理解學習，結合數理統計分析演算法來自主歸因。

智慧營運場景，為了提高營運效率，進一步對 AI 大模型提出了更高的客製化能力要求。傳統營運早已深入各行業公司的具體業務，主要是基於個人經驗和歷史沈澱的經驗知識等，因此需要更深入理解行業及公司業務的營運知識。同時由於涉及到具體的營運策略及業務數據，對於這部份的數據安全性也是一個挑戰。為了這個場景能更好地落地及推廣，還要求相關產品能具備通用化且安全的行業知識學習及更新能力，並最好將大模型行業知識的學習流程產品化，降低大家的學習使用成本，在保證營運效果的同時，大大減少公司的營運人力投入成本。

以上就是本次分享的內容，謝謝大家。

分享嘉賓

INTRODUCTION

黃永強

貨拉拉

大數據技術與產品部

黃永強，貨拉拉大數據技術與產品部，主要負責數據資產的建設工作，在數倉及大數據平台建設都有比較豐富的經驗。

往期推薦

點個在看你最好看

SPRING HAS ARRIVED