導讀 本次分享題目為畫像標簽體系構建與套用實踐。
主要介紹以下幾個部份:
1. 畫像標簽體系
2. 畫像標簽平台
3. 常見演算法類畫像
4. 畫像標簽套用場景
5. 問答環節
分享嘉賓| 周元煒 去哪兒網 資料探勘高級經理
01
畫像標簽體系
去哪兒在每個業務發展過程中構建了獨立的畫像標簽體系。隨著公司的不斷壯大,需將各個業務的畫像標簽體系進行整合。從技術角度看,整合的過程相對簡單,但業務層面的整合則較為復雜。因為各個標簽在不同業務中的定義存在差異,這增加了整合的難度。為了確保整合後的標簽體系能夠更好地服務於公司的整體戰略,需要進行深入的關鍵詞提取和最佳化,確保各個標簽的邏輯性和一致性。
1. 什麽是畫像標簽
使用者行為為使用者在 APP 上操作所產生的行為,業務日誌則為使用者自己點選、下單、搜尋等行為在伺服器端產生的數據。畫像標簽是透過規則統計和挖掘演算法對使用者行為和業務數據進行計算後得出的使用者等維度的數據。
2. 畫像標簽的需求來源
每個業務部門在搭建自己的畫像標簽平台時,由於目標不同,需求也有所差異,比如機票業務通常以行銷為目標,酒店業務通常以服務為目標。我們應從實際業務需求出發,與各個部門溝通,包括公司管理層、實習生等不同層級的人員,進行深入的需求調研,以確保整合後的標簽體系能夠更好地滿足業務需求。在整合過程中,使用者畫像標簽需求主要分為三類:行銷風控、內部業務分析套用和描述使用者。
營 銷風控: 使用者行銷、個人化推薦、精準廣告投放、使用者風控。
業務分析: 業務最佳化分析、多維度業務指標監控、指導新業務產品設計。
描述使用者: 單一使用者的定義、平台使用者的定位、行業報告。
3. 畫像標簽的分類
在畫像標簽構建的過程中分為業務分類和技術分類。
從需求中提煉出業務需要的使用者畫像分類,其中一級類目和二級類目偏以業務流程進行分類向的定義,並以此不斷擴充。
另外,根據不同的技術需求,我們需要選擇合適的技術棧來實作畫像標簽的生成、儲存和呼叫。
首先,需要明確畫像標簽的定義和目標,以便確定需要使用哪種技術。其次,需要考慮標簽的更新周期和存取方式,這決定了是否需要線上或離線處理標簽,以及選擇哪種儲存資源。最後,根據這些因素,我們可以選擇合適的技術棧來實作畫像標簽體系,確保系統的效能和穩定性。透過這樣的技術分類,可以更好地管理和維護畫像標簽體系,提高其可延伸性和可用性
(1)構建方法
統計類: 依靠 SQL 即可完成。
規則類: 面向數據分析師、商業分析師以及產品營運等具有一定業務背景的人透過對業務的理解,去構建一些規則類的標簽,這類標簽會基於業務的理解變化產生變動。
模型類: 這類標簽需要演算法團隊進行復雜的計算或需要樣本數據。 與一些基礎標簽不同,模型類標簽在精度上可能存在挑戰,無法達到百分之百的準確。 因為有時我們獲得的樣本數量非常有限,使得標簽的準確率難以維持在較高的水準。 因此,對於模型類標簽,我們可能需要尋找其他的方法和技術來提高其精度和可用性。
(2)更新周期
除了已列出的按小時、周、月的更新周期外,我們目前還實作了即時的標簽更新,這更接近於流式更新。
(3)存取方式
由於畫像標簽平台需要處理大量數據和使用者請求,需要根據後台技術棧來選擇合適的存取方式,對於一些大型公司,使用者量和數據量都非常龐大,因此我們需要考慮如何有效地儲存和呼叫標簽。有些標簽可能只需要離線構建,而有些標簽則可能需要線上呼叫。對於離線標簽,我們可以選擇不占用高儲存成本的資源,例如將數據儲存在 Redis 或 HBase 中。而對於線上標簽,需要確保系統能夠快速響應使用者請求,並提供穩定的服務。因此,在選擇存取方式時,我們需要根據實際情況進行權衡和選擇,以確保系統的效能和穩定性。
4. 畫像標簽體系構建過程
在畫像標簽體系的生產過程中,我們需要對各類資料來源進行一系列的處理,最終生成標簽。其中,ID Mapping 是一個關鍵環節。ID Mapping 的目標是解決不同ID 指向同一人的問題,特別針對早期成立的公司,由於註冊方式多樣,可能會出現多個 ID 對應同一使用者的情況。例如,使用者透過信箱註冊後可以繫結或更改手機號,或者曾經允許未登入狀態下使用,這些情況都可能導致多個 ID 對應同一使用者。
為了解決這個問題,ID Mapping 承擔著實作多裝置關聯的任務。另外,ID Mapping 對於風控來說也是至關重要的基礎步驟。透過 ID Mapping,可以更好地辨識和關聯不同裝置的使用者,從而更好地進行風險控制和安全管理。透過合理的 ID Mapping 設計和管理,我們可以更好地保護使用者私密和數據安全,同時提高畫像標簽體系的準確性和可靠性。
02
畫像標簽平台
畫像標簽平台也稱之為 CDP 平台,包含了畫像標簽的生產、數據分析、業務套用、效果分析等服務。下圖為去哪兒 CDP 平台的功能架構。
在去哪兒網,疫情發生後加強了內部能力的建設,將畫像標簽與主流策略平台進行了整合。目前該平台涵蓋了畫像標簽的整個生命周期,可實作畫像構建、人群圈選以及最終的行銷動作等功能。透過這樣的整合,能夠更好地實作數據驅動的行銷策略,將使用者畫像與行銷活動無縫連線起來。這有助於提高行銷效果和使用者滿意度,同時也有利於企業內部的數據整合和協同工作。
03
常見演算法類畫像標簽
1. 常見模型類標簽常用演算法型別
在實踐過程中,基於樣本和技術棧,可以將模型類標簽常用演算法分為如下幾大類:
(1)分類演算法:在業務流程中利用預測類標簽來進行圈選和業務過濾,需要擁有足夠的樣本數據來進行訓練和最佳化模型,從而提高預測準確率。預測類標簽不僅僅局限於訂單支付預測,還可以包括搜尋支付預測、搜尋預測、詳情頁預測等。
(2)推薦演算法:與排序和優先級相關,需要更廣泛的前沿知識和技術棧。推薦演算法的目標是從召回集中為使用者推薦合適的酒店房型。例如,對於親子出遊的場景,推薦演算法可以為使用者推薦雙床房或套間等合適的酒店房型。
(3)知識圖譜:利用圖資料庫技術更好地揭示使用者及其周邊關系。風控場景中套用較多,例如辨識異常使用者和判斷是否為惡意使用者。
(4)因果推斷:透過一個例子解釋了給使用者發簡訊和 push 訊息對行銷效果的影響,並涉及到成本問題。
(5)圖形影像:結合圖形影像處理技術,對圖形影像進行打標。涉及到對影像的分割、辨識等技術,但更多的是透過使用者標簽反向套用到影像打標上。例如,對於發表不正當評論的使用者,將其標簽提取出來,並套用到圖形影像打標演算法中,以提高打標的效率和準確性。
(6)NLP 機器人
(7)lookalike 行銷演算法:即透過種子使用者進行擴充套件行銷的演算法。
基於需求的型別會有不同的分類方法:
單一實體: 透過關系網路或知識圖譜來尋找其他相關實體。 例如,利用知識圖譜可以發現實體之間的關系,從而擴充套件單一實體的關聯實體。
業務實體集: 與特定業務相關的標簽,由業務本身產生,而非人為控制。 例如,酒店搜尋使用者或機票搜尋使用者,如果想要針對這些使用者進行行銷並擴充套件業務,就要透過對業務實體標簽的深入分析和挖掘,更好地理解使用者需求和行為,從而最佳化業務策略,提高轉化率和使用者體驗。 業務實體集可以透過品牌模式、關聯規則、方案標簽平台等方式進行擴充,以獲取更豐富的畫像標簽或畫像使用者。
規則實體集: 指基於特定規則或條件生成的標簽。 這些標簽通常是由產品團隊根據對業務的理解,利用標簽工具圈選出符合特定規則的使用者群體。 例如,在推薦行程或房型的過程中,有些使用者可能已經購買了北京的機票和酒店,那麽我們可以將這些具有特定行為鏈條的使用者作為目標群體,進行行銷推廣。 可以使用關系實體和聚類演算法來處理。 在進行聚類演算法時,需要註意不能僅使用規則標簽進行聚類,而應該使用其他標簽。 同時,需要避免將與規則標簽強相關的標簽與規則標簽混為一組。 為了避免這種情況,方案標簽平台會提供標簽與其他標簽的相關性分析,幫助使用者過濾掉相似的標簽。
行為實體集: 基於使用者行為生成的標簽。 這些標簽透過分析使用者的行為特征和需求型別,來制定相應的行銷策略。 例如,對於購買過北京機票和酒店的使用者,我們可以進一步分析他們的行為特征,如購買時間、頻次、偏好等,以制定更具針對性的行銷策略。
2. 基於知識圖譜和頻繁模式的 looklike 演算法
僅依賴畫像標簽進行篩選可能產生大量不符合需求的目標使用者,如何對這些使用者進行排序成為了一個難題。傳統的方法如根據價值、活躍度等進行排序,很難確保選出的使用者與目標使用者群最為相似。而透過知識圖譜或頻繁模式,我們可以衡量使用者之間的相似度,並且這種相似度是可量化和擴充套件的。透過關系層面,該演算法能夠更準確地找到與目標使用者相似的使用者群體。
3. 基於因果推斷的 lookalike 演算法
與傳統的關聯規則和畫像標簽相比,因果推斷能夠解決更深層次的問題。關聯規則和畫像標簽主要解決的是相關性問題,例如「購買啤酒的使用者也可能會購買尿布」,但無法解釋為什麽存在這種相關性。在不同的文化和市場中,這種相關性可能並不成立。因此透過歷史數據和模型進行因果推斷,可以找到影響使用者行為和轉化的關鍵因素。這些關鍵因素可以透過關系發現被找到,進而幫助我們更好地理解使用者行為和業務過程。
例如右上角紅色部份透過對業務的理解篩選出的更能體現業務的過程的部份,從而去擴充更多的使用者出來。
4. 物的畫像
在物的畫像構建過程中,我們主要關註的是物的內容和特征,例如酒店畫像中的城市、商圈、航線、航班等。這些內容有助於我們更準確地描述和了解物,並為其畫像提供豐富的內容。
與使用者畫像相比,物的畫像更強調物與物之間的相似性。在實踐中,我們通常利用物的相似性進行推薦和排序等操作。為了衡量物與物之間的相似性,可以采用多種方法,如內容向量和 embedding。這些方法可以將物表示為向量,並利用這些向量進行相似性計算。需要註意的是,物的畫像構建過程與使用者畫像構建過程雖然相似,但在實際套用中,我們需要根據業務需求和場景進行適當的調整和最佳化。同時,還需要深入分析物與物之間的關系和階層,以確保物的畫像準確反映業務需求。
此外,在物的畫像構建過程中,我們還需要關註一些關鍵問題。
(1)相近並不意味著相似。例如,在使用 embedding 方法時,如果高價值的使用者群體搜尋的都是五星級酒店,那麽這些五星級酒店之間的相關性可能會很強。但在某些業務場景中,這種相關性可能並不適用。因此,我們需要根據具體業務場景仔細考慮物的相似性。
(2)冷啟動問題。例如在酒店畫像中,當一個新的酒店上線時,它可能缺乏使用者行為數據。為了解決這個問題,我們可以利用內容距離抽取大維度的標簽內容,構建一個偏使用者態的畫像標簽,並利用這個標簽進行相似度計算。
(3)可解釋性
04
畫像標簽套用場景
套用一:行銷人群精選與擴散
畫像標簽在行銷的精選和擴散過程中起到了至關重要的作用。透過合理運用畫像標簽,營運人員可以對已選定的使用者群體進行更細致的分析和篩選,當營運人員覺得初始精選的使用者群體過大或過小,或者行銷效果需要進一步擴大或最佳化時,可以透過畫像標簽進行擴散或重新精選以達到更好的行銷效果。
然而,在進行畫像標簽的精選和擴散時,最常見的是使用者轉化和營運幹預的四象限問題。這四個象限分別代表不同的使用者轉化狀態和營運幹預策略,需要針對不同情況進行不同的應對措施。例如,對於高轉化低幹預的使用者,可以采取保持現狀的策略;對於低轉化低幹預的使用者,可以采取促進轉化的策略等。
以下是畫像標簽在套用過程中行銷精選擴散的四個階段:
科學分析:深入挖掘使用者數據,精準定位目標群體,以提升轉化效果。
輔助圈選:利用標簽高效篩選目標使用者,提高行銷活動的針對性和效率。
智慧擴量:基於演算法和模型,對使用者群體進行智慧分類和擴量,以擴大行銷覆蓋面。
模型落地:結合實際行銷活動,最佳化畫像標簽和策略,實作最佳的行銷效果。
套用二:業務指標歸因分析
透過畫像標簽體系來分析業務指標的好壞,並進一步最佳化策略。在業務叠代過程中,我們通常使用歸因分析演算法和商業分析等方法來產生策略。然後進行實驗測量,如果實驗策略表現良好,就會全量上線。
然而,在這個過程中會遇到兩個問題:如何分析指標的好壞以及實驗結果的好壞。為了解決這些問題,我們需要進行業務指標的歸因分析。首先,透過報表、報警等途徑發現業務問題,找出問題的原因,明確具體的場景和實際的轉化關系。接著,定位問題的原因,並判斷這個原因是可控的還是不可控的。如果是不可控的,可能就是一個自然抖動,不需要過多關註;如果是可控的,就需要進一步探究是否存在未知的場景導致這個問題。
在定性分析模組中,我們會明確可控因素和不可控因素,並挖掘一些未知的場景出現問題的原因。最後,給出建議,指導業務人員在什麽場景下去做。這個場景其實就是某個業務的轉化率下降了,透過整個業務的分析過程,我們可以得出非市場因素和可控因素分別占比多少。如果市場因素占比較大,那我們就可以先滯後解決這個問題,不必立即動用大量人力物力。
套用三:AB 實驗效能分析
在負責去哪兒的 AB 實驗系統的過程中,我們經常面臨一些挑戰。當產品團隊投入大量時間和資源完成實驗後,如果實驗結果不顯著,很容易產生諸如「為什麽實驗無效」和「下一步叠代的方向是什麽」等疑問。
為了解決這些問題,我們進行了 AB 實驗效能分析,主要分為三個部份。首先,我們透過業務流程漏鬥模型、核心使用者畫像標簽辨識以及業務域誤導標簽辨識,嘗試判斷實驗效果不佳是否因為量提升不夠。其次,運用決策樹等分析方法,探究質的提升是否存在問題,例如其他實驗的沖突或提升量未達到顯著性比例的情況。最後,量化動作效能,明確每個動作對目標的影響程度。
透過這些分析過程,我們可以為產品團隊提供具體的指導,幫助他們選擇效能更高的方向進行最佳化,從而實作質的提升。這些分析不僅有助於最佳化產品叠代方向,還能為公司節省資源和時間,提高整體業務效果。
05
問答環節
Q1 :使用者行為跟業務日誌有什麽區別?
A1 :使用者行為數據主要記錄了使用者在 APP 端的互動行為,如點選等,這些數據主要反映使用者的互動過程。而業務數據則涉及後台處理的各種資訊,例如代理連線過程、物流資訊等,這些數據雖然對使用者來說是不可見的,但對於理解整個業務流程和提升使用者體驗同樣至關重要。在實際操作中,我們需要將這些數據納入到我們的畫像標簽體系中,以便更好地分析和理解使用者行為和業務過程。例如對於電商平台來說,有些數據可能對使用者無關緊要,但有些則涉及到使用者體驗和業務流程,因此需要進行適當的篩選和處理。
Q2 :目前流式標簽是怎麽做的?能支持比較復雜的標簽規則嘛?是數據開發出來還是視覺化配置的?
A2 :流式標簽可以透過流式計算來實作,如使用 Flink 等工具。使用者可以拖拽定義好的數據,透過流式計算進行標簽的計算。同時,也可以上傳 Python 程式碼或 SQL 程式碼進行自訂的計算。此外,還可以透過 Spark 等方式來支持。在流式標簽中,需要限制計算的量和時間視窗,以滿足不同需求。
流式標簽可以支持復雜的標簽規則。使用者可以透過上傳 Python 程式碼或 SQL 程式碼來實作更復雜的標簽計算。
流式標簽可以透過數據開發和視覺化配置兩種方式來實作。在去哪旅行平台上,使用者可以拖拽定義好的數據,透過流式計算進行標簽的計算,也可以上傳 Python 程式碼或 SQL 程式碼進行自訂的計算。
Q3 :什麽是即時標簽?
A3 :即時標簽是指在使用者行為或業務事件發生時,即時計算並套用的標簽。例如,當使用者在前端界面送出投訴時,系統會即時地分析使用者的訴求和訂單問題,並為使用者打上相應的即時標簽。這種即時標簽能夠快速地反映使用者的需求和問題,以便及時地進行處理和最佳化。不同公司對即時標簽的定義有所不同,去哪兒 3 秒以內的算即時,而小時級都稱之為是非即時的一個場景。
Q4 :ID Mapping 是將多個手機號/裝置號辨識成一個唯一的 ID?還是使每個使用者都有一個唯一的 ID?比如一個手機號在兩個裝置登入過,其中一個裝置又登入過另外一手機號,是唯一的一個還是三個?
A4:隨著行動網際網路的普及,越來越多的公司開始采用手機號作為使用者唯一的識別元。一鍵登入已成為行業通用的做法,使得使用者能夠更加方便地登入和使用套用。對於去哪兒這樣的平台,我們也采用了手機號作為使用者唯一的 ID。在大多數情況下,我們會將手機號視為使用者的唯一識別元。但在某些特殊情況下,我們也會考慮使用者更換手機號的場景,並對其進行相應的處理。此外,為了更好地管理和辨識使用者,當一個手機號在兩個裝置上登入時,我們會透過一系列的判斷來確定使用者對裝置的持有狀態。如果使用者是臨時登入裝置,我們將其視為存取人;如果使用者長期持有該裝置,則將其視為持有人。
Q5 :貨品標簽有哪些套用場景?
A5:其中最常見的是貨品定價。為了實作貨品定價的個人化,我們需要使用貨品標簽。這些標簽是基於內部因素和外部因素的具體數值計算得出的。如果內部因素沒有得到適當的梳理,外部因素的影響可能會被誇大 。 可以理解為類似於暴力求解的方式,我們把每一個因素都放進去試,然後去看每個因素對它的影響是多少,並且在每個因素裏判斷它是相關性還是因果性。
Q6 :業務的即時標簽是不是要客製化開發?
A6:即時標簽在建成之後,我們已經透過開發層面去盡可能地窮舉了一些透過基礎的統計就能出來的一些即時標簽。至於說像規則類和模型類的即時標簽,肯定是要客製化開發的。
Q7 :標簽的生命周期怎麽管理?
A7:在建立之初會有一些免洗的標簽,用完就不使用了。
Q8 :是否可以用一些統計方法來確定 AB 實驗的時候的最小樣本量?AB 實驗有標準的計算過程,這樣是不是可以知道大概需要多少樣本量可以達到統計顯著的一個效果了?
A8:更小的業務公司,可能流量先天性就不夠,你想要達到一個最小樣本量,操作層面也不太能實作,所以我們需要有一些在沒有達到最小樣本量的時候,能快速去大致地推斷這個實驗效果。
Q9 :使用者口徑畫像的口徑型別是怎麽儲存和展示的?使用者畫像的標簽除了單一的,還有多標簽,形成一個使用者偏好角度。這兩類標簽怎麽儲存比較好?
A9:展示每一個公司都不一樣。從儲存角度來說去哪兒是有多個儲存方式的,我們可以容忍一部份數據的冗余儲存,主要還是為了以即時響應快為準,就是它在存取化標簽的時候,我們盡可能地以一個低耗時去存取它。
Q10 :模型在方案標簽建設中有哪些套用?
A10:其實這個我現在透過去哪兒這邊的實踐來說,大模型在演算法標簽套用是非常的廣的。首先最簡單的一個例子,我們在構建戶的畫像的時候,經常會遇到 POI 地標數據,地標的數據是從一些文件裏面抽取的,可能這個就大模型在用,這個地方的準確率說實話比我們以往自己構建的一些模型效果好很多。以及我們在構建知識圖譜的時候,會遇到一些實體消歧、實體合並等等。
Q11 :涉及到排序推薦也需要畫像演算法工程師實作嗎?
A11:其實不是的,這個推薦是推薦工程師,但是推薦演算法要用到畫像工程師的結果,畫像工程師需要把畫像標簽的品質和這個套用的場景作出清晰的描述以便於推薦排序工程師能夠更好地使用。
以上就是本次分享的內容,謝謝大家。
分享嘉賓
INTRODUCTION
周元煒
去哪兒網
資料探勘高級經理
北京交通大學電腦碩士學歷,從事資料探勘、數據演算法相關工作 10 年。18 年加入去哪兒網,從事機票大數據,分析挖掘演算法相關工作。在畫像標簽、效果評估、AB 實驗方面有豐富的工作經驗和積累。參與搭建了去哪兒公司畫像標簽平台,設計實施了包含使用者畫像和物的畫像的畫像標簽體系,並負責演算法類相關畫像標簽的研發和運維 。