當前位置: 妍妍網 > 資訊

字節基於使用者畫像標簽的分析及業務場景套用

2024-02-20資訊

導讀 隨著企業數位化轉型的深入發展,對使用者深層理解的渴望日益迫切。在此背景下,本次分享精心剖析了使用者畫像標簽的精髓及其在多變業務場景中的關鍵作用。從基礎內容標簽到策略上的標簽,不僅系統性地介紹了各型別標簽的構建與套用,還著重強調了在快節奏的數位化時代中,如何透過高效的異常值處理、時間衰減考量及數據區分度提升等手段,確保標簽的準確性和實用性。並且深入討論了如何長期評估和追蹤使用者畫像的內聚性和穩定性,為數據產品經理提供了一把銳利的工具,助力其在激烈的市場競爭中準確把握使用者需求,不斷提升產品和策略的效能。

下面的介紹分為三個部份:

1. 畫像標簽介紹

2. 畫像特征的處理與標簽的評估

3. Q&A

分享嘉賓| 吳梓華 字節跳動 數據科學

編輯整理|胡回

內容校對|李瑤

出品社群| DataFun

01

畫像標簽介紹

1. 基礎內容畫像標簽

基礎內容類畫像標簽是使用者自身內容的標簽,通常不與使用者在 APP 上的行為掛鉤,例如性別、年齡、作業系統、所在城市等。

其建立方式包括:

  • 使用者填寫: 註冊時提供的個人資訊。

  • 埋點采集: APP 上設定埋點收集使用者數據。

  • 模型預測: 對缺失或采集不到的數據使用模型進行預測和補充。

  • 第三方資料來源獲取: 購買或獲取第三方資料來源,或是大公司如騰訊、阿裏等透過集團內部其他部門獲取資訊。

  • 基礎內容畫像標簽的套用場景主要包括:

  • 日常分析: 用於大致了解使用者的內容分布,以及新場景分析、業務發展、異動歸因下鉆等場景,例如透過標簽分析點選率下滑原因,確定是否存在超預期的降幅。

  • 建模用: 作為復雜畫像的輸入特征,用於提高業務操作的精確度。 例如搜尋排序、使用者行為預測等場景。

  • 2. 業務向畫像標簽

    與業務目標(或者說 KPI)強關聯的標簽,通常基於這樣的標簽找到業務的目標人群。

    可以根據與 KPI 的關聯分為兩大類:

  • KPI 強關聯(以 MAU KPI 時): 高活 / 低活使用者(基於活躍天數),直接反映了使用者與 KPI 的關系,如月活躍使用者數、首次月活使用者、流失使用者、沈默使用者等。

  • KPI 弱關聯: 高中低活躍使用者、場景活躍偏好使用者( TGI ),透過復雜的計算和使用者行為的綜合評估得出,提供更細致的使用者分類。

  • 建設方式包括:

  • 基於 KPI 按照距離目標遠近定義使用者: 直接根據 KPI 的具體要求對使用者進行分類。

  • 於使用者行為進行復合計算: 綜合考慮使用者在平台上的多種行為進行使用者分類。

  • 使用方式包括:

  • 了解營運目標進度: 利用畫像標簽進行深入分析,了解符合條件的使用者數量和接近 KPI 目標的使用者。 以及透過標簽下鉆進行 KPI 的預估,並找到實作路徑的拆解,幫助預測達成 KPI 的可能性,特別是對難以營運的使用者群體進行更深入的分析。

  • 錨定主要的目標人群,便於整體的差異化策略: 利用不同的使用者群體標簽(如高活、中活、低活使用者或具有不同購買力的使用者)實施差異化營運策略。 根據使用者特征在搜尋結果中展示不同價格的商品,或根據使用者活躍偏好將他們引導至不同的場景。

  • 3. 策略向人群

    針對特定策略建設⼈群標簽,通常能夠在 AB 實驗中拿到較好的收益。例如:

  • 增益人群: 紅包敏感的人群,發放紅包後 ARPPU 值提升高。

  • 與權益幹預相關的標簽,可以幫助我們辨識那些在接受紅包或全域幹預後會顯示出顯著提升的使用者群體。 透過 AUUC 圖的分析,可以預測特定使用者群體幹預前後的增量以及預期的投資報酬率( ROI )。 這種預測性的分析可以為策略決策提供堅實的數據支持。

  • 復購人群: 在特定類目、特定購買間隔下有高復購傾向的使用者。

  • 針對電商場景的復購內容使用者,會透過分析使用者購買某一類目的時間間隔分布,進行統計擬合,預計不同使用者的購買間隔。當使用者預計的購買間隔接近時,透過適當的引導和幹預,可以有效提高使用者的復購率。這種策略不僅增加了使用者對平台的黏性,還有助於搶占市場份額。

  • 未來預測人群: 透過模型預測使用者未來的行為 / 流失機率。

  • 預測類的標簽基於使用者的歷史行為和其他戰略特征,預測使用者未來的行為模式,如流失或沈默的機率。 利用這些資訊,可以繪制熱力圖來表示不同預測分數區間內的使用者流失機率和數量。 這種方法使我們能夠精確地辨識出潛在的風險使用者群,並對他們實施針對性的營運策略,從而最大化 ROI AB 實驗的增量效益。

    策略向人群的建設方式包括:uplift 模型、復購周期預測、二分類模型等。

    使用方式為:在特定策略(紅包/push 幹預)下,進行幹預的目標⼈群,實作 ROI 的最大化。

    02

    畫像特征的處理與標簽的評估

    1. 標簽特征處理

    這裏主要介紹一些日常特征處理中容易被忽視的步驟。

    (1)數據清洗

  • 異常值檢測

    這一步驟的重要性常被忽略,但其對提升標簽準確性至關重要。 檢測方法已比較成熟,通常使用箱形圖和 AVF ,前者主要用於數值型特征,後者主要用於類別型數據。

  • 異常值填充

    檢測得到的異常值處理方式,一種是丟棄包含異常值的記錄,另一種是使用 cap 分位點或 floor 分位點的值替代異常值(例如,用 97% 分位數代替異常大值)。

  • 空值填充

    根據指標的定義選擇最大值或最小值填充(如 Recency 類指標選擇最大值, Frequency 類選擇最小值)。

  • (2)時間衰減處理

    使用者標簽的生成同時參照 RFM 模型中提供的三個維度進行特征構建:

  • Recency (近度): 使用者最近一次登入距今天數

  • Frequency (頻率): 使用者最近 90 天登入天數

  • Monetary (消費金額,這裏引申為強度): 使用者最近 90 APP 內停留時長

  • 處理的目標是讓距今更近的行為對分數產生更大的影響。

    Frequency 類的指標中有一些代表過去一段時間的累計行為,如過去 90 天的總登入次數,定義按照假如兩個使用者在這個指標上的數值相同那代表他們的活躍頻次是相同的。但需要考慮一個場景,如果使用者 A 只在最近 10 天登入了 10 次,使用者 B 只在 80 天前登入了 10 次,他們的 F 指標都是 10,可是使用者 A 的活躍度直觀來看應該更高。如果希望數值上體現這個差異的話,可以對每一天的數據乘以一個權重再進行求和,這個權重是一個隨著距今時間增加而衰減的函式。

    為了在數值上體現這個差異,可以對每一天的數據乘以一個權重再進行求和,這個權重是一個隨著距今時間增加而衰減的函式。公式如下:

    (3)平滑處理

    在互聯網平台中,使用者行為數據通常展現出顯著的頭部/長尾效應。即絕大多數使用者表現出相似的指標特征,而在數據的尾部則存在著很多行為多樣的使用者群體(數量小但分布廣)。此現象導致數據在區分不同使用者行為時的能力受限,特別是對於那些行為模式較為獨特的使用者群體。

    因此需要進行平滑處理,其目標是提升數據區分度,以增強模型對使用者行為的辨識能力。

    具體的解決方案為,采用對數函式(log 函式)對原始數據進行平滑處理。對數轉換能夠減少極端值的影響,使數據分布更加平緩,從而提高數據的區分度。透過對數平滑處理後,數據分布將更加均勻,能夠更有效地辨識和區分不同使用者的行為模式。特別是對於長尾中的小眾使用者行為,能夠更準確地進行辨識和分析。

    在實施平滑處理時,需註意選擇合適的 log 函式以及處理方法,以確保數據轉換後能夠有效反映使用者行為的真實特征,並對模型的預測能力產生積極影響。

    透過 log 函式對原數據進行處理,處理前後數據分布對比如下:

    2. 畫像結果評估

    在確定了畫像標簽後,進行長期的評估或追蹤是至關重要的步驟。在特定命題下,可以直接透過 AUC、AUUC、召回等指標準確地評估。但是在非特定命題的情況下,可能無法透過這些指標簡單地評估標簽品質。日常使用中,通常有兩種評估標準,即內聚性和穩定性。

    (1)內聚性

  • 目標: 確保同一分層的使用者相互間比較相似,而不同分層的使用者存在較大的差異,實作高內聚、低耦合的聚類結果。

  • 衡量指標: 輪廓系數( Silhouette Coefficient ),這個指標能同時衡量類內聚合度和類間分離度。 指標越大,表明分層結果越好。

  • 計算方法: 對於每一個樣本,計算其輪廓系數,然後對所有樣本求均值以評估總體的分層結果。 這是一個相對指標,適合用於比較兩種分層結果的優劣,而不是單一分層的品質絕對評估。

  • (2)穩定性:

  • 穩定的定義包括兩個方面:

    分層標準的穩定性: 在引入新數據或使用者群體增加後,分層標準保持不變,表明分層標準的穩定性。

    分層結果的穩定性: 不同分層的使用者表現應該是穩定的,例如,活躍使用者的次留率不存在過大的波動,表明分層結果的穩定性。

  • 穩定性衡量指標: 離散系數( Coefficient of Variation ),即樣本的標準差除以均值。 離散系數的值越大,代表波動越大、穩定性越低。

  • 離散系數是一個絕對數值,一般來說,離散系數在 5% 以下時,我們認為這個分層是穩定的。 參照穩定性的含義,我們可以基於每個分層使用者的表現指標(如次留率)去計算,也可以用分層的邊界值計算(如活躍分的 75 分位數)。

    03

    Q&A

    Q1 :不同活躍度的人群內聚指標是如何計算的?

    A1:不同活躍度人群的內聚性計算基於比較核心關註的指標,例如使用者在平台的活躍天數。具體計算方法是,首先為每個使用者分配高中低活躍的標簽。然後,計算高活使用者與其他高活使用者在活躍天數上的差異,同時計算高活使用者與中、低活使用者的活躍天數差異。理想情況下,同一活躍度分層內的使用者差異較小,而不同分層之間差異較大。透過這樣的計算,我們可以得到一個單一數值來評估內聚性,並用此判斷不同分層方式的優劣。

    Q2 :高中低活這條線應該如何劃分?

    A2:在劃分高中低活使用者時,我們可能會采用不同的方法。每種方法都可以計算內聚性和分層穩定性。我們將選擇在內聚性或穩定性上表現更好的分層方式。這意味著我們尋找能最佳區分不同使用者群體行為的分層標準。

    Q3 :時間衰減計算的復雜度是否較高?

    A3:是的,時間衰減的計算復雜度相對較高。為了應對這一挑戰,我們通常會選擇一些核心指標進行時間衰減處理,並將這些指標落表到數倉中。這樣可以避免對所有指標進行復雜的時間衰減處理。

    Q4 :基礎業務策略是從什麽視角進行的?

    A4:基礎業務策略的分類是從數據分析師的日常套用視角出發的。基礎標簽通常是使用者自身的內容標簽,幫助我們進行初步的使用者認識。業務標簽是根據給定業務對使用者進行分層,而策略標簽則是針對特定策略設計的畫像標簽。

    Q5 :畫像結果的評估在哪些場景中套用?

    A5:畫像結果的評估廣泛套用於設計長期使用的常用標簽,例如高中低活躍或購買力標簽。我們希望這些標簽在長期內穩定且具有區分度。此外,在沒有真實標簽對照的情況下,如二分類模型或 Uplift 模型,我們無法直接用 AUC 衡量模型準確性。在這種情況下,我們會采用額外的方法來評估畫像標簽的品質。

    以上就是本次分享的內容,謝謝大家。


    分享嘉賓

    INTRODUCTION


    吳梓華

    字節跳動

    數據科學

    畢業於浙江大學,曾就職於貨拉拉、阿裏巴巴,從事使用者增長、流量策略方向的工作

    課程推薦

    往期推薦

    點個 在看 你最好看