網(wǎng)易嚴選畫像建設實踐
內(nèi)容來源:作者授權
出品平臺:DataFunTalk
導讀:在數(shù)字化轉(zhuǎn)型的浪潮下,企業(yè)越來越重視自身數(shù)據(jù)資產(chǎn)的沉淀和應用。畫像作為一種重要的數(shù)據(jù)資產(chǎn)形式,受到了越來越多的關注。網(wǎng)易嚴選作為一家自營電商,業(yè)務鏈路長、場景多,所涉及的核心業(yè)務實體也多,如用戶、商品、供應商、渠道等等。通過畫像去洞察這些業(yè)務實體對企業(yè)精細化運營有著重要的幫助?;诖吮尘皣肋x打造了具備行業(yè)特色的標簽和畫像中臺。本文的主題為網(wǎng)易嚴選畫像建設實踐,主要介紹嚴選標簽和畫像中臺的工具和方法論。
01
關于標簽和畫像
1. 什么是標簽和畫像
標簽:
標簽是對業(yè)務實體某個維度特征的刻畫和描述,是一種面向業(yè)務的數(shù)據(jù)組織形式。例如,我們在大眾點評上看到某家店是“必吃店”,這就是一種標簽,又或者某部電影在豆瓣上的評分,這也是一種標簽。
畫像:
畫像是對業(yè)務實體多個維度特征的刻畫和描述,是多個標簽的集合。例如,在游戲中每個角色都有自己的力量、智力和敏捷屬性,這就是角色的畫像,這個畫像由力量、智力、敏捷這三個標簽集合而成。
2. 標簽和畫像的價值
標簽:
提供信息:標簽的本質(zhì)還是數(shù)據(jù),數(shù)據(jù)的價值在于提供信息,進而提升決策的科學性和準確性。企業(yè)的運營主要圍繞業(yè)務對象和業(yè)務活動,所謂的精細化運營,無非是通過信息,來區(qū)分對待業(yè)務對象和業(yè)務活動,而標簽可以很好地承載信息,是精細化運營的重要工具。
面向業(yè)務:標簽是面向業(yè)務的一種數(shù)據(jù)組織形式,可以讓業(yè)務直接用起來,幫助業(yè)務從“看數(shù)據(jù)”變成“用數(shù)據(jù)”,真正意義上起到數(shù)據(jù)驅(qū)動業(yè)務。
畫像:
畫像作為標簽的集合,可以綜合提供多維度的正交信息,幫助我們更準確、形象地洞察實體。
02
為什么要建設標簽和畫像中臺
嚴選建設標簽和畫像中臺主要是兩個目的:解決共性需求(用戶價值)和加速數(shù)據(jù)資產(chǎn)化及價值落地(商業(yè)價值)
1. 解決共性需求
目前行業(yè)中的標簽和畫像主要都是用戶標簽和用戶畫像,其應用場景主要是精準營銷和消費者洞察。
嚴選的業(yè)務場景較多,如消費者洞察、供應商尋源、爆品打造等,涉及到的核心業(yè)務實體比較多,如用戶、商品、供應商、渠道等等。
這些業(yè)務實體都存在建標簽、用標簽和看畫像的需求。比如在營銷活動的時候需要基于用戶標簽去圈用戶、看用戶畫像,在為商品尋找優(yōu)質(zhì)供應商的時候需要基于供應商標簽去圈供應商、看供應商畫像等等。
2. 加速數(shù)據(jù)資產(chǎn)化及價值落地
前文有提到,標簽作為面向業(yè)務的數(shù)據(jù)組織形式,可以更直接、有效地創(chuàng)造數(shù)據(jù)價值。通過建設標簽和畫像中臺可以更快速地構建標簽,更全面地管理標簽以及更便捷地使用標簽。
03
標簽和畫像中臺工具
1. 產(chǎn)品簡介
嚴選標簽和畫像中臺定位為提供從數(shù)據(jù)管理、標簽萃取、洞察分析的全流程數(shù)據(jù)驅(qū)動能力,下圖為嚴選標簽和畫像中臺的產(chǎn)品大圖:
2. 功能特性
嚴選標簽和畫像中臺主要分為數(shù)據(jù)管理、標簽萃取、洞察分析三個功能模塊:
① 數(shù)據(jù)管理
數(shù)據(jù)管模塊目的是統(tǒng)一管理業(yè)務實體及其全域數(shù)據(jù),為標簽萃取提供數(shù)據(jù)源,核心是以下兩個功能:
業(yè)務實體的管理:包括實體的命名、主鍵標識等
多種數(shù)據(jù)源的導入和管理:支持hive、kudu、es、hbase四種數(shù)據(jù)存儲引擎,不同的標簽數(shù)據(jù)存儲引擎主要是為了滿足不同的場景
下圖為不同存儲引擎的適用場景:
嚴選標簽數(shù)據(jù)源包括一方和二方數(shù)據(jù),數(shù)據(jù)經(jīng)過統(tǒng)一的加工處理后存儲在數(shù)倉DM層的標簽數(shù)據(jù)表中。
一方數(shù)據(jù):來自于嚴選域內(nèi)各個業(yè)務過程的數(shù)據(jù),包括但不限于行為日志、統(tǒng)計指標、預測模型等。
二方數(shù)據(jù):來自于網(wǎng)易集團層的共建數(shù)據(jù),包括但不限于網(wǎng)易傳媒的廣告數(shù)據(jù)、網(wǎng)易云音樂的用戶行為數(shù)據(jù)等。
② 標簽萃取
標簽萃取模塊目的是將數(shù)據(jù)快速、靈活地萃取為標簽。
為了滿足更靈活的標簽需求,我們將標簽劃分為基礎標簽和復合標簽。前者可以是任意數(shù)據(jù)類型,使用起來可以自定義規(guī)則和參數(shù),后者是布爾值類型,規(guī)則和參數(shù)已經(jīng)定義好,兩者的實現(xiàn)過程及存儲方式都有所不同(限于篇幅此處對技術方案不做介紹)。例如,【年齡】是一個基礎標簽,【年齡介于20~30】是一個復合標簽。
基礎標簽的萃取方法:
關聯(lián)表字段:通過直接關聯(lián)數(shù)據(jù)表中的字段創(chuàng)建標簽,這也是標簽最主要、直接的萃取方式
SQL自定義:基于已有的標簽構建計算字段作為標簽,例如已有【銷售額】【成本】兩個標簽,可以構建出【利潤】標簽(利潤=銷售額-成本)
復合標簽的萃取方法:
可視化建模:通過可視化界面自由組合海量標簽創(chuàng)建新的標簽,實現(xiàn)0成本標簽自助生產(chǎn),快速滿足業(yè)務需求。例如,我們要構建一個【有孩子、近7天有高消費且未待業(yè)的家長】,可以按照下圖的規(guī)則建模:
手動、接口打標:除了規(guī)則建模以外,還會有些來線下/三方的數(shù)據(jù)以及一些事件驅(qū)動類的打標需求(例如,供應商在完成審核入駐后需要立刻給該供應商打上標),這些情況下需要業(yè)務同學手動打標或者業(yè)務系統(tǒng)通過接口來打標。
③ 洞察分析
洞察分析模塊目的是通過標簽圈選實體,通過畫像洞察實體。
實體圈選:
實體圈選分為標簽圈選、手動上傳、分組加工三種方式:
標簽圈選:通過海量標簽的組合來圈選實體
手動上傳:上傳包含實體ID的文件作為一個分組
分組加工:基于已有的分組做高級計算(交并差計算、分組提?。?/span>
畫像分析:
畫像可分為個體畫像和分組畫像,個體畫像就是個體的標簽結(jié)果集合,較為簡單,此處略過,本節(jié)主要介紹畫像的具體功能。
多種分析類型:
畫像的分析類型可分為:單標簽屬性分布、多標簽交叉分析
單標簽屬性分布:某個標簽的各個屬性值的分布,如人群的性別分布
多標簽交叉分析:以某個標簽為維度分析另一個標簽,如不同類目商品的銷售額分布
分組對比及TGI分析:
分組對比是畫像常用的一種分析方法。在選取目標組和對照組后,通過對比我們可以看到兩個分組的差異性。
TGI作為度量差異性的重要指標可以讓我們更直觀地看到目標組的顯著特征(TGI=[目標分組中具有某一特征的實體所占比例/對照組中具有相同特征的實體所占比例]*標準數(shù)100)
畫像模板和自定義畫像信息:
畫像模板是一些固化下來的常用畫像分析思路,便于快速瀏覽畫像;而自定義畫像信息則為了滿足畫像分析的個性化需求。
04
標簽和畫像中臺方法論
在有了工具之后就是著手去搭建并應用標簽和畫像了,本節(jié)主要介紹標簽體系建設和畫像應用的方法論以及嚴選實踐的一些具體案例。
1. 標簽體系建設
從0-1搭建標簽體系有兩種方式,分別是自下而上和自上而下,在實操過程中往往這兩種方式結(jié)合運用。
① 自下而上
自下而上的標簽體系建設方式分為產(chǎn)技主導和業(yè)務主導,產(chǎn)技主導主要負責標簽體系冷啟動的問題,業(yè)務主導主要負責標簽體系的自增長
產(chǎn)技主導:
在標簽體系從0-1的起步階段,可能很多業(yè)務同學不清楚什么是標簽,標簽能用來做什么,對他的工作有什么幫助。那么這個時候可以由產(chǎn)技同學主導,選擇1-2個核心場景切入,明確這個場景中的角色、流程、需求、痛點,思考在這個場景下如何通過標簽去輔助業(yè)務,以及如何量化標簽的價值、預估標簽可以產(chǎn)生的價值。
在和業(yè)務同學溝通確認后,推動這個場景落地。業(yè)務同學在有了實操體驗后自然會對標簽有一定的認識,會舉一反三聯(lián)想到其他哪些場景也能用到標簽(這一步業(yè)務同學一定比產(chǎn)技同學反應快得多),進而逐步切入到其他場景,漸漸地從產(chǎn)技主導過渡到業(yè)務主導。
案例:例如,在從0-1搭建供應商標簽體系的時候,可以先主動調(diào)研供應商相關的核心業(yè)務場景,如供應商尋源,然后明確供應商尋源的具體業(yè)務規(guī)則,進而推導出哪些標簽
會有幫助,如“供應商評級”、“采購降本比例”等等標簽,最后推動標簽落地。
業(yè)務主導:
業(yè)務主導指業(yè)務方有某個具體的運營策略,需要由標簽來輔助完成,這類標簽的建設和落地會容易的很多。
案例:例如,營銷的同學要挽回高價值的流失人群,那么就需要有用戶價值、用戶流失概率等簽,有了這些標簽我們就能圈出這部分用戶,再結(jié)合這部分用戶的畫像,就可以輸出一些的營銷策略。
② 自上而下
業(yè)務運轉(zhuǎn)機制服務于商業(yè)目標,業(yè)務運轉(zhuǎn)機制中兩條主線就是業(yè)務流程和業(yè)務對象的生命周期,我們可以通過這兩條線結(jié)合具體的商業(yè)目標和運營策略來自上而下構建標簽體系。
按照業(yè)務流程拆解:
首先要明確企業(yè)的業(yè)務流程,例如零售企業(yè)的基本業(yè)務流程可以分為:設計研發(fā)-生產(chǎn)-營銷-倉儲-配送-售后,然后基于商業(yè)目標推導每個環(huán)節(jié)的運營策略。
案例:例如,當我們要降低供應鏈成本的時候,對應到倉儲環(huán)節(jié)就是要降低庫存持有成本,然后我們會有一系列的運營策略來管理庫存,比如銷量的預測、庫存的監(jiān)控、動銷情況等等?;谶@些具體的策略我們可以推導需要哪些標簽,比如在預測商品銷量時,我們需要商品的季節(jié)標簽、歷史銷量標簽等等。
按照業(yè)務對象的生命周期拆解:
業(yè)務對象的生命周期和業(yè)務流程穿插在一起,且可以從多個維度去拆解。以用戶為例,我們可以按照AARRR、AIPL等生命周期模型拆解。同樣的,我們基于商業(yè)目標拆解到每個生命周期的具體運營策略,進而推導出需要哪些標簽。
案例:例如,對于流失期的用戶,具體的運營策略是一系列的召回措施,那么就會用到用戶最近一次購買時間、商品興趣偏好、優(yōu)惠圈敏感度等等標簽。有了這些標簽后,我們可以把運營策略做進一步的精細化,例如,有明顯品類偏好的用戶通過品類的上新/促銷活動來召回,對優(yōu)惠圈敏感度高的用戶可以通過優(yōu)惠券召回。
2. 畫像應用
畫像是一個火了很久的概念,畫像功能看起來很酷炫,但是大家普遍會覺得這個東西沒有實際用處,所以畫像到底要怎么用呢?
畫像應用的核心在于,通過對比發(fā)現(xiàn)顯著特征并轉(zhuǎn)化成具體的運營策略。常見的畫像分析方法有以下幾種:
① 分組內(nèi)特征對比
分組內(nèi)特征對比指分析單個分組內(nèi)各個特征的分布情況,這也是目前用到最多的畫像分析方法,比如分析某個人群的性別分布、城市分布、偏好商品的分布。
案例:例如我們可以圈選出加購但是還未購買某爆款貓糧的用戶并分析該人群的常駐城市分布,然后我們可以基于城市分布去調(diào)整這款貓糧的庫存分布,通過調(diào)撥讓貓糧離這些用戶更近,這樣就可以提升供應鏈的響應速度
但是,這種方法往往只能了解到一些大致情況,很多時候并不能直接產(chǎn)出運營策略。
② 分組間特征對比
分組間特征對比指對比多個分組(一般是2個)的特征情況,這是目前最有用的畫像分析方法。分組間特征對比的核心在于TGI,通過TGI發(fā)現(xiàn)顯著特征。這里我們通過商品畫像和用戶畫像的2個案例來說明:
商品畫像:我們通過對比“銷量前10%的商品”和“全量的商品”發(fā)現(xiàn)用戶更傾向于購買零售價在0-20、20-40,風格為居家生活、日式的商品。因此在后續(xù)商品研發(fā)和爆品打造的時候可以主攻這個方向,以及在做首單轉(zhuǎn)化的時候也可以針對這類商品做更大力度的優(yōu)惠。
用戶畫像:我們通過對比“嚴選的超級會員人群”和“嚴選全量用戶人群”發(fā)現(xiàn)嚴選的超會人群具備以下顯著特征:性別女、常駐上海市、有車、偏好海淘服飾類等?;谶@些顯著特征我們可以輸出以下兩條運營策略:
拉新:在線上、線下的廣告投放時更加傾向于具備女性、上海市、有車等特征的用戶。
促活和留存:對于已經(jīng)開通超級會員的用戶,可以給予更多的海淘服飾類的超會折扣或者每月可以免費領取汽車用品等等權益。
③ 分組跨時間維度特征對比
單分組跨時間維度特征對比指對比同一個分組在不同時間的特征情況。例如,我們要測試一下某個營銷工具的效果情況,我們可以對比使用營銷工具前和使用后的某個人群的ARPU(單用戶平均收入)、近30日消費次數(shù)等特征的變化,發(fā)現(xiàn)使用營銷工具后這個人群的ARPU值和近30日消費次數(shù)都有更好的表現(xiàn),證明這個營銷工具是有一定效果的(實際情況中還要排除一些其他因素)。
05
總結(jié)
本文首先介紹了標簽和畫像是對業(yè)務實體維度特征的刻畫和描述,標簽和畫像的價值在于提供信息、面向業(yè)務。然后介紹了嚴選為什么要建設標簽和畫像中臺:解決共性需求、加速數(shù)據(jù)資產(chǎn)化和價值落地。進一步介紹了嚴選標簽和畫像中臺工具的具體能力:數(shù)據(jù)管理、標簽萃取和洞察分析。最后介紹了標簽體系建設 ( 自下而上和自上而下 ) 和畫像應用 ( 多種特征對比方式 ) 的方法論,并結(jié)合了嚴選的實踐案例。
當然,在實際的落地過程中還有很多其他困難要克服,例如如何更全面地收集數(shù)據(jù)、如何保障標簽的準確性、如何保障數(shù)據(jù)及服務鏈路的穩(wěn)定性等等。
今天的分享就到這里,謝謝大家。
特別推薦一個分享架構+算法的優(yōu)質(zhì)內(nèi)容,還沒關注的小伙伴,可以長按關注一下:
長按訂閱更多精彩▼
如有收獲,點個在看,誠摯感謝
免責聲明:本文內(nèi)容由21ic獲得授權后發(fā)布,版權歸原作者所有,本平臺僅提供信息存儲服務。文章僅代表作者個人觀點,不代表本平臺立場,如有問題,請聯(lián)系我們,謝謝!