www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當(dāng)前位置:首頁 > 公眾號精選 > 架構(gòu)師社區(qū)
[導(dǎo)讀]導(dǎo)讀:美圖秀秀社交化的推進過程中,沉淀了海量的優(yōu)質(zhì)內(nèi)容和豐富的用戶行為。推薦算法連接內(nèi)容消費者和生產(chǎn)者,在促進平臺的繁榮方面有著非常大的價值 。本次分享探討美圖在內(nèi)容社區(qū)推薦場景下應(yīng)用深度學(xué)習(xí)技術(shù)提升點擊率、關(guān)注轉(zhuǎn)化率和人均時長等多目標(biāo)的實

深度學(xué)習(xí)技術(shù)在美圖個性化推薦的應(yīng)用實踐

導(dǎo)讀:美圖秀秀社交化的推進過程中,沉淀了海量的優(yōu)質(zhì)內(nèi)容和豐富的用戶行為。推薦算法連接內(nèi)容消費者和生產(chǎn)者,在促進平臺的繁榮方面有著非常大的價值 。本次分享探討美圖在內(nèi)容社區(qū)推薦場景下應(yīng)用深度學(xué)習(xí)技術(shù)提升點擊率、關(guān)注轉(zhuǎn)化率和人均時長等多目標(biāo)的實踐經(jīng)驗。

1. 美圖社區(qū)個性化推薦場景概況與挑戰(zhàn)

2. embedding 技術(shù)在召回階段的應(yīng)用實踐

  • 基于 Item2vec 的 item embedding

  • YouTubeNet 和雙塔 DNN 在個性化深度召回模型應(yīng)用實踐

3. 美圖排序模型的研發(fā)落地 

  • NFwFM 模型研發(fā)迭代歷程和經(jīng)驗 

  • 多任務(wù)學(xué)習(xí) ( Multi-task NFwFM ) 在多目標(biāo)預(yù)估場景的探索與實踐

▌美圖社區(qū)個性化推薦場景與挑戰(zhàn)

1. 業(yè)務(wù)場景

美圖社區(qū)個性化推薦場景大大小小有十多個,其中流量比較大的場景是美圖秀秀 app 的社區(qū)內(nèi)容推薦 tab ( 圖1 ),這個場景以雙列瀑布流的形態(tài)給用戶推薦他最感興趣的內(nèi)容。

當(dāng)用戶點擊感興趣的圖片后會進入圖1-2的相似推薦 feeds 流場景。在這個場景下, 用戶消費的圖片和視頻,都是和用戶剛剛點擊進來圖片是具有多種相似性的,如視覺、文本、topic 等。而如果用戶是從雙列瀑布流里點擊視頻,則會進入到圖1-3的視頻 feeds 流場景。這個場景主打讓用戶有沉浸式的消費體驗。以上是美圖社區(qū)內(nèi)容推薦的主要業(yè)務(wù)場景。

深度學(xué)習(xí)技術(shù)在美圖個性化推薦的應(yīng)用實踐
圖1 美圖個性化推薦業(yè)務(wù)場景

2. 工作目標(biāo)

個性化推薦的首要目標(biāo)是理解內(nèi)容。從內(nèi)容本身的視覺、文本以及特定場景下用戶的行為來理解社區(qū)里可用于推薦的內(nèi)容。接下來是理解用戶,通過用戶的基礎(chǔ)畫像 ( 年齡,性別等 )、設(shè)備畫像 ( OS,機型等 ),以及用戶的歷史行為來挖掘其興趣偏好。

再理解了社區(qū)的內(nèi)容和用戶之后,才是通過大規(guī)模的機器學(xué)習(xí)算法進行精準(zhǔn)推薦,千人千面地連接用戶與內(nèi)容,從而持續(xù)提升用戶體驗,促進社區(qū)繁榮。

深度學(xué)習(xí)技術(shù)在美圖個性化推薦的應(yīng)用實踐
圖2 美圖個性化推薦業(yè)務(wù)目標(biāo)

3. 挑戰(zhàn)

在實際生產(chǎn)實踐過程當(dāng)中,主要遇到挑戰(zhàn)如下:

  • 海量

美圖內(nèi)容社區(qū)有月活超過1億的用戶,每天有100多萬的候選圖片和視頻。在這種數(shù)據(jù)規(guī)模下,只在小數(shù)據(jù)規(guī)模下驗證有效的復(fù)雜算法模型無法直接應(yīng)用到工業(yè)界線上系統(tǒng)。

  • 實時

算法需要在端到端小于 300ms 的時延里,每天處理超過3億的個性化排序請求。這要求召回和排序算法不能過于復(fù)雜,要能夠進行高效的計算。

  • 長尾

在實際場景中,用戶分布以及 item 行為分布都是長尾的:

  • 用戶分布的長尾性:新用戶占比超過27%;
  • 曝光分布的長尾性:關(guān)注<< 點擊<<曝光。

在這樣長尾數(shù)據(jù)上進行預(yù)估要求我們的模型具備穩(wěn)定的泛化能力。

深度學(xué)習(xí)技術(shù)在美圖個性化推薦的應(yīng)用實踐
圖3 美圖個性化推薦的挑戰(zhàn)

▌美圖深度學(xué)習(xí)技術(shù)棧——召回端

在上述的應(yīng)用場景和技術(shù)挑戰(zhàn)下,美圖是如何將深度學(xué)習(xí)應(yīng)用到個性化推薦中的召回端和排序端的呢?我將會在下面為大家一一介紹。

召回端的 Item embedding 技術(shù)和召回模型,用于從百萬級別的候選集里挑選 TOP 500個用戶最感興趣的候選集。相對于召回端,排序端的深度排序模型能夠融合多種召回來源并進行統(tǒng)一排序,排序模型能包容規(guī)模更大的細(xì)粒度特征,相對召回模型,排序模型能夠?qū)崿F(xiàn)更加精準(zhǔn)的推薦。

美圖目前部署在線上系統(tǒng)的召回技術(shù)主要包括 Item2vec,YouTubeNet,以及雙塔 DNN。

1. Item2vec

Item2vec,是一種通過用戶行為來理解內(nèi)容的方式。

傳統(tǒng)的理解內(nèi)容方式是基于用戶行為構(gòu)造 item 側(cè)的統(tǒng)計類特征,例如 item 的點擊率,收藏率等。這些特征是非常有效的,但是對內(nèi)容的理解維度比較單一。

另一種方式是從圖片的本身的視覺來提取比如圖片質(zhì)量、清晰度、圖片物體等等。還可以通過內(nèi)容本身的文本特征,比如關(guān)鍵詞,實體詞等等,來幫助理解內(nèi)容。這些維度的特征在內(nèi)容冷啟動中是很有效的。但是他們無法表達內(nèi)容的某些潛在特性,比如某個內(nèi)容是否給用戶呈現(xiàn)出清新有趣的感覺。這種潛在的特征借助用戶的行為來理解比較合適。Item2vec 正是這樣一種技術(shù),它基于短時間內(nèi)被瀏覽的 item 具有內(nèi)在相似性的假設(shè)來學(xué)習(xí) item 的 embedding。

在圖4中可以看到 item2vec 在美圖社區(qū)圖片上的部分效果??梢钥吹胶筒樵儓D在訓(xùn)練數(shù)據(jù)中高頻共現(xiàn)和中頻共現(xiàn)的 item,在背景和主體人物上和查詢詞是高度相似的。而低頻共現(xiàn)的部分和我們的查詢圖片有些差異,不過主體內(nèi)容總體上還是比較相似的。

總體而言,item2vec 是一種學(xué)習(xí) item embedding 的成熟方案。

深度學(xué)習(xí)技術(shù)在美圖個性化推薦的應(yīng)用實踐
圖4 item2vec 可視化效果

Item2vec 學(xué)習(xí)出來的 item 向量是美圖多種向量檢索式召回策略的底層數(shù)據(jù),包括實時興趣,短期興趣等等。比如當(dāng)用戶點擊了某個 item,系統(tǒng)會實時地通過向量內(nèi)積運算查詢相似的 item 并插入到召回源頭部,用于下一輪的排序。

使用 item2vec 學(xué)習(xí)出來的 item 向量作為底層數(shù)據(jù)的召回策略,在美圖應(yīng)用非常廣泛,它們在整體曝光中占了10%以上。

實際應(yīng)用時,我們是基于 skip-gram+negative sampling 來做 item2vec 的。

它是一個只有一個隱層的深度學(xué)習(xí)模型。輸入端是用戶的點擊序列, 輸出端是與輸入端的 target item 鄰近的64個 item。64相對于 NLP 里取的5-6個是比較大的,這是因為用戶的點擊序列不像自然語言那樣具有嚴(yán)格的局部空間句法結(jié)構(gòu)。在比較大上下文窗口中,更容易找到和目標(biāo) item 相似的上下文 item,模型更容易學(xué)習(xí)。

深度學(xué)習(xí)技術(shù)在美圖個性化推薦的應(yīng)用實踐
圖5 item2vec 應(yīng)用實踐

負(fù)采樣的個數(shù)是正樣本數(shù)的兩倍,這是一個效果和性能折中,在我們的應(yīng)用中正負(fù)樣本數(shù)1:2,能夠在天級別模型更新情況下,取得比較好效果。隱層的 embedding size 取128可以得到比較好的效果, 這個取值同樣是效果和性能的折中。另外,我們過濾了點擊序列長度小于5的樣本,這樣過濾之后,我們的點擊序列能覆蓋99%候選圖片和視頻。

Item2vec 是學(xué)習(xí) item embedding 向量的一種非常好的方案,它也覆蓋了美圖多個推薦業(yè)務(wù)。但是它不直接考慮用戶的個性化行為,只考慮了訓(xùn)練樣本中 item 與 item 之間的局部共現(xiàn)關(guān)系。如果要利用上豐富的用戶側(cè)特征,實現(xiàn)個性化的話,那么我們需要借鑒其他方案,而 YouTubeNet 正是這樣一種業(yè)界成熟的方案。

2. YouTubeNet

YouTubeNet 是 Google 于2016年提出的。與 item2vec 不同,YouTubeNet 在學(xué)習(xí) item 向量的時候考慮了用戶向量。從模型的優(yōu)化目標(biāo)上可以看出,是在給定用戶向量的情況下,從候選池中篩選出該用戶最感興趣的 item 列表。

深度學(xué)習(xí)技術(shù)在美圖個性化推薦的應(yīng)用實踐
圖6-1 YouTubeNet 應(yīng)用實踐

從上圖右側(cè)模型架構(gòu)圖可以看到,模型訓(xùn)練用的label是用戶最近點擊過的 item 列表,特征包括兩部分,一部分是用戶更早之前點擊過的列表 ( clicked_item_list ),另一部分是用戶的 demographic 統(tǒng)計特征,如年齡、性別等。引入上述用戶的個性化信息之后,模型通過學(xué)習(xí) user embedding 和 item embedding,并離線導(dǎo)出用戶向量和 item 向量。線上使用時利用 FAISS 工具離線計算好每個用戶的 top N 候選 item 集,提供給排序算法使用。不過這種離線存儲候選集的方式,不能實時應(yīng)對用戶不斷變化的興趣,要捕獲這種變化,需要實時采集用戶不斷變化的點擊 item 數(shù)據(jù),實時計算用戶側(cè)向量。

實時計算用戶側(cè)向量的工作,一共分了兩部分:第一部分是離線部分,為下圖右側(cè)的虛線部分,這里模型一天一更新。離線部分基本流程和上一段所述相同,模型訓(xùn)練完之后導(dǎo)出 item 向量并在 FAISS 中構(gòu)建好索引。第二部分是實時部分,這一部分借助 kafka,實時采集用戶點擊行為數(shù)據(jù)并構(gòu)建 clicked_item_list 特征,接著請求離線訓(xùn)練好的模型,計算出用戶側(cè)向量,最后從 FAISS 中查詢的候選集,輸出給排序服務(wù)。

使用 YouTubeNet 模型實現(xiàn)實時計算用戶側(cè)向量之后,曝光占比22%的 YouTubeNet 給整體帶來了點擊率3.67%的提升,人均時長提升2.22%。

深度學(xué)習(xí)技術(shù)在美圖個性化推薦的應(yīng)用實踐
圖6-2 YouTubeNet 應(yīng)用實踐

3. 雙塔 DNN

雙塔 DNN 模型,聯(lián)合用戶行為和 item 側(cè)特征進行召回。雙塔 DNN 模型構(gòu)建用戶側(cè) embedding 的方式和 YouTubeNet 是一樣的:先給用戶的點擊行為序列,年齡性別等稀疏的特征做 embedding,再經(jīng)過幾個簡單的全連接層,得到用戶側(cè)向量。對于 item 側(cè)特征,雙塔 DNN 引入另一個子網(wǎng)絡(luò)來學(xué)習(xí),學(xué)習(xí)方式和用戶側(cè)特征是一樣的。

離線訓(xùn)練完了之后和 YouTubeNet 還是一樣,把 item 向量提前導(dǎo)出并加載到 FAISS。在線上環(huán)境使用的時候,實時計算用戶側(cè)向量,來快速捕獲用戶興趣。引入 item 側(cè)特征,使得線上用戶點擊率提升1.05%,人均時長提升0.76%。

深度學(xué)習(xí)技術(shù)在美圖個性化推薦的應(yīng)用實踐
圖7 雙塔 DNN

4. 總結(jié)

深度學(xué)習(xí)技術(shù)在美圖個性化推薦的應(yīng)用實踐

Item2vec 學(xué)習(xí)出來的 item 向量具有很好的相似性,作為底層數(shù)據(jù),服務(wù)了多個召回策略, 在美圖具有非常廣泛的應(yīng)用。包括實時興趣,短期興趣等等,覆蓋了10%以上的曝光占比。YouTubeNet 和雙塔 DNN 則分別引入用戶側(cè)和 item 側(cè)特征,有監(jiān)督地學(xué)習(xí)用戶最感興趣的 item 候選集,在美圖個性化推薦召回層,累計點擊率提升了4.72%,時長提升了2.98%。

▌美圖深度學(xué)習(xí)技術(shù)?!判蚨?/span>

1. 重新審視 NFM 模型

美圖的第一代模型主打 LR 為主+人工特征組合。隨著業(yè)務(wù)發(fā)展,大大小小的推薦場景越來越多,做特征的人力越來越緊張。恰逢深度學(xué)習(xí)在工業(yè)級推薦系統(tǒng)有大規(guī)模應(yīng)用落地實踐,因而逐漸將算法模型轉(zhuǎn)向深度學(xué)習(xí)。

深度學(xué)習(xí)技術(shù)在美圖個性化推薦的應(yīng)用實踐
圖8 NFM 模型

2018年年初,美圖用 NFM 模型首次打敗 LR 并取得穩(wěn)定效果,NFM 模型創(chuàng)造性的將 FM 和深度模型端到端的聯(lián)合訓(xùn)練,在底層就進行顯示的特征交叉,NFM 論文的實驗和美圖數(shù)據(jù)集上的實驗都表明了模型能夠收斂更快也更加穩(wěn)定。在美圖的實踐中,引入右側(cè)多層感知機學(xué)習(xí)隱式的高階特征交叉之后,效果進一步提升,好于原始的 NFM 模型。改進后的 NFM 模型在我們的推薦流場景中取得了5.5%的點擊率,以及將近7%的時長提升。

在 NFM 模型取得穩(wěn)定的正向效果之后,美圖推薦團隊繼續(xù)探索了業(yè)界更多的模型。不過都未能落地,主要有以下兩個原因。

第一個是像 Wide&Deep, DeepFM, DCN 等從模型的復(fù)雜度上看沒有比 NFM 擁有更強的預(yù)估能力,計算效率也沒有明顯優(yōu)勢。離線評估和線上實驗上都沒有得到正向效果。

第二種情況是,xDeepFM 和 NFFM 離線指標(biāo)提升了,但是計算復(fù)雜度很高。此外 NFFM 模型參數(shù)量大,內(nèi)存是個瓶頸。導(dǎo)致它倆無法大規(guī)模落地。

深度學(xué)習(xí)技術(shù)在美圖個性化推薦的應(yīng)用實踐

經(jīng)過一年多的探索,在業(yè)界的眾多模型中我們沒有找到合適美圖推薦場景的排序算法。另外,在我們引入行為序列特征之后,NFM 的計算復(fù)雜度已經(jīng)不能很好的支持線上流量。在這樣的背景下,美圖算法團隊決定自行設(shè)計算法。

NFM 模型的優(yōu)點在于,通過 Bi-Interaction,將 FM 模型端到端引入到深度模型,顯式構(gòu)建特征的乘性關(guān)系,加強模型預(yù)估能力,同時沒有增加時間復(fù)雜度。但是在實際生產(chǎn)實踐中,存在2個不足:

(1) NFM 需要足夠的 Embedding layer 寬度來學(xué)習(xí)特征。在實際場景下,其寬度取200左右,效果最好。但是隨著百萬級別用戶行為序列特征的加入,NFM 模型的計算量越來越大,越來越不能滿足線上小于 300ms 的時延要求。

(2) 另一個不足是,NFM 模型本身存在 co-training 的問題,即:一個特征的學(xué)習(xí),會不可避免地受到其他特征的影響。例如,用戶的性別特征,與用戶的網(wǎng)絡(luò)環(huán)境特征是不相關(guān)的;但是 NFM 模型無法構(gòu)建這種情況。

深度學(xué)習(xí)技術(shù)在美圖個性化推薦的應(yīng)用實踐
圖9 NFM 模型的不足

基于以上不足,我們先來看下業(yè)界相關(guān)經(jīng)驗:

深度學(xué)習(xí)技術(shù)在美圖個性化推薦的應(yīng)用實踐

不管是在傳統(tǒng)淺層模型時代還是在深度學(xué)習(xí)時代,引入特征的 field 信息之后,模型幾乎是總能帶來提升的。比如 FFM 仍然一直活躍在 Kaggle 等 CTR 預(yù)估比賽中,穩(wěn)定的取得比不能建模 field 信息的 FM 更好的效果。而深度學(xué)習(xí)時代,業(yè)界很多公司比如2018年, 微軟離線驗證 xDeepFM 引入特征的 field 信息之后,相對不能建模 field 信息的 DCN 同樣取得了很明顯的提升,即便在現(xiàn)在,xDeepFM 仍然是很優(yōu)秀的模型。但是他們或者計算量太高或者參數(shù)量太大,導(dǎo)致無法大規(guī)模應(yīng)用到線上系統(tǒng)?;谏厦鎸?NFM 模型的優(yōu)點的實驗和分析,美圖算法團隊開始嘗試 NFwFM 模型。

2. NFwFM 模型

2.1 模型整體架構(gòu)

NFwFM 模型是在 FwFM 模型的基礎(chǔ)上演化出來的:通過 Field-wise Bi-Interaction 組件,將 FwFM 引入到深度模型里面。

深度學(xué)習(xí)技術(shù)在美圖個性化推薦的應(yīng)用實踐
圖10-1 NFwFM 模型整體架構(gòu)

上圖是 NFwFM 模型的整體架構(gòu),首先,把特征按照邏輯分為3個大模塊:用戶側(cè)特征 ( 包括年齡、性別等 ),item 側(cè)特征 ( 包括 item id,item 標(biāo)簽等 ) 以及上下文側(cè)特征。

接下來將 FwFM 分解成了3個子模塊:第一個模塊是線性加和模塊 ( 上圖中 S 表示 ),不區(qū)別 field 學(xué)習(xí)的特征;第二個模塊是矩陣分解模塊 ( 上圖中的 MF 部分 ),用來學(xué)習(xí) field 粒度下的特征組合,比如 user field 和 item field 的二階交叉;第三個模塊是 FM 模塊,用來學(xué)習(xí) field 內(nèi)部 feature 粒度的特征組合。

2.2 FwFM 和 FFM 相比

(1) FwFM 模型尺寸相對 FFM 少 M-1 倍。在美圖實際應(yīng)用中,特征量大約可減少30倍。

(2) FwFM 模型引入了 Field 相關(guān)的權(quán)重 ri,j ,解決了 FM 存在的不相關(guān)特征在學(xué)習(xí)過程中互相干擾的問題。

(3) 離線評估顯示,F(xiàn)wFM 模型的預(yù)測性能 ( 例如 AUC 指標(biāo) ) 和 FFM 基本一致,而參數(shù)規(guī)模大大降低。

FwFM 模型由于要建模 field 信息,導(dǎo)致它無法像 FM 那樣具備良好的線性時間復(fù)雜度。因此,需要將 FwFM 做矩陣分解 ( 上面架構(gòu)圖中的 MF 模塊 )。

2.3 MF 模塊

如下圖所示,模型分別從用戶側(cè)和 item 側(cè)提取特征向量 vi 和 vj,在這兩個向量上進行矩陣分解,用來學(xué)習(xí) field 粒度的特征組合。實際應(yīng)用中,需要分別對用戶側(cè)、item 側(cè)、context 側(cè)進行兩兩矩陣分解,因此共有3個矩陣分解子模塊。

通過離線評估顯示,MF 分解前后的 FwFM 模型,其 AUC 等指標(biāo)持平,但是相同參數(shù)規(guī)模下計算量降低 M*M 倍,計算效率大大提升。

深度學(xué)習(xí)技術(shù)在美圖個性化推薦的應(yīng)用實踐

2.4 FM 模塊

但是,MF 分解也會存在不足,例如:對于用戶側(cè)存在的豐富多樣的特征,沒有辦法使用矩陣分解進行兩兩二階交叉。

因此,在 field 內(nèi)部引入 FM,用來顯式學(xué)習(xí)用戶側(cè) feature 粒度的所有特征的二階交叉組合。具體來講,給 user field 引入一個 FM 模型,對用戶的年齡、性別等特征的二階交叉,同樣的算法也用于 item field 等。這樣,F(xiàn)wFM 模型就演化成了下圖這樣一個 Field-wise Bi-Interaction 組件。引入 FM 模型后,模型的 AUC 指標(biāo)提升了約0.002。

深度學(xué)習(xí)技術(shù)在美圖個性化推薦的應(yīng)用實踐

2.5 解決特征間干擾問題

但是這樣并沒有解決最一開始提到的問題:FM 模型在學(xué)習(xí)過程中,特征存在互相干擾的情況。

回顧一下前文所述的特征間干擾問題,即 FM 的 co-training 問題:

深度學(xué)習(xí)技術(shù)在美圖個性化推薦的應(yīng)用實踐

模型在對每一個特征進行學(xué)習(xí)的時候,都需要和其他特征進行交叉。例如,用戶性別特征和網(wǎng)絡(luò)環(huán)境特征應(yīng)該是不相關(guān)的,但是模型在學(xué)習(xí)性別特征的時候不可避免地受到網(wǎng)絡(luò)環(huán)境的影響。

為解決這一問題,借鑒 dropout 思路:模型訓(xùn)練完成 Bi-Interaction 后,按照伯努利分布 ( 期望為 β ) 隨機丟棄部分二階交叉項,以解決部分 co-training 問題。

深度學(xué)習(xí)技術(shù)在美圖個性化推薦的應(yīng)用實踐

具體來講,先從伯努利分布中采樣出由{0,1}組成的向量,再用該向量和 FM 模型計算得到的表示二階特征交叉組合的向量進行相乘,這樣可以隨機丟棄部分二階交叉項。在預(yù)估的時候是將 FM 做了 Bi-Interaction 后得到的向量,乘以伯努利分布的期望 β,用來對齊計算過程中丟失的數(shù)據(jù)的大小。引入如上思路之后,AUC 提升約0.001。

2.6 總結(jié)

總體來講,我們從 FwFM 演化出 Field-wise Bi-Interaction 組件,包含線性加和模塊用來學(xué)習(xí)一階特征,還包括矩陣分解 ( MF ) 模塊和 FM 模塊,用來學(xué)習(xí)特征 field 粒度和 feature 粒度的特征交叉。相比于上一代 NFM 模型,使用這樣的模型,在計算量和參數(shù)量都減少了6倍的情況下,點擊率得到了5.19%的提升。

3. Multi-task NFwFM

3.1 多任務(wù)基本架構(gòu)

接下來是多任務(wù)方面的工作。在深度學(xué)習(xí)時代,深度模型能夠包含多種不同分布的樣本,釋放了多任務(wù)學(xué)習(xí)的最大價值。從實踐角度考量,為使離線訓(xùn)練和在線預(yù)估效率較高,目標(biāo)個數(shù)具有可拓展性。業(yè)界通常會選擇下圖中這種底層硬共享 ( hard-sharing ) 隱層的多任務(wù)架構(gòu),在這種架構(gòu)下,因為點擊率和關(guān)注轉(zhuǎn)化率任務(wù)是強相關(guān)的工作,能增加共享隱層的學(xué)習(xí)速度,從而增加模型的收斂效率,而這兩個任務(wù)中不相關(guān)的部分可以認(rèn)為是相互任務(wù)的噪聲,可以增強模型的泛化能力。

深度學(xué)習(xí)技術(shù)在美圖個性化推薦的應(yīng)用實踐

在學(xué)習(xí)的過程中,是利用兩個任務(wù)簡單加和的方式來學(xué)習(xí)多目標(biāo)的。這個方式的離線 AUC 和單獨的點擊用戶模型的 AUC 基本持平;線上點擊率提升1.93%,關(guān)注轉(zhuǎn)化率提升2.90%。

深度學(xué)習(xí)技術(shù)在美圖個性化推薦的應(yīng)用實踐

在實際情況中,點擊和關(guān)注的樣本比例大概為100:1;在這樣很少的關(guān)注樣本的情況下,使用上述的多任務(wù)架構(gòu)就可以得到穩(wěn)定的提升;這驅(qū)使我們引入更多的關(guān)注數(shù)據(jù),來壓榨多任務(wù)模型學(xué)習(xí)更多更高質(zhì)量數(shù)據(jù)的能力。

3.2 樣本 reweight

具體來說,我們引入一個樣本 reweight 的概念,主要目的是為了引入更多更高質(zhì)量的關(guān)注行為數(shù)據(jù)。因為無數(shù)的經(jīng)驗告訴我們這是非常有效的做法。

以下圖為例,假設(shè)有A、B、C、D這4個 item,圖中實線部分表示 item 的真實 CTR ( 由大到小分別是 C > D > B > A );而實際的關(guān)注轉(zhuǎn)化率的關(guān)系是 A > C > B > D = 0。

深度學(xué)習(xí)技術(shù)在美圖個性化推薦的應(yīng)用實踐

我們用實際的關(guān)注轉(zhuǎn)化率取 reweight 這個樣本之后,得到下圖虛線部分的結(jié)果:C > D > A > B,即原本點擊率最低的 item A,在 reweight 之后由于關(guān)注轉(zhuǎn)化率高而變得點擊率比 B 更高,這樣 item A 更容易被模型推薦出來, 這樣就能夠提升整體的關(guān)注轉(zhuǎn)化率,并且因為 C、D 等因為本身點擊率較高或者沒有關(guān)注行為,它們不受分布改變的影響,因此他們的 CTR 大小關(guān)系不受影響。換一種理解,我們是在僅僅改變了有關(guān)注 item 的點擊率分布的基礎(chǔ)中引入了更多更高質(zhì)量的關(guān)注行為數(shù)據(jù)。對原來的點擊率預(yù)估模型的侵入很少,整體點擊率不會下跌太多。該工作提高關(guān)注轉(zhuǎn)化率14.93%,但是點擊率提升很少 ( 約0.84% )。

3.3 Homoscedastic Uncertainty 學(xué)習(xí)方式

上述工作點擊率提升很少的原因是 reweight 模型過于簡單。如前文所述,多任務(wù)的缺點是在參數(shù)共享的情況下,如果兩個任務(wù)有不相關(guān)的部分,兩個任務(wù)就會互相干擾,從而影響效果。學(xué)術(shù)界將這種現(xiàn)象稱為共享沖突。共享沖突這一問題分析和解決起來較為復(fù)雜。針對美圖的具體場景,減少共享沖突的一種方法是加大點擊率預(yù)估任務(wù)的重要性,讓點擊率預(yù)估任務(wù)主導(dǎo)底部共享參數(shù)學(xué)習(xí),進而讓整體模型優(yōu)先正確預(yù)估點擊率模型,再去預(yù)估點擊轉(zhuǎn)化率任務(wù)。

在實踐中,我們用同方差不確定性來學(xué)習(xí)每個任務(wù)對整體的主導(dǎo)能力。具體來說,分別給點擊率任務(wù)和關(guān)注轉(zhuǎn)化率任務(wù)各自一個參數(shù) ( θclick 和 θfollow 用來表示各自的不確定性;不確定性越小的任務(wù)對模型整體的主導(dǎo)性越強。

深度學(xué)習(xí)技術(shù)在美圖個性化推薦的應(yīng)用實踐

從下圖可以看出,左圖的關(guān)注轉(zhuǎn)化的不確定性達到0.76,確實比右圖的點擊率的不確定性 ( 約0.42 ) 更高;因此,讓點擊率預(yù)估任務(wù)主導(dǎo)整個模型的學(xué)習(xí)。

深度學(xué)習(xí)技術(shù)在美圖個性化推薦的應(yīng)用實踐

這樣可以避免點擊率下跌的風(fēng)險 ( 實際上,點擊率提升了1.57% ),而關(guān)注轉(zhuǎn)化率的提升達到了15.65%。

4. 總結(jié)

排序端的工作,美圖經(jīng)歷了從 LR 模型到深度學(xué)習(xí)模型的引進:

(1) 引入 NFM 模型,點擊率提升了5.53%,人均時長提升6.97%

(2) NFwFM 模型在引入了特征 Filed 信息后,在模型尺寸和計算復(fù)雜度可控的情況下,點擊率提升了5.19%,人均時長提升了2.93%;

多目標(biāo) NFwFM 模型,在引入更多更高質(zhì)量數(shù)據(jù)之后,不僅關(guān)注轉(zhuǎn)化率提升了15.65%,點擊率也提升了1.57%。

深度學(xué)習(xí)技術(shù)在美圖個性化推薦的應(yīng)用實踐

▌參考文獻

1. Covington P, Adams J, Sargin E. Deep neural networks for youtube recommendations

2. Ma J, Zhao Z, Yi X, et al. Modeling task relationships in multi-task learning with multi-gate mixture-of-experts

3. Rich Caruana. 1998. Multitask learning. In Learning to learn

4. Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection

5. Kendall A, Gal Y, Cipolla R. Multi-task learning using uncertainty to weigh losses for scene geometry and semantics

6. [白楊-2018]基于用戶行為的視頻聚類方案

https://cloud.tencent.com/developer/article/1193177

7. [蔣文瑞 2018]. 深度模型 DNN 在個性化推薦場景中的應(yīng)用

https://cloud.tencent.com/developer/article/1193180

8. [陳文強 2019]. 多任務(wù)學(xué)習(xí)在美圖推薦排序的近期實踐

https://cloud.tencent.com/developer/article/1475686

作者介紹

陳文強、白楊、黃海勇,來自于美圖公司數(shù)據(jù)智能部。該團隊負(fù)責(zé)美圖大數(shù)據(jù)和 AI,通過用戶畫像、推薦算法、內(nèi)容理解、大數(shù)據(jù)等,對公司的產(chǎn)品、技術(shù)、運營、商業(yè)化等賦能。

特別推薦一個分享架構(gòu)+算法的優(yōu)質(zhì)內(nèi)容,還沒關(guān)注的小伙伴,可以長按關(guān)注一下:

深度學(xué)習(xí)技術(shù)在美圖個性化推薦的應(yīng)用實踐

長按訂閱更多精彩▼

深度學(xué)習(xí)技術(shù)在美圖個性化推薦的應(yīng)用實踐

如有收獲,點個在看,誠摯感謝

免責(zé)聲明:本文內(nèi)容由21ic獲得授權(quán)后發(fā)布,版權(quán)歸原作者所有,本平臺僅提供信息存儲服務(wù)。文章僅代表作者個人觀點,不代表本平臺立場,如有問題,請聯(lián)系我們,謝謝!

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
關(guān)閉
關(guān)閉