視覺(jué)信息助力廣告點(diǎn)擊率預(yù)估 京東廣告團(tuán)隊(duì)技術(shù)論文入圍KDD2020
掃描二維碼
隨時(shí)隨地手機(jī)看文章
在以AI技術(shù)為支持的推薦、搜索、廣告等業(yè)務(wù)中,點(diǎn)擊率預(yù)估(CTR)一直是技術(shù)攻堅(jiān)的核心,同時(shí)也是AI技術(shù)在業(yè)務(wù)落地中最難實(shí)現(xiàn)的技術(shù)方向之一。近日,來(lái)自京東廣告團(tuán)隊(duì)的一篇論文《Category-Specific CNN for Visual-aware CTR Prediction at JD.com》,即《在京東,視覺(jué)助力點(diǎn)擊率預(yù)估—;—;基于給定類(lèi)目信息的卷積神經(jīng)網(wǎng)絡(luò)》被KDD2020成功收錄。論文構(gòu)建了一種基于特定類(lèi)目的卷積神經(jīng)網(wǎng)絡(luò)(Category-Specific CNN, CSCNN),該算法有效利用了電商領(lǐng)域中豐富的商品類(lèi)目信息,創(chuàng)新性的將商品類(lèi)目信息與商品主圖共同作為主圖特征提取模塊的輸入,提取基于特定先驗(yàn)類(lèi)目信息的商品主圖特征,大大提高了CTR預(yù)估的準(zhǔn)確度。
盡管京東的廣告業(yè)務(wù)在業(yè)界起步的比較晚,但增速卻讓人刮目相看。這其中很大一部分原因得益于AI技術(shù)在廣告業(yè)務(wù)的大范圍應(yīng)用。據(jù)京東商業(yè)提升事業(yè)部廣告質(zhì)量部負(fù)責(zé)人包勇軍介紹,京東機(jī)器學(xué)習(xí)在2015年正式應(yīng)用在在線(xiàn)廣告中,初版排序模型使用淺層FM base的超稀疏模型,淺層模型時(shí)代的模型工作,主要著眼在業(yè)務(wù)理解和特征提取。這為以后模型發(fā)展技術(shù)路線(xiàn)奠定了一定的迭代基礎(chǔ),相對(duì)于當(dāng)時(shí)許多tree base model架構(gòu)的業(yè)務(wù)線(xiàn),京東更容易向神經(jīng)網(wǎng)絡(luò)遷移。在2016年,商業(yè)提升事業(yè)部部署LR-DNN模型架構(gòu),基于Theano框架離線(xiàn)訓(xùn)練,自研在線(xiàn)severing服務(wù)。模型上線(xiàn)早于google的wide & deep模型發(fā)布,雖然較w&d模型設(shè)計(jì)和使用略顯粗糙,但是也是將深度學(xué)習(xí)算法引入廣告生產(chǎn)環(huán)境中的一次大版本升級(jí),對(duì)于部門(mén)有舉足輕重的意義。2017年,商業(yè)提升事業(yè)部的算法部門(mén)將整個(gè)模型基礎(chǔ)架構(gòu)進(jìn)行升級(jí),9N機(jī)器學(xué)習(xí)平臺(tái)進(jìn)行內(nèi)功修煉,內(nèi)核遷移到工業(yè)界主流的TensorFlow平臺(tái),完善作為工業(yè)生產(chǎn)平臺(tái)的所有配套模塊。
2018年后,模型算法進(jìn)入業(yè)務(wù)建模時(shí)代,算法升級(jí)從特征加工、模型調(diào)參,邁向業(yè)務(wù)理解建模的新階段。模型迭代升級(jí)進(jìn)入快車(chē)道,業(yè)務(wù)指標(biāo)顯著增長(zhǎng)。模型建模出現(xiàn)新的細(xì)分方向,同時(shí),模型建模迭代也推動(dòng)自研機(jī)器學(xué)習(xí)平臺(tái)9N的升級(jí)。京東將精力更多的放在用戶(hù)刻畫(huà)、預(yù)估商品刻畫(huà)、用戶(hù)和商品關(guān)系的建模上,同時(shí)致力于發(fā)現(xiàn)模型應(yīng)用中的使用短板,解決模型規(guī)模、學(xué)習(xí)效率、參數(shù)更新實(shí)時(shí)性等關(guān)鍵技術(shù)問(wèn)題:
Multi task DCN主要解決了兩個(gè)問(wèn)題。首先將LR-DNN升級(jí)到DCN,將算法工程師從特征選擇交叉的繁重工作中解放。其次采用多路輸出的模型解決position bias。
User Memory Net靜態(tài)用戶(hù)刻畫(huà)。長(zhǎng)期行為更致力于刻畫(huà)用戶(hù)內(nèi)在屬性和偏好,并可以排除由外界因素導(dǎo)致的用戶(hù)短期興趣波動(dòng)。由于使用了很長(zhǎng)的用戶(hù)行為,在線(xiàn)serving架構(gòu)設(shè)計(jì)存在難點(diǎn)。
Category Specific CNN (CSCNN)是一種使用CNN抽取圖像信息,并和CTR任務(wù)端到端聯(lián)合優(yōu)化的建模方法。一方面,需要考量高效離線(xiàn)訓(xùn)練及線(xiàn)上serving的方法。另一方面,和傳統(tǒng)只以圖片為輸入的CNN不同,CSCNN將電商場(chǎng)景下豐富、具有強(qiáng)視覺(jué)先驗(yàn)的“商品類(lèi)目標(biāo)注”作為CNN輸入的一部分,降低CNN訓(xùn)練的難度。CSCNN可以從商品圖中提取到標(biāo)題/類(lèi)目等特征刻畫(huà)不出的細(xì)節(jié),并對(duì)冷啟商品有更好的泛化。
KFAtt(KF Attention model for user behavior sequence)是用戶(hù)實(shí)時(shí)行為序列建模的方法。整體我們采用Transformer的框架建模時(shí)序及用戶(hù)行為和當(dāng)前target的關(guān)聯(lián),是綜合考量線(xiàn)上serving和后期迭代的擴(kuò)展性的技術(shù)選型,實(shí)驗(yàn)驗(yàn)證效果優(yōu)于流行的DIN和DIEN。我們進(jìn)一步指出傳統(tǒng)attention存在的問(wèn)題,并直接對(duì)attention機(jī)制做出了改進(jìn)。在用戶(hù)興趣多變、異質(zhì)行為差異巨大電商場(chǎng)景下,KFAtt比傳統(tǒng)attention表現(xiàn)出更優(yōu)的效果。
Realtime Graph Convolutional Network (RGCN)是用戶(hù)-商品實(shí)時(shí)關(guān)系圖建模的方法。對(duì)于長(zhǎng)尾和冷起階段的商品,借助關(guān)系圖可以得到更豐富的表示;對(duì)于活動(dòng)、促銷(xiāo),實(shí)時(shí)關(guān)系圖也可以更快捕獲商品的時(shí)變特性。
目前機(jī)器學(xué)習(xí)已經(jīng)在京東廣告的各個(gè)環(huán)節(jié)得到深入應(yīng)用。后續(xù)我們會(huì)逐一為大家進(jìn)行詳細(xì)介紹。此次入圍KDD的論文,就是機(jī)器學(xué)習(xí)在廣告CTR模型生產(chǎn)環(huán)境中結(jié)合圖像信息的CTR建模的應(yīng)用,接下來(lái)讓我們一起詳細(xì)了解一下這篇論文
一、任務(wù)背景:
廣告點(diǎn)擊率(Click Through Rate, CTR)預(yù)測(cè)問(wèn)題,即已知用戶(hù)、廣告、環(huán)境等信息,預(yù)測(cè)該用戶(hù)點(diǎn)擊該廣告的概率,是廣告領(lǐng)域的最根本問(wèn)題之一。精準(zhǔn)的廣告點(diǎn)擊率預(yù)測(cè)是整個(gè)廣告系統(tǒng)的基石,直接關(guān)系到京東數(shù)億活躍用戶(hù)的使用體驗(yàn)與百萬(wàn)廣告主的切身商業(yè)利益。
在電商領(lǐng)域中,商品普遍以商品主圖搭配文字描述的格式展示給消費(fèi)者。相比于文字描述,商品主圖往往包含更多的細(xì)節(jié)的、直觀的商品信息,具有更強(qiáng)的視覺(jué)沖擊力,直接影響用戶(hù)偏好。因此,提取商品主圖中的豐富的視覺(jué)特征,能有效挖掘商品特性,從而為CTR預(yù)測(cè)提供強(qiáng)有力的支持。
圖一、電商廣告示意圖,紅框內(nèi)為商品主圖。因其占面積大、表達(dá)的信息多和更吸引的用戶(hù)注意力,故其特征的有效提取,對(duì)于后續(xù)CTR預(yù)測(cè),有著至關(guān)重要的作用。
我們的目標(biāo)是:在百億規(guī)模的訓(xùn)練樣本上,構(gòu)建一種CNN有效抽取視覺(jué)特征,并和CTR任務(wù)聯(lián)合訓(xùn)練。與此同時(shí),滿(mǎn)足線(xiàn)上系統(tǒng)的平響要求。
二、現(xiàn)有方法的問(wèn)題:
引入視覺(jué)信息的CTR預(yù)估中,業(yè)界通常會(huì)采用一種后融合的方式。做法是:采用現(xiàn)成、經(jīng)典的CNN結(jié)構(gòu)(Inception[1], ResNet[2], SeNet[3] 等)抽取圖片特征,并與其他非視覺(jué)特征(如廣告商品的類(lèi)目信息、用戶(hù)的個(gè)人特征、廣告位置時(shí)間等)以后融合的方式,一起作為CTR預(yù)估模型的輸入。
圖二、現(xiàn)有的商品主圖特征提取技術(shù)的缺點(diǎn),紅色虛線(xiàn)框?yàn)楝F(xiàn)有技術(shù)缺失部分。主圖特征提取模塊缺失了商品類(lèi)目作為CNN的輸入,無(wú)法精確地提取基于特定商品類(lèi)目的主圖特征,限制了CTR預(yù)估的準(zhǔn)確性。
然而這種業(yè)界通用的做法,一直面臨兩個(gè)重要的問(wèn)題:
工業(yè)級(jí)廣告CTR預(yù)估系統(tǒng)需要滿(mǎn)足線(xiàn)下快速訓(xùn)練和線(xiàn)上低延遲服務(wù)兩項(xiàng)重要技術(shù)要求。 然而,由于CNN的運(yùn)算速度遠(yuǎn)遠(yuǎn)慢于CTR預(yù)估系統(tǒng)的其他模塊,它可能成為整個(gè)CTR預(yù)估系統(tǒng)的運(yùn)算瓶頸。所以,在實(shí)際CTR預(yù)估系統(tǒng)中應(yīng)用CNN來(lái)提取圖像特征通常是極為困難的。
現(xiàn)有的商品主圖特征提取模塊,絕大多數(shù)搬遷自經(jīng)典的、原本用于圖像分類(lèi)的CNN結(jié)構(gòu)。在原本的圖像分類(lèi)任務(wù)中,圖像的類(lèi)別是未知的、待預(yù)測(cè)的,因此這些CNN結(jié)構(gòu)并沒(méi)有把圖像的類(lèi)別作為輸入。而在CTR預(yù)估中,電商商品的類(lèi)別是被清晰的標(biāo)注的,并且極有可能含有能輔助圖像特征提取的,豐富的視覺(jué)先驗(yàn)。在業(yè)界常用的,視覺(jué)特征與非視覺(jué)特征“后融合”的結(jié)構(gòu)中,CNN沒(méi)有有效利用“商品類(lèi)別”這一重要信息,從而可能提取到與當(dāng)前類(lèi)目無(wú)關(guān)的特征,浪費(fèi)了CNN有限的表達(dá)能力。相反,如果我們能設(shè)計(jì)一種新的CNN結(jié)構(gòu),有效利用商品類(lèi)別信息,那么提取到的基于特定類(lèi)目的視覺(jué)特征,會(huì)極大地降低CNN的訓(xùn)練難度。
三、我們的算法原理:
旨在有效利用電商領(lǐng)域中豐富的商品類(lèi)目信息,我們將商品類(lèi)目信息與商品主圖共同作為主圖特征提取模塊的輸入,從而提取基于特定先驗(yàn)類(lèi)目信息的商品主圖特征。算法命名為基于特定類(lèi)目的卷積神經(jīng)網(wǎng)絡(luò)(Category-Specific CNN, CSCNN)。相比于現(xiàn)有的主圖特征提取技術(shù),我們提取的主圖特征能更為精確地描述商品特征,觸達(dá)用戶(hù)偏好,提升CTR預(yù)估的性能。
設(shè)計(jì)靈感最初來(lái)源于SeNet 和CBAM[4],即用輕量級(jí)的自身注意力網(wǎng)絡(luò)刻畫(huà)卷積特征之間的內(nèi)在聯(lián)系。亮點(diǎn)在于我們創(chuàng)新性地在每一個(gè)卷積層,都加入了類(lèi)目信息,從而使基于特定類(lèi)目的注意力網(wǎng)絡(luò)能學(xué)到既重要又專(zhuān)注于特定類(lèi)目的視覺(jué)特征。
圖三、商品主圖特征提取的流程圖,為了清晰表述,本圖只突出單一層的變換模塊。實(shí)際中,該Attention結(jié)構(gòu)可加在多層卷積網(wǎng)絡(luò)中。
商品主圖I通過(guò)多層卷積神經(jīng)網(wǎng)絡(luò)處理。在每一層CNN后,本層CNN的輸出一個(gè)特征圖張量(Tensor)F,該特征圖張量經(jīng)過(guò)通道注意力模塊Mc 的變換后,調(diào)整為新的特征圖張量F’,進(jìn)一步經(jīng)過(guò)空間注意力模塊Ms變換后,調(diào)整為特征圖張量F’’,這個(gè)特征圖張量F’’作為本層輸出的特征圖,被輸入到下一層CNN中處理。如圖三。
我們來(lái)具體介紹下,通道注意力和空間注意力模塊內(nèi)部結(jié)構(gòu)。
CNN的輸出特征圖張量F,先經(jīng)過(guò)通道注意力模塊Mc調(diào)整為F’,具體流程如圖四(上): 首先,特征圖F經(jīng)過(guò)空間維度的壓縮,得到了C維的Maxpooling和Avgpooling向量。兩者分別拼接上C’維的類(lèi)目特征向量Akc通過(guò)全連接層變換為兩個(gè)C維向量后相加,得到一個(gè)C維的通道注意力向量,與原特征圖廣播后元素相乘后,得到調(diào)整后的特征圖張量F’??偨Y(jié)為:
其中類(lèi)目特征向量Akc,因類(lèi)目k而異,和其他網(wǎng)絡(luò)參數(shù)一起隨機(jī)初始化后通過(guò)反向傳播算法迭代優(yōu)化。
圖四、通道注意力模塊和空間注意力模塊
通道注意力調(diào)整后的特征圖張量F’,經(jīng)過(guò)空間注意力模塊Ms調(diào)整為F’’,具體流程如圖四(下):首先,特征圖F’經(jīng)過(guò)通道維度的壓縮,得到了WH維的Maxpooling和Avgpooling矩陣。兩者拼接上WH維的類(lèi)目特征向量Aks,共同通過(guò)7*7的卷積核變換后,得到一個(gè)HW維的空間注意力矩陣,與原特征圖廣播元素相乘后,得到調(diào)整后的特征圖張量F’’。總結(jié)為:
其中類(lèi)目特征向量Aks,因類(lèi)目k而異,和其他網(wǎng)絡(luò)參數(shù)一起隨機(jī)初始化后通過(guò)反向傳播算法迭代優(yōu)化。
經(jīng)通道和空間維度兩次調(diào)整后的特征圖張量F’’,已經(jīng)包含了類(lèi)目k的先驗(yàn)信息,被作為了下一個(gè)卷幾層的輸入。以上兩個(gè)調(diào)整模塊,可以用在各個(gè)卷積層中,使得整個(gè)網(wǎng)絡(luò)能提取基于特定類(lèi)目先驗(yàn)信息的商品主圖特征。
四、我們的架構(gòu)流程:
圖五、在線(xiàn)模型系統(tǒng)架構(gòu)
離線(xiàn)訓(xùn)練:CSCNN模塊與整個(gè)CTR預(yù)估預(yù)估模型(Deep & Cross Net[5])共同訓(xùn)練。為了解決CNN的計(jì)算瓶頸問(wèn)題,加速訓(xùn)練,我們采用了一種特殊的采樣方式[6]。集中25個(gè),有相同圖像的廣告訓(xùn)練樣本在同一個(gè)訓(xùn)練Batch中。如此CNN圖像特征提取可以只計(jì)算一次,然后廣播到這個(gè)訓(xùn)練Batch中的25個(gè)樣本?,F(xiàn)在我們可以在一天內(nèi)完成150億廣告展示樣本、1.77億圖片的聯(lián)合訓(xùn)練。
離線(xiàn)詞表生成:商品圖像和商品類(lèi)目信息被共同輸入到訓(xùn)練好的CSCNN模塊中,計(jì)算商品圖像的視覺(jué)特征向量。在線(xiàn)預(yù)估系統(tǒng)加載這些視覺(jué)特征,作為CNN模塊的替代,輸入到CTR預(yù)估系統(tǒng)中。結(jié)合一定的頻次控制策略,20GB的詞表可以覆蓋第二天的90%的線(xiàn)上流量。
在線(xiàn)服務(wù):在線(xiàn)服務(wù)系統(tǒng)接收到一條CTR預(yù)估請(qǐng)求后,會(huì)根據(jù)廣告ID,從圖像特征詞表中直接查詢(xún)視覺(jué)特征向量,與非視覺(jué)特征一起輸入到CTR預(yù)估模型中計(jì)算。在3 Million/second的流量峰值中,我們的CPU在線(xiàn)服務(wù)系統(tǒng)能把TP99延遲嚴(yán)格控制在20ms以?xún)?nèi)。
五、實(shí)驗(yàn)效果:
我們的實(shí)驗(yàn)設(shè)計(jì)主要關(guān)注于兩方面:
測(cè)試CSCNN模塊的,有效提取特定類(lèi)目信息的視覺(jué)特征的能力。為了排除龐大的CTR系統(tǒng)中的多方干擾,我們選擇了Amazon Benchmark 數(shù)據(jù)集,和簡(jiǎn)單的線(xiàn)性CTR預(yù)估模型Bayesian Personalized Ranking (BPR).
我們進(jìn)一步測(cè)試CSCNN對(duì)于整個(gè)CTR系統(tǒng)的提升。包括在京東廣告系統(tǒng)收集的150億訓(xùn)練樣本的工業(yè)數(shù)據(jù)集,和真實(shí)流量的Online A/B Test.
具體結(jié)果如圖:
圖六、Amazon Benckmark數(shù)據(jù)集上的AUC比較。我們的算法顯著優(yōu)于State-of-the-Art。得益于圖像信息和商品類(lèi)目信息的加入和有效早融合
圖七、Amazon Benckmark數(shù)據(jù)集上的AUC比較。不同的Attention機(jī)制中,都可以通過(guò)加入CSCNN模塊獲得一致提升。證明了CSCNN的優(yōu)秀適應(yīng)性。
圖八、Amazon Benckmark數(shù)據(jù)集上的AUC比較。網(wǎng)絡(luò)Backbone結(jié)構(gòu),都可以通過(guò)加入CSCNN模塊獲得一致提升。證明了CSCNN的優(yōu)秀適應(yīng)性
圖九、工業(yè)數(shù)據(jù)集 & Online A/B Test。CSCNN貢獻(xiàn)了線(xiàn)下AUC和線(xiàn)上CTR的顯著提升。
五、結(jié)論:
我們提出了一種基于給定類(lèi)目信息的卷積神經(jīng)網(wǎng)絡(luò)。通過(guò)CNN圖像特征提取與商品類(lèi)目信息的早融合網(wǎng)絡(luò)結(jié)構(gòu),有效的強(qiáng)調(diào)了既重要、又直接跟特定類(lèi)目相關(guān)的視覺(jué)特征。從而顯著提升CTR預(yù)估的準(zhǔn)確性。匹配高效的基礎(chǔ)架構(gòu),CSCNN現(xiàn)在被應(yīng)用到京東搜索廣告系統(tǒng)的主流量中,服務(wù)于數(shù)億活躍用戶(hù)。