[導(dǎo)讀]本次分享將主要介紹今日頭條推薦系統(tǒng)概覽,以及內(nèi)容分析、用戶標(biāo)簽、評(píng)估分析、內(nèi)容安全等原理。
本次分享將主要介紹今日頭條推薦系統(tǒng)概覽以及內(nèi)容分析、用戶標(biāo)簽、評(píng)估分析,內(nèi)容安全等原理。
推薦系統(tǒng),如果用形式化的方式去描述實(shí)際上是擬合一個(gè)用戶對(duì)內(nèi)容滿意度的函數(shù),這個(gè)函數(shù)需要輸入三個(gè)維度的變量。
第一個(gè)維度是內(nèi)容。頭條現(xiàn)在已經(jīng)是一個(gè)綜合內(nèi)容平臺(tái),圖文、視頻、UGC小視頻、問(wèn)答、微頭條,每種內(nèi)容有很多自己的特征,需要考慮怎樣提取不同內(nèi)容類(lèi)型的特征做好推薦。
第二個(gè)維度是用戶特征。包括各種興趣標(biāo)簽,職業(yè)、年齡、性別等,還有很多模型刻劃出的隱式用戶興趣等。
第三個(gè)維度是環(huán)境特征。這是移動(dòng)互聯(lián)網(wǎng)時(shí)代推薦的特點(diǎn),用戶隨時(shí)隨地移動(dòng),在工作場(chǎng)合、通勤、旅游等不同的場(chǎng)景,信息偏好有所偏移。
結(jié)合三方面的維度,模型會(huì)給出一個(gè)預(yù)估,即推測(cè)推薦內(nèi)容在這一場(chǎng)景下對(duì)這一用戶是否合適。
這里還有一個(gè)問(wèn)題,如何引入無(wú)法直接衡量的目標(biāo)?
推薦模型中,點(diǎn)擊率、閱讀時(shí)間、點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā)包括點(diǎn)贊都是可以量化的目標(biāo),能夠用模型直接擬合做預(yù)估,看線上提升情況可以知道做的好不好。
但一個(gè)大體量的推薦系統(tǒng),服務(wù)用戶眾多,不能完全由指標(biāo)評(píng)估,引入數(shù)據(jù)指標(biāo)以外的要素也很重要。
比如廣告和特型內(nèi)容頻控。像問(wèn)答卡片就是比較特殊的內(nèi)容形式,其推薦的目標(biāo)不完全是讓用戶瀏覽,還要考慮吸引用戶回答為社區(qū)貢獻(xiàn)內(nèi)容。這些內(nèi)容和普通內(nèi)容如何混排,怎樣控制頻控都需要考慮。
此外,平臺(tái)出于內(nèi)容生態(tài)和社會(huì)責(zé)任的考量,像低俗內(nèi)容的打壓,標(biāo)題黨、低質(zhì)內(nèi)容的打壓,重要新聞的置頂、加權(quán)、強(qiáng)插,低級(jí)別賬號(hào)內(nèi)容降權(quán)都是算法本身無(wú)法完成,需要進(jìn)一步對(duì)內(nèi)容進(jìn)行干預(yù)。
下面我將簡(jiǎn)單介紹在上述算法目標(biāo)的基礎(chǔ)上如何對(duì)其實(shí)現(xiàn)。
前面提到的公式y(tǒng) = F(Xi ,Xu ,Xc),是一個(gè)很經(jīng)典的監(jiān)督學(xué)習(xí)問(wèn)題。可實(shí)現(xiàn)的方法有很多,比如傳統(tǒng)的協(xié)同過(guò)濾模型,監(jiān)督學(xué)習(xí)算法Logistic Regression模型,基于深度學(xué)習(xí)的模型,F(xiàn)actorization Machine和GBDT等。
一個(gè)優(yōu)秀的工業(yè)級(jí)推薦系統(tǒng)需要非常靈活的算法實(shí)驗(yàn)平臺(tái),可以支持多種算法組合,包括模型結(jié)構(gòu)調(diào)整。因?yàn)楹茈y有一套通用的模型架構(gòu)適用于所有的推薦場(chǎng)景。
現(xiàn)在很流行將LR和DNN結(jié)合,前幾年Facebook也將LR和GBDT算法做結(jié)合。今日頭條旗下幾款產(chǎn)品都在沿用同一套強(qiáng)大的算法推薦系統(tǒng),但根據(jù)業(yè)務(wù)場(chǎng)景不同,模型架構(gòu)會(huì)有所調(diào)整。
模型之后再看一下典型的推薦特征,主要有四類(lèi)特征會(huì)對(duì)推薦起到比較重要的作用。
第一類(lèi)是相關(guān)性特征,就是評(píng)估內(nèi)容的屬性和與用戶是否匹配。顯性的匹配包括關(guān)鍵詞匹配、分類(lèi)匹配、來(lái)源匹配、主題匹配等。像FM模型中也有一些隱性匹配,從用戶向量與內(nèi)容向量的距離可以得出。
第二類(lèi)是環(huán)境特征,包括地理位置、時(shí)間。這些既是bias特征,也能以此構(gòu)建一些匹配特征。
第三類(lèi)是熱度特征。包括全局熱度、分類(lèi)熱度,主題熱度,以及關(guān)鍵詞熱度等。內(nèi)容熱度信息在大的推薦系統(tǒng)特別在用戶冷啟動(dòng)的時(shí)候非常有效。
第四類(lèi)是協(xié)同特征,它可以在部分程度上幫助解決所謂算法越推越窄的問(wèn)題。
協(xié)同特征并非考慮用戶已有歷史。而是通過(guò)用戶行為分析不同用戶間相似性,比如點(diǎn)擊相似、興趣分類(lèi)相似、主題相似、興趣詞相似,甚至向量相似,從而擴(kuò)展模型的探索能力。
模型的訓(xùn)練上,頭條系大部分推薦產(chǎn)品采用實(shí)時(shí)訓(xùn)練。實(shí)時(shí)訓(xùn)練省資源并且反饋快,這對(duì)信息流產(chǎn)品非常重要。用戶需要行為信息可以被模型快速捕捉并反饋至下一刷的推薦效果。
我們線上目前基于storm集群實(shí)時(shí)處理樣本數(shù)據(jù),包括點(diǎn)擊、展現(xiàn)、收藏、分享等動(dòng)作類(lèi)型。
模型參數(shù)服務(wù)器是內(nèi)部開(kāi)發(fā)的一套高性能的系統(tǒng),因?yàn)轭^條數(shù)據(jù)規(guī)模增長(zhǎng)太快,類(lèi)似的開(kāi)源系統(tǒng)穩(wěn)定性和性能無(wú)法滿足,而我們自研的系統(tǒng)底層做了很多針對(duì)性的優(yōu)化,提供了完善運(yùn)維工具,更適配現(xiàn)有的業(yè)務(wù)場(chǎng)景。
目前,頭條的推薦算法模型在世界范圍內(nèi)也是比較大的,包含幾百億原始特征和數(shù)十億向量特征。
整體的訓(xùn)練過(guò)程是線上服務(wù)器記錄實(shí)時(shí)特征,導(dǎo)入到Kafka文件隊(duì)列中,然后進(jìn)一步導(dǎo)入Storm集群消費(fèi)Kafka數(shù)據(jù),客戶端回傳推薦的label構(gòu)造訓(xùn)練樣本,隨后根據(jù)最新樣本進(jìn)行在線訓(xùn)練更新模型參數(shù),最終線上模型得到更新。
這個(gè)過(guò)程中主要的延遲在用戶的動(dòng)作反饋延時(shí),因?yàn)槲恼峦扑]后用戶不一定馬上看,不考慮這部分時(shí)間,整個(gè)系統(tǒng)是幾乎實(shí)時(shí)的。
但因?yàn)轭^條目前的內(nèi)容量非常大,加上小視頻內(nèi)容有千萬(wàn)級(jí)別,推薦系統(tǒng)不可能所有內(nèi)容全部由模型預(yù)估。
所以需要設(shè)計(jì)一些召回策略,每次推薦時(shí)從海量?jī)?nèi)容中篩選出千級(jí)別的內(nèi)容庫(kù)。召回策略最重要的要求是性能要極致,一般超時(shí)不能超過(guò)50毫秒。
召回策略種類(lèi)有很多,我們主要用的是倒排的思路。離線維護(hù)一個(gè)倒排,這個(gè)倒排的key可以是分類(lèi),topic,實(shí)體,來(lái)源等。
排序考慮熱度、新鮮度、動(dòng)作等。線上召回可以迅速?gòu)牡古胖懈鶕?jù)用戶興趣標(biāo)簽對(duì)內(nèi)容做截?cái)?,高效的從很大的?nèi)容庫(kù)中篩選比較靠譜的一小部分內(nèi)容。
內(nèi)容分析包括文本分析,圖片分析和視頻分析。頭條一開(kāi)始主要做資訊,今天我們主要講一下文本分析。文本分析在推薦系統(tǒng)中一個(gè)很重要的作用是用戶興趣建模。
沒(méi)有內(nèi)容及文本標(biāo)簽,無(wú)法得到用戶興趣標(biāo)簽。舉個(gè)例子,只有知道文章標(biāo)簽是互聯(lián)網(wǎng),用戶看了互聯(lián)網(wǎng)標(biāo)簽的文章,才能知道用戶有互聯(lián)網(wǎng)標(biāo)簽,其他關(guān)鍵詞也一樣。
另一方面,文本內(nèi)容的標(biāo)簽可以直接幫助推薦特征,比如魅族的內(nèi)容可以推薦給關(guān)注魅族的用戶,這是用戶標(biāo)簽的匹配。
如果某段時(shí)間推薦主頻道效果不理想,出現(xiàn)推薦窄化,用戶會(huì)發(fā)現(xiàn)到具體的頻道推薦(如科技、體育、娛樂(lè)、軍事等)中閱讀后,再回主feed,推薦效果會(huì)更好。
因?yàn)檎麄€(gè)模型是打通的,子頻道探索空間較小,更容易滿足用戶需求。只通過(guò)單一信道反饋提高推薦準(zhǔn)確率難度會(huì)比較大,子頻道做的好很重要。而這也需要好的內(nèi)容分析。
上圖是今日頭條的一個(gè)實(shí)際文本case??梢钥吹剑@篇文章有分類(lèi)、關(guān)鍵詞、topic、實(shí)體詞等文本特征。
當(dāng)然不是沒(méi)有文本特征,推薦系統(tǒng)就不能工作,推薦系統(tǒng)最早期應(yīng)用在Amazon,甚至沃爾瑪時(shí)代就有,包括Netfilx做視頻推薦也沒(méi)有文本特征直接協(xié)同過(guò)濾推薦。
但對(duì)資訊類(lèi)產(chǎn)品而言,大部分是消費(fèi)當(dāng)天內(nèi)容,沒(méi)有文本特征新內(nèi)容冷啟動(dòng)非常困難,協(xié)同類(lèi)特征無(wú)法解決文章冷啟動(dòng)問(wèn)題。
今日頭條推薦系統(tǒng)主要抽取的文本特征包括以下幾類(lèi)。首先是語(yǔ)義標(biāo)簽類(lèi)特征,顯式為文章打上語(yǔ)義標(biāo)簽。
這部分標(biāo)簽是由人定義的特征,每個(gè)標(biāo)簽有明確的意義,標(biāo)簽體系是預(yù)定義的。
此外還有隱式語(yǔ)義特征,主要是topic特征和關(guān)鍵詞特征,其中topic特征是對(duì)于詞概率分布的描述,無(wú)明確意義;而關(guān)鍵詞特征會(huì)基于一些統(tǒng)一特征描述,無(wú)明確集合。
另外文本相似度特征也非常重要。在頭條,曾經(jīng)用戶反饋?zhàn)畲蟮膯?wèn)題之一就是為什么總推薦重復(fù)的內(nèi)容。這個(gè)問(wèn)題的難點(diǎn)在于,每個(gè)人對(duì)重復(fù)的定義不一樣。
舉個(gè)例子,有人覺(jué)得這篇講皇馬和巴薩的文章,昨天已經(jīng)看過(guò)類(lèi)似內(nèi)容,今天還說(shuō)這兩個(gè)隊(duì)那就是重復(fù)。
但對(duì)于一個(gè)重度球迷而言,尤其是巴薩的球迷,恨不得所有報(bào)道都看一遍。解決這一問(wèn)題需要根據(jù)判斷相似文章的主題、行文、主體等內(nèi)容,根據(jù)這些特征做線上策略。
同樣,還有時(shí)空特征,分析內(nèi)容的發(fā)生地點(diǎn)以及時(shí)效性。比如武漢限行的事情推給北京用戶可能就沒(méi)有意義。
最后還要考慮質(zhì)量相關(guān)特征,判斷內(nèi)容是否低俗,色情,是否是軟文,雞湯?
上圖是頭條語(yǔ)義標(biāo)簽的特征和使用場(chǎng)景。他們之間層級(jí)不同,要求不同。
分類(lèi)的目標(biāo)是覆蓋全面,希望每篇內(nèi)容每段視頻都有分類(lèi);而實(shí)體體系要求精準(zhǔn),相同名字或內(nèi)容要能明確區(qū)分究竟指代哪一個(gè)人或物,但不用覆蓋很全。
概念體系則負(fù)責(zé)解決比較精確又屬于抽象概念的語(yǔ)義。這是我們最初的分類(lèi),實(shí)踐中發(fā)現(xiàn)分類(lèi)和概念在技術(shù)上能互用,后來(lái)統(tǒng)一用了一套技術(shù)架構(gòu)。
目前,隱式語(yǔ)義特征已經(jīng)可以很好的幫助推薦,而語(yǔ)義標(biāo)簽需要持續(xù)標(biāo)注,新名詞新概念不斷出現(xiàn),標(biāo)注也要不斷迭代。其做好的難度和資源投入要遠(yuǎn)大于隱式語(yǔ)義特征,那為什么還需要語(yǔ)義標(biāo)簽?
有一些產(chǎn)品上的需要,比如頻道需要有明確定義的分類(lèi)內(nèi)容和容易理解的文本標(biāo)簽體系。語(yǔ)義標(biāo)簽的效果是檢查一個(gè)公司NLP技術(shù)水平的試金石。
今日頭條推薦系統(tǒng)的線上分類(lèi)采用典型的層次化文本分類(lèi)算法。
最上面Root,下面第一層的分類(lèi)是像科技、體育、財(cái)經(jīng)、娛樂(lè),體育這樣的大類(lèi),再下面細(xì)分足球、籃球、乒乓球、網(wǎng)球、田徑、游泳…,足球再細(xì)分國(guó)際足球、中國(guó)足球,中國(guó)足球又細(xì)分中甲、中超、國(guó)家隊(duì)…,相比單獨(dú)的分類(lèi)器,利用層次化文本分類(lèi)算法能更好地解決數(shù)據(jù)傾斜的問(wèn)題。
有一些例外是,如果要提高召回,可以看到我們連接了一些飛線。這套架構(gòu)通用,但根據(jù)不同的問(wèn)題難度,每個(gè)元分類(lèi)器可以異構(gòu),像有些分類(lèi)SVM效果很好,有些要結(jié)合CNN,有些要結(jié)合RNN再處理一下。
上圖是一個(gè)實(shí)體詞識(shí)別算法的case。基于分詞結(jié)果和詞性標(biāo)注選取候選,期間可能需要根據(jù)知識(shí)庫(kù)做一些拼接,有些實(shí)體是幾個(gè)詞的組合,要確定哪幾個(gè)詞結(jié)合在一起能映射實(shí)體的描述。
如果結(jié)果映射多個(gè)實(shí)體還要通過(guò)詞向量、topic分布甚至詞頻本身等去歧,最后計(jì)算一個(gè)相關(guān)性模型。
內(nèi)容分析和用戶標(biāo)簽是推薦系統(tǒng)的兩大基石。內(nèi)容分析涉及到機(jī)器學(xué)習(xí)的內(nèi)容多一些,相比而言,用戶標(biāo)簽工程挑戰(zhàn)更大。
今日頭條常用的用戶標(biāo)簽包括用戶感興趣的類(lèi)別和主題、關(guān)鍵詞、來(lái)源、基于興趣的用戶聚類(lèi)以及各種垂直興趣特征(車(chē)型,體育球隊(duì),股票等)。還有性別、年齡、地點(diǎn)等信息。
性別信息通過(guò)用戶第三方社交賬號(hào)登錄得到。年齡信息通常由模型預(yù)測(cè),通過(guò)機(jī)型、閱讀時(shí)間分布等預(yù)估。
常駐地點(diǎn)來(lái)自用戶授權(quán)訪問(wèn)位置信息,在位置信息的基礎(chǔ)上通過(guò)傳統(tǒng)聚類(lèi)的方法拿到常駐點(diǎn)。
常駐點(diǎn)結(jié)合其他信息,可以推測(cè)用戶的工作地點(diǎn)、出差地點(diǎn)、旅游地點(diǎn)。這些用戶標(biāo)簽非常有助于推薦。
當(dāng)然最簡(jiǎn)單的用戶標(biāo)簽是瀏覽過(guò)的內(nèi)容標(biāo)簽。但這里涉及到一些數(shù)據(jù)處理策略。
一、過(guò)濾噪聲。通過(guò)停留時(shí)間短的點(diǎn)擊,過(guò)濾標(biāo)題黨。
二、熱點(diǎn)懲罰。對(duì)用戶在一些熱門(mén)文章(如前段時(shí)間PG One的新聞)上的動(dòng)作做降權(quán)處理。理論上,傳播范圍較大的內(nèi)容,置信度會(huì)下降。
三、時(shí)間衰減。用戶興趣會(huì)發(fā)生偏移,因此策略更偏向新的用戶行為。因此,隨著用戶動(dòng)作的增加,老的特征權(quán)重會(huì)隨時(shí)間衰減,新動(dòng)作貢獻(xiàn)的特征權(quán)重會(huì)更大。
四、懲罰展現(xiàn)。如果一篇推薦給用戶的文章沒(méi)有被點(diǎn)擊,相關(guān)特征(類(lèi)別,關(guān)鍵詞,來(lái)源)權(quán)重會(huì)被懲罰。當(dāng)
然同時(shí),也要考慮全局背景,是不是相關(guān)內(nèi)容推送比較多,以及相關(guān)的關(guān)閉和dislike信號(hào)等。
用戶標(biāo)簽挖掘總體比較簡(jiǎn)單,主要還是剛剛提到的工程挑戰(zhàn)。頭條用戶標(biāo)簽第一版是批量計(jì)算框架,流程比較簡(jiǎn)單,每天抽取昨天的日活用戶過(guò)去兩個(gè)月的動(dòng)作數(shù)據(jù),在Hadoop集群上批量計(jì)算結(jié)果。
但問(wèn)題在于,隨著用戶高速增長(zhǎng),興趣模型種類(lèi)和其他批量處理任務(wù)都在增加,涉及到的計(jì)算量太大。
2014年,批量處理任務(wù)幾百萬(wàn)用戶標(biāo)簽更新的Hadoop任務(wù),當(dāng)天完成已經(jīng)開(kāi)始勉強(qiáng)。集群計(jì)算資源緊張很容易影響其它工作,集中寫(xiě)入分布式存儲(chǔ)系統(tǒng)的壓力也開(kāi)始增大,并且用戶興趣標(biāo)簽更新延遲越來(lái)越高。
面對(duì)這些挑戰(zhàn)。2014年底今日頭條上線了用戶標(biāo)簽Storm集群流式計(jì)算系統(tǒng)。改成流式之后,只要有用戶動(dòng)作更新就更新標(biāo)簽,CPU代價(jià)比較小,可以節(jié)省80%的CPU時(shí)間,大大降低了計(jì)算資源開(kāi)銷(xiāo)。
同時(shí),只需幾十臺(tái)機(jī)器就可以支撐每天數(shù)千萬(wàn)用戶的興趣模型更新,并且特征更新速度非???,基本可以做到準(zhǔn)實(shí)時(shí)。這套系統(tǒng)從上線一直使用至今。
當(dāng)然,我們也發(fā)現(xiàn)并非所有用戶標(biāo)簽都需要流式系統(tǒng)。像用戶的性別、年齡、常駐地點(diǎn)這些信息,不需要實(shí)時(shí)重復(fù)計(jì)算,就仍然保留daily更新。
上面介紹了推薦系統(tǒng)的整體架構(gòu),那么如何評(píng)估推薦效果好不好?
有一句我認(rèn)為非常有智慧的話,“一個(gè)事情沒(méi)法評(píng)估就沒(méi)法優(yōu)化”。對(duì)推薦系統(tǒng)也是一樣。
事實(shí)上,很多因素都會(huì)影響推薦效果。比如侯選集合變化,召回模塊的改進(jìn)或增加,推薦特征的增加,模型架構(gòu)的改進(jìn)在,算法參數(shù)的優(yōu)化等等,不一一舉例。
評(píng)估的意義就在于,很多優(yōu)化最終可能是負(fù)向效果,并不是優(yōu)化上線后效果就會(huì)改進(jìn)。
全面的評(píng)估推薦系統(tǒng),需要完備的評(píng)估體系、強(qiáng)大的實(shí)驗(yàn)平臺(tái)以及易用的經(jīng)驗(yàn)分析工具。
所謂完備的體系就是并非單一指標(biāo)衡量,不能只看點(diǎn)擊率或者停留時(shí)長(zhǎng)等,需要綜合評(píng)估。
很多公司算法做的不好,并非是工程師能力不夠,而是需要一個(gè)強(qiáng)大的實(shí)驗(yàn)平臺(tái),還有便捷的實(shí)驗(yàn)分析工具,可以智能分析數(shù)據(jù)指標(biāo)的置信度。
一個(gè)良好的評(píng)估體系建立需要遵循幾個(gè)原則,首先是兼顧短期指標(biāo)與長(zhǎng)期指標(biāo)。我在之前公司負(fù)責(zé)電商方向的時(shí)候觀察到,很多策略調(diào)整短期內(nèi)用戶覺(jué)得新鮮,但是長(zhǎng)期看其實(shí)沒(méi)有任何助益。
其次,要兼顧用戶指標(biāo)和生態(tài)指標(biāo)。既要為內(nèi)容創(chuàng)作者提供價(jià)值,讓他更有尊嚴(yán)的創(chuàng)作,也有義務(wù)滿足用戶,這兩者要平衡。
還有廣告主利益也要考慮,這是多方博弈和平衡的過(guò)程。
另外,要注意協(xié)同效應(yīng)的影響。實(shí)驗(yàn)中嚴(yán)格的流量隔離很難做到,要注意外部效應(yīng)。
強(qiáng)大的實(shí)驗(yàn)平臺(tái)非常直接的優(yōu)點(diǎn)是,當(dāng)同時(shí)在線的實(shí)驗(yàn)比較多時(shí),可以由平臺(tái)自動(dòng)分配流量,無(wú)需人工溝通,并且實(shí)驗(yàn)結(jié)束流量立即回收,提高管理效率。
這能幫助公司降低分析成本,加快算法迭代效應(yīng),使整個(gè)系統(tǒng)的算法優(yōu)化工作能夠快速往前推進(jìn)。
這是頭條A/B Test實(shí)驗(yàn)系統(tǒng)的基本原理。首先我們會(huì)做在離線狀態(tài)下做好用戶分桶,然后線上分配實(shí)驗(yàn)流量,將桶里用戶打上標(biāo)簽,分給實(shí)驗(yàn)組。
舉個(gè)例子,開(kāi)一個(gè)10%流量的實(shí)驗(yàn),兩個(gè)實(shí)驗(yàn)組各5%,一個(gè)5%是基線,策略和線上大盤(pán)一樣,另外一個(gè)是新的策略。
實(shí)驗(yàn)過(guò)程中用戶動(dòng)作會(huì)被搜集,基本上是準(zhǔn)實(shí)時(shí),每小時(shí)都可以看到。但因?yàn)樾r(shí)數(shù)據(jù)有波動(dòng),通常是以天為時(shí)間節(jié)點(diǎn)來(lái)看。動(dòng)作搜集后會(huì)有日志處理、分布式統(tǒng)計(jì)、寫(xiě)入數(shù)據(jù)庫(kù),非常便捷。
在這個(gè)系統(tǒng)下工程師只需要設(shè)置流量需求、實(shí)驗(yàn)時(shí)間、定義特殊過(guò)濾條件,自定義實(shí)驗(yàn)組ID。系統(tǒng)可以自動(dòng)生成:實(shí)驗(yàn)數(shù)據(jù)對(duì)比、實(shí)驗(yàn)數(shù)據(jù)置信度、實(shí)驗(yàn)結(jié)論總結(jié)以及實(shí)驗(yàn)優(yōu)化建議。
當(dāng)然,只有實(shí)驗(yàn)平臺(tái)是遠(yuǎn)遠(yuǎn)不夠的。線上實(shí)驗(yàn)平臺(tái)只能通過(guò)數(shù)據(jù)指標(biāo)變化推測(cè)
用戶體驗(yàn)的變化,但數(shù)據(jù)指標(biāo)和用戶體驗(yàn)存在差異,很多指標(biāo)不能完全量化。
很多改進(jìn)仍然要通過(guò)人工分析,重大改進(jìn)需要人工評(píng)估二次確認(rèn)。
最后要介紹今日頭條在內(nèi)容安全上的一些舉措。頭條現(xiàn)在已經(jīng)是國(guó)內(nèi)最大的內(nèi)容創(chuàng)作與分發(fā)憑條,必須越來(lái)越重視社會(huì)責(zé)任和行業(yè)領(lǐng)導(dǎo)者的責(zé)任。如果1%的推薦內(nèi)容出現(xiàn)問(wèn)題,就會(huì)產(chǎn)生較大的影響。
現(xiàn)在,今日頭條的內(nèi)容主要來(lái)源于兩部分,一是具有成熟內(nèi)容生產(chǎn)能力的PGC平臺(tái)
一是UGC用戶內(nèi)容,如問(wèn)答、用戶評(píng)論、微頭條。這兩部分內(nèi)容需要通過(guò)統(tǒng)一的審核機(jī)制。如果是數(shù)量相對(duì)少的PGC內(nèi)容,會(huì)直接進(jìn)行風(fēng)險(xiǎn)審核,沒(méi)有問(wèn)題會(huì)大范圍推薦。
UGC內(nèi)容需要經(jīng)過(guò)一個(gè)風(fēng)險(xiǎn)模型的過(guò)濾,有問(wèn)題的會(huì)進(jìn)入二次風(fēng)險(xiǎn)審核。審核通過(guò)后,內(nèi)容會(huì)被真正進(jìn)行推薦。這時(shí)如果收到一定量以上的評(píng)論或者舉報(bào)負(fù)向反饋,還會(huì)再回到復(fù)審環(huán)節(jié),有問(wèn)題直接下架。
整個(gè)機(jī)制相對(duì)而言比較健全,作為行業(yè)領(lǐng)先者,在內(nèi)容安全上,今日頭條一直用最高的標(biāo)準(zhǔn)要求自己。
分享內(nèi)容識(shí)別技術(shù)主要鑒黃模型,謾罵模型以及低俗模型。今日頭條的低俗模型通過(guò)深度學(xué)習(xí)算法訓(xùn)練,樣本庫(kù)非常大,圖片、文本同時(shí)分析。
這部分模型更注重召回率,準(zhǔn)確率甚至可以犧牲一些。謾罵模型的樣本庫(kù)同樣超過(guò)百萬(wàn),召回率高達(dá)95%+,準(zhǔn)確率80%+。如果用戶經(jīng)常出言不諱或者不當(dāng)?shù)脑u(píng)論,我們有一些懲罰機(jī)制。
泛低質(zhì)識(shí)別涉及的情況非常多,像假新聞、黑稿、題文不符、標(biāo)題黨、內(nèi)容質(zhì)量低等等,這部分內(nèi)容由機(jī)器理解是非常難的,需要大量反饋信息,包括其他樣本信息比對(duì)。
目前低質(zhì)模型的準(zhǔn)確率和召回率都不是特別高,還需要結(jié)合人工復(fù)審,將閾值提高。目前最終的召回已達(dá)到95%,這部分其實(shí)還有非常多的工作可以做。別平臺(tái)。
-END-
作者 | 朵朵066
|?整理文章為傳播相關(guān)技術(shù),版權(quán)歸原作者所有?|
|?如有侵權(quán),請(qǐng)聯(lián)系刪除?|
【1】用C實(shí)現(xiàn):均值計(jì)算的兩種算法
【2】單片機(jī)DSP必備概念:快速教會(huì)你傅立葉算法
【3】幾種常見(jiàn)的校驗(yàn)算法
【4】C語(yǔ)言編程:九種必會(huì)查找算法(附完整代碼)
【5】圖解機(jī)器學(xué)習(xí):請(qǐng)不要再說(shuō)看不懂算法!
免責(zé)聲明:本文內(nèi)容由21ic獲得授權(quán)后發(fā)布,版權(quán)歸原作者所有,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。文章僅代表作者個(gè)人觀點(diǎn),不代表本平臺(tái)立場(chǎng),如有問(wèn)題,請(qǐng)聯(lián)系我們,謝謝!
欲知詳情,請(qǐng)下載word文檔
下載文檔
掃描二維碼,關(guān)注更多精彩內(nèi)容
本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專(zhuān)欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
9月2日消息,不造車(chē)的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。
關(guān)鍵字:
阿維塔
塞力斯
華為
加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...
關(guān)鍵字:
AWS
AN
BSP
數(shù)字化
倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車(chē)技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車(chē)工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車(chē)。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...
關(guān)鍵字:
汽車(chē)
人工智能
智能驅(qū)動(dòng)
BSP
北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...
關(guān)鍵字:
亞馬遜
解密
控制平面
BSP
8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。
關(guān)鍵字:
騰訊
編碼器
CPU
8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。
關(guān)鍵字:
華為
12nm
EDA
半導(dǎo)體
8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。
關(guān)鍵字:
華為
12nm
手機(jī)
衛(wèi)星通信
要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...
關(guān)鍵字:
通信
BSP
電信運(yùn)營(yíng)商
數(shù)字經(jīng)濟(jì)
北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...
關(guān)鍵字:
VI
傳輸協(xié)議
音頻
BSP
北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...
關(guān)鍵字:
BSP
信息技術(shù)
山海路引?嵐悅新程 三亞2024年8月27日 /美通社/ --?近日,海南地區(qū)六家凱悅系酒店與中國(guó)高端新能源車(chē)企嵐圖汽車(chē)(VOYAH)正式達(dá)成戰(zhàn)略合作協(xié)議。這一合作標(biāo)志著兩大品牌在高端出行體驗(yàn)和環(huán)保理念上的深度融合,將...
關(guān)鍵字:
新能源
BSP
PLAYER
ASIA
上海2024年8月28日 /美通社/ -- 8月26日至8月28日,AHN LAN安嵐與股神巴菲特的孫女妮可?巴菲特共同開(kāi)啟了一場(chǎng)自然和藝術(shù)的療愈之旅。 妮可·巴菲特在療愈之旅活動(dòng)現(xiàn)場(chǎng)合影 ...
關(guān)鍵字:
MIDDOT
BSP
LAN
SPI
8月29日消息,近日,華為董事、質(zhì)量流程IT總裁陶景文在中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式上表示,中國(guó)科技企業(yè)不應(yīng)怕美國(guó)對(duì)其封鎖。
關(guān)鍵字:
華為
12nm
EDA
半導(dǎo)體
上海2024年8月26日 /美通社/ -- 近日,全球領(lǐng)先的消費(fèi)者研究與零售監(jiān)測(cè)公司尼爾森IQ(NielsenIQ)迎來(lái)進(jìn)入中國(guó)市場(chǎng)四十周年的重要里程碑,正式翻開(kāi)在華發(fā)展新篇章。自改革開(kāi)放以來(lái),中國(guó)市場(chǎng)不斷展現(xiàn)出前所未有...
關(guān)鍵字:
BSP
NI
SE
TRACE
上海2024年8月26日 /美通社/ -- 第二十二屆跨盈年度B2B營(yíng)銷(xiāo)高管峰會(huì)(CC2025)將于2025年1月15-17日在上海舉辦,本次峰會(huì)早鳥(niǎo)票注冊(cè)通道開(kāi)啟,截止時(shí)間10月11日。 了解更多會(huì)議信息:cc.co...
關(guān)鍵字:
BSP
COM
AI
INDEX
上海2024年8月26日 /美通社/ -- 今日,高端全合成潤(rùn)滑油品牌美孚1號(hào)攜手品牌體驗(yàn)官周冠宇,開(kāi)啟全新旅程,助力廣大車(chē)主通過(guò)駕駛?cè)ヌ剿鞲鼜V闊的世界。在全新發(fā)布的品牌視頻中,周冠宇及不同背景的消費(fèi)者表達(dá)了對(duì)駕駛的熱愛(ài)...
關(guān)鍵字:
BSP
汽車(chē)制造
此次發(fā)布標(biāo)志著Cision首次為亞太市場(chǎng)量身定制全方位的媒體監(jiān)測(cè)服務(wù)。 芝加哥2024年8月27日 /美通社/ -- 消費(fèi)者和媒體情報(bào)、互動(dòng)及傳播解決方案的全球領(lǐng)導(dǎo)者Cis...
關(guān)鍵字:
CIS
IO
SI
BSP
上海2024年8月27日 /美通社/ -- 近來(lái),具有強(qiáng)大學(xué)習(xí)、理解和多模態(tài)處理能力的大模型迅猛發(fā)展,正在給人類(lèi)的生產(chǎn)、生活帶來(lái)革命性的變化。在這一變革浪潮中,物聯(lián)網(wǎng)成為了大模型技術(shù)發(fā)揮作用的重要陣地。 作為全球領(lǐng)先的...
關(guān)鍵字:
模型
移遠(yuǎn)通信
BSP
高通
北京2024年8月27日 /美通社/ -- 高途教育科技公司(紐約證券交易所股票代碼:GOTU)("高途"或"公司"),一家技術(shù)驅(qū)動(dòng)的在線直播大班培訓(xùn)機(jī)構(gòu),今日發(fā)布截至2024年6月30日第二季度未經(jīng)審計(jì)財(cái)務(wù)報(bào)告。 2...
關(guān)鍵字:
BSP
電話會(huì)議
COM
TE
8月26日消息,華為公司最近正式啟動(dòng)了“華為AI百校計(jì)劃”,向國(guó)內(nèi)高校提供基于昇騰云服務(wù)的AI計(jì)算資源。
關(guān)鍵字:
華為
12nm
EDA
半導(dǎo)體