分享嘉賓:劉祁躍 愛奇藝 科學家
編輯整理:龔云荷
出品平臺:DataFunTalk
第一個是視頻質量,比如是否清晰、鏡頭是否晃動、是否有無意義的內容,這是基礎的質量問題。
第二個是視頻美學,比如色彩是否優(yōu)美,構圖是否好,光線明暗對比度是否好。
當然,有了質量和美學還不足以說明視頻是否有吸引力,大部分的視頻是靠情節(jié)取勝,也就是靠視頻的內容去吸引人,不管是長視頻的電視劇、電影、動漫,還是橫版短視頻和豎版小視頻,都包含著當前視頻是何人何地發(fā)生何事,由這樣的內容反映精彩度。精彩度是視頻吸引力的第三點,也是最重要的一點。
01
方法及整體框架
這就促使我們去思考,如何分析內容的精彩度,這里有幾個維度:第一,內容標簽,比如打斗等偏感官層面的信息或者是浪漫等偏高層語義方面的信息,這需要理解視頻內容。第二方面是程度等級,比如說打斗,如果是武林高手之間的對決,相比于我們普通人之間打斗會更精彩,所以需要一個分級打分機制。還有一些信息影響到用戶對視頻的喜好,比如對明星、IP、劇集等的喜愛,都會影響用戶對其精彩度的判斷。前面這3點是人們對于視頻精彩度的一個理性分析,但實際上精彩度還是較主觀的看法,同一個視頻,有些人覺得精彩,有些人則不覺得。一些上映之后成為收視率“黑馬”的作品,在上映之前,人們沒有預期到其足夠精彩,上線之后,卻成為爆款,這體現了對精彩度主觀判斷的局限性,因此我們也要考慮視頻上線后的用戶反饋。比如用戶的播放、彈幕等行為,有些視頻片段用戶會反復播放,另一些則會被跳過。我們希望通過以上幾個方面,構建對于精彩度的認知。
2. 精彩度分析整體技術框架
由此,我們形成如圖的精彩度分析方案,該方案的適用對象較廣泛,不管是對完整的劇集,還是簡短的花絮,都可以適用,我們這里聚焦于對電影電視劇的片段做分析。影視劇的整體精彩度比較宏觀,受參演明星,改編的小說等已知因素的影響,所以通過算法對整體做精彩度分析收益相對較小。當下我們更關注,對長視頻局部剪輯片段的打分。精彩的局部片段的識別,有助于啟發(fā)創(chuàng)作者對于局部精彩視頻的思考,有利于后續(xù)創(chuàng)作的提升。同時,精彩片段的識別,有助于二次傳播、碎片化時間的消費,以及廣告的投放等。如框圖所示,我們輸入的是視頻片段,然后進行多模態(tài)的視頻特征提取,接下來分兩步,一個是基于GCN的弱監(jiān)督模型,另一個是基于多任務學習的監(jiān)督模型。
視頻精彩度分析算法
1. 精彩度監(jiān)督模型
對于精彩度的監(jiān)督模型,首先需要標注人員對視頻精彩度進行打分。考慮到數據的復雜性,會充分利用多模態(tài)和時序關系去提取信息。操作中會有一些具體技巧,比如由于其標注主觀性比較強,會進行噪聲建模,從回歸分數變成一個擬合分布。另外,評分和標簽是高度相關性的,因此可以通過多模型、多任務學習的方式來進行。
2. 不同模型提取特征性能對比
這張圖顯示了采用不同的模型提取特征,對最終精彩度輸出的影響。最初的方法是針對圖片信息采取2D的CNN,再去對幀級別feature進行融合;接著考慮由時序上的3D卷積模型來提特征;然后嘗試根據預訓練模型來進行微調;再利用視覺+音頻的多模態(tài)的信息進一步提升。
3.?精彩度分數預測
監(jiān)督模型的一個分支是精彩度分數預測。對于精彩度分數,會先做人工標注,但是因為主觀性偏向非常強,所以噪聲較大,可信度并不高。當標注為某一個分數,那它很大概率會是以這個分數為均值的正態(tài)或偏正態(tài)分布。比如標注分數是六分,那該視頻可能很大的概率是六分,但也可能會小一些的概率是五分或七分。為減少噪聲影響,會對噪聲做一個建模,直觀的假設,將標注的分數看做一個正態(tài)分布的均值。為了滿足概率積分的要求,實際上設計了一個偏正態(tài)分布。分布的方差通過理論分析+實驗,來確定一個比較合適的值。有了這個分布,對于分數的回歸,可以變成一個類似分類的任務,對于每一個離散值給出一個概率,這樣得到對分布的預測,從而加權得到最終預測的分數。采取該策略后,我們發(fā)現對于噪聲比較大的主觀性標注任務還是有意義的,其它一些圖片回歸任務我們也用了類似方法,取得了不錯的效果。
4. 看點多標簽模型
接下來看第二點,關于視頻內容的看點多標簽。比如像打斗、爆炸,都是比較有意思的標簽,可能是會吸引人的。對于不同類型的視頻,看點的標簽是不一樣的。比如說對于偶像片來說,浪漫的標簽可能非常有吸引力;對于動作片來說,可能飆車、打斗、槍戰(zhàn)等很有吸引力。多標簽模型,在近幾年各領域都廣泛關注,包括短視頻標簽、圖片多標簽、文本多標簽等。多標簽的難點,是如何對同樣的信息去生成不同的標簽,針對這個問題會有三個方案。第一種是利用信息不同區(qū)域對應不同的標簽,可以類比目標檢測。即劃分圖像的不同區(qū)域,用其本身及周邊的信息,去預測該區(qū)域的一個標簽。那第二個是層次的關系,比如從畫面視覺內容來說,一男一女在西餐廳吃燭光晚餐,則需要進行性別識別、場景識別、目標檢測等,同時它是一個浪漫的約會場景,所以還可以推理出上層的標簽。第三個要考慮的點,是標簽之間的依賴關系,有一些標簽很可能經常共同出現,比如說有海灘和陽光。有一些標簽之間不太容易共現,比如手機跟古裝片,可能是互斥關系。當然如果能識別這是一個穿越片,就可認為這兩個標簽共現是比較和諧的。在很多看點多標簽之間,有這種互相依賴的關系,如何去表達標簽的關系有很多方式,比如說CNN和RNN結合,通過RNN去顯示地表達標簽之間的依賴。那其它一些方式,比如通過標簽embedding,希望其去影響分類器,而對于這個embedding,可能會通過圖的拓撲結構,根據相似的鄰域標簽信息來修改embedding,從而讓這個embedding包含標簽之間的關系,再將這個embedding以某種方式去影響分類器。還有一種方式,就是訓練時找到一個嵌入的空間,把ground truth的多標簽投射到嵌入空間,利用多標簽去生成一個feature,同時對于待處理的數據也生成一個feature,要求這兩個feature要盡可能接近,之間的某種距離可以作為loss之一。這樣,嵌入空間的音視頻feature,即表達了多標簽的關系,可以認為是對多標簽的編碼,而后續(xù)的分類過程,就是對多標簽的解碼。
5. 多任務學習模型
評分和看點標簽這兩個模型高度相關,所以用了多任務學習。因為業(yè)務有非常多的需求,各需求之間往往有相關性,經常存在多任務學習的可能性。另外,海量數據下如何節(jié)省資源,也是非?,F實的需求。如果我們通過多任務學習能夠降低資源消耗,更好的體現相關性,甚至還有可能提升指標,那會非常有動力去做多任務學習。我們現在的架構,底層共享網絡,上層建立評分和標簽網絡。訓練策略方面沒有標準化方式,采取一些經驗性的方式,動態(tài)調節(jié)權重,比如根據每一路分支loss下降的情況進行調整,或是動態(tài)分析每路分支的運行情況,修改訓練頻次,保持一致的收斂速度。
6. 弱監(jiān)督模型
接下來我們再看一下,弱監(jiān)督模型這一塊。我們有很多用戶觀影行為數據,是否可用于擬合對分數的標注。比如觀看行為,觀看次數越高,一般也越精彩。但是不同視頻本身熱度不一樣,同一個視頻的不同部分,單純看播放量也不公平,因為很多用戶不會看完整個視頻,一般前面的片段播放量會更高。所以,直接將用戶行為作為精彩度的度量,雖然相對于人工標注的分數更能體現用戶的實際偏好,但還是存在非常多的噪聲。為了減少噪聲影響,要做很多數據預處理,比如盡量避免用區(qū)分度不大的數據。除了關心絕對精彩度,也關心相對大小,即一個視頻中,哪些內容相對其余部分更有吸引力。我們往往會從一個視頻當中,篩選相對精彩的內容,去做二次創(chuàng)作、投放廣告等。在這樣的訴求下,可以采用Ranking思想去設計Loss。因為噪聲較大,會給label計算置信度,比如可以用相似的樣本來做平滑。這里我們還可以利用圖,設計圖卷積過濾高頻信息更新樣本feature,實現更好的聚類,并利用更新后的相近節(jié)點來修改樣本置信度,最終有效提升弱監(jiān)督模型效果。
1. 前情提要
前情提要是精彩度相關的一個應用,運用算法對每一集識別出精彩片段,通過一定策略剪輯。雖然前景提要本身是一個用戶產品,但可以在上面投放廣告,并且處于片頭這個黃金位置,實現了很好的商業(yè)價值。
2. 拆條
第二個應用是長視頻拆條。做一個比較好的拆條,要從長視頻當中選出比較精彩的部分,同時滿足切分方式的合理性??梢苑奖阃斗旁谡緝然蛘呤钦就獾母鞣N渠道上,這樣可利用用戶的碎片化時間,一方面形成對短內容的消費,一方面也能夠起到短帶長的作用。所以要做拆條的話,不僅僅需要對內容本身的理解,也需要對精彩度做分析。
3. 自動生成封面
智能封面圖生成,目前線上的影視劇封面,采用自動生成動態(tài)圖的方式。對視頻中精彩片段進行打分,并需要保證片段的多樣性和代表性。對于圖片也會有精彩度、美學等分析。不管是靜態(tài)封面圖還是動態(tài)封面圖,都可以生成多個,然后去做個性化的分發(fā),并通過線上的反饋來調整生成封面圖的策略。
4. 片段打分
還有一個應用,是直接對片段的精彩度打分,有利于冷啟動階段的分發(fā);也能給創(chuàng)作者提供參考。
總結一下,當大家思考內容平臺的時候,會非常關注內容是否精彩。針對精彩度分析,不只是一個單一的技術,更是一個綜合性的解決策略??赡軙酶鞣N各樣的垂直算法、產品策略,工程策略等,最終形成可行方案。精彩度方案已被廣泛應用,并會從質量和效率兩個方面的提升來做評價。由于精彩度分析任務的特點,如需要用到海量數據、具有較強主觀性、有很多用戶行為數據等,會牽涉到很多技術方向,像弱監(jiān)督、多任務、多標簽、圖等等。此類偏主觀的分析,用戶標準、用戶行為以及先驗的外部信息,這三個維度都非常重要。
后續(xù)的展望,第一方面是在特征提取上,盡量去融合更多的信息,包括文本的信息,比如臺詞、彈幕等。第二個是在模型上,比如怎么通過半監(jiān)督的方式,把有標注和無標注的數據,放到一個統(tǒng)一框架中來。第三點是如何利用各種垂直識別,不管是底層的識別,還是偏上層的推理形成高層語義,需要能把這些信息利用起來,從而知道為什么精彩,作出可解釋的精彩度評價。
嘉賓介紹:
劉祁躍
愛奇藝 |?科學家
特別推薦一個分享架構+算法的優(yōu)質內容,還沒關注的小伙伴,可以長按關注一下:
長按訂閱更多精彩▼
如有收獲,點個在看,誠摯感謝
免責聲明:本文內容由21ic獲得授權后發(fā)布,版權歸原作者所有,本平臺僅提供信息存儲服務。文章僅代表作者個人觀點,不代表本平臺立場,如有問題,請聯系我們,謝謝!