人工智能(AI)、深度學習和自然語言處理將成為新一代流媒體行業(yè)的關鍵技術。從生產到消費的各個階段,它們都將產生非常重大的影響。毫無疑問,隨著人工智能在許多不同行業(yè)的逐步深入,它也將被更廣泛地應用于流媒體領域。
近年來,一些公司已經取得了重要的進展,包括Google云視頻智能API,Conviva的視頻智能架構,NVIDIA DLA和IBM Watson技術。所有這些技術都在不同程度上部署了AI,尤其是在云計算領域。另外,我們很快也會看到AI被應用于流媒體的其他方面。
人工智能可以用來取代很多人力資源,甚至可以執(zhí)行繁瑣、重復和耗時的任務,比如工作量巨大的內容和數據管理。目前,人工智能被用于視頻分析處理、網絡和技術故障診斷以及廣告推廣等很多方面。當然,還存在很多尚未開發(fā)的潛在用途。
智能跟蹤攝像機目前市場上,有一些運動跟蹤攝像機系統(tǒng)可以自動跟蹤移動的物體,但它們都必須在被跟蹤物體上安放發(fā)射器或者傳感器,而人工智能的出現將會很好地解決這一問題。無需額外的傳感器,人工智能也能實現在不同場合跟蹤拍攝演講者,運動員,或者藝人等移動目標。
其中,深度學習算法將會被用來分析視頻,判斷人的行為以及周圍環(huán)境,從而使目標完美地出現在鏡頭中?,F在來說,這項技術已經使無人機可以非常準確地追蹤運動員沖刺的場景。如圖1 所示,展示的是全自動體育運動追蹤無人機AirDog。
圖1 AirDog全自動體育運動追蹤無人機[1]
視頻幀合成視頻的生成與數學之間有著緊密的聯系。視頻成像的關鍵因素——幀率、焦距、光圈和構圖是基于比例的,了解它們背后的數學知識將會有很大的幫助。比如,“黃金比例”可以用于深度學習的視覺感知算法。因此,人工智能相機能夠自動捕捉最美觀的視頻圖像,而不是由人來手動完成。近年來,生成對抗式網絡(GAN)的出現,實現了生成質量極高、以假亂真的圖像[2]。如圖2所示,是NVIDIA的最新成果——GAN生成的高分辨率1024×1024圖像。
除了生成高質量的圖像,人工智能也給視頻幀合成帶來了驚人的效果。例如ICLR 2016的論文[3],通過生成對抗式網絡,成功實現了視頻的預測。同樣地,在超幀率技術方面,深度學習算法已經超過了傳統(tǒng)的插幀算法,有效地提升了視頻質量。傳統(tǒng)算法上,超幀率往往是運用運動補償技術,首先估計出運動矢量,然后通過補償插值來生成中間幀,從而提高視頻的幀率。但是,生成視頻幀的質量受到運動矢量準確度的極大影響。而最新出現在ICCV 2017中的論文[4],采用端對端式的深度卷積神經網絡,將預測運動信息和補償插幀這兩個步驟合為一體,直接生成了中間幀,如圖3所示。由此看來,人工智能正在逐步改進、優(yōu)化、甚至超越傳統(tǒng)的視頻處理算法。
實時視頻切換深度學習算法能夠實現自動處理和生成視頻,這也將有助于將AI引入實時視頻切換。智能視頻軟件將通過分析面部表情、手勢、衣服、身體、顏色和其他成像數據,選擇最佳的相機鏡頭或角度,從而更好的跟蹤拍攝整個事件。通過分析視頻內容,將會確定鏡頭遠近的選擇,關鍵人物和題材的選取,從而自然流暢地進行視頻切換。
這些視頻分析的功能將有助于實現一個完全智能的實時視頻切換系統(tǒng)。在不久的將來,它最終將會取代現場活動技術總監(jiān)的角色。而基于計算機視覺的視頻切換器可以獨立工作在嵌入式系統(tǒng)或設備上,甚至可以利用網絡化的云服務器。
流媒體碼率自適應傳統(tǒng)的流媒體碼率自適應方法面臨著兩大難題:復雜多變的網絡環(huán)境和QoE指標。而在今年的SIGCOMM上,MIT CSAIL的一支研究團隊提出了基于神經網絡優(yōu)化碼率的自適應算法Pensieve[5],用來提高媒體傳輸質量。
文章結果表明,與傳統(tǒng)方法相比,Pensieve能平均提升QoE高達12%-25%。雖然該模型還比較簡單,但給我們開辟了一個新的思路,可以將深度學習的方法用于流媒體傳輸優(yōu)化上。由此可見,深度學習將會給傳統(tǒng)的流媒體技術帶來巨大的變革。
音頻分析自然語言處理(NLP)能夠為會議、講座或者其他場合提供自動的現場轉錄、翻譯、口譯、字幕以及音頻描述技術。這將給很多跨國企業(yè),甚至是政府部門在發(fā)布會或者其他交流場合提供多語言的技術支持。
另外,自然語言處理可以實現社交媒體監(jiān)控。通過監(jiān)控在線對話和情緒分析,可以實時跟蹤觀眾反應。這將有助于商家及時調整內容,從而滿足觀眾的喜好。同時,自然語言算法將會從數據中捕獲重要話題和關鍵詞,然后通過編譯截屏和高亮剪輯等方式達到營銷的目的,也可自動上傳到社交媒體上。而在網絡直播領域,音頻檢測也可以起到督查監(jiān)控的作用。通過自然語言算法,可以自動分析檢測音頻內容,從而實時監(jiān)控直播狀態(tài),及時關閉低俗內容。
視頻分析和數據提取隨著越來越多的公司參與到流媒體服務中,視頻生成的數據量正以指數級增長。從這些數據中獲得的信息將會遠遠超過人類手動提取的信息。人工智能將通過對視頻的分析處理,生成標簽、類別和描述,自動提取視頻中的數據。這將有利于視頻內容的分析、理解和管理,從而實現智能化的廣告投放等業(yè)務。
另外,對于城市的交通、安保來說,視頻大數據分析承擔了重要的作用。例如阿里云在杭州打造的城市大腦,通過對道路視頻的分析檢測,智能實時地改變紅綠燈的策略,大大改善了交通狀況。而在這個過程中,我們需要在復雜環(huán)境下對人、車、物的多重特征的信息提取,讓計算機“看到”并且“領會”視頻中的信息,這將是人工智能給我們帶來的巨大改變。
總結對于流媒體行業(yè)來說,人工智能將會是一個十分強大的工具。目前,在流媒體服務中人工智能的作用初步得到體現,還有很大的空間值得我們去開發(fā)。從以上談及的一些例子中我們可以看出,人工智能可以大幅提升流媒體服務的吸引力和效率,同時也大大節(jié)省了從生產到發(fā)布各個環(huán)節(jié)的成本。人工智能將推動內容所有者,媒體生產商和廣告商進入一個新的時代,創(chuàng)造出智能而優(yōu)質的視頻內容。