媒體生產(chǎn)中的人工智能
人工智能和機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步,使得制造商和廣播公司能夠開發(fā)和實(shí)現(xiàn)更加智能的工具和應(yīng)用,以加速整個(gè)產(chǎn)品的生命周期。對(duì)廣播公司而言,人工智能的吸引力在于其在利用機(jī)器來了解受眾需求,管理數(shù)據(jù),過濾特定主題的內(nèi)容以及生產(chǎn)原創(chuàng)內(nèi)容等方面表現(xiàn)出的高效性。本文將分生成視頻,決定創(chuàng)意,簡(jiǎn)化編輯和優(yōu)化存檔四個(gè)方面介紹人工智能在媒體生產(chǎn)中的應(yīng)用,重點(diǎn)是生成視頻。
視頻摘要好萊塢開始使用人工智能來簡(jiǎn)化預(yù)告片的生成方式?;痉椒ㄊ抢萌斯ぶ悄茏R(shí)別影片中的關(guān)鍵情節(jié)點(diǎn),并根據(jù)已經(jīng)知道的預(yù)告片和觀眾對(duì)這些預(yù)告片的反應(yīng)來生成精簡(jiǎn)的預(yù)告片版本2017年9月,在20世紀(jì)??怂沟目苹每植离娪啊禡organ》的預(yù)告片(https://youtu.be/gJEzuYynaiw)中,人工智能第一次作為一項(xiàng)工具登上了舞臺(tái)?!禡organ》的制片廠使用了IBM的Waston(一臺(tái)擁有人工智能功能的超級(jí)計(jì)算機(jī))來制作電影的預(yù)告片。IBM的研究人員將100個(gè)與《Morgan》同類型的電影預(yù)告片按照“場(chǎng)景”切分,用于訓(xùn)練Waston。Waston從視覺,聽覺和情緒的角度分析數(shù)據(jù),以“學(xué)習(xí)”什么使恐怖電影預(yù)告片更吸引人。當(dāng)系統(tǒng)獲得了對(duì)標(biāo)準(zhǔn)科幻恐怖電影預(yù)告片的“理解”,研究人員將90分鐘的電影《Morgan》交給Waston,Waston立即推薦了10個(gè)“場(chǎng)景”共6分鐘的鏡頭作為預(yù)告片。整個(gè)過程從開始到結(jié)束共花費(fèi)了24小時(shí),相比之下,傳統(tǒng)的電影預(yù)告片開發(fā)過程通常需要幾個(gè)星期。 IBM Waston Media高級(jí)產(chǎn)品經(jīng)理David Kulczar說,“《Morgan》只是一個(gè)試點(diǎn),我們將看到越來越多的接班人向這個(gè)方向前進(jìn)。”IBM Waston在體育界也有過類似的嘗試——通過從多個(gè)角度實(shí)時(shí)分析網(wǎng)球比賽過程中的視頻片段和粉絲的反應(yīng),來生成比賽精彩片段。Kulczar強(qiáng)調(diào),“我們正在朝著自動(dòng)生產(chǎn)和在生產(chǎn)過程中使用人工智能技術(shù)的方向前進(jìn)?!?/p>
國內(nèi)的媒體也在積極嘗試。2017年12月26日,中國第一個(gè)媒體人工智能平臺(tái)“媒體大腦”由新華社正式發(fā)布上線。當(dāng)日上午,中國第一條MGC(機(jī)器產(chǎn)生內(nèi)容)視頻新聞產(chǎn)生,機(jī)器僅耗時(shí)10.3秒,就生產(chǎn)出了一條2分08秒的視頻新聞。MGC新聞,即運(yùn)用人工智能技術(shù),由機(jī)器智能產(chǎn)生的新聞。其生產(chǎn)過程是:首先通過攝像頭、傳感器、無人機(jī)等方式獲取新的視頻、數(shù)據(jù)信息,然后經(jīng)由圖像識(shí)別、視頻識(shí)別等技術(shù)讓機(jī)器進(jìn)行內(nèi)容理解和新聞價(jià)值判斷。依托于大數(shù)據(jù)的“媒體大腦”會(huì)將新理解的內(nèi)容與已有數(shù)據(jù)進(jìn)行關(guān)聯(lián),對(duì)語義進(jìn)行檢索和重排,以智能生產(chǎn)新聞稿件。同時(shí),人工智能還將基于文字稿件和采集的多媒體素材,經(jīng)過視頻編輯、語音合成、數(shù)據(jù)可視化等一系列過程,最終生成一條富媒體新聞。
人臉替換近期大熱的人工智能項(xiàng)目deepfakes,可以實(shí)現(xiàn)給視頻中的人物換臉。如果把明星演的電影,主角的臉換成你的,是一張你的會(huì)動(dòng)會(huì)有表情的臉,是不是會(huì)很有趣?
完成視頻換臉,你需要做的事:
收集照片分別收集需要進(jìn)行替換的兩個(gè)人的圖像,可以使用各種圖片搜索引擎。
從原始照片中提取面部圖像可以使用OpenCV提供的人臉檢測(cè)函數(shù),采用的算法是方向梯度直方圖(Histogramof Oriented Gradient, HOG)。
在照片上訓(xùn)練模型訓(xùn)練模型的一種方法是使用自動(dòng)編碼器(autoencoder),自動(dòng)編碼器的結(jié)構(gòu)如下圖所示:
左半部分是編碼器(Encoder),右半部分是解碼器(Decoder),輸入的數(shù)據(jù)經(jīng)過神經(jīng)網(wǎng)絡(luò)降維到一個(gè)編碼(code),接著又通過另外一個(gè)神經(jīng)網(wǎng)絡(luò)去解碼得到一個(gè)與輸入原數(shù)據(jù)一摸一樣的生成數(shù)據(jù),然后通過去比較這兩個(gè)數(shù)據(jù),最小化他們之間的差異來訓(xùn)練這個(gè)網(wǎng)絡(luò)中解碼器和編碼器的參數(shù)。
Deepfakes需要訓(xùn)練兩個(gè)自動(dòng)編碼器,第一個(gè)自動(dòng)編碼器只與需要被替換的人臉相關(guān)。訓(xùn)練得到編碼器和解碼器A。
第二個(gè)自動(dòng)編碼器只與用來替換的人臉相關(guān),與第一個(gè)自動(dòng)編碼器共享同一個(gè)編碼器,訓(xùn)練得到解碼器B。
使用模型轉(zhuǎn)換原視頻
在原視頻中檢測(cè)出需要替換的人臉,將這些圖片輸入到訓(xùn)練好的編碼器中,用解碼器B解碼,然后替換回原視頻中。
內(nèi)容修改內(nèi)容結(jié)構(gòu)和基于對(duì)象的分析開辟了人工智能協(xié)助實(shí)際內(nèi)容開發(fā)的新途徑。學(xué)習(xí)屏幕上角色的行為,走動(dòng),談話以及所有可能的面部表情的細(xì)節(jié),人工智能系統(tǒng)可以創(chuàng)建出虛擬的表演。華盛頓大學(xué)的研究人員創(chuàng)造了一個(gè)超現(xiàn)實(shí)的巴拉克·奧巴馬發(fā)表的演講,事實(shí)上他并沒有給出過這樣的演講:
http://nationalpost.com/news/world/ai-creates-hyper-realisTIc-video-of-barack-obama-delivering-a-speech-he-never-gave。
這個(gè)演講中的部分內(nèi)容,是來自奧巴馬的其它演講,結(jié)果是奧巴馬在西區(qū)演講的視頻,包含了許多他在其它場(chǎng)合發(fā)表的言論,甚至還有奧巴馬模仿者的話語。
其基本流程如下圖所示:
基于訓(xùn)練好的循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks, RNN)將輸入的音頻轉(zhuǎn)化為一段嘴型序列
合成嘴部紋理 增強(qiáng)紋理細(xì)節(jié)和牙齒將嘴型與真實(shí)視頻中的臉部混合并且匹配頭部動(dòng)作
該技術(shù)引起了一些令人不安的可能性,但研究人員表示,目前為止使用這種技術(shù)發(fā)表的任何虛假言論都相對(duì)容易被發(fā)現(xiàn),甚至可以使用相同的技術(shù)對(duì)其他視頻進(jìn)行逆向工程,以確定它們是否是假的。
人工智能在內(nèi)容創(chuàng)造的領(lǐng)域還只是邁出了一小步。生產(chǎn)過程中仍然存在許多方面可以從人工智能獲益。
決定創(chuàng)意制造商使用神經(jīng)網(wǎng)絡(luò)來綜合多種復(fù)雜因素,以確定哪種類型的內(nèi)容值得生產(chǎn)。例如,如果你知道你的電視劇視頻具有最高的瀏覽量,通常情況下,你可能傾向于制作更多的電視劇視頻。但是,如果考慮到其他因素(如生產(chǎn)成本,人才成本,權(quán)利和許可,受眾參與,社交傳播,聯(lián)合機(jī)會(huì)等),你可能會(huì)發(fā)現(xiàn)喜劇視頻往往具有較高的投資回報(bào)率。人工智能是推動(dòng)這些深度計(jì)算的引擎。
2016年3月日本廣告公司MaCann Erickson推出了名為AI-CD ?的人工智能創(chuàng)意總監(jiān)。驅(qū)動(dòng)這個(gè)人工智能創(chuàng)意總監(jiān)的機(jī)器學(xué)習(xí)算法的訓(xùn)練數(shù)據(jù)包括電視節(jié)目以及近十年日本電視節(jié)獲獎(jiǎng)作品的詳細(xì)信息。通過數(shù)據(jù)挖掘,系統(tǒng)可以提取適合特定客戶的廣告創(chuàng)意和主題。
2016年9月,AI-CD ?與MaCannErickson創(chuàng)意總監(jiān)Mitsuru Kuramoto進(jìn)行了一場(chǎng)友誼賽,為一個(gè)薄荷糖品牌制作廣告,廣告最終由民意測(cè)驗(yàn)來評(píng)判。雖然最終AI-CD ?以46%:54%惜敗Mitsuru Kuramoto。但是這個(gè)嘗試顯示了人工智能在廣告制作上的前景。
簡(jiǎn)化編輯使用傳統(tǒng)的方法,基于數(shù)小時(shí)的原始鏡頭來制作紀(jì)錄片,通過手動(dòng)排序和捕獲某素材的相關(guān)信息將耗費(fèi)數(shù)周時(shí)間,更不用說匯總相關(guān)的片段進(jìn)行編輯了。使用人工智能,可以通過兩種方式消除大部分的時(shí)間:(1)通過面部,對(duì)象和文本識(shí)別自動(dòng)捕獲大量的元數(shù)據(jù);(2)通過優(yōu)化搜索,快速找到內(nèi)容池中的關(guān)鍵幀。這樣,當(dāng)編輯需要特定幀的時(shí)候,可以使用人工智能更快地找到它。
優(yōu)化存檔假設(shè)你在素材上花了很多錢,想從中獲得最大的收益。人工智能可以通過強(qiáng)大的元數(shù)據(jù)捕獲技術(shù)對(duì)現(xiàn)有內(nèi)容進(jìn)行索引,你會(huì)發(fā)現(xiàn)現(xiàn)有的存檔內(nèi)容可以更容易地重新調(diào)整以供將來使用。例如,在一個(gè)已經(jīng)購買的素材包內(nèi)找到相關(guān)的視頻片段來補(bǔ)充一場(chǎng)直播可以在幾分鐘內(nèi)完成而不是幾個(gè)小時(shí)。目前Ooyala Flex與Microsoft Video Indexer在這一領(lǐng)域有密切的合作,希望使用這項(xiàng)技術(shù)幫助發(fā)行商克服傳統(tǒng)方法繁瑣的缺點(diǎn)。
總結(jié)對(duì)于人工智能現(xiàn)在以及將來會(huì)給媒體生產(chǎn)帶來的影響,Valossa首席執(zhí)行官兼首席技術(shù)官M(fèi)ika RauTIainen表示,不斷變化的媒體形式以及對(duì)消費(fèi)和創(chuàng)造的挑戰(zhàn)意味著視頻需要更快速地生成,并且通過多平臺(tái)以不同的格式提供?!八羞@些都需要?jiǎng)?chuàng)建,制作,交付和管理錄制的視頻材料的更高效的流程。。. AI可以得到有效的培訓(xùn),以簡(jiǎn)化最耗時(shí)和重復(fù)的流程”。