www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當(dāng)前位置:首頁 > 消費電子 > 消費電子
[導(dǎo)讀]你見過蒙娜麗莎動起來的樣子嗎?只要一張照片,就能把靜態(tài)的人物變成動態(tài)的,而且還可以根據(jù)你的表情動起來。要是用在換臉上,恐怕Deepfakes被要拍在沙灘上了。

你見過蒙娜麗莎動起來的樣子嗎?只要一張照片,就能把靜態(tài)的人物變成動態(tài)的,而且還可以根據(jù)你的表情動起來。要是用在換臉上,恐怕Deepfakes被要拍在沙灘上了。

雖然似乎沒有微笑時那么好看,但不得不承認(rèn)的是,動圖看起來確實跟畫中的蒙娜麗莎十分相似。

除了蒙娜麗莎,愛因斯坦和瑪麗蓮·夢露也可以從靜態(tài)圖變成不同表情的動圖。

這是莫斯科三星 AI 研究中心和斯科爾科沃科學(xué)技術(shù)研究院的最新成果。

跟之前的 Deepfake 技術(shù)類似,兩者都是從已有圖片或視頻中提取特征,然后經(jīng)過神經(jīng)網(wǎng)絡(luò)的加工,生成了足可以假亂真的動態(tài)圖像或連貫視頻。

不同的是,Deepfake 需要大量訓(xùn)練和數(shù)據(jù)才能生成假圖像,而這項基于卷積神經(jīng)網(wǎng)絡(luò)和少樣本學(xué)習(xí)的新技術(shù),只需要非常小的數(shù)據(jù)集,甚至只靠一張圖片,就可以生成圖片中主人公的連貫面部動圖,可以是說話的樣子,也可以是其他表情,大大提升了模型的訓(xùn)練效率和廣泛性。

研究人員還展示了 AI 如何從兩張圖片中提取面都特征,之后融合為一張圖片,與之前英偉達(dá)的 StyleGAN 技術(shù)類似。(每刷新它一次,你都將得到一個從未存在過的人)

該研究成果以預(yù)印本論文的形式發(fā)表于 Arxiv 上。

利用少樣本學(xué)習(xí)實現(xiàn) AI 換臉

用 AI 實現(xiàn)換臉和造假人已經(jīng)不是什么新鮮事,幾年前大火的 Deepfake 應(yīng)用和最近的英偉達(dá) StyleGAN 都可以實現(xiàn)。它們還可以繼續(xù)升級和改良,比如結(jié)合 Deepfake 和 GAN,從而獲得更厲害的“造假”效果。

只不過這類技術(shù)都有一個缺點,就是需要針對某人、某物或某類圖片(樣本)進(jìn)行大量訓(xùn)練,才能獲得最佳效果。

于是研究團(tuán)隊希望打造一個“少樣本學(xué)習(xí)(few-shot learning)”模型,在訓(xùn)練完成之后,可以用最少的目標(biāo)圖片,實現(xiàn)對目標(biāo)的模仿,尤其是模擬出目標(biāo)人物說話時的樣子,包括面部表情、眼睛、神態(tài)、臉型和嘴型等變化。

少樣本學(xué)習(xí)是近年深度學(xué)習(xí)領(lǐng)域的熱門研究方向之一,旨在通過預(yù)訓(xùn)練模型獲取先驗知識,改善傳統(tǒng)深度學(xué)習(xí)技術(shù)對海量數(shù)據(jù)的依賴,在數(shù)據(jù)缺失的情況下,還可以保持學(xué)習(xí)效率。

為了實現(xiàn)這一目標(biāo),研究人員采用了元學(xué)習(xí)(meta-learning)方法,讓 AI 具備自學(xué)能力。

換句話說,就是讓 AI 充分利用現(xiàn)有知識,來分析未來任務(wù)的特征,從而學(xué)會“如何學(xué)習(xí)”。比如讓 AI 觀看張三說話時的面部表情,提取動作特征(現(xiàn)有知識),再試著看著李四的臉提取特征(新任務(wù)),然后模擬出李四說話時的面部動作。

建立元學(xué)習(xí)架構(gòu)

他們創(chuàng)建了三套神經(jīng)網(wǎng)絡(luò)來實現(xiàn)元學(xué)習(xí)架構(gòu)。

第一個是嵌入器網(wǎng)絡(luò)(Embedder),負(fù)責(zé)將輸入視頻幀和人物面部特征映射成多維度向量。他們使用了開源的面部特征提取代碼。訓(xùn)練視頻的每一幀都有對應(yīng)的面部特征圖,由不同顏色的線條勾勒出來,里面包含的五官信息與姿勢無關(guān)。

第二個是生成器網(wǎng)絡(luò)(Generator),將嵌入器網(wǎng)絡(luò)沒看過的新特征圖和多維度向量作為輸入值,穿過到多個卷積層,輸出一個合成(視頻)幀——會使用參考視頻幀(ground truth)作為參考。生成器的訓(xùn)練目的是讓合成幀和參考幀盡可能相似,更好地模擬目標(biāo)對象的動態(tài)表情。

最后一個是鑒別器網(wǎng)絡(luò)(Discriminator),負(fù)責(zé)整合和處理原視頻幀、合成視頻幀、對應(yīng)的面部特征圖和訓(xùn)練序列。它通過序列數(shù),判斷合成幀與參考幀是否吻合,有多大差距,以及與面部特征圖是否匹配。根據(jù)匹配程度,網(wǎng)絡(luò)會計算出一個真實性得分,顯示出兩者之間的差別。

研究人員會通過(條件)鑒別器輸出的得分對三個網(wǎng)絡(luò)進(jìn)行整體優(yōu)化,感知和對抗損失函數(shù)都包含其中。

元學(xué)習(xí)模型構(gòu)建完成后,研究人員使用了開源的 VoxCeleb1 和 VoxCeleb2 數(shù)據(jù)集,進(jìn)行訓(xùn)練和測試。前者擁有 10 萬多個視頻樣本,來自 1251 個名人,被用來與基準(zhǔn)模型性能進(jìn)行比較,后者擁有 100 多萬個樣本,來自 6112 個人,用于進(jìn)行預(yù)訓(xùn)練和測試新模型效果。

在小樣本學(xué)習(xí)的前提下,模型需要憑借預(yù)訓(xùn)練的經(jīng)驗,觀看一小段完全沒有見過的一個人的視頻,在每一幀中模仿這個人的面部表情,并與真正的表情對比,得出結(jié)果。AI 可以使用的幀越多(圖片越多),比如從 1 張圖增加到 32 張圖,得到的最終效果就越貼近真實。

雖然從綜合評分來看,模型的準(zhǔn)確度有時不及基準(zhǔn)模型,但這是少樣本方法和模型本身導(dǎo)致的,還有進(jìn)一步的提升空間。而且我們從結(jié)果也能看出,AI 模擬的整體效果還是可以接受的。

除此之外,研究人員還嘗試了靜圖變動圖,也就是我們最開始看到的蒙娜麗莎和愛因斯坦動圖。模型可以在一定程度上模仿出相似的表情,但背景圖案,尤其是有頭發(fā)的地方,偶爾會出現(xiàn)小瑕疵。

不過瑕不掩瑜,這樣一個少樣本對抗網(wǎng)絡(luò)的元學(xué)習(xí)框架,非常適合在沒有大量數(shù)據(jù)的情況下實現(xiàn) AI 換臉。而且還能啟發(fā)類似的后續(xù)研究,在該模型的基礎(chǔ)上改良和創(chuàng)新,比如通過改善面部特征提取過程,讓人物表情模擬更加自然,或者加入眼神凝視等目前無法實現(xiàn)的高難特征提取機(jī)制。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉