谷歌AI可精準(zhǔn)識(shí)別唇語(yǔ)
目前,人工智能的語(yǔ)言識(shí)別能力已經(jīng)有了飛躍。就像谷歌DeepMind,它的唇語(yǔ)識(shí)別”能力已經(jīng)超越人類,這項(xiàng)技能未來(lái)可幫助聽(tīng)力障礙人士與他人進(jìn)行溝通。
谷歌通過(guò)測(cè)試發(fā)現(xiàn),AI在語(yǔ)言理解能力方面又有了進(jìn)步,可以更準(zhǔn)確的讀懂唇語(yǔ)。同時(shí),多語(yǔ)言神經(jīng)機(jī)器翻譯的翻譯質(zhì)量也有了顯著的提高。
谷歌母公司Alphabet下屬的DeepMind部門(mén)和牛津大學(xué)的研究者使用新聞視頻對(duì)其AI系統(tǒng)進(jìn)行訓(xùn)練。用于訓(xùn)練的視頻總長(zhǎng)超過(guò)5000小時(shí),語(yǔ)句超過(guò)118,000句。視頻取材自BBC電視臺(tái)自2010年至2015年間播出的節(jié)目。訓(xùn)練完畢后,研究人員使用該系統(tǒng)對(duì)2016年3月~9月間播出的口語(yǔ)節(jié)目進(jìn)行測(cè)試。測(cè)試結(jié)果發(fā)現(xiàn),系統(tǒng)通過(guò)“觀看”說(shuō)話者嘴部動(dòng)作便可以準(zhǔn)確識(shí)別出整個(gè)句子。比如“我們知道這里也會(huì)有數(shù)百位記者”。(We know there will be hundreds of journalists here as well)
給予相同的視頻素材,專業(yè)的唇語(yǔ)識(shí)別專家能夠達(dá)到12.4%的正確率。而AI系統(tǒng)識(shí)別正確率是46.8%。
前不久谷歌開(kāi)始在“谷歌翻譯”中運(yùn)用神經(jīng)機(jī)器翻譯技術(shù),能夠識(shí)別準(zhǔn)確地識(shí)別句子而不再僅僅是單詞翻譯?,F(xiàn)在谷歌宣稱使用多語(yǔ)言神經(jīng)機(jī)器翻譯技術(shù)后,谷歌翻譯的翻譯效果將再上一層樓。
谷歌在博客中稱:“我們提出的結(jié)構(gòu)無(wú)需改變基本的GNMT系統(tǒng),而是在開(kāi)頭使用一個(gè)額外的‘token’來(lái)指定所需的目標(biāo)語(yǔ)言翻譯。”除了能夠提高翻譯質(zhì)量,新的方法還支持“Zero-Shot Translation”,即在沒(méi)有已知數(shù)據(jù)的情況下,能夠?qū)](méi)有見(jiàn)過(guò)的語(yǔ)言進(jìn)行翻譯。
雖然這些研究成果產(chǎn)生實(shí)際影響還有待時(shí)日,但不得不說(shuō)這些技術(shù)創(chuàng)舉讓人十分印象深刻。