搜狗機(jī)翻團(tuán)隊(duì)獲雙向冠軍,搜狗人工智能布局大解讀
8月初,搜狗CEO王小川的一封內(nèi)部郵件講到,搜狗即將赴美IPO,也將搜狗帶到了互聯(lián)網(wǎng)圈議論的焦點(diǎn)。
而近期搜狗語(yǔ)音交互中心機(jī)器翻譯團(tuán)隊(duì)也取得了優(yōu)異的成績(jī),在國(guó)際頂級(jí)機(jī)器翻譯比賽WMT(Workshop on Machine Translation) 2017種獲得人工評(píng)測(cè)的中英和英中機(jī)器翻譯比賽雙向冠軍。
(WMT機(jī)器翻譯比賽得分表,第一個(gè)即為搜狗團(tuán)隊(duì)的機(jī)器翻譯系統(tǒng))
WMT是機(jī)器翻譯領(lǐng)域的國(guó)際頂級(jí)評(píng)測(cè)比賽之一,從2006年開(kāi)始到現(xiàn)在一共舉辦了12屆機(jī)器翻譯比賽。它由國(guó)際機(jī)器翻譯研討會(huì)面向新聞?lì)I(lǐng)域,提供統(tǒng)一數(shù)據(jù)集,采取機(jī)器測(cè)評(píng)和人工評(píng)分兩種測(cè)評(píng)方式,并將結(jié)果以競(jìng)賽的形式呈現(xiàn)。作為今年新聞機(jī)器翻譯任務(wù)的7個(gè)語(yǔ)言之一,中譯英、英譯中是今年新增的兩個(gè)方向,訓(xùn)練數(shù)據(jù)為800萬(wàn)~900萬(wàn)。共有20支團(tuán)隊(duì)提交了中譯英翻譯系統(tǒng)、15支團(tuán)隊(duì)提交了英譯中翻譯系統(tǒng),參賽團(tuán)隊(duì)包括美國(guó)約翰霍普金斯大學(xué)、美國(guó)空軍研究實(shí)驗(yàn)室、加拿大國(guó)家研究院、(英)愛(ài)丁堡大學(xué)、中國(guó)中科院計(jì)算所、廈門大學(xué)等。
搜狗機(jī)器翻譯團(tuán)隊(duì)的獲獎(jiǎng)代表搜狗在人工智能方面的最新進(jìn)展,而王小川此前也曾提到今年是搜狗人工智能技術(shù)從前沿科技到走向?qū)嵱玫闹匾荒辍D敲此压非把丶夹g(shù)應(yīng)用到了哪些領(lǐng)域?在語(yǔ)音交互大入口下又有哪些布局?
智東西同搜狗語(yǔ)音交互中心技術(shù)總監(jiān)陳偉以及機(jī)器翻譯技術(shù)負(fù)責(zé)人王宇光展開(kāi)對(duì)話,看看這家靠輸入法而知名的公司在人工智能中有哪些新進(jìn)展。
組建機(jī)器翻譯團(tuán)隊(duì)實(shí)現(xiàn)跨語(yǔ)言交流
搜狗的核心主要包括兩個(gè)事業(yè)部,一個(gè)是桌面事業(yè)部,一個(gè)是搜索事業(yè)部。陳偉和王宇光所在的語(yǔ)音交互中心則在桌面事業(yè)部下面,而搜狗語(yǔ)音交互中心也是搜狗人工智能技術(shù)的代表。
恰逢搜狗在2012年成立語(yǔ)音識(shí)別團(tuán)隊(duì),陳偉便加入了搜狗,而其在博士期間主攻的就是語(yǔ)音識(shí)別。目前圍繞語(yǔ)音和輸入法的結(jié)合,搜狗輸入法一天的語(yǔ)音識(shí)別請(qǐng)求已高達(dá)3億次,是國(guó)內(nèi)最大的語(yǔ)音單品APP,也顯示了搜狗在語(yǔ)音識(shí)別方面的進(jìn)展。
除了語(yǔ)音識(shí)別之外,圍繞搜狗的人工智能戰(zhàn)略,語(yǔ)音交互中心開(kāi)始做自然交互。語(yǔ)音技術(shù)部圍繞自然交互,逐漸轉(zhuǎn)移到多模態(tài)輸入上(人機(jī)交互中讓機(jī)器理解人的信息,包括語(yǔ)音、文本、圖像等方式)。除了語(yǔ)音識(shí)別外,語(yǔ)音技術(shù)部還做了語(yǔ)音合成、聲紋識(shí)別、語(yǔ)音分析(語(yǔ)種)等技術(shù)研究,隨著從近場(chǎng)的手機(jī)向遠(yuǎn)場(chǎng)的電視、音箱發(fā)展,該部門也具有了自己的麥克風(fēng)陣列的硬件能力,形成了較為閉環(huán)的語(yǔ)音能力。
在這個(gè)基礎(chǔ)上,作為一款人與人交流、表達(dá)信息的輸入法產(chǎn)品,搜狗希望用戶能夠幫用戶實(shí)現(xiàn)跨語(yǔ)言交流,因此就做了機(jī)器翻譯,以及基于語(yǔ)音識(shí)別和機(jī)器翻譯做了搜狗機(jī)器的同聲傳譯。
此外,圍繞自然交互,語(yǔ)音技術(shù)部也在做手寫(xiě)和圖像方面的研究,語(yǔ)音+圖像+文本的能力都已具備,在加上語(yǔ)義理解團(tuán)隊(duì),就是一個(gè)完整的知音引擎。未來(lái),搜狗知音也將會(huì)成為一個(gè)開(kāi)放平臺(tái),輸出一整套軟硬件相結(jié)合的語(yǔ)音交互方案,并將逐漸把搜狗知音OS的能力標(biāo)準(zhǔn)化,輸出到最適合的場(chǎng)景。
依托數(shù)據(jù)優(yōu)勢(shì)構(gòu)建機(jī)器翻譯技術(shù)壁壘
而本次WMT比賽中獲獎(jiǎng)的機(jī)器翻譯團(tuán)隊(duì)也在語(yǔ)音技術(shù)部下。隨著2014年機(jī)器翻譯從SMT(統(tǒng)計(jì)機(jī)器翻譯)往NMT(神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯)遷移,搜狗語(yǔ)音技術(shù)部門便做基于神經(jīng)網(wǎng)絡(luò)技術(shù)的機(jī)器翻譯,并在2016年成立機(jī)器翻譯團(tuán)隊(duì)。
機(jī)器翻譯團(tuán)隊(duì)從一開(kāi)始就發(fā)力神經(jīng)機(jī)器翻譯技術(shù),用了不到半年的時(shí)間把技術(shù)打磨好,使用在搜狗輸入法上,輸入法中的語(yǔ)音翻譯和文本翻譯上線以來(lái)日均請(qǐng)求量已達(dá)200萬(wàn)次。之后在去年11月份世界互聯(lián)網(wǎng)大會(huì)上,語(yǔ)音技術(shù)部便將已有的語(yǔ)音技術(shù)和機(jī)器翻譯技術(shù)相結(jié)合,推出了機(jī)器同傳技術(shù),目前已經(jīng)在多場(chǎng)重要會(huì)議場(chǎng)中使用。
以中英文的機(jī)器同傳為例,它大致需要將搜集來(lái)的中文語(yǔ)音信息經(jīng)過(guò)語(yǔ)音斷句,獲得小的語(yǔ)音片段,然后會(huì)送到語(yǔ)音識(shí)別中獲得文本,此時(shí)需要對(duì)文本進(jìn)行一些順滑處理,將這個(gè)經(jīng)過(guò)語(yǔ)音識(shí)別后的處理文本送到端到端的神經(jīng)網(wǎng)絡(luò)(目前機(jī)器翻譯的主流方法),通過(guò)翻譯器進(jìn)行語(yǔ)音翻譯。
在機(jī)器翻譯中,各家公司使用的算法類型基本是一樣的,但是同樣的數(shù)據(jù)效果卻相差很多。對(duì)于搜狗來(lái)講,重要的問(wèn)題有兩個(gè),一個(gè)是怎么用好數(shù)據(jù)(比如單語(yǔ)數(shù)據(jù)),另一個(gè)是找到最合適的數(shù)據(jù)(甄選數(shù)據(jù))。此外,搜狗機(jī)器翻譯團(tuán)隊(duì)也在針對(duì)翻譯里面的實(shí)體進(jìn)行優(yōu)化,包括多翻漏翻、數(shù)字等細(xì)節(jié)問(wèn)題。
那么剛剛成立1年多的機(jī)器翻譯團(tuán)隊(duì),相比其他機(jī)器翻譯團(tuán)隊(duì)、或者科大訊飛,搜狗的優(yōu)勢(shì)何在?智東西了解到,一方面是人才,搜狗主做機(jī)器翻譯的員工經(jīng)驗(yàn)大都在5年以上;第二,語(yǔ)音識(shí)別中有許多經(jīng)驗(yàn)可以借鑒,依托于之前語(yǔ)音團(tuán)隊(duì)的技術(shù)優(yōu)勢(shì),對(duì)機(jī)器翻譯幫助也很大;第三,搜狗在輸入法的場(chǎng)景下面積累大量的用戶數(shù)據(jù),可以快速把數(shù)據(jù)壁壘做起來(lái),而算法是很難形成壁壘的。
2012年之后,原有統(tǒng)計(jì)機(jī)器翻譯上的技術(shù)框架逐漸被推倒,需要從新布局新的技術(shù)框架。再加上搜狗有國(guó)內(nèi)最大的輸入法,在這方面積累的語(yǔ)音數(shù)據(jù)量比科大訊飛還要多。難怪陳偉稱搜狗在機(jī)器翻譯方面與科大訊飛是持平的或是有優(yōu)勢(shì)的。
就機(jī)器同傳而言,目前搜狗的語(yǔ)音識(shí)別率已達(dá)97%,而機(jī)器翻譯的準(zhǔn)確率則要略低一些,這也是業(yè)界的難題。機(jī)器翻譯最難的部分在于盲傳,翻譯本身是嚴(yán)重依賴上下文的,而機(jī)器翻譯卻沒(méi)有任何背景知識(shí)。此外機(jī)器同傳也要盡可能的做到低延遲,搜狗在這方面已經(jīng)把延遲控制在2、3秒以內(nèi)。
而搜狗機(jī)器同傳接下來(lái)的發(fā)展,一方面需要保證穩(wěn)定的語(yǔ)音識(shí)別率,比如噪音場(chǎng)景下;另一方面是機(jī)器翻譯如何能更好的找到一個(gè)完整的語(yǔ)譯邊界。同傳系統(tǒng)最核心的就是建立一個(gè)連接語(yǔ)音識(shí)別和機(jī)器翻譯文本的處理系統(tǒng),這個(gè)處理系統(tǒng)可以接收語(yǔ)音識(shí)別的結(jié)果,去做容錯(cuò)。此外,就是如何處理更多口語(yǔ)化的表達(dá),如“這個(gè)”、“那個(gè)”,以及如何斷句問(wèn)題,確保翻譯出來(lái)的是一個(gè)完成的語(yǔ)義句子。當(dāng)這些問(wèn)題都解決的時(shí)候,機(jī)器同傳的效果才會(huì)提升很多。
結(jié)語(yǔ):搜狗語(yǔ)音交互入口下的布局
機(jī)器翻譯是搜狗重點(diǎn)布局的一個(gè)方向,也是一個(gè)差異化的優(yōu)勢(shì)所在。但搜狗的人工智能并未止步于此,圍繞著語(yǔ)音交互入口,搜狗在更多領(lǐng)域,甚至在智能硬件方面都會(huì)有進(jìn)一步的進(jìn)展。目前搜狗技術(shù)落地的產(chǎn)品主要包括搜狗輸入法、搜狗同傳、搜狗聽(tīng)寫(xiě)等產(chǎn)品。
在2014年前后,搜狗也做過(guò)手機(jī)中的語(yǔ)音助手APP,但后來(lái)項(xiàng)目被停滯。搜狗也從中獲取經(jīng)驗(yàn),“一個(gè)產(chǎn)品做的好不好,要看你的產(chǎn)品邊界定的清不清楚,技術(shù)能力能不能達(dá)到產(chǎn)品需求”。在這種情況下,搜狗將深耕車載和家居兩個(gè)方向的語(yǔ)音交互。
目前搜狗在和四維圖新做車載設(shè)備中的人機(jī)交互,跟小米電視、創(chuàng)維電視等合作打磨語(yǔ)音交互技術(shù),預(yù)計(jì)未來(lái)將會(huì)有更多打造搜狗語(yǔ)音技術(shù)的智能硬件產(chǎn)品發(fā)布。