【分析】智能硬件帶來(lái)真正的語(yǔ)音時(shí)代
掃描二維碼
隨時(shí)隨地手機(jī)看文章
比爾蓋茨說(shuō)過(guò),人們總是高估一項(xiàng)新技術(shù)在一兩年內(nèi)能夠做到的,卻低估語(yǔ)音在五到十年能做到的,語(yǔ)音就是曾經(jīng)被低估的技術(shù),其潛力正在被激發(fā)出來(lái)。
年底,所有互聯(lián)網(wǎng)行業(yè)大會(huì)都會(huì)有智能硬件的位置,大佬們都在說(shuō),IOT(Internet of Things)時(shí)代來(lái)了。互聯(lián)網(wǎng)巨頭、傳統(tǒng)硬件公司、各色創(chuàng)業(yè)團(tuán)隊(duì),都擠在這個(gè)風(fēng)口等著被吹起來(lái)。除了做產(chǎn)品的,還有一類玩家十分興奮地等著智能硬件火起來(lái):語(yǔ)音技術(shù)團(tuán)隊(duì)。
2014年底,語(yǔ)音行業(yè)新聞不斷:云知聲完成5000萬(wàn)美元A輪融資主攻智能家居,科大訊飛推出自己的語(yǔ)音智能音響硬件,百度語(yǔ)音涉足智能硬件領(lǐng)域……智能硬件正在成就語(yǔ)音,語(yǔ)音也在成就智能硬件。
一、語(yǔ)音交互正在爆發(fā),尤其是智能硬件
智能硬件最熱的門類是可穿戴設(shè)備、智能家居、車聯(lián)網(wǎng)以及智能影音配件。所有這些設(shè)備的共同特點(diǎn)都是沒(méi)有鍵盤鼠標(biāo)、絕大部分沒(méi)有自己的屏幕、幾乎都是與手機(jī)App協(xié)同工作。還有許多智能硬件的使用場(chǎng)景中,雙手并不方便,比如在駕駛過(guò)程中,再比如看電視離屏幕太遠(yuǎn),這時(shí)候必須要有脫離雙手的新型交互模式。正是因?yàn)檫@些原因,語(yǔ)音成為智能硬件最理想的交互方式之一。
具體來(lái)說(shuō),語(yǔ)音識(shí)別可以解決輸入部分,比如通過(guò)語(yǔ)音讓智能手表完成某個(gè)動(dòng)作,發(fā)起一次搜索,再比如通過(guò)語(yǔ)音讓智能音響播放下一首歌曲,讓智能電視播放特定節(jié)目;語(yǔ)音合成可以實(shí)現(xiàn)交互反饋,比如語(yǔ)音播報(bào)搜索結(jié)果,語(yǔ)音播報(bào)導(dǎo)航指令;語(yǔ)義理解則可以解讀聲音背后的需求做出反饋,用戶可以很自然地對(duì)電飯鍋說(shuō),“明天早晨8點(diǎn)幫我煮一碗八寶粥”,智能電飯鍋解讀指令并準(zhǔn)備行動(dòng);聲紋識(shí)別則可以實(shí)現(xiàn)個(gè)人ID鑒權(quán),實(shí)現(xiàn)智能家居的開門、智能購(gòu)物的支付等等。
反過(guò)來(lái),語(yǔ)音技術(shù)雖然已發(fā)展多年卻一直未能走向大眾化。雖然在教育、交通等領(lǐng)域有諸多非常試用的行業(yè)應(yīng)用,但在大眾消費(fèi)市場(chǎng),智能語(yǔ)音交互上卻顯得有些高冷。Siri推出之后,Google Now跟進(jìn)。而在國(guó)內(nèi),百度語(yǔ)音助手等應(yīng)用也先后推出,但它們都未成為一個(gè)高頻、剛需和普及應(yīng)用,更多是用戶打發(fā)無(wú)聊時(shí)間的玩具。智能硬件則有助于語(yǔ)音交互的普及,讓語(yǔ)音成為真正的剛需應(yīng)用。
智能硬件需要語(yǔ)音來(lái)解決所存在的交互短板,最終實(shí)現(xiàn)人與人對(duì)話一樣的自然、簡(jiǎn)單和智能化的交互模式。語(yǔ)音市場(chǎng)也想要抓住正在爆發(fā)的智能硬件市場(chǎng),抓住被用戶大量高頻使用的機(jī)會(huì)。
二、百度切入語(yǔ)音交互:互聯(lián)網(wǎng)巨頭的新玩法
語(yǔ)音市場(chǎng)并不是全新的。美國(guó)有Nuance這類老牌巨頭,中國(guó)有科大訊飛這樣的百億元市值公司以及云知聲、思必馳等后來(lái)者,除了專業(yè)公司之外,Apple、 Google、微軟、百度、搜狗、微信在語(yǔ)音技術(shù)上均有所投入。中國(guó)最近動(dòng)作最大的玩家則是百度。在科大訊飛等語(yǔ)音巨頭深耕10多年的背景之下,百度打算如何玩?
1、完全不同的技術(shù)原理。
傳統(tǒng)語(yǔ)音識(shí)別技術(shù)基于概率論和統(tǒng)計(jì)學(xué),需要人工監(jiān)督。百度語(yǔ)音則是基于深度學(xué)習(xí),以百度大腦為基礎(chǔ),百度大腦是百度在人工智能時(shí)代的核心智能平臺(tái),圖像識(shí)別、自然語(yǔ)言處理,均會(huì)基于百度大腦。百度語(yǔ)音由GPU深度學(xué)習(xí)基礎(chǔ)設(shè)施支撐,不僅更準(zhǔn)確,識(shí)別所需的運(yùn)算更加快速和經(jīng)濟(jì)。除了識(shí)別之外,在語(yǔ)義理解上一直專攻自然語(yǔ)言搜索的百度優(yōu)勢(shì)更是不言而喻。
而百度語(yǔ)音開放平臺(tái)負(fù)責(zé)人張克寧則透露,傳統(tǒng)語(yǔ)音平臺(tái)基于已有技術(shù)已經(jīng)很難再有大的改進(jìn),百度語(yǔ)音基于全新的技術(shù)原理更有機(jī)會(huì)取得突破性進(jìn)展,比如抗噪技術(shù)、響應(yīng)時(shí)間等都有突出表現(xiàn)。今年8月,科大訊飛在百度大腦問(wèn)世之后,對(duì)外正式宣布要推出“超腦計(jì)劃”,以應(yīng)對(duì)以百度大腦為代表的新一波語(yǔ)音技術(shù)浪潮,這個(gè)計(jì)劃要實(shí)現(xiàn)基于類人神經(jīng)網(wǎng)絡(luò)的認(rèn)知智能引擎,而它的推出也在一定程度上驗(yàn)證了傳統(tǒng)語(yǔ)音玩法已慢慢過(guò)時(shí),未來(lái)幾年語(yǔ)音技術(shù)會(huì)有爆發(fā)式的突破。
2、完全不同的平臺(tái)玩法。
任何語(yǔ)音平臺(tái)最終都要比拼合作伙伴數(shù)量,這決定用戶數(shù)量和使用情況。更多人使用語(yǔ)音將能貢獻(xiàn)更多的語(yǔ)料等數(shù)據(jù),幫助語(yǔ)音效果不斷提升。目前,科大訊飛擁有的合作伙伴數(shù)量可能在行業(yè)里位居前列,開發(fā)者也達(dá)到數(shù)萬(wàn)級(jí)別。百度語(yǔ)音平臺(tái)此次正式開放則有著完全不同的思路。
百度語(yǔ)音平臺(tái)與百度的內(nèi)容深度融合,比如百科知識(shí)、地圖路線、問(wèn)答結(jié)果、天氣等中間頁(yè)服務(wù),面向智能硬件還有百度Inside等平臺(tái),百度可以提供多種不同的模板便于開發(fā)者整合,GoogleNow比Siri表現(xiàn)更好正是因?yàn)閮?nèi)容更強(qiáng)。百度語(yǔ)音開放平臺(tái)基于API和離線包,支持混合模式,針對(duì)不同行業(yè)提供不同的模板,而不是為每家企業(yè)量身打造,也不是基于License的軟件包形式,是更加“互聯(lián)網(wǎng)”的開放平臺(tái)。
3、與行業(yè)玩家完全不同的目的。
百度要做智能生態(tài),語(yǔ)音只是開放的一部分,百度還有大數(shù)據(jù)引擎、百度云、百度地圖、百度圖像識(shí)別等多維度API開放出來(lái)。百度語(yǔ)音開放,為的是用戶、流量和數(shù)據(jù),通過(guò)在不同設(shè)備和不同APP中滲透進(jìn)百度語(yǔ)音,夯實(shí)入口。傳統(tǒng)語(yǔ)音玩家就算免費(fèi)提供語(yǔ)音能力,最終還是要通過(guò)增值服務(wù)賺錢。百度語(yǔ)音為的是服務(wù),被百度視作連接服務(wù)的一種方式和必備的能力,傳統(tǒng)語(yǔ)音玩家則是把語(yǔ)音作為自己的看家本領(lǐng)想辦法基于語(yǔ)音衍伸一個(gè)新的生態(tài)實(shí)現(xiàn)盈利。
三、語(yǔ)音未來(lái)走向何方?突破技術(shù)瓶頸成為必備交互手段
盡管智能硬件給語(yǔ)音帶來(lái)新一波機(jī)會(huì),但語(yǔ)音技術(shù)依然存在著不少瓶頸,其中典型的有移動(dòng)網(wǎng)絡(luò)、識(shí)別能力、抗噪能力、遠(yuǎn)場(chǎng)交互、方言識(shí)別還有語(yǔ)義理解。不過(guò)這些瓶頸正在一個(gè)又一個(gè)被攻克,比如4G網(wǎng)絡(luò)普及和離線語(yǔ)音技術(shù)就可以很大程度解決網(wǎng)絡(luò)問(wèn)題,再比如深度語(yǔ)音識(shí)別可以提升語(yǔ)義理解、語(yǔ)音識(shí)別和抗噪能力。在傳統(tǒng)語(yǔ)音巨頭和互聯(lián)網(wǎng)語(yǔ)音玩家的合力之下,這些瓶頸最終都會(huì)消失。
未來(lái),語(yǔ)音交互與人工智能、深度學(xué)習(xí)、云端內(nèi)容深度耦合,語(yǔ)音識(shí)別能力并不是孤立存在的,將語(yǔ)音轉(zhuǎn)化為文字之后,能夠提供什么、能夠做什么,才是關(guān)鍵所在。這就需要與云端內(nèi)容和服務(wù)、與人工智能深度結(jié)合起來(lái)。這樣看來(lái),搜索引擎在做語(yǔ)音上有著得天獨(dú)厚的條件。語(yǔ)音正在成為新的搜索入口,IOT時(shí)代,語(yǔ)音即搜索。
還有一個(gè)趨勢(shì)是,語(yǔ)音會(huì)與不同行業(yè)深度結(jié)合。比如教育行業(yè)的口語(yǔ)評(píng)測(cè)、兒童歌曲、兒童互動(dòng)教育,再比如呼叫中心的語(yǔ)音客服。這都需要對(duì)行業(yè)深厚的理解和足夠定制化的解決方案。科大訊飛這類傳統(tǒng)語(yǔ)音巨頭已經(jīng)在某些行業(yè)深耕,其他的行業(yè)機(jī)會(huì)則留給了開發(fā)者,基于百度、訊飛等公司的語(yǔ)音開放能力,與行業(yè)結(jié)合實(shí)現(xiàn)行業(yè)定制化的語(yǔ)音方案。
值得一提的是,語(yǔ)音并不是萬(wàn)能的,未來(lái)的交互一定是多元化的,文字、圖像、視頻、體感、觸感都不會(huì)消失,不同產(chǎn)品、不同場(chǎng)景,會(huì)有不同的交互訴求。語(yǔ)音雖然很重要,但也只是其中一種。比爾蓋茨說(shuō)過(guò),人們總是高估一項(xiàng)新技術(shù)在一兩年內(nèi)能夠做到的,卻低估語(yǔ)音在五到十年能做到的,語(yǔ)音就是曾經(jīng)被低估的技術(shù),其潛力正在被激發(fā)出來(lái)。