人機(jī)交互的未來——自然語音
隨著技術(shù)的發(fā)展,人機(jī)交互界面在不斷改進(jìn),從最初的命令行、窗口圖形界面再到觸摸屏,人機(jī)交互的方式變得越來越人性化。觸摸屏之后,又會有哪種交互方式帶來新的變革呢?無疑,語音技術(shù)最令人期待,因?yàn)樗侨祟愖钭匀坏慕涣鞣绞?。試想,如果你家的電器設(shè)備都能像你的朋友一樣聽懂你的要求,并按照你的要求作出正確的反應(yīng),那該是多么美妙的體驗(yàn)。時(shí)下,這種語音交互技術(shù)正越來越多地應(yīng)用到我們身邊的電子設(shè)備中。
早在2011年,IBM的超級電腦“沃森”戰(zhàn)勝美國智力問答節(jié)目《危險(xiǎn)邊緣》的兩名冠軍選手,引起極大轟動。從某種程度上說,沃森已經(jīng)可以和人類實(shí)現(xiàn)自如語音交流,這離不開其背后強(qiáng)大的計(jì)算性能。據(jù)介紹,IBM耗費(fèi)數(shù)年才研制出沃森,沃森擁有10組Power 750服務(wù)器,運(yùn)行l(wèi)inux操作系統(tǒng),具有15TB內(nèi)存,2880個(gè)處理器,每秒可進(jìn)行80萬億次運(yùn)算,而其體積有10個(gè)冰箱大小。
圖 IBM沃森參加美國《危險(xiǎn)邊緣》智力問答節(jié)目現(xiàn)場
雖然要實(shí)現(xiàn)像沃森這樣的自如地人機(jī)交互還挑戰(zhàn)重重,但這并沒有阻止語音技術(shù)在特定環(huán)境特定領(lǐng)域的應(yīng)用,尤其是像車載、移動終端這樣的嵌入式設(shè)備中,語音技術(shù)已經(jīng)得到了消費(fèi)者的認(rèn)可。
語音交互在車載設(shè)備和移動終端中發(fā)展迅猛
Strategy Analytics的統(tǒng)計(jì)表明,2012年,中國原始設(shè)備制造商(OEM)所提供的具備語音人機(jī)接口的信息娛樂和車載信息通信系統(tǒng)(telematics)的出貨量達(dá)到300萬臺,并預(yù)期在2018年達(dá)到2000萬臺。在北美和歐洲市場,帶語音交互功能的車載設(shè)備應(yīng)用已很普及。福特SYNC系統(tǒng),即專為手機(jī)和數(shù)字媒體播放器配備的福特車載多媒體通信娛樂系統(tǒng),是目前車載系統(tǒng)中采用語音交互技術(shù)的成功的案例,已經(jīng)廣泛應(yīng)用在福特多個(gè)系列汽車中。搭載SYNC系統(tǒng)后,配合汽車中控臺上的顯示屏,可通過語音控制、兼容并操控便攜式通信/娛樂設(shè)備等方式,讓駕駛者在開車過程中更輕松,便捷地實(shí)現(xiàn)諸如語音撥號、語音播出短信內(nèi)容、語音控制音樂播放等功能。
圖 駕駛者雙手無須離開方向盤,即可操控SYNC系統(tǒng)(福特??怂怪形腟YNC系統(tǒng))
汽車之外,移動互聯(lián)網(wǎng)終端大概是目前最熱衷采用語音交互的另一類產(chǎn)品,自從蘋果率先在其iPhone 4中推出智能語音助理應(yīng)用Siri后,Google公司也在其安卓智能手機(jī)操作系統(tǒng)中推出了Google Now智能語音搜索及問答服務(wù),微軟公司也將語音技術(shù)應(yīng)用于其Windows Phone。現(xiàn)在,幾乎每一家手機(jī)廠商都試圖將語音技術(shù)融于其移動產(chǎn)品、應(yīng)用和服務(wù)中。這其中最主要的一個(gè)原因就是這類終端設(shè)備外型小巧,觸摸輸入很不方便,這種情況下,語音交互就變成了一種非常必要的人機(jī)溝通的補(bǔ)充方式。這一點(diǎn),筆者深有感觸,自從使用安卓手機(jī)后,筆者一度不再發(fā)短信(太麻煩),現(xiàn)在,安裝了一個(gè)訊飛語音輸入法后,又開始和朋友們短信交流了,語音輸入真是又方便又快捷。
圖 訊飛語音輸入法手機(jī)界面
語音交互需要強(qiáng)大的軟硬件技術(shù)支持
雖然語音技術(shù)給我們帶來了極大的樂趣和幫助,但要實(shí)現(xiàn)真正流暢自然的語音交互還需要強(qiáng)大的軟硬件技術(shù)協(xié)作。語音技術(shù)牽涉到語音合成、語音識別、語音評測、自然語言理解等多個(gè)方面,而語言的復(fù)雜性、多樣性都為語音技術(shù)的應(yīng)用帶來多種挑戰(zhàn)。Nuance、科大訊飛、微軟、IBM、Google都在投入力量研發(fā)語音新技術(shù)。其中,作為中文語音技術(shù)的領(lǐng)導(dǎo)者,科大訊飛已占有中文語音技術(shù)市場70%以上市場份額,其訊飛語音云合作伙伴已經(jīng)超過了10000家,訊飛輸入法也是深入人心。Nuance的語音識別平臺在行業(yè)內(nèi)也得到廣泛應(yīng)用,前面提到的福特SYNC系統(tǒng)、蘋果Siri都采用了Nuance的技術(shù)。前不久,微軟宣布研發(fā)出一種新型語音識別技術(shù),這項(xiàng)名為“深度神經(jīng)網(wǎng)絡(luò)”的技術(shù),能夠像人類的大腦一樣處理語言行為,據(jù)稱該技術(shù)比目前的語音識別技術(shù)快2倍。
有了好的語音軟件和算法,還必須要高性能的硬件來支持。相信,隨著語音技術(shù)的發(fā)展和硬件性能的提高,自然語音將為下一代人機(jī)交互帶來新的變革。