智能聲學(xué)創(chuàng)新技術(shù)將開啟語音智能交互的新時(shí)代
掃描二維碼
隨時(shí)隨地手機(jī)看文章
(文章來源:新浪VR)
語音交互為本能表達(dá),帶來全新體驗(yàn)。早期的人機(jī)交互主要利用鍵盤,如打字機(jī)和DOS 系統(tǒng)的電腦。隨著鼠標(biāo)的發(fā)明和可視化圖形界面的普及,人機(jī)交互迎來了第一次重大創(chuàng)新。隨后觸摸屏的普及以及多點(diǎn)觸控的出現(xiàn),令人機(jī)交互進(jìn)入了二維層面。相比鼠標(biāo)和鍵盤,多點(diǎn)觸控能更方便、多樣的實(shí)現(xiàn)輸入。但是至于此,人機(jī)交互依然沒有脫離手動(dòng)的信息輸入,在人機(jī)分離下無法實(shí)現(xiàn)互動(dòng),語音交互的出現(xiàn)將使這一問題得到解決。
信息密度高,自然且普適。語言是人類與生俱來的一種能力,從學(xué)習(xí)成本角度而言顯著低于其他手段,語音交互天然適合人類。從普及度而言,幾乎人人都會(huì)用語言進(jìn)行溝通,但是在全球范圍內(nèi)依舊有許多不會(huì)書寫文字的人。假設(shè)語音交互能夠普及,在理想狀態(tài)下人人都可以用語音命令操控智能設(shè)備,實(shí)現(xiàn)智能體驗(yàn)。
解放雙手,更少的感官占用。除了高效的信息溝通外,語音交互可解放雙手、眼睛,不需要與設(shè)備接觸即可溝通,使得我們能夠?qū)崿F(xiàn)一心多用和在特定情況下精力集中。諸如在處于駕駛狀態(tài)時(shí),我們就可以通過語音助手來查看智能手機(jī)上的信息,從而避免視覺查看而導(dǎo)致的注意力不集中。根據(jù)Statista 的調(diào)研數(shù)據(jù)顯示,2016 年美國用戶使用智能語音識別主要原因中,雙手和眼睛被占用為首要理由,占比達(dá)60%??梢娭悄苷Z音識別對于提升用戶便利性有很大的幫助。
各類語音交互軟件不斷面世。近期三星發(fā)布了其語言識別助手Bixby,正式用于S8 系列、Note8 手機(jī)。事實(shí)上,從產(chǎn)品推出的時(shí)間順序來說,三星Bixby 還只能算作是智能語音交互領(lǐng)域的一位新玩家。在Bixby 之前,就已經(jīng)有了諸如蘋果Siri、微軟Cortana、谷歌Google Assistant、亞馬遜Alexa 等在內(nèi)的多款智能語音助手被業(yè)界熟知。
AI 技術(shù)提升語音識別準(zhǔn)確度。在提升語音識別的準(zhǔn)確度上,過去主要依靠算法的進(jìn)步和樣本的積累,隨著深度學(xué)習(xí)算法的出現(xiàn),語音識別的準(zhǔn)確率有了明顯的進(jìn)步。深度神經(jīng)網(wǎng)絡(luò)算法可以把連續(xù)多幀的語音特征并在一起,構(gòu)成一個(gè)高維特征,最終的深度神經(jīng)網(wǎng)絡(luò)可以采用高維特征訓(xùn)練來模擬。由于深度神經(jīng)網(wǎng)絡(luò)采用模擬人腦的多層結(jié)果,可以逐級地進(jìn)行信息特征抽取,最終形成適合模式分類的較理想特征。
? ? ?