智能聲學(xué)創(chuàng)新技術(shù)將開啟語音智能交互的新時(shí)代

時(shí)間：2020-05-15 15:51:01

關(guān)鍵字：聲學(xué) 語音識別人機(jī)交互神經(jīng)網(wǎng)絡(luò)

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] （文章來源：新浪VR）語音交互為本能表達(dá)，帶來全新體驗(yàn)。早期的人機(jī)交互主要利用鍵盤，如打字機(jī)和DOS 系統(tǒng)的電腦。隨著鼠標(biāo)的發(fā)明和可視化圖形界面的普及，人機(jī)交互迎來了第一次重大創(chuàng)新。隨

（文章來源：新浪VR）

語音交互為本能表達(dá)，帶來全新體驗(yàn)。早期的人機(jī)交互主要利用鍵盤，如打字機(jī)和DOS 系統(tǒng)的電腦。隨著鼠標(biāo)的發(fā)明和可視化圖形界面的普及，人機(jī)交互迎來了第一次重大創(chuàng)新。隨后觸摸屏的普及以及多點(diǎn)觸控的出現(xiàn)，令人機(jī)交互進(jìn)入了二維層面。相比鼠標(biāo)和鍵盤，多點(diǎn)觸控能更方便、多樣的實(shí)現(xiàn)輸入。但是至于此，人機(jī)交互依然沒有脫離手動(dòng)的信息輸入，在人機(jī)分離下無法實(shí)現(xiàn)互動(dòng)，語音交互的出現(xiàn)將使這一問題得到解決。

信息密度高，自然且普適。語言是人類與生俱來的一種能力，從學(xué)習(xí)成本角度而言顯著低于其他手段，語音交互天然適合人類。從普及度而言，幾乎人人都會(huì)用語言進(jìn)行溝通，但是在全球范圍內(nèi)依舊有許多不會(huì)書寫文字的人。假設(shè)語音交互能夠普及，在理想狀態(tài)下人人都可以用語音命令操控智能設(shè)備，實(shí)現(xiàn)智能體驗(yàn)。

解放雙手，更少的感官占用。除了高效的信息溝通外，語音交互可解放雙手、眼睛，不需要與設(shè)備接觸即可溝通，使得我們能夠?qū)崿F(xiàn)一心多用和在特定情況下精力集中。諸如在處于駕駛狀態(tài)時(shí)，我們就可以通過語音助手來查看智能手機(jī)上的信息，從而避免視覺查看而導(dǎo)致的注意力不集中。根據(jù)Statista 的調(diào)研數(shù)據(jù)顯示，2016 年美國用戶使用智能語音識別主要原因中，雙手和眼睛被占用為首要理由，占比達(dá)60%?？梢娭悄苷Z音識別對于提升用戶便利性有很大的幫助。

各類語音交互軟件不斷面世。近期三星發(fā)布了其語言識別助手Bixby，正式用于S8 系列、Note8 手機(jī)。事實(shí)上，從產(chǎn)品推出的時(shí)間順序來說，三星Bixby 還只能算作是智能語音交互領(lǐng)域的一位新玩家。在Bixby 之前，就已經(jīng)有了諸如蘋果Siri、微軟Cortana、谷歌Google Assistant、亞馬遜Alexa 等在內(nèi)的多款智能語音助手被業(yè)界熟知。

AI 技術(shù)提升語音識別準(zhǔn)確度。在提升語音識別的準(zhǔn)確度上，過去主要依靠算法的進(jìn)步和樣本的積累，隨著深度學(xué)習(xí)算法的出現(xiàn)，語音識別的準(zhǔn)確率有了明顯的進(jìn)步。深度神經(jīng)網(wǎng)絡(luò)算法可以把連續(xù)多幀的語音特征并在一起，構(gòu)成一個(gè)高維特征，最終的深度神經(jīng)網(wǎng)絡(luò)可以采用高維特征訓(xùn)練來模擬。由于深度神經(jīng)網(wǎng)絡(luò)采用模擬人腦的多層結(jié)果，可以逐級地進(jìn)行信息特征抽取，最終形成適合模式分類的較理想特征。
? ? ?