千錘百煉 增強(qiáng)型靈云語音識別讓車載語音交互更流暢
伴隨著車聯(lián)網(wǎng)的快速發(fā)展,為了進(jìn)一步提升智能車載的語音交互體驗(yàn),捷通華聲推出了增強(qiáng)型靈云語音識別技術(shù)。該技術(shù)采用了捷通華聲最新研發(fā)的針對抗噪的深度學(xué)習(xí)算法,通過對行車環(huán)境噪音信息進(jìn)行建模,有效處理車外胎噪、風(fēng)噪,車內(nèi)空調(diào)聲、引擎聲等行車環(huán)境噪音,并利用大量實(shí)際行車噪音數(shù)據(jù),對算法進(jìn)行了進(jìn)一步訓(xùn)練和優(yōu)化,擁有極強(qiáng)的抗噪能力,即使在車速80km/h的情況下,也能具有極高的語音識別率。
捷通華聲表示,增強(qiáng)型靈云語音識別技術(shù)已整合到靈云遠(yuǎn)場語音交互解決方案中,通過與多麥克風(fēng)陣列完美結(jié)合,可“過濾”掉絕大多數(shù)車載環(huán)境噪音,實(shí)現(xiàn)遠(yuǎn)距離的語音識別,經(jīng)過實(shí)踐測試,其極高的識別率完全滿足了行車環(huán)境對遠(yuǎn)場語音識別的要求,實(shí)現(xiàn)人對智能車載設(shè)備流暢、自然的語音控制。同時(shí),捷通華聲與國內(nèi)廣大智能車載設(shè)備廠商、解決方案提供商、軟件開發(fā)商等行業(yè)伙伴精誠合作,堅(jiān)持“合作共贏”的發(fā)展理念,通過為合作伙伴提供麥克風(fēng)陣列、云+端語音交互、內(nèi)容服務(wù)等軟硬件一體的車載語音解決方案,共同推動(dòng)智能語音交互技術(shù)在車載領(lǐng)域的普及化應(yīng)用!
增強(qiáng)型靈云語音識別+麥克風(fēng)陣列 輕松應(yīng)對行車環(huán)境噪音
長期以來,語音交互技術(shù)受行車環(huán)境的背景噪音、回聲、混響等多重復(fù)雜因素影響,駕駛者必須要近距離對著麥克風(fēng)“咬耳朵”講話,且識別率較低,無法滿足駕車途中車載設(shè)備識別司機(jī)命令的要求,嚴(yán)重制約了語音交互技術(shù)在智能車載領(lǐng)域的應(yīng)用。
捷通華聲靈云遠(yuǎn)場語音交互解決方案能很好的解決這一問題,該方案包含了多麥克風(fēng)陣列與增強(qiáng)型語音識別技術(shù)。多麥克風(fēng)陣列能精準(zhǔn)拾取說話人的語音信號,抑制噪聲和混響,增強(qiáng)型語音識別技術(shù),對殘余的車載噪音進(jìn)行進(jìn)一步處理,大幅提高行車噪音環(huán)境中的語音識別率。
多麥克風(fēng)陣列能根據(jù)聲音到達(dá)的時(shí)間差,準(zhǔn)確計(jì)算出聲源與陣列模塊之間的角度和距離,實(shí)現(xiàn)對目標(biāo)聲源的定位與跟蹤,并利用麥克風(fēng)陣列的空域?yàn)V波特性,在目標(biāo)說話人方向形成拾音波束,僅拾取波束的信號,抑制波束之外的噪聲和混響(反射聲),同時(shí),通過回聲消除技術(shù),過濾掉音頻設(shè)備發(fā)出的聲音,讓語音識別引擎獲取的用戶聲音更為清晰純凈。
由于麥克風(fēng)陣列會不可避免的拾取部分行車環(huán)境噪音,影響語音識別率,對此,捷通華聲綜合考慮車內(nèi)物理結(jié)構(gòu)和車速變化,對駕車過程中的車外胎噪、風(fēng)噪,車內(nèi)空調(diào)聲、引擎聲等車載環(huán)境噪音信息進(jìn)行建模,并用大量的實(shí)際行車噪音數(shù)據(jù)進(jìn)行訓(xùn)練,進(jìn)一步優(yōu)化語音識別引擎,推出了針對智能車載的增強(qiáng)型靈云語音識別技術(shù),輕松應(yīng)對常見車載環(huán)境噪音。該技術(shù)采用深度神經(jīng)網(wǎng)絡(luò)算法(DNN)算法,可在用戶的使用過程中,通過利用積累的語音數(shù)據(jù)來訓(xùn)練、優(yōu)化算法,不斷提升語音識別率。通過這一系列的技術(shù),讓車載噪音環(huán)境中的語音識別率大幅提高,充分滿足實(shí)際行車過程中人機(jī)交互對語音識別技術(shù)的要求。
增強(qiáng)型語音識別 讓語音交互真正滿足司機(jī)需求
融合了增強(qiáng)型靈云語音識別技術(shù)的靈云遠(yuǎn)場語音交互解決方案,為合作伙伴提供麥克風(fēng)陣列、云+端語音交互、內(nèi)容服務(wù)等軟硬件一體的車載語音解決方案。該方案對外提供統(tǒng)一接口,可快速建立語音命令與車載系統(tǒng)以及各種應(yīng)用之間的連接,搭配開放的服務(wù)擴(kuò)展、靈活的能力支持,讓智能車載具備語音喚醒、聲源定向、遠(yuǎn)場降噪、回聲消除、語音打斷、語音糾錯(cuò)、多輪對話等功能,打造“能聽會說、能理解、會思考”的智能車載設(shè)備,徹底打破車載設(shè)備應(yīng)用語音交互技術(shù)的產(chǎn)業(yè)瓶頸,真正實(shí)現(xiàn)自然、流暢的人機(jī)語音交互。
在駕車過程中,當(dāng)司機(jī)被堵車、等待、紅燈等煩擾時(shí),只要隨口說出想聽的音樂、歌曲,車載設(shè)備便會自動(dòng)檢索并播放音樂,緩解司機(jī)等待的焦躁情緒;當(dāng)有電話打進(jìn)來,而司機(jī)正在開車時(shí),只需說出“接聽”,即可接通電話,真正實(shí)現(xiàn)“君子動(dòng)口不動(dòng)手”,再也不必在開車過程中用手“按啊按、找啊找”,把司機(jī)的雙手和眼睛還給駕駛,保證行車安全。
靈云遠(yuǎn)場語音交互解決方案在智能車載領(lǐng)域,已全面支持打電話、收發(fā)短信、聽音樂、聽廣播、地圖導(dǎo)航、POI、車況查詢、天氣查詢、服務(wù)查詢、設(shè)備控制、交通制度問答等多種功能,并為用戶免費(fèi)提供天氣、交通、新聞、故事、股票、音樂、火車、航班、餐飲、酒店等日常生活常用的30多種信息與內(nèi)容服務(wù),充分滿足車載場景下司機(jī)的各種需求。同時(shí),靈云遠(yuǎn)場語音交互解決方案支持隨時(shí)打斷,只聽司機(jī)真正想表達(dá)的信息,并通過語音糾錯(cuò)和多輪對話,讓語音交互更加流暢、自然,真正滿足司機(jī)的需求。
捷通華聲堅(jiān)持合作共贏 與廣大合作伙伴共享產(chǎn)業(yè)機(jī)遇
增強(qiáng)型靈云語音識別技術(shù)源自于捷通華聲于2011年推出的首個(gè)全方位人工智能開放平臺——靈云平臺(hcicloud.com),歷經(jīng)四年發(fā)展,靈云平臺已成為國內(nèi)提供人工智能能力最多、服務(wù)用戶最廣的人工智能開放平臺。靈云平臺自推出以來面向產(chǎn)業(yè)全面開放,包括個(gè)人開發(fā)者在內(nèi)的所有合作伙伴,都可以通過靈云平臺獲取智能語音、智能圖像、智能語義、生物特征等技術(shù)能力。
伴隨著IOT的快速發(fā)展,2014年,為讓國內(nèi)智能車載,以及智能家居、家電、機(jī)器人等終端設(shè)備廠商、集成商、開發(fā)商更方便地使用靈云平臺(hcicloud.com)全方位人工智能能力,捷通華聲推出了企業(yè)級開發(fā)商專用的靈云智能終端交互方案:靈云種子。靈云種子全面整合了靈云平臺多項(xiàng)人工智能技術(shù)能力,包括靈云語音識別、語音合成、語義理解、聲紋識別、人臉識別、指紋識別、光學(xué)字符識別等能力,并為開發(fā)商提供簡單易用的開發(fā)接口。開發(fā)商通過應(yīng)用靈云種子,結(jié)合多麥克風(fēng)陣列模塊,可以輕松實(shí)現(xiàn)智能語音交互、語音喚醒、語音導(dǎo)航、文字與證照圖像識別、聲紋解鎖、人臉識別等多種人機(jī)交互功能,全方位、多角度滿足車載、家居、家電、機(jī)器人等終端設(shè)備對人工智能技術(shù)能力多樣化的市場需求。
一花開放不是春,捷通華聲將堅(jiān)持 “合作共贏”的發(fā)展理念,與廣大合作伙伴共同分享人工智能產(chǎn)業(yè)機(jī)遇,共同創(chuàng)建良好的人工智能產(chǎn)業(yè)生態(tài)。為更好服務(wù)全國智能終端設(shè)備合作伙伴,捷通華聲將進(jìn)一步加快在全國各地建立分公司與辦事處的進(jìn)程,比如在中國華南地區(qū),智能車載、智能家居、機(jī)器人開發(fā)與生產(chǎn)廠商云集,并擁有創(chuàng)新力強(qiáng)、科技水平高等獨(dú)特優(yōu)勢。為做好合作伙伴的技術(shù)支持,2015年捷通華聲相繼在深圳、廈門等地成立了分公司,為合作伙伴提供更及時(shí)、更完善的技術(shù)支持。
未來發(fā)展,捷通華聲將繼續(xù)以清華大學(xué)人工智能研究力量為依托,更加專注智能語音等人工智能技術(shù)研究與產(chǎn)業(yè)化的推廣與應(yīng)用,通過與產(chǎn)業(yè)內(nèi)合作伙伴的精誠合作,共同推動(dòng)中國智能終端設(shè)備全面服務(wù)社會大眾,共同加快智能化生活時(shí)代到來的步伐!