(文章來源:飛象網(wǎng))
談到智能語音,早已不是什么新鮮的事情,國外有如:蘋果Siri,微軟小娜,Google Assistant,亞馬遜的Alexa這樣的智能語音大咖。國內有靈犀助手(科大訊飛),小度(百度),小愛同學(小米)這樣的后來跟進者。
首次接觸智能語音的用戶,會覺得很神奇,覺得這東西怎么可以如此智能。而對于經(jīng)常使用的老用戶來說,智能語音助手的雞肋日益顯現(xiàn),因為現(xiàn)階段的智能語音基本都是采用數(shù)據(jù)庫匹配的原則,對于云端數(shù)據(jù)庫中沒有的知識,智能語音也只能“呵呵”了。但,對于技術,我們應該永遠懷著寬容和理解的態(tài)度去對待,因為任何一門技術都是一個不斷積累和升級的過程。
對于大部分人來說,目前接觸體驗最多的智能語音硬件應該只有智能音箱和智能機器人。只有通過智能硬件與云端數(shù)據(jù)中心的默契配合,才有可能讓智能語音交互形成完整通路。語音交互的大致流程可分為:聲音采集—>降噪—>語音喚醒—>語音轉文字—>語義理解—>回復文字和指令—>文字轉聲音—>播放聲音。下面以天貓精靈智能音箱為例,將語音交互完整步驟做逐步分解。
1、用戶說“天貓精靈,今天天氣怎么樣?”;2、“天貓精靈”被語音喚醒模塊接收到,并判斷為喚醒詞,然后通過AI芯片和硬件拾取和記錄“今天天氣怎么樣”這段語音,并發(fā)送給云端服務器;3、服務器把收集到的電腦信號,再次轉化成文字“今天天氣怎么樣”,交給語義理解服務器;語義理解服務器把“今天天氣怎么樣”這段文字,拆解成“事件=查詢天氣,時間=今天”這段控制指令回傳給設備。
4、設備根據(jù)時間和本機地理位置,找天氣服務器查詢天氣,并獲得天氣的的文本數(shù)據(jù)“今天要下雨”;5、設備把“今天要下雨”這幾個字發(fā)給文字轉聲音的服務器,服務器返回“今天要下雨”這段聲音,由設備喇叭播放出來。
毋庸置疑的是,以上五個步驟都是由智能音箱的硬件和云端的數(shù)據(jù)中心配合完成的,硬件只要負責聲音的拾取和傳達,云端則用豐富的數(shù)據(jù)資源去匹配用戶的需求,二者缺一不可。相對來說,聲音前處理技術則是智能硬件最最重要的部分,主要體現(xiàn)降噪和拾音效果兩方面,喚醒以及與機器對話的時候都需要拾音,而且拾音還有近距離和遠距離之說,如果連最基本的聲音都沒有聽清和聽懂,談何后面的數(shù)據(jù)傳達和解析呢。
拾音技術的降噪(AEC)是通過麥克風陣列,判斷人在哪個方向,增強那個方向的拾音效果,可有效保證遠距離聲音拾取的準確度。中國聲音前處理專家炬芯科技作為領先的AI芯片原廠,推出的眾多智能音箱和機器人方案已經(jīng)搭載雙麥降噪、7麥陣列的配置,且支持遠距離拾音,確保智能語音的第一環(huán)不能掉鏈子。其中ATS3605D就是炬芯從2018年開始就在核心主推的雙麥克風陣列智能語音芯片,已經(jīng)在各大品牌智能音箱、早教機器人、繪本機器人、物聯(lián)網(wǎng)中控等產(chǎn)品上完美落地,強大的聲音前處理技術為完美智能語音體驗保駕護航。
如想讓讓智能語音產(chǎn)品做到真正的聰明,智能硬件(包括主控芯片和各種IC)和語音助手(云端數(shù)據(jù)中心)都需要再升級,不斷打通人和機器之間的對話壁壘,它才有可能做到真正的“通人情”。