百度成為全球第二大智能音箱供應(yīng)商
掃描二維碼
隨時(shí)隨地手機(jī)看文章
(文章來(lái)源:雷鋒網(wǎng))
據(jù)科技市場(chǎng)研究企業(yè) Canalys 發(fā)布的第二季度全球智能音箱市場(chǎng)報(bào)告,百度繼今年上一季度超越阿里后,再度超越該行業(yè)的“雙寡頭”之一谷歌,成為全球第二大智能音箱供應(yīng)商。
在智能音箱這一賽道,相比其他頭部廠商,百度入局稍晚,如今卻能力壓群雄取得一系列亮眼成績(jī)。百度系智能音箱作為 C 端可體驗(yàn)產(chǎn)品,普通用戶對(duì)其音質(zhì)、聽(tīng)感等各方面都有較為直觀的感受,而所有優(yōu)質(zhì)體驗(yàn)的背后,百度在智能語(yǔ)音技術(shù)上的積累可謂功不可沒(méi)。從智能音箱的遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別、對(duì)話交互技術(shù)甚至產(chǎn)品硬件技術(shù),百度始終堅(jiān)持“親力親為”,為智能音箱積淀了一整套完善一體的技術(shù)儲(chǔ)備和解決方案,從而為小度智能音箱的體驗(yàn)提供了強(qiáng)大的后盾支持。
“百度發(fā)布SMLTA模型,帶來(lái)語(yǔ)音技術(shù)世界級(jí)突破”、“小度智能音箱首度落地完全意義上的全雙工連續(xù)交互技術(shù)”,無(wú)論是語(yǔ)音喚醒、語(yǔ)音交互,還是遠(yuǎn)場(chǎng)信號(hào)處理、聲學(xué)技術(shù)乃至產(chǎn)品硬件技術(shù),百度都給智能語(yǔ)音技術(shù)領(lǐng)域帶來(lái)過(guò)不少驚艷的突破創(chuàng)新,得到 C 端用戶的認(rèn)可,經(jīng)過(guò)市場(chǎng)的檢驗(yàn),這也是對(duì)百度在智能語(yǔ)音技術(shù)一系列突破性進(jìn)展的最好回響。
除了在智能語(yǔ)音領(lǐng)域有著整體全面的技術(shù)布局,在每一項(xiàng)語(yǔ)音技術(shù)上,百度更是在不斷深耕。下面,AI 科技評(píng)論將聚焦智能音箱這一遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別產(chǎn)品的關(guān)鍵性技術(shù),主要從語(yǔ)音喚醒算法、語(yǔ)音交互模式、遠(yuǎn)場(chǎng)信號(hào)處理、語(yǔ)音聲學(xué)技術(shù)以及產(chǎn)品硬件技術(shù)五個(gè)維度,來(lái)對(duì)百度蓄力爆發(fā)的小度智能音箱背后的黑科技進(jìn)行揭秘。
人要跟智能音箱進(jìn)行對(duì)話,第一道關(guān)卡便是語(yǔ)音喚醒,因而語(yǔ)音喚醒對(duì)于后續(xù)的整個(gè)用戶體驗(yàn)而言,至關(guān)重要。然而在智能音箱這一遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別載體中,而技術(shù)本身,外部環(huán)境對(duì)于語(yǔ)音喚醒質(zhì)量的高低有著非常直接的影響。例如當(dāng)外部噪音很大時(shí),誤喚醒等問(wèn)題就非常突出了。
而百度,除了面臨所有智能音箱產(chǎn)品都面臨的此類挑戰(zhàn)外,還存在其內(nèi)部獨(dú)有的喚醒技術(shù)難點(diǎn)。包括,第一,“小度小度”作為百度智能音箱的喚醒詞,雖朗朗上口,但它相對(duì)于市面上其他音箱常用的“你好xx”、“xx同學(xué)”技術(shù)上更不容易控制誤報(bào)率;第二,百度的產(chǎn)品矩陣豐富,更使得喚醒技術(shù)所面臨的外部環(huán)境更加復(fù)雜多變,因而對(duì)喚醒的精度和誤報(bào)的控制提出了更高的挑戰(zhàn)。
針對(duì)這些挑戰(zhàn)和技術(shù)難點(diǎn),百度首先從算法層面實(shí)現(xiàn)了語(yǔ)音喚醒技術(shù)的突破,即將誤喚醒的控制由對(duì)著測(cè)試集手工調(diào)節(jié)變成了海量數(shù)據(jù)訓(xùn)練驅(qū)動(dòng)的過(guò)程,并具體從兩個(gè)方面提升了模型的建模能力:“每輪對(duì)話之前,都要喚醒一次”,這是當(dāng)下市面上多數(shù)智能音箱的常態(tài),也是人們?cè)谑褂弥悄芤粝淦陂g的最大槽點(diǎn)之一。人們對(duì)于智能音箱“像人與人一樣交流”的憧憬要想實(shí)現(xiàn),首要條件之一就是要能夠做到:持續(xù)對(duì)話。
在智能音箱的連續(xù)交互能力上,百度為小度智能音箱研發(fā)的全雙工免喚醒能力的表現(xiàn),非常出色。這項(xiàng)能力組合應(yīng)用了語(yǔ)音語(yǔ)義聯(lián)合的尾點(diǎn)檢測(cè)技術(shù)、全雙工語(yǔ)音識(shí)別技術(shù)、置信度技術(shù)和語(yǔ)音語(yǔ)義一體化技術(shù),在實(shí)現(xiàn)“一次對(duì)話,多輪交互”的同時(shí),還能快速響應(yīng),并良好地區(qū)分用戶交互意圖。
據(jù)悉,與目前業(yè)內(nèi)最好的基于CTC模型的語(yǔ)音識(shí)別系統(tǒng)相比,SMLTA基于截?cái)嗟亩说蕉苏Z(yǔ)音識(shí)別建模方法,讓語(yǔ)音識(shí)別錯(cuò)誤率的下降幅度達(dá)15%以上。而除了語(yǔ)音識(shí)別技術(shù),在當(dāng)下的智能音箱市場(chǎng),一款音箱要成為“好賣”的音箱,其中一個(gè)非常重要的因素就是性價(jià)比。如何將智能音箱的成本降到盡可能低,并擁有比同價(jià)位的競(jìng)品更加出色的音質(zhì),同時(shí)還能夠有效控制住音頻失真確保喚醒識(shí)別率呢?
整體而言,智能語(yǔ)音作為AI 領(lǐng)域相對(duì)比較成熟的細(xì)分方向,近年來(lái)在產(chǎn)品落地方面也都走在其他技術(shù)的前面。但這些技術(shù)具體落地到某個(gè)具體場(chǎng)景或特殊場(chǎng)景中時(shí),面臨的挑戰(zhàn)依舊巨大。如何不斷優(yōu)化智能語(yǔ)音技術(shù),并實(shí)現(xiàn)技術(shù)的大規(guī)模產(chǎn)品落地,依舊是該領(lǐng)域需要大力探索的主題。
未來(lái),智能音箱要想取得更加明顯的體驗(yàn)提升,背后技術(shù)的突破創(chuàng)新是繞不開(kāi)的一個(gè)話題。百度語(yǔ)音技術(shù)團(tuán)隊(duì)不斷在攻堅(jiān)克難,算法迭代創(chuàng)新,并善于將之應(yīng)用在落地產(chǎn)品中。就在前不久,百度語(yǔ)音首席架構(gòu)師賈磊的回歸,又將為百度語(yǔ)音技術(shù)帶來(lái)怎樣的變化和突破?拭目以待。