語音識(shí)別技術(shù)帶你感受不一樣的語音交互
掃描二維碼
隨時(shí)隨地手機(jī)看文章
(文章來源:百度智能云)
萬物互聯(lián)的時(shí)代,語音識(shí)別被視為人機(jī)交互的新入口,人與機(jī)器通過自然語言交互成為可能。近年來,語音識(shí)別在智能終端、智能家居等領(lǐng)域的運(yùn)用也日漸深入。然而,如何讓機(jī)器更好地“聽懂”人類語言,更快速地進(jìn)行交互,一直是各家攻堅(jiān)克難的技術(shù)高地。百度智能云支持下的明星產(chǎn)品——語音識(shí)別極速版,很好地解決了這些難題。
百度輸入法探索版發(fā)布會(huì)上,首次發(fā)布了領(lǐng)先國際的語音技術(shù):在線語音領(lǐng)域全球首創(chuàng)的流式多級(jí)截?cái)嘧⒁饬δP蚐MLTA「Streaming trancated multi-layer attenTIon」,這是首次在大規(guī)模語音識(shí)別工業(yè)界采用注意力模型,在百度輸入法產(chǎn)品發(fā)布后,驚艷的語音輸入體驗(yàn)得到了業(yè)界的一致好評。
基于以上成果,百度智能云持續(xù)進(jìn)行更多創(chuàng)新,提升識(shí)別率的同時(shí)又大幅優(yōu)化解碼速度。百度智能云語音方向首次將這一系列技術(shù)創(chuàng)新整合為語音能力對外開放——“語音識(shí)別極速版”,擁有更快的響應(yīng)速度,相對識(shí)別準(zhǔn)確度提升15%,為開發(fā)者帶來更極致的識(shí)別體驗(yàn)。
語音識(shí)別極速版在API調(diào)用方式下,實(shí)時(shí)率小于0.1,意味著5s的音頻不到500ms即可完成識(shí)別過程,極大減少了識(shí)別音頻所需時(shí)間,提升了語音交互的響應(yīng)體驗(yàn)。在近距離安靜環(huán)境下,識(shí)別準(zhǔn)確率可達(dá)到98%,同時(shí)支持略帶口音、童聲、耳語的識(shí)別,使語音識(shí)別應(yīng)用更加廣泛。
百度智能云ABC智能語音技術(shù),致力于不斷為開發(fā)者提供業(yè)界優(yōu)質(zhì)的語音服務(wù):高精準(zhǔn)語音識(shí)別,1米內(nèi)普通話識(shí)別率為98%;支持中文、英文識(shí)別。高精度語音喚醒,安靜喚醒精度100%;ACE打斷喚醒精度97%。智能意圖理解,包含200+個(gè)垂類;50+場景。
流暢自然的語音合成,中英混讀;提供多音色發(fā)音人,支持語速、音調(diào)設(shè)置。這次推出的語音識(shí)別極速版擁有專有的GPU服務(wù)集群,可以提供99.99%企業(yè)級(jí)穩(wěn)定保障服務(wù)。未來,多平臺(tái)的SDK也即將推出,使APP、服務(wù)器端也可應(yīng)用這一領(lǐng)先技術(shù)。