搜狗的個(gè)性化語(yǔ)音識(shí)別將顛覆人機(jī)交互模式
掃描二維碼
隨時(shí)隨地手機(jī)看文章
美國(guó)著名投資者紅樹(shù)林資本合伙人在其2019年的《語(yǔ)音技術(shù)報(bào)告》中表示,語(yǔ)音將從根本上改變?nèi)祟?lèi)與機(jī)器與人工智能之間的關(guān)系,并將繼續(xù)成為未來(lái)十年的決定性主題之一。近年來(lái),搜狗輸入法在語(yǔ)音輸入領(lǐng)域引入了“個(gè)性化語(yǔ)音識(shí)別”,以實(shí)現(xiàn)“更好地理解用戶(hù)”。它不僅突破了語(yǔ)音識(shí)別技術(shù)的瓶頸,而且大大優(yōu)化了個(gè)人詞匯輸入的直接準(zhǔn)確性。
在日常交流中,個(gè)人短語(yǔ)和習(xí)語(yǔ)會(huì)以很高的頻率干擾雙方的信息傳遞,特別是人機(jī)對(duì)話(huà)已經(jīng)成為一個(gè)災(zāi)難性的領(lǐng)域。在大多數(shù)情況下,當(dāng)用戶(hù)使用語(yǔ)音輸入時(shí),他們只想輸入一個(gè)名稱(chēng),但輸入結(jié)果顯示語(yǔ)音與另一個(gè)結(jié)果一致。例如,當(dāng)用戶(hù)希望輸入法顯示“遠(yuǎn)”的名稱(chēng)時(shí),普通的語(yǔ)音識(shí)別通常不包括用戶(hù)的個(gè)性化內(nèi)容,并且通常將“純,產(chǎn)品源”列為公眾常用的候選詞匯。此外,用戶(hù)使用的個(gè)人詞匯,以及一些復(fù)音詞和發(fā)音錯(cuò)誤,對(duì)語(yǔ)音識(shí)別結(jié)果也有較大的影響。
為此,搜狗輸入法推出了“個(gè)性化語(yǔ)音識(shí)別”服務(wù),引領(lǐng)了語(yǔ)音識(shí)別技術(shù)的創(chuàng)新和升級(jí)。用戶(hù)希望體驗(yàn)此功能,只需在更新應(yīng)用程序后登錄個(gè)人賬戶(hù)即可。打開(kāi)后,“個(gè)性化語(yǔ)音識(shí)別”將為每個(gè)用戶(hù)定制個(gè)性化的語(yǔ)音輸入方法,以增強(qiáng)學(xué)習(xí)用戶(hù)的詞匯使用習(xí)慣。然后,根據(jù)語(yǔ)言環(huán)境和對(duì)上、下段句子的智能分析,輸入法可以使用戶(hù)在輸入語(yǔ)音時(shí)快速輸出符合用戶(hù)思想的文本內(nèi)容,大大降低了頻率。用戶(hù)的第二次手動(dòng)更改。
搜狗的“個(gè)性化語(yǔ)音識(shí)別”不僅對(duì)提高用戶(hù)個(gè)性化詞句的識(shí)別精度非常有效,而且保證了系統(tǒng)的處理和反饋速度,具有全自動(dòng)詞匯學(xué)習(xí)的特點(diǎn),使整個(gè)系統(tǒng)能夠?qū)W習(xí)個(gè)性化功能的過(guò)程將在“毫秒級(jí)”自動(dòng)完成。
搜狗輸入法引入了先進(jìn)的深度學(xué)習(xí)技術(shù)來(lái)模擬和訓(xùn)練語(yǔ)音識(shí)別,并利用DTSS(基于深變序列模型)端到端聲學(xué)模型、神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型和智能標(biāo)點(diǎn)預(yù)測(cè)技術(shù)來(lái)實(shí)現(xiàn)語(yǔ)音識(shí)別。離子的準(zhǔn)確度領(lǐng)先行業(yè),并大大提高。一般場(chǎng)景中語(yǔ)音輸入識(shí)別精度高。當(dāng)用戶(hù)輸入語(yǔ)音時(shí),“個(gè)性化語(yǔ)音識(shí)別”可以根據(jù)用戶(hù)數(shù)據(jù)分析對(duì)自定義短語(yǔ)進(jìn)行掃描和記錄,優(yōu)先使用用戶(hù)習(xí)語(yǔ)進(jìn)行文本輸出。通過(guò)這種技術(shù)創(chuàng)新,搜狗輸入法克服了語(yǔ)音識(shí)別精度的技術(shù)難題。眾所周知,在保證通用識(shí)別精度的前提下,用戶(hù)常用詞的誤碼率降低了40%。
手語(yǔ)是人類(lèi)最靈活的兩個(gè)部分,是人機(jī)交互的主要手段。以前,移動(dòng)智能設(shè)備中的各種觸摸交互都依賴(lài)于手的操作。當(dāng)語(yǔ)音技術(shù)和人工智能同時(shí)成熟時(shí),可能如“2019年語(yǔ)音技術(shù)報(bào)告”所述:語(yǔ)音交互已經(jīng)改變了過(guò)去人機(jī)交互的現(xiàn)有形式,以及基于VOIC的用戶(hù)和設(shè)備之間的新關(guān)系。電子交互已經(jīng)開(kāi)始建立,就像以前從互聯(lián)網(wǎng)向移動(dòng)互聯(lián)網(wǎng)的過(guò)渡一樣。對(duì)底層平臺(tái)的新要求也在醞釀之中。
隨著新時(shí)代的到來(lái),用戶(hù)輸入法的使用逐漸向語(yǔ)音輸入轉(zhuǎn)變。優(yōu)化語(yǔ)音識(shí)別技術(shù),為用戶(hù)提供更加自然、方便、高效的語(yǔ)音輸入服務(wù),是智能輸入法的發(fā)展趨勢(shì)。與文本輸入相比,語(yǔ)音輸入在人工智能、虛擬現(xiàn)實(shí)等不同維度、多場(chǎng)景等方面具有更大的優(yōu)勢(shì)。語(yǔ)音輸入注定要成為最重要的人機(jī)交互界面。
隨著用戶(hù)個(gè)性化詞匯的不斷豐富和語(yǔ)音識(shí)別技術(shù)的成熟,搜狗將匯聚用戶(hù)級(jí)語(yǔ)音個(gè)性化資源,實(shí)現(xiàn)“個(gè)性化語(yǔ)音輸入法”。在日常生活、醫(yī)療、法律等專(zhuān)業(yè)領(lǐng)域,每個(gè)用戶(hù)都可以享受到“定制版”和“更好地了解自己”搜狗語(yǔ)音識(shí)別的支持。有效提高在線(xiàn)通信和人機(jī)通信的效率和準(zhǔn)確性,或?qū)⒊蔀槿斯ぶ悄軙r(shí)代輸入端的全球控制器。