語音交互技術(shù)存在什么利與弊
開啟今天的文章之前,先上一段視頻,這段視頻展現(xiàn)了生活中最“貼心”的語音交互。
這條視頻里展現(xiàn)的就是我們?nèi)粘I钪谐R姷恼Z音交互,與圖像識(shí)別一樣,語音交互是人工智能的一個(gè)分支。
在人工智能異?;馃岬慕裉?,從 Siri 到小度,從小冰到小娜,語音交互正悄無聲息的融入我們的生活之中。
其實(shí),語音交互系統(tǒng)發(fā)展的歷史并不短,早在 1952 年,貝爾實(shí)驗(yàn)室就開發(fā)了能夠識(shí)別阿拉伯?dāng)?shù)字的系統(tǒng) Audrey。
1962 年,IBM 發(fā)明了一臺(tái)可以用語音進(jìn)行簡(jiǎn)單數(shù)學(xué)計(jì)算的機(jī)器 Shoebox。
2019 年全球語音交互市場(chǎng)規(guī)模達(dá)到 13 億美元,預(yù)計(jì) 2025 年語音交互市場(chǎng)規(guī)模將達(dá)到 69 億美元,目前已廣泛應(yīng)用到智能家居、車載語音、智能客服等行業(yè)和場(chǎng)景。
對(duì)于發(fā)展前景如此感人的語音交互有哪些優(yōu)劣勢(shì)呢,也就是我們?yōu)槭裁催@么熱衷研發(fā)語音交互?
優(yōu)勢(shì)
信息傳遞效率高:
相比于傳統(tǒng)的鍵盤輸入,語音輸入方式在速度及準(zhǔn)確率方面更具優(yōu)勢(shì),利用語音輸入普通話時(shí),速度是傳統(tǒng)輸入方式的 3.21 倍。
空間便捷性:與觸控相比,語音交互可以人機(jī)相距 3~5 米進(jìn)行交互,增加了交互的便捷性。
支持組合指令:在需要支持多意圖同時(shí)傳遞的場(chǎng)景下,語音交互可以一次性下達(dá)多條指令,然后分別執(zhí)行,比如你可以對(duì)著手機(jī)說:“播放周杰倫的《說好不哭》并且是免費(fèi)的?!?/p>
使用門檻低
對(duì)非文字使用場(chǎng)景友好:語音交互為老人、孩子,以及一些不方便使用文字的人群提供了便利,也在一些不方便使用文字或者手勢(shì)的場(chǎng)景下,比如:駕駛、玩游戲,為使用者提供了便利。
學(xué)習(xí)成本低:語音交互與我們平時(shí)說話一樣,不需要特意學(xué)習(xí),大大降低了學(xué)習(xí)的成本。
傳遞聲學(xué)信息
聲紋識(shí)人:通過聲紋可以進(jìn)行身份判斷,并且可以在下達(dá)指令的同時(shí)進(jìn)行身份判斷,效率更高。同時(shí)聲音還可以判斷性別、年齡層、情緒等信息。
聲音傳遞情感:聲音交互可以傳遞情感、語氣,因此在有情感訴求的場(chǎng)景下,語音交互是一個(gè)很好的選擇。
但是,有利就有弊,語音交互同時(shí)也存在著一些弊端。
弊端
信息接收效率低
當(dāng)信息量大、內(nèi)容較長時(shí),語音交互的效率就會(huì)降低,同時(shí),語音交互是線性的,也就是別人說話時(shí),必須都聽完才能理解其中的意思,這也大大降低了語音交互的信息接收效率。
嘈雜環(huán)境下語音識(shí)別精度降低
語音識(shí)別需要清晰的識(shí)別出人聲,嘈雜環(huán)境使得人聲的提取變得非常困難,尤其是針對(duì)遠(yuǎn)場(chǎng)語音交互,噪音的問題更加突出。
例如遠(yuǎn)場(chǎng)安靜環(huán)境下語音識(shí)別準(zhǔn)確率能達(dá)到 95%,但是在嘈雜環(huán)境下僅能達(dá)到 80% 左右。
雖然存在著這些弊端,但是語音交互還是在不斷完善中實(shí)現(xiàn)著自我突破。
來源:中國大數(shù)據(jù)