語(yǔ)音交互技術(shù)存在什么利與弊
掃描二維碼
隨時(shí)隨地手機(jī)看文章
開(kāi)啟今天的文章之前,先上一段視頻,這段視頻展現(xiàn)了生活中最“貼心”的語(yǔ)音交互。
這條視頻里展現(xiàn)的就是我們?nèi)粘I钪谐R?jiàn)的語(yǔ)音交互,與圖像識(shí)別一樣,語(yǔ)音交互是人工智能的一個(gè)分支。
在人工智能異常火熱的今天,從 Siri 到小度,從小冰到小娜,語(yǔ)音交互正悄無(wú)聲息的融入我們的生活之中。
其實(shí),語(yǔ)音交互系統(tǒng)發(fā)展的歷史并不短,早在 1952 年,貝爾實(shí)驗(yàn)室就開(kāi)發(fā)了能夠識(shí)別阿拉伯?dāng)?shù)字的系統(tǒng) Audrey。
1962 年,IBM 發(fā)明了一臺(tái)可以用語(yǔ)音進(jìn)行簡(jiǎn)單數(shù)學(xué)計(jì)算的機(jī)器 Shoebox。
2019 年全球語(yǔ)音交互市場(chǎng)規(guī)模達(dá)到 13 億美元,預(yù)計(jì) 2025 年語(yǔ)音交互市場(chǎng)規(guī)模將達(dá)到 69 億美元,目前已廣泛應(yīng)用到智能家居、車(chē)載語(yǔ)音、智能客服等行業(yè)和場(chǎng)景。
對(duì)于發(fā)展前景如此感人的語(yǔ)音交互有哪些優(yōu)劣勢(shì)呢,也就是我們?yōu)槭裁催@么熱衷研發(fā)語(yǔ)音交互?
優(yōu)勢(shì)
信息傳遞效率高:
相比于傳統(tǒng)的鍵盤(pán)輸入,語(yǔ)音輸入方式在速度及準(zhǔn)確率方面更具優(yōu)勢(shì),利用語(yǔ)音輸入普通話時(shí),速度是傳統(tǒng)輸入方式的 3.21 倍。
空間便捷性:與觸控相比,語(yǔ)音交互可以人機(jī)相距 3~5 米進(jìn)行交互,增加了交互的便捷性。
支持組合指令:在需要支持多意圖同時(shí)傳遞的場(chǎng)景下,語(yǔ)音交互可以一次性下達(dá)多條指令,然后分別執(zhí)行,比如你可以對(duì)著手機(jī)說(shuō):“播放周杰倫的《說(shuō)好不哭》并且是免費(fèi)的。”
使用門(mén)檻低
對(duì)非文字使用場(chǎng)景友好:語(yǔ)音交互為老人、孩子,以及一些不方便使用文字的人群提供了便利,也在一些不方便使用文字或者手勢(shì)的場(chǎng)景下,比如:駕駛、玩游戲,為使用者提供了便利。
學(xué)習(xí)成本低:語(yǔ)音交互與我們平時(shí)說(shuō)話一樣,不需要特意學(xué)習(xí),大大降低了學(xué)習(xí)的成本。
傳遞聲學(xué)信息
聲紋識(shí)人:通過(guò)聲紋可以進(jìn)行身份判斷,并且可以在下達(dá)指令的同時(shí)進(jìn)行身份判斷,效率更高。同時(shí)聲音還可以判斷性別、年齡層、情緒等信息。
聲音傳遞情感:聲音交互可以傳遞情感、語(yǔ)氣,因此在有情感訴求的場(chǎng)景下,語(yǔ)音交互是一個(gè)很好的選擇。
但是,有利就有弊,語(yǔ)音交互同時(shí)也存在著一些弊端。
弊端
信息接收效率低
當(dāng)信息量大、內(nèi)容較長(zhǎng)時(shí),語(yǔ)音交互的效率就會(huì)降低,同時(shí),語(yǔ)音交互是線性的,也就是別人說(shuō)話時(shí),必須都聽(tīng)完才能理解其中的意思,這也大大降低了語(yǔ)音交互的信息接收效率。
嘈雜環(huán)境下語(yǔ)音識(shí)別精度降低
語(yǔ)音識(shí)別需要清晰的識(shí)別出人聲,嘈雜環(huán)境使得人聲的提取變得非常困難,尤其是針對(duì)遠(yuǎn)場(chǎng)語(yǔ)音交互,噪音的問(wèn)題更加突出。
例如遠(yuǎn)場(chǎng)安靜環(huán)境下語(yǔ)音識(shí)別準(zhǔn)確率能達(dá)到 95%,但是在嘈雜環(huán)境下僅能達(dá)到 80% 左右。
雖然存在著這些弊端,但是語(yǔ)音交互還是在不斷完善中實(shí)現(xiàn)著自我突破。
來(lái)源:中國(guó)大數(shù)據(jù)