開啟今天的文章之前,先上一段視頻,這段視頻展現(xiàn)了生活中最“貼心”的語音交互。
這條視頻里展現(xiàn)的就是我們?nèi)粘I钪谐R姷恼Z音交互,與圖像識別一樣,語音交互是人工智能的一個分支。
在人工智能異常火熱的今天,從 Siri 到小度,從小冰到小娜,語音交互正悄無聲息的融入我們的生活之中。
其實(shí),語音交互系統(tǒng)發(fā)展的歷史并不短,早在 1952 年,貝爾實(shí)驗(yàn)室就開發(fā)了能夠識別阿拉伯?dāng)?shù)字的系統(tǒng) Audrey。
1962 年,IBM 發(fā)明了一臺可以用語音進(jìn)行簡單數(shù)學(xué)計(jì)算的機(jī)器 Shoebox。
2019 年全球語音交互市場規(guī)模達(dá)到 13 億美元,預(yù)計(jì) 2025 年語音交互市場規(guī)模將達(dá)到 69 億美元,目前已廣泛應(yīng)用到智能家居、車載語音、智能客服等行業(yè)和場景。
對于發(fā)展前景如此感人的語音交互有哪些優(yōu)劣勢呢,也就是我們?yōu)槭裁催@么熱衷研發(fā)語音交互?
優(yōu)勢
信息傳遞效率高:
相比于傳統(tǒng)的鍵盤輸入,語音輸入方式在速度及準(zhǔn)確率方面更具優(yōu)勢,利用語音輸入普通話時,速度是傳統(tǒng)輸入方式的 3.21 倍。
空間便捷性:與觸控相比,語音交互可以人機(jī)相距 3~5 米進(jìn)行交互,增加了交互的便捷性。
支持組合指令:在需要支持多意圖同時傳遞的場景下,語音交互可以一次性下達(dá)多條指令,然后分別執(zhí)行,比如你可以對著手機(jī)說:“播放周杰倫的《說好不哭》并且是免費(fèi)的?!?/p>
使用門檻低
對非文字使用場景友好:語音交互為老人、孩子,以及一些不方便使用文字的人群提供了便利,也在一些不方便使用文字或者手勢的場景下,比如:駕駛、玩游戲,為使用者提供了便利。
學(xué)習(xí)成本低:語音交互與我們平時說話一樣,不需要特意學(xué)習(xí),大大降低了學(xué)習(xí)的成本。
傳遞聲學(xué)信息
聲紋識人:通過聲紋可以進(jìn)行身份判斷,并且可以在下達(dá)指令的同時進(jìn)行身份判斷,效率更高。同時聲音還可以判斷性別、年齡層、情緒等信息。
聲音傳遞情感:聲音交互可以傳遞情感、語氣,因此在有情感訴求的場景下,語音交互是一個很好的選擇。
但是,有利就有弊,語音交互同時也存在著一些弊端。
弊端
信息接收效率低
當(dāng)信息量大、內(nèi)容較長時,語音交互的效率就會降低,同時,語音交互是線性的,也就是別人說話時,必須都聽完才能理解其中的意思,這也大大降低了語音交互的信息接收效率。
嘈雜環(huán)境下語音識別精度降低
語音識別需要清晰的識別出人聲,嘈雜環(huán)境使得人聲的提取變得非常困難,尤其是針對遠(yuǎn)場語音交互,噪音的問題更加突出。
例如遠(yuǎn)場安靜環(huán)境下語音識別準(zhǔn)確率能達(dá)到 95%,但是在嘈雜環(huán)境下僅能達(dá)到 80% 左右。
雖然存在著這些弊端,但是語音交互還是在不斷完善中實(shí)現(xiàn)著自我突破。
來源:中國大數(shù)據(jù)