智能語(yǔ)音將成為未來(lái)商業(yè)變革的核心技術(shù)
掃描二維碼
隨時(shí)隨地手機(jī)看文章
(文章來(lái)源:百家號(hào))
一份來(lái)自大西洋彼岸的報(bào)告成為很多人關(guān)注的焦點(diǎn)。這份由美國(guó)知名投資機(jī)構(gòu)Mangrove Capital Partners發(fā)布的《2019年語(yǔ)音技術(shù)報(bào)告》(以下簡(jiǎn)稱報(bào)告)指出:2025年語(yǔ)音經(jīng)濟(jì)規(guī)?;?qū)⑦_(dá)1萬(wàn)億美元,正式超過(guò)移動(dòng)應(yīng)用經(jīng)濟(jì)。
過(guò)去幾年,谷歌、微軟、亞馬遜、百度等全球科技巨頭紛紛押注語(yǔ)音賽道,投影在人們面前的是接踵而至的明星語(yǔ)音產(chǎn)品——Echo智能音箱、Siri智能語(yǔ)音助手、Google Assistant谷歌語(yǔ)音助手、Cortana(微軟小娜)人工智能助理、Alexa語(yǔ)音識(shí)別引擎、百度小度助手(DuerOS)。
一個(gè)明顯的感覺(jué)是,語(yǔ)音識(shí)別正在成為人類(lèi)與互聯(lián)網(wǎng)溝通的新主流方式。但熱火朝天、寸土必爭(zhēng)的搶跑下注背后,人們不禁會(huì)想到那個(gè)柏拉圖式的問(wèn)題:智能語(yǔ)音到底是什么?它從哪來(lái)?又要到哪去?從歷史中不難找到關(guān)于語(yǔ)音技術(shù)的“蛛絲馬跡”。
早在80年前,首個(gè)能夠合成語(yǔ)音的機(jī)器誕生于美國(guó)新澤西州茉莉山上的貝爾實(shí)驗(yàn)室,如果把語(yǔ)音技術(shù)的發(fā)展看成一條射線,那么這個(gè)被譽(yù)為世界上最偉大的實(shí)驗(yàn)室可以看作是它的起點(diǎn)。兩年后的1954年,藍(lán)色“巨人” IBM與喬治城語(yǔ)言學(xué)家合作成功研制出一臺(tái)能夠把60句俄語(yǔ)話翻譯成英語(yǔ)的機(jī)器。而在不久后,第一個(gè)基于計(jì)算機(jī)的語(yǔ)音合成系統(tǒng)面世,語(yǔ)音技術(shù)就此開(kāi)始被疊加著與日俱增的想象。
人類(lèi)最不缺乏兩種能力,一種是想象力,另一種是創(chuàng)造力。但即使用幾十年后的今天來(lái)看當(dāng)時(shí),也很難預(yù)測(cè)出語(yǔ)音技術(shù)的發(fā)展軌跡。當(dāng)然,更難想到的是,這將成了一個(gè)全球的角斗場(chǎng)。對(duì)于智能語(yǔ)音技術(shù),坊間有一個(gè)頗為形象的比喻——遙控中樞。在一切都趨向具像化的如今,語(yǔ)音自然成了下一個(gè)產(chǎn)品形態(tài)的“摩斯密碼”。誰(shuí)能制定密碼規(guī)則,誰(shuí)就能掌控全局。
縱觀當(dāng)下世界智能語(yǔ)音交互市場(chǎng)的幾大主要玩家,百度從2010年開(kāi)始做語(yǔ)音技術(shù),如今已近十年;美國(guó)的亞馬遜Alexa花了二十二年;即便是誕生最晚的谷歌Google Assistant也有著近十余年的數(shù)據(jù)沉淀。騏驥千里非一日之功。掩藏在如今頗具智能化的Siri、谷歌助理、微軟小娜以及百度小度背后的是這個(gè)行業(yè)高筑的技術(shù)護(hù)城河。
今年年初,百度公布了語(yǔ)音領(lǐng)域的四項(xiàng)重大技術(shù)突破,其中,在線語(yǔ)音領(lǐng)域全球首創(chuàng)的流式多級(jí)的截?cái)嘧⒁饬δP停⊿MLTA,全稱為「Streaming trancated multi-layer attenTIon」),被業(yè)界人士將該項(xiàng)技術(shù)突破評(píng)價(jià)為技術(shù)領(lǐng)域的“登月計(jì)劃”。
去年公布的第二十屆中國(guó)專(zhuān)利評(píng)審結(jié)果中,百度的語(yǔ)音、機(jī)器翻譯、無(wú)人車(chē)相關(guān)三項(xiàng)專(zhuān)利獲獎(jiǎng),成為人工智能領(lǐng)域至今為止在國(guó)內(nèi)專(zhuān)利界獲得的最高級(jí)別政府獎(jiǎng)項(xiàng)。在此之中,“語(yǔ)音專(zhuān)利”涉及的新語(yǔ)音識(shí)別模型——采用深度學(xué)習(xí)算法在24時(shí)內(nèi)對(duì)數(shù)以百億級(jí)的大規(guī)模數(shù)據(jù)進(jìn)行實(shí)時(shí)分析,高性能計(jì)算,令語(yǔ)音識(shí)別技術(shù)的準(zhǔn)確率達(dá)97%,解決了語(yǔ)音識(shí)別領(lǐng)域關(guān)鍵性、共性的技術(shù)難題,被MIT 評(píng)為“2016年全球十大突破技術(shù)”。
在AI開(kāi)發(fā)者大會(huì)上,百度還推出了針對(duì)遠(yuǎn)場(chǎng)語(yǔ)音交互的鴻鵠芯片,可以實(shí)現(xiàn)遠(yuǎn)場(chǎng)陣列信號(hào)實(shí)時(shí)處理,高精度超低誤報(bào)語(yǔ)音喚醒以及離線語(yǔ)音識(shí)別。另一邊,百度旗下的明星產(chǎn)品小度智能音箱在今年第一季度更是達(dá)到了330萬(wàn)臺(tái)的超高出貨量,位居中國(guó)市場(chǎng)榜首。顯然,百度正在建立從硬件底層芯片、到上層的智能硬件系統(tǒng),再到系統(tǒng)軟件,語(yǔ)音客戶端,語(yǔ)音服務(wù)器及后端交互一體化的全鏈路語(yǔ)音交互技術(shù)。
可以肯定的是,下一個(gè)十年,語(yǔ)音技術(shù)將成為新的決定性主題。