語(yǔ)音識(shí)別發(fā)展?jié)u趨成熟,未來(lái)或成生物識(shí)別主流方式
掃描二維碼
隨時(shí)隨地手機(jī)看文章
(文章來(lái)源:最極客)
? ? ?? 語(yǔ)音識(shí)別技術(shù),也被稱為自動(dòng)語(yǔ)音識(shí)別(ASR)。其目標(biāo)是將人類語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的數(shù)據(jù),如字符序列或二進(jìn)制編碼等。不過(guò),早在計(jì)算機(jī)發(fā)明之前,人類就已經(jīng)開(kāi)始了對(duì)語(yǔ)音識(shí)別技術(shù)的研究,早期的聲碼器即可看作是語(yǔ)音識(shí)別及合成的雛形。1920年代生產(chǎn)的“Radio Rex”玩具狗可能是最早的語(yǔ)音識(shí)別器。只要呼喚這只狗的名字,他就會(huì)從底座上彈出來(lái)。
1952年,貝爾研究所的Davis等人開(kāi)發(fā)了Audrey語(yǔ)音識(shí)別系統(tǒng),成為世界上首個(gè)能夠識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)。其識(shí)別方法主要是追蹤語(yǔ)音中的共振峰,該系統(tǒng)的準(zhǔn)確率為98%。到1950年代末,College of London(倫敦學(xué)院)將語(yǔ)法概率加入語(yǔ)音識(shí)別中。
1960年,英國(guó)的Denes等人研究成功了第一個(gè)計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng),同時(shí)人工神經(jīng)網(wǎng)絡(luò)被引入語(yǔ)音識(shí)別。70年代后,語(yǔ)音識(shí)別在孤立詞及小詞匯量的識(shí)別方面取得了實(shí)質(zhì)性進(jìn)展。到了80年代,研究重點(diǎn)轉(zhuǎn)向大詞匯量、非特定人連續(xù)語(yǔ)音識(shí)別。與此同時(shí),語(yǔ)音識(shí)別的研究思路由傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的技術(shù)轉(zhuǎn)為基于HMM(統(tǒng)計(jì)模型)的技術(shù),并再次提出將神經(jīng)網(wǎng)絡(luò)技術(shù)引入語(yǔ)音識(shí)別領(lǐng)域的技術(shù)思路。
1981年,日本在第五代計(jì)算機(jī)計(jì)劃中提出了關(guān)于語(yǔ)音識(shí)別輸入-輸出自然語(yǔ)言的目標(biāo)。盡管沒(méi)有按照預(yù)期實(shí)現(xiàn),但關(guān)于語(yǔ)音識(shí)別技術(shù)的研究有了大幅度的提升和進(jìn)展。1987年開(kāi)始,日本又出臺(tái)了高級(jí)人機(jī)口語(yǔ)接口和自動(dòng)電話翻譯系統(tǒng)的項(xiàng)目。進(jìn)入90年代以后,在語(yǔ)音識(shí)別的系統(tǒng)框架方面并沒(méi)有什么重大突破。但是,在語(yǔ)音識(shí)別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展。
中國(guó)的語(yǔ)音識(shí)別發(fā)展研究起始于1958年,由中國(guó)科學(xué)院聲學(xué)所利用電子管電路識(shí)別10個(gè)元音。1973年,中國(guó)科學(xué)院聲學(xué)所開(kāi)始了對(duì)計(jì)算機(jī)語(yǔ)音識(shí)別的研究。由于當(dāng)時(shí)被條件所限,中國(guó)語(yǔ)音識(shí)別研究工作一直處于緩慢發(fā)展的狀態(tài)。
1986年3月,中國(guó)高科技發(fā)展計(jì)劃(863計(jì)劃)啟動(dòng),因?yàn)檎Z(yǔ)音識(shí)別是智能計(jì)算機(jī)系統(tǒng)研究的一個(gè)重要組成部分,故而被專門(mén)列為研究課題。在863計(jì)劃的支撐下,中國(guó)開(kāi)始了有組織的語(yǔ)音識(shí)別技術(shù)的研究。由此,中國(guó)語(yǔ)音識(shí)別技術(shù)進(jìn)入了一個(gè)前所未有的發(fā)展階段。
2006年深度學(xué)習(xí)興起,2009年深度學(xué)習(xí)首次在語(yǔ)音識(shí)別任務(wù)中取得成功,基于深度學(xué)習(xí)的語(yǔ)音識(shí)別取得了很大的突破。在技術(shù)方面,語(yǔ)音識(shí)別從最初的前饋全連接神經(jīng)網(wǎng)絡(luò),到之后的遞歸神經(jīng)網(wǎng)絡(luò),到長(zhǎng)短時(shí)記憶模型,再到當(dāng)前包含數(shù)十層結(jié)構(gòu)的深層全卷積神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)結(jié)構(gòu)愈加復(fù)雜,但也越來(lái)越能夠契合語(yǔ)音的特性從而實(shí)現(xiàn)建模,相應(yīng)的效果也愈發(fā)顯著。
當(dāng)下,基于深度學(xué)習(xí)的語(yǔ)音識(shí)別系統(tǒng)已經(jīng)通過(guò)海量的用戶大數(shù)據(jù)訓(xùn)練得到了一個(gè)通用的識(shí)別系統(tǒng),在日常場(chǎng)合已經(jīng)能夠?qū)崿F(xiàn)應(yīng)用。技術(shù)的成熟以及廣闊的前景使得許多互聯(lián)網(wǎng)公司也紛紛入局語(yǔ)音識(shí)別領(lǐng)域。
去年12月,阿里巴巴宣布為上海全部地鐵站的售票機(jī)安裝語(yǔ)音識(shí)別技術(shù),用以驗(yàn)證上班族的身份??拼笥嶏w也在安徽為醫(yī)療信息提供語(yǔ)音簽名服務(wù),同時(shí)為警方提供語(yǔ)音識(shí)別服務(wù)。此外,百度、騰訊也分別在語(yǔ)音識(shí)別領(lǐng)域有所動(dòng)作。由此可見(jiàn),語(yǔ)音識(shí)別技術(shù)很可能成為繼人臉識(shí)別技術(shù)后的下一個(gè)生物識(shí)別的主流方式,并逐漸受到廣泛的關(guān)注和消費(fèi)級(jí)的應(yīng)用。但在發(fā)展過(guò)程中,仍然不可避免地會(huì)遭遇一些瓶頸。