語音識別發(fā)展?jié)u趨成熟,未來或成生物識別主流方式
(文章來源:最極客)
? ? ?? 語音識別技術,也被稱為自動語音識別(ASR)。其目標是將人類語音中的詞匯內容轉換為計算機可讀的數據,如字符序列或二進制編碼等。不過,早在計算機發(fā)明之前,人類就已經開始了對語音識別技術的研究,早期的聲碼器即可看作是語音識別及合成的雛形。1920年代生產的“Radio Rex”玩具狗可能是最早的語音識別器。只要呼喚這只狗的名字,他就會從底座上彈出來。
1952年,貝爾研究所的Davis等人開發(fā)了Audrey語音識別系統,成為世界上首個能夠識別10個英文數字發(fā)音的實驗系統。其識別方法主要是追蹤語音中的共振峰,該系統的準確率為98%。到1950年代末,College of London(倫敦學院)將語法概率加入語音識別中。
1960年,英國的Denes等人研究成功了第一個計算機語音識別系統,同時人工神經網絡被引入語音識別。70年代后,語音識別在孤立詞及小詞匯量的識別方面取得了實質性進展。到了80年代,研究重點轉向大詞匯量、非特定人連續(xù)語音識別。與此同時,語音識別的研究思路由傳統的基于標準模板匹配的技術轉為基于HMM(統計模型)的技術,并再次提出將神經網絡技術引入語音識別領域的技術思路。
1981年,日本在第五代計算機計劃中提出了關于語音識別輸入-輸出自然語言的目標。盡管沒有按照預期實現,但關于語音識別技術的研究有了大幅度的提升和進展。1987年開始,日本又出臺了高級人機口語接口和自動電話翻譯系統的項目。進入90年代以后,在語音識別的系統框架方面并沒有什么重大突破。但是,在語音識別技術的應用及產品化方面出現了很大的進展。
中國的語音識別發(fā)展研究起始于1958年,由中國科學院聲學所利用電子管電路識別10個元音。1973年,中國科學院聲學所開始了對計算機語音識別的研究。由于當時被條件所限,中國語音識別研究工作一直處于緩慢發(fā)展的狀態(tài)。
1986年3月,中國高科技發(fā)展計劃(863計劃)啟動,因為語音識別是智能計算機系統研究的一個重要組成部分,故而被專門列為研究課題。在863計劃的支撐下,中國開始了有組織的語音識別技術的研究。由此,中國語音識別技術進入了一個前所未有的發(fā)展階段。
2006年深度學習興起,2009年深度學習首次在語音識別任務中取得成功,基于深度學習的語音識別取得了很大的突破。在技術方面,語音識別從最初的前饋全連接神經網絡,到之后的遞歸神經網絡,到長短時記憶模型,再到當前包含數十層結構的深層全卷積神經網絡。網絡結構愈加復雜,但也越來越能夠契合語音的特性從而實現建模,相應的效果也愈發(fā)顯著。
當下,基于深度學習的語音識別系統已經通過海量的用戶大數據訓練得到了一個通用的識別系統,在日常場合已經能夠實現應用。技術的成熟以及廣闊的前景使得許多互聯網公司也紛紛入局語音識別領域。
去年12月,阿里巴巴宣布為上海全部地鐵站的售票機安裝語音識別技術,用以驗證上班族的身份??拼笥嶏w也在安徽為醫(yī)療信息提供語音簽名服務,同時為警方提供語音識別服務。此外,百度、騰訊也分別在語音識別領域有所動作。由此可見,語音識別技術很可能成為繼人臉識別技術后的下一個生物識別的主流方式,并逐漸受到廣泛的關注和消費級的應用。但在發(fā)展過程中,仍然不可避免地會遭遇一些瓶頸。