語音識別雖然已經(jīng)發(fā)展的如火如荼,但還是有不少問題要改進,就如下面一段和語音識別相關(guān)的搞笑視頻里。也許,口音差異也是語音識別的一個難題。
語音識別技術(shù),也被稱為自動語音識別(ASR),其目標是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認不同,后者嘗試識別或確認發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。
語音識別技術(shù)的應(yīng)用包括語音撥號、語音導航、室內(nèi)設(shè)備控制、語音文檔檢索、簡單的聽寫數(shù)據(jù)錄入等。語音識別技術(shù)與其他自然語言處理技術(shù)如機器翻譯及語音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜的應(yīng)用,例如語音到語音的翻譯。
語音識別技術(shù)所涉及的領(lǐng)域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等等。
語音識別以谷歌GoogleNow和蘋果Siri為代表,將智能手機的功能帶入到人機互動時代。除了手機以外,如三星、LG、聯(lián)想的語音識別電視,各種安卓、iOS系統(tǒng)的平板幾乎都有語音識別功能。通過語音識別功能,用戶從一定程度上解放了雙手,也讓人們看到了未來人工智能領(lǐng)域廣闊的應(yīng)用前景。 |