微軟今日發(fā)布用于語(yǔ)音識(shí)別技術(shù)“認(rèn)知工具包”
一個(gè)月前,微軟的對(duì)話語(yǔ)音識(shí)別技術(shù)在產(chǎn)業(yè)標(biāo)準(zhǔn) Switchboard 語(yǔ)音識(shí)別基準(zhǔn)測(cè)試中實(shí)現(xiàn)了詞錯(cuò)率(word error rate, 簡(jiǎn)稱 WER)低至 6.3% 的突破 ,創(chuàng)造當(dāng)時(shí)該領(lǐng)域內(nèi)錯(cuò)誤率最低紀(jì)錄。
近期,微軟進(jìn)一步將詞錯(cuò)率降低至5.9%,首次達(dá)成與專業(yè)速記員持平而優(yōu)于絕大多數(shù)人的表現(xiàn)。
微軟的語(yǔ)音識(shí)別技術(shù)可以一次又一次刷新紀(jì)錄,在很大程度上要?dú)w功于 CNTK (ComputaTIonal Network Toolkit) 這個(gè)開(kāi)源工具。
該系統(tǒng)最初是為了研究語(yǔ)音應(yīng)用而建立,后來(lái)拓展發(fā)展成為微軟本地化深度學(xué)習(xí)系統(tǒng)。CNTK 工具包已于一年前在 GitHub 上開(kāi)源,目前包括微軟人工智能個(gè)人助理小娜和 HoloLens 的語(yǔ)音識(shí)別都是基于 CNTK 實(shí)現(xiàn)的。CNTK 跟其他開(kāi)源軟件最大的區(qū)別是它能做大規(guī)模、分布式的機(jī)器學(xué)習(xí),同時(shí)保證強(qiáng)大的性能。
今天,該工具包進(jìn)行了更新,新增一個(gè)被稱為“認(rèn)知工具包”的測(cè)試版。
針對(duì)語(yǔ)音識(shí)別的研究可以追溯到上個(gè)世紀(jì)七十年代 DARPA(Defense Advanced Research Projects Agency,美國(guó)國(guó)防部先進(jìn)研究項(xiàng)目局,主要致力于美國(guó)國(guó)防高新技術(shù)的研究、開(kāi)發(fā)和應(yīng)用)資助的一個(gè)相關(guān)項(xiàng)目。此后幾十年,越來(lái)越多研究機(jī)構(gòu)和大型公司陸續(xù)加入其中。
“這次突破是過(guò)去二十多年語(yǔ)音識(shí)別技術(shù)不斷積累的結(jié)果,”微軟主管語(yǔ)言及對(duì)話研究組的研究員 Geoffrey Zweig 稱。
現(xiàn)在微軟達(dá)到的 5.9% 的詞錯(cuò)率是什么概念?在行業(yè)標(biāo)準(zhǔn) Switchboard 語(yǔ)音識(shí)別任務(wù)測(cè)試中,人類對(duì)照組(由專業(yè)速記員組成)將對(duì)話語(yǔ)音轉(zhuǎn)錄成文字,目前有記錄的最低詞錯(cuò)率就是 5.9%,這就意味著微軟的語(yǔ)音識(shí)別系統(tǒng)的語(yǔ)音識(shí)別能力已經(jīng)高于世界上絕大多數(shù)人而與人類專業(yè)高手持平,創(chuàng)造了一項(xiàng)新的世界紀(jì)錄。
此次語(yǔ)音識(shí)別的里程碑式突破將對(duì)消費(fèi)者和商業(yè)產(chǎn)品產(chǎn)生深遠(yuǎn)影響,因?yàn)檎Z(yǔ)音識(shí)別技術(shù)能夠顯著增強(qiáng)人們的日常計(jì)算體驗(yàn)。這些產(chǎn)品包括像 XBOX 的娛樂(lè)設(shè)備、像微軟小娜(Cortana)的生產(chǎn)力工具以及能實(shí)現(xiàn)實(shí)時(shí)語(yǔ)音到文本轉(zhuǎn)錄的個(gè)人人工智能助手。
微軟團(tuán)隊(duì)的詞錯(cuò)率雖然實(shí)現(xiàn)了與人類專業(yè)速記員持平的 5.9%,但這并不代表計(jì)算機(jī)就能完美識(shí)別出每一個(gè)單詞。如果哪天計(jì)算機(jī)能完美識(shí)別“藍(lán)瘦”、“香菇”,那語(yǔ)音識(shí)別技術(shù)又將達(dá)到一個(gè)新的高度。