超低價(jià)語音識別芯片能否顛覆人工智能
Google 工程師 Pete Warden 在英國 ARM 研究高峰論壇表示,他希望打造超便宜的語音識別產(chǎn)品,搭載只要 50 美分的超低價(jià)芯片,一個(gè)硬幣大小的電池,足以維持一年的電力,再搭配簡單的人工智能算法, 就可以讓語音識別產(chǎn)品快速普及。
麻省理工科技評論(MIT Technology Review)報(bào)導(dǎo),這種超便宜的語音識別芯片可用來生產(chǎn)便宜的對話玩偶,或是簡單的家用電器,如可被語音驅(qū)動的燈。 在工業(yè)環(huán)境應(yīng)用,這種芯片可辨識不尋常的聲響,或是農(nóng)田里的蟋蟀。
Warden 為 Google 的云端人工智能工具開發(fā)行動和嵌入式應(yīng)用,稱為 TensorFlow,他在開發(fā)過程中發(fā)現(xiàn)亞馬遜的 AI 助手 Alexa 透過電池供電的簡單芯片運(yùn)作,頻率只有幾百兆赫是不夠的,原因是 Alexa 必須辨識許多不同的聲音,而且因?yàn)榇蠖鄶?shù)語音識別 AI 工具使用的神經(jīng)網(wǎng)絡(luò)資源匱乏,這就是為什么 Alexa 必須將處理任務(wù)交給云端的原因。
為改善上述問題,Warden 限制問題的問法,譬如只能使用開、關(guān)、啟動、停止等字眼,并舍棄一般語音識別算法,他拿一個(gè)音頻將其切成短片段,然后計(jì)算每個(gè)片段的頻率內(nèi)容,接著一個(gè)接一個(gè)排列每個(gè)頻率圖, 以建立一個(gè)頻率內(nèi)容與時(shí)間的二維圖像,并應(yīng)用視覺辨識算法來辨識單詞的獨(dú)特記號。
第一次嘗試分析音頻的 1 秒鐘片段需要 800 萬次計(jì)算,準(zhǔn)確度為 89%,這可用現(xiàn)代智能手機(jī)運(yùn)作,并且互動速度也夠快,這種方式比將運(yùn)算過程送到云端更好,但是在低功耗芯片上性能不佳。
后來開發(fā)團(tuán)隊(duì)借鑒一些幫助 Android 手機(jī)辨識短語的算法技巧后,系統(tǒng)只需執(zhí)行 75 萬次計(jì)算,就能達(dá)到 85% 的分析準(zhǔn)確率,研究團(tuán)隊(duì)已經(jīng)在 TensorFlow 網(wǎng)站發(fā)表代碼供他人使用,他們打算應(yīng)用在類似單芯片微控制器 Arduino 搭載的更小芯片。
但英國劍橋大學(xué)前 AI 研究員 Tony Robinson 認(rèn)為,低成本策略可能可以幫助語音識別產(chǎn)品普及,不過用戶不太可能按表操課,大多數(shù)人沒有耐心使用高度限制性的指令,認(rèn)為功率稍微高一點(diǎn),可以處理更多語言能力的芯片, 可能更適合消費(fèi)者應(yīng)用。