近來扎克伯格向記者公開演示了他2016年的作品,一個類似Jarvis的人工智能助手,從記者的描述來看,這人工智能助手大部分時候還比較不錯,但在語音交互環(huán)節(jié)則不太理想,對此媒體做了如下報道:
扎克伯格還建立了響應語音指令的系統(tǒng),并通過定制iOS應用控制。但這部分展示不太理想,他重復了四次指令才讓系統(tǒng)弄明白:天黑前不要開燈。扎克伯格略顯尷尬地說:“喔,這應該是它最失敗的表現(xiàn)了!”。
不過,Jarvis播放音樂的展示還算成功。扎克伯格下令:“給我們放段音樂吧!”幾秒鐘后,大衛(wèi)·庫塔(David Guetta)的《Would I Lie to You》 開始通過客廳揚聲器響起來。他說了兩次“把音量調高”后,系統(tǒng)照做無誤。最后,他同樣說了兩次才讓系統(tǒng)停止播放。
這非常有意思,因為從新聞來看“天黑前不要開燈”和“把音量調高”的失誤顯然都不是命令理解(語義)上有問題,否則你說八百遍Jarvis該不好使還是不好使。如果不是語義的問題,那顯然就會和各大公司所宣稱的已經(jīng)被解決的問題:語音識別有關。
標準環(huán)境解決≠真實效果好
關于語音識別的精度今年官方的報道一般是這樣的:
11月21日到23日,搜狗、百度和科大訊飛三家公司接連召開了三場發(fā)布會向外界展示了自己在語音識別和機器翻譯等方面的最新進展。值得注意的是,這三家公司幾乎在同一時段宣布了各自中文語音識別準確率達到了97%。
類似的報道也會發(fā)生在微軟等的身上,我們假設Facebook做的不是太差,水平也與此類似達到97%的準確率。97%的具體含義是100個單詞上只有3個錯誤(刪除、被替換、被插入),那么問題就來了,如果真實環(huán)境里真的達到了這個精度,那么小扎的演示絕對不應該是上面這個樣子。
那問題出在那里?
關鍵問題并不復雜,扎克伯格用手機當做家庭里的終端,這樣距離稍微一遠,環(huán)境稍微嘈雜一點,那再好的手機也沒辦法幫Jarvis聽清楚你在說什么。手機本身是設計給近場用的,手機上的語音識別基本也是給近場優(yōu)化過的,怎么也不能彌補遠場上帶來的不適應。
扎克伯格對此非常坦誠,他在博客這么寫道:
In the case of Jarvis, training an AI that you'll talk to at close range is also different from training a system you'll talk to from all the way across the room, like Echo. These systems are more specialized than it appears, and that implies we are further off from having general systems than it might seem.
原文:https://www.facebook.com/notes/mark-zuckerberg