機器會說話就一定很聰明嗎?
科幻小說中經(jīng)常描繪機器具備高度智慧,并能自然地與人類互動。但機器真的能完全自然地與人類互動嗎?市面上雖然已有許多不錯的語音接口,但要達到完美、無縫的語音接口控制,還有許多問題要解決……
語音接口在2017年成為相當(dāng)火紅的話題,許多人甚至將2017年稱為語音控制年。但只要接觸過語音控制的用戶,一定曾碰過令人頭痛抓狂的時候;雖然語音有機會成為人機接口的最終選擇,但現(xiàn)在還不是時候。在這篇文章中,我們將探討語音控制的幾個問題,以及有那些需要改進的功能。
大廠采用自家平臺
目前,在語音接口領(lǐng)域中,最明顯的首要問題就是封閉平臺(walled garden)的問題——每家大廠都采用自己開發(fā)的封閉系統(tǒng),想從語音接口上賺錢當(dāng)然是一件棘手的事。相較于視覺媒體(visual media)——如網(wǎng)頁瀏覽器、文字搜索引擎,要在語音接口上投放廣告并不容易。當(dāng)然,如亞馬遜(Amazon)這一類的公司必須確認其語音服務(wù)是否能帶來獲利,因此,Alexa的重要功用之一當(dāng)然就是幫助你在亞馬遜網(wǎng)站上進行購物。
但若跟其他廠商買東西時會發(fā)生什么情況?顯然地,各種語音助理分別在產(chǎn)品與服務(wù)中提供了封閉的系統(tǒng),因而限制了用戶的選擇。一種可能的做法是讓所有的裝置與服務(wù)都能透過語音啟動。之后只要透過編程,機器間就能透過語音互相溝通合作,舉例來說,Alexa可以透過語音控制電視、錄制用戶喜愛的電視節(jié)目,而無關(guān)乎電視服務(wù)供貨商是誰。這將有助于解決封閉平臺的問題,并且讓使用者了解機器間如何溝通。
但是,另一方面,當(dāng)家中的冰箱、電視、吸塵器、燈具或其他電子裝置大聲溝通時,有可能使環(huán)境變得嘈雜,就像動畫電影《玩具總動員》(Toy Story)里面的玩具一樣。
截至目前為止,在這些情況可能實現(xiàn)之前,仍然有些問題要解決。在一個有關(guān)Alexa和Google語音助理之間“永無止境”的對話影片中,顯示了可能發(fā)生的問題。
雖然這是預(yù)先安排好的,但由于一些意外觸發(fā)所導(dǎo)致的干擾與技術(shù)上的小問題仍然出現(xiàn),像是先前在電視新聞報導(dǎo)時,主播說了一句:“Alexa,幫我買一間娃娃屋。”你可以想象接下來會發(fā)生什么事情——許多觀眾家中的Echo意外被觸發(fā)甚至下訂!
虛擬語音助理能多聰明?
接著談到下一個議題——何謂人工智能(artificial intelligence;AI)。由于深度學(xué)習(xí)(deep learning)與其他人工智能領(lǐng)域的長足進步,現(xiàn)今許多裝置支持的自動語音識別(ASR)已有一定水平。但這些虛擬助理(virtual assistant)到底能聰明到什么程度?我們又能指望他們些什么呢?
在計算機科技領(lǐng)域,與人工智能相關(guān)且最廣為人知的就是由艾倫·圖靈(Alan Turing)所設(shè)計的圖靈測試(Turing test)。為了通過測試,具備人工智能的機器在測試時必須與人類的反應(yīng)幾乎一樣,電影《人造意識》(Ex Machina)就是一個很好的示范。電影中的人形機器人Ava成功地通過圖靈測試,其成功的關(guān)鍵在于Ava能無限制地存取用戶的信息,以及所有人類的興趣、喜好與想法。電影中收集巨量資料的虛擬公司Blue Book讓人聯(lián)想到Google與Facebook。
電影《人造意識》(Ex Machina)中的人形機器人Ava;Alexa還要多久才能成為像Ava這樣的智慧機器人?
先不管科幻小說的內(nèi)容,很難說還要多久才能設(shè)計出這樣智能化的機器。一方面,機器學(xué)習(xí)的發(fā)展神速,以較專家們預(yù)期更快的速度不斷達到里程碑,例如AlphaGo打敗韓國棋王李世石。但是許多一般的聊天機器人(chatbots)則沒有這么聰明,他們會犯一般人不可能會做的錯誤,像是提供色情內(nèi)容給孩童、不經(jīng)意地說出種族歧視的字眼,甚至只是令人沮喪地健忘。由于這些情形,讓我們覺得機器人要達到Ava等級的智能化似乎是遙不可及。
手動點擊才能啟動hand-free接口?
語音接口中最重要且最有用的功能之一是不必靠手來控制,這是它的優(yōu)點之一,你可以在雙手忙著做其他事情的同時,使用語音接口控制電子裝置,例如開車時(「播放媒體」)、煮飯時(「設(shè)定8分鐘的烹調(diào)時間」)、打字時(「要求提供『許多』同義字」)、抱小孩時(「關(guān)燈」)、手拿日用品時(「開門」)等等。其概念是讓你使用你的聲音控制,而不必動手。但令人困惑的是,許多語音控制的裝置在啟動前必須先進行手動設(shè)定,例如以手點擊或滑動之后電子裝置才會啟動語音控制。
這樣做的原因并不是什么秘密。“傾聽”(listen)這個動作是主動狀態(tài),需要經(jīng)過處理,因此會使用到電池,而在便攜設(shè)備中,電池的容量有限。因此,為了減少耗電量,便攜設(shè)備中會加入手動觸發(fā)的設(shè)計。但想象一下,如果你有一個朋友或是同事,總是在做任何活動前都在睡覺,你要和他們說話前都要先戳他們一下,那就很不優(yōu)了,對吧?語音控制的裝置也是同樣的情形,點擊才能開啟功能并不合理。要同時達到可攜與不用手動控制的理想狀況,就得有效地利用既有資源。情境處理上必須絕對有效率地處理特定功能,這就是為什么要有長時傾聽(always-listening)的設(shè)計。
有一些裝置已經(jīng)是永遠開機的狀態(tài),所以要等到這些耗電的處理器達到低功耗且永遠開機的狀態(tài),還需要一些時間。最近推出的Amazon Echo Tap就是最好的左證,它可以不需要用手操作。亞馬遜透過在線軟件更新(over-the-air;OTA)來提供這個功能,這也突顯出在快速變化的市場中,提供具有彈性、可隨時更新的解決方案有多重要。(他們在為產(chǎn)品命名時,顯然沒有想到要加入更新功能。)
長時傾聽(與免手動控制)的功能讓語音接口變得更便利
缺點是,要達到持續(xù)更新與長時傾聽的功能,電池壽命會減少到只剩8小時。在以后的報導(dǎo)中,我們將討論如何增加待機時間的技術(shù),使電池使用壽命從8小時延長到3個月!
機器真的能完全自然地與人類互動嗎?現(xiàn)在市場上有許多不錯的語音接口,但若要達到完美、無縫的語音接口控制,還有許多問題要解決。許多科幻小說中描繪機器具備高度智慧,并能自然地與人類互動。未來,我們將進一步探索那些能讓我們更接近這個奇妙境界的未來科技。