迎接人類與機器開口對話的新時代
語音接口將為智能家居領(lǐng)域帶來全新的面貌,以往智能家居很大的一個問題就在于功能操作上不方便,而AI將改變?nèi)藱C互動的模式…
一直以來我們熟悉的“人機接口”都是著重于視覺──我們與機器之間的互動主要是透過功能選單、圖形化接口,需要眼、手并用,透過操作遙控器或是觸控屏幕,才能順利對機器下指令,啟動正確的功能;盡管已經(jīng)習(xí)慣這樣的模式,這與人類所追求的“直觀接口”仍然相去甚遠,而隨著語音識別、音訊技術(shù)的不斷演進,現(xiàn)在我們只要開口就能與機器溝通。
從內(nèi)建于蘋果(Apple)操作系統(tǒng)iOS的語音助理軟件Siri,到近兩年來蔚為風(fēng)潮、由亞馬遜(Amazon)推出的Echo智能喇叭(smart speaker)所帶動的各種智能語音助理裝置,新一代的電子裝置不但能聽得懂人類指令啟動相對應(yīng)的正確功能,結(jié)合云端的人工智能(AI)與機器學(xué)習(xí)等技術(shù),它們甚至能主動提醒日常生活重要事項,或是陪著人們聊天解悶。
對全球智慧家庭市場有多年深刻觀察的Dialog Semiconductor產(chǎn)品營銷經(jīng)理同偉,在今年臺北國際計算機展(Computex 2017)期間接受媒體團訪時就表示,他認為語音接口將為智能家居領(lǐng)域帶來全新的面貌,以往智能家居很大的一個問題就在于功能操作上不方便,而AI將改變?nèi)藱C互動的模式;美高森美(Microsemi)語音業(yè)務(wù)部門營銷暨應(yīng)用總監(jiān)Shahin Sedeghi也認為,未來在智能家居應(yīng)用情境中,人們不再需要用手觸碰任何開關(guān)或屏幕。
Sedeghi引述市場研究機構(gòu)ABI Research在2016年發(fā)布的預(yù)測報告指出,估計到2022年,支持語音控制的裝置出貨量將達到7,500萬臺,其中智能喇叭/數(shù)字語音助理將占據(jù)其中的三分之二(約4,700萬臺),而預(yù)期Amazon (Alexa)與Google的智能語音助理軟件會成為市場主流;他并認為智能語音助理市場的主要推手,會是支持較復(fù)雜語音控制指令的電視機/機頂盒(STB)以及智能喇叭。
ABI Research預(yù)測,到2022年,全球語音控制裝置出貨量將達7,500萬臺
音頻芯片設(shè)計大廠瑞昱(Realtek)在Computex 2017期間就展示了結(jié)合Google語音助理功能的機頂盒與電視機解決方案;借助語音指令,用戶在搜尋在線內(nèi)容或是本地儲存影音檔案時,不必再透過遙控器操作層層迭迭的功能選單或是費力輸入搜尋關(guān)鍵詞,而是只要對著電視機/機頂盒說出想看的頻道或是影片、節(jié)目名稱,就能找到相對應(yīng)的內(nèi)容。
瑞昱在Computex展示支持語音控制接口的機頂盒與電視機
軟件以及云端服務(wù)可說是智能語音助理應(yīng)用的靈魂所在,但智能語音助理裝置硬件性能的優(yōu)劣,也對于語音控制接口的表現(xiàn)至關(guān)重要,機器必須要能清楚地聽見、聽懂用戶發(fā)出的語音指令;而在這方面扮演要角的,就是收音麥克風(fēng)以及音頻處理器。
以Amazon智能喇叭Echo為例,該裝置采用以7個MEMS麥克風(fēng)組成的數(shù)組,以支持更高質(zhì)量的收音;而Microsemi的Timberwolf系列音頻處理器(ZL38063)則是能支持多麥克風(fēng)數(shù)組智能語音助理裝置的方案,搭配其AcuEdge固件,支持波束成形、指向性收音以及降低噪聲等功能,號稱能實現(xiàn)360度的收音以及5公尺以上的語音識別,即使是在同時播放音樂的情況下也能清楚聽見觸發(fā)關(guān)鍵詞(例如:Alexa),然后中斷音樂執(zhí)行語音指令。
總之隨著語音控制技術(shù)不斷演進,我們已經(jīng)能用自然的說話方式跟機器互動,但對于已經(jīng)習(xí)慣了傳統(tǒng)人機接口的大多數(shù)人來說,可能需要先克服的是“開口問機器問題”的心理障礙──就像很多人打電話一聽到那頭是錄音機或是語音信箱就會不知所措──能不別扭地與機器順暢溝通,或許會是我們迎接未來世界得先學(xué)習(xí)的一門“技能”?