語音接口將為智能家居領域帶來全新的面貌,以往智能家居很大的一個問題就在于功能操作上不方便,而AI將改變人機互動的模式…
一直以來我們熟悉的“人機接口”都是著重于視覺──我們與機器之間的互動主要是透過功能選單、圖形化接口,需要眼、手并用,透過操作遙控器或是觸控屏幕,才能順利對機器下指令,啟動正確的功能;盡管已經習慣這樣的模式,這與人類所追求的“直觀接口”仍然相去甚遠,而隨著語音識別、音訊技術的不斷演進,現(xiàn)在我們只要開口就能與機器溝通。
從內建于蘋果(Apple)操作系統(tǒng)iOS的語音助理軟件Siri,到近兩年來蔚為風潮、由亞馬遜(Amazon)推出的Echo智能喇叭(smart speaker)所帶動的各種智能語音助理裝置,新一代的電子裝置不但能聽得懂人類指令啟動相對應的正確功能,結合云端的人工智能(AI)與機器學習等技術,它們甚至能主動提醒日常生活重要事項,或是陪著人們聊天解悶。
對全球智慧家庭市場有多年深刻觀察的Dialog Semiconductor產品營銷經理同偉,在今年臺北國際計算機展(Computex 2017)期間接受媒體團訪時就表示,他認為語音接口將為智能家居領域帶來全新的面貌,以往智能家居很大的一個問題就在于功能操作上不方便,而AI將改變人機互動的模式;美高森美(Microsemi)語音業(yè)務部門營銷暨應用總監(jiān)Shahin Sedeghi也認為,未來在智能家居應用情境中,人們不再需要用手觸碰任何開關或屏幕。
Sedeghi引述市場研究機構ABI Research在2016年發(fā)布的預測報告指出,估計到2022年,支持語音控制的裝置出貨量將達到7,500萬臺,其中智能喇叭/數字語音助理將占據其中的三分之二(約4,700萬臺),而預期Amazon (Alexa)與Google的智能語音助理軟件會成為市場主流;他并認為智能語音助理市場的主要推手,會是支持較復雜語音控制指令的電視機/機頂盒(STB)以及智能喇叭。
ABI Research預測,到2022年,全球語音控制裝置出貨量將達7,500萬臺
音頻芯片設計大廠瑞昱(Realtek)在Computex 2017期間就展示了結合Google語音助理功能的機頂盒與電視機解決方案;借助語音指令,用戶在搜尋在線內容或是本地儲存影音檔案時,不必再透過遙控器操作層層迭迭的功能選單或是費力輸入搜尋關鍵詞,而是只要對著電視機/機頂盒說出想看的頻道或是影片、節(jié)目名稱,就能找到相對應的內容。
瑞昱在Computex展示支持語音控制接口的機頂盒與電視機
軟件以及云端服務可說是智能語音助理應用的靈魂所在,但智能語音助理裝置硬件性能的優(yōu)劣,也對于語音控制接口的表現(xiàn)至關重要,機器必須要能清楚地聽見、聽懂用戶發(fā)出的語音指令;而在這方面扮演要角的,就是收音麥克風以及音頻處理器。
以Amazon智能喇叭Echo為例,該裝置采用以7個MEMS麥克風組成的數組,以支持更高質量的收音;而Microsemi的Timberwolf系列音頻處理器(ZL38063)則是能支持多麥克風數組智能語音助理裝置的方案,搭配其AcuEdge固件,支持波束成形、指向性收音以及降低噪聲等功能,號稱能實現(xiàn)360度的收音以及5公尺以上的語音識別,即使是在同時播放音樂的情況下也能清楚聽見觸發(fā)關鍵詞(例如:Alexa),然后中斷音樂執(zhí)行語音指令。
總之隨著語音控制技術不斷演進,我們已經能用自然的說話方式跟機器互動,但對于已經習慣了傳統(tǒng)人機接口的大多數人來說,可能需要先克服的是“開口問機器問題”的心理障礙──就像很多人打電話一聽到那頭是錄音機或是語音信箱就會不知所措──能不別扭地與機器順暢溝通,或許會是我們迎接未來世界得先學習的一門“技能”?