(文章來源:愛集微)
幾個月前,華為消費者業(yè)務CEO余承東表示華為正在研發(fā)國際版的語音助手,同時建立自己的AI服務,并將在未來擴展到國際市場。
在人工智能的潮流推動下,智能化語音技術不斷發(fā)展,許多電子設備中都添加了語音助手,如Siri、小愛同學、天貓精靈等,用來協助用戶進行人機交互過程。為了使得語音助手能夠及時檢測并響應用戶發(fā)出的語音交互指令,電子設備一般會預設一些喚醒詞,如“Hi Siri”等,當檢測到用戶輸入喚醒詞時,可觸發(fā)電子設備與用戶進行交流。
通常設備設置喚醒詞的聲強門限60dB,當用戶輸入聲強大于60dB時,電子設備檢測成功,然而當用戶距離設備較遠時,由于輸入聲強的降低,電子設備往往難以檢測到輸入語音信號從喚醒失敗。在這種情況下,如何在遠距離下提高語音助手喚醒成功率成為諸多企業(yè)競相研究的熱點。
華為公司于2019年7月25日提出了一項名為“一種語音喚醒方法及電子設備”的發(fā)明專利(申請?zhí)枺?01910677390 .9),申請人為華為技術有限公司。
此發(fā)明專利介紹了一種語音喚醒方法及相對應的電子設備,可以在較廣的位置范圍內保證電子設備被成功喚醒的幾率,從而提高用戶的使用體驗,而該種方法可以被應用于諸如智能家居設備、PC、手機、音箱等具有語音交互功能的電子設備之中。
通常語音交互過程可分為喚醒、響應、輸入、理解、反饋幾個環(huán)節(jié)。當設備處于待機狀態(tài)時,需要識別用戶輸入的語音喚醒信號,如果識別成功則切換到工作狀態(tài),此后則可以通過語音識別算法用戶對輸入的語義內容進行識別并響應。
從上述過程可以看出,成功喚醒電子設備是實現人機語音交互的基礎,而喚醒設備的過程就是通過預設的喚醒參數檢測用戶的語音輸入。喚醒參數如喚醒門限、拾音方向、噪聲抑制參數、放大增益等的取值決定了電子設備在檢測喚醒輸入語音時喚醒率的高低。在實際使用過程中,用戶相對設備的位置差異導致了喚醒率的不同,因此根據用戶所在的位置動態(tài)設置喚醒參數可以使得電子設備在不同位置場景下保持較高的喚醒率。
電子設備在待機狀態(tài)時可周期性地通過攝像頭采集用戶圖像信息,并根據圖像確定用戶所在的位置信息。對于不同區(qū)域,設備可預先設置對應的喚醒參數,以聲強為例,在近處的區(qū)域設置較大的門限,而在遠處區(qū)域設置較小的門限,從而使各個區(qū)域都達到較高的喚醒率。三個區(qū)域各自具有一套喚醒參數,從而提高了語音交互場景下用戶的使用體驗。
以智能電視為例,首先設備通過攝像頭采集圖像,并通過采集的圖像確定其中是否包含用戶,如果包含則確定圖像中第一用戶所在的第一目標位置,并獲取該位置下的喚醒參數。當用戶輸入語音后,設備根據上述喚醒參數處理輸入語音信號。如果用戶從區(qū)域1切換到區(qū)域2,則設備獲取區(qū)域2中的喚醒參數并進行信號處理,包括模數轉換、降噪、放大等,因此該設備可根據用戶所在位置實時動態(tài)的對切換喚醒參數,達到更好的人機交互效果。
? ? ?