無處不在的語音識別,讓物聯(lián)網(wǎng)用戶體驗再升級
隨著語音技術(shù)的不斷發(fā)展,語音識別已在多個領(lǐng)域廣泛利用。我們體驗過語音輸入、語音控制及語音撥號等應(yīng)用的便捷,但是也經(jīng)常吐槽其辨識度的瓶頸。盡管如此當(dāng)下火熱的可穿戴設(shè)備廠商也力拼此項技術(shù),顯然,語音識別被認(rèn)為是未來物聯(lián)網(wǎng)領(lǐng)域的基礎(chǔ)需求,甚至將會無處不在。
據(jù)中國智能語音產(chǎn)業(yè)聯(lián)盟發(fā)布的《2013中國智能語音產(chǎn)業(yè)發(fā)展白皮書》稱,智能語音已進入快速應(yīng)用階段。去年,中國智能語音產(chǎn)業(yè)規(guī)模約為8.6億元,帶動相關(guān)產(chǎn)業(yè)產(chǎn)值100億元,預(yù)計到2017年,將帶動相關(guān)產(chǎn)業(yè)規(guī)模增長1000億元,占全球相關(guān)產(chǎn)業(yè)規(guī)模的比重將由去年的5.6%增至17.1%。
上述針對語音產(chǎn)業(yè)市場的數(shù)據(jù)并不是特別可信,僅科大訊飛剛剛公布的2013年年報顯示,實現(xiàn)營業(yè)總收入125370.78萬元,同比增長59.92%,實現(xiàn)利潤總額32058.40萬元。試問,上述白皮書的內(nèi)容如何讓人信服。
增強用戶體驗,云平臺仍需完善
以目前的技術(shù),語音識別在實驗室條件下能達到非常高的準(zhǔn)確率,但實際應(yīng)用中往往遇到環(huán)境噪音、方言口音、話題專業(yè)性等問題,最終影響用戶體驗,因此,技術(shù)的穩(wěn)定和成熟程度是語音識別的創(chuàng)業(yè)門檻。梁家恩認(rèn)為,要想把語音識別系統(tǒng)做好,除了有強大的算法以外,還要有大量的數(shù)據(jù)。他坦言,與行業(yè)老大科大訊飛相比,云知聲的數(shù)據(jù)量要少得多,不過,通過建立公有云平臺,可以不斷積累數(shù)據(jù),從而優(yōu)化系統(tǒng)。
云知聲聯(lián)合創(chuàng)始人、CEO梁家恩表示相比傳統(tǒng)做2B的語音識別公司,云知聲的基因更偏向于互聯(lián)網(wǎng),通過免費的公有云語音平臺帶動私有云服務(wù)的定制,還為日后進一步商業(yè)化埋下伏筆。
具體而言,公有云平臺提供大詞匯量連續(xù)語音在線識別,開發(fā)者不論大小,都可以通過API直接調(diào)用公有云服務(wù)。事實上,云知聲的客戶里80%以上都是中小企業(yè)和個人開發(fā)者,這恰好與深耕大客戶服務(wù)的科大訊飛形成了一種差異和互補。不過,這并不影響大企業(yè)對云知聲的青睞。梁家恩坦言,包括樂視、錘子RO M,其實一開始找的都是科大訊飛,云知聲之所以最終能吸引到他們,除了技術(shù)達到一定水準(zhǔn)以外,快速的執(zhí)行力是最大的優(yōu)勢。“以跟搜狗的合作為例,從第一次接觸,到搜狗語音助手的發(fā)布只花了兩周時間,而一般來說要洽談幾個月。”這些大企業(yè)本身的用戶量很大,一下子給公有云平臺帶來了大量數(shù)據(jù)。
有了公有云作為基礎(chǔ),云知聲進一步探索私有云的路徑。梁家恩解釋,公有云平臺提供的只是基礎(chǔ)的語音技術(shù)服務(wù),而事實上,語音交互跟企業(yè)業(yè)務(wù)的關(guān)聯(lián)性很強,對于那些對語音有剛需的企業(yè)來說,公有云并不足以完全滿足需求,還要根據(jù)企業(yè)特有的應(yīng)用環(huán)境優(yōu)化識別模型。比如云知聲與樂視的合作,就是將語音助手根據(jù)電視領(lǐng)域進行了深度定制和融合,使得效果更貼合智能電視的實際使用。
智能手表將綁定語音識別
智能手表屏幕較小,使用額外的S-pen一類的輔助工具也并不現(xiàn)實,在當(dāng)前條件下看,唯有依靠語音輸入了。語音輸入看上去是個不大的基礎(chǔ)應(yīng)用,實現(xiàn)起來卻需要非常復(fù)雜的技術(shù)能力,已經(jīng)涉及到人工智能AI的范疇,而且這個技術(shù)已經(jīng)進化了幾十年,似乎還沒得以大規(guī)模商用,可見其開發(fā)難度。
Gear中內(nèi)置了三星自己的S-Voice,另外也和百度合作,將百度語音助手預(yù)裝了進去??磥戆俣扰c三星的關(guān)系相當(dāng)不一般,前有百度云,后有語音助手,對看重安卓更甚iOS的百度,支持力度相當(dāng)大。不過,還是有理由相信,百度語音助手的技術(shù)實力已達到三星所期望的程度,預(yù)裝其語音產(chǎn)品,可以給智能手表帶來更好的用戶體驗。語音有可能是智能手表的唯一輸入方式,在這方面無法做到準(zhǔn)確,易用,快捷,是很難讓用戶買單的,會成為其發(fā)展瓶頸。
其他一些語音識別工具,如搜狗和科大訊飛等產(chǎn)品,是不是也能做到差不多的識別效果。Viavoice是一種學(xué)習(xí)型的語音識別軟件,你需要適時地對識別結(jié)果進行調(diào)整,以方便機器下一次識別,積累下來的識別數(shù)據(jù)要妥善保護,要是因為一次重裝系統(tǒng)而導(dǎo)致丟失的話,一切都得重來。從商用角度來看,這還做不到多好的商用體驗,而如今的語音識別技術(shù),從體驗上明顯已能讓人看到曙光。
解決瓶頸,語音識別將無處不在
語音技術(shù)已經(jīng)發(fā)展了好一段時間,原本大多數(shù)出現(xiàn)在企業(yè)的客服專線,幾年前才開始運用于應(yīng)用程序中;現(xiàn)在我們能在應(yīng)用程序、游戲機、家庭自動化、機器人、可穿戴設(shè)備等應(yīng)用領(lǐng)域中看到它。“該技術(shù)將會無所不在,”美商Nuance CommunicaTIons的首席人機互動與對話設(shè)計師Tanya Kraljic表示:“隨著語音識別技術(shù)的不斷演進,人們將會理解,這是一種與科技互動的自然方法。”
當(dāng)然,還有一些障礙需要克服;不過Kraljic相信,語音識別技術(shù)的下一次飛躍將會是一種會通知進行對話,對使用者的過去、喜好以及個人更了解,并能使用傳感器來取得更多環(huán)境信息的智慧系統(tǒng):“我們已經(jīng)在感知技術(shù)以及自然語言理解技術(shù)方面取得很不錯的進展,現(xiàn)在我們需要拓展智慧功能的極限。”
Kraljic 指出,可穿戴設(shè)備將有助于促進語音技術(shù)的發(fā)展,特別是因為很多該類裝置配備較小尺寸的熒幕、或是沒有熒幕,就會倚重語音形式的人機互動方案。Google Glass與Motorola的Hint免持式耳機,就是采用語音作為主要輸入方式的兩個案例:“這類裝置的出現(xiàn)將語音識別使用體驗又往前推了幾步;”盡管對科技產(chǎn)品說話感覺還是有點怪,她認(rèn)為有一天社會風(fēng)氣會因為便利性以及使用價值等因素而有所改變。
未來隨著手持設(shè)備的小型化,甚至穿戴化,各種智能眼鏡,手表等層出不窮,誰能在語音輸入方面取得領(lǐng)先優(yōu)勢,誰就能掌握了用戶的一個基礎(chǔ)需求,誰也就能在物聯(lián)網(wǎng)世界里,占據(jù)一個重要入口。