機(jī)器語(yǔ)言:Siri是如何完成牙牙學(xué)語(yǔ)的
掃描二維碼
隨時(shí)隨地手機(jī)看文章
J.BrantWard是Nuance語(yǔ)音設(shè)計(jì)和發(fā)展業(yè)務(wù)的高級(jí)總監(jiān),他在硅谷的TTS產(chǎn)業(yè)一待就是10年。Nuance是全球最大的獨(dú)立語(yǔ)音識(shí)別和轉(zhuǎn)換技術(shù)供應(yīng)商。公司的業(yè)務(wù)包括給醫(yī)療行業(yè)提供語(yǔ)音治療記錄,他們研發(fā)的語(yǔ)音識(shí)別和轉(zhuǎn)換技術(shù)可以從平板一路用到汽車。
TTS產(chǎn)業(yè)競(jìng)爭(zhēng)激烈而且非常神秘
Ward和Nuance的高級(jí)設(shè)計(jì)總監(jiān)DavidVazquez目前正在研發(fā)公司的下一代合成語(yǔ)音。他們稱之為“技術(shù)和藝術(shù)的完美結(jié)合”。
盡管外界普遍認(rèn)為Siri的實(shí)現(xiàn)是Nuance做的,但Ward和Vazquez每每對(duì)這個(gè)話題總是顧左右而言他。對(duì)業(yè)務(wù)細(xì)節(jié)表示無(wú)可奉告,但兩人還是如此向我們解釋了聲音在技術(shù)上的實(shí)現(xiàn):顯然不是配音人員對(duì)著字典一個(gè)詞一個(gè)詞地錄進(jìn)去的。但語(yǔ)音技術(shù)有時(shí)需要讀取某個(gè)郵件中的全部?jī)?nèi)容,或者是從網(wǎng)站上給你找回資料,所以它對(duì)這些內(nèi)容中的每一個(gè)字都要認(rèn)得。
“比如你找最近的一家花店,”Ward說(shuō)道,“單單美國(guó)就有超過(guò)2700萬(wàn)的這類店鋪,你不可能把每一個(gè)都事先錄制好。”
“我們的做法是找捷徑,”Vazquez一邊說(shuō)著一邊拿出他們的“劇本”——一打布滿詭異句子的表格。Vazquez指著表格解釋道,這些內(nèi)容都是富含了大量語(yǔ)素的精選句子。語(yǔ)素是語(yǔ)言在聲學(xué)上的基本組塊——比如Cat中的“K”音??傊畠?nèi)容看起來(lái)非常像繞口令。
之后配音工作人員會(huì)將這些內(nèi)容錄制起來(lái)(大約要數(shù)月的時(shí)間)。這些數(shù)據(jù)再經(jīng)過(guò)分析,分類,標(biāo)記進(jìn)入一個(gè)大數(shù)據(jù)庫(kù),整個(gè)過(guò)程會(huì)有一個(gè)配音團(tuán)隊(duì)和一個(gè)軟件團(tuán)隊(duì)參與。
這一過(guò)程結(jié)束后,Nuance的文本語(yǔ)音轉(zhuǎn)換引擎會(huì)將這些數(shù)據(jù)碎片和過(guò)去的數(shù)據(jù)整合在一起,拼成的句子大大超過(guò)錄入的信息量,但兩者的聲音會(huì)非常接近——因?yàn)閺募夹g(shù)上講,這就是原來(lái)的聲音。
讓計(jì)算機(jī)把聲音拼接起來(lái)絕不簡(jiǎn)單
這個(gè)過(guò)程專業(yè)的名稱叫作“語(yǔ)流合成”;有點(diǎn)像一封老式的勒索信,你從各個(gè)地方撕下不同的文字然后拼接在一起構(gòu)成勒索信的內(nèi)容。
人們通常在開(kāi)始寫字以前就會(huì)說(shuō)話,語(yǔ)言這件事是無(wú)意識(shí)的:你不用一邊說(shuō)一邊關(guān)注重音、停頓、語(yǔ)速、語(yǔ)素間的關(guān)系…但是同一件事讓計(jì)算機(jī)來(lái)完成,那所有的情況都必須考慮到。比如a在各種情境下的發(fā)音都是不同的,同是放在中間的cat和catty,放在開(kāi)頭的alligator;還有你的重音落在不同位置情況也會(huì)不同。
單詞之外,放在語(yǔ)句里的情況更加復(fù)雜。比如一個(gè)預(yù)定航班的電話,“你要去舊金山還是紐約呢?”和“你要去舊金山、濱州還是紐約呢?”這兩個(gè)句子在英語(yǔ)中前一個(gè)是升調(diào)結(jié)束,后一個(gè)是降調(diào)。別看沒(méi)什么大不了,但用戶一聽(tīng)就能感覺(jué)到機(jī)械感太強(qiáng),體驗(yàn)太差。
早期的合成語(yǔ)音為什么聽(tīng)起來(lái)機(jī)械感十足?
最典型的例子就是霍金的聲音。在90年代以前,計(jì)算機(jī)的處理能力還做不到語(yǔ)流合成,也就是把無(wú)數(shù)段話拆解、分析、標(biāo)記然后重組。所以那時(shí)候的語(yǔ)音實(shí)際上就是簡(jiǎn)單的合成器。
這種情況一直持續(xù)到20世紀(jì)早期,計(jì)算機(jī)終于有能力在超大規(guī)模的數(shù)據(jù)庫(kù)中完成搜索和配對(duì),所以有公司開(kāi)始做自然語(yǔ)言的語(yǔ)流合成(包括Naunce)。同時(shí),人工智能的成熟也可以讓計(jì)算機(jī)做出相對(duì)靠譜的判斷。比如說(shuō)用戶提到一個(gè)“風(fēng)”字,計(jì)算機(jī)可以反饋出“起風(fēng)了”或者是“空穴來(lái)風(fēng)”的選項(xiàng)。
蘋果開(kāi)始在第一代Mac中提供文字-語(yǔ)音的閱讀器,而移動(dòng)技術(shù)最終的發(fā)展真正刺激了語(yǔ)音技術(shù)需求。語(yǔ)音技術(shù)在今天的重要性可以從各大巨頭的表現(xiàn)可見(jiàn)一斑,微軟CEO鮑默爾在去年給股東的郵件中非常強(qiáng)調(diào)自然語(yǔ)言解析和機(jī)器學(xué)習(xí)的重要性。谷歌、微軟、亞馬遜、蘋果都在紛紛部署自己的語(yǔ)音助手。
而另一面上,傳統(tǒng)行業(yè)也會(huì)受到?jīng)_擊,Voices.com(配音服務(wù)平臺(tái))的首席營(yíng)銷官StephanieCiccarelli則向媒體表示:TTS已經(jīng)變成他們行業(yè)的一個(gè)威脅,語(yǔ)音技術(shù)甚至開(kāi)始取代了一部分的配音工作。
倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...
關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...
關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)