品牌就是一個虛構的人,和人一樣它也擁有許多獨特的特征,其中就包括聲音。
品牌的聲音可幫助用戶通過聽覺立馬識別出品牌的個性。今日,亞馬遜的云服務Amazon Polly推出了“品牌之聲”業(yè)務,這是一項完全自動化的服務。該服務可以將文字內(nèi)容轉換為逼真的語音,為客戶提供特別定制的聲音服務。
正如亞馬遜的AI語音負責人Rafal Kuklinski和高級產(chǎn)品經(jīng)理Ankit Dhawan在一篇博客文章中解釋的那樣,“品牌之聲”允許公司通過將獨特的聲音特征融入到他們的產(chǎn)品和服務中來區(qū)分其他品牌?!懊恳患夜径伎梢該碛米约邯毺氐穆曇羝放啤!彼麄儗懙?。
亞馬遜與KFC合作,為后者的品牌標志“肯德基老爺爺”植入美國南部的英語口音,并在亞馬遜Alexa App中上線。另外,它還為澳大利亞國民銀行(National Australia Bank)設計了澳大利亞英語語音,該銀行將聯(lián)系中心遷移到亞馬遜全渠道云聯(lián)系中心產(chǎn)品Amazon Connect中。
【 圖片來源:KFC 】
去年年底,亞馬遜在一份研究論文中詳細介紹了其運用AI生成語音方面的工作(“數(shù)據(jù)簡化效應對文本轉化成語音的影響”),研究人員在其中描述了一種系統(tǒng),該系統(tǒng)僅需要幾個小時的訓練即可學會一種新的語言風格。而同樣的目標,配音演員可能需要數(shù)十小時。
亞馬遜的人工智能模型由兩個部分組成。第一種是神經(jīng)網(wǎng)絡,它可以將音素序列轉換為聲譜圖序列,聲音隨時間的變化使得頻譜可以用肉眼清晰的觀察到它的變化。第二種是聲碼器,它將聲譜圖轉換成連續(xù)的音頻信號。
這種人工智能模型的訓練方法,將大量中性化風格的語音數(shù)據(jù)與所需風格的數(shù)據(jù)以及一種能夠區(qū)分語音的AI系統(tǒng)結合在一起。亞馬遜已經(jīng)在內(nèi)部使用它來為Alexa生成新的聲音。
這種技術具有很好的商業(yè)價值。品牌聲音(例如,由女演員斯蒂芬妮·考特尼扮演的角色Fio)的任務通常是為互動語音應答系統(tǒng)錄制電話樹,或為企業(yè)培訓視頻錄制電子學習腳本。合成器可以通過減少輔助錄音和接聽來提高演員的工作效率,同時使他們騰出時間從事創(chuàng)造性工作。
憑借“品牌之聲”和其他文本轉化為語音的服務,亞馬遜與谷歌在這個領域脫穎而出。谷歌最近推出了31個人工智能合成的WaveNet語音和24個新的云文本到語音服務標準語音。除此之外,亞馬遜還有另一個值得注意的競爭對手微軟,微軟通過Azure語音服務API提供了三種人工智能生成的預覽語音和75種標準語音。
亞馬遜的“品牌之聲”還與Voicery等多家初創(chuàng)公司的產(chǎn)品展開競爭,后者提供定制的數(shù)字聲音,聽起來令人印象深刻,很像人類的聲音。文本轉化為語音的技術初創(chuàng)公司iSpeech也擁有類似的語音工具,Modulate,Respeecher,Resemble AI,De和印度班加羅爾的DeepSync也是如此。