當前位置：首頁 > 智能硬件 > 人工智能AI

利用人工智能識別歌曲風格，從而進行分類

時間：2020-07-16 17:48:02

關鍵字：人工智能機器學習

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] 任何曾經編輯過磁帶或SpoTIfy播放列表的人都知道，當他們在歌曲中傳遞出了某種情感時，他們就會取得成功。這就是為什么Gracenote的音樂數(shù)據(jù)專家長期以來一直根據(jù)情緒和情感對世界萬千繁雜音樂

任何曾經編輯過磁帶或SpoTIfy播放列表的人都知道，當他們在歌曲中傳遞出了某種情感時，他們就會取得成功。這就是為什么Gracenote的音樂數(shù)據(jù)專家長期以來一直根據(jù)情緒和情感對世界萬千繁雜音樂進行分類的原因。

而Gracenote團隊實際上并沒有真正逐首聽過他們數(shù)據(jù)庫中成千上百的歌曲。取而代之的是，它教會了電腦去識別情緒，使用機器聆聽，借助人工智能（AI）來判斷一首歌曲的風格，進而判別是夢幻、性感，還是純粹的悲傷風格。

“機器學習是我們所具有的一個巨大的戰(zhàn)略優(yōu)勢，”Gracenote的總經理BrianHamilton在最近的一次采訪中說。

據(jù)悉，Gracenote在10年前就開始了它所謂的“聲音情緒分類”工作。隨著時間的推移，傳統(tǒng)算法越來越多地被先進的神經網絡算法所取代，這項工作也隨之進化了。這也已經成為音樂行業(yè)對人工智能越來越依賴的最佳例證之一。

舉例來說，電腦是如何得知LadyGaga的Lovegame是一首性感熱曲的呢？

首先，人工智能是不知道你的感受的。“我們不知道音樂作品會對個體聽眾產生了什么影響，”Gracenote的研究副總裁在接受采訪時表示。相反，它試圖將音樂家的創(chuàng)作意圖作為一種內在的情感品質，并對這些品質進行辨別。換句話說：它想要教電腦識別哪些歌曲是悲傷的，而不是識別哪首歌會讓聽眾感到憂郁，因為你的感受可能是因為個人的經歷而產生不同的情緒。

教電腦識別音樂中的情緒有點像心理治療

首先，你得說出你的感受。Gracenote的音樂團隊最初開發(fā)了一種分類標準，這包括了超過100種氛圍和情緒，之后又將這個標準擴充到了400多種類別。

其中一些是“性感”和“時髦”這樣比較經典的類別，但也有一些極其具體的類別，比如“夢幻感”、“苦樂參半的柔情”和“絕望的瘋狂”。新的類別不斷被添加，而另一些則根據(jù)系統(tǒng)的表現(xiàn)進行了微調。

“這是一個更新?lián)Q代的過程，”Gracenote的內容架構和探索主管彼得迪馬利亞解釋說，“分類在不斷進化和演進。”

除了這一系列情緒之外，Gracenote還使用所謂的“訓練集”來進行機器學習。該公司的音樂專家挑選了大約4萬首歌曲作為不同類別歌曲的例子。

匯編這種訓練集本身就是一門藝術。迪馬利亞說：“我們需要確保提供了正確的范例。”與此同時，范例歌曲必須是這些情緒的最佳例證。他說：“有些歌兒風格有點模糊。”

目前的培訓內容包括LadyGaga的Lovegame，這首是性感熱曲的范例；電臺司令的PyramidSond是哀傷風格的范例；而碧昂斯的MeMyself&I則是感性和親密風格的范例。

就像情緒本身一樣，訓練集需要不斷地被更新以保持新鮮。迪馬利亞說：“藝術家們一直在創(chuàng)造新的音樂表達方式。我們需要確保系統(tǒng)已經聽到了這些聲音。”尤其是快速發(fā)展的音樂類型，如電子樂和嘻哈音樂，需要頻繁更新。

對電腦而言，它肯能會將壓縮過的歌曲識別為一種音樂風格。一旦系統(tǒng)接受了這些歌曲的訓練，它就會被應用到數(shù)百萬的音軌上。但電腦不會一首一首地聽播放列表上的全部歌曲。

相反，Gracenote的系統(tǒng)將每條音軌切割成700毫秒的片段，然后從任何這類片中提取大約170種不同的聲學值，比如它們的音色。此外，有時一首歌分辨相似的風格須要用到更長的片段。然后這些值會與現(xiàn)有數(shù)據(jù)進行比較，這樣一來將每首歌曲分類。

這樣的結果不僅是得到情緒風格，而是得到每種情緒風格的檔案。在此期間，Gracenote的團隊必須定期確保不會出錯。“混音是一件非常復雜的事情。”樂器、人聲和各種效果疊加，并且音樂本身會被針對在汽車音響播放或在流媒體播放的不同而被優(yōu)化：這樣一來電腦可以聽的東西太多了，這包括了那些不屬于音樂本身東西。“它可以捕捉到很多不同的東西，”他說。

在無人監(jiān)督的情況下，Gracenote的系統(tǒng)可能會決定關注被壓縮的部分，并將它們與情緒相匹配，而Cremer則開玩笑說系統(tǒng)可能會決定：“這些都是96kbps，所以這些歌曲屬于悲傷風格。”

被情緒分類的世界音樂

Gracenote將音樂分類按照情緒分類，它之后就會把數(shù)據(jù)傳遞給客戶，而客戶使用它的方式多種多樣。較小的媒體服務商通常會授權Gracenote獲取他們的音樂數(shù)據(jù)，并進行端對端的音樂整理和推薦。例如，媒體中心應用開發(fā)商Plex使用該公司的音樂推薦技術，為客戶提供個性化播放列表，以及被該公司稱作“情緒電臺”的服務。

Plex的用戶可以選擇“苦樂參半的柔情”這一風格，然后等著聽到MazzyStar樂隊的迷幻之音。

Gracenote還向包括蘋果和SpoTIfy在內的一些業(yè)內最大的音樂服務運營商提供數(shù)據(jù)。這些大公司通常不喜歡公開談論他們是如何使用Gracenote的數(shù)據(jù)的。更大的流媒體服務公司一般都傾向于使用自己的音樂推薦算法，但他們通常仍會利用Gracenote的情緒數(shù)據(jù)來訓練和改進這些算法，或者幫助策展人預先選擇歌曲，這些歌曲隨后被編輯為播放列表。

這意味著樂迷們可能會敏銳地意識到Gracenote在情緒分類上做的工作，而其他人可能無法察覺該公司的人工智能技術是如何幫助他們提高音樂體驗的。

不管怎樣，Gracenote必須確保其數(shù)據(jù)在國際上得到妥善的轉碼，尤其在它即將在別的國家開展業(yè)務之際。

該公司宣布將在歐洲和拉丁美洲開始銷售其音樂數(shù)據(jù)產品，其中包括情緒分類標準，以及在分類中使用到的描述性、整潔的元數(shù)據(jù)。

為了確保這種轉碼過程中沒有任何損耗，該公司聘請了國際編輯，他們不僅翻譯了“感傷”一詞，而且還會聽一些歌曲，以找出在他們的文化背景下哪種表達最有效。

國際關注是雙向的

Gracenote也不斷在全球范圍內搜尋新的國際聲音，以滿足其訓練集的需求。“我們的數(shù)據(jù)可以用于所有那些即將消失的聲音，”他說。

像Gracenote這樣的公司不僅依賴人類，而且還依賴人工智能和機器監(jiān)聽等技術；最終，我們將會能夠對全世界所有音樂進行分類。

在很多方面，教計算機識別悲傷的歌曲實際上可以幫助人類獲得更好、更有意義的音樂體驗。

如果僅僅依靠人類進行分類，那么會有上百萬首歌曲無法分類，而人們也無法獲得個性化的音樂列表。

利用數(shù)據(jù)和技術來解鎖世界音樂是他工作中最令人興奮的部分之一，Cremer說：“我在這里的原因是要確保每個人都能接觸到所有被妥善分類的音樂。”

本站聲明：本文章由作者或相關機構授權發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者，如若文章內容侵犯您的權益，請及時聯(lián)系本站刪除。

換一批

阿維塔、賽力斯已入股！華為引望可能成“中國博世”

9月2日消息，不造車的華為或將催生出更大的獨角獸公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達成戰(zhàn)略合作協(xié)議，徹底改變云采用和管理方式

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉型技術解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅動工具SODA V將顛覆汽車市場，使汽車開發(fā)時間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產品SODA V，這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具，可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字：汽車人工智能智能驅動 BSP

[美通社全球TMT]

從容應對未知風險----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行，同時企業(yè)卻面臨越來越多業(yè)務中斷的風險，如企業(yè)系統(tǒng)復雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性，提升韌性，成...

關鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國游戲市場開始復蘇！騰訊、網易等巨頭縮減在日本投資

8月30日消息，據(jù)媒體報道，騰訊和網易近期正在縮減他們對日本游戲市場的投資。

關鍵字：騰訊編碼器 CPU

[通信先鋒]

獨立自主！華為董事：致力打造不依賴西方的技術

8月28日消息，今天上午，2024中國國際大數(shù)據(jù)產業(yè)博覽會開幕式在貴陽舉行，華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字：華為 12nm EDA 半導體

[通信先鋒]

華為張平安：數(shù)字世界話語權最終由生態(tài)繁榮決定！

8月28日消息，在2024中國國際大數(shù)據(jù)產業(yè)博覽會上，華為常務董事、華為云CEO張平安發(fā)表演講稱，數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字：華為 12nm 手機衛(wèi)星通信

[美通社全球TMT]

中國通信服務公布2024年中期業(yè)績

要點：有效應對環(huán)境變化，經營業(yè)績穩(wěn)中有升落實提質增效舉措，毛利潤率延續(xù)升勢戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務引領增長以科技創(chuàng)新為引領，提升企業(yè)核心競爭力堅持高質量發(fā)展策略，塑強核心競爭優(yōu)勢...

關鍵字：通信 BSP 電信運營商數(shù)字經濟

[美通社全球TMT]

NVI技術創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動產業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產業(yè)鏈發(fā)展研討會上宣布正式成立。活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]