谷歌和一眾海洋鯨類專家對多年的海底錄音進(jìn)行了人工智能研究,希望建立一個能夠識別座頭鯨叫聲的機器學(xué)習(xí)模型。這是該公司新推出的“面向社會公益的人工智能”(AI for social good)計劃的一部分,該計劃顯然旨在反駁人工智能主要用于面部識別和廣告定位的說法。
鯨魚旅行相當(dāng)多,因為他們尋找更好的覓食場所,溫暖的水域和社交聚會。但很自然地,這些運動是很難追蹤的。幸運的是,鯨魚互相呼叫,以各自可識別的方式唱歌,這些歌曲可以在水下長距離傳播。
因此,在海底安裝了一個全球范圍內(nèi)的監(jiān)聽設(shè)備網(wǎng)絡(luò),你就可以追蹤鯨魚的活動——如果你想要監(jiān)聽多年的背景噪音,并手動識別這些聲音,那就是。這就是我們這么做了很長一段時間,雖然電腦幫助減輕了負(fù)擔(dān)。谷歌的團隊與美國國家海洋和大氣管理局合作,認(rèn)為這是一個很好的機器學(xué)習(xí)系統(tǒng)人才的匹配。
這些人工智能模型非常善于從大量的噪聲數(shù)據(jù)中尋找特定的模式,這就是為什么它們被應(yīng)用到像射電望遠(yuǎn)鏡和閉路電視攝像機那樣的海量數(shù)據(jù)中。
在這個案例中,數(shù)據(jù)是來自太平洋各地的十幾個水聽器多年的記錄。這個數(shù)據(jù)集已經(jīng)很大程度上被調(diào)查,但谷歌研究人員想知道人工智能代理能做的做第一遍的艱苦和耗時的工作,標(biāo)志著一段有趣的聲音與一個物種的名字。
有趣的是,但回顧起來并不奇怪,音頻沒有這樣分析;相反的是,音頻被轉(zhuǎn)換成圖像,它可以尋找模式。這些聲譜圖記錄了聲音在一定頻率范圍內(nèi)隨時間的強度,可以用于各種有趣的事情。碰巧的是,機器學(xué)習(xí)和計算機視覺研究人員也對它們進(jìn)行了很好的研究,他們開發(fā)了各種有效分析它們的方法。
機器學(xué)習(xí)模型提供了座頭鯨叫聲的例子,并學(xué)會了如何在一組樣本數(shù)據(jù)中合理準(zhǔn)確地識別它們。進(jìn)行了各種各樣的實驗,以確定哪些設(shè)置是最優(yōu)的——例如,哪些剪輯長度易于處理且不會過長,或者哪些頻率可以安全地忽略。最后的研究將多年的數(shù)據(jù)分為75秒的片段,模型能夠以90%的準(zhǔn)確率確定一個片段是否包含“座頭鯨單元”,或者相關(guān)的鯨魚聲音。
第二項研究依賴于所謂的“無監(jiān)督學(xué)習(xí)”(unsupervised learning),該系統(tǒng)在某種程度上對鯨的聲音和非鯨的聲音之間的相似性建立自己的規(guī)則,從而形成一個研究人員可以梳理和找到相關(guān)群體的情節(jié)。
它使可視化變得更加有趣,但卻更難解釋,而且無論如何,它似乎并沒有帶來一套更傳統(tǒng)的分類方法那么有用。
就像機器學(xué)習(xí)在各種學(xué)術(shù)領(lǐng)域的類似應(yīng)用一樣,這不會取代仔細(xì)觀察和文檔,而會增加它們。把一些繁重的科學(xué)工作從科學(xué)中剝離出來,讓研究人員專注于他們的專業(yè),而不是陷入重復(fù)的統(tǒng)計數(shù)據(jù)和長達(dá)數(shù)小時的數(shù)據(jù)分析會議中。