如何將聲紋識(shí)別技術(shù)用到極致
盡管我們已經(jīng)知道NSA依靠指紋和面部圖像來識(shí)別目標(biāo),但是根據(jù) 2008 年的一份機(jī)構(gòu)文件,聲紋才是“NSA 的統(tǒng)治地位所在”。
在美蘇冷戰(zhàn)最嚴(yán)峻的時(shí)期,那是 1980 年的冬天,美國(guó)聯(lián)邦調(diào)查局(FBI)的特工人員記錄到了一次通話——一名男子被安排與在華盛頓特區(qū)的蘇聯(lián)大使進(jìn)行秘密會(huì)晤。然而,在約定的那天,調(diào)查局的特工們沒能看到究竟是誰進(jìn)入了大使館。當(dāng)時(shí),特工們沒有辦法僅根據(jù)他的通話聲音就查出他的名字,所以這個(gè)間諜得以繼續(xù)藏匿自己的身份,并在隨后的五年中,將一些美國(guó)機(jī)密項(xiàng)目的細(xì)節(jié)賣給了蘇聯(lián)。
直到 1985 年,根據(jù)一名俄羅斯叛逃者提供的情報(bào),F(xiàn)BI 才最終確定了當(dāng)時(shí)那名通話者為前美國(guó)國(guó)家安全局(NSA)分析員 Ronald Pelton。次年,Ronald Pelton 被判處間諜罪。
而今,F(xiàn)BI 和 NSA 的特工能夠在 Pelton 給蘇聯(lián)撥出第一個(gè)電話的幾秒內(nèi)識(shí)別出他的真實(shí)身份。NSA 2006 年 1 月的機(jī)密備忘錄顯示,NSA 的分析員使用了一種“用聲音識(shí)別人的技術(shù)”成功將 Pelton 以往的音頻文件與電話監(jiān)控相匹配。備忘錄中描述道:“如果這種技術(shù)早出現(xiàn) 20 年,那么將能夠提前發(fā)現(xiàn) Pelton 的間諜行為并實(shí)施抓捕,這將會(huì)大大減少 Pelton 對(duì)國(guó)家安全造成的重大損失。”
由前 NSA 雇員斯諾登提供的機(jī)密文件顯示,NSA 開發(fā)的技術(shù)不僅能夠?qū)⑺矫軐?duì)話轉(zhuǎn)為文本,還能自動(dòng)識(shí)別對(duì)話中的人。
美國(guó)人在喚醒亞馬遜的 Alexa 或者打電話給銀行的時(shí)候,經(jīng)常會(huì)使用到這種被稱為聲紋識(shí)別的技術(shù)。但是早在“Hello Siri”和“OK Google”這樣的語言指令走入尋常百姓家之前十年,NSA 就用這種聲紋識(shí)別技術(shù)來監(jiān)控恐怖分子、政治家、毒梟、間諜甚至是一些普通政府機(jī)構(gòu)的雇員。
這種技術(shù)的原理在于分析個(gè)人聲音中獨(dú)特的物理和行為特征來區(qū)分不同人的聲音,例如發(fā)聲的音高、嘴型、咽部長(zhǎng)度等。算法隨后會(huì)創(chuàng)建個(gè)人聲音特征的動(dòng)態(tài)計(jì)算機(jī)模型,也就是通常所說的“聲紋”模型。整個(gè)過程——捕捉所說的單詞、將單詞轉(zhuǎn)化為聲紋、并將這種表示與數(shù)據(jù)庫(kù)中其他的“聲紋”進(jìn)行對(duì)比——都可以在瞬間完成。盡管我們已經(jīng)知道 NSA 依靠指紋和面部圖像來識(shí)別目標(biāo),但是根據(jù) 2008 年的一份機(jī)構(gòu)文件,聲紋才是“NSA 的統(tǒng)治地位所在”。
我們不難看出原因。NSA,無論獲得許可與否,截取了數(shù)以百萬計(jì)的美國(guó)公民的電話,甚至包括越洋電話、視頻電話和互聯(lián)網(wǎng)電話,從而建立了一個(gè)無可比擬的聲紋庫(kù)。來自斯諾登提供的文件顯示,分析人員將部分人的錄音提供給聲紋識(shí)別算法之后,即使這些人在其他通話中使用未知的號(hào)碼、秘密代碼亦或是不同語言,算法都可以將其與已有的音頻相匹配。
早在伊拉克自由行動(dòng)時(shí),分析人員就使用聲紋識(shí)別技術(shù),證實(shí)了那些“疑似被廢黜的領(lǐng)導(dǎo)人薩達(dá)姆的錄音”確實(shí)是薩達(dá)姆本人,而不像公眾以為的那樣是偽造的。NSA 的備忘錄進(jìn)一步表明,NSA 分析員為本·拉登也構(gòu)建了聲紋,“在幾次放送中,他的聲音都十分明顯且一致”;與基地組織的現(xiàn)任領(lǐng)導(dǎo)人 Ayman al-Zawahri 以及基地組織的三把手 Abu Musab al-Zarqawi 有顯著不同。他們也使用 Zarqawi 的聲紋從幾份網(wǎng)上發(fā)布的音頻中找到了他。
據(jù) 2004 年至 2012 年間的機(jī)密文件顯示,NSA 對(duì)其聲紋識(shí)別技術(shù)進(jìn)行了愈發(fā)復(fù)雜的迭代。文件證實(shí)了聲紋識(shí)別在反恐行動(dòng)和緝毒行動(dòng)中均獲使用。文件還建議更多國(guó)家機(jī)構(gòu)部署這項(xiàng)技術(shù),不僅僅是為了追溯像 Pelton 這樣的間諜,還為了防止像斯諾登這樣的舉報(bào)人出現(xiàn)。
永遠(yuǎn)在聽的算法
(2015 年 3 月 4 日,一位男子倚在紐約的一個(gè)公共電話亭旁用智能手機(jī)打電話)
一些民權(quán)專家擔(dān)心聲紋識(shí)別技術(shù)和該技術(shù)的擴(kuò)展應(yīng)用將會(huì)侵害公民隱私。白宮前國(guó)家情報(bào)局局長(zhǎng)顧問 TImothy Edgar 解釋說,“聲紋識(shí)別技術(shù)即創(chuàng)建了一種新的情報(bào)能力,一種容易被濫用的能力。”“我們的聲音代替我們本人穿越各種渠道完成溝通。在大眾監(jiān)控的時(shí)代,這種能力對(duì)我們所有人的隱私都有深遠(yuǎn)的影響。”
Edgar 和其他專家指出,相比于姓名、地址、密碼、電話號(hào)碼和個(gè)人識(shí)別碼,人聲的相對(duì)穩(wěn)定性使得其難以被改變或偽裝。電子前線基金會(huì)(Electronic FronTIer FoundaTIon)的律師 Jamie Williams 表示,這讓追蹤變得“容易的多”。“只要你能識(shí)別出某個(gè)人的聲音,”她表示,“你就能在監(jiān)聽記錄或錄音中找到他們。”
聲音是一種獨(dú)特且易于獲取的生物特征:與 DNA 不同,它可以被動(dòng)地被收集,且不受距離的限制,不需要目標(biāo)知悉或者征得他們的同意。雖然識(shí)別的準(zhǔn)確度受到收音條件的相似性,但是在受控的環(huán)境中——低底噪、熟悉的聲學(xué)環(huán)境和良好的通信質(zhì)量——這種技術(shù)可以用寥寥幾句話就精確地匹配到個(gè)人。計(jì)算機(jī)模型擁有的同一個(gè)人的不同聲音樣本越多,模型就愈發(fā)強(qiáng)大,愈發(fā)“成熟”。
在商業(yè)環(huán)境中,聲紋識(shí)別技術(shù)與呼叫中心欺詐審查、與 Siri 等語音助理交談以及個(gè)人銀行業(yè)務(wù)密碼驗(yàn)證等任務(wù)關(guān)聯(lián)密切。并且這種技術(shù)的用途正在逐漸增長(zhǎng),根據(jù)市場(chǎng)研究公司 TracTIca 的報(bào)告,到 2024 年,語音生物識(shí)別技術(shù)產(chǎn)業(yè)的收入預(yù)計(jì)將達(dá)到每年 50 億美元,其用途將擴(kuò)展至邊境檢查站、醫(yī)療、信用卡支付和可穿戴設(shè)備中。
公民自由主義者的一個(gè)主要擔(dān)心在于,聲紋識(shí)別技術(shù)有可能使談話“冷卻”。新聞自由基金會(huì)執(zhí)行董事 Trevor Timm 指出,可以假設(shè) NSA 的聲紋識(shí)別技術(shù)將會(huì)被用來追蹤記者、揭露消息來源,攔截匿名消息等。雖然如今人們已經(jīng)知道在處理敏感材料時(shí)應(yīng)該加密自己的電話,但是 Timm 指出,從電視機(jī)到耳機(jī)再到互聯(lián)網(wǎng)設(shè)備,能夠偷偷記錄聲音的渠道實(shí)在是不勝枚舉。Timm 說,我們 24 小時(shí)都會(huì)隨身攜帶一個(gè)麥克風(fēng),那就是我們的手機(jī)。我們知道政府有辦法侵入手機(jī)和計(jì)算機(jī)來打開這些麥克風(fēng)。
他繼續(xù)說道,“盡管斯諾登泄密事件之后,立法方面發(fā)生了很大變化,但美國(guó)人民對(duì)這種政府用來監(jiān)視全球數(shù)百萬人的工具仍然只有一個(gè)片面的理解。這是一個(gè)值得在公眾領(lǐng)域辯論的事情。”但是他指出,如果公眾對(duì)技術(shù)的使用缺乏有意義的認(rèn)識(shí),這種爭(zhēng)論將會(huì)非常困難——甚至是否能存在都值得商榷。
一位前國(guó)防情報(bào)官員,因政策所限無法對(duì)機(jī)密文件進(jìn)行討論,匿名對(duì) The Intercept 表示,他相信這種技術(shù)一直隱而不漏絕非偶然。“政府避免討論這種技術(shù),正是因?yàn)樗岢隽艘恍﹪?yán)峻的問題,而這些問題政府不愿意回答,”這位官員如是說道。“這是自 911 事件發(fā)生以來,對(duì)于我們個(gè)人及我們的權(quán)利的一項(xiàng)重要轉(zhuǎn)變。”而想要進(jìn)入技術(shù)監(jiān)控范圍,官員指出,“你什么都不用做,張嘴說話就行了。”
民權(quán)主義者擔(dān)心,如果沒有針對(duì)政府秘密收集我們的語音模式這一事項(xiàng)的公開討論以及監(jiān)督,我們可能會(huì)進(jìn)入一個(gè)越來越沉默的世界。
新型聲音工具
(2012 年 10 月 9 日,科羅拉多州博爾德,美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院語音研究所(NIST)大樓)
2013 年開始,美國(guó)人就已經(jīng)知道 NSA 在大量收集國(guó)內(nèi)外的電話數(shù)據(jù),但如何將原始數(shù)據(jù)轉(zhuǎn)化為有用情報(bào)這一技術(shù)仍然鮮為人知。2015 年,據(jù) The Intercept 報(bào)道,NSA 為處理政府收集的大量音頻建立了一系列“人類語言技術(shù)”。通過開發(fā)程序自動(dòng)將語音翻譯成文本——分析員稱之為“語音版 Google”——政府部門可以使用關(guān)鍵詞和“選擇器”來搜索、閱讀和索引錄音而不是派人親自去聽,從而節(jié)省了大量的人力。
從語音轉(zhuǎn)寫文字項(xiàng)目衍生的聲紋識(shí)別技術(shù)為分析員提供了一種額外的工具,使其可以將不計(jì)其數(shù)的戰(zhàn)區(qū)音頻進(jìn)行攔截與分類。NSA 和國(guó)防部斥巨資發(fā)展此技術(shù)并增加其可靠性。數(shù)字時(shí)代之前,聲紋識(shí)別隸屬于法庭科學(xué)。二戰(zhàn)期間,人類分析員對(duì)來自無線電的聲音頻率的可視化輸出進(jìn)行比較。根據(jù)《法庭聲紋識(shí)別》的作者 Harry Hollien 的說法,這些可以“閱讀語音”的機(jī)器——即語譜圖技術(shù)——甚至用來駁斥阿道夫•希特勒被暗殺并被人取代的謠言。
作為法庭聲紋識(shí)別標(biāo)準(zhǔn)化事宜的聯(lián)邦領(lǐng)導(dǎo)者,首席聲紋識(shí)別專家 James Wayman 解釋道:“聲紋可以被看到,”他指出,雖然“聲紋”這個(gè)詞已經(jīng)被商業(yè)公司用爛了,但其實(shí)有一定的誤導(dǎo)性。因?yàn)?ldquo;紋”意味著所捕獲的信息是物理的,而不是行為的。他說:“其實(shí)你所擁有的是軟件程序里的一個(gè)方程,能夠輸出不同的數(shù)字。”
這些方程已經(jīng)從簡(jiǎn)單的求均值演變?yōu)閯?dòng)態(tài)算法模型。自 1996 年依賴,NSA 資助了美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院語音研究所(NIST),培養(yǎng)和測(cè)試“解決聲紋識(shí)別問題的最具主導(dǎo)性和前途的算法”。與 NIST 一起測(cè)試系統(tǒng)的還有,領(lǐng)先的生物識(shí)別公司和研究人員,其中有一些人獲得了 NSA 和國(guó)防部高級(jí)研究計(jì)劃局(DARPA)的資助。
NSA 一直對(duì)其聲紋識(shí)別項(xiàng)目三緘其口,因此公眾很難知道它目前可以發(fā)揮多大的作用。但是考慮到 NSA 資助的學(xué)術(shù)研究所和私企間緊密的聯(lián)系,從其他國(guó)家正在做的事情和供應(yīng)商正在銷售的東西可以大概估計(jì)出 NSA 的進(jìn)展。