人工智能于大數(shù)據(jù)也存在偏見(jiàn)？

時(shí)間：2018-07-19 17:11:29

關(guān)鍵字：人工智能大數(shù)據(jù)

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]在最糟糕的情況下，我們?cè)谔幚頂?shù)據(jù)中的偏見(jiàn)時(shí)所遇到的這樣或那樣的限制，將使我們構(gòu)建中的算法成為新一代的混凝土橋，使不合理的現(xiàn)狀在未來(lái)許多年里一直延續(xù)。在最好的情況下，數(shù)據(jù)基礎(chǔ)架構(gòu)將迫使我們以某些從未有過(guò)的方式，揭露并面對(duì)我們對(duì)公平和決策的定義。

我們對(duì)大數(shù)據(jù)的使用是會(huì)糾正我們的偏見(jiàn)，還是會(huì)讓情況更加糟糕?

“我們不知道顧客是什么樣的，”亞馬遜公司負(fù)責(zé)全球通訊公關(guān)的副總裁克雷格·伯曼(Craig Berman)在接受彭博新聞社采訪時(shí)說(shuō)道。伯曼是在回應(yīng)有人對(duì)亞馬遜的當(dāng)日送達(dá)服務(wù)歧視有色人種的指控。從字面上看，伯曼的辯護(hù)是誠(chéng)實(shí)的：亞馬遜在選擇當(dāng)日送達(dá)的區(qū)域時(shí)是根據(jù)成本和收益因素，例如家庭收入和送達(dá)的可及性。但是，這些因素是通過(guò)郵政編碼匯總起來(lái)的，因此會(huì)受到其他塑造了——并將繼續(xù)塑造——文化地理學(xué)的因素的影響。查看當(dāng)日送達(dá)的服務(wù)地圖，很難讓人不注意到其與膚色的對(duì)應(yīng)關(guān)系。

這樣的地圖讓人想起了羅伯特·摩斯(Robert Moses)，這位城市規(guī)劃大師在數(shù)十年時(shí)間里塑造了現(xiàn)代紐約城及周邊郊區(qū)大部分的基礎(chǔ)設(shè)施。然而，他備受爭(zhēng)議的一點(diǎn)是不希望窮人，尤其是窮苦的有色人群，使用他在長(zhǎng)島上建造的新公園和海灘。盡管摩斯曾努力促成了禁止公共汽車在高速公路上行駛的法律，但他知道，這條法律遲早有一天會(huì)被廢除。因此，他建造了更加持久的東西：幾十個(gè)高度很低，公共汽車無(wú)法通行的天橋，將歧視真正地具體化。這一決定，以及其他幾十個(gè)類似的決定都影響深遠(yuǎn)而持久。幾十年后，關(guān)于公共汽車的法律已經(jīng)廢除，但沿著高速公路排列的城鎮(zhèn)依然像從前一樣隔離著。“法律總是可以修改的，”摩斯說(shuō)，“但一座橋建好以后，就很難拆掉了。”

今天，在受到原有結(jié)構(gòu)影響的數(shù)據(jù)基礎(chǔ)上，這樣的隔離又重現(xiàn)了。盡管新基礎(chǔ)設(shè)施的設(shè)計(jì)者可能沒(méi)有類似的不良意圖，但他們也不能自稱對(duì)這些設(shè)施的影響毫不知情。大數(shù)據(jù)從業(yè)者都明白，亞馬遜和其他公司用于提供定制服務(wù)的大型數(shù)據(jù)集不可避免地包含豐富詳細(xì)的信息，包括具有受保護(hù)屬性的膚色、性別、性取向和政治取向等。算法在這些數(shù)據(jù)的基礎(chǔ)上做出的決定可以隱蔽地打開(kāi)這些屬性，既令人難以察覺(jué)，又是不道德的。

凱特·克勞福德在微軟研究院從事算法偏見(jiàn)的研究，并且是“AI Now”計(jì)劃的合作創(chuàng)立者。這項(xiàng)研究關(guān)注的是如今在使用人工智能系統(tǒng)時(shí)所面臨的危險(xiǎn)。她提出了一個(gè)算法公平性的基本問(wèn)題，即算法可以在多大程度上理解它們所使用數(shù)據(jù)的社會(huì)和歷史背景。“你可以讓一個(gè)人類操作者去嘗試考慮數(shù)據(jù)本身代表人類歷史的方式，”克勞福德說(shuō)，“但如何訓(xùn)練機(jī)器來(lái)做到這一點(diǎn)呢?”不能以這種方式理解背景的機(jī)器最多只能傳遞制度化的歧視，即所謂的“偏見(jiàn)入，偏見(jiàn)出”(bias in， bias out)。

糾正這些隱性歧視的努力不足，可能會(huì)讓事情變得更糟?？藙诟５碌耐隆⒖的螤柎髮W(xué)的索倫·巴洛卡斯觀察到，終端用戶會(huì)“不加批判地接受供應(yīng)商的聲明”，即算法中已經(jīng)消除了偏見(jiàn)。在那些普遍存在偏見(jiàn)的應(yīng)用場(chǎng)合，比如司法系統(tǒng)中，情況尤其如此。對(duì)于這些地方，號(hào)稱更客觀的機(jī)器具有非常大的吸引力。剝離算法中的偏見(jiàn)還要求認(rèn)可某個(gè)關(guān)于公平的主觀定義，同時(shí)不理會(huì)其他定義，但被選擇的定義往往是最容易量化的，而不是最公平的。

然而，雖然有著種種缺陷，但找出并對(duì)抗數(shù)據(jù)和算法中的偏見(jiàn)也會(huì)帶來(lái)一些機(jī)會(huì)——能以新的方式使偏見(jiàn)的輪廓呈現(xiàn)在我們面前。

COMPAS的預(yù)測(cè)偏見(jiàn)

COMPAS是美國(guó)各地法院使用的一款軟件，可以根據(jù)被告人對(duì)137個(gè)調(diào)查問(wèn)題的回答，評(píng)估他們重新犯罪的可能性。評(píng)估結(jié)果將被用于指導(dǎo)保釋決定。

COMPAS的調(diào)查問(wèn)卷并不涉及膚色、遺產(chǎn)甚至郵政編碼，但確實(shí)提出了諸如被告人是否居住在一個(gè)“犯罪很多”的街區(qū)，以及他們是否難以找到“超過(guò)最低工資”的工作等問(wèn)題。這些問(wèn)題更適合向社會(huì)提出，而非針對(duì)個(gè)人。請(qǐng)注意問(wèn)題中的偏見(jiàn)：答案與種族等受保護(hù)的屬性有關(guān)，意味著算法可以學(xué)習(xí)有效地“發(fā)現(xiàn)”數(shù)據(jù)中的這些屬性。然而，推出COMPAS的Northpointe公司宣稱，他們已經(jīng)對(duì)該軟件進(jìn)行了校準(zhǔn)，使其對(duì)再次被捕的預(yù)測(cè)準(zhǔn)確性與膚色無(wú)關(guān)。

2015年，ProPublica的記者開(kāi)始利用佛羅里達(dá)州布勞沃德縣一位COMPAS用戶的公開(kāi)記錄來(lái)驗(yàn)證這一說(shuō)法。他們發(fā)現(xiàn)，當(dāng)COMPAS預(yù)測(cè)被告再次被捕的風(fēng)險(xiǎn)很高，并且之后確實(shí)再次被捕時(shí)，其預(yù)測(cè)確實(shí)在最直接意義上是無(wú)關(guān)膚色的。但是，當(dāng)COMPAS預(yù)測(cè)不準(zhǔn)確時(shí)(要么預(yù)測(cè)的再次被捕沒(méi)有發(fā)生，要么沒(méi)有做出實(shí)際再次被捕的預(yù)測(cè))，它通常會(huì)低估白人再犯的可能性，并高估黑人再犯的可能性。換句話說(shuō)，它在一組統(tǒng)計(jì)數(shù)據(jù)中隱藏的偏見(jiàn)，在另一組統(tǒng)計(jì)數(shù)據(jù)中呈現(xiàn)了出來(lái)。

ProPublica在一篇文章中報(bào)道了這一發(fā)現(xiàn)，文章副標(biāo)題是“全國(guó)各地都使用軟件來(lái)預(yù)測(cè)未來(lái)的罪犯，而它對(duì)黑人存有偏見(jiàn)”。Northpointe公司對(duì)他們的評(píng)價(jià)提出了異議，并對(duì)文中的論點(diǎn)進(jìn)行了再次統(tǒng)計(jì)分析，以作為回應(yīng)。Northpointe公司將爭(zhēng)論從錯(cuò)誤率的差異轉(zhuǎn)移到另一個(gè)事實(shí)，即風(fēng)險(xiǎn)分?jǐn)?shù)反映了一個(gè)真實(shí)而普遍的情況：未來(lái)再次被捕的非裔美國(guó)人被告確實(shí)更多。該公司指出，這意味著非裔美國(guó)人作為一個(gè)人群具有較高的風(fēng)險(xiǎn)得分并不奇怪。

Northpointe公司的中心論點(diǎn)有一個(gè)本質(zhì)性的謬誤：因?yàn)樵谟?xùn)練數(shù)據(jù)集中，被警察歸類為非裔美國(guó)人的人會(huì)更頻繁地再次被捕，所以他們宣稱COMPAS有理由預(yù)測(cè)其他被警察歸為非裔美國(guó)人的人——即使在不同城市、州和時(shí)間段——更有可能再次被捕。在數(shù)據(jù)中進(jìn)行分類的結(jié)果又作用于分類本身，這讓人不禁想起W·E·B·杜波依斯(W.E.B。 Dubois)在1923年所下的定義，“黑人就是在佐治亞州必須乘坐吉姆·克勞公交車的人”[吉姆·克勞(Jim Crow)原是19世紀(jì)初一個(gè)劇目中黑人角色的名字，后來(lái)成為“黑鬼”的貶義詞，之后美國(guó)南方針對(duì)黑人的種族隔離法案被稱為吉姆·克勞法，而吉姆·克勞的公交車指1960年代之前美國(guó)南方各州在公交車上實(shí)行的種族隔離]。

雖然這段插曲展示了算法決策帶來(lái)的許多危險(xiǎn)，但也引發(fā)了一系列學(xué)術(shù)研究，得到了一個(gè)令人驚訝的結(jié)論：為一個(gè)被告指定風(fēng)險(xiǎn)評(píng)分的做法需要在“公平”一詞的兩種不相容的定義之間進(jìn)行權(quán)衡。而且，這種權(quán)衡是普遍的。“任何執(zhí)行這一過(guò)程的系統(tǒng)都將面臨這種挑戰(zhàn)，”康奈爾大學(xué)的計(jì)算機(jī)科學(xué)教授喬恩·克萊因伯格說(shuō)，“無(wú)論它是一個(gè)算法系統(tǒng)，還是人類決策者。”

克萊因伯格及其同事發(fā)表了一篇論文，證明Northpointe公司和ProPublica對(duì)公平的兩種定義在數(shù)學(xué)上是不相容的。用術(shù)語(yǔ)來(lái)說(shuō)，他們展示了預(yù)測(cè)性平價(jià)(無(wú)論黑人和白人被告是否有相同的風(fēng)險(xiǎn)評(píng)分總體準(zhǔn)確率)和錯(cuò)誤率平衡(無(wú)論兩個(gè)人群是否以相同方式獲得錯(cuò)誤的風(fēng)險(xiǎn)評(píng)分)之間是相互排斥的。當(dāng)任何兩個(gè)人群之間的測(cè)量結(jié)果——在COMPAS中是再次被捕的概率——具有不同的基礎(chǔ)比率時(shí)，如果應(yīng)用相同的標(biāo)準(zhǔn)，就必然會(huì)對(duì)較高基礎(chǔ)比率的人群產(chǎn)生偏見(jiàn)誤差。“‘校準(zhǔn)’正是導(dǎo)致這一問(wèn)題的原因，”克萊因伯格說(shuō)道。任何使用風(fēng)險(xiǎn)評(píng)分的系統(tǒng)——機(jī)器算法或人類機(jī)構(gòu)——都是如此，無(wú)論是使用哪些因素來(lái)生成。

值得注意的是，這種不相容性此前從未出現(xiàn)過(guò)。它的發(fā)現(xiàn)指向了大數(shù)據(jù)時(shí)代最顯著的好處之一：我們決策的邏輯可以用以前不可能的方式進(jìn)行形式上的分析，以及數(shù)字上的分離。因此，如今法官們知道在做決定時(shí)需要考慮這些更廣泛的不平衡。“ProPublica揭示的問(wèn)題其實(shí)是關(guān)于我們?nèi)绾慰创A(yù)測(cè)，而我們?nèi)绾慰创惴ㄒ餐瑯又匾?rdquo;

學(xué)術(shù)界也有一些COMPAS如何改進(jìn)的建議?？▋?nèi)基梅隆大學(xué)海因茨學(xué)院統(tǒng)計(jì)學(xué)與公共政策教授亞歷桑德拉·喬爾德喬娃表示，如果COMPAS的設(shè)計(jì)者允許在處理非裔美國(guó)人被告時(shí)稍微增加一些整體的不準(zhǔn)確性，就可以確保算法對(duì)不同種族的錯(cuò)誤率大致相同。“這個(gè)，”她指出，“或許就是你希望達(dá)成的權(quán)衡。”

算法中的性別歧視

谷歌翻譯存在著隱性的性別歧視問(wèn)題。你可以嘗試將短語(yǔ)“o bir doktor”和“o bir hemşire”從土耳其語(yǔ)翻譯成英語(yǔ)。這兩個(gè)土耳其語(yǔ)短語(yǔ)用的都是性別中性的代詞“o”，而谷歌翻譯強(qiáng)制性地選擇了性別代詞。結(jié)果是，第一個(gè)短語(yǔ)被翻譯成“he is a doctor”(他是一名醫(yī)生)，第二個(gè)則是“she is a nurse”(她是一名護(hù)士)。

在波士頓大學(xué)的Tolga Bolukbasi及其同事于2016年發(fā)表的一篇論文中，這些翻譯是他們關(guān)注的焦點(diǎn)，并作為一類被稱為單詞嵌入的語(yǔ)言模型的例子。這些模型用于為翻譯服務(wù)、搜索算法和自動(dòng)完成功能提供支持，它們用自然語(yǔ)言的采集主體(比如谷歌新聞的文章)進(jìn)行訓(xùn)練，通常沒(méi)有人類語(yǔ)言學(xué)家的太多介入。模型中的單詞被映射為高維空間中的點(diǎn)，因此給定的一對(duì)單詞間的距離和方向表明了它們?cè)谝馑忌嫌卸嘟咏?，以及具有什么樣的語(yǔ)義關(guān)系。

舉個(gè)例子，“Man”(男人)和“Woman”(女人)之間的距離與“King”(國(guó)王)和“Queen”(王后)之間的距離大致相同，方向也一樣。單詞嵌入模型還能使隱性偏見(jiàn)永久存在，就像谷歌翻譯里的那樣。模型的基礎(chǔ)架構(gòu)，即幾十年來(lái)在數(shù)字語(yǔ)料庫(kù)中收集的數(shù)十億文本，已經(jīng)開(kāi)始以難以理解和改變的方式影響著我們的日常交流。然而，基礎(chǔ)架構(gòu)中許多偏見(jiàn)的納入要早于它們以數(shù)字形式的制度化。而且，與COMPAS類似，研究這些偏見(jiàn)在算法中的出現(xiàn)帶來(lái)了新的機(jī)會(huì)。

Bolukbasi和同事開(kāi)發(fā)了一種通過(guò)在單詞嵌入模型空間內(nèi)移動(dòng)單詞，對(duì)語(yǔ)言進(jìn)行“去偏見(jiàn)”的技術(shù)。想象一下，將單詞“doctor”(醫(yī)生)、“nurse”(護(hù)士)、“man”(男人)和“woman”(女人)放到一個(gè)正方形的4個(gè)點(diǎn)上，“man”和“woman”在底部，“doctor”和“nurse”在頂部。連接“doctor”和“nurse”的線段與“man”和“woman”之間的線段長(zhǎng)度完全一致。因此，系統(tǒng)會(huì)將它們的關(guān)系視為是可類比的。Bolukbasi的去偏見(jiàn)策略是將“doctor”和“nurse”都推到頂部線段的中點(diǎn)，使它們與“man”和“woman”的距離都相同。從結(jié)果上，系統(tǒng)已經(jīng)“忘記了”可類比性;之后翻譯中所使用的代詞將留給系統(tǒng)設(shè)計(jì)者決定。

改變單詞之間的聯(lián)系可能會(huì)帶來(lái)顯著的影響。普林斯頓大學(xué)的計(jì)算機(jī)科學(xué)教授阿爾文德·納拉亞南與同事一起開(kāi)發(fā)了測(cè)量機(jī)器學(xué)習(xí)模型中偏見(jiàn)程度的工具。三人從已經(jīng)被深入研究的心理學(xué)測(cè)驗(yàn)——內(nèi)隱聯(lián)系測(cè)驗(yàn)(Implicit Association Test)——開(kāi)始，在該測(cè)驗(yàn)的一個(gè)常見(jiàn)變體中，受試者在積極屬性的詞匯與反映社會(huì)類別的詞匯之間進(jìn)行配對(duì)的速度越快，他們對(duì)二者聯(lián)系的確信程度就越高。在許多這樣的配對(duì)中，反應(yīng)時(shí)間的平均差異——通常是以毫秒計(jì)——可以作為隱性偏見(jiàn)的測(cè)量指標(biāo)。納拉亞南和同事講反應(yīng)時(shí)間替換成單詞間的距離，建立了“單詞嵌入聯(lián)系測(cè)驗(yàn)”。該測(cè)驗(yàn)重現(xiàn)了內(nèi)隱聯(lián)系測(cè)驗(yàn)研究在同一組詞匯中所發(fā)現(xiàn)的同一組刻板印象。

20多年來(lái)，內(nèi)隱聯(lián)系測(cè)驗(yàn)已經(jīng)揭示出各種各樣的隱性偏見(jiàn)，從性別到國(guó)籍再到種族，跨越許多不同背景的人群。由于偏見(jiàn)如此普遍，有人猜測(cè)人類的自然傾向——比如支配等級(jí)和群體內(nèi)部的身份識(shí)別等——是造成這些偏見(jiàn)的原因;從這一角度看，偏見(jiàn)是人類天性中不可避免的。單詞嵌入聯(lián)系測(cè)驗(yàn)論文的作者推測(cè)，他們的研究結(jié)果支持了另一種(盡管不是唯一的)可能性：“僅僅接觸語(yǔ)言就足以在我們腦海中產(chǎn)生這些隱性偏見(jiàn)。”換句話說(shuō)，如果偏見(jiàn)是在語(yǔ)言本身的統(tǒng)計(jì)中體現(xiàn)并傳播，那么我們說(shuō)話的方式就不只是表達(dá)我們看待彼此的方式，而且也是構(gòu)建偏見(jiàn)的方式。如果諸如Bolukbasi開(kāi)發(fā)的去偏見(jiàn)項(xiàng)目能奏效的話，我們就可以大規(guī)模地改變偏見(jiàn)，并且是以之前不可能的方式：用軟件。如果這些軟件不能發(fā)揮作用，那持續(xù)幾代人的數(shù)字化基礎(chǔ)結(jié)構(gòu)可能就會(huì)不斷加強(qiáng)和延續(xù)這些偏見(jiàn)。

納拉亞南指出，Bolukbasi的論文假設(shè)了性別是二元的，或至少性別詞匯之間的遵循一條直線。“我不認(rèn)為(我們)有任何(去偏見(jiàn))能對(duì)一個(gè)可能稍微復(fù)雜的概念起作用的線索，”他說(shuō)道。他特別指出了種族刻板印象，其中有關(guān)類別的概念與用來(lái)定義它們的方法一樣有問(wèn)題。

納拉亞南使用從Amazon Mechanical Turk(一種被形容為“人工人工智能”的服務(wù)平臺(tái))招募的群體勞動(dòng)者來(lái)確定他的性別工作中的類別。同樣這些勞動(dòng)者還評(píng)估了哪些類別出現(xiàn)偏見(jiàn)，以及程序消除這些偏見(jiàn)的成功程度。換句話說(shuō)，關(guān)于什么是有偏見(jiàn)的決定，以及偏見(jiàn)被消除意味著什么，仍然與社會(huì)共識(shí)中的中位值密切相關(guān)，給社會(huì)進(jìn)步加上了民粹主義的制約。

還有更令人氣餒的擔(dān)憂。巴洛卡斯和克勞福德近期指出，大多數(shù)關(guān)于算法公平性的研究都集中在所謂的“分配型傷害”(allocative harm)，涉及到資源的分配，比如前面提到的當(dāng)日送達(dá)服務(wù)、判決中采用的風(fēng)險(xiǎn)評(píng)分等。他們呼吁更多地關(guān)注種族主義批評(píng)者如貝爾·胡克斯(bell hooks)等提出的“象征型傷害”(representational harm)。舉例來(lái)說(shuō)，在谷歌圖片搜索中輸入“CEO”(首席執(zhí)行官)，所得到的結(jié)果中絕大多數(shù)都是白人的頭像。納拉亞南表示，這些問(wèn)題可能會(huì)在公平性討論中被忽視，因?yàn)?ldquo;它們?cè)跀?shù)學(xué)上更難以確切闡述，在計(jì)算機(jī)科學(xué)中，如果你無(wú)法用正式的術(shù)語(yǔ)來(lái)研究某些東西，那它的存在合理性就不如那些能夠轉(zhuǎn)化成方程或算法的東西。”

在最糟糕的情況下，我們?cè)谔幚頂?shù)據(jù)中的偏見(jiàn)時(shí)所遇到的這樣或那樣的限制，將使我們構(gòu)建中的算法成為新一代的混凝土橋，使不合理的現(xiàn)狀在未來(lái)許多年里一直延續(xù)。在最好的情況下，數(shù)據(jù)基礎(chǔ)架構(gòu)將迫使我們以某些從未有過(guò)的方式，揭露并面對(duì)我們對(duì)公平和決策的定義。

這種緊張狀態(tài)很難與我們通常的技術(shù)進(jìn)步觀念相協(xié)調(diào)。人們很容易認(rèn)為技術(shù)變化要比社會(huì)更快，并且軟件可以通過(guò)迅速加入新的社會(huì)規(guī)范來(lái)促進(jìn)社會(huì)進(jìn)步，并隔離倒退或惡意行為者的影響。一個(gè)量刑算法能造成的傷害要比一個(gè)明顯偏執(zhí)的法官小得多。但是，技術(shù)也可能掩蓋偏見(jiàn)的歷史和背景，減緩甚至阻礙社會(huì)進(jìn)步?；A(chǔ)設(shè)施很難改變，而機(jī)會(huì)也在逐漸減少：技術(shù)可以在未來(lái)改進(jìn)，但我們正在決定需要做出哪些權(quán)衡。目前尚不清楚我們是否有機(jī)會(huì)重新審視這些權(quán)衡。

畢竟，算法變得越普遍，被取代的可能性就越低。雖然我們可能每?jī)赡昃蜕?jí)一次手機(jī)，但核心軟件基礎(chǔ)架構(gòu)的改造依然面臨很大障礙?？紤]到滲透到我們生活中的過(guò)時(shí)技術(shù)已經(jīng)非常多，例如空中交通管制系統(tǒng)主要依賴于20世紀(jì)70年代開(kāi)發(fā)的軟件。在2017年癱瘓了英國(guó)醫(yī)院系統(tǒng)的“WannaCry”蠕蟲(chóng)病毒，利用的便是這樣一個(gè)事實(shí)：這些系統(tǒng)是在幾十年前的Windows版本上運(yùn)行的，微軟公司甚至已經(jīng)不再提供維護(hù)。機(jī)器對(duì)語(yǔ)言的理解嵌入在核心服務(wù)中，可以在數(shù)年或數(shù)十年后依然呈現(xiàn)出今天的偏見(jiàn)。用藝術(shù)家Nicole Aptekar的話來(lái)說(shuō)，“基礎(chǔ)架構(gòu)擊敗了意圖。”

新的數(shù)字基礎(chǔ)架構(gòu)面臨的最大危險(xiǎn)并不是會(huì)腐朽，也不是容易受到攻擊，而是其最糟糕的功能將繼續(xù)存在。一旦大橋建起來(lái)，要拆掉就很難了。