AI和機器學(xué)習(xí)存在什么算法偏見
我們又能通過開源社區(qū)做些什么?
在我們的世界里,算法無處不在,偏見也是一樣。從社會媒體新聞的提供到流式媒體服務(wù)的推薦到線上購物,計算機算法,尤其是機器學(xué)習(xí)算法,已經(jīng)滲透到我們?nèi)粘I畹拿恳粋€角落。至于偏見,我們只需要參考 2016 年美國大選就可以知道,偏見是怎樣在明處與暗處影響著我們的社會。
很難想像,我們經(jīng)常忽略的一點是這二者的交集:計算機算法中存在的偏見。
與我們大多數(shù)人的認(rèn)知相反,科技并不是客觀的。 AI算法和它們的決策程序是由它們的研發(fā)者塑造的,他們寫入的代碼,使用的“訓(xùn)練”數(shù)據(jù)還有他們對算法進(jìn)行應(yīng)力測試 的過程,都會影響這些算法今后的選擇。這意味著研發(fā)者的價值觀、偏見和人類缺陷都會反映在軟件上。如果我只給實驗室中的人臉識別算法提供白人的照片,當(dāng)遇到不是白人照片時,它不會認(rèn)為照片中的是人類 。這結(jié)論并不意味著 AI 是“愚蠢的”或是“天真的”,它顯示的是訓(xùn)練數(shù)據(jù)的分布偏差:缺乏多種的臉部照片。這會引來非常嚴(yán)重的后果。
這樣的例子并不少。全美范圍內(nèi)的州法院系統(tǒng) 都使用“黑盒”對罪犯進(jìn)行宣判。由于訓(xùn)練數(shù)據(jù)的問題,這些算法對黑人有偏見 ,他們對黑人罪犯會選擇更長的服刑期,因此監(jiān)獄中的種族差異會一直存在。而這些都發(fā)生在科技的客觀性偽裝下,這是“科學(xué)的”選擇。
美國聯(lián)邦政府使用機器學(xué)習(xí)算法來計算福利性支出和各類政府補貼。但這些算法中的信息,例如它們的創(chuàng)造者和訓(xùn)練信息,都很難找到。這增加了政府工作人員進(jìn)行不平等補助金分發(fā)操作的幾率。
算法偏見情況還不止這些。從 Facebook 的新聞算法到醫(yī)療系統(tǒng)再到警用攜帶相機,我們作為社會的一部分極有可能對這些算法輸入各式各樣的偏見、性別歧視、仇外思想、社會經(jīng)濟地位歧視、確認(rèn)偏誤等等。這些被輸入了偏見的機器會大量生產(chǎn)分配,將種種社會偏見潛藏于科技客觀性的面紗之下。
這種狀況絕對不能再繼續(xù)下去了。
在我們對人工智能進(jìn)行不斷開發(fā)研究的同時,需要降低它的開發(fā)速度,小心仔細(xì)地開發(fā)。算法偏見的危害已經(jīng)足夠大了。
我們能怎樣減少算法偏見?
最好的方式是從算法訓(xùn)練的數(shù)據(jù)開始審查,根據(jù)微軟的研究人員 所說,這方法很有效。
數(shù)據(jù)分布本身就帶有一定的偏見性。編程者手中的美國公民數(shù)據(jù)分布并不均衡,本地居民的數(shù)據(jù)多于移民者,富人的數(shù)據(jù)多于窮人,這是極有可能出現(xiàn)的情況。這種數(shù)據(jù)的不平均會使 AI 對我們是社會組成得出錯誤的結(jié)論。例如機器學(xué)習(xí)算法僅僅通過統(tǒng)計分析,就得出“大多數(shù)美國人都是富有的白人”這個結(jié)論。
即使男性和女性的樣本在訓(xùn)練數(shù)據(jù)中等量分布,也可能出現(xiàn)偏見的結(jié)果。如果訓(xùn)練數(shù)據(jù)中所有男性的職業(yè)都是 CEO,而所有女性的職業(yè)都是秘書(即使現(xiàn)實中男性 CEO 的數(shù)量要多于女性),AI 也可能得出女性天生不適合做 CEO 的結(jié)論。
同樣的,大量研究表明,用于執(zhí)法部門的 AI 在檢測新聞中出現(xiàn)的罪犯照片時,結(jié)果會驚人地偏向 黑人及拉丁美洲裔居民。
在訓(xùn)練數(shù)據(jù)中存在的偏見還有很多其他形式,不幸的是比這里提到的要多得多。但是訓(xùn)練數(shù)據(jù)只是審查方式的一種,通過“應(yīng)力測驗”找出人類存在的偏見也同樣重要。
如果提供一張印度人的照片,我們自己的相機能夠識別嗎?在兩名同樣水平的應(yīng)聘者中,我們的AI是否會傾向于推薦住在市區(qū)的應(yīng)聘者呢?對于情報中本地白人恐怖分子和伊拉克籍恐怖分子,反恐算法會怎樣選擇呢?急診室的相機可以調(diào)出兒童的病歷嗎?
這些對于AI來說是十分復(fù)雜的數(shù)據(jù),但我們可以通過多項測試對它們進(jìn)行定義和傳達(dá)。
為什么開源很適合這項任務(wù)?
開源方法和開源技術(shù)都有著極大的潛力改變算法偏見。
現(xiàn)代人工智能已經(jīng)被開源軟件占領(lǐng),TensorFlow、IBM Watson 還有 scikit-learn 這類的程序包都是開源軟件。開源社區(qū)已經(jīng)證明它能夠開發(fā)出強健的,經(jīng)得住嚴(yán)酷測試的機器學(xué)習(xí)工具。同樣的,我相信,開源社區(qū)也能開發(fā)出消除偏見的測試程序,并將其應(yīng)用于這些軟件中。
調(diào)試工具如哥倫比亞大學(xué)和理海大學(xué)推出的 DeepXplore,增強了 AI 應(yīng)力測試的強度,同時提高了其操控性。還有 麻省理工學(xué)院的計算機科學(xué)和人工智能實驗室完成的項目,它開發(fā)出敏捷快速的樣機研究軟件,這些應(yīng)該會被開源社區(qū)采納。
開源技術(shù)也已經(jīng)證明了其在審查和分類大組數(shù)據(jù)方面的能力。最明顯的體現(xiàn)在開源工具在數(shù)據(jù)分析市場的占有率上(Weka、Rapid Miner 等等)。應(yīng)當(dāng)由開源社區(qū)來設(shè)計識別數(shù)據(jù)偏見的工具,已經(jīng)在網(wǎng)上發(fā)布的大量訓(xùn)練數(shù)據(jù)組比如 Kaggle 也應(yīng)當(dāng)使用這種技術(shù)進(jìn)行識別篩選。
開源方法本身十分適合消除偏見程序的設(shè)計。內(nèi)部談話、私人軟件開發(fā)及非民主的決策制定引起了很多問題。開源社區(qū)能夠進(jìn)行軟件公開的談話,進(jìn)行大眾化,維持好與大眾的關(guān)系,這對于處理以上問題是十分重要的。如果線上社團,組織和院校能夠接受這些開源特質(zhì),那么由開源社區(qū)進(jìn)行消除算法偏見的機器設(shè)計也會順利很多。
我們怎樣才能夠參與其中?
教育是一個很重要的環(huán)節(jié)。我們身邊有很多還沒意識到算法偏見的人,但算法偏見在立法、社會公正、政策及更多領(lǐng)域產(chǎn)生的影響與他們息息相關(guān)。讓這些人知道算法偏見是怎樣形成的和它們帶來的重要影響是很重要的,因為想要改變目前的局面,從我們自身做起是唯一的方法。
對于我們中間那些與人工智能一起工作的人來說,這種溝通尤其重要。不論是人工智能的研發(fā)者、警方或是科研人員,當(dāng)他們?yōu)榻窈笤O(shè)計人工智能時,應(yīng)當(dāng)格外意識到現(xiàn)今這種偏見存在的危險性,很明顯,想要消除人工智能中存在的偏見,就要從意識到偏見的存在開始。
最后,我們需要圍繞 AI 倫理化建立并加強開源社區(qū)。不論是需要建立應(yīng)力實驗訓(xùn)練模型、軟件工具,或是從千兆字節(jié)的訓(xùn)練數(shù)據(jù)中篩選,現(xiàn)在已經(jīng)到了我們利用開源方法來應(yīng)對數(shù)字化時代最大的威脅的時間了。