什么因素會(huì)導(dǎo)致機(jī)器學(xué)習(xí)失敗
掃描二維碼
隨時(shí)隨地手機(jī)看文章
機(jī)器學(xué)習(xí)在學(xué)習(xí)過(guò)程中總會(huì)犯錯(cuò)。機(jī)器學(xué)習(xí)采用者需要預(yù)見(jiàn)到這一點(diǎn),并時(shí)刻小心,不要因?yàn)镮T和業(yè)務(wù)的人為錯(cuò)誤而使事情變得更糟。
一般來(lái)說(shuō),學(xué)習(xí)的過(guò)程往往就是一個(gè)不斷犯錯(cuò)誤,走錯(cuò)誤道路的過(guò)程,然后找出方法來(lái)在未來(lái)避免這些錯(cuò)誤。機(jī)器學(xué)習(xí)也不例外。
當(dāng)你在你的企業(yè)中實(shí)施機(jī)器學(xué)習(xí)時(shí),要小心:一些技術(shù)營(yíng)銷(xiāo)可能會(huì)讓你覺(jué)得學(xué)習(xí)非常正確,速度非常快,這是對(duì)技術(shù)不切實(shí)際的期望。事實(shí)是,在機(jī)器學(xué)習(xí)過(guò)程中必然會(huì)有錯(cuò)誤。而且這些錯(cuò)誤至少在一段時(shí)間內(nèi)會(huì)在業(yè)務(wù)流程中被編碼。結(jié)果是:這些錯(cuò)誤可能會(huì)大規(guī)模發(fā)生,而且往往超出了人類(lèi)的直接控制。
SPR咨詢(xún)公司(SPR Consulting)的首席數(shù)據(jù)科學(xué)家Ray Johnson表示:“缺乏盡職調(diào)查的熱情可能會(huì)導(dǎo)致一些問(wèn)題,使機(jī)器學(xué)習(xí)的好處無(wú)法得到展示?!?/p>
檢測(cè)和處理機(jī)器學(xué)習(xí)錯(cuò)誤將有助于您在技術(shù)上取得更大的成功,并滿足您的機(jī)器學(xué)習(xí)期望。
以下是一些可能會(huì)增加和延長(zhǎng)機(jī)器學(xué)習(xí)工具在學(xué)習(xí)過(guò)程中所犯錯(cuò)誤的問(wèn)題--他們甚至可能永遠(yuǎn)也無(wú)法識(shí)別和糾正這些錯(cuò)誤教訓(xùn)。
缺乏對(duì)問(wèn)題的業(yè)務(wù)理解會(huì)導(dǎo)致機(jī)器學(xué)習(xí)失敗
一些使用機(jī)器學(xué)習(xí)模型的數(shù)據(jù)工作者并不真正了解機(jī)器學(xué)習(xí)試圖解決的業(yè)務(wù)問(wèn)題,這可能會(huì)在流程中引入錯(cuò)誤。
當(dāng)他的團(tuán)隊(duì)使用機(jī)器學(xué)習(xí)工具時(shí),金融服務(wù)網(wǎng)站LendingTree的副總裁兼戰(zhàn)略與分析主管Akshay Tandon鼓勵(lì)團(tuán)隊(duì)從一個(gè)假設(shè)開(kāi)始聲明。該聲明應(yīng)該詢(xún)問(wèn)您要解決的問(wèn)題是什么,以及您要構(gòu)建哪些模型來(lái)解決該問(wèn)題。
Tandon說(shuō),從統(tǒng)計(jì)方面來(lái)看,今天可用的機(jī)器學(xué)習(xí)工具非常強(qiáng)大。這就給正確地執(zhí)行它增加了更大的負(fù)擔(dān),因?yàn)檫@些強(qiáng)大的工具,如果不小心使用,可能會(huì)導(dǎo)致重要的錯(cuò)誤決策。如果數(shù)據(jù)分析團(tuán)隊(duì)不夠小心,他們最終可能會(huì)得到與團(tuán)隊(duì)所使用的特定數(shù)據(jù)不匹配的模型。迅速惡化的結(jié)果會(huì)導(dǎo)致模型很快就可能出錯(cuò),他說(shuō)。
此外,許多商業(yè)用戶都不明白,從投入生產(chǎn)的那一刻開(kāi)始,模型的質(zhì)量就會(huì)有一定程度的下降,Tandon說(shuō)。如果認(rèn)識(shí)到這一點(diǎn),就像對(duì)待汽車(chē)或任何其他機(jī)器一樣,用戶就會(huì)知道自己需要不斷地監(jiān)控它,并關(guān)注它是如何影響決策的。
低質(zhì)量的數(shù)據(jù)會(huì)導(dǎo)致機(jī)器學(xué)習(xí)錯(cuò)誤
進(jìn)去的是垃圾,出來(lái)的也會(huì)是垃圾。如果數(shù)據(jù)質(zhì)量不夠完善,機(jī)器學(xué)習(xí)也會(huì)受到影響。數(shù)據(jù)質(zhì)量差是數(shù)據(jù)管理人員最關(guān)心的問(wèn)題之一,盡管數(shù)據(jù)科學(xué)家和其他從事信息工作的專(zhuān)業(yè)人員都有最好的意圖,但它仍然可能危及大數(shù)據(jù)分析工作。它也會(huì)讓機(jī)器學(xué)習(xí)模式偏離軌道。
組織經(jīng)常高估機(jī)器學(xué)習(xí)算法的彈性,低估不良數(shù)據(jù)的影響。Johnson說(shuō),糟糕的數(shù)據(jù)質(zhì)量會(huì)產(chǎn)生糟糕的結(jié)果,并導(dǎo)致組織做出不明智的業(yè)務(wù)決策。這些決策的結(jié)果將損害業(yè)務(wù)績(jī)效,并使未來(lái)的計(jì)劃難以獲得支持。
根據(jù)過(guò)去和現(xiàn)在的經(jīng)驗(yàn),你可以從機(jī)器學(xué)習(xí)驅(qū)動(dòng)的結(jié)果中檢測(cè)出不好的數(shù)據(jù)質(zhì)量,而這些結(jié)果似乎毫無(wú)意義。
Johnson說(shuō),解決這個(gè)問(wèn)題的一種積極主動(dòng)的方法是探索性的數(shù)據(jù)分析(EDA)。EDA可以識(shí)別基本的數(shù)據(jù)質(zhì)量問(wèn)題,例如離群值、缺失值和不一致的域值。你還可以使用統(tǒng)計(jì)抽樣等技術(shù)來(lái)確定是否有足夠的數(shù)據(jù)點(diǎn)實(shí)例來(lái)充分反映人口分布,并定義有關(guān)數(shù)據(jù)質(zhì)量修正的規(guī)則和策略。
機(jī)器學(xué)習(xí)的不當(dāng)使用
劍橋咨詢(xún)公司(Cambridge Consultants)的專(zhuān)業(yè)機(jī)器學(xué)習(xí)工程師Sally Epstein表示:“我們?nèi)匀粡钠髽I(yè)中看到的最常見(jiàn)問(wèn)題是,人們只是為了流行而希望使用機(jī)器學(xué)習(xí)?!钡f(shuō),要想取得成功,必須正確應(yīng)用該工具。而且,傳統(tǒng)的工程方法可能可以更快地提供解決方案,而且成本更低。
Johnson說(shuō),當(dāng)機(jī)器學(xué)習(xí)可能不是解決問(wèn)題的最佳選擇,并且不完全理解用例時(shí),使用機(jī)器學(xué)習(xí)可能會(huì)導(dǎo)致其試圖解決一個(gè)錯(cuò)誤的問(wèn)題。
此外,解決錯(cuò)誤的問(wèn)題也將導(dǎo)致失去機(jī)會(huì),因?yàn)榻M織會(huì)努力將其用例定制為一個(gè)特定的、不合適的模型。這包括在人員和基礎(chǔ)設(shè)施部署方面浪費(fèi)的資源,而這些本來(lái)可以使用更簡(jiǎn)單的替代方法來(lái)實(shí)現(xiàn)可能的結(jié)果。
為了避免機(jī)器學(xué)習(xí)的錯(cuò)誤使用,你需要仔細(xì)考慮期望的業(yè)務(wù)結(jié)果、問(wèn)題的復(fù)雜性、數(shù)據(jù)量和屬性的數(shù)量。Johnson說(shuō),相對(duì)簡(jiǎn)單的問(wèn)題,如分類(lèi)、聚類(lèi)和使用少量具有一些屬性的數(shù)據(jù)關(guān)聯(lián)規(guī)則,可以通過(guò)視覺(jué)或統(tǒng)計(jì)分析來(lái)解決。在這些情況下,部署機(jī)器學(xué)習(xí)可能需要比常規(guī)方法更多的時(shí)間和資源。
而當(dāng)數(shù)據(jù)量變大時(shí),機(jī)器學(xué)習(xí)可能更合適。但是,已經(jīng)通過(guò)機(jī)器學(xué)習(xí)訓(xùn)練,然后才發(fā)現(xiàn)業(yè)務(wù)結(jié)果尚未明確定義并導(dǎo)致解決錯(cuò)誤問(wèn)題的情況也并不罕見(jiàn)。
機(jī)器學(xué)習(xí)模型可能有偏見(jiàn)
使用一個(gè)低質(zhì)量的數(shù)據(jù)集可能帶來(lái)一個(gè)誤導(dǎo)性的結(jié)論。這不僅會(huì)引入不準(zhǔn)確性和缺失數(shù)據(jù),還會(huì)引入對(duì)問(wèn)題的偏見(jiàn)。每個(gè)人都會(huì)有偏見(jiàn),所以人們創(chuàng)造或啟發(fā)的模型也可能包含偏見(jiàn)。
Epstein說(shuō),每種機(jī)器學(xué)習(xí)算法對(duì)不平衡的類(lèi)或分布都有不同的敏感性。Epstein說(shuō),如果不解決這些問(wèn)題,你最終得到的面部識(shí)別工具,可能會(huì)依賴(lài)于皮膚顏色,或者帶有性別偏見(jiàn)。事實(shí)上,這已經(jīng)發(fā)生在一些商業(yè)服務(wù)中了。
結(jié)論的準(zhǔn)確性-無(wú)論是算法的準(zhǔn)確性還是個(gè)人的準(zhǔn)確性-取決于所處理信息的廣度和質(zhì)量。咨詢(xún)公司Deloitte咨詢(xún)分析服務(wù)領(lǐng)域負(fù)責(zé)人Vic Katyal說(shuō),組織和個(gè)人所面臨的因算法偏差帶來(lái)的財(cái)務(wù)、法律和聲譽(yù)風(fēng)險(xiǎn)就是為什么任何使用機(jī)器學(xué)習(xí)的公司都應(yīng)該將道德規(guī)范作為組織的必要條件的一個(gè)例子。
Katyal說(shuō),在公共領(lǐng)域,諸如信用評(píng)分、教育課程、招聘和刑事司法判決等方面,算法偏差的跡象已經(jīng)被充分記錄。收集、整理或應(yīng)用不當(dāng)?shù)臄?shù)據(jù)甚至?xí)谠O(shè)計(jì)最完善、目標(biāo)明確的機(jī)器學(xué)習(xí)應(yīng)用程序中引入偏差。
他說(shuō),帶有固有偏見(jiàn)的機(jī)器學(xué)習(xí)系統(tǒng)會(huì)威脅到客戶或社會(huì)利益相關(guān)者中的弱勢(shì)群體,并可能產(chǎn)生或延續(xù)不公平的結(jié)果。
咨詢(xún)公司麥肯錫(McKinsey)在2017年的一份報(bào)告中指出,算法偏差是機(jī)器學(xué)習(xí)的最大風(fēng)險(xiǎn)之一,因?yàn)樗鼤?huì)損害機(jī)器學(xué)習(xí)的真正目的。該公司表示,這是一個(gè)經(jīng)常被忽視的缺陷,它會(huì)引發(fā)代價(jià)高昂的錯(cuò)誤,如果不加以檢查,可能會(huì)將項(xiàng)目和組織拉向完全錯(cuò)誤的方向。
麥肯錫說(shuō),從一開(kāi)始就有效地解決這一問(wèn)題將獲得豐厚的回報(bào),使機(jī)器學(xué)習(xí)的真正潛力得到最有效地實(shí)現(xiàn)。
沒(méi)有充足的資源來(lái)做好機(jī)器學(xué)習(xí)
當(dāng)啟動(dòng)機(jī)器學(xué)習(xí)計(jì)劃時(shí),組織很容易低估人員和基礎(chǔ)設(shè)施所需的資源。機(jī)器學(xué)習(xí)可能需要大量的基礎(chǔ)設(shè)施,尤其是在圖像、視頻和音頻處理等領(lǐng)域。
Johnson說(shuō),如果沒(méi)有所需的處理能力,及時(shí)開(kāi)發(fā)基于機(jī)器學(xué)習(xí)的解決方案可能是非常困難的,如果非做不可的話。
另外,還存在部署和消耗問(wèn)題。如果基礎(chǔ)設(shè)施不到位,不允許用戶部署和使用結(jié)果,那么開(kāi)發(fā)機(jī)器學(xué)習(xí)解決方案有什么用呢?
部署一個(gè)可擴(kuò)展的基礎(chǔ)設(shè)施來(lái)支持機(jī)器學(xué)習(xí)可能是昂貴的,并且很難維護(hù)。但是,有幾種云服務(wù)可以提供可擴(kuò)展的機(jī)器學(xué)習(xí)平臺(tái),可以按需配置。Johnsons說(shuō),云方法允許你進(jìn)行大規(guī)模的機(jī)器學(xué)習(xí)實(shí)驗(yàn),而沒(méi)有物理硬件的獲取、配置和部署的束縛。
但一些組織希望自己擁有自己的基礎(chǔ)設(shè)施。如果是這樣的話,云服務(wù)也可以作為跳板和教育經(jīng)驗(yàn),這樣這些組織在進(jìn)行大規(guī)模投資之前就可以從基礎(chǔ)設(shè)施的角度了解需要什么了。
從人才的角度來(lái)看,缺乏諸如數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)工程師等知識(shí)型資源也可能會(huì)阻礙機(jī)器學(xué)習(xí)的發(fā)展和部署。擁有了解機(jī)器學(xué)習(xí)概念,應(yīng)用程序和可解釋的資源,確定是否實(shí)現(xiàn)了特定的業(yè)務(wù)成果,這一點(diǎn)至關(guān)重要。
Johnson說(shuō),不要低估擁有豐富機(jī)器學(xué)習(xí)技能的重要性。擁有豐富知識(shí)的人員可以幫助識(shí)別數(shù)據(jù)質(zhì)量問(wèn)題,確保正確使用和部署機(jī)器學(xué)習(xí)工具,并幫助建立最佳實(shí)踐和治理策略。
糟糕的計(jì)劃和缺乏治理會(huì)破壞機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)的努力可能會(huì)以熱情開(kāi)始,但隨后也會(huì)因失去動(dòng)力而陷入停頓。這是沒(méi)有計(jì)劃和缺乏治理的表現(xiàn)。
Johnson說(shuō),如果沒(méi)有適當(dāng)?shù)闹笇?dǎo)方針和限制,機(jī)器學(xué)習(xí)的努力將無(wú)限期地持續(xù)下去,可能會(huì)導(dǎo)致巨大的資源支出,而無(wú)法帶來(lái)任何好處。
組織需要記住,機(jī)器學(xué)習(xí)是一個(gè)反復(fù)的過(guò)程,隨著時(shí)間的推移也需要修改模型來(lái)支持不斷變化的需求。因此,從事機(jī)器學(xué)習(xí)的人可能會(huì)對(duì)完成這項(xiàng)工作缺乏興趣,從而導(dǎo)致一個(gè)不良的結(jié)果。項(xiàng)目發(fā)起人可能會(huì)轉(zhuǎn)向其他工作,而機(jī)器學(xué)習(xí)工作最終會(huì)停滯不前。
Johnson說(shuō),你需要定期監(jiān)控機(jī)器學(xué)習(xí)的工作,以確保事情能夠順利進(jìn)行。如果發(fā)現(xiàn)進(jìn)度開(kāi)始放緩,可能是時(shí)候休息一下,并重新檢查一下工作了。