自動化機器人學(xué)習算法透明,反欺詐行業(yè)扁平化發(fā)展
影響力度最大、最深遠的欺詐事實往往是團伙性犯罪,即有組織的犯罪形態(tài)。而有組織的犯罪形態(tài)必然表現(xiàn)出有關(guān)聯(lián)的屬性。而這,正是無監(jiān)督學(xué)習訓(xùn)練方法與復(fù)雜網(wǎng)絡(luò)特征表達等的用武之地。
近年來,由于各行業(yè)業(yè)務(wù)數(shù)字化的發(fā)展,金融業(yè)務(wù)向線上轉(zhuǎn)移,網(wǎng)絡(luò)欺詐規(guī)模隨之攀升,欺詐方式朝愈發(fā)復(fù)雜化的方向演變,抵御欺詐的難度日漸提高。
“基于對欺詐的傳統(tǒng)認知所做的方法開始逐漸失效?!?DataVisor 創(chuàng)始人兼 CEO 謝映蓮說告訴 DeepTech,“現(xiàn)在黑產(chǎn)有時還會用真實用戶的軌跡來復(fù)制多個類似的真實用戶,使得這些欺詐用戶具有真實用戶的表象。比如欺詐者使用新賬號時有時會先做一些正常的、真實的、小的交易,此時該用戶已被認為是有過歷史數(shù)據(jù)的正常用戶了,然后他會再做一筆大的欺詐交易。通過這樣的手段來規(guī)避之前的監(jiān)測策略?!?/p>
(來源:DataVisor官網(wǎng))
根據(jù)交付策略的不同,反欺詐公司可分為兩大賽道
為了應(yīng)對變化多端的欺詐手法,從最原始的人工檢測,到黑白名單、規(guī)則引擎,到深度學(xué)習,反欺詐手法也不斷演化。
天云大數(shù)據(jù) CEO 雷濤認為,根據(jù)交付策略的不同,反欺詐公司可分為兩大賽道,一類提供咨詢服務(wù),一類提供動態(tài)反欺詐系統(tǒng)。
其中咨詢服務(wù)產(chǎn)品是偏靜態(tài)的,為規(guī)則策略型。這其中又可分為兩種:
一種是人類專家通過長期的業(yè)務(wù)經(jīng)驗把大量犯罪現(xiàn)場與欺詐事實的規(guī)則提取出來形成反欺詐規(guī)則。最典型的規(guī)則是“黑名單”。還有一些清晰的、更復(fù)雜規(guī)則,其落實往往通過決策系統(tǒng)的策劃手段來完成,把專家的知識、策略部署到一個決策引擎里。
另一種是引入機器學(xué)習的方法,基于歷史數(shù)據(jù)進行離線分析,抽象出規(guī)則,給出策略。比如運用傳統(tǒng)的回歸模型、決策樹模型等方法抽象變量,判斷權(quán)重、特征的價值,形成策略后再部署生產(chǎn)。
而動態(tài)反欺詐系統(tǒng)是數(shù)據(jù)加系統(tǒng)的形態(tài),把專家解放出來,由機器從連續(xù)變化的數(shù)據(jù)中學(xué)習。機器學(xué)習過程把動態(tài)的數(shù)據(jù)信息反饋到模型的自我調(diào)整和曲線上,完成數(shù)據(jù)驅(qū)動的閉環(huán)系統(tǒng),具備自洽、自治的能力,而不僅是通過數(shù)據(jù)學(xué)習給出策略再靜態(tài)地部署生產(chǎn)。
反欺詐咨詢服務(wù)和動態(tài)反欺詐系統(tǒng)在應(yīng)用場景上也有很大差異。
前者在流程性的業(yè)務(wù)里有非常好的效果,比如貸中反欺詐。貸中反欺詐的環(huán)境相對封閉,數(shù)據(jù)資源比較明確(流程中的數(shù)據(jù)),所以無論是通過策略型經(jīng)驗,還是基于歷史數(shù)據(jù)的機器學(xué)習形成靜態(tài)策略,都可以保證一定的反欺詐效果。
而在動態(tài)開放的環(huán)境里,前者的策略往往就失效了。比如申請端和輸出端業(yè)務(wù)邊界比較開放,而數(shù)據(jù)資源又非常有限,銀行需要頻繁更新策略,但這又涉及到組織機制和流程,因此它對銀行現(xiàn)有模式是一個挑戰(zhàn)。此時,系統(tǒng)加數(shù)據(jù)的方法更適合這些線上及申請端數(shù)據(jù)源比較豐富、比較簡單的應(yīng)用場景。
“基于咨詢服務(wù)交付的策略和基于系統(tǒng)加數(shù)據(jù)交付的策略有本質(zhì)的差別。后者實際上是知識生產(chǎn)的全新路徑?!碧煸拼髷?shù)據(jù) CEO 雷濤說。
提供系統(tǒng)解決方案的反欺詐公司的技術(shù)手法不盡相同
對于都處于提供動態(tài)反欺詐系統(tǒng)賽道的公司,它們的主要目標是應(yīng)對團伙欺詐。因為團伙欺詐往往是欺詐里影響力度最大、最深遠的。同時,由于團伙欺詐內(nèi)部個體的關(guān)聯(lián)性,這種性質(zhì)更容易被機器識別與辨認。不過,不同公司采取的解決方案的技術(shù)手法不盡相同。
其中,不少企業(yè)逐漸開始采用無監(jiān)督學(xué)習的訓(xùn)練方法訓(xùn)練反欺詐模型。DataVisor、黑瞳科技、猛犸反欺詐、360 金融等公司都將無監(jiān)督機器學(xué)習技術(shù)視為防范黑產(chǎn)的重要手法。
無監(jiān)督機器學(xué)習通過分析全部用戶的行為,從不同維度聚類出相似的用戶,以此檢測出可疑的用戶行為。它檢測欺詐效果好的原因在于它并不基于歷史數(shù)據(jù),并且能自動進行數(shù)據(jù)挖掘、分析找出黑產(chǎn)的關(guān)聯(lián)特征。
“黑產(chǎn)是一個產(chǎn)業(yè)鏈,產(chǎn)業(yè)鏈總有關(guān)聯(lián)性或相似性。我們事先并不知道一次網(wǎng)絡(luò)攻擊多大規(guī)模,它有時很小很隱蔽,有時很大是爆發(fā)的?!?DataVisor 創(chuàng)始人兼 CEO 謝映蓮說,“我們不是在找黑產(chǎn)的某種模式,因為找模式的話,欺詐者一旦改變模式,系統(tǒng)就無法檢測了?!?/p>
此外,無監(jiān)督機器學(xué)習還可以破解人工智能初創(chuàng)公司數(shù)據(jù)獲取難的難題?!盁o監(jiān)督機器學(xué)習一開始不需要標簽和數(shù)據(jù)的累加去進行訓(xùn)練,模型是隨著數(shù)據(jù)的積累進行自動建模?!?謝映蓮說。
謝映蓮預(yù)計,2021 年 50% 的反欺詐企業(yè)會用到無監(jiān)督機器學(xué)習。
針對團伙性犯罪里個體行為間的關(guān)聯(lián)屬性,天云大數(shù)據(jù)做出的技術(shù)突破并不是從有監(jiān)督還是無監(jiān)督的訓(xùn)練方法上做出改變,而是采用復(fù)雜網(wǎng)絡(luò)加深度學(xué)習的方法在特征表達上做突破。
“我們在復(fù)雜網(wǎng)絡(luò)里抽象了 22 個網(wǎng)絡(luò)特征函數(shù)和傳統(tǒng)的變量去做機器學(xué)習,這種方法可以非常清晰的把團伙性犯罪識別出來。這是特征升維的有效手段。”天云大數(shù)據(jù) CEO 雷濤說,“特征的表達有很多升維的過程。我們更遵從于業(yè)務(wù)原始的屬性,而不是用純暴力的、算力的方法做升維。”
“更重要的價值是,當網(wǎng)絡(luò)模型生成后,復(fù)雜網(wǎng)絡(luò)加深度學(xué)習可以把當下的環(huán)境變化反饋到模型里。而不是等更新、標注數(shù)據(jù)后再訓(xùn)練?!崩诐f。
搭建賦能系統(tǒng)平臺,行業(yè)朝扁平透明化方向發(fā)展
對于天云大數(shù)據(jù)和 DataVisor 等公司,打造人工智能平臺,做出在互聯(lián)網(wǎng)、廣告、金融等領(lǐng)域通用的反欺詐產(chǎn)品是它們的共同目標。
“與其說它是一個機器學(xué)習的工具平臺,不如說它是知識管理平臺,我們越來越多看到這個趨勢。” 雷濤說。
不過,打磨出理想產(chǎn)品的過程中,公司會遇到給各方面的技術(shù)挑戰(zhàn)。
DataVisor創(chuàng)始人謝映蓮指出,目前挑戰(zhàn)主要來自兩個方面:
一是在算法層面,需要設(shè)計出一套高效、大規(guī)模、自動化的算法。因為:第一、客戶往往有幾億、幾十億用戶,這時數(shù)據(jù)吞吐量要大;第二、篩查不能滯后,需要實時攔截,實時響應(yīng);第三、篩查準確率要高,以減少誤傷,防止降低正常用戶的用戶體驗。
二是在系統(tǒng)層面,需要設(shè)計一套通用的能智能地針對各種情況進行挖掘的系統(tǒng)。因為不同行業(yè)(社交、電商、金融、移動應(yīng)用等)甚至同一行業(yè)內(nèi)部的不同公司遭受到的攻擊類型可能都不同,而為每一位客戶都建立一套系統(tǒng)的成本很高,所以搭建一套能自動平行地攔截不同攻擊的系統(tǒng)將大大降低生產(chǎn)的邊際成本。
“自動化機器學(xué)習已經(jīng)可以完全透明化,我們不用再關(guān)注算法本身了?!崩诐f,“未來,行業(yè)會朝越來越扁平化和透明化的方向發(fā)展。”