億條信息泄漏 AI背后隱患重重
近日,拉卡拉旗下子公司考拉征信觸及黑暗產(chǎn)業(yè)并被曝出泄露近億條個人信息的新聞刷爆了整個科技產(chǎn)業(yè),同時考拉征信背后的9個股東中,有5家為上市公司:
· 拉卡拉支付股份有限公司,股票代碼為300773,持股比例達到32.4%;是支付寶和微信之后的第三大支付公司;
· 北京數(shù)知科技股份有限公司,股票代碼為300038;是一家以技術(shù)和數(shù)據(jù)作為驅(qū)動的大數(shù)據(jù)+人工智能科技公司;
· 拓爾思信息技術(shù)股份有限公司,股票代碼為300229;是一家從事以非結(jié)構(gòu)化信息處理為核心的軟件研發(fā)、銷售和技術(shù)服務(wù)的企業(yè),是中文全文檢索技術(shù)的創(chuàng)始者,曾在在中國企業(yè)搜索軟件、Web內(nèi)容管理軟件、垂直搜索及輿情監(jiān)測軟件等領(lǐng)域市場份額排名第一;
· 北京旋極信息技術(shù)股份有限公司,股票代碼為300324;是一家專注于從事嵌入式系統(tǒng)的開發(fā)、生產(chǎn)、銷售和技術(shù)服務(wù)業(yè)務(wù)的公司;致力于提供面向國防軍工的嵌入式系統(tǒng)測試產(chǎn)品及技術(shù)服務(wù)、嵌入式信息安全產(chǎn)品和嵌入式行業(yè)智能移動終端產(chǎn)品;
· 北京藍色光標數(shù)據(jù)科技股份有限公司,股票代碼為300058;主營業(yè)務(wù)為公共關(guān)系咨詢服務(wù)和廣告服務(wù)。
僅分析這5家上市公司我們發(fā)現(xiàn),清一色跟大數(shù)據(jù)、人工智能相關(guān),部分甚至在行業(yè)中具有相當?shù)挠绊懥Α?/p>
大數(shù)據(jù)/AI公司特點
表面看,考拉征信爆發(fā)的原因是因為其利用手頭掌握的個人信息資源的便利,向下游兜售,最終形成了黑色產(chǎn)業(yè)鏈。
實際上,目前的大數(shù)據(jù)公司、人工智能公司,都存在個人信息匯集的問題。我們知道,人工智能得以快速發(fā)展、成熟的3個要素中,數(shù)據(jù)是其中不可或缺的一環(huán),AI算法的優(yōu)化,需要通過無數(shù)的數(shù)據(jù)訓(xùn)練,才能得道最為優(yōu)化的結(jié)果,因此,我們現(xiàn)在看到的人臉識別、車牌識別、大數(shù)據(jù)軌跡碰撞等人工智能應(yīng)用,背后都是多年的人工智能算法訓(xùn)練的成果。
可以說,應(yīng)用效果越好的AI算法,往往背后支撐的數(shù)據(jù)越龐大,而且通常這些用于訓(xùn)練的數(shù)據(jù)基本都是以萬為單位,百萬級都屬于比較低的量級;在交通領(lǐng)域,百億級數(shù)據(jù)都是常有的事。
兩個渠道獲取數(shù)據(jù)來源
隨著大數(shù)據(jù)、人工智能技術(shù)的成熟,可關(guān)聯(lián)的數(shù)據(jù)越來越多,除了人臉、人外形、車牌等直觀可抓拍的數(shù)據(jù)外,還可與姓名、身份證號、手機號、家庭地址、家庭成員、財產(chǎn)情況、過往經(jīng)歷等信息關(guān)聯(lián)起來。
人臉、車牌等信息可通過攝像機獲得,但是第二類信息的獲取則涉及公民隱私,難度非常大。不過,在國家鼓勵企業(yè)發(fā)展人工智能技術(shù)的前提下,總會有一些政策支持,讓部分企業(yè)可以接觸到的部分個人信息,例如將人工智能對接到戶籍、公安、交通、教育、金融等信息系統(tǒng),通過抓拍的圖片與從第三方接口獲取的信息比對,即可把信息關(guān)聯(lián)起來,從而實現(xiàn)數(shù)據(jù)碰撞。
這是目前人工智能企業(yè)獲取公民信息的合法渠道。通過這一渠道,AI公司、大數(shù)據(jù)公司可以對接到全國所有的人口信息、車輛信息、財產(chǎn)信息;一些黑名單更是全方位開放給這些公司。
早些時候,張學(xué)友演唱會頻繁被爆出通過人臉識別技術(shù)抓獲多名疑犯就是個人數(shù)據(jù)公開給AI公司并做數(shù)據(jù)碰撞帶來的結(jié)果。
但并不是所有AI算法公司都有資格合法接觸到如此眾多的個人信息,部分企業(yè)為了獲得充分的數(shù)據(jù)來充實AI算法訓(xùn)練庫,通常會采取一些基于研發(fā)目的的數(shù)據(jù)收集行為,如攝像機抓拍、網(wǎng)上下載等。
AI兩面,隱患重重
AI人工智能技術(shù)的推出,本是為了賦能于行業(yè),服務(wù)于人類;但凡事都有兩面性,用得好,它是一項好技術(shù),若是某個環(huán)節(jié)出現(xiàn)偏差,將會帶來不可挽回的損失。如考拉征信,其上游為其開放數(shù)據(jù)接口,是為滿足其企業(yè)發(fā)展,但他們卻用這一獨享資源來進行非法經(jīng)營,導(dǎo)致了大量的個人信息泄露。
而且,這部分已經(jīng)泄露的信息,短時間內(nèi)是無法抹去的,因為已存儲于下游各個環(huán)節(jié)的服務(wù)器中。
而AI技術(shù)的強大之處還在于,除了合法渠道,它自己也可以通過數(shù)據(jù)碰撞獲得個人信息。
我們知道,大數(shù)據(jù)時代,通過人工智能技術(shù)對數(shù)據(jù)的加工、處理、碰撞,可以獲得很多我們意想不到的信息,如行人軌跡、個人關(guān)系網(wǎng)、個人飲食愛好、個人投資偏向等,都可以分析出來。
同樣的,在這個網(wǎng)絡(luò)時代,個人信息其實都已經(jīng)公開于網(wǎng)上,如征婚網(wǎng)站、汽車網(wǎng)站、房產(chǎn)網(wǎng)站、股市資訊網(wǎng)站、各大門戶的會員系統(tǒng)、支付寶/微信的支付系統(tǒng)等,都有著數(shù)量龐大、形形色色的個人信息。通常情況下,這些信息是相互孤立的,但在人工智能技術(shù)下,通過信息采集、比對、分析、融合,可以匯聚成完整的個人信息,這將形成一條非常龐大的黑色產(chǎn)業(yè)鏈,如某個網(wǎng)站有某人的頭像、手機號等少數(shù)個人信息,另一平臺有身份證號、手機號等個人信息,通過數(shù)據(jù)碰撞,即可將這些信息匯總;如果都有人物照片,直接通過人像比對就可以判斷是否為同一人,進而便捷地獲取個人信息;通過這些技術(shù),類似考拉征信牽涉的黑產(chǎn)業(yè)將會再次低成本地上演。
截止2018年底,我國人工智能企業(yè)超過1000家,企業(yè)規(guī)模從初創(chuàng)期到1000億級市值,他們用于AI訓(xùn)練的數(shù)據(jù)庫來源形色各異,但不可否認的是,大部分都涉及到了個人隱私問題,這些企業(yè)如何利用和保護好這些數(shù)據(jù)?他們開發(fā)的AI應(yīng)用,如何在下游中不被非法使用?
已經(jīng)擺在了產(chǎn)業(yè)面前。
延伸:微軟刪除千萬級人臉數(shù)據(jù)庫
微軟曾經(jīng)搜集并整理了一個千萬級的人臉數(shù)據(jù)庫用于AI訓(xùn)練,該數(shù)據(jù)庫公開后,被眾多機構(gòu)和個人下載,并引發(fā)了公眾的不滿。為此,微軟特意把自己的千萬級人臉庫刪除。
但公眾認為,雖然微軟刪除了自己的數(shù)據(jù)庫,但該數(shù)據(jù)庫在共享之后,其實已經(jīng)遍布于世界各地的硬盤中,信息泄露已無可避免。