人工智能一定需要大數(shù)據(jù)嗎
因?yàn)椋魏螖?shù)據(jù)積累到一定程度,都會(huì)變成一個(gè)結(jié)果:數(shù)據(jù)量巨大。嗯,很多年前IT業(yè)內(nèi)曾經(jīng)批評(píng)我十六年前的老公司沒(méi)有大數(shù)據(jù),有的只是數(shù)據(jù)量巨大,具體是哪家公司我就不多說(shuō)了。
大數(shù)據(jù)到底是什么,這里不想多說(shuō),寫過(guò)的人太多,青潤(rùn)這里只能說(shuō)一句話:數(shù)據(jù)量大到一定程度的,并且經(jīng)過(guò)格式化規(guī)范化處理后可以用于分析、挖掘和各種計(jì)算使用的數(shù)據(jù)就是大數(shù)據(jù)。
那,結(jié)果呢,人工智能積累的數(shù)據(jù)需要幾個(gè)方面,我們用其中目前接觸相對(duì)較多的識(shí)別技術(shù)來(lái)講述一下會(huì)比較合適,了解青潤(rùn)的人都知道,青潤(rùn)再2005年第二次進(jìn)入中科院做的就是人臉識(shí)別和行為分析方面的研究和產(chǎn)品。
識(shí)別,就需要考慮到下面幾點(diǎn):
1、樣本數(shù)據(jù)的采集;
2、樣本數(shù)據(jù)的標(biāo)定;
3、樣本數(shù)據(jù)的自我檢驗(yàn);
4、基于樣本數(shù)據(jù)的模型構(gòu)建;
5、構(gòu)建樣本的特征碼庫(kù);
識(shí)別過(guò)程是這樣的:
6、進(jìn)行目標(biāo)數(shù)據(jù)采集;
7、基于模型構(gòu)建獲取的特征提取算法進(jìn)行特征提??;
8、進(jìn)行目標(biāo)特征碼和樣本特征碼的對(duì)比,并根據(jù)對(duì)比的異或數(shù)據(jù)得到結(jié)果;
于是基本的過(guò)程結(jié)束了,下面是增值和演進(jìn)過(guò)程:
9、采集新的數(shù)據(jù),并進(jìn)行同樣模型的特征提取,然后進(jìn)行特征對(duì)比,獲得識(shí)別結(jié)果。
10、 隨著時(shí)間的演變,每一個(gè)被檢驗(yàn)?zāi)繕?biāo)都會(huì)發(fā)生變化,人會(huì)從小孩變成成人然后變成老人,各種材料會(huì)衰變老化(比如一些重要設(shè)備的重要部件在發(fā)生重大事故時(shí)要檢測(cè)是不是原來(lái)的部件,是不是因?yàn)槔匣斐傻?,是不是被人?u>破損或者替換了的時(shí)候都需要這個(gè)),這時(shí)候,就產(chǎn)生了一種模型的演進(jìn)算法,也可以稱之為疲勞算法。
11、 而為了確保目標(biāo)的有效性,還有一種活體檢測(cè)技術(shù)也隨之而產(chǎn)生了,現(xiàn)在看到的各銀行和支付寶等做的讓你眨眨眼,扭扭頭,張張嘴的動(dòng)作,就是為了活體檢測(cè),但是,這其實(shí)是外行在做的活體檢測(cè)技術(shù)。2005年以前的人臉識(shí)別研究人員都知道,用眼球的反光點(diǎn)作為活體檢測(cè)是最有效的,而且是最不容易被破解的,或者說(shuō)是無(wú)法破解的,而目前這些轉(zhuǎn)頭之類的動(dòng)作只需要一張硅膠皮就可以被輕松破解掉。
隨著數(shù)據(jù)獲取的越來(lái)越多,原本的機(jī)器學(xué)習(xí)算法演進(jìn)成了深度學(xué)習(xí)算法的過(guò)程,于是上面的流程也得到了改變,改變后的結(jié)果基本上都是這樣的:
1、樣本數(shù)據(jù)的采集;
2、樣本數(shù)據(jù)的標(biāo)定,第二次循環(huán)到這里時(shí)將采用自動(dòng)標(biāo)定,根據(jù)計(jì)算的驗(yàn)證結(jié)果改進(jìn)標(biāo)定算法;
3、樣本數(shù)據(jù)的自我檢驗(yàn);
4、基于樣本數(shù)據(jù)的模型構(gòu)建;
5、構(gòu)建樣本的特征碼庫(kù);
6、自動(dòng)抓取獲得網(wǎng)絡(luò)上的各種數(shù)據(jù)源樣本,或者基于自己的推演得到新的數(shù)據(jù)樣本,并基于數(shù)據(jù)源的數(shù)據(jù)完成新的模型采集過(guò)程,然后不斷自己重復(fù)上面2-6的過(guò)程;
識(shí)別過(guò)程是這樣的:
7、進(jìn)行目標(biāo)數(shù)據(jù)采集;
8、基于模型構(gòu)建獲取的特征提取算法進(jìn)行特征提??;
9、進(jìn)行目標(biāo)特征碼和樣本特征碼的對(duì)比,并根據(jù)對(duì)比的異或數(shù)據(jù)得到結(jié)果;
于是基本的過(guò)程結(jié)束了,而很多新入行的所謂模式識(shí)別程序員不了解過(guò)去對(duì)目標(biāo)特征的驗(yàn)證技術(shù),于是只能考慮看上去似乎更為簡(jiǎn)單的活體驗(yàn)證手段或者他們自認(rèn)為更好的演進(jìn)手段,于是形成了下面的方式:
10、 采集新的數(shù)據(jù),并進(jìn)行同樣模型的特征提取,然后進(jìn)行特征對(duì)比,獲得識(shí)別結(jié)果。
11、 而大部分公司其實(shí)不懂得需要設(shè)計(jì)疲勞算法,因?yàn)樗麄兊臄?shù)據(jù)太新,還沒(méi)有到需要考慮疲勞衰變問(wèn)題的階段,這對(duì)于他們來(lái)說(shuō),都是未來(lái)模型需要被再次重建的必然,同樣較好的疲勞算法也是無(wú)法從opencv上直接獲得的,這也在一定程度上證明了,他們還沒(méi)有到大數(shù)據(jù)的層面,僅僅是單一層面的數(shù)據(jù)量巨大而已;
12、 而為了確保目標(biāo)的有效性,還有一種活體檢測(cè)技術(shù)也隨之而產(chǎn)生了,現(xiàn)在看到的各銀行和支付寶等做的讓你眨眨眼,扭扭頭,張張嘴的動(dòng)作,就是為了活體檢測(cè);
13、 11-12的過(guò)程采用了更多的手工標(biāo)定,因?yàn)樗麄儾恢廊绾卧O(shè)計(jì)出更好的機(jī)器標(biāo)定算法,或者說(shuō),最好的標(biāo)定算法他們無(wú)法從opencv上獲得,只能采用這種原始的手工標(biāo)定方式。
據(jù)青潤(rùn)得到的信息,某個(gè)某年剛剛拿到十多億美元的某人工智能公司,某一段時(shí)間內(nèi)的人工標(biāo)定費(fèi)用是以千萬(wàn)投入來(lái)計(jì)算的,具體是哪家公司就不方便明說(shuō)了。
隨著深度學(xué)習(xí)的應(yīng)用,數(shù)據(jù)量越大,就越不是負(fù)擔(dān),而是精度更高的算法模型的實(shí)現(xiàn)過(guò)程,因此,大數(shù)據(jù)已經(jīng)成為人工智能的必然導(dǎo)向結(jié)果,而且大數(shù)據(jù)的有效數(shù)據(jù)總量越大,就意味著結(jié)果的精度越高。
當(dāng)然,這種結(jié)果精度越高的有效數(shù)據(jù)總量,一定是有一定衡量方式的,絕不是什么數(shù)據(jù)拿過(guò)來(lái)都可以用的,這一點(diǎn)必須區(qū)分,很多公司為了盲目吹自己是大數(shù)據(jù)而不加區(qū)分的片面強(qiáng)調(diào)自己的數(shù)據(jù)量巨大,這是不對(duì)的,也是一種錯(cuò)誤的導(dǎo)向方式,換句話說(shuō),除了蹭熱點(diǎn),并沒(méi)有其他任何價(jià)值,這也是需要技術(shù)人員也包括投資機(jī)構(gòu)應(yīng)該看明白的地方。