企業(yè)如何利用AI來處理數(shù)據(jù)網(wǎng)絡效應失效的問題
在利用深度學習進行算法訓練時,數(shù)據(jù)在算法模型迭代的過程中并不會產(chǎn)生理想化的“網(wǎng)絡效應”,要避免數(shù)據(jù)、計算等資源成為成本中心,自動化的算法生成和數(shù)據(jù)標注可能是最高效的解決辦法。作為中國人工智能領軍企業(yè),曠視似乎已經(jīng)在深度學習等底層技術上找到問題最優(yōu)解,這對其他人工智能企業(yè)有著重要的借鑒意義。
圖:曠視以Brain++深度學習框架解決數(shù)據(jù)網(wǎng)絡效應失效帶來的成本問題通俗來講,“網(wǎng)絡效應”就是當一個產(chǎn)品使用的人越多,它的價值便越大,例如社交軟件。放到AI的場景中,數(shù)據(jù)的“網(wǎng)絡效應”體現(xiàn)在當數(shù)據(jù)量越多時,訓練出來的AI算法質(zhì)量將越高,識別效果越好或準確率越高,最后投入到實際應用中產(chǎn)生的商業(yè)價值就越大。那么當越來越多場景使用高質(zhì)量算法的時候,數(shù)據(jù)集的獲取成本分攤下來就會越來越低。
但數(shù)據(jù)網(wǎng)絡效應放在AI場景的實際效果并非如此。相關資料顯示,盡管大部分條件下數(shù)據(jù)的確具有網(wǎng)絡效應,通過數(shù)據(jù)訓練生產(chǎn)算法能夠?qū)蚀_率提高到50%甚至更高,但再向上提升則十分困難。因此,當AI公司剛進入新場景時需要至少得到一套最小價值數(shù)據(jù)源(minimum viable corpus)進行訓練,找到滿足基本場景的算法組合,然后再收集盡可能多的極端案例進行持續(xù)迭代。
但是如此一來就會造成兩個問題:數(shù)據(jù)獲取成本將隨著算法升級而越來越高,且數(shù)據(jù)很可能會過時,老舊的數(shù)據(jù)需要及時被剔除或重新標注。同時,由于越往后算法迭代的耗時越長,服務器成本與人工干預輸出處理成本將有所增長。那么,要如何解決“數(shù)據(jù)網(wǎng)絡效應”在AI中逐漸失效并隨之引發(fā)的各類成本問題呢?對此,曠視給出的答案是人工智能算法平臺Brain++和人工智能數(shù)據(jù)管理平臺Data++。
Brain++是曠視自研的一套端到端的AI算法平臺,采用了AutoML技術,使曠視構建出一條不斷自我改進、不斷變得更加自動化的半自動的算法開發(fā)生產(chǎn)線?;贐rain++,曠視就能夠針對不同垂直領域的碎片化需求定制豐富且不斷增長的算法組合,包括很多長尾需求,并且能以更少的人力和更短的時間開發(fā)出各種新算法,能夠有效避免數(shù)據(jù)網(wǎng)絡效應失效引發(fā)的各類成本問題。
曠視Data++則能夠有效管理并安全儲存曠視用作算法訓練的數(shù)據(jù),允許多個研究人員同時訪問同一套數(shù)據(jù)進行訓練,并支持半自動數(shù)據(jù)處理及標注。在算法訓練中,Data++也從根本上降低了帶寬及人工標注成本。也因此,曠視在2019年成功發(fā)布了全球最大物體檢測數(shù)據(jù)集Objects365。從數(shù)據(jù)質(zhì)量、體量上來看,都遠遠超過現(xiàn)有的ImageNet、COCO數(shù)據(jù)集。要知道內(nèi)生的數(shù)據(jù)集覆蓋范圍越全、質(zhì)量越高,企業(yè)外購的需求才會越少,成本也才更可控。
人工智能從上個世紀60年代就開始起步,但最近幾年才真正迎來發(fā)展高潮。我國2019年人工智能產(chǎn)業(yè)規(guī)模達到105.5億美元,預計到2022年產(chǎn)業(yè)規(guī)模將接近300億美元。但是具體來看,人工智能近年來突飛猛進主要有兩方面因素。一個是因為積累了大量的數(shù)據(jù)。另外一個是由于這些算法的進步,使得這些算法可以在這些數(shù)據(jù)里學習到越來越多的知識,所以實際上總結(jié)起來就是深度學習技術把人工智能推向了一個新的高潮。因此,曠視自研人工智能算法平臺Brain++,并計劃將于今年3月底對其核心深度學習框架 MegEngine進行開源,進一步解決行業(yè)成本控制問題,加速人工智能落地,推動我國經(jīng)濟高質(zhì)量發(fā)展。