AI產(chǎn)業(yè)逆勢成長,為數(shù)據(jù)流程提供了一把火!
在2022年新冠奧密疫情的影響下,各行各業(yè)都受到了影響, GDP增速、 PMI、金融貸款等數(shù)據(jù)繼續(xù)下滑。
而與疫情有關(guān)的行業(yè),也是為數(shù)不多的亮點,而 AI技術(shù),也是其中的關(guān)鍵。例如藥物開發(fā)中的輔助藥物篩選、疫苗基因設(shè)計算法等,加快了疫苗與疫苗的開發(fā);人臉識別、語音機器人、文字識別、智能流調(diào)等智能控制方案是疫情防控的核心;智能會議、智能輔助學(xué)習(xí)等工作學(xué)習(xí)情景越來越多;甚至,正在迅速發(fā)展的無人駕駛出租車、配送機器人、機器人餐廳等,都有望在未來成為一股重要的服務(wù)力量。
在未來,隨著市場的需要、政策的不斷推進,技術(shù)的不斷成熟,中國的 AI數(shù)據(jù)服務(wù)將會有一個顯著的加速。云測數(shù)據(jù)為人工智能提供了高質(zhì)量、場景化的支持,幫助人工智能實現(xiàn)了極限的創(chuàng)新,實現(xiàn)了工業(yè)的落地。它的業(yè)務(wù)是圍繞人工智能三要素中的一項(算法、計算能力和數(shù)據(jù))進行的,我們把它叫做 DPS (DPS, DataProcess Service)。
DPS是一種以數(shù)據(jù)處理過程為核心的數(shù)據(jù)處理系統(tǒng),利用數(shù)字技術(shù)從現(xiàn)實世界或者信息系統(tǒng)中獲取數(shù)據(jù),并根據(jù)應(yīng)用需求對數(shù)據(jù)進行處理和輸出。DPS所提供的服務(wù)主要包括 AI、大數(shù)據(jù)、互聯(lián)網(wǎng)內(nèi)容服務(wù)等。DPS的服務(wù)結(jié)構(gòu)主要有數(shù)據(jù)收集與預(yù)處理、數(shù)據(jù)標注、內(nèi)容審核、工具平臺及輔助服務(wù)(例如業(yè)務(wù)訓(xùn)練)等。
從監(jiān)督學(xué)習(xí)向非監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)的演進
目前來看,大部分的AI應(yīng)用都是通過監(jiān)督學(xué)習(xí),利用一組已標注的訓(xùn)練數(shù)據(jù),對分類器的參數(shù)進行調(diào)整,使其達到所要求的性能。但在現(xiàn)實生活中,監(jiān)督學(xué)習(xí)不足以被稱為“智能”。對照人類的學(xué)習(xí)過程,許多都是建立在與事物的交互中,通過人類自身的體會、領(lǐng)悟,得到對事物的理解,并將之應(yīng)用于未來的生活中。而機器的局限就在于缺乏這些“常識”。
無監(jiān)督學(xué)習(xí)領(lǐng)域近期的研究重點在于“生成對抗網(wǎng)絡(luò)”(GANs),而強化學(xué)習(xí)的一個重要研究方向在于建立一個有效的、與真實世界存在交互的仿真模擬環(huán)境,不斷訓(xùn)練,模擬采取各種動作、接受各種反饋,以此對模型進行訓(xùn)練。
從“堆數(shù)據(jù)”到研發(fā)低訓(xùn)練成本的算法
MIT Digital Lab的研究者聯(lián)合韓國的相關(guān)機構(gòu)在2020年發(fā)表了一項基于1058篇深度學(xué)習(xí)的論文和數(shù)據(jù)的研究。在分析了現(xiàn)有的深度學(xué)習(xí)論文成果后,研究人員提出了一個悲觀的預(yù)言:深度學(xué)習(xí)會隨著計算量的限制,在到達某個性能水平后停滯不前,因為在深度學(xué)習(xí)領(lǐng)域有這樣一條規(guī)律:想提升 X 倍的性能,最少需要用 X^2倍的數(shù)據(jù)去訓(xùn)練模型,且這個過程要消耗X^4倍的計算量。即便是10倍性能提升和1萬倍計算量的提升,這樣失衡的比例關(guān)系也僅僅是理論上最優(yōu)的。在現(xiàn)實中,提升10倍性能往往要搭上10億倍的運算量。以今天地球資源的狀況看,想把一些常用的模型錯誤率降低到人們滿意的程度,代價高到人類不能承受。因此,在深度學(xué)習(xí)領(lǐng)域非常值得關(guān)注的是可大幅降低訓(xùn)練成本的新算法創(chuàng)新。
從數(shù)據(jù)到情報的演變,到底是怎樣的一個轉(zhuǎn)化路徑呢?
以某市霧霾輿情分析管控為例,當(dāng)輿情討論點產(chǎn)生時,可視化技術(shù)會基于后臺數(shù)據(jù)做串聯(lián),從傳播軌跡、模式等方面進行分析,提取真實數(shù)據(jù),管控問題數(shù)據(jù)。
由此可見,在場景應(yīng)用中,無論是通過數(shù)據(jù)計算來監(jiān)測問題,還是利用數(shù)據(jù)關(guān)聯(lián)來分析問題,其實都是為了把真實世界的問題還原,用可視化建立起數(shù)據(jù)與決策之間的橋梁,最終要轉(zhuǎn)化出來的,是情報層級的信息。
在大型活動安保中,技術(shù)怎樣輻射到場景?
每一次大型活動,會針對活動級別和要保障的核心點,去進行相關(guān)數(shù)字模型和業(yè)務(wù)模型的匹配,再基于匹配結(jié)果將各類預(yù)警轉(zhuǎn)化為信息進行決策和交互。
以上海進博會為例,活動開辦一年前,就要通過人防、技防、物防的相關(guān)手段,把所有風(fēng)險點過濾,隨著時間的臨近,制定不同的安保預(yù)案,再進行不同模型的設(shè)置和風(fēng)險點的管控,直到最后一天保證活動的整體運行。