騰訊披露大數(shù)據(jù)平臺(tái)技術(shù)演進(jìn)歷程:14次升級(jí) 每日數(shù)據(jù)計(jì)算量超30萬(wàn)億
掃描二維碼
隨時(shí)隨地手機(jī)看文章
11月6日消息,在Techo開發(fā)者大會(huì)上,騰訊云副總裁、騰訊數(shù)據(jù)平臺(tái)部總經(jīng)理蔣杰正式對(duì)外披露騰訊大數(shù)據(jù)平臺(tái)10年技術(shù)演進(jìn)歷程。
騰訊云副總裁、騰訊數(shù)據(jù)平臺(tái)部總經(jīng)理蔣杰
蔣杰指出,經(jīng)過10年的積累,騰訊大數(shù)據(jù)平臺(tái)的算力資源池目前已有超過20萬(wàn)臺(tái)的規(guī)模,每天實(shí)時(shí)數(shù)據(jù)計(jì)算量超過30萬(wàn)億條。并且每天數(shù)據(jù)接入條數(shù)達(dá)35萬(wàn)億條數(shù)據(jù)。此外,騰訊云的分布式機(jī)器學(xué)習(xí)平臺(tái),能支撐1萬(wàn)億維度的數(shù)據(jù)訓(xùn)練。
據(jù)介紹,能支撐如此大規(guī)模數(shù)據(jù)的接入和運(yùn)算,是騰訊在大數(shù)據(jù)技術(shù)領(lǐng)域超過10年的積累,其核心的大數(shù)據(jù)平臺(tái)已經(jīng)完成了三次迭代。從以Hadoop為核心的離線計(jì)算時(shí)代到以Spark、Storm、Flink為核心的實(shí)時(shí)計(jì)算時(shí)代,再到如今的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)時(shí)代,騰訊從無(wú)到有研發(fā)了分布式的機(jī)器學(xué)習(xí)引擎Angel,以及一站式AI開發(fā)平臺(tái)智能鈦TI,用來(lái)解決數(shù)據(jù)訓(xùn)練和算法的問題。
2015年初,騰訊開始自研高性能的分布式機(jī)器學(xué)習(xí)平臺(tái)Angel,采用PS架構(gòu),能支持10億維度。目前Angel發(fā)展到3.0版本,能支持萬(wàn)億維度,也可以兼容Spark、PyTorch、TensorFlow等生態(tài),進(jìn)一步降低了使用門檻。此外,Angel今年還新增了對(duì)深度學(xué)習(xí)、圖計(jì)算等的支持。
目前,騰訊正在研究以批流融合、ABC融合、以及數(shù)據(jù)湖和聯(lián)邦學(xué)習(xí)為方向的下一代大數(shù)據(jù)平臺(tái)的研究,該平臺(tái)將具備混合部署、跨域數(shù)據(jù)共享和邊緣計(jì)算等能力。
技術(shù)迭代不斷加速,企業(yè)建設(shè)大數(shù)據(jù)平臺(tái)和機(jī)器學(xué)習(xí)平臺(tái),不僅成本高昂,而且缺乏相應(yīng)的專業(yè)人才,面臨種種問題。
目前,騰訊已經(jīng)把網(wǎng)絡(luò)、存儲(chǔ)、數(shù)據(jù)庫(kù)等IaaS能力,大數(shù)據(jù)、機(jī)器學(xué)習(xí)等PaaS的能力,以及上層的圖像、語(yǔ)音、NLP、BI等SaaS能力,通過騰訊云對(duì)外開放。在大數(shù)據(jù)和AI兩個(gè)領(lǐng)域,騰訊推出了以TBDS和智能鈦TI為首的雙引擎。讓每個(gè)企業(yè),不需要專業(yè)的大數(shù)據(jù)和AI團(tuán)隊(duì),也能便捷用上領(lǐng)先的大數(shù)據(jù)和AI的能力。
另外,騰訊也通過開源和廣大開發(fā)者共享技術(shù)成果。從2014開始,將第一代平臺(tái)的核心,騰訊版的Hive進(jìn)行了開源,2017年,更是把第三代平臺(tái)的核心Angel開源。今年,騰訊加快了開源的腳步,在內(nèi)部推開源協(xié)同的戰(zhàn)略推動(dòng)下,騰訊所有的技術(shù)棧,后續(xù)會(huì)越來(lái)越開放。
此次在Techo大會(huì)現(xiàn)場(chǎng),騰訊宣布正式開源資源管理平臺(tái)核心TKE和分布式數(shù)據(jù)庫(kù)TBase。兩個(gè)月前,騰訊在ApacheCon 2019上,面向全球開發(fā)者正式宣布開源自身核心平臺(tái)—;—;實(shí)時(shí)數(shù)據(jù)采集平臺(tái)TubeMQ,并捐獻(xiàn)給Apache社區(qū)。