www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當(dāng)前位置:首頁 > 物聯(lián)網(wǎng) > 智能應(yīng)用
[導(dǎo)讀]大數(shù)據(jù)(big data),指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。

大數(shù)據(jù)(big data),指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。

一、大數(shù)據(jù)平臺

大數(shù)據(jù)在工作中的應(yīng)用有三種:

與業(yè)務(wù)相關(guān),比如用戶畫像、風(fēng)險(xiǎn)控制等;

與決策相關(guān),數(shù)據(jù)科學(xué)的領(lǐng)域,了解統(tǒng)計(jì)學(xué)、算法,這是數(shù)據(jù)科學(xué)家的范疇;

與工程相關(guān),如何實(shí)施、如何實(shí)現(xiàn)、解決什么業(yè)務(wù)問題,這是數(shù)據(jù)工程師的工作。

數(shù)據(jù)工程師在業(yè)務(wù)和數(shù)據(jù)科學(xué)家之間搭建起實(shí)踐的橋梁。本文要分享的大數(shù)據(jù)平臺架構(gòu)技術(shù)選型及場景運(yùn)用偏向于工程方面。

 


 

如圖所示,大數(shù)據(jù)平臺第一個要素就是數(shù)據(jù)源,我們要處理的數(shù)據(jù)源往往是在業(yè)務(wù)系統(tǒng)上,數(shù)據(jù)分析的時(shí)候可能不會直接對業(yè)務(wù)的數(shù)據(jù)源進(jìn)行處理,而是先經(jīng)過數(shù)據(jù)采集、數(shù)據(jù)存儲,之后才是數(shù)據(jù)分析和數(shù)據(jù)處理。

從整個大的生態(tài)圈可以看出,要完成數(shù)據(jù)工程需要大量的資源;數(shù)據(jù)量很大需要集群;要控制和協(xié)調(diào)這些資源需要監(jiān)控和協(xié)調(diào)分派;面對大規(guī)模的數(shù)據(jù)怎樣部署更方便更容易;還牽扯到日志、安全、還可能要和云端結(jié)合起來,這些都是大數(shù)據(jù)圈的邊緣,同樣都很重要。

二、數(shù)據(jù)源的特點(diǎn)

數(shù)據(jù)源的特點(diǎn)決定數(shù)據(jù)采集與數(shù)據(jù)存儲的技術(shù)選型,我根據(jù)數(shù)據(jù)源的特點(diǎn)將其分為四大類:

第一類:從來源來看分為內(nèi)部數(shù)據(jù)和外部數(shù)據(jù);

第二類:從結(jié)構(gòu)來看分為非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù);

第三類:從可變性來看分為不可變可添加數(shù)據(jù)和可修改刪除數(shù)據(jù);

第四類,從規(guī)模來看分為大量數(shù)據(jù)和小量數(shù)據(jù)。

內(nèi)部數(shù)據(jù)

來自企業(yè)內(nèi)部系統(tǒng),可以采用主動寫入技術(shù)(push),從而保證變更數(shù)據(jù)及時(shí)被采集。

 

外部數(shù)據(jù)

企業(yè)要做大數(shù)據(jù)的話肯定不會只局限于企業(yè)內(nèi)部的數(shù)據(jù),比如銀行做征信,就不能只看銀行系統(tǒng)里的交易數(shù)據(jù)和用戶信息,還要到互聯(lián)網(wǎng)上去拉取外部數(shù)據(jù)。

外部數(shù)據(jù)分為兩類:

一類是要獲取的外部數(shù)據(jù)本身提供API,可以調(diào)用API獲取,比如微信;

另一類是數(shù)據(jù)本身不提供API,需要通過爬蟲爬取過來。

 

這兩類數(shù)據(jù)都不是我們可控制的,需要我們?nèi)カ@得,它的結(jié)構(gòu)也可能跟我們企業(yè)內(nèi)部數(shù)據(jù)的結(jié)構(gòu)不一樣,還需要進(jìn)行轉(zhuǎn)換,爬蟲爬取的數(shù)據(jù)結(jié)構(gòu)更亂,因此大數(shù)據(jù)平臺里需要做ETL,由ETL進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)換、加載,清洗、去重、去噪,這個過程比較麻煩。爬蟲爬過來的數(shù)據(jù)往往是非結(jié)構(gòu)性的、文檔型的數(shù)據(jù),還有視頻、音頻,這就更麻煩了。

結(jié)構(gòu)化數(shù)據(jù) & 非結(jié)構(gòu)化數(shù)據(jù)

 

結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)在存儲時(shí)的選型完全不同,非結(jié)構(gòu)化數(shù)據(jù)偏向于文件,或者選擇NoSQL數(shù)據(jù)庫;考慮到事務(wù)的一致性,我們也可能選擇傳統(tǒng)的數(shù)據(jù)庫。

不變可添加數(shù)據(jù)

如果數(shù)據(jù)源的數(shù)據(jù)是不變的,或者只允許添加(通常,數(shù)據(jù)分析的事實(shí)表,例如銀行交易記錄等都不允許修改或刪除),則采集會變得非常容易,同步時(shí)只需要考慮最簡單的增量同步策略,維持?jǐn)?shù)據(jù)的一致性也相對變得容易。

對于大數(shù)據(jù)分析來說,我們每天在處理的數(shù)據(jù)大部分是不可變更的。正如Datomic數(shù)據(jù)庫的設(shè)計(jì)哲學(xué)就是數(shù)據(jù)為事實(shí)(fact),它是不可變的,即數(shù)據(jù)是曾經(jīng)發(fā)生的事實(shí),事實(shí)是不可以被篡改的,哪怕改一個地址,從設(shè)計(jì)的角度來說也不是改動一個地址,而是新增了一個地址。交易也是如此。

可修改可刪除數(shù)據(jù)

銀行的交易記錄、保險(xiǎn)單的交易記錄,互聯(lián)網(wǎng)的訪客訪問記錄、下單記錄等都是不可變的。但是數(shù)據(jù)源的數(shù)據(jù)有些可能會修改或刪除,尤其是許多維表經(jīng)常需要變動。要對這樣的數(shù)據(jù)進(jìn)行分析處理,最簡單的辦法就是采用直連形式,但直連可能會影響數(shù)據(jù)分析的效率與性能,且多數(shù)數(shù)據(jù)模型與結(jié)構(gòu)可能不符合業(yè)務(wù)人員進(jìn)行數(shù)據(jù)分析的業(yè)務(wù)訴求。如果采用數(shù)據(jù)采集的方式,就要考慮同步問題。

大數(shù)據(jù)量

針對大數(shù)據(jù)量,如果屬于高延遲的業(yè)務(wù),可以采用batch的處理方式,實(shí)時(shí)分析則需要使用流式處理,將兩者結(jié)合就是Lambda架構(gòu),即有實(shí)時(shí)處理、又能滿足一定的大數(shù)據(jù)量,這是現(xiàn)在比較流行的大數(shù)據(jù)處理方式。

 

三、數(shù)據(jù)存儲的技術(shù)選型

大數(shù)據(jù)平臺特征:相同的業(yè)務(wù)數(shù)據(jù)會以多種不同的表現(xiàn)形式,存儲在不同類型的數(shù)據(jù)庫中,形成一種poly-db的數(shù)據(jù)冗余生態(tài)。

先把數(shù)據(jù)源進(jìn)行分類,然后根據(jù)其特點(diǎn)判斷用什么方式采集,采集之后要進(jìn)行存儲。數(shù)據(jù)存儲的技術(shù)選型依據(jù)有三點(diǎn):

第一點(diǎn)取決于數(shù)據(jù)源的類型和采集方式。比如非結(jié)構(gòu)化的數(shù)據(jù)不可能拿一個關(guān)系數(shù)據(jù)庫去存儲。采集方式如果是流失處理,那么傳過來放到Kafka是最好的方式。

第二點(diǎn)取決于采集之后數(shù)據(jù)的格式和規(guī)模。比如數(shù)據(jù)格式是文檔型的,能選的存儲方式就是文檔型數(shù)據(jù)庫,例如MongoDB;采集后的數(shù)據(jù)是結(jié)構(gòu)化的,則可以考慮關(guān)系型數(shù)據(jù)庫;如果數(shù)據(jù)量達(dá)到很大規(guī)模,首選放到HDFS里。

第三點(diǎn)是分析數(shù)據(jù)的應(yīng)用場景。根據(jù)數(shù)據(jù)的應(yīng)用場景來判定存儲技術(shù)選型。

場景一:輿情分析

做輿情分析的時(shí)候客戶要求所有數(shù)據(jù)存放兩年,一天600多萬,兩年就是700多天×600多萬,幾十億的數(shù)據(jù)。而且爬蟲爬過來的數(shù)據(jù)是輿情,做了分詞之后得到的可能是大段的網(wǎng)友評論,客戶要求對輿情進(jìn)行查詢,做全文本搜索,并要求響應(yīng)時(shí)間控制在10s以內(nèi)。

我們后來選擇用ES,在單機(jī)上做了一個簡單的測試,大概三億多條數(shù)據(jù),用最壞的查詢條件進(jìn)行搜索,保證這個搜索是全表搜索(基于Lucence創(chuàng)建了索引,使得這種搜索更高效),整個查詢時(shí)間能控制在幾秒以內(nèi)。

 

如圖所示,爬蟲將數(shù)據(jù)爬到Kafka里,在里面做流處理,去重去噪做語音分析,寫到ElasticSearch里。我們做大數(shù)據(jù)的一個特點(diǎn)是多數(shù)據(jù)庫,會根據(jù)不同的場景選擇不同的數(shù)據(jù)庫,所以會產(chǎn)生大量的冗余。

場景二:商業(yè)智能產(chǎn)品

BI產(chǎn)品主要針對數(shù)據(jù)集進(jìn)行的數(shù)據(jù)分析以聚合運(yùn)算為主,比如求合、求平均數(shù)、求同比、求環(huán)比、求其他的平方差或之類的標(biāo)準(zhǔn)方差。我們既要滿足大數(shù)據(jù)量的水平可伸縮,又要滿足高性能的聚合運(yùn)算。選擇Parquet列式存儲,可以同時(shí)滿足這兩個需求。

 

場景三:Airbnb的大數(shù)據(jù)平臺

Airbnb的大數(shù)據(jù)來自兩塊:一是本身的業(yè)務(wù)數(shù)據(jù),二是大量的事件。數(shù)據(jù)源不同,采集方式也不一樣。日志數(shù)據(jù)通過發(fā)送Kafka事件,而線上數(shù)據(jù)則通過Sqoop同步。數(shù)據(jù)存儲選擇HDFS集群,然后通過Presto對Hive表執(zhí)行即席查詢。S3是一個獨(dú)立的存儲系統(tǒng)。

 


 

四、數(shù)據(jù)處理

 


 

數(shù)據(jù)處理分為三大類:

第一類是從業(yè)務(wù)的角度,細(xì)分為查詢檢索、數(shù)據(jù)挖掘、統(tǒng)計(jì)分析、深度分析,其中深度分析分為機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)。

第二類是從技術(shù)的角度,細(xì)分為Batch、SQL、流式處理、machine learning、Deep learning。

第三類是編程模型,細(xì)分為離線編程模型、內(nèi)存編程模型、實(shí)時(shí)編程模型。

結(jié)合前文講述的數(shù)據(jù)源特點(diǎn)、分類、采集方式、存儲選型、數(shù)據(jù)分析、數(shù)據(jù)處理,我在這里給出一個總體的大數(shù)據(jù)平臺的架構(gòu)。值得注意的是,架構(gòu)圖中去掉了監(jiān)控、資源協(xié)調(diào)、安全日志等。

 


 

左側(cè)是數(shù)據(jù)源,有實(shí)時(shí)流的數(shù)據(jù)(可能是結(jié)構(gòu)化、非結(jié)構(gòu)化,但其特點(diǎn)是實(shí)時(shí)的),有離線數(shù)據(jù),離線數(shù)據(jù)一般采用的多為ETL的工具,常見的做法是在大數(shù)據(jù)平臺里使用Sqoop或Flume去同步數(shù)據(jù),或調(diào)一些NIO的框架去讀取加載,然后寫到HDFS里面,當(dāng)然也有一些特別的技術(shù)存儲的類型,比如HAWQ就是一個支持分布式、支持事務(wù)一致性的開源數(shù)據(jù)庫。

從業(yè)務(wù)場景來看,如果我們做統(tǒng)計(jì)分析,就可以使用SQL或MapReduce或streaming或Spark。如果做查詢檢索,同步寫到HDFS的同時(shí)還要考慮寫到ES里。如果做數(shù)據(jù)分析,可以建一個Cube,然后再進(jìn)入OLAP的場景。

 

這個圖基本上把所有的內(nèi)容都涵蓋了,從場景的角度來分析倒推,用什么樣的數(shù)據(jù)源、采用什么樣的采集方式、存儲成什么樣子,能滿足離線、內(nèi)存、實(shí)時(shí)、流的各種模型,都能從圖中得到解答。

 

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

上海 2025年6月23日 /美通社/ -- 近期,黑芝麻智能分享了其如何通過零拷貝共享內(nèi)存技術(shù),解決車載多域間大數(shù)據(jù)傳輸?shù)难舆t與資源消耗問題。核心技術(shù)包括全局內(nèi)存管理單元和dmabuf機(jī)制優(yōu)化,顯著降低CPU負(fù)載與D...

關(guān)鍵字: 內(nèi)存 數(shù)據(jù)傳輸 大數(shù)據(jù) BUF

上?!?025年6月19日,亞馬遜云科技中國峰會在上海召開。峰會期間,亞馬遜全球副總裁、亞馬遜云科技大中華區(qū)總裁儲瑞松全面闡述了隨著生成式AI場景和應(yīng)用的快速落地,AI發(fā)展也迎來Agentic AI技術(shù)的爆發(fā),企業(yè)需要...

關(guān)鍵字: AI 存儲 大數(shù)據(jù)

在人類發(fā)展的歷史長河中,工業(yè)革命始終是推動社會進(jìn)步與經(jīng)濟(jì)發(fā)展的強(qiáng)大動力。從第一次工業(yè)革命的蒸汽動力開啟機(jī)械化時(shí)代,到第二次工業(yè)革命電力與內(nèi)燃機(jī)帶來的大規(guī)模生產(chǎn),再到第三次工業(yè)革命中電子技術(shù)與信息技術(shù)引領(lǐng)的自動化與信息化浪...

關(guān)鍵字: 人工智能 云計(jì)算 大數(shù)據(jù)

在能源轉(zhuǎn)型與數(shù)字化浪潮的雙重推動下,電力行業(yè)正經(jīng)歷著前所未有的變革。新型電力系統(tǒng)的建設(shè)加速推進(jìn),分布式新能源、電動汽車、儲能設(shè)備等新型電力元素大規(guī)模接入,使得電力系統(tǒng)的供需互動更加復(fù)雜。與此同時(shí),大數(shù)據(jù)技術(shù)的蓬勃發(fā)展,為...

關(guān)鍵字: 電力鴻蒙 大數(shù)據(jù)

上海2025年4月23日 /美通社/ -- 2025年4月16日下午,美通社與界面財(cái)聯(lián)社聯(lián)合舉辦的媒體開放日活動在界面財(cái)聯(lián)社上海辦公區(qū)會議室舉行。界面財(cái)聯(lián)社黨委委員、副總裁,界面新聞高級副總裁,上海報(bào)業(yè)傳媒行業(yè)協(xié)會副會長...

關(guān)鍵字: AI 人工智能 流媒體 大數(shù)據(jù)

上海2025年4月18日 /美通社/ -- 近期,全球可持續(xù)餐飲和價(jià)值體驗(yàn)的領(lǐng)導(dǎo)者,索迪斯在2025未來學(xué)校建設(shè)大會上榮獲BEED AWARDS 2025"高品質(zhì)學(xué)校合作伙伴(運(yùn)營創(chuàng)新類)"。...

關(guān)鍵字: 人工智能 樓宇 虛擬現(xiàn)實(shí) 大數(shù)據(jù)

上海2025年4月14日 /美通社/ -- 4月10日,由中國涂料工業(yè)協(xié)會主辦的"2025中國國際涂料大會"(簡稱"涂料大會")在杭州舉行,立邦受邀出席,與來自政府、協(xié)會...

關(guān)鍵字: 數(shù)字化 智能制造 智能化 大數(shù)據(jù)

深圳2025年4月9日 /美通社/ -- 第91屆中國國際醫(yī)療器械博覽會(CMEF)如約而至,人工智能技術(shù)與醫(yī)療設(shè)備的深度融合成為行業(yè)共識。隨著AI醫(yī)療設(shè)備進(jìn)入規(guī)?;瘧?yīng)用階段...

關(guān)鍵字: AI 大數(shù)據(jù) 醫(yī)療設(shè)備 AI技術(shù)

在城市化進(jìn)程加速的今天,城市安全面臨前所未有的挑戰(zhàn):人口密集、基礎(chǔ)設(shè)施復(fù)雜、災(zāi)害風(fēng)險(xiǎn)多樣。平安城市大腦作為智慧城市的核心中樞,通過大數(shù)據(jù)與AI算法的深度融合,構(gòu)建起覆蓋全域的風(fēng)險(xiǎn)預(yù)測與應(yīng)急響應(yīng)體系,成為守護(hù)城市安全的“超...

關(guān)鍵字: 平安城市 大數(shù)據(jù) AI

在2025年的汽車科技浪潮中,智能座艙正以前所未有的速度重塑著人們的出行體驗(yàn)。從最初簡單的車載娛樂系統(tǒng),到如今融合了人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)等先進(jìn)技術(shù)的移動生活空間,智能座艙的技術(shù)圖譜正不斷擴(kuò)展,展現(xiàn)出從多模態(tài)交互到車路...

關(guān)鍵字: 智能座艙 人工智能 大數(shù)據(jù)
關(guān)閉