從某種程度上說,大數據是數據分析的前沿技術,從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術,也正是這一點促使該技術具備走向眾多企業(yè)的潛力。大數據最核心的價值就是在于對于海量數據進行存儲和分析,相比起現有的其他技術而言,大數據的“廉價、迅速、優(yōu)化”這三方面的綜合成本是最優(yōu)的。盡管有些網絡數據披著大數據的外衣,但并不是每一種數據融合都可以叫做大數據。有些數據擁有以下4種屬性中的一種或多種,也不能被歸類為大數據,要完全擁有以下4種特性(大數據的4個“V”)才能稱得上是大數據。
大數據是在運動著的,通常處于很高的傳輸速度之下。它經常被認為是數據流,而數據流通常是很難被歸檔的(考慮到有限的網絡存儲空間,單單是高速就已經是一個巨大的問題)。這就是為什么只能收集到數據其中的某些部分。如果我們有能力收集數據的全部,長時間存儲大量數據也會顯得非常昂貴,所以周期性的收集數據遺棄一部分數據以節(jié)省空間,僅保留數據摘要(如平均值和方差)。這個問題在未來會顯得更為嚴重,因為越來越多的數據正以越來越快的速度產生。數據處理遵循“1秒定律”,可從各種類型的數據中快速獲得高價值的信息,這一點也是和傳統(tǒng)的數據挖掘技術有著本質的不同。
大數據采集技術:數據采集是通過RFID射頻技術、傳感器以及移動互聯網等方式獲得的各種類型的結構化及非結構化的海量數據。大數據采集一般分為大數據智能感知層和基礎支撐層: 大數據智能感知層:主要包括數據傳感體系、網絡通信體系、傳感適配體系、智能識別體系及軟硬件資源接入系統(tǒng)。實現對結構化、半結構化、非結構化的海量數據的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監(jiān)控、初步處理和管理等。必須著重攻克針對大數據源的智能識別、感知、適配、傳輸、接入等技術。
基礎支撐層:提供大數據服務平臺所需的虛擬服務器,結構化、半結構化及非結構化數據的數據庫及物聯網絡資源等基礎支撐環(huán)境。重點攻克分布式虛擬存儲技術,大數據獲取、存儲、組織、分析和決策操作的可視化接口技術,大數據的區(qū)絡傳輸與壓縮技術,大數據隱私保護技術等。
大數據預處理技術:大數據預處理主要完成對已接收數據的抽取、清洗等操作。
抽取:因獲取的數據可能具有多種結構和類型,數據抽取過程可以將這些復雜的數據轉化為單一的或者便于處理的構型,以達到快速分析處理的目的。
清洗:對于大數據,并不全是有價值的,有些數據并不是我們所關心的內容,而另一些數據則是完全錯誤的干擾項,因此要對數據通過過濾"去噪"從而提取出有效數據。
在實現技術層面確實差別會很大,但是總體的分析流程其實和傳統(tǒng)的數據分析差不多,也是有著:數據采集、預處理、數據存儲、數據分析這樣的過程。但因為大數據分析數據量十分龐大的特點,導致這些過程在處理技術上都要依托相應的底層框架。這也使得大數據分析具有以下特點
數據量大:因為數據量的龐大,導致大數據分析需要另外的實現工具和框架。但這個龐大的界定有多種說法,有的是說幾十萬,幾百萬就是很大的數據量,有的說數據量達到傳統(tǒng)處理根據沒法處理的程度才算大(包括非結構化數據處理維度很大,上萬的數據量就很難處理了),這些都可以稱為大數據。
對算法要求較低:隨著數據量的增加,大數據分析的方法可能會趨向于基礎化,就是不會很復雜。其實大數據挖掘更多的是挖掘相關性,而這種相關性也難以被嚴格證明為因果,且大數據的繁雜,導致很難做精確的分析,或者說做出的精確分析的可靠性也會打折扣,所以一般會用基礎的算法(實際中往往是更簡單些的算法效果更好)。