可以自學(xué)大數(shù)據(jù)技術(shù)嗎
掃描二維碼
隨時隨地手機(jī)看文章
隨著云時代的來臨,大數(shù)據(jù)(Big data)也吸引了越來越多的關(guān)注。分析師團(tuán)隊認(rèn)為,大數(shù)據(jù)(Big data)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
第一個階段的學(xué)習(xí)內(nèi)容主要以基礎(chǔ)知識為主,涉及到操作系統(tǒng)(Linux)、數(shù)據(jù)庫、編程語言(Java、Python、Scala)、算法設(shè)計基礎(chǔ)以及統(tǒng)計學(xué)基礎(chǔ)知識。這個階段的學(xué)習(xí)內(nèi)容雖然比較多,但是整體的難度并不算高。對于沒有任何計算機(jī)基礎(chǔ)的初學(xué)者來說,應(yīng)該在這個學(xué)習(xí)階段多做一些實驗,如果在學(xué)習(xí)的初期能夠得到一定的指導(dǎo),會節(jié)省一定的時間。
第二個階段的學(xué)習(xí)內(nèi)容主要以大數(shù)據(jù)平臺為主,對于初學(xué)者來說最好選擇開源的大數(shù)據(jù)平臺,比如Hadoop、Spark就是不錯的選擇,初學(xué)者并不建議選擇學(xué)習(xí)商用大數(shù)據(jù)平臺,因為商用平臺的封裝性比較好,不容易分析其中的技術(shù)細(xì)節(jié)。實際上,當(dāng)前很多商用大數(shù)據(jù)平臺都是基于Hadoop和Spark構(gòu)建的。
第三個階段的學(xué)習(xí)內(nèi)容主要以實踐為主,實踐的內(nèi)容主要分為三個大的任務(wù),分別是大數(shù)據(jù)應(yīng)用開發(fā)、大數(shù)據(jù)分析和大數(shù)據(jù)運維,由于不同的崗位往往需要掌握不同的實踐能力,所以掌握更多的實踐知識能夠在一定程度上提升自己的崗位適應(yīng)能力。
大數(shù)據(jù)是一個以系統(tǒng)方式分析數(shù)據(jù),并且從數(shù)據(jù)中提取信息所屬領(lǐng)域的技術(shù)。在數(shù)據(jù)越來越龐大,越來越雜的情況下,相比傳統(tǒng)的數(shù)據(jù)處理軟件件,大數(shù)據(jù)有著數(shù)據(jù)儲存、分析、共享、傳輸?shù)葍?yōu)勢。首先,自學(xué)大數(shù)據(jù)技術(shù)是完全可以的,但是由于大數(shù)據(jù)的知識體系涉及到的內(nèi)容比較多,而且具有一定的難度,所以大數(shù)據(jù)的學(xué)習(xí)應(yīng)該分為以上三個階段來完成。由于大數(shù)據(jù)知識體系比較龐大,而且大數(shù)據(jù)與具體的應(yīng)用場景有密切的聯(lián)系,所以自學(xué)大數(shù)據(jù)技術(shù)很難獲得一個持續(xù)且深入的過程,因此建議在學(xué)習(xí)的中后期應(yīng)該找一個實習(xí)崗位。
來源:IT人劉俊明