Atitit 數(shù)據(jù)挖掘之道
Atitit ?數(shù)據(jù)挖掘之道 attilax總結(jié) 艾龍著
?
1. 數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。 1
2. 數(shù)據(jù)(Data)-信息(information)-知識(shí)(Knowledge)是一個(gè)遞進(jìn)的關(guān)系。 1
3. 數(shù)據(jù)挖掘的步驟一般可以分為:數(shù)據(jù)提取(ETL)-數(shù)據(jù)倉(cāng)庫(kù)-數(shù)據(jù)挖掘工具-知識(shí)發(fā)現(xiàn)。 2
4. 包含的技術(shù)點(diǎn) 與挖掘方法詳細(xì) 分析方法: 2
4.1. ETL 相似度分析 ?模式識(shí)別 2
4.2. 分類、聚類 2
4.3. 垂直領(lǐng)域分析?比如 ?圖片挖掘 yifu pose等 2
4.4. 數(shù)據(jù)轉(zhuǎn)換??方便體積縮小 方便存儲(chǔ) 2
4.5. 結(jié)構(gòu)化 復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等) 2
4.6. 、推薦、關(guān)聯(lián)規(guī)則 3
4.7. Tag ?join groupby分組聚合 ?統(tǒng)計(jì)聚合 3
4.8. 可視化 3
4.9. HTML分析 3
4.10. 來(lái)自統(tǒng)計(jì)學(xué)的抽樣、估計(jì)和假設(shè)檢驗(yàn), 3
4.11. (2)人工智能、模式識(shí)別和機(jī)器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論。 3
4.12. 最優(yōu)化、進(jìn)化計(jì)算、信息論、信號(hào)處理、可視化和信息檢索。一 3
4.13. ?估計(jì)(Estimation)?· 預(yù)測(cè)(Prediction) 3
5. 相關(guān)技術(shù)?他是統(tǒng)計(jì)分析方法學(xué)的延伸和擴(kuò)展。 3
6. 應(yīng)用場(chǎng)景 4
?
?
1.?數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。
數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。
2.?數(shù)據(jù)(Data)-信息(information)-知識(shí)(Knowledge)是一個(gè)遞進(jìn)的關(guān)系。
數(shù)據(jù)的電子化產(chǎn)生了信息,比如:我們可以通過(guò)SQL語(yǔ)句檢索到我們要的信息,但是我們無(wú)法用簡(jiǎn)單的SQL語(yǔ)句找到我們需要的知識(shí),
?
?
3.?數(shù)據(jù)挖掘的步驟一般可以分為:數(shù)據(jù)提?。‥TL)-數(shù)據(jù)倉(cāng)庫(kù)-數(shù)據(jù)挖掘工具-知識(shí)發(fā)現(xiàn)。4.?包含的技術(shù)點(diǎn) 與挖掘方法詳細(xì) 分析方法:4.1.?ETL 相似度分析 ?模式識(shí)別4.2.?分類、聚類4.3.?垂直領(lǐng)域分析?比如 ?圖片挖掘 yifu pose等4.4.?數(shù)據(jù)轉(zhuǎn)換??方便體積縮小 方便存儲(chǔ)4.5.?結(jié)構(gòu)化 復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
?
4.6.?、推薦、關(guān)聯(lián)規(guī)則4.7.?Tag ?join groupby分組聚合 ?統(tǒng)計(jì)聚合4.8.?可視化4.9.?HTML分析4.10.?來(lái)自統(tǒng)計(jì)學(xué)的抽樣、估計(jì)和假設(shè)檢驗(yàn),4.11.?(2)人工智能、模式識(shí)別和機(jī)器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論。4.12.?最優(yōu)化、進(jìn)化計(jì)算、信息論、信號(hào)處理、可視化和信息檢索。一4.13.??估計(jì)(Estimation)?· 預(yù)測(cè)(Prediction)5.?相關(guān)技術(shù)?他是統(tǒng)計(jì)分析方法學(xué)的延伸和擴(kuò)展。
數(shù)據(jù)挖掘利用了人工智能(AI)和統(tǒng)計(jì)分析的進(jìn)步所帶來(lái)的好處。這兩門學(xué)科都致力于模式發(fā)現(xiàn)和預(yù)測(cè)。
數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計(jì)分析技術(shù)。相反,他是統(tǒng)計(jì)分析方法學(xué)的延伸和擴(kuò)展。大多數(shù)的統(tǒng)計(jì)分析技術(shù)都基于完善的數(shù)學(xué)理論和高超的技巧,預(yù)測(cè)的準(zhǔn)確度還是令人滿意的,但對(duì)使用者的要求很高。而隨著計(jì)算機(jī)計(jì)算能力的不斷增強(qiáng),我們有可能利用計(jì)算機(jī)強(qiáng)大的計(jì)算能力只通過(guò)相對(duì)簡(jiǎn)單和固定的方法完成同樣的功能。
一些新興的技術(shù)同樣在知識(shí)發(fā)現(xiàn)領(lǐng)域取得了很好的效果,如神經(jīng)元網(wǎng)絡(luò)和決策樹(shù),在足夠多的數(shù)據(jù)和計(jì)算能力下,他們幾乎不用人的關(guān)照自動(dòng)就能完成許多有價(jià)值的功能。
數(shù)據(jù)挖掘就是利用了統(tǒng)計(jì)和人工智能技術(shù)的應(yīng)用程序,他把這些高深復(fù)雜的技術(shù)封裝起來(lái),使人們不用自己掌握這些技術(shù)也能完成同樣的功能,并且更專注于自己所要解決的問(wèn)題。
?
6.?應(yīng)用場(chǎng)景
?
?
1、情感分析:從xxxx上觀察到用戶對(duì)某一事物或者觀點(diǎn)是怎么評(píng)價(jià)的,而且還能基于這些說(shuō)法見(jiàn)解采取行動(dòng)。目前好像只能從計(jì)算詞匯數(shù)量上去理解理解在博客和社交網(wǎng)站上發(fā)帖人背后的情感是什么,目前為止確定每個(gè)消息的情緒是積極的還是消極的技術(shù)尚未成熟
?
?
3、偏好分析:可以根據(jù)用戶的共同特征(偏好),通過(guò)算法進(jìn)行數(shù)據(jù)挖掘,以便對(duì)客戶群進(jìn)行分群操作(可以從各個(gè)方面各個(gè)角度進(jìn)行分群)。
?
?
可以對(duì)某些特定事件如生日等進(jìn)行推薦或營(yíng)銷
?
?
事件雷達(dá)分析: 。異常事件解析...
?
事件的相關(guān)性:
為什么所以什么?現(xiàn)在我們不強(qiáng)調(diào)這個(gè)問(wèn)題,我們只知道這是相關(guān)的,發(fā)生A事件之后就發(fā)生B事件,但是這兩者是什么關(guān)系,我們不清楚。把相關(guān)事件打在一起,發(fā)生A事件之后,B事件點(diǎn)擊率會(huì)高,但是因果關(guān)系不怎么追求了,但是肯定是有關(guān)系的。我個(gè)人感受非常深的,在今天開(kāi)放的數(shù)據(jù),隱私問(wèn)題,很多情況是能避免的,越來(lái)越多開(kāi)放的社區(qū)出現(xiàn)了。你使用一個(gè)產(chǎn)品,你使用微博
?
?
第一個(gè)就是推薦系統(tǒng)。一個(gè)人上來(lái)以后,你給他推薦感興趣的人,他的朋友。一種是基于興趣,一種是基于關(guān)系的。你只有讓他形成更強(qiáng)的關(guān)系鏈,就是他的好朋友,形成更好的興趣,感情,交集圈。推薦系統(tǒng)和廣告推薦是很相似的,算法做法是一樣的。
?
?
第三個(gè)叫微熱點(diǎn),真正實(shí)現(xiàn)信息關(guān)聯(lián)。微博里面每時(shí)每刻都有熱點(diǎn)事情發(fā)生,用機(jī)器發(fā)現(xiàn)哪些熱點(diǎn)事件能讀出來(lái)。它要做的事很多,第一發(fā)現(xiàn)熱點(diǎn)事情,第二把熱點(diǎn)事情聚在一起形成熱點(diǎn)事件的脈絡(luò),第三把熱點(diǎn)事件投放到用戶面前,是純自動(dòng)的形式。每天數(shù)億的數(shù)據(jù)怎么把它挑選出來(lái)。
?
?
?
第五個(gè)是微博管家。怎么樣把好的東西挑出來(lái),垃圾自動(dòng)過(guò)濾。我們郵箱就有垃圾箱,微博也有人做嗎?不這么做有很多原因,一是技術(shù)是不是準(zhǔn)確,二是商業(yè)化的問(wèn)題。我相信不愿意做的原因就是商業(yè)化的問(wèn)題。商業(yè)化的價(jià)值怎么做,這是需要我們做的,把垃圾信息過(guò)濾掉。
?
?
?
根據(jù)前后關(guān)系--文本分類
微頻道剛才提到了,對(duì)優(yōu)勢(shì)內(nèi)容的挑選。單純從技術(shù)角度來(lái)考慮這個(gè)問(wèn)題,文本分類是很難的事,因?yàn)槲谋竞芏蹋€要分類,不像一些文章,幾百個(gè)字進(jìn)行分類,你有充足的理由做這個(gè)事,這里面需要很多辦法,你不能把精力都放在文本本身,還有用戶呢。這個(gè)用戶老發(fā)財(cái)經(jīng)類的內(nèi)容,他發(fā)文章的時(shí)候,財(cái)經(jīng)概率很多。利用這種思維,用更多的特征來(lái)學(xué)習(xí),不要局限在內(nèi)容本身里面準(zhǔn)確會(huì)大幅提升。分完類之后還要把差的質(zhì)量去掉,把好的質(zhì)量選出來(lái)。比如說(shuō)展示量,各種各樣的東西,都是幫助你學(xué)習(xí)的
?
?
對(duì)內(nèi)容質(zhì)量的判斷
?
?
?
包括用戶和用戶之間的關(guān)系,內(nèi)容和內(nèi)容之間的關(guān)系,用戶和內(nèi)容之間的關(guān)系。
?
?
paip.論數(shù)據(jù)挖掘.txt
數(shù)據(jù)挖掘_百度百科.html
?
C:UsersAdministratorDesktop數(shù)據(jù)挖掘資料包>dir /b
Atitit ?數(shù)據(jù)挖掘 ?數(shù)據(jù)提取 工具 html版nodejs版.docx
Atitit ?數(shù)據(jù)挖掘之道 attilax總結(jié) 艾龍著.docx
Atitit 手機(jī)圖片文檔數(shù)據(jù)挖掘 提取策略方法.docx
Atitit 手機(jī)圖片文檔數(shù)據(jù)挖掘 提取策略方法.docx.274779CF1B6139849
Atitit 手機(jī)圖片文檔數(shù)據(jù)挖掘 提取策略方法.docx.274779CF1B6139849
Atitit 數(shù)據(jù)挖掘 nodejs上HTML分析利器.docx
Atitit 數(shù)據(jù)挖掘與統(tǒng)計(jì) 熱衷于爆炸的地點(diǎn).docx
atitit 數(shù)據(jù)挖掘的attilax總結(jié).docx
atitit.數(shù)據(jù)挖掘 回收站文件列表 (2).doc
atitit.數(shù)據(jù)挖掘 回收站文件列表.doc
atitit.數(shù)據(jù)挖掘的attilax總結(jié) 好像跟個(gè)機(jī)器學(xué)習(xí)差不多啊.docx
Atitit.數(shù)據(jù)挖掘的原理與理論架構(gòu)attilax總結(jié) v2 r818.docx
Atitit.數(shù)據(jù)挖掘的原理與理論架構(gòu)attilax總結(jié).docx
paip.論數(shù)據(jù)挖掘.txt
上海城市軌道交通信息中心數(shù)據(jù)挖掘?qū)嵤┲笇?dǎo)建議.doc
數(shù)據(jù)挖掘資料包.rar
申通地鐵數(shù)據(jù)挖掘需求分析.doc