互聯(lián)網的飛速發(fā)展使其成為全球信息傳播和共享的重要資源,互聯(lián)網上的數(shù)據也呈幾何級數(shù)增長,然而要從互聯(lián)網上獲取有用的知識卻變得非常困難,“數(shù)據爆炸,知識貧乏”已成為當下迫切需要解決的問題。而機器學習將會是解決這些問題的技術利器,它對海量的數(shù)據挖掘可以說是意義非凡。中國百分之九十五的網民都是百度的用戶,數(shù)億網民每天的搜索數(shù)據形成了龐大數(shù)據庫,這正是機器學習和數(shù)據訓練的重要基石。
百度作為全球最大的中文搜索引擎在逐步的數(shù)據積累中也愈來愈發(fā)現(xiàn)機器學習的重要性,近些年來百度吸納了不少機器學習領域的專家學者參與百度的技術開發(fā)。例如,百度開發(fā)的識圖功能,就運用到了機器學習的相關技術,用戶只要將想要檢索的圖片上傳到搜索引擎中,便可以看到非常精確的搜索結果,包括給出了與該圖片相似的各種臉部特寫圖片以及完整圖,雖然不是完全正確但也是相當了不起了。
其實,計算機看到的圖片不僅僅是成百上千的像素,其需要從中分析顏色,亮度,從而進行圖片的特征提取,對來自互聯(lián)網的幾百億張圖片進行實時的圖像特征匹配,從而更加快速的反饋用戶相關的搜索結果,這些都需要大數(shù)據背景下機器學習等技術作為堅實的后盾。而數(shù)據挖掘技術又是大數(shù)據背景下機器學習應用的另一個重要領域。
雖然,近些年很多專家學者正在積極的進行著機器學習和數(shù)據挖掘領域的研究,但是由于缺乏海量的數(shù)據資源做支撐以及更多的計算資源去支撐這些海量數(shù)據的運算,加之溝通范圍的限制和對某些專業(yè)的領域了解的有限,導致很多研究無法深入的進行下去,百度校園為了解決這個問題,正式成立了“機器學習與數(shù)據挖掘興趣小組”,歡迎相關領域的專家學者以及對此類技術有濃厚興趣的人士登陸加入到我們的興趣小組中來,這里將會是一個頭腦風暴和資源共享的集結地。
百度校園在活動網站專門設置了“資料共享”欄目,提供相關的學術文章下載,為了拓寬學生的學習和研究視野,百度校園還在近期公布了“中國云”程序互聯(lián)網大賽一等獎源代碼,讓更多有此方面需要的同學們可以共享獲獎者的智力成果,以期對同學們的學習研究有一定的指導和參考作用。當然大家也可以將自己的數(shù)據挖掘算法移植到這里,讓更多人來共享你的算法成果。除了共享資源大家還可以就推薦算法、聚類算法、分類算法等相關的專業(yè)技術進行學術探討,你也可以將遇到的問題發(fā)布出來,讓大家群策群力幫你一起解決。
除此之外,百度在還提供了云計算平臺,300多臺服務器的計算平臺可以幫大家解決之前未能觸及的計算資源;在這里,擁有海量真實的大數(shù)據,你不會再遭遇因為缺乏數(shù)據資源而無法開展研究的尷尬境地。今后,百度校園還會針對“推薦算法”和“圖像處理”等方向陸續(xù)在平臺上發(fā)布一些競賽活動,屆時歡迎感興趣的同學踴躍的參與進來!