IBM通過超級計算機使用大數(shù)據(jù)來解決大問題
IBM喜歡大數(shù)據(jù),獲取的越多,就越能向用戶銷售出更多的服務(wù)器、存儲和服務(wù)。但是由于IBM獲取的大數(shù)據(jù)容量已經(jīng)過大,導(dǎo)致這家公司的研發(fā)人員很難駕馭這些數(shù)據(jù)。
舉例來說,IBM位于硅谷阿爾馬登研究中心的專家勞拉·哈斯(Laura Haas)去年就曾詢問同事,她為什么不能使用更大的數(shù)據(jù)集。哈斯當(dāng)時就曾表示,單是準(zhǔn)備數(shù)據(jù)就花費了他80%的時間。哈斯意識到,IBM研究時間被數(shù)據(jù)分析耗費的越多,該公司的專家就會耗費更多的時間和精力用于擴展數(shù)據(jù)集,從而放緩研發(fā)的步伐。
很明顯,這種事情應(yīng)當(dāng)交付給專業(yè)的數(shù)據(jù)科學(xué)家來解決,但是這樣的循環(huán)只能讓情況變得更加糟糕。還有,它似乎有悖于大數(shù)據(jù)的常規(guī),因為依據(jù)存儲能力的擴展或是傳感器成本的下滑,大數(shù)據(jù)的價值并不受摩爾法則或是克來德法則(Kryder's Law,每10.5年硬盤驅(qū)動器的信息密度就要增長1000倍,也就是說,每13個月存儲密度就要翻一番)支配。
當(dāng)然,大數(shù)據(jù)更適用于“麥特卡夫定律” (Metcalfe's Law)。該定律指出,網(wǎng)絡(luò)的價值等于網(wǎng)絡(luò)用戶數(shù)的平方數(shù);增加網(wǎng)絡(luò)和其他通訊技術(shù)的接入用戶數(shù)量,將獲得巨大效益。 對IBM的研發(fā)人員而言,情況也確實如此。為解決這一問題,IBM硅谷阿爾馬登研究中心在去年秋季推出了“加速發(fā)現(xiàn)實驗室”(Accelerated Discovery Lab)。這個實驗室有著非常大、開放的空間,能夠裝配舒適的家具、白板以及許多的屏幕,更別提循環(huán)參與的項目團隊、系統(tǒng)管理員、訪問客戶、人類學(xué)家和IBM Watson超級計算機。正如這個實驗室的名稱所暗示的那樣,它的目標(biāo)是使用多元化、鄰近、物理空間的最優(yōu)組合破解代碼。
目前擔(dān)任該實驗室技術(shù)和運營總監(jiān)的哈斯對此表示,“我們把它稱為哺育‘戰(zhàn)略意外發(fā)現(xiàn)。’這就如同是在淋浴時或飲水機旁找到靈感一樣。我們希望把人們聚集在足夠?qū)掗煹沫h(huán)境中,讓他們享受于此。通過利用房間的連接,數(shù)據(jù)的連接以及能夠掌握用戶正在做什么的能力,培育意外發(fā)現(xiàn)。”
加速發(fā)現(xiàn)實驗室的第一個項目是利用Watson超級計算機在新領(lǐng)域的自然語言處理能力,藥物研究則是首選。通過與貝勒醫(yī)學(xué)院計算機生物學(xué)家的合作,IBM的數(shù)據(jù)科學(xué)家開始在數(shù)以百萬計的論文、專利和臨床研究中采集數(shù)據(jù),并最終把他們的注意力集中在了腦腫瘤抑制基因TP-53上。在幾個月之內(nèi),研發(fā)團隊就找到了四個候選產(chǎn)品。“加速發(fā)現(xiàn)實驗室”展露額和項目開發(fā)總監(jiān)杰夫·威爾瑟(Jeff Welser)表示,“通常找到一個產(chǎn)品就需要約一年的時間。”
這個速度確實已相當(dāng)快,但能否更快一點?該實驗室的使命之一,便是對自有空間的研究假設(shè)。哈斯表示,“我們當(dāng)前嘗試在項目開始就記錄下來,看看這些白板和顯示屏能否會獲得明顯的成效。”
雖然IBM當(dāng)前還沒有計劃在其它研發(fā)中心建造類似的實驗室,但是哈斯希望有朝一日能夠開發(fā)出一款軟件工具,幫助公司管理自有資源。