2.6萬億晶體管和7nm技術(shù),WSE 2巨無霸芯片來了
全球最大芯片出第二代了!WSE 2 將于今年第三季度上市。WSE 2 采用 7 納米制程工藝,晶體管數(shù)達 2.6 萬億個。
近年來大量芯片進入市場,旨在加速人工智能和機器學(xué)習(xí)工作負(fù)載?;诓煌臋C器學(xué)習(xí)算法,這些芯片通常專注于幾個關(guān)鍵領(lǐng)域,但它們大多有一個共同的限制——芯片大小。
兩年前,Cerebras 揭開了芯片設(shè)計領(lǐng)域的一場革命:他們研發(fā)了一款名為Wafer Scale Engine(WSE)的芯片,擁有 1.2 萬億個晶體管,是英偉達 GPU Titan V 的 57 倍。WSE 的尺寸比一臺 iPad 還要大。Cerebras 的「暴力美學(xué)」曾引發(fā)人們驚呼:「WSE 的晶體管數(shù)量已經(jīng)超過人類大腦中的神經(jīng)元了!」Cerebras 也因此在業(yè)界聞名。
美國硅谷創(chuàng)企 Cerebras Systems 推出了其新的 Wafer Scale Engine 2(WSE-2)處理器,該處理器為超級計算任務(wù)而構(gòu)建,具有破紀(jì)錄的 2.6 萬億個晶體管(市場上最大的 GPU 只有 540 億個晶體管)和 85 萬顆 AI 優(yōu)化內(nèi)核,大小類似餐盤,采用臺積電的 7nm 工藝。這是 Cerebras 第二次使用整個 300mm 晶圓制造單顆芯片。這么大的晶圓一般會被切割成數(shù)百個獨立芯片,Cerebras 卻將其制成一個芯片。在龐大的體積之下,這種芯片相比同等算力的 GPU 集群,功耗和所占空間更小。
Tirias Research 首席分析師 Jim McGregor 在一封電子郵件中寫道,雖然對于數(shù)以百萬的 AI 算法來說,Cerebras 不像英偉達一樣全面,但是 Cerebras 的解決方案顯然已經(jīng)吸引到了許多客戶。從 2019 年交付 WSE 芯片起,在過去的一年里,已經(jīng)有很多重量級用戶使用了 Cerebras 的產(chǎn)品。比如美國阿貢國家實驗室、勞倫斯利弗莫爾國家實驗室、匹茲堡超級計算中心、愛丁堡大學(xué)的超級計算中心、葛蘭素史克、東京電子器件等。
在Hot Chips 2020,該公司首席硬件架構(gòu)師Sean Lie表示,Cerebras對客戶的主要好處之一是能夠簡化工作負(fù)載,以前需要使用GPU / TPU機架,而是可以以計算相關(guān)的方式在單個WSE上運行。Cerebras在多倫多,圣地亞哥,東京和舊金山擁有約300名員工。該公司首席執(zhí)行官Andrew Feldman表示公司已經(jīng)實現(xiàn)了盈利,已經(jīng)部署了CS-1的客戶很多,且已有更多的客戶在遠程試用CS-2。在SC20上,CS-1展示了自己針對火焰模擬的超強計算能力。在實際應(yīng)用場景中,快速模擬燃煤電廠的燃燒過程,可以幫助人類預(yù)防大型事故的發(fā)生。
美國能源技術(shù)實驗室的科學(xué)家使用Cerebras CS-1和全球排名第81的超級計算機Joule同時模擬了發(fā)電廠中的燃燒過程。結(jié)果顯示,CS-1不僅計算速度比Joule快約200倍以上,能耗和成本也遠低于傳統(tǒng)CPU超算。具體來說,造價數(shù)千萬美元、具有84000個CPU內(nèi)核的Joule能耗為450千瓦,在2.1毫秒內(nèi)完成了計算;相比之下,研發(fā)成本百萬美元的Cerebras功率約為20千瓦,花費時間約6微秒。
CS-2的部署將于今年第三季度進行,價格已從2-3百萬美元升至“數(shù)百萬”美元。
WSE的出現(xiàn),是因為訓(xùn)練神經(jīng)網(wǎng)絡(luò)需要花費較多的時間,即便是當(dāng)今最先進的模型,也需要幾天或幾周的時間進行訓(xùn)練,大型網(wǎng)絡(luò)則需要數(shù)周。通常做法是在數(shù)十、數(shù)百甚至數(shù)千個GPU上進行分布式訓(xùn)練,以使訓(xùn)練時間更可控。其中最大的瓶頸,是這些龐大的處理器集群很難編程,而且數(shù)據(jù)必須在處理器和外部 DRAM 存儲器之間進行多次傳輸,既浪費時間又消耗能源。所以WSE研發(fā)團隊的初衷是擴大芯片,使它與 AI 處理器內(nèi)核一起容納所需的所有數(shù)據(jù)。把功耗降低到千瓦似乎被證明是超級計算的一個關(guān)鍵好處。但不幸的是,Lauterbach對此表示懷疑,他擔(dān)心這項功能是否會成為數(shù)據(jù)中心的一大賣點。他說道:“雖然很多數(shù)據(jù)中心都在談?wù)摴?jié)約能源,但歸根結(jié)底,他們并不在乎,他們更想要性能?!?
一個CS-2的性能相當(dāng)于整個GPU集群的性能,同時具有單個設(shè)備的簡單性。專為人工智能設(shè)計的Cerebras WSE突破了人們對芯片尺寸的想象,用很小的能耗和空間提升計算性能。