寒武紀首顆 7nm 訓練芯片思元 290 及玄思1000加速器正式亮相
1月21日,寒武紀思元290智能芯片及加速卡、玄思1000智能加速器量產(chǎn)落地后首次正式亮相。思元290智能芯片是寒武紀的首顆訓練芯片,采用臺積電7nm先進制程工藝,集成460億個晶體管,支持MLUv02擴展架構(gòu),全面支持AI訓練、推理或混合型人工智能計算加速任務。
寒武紀首顆訓練芯片思元290
寒武紀MLU290-M5智能加速卡搭載思元290智能芯片,采用開放加速模塊OAM設計,具備64個MLU Core,1.23TB/s內(nèi)存帶寬以及全新MLU-Link?多芯互聯(lián)技術(shù),在350W的最大散熱功耗下提供AI算力高達1024 TOPS(INT4)。
寒武紀玄思1000智能加速器,在2U機箱內(nèi)集成4顆思元290智能芯片,高速本地閃存、Mellanox InfiniBand網(wǎng)絡,對外提供高速MLU-Link?接口,打破智能芯片、服務器、POD與集群的傳統(tǒng)數(shù)據(jù)中心橫向擴展架構(gòu),實現(xiàn)AI算力在計算中心級縱向擴展,是AI算力的高集成度平臺。
寒武紀訓練產(chǎn)品線采用自適應精度訓練方案,面向互聯(lián)網(wǎng)、金融、交通、能源、電力和制造等領域的復雜AI應用場景提供充裕算力,推動人工智能賦能產(chǎn)業(yè)升級。
寒武紀首款智能加速器玄思1000
寒武紀首款智能加速器玄思1000包含4片思元290智能加速卡,最大AI算力超過4100萬億次每秒(4.1 PetaOPS INT4),一臺玄思1000計算單元就足以替代一個小型傳統(tǒng)超級計算中心。
玄思1000內(nèi)置高帶寬低延時的MLU-Link?多芯互聯(lián)技術(shù),實現(xiàn)內(nèi)部4顆思元290進行高速互聯(lián),同時打破服務器、緊耦合微集群(POD)與集群的傳統(tǒng)數(shù)據(jù)中心橫向擴展架構(gòu),將AIDC構(gòu)建為節(jié)點、POD乃至超大規(guī)?;旌蠑U展架構(gòu)(Hybrid Scale-out),實現(xiàn)AI算力計算中心級縱向擴展,滿足高性能、高擴展性、靈活性、高魯棒性的要求。
玄思1000是AI算力的高集成度平臺,支持數(shù)據(jù)中心級縱向擴展。
重塑AIDC基礎架構(gòu)
算力、算法、數(shù)據(jù)是人工智能發(fā)展的三大要素,隨著這幾年AI的逐步發(fā)展,算力的核心地位更為突出。人工智能技術(shù)落地于實際應用中需要芯片和硬件層面強大的算力支撐。算力已成為驅(qū)動AI產(chǎn)業(yè)化和產(chǎn)業(yè)AI化發(fā)展的關(guān)鍵要素。
下一代AIDC要求更多智能芯片無縫協(xié)同、并行運行的同時,還能保持高計算效率,從而提供超級巨大的算力,以應對超大規(guī)模訓練的需要。寒武紀玄思1000智能加速器重新思考了未來AIDC的基礎架構(gòu),在內(nèi)部和外部采用統(tǒng)一的MLU-Link?多芯互聯(lián)技術(shù)進行通訊,使得思元290智能芯片的互聯(lián)范圍可以從單機擴展到POD乃至整個計算中心,重塑了基礎架構(gòu)。
玄思1000支持8個400G MLU-Link?和2個200G網(wǎng)絡接口,總帶寬高達3600 Gbps,是傳統(tǒng)異構(gòu)服務器的2倍。
玄思1000配置8個對外互聯(lián)的MLU-Link?接口,支持跨系統(tǒng)互聯(lián)構(gòu)建MLU POD。標準配置支持MLU POD 16、24、32。在POD內(nèi)部,所有290芯片均可通過MLU-Link?多芯互聯(lián)技術(shù)進行通訊,在帶寬和延時方面實現(xiàn)了突破;POD外部通過玄思1000內(nèi)置的網(wǎng)卡與其他系統(tǒng)進行通訊,實現(xiàn)了AI訓練集群性能、擴展性和魯棒性的協(xié)同提升。
POD內(nèi)所有思元芯片通過MLU-Link?全互聯(lián)。
除了標準配置的POD之外,在計算中心條件允許的前提下,通過MLU-Link?多芯互聯(lián)技術(shù),可實現(xiàn)1024顆或更多思元290互聯(lián),不需要額外的網(wǎng)卡即可實現(xiàn)無縫加速。