中國頂級超算入圍美國戈登·貝爾大獎
據(jù)報道,美國計算機(jī)協(xié)會(Associationfor Computing Machinery; ACM)近期公布了戈登·貝爾獎(被譽(yù)為“超級計算應(yīng)用領(lǐng)域的諾貝爾獎”)的入圍名單。
基于中國1.5 EXAFLOPS(百億億次)超級計算機(jī)的一篇研究論文再次入圍,該獎項將在今年11月在美國丹佛舉行的SC23超級計算大會上頒發(fā)。
ACM表示,雖然最終的系統(tǒng)規(guī)模以及模擬和模型運(yùn)行的結(jié)果尚未完成,但基于新一代的 1.5 exaflops中國神威超級計算機(jī)(oceanlite,太湖之光升級版)完成的一篇題為《渦輪機(jī)械流動的精確計算》論文(將在11月SC23會議之前正式發(fā)布)已經(jīng)入圍。
早在2021年11月,中國的超級計算機(jī)就曾以4190萬個核心的量子模擬而獲得了戈登貝爾獎。
當(dāng)時阿里巴巴集團(tuán)、清華大學(xué)、DAMO學(xué)院,浙江實驗室和北京人工智能研究院在Oceanlite機(jī)器中運(yùn)行了一個名為“八卦路”的預(yù)訓(xùn)練機(jī)器學(xué)習(xí)模型,該模型涉及3700多萬個核心和14.5萬億個參數(shù)。
此次《渦輪機(jī)械流動的精確計算》論文,則是由Weiqi Shen, Jiahuan Cui, Yao Zheng等(共 19 位作者),來自浙江大學(xué)、清華大學(xué)、國家超級計算無錫中心、劍橋大學(xué)、佛羅里達(dá)大學(xué)團(tuán)隊共同完成。
該團(tuán)隊開發(fā)了一種新的大渦流模擬代碼,用于解決渦輪機(jī)械中的可壓縮流。他們將該代碼應(yīng)用于美國國家航空航天局(NASA)的重大挑戰(zhàn)問題,使用高階非結(jié)構(gòu)化求解器求解高壓渦輪級聯(lián)的 16.9 億個網(wǎng)格元素和 8650 億個自由度。
根據(jù)該論文的作者顯示,Oceanlite系統(tǒng)擁有超過100000個由中國國家并行計算機(jī)工程與技術(shù)研究中心(NRCPC)設(shè)計的定制SW26010 Pro處理器。
2022年4月,中國科學(xué)技術(shù)大學(xué)、國家海洋科學(xué)與技術(shù)試點實驗室(青島)、北京大學(xué)數(shù)學(xué)科學(xué)學(xué)院、無錫國家超級計算中心和中國海洋大學(xué)組成的聯(lián)合團(tuán)隊,公布了一篇超級計算機(jī)模擬復(fù)雜量子多體的文章介紹,SW26010 pro是sw26010改進(jìn)型,擁有6個核心模塊,每個模塊有1個管理Linux線程的核心(MPE)和64個計算核心。
而組成太湖之光的SW26010處理器,只有4個核心模塊,說明SW26010 pro單片應(yīng)該有50%的性能提升。
The next platform的報道稱,SW26010 Pro處理器的64個(8 x 8)計算核心網(wǎng)絡(luò)是一個具有256KB L2高速緩存的計算處理單元(CPE)。每個CPE有四個邏輯塊,可以在一對上支持FP64和FP32,在另一對上則可以支持FP16和BF16。
SW26010 Pro中的每個核心模塊上都有一個DDR4內(nèi)存控制器和16 GB內(nèi)存,內(nèi)存帶寬為51.4 GB/秒,因此整個處理器有96 GB主內(nèi)存和307.2 GB/s帶寬。六個CPE通過環(huán)形互連連接,并有兩個網(wǎng)絡(luò)接口,使用專有互連將它們連接到外部。
SW26010 Pro芯片的FP64或FP32精度為14.03 PB,BF16或FP16精度為55.3 PB。
The next platform稱,Oceanlite最大的配置有107520個節(jié)點,共有4193萬個核心,分布在105個機(jī)柜中。剛剛曝光的論文也證實了該超級計算機(jī)的理論峰值性能為1.5 exaflops,MPE內(nèi)核運(yùn)行在2.1 GHz,CPW內(nèi)核運(yùn)行在2.25 GHz。
如果將該超級計算機(jī)規(guī)模擴(kuò)大到120個機(jī)柜,在FP64 pervision下的峰值將達(dá)到1.72 Exaflops,這將超過美國橡樹嶺國家實驗室的1.68 Exaflops的“Frontier”超級計算機(jī)。
在160個機(jī)柜的條件下,在FP64的峰值性能將接近2.3 Exaflops,將有望擊敗已經(jīng)安裝完成的美國能源部阿貢國家實驗室的基于英特爾CPU及GPU的新一代超級計算機(jī)“Aurora”,以及正在建設(shè)的美國勞倫斯·利弗莫爾國家實驗室基于AMD MI300芯片的“El Capitan”超級計算機(jī),后兩者的FP64性能都將達(dá)到 2 Exaflops以上。
不過,最新的戈登·貝爾獎參賽論文《渦輪機(jī)械流動的精確計算》顯示,其對于噴氣發(fā)動機(jī)模擬在大約58333個節(jié)點上運(yùn)行,這些節(jié)點代表了超過350000個MPE核心和超過2240萬個CPE核心。
這是以上預(yù)測的Oceanlite最大配置的一半多一點。