霸氣外露,近距離看中國天河2號超級計算機(jī)
曾經(jīng)報道了一次天河2,但關(guān)于這部機(jī)器的細(xì)節(jié)還是一團(tuán)迷霧,特別是升級了「ARCH」聯(lián)網(wǎng)系統(tǒng)的內(nèi)部細(xì)節(jié),16,000個節(jié)點是怎么通過這個ARCH堆到一起的。但下面這些圖片,稍能滿足一下大家的好奇心。首先是天河2的主板,根據(jù)最早爆料者,Jack Dongarra的說法,國防科技大學(xué)做了一些「一體化改進(jìn)」。
天河2號主板
在天河2里,兩個ARCH網(wǎng)絡(luò)接口和兩枚Ivy Bridge-EP版的Xeon E5節(jié)點(每個節(jié)點有兩個CPU插座),被做在了一塊板子上(雖然他們理論上,它們之間沒有什么關(guān)系)。這樣一個節(jié)點上,還有一枚Xeon Phi協(xié)處理器供左半邊的節(jié)點共享,右側(cè)有5枚Xeon Phi。左右兩半電器上是分開的,完全可以分開維護(hù)。
所謂的Arch-2網(wǎng)絡(luò)界面,通過PCI-Express 2.0接口,連接著搭載著Xeon E5的主板,可惜,PCIe 2.0的帶寬只有PCIe 3.0版本的要少一半(也許Arch-3會升級到PCIe 3.0界面,或者NUDT的實驗室白板上已經(jīng)有原型涂鴉了?)。每個節(jié)點上都有一個Arch-2網(wǎng)絡(luò)界面;每節(jié)點上的3個Xeon Phi協(xié)處理器,通過PCIe 3.0界面和CPU通訊,嗯~沒錯Xeon Phi與CPU的談話速度,要快過CPU之間的……我不確定,這種不平衡的設(shè)置對天河二君的性能有什么影響。
來來來,看一眼天河二君的霸氣外露的網(wǎng)口背板。
天河2的網(wǎng)口交換背板
天河的Arch-2網(wǎng)絡(luò)背板雙面都有接口,而且有不同的速率。Arch-2可以跑10Gb/s,或者14Gb/s。其中一個閃亮的RSW交換口在主板的背面,連接機(jī)架上節(jié)點組互相之間的通訊。(小編不太明白這個RSW是啥意思……給諸君賠不是)
天河2的RSW交換模塊
讓人看不懂的是,有幾組RSW交換界面是旋轉(zhuǎn)90度插在一起的——不過,PDF上就是這么畫的。
8個一組的RSW交換刀片連接著4個刀片機(jī)(一共8個ARCH-2接口),看起來其他的4個幾口是用來連接576口的主干交換機(jī)的,實現(xiàn)與主干連接的硬件層叫做LSW刀片機(jī),看上去就是這個樣子:
天河2的LSW交換機(jī)刀片
Arch-2由13個576口的怪獸交換機(jī)組成,看來有用到不少的LSW交換機(jī)。這些交換機(jī)用的是國防大學(xué)自己的開發(fā)的光纖技術(shù)和自有知識產(chǎn)權(quán)的傳輸協(xié)議。和所有的超級計算機(jī)一樣,布線看上去整齊如麻,特別是你要把16,000個節(jié)點連起來的時候。
In China, presumably they call a tangle of cables noodles, not spaghetti(不是我不敬業(yè),這句我吐槽不來……)
我真想改行賣光纖網(wǎng)線啊。
一些天河2的技術(shù)細(xì)節(jié)在此(PDF)
補(bǔ)充偵查一側(cè),對于超算用戶來講,好像很實惠啊……