網(wǎng)絡(luò)交換機(jī):超大規(guī)模數(shù)據(jù)中心的無(wú)名英雄
掃描二維碼
隨時(shí)隨地手機(jī)看文章
雖然我們通常將低功耗與智能手機(jī)、智能手表和筆記本電腦等電池供電的設(shè)備聯(lián)系起來(lái),但還有其他一些不太明顯的應(yīng)用,其中低功耗對(duì)我們的日常生活產(chǎn)生了重大影響。一個(gè)這樣的例子是所有“管道”和通信基礎(chǔ)設(shè)施,通常被稱為高性能計(jì)算,由現(xiàn)代超大規(guī)模數(shù)據(jù)中心內(nèi)的網(wǎng)絡(luò)交換機(jī)管理。
隨著在家工作推動(dòng)的在線活動(dòng)的爆炸式增長(zhǎng),許多行業(yè)部門(mén)都報(bào)告了互聯(lián)網(wǎng)使用和電子商務(wù)的巨大增長(zhǎng)。我們?cè)诩夜ぷ?、學(xué)習(xí)、玩耍,同時(shí)擁抱電子商務(wù)和在線交付、遠(yuǎn)程醫(yī)療、虛擬健身以及許多其他虛擬活動(dòng)和體驗(yàn)。而這一切似乎都轉(zhuǎn)移到了云端。
在 2010 年代初期,近 40% 的接受調(diào)查的大公司表示,他們預(yù)計(jì)將在兩年內(nèi)超過(guò)其 IT 能力。近十年后,幾乎所有企業(yè),無(wú)論規(guī)?;蛐袠I(yè),都嚴(yán)重依賴技術(shù)來(lái)擴(kuò)展和簡(jiǎn)化其運(yùn)營(yíng)。比以往任何時(shí)候都更重要的是,訪問(wèn)大量數(shù)據(jù)對(duì)于他們的成功至關(guān)重要。為了提高他們快速處理所有這些數(shù)據(jù)的能力,這些企業(yè)必須從云提供商那里獲得更多的計(jì)算和存儲(chǔ)容量,這些云提供商正在構(gòu)建大規(guī)模數(shù)據(jù)中心,同時(shí)加速下一代技術(shù)的部署。
超大規(guī)模技術(shù)
當(dāng)我們想到超大規(guī)模數(shù)據(jù)中心時(shí),通常首先想到的是可信賴的服務(wù)器 CPU。性能和功耗節(jié)省來(lái)自非??深A(yù)測(cè)的 x86 擴(kuò)展。我們還見(jiàn)證了處理能力向 FPGA、GPU 以及最近由互聯(lián)網(wǎng)巨頭內(nèi)部設(shè)計(jì)的定制片上系統(tǒng) (SoC) 的遷移。隨著每一次后續(xù)技術(shù)的發(fā)展,處理器在歷史上都以摩爾定律定義的非常可預(yù)測(cè)的方式進(jìn)行了改進(jìn)。超大規(guī)模數(shù)據(jù)中心的其他基本組件是有線和無(wú)線連接、網(wǎng)絡(luò)和存儲(chǔ)。這些還通過(guò)最新的以太網(wǎng)和網(wǎng)絡(luò)標(biāo)準(zhǔn)以及最新的內(nèi)存、高速連接和存儲(chǔ)技術(shù)展現(xiàn)出自然的改進(jìn)進(jìn)展。
涌向云端的熱潮集中在服務(wù)器 CPU、人工智能、高級(jí)存儲(chǔ)器和多芯片封裝。通常,性能限制不是 CPU 性能或采用的高級(jí)內(nèi)存技術(shù)類型。相反,網(wǎng)絡(luò)和連接性是瓶頸。數(shù)據(jù)在機(jī)架內(nèi)的服務(wù)器之間、機(jī)架之間、建筑物之間、校園之間以及最終傳輸?shù)交ヂ?lián)網(wǎng)的速度有多快也是關(guān)鍵因素。
支撐這一關(guān)鍵基礎(chǔ)設(shè)施的無(wú)名英雄是網(wǎng)絡(luò)交換機(jī)。在短短五年內(nèi),我們看到網(wǎng)絡(luò)交換機(jī)主機(jī)速度每?jī)赡攴环獜?2015 年的 3.2 Tb 到 2019 年的 12.8 Tb 到 2020 年的 25.6 Tb。
我們離 51.2 Tb 的部署不遠(yuǎn)了,尤其是隨著高速 SerDes 開(kāi)發(fā)的進(jìn)步導(dǎo)致單通道 112 G 長(zhǎng)距離能力。這意味著模塊帶寬趨勢(shì)從 2015 年的 100 G 到 2019 年的 200/400 G。我們現(xiàn)在正處于未來(lái)兩到三年內(nèi)主要的 400 G 到 800 G 速度部署的風(fēng)口浪尖。這與從 2019 年開(kāi)始從 28 Gbaud 光學(xué)過(guò)渡到 56 Gbaud 光學(xué)器件的改進(jìn)相結(jié)合。所有這些變化都與從不歸零編碼到更高調(diào)制 PAM4(脈沖幅度調(diào)制,4 級(jí))的過(guò)渡相吻合編碼效率更高。
對(duì)商業(yè)市場(chǎng)上可用產(chǎn)品的快速調(diào)查顯示,大多數(shù) 12.8 Tb SoC 是在 16 納米工藝節(jié)點(diǎn)上制造的。對(duì)于 25.6 Tb,SoC 從 2019 年底開(kāi)始轉(zhuǎn)向 7 nm,并于 2020 年進(jìn)入量產(chǎn)階段。第一代 25.6 Tb SoC 使用 50 G SerDes,這是當(dāng)時(shí)可用的最佳技術(shù)。最近的公告表明 100 G SerDes 芯片終于到來(lái),預(yù)計(jì)從 50 G 到 100 G SerDes 的過(guò)渡以及從 7 納米到 5 納米工藝技術(shù)的遷移。
好處是相當(dāng)顯著的??紤]一個(gè) 25.6 Tbps 的交換機(jī):如果它依賴于 50 G SerDes,則該設(shè)備將需要 512 個(gè)通道。使用 100 G SerDes,通道數(shù)減少到 256 個(gè)。通道數(shù)的顯著減少導(dǎo)致芯片面積和功耗的減少是顯著的。這些網(wǎng)絡(luò)交換 ASIC 芯片中的每一個(gè)都消耗大量功率,超過(guò) 300 W!
下一個(gè)平臺(tái)是 51.2 Tb。那么,我們?nèi)绾蔚竭_(dá)那里?
新的設(shè)計(jì)范式
預(yù)計(jì) 51.2 Tb 開(kāi)關(guān) ASIC 制造將從 5 nm 開(kāi)始,最終遷移到 3 nm。這主要受較長(zhǎng)的開(kāi)發(fā)周期和與代工廠先進(jìn)工藝部署計(jì)劃的一致性的影響。它還取決于 112 G SerDes 相對(duì)于 56 G SerDes 的可用性和采用情況,以改善“通道數(shù)與裸片尺寸與功率”的考慮。
另一種可能性是下一代網(wǎng)絡(luò)交換機(jī)將采用分解的方法,而是使用多個(gè)裸片而不是大型單片裸片。這種方法將在兩個(gè)方面有所幫助。芯片越小,它們的良率就越高,尤其是當(dāng)芯片尺寸被推到光刻/光罩限制時(shí)。提高產(chǎn)量意味著降低成本。以小芯片形式重復(fù)使用經(jīng)過(guò)硅驗(yàn)證的高速 SerDes 的能力將有助于加快上市時(shí)間并提高 51.2-Tb 開(kāi)關(guān) ASIC 早期部署的成功率。
然而,這種轉(zhuǎn)變將需要重新思考設(shè)計(jì)方法。從單芯片設(shè)計(jì)到多芯片設(shè)計(jì)的轉(zhuǎn)變需要更加關(guān)注芯片、基板和封裝設(shè)計(jì)的約束和邊界。這些復(fù)雜 SoC 的高速特性將帶來(lái)額外的設(shè)計(jì)和驗(yàn)證負(fù)擔(dān)。在 100 G 及以上,它不再是 SPICE 仿真。設(shè)計(jì)人員必須考慮各種材料和 s 參數(shù)的電感、寄生、傳輸線效應(yīng)(終端)、串?dāng)_和介電系數(shù)的影響,并確保應(yīng)用程序可以訪問(wèn)通道模型。
這導(dǎo)致更復(fù)雜的熱設(shè)計(jì)。這不再是管理芯片內(nèi)部溫度的問(wèn)題。還需要監(jiān)控芯片上的溫度梯度和熱點(diǎn)的位置。現(xiàn)在必須從管芯到中介層再到封裝基板再到散熱器整體解決溫度問(wèn)題。甚至為散熱器選擇芯片連接材料和導(dǎo)熱硅脂也是設(shè)計(jì)考慮因素。在這種設(shè)計(jì)復(fù)雜性水平上,沒(méi)有反復(fù)試驗(yàn)。
如果沒(méi)有大量技術(shù)創(chuàng)新,就不可能實(shí)現(xiàn)高速網(wǎng)絡(luò)交換機(jī) SoC。除了明顯的高速 I/O (SerDes),還需要一組基本的硬 IP 才能成功。其他支持創(chuàng)新包括高性能處理器內(nèi)核、高密度片上存儲(chǔ)器、高速互連(結(jié)構(gòu))和存儲(chǔ)器帶寬以及 SoC 集成。
SoC 設(shè)計(jì)平臺(tái)還必須包括 IP 內(nèi)核,例如 112G-LR PHY、56G-LR PHY、高帶寬存儲(chǔ)器 Gen 2/3 PHY 和 PCI Express 5.0/4.0 PHY。此外,需要低功耗 die-to-die PHY IP 來(lái)支持多芯片集成、邏輯和 I/O 分解,以實(shí)現(xiàn)多芯片實(shí)現(xiàn)。為了管理向 25.6 Tb/s 交換機(jī)以及最終向 51.2 Tb/s 交換機(jī)的必要過(guò)渡,我們需要一種新的設(shè)計(jì)方法。這些包括人工智能驅(qū)動(dòng)的設(shè)計(jì)工具、先進(jìn)的封裝和芯片設(shè)計(jì)的其他方面長(zhǎng)期以來(lái)被認(rèn)為是理所當(dāng)然的。
現(xiàn)在是時(shí)候提升一個(gè)檔次并啟動(dòng)我們的創(chuàng)新引擎了。