亞馬遜云科技 re:Invent 2022 | 云服務商引領高性能計算芯片迭代,實現高能效云服務
蘋果引領了移動計算芯片的持續(xù)突破,而亞馬遜云科技則引領了數據中心高性能計算的不斷創(chuàng)新。對于用戶場景的頂級理解和對用戶體驗的至高追求,讓兩者在自研芯片上能夠有著比通用芯片商更高的成就。
在今年的re:Invent大會上,亞馬遜云科技展示了其最新的云中硬件上的突破,包括新版本的 AmazonNitro虛擬引擎 、基于Arm的定制最新 AmazonGraviton 3E 芯片和一系列最新實例。一切都是為實現更高能效的高性能計算,而亞馬遜云科技中極限的客戶規(guī)模和HPC工作量,讓其在硬件上的每一點點特定負載優(yōu)化,都能夠獲得極大的整體效益。
“多年前我們意識到,要想突破性能極限,我們必須一直向下推進到硅片的創(chuàng)新層面上。從那時起,我們的定制芯片就成為了亞馬遜云科技的一大差異化因素?!眮嗰R遜云科技CEO Adam Selipsk在re:Invent主題演講中分享到,“其他人已經注意到、甚至宣布了其尚未真正問世的芯片,但沒有一個可以與亞馬遜云科技今天的水平相提并論?!?
A mumbers of years ago, we realized that to push the performance envelope, we had to push all the way down to the silicon. So since then, our custom chip have been a big differentiator for AWS. Others have taken notice and even announced chips that haven't really come out yet, but none are even close to where AWS already is today.
——Adam Selipsk @ AWS re:Invent 2022
Nitro V5:晶體管數量翻倍,每瓦特性能提升了40%
AmazonNitro是亞馬遜云科技定制化自研芯片的起點,通過Nitro可以實現網絡的虛擬化、計算的虛擬化、存儲的虛擬化,保證系統(tǒng)很好的安全性。有了Nitro之后,系統(tǒng)不會占用用戶自己購買的CPU資源,從而提升了用戶整體計算服務效能。
AmazonNitro采用了一個專業(yè)的定制芯片和獨立的模塊化設計, 包括三大特點。第一,Nitro有一個非常高效的虛擬化引擎,性能損耗不到1%,對用戶來說幾乎可以忽略不計。第二,Nitro系統(tǒng)提供了網絡和存儲能力,而且整個網絡和存儲的實現是完全隔離的,不會互相影響。第三,實現了一個硬件級別的安全機制。
AmazonNitro的整個演進可以追溯到2012年,而在今年的re:Invent大會上發(fā)布了其第五代產品——Nitro V5。第一代Nitro的網絡性能只能做到萬兆級別(10Gbps),到第四代已經可以達到100GB的能力(100Gbps),有了10倍性能提升。而Nitro V5晶體管數量是第四代Nitro的兩倍,整個數據包的轉發(fā)能力提升了60%,延遲減少了30%,每瓦特的性能提升了40%。
此次最新發(fā)布的Amazon EC2 Hpc6id實例就是基于Amazon Nitro系統(tǒng)構建,Hpc6id 實例旨在為數據和內存密集型HPC工作負載提供領先的性價比,具有更高的每核內存帶寬、更快的本地 SSD 存儲以及帶有彈性結構適配器的增強網絡。Hpc6id實例提供200Gbps 彈性結構適配器網絡,用于高吞吐量節(jié)點間通信,使客戶 HPC 工作負載能夠大規(guī)模運行。
Graviton3E:浮點和向量運算加強,AI更高能效
AmazonNitro是起點,但亞馬遜云科技并不止步于此。在高性能計算中心,CPU其實是更為關鍵的一類芯片,AmazonGraviton的意義也就在于此。
AmazonGraviton是亞馬遜基于Arm架構定制開發(fā)的高性能計算芯片,而此次大會上發(fā)布的是其第三代——AmazonGraviton3E。據悉,Graviton3E配備了領先的DDR5的內存,浮點性能和加密性能都提升了2倍,機器學習的工作負載能力提高了3倍。
如上圖所示,Graviton3E由7個chiplets組成,其中64個Arm計算核心作為主要計算單元放置在芯片中間,Arm核的兩側分別放置著DDR5的芯粒,下方是PCIe 5的芯粒。采用這種chiplet方式可以讓計算、內存和接口芯片以不對稱的迭代方式分別進行升級,確保Graviton的迭代節(jié)奏,并能夠在每一代都保持更高的性能。
Graviton3E專門針對浮點和向量指令運算進行了優(yōu)化,這將大大提升AI和ML這些高性能計算的工作效率。從用戶場景來看,在HPC新一代數據測量工具上,Graviton 3E相比于Graviton3有35%的提升,在分子運動分析場景上性能可以提升12%,在金融期權定價方面可以提升30%的性能。
芯片是硬件基礎,但并不是目的,實現高性能計算賦能才是最終答案。與Graviton3E一起,亞馬遜云科技在此次大會上也同步發(fā)布了Amazon EC2 Hpc7g實例。
Amazon EC2 Hpc7g實例采用了新發(fā)布的Graviton3E和Nitro V5,它提供了更多的網絡功能,擁有更高的內存帶寬和200Gbps的EFA彈性結構適配器網絡,性能方面與當前一代C6gn實例相比浮點性能提高了2倍,與當前一代Hpc6a實例相比性能提高了20%,為亞馬遜云科技上的高性能計算工作負載提供了超高性價比。
機器學習:超級集群訓練和大型分布式推理
除了Nitro和Graviton外,亞馬遜云科技的第三條自研芯片線是機器學習芯片,包含訓練和推理兩個系列。
在今年10月份亞馬遜云科技就發(fā)布了其在訓練方面的最新進展,最新的Trn1實例可以實現16顆Trn1的芯片,512個GB高帶寬內存和800Gbps的網絡帶寬。而在此次re:Invent大會上,我們看到了最新的網絡加強的Trn1n實例。
據悉Trn1n把網絡帶寬增加了一倍,從800GB躍升到1.6個TB。通過強大的網絡吞吐能力,可以讓客戶能夠對超過1萬個Traniumn芯片構建在一個超大規(guī)模集群里,對超大集群進行并行訓練。
在推理芯片方面,亞馬遜云科技發(fā)布了最新的自研推理芯片AmazonInferentia2以及基于此的Amazon EC2 Inf2實例。
Amazon EC2 Inf2實例,是唯一一個專門為了大型transformer模型,所做的模型分布式推理建立的實例。和Inf1實例相比,Inf2實例整個吞吐量提升了4倍,延時只有十分之一。每瓦性能提升達到45%,同時也支持類似于GPT-3,Mask R-CNN、VIT等等這樣超大型的復雜模型。
結語
亞馬遜云科技Amazon EC2副總裁David Brown表示:“從Graviton到Trainium、Inferentia再到Nitro,亞馬遜云科技每一代自研芯片都為客戶的各種工作負載提供更高的性能、更優(yōu)化的成本和更高的能效。
高性能的芯片,最終目的是賦能高性能的計算,為客戶實現更高效能的云服務。此次發(fā)布的7g和6id兩個新的實例,也將為客戶的特定工作負載提供更高性價比的高性能計算。