明年就能雙劍合璧!AMD展示7nm GPU+CPU數(shù)據(jù)中心
在近日召開的AMD大中華區(qū)合作伙伴峰會上,AMD全球副總裁、數(shù)據(jù)中心解決方案產(chǎn)品部總經(jīng)理Scott Aylor展示了一個7nm數(shù)據(jù)中心的demo。在演示中可以看到全新的AMD 7nm GPU+CPU的平臺在進行圖像訓練的時候,可以達到前代產(chǎn)品兩倍的運算速度。采用最新的7nm工藝制程的全新GPU Radeon INSTINCT MI60的預計年內(nèi)發(fā)布;而同樣為7nm制程,代號為“Rome”的EPYC系列數(shù)據(jù)中心處理器則宣布將在明年正式發(fā)布。
圖:7nm數(shù)據(jù)中心demo展示
隨著人工智能、物聯(lián)網(wǎng)等應用場景的不斷普及。海量的數(shù)據(jù)和大量的運算讓數(shù)據(jù)中心市場變得愈發(fā)龐大,而AMD在這個時間節(jié)點有一個很好的機會:既有非常強大的GPU的技術儲備,又搶占了7nm的工藝節(jié)點。那么AMD是如何發(fā)揮這一優(yōu)勢,進行數(shù)據(jù)中心市場布局的?我們或可從此次峰會一窺端倪。
真實訓練樣本數(shù)不夠?MI60模擬的拿來湊
“7nm制程的Radeon Instinct MI60這個季度就可以發(fā)貨,”AMD Radeon技術事業(yè)部、工程研發(fā)高級副總裁王啟尚如是說到。這句承諾引起了當天在座諸多合作伙伴的一陣歡呼和掌聲。此處不掰飭實際哪種工藝制程的孰優(yōu)孰劣,但從數(shù)字上看,AMD確實勝了一籌。英特爾的10nmFPGA仍未量產(chǎn),英偉達的GPU去年剛步入12nm的制程。Radeon Instinct MI60(下文簡稱MI60)將會是AMD全面搶占數(shù)據(jù)中心加速類產(chǎn)品市場份額的利器。據(jù)王啟尚介紹,GPU在數(shù)據(jù)中心的主要應用場景為云游戲、虛擬桌面及工作站、機器學習和高性能計算。MI60是全球首款7nm制程的GPU,采用了高性能、靈活的Vega架構,擁有領先的內(nèi)存和可拓展性,并且是業(yè)內(nèi)唯一的硬件虛擬化GPU。
圖:兩種工藝路線的性能對比
遵循摩爾定律的規(guī)律,7nm帶來的性能提升頗多。全新的工藝制程提供了高達2倍的密度,一個芯片在331mm²的面積上可以容納132億個晶體管;相同功耗條件下提升超過25%的性能;相同頻率下降低50%的功耗;具有更高的每瓦特性能。全新的Vega架構可以實現(xiàn)了高效能的內(nèi)存系統(tǒng),可以達到1 TB/s的帶寬;基于第二代HBM存儲,可以支持大體量數(shù)據(jù)中心的部署;MI60是業(yè)界首款支持PCIe4.0的GPU,拓寬了GPU相互之間通信的頻寬達到了雙向64GB/s。MI60還是第三代的硬件虛擬化GPU,用戶可以輕松地將應用程序部署到云端;每個GPU可以驅動多個虛擬機,因此可以節(jié)約數(shù)據(jù)中心運營商的成本;反過來呢,一個虛擬機又可以支持多個GPU,在一些虛擬計算應用中也可以提高計算性能。
為了將生態(tài)系統(tǒng)做大,AMD還提供了完全開源的ROCm平臺。這個平臺是GPU與上層軟件的接口,完全的開源可以讓任何人都可以更容易實現(xiàn)GPU在機器學習方面的應用搭建。王啟尚表示,要將ROCm拓展到數(shù)百萬的Linux內(nèi)核的用戶。目前ROCm已經(jīng)被開源社區(qū)所接納。
圖:開源ROCm2.0平臺
峰會現(xiàn)場展示了一個用MI60來進行神經(jīng)網(wǎng)絡訓練的客戶案例。這個案例來自highwai,他們遇到的問題是得不到足夠多真實的駕駛數(shù)據(jù)來進行升級網(wǎng)絡的訓練。要知道谷歌目前積累的自動駕駛的里程數(shù)也才10000萬英里,但是其實統(tǒng)計數(shù)據(jù)表示每50萬英里才會出現(xiàn)一次車禍。因此要想實現(xiàn)靠譜的自動駕駛,首先真實訓練樣本數(shù)就差的很遠。因此highwai采用了AMD的GPU來模擬一些駕駛數(shù)據(jù)。第一步GPU先為神經(jīng)網(wǎng)絡訓練生成數(shù)據(jù),第二步用模擬的數(shù)據(jù)去訓練神經(jīng)網(wǎng)絡,第三步將模擬數(shù)據(jù)和正式數(shù)據(jù)交叉驗證,第四步最終到真實世界中開始部署。這是一個非常典型的GPU加速的應用案例,在這類加速應用中GPU相比ASIC和FPGA有著明顯的優(yōu)勢。
圖:highwai的自動駕駛訓練案例
MI60相比前代產(chǎn)品MI25,有大約8.8倍的提升。按照廣泛發(fā)布的數(shù)據(jù)中心路線圖來看,新一代的產(chǎn)品也已經(jīng)在規(guī)劃中。王啟尚表示,AMD的GPU在數(shù)據(jù)中心中有很大的機會,并且AMD已經(jīng)做好了競爭的準備。
圖:AMD數(shù)據(jù)中心GPU路線圖
代號“Rome”的7nm數(shù)據(jù)中心CPU明年發(fā)布
因為正在研發(fā)中,所以可以講的不是太多。負責這部分介紹的Scott先生更多著墨于當前AMD的CPU在數(shù)據(jù)中心市場中的表現(xiàn)。他在演講中提到,10年前數(shù)據(jù)中心都是物理實體化和本地部署;而現(xiàn)在呢,當然都是在云端進行部署,虛擬化技術和混合云等應用廣泛。AMD EPYC(霄龍)可以滿足現(xiàn)代數(shù)據(jù)中心在核心密度、內(nèi)存帶寬、I/O性能和安全性方面的需求。
圖:單路EPYC服務器提供了更好的浮點運算性能
傳統(tǒng)的雙路服務器需要的成本更高,功耗也更多。而單路EPYC服務器在成本上則低了很多,并且性能上也毫不妥協(xié)。單路EPYC服務器可以將TCO降低45%,其它譬如管理費用、硬件費用、許可費用和空間費用上都有明顯的節(jié)省。浮點性能是云服務器的重要指標,單路EPYC服務器的浮點性能也有了提升,反應在具體應用上:可以使WRF氣象建模的計算速度提高44%;ANSYS流體力學的計算速度提高25%;NAMD分子動力學的計算速度提高41%。
圖:AMD數(shù)據(jù)中心CPU路線圖
最受關注的當然還是代號為"Rome"的7nm數(shù)據(jù)中心CPU,Scott先生承諾其將于2019年發(fā)布,一個CPU中最多可以搭載64個Zen 2核心,提供更高的每時鐘周期指令數(shù)和領先的計算、I/O以及內(nèi)存帶寬。官方信息表示,每插槽的計算性能將提升至2倍左右,每插槽的浮點性能將提升至4倍左右。“Rome”的插槽將于現(xiàn)有的“Naples”平臺完全兼容,所以可以幫助客戶更輕松地實現(xiàn)升級,并且向前兼容“Milan”平臺。正如本文初所提及的,Scott先生展示了一個全新7nm GPU+CPU的數(shù)據(jù)中心與前代產(chǎn)品在進行圖像識別訓練的demo,筆者現(xiàn)場可見,全新7nm數(shù)據(jù)中心的計算速度確實比前代產(chǎn)品快了許多。距Rome正式發(fā)布還有不短的時間,說不定AMD還會帶來更高的性能提升。
圖:AMD全球副總裁、大中華區(qū)總裁潘曉明
本次峰會上,AMD還重點介紹了其CPU在筆記本市場方面的業(yè)績提升,以及GPU在游戲方面的赫赫戰(zhàn)果。明年將是AMD成立50周年,筆者最期待的周年禮自然是Rome處理器的面世!而AMD全球副總裁、大中華區(qū)總裁潘曉明在大會上也自信地表示:“在下一個五十年,當我們邁入到沉浸式計算的時代,AMD做為技術的驅動者,責無旁待!讓我們‘攜手同芯’,堅信‘未來可期’。”7nm GPU+CPU的數(shù)據(jù)中心到底有多贊?讓我們拭目以待其再次如7而至。