令A(yù)MD顫抖的英特爾Ice Lake,背后居然還有這樣的技術(shù)
第三代至強(qiáng)可擴(kuò)展處理器Ice Lake終于在上個月露出廬山真面目,這款產(chǎn)品集結(jié)了英特爾最強(qiáng)的技術(shù),相比上一代產(chǎn)品整體46%的提升,在人工智能、網(wǎng)絡(luò)計(jì)算等性能更高幅度的性能提升。
另外英特爾罕見與競爭對手AMD一較高下,第三代至強(qiáng)在深度學(xué)習(xí)和推理方面性能相比AMD EPYC 7763提高了25倍,種種跡象無疑顯示著一個“性能炸彈”的誕生。
事實(shí)上,作為英特爾“心頭肉”和擴(kuò)展一切成果結(jié)晶的平臺,第三代至強(qiáng)可擴(kuò)展處理器Ice Lake仍然潛藏更多技術(shù)值得發(fā)掘。
“除性能提升以外,產(chǎn)品更突出的是安全性和人工智能”, 英特爾公司市場營銷集團(tuán)副總裁兼中國區(qū)數(shù)據(jù)中心銷售總經(jīng)理陳葆立如是說。通過介紹來看,Ice Lake是唯一內(nèi)置AI和安全解決方案的x86服務(wù)器芯片。
根據(jù)英特爾技術(shù)專家的解釋,第三代至強(qiáng)Ice Lake內(nèi)置安全解決方案,其中英特爾TME和英特爾固件恢復(fù)技術(shù)作為背后的平臺支持,而英特爾軟件防護(hù)擴(kuò)展(英特爾SGX)、英特爾密碼操作硬件加速作為安全解決方案的一環(huán),與傳統(tǒng)意義的ISV(獨(dú)立軟件開發(fā)商)、CSP(內(nèi)置安全策略)關(guān)系更加緊密,因此有必要更加深入研究技術(shù)本身。
因此本文將著重從英特爾SGX、英特爾密碼操作硬件加速和AI方面進(jìn)行講解。
英特爾SGX 帶來的優(yōu)勢遠(yuǎn)超想象
根據(jù)技術(shù)專家的解釋,SGX全稱Intel Software Guard Extension,早在第六代酷睿上就已搭載這項(xiàng)技術(shù),本次是第一次在服務(wù)器芯片上進(jìn)行硬件支持。
SGX是目前被廣泛測試、研究和部署的可信執(zhí)行環(huán)境(TEE),實(shí)現(xiàn)系統(tǒng)中相對最小被攻擊面。SGX基于硬件的安全技術(shù)實(shí)現(xiàn)了對敏感數(shù)據(jù)領(lǐng)域中硬件級別的隱私保護(hù),同時兼顧了性能體驗(yàn)。內(nèi)存足夠大的飛地現(xiàn)在可以滿足主流工作負(fù)載對內(nèi)存的需求(最大可達(dá)1TB內(nèi)存空間)。
簡單解釋來說,SGX是一個新的指令集擴(kuò)展,方便軟件開發(fā)者直接通過調(diào)用CPU指令實(shí)現(xiàn)安全隔離的技術(shù)。
“大家現(xiàn)在非常關(guān)注數(shù)據(jù),特別是很多客戶或者企業(yè)把數(shù)據(jù)放到云上,他們非常關(guān)注數(shù)據(jù)的三種狀況”,技術(shù)專家介紹表示,第一種是在云端可以加密存儲,第二種是在云端和本地?cái)?shù)據(jù)間加密傳輸,第三種則是對服務(wù)器進(jìn)行運(yùn)算時服務(wù)器內(nèi)存與CPU交互數(shù)據(jù)的動態(tài)加密。
為了保證數(shù)據(jù)的全生命周期的安全性,在離開各種組織的數(shù)據(jù)中心,到達(dá)云端之后,很有必要對這三種數(shù)據(jù)狀態(tài)進(jìn)行加密保護(hù),SGX就是屬于第三種的加密形式。
技術(shù)專家為記者解釋,“飛地”指的是一個組織把數(shù)據(jù)加載到云端或是遠(yuǎn)端模塊上,這樣的數(shù)據(jù)是“孤懸在海外”,不受自己保護(hù)的區(qū)域,那么這種情況應(yīng)該怎樣進(jìn)行保護(hù)?這就需要借助遠(yuǎn)端CPU的能力,即英特爾SGX,敏感數(shù)據(jù)可以被隔離使用。
他繼續(xù)說,“英特爾SGX是一種基于硬件的可信執(zhí)行環(huán)境,最近隱私計(jì)算聯(lián)盟推薦業(yè)界都使用類似SGX這種基于硬件的可信執(zhí)行環(huán)境。它就是提供了一個全新形態(tài)的安全和隱私保護(hù),目標(biāo)是能夠幫助各級組織把敏感的工作負(fù)載放心地放到公有云或是遠(yuǎn)端節(jié)點(diǎn)上。這樣可以在本地加密,傳輸?shù)竭h(yuǎn)端模塊,在云上進(jìn)行加密存儲,運(yùn)算時也是在內(nèi)存當(dāng)中由SGX提供了這種內(nèi)存隔離飛地來進(jìn)行必要的敏感數(shù)據(jù)運(yùn)算?!?
與常規(guī)的其他的一些隱私保護(hù)或者是安全技術(shù)相比,不管是在安全性、性能和可用性方面,SGX都有明顯的優(yōu)勢。安全性上,SGX是一個硬件級的安全技術(shù);性能上,在第三代至強(qiáng)可擴(kuò)展處理器平臺上,SGX的計(jì)算性能非常好,基本上沒有太多的開銷;可用性上,SGX既提供系統(tǒng)原生的基于SGX SDK的開發(fā)套件,也和LibOS(庫操作系統(tǒng))生態(tài)緊密合作,致力于不打破現(xiàn)有的應(yīng)用方式,不需要重新構(gòu)建一些通信或者是底層架構(gòu),對數(shù)據(jù)和模型進(jìn)行隱私保護(hù)。
“SGX還有一個比較顯著的特點(diǎn),就是保護(hù)的空間可大可小”,SGX可以提供最小4K最大1TB的保護(hù)空間,因?yàn)橛⑻貭柣旧鲜请p路服務(wù)器,所以單路512GB SGX可管理內(nèi)存的情況下,雙路服務(wù)器就是1TB。
“除此之外,SGX是直接由CPU來解碼的,無需在安全區(qū)域提供額外的高權(quán)限軟件”,技術(shù)專家告訴記者,這樣為工作負(fù)載加載提供了便利。
SGX還擁有一個極佳的功能,被英特爾稱之為遠(yuǎn)程認(rèn)證功能。此項(xiàng)功能可讓每一方進(jìn)行互相信任,解決聯(lián)邦學(xué)習(xí)當(dāng)中互不信任或者是互相無法信任的過程。遠(yuǎn)程認(rèn)證功能也非常利于構(gòu)建聯(lián)邦學(xué)習(xí)這樣的應(yīng)用,數(shù)據(jù)孤島可以很好的用聯(lián)邦學(xué)習(xí)的方式去解決。
SGX構(gòu)建的聯(lián)邦學(xué)習(xí)架構(gòu)中可以看出,不同參與方都在本地訓(xùn)練模型,再通過安全聚集的方式到達(dá)可信第三方的聯(lián)合模型。在常規(guī)的聯(lián)邦學(xué)習(xí)設(shè)計(jì)中,可信第三方和本地參與方都是易受攻擊的??尚诺谌奖还舫晒?,聯(lián)邦學(xué)習(xí)的流程就不再安全了,模型數(shù)據(jù)和臨時數(shù)據(jù)也會被攻破;本地方如果被攻破,相關(guān)敏感數(shù)據(jù)就被讀取泄露。SGX可以幫助完整保護(hù)可信第三方和每一個參與方,與此同時不需要做太多的應(yīng)用更改。
舉例來看,聯(lián)邦學(xué)習(xí)在構(gòu)建模型或是在準(zhǔn)備構(gòu)建模型階段時,均可使用SGX認(rèn)證功能對第三方運(yùn)行環(huán)境認(rèn)證,檢測第三方應(yīng)用程序是否被攻擊者篡改過。一旦發(fā)生篡改,認(rèn)證流程就會失敗,后面流程中也可以得知這是一個被篡改過的服務(wù),不能建立這樣的聯(lián)合建模。反觀之,如果參與方被攻擊者攻破,攻擊者會破壞整個聯(lián)邦學(xué)習(xí)流程,通過可信第三方或是其他參與方認(rèn)證,保證其他應(yīng)用環(huán)境和執(zhí)行環(huán)境都沒有被篡改過。所以,SGX可以很好的助力聯(lián)邦學(xué)習(xí),幫助聯(lián)邦學(xué)習(xí)更好的去實(shí)現(xiàn)這樣一個打破數(shù)據(jù)孤島的任務(wù)。
SGX生態(tài)最近幾年也有一些新進(jìn)展,較為典型的例子便是LibOS。此前,應(yīng)用遷移到SGX是擁有一定成本的,現(xiàn)在有了LibOS這樣的中間層,應(yīng)用程序的系統(tǒng)調(diào)用會被LibOS轉(zhuǎn)化為SGX SDK能夠識別的調(diào)用。通過這一層轉(zhuǎn)化就可使應(yīng)用程序無需修改任何一行代碼即可完整地放到SGX中運(yùn)行,這就解決了之前提到的遷移成本和易用性的問題。
另外,LibOS繼承了SGX的安全性,也是硬件級的安全標(biāo)準(zhǔn),因此在安全性上具有保障?,F(xiàn)在通過LibOS社區(qū)和英特爾開發(fā)人員的努力,很多項(xiàng)目已可通過LibOS放到SGX中運(yùn)行。常見的深度學(xué)習(xí)的框架TensorFlow、PyTorch、OpenVINO、Python、Redis等都可放入LibOS,這個支持列表還在不斷的拓展當(dāng)中。
合作方面,早期第三代至強(qiáng)可擴(kuò)展處理器發(fā)布一年前,阿里云硬件服務(wù)器上線前就已完成相關(guān)“安全飛地”、遠(yuǎn)程認(rèn)證能力建立;最近,騰訊剛剛發(fā)布的《騰訊隱私計(jì)算白皮書》中,騰訊大數(shù)據(jù)和騰訊安全平臺部已基于遠(yuǎn)程驗(yàn)真能力,提供這樣的“安全飛地”;百度安全的MesaTEE的整體架構(gòu)中,也應(yīng)用了SGX安全服務(wù),能夠?qū)?shù)據(jù)加載到可信執(zhí)行環(huán)境(TEE)。
“SGX盡管剛剛在服務(wù)器上實(shí)現(xiàn)實(shí)際的硬件搭載,但是從目前生態(tài)來看也得到了各個合作伙伴的支持,所以英特爾會很有信心在服務(wù)器領(lǐng)域繼續(xù)為大家去提供全方位的數(shù)據(jù)隱私保護(hù)。另外,會讓大家能夠非常放心地在公有云上進(jìn)行相對較為敏感的工作負(fù)載,包括代碼和用戶數(shù)據(jù)?!?
Analytics Zoo是由英特爾主導(dǎo)的一個GitHub開源項(xiàng)目,項(xiàng)目整合了常用的計(jì)算框架、計(jì)算庫和自動化流水線,能夠減少很多用戶的重復(fù)操作或者是框架整合。Analytics Zoo項(xiàng)目可以保證在大規(guī)模數(shù)據(jù)落地過程中,端到端的AI落地不需要進(jìn)行重復(fù)的代碼重寫,也不需要進(jìn)行大規(guī)模數(shù)據(jù)的拷貝。
在此方面,英特爾和螞蟻集團(tuán)也合作了一番。螞蟻集團(tuán)主導(dǎo)了名為Occlum LibOS的項(xiàng)目, 英特爾Analytics Zoo團(tuán)隊(duì)和螞蟻集團(tuán)的Occlum團(tuán)隊(duì)合作之下,這一項(xiàng)目可將大數(shù)據(jù)應(yīng)用、深度學(xué)習(xí)應(yīng)用無需過多改動,無縫遷移到第三代至強(qiáng)可擴(kuò)展處理器平臺上,實(shí)現(xiàn)安全可信的機(jī)器學(xué)習(xí)和大數(shù)據(jù)分析,同時實(shí)現(xiàn)一定程度的架構(gòu)復(fù)用。在數(shù)據(jù)推理階段,通過英特爾DL Boost技術(shù),可在int8的低精度下實(shí)現(xiàn)兩倍的性能提升。
三位一體的密碼操作硬件加速
技術(shù)專家強(qiáng)調(diào),英特爾提供的是硬件加速,對密碼操作分為對稱密碼操作或是非對稱密碼操作,對稱密碼操作可能是通過電子簽名這種比較標(biāo)準(zhǔn)的算法實(shí)現(xiàn),而從硬件方面來對這些算法進(jìn)行加速處理,可以幫助實(shí)現(xiàn)降低算力的損耗。
實(shí)際上,隨著需求提升,密碼操作的安全性也隨之而升。假若AES從128位上升為256位甚至更長秘鑰,這時對算力的要求是呈幾何級數(shù)增長的。
技術(shù)專家強(qiáng)調(diào),英特爾作為硬件提供商,需要在硬件上能夠幫助軟件層面的密碼操作進(jìn)行硬件的加速,英特爾也通過三種方式實(shí)現(xiàn)了硬件加速。
第一種是在CPU指令集中不斷添加新的指令來幫助密碼操作中實(shí)現(xiàn)硬件加速,一個較為典型的例子就是2000年左右,英特爾發(fā)現(xiàn)AES這種對稱加密,在使用硬件或者是密鑰向量級的加速之后,實(shí)現(xiàn)效率可以提升多達(dá)10-25倍。自那時起,英特爾便不斷持續(xù)增強(qiáng)新的指令集進(jìn)行硬件加速。
第二種是在CPU上進(jìn)行微架構(gòu)的調(diào)整,英特爾在設(shè)計(jì)微架構(gòu)時會充分考慮新的指令集如何在硬件中融合,這方面的硬件加速在微架構(gòu)上也有很好的體現(xiàn)。
第三種是在軟件的優(yōu)化上,英特爾擁有很大的軟件團(tuán)隊(duì),通過軟件優(yōu)化,結(jié)合硬件加速指令集的擴(kuò)展,就可為業(yè)界提供密碼操作硬件加速。
在這種三位一體的硬件加速之下,第三代可擴(kuò)展至強(qiáng)處理器獲得了相比上一代,公鑰密碼擁有5.6倍的OpenSSL RSA2048位簽名能力,對稱加密擁有3.3倍的單線程AES-GCM模式對稱加密。
在非對稱方面,技術(shù)專家為記者解釋,Ice Lake中,面對特定的、超大的、超長位的數(shù)字,引用了AVX-512(Advanced Vector Extensions)這樣的指令集,實(shí)現(xiàn)了基于整數(shù)的融合乘加的操作。通過乘加操作融合IFMA,再進(jìn)行近似讀取,接著通過VPMADD52指令,實(shí)現(xiàn)多緩存并行操作的機(jī)制,就可在RSA 2048這樣的電子簽名操作上實(shí)現(xiàn)比上一代CPU高達(dá)5.6倍的提升。
在對稱方面,Ice Lake中,可以實(shí)現(xiàn)矢量的AES和矢量的Crray-Less Multiply(CLMUL),二者可為伽羅華域性能提升做出貢獻(xiàn),產(chǎn)生新的伽羅華域指令集。通過AVX-512提供的512比特位的寄存器的,進(jìn)行向量操作,對AES加解密和Carry-Less進(jìn)行沒有進(jìn)位的乘操作。除此之外,英特爾第一次在Ice Lake中使用全新的SHA擴(kuò)展指令集。
以矢量CLMUL、矢量AES、VPMADD52、SHA擴(kuò)展指令集、GFNI這五個新的指令集為代表的組合,使得Ice Lake可以對多個數(shù)據(jù)進(jìn)行一次操作,幫助軟件開發(fā)者極大降低開發(fā)難度,使得擁有SIMD的特性。技術(shù)專家強(qiáng)調(diào),之所以在性能有如此強(qiáng)勁的展開和ISA指令集架構(gòu)的實(shí)現(xiàn),得益于AVX-512的引用,Ice Lake也是唯一能夠支持AVX-512指令集的方案。
內(nèi)置AI是領(lǐng)先業(yè)界的秘密
根據(jù)英特爾技術(shù)專家的解釋,通過Ice Lake整個架構(gòu)的改進(jìn),AI性能比前一代Cascade Lake系統(tǒng)能夠有74%的性能提升,圖像識別性能比競爭對手AMD EPYC 7763高25倍。
在AI軟件工具上面,現(xiàn)在的CPU架構(gòu)中,會大量利用到AVX-512指令集,目前在CPU平臺上,英特爾的至強(qiáng)是唯一能夠支持AVX-512指令集的方案。得益于這樣的指令集支持,至強(qiáng)在多種人工智能的負(fù)載上都能夠有非常優(yōu)秀的性能表現(xiàn),無論是對標(biāo)AMD EPYC的產(chǎn)品還是英偉達(dá)的GPU解決方案。
實(shí)際上,根據(jù)技術(shù)專家的介紹,在此這個過程中,圍繞架構(gòu)和AVX-512指令集上英特爾和業(yè)界一起投入了大量的資源,在軟件方案上進(jìn)行了深度優(yōu)化。一個典型的例子就是,在AI的開發(fā)應(yīng)用中,在TensorFlow上優(yōu)化的ResNet的性能,相較于默認(rèn)發(fā)行版可以提升10倍。而作為TensorFlow之父谷歌,已認(rèn)可英特爾在TensorFlow投入的優(yōu)化性能。所以從最新版本2.5版開始,默認(rèn)發(fā)行版就是英特爾的優(yōu)化版。技術(shù)專家戲稱,“下次我們就不能和默認(rèn)發(fā)行版對比了,因?yàn)槟J(rèn)發(fā)行版就是我們自己的版本?!?
除此之外,AI的很多經(jīng)典機(jī)器學(xué)習(xí)應(yīng)用中,Scikit-Learn是最流行的應(yīng)用開發(fā)包,英特爾的工程團(tuán)隊(duì)也和開源社區(qū)一起優(yōu)化了針對Scikit-Learn的機(jī)器學(xué)習(xí)的軟件算法性能。通過英特爾的優(yōu)化,在Scikit-Learn上可以獲得100倍的性能提升。
技術(shù)專家為記者舉例表示,Ice Lake比較典型的合作便是與阿里云在針對Transformer自然語言的深度優(yōu)化,通過VNNI int8實(shí)現(xiàn)了3倍的性能提升。Transformer模型如今已在阿里云平臺上每天服務(wù)百萬級的用戶,通過這樣的性能改進(jìn),用戶獲得了更低的響應(yīng)的延時,用戶體驗(yàn)得到了更好的提升。
值得一提的是,Ice Lake第三代至強(qiáng)可擴(kuò)展處理器平臺上,還支持獨(dú)特的第二代傲騰持久內(nèi)存技術(shù)PMEM。根據(jù)技術(shù)專家的介紹,第一代導(dǎo)入傲騰持久內(nèi)存技術(shù)之后,在業(yè)界就獲得了非常好的反響,眾多的客戶正在投入各種應(yīng)用與傲騰持久內(nèi)存技術(shù)來合作。其中也產(chǎn)生了非常多的應(yīng)用領(lǐng)域的創(chuàng)新。
據(jù)介紹,傳統(tǒng)不是用傲騰持久內(nèi)存方案需要用到較為昂貴的存儲系統(tǒng),造成的結(jié)果就是需要購買較多的DDR4內(nèi)存,且適逢內(nèi)存市場漲價。而英特爾的傲騰持久內(nèi)存就可降低內(nèi)存密集型服務(wù)的DDR內(nèi)存成本,從客戶合作的實(shí)際結(jié)果來看,成本的下降差不多可以達(dá)到30%。
總結(jié)
實(shí)際上,經(jīng)歷多年風(fēng)云變幻的數(shù)據(jù)中心市場,性能拼殺僅僅是其中一環(huán),除了對比性能,數(shù)據(jù)中心巨頭還要比拼什么?安全性、AI處理性能甚至是產(chǎn)品線,前兩者想必在大多數(shù)據(jù)中心新品發(fā)布會都頻繁可以聽到,通過上文將近五千字的技術(shù)解析中,想必讀者已對英特爾在此方面的優(yōu)勢有所了解。產(chǎn)品線則代表著對應(yīng)CPU的加速器、軟件,這方面英特爾的實(shí)力更是毋庸置疑的。
要知道,現(xiàn)在的英特爾不僅是IDM,還是一個以IDM 2.0為戰(zhàn)略的公司。英特爾不僅手握芯片生產(chǎn)的全部技術(shù),還擁有第三代至強(qiáng)可擴(kuò)展處理器平臺,這一平臺不僅能夠直接擴(kuò)展英特爾強(qiáng)力的SSD、傲騰持久內(nèi)存,還能直接擴(kuò)展英特爾旗下所有加速器包括獨(dú)立GPU,F(xiàn)PGA,eASIC,ASIC,這一切又都可以在oneAPI上,使用開發(fā)者最為熟悉的語言進(jìn)行任意開發(fā)。
僅僅從英特爾SGX、英特爾密碼操作硬件加速和AI三方面技術(shù),就窺探出如此眾多的奧妙,可想而知,潛藏在Ice Lake中,被英特爾“堆料”的先進(jìn)技術(shù)究竟有多強(qiáng)。除此之外,英特爾背后的封裝互連、工藝制程和一眾XPU的加持之下,Ice Lake可以說“強(qiáng)的可怕”。