英特爾利用神經(jīng)網(wǎng)絡芯片推倒了人工智能技術
(文章來源:教育新聞網(wǎng))
在今年的英特爾AI峰會上,該芯片制造商展示了其第一代神經(jīng)網(wǎng)絡處理器(NNP):用于訓練的NNP-T和用于推理的NNP-I。兩條產(chǎn)品線現(xiàn)在都已投入生產(chǎn),并已交付給最初的客戶,活動中出現(xiàn)了其中的兩家,分別為Facebook和百度,以贊揚新的切片機。
專用的NNP設備代表了英特爾迄今為止對AI市場的最深推動,挑戰(zhàn)了Nvidia,AMD和一系列針對專門為人工智能部署專用芯片的客戶的初創(chuàng)公司。就NNP產(chǎn)品而言,該客戶群是由超大型公司(如Google,F(xiàn)acebook,Amazon等)固定的,這些公司的業(yè)務現(xiàn)在都由人工智能提供支持。
三年前,英特爾收購了Nervana Systems時,甚至沒有設想到推論線NNP-I。那時,饒和他的團隊正在開發(fā)一種訓練芯片,該芯片只是在側面進行推斷。它不被認為是值得專業(yè)化的東西。當然,現(xiàn)在,推理已被普遍認為是一種獨特的工作負載,它對低延遲,低功耗和特殊數(shù)學有其特殊的需求。
第一代推理處理器NNP-I 1000采用Intel的10納米工藝實現(xiàn),根據(jù)SKU的不同,其功耗在10瓦至50瓦之間。它由12個推理計算引擎和2個IA CPU內(nèi)核組成,這些內(nèi)核通過高速緩存一致性互連掛鉤。它可以執(zhí)行混合精度數(shù)學,特別強調(diào)使用INT8進行的低精度計算。NNP-I 1000提供兩種產(chǎn)品:NNP I-1100(包含一個NNP-I芯片的12瓦M.2卡)和NNP I-1300(由以下設備供電的75瓦PCI-Express卡)兩個籌碼。NNP I-1100提供高達50 TOPS,而NNP I-1300提供高達170 TOPS。
Rao聲稱,一旦將功率考慮進去,就根據(jù)MLPerf基準測試,就每瓦性能而言,NNP-I將成為推理領導者。他說,它還提供了非凡的密度,“您可以將每秒最多的推論推入單個機架單元中?!蓖ㄟ^英特爾的測量,它還提供了Nvidia T4 GPU的計算密度的3.7倍。結果,Rao說:“我們可以運行更大的模型,更復雜的模型,并并行運行數(shù)十個模型?!?/p>
為了支持數(shù)據(jù)中心(尤其是超大規(guī)模數(shù)據(jù)中心)所需的可伸縮性級別,英特爾已經(jīng)開發(fā)了與此類環(huán)境相關的解決方案堆棧。特別是,該公司開發(fā)了使用Kubernetes掛鉤將NNP-I應用程序容器化的軟件。它還提供了支持功能即服務(FaaS)模型的參考軟件堆棧,該模型是基于云的推理的新興范例。
Facebook的AI主管Misha Smelyanskiy加入Rao,解釋說其Glow機器學習編譯器已移植到NNP-I硬件上,這暗示著這家社交媒體巨頭已開始至少在其某些數(shù)據(jù)中心中安裝這些設備。Smelyanskiy沒有提供有關這些部署范圍的任何詳細信息,但確實提到了新硬件可以提供的一些關鍵推理應用程序,包括照片標記,語言翻譯,內(nèi)容推薦以及垃圾郵件和虛假帳戶檢測。Smelyanskiy解釋說,這些針對Facebook的專用ASIC的價值在于,它們“使ML工作負載的執(zhí)行具有高性能和高能效性?!?/p>
NNP-T 1000 ASIC完全是另一種芯片,提供了更大的計算能力。它由多達24個Tensor處理核心(支持FP32和bfloat16數(shù)字格式),55 MB至60 MB的片上SRAM,32 GB的高帶寬存儲器(HBM)和片間鏈接(ICL)組成16112 Gb /秒的通道數(shù)ASIC以兩種尺寸形式提供:PCI Express卡(NNP-T 1300)或夾層卡(NNP-T 14000)。PCI-Express卡的最大功耗為300瓦,而Mezzanine卡的最大功耗為375瓦。
ICL鏈接可用于跨越系統(tǒng)的多個級別,用作跨節(jié)點中的卡,機架中的節(jié)點和POD中的機架的無縫連接結構。一個節(jié)點最多可以構建八個卡,并且可以連接這些卡以構建多機架POD。在AI峰會活動上,他們演示了一個帶有480個NNP-T卡的10機架POD,無需使用開關。結構是使NNP-T平臺能夠大規(guī)模使用以訓練這些數(shù)十億參數(shù)模型(在合理的時間內(nèi))的關鍵設計元素。Rao解釋說:“橫向擴展可能是培訓中最重要的問題,任何新的培訓體系結構都必須考慮這一點?!苯柚?2卡NNP-T機架,英特爾在標準圖像分類模型ResNet-50和自然語言處理的高級模型BERT上展示了95%的縮放效率。
? ? ?