NVIDIA下一代GPU;結合 Triton 的 serving 方式,以最大化 GPU 整體收益
距離2020年5月Nvidia推出Ampere架構,也就是大家熟悉的GeForce RTX30系列顯卡所采用的核心架構,已經過去了近兩年時間,關于NVIDIA下一代GPU的消息也流傳許久。根據多方爆料,“Hopper”將成為下一代GPU的代號。其實早在Ampere推出之前,就已經有消息稱NVIDIA的下下代產品代號為Hopper,用于紀念Grace Hopper(格蕾絲·赫柏)女士。這位程序員被譽為計算機軟件工程第一夫人、編譯語言Cobol之母。
按照慣例,NVIDIA會先將新一代的GPU運用到數據中心等商用領域,然后才是與大家關系緊密的游戲顯卡,也就是新一代的GeForce RTX40系列產品。Hopper將采用5nm制程打造,頂級核心代號為GH100,核心面積接近1000mm2,比GA100安培核心826mm2的面積大了20%,晶體管數量可能超過600億。
另外,據悉Hopper將采用MCM多芯封裝,內部集成兩顆芯片,預計總共擁有288個SM流式處理器。這種設計也是NVIDIA第一次采用,類似于AMD宵龍(EYPC)服務器處理器所使用的Chiplet設計,可以組合多個核心以達到更強性能。這樣一來,整個芯片的功耗可能達到千瓦級別,通俗來講就是每小時耗一度電。不過商用產品的設計,功耗并不是第一優(yōu)先級,至于RTX 40系列游戲顯卡的話肯定不會有這么恐怖的功耗,玩家們倒不必擔心。
不出意外的話,Hopper應該會在今年3月21日于加州圣何塞舉行的春季GTC圖形技術大會上正式亮相,讓我們期待老黃屆時的演講吧!至于RTX40系列,此前已經有消息稱核心代號為Ada Lovelace(英國詩人拜倫之女),預計在今年第三季度發(fā)布。
2018年的中興事件和2019年的華為事件之后,“芯片”成為一個國民熱詞,也有大量的芯片創(chuàng)業(yè)公司成立。
國內的芯片熱潮主要有兩次,第一次是“AI芯片”——包括圖形處理單元(GPU)、現場可編程門陣列(FPGA)和專門用于人工智能的特定應用集成電路(ASIC)。
2017年,成立僅17個月的寒武紀獲得一億美元A輪融資,成為AI芯片的首個獨角獸;隨后地平線也宣布完成了超過一億美元的融資。與此同時,深鑒科技和比特大陸也分別獲得了數千萬美元的投資。創(chuàng)業(yè)公司之外,以云知聲、依圖為代表的AI公司嘗試跨界造芯,以BAT為首的互聯網巨頭也加入造芯大潮。
時至今日,這些創(chuàng)業(yè)公司有的已經成為行業(yè)獨角獸,有的被成功并購,還有的已經成功上市。
投資者內,除了紅杉、金沙江創(chuàng)投、創(chuàng)新工場這樣關注科技領域的頂級VC之外,也不乏芯片行業(yè)的龍頭,比如投資了地平線的英特爾,投資了深鑒科技的賽靈思、三星等。有些晚入場的投資人甚至感嘆,“還沒等我弄明白GPU、CPU、ASIC、FPGA的差異,別人就已經投完了”。
2020年,芯片行業(yè)掀起了第二波創(chuàng)業(yè)熱潮,這次主要集中在GPU領域。
2019年,前商湯科技總裁張文創(chuàng)立了壁仞科技,在之后的18個月內累計融資超過47億元,并先后邀請到華為海思GPU負責人洪洲、AMD全球副總裁李榮新等加盟;2020年,前英偉達全球副總裁張建中創(chuàng)辦了摩爾線程,在100天內募資數十億元;幾乎同一時期成立的還有沐曦集成電路,創(chuàng)始人陳維良曾任AMD總監(jiān),一年內獲得四輪融資。
融資金額巨大,創(chuàng)始人有英偉達、AMD等國際巨頭的工作經驗,是這次GPU創(chuàng)業(yè)公司的共同標簽。
GPU曾主要用來做圖形計算,但隨著人工智能的發(fā)展,GPU被證明在大規(guī)模并行運算中有很好的處理能力,于是成為了當今最流行的AI芯片之一。而定義了GPU的英偉達,在2021年11月一度市值沖向8000多億美元,成為全球市值最高的芯片公司。
芯片創(chuàng)業(yè)是一個長周期的過程。國產的GPU公司不但要面對行業(yè)周期規(guī)律,還要從英偉達的“大山”夾縫中尋求突破。
在NVIDIA Studio平臺推出的數年中,這個包含了軟硬件和驅動的平臺,正在不斷改變著創(chuàng)作者的工作流程,以往內容創(chuàng)作中機械重復的操作被AI替代,讓預算不高的內容創(chuàng)作者也能集中在創(chuàng)意本身,放在五年前這幾乎是無法想象的。
那么問題來了,NVIDIA Studio平臺究竟是如何幫助創(chuàng)作者們在抓住稍縱即逝的創(chuàng)意,又是如何協助他們剝離繁瑣的設置和操作?現在就讓我們聊一聊NVIDIA Studio平臺上那些神奇的技術。
對于創(chuàng)作者而言,相較于創(chuàng)意,更多的時間其實花費在重復且單調的操作中,例如給視頻素材摳圖,等待6K乃至8K分辨率視頻輸出,在UE 4充滿光線反射的3D場景中步履維艱的切換視角。當每一步操作背后意味著漫長的等待,創(chuàng)作者的激情也隨之耗盡。
NVIDIA Studio平臺出現徹底解決了這樣的煩惱。依靠NVIDIA Studio平臺,GPU與Adobe Premiere Pro實現了默契的配合,通過AI Auto Reframe功能智能追蹤物體,原本耗費半小時甚至更久的主幀摳圖,被縮減到只需一次鼠標操作,時間不到一秒。緊接著,你還能按照社交媒體的寬高比要求快速裁剪橫向視頻,借助NVIDIA硬件編碼技術將視頻導出速度提升至傳統(tǒng)視頻導出的5倍。
事實上NVIDIA Studio平臺本身就意味著一整套硬件、軟件、驅動相互結合、優(yōu)化的完整解決方案。創(chuàng)作者不需要了解PC的運作原理和復雜設置,就能實現一些甚至不曾想過的大膽舉措。比如在8K攝像機尚未廣泛普及的前提下,NVIDIA Studio平臺已經能夠完成實時、快速編輯8K視頻,在Adobe Premiere Pro、Blackmagic Resolve、REDCINE-X PRO等應用程序中肆意的拖動、編輯完整畫質的8K視頻,無需預先緩存,也無需生成代理。
在整個 AI 中臺架構中,推薦中臺則作為最重要的核心,也是最具商業(yè)價值的部分,需要承載 VIVO 億級用戶群體產生的日活千萬的數據量。本文從推薦系統(tǒng)工程化的角度,解讀了以下三方面內容:VIVO 的智能推薦系統(tǒng)是如何運行的?在實際應用場景中遇到過什么挑戰(zhàn)?NVIDIA GPU 如何加速推薦系統(tǒng)的部署?
經過驗證,本方案可以有效解決推薦業(yè)務中 GPU 通用性問題;同時能更高效的利用 GPU 。目前已經在部分推薦業(yè)務中落地。經過壓測,性能方面,單張 T4 GPU 推理卡,性能優(yōu)于約6臺以上的78核 CPU 服務器。成本方面,VIVO 自研通用 GPU 方案,在 TensorRT 方案基礎上,取得了更高的 QPS 和更低的延遲,可節(jié)省成本約75%!
在工程實踐中,VIVO 推薦系統(tǒng)面臨的第一個問題是如何平滑的把多種推薦業(yè)務邏輯從 CPU 平臺向 GPU 平臺遷移。鑒于當前已經存在多個推薦業(yè)務場景,包括應用商店,手機瀏覽器,負一屏信息流等。每個場景都有自己的算法模型和業(yè)務流程,如何把多種分散的智能服務整合到一個統(tǒng)一的推薦中臺,同時要兼顧當前的業(yè)務的無損遷移是一個巨大的挑戰(zhàn)。
一直以來,CPU 是客戶主要的支撐推薦業(yè)務場景的主流硬件平臺。但 VIVO 工程團隊卻發(fā)現在推理服務中,CPU 的表現始終無法達到要求標準,不僅算力較弱,應對復雜模型時,響應延遲和 QPS 也無法滿足實時性和高并發(fā)的需求。
此時,客戶嘗試改用 NVIDIA GPU 來實現推薦業(yè)務的推理服務,有效解決 CPU 算力和性能的瓶頸的同時,也期待更大的成本優(yōu)勢。經過大量的工程實踐,結果表明,單臺基于 NVIDIA T4 GPU 的推理服務器,性能可以等同于24臺 CPU 機器。毋庸置疑, GPU 的整體表現皆具有性能和成本的優(yōu)勢。據此,客戶也認為使用 GPU 作為推薦業(yè)務場景的推理平臺,已成為了公司乃至行業(yè)的共識。
由于 GPU 芯片架構的獨特性,不經優(yōu)化的原始 TensorFlow 模型,很難高效利用 GPU 的算力。為了解決這個問題,VIVO 工程團隊投入了大量的人力和時間進行推薦模型優(yōu)化及轉換。而首先著手設計的是 TensorRT 方案,即是使用 NVIDIA 推理加速工具 TensorRT ,結合 Triton 的 serving 方式,以最大化 GPU 整體收益。
具體來說,把訓練導出的 TensorFlow 模型經過 Onnx 轉換成 TensorRT 模型,進而使用 NVIDIA 提供的推理服務框架 Triton 加載 TensorRT 模型。業(yè)務代碼使用 VIVO 封裝 Triton 的 JNI 接口,將業(yè)務請求輸入 TensorRT 模型去做推理計算。