當前位置：首頁 > 模擬 > 模擬

NVIDIA下一代GPU；結(jié)合 Triton 的 serving 方式，以最大化 GPU 整體收益

時間：2022-02-13 11:20:01

關(guān)鍵字： NVIDIA GPU 半導(dǎo)體

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]距離2020年5月Nvidia推出Ampere架構(gòu)，也就是大家熟悉的GeForce RTX30系列顯卡所采用的核心架構(gòu)，已經(jīng)過去了近兩年時間，關(guān)于NVIDIA下一代GPU的消息也流傳許久。

距離2020年5月Nvidia推出Ampere架構(gòu)，也就是大家熟悉的GeForce RTX30系列顯卡所采用的核心架構(gòu)，已經(jīng)過去了近兩年時間，關(guān)于NVIDIA下一代GPU的消息也流傳許久。根據(jù)多方爆料，“Hopper”將成為下一代GPU的代號。其實早在Ampere推出之前，就已經(jīng)有消息稱NVIDIA的下下代產(chǎn)品代號為Hopper，用于紀念Grace Hopper(格蕾絲·赫柏)女士。這位程序員被譽為計算機軟件工程第一夫人、編譯語言Cobol之母。

按照慣例，NVIDIA會先將新一代的GPU運用到數(shù)據(jù)中心等商用領(lǐng)域，然后才是與大家關(guān)系緊密的游戲顯卡，也就是新一代的GeForce RTX40系列產(chǎn)品。Hopper將采用5nm制程打造，頂級核心代號為GH100，核心面積接近1000mm2，比GA100安培核心826mm2的面積大了20%，晶體管數(shù)量可能超過600億。

另外，據(jù)悉Hopper將采用MCM多芯封裝，內(nèi)部集成兩顆芯片，預(yù)計總共擁有288個SM流式處理器。這種設(shè)計也是NVIDIA第一次采用，類似于AMD宵龍(EYPC)服務(wù)器處理器所使用的Chiplet設(shè)計，可以組合多個核心以達到更強性能。這樣一來，整個芯片的功耗可能達到千瓦級別，通俗來講就是每小時耗一度電。不過商用產(chǎn)品的設(shè)計，功耗并不是第一優(yōu)先級，至于RTX 40系列游戲顯卡的話肯定不會有這么恐怖的功耗，玩家們倒不必擔(dān)心。

不出意外的話，Hopper應(yīng)該會在今年3月21日于加州圣何塞舉行的春季GTC圖形技術(shù)大會上正式亮相，讓我們期待老黃屆時的演講吧!至于RTX40系列，此前已經(jīng)有消息稱核心代號為Ada Lovelace(英國詩人拜倫之女)，預(yù)計在今年第三季度發(fā)布。

2018年的中興事件和2019年的華為事件之后，“芯片”成為一個國民熱詞，也有大量的芯片創(chuàng)業(yè)公司成立。

國內(nèi)的芯片熱潮主要有兩次，第一次是“AI芯片”——包括圖形處理單元(GPU)、現(xiàn)場可編程門陣列(FPGA)和專門用于人工智能的特定應(yīng)用集成電路(ASIC)。

2017年，成立僅17個月的寒武紀獲得一億美元A輪融資，成為AI芯片的首個獨角獸;隨后地平線也宣布完成了超過一億美元的融資。與此同時，深鑒科技和比特大陸也分別獲得了數(shù)千萬美元的投資。創(chuàng)業(yè)公司之外，以云知聲、依圖為代表的AI公司嘗試跨界造芯，以BAT為首的互聯(lián)網(wǎng)巨頭也加入造芯大潮。

時至今日，這些創(chuàng)業(yè)公司有的已經(jīng)成為行業(yè)獨角獸，有的被成功并購，還有的已經(jīng)成功上市。

投資者內(nèi)，除了紅杉、金沙江創(chuàng)投、創(chuàng)新工場這樣關(guān)注科技領(lǐng)域的頂級VC之外，也不乏芯片行業(yè)的龍頭，比如投資了地平線的英特爾，投資了深鑒科技的賽靈思、三星等。有些晚入場的投資人甚至感嘆，“還沒等我弄明白GPU、CPU、ASIC、FPGA的差異，別人就已經(jīng)投完了”。

2020年，芯片行業(yè)掀起了第二波創(chuàng)業(yè)熱潮，這次主要集中在GPU領(lǐng)域。

2019年，前商湯科技總裁張文創(chuàng)立了壁仞科技，在之后的18個月內(nèi)累計融資超過47億元，并先后邀請到華為海思GPU負責(zé)人洪洲、AMD全球副總裁李榮新等加盟;2020年，前英偉達全球副總裁張建中創(chuàng)辦了摩爾線程，在100天內(nèi)募資數(shù)十億元;幾乎同一時期成立的還有沐曦集成電路，創(chuàng)始人陳維良曾任AMD總監(jiān)，一年內(nèi)獲得四輪融資。

融資金額巨大，創(chuàng)始人有英偉達、AMD等國際巨頭的工作經(jīng)驗，是這次GPU創(chuàng)業(yè)公司的共同標簽。

GPU曾主要用來做圖形計算，但隨著人工智能的發(fā)展，GPU被證明在大規(guī)模并行運算中有很好的處理能力，于是成為了當今最流行的AI芯片之一。而定義了GPU的英偉達，在2021年11月一度市值沖向8000多億美元，成為全球市值最高的芯片公司。

芯片創(chuàng)業(yè)是一個長周期的過程。國產(chǎn)的GPU公司不但要面對行業(yè)周期規(guī)律，還要從英偉達的“大山”夾縫中尋求突破。

在NVIDIA Studio平臺推出的數(shù)年中，這個包含了軟硬件和驅(qū)動的平臺，正在不斷改變著創(chuàng)作者的工作流程，以往內(nèi)容創(chuàng)作中機械重復(fù)的操作被AI替代，讓預(yù)算不高的內(nèi)容創(chuàng)作者也能集中在創(chuàng)意本身，放在五年前這幾乎是無法想象的。

那么問題來了，NVIDIA Studio平臺究竟是如何幫助創(chuàng)作者們在抓住稍縱即逝的創(chuàng)意，又是如何協(xié)助他們剝離繁瑣的設(shè)置和操作?現(xiàn)在就讓我們聊一聊NVIDIA Studio平臺上那些神奇的技術(shù)。

對于創(chuàng)作者而言，相較于創(chuàng)意，更多的時間其實花費在重復(fù)且單調(diào)的操作中，例如給視頻素材摳圖，等待6K乃至8K分辨率視頻輸出，在UE 4充滿光線反射的3D場景中步履維艱的切換視角。當每一步操作背后意味著漫長的等待，創(chuàng)作者的激情也隨之耗盡。

NVIDIA Studio平臺出現(xiàn)徹底解決了這樣的煩惱。依靠NVIDIA Studio平臺，GPU與Adobe Premiere Pro實現(xiàn)了默契的配合，通過AI Auto Reframe功能智能追蹤物體，原本耗費半小時甚至更久的主幀摳圖，被縮減到只需一次鼠標操作，時間不到一秒。緊接著，你還能按照社交媒體的寬高比要求快速裁剪橫向視頻，借助NVIDIA硬件編碼技術(shù)將視頻導(dǎo)出速度提升至傳統(tǒng)視頻導(dǎo)出的5倍。

事實上NVIDIA Studio平臺本身就意味著一整套硬件、軟件、驅(qū)動相互結(jié)合、優(yōu)化的完整解決方案。創(chuàng)作者不需要了解PC的運作原理和復(fù)雜設(shè)置，就能實現(xiàn)一些甚至不曾想過的大膽舉措。比如在8K攝像機尚未廣泛普及的前提下，NVIDIA Studio平臺已經(jīng)能夠完成實時、快速編輯8K視頻，在Adobe Premiere Pro、Blackmagic Resolve、REDCINE-X PRO等應(yīng)用程序中肆意的拖動、編輯完整畫質(zhì)的8K視頻，無需預(yù)先緩存，也無需生成代理。

在整個 AI 中臺架構(gòu)中，推薦中臺則作為最重要的核心，也是最具商業(yè)價值的部分，需要承載 VIVO 億級用戶群體產(chǎn)生的日活千萬的數(shù)據(jù)量。本文從推薦系統(tǒng)工程化的角度，解讀了以下三方面內(nèi)容：VIVO 的智能推薦系統(tǒng)是如何運行的?在實際應(yīng)用場景中遇到過什么挑戰(zhàn)?NVIDIA GPU 如何加速推薦系統(tǒng)的部署?

經(jīng)過驗證，本方案可以有效解決推薦業(yè)務(wù)中 GPU 通用性問題;同時能更高效的利用 GPU 。目前已經(jīng)在部分推薦業(yè)務(wù)中落地。經(jīng)過壓測，性能方面，單張 T4 GPU 推理卡，性能優(yōu)于約6臺以上的78核 CPU 服務(wù)器。成本方面，VIVO 自研通用 GPU 方案，在 TensorRT 方案基礎(chǔ)上，取得了更高的 QPS 和更低的延遲，可節(jié)省成本約75%!

在工程實踐中，VIVO 推薦系統(tǒng)面臨的第一個問題是如何平滑的把多種推薦業(yè)務(wù)邏輯從 CPU 平臺向 GPU 平臺遷移。鑒于當前已經(jīng)存在多個推薦業(yè)務(wù)場景，包括應(yīng)用商店，手機瀏覽器，負一屏信息流等。每個場景都有自己的算法模型和業(yè)務(wù)流程，如何把多種分散的智能服務(wù)整合到一個統(tǒng)一的推薦中臺，同時要兼顧當前的業(yè)務(wù)的無損遷移是一個巨大的挑戰(zhàn)。

一直以來，CPU 是客戶主要的支撐推薦業(yè)務(wù)場景的主流硬件平臺。但 VIVO 工程團隊卻發(fā)現(xiàn)在推理服務(wù)中，CPU 的表現(xiàn)始終無法達到要求標準，不僅算力較弱，應(yīng)對復(fù)雜模型時，響應(yīng)延遲和 QPS 也無法滿足實時性和高并發(fā)的需求。

此時，客戶嘗試改用 NVIDIA GPU 來實現(xiàn)推薦業(yè)務(wù)的推理服務(wù)，有效解決 CPU 算力和性能的瓶頸的同時，也期待更大的成本優(yōu)勢。經(jīng)過大量的工程實踐，結(jié)果表明，單臺基于 NVIDIA T4 GPU 的推理服務(wù)器，性能可以等同于24臺 CPU 機器。毋庸置疑, GPU 的整體表現(xiàn)皆具有性能和成本的優(yōu)勢。據(jù)此，客戶也認為使用 GPU 作為推薦業(yè)務(wù)場景的推理平臺，已成為了公司乃至行業(yè)的共識。

由于 GPU 芯片架構(gòu)的獨特性，不經(jīng)優(yōu)化的原始 TensorFlow 模型，很難高效利用 GPU 的算力。為了解決這個問題，VIVO 工程團隊投入了大量的人力和時間進行推薦模型優(yōu)化及轉(zhuǎn)換。而首先著手設(shè)計的是 TensorRT 方案，即是使用 NVIDIA 推理加速工具 TensorRT ，結(jié)合 Triton 的 serving 方式，以最大化 GPU 整體收益。

具體來說，把訓(xùn)練導(dǎo)出的 TensorFlow 模型經(jīng)過 Onnx 轉(zhuǎn)換成 TensorRT 模型，進而使用 NVIDIA 提供的推理服務(wù)框架 Triton 加載 TensorRT 模型。業(yè)務(wù)代碼使用 VIVO 封裝 Triton 的 JNI 接口，將業(yè)務(wù)請求輸入 TensorRT 模型去做推理計算。

本站聲明：本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系本站刪除。

換一批

Deca與冠捷半導(dǎo)體(SST)達成戰(zhàn)略合作共同推進非易失性存儲(NVM)芯粒解決方案

雙方攜手為客戶打造以存儲為核心的模塊化基礎(chǔ)架構(gòu)，支持先進的多裸片架構(gòu)設(shè)計

關(guān)鍵字：非易失性存儲半導(dǎo)體嵌入式

[展會快訊]

光電子先導(dǎo)院7款最新成果亮相2025中國光博會多系列高端化合物芯片、硅光芯片引領(lǐng)行業(yè)創(chuàng)新

9月10日，為期3天的第26屆中國國際光電博覽會(CIOE中國光博會)與SEMI-e深圳國際半導(dǎo)體展暨2025集成電路產(chǎn)業(yè)創(chuàng)新展(SEMI-e)，在深圳國際會展中心舉行。此次雙展以超30萬平方米的展示規(guī)模、匯聚5000余...

關(guān)鍵字：硅光芯片光電子半導(dǎo)體

[通信先鋒]

10倍回報率！NVIDIA：其他家產(chǎn)品免費送都超不過我們

9月10日消息，NVIDIA在演講中展示了其Blackwell Ultra AI服務(wù)器的驚人能力，尤其是在投資回報率(ROI)方面，其表現(xiàn)遠超所謂的“免費”GPU。

關(guān)鍵字： NVIDIA AMD

[通信先鋒]

NVIDIA官宣新GPU Rubin CPX

9月10日消息，128GB顯存的RTX 5090是沒有的，不過128GB顯存的AI GPU確實有。

關(guān)鍵字： NVIDIA AMD

[美通社全球TMT]

賽邁測控完成近億元A輪融資，國產(chǎn)高端測試測量領(lǐng)域發(fā)展再提速

蘇州2025年9月8日 /美通社/ -- 近日，蘇州賽邁測控技術(shù)有限公司（以下簡稱"賽邁測控"）完成了近億元A輪融資，由十月資本、老股東毅達資本、元禾厚望等聯(lián)合投資，彰顯了資本市場對賽邁測控...

關(guān)鍵字：測試測量模塊化射頻半導(dǎo)體

[X-FAB]

X-FAB現(xiàn)推出GaN-on-Si代工服務(wù)

XG035 dMode工藝將提供MPW、原型設(shè)計及量產(chǎn)服務(wù)

關(guān)鍵字：晶圓半導(dǎo)體 SiC

[米爾電子]

直播預(yù)告 | 恩智浦技術(shù)日巡回研討會：技術(shù)盛宴，“云端”開席！

9月9日，恩智浦技術(shù)日巡回研討會將在杭州舉辦！活動同期，恩智浦攜手生態(tài)合作伙伴，將對會議中精彩的技術(shù)演講全程進行網(wǎng)絡(luò)直播，讓更多的開發(fā)者足不出戶，也能夠直擊活動現(xiàn)場，解鎖前沿產(chǎn)品方案，共赴“云端”技術(shù)盛宴！

關(guān)鍵字：恩智浦半導(dǎo)體物聯(lián)網(wǎng)

[Pickering Electronics]