[導(dǎo)讀]在先前文章《近距離看GPU計算(2)》中,我們談到現(xiàn)代GPU發(fā)展出SIMT(SingleInstructionMultipleThread)的執(zhí)行結(jié)構(gòu),硬件線程池的線程們有相對獨立的運行上下文,以Warp為單位分發(fā)到一組處理單元按SIMD的模式運行。這些Warp內(nèi)的線程共享同樣的...
在先前文章《近距離看GPU計算(2)》中,我們談到現(xiàn)代GPU發(fā)展出SIMT(Single Instruction Multiple Thread)的執(zhí)行結(jié)構(gòu),硬件線程池的線程們有相對獨立的運行上下文,以Warp為單位分發(fā)到一組處理單元按SIMD的模式運行。這些Warp內(nèi)的線程共享同樣的PC,以鎖步的方式執(zhí)行指令,但是每個線程又可以有自己的執(zhí)行分支。很自然衍生的一個問題就是現(xiàn)代GPU如何有效的處理Branch Divergence(分支分歧)?一方面為適應(yīng)復(fù)雜圖形渲染以及通用計算的要求,GPU編程語言像其它高級語言一樣需要支持各種各樣的流控制(Flow Control)指令,比如if\switch\do\for\while等等,這些指令都會導(dǎo)致分支分歧。另一方面GPU并行計算的特點要求所有處理單元整齊劃一地執(zhí)行相同指令,才能夠取得性能最大化。如何較好地解決這兩種不同要求導(dǎo)致的沖突,一直是GPU研究中的熱點難點問題。在這里筆者沒有能力深入探討,只是淺嘗輒止做一般介紹,主要求這個系列內(nèi)容完整,不足甚至謬誤之處,請各位看官不吝指正。一,分支分歧對性能的影響這一節(jié)我們首先來討論下分支分歧對GPU性能的影響。以如下if\else代碼為例,我們看下GPU一般是如何來處理分支分歧的?if (cond) {...} else {...}假設(shè)一個Warp中有16個線程判斷條件為真,另外16個線程條件為假,所以一半線程會執(zhí)行if中的語句,另一半線程執(zhí)行else中的語句。這看起來像個悖論,我們知道Warp中的線程同一時刻只能執(zhí)行相同的指令。實際上遇到分支分歧時GPU會順序執(zhí)行每個分支路徑,而禁用不在此路徑上的線程,直到所有有線程使能的分支路徑都走完,線程再重新匯合到同一執(zhí)行路徑。如下圖所示,每個分支都有些線程不干活或者干無用功,Warp實際上需要執(zhí)行的指令數(shù)目大增。假設(shè)每個分支任務(wù)量大致相同,分支分歧造成的性能損失少則原先的一半,最壞的情況如果每個線程執(zhí)行分支都不一致,性能下降為最高時候的1/32。所以無論在設(shè)計算法還是分配處理數(shù)據(jù)的時候,我們都要小心盡量避免同一個Warp內(nèi)線程出現(xiàn)分支分歧的狀況,在遇到流控制指令的時候,最好能夠選擇同樣的路徑。二,如何實現(xiàn)Reconvergence
上一節(jié)我們講了Warp的線程產(chǎn)生了分支分歧之后,為求性能最佳,不可能讓它們一直放任自流,最終還是要盡可能在合適時機把它們重新匯合(Reconverge)起來。但這一切是如何實現(xiàn)的呢?按照參考1的說法,“The SM uses a branch synchronization stack to manage independent threads that diverge and converge”?。下面根據(jù)可接觸到的文獻我們看看大概是如何實現(xiàn)的,不一定跟GPU產(chǎn)商的實際做法一致。我們稱這個Warp運行時棧為SIMT Stack,每個Warp擁有一個SIMT棧用于處理SIMT執(zhí)行模式中的分支分歧。首先我們需要先確定分支分歧的最近重匯合點(Reconvergence Point),一般可以選用造成分支分歧節(jié)點的直接后序支配節(jié)點(Immediate post-dominator,若控制流圖的節(jié)點n 到終結(jié)節(jié)點的每一條路徑均要經(jīng)過節(jié)點d,則稱節(jié)點d后序支配節(jié)點n,如d與n之間沒有任何其他節(jié)點后序支配n,則稱節(jié)點d直接后序支配節(jié)點n),這可以通過編譯時的控制流分析得到。如下圖所示,左邊是我們假想的一段GPU偽代碼,右邊是對應(yīng)的控制流圖,我們假設(shè)SIMD通道的數(shù)目是4,每個節(jié)點邊上的掩碼數(shù)字代表通道上線程在該節(jié)點基本塊有沒有使能。SIMT棧結(jié)構(gòu)每個條目由執(zhí)行指令PC、分支重匯合PC(RPC)和使能線程掩碼三部分組成。下圖反映了執(zhí)行流從節(jié)點B分支分歧到節(jié)點E重新匯合時SIMT棧的更新過程。執(zhí)行的時候,遇到流控制指令,我們將各個分支依次入棧,棧頂條目的PC會被送到取指單元開始相應(yīng)分支路徑的處理,只有條目掩碼中使能的線程會處于活躍狀態(tài),當下一條PC等于棧頂條目RPC的時候,說明該分支已經(jīng)到了匯合點,棧頂條目會被彈出,開始下一分支的處理以至所有執(zhí)行線程匯合并共同執(zhí)行接下來的指令。值得注意的是真實環(huán)境下GPU都設(shè)計有一些特殊指令來維護SIMT棧。下圖表示上面代碼在時間軸上的執(zhí)行過程,實心箭頭表示對應(yīng)線程在該執(zhí)行節(jié)點處于活躍狀態(tài),反之空心箭頭代表不活躍狀態(tài)。基于SIMT棧的Reconvergence方案并不完美,其中一個很大的問題是Warp內(nèi)線程細粒度同步的時候很容易引發(fā)死鎖。按照Nvidia的說法,"algorithms requiring fine-grained
sharing of data guarded by locks or mutexes can easily lead to deadlock,
depending on which warp the contending threads come from."。以下面代碼為例,某幸運線程拿到鎖之后,在最近重匯合點C等著與大部隊接頭,不幸的是它無法執(zhí)行下面的Exch指令以釋放鎖,導(dǎo)致其它線程只能在B處空轉(zhuǎn),形成死鎖。從更高的層次上理解,分支分歧導(dǎo)致的順序執(zhí)行只發(fā)生在Warp內(nèi)的線程,Warp之間卻相互不受干擾,這種不一致的處理方式對算法移植的適應(yīng)性還是可預(yù)測性都會帶來影響。Nvidia從Volta GPU開始做出了改進,提出了"Independent Thread Scheduling"的方法,使得所有線程無關(guān)所在Warp可以具有同樣并發(fā)執(zhí)行能力,為此相比之前的GPU其Warp內(nèi)所有線程共享PC以及運行棧,Volta GPU的線程都分別有各自的PC和運行棧,如下圖所示。如此針對同樣的GPU程序以及分支分歧,Volta與之前的GPU相比有截然不同的調(diào)度行為。我們注意到在Volta中所有的Warp線程并沒有一起強制匯合執(zhí)行Z基本塊,主要考慮到Z可能作為生產(chǎn)者需要提供其它執(zhí)行分支依賴的的數(shù)據(jù)。回到我們先前死鎖的例子,在Volta中這個死鎖便可迎刃而解。如果我們明顯了解相關(guān)分支不存在同步行為,為優(yōu)化性能計,CUDA提供了?__syncwarp()
?函數(shù)以便強制匯合。主要參考資料:NVIDIA Tesla: A Unified Graphics and Computing Architecture
- Dynamic Warp Formation and Scheduling for Efficient GPU Control Flow
- https://developer.nvidia.com/blog/inside-volta/
- General-Purpose?Graphics Processor Architectures
~~~~~~~~~~~~~~~~~~~~~~~~~~~~如果覺著內(nèi)容有幫助,請幫忙關(guān)注、點贊、在看并分享給更多的朋友。謝謝!
本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。
關(guān)鍵字:
阿維塔
塞力斯
華為
加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...
關(guān)鍵字:
AWS
AN
BSP
數(shù)字化
倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...
關(guān)鍵字:
汽車
人工智能
智能驅(qū)動
BSP
北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...
關(guān)鍵字:
亞馬遜
解密
控制平面
BSP
8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。
關(guān)鍵字:
騰訊
編碼器
CPU
8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。
關(guān)鍵字:
華為
12nm
EDA
半導(dǎo)體
8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。
關(guān)鍵字:
華為
12nm
手機
衛(wèi)星通信
要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...
關(guān)鍵字:
通信
BSP
電信運營商
數(shù)字經(jīng)濟
北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...
關(guān)鍵字:
VI
傳輸協(xié)議
音頻
BSP
北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...
關(guān)鍵字:
BSP
信息技術(shù)
山海路引?嵐悅新程 三亞2024年8月27日 /美通社/ --?近日,海南地區(qū)六家凱悅系酒店與中國高端新能源車企嵐圖汽車(VOYAH)正式達成戰(zhàn)略合作協(xié)議。這一合作標志著兩大品牌在高端出行體驗和環(huán)保理念上的深度融合,將...
關(guān)鍵字:
新能源
BSP
PLAYER
ASIA
上海2024年8月28日 /美通社/ -- 8月26日至8月28日,AHN LAN安嵐與股神巴菲特的孫女妮可?巴菲特共同開啟了一場自然和藝術(shù)的療愈之旅。 妮可·巴菲特在療愈之旅活動現(xiàn)場合影 ...
關(guān)鍵字:
MIDDOT
BSP
LAN
SPI
8月29日消息,近日,華為董事、質(zhì)量流程IT總裁陶景文在中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式上表示,中國科技企業(yè)不應(yīng)怕美國對其封鎖。
關(guān)鍵字:
華為
12nm
EDA
半導(dǎo)體
上海2024年8月26日 /美通社/ -- 近日,全球領(lǐng)先的消費者研究與零售監(jiān)測公司尼爾森IQ(NielsenIQ)迎來進入中國市場四十周年的重要里程碑,正式翻開在華發(fā)展新篇章。自改革開放以來,中國市場不斷展現(xiàn)出前所未有...
關(guān)鍵字:
BSP
NI
SE
TRACE
上海2024年8月26日 /美通社/ -- 第二十二屆跨盈年度B2B營銷高管峰會(CC2025)將于2025年1月15-17日在上海舉辦,本次峰會早鳥票注冊通道開啟,截止時間10月11日。 了解更多會議信息:cc.co...
關(guān)鍵字:
BSP
COM
AI
INDEX
上海2024年8月26日 /美通社/ -- 今日,高端全合成潤滑油品牌美孚1號攜手品牌體驗官周冠宇,開啟全新旅程,助力廣大車主通過駕駛?cè)ヌ剿鞲鼜V闊的世界。在全新發(fā)布的品牌視頻中,周冠宇及不同背景的消費者表達了對駕駛的熱愛...
關(guān)鍵字:
BSP
汽車制造
此次發(fā)布標志著Cision首次為亞太市場量身定制全方位的媒體監(jiān)測服務(wù)。 芝加哥2024年8月27日 /美通社/ -- 消費者和媒體情報、互動及傳播解決方案的全球領(lǐng)導(dǎo)者Cis...
關(guān)鍵字:
CIS
IO
SI
BSP
上海2024年8月27日 /美通社/ -- 近來,具有強大學(xué)習(xí)、理解和多模態(tài)處理能力的大模型迅猛發(fā)展,正在給人類的生產(chǎn)、生活帶來革命性的變化。在這一變革浪潮中,物聯(lián)網(wǎng)成為了大模型技術(shù)發(fā)揮作用的重要陣地。 作為全球領(lǐng)先的...
關(guān)鍵字:
模型
移遠通信
BSP
高通
北京2024年8月27日 /美通社/ -- 高途教育科技公司(紐約證券交易所股票代碼:GOTU)("高途"或"公司"),一家技術(shù)驅(qū)動的在線直播大班培訓(xùn)機構(gòu),今日發(fā)布截至2024年6月30日第二季度未經(jīng)審計財務(wù)報告。 2...
關(guān)鍵字:
BSP
電話會議
COM
TE
8月26日消息,華為公司最近正式啟動了“華為AI百校計劃”,向國內(nèi)高校提供基于昇騰云服務(wù)的AI計算資源。
關(guān)鍵字:
華為
12nm
EDA
半導(dǎo)體