前ARM工程師批評(píng)：RISC-V尤為糟糕的部分！

時(shí)間：2020-12-30 10:06:47

關(guān)鍵字： ARM RISC-V

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]本文最初完成于幾年之前，彼時(shí)作者正在 ARM 公司擔(dān)任執(zhí)行核心驗(yàn)證工程師職位。作者當(dāng)時(shí)的工作深入或圍繞多種處理器核心，而文中提到的觀點(diǎn)深受這些經(jīng)驗(yàn)的影響，換句話說，這些觀點(diǎn)存在不同程度的偏見。

前言

本文最初完成于幾年之前，彼時(shí)作者正在 ARM 公司擔(dān)任執(zhí)行核心驗(yàn)證工程師職位。作者當(dāng)時(shí)的工作深入或圍繞多種處理器核心，而文中提到的觀點(diǎn)深受這些經(jīng)驗(yàn)的影響，換句話說，這些觀點(diǎn)存在不同程度的偏見。

作者依舊堅(jiān)持認(rèn)為 RISC-V 的設(shè)計(jì)并不完美，但同時(shí)也承認(rèn)，如果現(xiàn)在需要搭建一個(gè) 32 或 64 ?位的 CPU，他在實(shí)現(xiàn)構(gòu)建時(shí)也會(huì)從現(xiàn)有工具中受益。?

本文主要基于 RISC-V ISA 規(guī)范 v2.0，部分已更新至 v2.2。

一些觀點(diǎn)

RISC-V ISA 對(duì)極簡主義的追求鉆了牛角尖，它極力強(qiáng)調(diào)減少指令數(shù)量，規(guī)范編碼等等。而這種追求則導(dǎo)致了錯(cuò)誤的正交性（分支、調(diào)用、返回時(shí)重復(fù)使用同一指令），以及對(duì)贅余指令的需求，這些在程序大小和指令數(shù)量上都會(huì)影響到代碼密度。

以下面的 C 代碼為例：

int readidx(int *p, size_t idx){ return p[idx]; }

簡單的數(shù)組索引，非常常見的操作。將其在 x86_64 中編譯：

mov eax, [rdi+rsi*4]ret

或者是 ARM 中：

ldr r0, [r0, r1, lsl #2]bx lr // return

但是在 RISC-V 中需要的代碼則是：

# 很抱歉如果有任何語法錯(cuò)誤，risc-v 并沒有在線編譯器slli a1, a1, 2add a0, a1, a1lw a0, a0, 0jalr r0, r1, 0 // return

RISC-V 的極簡主義讓解碼器（CPU 前端）變得更簡單，代價(jià)則是需要執(zhí)行更多的指令。然而，相對(duì)于拓寬流水線這個(gè)難題而言，解碼不規(guī)則指令的問題很好解決，主要難點(diǎn)在于確定指令的長度是否一致。x86 的眾多前綴就是個(gè)極佳的反面教材。對(duì)指令集的簡化不應(yīng)追求極限。寄存器 + 移位寄存器的內(nèi)存操作指令是程序中非常常見且簡單的操作，對(duì)于 CPU 而言也很容易實(shí)現(xiàn)。即使無法直接執(zhí)行，CPU 也可以相對(duì)輕松地將其分步執(zhí)行，其操作復(fù)雜程度遠(yuǎn)遜色于融合簡單操作的序列。

CISC CPU 中的“復(fù)合”指令，繁復(fù)、少有使用且普遍性能低下，而 CISC 和 RISC CPU 通用的“功能”指令則意指結(jié)合了少量操作序列并且使用率高、性能高的指令。這二者應(yīng)當(dāng)有所區(qū)分。

還不錯(cuò)的部分

幾乎不受任何限制的可擴(kuò)展性。雖說這是 RISC-V 的賣點(diǎn)，但它同時(shí)也是碎片化、不兼容生態(tài)系統(tǒng)的罪魁禍?zhǔn)?，在管理時(shí)還需加倍小心。

調(diào)用、返回和寄存器間接分支使用同一指令（JALR）。分支預(yù)測(cè)需要額外解碼。

調(diào)用：Rd = R1
返回：Rd = R0, Rs =R1
間接分支: Rd = R0, Rs≠ R1
（奇怪分支：Rd≠ R0, Rd ≠ R1)

可變長度編碼無法自我同步。x86 和 Thumb-2 中都存在的常見問題，會(huì)導(dǎo)致實(shí)現(xiàn)和安全性方面的各種漏洞，例如面向返回的編程攻擊。

RV64I 規(guī)定所有 32 位值的符號(hào)擴(kuò)展。這一點(diǎn)會(huì)導(dǎo)致不必要的上半切換，或者需要對(duì)寄存器的上半部分進(jìn)行特殊調(diào)整。建議采用零擴(kuò)展，在減少切換的同時(shí)，通常還可以在已知上半部分為零的情況下，通過追蹤”為零“位來進(jìn)行優(yōu)化。

乘法是可選項(xiàng)。考慮到高速乘法器在微型實(shí)現(xiàn)中占用的面積不容忽視，創(chuàng)建占用更小，還可以將現(xiàn)有 ALU 廣泛用于多循環(huán)乘法的小型乘法器不失為良策。

LR/SC 指令對(duì)有限使用子集有嚴(yán)格的最終轉(zhuǎn)發(fā)要求。盡管這項(xiàng)限制頗為嚴(yán)苛，但對(duì)于沒有緩存的小型實(shí)現(xiàn)而言有可能會(huì)帶來一些問題。

這一點(diǎn)似乎是 CAS 指令的替代品，具體請(qǐng)參照有關(guān)該指令的注釋。

FP 粘性位和舍入模式處于同一寄存器中。如果想通過執(zhí)行 RMW 操作改變舍入模式，則需要對(duì) FP 管道進(jìn)行序列化。

FP 指令支持的編碼精度有 32 位、64 位和 128 位，唯獨(dú)沒有硬件中更為常見的 16 位。

這點(diǎn)很容易修正：我們有免費(fèi)的字組編碼 2’b10。

更新：v2.2 中添加了十進(jìn)制 FP 擴(kuò)展占位符，但仍然沒有半精度占位符。迷惑行為。

FP 寄存器文件中的 FP 值未指定，但可以通過加載 / 存儲(chǔ)觀察到。

仿真器作者要恨死你了。

VM 遷移會(huì)將變?yōu)椴豢赡堋?/span>

更新：v2.2 需要 NaN 裝箱更寬的值。

糟糕的部分

沒有條件代碼，只有比較和分支指令。這一點(diǎn)自身沒什么問題，但它意味著：需要編碼一到二個(gè)寄存器說明符，導(dǎo)致條件分支中的編碼空間減少。

沒有條件選擇，這一點(diǎn)在高度不可預(yù)測(cè)的分支中很有用。

加法 / 減法沒有加進(jìn)位或借位。（即使這樣，這也比 ISA 將 flag 寫入通用寄存器 GPR，然后在結(jié)果 flag 上分支要好。）

用戶級(jí) ISA 需要高精度計(jì)數(shù)器。在實(shí)踐中，將這些計(jì)數(shù)器暴露給應(yīng)用程序意味著側(cè)通道攻擊的好機(jī)會(huì)。

乘法和除法同屬于一個(gè)擴(kuò)展，無法單獨(dú)實(shí)現(xiàn)其中之一。相比除法，乘法要簡單許多，而且在大多的 CPU 上很常見。

基礎(chǔ) ISA 中沒有原子指令。多核微型處理器越來越普遍的今天，LL/SC 類型原子指令也越來越廉價(jià)：只需要 1 位 CPU 狀態(tài)即可完成最小 CPU 實(shí)現(xiàn)。

LR/SC 和更復(fù)雜的原子指令同屬于一個(gè)擴(kuò)展。直接限制了小型實(shí)現(xiàn)的靈活性。

? 非 LR/SC 的一般原子指令不包含 CAS 原語

CAS 的設(shè)計(jì)是為了避免需要一條指令讀取 5 個(gè)寄存器的情況，例如：加法器、Cmp:CmpLo，SwapHi:SwapLo。但 LR/SC 用于取代 CAS 的保底進(jìn)度很可能只會(huì)在實(shí)現(xiàn)上帶來更高的開銷。

原子指令僅支持 32 位或 64 位操作，不支持 8 位或 16 位。

對(duì) RV32I 而言，想在整數(shù)和浮點(diǎn)寄存器文件之間轉(zhuǎn)換 DP 和 FP，只能通過內(nèi)存解決。

舉例來說：RV32I 的 32 位 ADD 和 RV64I 的 64 位 ADD 共用同一套編碼，RV64I 又多加了一套 ADD.W 編碼。如此一來，CPU 實(shí)現(xiàn)這兩種指令時(shí)麻煩了許多，不如直接新增一套 64 位編碼。

沒有 MOV 指令。匯編器對(duì)于 MV 的等效指令是：MV rD, rS -> ADD rD, rS, 0。MOV 優(yōu)化通常由高端處理器，尤其是失序處理器完成。識(shí)別 RISC-V 規(guī)范的 MV 需要一個(gè) 12 位的立即數(shù)。

在沒有 MOV 指令的情況下，ADD rD, rS, r0 是對(duì) MOV 不錯(cuò)的替代。它更易被解碼，而 CPU 通常也會(huì)有特殊情況下的邏輯來識(shí)別零寄存器。

尤為糟糕的部分

JAL 在本該只是 R1（分支時(shí)是 R0）的鏈接寄存器編碼上浪費(fèi)了 5 比特。

這意味著 RV32I 有 21 位的分支位移（對(duì)于諸如瀏覽器等大型應(yīng)用時(shí)，不使用多指令序列或者分支 island 時(shí)會(huì)不夠用）。

? 其實(shí)是 1.0 版本 ISA 的歷史遺留問題

盡管 RISC-V 在統(tǒng)一編碼上花了大功夫，但加載 / 存儲(chǔ)指令的編碼仍然是不同的（寄存器 vs 立即字段互換）。

似乎寄存器編碼的最終正交性要比兩種高度相關(guān)指令的正交性更受歡迎?？紤]到地址生成是對(duì)時(shí)序更為敏感的操作，這種選擇有點(diǎn)奇怪。

寄存器偏移量（Rbase +Roffset）或索引（Rbase + Rindex << Scale）沒有負(fù)載。

FENCE.I 意味著指令緩存和前面的存儲(chǔ)區(qū)必須完全同步，無論是否有 fence。實(shí)現(xiàn)時(shí)需要在 fence 上刷新 I，或者通過snoop的方式監(jiān)視D 和存儲(chǔ)緩存區(qū)。

RV32I 中，讀取 64 位計(jì)數(shù)器需讀取上半部分兩次，并進(jìn)行比較和分支，以防在讀取操作時(shí)下半部分和上半部分發(fā)生借位。

通常 32 位 ISA 包含了一個(gè)“讀取一對(duì)特殊寄存器”的指令來避免這個(gè)問題。

架構(gòu)上沒有定義“提示”編碼空間。提示編碼是指在當(dāng)前處理器上作為 NOP 執(zhí)行，但在之后的變量上有操作的編碼。

“NOP 提示”的常見例子是自旋鎖 yield。

更復(fù)雜的提示也有實(shí)現(xiàn)。即那些對(duì)新處理器有明顯副作用的提示，例如 x86 的邊界檢查指令被編碼在提示空間，以便二進(jìn)制文件保持向后兼容。

原文地址

https://gist.github.com/erincandescent/8a10eeeea1918ee4f9d9982f7618ef68

本文轉(zhuǎn)自InfoQ中文站，版權(quán)歸原作者所有，如有侵權(quán)請(qǐng)聯(lián)系刪除

首發(fā)地址：

https://www.infoq.cn/article/qp5c2tUjk88zE2EipZuE

END

來源：InfoQ中文站

版權(quán)歸原作者所有，如有侵權(quán)，請(qǐng)聯(lián)系刪除。

▍ 推薦閱讀

成功為華為“續(xù)命：中國芯片之父張汝京

一個(gè)工程師的“噩夢(mèng)”：剛分清CPU和GPU，卻發(fā)現(xiàn)還有……

這位“華為天才少年”，竟然要我用“充電寶”打《只狼》

免責(zé)聲明：本文內(nèi)容由21ic獲得授權(quán)后發(fā)布，版權(quán)歸原作者所有，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。文章僅代表作者個(gè)人觀點(diǎn)，不代表本平臺(tái)立場(chǎng)，如有問題，請(qǐng)聯(lián)系我們，謝謝！

掃描二維碼，關(guān)注更多精彩內(nèi)容

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)，本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系本站刪除。

換一批

阿維塔、賽力斯已入股！華為引望可能成“中國博世”

9月2日消息，不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達(dá)成戰(zhàn)略合作協(xié)議，徹底改變?cè)撇捎煤凸芾矸绞?/a>

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關(guān)鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅(qū)動(dòng)工具SODA V將顛覆汽車市場(chǎng)，使汽車開發(fā)時(shí)間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V，這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具，可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字：汽車人工智能智能驅(qū)動(dòng) BSP

[美通社全球TMT]

從容應(yīng)對(duì)未知風(fēng)險(xiǎn)----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行，同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn)，如企業(yè)系統(tǒng)復(fù)雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性，提升韌性，成...

關(guān)鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國游戲市場(chǎng)開始復(fù)蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

8月30日消息，據(jù)媒體報(bào)道，騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字：騰訊編碼器 CPU

[通信先鋒]

獨(dú)立自主！華為董事：致力打造不依賴西方的技術(shù)

8月28日消息，今天上午，2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽舉行，華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字：華為 12nm EDA 半導(dǎo)體

[通信先鋒]

華為張平安：數(shù)字世界話語權(quán)最終由生態(tài)繁榮決定！

8月28日消息，在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上，華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱，數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字：華為 12nm 手機(jī) 衛(wèi)星通信

[美通社全球TMT]

中國通信服務(wù)公布2024年中期業(yè)績

要點(diǎn)：有效應(yīng)對(duì)環(huán)境變化，經(jīng)營業(yè)績穩(wěn)中有升落實(shí)提質(zhì)增效舉措，毛利潤率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務(wù)引領(lǐng)增長以科技創(chuàng)新為引領(lǐng)，提升企業(yè)核心競(jìng)爭力堅(jiān)持高質(zhì)量發(fā)展策略，塑強(qiáng)核心競(jìng)爭優(yōu)勢(shì)...

關(guān)鍵字：通信 BSP 電信運(yùn)營商數(shù)字經(jīng)濟(jì)

[美通社全球TMT]

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動(dòng)產(chǎn)業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺(tái)與中國電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]

軟通動(dòng)力與長三角投資達(dá)成戰(zhàn)略合作共謀數(shù)字生態(tài)新發(fā)展

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上，軟通動(dòng)力信息技術(shù)（集團(tuán)）股份有限公司（以下簡稱"軟通動(dòng)力"）與長三角投資（上海）有限...

關(guān)鍵字： BSP 信息技術(shù)