字節(jié)終面：CPU?是如何讀寫內(nèi)存的？

時(shí)間：2021-07-06 22:12:33

關(guān)鍵字：字節(jié) CPU 內(nèi)存

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]如果你覺得這是一個(gè)非常簡(jiǎn)單的問(wèn)題，那么你真應(yīng)該好好讀讀本文，我敢保證這個(gè)問(wèn)題絕沒(méi)有你想象的那么簡(jiǎn)單。

如果你覺得這是一個(gè)非常簡(jiǎn)單的問(wèn)題，那么你真應(yīng)該好好讀讀本文，我敢保證這個(gè)問(wèn)題絕沒(méi)有你想象的那么簡(jiǎn)單。注意，一定要完本文，否則可能會(huì)得出錯(cuò)誤的結(jié)論。閑話少說(shuō)，讓我們來(lái)看看CPU在讀寫內(nèi)存時(shí)底層究竟發(fā)生了什么。
誰(shuí)來(lái)告訴CPU讀寫內(nèi)存
我們第一個(gè)要搞清楚的問(wèn)題是：誰(shuí)來(lái)告訴CPU去讀寫內(nèi)存？答案很明顯，是程序員，更具體的是編譯器。CPU只是按照指令按部就班的執(zhí)行，機(jī)器指令從哪里來(lái)的呢？是編譯器生成的，程序員通過(guò)高級(jí)語(yǔ)言編寫程序，編譯器將其翻譯為機(jī)器指令，機(jī)器指令來(lái)告訴CPU去讀寫內(nèi)存。在精簡(jiǎn)指令集架構(gòu)下會(huì)有特定的機(jī)器指令，Load/Store指令來(lái)讀寫內(nèi)存，以x86為代表的復(fù)雜指令集架構(gòu)下沒(méi)有特定的訪存指令。精簡(jiǎn)指令集下，一條機(jī)器指令操作的數(shù)據(jù)必須來(lái)存放在寄存器中，不能直接操作內(nèi)存數(shù)據(jù)，因此RISC下，數(shù)據(jù)必須先從內(nèi)存搬運(yùn)到寄存器，這就是為什么RISC下會(huì)有特定的Load/Store訪存指令，明白了吧。字節(jié)終面：CPU?是如何讀寫內(nèi)存的？

而x86下無(wú)此限制，一條機(jī)器指令操作的數(shù)據(jù)可以來(lái)自于寄存器也可以來(lái)自內(nèi)存，因此這樣一條機(jī)器指令在執(zhí)行過(guò)程中會(huì)首先從內(nèi)存中讀取數(shù)據(jù)。關(guān)于復(fù)雜指令集以及精簡(jiǎn)指令集你可以參考這兩篇文章《CPU進(jìn)化論：復(fù)雜指令集》與《不懂精簡(jiǎn)指令集還敢說(shuō)自己是程序員？》

兩種內(nèi)存讀寫

現(xiàn)在我們知道了，是特定的機(jī)器指令告訴CPU要去訪問(wèn)內(nèi)存。不過(guò)，值得注意的是，不管是RISC下特定的Load/Store指令還是x86下包含在一條指令內(nèi)部的訪存操作，這里讀寫的都是內(nèi)存中的數(shù)據(jù)，除此之外還要意識(shí)到，CPU除了從內(nèi)存中讀寫數(shù)據(jù)外，還要從內(nèi)存中讀取下一條要執(zhí)行的機(jī)器指令。畢竟，我們的計(jì)算設(shè)備都遵從馮諾依曼架構(gòu)：程序和數(shù)據(jù)一視同仁，都可以存放在內(nèi)存中。字節(jié)終面：CPU?是如何讀寫內(nèi)存的？

現(xiàn)在，我們清楚了CPU讀寫內(nèi)存其實(shí)是由兩個(gè)因素來(lái)驅(qū)動(dòng)的：

程序執(zhí)行過(guò)程中需要讀寫來(lái)自內(nèi)存中的數(shù)據(jù)
CPU需要訪問(wèn)內(nèi)存讀取下一條要執(zhí)行的機(jī)器指令

然后CPU根據(jù)機(jī)器指令中包含的內(nèi)存地址或者PC寄存器中下一條機(jī)器指令的地址訪問(wèn)內(nèi)存。這不就完了嗎？有了內(nèi)存地址，CPU利用硬件通路直接讀內(nèi)存就好了，你可能也是這樣的想的。真的是這樣嗎？別著急，我們接著往下看，這兩節(jié)只是開胃菜，正餐才剛剛開始。

急性子吃貨 VS 慢性子廚師

假設(shè)你是一個(gè)整天無(wú)所事事的吃貨，整天無(wú)所事事，唯一的愛好就是找一家餐廳吃吃喝喝，由于你是職業(yè)吃貨，因此吃起來(lái)非常職業(yè)，1分鐘就能吃完一道菜，但這里的廚師就沒(méi)有那么職業(yè)了，炒一道菜速度非常慢，大概需要1小時(shí)40分鐘才能炒出一道菜，速度比你慢了100倍，如果你是這個(gè)吃貨，大概率會(huì)瘋掉的。而CPU恰好就是這樣一個(gè)吃貨，內(nèi)存就是這樣一個(gè)慢吞吞的廚師，而且隨著時(shí)間的推移這兩者的速度差異正在越來(lái)越大：字節(jié)終面：CPU?是如何讀寫內(nèi)存的？

在這種速度差異下，CPU執(zhí)行一條涉及內(nèi)存讀寫指令時(shí)需要等“很長(zhǎng)一段時(shí)間“數(shù)據(jù)才能”緩緩的“從內(nèi)存讀取到CPU中，在這種情況你還認(rèn)為CPU應(yīng)該直接讀寫內(nèi)存嗎？

無(wú)處不在的28定律

28定律我想就不用多介紹了吧，在《不懂精簡(jiǎn)指令集還敢說(shuō)自己是程序員》這篇文章中也介紹過(guò)，CPU執(zhí)行指令符合28定律，大部分時(shí)間都在執(zhí)行那一少部分指令，這一現(xiàn)象的發(fā)現(xiàn)奠定了精簡(jiǎn)指令集設(shè)計(jì)的基礎(chǔ)。而程序操作的數(shù)據(jù)也符合類似的定律，只不過(guò)不叫28定律，而是叫principle of locality，程序局部性原理。如果我們?cè)L問(wèn)內(nèi)存中的一個(gè)數(shù)據(jù)A，那么很有可能接下來(lái)再次訪問(wèn)到，同時(shí)還很有可能訪問(wèn)與數(shù)據(jù)A相鄰的數(shù)據(jù)B，這分別叫做時(shí)間局部性和空間局部性。字節(jié)終面：CPU?是如何讀寫內(nèi)存的？

如圖所示，該程序占據(jù)的內(nèi)存空間只有一少部分在程序執(zhí)行過(guò)程經(jīng)常用到。有了這個(gè)發(fā)現(xiàn)重點(diǎn)就來(lái)了，既然只用到很少一部分，那么我們能不能把它們集中起來(lái)呢？就像這樣：字節(jié)終面：CPU?是如何讀寫內(nèi)存的？

集中起來(lái)然后呢？放到哪里呢？當(dāng)然是放到一種比內(nèi)存速度更快的存儲(chǔ)介質(zhì)上，這種介質(zhì)就是我們熟悉的SRAM，普通內(nèi)存一般是DRAM，這種讀寫速度更快的介質(zhì)充當(dāng)CPU和內(nèi)存之間的Cache，這就是所謂的緩存。

四兩撥千斤

我們把經(jīng)常用到的數(shù)據(jù)放到cache中存儲(chǔ)，CPU訪問(wèn)內(nèi)存時(shí)首先查找cache，如果能找到，也就是命中，那么就賺到了，直接返回即可，找不到再去查找內(nèi)存并更新cache。我們可以看到，有了cache，CPU不再直接與內(nèi)存打交道了。字節(jié)終面：CPU?是如何讀寫內(nèi)存的？

但cache的快速讀寫能力是有代價(jià)的，代價(jià)就是Money，造價(jià)不菲，因此我們不能把內(nèi)存完全替換成cache的SRAM，那樣的計(jì)算機(jī)你我都是買不起的。因此cache的容量不會(huì)很大，但由于程序局部性原理，因此很小的cache也能有很高的命中率，從而帶來(lái)性能的極大提升，有個(gè)詞叫四兩撥千斤，用到cache這里再合適不過(guò)。

天下沒(méi)有免費(fèi)的午餐

雖然小小的cache能帶來(lái)性能的極大提升，但，這也是有代價(jià)的。這個(gè)代價(jià)出現(xiàn)在寫內(nèi)存時(shí)。當(dāng)CPU需要寫內(nèi)存時(shí)該怎么辦呢？現(xiàn)在有了cache，CPU不再直接與內(nèi)存打交道，因此CPU直接寫cache，但此時(shí)就會(huì)有一個(gè)問(wèn)題，那就是cache中的值更新了，但內(nèi)存中的值還是舊的，這就是所謂的不一致問(wèn)題，inconsistent.就像下圖這樣，cache中變量的值是4，但內(nèi)存中的值是2。字節(jié)終面：CPU?是如何讀寫內(nèi)存的？

同步緩存更新

常用 redis 的同學(xué)應(yīng)該很熟悉這個(gè)問(wèn)題，可是你知道嗎？這個(gè)問(wèn)題早就在你讀這篇文章用的計(jì)算設(shè)備其包含的CPU中已經(jīng)遇到并已經(jīng)解決了。最簡(jiǎn)單的方法是這樣的，當(dāng)我們更新cache時(shí)一并把內(nèi)存也更新了，這種方法被稱為 write-through，很形象吧。可是如果當(dāng)CPU寫cache時(shí)，cache中沒(méi)有相應(yīng)的內(nèi)存數(shù)據(jù)該怎么呢？這就有點(diǎn)麻煩了，首先我們需要把該數(shù)據(jù)從內(nèi)存加載到cache中，然后更新cache，再然后更新內(nèi)存。字節(jié)終面：CPU?是如何讀寫內(nèi)存的？

這種實(shí)現(xiàn)方法雖然簡(jiǎn)單，但有一個(gè)問(wèn)題，那就是性能問(wèn)題，在這種方案下寫內(nèi)存就不得不訪問(wèn)內(nèi)存，上文也提到過(guò)CPU和內(nèi)存可是有很大的速度差異哦，因此這種方案性能比較差。有辦法解決嗎？答案是肯定的。

異步更新緩存

這種方法性能差不是因?yàn)閷憙?nèi)存慢，寫內(nèi)存確實(shí)是慢，更重要的原因是CPU在同步等待，因此很自然的，這類問(wèn)題的統(tǒng)一解法就是把同步改為異步。關(guān)于同步和異步的話題，你可以參考這篇文章《從小白到高手，你需要理解同步和異步》。異步的這種方法是這樣的，當(dāng)CPU寫內(nèi)存時(shí)，直接更新cache，然后，注意，更新完cache后CPU就可以認(rèn)為寫內(nèi)存的操作已經(jīng)完成了，盡管此時(shí)內(nèi)存中保存的還是舊數(shù)據(jù)。當(dāng)包含該數(shù)據(jù)的cache塊被剔除時(shí)再更新到內(nèi)存中，這樣CPU更新cache與更新內(nèi)存就解耦了，也就是說(shuō)，CPU更新cache后不再等待內(nèi)存更新，這就是異步，這種方案也被稱之為write-back，這種方案相比write-through來(lái)說(shuō)更復(fù)雜，但很顯然，性能會(huì)更好。字節(jié)終面：CPU?是如何讀寫內(nèi)存的？

現(xiàn)在你應(yīng)該能看到，添加cache后會(huì)帶來(lái)一系列問(wèn)題，更不用說(shuō)cache的替換算法，畢竟cache的容量有限，當(dāng)cache已滿時(shí)，增加一項(xiàng)新的數(shù)據(jù)就要剔除一項(xiàng)舊的數(shù)據(jù)，那么該剔除誰(shuí)就是一個(gè)非常關(guān)鍵的問(wèn)題，限于篇幅就不在這里詳細(xì)講述了，你可以參考《深入理解操作系統(tǒng)》第7章有關(guān)于該策略的講解。

多級(jí)cache

現(xiàn)代CPU為了增加CPU讀寫內(nèi)存性能，已經(jīng)在CPU和內(nèi)存之間增加了多級(jí)cache，典型的有三級(jí)，L1、L2和L3，CPU讀內(nèi)存時(shí)首先從L1 cache找起，能找到直接返回，否則就要在L2 cache中找，L2 cache中找不到就要到L3 cache中找，還找不到就不得不訪問(wèn)內(nèi)存了。因此我們可以看到，現(xiàn)代計(jì)算機(jī)系統(tǒng)CPU和內(nèi)存之間其實(shí)是有一個(gè)cache的層級(jí)結(jié)構(gòu)的。字節(jié)終面：CPU?是如何讀寫內(nèi)存的？

越往上，存儲(chǔ)介質(zhì)速度越快，造價(jià)越高容量也越?。辉酵?，存儲(chǔ)介質(zhì)速度越慢，造價(jià)越低但容量也越大。現(xiàn)代操作系統(tǒng)巧妙的利用cache，以最小的代價(jià)獲得了最大的性能。但是，注意這里的但是，要想獲得極致性能是有前提的，那就是程序員寫的程序必須具有良好的局部性，充分利用緩存。高性能程序在充分利用緩存這一環(huán)節(jié)可謂絞盡腦汁煞費(fèi)苦心，關(guān)于這一話題值得單獨(dú)成篇，關(guān)注公眾號(hào)“碼農(nóng)的荒島求生”，并回復(fù)“todo”，你可以看到之前所有挖坑的進(jìn)展如何。鑒于cache的重要性，現(xiàn)在增大cache已經(jīng)成為提升CPU性能的重要因素，因此你去看當(dāng)今的CPU布局，其很大一部分面積都用在了cache上。字節(jié)終面：CPU?是如何讀寫內(nèi)存的？

你以為這就完了嗎？哈哈，哪有這么容易的，否則也不會(huì)是終面題目了。那么當(dāng)CPU讀寫內(nèi)存時(shí)除了面臨上述問(wèn)題外還需要處理哪些問(wèn)題呢？

多核，多問(wèn)題

當(dāng)摩爾定律漸漸失效后雞賊的人類換了另一種提高CPU性能的方法，既然單個(gè)CPU性能不好提升了，我們還可以堆數(shù)量啊，這樣，CPU進(jìn)入多核時(shí)代，程序員開始進(jìn)入苦逼時(shí)代。擁有一堆核心的CPU其實(shí)是沒(méi)什么用的，關(guān)鍵需要有配套的多線程程序才能真正發(fā)揮多核的威力，但寫過(guò)多線程程序的程序員都知道，能寫出來(lái)不容易，能寫出來(lái)并且能正確運(yùn)行更不容易，關(guān)于多線程與多線程編程的詳細(xì)闡述請(qǐng)參見《深入理解操作系統(tǒng)》第5、6兩章(關(guān)注公眾號(hào)“碼農(nóng)的荒島求生”并回復(fù)“操作系統(tǒng)”)。CPU開始擁有多個(gè)核心后不但苦逼了軟件工程師，硬件工程師也不能幸免。前文提到過(guò)，為提高CPU 訪存性能，CPU和內(nèi)存之間會(huì)有一個(gè)層cache，但當(dāng)CPU有多個(gè)核心后新的問(wèn)題來(lái)了：字節(jié)終面：CPU?是如何讀寫內(nèi)存的？

現(xiàn)在假設(shè)內(nèi)存中有一變量X，初始值為2。系統(tǒng)中有兩個(gè)CPU核心C1和C2，現(xiàn)在C1和C2要分別讀取內(nèi)存中X的值，根據(jù)cache的工作原理，首次讀取X不能命中cache，因此從內(nèi)存中讀取到X后更新相應(yīng)的cache，現(xiàn)在C1 cache和C2 cache中都有變量X了，其值都是2。接下來(lái)C1需要對(duì)X執(zhí)行 2操作，同樣根據(jù)cache的工作原理，C1從cache中拿到X的值 2后更新cache，在然后更新內(nèi)存，此時(shí)C1 cache和內(nèi)存中的X值都變?yōu)榱?。字節(jié)終面：CPU?是如何讀寫內(nèi)存的？

然后C2也許需要對(duì)X執(zhí)行加法操作，假設(shè)需要 4，同樣根據(jù)cache的工作原理，C2從cache中拿到X的值 4后更新cache，此時(shí)cache中的值變?yōu)榱?（2 4），再更新內(nèi)存，此時(shí)C2 cache和內(nèi)存中的X值都變?yōu)榱?。字節(jié)終面：CPU?是如何讀寫內(nèi)存的？

看出問(wèn)題在哪里了嗎？一個(gè)初始值為2的變量，在分別 2和 4后正確的結(jié)果應(yīng)該是2 2 4 = 8，但從上圖可以看出內(nèi)存中X的值卻為6，問(wèn)題出在哪了呢？

多核cache一致性

有的同學(xué)可能已經(jīng)發(fā)現(xiàn)了，問(wèn)題出在了內(nèi)存中一個(gè)X變量在C1和C2的cache中有共計(jì)兩個(gè)副本，當(dāng)C1更新cache時(shí)沒(méi)有同步修改C2 cache中X的值。字節(jié)終面：CPU?是如何讀寫內(nèi)存的？

解決方法是什么呢？顯然，如果一個(gè)cache中待更新的變量同樣存在于其它核心的cache，那么你需要一并將其它c(diǎn)ache也更新好。現(xiàn)在你應(yīng)該看到，CPU更新變量時(shí)不再簡(jiǎn)單的只關(guān)心自己的cache和內(nèi)存，你還需要知道這個(gè)變量是不是同樣存在于其它核心中的cache，如果存在需要一并更新。當(dāng)然，這還只是簡(jiǎn)單的讀，寫就更加復(fù)雜了，實(shí)際上，現(xiàn)代CPU中有一套協(xié)議來(lái)專門維護(hù)緩存的一致性，比較經(jīng)典的包括MESI協(xié)議等。為什么程序員需要關(guān)心這個(gè)問(wèn)題呢？原因很簡(jiǎn)單，你最好寫出對(duì)cache一致性協(xié)議友好的程序，因?yàn)閏ache頻繁維護(hù)一致性也是有性能代價(jià)的。同樣的，限于篇幅，這個(gè)話題不再詳細(xì)闡述，該主題同樣值得單獨(dú)成篇，敬請(qǐng)期待。

夠復(fù)雜了吧！

怎么樣？到目前為止，是不是CPU讀寫內(nèi)存沒(méi)有看上去那么簡(jiǎn)單？現(xiàn)代計(jì)算機(jī)中CPU和內(nèi)存之間有多級(jí)cache，CPU讀寫內(nèi)存時(shí)不但要維護(hù)cache和內(nèi)存的一致性，同樣需要維護(hù)多核間cache的一致性。字節(jié)終面：CPU?是如何讀寫內(nèi)存的？

你以為這就完了，NONO，最大的謎團(tuán)其實(shí)是接下來(lái)要講的。

你以為的不是你以為的

現(xiàn)代程序員寫程序基本上不需要關(guān)心內(nèi)存是不是足夠這個(gè)問(wèn)題，但這個(gè)問(wèn)題在遠(yuǎn)古時(shí)代絕對(duì)是困擾程序員的一大難題。如果你去想一想，其實(shí)現(xiàn)代計(jì)算機(jī)內(nèi)存也沒(méi)有足夠大的讓我們隨便申請(qǐng)的地步，但是你在寫程序時(shí)是不是基本上沒(méi)有考慮過(guò)內(nèi)存不足該怎么辦？為什么我們?cè)趦?nèi)存資源依然處于匱乏的現(xiàn)代可以做到申請(qǐng)內(nèi)存時(shí)卻進(jìn)入內(nèi)存極大豐富的共產(chǎn)主義理想社會(huì)了呢？原來(lái)這背后的功臣是我們熟悉的操作系統(tǒng)。操作系統(tǒng)對(duì)每個(gè)進(jìn)程都維護(hù)一個(gè)假象，即，每個(gè)進(jìn)程獨(dú)占系統(tǒng)內(nèi)存資源；同時(shí)給程序員一個(gè)承諾，讓程序員可以認(rèn)為在寫程序時(shí)有一大塊連續(xù)的內(nèi)存可以使用。這當(dāng)然是不可能不現(xiàn)實(shí)的，因此操作系統(tǒng)給進(jìn)程的地址空間必然不是真的，但我們又不好將其稱之為“假的地址空間”，這會(huì)讓人誤以為計(jì)算機(jī)科學(xué)界里騙子橫行，因此就換了一個(gè)好聽的名字，虛擬內(nèi)存，一個(gè)“假的地址空間”更高級(jí)的叫法。進(jìn)程其實(shí)一直活在操作系統(tǒng)精心維護(hù)的幻覺當(dāng)中，就像《盜夢(mèng)空間》一樣，關(guān)于虛擬內(nèi)存的詳盡闡述請(qǐng)參見《深入理解操作系統(tǒng)》第七章(關(guān)注公眾號(hào)“碼農(nóng)的荒島求生”并回復(fù)“操作系統(tǒng)”)。字節(jié)終面：CPU?是如何讀寫內(nèi)存的？

從這個(gè)角度看，其實(shí)最擅長(zhǎng)包裝的是計(jì)算機(jī)科學(xué)界，哦，對(duì)了，他們不但擅長(zhǎng)包裝還擅長(zhǎng)抽象。

天真的CPU

CPU真的是很傻很天真的存在。上一節(jié)講的操作系統(tǒng)施加的障眼法把CPU也蒙在鼓里。CPU執(zhí)行機(jī)器指令時(shí)，指令指示CPU從內(nèi)存地址A中取出數(shù)據(jù)，然后CPU執(zhí)行機(jī)器指令時(shí)下發(fā)命令：“給我從地址A中取出數(shù)據(jù)”，盡管真的能從地址A中取出數(shù)據(jù)，但這個(gè)地址A不是真的，不是真的，不是真的。因?yàn)檫@個(gè)地址A屬于虛擬內(nèi)存，也就是那個(gè)“假的地址空間”，現(xiàn)代CPU內(nèi)部有一個(gè)叫做MMU的模塊將這假的地址A轉(zhuǎn)換為真的地址B，將地址A轉(zhuǎn)換為真實(shí)的地址B之后才是本文之前講述的關(guān)于cache的那一部分。字節(jié)終面：CPU?是如何讀寫內(nèi)存的？

你以為這終于應(yīng)該講完了吧！NONO！CPU給出內(nèi)存地址，此后該地址被轉(zhuǎn)為真正的物理內(nèi)存地址，接下來(lái)查L(zhǎng)1 cache，L1 cache不命中查L(zhǎng)2 cache，L2 cache不命中查L(zhǎng)3 cache，L3 cache不能命中查內(nèi)存。各單位注意，各單位注意，到查內(nèi)存時(shí)還不算完，現(xiàn)在有了虛擬內(nèi)存，內(nèi)存其實(shí)也是一層cache，是磁盤的cache，也就是說(shuō)查內(nèi)存也有可能不會(huì)命中，因?yàn)閮?nèi)存中的數(shù)據(jù)可能被虛擬內(nèi)存系統(tǒng)放到磁盤中了，如果內(nèi)存也不能命中就要查磁盤。So crazy，限于篇幅這個(gè)過(guò)程不再展開，《深入理解操作系統(tǒng)》第七章有完整的講述。至此，CPU讀寫內(nèi)存時(shí)完整的過(guò)程闡述完畢。

總結(jié)

現(xiàn)在你還認(rèn)為CPU讀寫內(nèi)存非常簡(jiǎn)單嗎？這一過(guò)程涉及到的硬件以及硬件邏輯包括：L1 cache、L2 cache、L3 cache、多核緩存一致性協(xié)議、MMU、內(nèi)存、磁盤；軟件主要包括操作系統(tǒng)。這一看似簡(jiǎn)單的操作涉及幾乎所有計(jì)算機(jī)系統(tǒng)中的核心組件，需要軟件以及硬件密切配合才能完成。這個(gè)過(guò)程給程序員的啟示是：1)，現(xiàn)代計(jì)算機(jī)系統(tǒng)是非常復(fù)雜的；2),你需要寫出對(duì)cache友好的程序。

www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站