www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當(dāng)前位置:首頁 > 公眾號精選 > 架構(gòu)師社區(qū)
[導(dǎo)讀]如果你覺得這是一個非常簡單的問題,那么你真應(yīng)該好好讀讀本文,我敢保證這個問題絕沒有你想象的那么簡單。

如果你覺得這是一個非常簡單的問題,那么你真應(yīng)該好好讀讀本文,我敢保證這個問題絕沒有你想象的那么簡單注意,一定要完本文,否則可能會得出錯誤的結(jié)論。閑話少說,讓我們來看看CPU在讀寫內(nèi)存時底層究竟發(fā)生了什么。
誰來告訴CPU讀寫內(nèi)存
我們第一個要搞清楚的問題是:誰來告訴CPU去讀寫內(nèi)存?答案很明顯,是程序員,更具體的是編譯器。CPU只是按照指令按部就班的執(zhí)行,機器指令從哪里來的呢?是編譯器生成的,程序員通過高級語言編寫程序,編譯器將其翻譯為機器指令,機器指令來告訴CPU去讀寫內(nèi)存。在精簡指令集架構(gòu)下會有特定的機器指令,Load/Store指令來讀寫內(nèi)存,以x86為代表的復(fù)雜指令集架構(gòu)下沒有特定的訪存指令。精簡指令集下,一條機器指令操作的數(shù)據(jù)必須來存放在寄存器中,不能直接操作內(nèi)存數(shù)據(jù),因此RISC下,數(shù)據(jù)必須先從內(nèi)存搬運到寄存器,這就是為什么RISC下會有特定的Load/Store訪存指令,明白了吧。字節(jié)終面:CPU?是如何讀寫內(nèi)存的?而x86下無此限制,一條機器指令操作的數(shù)據(jù)可以來自于寄存器也可以來自內(nèi)存,因此這樣一條機器指令在執(zhí)行過程中會首先從內(nèi)存中讀取數(shù)據(jù)。關(guān)于復(fù)雜指令集以及精簡指令集你可以參考這兩篇文章《CPU進化論:復(fù)雜指令集》與《不懂精簡指令集還敢說自己是程序員?》
兩種內(nèi)存讀寫
現(xiàn)在我們知道了,是特定的機器指令告訴CPU要去訪問內(nèi)存。不過,值得注意的是,不管是RISC下特定的Load/Store指令還是x86下包含在一條指令內(nèi)部的訪存操作,這里讀寫的都是內(nèi)存中的數(shù)據(jù),除此之外還要意識到,CPU除了從內(nèi)存中讀寫數(shù)據(jù)外,還要從內(nèi)存中讀取下一條要執(zhí)行的機器指令。畢竟,我們的計算設(shè)備都遵從馮諾依曼架構(gòu):程序和數(shù)據(jù)一視同仁,都可以存放在內(nèi)存中字節(jié)終面:CPU?是如何讀寫內(nèi)存的?現(xiàn)在,我們清楚了CPU讀寫內(nèi)存其實是由兩個因素來驅(qū)動的:
  1. 程序執(zhí)行過程中需要讀寫來自內(nèi)存中的數(shù)據(jù)
  2. CPU需要訪問內(nèi)存讀取下一條要執(zhí)行的機器指令
然后CPU根據(jù)機器指令中包含的內(nèi)存地址或者PC寄存器中下一條機器指令的地址訪問內(nèi)存。這不就完了嗎?有了內(nèi)存地址,CPU利用硬件通路直接讀內(nèi)存就好了,你可能也是這樣的想的。真的是這樣嗎?別著急,我們接著往下看,這兩節(jié)只是開胃菜,正餐才剛剛開始。
急性子吃貨 VS 慢性子廚師
假設(shè)你是一個整天無所事事的吃貨,整天無所事事,唯一的愛好就是找一家餐廳吃吃喝喝,由于你是職業(yè)吃貨,因此吃起來非常職業(yè),1分鐘就能吃完一道菜,但這里的廚師就沒有那么職業(yè)了,炒一道菜速度非常慢,大概需要1小時40分鐘才能炒出一道菜,速度比你慢了100倍,如果你是這個吃貨,大概率會瘋掉的。而CPU恰好就是這樣一個吃貨,內(nèi)存就是這樣一個慢吞吞的廚師,而且隨著時間的推移這兩者的速度差異正在越來越大:字節(jié)終面:CPU?是如何讀寫內(nèi)存的?在這種速度差異下,CPU執(zhí)行一條涉及內(nèi)存讀寫指令時需要等“很長一段時間“數(shù)據(jù)才能”緩緩的“從內(nèi)存讀取到CPU中,在這種情況你還認(rèn)為CPU應(yīng)該直接讀寫內(nèi)存嗎
無處不在的28定律
28定律我想就不用多介紹了吧,在《不懂精簡指令集還敢說自己是程序員》這篇文章中也介紹過,CPU執(zhí)行指令符合28定律,大部分時間都在執(zhí)行那一少部分指令,這一現(xiàn)象的發(fā)現(xiàn)奠定了精簡指令集設(shè)計的基礎(chǔ)。而程序操作的數(shù)據(jù)也符合類似的定律,只不過不叫28定律,而是叫principle of locality,程序局部性原理。如果我們訪問內(nèi)存中的一個數(shù)據(jù)A,那么很有可能接下來再次訪問到,同時還很有可能訪問與數(shù)據(jù)A相鄰的數(shù)據(jù)B,這分別叫做時間局部性空間局部性。字節(jié)終面:CPU?是如何讀寫內(nèi)存的?如圖所示,該程序占據(jù)的內(nèi)存空間只有一少部分在程序執(zhí)行過程經(jīng)常用到。有了這個發(fā)現(xiàn)重點就來了,既然只用到很少一部分,那么我們能不能把它們集中起來呢?就像這樣:字節(jié)終面:CPU?是如何讀寫內(nèi)存的?集中起來然后呢?放到哪里呢?當(dāng)然是放到一種比內(nèi)存速度更快的存儲介質(zhì)上,這種介質(zhì)就是我們熟悉的SRAM,普通內(nèi)存一般是DRAM,這種讀寫速度更快的介質(zhì)充當(dāng)CPU和內(nèi)存之間的Cache,這就是所謂的緩存。
四兩撥千斤
我們把經(jīng)常用到的數(shù)據(jù)放到cache中存儲,CPU訪問內(nèi)存時首先查找cache,如果能找到,也就是命中,那么就賺到了,直接返回即可,找不到再去查找內(nèi)存并更新cache。我們可以看到,有了cache,CPU不再直接與內(nèi)存打交道了。字節(jié)終面:CPU?是如何讀寫內(nèi)存的?但cache的快速讀寫能力是有代價的,代價就是Money,造價不菲,因此我們不能把內(nèi)存完全替換成cache的SRAM,那樣的計算機你我都是買不起的。因此cache的容量不會很大,但由于程序局部性原理,因此很小的cache也能有很高的命中率,從而帶來性能的極大提升,有個詞叫四兩撥千斤,用到cache這里再合適不過。
天下沒有免費的午餐
雖然小小的cache能帶來性能的極大提升,但,這也是有代價的。這個代價出現(xiàn)在寫內(nèi)存時。當(dāng)CPU需要寫內(nèi)存時該怎么辦呢?現(xiàn)在有了cache,CPU不再直接與內(nèi)存打交道,因此CPU直接寫cache,但此時就會有一個問題,那就是cache中的值更新了,但內(nèi)存中的值還是舊的,這就是所謂的不一致問題,inconsistent.就像下圖這樣,cache中變量的值是4,但內(nèi)存中的值是2。字節(jié)終面:CPU?是如何讀寫內(nèi)存的?
同步緩存更新
常用 redis 的同學(xué)應(yīng)該很熟悉這個問題,可是你知道嗎?這個問題早就在你讀這篇文章用的計算設(shè)備其包含的CPU中已經(jīng)遇到并已經(jīng)解決了。最簡單的方法是這樣的,當(dāng)我們更新cache時一并把內(nèi)存也更新了,這種方法被稱為 write-through,很形象吧。可是如果當(dāng)CPU寫cache時,cache中沒有相應(yīng)的內(nèi)存數(shù)據(jù)該怎么呢?這就有點麻煩了,首先我們需要把該數(shù)據(jù)從內(nèi)存加載到cache中,然后更新cache,再然后更新內(nèi)存。字節(jié)終面:CPU?是如何讀寫內(nèi)存的?這種實現(xiàn)方法雖然簡單,但有一個問題,那就是性能問題,在這種方案下寫內(nèi)存就不得不訪問內(nèi)存,上文也提到過CPU和內(nèi)存可是有很大的速度差異哦,因此這種方案性能比較差。有辦法解決嗎?答案是肯定的。
異步更新緩存
這種方法性能差不是因為寫內(nèi)存慢,寫內(nèi)存確實是慢,更重要的原因是CPU在同步等待,因此很自然的,這類問題的統(tǒng)一解法就是把同步改為異步。關(guān)于同步和異步的話題,你可以參考這篇文章《從小白到高手,你需要理解同步和異步》。異步的這種方法是這樣的,當(dāng)CPU寫內(nèi)存時,直接更新cache,然后,注意,更新完cache后CPU就可以認(rèn)為寫內(nèi)存的操作已經(jīng)完成了,盡管此時內(nèi)存中保存的還是舊數(shù)據(jù)。當(dāng)包含該數(shù)據(jù)的cache塊被剔除時再更新到內(nèi)存中,這樣CPU更新cache與更新內(nèi)存就解耦了,也就是說,CPU更新cache后不再等待內(nèi)存更新,這就是異步,這種方案也被稱之為write-back,這種方案相比write-through來說更復(fù)雜,但很顯然,性能會更好。字節(jié)終面:CPU?是如何讀寫內(nèi)存的?現(xiàn)在你應(yīng)該能看到,添加cache后會帶來一系列問題,更不用說cache的替換算法,畢竟cache的容量有限,當(dāng)cache已滿時,增加一項新的數(shù)據(jù)就要剔除一項舊的數(shù)據(jù),那么該剔除誰就是一個非常關(guān)鍵的問題,限于篇幅就不在這里詳細(xì)講述了,你可以參考《深入理解操作系統(tǒng)》第7章有關(guān)于該策略的講解。
多級cache
現(xiàn)代CPU為了增加CPU讀寫內(nèi)存性能,已經(jīng)在CPU和內(nèi)存之間增加了多級cache,典型的有三級,L1、L2和L3,CPU讀內(nèi)存時首先從L1 cache找起,能找到直接返回,否則就要在L2 cache中找,L2 cache中找不到就要到L3 cache中找,還找不到就不得不訪問內(nèi)存了。因此我們可以看到,現(xiàn)代計算機系統(tǒng)CPU和內(nèi)存之間其實是有一個cache的層級結(jié)構(gòu)的。字節(jié)終面:CPU?是如何讀寫內(nèi)存的?越往上,存儲介質(zhì)速度越快,造價越高容量也越??;越往下,存儲介質(zhì)速度越慢,造價越低但容量也越大。現(xiàn)代操作系統(tǒng)巧妙的利用cache,以最小的代價獲得了最大的性能。但是,注意這里的但是,要想獲得極致性能是有前提的,那就是程序員寫的程序必須具有良好的局部性,充分利用緩存。高性能程序在充分利用緩存這一環(huán)節(jié)可謂絞盡腦汁煞費苦心,關(guān)于這一話題值得單獨成篇,關(guān)注公眾號“碼農(nóng)的荒島求生”,并回復(fù)“todo”,你可以看到之前所有挖坑的進展如何。鑒于cache的重要性,現(xiàn)在增大cache已經(jīng)成為提升CPU性能的重要因素,因此你去看當(dāng)今的CPU布局,其很大一部分面積都用在了cache上。字節(jié)終面:CPU?是如何讀寫內(nèi)存的?你以為這就完了嗎?哈哈,哪有這么容易的,否則也不會是終面題目了。那么當(dāng)CPU讀寫內(nèi)存時除了面臨上述問題外還需要處理哪些問題呢?
多核,多問題
當(dāng)摩爾定律漸漸失效后雞賊的人類換了另一種提高CPU性能的方法,既然單個CPU性能不好提升了,我們還可以堆數(shù)量啊,這樣,CPU進入多核時代,程序員開始進入苦逼時代。擁有一堆核心的CPU其實是沒什么用的,關(guān)鍵需要有配套的多線程程序才能真正發(fā)揮多核的威力,但寫過多線程程序的程序員都知道,能寫出來不容易,能寫出來并且能正確運行更不容易,關(guān)于多線程與多線程編程的詳細(xì)闡述請參見《深入理解操作系統(tǒng)》第5、6兩章(關(guān)注公眾號“碼農(nóng)的荒島求生”并回復(fù)“操作系統(tǒng)”)CPU開始擁有多個核心后不但苦逼了軟件工程師,硬件工程師也不能幸免。前文提到過,為提高CPU 訪存性能,CPU和內(nèi)存之間會有一個層cache,但當(dāng)CPU有多個核心后新的問題來了:字節(jié)終面:CPU?是如何讀寫內(nèi)存的?現(xiàn)在假設(shè)內(nèi)存中有一變量X,初始值為2。系統(tǒng)中有兩個CPU核心C1和C2,現(xiàn)在C1和C2要分別讀取內(nèi)存中X的值,根據(jù)cache的工作原理,首次讀取X不能命中cache,因此從內(nèi)存中讀取到X后更新相應(yīng)的cache,現(xiàn)在C1 cache和C2 cache中都有變量X了,其值都是2。接下來C1需要對X執(zhí)行 2操作,同樣根據(jù)cache的工作原理,C1從cache中拿到X的值 2后更新cache,在然后更新內(nèi)存,此時C1 cache和內(nèi)存中的X值都變?yōu)榱?。字節(jié)終面:CPU?是如何讀寫內(nèi)存的?然后C2也許需要對X執(zhí)行加法操作,假設(shè)需要 4,同樣根據(jù)cache的工作原理,C2從cache中拿到X的值 4后更新cache,此時cache中的值變?yōu)榱?(2 4),再更新內(nèi)存,此時C2 cache和內(nèi)存中的X值都變?yōu)榱?。字節(jié)終面:CPU?是如何讀寫內(nèi)存的?
看出問題在哪里了嗎?一個初始值為2的變量,在分別 2和 4后正確的結(jié)果應(yīng)該是2 2 4 = 8,但從上圖可以看出內(nèi)存中X的值卻為6,問題出在哪了呢?
多核cache一致性
有的同學(xué)可能已經(jīng)發(fā)現(xiàn)了,問題出在了內(nèi)存中一個X變量在C1和C2的cache中有共計兩個副本,當(dāng)C1更新cache時沒有同步修改C2 cache中X的值字節(jié)終面:CPU?是如何讀寫內(nèi)存的?解決方法是什么呢?顯然,如果一個cache中待更新的變量同樣存在于其它核心的cache,那么你需要一并將其它cache也更新好。現(xiàn)在你應(yīng)該看到,CPU更新變量時不再簡單的只關(guān)心自己的cache和內(nèi)存,你還需要知道這個變量是不是同樣存在于其它核心中的cache,如果存在需要一并更新。當(dāng)然,這還只是簡單的讀,寫就更加復(fù)雜了,實際上,現(xiàn)代CPU中有一套協(xié)議來專門維護緩存的一致性,比較經(jīng)典的包括MESI協(xié)議等。為什么程序員需要關(guān)心這個問題呢?原因很簡單,你最好寫出對cache一致性協(xié)議友好的程序,因為cache頻繁維護一致性也是有性能代價的。同樣的,限于篇幅,這個話題不再詳細(xì)闡述,該主題同樣值得單獨成篇,敬請期待。
夠復(fù)雜了吧!
怎么樣?到目前為止,是不是CPU讀寫內(nèi)存沒有看上去那么簡單?現(xiàn)代計算機中CPU和內(nèi)存之間有多級cache,CPU讀寫內(nèi)存時不但要維護cache和內(nèi)存的一致性,同樣需要維護多核間cache的一致性。字節(jié)終面:CPU?是如何讀寫內(nèi)存的?你以為這就完了,NONO,最大的謎團其實是接下來要講的。
你以為的不是你以為的
現(xiàn)代程序員寫程序基本上不需要關(guān)心內(nèi)存是不是足夠這個問題,但這個問題在遠(yuǎn)古時代絕對是困擾程序員的一大難題。如果你去想一想,其實現(xiàn)代計算機內(nèi)存也沒有足夠大的讓我們隨便申請的地步,但是你在寫程序時是不是基本上沒有考慮過內(nèi)存不足該怎么辦?為什么我們在內(nèi)存資源依然處于匱乏的現(xiàn)代可以做到申請內(nèi)存時卻進入內(nèi)存極大豐富的共產(chǎn)主義理想社會了呢?原來這背后的功臣是我們熟悉的操作系統(tǒng)操作系統(tǒng)對每個進程都維護一個假象,即,每個進程獨占系統(tǒng)內(nèi)存資源;同時給程序員一個承諾,讓程序員可以認(rèn)為在寫程序時有一大塊連續(xù)的內(nèi)存可以使用。這當(dāng)然是不可能不現(xiàn)實的,因此操作系統(tǒng)給進程的地址空間必然不是真的,但我們又不好將其稱之為“假的地址空間”,這會讓人誤以為計算機科學(xué)界里騙子橫行,因此就換了一個好聽的名字,虛擬內(nèi)存,一個“假的地址空間”更高級的叫法。進程其實一直活在操作系統(tǒng)精心維護的幻覺當(dāng)中,就像《盜夢空間》一樣,關(guān)于虛擬內(nèi)存的詳盡闡述請參見《深入理解操作系統(tǒng)》第七章(關(guān)注公眾號“碼農(nóng)的荒島求生”并回復(fù)“操作系統(tǒng)”)。字節(jié)終面:CPU?是如何讀寫內(nèi)存的?從這個角度看,其實最擅長包裝的是計算機科學(xué)界,哦,對了,他們不但擅長包裝還擅長抽象。
天真的CPU
CPU真的是很傻很天真的存在。上一節(jié)講的操作系統(tǒng)施加的障眼法把CPU也蒙在鼓里。CPU執(zhí)行機器指令時,指令指示CPU從內(nèi)存地址A中取出數(shù)據(jù),然后CPU執(zhí)行機器指令時下發(fā)命令:“給我從地址A中取出數(shù)據(jù)”,盡管真的能從地址A中取出數(shù)據(jù),但這個地址A不是真的,不是真的,不是真的。因為這個地址A屬于虛擬內(nèi)存,也就是那個“假的地址空間”,現(xiàn)代CPU內(nèi)部有一個叫做MMU的模塊將這假的地址A轉(zhuǎn)換為真的地址B,將地址A轉(zhuǎn)換為真實的地址B之后才是本文之前講述的關(guān)于cache的那一部分。字節(jié)終面:CPU?是如何讀寫內(nèi)存的?你以為這終于應(yīng)該講完了吧!NONO!CPU給出內(nèi)存地址,此后該地址被轉(zhuǎn)為真正的物理內(nèi)存地址,接下來查L1 cache,L1 cache不命中查L2 cache,L2 cache不命中查L3 cache,L3 cache不能命中查內(nèi)存。各單位注意,各單位注意,到查內(nèi)存時還不算完,現(xiàn)在有了虛擬內(nèi)存,內(nèi)存其實也是一層cache,是磁盤的cache,也就是說查內(nèi)存也有可能不會命中,因為內(nèi)存中的數(shù)據(jù)可能被虛擬內(nèi)存系統(tǒng)放到磁盤中了,如果內(nèi)存也不能命中就要查磁盤。So crazy,限于篇幅這個過程不再展開,《深入理解操作系統(tǒng)》第七章有完整的講述。至此,CPU讀寫內(nèi)存時完整的過程闡述完畢。
總結(jié)
現(xiàn)在你還認(rèn)為CPU讀寫內(nèi)存非常簡單嗎?這一過程涉及到的硬件以及硬件邏輯包括:L1 cache、L2 cache、L3 cache、多核緩存一致性協(xié)議、MMU、內(nèi)存、磁盤;軟件主要包括操作系統(tǒng)。這一看似簡單的操作涉及幾乎所有計算機系統(tǒng)中的核心組件,需要軟件以及硬件密切配合才能完成。這個過程給程序員的啟示是:1),現(xiàn)代計算機系統(tǒng)是非常復(fù)雜的;2),你需要寫出對cache友好的程序。
本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉