[導(dǎo)讀]作者簡介???王柏生??資深技術(shù)專家,先后就職于中科院軟件所、紅旗Linux和百度,現(xiàn)任百度主任架構(gòu)師。在操作系統(tǒng)、虛擬化技術(shù)、分布式系統(tǒng)、云計算、自動駕駛等相關(guān)領(lǐng)域耕耘多年,有著豐富的實踐經(jīng)驗。著有暢銷書《深度探索Linux操作系統(tǒng)》(2013年出版)。謝廣軍??計算機(jī)專業(yè)博士...
作者簡介
王柏生 資深技術(shù)專家,先后就職于中科院軟件所、紅旗Linux和百度,現(xiàn)任百度主任架構(gòu)師。在操作系統(tǒng)、虛擬化技術(shù)、分布式系統(tǒng)、云計算、自動駕駛等相關(guān)領(lǐng)域耕耘多年,有著豐富的實踐經(jīng)驗。著有暢銷書《深度探索Linux操作系統(tǒng)》(2013年出版)。
謝廣軍 計算機(jī)專業(yè)博士,畢業(yè)于南開大學(xué)計算機(jī)系。資深技術(shù)專家,多年的IT行業(yè)工作經(jīng)驗?,F(xiàn)擔(dān)任百度智能云副總經(jīng)理,負(fù)責(zé)云計算相關(guān)產(chǎn)品的研發(fā)。多年來一直從事操作系統(tǒng)、虛擬化技術(shù)、分布式系統(tǒng)、大數(shù)據(jù)、云計算等相關(guān)領(lǐng)域的研發(fā)工作,實踐經(jīng)驗豐富。
本文內(nèi)容節(jié)選自《深度探索Linux虛擬化技術(shù)》,已獲得機(jī)械工業(yè)出版社華章公司授權(quán)。
歡迎讀者文末留言,閱碼場和機(jī)械工業(yè)出版社華章公司將為每位精彩留言獲獎用戶奉送該書一本。
中斷是計算機(jī)系統(tǒng)中非常重要的部分,計算機(jī)基礎(chǔ)理論書籍往往也會花上很多篇幅討論中斷,但是因為操作系統(tǒng)都替開發(fā)人員處理好中斷了,所以除非是系統(tǒng)工程師,否則一般開發(fā)人員對中斷很難有一個很直觀的認(rèn)識,因此理解如何通過軟件的方式來模擬中斷更是一個挑戰(zhàn)。
因此,在本章中,我們簡單介紹硬件中斷的基本原理,然后結(jié)合中斷的基本原理討論如何虛擬化中斷芯片。我們從起初IBM PC為單核系統(tǒng)設(shè)計的PIC(8259A)機(jī)制開始,討論到為多核系統(tǒng)設(shè)計的APIC,一直到繞開I/O APIC、從設(shè)備直接向LAPIC發(fā)送基于消息的MSI機(jī)制。
中斷芯片可以在用戶空間中模擬,也可以在內(nèi)核空間模擬,但是因為中斷芯片需要密集地和Guest以及內(nèi)核中的KVM模塊交互,顯然在內(nèi)核空間模擬更合理,所以KVM在內(nèi)核中實現(xiàn)中斷芯片的模擬。最后,我們討論了為了提高效率,Intel是如何從硬件層面對虛擬化中斷進(jìn)行支持的,以及KVM是如何使用他們的。
虛擬中斷
在探討Guest模式的CPU處理中斷前,我們首先回顧一下物理CPU是如何響應(yīng)中斷的。當(dāng)操作系統(tǒng)允許CPU響應(yīng)中斷后,每當(dāng)執(zhí)行完一條指令后,CPU都將檢查中斷引腳是否有效,一旦有效,CPU將處理中斷,然后再執(zhí)行下一條指令,如圖3-1所示。
圖1 CPU處理中斷
當(dāng)有中斷需要CPU處理時,中斷芯片將有效連接CPU的INTR引腳,也就是說如果INTR是高電平有效,那么中斷芯片拉高INTR引腳的電平。CPU在執(zhí)行完一條指令后,將檢查INTR引腳。類似的,虛擬中斷也效仿這種機(jī)制,虛擬中斷芯片負(fù)責(zé)將與CPU的INTR引腳相連的“引腳”有效,然后在每次VM entry時,KVM將檢查虛擬中端芯片的INTR“引腳”是否有效。對于軟件虛擬的中斷芯片而言,“引腳”只是一個變量。如果KVM發(fā)現(xiàn)虛擬中斷芯片有中斷請求,則向VMCS中VM-entry control部分的VM-entry interruption-informationfield字段注入中斷信息,然后Guest模式下的CPU將執(zhí)行Guest系統(tǒng)IDT中對應(yīng)的中斷處理服務(wù),圖3-2為單核系統(tǒng)使用PIC中斷芯片下的虛擬中斷過程。
圖2 基于PIC的虛擬中斷過程
具體步驟如下:
1)虛擬設(shè)備向虛擬中斷芯片PIC發(fā)送中斷請求,虛擬PIC記錄下虛擬設(shè)備的中斷信息。與物理的中斷過程不同,此時并不會觸發(fā)虛擬PIC芯片的中斷評估邏輯,而是在VM entry時進(jìn)行。
2)如果虛擬CPU處于睡眠狀態(tài),則喚醒虛擬CPU,即使虛擬CPU對應(yīng)的線程進(jìn)入物理CPU的就緒任務(wù)隊列,隨時可以準(zhǔn)備得到運(yùn)行機(jī)會。
3)當(dāng)虛擬CPU開始運(yùn)行時,在其切入Guest前一刻,KVM模塊將檢查虛擬PIC芯片,查看是否有中斷需要處理。此時,KVM將觸發(fā)虛擬PIC芯片的中斷評估邏輯。
4)一旦虛擬中斷芯片計算出有需要Guest處理的中斷,則將中斷信息注入到VMCS中的字段VM-entry interruption-information。
5)進(jìn)入Guest模式后,CPU將調(diào)用Guest IDT中相應(yīng)的中斷服務(wù)處理中斷。
PIC只能支持單處理器系統(tǒng),對于多處理器系統(tǒng),需要APIC支持。對于虛擬化而言,顯然也需要虛擬相應(yīng)的APIC,但是其本質(zhì)上與PIC基本相同,如圖3-3所示。
圖3 基于APIC的虛擬中斷過程
與單處理器情況相比,多處理器的虛擬中斷主要有2點不同:
1)在多處理器系統(tǒng)下,不同CPU之間需要收發(fā)中斷,因此,每個CPU分別需要關(guān)聯(lián)一個獨立的中斷芯片,這個中斷芯片稱為LAPIC。LAPIC不僅需要接收CPU之間核間中斷IPI(Inter-Processor Interrupt),還需要接收來自外設(shè)的中斷。外設(shè)的中斷引腳不可能連接到每個LAPIC上,因此,有一個統(tǒng)一的I/O APIC芯片負(fù)責(zé)連接外設(shè),如果一個I/O APIC引腳不夠用,系統(tǒng)中可以使用多個I/O APIC。LAPIC和I/O APIC都接到中斷總線上,通過總線進(jìn)行通信。所以在虛擬化場景下,需要虛擬LAPIC和I/O APIC兩個組件。
2)在多處理器情況下,僅僅是喚醒可能在睡眠的虛擬CPU線程還不夠,如果虛擬CPU是在另外一顆物理CPU上運(yùn)行于Guest模式,此時還需要向其發(fā)送IPI中斷,使目的CPU從Guest模式退出到Host模式,然后下一次VM entry時,進(jìn)行中斷注入。
Guest模式的CPU和虛擬中斷芯片處于兩個世界,所以處于Guest模式的CPU不能檢查虛擬中斷芯片的引腳,只能在VM entry時由KVM模塊代為檢查,然后寫入到VMCS。所以,一旦有中斷需要注入,那么處于Guest模式的CPU一定需要VM exit,退出到Host模式,這是一個很大的開銷。
為了去除VM exit這個開銷,Intel在硬件層面對中斷虛擬化進(jìn)行了支持。LAPIC使用一個頁面大小內(nèi)存存儲寄存器,我們知道,當(dāng)Guest訪問LAPIC這些寄存器時,將導(dǎo)致VM exit,但是事實上,某些訪問LAPIC的這些寄存器,并不需要VMM介入,所以也就無需VM exit,所以Intel實現(xiàn)了一個處于Guest模式的這樣的一個頁面,稱之為virtual-APIC page。除次之外,Intel還在Guest模式下實現(xiàn)了部分中斷芯片的邏輯,比如中斷評估,我們將其稱之為虛擬中斷邏輯,如圖4所示。
圖4 硬件虛擬化支持下的中斷虛擬化過程
Intel從硬件層面對虛擬化進(jìn)行了支持,實現(xiàn)了一個處于Guest模式的用于存儲中斷相關(guān)寄存器的virtual-APIC page。除次之外,Intel還在Guest模式下實現(xiàn)了部分中斷芯片的邏輯,用于中斷評估和遞交。
在此情況下,只要LAPIC收到中斷,其不必再等待下一次VM entry時,被動執(zhí)行中斷評估,而是主動向處于Guest模式的CPU告知信息,這個位置就是posted-interrupt descriptor。如果目標(biāo)CPU處于Guest模式,則通過一個特殊的核間中斷posted-interrupt notification通知目標(biāo)CPU,從而觸發(fā)虛擬的中斷邏輯,其會在Guest模式下進(jìn)行評估評估并且向虛擬CPU遞交中斷,而無須再通過VM exit/VM entry的方式注入中斷。
在硬件虛擬化的支持下,在Guest模式下有了狀態(tài)和邏輯,就可以模擬很多中斷的行為,比如訪問中斷寄存器、跟蹤中斷的狀態(tài)以及向CPU遞交中斷等。因此,很多中斷行為就無須VMM介入了,從而大大的減少了VM exit的次數(shù)。當(dāng)然有些寫中斷寄存器的操作是具有副作用的,比如通過寫icr寄存器發(fā)送IPI中斷,這時就需要觸發(fā)VM exit,由本地LAPIC向目標(biāo)LAPIC發(fā)送IPI中斷。
本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。
關(guān)鍵字:
阿維塔
塞力斯
華為
加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...
關(guān)鍵字:
AWS
AN
BSP
數(shù)字化
倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...
關(guān)鍵字:
汽車
人工智能
智能驅(qū)動
BSP
北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...
關(guān)鍵字:
亞馬遜
解密
控制平面
BSP
8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。
關(guān)鍵字:
騰訊
編碼器
CPU
8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。
關(guān)鍵字:
華為
12nm
EDA
半導(dǎo)體
8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。
關(guān)鍵字:
華為
12nm
手機(jī)
衛(wèi)星通信
要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...
關(guān)鍵字:
通信
BSP
電信運(yùn)營商
數(shù)字經(jīng)濟(jì)
北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...
關(guān)鍵字:
VI
傳輸協(xié)議
音頻
BSP
北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...
關(guān)鍵字:
BSP
信息技術(shù)
山海路引?嵐悅新程 三亞2024年8月27日 /美通社/ --?近日,海南地區(qū)六家凱悅系酒店與中國高端新能源車企嵐圖汽車(VOYAH)正式達(dá)成戰(zhàn)略合作協(xié)議。這一合作標(biāo)志著兩大品牌在高端出行體驗和環(huán)保理念上的深度融合,將...
關(guān)鍵字:
新能源
BSP
PLAYER
ASIA
上海2024年8月28日 /美通社/ -- 8月26日至8月28日,AHN LAN安嵐與股神巴菲特的孫女妮可?巴菲特共同開啟了一場自然和藝術(shù)的療愈之旅。 妮可·巴菲特在療愈之旅活動現(xiàn)場合影 ...
關(guān)鍵字:
MIDDOT
BSP
LAN
SPI
8月29日消息,近日,華為董事、質(zhì)量流程IT總裁陶景文在中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式上表示,中國科技企業(yè)不應(yīng)怕美國對其封鎖。
關(guān)鍵字:
華為
12nm
EDA
半導(dǎo)體
上海2024年8月26日 /美通社/ -- 近日,全球領(lǐng)先的消費(fèi)者研究與零售監(jiān)測公司尼爾森IQ(NielsenIQ)迎來進(jìn)入中國市場四十周年的重要里程碑,正式翻開在華發(fā)展新篇章。自改革開放以來,中國市場不斷展現(xiàn)出前所未有...
關(guān)鍵字:
BSP
NI
SE
TRACE
上海2024年8月26日 /美通社/ -- 第二十二屆跨盈年度B2B營銷高管峰會(CC2025)將于2025年1月15-17日在上海舉辦,本次峰會早鳥票注冊通道開啟,截止時間10月11日。 了解更多會議信息:cc.co...
關(guān)鍵字:
BSP
COM
AI
INDEX
上海2024年8月26日 /美通社/ -- 今日,高端全合成潤滑油品牌美孚1號攜手品牌體驗官周冠宇,開啟全新旅程,助力廣大車主通過駕駛?cè)ヌ剿鞲鼜V闊的世界。在全新發(fā)布的品牌視頻中,周冠宇及不同背景的消費(fèi)者表達(dá)了對駕駛的熱愛...
關(guān)鍵字:
BSP
汽車制造
此次發(fā)布標(biāo)志著Cision首次為亞太市場量身定制全方位的媒體監(jiān)測服務(wù)。 芝加哥2024年8月27日 /美通社/ -- 消費(fèi)者和媒體情報、互動及傳播解決方案的全球領(lǐng)導(dǎo)者Cis...
關(guān)鍵字:
CIS
IO
SI
BSP
上海2024年8月27日 /美通社/ -- 近來,具有強(qiáng)大學(xué)習(xí)、理解和多模態(tài)處理能力的大模型迅猛發(fā)展,正在給人類的生產(chǎn)、生活帶來革命性的變化。在這一變革浪潮中,物聯(lián)網(wǎng)成為了大模型技術(shù)發(fā)揮作用的重要陣地。 作為全球領(lǐng)先的...
關(guān)鍵字:
模型
移遠(yuǎn)通信
BSP
高通
北京2024年8月27日 /美通社/ -- 高途教育科技公司(紐約證券交易所股票代碼:GOTU)("高途"或"公司"),一家技術(shù)驅(qū)動的在線直播大班培訓(xùn)機(jī)構(gòu),今日發(fā)布截至2024年6月30日第二季度未經(jīng)審計財務(wù)報告。 2...
關(guān)鍵字:
BSP
電話會議
COM
TE
8月26日消息,華為公司最近正式啟動了“華為AI百校計劃”,向國內(nèi)高校提供基于昇騰云服務(wù)的AI計算資源。
關(guān)鍵字:
華為
12nm
EDA
半導(dǎo)體