點(diǎn)個(gè)外賣,我把「軟中斷」搞懂了
不過,大數(shù)據(jù)殺熟早已是屢見不鮮的事情了,事實(shí)上,幾乎所有大平臺(tái)都存在這種現(xiàn)象,沒辦法,這就是真實(shí)的互聯(lián)網(wǎng)。
剎車,大數(shù)據(jù)殺熟的話題就說到這了,我們還是回歸到今日的技術(shù)主題:什么是軟中斷?。
中斷是什么?
先來看看什么是中斷?在計(jì)算機(jī)中,中斷是系統(tǒng)用來響應(yīng)硬件設(shè)備請(qǐng)求的一種機(jī)制,操作系統(tǒng)收到硬件的中斷請(qǐng)求,會(huì)打斷正在執(zhí)行的進(jìn)程,然后調(diào)用內(nèi)核中的中斷處理程序來響應(yīng)請(qǐng)求。
這樣的解釋可能過于學(xué)術(shù)了,容易云里霧里,我就舉個(gè)生活中取外賣的例子。
小林中午搬完磚,肚子餓了,點(diǎn)了份白切雞外賣,這次我?guī)чW了,沒有被某團(tuán)大數(shù)據(jù)大熟。雖然平臺(tái)上會(huì)顯示配送進(jìn)度,但是我也不能一直傻傻地盯著呀,時(shí)間很寶貴,當(dāng)然得去干別的事情,等外賣到了配送員會(huì)通過「電話」通知我,電話響了,我就會(huì)停下手中地事情,去拿外賣。
這里的打電話,其實(shí)就是對(duì)應(yīng)計(jì)算機(jī)里的中斷,沒接到電話的時(shí)候,我可以做其他的事情,只有接到了電話,也就是發(fā)生中斷,我才會(huì)停下當(dāng)前的事情,去進(jìn)行另一個(gè)事情,也就是拿外賣。
從這個(gè)例子,我們可以知道,中斷是一種異步的事件處理機(jī)制,可以提高系統(tǒng)的并發(fā)處理能力。
操作系統(tǒng)收到了中斷請(qǐng)求,會(huì)打斷其他進(jìn)程的運(yùn)行,所以中斷請(qǐng)求的響應(yīng)程序,也就是中斷處理程序,要盡可能快的執(zhí)行完,這樣可以減少對(duì)正常進(jìn)程運(yùn)行調(diào)度地影響。
而且,中斷處理程序在響應(yīng)中斷時(shí),可能還會(huì)「臨時(shí)關(guān)閉中斷」,這意味著,如果當(dāng)前中斷處理程序沒有執(zhí)行完之前,系統(tǒng)中其他的中斷請(qǐng)求都無(wú)法被響應(yīng),也就說中斷有可能會(huì)丟失,所以中斷處理程序要短且快。
還是回到外賣的例子,小林到了晚上又點(diǎn)起了外賣,這次為了犒勞自己,共點(diǎn)了兩份外賣,一份小龍蝦和一份奶茶,并且是由不同地配送員來配送,那么問題來了,當(dāng)?shù)谝环萃赓u送到時(shí),配送員給我打了長(zhǎng)長(zhǎng)的電話,說了一些雜七雜八的事情,比如給個(gè)好評(píng)等等,但如果這時(shí)另一位配送員也想給我打電話。
很明顯,這時(shí)第二位配送員因?yàn)槲以谕ㄔ捴校ㄏ喈?dāng)于關(guān)閉了中斷響應(yīng)),自然就無(wú)法打通我的電話,他可能嘗試了幾次后就走掉了(相當(dāng)于丟失了一次中斷)。
什么是軟中斷?
前面我們也提到了,中斷請(qǐng)求的處理程序應(yīng)該要短且快,這樣才能減少對(duì)正常進(jìn)程運(yùn)行調(diào)度地影響,而且中斷處理程序可能會(huì)暫時(shí)關(guān)閉中斷,這時(shí)如果中斷處理程序執(zhí)行時(shí)間過長(zhǎng),可能在還未執(zhí)行完中斷處理程序前,會(huì)丟失當(dāng)前其他設(shè)備的中斷請(qǐng)求。
那 Linux 系統(tǒng)為了解決中斷處理程序執(zhí)行過長(zhǎng)和中斷丟失的問題,將中斷過程分成了兩個(gè)階段,分別是「上半部和下半部分」。
上半部用來快速處理中斷,一般會(huì)暫時(shí)關(guān)閉中斷請(qǐng)求,主要負(fù)責(zé)處理跟硬件緊密相關(guān)或者時(shí)間敏感的事情。
下半部用來延遲處理上半部未完成的工作,一般以「內(nèi)核線程」的方式運(yùn)行。
前面的外賣例子,由于第一個(gè)配送員長(zhǎng)時(shí)間跟我通話,則導(dǎo)致第二位配送員無(wú)法撥通我的電話,其實(shí)當(dāng)我接到第一位配送員的電話,可以告訴配送員說我現(xiàn)在下樓,剩下的事情,等我們見面再說(上半部),然后就可以掛斷電話,到樓下后,在拿外賣,以及跟配送員說其他的事情(下半部)。
這樣,第一位配送員就不會(huì)占用我手機(jī)太多時(shí)間,當(dāng)?shù)诙慌渌蛦T正好過來時(shí),會(huì)有很大幾率撥通我的電話。
再舉一個(gè)計(jì)算機(jī)中的例子,常見的網(wǎng)卡接收網(wǎng)絡(luò)包的例子。
網(wǎng)卡收到網(wǎng)絡(luò)包后,會(huì)通過硬件中斷通知內(nèi)核有新的數(shù)據(jù)到了,于是內(nèi)核就會(huì)調(diào)用對(duì)應(yīng)的中斷處理程序來響應(yīng)該事件,這個(gè)事件的處理也是會(huì)分成上半部和下半部。
上部分要做到快速處理,所以只要把網(wǎng)卡的數(shù)據(jù)讀到內(nèi)存中,然后更新一下硬件寄存器的狀態(tài),比如把狀態(tài)更新為表示數(shù)據(jù)已經(jīng)讀到內(nèi)存中的狀態(tài)值。
接著,內(nèi)核會(huì)觸發(fā)一個(gè)軟中斷,把一些處理比較耗時(shí)且復(fù)雜的事情,交給「軟中斷處理程序」去做,也就是中斷的下半部,其主要是需要從內(nèi)存中找到網(wǎng)絡(luò)數(shù)據(jù),再按照網(wǎng)絡(luò)協(xié)議棧,對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行逐層解析和處理,最后把數(shù)據(jù)送給應(yīng)用程序。
所以,中斷處理程序的上部分和下半部可以理解為:
上半部直接處理硬件請(qǐng)求,也就是硬中斷,主要是負(fù)責(zé)耗時(shí)短的工作,特點(diǎn)是快速執(zhí)行;
下半部是由內(nèi)核觸發(fā),也就說軟中斷,主要是負(fù)責(zé)上半部未完成的工作,通常都是耗時(shí)比較長(zhǎng)的事情,特點(diǎn)是延遲執(zhí)行;
還有一個(gè)區(qū)別,硬中斷(上半部)是會(huì)打斷 CPU 正在執(zhí)行的任務(wù),然后立即執(zhí)行中斷處理程序,而軟中斷(下半部)是以內(nèi)核線程的方式執(zhí)行,并且每一個(gè) CPU 都對(duì)應(yīng)一個(gè)軟中斷內(nèi)核線程,名字通常為「ksoftirqd/CPU 編號(hào)」,比如 0 號(hào) CPU 對(duì)應(yīng)的軟中斷內(nèi)核線程的名字是 ksoftirqd/0
不過,軟中斷不只是包括硬件設(shè)備中斷處理程序的下半部,一些內(nèi)核自定義事件也屬于軟中斷,比如內(nèi)核調(diào)度等、RCU 鎖(內(nèi)核里常用的一種鎖)等。
系統(tǒng)里有哪些軟中斷?
在 Linux 系統(tǒng)里,我們可以通過查看 /proc/softirqs
的 內(nèi)容來知曉「軟中斷」的運(yùn)行情況,以及 /proc/interrupts
的 內(nèi)容來知曉「硬中斷」的運(yùn)行情況。
接下來,就來簡(jiǎn)單的解析下 ?/proc/softirqs
文件的內(nèi)容,在我服務(wù)器上查看到的文件內(nèi)容如下:
你可以看到,每一個(gè) CPU 都有自己對(duì)應(yīng)的不同類型軟中斷的累計(jì)運(yùn)行次數(shù),有 3 點(diǎn)需要注意下。
第一點(diǎn),要注意第一列的內(nèi)容,它是代表著軟中斷的類型,在我的系統(tǒng)里,軟中斷包括了 10 個(gè)類型,分別對(duì)應(yīng)不同的工作類型,比如 NET_TX
表示網(wǎng)絡(luò)接收中斷,NET_RX
表示網(wǎng)絡(luò)發(fā)送中斷、TIMER
表示定時(shí)中斷、RCU
表示 RCU 鎖中斷、SCHED
表示內(nèi)核調(diào)度中斷。
第二點(diǎn),要注意同一種類型的軟中斷在不同 CPU 的分布情況,正常情況下,同一種中斷在不同 CPU 上的累計(jì)次數(shù)相差不多,比如我的系統(tǒng)里,NET_RX
在 CPU0 、CPU1、CPU2、CPU3 上的中斷次數(shù)基本是同一個(gè)數(shù)量級(jí),相差不多。
第三點(diǎn),這些數(shù)值是系統(tǒng)運(yùn)行以來的累計(jì)中斷次數(shù),數(shù)值的大小沒什么參考意義,但是系統(tǒng)的中斷次數(shù)的變化速率才是我們要關(guān)注的,我們可以使用 watch -d cat /proc/softirqs
命令查看中斷次數(shù)的變化速率。
前面提到過,軟中斷是以內(nèi)核線程的方式執(zhí)行的,我們可以用 ps
命令可以查看到,下面這個(gè)就是在我的服務(wù)器上查到軟中斷內(nèi)核線程的結(jié)果:
可以發(fā)現(xiàn),內(nèi)核線程的名字外面都有有中括號(hào),這說明 ps 無(wú)法獲取它們的命令行參數(shù),所以一般來說,名字在中括號(hào)里到,都可以認(rèn)為是內(nèi)核線程。
而且,你可以看到有 4 個(gè) ksoftirqd
內(nèi)核線程,這是因?yàn)槲疫@臺(tái)服務(wù)器的 CPU 是 4 核心的,每個(gè) CPU 核心都對(duì)應(yīng)著一個(gè)內(nèi)核線程。
如何定位軟中斷 CPU 使用率過高的問題?
要想知道當(dāng)前的系統(tǒng)的軟中斷情況,我們可以使用 top
命令查看,下面是一臺(tái)服務(wù)器上的 top 的數(shù)據(jù):
上圖中的黃色部分 si
,就是 CPU 在軟中斷上的使用率,而且可以發(fā)現(xiàn),每個(gè) CPU 使用率都不高,兩個(gè) CPU 的使用率雖然只有 3% 和 4% 左右,但是都是用在軟中斷上了。
另外,也可以看到 CPU 使用率最高的進(jìn)程也是軟中斷 ksoftirqd
,因此可以認(rèn)為此時(shí)系統(tǒng)的開銷主要來源于軟中斷。
如果要知道是哪種軟中斷類型導(dǎo)致的,我們可以使用 watch -d cat /proc/softirqs
命令查看每個(gè)軟中斷類型的中斷次數(shù)的變化速率。
一般對(duì)于網(wǎng)絡(luò) I/O 比較高的 Web 服務(wù)器,NET_RX
網(wǎng)絡(luò)接收中斷的變化速率相比其他中斷類型快很多。
如果發(fā)現(xiàn) NET_RX
網(wǎng)絡(luò)接收中斷次數(shù)的變化速率過快,接下里就可以使用 sar -n DEV
查看網(wǎng)卡的網(wǎng)絡(luò)包接收速率情況,然后分析是哪個(gè)網(wǎng)卡有大量的網(wǎng)絡(luò)包進(jìn)來。
接著,在通過 tcpdump
抓包,分析這些包的來源,如果是非法的地址,可以考慮加防火墻,如果是正常流量,則要考慮硬件升級(jí)等。
總結(jié)
為了避免由于中斷處理程序執(zhí)行時(shí)間過長(zhǎng),而影響正常進(jìn)程的調(diào)度,Linux 將中斷處理程序分為上半部和下半部:
上半部,對(duì)應(yīng)硬中斷,由硬件觸發(fā)中斷,用來快速處理中斷;
下半部,對(duì)應(yīng)軟中斷,由內(nèi)核觸發(fā)中斷,用來異步處理上半部未完成的工作;
Linux 中的軟中斷包括網(wǎng)絡(luò)收發(fā)、定時(shí)、調(diào)度、RCU 鎖等各種類型,可以通過查看 /proc/softirqs 來觀察軟中斷的累計(jì)中斷次數(shù)情況,如果要實(shí)時(shí)查看中斷次數(shù)的變化率,可以使用 watch -d cat /proc/softirqs 命令。
每一個(gè) CPU 都有各自的軟中斷內(nèi)核線程,我們還可以用 ps 命令來查看內(nèi)核線程,一般名字在中括號(hào)里面到,都認(rèn)為是內(nèi)核線程。
如果在 top 命令發(fā)現(xiàn),CPU 在軟中斷上的使用率比較高,而且 CPU 使用率最高的進(jìn)程也是軟中斷 ksoftirqd 的時(shí)候,這種一般可以認(rèn)為系統(tǒng)的開銷被軟中斷占據(jù)了。
這時(shí)我們就可以分析是哪種軟中斷類型導(dǎo)致的,一般來說都是因?yàn)榫W(wǎng)絡(luò)接收軟中斷導(dǎo)致的,如果是的話,可以用 sar 命令查看是哪個(gè)網(wǎng)卡的有大量的網(wǎng)絡(luò)包接收,再用 tcpdump 抓網(wǎng)絡(luò)包,做進(jìn)一步分析該網(wǎng)絡(luò)包的源頭是不是非法地址,如果是就需要考慮防火墻增加規(guī)則,如果不是,則考慮硬件升級(jí)等。
推薦閱讀
帶寬、延時(shí)、吞吐率、PPS 這些都是啥?
你不好奇 Linux 是如何收發(fā)網(wǎng)絡(luò)包的?
免責(zé)聲明:本文內(nèi)容由21ic獲得授權(quán)后發(fā)布,版權(quán)歸原作者所有,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。文章僅代表作者個(gè)人觀點(diǎn),不代表本平臺(tái)立場(chǎng),如有問題,請(qǐng)聯(lián)系我們,謝謝!