過(guò)載保護(hù)器原理
掃描二維碼
隨時(shí)隨地手機(jī)看文章
最近我們組自己開發(fā)了一個(gè)過(guò)載保護(hù)服務(wù),用來(lái)解決服務(wù)或者站點(diǎn)過(guò)載導(dǎo)致系統(tǒng)雪崩的問題,最近看了下底層實(shí)現(xiàn),還是很有參考意義的,接下來(lái)介紹下過(guò)載保護(hù)的功能和原理。
一.過(guò)載保護(hù)的作用
我們這里開發(fā)的過(guò)載保護(hù)的主要目的是:避免服務(wù)中的某個(gè)接口調(diào)用堆積導(dǎo)致的整個(gè)服務(wù)不可用,這里調(diào)用堆積的原因可能有兩個(gè)
1.某個(gè)接口的訪問量突然增大,達(dá)到了平時(shí)高峰調(diào)用量的幾倍乃至幾十倍。產(chǎn)生的原因可能為產(chǎn)品加了個(gè)類似于秒殺活動(dòng)的需求,在秒殺的一瞬間接口調(diào)用量激增。
2.由于某次上線對(duì)接口進(jìn)行了改動(dòng),導(dǎo)致接口的執(zhí)行時(shí)間從之前的10ms變成了50ms,雖然50ms的執(zhí)行時(shí)間也算正常,但是如果某個(gè)調(diào)用方訪問當(dāng)前接口的量達(dá)到50次/秒,就會(huì)導(dǎo)致請(qǐng)求的堆積,因?yàn)楫?dāng)前服務(wù)接口只能支持20次/秒的調(diào)用。
我們知道,接口的每次調(diào)用一般都會(huì)是一個(gè)線程來(lái)處理,如果某個(gè)接口的調(diào)用激增或者因耗時(shí)較長(zhǎng)導(dǎo)致阻塞,就會(huì)產(chǎn)生堆積,導(dǎo)致其他接口的請(qǐng)求也會(huì)隨著堆積,影響了其他接口的正常調(diào)用,最后導(dǎo)致整個(gè)服務(wù)掛掉,這種情況是不可接受的。
舉個(gè)例子,現(xiàn)在有一個(gè)接口A在調(diào)用別人的服務(wù)A,這個(gè)服務(wù)A由于自身原因訪問全部超時(shí)了,那么這個(gè)接口A就會(huì)響應(yīng)超時(shí),如果調(diào)用方大量調(diào)用這個(gè)接口A,就會(huì)產(chǎn)生請(qǐng)求堆積,這時(shí)即使我們接口B(調(diào)用了服務(wù)B)的狀態(tài)是正常的,也會(huì)受接口A超時(shí)的影響,最后導(dǎo)致整個(gè)服務(wù)不可用。
綜上,我們的過(guò)載保護(hù)系統(tǒng)就是為了防止某個(gè)服務(wù)掛掉或者大量超時(shí)產(chǎn)生請(qǐng)求堆積,影響整個(gè)系統(tǒng)的產(chǎn)物。這在我們的代理服務(wù)(封裝了大量別人的服務(wù))里顯得格外重要,因?yàn)榇矸?wù)里封裝了大量別人的服務(wù),不能因?yàn)槟骋粋€(gè)服務(wù)異常導(dǎo)致整個(gè)代理服務(wù)掛掉,影響了我們整個(gè)系統(tǒng)。
二.過(guò)載保護(hù)的實(shí)現(xiàn)原理
實(shí)現(xiàn)一個(gè)過(guò)載保護(hù),主要是限制下當(dāng)前接口的調(diào)用次數(shù),即同一時(shí)刻,當(dāng)前接口最大調(diào)用次數(shù)為N(N為我們自己設(shè)置的值),保證接口在同一時(shí)刻最大調(diào)用次數(shù)不超過(guò)N來(lái)實(shí)現(xiàn)過(guò)載保護(hù)。比如接口A大量超時(shí)導(dǎo)致請(qǐng)求堆積,但是由于我們加了過(guò)載保護(hù),那么同一時(shí)刻最多只會(huì)有N個(gè)請(qǐng)求調(diào)用接口A,其他的請(qǐng)求我們將它拋棄掉,從而達(dá)到保護(hù)整個(gè)系統(tǒng)的作用。下面簡(jiǎn)單介紹下過(guò)載保護(hù)的實(shí)現(xiàn)原理
我們對(duì)加上了過(guò)載保護(hù)的接口都使用一個(gè)唯一標(biāo)識(shí)作為key,可以簡(jiǎn)單理解為類名+方法名作為key(重載的先不考慮),這樣每個(gè)接口都有一個(gè)唯一的標(biāo)識(shí),我們使用一個(gè)變量count記錄每個(gè)接口當(dāng)前調(diào)用次數(shù),和方法的唯一標(biāo)識(shí)存到Map中。每次調(diào)用這個(gè)接口的時(shí)候,我們執(zhí)行count+1,接口執(zhí)行完之后執(zhí)行count-1操作,以此來(lái)限制同一時(shí)刻當(dāng)前接口的最大調(diào)用次數(shù)。這里我們可以使用一個(gè)代理或者攔截器來(lái)實(shí)現(xiàn)過(guò)載保護(hù)的功能,我們組開發(fā)的過(guò)載保護(hù)使用的是攔截器方式(并不一定是最好的),在每個(gè)需要過(guò)載保護(hù)的接口調(diào)用前后加上一個(gè)攔截器,前置攔截器負(fù)責(zé)對(duì)當(dāng)前接口key的count+1,后置攔截器對(duì)count-1,實(shí)現(xiàn)原理其實(shí)就這么簡(jiǎn)單。
如果當(dāng)前接口的調(diào)用次數(shù)超過(guò)最大調(diào)用次數(shù)(擴(kuò)容之后的),那么在前置攔截器里直接拋出異常,超過(guò)過(guò)載保護(hù)限制,請(qǐng)求被拒絕。
具體實(shí)現(xiàn)上,我們使用了一個(gè)隊(duì)列來(lái)實(shí)現(xiàn)過(guò)載保護(hù),每次前置攔截的時(shí)候,我們?nèi)腙?duì)一個(gè)對(duì)象,對(duì)象包括當(dāng)前時(shí)間(用來(lái)做一些超時(shí)判斷),線程id等數(shù)據(jù),后置攔截的時(shí)候執(zhí)行出隊(duì)操作,以此來(lái)實(shí)現(xiàn)count+1,-1的功能。
三.需要關(guān)注的問題
1.需要支持自動(dòng)擴(kuò)容,加入當(dāng)前系統(tǒng)負(fù)載正常,各方面指標(biāo)也正常,由于重啟服務(wù)導(dǎo)致小量接口請(qǐng)求的堆積,而不是大量出現(xiàn)超時(shí)堆積的時(shí)候,我們應(yīng)該支持這部分小量堆積的調(diào)用,而不是超過(guò)一點(diǎn)就拋棄,這里可以使用自動(dòng)擴(kuò)容機(jī)制,當(dāng)發(fā)現(xiàn)請(qǐng)求數(shù)量達(dá)到最大限制N時(shí),我們對(duì)N進(jìn)行擴(kuò)容,例如N*2,就可以處理那小部分對(duì)接的請(qǐng)求了,但是擴(kuò)容需要有個(gè)上線,我們開發(fā)的是不能超過(guò)初始設(shè)置N的4倍,目前來(lái)看沒有攔截掉正常堆積的請(qǐng)求,當(dāng)出現(xiàn)大量超時(shí)時(shí)仍能起到過(guò)載保護(hù)的限制作用。
2.需要保證每個(gè)接口調(diào)用前"接口調(diào)用次數(shù)"+1,接口調(diào)用后"接口調(diào)用次數(shù)"-1的操作正確執(zhí)行,否則會(huì)導(dǎo)致資源被浪費(fèi),即當(dāng)前系統(tǒng)狀態(tài)應(yīng)該允許接口被執(zhí)行卻誤觸了過(guò)載保護(hù)機(jī)制,同時(shí)還要在丟棄前對(duì)count進(jìn)行校驗(yàn),比如當(dāng)前count是否準(zhǔn)確,是否存在接口已經(jīng)執(zhí)行結(jié)束,但是count沒有-1的情況。
這就是我們?yōu)槭裁词褂藐?duì)列的一個(gè)原因之一,我們?cè)诿看蝸G棄請(qǐng)求之前,會(huì)校驗(yàn)下隊(duì)列的頭節(jié)點(diǎn)是否有效,是否超時(shí)等操作,如果頭結(jié)點(diǎn)有異常,我們會(huì)丟棄頭結(jié)點(diǎn),請(qǐng)求繼續(xù)入隊(duì),這樣解決了如果有接口執(zhí)行完,卻沒有執(zhí)行出隊(duì)時(shí)候的問題。
3.此外,我們還做了一些系統(tǒng)監(jiān)控方面的工作,如果某個(gè)接口請(qǐng)求時(shí)間過(guò)長(zhǎng),我們會(huì)從隊(duì)里獲取線程id,打印出線程的信息到日志中。同時(shí)我們還監(jiān)控了CPU,內(nèi)存等核心數(shù)據(jù),當(dāng)發(fā)現(xiàn)CPU,內(nèi)存等資源緊張的時(shí)候,我們不允許自動(dòng)擴(kuò)容,從而保護(hù)我們的系統(tǒng)。
四.過(guò)載保護(hù)可能帶來(lái)的問題
性能消耗,前置后置攔截器,計(jì)數(shù),擴(kuò)容等等系列操作,都會(huì)對(duì)系統(tǒng)性能有一定影響,目前我們壓測(cè)系統(tǒng)性能的時(shí)候發(fā)現(xiàn)過(guò)載保護(hù)會(huì)降低我們系統(tǒng)的性能瓶頸,去掉過(guò)載保護(hù),qps還能增高不少。
總結(jié):過(guò)載保護(hù)在系統(tǒng)中扮演著重要的角色,過(guò)載保護(hù)并不能提升我們的系統(tǒng)性能,只是為我們系統(tǒng)做了一個(gè)保障,避免因?yàn)楫惓?dǎo)致系統(tǒng)整體不可用,當(dāng)系統(tǒng)達(dá)到性能瓶頸時(shí),拒絕一些請(qǐng)求從而保護(hù)我們的系統(tǒng)整體可用,是十分有必要的。