作者簡介:曾任職于阿里巴巴,每日優(yōu)鮮等互聯(lián)網(wǎng)公司,任技術總監(jiān),15年電商互聯(lián)網(wǎng)經(jīng)歷。
關于熔斷,網(wǎng)上的文章很多,但是真正講明白的文章寥寥無幾。很多作者互相抄襲,缺乏自己的認知和理解。
分享熔斷之前,咱們先說說大家更熟悉的Timeout。Timeout和熔斷有關系嗎?別急,往下看就清楚啦!
我們在跨系統(tǒng)調(diào)用、跨服務調(diào)用以及調(diào)用第三方接口時,一般會設置超時時間。有兩個作用:其一,出于用戶體驗考慮,啥結(jié)果也不返回,一直讓人等下去,確實受不了。其二,出于系統(tǒng)性能問題的考慮,并發(fā)不高時timeout可以避免線程阻塞帶來的性能問題,但是并發(fā)高時timeout就不能解決問題啦。
現(xiàn)在輪到熔斷大顯身手了。
熔斷是什么?
一種降級手段。當服務不可用時,用來避免連鎖故障,雪崩效應。發(fā)生在服務調(diào)用的時候,在調(diào)用方做熔斷處理。
熔斷的意義是什么?
我們使用熔斷前要先弄清楚熔斷的真正意義,避免用錯給系統(tǒng)帶來麻煩。實際上,用一句話就可以描述熔斷的意義:上游服務快速失敗(Fail Fast),并保護下游服務。
詳細解釋一下,假設上游服務是A,下游服務是B,A調(diào)用B,B發(fā)生故障,開啟熔斷:
-
對于上游服務A:請求到A后直接快速返回(返回值可以是默認值,或者通過一種后背(Fallback)方案獲取的值),快速失敗,不再發(fā)送到B。 避免因為B故障,導致請求線程持續(xù)等待,進而導致線程池線程和CPU資源耗盡,進而導致A無響應甚至整條調(diào)用鏈故障。
-
對于下游服務B:熔斷后,請求被A攔截,不再發(fā)送到B,B壓力得到緩解,避免了仍舊存活的B被壓垮,B得到了保護。
熔斷狀態(tài)流轉(zhuǎn)過程:
假設上游服務是A,下游服務是B,A調(diào)用B。
熔斷生命周期包括三個狀態(tài):關閉,半開啟,開啟。
關閉狀態(tài)->開啟狀態(tài),A調(diào)用B請求失敗次數(shù)在設定時間內(nèi)達到閾值,開啟熔斷
開啟狀態(tài)->半開啟狀態(tài),熔斷開啟后,熔斷器根據(jù)設定時間間隔定期自動進入半開啟狀態(tài)
半開啟狀態(tài)->關閉狀態(tài)(或開啟狀態(tài)),半開啟狀態(tài)下會從A發(fā)送少量請求到B來試探B服務是否能正常提供服務,如果請求成功率達到閾值就關閉熔斷,否則就回到熔斷開啟狀態(tài)
熔斷適用場景
出于系統(tǒng)性能問題的考慮,并發(fā)不高時timeout可以避免線程阻塞帶來的性能問題,但是并發(fā)高時timeout就不能解決問題啦。這時可以用熔斷。
只要是服務之間的調(diào)用,并且能設計合理的獲取返回值的方案(返回值可以是默認值,或者通過一種后備(Fallback)方案獲取的值),一般業(yè)務場景都可以做熔斷處理。比如電商行業(yè),在sku不是很多的場景下,我們可以在訂單服務冗余庫存數(shù)據(jù)(注意控制合理的安全庫存,防超賣)。下單減庫存時,如果庫存服務掛了,開啟熔斷后,我們可以直接從訂單服務取庫存,訂單服務取不到庫存,按扣減庫存失敗處理。這個可以做為后備(Fallback)方案。
有哪些開源實現(xiàn)
Hystrix,Resilience4j等
免責聲明:本文內(nèi)容由21ic獲得授權后發(fā)布,版權歸原作者所有,本平臺僅提供信息存儲服務。文章僅代表作者個人觀點,不代表本平臺立場,如有問題,請聯(lián)系我們,謝謝!