?Top99 超時(shí)排查思路
時(shí)間:2021-09-30 13:52:03
手機(jī)看文章
掃描二維碼
隨時(shí)隨地手機(jī)看文章
[導(dǎo)讀]這篇文章想分享Top99超時(shí)排查的思路和在工作中主動(dòng)向身邊的同事學(xué)習(xí)的一種意識(shí)背景介紹我們的系統(tǒng)Top90穩(wěn)定在19ms左右,Top99穩(wěn)定在46ms左右,Top999穩(wěn)定在50ms左右,監(jiān)控報(bào)警主要用的PrometheusGrafana自研報(bào)警平臺(tái)報(bào)警晚上和小伙伴們出去吃飯了,...
這篇文章想分享 Top99 超時(shí)排查的思路和在工作中主動(dòng)向身邊的同事學(xué)習(xí)的一種意識(shí)
背景介紹
我們的系統(tǒng) Top90 穩(wěn)定在 19ms 左右,Top99 穩(wěn)定在 46 ms 左右,Top999 穩(wěn)定在 50ms 左右,監(jiān)控報(bào)警主要用的 Prometheus Grafana 自研報(bào)警平臺(tái)報(bào)警
晚上和小伙伴們出去吃飯了,突然收到了報(bào)警,一個(gè)工程的 top99 超過(guò)了 200 ms,持續(xù)時(shí)間大于了 10 分鐘。同時(shí)合作方 ADX 那邊反饋我們的 DSP 延遲比較嚴(yán)重。分析
在開(kāi)始排查這個(gè)問(wèn)題時(shí),先看當(dāng)時(shí)有沒(méi)有人上線了,確實(shí)有同事在報(bào)警發(fā)生時(shí)間點(diǎn)上線了,但通過(guò)查看 CR ,并沒(méi)有什么問(wèn)題開(kāi)始時(shí)我做了很多無(wú)用功,查看該服務(wù)所有的一臺(tái)機(jī)器的日志,也沒(méi)看出啥問(wèn)題,從服務(wù)管理平臺(tái)檢查調(diào)用依賴(lài)服務(wù)是否超時(shí)嚴(yán)重,經(jīng)排查依賴(lài)服務(wù)都是正常的,頓時(shí)沒(méi)啥思路了我同事找到了一個(gè)突破口,我們系統(tǒng) Top90 穩(wěn)定在 19ms 左右,Top99 穩(wěn)定在 46 ms 左右,Top999 穩(wěn)定在 50ms 左右,而這次報(bào)警發(fā)生時(shí),Top99 和 Top999 都達(dá)到了 200ms,而 Top90 是 20ms,顯然 Top90 沒(méi)怎么波動(dòng),這是非常重要的一個(gè)線索,從這些指標(biāo)可以推斷出只有部分流量或節(jié)點(diǎn)出了問(wèn)題排查
我們的業(yè)務(wù)指標(biāo)監(jiān)控用的 Prometheus,在工程中埋點(diǎn),數(shù)據(jù)收集到 Prometheus,然后在 Grafana 中展示,目前只是顯示了集群的 Top90、Top99、Top999 指標(biāo),同事在 Grafana 中操作了一番,然后發(fā)了一張圖(圖未截全)反思
首先我從同事身上學(xué)到了一種排查思路,Top99 和 Top999 超時(shí)比較嚴(yán)重,但 Top90 幾乎沒(méi)怎么變化,這就說(shuō)明只是部分節(jié)點(diǎn)或部分流量出了問(wèn)題,集群的大部分都是正常工作的。然后就順藤摸瓜,按實(shí)例分組展示指標(biāo),并做排序找到有問(wèn)題的節(jié)點(diǎn),然后有針對(duì)性的處理和排查雖然問(wèn)題解決了,但同事在 Grafana 上操作了什么我不得而知,確實(shí)有沖動(dòng)想問(wèn)他那個(gè)語(yǔ)句怎么寫(xiě)的,但都被自己打住了,在請(qǐng)教別人問(wèn)題前,還是需要自己好好先查查的,然后我就看 Prometheus 官方文檔中的 Functions 部分工作中要主動(dòng)向身邊的同事學(xué)習(xí),將其技能內(nèi)化成自己的!- END -