www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當(dāng)前位置:首頁(yè) > 公眾號(hào)精選 > Linux閱碼場(chǎng)
[導(dǎo)讀]這篇文章想分享Top99超時(shí)排查的思路和在工作中主動(dòng)向身邊的同事學(xué)習(xí)的一種意識(shí)背景介紹我們的系統(tǒng)Top90穩(wěn)定在19ms左右,Top99穩(wěn)定在46ms左右,Top999穩(wěn)定在50ms左右,監(jiān)控報(bào)警主要用的PrometheusGrafana自研報(bào)警平臺(tái)報(bào)警晚上和小伙伴們出去吃飯了,...

這篇文章想分享 Top99 超時(shí)排查的思路和在工作中主動(dòng)向身邊的同事學(xué)習(xí)的一種意識(shí)

背景介紹

我們的系統(tǒng) Top90 穩(wěn)定在 19ms 左右,Top99 穩(wěn)定在 46 ms 左右,Top999 穩(wěn)定在 50ms 左右,監(jiān)控報(bào)警主要用的 Prometheus Grafana 自研報(bào)警平臺(tái)

報(bào)警

晚上和小伙伴們出去吃飯了,突然收到了報(bào)警,一個(gè)工程的 top99 超過(guò)了 200 ms,持續(xù)時(shí)間大于了 10 分鐘。同時(shí)合作方 ADX 那邊反饋我們的 DSP 延遲比較嚴(yán)重。

報(bào)警

分析

在開(kāi)始排查這個(gè)問(wèn)題時(shí),先看當(dāng)時(shí)有沒(méi)有人上線了,確實(shí)有同事在報(bào)警發(fā)生時(shí)間點(diǎn)上線了,但通過(guò)查看 CR ,并沒(méi)有什么問(wèn)題

開(kāi)始時(shí)我做了很多無(wú)用功,查看該服務(wù)所有的一臺(tái)機(jī)器的日志,也沒(méi)看出啥問(wèn)題,從服務(wù)管理平臺(tái)檢查調(diào)用依賴(lài)服務(wù)是否超時(shí)嚴(yán)重,經(jīng)排查依賴(lài)服務(wù)都是正常的,頓時(shí)沒(méi)啥思路了

我同事找到了一個(gè)突破口,我們系統(tǒng) Top90 穩(wěn)定在 19ms 左右,Top99 穩(wěn)定在 46 ms 左右,Top999 穩(wěn)定在 50ms 左右,而這次報(bào)警發(fā)生時(shí),Top99 和 Top999 都達(dá)到了 200ms,而 Top90 是 20ms,顯然 Top90 沒(méi)怎么波動(dòng),這是非常重要的一個(gè)線索,從這些指標(biāo)可以推斷出只有部分流量或節(jié)點(diǎn)出了問(wèn)題

排查

我們的業(yè)務(wù)指標(biāo)監(jiān)控用的 Prometheus,在工程中埋點(diǎn),數(shù)據(jù)收集到 Prometheus,然后在 Grafana 中展示,目前只是顯示了集群的 Top90、Top99、Top999 指標(biāo),同事在 Grafana 中操作了一番,然后發(fā)了一張圖(圖未截全)

排序后的Top999
原來(lái)他將 Top999 按實(shí)例分組,并將值按倒序排序了,發(fā)現(xiàn)確實(shí)只有很小一部分節(jié)點(diǎn)出了問(wèn)題,然后就留了一個(gè)節(jié)點(diǎn)保留現(xiàn)場(chǎng)用于排查,將剩余超時(shí)的節(jié)點(diǎn)重啟了,隨后 Top999 就降下來(lái)了

后面通過(guò)排查保留現(xiàn)場(chǎng)的那個(gè)節(jié)點(diǎn),發(fā)現(xiàn)是服務(wù)初始化時(shí),調(diào)用一個(gè)依賴(lài)服務(wù)超時(shí)了,然后有問(wèn)題的節(jié)點(diǎn)就一直超時(shí)了,這個(gè)主要是因?yàn)樯暇€時(shí)并行上線的節(jié)點(diǎn)數(shù)比較多,且間隔時(shí)間有點(diǎn)短,對(duì)依賴(lài)服務(wù)方造成了壓力

反思

首先我從同事身上學(xué)到了一種排查思路,Top99 和 Top999 超時(shí)比較嚴(yán)重,但 Top90 幾乎沒(méi)怎么變化,這就說(shuō)明只是部分節(jié)點(diǎn)或部分流量出了問(wèn)題,集群的大部分都是正常工作的。然后就順藤摸瓜,按實(shí)例分組展示指標(biāo),并做排序找到有問(wèn)題的節(jié)點(diǎn),然后有針對(duì)性的處理和排查

雖然問(wèn)題解決了,但同事在 Grafana 上操作了什么我不得而知,確實(shí)有沖動(dòng)想問(wèn)他那個(gè)語(yǔ)句怎么寫(xiě)的,但都被自己打住了,在請(qǐng)教別人問(wèn)題前,還是需要自己好好先查查的,然后我就看 Prometheus 官方文檔中的 Functions 部分

sort_desc()文檔介紹
然后開(kāi)始在 Grafana 上操作,最后終于自己整出來(lái)了,對(duì)應(yīng)的語(yǔ)句和操作如下所示

grafana語(yǔ)句
我搞出來(lái)后,這個(gè)排查思路我就掌握了,然后第二天又有了相同的報(bào)警,我第一時(shí)間介入了,快速處理了問(wèn)題

工作中要主動(dòng)向身邊的同事學(xué)習(xí),將其技能內(nèi)化成自己的!

- END -

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專(zhuān)欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
關(guān)閉
關(guān)閉