萬(wàn)字談監(jiān)控：解答Zabbix與Prometheus選型疑難

時(shí)間：2020-09-30 17:12:35

關(guān)鍵字：監(jiān)控系統(tǒng)

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]讀完本文，你將收獲：兩者適用于多大規(guī)模的監(jiān)控場(chǎng)景？超過(guò)5000以上監(jiān)控節(jié)點(diǎn)時(shí)怎么辦？高可用怎么解決？?jī)烧咴趺唇鉀Q存儲(chǔ)問(wèn)題？對(duì)于監(jiān)控信息是否有歷史存儲(chǔ)和分析，能從歷史信息中挖掘到哪些有價(jià)值的信息？?jī)烧咴趺磻?yīng)對(duì)告警風(fēng)暴和誤報(bào)？在智能監(jiān)控和自動(dòng)治愈方面是否有可借鑒的實(shí)踐？基于什么算法或策略？怎么進(jìn)行故障預(yù)判和預(yù)處理？

Zabbix與Prometheus

讀完本文，你將收獲

兩者適用于多大規(guī)模的監(jiān)控場(chǎng)景？超過(guò)5000以上監(jiān)控節(jié)點(diǎn)時(shí)怎么辦？高可用怎么解決？
兩者怎么解決存儲(chǔ)問(wèn)題？對(duì)于監(jiān)控信息是否有歷史存儲(chǔ)和分析，能從歷史信息中挖掘到哪些有價(jià)值的信息？
兩者怎么應(yīng)對(duì)告警風(fēng)暴和誤報(bào)？
在智能監(jiān)控和自動(dòng)治愈方面是否有可借鑒的實(shí)踐？基于什么算法或策略？怎么進(jìn)行故障預(yù)判和預(yù)處理？
監(jiān)控大屏是怎么設(shè)計(jì)的？
自動(dòng)化運(yùn)維管理是兩者同時(shí)使用還是二選一更合適？
兩者在配合使用時(shí)，應(yīng)該怎么分工？怎么落地？
如果已經(jīng)部署了Zabbix，怎么平穩(wěn)過(guò)渡到Prometheus？
分布式鏈路的可觀測(cè)性和端到端診斷怎么做？
大規(guī)模場(chǎng)景下，兩者的性能和成本哪個(gè)比較低？

萬(wàn)字談監(jiān)控：解答Zabbix與Prometheus選型疑難

監(jiān)控，為什么總讓我們頭痛

監(jiān)控一直都是運(yùn)維工作中不可或缺的部分，一個(gè)高效、契合的監(jiān)控系統(tǒng)是服務(wù)賴以健康穩(wěn)定的基石。隨著業(yè)務(wù)規(guī)模的增長(zhǎng)、技術(shù)的發(fā)展、行業(yè)的變革，企業(yè)對(duì)用戶體驗(yàn)越來(lái)越重視，監(jiān)控的需求發(fā)生著日新月異的變化，相應(yīng)的監(jiān)控工具和解決方案也層出不窮。其中，Zabbix和Prometheus就是兩款非常典型的監(jiān)控工具，應(yīng)用頗為廣泛。

說(shuō)起來(lái)，監(jiān)控在不同的團(tuán)隊(duì)和公司之間，可能會(huì)存在各種差異化的需求。如何基于開源產(chǎn)品打造一個(gè)符合自己業(yè)務(wù)場(chǎng)景的監(jiān)控體系，并且持續(xù)迭代？這成為了大家無(wú)法繞開的課題。

比如說(shuō)，如何選擇監(jiān)控方案和開源工具？如何為自己的業(yè)務(wù)場(chǎng)景做定制化適配？如何實(shí)現(xiàn)端到端的全鏈路監(jiān)控？如何讓業(yè)務(wù)方以更低成本接入到這個(gè)系統(tǒng)中？如何做監(jiān)控的自動(dòng)化？如何做異常告警的路由、分發(fā)、收斂和抑制？如何做統(tǒng)一化的監(jiān)控大屏、Dashboard等等……這些都是我們?cè)跇?gòu)建監(jiān)控系統(tǒng)中可能會(huì)面臨的問(wèn)題。

圍繞這些問(wèn)題，dbaplus社群特別邀請(qǐng)到美圖SRE負(fù)責(zé)人-石鵬(東方德勝)作為主持人、招商銀行技術(shù)經(jīng)理-蔡翔華作為Zabbix使用方、甜橙金融基礎(chǔ)技術(shù)架構(gòu)師-劉宇作為Prometheus使用方，針對(duì)Zabbix和Prometheus展開實(shí)用選型探討。

十問(wèn)十答，監(jiān)控工具怎么選

Q1：Zabbix和Prometheus分別適用于多大規(guī)模的監(jiān)控場(chǎng)景？超過(guò)5000以上監(jiān)控節(jié)點(diǎn)時(shí)怎么辦？高可用怎么解決？

蔡翔華：我們和Zabbix官方其實(shí)有溝通過(guò)，業(yè)內(nèi)他們有一些監(jiān)控到了40萬(wàn)以上的節(jié)點(diǎn)數(shù)，當(dāng)然這個(gè)節(jié)點(diǎn)數(shù)也要根據(jù)你每個(gè)節(jié)點(diǎn)上監(jiān)控多少東西。Zabbix其實(shí)有一個(gè)指標(biāo)叫做NVPS（New Value Per Second），也就是每秒新增的值的指標(biāo)，來(lái)判斷你的監(jiān)控規(guī)模是不是合適的。

那么對(duì)于5000個(gè)節(jié)點(diǎn)以上的場(chǎng)景來(lái)說(shuō)，其實(shí)Zabbix還是OK的，你可以通過(guò)多布署一些Proxy，去對(duì)后臺(tái)數(shù)據(jù)庫(kù)做一些性能調(diào)優(yōu)等等，以這些方式去提高整個(gè)監(jiān)控平臺(tái)的可承受、負(fù)載的性能。

另外關(guān)于高可用，我們的數(shù)據(jù)庫(kù)端是會(huì)有Mycat或者HAProxy高可用，但服務(wù)器端本身它其實(shí)沒(méi)有高可用，那么我們可以依賴于虛擬化平臺(tái)，或者是比如像我們有Vmotion等熱遷移這些技術(shù)。另外，在未來(lái)的5.x版本或者6版本以上的話，官方已經(jīng)將原生的高可用納入到Zabbix的Roadmap里面了，大家可以期待一下。

石鵬：好的，蔡老師的核心觀點(diǎn)其實(shí)就是我們需要關(guān)注核心的指標(biāo)，也就是NVPS，這個(gè)值是比較關(guān)鍵的。然后蔡老師之前您在實(shí)際的應(yīng)用中，見(jiàn)過(guò)這個(gè)系統(tǒng)的峰值可以達(dá)到多少嗎？是否可以給大家做個(gè)參考？

蔡翔華：在我們自己的環(huán)境里面，NVPS峰值達(dá)到過(guò)6000以上，但我們后面其實(shí)也做了一些優(yōu)化，把它調(diào)整到3000左右。主要目的是，因?yàn)橐婚_始我們做的時(shí)候是希望做到大而全，什么都監(jiān)控，但最后發(fā)現(xiàn)其實(shí)大而全不一定有用，因?yàn)楹芏啾O(jiān)控即使它是問(wèn)題，你也不會(huì)care它。

劉宇：是的，蔡老師已經(jīng)講得比較詳細(xì)了，其實(shí)以多大的規(guī)模是取決于你的監(jiān)控目標(biāo)，還有就是采集的間隔，比如說(shuō)5秒采集一次和1分鐘采集一次，這個(gè)規(guī)模都是支持著不一樣的目標(biāo)，所以還是要根據(jù)你的需求。

一般來(lái)說(shuō)，我們會(huì)配置成30秒或者是一分鐘；如果是對(duì)于高頻的，會(huì)15秒。因?yàn)閱蝹€(gè)Prometheus性能已經(jīng)比較強(qiáng)了，一般來(lái)說(shuō)，它每秒百萬(wàn)個(gè)指標(biāo)都是沒(méi)什么問(wèn)題的。Prometheus會(huì)根據(jù)你的指標(biāo)來(lái)計(jì)算，就是看你一個(gè)監(jiān)控點(diǎn)上有多少個(gè)指標(biāo)，這樣來(lái)?yè)Q算。

如果你單個(gè)Prometheus的性能達(dá)不到它的要求時(shí)，也可以去做一些拆分，比如說(shuō)我們把Prometheus根據(jù)它的功能來(lái)做區(qū)分，這個(gè)去監(jiān)控node exporter，那個(gè)去監(jiān)控Redis，這樣來(lái)做區(qū)分。

當(dāng)然，如果你單個(gè)的性能還是不夠的話，可以用分區(qū)，即用hash mod去多分幾個(gè)Prometheus來(lái)做監(jiān)控。

然后關(guān)于高可用這塊，其實(shí)社區(qū)Prometheus這部分做得也不是特別好，會(huì)用兩個(gè)Prometheus來(lái)同時(shí)監(jiān)控同樣的一個(gè)目標(biāo)，這樣來(lái)做到一個(gè)高可用。當(dāng)然，在容器環(huán)境，你也可以去通過(guò)K8S的deployment這種方式，來(lái)把高可用維護(hù)起來(lái)。

Q2：Zabbix和Prometheus怎么解決存儲(chǔ)問(wèn)題？對(duì)于監(jiān)控信息是否有歷史存儲(chǔ)和分析，能從歷史信息中挖掘到哪些有價(jià)值的信息？

蔡翔華：的確，存儲(chǔ)這個(gè)問(wèn)題因?yàn)楸O(jiān)控寫的東西最多就是寫到存儲(chǔ)里面去，Zabbix以前被吐槽最多的就是它不支持時(shí)序數(shù)據(jù)庫(kù)TSDB。其實(shí)在4.2以后，它就已經(jīng)開始支持TSDB了，當(dāng)然可能還沒(méi)有Prometheus那么成熟，它主要的數(shù)據(jù)庫(kù)還是MySQL為主。

如果就存儲(chǔ)問(wèn)題的話，一方面你可以去嘗試TSDB的這種方式；另外一方面的話，你可以去通過(guò)增加SSD，或者說(shuō)數(shù)據(jù)庫(kù)層面的一些性能提升，去解決它的問(wèn)題。包括數(shù)據(jù)庫(kù)本身可以去分庫(kù)分表，去拆分一下，然后對(duì)歷史數(shù)據(jù)做一個(gè)歸檔……就是通過(guò)數(shù)據(jù)庫(kù)層面的優(yōu)化，來(lái)解決這個(gè)問(wèn)題。

那么對(duì)于歷史存儲(chǔ)和分析這些信息，Zabbix提供了兩個(gè)維度，一個(gè)叫history，一個(gè)叫trend，也就是一個(gè)歷史數(shù)據(jù)和趨勢(shì)數(shù)據(jù)。它具體數(shù)值是可以自己設(shè)定的，它的邏輯是說(shuō)，如果超過(guò)history的保留期限，比如說(shuō)30天，它自動(dòng)會(huì)把數(shù)據(jù)歸檔成trend的數(shù)據(jù)，trend的數(shù)據(jù)就會(huì)只會(huì)保留最大值、最小值和平均值這三個(gè)指標(biāo)，而并不能像history數(shù)據(jù)可以看到每一秒鐘，甚至說(shuō)每一個(gè)輪巡周期的指標(biāo)。

我們實(shí)際場(chǎng)景應(yīng)用的話，主要是用于我們的性能分析，因?yàn)槲覀冇泻芏嗷ヂ?lián)網(wǎng)應(yīng)用，會(huì)看一下這個(gè)業(yè)務(wù)增長(zhǎng)對(duì)我平臺(tái)的要求，會(huì)不會(huì)CPU比較緊張、內(nèi)存比較緊張等等。另外，我們會(huì)根據(jù)這些數(shù)據(jù)做一個(gè)分析，為我們后期的擴(kuò)容、決策提供一些參考性的依據(jù)。比方說(shuō)我現(xiàn)在看到今年整體的使用率在多少，我們每年的增長(zhǎng)量是在20%還是30%，這樣我們后續(xù)做一些決策的時(shí)候，是需要多少的資源、多少的預(yù)算，就比較能有參考價(jià)值。

劉宇：Prometheus本身存儲(chǔ)如果存在本地的話，大概只能存15天，最多你也只能放到30天這樣子。官方其實(shí)也不建議你把所有的監(jiān)控?cái)?shù)據(jù)都存在Prometheus的一個(gè)本地的數(shù)據(jù)庫(kù)里。所以我在案例分享中也提到了一個(gè)遠(yuǎn)端存儲(chǔ)的技術(shù)（案例分享內(nèi)容請(qǐng)關(guān)注dbaplus社群后續(xù)文章發(fā)布）。

我們是存在InfluxDB的，也有一些是可以存在比如說(shuō)ES，通過(guò)remote_write的功能去存到ES或者是其它時(shí)序數(shù)據(jù)庫(kù)中，或者是比如說(shuō)HBase這種大數(shù)據(jù)的也可以存。

石鵬：好的了解，其實(shí)關(guān)于存儲(chǔ)這個(gè)問(wèn)題，我們還是更多應(yīng)該從需求出發(fā)。整體來(lái)看有一些比較通用的思路，最典型的就是這兩種：

第一種是數(shù)據(jù)的轉(zhuǎn)儲(chǔ)。比如像Prometheus，我們?cè)诒镜刂淮?周或者4周的數(shù)據(jù)，然后更多的話，就把它寫到遠(yuǎn)端。

第二種思路是做數(shù)據(jù)采樣。其實(shí)在很多監(jiān)控系統(tǒng)里面，是一個(gè)比較常規(guī)的思路，就像在Zabbix里的history、trend，開始可能是每30秒一個(gè)點(diǎn)，然后數(shù)據(jù)采樣之后，可能是每5分鐘一個(gè)點(diǎn)。就用這樣的方式，把這個(gè)數(shù)據(jù)量級(jí)減小，然后以此來(lái)做存儲(chǔ)問(wèn)題的優(yōu)化。

Q3：Zabbix和Prometheus怎么應(yīng)對(duì)告警風(fēng)暴和誤報(bào)？

蔡翔華：首先誤報(bào)這個(gè)事情，其實(shí)在我理解里是不存在的。也就是說(shuō)，之所以我們會(huì)覺(jué)得很多有誤報(bào)的東西存在，是因?yàn)槲覀儗?duì)于規(guī)則，比方說(shuō)我監(jiān)控東西或者是我配置觸發(fā)器，本身是有問(wèn)題的。

我碰到很多人說(shuō)，打算監(jiān)控它的CPU使用率，很多人會(huì)直接記錄usage，它的使用率，也有很多人會(huì)監(jiān)控它的free的這個(gè)space。但有時(shí)候會(huì)由于配置錯(cuò)誤，導(dǎo)致原本監(jiān)控cpu usage的使用了cpu free的指標(biāo)。所以說(shuō)，其實(shí)很多時(shí)候報(bào)警之所以會(huì)產(chǎn)生誤報(bào)，是因?yàn)榕渲帽旧聿皇呛苷_。

Zabbix的工作機(jī)制很簡(jiǎn)單：我去收集數(shù)據(jù)，去根據(jù)這個(gè)處罰規(guī)則去做比較，然后去發(fā)報(bào)警。當(dāng)中所有的邏輯其實(shí)本身是不會(huì)出任何問(wèn)題，除非說(shuō)收集數(shù)據(jù)配錯(cuò)了、觸發(fā)規(guī)則配錯(cuò)了、報(bào)警機(jī)制配錯(cuò)了……這些其實(shí)更多是人為的因素在里面。

所以說(shuō)，更多的是要通過(guò)這種檢查來(lái)判斷一下你是否有配錯(cuò)。

另外一個(gè)減少誤報(bào)的方式是通過(guò)模板化。因?yàn)槲覀冎灰渲靡淮文０?，那我把所有的Linux機(jī)型的監(jiān)控模板都統(tǒng)一起來(lái)，對(duì)于所有監(jiān)控Linux都套用同一個(gè)模板，那么就可以在一定程度上降低誤報(bào)。關(guān)鍵還是在于人的問(wèn)題。

關(guān)于告警風(fēng)暴，其實(shí)Zabbix里有一個(gè)特性叫做依賴項(xiàng)目。就比方說(shuō)我現(xiàn)在有一臺(tái)機(jī)器宕機(jī)，那么它可能里面的端口都會(huì)不通，然后ping也ping不通，CPU可能也拿不到，可能會(huì)有一堆的報(bào)警。那么我們可以把所有的這種依賴項(xiàng)關(guān)聯(lián)到ping上，一旦ping的機(jī)器都死了，上面肯定東西都是宕掉了，這樣子的話，它只會(huì)報(bào)ping的這一個(gè)問(wèn)題，而不會(huì)把這堆機(jī)器上所有的東西都給報(bào)出來(lái)。就好比一個(gè)人如果死了，你跟他說(shuō)這里有問(wèn)題那里有問(wèn)題，其實(shí)沒(méi)有任何意義。它就只會(huì)把你最終的Root Cause（根因）給報(bào)出來(lái)，去防范這種告警風(fēng)暴。

劉宇：是的，誤報(bào)我其實(shí)跟蔡老師的觀點(diǎn)是很像的，就是告警中其實(shí)是存在一個(gè)誤報(bào)率的，如果你的誤報(bào)率很高的話，運(yùn)維人員就很疲勞了，可能大家都會(huì)覺(jué)得狼來(lái)了，沒(méi)有辦法信任你的那種告警，反而你真正發(fā)生故障的告警就會(huì)被忽略掉。所以制定告警的規(guī)則就非常重要，需要想辦法把誤報(bào)率給它降低。

那這種規(guī)則的制定其實(shí)就比較不是那么具體，會(huì)比較抽象，可能比如說(shuō)把必須要人工介入處理的這種，才把它定為告警；然后如果系統(tǒng)可以自己處理掉，就不要把它告出來(lái)，或者只是在后面做一個(gè)每天發(fā)一次的報(bào)告也就行了。這是我對(duì)誤報(bào)的一個(gè)看法。

關(guān)于告警風(fēng)暴，在Prometheus中，對(duì)告警風(fēng)暴的處理方式是這樣：可以通過(guò)靜默告警解決，或者是可以加入維護(hù)組，或者是也可以做一個(gè)聚合，也就是把告警給聚集，然后同類的告警合并，這樣來(lái)減少告警的條數(shù)，主要是這樣來(lái)做的。

當(dāng)然如果你有些機(jī)器需要維護(hù)，它也是可以支持的，就是可以把一些告警直接靜默掉。當(dāng)然還有就是測(cè)試環(huán)境，比如說(shuō)這種告警，你就可以完全忽略掉，我覺(jué)得可以這樣來(lái)解決。

石鵬：好的，我總結(jié)一下，關(guān)于誤報(bào)這個(gè)問(wèn)題，兩位老師的意見(jiàn)是比較一致的，我也是比較贊同的。誤報(bào)其實(shí)最根本的原因就是可能你的使用不合理，不管是你的配置還是說(shuō)你的各種姿勢(shì)可能不合理，才會(huì)導(dǎo)致誤報(bào)。

然后針對(duì)告警風(fēng)暴，其實(shí)Zabbix和Prometheus也就是alert manager，它們都有提供一些相應(yīng)的功能、特性。在Zabbix這邊的話，可以像蔡老師說(shuō)的用依賴項(xiàng)，然后也是可以加維護(hù)，也可以規(guī)避一些告警；然后Prometheus這邊是alert manager它里面有silent這個(gè)靜默規(guī)則，也是可以去做一些規(guī)避告警這種東西。

可能在很多公司，他們除了監(jiān)控平臺(tái)本身去做告警風(fēng)暴的抑制，還會(huì)有另外一層。比如說(shuō)我們公司這邊是這樣：

我們有一個(gè)告警平臺(tái)，所有的告警都會(huì)匯集到這個(gè)告警平臺(tái)里，然后這個(gè)告警平臺(tái)會(huì)去做一層合并、收斂和抑制。這樣的話，就可以不用特別依賴監(jiān)控平臺(tái)本身來(lái)提供這些特性，而是由一個(gè)統(tǒng)一的平臺(tái)，在做最后發(fā)送動(dòng)作的時(shí)候，再來(lái)做一層cover。可能在量級(jí)大的場(chǎng)景下，這種是比較推薦的一種思路。

蔡翔華：是的，因?yàn)檎嬲谋O(jiān)控當(dāng)中，其實(shí)還會(huì)納入很多比方說(shuō)ES等其它監(jiān)控平臺(tái)，甚至是一些業(yè)務(wù)告警。當(dāng)平臺(tái)很多的時(shí)候，其實(shí)你需要有一層聚合的方式，去把告警做一個(gè)聚合收斂，然后通過(guò)在聚合平臺(tái)里配置一定規(guī)則之后，再去做后續(xù)的一些報(bào)警。

石鵬：沒(méi)錯(cuò)，并且你有這個(gè)平臺(tái)之后，就可以把一些告警的規(guī)則和策略做得更統(tǒng)一，這樣的話，給用戶的界面和體驗(yàn)也會(huì)更好。

蔡翔華：對(duì)，所以說(shuō)其實(shí)看公司規(guī)模，因?yàn)檫@一塊會(huì)涉及到一些二次開發(fā)，如果公司沒(méi)有這個(gè)能力，那就可以把Zabbix全套或Prometheus全套都用上；如果后續(xù)有能力去做這種聚合的話，其實(shí)Zabbix也好，Prometheus也好，更多的角色定位會(huì)變成一個(gè)收集器的角色。然后后面的邏輯其實(shí)都交給事件管理平臺(tái)或聚合平臺(tái)去做。

劉宇：沒(méi)錯(cuò)，這里Zabbix其實(shí)也可以把它的報(bào)警發(fā)送到alert manager里，也可以做一些靜默處理，因?yàn)?/span>Zabbix本身它的靜默功能確實(shí)不是特別多，還是alert manager會(huì)做的更好一點(diǎn)。所以兩個(gè)工具其實(shí)可以結(jié)合起來(lái)使用。

Q4：在智能監(jiān)控和自動(dòng)治愈方面是否有可借鑒的實(shí)踐？基于什么算法或策略？怎么進(jìn)行故障預(yù)判和預(yù)處理？

蔡翔華：首先我們是有嘗試過(guò)智能監(jiān)控，但是包括我看到的很多書籍里面，包括Prometheus的一些書籍里面，也說(shuō)設(shè)這種固定的預(yù)知是一個(gè)很蠢的方法。

根據(jù)我這邊實(shí)際的應(yīng)用，其實(shí)你要做到智能監(jiān)控，肯定要有一些大數(shù)據(jù)的東西，比方說(shuō)我有這種規(guī)律：

例如，按照我們的實(shí)際操作里有很多互聯(lián)網(wǎng)的應(yīng)用，有些東西它就是會(huì)有高并發(fā)高搶購(gòu)，可能每個(gè)月固定的時(shí)候，比如每個(gè)月10號(hào)放一個(gè)活動(dòng)，活動(dòng)時(shí)它的量是平時(shí)的10倍甚至100倍；但也可能有時(shí)候，業(yè)務(wù)會(huì)不停地在不同的時(shí)間放，你很難去判斷這個(gè)點(diǎn)到底是不是一個(gè)故障點(diǎn)。

也就是說(shuō)，你用戶數(shù)從10變成了1萬(wàn)，這1萬(wàn)到底是因?yàn)楣收狭耍€是說(shuō)是因?yàn)闃I(yè)務(wù)的一些邏輯導(dǎo)致的，很難判斷。所以目前來(lái)說(shuō)，我們嘗試以后，還是用了一些比較固定的報(bào)警預(yù)知去做。

那么回到這個(gè)話題，Zabbix本身它提供了一些預(yù)測(cè)的功能，它會(huì)預(yù)測(cè)現(xiàn)在我的磁盤消耗大約什么時(shí)候會(huì)消耗到20%以下，或某個(gè)閾值以下，它本身是提供了這個(gè)功能的。還有一些內(nèi)置函數(shù)可以去做這個(gè)計(jì)算。但是目前來(lái)說(shuō)，我個(gè)人還是建議使用一個(gè)比較固定的閾值，可以方便我們有一個(gè)明確判斷，否則你早期會(huì)有很多的誤報(bào)，甚至可能你都會(huì)覺(jué)得這東西很正常。

預(yù)測(cè)的數(shù)據(jù)也是基于現(xiàn)狀的，如果可以對(duì)預(yù)測(cè)數(shù)據(jù)進(jìn)行判斷報(bào)警，理論上，也可以針對(duì)現(xiàn)有的數(shù)據(jù)進(jìn)行判斷報(bào)警。

劉宇：這塊我們實(shí)踐的案例倒不是特別多，我主要還是對(duì)數(shù)據(jù)庫(kù)的監(jiān)控比較熟，所以就說(shuō)一下我們?cè)跀?shù)據(jù)庫(kù)的自動(dòng)治愈上是怎么實(shí)現(xiàn)的吧。

比如說(shuō)告警，它發(fā)送出來(lái)的同時(shí)，也會(huì)發(fā)送給數(shù)據(jù)庫(kù)的一個(gè)自動(dòng)化平臺(tái)，這個(gè)平臺(tái)會(huì)有一個(gè)程序根據(jù)告警內(nèi)容來(lái)調(diào)一些自動(dòng)治愈的程序來(lái)處理這種簡(jiǎn)單的故障。但這個(gè)其實(shí)做的也比較有限，就是說(shuō)我的這種能夠自愈的程序，都是根據(jù)具體場(chǎng)景的，并不是所有的東西都可以做。比如說(shuō)清理日志、殺讀庫(kù)大查詢，以及需要加一些表空間這些場(chǎng)景，類似這種比較固定的會(huì)采用自愈來(lái)做，其他的嘗試倒不是太多。

石鵬：嗯嗯，這個(gè)問(wèn)題其實(shí)比較前沿，并且涉獵的范圍是比較廣的。像自動(dòng)治愈，其實(shí)Zabbix也有一些相關(guān)的功能，它可以去配置action，當(dāng)發(fā)現(xiàn)告警，有問(wèn)題，我就可以綁定腳本去做一下處理。

但這個(gè)東西要做到什么程度，或者說(shuō)要用什么技術(shù)來(lái)打造這個(gè)底座，可能都會(huì)有些差別。

蔡翔華：是的，因?yàn)槲矣X(jué)得Prometheus和Zabbix或者說(shuō)其他平臺(tái)，都支持調(diào)action、調(diào)腳本去做一些重啟，但是我覺(jué)得關(guān)鍵問(wèn)題的點(diǎn)是在于你敢不敢做這個(gè)事情。

因?yàn)槲覀冎牢覀兊沫h(huán)境其實(shí)是很復(fù)雜的。比方說(shuō)，我發(fā)覺(jué)數(shù)據(jù)庫(kù)宕了，服務(wù)停了，我敢不敢通過(guò)這個(gè)服務(wù)自己切過(guò)去。因?yàn)楹芏鄷r(shí)候并不是數(shù)據(jù)庫(kù)本身的問(wèn)題，是網(wǎng)絡(luò)的問(wèn)題，網(wǎng)絡(luò)抖動(dòng)了，監(jiān)控?cái)?shù)據(jù)拿不到了。這個(gè)是非常依賴于整個(gè)整體環(huán)境的，你可能要想到方方面面，這個(gè)規(guī)則會(huì)非常復(fù)雜。你可能在做服務(wù)自愈的時(shí)候，還要去對(duì)其他的東西做一個(gè)完全的檢查，確保其他東西是沒(méi)有問(wèn)題的。

所以不說(shuō)服務(wù)自愈，哪怕在我們?nèi)粘５墓收咸幚懋?dāng)中，也很依賴于經(jīng)驗(yàn)。就是說(shuō)這個(gè)東西是能做的，但是我們不太敢，因?yàn)橐紤]的要素很多，就不太敢去直接做自愈這一塊。

石鵬：沒(méi)錯(cuò)，本身其實(shí)它是一個(gè)體系化的工程，不僅僅是跟監(jiān)控相關(guān)。我這邊的一個(gè)想法是這樣，關(guān)于自動(dòng)治愈這塊，我們可能還是要更多去依靠業(yè)務(wù)側(cè)的能力。就是說(shuō)，業(yè)務(wù)側(cè)要具備一些這種架構(gòu)設(shè)計(jì)上的考量，比如說(shuō)架構(gòu)的柔性，可以自己去做限流、降級(jí)、做熔斷，這要求業(yè)務(wù)側(cè)有這樣的能力才可以，而不是說(shuō)僅僅依靠監(jiān)控系統(tǒng)去做某些動(dòng)作觸發(fā)。

至于說(shuō)一些算法和策略的話，之前美圖這邊也是有過(guò)一些簡(jiǎn)單的嘗試，應(yīng)用不算非常廣泛。但業(yè)界的話，DataOps、AIOps的概念也是比較火熱，這些東西在像BAT這些公司其實(shí)也有一些實(shí)際的應(yīng)用已經(jīng)在落地了。

之前我們做的話，有做這么幾個(gè)小東西，關(guān)于故障預(yù)測(cè)是有這么幾個(gè)算法：有同期的數(shù)據(jù)比較、同期的振幅比較、有一個(gè)移動(dòng)平均算法、然后再有一個(gè)變點(diǎn)監(jiān)測(cè)。然后這幾個(gè)的話，可以簡(jiǎn)單說(shuō)一下思路，其實(shí)也比較好理解。

同期數(shù)據(jù)，是我按照周期，比如說(shuō)今天某個(gè)時(shí)間點(diǎn)這個(gè)數(shù)據(jù)，我去比較昨天這個(gè)點(diǎn)是什么樣子的，去比較數(shù)據(jù)；
振幅，其實(shí)它就相對(duì)更柔性一點(diǎn)，里面會(huì)給你加上一個(gè)權(quán)重，加上一個(gè)比例，比如正態(tài)分布里邊的3-sigma，作為振幅系數(shù)去比較同期的數(shù)據(jù)，看在算上振幅之后，你是不是已經(jīng)超出了，去做一個(gè)預(yù)測(cè)；
變點(diǎn)監(jiān)測(cè)，就是說(shuō)我整體的數(shù)據(jù)曲線是什么樣子的，突然出現(xiàn)了一個(gè)離我正常預(yù)測(cè)曲線偏離非常遠(yuǎn)的一個(gè)點(diǎn)，這種的話會(huì)有一個(gè)這樣的算法來(lái)做這個(gè)事情。

然后這塊相對(duì)比較成熟的工具的話，像騰訊之前有開源的運(yùn)維學(xué)件METIS，它里面集成了非常多的算法模型，這個(gè)有興趣的同學(xué)可以去做一些了解。

Q5：監(jiān)控大屏是怎么設(shè)計(jì)的？

蔡翔華：首先從技術(shù)本身來(lái)說(shuō)，5.0版本可以看到Zabbix的UI都很不錯(cuò)，可以很多的組、主機(jī)都往大屏里面去拖。大屏的話，我們大概會(huì)分幾塊：

第一塊是整個(gè)系統(tǒng)運(yùn)行狀態(tài)。我可能整個(gè)系統(tǒng)有從用戶登錄到用戶支付，包括到購(gòu)物車等等，有一個(gè)鏈路。我對(duì)于每個(gè)鏈路其實(shí)都會(huì)有一個(gè)監(jiān)控，它每一個(gè)S組 Service的組，那么Service的組里面包括它的應(yīng)用、數(shù)據(jù)庫(kù)緩存、應(yīng)用系統(tǒng)甚至硬件服務(wù)器，一旦這里有任何東西出問(wèn)題之后，直接會(huì)在大屏上顯示一個(gè)警告，那么我就會(huì)知道現(xiàn)在整個(gè)生產(chǎn)環(huán)節(jié)哪個(gè)系統(tǒng)是有問(wèn)題的。

那么另外就是一個(gè)summary，一個(gè)overview的全局的導(dǎo)覽，因?yàn)橐坏┪抑肋@個(gè)有問(wèn)題，我就希望更加細(xì)化知道這個(gè)東西哪里有問(wèn)題。那么在下面就會(huì)有一個(gè)trigger list的問(wèn)題列表，就是說(shuō)有哪些觸發(fā)器被觸發(fā)了，我會(huì)看到比方說(shuō)，數(shù)據(jù)庫(kù)端口不通了，還是說(shuō)磁盤空間已經(jīng)滿了。下面會(huì)有trigger list，然后這個(gè)trigger list會(huì)按照故障等級(jí)是disaster還是warning，同時(shí)對(duì)應(yīng)的管理員或者運(yùn)維人員也會(huì)收到這個(gè)短信，就知道要立即去處理了。

所以我們盡可能就在大屏里從兩方面來(lái)把控，一方面從大的來(lái)講，有一個(gè)over view看到全局，從小的來(lái)講，我要知道我的故障發(fā)生在哪里。基本上保證這兩個(gè)要素在大屏里面就OK了。

劉宇：我們這邊大屏其實(shí)主要還是應(yīng)用的維度以及網(wǎng)絡(luò)流量的維度為主。比如說(shuō)從公網(wǎng)的一個(gè)出口和入口的流量來(lái)看會(huì)不會(huì)有大面積的一個(gè)問(wèn)題。如果發(fā)現(xiàn)已經(jīng)達(dá)到外面防火墻或者它流量的一個(gè)閾值了，就可以迅速定位問(wèn)題。

如果是細(xì)節(jié)的話，我們會(huì)在大型活動(dòng)前夕，梳理活動(dòng)鏈路上的所有應(yīng)用，根據(jù)應(yīng)用的維度來(lái)設(shè)計(jì)這樣一個(gè)大屏。大屏可以看到鏈路上所有應(yīng)用、數(shù)據(jù)庫(kù)或者是中間件的情況，一旦哪個(gè)應(yīng)用的QPS高了，或者是其他壓力的情況，就可以第一時(shí)間定位到問(wèn)題出現(xiàn)在哪里，是這樣一個(gè)思路來(lái)做。

石鵬：監(jiān)控大屏做得好，確實(shí)可以輔助我們技術(shù)同學(xué)去更快地定位和排查問(wèn)題，還有一個(gè)比較重要的點(diǎn)，我是這么想的，就是老板會(huì)關(guān)注。有些公司會(huì)把大屏設(shè)計(jì)得非常有科技感，讓老板看的話，可能老板也覺(jué)得我的技術(shù)團(tuán)隊(duì)還挺牛的。當(dāng)然這是一個(gè)題外話。

前面蔡老師和劉老師都給了一些建設(shè)上的思路，就是你應(yīng)該去包含哪些數(shù)據(jù)，應(yīng)該怎么去做。這方面的話，我的一個(gè)思考是你可能要去做服務(wù)的梳理，然后可以以分塊、分業(yè)務(wù)或者說(shuō)按照分層的方式來(lái)做。

分塊的話，就是你按照業(yè)務(wù)線來(lái)分。你公司可能有很多塊業(yè)務(wù)，然后按照不同的業(yè)務(wù)去提供一個(gè)視角。在每個(gè)業(yè)務(wù)里，你可以去做分層，分層的意思就是說(shuō)可以把整個(gè)鏈路，從客戶端一直到CDN、 DNS鏈路，然后到LB入口層，以及應(yīng)用這一層是什么樣的，再關(guān)聯(lián)到后面的一些后端資源，像數(shù)據(jù)庫(kù)、緩存這些東西，還有一些其他的周邊依賴，按照這樣分層的方式來(lái)做。

具體實(shí)踐的話，可以跟大家做個(gè)預(yù)告，最近我們美圖有一些實(shí)踐經(jīng)驗(yàn)可以分享，近期會(huì)把一些完整的設(shè)計(jì)思路和細(xì)節(jié)放出來(lái)，大家可以期待一下，持續(xù)關(guān)注dbaplus社群的發(fā)文。

關(guān)于技術(shù)實(shí)現(xiàn)方面，我簡(jiǎn)單贅述兩句。我們公司的監(jiān)控大屏是用了Grafana來(lái)做的，Grafana可能已經(jīng)成為了事實(shí)上的監(jiān)控UI、數(shù)據(jù)可視化的標(biāo)準(zhǔn)了，它可以后面去接各種各樣的數(shù)據(jù)源，然后你各個(gè)監(jiān)控系統(tǒng)、各種數(shù)據(jù)原理的數(shù)據(jù)可以統(tǒng)一來(lái)展示。

這里需要感謝一個(gè)社區(qū)的插件，叫Flow Charting，這個(gè)插件可以非常好地去做監(jiān)控鏈路的事情，就是你可以用這個(gè)插件去把整個(gè)鏈路關(guān)鍵環(huán)節(jié)，以這種圖的方式繪制出來(lái)，然后給每一個(gè)點(diǎn)、每一條線綁定上監(jiān)控?cái)?shù)據(jù)，最后生成的圖就動(dòng)起來(lái)了，就可以看到一個(gè)全局性的鏈路狀態(tài)：從入口一直到后端資源，包括各種依賴，當(dāng)前它的狀態(tài)是什么樣子的。

當(dāng)然這個(gè)前提是，你整個(gè)鏈路的監(jiān)控?cái)?shù)據(jù)是要完備的，然后你才可以借助這個(gè)插件去把它呈現(xiàn)出來(lái)，大概是這個(gè)樣子的，在這個(gè)圖上就一目了然了。

Q6：自動(dòng)化運(yùn)維管理是Zabbix和Prometheus同時(shí)使用還是二選一更合適？

蔡翔華：如果是個(gè)純?nèi)萜骰?，就說(shuō)你環(huán)境里面全是Docker，那么說(shuō)實(shí)話我也不推薦你去使用Zabbix。

因?yàn)閆abbix對(duì)容器的監(jiān)控，雖然官方已經(jīng)開始重視了，甚至說(shuō)現(xiàn)在也支持了Prometheus的很多metrics和exporter這種方式去做監(jiān)控，就是它也可以原生的去支持Prometheus這些東西，但相對(duì)來(lái)說(shuō)，Prometheus在容器化監(jiān)控這邊還是會(huì)更好一些。

如果你的監(jiān)控需求是又要監(jiān)控硬件服務(wù)器，又要監(jiān)控中間件，又要監(jiān)控業(yè)務(wù)指標(biāo)，那么我推薦使用Zabbix，因?yàn)閆abbix覆蓋的面會(huì)更廣一些。

的確我覺(jué)得任何需求Zabbix和Prometheus都可以去做，但是從實(shí)現(xiàn)成本來(lái)說(shuō)，相對(duì)于Prometheus，你的服務(wù)環(huán)境越復(fù)雜，Zabbix可能就越適合這種比較復(fù)雜的異構(gòu)的環(huán)境。

劉宇：我們目前公司情況是兩個(gè)都在用，的確是偏容器的會(huì)往Prometheus優(yōu)先考慮，如果是舊的，比如說(shuō)是有偏服務(wù)化的這種監(jiān)控，也會(huì)慢慢地往Prometheus做一些遷移。

如果你的環(huán)境是一種就可以滿足的話，建議還是一種，因?yàn)楫吘怪恍枰S護(hù)一種技術(shù)棧就可以了?；蛘呤悄憧梢宰鲆恍┢?，比如說(shuō)把一些不變的放在一種上面，經(jīng)常會(huì)變的放在另外一種上面。盡量去減少你維護(hù)的技術(shù)棧。如果你的環(huán)境比較簡(jiǎn)單的話，只用一種，當(dāng)然是最好了。

石鵬：其實(shí)還是看場(chǎng)景，美圖跟劉老師這邊比較類似，我們也是多種監(jiān)控工具在用，不過(guò)我們現(xiàn)在沒(méi)有在用Zabbix，是用了Open-Falcon、Prometheus、InfluxDB，還有很多基于大數(shù)據(jù)的一些流式處理的組件，我們都是混合在用。

主要還是看你具體的需求和場(chǎng)景，沒(méi)有銀彈，沒(méi)有說(shuō)一個(gè)工具可以非常合適去搞定所有事情。當(dāng)然它有可能有能力，但是它并不一定特別合適。至于具體的選擇上，還是要看具體場(chǎng)景。比較明確的一個(gè)思路可能就是要看你的監(jiān)控對(duì)象到底是容器還是非容器，它是這種易變的還是比較穩(wěn)定態(tài)的。這兩個(gè)思路的話，也是跟蔡老師和劉老師比較一致的。

Q7：Zabbix和Prometheus在配合使用時(shí)，應(yīng)該怎么分工？怎么落地？

蔡翔華：其實(shí)從場(chǎng)景來(lái)說(shuō)，Prometheus更適合容器。你可以看一下整個(gè)環(huán)境里，容器和Zabbix的占比，像剛才劉老師說(shuō)的，這兩者數(shù)據(jù)其實(shí)是可以互相使用、互相監(jiān)控甚至是互相觸發(fā)報(bào)警，那么在Zabbix現(xiàn)在其實(shí)已經(jīng)原生支持了Prometheus的這些exporter的功能，即使你沒(méi)有Prometheus后端，Zabbix也可以直接去exporter上拿一些數(shù)據(jù)，通過(guò)Zabbix的一些邏輯和機(jī)制去報(bào)警。那么相同的，Zabbix也可以通過(guò)action把這些數(shù)據(jù)扔給Prometheus。

也就是說(shuō)，你可以把它們兩者當(dāng)中的一個(gè)作為數(shù)據(jù)的采集器，另外一個(gè)作為整個(gè)數(shù)據(jù)的邏輯處理的功能，類似于alert manager或者是在zabbix server一樣，這樣做的好處就是說(shuō)，收集數(shù)據(jù)會(huì)非常方便，比方說(shuō)Prometheus不能收集硬件數(shù)據(jù)，但Zabbix可以收集，我們就用Zabbix收集，同時(shí)把它的數(shù)據(jù)扔給Prometheus，做一個(gè)統(tǒng)一的報(bào)警。這樣的確還是要維護(hù)兩個(gè)平臺(tái)，但是相對(duì)來(lái)說(shuō)，維護(hù)成本會(huì)有所降低，不需要對(duì)Zabbix那邊做太多的模板，它其實(shí)只是一個(gè)數(shù)據(jù)采集器。

那么穩(wěn)定性、可用性、性能及監(jiān)控這些東西，其實(shí)也基本上可以基于Prometheus現(xiàn)成的這些規(guī)則、Zabbix現(xiàn)成的這些模板來(lái)做。其實(shí)Zabbix社區(qū)里面也有很多模板可以提供到。

關(guān)鍵我覺(jué)得有一點(diǎn)就是，我們要思考它模板里面提供的東西，是否是我真的需要的，因?yàn)楹芏鄷r(shí)候大家覺(jué)得我啥都要監(jiān)控，但事實(shí)上不是這樣子，只有真正需要關(guān)注的點(diǎn)，才是需要監(jiān)控的東西。所以說(shuō)大家在部署監(jiān)控之前，要先思考一下監(jiān)控的目的是什么。

劉宇：我的看法其實(shí)還是這樣，比如說(shuō)偏基礎(chǔ)的，像主機(jī)、網(wǎng)絡(luò)這種可以用Zabbix來(lái)監(jiān)控，偏服務(wù)類的和容器的，就用Prometheus來(lái)做監(jiān)控。

我們監(jiān)控Redis的一個(gè)集群，在以前沒(méi)有Grafana或者Prometheus的情況下，用Zabbix去看集群的整體情況就會(huì)比較麻煩，因?yàn)閆abbix依賴的監(jiān)控的一個(gè)點(diǎn)還是以host為基礎(chǔ)的，所以你去看整個(gè)服務(wù)的話會(huì)比較麻煩。而Prometheus因?yàn)樗菚r(shí)序的數(shù)據(jù)，可以方便地去打一些你想要的標(biāo)簽，這樣就可以比較方便地監(jiān)控單個(gè)服務(wù)上一個(gè)整體的情況，所以服務(wù)這塊來(lái)說(shuō)，還是Prometheus比較方便。而前面其他蔡老師也說(shuō)了，比如說(shuō)硬件這種還是Zabbix比較好用。

石鵬：OK，這個(gè)點(diǎn)上我們理解還是非常一致的。像現(xiàn)在美圖這邊，就單講Prometheus和Open-Falcon，我們基礎(chǔ)的這些監(jiān)控都是在Open-Falcon里，然后容器會(huì)在Prometheus里。

這里需要補(bǔ)充一下我們的環(huán)境，現(xiàn)在我們所有業(yè)務(wù)都是基于云上來(lái)做的，業(yè)務(wù)容器化程度的話，應(yīng)該是只有個(gè)別服務(wù)沒(méi)有容器化，整個(gè)比例應(yīng)該95%以上都是容器化的。但即使是這樣，我們也沒(méi)有完全摒棄掉Open-Falcon。

我們?cè)谶@個(gè)容器里，容器層的這些服務(wù)，像servive、pod這些監(jiān)控，比如說(shuō)業(yè)務(wù)上暴露出來(lái)的metrics，這些東西我們都是用Prometheus來(lái)做的。但是像k8s node節(jié)點(diǎn)、ECS，它本身的一些監(jiān)控，包括一些網(wǎng)絡(luò)質(zhì)量的監(jiān)控，還是要有一個(gè)更適合做這種基礎(chǔ)監(jiān)控的平臺(tái)來(lái)做。我們就是在Open-Falcon里做的。

所以主要還是看場(chǎng)景，怎么去側(cè)重就是看你具體的需求了。

Q8：如果已經(jīng)部署了Zabbix，怎么平穩(wěn)過(guò)渡到Prometheus？

蔡翔華：如果已經(jīng)部署了Zabbix，我估計(jì)你直接通過(guò)數(shù)據(jù)庫(kù)去導(dǎo)入這種方式會(huì)很難做，因?yàn)樗谋斫Y(jié)構(gòu)，包括一個(gè)是時(shí)序數(shù)據(jù)庫(kù)，一個(gè)是TSDB，就沒(méi)辦法直接做。

我建議如果真的要過(guò)渡到Prometheus的話，可以仍然使用Zabbix agent，在數(shù)據(jù)采樣完之后，把它扔到Prometheus，觸發(fā)一些action去提供給Prometheus。這是一種中轉(zhuǎn)方式。

另外一種方式，我會(huì)通過(guò)一些ansible去部署一些Prometheus expoter到那些機(jī)器上去，把這些數(shù)據(jù)扔給Prometheus。其實(shí)也就回到剛才那個(gè)問(wèn)題，我這邊所有的數(shù)據(jù)都可以扔給Prometheus使用，去觸發(fā)報(bào)警，這都OK的。

劉宇：如果真的要把Zabbix遷移到Prometheus，就是涉及到一個(gè)監(jiān)控遷移的過(guò)程。我這邊的建議還是按照Zabbix先模塊劃分，比如說(shuō)其中一個(gè)模塊準(zhǔn)備遷到Prometheus，然后首先會(huì)把這個(gè)模塊Prometheus的監(jiān)控也加上，會(huì)把兩邊的監(jiān)控進(jìn)行一個(gè)比較，至少Prometheus能把原來(lái)Zabbix的監(jiān)控都能覆蓋掉，不僅是監(jiān)控的覆蓋，還有告警覆蓋，這樣一個(gè)并行的過(guò)程。

最終完全能夠達(dá)到一樣的效果，我就可以把原來(lái)Zabbix相關(guān)模塊的監(jiān)控給下掉，是這樣一個(gè)建議的路徑。

蔡翔華：對(duì)，而且其實(shí)Prometheus和Zabbix同時(shí)存在并不沖突，并不是說(shuō)兩者只能選其一。其實(shí)可以說(shuō)，我先把Prometheus的exporter規(guī)則都配上去，兩邊同時(shí)監(jiān)控，然后再根據(jù)需求，把Zabbix給下了，也OK，這是不存在沖突的。

石鵬：沒(méi)錯(cuò)，既然你要平滑，那兩邊同時(shí)有，這應(yīng)該是最平滑的。我們之前是有從Zabbix遷到了Open-Falcon，遷移經(jīng)過(guò)了一個(gè)比較長(zhǎng)的耗時(shí)，大概用了一年多的時(shí)間。其實(shí)就是你把另一邊的監(jiān)控也布起來(lái)，同時(shí)監(jiān)控，然后逐步去下舊監(jiān)控。在這個(gè)過(guò)程里，你還可以去比較兩者之間是不是有差異，是不是都能滿足需求，這樣的話應(yīng)該是比較平滑的。

Q9：分布式鏈路的可觀測(cè)性和端到端診斷怎么做？

蔡翔華：分布式鏈路其實(shí)我們沒(méi)有用Zabbix，因?yàn)榉植际芥溌芬紤]上下游的關(guān)系，所以我們會(huì)基于APM去做。現(xiàn)在像業(yè)內(nèi)比較流行的CAT，可以參考這些去做。

端到端的偵測(cè)的話，其實(shí)Zabbix也支持，它支持兩種方式：

一個(gè)是它可以在本地跑一些腳本去做，就是說(shuō)我這個(gè)檢測(cè)是從Zabbix某個(gè)Agen端出發(fā)，到另外一臺(tái)目標(biāo)機(jī)器，而不是通過(guò)Zabbix server去做檢測(cè)。所以說(shuō)這是Zabbix 提供的另外一種方式，Zabbix active的一種方式，它可以去實(shí)現(xiàn)這種端到端的偵測(cè)。Zabbix active的監(jiān)控方式也是比較好的一種方式，可以減輕Zabbix server端的壓力，或proxy端的壓力，能提供更豐富的一些監(jiān)控。

劉宇：這塊因?yàn)?/span>Prometheus是一個(gè)基于數(shù)值的監(jiān)控，對(duì)于這種全鏈路的話，一般不太會(huì)用Prometheus來(lái)做，基本上會(huì)用APM的一些分布式鏈路追蹤的工具，比如skywalking等來(lái)做。

還會(huì)通過(guò)一些日志系統(tǒng)來(lái)做分布式的監(jiān)控，在鏈路上，提前寫入一些標(biāo)簽，這樣從始至終都可以拿到整個(gè)鏈路上的一個(gè)關(guān)系，就可以做一些分布式鏈路上的監(jiān)控的東西。

石鵬：是的，這也就回到我們前面討論的，沒(méi)有銀彈，沒(méi)有一種技術(shù)棧可以解決所有需求的。包括Zabbix和Prometheus，其實(shí)更關(guān)注的還是在偏服務(wù)端，如果是應(yīng)用端的話，其實(shí)還是要依賴一些APM的工具。就像劉老師說(shuō)的Apache的skywalking，還有像鷹眼、基于open tracing的其他工具。這些東西其實(shí)都是一種思路。

還有一些有技術(shù)能力的公司，會(huì)選擇自研一些APM工具，需要自己去開發(fā)各種SDK，然后需要遷到客戶端，去上報(bào)數(shù)據(jù)，是這個(gè)樣子的。

其實(shí)端到端整體的建設(shè)思路應(yīng)該是分段的，客戶端的是一段，中間鏈路是一段，服務(wù)端又是另外一側(cè)。所以想做端到端，很難說(shuō)用一個(gè)工具就可以完全覆蓋起來(lái)。

現(xiàn)在基于云原生、微服務(wù)這些發(fā)展的比較火熱，可能會(huì)有一些各個(gè)服務(wù)之間調(diào)用鏈路的服務(wù)治理相關(guān)的監(jiān)控需求，可能也不是說(shuō)通過(guò)Prometheus或Zabbix就可以很好地去完成。還是要看需求場(chǎng)景，選擇更合適的工具，并且組合起來(lái)使用。

Q10：大規(guī)模場(chǎng)景下，Prometheus和Zabbix的性能和成本哪個(gè)比較低？

蔡翔華：首先我覺(jué)得還是看應(yīng)用場(chǎng)景，因?yàn)榇笠?guī)模場(chǎng)景下，要看這個(gè)場(chǎng)景是容器多還是非容器環(huán)境多，這是一個(gè)主要依據(jù)。

Zabbix性能的話，其實(shí)瓶頸主要是在數(shù)據(jù)庫(kù)，只要把數(shù)據(jù)庫(kù)的優(yōu)化做得足夠好，其實(shí)開頭也說(shuō)了，業(yè)內(nèi)也有做到40萬(wàn)NVPS的這種案例，已經(jīng)是比較變態(tài)了。那無(wú)非就是說(shuō)，去做數(shù)據(jù)庫(kù)分區(qū)分庫(kù)拆表、加SSD存儲(chǔ)，通過(guò)這種方式。

成本的話，我個(gè)人覺(jué)得在底層資源滿足的前提下，成本應(yīng)該都OK。因?yàn)镻rometheus是基于exporter，Zabbix是基于Agent，通過(guò)Zabbix agent，配合自動(dòng)發(fā)現(xiàn)和低級(jí)別發(fā)現(xiàn)的這種方式去實(shí)現(xiàn)自動(dòng)化。

配置成本可能Zabbix會(huì)低很多，因?yàn)槎际腔赨I去做，而Prometheus是基于配置文件去做，這個(gè)可能Zabbix會(huì)更好些。所以我綜合成本，覺(jué)得Zabbix稍微會(huì)好一些，但還是取決于你的場(chǎng)景里有多少虛擬化。

劉宇：我覺(jué)得如果是性能的話，通過(guò)一些分區(qū)的手段都能解決。但如果是非常大的規(guī)模，通過(guò)Zabbix，其實(shí)它的數(shù)據(jù)庫(kù)瓶頸還是比較嚴(yán)重的，這塊還是需要一些比較好優(yōu)化手段才能解決。

監(jiān)控采集的agent的方式而言，我覺(jué)得Prometheus的exporter做得非常全面，像我們以前用Zabbix，基本上有很多東西監(jiān)控都是自己去開發(fā)的；而現(xiàn)在用Prometheus，基本上對(duì)于這種采集器的開發(fā)都沒(méi)有了，用社區(qū)的就可以全部解決了。所以在采集的層面上，去實(shí)現(xiàn)它最底層和服務(wù)的一個(gè)數(shù)據(jù)采集，我感覺(jué)Prometheus的成本會(huì)更低一點(diǎn)。

當(dāng)然因?yàn)?span style="color: rgb(62, 62, 62);font-family: Helvetica, Arial, sans-serif;font-size: 15px;letter-spacing: 0.5px;">Prometheus相對(duì)來(lái)說(shuō)還是一個(gè)微服務(wù)的架構(gòu)，它的所有組件都是分開的，在搭建成本、學(xué)習(xí)成本會(huì)稍微高一點(diǎn)。

石鵬：其實(shí)還是要針對(duì)個(gè)性化的場(chǎng)景去做一些選擇。成本的話，如果說(shuō)你的環(huán)境是一個(gè)比較純粹的，要么是全容器，要么是虛擬化或者物理環(huán)境，你就選一種就好了。如果說(shuō)你是異構(gòu)的話，可能就不可避免的要選兩種同時(shí)維護(hù)。這兩種里如果有所側(cè)重的話，成本其實(shí)就會(huì)有所側(cè)重，所以還是看你的具體需求。

選型，在于抓住監(jiān)控的核心

對(duì)于大家比較關(guān)注的監(jiān)控工具選型，用一句話來(lái)概括就是：沒(méi)有最好的，只有最適合的，要具體場(chǎng)景具體分析。

總的來(lái)講，如果是比較純粹的環(huán)境，比如是純物理機(jī)、純虛擬機(jī)，更關(guān)注一些偏基礎(chǔ)設(shè)施層面的需求的話，Zabbix會(huì)是一個(gè)非常不錯(cuò)的選項(xiàng)；如果是容器化場(chǎng)景，Prometheus的適應(yīng)性會(huì)更好；如果是異構(gòu)的話，建議兩者或更多其它工具結(jié)合起來(lái)使用。

縱觀整個(gè)監(jiān)控發(fā)展史，其實(shí)監(jiān)控方案一直是跟隨著行業(yè)技術(shù)、業(yè)務(wù)發(fā)展不斷變化的。到現(xiàn)在，比較火熱的技術(shù)像5G互聯(lián)、物聯(lián)網(wǎng)、人工智能……各種技術(shù)層出不窮，我們需要去監(jiān)控的目標(biāo)對(duì)象也一直發(fā)生著變化。隨著多云、混合云架構(gòu)在更多行業(yè)里持續(xù)落地開花，容器、云原生等各種技術(shù)的蓬勃發(fā)展，對(duì)監(jiān)控系統(tǒng)其實(shí)也提出了新的需求。

技術(shù)更新迭代速度越來(lái)越快，很多同學(xué)難免會(huì)有一些焦慮的情緒。這種焦慮是不可避免的，我們應(yīng)該做的還是要去抓住事物的本質(zhì)。

針對(duì)監(jiān)控這個(gè)需求，也就是說(shuō)監(jiān)控的核心是什么？

監(jiān)控在高度抽象之后，無(wú)非可以這么來(lái)分：監(jiān)控?cái)?shù)據(jù)的暴露、數(shù)據(jù)的采集和傳輸、監(jiān)控?cái)?shù)據(jù)的存儲(chǔ)和處理……這個(gè)過(guò)程里，包括各種優(yōu)化、各種格式化處理等；最后是我們?cè)趺慈ビ煤帽O(jiān)控?cái)?shù)據(jù)，把監(jiān)控?cái)?shù)據(jù)的價(jià)值最大化，比如說(shuō)我們?nèi)プ鰣?bào)表展示、做數(shù)據(jù)分析，像前面講到的用一些DataOps、AIOps的算法、能力介入，把監(jiān)控?cái)?shù)據(jù)的價(jià)值挖掘出來(lái)。

這其實(shí)就是監(jiān)控系統(tǒng)所要承載的功能，我們要做的就是抓住這些核心路徑里的原理，然后掌握它，其實(shí)也就OK了。

另外，我們需要保持對(duì)這些新鮮事物的熱忱，保持對(duì)技術(shù)的敏銳，要有行業(yè)發(fā)展趨勢(shì)的感知能力。比如企業(yè)上云，其實(shí)從行業(yè)報(bào)告來(lái)看，從去年就已經(jīng)過(guò)了上云的拐點(diǎn)，會(huì)有越來(lái)越多公司選擇把服務(wù)遷移到云上；再看容器和云原生，會(huì)有越來(lái)越多的周邊生態(tài)完善起來(lái)。我們要有這樣的感知能力，要能夠感受到這個(gè)行業(yè)發(fā)展的脈搏，然后做好相應(yīng)的技術(shù)儲(chǔ)備，只有這樣，我們才可能在技術(shù)的浪潮里做到從容不迫，才能夠乘風(fēng)破浪。

特別推薦一個(gè)分享架構(gòu)+算法的優(yōu)質(zhì)內(nèi)容，還沒(méi)關(guān)注的小伙伴，可以長(zhǎng)按關(guān)注一下：

萬(wàn)字談監(jiān)控：解答Zabbix與Prometheus選型疑難

長(zhǎng)按訂閱更多精彩▼
如有收獲，點(diǎn)個(gè)在看，誠(chéng)摯感謝

免責(zé)聲明：本文內(nèi)容由21ic獲得授權(quán)后發(fā)布，版權(quán)歸原作者所有，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。文章僅代表作者個(gè)人觀點(diǎn)，不代表本平臺(tái)立場(chǎng)，如有問(wèn)題，請(qǐng)聯(lián)系我們，謝謝！