www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當(dāng)前位置：首頁 > 公眾號精選 > 架構(gòu)師社區(qū)

Netflix是怎樣做系統(tǒng)監(jiān)控的？

時間：2020-12-25 16:40:58

關(guān)鍵字：軟件監(jiān)控系統(tǒng)

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]本文闡述了 Netflix 的系統(tǒng)監(jiān)控實踐：自研 Telltale，成功運行并監(jiān)控著 Netflix 100 多個生產(chǎn)應(yīng)用程序的運行狀況。

原文鏈接：https://netflixtechblog.com/telltale-netflix-application-monitoring-simplified-5c08bfa780ba

作為知名的流媒體巨頭，Netflix 在全球擁有近 2 億訂閱用戶，服務(wù)遍及多個國家。本文闡述了 Netflix 的系統(tǒng)監(jiān)控實踐：自研 Telltale，成功運行并監(jiān)控著 Netflix 100 多個生產(chǎn)應(yīng)用程序的運行狀況。

1 難忘的經(jīng)歷

相信很多運維人都有過這樣的經(jīng)歷：

監(jiān)控系統(tǒng)某個指標(biāo)超過閾值，觸發(fā)告警。大半夜里，你被緊急召喚。半睜著眼，你滿臉疑惑：“系統(tǒng)真出問題了嗎，還是僅僅需要調(diào)整下告警？上一次有人調(diào)整我們的告警閾值是在什么時候？有沒有可能是上游或者下游的服務(wù)出現(xiàn)了問題？”

鑒于這是一次非常重要的應(yīng)用告警，因此你不得不從床上爬起來，迅速打開電腦，然后瀏覽監(jiān)控儀表盤來追蹤問題源頭。忙了半天，你還沒確認這個告警是來自于系統(tǒng)的問題，但也意識到，從海量數(shù)據(jù)中尋找線索時，時間正在流逝。你必須盡快定位告警的原因，并祈禱系統(tǒng)穩(wěn)定運行。

對我們的用戶來講，穩(wěn)健的 Netflix 服務(wù)至關(guān)重要。當(dāng)你坐下來看《養(yǎng)虎為患》時，你肯定希望它能順利播放。

多年來，我們從經(jīng)常在深夜被召喚的工程師那里了解到應(yīng)用程序監(jiān)控的痛點：

過多的告警
太多滾動瀏覽的儀表盤
太多的配置
過多的維護

https://netflixtechblog.com/full-cycle-developers-at-netflix-a08c31f83249

2 Telltale

我們的流媒體團隊需要一個全新的監(jiān)控系統(tǒng)，可以讓團隊成員快速地診斷和修復(fù)問題；因為在系統(tǒng)告警的緊急情況下，每一秒都至關(guān)重要！我們的 Node 團隊需要一個僅需一小撮人就能運維大型集群的系統(tǒng)。

因此，我們構(gòu)建了 Telltale。

Netflix是怎樣做系統(tǒng)監(jiān)控的？

Telltale 監(jiān)控時間軸

?Telltale 的特性

1. 匯集監(jiān)控數(shù)據(jù)源，創(chuàng)建整體監(jiān)控視圖

Telltale 匯集了各種監(jiān)控數(shù)據(jù)源，從而能創(chuàng)建關(guān)于應(yīng)用程序運行狀況的整體監(jiān)控視圖。

2. 多維度判斷應(yīng)用程序的健康狀況

Telltale 可以通過多個維度判斷一個應(yīng)用程序的健康情況，而無需根據(jù)單一指標(biāo)頻繁調(diào)整告警閾值。

3. 及時告警

因為我們知道應(yīng)用程序在什么情況下是正常的，所以能在應(yīng)用程序有異常趨勢時及時通知應(yīng)用程序的所有者。

4. 顯示關(guān)鍵數(shù)據(jù)

指標(biāo)是了解應(yīng)用程序運行狀態(tài)的關(guān)鍵。但很多時候，你擁有太多的指標(biāo)、太多的圖表以及太多的監(jiān)控儀表盤。而 Telltale 僅顯示應(yīng)用程序中有用的相關(guān)數(shù)據(jù)及其上游和下游服務(wù)的數(shù)據(jù)。

5. 用顏色區(qū)分問題的嚴(yán)重程度

我們使用不同的顏色來表示問題的嚴(yán)重程度（除選擇顏色之外，還可以讓 Telltale 顯示不同的數(shù)字），以便運維人員一眼就能判斷出應(yīng)用程序的運行狀況。

6. 高亮提示

我們還會對一些監(jiān)控事件進行高亮提示，比如局部區(qū)域的網(wǎng)絡(luò)流量疏散及就近的服務(wù)部署，這些信息對于全面了解服務(wù)的健康情況至關(guān)重要，尤其是在真正發(fā)生系統(tǒng)故障的情況下。

這就是我們的 Telltale 監(jiān)控。它現(xiàn)已成功運行并提供監(jiān)控服務(wù)，監(jiān)控著 Netflix 100 多個生產(chǎn)應(yīng)用程序的運行狀況。

Netflix是怎樣做系統(tǒng)監(jiān)控的？

3應(yīng)用程序健康評估模型

微服務(wù)并非是孤立存在和運行的。它需要特定的依賴，與其他服務(wù)進行數(shù)據(jù)交互，甚至位于不同的AWS區(qū)域。

上面的調(diào)用圖是一個相對簡單的圖，其中涉及許多服務(wù)，實際的調(diào)用鏈可能會更深更復(fù)雜。一個應(yīng)用程序是系統(tǒng)生態(tài)的一部分，它的運行狀態(tài)可能會受到相關(guān)屬性變化的微弱影響，也有可能會受到區(qū)域范圍內(nèi)某些事件的影響從而發(fā)生根本性改變。canary的啟動可能會對應(yīng)用程序產(chǎn)生一定影響。在一定程度上，上游或下游服務(wù)的部署同樣也可以帶來一定的影響。

https://netflixtechblog.com/automated-canary-analysis-at-netflix-with-kayenta-3260bc7acc69

Telltale 通過使用多個維度的數(shù)據(jù)源構(gòu)建一個不斷自我優(yōu)化的模型來監(jiān)控應(yīng)用程序的健康度：

Atlas 時序指標(biāo)
區(qū)域網(wǎng)絡(luò)流量疏散
Mantis 實時流數(shù)據(jù)
基礎(chǔ)架構(gòu)變更事件
Canary 部署及使用
上、下游服務(wù)的運行狀況
表征 QoE 的相關(guān)指標(biāo)
告警平臺發(fā)出的報警

不同的數(shù)據(jù)源對應(yīng)用程序健康度的影響權(quán)重不同。例如，與錯誤率增加相比，響應(yīng)時間的增加對應(yīng)用程序的影響要小很多；錯誤代碼有很多，但是某些特定的錯誤代碼的影響要比其他錯誤代碼的影響大。

在服務(wù)下游部署 canary 可能不如在上游部署帶來的效果明顯

區(qū)域網(wǎng)絡(luò)流量轉(zhuǎn)移意味著某個區(qū)域的網(wǎng)絡(luò)流量降為零而另一個區(qū)域的網(wǎng)絡(luò)流量會加倍。你可以感受下不同的指標(biāo)對于監(jiān)控的影響。監(jiān)控指標(biāo)的具體含義決定了我們應(yīng)該如何科學(xué)有效地使用它來進行監(jiān)控。

https://netflixtechblog.com/project-nimble-region-evacuation-reimagined-d0d0568254d4

在構(gòu)建應(yīng)用程序健康狀況視圖時，Telltale 考慮了所有這些因素。

應(yīng)用程序健康評估模型是 Telltale 的核心。

4智能監(jiān)控

每個服務(wù)運維人員都知道告警閾值調(diào)整的難度。將閾值設(shè)置得太低，你會收到大量虛假告警。如果過度補償并放寬告警閾值，就會錯過重要的異常警告。這樣導(dǎo)致的最終結(jié)果是對告警缺乏信任。Telltale 可以幫助你免除不斷調(diào)整相關(guān)配置的繁瑣工作。

通過提供準(zhǔn)確的和嚴(yán)格管理的數(shù)據(jù)源，我們能讓應(yīng)用程序所有者的設(shè)置和配置過程變得更加容易。這些數(shù)據(jù)源通過按照一定的組合應(yīng)用到程序的配置中，以實現(xiàn)最常見的服務(wù)類型配置。

Telltale 可以自動追蹤服務(wù)之間的依賴關(guān)系，以構(gòu)建應(yīng)用程序健康評估模型中的拓撲。通過數(shù)據(jù)源管理以及拓撲監(jiān)測，在不用付出很大的努力情況下就能使配置保持最新狀態(tài)。那些需要手動實踐的一些場景仍然支持手動配置和調(diào)整。

沒有任何一個獨立的算法可以適用我們所有的監(jiān)控場景。因此，我們采用了混合算法，包括統(tǒng)計算法、基于規(guī)則的算法和機器學(xué)習(xí)算法。

不久后，我們將在 Netflix Tech Blog 上發(fā)表一篇針對我們監(jiān)控算法的文章。

Telltale 還具有分析器，可用于趨勢探測或內(nèi)存泄漏監(jiān)測。智能監(jiān)控意味著我們的用戶可以信賴我們的監(jiān)控結(jié)果。這表明故障發(fā)生時，用戶能更快地定位和解決系統(tǒng)異常問題。

5智能告警

智能監(jiān)控必然會促進智能告警。當(dāng) Telltale 檢測到應(yīng)用程序中的運行異常時，就會產(chǎn)生異常事件。團隊可以選擇通過 Slack、電子郵件或 PagerDuty（均由我們的內(nèi)部告警系統(tǒng)提供支持）進行告警。

如果該異常問題是由上游或下游系統(tǒng)引起的，則 Telltale 的上下文感知路由會提醒服務(wù)對應(yīng)的維護團隊。智能告警還意味著運維團隊針對特定異常只會收到一個通知，也就是說，告警風(fēng)暴已經(jīng)成為過去式。

Netflix是怎樣做系統(tǒng)監(jiān)控的？

Slack 中的 Telltale 通知示例

在系統(tǒng)出現(xiàn)問題時，掌握準(zhǔn)確的信息至關(guān)重要。我們的 Slack 告警程序還會啟動一個包含有關(guān)事件上下文信息的線程，提供 Telltale 識別到的異常問題信息及問題產(chǎn)生的原因。正確的上下文可以方便我們了解應(yīng)用程序的當(dāng)前狀態(tài)，以便值班運維的工程師能有針對性的定位和修復(fù)問題。

異常告警事件會不斷發(fā)展而且擁有自己的生命周期，因此及時更新事件狀態(tài)至關(guān)重要。告警異常是好轉(zhuǎn)了還是惡化了？是否要考慮新的監(jiān)控信息或事件？Telltale 在當(dāng)前事件發(fā)生改變時會更新 Slack 線程。系統(tǒng)返回正常狀態(tài)后，該線程將被標(biāo)記為“已解決”，因此用戶一眼就能知道哪些異常事件正在處理中，哪些異常事件已成功修復(fù)。

這些 Slack 線程不僅僅適用于 Telltale。團隊還可以用它們來共享有關(guān)事件的其他數(shù)據(jù)，方便進一步觀察、理論分析和討論。異常信息數(shù)據(jù)和討論全部集中在一個線程中，方便達成針對當(dāng)前異常的共識，有利于更快提出問題的解決方案以及異常事件的事后分析。

我們致力于提高 Telltale 告警的質(zhì)量。一種方法是向我們的用戶學(xué)習(xí)。因此，我們在 Slack 消息中提供了反饋按鈕。用戶可以告訴我們以后某些情況不需要再發(fā)生告警，或提供某些告警不合理的原因。智能告警意味著用戶可以信賴我們的告警。

Netflix是怎樣做系統(tǒng)監(jiān)控的？

在 Slack 的 Telltale 通知中描述異常詳細信息的一個示例

?為什么我的應(yīng)用服務(wù)運行狀態(tài)欠佳？

各種類型的監(jiān)控數(shù)據(jù)、應(yīng)用程序相關(guān)知識以及跨多種服務(wù)數(shù)據(jù)的相關(guān)性，有助于 Telltale 檢測分析應(yīng)用程序運行健康度降低的原因。這些原因包括實例異常、相關(guān)依賴的監(jiān)測和部署異常、數(shù)據(jù)庫異?；蛘呔W(wǎng)絡(luò)流量高峰等。突出高亮顯示這些可能的原因可以幫助運維人員節(jié)省大量寶貴的時間。

6異常事件管理

Netflix是怎樣做系統(tǒng)監(jiān)控的？

Telltale 異常事件摘要的一個示例

當(dāng) Telltale 發(fā)送告警時，它還會創(chuàng)建一個快照，其中引用了不正常的監(jiān)控信號數(shù)據(jù)。隨著新監(jiān)控信息的到來，會將其添加到此快照中。這簡化了團隊的很多事后審查流程。當(dāng)需要復(fù)查過去的異常問題時，“應(yīng)用程序事件摘要”功能可以從各個方面顯示當(dāng)前的問題，包括一些關(guān)鍵指標(biāo)，比如總停機時間和 MTTR（平均解決時間）。我們希望幫助我們的團隊了解更多的異常事件的模式，以便提高我們服務(wù)的整體可用性。

Netflix是怎樣做系統(tǒng)監(jiān)控的？

集群視圖下將相似異常事件分組

7部署監(jiān)控

可以看出，Telltale 的應(yīng)用程序健康評估模型及其智能監(jiān)控功能非常強大，所以我們也會將其應(yīng)用于安全部署方面。我們從開放源碼交付平臺 Spinnaker 開始測試。

https://spinnaker.io/

隨著 Spinnaker 逐漸推出新版本，我們使用 Telltale 連續(xù)監(jiān)監(jiān)控運行新版本實例的運行狀態(tài)。持續(xù)監(jiān)控意味著新部署在問題出現(xiàn)時能自行停止并進行回滾操作。這意味著部署存在問題時的影響半徑較小，持續(xù)時間更短。

Netflix是怎樣做系統(tǒng)監(jiān)控的？

8 持續(xù)優(yōu)化

在復(fù)雜的系統(tǒng)中，運行微服務(wù)非常具有挑戰(zhàn)性。Telltale 的智能監(jiān)控和告警功能可以幫助我們運維人員提高系統(tǒng)可用性、降低運維人員的勞動強度并減少工作人員大半夜被叫醒的頻率。

我們?yōu)?Telltale 做到的這些功能提升感到高興。但是遠沒有結(jié)束，我們?nèi)栽诓粩嗵剿餍滤惴ǎ蕴岣吒婢臏?zhǔn)確性。我們將在以后的 Netflix Tech Blog 文章中詳細介紹我們的工作進展

。

我們?nèi)匀辉趯?yīng)用程序健康評估模型進行進一步評估和改進。我們相信服務(wù)運行日志和跟蹤數(shù)據(jù)中會包含更多有價值的信息，這樣我們就能采集到更有用的指標(biāo)數(shù)據(jù)。我們很期待與平臺其他團隊進行合作，共同開發(fā)這些新功能。將新應(yīng)用監(jiān)控引入 Telltale 可以享受到很好的服務(wù)體驗，但是無法很好的進行擴展，所以我們絕對可以優(yōu)化和提高自服務(wù)的用戶界面。我們確信，有更好的啟發(fā)式方法能幫助用戶找出影響服務(wù)健康度的一些因素。

Telltale 簡化了應(yīng)用程序的監(jiān)控。

特別推薦一個分享架構(gòu)+算法的優(yōu)質(zhì)內(nèi)容，還沒關(guān)注的小伙伴，可以長按關(guān)注一下：

Netflix是怎樣做系統(tǒng)監(jiān)控的？

Netflix是怎樣做系統(tǒng)監(jiān)控的？

Netflix是怎樣做系統(tǒng)監(jiān)控的？

長按訂閱更多精彩▼

Netflix是怎樣做系統(tǒng)監(jiān)控的？

如有收獲，點個在看，誠摯感謝

免責(zé)聲明：本文內(nèi)容由21ic獲得授權(quán)后發(fā)布，版權(quán)歸原作者所有，本平臺僅提供信息存儲服務(wù)。文章僅代表作者個人觀點，不代表本平臺立場，如有問題，請聯(lián)系我們，謝謝！

本站聲明：本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系本站刪除。

換一批

延伸閱讀

[通信先鋒]

阿維塔、賽力斯已入股！華為引望可能成“中國博世”

9月2日消息，不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達成戰(zhàn)略合作協(xié)議，徹底改變云采用和管理方式

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關(guān)鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅(qū)動工具SODA V將顛覆汽車市場，使汽車開發(fā)時間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V，這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具，可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字：汽車人工智能智能驅(qū)動 BSP

[美通社全球TMT]

從容應(yīng)對未知風(fēng)險----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行，同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險，如企業(yè)系統(tǒng)復(fù)雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性，提升韌性，成...

關(guān)鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國游戲市場開始復(fù)蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

8月30日消息，據(jù)媒體報道，騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字：騰訊編碼器 CPU

[通信先鋒]

獨立自主！華為董事：致力打造不依賴西方的技術(shù)

8月28日消息，今天上午，2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行，華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字：華為 12nm EDA 半導(dǎo)體

[通信先鋒]

華為張平安：數(shù)字世界話語權(quán)最終由生態(tài)繁榮決定！

8月28日消息，在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上，華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱，數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字：華為 12nm 手機衛(wèi)星通信

[美通社全球TMT]

中國通信服務(wù)公布2024年中期業(yè)績

要點：有效應(yīng)對環(huán)境變化，經(jīng)營業(yè)績穩(wěn)中有升落實提質(zhì)增效舉措，毛利潤率延續(xù)升勢戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務(wù)引領(lǐng)增長以科技創(chuàng)新為引領(lǐng)，提升企業(yè)核心競爭力堅持高質(zhì)量發(fā)展策略，塑強核心競爭優(yōu)勢...

關(guān)鍵字：通信 BSP 電信運營商數(shù)字經(jīng)濟

[美通社全球TMT]

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動產(chǎn)業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]

軟通動力與長三角投資達成戰(zhàn)略合作共謀數(shù)字生態(tài)新發(fā)展

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上，軟通動力信息技術(shù)（集團）股份有限公司（以下簡稱"軟通動力"）與長三角投資（上海）有限...

關(guān)鍵字： BSP 信息技術(shù)

關(guān)閉

關(guān)閉