華為FabricInsight網(wǎng)絡(luò)智能分析器架構(gòu)的四大功能介紹
隨著運(yùn)營商數(shù)據(jù)中心的規(guī)模越來越大,服務(wù)器數(shù)量越來越多,智能化程度越來越高,數(shù)據(jù)中心網(wǎng)絡(luò)運(yùn)維遇到了三方面的挑戰(zhàn)。
首先,故障發(fā)現(xiàn)難。網(wǎng)絡(luò)的連接狀態(tài)、資源使用狀態(tài)和策略狀態(tài)對(duì)于運(yùn)維人員來說是一個(gè)黑盒。當(dāng)網(wǎng)絡(luò)故障時(shí),網(wǎng)絡(luò)運(yùn)維人員無法第一時(shí)間感知,而是要等到被業(yè)務(wù)部門投訴時(shí)才知道網(wǎng)絡(luò)發(fā)生了故障,但此時(shí)也無法及時(shí)知道網(wǎng)絡(luò)到底哪里出了故障。據(jù)統(tǒng)計(jì),有85%以上的網(wǎng)絡(luò)故障在業(yè)務(wù)部門投訴后才能被網(wǎng)絡(luò)部門發(fā)現(xiàn)。久而久之,網(wǎng)絡(luò)部門成了“背鍋俠”,無法自證清白。
其次,故障定位難。傳統(tǒng)運(yùn)維采用SNMP協(xié)議每5分鐘收集一次網(wǎng)絡(luò)信息,周期長、效率低。而且,傳統(tǒng)運(yùn)維的定位手段只能通過查看日志的方式從海量的故障告警和日志信息中根據(jù)個(gè)人經(jīng)驗(yàn)排查定位問題,效率極其低下。據(jù)統(tǒng)計(jì),一個(gè)故障的平均定位時(shí)間需要至少76分鐘。網(wǎng)絡(luò)運(yùn)維人員直呼“寶寶心里苦啊”。
最后,業(yè)務(wù)感知難。隨著云和SDN的發(fā)展,網(wǎng)絡(luò)業(yè)務(wù)的配置方式從傳統(tǒng)的人工配置演變?yōu)橛稍破脚_(tái)和控制器配置的方式,網(wǎng)絡(luò)管理員很難實(shí)時(shí)感知到網(wǎng)絡(luò)的變化。
面對(duì)這些網(wǎng)絡(luò)運(yùn)維的難題,華為提出了從“網(wǎng)絡(luò)應(yīng)用—>網(wǎng)絡(luò)路徑-->網(wǎng)絡(luò)設(shè)備”三個(gè)層面進(jìn)行關(guān)聯(lián)分析的FabricInsight網(wǎng)絡(luò)智能分析器,構(gòu)建基于AI的“秒級(jí)故障感知、分鐘級(jí)故障定位”的智能運(yùn)維能力。
圖1:華為FabricInsight網(wǎng)絡(luò)智能分析器架構(gòu)
華為FabricInsight提供如下四大功能:
① FabricInsight采用Telemetry技術(shù)實(shí)現(xiàn)秒級(jí)的數(shù)據(jù)獲取,并基于ERSPAN流鏡像實(shí)現(xiàn)訂閱發(fā)布,按需使用。眾所周知,Telemetry一次可以獲取多個(gè)數(shù)據(jù),編碼效率很高。這樣FabricInsight具備了實(shí)時(shí)獲取數(shù)據(jù)的能力,為分析器挖掘數(shù)據(jù)提供了堅(jiān)實(shí)基礎(chǔ)和關(guān)鍵依賴。
② 數(shù)據(jù)獲取器將從網(wǎng)絡(luò)中獲取到的大量網(wǎng)絡(luò)狀態(tài)數(shù)據(jù)匯聚到大數(shù)據(jù)分析平臺(tái)。這個(gè)平臺(tái)可以對(duì)百億級(jí)的數(shù)據(jù)進(jìn)行高效檢索和分析。
③ 大數(shù)據(jù)分析平臺(tái)基于內(nèi)置的AI算法對(duì)獲取到的網(wǎng)絡(luò)狀態(tài)數(shù)據(jù)從“網(wǎng)絡(luò)應(yīng)用->網(wǎng)絡(luò)路徑->網(wǎng)絡(luò)設(shè)備”的層面進(jìn)行關(guān)聯(lián)分析,包括:網(wǎng)絡(luò)連接類、網(wǎng)絡(luò)性能類、網(wǎng)絡(luò)策略類和網(wǎng)絡(luò)資源類等方面的故障分析。
④ 邊緣交換機(jī)上的智能芯片可以實(shí)現(xiàn)故障模式的匹配和根因分析,進(jìn)而實(shí)現(xiàn)分布式智能的深度故障分析和按需全流分析。
華為FabricInsight的卓越功能使其具備了一鍵式智能診斷、基于AI的主動(dòng)預(yù)測(cè)性維護(hù)和基于流可視的邊緣智能的三大特點(diǎn),并在實(shí)踐中有了廣泛應(yīng)用。
以基于AI的光模塊故障概率預(yù)測(cè)為例,這幫助網(wǎng)絡(luò)運(yùn)維人員提前判斷光模塊的故障概率和“健康狀態(tài)”。
網(wǎng)絡(luò)接口上數(shù)據(jù)的收發(fā)都需要通過光模塊。光模塊長時(shí)間運(yùn)行會(huì)引起光器件的性能衰減,從而導(dǎo)致鏈路不穩(wěn)定。而這種不穩(wěn)定的“亞健康”狀態(tài)既沒有故障告警,又影響數(shù)據(jù)收發(fā)的完整性。傳統(tǒng)運(yùn)維手段無法在光模塊已老化、故障發(fā)生之前及時(shí)識(shí)別風(fēng)險(xiǎn)并進(jìn)行預(yù)警。光模塊的這種“亞健康”狀態(tài)會(huì)導(dǎo)致網(wǎng)絡(luò)提供給業(yè)務(wù)的服務(wù)質(zhì)量下降,使網(wǎng)絡(luò)處于一種“可用”與“不可用”的間歇性中斷的臨界狀態(tài),極大影響業(yè)務(wù)質(zhì)量感知。
圖2:光模塊的三個(gè)狀態(tài)
華為FabricInsight通過Telemetry實(shí)時(shí)獲取光模塊KPI,基于AI算法在光模塊視圖呈現(xiàn)全網(wǎng)光模塊的狀態(tài),包括:已經(jīng)故障、可能故障以及故障概率分布。用戶在光模塊視圖通過矩形視圖就可以通過不同的顏色方便快速地識(shí)別已經(jīng)故障和高故障率的光模塊。選中高故障率光模塊,就可以查看故障概率預(yù)測(cè)曲線。用戶還可以結(jié)合光模塊的接收功率、發(fā)送功率、電流、電壓、溫度的動(dòng)態(tài)曲線等參數(shù)輔助判斷光模塊的運(yùn)行狀態(tài)。結(jié)合AI算法和人工排查,用戶可以對(duì)光模塊的運(yùn)行狀態(tài)進(jìn)行準(zhǔn)確預(yù)測(cè),大大提高運(yùn)維效率,提供良好的業(yè)務(wù)感知。
圖2:華為FabricInsight光模塊狀態(tài)預(yù)測(cè)界面
綜述,傳統(tǒng)運(yùn)維面對(duì)的是靜態(tài)網(wǎng)絡(luò),采用從網(wǎng)絡(luò)向上看業(yè)務(wù)的視角進(jìn)行運(yùn)維。而在云化時(shí)代和AI時(shí)代,網(wǎng)絡(luò)會(huì)隨業(yè)務(wù)動(dòng)態(tài)變化,傳統(tǒng)運(yùn)維手段大多失效或者低效,需要采用從業(yè)務(wù)向下看網(wǎng)絡(luò)的視角進(jìn)行網(wǎng)絡(luò)運(yùn)維,并結(jié)合AI算法實(shí)現(xiàn)應(yīng)用與網(wǎng)絡(luò)的關(guān)聯(lián)分析,解決網(wǎng)絡(luò)故障發(fā)現(xiàn)難、定位難和業(yè)務(wù)感知難的問題。華為FabricInsight智能運(yùn)維完美地解決了這些問題,為運(yùn)營商邁入智能時(shí)代保駕護(hù)航。