網(wǎng)絡(luò)功能,經(jīng)歷了從各設(shè)備廠家物理機無統(tǒng)一標(biāo)準(zhǔn)的傳統(tǒng)設(shè)備(mips、x86、np)演進到物理設(shè)備基本統(tǒng)一x86服務(wù)器,上層應(yīng)用虛擬化,繼續(xù)演進到云、云原生。短短十年間,4G演進到5G,5G在2020年走向成熟。
4G走向5G,電信設(shè)備從傳統(tǒng)設(shè)備演進到虛擬化、云化、時代,軟硬件架構(gòu)都發(fā)生了翻天覆地的變化。電信業(yè)引入了很多IT的軟件架構(gòu)、思維、方法等;開源、APP和基礎(chǔ)設(shè)施解耦等給電信應(yīng)用帶來了很多好處、便利,同時也帶來了新的問題,其中對電信運維方式產(chǎn)生了較大的影響。
在2G/3G/4G傳統(tǒng)設(shè)備時,業(yè)務(wù)一旦出現(xiàn)問題,運維人員不需要太多區(qū)分是硬件故障還是軟件故障,設(shè)備本身先進行軟硬件一體的主備倒換,先恢復(fù)業(yè)務(wù),再進行故障定位。
在當(dāng)前云時代,基礎(chǔ)設(shè)施集中化,中心DC物理設(shè)備規(guī)模龐大(》1000),網(wǎng)絡(luò)功能分布式打散分布在不同的物理節(jié)點上,一旦出現(xiàn)故障,原有的軟硬件一體化主備倒換方式不再有效,需要更有效性自動化識別能力,識別故障根源是硬件原因、云平臺原因、還是上層VNF的原因,快速區(qū)別出故障的根本原因,才能快速對故障進行有效隔離和恢復(fù)。
實現(xiàn)自動化和智能化的網(wǎng)絡(luò)運維,是5G成熟關(guān)鍵技術(shù)。智能監(jiān)控、故障分析等是自動化運維中關(guān)鍵技術(shù)。
一、智能監(jiān)控
智能監(jiān)控的目標(biāo)是,軟件自動化發(fā)現(xiàn)系統(tǒng)運行異常,自動觸發(fā)下一步對異常的分析,從而定位出系統(tǒng)異常根源,快速修復(fù)故障。
實現(xiàn)智能監(jiān)控有兩種方式:直接方式和間接方式。
直接方式:對環(huán)境、硬件(計算、存儲、網(wǎng)絡(luò))、Cloud OS等關(guān)鍵設(shè)施進行指標(biāo)監(jiān)控,一旦出現(xiàn)異常數(shù)據(jù),進行直接的故障告警、定位;
間接方式:對5G業(yè)務(wù)關(guān)鍵KPI進行監(jiān)控和多維度的對比分析,通過分析發(fā)現(xiàn)KPI異常判斷故障是否發(fā)生,從而觸發(fā)故障進一步關(guān)聯(lián)分析定位。
多維度的對比分析可以從幾個方面進行。
歷史數(shù)據(jù)對比方式。歷史總是相似相近,歷史數(shù)據(jù)對比分析按天、周、月、年、節(jié)假日歷史數(shù)據(jù)綜合進行,通過AI算法預(yù)先給出下一階段(小時、天)KPI預(yù)測數(shù)據(jù),再根據(jù)實時采集得到的數(shù)據(jù),對比判斷系統(tǒng)是否異常;
同類對比方式。同類型的5G NF的同類KPI變化應(yīng)該趨于一致,一旦出現(xiàn)較大(超過域值)波動,可以判斷系統(tǒng)異常;單一的NF內(nèi)部,不同微服務(wù)的處理KPI同樣也應(yīng)該趨同,如果不一致同樣也可以判斷系統(tǒng)異常。
二、故障分析
故障根源分析可以從兩個方面入手,告警、日志。在監(jiān)控系統(tǒng)發(fā)現(xiàn)系統(tǒng)異常后,觸發(fā)縱向分層告警、分層日志關(guān)聯(lián)分析;橫向關(guān)聯(lián)NF內(nèi)微服務(wù)間,NF-NF間進行關(guān)聯(lián)分析,定位故障根源。
1,縱向關(guān)聯(lián)
縱向關(guān)聯(lián)在垂直架構(gòu)上,網(wǎng)絡(luò)構(gòu)包括物理層、虛擬層、業(yè)務(wù)層三個層次,當(dāng)?shù)讓映霈F(xiàn)故障時,將影響上層業(yè)務(wù)。如圖1:
圖1, 三層架構(gòu)示意圖
縱向關(guān)聯(lián)解決的關(guān)鍵問題:底層硬件、虛擬層故障一旦發(fā)生時,上層業(yè)務(wù)KPI等指標(biāo)會出現(xiàn)異常,垂直關(guān)聯(lián)把上層業(yè)務(wù)的異常和底層故障關(guān)聯(lián)起來,識別出根故障的根源是在哪個層次PIM層、VIM層還是VNF業(yè)務(wù)本身。
2,橫向關(guān)聯(lián)
在水平層次上,VNF內(nèi)部的微服務(wù)間存在業(yè)務(wù)流程關(guān)聯(lián),存在相互影響的關(guān)系,微服務(wù)間橫向關(guān)聯(lián)用作發(fā)現(xiàn)出問題根本原因的微服務(wù),如圖2。
圖2,同一VNF內(nèi)不同微服務(wù)集群示意圖
在VNF-VNF間業(yè)務(wù)流程在不同節(jié)點間流轉(zhuǎn)時,如果某個節(jié)點發(fā)生故障,也將影響到與其相關(guān)的其他節(jié)點,如圖3。比如:AMF、SMF、PCF、UDM等相互之間的關(guān)聯(lián)影響,是業(yè)務(wù)流程的不同節(jié)點。
圖3. 不同VNF互聯(lián)示意圖
綜上可知,橫向關(guān)聯(lián)能夠解決的關(guān)鍵問題在于,把一個網(wǎng)元的故障和另一個業(yè)務(wù)相關(guān)網(wǎng)元的故障關(guān)聯(lián)起來,把一個微服的故障和真正出問題的微服務(wù)關(guān)聯(lián),在應(yīng)用層這同一層次識別出真正出問題的微服務(wù)或組件。
3,常用技術(shù)
常用技術(shù)包括:數(shù)據(jù)采集、數(shù)據(jù)分類(清洗)、數(shù)據(jù)監(jiān)控、數(shù)據(jù)關(guān)聯(lián)、定層定位等。
數(shù)據(jù)采集:業(yè)務(wù)告警、業(yè)務(wù)kpi、業(yè)務(wù)配置操作日志、網(wǎng)絡(luò)設(shè)備操作日志、存儲設(shè)備操作日志、虛擬設(shè)備操作日志、虛擬層平臺操作日志、虛擬層系統(tǒng)運行日志等;
數(shù)據(jù)分類:數(shù)據(jù)在清洗分類時主要有幾個標(biāo)簽,如時間、位置、我影響誰(分類標(biāo)簽)、誰影響我(分類標(biāo)簽)。分類標(biāo)簽有網(wǎng)絡(luò)、主機、存儲、配置;
數(shù)據(jù)監(jiān)控:一般對上層KPI進行監(jiān)控,KPI數(shù)據(jù)是統(tǒng)計數(shù)據(jù),可以引入AI算法,對異常KPI進行判斷,一旦出現(xiàn)異常數(shù)據(jù),判斷系統(tǒng)出現(xiàn)故障,觸發(fā)故障根源分析系統(tǒng);
數(shù)據(jù)關(guān)聯(lián):主要根據(jù)預(yù)置的模板進行,模板以標(biāo)簽的形式進行關(guān)聯(lián),其中位置、時間、我影響誰、誰影響我,是數(shù)據(jù)關(guān)聯(lián)主要依據(jù);
定層定位:通過數(shù)據(jù)關(guān)聯(lián),從上往下(業(yè)務(wù)、虛層、物理層)確定最終的關(guān)聯(lián)節(jié)點,水平關(guān)聯(lián)通過“分類標(biāo)簽”最終找到故障起因的網(wǎng)元、微服務(wù)或組件。
自動化運維的關(guān)鍵技術(shù),除了故障監(jiān)控和故障根源分層關(guān)聯(lián)分析,故障自愈能力、全局透視、跨域全方位數(shù)據(jù)采集能力、全網(wǎng)網(wǎng)絡(luò)拓撲管理、一鍵自動化測試、一鍵自動化業(yè)務(wù)部署等,都是智能運維應(yīng)具備的成熟商用能力。中興通訊智能運維方案,化繁為簡,降低5G云原生及服務(wù)化軟件架構(gòu)帶來的系統(tǒng)維護復(fù)雜性,致力于聚焦5G業(yè)務(wù)本身,為客戶創(chuàng)造更大價值。