寧暢工程師講真!除“壓測(cè)”外服務(wù)器出廠還得過(guò)上千道“坎”
服務(wù)器“壓力測(cè)試”作為互聯(lián)網(wǎng)行業(yè)必修課已遍布電商平臺(tái)、視頻網(wǎng)站、游戲運(yùn)營(yíng)等眾多應(yīng)用場(chǎng)景。
但一臺(tái)合格服務(wù)器出廠只有“壓力測(cè)試”就足夠了嗎?就此,寧暢信息產(chǎn)業(yè)(北京)有限公司的測(cè)試工程師,就給出了詳細(xì)解答。
服務(wù)器“誕生”至少經(jīng)上千項(xiàng)測(cè)試
寧暢測(cè)試負(fù)責(zé)人表示,要生產(chǎn)出具備“德智體美勞”全面素質(zhì)的服務(wù)器,需要通過(guò)不斷測(cè)試,使其硬件功能穩(wěn)定,電性能可靠,信號(hào)質(zhì)量純凈。
每一臺(tái)寧暢服務(wù)器在電性能測(cè)試方面,需經(jīng)過(guò)如:Base function基本驗(yàn)證測(cè)試;Efficiency 效率測(cè)試;Inrush Current電流沖擊測(cè)試;Overshoot & Undershoot 過(guò)沖和下沖測(cè)試;Phase margin相位裕度驗(yàn)證;Voltage 電壓測(cè)試;Power rail 的Open & Short、Voltage、Leakage漏電測(cè)試;Sequencing 上電時(shí)序以及Clock基本測(cè)試,以及重要的CPU VRM測(cè)試。
只有信號(hào)純凈,才能保證數(shù)據(jù)傳輸時(shí)的質(zhì)量。寧暢服務(wù)器不僅測(cè)試高速總線,如PCIE、SAS、SATA、UPI、DMI、DDR、 USB2.0/3.0、10GBASE-KR、10GBASE-T、GbE、 Clock、10G/25G Serdes以及NCSI等信號(hào)。低速總線,如SMBus、I2C、IPMB、SPI、 eSPI、LPC、VGA、Power Good and Reset等信號(hào)也會(huì)全部檢查。
在板級(jí)嚴(yán)謹(jǐn)測(cè)試外,寧暢服務(wù)器還需做全面兼容性測(cè)試,如針對(duì)每一個(gè)客戶(hù)的AVL,像內(nèi)存、硬盤(pán)(HDD,SSD,NVMe)、網(wǎng)卡、陣列卡等常見(jiàn)擴(kuò)展卡的兼容性測(cè)試,同時(shí)這些測(cè)試都會(huì)使用客戶(hù)自用操作系統(tǒng)去做全面驗(yàn)證,模擬客戶(hù)體驗(yàn)并給出反饋;其中針對(duì)Performance的調(diào)優(yōu)測(cè)試,寧暢產(chǎn)品多次打破Spec Bechmark的記錄。
服務(wù)器在通常環(huán)境下可順暢運(yùn)行,遇到“高溫”、“高濕”等嚴(yán)苛環(huán)境也得能“吃土耐勞”。
寧暢測(cè)試團(tuán)隊(duì)本著“寧?kù)o、順暢”理念,全面設(shè)計(jì)了“Thermal散熱測(cè)試和Reliability(可靠性)測(cè)試”,其覆蓋環(huán)境有:高溫高濕場(chǎng)景;低溫場(chǎng)景;鹽霧場(chǎng)景;HALT加速壽命測(cè)試場(chǎng)景;Four Corner拉偏和AC loss等疲勞測(cè)試場(chǎng)景。
此外,Drop跌落、Shock沖擊、Vibration震動(dòng)、 Storage倉(cāng)儲(chǔ)測(cè)試,電磁兼容電磁干擾(electromagnetic interference, EMI)和電磁耐受性(electromagnetic susceptibility, EMS)這些都是產(chǎn)品包裝、運(yùn)輸、上線和離線場(chǎng)景下必須測(cè)試環(huán)節(jié)。
做完以上基礎(chǔ)測(cè)試,還得根據(jù)用戶(hù)需求做特定軟件環(huán)境與應(yīng)用場(chǎng)景(包括壓力測(cè)試)等等性能與穩(wěn)定性測(cè)試。
一款合格的服務(wù)器產(chǎn)品,從設(shè)計(jì)生產(chǎn)到真正交付用戶(hù),粗算每臺(tái)做一千項(xiàng)測(cè)試是妥妥的。
但是!僅做這些測(cè)試,還不能保證服務(wù)器達(dá)到寧暢標(biāo)準(zhǔn)出廠。
超4萬(wàn)項(xiàng)用例測(cè)試實(shí)現(xiàn)自動(dòng)化
針對(duì)測(cè)試中發(fā)現(xiàn)的Bug,研發(fā)工程師需做系統(tǒng)性及時(shí)調(diào)整與處理。往往一個(gè)信號(hào)干擾問(wèn)題,就需要經(jīng)過(guò)多輪調(diào)試。
關(guān)鍵,服務(wù)器產(chǎn)品交付都是短時(shí)間成千上萬(wàn)臺(tái),要讓每臺(tái)服務(wù)器經(jīng)過(guò)數(shù)千項(xiàng)測(cè)試并及時(shí)調(diào)整Bug,則需要構(gòu)建系統(tǒng)的自動(dòng)化測(cè)試體系,并在產(chǎn)品研發(fā)和滿足用戶(hù)定制化的過(guò)程中同步進(jìn)行測(cè)試,以保證產(chǎn)品可按時(shí)、高質(zhì)量地交付到用戶(hù)手中。
“好比一臺(tái)車(chē)要在高速路上邊跑邊組裝、邊檢驗(yàn),車(chē)停下來(lái)便完成所有測(cè)試與裝配,用戶(hù)接過(guò)方向盤(pán)就可開(kāi)走?!睂帟硿y(cè)試負(fù)責(zé)人介紹“邊造邊測(cè)”非常考驗(yàn)寧暢測(cè)試與研發(fā)人員的技術(shù)功底與經(jīng)驗(yàn)積累,關(guān)鍵還得掌握測(cè)試體系與產(chǎn)品研發(fā)的核心技術(shù)。
行業(yè)發(fā)展來(lái)看,只有將客戶(hù)測(cè)試需求全面實(shí)現(xiàn)自動(dòng)化,才能更好為客戶(hù)服務(wù),提供高質(zhì)量產(chǎn)品。
而從行業(yè)中來(lái)看,如寧暢一樣具備全面自動(dòng)化測(cè)試能力廠商,僅占廠商總數(shù)量的2%左右?!俺巳肆?、物力上的投入,關(guān)鍵還得有相關(guān)用例經(jīng)驗(yàn)積累?!睂帟硿y(cè)試負(fù)責(zé)人表示,服務(wù)器測(cè)試自動(dòng)化門(mén)檻很高,不僅需要測(cè)試人員,還需研發(fā)人員,在了解服務(wù)器同時(shí)掌握眾多語(yǔ)言等技能。
圖說(shuō):不同廠商測(cè)試能力比較
諸如Shell,Python,C,Java,Go,Ruby等工具語(yǔ)言需要掌控;如Jenkins,Django,react,F(xiàn)lask等架構(gòu)理解也必不可少。只有掌握這些基礎(chǔ)技能,才能面向不同業(yè)務(wù)采用不同語(yǔ)言與框架,如:圖像數(shù)據(jù)處理要采用難度較高的OCR技術(shù)。一套完整測(cè)試系統(tǒng)需經(jīng)過(guò)十幾年的千錘百煉,才能為客戶(hù)提供既敏捷又高效的服務(wù)。
圖說(shuō):寧暢自動(dòng)測(cè)試體系架構(gòu)
目前,寧暢具備自主研發(fā)測(cè)試相關(guān)軟件/硬件能力,可構(gòu)建自動(dòng)化測(cè)試平臺(tái),實(shí)現(xiàn)面向用戶(hù)提供測(cè)試體系。寧暢自動(dòng)化測(cè)試平臺(tái)NASA(Nettrix Autotest and Stress Application)從測(cè)試環(huán)境搭建、測(cè)試、測(cè)試日志收集、測(cè)試數(shù)據(jù)分析,到最后的測(cè)試bug提交,已實(shí)現(xiàn)全面自動(dòng)化,測(cè)試用例自動(dòng)化覆蓋高達(dá)95%以上。
圖說(shuō):寧暢自動(dòng)化任務(wù)、服務(wù)器管理界面
其中:BMC Lab測(cè)試用例14000+項(xiàng),自動(dòng)化覆蓋95%;BIOS Lab測(cè)試用例9700+項(xiàng),自動(dòng)化覆蓋 98%;Hardware Lab測(cè)試用例14000+項(xiàng),自動(dòng)化覆蓋 93%;Performance Lab測(cè)試用例5700+項(xiàng),自動(dòng)化覆蓋 97%。
此外,寧暢智能測(cè)試故障分析引擎,通過(guò)知識(shí)庫(kù)黑白名單對(duì)比,對(duì)Bug實(shí)現(xiàn)自動(dòng)定位、自動(dòng)提交,并通過(guò)整合基礎(chǔ)設(shè)施和業(yè)務(wù)調(diào)度,以及數(shù)據(jù)挖掘技術(shù)提升測(cè)試有效性,為客戶(hù)提供全鏈路的質(zhì)量保障。