細分MTTR對模塊化UPS系統(tǒng)可用性的影響
1.前言
模塊化可以簡化設計,縮短新產(chǎn)品開發(fā)周期,提高生產(chǎn)效率,提高產(chǎn)品質(zhì)量、可靠性和維修性,具有良好的效費比,是科技成果產(chǎn)業(yè)化的有效途徑。
通信用直流電源系統(tǒng)的成功應用為模塊化UPS樹立了榜樣。DSP芯片和控制技術的發(fā)展為模塊化UPS提供器件基礎和技術保障。模塊化UPS系統(tǒng)關鍵之一是各模塊的故障可隔離性[1]。
1.1 模塊化UPS裝卸運輸安裝的便利性
集裝箱,一個美國貨車司機1946年的發(fā)明,引起運輸方式的革命,使全球貨物運輸業(yè)發(fā)生了革命性的變革。
傳統(tǒng)集中式UPS較重又不能被拆分,它帶來如下不便:立式的包裝限制了運輸車輛的選擇;裝卸、就位需專門的大型吊裝車;機房門、過道、電梯載重、樓層承重時有受限。因此,2臺傳統(tǒng)集中塔式UPS構成“1+1”系統(tǒng)或者多臺構成“N+1”系統(tǒng)都不能被稱為模塊化UPS系統(tǒng)。
而UPS模塊化,則可化整為零:模塊可以分開包裝,機架可以臥式包裝及運輸。對于機架,(2~4)人即可搬運,對于模塊,(1~2)人即可輕松搬運和安裝。
能帶來便利的UPS系統(tǒng)才能叫作模塊化UPS系統(tǒng)。
1.2 模塊化UPS的可維護性
集中式UPS一般需要資深工程師攜帶大量的備品備件現(xiàn)場維修,需要時間長,費用不菲。
對于模塊化UPS系統(tǒng),UPS模塊本身具有熱拔插功能,可以在不中斷負載供電以及確保人身安全的前提下更換故障模塊。用戶備用模塊或即使空運模塊到故障現(xiàn)場,將使維護變得方便和低成本。
模塊返回工廠維修與現(xiàn)場維修相比,不但維修成本更低,而且維修質(zhì)量更加可以得到保障。
模塊化對于人類最突出的貢獻莫過于減少人為錯誤。研究表明,有50%-60%的數(shù)據(jù)中心停機是由人為錯誤引起的,而且減少人為錯誤體現(xiàn)了系統(tǒng)的一個最大的收益--提高可用性。迄今為止,在提高可用性的所有途徑中,減少人為錯誤是最行之有效的手段。
2 模塊化UPS的可用度與MTTR概念
對于一次性使用的設備,如不可回收的人造地球衛(wèi)星上的通訊設備,僅關心其可靠性即可。但是,對于如UPS等大多數(shù)可修復設備,只用可靠性指標描述其性能便不全面。用戶不但要考慮故障發(fā)生的概率,而且還要考慮修復時間。
可維護性(Maintainability),其含義是在規(guī)定的時間內(nèi)完成主動修復的概率。
可維護性用平均維修時間MTTR(mean time to repair)來表示。它是設備從發(fā)生故障瞬間開始不能完成規(guī)定功能到通過維修而重新恢復規(guī)定功能所需的平均時間。
修復率μ是MTTR的倒數(shù): [!--empirenews.page--]
可用度(可用性)是一個可維護性指標,為系統(tǒng)在使用過程中,可以正常使用的時間與總時間之比。可用度A與平均無故障時間MTBF(Mean time between failure)和MTTR的關系是:
可用度不僅與MTBF有關,而且與MTTR有關。因復雜系統(tǒng)的功能多、元器件多則MTBF降低。在MTBF不變的前提下,減小MTTR能有效提高系統(tǒng)的可用性A。
3 MTTR時間細分
MTTR是指故障發(fā)生到恢復功能的時間t,它由故障發(fā)生到故障自動檢測時間t1、故障被檢測出到維修工接到通知的時間t2、后勤保障時間t3、故障維修時間t4、恢復時間t5等多個時間段組成,即 t= t1+ t2+ t3+ t4+ t5,見圖1。
圖1 MTTR的時間細分
3.1 故障發(fā)生到系統(tǒng)自動檢測出故障的時間t1
要求UPS具有完善的自我診斷功能,定位發(fā)生故障的位置和類型,限制故障擴大并給出故障信號。對于模塊化UPS要求故障模塊能自動保護退出系統(tǒng),不能影響系統(tǒng)其它部分繼續(xù)正常工作。一般來說,t1時間是ms~min數(shù)量級。
3.2 故障被檢測出到人們知道時間t2
檢測出的故障通過合適方式,如手機短信實時通知維護工。t2時間一般是s ~min數(shù)量級。
3.3 后勤保障時間t3
后勤保障時間是指人(維修工程師)和物(備品備件)從獲知維修通知到抵達現(xiàn)場開始維修時間。t3時間是hours~days數(shù)量級。
人:最快是用戶的維護工程師自己可以解決,其次是廠家當?shù)鼐S修工程師以及廠家工程師的快速響應能力(受廠家服務響應能力和交通工具影響)。
物:用戶現(xiàn)場是否準備有足夠可以替換的備品備件,如設備現(xiàn)場及廠家當?shù)剞k事處沒有備品備件,則需要廠家派人攜帶或者委托第三方運送備品備件到用戶設備現(xiàn)場。對于模塊化UPS,因不同容量的系統(tǒng)由相同的模塊組成,準備一種模塊即可。而對于傳統(tǒng)集中式UPS,可能的故障部件無法定位和預計,為了提高修復概率,往往需要準備較多種類的備品備件。
案例:某國外品牌傳統(tǒng)集中式UPS出現(xiàn)故障,時值年底,正值企業(yè)年底沖刺滿負荷生產(chǎn)。因天氣寒冷,電網(wǎng)負荷大,電網(wǎng)頻繁停電并不可預測,而一旦停電,則流水線上芯片將全部報廢,用戶非常焦急。而當時UPS廠家在亞洲只有泰國曼谷辦事處,并且需要派資深工程師攜帶大量的備品備件才能來華現(xiàn)場維修。簽證需要時間,老外資深工程師簽證、差旅、維修等費用也不菲。用戶受不了漫長的等待造成停產(chǎn)帶來的巨大損失和昂貴的維修報價,可后來檢查結果非常意外:實際故障發(fā)生部位與廠家所謂資深維修工程師準備空運來的備件完全不同。[!--empirenews.page--]
如果是模塊化UPS,用戶備用一個模塊或即使空運一個模塊也不需要很長時間。
即使是模塊化UPS,需要多大容量(對應重量和尺寸)的模塊比較合適,這就需要從物流可獲得性以及現(xiàn)場更換便利性等方面加以考慮。
3.3.1國家標準GB 12330-90體力搬運重量限值
表1 中華人民共和國國家標準《GB 12330-90體力搬運重量限值》(單次重量,單位kg)
該標準體現(xiàn)我國對搬運操作工的勞動保護,同時也回答了單個物體一般多重才是適合搬運的。
3.3.2 航空公司對行李重量尺寸限制
表2 航空公司對行李重量尺寸限制
航空公司對行李重量限值的規(guī)定,受各國的勞工法以及不同型號客機等影響,不同的航空公司,規(guī)定稍有不同。當超過限值時,需要采用貨運方式替代行李托運,而貨運不能保證隨同旅客航班同時抵達,一般晚到2至3天。以上表明:模塊的重量和尺寸將直接影響到維修現(xiàn)場獲得備用模塊的時間。從表2看出,模塊的重量小于30kg和尺寸小于158cm最佳。
3.3.3 國際上對人體搬運重物限制
圖2是美國勞工法對不同重量物體需要不同人數(shù)或者需要采用機械設備的要求。圖中重量限值要求間接對UPS單模塊的容量和重量作了規(guī)定。重量限值要求同時表明:提高UPS模塊的功率密度,降低其重量尺寸是以后永恒的發(fā)展方向。
圖2 美國勞工法對搬運重物規(guī)定
早年通信用高頻開關電源剛面市時, 200A/48Vdc的整流器模塊還是主流,盡管其重量尺寸比相控小很多,但現(xiàn)在200A的模塊是非主流產(chǎn)品,主流產(chǎn)品是100A、50A、30A、10A等整流器模塊,應該說重量尺寸是一個重要原因。隨著電源變換效率的提高,200A整流器的尺寸和重量變小時,200A模塊也許將進入主流。
對于功率更大使用場景則通過增加并聯(lián)模塊數(shù)量或者采用多套分散供電方式實現(xiàn)。
3.4 故障維修時間t4
從開始動手維修到確認修好的時間。對于模塊化UPS,普通工程師現(xiàn)場能直接更換故障模塊。更換時間30產(chǎn)品。對于傳統(tǒng)集中式UPS,需要資深工程師攜帶多種儀器儀表以及可能需要的備件到故障現(xiàn)場進行檢測。維修時間t4是min~days(天)數(shù)量級。[!--empirenews.page--]
3.5 恢復時間t5
更換新的模塊或者部件從通電到該模塊投入到系統(tǒng)工作正常的時間?;謴瓦^程中需要系統(tǒng)具有完善自我檢測和保護設計,如更換的模塊或者修復的部件通不過系統(tǒng)檢測,則系統(tǒng)拒絕加入,不能影響系統(tǒng)其它部分繼續(xù)正常工作。t5時間是ms~min數(shù)量級。
3.6 MTTR估值
據(jù)上分析看出,相對于后勤保障時間t3和故障維修時間t4來說,t1、t2、t5可以忽略不計。MTTR可以假設如下四個數(shù)值:
⑴ 假設用戶自己在設備故障現(xiàn)場,用戶備有可以供更換的備用模塊,用戶一發(fā)現(xiàn)問題就立即自己更換,則MTTR≦0.5h。這是一種最理想最短的時間。
⑵ 用戶維護人員不在現(xiàn)場但在設備所在城市,模塊一旦發(fā)生故障即可被實時通知(如手機短信),現(xiàn)場有可供更換用備用模塊,維護人員5h之內(nèi)趕到現(xiàn)場并完成更換。則MTTR=5h。
⑶ 現(xiàn)場無備用模塊,或即使有備用模塊但用戶自己不能更換,需要廠家工程師來更換。假設廠家承諾解決問題時間為48h,更換模塊時間0.5h,MTTR=48+0.5≈50(h)。
⑷ 對于傳統(tǒng)集中式UPS,需廠家資深工程師,帶齊備品備件和檢測儀器,設響應時間48h(備好備件以及乘機或車趕到設備現(xiàn)場時間),現(xiàn)場維修時間72h,則MTTR=48+72=120(h)。
對于模塊化UPS,采用第(2)種情況和(3)種情況比較合理,即MTTR=5h或者50h。
4 “N+X”并聯(lián)系統(tǒng)可用度計算
4.1 計算公式
“N+X”模塊化UPS系統(tǒng)是一個表征模型,“N”為負載容量所需模塊數(shù),“X”為冗余模塊數(shù)。用MTBF、MTTR和可用度A來表征可用性,其下標M表示模塊,S表示系統(tǒng)。
系統(tǒng)MTBFS、MTTRS和可用度A S如公式(1)、公式(2)和公式(3)所示[2]。
4.2 計算結果與分析
根據(jù)以上公式可以計算出系統(tǒng)的可用度As,見表3。模塊的參數(shù)是:MTBFM=10萬h,MTTRM分別為0.5/5/50/120h,N+X分別為N=[1,10],X=[0,2])。
表3 N=[1,10]、X=[0,2] 時系統(tǒng)的可用度對應表
對以上計算結果分析如下:
(1) 當MTTRM很小為0.5h,只要1個冗余模塊,系統(tǒng)就可以達到很高的可用度。
[!--empirenews.page--]
(2) 在上述MTBFM和MTTRM以及N≤10h,有2個冗余模塊時,就都可以滿足可用度5個9的要求。這為我們設置休眠模塊數(shù)量多少提供理論依據(jù)。就是說,正常工作時有2個冗余模塊即可,多余的可以讓其休眠,即可以滿足系統(tǒng)可用性需求,也符合節(jié)能原則。
(3) 系統(tǒng)可用度As與MTTRM的關系:對于MTBFM=10萬h,N+X =8+1系統(tǒng),當MTTRM=0.5h/5h/50h/120h時,系統(tǒng)的可用度分別為1個9、6個9、5個9、4個9??梢钥闯?strong>MTTRM的大小對系統(tǒng)的可用度影響很大。