固態(tài)硬盤在變電站自動化設(shè)備中的應(yīng)用
固態(tài)硬盤在變電站自動化設(shè)備中的應(yīng)用
摘要:變電站自動化設(shè)備大量使用固態(tài)硬盤外存儲器,而固態(tài)硬盤的全擦寫次數(shù)達(dá)到一定量時將影響自動化設(shè)備的正常運行?,F(xiàn)對一起變電站設(shè)備典型的SSD故障案例進行分析,確認(rèn)了自動化設(shè)備不恰當(dāng)?shù)能浖褂梅绞綄O大地縮短固態(tài)硬盤的使用壽命。為此,開發(fā)固態(tài)硬盤狀態(tài)監(jiān)測功能,從預(yù)留容量、讀寫速度、預(yù)估壽命三個方面進行監(jiān)測及預(yù)警,為應(yīng)用固態(tài)硬盤存儲的自動化設(shè)備的可靠運行提供技術(shù)保障。
關(guān)鍵詞:
0引言
不同于使用磁盤作為存儲介質(zhì),通過旋轉(zhuǎn)磁頭來進行數(shù)據(jù)存取的傳統(tǒng)機械硬盤,固態(tài)硬盤(solidstateDrives,SSD)是用閃存電子存儲芯片陣列制成的硬盤,無任何機械活動部件。
雖然機械硬盤憑借容量大、性價比高、使用壽命長、數(shù)據(jù)易恢復(fù)等優(yōu)點占領(lǐng)著主要的存儲市場,但固態(tài)硬盤由于其讀寫速度快、體積小、功耗低、抗振強、工作溫度范圍廣等優(yōu)勢,在航空、電力等工業(yè)領(lǐng)域和消費電子領(lǐng)域仍獲得了廣泛應(yīng)用。
由于有相關(guān)標(biāo)準(zhǔn)明確要求不得使用旋轉(zhuǎn)部件等原因,變電站自動化設(shè)備更是大量采用了固態(tài)硬件作為外存儲器存儲程序和數(shù)據(jù),如數(shù)據(jù)通信網(wǎng)關(guān)機、智能遠(yuǎn)動機、PMU相量測量裝置、保護信息管理單元等。
目前,有不少文獻研究討論了固態(tài)硬盤的應(yīng)用。
文獻將固態(tài)硬盤與傳統(tǒng)磁盤組合,利用固態(tài)硬盤高性能和傳統(tǒng)磁盤低成本、大容量的特點,能夠為用戶提供大容量的存儲空間,保證系統(tǒng)的高性能,同時還能降低成本。
文獻對固態(tài)硬盤和傳統(tǒng)硬盤進行了性能測試、對比分析,通過測驗計算機響應(yīng)時間,設(shè)計了使用SSD的計算機升級方案,提升了計算機系統(tǒng)整體性能并延長了計算機服務(wù)年限。
文獻在變電站的繼電保護裝置中采用固態(tài)硬盤作為存儲介質(zhì),基于PCIe總線技術(shù)實現(xiàn)了大容量存儲系統(tǒng)設(shè)計,滿足了繼電保護裝置對數(shù)據(jù)處理安全可靠性的要求。
文獻通過固態(tài)硬盤測試,獲得了讀寫比例、數(shù)據(jù)包大小、訪問模式等工況變化和供電電壓波動對讀/寫速度、電流等性能特性的影響規(guī)律,測試結(jié)果表明,固態(tài)硬盤使用過程中應(yīng)保證輸入電壓的穩(wěn)定性。
1固態(tài)硬盤的性能和壽命
硬盤的性能主要指數(shù)據(jù)讀寫速度,長期以來遠(yuǎn)低于處理器和內(nèi)存。
機械硬盤讀取數(shù)據(jù)的方式是通過磁頭在高速旋轉(zhuǎn)的盤片上進行磁操作。受限于磁頭機械轉(zhuǎn)速,轉(zhuǎn)速7200r/min的機械盤,其大數(shù)據(jù)順序讀速度能達(dá)到160MB/s,寫速度達(dá)到80MB/s。
固態(tài)硬盤讀寫時是對閃存存儲元件進行電子存取操作,速度更快,即使存在主控芯片的操作延時,其讀寫速度仍能達(dá)到500MB/s,是機械硬盤的數(shù)倍。
機械磁盤受限于磁頭移動和磁盤旋轉(zhuǎn)等機械運動,響應(yīng)時間和吞吐率已經(jīng)遠(yuǎn)遠(yuǎn)落后于CPU和內(nèi)存,SSD外存儲器高速讀寫的優(yōu)勢,有效緩解了計算機系統(tǒng)長期存在的硬盤I0速度瓶頸問題。
固態(tài)硬盤的壽命主要和存儲單元的擦寫次數(shù)有關(guān),隨著擦寫次數(shù)上升到壽命限值,硬盤的讀寫性能下降,存儲的數(shù)據(jù)也會變得不可信。
固態(tài)硬盤寫入數(shù)據(jù)到存儲單元稱為一次擦寫,將所有的存儲單元全部擦寫過,則稱為一次全擦寫(P/E)。所有固態(tài)硬盤都有全擦寫限值,根據(jù)閃存單元的工藝不同,全擦寫限值有數(shù)萬次、數(shù)千次、數(shù)百次不等。
固態(tài)硬盤使用的閃存單元技術(shù)原理是一種基于浮柵技術(shù)的場效應(yīng)管(M0s晶體管),根據(jù)浮柵內(nèi)存儲的電子數(shù)量不同所表現(xiàn)的電壓值來表現(xiàn)不同的數(shù)據(jù)值。數(shù)據(jù)值分為1、2、3和4比特,分別對應(yīng)閃存單元的4種類型:單級閃存單元)sLC)、二級閃存單元)MLC)、三級閃存單元)TLC)和四級閃存單元)0LC)。單位存儲能力提高的同時伴隨的是壽命的下降,一般認(rèn)為sLC的壽命下限為全擦寫10000次,MLC為3000次,TCL為1000次,0LC為150次,而價格同樣依次下降。
固態(tài)硬盤一般由主控器、存儲介質(zhì)和固件組成,相應(yīng)也有核心技術(shù)來保障硬盤性能和壽命。固件技術(shù)將存儲介質(zhì)組織成塊并進行管理,建立邏輯地址和物理地址的映射關(guān)系,以提高讀取/寫入效率并平衡寫入次數(shù)。
存儲塊頻繁寫入超過限值后,將造成存儲顆粒老化,成為壞塊。因此,數(shù)據(jù)寫入時主控器會協(xié)調(diào)寫入擦寫次數(shù)最少的存儲塊,來保障所有存儲塊的擦寫次數(shù)接近,該過程稱為"磨損均衡"。
優(yōu)化的磨損均衡算法會將硬盤中存在的長期不變數(shù)據(jù)也進行遷移,用空出的較新存儲塊寫入新數(shù)據(jù),實現(xiàn)靜態(tài)磨損均衡。因此,每次上層應(yīng)用要求寫入的數(shù)據(jù)量會小于實際寫入存儲單元的數(shù)據(jù)量,該現(xiàn)象稱為"寫入放大"。
存儲單元按塊管理,則小數(shù)據(jù)寫入會占用多余的存儲單元,這一過程也會產(chǎn)生寫入放大,因此會針對小數(shù)據(jù)進行合理遷移并開展垃圾回收。提高磨損均衡的合理性,優(yōu)化垃圾回收算法,降低寫入放大系數(shù),是固態(tài)硬盤優(yōu)化的核心技術(shù),能夠有效提升固態(tài)硬盤的使用壽命。
文獻提出了一種全程優(yōu)化的垃圾回收方法,在數(shù)據(jù)初始放置、垃圾回收目標(biāo)塊的選擇、有效數(shù)據(jù)的遷移等方面盡可能全面地考慮各步驟對SSD壽命的影響,同典型算法相比,可以減少壽命磨損近30%。
文獻提出一種超級塊重組算法,在垃圾回收時挑選每個閃存上有效數(shù)據(jù)量最小的物理塊來重組超級塊,作為垃圾回收的源超級塊。
實驗結(jié)果表明,和傳統(tǒng)的垃圾回收算法相比,該算法能減小2/3的寫入放大,系統(tǒng)壽命提升將近3倍,適用于預(yù)留空間小但對系統(tǒng)壽命和滿盤下寫性能有要求的場景。
文獻提出采用在控制器內(nèi)部配置緩存設(shè)備的方式提高固態(tài)硬盤整體性能,緩存設(shè)備可使隨機小數(shù)據(jù)寫入時只寫入緩存而不是閃存介質(zhì),當(dāng)匯總數(shù)據(jù)量較大時批量寫入,該方法能有效延長硬盤使用壽命,但需要增加掉電保護機制防止緩存數(shù)據(jù)丟失。
文獻綜述了提高SSD耐久度的方法,包括改善磨損均衡算法、使用外部數(shù)據(jù)緩沖、降低寫入放大系數(shù)、提升預(yù)留空間、應(yīng)用區(qū)塊磨損反饋技術(shù)等。
2變電站設(shè)備典型SSD故障案例
某500kV變電站使用的遠(yuǎn)動網(wǎng)關(guān)機在投運半年后即頻繁出現(xiàn)程序退出、設(shè)備死機等現(xiàn)象,重啟后能恢復(fù)。設(shè)備商檢測分析后確認(rèn)SSD)MLC顆粒)平均全擦寫次數(shù)為2500次,已接近3000次,部分存儲顆粒磨損度較高。更換SSD后問題解決,裝置運行正常,但仍需定量地進行分析,確定SSD寫入數(shù)據(jù)量、P/E次數(shù)與故障的關(guān)系。
SSD的寫入數(shù)據(jù)量可以使用Linux系統(tǒng)自帶的iotop命令監(jiān)測,P/E次數(shù)則需要硬盤供應(yīng)商提供相應(yīng)的工具來獲得?,F(xiàn)場SSD為MLC存儲顆粒,64GB容量,不帶緩存。
模擬變電站數(shù)據(jù)環(huán)境,使用3臺樣機和SSD進行測試,記錄操作系統(tǒng)的日平均寫入數(shù)據(jù)量,和SSD檢測工具獲得的日平均P/E次數(shù)進行對比,結(jié)果如表1所示。
測試得出以下結(jié)論:
(1)帶緩存機制的SSD能有效延長使用壽命,降低放大系數(shù):
(2)隨著SSD累積P/E次數(shù)的增加,放大系數(shù)會增大很多:
(3)假定放大系數(shù)與當(dāng)前已擦寫次數(shù)為正相關(guān),則該型號SSD的預(yù)估壽命在0.6~2.3年。
現(xiàn)場SSD故障出現(xiàn)在設(shè)備投運半年后,考慮到設(shè)備前期的場內(nèi)調(diào)試、現(xiàn)場調(diào)試至少有4個月時間,可以認(rèn)為壽命對比測試的結(jié)論較為符合現(xiàn)場情況。MLC顆粒的SSD理論累積P/E次數(shù)下限為3000次,而本次故障發(fā)現(xiàn)平均P/E次數(shù)達(dá)2500次時已頻繁出現(xiàn)讀寫到壞塊導(dǎo)致設(shè)備故障的情況,合理推斷是該型號SSD的磨損均衡算法效果不佳,造成部分存儲顆粒因磨損過度已經(jīng)退化,造成設(shè)備程序或操作系統(tǒng)運行異常。
另外,日均30GB的寫入數(shù)據(jù)量與變電站遠(yuǎn)動機的場景認(rèn)知有偏差,為查明寫入數(shù)據(jù)量的程序比例,持續(xù)使用iotop命令定位分析程序的數(shù)據(jù)寫入量,發(fā)現(xiàn)存在某個服務(wù)程序的日均數(shù)據(jù)寫入量達(dá)到了26GB。通過與軟件供應(yīng)商溝通,確認(rèn)是該遠(yuǎn)動機啟用了一個數(shù)據(jù)斷面定時保存功能造成的。該功能不是必需的,取消后該站的SSD日平均寫入數(shù)據(jù)量降低為4GB,預(yù)計壽命能延長7倍。
最終該故障現(xiàn)象得到根本解決的方法為:
(1)變電站自動化設(shè)備換用其他品牌帶緩存機制的SSD;
(2)關(guān)閉自動化設(shè)備系統(tǒng)軟件中不必要的數(shù)據(jù)保存功能。
3自動化設(shè)備SSD狀態(tài)監(jiān)測
變電站設(shè)備使用SSD,需對其狀態(tài)進行在線監(jiān)測,評估性能變化和使用壽命,在SSD顆粒老化前預(yù)警。監(jiān)測對象包括:
3.1SSD剩余空間
SSD的寫入放大系數(shù)與剩余空間有高度相關(guān)性,剩余空間越大,則寫入放大系數(shù)越小。研究數(shù)據(jù)表明,剩余容量為50%時,寫入放大系數(shù)為2左右[l2];當(dāng)剩余容量低于20%時,寫入放大系數(shù)會增大較多。因此,需要對剩余空間進行監(jiān)測預(yù)警,低于20%的可用空間時,使告警指示燈亮。
3.2SSD讀寫速度
如能使用供應(yīng)商自帶的工具定期對SSD進行狀態(tài)監(jiān)測,是較為合理的方式。除此之外,考慮到SSD品牌的多樣性,可以定期對SSD進行順序讀寫測試來檢測硬盤性能是否有明顯下降,一般設(shè)定標(biāo)稱告警值為100MB/s,連續(xù)多次速度檢測低于該值時設(shè)備應(yīng)告警。
測試寫入過程不應(yīng)對SSD造成較大的損耗,測試建議單次數(shù)據(jù)量為32kB,連續(xù)寫入1024次,每天執(zhí)行一次監(jiān)測,則當(dāng)天數(shù)據(jù)量不超過40MB,對SSD損耗相對較小。測試寫性能,Linux設(shè)備一般可使用dd命令:
ddif=/dev/zeroof=/home/data/test.outbs=32Kcount=1024conv=fsync
如為機械硬盤,測試結(jié)果一般返回在100MB/s左右,固態(tài)硬盤在500MB/s左右。
3.3SSD壽命預(yù)估
自動化設(shè)備的狀態(tài)監(jiān)測軟件模塊集成供應(yīng)商提供的監(jiān)測工具,每日定時對SSD進行一次狀態(tài)讀取,獲取當(dāng)前全擦寫P/E次數(shù)s,與前一天的差值即為日P/E次數(shù)T,以公式(3000-s)/T來預(yù)估剩余壽命天數(shù)。
對于新盤,預(yù)估壽命應(yīng)大于8年,否則應(yīng)分析寫入數(shù)據(jù)量是否偏大,需要優(yōu)化應(yīng)用程序并考慮加大SSD容量。考慮到換貨周期,建議預(yù)估剩余壽命低于90天時告警。
4結(jié)語
本文介紹了固態(tài)硬盤SSD的原理和相關(guān)技術(shù)概念,重點討論了SSD的性能和壽命相關(guān)的核心技術(shù)。通過分析一起典型的變電站自動化設(shè)備SSD壽命相關(guān)的故障案例,指出緩存機制有助于提升SSD壽命,不恰當(dāng)?shù)能浖褂脮铀賁SD的老化。
最后,本文提出了自動化設(shè)備的SSD在線監(jiān)測方案,從預(yù)留容量、讀寫速度、預(yù)估壽命三個方面進行狀態(tài)監(jiān)測,為應(yīng)用SSD存儲的自動化設(shè)備的穩(wěn)定可靠運行提供技術(shù)保障。
本文的研究內(nèi)容可為變電站自動化設(shè)備合理使用SSD提供有益的參考。