嵌入式工程師如何喂狗的靈魂拷問
掃描二維碼
隨時隨地手機(jī)看文章
關(guān)注、星標(biāo)公眾號,不錯過精彩內(nèi)容
來源:嵌入式客棧
單片機(jī)程序?qū)懤泵炊?,看門狗狗天天見,你的狗狗養(yǎng)的對么?不停的喂狗,只要狗不叫就完了嘛?真是這樣么?事實上可能不是你想的辣么簡單.....!
啥叫看門狗?
正常工作時,單片機(jī)、處理器或者線程,周期性重置看門狗定時器的定時值,定時器則在后臺不斷的計數(shù),如果定時時間到了且沒有再次喂狗,則狗叫,意味著一些不尋常的事情發(fā)生了!此時,狗狗對外發(fā)出指令,執(zhí)行相應(yīng)的動作。這里所謂的動作究竟是什么?取決于實際系統(tǒng)的設(shè)計。常見的看門狗芯片則會發(fā)出復(fù)位信號給單片機(jī)或者處理,對于軟件定時器而言,具體會有何種動作,則靈活多變,具體取決于采用何種安全策略。
通俗講也稱為喂狗,這個定時值相當(dāng)于狗糧,狗狗吃飽了,胃里不斷消耗狗糧,如果在消耗完之前沒有再喂狗糧,狗狗會餓得直叫喚,發(fā)出預(yù)警消息。反言之,一個一直正常工作的系統(tǒng),其看門狗總是被喂養(yǎng)的很好,不會餓了狂叫。
注:看到有文章把重置看門狗定時器叫踢狗(kick watchdog),嗯嗯,這不太好,要對狗狗好一點,不要踢,叫喂吧~~~
看門狗機(jī)制在電子系統(tǒng)中作用非常之重要,這里舉個極端的栗子,火星車如果程序掛了,就相當(dāng)于失聯(lián),如果沒有看門狗電路。你想象一下是什么場景,無法通訊無法喚醒,秒變太空垃圾~~~
能看住哪些錯誤呢?
?;蚨岩绯?,程序跑飛
某段程序異常無法返回或陷入死循環(huán)
強(qiáng)電磁干擾破壞數(shù)據(jù)導(dǎo)致系統(tǒng)異常,這你或許不好理解,你就想象一下軍事領(lǐng)域,或者航空航天領(lǐng)域很多電子系統(tǒng),常工作在強(qiáng)電磁干擾環(huán)境中
bug導(dǎo)致的系統(tǒng)宕機(jī)
多任務(wù)系統(tǒng)中死鎖
......
原因萬萬千,憋慌!你還有個好狗狗在幫你,讓看門狗來收拾殘局吧。在一個復(fù)雜的嵌入式系統(tǒng)中,不可能保證沒有bug,但是通過使用看門狗,您可以保證沒有任何bug會無限期地掛起系統(tǒng)。
狗叫后該咋整?
常見的處理策略有哪些呢?且看以下分解:
系統(tǒng)復(fù)位,大多數(shù)人都有的體驗,系統(tǒng)掛了咋整,重啟。不由想起了劉歡的<<從頭再來>>,人生如能重啟該多好,然而并不能!有興趣的聽聽~~~
-
失效安全,老外常叫fail-safe 模式。就是設(shè)備即使出現(xiàn)致命故障了,也別造成安全事故。粗魯點說,就是掛了,也不要影響他人。不易理解,舉個例子,一個正在下降的電梯,加入看門狗檢測到程序異常了,安全的做法是趕緊停止電機(jī)轉(zhuǎn)動,否則自由落體,就要涼涼啦。這在IEC61508 功能安全標(biāo)準(zhǔn),或者醫(yī)療安全標(biāo)準(zhǔn)、汽車安全標(biāo)準(zhǔn)中都有體現(xiàn)。 -
這里描述一種推薦做法,芯片復(fù)位后,利用芯片復(fù)位狀態(tài)寄存器值,對看門狗復(fù)位事件計數(shù),事不過三,如果連續(xù)三次此類復(fù)位,則保守做法就是將系統(tǒng)切換到安全狀態(tài)或顯示錯誤消息,這樣可以避免無限重新啟動。怎么做呢?以IAR為例,可以定義一個變量不讓系統(tǒng)自動初始化(如IAR中叫,__no_init),實現(xiàn)計數(shù),復(fù)位后其值仍然保存,除非斷電。 __no_init int wdtResetCounter;
-
取決于具體的設(shè)計策略
如果我們希望系統(tǒng)快速恢復(fù),應(yīng)該采用看門狗復(fù)位后的初始化比正常加電初始化短的策略。也就是說跳過設(shè)備的一些自檢。當(dāng)然,在某些系統(tǒng)中最好進(jìn)行全面自檢,因為看門狗超時的根本原因可能是通過此類硬件異常導(dǎo)致的。
具體咋喂狗呢?
對于裸機(jī)程序而言,推薦采用下面兩種處理策略:
- 故障檢測式喂狗
- 故障檢測加強(qiáng)式喂狗
故障檢測式喂狗
故障檢測加強(qiáng)式喂狗
啥叫序列檢測式喂狗呢?IEC-61508中有種范式叫sequence check,有點邪乎?看下圖,你就馬上明了了。
將是將main函數(shù)的主體關(guān)鍵功能塊,設(shè)置一個序列標(biāo)記,如果如果序列出錯就做安全故障處理,正確則繼續(xù)下一塊的執(zhí)行。在喂狗的時候,看下序列是否正確,正確就喂,否則就做錯誤處理,或者干脆讓狗叫也是一種方式。
對于多任務(wù)實時系統(tǒng)而言,有以下不一樣的需求:
檢測操作系統(tǒng)是否正確運行
在所有任務(wù)中檢測是否有死循環(huán)
檢測涉及兩個或多個任務(wù)的死鎖
檢測由于高優(yōu)先級任務(wù)占用CPU而導(dǎo)致某些低優(yōu)先級任務(wù)無法運行
....
母狗帶群仔喂狗法
實現(xiàn)策略描述:
watchdogTask 可看成狗窩,里面住了一群狗,其中硬件看門狗是母狗,子任務(wù)軟件看門狗為小狗仔。每個子任務(wù)需要在每一個loop循環(huán)喂一次狗(當(dāng)然實際實現(xiàn)時也可以加入任務(wù)故障檢測式喂狗),在watchdogTask每一個循環(huán)都對所有軟件看門狗遞減,如果溢出則軟狗叫了,需要做異常處理(復(fù)位或進(jìn)入失效安全模式)。如果所有的軟件狗都沒有溢出,則喂硬件看門狗(可能是單片機(jī)內(nèi)置或外置芯片)
實際實現(xiàn)時須注意:
watchdogTask應(yīng)選取最高優(yōu)先級
每個loop應(yīng)調(diào)用os_delay一定時間,以出讓CPU時間給其他task運行。掛起的時間應(yīng)小于最大硬件看門狗延時時間。
須合理安排各任務(wù)的優(yōu)先級
嚴(yán)禁在中斷處理中以及其他函數(shù)中私自喂狗。
狗多久叫才合理?
過短之痛
看門狗定時器定時時間設(shè)置過短,則系統(tǒng)容易誤判,可能會導(dǎo)致頻繁復(fù)位或進(jìn)入失效安全模式。因為任何一條安全鏈的好壞取決于它最薄弱的一環(huán),如果選擇一個太短的超時間隔。固件的循環(huán)時間是動態(tài)的,尤其外部的異步事件比較多,或者有中斷嵌套的情況,則波動會比較大,所以需要考慮最壞情況,系統(tǒng)循環(huán)一次要多久。
過長之害
一種方法是選擇一個幾秒鐘長的間隔。當(dāng)您僅嘗試復(fù)位一個確實掛起的系統(tǒng),但不希望對系統(tǒng)的時間進(jìn)行詳細(xì)研究時,可以采用此策略。這是一個健壯的方法。但有些系統(tǒng)需要快速恢復(fù),這就造成故障診斷過慢的危害了,尤其在一些對安全要求極高的場合,比如核電系統(tǒng),汽車電子系統(tǒng)、醫(yī)療器械系統(tǒng)等等。
所以實際設(shè)計時需要兼顧最壞情況下,盡量選擇相對較短的定時時長,在兩者中尋找一個平衡。
總結(jié)一下
對于單片機(jī)編程而言,其實對嵌入式Linux甚至在數(shù)據(jù)庫中,看門狗策略都有大量的應(yīng)用,如何合理的使用看門狗,對于設(shè)計一個健壯的電子系統(tǒng)而言是非常重要的一個話題。
長按前往圖中包含的公眾號關(guān)注
免責(zé)聲明:本文內(nèi)容由21ic獲得授權(quán)后發(fā)布,版權(quán)歸原作者所有,本平臺僅提供信息存儲服務(wù)。文章僅代表作者個人觀點,不代表本平臺立場,如有問題,請聯(lián)系我們,謝謝!