無線傳感器網(wǎng)絡(luò)數(shù)據(jù)融合技術(shù)與展望

時間：2021-10-10 19:03:26

關(guān)鍵字：無線傳感器網(wǎng)絡(luò) 數(shù)據(jù)融合數(shù)據(jù)清理數(shù)據(jù)挖掘

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀]摘要：無線傳感器網(wǎng)絡(luò)以數(shù)據(jù)為中心，其數(shù)據(jù)具有數(shù)據(jù)流特征、強時空相關(guān)性并伴隨著大量噪聲。通過對無線傳感器網(wǎng)絡(luò)中傳感器數(shù)據(jù)的預(yù)處理、數(shù)據(jù)挖掘和后處理完成數(shù)據(jù)融合，可以降低甚至消除網(wǎng)絡(luò)中的冗余信息，減少通信開銷，提高能量效率，延長網(wǎng)絡(luò)壽命，發(fā)展前景十分廣闊。

引言

無線傳感器網(wǎng)絡(luò)是計算、通信和傳感器技術(shù)相結(jié)合的產(chǎn)物。數(shù)量眾多的傳感器節(jié)點采集觀測區(qū)域的熱、光、聲音、速度以及圖像等信號，在無線傳感器網(wǎng)絡(luò)中通過無線信道通信實現(xiàn)信息共享與合作處理，從而將監(jiān)控到的溫度、物種、氣候變化、壓力、方向、速度等傳遞給用戶[1]。

無線傳感器網(wǎng)絡(luò)是信息感知和采集領(lǐng)域的一場深刻變革，目前已在國防、交通、醫(yī)療、反恐、環(huán)境監(jiān)控以及自然災(zāi)害預(yù)防等領(lǐng)域投入應(yīng)用[2]，今后憑借其得天獨厚的優(yōu)勢必將給人類的生產(chǎn)和生活帶來深遠(yuǎn)影響。

無線傳感器網(wǎng)絡(luò)與傳統(tǒng)的Ad-hoc 網(wǎng)絡(luò)差別明顯，主要表現(xiàn)在以數(shù)據(jù)為中心；節(jié)點數(shù)量眾多、密度大；節(jié)點能量、計算、存儲等能力受限；節(jié)點可靠性差；數(shù)據(jù)冗余度高；采用多對一通信模式等。

1 無線傳感器網(wǎng)絡(luò)中的數(shù)據(jù)特征

無線傳感器網(wǎng)絡(luò)中的數(shù)據(jù)常含有大量冗余信息，即使采用專業(yè)的數(shù)據(jù)分析方法也難以解釋數(shù)據(jù)的含義。受所部署地理位置的影響，無線傳感器網(wǎng)絡(luò)中的數(shù)據(jù)常常還包含噪聲，很難將其和真正的數(shù)據(jù)分開。此外，除非將無線傳感器網(wǎng)絡(luò)中的數(shù)據(jù)與時間和位置信息關(guān)聯(lián)，否則無意義。

相對于傳統(tǒng)數(shù)據(jù)而言，無線傳感器網(wǎng)絡(luò)中的數(shù)據(jù)具有其獨有的特征，主要表現(xiàn)在三個方面。

1.1 數(shù)據(jù)流特征

無線傳感器網(wǎng)絡(luò)中的數(shù)據(jù)自動生成，以多路、連續(xù)、時變的方式傳輸 [3]，隨著時間的推移而增加，且數(shù)據(jù)總量可能非常龐大。這些數(shù)據(jù)具有顯式的時間戳或者隱式的到達(dá)時間，是形式按時間排序的數(shù)據(jù)流。

1.2 強時空相關(guān)性

無線傳感器網(wǎng)絡(luò)通常按照一定密度進(jìn)行部署，以便使傳感器覆蓋整個監(jiān)測區(qū)域。因此，大部分無線傳感器網(wǎng)絡(luò)中各節(jié)點間的讀數(shù)會表現(xiàn)出時間和空間上的相關(guān)性。這種強時空相關(guān)性使得某一時刻某個傳感器節(jié)點的讀數(shù)不僅對下一時刻觀測到的讀數(shù)具有高度預(yù)測指示性，還對附近節(jié)點的讀數(shù)具有指示性。利用強時空相關(guān)性可以估計丟失或損壞的數(shù)據(jù)、監(jiān)測偏值、提高傳感器數(shù)據(jù)的質(zhì)量、進(jìn)行數(shù)據(jù)抑制、減少網(wǎng)絡(luò)中的數(shù)據(jù)傳輸，從而降低能耗。但強時空相關(guān)性也會帶來大量的冗余數(shù)據(jù)。

1.3 噪聲

無線傳感器網(wǎng)絡(luò)中傳感器的設(shè)計目標(biāo)是低功耗和低成本。但會導(dǎo)致傳感器的精度受限，加之傳感器通常部署在嚴(yán)酷的環(huán)境中，會受到潛在的環(huán)境干擾。因此，傳感器數(shù)據(jù)通常含有錯誤（由傳感器功能引起）和噪聲（由其他環(huán)境干擾引起），在把它們存儲到數(shù)據(jù)庫之前，應(yīng)先對其進(jìn)行清理。

2 無線傳感器網(wǎng)絡(luò)中數(shù)據(jù)融合的意義

數(shù)據(jù)融合是一種多源數(shù)據(jù)處理技術(shù)，在無線傳感器網(wǎng)絡(luò)中數(shù)據(jù)融合的核心理念就是收集數(shù)據(jù)時，基于傳感器節(jié)點的軟硬件技術(shù)對所采集數(shù)據(jù)做進(jìn)一步處理，刪除冗余信息，為節(jié)點所需傳輸?shù)臄?shù)據(jù) 瘦身，同時處理多個不同節(jié)點的數(shù)據(jù)，使匯聚節(jié)點能夠收集到比單個節(jié)點更加有效、更能滿足用戶需求的數(shù)據(jù)信息，從而實現(xiàn)提高資源利用率、延長網(wǎng)絡(luò)壽命的目的。數(shù)據(jù)融合對無線傳感器網(wǎng)絡(luò)具有十分重要的意義，主要體現(xiàn)在三個方面。

2.1 節(jié)約通信帶寬和能量

通過數(shù)據(jù)融合可以在網(wǎng)內(nèi)對冗余數(shù)據(jù)進(jìn)行處理，即刪除冗余信息，使要傳輸?shù)臄?shù)據(jù)在可以滿足應(yīng)用所需的前提下盡可能的少。由于傳感器節(jié)點傳輸數(shù)據(jù)消耗的能量高于計算所消耗能量幾個數(shù)量級，因此在網(wǎng)內(nèi)數(shù)據(jù)融合過程中消耗一定的計算資源來節(jié)約通信帶寬，不但可以提高傳輸效率，還可以通過降低節(jié)點的能量消耗延長整個無線傳感器網(wǎng)絡(luò)的生命周期。

2.2 提高信息準(zhǔn)確度

通過數(shù)據(jù)融合技術(shù)對監(jiān)測同一對象的多個傳感器節(jié)點所采集的數(shù)據(jù)進(jìn)行綜合，可以使最終獲得的數(shù)據(jù)精度和可信度處于一個較高的水平。因為比鄰傳感器節(jié)點幾乎監(jiān)測同一區(qū)域，其所獲數(shù)據(jù)差異性較小。如果個別節(jié)點出現(xiàn)數(shù)據(jù)錯誤或誤差較大，可以通過網(wǎng)內(nèi)數(shù)據(jù)融合將其過濾掉。

2.3 提高數(shù)據(jù)收集效率

通過數(shù)據(jù)融合可以減少需要傳輸?shù)臄?shù)據(jù)量，從而有效減輕網(wǎng)絡(luò)中的數(shù)據(jù)堵塞，減少傳輸過程中的數(shù)據(jù)沖突和碰撞，也使數(shù)據(jù)傳輸延遲處于較低水平，從而提高整個網(wǎng)絡(luò)無線信道的利用率。

3 數(shù)據(jù)融合過程

無線傳感器網(wǎng)絡(luò)的數(shù)據(jù)融合過程包括預(yù)處理、數(shù)據(jù)挖掘和后處理。圖 1 所示為從原始數(shù)據(jù)提取信息的全過程。

無線傳感器網(wǎng)絡(luò)數(shù)據(jù)融合技術(shù)與展望

3.1 數(shù)據(jù)預(yù)處理

無線傳感器網(wǎng)絡(luò)中的節(jié)點數(shù)據(jù)通常包含噪聲、偏值和丟失值。如圖 2 所示，引起這些數(shù)據(jù)質(zhì)量問題的原因包括傳感器內(nèi)部誤差；傳感器部署所處的嚴(yán)酷環(huán)境；無線傳輸過程中數(shù)據(jù)的損毀和丟失。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清理、丟失值恢復(fù)、網(wǎng)內(nèi)整合以及偏值檢測、數(shù)據(jù)壓縮、維數(shù)壓縮和數(shù)據(jù)預(yù)測等。

無線傳感器網(wǎng)絡(luò)數(shù)據(jù)融合技術(shù)與展望

3.1.1 數(shù)據(jù)清理

目前已有多種方法用于傳感器數(shù)據(jù)清理，包括貝葉斯理論、神經(jīng)網(wǎng)絡(luò)、小波、卡爾曼濾波和加權(quán)移動平均。由于計算能力有限，無線傳感器網(wǎng)絡(luò)很難實現(xiàn)貝葉斯理論、神經(jīng)網(wǎng)絡(luò)和小波方法。卡爾曼濾波和加權(quán)移動平均兩種方法相對可行。

Zhuang 等人提出了一種基于傳感器數(shù)據(jù)清理的智能加權(quán)移動平均方法[4]。該方法包括以下三個步驟：

(1) 通過預(yù)測范圍找出重要數(shù)值；

(2) 通過對單一傳感器節(jié)點進(jìn)行節(jié)點測試和鄰居測試來增加重要數(shù)值的置信度；

(3) 在匯聚節(jié)點執(zhí)行加權(quán)移動平均算法。

這種方法采用卡爾曼濾波和線性回歸進(jìn)行范圍預(yù)測。在預(yù)測范圍內(nèi)的值被稱為重要值，并在第二步中計算其置信度。最后，在匯聚節(jié)點結(jié)合時間平均和空間平均進(jìn)行移動加權(quán)平均。

3.1.2 丟失值恢復(fù)

對于解決網(wǎng)絡(luò)數(shù)據(jù)丟失的問題，傳統(tǒng)的方法是在接收方向發(fā)送方發(fā)送一個重傳請求之前，等待一個預(yù)定義的時間周期，或者發(fā)送方?jīng)]有收到來自接收方的確認(rèn)，則自動重傳數(shù)據(jù)包。使用這種方法主要有兩個缺點，即增加傳感器功耗，增加由查詢產(chǎn)生的結(jié)果延遲。因此，在處理傳感器數(shù)據(jù)丟失的現(xiàn)有研究中，重點是使用與丟失的傳感器數(shù)據(jù)有關(guān)的傳感器中的可用數(shù)據(jù)來估計或恢復(fù)丟失的數(shù)據(jù)。

目前已經(jīng)提出了多種估計方法，如最大期望算法、關(guān)聯(lián) 規(guī)則算法和信任傳播算法。最大期望算法是一種使完整數(shù)據(jù) 似然性收斂到局部極大值的通用方法，即觀測的數(shù)據(jù)和丟失的數(shù)據(jù)似然性?！癊”步計算節(jié)點丟失值的期望或可能性 p（Y|X， θ），其中 X 表示觀測的數(shù)據(jù)，Y 表示丟失值，θ 表示統(tǒng)計模型參數(shù)。根據(jù)丟失值的期望，“M”步計算使完整數(shù)據(jù)似然性最大的期望值為 θ。

3.1.3 網(wǎng)內(nèi)數(shù)據(jù)整合

大量冗余數(shù)據(jù)可能會放緩或混淆知識發(fā)現(xiàn)過程。冗余數(shù)據(jù)的網(wǎng)內(nèi)整合可以減少整個無線傳感器網(wǎng)絡(luò)的數(shù)據(jù)流，從而使用最少的資源提取最具代表性的數(shù)據(jù)，這樣可以有效降低功耗。因此，傳感器數(shù)據(jù)預(yù)處理研究的一個分支是關(guān)注WSN 的傳感器數(shù)據(jù)壓縮。

最簡單的情況是，當(dāng)原始數(shù)據(jù)大于預(yù)定義的閾值時，求出原始數(shù)據(jù)的平均值并記錄該平均值。如下所列為結(jié)構(gòu)化查詢語言SQL 中的平均整合查詢語句，AVG 為傳感器采集的平均溫度值。如果該平均值大于閾值，則通過 Having AVG ，發(fā)送平均值，采樣周期為 30 s。

SELECT AVG（temperature），F(xiàn)ROM Sensors

WHERE floor=6

HAVING AVG（tempreature）> threshold

SAMPLE PERIOD 30s

Akcan 和Br?nnimann 提出了一種加權(quán)網(wǎng)內(nèi)采樣算法來獲得確定性更小、更典型的樣本而非原始冗余數(shù)據(jù) [5]。與隨機(jī)采樣相比，加權(quán)采樣的優(yōu)勢在于它可以保證每個節(jié)點的數(shù)據(jù)都有相同的機(jī)會歸屬最終樣本，而獨立于其網(wǎng)絡(luò)來源。

Santini 和R?mer 提出的基于預(yù)測數(shù)據(jù)壓縮的策略不是有選擇的對網(wǎng)絡(luò)節(jié)點進(jìn)行采樣，而是將預(yù)測方法部署在傳感器和匯聚節(jié)點[6]。這樣，傳感器只需發(fā)送偏離預(yù)期值的數(shù)據(jù)。具體方法如下：

在匯聚節(jié)點和傳感器節(jié)點運用預(yù)測模型 G來獲得下一時刻傳感器讀數(shù)的估計值 Xt+1=G（Xt）。

在傳感器節(jié)點，如果|Xt+1－ Xt+1|>ε，就向匯聚節(jié)點發(fā)送實際傳感器讀數(shù)。其中，Xt+1為下一時刻傳感器的實際讀數(shù)，ε 為容忍誤差。

匯聚節(jié)點使用傳感器讀數(shù)的估計值。

3.2 傳感器數(shù)據(jù)挖掘

無線傳感器網(wǎng)絡(luò)中的數(shù)據(jù)挖掘是將傳統(tǒng)的數(shù)據(jù)挖掘算法，如主分量分析（Principal Component Analysis，PCA）、神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)、回歸分析和聚類方法等應(yīng)用到無線傳感器網(wǎng)絡(luò)，避免原始數(shù)據(jù)的直接傳輸，減少傳輸中的數(shù)據(jù)量。Catterall等首次將SOM 神經(jīng)網(wǎng)絡(luò)引入無線傳感器網(wǎng)絡(luò)的網(wǎng)內(nèi)數(shù)據(jù)處理中[7]，Kulakov等對此做了進(jìn)一步研究[8]，提出了兩種神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘結(jié)構(gòu)：

1)簇頭收集各傳感器節(jié)點的數(shù)據(jù)，然后執(zhí)行 Fuzzy ART算法進(jìn)行分類；

2)各傳感器節(jié)點執(zhí)行 FuzzyART算法對自己收集的數(shù)據(jù)分類，將初步結(jié)果傳送到簇頭。

回歸分析是無線傳感器網(wǎng)絡(luò)中的一種網(wǎng)內(nèi)數(shù)據(jù)處理框架。通過將數(shù)據(jù)投影成低緯表示，可以精確表示原始數(shù)據(jù)的結(jié)構(gòu)，同時有效減少網(wǎng)內(nèi)的數(shù)據(jù)量。具體方法是使用線性回歸來完成投影，即數(shù)據(jù)用函數(shù)的帶權(quán)線性組合來近似。Wu 等將貝葉斯網(wǎng)絡(luò)引入無線傳感器網(wǎng)絡(luò)的網(wǎng)內(nèi)數(shù)據(jù)處理 [9]，在目標(biāo)追蹤和數(shù)據(jù)推斷等方面取得了比較好的結(jié)果。

無線傳感器數(shù)據(jù)挖掘主要致力于分布式網(wǎng)內(nèi)數(shù)據(jù)挖掘。大多數(shù)研究人員提出將層次化網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)用于傳感器數(shù)據(jù)挖掘。Bontempi 等提出了一種用于傳感器數(shù)據(jù)挖掘的二層結(jié)構(gòu)[10]，而這是一種傳感器數(shù)據(jù)挖掘的自適應(yīng)模塊化結(jié)構(gòu)，如圖 3所示。

無線傳感器網(wǎng)絡(luò)數(shù)據(jù)融合技術(shù)與展望

底層由用虛線表示的匯聚節(jié)點構(gòu)成，完成用黑點表示的相鄰傳感器節(jié)點的聚合。匯聚后的信號被送到上一層進(jìn)行數(shù)據(jù)挖掘。在這里要完成的感知任務(wù)有分類、回歸和預(yù)測等。該結(jié)構(gòu)在WSN 拓?fù)渲幸肓藚R聚節(jié)點層，每個匯聚節(jié)點都作為一些傳感器節(jié)點的簇頭。

3.3 傳感器數(shù)據(jù)后處理

數(shù)據(jù)后處理包括模式評估、模型評估、數(shù)據(jù)可視化和表示等。通過這一步可以把傳感器數(shù)據(jù)挖掘的結(jié)果和特定應(yīng)用進(jìn)行關(guān)聯(lián)。數(shù)據(jù)可視化可以基于計算機(jī)圖形、統(tǒng)計方法或基于用戶交互技術(shù)。

4結(jié) 語

隨著廉價且強大的傳感器、通信系統(tǒng)和信息技術(shù)實用性的不斷提升，在一些主流領(lǐng)域，無線傳感器網(wǎng)絡(luò)數(shù)據(jù)融合技術(shù)已日漸成熟，能夠提供已被苛刻應(yīng)用所驗證一致、強大的方法和算法庫，通過挖掘其內(nèi)在潛能，進(jìn)行新產(chǎn)品的研究和開發(fā)就具備了良好的基礎(chǔ)，開發(fā)周期將會大大縮短，涉及的風(fēng)險也會隨之降低。

未來無線傳感器網(wǎng)絡(luò)數(shù)據(jù)融合技術(shù)必將大顯身手，特別是在要將物理或技術(shù)方面的傳感器數(shù)據(jù)與定量的上下文信息進(jìn)行融合的領(lǐng)域。如將通信與分布式數(shù)據(jù)融合體系緊密聯(lián)系在一起的融合驅(qū)動通信，將可用的量化非傳感器信息與傳感器數(shù)據(jù)通過上下文數(shù)據(jù)集成進(jìn)行融合從而形成綜合數(shù)據(jù)庫，將聯(lián)想推理、合理的協(xié)商妥協(xié)、專家知識和態(tài)勢評估等融入無線傳感器網(wǎng)絡(luò)數(shù)據(jù)融合的人工輔助系統(tǒng)，為了應(yīng)付跨區(qū)域復(fù)雜地形以及非對稱對手的網(wǎng)絡(luò)中心作戰(zhàn)以及利用無線電臺、電視或移動電話基站等潛在發(fā)射站對目標(biāo)進(jìn)行照射，形成無處不在的被動監(jiān)視網(wǎng)絡(luò)。