當前位置：首頁 > 物聯(lián)網(wǎng) > 《物聯(lián)網(wǎng)技術》雜志

基于MAPREDUCE并行處理的軌跡模式挖掘算法的研究

時間：2021-12-23 01:44:09

關鍵字：改進型FP-Growth Map-Reduce Hadoop 軌跡預測

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]摘要：關聯(lián)規(guī)則算法中FP-Growth算法雖不產(chǎn)生候選集，但由于算法高度依賴于內(nèi)存空間，阻礙了算法在大數(shù)據(jù)領域的發(fā)揮，因此，改進了經(jīng)典的FP-Growth算法，首先創(chuàng)建支持度計數(shù)表，避免了算法對條件模式基的第一次遍歷，減少了對數(shù)據(jù) 庫的掃描次數(shù)；其次利用剪枝策略刪去了大量沉余的非頻繁項集；最后將算法并行化，利用Hadoop平臺優(yōu)勢極大提高數(shù)據(jù) 處理的效率，同時解決了算法占用內(nèi)存的瓶頸問題。實驗結果表明，改進型FP-Growth算法挖掘和預測軌跡的效率明顯高于經(jīng)典算法。

引言

隨著我國經(jīng)濟社會的穩(wěn)步推進，各大城市的發(fā)展取得了令人矚目的成就。與此同時，大城市的機動車保有量與日俱增, 交通擁擠的問題日益嚴重。盡管市政和交通管理部門投入了大量的人力、物力和財力建設，但城市交通擁堵現(xiàn)象仍然不能有效解決。要做到合理分布交通流，使單位時間的道路通行量最大且使用效率高，就需要做到合理規(guī)劃和預測路網(wǎng)中車輛軌跡和車輛路徑。本文提出基于改進FP-Growth算法的車輛預測方法，利用Map/Reduce編程進行大數(shù)據(jù)的并行計算, 提高了算法效率，解決了交通管理部門監(jiān)測當前時間車流量信息的目的，為交通管理部門和相關車輛及時發(fā)布預警信息提供了決策支持。

1 FP-Growth算法概述

J.W.Han等人克服了 Apriori算法產(chǎn)生基數(shù)龐大的候選集和在計算支持度時多次掃描數(shù)據(jù)庫的弱點，提出FP- Growth 算法。其思想是通過掃描2次數(shù)據(jù)庫構造FP-Tree和 Header Table，從而得到用于頻繁項集挖掘的壓縮的數(shù)據(jù)庫映射，然后對每個頻繁項構造其條件FP-Tree進行頻繁項集的挖掘，最終得到頻繁項集。與Apriori算法比較FP-Growth算法不產(chǎn)生候選集，采用FP-Tree壓縮所有能夠提供頻繁項信息的項集，節(jié)省了時間和空間的消耗，相對Apriori算法的執(zhí)行速度和內(nèi)存消耗已經(jīng)有了一個數(shù)量級的改善。

FP-Growth 改進

由于FP-Growth是基于內(nèi)存駐留的算法，在頻繁項挖掘時遞歸生成大量條件FP-Tree，當數(shù)據(jù)庫達到一定規(guī)模時，基于內(nèi)存的FP-Tree已經(jīng)無法有效應對，極容易造成內(nèi)存溢出，這正是FP-Growth算法的瓶頸所在。因而，F(xiàn)P-Growth算法在挖掘大數(shù)據(jù)問題上有較大擴展空間。

針對當前交通的大數(shù)據(jù)背景，傳統(tǒng)FP-Growth算法和以上改進算法的優(yōu)勢不足以處理大規(guī)模交通數(shù)據(jù)問題。因此, 本文就針對交通大數(shù)據(jù)給出FP-Growth算法改進的解決方案:

建立支持度計數(shù)表。在第一次遍歷事務集合T的同時創(chuàng)建二維向量，記錄每個事務中各個項兩兩組合出現(xiàn)的支持度計數(shù)；利用遞歸方式創(chuàng)建后綴模式S ( S夭{Null})條件下的條件FP子樹，此時，第一次遍歷條件模式基得到支持度計數(shù)列表，第二次遍歷條件模式基插入樹節(jié)點從而創(chuàng)建FP樹; 遍歷條件模式基，創(chuàng)建FP子樹的同時創(chuàng)建新的支持度計數(shù)二維向量表。

非頻繁項的剪枝策略。假設項集k在某一個路徑上是非頻繁的；若項集k在FP-tree中存在前綴路徑集合A與集合B，并且滿足集合B包含于集合A，那么集合A中的項集k 就可以被剪枝與短路徑集合B合并。

Map-Reduce 并行處理

Map-Reduce最初是由Google提出的，它是一種可以處理海量數(shù)據(jù)的并行編程模型。該模型把所有的數(shù)據(jù)問題抽象成Map和Reduce兩個函數(shù)。以可靠的并行方式處理大規(guī)模數(shù)據(jù)集，其中Map函數(shù)把問題進行分解，Reduce函數(shù)負責把分解的任務進行規(guī)約處理。

利用Map-Reduce編程模型，經(jīng)統(tǒng)計頻繁1-項和遞歸挖掘頻繁項集的兩次并行處理，對改進后的FR-Growth算法步驟并行化。其描述為：首先，對頻繁1-項集的頻率統(tǒng)計；再利用頻繁1-項集的頻率統(tǒng)計結果建立一個哈希表，按照哈希表對數(shù)據(jù)進行分組，把數(shù)據(jù)分成了若干個部分；然后對分解后的數(shù)據(jù)進行關聯(lián)規(guī)則挖掘；最后，匯總最終的頻繁模式。

基于MAPREDUCE并行處理的軌跡模式挖掘算法的研究

2基于模式匹配的軌跡預測

根據(jù)基于Map/Reduce的頻繁軌跡挖掘得到的序列模式進行軌跡預測。通過Map/Reduce并行計算獲得頻繁模式集合后，就可以計算出與查詢軌跡最為相似的頻繁模式，用該模式就可以預測軌跡的未來走向。

對于移動對象數(shù)據(jù)庫D，存儲的是海量移動對象在各時間采樣點的位置信息。位置信息在時間上的有序集合為軌跡，用D={Ti，T2,…,T.）表示，則|D|表示數(shù)據(jù)庫中包含的軌跡數(shù)量。在三維XXYXT空間里，軌跡T是移動對象在空間內(nèi)位置信息的有序組合，可以表示為T= （ti，xi，yi），J X2, 乃），…，（tn，x?，yn）?其中t表示時間戳，（Xj，y）表示移動對象的空間位置坐標。

軌跡匹配，是從頻繁模式中找出與查詢軌跡片段匹配權重最高的模式。假設用戶的查詢軌跡片段為Q = <gq1，gq2,…, gq,>，軌跡頻繁模式為P = <gp1，gp2, -，gps>，則Q的預測由 Q和P' =<gp1，gp2，…，gp?>的匹配程度進行反映。軌跡片段在時間上最靠近當前的元素是優(yōu)先考慮的，當i<j時,gqj 的權重要小于gq,這里將Wi+1=k*W, k>1, W1默認為1,因此軌跡Q、P的相似度計算公式為：

基于MAPREDUCE并行處理的軌跡模式挖掘算法的研究

如查詢軌跡片段Q=<b, c,d>,頻繁模式為P<a, c, d, f>, Q和P的公共元素有<c, d>, c和d的權重分別是100和10,假設k=10,因此Q和P似度為Sim (Q, P) =10+100/1+10+100,表明f極有可能為軌跡Q的未來軌跡。

3算法與實驗

本文實驗環(huán)境采用4臺PC機做分布式環(huán)境。操作系統(tǒng) 為 Ubuntu 14.04 -32bit, Hadoop 2.4.0, CPU 為 Inter Core i7 處理器，主頻2.1 GHz,單機內(nèi)存為512 MB。

3.1頻繁1-項統(tǒng)計

其Map-Reduce算法偽代碼如下：

map (key, value) { //value 為事務 T

for each ki (E Ti do

output<ki, 1> ；

end

}

reduce( key, value) {//key 為一個 1-項集,value 為其支持數(shù)列表[1,

1,…，1]

C=0 ；

for each v in value do

C+=1；

end

ifC/|D| minsup then

output<key, C> ； //輸出頻繁1-項集及其支持數(shù)

end

}

FP-Growth 并行化

其Map-Reduce算法偽代碼如下：

map (key, value) { //value 為事務 T}

insert_build_fptree (LFPTree, Ti) ； // 更新局部 FP 樹 LFPTree

}

cleanup() {

LocalFPGrowth (LFPTree, LFPSet) ； // 將局部頻繁項目集及其支持數(shù)放入LFPSet中

for each lfp ( LFPSet do

output<lfp, sup (lfp) > ； //sup (lfp)為局部頻繁項目集 lfp 的支持數(shù)

end

}

reduce (key, value) {//key為項目集，value為其支持數(shù)列表

C=0 ；

for each vi in value do

C+=vi ；

end

if C/|D| > minsup then

output<key, C> ； //輸出全局頻繁項目集及其支持數(shù)

else if

write key into a distribute file ； //若暫不確定是否全局頻繁，則將其寫入分布式文件

end

}

4結語

本文結合歷史車輛軌跡數(shù)據(jù)利用改進型的關聯(lián)規(guī)則算法 FP-Growth挖掘出軌跡模式索引，并提出基于Map/Reduce算法的軌跡預測方案。在路網(wǎng)中利用索引樹對車輛未來軌跡進行預測，預判出車流趨勢，為交通管理部門及時做出交通疏導方案的決策提供了支持。

20211223_61c363739aca5__基于MAPREDUCE并行處理的軌跡模式挖掘算法的研究

本站聲明：本文章由作者或相關機構授權發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內(nèi)容真實性等。需要轉載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權益，請及時聯(lián)系本站刪除。

換一批

ESP32憑什么成物聯(lián)網(wǎng)開發(fā)“香餑餑”？

在物聯(lián)網(wǎng)設備數(shù)量突破千億級的今天，開發(fā)者對核心芯片的訴求已從單一功能轉向“全棧集成+生態(tài)協(xié)同”。樂鑫科技推出的ESP32憑借其獨特的“雙核架構+無線雙模+開源生態(tài)”組合，成為智能家居、工業(yè)監(jiān)控、可穿戴設備等領域的首選方案...

關鍵字： ESP32 物聯(lián)網(wǎng)

[智能應用]

為什么 GPU 芯片需要嵌入式液冷?

在當今數(shù)字化時代，人工智能(AI)和高性能計算(HPC)的迅猛發(fā)展對 GPU 芯片的性能提出了極高要求。隨著 GPU 計算密度和功耗的不斷攀升，散熱問題成為了制約其性能發(fā)揮的關鍵因素。傳統(tǒng)的風冷方案已難以滿足日益增長的散...

關鍵字：人工智能高性能計算芯片

[智能應用]

MCP：在傳統(tǒng) API 之外重塑 AI 開發(fā)

在人工智能飛速發(fā)展的當下，大模型展現(xiàn)出了強大的語言理解與生成能力。然而，要讓這些模型真正在實際場景中發(fā)揮作用，與外部豐富的工具及數(shù)據(jù)源順暢交互至關重要。在此背景下，Model Context Protocol(MCP)，...

關鍵字：人工智能大模型協(xié)議

[智能應用]

一種基于LED光源的電氣控制系統(tǒng)

LED智能調(diào)光系統(tǒng)是一種基于LED光源的電氣控制系統(tǒng)，主要應用于酒店、展廳、劇場及商業(yè)建筑等場景，可實現(xiàn)動態(tài)調(diào)節(jié)光通量和照度。

關鍵字： LED智能調(diào)光系統(tǒng)

[智能應用]

在DAB中的一種高效控制策略介紹

在DAB中，兩個橋的占空比通常保持在50%，功率流動是通過改變兩個電橋之間的相位即相移(phase shift)而實現(xiàn)的。

關鍵字：雙有源橋

[智能應用]

常用的調(diào)光技術之脈沖寬度調(diào)制(PWM)

電容觸摸技術作為一種實用、時尚的人機交互方式，已經(jīng)被廣泛的應用到各種電子產(chǎn)品，小到電燈開關，大到平板電腦、觸摸桌等。

關鍵字：電容觸摸

[智能應用]

平安城市視頻監(jiān)控架構，端-邊-云協(xié)同的4K8K超高清編碼與存儲優(yōu)化

在平安城市建設中，視頻監(jiān)控系統(tǒng)正從標清向4K/8K超高清方向發(fā)展。超高清視頻雖能提供更豐富的細節(jié)(如人臉特征、車牌號碼)，但也帶來數(shù)據(jù)量激增(8K視頻碼流達100Mbps)、傳輸延遲升高、存儲成本攀升等問題。端-邊-云協(xié)...

關鍵字：平安城市視頻監(jiān)控

[智能應用]

井蓋位移監(jiān)測系統(tǒng)：低功耗藍牙（BLE）與邊緣計算的實時預警設計

在智慧城市建設中，井蓋位移監(jiān)測是保障市政設施安全運行的關鍵環(huán)節(jié)。傳統(tǒng)人工巡檢方式存在效率低、響應慢等問題，而基于低功耗藍牙(BLE)與邊緣計算的實時預警系統(tǒng)，通過物聯(lián)網(wǎng)技術實現(xiàn)了對井蓋狀態(tài)的實時感知與智能分析。本文從系統(tǒng)...

關鍵字：井蓋位移 BLE

[智能應用]