www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當前位置:首頁 > 物聯網 > 《物聯網技術》雜志
[導讀]摘要:海量文本快速索引是云檢索系統的一個難點,而分布式索引程序的開發(fā)難度較大。文中提出了一種基于MapReduce的分布式索引方法,通過在Map函數中執(zhí)行文檔的解析及索引,以及在Reduce函數中合并索引數據,以減少文檔排序的工作量,提高索引效率。實驗結果表明,該方法適用于海量數據的并行處理。

引言

海量數據的使用越來越受到人們的關注,如何實現為海量文本數據快速創(chuàng)建索引以供用戶檢索已經成為當前面臨的一個重要課題。傳統的集中式索引方案已經無法滿足需求,隨著MapReduce機制的出現,人們開始研究使用MapReduce進行分布式索引的方案?,F有的基于MapReduce的方法都局限于MapReduce的原始框架,無法處理數據量大、不可分割的文檔,也缺乏對海量索引的管理機制。因此,通過對現有方法的改進,本文設計了一種面向海量大文本的MapReduce索引方法,通過實驗測試了改進方案的索引性能。

1 MapReduce簡介

MapReduce是一種通過將任務分發(fā)到多臺機器上來處理大規(guī)模數據的編程模式。它最初是由Google設計的,用于利用分布式架構來處理大數據集上的計算任務。一個MapReduce工作主要使用Map和Reduce兩個函數。Map函數接收一個<key,value〉鍵值對作為輸入,然后通過特定的計算輸出一組中間鍵值對<key,value〉。所有Map函數的輸出鍵值對將會自動按照key進行排序和分組,然后傳送給Reduce函數。Reduce函數將有著相同key的所有中間鍵值對進行合并,得到最終的結果集。一般處理輸入數據的Map任務會比較多,而處理Map任務輸出數據的Reduce任務會少一點。Map任務和Reduce任務都可以運行在不同的機器上來實現并行化,每個任務都是獨立于其他同類型的任務的,這就使得分布式應用的開發(fā)變得輕松了許多。

2 MI-RM索引方法

本文設計的分布式索引方法的主要思想是:在Map函數中執(zhí)行文檔的解析及索引,而在Reduce函數中合并這些索引數據,即“MapIndex-ReduceMerge”,簡記為MI-RM方法。MI-RM方法采用的策略是,將文檔平均分組,每個組內的文檔的索引數據交給一個Reduce任務來合并。Map函數輸出的中間鍵值對是〈DocGroup,DocIndex〉,其中DocGroup表示該文檔所屬的分組,DocIndex表示該文檔的索引數據。這樣,中間鍵值對的數量就會少了很多,排序的工作量會大大地減少。

Map算法的輸入鍵值對是〈DocGroup,DocPath>,即一個文檔的分組號及其存儲路徑。Map函數從HDFS文件系統得到該文檔的輸入流,并且用文檔解析器來封裝文檔輸入流,用以解析文檔格式。然后,算法即可順序讀取文檔的內容,并將其索引到DocIndex中。索引完成后,將該文檔的索引數據按照〈DocGroup,DocIndex>鍵值對的格式輸出。

Reduce函數對同組文檔的索引嗷據進行歸并。我們設計了支持自動分片的Reduce函數,將同組的文檔索引再次分片,合并到不同的索引片中。Reduce在合并索引數據的時候,將會控制索弓片的大小;如果索弓片已經達到了閥值,那么就將其作為一個獨立的索引片輸出,然后再創(chuàng)建一個新的索弓片來存儲剩余數據,如此往復。表1和表2分別展示了MI-RM的Map和Reduce函數及其算法流程。

一種基于MapReduce的分布式索引方法

一種基于MapReduce的分布式索引方法

3 測試結果

3.1 測試環(huán)境

首先,我們可以搭建包含3臺機器的集群,部署Hadoop進行分布式索引測試。操作系統均Ubuntu8.10,HDFS版本是1.9.2。

本文使用數據生成器隨機生成了18個大小為10MB的文本進行測試。因為測試環(huán)境有限,本文沒有使用大的數據量,文本的數量選擇為18是考慮到它正好是節(jié)點數的整數倍,可以使得任務在各節(jié)點上并行的運行。

3.2 結果與分析

在測試中,我們將MI-RM索引方法配置為18個Map任務和3個Reduce任務。其中每個節(jié)點上可以并發(fā)地執(zhí)行6個任務,也就是說,Map任務的最大并發(fā)量為6。測試結果如下:Map執(zhí)行的總時間為34.253s,Reduce執(zhí)行的總時間為35.515s,總的執(zhí)行時間為45.232s,而采用集中式索引方法處理同樣的數據則需要97.232s,該結果體現了MI-RM索引方法的效率要優(yōu)于傳統的集中式索引方法。

4 結語

本文探討了一種基于MapReduce的分布式索引方法,并與集中式索引方法做了測試比較,通過實驗表明這種方法能夠減化文檔排序的工作量,從而提高建立文本索弓啲效率,能夠滿足海量文本數據檢索的需求。

20211124_619e42918b04a__一種基于MapReduce分布式索引方法

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯系該專欄作者,如若文章內容侵犯您的權益,請及時聯系本站刪除。
換一批
延伸閱讀

今天,小編將在這篇文章中為大家?guī)泶髷祿挠嘘P報道,通過閱讀這篇文章,大家可以對大數據具備清晰的認識,主要內容如下。

關鍵字: 大數據 分布式 Kafka

北京2022年10月17日 /美通社/ -- 存儲設備對于客戶的核心價值就是要穩(wěn)定可靠,無需什么星辰大海也不用玄妙推演,踏實將穩(wěn)定可靠做到位、保護好客戶的數據,即是最大的意義所在。 北有中關村 南有馬欄山 這里的馬欄...

關鍵字: AI 云平臺 分布式 存儲設備

大數據將是下述內容的主要介紹對象,通過這篇文章,小編希望大家可以對它的相關情況以及信息有所認識和了解,詳細內容如下。

關鍵字: 大數據 物聯網 分布式

北京2022年10月11日 /美通社/ -- 在1992年出版的《雪崩》一書中,作者尼爾·史蒂芬森第一次提出Metaverse(元宇宙)這一概念;斗轉星移,三十年之后,隨著Roblox上市、Facebook...

關鍵字: 區(qū)塊鏈 存儲技術 帶寬 分布式

智慧光儲進萬家 蘇州2022年9月27日 /美通社/ -- 北京時間2022年9月22日,晟高能源科技對外宣布與康佳集團達成全面戰(zhàn)略合作,成為康佳集團在國內戶用及工商業(yè)光伏產品領域戰(zhàn)略合作單位。  ...

關鍵字: 分布式 康佳 光伏組件 新能源

北京2022年9月23日 /美通社/ -- 9月21日,國家原子能機構在京舉辦2022年第三季論壇,發(fā)布核技術應用領域十件大事,展示了核技術近年來在國民經濟領域的重大應用成果。同方威視自主研發(fā)的世界首套基于碳納米管冷陰極...

關鍵字: X射線 分布式 碳納米管 BSP

(全球TMT2022年9月20日訊)9月16日至18日,借第19屆中國—東盟博覽會開展之機,首屆中國—東盟和平利用核技術論壇在廣西南寧召開。中核集團同方股份有限公司出席活動,并聯合核安保技術中心、中國原子能工業(yè)有限公司...

關鍵字: 分布式 器件 安防 并聯

北京, 2022年9月20日 /美通社/ -- 9月16日至18日,借第19屆中國—東盟博覽會開展之機,首屆中國—東盟和平利用核技術論壇在廣西南寧召開。中核集團同方股份有限公司出席活動,并聯合核安保技術中心、中...

關鍵字: BSP 全自動 分布式 器件

西安2022年9月9日 /美通社/ -- 9月7日,由工業(yè)和信息化部節(jié)能與綜合利用司、國家能源局能源節(jié)約和科技裝備司與浙江省能源局聯合指導,中國化學與物理電源行業(yè)協會聯合232余家機構共同支持的第十二屆中國國際儲能大會在...

關鍵字: 電力系統 分布式 變流器 新能源汽車

在這篇文章中,小編將為大家?guī)泶髷祿南嚓P報道。如果你對本文即將要講解的內容存在一定興趣,不妨繼續(xù)往下閱讀哦。

關鍵字: 大數據 云計算 分布式

《物聯網技術》雜志

2510 篇文章

關注

發(fā)布文章

編輯精選

技術子站

關閉