www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當(dāng)前位置:首頁(yè) > 物聯(lián)網(wǎng) > 《物聯(lián)網(wǎng)技術(shù)》雜志
[導(dǎo)讀]摘 要:科技情報(bào)大數(shù)據(jù)運(yùn)用行業(yè)人工智能分析技術(shù),基于及時(shí)、海量、跨領(lǐng)域、高縱深的互聯(lián)網(wǎng)大數(shù)據(jù),為政府和企事業(yè)單位打造可定向抓取、語(yǔ)義分析、深度學(xué)習(xí)、完善知識(shí)圖譜的人工智能科技情報(bào)解決方案。還可以滿(mǎn)足地區(qū)競(jìng)爭(zhēng)力、企業(yè)發(fā)展、競(jìng)對(duì)狀況、行業(yè)/技術(shù)跟蹤等方面的科技情報(bào)挖掘需求。IDC估計(jì),到2020年,33%的數(shù)據(jù)將包含有價(jià)值的信息。Hadoop 的目的在于基于一種新的方法來(lái)存儲(chǔ)和處理復(fù)雜的數(shù)據(jù)。通過(guò)把數(shù)據(jù)均衡分布到集群上,復(fù)制副本以確保數(shù)據(jù)的可靠性和容錯(cuò)性。存儲(chǔ)和計(jì)算都分布到多個(gè)機(jī)器上,以充分體現(xiàn)數(shù)據(jù)的本地性,且當(dāng)前很多數(shù)據(jù)庫(kù)也支持?jǐn)?shù)據(jù)分片技術(shù)。Hadoop分布式系統(tǒng)已成為大數(shù)據(jù)挖掘系統(tǒng)的重要組成部分。文中在Hadoop分布式平臺(tái)上完成了科技情報(bào)數(shù)據(jù)深度分析的一次實(shí)踐。

引 言

大數(shù)據(jù)擁有數(shù)據(jù)量巨大;數(shù)據(jù)類(lèi)型多樣;數(shù)據(jù)中富含價(jià)值; 在盡可能短的時(shí)間內(nèi)挖掘出數(shù)據(jù)的真實(shí)性等典型特征[1]。

數(shù)據(jù)挖掘技術(shù) [2](Data Mining)可在大型數(shù)據(jù)庫(kù)中自動(dòng)發(fā)現(xiàn)有用信息,具有聚類(lèi)分析,預(yù)測(cè)建模,關(guān)聯(lián)分析,異常檢測(cè)等功能,既可以獨(dú)立運(yùn)行,也可以聯(lián)合操作。聚類(lèi)分析實(shí)用的技術(shù)包括 K 均值、凝聚層次聚類(lèi)、dbscan、簇評(píng)估等,主要目的在于通過(guò)基于原型、密度、圖像等的聚類(lèi),發(fā)現(xiàn)其間關(guān)系。預(yù)測(cè)建模更多的是一種可視化角度分析方法,利用分類(lèi)、回歸等方法建立模型以解決問(wèn)題。數(shù)據(jù)挖掘技術(shù)分為統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫(kù)方法。

計(jì)算機(jī)機(jī)器人專(zhuān)業(yè)博士鄧侃 [3] 表示,大數(shù)據(jù)不是忽悠, 關(guān)鍵要能夠發(fā)現(xiàn)其中的價(jià)值,而數(shù)據(jù)挖掘的算法、云計(jì)算和并行計(jì)算就是發(fā)現(xiàn)數(shù)據(jù)價(jià)值的工具。

科技情報(bào)服務(wù)平臺(tái)維護(hù)的公益類(lèi)科技服務(wù)平臺(tái),是為順應(yīng)情報(bào)系統(tǒng)的網(wǎng)絡(luò)化、智能化、集成化和決策化的未來(lái)發(fā)展要求而構(gòu)建的自動(dòng)化情報(bào)收集與服務(wù)體系,可從每日涌現(xiàn)在互聯(lián)網(wǎng)上的海量信息中快速、準(zhǔn)確地獲取有用信息,并完成對(duì)情報(bào)資料的自動(dòng)篩選、分類(lèi)、分析工作,為政府部門(mén)、科研人員和企業(yè)提供具有前瞻性、時(shí)效性和專(zhuān)業(yè)化的情報(bào)服務(wù)。它采用知識(shí)管理的理念和技術(shù)對(duì)科技信息資源進(jìn)行深度挖掘和戰(zhàn)略?xún)?yōu)化,通過(guò)強(qiáng)化科技信息的智能采集和深度加工、發(fā)布和共享機(jī)制,構(gòu)建科技情報(bào)創(chuàng)新服務(wù)體系。

1 數(shù)據(jù)挖掘簡(jiǎn)介

數(shù)據(jù)挖掘的主要任務(wù)是關(guān)聯(lián)分析、聚類(lèi)分析、分類(lèi)、預(yù)測(cè)、時(shí)序模式和偏差分析等[4]。

(1) 關(guān)聯(lián) 分 析(AssociationAnalysis)。 關(guān)聯(lián) 規(guī) 則由 RakeshApwal 等人率先提出。兩個(gè)或兩個(gè)以上變量取值之間存在的規(guī)律稱(chēng)為關(guān)聯(lián),使得所挖掘的規(guī)則更符合需求。

(2) 聚類(lèi)分析(Clustering)。聚類(lèi)是把數(shù)據(jù)按照相似性歸納成若干類(lèi)別,同一類(lèi)中的數(shù)據(jù)彼此相似,不同類(lèi)中的數(shù)據(jù)相異。

(3) 分類(lèi)(Classification)。分類(lèi)即找出一個(gè)類(lèi)別的概念描述,它代表了這類(lèi)數(shù)據(jù)的整體信息,即該類(lèi)的內(nèi)涵描述,并用這種描述來(lái)構(gòu)造模型,一般用規(guī)則或決策樹(shù)模式表示。

(4) 預(yù)測(cè)(Predication)。預(yù)測(cè)是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型預(yù)測(cè)未來(lái)數(shù)據(jù)的種類(lèi)及特征。

(5) 時(shí)序模式(Time-SeriesPattern)。時(shí)序模式是指通過(guò)時(shí)間序列搜索出重復(fù)發(fā)生概率較高的模式。

(6) 偏差分析(Deviation)。在偏差中包括很多有價(jià)值的知識(shí),數(shù)據(jù)庫(kù)中的數(shù)據(jù)存在諸多異常情況,而發(fā)現(xiàn)數(shù)據(jù)庫(kù)中數(shù)據(jù)存在的異常情況非常重要。

2 科技信息采集與存儲(chǔ)系統(tǒng)

使用垂直搜索技術(shù)在互聯(lián)網(wǎng)擴(kuò)大信息搜集途徑,實(shí)現(xiàn)了科技信息的采集與存儲(chǔ)[5]。智能情報(bào)加工系統(tǒng)運(yùn)用信息抽取、機(jī)器學(xué)習(xí)、自然語(yǔ)言理解、信息檢索等技術(shù)對(duì)文本進(jìn)行處理, 實(shí)現(xiàn)對(duì)海量信息的數(shù)據(jù)挖掘,完成數(shù)據(jù)的自動(dòng)分類(lèi)、聚類(lèi)、去除重復(fù)信息、發(fā)現(xiàn)關(guān)聯(lián)規(guī)則、自動(dòng)文摘的生成等??萍夹畔l(fā)布與共享平臺(tái)通過(guò)將門(mén)戶(hù)型科技信息發(fā)布平臺(tái)作為情報(bào)發(fā)布、信息共享、交流互動(dòng)的窗口與載體,可提供情報(bào)簡(jiǎn)報(bào)的自動(dòng)生成、定題服務(wù)等功能。

該平臺(tái)是集情報(bào)收集、存儲(chǔ)、處理和分析于一體的新一代綜合性信息系統(tǒng)。其主要功能是協(xié)助情報(bào)人員制定情報(bào)計(jì)劃, 系統(tǒng)地收集信息,并對(duì)收集到的信息進(jìn)行分析和加工,生成情報(bào)產(chǎn)品并提交給用戶(hù),為用戶(hù)提供公益情報(bào)服務(wù)。

3 科技信息采集與存儲(chǔ)體系

科技信息采集與存儲(chǔ)體系的主要功能在于可完成情報(bào)信息分類(lèi)體系規(guī)劃與情報(bào)信息源規(guī)劃。采用垂直網(wǎng)站抓取技術(shù), 通過(guò)設(shè)置關(guān)鍵詞、數(shù)據(jù)源、重要程度等抓取策略,自動(dòng)發(fā)現(xiàn)互聯(lián)網(wǎng)相關(guān)內(nèi)容,并對(duì)頁(yè)面進(jìn)行抓取。通過(guò)索引技術(shù)對(duì)抓取到的文檔進(jìn)行全文索引,為用戶(hù)提供全局文檔信息搜索結(jié)果; 搜索結(jié)果以知識(shí)樹(shù)的方式展現(xiàn),并實(shí)現(xiàn)對(duì)抓取內(nèi)容的管理。

抓取器由 URL 搜索引擎、頁(yè)面抓取引擎 [6](頁(yè)面抓取器) 組成,用以實(shí)現(xiàn) URL 發(fā)現(xiàn)。抓取器需要對(duì)頁(yè)面中的目錄頁(yè)面、 列表頁(yè)面等非描述性?xún)?nèi)容頁(yè)面進(jìn)行剔除。URL 搜索引擎首先 對(duì)全互聯(lián)網(wǎng)相關(guān)內(nèi)容的 URL 進(jìn)行搜索,并執(zhí)行去重檢測(cè),以 保證相同頁(yè)面只被抓取一次。 頁(yè)面抓取引擎抓取頁(yè)面后,對(duì)其內(nèi)容進(jìn)行分析,剔除其中 的非正文內(nèi)容頁(yè)面。抓取器內(nèi)含定時(shí)抓取策略,可按一定時(shí)間 周期和抓取策略進(jìn)行循環(huán)抓取,以確保我們能夠及時(shí)獲取互 聯(lián)網(wǎng)更新的內(nèi)容。

4 數(shù)據(jù)聚類(lèi)算法

聚類(lèi),即一些給定的元素或者對(duì)象分散存儲(chǔ)在數(shù)據(jù)庫(kù)中, 根據(jù)我們感興趣的對(duì)象屬性對(duì)其進(jìn)行聚集,同類(lèi)對(duì)象之間相似度高,不同類(lèi)之間差異較大。其最大的特點(diǎn)是事先不確定類(lèi)別。這其中最經(jīng)典的算法非 KMeans 算法[7] 莫屬,而這也是最常用的聚類(lèi)算法。在給定 K 值和 K 個(gè)初始類(lèi)簇中心點(diǎn)的情況下,把每個(gè)點(diǎn)(亦即數(shù)據(jù)記錄)分到離其最近的類(lèi)簇中心點(diǎn)所代表的類(lèi)簇中,待所有點(diǎn)分配完畢后,根據(jù)類(lèi)簇內(nèi)的所有點(diǎn)重新計(jì)算該類(lèi)簇的中心點(diǎn)(取平均值),然后迭代進(jìn)行分配點(diǎn)和更新類(lèi)簇中心點(diǎn)的步驟,直至類(lèi)簇中心點(diǎn)變化微小,或達(dá)到指定的迭代次數(shù)為止。KMeans 算法雖然思想比較簡(jiǎn)單,但合理確定 K 值和 K 個(gè)初始類(lèi)簇的中心點(diǎn)對(duì)于聚類(lèi)效果而言有很大影響。

5 信息抓取管理平臺(tái)

信息抓取管理平臺(tái) 是控制抓取的后臺(tái)工具,分為 關(guān)鍵詞抓取 和 深度抓取 。

關(guān)鍵詞抓取 [8] 是指在互聯(lián)網(wǎng)上抓取具有特定關(guān)鍵詞的網(wǎng)頁(yè),每 24 小時(shí)抓取一次,于夜晚進(jìn)行,以保證抓取網(wǎng)頁(yè)與互聯(lián)網(wǎng)上的信息同步更新。

深度抓取 [9] 是指一次性獲取某個(gè)網(wǎng)站的全部信息,以快速積累初始數(shù)據(jù)。深度抓取是一次性的抓取,不會(huì)更新。

5.1 關(guān)鍵內(nèi)容抓取

根據(jù)北京科技信息網(wǎng)的需求,確定數(shù)據(jù)搜索內(nèi)容包括科技政策科技動(dòng)態(tài)等頻道內(nèi)容。抓取器通過(guò)設(shè)定依內(nèi)容抓取的策略,對(duì)全網(wǎng)內(nèi)容進(jìn)行抓取。并通過(guò)后端的內(nèi)容聚 合進(jìn)行內(nèi)容的后處理,以便實(shí)現(xiàn)關(guān)鍵內(nèi)容的抓取。如圖 1 所示, 當(dāng)標(biāo)簽位置為“普通抓取”時(shí),可實(shí)現(xiàn)對(duì)關(guān)鍵內(nèi)容的抓取

基于科技情報(bào)Hadoop平臺(tái)的系統(tǒng)研究

5.2 深度抓取

北京市科技信息網(wǎng) 對(duì)一些特定網(wǎng)站設(shè)定了全站內(nèi)容抓取,對(duì)全站內(nèi)容進(jìn)行一次性?xún)?nèi)容獲取,并實(shí)時(shí)對(duì)其更新的內(nèi)容進(jìn)行監(jiān)控,同步抓取。如圖 2 所示,當(dāng)標(biāo)簽位置為 深度抓取時(shí),可以實(shí)現(xiàn)對(duì)全站內(nèi)容的抓取。

基于科技情報(bào)Hadoop平臺(tái)的系統(tǒng)研究

圖 2 控制臺(tái)的深度抓取界面

5.3 工作狀況的實(shí)時(shí)監(jiān)控與回溯查詢(xún)

實(shí)時(shí)監(jiān)控終端對(duì)引擎運(yùn)行的各項(xiàng)指標(biāo)進(jìn)行實(shí)時(shí)監(jiān)控,以隨時(shí)掌握引擎的運(yùn)行狀態(tài)。 回溯查詢(xún)平臺(tái) 可查看已抓取的網(wǎng)頁(yè)和網(wǎng)頁(yè)去噪情況?;厮莶樵?xún)平臺(tái)界面如圖 3 所示。

基于科技情報(bào)Hadoop平臺(tái)的系統(tǒng)研究

圖 3 回溯查詢(xún)平臺(tái)界面

6 分詞功能介紹

分詞程序主要包含 4 大模塊,分別為數(shù)據(jù)輸入模塊、基本前向后向分詞、數(shù)量詞識(shí)別以及歧義消解模塊。

7 去重功能介紹

該模塊可對(duì)網(wǎng)頁(yè)進(jìn)行去重操作[10]。

8 分類(lèi)功能介紹

實(shí)現(xiàn)中文信息自動(dòng)分門(mén)別類(lèi) [11] 是一項(xiàng)及其復(fù)雜的工作。本系統(tǒng)根據(jù)中文智能分詞技術(shù)[12] 實(shí)現(xiàn)了分類(lèi)功能,即根據(jù)文本內(nèi)容的特點(diǎn)分別歸類(lèi)。通過(guò)人工對(duì)其進(jìn)行簡(jiǎn)單的 訓(xùn)練 后, 可對(duì)文本進(jìn)行高速智能的自動(dòng)分類(lèi)。分類(lèi)可實(shí)現(xiàn)多層的樹(shù)狀結(jié)構(gòu),允許一篇文檔同時(shí)屬于多個(gè)分類(lèi)。分類(lèi)過(guò)程主要包括文本預(yù)處理,抽取特征項(xiàng),分類(lèi)算法等。

9 結(jié) 語(yǔ)

系統(tǒng)擁有的網(wǎng)絡(luò)化情報(bào)自動(dòng)采集、智能加工、發(fā)布共享體系架構(gòu)等功能使得該體系能夠利用先進(jìn)的科技信息采集工具, 實(shí)現(xiàn)異構(gòu)信息資源的采集、轉(zhuǎn)變、整理、合成,以統(tǒng)一的模版格式實(shí)現(xiàn)科技情報(bào)信息資源服務(wù),去除科技信息資源種類(lèi)、架構(gòu)等無(wú)關(guān)信息,實(shí)現(xiàn)用戶(hù)的透明操作;采用統(tǒng)一的信息采集、加工處理、管理平臺(tái),實(shí)現(xiàn)采集、加工處理過(guò)程的個(gè)性化流程個(gè)性化定制;實(shí)現(xiàn)了科技情報(bào)信息資源面向不同種類(lèi)用戶(hù)和不同種類(lèi)應(yīng)用的科技信息發(fā)布服務(wù);基于網(wǎng)絡(luò)的自動(dòng)化情報(bào)收集、加工與發(fā)布體系是公益性情報(bào)服務(wù)平臺(tái)的發(fā)展趨勢(shì)。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專(zhuān)欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車(chē)的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車(chē)技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車(chē)工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車(chē)。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車(chē) 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶(hù)希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱(chēng),數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱(chēng)"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉