大佬深入淺出工業(yè)大數(shù)據(jù),論工業(yè)大數(shù)據(jù)之?dāng)?shù)據(jù)準(zhǔn)備
掃描二維碼
隨時(shí)隨地手機(jī)看文章
在下述的內(nèi)容中,小編將會(huì)對(duì)工業(yè)大數(shù)據(jù)的相關(guān)消息予以報(bào)道,如果工業(yè)大數(shù)據(jù)是您想要了解的焦點(diǎn)之一,不妨和小編共同閱讀這篇文章哦。
一、淺談對(duì)工業(yè)大數(shù)據(jù)的認(rèn)識(shí)
工業(yè)大數(shù)據(jù)技術(shù)是使工業(yè)大數(shù)據(jù)所包含的價(jià)值得以挖掘和展示的一系列技術(shù)和方法,包括數(shù)據(jù)規(guī)劃、采集、預(yù)處理、存儲(chǔ)、分析挖掘、可視化和智能控制。 工業(yè)大數(shù)據(jù)應(yīng)用是將工業(yè)大數(shù)據(jù)系列技術(shù)和方法整合應(yīng)用到特定工業(yè)大數(shù)據(jù)集,獲取有價(jià)值信息的過(guò)程。 工業(yè)大數(shù)據(jù)技術(shù)研究和突破的本質(zhì)目標(biāo)是從復(fù)雜的數(shù)據(jù)集中發(fā)現(xiàn)新的模式和知識(shí),挖掘有價(jià)值的新信息,從而促進(jìn)制造企業(yè)的產(chǎn)品創(chuàng)新,提高管理水平和效率,拓展新的商業(yè)模式。
工業(yè)大數(shù)據(jù)的本質(zhì)是以數(shù)據(jù)的形式呈現(xiàn)的“信息”或“知識(shí)”,而不是無(wú)關(guān)的數(shù)據(jù)。 “信息”和“知識(shí)”的本質(zhì)相似,但不同的是:“知識(shí)”在時(shí)間和空間上具有更強(qiáng)的通用性和連續(xù)性。
工業(yè)大數(shù)據(jù)的核心價(jià)值是知識(shí)的再利用。大數(shù)據(jù)的好處是:獲取知識(shí)成本低、范圍廣、質(zhì)量高。智能使知識(shí)在人機(jī)之間共享,促進(jìn)知識(shí)價(jià)值的實(shí)現(xiàn);互聯(lián)網(wǎng)使知識(shí)的價(jià)值翻倍。知識(shí)價(jià)值的提升,會(huì)讓人們更值得花更多的精力去發(fā)現(xiàn)價(jià)值,形成大數(shù)據(jù)工作的良性循環(huán),提升知識(shí)工作的價(jià)值。數(shù)據(jù)分析是獲取知識(shí)的過(guò)程。但獲得的知識(shí)取決于業(yè)務(wù)需求。在需要進(jìn)行數(shù)據(jù)分析的地方,首要任務(wù)和工作重點(diǎn)是理清業(yè)務(wù)需求的上下文和邏輯,將業(yè)務(wù)需求轉(zhuǎn)化為易于分析的數(shù)學(xué)問(wèn)題。而不是僅僅使用一堆數(shù)據(jù)來(lái)隨機(jī)分析它。
二、工業(yè)大數(shù)據(jù)之?dāng)?shù)據(jù)準(zhǔn)備
1. 數(shù)據(jù)抽取
數(shù)據(jù)抽取是指從不同的數(shù)據(jù)源中抽取數(shù)據(jù)的過(guò)程。針對(duì)大數(shù)據(jù)的復(fù)雜性,提出了一種SAT數(shù)據(jù)提取模型。模型分為三層:數(shù)據(jù)分離層對(duì)數(shù)據(jù)進(jìn)行分離,實(shí)現(xiàn)數(shù)據(jù)的分布。分析層實(shí)現(xiàn)數(shù)據(jù)的并發(fā)處理;轉(zhuǎn)換層完成數(shù)據(jù)的轉(zhuǎn)換和打包。提取方法和模型設(shè)計(jì)合理,但沒有考慮數(shù)據(jù)的安全性。針對(duì)關(guān)系數(shù)據(jù)無(wú)法有效轉(zhuǎn)化為圖數(shù)據(jù)的問(wèn)題,基于一對(duì)一、一對(duì)多、多對(duì)多的數(shù)據(jù)遷移算法,基于節(jié)點(diǎn)合并——將原始關(guān)系數(shù)據(jù)庫(kù)中數(shù)據(jù)的多重關(guān)系作為一個(gè)節(jié)點(diǎn),然后整合關(guān)系信息,最后利用圖數(shù)據(jù)庫(kù)的功能完成數(shù)據(jù)的轉(zhuǎn)換。這種方法合理有效,但效率不高,而且關(guān)系表中的外鍵不完整,算法有待改進(jìn)。除了上述方法,元數(shù)據(jù)知識(shí)模型還可以用于從XML文件中提取數(shù)據(jù);可以構(gòu)建LC增量抽取模型,將異構(gòu)環(huán)境下的數(shù)據(jù)庫(kù)事務(wù)文件與全表進(jìn)行比較,提高數(shù)據(jù)抽取的效率和性能。與其他數(shù)據(jù)提取方法相比,LC增量提取相對(duì)穩(wěn)定,效率更高。但是在提取數(shù)據(jù)的過(guò)程中,需要用到工具來(lái)解析事務(wù)日志文件,操作比較繁瑣。
2.數(shù)據(jù)清洗
數(shù)據(jù)清洗,顧名思義,就是檢查數(shù)據(jù)的質(zhì)量,剔除“臟”數(shù)據(jù)。數(shù)據(jù)清洗前,應(yīng)分析數(shù)據(jù)集的特征,并根據(jù)特征制定相應(yīng)的清洗規(guī)則。
FBS方法是一種常用的數(shù)據(jù)清洗方法。主要思想是通過(guò)測(cè)量每個(gè)屬性的相似性來(lái)清理數(shù)據(jù)。對(duì)于FBS法消除水平置信度低的問(wèn)題,可以采用專門的指標(biāo)來(lái)提高效率。除了置信度問(wèn)題,Accuracy也是一個(gè)重要指標(biāo)。針對(duì)數(shù)據(jù)清洗精度低的問(wèn)題,將主動(dòng)學(xué)習(xí)應(yīng)用于數(shù)據(jù)清洗,并結(jié)合眾包來(lái)保證清洗精度。目前數(shù)據(jù)清洗主要是通過(guò)改進(jìn)算法來(lái)完成的,比如重復(fù)數(shù)據(jù)的檢測(cè)和消除算法,數(shù)據(jù)庫(kù)管理的數(shù)據(jù)清洗算法,增量數(shù)據(jù)的清洗算法等。
經(jīng)由小編的介紹,不知道你對(duì)工業(yè)大數(shù)據(jù)是否充滿了興趣?如果你想對(duì)工業(yè)大數(shù)據(jù)有更多的了解,不妨嘗試度娘更多信息或者在我們的網(wǎng)站里進(jìn)行搜索哦。