工業(yè)大數(shù)據(jù)的價值是怎樣體現(xiàn)出來的
由大數(shù)據(jù)驅動的制造業(yè)轉型升級,是未來制造業(yè)提升生產(chǎn)效率、改進產(chǎn)品質量、節(jié)約資源消耗、保障生產(chǎn)安全、優(yōu)化銷售服務的必經(jīng)之路,通過與工業(yè)互聯(lián)網(wǎng)、人工智能、移動互聯(lián)網(wǎng)、云計算等技術的協(xié)同發(fā)展,工業(yè)大數(shù)據(jù)驅動的的工業(yè)互聯(lián)網(wǎng)必將深度融入實體經(jīng)濟,成為數(shù)字經(jīng)濟時代的新引擎。
工業(yè)互聯(lián)網(wǎng)是以數(shù)字化為基礎,網(wǎng)絡化為支撐,智能化為目標。通過物聯(lián)網(wǎng)技術對工業(yè)制造過程中的人、物、環(huán)境和過程實施對象數(shù)字化,將數(shù)據(jù)通過網(wǎng)絡實現(xiàn)數(shù)據(jù)的價值流動,以數(shù)據(jù)為生產(chǎn)要素,以數(shù)據(jù)的智能分析為基礎,實現(xiàn)智能決策和智能控制,實現(xiàn)智能優(yōu)化和智慧化運營,創(chuàng)造經(jīng)濟價值和社會價值。
數(shù)據(jù)是工業(yè)互聯(lián)網(wǎng)的一種最重要的生產(chǎn)要素。一個工廠每天的數(shù)據(jù)以TB計算,但本質上,這些數(shù)據(jù)具有“多”、“雜”等特點,良莠不齊。不求隨機樣本,而是全體數(shù)據(jù);不求精確性,而是混雜性;不求因果,但求相關。新工業(yè)革命,本質上是智能革命,而智能革命的基礎是信息化,大數(shù)據(jù)是根本。沒有大數(shù)據(jù)對客觀事物全面、快速、真實、準確的信息反饋,任何智能設備都不可能實現(xiàn)真正的智能。
那么,如何讓這些“多”、“雜”的工業(yè)大數(shù)據(jù)發(fā)揮其價值?
一、工業(yè)大數(shù)據(jù)的數(shù)據(jù)挖掘
(一)一些基本概念
數(shù)據(jù)挖掘是利用業(yè)務知識從數(shù)據(jù)中發(fā)現(xiàn)和解釋知識(或稱為模式)的過程,這種知識是以自然或者人工形式創(chuàng)造的新知識。這其中有幾個概念需要了解下:
1、OLTP和OLAP
OLTP(On-line Transaction Processing)聯(lián)機事務處理,使事務應用程序僅寫入所需的數(shù)據(jù),以便盡快處理單個事務。其基本特征是前臺接收的用戶數(shù)據(jù)可以立即傳送到計算中心進行處理,并在很短的時間內給出處理結果。
OLAP(On-line AnalyTIcal Processing)聯(lián)機分析處理,專門設計用于支持復雜的分析操作,側重對決策人員和高層管理人員的決策支持,可以根據(jù)分析人員的要求快速、靈活地進行大數(shù)據(jù)量的復雜查詢處理,并且以一種直觀而易懂的形式將查詢結果提供給決策人員。OLAP的目標是滿足決策支持或多維環(huán)境特定的查詢和報表需求,它的技術核心是“維”這個概念,因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。
2、數(shù)據(jù)倉庫和數(shù)據(jù)集市
數(shù)據(jù)倉庫(Data Warehouse,簡寫DW),是為企業(yè)所有級別的決策制定過程,提供所有類型數(shù)據(jù)支持的戰(zhàn)略集合。它是單個數(shù)據(jù)存儲,出于分析性報告和決策支持目的而創(chuàng)建。數(shù)據(jù)倉庫在軟硬件領域、Internet 和企業(yè)內部網(wǎng)解決方案以及數(shù)據(jù)庫方面提供了許多經(jīng)濟高效的計算資源,可以保存極大量的數(shù)據(jù)供分析使用,且允許使用多種數(shù)據(jù)訪問技術。
數(shù)據(jù)集市(Data Mart) ,也叫數(shù)據(jù)市場,從范圍上來說,數(shù)據(jù)是從企業(yè)范圍的數(shù)據(jù)庫、數(shù)據(jù)倉庫,或者是更加專業(yè)的數(shù)據(jù)倉庫中抽取出來的。
數(shù)據(jù)倉庫和數(shù)據(jù)集市區(qū)別在于范圍上,前者相當于是所有的企業(yè)數(shù)據(jù)的集合,后者重點對整個數(shù)據(jù)倉庫內進行了分類,迎合了專業(yè)用戶群體的特殊需求。
3、數(shù)據(jù)ETL處理
數(shù)據(jù)ETL處理,即數(shù)據(jù)的抽取(Extract)、數(shù)據(jù)的清洗(Cleaning)、數(shù)字的轉換(Transform)、數(shù)字的裝載(Load)。
?。ǘ┕I(yè)大數(shù)據(jù)的數(shù)據(jù)挖掘
1、工業(yè)大數(shù)據(jù)數(shù)據(jù)挖掘流程
數(shù)據(jù)挖掘過程一般分為數(shù)據(jù)準備、數(shù)據(jù)挖掘和結果表達和解釋三個部分。在數(shù)據(jù)準備階段,需要對數(shù)據(jù)集進行選取和預處理。其中數(shù)據(jù)預處理包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約和數(shù)據(jù)變換等。
2、工業(yè)大數(shù)據(jù)數(shù)據(jù)挖掘的基本算法
數(shù)據(jù)挖掘是一種獲得知識的技術。其基礎是數(shù)據(jù),其手段是各種算法,其目的是獲得數(shù)據(jù)中所蘊含的知識。數(shù)據(jù)挖掘從一個新的視角將數(shù)據(jù)庫技術、統(tǒng)計學、機器學習、信息檢索技術、數(shù)據(jù)可視化和模式識別與人工智能等領域有機結合起來,它能組合各個領域的優(yōu)點,從而能從數(shù)據(jù)中挖掘到其他傳統(tǒng)方法不能發(fā)現(xiàn)的有用知識。利用數(shù)據(jù)挖掘進行數(shù)據(jù)分析常用的方法主要有分類、回歸分析、聚類、關聯(lián)規(guī)則、特征、變化和偏差分析等,它們分別從不同的角度對數(shù)據(jù)進行挖掘。數(shù)據(jù)挖掘的算法很多,隨著科學技術的不斷發(fā)展,新的算法會不斷地加入。
3、數(shù)據(jù)挖掘的目的
數(shù)據(jù)挖掘分為三層,一是提供數(shù)據(jù)源、數(shù)據(jù)準備的數(shù)據(jù)層,一個是提供算法、引擎和界面的算法層,一個是把數(shù)據(jù)挖掘結果應用于實踐的應用層。
數(shù)據(jù)挖掘目的是可以應用于應用層實際應用的描述類知識和預測類知識。
數(shù)據(jù)挖掘不是一個靜態(tài)的過程,需要不斷對模型重新評估,衡量,修正。在大數(shù)據(jù)時代,數(shù)據(jù)的產(chǎn)生和收集是基礎,數(shù)據(jù)挖掘是關鍵。數(shù)據(jù)挖掘是大數(shù)據(jù)中最關鍵也最有價值的工作。通常,數(shù)據(jù)挖掘或知識發(fā)現(xiàn)泛指從大量數(shù)據(jù)中挖掘出隱含的、先前未知但潛在的有用信息和模式的一個工程化和系統(tǒng)化的過程。
(三)數(shù)據(jù)挖掘的4個特性
1、應用性
數(shù)據(jù)挖掘是理論算法和應用實踐的完美結合。數(shù)據(jù)挖掘源于實際生產(chǎn)生活中應用的需求,挖掘的數(shù)據(jù)來自于具體應用,同時通過數(shù)據(jù)挖掘發(fā)現(xiàn)的知識又要運用到實踐中去,輔助實際決策。所以,數(shù)據(jù)挖掘來自于應用實踐,同時也服務于應用實踐。
2、工程性
數(shù)據(jù)挖掘是一個由多個步驟組成的工程化過程。數(shù)據(jù)挖掘的應用特性決定了數(shù)據(jù)挖掘不僅僅是算法分析和應用,而是一個包含數(shù)據(jù)準備和管理、數(shù)據(jù)預處理和轉換、挖掘算法開發(fā)和應用、結果展示和驗證以及知識積累和使用的完整過程。而且在實際應用中,典型的數(shù)據(jù)挖掘過程還是一個交互和循環(huán)的過程。
3、集合性
數(shù)據(jù)挖掘是多種功能的集合。常用的數(shù)據(jù)挖掘功能包括數(shù)據(jù)探索分析、關聯(lián)規(guī)則挖掘、時間序列模式挖掘、分類預測、聚類分析、異常檢測、數(shù)據(jù)可視化和鏈接分析等。一個具體的應用案例往往涉及多個不同的功能。不同的功能通常有不同的理論和技術基礎,而且每一個功能都有不同的算法支撐。
4、交叉性
數(shù)據(jù)挖掘是一個交叉學科,它利用了來自統(tǒng)計分析、模式識別、機器學習、人工智能、信息檢索、數(shù)據(jù)庫等諸多不同領域的研究成果和學術思想。同時,一些其他領域如隨機算法、信息論、可視化、分布式計算和最優(yōu)化也對數(shù)據(jù)挖掘的發(fā)展起到重要的作用。數(shù)據(jù)挖掘與這些相關領域的區(qū)別可以由前面提到的數(shù)據(jù)挖掘的3個特性來總結,最重要的是它更側重于應用。
二、基于工業(yè)大數(shù)據(jù)建立數(shù)據(jù)模型
上圖是數(shù)字模型建立的流程圖,其中關鍵點有幾點:
1、確定目標
2、選擇變量和變量重構
3、選擇算法
4、測試結果
三、數(shù)據(jù)+模型=服務
隨著新一代信息技術與制造業(yè)的深度融合,工業(yè)企業(yè)的運營管理,越來越依賴工業(yè)大數(shù)據(jù)。工業(yè)大數(shù)據(jù)的潛在價值也日益呈現(xiàn)。隨著越來越多的生產(chǎn)設備、零部件、產(chǎn)品以及人力物力不斷加入工業(yè)互聯(lián)網(wǎng),也致使工業(yè)大數(shù)據(jù)呈現(xiàn)出爆炸性增長的趨勢。
大數(shù)據(jù)的核心和本質是應用、算法、數(shù)據(jù)和平臺4個要素的有機結合,如圖所示。大數(shù)據(jù)是應用驅動的,大數(shù)據(jù)來源于實踐,海量數(shù)據(jù)產(chǎn)生于實際應用中。
數(shù)據(jù)挖掘源于實踐中的實際應用需求,用具體的應用數(shù)據(jù)作為驅動,以算法、工具和平臺作為支撐,最終將發(fā)現(xiàn)的知識和信息用到實踐中去,從而提供量化、合理、可行、能夠產(chǎn)生巨大價值的信息。另外,挖掘大數(shù)據(jù)所蘊含的有用信息,需要設計和開發(fā)相應的數(shù)據(jù)挖掘和機器學習算法。算法的設計和開發(fā)要以具體的應用數(shù)據(jù)為驅動,同時也要在實際問題中得到應用和驗證,而算法的實現(xiàn)與應用需要高效的處理平臺。高效的處理平臺需要有效地分析海量的數(shù)據(jù)及對多源數(shù)據(jù)進行集成,同時有力支持數(shù)據(jù)挖掘算法以及數(shù)據(jù)可視化的執(zhí)行,并對數(shù)據(jù)分析的流程進行規(guī)范。總而言之,這個應用、算法、數(shù)據(jù)和平臺相結合的思想是對大數(shù)據(jù)的理解和認識的一個綜合與凝練,體現(xiàn)了大數(shù)據(jù)的本質和核心。建立在此架構上的大數(shù)據(jù)挖掘,能夠有效處理大數(shù)據(jù)的復雜特征,挖掘大數(shù)據(jù)的價值。
四、結語
由大數(shù)據(jù)驅動的制造業(yè)轉型升級,是未來制造業(yè)提升生產(chǎn)效率、改進產(chǎn)品質量、節(jié)約資源消耗、保障生產(chǎn)安全、優(yōu)化銷售服務的必經(jīng)之路,通過與工業(yè)互聯(lián)網(wǎng)、人工智能、移動互聯(lián)網(wǎng)、云計算等技術的協(xié)同發(fā)展,工業(yè)大數(shù)據(jù)驅動的的工業(yè)互聯(lián)網(wǎng)必將深度融入實體經(jīng)濟,成為數(shù)字經(jīng)濟時代的新引擎。
來源:工業(yè)互聯(lián)網(wǎng)前線