www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當(dāng)前位置:首頁 > 物聯(lián)網(wǎng) > 智能應(yīng)用
[導(dǎo)讀]去年,我們目睹了大型AI的爆炸性崛起,產(chǎn)生了全球性的熱情,使人工智能看起來像是所有問題的解決方案。今年,隨著大肆宣傳的減弱,大型模型進入了更深層次,目的是重塑各個行業(yè)的基本邏輯。在大數(shù)據(jù)處理領(lǐng)域,大型模型與傳統(tǒng)ETL(提取、轉(zhuǎn)換、負載)流程之間的沖突引發(fā)了新的爭論。

去年,我們目睹了大型AI的爆炸性崛起,產(chǎn)生了全球性的熱情,使人工智能看起來像是所有問題的解決方案。今年,隨著大肆宣傳的減弱,大型模型進入了更深層次,目的是重塑各個行業(yè)的基本邏輯。在大數(shù)據(jù)處理領(lǐng)域,大型模型與傳統(tǒng)ETL(提取、轉(zhuǎn)換、負載)流程之間的沖突引發(fā)了新的爭論。

大型模型 特點是"transformer",而ETL依靠的是"轉(zhuǎn)換"過程--類似的名稱代表了截然不同的范式。一些聲音大膽預(yù)言: "ETL將在未來完全被替換,因為大型模型可以處理所有數(shù)據(jù)!" 這是否意味著幾十年來支持數(shù)據(jù)處理的ETL框架的結(jié)束?還是僅僅是一個被誤解的預(yù)言?這場沖突的背后是對科技未來的更深刻的思考。

大數(shù)據(jù)處理(ETL)會消失嗎?

隨著大型模型的迅速發(fā)展,一些人開始推測傳統(tǒng)的大數(shù)據(jù)處理方法,包括ETL,是否仍然有必要。無可否認,能夠自主學(xué)習(xí)規(guī)則并從大量數(shù)據(jù)集中發(fā)現(xiàn)模式的大型模型給人留下了深刻印象。不過,我的答案很明確: 他不會消失的。 大型模型仍未能應(yīng)對若干核心數(shù)據(jù)挑戰(zhàn):

1. 效率問題

盡管大型模型在特定任務(wù)中表現(xiàn)出色,但卻要付出巨大的計算成本。訓(xùn)練大型transformer模型可能需要數(shù)周時間,耗費大量能源和財政資源。相比之下,ETL依賴于預(yù)先定義的規(guī)則和邏輯,是高效的,資源輕,擅長處理結(jié)構(gòu)化數(shù)據(jù)。

對于日常企業(yè)數(shù)據(jù)任務(wù),許多操作仍然是由規(guī)則驅(qū)動的,例如:

· 數(shù)據(jù)清理 :使用明確的規(guī)則或正則表達式消除異常。

· 格式轉(zhuǎn)換 *使格式標(biāo)準化,以便利數(shù)據(jù)傳輸和跨系統(tǒng)整合。

· 集合和統(tǒng)計 :每日、每周或每月分類、聚合和計算數(shù)據(jù)。

這些任務(wù)可以由ETL工具快速處理,而不需要大型模型的復(fù)雜推理能力。

2. 自然語言含糊不清

大型模型在?自然語言處理 但也暴露了固有的挑戰(zhàn)--人類語言的含糊和含糊。例如:

· 單個輸入查詢可能會根據(jù)上下文產(chǎn)生不同的解釋,無法保證準確性。

· 數(shù)據(jù)質(zhì)量的差異可能導(dǎo)致模型產(chǎn)生與實際需求不一致的結(jié)果。

相反,ETL是確定性的,根據(jù)預(yù)先定義的規(guī)則處理數(shù)據(jù),以產(chǎn)生可預(yù)測的、標(biāo)準化的輸出。在金融和醫(yī)療等高需求領(lǐng)域,ETL的可靠性和精確性仍然是至關(guān)重要的優(yōu)勢。

3. 強適應(yīng)結(jié)構(gòu)化數(shù)據(jù)

大型模型善于從非結(jié)構(gòu)化數(shù)據(jù)中提取見解(例如:,文本,圖像,視頻),但經(jīng)常與結(jié)構(gòu)化數(shù)據(jù)任務(wù)斗爭。例如:

· 傳統(tǒng)的ETL有效地處理關(guān)系數(shù)據(jù)庫,處理連接和組BYS等復(fù)雜的操作。

· 大型模型要求數(shù)據(jù)在處理之前轉(zhuǎn)換成特定的格式,從而引入了冗余和延遲。

在結(jié)構(gòu)性數(shù)據(jù)主導(dǎo)的情況下(例如:表,JSON),ETL仍然是最佳選擇。

4. 解釋和順從

大型模型常被稱為"黑匣子"。"即使數(shù)據(jù)處理工作完成,其內(nèi)部工作和決策機制仍不透明:

· 無法解釋的結(jié)果 :在金融和醫(yī)療等監(jiān)管行業(yè),大型模型的預(yù)測可能因缺乏透明度而無法使用。

· 遵守方面的挑戰(zhàn) :許多行業(yè)需要對數(shù)據(jù)流和處理邏輯進行全面審計。大型模型及其復(fù)雜的數(shù)據(jù)管道和決策機制構(gòu)成了重大的審計挑戰(zhàn)。

相比之下,ECL提供了高度透明的流程,記錄了每一個數(shù)據(jù)處理步驟并進行了審計,確保遵守公司和行業(yè)標(biāo)準。

5. 數(shù)據(jù)質(zhì)量和輸入標(biāo)準化

大型模型對數(shù)據(jù)質(zhì)量高度敏感。噪音、異?;蚍菢?biāo)準化投入會嚴重影響其性能:

· 數(shù)據(jù)噪音 :大型模型無法自動識別錯誤數(shù)據(jù),可能將其用作"學(xué)習(xí)材料",并產(chǎn)生有偏見的預(yù)測。

· 缺乏標(biāo)準化 :將未經(jīng)清理的原始數(shù)據(jù)輸入大型模型可能會導(dǎo)致不一致和值缺失,這就需要像ETL這樣的預(yù)處理工具。

ECL確保數(shù)據(jù)在輸入大型模型之前得到清理、復(fù)制和標(biāo)準化,保持高數(shù)據(jù)質(zhì)量。

盡管大型模型在許多領(lǐng)域都很出色,但它們的復(fù)雜性、對高質(zhì)量數(shù)據(jù)的依賴、硬件的需求以及實際的局限性,確保了它們不能完全取代ETL。ETL作為一種確定性、高效和透明的工具,將繼續(xù)與大型模型共存,為數(shù)據(jù)處理提供雙重保障。

共同國家小組GPU:與ETL平行的。大型模型

雖然ETL無法替換,但大型模型在數(shù)據(jù)處理中的興起是一個必然趨勢。幾十年來,計算機系統(tǒng)都以CIP為中心,其他組件都被認為是外圍設(shè)備。GPS主要用于游戲,但今天, 數(shù)據(jù)處理依賴于CPU和GPS的協(xié)同作用。 這種范式的轉(zhuǎn)變反映了英特爾和英偉達公司股票趨勢所反映的更廣泛的變化。

從單中心到多中心計算

歷史上,數(shù)據(jù)處理架構(gòu)從"以CIP為中心"演變?yōu)?CPU+GPU(甚至NPU)協(xié)作。"由于計算性能要求的變化,這種轉(zhuǎn)變對數(shù)據(jù)處理工具的選擇產(chǎn)生了深刻影響。

在以CIP為中心的時代,早期ETL流程嚴重依賴CPU邏輯進行數(shù)據(jù)清理、格式化和聚合等操作。這些任務(wù)非常適合CPU的順序處理能力。

然而,復(fù)雜數(shù)據(jù)格式(音頻、視頻、文本)的上升和指數(shù)存儲的增長揭示了CPU能力的局限性。GPS擁有無與倫比的并行處理能力,此后在數(shù)據(jù)密集型任務(wù)中占據(jù)了中心地位,比如培訓(xùn)大型transformer模型。

從傳統(tǒng)ETL到大型模型

傳統(tǒng)ETL流程,優(yōu)化為"以CIP為中心"的計算,擅長處理基于規(guī)則的結(jié)構(gòu)化數(shù)據(jù)任務(wù)。實例包括:

· 數(shù)據(jù)驗證和清理。

· 格式標(biāo)準化。

· 集合和報告。

相比之下,大型模型則需要GPU功率來進行高尺寸矩陣計算和大規(guī)模參數(shù)優(yōu)化:

· 預(yù)處理:實時標(biāo)準化和數(shù)據(jù)分割。

· 模型培訓(xùn):涉及浮點操作的繁重計算機任務(wù)。

· 輸入服務(wù):針對低延遲和高吞吐量的優(yōu)化批處理。

這反映了一種轉(zhuǎn)變 神經(jīng)推理的邏輯計算 擴大數(shù)據(jù)處理,包括 推理和知識提取。

為大型模型準備新一代ETL架構(gòu)

大型模型的興起凸顯了傳統(tǒng)數(shù)據(jù)處理效率低下的問題,這就需要一個更先進、更統(tǒng)一的體系結(jié)構(gòu)。

當(dāng)前數(shù)據(jù)處理中的痛苦點

1. 復(fù)雜的 , 支離破碎的過程 :數(shù)據(jù)清理、注釋和預(yù)處理仍然是高度手動和孤立的。

2. 可重用性低 :團隊經(jīng)常重新創(chuàng)建數(shù)據(jù)管道,導(dǎo)致效率低下。

3. 質(zhì)量不一致 :缺乏標(biāo)準化工具導(dǎo)致數(shù)據(jù)質(zhì)量不同。

4. 高成本 :每個團隊的單獨開發(fā)和維護增加了成本。

解決方案:Ai增強ETL工具

未來的ETL工具將嵌入人工智能功能,將傳統(tǒng)的優(yōu)勢與現(xiàn)代智能融合在一起:

· 嵌入式發(fā)電 *對文本、圖像和音頻矢量化的內(nèi)置支持。

· 法學(xué)院碩士 :非結(jié)構(gòu)化數(shù)據(jù)的自動化結(jié)構(gòu)化。

· 動態(tài)清洗規(guī)則 :優(yōu)化數(shù)據(jù)清理戰(zhàn)略。

· 非結(jié)構(gòu)化數(shù)據(jù)處理 支持鍵盤提取、OCR和語音對文本。

· 自動增強 :智能數(shù)據(jù)生成和增強。

終極趨勢:transformer+變換

隨著技術(shù)的不斷進步,大型模型和傳統(tǒng)ETL工藝正在逐步收斂。預(yù)計下一代ETL架構(gòu)將把大型模型的智能與ETL的效率相融合,創(chuàng)建一個能夠處理不同數(shù)據(jù)類型的綜合框架。

硬件:數(shù)據(jù)處理單元的集成

數(shù)據(jù)處理的基礎(chǔ)正在從以CIP為中心的系統(tǒng)轉(zhuǎn)向涉及CPU和GPS的協(xié)作方法:

· 基本任務(wù)的中央業(yè)務(wù)單位 :CPU擅長基礎(chǔ)操作,如初步數(shù)據(jù)清理、集成和基于規(guī)則的處理,如提取、轉(zhuǎn)換和加載結(jié)構(gòu)化數(shù)據(jù)。

· 高級分析通用數(shù)據(jù)表 :擁有強大的并行計算能力,GPS處理大型模型訓(xùn)練和預(yù)處理數(shù)據(jù)的推理任務(wù)。

這一趨勢不僅反映在技術(shù)創(chuàng)新上,而且也反映在產(chǎn)業(yè)動態(tài)上:英特爾正在推進Cpui-AI協(xié)作的人工智能加速器,而NVIDIA正在將GPU應(yīng)用擴展到傳統(tǒng)的ETL場景中。CPU和GPS之間的協(xié)同作用為下一代數(shù)據(jù)處理提供了更高的效率和智能支持。

軟件:數(shù)據(jù)處理架構(gòu)集成

隨著ETL和大型模型功能日益交織在一起,數(shù)據(jù)處理正在演變成一個多功能的協(xié)作平臺,在這個平臺上ETL充當(dāng)大型模型的數(shù)據(jù)準備工具。

大型模型在培訓(xùn)期間需要高質(zhì)量的輸入數(shù)據(jù),ETL提供初步處理,以創(chuàng)造理想的條件:

· 噪音清除及清潔 :消除噪音數(shù)據(jù),以提高數(shù)據(jù)集的質(zhì)量。

· 格式化和標(biāo)準化:將不同的數(shù)據(jù)格式轉(zhuǎn)換為適合大型模型的統(tǒng)一結(jié)構(gòu)。

· 數(shù)據(jù)增強:通過預(yù)處理和基于規(guī)則的增強來擴展數(shù)據(jù)的規(guī)模和多樣性。

ai增強的ETL架構(gòu)的出現(xiàn)

ETL工具的未來在于嵌入人工智能的能力,以實現(xiàn)更智能的數(shù)據(jù)處理:

1.嵌入能力

· 集成用于生成嵌入的模塊,以支持基于向量的數(shù)據(jù)處理。

· 為文本、圖像和音頻生成高維表示;在下游任務(wù)中使用預(yù)先訓(xùn)練好的模型進行語義嵌入。

· 直接在ETL工作流中執(zhí)行嵌入計算,減少了對外部推理服務(wù)的依賴。

2. LLM Knowledge Extraction

· 利用大型語言模型(LLMS)有效地處理非結(jié)構(gòu)化數(shù)據(jù),提取實體和事件等結(jié)構(gòu)化信息。

· 完成和推斷復(fù)雜領(lǐng)域,如填補缺失的價值或預(yù)測未來趨勢。

· 在數(shù)據(jù)集成過程中啟用多語言數(shù)據(jù)轉(zhuǎn)換和語義對齊。

3.非結(jié)構(gòu)化數(shù)據(jù)識別和鍵盤提取

· 支持視頻、圖像和音頻數(shù)據(jù),使自動鍵盤提取用于注釋或培訓(xùn)數(shù)據(jù)集。

· 從圖像中提取特征(例如:,目標(biāo)檢測,OCR),并執(zhí)行音頻到文本轉(zhuǎn)換,情緒分析等。

4.動態(tài)清潔規(guī)則

· 根據(jù)數(shù)據(jù)上下文動態(tài)調(diào)整清理和增強策略,以提高效率和相關(guān)性。

· 實時檢測異常并生成自適應(yīng)清洗規(guī)則。

· 優(yōu)化特定領(lǐng)域的清理策略(例如:(金融、保健)。

5.自動數(shù)據(jù)增加和生成

· 通過人工智能模型(例如。,同義詞替換,數(shù)據(jù)反向轉(zhuǎn)換,對抗性樣本生成)。

· 擴展低樣本場景的數(shù)據(jù)集,并支持跨語言或跨域數(shù)據(jù)生成。

AI增強ETL是一個從傳統(tǒng)ETL的轉(zhuǎn)變飛躍,提供嵌入生成、基于LLM的知識提取、非結(jié)構(gòu)化數(shù)據(jù)處理和動態(tài)規(guī)則生成,以顯著提高數(shù)據(jù)處理的效率、靈活性和智能。

案例研究:阿帕奇--一個新一代的AI-增強ETL架構(gòu)

例如,開源 阿帕奇座位 該項目正在通過支持創(chuàng)新數(shù)據(jù)格式和先進的處理能力,打破傳統(tǒng)的ETL限制,展示數(shù)據(jù)處理的未來:

· 對非結(jié)構(gòu)化數(shù)據(jù)的本土支持 :Seatunel引擎支持文本、視頻和音頻處理,以滿足不同的模型培訓(xùn)需求。

· 矢量化數(shù)據(jù)支持 :能夠與深度學(xué)習(xí)和大模型推理任務(wù)無縫兼容。

· 嵌入大型模型特征 支持嵌入式生成和LLP轉(zhuǎn)換,將傳統(tǒng)ETL與AI推理工作流連接起來。

· "對任何"轉(zhuǎn)換 ::從任何來源轉(zhuǎn)換數(shù)據(jù)(例如:,數(shù)據(jù)庫,雙日志,PDF,SaaS,視頻)到任何目標(biāo)格式,提供無與倫比的多功能性。

像Seatunel這樣的工具說明了現(xiàn)代數(shù)據(jù)處理如何演變成一個AI+大數(shù)據(jù)全堆協(xié)作系統(tǒng),成為企業(yè)AI和數(shù)據(jù)策略的核心。

結(jié)論

大型模型transformer和大數(shù)據(jù)轉(zhuǎn)換不是競爭對手,而是盟友。數(shù)據(jù)處理的未來在于ETL和大型模型的深入整合,具體說明如下:

1. 協(xié)作數(shù)據(jù)處理股 :利用Cpu-GSP的協(xié)同作用,進行結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)處理。

2. 動態(tài)數(shù)據(jù)處理架構(gòu) :將人工智能嵌入到ETL中,用于嵌入生成、LLS知識提取和智能決策。

3. 下一代工具 :像阿帕奇賽恩涅爾這樣的開源解決方案突出了這一趨勢,使"對任何"數(shù)據(jù)轉(zhuǎn)換和重新定義ETL邊界成為可能。

大型模型和ETL的收斂將推動數(shù)據(jù)處理進入一個智能、標(biāo)準化和開放的新時代。通過滿足企業(yè)需求,這種演變將推動企業(yè)創(chuàng)新和智能決策,成為數(shù)據(jù)驅(qū)動型企業(yè)未來的核心引擎。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉