未來的數(shù)據(jù)取決于transformer模型與大數(shù)據(jù)轉(zhuǎn)換

時(shí)間：2025-01-14 16:33:35

關(guān)鍵字： transformer模型大數(shù)據(jù)

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]去年,我們目睹了大型AI的爆炸性崛起,產(chǎn)生了全球性的熱情,使人工智能看起來像是所有問題的解決方案。今年,隨著大肆宣傳的減弱,大型模型進(jìn)入了更深層次,目的是重塑各個(gè)行業(yè)的基本邏輯。在大數(shù)據(jù)處理領(lǐng)域,大型模型與傳統(tǒng)ETL(提取、轉(zhuǎn)換、負(fù)載)流程之間的沖突引發(fā)了新的爭論。

去年,我們目睹了大型AI的爆炸性崛起,產(chǎn)生了全球性的熱情,使人工智能看起來像是所有問題的解決方案。今年,隨著大肆宣傳的減弱,大型模型進(jìn)入了更深層次,目的是重塑各個(gè)行業(yè)的基本邏輯。在大數(shù)據(jù)處理領(lǐng)域,大型模型與傳統(tǒng)ETL(提取、轉(zhuǎn)換、負(fù)載)流程之間的沖突引發(fā)了新的爭論。

大型模型特點(diǎn)是"transformer",而ETL依靠的是"轉(zhuǎn)換"過程--類似的名稱代表了截然不同的范式。一些聲音大膽預(yù)言: "ETL將在未來完全被替換,因?yàn)榇笮湍Ｐ涂梢蕴幚硭袛?shù)據(jù)!" 這是否意味著幾十年來支持?jǐn)?shù)據(jù)處理的ETL框架的結(jié)束?還是僅僅是一個(gè)被誤解的預(yù)言?這場沖突的背后是對(duì)科技未來的更深刻的思考。

大數(shù)據(jù)處理(ETL)會(huì)消失嗎?

隨著大型模型的迅速發(fā)展,一些人開始推測傳統(tǒng)的大數(shù)據(jù)處理方法,包括ETL,是否仍然有必要。無可否認(rèn),能夠自主學(xué)習(xí)規(guī)則并從大量數(shù)據(jù)集中發(fā)現(xiàn)模式的大型模型給人留下了深刻印象。不過,我的答案很明確: 他不會(huì)消失的。大型模型仍未能應(yīng)對(duì)若干核心數(shù)據(jù)挑戰(zhàn):

1. 效率問題

盡管大型模型在特定任務(wù)中表現(xiàn)出色,但卻要付出巨大的計(jì)算成本。訓(xùn)練大型transformer模型可能需要數(shù)周時(shí)間,耗費(fèi)大量能源和財(cái)政資源。相比之下,ETL依賴于預(yù)先定義的規(guī)則和邏輯,是高效的,資源輕,擅長處理結(jié)構(gòu)化數(shù)據(jù)。

對(duì)于日常企業(yè)數(shù)據(jù)任務(wù),許多操作仍然是由規(guī)則驅(qū)動(dòng)的,例如:

· 數(shù)據(jù)清理 :使用明確的規(guī)則或正則表達(dá)式消除異常。

· 格式轉(zhuǎn)換 *使格式標(biāo)準(zhǔn)化,以便利數(shù)據(jù)傳輸和跨系統(tǒng)整合。

· 集合和統(tǒng)計(jì) :每日、每周或每月分類、聚合和計(jì)算數(shù)據(jù)。

這些任務(wù)可以由ETL工具快速處理,而不需要大型模型的復(fù)雜推理能力。

2. 自然語言含糊不清

大型模型在?自然語言處理但也暴露了固有的挑戰(zhàn)--人類語言的含糊和含糊。例如:

· 單個(gè)輸入查詢可能會(huì)根據(jù)上下文產(chǎn)生不同的解釋,無法保證準(zhǔn)確性。

· 數(shù)據(jù)質(zhì)量的差異可能導(dǎo)致模型產(chǎn)生與實(shí)際需求不一致的結(jié)果。

相反,ETL是確定性的,根據(jù)預(yù)先定義的規(guī)則處理數(shù)據(jù),以產(chǎn)生可預(yù)測的、標(biāo)準(zhǔn)化的輸出。在金融和醫(yī)療等高需求領(lǐng)域,ETL的可靠性和精確性仍然是至關(guān)重要的優(yōu)勢。

3. 強(qiáng)適應(yīng)結(jié)構(gòu)化數(shù)據(jù)

大型模型善于從非結(jié)構(gòu)化數(shù)據(jù)中提取見解(例如:,文本,圖像,視頻),但經(jīng)常與結(jié)構(gòu)化數(shù)據(jù)任務(wù)斗爭。例如:

· 傳統(tǒng)的ETL有效地處理關(guān)系數(shù)據(jù)庫,處理連接和組BYS等復(fù)雜的操作。

· 大型模型要求數(shù)據(jù)在處理之前轉(zhuǎn)換成特定的格式,從而引入了冗余和延遲。

在結(jié)構(gòu)性數(shù)據(jù)主導(dǎo)的情況下(例如:表,JSON),ETL仍然是最佳選擇。

4. 解釋和順從

大型模型常被稱為"黑匣子"。"即使數(shù)據(jù)處理工作完成,其內(nèi)部工作和決策機(jī)制仍不透明:

· 無法解釋的結(jié)果 :在金融和醫(yī)療等監(jiān)管行業(yè),大型模型的預(yù)測可能因缺乏透明度而無法使用。

· 遵守方面的挑戰(zhàn) :許多行業(yè)需要對(duì)數(shù)據(jù)流和處理邏輯進(jìn)行全面審計(jì)。大型模型及其復(fù)雜的數(shù)據(jù)管道和決策機(jī)制構(gòu)成了重大的審計(jì)挑戰(zhàn)。

相比之下,ECL提供了高度透明的流程,記錄了每一個(gè)數(shù)據(jù)處理步驟并進(jìn)行了審計(jì),確保遵守公司和行業(yè)標(biāo)準(zhǔn)。

5. 數(shù)據(jù)質(zhì)量和輸入標(biāo)準(zhǔn)化

大型模型對(duì)數(shù)據(jù)質(zhì)量高度敏感。噪音、異常或非標(biāo)準(zhǔn)化投入會(huì)嚴(yán)重影響其性能:

· 數(shù)據(jù)噪音 :大型模型無法自動(dòng)識(shí)別錯(cuò)誤數(shù)據(jù),可能將其用作"學(xué)習(xí)材料",并產(chǎn)生有偏見的預(yù)測。

· 缺乏標(biāo)準(zhǔn)化 :將未經(jīng)清理的原始數(shù)據(jù)輸入大型模型可能會(huì)導(dǎo)致不一致和值缺失,這就需要像ETL這樣的預(yù)處理工具。

ECL確保數(shù)據(jù)在輸入大型模型之前得到清理、復(fù)制和標(biāo)準(zhǔn)化,保持高數(shù)據(jù)質(zhì)量。

盡管大型模型在許多領(lǐng)域都很出色,但它們的復(fù)雜性、對(duì)高質(zhì)量數(shù)據(jù)的依賴、硬件的需求以及實(shí)際的局限性,確保了它們不能完全取代ETL。ETL作為一種確定性、高效和透明的工具,將繼續(xù)與大型模型共存,為數(shù)據(jù)處理提供雙重保障。

共同國家小組GPU:與ETL平行的。大型模型

雖然ETL無法替換,但大型模型在數(shù)據(jù)處理中的興起是一個(gè)必然趨勢。幾十年來,計(jì)算機(jī)系統(tǒng)都以CIP為中心,其他組件都被認(rèn)為是外圍設(shè)備。GPS主要用于游戲,但今天, 數(shù)據(jù)處理依賴于CPU和GPS的協(xié)同作用。這種范式的轉(zhuǎn)變反映了英特爾和英偉達(dá)公司股票趨勢所反映的更廣泛的變化。

從單中心到多中心計(jì)算

歷史上,數(shù)據(jù)處理架構(gòu)從"以CIP為中心"演變?yōu)?CPU+GPU(甚至NPU)協(xié)作。"由于計(jì)算性能要求的變化,這種轉(zhuǎn)變對(duì)數(shù)據(jù)處理工具的選擇產(chǎn)生了深刻影響。

在以CIP為中心的時(shí)代,早期ETL流程嚴(yán)重依賴CPU邏輯進(jìn)行數(shù)據(jù)清理、格式化和聚合等操作。這些任務(wù)非常適合CPU的順序處理能力。

然而,復(fù)雜數(shù)據(jù)格式(音頻、視頻、文本)的上升和指數(shù)存儲(chǔ)的增長揭示了CPU能力的局限性。GPS擁有無與倫比的并行處理能力,此后在數(shù)據(jù)密集型任務(wù)中占據(jù)了中心地位,比如培訓(xùn)大型transformer模型。

從傳統(tǒng)ETL到大型模型

傳統(tǒng)ETL流程,優(yōu)化為"以CIP為中心"的計(jì)算,擅長處理基于規(guī)則的結(jié)構(gòu)化數(shù)據(jù)任務(wù)。實(shí)例包括:

· 數(shù)據(jù)驗(yàn)證和清理。

· 格式標(biāo)準(zhǔn)化。

· 集合和報(bào)告。

相比之下,大型模型則需要GPU功率來進(jìn)行高尺寸矩陣計(jì)算和大規(guī)模參數(shù)優(yōu)化:

· 預(yù)處理:實(shí)時(shí)標(biāo)準(zhǔn)化和數(shù)據(jù)分割。

· 模型培訓(xùn):涉及浮點(diǎn)操作的繁重計(jì)算機(jī)任務(wù)。

· 輸入服務(wù):針對(duì)低延遲和高吞吐量的優(yōu)化批處理。

這反映了一種轉(zhuǎn)變神經(jīng)推理的邏輯計(jì)算擴(kuò)大數(shù)據(jù)處理,包括推理和知識(shí)提取。

為大型模型準(zhǔn)備新一代ETL架構(gòu)

大型模型的興起凸顯了傳統(tǒng)數(shù)據(jù)處理效率低下的問題,這就需要一個(gè)更先進(jìn)、更統(tǒng)一的體系結(jié)構(gòu)。

當(dāng)前數(shù)據(jù)處理中的痛苦點(diǎn)

1. 復(fù)雜的 , 支離破碎的過程 :數(shù)據(jù)清理、注釋和預(yù)處理仍然是高度手動(dòng)和孤立的。

2. 可重用性低 :團(tuán)隊(duì)經(jīng)常重新創(chuàng)建數(shù)據(jù)管道,導(dǎo)致效率低下。

3. 質(zhì)量不一致 :缺乏標(biāo)準(zhǔn)化工具導(dǎo)致數(shù)據(jù)質(zhì)量不同。

4. 高成本 :每個(gè)團(tuán)隊(duì)的單獨(dú)開發(fā)和維護(hù)增加了成本。

解決方案:Ai增強(qiáng)ETL工具

未來的ETL工具將嵌入人工智能功能,將傳統(tǒng)的優(yōu)勢與現(xiàn)代智能融合在一起:

· 嵌入式發(fā)電 *對(duì)文本、圖像和音頻矢量化的內(nèi)置支持。

· 法學(xué)院碩士 :非結(jié)構(gòu)化數(shù)據(jù)的自動(dòng)化結(jié)構(gòu)化。

· 動(dòng)態(tài)清洗規(guī)則 :優(yōu)化數(shù)據(jù)清理戰(zhàn)略。

· 非結(jié)構(gòu)化數(shù)據(jù)處理支持鍵盤提取、OCR和語音對(duì)文本。

· 自動(dòng)增強(qiáng) :智能數(shù)據(jù)生成和增強(qiáng)。

終極趨勢:transformer+變換

隨著技術(shù)的不斷進(jìn)步,大型模型和傳統(tǒng)ETL工藝正在逐步收斂。預(yù)計(jì)下一代ETL架構(gòu)將把大型模型的智能與ETL的效率相融合,創(chuàng)建一個(gè)能夠處理不同數(shù)據(jù)類型的綜合框架。

硬件:數(shù)據(jù)處理單元的集成

數(shù)據(jù)處理的基礎(chǔ)正在從以CIP為中心的系統(tǒng)轉(zhuǎn)向涉及CPU和GPS的協(xié)作方法:

· 基本任務(wù)的中央業(yè)務(wù)單位 :CPU擅長基礎(chǔ)操作,如初步數(shù)據(jù)清理、集成和基于規(guī)則的處理,如提取、轉(zhuǎn)換和加載結(jié)構(gòu)化數(shù)據(jù)。

· 高級(jí)分析通用數(shù)據(jù)表 :擁有強(qiáng)大的并行計(jì)算能力,GPS處理大型模型訓(xùn)練和預(yù)處理數(shù)據(jù)的推理任務(wù)。

這一趨勢不僅反映在技術(shù)創(chuàng)新上,而且也反映在產(chǎn)業(yè)動(dòng)態(tài)上:英特爾正在推進(jìn)Cpui-AI協(xié)作的人工智能加速器,而NVIDIA正在將GPU應(yīng)用擴(kuò)展到傳統(tǒng)的ETL場景中。CPU和GPS之間的協(xié)同作用為下一代數(shù)據(jù)處理提供了更高的效率和智能支持。

軟件:數(shù)據(jù)處理架構(gòu)集成

隨著ETL和大型模型功能日益交織在一起,數(shù)據(jù)處理正在演變成一個(gè)多功能的協(xié)作平臺(tái),在這個(gè)平臺(tái)上ETL充當(dāng)大型模型的數(shù)據(jù)準(zhǔn)備工具。

大型模型在培訓(xùn)期間需要高質(zhì)量的輸入數(shù)據(jù),ETL提供初步處理,以創(chuàng)造理想的條件:

· 噪音清除及清潔 :消除噪音數(shù)據(jù),以提高數(shù)據(jù)集的質(zhì)量。

· 格式化和標(biāo)準(zhǔn)化：將不同的數(shù)據(jù)格式轉(zhuǎn)換為適合大型模型的統(tǒng)一結(jié)構(gòu)。

· 數(shù)據(jù)增強(qiáng)：通過預(yù)處理和基于規(guī)則的增強(qiáng)來擴(kuò)展數(shù)據(jù)的規(guī)模和多樣性。

ai增強(qiáng)的ETL架構(gòu)的出現(xiàn)

ETL工具的未來在于嵌入人工智能的能力，以實(shí)現(xiàn)更智能的數(shù)據(jù)處理：

1.嵌入能力

· 集成用于生成嵌入的模塊，以支持基于向量的數(shù)據(jù)處理。

· 為文本、圖像和音頻生成高維表示;在下游任務(wù)中使用預(yù)先訓(xùn)練好的模型進(jìn)行語義嵌入。

· 直接在ETL工作流中執(zhí)行嵌入計(jì)算，減少了對(duì)外部推理服務(wù)的依賴。

2. LLM Knowledge Extraction

· 利用大型語言模型(LLMS)有效地處理非結(jié)構(gòu)化數(shù)據(jù),提取實(shí)體和事件等結(jié)構(gòu)化信息。

· 完成和推斷復(fù)雜領(lǐng)域,如填補(bǔ)缺失的價(jià)值或預(yù)測未來趨勢。

· 在數(shù)據(jù)集成過程中啟用多語言數(shù)據(jù)轉(zhuǎn)換和語義對(duì)齊。

3.非結(jié)構(gòu)化數(shù)據(jù)識(shí)別和鍵盤提取

· 支持視頻、圖像和音頻數(shù)據(jù),使自動(dòng)鍵盤提取用于注釋或培訓(xùn)數(shù)據(jù)集。

· 從圖像中提取特征(例如:,目標(biāo)檢測,OCR),并執(zhí)行音頻到文本轉(zhuǎn)換,情緒分析等。

4.動(dòng)態(tài)清潔規(guī)則

· 根據(jù)數(shù)據(jù)上下文動(dòng)態(tài)調(diào)整清理和增強(qiáng)策略,以提高效率和相關(guān)性。

· 實(shí)時(shí)檢測異常并生成自適應(yīng)清洗規(guī)則。

· 優(yōu)化特定領(lǐng)域的清理策略(例如:(金融、保健)。

5.自動(dòng)數(shù)據(jù)增加和生成

· 通過人工智能模型(例如。,同義詞替換,數(shù)據(jù)反向轉(zhuǎn)換,對(duì)抗性樣本生成)。

· 擴(kuò)展低樣本場景的數(shù)據(jù)集,并支持跨語言或跨域數(shù)據(jù)生成。

AI增強(qiáng)ETL是一個(gè)從傳統(tǒng)ETL的轉(zhuǎn)變飛躍,提供嵌入生成、基于LLM的知識(shí)提取、非結(jié)構(gòu)化數(shù)據(jù)處理和動(dòng)態(tài)規(guī)則生成,以顯著提高數(shù)據(jù)處理的效率、靈活性和智能。

案例研究:阿帕奇--一個(gè)新一代的AI-增強(qiáng)ETL架構(gòu)

例如,開源阿帕奇座位該項(xiàng)目正在通過支持創(chuàng)新數(shù)據(jù)格式和先進(jìn)的處理能力,打破傳統(tǒng)的ETL限制,展示數(shù)據(jù)處理的未來:

· 對(duì)非結(jié)構(gòu)化數(shù)據(jù)的本土支持 :Seatunel引擎支持文本、視頻和音頻處理,以滿足不同的模型培訓(xùn)需求。

· 矢量化數(shù)據(jù)支持 :能夠與深度學(xué)習(xí)和大模型推理任務(wù)無縫兼容。

· 嵌入大型模型特征支持嵌入式生成和LLP轉(zhuǎn)換,將傳統(tǒng)ETL與AI推理工作流連接起來。

· "對(duì)任何"轉(zhuǎn)換 ::從任何來源轉(zhuǎn)換數(shù)據(jù)(例如:,數(shù)據(jù)庫,雙日志,PDF,SaaS,視頻)到任何目標(biāo)格式,提供無與倫比的多功能性。

像Seatunel這樣的工具說明了現(xiàn)代數(shù)據(jù)處理如何演變成一個(gè)AI+大數(shù)據(jù)全堆協(xié)作系統(tǒng),成為企業(yè)AI和數(shù)據(jù)策略的核心。

結(jié)論

大型模型transformer和大數(shù)據(jù)轉(zhuǎn)換不是競爭對(duì)手,而是盟友。數(shù)據(jù)處理的未來在于ETL和大型模型的深入整合,具體說明如下:

1. 協(xié)作數(shù)據(jù)處理股 :利用Cpu-GSP的協(xié)同作用,進(jìn)行結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)處理。

2. 動(dòng)態(tài)數(shù)據(jù)處理架構(gòu) :將人工智能嵌入到ETL中,用于嵌入生成、LLS知識(shí)提取和智能決策。

3. 下一代工具 :像阿帕奇賽恩涅爾這樣的開源解決方案突出了這一趨勢,使"對(duì)任何"數(shù)據(jù)轉(zhuǎn)換和重新定義ETL邊界成為可能。

大型模型和ETL的收斂將推動(dòng)數(shù)據(jù)處理進(jìn)入一個(gè)智能、標(biāo)準(zhǔn)化和開放的新時(shí)代。通過滿足企業(yè)需求,這種演變將推動(dòng)企業(yè)創(chuàng)新和智能決策,成為數(shù)據(jù)驅(qū)動(dòng)型企業(yè)未來的核心引擎。

www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

未來的數(shù)據(jù)取決于transformer模型與大數(shù)據(jù)轉(zhuǎn)換