低成本也能實(shí)現(xiàn)大模型應(yīng)用開發(fā),英特爾與火山引擎是怎么做到的?
一個(gè)很明顯的事實(shí)是,AI的進(jìn)步速度依然很快,而且超出了很多人的預(yù)期。
文字創(chuàng)作方面,Claude 3.7 Sonnet這樣的大模型已經(jīng)能夠應(yīng)付大多數(shù)場(chǎng)景下的寫作需求,不僅輸出質(zhì)量穩(wěn)定,文筆也十分簡(jiǎn)潔;而在圖片生成領(lǐng)域,GPT-4o對(duì)宮崎駿畫風(fēng)的“神還原”則更讓人印象深刻。事實(shí)上,只要在提示詞上稍微下點(diǎn)功夫,AI完全可以應(yīng)對(duì)部分內(nèi)容生成的工作,用于有效提高生產(chǎn)力。
當(dāng)然,在其他能力方面,AI的進(jìn)步也同樣明顯,特別是在編程領(lǐng)域。
先是Gemini 2.5 Pro (I/O edition)以王者之姿登頂編程排行榜,后有云端AI編程智能體Codex半小時(shí)完成數(shù)天軟件工程任務(wù),甚至連GitHub也在最近推出了Copilot AI代理,用來(lái)提升開發(fā)者的工作效率與代碼產(chǎn)出質(zhì)量。
“人人都是開發(fā)者”的時(shí)代似乎馬上就要到來(lái),但對(duì)開發(fā)者來(lái)說(shuō),這顯然不是什么好消息。
如何確保自己不被替代,在AI時(shí)代不被行業(yè)所拋棄,是一個(gè)不得不考慮的重要問(wèn)題。
最直接的辦法是“打不過(guò)就加入”,大模型潛力固然很強(qiáng),但一般不會(huì)單獨(dú)發(fā)揮作用,反而是和各種應(yīng)用相結(jié)合才能在各種場(chǎng)景中落地,從這個(gè)角度來(lái)看,學(xué)習(xí)大模型應(yīng)用開發(fā)是一個(gè)提升自我的有效途徑。
然而,極高的算力門檻、復(fù)雜的技術(shù)棧以及缺乏完整的能力提升路徑則成為了擺在大多數(shù)人面前的致命問(wèn)題。
正是在這樣的背景下,英特爾攜手火山引擎團(tuán)隊(duì),圍繞基于英特爾至強(qiáng)6性能核的火山引擎第四代計(jì)算實(shí)例g4il展開了一系列工作,讓“一杯奶茶錢啟動(dòng)大模型應(yīng)用開發(fā)”成為了可能。
CPU: AI推理的“瑞士軍刀”
本地部署大模型,進(jìn)行AI應(yīng)用開發(fā)是一個(gè)好選擇嗎?是,也不是。
對(duì)企業(yè)來(lái)說(shuō),從數(shù)據(jù)隱私、響應(yīng)速度等方面來(lái)看,本地部署能夠提供更穩(wěn)定和可靠的計(jì)算能力,避免可能存在的網(wǎng)絡(luò)波動(dòng)或服務(wù)中斷等影響,但伴隨而來(lái)的還有高昂的成本。
而從個(gè)人角度出發(fā),更易獲得、支持快速部署且計(jì)費(fèi)方式靈活的云服務(wù),無(wú)疑是更適合應(yīng)用開發(fā)的選擇。
這也讓英特爾與火山引擎多年來(lái)圍繞IaaS進(jìn)行的深度合作變得更有意義。
作為最基礎(chǔ)的資源層,IaaS涵蓋了非常廣泛的場(chǎng)景和各種各樣的虛擬機(jī)云實(shí)例,包括通用型、本地盤、高主頻、突發(fā)/共享、網(wǎng)絡(luò)增強(qiáng)、內(nèi)存增強(qiáng)、安全增強(qiáng)等等,火山引擎第四代通用型實(shí)例g4il正是在這樣的背景之下誕生的。
與前三代類似,第四代實(shí)例不僅實(shí)現(xiàn)了包括數(shù)據(jù)庫(kù)應(yīng)用、Web應(yīng)用、圖像渲染能力在內(nèi)的通用性能提升,還實(shí)現(xiàn)了AI性能的顯著增強(qiáng)。
這實(shí)際上有些反常識(shí),要知道在過(guò)去幾年里,很多人都認(rèn)為CPU更適合通用算力,而不適合AI算力。但嚴(yán)格來(lái)說(shuō),這個(gè)看法并不完全準(zhǔn)確,一個(gè)完整的AI工程可以劃分為數(shù)據(jù)收集、模型選型、推理、訓(xùn)練、部署維護(hù)和迭代優(yōu)化等各個(gè)步驟,每個(gè)步驟對(duì)算力的要求都有所不同,盡管GPU更擅長(zhǎng)處理大量并行任務(wù),在執(zhí)行計(jì)算密集型任務(wù)時(shí)表現(xiàn)地更出色,但在進(jìn)行AI推理時(shí),如何比較CPU和GPU的性能差異其實(shí)一直缺乏一個(gè)明確的答案。
英特爾技術(shù)專家表示,從本質(zhì)上來(lái)說(shuō),CPU可以理解為一把能夠執(zhí)行多種任務(wù)的“瑞士軍刀”,特別是英特爾至強(qiáng)處理器在AMX加速器的賦能之下,在矩陣運(yùn)算能力方面也有了顯著提升,特別適合資源有限、推理規(guī)模較小的開發(fā)驗(yàn)證場(chǎng)景。
除此之外,目前業(yè)界普遍采用CPU和GPU混合推理的異構(gòu)計(jì)算方式,具體來(lái)說(shuō),在開發(fā)驗(yàn)證階段會(huì)以低成本易獲取的CPU為主,而在生產(chǎn)部署階段則會(huì)使用GPU進(jìn)行大規(guī)模的推理運(yùn)算,二者各自發(fā)揮優(yōu)勢(shì),協(xié)同工作,而不是相互替代的關(guān)系。
換句話說(shuō),CPU在AI時(shí)代仍然有很大的舞臺(tái),特別是在大模型應(yīng)用開發(fā)方面。
大模型應(yīng)用開發(fā)三要素,缺一不可
當(dāng)然,大模型開發(fā)對(duì)普通開發(fā)者來(lái)說(shuō)也并非易事,一是大模型領(lǐng)域技術(shù)更新極快,RAG、MCP、A2A等新名詞層出不窮,讓開發(fā)者望而卻步;二是不知從何入手,缺乏具體的啟動(dòng)策略;三是沒(méi)有系統(tǒng)性的學(xué)習(xí)支持,難以實(shí)現(xiàn)能力的階段性提升。
這也就引申出了大模型應(yīng)用開發(fā)的三要素:第一是硬件環(huán)境,用于驗(yàn)證和練習(xí);第二是軟件棧,需要主流的軟件棧支持;第三則是由淺入深的指導(dǎo)課程,不僅能夠運(yùn)行,更要深度理解,真正實(shí)現(xiàn)能力的進(jìn)階。而英特爾與火山引擎合作的初衷,就是為開發(fā)者們打造一把低門檻的梯子,幫助更多人邁出跨越的第一步。
硬件方面,基于英特爾至強(qiáng)6處理器的第四代實(shí)例g4il在AMX加速器的賦能下?lián)碛辛烁鼜?qiáng)的AI推理性能,據(jù)英特爾技術(shù)專家透露,基于CPU內(nèi)置的AI加速器和軟硬件協(xié)同優(yōu)化,可以做到在一個(gè)云實(shí)例中,僅使用16vCPU或32vCPU即可部署和運(yùn)行7B或14B的大模型,而16vCPU在火山引擎官網(wǎng)的定價(jià)僅僅只有3.8元/小時(shí),開發(fā)者可以通過(guò)極低的成本開啟大模型應(yīng)用開發(fā)實(shí)踐,更關(guān)鍵的是,與市面上常見(jiàn)的4bit量化不同,該方案采用了BF16精度,可以在性能提升的同時(shí)最大化保留精度。
鏡像則基于英特爾開源社區(qū)OPEA(Open Platform for Enterprise AI)所構(gòu)建,通過(guò)開放架構(gòu)和組件式模塊化的架構(gòu),開發(fā)者可以通過(guò)“搭積木”的方式打造可擴(kuò)展的AI應(yīng)用部署基礎(chǔ)。此外,由于社區(qū)中積累了大量經(jīng)過(guò)預(yù)先驗(yàn)證的、優(yōu)化的開源應(yīng)用范例,英特爾也將這些范例和軟件棧打包成了虛擬機(jī)鏡像,開發(fā)者可以通過(guò)一鍵部署的方式快速搭建硬件和軟件環(huán)境。
為了能讓開發(fā)者從核心基礎(chǔ)開始循序漸進(jìn)掌握大模型應(yīng)用開發(fā)的相關(guān)知識(shí),英特爾也和火山引擎共同打造了免費(fèi)的實(shí)操課程,內(nèi)容涵蓋基礎(chǔ)環(huán)境搭建、代碼開發(fā)環(huán)境配置、模型調(diào)優(yōu)、性能優(yōu)化等各個(gè)環(huán)節(jié),旨在幫助基礎(chǔ)薄弱的開發(fā)者補(bǔ)齊知識(shí)儲(chǔ)備,理解技術(shù)原理,并通過(guò)實(shí)際操作來(lái)實(shí)現(xiàn)個(gè)人能力的提升。
英特爾技術(shù)專家表示,通過(guò)整套的課程,普通開發(fā)者能夠更加熟悉、更加了解大模型,也能實(shí)現(xiàn)對(duì)大模型的“祛魅”。
RAG實(shí)踐加速大模型應(yīng)用落地
大模型是萬(wàn)能的嗎?顯然不是。時(shí)至今日,大模型在數(shù)學(xué)能力的方面依然存疑,這是由大模型本身的架構(gòu)所決定的,本質(zhì)上講,大模型并沒(méi)有真正的記憶力,也無(wú)法主動(dòng)更新知識(shí)庫(kù),所有的輸出結(jié)果都是根據(jù)自身的參數(shù)來(lái)計(jì)算,這會(huì)導(dǎo)致兩個(gè)主要問(wèn)題。
首先是幻覺(jué)。大模型的輸出內(nèi)容基于概率,且隨著輸出內(nèi)容長(zhǎng)度的增加,概率偏差會(huì)逐漸累積,可能導(dǎo)致大模型產(chǎn)生幻覺(jué),完全依賴自身記憶參數(shù)。這種幻覺(jué)在短期內(nèi)難以消除,除非AI或大模型的計(jì)算范式發(fā)生顛覆性變化。
其次是大模型無(wú)法獲取知識(shí)更新。由于預(yù)訓(xùn)練過(guò)程投喂的數(shù)據(jù)集是固定的,大模型并沒(méi)有能力預(yù)知未來(lái)發(fā)生的新變化。
正是因?yàn)檫@兩個(gè)缺陷的存在,當(dāng)前幾乎所有的大模型應(yīng)用都會(huì)強(qiáng)調(diào),大模型的“記憶”需要外部數(shù)據(jù)源或者數(shù)據(jù)庫(kù)進(jìn)行對(duì)接,來(lái)構(gòu)建知識(shí)庫(kù)以更新或補(bǔ)充知識(shí)。所有任務(wù)和問(wèn)答內(nèi)容的上下文都要從知識(shí)庫(kù)中提取,然后由大模型輸出,因此,知識(shí)庫(kù)是大模型應(yīng)用開發(fā)中非常重要的核心基礎(chǔ)。
此外,大模型效果不穩(wěn)定的情況也很大程度上取決于數(shù)據(jù)的準(zhǔn)確性,這也就意味著數(shù)據(jù)的基礎(chǔ)決定了應(yīng)用的下限。而這個(gè)數(shù)據(jù)基礎(chǔ)的核心就是RAG(檢索增強(qiáng))技術(shù),這一技術(shù)的主要目的就是通過(guò)向量數(shù)據(jù)庫(kù)檢索、網(wǎng)頁(yè)檢索、圖數(shù)據(jù)庫(kù)檢索或關(guān)聯(lián)數(shù)據(jù)庫(kù)檢索等方式,實(shí)現(xiàn)和大模型的對(duì)接,但最基本的是向量數(shù)據(jù)庫(kù)與大模型的配合。
通常來(lái)說(shuō),RAG技術(shù)包括數(shù)據(jù)源準(zhǔn)備和問(wèn)答/任務(wù)處理兩個(gè)階段。在數(shù)據(jù)源準(zhǔn)備過(guò)程,企業(yè)需要構(gòu)建知識(shí)庫(kù),也就是把相關(guān)的重要文檔加載到向量庫(kù)中,這一過(guò)程主要涉及到文檔分段及向量化等操作,其中向量化的目的不只是檢索關(guān)鍵詞,更重要的是實(shí)現(xiàn)語(yǔ)義檢索,以保證更廣泛的覆蓋面。
在問(wèn)答/任務(wù)處理階段,則需要把問(wèn)題做Embedding(語(yǔ)義匹配),例如衣服、褲子這些詞匯雖然字面上并不相同,但其實(shí)語(yǔ)義相關(guān),然后VDB(檢索向量數(shù)據(jù)庫(kù))會(huì)提取相關(guān)的上下文內(nèi)容,并進(jìn)行修改、調(diào)整和不相關(guān)內(nèi)容的過(guò)濾,最后再將問(wèn)題和相關(guān)內(nèi)容提供給大模型生成回答。
在整個(gè)過(guò)程中,數(shù)據(jù)基礎(chǔ)有兩個(gè)關(guān)鍵指標(biāo):召回率和準(zhǔn)確率。前者代表檢索到的內(nèi)容和問(wèn)題的全面性和相關(guān)性,而后者則代表檢索到的內(nèi)容和問(wèn)題的相關(guān)程度。這兩個(gè)指標(biāo)直接決定了大模型應(yīng)用的體驗(yàn),因此,Embedding模型的選擇、chunk的大小和劃分方法等課題,都需要在實(shí)踐中進(jìn)行反復(fù)優(yōu)化,才能真正理解技術(shù)的精髓,從而為智能體開發(fā)打好基礎(chǔ)。
這也是英特爾和火山引擎推出RAG應(yīng)用鏡像的原因之一,該鏡像實(shí)現(xiàn)了RAG全流程模快的集成,包含Embedding模塊、向量數(shù)據(jù)庫(kù)、Re-Rank,以及一個(gè)7B參數(shù)的DeepSeek蒸餾模型,并在文檔準(zhǔn)備工作中提供了用于在線問(wèn)答的服務(wù)Dataprep。而對(duì)開發(fā)者來(lái)說(shuō),通過(guò)火山引擎選擇云實(shí)例后,僅需3分鐘左右就能完成環(huán)境部署,掌握大模型應(yīng)用開發(fā)的核心思路,為構(gòu)建精準(zhǔn)、合規(guī)的智能體應(yīng)用奠定基礎(chǔ)。
結(jié)語(yǔ)
步入智能數(shù)字化時(shí)代,大模型技術(shù)正在加速AI應(yīng)用的大規(guī)模應(yīng)用。而英特爾與火山引擎的合作,正是對(duì)AI惠普的進(jìn)一步實(shí)踐,通過(guò)基于英特爾至強(qiáng)6的g4il實(shí)例、軟件棧支持和配套課程,英特爾與火山引擎正在為廣大開發(fā)者們架起一座通向Agentic AI未來(lái)的橋梁。