低功耗大算力技術(shù)應(yīng)運(yùn)而生成為推動(dòng) AI 生態(tài)持續(xù)發(fā)展的關(guān)鍵力量
在當(dāng)今數(shù)字化時(shí)代,人工智能(AI)技術(shù)正以前所未有的速度蓬勃發(fā)展,深刻改變著各個(gè)行業(yè)的面貌。從智能語(yǔ)音助手到自動(dòng)駕駛汽車,從醫(yī)療影像診斷到金融風(fēng)險(xiǎn)預(yù)測(cè),AI 的應(yīng)用場(chǎng)景日益廣泛。然而,隨著 AI 模型規(guī)模的不斷擴(kuò)大和應(yīng)用復(fù)雜度的提升,對(duì)算力的需求也呈現(xiàn)出爆發(fā)式增長(zhǎng)。與此同時(shí),高算力帶來(lái)的高功耗問(wèn)題成為了制約 AI 進(jìn)一步發(fā)展的瓶頸。在此背景下,低功耗大算力技術(shù)應(yīng)運(yùn)而生,成為推動(dòng) AI 生態(tài)持續(xù)發(fā)展的關(guān)鍵力量。
近年來(lái),AI 模型的規(guī)模和復(fù)雜度呈指數(shù)級(jí)增長(zhǎng)。以 GPT-4 為代表的大型語(yǔ)言模型,其參數(shù)量達(dá)到了萬(wàn)億級(jí)別,對(duì)算力的需求極為龐大。傳統(tǒng)的計(jì)算架構(gòu)在處理如此大規(guī)模的計(jì)算任務(wù)時(shí),不僅面臨算力不足的問(wèn)題,而且功耗極高。據(jù)統(tǒng)計(jì),一些數(shù)據(jù)中心為了維持 AI 計(jì)算的運(yùn)行,其電力消耗甚至超過(guò)了一些小型城市。這種高功耗不僅增加了運(yùn)營(yíng)成本,還對(duì)環(huán)境造成了巨大壓力。因此,研發(fā)低功耗大算力技術(shù)迫在眉睫。
在硬件架構(gòu)方面,眾多企業(yè)和科研機(jī)構(gòu)不斷探索創(chuàng)新。例如,合肥君正推出的 AI 加速引擎(AIE)采用領(lǐng)域?qū)S眉軜?gòu)(DSA),通過(guò)多核 CPU、NNA(神經(jīng)網(wǎng)絡(luò)加速器)、SIMD 指令集等組合,實(shí)現(xiàn)了 “三高三低” 優(yōu)勢(shì):算力高(8T 算力)、利用率高(MAC 利用率提升 1 - 2 倍)、靈活性高;功耗低(加速功耗小于 0.5W)、外圍成本低、帶寬需求低(降低 35% - 85%)。相比傳統(tǒng) NPU,其推理速度提升 2 - 4 倍,RAM/ROM 消耗減少 50% - 70%。全志科技 V853 芯片通過(guò)模塊化低功耗設(shè)計(jì)和系統(tǒng)級(jí)優(yōu)化,實(shí)現(xiàn)每百 Gflops 算力僅需 20mW 的功耗表現(xiàn),典型 AI 視覺(jué)方案整體能耗小于 500mW。
算法優(yōu)化也是實(shí)現(xiàn)低功耗大算力的重要途徑。模型壓縮與量化技術(shù)通過(guò)剪枝、量化感知訓(xùn)練(QAT)等方法減少模型參數(shù)和計(jì)算復(fù)雜度。Magik 平臺(tái)提供全流程開(kāi)源代碼支持典型網(wǎng)絡(luò)優(yōu)化,并集成量化工具,顯著降低端側(cè)部署的資源需求。動(dòng)態(tài)調(diào)整與電源管理技術(shù),如動(dòng)態(tài)電壓頻率調(diào)整(DVFS),華為通過(guò)動(dòng)態(tài)調(diào)整芯片電壓和頻率,結(jié)合任務(wù)調(diào)度算法減少無(wú)效能耗;睡眠模式與智能調(diào)度則讓設(shè)備在非活動(dòng)期進(jìn)入低功耗狀態(tài),并通過(guò)算法優(yōu)先分配關(guān)鍵任務(wù)資源,蘋(píng)果 M9 協(xié)處理器通過(guò)低功耗算法實(shí)現(xiàn)息屏喚醒功能。此外,高效算法設(shè)計(jì)采用自適應(yīng)采樣(僅在需要時(shí)處理數(shù)據(jù))、對(duì)數(shù)系統(tǒng)(LNS)替代線性運(yùn)算(減少位元活躍度)等技術(shù),進(jìn)一步降低計(jì)算負(fù)載。
低功耗大算力技術(shù)在實(shí)際應(yīng)用中已經(jīng)取得了顯著成果。在智能視覺(jué)領(lǐng)域,君合科技的全棧式低功耗 AI 技術(shù),包括 AI 硬件加速引擎 AIE 和全棧深度神經(jīng)網(wǎng)絡(luò)開(kāi)發(fā)平臺(tái) Magik,通過(guò) CPU 與 NPU 的同構(gòu)設(shè)計(jì),有效突破了端側(cè) AI 的算力瓶頸,實(shí)現(xiàn)了 2T 至 32T 的算力提升,在 8T 算力場(chǎng)景下,典型功耗小于 500mW,能耗比最低達(dá)到了 0.05W/T。在智慧零售場(chǎng)景中,通過(guò)低功耗 AI 技術(shù),可以實(shí)現(xiàn)高效的物體檢測(cè)和人臉識(shí)別,提升顧客體驗(yàn)和運(yùn)營(yíng)效率;在智能安防領(lǐng)域,在邊緣設(shè)備上部署低功耗 AI 模型,能夠?qū)崿F(xiàn)實(shí)時(shí)視頻分析和異常行為檢測(cè),提高安全監(jiān)控的準(zhǔn)確性和響應(yīng)速度。
后摩智能研發(fā)的全新端邊大模型 AI 芯片 —— 后摩漫界 ®M50,實(shí)現(xiàn)了 160TOPS@INT8、100TFLOPS@bFP16 的物理算力,搭配最大 48GB 內(nèi)存與 153.6 GB/s 的超高帶寬,典型功耗僅 10W,就能讓 PC、智能語(yǔ)音設(shè)備、機(jī)器人等智能移動(dòng)終端高效運(yùn)行 1.5B 到 70B 參數(shù)的本地大模型,真正實(shí)現(xiàn)了 “高算力、低功耗、即插即用”,和傳統(tǒng)架構(gòu)相比,M50 的能效提升 5 - 10 倍,完美適配了端邊設(shè)備 “算得快又吃得少” 的需求,可廣泛應(yīng)用于消費(fèi)終端、智能辦公、智能工業(yè)等多元領(lǐng)域。
江原科技與品高股份聯(lián)合推出的搭載全國(guó)產(chǎn)江原 D10 加速卡的 “品原 AI 一體機(jī)” 系列,江原 D10 單卡集成 64GB 大顯存,功耗僅 72W,就能支持 DeepSeek - R1 系列 1.5B 至 70B 全部 6 個(gè)蒸餾模型,8 卡即可實(shí)現(xiàn)滿血量化版運(yùn)行,以 “低功耗 + 高算力” 重新定義 AI 推理效率。依托江原 D10 加速卡,品原 AI 一體機(jī)在文本生成、圖像識(shí)別等場(chǎng)景展現(xiàn) “單機(jī)即集群” 的算力密度優(yōu)勢(shì),成為千行百業(yè)落地 AI 的 “剛需級(jí)” 算力引擎。
低功耗大算力技術(shù)的發(fā)展為 AI 生態(tài)的繁榮帶來(lái)了諸多積極影響。它降低了 AI 應(yīng)用的門(mén)檻,使得更多企業(yè)和開(kāi)發(fā)者能夠參與到 AI 的創(chuàng)新應(yīng)用中。無(wú)論是中小企業(yè)還是個(gè)人開(kāi)發(fā)者,都能夠以較低的成本獲取強(qiáng)大的算力支持,推動(dòng) AI 技術(shù)在各個(gè)領(lǐng)域的快速普及。低功耗大算力技術(shù)提升了 AI 設(shè)備的性能和續(xù)航能力,改善了用戶體驗(yàn)。在智能移動(dòng)設(shè)備、物聯(lián)網(wǎng)設(shè)備等領(lǐng)域,低功耗意味著設(shè)備可以更長(zhǎng)時(shí)間運(yùn)行,減少充電頻率,同時(shí)高算力保證了設(shè)備能夠快速響應(yīng)用戶指令,提供更加流暢的交互體驗(yàn)。這有助于加速 AI 與物聯(lián)網(wǎng)、5G 等新興技術(shù)的融合,創(chuàng)造出更多創(chuàng)新的應(yīng)用場(chǎng)景,如智能家居、智能醫(yī)療監(jiān)測(cè)、智能交通等,進(jìn)一步拓展 AI 生態(tài)的邊界。
低功耗大算力技術(shù)作為 AI 生態(tài)發(fā)展的新引擎,正引領(lǐng)著 AI 技術(shù)邁向新的高度。隨著技術(shù)的不斷創(chuàng)新和完善,我們有理由相信,AI 將在更多領(lǐng)域?qū)崿F(xiàn)突破,為人類社會(huì)帶來(lái)更加智能、便捷、高效的未來(lái)。