www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當(dāng)前位置:首頁(yè) > 芯聞號(hào) > 美通社全球TMT
[導(dǎo)讀]北京2025年3月20日 /美通社/ -- 浪潮信息宣布推出元腦CPU推理服務(wù)器,可高效運(yùn)行DeepSeek和千問(wèn)QwQ等新一代大推理模型。元腦CPU推理服務(wù)器NF8260G7和NF8480G7設(shè)計(jì)采用4顆高性能通用CPU和多通道內(nèi)存系統(tǒng),通過(guò)先進(jìn)的張量并行策略和AMX加速技術(shù),...

北京2025年3月20日 /美通社/ -- 浪潮信息宣布推出元腦CPU推理服務(wù)器,可高效運(yùn)行DeepSeek和千問(wèn)QwQ等新一代大推理模型。元腦CPU推理服務(wù)器NF8260G7和NF8480G7設(shè)計(jì)采用4顆高性能通用CPU和多通道內(nèi)存系統(tǒng),通過(guò)先進(jìn)的張量并行策略和AMX加速技術(shù),單機(jī)即可高效運(yùn)行DeepSeek-R1 32BQwQ-32B推理模型,單用戶(hù)性能超20 tokens/s,可同時(shí)處理20個(gè)并發(fā)用戶(hù)請(qǐng)求,是企業(yè)快速、易獲得、低投入部署上線(xiàn)大模型平臺(tái)的理想算力選擇,將加速DeepSeek帶動(dòng)下AI落地普及速度。

大模型行業(yè)應(yīng)用落地加速,DeepSeek-R1 32B、QwQ-32B等模型中文能力見(jiàn)長(zhǎng),并在理解能力和知識(shí)儲(chǔ)備上有顯著優(yōu)勢(shì),是企業(yè)平衡性能和部署成本的最佳模型選擇。元腦CPU推理服務(wù)器僅基于通用處理器進(jìn)行軟硬協(xié)同優(yōu)化,可為企業(yè)32B模型推理與云計(jì)算、數(shù)據(jù)庫(kù)等通用關(guān)鍵業(yè)務(wù)場(chǎng)景融合提供更高效、更靈活、更穩(wěn)定的AI通用算力支撐。

浪潮信息:推出CPU推理服務(wù)器支持DeepSeek和QwQ,元腦加速AI普及


隨著DeepSeek等大模型在企業(yè)場(chǎng)景中的應(yīng)用日趨廣泛,以及與企業(yè)業(yè)務(wù)系統(tǒng)的融合更加緊密,CPU服務(wù)器憑借其獨(dú)特優(yōu)勢(shì)成為中小規(guī)模并發(fā)場(chǎng)景部署DeepSeek的最佳選擇。CPU服務(wù)器具備卓越的通用性和靈活性,可同時(shí)支持AI推理、云計(jì)算、數(shù)據(jù)庫(kù)等多種工作負(fù)載,避免了專(zhuān)用AI硬件的使用局限,為大模型應(yīng)用與現(xiàn)有IT基礎(chǔ)設(shè)施的融合提供了更加靈活、經(jīng)濟(jì)的方案選擇,使企業(yè)能夠以較低的硬件投入快速實(shí)現(xiàn)大模型應(yīng)用落地。

在企業(yè)部署大模型的過(guò)程中,參數(shù)規(guī)模與其應(yīng)用場(chǎng)景息息相關(guān)。浪潮信息與IDC聯(lián)合發(fā)布的《2025年中國(guó)人工智能計(jì)算力發(fā)展評(píng)估報(bào)告》顯示,目前92%企業(yè)使用的生成式人工智能模型平均參數(shù)量小于50B。一般而言,671B等超大規(guī)模參數(shù)的模型性能更強(qiáng),但對(duì)硬件資源要求高,部署成本昂貴;而32B級(jí)模型在理解能力和知識(shí)儲(chǔ)備上有顯著優(yōu)勢(shì),能夠平衡性能和部署成本。以業(yè)界32B模型為例,DeepSeek-R1 32B在知識(shí)問(wèn)答、智能寫(xiě)作、內(nèi)容生成等方面表現(xiàn)優(yōu)秀,QwQ-32B則在數(shù)學(xué)推理、編程任務(wù)和長(zhǎng)文本處理等方面的性能優(yōu)異。DeepSeek-R1 32B和QwQ-32B的訓(xùn)練數(shù)據(jù)中包含海量的高質(zhì)量中文語(yǔ)料庫(kù),會(huì)更加適合于國(guó)內(nèi)企業(yè)應(yīng)用,而Llama 70B主要基于英文語(yǔ)料進(jìn)行訓(xùn)練,對(duì)中文用戶(hù)而言不夠友好。因此,大多數(shù)企業(yè)應(yīng)用場(chǎng)景中,如企業(yè)知識(shí)庫(kù)問(wèn)答、文檔寫(xiě)作、會(huì)議紀(jì)要整理等場(chǎng)景,32B參數(shù)級(jí)別的模型往往是最佳選擇,既能提供強(qiáng)大的能力支持,又能保持合理的硬件投入。

目前元腦CPU推理服務(wù)器NF8260G7和NF8480G7基于通用處理器架構(gòu)進(jìn)行軟硬協(xié)同優(yōu)化,已經(jīng)完成與DeepSeek-R1 32B和QwQ-32B等大模型的深度適配和優(yōu)化。元腦CPU推理服務(wù)器通過(guò)采用先進(jìn)的張量并行策略和AMX加速技術(shù),業(yè)界主流企業(yè)級(jí)大模型推理服務(wù)框架,實(shí)現(xiàn)多處理器并行計(jì)算,并使用AWQ(激活感知權(quán)重量化)技術(shù),進(jìn)一步提升推理解碼性能,成功實(shí)現(xiàn)單用戶(hù)最高20tokens/s的最佳性能,為企業(yè)的AI大模型部署應(yīng)用帶來(lái)流暢體驗(yàn)。

面對(duì)CPU服務(wù)器部署大模型面臨算力和帶寬方面的挑戰(zhàn),元腦CPU推理服務(wù)器采用了多項(xiàng)創(chuàng)新技術(shù)。

  • 在算力方面,元腦CPU推理服務(wù)器NF8260G7和NF8480G7,設(shè)計(jì)上采用4顆32核心的英特爾至強(qiáng)處理器6448H,具有AMX(高級(jí)矩陣擴(kuò)展)AI加速功能,支持張量并行計(jì)算,并通過(guò)多通道內(nèi)存系統(tǒng)設(shè)計(jì)可支持32組DDR5內(nèi)存,從而在單機(jī)具備超強(qiáng)的BF16精度AI推理能力、最大16T內(nèi)存容量和1.2TB/s內(nèi)存帶寬,可以更好滿(mǎn)足模型權(quán)重、KVCache等計(jì)算和存儲(chǔ)需求,快速讀取和存儲(chǔ)數(shù)據(jù),大幅提升大模型推理性能。同時(shí),元腦四路服務(wù)器具備高可靠性,平均無(wú)故障時(shí)間可達(dá)200,000小時(shí),保障關(guān)鍵應(yīng)用和AI推理應(yīng)用持續(xù)穩(wěn)定運(yùn)行。
  • 在算法方面,元腦CPU推理服務(wù)器對(duì)業(yè)界主流的企業(yè)級(jí)大模型推理服務(wù)框架vLLM進(jìn)行深度定制優(yōu)化,通過(guò)張量并行和內(nèi)存綁定技術(shù),充分釋放服務(wù)器CPU算力和內(nèi)存帶寬潛能,實(shí)現(xiàn)多處理器并行計(jì)算,效率最高提升4倍,并使用AWQ(激活感知權(quán)重量化)技術(shù)進(jìn)一步加速解碼性能,實(shí)現(xiàn)了2倍解碼性能提升。測(cè)試數(shù)據(jù)顯示,基于單臺(tái)NF8260G7,在使用DeepSeek-R1 32B進(jìn)行帶思維鏈深度思考的短輸入長(zhǎng)輸出的問(wèn)答場(chǎng)景下,解碼性能超過(guò)20tokens/s,20個(gè)并發(fā)用戶(hù)下,總token數(shù)達(dá)到255.2tokens/s;在使用QwQ-32B進(jìn)行模型推理時(shí),支持20個(gè)并發(fā)用戶(hù)數(shù),總token數(shù)達(dá)到224.3tokens/s,可以提供流暢穩(wěn)定的用戶(hù)體驗(yàn)。

基于DeepSeek-R1 32B 并發(fā)性能測(cè)試數(shù)據(jù)


基于DeepSeek-R1 32B 并發(fā)性能測(cè)試數(shù)據(jù)

 

基于QwQ-32B 并發(fā)性能測(cè)試數(shù)據(jù)


基于QwQ-32B 并發(fā)性能測(cè)試數(shù)據(jù)

當(dāng)前,元腦服務(wù)器研發(fā)團(tuán)隊(duì)正與業(yè)內(nèi)團(tuán)隊(duì)密切合作,在計(jì)算架構(gòu)、算子調(diào)優(yōu)、并行策略、框架適配、調(diào)度管理等多個(gè)方面持續(xù)發(fā)力,旨在為用戶(hù)帶來(lái)高效、穩(wěn)定的DeepSeek等大模型部署方案,助力大模型快速落地應(yīng)用。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專(zhuān)欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車(chē)的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車(chē)技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車(chē)工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車(chē)。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車(chē) 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶(hù)希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱(chēng),數(shù)字世界的話(huà)語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱(chēng)"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉