100%穩(wěn)定!摩爾線程GPU千卡集群適配滴普科技大模型訓(xùn)練
5月29日消息,摩爾線程與國內(nèi)領(lǐng)先的數(shù)據(jù)智能服務(wù)商滴普科技共同宣布,摩爾線程“夸娥”(KUAE)千卡智算集群與滴普企業(yè)大模型Deepexi v1.0已完成訓(xùn)練、推理適配,獲得產(chǎn)品兼容互認(rèn)證明。
基于摩爾線程夸娥千卡智算集群,滴普科技成功完成了LLaMA2 700億參數(shù)大語言模型的預(yù)訓(xùn)練測試。
訓(xùn)練時長共計77小時,全程無故障連續(xù)運(yùn)行,集群訓(xùn)練穩(wěn)定性達(dá)到100%,訓(xùn)練效率和兼容性均達(dá)到預(yù)期。
有趣的是,兼容互認(rèn)證明的發(fā)證時間是2023年9月28日,也就是相關(guān)適配工作早就完成了,如今才公開。
北京滴普科技有限公司成立于2018年,定位于數(shù)據(jù)智能服務(wù)商,為客戶提供數(shù)據(jù)智能基礎(chǔ)設(shè)施、企業(yè)大模型產(chǎn)品,以及數(shù)據(jù)智能創(chuàng)新服務(wù)。
目前,滴普科技已與中國海誠、中核裝備院、百麗時尚等企業(yè)開展產(chǎn)業(yè)落地實踐,成為產(chǎn)業(yè)大模型落地的領(lǐng)先企業(yè)。
滴普科技的Deepexi企業(yè)大模型,在語義、視覺、語音、跨模態(tài)等方面表現(xiàn)優(yōu)越,可運(yùn)用模型工具鏈,為企業(yè)提供高質(zhì)量的數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、調(diào)優(yōu)、部署及推理服務(wù),快速構(gòu)建不同領(lǐng)域的模型、智能體應(yīng)用。
摩爾線程夸娥方案是業(yè)內(nèi)首個跑通、跑完國產(chǎn)大模型的千卡集群,基于全功能MTT S4000 GPU,提供軟硬一體化的全棧解決方案,具備模型覆蓋、推理加速、CUDA兼容、斷點(diǎn)續(xù)訓(xùn)、分布式訓(xùn)練、集群可靠性等8大核心能力。
在此之前,摩爾線程已經(jīng)第一家接入無問芯穹,夸娥千卡集群先后適配無穹Infini-AI大模型開發(fā)與服務(wù)平臺、完成LLama2 700億參數(shù)大模型訓(xùn)練測試、完成MT-infini-3B 3B(30億參數(shù))規(guī)模大模型實訓(xùn)。
憨猴集團(tuán)也基于摩爾線程的夸娥千卡智算集群,成功完成了7B、34B、70B不同參數(shù)量級的大模型分布式訓(xùn)練,效率、精度、穩(wěn)定性都相當(dāng)完美。