隨著大語言模型(LLM)在自然語言處理領(lǐng)域的廣泛應(yīng)用,將其部署到端側(cè)設(shè)備(如智能手機(jī)、物聯(lián)網(wǎng)設(shè)備等)成為研究熱點(diǎn)。然而,端側(cè)設(shè)備資源受限,如計(jì)算能力、內(nèi)存等,使得大語言模型的直接部署面臨巨大挑戰(zhàn)。為了解決這一問題,本文提出一種基于時(shí)空相似性的加速框架,通過輕量級(jí)預(yù)測(cè)與流水化執(zhí)行,提高大語言模型在端側(cè)的運(yùn)行效率。