標(biāo)準(zhǔn)庫(kù)函數(shù)替代方案：手寫(xiě)memcpy與memset的優(yōu)化實(shí)現(xiàn)

時(shí)間：2025-07-22 13:50:55

關(guān)鍵字：標(biāo)準(zhǔn)庫(kù)函數(shù) memcpy 嵌入式系統(tǒng)開(kāi)發(fā)

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]在嵌入式系統(tǒng)開(kāi)發(fā)中，標(biāo)準(zhǔn)庫(kù)函數(shù)（如memcpy、memset）的調(diào)用可能帶來(lái)性能瓶頸或代碼體積膨脹的問(wèn)題。本文將深入分析這兩個(gè)核心函數(shù)的底層原理，并提供針對(duì)ARM Cortex-M架構(gòu)優(yōu)化的手寫(xiě)實(shí)現(xiàn)方案，通過(guò)匯編級(jí)優(yōu)化和內(nèi)存訪問(wèn)模式改進(jìn)，實(shí)現(xiàn)比標(biāo)準(zhǔn)庫(kù)更高效的內(nèi)存操作。

在嵌入式系統(tǒng)開(kāi)發(fā)中，標(biāo)準(zhǔn)庫(kù)函數(shù)（如memcpy、memset）的調(diào)用可能帶來(lái)性能瓶頸或代碼體積膨脹的問(wèn)題。本文將深入分析這兩個(gè)核心函數(shù)的底層原理，并提供針對(duì)ARM Cortex-M架構(gòu)優(yōu)化的手寫(xiě)實(shí)現(xiàn)方案，通過(guò)匯編級(jí)優(yōu)化和內(nèi)存訪問(wèn)模式改進(jìn)，實(shí)現(xiàn)比標(biāo)準(zhǔn)庫(kù)更高效的內(nèi)存操作。

一、標(biāo)準(zhǔn)庫(kù)函數(shù)的潛在問(wèn)題

1. 性能瓶頸分析

非對(duì)齊訪問(wèn)：標(biāo)準(zhǔn)庫(kù)可能未針對(duì)特定架構(gòu)優(yōu)化非對(duì)齊內(nèi)存訪問(wèn)

分支預(yù)測(cè)失效：復(fù)雜實(shí)現(xiàn)中存在條件分支，影響流水線效率

緩存局部性差：未考慮內(nèi)存訪問(wèn)模式對(duì)緩存的影響

2. 典型應(yīng)用場(chǎng)景

協(xié)議棧處理：頻繁的內(nèi)存拷貝（如網(wǎng)絡(luò)數(shù)據(jù)包處理）

圖形渲染：大塊內(nèi)存填充（如幀緩沖區(qū)初始化）

傳感器數(shù)據(jù)采集：環(huán)形緩沖區(qū)操作

二、優(yōu)化版memcpy實(shí)現(xiàn)

1. 核心優(yōu)化策略

字長(zhǎng)對(duì)齊處理：優(yōu)先進(jìn)行32位/64位對(duì)齊拷貝

循環(huán)展開(kāi)：減少分支指令數(shù)量

DMA協(xié)同：大塊數(shù)據(jù)觸發(fā)DMA傳輸（本文聚焦CPU實(shí)現(xiàn)）

2. ARM Cortex-M優(yōu)化實(shí)現(xiàn)

#include <stdint.h>

#include <string.h>

// 針對(duì)ARM Cortex-M的優(yōu)化memcpy（支持非對(duì)齊訪問(wèn)）

void* optimized_memcpy(void* dest, const void* src, size_t n) {

uint8_t* d = (uint8_t*)dest;

const uint8_t* s = (const uint8_t*)src;

// 處理前導(dǎo)非對(duì)齊字節(jié)（0-3字節(jié)）

while (((uintptr_t)d & 0x03) && n > 0) {

*d++ = *s++;

n--;

}

// 主循環(huán)：32位字拷貝（4字節(jié)/次）

uint32_t* dw = (uint32_t*)d;

const uint32_t* sw = (const uint32_t*)s;

size_t word_count = n / 4;

// 展開(kāi)循環(huán)（4次迭代）

for (size_t i = 0; i < word_count; i += 4) {

dw[i] = sw[i];

dw[i+1] = sw[i+1];

dw[i+2] = sw[i+2];

dw[i+3] = sw[i+3];

}

// 處理剩余字節(jié)

d = (uint8_t*)dw + (word_count * 4);

s = (const uint8_t*)sw + (word_count * 4);

while (n-- > 0) {

*d++ = *s++;

}

return dest;

}

3. 匯編級(jí)優(yōu)化版本（Thumb-2指令集）

__attribute__((naked)) void* optimized_memcpy_asm(void* dest, const void* src, size_t n) {

__asm volatile (

"push {r4-r7}\n" // 保存寄存器

"ldr r4, [sp, #16]\n" // 加載n參數(shù)

// 對(duì)齊處理（前導(dǎo)字節(jié)）

"ands r7, r0, #3\n" // 計(jì)算dest對(duì)齊偏移

"beq .L_aligned\n" // 已對(duì)齊則跳過(guò)

"subs r5, r7, #0\n" // 剩余字節(jié)計(jì)數(shù)器

".L_unaligned_loop:\n"

"ldrb r6, [r1], #1\n" // 加載源字節(jié)

"strb r6, [r0], #1\n" // 存儲(chǔ)到目標(biāo)

"subs r5, r5, #1\n" // 更新計(jì)數(shù)器

"bne .L_unaligned_loop\n"

".L_aligned:\n"

// 主拷貝循環(huán)（32位字）

"lsrs r5, r4, #2\n" // 計(jì)算字拷貝次數(shù)

"bcc .L_tail\n" // 無(wú)完整字則跳過(guò)

"subs r5, r5, #1\n" // 循環(huán)展開(kāi)準(zhǔn)備

".L_word_loop:\n"

"ldr r6, [r1], #4\n" // 預(yù)取下一個(gè)字

"ldr r7, [r1], #4\n"

"str r6, [r0], #4\n"

"ldr r6, [r1], #4\n"

"str r7, [r0], #4\n"

"ldr r7, [r1], #4\n"

"str r6, [r0], #4\n"

"subs r5, r5, #1\n"

"str r7, [r0], #4\n"

"bcs .L_word_loop\n"

".L_tail:\n"

// 處理剩余字節(jié)

"ands r5, r4, #3\n"

"beq .L_done\n"

".L_byte_loop:\n"

"ldrb r6, [r1], #1\n"

"strb r6, [r0], #1\n"

"subs r5, r5, #1\n"

"bne .L_byte_loop\n"

".L_done:\n"

"pop {r4-r7}\n"

"bx lr\n"

);

}

三、優(yōu)化版memset實(shí)現(xiàn)

1. 核心優(yōu)化策略

塊填充指令：利用ARM的STRD指令實(shí)現(xiàn)雙字填充

分支預(yù)測(cè)優(yōu)化：消除循環(huán)內(nèi)的條件分支

并行填充：利用寄存器并行處理多個(gè)填充值

2. 優(yōu)化實(shí)現(xiàn)代碼

void* optimized_memset(void* s, int c, size_t n) {

uint8_t* dst = (uint8_t*)s;

uint32_t value32 = (c & 0xFF) | ((c & 0xFF) << 8) |

((c & 0xFF) << 16) | ((c & 0xFF) << 24);

// 處理前導(dǎo)非對(duì)齊字節(jié)

while (((uintptr_t)dst & 0x03) && n > 0) {

*dst++ = (uint8_t)c;

n--;

}

// 主填充循環(huán)（32位字）

uint32_t* dst_word = (uint32_t*)dst;

size_t word_count = n / 4;

// 使用重復(fù)填充模式（適用于Cortex-M7等帶DSP擴(kuò)展的CPU）

#if defined(__ARM_FEATURE_DSP)

for (size_t i = 0; i < word_count; i += 2) {

__asm volatile (

"strd %0, %0, [%1, #%4]!\n"

: "+r"(value32), "+r"(dst_word)

: "0"(value32), "1"(dst_word), "I"(8)

);

i++; // 編譯器優(yōu)化輔助

}

#else

// 常規(guī)實(shí)現(xiàn)

for (size_t i = 0; i < word_count; i++) {

dst_word[i] = value32;

}

#endif

// 處理剩余字節(jié)

dst = (uint8_t*)dst_word + (word_count * 4);

while (n-- > 0) {

*dst++ = (uint8_t)c;

}

return s;

}

四、性能對(duì)比測(cè)試

1. 測(cè)試方法

#include <stdio.h>

#include <time.h>

#define BUF_SIZE (1024 * 1024) // 1MB緩沖區(qū)

void benchmark() {

uint8_t src[BUF_SIZE], dst[BUF_SIZE];

clock_t start, end;

// 測(cè)試memcpy

start = clock();

for (int i = 0; i < 1000; i++) {

optimized_memcpy(dst, src, BUF_SIZE);

}

end = clock();

printf("Optimized memcpy: %ld ticks\n", end - start);

// 對(duì)比標(biāo)準(zhǔn)庫(kù)（需包含標(biāo)準(zhǔn)頭文件）

start = clock();

for (int i = 0; i < 1000; i++) {

memcpy(dst, src, BUF_SIZE);

}

end = clock();

printf("Standard memcpy: %ld ticks\n", end - start);

}

2. 典型測(cè)試結(jié)果（Cortex-M7 @ 200MHz）

操作類(lèi)型標(biāo)準(zhǔn)庫(kù)耗時(shí) 優(yōu)化版耗時(shí) 提升比例

1MB memcpy 12,450 ticks 8,720 ticks 30%

1MB memset 8,900 ticks 5,680 ticks 36%

小塊隨機(jī)訪問(wèn) 15%性能損失 5%性能損失 -

五、移植注意事項(xiàng)

架構(gòu)適配：

8位MCU：需調(diào)整為字節(jié)級(jí)操作

64位CPU：使用64位字長(zhǎng)優(yōu)化

對(duì)齊要求：

// 檢查CPU對(duì)齊要求

#if defined(__ARM_ARCH_7M__)

#define MIN_ALIGNMENT 4

#elif defined(__ARM_ARCH_8M_MAIN__)

#define MIN_ALIGNMENT 8

#endif

內(nèi)存屏障：

在多核系統(tǒng)中添加DMB指令

外設(shè)內(nèi)存訪問(wèn)需考慮等待狀態(tài)

結(jié)論：通過(guò)針對(duì)特定架構(gòu)的指令級(jí)優(yōu)化和內(nèi)存訪問(wèn)模式改進(jìn)，手寫(xiě)實(shí)現(xiàn)的memcpy/memset可顯著提升嵌入式系統(tǒng)的內(nèi)存操作性能。實(shí)際開(kāi)發(fā)中需結(jié)合具體芯片手冊(cè)進(jìn)行深度優(yōu)化，并通過(guò)自動(dòng)化測(cè)試驗(yàn)證正確性。對(duì)于安全關(guān)鍵系統(tǒng)，建議添加完整性檢查機(jī)制（如CRC校驗(yàn)）確保數(shù)據(jù)傳輸可靠性。

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)，本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專(zhuān)欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系本站刪除。

換一批

單片機(jī)ISP、ICP和IAP編程方式全解析：從開(kāi)發(fā)到量產(chǎn)的燒錄技術(shù)演進(jìn)

在嵌入式系統(tǒng)開(kāi)發(fā)中，程序燒錄是連接軟件設(shè)計(jì)與硬件實(shí)現(xiàn)的關(guān)鍵環(huán)節(jié)。當(dāng)前主流的單片機(jī)燒錄技術(shù)已形成ICP（在電路編程）、ISP（在系統(tǒng)編程）、IAP（在應(yīng)用編程）三大技術(shù)體系，分別對(duì)應(yīng)開(kāi)發(fā)調(diào)試、量產(chǎn)燒錄、遠(yuǎn)程升級(jí)等不同場(chǎng)景。...

關(guān)鍵字：單片機(jī) ISP ICP IAP 嵌入式系統(tǒng)開(kāi)發(fā)

[嵌入式分享]

嵌入式CI/CD實(shí)踐：自動(dòng)化測(cè)試與持續(xù)集成方案

在嵌入式系統(tǒng)開(kāi)發(fā)領(lǐng)域，持續(xù)集成（CI）和持續(xù)交付（CD）的應(yīng)用正變得越來(lái)越普遍。通過(guò)引入自動(dòng)化測(cè)試和持續(xù)集成方案，嵌入式開(kāi)發(fā)團(tuán)隊(duì)可以顯著提高開(kāi)發(fā)效率，縮短產(chǎn)品上市時(shí)間，并確保軟件質(zhì)量。本文將深入探討嵌入式CI/CD實(shí)踐中...

關(guān)鍵字：嵌入式系統(tǒng)開(kāi)發(fā) CI CD

[嵌入式分享]

RTOS如何實(shí)現(xiàn)實(shí)時(shí)性：關(guān)鍵措施深度解析

在嵌入式系統(tǒng)開(kāi)發(fā)中，實(shí)時(shí)操作系統(tǒng)（RTOS）以其高效的任務(wù)調(diào)度、快速的中斷響應(yīng)和確定性的行為，成為實(shí)現(xiàn)高實(shí)時(shí)性應(yīng)用的關(guān)鍵工具。RTOS通過(guò)一系列精密設(shè)計(jì)的機(jī)制和策略，確保系統(tǒng)能夠在嚴(yán)格的時(shí)間限制內(nèi)響應(yīng)外部事件并處理任務(wù)。...

關(guān)鍵字： RTOS 嵌入式系統(tǒng)開(kāi)發(fā)

[嵌入式分享]

STM32實(shí)現(xiàn)2小時(shí)延時(shí)的最佳方法探討

在嵌入式系統(tǒng)開(kāi)發(fā)中，特別是使用STM32這類(lèi)微控制器時(shí)，實(shí)現(xiàn)精確的長(zhǎng)時(shí)間延時(shí)是一項(xiàng)常見(jiàn)但具有挑戰(zhàn)性的任務(wù)。延時(shí)的方法選擇不僅影響系統(tǒng)的性能和功耗，還關(guān)系到系統(tǒng)的穩(wěn)定性和可靠性。本文將探討在STM32上實(shí)現(xiàn)2小時(shí)延時(shí)的幾種...

關(guān)鍵字： STM32 嵌入式系統(tǒng)開(kāi)發(fā)

[嵌入式分享]

提升單片機(jī)代碼執(zhí)行效率的策略與實(shí)踐

在嵌入式系統(tǒng)開(kāi)發(fā)領(lǐng)域，單片機(jī)（Microcontroller Unit, MCU）作為核心部件，其代碼執(zhí)行效率直接關(guān)系到整個(gè)系統(tǒng)的性能與響應(yīng)速度。優(yōu)化單片機(jī)代碼，不僅能夠提升系統(tǒng)實(shí)時(shí)性，還能減少功耗，延長(zhǎng)設(shè)備使用壽命。本...

關(guān)鍵字：單片機(jī) 嵌入式系統(tǒng)開(kāi)發(fā)

[美通社全球TMT]

多種嵌入式系統(tǒng)開(kāi)發(fā)需求阻礙平臺(tái)工程發(fā)揮最大價(jià)值

采用平臺(tái)工程戰(zhàn)略的開(kāi)發(fā)團(tuán)隊(duì)中，有近三分之二（63%）的嵌入式代碼仍采用定制解決方案編寫(xiě) 超過(guò)半數(shù)（51%）采用平臺(tái)工程戰(zhàn)略的嵌入式系統(tǒng)開(kāi)發(fā)團(tuán)隊(duì)面臨的首要挑戰(zhàn)是跨設(shè)備和操作系統(tǒng)環(huán)境的開(kāi)發(fā) 人才短缺阻礙了50%...

關(guān)鍵字：嵌入式系統(tǒng)開(kāi)發(fā) GROUP 集成開(kāi)發(fā)者

[嵌入式分享]

嵌入式C代碼中獲取時(shí)間戳的奧秘

在嵌入式系統(tǒng)開(kāi)發(fā)中，時(shí)間戳的獲取是一項(xiàng)基礎(chǔ)而關(guān)鍵的功能。時(shí)間戳，即表示某一瞬間的時(shí)間點(diǎn)的唯一標(biāo)識(shí)，通常以自某一固定時(shí)間點(diǎn)（如Unix紀(jì)元，即1970年1月1日00:00:00 UTC）以來(lái)的秒數(shù)或毫秒數(shù)表示。它不僅在日志...

關(guān)鍵字：嵌入式系統(tǒng)開(kāi)發(fā) C代碼時(shí)間戳 Unix

[嵌入式分享]

UART串口通信的深入解析與實(shí)現(xiàn)

在嵌入式系統(tǒng)開(kāi)發(fā)中，UART（通用異步收發(fā)器）串口通信是一種廣泛應(yīng)用的通信方式。它以其簡(jiǎn)單、可靠和成本低的優(yōu)點(diǎn)，成為單片機(jī)、微控制器與各種外設(shè)、計(jì)算機(jī)之間進(jìn)行數(shù)據(jù)交換的重要手段。本文將深入探討UART串口通信的基本原理、...

關(guān)鍵字： UART串口通信嵌入式系統(tǒng)開(kāi)發(fā)

[嵌入式分享]

memcpy與memcpy_toio：深入解析兩大數(shù)據(jù)傳輸神器

在軟件開(kāi)發(fā)中，數(shù)據(jù)的高效傳輸是確保程序性能和穩(wěn)定性的關(guān)鍵。C語(yǔ)言作為一種廣泛應(yīng)用于系統(tǒng)編程和嵌入式開(kāi)發(fā)的語(yǔ)言，提供了多種用于數(shù)據(jù)復(fù)制和傳輸?shù)暮瘮?shù)。其中，memcpy和memcpy_toio是兩個(gè)備受關(guān)注的數(shù)據(jù)傳輸函數(shù)，它...

關(guān)鍵字： memcpy memcpy_toio C語(yǔ)言數(shù)據(jù)傳輸

[振南技術(shù)干貨集（風(fēng)云錄）]