關(guān)于程序效率的問題,你有思考過嗎?
for(;;)
{
void* buffer = malloc(SIZE);
memset(buffer,SIZE);
process(buffer)
free buffer;
}
這是一位實(shí)習(xí)生(我曾帶過10+位實(shí)習(xí)生,因此見多識(shí)廣)的偽代碼,原本這個(gè)SIZE很小,估計(jì)是存放URL用的,定義為512字節(jié),后來由于某種原因,擴(kuò)大到了1M,從512字節(jié)擴(kuò)大到了1M,速度變慢很多。為什么呢?這位同學(xué)無法解釋,但我讓他繼續(xù)探索,找到真正的原因。
我讓他從這樣幾個(gè)方面入手,
(1)首先分析一些主要花費(fèi)時(shí)間的代碼,結(jié)果發(fā)現(xiàn)是memset這一段從512到1M后耗費(fèi)時(shí)間增多,而且增多并不是線性的,我讓他先看一下glibc的memset源代碼,如下:
#if defined _LIBC || defined STDC_HEADERS || defined USG
# include
# define flood memset
#else
static void flood (__ptr_t, int, __malloc_size_t);
static void
flood (ptr, val, size)
__ptr_t ptr;
int val;
__malloc_size_t size;
{
char *cp = ptr;
while (size--)
*cp++ = val;
}
#endif
由此可知memset是每字節(jié)每字節(jié)的賦值的,這并不是機(jī)器喜歡的方式,機(jī)器希望的是在4字節(jié)對(duì)齊的位置上進(jìn)行操作(32位機(jī)器,64位機(jī)器喜歡8字節(jié)對(duì)齊),一次讀取32位(4個(gè)字節(jié))。因此memset完全可以自己實(shí)現(xiàn)一個(gè)一次性寫4個(gè)字節(jié)的代碼。
(2)接下來需要探索的是malloc,事實(shí)上linux內(nèi)存分配有兩種,brk,mmap,前者分配128k以內(nèi)的內(nèi)存,后者分配128k以上的內(nèi)存,在改成1M后,
void* buffer = malloc(SIZE);
這一段是很快的,因?yàn)橹皇欠峙淞颂摯?,并沒有載入內(nèi)存,可以查看/proc/pid/statm,考察內(nèi)存分配,memset操作前后的變化。
而memset,就需要進(jìn)行實(shí)際的內(nèi)存分配,缺頁(yè)中斷,加載TLB等等。
而brk分配的內(nèi)存是glibc管理的內(nèi)存,分配很快,釋放也方便(很多時(shí)候其實(shí)并不釋放)。因此512字節(jié)是,使用的brk分配(效率很高),而變成1M后,使用mmap分配(加上memset的低效)因此效率要低很多。
(3) 這段代碼如果改成,效果等價(jià)性能也會(huì)大幅度提升。
void* buffer = malloc(SIZE);
for(;;)
{
memset(buffer,SIZE);
process(buffer)
}
free buffer;
(4)最后需要質(zhì)疑的是為什么需要開辟1M大小的空間,是否通過了驗(yàn)證,這樣做是否有必要,實(shí)際情況是怎樣的,memset是否需要,是否可以通過什么其他方法來避免這種計(jì)算。
由此可見,很多問題,不好的編碼習(xí)慣,對(duì)機(jī)器理解的不夠透徹是很難再一般的工作中發(fā)現(xiàn),必須在大規(guī)模數(shù)據(jù)處理的實(shí)踐場(chǎng)合(處理數(shù)據(jù)量足夠大),才能體現(xiàn)出來,因此大規(guī)模數(shù)據(jù)處理技術(shù)是軟件、硬件相結(jié)合的技術(shù),而且不僅僅是技術(shù)上的問題還包括了業(yè)務(wù)上的問題,廢代碼,廢計(jì)算應(yīng)該去掉,不合理的計(jì)算應(yīng)該變得合理。