??一memory compaction簡介
隨著系統(tǒng)的運行,經(jīng)過不同用戶的分配請求后,頁框會變得十分分散,導(dǎo)致此段頁框被這些正在使用的零散頁框分為一小段一小段非連續(xù)頁框,這使得在需要分配內(nèi)存時很難找到物理上連續(xù)的頁框。
現(xiàn)代處理器不再限于使用傳統(tǒng)的4K大小的頁框;它們可以在進(jìn)程的部分地址空間中支持大得多的頁(huge pages)。使用巨頁會帶來真正的性能優(yōu)勢,主要原因是減小了對處理器的轉(zhuǎn)換后備緩沖區(qū)(translation lookaside buffer)的壓力。但是使用巨頁要求系統(tǒng)能夠找到物理上連續(xù)的內(nèi)存區(qū)域,這些區(qū)域不僅要足夠大,而且還必須確保按適當(dāng)方式滿足字節(jié)對齊的要求。
在一個已經(jīng)運行了一段時間的系統(tǒng)上會產(chǎn)生大量的不連續(xù)的page, 要想找到符合這些高階(high-order)條件的內(nèi)存空間非常具有挑戰(zhàn)性,memory compaction的作用就是解決high-order內(nèi)存分配失敗問題,與buddy system機制做一個互補。
??二memory compaction原理
內(nèi)存碎片整理以pageblock為單位。
在內(nèi)存碎片整理開始前,會在zone的頭和尾各設(shè)置一個指針,頭指針從頭向尾掃描可移動的頁,而尾指針從尾向頭掃描空閑的頁,當(dāng)他們相遇時終止整理。
簡單示意圖:需要明確的是:實際情況并不是與圖示的情況完全一致。頭指針每次掃描一個符合要求的pageblock里的所有頁框,當(dāng)pageblock不為MIGRATE_MOVABLE、MIGRATE_CMA、MIGRATE_RECLAIMABLE時會跳過這些pageblock,當(dāng)掃描完這個pageblock后有可移動的頁框時,會變?yōu)槲仓羔樢詐ageblock為單位向前掃描可移動頁框數(shù)量的空閑頁框,但是在pageblock中也是從開始頁框向結(jié)束頁框進(jìn)行掃描,最后會將前面的頁框內(nèi)容復(fù)制到這些空閑頁框中。
這里的移動是將頁框中的數(shù)據(jù)copy拷貝到可移動的空閑頁框當(dāng)中,此時原有的movable page變成free page。所以并不是頁框自身的移動而是數(shù)據(jù)的移動。
通過下圖的操作就可以分配出一個order = 2或者是order = ?3的連續(xù)的可用空間,可用于滿足更high-order的內(nèi)存分配。當(dāng)然,這里展示的流程和真實系統(tǒng)比起來已經(jīng)大大簡化了。實際的內(nèi)存域會大得多,這意味著掃描的工作量也會大很多,但由此獲得的空閑區(qū)也可能更大。??實際的內(nèi)存碎片,還有一個問題就是在整理算法中會將掃描中識別為不滿足整理要求的內(nèi)存塊標(biāo)識為?“可忽略”(“skip”,即不執(zhí)行規(guī)整)。作為一種優(yōu)化,目的是防止運行沒必要的規(guī)整操作。
比如系統(tǒng)正在對zone進(jìn)行內(nèi)存碎片整理,首先,會從可移動頁框開始位置向后掃描一個pageblock,得到一些可移動頁框,然后空閑頁框從開始位置向前掃描一個pageblock,得到一些空閑頁框,然后將可移動頁框移動到空閑頁框中,之后再繼續(xù)循環(huán)掃描。對一個pageblock進(jìn)行掃描后,如果無法從此pageblock隔離出一個要求的頁框,這時候就會將此pageblock標(biāo)記為跳過(skip)。
假設(shè)內(nèi)存碎片整理可移動頁掃描是從zone的第一個頁框開始,掃描完一個pageblock后,沒有隔離出可移動頁框,則標(biāo)記此pageblock的跳過標(biāo)記PB_migrate_skip,然后將zone->compact_cached_migrate_pfn設(shè)置為此pageblock的結(jié)束頁框。
這樣,在下次對此zone進(jìn)行內(nèi)存碎片整理時,就會直接從此pageblock的下一個pageblock開始,把此pageblock跳過了。同理,對于空閑頁掃描也是一樣。這樣就必須更新zone pageblock的起始地址與結(jié)束地址:以上就是內(nèi)存碎片整理的基本原理了。
3.1、數(shù)據(jù)結(jié)構(gòu)
在內(nèi)存碎片整理中,可以移動的頁框有MIGRATE_RECLAIMABLE、MIGRATE_MOVABLE與MIGRATE_CMA這三種類型的頁框。
而因為內(nèi)存碎片整理分為同步和異步。在異步過程中,只會移動MIGRATE_MOVABLE和MIGRATE_CMA這兩種類型的頁框。因為這兩種類型的頁框處理,是不會涉及到IO操作的。而在同步過程中,這三種類型的頁框都會進(jìn)行移動,因為MIGRATE_RECLAIMABLE基本上都是文件頁,在移動過程中,有可能要將臟頁回寫,會涉及到IO操作,也就是在同步過程中,是會涉及到IO操作的。1、migrate_mode遷移模式:
enum migrate_mode {
MIGRATE_ASYNC,
MIGRATE_SYNC_LIGHT,
MIGRATE_SYNC,
};
2、compact_priority
enum compact_priority {
COMPACT_PRIO_SYNC_FULL,
MIN_COMPACT_PRIORITY = COMPACT_PRIO_SYNC_FULL,
COMPACT_PRIO_SYNC_LIGHT,
MIN_COMPACT_COSTLY_PRIORITY = COMPACT_PRIO_SYNC_LIGHT,
DEF_COMPACT_PRIORITY = COMPACT_PRIO_SYNC_LIGHT,
COMPACT_PRIO_ASYNC,
INIT_COMPACT_PRIORITY = COMPACT_PRIO_ASYNC
};
3、compact_result用于壓縮處理函數(shù)的返回值
enum compact_result {
/* For more detailed tracepoint output - internal to compaction */
COMPACT_NOT_SUITABLE_ZONE,//trace用于調(diào)試輸出或內(nèi)部使用
/*
* compaction didn't start as it was not possible or direct reclaim
* was more suitable
*/
COMPACT_SKIPPED,//跳過壓縮,因為無法執(zhí)行壓縮或直接回收更合適
/* compaction didn't start as it was deferred due to past failures */
COMPACT_DEFERRED,
/* compaction not active last round */
COMPACT_INACTIVE = COMPACT_DEFERRED,
/* For more detailed tracepoint output - internal to compaction */
COMPACT_NO_SUITABLE_PAGE,
/* compaction should continue to another pageblock */
COMPACT_CONTINUE,
/*
* The full zone was compacted scanned but wasn't successfull to compact
* suitable pages.
*/
COMPACT_COMPLETE,//已完成所有區(qū)域的壓縮,但是尚未確??梢酝ㄟ^壓縮分配的頁面
/*
* direct compaction has scanned part of the zone but wasn't successfull
* to compact suitable pages.
*/
COMPACT_PARTIAL_SKIPPED,
/* compaction terminated prematurely due to lock contentions */
COMPACT_CONTENDED,
/*
* direct compaction terminated after concluding that the allocation
* should now succeed
*/
COMPACT_SUCCESS,//在確保可分配頁面安全后,直接壓縮結(jié)束
};
4、compact_control需要進(jìn)行內(nèi)存碎片整理時,總是需要初始化該結(jié)構(gòu)體
struct compact_control {
/* 掃描到的空閑頁的頁的鏈表 */
struct list_head freepages; /* List of free pages to migrate to */
/* 掃描到的可移動的頁的鏈表 */
struct list_head migratepages; /* List of pages being migrated */
/* 空閑頁鏈表中的頁數(shù)量 */
unsigned long nr_freepages; /* Number of isolated free pages */
/* 可移動頁鏈表中的頁數(shù)量 */
unsigned long nr_migratepages; /* Number of pages to migrate */
/* 空閑頁框掃描所在頁框號 */
unsigned long free_pfn; /* isolate_freepages search base */
/* 可移動頁框掃描所在頁框號 */
unsigned long migrate_pfn; /* isolate_migratepages search base */
/* 內(nèi)存碎片整理使用的模式: 同步,輕同步,異步 */
enum migrate_mode mode; /* Async or sync migration mode */
/* 是否忽略pageblock的PB_migrate_skip標(biāo)志對需要跳過的pageblock進(jìn)行掃描 ,并且也不會對pageblock設(shè)置跳過
* 只有兩種情況會使用
* 1.調(diào)用alloc_contig_range()嘗試分配一段指定了開始頁框號和結(jié)束頁框號的連續(xù)頁框時;
* 2.通過寫入1到sysfs中的/vm/compact_memory文件手動實現(xiàn)同步內(nèi)存碎片整理。
*/
bool ignore_skip_hint; /* Scan blocks even if marked skip */
/* 本次內(nèi)存碎片整理是否隔離到了空閑頁框,會影響zone的空閑頁掃描起始位置 */
bool finished_update_free; /* True when the zone cached pfns are
* no longer being updated
*/
/* 本次內(nèi)存碎片整理是否隔離到了可移動頁框,會影響zone的可移動頁掃描起始位置 */
bool finished_update_migrate;
/* 申請內(nèi)存時需要的頁框的order值 */
int order; /* order a direct compactor needs */
const gfp_t gfp_mask; /* gfp mask of a direct compactor */
/* 掃描的管理區(qū) */
struct zone *zone;
/* 保存結(jié)果,比如異步模式下是否因為需要阻塞而結(jié)束了本次內(nèi)存碎片整理 */
int contended; /* Signal need_sched() or lock
* contention detected during
* compaction
*/
};
5、Node?zone?掃描推遲
struct zone
{
.....
unsigned int compact_considered;
unsigned int compact_defer_shift;
int compact_order_failed;
......
}
當(dāng)一個zone要進(jìn)行內(nèi)存碎片整理時,首先會判斷本次整理需不需要推遲,如果本次內(nèi)存碎片整理使用的order值小于zone內(nèi)存碎片整理失敗最大order值compact_order_failed時,不用進(jìn)行推遲,可以直接進(jìn)行內(nèi)存碎片整理;當(dāng)order值大于zone內(nèi)存碎片整理失敗最大order值compact_order_failed,會增加內(nèi)存碎片整理推遲計數(shù)器compact_considered,如果內(nèi)存碎片整理推遲計數(shù)器compact_considered未達(dá)到內(nèi)存碎片整理推遲閥值defer_limit,則會跳過本次內(nèi)存碎片整理,如果達(dá)到了,那就需要進(jìn)行內(nèi)存碎片整理。
總結(jié):也就是當(dāng)order小于zone內(nèi)存碎片整理失敗最大order值時,不用進(jìn)行推遲,而order大于zone內(nèi)存碎片整理失敗最大order值時,才考慮是否進(jìn)行推遲,此時推遲就是continue掃描node當(dāng)中的下一個zone區(qū)域,這里并不是想下文一下設(shè)置zone SKIP標(biāo)志。
6、Pageblock?skip
struct zone
{
......
unsigned long compact_cached_free_pfn;
/* pfn where async and sync compaction migration scanner should start */
unsigned long compact_cached_migrate_pfn[2];
......
}
3.2、源碼分析
內(nèi)存碎片整理移動發(fā)生條件:- 內(nèi)存分配不足時觸發(fā)direct compact整理內(nèi)存
- Kswapd內(nèi)存回收后喚醒kcompactd內(nèi)核線程執(zhí)行compact操作,獲取連續(xù)內(nèi)存
- 手動設(shè)置echo 1 > /proc/sys/vm/compact_memory
分析的重點就放在內(nèi)存分配不足的情況,入口函數(shù)從try_to_compact_pages開始
對源碼詳細(xì)分析參見代碼:https://github.com/linuxzjs/linux-4.14
重點分析5個關(guān)鍵函數(shù):1、compaction_suitable
/* 判斷該zone是否可以做內(nèi)存碎片壓縮整理 */
enum compact_result compaction_suitable(struct zone *zone, int order,
unsigned int alloc_flags,
int classzone_idx)
{
enum compact_result ret;
int fragindex;
/*
* 根據(jù)watermask判斷zone中離散的page是否滿足2^order的內(nèi)存分配請求,如果滿足則繼續(xù)對zone進(jìn)行內(nèi)存的compact整理zone的內(nèi)存碎片
* 說明該zone時可以做內(nèi)存碎片的壓縮整理的。
*/
ret = __compaction_suitable(zone, order, alloc_flags, classzone_idx,zone_page_state(zone, NR_FREE_PAGES));
/* 如果return返回值為COMPACT_CONTINUE,且order > PAGE_ALLOC_COSTLY_ORDER(3)則進(jìn)入一下判斷當(dāng)中 */
if (ret == COMPACT_CONTINUE