www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當前位置:首頁 > 公眾號精選 > Linux閱碼場
[導讀]已經運行了一段時間的系統(tǒng)上會產生大量不連續(xù)的page,?要想找到高階(high-order)條件的內存空間具有挑戰(zhàn)性。

作者簡介

趙金生,linux內核愛好者,就職于杭州某大型安防公司,擔任Linux BSP軟件工程師。對進程調度,內存管理有所了解。希望能通過對linux的學習,提升產品軟件性能及穩(wěn)定性。該文章為私人學習總結,不存在公司網絡安全問題。

memory compaction簡介

隨著系統(tǒng)的運行,經過不同用戶的分配請求后,頁框會變得十分分散,導致此段頁框被這些正在使用的零散頁框分為一小段一小段非連續(xù)頁框,這使得在需要分配內存時很難找到物理上連續(xù)的頁框。

現代處理器不再限于使用傳統(tǒng)的4K大小的頁框;它們可以在進程的部分地址空間中支持大得多的頁(huge pages)。使用巨頁會帶來真正的性能優(yōu)勢,主要原因是減小了對處理器的轉換后備緩沖區(qū)(translation lookaside buffer)的壓力。但是使用巨頁要求系統(tǒng)能夠找到物理上連續(xù)的內存區(qū)域,這些區(qū)域不僅要足夠大,而且還必須確保按適當方式滿足字節(jié)對齊的要求。

在一個已經運行了一段時間的系統(tǒng)上會產生大量的不連續(xù)的page, 要想找到符合這些高階(high-order)條件的內存空間非常具有挑戰(zhàn)性,memory compaction的作用就是解決high-order內存分配失敗問題,與buddy system機制做一個互補。

memory compaction原理

內存碎片整理以pageblock為單位。
在內存碎片整理開始前,會在zone的頭和尾各設置一個指針,頭指針從頭向尾掃描可移動的頁,而尾指針從尾向頭掃描空閑的頁,當他們相遇時終止整理。

簡單示意圖:需要明確的是:實際情況并不是與圖示的情況完全一致。頭指針每次掃描一個符合要求的pageblock里的所有頁框,當pageblock不為MIGRATE_MOVABLE、MIGRATE_CMA、MIGRATE_RECLAIMABLE時會跳過這些pageblock,當掃描完這個pageblock后有可移動的頁框時,會變?yōu)槲仓羔樢詐ageblock為單位向前掃描可移動頁框數量的空閑頁框,但是在pageblock中也是從開始頁框向結束頁框進行掃描,最后會將前面的頁框內容復制到這些空閑頁框中。

這里的移動是將頁框中的數據copy拷貝到可移動的空閑頁框當中,此時原有的movable page變成free page。所以并不是頁框自身的移動而是數據的移動。

通過下圖的操作就可以分配出一個order = 2或者是order =  3的連續(xù)的可用空間,可用于滿足更high-order的內存分配。當然,這里展示的流程和真實系統(tǒng)比起來已經大大簡化了。實際的內存域會大得多,這意味著掃描的工作量也會大很多,但由此獲得的空閑區(qū)也可能更大。


實際的內存碎片,還有一個問題就是在整理算法中會將掃描中識別為不滿足整理要求的內存塊標識為 “可忽略”(“skip”,即不執(zhí)行規(guī)整)。作為一種優(yōu)化,目的是防止運行沒必要的規(guī)整操作。

比如系統(tǒng)正在對zone進行內存碎片整理,首先,會從可移動頁框開始位置向后掃描一個pageblock,得到一些可移動頁框,然后空閑頁框從開始位置向前掃描一個pageblock,得到一些空閑頁框,然后將可移動頁框移動到空閑頁框中,之后再繼續(xù)循環(huán)掃描。對一個pageblock進行掃描后,如果無法從此pageblock隔離出一個要求的頁框,這時候就會將此pageblock標記為跳過(skip)

假設內存碎片整理可移動頁掃描是從zone的第一個頁框開始,掃描完一個pageblock后,沒有隔離出可移動頁框,則標記此pageblock的跳過標記PB_migrate_skip,然后將zone->compact_cached_migrate_pfn設置為此pageblock的結束頁框。
這樣,在下次對此zone進行內存碎片整理時,就會直接從此pageblock的下一個pageblock開始,把此pageblock跳過了。同理,對于空閑頁掃描也是一樣。這樣就必須更新zone pageblock的起始地址與結束地址:


以上就是內存碎片整理的基本原理了。

memory compaction如何實現

3.1、數據結構

在內存碎片整理中,可以移動的頁框有MIGRATE_RECLAIMABLE、MIGRATE_MOVABLE與MIGRATE_CMA這三種類型的頁框。

而因為內存碎片整理分為同步和異步。在異步過程中,只會移動MIGRATE_MOVABLE和MIGRATE_CMA這兩種類型的頁框。因為這兩種類型的頁框處理,是不會涉及到IO操作的。而在同步過程中,這三種類型的頁框都會進行移動,因為MIGRATE_RECLAIMABLE基本上都是文件頁,在移動過程中,有可能要將臟頁回寫,會涉及到IO操作,也就是在同步過程中,是會涉及到IO操作的。

1、migrate_mode遷移模式:

enum migrate_mode { MIGRATE_ASYNC, MIGRATE_SYNC_LIGHT, MIGRATE_SYNC,};
2、compact_priority

enum compact_priority { COMPACT_PRIO_SYNC_FULL, MIN_COMPACT_PRIORITY = COMPACT_PRIO_SYNC_FULL, COMPACT_PRIO_SYNC_LIGHT, MIN_COMPACT_COSTLY_PRIORITY = COMPACT_PRIO_SYNC_LIGHT, DEF_COMPACT_PRIORITY = COMPACT_PRIO_SYNC_LIGHT, COMPACT_PRIO_ASYNC, INIT_COMPACT_PRIORITY = COMPACT_PRIO_ASYNC};
3、compact_result用于壓縮處理函數的返回值

enum compact_result { /* For more detailed tracepoint output - internal to compaction */ COMPACT_NOT_SUITABLE_ZONE,//trace用于調試輸出或內部使用 /* * compaction didn't start as it was not possible or direct reclaim * was more suitable */ COMPACT_SKIPPED,//跳過壓縮,因為無法執(zhí)行壓縮或直接回收更合適 /* compaction didn't start as it was deferred due to past failures */ COMPACT_DEFERRED,
/* compaction not active last round */ COMPACT_INACTIVE = COMPACT_DEFERRED,
/* For more detailed tracepoint output - internal to compaction */ COMPACT_NO_SUITABLE_PAGE, /* compaction should continue to another pageblock */ COMPACT_CONTINUE,
/* * The full zone was compacted scanned but wasn't successfull to compact * suitable pages. */ COMPACT_COMPLETE,//已完成所有區(qū)域的壓縮,但是尚未確??梢酝ㄟ^壓縮分配的頁面 /* * direct compaction has scanned part of the zone but wasn't successfull * to compact suitable pages. */ COMPACT_PARTIAL_SKIPPED,
/* compaction terminated prematurely due to lock contentions */ COMPACT_CONTENDED,
/* * direct compaction terminated after concluding that the allocation * should now succeed */ COMPACT_SUCCESS,//在確??煞峙漤撁姘踩?,直接壓縮結束};

4、compact_control需要進行內存碎片整理時,總是需要初始化該結構體

struct compact_control { /* 掃描到的空閑頁的頁的鏈表 */ struct list_head freepages; /* List of free pages to migrate to */ /* 掃描到的可移動的頁的鏈表 */ struct list_head migratepages; /* List of pages being migrated */ /* 空閑頁鏈表中的頁數量 */ unsigned long nr_freepages; /* Number of isolated free pages */ /* 可移動頁鏈表中的頁數量 */ unsigned long nr_migratepages; /* Number of pages to migrate */ /* 空閑頁框掃描所在頁框號 */ unsigned long free_pfn; /* isolate_freepages search base */ /* 可移動頁框掃描所在頁框號 */ unsigned long migrate_pfn; /* isolate_migratepages search base */ /* 內存碎片整理使用的模式: 同步,輕同步,異步 */ enum migrate_mode mode; /* Async or sync migration mode */ /* 是否忽略pageblock的PB_migrate_skip標志對需要跳過的pageblock進行掃描 ,并且也不會對pageblock設置跳過 * 只有兩種情況會使用 * 1.調用alloc_contig_range()嘗試分配一段指定了開始頁框號和結束頁框號的連續(xù)頁框時; * 2.通過寫入1到sysfs中的/vm/compact_memory文件手動實現同步內存碎片整理。 */ bool ignore_skip_hint; /* Scan blocks even if marked skip */ /* 本次內存碎片整理是否隔離到了空閑頁框,會影響zone的空閑頁掃描起始位置 */ bool finished_update_free; /* True when the zone cached pfns are * no longer being updated */ /* 本次內存碎片整理是否隔離到了可移動頁框,會影響zone的可移動頁掃描起始位置 */ bool finished_update_migrate; /* 申請內存時需要的頁框的order值 */ int order; /* order a direct compactor needs */ const gfp_t gfp_mask; /* gfp mask of a direct compactor */ /* 掃描的管理區(qū) */ struct zone *zone; /* 保存結果,比如異步模式下是否因為需要阻塞而結束了本次內存碎片整理 */ int contended; /* Signal need_sched() or lock * contention detected during * compaction */};

5、Node zone 掃描推遲

struct zone{ ..... unsigned int compact_considered; unsigned int compact_defer_shift; int compact_order_failed; ......} 當一個zone要進行內存碎片整理時,首先會判斷本次整理需不需要推遲,如果本次內存碎片整理使用的order值小于zone內存碎片整理失敗最大order值compact_order_failed時,不用進行推遲,可以直接進行內存碎片整理;
當order值大于zone內存碎片整理失敗最大order值compact_order_failed,會增加內存碎片整理推遲計數器compact_considered,如果內存碎片整理推遲計數器compact_considered未達到內存碎片整理推遲閥值defer_limit,則會跳過本次內存碎片整理,如果達到了,那就需要進行內存碎片整理。

總結:也就是當order小于zone內存碎片整理失敗最大order值時,不用進行推遲,而order大于zone內存碎片整理失敗最大order值時,才考慮是否進行推遲,此時推遲就是continue掃描node當中的下一個zone區(qū)域,這里并不是想下文一下設置zone SKIP標志。
6、Pageblock skip

struct zone{ ...... unsigned long compact_cached_free_pfn; /* pfn where async and sync compaction migration scanner should start */ unsigned long compact_cached_migrate_pfn[2];
......}

3.2、源碼分析

內存碎片整理移動發(fā)生條件:
  • 內存分配不足時觸發(fā)direct compact整理內存
  • Kswapd內存回收后喚醒kcompactd內核線程執(zhí)行compact操作,獲取連續(xù)內存
  • 手動設置echo 1 > /proc/sys/vm/compact_memory


分析的重點就放在內存分配不足的情況,入口函數從try_to_compact_pages開始

對源碼詳細分析參見代碼:https://github.com/linuxzjs/linux-4.14

重點分析5個關鍵函數:

1、compaction_suitable

/* 判斷該zone是否可以做內存碎片壓縮整理 */enum compact_result compaction_suitable(struct zone *zone, int order, unsigned int alloc_flags, int classzone_idx){ enum compact_result ret; int fragindex; /* * 根據watermask判斷zone中離散的page是否滿足2^order的內存分配請求,如果滿足則繼續(xù)對zone進行內存的compact整理zone的內存碎片 * 說明該zone時可以做內存碎片的壓縮整理的。 */ ret = __compaction_suitable(zone, order, alloc_flags, classzone_idx,zone_page_state(zone, NR_FREE_PAGES));
/* 如果return返回值為COMPACT_CONTINUE,且order > PAGE_ALLOC_COSTLY_ORDER(3)則進入一下判斷當中 */ if (ret == COMPACT_CONTINUE

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯系該專欄作者,如若文章內容侵犯您的權益,請及時聯系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或將催生出更大的獨角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數字化轉型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據媒體報道,騰訊和網易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數據產業(yè)博覽會開幕式在貴陽舉行,華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數據產業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經營業(yè)績穩(wěn)中有升 落實提質增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數字經濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯合牽頭組建的NVI技術創(chuàng)新聯盟在BIRTV2024超高清全產業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現場 NVI技術創(chuàng)新聯...

關鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉
關閉