萬(wàn)字,整理了Linux內(nèi)存管理所有知識(shí)點(diǎn)
掃描二維碼
隨時(shí)隨地手機(jī)看文章
文章比較長(zhǎng),做好準(zhǔn)備,深呼吸,讓我們一起打開(kāi)Linux內(nèi)核的大門(mén)!
Linux內(nèi)存管理之CPU訪問(wèn)內(nèi)存的過(guò)程
我喜歡用圖的方式來(lái)說(shuō)明問(wèn)題,簡(jiǎn)單直接:藍(lán)色部分是cpu,灰色部分是內(nèi)存,白色部分就是cpu訪問(wèn)內(nèi)存的過(guò)程,也是地址轉(zhuǎn)換的過(guò)程。在解釋地址轉(zhuǎn)換的本質(zhì)前我們先理解下幾個(gè)概念:
- TLB:MMU工作的過(guò)程就是查詢頁(yè)表的過(guò)程。如果把頁(yè)表放在內(nèi)存中查詢的時(shí)候開(kāi)銷太大,因此為了提高查找效率,專門(mén)用一小片訪問(wèn)更快的區(qū)域存放地址轉(zhuǎn)換條目。(當(dāng)頁(yè)表內(nèi)容有變化的時(shí)候,需要清除TLB,以防止地址映射出錯(cuò)。)
- Caches:cpu和內(nèi)存之間的緩存機(jī)制,用于提高訪問(wèn)速率,armv8架構(gòu)的話上圖的caches其實(shí)是L2 Cache,這里就不做進(jìn)一步解釋了。
虛擬地址轉(zhuǎn)換為物理地址的本質(zhì)
我們知道內(nèi)核中的尋址空間大小是由CONFIG_ARM64_VA_BITS控制的,這里以48位為例,ARMv8中,Kernel Space的頁(yè)表基地址存放在TTBR1_EL1寄存器中,User Space頁(yè)表基地址存放在TTBR0_EL0寄存器中,其中內(nèi)核地址空間的高位為全1,(0xFFFF0000_00000000 ~ 0xFFFFFFFF_FFFFFFFF),用戶地址空間的高位為全0,(0x00000000_00000000 ~ 0x0000FFFF_FFFFFFFF)有了宏觀概念,下面我們以內(nèi)核態(tài)尋址過(guò)程為例看下是如何把虛擬地址轉(zhuǎn)換為物理地址的。
我們知道linux采用了分頁(yè)機(jī)制,通常采用四級(jí)頁(yè)表,頁(yè)全局目錄(PGD),頁(yè)上級(jí)目錄(PUD),頁(yè)中間目錄(PMD),頁(yè)表(PTE)。如下:
- 從CR3寄存器中讀取頁(yè)目錄所在物理頁(yè)面的基址(即所謂的頁(yè)目錄基址),從線性地址的第一部分獲取頁(yè)目錄項(xiàng)的索引,兩者相加得到頁(yè)目錄項(xiàng)的物理地址。
- 第一次讀取內(nèi)存得到pgd_t結(jié)構(gòu)的目錄項(xiàng),從中取出物理頁(yè)基址取出,即頁(yè)上級(jí)頁(yè)目錄的物理基地址。
- 從線性地址的第二部分中取出頁(yè)上級(jí)目錄項(xiàng)的索引,與頁(yè)上級(jí)目錄基地址相加得到頁(yè)上級(jí)目錄項(xiàng)的物理地址。
- 第二次讀取內(nèi)存得到pud_t結(jié)構(gòu)的目錄項(xiàng),從中取出頁(yè)中間目錄的物理基地址。
- 從線性地址的第三部分中取出頁(yè)中間目錄項(xiàng)的索引,與頁(yè)中間目錄基址相加得到頁(yè)中間目錄項(xiàng)的物理地址。
- 第三次讀取內(nèi)存得到pmd_t結(jié)構(gòu)的目錄項(xiàng),從中取出頁(yè)表的物理基地址。
- 從線性地址的第四部分中取出頁(yè)表項(xiàng)的索引,與頁(yè)表基址相加得到頁(yè)表項(xiàng)的物理地址。
- 第四次讀取內(nèi)存得到pte_t結(jié)構(gòu)的目錄項(xiàng),從中取出物理頁(yè)的基地址。
- 從線性地址的第五部分中取出物理頁(yè)內(nèi)偏移量,與物理頁(yè)基址相加得到最終的物理地址。
- 第五次讀取內(nèi)存得到最終要訪問(wèn)的數(shù)據(jù)。
Linux內(nèi)存初始化
有了armv8架構(gòu)訪問(wèn)內(nèi)存的理解,我們來(lái)看下linux在內(nèi)存這塊的初始化就更容易理解了。創(chuàng)建啟動(dòng)頁(yè)表:
在匯編代碼階段的head.S文件中,負(fù)責(zé)創(chuàng)建映射關(guān)系的函數(shù)是create_page_tables。create_page_tables函數(shù)負(fù)責(zé)identity mapping和kernel image mapping。- identity map:是指把idmap_text區(qū)域的物理地址映射到相等的虛擬地址上,這種映射完成后,其虛擬地址等于物理地址。idmap_text區(qū)域都是一些打開(kāi)MMU相關(guān)的代碼。
- kernel image map:將kernel運(yùn)行需要的地址(kernel txt、rodata、data、bss等等)進(jìn)行映射。
arch/arm64/kernel/head.S:
ENTRY(stext)
bl preserve_boot_args
bl el2_setup // Drop to EL1, w0=cpu_boot_mode
adrp x23, __PHYS_OFFSET
and x23, x23, MIN_KIMG_ALIGN - 1 // KASLR offset, defaults to 0
bl set_cpu_boot_mode_flag
bl __create_page_tables
/*
* The following calls CPU setup code, see arch/arm64/mm/proc.S for
* details.
* On return, the CPU will be ready for the MMU to be turned on and
* the TCR will have been set.
*/
bl __cpu_setup // initialise processor
b __primary_switch
ENDPROC(stext)
__create_page_tables主要執(zhí)行的就是identity map和kernel image map:
__create_page_tables:
......
create_pgd_entry x0, x3, x5, x6
mov x5, x3 // __pa(__idmap_text_start)
adr_l x6, __idmap_text_end // __pa(__idmap_text_end)
create_block_map x0, x7, x3, x5, x6
/*
* Map the kernel image (starting with PHYS_OFFSET).
*/
adrp x0, swapper_pg_dir
mov_q x5, KIMAGE_VADDR TEXT_OFFSET // compile time __va(_text)
add x5, x5, x23 // add KASLR displacement
create_pgd_entry x0, x5, x3, x6
adrp x6, _end // runtime __pa(_end)
adrp x3, _text // runtime __pa(_text)
sub x6, x6, x3 // _end - _text
add x6, x6, x5 // runtime __va(_end)
create_block_map x0, x7, x3, x5, x6
......
其中調(diào)用create_pgd_entry進(jìn)行PGD及所有中間level(PUD, PMD)頁(yè)表的創(chuàng)建,調(diào)用create_block_map進(jìn)行PTE頁(yè)表的映射。關(guān)于四級(jí)頁(yè)表的關(guān)系如下圖所示,這里就不進(jìn)一步解釋了。
等內(nèi)存初始化后就可以進(jìn)入真正的內(nèi)存管理了,初始化我總結(jié)了一下,大體分為四步:
- 物理內(nèi)存進(jìn)系統(tǒng)前
- 用memblock模塊來(lái)對(duì)內(nèi)存進(jìn)行管理
- 頁(yè)表映射
- zone初始化
Linux是如何組織物理內(nèi)存的?
- node 目前計(jì)算機(jī)系統(tǒng)有兩種體系結(jié)構(gòu):
- 非一致性內(nèi)存訪問(wèn) NUMA(Non-Uniform Memory Access)意思是內(nèi)存被劃分為各個(gè)node,訪問(wèn)一個(gè)node花費(fèi)的時(shí)間取決于CPU離這個(gè)node的距離。每一個(gè)cpu內(nèi)部有一個(gè)本地的node,訪問(wèn)本地node時(shí)間比訪問(wèn)其他node的速度快
- 一致性內(nèi)存訪問(wèn) UMA(Uniform Memory Access)也可以稱為SMP(Symmetric Multi-Process)對(duì)稱多處理器。意思是所有的處理器訪問(wèn)內(nèi)存花費(fèi)的時(shí)間是一樣的。也可以理解整個(gè)內(nèi)存只有一個(gè)node。
- zone
- page
- page frame
- page frame num(pfn)
物理地址>>PAGE_SHIFT = pfn
- pfn和page的關(guān)系
系統(tǒng)啟動(dòng)的時(shí)候,內(nèi)核會(huì)將整個(gè)struct page映射到內(nèi)核虛擬地址空間vmemmap的區(qū)域,所以我們可以簡(jiǎn)單的認(rèn)為struct page的基地址是vmemmap,則:
vmemmap pfn的地址就是此struct page對(duì)應(yīng)的地址。
Linux分區(qū)頁(yè)框分配器
頁(yè)框分配在內(nèi)核里的機(jī)制我們叫做分區(qū)頁(yè)框分配器(zoned page frame allocator),在linux系統(tǒng)中,分區(qū)頁(yè)框分配器管理著所有物理內(nèi)存,無(wú)論你是內(nèi)核還是進(jìn)程,都需要請(qǐng)求分區(qū)頁(yè)框分配器,這時(shí)才會(huì)分配給你應(yīng)該獲得的物理內(nèi)存頁(yè)框。當(dāng)你所擁有的頁(yè)框不再使用時(shí),你必須釋放這些頁(yè)框,讓這些頁(yè)框回到管理區(qū)頁(yè)框分配器當(dāng)中。有時(shí)候目標(biāo)管理區(qū)不一定有足夠的頁(yè)框去滿足分配,這時(shí)候系統(tǒng)會(huì)從另外兩個(gè)管理區(qū)中獲取要求的頁(yè)框,但這是按照一定規(guī)則去執(zhí)行的,如下:
- 如果要求從DMA區(qū)中獲取,就只能從ZONE_DMA區(qū)中獲取。
- 如果沒(méi)有規(guī)定從哪個(gè)區(qū)獲取,就按照順序從 ZONE_NORMAL -> ZONE_DMA 獲取。
- 如果規(guī)定從HIGHMEM區(qū)獲取,就按照順序從 ZONE_HIGHMEM -> ZONE_NORMAL -> ZONE_DMA 獲取。
struct page *
__alloc_pages_nodemask(gfp_t gfp_mask, unsigned int order, int preferred_nid,
nodemask_t *nodemask)
{
page = get_page_from_freelist(alloc_mask, order, alloc_flags,