深入理解 Linux I/O 系統(tǒng)
[導(dǎo)讀]大家好,我是小林。我在之前的圖解系統(tǒng)寫過(guò)LinuxI/O的文章,但是沒(méi)有集中在一起講。今天就跟大家分享一篇,LinuxI/O系統(tǒng)。目錄傳統(tǒng)的SystemCallI/O??讀操作??寫操作??網(wǎng)絡(luò)I/O??磁盤I/O高性能優(yōu)化的I/O存儲(chǔ)設(shè)備的I/O棧I/OBuffering???...
大家好,我是小林。
我在之前的圖解系統(tǒng)寫過(guò) Linux I/O 的文章,但是沒(méi)有集中在一起講。
今天就跟大家分享一篇, Linux I/O 系統(tǒng)。
目錄
傳統(tǒng)的 System Call I/O
讀操作
寫操作
網(wǎng)絡(luò) I/O
磁盤 I/O
高性能優(yōu)化的 I/O
存儲(chǔ)設(shè)備的 I/O 棧
I/O Buffering
read(file_fd, tmp_buf, len);write(socket_fd, tmp_buf, len); 下圖分別對(duì)應(yīng)傳統(tǒng) I/O 操作的數(shù)據(jù)讀寫流程,整個(gè)過(guò)程涉及 2 次 CPU 拷貝、2 次 DMA 拷貝,總共 4 次拷貝,以及 4 次上下文切換。
整個(gè)過(guò)程有幾次拷貝?從磁盤到 Page Cache 算第一次的話,從 Page Cache 到用戶態(tài) buffer 就是第二次了。而 mmap 做了什么?mmap 直接把 Page Cache 映射到了用戶態(tài)的地址空間里了,所以 mmap 的方式讀文件是沒(méi)有第二次拷貝過(guò)程的。
那 Direct IO 做了什么?這個(gè)機(jī)制更狠,直接讓用戶態(tài)和塊 IO 層對(duì)接,直接放棄 Page Cache,從磁盤直接和用戶態(tài)拷貝數(shù)據(jù)。好處是什么?寫操作直接映射進(jìn)程的buffer到磁盤扇區(qū),以 DMA 的方式傳輸數(shù)據(jù),減少了原本需要到 Page Cache 層的一次拷貝,提升了寫的效率。對(duì)于讀而言,第一次肯定也是快于傳統(tǒng)的方式的,但是之后的讀就不如傳統(tǒng)方式了(當(dāng)然也可以在用戶態(tài)自己做 Cache,有些商用數(shù)據(jù)庫(kù)就是這么做的)。
除了傳統(tǒng)的 Buffered IO 可以比較自由的用偏移 長(zhǎng)度的方式讀寫文件之外,mmap 和 Direct IO 均有數(shù)據(jù)按頁(yè)對(duì)齊的要求,Direct IO 還限制讀寫必須是底層存儲(chǔ)設(shè)備塊大小的整數(shù)倍(甚至 Linux 2.4 還要求是文件系統(tǒng)邏輯塊的整數(shù)倍)。所以接口越來(lái)越底層,換來(lái)表面上的效率提升的背后,需要在應(yīng)用程序這一層做更多的事情。所以想用好這些高級(jí)特性,除了深刻理解其背后的機(jī)制之外,也要在系統(tǒng)設(shè)計(jì)上下一番功夫。
傳統(tǒng)的 System Call I/O
在 Linux 系統(tǒng)中,傳統(tǒng)的訪問(wèn)方式是通過(guò) write() 和 read() 兩個(gè)系統(tǒng)調(diào)用實(shí)現(xiàn)的,通過(guò) read() 函數(shù)讀取文件到到緩存區(qū)中,然后通過(guò) write() 方法把緩存中的數(shù)據(jù)輸出到網(wǎng)絡(luò)端口。read(file_fd, tmp_buf, len);write(socket_fd, tmp_buf, len); 下圖分別對(duì)應(yīng)傳統(tǒng) I/O 操作的數(shù)據(jù)讀寫流程,整個(gè)過(guò)程涉及 2 次 CPU 拷貝、2 次 DMA 拷貝,總共 4 次拷貝,以及 4 次上下文切換。
- CPU 拷貝: 由 CPU 直接處理數(shù)據(jù)的傳送,數(shù)據(jù)拷貝時(shí)會(huì)一直占用 CPU 的資源。
- DMA 拷貝: 由 CPU 向DMA磁盤控制器下達(dá)指令,讓 DMA 控制器來(lái)處理數(shù)據(jù)的傳送,數(shù)據(jù)傳送完畢再把信息反饋給 CPU,從而減輕了 CPU 資源的占有率。
- 上下文切換: 當(dāng)用戶程序向內(nèi)核發(fā)起系統(tǒng)調(diào)用時(shí),CPU 將用戶進(jìn)程從用戶態(tài)切換到內(nèi)核態(tài); 當(dāng)系統(tǒng)調(diào)用返回時(shí),CPU 將用戶進(jìn)程從內(nèi)核態(tài)切換回用戶態(tài)。
讀操作
當(dāng)應(yīng)用程序執(zhí)行 read 系統(tǒng)調(diào)用讀取一塊數(shù)據(jù)的時(shí)候,如果這塊數(shù)據(jù)已經(jīng)存在于用戶進(jìn)程的頁(yè)內(nèi)存中,就直接從內(nèi)存中讀取數(shù)據(jù)。 如果數(shù)據(jù)不存在,則先將數(shù)據(jù)從磁盤加載數(shù)據(jù)到內(nèi)核空間的讀緩存(Read Buffer)中,再?gòu)淖x緩存拷貝到用戶進(jìn)程的頁(yè)內(nèi)存中。 read(file_fd, tmp_buf, len); 基于傳統(tǒng)的 I/O 讀取方式,read 系統(tǒng)調(diào)用會(huì)觸發(fā) 2 次上下文切換,1 次 DMA 拷貝和 1 次 CPU 拷貝。 發(fā)起數(shù)據(jù)讀取的流程如下:- 用戶進(jìn)程通過(guò) read() 函數(shù)向 Kernel 發(fā)起 System Call,上下文從 user space 切換為 kernel space。
- CPU 利用 DMA 控制器將數(shù)據(jù)從主存或硬盤拷貝到 kernel space 的讀緩沖區(qū)(Read Buffer)。
- CPU 將讀緩沖區(qū)(Read Buffer)中的數(shù)據(jù)拷貝到 user space 的用戶緩沖區(qū)(User Buffer)。
- 上下文從 kernel space 切換回用戶態(tài)(User Space),read 調(diào)用執(zhí)行返回。
寫操作
當(dāng)應(yīng)用程序準(zhǔn)備好數(shù)據(jù),執(zhí)行 write 系統(tǒng)調(diào)用發(fā)送網(wǎng)絡(luò)數(shù)據(jù)時(shí),先將數(shù)據(jù)從用戶空間的頁(yè)緩存拷貝到內(nèi)核空間的網(wǎng)絡(luò)緩沖區(qū)(Socket Buffer)中,然后再將寫緩存中的數(shù)據(jù)拷貝到網(wǎng)卡設(shè)備完成數(shù)據(jù)發(fā)送。 write(socket_fd, tmp_buf, len); 基于傳統(tǒng)的 I/O 寫入方式,write() 系統(tǒng)調(diào)用會(huì)觸發(fā) 2 次上下文切換,1 次 CPU 拷貝和 1 次 DMA 拷貝。 用戶程序發(fā)送網(wǎng)絡(luò)數(shù)據(jù)的流程如下:- 用戶進(jìn)程通過(guò) write() 函數(shù)向 kernel 發(fā)起 System Call,上下文從 user space 切換為 kernel space。
- CPU 將用戶緩沖區(qū)(User Buffer)中的數(shù)據(jù)拷貝到 kernel space 的網(wǎng)絡(luò)緩沖區(qū)(Socket Buffer)。
- CPU 利用 DMA 控制器將數(shù)據(jù)從網(wǎng)絡(luò)緩沖區(qū)(Socket Buffer)拷貝到 NIC 進(jìn)行數(shù)據(jù)傳輸。
- 上下文從 kernel space 切換回 user space,write 系統(tǒng)調(diào)用執(zhí)行返回。
網(wǎng)絡(luò) I/O
磁盤 I/O
高性能優(yōu)化的 I/O
- 零拷貝技術(shù)。
- 多路復(fù)用技術(shù)。
- 頁(yè)緩存(PageCache)技術(shù)。
- 如果在,則放棄訪問(wèn)磁盤,而直接從頁(yè)緩存中讀取。
- 如果不在,則內(nèi)核調(diào)度塊 I/O 操作從磁盤去讀取數(shù)據(jù),并讀入緊隨其后的少數(shù)幾個(gè)頁(yè)面(不少于一個(gè)頁(yè)面,通常是三個(gè)頁(yè)面),然后將數(shù)據(jù)放入頁(yè)緩存中。
- 空閑內(nèi)存低于一個(gè)特定閾值。
- 臟頁(yè)在內(nèi)存中駐留超過(guò)一個(gè)特定的閾值時(shí)。
- 當(dāng)用戶進(jìn)程調(diào)用 sync() 和 fsync() 系統(tǒng)調(diào)用時(shí)。
存儲(chǔ)設(shè)備的 I/O 棧
由圖可見(jiàn),從系統(tǒng)調(diào)用的接口再往下,Linux 下的 IO 棧致大致有三個(gè)層次:- 文件系統(tǒng)層,以 write 為例,內(nèi)核拷貝了 write 參數(shù)指定的用戶態(tài)數(shù)據(jù)到文件系統(tǒng) Cache 中,并適時(shí)向下層同步。
- 塊層,管理塊設(shè)備的 IO 隊(duì)列,對(duì) IO 請(qǐng)求進(jìn)行合并、排序(還記得操作系統(tǒng)課程學(xué)習(xí)過(guò)的 IO 調(diào)度算法嗎? )。
- 設(shè)備層,通過(guò) DMA 與內(nèi)存直接交互,完成數(shù)據(jù)和具體設(shè)備之間的交互。
整個(gè)過(guò)程有幾次拷貝?從磁盤到 Page Cache 算第一次的話,從 Page Cache 到用戶態(tài) buffer 就是第二次了。而 mmap 做了什么?mmap 直接把 Page Cache 映射到了用戶態(tài)的地址空間里了,所以 mmap 的方式讀文件是沒(méi)有第二次拷貝過(guò)程的。
那 Direct IO 做了什么?這個(gè)機(jī)制更狠,直接讓用戶態(tài)和塊 IO 層對(duì)接,直接放棄 Page Cache,從磁盤直接和用戶態(tài)拷貝數(shù)據(jù)。好處是什么?寫操作直接映射進(jìn)程的buffer到磁盤扇區(qū),以 DMA 的方式傳輸數(shù)據(jù),減少了原本需要到 Page Cache 層的一次拷貝,提升了寫的效率。對(duì)于讀而言,第一次肯定也是快于傳統(tǒng)的方式的,但是之后的讀就不如傳統(tǒng)方式了(當(dāng)然也可以在用戶態(tài)自己做 Cache,有些商用數(shù)據(jù)庫(kù)就是這么做的)。
除了傳統(tǒng)的 Buffered IO 可以比較自由的用偏移 長(zhǎng)度的方式讀寫文件之外,mmap 和 Direct IO 均有數(shù)據(jù)按頁(yè)對(duì)齊的要求,Direct IO 還限制讀寫必須是底層存儲(chǔ)設(shè)備塊大小的整數(shù)倍(甚至 Linux 2.4 還要求是文件系統(tǒng)邏輯塊的整數(shù)倍)。所以接口越來(lái)越底層,換來(lái)表面上的效率提升的背后,需要在應(yīng)用程序這一層做更多的事情。所以想用好這些高級(jí)特性,除了深刻理解其背后的機(jī)制之外,也要在系統(tǒng)設(shè)計(jì)上下一番功夫。