系統(tǒng)卡頓終極診斷:eBPF + ftrace 追蹤不可中斷進程(D 狀態(tài))阻塞鏈
在 Linux 系統(tǒng)運維過程中,系統(tǒng)卡頓是一個令人頭疼的問題。當(dāng)系統(tǒng)出現(xiàn)卡頓時,用戶界面無響應(yīng)、服務(wù)延遲增加,嚴重時甚至?xí)?dǎo)致業(yè)務(wù)中斷。不可中斷進程(處于 D 狀態(tài))往往是系統(tǒng)卡頓的“罪魁禍首”之一。這些進程由于等待某些硬件資源(如磁盤 I/O、網(wǎng)絡(luò) I/O 等)而無法被信號中斷,從而阻塞了整個系統(tǒng)的正常運行。本文將介紹如何利用 eBPF 和 ftrace 這兩大強大的工具,追蹤不可中斷進程的阻塞鏈,精準定位系統(tǒng)卡頓的根源。
不可中斷進程(D 狀態(tài))概述
在 Linux 中,進程有多種狀態(tài),其中 D 狀態(tài)(TASK_UNINTERRUPTIBLE)表示進程處于不可中斷的睡眠狀態(tài)。處于 D 狀態(tài)的進程通常在等待硬件資源,例如磁盤讀寫操作完成。與可中斷狀態(tài)(S 狀態(tài))不同,D 狀態(tài)的進程不會響應(yīng)任何信號,包括 SIGKILL 信號,這使得它們難以被強制終止,也增加了系統(tǒng)卡頓排查的難度。
eBPF 與 ftrace 簡介
eBPF
eBPF(extended Berkeley Packet Filter)是一種強大的內(nèi)核技術(shù),它允許用戶在內(nèi)核中運行沙箱化的程序,而無需修改內(nèi)核代碼或加載內(nèi)核模塊。eBPF 程序可以附加到內(nèi)核的各種鉤子點上,如系統(tǒng)調(diào)用入口、網(wǎng)絡(luò)數(shù)據(jù)包處理路徑等,從而實現(xiàn)對系統(tǒng)行為的實時監(jiān)控和分析。
ftrace
ftrace 是 Linux 內(nèi)核提供的一個內(nèi)置跟蹤框架,它可以用于跟蹤內(nèi)核函數(shù)的調(diào)用、執(zhí)行時間等信息。ftrace 提供了多種跟蹤工具和接口,如 function_graph、function 等,可以幫助開發(fā)者和運維人員深入了解內(nèi)核的運行情況。
使用 eBPF 追蹤不可中斷進程
編寫 eBPF 程序
以下是一個簡單的 eBPF 程序示例,用于捕獲處于 D 狀態(tài)的進程信息:
c
#include <uapi/linux/ptrace.h>
#include <linux/sched.h>
struct data_t {
u32 pid;
char comm[TASK_COMM_LEN];
u64 state;
};
BPF_PERF_OUTPUT(events);
int trace_sched_process_exec(struct pt_regs *ctx) {
struct task_struct *task;
struct data_t data = {};
task = (struct task_struct *)bpf_get_current_task();
data.pid = task->pid;
bpf_get_current_comm(&data.comm, sizeof(data.comm));
data.state = task->state;
if (data.state == TASK_UNINTERRUPTIBLE) {
events.perf_submit(ctx, &data, sizeof(data));
}
return 0;
}
加載 eBPF 程序
可以使用 BCC(BPF Compiler Collection)工具來加載上述 eBPF 程序。以下是一個 Python 腳本示例:
python
from bcc import BPF
# 加載 eBPF 程序
b = BPF(src_file="d_state_trace.c")
# 定義回調(diào)函數(shù)處理捕獲的事件
def print_event(cpu, data, size):
event = b["events"].event(data)
print(f"PID: {event.pid}, Command: {event.comm.decode()}, State: {event.state}")
# 關(guān)聯(lián)回調(diào)函數(shù)和性能事件
b["events"].open_perf_buffer(print_event)
# 啟動跟蹤
while True:
try:
b.perf_buffer_poll()
except KeyboardInterrupt:
exit()
運行上述 Python 腳本后,當(dāng)有進程進入 D 狀態(tài)時,會輸出進程的 PID、命令名和狀態(tài)信息。
使用 ftrace 追蹤阻塞鏈
啟用 ftrace 跟蹤
可以使用以下命令啟用 ftrace 的 function_graph 跟蹤,以跟蹤內(nèi)核函數(shù)的調(diào)用關(guān)系:
bash
# 進入 ftrace 目錄
cd /sys/kernel/debug/tracing
# 設(shè)置跟蹤選項
echo function_graph > current_tracer
# 設(shè)置要跟蹤的函數(shù)(這里以磁盤 I/O 相關(guān)函數(shù)為例)
echo "submit_bio* blk_mq_start_request* generic_make_request*" > set_ftrace_filter
# 啟用跟蹤
echo 1 > tracing_on
分析跟蹤結(jié)果
當(dāng)系統(tǒng)出現(xiàn)卡頓時,可以通過以下命令查看跟蹤結(jié)果:
bash
cat tracing/trace
在跟蹤結(jié)果中,可以查看進程在進入 D 狀態(tài)前調(diào)用了哪些內(nèi)核函數(shù),從而分析出阻塞鏈。例如,如果發(fā)現(xiàn)進程在調(diào)用 submit_bio 函數(shù)后進入 D 狀態(tài),并且 submit_bio 函數(shù)又調(diào)用了 blk_mq_start_request 等函數(shù),那么可以推測是磁盤 I/O 操作導(dǎo)致了進程阻塞。
綜合分析與優(yōu)化
通過 eBPF 和 ftrace 追蹤到不可中斷進程的阻塞鏈后,就可以針對性地進行優(yōu)化。例如,如果是磁盤 I/O 瓶頸導(dǎo)致的卡頓,可以考慮升級磁盤硬件、優(yōu)化磁盤讀寫策略或調(diào)整系統(tǒng)參數(shù)等。
總結(jié)
系統(tǒng)卡頓問題往往復(fù)雜多樣,不可中斷進程的阻塞是常見原因之一。利用 eBPF 和 ftrace 這兩大工具,可以有效地追蹤不可中斷進程的阻塞鏈,精準定位系統(tǒng)卡頓的根源。通過編寫 eBPF 程序捕獲 D 狀態(tài)進程信息,再結(jié)合 ftrace 跟蹤內(nèi)核函數(shù)調(diào)用關(guān)系,運維人員能夠深入了解系統(tǒng)的運行情況,從而采取有效的優(yōu)化措施,提高系統(tǒng)的穩(wěn)定性和性能。