1. 前言
Linux
內(nèi)核網(wǎng)絡(luò) UDP 協(xié)議層通過(guò)調(diào)用?
ip_send_skb
?將 skb 交給 IP 協(xié)議層,本文通過(guò)分析內(nèi)核 IP 協(xié)議層的關(guān)鍵函數(shù)來(lái)分享內(nèi)核
數(shù)據(jù)包發(fā)送在 IP 協(xié)議層的處理,并分享了監(jiān)控IP層的方法。
2.?ip_send_skb
ip_send_skb
?函數(shù)定義在 net/ipv4/ip_output.c 中,非常簡(jiǎn)短。它只是調(diào)用
ip_local_out
,如果調(diào)用失敗,就更新相應(yīng)的錯(cuò)誤計(jì)數(shù):
int ip_send_skb(struct net *net, struct sk_buff *skb)
{
int err;
err = ip_local_out(skb);
if (err) {
if (err > 0)
err = net_xmit_errno(err);
if (err)
IP_INC_STATS(net, IPSTATS_MIB_OUTDISCARDS);
}
return err;
}
net_xmit_errno
?函數(shù)將低層錯(cuò)誤轉(zhuǎn)換為 IP 和 UDP 協(xié)議層所能理解的錯(cuò)誤。如果發(fā)生錯(cuò)誤, IP 協(xié)議計(jì)數(shù)器?
OutDiscards
?會(huì)遞增。稍后我們將看到讀取哪些文件可以獲取此統(tǒng)計(jì)信息。接下來(lái)看?
ip_local_out
。
3.?ip_local_out
?and?__ip_local_out
ip_local_out
?和
__ip_local_out
?都很簡(jiǎn)單。
ip_local_out
?只需調(diào)用
__ip_local_out
,如果返回值為 1,則調(diào)用路由層?
dst_output
?發(fā)送數(shù)據(jù)包:
int ip_local_out(struct sk_buff *skb)
{
int err;
err = __ip_local_out(skb);
if (likely(err == 1))
err = dst_output(skb);
return err;
}
接下來(lái)看
__ip_local_out
?的代碼:
int __ip_local_out(struct sk_buff *skb)
{
struct iphdr *iph = ip_hdr(skb);
iph->tot_len = htons(skb->len);
ip_send_check(iph);
return nf_hook(NFPROTO_IPV4, NF_INET_LOCAL_OUT, skb, NULL,
skb_dst(skb)->dev, dst_output);
}
可以看到,該函數(shù)首先做了兩件重要的事情:
- 設(shè)置 IP 數(shù)據(jù)包的長(zhǎng)度
- 調(diào)用?
ip_send_check
?來(lái)計(jì)算要寫入 IP 頭的校驗(yàn)和。ip_send_check
?函數(shù)將進(jìn)一步調(diào)用名為?ip_fast_csum
?的函數(shù)來(lái)計(jì)算校驗(yàn)和。在 x86 和 x86_64 體系結(jié)構(gòu)上,此函數(shù)用匯編實(shí) 現(xiàn)。
接下來(lái),IP 協(xié)議層將通過(guò)調(diào)用?
nf_hook
?進(jìn)入 netfilter,其返回值將傳遞回?
ip_local_out
?。如果?
nf_hook
?返回 1,則表示允許數(shù)據(jù)包通過(guò),并且調(diào)用者應(yīng)該自己發(fā)送數(shù)據(jù)包。這正是我們?cè)谏厦婵吹降那闆r:
ip_local_out
?檢查返回值 1 時(shí),自己通過(guò)調(diào)用?
dst_output
?發(fā)送數(shù)據(jù)包。
3.1 netfilter and nf_hook
nf_hook
?只是一個(gè) wrapper,它調(diào)用?
nf_hook_thresh
,首先檢查是否有為這個(gè)
協(xié)議族和
hook 類型(這里分別為?
NFPROTO_IPV4
?和?
NF_INET_LOCAL_OUT
)安裝的過(guò)濾器,然后將返回到 IP 協(xié)議層,避免深入到 netfilter 或更下面,比如 iptables 和 conntrack。如果有非常多或者非常復(fù)雜的 netfilter 或 iptables 規(guī)則,那些規(guī)則將在觸發(fā)?
sendmsg
?系統(tǒng)調(diào)的用戶進(jìn)程的上下文中執(zhí)行。如果對(duì)這個(gè)用戶進(jìn)程設(shè)置了 CPU 親和性,相應(yīng)的 CPU 將花費(fèi)系統(tǒng)時(shí)間(system time)處理出站(outbound)iptables 規(guī)則。如果做性能回歸測(cè)試,那可能要考慮根據(jù)系統(tǒng)的負(fù)載,將相應(yīng)的用戶進(jìn)程綁到到特定的 CPU,或者是減少 netfilter/iptables 規(guī)則的復(fù)雜度,以減少對(duì)性能測(cè)試的影響。出于討論目的,我們假設(shè)?
nf_hook
?返回 1,表示調(diào)用者(在這種情況下是 IP 協(xié)議層)應(yīng)該自己發(fā)送數(shù)據(jù)包。
3.2 目的(路由)緩存
dst 代碼在 Linux
內(nèi)核中實(shí)現(xiàn)
協(xié)議無(wú)關(guān)的目標(biāo)緩存。為了繼續(xù)學(xué)習(xí)發(fā)送 UDP 數(shù)據(jù)報(bào)的流程 ,我們需要了解 dst 條目是如何被設(shè)置的,首先來(lái)看 dst 條目和路由是如何生成的。目標(biāo)緩存,路由和鄰居子系統(tǒng),任何一個(gè)都可以拿來(lái)單獨(dú)詳細(xì)的介紹。現(xiàn)在不深入細(xì)節(jié),只是快速地看一下它們是如何組合到一起的。上面看到的代碼調(diào)用了?
dst_output(skb)
。此函數(shù)只是查找關(guān)聯(lián)到這個(gè) skb 的 dst 條目 ,然后調(diào)用?
output
?方法。代碼如下:
/* Output packet to network from transport. */
static inline int dst_output(struct sk_buff *skb)
{
return skb_dst(skb)->output(skb);
}
看起來(lái)很簡(jiǎn)單,但是?
output
?方法之前是如何關(guān)聯(lián)到 dst 條目的?首先很重要的一點(diǎn),目標(biāo)緩存條目是以多種不同方式添加的。到目前為止,我們已經(jīng)在代碼中看到的一種方法是從?
udp_sendmsg
?調(diào)用
ip_route_output_flow
。
ip_route_output_flow
?函數(shù)調(diào)用?
__ip_route_output_key
?,后者進(jìn)而調(diào)用?
__mkroute_output
。?
__mkroute_output
?函數(shù)創(chuàng)建路由和目標(biāo)緩存條目。當(dāng)它執(zhí)行創(chuàng)建操作時(shí),它會(huì)判斷哪個(gè)?
output
?方法適合此 dst。大多數(shù)時(shí)候,這個(gè)函數(shù)是?
ip_output
。
4.?ip_output
在 UDP IPv4 情況下,上面的?
output
?方法指向的是?
ip_output
:
int ip_output(struct sk_buff *skb)
{
struct net_device *dev = skb_dst(skb)->dev;
IP_UPD_PO_STATS(dev_net(dev), IPSTATS_MIB_OUT, skb->len);
skb->dev = dev;
skb->protocol = htons(ETH_P_IP);
return NF_HOOK_COND(NFPROTO_IPV4, NF_INET_POST_ROUTING, skb, NULL, dev,
ip_finish_output,
!(IPCB(skb)->flags