level-ip之ip數(shù)據(jù)包接口剖析
閱讀本文需要對(duì)level-ip的整體架構(gòu)有所了解,如果讀者尚未接觸過level-ip,請(qǐng)先閱讀下面文章:
分享一款Linux平臺(tái)下的tcp協(xié)議棧!超級(jí)透徹!
level-ip之虛擬網(wǎng)卡接口封裝
level-ip之以太網(wǎng)數(shù)據(jù)接口封裝
請(qǐng)根據(jù)上述文章中的指引獲取leve-ip的全部源碼,并且嘗試在任意Linux發(fā)行版本上編譯運(yùn)行。
知識(shí)回顧
在前面的文章中,我們已經(jīng)介紹了以太網(wǎng)卡的封裝接口,其中主要是以下幾個(gè)接口:netdev_init():初始化網(wǎng)卡的ip地址、mac地址和mtu的值
netdev_receive():發(fā)送以太網(wǎng)幀數(shù)據(jù)
netdev_transmit():發(fā)送以太網(wǎng)幀數(shù)據(jù)
這幾個(gè)接口是我們封裝IP數(shù)據(jù)接口的基礎(chǔ),最好還是先搞明白原理。
網(wǎng)際協(xié)議(IP)介紹
IP是整個(gè)TCP/IP協(xié)議的核心,網(wǎng)絡(luò)層協(xié)議,如UDP和TCP都需要IP提供的服務(wù)。而像ICMP和IGMP等網(wǎng)絡(luò)層協(xié)議也基于IP協(xié)議來傳輸協(xié)議數(shù)據(jù)。如下圖:常見的廣域網(wǎng)路由器就工作在IP層,它們負(fù)責(zé)將IP數(shù)據(jù)報(bào)從源主機(jī)送到目的主機(jī),主機(jī)間的區(qū)分是通過IP地址來實(shí)現(xiàn)的。主機(jī)上的IP協(xié)議需要完成工作有非常多,最基本的就是數(shù)據(jù)報(bào)的發(fā)送和遞交,在特殊情況下它還要完成數(shù)據(jù)報(bào)的分片和重裝功能,有時(shí)候話要完成數(shù)據(jù)報(bào)的轉(zhuǎn)發(fā)等工作。
IP報(bào)文組織結(jié)構(gòu)
ip數(shù)據(jù)幀位于以太網(wǎng)數(shù)據(jù)幀的上一層,我們先來了解一下它的報(bào)文結(jié)構(gòu),如下圖:我們來詳細(xì)學(xué)習(xí)一下,里面每一個(gè)字段所代表的具體含義:
- 版本號(hào):IP協(xié)議版本信息,例如對(duì)于IPV4,該值為4,對(duì)于IPV6,該值為6
- 首部長度:以字為單位,對(duì)于不含任何選項(xiàng)字段的IP首部,該值為5。
- 服務(wù)類型字段:主要用來描述當(dāng)前IP數(shù)據(jù)報(bào)急需的服務(wù)類型,如最小延時(shí)、最大吞吐量、最高可靠性、最小費(fèi)用等等。路由器在轉(zhuǎn)發(fā)數(shù)據(jù)報(bào)時(shí),可以根據(jù)這個(gè)字段的值來為數(shù)據(jù)包選擇最合理的路由路徑。
- 總長度:描述了整個(gè)IP數(shù)據(jù)報(bào)的總字節(jié)數(shù)。理論上說,IP數(shù)據(jù)報(bào)的總長度最大可達(dá)65535字節(jié)。但是一般以太網(wǎng)底層鏈路允許的最長數(shù)據(jù)為1500字節(jié),因此當(dāng)IP數(shù)據(jù)包過大的時(shí)候,需要對(duì)IP進(jìn)行分片,然后目的主機(jī)要對(duì)IP報(bào)文重裝。
- 標(biāo)識(shí)字段:當(dāng)IP數(shù)據(jù)包發(fā)生分片時(shí),這個(gè)標(biāo)識(shí)記錄每個(gè)IP分片的序號(hào),目的主機(jī)需要根據(jù)這個(gè)字段對(duì)其進(jìn)行重裝。
- 標(biāo)志和分片偏移量:標(biāo)志該ip數(shù)據(jù)報(bào)在轉(zhuǎn)發(fā)過程是否允許分片以及是否是最后一個(gè)分片。分片偏移量記錄該分片ip數(shù)據(jù)報(bào)在整個(gè)數(shù)據(jù)報(bào)中的相對(duì)位置。
- 生存時(shí)間(TTL):表示該IP數(shù)據(jù)報(bào)最多能被轉(zhuǎn)發(fā)的次數(shù),每轉(zhuǎn)發(fā)一次,該值減1。
- 協(xié)議:表示該ip數(shù)據(jù)報(bào)中的數(shù)據(jù)來自哪個(gè)上層協(xié)議。
- 首部校驗(yàn)和:針對(duì)ip首部做校驗(yàn)。
- 源IP地址:本地主機(jī)ip
- 目的IP地址:待接受數(shù)據(jù)的主機(jī)ip
- 數(shù)據(jù)區(qū):非必需,不同的上層協(xié)議會(huì)選擇性地使用該字段
構(gòu)造ip首部
接下來,我們使用結(jié)構(gòu)體來定義ip數(shù)據(jù)首部,該結(jié)構(gòu)體定義在level-ip的include/ip.h文件中:這兩個(gè)結(jié)構(gòu)體的成員變量,與我們剛才介紹的ARP報(bào)文的每個(gè)字段是一一對(duì)應(yīng)的,這里不再重復(fù)解析。
IP數(shù)據(jù)報(bào)發(fā)送接口
IP數(shù)據(jù)的發(fā)送接口ip_output,會(huì)被上一層傳輸層協(xié)議接口調(diào)用,如UDP、TCP、ICMP等。在level-ip中,該接口函數(shù)保存在src\ip_output.c文件中。如下圖:第6行:搜索路由表,找到合適的網(wǎng)卡來進(jìn)行ip數(shù)據(jù)的發(fā)送,發(fā)送的ip數(shù)據(jù)報(bào)需要與網(wǎng)卡處于同一網(wǎng)段。
第14行:把路由表中記錄的網(wǎng)卡設(shè)備記錄在sk_buff結(jié)構(gòu)體中,該結(jié)構(gòu)體負(fù)責(zé)網(wǎng)絡(luò)數(shù)據(jù)發(fā)送的全部過程。
第15行:把路由也記錄在sk_buff結(jié)構(gòu)體中。
第17行:把sk_buff結(jié)構(gòu)體中用來裝載數(shù)據(jù)的區(qū)域,預(yù)留出ip數(shù)據(jù)包的首部
第19~39行:填充ip數(shù)據(jù)包的首部
第40行:填充ip首部的校驗(yàn)信息
第42行:發(fā)送數(shù)據(jù)報(bào)出去,在dst_neigh_output()函數(shù)中,將進(jìn)一步調(diào)用以太網(wǎng)卡接口來進(jìn)行數(shù)據(jù)的發(fā)送。
我們進(jìn)一步來分析一下dst_neigh_output()函數(shù),在這里會(huì)把ip數(shù)據(jù)報(bào)和arp數(shù)據(jù)的發(fā)送聯(lián)合使用。如下圖:
第15行:從arp緩存表中查詢目標(biāo)ip對(duì)應(yīng)的以太網(wǎng)地址
第17~23行:如果arp緩存表記錄了該ip地址對(duì)應(yīng)的以太網(wǎng)地址,那么直接調(diào)用以太網(wǎng)數(shù)據(jù)包發(fā)送接口來進(jìn)行數(shù)據(jù)發(fā)送。反之則調(diào)用arp查詢接口,廣播發(fā)送arp幀。
ip數(shù)據(jù)報(bào)接收接口
ip數(shù)據(jù)接收接口為ip_rcv()函數(shù)。該函數(shù)在以太網(wǎng)數(shù)據(jù)幀讀取接口netdev_receive()函數(shù)中調(diào)用。該函數(shù)保存在src\ip_input.c文件中,我們來了解一下這個(gè)函數(shù),如下圖:第3行:從sk_buff中讀取ip首部信息
第6行:判斷ip協(xié)議版本是否為ipv4,此處只支持ipv4
第7行:判斷ip的首部的字節(jié)長度是否小于5字節(jié)
第16行,如果ip數(shù)據(jù)報(bào)的生存時(shí)間為0,說明已被廢棄,不再處理
第22行:檢查ip首部的檢驗(yàn)。
第31行:把ip地址等字段進(jìn)行小端轉(zhuǎn)換
第35~45行:判斷該ip協(xié)議的上層類型為ICMP還是TCP,轉(zhuǎn)交數(shù)據(jù)包給上層即可。
總結(jié)
通過我們這邊文章,我們已經(jīng)明白了IP協(xié)議的報(bào)文結(jié)構(gòu)、ip數(shù)據(jù)包的發(fā)送、IP數(shù)據(jù)包的接收處理等等。從接收函數(shù)的分析過程可知,level-ip并不支持ip數(shù)據(jù)包的分片和重裝,因此也就無法支持UDP協(xié)議進(jìn)行大數(shù)據(jù)報(bào)的發(fā)送。