宋寶華:為了不忘卻的紀(jì)念,評(píng)Linux 5.13內(nèi)核(上集)
- Apple M1的初始
- Misc cgroup
- Landlock安全模塊
- 系統(tǒng)調(diào)用的堆棧隨機(jī)化
Apple M1的初始支持
5.13最爆炸性的新聞無(wú)非是初始的Apple M1支持,但是然并卵,實(shí)用性幾乎為0。因?yàn)椋呀?jīng)合入的patch非常類似于SoC bringup的初級(jí)階段:
- 帶earlycon支持的UART (samsung-style) 串口驅(qū)動(dòng)
- Apple中斷控制器,支持中斷、中斷親和(affinity )和IPI (跨CPU中斷)
- SMP (通過(guò)標(biāo)準(zhǔn)spin-table來(lái)支持)
- 基于simplefb的framebuffer驅(qū)動(dòng)
- Mac Mini的設(shè)備樹
Misc cgroup眾所周知,cgroup具備一個(gè)強(qiáng)大的控制CPU、內(nèi)存、I/O等資源在不同的任務(wù)群間進(jìn)行分配的能力。比如,你通過(guò)下面的命令,限制A這個(gè)群的CFS調(diào)度類進(jìn)程,最多只能耗費(fèi)20%的CPU:這個(gè)世界上的絕大多數(shù)資源都是可以進(jìn)行抽象的,比如屬于cpuacct、cpu、memory、blkio、net_cls什么的,但是,總有一些不同于常人的人,他們既不是男人,也不是女人,而是“妖如果有了仁慈的心”的人。Linux內(nèi)核的驅(qū)動(dòng)子系統(tǒng)多達(dá)100多個(gè),但是還是有極個(gè)別驅(qū)動(dòng)不屬于這100多類中的任何一類,于是在drivers下面有個(gè)misc:現(xiàn)在內(nèi)核碰到了類似的問(wèn)題,它的資源要進(jìn)行配額控制,但是不屬于通用的類型,而是:
- Secure?Encrypted Virtualization (SEV) ASIDs
- SEV - Encrypted State (SEV-ES)?ASIDs
- misc.capacity描述資源的能力(只讀),比如:
$ cat misc.capacity
res_a 50
res_b 10
- 透過(guò)misc.current描述當(dāng)前資源的占用(只讀),比如:
$ cat misc.current
res_a 3
res_b 0
- 透過(guò)misc.max設(shè)置這個(gè)cgroup最多只能使用多少資源(可讀可寫),比如:
# echo res_a 1 > misc.max
同志們,有了這個(gè)misc cgroup的支持,以后咱們的阿貓阿狗資源限制,也可以往里面塞了。它相當(dāng)于開了一道門。?Landlock安全模塊曾經(jīng)有一個(gè)真誠(chéng)的patch擺在我面前,但是我沒(méi)有珍惜,發(fā)了V1被人懟了后就放棄了,等到失去的時(shí)候才后悔莫及,塵世間最痛苦的事莫過(guò)于此,如果上天可以給我一個(gè)機(jī)會(huì)再來(lái)一次的話,我會(huì)對(duì)那個(gè)patch說(shuō)我要繼續(xù)迭代發(fā)!如果非要在這個(gè)迭代的次數(shù)上加上一個(gè)期限,我希望是一百遍。5.13內(nèi)核,最勵(lì)志的事情無(wú)疑是,"Landlock" Lands In Linux 5.13 !在迭代了超過(guò)5年之后,安全組件landlock終于合入了Linux內(nèi)核,這份始于2016年的愛情,終于有了一個(gè)美好的結(jié)局。為此,Linux內(nèi)核doc的維護(hù)者,LDD3的作者之一Jonathan Corbet發(fā)文指出:Kernel development is not for people who lack persistence; changes can take a number of revisions and a lot of time to make it into a mainline release。文章鏈接:https://lwn.net/Articles/859908/所以,沒(méi)有耐力、不能持之以恒,想一夜暴富的人,真地不適合做kernel開發(fā)。Landlock LSM主要給非特權(quán)進(jìn)程提供安全沙盒的能力,比如你可以對(duì)一個(gè)普通進(jìn)程,施加自定義的文件系統(tǒng)訪問(wèn)控制策略。它的操作原理是,先創(chuàng)建一個(gè)規(guī)則集ruleset,比如,如下的ruleset就是涉及到文件的讀、寫、執(zhí)、讀DIR、寫DIR等:ruleset對(duì)用戶以文件描述符fd的形式存在,再次證明了“一切都是文件”。接下來(lái),我們可以透過(guò)這個(gè)fd,向這個(gè)ruleset里面添加rule,比如我們添加一個(gè)/usr目錄的“讀”規(guī)則,這樣進(jìn)程就不能寫/usr了:我們把這個(gè)ruleset施加起來(lái)讓它生效:想要體驗(yàn)的童鞋可以用這個(gè)例子啟動(dòng)你的進(jìn)程,它設(shè)置好ruleset后,會(huì)去call exec啟動(dòng)命令行參數(shù)指定的程序:https://github.com/landlock-lsm/linux/blob/landlock-v34/samples/landlock/sandboxer.cLL_FS_RO環(huán)境變量是可讀文件的列表,LL_FS_RW環(huán)境變量是可讀寫文件的列表,運(yùn)行方法:
LL_FS_RO=”只讀路徑”?\
LL_FS_RW=”可寫路徑”?\
sandboxer??./a.out
a.out是你的想要安全沙盒的程序。在下已經(jīng)一睹為快,在/home/baohua下面創(chuàng)建2個(gè)目錄1,2,然后創(chuàng)建/home/baohua/1/1和/home/baohua/2/1這2個(gè)文件,限制第一個(gè)目錄只讀:童鞋們看明白了嗎?我用sandboxer去啟動(dòng)cat,2個(gè)文件都是成功的。但是,去啟動(dòng)echo,/home/baohua/1/1是不允許寫的,但是/home/baohua/2/1是可以寫的。實(shí)際上,/home/baohua/1/1和/home/baohua/2/1并沒(méi)有絲毫的不同。landlock在發(fā)揮作用了!
系統(tǒng)調(diào)用的堆棧隨機(jī)化這是一項(xiàng)安全增強(qiáng),它允許對(duì)系統(tǒng)調(diào)用發(fā)生時(shí),內(nèi)核使用的堆棧添加一個(gè)隨機(jī)偏移。這給基于stack的攻擊增加了難度,因?yàn)?span>stack攻擊通常要求stack有個(gè)固定的layout?,F(xiàn)在每次系統(tǒng)調(diào)用,stack的layout都變化的話,黑客就比較捉摸不定了。比如ARM64主要修改了invoke_syscall()這個(gè)函數(shù):這個(gè)東西聽起來(lái)很高大上,但是它的原理可能簡(jiǎn)單地你想哭,show me the code:它實(shí)際上就是每次系統(tǒng)調(diào)用把offset隨機(jī)化一下,然后通過(guò)__builtin_alloca()從stack里面分配一些stack空間,于是導(dǎo)致stack的位置移動(dòng)。我們可以寫個(gè)非常簡(jiǎn)單的應(yīng)用程序來(lái)驗(yàn)證原理:然后編譯
gcc 1.c -fno-stack-protector -O0
運(yùn)行:親愛的,你有沒(méi)有發(fā)現(xiàn),10次函數(shù)調(diào)用的時(shí)候,每次stack臨時(shí)變量的位置都不一樣?。??本文未完待續(xù),您的贊賞將鼓勵(lì)我的原創(chuàng)