www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當(dāng)前位置:首頁 > 公眾號精選 > 程序喵大人
[導(dǎo)讀]前面我們重點分析了如何通過?fork,?vfork,?pthread_create?去創(chuàng)建一個進程或者線程,

前面我們重點分析了如何通過 fork, vfork, pthread_create 去創(chuàng)建一個進程或者線程,以及后面說了它們共同調(diào)用 do_fork 的實現(xiàn)。現(xiàn)在已經(jīng)知道一個進程是如何創(chuàng)建的,但是進程何時被執(zhí)行,需要調(diào)度器來選擇。所以這一節(jié)我們介紹下進程調(diào)度和進程切換的詳情。

進程的分類

在 CPU 的角度看進程行為的話,可以分為兩類:
  • CPU 消耗型:此類進程就是一直占用 CPU 計算,CPU 利用率很高
  • IO 消耗型:此類進程會涉及到 IO,需要和用戶交互,比如鍵盤輸入,占用 CPU 不是很高,只需要 CPU 的一部分計算,大多數(shù)時間是在等待 IO
CPU 消耗型進程需要高的吞吐率,IO 消耗型進程需要強的響應(yīng)性,這兩點都是調(diào)度器需要考慮的。
為了更快響應(yīng) IO 消耗型進程,內(nèi)核提供了一個搶占(preempt)機制,使優(yōu)先級更高的進程,去搶占優(yōu)先級低的進程運行。內(nèi)核用以下宏來選擇內(nèi)核是否打開搶占機制:
  • CONFIG_PREEMPT_NONE: 不打開搶占,主要是面向服務(wù)器。此配置下,CPU 在計算時,當(dāng)輸入鍵盤之后,因為沒有搶占,可能需要一段時間等待鍵盤輸入的進程才會被 CPU 調(diào)度。
  • CONFIG_PREEMPT : 打開搶占,一般多用于手機設(shè)備。此配置下,雖然會影響吞吐率,但可以及時響應(yīng)用戶的輸入操作。

調(diào)度相關(guān)的數(shù)據(jù)結(jié)構(gòu)

先來看幾個相關(guān)的數(shù)據(jù)結(jié)構(gòu):

task_struct

我們先把 task_struct 中和調(diào)度相關(guān)的結(jié)構(gòu)拎出來:
struct task_struct {
......
const struct sched_class *sched_class;
struct sched_entity se;
struct sched_rt_entity rt;
......
struct sched_dl_entity dl;
......
unsigned int policy;
......
}
  • struct sched_class:對調(diào)度器進行抽象,一共分為5類。
  1. Stop調(diào)度器:優(yōu)先級最高的調(diào)度類,可以搶占其他所有進程,不能被其他進程搶占;
  2. Deadline調(diào)度器:使用紅黑樹,把進程按照絕對截止期限進行排序,選擇最小進程進行調(diào)度運行;
  3. RT調(diào)度器:為每個優(yōu)先級維護一個隊列;
  4. CFS調(diào)度器:采用完全公平調(diào)度算法,引入虛擬運行時間概念;
  5. IDLE-Task調(diào)度器:每個CPU都會有一個idle線程,當(dāng)沒有其他進程可以調(diào)度時,調(diào)度運行idle線程;
  • unsigned int policy:進程的調(diào)度策略有6種,用戶可以調(diào)用調(diào)度器里的不同調(diào)度策略。
  1. SCHED_DEADLINE:使task選擇Deadline調(diào)度器來調(diào)度運行
  2. SCHED_RR:時間片輪轉(zhuǎn),進程用完時間片后加入優(yōu)先級對應(yīng)運行隊列的尾部,把CPU讓給同優(yōu)先級的其他進程;
  3. SCHED_FIFO:先進先出調(diào)度沒有時間片,沒有更高優(yōu)先級的情況下,只能等待主動讓出CPU;
  4. SCHED_NORMAL:使task選擇CFS調(diào)度器來調(diào)度運行;
  5. SCHED_BATCH:批量處理,使task選擇CFS調(diào)度器來調(diào)度運行;
  6. SCHED_IDLE:使task以最低優(yōu)先級選擇CFS調(diào)度器來調(diào)度運行;
  • struct sched_entity se:采用CFS算法調(diào)度的普通非實時進程的調(diào)度實體。
  • struct sched_rt_entity rt:采用Roound-Robin或者FIFO算法調(diào)度的實時調(diào)度實體。
  • struct sched_dl_entity dl:采用EDF算法調(diào)度的實時調(diào)度實體。
分配給 CPU 的 task,作為調(diào)度實體加入到運行隊列中。

runqueue 運行隊列

runqueue 運行隊列是本 CPU 上所有可運行進程的隊列集合。每個 CPU 都有一個運行隊列,每個運行隊列中有三個調(diào)度隊列,task 作為調(diào)度實體加入到各自的調(diào)度隊列中。
struct rq {
......
struct cfs_rq cfs;
struct rt_rq rt;
struct dl_rq dl;
......
}
三個調(diào)度隊列:
  • struct cfs_rq cfs:CFS調(diào)度隊列
  • struct rt_rq rt:RT調(diào)度隊列
  • struct dl_rq dl:DL調(diào)度隊列
  • cfs_rq:跟蹤就緒隊列信息以及管理就緒態(tài)調(diào)度實體,并維護一棵按照虛擬時間排序的紅黑樹。tasks_timeline->rb_root是紅黑樹的根,tasks_timeline->rb_leftmost指向紅黑樹中最左邊的調(diào)度實體,即虛擬時間最小的調(diào)度實體。
struct cfs_rq {
...
struct rb_root_cached tasks_timeline
...
};

  • sched_entity:可被內(nèi)核調(diào)度的實體。每個就緒態(tài)的調(diào)度實體sched_entity包含插入紅黑樹中使用的節(jié)點rb_node,同時vruntime成員記錄已經(jīng)運行的虛擬時間。
struct sched_entity {
...
struct rb_node run_node;
...
u64          vruntime;
...
};
這些數(shù)據(jù)結(jié)構(gòu)的關(guān)系如下圖所示:

調(diào)度時刻

調(diào)度的本質(zhì)就是選擇下一個進程,然后切換。在執(zhí)行調(diào)度之前需要設(shè)置調(diào)度標(biāo)記 TIF_NEED_RESCHED,然后在調(diào)度的時候會判斷當(dāng)前進程有沒有被設(shè)置 TIF_NEED_RESCHED,如果設(shè)置則調(diào)用函數(shù) schedule 來進行調(diào)度。

1. 設(shè)置調(diào)度標(biāo)記

為 CPU 上正在運行的進程 thread_info 結(jié)構(gòu)體里的 flags 成員設(shè)置 TIF_NEED_RESCHED。
那么,什么時候設(shè)置TIF_NEED_RESCHED呢 ?
  1. scheduler_tick 時鐘中斷
  1. wake_up_process 喚醒進程的時候
  1. do_fork 創(chuàng)建新進程的時候
  1. set_user_nice 修改進程nice值的時候
  1. smp_send_reschedule 負(fù)載均衡的時候

2. 執(zhí)行調(diào)度

Kernel 判斷當(dāng)前進程標(biāo)記是否為 TIF_NEED_RESCHED,是的話調(diào)用 schedule 函數(shù),執(zhí)行調(diào)度,切換上下文,這也是上面搶占(preempt)機制的本質(zhì)。那么在哪些情況下會執(zhí)行 schedule 呢?
  1. 用戶態(tài)搶占
ret_to_user 是異常觸發(fā),系統(tǒng)調(diào)用,中斷處理完成后都會調(diào)用的函數(shù)。
  1. 內(nèi)核態(tài)搶占

可以看出無論是用戶態(tài)搶占,還是內(nèi)核態(tài)搶占,最終都會調(diào)用 schedule 函數(shù)來執(zhí)行真正的調(diào)度:

還記得調(diào)度的本質(zhì)嗎?調(diào)度的本質(zhì)就是選擇下一個進程,然后切換。如上圖所示,用函數(shù) pick_next_task 選擇下一個進程,其本質(zhì)就是調(diào)度算法的實現(xiàn);用函數(shù) context_switch 完成進程的切換,即進程上下文的切換。下面我們分別看下這兩個核心功能。

調(diào)度算法

字段 版本
O(n) 調(diào)度器 linux0.11 - 2.4
O(1) 調(diào)度器 linux2.6
CFS調(diào)度器 linux2.6至今

O(n)

O(n) 調(diào)度器是在內(nèi)核2.4以及更早期版本采用的算法,O(n) 代表的是尋找一個合適的任務(wù)的時間復(fù)雜度。調(diào)度器定義了一個 runqueue 的運行隊列,將進程的狀態(tài)變?yōu)?Running 的都會添加到此運行隊列中,但是不管是實時進程,還是普通進程都會添加到這個運行隊列中。當(dāng)需要從運行隊列中選擇一個合適的任務(wù)時,就需要從隊列的頭遍歷到尾部,這個時間復(fù)雜度是O(n),運行隊列中的任務(wù)數(shù)目越大,調(diào)度器的效率就越低。

所以 O(n) 調(diào)度器有如下缺陷:

  • 時間復(fù)雜度是 O(n),運行隊列中的任務(wù)數(shù)目越大,調(diào)度器的效率就越低。
  • 實時進程不能及時調(diào)度,因為實時進程和普通進程在一個列表中,每次查實時進程時,都需要全部掃描整個列表,所以實時進程不是很“實時”。
  • SMP 系統(tǒng)不好,因為只有一個 runqueue,選擇下一個任務(wù)時,需要對這個 runqueue 隊列進行加鎖操作,當(dāng)任務(wù)較多的時候,則在臨界區(qū)的時間就比較長,導(dǎo)致其余的 CPU 自旋浪費。
  • CPU空轉(zhuǎn)的現(xiàn)象存在,因為系統(tǒng)中只有一個runqueue,當(dāng)運行隊列中的任務(wù)少于 CPU 的個數(shù)時,其余的 CPU 則是 idle 狀態(tài)。

O(1)

內(nèi)核2.6采用了O(1) 調(diào)度器,讓每個 CPU 維護一個自己的 runqueue,從而減少了鎖的競爭。每一個runqueue 運行隊列維護兩個鏈表,一個是 active 鏈表,表示運行的進程都掛載 active 鏈表中;一個是 expired 鏈表,表示所有時間片用完的進程都掛載 expired 鏈表中。當(dāng) acitve 中無進程可運行時,說明系統(tǒng)中所有進程的時間片都已經(jīng)耗光,這時候則只需要調(diào)整 active 和 expired 的指針即可。每個優(yōu)先級數(shù)組包含140個優(yōu)先級隊列,也就是每個優(yōu)先級對應(yīng)一個隊列,其中前100個對應(yīng)實時進程,后40個對應(yīng)普通進程。如下圖所示:

總的來說 O(1) 調(diào)度器的出現(xiàn)是為了解決 O(n) 調(diào)度器不能解決的問題,但 O(1) 調(diào)度器有個問題,一個高優(yōu)先級多線程的應(yīng)用會比低優(yōu)先級單線程的應(yīng)用獲得更多的資源,這就會導(dǎo)致一個調(diào)度周期內(nèi),低優(yōu)先級的應(yīng)用可能一直無法響應(yīng),直到高優(yōu)先級應(yīng)用結(jié)束。CFS調(diào)度器就是站在一視同仁的角度解決了這個問題,保證在一個調(diào)度周期內(nèi)每個任務(wù)都有執(zhí)行的機會,執(zhí)行時間的長短,取決于任務(wù)的權(quán)重。下面詳細(xì)看下CFS調(diào)度器是如何動態(tài)調(diào)整任務(wù)的運行時間,達到公平調(diào)度的。

CFS 調(diào)度器

CFS是 Completely Fair Scheduler 簡稱,即完全公平調(diào)度器。CFS 調(diào)度器和以往的調(diào)度器不同之處在于沒有固定時間片的概念,而是公平分配 CPU 使用的時間。比如:2個優(yōu)先級相同的任務(wù)在一個 CPU 上運行,那么每個任務(wù)都將會分配一半的 CPU 運行時間,這就是要實現(xiàn)的公平。
但現(xiàn)實中,必然是有的任務(wù)優(yōu)先級高,有的任務(wù)優(yōu)先級低。CFS 調(diào)度器引入權(quán)重 weight 的概念,用 weight 代表任務(wù)的優(yōu)先級,各個任務(wù)按照 weight 的比例分配 CPU 的時間。比如:2個任務(wù)A和B,A的權(quán)重是1024,B的權(quán)重是2048,則A占 1024/(1024 2048) = 33.3% 的 CPU 時間,B占 2048/(1024 2048)=66.7% 的 CPU 時間。
在引入權(quán)重之后,分配給進程的時間計算公式如下:
實際運行時間 = 調(diào)度周期 * 進程權(quán)重 / 所有進程權(quán)重之和
CFS 調(diào)度器用nice值表示優(yōu)先級,取值范圍是[-20, 19],nice和權(quán)重是一一對應(yīng)的關(guān)系。數(shù)值越小代表優(yōu)先級越大,同時也意味著權(quán)重值越大,nice值和權(quán)重之間的轉(zhuǎn)換關(guān)系:
const int sched_prio_to_weight[40] = {
/* -20 */ 88761, 71755, 56483, 46273, 36291,
/* -15 */ 29154, 23254, 18705, 14949, 11916,
/* -10 */ 9548, 7620, 6100, 4904, 3906,
/*  -5 */ 3121, 2501, 1991, 1586, 1277,
/*   0 */ 1024, 820, 655, 526, 423,
/*   5 */ 335, 272, 215, 172, 137,
/*  10 */ 110, 87, 70, 56, 45,
/*  15 */ 36, 29, 23, 18, 15,
};
數(shù)組值計算公式是:weight = 1024 / 1.25nice。

調(diào)度周期

如果一個 CPU 上有 N 個優(yōu)先級相同的進程,那么每個進程會得到 1/N 的執(zhí)行機會,每個進程執(zhí)行一段時間后,就被調(diào)出,換下一個進程執(zhí)行。如果這個 N 的數(shù)量太大,導(dǎo)致每個進程執(zhí)行的時間很短,就要調(diào)度出去,那么系統(tǒng)的資源就消耗在進程上下文切換上去了。
所以對于此問題在 CFS 中則引入了調(diào)度周期,使進程至少保證執(zhí)行0.75ms。調(diào)度周期的計算通過如下代碼:
static u64 __sched_period(unsigned long nr_running)
{
if (unlikely(nr_running > sched_nr_latency))
return nr_running * sysctl_sched_min_granularity;
else
return sysctl_sched_latency;
}

static unsigned int sched_nr_latency = 8;
unsigned int sysctl_sched_latency   = 6000000ULL;
unsigned int sysctl_sched_min_granularity   = 750000ULL;
當(dāng)進程數(shù)目小于8時,則調(diào)度周期等于6ms。當(dāng)進程數(shù)目大于8時,則調(diào)度周期等于進程的數(shù)目乘以0.75ms。

虛擬運行時間

根據(jù)上面進程實際運行時間的公式,可以看出,權(quán)重不同的2個進程的實際執(zhí)行時間是不相等的,但是 CFS 想保證每個進程運行時間相等,因此 CFS 引入了虛擬時間的概念。虛擬時間(vriture_runtime)和實際時間(wall_time)轉(zhuǎn)換公式如下:
vriture_runtime = (wall_time * NICE0_TO_weight) / weight
其中,NICE0_TO_weight 代表的是 nice 值等于0對應(yīng)的權(quán)重,即1024,weight 是該任務(wù)對應(yīng)的權(quán)重。
權(quán)重越大的進程獲得的虛擬運行時間越小,那么它將被調(diào)度器所調(diào)度的機會就越大,所以,CFS 每次調(diào)度原則是:總是選擇 vriture_runtime 最小的任務(wù)來調(diào)度。
為了能夠快速找到虛擬運行時間最小的進程,Linux 內(nèi)核使用紅黑樹來保存可運行的進程。CFS跟蹤調(diào)度實體sched_entity的虛擬運行時間vruntime,將sched_entity通過enqueue_entity()和dequeue_entity()來進行紅黑樹的出隊入隊,vruntime少的調(diào)度實體sched_entity排列到紅黑樹的左邊。

如上圖所示,紅黑樹的左節(jié)點比父節(jié)點小,而右節(jié)點比父節(jié)點大。所以查找最小節(jié)點時,只需要獲取紅黑樹的最左節(jié)點即可。

相關(guān)步驟如下:
  1. 每個sched_latency周期內(nèi),根據(jù)各個任務(wù)的權(quán)重值,可以計算出運行時間runtime;
  2. 運行時間runtime可以轉(zhuǎn)換成虛擬運行時間vruntime;
  3. 根據(jù)虛擬運行時間的大小,插入到CFS紅黑樹中,虛擬運行時間少的調(diào)度實體放置到左邊;
  1. 下一次任務(wù)調(diào)度的時候,選擇虛擬運行時間少的調(diào)度實體來運行。pick_next_task 函數(shù)就是從從就緒隊列中選擇最適合運行的調(diào)度實體,即虛擬時間最小的調(diào)度實體,下面我們看下 CFS 調(diào)度器如何通過 pick_next_task 的回調(diào)函數(shù) pick_next_task_fair 來選擇下一個進程的。

選擇下一個進程

pick_next_task_fair 會判斷上一個 task 的調(diào)度器是否是 CFS,這里我們默認(rèn)都是 CFS 調(diào)度:

update_curr

update_curr 函數(shù)用來更新當(dāng)前進程的運行時間信息:
static void update_curr(struct cfs_rq *cfs_rq)
{
struct sched_entity *curr = cfs_rq->curr;
u64 now = rq_clock_task(rq_of(cfs_rq));
u64 delta_exec;
if (unlikely(!curr))
return;
delta_exec = now - curr->exec_start;                  ------(1)
if (unlikely((s64)delta_exec <= 0))
return;
curr->exec_start = now;                               ------(2)
schedstat_set(curr->statistics.exec_max,
max(delta_exec, curr->statistics.exec_max));
curr->sum_exec_runtime  = delta_exec;                 ------(3)
schedstat_add(cfs_rq->exec_clock, delta_exec);
curr->vruntime  = calc_delta_fair(delta_exec, curr);  ------(4)
update_min_vruntime(cfs_rq);                          ------(5)
account_cfs_rq_runtime(cfs_rq, delta_exec);
}
  1. delta_exec = now - curr->exec_start;  計算出當(dāng)前CFS運行隊列的進程,距離上次更新虛擬時間的差值
  2. curr->exec_start = now;  更新exec_start的值
  3. curr->sum_exec_runtime = delta_exec; 更新當(dāng)前進程總共執(zhí)行的時間
  4. 通過 calc_delta_fair 計算當(dāng)前進程虛擬時間
  5. 通過 update_min_vruntime 函數(shù)來更新CFS運行隊列中最小的 vruntime 的值

pick_next_entity

pick_next_entity 函數(shù)會從就緒隊列中選擇最適合運行的調(diào)度實體(虛擬時間最小的調(diào)度實體),即從 CFS 紅黑樹最左邊節(jié)點獲取一個調(diào)度實體。
static struct sched_entity *
pick_next_entity(struct cfs_rq *cfs_rq, struct sched_entity *curr)
{
struct sched_entity *left = __pick_first_entity(cfs_rq); ------(1)
struct sched_entity *se;

/*
* If curr is set we have to see if its left of the leftmost entity
* still in the tree, provided there was anything in the tree at all.
*/

if (!left || (curr

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉