【原創】（五）Linux程序排程-CFS排程器

阿新 • • 發佈：2020-03-15

# 背景 - `Read the fucking source code!` --By 魯迅 - `A picture is worth a thousand words.` --By 高爾基說明： 1. Kernel版本：4.14 2. ARM64處理器，Contex-A53，雙核 3. 使用工具：Source Insight 3.5， Visio # 1. 概述 - `Completely Fair Scheduler`，完全公平排程器，用於Linux系統中普通程序的排程。 - `CFS`採用了紅黑樹演算法來管理所有的排程實體`sched_entity`，演算法效率為`O(log(n))`。`CFS`跟蹤排程實體`sched_entity`的虛擬執行時間`vruntime`，平等對待執行佇列中的排程實體`sched_entity`，將執行時間少的排程實體`sched_entity`排列到紅黑樹的左邊。 - 排程實體`sched_entity`通過`enqueue_entity()`和`dequeue_entity()`來進行紅黑樹的出隊入隊。老規矩，先上張圖片來直觀瞭解一下原理： ![](https://img2020.cnblogs.com/blog/1771657/202003/1771657-20200314235145194-204116226.png) - 每個`sched_latency`週期內，根據各個任務的權重值，可以計算出執行時間`runtime`； - 執行時間`runtime`可以轉換成虛擬執行時間`vruntime`； - 根據虛擬執行時間的大小，插入到CFS紅黑樹中，虛擬執行時間少的排程實體放置到左邊； - 在下一次任務排程的時候，選擇虛擬執行時間少的排程實體來執行；在開始本文之前，建議先閱讀下`（一）Linux程序排程器-基礎`。開始探索之旅！ # 2. 資料結構 ## 2.1 排程類 Linux核心抽象了一個排程類`struct sched_class`，這是一種典型的面向物件的設計思想，將共性的特徵抽象出來封裝成類，在例項化各個排程器的時候，可以根據具體的排程演算法來實現。這種方式做到了高內聚低耦合，同時又很容易擴充套件新的排程器。 ![](https://img2020.cnblogs.com/blog/1771657/202003/1771657-20200314235232449-1386087933.png) - 在排程核心程式碼`kernel/sched/core.c`中，使用的方式是`task->sched_class->xxx_func`，其中`task`表示的是描述任務的結構體`struct task_struck`，在該結構體中包含了任務所使用的排程器，進而能找到對應的函式指標來完成呼叫執行，有點類似於C++中的多型機制。 ## 2.2 rq/cfs_rq/task_struct/task_group/sched_entity - `struct rq`：每個CPU都有一個對應的執行佇列； - `struct cfs_rq`：CFS執行佇列，該結構中包含了`struct rb_root_cached`紅黑樹，用於連結排程實體`struct sched_entity`。`rq`執行佇列中對應了一個CFS執行佇列，此外，在`task_group`結構中也會為每個CPU再維護一個CFS執行佇列； - `struct task_struct`：任務的描述符，包含了程序的所有資訊，該結構中的`struct sched_entity`，用於參與CFS的排程； - `struct task_group`：組排程（參考前文），Linux支援將任務分組來對CPU資源進行分配管理，該結構中為系統中的每個CPU都分配了`struct sched_entity`排程實體和`struct cfs_rq`執行佇列，其中`struct sched_entity`用於參與CFS的排程； - `struct sched_entity`：排程實體，這個也是CFS排程管理的物件了；來一張圖看看它們之間的組織關係： ![](https://img2020.cnblogs.com/blog/1771657/202003/1771657-20200314235249852-1440735803.png) - `struct sched_entity`結構體欄位註釋如下： ```c struct sched_entity { /* For load-balancing: */ struct load_weight load; //排程實體的負載權重值 struct rb_node run_node; //用於連線到CFS執行佇列的紅黑樹中的節點 struct list_head group_node; //用於連線到CFS執行佇列的cfs_tasks連結串列中的節點 unsigned int on_rq; //用於表示是否在執行佇列中 u64 exec_start; //當前排程實體的開始執行時間 u64 sum_exec_runtime; //排程實體執行的總時間 u64 vruntime; //虛擬執行時間，這個時間用於在CFS執行佇列中排隊 u64 prev_sum_exec_runtime; //上一個排程實體執行的總時間 u64 nr_migrations; //負載均衡 struct sched_statistics statistics; //統計資訊 #ifdef CONFIG_FAIR_GROUP_SCHED int depth; //任務組的深度，其中根任務組的深度為0，逐級往下增加 struct sched_entity *parent; //指向排程實體的父物件 /* rq on which this entity is (to be) queued: */ struct cfs_rq *cfs_rq; //指向排程實體歸屬的CFS佇列，也就是需要入列的CFS佇列 /* rq "owned" by this entity/group: */ struct cfs_rq *my_q; //指向歸屬於當前排程實體的CFS佇列，用於包含子任務或子的任務組 #endif #ifdef CONFIG_SMP /* * Per entity load average tracking. * * Put into separate cache line so it does not * collide with read-mostly values above. */ struct sched_avg avg ____cacheline_aligned_in_smp; //用於排程實體的負載計算（`PELT`） #endif }; ``` - struct cfs_rq結構體的關鍵欄位註釋如下： ```c /* CFS-related fields in a runqueue */ struct cfs_rq { struct load_weight load; //CFS執行佇列的負載權重值 unsigned int nr_running, h_nr_running; //nr_running：執行的排程實體數（參與時間片計算） u64 exec_clock; //執行時間 u64 min_vruntime; //最少的虛擬執行時間，排程實體入隊出隊時需要進行增減處理 #ifndef CONFIG_64BIT u64 min_vruntime_copy; #endif struct rb_root_cached tasks_timeline; //紅黑樹，用於存放排程實體 /* * 'curr' points to currently running entity on this cfs_rq. * It is set to NULL otherwise (i.e when none are currently running). */ struct sched_entity *curr, *next, *last, *skip; //分別指向當前執行的排程實體、下一個排程的排程實體、CFS執行佇列中排最後的排程實體、跳過執行的排程實體 #ifdef CONFIG_SCHED_DEBUG unsigned int nr_spread_over; #endif #ifdef CONFIG_SMP /* * CFS load tracking */ struct sched_avg avg; //計算負載相關 u64 runnable_load_sum; unsigned long runnable_load_avg; //基於PELT的可執行平均負載 #ifdef CONFIG_FAIR_GROUP_SCHED unsigned long tg_load_avg_contrib; //任務組的負載貢獻 unsigned long propagate_avg; #endif atomic_long_t removed_load_avg, removed_util_avg; #ifndef CONFIG_64BIT u64 load_last_update_time_copy; #endif #ifdef CONFIG_FAIR_GROUP_SCHED /* * h_load = weight * f(tg) * * Where f(tg) is the recursive weight fraction assigned to * this group. */ unsigned long h_load; u64 last_h_load_update; struct sched_entity *h_load_next; #endif /* CONFIG_FAIR_GROUP_SCHED */ #endif /* CONFIG_SMP */ #ifdef CONFIG_FAIR_GROUP_SCHED struct rq *rq; /* cpu runqueue to which this cfs_rq is attached */ //指向CFS執行佇列所屬的CPU RQ執行佇列 /* * leaf cfs_rqs are those that hold tasks (lowest schedulable entity in * a hierarchy). Non-leaf lrqs hold other higher schedulable entities * (like users, containers etc.) * * leaf_cfs_rq_list ties together list of leaf cfs_rq's in a cpu. This * list is used during load balance. */ int on_list; struct list_head leaf_cfs_rq_list; struct task_group *tg; /* group that "owns" this runqueue */ //CFS執行佇列所屬的任務組 #ifdef CONFIG_CFS_BANDWIDTH int runtime_enabled; //CFS執行佇列中使用CFS頻寬控制 u64 runtime_expires; //到期的執行時間 s64 runtime_remaining; //剩餘的執行時間 u64 throttled_clock, throttled_clock_task; //限流時間相關 u64 throttled_clock_task_time; int throttled, throttle_count; //throttled：限流，throttle_count：CFS執行佇列限流次數 struct list_head throttled_list; //執行佇列限流連結串列節點，用於新增到cfs_bandwidth結構中的cfttle_cfs_rq連結串列中 #endif /* CONFIG_CFS_BANDWIDTH */ #endif /* CONFIG_FAIR_GROUP_SCHED */ }; ``` # 3. 流程分析整個流程分析，圍繞著`CFS排程類實體：fair_sched_class`中的關鍵函式來展開。先來看看`fair_sched_class`都包含了哪些函式： ```c /* * All the scheduling class methods: */ const struct sched_class fair_sched_class = { .next = &idle_sched_class, .enqueue_task = enqueue_task_fair, .dequeue_task = dequeue_task_fair, .yield_task = yield_task_fair, .yield_to_task = yield_to_task_fair, .check_preempt_curr = check_preempt_wakeup, .pick_next_task = pick_next_task_fair, .put_prev_task = put_prev_task_fair, #ifdef CONFIG_SMP .select_task_rq = select_task_rq_fair, .migrate_task_rq = migrate_task_rq_fair, .rq_online = rq_online_fair, .rq_offline = rq_offline_fair, .task_dead = task_dead_fair, .set_cpus_allowed = set_cpus_allowed_common, #endif .set_curr_task = set_curr_task_fair, .task_tick = task_tick_fair, .task_fork = task_fork_fair, .prio_changed = prio_changed_fair, .switched_from = switched_from_fair, .switched_to = switched_to_fair, .get_rr_interval = get_rr_interval_fair, .update_curr = update_curr_fair, #ifdef CONFIG_FAIR_GROUP_SCHED .task_change_group = task_change_group_fair, #endif }; ``` ## 3.1 runtime與vruntime CFS排程器沒有時間片的概念了，而是根據實際的執行時間和虛擬執行時間來對任務進行排序，從而選擇排程。那麼，執行時間和虛擬執行時間是怎麼計算的呢？看一下流程呼叫： ![](https://img2020.cnblogs.com/blog/1771657/202003/1771657-20200314235336124-91846660.png) - Linux核心預設的`sysctl_sched_latency`是6ms，這個值使用者態可設。`sched_period`用於保證可執行任務都能至少執行一次的時間間隔； - 當可執行任務大於8個的時候，`sched_period`的計算則需要根據任務個數乘以最小排程顆粒值，這個值系統預設為0.75ms； - 每個任務的執行時間計算，是用`sched_period`值，去乘以該任務在整個CFS執行佇列中的權重佔比； - 虛擬執行的時間 = 實際執行時間 * NICE_0_LOAD / 該任務的權重；還是來看一個例項吧，以5個Task為例，其中每個Task的`nice`值不一樣（優先順序不同），對應到的權重值在核心中提供了一個轉換陣列： ```c const int sched_prio_to_weight[40] = { /* -20 */ 88761, 71755, 56483, 46273, 36291, /* -15 */ 29154, 23254, 18705, 14949, 11916, /* -10 */ 9548, 7620, 6100, 4904, 3906, /* -5 */ 3121, 2501, 1991, 1586, 1277, /* 0 */ 1024, 820, 655, 526, 423, /* 5 */ 335, 272, 215, 172, 137, /* 10 */ 110, 87, 70, 56, 45, /* 15 */ 36, 29, 23, 18, 15, }; ``` 圖來了： ![](https://img2020.cnblogs.com/blog/1771657/202003/1771657-20200314235404514-1080589364.png) ## 3.2 CFS排程tick CFS排程器中的tick函式為`task_tick_fair`，系統中每個排程tick都會呼叫到，此外如果使用了`hrtimer`，也會呼叫到這個函式。流程如下： ![](https://img2020.cnblogs.com/blog/1771657/202003/1771657-20200314235418624-1811691775.png) 主要的工作包括： - 更新執行時的各類統計資訊，比如`vruntime`，執行時間、負載值、權重值等； - 檢查是否需要搶佔，主要是比較執行時間是否耗盡，以及`vruntime`的差值是否大於執行時間等；來一張圖，感受一下`update_curr`函式的相關資訊更新吧： ![](https://img2020.cnblogs.com/blog/1771657/202003/1771657-20200314235436775-1536215062.png) ## 3.3 任務出隊入隊 - 當任務進入可執行狀態時，需要將排程實體放入到紅黑樹中，完成入隊操作； - 當任務退出可執行狀態時，需要將排程實體從紅黑樹中移除，完成出隊操作； - CFS排程器，使用`enqueue_task_fair`函式將任務入隊到CFS佇列，使用`dequeue_task_fair`函式將任務從CFS佇列中出隊操作。 ![](https://img2020.cnblogs.com/blog/1771657/202003/1771657-20200314235453309-1613887161.png) - 出隊與入隊的操作中，核心的邏輯可以分成兩部分：1）更新執行時的資料，比如負載、權重、組排程的佔比等等；2）將sched_entity插入紅黑樹，或者從紅黑樹移除； - 由於`dequeue_task_fair`大體的邏輯類似，不再深入分析； - 這個過程中，涉及到了`CPU負載計算`、`task_group組排程`、`CFS Bandwidth頻寬控制`等，這些都在前邊的文章中分析過，可以結合進行理解； ## 3.3 任務建立在父程序通過`fork`建立子程序的時候，`task_fork_fair`函式會被呼叫，這個函式的傳入引數是子程序的`task_struct`。該函式的主要作用，就是確定子任務的`vruntime`，因此也能確定子任務的排程實體在紅黑樹RB中的位置。 `task_fork_fair`本身比較簡單，流程如下圖： ![](https://img2020.cnblogs.com/blog/1771657/202003/1771657-20200314235512671-756343968.png) ## 3.4 任務選擇每當程序任務切換的時候，也就是`schedule`函式執行時，排程器都需要選擇下一個將要執行的任務。在CFS排程器中，是通過`pick_next_task_fair`函式完成的，流程如下： ![](https://img2020.cnblogs.com/blog/1771657/202003/1771657-20200314235527658-222083399.png) - 當需要程序任務切換的時候，`pick_next_task_fair`函式的傳入引數中包含了需要被切換出去的任務，也就是`pre_task`； - 當`pre_task`不是普通程序時，也就是排程類不是CFS，那麼它就不使用`sched_entity`的排程實體來參與排程，因此會執行`simple`分支，通過`put_pre_task`函式來通知系統當前的任務需要被切換，而不是通過`put_prev_entity`函式來完成； - 當`pre_task`是普通程序時，呼叫`pick_next_entity`來選擇下一個執行的任務，這個選擇過程實際是有兩種情況：當排程實體對應task時，`do while()`遍歷一次，當排程實體對應`task_group`是，則需要遍歷任務組來選擇下一個執行的任務了。 - `put_prev_entity`，用於切換任務前的準備工作，更新執行時的統計資料，並不進行`dequeue`的操作，其中需要將CFS佇列的`curr`指標置位成NULL； - set_next_entity，用於設定下一個要執行的排程實體，設定CFS佇列的`curr`指標； - 如果使能了`hrtimer`，則將`hrtimer`的到期時間設定為排程實體的剩餘執行時間；暫且分析到這吧，CFS排程器涵蓋的內容還是挺多的，`fair.c`一個檔案就有將近一萬行程式碼，相關內容的分析也分散在前邊的文章中了，感興趣的可以去看看。打完收工，洗洗睡了。 ![](https://img2020.cnblogs.com/blog/1771657/202003/1771657-20200314235543748-584946

【原創】（五）Linux程序排程-CFS排程器

【原創】（五）Linux程序排程-CFS排程器

【原創】（一）Linux程序排程器-基礎

【原創】（二）Linux程序排程器-CPU負載

【原創】（三）Linux程序排程器-程序切換

【原創】（四）Linux程序排程-組排程及頻寬控制

【原創】（六）Linux程序排程-實時排程器

【原創】（三）Linux paging_init解析

【原創】（四）Linux記憶體模型之Sparse Memory Model

【原創】（六）Linux記憶體管理 - zoned page frame allocator - 1

【原創】（七）Linux記憶體管理 - zoned page frame allocator - 2

【原創】（八）Linux記憶體管理 - zoned page frame allocator - 3

【原創】（九）Linux記憶體管理 - zoned page frame allocator - 4

【原創】（十三）Linux記憶體管理之vma/malloc/mmap

【ElasticSearch】（五）“Result window is too large & 深度分頁”的利弊權衡

【ElasticSearch】（五）“Result window is too large & 深度分頁”的利弊權衡

【SpringCloud】（五）：服務註冊到Eureka Server

【原創】（十五）Linux記憶體管理之RMAP

【讀書筆記（五）】高效程序員的45個習慣

【原創】（十一）Linux記憶體管理slub分配器

【原創】（十二）Linux記憶體管理之vmap與vmalloc

【原創】（五）Linux程序排程-CFS排程器

相關推薦