1 上下文切换里发生了什么，以及为何频繁切换会伤性能

本文从 操作系统与硬件协同 的角度说明：上下文切换（context switch） 时内核与 CPU 做了哪些事、对 延迟、吞吐、缓存与 TLB 有什么影响，以及为什么高频切换会成为性能杀手。讨论以 Linux 在典型 SMP + MMU 架构 为主（x86-64 / ARM64 思路通用），细节随架构与内核版本略有差异。

1.1 术语先对齐：我们在说哪种「上下文」

线程上下文切换：同一进程内不同 task（线程） 切换；通常 不换地址空间（仍同一 mm_struct），成本相对低。
进程上下文切换（跨进程）：不同进程切换；常需 切换页表（地址空间），并伴随 TLB/缓存 相关代价，成本通常更高。
自愿切换 vs 被迫切换：线程因阻塞（锁、IO、sleep）主动让出 CPU；或因 时间片耗尽、更高优先级抢占 被调度器换下。

下文「上下文切换」若无特别声明，指 调度器选中另一个 runnable task 并真正执行切换 的路径。

1.2 一次上下文切换：宏观上谁在做主语

调度器（如 Linux CFS）在适当时机选出 下一个 要运行的 task_struct。
context_switch()（内核概念路径）负责：
- 切换内存描述（若 prev->mm != next->mm 或内核线程等特殊情况）；
- 切换处理器可见的「硬件上下文」（寄存器、栈指针、可能 PC/ELR 等）到下一个线程。

要点：上下文切换不是「只改几个变量」；它涉及 保存旧执行现场、恢复新执行现场、可能与地址空间相关的硬件状态更新。

1.3 内核软件路径上「做了哪些事情」（逻辑顺序）

以下按教学顺序罗列；真实内核中函数名与拆分因版本/架构不同，但责任块稳定。

1.3.1 保存即将被换下线程的执行现场

通用寄存器：调用约定规定的 callee-saved 与需要由切换代码保存的寄存器集合（架构相关）。
程序计数 / 返回地址：使得新线程被调度回来后能从正确指令继续；在 Linux 上常与 switch_to 汇编桩 配合，把「切走点」编成 schedule() 返回路径` 的一部分。
内核栈指针：每个 task_struct 关联 内核栈；切换必须换栈，否则返回会进错栈帧。
浮点 / SIMD / 向量寄存器：常见策略是 惰性保存（lazy FPU）——不每次切换都保存整组向量寄存器，直到某线程实际使用 FPU 再与硬件/内核逻辑同步；降低平均切换成本，但会在「首次使用 FPU」路径上付一次账。

1.3.2 若发生进程级切换：切换地址空间

切换页表基址（x86：CR3；ARM：TTBR0/TTBR1 等，视用户/内核划分）到 下一个进程的页表。
TLB 处理：
- 朴素模型下可能 刷 TLB 或大量失效条目 → 后续访存 TLB miss 上升。
- 现代 CPU 常用 PCID / ASID 等标签，使部分场景下可减少全局刷；是否刷、刷多少高度依赖架构与内核实现。
其他 per-mm 状态：如内存域统计、部分 lazy 状态（实现细节因版本而异）。

1.3.3 恢复即将运行线程的执行现场

装载另一组寄存器、切换到 next 的内核栈。
从 switch_to 返回路径「像从 schedule() 正常返回一样」回到 __schedule 后续逻辑，最终返回到 next 线程之前被抢占/阻塞唤醒 之后的用户态或内核路径。

1.3.4 返回用户态前的额外工作（若需要）

重新加载 FPU 状态（若 lazy 策略要求）。
更新硬件性能计数器、tracepoint（sched_switch 等）用于观测。
安全检查与 TSS/IST 等（x86 特定）；ARM 上为异常向量与 banked/专用寄存器路径（按需）。

1.4 这些事情会带来什么「影响」

1.4.1 对延迟（latency）的影响

单次切换本身消耗固定量级 CPU 周期（微内核/宏内核、架构不同数量级不同，但绝非零）。
若切换发生在持有锁或临界区附近，可能放大尾延迟（另一线程等待时间）。

1.4.2 对吞吐（throughput）的影响

CPU 时间有一部分花在 调度与切换路径 上，而不是业务指令上 → 有效 IPC（每周期完成的有用指令）下降。

1.4.3 对缓存（Cache）的影响（往往比「保存寄存器」更痛）

新线程的工作集与旧线程不同；切换后 L1/L2/L3 cache 中热数据大量失效，接下来一段时间 cache miss 率上升。
这是「频繁上下文切换伤性能」的主因之一：不是只有「多执行了几百条内核指令」，而是 后续成千上万条用户指令都变「冷」了。

1.4.4 对 TLB 的影响

进程切换后若 ASID/PCID 不能命中旧映射，TLB miss 增加 → 页表遍历（walker）成本上升。
对内存密集型、指针追踪型负载，TLB 压力可成为瓶颈。

1.4.5 对分支预测的影响

新线程的 分支历史 与旧线程不同，分支预测器 需要时间重新「学习」→ 短暂 分支预测失误率上升。

1.5 为什么「频繁」上下文切换特别伤性能（总结成三条机制）

1.5.1 直接成本：内核路径 + 寄存器保存

每次切换都要跑 调度器逻辑 + context_switch + 汇编切换；频率越高，这部分周期占比越大。

1.5.2 间接成本一：缓存与 TLB 的「冷启动税」

切换越频繁，每个时间片内用于「把 cache 跑热」的有效工作越少；若时间片很短，线程永远在「冷 cache」上跑，吞吐崩溃。
直观类比：你刚把书桌摆好开始写题，每 30 秒就被要求换房间——大部分时间花在搬桌子而不是解题。

1.5.3 间接成本二：锁竞争与协作开销

多线程服务中，高切换频率常与 锁争抢、条件变量抖动 同现；切换本身 + 等待锁 叠加。

1.5.4 间接成本三：向量单元与 lazy 状态

科学计算/多媒体线程密集使用 SIMD 时，lazy 策略可能导致 意外的状态切换成本；需要 profiling 验证。

1.6 与「系统调用」的区分（常见误解）

系统调用：用户态 ↔ 内核态，通常不换进程地址空间（同一 task）；成本主要是 陷入/返回 + 内核路径，一般小于完整进程切换（但 syscall 仍可能触发 TLB/缓存副作用，且 vdso 会优化部分路径）。
上下文切换：换 runnable 实体（至少换内核栈与寄存器；进程级还换 mm）。量级通常更大，尤其跨进程。

把「syscall 很多」与「context switch 很多」混为一谈，会误判优化方向。

1.7 工程上如何观察「是否被上下文切换拖垮」

Linux：/proc/stat 中的 ctxt（累计上下文切换次数）；vmstat 1 的 cs 列；pidstat -w 1 看 per-task cswch / nvcswch（自愿/非自愿）。
perf：sched:sched_switch tracepoint；perf stat 看 CPU-migrations（跨核迁移也会带来缓存代价）。
解读：cs 高且 CPU 利用率不低但业务 QPS 低，要怀疑 过细锁、过多线程、过短 sleep/轮询 等。

1.8 缓解思路（从「减少切换」到「让切换更便宜」）

减少 runnable 线程数：线程池、合并任务、异步 IO 减少阻塞点。
增大批处理：每个时间片做更多有效工作（数据面常见）。
绑核（affinity）：减少 CPU migration，降低 cache 冷迁移（仍可能有切换，但跨 NUMA/跨 socket 更伤）。
用户态自旋锁慎用：临界区长会导致 自旋浪费；临界区短也要考虑 公平性。
适当增大时间片/降低抢占频率（系统级调参，有副作用，需测试）。
内核旁路/用户态轮询（如 DPDK）：用 独占核 + 轮询 换 更少调度介入；代价是 CPU 占用与隔离运维。

1.9 小结表

切换时做的事（抽象）	主要影响
保存/恢复寄存器、换内核栈	直接 CPU 周期
换页表（进程级）	TLB 行为、访存延迟
调度器选择与统计/trace	直接周期 + 可观测性
cache/分支预测器被「换人」	常占主导的间接吞吐损失

1.10 延伸阅读

Linux 内核：kernel/sched/core.c 中 __schedule() → context_switch() 阅读路径（结合你目标架构的 arch/*/kernel/process.c 中 switch_to）。
Ulrich Drepper：What Every Programmer Should Know About Memory（内存层次与缓存对性能的影响，与切换间接成本强相关）。

架构差异（是否 ASID、FPU lazy 细节、Meltdown/Spectre 后的 TLB 刷新策略等）会改变常数项；量化请以你目标平台上的 perf 与 sched trace 为准。

Adrian's Space

探索

深入了解上下文切换