Xerxes: Extensive Exploration of Scalable Hardware Systems with CXL-Based Simulation Framework (FAST 2026)

一句话总结：在尚无 CXL 3.1 硬件时，Xerxes 用 graph interconnect + peer-centric device 两层架构首次从第一性原理模拟 PBR、DMC 与 PCIe 6.0 全双工；真实 CXL expander 验证带宽误差 0.1–10%、loaded-latency 平均 4.3%，并揭示 tree 拓扑 root 瓶颈、DCOH snoop filter 需 LIFO 而非 LRU、读写混合可近 2× 带宽等三条可指导 rack-scale 设计的观察。

问题与动机

CXL 3.0/3.1 把互连从 PCIe 派生的严格树状 hierarchy（HBR）推进到支持任意 non-tree fabric 的 Port-Based Routing（PBR），并把 coherence 从 host-centric 的 HDM-H 扩展到 Device-Managed Coherence（DMC），理论上可支撑最多 4096 endpoint 的 rack-scale、peer-to-peer 内存池。但这类系统目前几乎无法买到完整硬件，研究只能依赖仿真或 emulation。

现有工具在方法论上集体失效：NUMA emulation（remote socket 模拟 CXL memory）在协议语义上与真实 CXL 不匹配，且 socket 数量远小于 4096，无法探索大规模 fabric；计算中心型仿真器（gem5、GPGPUsim）假设 host-centric 内存层次与 centralized directory coherence，难以插入可主动发起 snoop 的 CXL device，且 gem5 对现代 PCIe 支持陈旧；网络中心型仿真器（BookSim、Garnet）擅长拓扑路由但无 memory/coherence 语义；行为级 CXL 工具（MESS、CXLMemSim）用预标定的 latency-bandwidth 曲线向运行时注入延迟，适合评估「已知设备对应用的影响」，却无法预测新拓扑、新 DCOH policy 或 PBR 多路径下的性能。

作者 claim：需要一种从零构建、模块化、可组合的 CXL fabric 仿真框架，既能对已有 CXL 2.0 硬件做 predictive 校准，又能在无硬件条件下探索 PBR/DMC/PCIe 6.0 等 emergent feature 的设计空间。

关键观察 / 隐含假设

观察 1：传统 tree/chain 拓扑在 scale-up 时会在 root/bridge 路径形成共享瓶颈，性能退化接近 chain，而非随 endpoint 数量线性扩展。
- 依赖假设：随机或均匀跨 memory endpoint 的访问模式；switch port 带宽为固定上界；PBR 路由按最短路径或等价竞争模型。
- 可能失效场景：workload 高度 locality 使流量集中在少数 leaf；spine-leaf 的 leaf 端口竞争在特定 tenant 混合下仍可能成为新瓶颈；fully-connected 在物理上不可部署于真实 rack。
观察 2：HDM-DB 模式下 device-side inclusive snoop filter（SF）收到的请求流以 cache miss 为主，与 CPU L1/L2 上「hot data 常驻」的访问模式相反，因此 LRU/FIFO 类策略更容易驱逐仍被 peer cache 持有的 hot line。
- 依赖假设：90/10 skew workload、requester local cache 能装下全部 hot data、SF 与 local cache 同容量；bus 配置为 infinite bandwidth 以隔离 SF policy 效应。
- 可能失效场景：多 requester 争用、SF 容量小于 working set、或 coherence traffic 与数据 traffic 在真实 fabric 上争用带宽时，policy 排序可能改变。
观察 3：PCIe/CXL 物理层的 full-duplex 使读写混合流量可同时占用正反两个方向，在 header overhead 较低时带宽可接近 2×；header/payload 比升高时收益迅速衰减。
- 依赖假设：单 bus、四 memory endpoint、随机 R:W 比例；half-duplex 作为对照且 turnaround 可配置。
- 可能失效场景：真实应用 burstiness 导致一个方向长期空闲；多 switch hop 与 coherence snoop 占用控制通道后，全双工利用率未必由 R:W mix 单独决定。
假设 1：component-level 延迟参数（requester 10 ns、switch port-to-port 25 ns、PCIe port 25 ns 等）经公开资料与少量硬件点校准后，可外推到未见过的拓扑与 DMC 路径。
- 证据强度：中——CXL 2.0 点验证误差低，但 PBR/DMC 仅与理论 round-trip 对比（PBR 平均 10.4%、DMC dirty write 1.4%），尚无硅片 ground truth。

核心方法

Xerxes 围绕三条原则组织：模块化（interconnect 与 device 解耦）、graph-based connectivity（原生支持 PBR 的 arbitrary topology）、peer-centric device model（host 与 accelerator 均为可主动发请求的 agent）。对应两层：

Interconnect layer 在初始化时把系统建成图，默认提供最短路径路由；switch 按 PBR 规范维护 port ID（12-bit，最多 4096 endpoint）与转发表；bus 建模 PCIe 6.0 全双工，分别跟踪正反方向传输并做带宽分配，可切换 half-duplex 与 turnaround overhead。该层回应「传统 simulator 无法表达 non-tree + 多 hop peer-to-peer」的观察。

Device layer 将 host/accelerator 统一为 Requester（request queue、address translation/interleaving、cache coherence unit）。DMC 的具体实现是 device-side inclusive snoop filter（DCOH）：跟踪 peer sharer/owner，冲突时发 Back-Invalidate Snoop（BISnp），收集 Back-Invalidate Response（BIRsp）后授权；victim 选择与 CXL InvBlk（一次失效 2–4 条连续 cacheline）均可插拔。该层回应 DMC 需要 distributed、device-initiated coherence 而非 centralized directory 的假设。

与现有仿真器集成：通过 Xerxes Wrapper 接入 gem5 MemCtrl（UpInterface/DownInterface 转换 packet、复用 event queue；DMC 经 SLICC CohInterface 失效 host cache）、DRAMsim3（cycle-based clock 推进）、SimpleSSD（event 格式转换）。用户可用配置文件搭系统，也可在两层分别扩展自定义 component。

设计取舍

取舍 1：predictive component model vs. behavioral Lat-BW 注入。Xerxes 选择建模 packet、路由、coherence 状态机与物理层 duplex，仿真更慢于 MESS 但可探索「尚未存在的拓扑/DCOH」；MESS 在已知曲线上更快甚至略快于 vanilla gem5，却无法回答 PBR 多路径或 InvBlk 长度这类架构问题。
取舍 2：modular 两层 vs. 深度改写 gem5。不改造 gem5 内部互连，而是用 wrapper 外挂 CXL fabric，降低侵入性、保留 gem5 CPU/缓存细节，但端到端时序依赖跨模拟器事件同步，复杂度落在 wrapper 正确性上。
取舍 3：graph 全连接 vs. 仿真成本。fully-connected 在 N=64 时内存占用陡增（链路数二次增长），作者仍证明 runtime <90 s、内存多数拓扑 <200 MB，但密集拓扑探索成本显著高于 chain/tree。
边界条件：对 CXL 2.0 expander + DRAMsim3 endpoint 校准最强；对 rack-scale AI trace（Bert、Pagerank、YCSB-F）主要在 tree 扩容 场景下展示 congestion 趋势，而非多种 fabric 下的生产级 SLO 验证。论文未讨论 multi-tenant 隔离、错误注入与 RAS。

实验与结果

硬件验证（Montage MXC CXL 2.0 expander，PCIe 5.0×16 有效约 ×8 带宽）：idle/peak bandwidth 误差 0.1–10%；loaded-latency 曲线平均误差 4.3%，优于 NUMA emulation（曲线形态不符）、MESS（9.3%）、CXLMemSim（16.6%）。
SPEC CPU2017（gcc/mcf，以 CXL memory 带来的 execution time overhead 为指标）：Xerxes-standalone 最低 +0.7%；gem5-Xerxes 亦优于 NUMA/gem5-garnet；gem5-MESS 在 mcf 上可达 -28.3% 偏差。
仿真开销：gem5-Xerxes 相对 vanilla gem5 平均仅 +2%；gem5-garnet +22.5%；MESS -6%（绕过详细 DRAM）。
拓扑 DSE（N–N requester/memory，合成随机访问）：chain/tree 带宽受单 port 限制不随 scale 提升；ring 最高约 2× port；spine-leaf N/2×；fully-connected N×。真实 trace（BTree、redis、silo 等）上 ring 1.72×、spine-leaf/FC 最高 3.63× 吞吐 vs. chain/tree。
DMC：skew workload 下 LIFO vs FIFO 带宽 +5%、invalidation -16%；InvBlk 长度 2 最优，更长因 cache lookup 与带宽竞争无额外收益。
全双工：零 header overhead 时 1:1 读写混合带宽近 2× read-only；header=payload 时混合收益归零；真实 trace mix degree 每增 0.1 带宽约 +9%。

Critical Analysis

论证链条

论文的「问题 → 两层架构 → 三类探索」链条整体闭合：先用 CXL 2.0 硬件证明 interconnect+bus+endpoint 模型可信，再用同一框架推导 PBR/DMC/duplex 在理论上可计算的路径延迟，最后把合成 micro-benchmark 结论延伸到多条 memory trace。薄弱环节在于 第三步外推：tree 扩容实验（图 14）只覆盖单 requester + 多 memory endpoint，与多 requester fabric 竞争场景不同；fully-connected 的 3.63× 增益在物理部署上不可直接映射为产品建议，更像上界参考。

假设压力测试

Workload：探索大量使用随机地址或 replay trace；若生产 CXL pool 以 capacity tiering + 显式 placement（如 Pond、TPP 类策略）为主，root 瓶颈严重程度可能低于论文随机模型。
硬件代际：验证平台为 CXL 2.0 / PCIe 5.0；论文将 PCIe 6.0 全双工与 DMC 要求当作参数化扩展，真实 retimer、链路不对称（论文硬件中 MCIO 占一半 lane）会改变 duplex 收益。
规模：仿真 scale 至 64 node、4096 endpoint 为协议上限；fully-connected 二次链路增长意味着论文证明的是「仿真器可扩展」，而非「该拓扑在经济上可建」。
正确性：聚焦平均带宽/延迟与 invalidation 计数；论文未讨论 coherence 协议 corner case、乱序、故障恢复对性能的影响。

实验可信度

Baseline 强度：对比 NUMA、MESS、CXLMemSim、gem5-garnet 覆盖面广；行为级工具在验证阶段被喂入 hardware ground-truth 曲线，属于「公平下的 best-case 对手」，Xerxes 仍显著更准，支撑 predictive 主张。
Ablation：SF victim policy 与 InvBlk 长度有独立 sweep；拓扑实验区分 bandwidth 与 hop-based latency，并报告 Xerxes 自身 simulation cost（图 12），说明工具开销可控。
缺口：PBR/DMC 无硅片验证，仅理论对照；端到端应用仅 2 个 SPEC + 若干 trace replay，不含多租户或 OS 页迁移路径；与 Cylon 等 CXL-SSD 全系统路径正交，未覆盖 storage endpoint。

系统性缺陷

尾延迟与可预测性：报告平均延迟与吞吐为主，tree/chain 高 hop 下 latency 可达低 hop 的 2×，但 P99/P999 与 coherence storm 未表征。
资源隔离：多 requester 实验存在，但未讨论 QoS、公平性或 malicious peer 对 DCOH 的压力。
运维与可观测性：开源框架与 artifact 完整，但论文未讨论配置错误、routing table 不一致等运维风险。
集成复杂度：gem5 wrapper 路径依赖 SLICC 与 MemCtrl 语义，移植到新 gem5 版本或 non-gem5 CPU 模型的工程成本论文未量化。

局限与 Future Work

局限 1：CXL 3.1 的 PBR、DMC 缺乏真实硬件对照，当前验证是「组件校准 + 理论路径」组合，对复杂 multi-switch 争用下的绝对数值仍需谨慎解读。
局限 2：device 侧仅实现一种 inclusive SF 与若干 victim/InvBlk policy，未覆盖 HDM-D、多种 DCOH 微架构或 security/RAS 特性。
局限 3：与 MESS/CXLMemSim 的对比凸显 accuracy–speed 光谱，但最快配置（MESS）在 mcf 上误差极大，论文未给出「何种研究问题应用哪种工具」的决策树。
Future work 1：按作者 §6，扩展 interconnect/device layer 以支持 Unified Bus（UB）等同类 coherent fabric，并用 UMMU 替换 SF——可客观验证「Xerxes 模块化是否真能跨协议复用」。
Future work 2：在 Xerxes 上接入 OS 级 memory tiering / disaggregated FS（与 DMTree、CetoFS 方向结合），测量 page migration 与 DMC back-invalidate 的交互延迟。
Future work 3：当 CXL 3.1 硬件可用后，用同一拓扑与 SF policy 实验复现仿真预测，量化 predictive gap——这是检验本文最核心的 falsifiable 命题。

Awesome System Papers Wiki

探索

Xerxes-FAST26