A Pragmatic Exploration of Prefill-Decode Disaggregation in Large Scale Inference (MLSys 2026)

一句话总结：NVIDIA 用 datacenter-scale、kernel-aware 模拟器扫描数百万 Disaggregation 设计点，绘制完整 throughput–interactivity Pareto 曲线：prefill-heavy 流量与 >10B 模型收益最大，紧 FTL 下 prefill 侧 Chunked Pipeline Parallelism（CPP）优于宽 Tensor-Parallelism，ctx:gen GPU 比必须动态 rate matching——Dynamo Planner 在 H200 原型上相对静态配比最高报告约 8× goodput。

问题与动机

Disaggregation（prefill pool 与 decode pool 分离）近两年热度极高，开源实现（NVIDIA Dynamo、vLLM disagg、Mooncake、SGLang 等）涌现，但大规模生产落地仍少。根因不是概念不清——prefill 与 decode 算力特征不同，分池独立优化很自然——而是设计空间爆炸：模型分片（Tensor-Parallelism、Expert-Parallelism、Pipeline-Parallelism、CPP、TEP）、batch size、prefill↔decode rate matching、FTL/TTL SLA、流量形态（ISL/OSL）、硬件互联（NVLink 域大小）交织，单点小集群 benchmark 很难给出可迁移的部署指南。

既有工作多在受限 testbed 上优化单一目标（峰值吞吐或最低延迟），缺少对 throughput–interactivity Pareto 前沿 的系统刻画，也少见对「何时不该 disaggregate」的定量边界。本文 claim 是首次在 datacenter 尺度系统研究 disaggregated serving：用高保真 GPU 模拟器探索数百万配置，辅以 NVIDIA Dynamo 真机实验，输出面向 practitioner’s 的设计原则而非孤立 peak number。

关键观察 / 隐含假设

观察 1：disaggregation 收益高度依赖流量形态——prefill-heavy（ISL ≫ OSL）最赚，decode-heavy 且 latency 不紧时 co-located 往往更好。 Figure 1/8 显示 DeepSeek-R1 在多种 ISL/OSL 组合下 Pareto 曲线形态差异巨大；decode-heavy 场景优先 decode 速度的 mapping，强行分离 prefill 会显著牺牲 prefill 吞吐。
- 依赖假设：用固定 ISL/OSL（或 P50 幂次近似）代表动态流量足够刻画 Pareto 趋势；Appendix B 用 P50 与动态 trace 对齐。
- 可能失效场景：多轮对话、agent 式长 generation、工具调用导致 ISL/OSL 分布剧烈漂移；burst 到达使瞬时 prefill/decode 压力与平均比不一致，静态热图或固定 ratio 会失效。
观察 2：模型越大，disaggregation 的并行搜索空间越宽，收益越明显。 Llama 8B/70B/405B 对比（Figure 7）显示大模型因跨更多 GPU、可选 mapping 更丰富，prefill/decode 独立选型的价值上升；<10B 小模型优势有限。
- 依赖假设：大模型必然 multi-GPU 部署；模拟器对 Blackwell FP4 上的 TP/EP/PP 估计与硅片一致。
- 可能失效场景：小模型单卡可放下、或量化/投机解码把 decode 压到单卡饱和时，disagg 的池化与 KV 传输 overhead 可能吞噬收益。
观察 3：紧 FTL 长上下文下，prefill 侧 CPP 一致优于宽 Tensor-Parallelism。 CPP 把输入分 chunk、沿 Pipeline-Parallelism 流水，通信量（send/recv）相对 TP allreduce 小得多（式 1 vs 式 2）；DeepSeek-R1 ISL=256K、64 GPU 上增大 PP 可同时压 FTL 又保吞吐（Figure 5）。
- 依赖假设：context 处理可 chunk 化且层间 KV 依赖允许 pipeline overlap；FTL SLA 紧到迫使放弃「单次宽 batch prefill」。
- 可能失效场景：极短 prompt（CPP 退化为 overhead）、非 Transformer 或 attention 变体难以 chunk pipeline、跨节点 PP 通信延迟吃掉 overlap。
观察 4：最优 ctx:gen GPU 比随模型、目标 latency、prefix caching、speculative decoding 显著变化；固定 ratio 会在 Pareto 一侧极好、另一侧崩溃。 Figure 10：ctx:gen=3.5 在宽松 latency 优，收紧则劣化；0.5 相反。Figure 9 展示 ratio 随模型与 latency 的系统性漂移。
- 依赖假设：集群有足够 GPU 做连续弹性伸缩；Dynamo Planner 的 profiling + 时序预测能跟上流量变化。
- 可能失效场景：资源上限、scale 冷启动、多租户配额、或 KV 传输/调度抖动使「动态匹配」反应滞后于 burst。
观察 5：co-located piggybacking（Chunked-Prefill）对 DeepSeek-R1 的 MLA 有 chunk 级重算 overhead，削弱相对 disagg 的优势。 每个 prefill chunk 重复 down/up projection；可通过缓存 up-projected KV 缓解，但增加实现复杂度。GQA 模型（Llama）敏感性不同。
- 依赖假设：模拟器正确建模 MLA vs GQA 的 piggyback 成本；co-located baseline 同时包含 piggybacked 与非 piggybacked Pareto 点。
- 可能失效场景：engine 层已优化 MLA chunk 复用、或 chunk size 与 memory 布局使重算可忽略。
观察 6：KV cache 跨池传输带宽在典型 datacenter 配置下通常不是瓶颈，但拓扑与异步传输实现关键。 式 3/4 推导 egress/ingress 需求；Figure 14 显示现有机房带宽可支撑；层间流水可 overlap 传输与 prefill 计算。NIXL 提供非阻塞 P2P RDMA/NVLink 路径。
- 依赖假设：KV 按层 burst 传输、可饱和互联；忽略传输 latency 项（相对 prefill/decode 计算可忽略）；模拟中默认无 prefix cache 共享（除非单独讨论）。
- 可能失效场景：跨 rack 以太网、KV 复制（TP rank > KV head 数）、prefix cache 碎片化导致大量非缓存块传输、Mooncake 类远端 KV 层引入额外 hop。
隐含假设：模拟器假设 rate-matched 部署始终满载，且每层 KV 一生成就向 decode pool 流式搬运。
- 证据强度：中。作者明确在 Section 5.1 讨论该假设，真机用 Dynamo 部分验证，但未量化 queueing、scheduler 开销、或 partial pool 空闲时的 Pareto 偏移。

核心方法

设计空间两维分解：（i）prefill/decode 各自 model partitioning（TP、EP、PP、CPP、TEP × batch size）；（ii）两池 GPU 数量与 rate matching。

模拟器：NVIDIA 专有 datacenter-scale GPU 性能模拟器——device 级含 memory hierarchy、compute、通信与功耗模型；system 级含 NVLink/Ethernet 集合通信；kernel-aware 解析估算各 op 延迟与 overlap。输入模型架构、流量、硬件配置，输出各 parallelism 策略下的 latency/throughput，再拼 Pareto 前沿。主模拟硬件为 Blackwell FP4；benchmark 补充来自真实部署。

co-located baseline：含/不含 context-chunked piggybacking；模拟器为每种 ISL–OSL 在 Pareto 上搜索最优 prefill/decode token 混比。

disaggregated 搜索：

Algorithm 1：在 FTL 约束下选 prefill 配置——在满足 FTL cutoff 的候选中取 throughput = batch/(FTL·GPUs) 最大者。
Algorithm 2：对每个 decode 配置，用 integer solver 匹配 prefill/decode 吞吐，得 ctx:gen GPU 数与合并吞吐；受 TTL 约束与总 GPU 最小化目标。FTL > 10s 的设计点剔除。

真机验证：NVIDIA Dynamo + Dynamo Planner（SLA-aware 动态 rate matching）。先 sweep TP/PP/EP/TEP 定 engine config；再 profiling FTL vs ISL、TTL vs active KV blocks + context length（Figure 11）；运行时监控 ISL/OSL/到达率，结合时序预测（Prophet 类）提前 scale；对 prefix reuse、queueing 等偏差做 moving-average 校正。

部署配套：NIXL 异步 KV 传输；KV block layout 与 routing（Dynamo KV Router vs round-robin，Figure 15）；带宽需求解析（Section 5）。

设计取舍

百万级模拟 vs 可复现性：模拟器让无硬件即可扫全 Pareto，但专有、外部无法独立验证；论文刻意 normalized 呈现（Figure 1 等），强调趋势而非绝对性能 claim——适合指导，不适合当公开 benchmark 榜单。
完整 Pareto 地图 vs 单点优化：不追求某一配置极致 SOTA，而映射整条 throughput–interactivity 曲线及敏感维度——对 deployer 更实用，但对「比 DistServe/Mooncake 快多少」回答较弱。
Dynamo 栈深度集成 vs 中立 baseline：真机实验绑定 Dynamo、SGLang backend、H200；验证的是「NVIDIA 全栈可落地」，而非跨框架公平赛马。论文定位是 design guide + Dynamo blueprint，不是 impartial shootout。
理想化 rate matching vs 生产摩擦：模拟假设充足 GPU、满载、层间 KV 即时流式搬运；Planner 用合成负载（3K ISL、300 OSL、5–45 req/s）证明动态配比价值，但未覆盖多模型混部、故障恢复、租户隔离。
静态流量切片 vs 动态 trace：主结果用固定 ISL/OSL 或 P50 近似；降低搜索维度，但需 Planner 与 Appendix B 补足动态性论证。

实验与结果

模拟 sweep：

模型：DeepSeek-R1（MoE/MLA）、Llama-3.1-8B/70B/405B。
硬件：以 Blackwell FP4 为主；NVLink 域大小敏感性（Figure 13）——更大域利于 disagg，因 generation 侧可选更宽 EP/TP。
Disagg 最赚：ISL ≫ OSL、模型 >10B；MoE 在 medium-latency 区相对 piggybacked co-located 增益更大。
CPP：紧 FTL 长上下文 prefill 的首选；相对宽 TP 通信开销低。
Decode 池：TTL 收紧 → batch 缩小、TP 变宽；disagg decode 可更激进地追 TP，因无需兼顾 prefill math。
Co-located 仍优：decode-heavy、宽松 latency；piggybacking 在该区最有效。

Dynamo Planner 原型（DeepSeek-R1 Distilled Llama-8B、H200、TP1、合成 3K/300、FTL 200ms、TTL 10ms，Figure 12）：

vs 低效 3:1 ctx:gen + TP1：约 8× goodput、约 7× goodput/GPU。
vs 低效 1:1 + TP2 mapping：约 4× / 约 3.5×。
vs 最佳静态 1:1 + TP1：约 2× / 约 2×。

KV 与路由：

带宽需求随 TTL/OSL/ISL 变化（Figure 14）；典型机房带宽足够。
Prefix ratio 升高时，KV-aware routing 比 round-robin 更稳（Figure 15，L40S×8、ISL=14K 原型）。

Critical Analysis

论证链条

主链条闭合：问题——disagg 设计空间大、落地少 → 方法——模拟器扫百万 Pareto 点 + Algorithm 1/2 形式化 rate matching → 发现——流量/模型/latency 决定 disagg 是否值得、CPP 与动态 ratio 是关键旋钮 → 验证——Dynamo Planner 在代表负载上相对静态配置数量级 goodput 提升 → 部署——NIXL、KV layout、routing、带宽解析构成落地清单。

作为 vendor design study，链条对「何时 disaggregate、如何 match rate」最有价值；弱在「Dynamo 是否优于其他开源 disagg 栈」——Related Work 明确批评既有研究多小集群、单目标，但本文也未在同一硬件上对 vLLM disagg、Mooncake、DistServe 做 head-to-head。

假设压力测试

Workload 漂移：P50 ISL/OSL 近似在 agent、RAG、多模态、speculative 多步推理下可能失效；prefix caching 与 speculative decoding 会改变最优 ctx:gen（论文承认），但主 Pareto sweep 默认无 KV 共享，生产最优曲线需叠加这些优化重新扫。

资源弹性：动态 rate matching 预设集群可连续扩缩 prefill/decode replica；冷启动、GPU 碎片、多模型争抢同一池时，Planner 的 2–8× goodput 可能缩水为调度延迟与 SLO 违规。

硬件代际：Blackwell FP4 + 大 NVLink 域是乐观设定；跨 rack 以太网、较小 NVLink 域、或 AMD/自研加速卡上 CPP 与 EP 优劣、KV 带宽是否仍「非瓶颈」需重测。归一化曲线隐藏绝对数值，迁移时不能照搬 ratio。

MLA piggyback 惩罚：DeepSeek-R1 上 chunk 重算是 disagg 的重要动机之一；若 engine 已修复或模型改用 GQA，该论据对新一代栈权重下降。

实验可信度

可信处：覆盖模型规模/architecture（dense + MoE）、流量四象限、NVLink 域、固定 vs 动态 rate matching 等多维敏感性；机制层有 CPP 通信量公式与 bandwidth 推导；Planner 实验把「动态 ratio」从模拟落到可测 goodput。

不足：

模拟器不可复现，外部只能信任「已用硅片校准」的声明。
真机仅一个蒸馏 8B 原型 + 合成负载；无 Llama-405B、无生产 trace、无多节点 fault case。
与 DeepServe-ATC25、DistServe、Splitwise、Mooncake 等缺同硬件对比；goodput 倍数是相对「故意选差的静态配置」，非相对业界最佳实践。
Figure 12 的 baseline 命名暗示对比的是 错误配置 而非强 baseline，2× vs「最佳静态」才更接近公平上界，仍窄。

系统性缺陷

Scheduler 与 queueing 黑箱：模拟满载利用率，未展开 prefill queue 积压如何反馈到 FTL、decode 侧 KV 等待是否触发 TTL 违约、或 disagg 下的 head-of-line blocking。
多租户与 SLO 隔离：全文单 workload 切片；未讨论 ratio 调整对非目标租户的影响、fairness、或 canary 切换 mapping 的风险。
故障与一致性：KV 流式搬运假设层间可靠；TE 重启、网络抖动、部分 block 传输失败时的重试与一致性问题未实验。
Observability / 运维：Planner 依赖 profiling sweep 与在线预测，模型版本升级、量化切换、LoRA 挂载时重 profiling 成本未量化。
生态锁定：NIXL、Dynamo KV Router、Blackwell FP4 耦合深；「pragmatic exploration」对非 NVIDIA 栈的迁移指南偏原则性。

局限与 Future Work

局限 1：核心证据来自专有模拟器 + 窄真机原型；公开复现与第三方独立验证困难。
局限 2：主 sweep 默认无 prefix cache / speculative decoding；与这些优化叠加后的 Pareto 仅定性提及（Figure 9 方向），未系统重扫。
局限 3：FTL > 10s 设计点剔除，超长上下文离线批处理场景覆盖不足。
局限 4：对 co-located 强基线（Sarathi-Serve、LayeredPrefill-MLSys26 等新一代调度）的对比有限，disagg 优势可能相对「旧式 piggyback」被放大。
局限 5：作者全为 NVIDIA 雇员，Dynamo/NIXL/Blackwell 为同一产品叙事，需读者自行剥离 marketing 与 science。
Future work 1：用公开 trace（ShareGPT、LMSYS、BurstGPT）驱动 Planner，报告 tail FTL/TTL、ratio 振荡频率与 multi-tenant 干扰。
Future work 2：在 prefix caching + speculative decoding 同时开启时重绘 Pareto，量化 ctx:gen 弹性需求是否下降或转移。
Future work 3：跨框架（vLLM、SGLang、Mooncake）同硬件 disagg shootout，分离「架构收益」与「Dynamo 实现收益」。
Future work 4：故障注入（KV 传输失败、prefill pool 缩容、routing 热点）下测 SLA 退化与静态 vs 动态 ratio 的鲁棒性。
Future work 5：论文 Section 7 已指出的方向——speculation、inference-time compute、异构硬件（attention vs FFN 分设备）对 disagg 设计空间的重塑。

Awesome System Papers Wiki

探索

NVIDIA-Disagg-Study-MLSys26