A Pragmatic Exploration of Prefill-Decode Disaggregation in Large Scale Inference (MLSys 2026)

一句话总结:NVIDIA 用 datacenter-scale、kernel-aware 模拟器扫描数百万 Disaggregation 设计点,绘制完整 throughput–interactivity Pareto 曲线:prefill-heavy 流量与 >10B 模型收益最大,紧 FTL 下 prefill 侧 Chunked Pipeline Parallelism(CPP)优于宽 Tensor-Parallelism,ctx:gen GPU 比必须动态 rate matching——Dynamo Planner 在 H200 原型上相对静态配比最高报告约 8× goodput。

问题与动机

Disaggregation(prefill pool 与 decode pool 分离)近两年热度极高,开源实现(NVIDIA Dynamo、vLLM disagg、Mooncake、SGLang 等)涌现,但大规模生产落地仍少。根因不是概念不清——prefill 与 decode 算力特征不同,分池独立优化很自然——而是设计空间爆炸:模型分片(Tensor-ParallelismExpert-ParallelismPipeline-Parallelism、CPP、TEP)、batch size、prefill↔decode rate matching、FTL/TTL SLA、流量形态(ISL/OSL)、硬件互联(NVLink 域大小)交织,单点小集群 benchmark 很难给出可迁移的部署指南。

既有工作多在受限 testbed 上优化单一目标(峰值吞吐或最低延迟),缺少对 throughput–interactivity Pareto 前沿 的系统刻画,也少见对「何时不该 disaggregate」的定量边界。本文 claim 是首次在 datacenter 尺度系统研究 disaggregated serving:用高保真 GPU 模拟器探索数百万配置,辅以 NVIDIA Dynamo 真机实验,输出面向 practitioner’s 的设计原则而非孤立 peak number。

关键观察 / 隐含假设

  • 观察 1:disaggregation 收益高度依赖流量形态——prefill-heavy(ISL ≫ OSL)最赚,decode-heavy 且 latency 不紧时 co-located 往往更好。 Figure 1/8 显示 DeepSeek-R1 在多种 ISL/OSL 组合下 Pareto 曲线形态差异巨大;decode-heavy 场景优先 decode 速度的 mapping,强行分离 prefill 会显著牺牲 prefill 吞吐。

    • 依赖假设:用固定 ISL/OSL(或 P50 幂次近似)代表动态流量足够刻画 Pareto 趋势;Appendix B 用 P50 与动态 trace 对齐。
    • 可能失效场景:多轮对话、agent 式长 generation、工具调用导致 ISL/OSL 分布剧烈漂移;burst 到达使瞬时 prefill/decode 压力与平均比不一致,静态热图或固定 ratio 会失效。
  • 观察 2:模型越大,disaggregation 的并行搜索空间越宽,收益越明显。 Llama 8B/70B/405B 对比(Figure 7)显示大模型因跨更多 GPU、可选 mapping 更丰富,prefill/decode 独立选型的价值上升;<10B 小模型优势有限。

    • 依赖假设:大模型必然 multi-GPU 部署;模拟器对 Blackwell FP4 上的 TP/EP/PP 估计与硅片一致。
    • 可能失效场景:小模型单卡可放下、或量化/投机解码把 decode 压到单卡饱和时,disagg 的池化与 KV 传输 overhead 可能吞噬收益。
  • 观察 3:紧 FTL 长上下文下,prefill 侧 CPP 一致优于宽 Tensor-Parallelism CPP 把输入分 chunk、沿 Pipeline-Parallelism 流水,通信量(send/recv)相对 TP allreduce 小得多(式 1 vs 式 2);DeepSeek-R1 ISL=256K、64 GPU 上增大 PP 可同时压 FTL 又保吞吐(Figure 5)。

    • 依赖假设:context 处理可 chunk 化且层间 KV 依赖允许 pipeline overlap;FTL SLA 紧到迫使放弃「单次宽 batch prefill」。
    • 可能失效场景:极短 prompt(CPP 退化为 overhead)、非 Transformer 或 attention 变体难以 chunk pipeline、跨节点 PP 通信延迟吃掉 overlap。
  • 观察 4:最优 ctx:gen GPU 比随模型、目标 latency、prefix caching、speculative decoding 显著变化;固定 ratio 会在 Pareto 一侧极好、另一侧崩溃。 Figure 10:ctx:gen=3.5 在宽松 latency 优,收紧则劣化;0.5 相反。Figure 9 展示 ratio 随模型与 latency 的系统性漂移。

    • 依赖假设:集群有足够 GPU 做连续弹性伸缩;Dynamo Planner 的 profiling + 时序预测能跟上流量变化。
    • 可能失效场景:资源上限、scale 冷启动、多租户配额、或 KV 传输/调度抖动使「动态匹配」反应滞后于 burst。
  • 观察 5:co-located piggybacking(Chunked-Prefill)对 DeepSeek-R1 的 MLA 有 chunk 级重算 overhead,削弱相对 disagg 的优势。 每个 prefill chunk 重复 down/up projection;可通过缓存 up-projected KV 缓解,但增加实现复杂度。GQA 模型(Llama)敏感性不同。

    • 依赖假设:模拟器正确建模 MLA vs GQA 的 piggyback 成本;co-located baseline 同时包含 piggybacked 与非 piggybacked Pareto 点。
    • 可能失效场景:engine 层已优化 MLA chunk 复用、或 chunk size 与 memory 布局使重算可忽略。
  • 观察 6:KV cache 跨池传输带宽在典型 datacenter 配置下通常不是瓶颈,但拓扑与异步传输实现关键。 式 3/4 推导 egress/ingress 需求;Figure 14 显示现有机房带宽可支撑;层间流水可 overlap 传输与 prefill 计算。NIXL 提供非阻塞 P2P RDMA/NVLink 路径。

    • 依赖假设:KV 按层 burst 传输、可饱和互联;忽略传输 latency 项(相对 prefill/decode 计算可忽略);模拟中默认无 prefix cache 共享(除非单独讨论)。
    • 可能失效场景:跨 rack 以太网、KV 复制(TP rank > KV head 数)、prefix cache 碎片化导致大量非缓存块传输、Mooncake 类远端 KV 层引入额外 hop。
  • 隐含假设:模拟器假设 rate-matched 部署始终满载,且每层 KV 一生成就向 decode pool 流式搬运。

    • 证据强度:中。作者明确在 Section 5.1 讨论该假设,真机用 Dynamo 部分验证,但未量化 queueing、scheduler 开销、或 partial pool 空闲时的 Pareto 偏移。

核心方法

设计空间两维分解:(i)prefill/decode 各自 model partitioning(TP、EP、PP、CPP、TEP × batch size);(ii)两池 GPU 数量与 rate matching

模拟器:NVIDIA 专有 datacenter-scale GPU 性能模拟器——device 级含 memory hierarchy、compute、通信与功耗模型;system 级含 NVLink/Ethernet 集合通信;kernel-aware 解析估算各 op 延迟与 overlap。输入模型架构、流量、硬件配置,输出各 parallelism 策略下的 latency/throughput,再拼 Pareto 前沿。主模拟硬件为 Blackwell FP4;benchmark 补充来自真实部署。

co-located baseline:含/不含 context-chunked piggybacking;模拟器为每种 ISL–OSL 在 Pareto 上搜索最优 prefill/decode token 混比。

disaggregated 搜索

  • Algorithm 1:在 FTL 约束下选 prefill 配置——在满足 FTL cutoff 的候选中取 throughput = batch/(FTL·GPUs) 最大者。
  • Algorithm 2:对每个 decode 配置,用 integer solver 匹配 prefill/decode 吞吐,得 ctx:gen GPU 数与合并吞吐;受 TTL 约束与总 GPU 最小化目标。FTL > 10s 的设计点剔除。

真机验证:NVIDIA Dynamo + Dynamo Planner(SLA-aware 动态 rate matching)。先 sweep TP/PP/EP/TEP 定 engine config;再 profiling FTL vs ISL、TTL vs active KV blocks + context length(Figure 11);运行时监控 ISL/OSL/到达率,结合时序预测(Prophet 类)提前 scale;对 prefix reuse、queueing 等偏差做 moving-average 校正。

部署配套:NIXL 异步 KV 传输;KV block layout 与 routing(Dynamo KV Router vs round-robin,Figure 15);带宽需求解析(Section 5)。

设计取舍

  • 百万级模拟 vs 可复现性:模拟器让无硬件即可扫全 Pareto,但专有、外部无法独立验证;论文刻意 normalized 呈现(Figure 1 等),强调趋势而非绝对性能 claim——适合指导,不适合当公开 benchmark 榜单。

  • 完整 Pareto 地图 vs 单点优化:不追求某一配置极致 SOTA,而映射整条 throughput–interactivity 曲线及敏感维度——对 deployer 更实用,但对「比 DistServe/Mooncake 快多少」回答较弱。

  • Dynamo 栈深度集成 vs 中立 baseline:真机实验绑定 Dynamo、SGLang backend、H200;验证的是「NVIDIA 全栈可落地」,而非跨框架公平赛马。论文定位是 design guide + Dynamo blueprint,不是 impartial shootout。

  • 理想化 rate matching vs 生产摩擦:模拟假设充足 GPU、满载、层间 KV 即时流式搬运;Planner 用合成负载(3K ISL、300 OSL、5–45 req/s)证明动态配比价值,但未覆盖多模型混部、故障恢复、租户隔离。

  • 静态流量切片 vs 动态 trace:主结果用固定 ISL/OSL 或 P50 近似;降低搜索维度,但需 Planner 与 Appendix B 补足动态性论证。

实验与结果

模拟 sweep

  • 模型:DeepSeek-R1(MoE/MLA)、Llama-3.1-8B/70B/405B。
  • 硬件:以 Blackwell FP4 为主;NVLink 域大小敏感性(Figure 13)——更大域利于 disagg,因 generation 侧可选更宽 EP/TP。
  • Disagg 最赚:ISL ≫ OSL、模型 >10B;MoE 在 medium-latency 区相对 piggybacked co-located 增益更大。
  • CPP:紧 FTL 长上下文 prefill 的首选;相对宽 TP 通信开销低。
  • Decode 池:TTL 收紧 → batch 缩小、TP 变宽;disagg decode 可更激进地追 TP,因无需兼顾 prefill math。
  • Co-located 仍优:decode-heavy、宽松 latency;piggybacking 在该区最有效。

Dynamo Planner 原型(DeepSeek-R1 Distilled Llama-8B、H200、TP1、合成 3K/300、FTL 200ms、TTL 10ms,Figure 12):

  • vs 低效 3:1 ctx:gen + TP1:约 8× goodput、约 7× goodput/GPU。
  • vs 低效 1:1 + TP2 mapping:约 4× / 约 3.5×
  • vs 最佳静态 1:1 + TP1:约 2× / 约 2×

KV 与路由

  • 带宽需求随 TTL/OSL/ISL 变化(Figure 14);典型机房带宽足够。
  • Prefix ratio 升高时,KV-aware routing 比 round-robin 更稳(Figure 15,L40S×8、ISL=14K 原型)。

Critical Analysis

论证链条

主链条闭合:问题——disagg 设计空间大、落地少 → 方法——模拟器扫百万 Pareto 点 + Algorithm 1/2 形式化 rate matching → 发现——流量/模型/latency 决定 disagg 是否值得、CPP 与动态 ratio 是关键旋钮 → 验证——Dynamo Planner 在代表负载上相对静态配置数量级 goodput 提升 → 部署——NIXL、KV layout、routing、带宽解析构成落地清单。

作为 vendor design study,链条对「何时 disaggregate、如何 match rate」最有价值;弱在「Dynamo 是否优于其他开源 disagg 栈」——Related Work 明确批评既有研究多小集群、单目标,但本文也未在同一硬件上对 vLLM disagg、Mooncake、DistServe 做 head-to-head。

假设压力测试

Workload 漂移:P50 ISL/OSL 近似在 agent、RAG、多模态、speculative 多步推理下可能失效;prefix caching 与 speculative decoding 会改变最优 ctx:gen(论文承认),但主 Pareto sweep 默认无 KV 共享,生产最优曲线需叠加这些优化重新扫。

资源弹性:动态 rate matching 预设集群可连续扩缩 prefill/decode replica;冷启动、GPU 碎片、多模型争抢同一池时,Planner 的 2–8× goodput 可能缩水为调度延迟与 SLO 违规。

硬件代际:Blackwell FP4 + 大 NVLink 域是乐观设定;跨 rack 以太网、较小 NVLink 域、或 AMD/自研加速卡上 CPP 与 EP 优劣、KV 带宽是否仍「非瓶颈」需重测。归一化曲线隐藏绝对数值,迁移时不能照搬 ratio。

MLA piggyback 惩罚:DeepSeek-R1 上 chunk 重算是 disagg 的重要动机之一;若 engine 已修复或模型改用 GQA,该论据对新一代栈权重下降。

实验可信度

可信处:覆盖模型规模/architecture(dense + MoE)、流量四象限、NVLink 域、固定 vs 动态 rate matching 等多维敏感性;机制层有 CPP 通信量公式与 bandwidth 推导;Planner 实验把「动态 ratio」从模拟落到可测 goodput。

不足

  • 模拟器不可复现,外部只能信任「已用硅片校准」的声明。
  • 真机仅 一个 蒸馏 8B 原型 + 合成负载;无 Llama-405B、无生产 trace、无多节点 fault case。
  • DeepServe-ATC25、DistServe、Splitwise、Mooncake 等缺同硬件对比;goodput 倍数是相对「故意选差的静态配置」,非相对业界最佳实践。
  • Figure 12 的 baseline 命名暗示对比的是 错误配置 而非强 baseline,2× vs「最佳静态」才更接近公平上界,仍窄。

系统性缺陷

  • Scheduler 与 queueing 黑箱:模拟满载利用率,未展开 prefill queue 积压如何反馈到 FTL、decode 侧 KV 等待是否触发 TTL 违约、或 disagg 下的 head-of-line blocking。
  • 多租户与 SLO 隔离:全文单 workload 切片;未讨论 ratio 调整对非目标租户的影响、fairness、或 canary 切换 mapping 的风险。
  • 故障与一致性:KV 流式搬运假设层间可靠;TE 重启、网络抖动、部分 block 传输失败时的重试与一致性问题未实验。
  • Observability / 运维:Planner 依赖 profiling sweep 与在线预测,模型版本升级、量化切换、LoRA 挂载时重 profiling 成本未量化。
  • 生态锁定:NIXL、Dynamo KV Router、Blackwell FP4 耦合深;「pragmatic exploration」对非 NVIDIA 栈的迁移指南偏原则性。

局限与 Future Work

  • 局限 1:核心证据来自专有模拟器 + 窄真机原型;公开复现与第三方独立验证困难。

  • 局限 2:主 sweep 默认无 prefix cache / speculative decoding;与这些优化叠加后的 Pareto 仅定性提及(Figure 9 方向),未系统重扫。

  • 局限 3:FTL > 10s 设计点剔除,超长上下文离线批处理场景覆盖不足。

  • 局限 4:对 co-located 强基线(Sarathi-Serve、LayeredPrefill-MLSys26 等新一代调度)的对比有限,disagg 优势可能相对「旧式 piggyback」被放大。

  • 局限 5:作者全为 NVIDIA 雇员,Dynamo/NIXL/Blackwell 为同一产品叙事,需读者自行剥离 marketing 与 science。

  • Future work 1:用公开 trace(ShareGPT、LMSYS、BurstGPT)驱动 Planner,报告 tail FTL/TTL、ratio 振荡频率与 multi-tenant 干扰。

  • Future work 2:在 prefix caching + speculative decoding 同时开启时重绘 Pareto,量化 ctx:gen 弹性需求是否下降或转移。

  • Future work 3:跨框架(vLLMSGLang、Mooncake)同硬件 disagg shootout,分离「架构收益」与「Dynamo 实现收益」。

  • Future work 4:故障注入(KV 传输失败、prefill pool 缩容、routing 热点)下测 SLA 退化与静态 vs 动态 ratio 的鲁棒性。

  • Future work 5:论文 Section 7 已指出的方向——speculation、inference-time compute、异构硬件(attention vs FFN 分设备)对 disagg 设计空间的重塑。

相关