BlitzScale: Fast and Live Large Model Autoscaling with O(1) Host Caching (OSDI 2025)

一句话总结:MAAS 突发 5× 请求需 <500ms 扩实例但 72B 权重加载需 576 Gbps/GPU,SSD 与单机 DRAM cache miss 20–46%;BlitzScale 用 compute fabric 串行转发 multicast + 全局 O(1)/模型 host cache + 层粒度 live scaling(ZigZag pipeline),TTFT/TBT tail 比 ServerlessLLM 最高降 94%,GPU 用量比无自动伸缩的 vLLM/DistServe -49%

问题与动机

Model-as-a-Service 需随 burst 扩 serving instance,但 stop-the-world 加载 10–400GB 权重太慢(Llama3-8B @10Gbps SSD ~12.8s)。ServerlessLLM 等多级 host cache 命中率仅 40–75%,多模型多 host 时 miss 更高。Compute network(200G RDMA / NVLink)serving 时利用率可低至 7.4%,可借用于 data plane。

关键观察 / 隐含假设

  • 观察 1:已有实例时 serial-forwarding multicast 传参几乎与接收者数量无关;无实例时全局每模型 O(1) host 缓存即可覆盖 MAAS 全模型集(聚合 DRAM 够大)。
    • 依赖假设:拓扑支持高效 multicast plan;与 serving KV 传输干扰可控(否则 scale 慢 1.5×、TBT tail -50%)。
    • 可能失效场景:纯 cold start 且网络低于 220 Gbps/GPU 时仍难满足 72B SLO(图 3)。
  • 观察 2:推理本就 layer-by-layer,扩缩可从 instance 粒度降到 layer 粒度,未载权重层可 offload 计算到正在加载的新实例(live scaling)。
    • 依赖假设:ZigZag 调度能预见后续层到达,避免新实例初期只能算少数层导致负载仍堆在旧实例。
    • 证据强度:中——bursty trace 上 tail latency 50% 降(§5.2)。
  • 假设 1:BurstGPT/Azure 类 trace 代表生产 burst(2s 内 5×)。
    • 可能失效场景:更长平稳高峰可能更接近 over-provision 而非 autoscale 收益。

核心方法

Multicast planner:模型感知、在线近最优、干扰隔离(vs 离线训练 TE 方案)。

Live scaling:layer-wise cooperative execution + ZigZag pipeline scheduling。

Global parameter pool:跨机 O(1) per-model 缓存 + RDMA/NVLink 加载。

支持 PD disaggregation 与普通 serving;Rust/C++ 平台。

设计取舍

  • 取舍 1:层粒度调度复杂度换 stop-the-world 消除。
  • 取舍 2:multicast 与 serving 共享 fabric,需 planner 避干扰。
  • 边界条件:Llama3-8B、Mistral-24B、Qwen2.5-72B;BurstGPT/Azure traces。

实验与结果

  • vs ServerlessLLM:TTFT 47–75% 缩短,TBT tail 最高 94% 缩短。
  • vs vLLM/DistServe(无 autoscale,按峰值 provisioning):同 SLO 下 GPU -49%
  • ServerlessLLM cache miss 20–46%(5min keepalive)。
  • 满足 72B SLO 需 ~220 Gbps/GPU 加载带宽(simulator)。

Critical Analysis

论证链条

SLO 仿真定带宽预算 → 测量 cache miss 与网络空闲 → multicast+live 设计 → 多模型 trace 端到端,逻辑紧密。49% GPU 节省相对「按峰值 over-provision」baseline,非同等 GPU 下 latency 对决。

假设压力测试

千模型 MAAS 全局 pool 的元数据与一致性?multicast plan NP-hard,在线启发式最坏情况?与 Disaggregation PD 下 KV 迁移峰值叠加时 fabric 瓶颈。

实验可信度

Trace 来自 Azure/BurstGPT 有代表性;ServerlessLLM 为直接 SOTA。vLLM 未做同 autoscale 策略对比需注意。

系统性缺陷

论文未讨论 partial layer 权重损坏、扩缩失败回滚;multi-tenant 公平性与计费模型未展开。

局限与 Future Work

  • 局限 1:极 cold + 慢网络仍难达 500ms 72B SLO。
  • Future work 1:与 speculative 加载、量化权重传输结合。
  • Future work 2:与 KV-Cache 动态迁移联合调度。

相关