Zero Redundancy Distributed Learning with Differential Privacy (MLSys 2026)

一句话总结：DP-ZeRO 把 Book-Keeping per-sample gradient clipping 算法嫁接进 DeepSpeed/FSDP 的 ZeRO-1/2/3 + fp16 mixed-precision 流水，首次让 DP 训练做到 GPT-100B、ViT-10B 规模，速度与内存几乎匹配非 DP ZeRO。

问题

Differentially-Private (DP) 深度学习需要 per-sample gradient clipping + noising，在单卡上 Book-Keeping (BK) 算法已做到 1.03-1.08× 标准训练开销。但上到多卡：

DDP：要缓存 per-sample gradient，内存爆炸，还比非 DP 慢 2-9×；且装不下 > 单卡模型。
Pipeline Parallel (GPipe)：He et al. 把 DP 接 PP 做 GPT3-175B 微调 0.1% 参数，但 pipeline bubble 浪费 GPU。
ZeRO / mixed-precision：标准 LLM 训练的 SOTA，但与 DP 从未成功组合过——per-sample clip 需要完整的 per-sample gradient，而 ZeRO 把 optimizer state/gradient/parameter 都分片了，loss scaling 在 DP 下也非 trivial。

核心方法

DP-ZeRO 把 DP 数学与 ZeRO 系统解耦，仅改 back-propagation 阶段：

BK-based DP 后向：利用 mixed ghost norm（per-sample gradient norm 几乎免费）+ book-keeping trick（单次完整 BP，不做两次）；只在 back-prop 阶段注入 per-sample clip C_i 和 Gaussian noise。
数学分区 vs 硬件分区解耦：DP 的 M 组参数分区（all-layer / layer-wise clipping）在数学上决定精度，ZeRO 的 N_d 卡数分区决定硬件；二者可正交（Figure 2 区分）。
Mixed-precision DP：正确处理 fp16 下的 loss scaling，使 DP 也能享受 ≈50% 内存节省和 ≈20% 通信加速。
与 ZeRO-1/2/3 完全兼容：ZeRO-1 分 optimizer state、ZeRO-2 加分 gradient、ZeRO-3 加分 parameter，内存降到 $16Ψ/ N_{d}$ 级，DP 版本保持相同 scaling。
泛化到通用层类型（linear、conv、embedding、normalization），可插 DeepSpeed 或 PyTorch FSDP，一行代码切换。

关键结果

首次训练 GPT-100B、ViT-10B、ViT-Gigantic、GPT2-XL 全参数 DP 训练（而非只调 0.1%）。
速度与内存接近标准 ZeRO：DP 占主要开销的 back-prop 在 BK 下只比标准贵一点，forward 和 communication 开销完全一致。
多节点场景（inter-node 3-24× 慢于 intra-node）下 DP-ZeRO 因通信开销相对占比变高，与 ZeRO 速度差距更小。
Codebase 将开源，支持 classification / NLU 等通用任务。

Awesome System Papers Wiki

探索

DP-ZeRO-MLSys26

Zero Redundancy Distributed Learning with Differential Privacy (MLSys 2026)

问题

核心方法

关键结果

相关

关系图谱

目录

反向链接