RDMA Point-to-Point Communication for LLM Systems (MLSys 2026)

一句话总结：跨 NIC 厂商（NVIDIA ConnectX-7 + AWS EFA）的统一 RDMA 点对点库 TransferEngine，用 IMMCOUNTER 完成非有序消息的通知，400 Gbps 线速，在 KvCache 传输、1.3 秒级万亿参数 RL 权重更新、MoE dispatch/combine 三大生产场景解除 vendor lock-in。

问题

新兴 LLM 系统模式——Disaggregation inference、MoE routing、异步 RL fine-tuning——都要灵活的点对点通信，超出 NCCL / torch.distributed 集合通信能力：

固定 membership 阻碍动态 scaling；
同步初始化开销大；
统一 buffer 形状对稀疏模式过度密集；
SEND/RECV 难组合出可用低延迟。

而 RDMA 侧又存在 vendor lock-in：DeepEP 依赖 ConnectX 独有的 IBGDA；NVSHMEM 在 EFA 上性能差；Mooncake、NIXL 缺 EFA 支持。ConnectX RC 有序、EFA SRD 无序，难统一抽象。

核心方法

TransferEngine 的关键观察：ConnectX RC 和 EFA SRD 都支持 reliable-but-unordered 语义（ConnectX RC 可忽略顺序）。围绕这一交集做统一 API。

核心原语：

SEND/RECV（两侧）+ WRITEIMM（单侧）。
IMMCOUNTER：32-bit immediate + 接收方计数器，不依赖消息顺序做完成通知；通过 GDRCopy 可直接同步到 GPU。
透明管理 multiple NIC / GPU（EFA p5 实例需要 4 × 100 Gbps 聚合到 400 Gbps）。
支持 paged WRITE / single WRITE / scatter / barrier；UVM watcher 让 CPU 从 GPU kernel（含 CUDA graph）驱动传输。

三类生产部署：

KvCache transfer（disaggregated inference）：prefill/decode 集群间 unrestricted 通信，支持 full CUDA Graph、layer-by-layer 低延迟传输，已在 EFA 上生产化。
RL weight update：每个 training GPU 直写到 inference GPU，pipeline 重叠 H2D memcpy / 权重准备 / RDMA 传输，万亿参数模型 1.3 秒更新，比现有 RL 框架（OpenRLHF、Slime、veRL）快 100x+。
MoE dispatch/combine：ConnectX-7 上 decode 延迟与 DeepEP 专用 kernel 持平（尽管用 host proxy thread），首次给出 EFA 上可用的 MoE 实现，靠 token + route 并行传输隐藏 D2H 和网络延迟。

Rust 实现，per-DOMAINGROUP worker pin NUMA，lock-free 队列，NIC-level sharding。

关键结果

线速 400 Gbps on ConnectX-7 和 EFA（聚合 4 × 100 Gbps）。
万亿参数 RL 权重更新 1.3 s（100x+ 快于现有框架）。
MoE decode 延迟与 DeepEP 持平；EFA 上首个可行实现。
同一二进制跨 ConnectX / EFA，避免 vendor lock-in。

Awesome System Papers Wiki

探索

TransferEngine-MLSys26

RDMA Point-to-Point Communication for LLM Systems (MLSys 2026)

问题

核心方法

关键结果

相关

关系图谱

目录

反向链接