MLSys 2026

79 篇论文，KV-Cache / attention / Speculative-Decoding 三条 LLM 推理主线占 ~30%，MoE 训练与推理加 MoE 友好的调度是本届最密集的新共识，AI4AI（LLM 自动生成 kernel / HDL / 优化算法）正从 OSDI/SOSP 溢出到 MLSys，联邦学习与可审计 ML（ZK、GPU-CC、确定性复现）形成独立集群。

概览

LLM 推理系统仍是中心引力场。围绕 serving 的调度、disaggregation、attention kernel、KV cache、speculative decoding 占掉近一半的 proceedings。NVIDIA-Disagg-Study 这类「pragmatic take」式经验研究首次进场，与 LayeredPrefill、LAPS 等对 Chunked-Prefill 痛点的系统性修补呼应——MLSys 2026 已经过了「disaggregation 能否 work」的阶段，进入「哪些工作负载该 disagg、怎么 rate match」的细粒度优化时代。

MoE 问题开始主导大模型系统设计。从训练端的 FP8FlowMoE、MoEBlaze、FarSkip-Collective 到推理端的 CRAFT、EventTensor，再加上多个「MoE-aware」调度工作（LayeredPrefill、CRAFT），MoE 系统问题从 2024-2025 年的附带话题升级为与 dense LLM 并列的议题轴。

AI4AI 急速扩张：用 LLM agent 自动生成 GPU kernel（AccelOpt、PIKE、TritorX）、HDL（VeriMoA）、auto-tuning 优化器（LLaMEA-KernelTuner）、合成训练数据（Matrix）的工作形成独立 track。相比 2024-2025 年 FunSearch / AlphaEvolve 这类 hero demo，MLSys 2026 的 AI4AI 论文更强调「闭环可复现」：提供 benchmark（FlashInfer-Bench）、error-fixing 子 agent、多 backbone 对比。

可审计 / 可信 ML 浮出水面：Hawkeye（CPU bit-exact 复现 Tensor Core）、ZK-APEX（approximate unlearning 的 ZK 证明）、GPU-CC-Security（Hopper confidential computing 分析）、Privatar（VR 安全卸载）、DP-ZeRO（DP + ZeRO）共同构成「推理/训练过程可以被第三方验证」这一新研究方向。这在 OSDI/SOSP 原本是独立议题，现在开始渗透 MLSys。

与往届的对比：相比 MLSys 2025，本届 PagedAttention / vLLM 内部优化式论文明显减少，取而代之的是「跨 vLLM/SGLang 的 IR 层（SpanQueries）」、「vLLM 之外的替代 compile 路径（EventTensor、FlashInfer-Bench、Flashlight）」，说明社区已经把 vLLM/SGLang 当成基础设施而非研究目标。

论文分类

LLM 推理服务与调度（13 篇）

LayeredPrefill — 把 prefill 调度轴从 token 换成 layer-group，消除 Chunked-Prefill 在 MoE 上的冗余 expert 重载，TTFT 降 70%
Stream2LLM — 在 vLLM 上扩展 streaming prompt，LCP 缓存失效 + 成本感知抢占，RAG TTFT 降至 1/11
HELIOS — multi-model 协同 + greedy 层加载，EE-LLM 吞吐 1.48×、batch size 15.14×
LAPS — prefill 阶段内部再按长度 disaggregate，隔离长/短 prefill，SGLang 对比降 30% 延迟
BatchLLM — 微软大批量 offline 推理，global prefix 树 + 内存中心 token batching，比 vLLM/SGLang 1.3-10.8×
BOUTE — 多目标 Bayesian 优化联合选择异构模型和异构 GPU，cost 降 15-61%
SuperInfer — GH200 Superchip 上 OS-style rotary scheduler + DuplexKV 全双工 KV，SLO 达成率 +74.7%
MorphServe — runtime 按负载切换层精度 + KV 弹性，SLO 违规降 92.45%
OptiKit — eBay 端到端 LLM 优化框架，Ray actor + 压缩 + SLO 基准，吞吐 2.8×
NVIDIA-Disagg-Study — 数十万设计点系统评测 disaggregation，Disaggregation 对 prefill-heavy + >10B 模型收益最大
ProfInfer — eBPF uprobe 挂 llama.cpp 三层 + PMC 计数器，开销 <4%
SpanQueries — 声明式 span query IR 统一 RAG/agent/inference-scaling，492 行改动让 vLLM TTFT 降 10-20×
FlashInfer-Bench — AI 生成 kernel 闭环框架，抗 reward-hacking + 动态 apply() 注入 vLLM/SGLang

Attention / KV Cache 优化（8 篇）

FlexiCache — KV head 时域稳定性分级处理，GPU 显存降 70%、吞吐 1.38-1.55×
Kitty — 2-bit KV-Cache + channel-wise 精度提升 + Triton dequant kernel，8× 内存、2.1-4.1× 吞吐
MAC-Attention — 匹配 pre-RoPE 查询复用 attn summary，128K 下 KV 访问降 99%、attn 14.3×
SkipKV — reasoning 模型的句级 KV eviction + adaptive steering，2× 压缩下准确率 +6.7%
BLASST — FlashAttention online softmax 运行时 skip 低贡献 block，prefill 1.62×、decode 1.48×
IntAttention — IndexSoftmax 32-LUT 实现纯整数 attention，Arm CPU 比 FP16 快 3.7×
FlashAttention-4 — Blackwell B200 上 2-CTA MMA + TMEM + 软件 exp，BF16 1613 TFLOPS/s，cuDNN 比 1.3×
MTraining — Context Parallelism 下动态稀疏注意力的 Striped 布局 + Hierarchical Ring，Qwen2.5-3B 上下文到 512K

Speculative Decoding 与新解码范式（7 篇）

DAS — RL rollout 的 per-problem 滑动窗口 suffix tree drafter + long-tail budget 分配，rollout 延迟 -50%
PRISM — 按 draft step 拆分 draft model（类 MoE 条件计算），SGLang 吞吐 >2.6×
SparseSpec — self-speculation + PillarAttn 动态 sparse，从 verify 阶段白嫖 top-K，Qwen3 上 2.13×
SpecDecodeBench — 首次生产级 vLLM 上系统评测，验证阶段开销主导、接受行为高度异质
SpecDiff-2 — 离散扩散 drafter + streak-distillation + self-selection，5.5× 加速无损
TiDAR — diffusion-AR 混合，单前向 diffusion drafting + AR verification，无损 4.71-5.91×
CDLM — block-wise causal mask + consistency 蒸馏把 diffusion LM 压成 block-causal，3.6-14.5× 降延迟

MoE 训练与推理（5 篇）

CRAFT — MoE expert replica 按层动态分配（MCKP DP），DeepSeek-R1/Kimi-K2 上比 EPLB 均匀复制 1.14-1.2×
FarSkip-Collective — 改 skip 连接让下一 sub-block 用 partial activation 启动，all-to-all 与计算重叠，FCSD 蒸馏 <2.5% 精度差
FP8FlowMoE — scaling-aware transpose 算子消除重复 cast，DeepSeek-V3 训练 +21%、单卡显存 -16.5 GB
MoEBlaze — MoE token 路由无 per-expert buffer，on-the-fly gather/scatter 融合 + 与 SwiGLU checkpoint 协同，4× 加速
EventTensor — 把 GPU 同步事件抽象成一等 tensor，symbolic shape + 数据依赖索引，ETC 编译器 MoE 1.23×

分布式训练与并行（10 篇）

AXLearn — Apple JAX/XLA 模块化训练框架，RoPE/MoE 10 行代码配置，H100/TPU v5p/Trainium2 全兼容
DistCA — Core Attention Disaggregation，无参数 softmax(QK)V 剥离到独立 attention server 池，512 H200 / 512K context 上 +35%
HetRL — 跨地区异构 GPU 集群跑 PPO/GRPO，5-level 搜索 + 遗传算法，比 verl/OpenRLHF 平均 3.17×
HexiScale — 全 asymmetric 的 DP/TP/PP 三维并行 + 分层 graph partition，异构集群 MFU 追平同构高端
DreamDDP — Local SGD 整模型同步拆成 layer-wise partial sync，32-GPU 低带宽下 1.49-3.91×
DP-ZeRO — 把 Book-Keeping per-sample 梯度裁剪嫁接进 DeepSpeed/FSDP ZeRO-1/2/3，首次让 DP 训练达 GPT-100B / ViT-10B 规模
NEST — level-wise 网络抽象 + memory modeling 的 DP 解 7 种并行联合优化，比 Alpa/TopoOpt/Mist 2.43×
ProTrain — 把 ZeRO + tensor swap + gradient checkpoint 统一到自动搜索，比 DeepSpeed/Colossal-AI/FSDP 1.43-2.71×
veScale-FSDP — ByteDance 新 FSDP backend，RaggedShard + Distributed Buffer，生产 10K+ GPU，吞吐 +5-66%
BOOST — 低秩瓶颈架构专用 TP（在窄瓶颈做 collective），vs. full-rank 1.46-1.91×、vs. vanilla TP 1.87-2.27×

GPU Kernel / 编译器 / 硬件互联（5 篇）

HipKittens — ThunderKittens 移植到 AMD CDNA3/4，8-wave ping-pong + chiplet swizzle，追平 AITER 手写汇编
ParallelKittens — 多 GPU kernel 的 8 个 primitive + 统一模板，<50 行 device 代码匹配 Flux/Comet/CUTLASS
Flashlight — TorchInductor 三类图重写，torch.compile 自动生成 FlashAttention 风格 Triton，对齐 FlexAttention
Collective-NoC — ML 加速器的 collective-capable NoC + Direct Compute Access（借 tile FPU 做 in-network reduction），GEMM 3.8×
PyLO — 学习型优化器 VeLO / small_fc_lopt 从 JAX 移植到 PyTorch + 自定义 CUDA kernel，ViT 优化器 4× 提速

LLM-driven 代码 / kernel / 数据生成（AI4AI）（6 篇）

AccelOpt — AWS Trainium NKI kernel 优化的 LLM beam search + optimization memory，gpt-oss + Qwen3-Coder 匹配 Claude 4 但成本 26× 低
LLaMEA-KernelTuner — LLM + 进化算法生成 auto-tuning 优化器，比人工 baseline 高 72.4%
PIKE — multi-agent kernel 优化的 exploit-heavy + error-fixing + 粗粒度 step，KernelBench H100 2.88×
TritorX — Meta MTIA 的 Triton ATen kernel 自动生成，484 算子、20K+ OpInfo 通过率
VeriMoA — spec-to-HDL 的 Mixture-of-Agents，quality-guided global cache，VerilogEval 2.0 Pass@1 +15-30%
Matrix — Meta FAIR 的 P2P message-driven multi-agent 合成数据，31 节点 248 GPU 上 12,400 并发，6.8× Coral

量化（3 篇）

CAGE — Pareto-optimality 推导的 curvature-aware STE 校正，3-bit W+A 预训练匹配 4-bit QuEST
MixLLM — 全局显著性给 ~10% 输出通道 8-bit、其余 4-bit，Llama 3.1 70B PPL 退化从 0.5 降到 <0.2
HyperTinyPW — 共享 micro-MLP 从 latent code 合成 PW 卷积权重，TinyML 6.31× 压缩

Agent 系统、记忆与 alignment（5 篇）

OpenHands-SDK — OpenHands 重构成 modular SDK，event-sourced state + opt-in sandbox + 100+ LLM 路由，SWE-Bench Verified SOTA
HIPPOCAMPUS — Dynamic Wavelet Matrix agent 记忆，压缩域 Hamming-ball 搜索，检索 31× 快、token 14× 少
OSWorld-Human — computer-use agent 延迟专项研究，planning/reflection 占总延迟 75-94%，369 任务人类金轨迹
PARROT — LLM sycophancy 鲁棒 benchmark，双盲对比 + 八状态分类，22 LLM 下 follow rate 4%-94% 20× 差异
RLVR-LowData — 程序生成 reasoning 数据集研究 RLVR 在 low data 下表现，mixed-difficulty 带 5× sample efficiency

扩散模型与视频生成（3 篇）

StreamDiffusionV2 — 视频扩散直播系统，SLO-aware batching + sink-token rolling KV + motion-aware noise，4× H100 达 58.28 FPS
Reparo — VQGAN + 时空 ViT 生成式视频会议编解码，每帧独立，50-75% 丢包 PSNR 比 VP9+Tambur 高 11-16 dB
db-SP — 视觉 DiT 的 dual-balanced（head + block）sequence parallelism，Wan2.1-T2V-14B 端到端 1.25×

联邦学习与隐私 / 可审计 ML（6 篇）

PLayer-FL — 借 model pruning 一阶重要性定义 federation sensitivity，第一个 epoch 决定哪些层 federate
ProToken — 联邦 LLM 的 token 级 client 归因，梯度加权 activation 内积，4×4 配置 98.62% 准确率
FLoRIST — stacked LoRA adapter 的 SVD + 能量阈值截断，vs. FLoRA 58×、vs. full FT 227× 通信
Privatar — 多用户 VR 把 avatar 重建 secure offload 到 PC，block-DCT 频域分割 + PAC Privacy，2.37× 并发
ZK-APEX — 边缘个性化模型的 approximate unlearning ZK 证明，Halo2 ~2h 比重训验证快 10^7×
GPU-CC-Security — 首个 NVIDIA Hopper GPU Confidential Computing 系统安全分析，上报多个问题

Benchmark / 可复现性 / 经验报告（3 篇）

Hawkeye — 逆向 Tensor Core rounding/subnormal/累加顺序，CPU bit-exact 复现 FP16/BF16/FP8 16×16 MMA
Chakra — Meta+GATech+HPE 的分布式 ML 执行图 schema + 生成式合成 trace，obfuscated trace 给 HW 厂商 co-design
SakuraONE — 800-GPU H100 AI HPC 集群经验，TOP500 #49，Top-100 中唯一 800 GbE + SONiC 开源网络栈

边缘 / 专业领域应用（5 篇）

EarthSight — LEO 卫星图像地面-轨道联合调度，多任务共享 backbone + 轨道 utility-driven filter，P90 延迟 51→21 min
Spira — 首个 voxel-property-aware 稀疏卷积引擎，vs. TorchSparse++/Minuet 平均 1.68×
CSLE — Cyber Security Learning Environment，Docker Swarm 数字孪生 + MDP 仿真，15 套 twin / 34 RL 算法
LEANN — 端侧向量索引不存 embedding，查询现场重算 + 两级 PQ+精确 + 度数保留剪枝，188 GB→4 GB（50×）
TransferEngine — 跨 ConnectX-7 + AWS EFA 的统一 RDMA 点对点库，IMMCOUNTER 完成通知，trillion-param RL 权重 1.3s

研究趋势

1. Chunked-Prefill 的「后时代」：调度轴开始从 token 重构为 layer / length / locality。2024 Sarathi-Serve 定下的 chunked prefill 范式正被多角度挑战。LayeredPrefill 直接把调度轴换成 layer-group 消除 MoE expert 重载；LAPS 在 prefill 内部再按长度 disaggregate；SpanQueries 把 chat/RAG/agent 统一到声明式表达式树以暴露 attention locality 优化空间；Stream2LLM 处理 streaming prompt 场景的 prefill 重叠。共同方向：chunk 只是工具，真正需要调度的是「模型层」「请求类型」「缓存局部性」这些 first-class 概念。

2. MoE 从 “附带支持” 升级到 “一等系统问题”。5 篇专攻 MoE 的论文外加 MoE-aware 调度（LayeredPrefill、CRAFT）表明 MoE 系统已脱离「vanilla dense serving 的变种」成为独立议题。FarSkip-Collective 改架构让 all-to-all 与计算重叠，FP8FlowMoE 从 FP8 cast 链路切入，MoEBlaze 消掉 per-expert buffer，EventTensor 提供 megakernel 编译路径。注意：所有论文都把 Kimi-K2 / DeepSeek-V3 当作默认 baseline——1T 参数的开源 MoE 已经是「标准测试集」。

3. Speculative decoding 走出 EAGLE 式 draft model 独霸格局。7 篇 speculative 工作呈现明显分化：SpecDiff-2、TiDAR、CDLM 用扩散模型做 drafter 绕开 AR 延迟瓶颈；DAS、SparseSpec 走 training-free 路线（suffix tree / self-speculation）；PRISM 把 draft model 按 step 切成 MoE 式条件计算。SpecDecodeBench 直接把标题写成 “Performance or Illusion?” 对现有工作发起 reality check——表明社区已对 single-number 加速报道失去信任。

4. AI4AI 成建制进入 MLSys。6 篇 LLM agent 生成 kernel / HDL / 优化器的论文（AccelOpt、PIKE、TritorX、VeriMoA、LLaMEA-KernelTuner、Matrix）外加 FlashInfer-Bench 的基准框架，构成了独立子领域。与前一代 hero demo 不同，这届明显强调：开源 LLM 足够（gpt-oss、Qwen3-Coder 匹配 Claude）、必须提供 benchmark（否则无法证明 generalization）、error-fixing subagent 比大模型本身更重要。

5. 可审计 / 可信 ML 从边缘变主流议题。Hawkeye（CPU 复现 Tensor Core）、ZK-APEX（unlearning ZK 证明）、GPU-CC-Security（Hopper CC 安全分析）、Privatar（VR secure offload）、DP-ZeRO（DP + ZeRO）共 5-6 篇。这些论文共同指向一个前提：AI 部署开始进入被监管、被审计、被挑战的环境，“训练/推理 is 正确” 不再是隐含假设。Hawkeye 的结论（Tensor Core 行为跨 Ampere/Hopper/Ada 完全可逆向）在审计和 compliance 领域是 enabling 级别的基础工作。

6. 异构硬件 / 非 NVIDIA 开始有一席之地。HipKittens 宣称 “消灭 CUDA moat”，在 AMD CDNA3/4 上追平 AITER 手写汇编；TransferEngine 跨 ConnectX-7 + AWS EFA；AccelOpt 在 AWS Trainium 上；TritorX 在 Meta MTIA；AXLearn 声称 H100/TPU v5p/Trainium2 全等权；SakuraONE 报告 800 GbE + SONiC 开源网络栈取代 InfiniBand。整届会议明显不把 H100 + NCCL + CUDA 当默认。

值得关注的方向

1. Span Query 风格的 declarative serving IR 研究

为什么小团队能做：SpanQueries 证明 492 行改动就能让 2B 模型准确率超过 stock 8B——核心难度不在写代码，而在设计声明式语义。适合 1-2 人深挖数月。

指向空白的论文：SpanQueries 只覆盖了 chat / RAG / inference-scaling / agent 四个场景的交换律；Stream2LLM 的 streaming prompt 语义没进 IR；FlashInfer-Bench 的 trace schema 是命令式的。

Open problems：能否把 agent 的 tool-calling 循环、speculative decoding 的 acceptance 逻辑也纳入 span query IR？在 MTraining 这类长上下文训练场景里 span query 能否表达 context parallelism 的 locality？

2. Speculative decoding 的 reality-check / benchmark 生产力

为什么小团队能做：SpecDecodeBench 的核心贡献不是新算法而是「对生产环境的严格测量」——单张 H100 或 2-4 张就能跑，主要工作是实验设计和数据收集。

指向空白的论文：SpecDecodeBench 暴露了 position / request / dataset 三层异质性但只给出粗粒度分析；DAS 专门针对 RL rollout 的长尾；SparseSpec 与 TiDAR 走不同技术路线但缺乏对比。

Open problems：在 reasoning 模型（o1 / R1 风格长 CoT）上 speculative 的 acceptance 如何演化？long-context（>64K）下 draft 模型该不该共享 KV？扩散 drafter（SpecDiff-2 / TiDAR）在真实 vLLM 上的端到端开销如何？

3. Agent memory 的 benchmark 与系统化度量

为什么小团队能做：HIPPOCAMPUS 用单机就跑完全部 benchmark（LoCoMo / LongMemEval）；OSWorld-Human 的人类金轨迹标注是劳动密集而非算力密集。

指向空白的论文：HIPPOCAMPUS 的 Dynamic Wavelet Matrix 给了一个具体内存数据结构，但没有与 vector DB / KV agent state / knowledge graph 的系统对比；OSWorld-Human 发现 planning/reflection 占 75-94% 延迟但没给出 agent 内部 KV 复用的系统方案。

Open problems：agent workflow 里「trajectory cache」的正确抽象是什么（KV-Cache 的 agent 版本）？跨 agent session 的 long-term memory 是否应该像 LEANN 那样不存而现算？

4. 可审计 ML 的轻量级工具链

为什么小团队能做：Hawkeye 全部用公开 PTX benchmark；ZK-APEX 的 Halo2 proof 在单机 <0.7 GB 内存。

指向空白的论文：Hawkeye 覆盖 FP16/BF16/FP8 16×16 MMA 但没覆盖 block-scaled fp4（Blackwell）、非方阵 MMA、Transformer Engine 的在线 rescaling；ZK-APEX 只做 unlearning，没做训练过程证明。

Open problems：能否给 MoE routing 做 ZK 证明（expert 选择不作弊）？能否在 confidential computing GPU 上运行带 attestation 的 speculative decoding？能否把 Hawkeye 扩展成「任何 GPU kernel 的 spec 级可复现性」的通用工具？

5. MoE 调度在非训练 / 非推理的第三空间

为什么小团队能做：MoE 系统研究以往需要 trillion 参数模型，但 CRAFT、FarSkip-Collective 都用 DeepSeek-V2-Lite (16B) / Qwen-3-30B 做验证——2-4 张 H100 足够。

指向空白的论文：CRAFT 只处理 replication 不处理 routing；FarSkip-Collective 改架构需要额外蒸馏；EventTensor 解决编译但不解决调度。

Open problems：MoE + speculative decoding 如何协同（draft 和 verify 的 expert 激活重叠率？）？MoE + RAG 缓存命中（哪些 expert 用于哪类 query）？MoE continuous batching 的 expert 预取调度？

6. 异构 / 非 NVIDIA kernel 的 DSL 迁移研究

为什么小团队能做：HipKittens 只有 6 位作者，核心工作是 ThunderKittens 风格 DSL 到 CDNA 的移植；AMD MI300 在云平台已可租（Lambda / vast.ai）。

指向空白的论文：HipKittens 聚焦 AMD；ParallelKittens 聚焦多 GPU；Flashlight 聚焦 PyTorch。这三者没有统一抽象。

Open problems：ThunderKittens/ParallelKittens/HipKittens 能否提取共同 primitive 变成跨 vendor 的真正可移植 DSL？Trainium / TPU / MTIA 有没有「tile DSL」路径？「learned optimizer」这类非传统 kernel（PyLO）是否需要单独的 DSL 抽象？

Awesome System Papers Wiki

探索

MLSys-2026