AI-Infra 综述

18 篇论文覆盖五条主线：MoE 推理与 expert placement（Libra、INET4AI、FluxMoE、MOE-INFINITY、OD-MoE、CoX-MoE、ContextAwareMoE-CXLNDP）、KV-Cache 跨请求复用与传输（CacheGen、CacheBlend、LMCache）、长上下文/稀疏注意力与长记忆（NSA、MSA、AttnRes）、KV 后处理与可编辑性（PASTA、LLMSteer、Cartridges）、KV 压缩与层感知策略（IceCache、MoE-nD）。

论文列表

MoE 推理与 Expert 管理（7 篇）

Libra — speculative gating prediction (70-80%) + Two-Stage Locality-Aware Execution，prefill +19.2%
Latency-Optimal MoE LB — ILP + heuristic 联合优化均衡与搬运代价，搬运 −57%、MoE 延迟 −12.5%
FluxMoE — expert 权重 PagedTensor 分页 + 两层滑动窗口，Qwen3-Next-80B 上 3.0× 吞吐
MOE-INFINITY — personal-machine request-level sparse expert cache，3.1-16.7× TPOT 改善
ContextAwareMoE-CXLNDP — CXL-NDP 执行 cold experts + prefill-guided placement，最高 8.7× decoding throughput
OD-MoE — shadow model SEP 预测 expert activation，cacheless edge loading，99.94% recall
CoX-MoE — AMX CPU-GPU co-execution + coalesced expert execution，最高 2.4× over MoE-Lightning

KV Cache 跨请求复用与传输（3 篇）

CacheGen — KV cache 自定义量化 + 算术编码 3.5-4.3× 压缩，adaptive streaming 按带宽调级别
CacheBlend — RAG 多 chunk selective KV recompute（<15% token），TTFT 降 2.2-3.3×
LMCache — GPU/CPU/SSD/remote 多 tier KV 中间件 + prefix reuse + PD disaggregation，最高 15× 吞吐

长上下文 / 稀疏注意力与长记忆（3 篇）

NSA — 压缩 + 选择 + 滑动窗口三分支原生可训练稀疏 attention，64K 解码 11.6×、backward 6.0×
MSA — 端到端可微 sparse attention 替代 RAG retrieve-then-read，2×A800 跑通 100M token
Attention Residuals — 层间残差升级为 softmax attention，Kimi Linear 48B 下游全面提升

KV Cache 后处理与可编辑性（3 篇）

PASTA — post-hoc attention steering + head profiling，Llama-7B 平均 accuracy +22%
LLMSteer — query-independent 双次 re-reading steering，兼容 prefix caching，质量差距缩小 65.9%
Cartridges — self-study 离线训练紧凑 KV 表示，38.6× 更少内存、26.4× 更高吞吐

KV Cache 压缩与检索（2 篇）

IceCache — semantic token clustering + PagedAttention page selection，36k context 99.0% accuracy
MoE-nD — per-layer routing eviction/K/V bits，136 MB 达到 14× compression 且匹配 1.9 GB baseline

主题综述

主线一：MoE 推理从 load balancing 扩展到多层异构 placement

MoE 已成为 frontier LLM 默认架构，但 specialization 与 inference-time imbalance 的矛盾把研究重心从「均衡 expert 数」推向「expert 权重与 token 该放在哪层内存、哪类设备」。本 topic 里 Libra 与 INET4AI 互补攻击 prefill 阶段 LB：前者用 hidden state 慢演化做 speculative gating（70-80% vs Lina 20-30%），后者用 ILP 把单次 LB 搬运从 13036 expert 压到 2440。但 decode 阶段单 token batch 与跨节点 LB 仍是空白。

FluxMoE 走第三条路：不做 LB，把冷 expert 当 PagedAttention 式虚存分页。与 MOE-INFINITY（request-level cache）、OD-MoE（完全取消 cache）、ContextAwareMoE-CXLNDP（CXL-NDP 就地算 cold expert）、CoX-MoE（AMX CPU-GPU 共执行）对照，MoE inference 的关键抽象已从「一个 GPU cache」变成 多层异构资源上的 expert placement 问题。

主线二：KV Cache 从 GPU 临时对象演化为跨 tier 一等数据

CacheGen → CacheBlend → LMCache 构成 UChicago/Tensormesh 团队三部曲：传输压缩 → 多 chunk 语义融合 → 全栈中间件。核心观察是相邻 token KV 有 locality（delta 方差低 2.4-2.9×）、浅层量化更脆、RAG 多 chunk 的质量损失主要来自缺失 cross-attention 而非位置编码错误。LMCache 把「KV cache as first-class data object」推到工业现实——与 PASTA/LLMSteer/Cartridges 的「KV 可编辑」路线汇合，形成 持久化 + 可复用 + 可后处理 的完整范式。

主线三：长上下文瓶颈从系统调度转向算法-系统协同

NSA 强调稀疏 attention 必须 原生可训练且硬件对齐——仅降 FLOPs 不够，kernel 必须少搬 KV；MSA 用可微 routing key 把 RAG retrieve-then-read 压进单一 attention；AttnRes 则在深度维度用 attention 替代固定残差，缓解 PreNorm dilution。三篇共同假设：长上下文的解法不能只靠 KV 分页或 offload，必须改信息聚合方式；但各自评测边界不同（NSA 偏 64K MoE 训练/推理 kernel，MSA 偏 100M NIAH，AttnRes 偏下游任务质量）。

主线四：KV 压缩从 uniform policy 走向 query/layer aware

IceCache 在 token/page 维度做 semantic clustering 提高 query-aware hit rate；MoE-nD 在 layer 维度路由不同 (keep ratio, K bits, V bits)。两者都挑战「全局单一 KV budget knob」，暗示下一代系统会暴露 query、layer、head、page、precision 多个可调轴。

共同观察

1. KV-Cache 与 expert 权重在 HBM 上竞争同一块预算，且竞争形态随 batch/阶段变化。 FluxMoE/MOE-INFINITY 假设 MoE 推理的主要压力来自 expert 权重 materialization；CacheGen/LMCache 假设跨请求 KV 复用与传输才是 prefill 瓶颈；MoE-nD 则把 KV 压缩做成 per-layer 路由。适用边界：HBM 充裕、短 context、dense 模型或强量化后权重已非主导时，paging/offload 收益会被 VMM 与 remap overhead 吃掉（FluxMoE Critical Analysis 已指出）。

2. Prefix/chunk 局部性是 KV 复用收益的前提，而非默认成立。 CacheBlend/LMCache/LLMSteer 都依赖稳定 chunk 边界与高复用率；Cartridges 更进一步假设离线训练成本可被多 query 摊销。适用边界：一次性 prompt、多租户强隔离、chunking 策略频繁变化或长输出 multi-turn chat（decode 主导、共享少）时，离线 steering/cartridge 的 ROI 急剧下降。

3. MoE routing 的可预测性是 prefetch/LB/offload 的共同隐含假设。 Libra 用 hidden state 慢演化、OD-MoE 用 shadow model SEP、INET4AI 用 popularity 时间衰减——都假设 expert activation 在 request/token 尺度上可预测。适用边界：强 load-balancing 训练、conversation/code/math 混合 batch、高温采样或 router 对数值误差敏感的新架构下，预测精度与 recall 会同时下滑。

4. 浅层 KV/attention 状态对质量更敏感，是压缩与稀疏化的硬约束。 CacheGen 的分层量化、MoE-nD 的 per-layer sensitivity table、NSA 的多分支稀疏都暗含此规律。适用边界：任务高度依赖浅层 lexical detail 或长程精确对齐（代码跳转、表格、needle-in-haystack 变体）时，统一压缩/稀疏策略可能失效。

假设冲突与脆弱点

1. Expert cache vs cacheless：历史复用值不值得为它占 HBM？ MOE-INFINITY 假设 personal-machine batch=1 下 request-level expert reuse 足以支撑 sparse cache；OD-MoE 假设 shadow model 多层 ahead prediction 足以 完全取消 cache 且 99.94% recall。脆弱点：多用户 continuous batching 或长 context 挤压 expert cache 时，前者 working set 膨胀；router 对量化误差敏感时，后者 alignment 开销与 routing drift 可能反超收益。需在同一 trace 上测 cache hit rate vs shadow inference overhead vs end-to-end TPOT。

2. KV 复用：full reuse、selective recompute 还是离线蒸馏？ CacheBlend 假设缺失 <15% token KV recompute 即可补偿 cross-attention；Cartridges 假设可用梯度下降 完全替代 prefill 生成紧凑 KV；PASTA 则只做 post-hoc attention 重加权。脆弱点：chunk 彼此独立时可 full reuse；需要强 cross-chunk 推理时 Blend 必要；Cartridge 对窄域 extractive 任务可能不如 RAG 便宜。需按任务类型分解 TTFT、质量与离线成本三维权衡。

3. MoE LB：复制 expert vs 分页权重 vs 远端 NDP 计算。 Libra/INET4AI 假设复制/搬运 expert 是主要代价；FluxMoE 假设分页权重即可；ContextAwareMoE-CXLNDP 假设 cold expert 应 就地算 而非搬回 GPU。脆弱点：网络带宽、CXL 延迟、GPU 算力与 expert 大小的比值决定最优策略；无单一方案在所有 MoE 规模与硬件上占优。

4. 长上下文：训练原生稀疏 vs 运行时 KV 中间件。 NSA/MSA 假设应改 attention 算子与训练目标；LMCache/IceCache 假设在 不改模型 前提下用系统层复用/压缩即可。脆弱点：NSA 在短 context 或 KV 已被其他机制压缩时收益下降；MSA 的 NIAH 高分不一定等于综合推理稳定；系统层方案对 thinking model 超长 CoT 的 silent correctness 未验证（连接 LLMSteer 的 steering 风险）。

5. Prefix-caching 兼容 vs 质量增益：steering 能否不改变语义？ LLMSteer 假设 query-independent steering 可安全复用；PASTA 的 query-dependent steering 与 prefix cache 不兼容但质量更高。脆弱点：被修改的 KV cache 是否产生与原始 prefill 不一致的输出，目前缺乏系统级 parity test；对多租户 eviction 频繁的部署，LLMSteer 的离线 re-reading 成本会重新显性化。

值得关注的方向

1. Decode 阶段 + 多节点的 MoE LB

为什么小团队能做：算法/系统问题，1-2 张 GPU + 开源 MoE 模型即可验证。

指向空白的论文：Libra 只优化 prefill；INET4AI 在单节点评估；OD-MoE 的 cacheless 路线未与 LB 联合优化。

具体 open problems：decode 单 token batch 下 expert miss 代价 vs prefill 的差异；跨节点 LB 时网络带宽与 GPU 算力联合优化；请求级 vs token 级 LB 的公平性。

2. 算法-系统协同的 KV cache / sparse attention 设计

为什么小团队能做：MSA 证明 4B backbone + 158B token 预训练可在单节点 8×A100 承担。

指向空白的论文：MSA、AttnRes、NSA 三条路线尚未在同一 serving 栈上对照。

具体 open problems：routing key projector 训练成本能否降到 8B + LoRA；block sparse 能否反向应用到序列维度；与 Speculative-Decoding 的组合稳定性。

3. KV Cache 可编辑性 pipeline 统一

为什么小团队能做：PASTA/LLMSteer 不需训练；Cartridges 冻结 LLM 只训 prefix K/V，单卡可跑。

指向空白的论文：PASTA、LLMSteer、Cartridges 未与 PagedAttention 生产系统深度集成。

具体 open problems：profiling → steering → distillation 按 workload 自动选策略；thinking model 超长 CoT 的 Cartridge 压缩；steering 的 silent correctness parity test。

4. Query/layer aware KV 策略的轻量 calibration

为什么小团队能做：MoE-nD 的 offline sensitivity table 与 IceCache 的 DCI-tree 都可在单卡上标定。

指向空白的论文：两者正交但未组合；LMCache 的多 tier 仍是全局 policy。

具体 open problems：layer sensitivity × semantic page 的联合布局；calibration prompt 长度与轴间偏好估计稳定性；与 PD disaggregation 传输格式的兼容性。

Awesome System Papers Wiki

探索

AI-Infra