BLASST: DYNAMIC BLOCKED ATTENTION SPARSITY VIA SOFTMAX THRESHOLDING (MLSys 2026)

一句话总结：长 context LLM 需要无预计算、无 proxy score 的稀疏 attention；BLASST 在 FlashAttention online softmax 中用 running max 与 block max 差 < ln(λ) 跳过整块 exp / V 加载 / MMA，prefill 1.62×（74.7% 稀疏）、decode 1.48×（73.2% 稀疏），且 λ∝1/L 自动标定。

问题与动机

Attention O(n²) 主导长上下文推理；FlashAttention 优化带宽但仍算满矩阵。MInference/XAttention 等需预计算或 proxy scores，开销可抵消收益；静态 pattern 不适配多样分布。多数方法只优化 prefill 或 decode 一端。

BLASST（BLocked Attention Sparsity via Softmax Thresholding）在 block-wise online softmax 中复用已有统计动态剪枝，统一 prefill+decode，支持 GQA/MLA/sliding window。

关键观察 / 隐含假设

观察 1：若 block 局部 max m̃ 比 running row max m 小超过 ln(λ)，则 exp 后整块对输出贡献可忽略。 无需另算 importance。
- 依赖假设：block-level 决策用 block max 代理 token-level 足够准。
- 可能失效场景：极尖锐分布或数值边界使少量远 token 仍重要时被误剪。
观察 2：阈值 λ 与 context 长度 L 呈近似反比 λ=a/L，可自动校准目标稀疏率。
- 依赖假设：不同任务/长度共享同一标定规律。
- 可能失效场景：多模态/检索增强导致 attention 模式突变需重标定。
观察 3：prefill 省 CUDA core+Tensor Core；decode 额外省 HBM V 加载，针对 memory-bound。
- 依赖假设：跳过逻辑开销相对 block 计算可忽略（与 FA 融合）。
- 可能失效场景：极低稀疏或极小 batch 时 branch 开销显性。
假设 1：sparsity-aware training 可进一步推 accuracy–sparsity 前沿（可选扩展）。**
- 证据强度：中——training-free 主路径已测；训练扩展为加分项。

核心方法

Algorithm 1 修改 FA forward：每 block 更新 running max；若 m̃−m < ln(λ) 跳过 exp、V load、P·V MMA。

CUDA kernels：prefill/decode 特化；与 FA2/FA3 类实现融合。

Calibration：自动搜 λ 达目标稀疏；发现 λ=a/L 规律。

Sparsity-aware training（扩展）：让模型适应稀疏模式。

设计取舍

Training-free drop-in vs 架构改动：易部署，上限受固定阈值启发式约束。
Block skip vs token skip：SIMD 友好，可能多剪一点。
vs SpargeAttention：BLASST 覆盖 decode 且零 proxy 开销；Sparge 仅 prefill 且有 prediction step。
边界条件：H200/B200 评测；与多种 attention variant。

实验与结果

Prefill：1.62× @ 74.7% sparsity；Decode：1.48× @ 73.2% vs FA baseline。
精度：高稀疏下 minimal degradation（多 benchmark）。
λ=a/L 标定跨长度鲁棒。
Sparsity-aware training 可进一步提高可承受稀疏率。

Critical Analysis

论证链条

Online softmax 已有 m → 可证 negligible block → 跳过三块昂贵操作 → 实测加速，逻辑紧。Block max 代理是主要近似跳步。

假设压力测试

128K–1M context 外推依赖 λ∝1/L 是否仍成立需更多点。与 KV-Cache 驱逐类方法正交但联合效果未知。batch>1 serving 行为论文偏 kernel 级。

实验可信度

强 FA baseline；prefill+decode 双评。缺：与 EAGLE/Speculative-Decoding 端到端 serving、多租户 tail latency。

系统性缺陷

论文未讨论误剪对安全对齐/长链推理的累积误差。动态 λ 在线切换的一致性未谈。

局限与 Future Work

局限 1：block-level 近似在极端 attention 可能掉点。
局限 2：production scheduler 集成为主。
Future work 1：per-layer adaptive λ 的 accuracy–speed 曲线。
Future work 2：与 FlexiCache/PagedAttention serving 栈端到端测 TPOT。

Awesome System Papers Wiki

探索

BLASST-MLSys26