Shannonic: Efficient Entropy-Optimal Compression for ML Workloads (MLSys 2026)

一句话总结：8-bit 量化张量分布偏斜但通用 ANS 需 4–16KB 状态；Shannonic 将符号编码为 (range ANS index, fixed-width offset)，530B codec 状态达 Shannon 限 1% 内，Theorem 1 证明分区在 ML 张量上优于标准 tANS；联邦学习 WiFi/LTE 上 1.3–3.1× 更快，边云 Llama2-7B 推理延迟降 29–32%。

问题与动机

Federated-Learning、边云协同 LLM、多级内存（FlexGen 类）使数据移动成瓶颈。Quantization 有损且训练场景需在线精度决策；通用无损压缩（zlib、zstd）表大、状态重，难进 ML 热路径。

目标：(1) 接近熵极限压缩；(2) 推理/训练吞吐匹配；(3) 仅数百字节状态、每符号少量 op。

关键观察 / 隐含假设

观察 1：量化后 INT8 张量 histogram 高度偏斜，少数值占大部分概率质量，但 alphabet 仍为 256。 标准 tANS 需 L≥4N（~1024 states）才近最优，表 4–16KB。
- 依赖假设：offline 预处理可为 weights/embeddings 用静态 histogram；activations 用少量 calibration 样本，分布漂移时刷新表（成本计入端到端）。
- 可能失效场景：极度均匀分布张量（分区 offset 惩罚 > tANS 量化增益）；动态范围剧变需频繁重 profiling。
观察 2：将 alphabet 分为 K=16 非均匀 range 后，range 内分布近均匀，固定宽度 offset 效率接近逐符号 ANS；range 索引用更小 L=128 的 tANS 即可。 Llama-3.1-8B layer.16 k_proj：tANS 5.592 b/sym vs Shannonic 5.336 b/sym（H=5.307），状态 8× 更少。
- 依赖假设：DP 在 256 符号上求最优 16 连续分区可离线完成；runtime 仅查 rangeId[x] + ANS 转移。
- 可能失效场景：K 过小无法拟合多峰分布；定理条件 (3) 在一般分布上不一定成立（论文针对 NN 张量实证验证）。
假设 1：530B working set 可常驻 L1，使软件 codec 达 100MB/s–9.76GB/s（平台/线程数相关），不拖慢训练/推理主路径。
- 证据强度：中——Pi5/i9 微基准有力；端到端 FL/边云实验确认收益，但未测与 GPU kernel 并发争用 L1 的极端情况。

核心方法

预处理：histogram → DP 求 K=16 连续区间最小化 entropy(range)+Σ N_s,e·⌈log2|E|⌉；建 rangeId[256]、128-state enc/dec table（base, nb, bias, start）。

Runtime（L=128）：Encode 发 offset nb[s] bits → 归一化 state X∈[128,255) → encTable 转移；Decode 逆过程。每符号 O(1) lookup/shift/add。

Theorem 1：给出 Shannonic 平均码长低于 tANS 的充分条件——分区减少 D_KL 量化损失超过 offset 开销 H(p|P)。

设计取舍

Range partition vs 纯 tANS/rANS：赢得状态 footprint 与 L1 友好；代价是离线 per-tensor 表 + 分布漂移时需 refresh。
固定 K=16, L=128 vs 自适应：实现简单、530B 固定；非最优张量可能浪费码率。
Lossless vs 量化：零精度损失，可与 INT8/FP8 正交叠加以再压带宽；不能替代低比特有损压缩的最大倍率。
静态表 vs 在线 adaptive coding：前者适合 ML 部署低延迟；训练态 activation 需 calibration 管线。
边界条件：主攻 8-bit 张量；硬件 RTL 实现提及但未作为主线评估。

实验与结果

码率：多样 8b 模型 codec 效率在 Shannon 限 1% 内；状态 530B combined encoder/decoder。
吞吐：Pi5 单流 decode 286MB/s，4 线程 1.14GB/s；i9 24 线程 decode 9.76GB/s。
联邦学习：ResNet-18 over WiFi/LTE，训练通信加速 1.3–3.1×（含表 refresh 成本）。
边云推理：Llama2-7B 激活传输，端到端延迟降 29–32%。
分布漂移：Table 2 显示仅显著 cross-range 概率质量迁移才明显伤码率（分区部分免疫）。

Critical Analysis

论证链条

定理 + Llama 层实例 + 多模型验证形成「ML 张量偏斜 → 分区 ANS 更优」闭合论证。系统案例（FL、边云）把码率优势映射到 wall-clock，非仅 b/sym 微观指标。

假设压力测试

已证明：8b weights/activations 广泛有效；漂移 refresh 成本纳入 FL 测量。
可能失效：FP16/BF16 直接上 Shannonic 需重新划 alphabet；多流并行每流一套表复制状态（论文讨论 replication 成本）。
未覆盖：与 zstd GPU、NVComp 等硬件压缩器头对头；训练 all-reduce 压缩与 NCCL 集成。

实验可信度

FL/边云场景贴合动机；ResNet-18 与 Llama2-7B 代表两类 workload。缺少与「仅量化、不无损」的带宽-精度 Pareto 曲线。

系统性缺陷

Per-tensor 预处理在超大模型上表管理复杂度论文未详述；多 tenant 共享 codec 状态隔离未讨论；错误解压对 ML 数值影响（bit-exact 要求）依赖无损保证。

局限与 Future Work

局限 1：主要针对 8-bit 离散张量；更低 bit 或浮点需扩展分区策略。
局限 2：Activation 分布漂移需 refresh 机制，极端 non-stationary 训练增加运维负担。
Future work 1：measurement 驱动找 K、L 与 per-layer vs per-tensor 表粒度的 Pareto（带宽 vs CPU cycles）。
Future work 2：与 FlexGen 式 tiered memory 集成，量化跨 tier 传输的端到端 energy。

Awesome System Papers Wiki

探索

Shannonic-MLSys26