Foundation 综述

本 topic 收录开创性/里程碑工作——那些被后续所有论文奉为共同祖先、无法被时间淘汰的基石论文。当前两篇恰好站在 2017 → 2026 的两端:Transformer 奠定整个 LLM 时代的架构根基,DeepSeek-V4 代表 9 年后开源 frontier model 的综合 state-of-the-art(1M context、1.6T MoE、Muon 训练、FP4 QAT、on-policy distillation),两者形成一条清晰的 “从 seed idea 到巨型系统” 传承线。

论文列表

架构基石(1 篇)

  • Attention Is All You Need — Vaswani et al. 2017。提出完全基于 self-attention 的 Transformer,WMT 2014 EN-DE 28.4 BLEU / EN-FR 41.8 BLEU,抛弃 RNN/CNN;Multi-Head + Scaled Dot-Product + 正余弦位置编码,是几乎所有现代 LLM 的共同祖先

开源 Frontier 综合(1 篇)

  • DeepSeek-V4 — DeepSeek-AI 2026。1.6T MoE 模型(49B 激活),原生 1M-token context。混合 CSA+HCA 注意力把 1M context 下的推理 FLOPs 压到 V3.2 的 27%、KV-Cache 压到 10%;Muon optimizer + mHC + FP4 QAT;post-training 走 specialist RL + full-vocabulary on-policy distillation;在多数开源基准上建立新 SOTA

主题综述

一条 9 年的架构传承线

Attention Is All You NeedDeepSeek-V4,主干架构几乎没变:stacked self-attention + position-wise FFN + 残差连接 + LayerNorm。DeepSeek-V4 论文 Abstract 明确写 “retain the Transformer architecture”,这本身就是 foundation 论文的”合格证”——能在十年尺度上被继承的架构极为稀有。但壳子里的每个组件几乎都被重做了一遍:

  • FFN 层: dense → DeepSeekMoE 稀疏路由 + 前几层 Hash routing;MoE 从”加速实验”变成 frontier model 的默认选择
  • Attention: 原生 dense → CSA(压缩 + sparse top-k)与 HCA(重度压缩 + dense)的 hybrid 组合,把 1M context 的算力需求压到原来的零头
  • 残差连接: 固定 1.0 权重相加 → Manifold-Constrained Hyper-Connections,约束到 Birkhoff polytope 保证谱范数 ≤ 1,让极深堆叠稳定
  • 位置编码: 正余弦 / learned absolute → partial RoPE(仅后 64 维)+ attention sink

同一主干、两个完全不同的工程量级

Attention Is All You Need 整篇论文 10 页,训练 8×P100 GPU 3.5 天,65M-213M 参数;而 DeepSeek-V4 技术报告 50+ 页,Infrastructure 单独占一整章(EP mega-kernel、TileLang DSL、batch-invariant deterministic kernels、FP4 QAT、DSec sandbox),训练 33T tokens,1.6T 参数。这种体量差反映了过去 9 年 LLM 发展的核心矛盾:算法进步相对缓慢,系统工程承载能力指数增长。DeepSeek-V4 的许多”创新”其实是在把 2017 年那张 Figure 1 同样的架构图,做到 2026 年硬件上仍能跑的工程形态。

foundation 的意义是跨时间的锚点

之所以把这两篇放到同一个 foundation topic 里,不是因为它们题材相近,而是因为它们都被后续论文广泛引用为共同起点——Transformer 几乎被每一篇 ML / LLM 论文引用,DeepSeek-V4 刚发布就会成为今后 1-2 年开源社区的 baseline。与 AI-Infra 等专题不同,foundation 的意义不在于技术集群归类,而在于提供跨时间的锚点:做 KV cache 优化的读 Transformer 对 attention 的定义,研究 1M context 的读 DeepSeek-V4 对 CSA+HCA 的权衡,研究 MoE 训练的同时读这两篇——一篇给你 building block,一篇给你 state-of-the-art baseline。

值得关注的方向

1. 从 Transformer 2017 起跳,找”尚未被 DeepSeek-V4 做完”的空白

为什么小团队能做:对照两篇论文的 delta 就能定位尚未工程化的空档。Transformer 论文末尾列了 “Making generation less sequential is another research goal” —— 9 年后 Speculative-Decoding 做了一部分,但很多原始 open problem 仍然成立。

指向这个空白的论文:

  • 原 Transformer 论文 结尾的 “local, restricted attention” 和 “extend to images, audio, video” 两个 future work,都已被 DeepSeek-V4 的 CSA + sliding window 吸收——证明 foundation 论文的 future work section 是 open problem 富矿
  • DeepSeek-V4 只在 text 上做 1M context;vision / audio / code 的 long-context 工程化仍有空间

具体 open problems:

  • Transformer 原文 Table 1 里的 “restricted self-attention(邻域 )” 给出 复杂度和 path length,这在 1M context 下如何和 DeepSeek-V4 的 CSA+HCA hybrid 做更细粒度组合?
  • Transformer 正余弦位置编码 “extrapolate to longer sequences” 的原始假设,在 1M 尺度下是否仍成立?RoPE、ALiBi、mHC 的各自外推边界在哪里?

2. Foundation 级工作的”可复现与 benchmark 化”

为什么小团队能做:读懂 foundation 论文、复现其关键结果、构建对比 benchmark 是典型的学术原型工作,不需要 frontier GPU 资源。

指向这个空白的论文:

  • DeepSeek-V4 开源了权重和部分 infrastructure(MegaMoE、TileLang、DSec)但完整训练 pipeline 不可能被小团队复现——可构建压缩版可复现 benchmark,如用 1B-10B 参数验证 mHC / CSA / HCA 各自贡献
  • 原 Transformer 的 ablation Table 3 给出 5 个变量(A-E)的 control experiment——这种严格 ablation 在 frontier 论文里越来越稀有

具体 open problems:

  • 在相同算力预算下,mHC 相对普通残差带来的 quality gain 具体有多大?(DeepSeek-V4 论文给了定性描述但缺对照实验)
  • CSA 的 “先压缩再稀疏” vs HCA 的 “只压缩不稀疏”,在不同层深度上的最优混合比例是什么?
  • FP4 QAT 在非 DeepSeek 架构(如 Llama、Qwen)上的无损性保持能到多深?

3. 把 foundation 级方法”反向投射”到小模型

为什么小团队能做:DeepSeek-V4 的许多技术(Muon、mHC、CSA、FP4 QAT、specialist → OPD)单独拆开就是独立可发论文的主题,在 1-8B 模型上验证成本可接受。

指向这个空白的论文:

  • DeepSeek-V4 把 Muon optimizer 用在超大规模上,但 Muon 在 small / medium 模型、特别是数据受限场景下的 scaling law 仍待研究
  • On-policy distillation(OPD)在 DeepSeek-V4 里用了 10+ teacher,小团队可以研究 2-3 teacher 的简化版在 3-8B 模型上的效果

具体 open problems:

  • Muon 的 Newton-Schulz 迭代系数 是否能 task-adaptive?
  • OPD 的 “full-vocabulary reverse KL” vs 传统 distillation(forward KL / token-level),在什么规模下差异才显著?
  • mHC 的 doubly stochastic 约束在小模型上是否仍必要,或可放松为 stochastic(行归一化即可)?