主要引用(Ahead of AI / Magazine)
Raschka, S. (2025–2026). The Big LLM Architecture Comparison: From DeepSeek V3 to GLM-5: A Look At Modern LLM Architecture Design. Ahead of AI. 原文持续更新(含后续 Gemma 4、Qwen3-Next、Kimi Linear、Nemotron 等章节)。
https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison
作者想回答什么问题?
自 GPT-2(2019)以来已过去多年,但许多旗舰开源模型在块结构上仍高度相似:堆叠的 Transformer 解码器块、残差与归一化、自注意力加前馈层。Raschka 的观察是:位置编码从绝对走向 RoPE 及其变体,多头注意力常被 GQA 或 MLA 等更省 KV 的形式替代,激活函数与 FFN 细节(如 SwiGLU)也在演进——但在这些「装修」之下,是否仍是同一套骨架?
该文刻意不谈排行榜分数与训练配方(数据、超参往往不透明),而是把镜头对准可公开核对权重的结构差异:哪些设计在 2025–2026 年的开源旗舰里反复出现,它们各自解决的是哪类工程瓶颈(显存、带宽、延迟、长上下文、训练稳定性等)。
几条反复出现的技术主线
1. 注意力与 KV:从 MHA 到 GQA / MLA
GQA 通过让多组 query 头共享同一套 K/V 投影,降低推理时 KV cache 与带宽压力,在许多模型上已接近默认选项。MLA(Multi-Head Latent Attention)则走另一条路:在写入 cache 前把 K/V(以及训练时的 Q)压到低维潜空间,读出前再投影回原维,用额外矩阵乘换显存。文中以 DeepSeek 系为例说明 MLA 与 GQA 的取舍,并延伸到 Kimi、GLM-5 等对 MLA / 稀疏注意力的采用。
2. MoE:总参数量与「每 token 激活量」解耦
混合专家(MoE)用路由在每步只激活少量专家,使模型总容量可以很大,而推理路径保持稀疏;共享专家(shared expert)是否保留、专家数目与宽度的权衡(「许多小专家」相对「少量大专家」)、前几层用稠密块再切到 MoE 以稳定早期表示等,文中在 DeepSeek、Llama 4、Qwen3、Mistral 3、GLM 等多处对照出现。
3. Pre-Norm、Post-Norm 与「多加几层 Norm」
OLMo 2 一文强调 Post-Norm 变体 + QK-Norm 对训练曲线的稳定作用;Gemma 3 则在注意力子模块周围同时使用 Pre 与 Post 的 RMSNorm,追求两种范式的折中。说明「归一化放哪」至今仍是可感知的架构选择,而非细节癖。
4. 局部与全局上下文:滑动窗口与混合比例
Gemma 3、部分 Xiaomi / Trinity 等采用滑动窗口注意力与全注意力按层交替或按比例混合,在控制 KV 增长与保持全局依赖之间做折中;Mistral Small 3.1 等则回到全 GQA 以追求延迟与内核优化空间,体现目标不同则结构不同。
5. 线性时间模块与「Transformer + 状态」混合
为缓解注意力相对序列长度的二次代价,Qwen3-Next 等引入 Gated DeltaNet 与门控全注意力的混合块;Kimi Linear 在类似混合比例下改用 KDA 等变体,并在全注意子层使用 MLA;Nemotron 3 则走向 Mamba-2 与 MoE、少量注意力层的组合。文中也讨论线性注意力的工程教训(例如部分产品线在推理质量上回退到全注意)。
6. 其它「积木」
文中还分散涉及:NoPE(弱化显式位置注入)、MTP(多 token 预测)对训练信号与投机解码的帮助、attention sink / bias、p-RoPE(Gemma 4)、per-head QK-Norm(MiniMax-M2)等。它们往往单独成段,但共同指向一件事——在固定商业目标下,团队在可测的瓶颈维度上叠补丁。
阅读建议
- 若你刚读完本站《理解 Transformer》,可把原文当作「2017 论文块」到「2026 权重块」之间的带图对照表。
- 原文极长且持续追加章节,适合用作者提供的目录导航按需跳读;需要实现细节时可配合其 GitHub / LLM Architecture Gallery 等延伸材料。
- 与基准分数脱钩阅读:架构相似不等于数据与后训练相同,可复现比较仍受闭源环节制约。
总括来说,Raschka 的长文是一份面向从业者的开源权重架构地图:它帮助你在新模型发布公告时,快速把新闻语言翻译成「又换了哪几块积木」。更深入的证明、训练动力学与数据管线,仍需回到各技术报告与独立复现。
参考文献(完整 URL)
-
Raschka, S. The Big LLM Architecture Comparison: From DeepSeek V3 to GLM-5: A Look At Modern LLM Architecture Design. Ahead of AI (Substack Magazine). 首发约 2025-07,后续多次更新(如 GLM-5、Gemma 4 等)。
https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison - 作者个人站点与博客入口:https://sebastianraschka.com/blog/