当代 LLM 架构在比什么：导读 Raschka 的长篇比较 - AI 学习笔记

主要引用（Ahead of AI / Magazine）

Raschka, S. (2025–2026). The Big LLM Architecture Comparison: From DeepSeek V3 to GLM-5: A Look At Modern LLM Architecture Design. Ahead of AI. 原文持续更新（含后续 Gemma 4、Qwen3-Next、Kimi Linear、Nemotron 等章节）。

https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison

作者想回答什么问题？

自 GPT-2（2019）以来已过去多年，但许多旗舰开源模型在块结构上仍高度相似：堆叠的 Transformer 解码器块、残差与归一化、自注意力加前馈层。Raschka 的观察是：位置编码从绝对走向 RoPE 及其变体，多头注意力常被 GQA 或 MLA 等更省 KV 的形式替代，激活函数与 FFN 细节（如 SwiGLU）也在演进——但在这些「装修」之下，是否仍是同一套骨架？

该文刻意不谈排行榜分数与训练配方（数据、超参往往不透明），而是把镜头对准可公开核对权重的结构差异：哪些设计在 2025–2026 年的开源旗舰里反复出现，它们各自解决的是哪类工程瓶颈（显存、带宽、延迟、长上下文、训练稳定性等）。

几条反复出现的技术主线

1. 注意力与 KV：从 MHA 到 GQA / MLA

GQA 通过让多组 query 头共享同一套 K/V 投影，降低推理时 KV cache 与带宽压力，在许多模型上已接近默认选项。MLA（Multi-Head Latent Attention）则走另一条路：在写入 cache 前把 K/V（以及训练时的 Q）压到低维潜空间，读出前再投影回原维，用额外矩阵乘换显存。文中以 DeepSeek 系为例说明 MLA 与 GQA 的取舍，并延伸到 Kimi、GLM-5 等对 MLA / 稀疏注意力的采用。

2. MoE：总参数量与「每 token 激活量」解耦

混合专家（MoE）用路由在每步只激活少量专家，使模型总容量可以很大，而推理路径保持稀疏；共享专家（shared expert）是否保留、专家数目与宽度的权衡（「许多小专家」相对「少量大专家」）、前几层用稠密块再切到 MoE 以稳定早期表示等，文中在 DeepSeek、Llama 4、Qwen3、Mistral 3、GLM 等多处对照出现。

3. Pre-Norm、Post-Norm 与「多加几层 Norm」

OLMo 2 一文强调 Post-Norm 变体 + QK-Norm 对训练曲线的稳定作用；Gemma 3 则在注意力子模块周围同时使用 Pre 与 Post 的 RMSNorm，追求两种范式的折中。说明「归一化放哪」至今仍是可感知的架构选择，而非细节癖。

4. 局部与全局上下文：滑动窗口与混合比例

Gemma 3、部分 Xiaomi / Trinity 等采用滑动窗口注意力与全注意力按层交替或按比例混合，在控制 KV 增长与保持全局依赖之间做折中；Mistral Small 3.1 等则回到全 GQA 以追求延迟与内核优化空间，体现目标不同则结构不同。

5. 线性时间模块与「Transformer + 状态」混合

为缓解注意力相对序列长度的二次代价，Qwen3-Next 等引入 Gated DeltaNet 与门控全注意力的混合块；Kimi Linear 在类似混合比例下改用 KDA 等变体，并在全注意子层使用 MLA；Nemotron 3 则走向 Mamba-2 与 MoE、少量注意力层的组合。文中也讨论线性注意力的工程教训（例如部分产品线在推理质量上回退到全注意）。

6. 其它「积木」

文中还分散涉及：NoPE（弱化显式位置注入）、MTP（多 token 预测）对训练信号与投机解码的帮助、attention sink / bias、p-RoPE（Gemma 4）、per-head QK-Norm（MiniMax-M2）等。它们往往单独成段，但共同指向一件事——在固定商业目标下，团队在可测的瓶颈维度上叠补丁。

阅读建议

若你刚读完本站《理解 Transformer》，可把原文当作「2017 论文块」到「2026 权重块」之间的带图对照表。
原文极长且持续追加章节，适合用作者提供的目录导航按需跳读；需要实现细节时可配合其 GitHub / LLM Architecture Gallery 等延伸材料。
与基准分数脱钩阅读：架构相似不等于数据与后训练相同，可复现比较仍受闭源环节制约。

总括来说，Raschka 的长文是一份面向从业者的开源权重架构地图：它帮助你在新模型发布公告时，快速把新闻语言翻译成「又换了哪几块积木」。更深入的证明、训练动力学与数据管线，仍需回到各技术报告与独立复现。

参考文献（完整 URL）

Raschka, S. The Big LLM Architecture Comparison: From DeepSeek V3 to GLM-5: A Look At Modern LLM Architecture Design. Ahead of AI (Substack Magazine). 首发约 2025-07，后续多次更新（如 GLM-5、Gemma 4 等）。
https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison
作者个人站点与博客入口：https://sebastianraschka.com/blog/