HBM 的基本结构
HBM 把多层 DRAM die 垂直堆叠,通过 TSV(through-silicon via)和微凸点连接到底部逻辑/基底 die,再通过 interposer 与 GPU 相连。它牺牲了传统显存颗粒的板级灵活性,换来极宽 IO、较低每 bit 能耗和更紧凑的封装面积。
带宽为什么重要
AI 训练和推理通常受到矩阵运算与内存访问共同限制。算力增加后,如果权重、激活和 KV cache 无法及时搬运,GPU 会等待数据。HBM 的价值在于把数千位宽接口放在封装内,让 bandwidth 和能效优于远离 GPU 的传统 GDDR 方案。
工程约束
HBM 不是免费升级。堆叠层数越高,TSV、热、良率、测试和封装应力越难控制;容量、带宽、功耗和成本必须一起权衡。高级 GPU 往往由 HBM 供应、interposer 面积和封装产能共同决定交付节奏。