良率的基本逻辑
良率表示最终可用芯片占总芯片的比例。缺陷密度、裸片面积、工艺窗口和设计冗余共同决定良率。大 GPU 裸片面积越大,遇到随机缺陷的概率越高,所以大芯片尤其依赖成熟工艺、冗余单元和严格过程控制。
测试链路
晶圆阶段会进行 wafer sort,封装前尽量识别 known-good-die,避免把坏裸片装进昂贵封装。封装后还要做功能测试、速度测试、内存链路测试、功耗测试、老化和温度筛选。对于 HBM + GPU 组合,任何一个 die 或链路失败都可能影响整个模块。
Binning 的意义
binning 按频率、电压、功耗、启用单元数量和稳定性把芯片分档。部分 GPU 可能关闭有缺陷或边缘不稳定的计算单元,以较低规格销售。Binning 让厂商回收部分边缘芯片,也让产品线覆盖不同功耗和价格区间。