服务热线
把内存想象成一个超级大的居民楼
一栋楼 = 一颗DRAM芯片(或者一个Rank) 每一层 = 一个Row(行) 每层有64个房间 = 64个Column(一行的64个bit) 每个房间里住一个人(存1 bit数据:0或者1)
正常情况下,这栋楼住了几亿人,干干净净。

但工厂造楼的时候难免有质量问题:
有的房间墙裂了 有的地板漏水 有的门锁坏了
这些人(bit)住进去就容易翻车,随时可能数据错(软错误)或者彻底死翘翘(硬错误)。
PPR 就是“楼管阿姨的维修大法”
DRAM厂家很聪明,他们在盖楼的时候,每一层(每个Row)都偷偷多准备了几个“备用房间”(spare row cells),平时锁着门不让人住。
一旦发现某一行(某个Row)坏了太多,楼管阿姨(内存控制器)就可以启动 PPR 维修模式,把坏的那一层整层搬家到备用房间去!
搬完家以后,原来的坏房间门牌号永久作废,所有人以后想找这行数据,都自动重定向到新的备用房间。
这就叫 Post Package Repair —— 芯片已经封装好出厂了(Post Package),还能自己修自己!
两种维修方式:硬修 vs 软修(hPPR vs sPPR)
硬 PPR(hard Post Package Repair)
类比:找装修队把坏房间彻底砸了重建,贴瓷砖、刷油漆,永久性大修。
特点:
修完一辈子都不坏 修好后写进芯片内部的“防熔丝”(eFuse/antifuse)里 断电也不丢,相当于永久换房产证 缺点:修一次要几秒到几十秒,期间这颗芯片完全不能用,得停机
软 PPR(soft Post Package Repair)
类比:楼管阿姨拿胶带把坏房间门贴上,贴个箭头指到备用房:“以后都去新房拿东西”。
特点:
超级快!通常只要几百毫秒甚至更快 不用停机,可以在线修(live repair) 缺点:一断电胶带就掉了,下次开机又得重贴(修的信息存在寄存器里,掉电丢失)
所以:
数据中心、服务器、AI集群最爱用 sPPR,因为不能停机 消费级电脑、手机基本没这功能,或者只支持 hPPR 出厂修一次
真实案例:你家的内存条其实早就偷偷修过自己
现代 DDR5、LPDDR5、HBM3 几乎都支持 PPR。
一台服务器跑一年,内存累计校正错误(CE)几万次是常态。
一旦发现某个Row的CE次数超过阈值(比如 JEDEC 标准建议 1000 次),RAS daemon(内存监控妖怪)就会跳出来喊:
“喂!第3根内存条,第7个Rank,第23456行快死了!快修!”
然后通过 sysfs 或者 CXL 协议,发一个 sPPR 命令,几百毫秒搞定,这行永久替换成备用行,CE计数清零,服务器继续跑,完全不影响你打游戏、训练大模型。
一句话
PPR 就是内存芯片的“自愈神技”:
发现哪一行快坏了,就把整行搬到厂家预留的备用行去。
软修(sPPR)快但断电失效,硬修(hPPR)慢但永久有效。
没有它,今天所有AI集群、云服务器早就因为内存坏行全军覆没!
现在看到新闻说“某CXL内存模块支持sPPR在线修复”,你就能秒懂:这玩意儿牛逼,能边跑边给自己动手术!
免责声明:本文采摘自“老虎说芯”,本文仅代表作者个人观点,不代表公海555000JC线路检测中心及行业观点,只为转载与分享,支持保护知识产权,转载请注明原出处及作者,如有侵权请公海555000JC线路检测中心删除。





粤公网安备44030002007346号