资讯中心
资讯中心
通俗理解DRAM PPR(Post Package Repair,后封装修复)
2026-01-14 16

把内存想象成一个超级大的居民楼

  • 一栋楼 = 一颗DRAM芯片(或者一个Rank)
  • 每一层 = 一个Row(行)
  • 每层有64个房间 = 64个Column(一行的64个bit)
  • 每个房间里住一个人(存1 bit数据:0或者1)

正常情况下,这栋楼住了几亿人,干干净净。

但工厂造楼的时候难免有质量问题:

  • 有的房间墙裂了
  • 有的地板漏水
  • 有的门锁坏了

这些人(bit)住进去就容易翻车,随时可能数据错(软错误)或者彻底死翘翘(硬错误)。

PPR 就是“楼管阿姨的维修大法”

DRAM厂家很聪明,他们在盖楼的时候,每一层(每个Row)都偷偷多准备了几个“备用房间”(spare row cells),平时锁着门不让人住。

一旦发现某一行(某个Row)坏了太多,楼管阿姨(内存控制器)就可以启动 PPR 维修模式,把坏的那一层整层搬家到备用房间去!

搬完家以后,原来的坏房间门牌号永久作废,所有人以后想找这行数据,都自动重定向到新的备用房间。

这就叫 Post Package Repair —— 芯片已经封装好出厂了(Post Package),还能自己修自己!

两种维修方式:硬修 vs 软修(hPPR vs sPPR

  1. 硬 PPR(hard Post Package Repair)

类比:找装修队把坏房间彻底砸了重建,贴瓷砖、刷油漆,永久性大修。

特点:

  • 修完一辈子都不坏
  • 修好后写进芯片内部的“防熔丝”(eFuse/antifuse)里
  • 断电也不丢,相当于永久换房产证
  • 缺点:修一次要几秒到几十秒,期间这颗芯片完全不能用,得停机
  1. 软 PPR(soft Post Package Repair)

类比:楼管阿姨拿胶带把坏房间门贴上,贴个箭头指到备用房:“以后都去新房拿东西”。

特点:

  • 超级快!通常只要几百毫秒甚至更快
  • 不用停机,可以在线修(live repair)
  • 缺点:一断电胶带就掉了,下次开机又得重贴(修的信息存在寄存器里,掉电丢失)

所以:

  • 数据中心、服务器、AI集群最爱用 sPPR,因为不能停机
  • 消费级电脑、手机基本没这功能,或者只支持 hPPR 出厂修一次

真实案例:你家的内存条其实早就偷偷修过自己

现代 DDR5、LPDDR5、HBM3 几乎都支持 PPR。

一台服务器跑一年,内存累计校正错误(CE)几万次是常态。

一旦发现某个Row的CE次数超过阈值(比如 JEDEC 标准建议 1000 次),RAS daemon(内存监控妖怪)就会跳出来喊:

“喂!第3根内存条,第7个Rank,第23456行快死了!快修!”

然后通过 sysfs 或者 CXL 协议,发一个 sPPR 命令,几百毫秒搞定,这行永久替换成备用行,CE计数清零,服务器继续跑,完全不影响你打游戏、训练大模型。

一句话

PPR 就是内存芯片的“自愈神技”:

发现哪一行快坏了,就把整行搬到厂家预留的备用行去。

软修(sPPR)快但断电失效,硬修(hPPR)慢但永久有效。

没有它,今天所有AI集群、云服务器早就因为内存坏行全军覆没!

现在看到新闻说“某CXL内存模块支持sPPR在线修复”,你就能秒懂:这玩意儿牛逼,能边跑边给自己动手术!

免责声明:本文采摘自“老虎说芯”,本文仅代表作者个人观点,不代表公海555000JC线路检测中心及行业观点,只为转载与分享,支持保护知识产权,转载请注明原出处及作者,如有侵权请公海555000JC线路检测中心删除。

北斗/GPS天线咨询

板端座子咨询

连接器咨询

获取产品资料

公海555000JC线路检测中心
  • 网站地图