WO2021159360A1

WO2021159360A1 - 一种存储器故障修复方法及装置

Info

Publication number: WO2021159360A1
Application number: PCT/CN2020/074986
Authority: WO
Inventors: 张先富; 王正波
Original assignee: 华为技术有限公司
Priority date: 2020-02-13
Filing date: 2020-02-13
Publication date: 2021-08-19
Also published as: CN114730607A

Abstract

一种存储器故障修复方法及装置，涉及存储器技术领域，用于实现不同粒度或不同故障范围的故障修复，提高了存储器的故障修复功能。所述方法应用于包括控制逻辑和存储器的存储系统中，包括：检测所述存储器中的存储单元，得到至少一个故障(S301)；基于不同存储粒度分析所述至少一个故障，以确定所述存储器的故障范围(S302)；根据预设故障修复策略中所述故障范围对应的故障修复策略修复所述存储器(S303)。

Description

一种存储器故障修复方法及装置

技术领域

本申请涉及存储器技术领域，尤其涉及一种存储器故障修复方法及装置。

背景技术

存储器(memory)是各种电子设备保存信息的主要部件，可用于存储操作代码和数据文件等信息。随着存储器芯片的密度、复杂度日益提高，以及存储器的广泛应用，如何实现存储器的故障修复，对保证存储器功能的正确性和可靠性尤为重要。

现有技术中，制造商通常会在存储器中设置冗余行和冗余列，当存储器中的某一存储单元发生故障时，可将故障的存储单元隔离起来，通过冗余行或冗余列来替代故障的存储单元所在的行或列。但是，这种隔离修复方式只能实现行或列的故障修复，从而修复的范围有限。

发明内容

本申请提供一种存储器故障修复方法及装置，用于实现不同粒度或不同故障范围的故障修复，提高了存储器的故障修复功能。

为达到上述目的，本申请的实施例采用如下技术方案：

第一方面，提供一种存储器故障修复方法，应用于包括控制逻辑和存储器的存储系统中，包括：检测该存储器中的存储单元，得到至少一个故障；基于不同存储粒度分析至少一个故障，以确定该存储器的故障范围；根据预设故障修复策略中故障范围对应的故障修复策略修复存储器。

上述技术方案中，控制逻辑通过检测存储器中的故障，并对检测到的故障进行分类和统计等分析操作以得到故障范围，之后根据预设故障修复策略中该故障范围对应的故障修复策略修复存储器，从而在存储器故障时，可以及时对多种不同粒度或不同的故障范围的存储器故障进行有效地修复，以保证存储器的正常使用，进而提高了存储器的正确性和可靠性，同时提高了存储器的使用寿命。

在第一方面的一种可能的实现方式中，检测该存储器中的存储单元，得到至少一个故障，包括：根据故障检测算法生成至少一组读写操作，比如，故障检测算法包括Checkerboard算法(棋盘法)、Gallop算法(奔跳法)、March算法(进行法)、MSCAN算法(全0全1算法)和butterfly算法(蝶形法)等；基于至少一组读写操作读写该存储器中的存储单元，得到至少一个故障，每个故障可以用于指示发生故障的存储单元和故障的种类。上述可能的实现方式中，通过故障检测算法可以检测出存储器中的存储单元发生的一个或者多个故障，从而可以提高故障检测的准确性和高效性。

在第一方面的一种可能的实现方式中，检测该存储器中的存储单元，得到至少一个故障，包括：根据该存储器中的存储单元对应的读写操作的数据校验信息，确定至少一个故障，比如，数据校验可以使用ECC或奇偶校验等。上述可能的实现方式中，通过读写操作的数据校验信息确定至少一个故障的方式简单、有效。

在第一方面的一种可能的实现方式中，至少一个故障包括以下至少一种类型的故障：固定故障SAF、状态转换故障TF、耦合故障CF、相邻模式敏感故障NPSF或者地址译码器故障AF。上述可能的实现方式中，提高了确定的至少一个故障的多样性。

在第一方面的一种可能的实现方式中，不同存储粒度包括以下至少两种存储粒度：堆叠、通道、存储库、面、超级块、块、子块、行、列、页面或者存储单元。上述可能的实现方式中，提高了不同存储粒度的多样性，从而基于不同粒度分析至少一个故障，可以提高了故障修复的针对性和灵活性。

在第一方面的一种可能的实现方式中，该故障范围包括以下至少一项：总线故障、不同存储粒度的存储空间故障；总线故障可以包括地址总线故障、数据总线故障和信息总线故障；不同存储粒度的存储空间故障可以包括行故障、列故障、块故障、存储库故障和通道故障等。上述可能的实现方式中，提高了故障范围的多样性，进而基于不同的故障范围可以针对性地设置不同的故障修复策略，从而提高故障修复的有效性和灵活性。

在第一方面的一种可能的实现方式中，当该故障范围为总线故障时，该故障范围对应的故障修复策略包括以下中的一种：将故障总线切换至冗余总线，将故障总线对应的通道切换至未使用的通道，将故障总线对应的堆叠切换至未使用的堆叠，或者降低使用的总线的位宽；当该故障范围为存储空间故障时，该故障范围对应的故障修复策略包括以下中的一种：将故障存储空间映射至冗余存储空间，将故障存储空间映射至未使用的存储空间。上述可能的实现方式中，对于不同的故障范围，设置有不同的故障修复策略，从而可以提高故障修复的有效性和灵活性。

在第一方面的一种可能的实现方式中，该方法还包括：当该故障范围为总线故障、且该故障范围对应的故障修复策略为该将故障总线对应的通道切换至未使用的通道时，将该故障总线对应的通道中的数据迁移至该未使用的通道；当该故障范围为总线故障、且该故障范围对应的故障修复策略为该将故障总线对应的堆叠切换至未使用的堆叠时，将该故障总线对应的存储裸片中的数据迁移至该未使用的存储裸片；当该故障范围为该存储空间故障、且该故障范围对应的故障修复策略为该将故障存储空间映射至冗余存储空间时，将该故障存储空间中的数据迁移至该冗余存储空间；当该故障范围为该存储空间故障、且该故障范围对应的故障修复策略为该将故障存储空间映射至未使用的存储空间时，将该故障存储空间中的数据迁移至该未使用的存储空间。上述可能的实现方式中，可以在故障修复之后将该故障范围相关的存储数据进行迁移，从而保证了存储数据的完整性和安全性，同时也不影响后续对于存储数据的正常访问。

在第一方面的一种可能的实现方式中，该存储器为高带宽存储器。上述可能的实现方式中，通过该方法修复高带宽存储器中的不同故障范围，可以延长高带宽存储器的使用寿命，降低成本。

第二方面，提供一种存储器故障修复装置，包括：检测单元，用于检测存储器中的存储单元，得到至少一个故障；分析单元，用于基于不同存储粒度分析至少一个故障，以确定该存储器的故障范围；修复单元用于，根据预设故障修复策略中所述故障范围对应的故障修复策略修复该存储器。

在第二方面的一种可能的实现方式中，检测单元具体用于：根据故障检测算法生成至少一组读写操作；基于至少一组读写操作读写该存储器中的存储单元，得到至少一个故障。

在第二方面的一种可能的实现方式中，检测单元还具体用于：根据该存储器中的存储单元对应的读写操作的数据校验信息，确定至少一个故障。

在第二方面的一种可能的实现方式中，至少一个故障包括以下至少一种类型的故障：固定故障SAF、状态转换故障TF、耦合故障CF、相邻模式敏感故障NPSF或者地址译码器故障AF。

在第二方面的一种可能的实现方式中，不同存储粒度包括以下至少两种存储粒度：存储裸片、通道、存储库、面、超级块、块、子块、行(row)、列、页面或者存储单元。

在第二方面的一种可能的实现方式中，该故障范围包括以下至少一项：总线故障、不同存储粒度的存储空间故障。

在第二方面的一种可能的实现方式中，当该故障范围为总线故障时，该故障范围对应的故障修复策略包括以下中的一种：将故障总线切换至冗余总线，将故障总线对应的通道切换至未使用的通道，将故障总线对应的存储裸片切换至未使用的存储裸片，或者降低使用的总线的位宽；当该故障范围为存储空间故障时，该故障范围对应的故障修复策略包括以下中的一种：将故障存储空间映射至冗余存储空间，将故障存储空间映射至未使用的存储空间。

在第二方面的一种可能的实现方式中，该装置还包括迁移单元，用于：当该故障范围为总线故障、且该故障范围对应的故障修复策略为该将故障总线对应的通道切换至未使用的通道时，将该故障总线对应的通道中的数据迁移至该未使用的通道；当该故障范围为总线故障、且该故障范围对应的故障修复策略为该将故障总线对应的存储裸片切换至未使用的存储裸片时，将该故障总线对应的存储裸片中的数据迁移至该未使用的存储裸片；当该故障范围为该存储空间故障、且该故障范围对应的故障修复策略为该将故障存储空间映射至冗余存储空间时，将该故障存储空间中的数据迁移至该冗余存储空间；当该故障范围为该存储空间故障、且该故障范围对应的故障修复策略为该将故障存储空间映射至未使用的存储空间时，将该故障存储空间中的数据迁移至该未使用的存储空间。

在第二方面的一种可能的实现方式中，该存储器为高带宽存储器。

第三方面，提供一种电子设备，该电子设备包括处理器、存储系统、通信接口和总线，处理器、存储系统和通信接口通过总线连接，存储系统包括控制逻辑和存储器，控制逻辑用于支持该电子设备执行上述第一方面或第一方面的任一种可能的实现方式所提供的存储器故障修复方法。

在本申请的又一方面，提供一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当该指令在设备上运行时，使得该设备执行上述第一方面或第一方面的任一种可能的实现方式所提供的存储器故障修复方法。

在本申请的又一方面，提供一种计算机程序产品，当该计算机程序产品在设备上运行时，使得该设备执行上述第一方面或第一方面的任一种可能的实现方式所提供的存储器故障修复方法。

可以理解地，上述提供的任一种存储器故障修复方法的装置、电子设备、计算机可读存储介质和计算机程序产品均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

附图说明

图1为本申请实施例提供的一种HBM的结构示意图；

图2为本申请实施例提供的一种存储器的功能模型的示意图；

图3为本申请实施例提供的一种存储器故障修复方法的流程示意图；

图4为本申请实施例提供的一种存储器中不同存储粒度的示意图；

图5为本申请实施例提供的另一种存储器的故障修复方法的流程示意图；

图6为本申请实施例提供的一种存储系统的结构示意图；

图7为本申请实施例提供的一种存储器故障修复装置的结构示意图；

图8为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中a，b，c可以是单个，也可以是多个。另外，本申请实施例采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如，第一阈值和第二阈值仅仅是为了区分不同的阈值，并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定。

需要说明的是，本申请中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

本申请的技术方案可以应用于各种存储器中，比如随机存取存储器(random access memory，RAM)和只读存储器(read-only memory，ROM)，RAM具有访问速度快、但掉电数据丢失的特点，ROM具有掉电数据不丢失、但是访问速度慢的特点。在另一种可能的实施例中，本申请的技术方案可应用于各种类型的ROM中，比如电可编程只读存储器(erasable programmable ROM，EPROM)、电可编程可擦除只读存储器(electrically-erasable programmable，E ²PROM)和闪存(flash)等。在一种可能的实施例中，本申请的技术方案可应用于各种类型的RAM中，比如静态随机存储器(static RAM，SRAM)、动态随机存储器(dynamic RAM，DRAM)、同步动态随机存储器(synchronous DRAM，SDRAM)等。DRAM还可以包括多倍率的DRAM和高带宽存储器(high bandwidth memory，HBM)等，多倍率的DRAM可以包括双倍速率DDR、DDR4和DDR5等。此外，本申请的技术方案还可以应用于新型的存储器中，比如FeRAM、MRAM等存储器等，本申请实施例不再一一列举描述。

上述HBM是基于3D堆栈工艺将2/4/8等多个DRAM裸片(die)堆叠在一起并封装形成的具有高带宽特性的存储器。HBM适用于高存储器带宽需求的设备中，比如图形处理设备、路由器或者交换器等网络交换及转发设备中。本申请的技术方案还可以应用于SRAM，MRAM等多个裸片堆叠构成的存储器，本申请实施例不再一一列举描述。

下面以多个DRAM堆叠构成HBM为例，对通过堆叠构成的存储器进行举例说明，下述图1并不对本申请实施例构成限制。图1为本申请实施例提供的一种HBM裸片的结构示意图，HBM裸片可以包括逻辑裸片(logic die)和多个DRAM裸片，多个DRAM裸片通过硅穿孔(TSV)和微凸起(micro-bump)堆叠在一起且与逻辑裸片相连接。逻辑裸片可以是集成有控制逻辑的裸片，该控制逻辑可以是存储器控制器，具体可用于管理和控制器多块DRAM裸片的读写等。

其中，每个DRAM裸片中可以包括两个通道，每个通道可以为128比特(bit)，一个通道也可以称为一个信道。图1中以HBM裸片包括4个DRAM裸片，每个DRAM裸片包括CH0和CH1两个通道为例进行说明，图1中的(a)为HBM裸片的俯视图，图1中的(b)为HBM裸片的侧视图。

需要说明的是，在通过多个DRAM裸片构成HBM时，图1中仅以多个DRAM裸片的层数为4层为例进行说明，在实际应用中，HBM还可以包括更多层的DRAM，比如，5层或6层等，本申请实施例对此不作具体限制。

图2为本申请实施例提供的一种存储器的功能模型的示意图。如图2所示，该存储器的功能模型包括：地址锁存器201、列译码器202、行译码器203、存储单元阵列204、写驱动器205、灵敏放大器206、数据寄存器207和刷新逻辑208。写驱动器205和灵敏放大器206也可以合并称为读/写电路。

其中，地址锁存器201可用于接收地址并锁存，该地址可以包括行地址和列地址，地址锁存器201还可以将行地址传输至行译码器203、将列地址传输至列译码器202。行译码器203用于对行地址进行译码，列译码器202用于对列地址进行译码，一个行地址和一个列地址被译码后可共同用于在存储单元阵列204中选中一个待读/写的存储单元(cell)。存储单元阵列204用于存储数据，存储单元是存储单元阵列204中最小的存储单位，一个存储单元可用于存储一个二进制代码。读/写电路用于控制对存储器的工作状态，比如，控制数据从存储单元阵列204中读出、以及控制数据写入存储单元阵列204中等。数据寄存器207用于寄存待写入存储单元阵列204中的数据，以及从存储单元阵列204中读出的数据等。刷新逻辑208用于刷新行译码器203和列译码器202。

基于上述图2所示的存储器的功能模型，可以将存储器的故障分为三大类：地址译码器故障、读写逻辑模块故障和存储单元阵列故障。下面分别对这三类故障进行介绍说明。

第一类、地址译码器故障

地址译码器故障是指地址译码逻辑中的产生的故障，主要表现为四种形式：对于某个确定的地址，没有相应的存储单元与该地址对应；对于某个确定的存储单元，没有一个地址能够选中该存储单元；对于某个确定的地址，能够同时选中两个或者两个以上的存储单元；多个地址同时选中一个存储单元。

第二类、读写逻辑模块故障

读写逻辑模块故障主要表现为在读写电路中，某些检测放大器的读出或者写入驱动器的逻辑部分可能产生开路、短路或者输入/输出(input/output，I/O)固定的故障，在写电路的数据线之间存储交叉耦合干扰。

第三类、存储单元阵列故障

由于存储单元阵列是存储器内规模最为复杂的一个模块，因此出现故障的概率最大，故障的类型也最为复杂，主要是由存储单元阵列内的数据线开路、短路以及串扰所引起的。

结合上述地址译码器故障、读写逻辑模块故障和存储单元阵列故障的不同表现形式，可以将存储器故障分为以下五种功能故障：固定故障(stuck-at fault，SAF)、转换故障(transition fault，TF)、耦合故障(coupling fault，CF)、相邻矢量敏化故障(neighborhood pattern sensitive faults，NPSF)和地址译码故障(address decoder fault，AF)。下面分别对这五种功能故障进行介绍说明。

固定故障SAF：可以是指一个存储单元或一个连线的逻辑值总为0或总为1。英文为“The logic value of a cell or a line is always 0 or 1.”。

转换故障TF：一个存储单元失效使得0→1转变或1→0转变不能发生。英文为“A cell or a line that fails to undergo a 0→1or 1→0transition.”。

耦合故障CF：对一个存储单元中写操作改变了另一个存储单元的内容。英文为“A write operation to one cell changes the content of the second cell.”。

相邻矢量敏化故障NPSF：一个存储单元的内容，或者改变该存储单元内容的能力，受到存储单元阵列中其他存储单元的内容的影响。英文为“The content of a cell，or the ability to change its content，is influenced by the content of some other cell in memory.”。

地址译码故障AF：任何影响地址译码器的故障。英文为“Any fault that affect address decoder.”。主要表现为上述第一类地址译码器故障中所述的四种表现形式。

需要说明的是，在实际应用中，存储器故障还可以包括其他的故障形式，本申请实施例仅以上述5种故障为例进行说明，对于其他的故障形式在此不再一一列举描述。

基于此，本申请实施例提供一种存储器故障修复方法，该方法的基本原理在于：通过检测存储器的故障，以及分析统计这些故障以得到存储器的故障范围，从而针对该故障范围进行及时有效地修复，以保证存储器功能的正确性和可靠性。

图3为本申请实施例提供的一种存储器故障修复方法的流程示意图，该方法应用于包括控制逻辑和存储器的存储系统中，该方法包括以下几个步骤。

S301：检测存储器中的存储单元，得到至少一个故障。

其中，至少一个故障可以包括一个或者多个故障，这一个或者多个故障可以包括以下至少一种类型的故障：固定故障SAF、状态转换故障TF、耦合故障CF、相邻模式敏感故障NPSF或者地址译码器故障AF。至少一个故障中的每个故障可以用于指示发生故障的存储单元，以及该存储单元的故障类型。

在一种可能的实现方式中，检测存储器中的存储单元，得到至少一个故障可以包括：根据故障检测算法生成至少一组读写操作；基于至少一组读写操作读写存储器中的存储单元，得到至少一个故障。

其中，故障检测算法可以包括多种不同的故障检测算法，比如，Checkerboard算法(棋盘法)、Gallop算法(奔跳法)、March算法(进行法)、MSCAN算法(全0全1算法)和butterfly算法(蝶形法)等。每种故障检测算法对应不同的检测模式，根据检测算法的检测模式可以生成对应的读写操作，生成的读写操作可以包括至少一组读写操作，至少一组读写操作包括一组或多组读写操作，从而基于这一组或多组读写操作对存储器中的存储单元进行读写，即可得到至少一个故障。

示例性的，若该故障检测算法包括March算法、存储单元阵列中包括n(n为大于1的整数)个存储单元(表示为A0至An-1)，则March算法对应的检测过程可以为：在存储单元A0至An-1中写入0；依次读取存储单元A0至An-1中的0并写入1；依次读取存储单元An-1至A0中的1并写入0，这样；读取存储单元An-1至A0中的0。

需要说明的是，不同的故障检测算法对应的检测过程不同，各种故障检测算法的具体检测过程可以参见相关技术的描述，本申请实施例仅以March算法的检测过程为例进行说明。

另外，不同的故障检测算法能够检测到的故障的种类可能相同，也可能不同，比如，March算法可以检测出固定故障SAF、地址译码器故障AF和转换故障TF，Gallop算法可以检测出固定故障SAF、转换故障TF和耦合故障CF，Checkerboard算法可以检测出固定故障SAF和相邻模式敏感故障NPSF等。

在另一种可能的实现方式中，检测存储器中的存储单元，得到至少一个故障可以包括：根据存储器中的存储单元对应的读写操作的数据校验信息，确定至少一个故障。

具体的，在存储器的正常读写过程中，可在写操作时根据写入的数据生成数据校验位，在读操作时根据写入时生成的数据校验位对读出的数据进行校验，从而得到数据校验信息，数据校验可以使用错误检测和更正(error correcting code，ECC)或奇偶校验等。比如，当读出的数据校验成功时可以确定当前使用的存储单元未发生故障，当读出的数据校验失败时可以确定当前使用的存储单元发生故障。根据得到的数据校验信息的成功与否，可以确定上述至少一个故障。

S302：基于不同存储粒度分析至少一个故障，以确定存储器的故障范围。

其中，不同存储粒度可以包括以下至少两种存储粒度：存储裸片、通道(channel)、存储库(bank)、面(plane)、超级块(super block)、块(block)、子块(sub-block)、行(row)、列(column)、页面(page)或者存储单元(cell)。这里的存储裸片也可以称为堆叠(stack)，比如，在HBM中的一个DRAM裸片便可以称为一个存储裸片或一个堆叠。

另外，不同存储器中的存储粒度的划分可以是相同的，也可以是不同的。同一存储器中包括的多个存储粒度之间可以存在大小关系，下面以同一存储器中的多个存储粒度包括存储裸片、通道、存储库、块、行和存储单元为例，对这些存储粒度的大小关系进行举例说明。

示例性的，如图4所示，存储单元是最小的存储粒度(也可以称为存储单位)；一个行中可以包括多个存储单元，这多个存储单元可以是连续的且位于一条直线上；一个块中可以包括连续的多个存储单元，多个存储单元可以呈矩形；一个存储库中可以包括多个块；一个通道中可以包括多个存储库；一个存储裸片可以包括多个通道。

再者，存储器的故障范围可以包括：总线故障、以及不同存储粒度的存储空间故障。总线故障可以包括：数据总线故障、地址总线故障和控制总线故障；不同存储粒度的存储空间故障可以包括：存储裸片故障、通道故障、存储库故障、面故障、超级块故障、块故障、子块故障、行故障、列故障、页面故障或者存储单元故障。需要说明的是，这里所列举的总线故障的种类和不同存储粒度的存储空间故障的种类仅为示例性的，在实际应用中，还可以包括其它不同种类的故障，本申请实施例对此不作具体限定。

具体的，控制逻辑可以基于存储裸片、通道、存储库、块、行和存储单元等不同的存储粒度下对至少一个故障进行统计分析，以得到存储器的故障范围。比如，统计同一行中发生某一故障的存储单元的数量、若发生故障的存储单元的数量达到第一阈值，则可以确定该行故障；再比如，统计同一存储库中发生故障的存储单元的数量，若发生故障的存储单元的数量达到第二阈值，则可以确定该存储库故障。

可选的，控制逻辑可以事先基于多个不同的故障进行模型训练，以得到不同故障范围的训练模型，不同故障范围的训练模型可以包括不同总线的故障模型、以及不同存储粒度的存储空间的故障模型。比如，不同总线的故障模型可以包括数据总线故障模型、地址总线故障模型和控制总线故障模型；不同存储粒度的存储空间的故障模型可以包括存储裸片故障模型、通道故障模型、存储库故障模型、行故障模型和存储单元故障模型等。这样，控制逻辑可以根据不同故障范围的训练模型对至少一个故障进行分析，从而确定存储器的故障范围。

S303：根据预设故障修复策略中该故障范围对应的故障修复策略修复存储器。

其中，预设故障修复策略可以事先进行配置，预设故障修复策略中可以包括多种不同的故障范围对应的故障修复策略，每种故障范围对应的故障修复策略可以包括一种或者多个故障修复策略。

可选的，当故障范围为总线故障时，总线故障对应的故障修复策略可以包括以下至少一种：将故障总线切换至冗余总线，将故障总线对应的通道切换至未使用的通道，将故障总线对应的存储裸片切换至未使用的存储裸片，或者降低使用的总线的位宽。

其中，总线可以包括数据总线、地址总线和控制总线；具体的，当故障范围具体为数据总线故障时，数据总线故障对应的故障修复策略可以包括以下至少一种：将故障数据总线切换至冗余数据总线，将故障数据总线对应的通道切换至未使用的通道，将故障数据总线对应的存储裸片切换至未使用的存储裸片，或者降低使用的数据总线的位宽。

需要说明的是，地址总线故障对应的故障修复策略、以及控制总线故障对应的故障修复策略与上述数据总线故障对应的故障修复策略是类似的，具体可以参见数据总线故障对应的故障修复策略的描述，本申请实施例在此不再赘述。

可选的，当故障范围为不同存储粒度的存储空间故障时，该存储空间故障对应的故障修复策略包括以下中的一种：将故障存储空间映射至冗余存储空间，将故障存储空间映射至未使用的存储空间。

其中，不同存储粒度的存储空间故障可以包括存储裸片故障、通道故障、存储库故障、行故障和存储单元故障等。具体的，当故障范围具体为存储库故障时，存储库故障对应的故障修复策略可以包括以下至少一种：将故障存储库映射至冗余存储库，将故障存储库映射至未使用的存储库。

需要说明的是，除存储库之外的其他不同存储粒度的存储空间故障对应的故障修复策略与上述存储库故障对应的故障修复策略是类似的，具体可以参见存储库故障对应的故障修复策略的描述，本申请实施例在此不再赘述。

进一步的，如图5所示，当存储器发生了某种故障范围时，若存储器中与该故障范围相关的存储数据没有被破坏，该方法还可以包括：S304。

S304：迁移存储器中与该故障范围相关的存储数据。

具体的，当该故障范围为总线故障、且该故障范围对应的故障修复策略为该将故障总线对应的通道切换至未使用的通道时，迁移存储中与故障范围相关的存储数据具体可以为：将该故障总线对应的通道中的数据迁移至该未使用的通道；当该故障范围为总线故障、且该故障范围对应的故障修复策略为该将故障总线对应的存储裸片切换至未使用的存储裸片时，迁移存储中与故障范围相关的存储数据具体可以为：将该故障总线对应的存储裸片中的数据迁移至该未使用的存储裸片。

具体的，当该故障范围为该存储空间故障、且该故障范围对应的故障修复策略为该将故障存储空间映射至冗余存储空间时，迁移存储中与故障范围相关的存储数据具体可以为：将该故障存储空间中的数据迁移至该冗余存储空间；当该故障范围为该存储空间故障、且该故障范围对应的故障修复策略为该将故障存储空间映射至未使用的存储空间时，迁移存储中与故障范围相关的存储数据具体可以为：将该故障存储空间中的数据迁移至该未使用的存储空间。

为便于理解，下面以图6所示的存储系统为例，对本申请实施例提供的技术方案进行举例说明。在图6中，该存储系统包括：存储测试模块401、存储校验模块402、故障分析模块403、故障处理模块404、存储器405和替换资源存储模块406。

其中，存储测试模块401可以根据故障检测算法检测存储器405中的存储单元，比如，存储测试模块401可以根据Checkerboard算法、Gallop算法、March算法和butterfly算法(蝶形法)等检测存储器405中的存储单元，得到至少一个故障。存储校验模块402可以根据存储器405中的存储单元对应的读写操作的数据校验信息，确定至少一个故障，比如，存储校验模块402在存储器405的正常读写过程中，可在写操作时根据写入的数据生成数据校验位，在读操作时根据写入时生成的数据校验位对读出的数据进行校验，从而得到数据校验信息。故障分析模块403可以收集存储测试模块401和/或存储校验模块402确定的至少一个故障，并基于存储单元、行、块和存储库等不同存储粒度分析至少一个故障，以确定存储器的故障范围，比如，对至少一个故障进行故障分类和统计等；故障处理模块404可以根据预设故障修复策略中该故障范围对应的故障修复策略修复存储器405，比如，故障分析模块403可以生成对应的故障修复策略的操作指令并传输至故障处理模块404，故障处理模块404根据接收到的操作指令修复存储器405。替换资源存储模块406中可以包括不同存储粒度的存储空间，比如，替换资源存储模块406中包括冗余存储单元，冗余行、冗余块、冗余存储库等，当该故障范围对应的故障修复策略修复为使用冗余存储空间替换故障存储空间时，可以使用替换资源存储模块406中包括的冗余存储空间来修复存储器405中的故障存储空间，比如，使用冗余块修复存储器405中的故障块等。

本申请实施例中，控制逻辑通过检测存储器中的故障，并对检测到的故障进行分类和统计等分析操作以得到故障范围，之后根据预设故障修复策略中该故障范围对应的故障修复策略修复存储器，从而在存储器故障时，可以及时对多种不同粒度或不同的故障范围的存储器故障进行有效地修复，以保证存储器的正常使用，进而提高了存储器的正确性和可靠性，同时提高了存储器的使用寿命。

上述主要从存储系统的角度对本申请实施例提供的方案进行了介绍。可以理解的是，存储系统为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的网元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对存储系统进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

图7为本申请实施例提供的一种存储器故障修复装置，该装置包括：检测单元501、分析单元502和修复单元503。其中，检测单元501用于检测该存储器中的存储单元，得到至少一个故障；分析单元502用于基于不同存储粒度分析该至少一个故障，以确定该存储器的故障范围；修复单元503用于根据预设故障修复策略中该故障范围对应的故障修复策略修复该存储器。

其中，至少一个故障包括以下至少一种类型的故障：固定故障SAF、状态转换故障TF、耦合故障CF、相邻模式敏感故障NPSF或者地址译码器故障AF。不同存储粒度包括以下至少两种存储粒度：存储裸片、通道、存储库、面、超级块、块、子块、行、列、页面或者存储单元。该故障范围包括以下至少一项：总线故障、不同存储粒度的存储空间故障。

可选的，该存储器可以为高带宽存储器。

在一种可能的实现方式中，检测单元501具体用于根据故障检测算法生成至少一组读写操作；基于至少一组读写操作读写该存储器中的存储单元，得到至少一个故障。和/或，检测单元501还具体用于根据该存储器中的存储单元对应的读写操作的数据校验信息，确定至少一个故障。

在另一种可能的实现方式中，当该故障范围为总线故障时，该故障范围对应的故障修复策略包括以下中的一种：将故障总线切换至冗余总线，将故障总线对应的通道切换至未使用的通道，将故障总线对应的存储裸片切换至未使用的存储裸片，或者降低使用的总线的位宽；当该故障范围为存储空间故障时，该故障范围对应的故障修复策略包括以下中的一种：将故障存储空间映射至冗余存储空间，将故障存储空间映射至未使用的存储空间。

进一步的，如图7所示，该装置还包括：迁移单元504。

迁移单元504用于：当该故障范围为总线故障、且该故障范围对应的故障修复策略为该将故障总线对应的通道切换至未使用的通道时，将该故障总线对应的通道中的数据迁移至该未使用的通道；当该故障范围为总线故障、且该故障范围对应的故障修复策略为该将故障总线对应的存储裸片切换至未使用的存储裸片时，将该故障总线对应的存储裸片中的数据迁移至该未使用的存储裸片；当该故障范围为该存储空间故障、且该故障范围对应的故障修复策略为该将故障存储空间映射至冗余存储空间时，将该故障存储空间中的数据迁移至该冗余存储空间；当该故障范围为该存储空间故障、且该故障范围对应的故障修复策略为该将故障存储空间映射至未使用的存储空间时，将该故障存储空间中的数据迁移至该未使用的存储空间。

图8为本申请实施例提供的一种电子设备的结构示意图，该电子设备包括处理器601、存储系统602、通信接口603和总线604，处理器601、存储系统602和通信接口603通过总线604连接，该存储系统602包括控制逻辑和存储器，控制逻辑用于支持该电子设备执行上文所提供的存储器故障修复的方法。可选的，该控制逻辑可以与处理器601集成在一起，也可以与存储器集成在一起，图8中以该控制逻辑与存储器集成在一起为例进行说明。

其中，处理器601可以是中央处理器单元，通用处理器，数字信号处理器，专用集成电路，现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，数字信号处理器和微处理器的组合等等。上述图8中的总线604可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，上述图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

本申请实施例中，通过检测存储器中的故障，并对检测到的故障进行分类和统计等分析操作以得到故障范围，之后根据预设故障修复策略中该故障范围对应的故障修复策略修复存储器，从而在存储器故障时，可以及时对多种不同粒度或不同的故障范围的存储器故障进行有效地修复，以保证存储器的正常使用，进而提高了存储器的正确性和可靠性，同时提高了存储器的使用寿命。

在本申请的另一实施例中，还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当设备的至少一个处理器执行该计算机执行指令时，使得该设备执行上文所提供的存储器故障修复的方法。

在本申请的另一实施例中，还提供一种计算机程序产品，该计算机程序产品包括计算机执行指令，该计算机执行指令存储在计算机可读存储介质中；设备的至少一个处理器可以从计算机可读存储介质读取该计算机执行指令，至少一个处理器执行该计算机执行指令使得设备实施上文所提供的存储器故障修复的方法。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请实施例所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请实施例各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种存储器故障修复方法，其特征在于，应用于存储器中，包括：

检测所述存储器中的存储单元，得到至少一个故障；

基于不同存储粒度分析所述至少一个故障，以确定所述存储器的故障范围；

根据预设故障修复策略中所述故障范围对应的故障修复策略修复所述存储器。
根据权利要求1所述的方法，其特征在于，所述检测所述存储器中的存储单元，得到至少一个故障，包括：

根据故障检测算法生成至少一组读写操作；

基于所述至少一组读写操作读写所述存储器中的存储单元，得到至少一个故障。
根据权利要求1或2所述的方法，其特征在于，所述检测所述存储器中的存储单元，得到至少一个故障，包括：

根据所述存储器中的存储单元对应的读写操作的数据校验信息，确定至少一个故障。
根据权利要求1-3任一项所述的方法，其特征在于，所述至少一个故障包括以下至少一种类型的故障：固定故障SAF、状态转换故障TF、耦合故障CF、相邻模式敏感故障NPSF或者地址译码器故障AF。
根据权利要求1-4任一项所述的方法，其特征在于，所述不同存储粒度包括以下至少两种存储粒度：存储裸片、通道、存储库、面、超级块、块、子块、行(row)、列、页面或者存储单元。
根据权利要求1-5任一项所述的方法，其特征在于，所述故障范围包括以下至少一项：总线故障、不同存储粒度的存储空间故障。
根据权利要求6所述的方法，其特征在于，当所述故障范围为总线故障时，所述故障范围对应的故障修复策略包括以下中的一种：将故障总线切换至冗余总线，将故障总线对应的通道切换至未使用的通道，将故障总线对应的存储裸片切换至未使用的存储裸片，或者降低使用的总线的位宽；

当所述故障范围为存储空间故障时，所述故障范围对应的故障修复策略包括以下中的一种：将故障存储空间映射至冗余存储空间，将故障存储空间映射至未使用的存储空间。
根据权利要求7所述的方法，其特征在于，所述方法还包括：

当所述故障范围为总线故障、且所述故障范围对应的故障修复策略为所述将故障总线对应的通道切换至未使用的通道时，将所述故障总线对应的通道中的数据迁移至所述未使用的通道；

当所述故障范围为总线故障、且所述故障范围对应的故障修复策略为所述将故障总线对应的存储裸片切换至未使用的存储裸片时，将所述故障总线对应的存储裸片中的数据迁移至所述未使用的存储裸片；

当所述故障范围为所述存储空间故障、且所述故障范围对应的故障修复策略为所述将故障存储空间映射至冗余存储空间时，将所述故障存储空间中的数据迁移至所述冗余存储空间；

当所述故障范围为所述存储空间故障、且所述故障范围对应的故障修复策略为所述将故障存储空间映射至未使用的存储空间时，将所述故障存储空间中的数据迁移至所述未使用的存储空间。
根据权利要求1-8任一项所述的方法，其特征在于，所述存储器为高带宽存储器。
一种存储器故障修复装置，其特征在于，包括：

检测单元，用于检测所述存储器中的存储单元，得到至少一个故障；

分析单元，用于基于不同存储粒度分析所述至少一个故障，以确定所述存储器的故障范围；

修复单元，用于根据预设故障修复策略中所述故障范围对应的故障修复策略修复所述存储器。
根据权利要求10所述的装置，其特征在于，所述检测单元，具体用于：

根据故障检测算法生成至少一组读写操作；

基于所述至少一组读写操作读写所述存储器中的存储单元，得到至少一个故障。
根据权利要求10或11所述的装置，所述检测单元，还具体用于：

根据所述存储器中的存储单元对应的读写操作的数据校验信息，确定至少一个故障。
根据权利要求10-12任一项所述的装置，其特征在于，所述至少一个故障包括以下至少一种类型的故障：固定故障SAF、状态转换故障TF、耦合故障CF、相邻模式敏感故障NPSF或者地址译码器故障AF。
根据权利要求10-13任一项所述的装置，其特征在于，所述不同存储粒度包括以下至少两种存储粒度：存储裸片、通道、存储库、面、超级块、块、子块、行、列、页面或者存储单元。
根据权利要求10-14任一项所述的装置，其特征在于，所述故障范围包括以下至少一项：总线故障、不同存储粒度的存储空间故障。
根据权利要求15所述的装置，其特征在于，当所述故障范围为总线故障时，所述故障范围对应的故障修复策略包括以下中的一种：将故障总线切换至冗余总线，将故障总线对应的通道切换至未使用的通道，将故障总线对应的存储裸片切换至未使用的存储裸片，或者降低使用的总线的位宽；

当所述故障范围为存储空间故障时，所述故障范围对应的故障修复策略包括以下中的一种：将故障存储空间映射至冗余存储空间，将故障存储空间映射至未使用的存储空间。
根据权利要求16所述的装置，其特征在于，所述装置还包括迁移单元，用于：

当所述故障范围为总线故障、且所述故障范围对应的故障修复策略为所述将故障总线对应的通道切换至未使用的通道时，将所述故障总线对应的通道中的数据迁移至所述未使用的通道；

当所述故障范围为总线故障、且所述故障范围对应的故障修复策略为所述将故障总线对应的存储裸片切换至未使用的存储裸片时，将所述故障总线对应的存储裸片中的数据迁移至所述未使用的存储裸片；

当所述故障范围为所述存储空间故障、且所述故障范围对应的故障修复策略为所述将故障存储空间映射至冗余存储空间时，将所述故障存储空间中的数据迁移至所述冗余存储空间；

当所述故障范围为所述存储空间故障、且所述故障范围对应的故障修复策略为所述将故障存储空间映射至未使用的存储空间时，将所述故障存储空间中的数据迁移至所述未使用的存储空间。
根据权利要求10-17任一项所述的装置，其特征在于，所述存储器为高带宽存储器。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在设备上运行时，使得所述设备执行上述权利要求1-9任一项所述的存储器故障修复方法。
一种计算机程序产品，其特征在于，当所述计算机程序产品在设备上运行时，使得所述设备执行上述权利要求1-9任一项所述的存储器故障修复方法。