WO2021253708A1

WO2021253708A1 - 内存故障的处理方法、装置、设备及存储介质

Info

Publication number: WO2021253708A1
Application number: PCT/CN2020/126112
Authority: WO
Inventors: 乔光毅; 刁阳彬; 马剑涛
Original assignee: 华为技术有限公司
Priority date: 2020-06-20
Filing date: 2020-11-03
Publication date: 2021-12-23
Also published as: EP3979079A4; US20220148674A1; EP3979079A1; CN113821364A

Abstract

一种内存故障的处理方法、装置、设备及存储介质，属于计算机技术领域。其中处理方法包括，通过分析历史故障信息得到故障分析结果（101），进而根据故障分析结果对内存进行故障修复（102），从而能够更加精确地分析内存故障。另外，由于无需冷复位即能启动对内存的故障修复，也即能够及时修复内存故障，防止系统宕机，减少业务影响。

Description

内存故障的处理方法、装置、设备及存储介质

本申请要求于2020年6月20日提交的申请号为202010569797.2、发明名称为“一种内存故障处理的方法”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。本申请还要求于2020年10月29日提交的申请号为202011179463.0、发明名称为“内存故障的处理方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种内存故障的处理方法、装置、设备及存储介质。

背景技术

内存是设备的重要组成部分之一。通常情况下，内存包括多个bank(也称为存储矩阵)，每个bank包括多个内存行。内存在使用的过程中，经常会由于各种原因发生故障，而内存行故障导致的内存故障占比很高，因此，内存行故障的修复可以作为内存故障中的重要修复手段。

在相关技术中，内存中的每个bank上有冗余行。设备在进行冷复位后，也即设备宕机重启或者用户手动重启设备后，设备会进行内存自检，如果检测到内存故障发生在一个内存行上，则认为发生内存行故障，且发生故障的内存行被称为故障行。此时，可以确定故障日志中记录的该故障行上发生的可纠正错误(corrected error，CE)类型的内存故障的次数是否达到阈值，如果达到阈值，则确定当前满足启动硬封装后修复(hard post package repair，hPPR)的条件，启动hPPR，并用故障行所在bank上的冗余行对该故障行进行替换，从而实现内存行故障的修复。

然而，相关技术中，需要设备冷复位后才能启动hPPR进行故障行替换，这样会对业务造成影响，如果设备运行过程中内存故障严重，且一直得不到修复，会导致设备宕机，将严重影响业务。

发明内容

本申请实施例提供了一种内存故障的处理方法、装置、设备及存储介质，能够及时修复内存故障，防止系统宕机，减少对业务的影响。所述技术方案如下：

第一方面，提供了一种内存故障的处理方法，该方法包括：

在第一时刻启动对内存的故障分析；故障分析包括：通过分析历史故障信息，获得内存当前的故障分析结果，其中，历史故障信息为内存在历史时间段内积累的故障信息，历史时间段为第一时刻之前的时间段或者第一时刻之前且包含第一时刻的时间段；根据内存当前的故障分析结果启动对内存的故障修复。

在本申请实施例中，通过分析历史故障信息得到故障分析结果，进而根据故障分析结果对内存进行故障修复，本方案能够更加精确地分析内存故障，且无需冷复位即能启动对内存的故障修复，防止系统宕机，减少业务影响。

可选地，第一时刻为计算机系统出现UCE故障之前的时刻。也即是，在计算机系统运行期间启动对内存的故障分析，计算机系统运行期间是指计算机系统正常工作期间。

可选地，第一时刻包括：根据预设的条件周期性启动的时刻；和/或，在计算机系统运行之后，确定内存发生内存故障的时刻。

也即是，计算机设备在检测到发生内存故障时，启动分析历史故障信息，获得故障分析结果。或者，计算机设备周期性地分析历史故障信息，获得故障分析结果。或者，计算机设备周期性地分析历史故障信息，获得故障分析结果，以及如果在周期间隔内检测到发生内存故障，则分析历史故障信息，获得故障分析结果，并以本次检测到内存故障的时间为准重新开始周期分析。或者，计算机设备周期性地分析历史故障信息，获得故障分析结果，以及如果在周期间隔内检测到发生内存故障，则分析历史故障信息，获得故障分析结果，但并不以本次检测到内存故障的时间重新开始周期分析，也即不影响周期分析。

需要说明的是，计算机设备周期性地分析历史故障信息，能够及时预测内存故障的严重性，及时修复内存故障。

可选地，本申请实施例通过故障分析模型分析历史故障信息，确定故障分析结果，也即是，计算机设备通过分析历史故障信息，获得内存当前的故障分析结果，包括：将历史故障信息输入故障分析模型，获得内存当前的故障分析结果，故障分析模型为智能计算分析模型。

需要说明的是，通过故障分析模型分析历史故障信息仅为本申请实施例提供的分析历史故障信息的一种实现方式，计算机设备也能够通过其他实现方式分析历史故障信息，例如基于数据统计的方式，本申请实施例对此不作限定。接下来对计算机设备通过故障分析模型或者通过其他方式获得故障分析结果的实现方式进行介绍。

本申请实施例中，故障分析结果包含故障模式，则计算机设备根据内存当前的故障分析结果启动对内存的故障修复包括：在故障模式为内存行故障时，启动对内存的故障修复，其中，故障修复包括：用冗余行替换故障行，对冗余行上的数据进行修复。

本申请实施例中，计算机设备获得内存当前的故障分析结果，包括：根据历史故障信息获得第一统计特征，第一统计特征表示历史时间段内第一内存行出现的故障位的数量，第一内存行是任意内存行，当第一统计特征大于第一阈值时，确定故障模式为内存行故障，第一阈值表示每个内存行能够容忍的故障位的数量。

可选地，假设计算机设备通过故障分析模型分析历史故障信息，那么故障分析模型包括第一阈值，计算机设备将历史故障信息输入故障分析模型，由故障分析模型根据历史故障信息获得第一统计特征。

可选地，故障分析结果还包含故障级别，则计算机设备根据内存当前的故障分析结果启动对内存的故障修复包括：在故障模式为内存行故障且故障级别为高风险级别时，启动对内存的故障修复。

可选地，计算机设备获得内存当前的故障分析结果，还包括：根据历史故障信息获得第二统计特征和/或第三统计特征，第二统计特征表示历史时间段内第一内存行出现的每种故障类型的故障数量，第三统计特征表示历史时间段内第一内存行出现的纠错数量；当第二统计特征大于第二阈值时，或者，当第三统计特征大于第三阈值时，或者，当第二统计特征大于第二阈值且第三统计特征大于第三阈值时，确定故障级别为高风险级别。其中，第二阈值表示每个内存行能够容忍的每种故障类型的故障数量，第三阈值表示每个内存行能够容忍的纠错数量。

可选地，假设计算机设备通过故障分析模型分析历史故障信息，那么故障分析模型还包括第二阈值和/或第三阈值。计算机设备将历史故障信息输入故障分析模型，由故障分析模型根据历史故障信息获得第二统计特征和/或第三统计特征。

需要说明的是，历史故障信息还包括历史时间段内发生的内存故障的故障类型和故障纠错信息。其中，故障类型包括CE类型和UCE类型。可选地，CE类型包括巡检CE类型、读CE类型等。故障纠错信息包括对每次发送的内存故障进行纠错的纠错数据量(也称为纠错数据，单位如比特bit)、纠错码等信息。

可选地，在交互界面上显示风险模式选项，风险模式选项包括内存高风险模式选项和内存低风险模式选项。也即是，计算机设备提供交互界面，用户可以通过交互界面选择风险模式。

可选地，第一阈值、第二阈值和第三阈值为根据风险模式而设置的变量。

可选地，内存高风险模式的第一阈值小于内存低风险模式的第一阈值；和/或，内存高风险模式的第二阈值小于内存低风险模式的第二阈值；和/或，内存高风险模式的第三阈值小于内存低风险模式的第三阈值。

可选地，历史时间段的时长为根据风险模式而设置的变量，内存高风险模式的历史时间段的时长小于内存低风险模式的历史时间段的时长。

由上述可知，可以由用户灵活地根据需求选择风险模式，例如，如果用户的业务风险较高，则可以选择高风险模式，这样，第一阈值和/或第二阈值和/或第三阈值较低和/或历史时间段较短，计算机设备通过分析较短时间段内的历史故障信息，得到第一统计特征、第二统计特征和/或第三统计特征，将得到的这些数据与较小的阈值进行比较，来分析是否是内存行故障、高风险级别，这样计算机设备可以保证及时识别不太严重的内存行故障。如果用户的业务风险较低，则可以选择低风险模式，这样可以保证高识别，也即及时识别较严重的内存行故障。

在本申请实施例中，计算机设备提供交互界面给用户选择风险模式，计算机设备根据用户选择的风险模式，确定需要分析的故障信息的时长和/或阈值判断时的阈值大小，通过统计相应时长内的故障信息，并进行阈值比较，在识别出故障模式为内存行故障时，及时修复内存故障。这样，将用户选择的风险模式与阈值比较的方法融合，在精准预测内存行故障的同时，减轻计算机设备的计算压力。

在本申请实施例中，由前述可知，故障分析结果包含故障模式，则计算机设备根据内存当前的故障分析结果启动对内存的故障修复包括：在故障模式为内存行故障时，启动对内存的故障修复，其中，故障修复包括：用冗余行替换故障行，对所述冗余行上的数据进行修复。也即是，计算机设备在确定故障模式为内存行故障时，用内存中的冗余行替换故障行，并对故障数据进行修复。

或者，由前述可知，故障分析结果还包含故障级别，则计算机设备根据内存当前的故障分析结果启动对内存的故障修复包括：在故障模式为内存行故障且故障级别为高风险级别时，启动对内存的故障修复。也即是，计算机设备在确定故障模式为内存行故障且故障级别为高风险级别时，用内存中的冗余行替换故障行，并对故障数据进行修复。

可选地，冗余行和故障行位于内存中的同一个bank上。也即是，计算机设备用故障行所在bank上的冗余行替换故障行。

可选地，计算机设备对冗余行上的数据进行修复，包括：对冗余行执行读操作；如果从冗余行上读取出的数据为错误数据，则对错误数据进行纠正，将纠正后的数据回写到冗余行上，以实现冗余行上的数据的修复。也即是，在本申请实施例中，通过冗余行的读操作以及数据回写，对故障数据进行修复。

可选地，对冗余行执行读操作，如果从冗余行上读取出的数据为错误数据，则对错误数据进行纠正，将纠正后的数据回写到冗余行上，包括：将冗余行划分为M段，每段包括一个或多个存储单元，M为大于1的整数；令i＝1，对冗余行上的第i段执行读操作；如果从冗余行上的第i段读取出的数据为错误数据，则对错误数据进行纠正，将纠正后的数据回写到第i段上；如果i不等于M，则令i＝i+1，返回对冗余行上的第i段执行读操作，直至i等于M为止。也即是，计算机设备通过分段逐次读取、纠正和回写的方式，对冗余行上的数据进行修复。

可选地，在从冗余行上读取出的数据为错误数据之后，该方法还包括：产生可纠正错误CE；抑制CE。

在本申请实施例中，在从冗余行上读取出的数据为错误数据之后，计算机设备中会产生CE，计算机设备抑制该CE。也即是，由于计算机设备在读取冗余行时，检测到了错误数据，计算机设备会认为检测到了一个CE，由于该CE并非计算机的内存故障导致的，因此需要抑制该CE，也即不处理该CE，或者说计算机设备不记录该CE。

可选地，在对冗余行上的数据修复完成之后，该方法还包括：解除CE的抑制操作。

而在计算机设备在修复完冗余行之后产生的CE是真正内存故障产生的，因此，需要对该CE进行处理，也即解除CE的抑制操作，记录该CE。

前述介绍了在通过分析历史时间段内第一内存行的故障信息获得故障分析结果后，计算机设备启动内存的故障修复的实现方式为：在故障模式为内存行故障时，或者在故障模式为内存行故障且故障级别为高风险级别时，启动对内存的故障修复，故障修复为用冗余行替换故障行，对冗余行上的数据进行修复。在另一些实施例中，计算机设备通过分析历史时间段内第二bank的故障信息来获得故障分析结果，相应地，计算机设备启动对内存的故障修复的实现方式为：在故障模式为内存bank故障时，或者故障模式为内存bank故障且故障级别为高风险级别时，启动对内存的故障修复，故障修复为用冗余bank替换故障bank，对冗余bank上的数据进行修复。

也即是，故障分析结果包含故障模式，则计算机设备根据内存当前的故障分析结果启动对内存的故障修复包括：在故障模式为内存bank故障时，启动对内存的故障修复，其中，故障修复包括：用冗余bank替换故障bank，对冗余bank上的数据进行修复。

或者，故障分析结果包含故障模式和故障级别，则计算机设备根据内存当前的故障分析结果启动对内存的故障修复包括：在故障模式为内存bank故障且故障级别为高风险级别时，启动对内存的故障修复，其中，故障修复包括：用冗余bank替换故障bank，对冗余bank上的数据进行修复。

可选地，冗余bank和故障bank位于内存中的同一channel上。

需要说明的是，该实施例与前述实施例不同的是，该实施例中的第二bank与前述实施例中的第一内存行为一个级别的概念，前述实施例是以内存行的粒度来分析历史故障信息得到故障分析结果，该实施例是以bank的粒度来分析历史故障信息得到故障分析结果。在前述实施例中用冗余行替换故障行，冗余行和故障行在同一个bank上，在该实施例中用冗余bank替换故障bank，冗余bank和故障bank位于内存中的同一channel上。

第二方面，提供了一种内存故障的处理装置，所述内存故障的处理装置具有实现上述第一方面中内存故障的处理方法行为的功能。所述内存故障的处理装置包括一个或多个模块，该一个或多个模块用于实现上述第一方面所提供的内存故障的处理方法。

也即是，提供了一种内存故障的处理装置，该装置包括：

分析模块，用于在第一时刻启动对内存的故障分析；故障分析包括：通过分析历史故障信息，获得内存当前的故障分析结果，其中，历史故障信息为内存在历史时间段内积累的故障信息，历史时间段为第一时刻之前的时间段或者第一时刻之前且包含第一时刻的时间段；

处理模块，用于根据内存当前的故障分析结果启动对内存的故障修复。

可选地，第一时刻为计算机系统出现不可纠正错误UCE故障之前的时刻。

可选地，第一时刻包括：

根据预设的条件周期性启动的时刻；和/或，在计算机系统运行之后，确定内存发生内存故障的时刻。

可选地，分析模块包括：

分析子模块，用于将历史故障信息输入故障分析模型，获得内存当前的故障分析结果，故障分析模型为智能计算分析模型。

可选地，故障分析结果包含故障模式，则处理模块包括：

第一修复子模块，用于在故障模式为内存行故障时，启动对内存的故障修复，其中，故障修复包括：用冗余行替换故障行，对冗余行上的数据进行修复。

可选地，分析模块具体用于：

根据历史故障信息获得第一统计特征，第一统计特征表示历史时间段内第一内存行出现的故障位的数量，第一内存行是任意内存行；

当第一统计特征大于第一阈值时，确定故障模式为内存行故障，第一阈值表示每个内存行能够容忍的故障位的数量。

可选地，故障分析结果还包含故障级别，则处理模块包括：

第二修复子模块，用于在故障模式为内存行故障且故障级别为高风险级别时，启动对内存的故障修复。

可选地，分析模块还具体用于：

根据历史故障信息获得第二统计特征和/或第三统计特征，第二统计特征表示历史时间段内第一内存行出现的每种故障类型的故障数量，第三统计特征表示历史时间段内第一内存行出现的纠错数量；

当第二统计特征大于第二阈值时，或者，当第三统计特征大于第三阈值时，或者，当第二统计特征大于第二阈值且第三统计特征大于第三阈值时，确定故障级别为高风险级别，第二阈值表示每个内存行能够容忍的每种故障类型的故障数量，第三阈值表示每个内存行能够容忍的纠错数量。

可选地，该装置还包括：

交互模块，用于在交互界面上显示风险模式选项，风险模式选项包括内存高风险模式选项和内存低风险模式选项。

可选地，第一修复子模块具体用于：

对冗余行执行读操作；

如果从冗余行上读取出的数据为错误数据，则对错误数据进行纠正，将纠正后的数据回写到冗余行上，以实现冗余行上的数据的修复。

可选地，该装置还包括：

产生模块，用于从冗余行上读取出的数据为错误数据之后，产生可纠正错误CE；

抑制模块，用于抑制CE。

可选地，该装置还包括：

解除模块，用于在对冗余行上的数据修复完成之后，解除CE的抑制操作。

可选地，故障分析结果包含故障模式，则处理模块包括：

第三修复子模块，用于在故障模式为内存bank故障时，启动对内存的故障修复，其中，故障修复包括：用冗余bank替换故障bank，对冗余bank上的数据进行修复。

可选地，冗余bank和故障bank位于内存中的同一channel上。

第三方面，提供了一种计算机设备，所述计算机设备中存储有计算机程序，所述计算机程序被计算机设备运行时实现上述第一方面所提供的内存故障的处理方法。

可选地，所述计算机设备包括处理器和存储器，所述存储器用于存储执行上述第一方面所提供的内存故障的处理方法的程序，以及存储用于实现上述第一方面所提供的内存故障的处理方法所涉及的数据。所述处理器被配置为用于执行所述存储器中存储的程序，实现上述第一方面所提供的内存故障的处理方法。所述存储设备的操作装置还可以包括通信总线，该通信总线用于该处理器与存储器之间建立连接。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所提供的内存故障的处理方法。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的内存故障的处理方法。

上述第二方面、第三方面、第四方面和第五方面所获得的技术效果与第一方面中对应的技术手段获得的技术效果近似，在这里不再赘述。

本申请实施例提供的技术方案至少能够带来以下有益效果：

在本申请实施例中，通过分析历史故障信息得到故障分析结果，进而根据故障分析结果对内存进行故障修复，本方案能够更加精确地分析内存故障。另外，本方案无需冷复位即能启动对内存的故障修复，也即能够及时修复内存故障，防止系统宕机，减少业务影响。

附图说明

图1是本申请实施例提供的一种内存故障的处理方法的流程图；

图2是本申请实施例提供的一种对冗余行进行数据修复的示意图；

图3是本申请实施例提供的另一种内存故障的处理方法的流程图；

图4是本申请实施例提供的又一种内存故障的处理方法的流程图；

图5是本申请实施例提供的又一种内存故障的处理方法的流程图；

图6是本申请实施例提供的一种内存故障的处理装置的结构示意图；

图7是本申请实施例提供的另一种内存故障的处理装置的结构示意图；

图8是本申请实施例提供的又一种内存故障的处理装置的结构示意图；

图9是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1是本申请实施例提供的一种内存故障的处理方法的流程图，该方法应用于计算机设备。请参考图1，该方法包括如下步骤。

步骤101：在第一时刻启动对内存的故障分析，故障分析包括：通过分析历史故障信息，获得内存当前的故障分析结果。

在本申请实施例中，内存(如动态随机存取存储器(dynamic random access memory，DRAM)DRAM)的基本存储单元通常由一个晶体管和一个电容构成，电容上携带的电荷数量决定该基本存储单元是‘0’还是‘1’，由于外部环境的电离粒子，或者内部晶体管的半导体硬件缺陷，会导致内存发生错误，也即发生内存故障。

内存发生故障以后，内存本身有纠错算法(如错误检查和纠错(error checking and correcting，ECC))来纠正错误，被纠正的错误称为可纠正错误(corrected error，CE)，纠错算法具备一定的纠错能力，但是能力有限，如果超过纠错算法的纠错能力，则产生不可纠错误(uncorrected error，UCE)，导致设备宕机。

本申请实施例为了及时修复内存故障，减少产生UCE，减少设备宕机重启，以减轻对业务的影响，计算机设备通过分析历史时间段内发生的内存故障的故障信息，得到故障分析结果，之后根据故障分析结果，确定是否处理内存故障，以及如何处理内存故障。

在本申请实施例中，计算机设备在第一时刻启动对内存的故障分析，故障分析包括通过分析历史故障信息，获得内存当前的故障分析结果，其中，历史故障信息为内存在历史时间段内积累的故障信息，历史时间段为第一时刻之前的时间段或者第一时刻之前且包含第一时刻的时间段。

也即是，计算机设备在检测到发生内存故障时，启动分析历史故障信息，获得故障分析结果。或者，计算机设备周期性地分析历史故障信息，获得故障分析结果。或者，计算机设备周期性地分析历史故障信息，获得故障分析结果，以及如果在周期间隔内检测到发生内存故障，则分析历史故障信息，获得故障分析结果，并以本次检测到内存故障的时间为准重新开始周期分析。或者，计算机设备周期性地分析历史故障信息，获得故障分析结果，以及如果在周期间隔内检测到发生内存故障，则分析历史故障信息，获得故障分析结果，但不以本次检测到内存故障的时间为准重新开始周期分析，也即不影响周期分析。

需要说明的是，计算机设备周期性地分析历史故障信息，以及时预测内存故障的严重性，及时修复内存故障。

可选地，本申请实施例通过故障分析模型来智能分析历史故障信息的方式获得故障分析结果，也即是，计算机设备将历史故障信息输入故障分析模型，获得内存当前的故障分析结果，故障分析模型为智能计算分析模型。

需要说明的是，通过故障分析模型分析历史故障信息仅为本申请实施例提供的分析历史故障信息的一种实现方式，计算机设备也能够通过其他实现方式分析历史故障信息，例如基于数据统计的方式，本申请实施例对采用的分析方法不作限定。接下来对计算机设备通过故障分析模型或者通过其他方式获得故障分析结果的实现方式进行介绍。

在本申请实施例中，故障分析结果包含故障模式，则在故障模式为内存行故障时，计算机设备启动对内存的故障修复，其中，故障修复包括：用冗余行替换故障行，对冗余行上的数据进行修复。也即是，计算机设备通过分析历史故障信息确定内存当前的故障模式为内存行故障时，进行内存行替换以及数据修复。

在本申请实施例中，历史故障信息包括历史时间段内发生的内存故障的故障位置和故障时间，计算机设备统计历史故障信息包括的故障位置和故障时间，来分析内存故障信息，并确定故障模式。

其中，故障位置是指发生内存故障的物理地址。需要说明的是，每次发生的内存故障位于一个cell上，当检测到发生内存故障时，本次发生内存故障的cell位于哪个bank的哪个内存行，或者位于哪个bank的哪行哪列，即为本次发生内存故障的故障位置。故障时间是指发生内存故障的时间。

需要说明的是，计算机设备中存储有内存故障日志，内存故障日志中记录有历史时间段内发生的内存故障的故障信息，也即存储有历史故障信息。

在本申请实施例中，计算机设备获得内存当前的故障分析结果包括：根据历史故障信息获得第一统计特征，第一统计特征表示历史时间段内第一内存行出现的故障位的数量，第一内存行是任意内存行，当第一统计特征大于第一阈值时，确定故障模式为内存行故障，第一阈值表示每个内存行能够容忍的故障位的数量。

可选地，假设计算机设备通过故障分析模型分析历史故障信息，那么故障分析模型包括第一阈值，计算机设备将历史故障信息输入故障分析模型，由故障分析模型根据历史故障信息获得第一统计特征。也即是，计算机设备通过故障分析模型统计历史时间段内第一内存行出现的故障位的数量，获得第一统计特征，通过阈值判断确定故障模式。

需要说明的是，内存包括多个bank，每个bank包括多个内存行，每个内存行包括多个cell，内存中发生过内存故障的一个cell即为一个故障位。历史时间段内一个cell上可能未发生过内存故障，发生过一次内存故障，或者发生过不止一次内存故障，历史故障信息包括历史时间段内每次发生内存故障的故障时间和故障位置，计算机设备统计历史时间段内处于第一内存行的内存故障中故障位置不同的内存故障的数量，得到第一统计特征。如果第一统计特征大于第一阈值，表示第一内存行上有多个cell发生过内存故障，则计算机设备确定内存当前的故障模式为内存行故障。

另外，由前述可知，计算机设备周期性地启动内存故障分析，或者发生内存故障时启动内存故障分析，基于此，计算机设备确定需要统计的第一内存行有多种情况，接下来对此进行介绍。

在检测到发生内存故障而启动内存故障分析的情况下，计算机设备根据本次发生的内存故障的故障位置确定第一内存行，第一内存行是指本次发生的内存故障所在的内存行。或者，计算机设备根据本次发生的内存故障的故障位置确定第一bank，将第一bank包括的一个内存行确定为第一内存行，第一bank是指本次发生的内存故障所在的bank，第一内存行是指第一bank包括的内存行中的一个。或者，计算机设备将内存包括的一个内存行确定为第一内存行，也即第一内存行是指内存包括的内存行中的一个。

在计算机设备周期性地启动内存故障分析的情况下，计算机设备根据最近一次发生内存故障的故障位置确定第一内存行，第一内存行是指最近一次发生的内存故障所在的内存行。或者，计算机设备根据最近一次发生的内存故障的故障位置确定第一bank，将第一bank包括的一个内存行确定为第一内存行，第一bank是指最近一次发生的内存故障所在的bank，第一内存行是指第一bank包括的内存行中的一个。或者，计算机设备将内存包括的一个内存行确定为第一内存行，也即第一内存行是指内存包括的内存行中的一个。

需要说明的是，在第一内存行是指第一bank或内存包括的内存行中的一个的情况下，对于第一bank或内存中除第一内存行之外的其他内存行，计算机设备也按照与统计第一内存行相同的方式，统计得到其他内存行中每个内存行对应的数据，并根据统计得到的数据确定第一统计特征。

在第一内存行是指本次或最近一次发生内存故障的内存行的情况下，计算机设备统计历史故障信息中关于第一内存行的故障信息，得到一个数量，将统计得到的数量直接作为第一统计特征，也即得到一个第一统计特征。在第一内存行是指第一bank或内存包括的内存行中的一个的情况下，计算机设备统计历史故障信息中关于多个第一内存行的故障信息，得到多个数量，每个数量对应一个内存行，计算机设备将统计得到的多个数量的最大值作为第一统计特征，或者将该多个数量中的每个数量作为一个第一统计特征，得到多个第一统计特征，每个第一统计特征对应一个内存行。

在本申请实施例中，计算机设备在得到第一统计特征之后，将第一统计特征与第一阈值进行比较，来确定内存当前的故障模式。例如，在得到一个第一统计特征的情况下，当第一统计特征大于第一阈值时，确定内存模式为内存行故障。在得到多个第一统计特征的情况下，当该多个第一统计特征中的至少一个第一统计特征大于第一阈值时，确定内存模式为内存行故障。

可选地，故障分析结果还包含故障级别，则在故障模式为内存行故障且故障级别为高风险级别时，计算机设备启动对内存的故障修复。接下来介绍计算机设备通过分析历史故障信息确定内存当前的故障级别的实现方式。

在本申请实施例中，计算机设备获得内存当前的故障分析结果，还包括：根据历史故障信息获得第二统计特征和/或第三统计特征，第二统计特征表示历史时间段内第一内存行出现的每种故障类型的故障数量，第三统计特征表示历史时间段内第一内存行出现的纠错数量，当第二统计特征大于第二阈值时，或者，当第三统计特征大于第三阈值时，或者，当第二统计特征大于第二阈值且第三统计特征大于第三阈值时，确定故障级别为高风险级别。其中，第二阈值表示每个内存行能够容忍的每种故障类型的故障数量，第三阈值表示每个内存行能够容忍的纠错数量。

可选地，假设计算机设备通过故障分析模型分析历史故障信息，那么故障分析模型还包括第二阈值和/或第三阈值。计算机设备将历史故障信息输入故障分析模型，由故障分析模型根据历史故障信息获得第二统计特征和/或第三统计特征。也即是，计算机设备通过故障分析模型统计历史时间段内第一内存行出现的每种故障类型的故障数量，获得第二统计特征，和/或，统计历史时间段内第一内存行出现的纠错数量，获得第三统计特征。之后，计算机设备通过故障分析模型将第二统计特征与第二阈值进行比较，和/或，将第三统计特征与第三阈值进行比较，确定故障级别。

需要说明的是，历史故障信息还包括历史时间段内发生的内存故障的故障类型和故障纠错信息。其中，故障类型包括CE类型和UCE类型。可选地，CE类型包括巡检CE类型、读CE类型等。故障纠错信息包括对每次发送的内存故障进行纠错(如ECC纠错)的纠错数据量(也称为纠错数据，单位如比特bit)、纠错码等信息。

在本申请实施例中，由前述可知，在计算机设备周期性地启动内存故障分析，或者发生内存故障时启动内存故障分析，基于此，计算机设备统计历史故障信息中第一内存行的故障信息，获得第二统计特征和/或第三统计特征的实现方式有很多，也即计算机设备确定需要统计的第一内存行的有多种情况，与前述介绍的统计得到第一统计特征的过程中，确定第一内存行的多种情况相同，请参照前述介绍，这里不再赘述。

在第一内存行是指本次或最近一次发生内存故障的内存行的情况下，计算机设备统计得到一个内存行对应的数据，将统计得到的数据直接作为第二统计特征和/或第三统计特征。在第一内存行是指第一bank或内存包括的内存行中的一个的情况下，计算机设备统计得到多个内存行对应的数据，计算机设备将统计得到的数据作为相应内存行对应的第二统计特征和/或第三统计特征。

在本申请实施例中，计算机设备在得到第二统计特征和/或第三统计特征之后，将第二统计特征与第二阈值进行比较，和/或，将第三统计特征与第三阈值进行比较，来确定内存当前的故障级别。

需要说明的是，由于故障类型有很多种，历史故障信息中的故障类型可能有一种或多种，因此，计算机设备需要统计第一内存行出现的一种或多种故障类型的故障数量，得到该内存行对应的一个或多个第二统计特征，且每个第二统计特征对应一种故障类型。

可选地，计算机设备中存储有一个第二阈值或多个第二阈值。例如，故障分析模型包括一个第二阈值或多个第二阈值。

在计算机设备存储有一个第二阈值的情况下，计算机设备将得到的每个内存行对应的一个或多个第二统计特征中的每个第二统计特征均与第二阈值进行比较，当该一个或多个第二统计特征中的全部或部分大于第二阈值时，确定故障级别为高风险级别。

在计算机设备存储有多个第二阈值的情况下，该多个第二阈值中的每个第二阈值对应一种故障类型，对于得到的每个内存行对应的一个或多个第二统计特征，计算机设备将每个第二统计特征与对应相同故障类型的第二阈值进行比较，当该一个或多个第二统计特征中的全部或部分大于对应的第二阈值时，确定故障级别为高风险级别。

示例性地，故障类型包括巡检CE类型、读CE类型和UCE类型，历史时间段内第一内存行上出现的内存故障包括3次巡检CE类型和1次读CE类型，则计算机设备统计第一内存行得到两个第二统计特征分别为3和1，3对应巡检CE类型，1对应读CE类型。假设计算机设备存储有一个第二阈值，第二阈值为5，那么计算机设备将3和1均与5进行比较，确定故障级别为低风险级别。假设计算机设备存储有3个第二阈值，分别为8、5、2，其中，8对应巡检CE类型，5对应读CE类型，2对应UCE类型，那么计算机设备将3与8进行比较，将1与5进行比较，确定故障级别为低风险级别。

需要说明的是，在第一内存行是指本次或最近一次发生内存故障的内存行的情况下，由于仅统计一个内存行对应的数据，这样，当该内存行对应的第二统计特征大于第二阈值，和/或第三统计特征大于第三阈值时，确定故障级别为高风险级别，如果根据前述方法分析该内存行的故障信息确定内存当前的故障模式为内存行故障，则确定该内存行为故障行，需要启动对内存的故障修复。

而在第一内存行是指第一bank或内存包括的内存行中的一个的情况下，由于统计多个内存行分别对应的数据，这样，当同一内存行对应的第一统计特征大于第一阈值，且对应的第二统计特征大于第二阈值和/或第三统计特征大于第三阈值时，确定该内存行为故障行，需要启动对内存的故障修复。

可选地，历史时间段的时长为设置的固定的参数。例如，历史时间段是指从计算机设备装机运行开始到本次分析故障信息之间的时间段，或者，用户通过计算机设备配置历史时间段的时长，例如配置历史时间段的时长为一个月，历史时间段即指本次分析故障信息之前的一个月时间。

可选地，计算机设备在分析出故障模式为内存行故障时，或者在分析出故障模式为内存行故障且故障级别为高风险级别时，通过交互界面提示存在内存故障风险。

可选地，用户还可以通过交互界面修改第一阈值、第二阈值、第三阈值和历史时间段的时长中的一个或多个。

在本申请实施例中，计算机设备提供交互界面给用户选择风险模式，计算机设备根据用户选择的风险模式，确定需要分析的故障信息的时长和/或阈值判断时的阈值大小，通过统计相应时长内的故障信息，并进行阈值比较，在识别出故障模式为内存行故障时，或者在识别出故障模式为内存行故障且故障级别为高风险级别时，及时修复内存故障。这样，将用户选择的风险模式与阈值比较的方法融合，在精准预测内存行故障的同时，减轻计算机设备的计算压力。

可选地，在另一些实施例中，对于第二统计特征和第三统计特征，计算机设备以更细粒度的统计方式来统计数据。例如，计算机设备统计第一时间间隔内每种故障类型的内存故障在第一内存行上出现的最大次数和平均次数中的至少一个，得到第二统计特征，以及统计第一时间间隔内针对第一内存行上每种故障类型的内存故障的最大纠错数据量和平均纠错数据量中的至少一个，得到第三统计特征，历史时间段包括多个时间间隔，第一时间间隔为多个时间间隔中的一个。

计算机设备根据该最大次数和/或平均次数，以及该最大纠错数据量和/或平均纠错数据量，确定故障级别(风险级别或风险等级)。例如，在计算机设备确定最大次数和最大纠错数据量的情况下，在该最大次数大于或等于第二阈值，和/或，最大纠错数据量大于或等于第三阈值时，确定故障级别为高风险级别，其中，故障级别分为低风险级别和高风险级别。或者，计算机设备根据阈值，确定故障级别，可选地，故障级别分为多个级别，例如一级、二级、三级等，一级表示存在较严重的内存风险，三级表示存在不太严重的内存风险。

需要说明的是，在该实施例中，平均次数包括算数平均值、几何平均值、调和平均值中的一个或多个，另外，除了统计最大次数和/或平均次数、最大纠错数据量和/或平均纠错数据量之外，还可以统计其他的数据，例如各种数据的中值、标准差等，也即是统计方式有很多，本申请实施例仅以统计最大次数和平均次数、最大纠错数据量和平均纠错数据量为例进行说明。

可选地，计算机设备还能够确定故障级别的情况下，计算机设备中存储有第一故障级别，在计算机设备识别出内存行故障，且识别出的故障级别与第一故障级别相同，或者超过第一故障级别时，则计算机设备自动修复内存行故障。或者，计算机设备先通过交互界面显示当前存在较严重的内存故障，以提示用户选择是否进行内存故障修复，计算机设备根据用户的选择操作确定是否修复内存行故障。

可选地，计算机设备中存储的第一故障级别为默认配置。或者，第一故障级别为用户选择的故障级别，也即是，用户预先通过计算机设备提供的交互界面根据业务风险需求选择故障级别。

在该实施例中，计算机设备每次都统计获得细粒度的统计特征，来识别出故障模式和故障级别，更加精准地预测内存行故障以及风险等级。

可选地，在其他一些实施例中，计算机设备分析历史故障信息，确定故障模式以及故障级别的实现方式也可以为：计算机设备通过统计数据进行阈值判断的方式，确定故障模式，以及通过故障分析模型，基于智能分析的方式确定故障级别。在这种实现方式中，计算机设备统计历史故障信息中的故障时间和故障位置等，通过阈值比较的方式识别故障行模式，另外，通过故障分析模型来智能分析历史故障信息中的故障位置、故障时间、故障类型和故障纠错信息，识别出故障级别。可选地，在这种实现方式中，计算机设备提供交互界面给用户选择配置历史时间段的时长、第一阈值、第一故障级别等，计算机设备根据用户选择的配置，精准预测内存行故障以及故障级别。

步骤102：根据内存当前的故障分析结果启动对内存的故障修复。

在本申请实施例中，在故障分析结果包含故障模式，且内存当前的故障模式为内存行故障时，计算机设备启动对内存的故障修复。可选地，在故障分析结果还包含故障级别，且故障模式为内存行故障且故障级别为高风险级别时，启动对内存的故障修复。

在本申请实施例中，故障修复包括：用内存中的冗余行替换故障行，对冗余行上的数据进行修复。

其中，故障行是指发生内存行故障的内存行。例如，在第一内存行是指本次发生的(或者最近一次发生的)内存故障所在的内存行时，故障行即为第一内存行。在第一内存行是指第一bank(或者内存)包括的内存行中的一个时，计算机设备能够通过阈值判断或者智能分析的方式，确定故障行，故障行为第一bank(或者内存)上的一个内存行。

在本申请实施例中，冗余行和故障行位于内存中的同一个bank上，计算机设备用故障行所在bank上的冗余行替换故障行。

可选地，计算机设备在确定需要启动对内存的故障修复之后，还生成行故障隔离请求，在生成行故障隔离请求之后，用内存中的冗余行替换故障行。

由前述可知，用户可以根据业务风险需求选择风险模式，这样在计算机设备根据用户选择的风险模式，并确定故障模式为内存行故障之后，生成行故障隔离请求，表示当前满足内存行故障处理的条件，计算机设备进行内存行替换。可选地，计算机设备还可以再提示用户选择内存行故障修复，计算机设备在接收到用户确定进行内存行故障修复的指令之后，进行内存故障行替换。

可选地，本申请实施例中在线进行内存故障行替换的技术包括软封装后修复(soft post package repair，sPPR)技术。

在本申请实施例中，计算机设备对冗余行上的数据进行修复的实现方式为：对冗余行执行读操作，如果从冗余行上读取出的数据为错误数据，则对错误数据进行纠正，将纠正后的数据回写到冗余行上，以实现冗余行上的数据的修复。也即是，在本申请实施例中，通过冗余行的读操作以及数据回写，对故障数据进行修复。

需要说明的是，计算机设备通过触发对冗余行的读操作，读取冗余行所在的内存颗粒(chip)上的所有数据，当读到冗余行时，根据读取的该内存颗粒上的其他数据，判断冗余行上的数据是否为错误数据，并根据读取的其他数据，对错误数据进行纠正。在其他一些实施例中，计算机设备通过触发对冗余行的读操作，读取内存中包括冗余行所在的bank以及其他一些bank上的数据，根据读取的数据对冗余行进行数据纠错。也即是，计算机设备实际读取哪些bank或者哪些内存颗粒上的数据来对冗余行进行数据纠错，这与实际内存存储数据时的存储算法(如内存交织)、内存读操作的片选信号连接哪些bank等相关。

在本申请实施例中，内存读操作是以分段读取的方式执行的，计算机设备中默认配置有内存读操作的读间隔，例如读间隔为4bit，也即每次读取4bit数据，或者读间隔为一个或两个cell，也即每次读取一个或两个cell的数据，用户也可以更改默认配置。

例如，读间隔为4bit，对于冗余行的数据，假设冗余行上的数据为100bit，那么计算机设备按照顺序每次读取4bit数据并进行修复，修复之后，再读取下一个4bit数据进行修复，直至将冗余行上的数据全部修复。

可选地，计算机设备将冗余行划分为M段，每段包括一个或多个存储单元，M为大于1的整数。令i＝1，对冗余行上的第i段执行读操作，如果从冗余行上的第i段读取出的数据为错误数据，则对错误数据进行纠正，将纠正后的数据回写到第i段上；如果i不等于M，则令i＝i+1，返回对冗余行上的第i段执行读操作，直至i等于M为止。

示例性地，每次读取4bit数据进行纠错，并通过纠错算法对读取的4bit数据进行纠错，将纠错后的数据回写到这4bit数据所在的位置上。

需要说明的是，计算机设备对冗余行执行读操作的过程，通过纠错算法(如ECC、单内存颗粒数据错误纠正(single device data corrction，SDDC)等)对冗余行上的数据进行纠错。

图2是本申请实施例示出的一种通过读操作修复冗余行上数据的方法示意图。参见图2，该方法包括如下步骤：

步骤201：计算机设备进行行地址解析。也即是，计算机设备对故障行进行行地址解析，用冗余行替换故障行，也即将故障行的内存数据的地址映射指向冗余行，此时冗余行的数据为空。

步骤202：计算机设备启动内存区域读操作。也即是，计算机设备通过对冗余行的内存读操作，读取多个bank上的数据，包括冗余行所在的第一bank。在读取到冗余行上的数据时，计算机设备根据读取的其他bank上的数据，确定冗余行上的数据为错误数据(黑色填充方格所示)。

步骤203：计算机设备进行数据纠错。也即是，计算机设备根据读取的其他bank上的数据，对错误数据进行纠正。

步骤204：计算机设备进行数据回写。也即是，计算机设备将纠正后的数据回写到冗余行上，实现冗余行替换故障行后的数据修复。

示例性地，图2所示的一个小方格代表4bit数据，且计算机设备每次读取冗余行上的4bit数据进行纠正，也即计算机设备在读取到冗余行时，依次读取冗余行包括的一个小方格，假设读取到图2所示的第二个小方格，也即黑色填充方格所在位置上的4bit数据，根据读取的其他bank上的数据进行对该黑色填充方格对应的4bit数据纠正之后，得到纠正后的数据，将纠正后的数据回写到冗余行上黑色填充方格所在的位置。之后，再读取冗余行上位于黑色填充方格之后的一个小方格，也即第三个小方格中的4bit数据，并进行数据纠错，以及数据回写到对应的位置。以此类推，计算机设备通过分段逐次的方式，执行读取、纠正和回写的动作，以对冗余行上的数据进行修复。

在本申请实施例中，在从冗余行上读取出的数据为错误数据之后，计算机设备中会产生CE，计算机设备抑制该CE。

也即是，由于计算机设备在读取冗余行时，检测到了错误数据，计算机设备会认为检测到了一个CE，由于该CE并非计算机设备的内存故障导致的，因此需要抑制该CE，也即不处理该CE，或者说计算机设备不记录该CE。

可选地，计算机设备在触发对冗余行的读操作开始，至对冗余行的数据修复完成时，抑制该过程中的CE。

可选地，计算机设备在对冗余行上的数据修复完成之后，解除CE的抑制操作。也即是，计算机设备在修复完冗余行之后产生的CE是真正内存故障产生的，因此，需要对该CE进行处理，也即解除CE的抑制操作，记录该CE。

需要说明的是，正常情况下，计算机设备每次产生CE，会发生CE中断，将发生的CE的故障信息记录在内存故障日志中，而本申请实施例通过读操作过程中抑制CE，计算机设备即不会在内存故障日志中记录这个过程中的产生的CE的故障信息。

在本申请实施例中，计算机设备通过模块实现以上功能，参见图3，计算机设备包括执行模块和故障识别模块，计算机设备通过执行模块与故障识别模块实现上述内存故障的处理方法，该方法包括如下步骤。

步骤301：执行模块检测内存故障，并上报本次发生的内存故障的故障信息(包括故障位置和故障时间)给故障识别模块，也即CE错误上报，以触发故障识别模块进行启动故障分析。

步骤302：故障识别模块对内存错误进行解析，也即对历史故障信息进行解析，如对物理地址(故障位置)进行解析。

步骤303：故障识别模块进行内存故障识别预测，也即根据历史故障信息，分析确定故障模式，或者确定故障模式和故障级别，并在确定的故障模式满足内存故障修复的条件时，或者在确定的故障模式和故障级别满足内存故障修复的条件时，触发执行模块执行内存的故障修复。

步骤304：执行模块执行sPPR，进行内存故障行替换，也即用冗余行替换故障行。

步骤305：执行模块启动内存行区域读操作、数据纠错以及数据回写以修复冗余行上的数据，也即通过对冗余行的内存读操作对故障数据进行修复。

步骤306：执行模块配置内存行的CE抑制，以在对冗余行的读操作过程中抑制CE。

步骤307：执行模块在对冗余行的读操作结束之后，解除CE抑制，也即在数据修复之后解除CE抑制。

可选地，上述执行模块为计算机设备包括的处理器中的内存控制器(如双倍速率同步动态随机存储控制器(double data rate dynamic random access memory control，DDRC))中的内存控制模块，故障识别模块为BMC所在的芯片上的新增的一个模块。或者，故障识别模块也可以增加在计算机设备包括的任一处理设备中。

图4是本申请实施例提供的又一种内存故障的处理方法的流程图。在图3的基础上，参见图4，该方法主要包括错误上报、故障分析(识别)、行替换和数据回写。

其中，错误上报的过程包括：在执行模块检测到发生内存故障时，硬件纠错(如ECC)，并上报本次发生内存故障的故障信息(包括故障时间和故障位置)给故障识别模块，以及将该故障信息上报给用于记录内存故障日志的模块，以记录本次内存故障的故障信息。

故障分析的过程包括：故障识别模块根据接收到的故障信息，以及内存故障日志，识别内存故障的故障模式(或者识别故障模式和故障级别)，在识别确定故障模式为内存行故障(或者识别确定故障模式为内存行故障且故障级别为高风险级别)时，触发执行模块进行内存故障行替换。

行替换的过程包括：执行模块触发内存行替换，也即用冗余行替换故障行。

数据回写的过程包括：执行模块对冗余行执行内存区域读操作，通过纠错算法对冗余行上的错误数据进行纠正，也即进行数据纠错，将纠正后的数据回写到冗余行上。可选地，如果通过纠错算法不能实现对冗余行上的数据修复，则可能产生UCE，导致计算机上报宕机重启。

综上所述，在本申请实施例中，通过分析历史故障信息得到故障分析结果，进而根据故障分析结果对内存进行故障修复，本方案能够更加精确地分析内存故障。另外，本方案无需冷复位即能启动对内存的故障修复，也即能够及时修复内存故障，防止系统宕机，减少业务影响。

前述介绍了在分析历史时间段内第一内存行的故障信息获得故障分析结果后，计算机设备启动内存的故障修复的实现方式为：在故障模式为内存行故障时，或者在故障模式为内存行故障且故障级别为高风险级别时，启动对内存的故障修复，故障修复为用冗余行替换故障行，对冗余行上的数据进行修复。在另一些实施例中，计算机设备分析历史时间段内第二bank的故障信息来获得故障分析结果，相应地，计算机设备启动对内存的故障修复的实现方式为：在故障模式为内存bank故障时，或者故障模式为内存bank故障且故障级别为高风险级别时，启动对内存的故障修复，故障修复为用冗余bank替换故障bank，对冗余bank上的数据进行修复。

其中，在检测到本次发生内存故障而启动内存故障分析的情况下，第二bank是指本次发生内存故障的内存行所在的bank，或者，第二bank是指本次发生内存故障的内存行所在的内存颗粒上的一个bank，或者，第二bank是指内存中的任意一个bank。在周期性地启动内存故障分析的情况下，第二bank是指最近一次发生内存故障的内存行所在的bank，或者，第二bank是指最近一次发生内存故障的内存行所在的内存颗粒上的一个bank，或者，第二bank是指内存中的任意一个bank。

接下来参照图5对该实施例进行介绍。图5是本申请实施例提供的一种内存故障的处理方法的流程图，该方法应用于计算机设备。请参考图5，该方法包括如下步骤。

步骤501：在第一时刻启动对内存的故障分析，故障分析包括：通过分析历史故障信息，获得内存当前的故障分析结果。

在本申请实施例中，计算机设备在检测到发生内存故障时，分析历史故障信息，获得故障分析结果。或者，计算机设备周期性地分析历史故障信息，获得故障分析结果。或者，计算机设备周期性地分析故障信息，获得故障分析结果，以及如果在周期间隔内检测到发生内存故障，则分析历史故障信息，获得故障分析结果，并以本次检测到内存故障的时间为准重新开始周期分析。或者，计算机设备周期性地分析历史故障信息，确定故障模式，以及如果在周期间隔内检测到发生内存故障，则分析历史故障信息，获得故障分析结果，但不以本次检测到内存故障的时间为准重新开始周期分析，也即不影响周期分析。

需要说明的是，历史故障信息为历史时间段内发生的内存故障的故障信息，历史时间段的时长与前述实施例中的历史时间段相同或不同。由于需要分析是否存在较严重内存bank故障，因此，在历史时间段的时长长于前述实施例中的历史时间段的情况下，对内存bank故障的分析在一定程度上更加精确。

可选地，在本申请实施例中，计算机设备通过故障分析模型分析历史故障信息，获得内存当前的故障分析结果，也即是，计算机设备将历史故障信息输入故障分析模型，获得内存当前的故障分析结果，故障分析模型为智能计算分析模型。

在本申请实施例中，故障分析结果包含故障模式。

可选地，历史故障信息包括历史时间段内发生的内存故障的故障位置和故障时间。计算机设备统计历史内存故障的故障位置和故障时间，得到第二bank出现的故障位的数量，也即获得第四统计特征，当在历史时间段内，第二bank出现的故障位的数量大于或等于第四阈值时，也即第四统计特征大于第四阈值时，确定故障模式为内存bank故障。其中，第四阈值表示每个bank能够容忍的故障位的数量。

可选地，假设计算机设备通过故障分析模型分析历史故障信息，那么故障分析模型包括第四阈值。

可选地，故障分析结果还包含故障级别，历史故障信息还包括历史时间段内发生的内存故障的故障类型和/或故障纠错信息。计算机设备根据历史故障信息获得第五统计特征和/或第六统计特征，第五统计特征表示历史时间段内第二bank出现的每种故障类型的故障数量，第六统计特征表示历史时间段内第二bank出现的纠错数量。当第五统计特征大于第五阈值时，或者，当第六统计特征大于第六阈值时，或者当第五统计特征大于第五阈值且第六统计特征大于第六阈值时，确定故障级别为高风险级别。其中，第五阈值表示每个bank能够容忍的每种故障类型的故障数量，第六阈值表示每个bank能够容忍的纠错数量

可选地，假设计算机设备通过故障分析模型分析历史故障信息，那么故障分析模型还包括第五阈值和/或第六阈值。

可选地，历史时间段的时长和/或第四阈值和/或第五阈值和/或第六阈值为根据风险模式而设置的变量。

可选地，风险模式包括内存高风险模式和内存低风险模式，内存高风险模式的历史时间段的时长短于内存低风险模式的第二时间段的时长；和/或，内存高风险模式的第四阈值小于内存低风险模式的第二阈值；和/或，内存高风险模式的第五阈值小于内存低风险模式的第六阈值；和/或，内存高风险模式的第六阈值小于内存低风险模式的第六阈值。

可选地，计算机设备还提供交互界面，在交互界面上显示风险模式选项。风险模式选项包括高风险模式选项和低风险模式选项。用户可以根据业务风险需求通过交互界面选择风险模式。

可选地，该交互界面还用于在确认故障模式是内存bank故障时，提示存在内存故障风险。

需要说明的是，在该实施例中，与上述图1实施例不同的是，该实施例中的第二bank与图1实施例中的第一内存行为一个级别的概念，图1实施例是以内存行的粒度来分析内存故障的故障模式，图5实施例以bank的粒度来分析内存故障的故障模式。对于图5中计算机设备确定故障模式的实现方式参照前述图1实施例中相关内容，这里不再赘述。

步骤502：在故障模式为内存bank故障时，启动对内存的故障修复，其中，故障修复包括：用冗余bank替换故障bank，对冗余bank上的数据进行修复。

在本申请实施例中，计算机设备如果确定故障模式为内存bank故障，则用内存中的冗余bank替换故障bank，并对故障数据进行修复，故障bank是指发生内存故障的bank。

可选地，冗余bank和故障bank位于内存中的同一channel上。

图5所示实施例中与图1实施例不同的是，图1实施例中用冗余行替换故障行，冗余行和故障行在同一个bank上，图5实施例中用冗余bank替换故障bank，冗余bank和故障bank位于内存中的同一channel上。

需要说明的是，内存包括多个channel(通道)，每个channel包括多个双列直插式存储模块(dual inline memory modules，DIMM)，一个DIMM包括多个rank，一个rank包括多个chip(内存颗粒)，一个chip包括多个bank。

综上所述，在本申请实施例中，通过分析历史故障信息，来确定内存当前的故障模式，在故障模式为内存bank故障的情况下，用冗余bank替换故障bank，并进行数据修复，本方案能够更加精确地识别故障模式，且无需冷复位即能进行内存bank替换，使内存故障及时得到修复，防止系统宕机，减少业务影响。

图6是本申请实施例提供的一种内存故障的处理装置600的结构示意图，该内存故障的处理装置600可以由软件、硬件或者两者的结合实现成为计算机设备的部分或者全部，该计算机设备可以为下文图9所示的计算机设备。参见图6，该装置600包括：分析模块601和处理模块602。

分析模块601，用于在第一时刻启动对内存的故障分析；故障分析包括：通过分析历史故障信息，获得内存当前的故障分析结果，其中，历史故障信息为内存在历史时间段内积累的故障信息，历史时间段为第一时刻之前的时间段或者第一时刻之前且包含第一时刻的时间段；具体实现方式参照前述图1实施例中步骤201的详细介绍，这里不再赘述。

处理模块602，用于根据内存当前的故障分析结果启动对内存的故障修复。具体实现方式参照前述图1实施例中步骤102的详细介绍，这里不再赘述。

可选地，第一时刻包括：

可选地，分析模块601包括：

可选地，故障分析结果包含故障模式，则处理模块602包括：

第一修复子模块，用于在故障模式为内存行故障时，启动对内存的故障修复，其中，故障修复包括：用冗余行替换故障行，对冗余行上的数据进行修复。具体实现方式参照前述图1实施例中步骤102的详细介绍，这里不再赘述。

可选地，分析模块601具体用于：

根据历史故障信息获得第一统计特征，第一统计特征表示历史时间段内第一内存行出现的故障位的数量，第一内存行是任意内存行，第一阈值表示每个内存行能够容忍的故障位的数量；具体实现方式参照前述图1实施例中步骤101的详细介绍，这里不再赘述。

当第一统计特征大于第一阈值时，确定故障模式为内存行故障。

可选地，故障分析结果还包含故障级别，则处理模块602包括：

可选地，分析模块601还具体用于：

根据历史故障信息获得第二统计特征和/或第三统计特征，第二统计特征表示历史时间段内第一内存行出现的每种故障类型的故障数量，第三统计特征表示历史时间段内第一内存行出现的纠错数量；具体实现方式参照前述图1实施例中步骤101的详细介绍，这里不再赘述。

可选地，参见图7，该装置600还包括：

交互模块603，用于在交互界面上显示风险模式选项，风险模式选项包括内存高风险模式选项和内存低风险模式选项。

可选地，第一修复子模块具体用于：

对冗余行执行读操作；

如果从冗余行上读取出的数据为错误数据，则对错误数据进行纠正，将纠正后的数据回写到冗余行上，以实现冗余行上的数据的修复。具体实现方式参照前述图1实施例中步骤102的详细介绍，这里不再赘述。

可选地，参见图8，该装置600还包括：

产生模块604，用于从冗余行上读取出的数据为错误数据之后，产生可纠正错误CE；

抑制模块605，用于抑制CE。具体实现方式参照前述图1实施例中步骤102的详细介绍，这里不再赘述。

可选地，参见图8，该装置600还包括：

解除模块606，用于在对冗余行上的数据修复完成之后，解除CE的抑制操作。具体实现方式参照前述图1实施例中步骤102的详细介绍，这里不再赘述。

可选地，该装置600还包括：

生成模块，用于在确定故障模式为内存行故障之后，生成行故障隔离请求。

可选地，冗余行和故障行位于内存中的同一个bank上。

可选地，故障分析结果包含故障模式，则处理模块602包括：

可选地，冗余bank和故障bank位于内存中的同一channel上。

需要说明的是：上述实施例提供的内存故障的处理装置在处理内存故障时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的内存故障的处理装置与图1至图5所示的内存故障的处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例提供了一种计算机设备，该计算机设备中存储有计算机程序，计算机程序被计算机设备运行时实现上述图1至图4实施例中的内存故障的处理方法，或者实现图5实施例中的内存故障的处理方法。具体实现方式参照前述图1至图5所示方法实施例中的详细介绍，这里不再赘述。

可选地，该计算机设备包括处理器和BMC所在的芯片，处理器包括内存控制器，内存控制器中包括执行模块，BMC所在的芯片中的BMC包括故障识别模块，内存控制器运行执行模块，实现上述图3实施例中执行模块相应的功能，BMC运行故障识别模块，实现上述图3实施例中故障识别模块相应的功能。

可选地，故障识别模块除了设置在BMC中，也可以增加在计算机设备包括其他处理设备中，以实现相应功能。

在本申请实施例中，计算机设备通过分析历史故障信息得到故障分析结果，进而根据故障分析结果对内存进行故障修复，本方案能够更加精确地分析内存故障，且无需冷复位即能启动对内存的故障修复，也即能够及时修复内存故障，防止系统宕机，减少业务影响。

需要说明的是：上述实施例提供的计算机设备在处理内存故障时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的计算机设备与图1或图5所示的内存故障的处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图9，图9是根据本申请实施例示出的一种计算机设备的结构示意图。该计算机设备包括一个或多个处理器901、通信总线902、存储器903以及一个或多个通信接口904。

处理器901为一个通用中央处理器(central processing unit，CPU)、网络处理器(network processing，NP)、微处理器、或者为一个或多个用于实现本申请方案的集成电路，例如，专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)或其组合。可选地，上述PLD为复杂可编程逻辑器件(complex programmable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic,GAL)或其任意组合。

通信总线902用于在上述组件之间传送信息。可选地，通信总线902分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选地，存储器903为只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、光盘(包括只读光盘(compact disc read-only memory，CD-ROM)、压缩光盘、激光盘、数字通用光盘、蓝光光盘等)、磁盘存储介质或者其它磁存储设备，或者是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质，但不限于此。存储器903独立存在，并通过通信总线902与处理器901相连接，或者，存储器903与处理器901集成在一起。

通信接口904使用任何收发器一类的装置，用于与其它设备或通信网络通信。通信接口104包括有线通信接口，可选地，还包括无线通信接口。其中，有线通信接口例如以太网接口等。可选地，以太网接口为光接口、电接口或其组合。无线通信接口为无线局域网(wireless local area networks，WLAN)接口、蜂窝网络通信接口或其组合等。

可选地，在一些实施例中，计算机设备包括多个处理器，这些处理器中的每一个为一个单核处理器，或者一个多核处理器。可选地，这里的处理器指一个或多个设备、电路、和/或用于处理数据(如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，计算机设备还包括输出设备906和输入设备907。输出设备906和处理器901通信，能够以多种方式来显示信息。例如，输出设备906为液晶显示器(liquid crystal display，LCD)、发光二级管(light emitting diode，LED)显示设备、阴极射线管(cathode ray tube，CRT)显示设备或投影仪(projector)等。输入设备907和处理器901通信，能够以多种方式接收用户的输入。例如，输入设备907是鼠标、键盘、触摸屏设备或传感设备等。

在一些实施例中，存储器903用于存储执行本申请方案的程序代码910，处理器901能够执行存储器903中存储的程序代码910。该程序代码中包括一个或多个软件模块，该计算机设备能够通过处理器901以及存储器903中的程序代码910，来实现上文图1或图5实施例提供的内存故障的处理方法。

另一些实施例中，处理器901中存储执行本申请方案的程序代码，处理器901用于执行程序代码，实现上文图1或图5实施例提供的内存故障的处理方法，该程序代码中包括一个或多个软件模块。例如处理器901包括内存控制器，内存控制器中存储有程序代码，内存控制器包括图3所示的执行模块和故障识别模块，通过执行模块和故障识别模块实现上文图1或图5实施例提供的内存故障的处理方法。

又一些实施例中，处理器901中存储有执行本申请方案的部分程序代码，例如，处理器901包括内存控制器，内存控制器包括图3所示的执行模块。计算机设备中还包括除处理器901之外的其他处理设备，其他处理设备中存储有执行本申请方案的另一部分程序代码，处理器901与其他处理设备共同实现上文图1或图5实施例提供的内存故障的处理方法，例如，其他处理设备为带外主板管理控制单元(baseboard management controller，BMC)所在的芯片，BMC中包括图3所示的故障识别模块，通过BMC运行故障识别模块，与内存控制器共同实现上文图1或图5实施例提供的内存故障的处理方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络或其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如：同轴电缆、光纤、数据用户线(digital subscriber line，DSL))或无线(例如：红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质，或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如：软盘、硬盘、磁带)、光介质(例如：数字通用光盘(digital versatile disc，DVD))或半导体介质(例如：固态硬盘(solid state disk，SSD))等。值得注意的是，本申请实施例提到的计算机可读存储介质可以为非易失性存储介质，换句话说，可以是非瞬时性存储介质。

应当理解的是，本文提及的“至少一个”是指一个或多个，“多个”是指两个或两个以上。在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

以上所述为本申请提供的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种内存故障的处理方法，其特征在于，所述方法包括：

在第一时刻启动对内存的故障分析；所述故障分析包括：通过分析历史故障信息，获得所述内存当前的故障分析结果，其中，所述历史故障信息为所述内存在历史时间段内积累的故障信息，所述历史时间段为所述第一时刻之前的时间段或者所述第一时刻之前且包含所述第一时刻的时间段；

根据所述内存当前的故障分析结果启动对所述内存的故障修复。
如权利要求1所述的方法，其特征在于，所述第一时刻为计算机系统出现不可纠正错误UCE故障之前的时刻。
如权利要求1或2所述的方法，其特征在于，所述第一时刻包括：

根据预设的条件周期性启动的时刻；和/或，在计算机系统运行之后，确定所述内存发生内存故障的时刻。
如权利要求1-3任一项所述的方法，其特征在于，所述通过分析历史故障信息，获得所述内存当前的故障分析结果，包括：

将所述历史故障信息输入故障分析模型，获得所述内存当前的故障分析结果，所述故障分析模型为智能计算分析模型。
如权利要求1-4任一项所述的方法，其特征在于，所述故障分析结果包含故障模式，则所述根据所述内存当前的故障分析结果启动对所述内存的故障修复包括：

在所述故障模式为内存行故障时，启动对所述内存的故障修复，其中，所述故障修复包括：用冗余行替换故障行，对所述冗余行上的数据进行修复。
如权利要求5所述的方法，其特征在于，所述获得所述内存当前的故障分析结果，包括：

根据所述历史故障信息获得第一统计特征，所述第一统计特征表示所述历史时间段内第一内存行出现的故障位的数量，所述第一内存行是任意内存行；

当所述第一统计特征大于第一阈值时，确定所述故障模式为内存行故障，所述第一阈值表示每个内存行能够容忍的故障位的数量。
如权利要求5或6所述的方法，其特征在于，所述故障分析结果还包含故障级别，则所述根据所述内存当前的故障分析结果启动对所述内存的故障修复包括：

在所述故障模式为内存行故障且所述故障级别为高风险级别时，启动对所述内存的故障修复。
如权利要求7所述的方法，其特征在于，所述获得所述内存当前的故障分析结果，还包括：

根据所述历史故障信息获得第二统计特征和/或第三统计特征，所述第二统计特征表示所述历史时间段内所述第一内存行出现的每种故障类型的故障数量，所述第三统计特征表示所述历史时间段内所述第一内存行出现的纠错数量；

当所述第二统计特征大于第二阈值时，或者，当所述第三统计特征大于第三阈值时，或者，当所述第二统计特征大于所述第二阈值且所述第三统计特征大于所述第三阈值时，确定所述故障级别为高风险级别，所述第二阈值表示每个内存行能够容忍的每种故障类型的故障数量，所述第三阈值表示每个内存行能够容忍的纠错数量。
如权利要求7或8所述的方法，其特征在于，所述方法还包括：

在交互界面上显示风险模式选项，所述风险模式选项包括内存高风险模式选项和内存低风险模式选项。
如权利要求9所述的方法，其特征在于，所述第一阈值、第二阈值和第三阈值为根据所述风险模式而设置的变量。
如权利要求5-10任一项所述的方法，其特征在于，所述对所述冗余行上的数据进行修复，包括：

对所述冗余行执行读操作；

如果从所述冗余行上读取出的数据为错误数据，则对所述错误数据进行纠正，将纠正后的数据回写到所述冗余行上，以实现所述冗余行上的数据的修复。
如权利要求11所述的方法，其特征在于，所述从所述冗余行上读取出的数据为错误数据之后，所述方法还包括：

产生可纠正错误CE；

抑制所述CE。
如权利要求12所述的方法，其特征在于，在对所述冗余行上的数据修复完成之后，所述方法还包括：

解除所述CE的抑制操作。
如权利要求1-4任一项所述的方法，其特征在于，所述故障分析结果包含故障模式，则所述根据所述内存当前的故障分析结果启动对所述内存的故障修复包括：

在所述故障模式为内存bank故障时，启动对所述内存的故障修复，其中，所述故障修复包括：用冗余bank替换故障bank，对所述冗余bank上的数据进行修复。
一种内存故障的处理装置，其特征在于，所述装置包括：

分析模块，用于在第一时刻启动对内存的故障分析；所述故障分析包括：通过分析历史故障信息，获得所述内存当前的故障分析结果，其中，所述历史故障信息为所述内存在历史时间段内积累的故障信息，所述历史时间段为所述第一时刻之前的时间段或者所述第一时刻之前且包含所述第一时刻的时间段；

处理模块，用于根据所述内存当前的故障分析结果启动对所述内存的故障修复。
如权利要求15所述的装置，其特征在于，所述第一时刻为计算机系统出现不可纠正错误UCE故障之前的时刻。
如权利要求15或16所述的装置，其特征在于，所述第一时刻包括：

根据预设的条件周期性启动的时刻；和/或，在计算机系统运行之后，确定所述内存发生内存故障的时刻。
如权利要求15-17任一项所述的装置，其特征在于，所述分析模块包括：

分析子模块，用于将历史故障信息输入故障分析模型，获得所述内存当前的故障分析结果，所述故障分析模型为智能计算分析模型。
如权利要求15-18任一项所述的装置，其特征在于，所述故障分析结果包含故障模式，则所述处理模块包括：

第一修复子模块，用于在所述故障模式为内存行故障时，启动对所述内存的故障修复，其中，所述故障修复包括：用冗余行替换故障行，对所述冗余行上的数据进行修复。
如权利要求19所述的装置，其特征在于，所述分析模块具体用于：

根据所述历史故障信息获得第一统计特征，所述第一统计特征表示所述历史时间段内第一内存行出现的故障位的数量，所述第一内存行是任意内存行；

当所述第一统计特征大于第一阈值时，确定所述故障模式为内存行故障，所述第一阈值表示每个内存行能够容忍的故障位的数量。
如权利要求19或20所述的装置，其特征在于，所述故障分析结果还包含故障级别，则所述处理模块包括：

第二修复子模块，用于在所述故障模式为内存行故障且所述故障级别为高风险级别时，启动对所述内存的故障修复。
如权利要求21所述的装置，其特征在于，所述分析模块还具体用于：

根据所述历史故障信息获得第二统计特征和/或第三统计特征，所述第二统计特征表示所述历史时间段内所述第一内存行出现的每种故障类型的故障数量，所述第三统计特征表示所述历史时间段内所述第一内存行出现的纠错数量；

当所述第二统计特征大于第二阈值时，或者，当所述第三统计特征大于第三阈值时，或者，当所述第二统计特征大于所述第二阈值且所述第三统计特征大于所述第三阈值时，确定所述故障级别为高风险级别，所述第二阈值表示每个内存行能够容忍的每种故障类型的故障数量，所述第三阈值表示每个内存行能够容忍的纠错数量。
如权利要求21或22所述的装置，其特征在于，所述装置还包括：

交互模块，用于在交互界面上显示风险模式选项，所述风险模式选项包括内存高风险模式选项和内存低风险模式选项。
如权利要求23所述的装置，其特征在于，所述第一阈值、第二阈值和第三阈值为根据所述风险模式而设置的变量。
如权利要求19-24任一项所述的装置，其特征在于，所述第一修复子模块具体用于：

对所述冗余行执行读操作；

如果从所述冗余行上读取出的数据为错误数据，则对所述错误数据进行纠正，将纠正后的数据回写到所述冗余行上，以实现所述冗余行上的数据的修复。
如权利要求25所述的装置，其特征在于，所述装置还包括：

产生模块，用于从所述冗余行上读取出的数据为错误数据之后，产生可纠正错误CE；

抑制模块，用于抑制所述CE。
如权利要求26所述的装置，其特征在于，所述装置还包括：

解除模块，用于在对所述冗余行上的数据修复完成之后，解除所述CE的抑制操作。
如权利要求15-18任一项所述的装置，其特征在于，所述故障分析结果包含故障模式，则所述处理模块包括：

第三修复子模块，用于在所述故障模式为内存bank故障时，启动对所述内存的故障修复，其中，所述故障修复包括：用冗余bank替换故障bank，对所述冗余bank上的数据进行修复。
一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序实现权利要求1-14任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-14任一项所述的方法。