WO2024066500A1

WO2024066500A1 - 内存错误处理方法及装置

Info

Publication number: WO2024066500A1
Application number: PCT/CN2023/101096
Authority: WO
Inventors: 买培培; 吕洪发
Original assignee: 华为技术有限公司
Priority date: 2022-09-26
Filing date: 2023-06-19
Publication date: 2024-04-04
Also published as: CN117806855A

Abstract

一种内存错误处理方法，应用于包括内存的计算机系统，包括：在确定需要对内存中发生可纠正错误的目标内存区域执行数据迁移和内存隔离的情况下，可以获取计算机系统在当前时间间隔内的若干性能指标，并根据若干性能指标确定计算机系统是否处于空闲态；当计算机系统处于空闲态的情况下，对目标内存区域执行数据迁移和内存隔离。如此，通过在确定计算机系统已经处于空闲态的情况下才对发生可纠正错误的目标内存区域执行数据迁移和内存隔离，可避免因对目标内存区域执行数据迁移和内存隔离而影响计算机系统对其它业务的高效执行。

Description

内存错误处理方法及装置

本申请要求于2022年09月26日提交的申请号为202211172016.1、申请名称为“内存错误处理方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，尤其涉及一种内存错误处理方法及装置。

背景技术

随机存取存储器(random access memory，RAM)通常也被简称为内存，其是计算机系统的重要组成部件之一。内存发生可纠正错误(corrected error，CE)时，可以采用包含错误校验与校正(error checking and correction，ECC)在内的各种纠错算法进行纠错，而且可以采用包含自适应双设备数据校正(adaptive double device data correction，ADDDC)在内的各种技术实现对发生CE的内存区域进行数据迁移和内存隔离。

对内存区域执行数据迁移和内存隔离的过程中，通常会大量占用计算机系统的资源，可能导致计算机系统无法高效的执行其当前正在执行的其它业务。

发明内容

本申请实施例中至少提供了一种内存错误处理方法及装置，在需要对发生CE的目标内存区域执行数据迁移和内存隔离的情况下，可以根据计算机系统在当前时间间隔内的若干性能指标判断计算机系统是否处于空闲态，在确定计算机系统处于空闲态的情况下才对目标内存区域执行数据迁移和内存隔离，可避免因对目标内存区域执行数据迁移和内存隔离而影响计算机系统对其它业务的高效执行。

第一方面，提供了一种内存错误处理方法，该方法应用于包括内存的计算机系统。该方法包括：在需要对内存中发生可纠正错误CE的目标内存区域执行数据迁移和内存隔离的情况下，可以首先获取前述计算机系统在当前时间间隔内的若干性能指标，并根据该若干性能指标确定前述计算机系统是否处于空闲态；当确定前述计算机系统处于空闲态的情况下，对目标内存区域执行数据迁移和内存隔离。

如此，在需要对发生CE的目标内存区域执行数据迁移和内存隔离时，可以根据计算机系统在当前时间间隔内的若干性能指标判断计算机系统是否处于空闲态，并在确定计算机系统处于空闲态的情况下才对目标内存区域执行数据迁移和内存隔离，可避免因对目标内存区域执行数据迁移和内存隔离而影响计算机系统对其它业务的高效执行。

在一种可能的实施方式中，前述的若干性能指标可以包括但不限于如下各项性能指标中的任意一项或多项：计算机系统是否运行在用户态、处理器占用率、内存带宽、转发带宽、存储带宽，以及依赖计算机系统并且处于繁忙状态的虚拟机是否与所述目标内存区域位于相同的非一致存储访问结构(non-uniform memory access,NUMA)。

在一种可能的实施方式中，该方法还包括：获取计算机系统的内存错误信息；根据内存错误信息确定内存中发生CE的目标内存区域和CE模式；根据CE模式确定是否需要对目标内存区域执行数据迁移和内存隔离。该实施方式中，由于并非全部的CE均可能影响内存区域在后续过程中继续发生不可纠正错误(uncorrected errors，UCE)，因此并不将全部的CE均作为对发生CE的内存区域进行数据迁移和内存隔离的必要条件，可以避免因频繁执行对发生CE的内存区域进行数据迁移和隔离而带来其它问题。

在一种可能的实施方式中，根据CE模式确定是否需要对目标内存区域执行数据迁移和内存隔离，包括：在CE模式属于预先配置的若干目标CE模式的情况下，确定需要对目标内存区域执行数据迁移和内存隔离。

在一种可能的实施方式中，根据CE模式确定是否需要对目标内存区域执行数据迁移和内存隔离，包括：在CE模式属于预先配置的若干目标CE模式的情况下，将目标内存区域发生属于若干目标CE模式的CE的频次加1；在执行加1操作后的频次达到预设阈值的情况下，确定需要对目标内存区域执行数据迁移和内存隔离。

在一种可能的实施方式，前述的若干目标CE模式包括如下各项CE模式中的至少一项：row CE、column CE和bank CE。

第二方面，提供了一种内存错误处理装置，该装置部署在包括内存的计算机系统中。该装置包括：指标获取模块，用于在需要对模块内存中发生可纠正错误CE的目标内存区域执行数据迁移和内存隔离的情况下，获取计算机系统在当前时间间隔内的若干性能指标；状态判断模块，用于根据若干性能指标确定计算机系统是否处于空闲态，并在计算机系统处于空闲态时触发隔离处理模块；隔离处理模块，用于在状态判断模块的触发下，对目标内存区域执行数据迁移和内存隔离。

在一种可能的实施方式中，若干性能指标包括如下各项性能指标中的任意一项或多项：计算机系统是否运行在用户态、处理器占用率、内存带宽、转发带宽、存储带宽，以及依赖计算机系统并且处于繁忙状态的虚拟机是否与目标内存区域位于相同的NUMA。

在一种可能的实施方式中，该装置还包括：信息获取模块，用于获取计算机系统的内存错误信息；故障分析模块，用于根据内存错误信息确定内存中发生CE的目标内存区域和CE模式；根据CE模式确定是否需要对目标内存区域执行数据迁移和内存隔离。

在一种可能的实施方式中，故障分析模块，具体用于在CE属于预先配置的若干目标CE模式的情况下，确定需要对目标内存区域执行数据迁移和内存隔离。

在一种可能的实施方式中，故障分析模块，具体用于在CE模式属于预先配置的若干目标CE模式的情况下，将目标内存区域发生属于若干目标CE模式的CE的频次加1；在执行加1操作后的频次达到预设阈值的情况下，确定需要对目标内存区域执行数据迁移和内存隔离。

在一种可能的实施方式中，若干目标CE模式包括如下各项CE模式中的至少一项：row CE、column CE和bank CE。

第三方面，本申请实施例中提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码，实现第一方面提供的方法。

第四方面，本申请实施例中提供了一种计算机系统，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码，实现第一方面提供的方法。

第五方面，本申请实施例中提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机实现第一方面提供的方法。

第六方面，本申请实施例中提供了一种计算机程序或计算机程序产品，所述计算机程序或计算机程序产品包括指令，当所述指令被执行时，实现第一方面提供的方法。

第七方面，本申请的实施例中提供了一种芯片，该芯片包括至少一个处理器和接口，所述至少一个处理器通过所述接口确定程序指令或者数据；前述至少一个处理器用于执行所述程序指令，以实现第一方面提供的方法。

可以理解的是，前述第二方面至第七方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

图1为本申请实施例中提供的一种计算机系统的结构示意图之一；

图2为本申请实施例中提供的一种内存错误处理方法的流程图；

图3为本申请实施例中提供的一种计算机系统的结构示意图之二；

图4为本申请实施例中提供的一种计算机系统的结构示意图之三；

图5为本申请实施例中提供的一种内存错误处理装置的结构示意图；

图6为本申请实施例中提供的一种计算设备的示意图。

具体实施方式

下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

计算机系统的内存所发生的错误，通常可以被划分为CE和UCE两种错误类型。对于CE而言，通常可以采用包含ECC在内的各种纠错算法对其进行纠错。对于UCE而言，其可能导致计算机系统执行的业务因无法准确的访问发生UCE的内存区域而带来其它问题，甚至可能直接导致计算机系统停止运行。

对于发生UCE的内存区域，其在发生UCE前经常会发生属于特定模式的若干CE。通过对有限数据集进行分析发现，行(row)CE占比约17％、列(column)CE占比约15.3、bank CE占比约15.7，先发生row CE并且继续发生UCE的概率约25％，先发生行column CE并且继续发生UCE的概率约23.9％，先发生bank CE并且继续发生UCE的概率约22.6％。基于以上发现，可以确定某个内存区域发生属于特定模式的若干CE后，例如在发生属于row CE、column CE以及bank CE等CE模式的若干CE后，该内存区域可能继续发生UCE。因此，可以考虑在发现某个内存区域发生属于特定模式的若干CE后，对该内存区域进行数据迁移和内存隔离，使得计算机系统所执行的业务能够准确的访问原本存储于该内存区域的数据并不再继续访问该内存区域，降低内存发生UCE的频次以提高计算机系统的可用性。

示例性的，可以采用自适应双设备数据校正(adaptive double device data correction，ADDDC)技术实现对内存区域执行数据迁移和内存隔离。例如请参见图1所示所示的计算机系统，该计算机系统的处理器和基本输入输出系统(basic input output system，BIOS)可以各自实现为相应的固件，处理器可以通过其内存控制器连接若干双列直插式内存模块(dual inline memory modules，DIMM)，例如通过单个内存通道连接DIMM0和DIMM1等两个DIMM。单个DIMM例如可以包括Rank0和两个rank1等两个rank；单个rank例如可以包括chip 00～chip 17等18个颗粒(chip)，chip 17可以作为冗余颗粒；单个chip可以包括bank 0～bank n等n+1个逻辑bank。假设DIMM0的rank0中属于chip 00的bank n因发生CE错误而基于某些规则被判定为需要执行数据迁移和内存隔离，那么例如可以通过ADDDC技术将DIMM0的rank0中属于chip 00的bank n所存储的数据，迁移到DIMM1的rank0中属于chip 17的bank n以及DIMM0的rank0中属于chip 17的bank n，并对DIMM0的rank0中属于chip 00的bank n进行隔离。其中被迁移到DIMM1的rank0中属于chip 17的bank n的数据，以及被迁移到DIMM0的rank0中属于chip 17的bank n的数据，可以用于恢复原本存储于DIMM0的rank0中属于chip 00的bank n的数据。

前文虽然示例性描述了通过ADDDC技术实现对内存中发生CE的逻辑bank执行数据迁移和内存隔离，然而可以理解的是还可能通过其它技术实现对内存中发生CE的内存区域执行数据迁移和内存隔离，例如采用自适应型双颗粒数据纠正-多区域(adaptive double device data correction-multiple region，ADDDC-MR)、自适应型数据纠正-单区域(adaptive data correction-single region，ADC-SR)自适应型双颗粒错误纠正(adaptive double device error correction，ADDEC)等技术对内存区域进行数据迁移和内存隔离。

前文虽然示例性描述了对发生CE的bank执行数据迁移和内存隔离，然而可以理解的是发生CE的内存区域还可能是rank、chip、属于bank的row或属于bank的column等等。

对内存区域执行数据迁移和内存隔离时，将会大幅占用计算机系统的各项资源，进而可能影响计算机系统对其它业务的高效执行。在有限次数的实验分析中发现，通过ADDDC技术实现对内存区域执行数据迁移和内存隔离时，均会对存储带宽、转发带宽和处理器的数据处理时延等造成较大影响，其中最大数据输入时延达到710ms，最大数据输出时延达到63ms，处理器的性能下降约1％而且处理器占用率大幅上升的持续时间约10ms，甚至还可能导致依赖计算机系统的虚拟机复位以及导致数据库输入/输出报错等其它问题。

鉴于以上问题，本申请实施例中提供了一种内存错误处理方法及装置。在需要对发生CE的目标内存区域执行数据迁移和内存隔离的情况下，可以根据计算机系统在当前时间间隔内的若干性能指标判断计算机系统是否处于空闲态，并且在确定计算机系统处于空闲态的情况下才对目标内存区域执行数据迁移和内存隔离，可避免因对目标内存区域执行数据迁移和内存隔离而影响计算机系统对其它业务的高效执行。

示例性的，图2为本说明书实施例中提供的一种内存错误处理方法的流程图。其中该方法可以由处理器、包含处理器的计算设备/计算机系统执行；更具体地，处理器、包含处理器的计算设备/计算机系统可以执行计算机程序/指令以实现图2中所示的各个方法步骤。前述计算设备/计算机系统例如可以包括但不限于服务器、交换机、路由器、基站控制器、终端或者计算加速卡等等，前述的服务器通常可以是一体机，或者前述的服务器可以采用基于基板管理控制器(baseboard management controller，BMC)实现的分层云架构。请参见图2所示，该方法可以包括但不限于如下步骤S200～步骤S210中的部分或全部。

步骤S200，获取计算机系统的内存错误信息。

当计算机系统的内存发生错误时，例如可以由该计算机系统的BIOS通过处理器的内存控制器获得相应的内存错误信息。请参见图3所示，当计算机系统是采用分层云架构的服务器时，前述内存错误信息例如还可以由该计算机系统的BIOS发送至该计算机系统的BMC。请参见图4所示，当计算机系统并非是采用分层云架构的服务器时，前述内存错误信息例如还可以由该计算机系统的BIOS发送至该计算机系统的系统管理单元。前述系统管理单元可以是该计算机系统中部署的操作系统(Operating System，OS)，更具体地说可以是该计算机系统中部署的OS所包含的某个功能模块(例如故障分析模块)，或者该系统管理单元也可以是该计算机系统中除其部署的OS以外的其它固件。

步骤S202，根据内存错误信息确定计算机系统的内存中发生CE的目标内存区域以及所发生CE的CE模式。

当计算机系统包括BMC时，例如可以由该计算机系统的BMC实现根据内存错误信息确定发生CE的目标内存区域以及所发生CE的CE模式。当计算机系统并不包括BMC时，例如可以由该计算机系统的系统管理单元实现根据内存错误信息确定发生CE的目标内存区域以及所发生CE的CE模式。具体地，可以对内存错误信息进行特征分析以确定目标内存区域所发生CE是否符合相应的CE模式；或者，可以采用机器学习的方式对内存错误信息以及与内存运行状态相关的其它数据进行分析，更加准确的确定目标内存区域所发生CE的CE模式。CE模式可以包括row CE、column CE、bank CE、chip CE以及rank CE等等。

步骤S204，根据CE模式确定是否需要对目标内存区域执行数据迁移和内存隔离。

当计算机系统包括BMC时，例如可以由该计算机系统的BMC实现根据步骤S202确定的CE模式确定是否需要对目标内存区域执行数据迁移和内存隔离。当计算机系统不包括BMC时，例如可以由该计算机系统的系统管理单元实现根据步骤S202确定的CE模式确定是否需要对目标内存区域执行数据迁移和内存隔离。

在一种可能的实施方式中，当步骤S202中确定的CE模式属于预先配置的若干目标CE模式时，步骤S204中可以确定需要对目标内存区域执行数据迁移和内存隔离；反之，当步骤S202中确定的CE模式不属于预先配置的若干目标CE模式时，步骤S204中可以确定无需对目标内存区域执行数据迁移和内存隔离。

在一种可能的实施方式中，当步骤S202中确定的CE模式属于预先配置的若干目标CE模式时，步骤S204中可以将目标内存区域发生的属于若干目标CE模式的CE的频次加1，如果执行加1操作后的频次达到预设阈值，则确定需要对目标内存区域执行数据迁移和内存隔离；反之，如果执行加1操作后的频次并未达到预设阈值，则确定无需对目标内存区域执行数据迁移和内存隔离。

前述若干目标CE模式可以包括但不限于：row CE、column CE以及bank CE。

当前述步骤S204确定需要对目标内存区域执行数据迁移和内存隔离时，继续执行图下步骤S206，获取计算机系统在当前时间间隔内的若干性能指标。

步骤S208，根据若干性能指标确定计算机系统是否处于空闲态。

可以由计算机系统的系统管理单元实现前述步骤S208。

前述若干性能指标可以包括但不限于如下各项性能指标中的任意一项或多项：计算机系统是否运行在用户态、处理器占用率、内存带宽、转发带宽、存储带宽，以及依赖计算机系统并且处于繁忙状态的虚拟机是否与目标内存区域位于相同的NUMA。其中，内存带宽是总线宽度、总线频率以及时钟周期内交换的数据包个数的乘积；转发带宽是指单位时间内能够在线路上传送的数据量，单位是bps(bit per second)；存储带宽是指单位时间内存储器所存取的数据量，也称为存储器在单位时间内读出/写入的位数或字节。

在一种可能的实施方式中，当计算机系统运行在用户态、依赖计算机系统并且处于繁忙状态的虚拟机与目标内存区域位于不同的NUMA时，可以进一步基于预先配置的业务规则确定当前时间间隔内的其余各项性能指标分别对应的业务分值，然后对各个业务分值进行加权求和以得到总分值，进而基于总分值的大小确定计算机系统是否处于空闲态。

在一种可能的实施方式中，当计算机系统运行在用户态、依赖计算机系统并且处于繁忙状态的虚拟机与目标内存区域位于不同的NUMA，而且处理器占用率、内存带宽、转发带宽、存储带宽等性能指标均小于其各自对应的预设参考值时，确定计算机系统处于空闲态。

需要特别说明的是，计算机系统中可能并不存在处于繁忙状态的虚拟机，此种情况下所获取的计算机系统在当前时间间隔内的若干性能指标，可能并不包括依赖计算机系统并且处于繁忙状态的虚拟机是否与目标内存区域位于相同的NUMA。

总而言之，计算机系统处于空闲态时，计算机系统应当运行在用户态，依赖计算机系统并且处于繁忙状态的虚拟机与目标内存区域应当位于不同的NUMA，除此之外处理器占用率、内存带宽、转发带宽、存储带宽等各项指标应当具有相对较小的值，确保计算机系统有足够的资源来支持对目标内存区域执行数据迁移和内存隔离，从而避免因对目标内存区域执行数据迁移和内存隔离而影响计算机系统对其需要执行的其它业务的高效执行。

当步骤S208中根据计算机系统在当前时间间隔内的若干性能指标确定计算机系统并未处于空闲态时，可以按照相应的时间间隔周期性的执行前述步骤S206和步骤S208，直到确定出计算机系统处于空闲态时，执行如下步骤S210。

步骤S210，对目标内存区域执行数据迁移和内存隔离。

示例性的，计算机系统的系统管理单元可以通过该计算机系统的BIOS触发该计算机系统的处理器对目标内存区域执行数据迁移和内核隔离。参照前文所述，可以采用ADDDC技术实现对目标内存区域进行数据迁移和内存隔离，此外也可能采用自适应型双颗粒数据纠正-多区域(adaptive double device data correction-multiple region，ADDDC-MR)、自适应型数据纠正-单区域(adaptive data correction-single region，ADC-SR)自适应型双颗粒错误纠正(adaptive double device error correction，ADDEC)等技术实现对目标内存区域进行数据迁移和内存隔离。

与前述方法实施例基于相同的构思，本申请实施例中还提供了一种内存错误处理装置，所述装置部署在包括内存的计算机系统中。如图5所示，所述内存错误处理装置50包括：指标获取模块501，用于在需要对所述内存中发生CE的目标内存区域执行数据迁移和内存隔离的情况下，获取所述计算机系统在当前时间间隔内的若干性能指标；状态判断模块503，用于根据所述若干性能指标确定所述计算机系统是否处于空闲态，并在所述计算机系统处于空闲态时触发隔离处理模块；所述隔离处理模块505，用于在所述状态判断模块的触发下，对所述目标内存区域执行数据迁移和内存隔离。

在一种可能的实施方式中，所述若干性能指标包括如下各项性能指标中的任意一项或多项：所述计算机系统是否运行在用户态、处理器占用率、内存带宽、转发带宽、存储带宽，以及依赖所述计算机系统并且处于繁忙状态的虚拟机是否与所述目标内存区域位于相同的非一致存储访问结构NUMA。

在一种可能的实施方式中，所述装置还包括：信息获取模块507，用于获取所述计算机系统的内存错误信息；故障分析模块509，用于根据所述内存错误信息确定所述内存中发生CE的目标内存区域和CE模式；根据所述CE模式确定是否需要对所述目标内存区域执行数据迁移和内存隔离。

在一种可能的实施方式中，所述故障分析模块509，用于在所述CE模式属于预先配置的若干目标CE模式的情况下，确定需要对所述目标内存区域执行数据迁移和内存隔离。

在一种可能的实施方式中，所述故障分析模块509，用于在所述CE模式属于预先配置的若干目标CE模式的情况下，将所述目标内存区域发生属于所述若干目标CE模式的CE的频次加1；在执行加1操作后的所述频次达到预设阈值的情况下，确定需要对所述目标内存区域执行数据迁移和内存隔离。

在一种可能的实施方式中，所述若干目标CE模式包括如下各项CE模式中的至少一项：row CE、column CE和bank CE。

根据本申请实施例的内存错误处理装置50可对应于执行本申请实施例中描述的方法，并且内存错误处理装置50中的各个模块的所分别执行的前述各项操作和其它操作和/或功能分别为了实现图2中的各个方法的相应流程，为了简洁，在此不再赘述。

根据本申请实施例的内存错误处理装置50所包括的指标获取模块501、状态判断模块503、隔离处理模块505、信息获取模块507和故障分析模块509，可以通过软件实现，或者可以通过硬件实现。示例性的，接下来以指标获取模块501为例，介绍指标获取模块501的实现方式。类似的，状态判断模块503、隔离处理模块505、信息获取模块507和故障分析模块509的实现方式可以参考指标获取模块501的实现方式。

模块作为软件功能模块的一种举例，指标获取模块501可以包括运行在计算实例上的代码。计算实例可以包括物理主机(计算设备)、虚拟机、容器中的一种。

模块作为硬件功能模块的一种举例，指标获取模块501可以是利用专用集成电路(application-specific integrated circuit，ASIC)实现、或者可编程逻辑器件(programmable logic device，PLD)实现的设备等。其中，上述PLD可以是复杂程序逻辑器件(complex programmable logical device，CPLD)、现场可编程门阵列(field-programmable gate array，FPGA)、通用阵列逻辑(generic array logic，GAL)或其任意组合实现。

与前述的方法的实施例基于相同的构思，本申请实施例中还提供了一种计算设备和一种计算机系统，该计算设备/计算机系统至少包括处理器和存储器，存储器上存储有程序，处理器该程序时，可以实现图2所示的方法中的各个步骤的单元或模块。

图6为本申请实施例中提供的一种计算设备的结构示意图。

如图6所示，所述计算设备600包括至少一个处理器601、存储器602和通信接口603。其中，处理器601、存储器602和通信接口603通信连接，可以通过有线(例如总线)的方式实现通信连接，也可以通过无线的方式实现通信连接。该通信接口603用于接收其他设备发送的数据(例如写入数据)；存储器602存储有计算机指令，处理器601执行该计算机指令，执行前述方法实施例中的方法。

应理解，在本申请实施例中，该处理器601可以包括中央处理单元CPU，该处理器601还可以包括其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。

该存储器602可以包括只读存储器和随机存取存储器，并向处理器601提供指令和数据。存储器602还可以包括非易失性随机存取存储器。

该存储器602可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。

应理解，根据本申请实施例的计算设备600可以执行实现本申请实施例中图2所示方法，该方法实现的详细描述参见上文，为了简洁，在此不再赘述。

本申请的实施例中提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机指令在被处理器执行时，使得上文提及的方法被实现。

本申请的实施例中提供了一种芯片，该芯片包括至少一个处理器和接口，所述至少一个处理器通过所述接口确定程序指令或者数据；前述至少一个处理器用于执行所述程序指令，以实现上文提及的方法。

本申请的实施例中提供了一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括指令，当该指令执行时，令计算机执行上文提及的方法。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种内存错误处理方法，其特征在于，应用于包括内存的计算机系统，包括：

在需要对所述内存中发生可纠正错误CE的目标内存区域执行数据迁移和内存隔离的情况下，获取所述计算机系统在当前时间间隔内的若干性能指标；

根据所述若干性能指标确定所述计算机系统是否处于空闲态；

当所述计算机系统处于空闲态时，对所述目标内存区域执行数据迁移和内存隔离。
根据权利要求1所述的方法，其特征在于，所述若干性能指标包括如下各项性能指标中的任意一项或多项：所述计算机系统是否运行在用户态、处理器占用率、内存带宽、转发带宽、存储带宽，以及依赖所述计算机系统并且处于繁忙状态的虚拟机是否与所述目标内存区域位于相同的非一致存储访问结构NUMA。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述计算机系统的内存错误信息；

根据所述内存错误信息确定所述内存中发生CE的目标内存区域和CE模式；

根据所述CE模式确定是否需要对所述目标内存区域执行数据迁移和内存隔离。
根据权利要求3所述的方法，其特征在于，所述根据所述CE模式确定是否需要对所述目标内存区域执行数据迁移和内存隔离，包括：在所述CE模式属于预先配置的若干目标CE模式的情况下，确定需要对所述目标内存区域执行数据迁移和内存隔离。
根据权利要求3所述的方法，其特征在于，所述根据所述CE模式确定是否需要对所述目标内存区域执行数据迁移和内存隔离，包括：

在所述CE模式属于预先配置的若干目标CE模式的情况下，将所述目标内存区域发生属于所述若干目标CE模式的CE的频次加1；

在执行加1操作后的所述频次达到预设阈值的情况下，确定需要对所述目标内存区域执行数据迁移和内存隔离。
根据权利要求4或5中所述的方法，其特征在于，所述若干目标CE模式包括如下各项CE模式中的至少一项：row CE、column CE和bank CE。
一种内存错误处理装置，其特征在于，部署在包括内存的计算机系统中，包括：

指标获取模块，用于在需要对所述内存中发生可纠正错误CE的目标内存区域执行数据迁移和内存隔离的情况下，获取所述计算机系统在当前时间间隔内的若干性能指标；

状态判断模块，用于根据所述若干性能指标确定所述计算机系统是否处于空闲态，并在所述计算机系统处于空闲态时触发隔离处理模块；

所述隔离处理模块，用于在所述状态判断模块的触发下，对所述目标内存区域执行数据迁移和内存隔离。
根据权利要求7所述的装置，其特征在于，所述若干性能指标包括如下各项性能指标中的任意一项或多项：所述计算机系统是否运行在用户态、处理器占用率、内存带宽、转发带宽、存储带宽，以及依赖所述计算机系统并且处于繁忙状态的虚拟机是否与所述目标内存区域位于相同的非一致存储访问结构NUMA。
根据权利要求7所述的装置，其特征在于，所述装置还包括：

信息获取模块，用于获取所述计算机系统的内存错误信息；

故障分析模块，用于根据所述内存错误信息确定所述内存中发生CE的目标内存区域和CE模式；根据所述CE模式确定是否需要对所述目标内存区域执行数据迁移和内存隔离。
根据权利要求9所述的装置，其特征在于，所述故障分析模块，具体用于在所述CE模式属于预先配置的若干目标CE模式的情况下，确定需要对所述目标内存区域执行数据迁移和内存隔离。
根据权利要求9所述的装置，其特征在于，所述故障分析模块，具体用于在所述CE模式属于预先配置的若干目标CE模式的情况下，将所述目标内存区域发生属于所述若干目标CE模式的CE的频次加1；在执行加1操作后的所述频次达到预设阈值的情况下，确定需要对所述目标内存区域执行数据迁移和内存隔离。
根据权利要求10或11中所述的装置，其特征在于，所述若干目标CE模式包括如下各项CE模式中的至少一项：row CE、column CE和bank CE。
一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码，实现权利要求1-6中任一项所述的方法。
一种计算机系统，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码，实现权利要求1-6中任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-6中任一项所述的方法。