WO2024051292A1

WO2024051292A1 - 数据处理系统、内存镜像方法、装置和计算设备

Info

Publication number: WO2024051292A1
Application number: PCT/CN2023/102963
Authority: WO
Inventors: 陈智勇; 孙宏伟; 潘伟
Original assignee: 华为技术有限公司
Priority date: 2022-09-09
Filing date: 2023-06-27
Publication date: 2024-03-14
Also published as: CN117687835A

Abstract

公开了数据处理系统、内存镜像方法、装置和计算设备，涉及计算机领域。系统包括多个节点和管理节点。第一节点请求对第一节点所使用的内存中第一区域进行镜像；管理节点分配第二区域，第二区域用于指示第二节点中与第一区域的大小相同的存储空间，第二区域用于备份存储第一区域的数据。在节点没有提出内存镜像需求时，系统中的存储资源用于存储不同的数据，仅在提出内存镜像需求时，才从系统的存储资源中分配镜像区域，使镜像区域备份存储待镜像区域存储的数据，提升数据高可靠性。另外，待镜像区域和镜像区域可以是不同节点内的存储空间，从而，灵活动态地分配镜像区域实现内存镜像，提升内存镜像配置的灵活性以及存储资源的利用率。

Description

数据处理系统、内存镜像方法、装置和计算设备

本申请要求于2022年09月09日提交国家知识产权局、申请号为202211105202.3，申请名称为“一种内存镜像的实现方法”的中国专利申请的优先权，本申请还要求于2022年11月30日提交国家知识产权局、申请号为202211519995.3，申请名称为“数据处理系统、内存镜像方法、装置和计算设备”的中国专利申请的优先权，这些全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机领域，尤其涉及一种数据处理系统、内存镜像方法、装置和计算设备。

背景技术

内存镜像(mirror)是解决内存的不可纠正错误(Uncorrectable Error，UCE)的有效手段，即将内存中一部分存储空间作为另一部分存储空间的镜像区域存储备份数据。通常，采用静态配置方式或由操作系统分配内存中相邻页作为镜像区域实现内存镜像。如果镜像区域太大，导致浪费内存的存储资源。如果镜像区域太小，导致无法解决内存的UCE。因此，目前内存镜像配置不灵活，导致存储资源的利用率较低。

发明内容

本申请提供了数据处理系统、内存镜像方法、装置和计算设备，由此实现灵活地配置内存镜像，提升内存的存储资源的利用率。

第一方面，提供了一种数据处理系统，数据处理系统包括多个节点和管理节点。其中，第一节点，用于请求对第一节点所使用的内存中第一区域进行镜像；管理节点，用于分配第二区域，即第一区域为待镜像区域，第二区域为第一区域的镜像区域，第二区域用于指示第二节点中与第一区域的大小相同的存储空间，第二区域用于备份存储第一区域的数据。

相对于采用静态配置方式在系统启动前预先配置镜像区域，浪费存储资源，本申请提供的方案在节点没有提出内存镜像需求时，系统中的存储资源用于存储不同的数据，仅在提出内存镜像需求时，才从系统的存储资源中分配镜像区域，使镜像区域备份存储待镜像区域存储的数据，提升数据高可靠性。另外，相对于由操作系统分配内存中相邻页作为镜像区域实现内存镜像，本申请提供的方案不限定待镜像区域和镜像区域的位置关系，待镜像区域和镜像区域可以是不同节点内的存储空间，从而，灵活动态地分配镜像区域实现内存镜像，提升内存镜像配置的灵活性以及存储资源的利用率。

结合第一方面，在一种可能的实现方式中，第一节点指示了第一区域的第一物理地址；管理节点，还用于生成第一区域和第二区域的镜像关系，镜像关系用于指示第一物理地址与第二物理地址的对应关系，第二物理地址用于指示第二区域。从而，在第一节点对第一区域进行读操作或写操作时，以便于管理节点根据镜像关系确定第一区域的镜像区域，对第一区域的镜像区域进行写操作，或当第一区域发生不可纠正错误时，从第二区域读取第一数据，避免出现数据处理失败的现象。

在一种示例中，管理节点，还用于接收第一节点发送的写指示，将第一数据写入第一区域和第二区域。写指示用于指示将第一数据存储到第一区域。

在另一种示例中，管理节点，还用于接收第一节点的读指示，读指示用于指示从第一区域读取第一数据；管理节点，还用于当第一区域未发生不可纠正错误时，从第一区域读取第一数据。或者，管理节点，还用于当第一区域发生不可纠正错误时，从第二区域读取第一数据，从而使第一节点成功读取第一数据，避免所需第一数据的业务受到影响。

结合第一方面，在另一种可能的实现方式中，第一区域为主存储空间，第二区域为备存储空间；管理节点，还用于当第一区域发生不可纠正错误时，将第二区域确定为主存储空间。

结合第一方面，在另一种可能的实现方式中，管理节点，还用于指示第一节点将第一区域的镜像标识修改为无效。从而，以便于节点释放第一区域的存储资源，提升存储资源的利用率。

结合第一方面，在另一种可能的实现方式中，第一区域的大小是由应用需求确定的。

结合第一方面，在另一种可能的实现方式中，第二区域包括第二节点的本地存储空间、第二节点的扩展存储空间和全局内存池中第二节点的存储空间中任一种。

结合第一方面，在另一种可能的实现方式中，管理节点支持缓存一致性协议。

第二方面，提供一种内存镜像方法，数据处理系统包括多个节点和管理节点；方法包括：第一节点请求对第一节点所使用的内存中第一区域进行镜像；管理节点分配第二区域，第二区域为第一区域的镜像区域，第二区域用于指示第二节点中与第一区域的大小相同的存储空间，第二区域用于备份存储第一区域的数据。

结合第二方面，在一种可能的实现方式中，第一节点指示了第一区域的第一物理地址；方法还包括：管理节点生成第一区域和第二区域的镜像关系，镜像关系用于指示第一物理地址与第二物理地址的对应关系，第二物理地址用于指示第二区域。

结合第二方面，在另一种可能的实现方式中，方法还包括：管理节点接收第一节点发送的写指示，写指示用于指示将第一数据存储到第一区域；管理节点将第一数据写入第一区域和第二区域。

结合第二方面，在另一种可能的实现方式中，方法还包括：管理节点接收第一节点的读指示，读指示用于指示从第一区域读取第一数据；管理节点当第一区域未发生不可纠正错误时，从第一区域读取第一数据。

结合第二方面，在另一种可能的实现方式中，方法还包括：管理节点当第一区域发生不可纠正错误时，从第二区域读取第一数据。

结合第二方面，在另一种可能的实现方式中，第一区域为主存储空间，第二区域为备存储空间，方法还包括：管理节点当第一区域发生不可纠正错误时，将第二区域确定为主存储空间。

结合第二方面，在另一种可能的实现方式中，方法还包括：管理节点指示第一节点将第一区域的镜像标识修改为无效。

结合第二方面，在另一种可能的实现方式中，第一区域的大小是由应用需求确定的。

结合第二方面，在另一种可能的实现方式中，第二区域包括第二节点的本地存储空间、第二节点的扩展存储空间和全局内存池中第二节点的存储空间中任一种。

结合第二方面，在另一种可能的实现方式中，管理节点支持缓存一致性协议。

第三方面，提供了一种管理装置，所述装置包括用于执行第二方面或第二方面任一种可能设计中的管理节点执行的方法的各个模块。

第四方面，提供了一种数据处理节点，所述节点包括用于执行第二方面或第二方面任一种可能设计中的节点执行的方法的各个模块。

第五方面，提供一种计算设备，该计算设备包括至少一个处理器和存储器，存储器用于存储一组计算机指令；当处理器作为第二方面或第二方面任一种可能实现方式中的管理节点执行所述一组计算机指令时，执行第二方面或第二方面任一种可能实现方式中的内存镜像方法的操作步骤。

第六方面，提供一种芯片，包括：处理器和供电电路；其中，所述供电电路用于为所述处理器供电；所述处理器用于执行第二方面或第二方面任一种可能实现方式中的内存镜像方法的操作步骤。

第七方面，提供一种计算机可读存储介质，包括：计算机软件指令；当计算机软件指令在计算设备中运行时，使得计算设备执行如第二方面或第二方面任意一种可能的实现方式中所述方法的操作步骤。

第八方面，提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算设备执行如第二方面或第二方面任意一种可能的实现方式中所述方法的操作步骤。

本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。

附图说明

图1为本申请提供的一种数据处理系统的架构示意图；

图2为本申请提供的一种全局内存池的部署场景示意图；

图3为本申请提供的一种内存镜像方法的流程示意图；

图4为本申请提供的一种数据处理方法的流程示意图；

图5为本申请提供的一种管理装置的结构示意图；

图6为本申请提供的一种计算设备的结构示意图。

具体实施方式

为了便于描述，首先对本申请涉及的术语进行简单介绍。

内存(memory)也称内存储器和主存储器(main memory)。内存是计算机系统的重要部件，即外部存储器(或称为辅助存储器)与中央处理器(central processing unit，CPU)进行沟通的桥梁。内存用于暂时存放CPU中的运算数据以及CPU与硬盘等外部存储器交换的数据。例如，计算机开始运行，将需要运算的数据从内存加载到CPU中进行运算，运算完成后，CPU将运算结果存入内存。

可纠正错误(Correctable Error，CE)，是指可以采用纠错码(Error Correction Code，ECC)技术纠正的内存错误，确保主机的可用可靠可维护(Reliability,Availability and Serviceability，RAS)。

不可纠正错误(Uncorrectable Error，UCE)，是指当内存错误超过ECC的纠错能力，无法采用ECC技术纠正内存错误。如果内存中发生不可纠正错误的存储空间已配置镜像区域，可以从镜像区域获取该存储空间的备份数据。

全局镜像(Global Mirror)，是指将内存中一半的存储空间作为另一半存储空间的镜像区域，用于备份存储另一半存储空间存储的数据。

局部镜像也称基于地址区间的内存地址镜像，是指将内存中一个地址段指示的存储空间中一半的区域作为另一半区域的镜像区域。

缓存线(cacheline)，指计算机设备对内存的存储空间进行读操作或写操作的单位。一个缓存线的大小可以为64字节(byte，B)。

交织，指将访问内存的数据按照单位存储空间(例如，缓存线)均匀地分布到多个内存通道上。交织方式可以由系统管理员配置，可以在一个处理器连接的多个内存通道之间进行交织，也可以在多个处理器的多个内存通道之间进行交织。

内存通道，指计算机设备中处理器连接的多个内存。处理器可以采用交织技术对内存进行操作。例如，处理器根据缓存线的大小将待写入内存的数据均匀地分布到多个内存通道上。进而，处理器根据缓存线的大小从多个内存通道上读取数据。从而，基于多个内存通道进行数据处理，以提升计算机设备的内存带宽利用率和处理性能。

超节点(Super Node)，指通过高带宽、低时延的片间互连总线和交换机将多个节点互连成一个高性能集群。超节点的规模大于缓存一致非统一内存寻址(Cache-Coherent Non Uniform Memory Access，CC-NUMA)架构下的节点规模，超节点内节点的互连带宽大于以太网络互连带宽。

高性能计算(High Performance Computing，HPC)集群，指一个计算机集群系统。HPC集群包含利用各种互联技术连接在一起的多个计算机。互联技术例如可以是无限带宽技术(infiniband，IB)、基于聚合以太网的远程直接内存访问(Remote Direct Memory Access over Converged Ethernet，RoCE)或传输控制协议(Transmission Control Protocol，TCP)。HPC提供了超高浮点计算能力，可用于解决计算密集型和海量数据处理等业务的计算需求。连接在一起的多个计算机的综合计算能力可以来处理大型计算问题。例如，科学研究、气象预报、金融、仿真实验、生物制药、基因测序和图像处理等行业涉及的利用HPC集群来解决的大型计算问题和计算需求。利用HPC集群处理大型计算问题可以有效地缩短处理数据的计算时间，以及提高计算精度。

内存操作指令，可以称为内存语义或内存操作函数。内存操作指令包括内存分配(malloc)、内存设置(memset)、内存复制(memcpy)、内存移动(memmove)、内存释放(memory release)和内存比较(memcmp)中至少一种。

内存分配用于支持应用程序运行分配一段内存。

内存设置用于设置全局内存池的数据模式，例如初始化。

内存复制用于将源地址(source)指示的存储空间存储的数据复制到目的地址(destination)指示的存储空间。

内存移动用于将源地址(source)指示的存储空间存储的数据复制到目的地址(destination)指示的存储空间，并删除源地址(source)指示的存储空间存储的数据。

内存比较用于比较两个存储空间存储的数据是否相等。

内存释放用于释放内存中存储的数据，以提高系统内存资源的利用率，进而提升系统性能。

为了解决内存镜像的配置不灵活，导致存储资源的利用率较低的问题，本申请提供一种数据处理系统，数据处理系统包括多个节点和管理节点。当第一节点请求对第一节点所使用的内存中第一区域进行镜像时，管理节点分配第二区域，即第一区域为待镜像区域，第二区域为第一区域的镜像区域，第二区域用于指示第二节点中与第一区域的大小相同的存储空间，第二区域用于备份存储第一区域的数据。相对于采用静态配置方式在系统启动前预先配置镜像区域，浪费存储资源，本申请提供的内存镜像方法在没有提出内存镜像需求时，系统中的存储资源用于存储不同的数据，仅在提出内存镜像需求时，才从系统的存储资源中分配镜像区域，使镜像区域备份存储待镜像区域存储的数据，提升数据高可靠性。另外，相对于由操作系统分配内存中相邻页作为镜像区域实现内存镜像，本申请的方法不限定待镜像区域和镜像区域的位置关系，待镜像区域和镜像区域可以是不同节点内的存储空间，从而，灵活动态地分配镜像区域实现内存镜像，提升内存镜像配置的灵活性以及存储资源的利用率。

图1为本申请提供的一种数据处理系统的架构示意图。如图1所示，数据处理系统100是一种提供高性能计算的实体。数据处理系统100包括多个节点110。节点110可以包括计算节点和存储节点。

例如，节点110可以是处理器、服务器、台式计算机、智能网卡、内存扩展卡、存储阵列的控制器和存储器等。处理器可以是中央处理器(central processing unit，CPU)、图形处理器(graphics processing unit，GPU)、数据处理单元(data processing unit，DPU)、神经处理单元(neural processing unit，NPU)和嵌入式神经网络处理器(neural-network processing unit，NPU)等用于数据处理的XPU。

当节点110是计算能力(Computing Power)较高的GPU、DPU、NPU等数据处理的XPU时，节点110可以作为加速器，将通用处理器(如：CPU)的作业卸载到加速器，由加速器处理计算需求较高的作业(如：HPC、大数据作业、数据库作业等)，解决由于通用处理器浮点算力不足，无法满足HPC、人工智能(Artificial Intelligence，AI)等场景的重浮点计算需求的问题，从而，缩短数据处理时长以及降低系统能耗，提升系统性能。节点的计算能力也可以称为节点的计算算力。在一些实施例中，节点110内部也可以集成加速器。独立部署的加速器和集成加速器的节点支持灵活插拔，可以按需弹性扩展数据处理系统的规模，从而满足不同的应用场景下的计算需求。

存储节点包括一个或多个控制器、网卡与多个硬盘。硬盘用于存储数据。硬盘可以是磁盘或者其他类型的存储介质，例如固态硬盘或者叠瓦式磁记录硬盘等。网卡用于与计算集群包含的计算节点通信。控制器用于根据计算节点发送的读/写数据请求，往硬盘中写入数据或者从硬盘中读取数据。在读写数据的过程中，控制器需要将读/写数据请求中携带的地址转换为硬盘能够识别的地址。

多个节点110基于具有高带宽、低时延的高速互连链路连接。在一些实施例中，如图1所示，管理节点120(如：交换机)基于高速互连链路连接多个节点110。例如，管理节点120通过光纤、铜缆或铜线连接多个节点110。管理节点可称为交换芯片或互联芯片或基板管理控制器(Baseboard Management Controller，BMC)。

管理节点120基于高速互连链路连接的多个节点110组成的数据处理系统100也可以称为超节点。多个超节点通过数据中心网络进行连接。数据中心网络包括多个核心交换机和多个汇聚交换机。数据中心网络可以组成一个规模域。多个超节点可以组成一个性能域。两个以上超节点可以组成宏机柜。宏机柜之间也可以基于数据中心网络连接。

管理节点120用于根据节点110发出的内存镜像需求，为节点110所使用的内存中待镜像区域分配与待镜像区域的大小相同的镜像区域。其中，管理节点120可以支持计算快速链接(Compute Express Link，CXL)等缓存一致性协议，保持内存镜像的高性能、低时延和数据一致性。

在另一些实施例中，多个节点110基于具有高带宽、低时延的高速互连链路进行直接连接。节点110具备本申请提供的管理节点120的功能。

数据处理系统100支持运行大数据、数据库、高性能计算、人工智能、分布式存储和云原生等应用。本申请实施例中需要备份存储的数据包括虚拟机(Virtual Machine，VM)、容器、高可用的(High Available，HA)应用程序、大数据、数据库、高性能计算、人工智能(Artificial Intelligence，AI)、分布式存储和云原生等应用的业务数据。

其中，待镜像区域和镜像区域可以是不同节点内的存储空间。镜像区域可以由系统中任一个节点110的本地存储介质、扩展存储介质或全局内存池提供。

在一些实施例中，数据处理系统100中节点110的存储介质经过统一编址构成全局内存池，实现跨超节点内节点(简称：跨节点)的内存语义访问。全局内存池为由节点的存储介质经过统一编址构成的节点共享的资源。

本申请提供的全局内存池可以包括超节点中计算节点的存储介质和存储节点的存储介质。计算节点的存储介质包括计算节点内的本地存储介质和计算节点连接的扩展存储介质中至少一种。存储节点的存储介质包括存储节点内的本地存储介质和存储节点连接的扩展存储介质中至少一种。

例如，全局内存池包括计算节点内的本地存储介质和存储节点内的本地存储介质。

又如，全局内存池包括计算节点内的本地存储介质、计算节点连接的扩展存储介质，以及存储节点内的本地存储介质和存储节点连接的扩展存储介质中任意一种。

又如，全局内存池包括计算节点内的本地存储介质、计算节点连接的扩展存储介质、存储节点内的本地存储介质和存储节点连接的扩展存储介质。

示例地，如图2所示，为本申请提供的一种全局内存池的部署场景示意图。全局内存池200包括N个计算节点中每个计算节点内的存储介质210、N个计算节点中每个计算节点连接的扩展存储介质220、M个存储节点中每个存储节点内的存储介质230和M个存储节点中每个存储节点连接的扩展存储介质240。

应理解，全局内存池的存储容量可以包括计算节点的存储介质中的部分存储容量和存储节点的存储介质中的部分存储容量。全局内存池是经过统一编址的超节点内计算节点和存储节点均可以访问的存储介质。全局内存池的存储容量可以通过大内存、分布式数据结构、数据缓存、元数据等内存接口供计算节点或存储节点使用。计算节点运行应用程序可以使用这些内存接口对全局内存池进行内存操作。如此，基于计算节点的存储介质的存储容量和存储节点的存储介质构建的全局内存池北向提供了统一的内存接口供计算节点使用，使计算节点使用统一的内存接口将数据写入全局内存池的计算节点提供的存储空间或存储节点提供的存储空间，实现基于内存操作指令的数据的计算和存储，以及降低数据处理的时延，提升数据处理的速度。

上述是以计算节点内的存储介质和存储节点内的存储介质构建全局内存池为例进行说明。全局内存池的部署方式可以灵活多变，本申请实施例不予限定。例如，全局内存池由存储节点的存储介质构建。又如，全局内存池由计算节点的存储介质构建。使用单独的存储节点的存储介质或计算节点的存储介质构建全局内存池可以减少存储侧的存储资源的占用，以及提供更灵活的扩展方案。

依据存储介质的类型划分，本申请实施例提供的全局内存池的存储介质包括动态随机存取存储器(Dynamic Random Access Memory，DRAM)、固态驱动器(Solid State Disk或Solid State Drive，SSD)和存储级内存(storage-class-memory，SCM)。

在一些实施例中，可以根据存储介质的类型设置全局内存池，即利用一种类型的存储介质构建一种内存池，不同类型的存储介质构建不同类型的全局内存池，使全局内存池应用于不同的场景，计算节点根据应用的访问特征选择存储介质，增强了用户对系统控制权限，提升了用户的系统体验又扩展了系统适用的应用场景。例如，将计算节点中的DRAM和存储节点中的DRAM进行统一编址构成DRAM内存池。DRAM内存池用于对访问性能要求高，数据容量适中，无数据持久化诉求的应用场景。又如，将计算节点中的SCM和存储节点中的SCM进行统一编址构成SCM内存池。SCM内存池则用于对访问性能不敏感，数据容量大，对数据持久化有诉求的应用场景。

接下来，结合图3至图4对本申请提供的内存镜像方法的实施方式进行详细描述。

图3为本申请提供的一种存镜像方法的流程示意图。在这里以节点110A请求内存镜像为例进行说明。如图3所示，该方法包括以下步骤。

步骤310、节点110A向管理节点120发送内存镜像需求。

为了提高数据可靠性，节点110A可以向管理节点120发送内存镜像需求，请求对存储数据的第一区域进行内存镜像，即管理节点120分配与第一区域的大小相同的第二区域，即第一区域为待镜像区域，第二区域为第一区域的镜像区域，第二区域用于指示第二节点中与第一区域的大小相同的存储空间，由镜像区域备份存储待镜像区域存储的数据。

需要进行备份的数据可以包括虚拟机(Virtual Machine，VM)、容器、高可用的(High Available，HA)应用程序和业务需求。业务需求可以指示业务执行过程中重要数据进行备份存储的需求。也就是，需要进行备份的数据存储到待镜像区域和镜像区域。如果待镜像区域发生故障或者待镜像区域存储的数据发生错误，可以从镜像区域获取数据，从而提高数据的可靠性，避免由于存储数据的存储空间故障或数据错误，导致业务出现问题，影响用户体验。

在一些实施例中，节点110A启动后，可以根据镜像策略向管理节点120发送内存镜像需求。镜像策略指示依据应用的可靠性等级确定内存镜像需求。可靠性指示产品在使用期间没有发生故障的性质。对产品而言，产品的可靠性越高，产品可以无故障工作的时间就越长。例如，系统管理员可以预先配置应用的可靠性等级，节点110A根据应用的可靠性等级发送内存镜像需求，对于具有高可靠性要求的应用，向管理节点120申请内存镜像，对于低可靠性要求的应用，无需向管理节点120申请内存镜像。

步骤320、管理节点120获取内存镜像需求。

管理节点120可以通过连接节点110A的光纤接收节点110A发送的内存镜像需求。内存镜像需求用于指示节点110A所使用的内存中待镜像区域。

节点110A所使用的内存包括本地存储介质、扩展存储介质和全局内存池中至少一种。可理解地，节点110A请求进行内存镜像的待镜像区域可以是节点110A的本地存储介质、扩展存储介质和全局内存池中任一种存储介质中的存储空间。

其中，内存镜像需求具体指示了待镜像区域的物理地址和待镜像区域的大小，以便于管理节点120直接从内存镜像需求中获取待镜像区域的大小。

在一种示例中，内存镜像需求包括待镜像区域的物理地址段。管理节点120根据物理地址段确定待镜像区域的大小。

在另一种示例中，内存镜像需求包括待镜像区域的物理地址和偏移地址。管理节点120根据待镜像区域的物理地址和偏移地址确定待镜像区域的大小。

步骤330、管理节点120根据内存镜像需求分配镜像区域。

管理节点120从其所管理的存储介质中确定一个空闲存储介质，从空闲存储介质中划分一个与待镜像区域的大小相同的区域作为镜像区域。管理节点120所管理的存储介质包括系统中任一节点的本地存储介质、扩展存储介质和构成全局内存池的存储介质。

另外，镜像区域所属的存储介质可以系统中任一个存储介质，对镜像区域所属的存储介质与待镜像区域所属的存储介质的关系不予限定。空闲存储介质可以是与待镜像区域所属的存储介质距离较远的存储介质。例如，镜像区域所属的存储介质和待镜像区域所属的存储介质可以位于不同的机房或不同的机柜。从而，将镜像区域和待镜像区域拉远，即从与待镜像区域所属的存储介质不同的存储介质分配镜像区域，避免由于镜像区域和待镜像区域部署在同一个存储介质，导致镜像区域和待镜像区域同时失效，从而，降低镜像区域和待镜像区域同时失效的可能性，提高内存镜像的可靠性。

假设管理节点120从节点110B中划分一个与待镜像区域的大小相同的区域作为镜像区域。节点110A和节点110B可以是两个独立的物理设备，节点110A和节点110B之间的距离较远，节点110A和节点110B可以位于不同的机房或不同的机柜。

可选地，管理节点120也可以根据可靠性等级确定分配镜像区域的数量，即管理节点120根据从高到低的可靠性等级分配数量不同的镜像区域，以对高可靠性的数据实现多分备份的效果，确保数据的可靠性。例如，可靠性等级包括从低到高的可靠性等级1至可靠性等级5。当内存镜像需求指示了可靠性等级1时，管理节点120根据内存镜像需求指示的可靠性等级1分配一个镜像区域。当内存镜像需求指示了可靠性等级2时，管理节点120根据内存镜像需求指示的可靠性等级2分配两个镜像区域。

本申请对镜像区域所属的存储介质和待镜像区域所属的存储介质的类型不予限定，例如存储介质包括DRAM、SSD和SCM中任一种。

另外，本申请对待镜像区域的大小不予限定，即不限定内存镜像粒度。管理节点120可以对任意大小的存储区域进行内存镜像，从而，根据内存镜像需求进行内存镜像提高存储资源的利用率。避免采用静态配置镜像区域时，镜像区域太大，导致浪费内存的存储资源；镜像区域太小，导致无法解决内存的UCE。例如，内存镜像粒度大于内存交织粒度，镜像区域故障会导致多个以交织方式访问内存的数据受影响，降低存储资源的利用率。可选地，内存镜像粒度可以64字节(Bytes)，配合内存交织的粒度，从而避免交织的存储区域隔离扩大导致额外的内存浪费。

在另一些实施例中，管理节点120可以构建待镜像区域和镜像区域的镜像关系，以便于管理节点120根据镜像关系确定镜像区域，对镜像区域进行读操作或写操作。

在一种示例中，待镜像区域和镜像区域的镜像关系指示待镜像区域的物理地址与镜像区域的物理地址的对应关系。镜像关系可以以表格的形式呈现，如表1所示。

表1

如表1所示，待镜像区域的物理地址1对应镜像区域的物理地址2，管理节点120根据待镜像区域的物理地址1查表，确定镜像区域的物理地址为物理地址2，根据镜像区域的物理地址2对镜像区域进行读操作或写操作。

需要说明的是，表1只是以表格的形式示意对应关系在存储设备中的存储形式，并不是对该对应关系在存储设备中的存储形式的限定，当然，该对应关系在存储设备中的存储形式还可以以其他的形式存储，本实施例对此不做限定。

步骤340、管理节点120向节点110A反馈镜像成功响应。

管理节点120根据内存镜像需求分配与待镜像区域的大小相同的镜像区域后，向节点110A反馈镜像成功响应。节点110A可以生成待镜像区域的镜像标识，镜像标识指示该待镜像区域是一个已镜像成功的区域，是一个克隆体。节点110A还可以生成待镜像区域的虚拟地址(Virtual Address，VA)和待镜像区域的物理地址(Physical Address，PA)的映射关系，以便于节点110A根据待镜像区域的虚拟地址确定待镜像区域的物理地址，对待镜像区域进行读操作或写操作。

进一步地，内存镜像配置完成后，系统中的业务执行完成、删除虚拟机、删除容器等无需备份高可靠性的数据时，可以释放内存镜像的存储资源。本申请还包括步骤350。

步骤350、管理节点120向节点110A和节点110B发送内存镜像释放指示。

在一些实施例中，管理节点120可以接收节点110A的内存镜像释放请求，内存镜像释放请求指示请求释放的待镜像区域，例如，内存镜像释放请求包括待镜像区域的物理地址和待镜像区域的大小。又如，内存镜像释放请求包括待镜像区域的物理地址段。又如内存镜像释放请求包括待镜像区域的物理地址和偏移地址。

在另一些实施例中，管理节点120确定在监控时段内节点110A的待镜像区域和节点110B的镜像区域未被使用，管理节点120确定释放节点110A的待镜像区域和节点110B的镜像区域，使待镜像区域和镜像区域可以用于存储其他数据，以提高存储资源的利用率。

管理节点120向节点110A发送的第一内存镜像释放指示，第一内存镜像释放指示包括待镜像区域的物理地址。管理节点120向节点110B发送的第二内存镜像释放指示，第二内存镜像释放指示包括镜像区域的物理地址。

节点110A根据第一内存镜像释放指示释放待镜像区域，或者将待镜像区域的镜像标识修改为无效。节点110B根据第二内存镜像释放指示释放镜像区域，或者将镜像区域的镜像标识修改为无效。

如此，本申请提供内存镜像方法不依赖于节点的操作系统，由管理节点依据内存镜像需求动态分配镜像区域实现内存镜像，无需重启配置内存镜像的主机；在无需内存镜像时动态释放内存镜像的存储资源，从而，实现更简单、更高效的动态内存镜像，提升存储资源的利用率。

在内存镜像配置完成后，采用完全复制的方式向互为镜像的物理存储空间进行写操作，实现内存镜像的效果。图4为本申请提供的一种数据处理方法的流程示意图。在这里以节点110A对待镜像区域进行写操作和读操作为例进行说明。如图4所示，该方法包括以下步骤。

步骤410、节点110A向管理节点120发送写指示。

写指示用于指示将第一数据存储到待镜像区域。例如，节点110A根据待镜像区域的虚拟地址查询地址映射表确定待镜像区域的物理地址，写指示包括待镜像区域的物理地址。地址映射表指示了虚拟地址和物理地址的映射关系。

步骤420、管理节点120将第一数据写入待镜像区域和镜像区域。

管理节点120获取到写指示后，根据写指示包括的待镜像区域的物理地址，将第一数据写入待镜像区域。

在一些实施例中，管理节点120支持CXL3.0、p2p模式等缓存一致性协议，管理节点120将第一数据写入镜像区域。

在另一些实施例中，管理节点120根据待镜像区域的物理地址查询镜像关系，确定镜像区域的物理地址，根据镜像区域的物理地址将第一数据写入镜像区域。

步骤430、节点110A向管理节点120发送读指示。

读指示用于指示从待镜像区域读取第一数据。例如，节点110A根据待镜像区域的虚拟地址查询地址映射表确定待镜像区域的物理地址，读指示包括待镜像区域的物理地址。

当待镜像区域未发生不可纠正错误时，执行步骤440。当待镜像区域发生不可纠正错误时，执行步骤450。

步骤440、管理节点120从待镜像区域读取第一数据。管理节点120将第一数据反馈给节点110A。

步骤450、管理节点120从镜像区域读取第一数据。

管理节点120确定待镜像区域发生不可纠正错误，根据待镜像区域的物理地址查询镜像关系，确定待镜像区域的镜像区域的物理地址，根据镜像区域的物理地址从镜像区域读取第一数据。

管理节点120从待镜像区域读取第一数据或从镜像区域读取第一数据后，将第一数据反馈给节点110A。

在一些实施例中，节点110A从待镜像区域读取到数据后，对从待镜像区域读取的数据进行校验，确定读取的数据发生错误，如从待镜像区域读取的数据不是第一数据。节点110A采用ECC技术无法对读取到的错误数据进行纠错，则指示管理节点120从镜像区域读取第一数据，即执行步骤450。

管理节点120支持CXL3.0、p2p模式等缓存一致性协议，从镜像区域读取第一数据后，将第一数据写入待镜像区域。

管理节点120不支持CXL3.0、p2p模式等缓存一致性协议，管理节点120将从镜像区域读取的第一数据反馈给节点110A，节点110A请求管理节点120将第一数据写入待镜像区域。

如果将第一数据成功写入待镜像区域，表示待镜像区域未发生硬件故障，可能是偶然性数据错误。如果将第一数据写入待镜像区域失败，表示待镜像区域发生硬件故障，启动待镜像区域和镜像区域进行主备倒换。

进一步地，当待镜像区域发生不可纠正错误时，管理节点120可以对待镜像区域和镜像区域进行主备倒换。例如，管理节点120将镜像区域确定为主存储空间。从而，使得节点110对第一数据进行读操作或写操作。

可以理解的是，为了实现上述实施例中的功能，管理节点包括了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本申请中所公开的实施例描述的各示例的单元及方法步骤，本申请能够以硬件或硬件和计算机软件相结合的形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用场景和设计约束条件。

上文中结合图1至图4，详细描述了根据本实施例所提供的内存镜像方法，下面将结合图5，描述根据本实施例所提供的管理装置和节点。

图5为本实施例提供的可能的管理装置的结构示意图。这些管理装置可以用于实现上述方法实施例中管理节点的功能，因此也能实现上述方法实施例所具备的有益效果。在本实施例中，该管理装置可以是如图3或图4所示的管理节点120，还可以是应用于服务器的模块(如芯片)。

如图5所示，管理装置500包括通信模块510、控制模块520和存储模块530。管理装置500用于实现上述图3或图4中所示的方法实施例中管理节点120的功能。

通信模块510用于接收第一节点的内存镜像需求，请求对所述第一节点所使用的内存中第一区域进行镜像。例如，通信模块510用于执行图3中步骤320。

控制模块520，用于当所述第一节点请求对所述第一节点所使用的内存中第一区域进行镜像时，分配第二区域，所述第二区域为所述第一区域的镜像区域，所述第二区域用于指示第二节点中与所述第一区域的大小相同的存储空间，所述第二区域用于备份存储所述第一区域的数据。例如，控制模块520用于执行图3中步骤330。

控制模块520，还用于生成所述第一区域和所述第二区域的镜像关系，所述镜像关系用于指示所述第一物理地址与第二物理地址的对应关系，所述第二物理地址用于指示所述第二区域。

通信模块510，还用于接收对第一区域进行写操作或读操作。例如，通信模块510用于执行图3中步骤340。例如，通信模块510用于执行图4中步骤420、步骤440和步骤450。

控制模块520，还用于根据镜像关系对第一区域和第二区域进行写操作或读操作。

通信模块510，还用于向节点反馈镜像成功。例如，通信模块510用于执行图3中步骤340。

通信模块510，还用于向节点发送内存镜像释放请求。例如，通信模块510用于执行图3中步骤350。

存储模块530用于存储镜像关系，以便于控制模块520根据镜像关系访问镜像区域。

应理解的是，本申请实施例的管理装置500可以通过专用集成电路(application-specific integrated circuit，ASIC)实现，或可编程逻辑器件(programmable logic device，PLD)实现，上述PLD可以是复杂程序逻辑器件(complex programmable logical device，CPLD)，现场可编程门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。也可以通过软件实现图3或图4所示的内存镜像方法时，及其各个模块也可以为软件模块，管理装置500其各个模块也可以为软件模块。

根据本申请实施例的管理装置500可对应于执行本申请实施例中描述的方法，并且管理装置500中的各个单元的上述和其它操作和/或功能分别为了实现图3或图4中的各个方法的相应流程，为了简洁，在此不再赘述。

图6为本实施例提供的一种计算设备600的结构示意图。如图所示，计算设备600包括处理器610、总线620、存储器630、通信接口640和内存单元650(也可以称为主存(main memory)单元)。处理器610、存储器630、内存单元650和通信接口640通过总线620相连。

应理解，在本实施例中，处理器610可以是CPU，该处理器610还可以是其他通用处理器、数字信号处理器(digital signal processing，DSP)、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。

处理器还可以是图形处理器(graphics processing unit，GPU)、神经网络处理器(neural network processing unit，NPU)、微处理器、ASIC、或一个或多个用于控制本申请方案程序执行的集成电路。

通信接口640用于实现计算设备600与外部设备或器件的通信。在本实施例中，计算设备600用于实现图1所示的管理节点120的功能时，通信接口640用于获取内存镜像需求，处理器610 分配镜像区域。计算设备600用于实现图1所示的节点110的功能时，通信接口640用于发送内存镜像需求。

总线620可以包括一通路，用于在上述组件(如处理器610、内存单元650和存储器630)之间传送信息。总线620除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线620。总线620可以是快捷外围部件互连标准(Peripheral Component Interconnect Express，PCIe)总线，或扩展工业标准结构(extended industry standard architecture，EISA)总线、计算机快速链接(compute express link，CXL)、缓存一致互联协议(cache coherent interconnect for accelerators，CCIX)等。总线620可以分为地址总线、数据总线、控制总线等。

作为一个示例，计算设备600可以包括多个处理器。处理器可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的计算单元。在本实施例中，计算设备600用于实现图3所示的管理节点120的功能时，处理器610还用于当所述第一节点请求对所述第一节点所使用的内存中第一区域进行镜像时，分配第二区域，所述第二区域为所述第一区域的镜像区域，所述第二区域用于指示第二节点中与所述第一区域的大小相同的存储空间，所述第二区域用于备份存储所述第一区域的数据。

计算设备600用于实现图4所示的节点110的功能时，处理器610还用于请求对已申请镜像的区域进行写操作或读操作。

计算设备600用于实现图4所示的管理节点120的功能时，处理器610还用于根据镜像关系对镜像区域进行写操作或读操作。

值得说明的是，图6中仅以计算设备600包括1个处理器610和1个存储器630为例，此处，处理器610和存储器630分别用于指示一类器件或设备，具体实施例中，可以根据业务需求确定每种类型的器件或设备的数量。

内存单元650可以对应上述方法实施例中用于存储镜像关系。内存单元650可以是易失性存储器池或非易失性存储器池，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

存储器630可以对应上述方法实施例中用于存储计算机指令、内存操作指令、节点标识等信息的存储介质，例如，磁盘，如机械硬盘或固态硬盘。

上述计算设备600可以是一个通用设备或者是一个专用设备。例如，计算设备600可以是边缘设备(例如，携带具有处理能力芯片的盒子)等。可选地，计算设备600也可以是服务器或其他具有计算能力的设备。

应理解，根据本实施例的计算设备600可对应于本实施例中的管理装置500，并可以对应于执行根据图3或图4中任一方法中的相应主体，并且管理装置500中的各个模块的上述和其它操作和/或功能分别为了实现图3或图4中的各个方法的相应流程，为了简洁，在此不再赘述。

本实施例中的方法步骤可以通过硬件的方式来实现，也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(random access memory，RAM)、闪存、只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于计算设备中。当然，处理器和存储介质也可以作为分立组件存在于计算设备中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时，全部或部分地执行本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、网络设备、用户设备或者其它可编程装置。所述计算机程序或指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，例如，软盘、硬盘、磁带；也可以是光介质，例如，数字视频光盘(digital video disc，DVD)；还可以是半导体介质，例如，固态硬盘(solid state drive，SSD)。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种数据处理系统，其特征在于，所述数据处理系统包括多个节点和管理节点；

第一节点，用于请求对所述第一节点所使用的内存中第一区域进行镜像；

所述管理节点，用于分配第二区域，所述第二区域为所述第一区域的镜像区域，所述第二区域用于指示第二节点中与所述第一区域的大小相同的存储空间，所述第二区域用于备份存储所述第一区域的数据。
根据权利要求1所述的系统，其特征在于，所述第一节点指示了所述第一区域的第一物理地址；

所述管理节点，还用于生成所述第一区域和所述第二区域的镜像关系，所述镜像关系用于指示所述第一物理地址与第二物理地址的对应关系，所述第二物理地址用于指示所述第二区域。
根据权利要求1或2所述的系统，其特征在于，

所述管理节点，还用于接收所述第一节点发送的写指示，所述写指示用于指示将第一数据存储到所述第一区域；

所述管理节点，还用于将所述第一数据写入所述第一区域和所述第二区域。
根据权利要求3所述的系统，其特征在于，

所述管理节点，还用于接收所述第一节点的读指示，所述读指示用于指示从所述第一区域读取所述第一数据；

所述管理节点，还用于当所述第一区域未发生不可纠正错误时，从所述第一区域读取所述第一数据。
根据权利要求4所述的系统，其特征在于，

所述管理节点，还用于当所述第一区域发生不可纠正错误时，从所述第二区域读取所述第一数据。
根据权利要求5所述的系统，其特征在于，所述第一区域为主存储空间，所述第二区域为备存储空间；

所述管理节点，还用于当所述第一区域发生不可纠正错误时，将所述第二区域确定为主存储空间。
根据权利要求1-6中任一项所述的系统，其特征在于，

所述管理节点，还用于指示所述第一节点将所述第一区域的镜像标识修改为无效。
根据权利要求1-7中任一项所述的系统，其特征在于，所述第一区域的大小是由应用需求确定的。
根据权利要求1-8中任一项所述的系统，其特征在于，所述第二区域包括所述第二节点的本地存储空间、所述第二节点的扩展存储空间和全局内存池中所述第二节点的存储空间中任一种。
根据权利要求1-9中任一项所述的系统，其特征在于，所述管理节点支持缓存一致性协议。
一种内存镜像方法，其特征在于，数据处理系统包括多个节点和管理节点；所述方法包括：

第一节点请求对所述第一节点所使用的内存中第一区域进行镜像；

所述管理节点分配第二区域，所述第二区域为所述第一区域的镜像区域，所述第二区域用于指示第二节点中与所述第一区域的大小相同的存储空间，所述第二区域用于备份存储所述第一区域的数据。
根据权利要求11所述的方法，其特征在于，所述第一节点指示了所述第一区域的第一物理地址；所述方法还包括：

所述管理节点生成所述第一区域和所述第二区域的镜像关系，所述镜像关系用于指示所述第一物理地址与第二物理地址的对应关系，所述第二物理地址用于指示所述第二区域。
根据权利要求11或12所述的方法，其特征在于，所述方法还包括：

所述管理节点接收所述第一节点发送的写指示，所述写指示用于指示将第一数据存储到所述第一区域；

所述管理节点将所述第一数据写入所述第一区域和所述第二区域。
根据权利要求13所述的方法，其特征在于，所述方法还包括：

所述管理节点接收所述第一节点的读指示，所述读指示用于指示从所述第一区域读取所述第一数据；

所述管理节点当所述第一区域未发生不可纠正错误时，从所述第一区域读取所述第一数据。
根据权利要求14所述的方法，其特征在于，所述方法还包括：

所述管理节点当所述第一区域发生不可纠正错误时，从所述第二区域读取所述第一数据。
根据权利要求15所述的方法，其特征在于，所述第一区域为主存储空间，所述第二区域为备存储空间，所述方法还包括：

所述管理节点当所述第一区域发生不可纠正错误时，将所述第二区域确定为主存储空间。
根据权利要求11-16中任一项所述的方法，其特征在于，所述方法还包括：

所述管理节点指示所述第一节点将所述第一区域的镜像标识修改为无效。
根据权利要求11-17中任一项所述的方法，其特征在于，所述第一区域的大小是由应用需求确定的。
根据权利要求11-18中任一项所述的方法，其特征在于，所述第二区域包括所述第二节点的本地存储空间、所述第二节点的扩展存储空间和全局内存池中所述第二节点的存储空间中任一种。
根据权利要求11-19中任一项所述的方法，其特征在于，所述管理节点支持缓存一致性协议。
一种管理装置，其特征在于，所述管理装置应用于数据处理系统，所述数据处理系统包括基于多个节点，所述多个节点包括第一节点和第二节点，所述装置包括：

控制模块，用于当所述第一节点请求对所述第一节点所使用的内存中第一区域进行镜像时，分配第二区域，所述第二区域为所述第一区域的镜像区域，所述第二区域用于指示第二节点中与所述第一区域的大小相同的存储空间，所述第二区域用于备份存储所述第一区域的数据。
根据权利要求21所述的装置，其特征在于，所述第一节点指示了所述第一区域的第一物理地址；

所述控制模块，还用于生成所述第一区域和所述第二区域的镜像关系，所述镜像关系用于指示所述第一物理地址与第二物理地址的对应关系，所述第二物理地址用于指示所述第二区域。
一种计算设备，其特征在于，所述计算设备包括存储器和至少一个处理器，所述存储器用于存储一组计算机指令；当所述处理器执行所述一组计算机指令时，控制器执行如权利要求11-20中任一所述的方法。