WO2019085875A1

WO2019085875A1 - 存储集群的配置修改方法、存储集群及计算机系统

Info

Publication number: WO2019085875A1
Application number: PCT/CN2018/112580
Authority: WO
Inventors: 周思义; 梁锋; 智雅楠; 黄西华
Original assignee: 华为技术有限公司
Priority date: 2017-10-31
Filing date: 2018-10-30
Publication date: 2019-05-09
Also published as: US11360854B2; US20200257593A1; CN109729129B; EP3694148B1; CN109729129A; EP3694148A4; EP3694148A1

Abstract

本申请提供一种修改存储集群配置的方法、装置及计算机系统等。采用一致性复制协议的存储集群，在半数存储节点发生故障的前提下，若确定故障后的存储集群中存在至少一个存储节点，该存储节点上的最新的日志索引号大于或等于存储集群向客户端提供的已提交日志的索引号，则由仲裁模块向未故障的存储节点发送强制集群配置变更指令，所述强制集群配置变更指令用于指示所述未故障的存储节点修改本地的集群配置信息；且仲裁模块更新配置库中存储的集群配置信息，使其指示新的集群配置。这样解决半数存储节点故障后存储集群不可用的问题，提高了存储集群的可用性。

Description

存储集群的配置修改方法、存储集群及计算机系统

技术领域

本申请涉及分布式存储集群技术，尤其涉及一种存储集群发生故障后的集群配置修改技术。

背景技术

存储集群中部署有分布式的多个存储节点，这多个存储节点可以采用一致性复制协议，例如Raft协议，来保证数据的一致性。

Raft协议是一种常用的一致性复制协议，它规定最新数据要保存在大多数(超过半数)存储节点中，然后存储集群才能继续提供数据复制服务(或称为数据写服务)。也就是说，每次数据更新，Raft协议中的存储主节点要得到大多数节点(包括存储主节点自己)已保存最新数据的响应，然后存储集群才能继续提供数据复制服务。当一定数量的存储节点发生故障后，Raft协议要求修改集群配置，使得在新的集群配置下仍满足最新数据保存在大多数节点中，在这个前提下才能继续提供数据复制服务。而在Raft协议中，集群配置的修改过程其实也是一个数据复制过程，只是复制的数据(或称为日志)是一个用于修改集群配置的配置变更命令，因此在执行集群配置的修改时也要遵循前述“保存在大多数”的规定。

在现有的Raft协议中，当少于半数的存储节点发生故障后，存储主节点发送的配置变更命令可以得到大多数未故障的存储节点的响应，所以能够继续提供数据复制服务。具体的，当少于半数的存储节点发生故障后，存储主节点向剩余的所有未故障的存储节点发送配置变更命令，该命令被所有未故障的存储节点保存且向存储主节点返回响应(返回响应即指示保存成功)；由于未故障的存储节点超过半数，满足Raft协议要求，因此存储主节点指示所有未故障存储节点各自修改自己的集群配置信息，从而使存储集群在新的集群配置下继续提供数据复制服务。当存储主节点也在故障节点中时，Raft协议要求先执行重新选择存储主节点的过程，新的存储主节点再执行前述集群配置修改过程。

但是，当半数的存储节点同时发生故障时，现有的Raft协议无法获得大多数存储节点对于配置变更命令的响应，所以无法满足Raft协议的要求，也就不能对集群配置的修改达成决定，从而导致存储集群无法完成集群配置的修改。这样，即便存储集群中实质上还保存有满足用户需求的数据，也无法再继续提供数据复制服务了。

图1为一个存储集群的示例。该存储集群包括两个可用区(available zone，AZ)。一个AZ一般由多个数据中心组成，每个可AZ具有独立的供电和独立的网络等。当一个AZ出现通常的故障时，例如电源、网络、软件部署、洪水等灾害，一般不会影响其它AZ。AZ与AZ之间一般通过低延迟网络连接。AZ1和AZ2中分别部署有2个存储节点(存储层)，即对称部署。两个AZ对称部署，意味着两个AZ内分别部署有相同数量的存储节点。两个AZ内还分别部署有2个计算节点(计算层)。计算节点例如可以包括结构化查询语言(structured query language，SQL)读写节点和SQL读节点。存储节点包括1个存储主节点和3个存储备节点。根据Raft协议的规定，4个存储节点中需要有3个或3个以上的存储节点保存最新数据。假设图1中存储主节点L、存储备节点F1和F2中已保存最新数据。如图1所示，当AZ1发生故障(或任意两个其它存储节点发生故障)后，由于4个存储节点中的半数即2个已经故障，那么配置变更命令即便被发出最多也只能得到AZ2内这2个存储节点的响应，无法满足大多数响应的要求，所以集群配置变更失败，即便保存最新数据的存储备节点F2还存在，该存储集群也无法继续提供数据复制服务。

由以上分析和示例可见，在应用Raft等一致性复制协议的存储集群中，急需一种技术方案，该技术方案能够在半数的存储节点发生故障之后仍能保证存储集群在一定条件下继续提供一致性数据复制服务。

发明内容

为了方便理解本申请提出的技术方案，首先在此介绍本申请描述中会引入的几个要素。

节点：具有独立操作系统的计算机，可以是普通虚拟机、轻量级虚拟机等类型的虚拟机，也可以是一台物理计算机。

持久化存储：计算机断电或重启后被存储的信息不会丢失。典型的持久化存储包括文件存储和数据库存储。

大多数：一个大小为N的集合的大多数M指超过此集合大小的一半的数量，即、|N/2|+1≤M≤N,其中M，N都为正整数，||表示向下取整。

半数(或一半)：一个大小为N的集合的半数M，即M＝N/2。注意这里N/2不取整。在本申请中，当存储集群故障前的节点数量为单数N时，半数M不为整数，但是故障的节点数量一定为整数，所以总不能满足“半数”的要求。

日志：一条日志代表数据库数据操作、文件操作、状态操作等类型中任意一种类型的任意一个操作命令，例如数据读取命令，数据写命令或配置变更命令等。日志通过递增的索引号来维护顺序。数据库操作按日志的索引号的顺序执行日志，能构造出数据的实际内容。“提交”(committed)是存储集群对日志(或称命令)在大多数存储节点中已保存成功的一种响应。“已提交的日志”即已在大多数存储节点中保存成功的日志。任意一个存储节点都不会执行未提交的日志。

“用于指示A的信息”在本申请中指的是能够获得A的信息，获取A的方式可能是信息本身就是A，或者通过该信息可以间接获得A。本申请中的“A/B”或“A和/或B”包括A、B以及A和B，这三种可能的形式。

本申请提供一种存储集群的配置变更方法、相应的装置以及存储集群，该方法应用在采用一致性复制协议的存储集群中。在这样的存储集群中，当半数存储节点发生故障后，该存储集群就一定不能继续提供数据复制服务，而本申请提供的方法可以在半数存储节点发生故障的情况下，仍然能够保证存储集群在满足一定条件的前提下继续提供数据复制服务，提高了存储集群的可用性。

下面介绍本申请提供的多个方面的发明内容，应理解的是，以下多个方面的发明内容并非本申请提供的全部内容，且可互相参考彼此的实现方式和有益效果。

第一方面，本申请提供一种存储集群，该存储集群包括多个存储节点，其中有一个存储主节点和多个存储备节点，该存储集群的各个存储节点之间采用一致性复制协议，例如Raft，来维持一致性。进一步的，该存储集群中包括仲裁模块和配置库。所述配置库被配置为存储所述存储集群的配置数据，所述配置数据包括集群配置信息，所述集群配置信息中包括存储集群中所有未故障的存储节点的信息，例如存储节点的ID。所述仲裁模块被配置为：在存储集群发生故障之后，若如下条件A和条件B满足则修改所述配置库中存储的所述集群配置信息，并向未故障的存储节点发送强制集群配置变更指令，所述强制集群配置变更指令用于指示所述未故障的存储节点修改本地的集群配置信息。条件A：故障的存储节点的数量为未发生本次故障之前存储集群中所有存储节点的数量的一半；条件B：故障后的存储集群中存在至少一个存储节点，该存储节点上的最新的日志索引号大于或等于存储集群向客户端提供的已提交日志的索引号。该索引号代表数据复制服务的能力，是存储集群向客户端承诺的一个服务质量。

这里的故障通常指的是存储节点不可用的故障，或其它影响集群配置的故障。

存储节点的“本地”通常指的是存储节点内部的内存和/或磁盘等存储器。当存储节点是一台物理计算机时，“本地”通常指的是该物理计算机上的内存和/或磁盘等存储器；当存储节点是一台虚拟机或其他类型的虚拟化设备时，“本地”通常指的是位于物理宿主机内部的、该虚拟机可以访问的内存和/或磁盘等存储器。

条件A的判断方式并非一定要获取这两个数值：故障的存储节点数量和未发生本次故障之前存储集群中所有存储节点的数量，才能判断。也可以通过一些简单的方式，根据实际情况确定该条件成立。例如在两个AZ，且AZ内部存储节点呈对称部署的存储集群中，当发生AZ级故障之后，可以直接确定半数节点故障。同理，条件B也是如此，判断条件是否满足的具体的实现方式有多种，本申请不做限定。

仲裁模块可以部署在存储节点上，也可以部署在别处，配置库也是如此。本申请不做限定。

可见，首先确定半数的存储节点发生故障，然后确定故障后的存储集群还能保证服务质量，之后执行强制的配置集群变更，让存储集群继续服务，在保障服务质量的前提下提升了存储集群的可用性。

基于第一方面，在一些实现方式中，所述仲裁模块还被配置为：在所述存储集群发生故障且执行强制集群配置变更之后，从未故障的存储节点中重新选择一个候选存储主节点，并向所述候选存储主节点发送选主请求，所述选主请求用于指示所述候选存储主节点发起符合一致性复制协议的选主过程。

存储集群配置变更之后，可以根据一些现有存储集群配置的情况和要求重新选择存储主节点，以提升存储集群在新配置下的性能。

基于第一方面，在一些实现方式中，所述仲裁模块被配置为：选择所有未故障的存储节点中最新日志索引号最大的存储节点为所述候选存储主节点。

基于第一方面，在一些实现方式中，所述配置数据中还包括所述存储集群所部属的网络的网络拓扑信息。所述仲裁模块被配置为：获取并根据所述网络拓扑信息构建客户端节点或代理节点到各个所述未故障的存储节点的有向有权图，其中节点之间的边的权值由节点与节点间的网络通信速率或负载(速率和负载也可以)确定，并计算所述有向有权图中的最短路径，确定位于所述最短路径上的存储节点为所述候选存储主节点。

节点与节点间的网络通信速率或负载可以在仲裁模块所部属的节点上存储，也可以在由其它节点存储由仲裁模块获取。通信速率或负载的获得方式本申请不做限定。

网络拓扑信息主要包括用于指示每个存储(或SQL)节点位于哪个AZ和/或哪台计算机的信息。网络拓扑信息和配置信息可以用独立的数据指示，也可以用合并的数据标识，例如配置数据中若包含多条这样的信息：“集群ID、AZ ID、计算机名、(未故障的)存储节点(或SQL节点)的ID”，那就即表示了配置信息，又表示了网络拓扑信息。

重新选择存储主节点的方式有多种，可以根据日志索引号或根据网络访问性能等因素，也可以结合多个因素，以提升存储集群在新配置下的性能。以上仅是两个示例。

基于第一方面，在一些实现方式中，重新选择出的存储主节点被配置为：向所述存储集群中当前的存储备节点(即未故障的存储备节点)发送集群配置变更日志的写入请求，所述集群配置变更日志包括此次集群配置变更中故障的存储节点的信息。这里这个“重新选择出的存储主节点”为此次故障发生后所述存储集群依据前面实施例中提到的那次选主请求和一致性复制协议选择出的新的存储主节点，其它未故障的存储节点即为存储备节点。

将记录集群配置变更的日志在存储集群内部保存起来，可以在后续存储集群恢复的时按照该日志进行存储集群的恢复。如果不考虑存储集群后续的恢复的话，这个步骤不是必须的。

在其他一些实现方式中，该集群配置变更日志的写入请求也可以由仲裁模块向所有未故障的存储节点发送，指示所有未故障的存储节点将该集群配置变更日志保存在本地。基于第一方面，在一些实现方式中，所述仲裁模块被配置为：获取本次故障后所有未故障的存储节点中的最新的日志索引号，若其中的最大值大于或等于上一次故障后所有未故障的存储节点中的最新的日志索引号的最大值，则确定所述条件B满足；和/或，

所述仲裁模块被配置为：若本次故障为所述集群的首次故障，则确定所述条件B满足。

基于第一方面，在一些实现方式中，所述配置库为分布式配置库，分布地部署在所述多个存储节点以及一个另外的节点上。

第二方面，本申请提供一种修改存储集群的配置的方法，该方法可以应用于采用一致性复制协议的存储集群中，所述存储集群包括多个存储节点、以及配置库。该方法包括：

在所述存储集群发生故障之后，若如下条件A和条件B满足，则修改所述配置库中存储的所述集群配置信息，并向未故障的存储节点发送强制集群配置变更指令，所述强制集群配置变更指令用于指示所述未故障的存储节点修改本地的集群配置信息。其中条件A：故障的存储节点的数量为未发生本次故障之前存储集群中所有存储节点的数量的一半；条件B：故障后的存储集群中存在至少一个存储节点，该存储节点上的最新的日志索引号大于或等于存储集群向客户端提供的已提交日志的索引号。所述配置库中存储所述存储集群的配置数据，所述配置数据包括集群配置信息，所述集群配置信息中包括存储集群中所有未故障的存储节点的信息。

在一些实现方式中，该方法可以由仲裁模块实现，该仲裁模块可以部署在存储节点上，也可以部署在其他类型的节点上，也可以自己独立部署成为一个独立的节点。

在一些实现方式中，以上所述的配置库可以是分布式配置库，分布地部署在多个存储节点上。进一步的，该配置库还可以在独立于存储节点的一个轻量级节点上部署。

在一些实现方式中，集群配置变更之后，存储集群可以选择新的存储主节点；进一步的，选择出新的存储主节点之后，仲裁模块或新的存储主节点可以向其他存储节点发送集群配置变更日志的写入请求，该写入请求中包含集群配置变更日志，该日志用来记录本次集群配置变更的相关信息，以用于后续集群恢复等操作。这些具体实现可参考与第一方面互相参考。

第三方面，本申请提供一种修改存储集群的配置的装置，该装置包括一个或多个模块，这个模块或这些模块用于实现前述方面提供的任意一种方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中包括计算机可读指令，所述计算机可读指令被处理器读取并执行时实现本申请任意实施例提供的方法。

第五方面，本申请提供一种计算机程序产品，所述计算机程序产品中包括计算机可读指令，所述计算机可读指令被处理器读取并执行时实现本申请任意实施例提供的方法。

第六方面，本申请提供一种计算机系统，包括处理器和存储器，所述存储器用于存储计算机指令，所述处理器用于读取所述计算机指令并实现本申请任意实施例提供的方法。

附图说明

为了更清楚地说明本申请提供的技术方案，下面将对附图作简单地介绍。显而易见地，下面描述的附图仅仅是本申请的一些实施例。

图1为一种存储集群的故障示意图；

图2为一种存储集群的逻辑组成示意图；

图3为一种集群配置变更方法的流程示意图；

图4为另一种存储集群的逻辑组成示意图；

图5为另一种集群配置变更方法的流程示意图；

图6为一种分布式数据库的部属示意图；

图7为基于图6的一种集群配置变更方法的交互示意图；

图8为存储节点上存储的日志索引号的示例；

图9为基于图6和图7的一种重新选择存储主节点的交互示意图；

图10为选择候选存储主节点时应用的有限有权图的示例。

具体实施方式

图2为本实施例提供的一种存储集群的示意图。图中示例性地示出了存储集群中的4个存储节点，其中包括1个存储主节点L和3个存储备节点F1-F3，各个存储节点里都包含存储模块，用于提供与数据存储相关的服务。另外，在该存储集群中还包括配置库100和仲裁模块。进一步的，仲裁模块可以包括主仲裁模块200和一个或多个备用仲裁模块200a。备用仲裁模块200a在主仲裁模块200可用的情况下不运行。

存储主节点L和存储备节点F1-Fn为采用一致性协议(例如Raft)的存储集群的节点。多个存储节点之间通过一致性协议维护同一份数据的多个副本(下文简称为数据副本)。

配置库100是一个在存储节点故障时，依然可以正常提供集群配置信息读取和存储服务的配置库。配置库100中存储有存储集群的配置数据，配置数据包括集群配置信息。其中，集群配置信息可以包括存储集群中每个存储节点的ID，进一步的还可以包括每个存储节点的ID与其已同步数据的进度(index)的一个映射(map)。

进一步的，配置数据还可以包括配置变更过程中的状态信息以及网络拓扑信息等。多个存储集群可以共享同一个配置库。配置库100具体可以是分布式配置库，配置库可以部署在一个或多个节点上，这个一个或多个节点中可以部分或全部是存储节点。

仲裁模块(200和200a)是一个无状态的仲裁角色。当存储节点发生故障时，由仲裁模块中的成员变更模块(210或210a)完成存储集群的配置变更过程。“无状态”的意思是仲裁模块本身不持久化存储集群配置信息、以及配置变更过程中的状态信息以及网络拓扑信息等(这些信息都持久化存储在配置库100中)。仲裁模块(200和200a)接收外部输入指令(或信息)，根据编程逻辑访问配置库获取需要的信息做出仲裁决定，或协调其它节点做出仲裁决定等。平时只有一个主仲裁模块200工作，主仲裁模块200发生故障以后，备用仲裁模块200a能够接替主仲裁模块200的工作。中间涉及主备切换，但因为无状态的特性，所以主备切换方便快捷。仲裁模块可以部署在独立的仲裁节点上，也可以部署在存储节点上。

图3为本实施例提供的存储集群配置变更方法的流程示意图。该方法在主仲裁模块200未故障的情况下由成员变更模块210执行。成员变更模块210在接收到故障信息或配置变更指令之后，判断故障的存储节点的数量是否小于半数，即(n+1)/2(S101)，如果是，则执行现有技术中的一致性集群配置变更流程(S106)；如果否，则判断是否满足配置降级条件(S102)。一致性集群配置变更流程可参考背景技术部分的描述，可能会涉及重新选择存储主节点的过程。

在一些实现方式下，故障信息可以由外部(如集群监控装置、或管理员)输入到配置库100中。主仲裁模块200自己监听到该故障信息(如故障的节点的ID或故障后存活的节点的ID)，或者集群监控装置、或管理员监控到故障信息之后通过管理客户端发送给主仲裁模块200。

在一些实现方式下，成员变更模块210可以将接收到的故障信息与原有的集群配置信息比较，判断故障节点的数量是否小于半数。在另一些实现方式下，故障信息里本身可以携带指示故障的存储节点是否小于半数的信息，例如两个AZ对称部署的情况下，接收到的故障信息指示其中一个AZ故障，那可以确定故障的存储节点不小于半数，而是恰好半数。

这里“配置降级”也可以理解为配置变更的一种。因为存储集群中存在存储节点故障，所以存储集群的节点总数变少了，也就是集群配置降低了，所以本申请中将这种配置变更称为“配置降级”。

成员变更模块210从配置库100中读取当前的集群配置信息，并判断是否满足配置降级条件(S102)。如果不满足配置降级条件，则返回错误或故障信息(S105)。如果满足配置降级条件，则继续执行配置降级。配置降级条件有以下A和B两个，若要执行配置降级必须都满足。

配置降级条件A：故障的存储节点的数量占故障前全部存储节点的半数，即(n+1)/2。该条件的判断可以和步骤S101融合在一起。故障的存储节点的数量可以从接收到的故障信息中获取，故障前全部存储节点的数量可以从配置库100中读取的集群配置信息中获取。

配置降级条件B：未故障的存储节点中至少存在一个存储节点，其最新的日志索引号大于或等于故障前存储集群对用户(或客户端)提供的已提交的日志索引号。也就是说，故障之后的存储集群还有能力向用户提供之前对用户承诺的服务，不能因为故障就降低服务要求。

日志代表了存储节点中的数据操作、文件操作、状态操作等一系列实际操作。日志通过递增的索引号来维护顺序。存储节点按日志的索引号的顺序执行日志，能构造出数据的实际内容。“提交”(committed)是存储集群对日志在大多数存储节点中已保存成功的一种响应。“已提交的日志”即已在大多数存储节点中保存成功的日志。任意一个存储节点都不会执行未提交的日志。每一次一致性数据复制过程都伴随着至少一个新的已提交日志的索引号。

具体的，成员变更模块210可以从配置库100中获取每个未故障的存储节点的标识(ID)，然后构建与每个未故障的存储节点的网络连接(或使用已有的网络连接)，之后获取它们的最新的日志索引号。

在其它一些实施例中，配置降级条件B的检查也可以由成员变更模块210发起，由各个存储节点独立完成后反馈到成员变更模块。

继续参考图3，若确定上述配置降级条件不满足，则返回错误/故障信息(S105)，表明集群配置无法修改，当前存储集群不能再继续提供一致性数据复制服务。若确定上述配置降级条件满足，则更新配置库100中存储的集群配置信息(S103)。

配置库100中的集群配置信息被更新之后，成员变更模块210强制未故障的存储节点实施集群配置变更(S104)。具体的，成员变更模块210向所有未故障的存储节点下发“强制成员变更”命令，该命令中包括需要删除的存储节点的ID(也就是故障的存储节点的ID)。未故障的存储节点收到“强制成员变更”命令后，在其内存或硬盘包括的集群配置信息中将故障节点的信息删除。各个存储节点的“强制成员变更”可以并行进行。

需要说明的是，存储主节点内存中的集群配置信息是为了要确认集群中一共有哪些存储节点(以及它们的数据同步进度)；存储备节点内存中的集群配置信息是为了以后它可能变为存储主节点。硬盘或磁盘中的集群配置信息是为了存储节点重启时，可以从硬盘中加载集群配置信息到内存中。

集群配置降级之后，如果故障前的存储集群中的存储主节点没有故障，那可以继续使用该存储主节点，存储集群继续提供一致性数据复制服务。但是，集群配置变化了，存储集群的网络拓扑可能发生变化，为了提高服务性能可以重新选择存储主节点。重新选择的存储主节点可能与原来一样。

图4为本申请另一实施例提供的一种存储集群的示意图。该存储集群中除图2所示的组件之外，仲裁模块内还包括选主模块220和220a。选主模块用于在集群配置变更之后重新选择存储主节点。图5为本实施例提供的存储集群配置变更方法的流程示意图。步骤S101-S104与前述实施例类似，可参考前述实施例的描述。如图5所示，在步骤S104之后，选主模块220促使存储集群重新选择存储主节点。重新选择存储主节点的策略有很多种，可根据当前存储集群的需求确定。重新选择存储主节点的过程也要满足一致性协议的要求，所以不可能仅由选主模块220实现，需要所有未故障的节点都参与。本申请将在下面的实施例中对重新选择主节点的过程做示例性地描述。

在其它一些实施例中，在重新选择出存储主节点后，数据落后的存储备节点可以(但非必须)从新的存储主节点同步日志，更新得到最新的数据副本。

在其它一些实施例中，重新选择出的存储主节点还可以向新的集群配置下的所有存储备节点发送一条集群配置变更日志的写入请求，日志内容包括此次集群配置变更中删除的节点，当得到大多数存储备节点接受并已保存该日志的响应后，该日志提交成功。提交该日志的目的是为了维护对存储集群的所有操作日志，顺序保存日志，以便在异常恢复(或重启)的过程中，可以通过按顺序执行日志以恢复存储集群的数据和状态。

通过上述实施例提供的方法，采用一致性协议的存储集群可以在半数节点故障的时后仍然能在保证服务能力的前提下提供数据复制服务，而不是像现有技术那样只要半数节点故障就完全不能提供数据复制服务了，从而提高了存储集群的可用性。

以上实施例概括性地描述了本申请提供的存储集群的逻辑组成以及其中执行的方法流程，下面一个实施例将以分布式数据库为例，详细介绍本申请提供的技术方案的一个实施例。本申请提出的存储集群部署在分布式数据库的存储层。

请参考图6，为本实施例提供的一种分布式数据库的部署示意图。分布式数据库存储层的存储集群在两个AZ(AZ100和AZ200)内对称部署。每个AZ内包含两个存储节点，共4个存储节点，其中包括1个存储主节点130，3个存储备节点140、230和240。分布式数据库计算层包括SQL节点，SQL节点分为SQL读写节点110和SQL只读节点120、210和220。SQL读写节点110与存储主节点130部署在同一AZ100内。SQL只读节点120部署在AZ100内，SQL只读节点210和SQL只读节点220部署在AZ200内。

另外，图6还包括客户端400和SQL代理500。该客户端400为处理用户或工程人员对这个分布式数据库执行管理操作的管理客户端。集群配置变更属于对这个数据库的管理操作之一。使用分布式数据库提供的数据服务的客户端可以和这个客户端400集成在一起，也可以单独另一个客户端，本申请不做限定。

SQL代理500用于接收客户端400发出的SQL请求，根据SQL请求的类型，以及计算层中每个SQL节点的负载情况，分发请求到计算层的SQL读写节点或其中某个SQL只读节点。SQL请求的类型包括读请求和写请求。SQL读写节点负责翻译SQL读请求和SQL写请求，SQL只读节点则只能翻译SQL读请求。翻译就是将SQL读请求或SQL写请求转换成数据库的数据操作、文件操作、状态操作等一系列实际操作，这些操作可以以日志的形式来表示。SQL节点再将这些日志发送给存储层的存储节点。存储节点主要用于存储数据库数据(包括日志、元数据、数据本身等)，并可以执行日志以对数据、元数据、文件等进行操作，并返回操作结果给SQL节点。

4个存储节点内分别部署有1个存储模块，其中存储主模块131部署在存储主节点130内，存储备模块141、231以及241分别部署在存储备节点140、230和240上。这里的存储模块是用于提供数据复制服务的存储模块，提供类似于现有技术的存储节点的功能。

本实施例中，4个存储节点内还分别部署有1个仲裁模块，其中主仲裁模块132部署在存储主节点130内，备仲裁模块142、232以及242分别部署在存储备节点140、230和240上。3个备仲裁模块正常情况下不工作，只有当主仲裁模块132故障或所在的存储主节点130故障之后，其中一个备仲裁模块才接替原有的主仲裁模块132的工作。主仲裁模块132切换到任意一个备仲裁模块涉及主备切换，可采用现有技术中的主备切换的方法，本申请在此不赘述。仲裁模块可以不支持存储持久化的集群配置信息。

在其他一些实施例中，仲裁模块可以部署在独立于存储节点的其他节点内。同样的，配置库也可以部署在其他节点内。

集群配置信息持久化存储在一个分布式配置库集群中，该配置库集群分布在3个AZ内，总共有5个配置库。如图所示，这5个配置库包括存储节点内部署的4个配置库133、143、233以及243，以及为了进一步提高配置库的可用性，在一个轻量级AZ300内部署的配置库333。配置库内存储的配置数据不仅可以有集群配置信息，还可以包括配置变更过程中的状态信息以及网络拓扑信息等。

图6中各个“配置库”可以理解为分布式配置库集群的一个运行时的配置库实例。分布式配置库集群由多个配置库实例构成，但对外(即对仲裁模块)体现为一个统一的服务。仲裁模块访问哪个配置库实例根据分布式配置库暴露给仲裁模块的接口确定，可能是本地节点内的配置库实例、或本地AZ内配置库实例，也可能是另外一个AZ内的配置库实例。从仲裁模块的角度，只有一个“配置库”。配置库实例之间通过一致性复制协议(例如Raft)进行配置数据的同步复制。分布式配置库集群可以在1个AZ发生故障的情况下，大多数(3个)配置库实例仍然正常工作，从而继续正常提供配置数据持久化和一致性数据复制服务。

在其他一些实施例中，在AZ100和AZ200内的配置库可以不部署在存储节点内部，而是部署单独的节点内。不同于存储节点的大量数据存储需求，部署配置库实例的节点可以是存储容量较小的轻量级节点。

在图6所示的分布式数据库的部署示例中，当发生AZ级故障，即整个AZ的节点全部故障的时候，本申请提供的方法可以快速恢复一致性数据复制服务。具体过程如图7所示。

当发生AZ级故障时，本实施例假设AZ100故障(存储主节点130及存储备节点140同时故障)，如上述，分布式配置库仍然正常提供配置数据读写服务，未故障的AZ200里的备仲裁模块232或242可以通过主备切换接替主仲裁模块132的工作。

S201：当客户端400确定存储集群中的存储节点或某个AZ发生故障之后，客户端400向仲裁模块232发送集群变化消息，该集群变化消息中包含故障的存储节点的节点ID或故障的AZ的标识，本实施例中故障的存储节点是130和140，故障的AZ是AZ100。

具体的，客户端400可以获取监控装置监控存储集群的状态，或作为监控系统的一部分监控存储集群的状态，从而获得存储集群的故障消息，确定存储集群故障。该故障消息中可以包含故障的存储节点的ID，也可以包括故障的AZ的标识，或两者都有。本实施例中，假设故障消息中包括的是故障的AZ100。之后，客户端400向仲裁模块232发送集群变化消息，该消息中携带故障的AZ100，以促使仲裁模块232发起集群配置变更检查。

S202：仲裁模块232判断是否满足配置降级条件。配置降级条件如前述实施例所述的A和B两个。

条件A具体的判断方式包括如下几种：

在一种实现方式下，如果已知两个AZ为对称部署，那么如果接收到的故障消息中携带故障的AZ100，则确定满足条件A。

在另一种实现方式下，从配置库中读取故障的AZ100中部署的存储节点以及当前存储集群所有存储节点，根据二者的个数确定是否满足条件A。

在其他实施例中，如果故障信息中包括故障的存储节点的ID130和140，则从配置库中读取当前存储集群所有存储节点，并根据两者个数值确定是否满足条件A。

也可以参考前述实施例，先判断故障的节点个数是否小于半数，若否再判断是否满足条件A；或者采用分支的形式，故障小于半数的时候执行原有Raft集群配置变更，等于半数的时候执行本申请提供的集群配置变更，大于半数的时候返回变更失败消息。

需要说明的是，配置库存储的配置数据的内容或形式不同，或收到的故障信息的内容或形式不同，都可能造成条件A具体的判断方式的差别，本申请不一一列举。

条件B具体的判断方式如下：

仲裁模块232读取配置库中的“存储集群上次最新索引号”(见步骤S209)，如果没有这个值，说明存储集群没有经过强制集群配置变更，条件B成立。如果存在这个值，说明存储集群至少经过一次集群配置变更，通过网络连接访问当前未故障的每个存储节点，读取它们的最新索引号，这些最新索引号中最大的索引号如果大于或等于“存储集群上次最新索引号”，则条件B成立，否则条件B不成立。

每个存储节点都会有一个最新索引号和已提交索引号。最新索引号是每个节点已保存的最新日志的索引号。存储主节点已提交索引号是存储主节点确定已保存到大多数节点的日志中的最大的索引号。存储主节点的已提交索引号通常(但非绝对)代表着存储集群向客户端或用户提供的已提交日志的索引号。存储备节点的已提交索引号是定期从存储主节点接收的，可能比存储主节点的已提交索引号滞后一点。在某些情况下，存储主节点的已提交索引号可能滞后于存储集群当前向客户端或用户提供的已提交日志的索引号，比如在半数存储节点故障后，故障的存储节点中包括存储主节点，通过本申请的方法从一个存储备节点中选择一个新的存储主节点，此时的存储主节点的已提交索引号还是它之前作为存储备节点的已提交索引号，可能滞后于存储集群当前向客户端或用户提供的已提交日志的索引号。

图8示出了本实施例当前4个存储节点内部的索引号情况。如图8所示，存储主节点索引号5对应的日志已经保存到3个(131、141以及231)存储节点中，占大多数，所以存储主节点已提交索引号为5。3个存储备节点140、230和240的已提交索引号都滞后于存储主节点的已提交索引号，分别为4、4和2。在存储集群中，大多数节点的最新索引号大于或等于存储集群的已提交索引号。假设，存储集群在本次故障前向用户或客户端400承诺的服务要达到索引号为5的日志提供的服务，故障后未故障的存储节点为230和240，其中230中最新索引号为5，因此满足条件B。

或者，假设本实施例中本次故障是首次故障，那么“存储集群上次最新索引号”为空，则确定条件B满足。容易理解的是，对于使用一致性协议的存储集群来说，由于大多数存储节点中存储了存储主节点的已提交索引号，所以首次半数存储节点故障之后，一定还存在至少一个存储节点，其最新的索引号大于或等于存储主节点的已提交索引号，而在首次故障之前存储主节点的已提交索引号就代表着存储集群向客户端或用户提供的已提交日志的索引号，也可以理解为是存储集群向客户端或用户承诺的数据服务质量的其中一个方面。

S203：确定配置降级条件成立之后，仲裁模块232向配置库写入故障后存储集群新的配置信息。该新的配置信息可以包括故障后每个存活节点的ID。

本申请对“配置信息”的格式不做具体限定，故障后如何修改配置信息可以根据实际情况确定。在一些实现方式中，存储集群的配置信息包括每个存储节点的信息，格式大概如下“集群ID、AZ ID、计算机名、存储节点(或SQL节点)的ID”，因此仲裁模块232向配置库写入(更新)故障后存储集群新的配置信息，其实是在把对应的故障的存储节点信息删除，就变成了新的集群配置信息。例如，之前收到的故障信息指示一个AZ故障，那就是把配置库中的所有对应该AZ的存储节点信息的删除。再例如，之前收到的故障信息指示多个存储节点故障，那该故障信息中可能包含存储节点的信息"集群ID、AZ ID、计算机名、存储节点的ID”，在配置库中把对应的存储节点中的信息删除即可。

S204：仲裁模块232发送一个异步请求到故障的存储节点130和140，要求它们停止服务。此异步服务可能被故障节点接收到，也可能不被故障节点接收到。该步骤S204和S205在其他一些实施例中不是必须的。

S205：存储节点130和140停止服务。

S206：仲裁模块232发送“强制成员变更”命令到未故障的存储节点(即存储备节点230和240)。该命令用于指示它们在内存及硬盘中删除故障的存储节点(存储节点130和存储节点140)的信息。本实施例中，仲裁模块232部署在存储备节点230上，所以强制成员变更命令实际上发送给存储模块231。

S207：未故障的存储备节点230和240修改存储在其内存及硬盘中集群配置信息，并停止接收来自故障的存储节点的消息，停止发送去往故障的存储节点的消息。

S208：未故障的存储备节点230和240向仲裁模块232返回“变更成功”响应，该响应中包含各自的日志的最新索引号，即为图8中的索引号5和索引号4。仲裁模块232部署在存储备节点230上，所以对于存储备节点230而言，是存储备模块231向仲裁模块232返回响应。

需要说明的是，变更成功的响应中的最新索引号理论上来说与之前配置降级条件检查时获取的最新索引号是一致的，所以如果之前仲裁模块232存储了之前获取的最新索引号，则这里的响应中并不需要包含最新索引号。

S209：当仲裁模块232得到所有未故障的存储节点的“变更成功”响应，把所有响应中最大的一个最新索引号(即索引号5)保存在分布式配置库中，标记为“存储集群上次最新索引号”。至此，存储集群的集群配置变更完成。

假设在步骤S209之后再发生一次故障，若故障的存储节点为230，那么仲裁模块232将会判断未故障的存储节点240的最新索引号4小于“存储集群上次最新索引号”即5，因此条件B不成立(当然条件A也成立)，不能再执行配置降级，存储集群将停止提供服务；若故障的存储节点为240，那么仲裁模块232将会判断未故障的存储节点230的最新索引号5等于“存储集群上次最新索引号”即5，因此条件B成立，将再次进行集群配置强制变更，存储集群仍然可以继续提供服务。

S210：仲裁模块232在新的集群配置下发起重新选择存储主节点。该步骤将在后面详细描述。

重新选择出的存储主节点可以按照Raft协议向存储集群请求提交一条存储集群配置变更日志，该日志中可以包含此次集群配置变更中删除的节点的ID，即存储节点130和140。

S211：仲裁模块232响应客户端，集群配置变更成功，系统恢复服务。

进一步的，仲裁模块232发起重新选择存储主节点的过程。

图9为重新选择存储主节点的过程。

S301：仲裁模块232向未故障的存储节点发送请求消息，用以获取未故障的存储节点230和240的最新索引号。

S302：存储节点230和240向仲裁模块232返回最新索引号，即图8中的索引号5和4。

S303：仲裁模块232选择最新索引号最大的存储节点作为候选存储主节点，即存储备节点230。

S304：仲裁模块232向候选存储主节点230发送一个选主请求，该请求包括候选存储主节点的数据副本(即日志)是否最新，以及不是最新的时候拥有最新数据副本的节点的ID。本实施例中由于上一步骤选择的就是索引号最大的存储备节点230，所以该请求中包含候选存储主节点的数据副本(即日志)是最新。

S305：存储备节点230接收到选主请求之后，确定自身数据副本(即日志)是否最新，如果不是最新，从拥有最新数据副本的节点中获取数据副本，把自己的数据副本更新到最新。在本实施例中，存储备节点230中存储的数据副本是最新的，

S306：存储备节点230根据当前集群配置(故障后已更改的集群配置)，通过Raft协议的选主方式，发起需要大多数节点积极响应的选举。此处为现有技术，本申请不赘述。

S307：当新的存储主节点(可能是存储备节点230，也可能不是)通过选举确立以后，其它存储备节点可以主动更新数据副本，具体的，通过与新的存储主节点同步数据日志更新到最新数据副本。存储备节点也可以不主动更新数据副本，等待下一次数据复制的时候，按照Raft协议的要求自动更新存储备节点的数据副本。

由于AZ100发生故障，所以唯一的SQL读写节点110也不可用了，分布式数据库需要重新指定210和220中的一个节点作为SQL读写节点，本实施例中可以由客户端400任意选择，或者通过某种编程算法(或随机、或根据预知的机器性能择优等等)选择。SQL节点的变化可以通过多种方法通知到SQL代理500，一种是SQL代理500监听配置库中关于SQL读写节点的变更事件，从而得知SQL读写节点变化(落地方案中)，另一种是SQL代理500定时检测各个SQL节点，也可以是仲裁模块232通知SQL代理500新的SQL读写节点的出现等，本申请不一一列举。

在其他实施例中，在步骤S303中，选择候选存储主节点的方法也可以替换为以下算法。

仲裁模块232从配置库中读取整个系统计算层与存储层间的网络拓扑数据，并根据该网络拓扑数据建立一个有向有权无环图，如图10所示，每个圆形都可以代表一个节点。然后计算这个图的最短路径。其中，此图的边的权值(W1-W6)可以由节点与节点间的网络通信速率和负载确定，并会根据系统运行过程中通信的反馈进行动态调整。最短路径计算方法可以采用dijkstra算法，计算结果例如包括下一跳节点的ID，以及该节点的IP地址和端口的映射。计算出的最短路径中的存储节点即为候选的存储主节点。由仲裁模块232IP地址和端口的映射与该存储节点通信，继续下一步骤的操作。另外，确定最短路径中的SQL节点，为SQL读写节点，其他SQL节点可以为SQL读节点。

需要说明的是，计算层的SQL节点和存储层的存储节点可以定时向配置库发送自身的拓扑信息，以使得配置库中总是保存有整个系统的网络拓扑数据。

现有技术均没有对存储集群成员变更后，在新的集群配置下，如何优化存储节点与计算层的网络性能提供解决方案。此选主过程对SQL读写节点和存储主节点的重新选取(通过数据副本最新规则或最优选主算法)，实现在新的集群配置下的计算层与存储层通信快速恢复。其中，最优选主算法根据网络通信速率和负载，对计算层与存储层间节点的拓扑网络进行动态调整权值，并计算最短路径，来实现计算层与存储层读写性能最优化。

本申请提供的集群配置变更方法除了可以用在分布式数据库的存储层，也可以用于其他采用一致性复制协议的存储集群，如分布式键值系统、分布式锁和分布式文件系统等。

需要说明的是，前述实施例中提出模块或单元的划分仅作为一种示例性的示出，所描述的各个模块的功能仅是举例说明，本申请并不以此为限。本领域普通技术人员可以根据需求合并其中两个或更多模块的功能，或者将一个模块的功能拆分从而获得更多更细粒度的模块，以及其他变形方式。

以上描述的各个实施例之间相同或相似的部分可相互参考。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一些具体实施方式，但本申请的保护范围并不局限于此。

Claims

一种存储集群，包括多个存储节点，其特征在于，还包括仲裁模块和配置库，其中：

所述配置库被配置为：存储所述存储集群的配置数据，所述配置数据包括集群配置信息，所述集群配置信息中包括存储集群中所有未故障的存储节点的信息；

所述仲裁模块被配置为：在存储集群发生故障之后，若如下条件A和条件B满足则修改所述配置库中存储的所述集群配置信息，并向未故障的存储节点发送强制集群配置变更指令，所述强制集群配置变更指令用于指示所述未故障的存储节点修改本地的集群配置信息；

条件A：故障的存储节点的数量为未发生本次故障之前存储集群中所有存储节点的数量的一半；

条件B：故障后的存储集群中存在至少一个存储节点，该存储节点上的最新的日志索引号大于或等于存储集群向客户端提供的已提交日志的索引号。
如权利要求1所述的存储集群，其特征在于，

所述仲裁模块还被配置为：在所述存储集群发生故障且执行强制集群配置变更之后，从未故障的存储节点中重新选择一个候选存储主节点，并向所述候选存储主节点发送选主请求，所述选主请求用于指示所述候选存储主节点发起选主过程。
如权利要求2所述的存储集群，其特征在于，

所述仲裁模块被配置为：选择所有未故障的存储节点中最新日志索引号最大的存储节点为所述候选存储主节点。
如权利要求2所述的存储集群，其特征在于，所述配置数据中还包括所述存储集群所部属的网络的网络拓扑信息；

所述仲裁模块被配置为：获取并根据所述网络拓扑信息构建客户端节点或代理节点到各个所述未故障的存储节点的有向有权图，其中节点之间的边的权值由节点与节点间的网络通信速率或负载确定，并计算所述有向有权图中的最短路径，确定位于所述最短路径上的存储节点为所述候选存储主节点。
如权利要求2-4任意一项所述的存储集群，其特征在于，

重新选择出的存储主节点被配置为：向所述存储集群中的存储备节点发送集群配置变更日志的写入请求，所述集群配置变更日志包括此次集群配置变更中故障的存储节点的信息，所述重新选择出的存储主节点为所述存储集群根据所述选主请求选择出的存储主节点。
如权利要求1-5任意一项所述的存储集群，其特征在于，

所述仲裁模块被配置为：获取本次故障后所有未故障的存储节点中的最新的日志索引号，若其中的最大值大于或等于上一次故障后所有未故障的存储节点中的最新的日志索引号的最大值，则确定所述条件B满足；和/或，

所述仲裁模块被配置为：若本次故障为所述集群的首次故障，则确定所述条件B满足。
如权利要求1-6任意一项所述的存储集群，其特征在于，所述配置库为分布式配置库，分布地部署在所述多个存储节点以及一个另外的节点上。
如权利要求1-7任意一项所述的存储集群，其特征在于，还包括备用仲裁模块，被配置为在所述仲裁模块故障之后，接替所述仲裁模块以实现所述仲裁模块的功能。
一种修改存储集群配置的方法，其特征在于，所述存储集群包括多个存储节点以及配置库，包括：

在所述存储集群发生故障之后，若如下条件A和条件B满足，则修改所述配置库中存储的集群配置信息，并向未故障的存储节点发送强制集群配置变更指令，所述强制集群配置变更指令用于指示所述未故障的存储节点修改本地的集群配置信息；

条件A：故障的存储节点的数量为未发生本次故障之前存储集群中所有存储节点的数量的一半；

条件B：故障后的存储集群中存在至少一个存储节点，该存储节点上的最新的日志索引号大于或等于存储集群向客户端提供的已提交日志的索引号；

其中，所述配置库中存储所述存储集群的配置数据，所述配置数据包括所述集群配置信息，所述集群配置信息中包括存储集群中所有未故障的存储节点的信息。
如权利要求9所述的方法，其特征在于，还包括：

在所述存储集群发生故障且执行所述强制集群配置变更之后，从未故障的存储节点中重新选择一个候选存储主节点，并向所述候选存储主节点发送选主请求，所述选主请求用于指示所述候选存储主节点发起选主过程。
如权利要求10所述的方法，其特征在于，

所述从未故障的存储节点中重新选择一个候选存储主节点，包括：

选择所有未故障的存储节点中最新日志索引号最大的存储节点为所述候选存储主节点。
如权利要求10所述的方法，其特征在于，所述配置数据中还包括所述存储集群所部属的网络的网络拓扑信息；

所述从未故障的存储节点中重新选择一个候选存储主节点，包括：

获取并根据所述网络拓扑信息构建客户端节点或代理节点到各个所述未故障的存储节点的有向有权图，其中节点之间的边的权值由节点与节点间的网络通信速率或负载确定，并计算所述有向有权图中的最短路径，确定位于所述最短路径上的存储节点为所述候选存储主节点。
如权利要求9-12任意一项所述的方法，其特征在于，所述方法还包括：

向所述存储集群中的存储备节点发送集群配置变更日志的写入请求，所述集群配置变更日志包括此次集群配置变更中故障的存储节点的信息，所述重新选择出的存储主节点为所述存储集群根据所述选主请求选择出的存储主节点。
如权利要求9-13任意一项所述的方法，其特征在于，判断条件B是否满足，包括：

获取本次故障后所有未故障的存储节点中的最新的日志索引号，若其中的最大值大于或等于上一次故障后所有未故障的存储节点中的最新的日志索引号的最大值，则确定所述条件B满足；和/或，

若本次故障为所述集群的首次故障，则确定所述条件B满足。
一种计算机系统，其特征在于，包括处理器和存储器，所述存储器用于存储计算机指令，所述处理器用于读取所述计算机指令并实现如权利要求9-14任意一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括计算机可读指令，所述计算机可读指令被处理器读取并执行时实现如权利要求9-14任意一项所述的方法。
一种计算机程序产品，其特征在于，所述计算机程序产品中包括计算机可读指令，所述计算机可读指令被处理器读取并执行时实现如权利要求9-14任意一项所述的方法。