WO2020143410A1

WO2020143410A1 - 数据存储方法及装置、电子设备、存储介质

Info

Publication number: WO2020143410A1
Application number: PCT/CN2019/125871
Authority: WO
Inventors: 石建伟; 王辉; 吴克柱; 时晖
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2019-01-10
Filing date: 2019-12-17
Publication date: 2020-07-16
Also published as: CN110049091A

Abstract

本说明书一个或多个实施例提供一种数据存储方法及装置、电子设备、存储介质，该方法应用于分布式键值对存储系统中的物理节点，可以包括：存储客户端发送的数据，所述物理节点由所述客户端基于一致性哈希算法对所述数据进行计算而确定出作为所述数据的主节点；确定用于存储所述数据的备用节点；向所述备用节点发送所述数据，以使所述备用节点存储所述数据。

Description

数据存储方法及装置、电子设备、存储介质

技术领域

本说明书一个或多个实施例涉及分布式存储技术领域，尤其涉及一种数据存储方法及装置、电子设备、存储介质。

背景技术

分布式键值对存储系统大多基于一致性哈希算法设计。通过一致性哈希算法可以保证数据尽可能均匀地分布在系统的物理节点上，并且在物理节点加入或退出系统时，可使得需要迁移的数据尽可能控制在最小必要范围内。

发明内容

有鉴于此，本说明书一个或多个实施例提供一种数据存储方法及装置、电子设备、存储介质。

为实现上述目的，本说明书一个或多个实施例提供技术方案如下：

根据本说明书一个或多个实施例的第一方面，提出了一种数据存储方法，应用于分布式键值对存储系统中的物理节点；所述方法包括：

存储客户端发送的数据，所述物理节点由所述客户端基于一致性哈希算法对所述数据进行计算而确定出作为所述数据的主节点；

确定用于存储所述数据的备用节点；

向所述备用节点发送所述数据，以使所述备用节点存储所述数据。

根据本说明书一个或多个实施例的第二方面，提出了一种数据存储方法，应用于分布式键值对存储系统中的物理节点；所述方法包括：

接收主节点发送的数据；所述数据由客户端发送至主节点，所述主节点由客户端基于一致性哈希算法对所述数据进行计算而确定出；

存储所述数据。

根据本说明书一个或多个实施例的第三方面，提出了一种数据存储方法，应用于分布式键值对存储系统中的客户端；所述方法包括：

基于一致性哈希算法对数据进行计算，以确定出所述分布式键值对存储系统中作为所述数据的主节点；

向所述主节点发送所述数据，以使所述主节点存储所述数据，以及确定出与自身相关联的备用节点并将所述数据发送至所述备用节点；

或者，确定出与所述主节点相关联的备用节点；

分别向所述主节点和所述备用节点发送所述数据，以使得所述主节点和所述备用节点存储所述数据。

根据本说明书一个或多个实施例的第四方面，提出了一种数据存储装置，应用于分布式键值对存储系统中的物理节点；所述装置包括：

存储单元，存储客户端发送的数据，所述物理节点由所述客户端基于一致性哈希算法对所述数据进行计算而确定出作为所述数据的主节点；

备用节点确定单元，确定用于存储所述数据的备用节点；

第一发送单元，向所述备用节点发送所述数据，以使所述备用节点存储所述数据。

根据本说明书一个或多个实施例的第五方面，提出了一种数据存储装置，应用于分布式键值对存储系统中的物理节点；所述装置包括：

第一接收单元，接收主节点发送的数据；所述数据由客户端发送至主节点，所述主节点由客户端基于一致性哈希算法对所述数据进行计算而确定出；

存储单元，存储所述数据。

根据本说明书一个或多个实施例的第六方面，提出了一种数据存储装置，应用于分布式键值对存储系统中的客户端；所述装置包括：

第一确定单元，基于一致性哈希算法对数据进行计算，以确定出所述分布式键值对存储系统中作为所述数据的主节点；

第一发送单元，向所述主节点发送所述数据，以使所述主节点存储所述数据，以及确定出与自身相关联的备用节点并将所述数据发送至所述备用节点；

或者，包括：第二确定单元，确定出与所述主节点相关联的备用节点；

第二发送单元，分别向所述主节点和所述备用节点发送所述数据，以使得所述主节点和所述备用节点存储所述数据。

根据本说明书一个或多个实施例的第七方面，提出了一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如上述第一方面所述的数据存储方法。

根据本说明书一个或多个实施例的第八方面，提出了一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如第一方面所述方法的步骤。

根据本说明书一个或多个实施例的第九方面，提出了一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如上述第二方面所述的数据存储方法。

根据本说明书一个或多个实施例的第十方面，提出了一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如第二方面所述方法的步骤。

根据本说明书一个或多个实施例的第十一方面，提出了一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如上述第三方面所述的数据存储方法。

根据本说明书一个或多个实施例的第十二方面，提出了一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如第三方面所述方法的步骤。

附图说明

图1是一示例性实施例提供的一种数据存储系统的架构示意图。

图2是一示例性实施例提供的一种数据存储方法的流程图。

图3是一示例性实施例提供的另一种数据存储方法的流程图。

图4是一示例性实施例提供的另一种数据存储方法的流程图。

图5是一示例性实施例提供的一种数据存储方法的交互图。

图6A-6C是一示例性实施例提供的环形哈希空间的示意图。

图7是一示例性实施例提供的在主节点未发生故障时的数据读取方法的交互图。

图8是一示例性实施例提供的在主节点发生故障时的数据读取方法的交互图。

图9是一示例性实施例提供的在主节点发生故障时环形哈希空间的示意图。

图10是一示例性实施例提供的一种设备的结构示意图。

图11是一示例性实施例提供的一种数据存储装置的框图。

图12是一示例性实施例提供的另一种设备的结构示意图。

图13是一示例性实施例提供的另一种数据存储装置的框图。

图14是一示例性实施例提供的另一种设备的结构示意图。

图15是一示例性实施例提供的另一种数据存储装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

图1是一示例性实施例提供的一种数据存储系统的架构示意图。如图1所示，该系统可以包括节点统计设备11、网络12、分布式键值对存储系统13和若干电子设备。其中，分布式键值对存储系统13可包括物理节点131、物理节点132和物理节点133 等；电子设备可包括PC14、PC15等。

节点统计设备11可以为包含一独立主机的物理服务器，或者可以为主机集群承载的虚拟服务器。在实施本说明书的数据存储方案的过程中，节点统计设备用于统计分布式键值对存储系统13包含的各个物理节点，从而各个物理节点以及与物理节点交互的电子设备可基于统计结果获取物理节点加入和退出分布式键值对存储系统的情况。

PC14-15只是用户可以使用的一种类型的电子设备。实际上，用户显然还可以使用诸如下述类型的电子设备：手机、平板设备、掌上电脑(PDAs，Personal Digital Assistants)、可穿戴设备(如智能眼镜、智能手表等)等，本说明书一个或多个实施例并不对此进行限制。在实施本说明书的数据存储方案的过程中，该电子设备可作为客户端与分布式键值对存储系统13中的物理节点进行交互，以将数据存储至物理节点中，以及向物理节点读取数据。

分布式键值对存储系统13通过多个物理节点提供“按照键写入值”和“按照键读取值”两种服务。其中，不同的键值对互相独立，不存在关联关系。在实施本说明书的数据存储方案的过程中，各个物理节点可存储客户端发送的数据，以及响应于客户端的读取请求，向客户端返回相应的数据。

而对于节点统计设备11、分布式键值对存储系统13和电子设备之间进行交互的网络12，可以包括多种类型的有线或无线网络。例如，该网络12可以包括因特网。当然，本说明书一个或多个实施例并不对此进行限制。同时，分布式键值对存储系统13中的各个物理节点之间也可以通过该网络12进行通讯交互。

请参见图2，图2是一示例性实施例提供的一种数据存储方法的流程图。如图2所示，该方法应用于分布式键值对存储系统中的物理节点(作为待存储数据的主节点)，可以包括以下步骤：

步骤202，存储客户端发送的数据，所述物理节点由所述客户端基于一致性哈希算法对所述数据进行计算而确定出作为所述数据的主节点。

在一实施例中，分布式键值对存储系统可基于一致性哈希算法设计，以使得所需存储的数据在物理节点间的分配尽可能均匀，以及在存在物理节点加入或退出系统的情况下尽可能少地迁移数据。进一步的，客户端在确定当前待存储的数据时，可利用一致性哈希算法计算对应于该数据的散列值，再按照预设方向在哈希取值空间中查找(例如，固定按照顺时针方向在环形哈希空间中查找)与该散列值距离最近的虚拟节点，从而将该虚拟节点对应的物理节点作为存储该数据的主节点。其中，哈希取值空间可由节点统计设备来维护。例如，节点统计设备可统计当前加入分布式键值对存储系统的所有物理节点，并基于一致性哈希算法将各个物理节点的虚拟节点尽可能均匀地映射到环形哈希空间(又称哈希环或哈希桶)中。那么，客户端和各个物理节点均可向节点统计设备获取该环形哈希空间，或者由节点统计设备主动发送至客户端和各个物理节点；换言之，客户端和物理节点侧均记录有相同的环形哈希空间。在确定出主节点后，客户端可向主节点发送待存储的数据，以使主节点存储该数据。

步骤204，确定用于存储所述数据的备用节点。

在一实施例中，除主节点存储客户端发送的数据之外，还可进一步从哈希取值空间中选取出预设数量的备用节点来存储该数据，以防止因主节点退出系统而导致该数据丢失。因此，主节点在接收到客户端发送的数据后，可同样基于该一致性哈希算法确定对应于该数据的散列值，并按照预设方向在哈希取值空间中查找(承接于上述举例，可固定按照顺时针方向在环形哈希空间中查找)距离该散列值最近的第一虚拟节点(承接于上述举例，实际上对应于第一虚拟节点的物理节点便是主节点)，并在该哈希取值空间中查找出距离第一虚拟节点最近的预设数量的第一备用虚拟节点，从而可将对应于第一备用虚拟节点的物理节点作为备用节点。其中，第一备用虚拟节点均属于区别于自身(即主节点)的各个不同物理节点；换言之，各个备用节点为相互不同的物理节点。

步骤206，向所述备用节点发送所述数据，以使所述备用节点存储所述数据。

在一实施例中，主节点在接收到客户端发送的数据后，可先存储该数据并在完成存储后向客户端返回回执以告知客户端存储成功，而针对向备用节点发送该数据的操作，可采用异步复制该数据的方式来实现将该数据备份至备用节点中，从而降低对响应客户端请求存储数据的速度的影响，即符合弱一致性的要求即可。

在一实施例中，基于将客户端请求存储的数据分别存储在主节点和备用节点中，当后续客户端请求读取该数据时，若主节点处于正常工作状态，则由主节点来响应读取数据的请求(备用节点无需响应)即可。其中，客户端在发送针对该数据的读取请求时，若主节点处于正常工作状态(即未退出分布式键值对存储系统)，则按照上述计算散列值的方式仍然可以定位到该主节点，即该主节点仍然可以接收到客户端发送的针对该数据的读取请求。同时，主节点在接收到读取请求后，可同样校验自身是否为该数据的主节点，并在基于一致性哈希算法确定出自身作为该数据的主节点时，向客户端返回该数据。当然，物理节点(无论是否为该数据的主节点)在接收到读取请求后，可无需执行上述校验的操作，直接向客户端返回相应的数据。

而当主节点退出分布式键值对存储系统时(例如主节点发生故障)，可平滑切换至备节点，由备用节点(同样存储有客户端请求读取的数据)来响应该读取数据的请求，从而可以避免在主节点处于非正常工作时客户端无法读取所需数据(即主节点上存储的数据)的情况。同时，在宏观上，不同的数据所对应的主节点和备用节点是不同的，因此各个物理节点的负载仍然可以达到均衡，不存在明显的主备差异。例如，客户端基于本地维护的系统中各个物理节点的状态(来自于节点统计设备)，可确定所请求读取的数据的主节点是否发生故障，以及在主节点发生故障时进一步确定出与主节点相关联的备用节点(即采用上述步骤204中确定备用节点的方式)，从而向备用节点发送读取请求以获取相应的数据。

在一实施例中，基于上述利用主节点和备用节点分别存储数据的机制，当分布式键值对存储系统中新加入其他物理节点时，针对任一数据，与之对应的主节点和备用节点也将随之发生变化。换言之，该新加入的其他物理节点，将作为部分数据的主节点，也将作为部分其他数据的备用节点。因此，需要将这些数据备份至新加入的其他物理节点中，以使得该其他物理节点在加入系统后可正常向客户端提供读取数据的服务。

以上述物理节点作为主节点所存储的数据为例，当其他物理节点加入分布式键值对存储系统，且该其他物理节点作为该数据的主节点或备用节点时，向该其他物理节点发送该数据以使该其他物理节点存储该数据。其中，可通过以下方式确定新加入的其他物理节点是否为该数据的主节点或者备用节点：基于一致性哈希算法(在实施本说明书的数据存储方案时，客户端和物理节点均采用同一一致性哈希算法)确定对应于该数据的散列值，当哈希取值空间中在预设方向上距离该散列值最近的第二虚拟节点属于该其他物理节点时，可判定该其他物理节点为该数据的主节点；当该其他物理节点的虚拟节点属于第二备用虚拟节点时，可判定该其他物理节点为该数据的备用节点。其中，第二备用虚拟节点为在哈希取值空间中距离第二虚拟节点最近的预设数量(即备用节点的数量)的虚拟节点，且第二备用虚拟节点均属于区别于该数据的主节点的其他不同物理节点。

进一步的，针对任一数据，与之对应的备用节点可能在分布式键值对存储系统中新加入其他物理节点后，不再作为该任一数据的备用节点；换言之，在此情况下该任一数据对于该备用节点来说为无需存储的冗余数据。因此，该备用节点可在该其他物理节点加入并备份完数据之后，将该任一数据删除以节省自身的存储空间。例如，各个物理节点可按照预设频率来删除冗余数据，或者在通过节点统计设备得知存在新的物理节点加入系统后来执行删除冗余数据的操作。其中，各个物理节点可利用上述计算散列值的方式来确定出自身是否仍然为所存储数据的备用节点，并将自身并非与之对应的备用节点的数据从本地删除。

在一实施例中，可将备用节点的数量设定为与分布式键值对存储系统的安全等级、存储空间、处理资源呈正相关。换言之，当分布式键值对存储系统的安全等级要求越高时，可配置数量相对较多的备用节点，从而防止数据丢失。

相应的，请参见图3，图3是一示例性实施例提供的另一种数据存储方法的流程图。如图3所示，该方法应用于分布式键值对存储系统中的物理节点(作为待存储数据的备用节点)，可以包括以下步骤：

步骤302，接收主节点发送的数据；所述数据由客户端发送至主节点，所述主节点由客户端基于一致性哈希算法对所述数据进行计算而确定出。

在一实施例中，除主节点存储客户端发送的数据之外，还可进一步选取出预设数量的备用节点来存储该数据，以防止因主节点退出系统而导致该数据丢失。因此，主节点在接收到客户端发送的数据后，可从分布式键值对存储系统中选取部分物理节点作为备用节点，并向备用节点发送自身存储的数据以使得备用节点存储该数据，从而实现对该数据的备份。其中，客户端确定主节点以及主节点确定出与自身相关联的备用节点的具体过程，可参考上述图2所示实施例的相应部分，在此不再赘述。

步骤304，存储所述数据。

在一实施例中，基于将客户端请求存储的数据分别存储在主节点和备用节点中，当后续客户端请求读取该数据时，若主节点处于正常工作状态，则由主节点来响应读取数据的请求(备用节点无需响应)即可；否则，可由备用节点(同样存储有客户端请求读取的数据)来响应该读取数据的请求，从而可以避免在主节点处于非正常工作时客户端无法读取所需数据(即主节点上存储的数据)的情况。同时，在宏观上，不同的数据所对应的主节点和备用节点是不同的，因此各个物理节点的负载仍然可以达到均衡，不存在明显的主备差异。

例如，客户端在确定出所请求读取的数据的主节点发生故障后，可进一步确定出与该主节点相关联的备用节点(即采用上述步骤204中确定备用节点的方式)，从而向备用节点发送读取请求以获取相应的数据。那么，备用节点可接收客户端发送的针对该数据的读取请求(即该读取请求由客户端在主节点退出分布式键值对存储系统时发送)，并向客户端返回该数据。

由于数据的主节点退出分布式键值对存储系统，备用节点可切换为该数据的主节点来响应客户端发送的读取请求。而在该备用节点切换为主节点后，自身作为主节点仍然存在退出分布式键值对存储系统的可能。因此，为了防止数据丢失，可进一步确定与自身相关联的备用节点，并向确定出的备用节点发送该数据，以使备用节点存储该数据。其中，该确定备用节点的过程，与上述图2所示主节点确定与自身相关联的备用节点的过程类似，在此不再赘述。

相应的，请参见图4，图4是一示例性实施例提供的另一种数据存储方法的流程图。如图4所示，该方法应用于分布式键值对存储系统中的客户端，可以包括以下步骤：

步骤402，基于一致性哈希算法对数据进行计算，以确定出所述分布式键值对存储系统中作为所述数据的主节点。

步骤404，向所述主节点发送所述数据，以使所述主节点存储所述数据，以及确定出与自身相关联的备用节点并将所述数据发送至所述备用节点。

步骤406，确定出与所述主节点相关联的备用节点。

步骤408，分别向所述主节点和所述备用节点发送所述数据，以使得所述主节点和所述备用节点存储所述数据。

在一种情况下，客户端可仅确定出待存储的数据的主节点，而与主节点相关联的备用节点由主节点自身来确定即可，同时该数据也由主节点发送至备用节点，从而可降低客户端的处理压力。在另一种情况下，客户端在确定出待存储的数据的主节点后，可进一步确定与主节点相关联的备用节点，并分别向主节点和备用节点发送该数据，从而降低主节点的压力(主节点无需执行确定备用节点和向备用节点发送数据的操作)。

为了便于理解，下面结合场景和附图对本说明书的数据存储方案进行详细说明。

请参见图5，图5是一示例性实施例提供的一种数据存储方法的交互图。如图5所示，该交互过程可以包括以下步骤：

步骤502，客户端计算对应于待存储的数据的散列值。

步骤504，确定存储该数据的主节点。

在一实施例中，可将哈希算法的取值空间首尾相接来形成环形哈希空间。进一步的，针对每个物理节点，计算相应的多个虚拟节点的散列值并映射到环形哈希空间。那么当需要读写数据时，可根据数据的键值计算散列值映射到环形哈希空间，再按照固定方向(比如顺时针方向)查找与该散列值距离最近的虚拟节点对应的物理节点，而该物理节点便是存储该数据的主节点。

举例而言，如图6A所示，环形哈希空间P的取值空间为0～2 ³²，虚拟节点包括B4、C3、A1、C1、A2、D2等。其中，虚拟节点A1、A2属于物理节点A，虚拟节点B4属于物理节点B，虚拟节点C1、C3属于物理节点C，虚拟节点D2属于物理节点D。假定对应于待存储的数据的散列值为K，散列值K在环形哈希空间P中的位置如图中箭头所示。以按照顺时针查找主节点为例，由图6A可知，距离散列值K最近的第一个虚拟节点为B4(即虚拟节点B4为第一虚拟节点)，那么与虚拟节点B4对应的物理节点B则可作为待存储的数据的主节点。

步骤506，客户端向确定出的主节点发送存储请求。

步骤508，主节点存储该待存储的数据。

步骤510，主节点向客户单返回存储成功的回执。

在一实施例中，主节点在接收到客户端发送的数据(包含于存储请求中)后，可先存储该数据并在完成存储后向客户端返回回执以告知客户端存储成功，而针对向备用节点发送该数据的操作，可采用异步复制该数据的方式来实现将该数据备份至备用节点中，从而降低对响应客户端请求存储数据的速度的影响，即符合弱一致性的要求即可。

步骤512，主节点确定与自身相关联的用于存储该数据的备用节点。

在一实施例中，可预先设定备用节点的数量。其中，备用节点的数量与分布式键值对存储系统的安全等级、存储空间、处理资源呈正相关。例如，分布式键值对存储系统的安全等级要求越高，则在存储数据时可配置越多的备用节点；分布式键值对存储系统中各物理节点的存储空间越大，则在存储数据时可配置越多的备用节点；分布式键值对存储系统中各物理节点的处理资源越多，则在存储数据时可配置越多的备用节点。

承接于上述举例，如图6A所示，假定在存储数据时设定2个备用节点，那么在环形哈希空间P中距离第一虚拟节点B4最近，且不属于物理节点B的2个互不相同的第一备用虚拟节点分别为C3和A1，从而可将物理节点C和物理节点A作为备用节点。

步骤514，主节点向确定出的备用节点发送数据。

在一实施例中，在一种情况下，客户端可仅确定出待存储的数据的主节点，而与主节点相关联的备用节点由主节点自身来确定即可，同时该数据也由主节点发送至备用节点(即上述步骤512-514)，从而可降低客户端的处理压力。在另一种情况下，客户端在确定出待存储的数据的主节点后，可进一步确定与主节点相关联的备用节点，并分别向主节点和备用节点发送该数据，从而降低主节点的压力(主节点无需执行确定备用节点和向备用节点发送数据的操作)。其中，客户端确定主节点和备用节点的过程，与上述由主节点来确定主节点和备用节点的过程相同，在此不再赘述。

步骤516，备用节点存储数据。

以图5所示实施例中物理节点B作为主节点所存储的数据(以下简称为目标数据)为例，如图6B所示，假定当物理节点E加入分布式键值对存储系统时，与物理节点E对应的虚拟节点E1在环形哈希空间P中的位置在散列值K与虚拟节点B4之间(即虚拟节点E1为环形哈希空间P中在顺时针方向上距离散列值K最近的第二虚拟节点)，那么此时针对目标数据的主节点则为新加入的物理节点E。进一步的，在物理节点E加入分布式键值对存储系统之前作为目标数据的主节点的物理节点B，需要将目标数据备份至物理节点E中。在备份完成后，后续客户端在需要读取目标数据时，便可根据散列值K定位出作为目标数据的主节点的物理节点E，从而向物理节点E发送读取请求以获取目标数据。例如，在备份完成后可告知节点统计设备，使得客户端可通过节点统计设备获取到物理节点E已备份完成的信息，那么后续客户端在需要读取目标数据时，便可基于加入物理节点E的虚拟节点后的环形哈希空间P来确定主节点。

如图6C所示，假定当物理节点E加入分布式键值对存储系统时，与物理节点E对应的虚拟节点E1在环形哈希空间P中的位置在虚拟节点C3与A1之间(即虚拟节点E1为在环形哈希空间中距离虚拟节点B4最近的2个第二备用虚拟节点中的其中一个，另外一个为虚拟节点C3)，那么此时针对目标数据的备用节点则为新加入的物理节点E和之前的物理节点C。进一步的，作为目标数据的主节点物理节点B需要将目标数据备份至物理节点E中，从而保证主节点始终有2个相关联的备用节点。

进一步的，针对任一数据，与之对应的备用节点可能在分布式键值对存储系统中新加入其他物理节点后，不再作为该任一数据的备用节点；换言之，在此情况下该任一数据对于该备用节点来说为无需存储的冗余数据。因此，该备用节点可在该其他物理节点加入并备份完数据之后，将该任一数据删除以节省自身的存储空间。例如，图6C所示的虚拟节点A1，在物理节点E加入后不再作为目标数据的备用节点，那么对应于虚拟节点A1的物理节点A可将目标数据删除。作为一示例性实施例，各个物理节点可按照预设频率来删除冗余数据，或者在通过节点统计设备得知存在新的物理节点加入系统后来执行删除冗余数据的操作。

由上述实施例可见，基于将客户端请求存储的数据分别存储在主节点和备用节点中，当后续客户端需要请求读取该数据时，若主节点处于正常工作状态，则由主节点来响应读取数据的请求(备用节点无需响应)即可；否则，可平滑切换至备节点以由备用节点(同样存储有客户端请求读取的数据)来响应该读取数据的请求，从而可以避免在主节点处于非正常工作时客户端无法读取所需数据(即主节点上存储的数据)的情况。同时，在宏观上，不同的数据所对应的主节点和备用节点是不同的，因此各个物理节点的负载仍然可以达到均衡，不存在明显的主备差异。下面结合图7-9对客户端请求读取数据的过程进行详细说明。

请参见图7，图7是一示例性实施例提供的在主节点未发生故障时的数据读取方法的交互图。如图7所示，该交互过程可以包括以下步骤：

步骤702，客户端计算对应于目标数据的散列值。

在一实施例中，以客户端向主节点请求读取上述图5中所存储的目标数据为例，对本说明书读取数据的过程进行详细说明。

步骤704，确定存储目标数据的主节点。

在一实施例中，当主节点未发生故障(即主节点未退出分布式键值对存储系统)时，客户端直接向主节点发送针对目标数据的读取请求即可。例如，在图6A中，若物理节点B未发生故障，则客户端按照上述步骤504的方式仍然可以确定出目标数据的主节点为物理节点B。

步骤706，向主节点发送针对目标数据的读取请求。

步骤708，主节点校验自身是否为目标数据的主节点或备用节点。

在一实施例中，物理节点在接收到读取请求后，可校验自身是否为相应数据的主节点或备用节点，并且只在自身为相应数据的主节点(校验过程与上述确定主节点和备用节点的过程类似)时，向客户单返回该相应数据。当然，物理节点在接收到读取请求后，也可以无需执行上述校验的操作，默认返回相应数据即可。而在本实施例中，物理节点B作为主节点并未发生故障，因此可直接返回目标数据。

步骤710，主节点读取目标数据。

步骤712，主节点向客户端返回目标数据。

请参见图8，图8是一示例性实施例提供的在主节点发生故障时的数据读取方法的交互图。如图8所示，该交互过程可以包括以下步骤：

步骤802，客户端计算对应于目标数据的散列值。

步骤804，确定存储目标数据的备用节点。

步骤806，向备用节点1发送针对目标数据的读取请求。

在一实施例中，当主节点发生故障(即主节点退出分布式键值对存储系统)时，客户端可切换为向备用节点发送针对目标数据的读取请求。

举例而言，如图9所示，当物理节点B发生故障时，与散列值K距离最近的虚拟节点为C3和A1，从而可确定出目标数据的备用节点包括物理节点C(备用节点1)和物理节点A(备用节点2)。例如，客户端可选取在物理节点B退出系统后距离散列值K最近的虚拟节点C3，从而向与虚拟节点为C3对应的物理节点C发送针对目标数据的读取请求。

步骤808，备用节点1校验自身是否为目标数据的主节点或备用节点。

步骤810，备用节点1切换为目标数据的主节点。

步骤812，备用节点1读取目标数据。

步骤814，备用节点1向客户端返回目标数据。

在一实施例中，物理节点在接收到读取请求后，可校验自身是否为相应数据的主节点或备用节点，并且只在自身为相应数据的主节点(校验过程与上述确定主节点和备用节点的过程类似)时，向客户单返回该相应数据。当然，物理节点在接收到读取请求后，也可以无需执行上述校验的操作，默认返回相应数据即可。

举例而言，如图9所示，物理节点C(备用节点1)在接收到针对目标数据的读取请求后，可确定出距离散列值K最近的是虚拟节点B4，而通过节点统计神可知与虚拟节点B4对应的物理节点B已经发生故障。同时，下一个距离散列值K最近的是虚拟节点C3，从而确定出自身为目标数据的备用节点，那么将自身切换为目标数据的主节点以响应客户端发送的读取请求。

步骤816，备用节点1向备用节点3发送目标数据。

步骤818，备用节点3存储目标数据。

在一实施例中，在备用节点1切换为主节点后，自身作为主节点仍然存在退出分布式键值对存储系统的可能。因此，为了防止数据丢失，可进一步确定与自身相关联的备用节点(与上述主节点接收到存储请求时确定备用节点的方式相同)，并向确定出的备用节点发送目标数据，以使该备用节点存储目标数据。换言之，作为任一数据的主节点，应始终保证存在预设数量的与自身相关联的备用节点。

举例而言，如图6A所示，在物理节点B发生故障之前，距离散列值K最近的3个分别属于不同物理节点的虚拟节点为B4、C3和A1；如图9所示，在物理节点B发生故障之后，距离散列值K最近的3个分别属于不同物理节点的虚拟节点为C3、A1和D2。可见，物理节点D在物理节点B发生故障之前，并非目标数据的备用节点，而在物理节点B发生故障之后作为目标数据的备用节点。因此，需将目标数据备份至物理节点D(即备用节点3)中。其中，由于读取请求仅由作为主节点的物理节点C来响应，物理节点C同样可以先响应读取请求，以降低对响应读取请求的速度的影响，然后再异步将目标数据备份至物理节点D中。

图10是一示例性实施例提供的一种设备的示意结构图。请参考图10，在硬件层面，该设备包括处理器1002、内部总线1004、网络接口1006、内存1008以及非易失性存储器1010，当然还可能包括其他业务所需要的硬件。处理器1002从非易失性存储器1010中读取对应的计算机程序到内存1008中然后运行，在逻辑层面上形成数据存储装置。当然，除了软件实现方式之外，本说明书一个或多个实施例并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

请参考图11，在软件实施方式中，该数据存储装置应用于分布式键值对存储系统中的物理节点，可以包括：

存储单元1101，存储客户端发送的数据，所述物理节点由所述客户端基于一致性哈希算法对所述数据进行计算而确定出作为所述数据的主节点；

备用节点确定单元1102，确定用于存储所述数据的备用节点；

第一发送单元1103，向所述备用节点发送所述数据，以使所述备用节点存储所述数据。

可选的，所述备用节点确定单元1102具体用于：

基于所述一致性哈希算法确定对应于所述数据的散列值；

按照预设方向在哈希取值空间中查找距离所述散列值最近的第一虚拟节点；

在所述哈希取值空间中查找出距离所述第一虚拟节点最近的预设数量的第一备用虚拟节点，所述第一备用虚拟节点均属于区别于自身的各个不同物理节点；

将对应于所述第一备用虚拟节点的物理节点作为所述备用节点。

可选的，还包括：

接收单元1104，接收所述客户端发送的针对所述数据的读取请求；

数据返回单元1105，当基于所述一致性哈希算法确定出自身作为所述数据的主节点时，向所述客户端返回所述数据。

可选的，还包括：

第二发送单元1106，当其他物理节点加入所述分布式键值对存储系统，且所述其他物理节点作为所述数据的主节点或备用节点时，向所述其他物理节点发送所述数据，以使所述其他物理节点存储所述数据。

可选的，还包括：

散列值确定单元1107，基于所述一致性哈希算法确定对应于所述数据的散列值；

第一判定单元1108，当哈希取值空间中在预设方向上距离所述散列值最近的第二虚拟节点属于所述其他物理节点时，判定所述其他物理节点为所述数据的主节点；

第二判定单元1109，当所述其他物理节点的虚拟节点属于第二备用虚拟节点时，判定所述其他物理节点为所述数据的备用节点，所述第二备用虚拟节点为在哈希取值空间中距离所述第二虚拟节点最近的预设数量的虚拟节点，且所述第二备用虚拟节点均属于区别于所述数据的主节点的其他不同物理节点。

可选的，所述备用节点的数量与所述分布式键值对存储系统的安全等级、存储空间、处理资源呈正相关。

图12是一示例性实施例提供的另一种设备的示意结构图。请参考图12，在硬件层面，该设备包括处理器1202、内部总线1204、网络接口1206、内存1208以及非易失性存储器1212，当然还可能包括其他业务所需要的硬件。处理器1202从非易失性存储器1212中读取对应的计算机程序到内存1208中然后运行，在逻辑层面上形成数据存储装置。当然，除了软件实现方式之外，本说明书一个或多个实施例并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

请参考图13，在软件实施方式中，该数据存储装置应用于分布式键值对存储系统中的物理节点，可以包括：

第一接收单元1301，接收主节点发送的数据；所述数据由客户端发送至主节点，所述主节点由客户端基于一致性哈希算法对所述数据进行计算而确定出；

存储单元1302，存储所述数据。

可选的，还包括：

第二接收单元1303，接收所述客户端发送的针对所述数据的读取请求，所述读取请求由所述客户端在所述主节点退出所述分布式键值对存储系统时发送；

返回单元1304，向所述客户端返回所述数据。

可选的，还包括：

切换单元1305，切换为所述数据的主节点；

确定单元1306，确定与自身相关联的备用节点；

发送单元1307，向所述备用节点发送所述数据，以使所述备用节点存储所述数据。

图14是一示例性实施例提供的另一种设备的示意结构图。请参考图14，在硬件层面，该设备包括处理器1402、内部总线1404、网络接口1406、内存1408以及非易失性存储器1414，当然还可能包括其他业务所需要的硬件。处理器1402从非易失性存储器1414中读取对应的计算机程序到内存1408中然后运行，在逻辑层面上形成数据存储装置。当然，除了软件实现方式之外，本说明书一个或多个实施例并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

请参考图15，在软件实施方式中，该数据存储装置应用于分布式键值对存储系统中的客户端，可以包括：

第一确定单元1501，基于一致性哈希算法对数据进行计算，以确定出所述分布式键值对存储系统中作为所述数据的主节点；

第一发送单元1502，向所述主节点发送所述数据，以使所述主节点存储所述数据，以及确定出与自身相关联的备用节点并将所述数据发送至所述备用节点；

或者，包括：第二确定单元1503，确定出与所述主节点相关联的备用节点；

第二发送单元1504，分别向所述主节点和所述备用节点发送所述数据，以使得所述主节点和所述备用节点存储所述数据。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

在一个典型的配置中，计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

一种数据存储方法，应用于分布式键值对存储系统中的物理节点；所述方法包括：

存储客户端发送的数据，所述物理节点由所述客户端基于一致性哈希算法对所述数据进行计算而确定出作为所述数据的主节点；

确定用于存储所述数据的备用节点；

向所述备用节点发送所述数据，以使所述备用节点存储所述数据。
根据权利要求1所述的方法，所述确定用于存储所述数据的备用节点，包括：

基于所述一致性哈希算法确定对应于所述数据的散列值；

按照预设方向在哈希取值空间中查找距离所述散列值最近的第一虚拟节点；

在所述哈希取值空间中查找出距离所述第一虚拟节点最近的预设数量的第一备用虚拟节点，所述第一备用虚拟节点均属于区别于自身的各个不同物理节点；

将对应于所述第一备用虚拟节点的物理节点作为所述备用节点。
根据权利要求1所述的方法，还包括：

接收所述客户端发送的针对所述数据的读取请求；

当基于所述一致性哈希算法确定出自身作为所述数据的主节点时，向所述客户端返回所述数据。
根据权利要求1所述的方法，还包括：

当其他物理节点加入所述分布式键值对存储系统，且所述其他物理节点作为所述数据的主节点或备用节点时，向所述其他物理节点发送所述数据，以使所述其他物理节点存储所述数据。
根据权利要求4所述的方法，还包括：

基于所述一致性哈希算法确定对应于所述数据的散列值；

当哈希取值空间中在预设方向上距离所述散列值最近的第二虚拟节点属于所述其他物理节点时，判定所述其他物理节点为所述数据的主节点；

当所述其他物理节点的虚拟节点属于第二备用虚拟节点时，判定所述其他物理节点为所述数据的备用节点，所述第二备用虚拟节点为在哈希取值空间中距离所述第二虚拟节点最近的预设数量的虚拟节点，且所述第二备用虚拟节点均属于区别于所述数据的主节点的其他不同物理节点。
根据权利要求1所述的方法，所述备用节点的数量与所述分布式键值对存储系统的安全等级、存储空间、处理资源呈正相关。
一种数据存储方法，应用于分布式键值对存储系统中的物理节点；所述方法包括：

接收主节点发送的数据；所述数据由客户端发送至主节点，所述主节点由客户端基于一致性哈希算法对所述数据进行计算而确定出；

存储所述数据。
根据权利要求7所述的方法，还包括：

接收所述客户端发送的针对所述数据的读取请求，所述读取请求由所述客户端在所述主节点退出所述分布式键值对存储系统时发送；

向所述客户端返回所述数据。
根据权利要求8所述的方法，还包括：

切换为所述数据的主节点；

确定与自身相关联的备用节点；

向所述备用节点发送所述数据，以使所述备用节点存储所述数据。
一种数据存储方法，应用于分布式键值对存储系统中的客户端；所述方法包括：

基于一致性哈希算法对数据进行计算，以确定出所述分布式键值对存储系统中作为所述数据的主节点；

向所述主节点发送所述数据，以使所述主节点存储所述数据，以及确定出与自身相关联的备用节点并将所述数据发送至所述备用节点；

或者，确定出与所述主节点相关联的备用节点；

分别向所述主节点和所述备用节点发送所述数据，以使得所述主节点和所述备用节点存储所述数据。
一种数据存储装置，应用于分布式键值对存储系统中的物理节点；所述装置包括：

存储单元，存储客户端发送的数据，所述物理节点由所述客户端基于一致性哈希算法对所述数据进行计算而确定出作为所述数据的主节点；

备用节点确定单元，确定用于存储所述数据的备用节点；

第一发送单元，向所述备用节点发送所述数据，以使所述备用节点存储所述数据。
根据权利要求11所述的装置，所述备用节点确定单元具体用于：

基于所述一致性哈希算法确定对应于所述数据的散列值；

按照预设方向在哈希取值空间中查找距离所述散列值最近的第一虚拟节点；

在所述哈希取值空间中查找出距离所述第一虚拟节点最近的预设数量的第一备用虚拟节点，所述第一备用虚拟节点均属于区别于自身的各个不同物理节点；

将对应于所述第一备用虚拟节点的物理节点作为所述备用节点。
根据权利要求11所述的装置，还包括：

接收单元，接收所述客户端发送的针对所述数据的读取请求；

数据返回单元，当基于所述一致性哈希算法确定出自身作为所述数据的主节点时，向所述客户端返回所述数据。
根据权利要求11所述的装置，还包括：

第二发送单元，当其他物理节点加入所述分布式键值对存储系统，且所述其他物理节点作为所述数据的主节点或备用节点时，向所述其他物理节点发送所述数据，以使所述其他物理节点存储所述数据。
根据权利要求14所述的装置，还包括：

散列值确定单元，基于所述一致性哈希算法确定对应于所述数据的散列值；

第一判定单元，当哈希取值空间中在预设方向上距离所述散列值最近的第二虚拟节点属于所述其他物理节点时，判定所述其他物理节点为所述数据的主节点；

第二判定单元，当所述其他物理节点的虚拟节点属于第二备用虚拟节点时，判定所述其他物理节点为所述数据的备用节点，所述第二备用虚拟节点为在哈希取值空间中距离所述第二虚拟节点最近的预设数量的虚拟节点，且所述第二备用虚拟节点均属于区别于所述数据的主节点的其他不同物理节点。
根据权利要求11所述的装置，所述备用节点的数量与所述分布式键值对存储系统的安全等级、存储空间、处理资源呈正相关。
一种数据存储装置，应用于分布式键值对存储系统中的物理节点；所述装置包括：

第一接收单元，接收主节点发送的数据；所述数据由客户端发送至主节点，所述主节点由客户端基于一致性哈希算法对所述数据进行计算而确定出；

存储单元，存储所述数据。
根据权利要求17所述的装置，还包括：

第二接收单元，接收所述客户端发送的针对所述数据的读取请求，所述读取请求由所述客户端在所述主节点退出所述分布式键值对存储系统时发送；

返回单元，向所述客户端返回所述数据。
根据权利要求18所述的装置，还包括：

切换单元，切换为所述数据的主节点；

确定单元，确定与自身相关联的备用节点；

发送单元，向所述备用节点发送所述数据，以使所述备用节点存储所述数据。
一种数据存储装置，应用于分布式键值对存储系统中的客户端；所述装置包括：

第一确定单元，基于一致性哈希算法对数据进行计算，以确定出所述分布式键值对存储系统中作为所述数据的主节点；

第一发送单元，向所述主节点发送所述数据，以使所述主节点存储所述数据，以及确定出与自身相关联的备用节点并将所述数据发送至所述备用节点；

或者，包括：第二确定单元，确定出与所述主节点相关联的备用节点；

第二发送单元，分别向所述主节点和所述备用节点发送所述数据，以使得所述主节点和所述备用节点存储所述数据。
一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如权利要求1-6中任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如权利要求1-6中任一项所述方法的步骤。
一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如权利要求7-9中任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如权利要求7-9中任一项所述方法的步骤。
一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如权利要求10所述的方法。
一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如权利要求10所述方法的步骤。