WO2024037104A1

WO2024037104A1 - 数据存储方法、子系统、分布式存储系统及存储介质

Info

Publication number: WO2024037104A1
Application number: PCT/CN2023/097138
Authority: WO
Inventors: 袁东平
Original assignee: 重庆紫光华山智安科技有限公司
Priority date: 2022-08-19
Filing date: 2023-05-30
Publication date: 2024-02-22
Also published as: CN115344211A

Abstract

本申请提供的数据存储方法、子系统、分布式存储系统及存储介质，方法包括：将主逻辑节点接收到的写操作日志同步给全部从逻辑节点；当确定主逻辑节点接收到日志同步失败的消息，确定消息对应的异常逻辑节点；其中，日志同步失败表征异常逻辑节点对应的目标物理存储节点上的数据缺失；基于预设纠删码、以及除异常逻辑节点和主逻辑节点以外的剩余从逻辑节点的数据日志，生成缺失数据；数据日志用于记录写入逻辑节点对应的物理存储节点上的数据；根据缺失数据，对目标物理存储节点进行数据恢复。本申请数据丢失检测与数据写入存在依赖关系，不需要服务节点去调度和恢复，避免了服务器宕机出现恢复数据丢失的问题，有效降低恢复流程复杂度。

Description

数据存储方法、子系统、分布式存储系统及存储介质

相关申请的交叉引用

本申请要求于2022年08月19日提交中国国家知识产权局的申请号为202211003028.1、名称为“数据存储方法、子系统、分布式存储系统及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据存储技术领域，具体而言，涉及一种数据存储方法、子系统、分布式存储系统及存储介质。

背景技术

为了避免数据在写入过程中出现错误，可以采用RS(N,M)纠删编码通过N份原始数据生成M份校验数据，当N+M份数据中任意M份数据丢失后可通过剩下N份数据重新生成，从而实现恢复数据的效果。

在已有的分布式存储系统中，服务器侧在数据写入失败后，需要上报到元数据服务器，由元数据服务器调度恢复数据，恢复操作实际上在数据存储节点侧执行，由此可见，现有技术因恢复数据是服务器侧上报到元数据服务器之后才能被系统感知，当服务器宕机后，容易出现恢复数据丢失，此时数据存储节点侧的数据不一致无法被立即感知到，期间再次出现异常将显著增加系统数据不一致或彻底损坏的风险。

发明内容

本申请的目的之一在于提供一种数据存储方法、子系统、分布式存储系统及存储介质，用以降低数据不一致或彻底损坏的风险和数据恢复的复杂度。

第一方面，本申请提供一种数据存储方法，应用于分布式存储系统中的数据存储子系统，所述数据存储子系统包括多个逻辑节点，每个逻辑节点对应一个物理存储节点；所述方法包括：将主逻辑节点接收到的写操作日志同步给全部从逻辑节点；其中，所述主逻辑节点为全部所述逻辑节点其中一个；所述从逻辑节点为除所述主逻辑节点以外的逻辑节点；当确定所述主逻辑节点接收到日志同步失败的消息，确定所述消息对应的异常逻辑节点；其中，所述日志同步失败表征所述异常逻辑节点对应的目标物理存储节点上的数据缺失；基于预设纠删码、以及除所述异常逻辑节点和所述主逻辑节点以外的剩余从逻辑节点的数据日志，生成缺失数据；所述数据日志用于记录写入所述逻辑节点对应的物理存储节点上的数据；根据所述缺失数据，对所述目标物理存储节点进行数据恢复。

第二方面，本申请提供一种数据存储子系统，所述数据存储子系统包括多个逻辑节点，每个逻辑节点对应一个物理存储节点，包括：同步模块，用于将主逻辑节点接收到的写操作日志同步给全部从逻辑节点；其中，所述主逻辑节点为全部所述逻辑节点其中一个；所述从逻辑节点为除所述主逻辑节点以外的逻辑节点；确定模块，用于当确定所述主逻辑节点接收到日志同步失败的消息，确定所述消息对应的异常逻辑节点；其中，所述日志同步失败表征所述异常逻辑节点对应的目标物理存储节点上的数据缺失；生成模块，用于基于预设纠删码、以及除所述异常逻辑节点和所述主逻辑节点以外的剩余从逻辑节点的数据日志，生成缺失数据；所述数据日志用于记录写入所述逻辑节点对应的物理存储节点上的数据；存储模块，用于根据所述缺失数据，对所述目标物理存储节点进行数据恢复。

第三方面，本申请提供一种分布式存储系统，所述分布式存储系统中包含数据存储子系统，所述数据存储子系统由多个逻辑节点构成，每个逻辑节点对应一个物理存储节点，所述数据存储子系统用于执行如第一方面所述的数据存储方法。

第四方面，本申请提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的数据存储方法。

本申请提供的数据存储方法、子系统、分布式存储系统及存储介质，包括：主逻辑节点接收到写操作日志之后，将写操作日志同步给从逻辑节点，当接收到从逻辑节点反馈的日志同步失败的消息之后，表明反馈该消息的异常逻辑节点对应的物理存储节点上的数据缺失，此时可以基于预设纠删码、以及除异常逻辑节点和主逻辑节点以外的剩余从逻辑节点的数据日志，生成缺失数据，并基于该缺失数据，对异常逻辑节点对应的物理存储节点进行数据恢复，本申请提供的数据存储子系统可以监测是否存在数据缺失的物理存储节点，一旦存在可以基于其他从逻辑节点上的记录的数据生成缺失数据，然后对存在数据缺失的物理存储节点进行恢复，整个过程使异常检测与数据写入存在依赖关系，不需要服务节点去调度和恢复，避免了服务器宕机出现恢复数据丢失的问题，有效降低恢复流程复杂度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为现有的一种数据存储方法的示例图；

图2为本申请实施例提供的分布式存储系统的系统结构图；

图3为本申请实施例提供的数据存储子系统的结构示意图；

图4为本申请实施例提供的数据存储方法的示意性流程图；

图5为本申请实施例中提供的数据存储的一种场景示意图；

图6为本申请实施例提供的另一种数据存储方法的示意性流程图；

图7为本申请实施例中提供的数据存储的另一种场景示意图；

图8为本申请实施例提供的数据存储子系统的功能模块图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，需要说明的是，若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该申请产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在不冲突的情况下，本申请的实施例中的特征可以相互结合。

下面先对本申请实施例中涉及的相关术语进行解释。

RS(N,M)纠删码：通过N份原始数据生成M份校验数据，当N+M份数据中任意M份数据丢失后可通过剩下N份数据重新生成。

RAFT一致性算法：一种通过主节点复制日志到从节点的分布式强一致性问题解决方案，该算法将系统视作一个状态机，将对状态机的操作视为一条日志，根据主从系统从相同的初始状态执行相同的操作得到相同目标状态来保证一致性。算法内部维护一个日志序列，通过主节点选择、同步复制来保证日志正确有序的复制到各个备份。

请参见图1，图1为现有的一种数据存储方法的示例图，如图1所示，在现有的数据存储方式中，数据节点需要同时存储条带的数据和版本号，服务侧一次写入将产生两次输入和两次输出，划分条带后由客户端写入到服务侧的数据需要对齐到条带大小写入，进行数据对齐需要产生两次额外的读请求，分别是读取版本号与读取数据，在未命中缓存时将显著增加写操作时延。

例如，将数据划分为4KB大小的条带，每一个4KB条带对应一个8Byte版本号，每64MB数据需要额外存储128KB的版本号，服务节点一次写入需要同时更新版本号与数据内容，此时将产生两次输入和两次输出，这两次输入和两次输出写入不同位置，额外增加了寻道的开销，划分条带后写入到数据节点的数据需要对齐到条带大小写入，即写入数据节点的数据偏移与长度需要对齐到4KB大小，写入到SDK的数据需要对齐到4KB*N大小。

当由客户端写入到服务侧的数据不能对齐到4KB*N大小时需要先从DN侧读取4KB*(N+M)大小的数据进行覆盖后再次写入数据节点，极端情况下写入服务侧的数据首尾均需要做一次对齐操作，此时一次服务侧的写入将产生2*(N+M)*2次读与(N+M)*2次写入操作，在未命中缓存时将显著增加写操作时延，顺序写场景下命中缓存能够消除一半的读操作时延，此时SDK侧写时延为MAX(N+M)(读版本号)+MAX(N+M)(读数据)+MAX(N+M)(写数据)+MAX(N+M)(提交数据)，现有系统使用了NVM进行写加速，MAX(N+M)(写数据)+MAX(N+M)(提交数据)部分时延主要受网络影响，一般情况下要远小于MAX(N+M)(读版本号)+MAX(N+M)(读数据)，写入数据跨越了两个条带组，首尾条带均需要被读到SDK之后才能计算纠删数据。

另一方面，服务节点在检测到数据存储失败后，需要上报数据恢复请求到元数据服务器，由元数据服务器进行调度并生成缺失数据，数据恢复操作实际上在数据节点侧执行，此时数据节点侧将同时收到需要会发的数据以及来自服务节点的待写入数据，提高系统复杂度，而且，由于数据恢复请求是由服务节点上报的，一旦服务节点宕机，则可能导致数据恢复请求丢失，需要通过后台扫描发现不一致数据，后台扫描周期较长，期间再次出现异常将显著增加系统数据不一致或彻底损坏的风险。

为了解决上述问题，本申请实施例提供的一种改进的分布式存储系统，请参见图2，图2为本申请实施例提供的分布式存储系统的系统结构图，其中包括客户端201、服务节点202、数据节点203(DN)、以及基于RAFT一致性算法的数据存储子系统205，客户端201、服务节点202和数据节点203之间通信连接，上述分布式存储系统中还可以包括元数据服务器(MS)(此处省略)。

服务节点202实质可以为服务器，或者为SDK，客户端201和服务节点202之间可以但不限于通过iscsi协议进行数据交互，服务节点202和数据节点203之间可以建立RPC连接，设置RPC通信超时为5秒钟。

数据存储子系统205，用于接管写数据业务、数据恢复，通过强一致性算法配合数据恢复保证写入到数据节点103侧的数据一致性。

数据存储子系统205与块存储纠删对象(OBJ)进行绑定，当OBJ需要进行数据写、数据恢复时，可以预先创建数据存储子系统205，保证OBJ数据的一致性，当数据存储子系统205的空闲时长达到预设时长，可以启动对数据存储子系统205的销毁。

本申请实施例提供的数据存储子系统205在写入数据的过程中，可以移除数据节点侧的条带与版本号，此时数据节点侧可以接收任意偏移与粒度的写入，将数据对齐的操作延后到NVM下盘时执行并消除数据节点侧写版本号的开销。

例如，假设块存储通过iscsi协议对外提供服务时，最小写入粒度为512Byte，此时选取合适的N值(2,4,8,16等)使512％N＝＝0并设置条带大小为512/N，可使服务侧写入的数据被均分到N+M个数据节点，此时服务侧可直接将数据到数据节点，不需要从数据节点侧读取数据进行条带组对齐，写入时延为MAX(N+M)(写数据)+MAX(N+M)(同步操作日志)，以8+2纠删比为例，旧系统设置条带大小为64Byte时可消除条带对齐的读操作，但此时会大幅提升版本号数量，此时没64Byte数据需要8Byte版本号，空间利用率为64/(64+8)＝88.9％,本方案消除条带版本号之后可任意设置条带大小，无版本号空间占用。

请参见图3，图3为本申请实施例提供的数据存储子系统的结构示意图,数据存储子系统205是由算法核心、逻辑节点、操作日志、数据日志构成，使用LUN ID+OBJ ID作为数据存储子系统205的标识，例如假设LUN ID为1，OBJ ID为0，那么数据存储子系统的标识可以表示为r-1-0。

算法核心为RAFT算法，有选主与日志复制两部分组成，从逻辑节点在没有收到主逻辑节点保活时发起选主流程，在原有算法中选举节点收到过半投票后成为主逻辑节点，但在本申请实施例中，需要与数据日志一一映射，因此，只有在收到大于或等于N份投票时才能成为主逻辑节点，其中N为待写入数据划分后的原始数据的总份数。

逻辑节点，是数据节点基于元数据服务器或服务节点的请求创建的虚拟节点，根据序号位于对应数据块所在物理节点上，每个逻辑节点的标识可以基于数据存储子系统的标识和对应的数据节点的标识进行标识，例如，针对数据节点DN-1上的逻辑节点，可以表示为r-1-0-1,其中，r-1-0为数据存储子系统的标识、1为数据节点DN-1的标识。每个逻辑节点包含数据存储子系统205所有逻辑节点信息，主要有每个逻辑节点的状态、所在物理节点的标识。每个逻辑节点由操作日志和数据日志构成，存储在数据节点203的事务日志中。

操作日志，分为写操作日志和全量数据恢复日志，写操作日志包含OBJ内偏移(即数据写入起始位置)、数据长度与事务ID；全量数据恢复日志记录启动与结束两种状态。

数据日志，记录此次写入分发到当前数据节点的数据，由服务节点写入到数据节点的事务日志中，通过写操作日志控制写入数据存储，写操作日志写入到数据节点时将进一次检测，用于识别数据日志丢失并进行修复。日志ID小于等于RAFT提交ID的日志将被应用到存储。

可以理解的是，本申请实施例提供的数据存储子系统是分别式存储系统中的一个虚拟子系统，是与现有的分布式存储系统最主要的区别，数据存储子系统是由RAFT算法、以及各个逻辑节点构成，每个逻辑节点用于维护操作日志和数据日志，通过数据日志可以维护当前要写入的数据，避免因数据节点故障而遭成数据无法恢复的影响，当存在数据写入请求的时候，可以请求创建数据存储子系统，并由数据存储子系统来完成数据写入、数据恢复等功能，这样一来，就可以避免通过服务器来上报数据写入或者数据恢复等请求，可以避免服务器宕机所带来的不好的影响，同时，当不存在数据写入请求，还可以删除数据存储子系统，避免占用额外资源。

基于数据存储子系统205，本申请实施例提供了一种数据存储方法，请参见图4,图4为本申请实施例提供的数据存储方法的示意性流程图，该方法可以包括：

S401，将主逻辑节点接收到的写操作日志同步给全部从逻辑节点。

其中，主逻辑节点为全部逻辑节点其中一个；从逻辑节点为除主逻辑节点以外的逻辑节点。

S402，当确定主逻辑节点接收到日志同步失败的消息，确定消息对应的异常逻辑节点；

其中，日志同步失败表征异常逻辑节点对应的目标物理存储节点上的数据缺失；

S403，基于预设纠删码、以及除异常逻辑节点和主逻辑节点以外的剩余从逻辑节点的数据日志，生成缺失数据；

数据日志用于记录写入逻辑节点对应的物理存储节点上的数据；

S404，根据缺失数据，对目标物理存储节点进行数据恢复。

根据本申请实施例提供的数据存储方法，主逻辑节点接收到写操作日志之后，将写操作日志同步给从逻辑节点，当接收到从逻辑节点反馈的日志同步失败的消息之后，表明反馈该消息的异常逻辑节点对应的物理存储节点上的数据缺失，此时可以基于预设纠删码、以及除异常逻辑节点和主逻辑节点以外的剩余从逻辑节点的数据日志，生成缺失数据，并基于该缺失数据，对异常逻辑节点对应的物理存储节点进行数据恢复，本申请提供的数据存储子系统可以监测是否存在数据缺失的物理存储节点，一旦存在可以基于其他从逻辑节点上的记录的数据生成缺失数据，然后对存在数据缺失的物理存储节点进行恢复，整个过程使异常检测与数据写入存在依赖关系，不需要服务节点去调度和恢复，避免了服务器宕机出现恢复数据丢失的问题，有效降低恢复流程复杂度。

下面结合附图4至附图7，对上述步骤S401至步骤S404进行详细介绍。

在步骤S401中、将主逻辑节点接收到的写操作日志同步给全部从逻辑节点。

在本申请实施例中，上述写操作日志是在服务节点将待写入数据分发给多个物理存储节点之后，生成的操作日志，即在可选的实施方式中，生成操作日志的方式如下：

a1，根据服务节点将接收到的待写入数据，得到原始数据和校验数据。

在本申请实施例中，按照预设纠删码对待写入数据进行划分，例如假设预设纠删码为 R(N,M)，其中N为原始数据的总份数，M为校验数据的总份数，对数据切片进行纠删计算，将原始数据根据大小切分成N份原始数据，并通过纠删编码生成M份校验数据，每份数据对应的偏移与数据长度均为待写入数据的数据长度的1/N。

a2，将服务节点生成的事务ID，以及原始数据和校验数据分发给多个物理存储节点，以使每个物理存储节点将接收到的事务ID，以及原始数据或校验数据写入事务日志。

本申请实施例中的物理存储节点即为图2所示的数据节点，也就是说，在生成操作日志之前，先由服务节点先将原始数据和校验数据连同事务ID一同发送给物理存储节点，每个物理存储节点接收到原始数据或者校验数据之后，将事务ID以及原始数据和校验数据写入自身维护的事务日志中。

在本申请实施例中，事务ID可以基于数据存储子系统中已有事务日志最大值+1作为初始值，服务节点每次使用时+1，添加LUNID-OBJID作为全局唯一值。

在本申请实施例中，可以预先由服务节点基于N+M份数据，确定接收原始数据和检验数据以及事务ID的N+M个物理存储节点，即在可选的实施方式中，服务节点可以先向元数据服务器发送数据存储子系统的查询信息，元数据服务器接收到查询信息之后，查询已经创建的OBJ信息,即确定该OBJ所包含的N+M个数据块(BLK)各自所在的物理存储节点，作为这N+M个物理存储节点。

在上述确定N+M个物理存储节点的过程中，还可以确定每个物理存储节点中是否创建有逻辑节点，若没有则可以向物理存储节点发送创建请求，以使物理存储节点创建逻辑节点，若有则可以不进行创建。

a3，确定服务节点接收到的数据发送成功消息的个数是否大于或等于原始数据的总份数。

在本申请实施例中，物理存储节点在接收到原始数据或者校验数据以及事务ID之后，可以向服务节点反馈数据发送成功消息或者数据发送失败消息。服务节点可以根据返回的结果进行判断，数据发送成功消息的数量大于或等于N时，则生成写操作日志并向主逻辑节点发送写操作日志，否则向物理存储节点发送回滚消息。

a4，若是，则通过服务节点生成写操作日志。

本申请实施例中的写操作日志，一方面，可以指示从逻辑节点确认是否存在待写入数据，另一方面，还可以应用操作日志，将待写入数据写入到物理存储节点的数据存储中。

在本申请实施例中，写操作日志包含事物ID，主逻辑节点接收到写操作日志之后，可以将写操作日志写入主逻辑节点对应的物理存储节点的事务日志中，然后发起写操作日志同步。

在本申请实施例中，通过同步写操作日志，将原有2PC写入模式调整为写数据+同步操作日志，通过同步操作日志替换提交数据版本号，避免同步数据内容增加网络压力。

还可以看出，本申请实施例在进行日志同步之前，先由服务节点将数据分发给物理存储节点，然后在日志同步的过程中可以进行数据丢失异常检测，也就是说，本申请实施可以使异常检测与数据写入具有依赖关系，而不需要由服务节点去检测异常并上报，减小了因服务节点宕机所造成的数据缺失损失。

为了方便理解上述内容，请参见图5，图5为本申请实施例中提供的数据存储的一种场景示意图。

如图5所示，假设将存储空间划分为64M大小BLK，使用4+2纠删比，每一个OJB大小为256MB，客户端可以先基于LUN＝1，通过SDK向MS查询OBJ信息，确定OBJ的标识为0，需要将待写入数据存储到数据节点DN-0至DN-5这六个数据节点上，创建的数据存储子系统为r-1-0,包括r-1-0-0至r-1-0-5这六个逻辑节点，每个逻辑节点对应一个数据节点。

客户端将待写入数据的数据信息发送个SDK侧之后，SDK可以将待写入数据划分成4份，并生成2份校验数据，其中，待写入数据的数据信息包括待写入数据的数据长度为512，数据的起始写入位置offset为512，那么每份数据的数据长度为128，起始写入位置为128。SDK首先生成事务ID(即id＝1)，然后将事务ID以及6份数据分发到DN-0至DN-5上，每个数据节点收到数据和事务ID之后，可以写入事务日志中，SDK在收到的返回结果成功的数量大于或等于4之后，可以基于事务ID、数据的起始写入位置(offset＝512)以及数据长度(即Length＝512)等信息生成写操作日志，日志ID为log＝2,并将生成的操作日志发送给r-1-0-0至r-1-0-5中的主逻辑节点，并由主逻辑节点同步给从逻辑节点。

还可以理解的是，针对每个数据节点，当逻辑节点应用写操作日志之后，即可将获得的数据写入数据存储，例如，以数据节点DN-0为例，将获得的数据写入标识为1-0-0的数据块中，数据起始写入位置offset＝128。

在步骤S402中、当确定主逻辑节点接收到日志同步失败的消息，确定消息对应的异常逻辑节点。

在本申请实施例中，当从逻辑节点接收到写操作日志后，可以根据写操作日志中的事务ID查询所对应的物理存储节点事务日志，成功查询到事物日志则返回同步成功消息，没有查询到则返回同步失败消息。因此，在一种可选的实施方式中，从逻辑节点接收到日志同步请求之后可以执行如下步骤：

b1,确定从逻辑节点所对应的物理存储节点是否存在写操作日志中的事务ID；

b2,若不存在事务ID，则通过从逻辑节点向主逻辑节点反馈日志同步失败的消息；

b3,若存在事务ID，则通过从逻辑节点向主逻辑节点反馈日志同步成功的消息。

为了方便理解，请继续参见图5，以DN-0为例，DN-0在接收到事务ID(即id＝1)以及原始数据或者校验数据之后，将事务ID(即id＝1)写进事务日志中，DN-1对应的逻辑节点r-1-0-0收到同步过来的写操作日志中，可以根据写操作日志中的事务ID(即id＝1)查询DN-0中是否存在该事务ID，若存在，则说明DN-0中已经存在要写入的原始数据或者校验数据，若不存在，则说明DN-0数据缺失。

针对写操作日志同步成功的从逻辑节点，可以根据写操作日志中的事务ID应用写操作日志，以使该从逻辑节点所在的物理存储节点将该事务ID对应的事务日志中的原始数据或者校验数据写入数据存储。

针对写操作日志同步失败的从逻辑节点，主逻辑节点在接收到同步失败消息之后，将该消息对应的逻辑节点确定为异常逻辑节点，然后可以执行步骤S403和步骤S404实现数据恢复。

在步骤S403中、基于预设纠删码、以及除异常逻辑节点和主逻辑节点以外的剩余从逻辑节点的数据日志，生成缺失数据；数据日志用于记录写入逻辑节点对应的物理存储节点上的数据。

在本申请实施例中，每个逻辑节点对应的数据日志用来记录要写入物理存储节点内的原始数据或者校验数据，当异常逻辑节点所在的物理存储节点出现数据缺失，则可以获取其他逻辑节点数据日志中的原始数据或者校验数据，通过预设纠删码，生成缺失数据。

在步骤S404中、根据缺失数据，对目标物理存储节点进行数据恢复。

在本申请实施例中，主逻辑节点生成缺失数据，将缺失数据发送到目标物理存储节点、以使目标物理存储节点将该缺失数据写入事务日志，然后对异常逻辑节点重新同步写操作日志。

在可选的实施方式中，为了确定待写入数据写入成功还是写入失败，本申请实施例还给出了如下步骤c1至步骤c3的实施方式：

c1判断主逻辑节点收到的日志同步成功的消息数量是否大于或等于待写入数据划分后的原始数据的总份数；

c2，若是，则通过主逻辑节点向服务节点反馈数据写入成功的消息；

c3，若否，则通过主逻辑节点将操作日志丢弃，并向服务节点反馈数据写入失败的消息。

在本申请实施例中，服务节点还可以将接收到的写入结果反馈给客户端，已及时通知用户数据写入状态。

在可选的实施方式中，由于数据存储子系统中存在多个逻辑节点，为了确定主逻辑节点和从逻辑节点，本申请实施还给出了如下步骤d1至步骤d3的实施方式：

d1确定第一从逻辑节点是否收到来自主逻辑节点的保活信息；第一从逻辑节点为除主逻辑节点中以外的任意一个；

d2，若否，发起主逻辑节点选举流程；

d3，当存在一个目标逻辑节点收到的投票数大于或等于待写入数据划分后的原始数据的总份数，则将目标逻辑节点确定为主逻辑节点。

在可选的实施方式中，当数据节点离线，可能会导致数据缺失，因此本申请实施例提供了一种数据恢复方法，请参见图6，图6为本申请实施例提供的另一种数据存储方法的示意性流程图，即本申请实施例提供的数据存储方法还可以包括如下步骤：

S405，当主逻辑节点确定存在离线的从逻辑节点，且离线的从逻辑节点在预设时间段内未上线，检测在线从逻辑节点的数量是否大于或等于待写入数据划分后的原始数据的总份数。

在本申请实施例中，数据存储子系统的节点离线判定时间可以根据实际需求进行设置，例如设置为1分钟，离线后在预设时间段内未上线，则可以向元数据服务器申请新的数据块进行数据恢复，申请不到新的数据块时从数据存储子系统移除，提交剩余节点日志。

S406，若是，则通过主逻辑节点向元数据服务器发送申请新数据块的请求，以使元数据服务器创建新数据块，并在新数据块所在的物理存储节点上创建新逻辑节点。

S407，将主逻辑节点的全量数据恢复日志更新为启动状态，并将全量数据恢复日志同步到除离线的从逻辑节点以外的从逻辑节点和新逻辑节点；

需要说明的是，所有从逻辑节点在获得启动的全量恢复消息后，暂停提交更新的数据日志到数据存储，只有当所有节点的全量数据恢复日志处于结束状态后才可以恢复数据日志提交。

S408，基于预设纠删码以及在线从逻辑节点的数据日志，生成新的缺失数据，并将新的缺失数据发送给新逻辑节点。

为了方便理解上述内容，请参见图7，图5为本申请实施例中提供的数据存储的另一种场景示意图。如图7所示，假设本来要在DN-5的数据块blk＝1-0-4上写入数据长度为128的数据，起始写入位置为128，当数据节点DN-5离线，那么发送到DN-5的数据将会丢失，此时可以先申请新的数据块，假设新数据块对应的数据节点DN-6，那么可以先在DN-6上创建新的逻辑节点，由主逻辑节点新的缺失数据之后，则可以在DN-6上申请的新的数据块上写入缺失数据，数据长度为128，起始写入位置为128。

基于相同的申请的构思，请参见图8，图8为本申请实施例提供的数据存储子系统的功能模块图，包括：

同步模块205-1，用于将主逻辑节点接收到的写操作日志同步给全部从逻辑节点；其中，主逻辑节点为全部逻辑节点其中一个；从逻辑节点为除主逻辑节点以外的逻辑节点；

确定模块205-2，用于当确定主逻辑节点接收到日志同步失败的消息，确定消息对应的异常逻辑节点；其中，日志同步失败表征异常逻辑节点对应的目标物理存储节点上的数据缺失；

生成模块205-3，用于基于预设纠删码、以及除异常逻辑节点和主逻辑节点以外的剩余从逻辑节点的数据日志，生成缺失数据；数据日志用于记录写入逻辑节点对应的物理存储节点上的数据；

存储模块205-4，用于根据缺失数据，对目标物理存储节点进行数据恢复。

可以理解的是，同步模块205-1、确定模块205-2、生成模块205-3以及存储模块205-4可以协同执行图4中的各个步骤以实现相应的技术效果。

在可选的实施方式中，数据存储子系统还可以包括发送模块，确定模块205-2、生成模块205-3和发送模块可以协同的执行图7中的步骤S405至步骤S408以实现相应的技术效果。

在可选的实施方式中，生成模块205-3还用于执行步骤a1至步骤a2以实现相应的技术效果。

在可选的实施方式中，确定模块205-2和发送模块还可以用来执行步骤b1至步骤b3、步骤c1至步骤c3以实现相应的技术效果。

在可选的实施方式中，数据存储子系统还可以包括选举模块，确定模块205-2和选举模块还可以协同的来执行步骤d1至步骤d3以实现相应的技术效果。

在可选的实施方式中，所述操作日志是通过如下方式生成的：将所述服务节点将接收到的待写入数据进行划分，得到所述原始数据和校验数据；将服务节点生成的事务ID，以及所述原始数据和所述校验数据分发给所述多个物理存储节点，以使每个所述物理存储节点将接收到的所述事务ID，以及所述原始数据或所述校验数据写入事务日志；确定所述服务节点接收到的数据发送成功消息的个数是否大于或等于所述原始数据的总份数；若是，则通过所述服务节点生成所述写操作日志。

在可选的实施方式中，存储模块205-4还可以用于：将所述写操作日志写入到所述主逻辑节点对应的物理存储节点的事务日志中；通过所述主逻辑节点应用所述写操作日志，以使所述主逻辑节点所在的物理存储节点将接收的原始数据或者校验数据写入数据存储。

本申请实施例还提供一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前述实施方式中任一项的数据存储方法。该计算机可读存储介质可以是，但不限于，U盘、移动硬盘、ROM、RAM、PROM、EPROM、EEPROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

Claims

一种数据存储方法，其特征在于，应用于分布式存储系统中的数据存储子系统，所述数据存储子系统包括多个逻辑节点，每个逻辑节点对应一个物理存储节点；所述方法包括：

将主逻辑节点接收到的写操作日志同步给全部从逻辑节点；其中，所述主逻辑节点为全部所述逻辑节点其中一个；所述从逻辑节点为除所述主逻辑节点以外的逻辑节点；

当确定所述主逻辑节点接收到日志同步失败的消息，确定所述消息对应的异常逻辑节点；其中，所述日志同步失败表征所述异常逻辑节点对应的目标物理存储节点上的数据缺失；

基于预设纠删码、以及除所述异常逻辑节点和所述主逻辑节点以外的剩余从逻辑节点的数据日志，生成缺失数据；所述数据日志用于记录写入所述逻辑节点对应的物理存储节点上的数据；

根据所述缺失数据，对所述目标物理存储节点进行数据恢复。
根据权利要求1所述的数据存储方法，其特征在于，所述分布式存储系统中包括元数据服务器，所述元数据服务器与所述数据存储子系统进行数据交互，所述方法还包括：

当所述主逻辑节点确定存在离线的从逻辑节点，且所述离线的从逻辑节点在预设时间段内未上线，检测在线从逻辑节点的数量是否大于或等于待写入数据划分后的原始数据的总份数；

若是，则通过所述主逻辑节点向元数据服务器发送申请新数据块的请求，以使所述元数据服务器创建新数据块，并在所述新数据块所在的物理存储节点上创建新逻辑节点；

通过所述主逻辑节点生成全量数据恢复日志，并将所述全量数据恢复日志同步到除所述离线的从逻辑节点以外的从逻辑节点和所述新逻辑节点；

基于所述预设纠删码以及所述在线从逻辑节点的数据日志，生成新的缺失数据，并将所述新的缺失数据发送给所述新逻辑节点。
根据权利要求1所述的数据存储方法，其特征在于，所述分布式存储系统中包括元数据服务器，所述元数据服务器与所述数据存储子系统进行数据交互，所述方法还包括：

判断所述主逻辑节点收到的日志同步成功的消息数量是否大于或等于待写入数据划分后的原始数据的总份数；

若是，则通过所述主逻辑节点向服务节点反馈数据写入成功的消息；

若否，则通过所述主逻辑节点将所述操作日志丢弃，并向所述服务节点反馈数据写入失败的消息。
根据权利要求1所述的数据存储方法，其特征在于，所述方法还包括：

确定第一从逻辑节点是否收到来自主逻辑节点的保活信息；所述第一从逻辑节点为除所述主逻辑节点中以外的任意一个；

若否，发起主逻辑节点选举流程；

当存在一个目标逻辑节点收到的投票数大于或等于待写入数据划分后的原始数据的总份数，则将所述目标逻辑节点确定为所述主逻辑节点。
根据权利要求3所述的数据存储方法，其特征在于，所述操作日志是通过如下方式生成的：

将所述服务节点将接收到的待写入数据进行划分，得到所述原始数据和校验数据；

将服务节点生成的事务ID，以及所述原始数据和所述校验数据分发给多个所述物理存储节点，以使每个所述物理存储节点将接收到的所述事务ID，以及所述原始数据或所述校验数据写入事务日志；

确定所述服务节点接收到的数据发送成功消息的个数是否大于或等于所述原始数据的总份数；

若是，则通过所述服务节点生成所述写操作日志。
根据权利要求1所述的数据存储方法，其特征在于，在当确定所述主逻辑节点接收到日志同步失败的消息，确定所述消息对应的异常逻辑节点之前，所述方法还包括：

确定所述从逻辑节点所对应的物理存储节点是否存在所述写操作日志中的事务ID；

若不存在所述事务ID，则通过所述从逻辑节点向所述主逻辑节点反馈日志同步失败的消息；

若存在所述事务ID，则通过所述从逻辑节点向所述主逻辑节点反馈日志同步成功的消息。
根据权利要求1所述的数据存储方法，其特征在于，所述方法还包括：

将所述写操作日志写入到所述主逻辑节点对应的物理存储节点的事务日志中；

通过所述主逻辑节点应用所述写操作日志，以使所述主逻辑节点所在的物理存储节点将接收的原始数据或者校验数据写入数据存储。
一种数据存储子系统，其特征在于，所述数据存储子系统包括多个逻辑节点，每个逻辑节点对应一个物理存储节点，包括：

同步模块，用于将主逻辑节点接收到的写操作日志同步给全部从逻辑节点；其中，所述主逻辑节点为全部所述逻辑节点其中一个；所述从逻辑节点为除所述主逻辑节点以外的逻辑节点；

确定模块，用于当确定所述主逻辑节点接收到日志同步失败的消息，确定所述消息对应的异常逻辑节点；其中，所述日志同步失败表征所述异常逻辑节点对应的目标物理存储节点上的数据缺失；

生成模块，用于基于预设纠删码、以及除所述异常逻辑节点和所述主逻辑节点以外的剩余从逻辑节点的数据日志，生成缺失数据；所述数据日志用于记录写入所述逻辑节点对应的物理存储节点上的数据；

存储模块，用于根据所述缺失数据，对所述目标物理存储节点进行数据恢复。
一种分布式存储系统，其特征在于，所述分布式存储系统中包含数据存储子系统，所述数据存储子系统由多个逻辑节点构成，每个逻辑节点对应一个物理存储节点，所述数据存储子系统用于执行如权利要求1-7任意一项所述的数据存储方法。
一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任意一项所述的数据存储方法