WO2019218717A1

WO2019218717A1 - 一种分布式存储方法、装置、计算机设备及存储介质

Info

Publication number: WO2019218717A1
Application number: PCT/CN2019/072337
Authority: WO
Inventors: 荆博
Original assignee: 百度在线网络技术（北京）有限公司
Priority date: 2018-05-18
Filing date: 2019-01-18
Publication date: 2019-11-21
Also published as: CN108664223B; JP7044881B2; US20200363994A1; JP2021506004A; US11842072B2; CN108664223A

Abstract

本文公开了一种分布式存储方法、装置、计算机设备及存储介质所述方法包括：将待存储文件进行分组，形成多个数据分组；将全部数据分组形成至少三个数据分片，其中，每个数据分片中包括部分数据分组，且每个数据分组添加到至少两个数据分片中；将每个数据分片在分布式存储节点中进行分布式存储；记录数据分片与数据分组的对应关系，以及存储节点与所存储数据分片的对应关系；删除本地的待存储文件。

Description

一种分布式存储方法、装置、计算机设备及存储介质

本申请要求在2018年5月18日提交中国专利局、申请号为201810479464.3的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及数据存储技术领域，例如涉及一种分布式存储方法、装置、计算机设备及存储介质。

背景技术

相关技术中的云存储技术，一般是通过中心化的服务器来进行存储的。随着存储数据越来越多，对服务器存储空间和带宽资源的占用严重，云存储成本持续增高。并且，相关的云存储技术保存在云端的数据是不加密的，数据的私密性由大型的云存储服务商的信用来背书。

若采用分布式存储技术，由于数据的去中心化存储，导致了信用的去中心化，进而引发存储节点不稳定导致易丢失、易受到攻击而造成的数据存储不安全的问题。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本申请实施例提供一种分布式存储方法、装置、计算机设备及存储介质，便于用户在分布式网络中进行文件存储以降低存储成本，且能够有效提高存储文件的私密性和安全性，从而避免攻击者恢复原始文件。

本申请实施例提供了一种分布式存储方法，包括：

将待存储文件进行分组，形成多个数据分组；

将全部数据分组形成至少三个数据分片，其中，每个数据分片中包括部分数据分组，且每个数据分组添加到至少两个数据分片中；

将每个数据分片在分布式存储节点中进行分布式存储；

记录数据分片与数据分组的对应关系，以及所述存储节点与所存储数据分片的对应关系；

删除本地的待存储文件。

本申请另一实施例还提供了一种分布式存储装置，包括：

数据分组模块，设置为将待存储文件进行分组，形成多个数据分组；

数据分片模块，设置为将全部数据分组形成至少三个数据分片，其中，每个数据分片中包括部分数据分组，且每个数据分组添加到至少两个数据分片中；

数据存储模块，设置为将每个数据分片在分布式存储节点中进行分布式存储；

关系记录模块，设置为记录数据分片与数据分组的对应关系，以及所述存储节点与所存储数据分片的对应关系；

文件删除模块，设置为删除本地的待存储文件。

本申请另一实施例还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储装置，设置为存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本申请任意实施例所提供的分布式存储方法。

本申请另一实施例还提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现本申请任意实施例所提供的分布式存储方法。

在阅读并理解了附图和详细描述后，可以明白其他方面。

附图说明

图1是本申请实施例一提供的一种分布式存储方法的流程图；

图2a是本申请实施例二提供的一种分布式存储方法的流程图；

图2b是本申请实施例二中所涉及的原始梅克尔树的结构示意图；

图3a是本申请实施例三提供的一种分布式存储方法的流程图；

图3b是本申请实施例三提供的一种分布式存储方法中恢复存储文件方法的流程图；

图4是本申请实施例四提供的一种分布式存储方法的流程图；

图5是本申请实施例五提供的一种分布式存储装置的示意图；

图6为本申请实施例六提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作详细说明。可以理解的是，此处所描述的实施例仅仅设置为解释本申请，而非对本申请的限定。

为了便于描述，附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，部分示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将每项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，每项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1是本申请实施例一提供的一种分布式存储方法的流程图，本实施例可适用于在分布式网络中存储文件的情况，该方法可以由分布式存储装置来执行，该装置可以由软件和/或硬件的方式来实现，并一般可集成在任何可以发起数据存储的计算机设备中，如图1所示，该方法包括步骤S110、步骤S120、步骤S130、步骤S140以及步骤S150。

在步骤S110中，将待存储文件进行分组，形成多个数据分组。

其中，待存储文件可以是文本、图片、视频、音频以及其他类型(如zip格式的压缩文件等)的可存储的文件，本申请实施例并不对待存储文件的类型进行限定。数据分组可以是待存储文件的其中一部分文件数据。

在本申请实施例中，在对待存储文件进行分布式存储之前，首先将待存储文件进行分组，将其划分为多个数据分组。对待存储文件进行分组可以采用平均划分为N个数据分组的方式，使得每个数据分组包括相同数据量的文件数据。也可以采用随机划分的方式对待存储文件进行分组，使得每个数据分组包括不同数据量的文件数据。当然，本领域技术人员还可以根据实际需求，在本技术方案的技术背景下，建立其他的文件分组的方式，本申请实施例对此并不进行限制。

在步骤S120中，将全部数据分组形成至少三个数据分片，其中，每个数据分片中包括部分数据分组，且每个数据分组添加到至少两个数据分片中。

在本申请实施例中，数据分片由部分数据分组组成，即每个数据分片并不包括所有的数据分组。其中，每个数据分片中所包括的数据分组的数量可以相同，也可以不同，例如，数据分片包括的数据分组数量可以是2个、5个、8个或者更多，本申请实施例并不对数据分片包括的数据分组的数量进行限定。

为了提高数据存储的安全性，可以将全部的数据分组形成至少三个数据分片，并且能够保证每个数据分组都可以添加到至少两个数据分片中，即保证每个数据分组至少形成了两个存储副本。在分组成片的处理过程中，数据分组会进行冗余存储，对于M副本存储来说，一个数据分组会在M个数据分片中出现。副本的数量M大于或等于2，可以预先设定，也可以根据实际情况，例如存储文件的重要性等级、存储节点的稳定性情况进行动态调整。

在步骤S130中，将每个数据分片在分布式存储节点中进行分布式存储。

其中，分布式网络的存储节点是各自独立工作的节点，能够基于分布式存储算法进行调度安排。

在本申请实施例中，可以将根据数据分组形成的数据分片在分布式存储节点中进行分布式存储，而非直接存储待存储文件形成的数据分组。可选的，每个分布式存储节点可以只存储一个数据分片。

相应的，在将每个数据分片在每个分布式存储节点中进行分布式存储时，可以采用里德-所罗门冗余算法(Reed-Solomon Redundancy)。这种算法通过多项式运算/纠错码(Erasure Code)来纠正错误数据。因此，即使有部分节点掉线或者数据损坏，数据文件仍然可以被成功恢复和访问。示例性的，一份待存储文件被分割为多个数据分组，形成数据分片后散布且M副本冗余存储在N个分布式存储节点上(例如30个节点，3副本存储)，每个分布式存储节点存储一部分数据分组。只要有N/M个正常分布式存储节点存活，就可以恢复原始的待存储文件。

在一个例子中，可以采取3副本冗余存储。在使用30个分布式存储节点的情况下，只要同时有10个正常分布式存储节点存活，就可以提供可用的存储服务。假设每个分布式存储节点的可靠性仅为50％，则经过简单的计算，可以得出分布式网络的服务稳定性是f＝1-(1-70％)21，即99.99995％。

在步骤S140中，记录数据分片与数据分组的对应关系，以及所述存储节点与所存储数据分片的对应关系。

其中，数据分片与数据分组的对应关系可以实现通过数据分组查找对应的数据分片，存储节点与所存储数据分片的对应关系可以实现通过所存储的数据分片查找对应的存储节点，以便从存储节点中下载对应的所存储数据分片。同时，两组对应关系还可以实现对数据分组的验证。

在本申请实施例中，根据数据分片与数据分组的对应关系，以及存储节点与所存储数据分片的对应关系，可以实现对数据分组和数据分片的隐私保护。

在一个例子中，数据分片与数据分组的对应关系可以是：数据分片1包括编号分别为1、2和3对应的数据分组。存储节点与所存储数据分片的对应关系可以是存储节点5存储的编号为1的数据分片。

在步骤S150中，删除本地的待存储文件。

相应的，在完成每个数据分片的存储以及每个对应关系的记录后，即可以删除本地的待存储文件，以防止待存储文件被不法攻击者所获取。

本申请实施例通过将待存储文件分组形成多个数据分组，将全部数据分组形成至少三个数据分片，每个数据分片中包括部分数据分组，且每个数据分组添加到至少两个数据分片中，再将每个数据分片在分布式存储节点中进行分布式存储，从而实现了数据的分布式存储。分布式存储能够解决中心化存储的瓶颈问题，降低带宽成本和存储成本，且采用数据分组的多副本存储，避免由于部分存储节点的故障而导致数据整体的不可恢复。并且，由于每个存储节点中所存储的数据分片都没有包括所有的数据组分，所以不可能通过攻破一个存储节点就能恢复原始存储文件。上述技术方案解决了相关云存储技术产生的存储成本持续增高以及分布式存储技术引发的数据存储不安全的问题，便于用户在分布式网络中进行文件存储以降低存储成本，且能够有效提高存储文件的私密性和安全性，从而避免攻击者恢复原始文件。

实施例二

图2a是本申请实施例二提供的一种分布式存储方法的流程图，本实施例以上述实施例为基础进行细化，在本实施例中，给出了对数据分组进行加密的实现方式。同时，将记录数据分片与数据分组的对应关系，以及存储节点与所存储数据分片的对应关系细化为：采用梅克尔树形式记录数据分片中所包括的数据分组的哈希值，作为分片梅克尔树；记录每个分片梅克尔树与每个所述数据分片所在存储节点的对应关系。相应的，如图2a所示，本实施例的方法可以包括步骤S210、步骤S220、步骤S230、步骤S240、步骤S250、步骤S260以及步骤S270。

在步骤S210中，将待存储文件进行分组，形成多个数据分组。

在步骤S220中，采用密钥对每个数据分组进行顺序加密，其中，除第一个数据分组外的其他每个数据分组的密钥根据前一个数据分组的密文产生；记录所述每个数据分组的加密顺序。

在本申请实施例中，为了提高数据分组的安全性，对待存储文件进行分组后，可以对每个数据分组进行加密。可选的，数据分组的加密方式可以是顺序加密：对每个数据分组采用对称加密算法及分组加密机制进行加密，每次可以对128个比特的数据进行对称加密，加密的密钥最多可以达到256个比特。其中，第一个数据分组可以单独加密并产生对应的密文，后续在对其他的数据分组加密时，以前一个数据分组的密文作为一部分输入来对下一个数据分组的输出进行混淆。可以采用前一个数据分组的密文来计算确定下一个数据分组的密钥。下一个数据分组的密钥可以包括一部分固定密钥，另一部分是通过密文计算确定的。由于传统CPU(中央处理器，Central Processing Unit/Processor)未针对分组加密算法进行过指令集优化，因此，对上述依赖前一个数据分组的顺序加密方式进行暴力破解应付出巨大的攻击代价。此外，即使密钥泄漏也不会导致存储文件内容的泄漏，因为攻击者只有获取全部数据分组并了解其加密顺序，才有可能破解出存储文件的内容。在采用密钥对每个数据分组进行顺序加密后，为了便于后期恢复原始待存储文件，还可以对每个数据分组的加密顺序进行记录。

在本申请的一个可选实施例中，记录每个数据分组的加密顺序包括：按照数据分组的加密顺序，计算每个数据分组的哈希值，形成原始梅克尔树(Merkle trees)。

其中，原始梅克尔树是依据数据分组计算所得每个哈希值为基础建立的梅克尔树。示例性的，图2b是本申请实施例二中所涉及的原始梅克尔树的结构示意图。如图2b所示，包括四个数据分组(DATA BLOCK)，分别计算每个数据分组的哈希值，按照从左至右的顺序形成原始梅克尔树的叶节点(Hash-LEAF)，而后两两叶节点组合再计算哈希值作为上层分支(Hash-BRANCH)，直至计算出原始梅克尔树的根节点(Hash-ROOT)。原始梅克尔树不仅记录了数据分组的哈希值，还以树状结构记录了数据分组的顺序。在该原始梅克尔树中，以第二个数据分组(DATA BLOCK2)为例，还记录了其存储于三个数据分片(DATA SHARD1、DATA SHARD2和DATA SHARD3)中。

相应的，可以采用梅克尔树的方式对每个数据分组的加密顺序进行记录，进而利用梅克尔树的优势提升分布式网络的运行效率和可扩展性，并可以作为后期恢复数据的校验凭据。

在步骤S230中，将全部数据分组形成至少三个数据分片，其中，每个数据分片中包括部分数据分组，且每个数据分组添加到至少两个数据分片中。

在步骤S240中，将每个数据分片在分布式存储节点中进行分布式存储。

在步骤S250中，采用梅克尔树形式记录数据分片中所包括的数据分组的哈希值，作为分片梅克尔树。

其中，分片梅克尔树是依据数据分片中所包括的数据分组计算所得每个哈希值为基础建立的梅克尔树。

在本申请实施例中，可以使用梅克尔树来进行记录每个数据分片的结构。由于在获取原始梅克尔树时为每个数据分组设置了对应的顺序编号ID和对应内容的hash值，所以每个数据分片可以依据其包括的数据分组的哈希值最终计算获取一个对应的分片梅克尔树。在分片梅克尔树中，数据分组的顺序不必与原始加密顺序相同，可以将数据分组任意的两两组合计算梅克尔树的哈希分支。

在步骤S260中，记录每个分片梅克尔树与每个所述数据分片所在存储节点的对应关系。

相应的，在获取到每个数据分片对应的分片梅克尔树后，可以将每个分片梅克尔树与每个数据分片所在的存储节点之间的对应关系进行记录。每个数据分片对应一个分片梅克尔树。

在本申请实施例中，通过对数据分组按顺序加密后依据每个数据分组的哈希值形成原始梅克尔树，以及通过数据分片中所包括的数据分组的哈希值形成分片梅克尔树，能够实现对数据分组以及数据分片的数据查找和校验，提高存储文件的私密性和安全性，从而有效避免攻击者恢复原始文件。

在步骤S270中，删除本地的待存储文件。

采用本实施例的技术方案，通过对数据分组进行顺序加密，极大增加了攻击存储节点来恢复原始存储文件的难度。能够有效提高分布式存储的私密性。

实施例三

图3a是本申请实施例三提供的一种分布式存储方法的流程图，图3b是本申请实施例三提供的一种分布式存储方法中恢复存储文件方法的流程图，本实施例以上述实施例为基础进行细化，在本实施例中，给出了根据每个数据分组恢复形成存储文件的实现方式，相应的，如图3a所示，本申请实施例的方法可以包括步骤S310、步骤S320、步骤S330、步骤S340、步骤S350、步骤S360以及步骤S370。

在步骤S310中，将待存储文件进行分组，形成多个数据分组。

在步骤S320中，将全部数据分组形成至少三个数据分片，其中，每个数据分片中包括部分数据分组，且每个数据分组添加到至少两个数据分片中。

在步骤S330中，将每个数据分片在分布式存储节点中进行分布式存储。

在步骤S340中，记录数据分片与数据分组的对应关系，以及所述存储节点与所存储数据分片的对应关系。

在步骤S350中，删除本地的待存储文件。

在步骤S360中，在产生存储文件查询请求时，根据本地记录的数据分片与数据分组的对应关系，以及存储节点与所存储数据分片的对应关系，分别从存储节点中下载每个数据分组。

其中，存储文件查询请求可以是用户发送的获取存储文件的请求，如下载存储文件或在线预览存储文件等。

在本申请实施例中，在恢复数据的过程中，可以根据本地记录的数据分片与数据分组的对应关系，以及存储节点与所存储数据分片的对应关系，按照顺序依次获取存储文件对应的所有数据分组，最终将获取的每个数据分组再按照顺序进行拼接和解密，从而得到完整的存储文件。

相应的，如图3b所示，恢复存储文件的过程可以包括步骤S361、步骤S362、步骤S363、步骤S364、步骤S365、步骤S366、步骤S367以及步骤S368。

在步骤S361中，根据本地记录的每个数据分组的加密顺序，确定第一个数据分组作为当前数据分组。

可以是根据本地记录的原始梅克尔树，查找第一个哈希叶节点对应的数据分组。

在步骤S362中，根据数据分片与数据分组的对应关系，以及存储节点与所存储数据分片的对应关系，确定当前数据分组所在的存储节点，作为当前分组节点。

根据第一个数据分组的哈希值，可以在分片梅克尔树中查找对应的哈希值。进而再根据查找到的数据分片确定对应的存储节点。

在步骤S363中，从所述当前分组节点下载数据分片，并从所述数据分片中提取当前数据分组。

考虑到每个数据分组在加密的过程中其密钥的产生都与前一个数据分组对应的密文相关。因此，在恢复数据的过程中，可以直接获取数据分组的加密顺序中的第一个数据分组，该数据分组即为第一个数据分组，然后再依据第一个数据分组依次获取其他的数据分组。

在确定第一个数据分组后，将第一个数据分组作为当前数据分组。根据数据分片与数据分组的对应关系查找当前数据分组所在的数据分片，同时根据存储节点与所存储数据分片的对应关系确定当前数据分组所在的存储节点作为当前分组节点，并从当前分组节点下载数据分片。因为当前分组节点存储的数据分片中包括了当前数据分组，因此可以依据当前分组节点对应存储的分片梅克尔树的哈希位置从数据分片中提取当前数据分组。

示例性的，参考图2b所示，虚线框内由每个哈希值组成的树即为原始梅克尔树。其中，原始梅克尔树的LEAF节点，即Hash 1-LEAF、Hash 2-LEAF、Hash 3-LEAF以及Hash 4-LEAF，为根据每个数据分组顺序形成的哈希值。BRANCH节点，即Hash 5-BRANCH和Hash 6-BRANCH，为根据每个LEAF节点按照Hash算法计算得出的哈希值，ROOT节点，即Hash 7-ROOT为原始梅克尔树的根节点，也是根据Hash 5-BRANCH和Hash 6-BRANCH对应的哈希值按照Hash算法计算得出。DATA BLOCK 1、DATA BLOCK 2、DATA BLOCK3和DATA BLOCK4为待存储文件形成的数据分组，DATA SHARD 1、DATA SHARD 2和DATA SHARD 3为根据数据分组形成的部分数据分片(即图2b中没有示出所有的数据分片)，该部分数据分片中都包括第二个数据分组。相应的，第一个数据分组(DATA BLOCK 1)对应的哈希位置为Hash 1-LEAF节点，以此类推，所有的数据分组都在对应的哈希位置处存储其哈希值。

图2b中没有示出分片梅克尔树的结构，分片梅克尔树是根据数据分片所包括的部分数据分组的哈希值形成的。因此，分片梅克尔树的LEAF节点则对应其包括的数据分组形成的哈希值，其他节点的形成过程则与原始梅克尔树相同。

相应的，当将第二个数据分组(DATA BLOCK 2)作为当前数据分组时，在原始梅克尔树中当前数据分组对应的哈希位置为Hash 2-LEAF，其存储的哈希值(如H)可以对分片梅克尔树存储的哈希值进行校验。确定当前数据分组后，可以依据所有的分片梅克尔树以及每个分片梅克尔树与存储节点的对应关系确定当前数据分组所在的存储节点作为当前分组节点。当前数据分组所在的存储节点可能会有多个，可以选择其中一个作为当前分组节点。在当前分组节点对应存储的分片梅克尔树中查找哈希值为H对应的数据分组即为所需的第二个数据分组。

由此可见，攻击者若想获取到原始文件，只有根据数据分片对应的分片梅克尔树的数据结构，来完成所有数据分片的下载，同时掌握所有数据分组的加密顺序，而这是很难办到的。因此，本申请实施例的分布式存储方法能够有效避免攻击者获取原始文件。

在步骤S364中，计算提取出的当前数据分组的哈希值，与本地存储当前数据分组的哈希值，并进行匹配，以验证所述当前数据分组的有效性。

在本申请实施例中，在获取到当前数据分组后，可以对当前数据分组的有效性进行校验。因为每个数据分组对应的哈希值并不同，所以可以采用数据分组的哈希值作为校验依据，将当前数据分组的哈希值与本地存储当前数据分组的哈希值进行匹配验证。验证一致，说明验证通过，当前数据分组有效；否则，根据数据分片与数据分组的对应关系(如利用分片梅克尔树)重新选择另一个数据分片并提取当前数据分组，直到确定提取的当前数据分组是有效的。

在步骤S365中，采用对应密钥对所述当前数据分组进行解密，采用当前数据分组的密文确定下一个数据分组的对应密钥。

在步骤S366中，将下一个数据分组更新为当前数据分组。

相应的，在确定当数据分组的有效性以后，可以采用当前数据对应的密钥对其进行解密。由于第一个数据分组的密钥与其他的数据分组无关，因此可以直接用对应密钥对第一个数据分组进行解密。在解密时，可以对获取的数据分组采用加密时得到的128bit或256bit的密钥进行解密。在当前数据分组解密完成后，以当前数据分组的密文为依据确定下一个数据分组的对应密钥。可选的，可以将第一个数据分组的密文与设定数量的固定字符进行组合形成下一个数据分组的对应密钥。然后，再将下一个数据分组更新为当前数据分组，并按照上述下载和校验当前数据分组的方式对下一个数据分组进行处理。

在步骤S367中，判断是否所有数据分组下载完成，若是，则执行步骤S370；否则，执行步骤S368。

在本申请实施例中，存储文件是由多个数据分组进行拼接恢复形成的。因此，只有获取到所有的数据分组后才能得到对应的存文件。当确定所有数据分组下载完成时，直接根据每个数据分组恢复形成存储文件；否则，执行S368以继续获取缺少的数据分组。

在步骤S368中，判断当前数据分组是否存储于已下载数据分片，若是，则执行步骤S364；否则，执行步骤S362。

由于每个数据分片均包括了部分数据分组，所以一个数据分片被下载时，除了包括当前数据分组，还包括其他的经哈希值校验处理或未经哈希值校验处理的数据分组。当在之前已下载的数据分片中包括当前数据分组时，无需再根据数据分片与数据分组的对应关系，以及存储节点与所存储数据分片的对应关系确定当前数据分组所在的存储节点并下载对应的数据分片，可以直接对当前数据分组进行哈希值校验，并依据上一个数据分组的密文所形成的密钥对当前数据分组进行解密。

示例性的，假设当前数据分组为第二个数据分组，在当前分组节点下载的数据分片包括的部分数据分组为：第一个数据分组、第二个数据分组、第四个数据分组以及第五个数据分组。其中，第一个数据分组已经哈希值校验处理，而第四个数据分组以及第五个数据分组还未经哈希值校验处理。则在将第四个数据分组或第五个数据分组作为当前数据分组进行处理时，无需再下载对应的数据分片，直接将第二个数据分组对应下载的数据分片中包括的第四个数据分组或第五个数据分组作为当前数据分组。

在步骤S370中，根据每个数据分组恢复形成存储文件。

本申请实施例通过根据本地记录的数据分片与数据分组的对应关系，以及存储节点与所存储数据分片的对应关系，分别从存储节点中下载每个数据分组；根据每个数据分组恢复形成存储文件，能够有效提高存储文件的私密性和安全性，从而避免攻击者恢复原始文件。

实施例四

本申请实施例所提供的分布式存储方法，可以适用于每种分布式网络进行数据存储，本实施例中，可选的，采用区块链网络对待存储文件进行分布式存储。区块链系统一般都包括多个节点，可独立工作，一方面是可独立作为有存储需求的节点来进行存储前准备，另一方面也可以作为一个存储节点接受其他节点请求的存储任务。区块链系统是一个去中心化的网络，可以基于共识机制等协议进行协同工作。

图4为本申请实施例四所提供的分布式存储方法的流程图，该方法包括步骤S410、步骤S420、步骤S430、步骤S440、步骤S450以及步骤S460。

在步骤S410中，将待存储文件进行分组，形成多个数据分组。

在步骤S420中，将全部数据分组形成至少三个数据分片，其中，每个数据分片中包括部分数据分组，且每个数据分组添加到至少两个数据分片中。

在步骤S430中，将每个数据分片在区块链网络中的每个存储节点分别进行存储。

作为产生了存储需求的节点，或者任意电子设备，可以成为租赁节点，即向其他节点请求租赁存储空间的节点。租赁节点在存储文件之前，先对文件进行分片处理的准备。

同时，租赁节点还在区块链网络中确定每个存储节点为其服务，每个存储节点可以称为承租节点。确定存储节点的过程可以是线下协商过程，也可以是在区块链网络中发布体现存储空间租赁过程的智能合约，应约的节点即称为承租节点。确定存储节点后，租赁节点将数据分片传输给存储节点进行存储。

在步骤S440中，将数据分片在存储节点中的存储关系作为智能合约，提供至区块链网络中的区块生成节点，以将智能合约添加至区块中进行存储。

上述所确定的体现租赁存储空间过程的智能合约，在区块链网络中传输。当前竞争到区块处理权限的区块生成节点将对当前产生的智能合约进行处理，打包形成区块。区块生成节点可以基于多种共识机制获得区块生成权限，在该区块生成节点的权限时段内，可能由不同的租赁节点产生不同的智能合约。区块生成节点可以对智能合约进行处理，处理的方式包括但不限于：对智能合约的内容进行验证、转换、加密、和存储等。例如，租赁其他节点的存储空间，可能支付一定的费用，相应的支付金额会体现在智能合约中，由租赁节点签名确认。区块生成节点可以根据智能合约中的规定，将支付金额从租赁节点的账户转移至承租节点的账户。区块生成节点后续将生成的区块，广播发给区块链网络的其他节点进行验证，而后使得区块生效添加至区块链尾部。由区块链的自身特点保证智能合约的不可篡改性。

在步骤S450中，记录数据分片与数据分组的对应关系，以及所述存储节点与所存储数据分片的对应关系；

租赁节点可以在本地记录上述对应关系，以方便后续恢复存储的数据。

在步骤S460中，删除本地的待存储文件。

在本应用场景中，分布式的区块链网络中的节点之间可以进行互相通信。每一个节点都有可能随时成为租赁节点或承租节点。其中，租赁节点可以上传待存储文件，即为有文件存储需求的节点；承租节点可以存储文件对应的数据分片，也可以被称为存储节点。

当一个节点(示例性的，代表百度网盘的节点)有租赁需求时，也就是请求区块链网络上的其它节点来共同存储文件时，开始发布租赁需求的准备过程。然后，待存储文件可以首先在有租赁需求的节点处进行分组形成多个数据分组，并采用密钥对每个数据分组进行顺序加密，其中，除第一个数据分组外的其他每个数据分组的密钥根据前一个数据分组的密文产生。数据分组加密完成后，可以按照数据分组的加密顺序，计算每个数据分组的哈希值，形成原始梅克尔树。接下来，有租赁需求的节点在对个数据分组进行两两随机组合形成至少三个数据分片。每个数据分片中包括部分数据分组，且每个数据分组添加到至少两个数据分片中。同时，有租赁需求的节点采用梅克尔树形式记录数据分片中所包括的数据分组的哈希值，作为分片梅克尔树；并记录每个分片梅克尔树与每个数据分片所在存储节点的对应关系。最后，有租赁需求的节点向存储节点分别传输数据分片，实现将数据分片传送到分布式的区块链网络当中。每个数据分片存储完成后，则可以将数据分片在存储节点中的存储关系作为智能合约，提供至区块链网络中的区块生成节点，以将智能合约添加至区块中进行存储。

由此可见，本申请实施例所提供的分布式存储方法应用在区块链技术领域，能够便于用户在分布式的区块链网络中进行文件存储以降低存储成本，且能够有效提高存储文件的私密性和安全性，从而避免攻击者恢复原始文件。

实施例五

图5是本申请实施例五提供的一种分布式存储装置的示意图，如图5所示，所述装置包括：数据分组模块510、数据分片模块520、数据存储模块530、关系记录模块540以及文件删除模块550，其中：

数据分组模块510，设置为将待存储文件进行分组，形成多个数据分组；

数据分片模块520，设置为将全部数据分组形成至少三个数据分片，其中，每个数据分片中包括部分数据分组，且每个数据分组添加到至少两个数据分片中；

数据存储模块530，设置为将每个数据分片在分布式存储节点中进行分布式存储；

关系记录模块540，设置为记录数据分片与数据分组的对应关系，以及所述存储节点与所存储数据分片的对应关系；

文件删除模块550，设置为删除本地的待存储文件。

可选的，所述装置还包括：数据加密模块，设置为采用密钥对每个数据分组进行顺序加密，其中，除第一个数据分组外的其他每个数据分组的密钥根据前一个数据分组的密文产生；记录所述每个数据分组的加密顺序。

可选的，关系记录模块540，是设置为采用梅克尔树形式记录数据分片中所包括的数据分组的哈希值，作为分片梅克尔树；记录每个分片梅克尔树与每个所述数据分片所在存储节点的对应关系。

可选的，数据加密模块，是设置为按照数据分组的加密顺序，计算每个数据分组的哈希值，形成原始梅克尔树。

可选的，所述装置还包括：文件恢复模块，设置为在产生存储文件查询请求时，根据本地记录的数据分片与数据分组的对应关系，以及存储节点与所存储数据分片的对应关系，分别从存储节点中下载每个数据分组；根据每个数据分组恢复形成存储文件。

可选的，文件恢复模块，是设置为根据本地记录的每个数据分组的加密顺序，确定第一个数据分组作为当前数据分组；根据数据分片与数据分组的对应关系，以及存储节点与所存储数据分片的对应关系，确定当前数据分组所在的存储节点，作为当前分组节点；从所述当前分组节点下载数据分片，并从所述数据分片中提取当前数据分组；采用对应密钥对所述当前数据分组进行解密，采用当前数据分组的密文确定下一个数据分组的对应密钥；将下一个数据分组更新为当前数据分组；当当前数据分组存储于已下载数据分片时，返回执行解密操作；当当前数据分组未存储于已下载数据分片时，返回执行确定当前分组节点的操作，直至所有数据分组下载完成。

可选的，文件恢复模块，是设置为计算提取出的当前数据分组的哈希值，与本地存储当前数据分组的哈希值，并进行匹配，以验证所述当前数据分组的有效性。

可选的，数据存储模块530，是设置为将每个数据分片在区块链网络中的每个存储节点分别进行存储；将数据分片在存储节点中的存储关系作为智能合约，提供至区块链网络中的区块生成节点，以将智能合约添加至区块中进行存储。

上述分布式存储装置可执行本申请任意实施例所提供的分布式存储方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请任意实施例提供的分布式存储方法。

实施例六

图6为本申请实施例六提供的一种计算机设备的结构示意图。图6示出了适于用来实现本申请实施方式的计算机设备612的框图。图6显示的计算机设备612仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算机设备612以通用计算设备的形式表现。计算机设备612的组件可以包括但不限于：一个或者多个处理器616，存储装置628，连接不同系统组件(包括存储装置628和处理器616)的总线618。

总线618表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry Standard Architecture，ISA)总线，微通道体系结构(Micro Channel Architecture，MCA)总线，增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，PCI)总线。

计算机设备612典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备612访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储装置628可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，RAM)630和/或高速缓存存储器632。计算机设备612可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统634可以读写不可移动的、非易失性磁介质(图6未显示，通常称为“硬盘驱动器”)。尽管图6中未示出，可以提供对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory，CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线618相连。存储装置628可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请每个实施例的功能。

具有一组(至少一个)程序模块626的程序636，可以存储在例如存储装置628中，这样的程序模块626包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或其中一种组合中可能包括网络环境的实现。程序模块626通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备612也可以与一个或多个外部设备614(例如键盘、指向设备、摄像头、显示器624等)通信，还可与一个或者多个使得用户能与该计算机设备612交互的设备通信，和/或与使得该计算机设备612能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口622进行。并且，计算机设备612还可以通过网络适配器620与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器620通过总线618与计算机设备612的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备612使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks，RAID)系统、磁带驱动器以及数据备份存储系统等。

处理器616通过运行存储在存储装置628中的程序，从而执行每种功能应用以及数据处理，例如实现本申请上述实施例所提供的分布式存储方法。

也即，所述处理单元执行所述程序时实现：将待存储文件进行分组，形成多个数据分组；将全部数据分组形成至少三个数据分片，其中，每个数据分片中包括部分数据分组，且每个数据分组添加到至少两个数据分片中；将每个数据分片在分布式存储节点中进行分布式存储；记录数据分片与数据分组的对应关系，以及所述存储节点与所存储数据分片的对应关系；删除本地的待存储文件。

通过所述计算机设备将待存储文件分组形成多个数据分组，将全部数据分组形成至少三个数据分片，每个数据分片中包括部分数据分组，且每个数据分组添加到至少两个数据分片中，再将每个数据分片在分布式存储节点中进行分布式存储，从而实现了数据的分布式存储。分布式存储能够解决中心化存储的瓶颈问题，降低带宽成本和存储成本，且采用数据分组的多副本存储，避免由于部分存储节点的故障而导致数据整体的不可恢复。并且，由于每个存储节点中所存储的数据分片都没有包括所有的数据组分，所以不可能通过攻破一个存储节点就能恢复原始存储文件。上述技术方案解决了相关云存储技术产生的存储成本持续增高以及分布式存储技术引发的数据存储不安全的问题，便于用户在分布式网络中进行文件存储以降低存储成本，且能够有效提高存储文件的私密性和安全性，从而避免攻击者恢复原始文件。

实施例七

本申请实施例七还提供一种存储计算机程序的计算机存储介质，所述计算机程序在由计算机处理器执行时执行本申请上述实施例任一所述的分布式存储方法：将待存储文件进行分组，形成多个数据分组；将全部数据分组形成至少三个数据分片，其中，每个数据分片中包括部分数据分组，且每个数据分组添加到至少两个数据分片中；将每个数据分片在分布式存储节点中进行分布式存储；记录数据分片与数据分组的对应关系，以及所述存储节点与所存储数据分片的对应关系；删除本地的待存储文件。

本申请实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更细化的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器、只读存储器(Read Only Memory，ROM)、可擦式可编程只读存储器((Erasable Programmable Read Only Memory，EPROM)或闪存)、光纤、便携式紧凑磁盘只读存储器、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网或广域网—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

Claims

一种分布式存储方法，包括：

将待存储文件进行分组，形成多个数据分组；

将全部数据分组形成至少三个数据分片，其中，每个数据分片中包括部分数据分组，且每个数据分组添加到至少两个数据分片中；

将每个数据分片在分布式存储节点中进行分布式存储；

记录数据分片与数据分组的对应关系，以及所述存储节点与所存储数据分片的对应关系；

删除本地的待存储文件。
根据权利要求1所述的方法，将全部数据分组形成至少三个数据分片之前，还包括：

采用密钥对每个数据分组进行顺序加密，其中，除第一个数据分组外的其他每个数据分组的密钥根据前一个数据分组的密文产生；

记录所述每个数据分组的加密顺序。
根据权利要求2所述的方法，其中，记录数据分片与数据分组的对应关系，以及存储节点与所存储数据分片的对应关系包括：

采用梅克尔树形式记录数据分片中所包括的数据分组的哈希值，作为分片梅克尔树；

记录每个分片梅克尔树与每个所述数据分片所在存储节点的对应关系。
根据权利要求3所述的方法，其中，记录所述每个数据分组的加密顺序包括：

按照数据分组的加密顺序，计算每个数据分组的哈希值，形成原始梅克尔树。
根据权利要求3所述的方法，还包括：

在产生存储文件查询请求时，根据本地记录的数据分片与数据分组的对应关系，以及存储节点与所存储数据分片的对应关系，分别从存储节点中下载每个数据分组；

根据每个数据分组恢复形成存储文件。
根据权利要求5所述的方法，其中，根据本地记录的数据分片与数据分组的对应关系，以及存储节点与所存储数据分片的对应关系，分别从存储节点中下载每个数据分组包括：

根据本地记录的每个数据分组的加密顺序，确定第一个数据分组作为当前数据分组；

根据数据分片与数据分组的对应关系，以及存储节点与所存储数据分片的对应关系，确定当前数据分组所在的存储节点，作为当前分组节点；

从所述当前分组节点下载数据分片，并从所述数据分片中提取当前数据分组；

采用对应密钥对所述当前数据分组进行解密，采用当前数据分组的密文确定下一个数据分组的对应密钥；

将下一个数据分组更新为当前数据分组；

当当前数据分组存储于已下载数据分片时，返回执行解密操作；

当当前数据分组未存储于已下载数据分片时，则返回执行确定当前分组节点的操作，直至所有数据分组下载完成。
根据权利要求6所述的方法，采用对应密钥对所述当前数据分组进行解密之前，还包括：

计算提取出的当前数据分组的哈希值，与本地存储当前数据分组的哈希值，并进行匹配，以验证所述当前数据分组的有效性。
根据权利要求1-7任一所述的方法，其中，将每个数据分片在分布式存储节点中进行分布式存储包括：

将每个数据分片在区块链网络中的每个存储节点分别进行存储；

将数据分片在存储节点中的存储关系作为智能合约，提供至区块链网络中的区块生成节点，以将智能合约添加至区块中进行存储。
一种分布式存储装置，包括：

数据分组模块，设置为将待存储文件进行分组，形成多个数据分组；

数据分片模块，设置为将全部数据分组形成至少三个数据分片，其中，每个数据分片中包括部分数据分组，且每个数据分组添加到至少两个数据分片中；

数据存储模块，设置为将每个数据分片在分布式存储节点中进行分布式存储；

关系记录模块，设置为记录数据分片与数据分组的对应关系，以及所述存储节点与所存储数据分片的对应关系；

文件删除模块，设置为删除本地的待存储文件。
一种计算机设备，所述设备包括：

一个或多个处理器；

存储装置，设置为存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的分布式存储方法。
一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-8中任一所述的分布式存储方法。