WO2020143317A1

WO2020143317A1 - 分片文件验证方法及终端设备

Info

Publication number: WO2020143317A1
Application number: PCT/CN2019/118145
Authority: WO
Inventors: 雷琼
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-01-08
Filing date: 2019-11-13
Publication date: 2020-07-16
Also published as: CN109831487B; CN109831487A

Abstract

本申请适用于计算机应用技术领域，提供了一种分片文件验证方法、终端设备及计算机非易失性可读存储介质，包括：通过确定待分片存储的原始数据，将所述原始数据按照预设的分片方式进行分片，得到分片数据，并将分片数据发送至对应的存储节点。通过选择待验证的分片文件中至少两个目标文件位置处的预设数据量的数据作为目标分片摘要；将所有目标文件位置组合生成挑战码，并发送所述挑战码至存储所述分片文件的存储节点；接收存储节点发送的验证数据，根据目标分片摘要和所述数据生成算法生成目标数据，将验证数据和所述目标数据进行对比对分片数据进行持有性验证，提高了数据持有性验证的效率。

Description

分片文件验证方法及终端设备

本申请要求于2019年1月8日提交中国专利局、申请号为201910014713.6、发明名称为“分片文件验证方法及终端设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于计算机应用技术领域，尤其涉及一种分片文件验证方法、终端设备及计算机非易失性可读存储介质。

背景技术

传统的网络存储系统采用集中的存储服务器存放所有数据，存储服务器成为系统性能的瓶颈，也是可靠性和安全性的焦点，不能满足大规模存储应用的需要。现有技术中通过分布式网络存储系统可扩展的系统结构，利用多台存储服务器分担存储负荷，利用位置服务器定位存储信息，它不但提高了系统的可靠性、可用性和存取效率，还易于扩展。但是分布式网络中的存储节点很有可能不能保证云服务器节点中的数据持有性。

技术问题

有鉴于此，本申请实施例提供了一种分片文件验证方法、终端设备及计算机非易失性可读存储介质，以解决现有技术中分布式网络的存储节点不能保证云服务器节点中的数据持有性的问题。

技术解决方案

本申请实施例的第一方面提供了一种分片文件验证方法，包括：

选择待验证的分片文件中至少两个目标文件位置处的预设数据量的数据作为目标分片摘要；

将所有所述目标文件位置进行随机组合得到字符串形式的挑战码，并发送所述挑战码至存储所述分片文件的存储节点；

接收所述存储节点发送的验证数据；所述验证数据根据所述挑战码中的目标文件位置和预设的数据生成算法生成；

根据所述目标分片摘要和所述数据生成算法生成目标数据，将所述验证数据和所述目标数据进行对比，若所述目标数据与所述验证数据一致，则判定所述分片文件正确。

本申请实施例的第二方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述第一方面的方法。

本申请实施例的第三方面提供了一种终端设备，包括用于实现上述第一方面的方法的各个单元。

本申请实施例的第四方面提供了一种计算机非易失性可读存储介质，所述计算机存储介质存储有计算机可读指令，所述计算机可读指令包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。

有益效果

本申请实施例通过将分片文件的分片摘要生成挑战码进行分片验证，降低了数据的处理量和传输量，提高了数据持有性验证的效率。

附图说明

图1是本申请实施例一提供的分片文件验证方法的流程图；

图2是本申请实施例二提供的分片文件验证方法的流程图；

图3是本申请实施例三提供的终端设备的示意图；

图4是本申请实施例四提供的终端设备的示意图。

本发明的实施方式

参见图1，图1是本申请实施例一提供的分片文件验证方法的流程图。本实施例中分片文件验证方法的执行主体为终端。终端包括但不限于智能手机、平板电脑、可穿戴设备等移动终端，还可以是台式电脑等。如图所示的分片文件验证方法可以包括以下步骤：

S101：选择待验证的分片文件中至少两个目标文件位置处的预设数据量的数据作为目标分片摘要。

分片是把一份完整的数据按一定的条件划分成不同的几份，由不同的服务器来存储划分之后的内容，每份内容就叫做一个片。对于外界来说，显然不希望知道数据是从哪里来，分了多少片，因为对于应用来说，需要看到的是完整的一份数据，而不希望自己的业务逻辑中掺杂了去哪里取这份数据这样与业务无关的问题。所以在分片的同时，使得数据在物理上分开存储和处理，在逻辑上还是完整的一份。

本实施例中，一个完整的源文件通过分片处理之后，可能由多个分片数据组成，并且，这些分片数据被存储在不同的存储节点中，以降低源存储节点的负载。但是存储节点可能因为想提高存储效益而删除或者修改存储在本地的分片数据，而导致数据发生错误，不能正常的进行数据处理，这种情况下，我们通过对存储节点中的分片数据进行抽查，来验证存储节点中分片数据是否正确。

本实施例中所验证的是一个存储节点中所存储的一个分片文件的正确性，在一个分片文件中可能存储多个分片摘要。在本方案中，通过根据分片文件中每个数据的存储地址来抽取预设数据量的数据作为一个分片摘要，为了保证摘要抽取与验证的客观性和全面性，我们可以预先抽取至少两个分片摘要，并将这些分片摘要及其在分片文件中的存储位置进行对应存储。

在进行数据验证时，我们先确定待验证的分片文件，例如，一个完整的源文件可以被分为多个分片文件，而每个分片文件又被存储在不同的存储节点中，我们通过确定给一个存储节点中的一个分片文件来进行数据验证。其确定的方式可以是，根据每个分片文件的文件标识，进行随机的抽取，来确定待验证的分片文件。也可以是根据每个分片文件上一次的验证时间，选择上一次验证时间距离当前时间最长的分片文件作为待验证的分片文件。

在一个分片文件中，可能存储多个分片摘要，随机抽取至少两个分片摘要作为目标分片摘要。在本实施例中，分片文件中的每个数据都有其在文件中的文件位置，我们根据每个分片摘要的在分片文件中的文件位置，选择至少两个目标文件位置，并确定这两个目标文件位置处的分片摘要为目标分片摘要。需要说明的是，我们在提取分片摘要时，是通过对目标文件位置处预设数据量的数据作为目标分片摘要，以防止单个数据对摘要验证造成片面性，导致验证结果不精确的问题。

进一步的，既可以针对分片文件实时选定目标文件位置，进行实时抽取目标分片摘要。还可以先抽取预设数量的文件位置及其对应的分片摘要，将这些摘要信息存储，以在之后需要进行数据验证的时候，从预先存储的摘要信息中随机选择预设数量的目标文件位置及其对应的目标分片摘要。

示例性的，我们对大文件进行分片，每个分片数据平均取16M的数据量作为分片文件，我们在分片文件里随机、且均匀的确定20个位置作为提取分片摘要的位置，每个位置取2字节的数据作为分片摘要，并将这20个地址及其分片摘要进行存储。在上述示例中，每个数据占有2字节的数据量，每个数据对应的地址占有3字节的数据量，这样，便可以得到总共：20*2 + 20*3 =100字节的数据存储量，我们把这100字节作为分片数据保存在管理节点或者数据持有者的终端。

S102：将所有所述目标文件位置进行随机组合得到字符串形式的挑战码，并发送所述挑战码至存储所述分片文件的存储节点。

在确定了目标文件位置和目标分片摘要之后，根据目标文件位置组合生成挑战码，并将挑战码发送至存储该分片节点的存储节点，以通过该挑战码向存储节点发送验证挑战。

可选的，在生成挑战码时，可以通过将所有的目标文件位置进行随机组合，并加上针对组合得到的数据的算法名称，以得到一个字符串，将这个字符串作为挑战码，以将该挑战码发送至存储节点进行数据完成性检测。

示例性的，我们在存储目标分片摘要及其目标文件位置时，存储的方式为查找表存储MAP存储的方式：h(k1)=v1，h(k2)=v2，…，h(k20)=v20，其中k1表示第一个文件位置，v1表示第一个文件位置对应的分片摘要。我们随机选择5个文件位置作为目标文件位置：k3、k6、k7、k8、k20，我们可以按任意顺序组合这些地址，比如：k6+k8+k7+k20+k3，同时加上对组合地址的处理算法，例如哈希算法的字符名称“SHA-l”，每个目标文件位置是3字节，最后我们得到的挑战码长度为：3*5+1=16字节。由此可知，我们的挑战吗编码前长度只有16字节，被挑战方收到挑战后，需要15字节读取地址字段，作为地址读取存储数据的内容，然后按照指定的算法生成验证数据，回复给挑战者终端。

通过这种随机选择目标文件位置来生成挑战码的方式，对存储节点所存储的分片数据进行验证，可以避免传统的数据验证时数据运算量大，得到的摘要数据的数据存储量大，且在传输时候的传输速度较慢的问题，通过这种方式，可以提高分片数据验证速度和准确率，不影响存储节点的正常工作。

S103：接收所述存储节点发送的验证数据；所述验证数据根据所述挑战码中的目标文件位置和预设的数据生成算法生成。

存储节点在接收到挑战码之后，可以通过预设的挑战码的格式，来解析得到挑战码中的目标文件位置，并通过目标文件位置在本地读取出对应的目标分片摘要，并根据解析出来的挑战码中的算法，对解析出的目标分片摘要进行对应的算法处理，生成验证数据。

示例性地，结合步骤S102中的示例，我们将目标文件位置：k3、k6、k7、k8、k20，连同组合字符的算法名称“SHA-l”生成的挑战码发送至存储节点。存储节点在接收到挑战码之后，挑战码中的前15字节为目标文件位置，后一个字节为对应的算法名称，通过预先商定的目标文件位置的数量，可以确定15个字节中包括了5个目标文件位置，再通过这5个目标文件位置从本地中读取每个文件位置处对应的摘要数据，并通过挑战码中的算法名称对应的算法对所有的摘要数据进行计算，得到验证数据。

在存储节点生成验证数据之后，将验证数据发送至数据所有者的终端，以触发数据所有者的终端根据验证数据进行校验，得到存储节点所存储的分片数据是否正确的结论。

S104：根据所述目标分片摘要和所述数据生成算法生成目标数据，将所述验证数据和所述目标数据进行对比，若所述目标数据与所述验证数据一致，则判定所述分片文件正确。

数据所有者的终端根据目标分片摘要和数据生成算法生成目标数据，其生成目标数据的方式与存储节点生成验证数据的方式相同，都是先将目标分片数据进行组合，再对组合之后的数据根据数据生成算法生成目标数据。需要说明的是，这里的数据生成算法和生成验证数据的算法是相同的，但不不限于上述示例中的安全散列算法（Secure Hash Algorithm 1，SHA-l），还可以是其他的摘要算法，例如安全散列算法（Secure Hash Algorithm 256，SHA-256）、消息摘要算法（Message-Digest Algorithm，MD5）等，此处不做限定。

在生成目标数据之后，将验证数据和目标数据进行对比，若目标数据和验证数据一致，则判定分片文件正确；若两个数据不一致，则判定分片文件不正确。

进一步的，为了保证验证结果的正确性和精确性，我们可以确定更多数量的目标文件位置，以及这些目标文件位置对应的更多的目标分片摘要，以得到更加完整的目标数据和验证数据，更加全面的验证分片文件。但是，需要说明的是，虽然选择数量较多的摘要数据有利于验证结果的精确性，但同时也会增加计算和传输的数据量，因此，这两者之间是个需要权衡的问题，最好的情况是，既保证计算和传输的数据量较低，也同时保证数据验证的精确性。

上述方案，通过选择待验证的分片文件中至少两个目标文件位置处的预设数据量的数据作为目标分片摘要；将所有所述目标文件位置进行随机组合得到字符串形式的挑战码，并发送所述挑战码至存储所述分片文件的存储节点；接收所述存储节点发送的验证数据；所述验证数据根据所述挑战码中的目标文件位置和预设的数据生成算法生成；根据所述目标分片摘要和所述数据生成算法生成目标数据，将所述验证数据和所述目标数据进行对比，若所述目标数据与所述验证数据一致，则判定所述分片文件正确。通过将分片文件的分片摘要生成挑战码进行分片验证，降低了数据的处理量和传输量，提高了数据持有性验证的效率。

参见图2，图2是本申请实施例二提供的分片文件验证方法的流程图。本实施例中分片文件验证方法的执行主体为终端。终端包括但不限于智能手机、平板电脑、可穿戴设备等移动终端，还可以是台式电脑等。如图所示的分片文件验证方法可以包括以下步骤：

S201：获取待分片存储的原始数据。

对于传统的分布式系统，无非是在不同的区域搭建一些服务器，然后再在这些服务器上存储数据。它解决了一些集中式存储的问题，但是也存在着比如服务器成为瓶颈、由于带宽而带来的访问不便等问题。因此，P2P分布式存储应运而生。对等网络（Peer to Peer，P2P）分布式存储就是让客户也成为服务器，当在存储数据的同时，也提供空间让别人来存储。这就很好的解决了由于服务器很少而产生的瓶颈，也能在速度上加以改进。但是同样它也带来了很多的问题，例如数据稳定性、一致性、安全性、隐私性以及防攻击性都会受到或多或少的影响。本实施例主要针对的是数据的完整性问题，因为在很多情况下，我们将数据量较大的数据存储至P2P节点中，节点并不能保证数据的安全性、私密性和完整性，而完整性相比于私密性是更加重要的数据属性，如果完整性收到威胁，则我们的数据处理系统将没有一个完整、安全的数据操作基础，在P2P节点很容易遭到攻击或者发生存储、处理故障的情况下，需要及时的检测当前存储源数据的P2P节点中数据的完整性。通过给P2P节点中的数据加盐度值的方式，验证当前节点所存储的数据是否与源数据相同，是否完整的保存有原始的全部数据。在本方案中源数据用于表示最初始的数据，即数据存储的标准数据，这些数据存储在本地的服务器中，用于通过这些数据与存储在P2P节点中的数据进行对比，检验P2P节点中数据的正确性。

在本实施例中，数据所有者用于表示源数据的所有者和使用者，数据所有者可以处理数据、发送数据，但是可能因为源数据的数据量较大的原因，数据所有者会将自己所有的数据发送至其他存储节点，因此，在本方案中，存储节点便是用来存储数据所有得者的原始数据的分片数据的节点。

本实施例中的原始数据用于表示未分片之前的一个大文件，由于这个文件较大，而带来了较大的数据处理、存储以及传输压力，因此我们通过分片的方式，将其存储在不同的存储节点中。

本方案中的原始数据的获取方式可以通过有线传输或者无线传输的方式获取，其获取的时间可以是在原始数据生成完毕之后获取，也可以是在生成原始数据的同时进行获取，在原始数据的生成过程结束之后，获取原始数据的过程也跟随着结束，此处，对待分片存储的原始数据的获取方式和获取时间不做限定。

S202：将所述原始数据按照预设的分片方式进行分片，得到分片文件，并将所述分片文件发送至存储节点进行存储。

在获取到原始数据之后，由于原始数据存储的空间占有量较大，因此我们要对原始数据进行分片处理，以通过不同的存储节点来存储分片文件。

进一步的，本实施例中的步骤S202可以具体包括S2021~S2024：

S2021：确定所述原始数据的数据信息，并根据所述数据信息确定所述原始数据对应的每个分片文件所占用的存储空间容量。

我们在获取到原始数据之后，根据原始数据的数据信息，确定原始数据对应的每个分片文件所占用的存储空间容量。分片是分布式数据分配的基本单位，不同类型的应用有不同的分片方式和策略。有了分片将数据分布在不同的物理设备上，就引入了更多的设备为同一份数据服务。无论机率如何，每台设备都有一定的机会出现故障。

假设每台机器出现故障的机会是一样的，随机参与服务的机器数量增多，整个集群出现故障的机会就会随着参与服务的设备数量增加而增加，所以对于集群整体而言，出现故障的机率就是出现故障的概率与设备数据的乘积。也就是说，集群中的任何一个设备出现故障，整个集群就处于不健康的状态从而影响对外界的服务。为了解决这个问题就需要冗余，也就是这里所说的副本。它的目的在于，当集群中的一台设备出现问题的时候，会有一台跟他持有相同数据设备马上代替它的位置对外界提供服务，从而从外界看起来整个集群仍然是健康的。当然副本的存在同时也提供了一个额外的用处，就是读写分离。

进一步的，步骤S2021可以具体包括步骤S20211~S20212：

S20211：确定所述原始数据的数据重要度、数据新旧度以及数据量。

本实施例中的数据信息可以包括数据重要度、数据新旧度以及数据量，这些数据信息都是预先设定的。数据重要度用于衡量一个原始数据的数据重要程度，例如，我们可以将数据按照重要等级分为一级、二级以及三级；数据新旧度用于衡量一个原始数据生成的时间与当前时间的时间差，当一个客户数据比较新的时候，可以确定该数据可能被用到的次数较多，但当数据比较旧的时候，可能已经是相当陈旧的数据了，我们可以将这些比较陈旧的数据分成较大的分片文件，因为其调用频率会很低；数据量用于表示一个原始数据所占的存储空间，当数据量越大时，便可能需要较多的分片数量，来进行均衡的分片和存储。

S20212：根据所述数据重要度、所述数据新旧度以及所述数据量确定所述原始数据的所述分片文件的占用空间。

在确定原始数据的数据重要度、数据新旧度以及数据量之后，根据数据重要度、数据新旧度以及数据量确定原始数据的分片文件的占用空间。

具体的，假设数据重要度、数据新旧度以及数据量分别为v、t、d，我们可以通过简单的公式确定分片文件的额占用空间为：Occ=d/(v•t)。

S2022：根据所述存储空间容量将所述原始数据进行分片，得到分片文件和分片数量。

在确定了分片文件的占用空间之后，我们根据占用空间对原始数据进行分片，其分片的方式可以是根据占用空间的大小将原始数据进行平均分割，得到分片文件和对应的分片数量。

除此之外，还可以根据原始数据的文件格式，根据原始数据中的文件位置和分片文件的占用空间随机的进行分片，在根据文件位置进行分片之后，再将剩余的数据整合成分片文件。

S2023：获取网络中每个存储节点的运行参数，根据所述运行参数确定与所述分片数量相同数量的目标存储节点。

我们在生成分片文件之后，需要将分片文件存储至对应的存储节点中，但是网络中存储节点的运行情况是不同的，通过获取网络中每个存储节点的运行参数，根据运行参数确定与分片数量相同数量的目标存储节点。其中，运行参数可以包括存储节点在当前时刻的内存占用率、存储空间占用率等数据，我们选择内存占用率和存储空间占用率较小的存储节点做为目标存储节点。

S2024：将每个所述分片文件发送至对应的目标存储节点。

在确定了目标存储节点之后，我们将分片文件发送至对应的目标存储节点。需要说明的是，本方案中的目标存储节点的数量和分片文件的数量是相同的，用于高效、有序的将分片文件发送并存储至对应的存储文件。

除此之外，存储节点的数量可以小于分片文件的数量，用于在一个存储节点中存储两个或者两个以上的分片文件，这种情况适用于网络中的存储节点数量较少，或者可用与存储分片文件的存储节点的数量较少，我们通过在一个存储节点中存储至少两个分片文件，可以提高存储节点的利用率。

S203：根据所述分片文件中每个数据的文件位置，从所述分片文件中随机抽取预设数量、预设占用空间的数据作为所述分片文件的分片摘要。

在将分片文件存储至目标存储节点之后，根据分片文件中每个数据的文件位置，从分片文件中随机抽取预设数量的数据作为分片摘要，需要说明的是，所抽取的数据不是一个字节的数据，而是预设占用空间的数据。

S204：根据每个所述分片摘要在所述分片文件中的文件位置，按照查找表存储MAP的方式，存储所述分片摘要。

在获取到预设数量的文件位置处的分片摘要之后，我们得到的预设数据量的文件地址及其对应位置处的数据组合。根据每个分片摘要在分片文件中的文件位置，按照查找表存储MAP的方式，存储分片摘要。

示例性的，我们在存储目标分片摘要及其目标文件位置时，存储的方式为MAP存储的方式：h(k1)=v1，h(k2)=v2，…，h(k20)=v20，其中k1表示第一个文件位置，v1表示第一个文件位置对应的分片摘要。

S205：选择待验证的分片文件中至少两个目标文件位置处的预设数据量的数据作为目标分片摘要。

在本实施例中S205与图1对应的实施例中S101的实现方式完全相同，具体可参考图1对应的实施例中的S101的相关描述，在此不再赘述。

S206：将所有所述目标文件位置进行随机组合得到字符串形式的挑战码，并发送所述挑战码至存储所述分片文件的存储节点。

在本实施例中S206与图1对应的实施例中S102的实现方式完全相同，具体可参考图1对应的实施例中的S102的相关描述，在此不再赘述。

S207：接收所述存储节点发送的验证数据；所述验证数据根据所述挑战码中的目标文件位置和预设的数据生成算法生成。

在本实施例中S207与图1对应的实施例中S103的实现方式完全相同，具体可参考图1对应的实施例中的S103的相关描述，在此不再赘述。

S208：根据所述目标分片摘要和所述数据生成算法生成目标数据，将所述验证数据和所述目标数据进行对比，若所述目标数据与所述验证数据一致，则判定所述分片文件正确。

数据所有者的终端根据目标分片摘要和数据生成算法生成目标数据，其生成目标数据的方式与存储节点生成验证数据的方式相同，都是先将目标分片数据进行组合，再对组合之后的数据根据数据生成算法生成目标数据。需要说明的是，这里的数据生成算法和生成验证数据的算法是相同的，但不不限于上述示例中的SHAl算法，还可以是其他的摘要算法，例如SHA256，MD5等，此处不做限定。在生成目标数据之后，将验证数据和目标数据进行对比，若目标数据和验证数据一致，则判定分片文件正确、

进一步的，本实施例中还可以包括步骤S2081~S2083：

S2081：若所述目标数据与所述验证数据不一致，则判定所述分片文件不正确。

在生成目标数据之后，将验证数据和目标数据进行对比，若两个数据不一致，则判定分片文件不正确。存储节点可能对所存储的分片数据自行进行了修改或者删除等操作，或者是存储节点发生故障而导致数据存储发生问题，造成目标数据和验证数据不一致的情况。

S2082：根据验证数据和所述目标数据，确定发生不一致的数据及其在所述分片文件中的文件位置。

在确定分片文件不正确之后，根据验证数据和目标数据，确定发生不一致的数据，及其在分片文件中的文件位置。

具体的，在确定发生不一致数据及其文件位置时，可以通过将验证数据和目标数据进行对比的方式，以目标数据为基准，通过对比，确定发生不一致的验证数据中的数据摘要所对应的分片文件中的数据，以及发生不一致的数据在分片文件中的文件位置。

进一步的，由于只确定发生不一致的数据的精确性要求要高，我们可以确定发生不一致的数据所处的文件区域。通过区域性的确定发生不一致的文件位置，可以降低寻错的难度，提高数据纠错的效率。

S2083：根据所述发生不一致的数据在所述分片文件中的文件位置，从原始数据中确定所述发生不一致的数据在所述分片文件中的文件位置处所对应的正确数据，并将所述正确数据发送至所述存储节点进行数据更换。

在确定了发生不一致的数据在分片文件中的文件位置之后，根据文件位置，从原始数据中确定发生不一致的数据在分片文件中的文件位置处所对应的正确数据，并将该正确数据发送至存储节点，以进行数据更换，在存储节点中存储最正确或者最新的数据。

进一步的，由于在存储节点中的分片数据已经发生错误，数据所有者便有权利可以对该存储节点发生数据错误的原因进行排查，以通过该原因对该存储节点进行对应的处理，例如限制存储节点的权限等。

上述方案，通过获取待分片存储的原始数据；将所述原始数据按照预设的分片方式进行分片，得到分片文件，并将所述分片文件发送至存储节点进行存储；根据所述分片文件中每个数据的文件位置，从所述分片文件中随机抽取预设数量、预设占用空间的数据作为所述分片文件的分片摘要；根据每个所述分片摘要在所述分片文件中的文件位置，按照查找表存储MAP的方式，存储所述分片摘要。选择待验证的分片文件中至少两个目标文件位置处的预设数据量的数据作为目标分片摘要；将所有所述目标文件位置进行随机组合得到字符串形式的挑战码，并发送所述挑战码至存储所述分片文件的存储节点；接收所述存储节点发送的验证数据；所述验证数据根据所述挑战码中的目标文件位置和预设的数据生成算法生成；根据所述目标分片摘要和所述数据生成算法生成目分片文件摘要验证方法标数据，将所述验证数据和所述目标数据进行对比，若所述目标数据与所述验证数据一致，则判定所述分片文件正确。通过确定待分片存储的原始数据，将所述原始数据按照预设的分片方式进行分片，得到分片数据，并将所述分片数据发送至对应的存储节点，根据每个所述分片数据生成对应的分片摘要，并存储所有所述分片摘要，根据该分片摘要对分片数据进行持有性验证，提高了数据持有性验证的效率。

参见图3，图3是本申请实施例三提供的一种终端设备的示意图。终端设备包括的各单元用于执行图1~图2对应的实施例中的各步骤。具体请参阅图1~图2各自对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。本实施例的终端设备300包括：

选择单元301，用于选择待验证的分片文件中至少两个目标文件位置处的预设数据量的数据作为目标分片摘要；

发送单元302，用于将所有所述目标文件位置进行随机组合得到字符串形式的挑战码，并发送所述挑战码至存储所述分片文件的存储节点；

接收单元303，用于接收所述存储节点发送的验证数据；所述验证数据根据所述挑战码中的目标文件位置和预设的数据生成算法生成；

对比单元304，用于根据所述目标分片摘要和所述数据生成算法生成目标数据，将所述验证数据和所述目标数据进行对比，若所述目标数据与所述验证数据一致，则判定所述分片文件正确。

进一步的，所述终端设备还可以包括：

获取单元，用于获取待分片存储的原始数据；

分片单元，用于将所述原始数据按照预设的分片方式进行分片，得到分片文件，并将所述分片文件发送至存储节点进行存储；

抽取单元，用于根据所述分片文件中每个数据的文件位置，从所述分片文件中随机抽取预设数量、预设占用空间的数据作为所述分片文件的分片摘要；

存储单元，用于根据每个所述分片摘要在所述分片文件中的文件位置，按照查找表存储MAP的方式，存储所述分片摘要。

进一步的，所述分片单元可以包括：

信息确定单元，用于确定所述原始数据的数据信息，并根据所述数据信息确定所述原始数据对应的每个分片文件所占用的存储空间容量；

文件分片单元，用于根据所述存储空间容量将所述原始数据进行分片，得到分片文件和分片数量；

节点确定单元，用于获取网络中每个存储节点的运行参数，根据所述运行参数确定与所述分片数量相同数量的目标存储节点；

文件发送单元，用于将每个所述分片文件发送至对应的目标存储节点。

进一步的，所述终端设备还可以包括：

判定单元，用于若所述目标数据与所述验证数据不一致，则判定所述分片文件不正确；

位置确定单元，用于根据验证数据和所述目标数据，确定发生不一致的数据及其在所述分片文件中的文件位置；

数据更换单元，用于根据所述发生不一致的数据在所述分片文件中的文件位置，从原始数据中确定所述发生不一致的数据在所述分片文件中的文件位置处所对应的正确数据，并将所述正确数据发送至所述存储节点进行数据更换。

进一步的，所述信息确定单元可以包括：

第一确定单元，用于确定所述原始数据的数据重要度、数据新旧度以及数据量；

第二确定单元，用于根据所述数据重要度、所述数据新旧度以及所述数据量确定所述原始数据的所述分片文件的占用空间。

上述方案，通过将分片文件的分片摘要生成挑战码进行分片验证，降低了数据的处理量和传输量，提高了数据持有性验证的效率。

图4是本申请实施例四提供的终端设备的示意图。如图4所示，该实施例的终端设备4包括：处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机可读指令42。所述处理器40执行所述计算机可读指令42时实现上述各个分片文件验证方法实施例中的步骤，例如图1所示的步骤101至104。或者，所述处理器40执行所述计算机可读指令42时实现上述各装置实施例中各模块/单元的功能，例如图3所示单元301至304的功能。

示例性的，所述计算机可读指令42可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器41中，并由所述处理器40执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列指令段，该指令段用于描述所述计算机可读指令42在所述终端设备4中的执行过程。

所述终端设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器40、存储器41。本领域技术人员可以理解，图4仅仅是终端设备4的示例，并不构成对终端设备4的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一计算机非易失性可读存储介质中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一计算机非易失性可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种分片文件验证方法，其特征在于，包括：

选择待验证的分片文件中至少两个目标文件位置处的预设数据量的数据作为目标分片摘要；

将所有所述目标文件位置进行随机组合得到字符串形式的挑战码，并发送所述挑战码至存储所述分片文件的存储节点；

接收所述存储节点发送的验证数据；所述验证数据根据所述挑战码中的目标文件位置和预设的数据生成算法生成；

根据所述目标分片摘要和所述数据生成算法生成目标数据，将所述验证数据和所述目标数据进行对比，若所述目标数据与所述验证数据一致，则判定所述分片文件正确。
如权利要求1所述的分片文件验证方法，其特征在于，所述选择待验证的分片文件中至少两个目标文件位置处的预设数据量的数据作为目标分片摘要之前，还包括：

获取待分片存储的原始数据；

将所述原始数据按照预设的分片方式进行分片，得到分片文件，并将所述分片文件发送至存储节点进行存储；

根据所述分片文件中每个数据的文件位置，从所述分片文件中随机抽取预设数量、预设占用空间的数据作为所述分片文件的分片摘要；

根据每个所述分片摘要在所述分片文件中的文件位置，按照查找表存储MAP的方式，存储所述分片摘要。
如权利要求2所述的分片文件验证方法，其特征在于，所述将所述原始数据按照预设的分片方式进行分片，得到分片文件，并将所述分片文件发送至存储节点进行存储，包括：

确定所述原始数据的数据信息，并根据所述数据信息确定所述原始数据对应的每个分片文件所占用的存储空间容量；

根据所述存储空间容量将所述原始数据进行分片，得到分片文件和分片数量；

获取网络中每个存储节点的运行参数，根据所述运行参数确定与所述分片数量相同数量的目标存储节点；

将每个所述分片文件发送至对应的目标存储节点。
如权利要求1-3任一项所述的分片文件验证方法，其特征在于，所述方法还包括：

若所述目标数据与所述验证数据不一致，则判定所述分片文件不正确；

根据验证数据和所述目标数据，确定发生不一致的数据及其在所述分片文件中的文件位置；

根据所述发生不一致的数据在所述分片文件中的文件位置，从原始数据中确定所述发生不一致的数据在所述分片文件中的文件位置处所对应的正确数据，并将所述正确数据发送至所述存储节点进行数据更换。
如权利要求3所述的分片文件验证方法，其特征在于，所述确定所述原始数据的数据信息，并根据所述数据信息确定所述原始数据对应的分片文件所占用的存储空间容量，包括：

确定所述原始数据的数据重要度、数据新旧度以及数据量；

根据所述数据重要度、所述数据新旧度以及所述数据量确定所述原始数据的所述分片文件的占用空间。
一种终端设备，其特征在于，包括存储器以及处理器，所述存储器中存储有可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时，实现如下步骤：

选择待验证的分片文件中至少两个目标文件位置处的预设数据量的数据作为目标分片摘要；

将所有所述目标文件位置进行随机组合得到字符串形式的挑战码，并发送所述挑战码至存储所述分片文件的存储节点；

接收所述存储节点发送的验证数据；所述验证数据根据所述挑战码中的目标文件位置和预设的数据生成算法生成；

根据所述目标分片摘要和所述数据生成算法生成目标数据，将所述验证数据和所述目标数据进行对比，若所述目标数据与所述验证数据一致，则判定所述分片文件正确。
如权利要求6所述的终端设备，其特征在于，所述选择待验证的分片文件中至少两个目标文件位置处的预设数据量的数据作为目标分片摘要之前，还包括：

获取待分片存储的原始数据；

将所述原始数据按照预设的分片方式进行分片，得到分片文件，并将所述分片文件发送至存储节点进行存储；

根据所述分片文件中每个数据的文件位置，从所述分片文件中随机抽取预设数量、预设占用空间的数据作为所述分片文件的分片摘要；

根据每个所述分片摘要在所述分片文件中的文件位置，按照查找表存储MAP的方式，存储所述分片摘要。
如权利要求7所述的终端设备，其特征在于，所述将所述原始数据按照预设的分片方式进行分片，得到分片文件，并将所述分片文件发送至存储节点进行存储，包括：

确定所述原始数据的数据信息，并根据所述数据信息确定所述原始数据对应的每个分片文件所占用的存储空间容量；

根据所述存储空间容量将所述原始数据进行分片，得到分片文件和分片数量；

获取网络中每个存储节点的运行参数，根据所述运行参数确定与所述分片数量相同数量的目标存储节点；

将每个所述分片文件发送至对应的目标存储节点。
如权利要求6-8任一项所述的终端设备，其特征在于，还包括：

若所述目标数据与所述验证数据不一致，则判定所述分片文件不正确；

根据验证数据和所述目标数据，确定发生不一致的数据及其在所述分片文件中的文件位置；

根据所述发生不一致的数据在所述分片文件中的文件位置，从原始数据中确定所述发生不一致的数据在所述分片文件中的文件位置处所对应的正确数据，并将所述正确数据发送至所述存储节点进行数据更换。
如权利要求8所述的终端设备，其特征在于，所述确定所述原始数据的数据信息，并根据所述数据信息确定所述原始数据对应的分片文件所占用的存储空间容量，包括：

确定所述原始数据的数据重要度、数据新旧度以及数据量；

根据所述数据重要度、所述数据新旧度以及所述数据量确定所述原始数据的所述分片文件的占用空间。
一种终端设备，其特征在于，包括：

选择单元，用于选择待验证的分片文件中至少两个目标文件位置处的预设数据量的数据作为目标分片摘要；

发送单元，用于将所有所述目标文件位置进行随机组合得到字符串形式的挑战码，并发送所述挑战码至存储所述分片文件的存储节点；

接收单元，用于接收所述存储节点发送的验证数据；所述验证数据根据所述挑战码中的目标文件位置和预设的数据生成算法生成；

对比单元，用于根据所述目标分片摘要和所述数据生成算法生成目标数据，将所述验证数据和所述目标数据进行对比，若所述目标数据与所述验证数据一致，则判定所述分片文件正确。
如权利要求11所述的终端设备，其特征在于，还包括：

获取单元，用于获取待分片存储的原始数据；

分片单元，用于将所述原始数据按照预设的分片方式进行分片，得到分片文件，并将所述分片文件发送至存储节点进行存储；

抽取单元，用于根据所述分片文件中每个数据的文件位置，从所述分片文件中随机抽取预设数量、预设占用空间的数据作为所述分片文件的分片摘要；

存储单元，用于根据每个所述分片摘要在所述分片文件中的文件位置，按照查找表存储MAP的方式，存储所述分片摘要。
如权利要求12所述的终端设备，其特征在于，所述分片单元包括：

信息确定单元，用于确定所述原始数据的数据信息，并根据所述数据信息确定所述原始数据对应的每个分片文件所占用的存储空间容量；

文件分片单元，用于根据所述存储空间容量将所述原始数据进行分片，得到分片文件和分片数量；

节点确定单元，用于获取网络中每个存储节点的运行参数，根据所述运行参数确定与所述分片数量相同数量的目标存储节点；

文件发送单元，用于将每个所述分片文件发送至对应的目标存储节点。
如权利要求11-13任一项所述的终端设备，其特征在于，还包括：

判定单元，用于若所述目标数据与所述验证数据不一致，则判定所述分片文件不正确；

位置确定单元，用于根据验证数据和所述目标数据，确定发生不一致的数据及其在所述分片文件中的文件位置；

数据更换单元，用于根据所述发生不一致的数据在所述分片文件中的文件位置，从原始数据中确定所述发生不一致的数据在所述分片文件中的文件位置处所对应的正确数据，并将所述正确数据发送至所述存储节点进行数据更换。
如权利要求13所述的终端设备，其特征在于，所述信息确定单元包括：

第一确定单元，用于确定所述原始数据的数据重要度、数据新旧度以及数据量；

第二确定单元，用于根据所述数据重要度、所述数据新旧度以及所述数据量确定所述原始数据的所述分片文件的占用空间。
一种计算机非易失性可读存储介质，所述计算机非易失性可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现如下步骤：

选择待验证的分片文件中至少两个目标文件位置处的预设数据量的数据作为目标分片摘要；

将所有所述目标文件位置进行随机组合得到字符串形式的挑战码，并发送所述挑战码至存储所述分片文件的存储节点；

接收所述存储节点发送的验证数据；所述验证数据根据所述挑战码中的目标文件位置和预设的数据生成算法生成；

根据所述目标分片摘要和所述数据生成算法生成目标数据，将所述验证数据和所述目标数据进行对比，若所述目标数据与所述验证数据一致，则判定所述分片文件正确。
如权利要求16所述的计算机非易失性可读存储介质，其特征在于，所述选择待验证的分片文件中至少两个目标文件位置处的预设数据量的数据作为目标分片摘要之前，还包括：

获取待分片存储的原始数据；

将所述原始数据按照预设的分片方式进行分片，得到分片文件，并将所述分片文件发送至存储节点进行存储；

根据所述分片文件中每个数据的文件位置，从所述分片文件中随机抽取预设数量、预设占用空间的数据作为所述分片文件的分片摘要；

根据每个所述分片摘要在所述分片文件中的文件位置，按照查找表存储MAP的方式，存储所述分片摘要。
如权利要求17所述的计算机非易失性可读存储介质，其特征在于，所述将所述原始数据按照预设的分片方式进行分片，得到分片文件，并将所述分片文件发送至存储节点进行存储，包括：

确定所述原始数据的数据信息，并根据所述数据信息确定所述原始数据对应的每个分片文件所占用的存储空间容量；

根据所述存储空间容量将所述原始数据进行分片，得到分片文件和分片数量；

获取网络中每个存储节点的运行参数，根据所述运行参数确定与所述分片数量相同数量的目标存储节点；

将每个所述分片文件发送至对应的目标存储节点。
如权利要求16-18任一项所述的计算机非易失性可读存储介质，其特征在于，还包括：

若所述目标数据与所述验证数据不一致，则判定所述分片文件不正确；

根据验证数据和所述目标数据，确定发生不一致的数据及其在所述分片文件中的文件位置；

根据所述发生不一致的数据在所述分片文件中的文件位置，从原始数据中确定所述发生不一致的数据在所述分片文件中的文件位置处所对应的正确数据，并将所述正确数据发送至所述存储节点进行数据更换。
如权利要求18所述的计算机非易失性可读存储介质，其特征在于，所述确定所述原始数据的数据信息，并根据所述数据信息确定所述原始数据对应的分片文件所占用的存储空间容量，包括：

确定所述原始数据的数据重要度、数据新旧度以及数据量；

根据所述数据重要度、所述数据新旧度以及所述数据量确定所述原始数据的所述分片文件的占用空间。