WO2016070529A1

WO2016070529A1 - 一种实现重复数据删除的方法及装置

Info

Publication number: WO2016070529A1
Application number: PCT/CN2015/073136
Authority: WO
Inventors: 鲁飞; 刘煌
Original assignee: 中兴通讯股份有限公司
Priority date: 2014-11-07
Filing date: 2015-02-15
Publication date: 2016-05-12
Also published as: CN105630834A; CN105630834B

Abstract

一种实现重复数据删除的方法及装置，包括：在执行实时数据重删过程中，当在对内存的数据重删表中未查找到一数据块的信息；或，在预设时长内，在磁盘的数据重删表中未查找到所述数据块的信息时，将所述存储数据块写入磁盘，并根据所述数据块的写入，建立一临时数据重删表，通过预设的策略对所述临时数据重删表中记录的相应数据块进行后处理重删。本发明实施例可以避免数据重删表的全盘查找，减少实时I/O时延，提高数据重删的工作效率。

Description

一种实现重复数据删除的方法及装置

技术领域

本申请涉及数据存储技术，尤指一种实现数据删除的方法及装置。

背景技术

随着计算机信息化程度的提高，人类已经进入了信息时代。计算机以及互联网已经深入各行各业，这也使得信息数据量呈几个级数增长。而在这海量的数据中，存在大量的冗余数据。为了保证数据的安全，需要不断对数据进行备份，而在备份过程中，大量的冗余数据会随之产生。

针对冗余数据进行处理的方法被称为重复数据删除。根据对数据的处理时机不同，重复数据删除分为带内和带外两种；其中，带内是一种嵌入在整个输入/输出(I/O)流程中的处理方式，也称为实时重复数据删除。实时重复数据删除是数据在写入存储介质时分析是否有重复，并对重复的数据直接进行删除处理，以实现在第一时间减少空间占用，不过其更耗资源，有可能会影响写入的性能。带外是先正常写入数据，之后再在某个时刻对磁盘上的数据进行重删，也称为后处理重复数据删除。后处理重复数据删除是在数据写入磁盘后再进行重复数据删除操作，其技术优势在于其不会影响写入性能，但要求有足够的磁盘空间来存储所有数据，直到业务非高峰时刻时进行的重复数据删除操作。

无论是带内方式还是带外方式的重复数据删除，首先都要找到重复数据，由于需要处理的数据量可能是非常大的，从大量的数据中找到相同内容的数据块是非常费时的。尽管现有技术中通过对数据块内容的数据指纹(哈希值)，在被称为数据重删表的重删信息索引表中实现重复数据查找，但是，记录重复数据信息的数据重删表的数据量也非常的大，因此数据重删表不能被全部放入内存，内存只能作为磁盘上的数据重删表的缓冲(cache)，所以在通过数据指纹进行查找时，需要在内存和磁盘中混合查找，对数据重删表的检索成为重复数据重删系统的主要性能瓶颈。目前，对数据重删表的检索也提出了许多优化方法，例如散列表、分级索引和机制等，但通常对于一个数据存储节点，数据重删表仍然是一部分在内存中，一部分在磁盘中，实时重删系统在检索磁盘部分的数据重删表时，必然对I/O性能造成影响。

发明内容

本发明实施例提供一种实现重复数据删除的方法及装置，无需进行完整数据重删表的查找，减少进行数据重删的时间消耗，降低对I/O性能的影响。

为了解决上述技术问题，本发明实施例提供了一种实现数据重删的方法；包括：

在执行实时数据重删过程中，当在对内存的数据重删表中未查找到一数据块的信息；或，在预设时长内，在磁盘的数据重删表中未查找到所述数据块的信息时，将所述数据块写入磁盘；

根据所述数据块的写入，建立一临时数据重删表；

通过预设的策略对所述临时数据重删表中记录的相应数据块进行后处理重删。

可选地，在执行实时数据重删之前，该方法还包括：

获取所述数据块的哈希值指纹，作为删除重复数据的关键字KEY；

通过布鲁姆过滤器判断所述KEY是否记录在所述数据重删表中，当所述KEY未记录在所述数据重删表中时，进行所述数据块的存储并将所述KEY和存储地址更新到所述数据重删表中；当所述KEY已记录在所述数据重删表中时，执行实时数据重删。

可选地，通过预设的策略对所述临时数据重删表中记录的相应数据块进行后处理重删包括：

设置所述临时数据重删表的处理时长阈值，在处理时长到达阈值时，启用独立线程，对所述临时数据重删表中记录的相应数据块进行后处理重删；或者，

设置所述临时数据重删表的存储量阈值，当临时数据重删表达到存储量阈值时，启用独立线程，对所述临时数据重删表中记录的相应数据块进行后处理重删；或者，

查询到系统空闲时，启用独立线程，对所述临时数据重删表中记录的相应数据块进行后处理重删。

可选地，该方法还包括：将完成后处理重删的临时数据重删表并入到数据重删表中；具体包括：

在后处理重删过程中，对写入磁盘的非重复的数据块，将所述数据块在所述临时数据重删表的信息加入到数据重删表；对重复的数据块，将所述数据块在所述临时数据重删表的信息删除后，修改所述数据重删表中所述重复的数据块的引用次数信息。

另一方面，本发明实施例还提供一种实现重复数据删除的装置，包括：写入单元和临时数据重删处理单元；其中，

写入单元，设置为在执行实时数据重删过程中，当对内存中的数据重删表中未查询到一数据块的信息；或，在预设时长内，在磁盘的数据重删表中未查找到所述数据块的信息时，将所述数据块写入磁盘；

临时数据重删处理单元，设置为根据所述数据块的写入，建立一临时数据重删表；通过预设的策略对所述临时数据重删表中记录的相应数据块进行后处理重删。

可选地，该装置还包括获取单元和查找处理单元；其中，

获取单元，设置为在写入单元执行实时数据重删之前，获取所述数据块的哈希值指纹，作为删除重复数据的关键字KEY；

查找处理单元，设置为通过布鲁姆过滤器判断所述KEY是否记录在数据重删表中，当所述KEY未记录在数据重删表中时，进行所述数据块的存储并将KEY和存储地址更新到数据重删表中；当所述KEY已记录在数据重删表中时，执行实时数据重删。

可选地，所述临时数据重删处理单元是设置为根据所述数据块的写入，建立所述临时数据重删表；

设置所述临时数据重删表的处理时长阈值，在处理时长到达阈值时，启用独立线程，对临时数据重删表中记录的相应数据块进行后处理重删；或者，

设置临时数据重删表的存储量阈值，当临时数据重删表达到存储量阈值时，启用独立线程，对所述临时数据重删表中记录的相应数据块进行后处理重删；或者，

可选地，临时数据重删处理单元还设置为，在完成后处理重删后，将临时数据重删表并入到所述数据重删表中，包括：

在后处理重删过程中，对写入磁盘的非重复的数据块，将所述数据块在所述临时数据重删表的信息加入到数据重删表；对重复的数据块，将所述数据块在临时数据重删表的信息删除后，修改所述数据重删表中所述重复的数据块的引用次数信息，以实现将完成后处理重删的临时数据重删表并入到数据重删表中。

本发明实施例还提供一种计算机可读存储介质，所述存储介质存储有计算机程序，该计算机程序包括程序指令，当该程序指令被重复数据删除设备执行时，使得该设备可执行上述实现重复数据删除的方法。

与现有技术相比，本发明实施例提供的技术方案，包括：在执行实时数据重删过程中，当在内存的数据重删表中未查找到一数据块的信息；或，在预设时长内，在内存的数据重删表中未查找到所述数据块的信息和在磁盘的数据重删表中未查找到所述数据块的信息时，将所述数据块写入磁盘，并根据所述数据块的写入，建立一临时数据重删表；根据预设的策略对所述临时数据重删表中记录的相应数据块进行后处理重删。本发明实施例避免了数据重删表的全盘查找，减少了实时I/O时延，提高了数据重删的工作效率。可选地，通过布鲁姆过滤器进行数据重删表的快速判断，减少了实时数据重删所要处理的数据块。

附图概述

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本发明实施例的实现重复数据删除的方法的流程图；

图2为本发明实施例的实现重复数据删除的装置的结构框图；

图3为本发明另一实施例的方法的流程图。

本发明的较佳实施方式

下文中将结合附图对本申请的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

为了清楚的陈述本发明实施例的内容，对布鲁姆过滤器(Bloom filter)做简要介绍，布鲁姆过滤器是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。

图1为本发明实施例的实现重复数据删除的方法的流程图，如图1所示，包括：

步骤100、在执行实时数据重删过程中，如果在内存的数据重删表中未查找到一数据块的信息；或，在预设时长内，在磁盘的数据重删表中未查找到所述数据块的信息时，则将所述数据块写入磁盘；

需要说明的是，对数据块执行重删，可以参照相关技术的删除重复数据的方法，一般包括：计算该数据块的哈希值；根据哈希值在数据重删表中进行重删数据的匹配查找，一般按照先在内存中的数据重删表中进行查找，未找到时，再到磁盘中的数据重删表中进行查找；在查找过程中，如果查找到重复的数据块，则进行重复数据块的去重处理；否则，将该数据块写入磁盘中，并更新数据重删表。本步骤中，在对磁盘的数据重删表进行重删查找之前，已经对内存中的数据重删表进行了查找；预设时长一般指本领域技术人员根据经验获得的大于完成内存中的数据重删表的存储数据块的重删查找所需的时间，即预设时长按照数据重删的处理过程，必定完成了内存中的数据重删表的重删查找，进行了部分磁盘中的数据重删表的查找。

步骤101、根据所述数据块的写入，建立临时数据重删表，通过预设的策略对临时数据重删表中记录的数据块进行后处理重删。

其中，所述临时数据重删表是按照数据重删表的格式和内容建立的临时记录表项，形成异步重删队列，但不更新到相关技术中的数据重新表。

本步骤中，根据预设的策略对临时数据重删表中记录的数据块进行后处理重删具体包括：

设置临时数据重删表的处理时长阈值，在处理时长到达阈值时，启用独立线程，对临时数据重删表中记录的数据块进行后处理重删；或者，

设置临时数据重删表的存储量阈值，当临时数据重删表达到存储量阈值时，启用独立线程，对临时数据重删表中记录的数据块进行后处理重删；或者，

查询到系统空闲时，启用独立线程，对临时数据重删表中记录的数据块进行后处理重删。

通过在内存的数据重删表中未查找到一数据块的信息，或在预设时长内，在磁盘的数据重删表中未查找到所述数据块的信息时、直接将所述数据块写入磁盘，并建立临时数据重删表，进行后处理重删，避免了数据重删表的全盘查找，减少了实时I/O时延，提高了数据重删的工作效率。

本发明实施例的方法之前还包括：获取所述数据块的哈希值指纹，作为删除重复数据的关键字(KEY)；

通过布鲁姆过滤器判断KEY是否记录在数据重删表中，当未记录在数据重删表中时，进行数据块的存储并将KEY和存储地址更新到数据重删表中；否则，执行实时数据重删。

需要说明的是，获取数据块的哈希值指纹为现有方法，属于本领域技术人员的惯用技术手段。布鲁姆过滤器可以快速地判断未记录在数据重删表的部分；对无法确认的部分，布鲁姆过滤器在判断一个元素是否属于某个集合时，有可能会把不属于这个集合的元素误认为属于这个集合(false positive)的问题。因此，Bloom filter不适合那些“零错误”的应用场合。在能容忍低错误率的应用场合下，Bloom filter通过极少的错误换取了存储空间的极大节省。对于无法确定是否记录在数据重删表和判断出记录在数据重删表的部分数据块需要执行实时数据重删。

利用数据块的哈希值指纹，作为一个KEY，通过Bloom filter在数据重删表中的查询，可以快速地确定在数据重删表中不存在的数据块记录，结合Bloom过滤器提升了实时数据重删的效率，避免了实时数据重删对数据重删表进行整表查找所带来的开销。

进一步地，对数据重删表中不存在记录信息的数据块进行存储处理后，对于在数据重删表中没有记录信息的部分数据块采用实时数据重删流程进行处理，存储数据块的数量大大降低，避免了对I/O性能的影响。

在完成后处理重删后，本发明实施例的方法还包括：将完成后处理重删的临时数据重删表并入到数据重删表中。具体包括：

在后处理重删过程中，对写入磁盘的非重复数据块，将其在临时数据重删表的信息加入到数据重删表；对重复数据块，将其在临时数据重删表的信息删除后，修改数据重删表中对所述重复数据块的引用次数等信息。

本发明实施例通过布鲁姆过滤器进行数据重删表的快速判断，对数据重删表中不存在的数据块进行处理，使实时数据重删所要处理的数据块大大减少，也避免了实时数据重删对I/O性能的影响，提高了数据重删的工作效率。进一步地，通过对内存中的数据重删表进行重删查找，或基于预设时长进行重删查找后，将未找到记录信息的数据块，直接存储到磁盘中，并建立临时数据重删表，然后按照预设策略对数据重删表进行调整和更新，使数据重删过程效率对系统影响降低，数据重删效率得到提高。

图2为本发明实施例的实现重复数据删除的装置的结构框图，如图2所示，包括：写入单元和临时数据重删处理单元；其中，

写入单元，适用于在执行实时数据重删过程中，当在内存的数据重删表中未查找到一数据块的记录信息；或，在预设时长内，在磁盘的数据重删表中未查找到所述数据块的记录信息时，将所述数据块写入磁盘；

临时数据重删处理单元，适用于根据所述数据块的写入，建立临时数据重删表，通过预设的策略对临时数据重删表中记录的数据块进行后处理重删。

临时数据重删处理单元具体适用于，根据所述数据块的写入，建立临时数据重删表；

临时数据重删处理单元还适用于，在完成后处理重删后，将临时数据重删表并入到数据重删表中；具体包括：

在后处理重删过程中，对写入磁盘的非重复的数据块，将其在临时数据重删表的信息加入到数据重删表；对重复的数据块，将其在临时数据重删表的信息删除后，修改数据重删表中对所述数据块的引用次数等信息，以实现将后处理重删的临时数据重删表并入到数据重删表中。

本发明实施例的装置还包括获取单元和查找处理单元；其中，

获取单元，适用于在写入单元执行实时数据重删之前，获取所述数据块的哈希值指纹，作为删除重复数据的关键字(KEY)；

查找处理单元，适用于通过布鲁姆过滤器判断KEY是否记录在数据重删表中，当未记录在数据重删表中时，进行数据块的存储并将KEY和存储地址更新到数据重删表中；否则，执行实时数据重删。

需要说明的是，查找处理单元和临时数据重删处理单元，在确定对存储数据块的处理之后，按照现有的方法进行删除或写入处理，具体实现时，通过给相应的存储数据块一个通知(或指令)，使存储数据块根据通知执行相应的写入磁盘或删除的操作。

为清楚陈述本发明，以下通过具体实施例，对本发明进行详细说明，实施例只为清楚说明本发明，并不用于限制本发明的保护内容。

实施例1

在实际应用中，对数据进行重删处理时，首先会对数据进行分块处理，生成数据块，通过对数据块执行数据重删表的查找，实现数据的重删处理。假设直接采用实时数据的重删，由于数据重删表可能非常大，对存储数据块进行数据重删表的查找(也可以说是检索)需要消耗较长的时间，特别是如果无法在内存中缓存的数据重删表中找到数据，而需要查找磁盘中的数据重删表时，那么消耗的时间就非常多，对I/O性能的影响非常大。

图3为本发明另一实施例的方法的流程图，如图3所示，包括：

步骤300、获取数据块的哈希值指纹，作为删除重复数据的关键字(KEY)；

步骤301、通过布鲁姆过滤器判断KEY是否记录在数据重删表中，当未记录数据重删表中时，进行数据块的存储并将KEY和存储地址更新到数据重删表中；否则，执行实时数据重删。

通过实验测试，经本地实际测试，使用zfs作为本地文件系统，在zfs的pool中已经有少量数据(3.4G)的情况下(ddt数据重删表中存在少量记录)写入大量的存储数据块(新数据)(11G)，对比不启用Bloom过滤器和启用Bloom过滤器的写入速度，发现启用Bloom过滤器的写入效率大概提高了14％左右。在这基础上对这些已经写入的数据再进行一次写入(重拷旧数据)，发现启用了Bloom过滤器的写入速度提升了大概18％。

由于理论上ddt的数据重删表中的记录越多，那么查找ddt数据重删表就越耗时，那么启用Bloom过滤器后的效果会更加的明显。因此后续又进行了一次数据量较大的测试。在zfs的pool中已经有25G大小存储数据块的情况下，再往pool中写入45G左右大小的存储数据块，对比不开启Bloom过滤器和开启Bloom过滤器的情况，发现启用了Bloom过滤器情况下存储数据块的写入速度提升了大概110％，这个写入速度的提升就相当明显了。

步骤302、在进行实时数据重删时，如果对内存中数据重删表中没有查找到某个数据块的记录信息；或在预设时长内，对内存中的数据重删表进行数据块的重删查找后和磁盘的数据重删表的重删查找，没有查找到该数据块的记录信息时，将该数据块写入磁盘；

步骤303、根据所述数据块的写入，建立一临时数据重删表；根据预设的策略，启用独立线程对临时数据重删表中记录的相应数据块进行后处理重删；

步骤304、完成后处理重删时，将完成后处理重删的临时数据重删表并入到数据重删表中。

按照预设的策略，启用独立线程主要包括：设置临时数据重删表的处理时长阈值，在处理时长到达阈值时，启用独立线程，对临时数据重删表中记录的数据块进行后处理重删；或者，

具体启用独立线程的工作过程如下：

首先，进程的初始状态为“等待外部唤醒”状态。

当在实时重删系统建立临时数据重删表时，通过临时数据重删表，会发出对独立线程的唤醒信号。

在唤醒状态在执行流程中，当临时数据重删表达到存储量阈值时，直接进入后处理重删，开始重删操作；如果临时数据重删表未达到存储量阈值，根据设置临时数据重删表的处理时长阈值进入计时等待，计时到达时，直接进入后处理重删，开始重删操作；如果查询到系统空闲，则直接进入后处理重删，开始重删操作。

进入重删处理时，将设置处理时长阈值的计时器清零，完成重删处理后计时器回到初始状态。

本领域普通技术人员可以理解上述实施例的全部或部分步骤可以使用计算机程序流程来实现，所述计算机程序可以存储于一计算机可读存储介质中，所述计算机程序在相应的硬件平台上(如系统、设备、装置、器件等)执行，在执行时，包括方法实施例的步骤之一或其组合。

可选地，上述实施例的全部或部分步骤也可以使用集成电路来实现，这些步骤可以被分别制作成一个个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

上述实施例中的各装置/功能模块/功能单元可以采用通用的计算装置来实现，它们可以集中在单个的计算装置上，也可以分布在多个计算装置所组成的网络上。

上述实施例中的各装置/功能模块/功能单元以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。上述提到的计算机可读取存储介质可以是只读存储器，磁盘或光盘等。

任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求所述的保护范围为准。

工业实用性

本发明实施例提供的方法及装置，在执行实时数据重删过程中，当在对内存的数据重删表中未查找到一数据块的信息；或在预设时长内，在磁盘的数据重删表中未查找到所述数据块的信息时，将所述数据块写入磁盘，并建立临时数据重删表，然后通过预设的策略对所述临时数据重删表中记录的相应数据块进行后处理重删，可以避免数据重删表的全盘查找，减少实时I/O时延，提高数据重删的工作效率。

Claims

一种实现重复数据删除的方法，包括：

在执行实时数据重删过程中，当在内存的数据重删表中未查找到一数据块的信息；或，在预设时长内，在磁盘的数据重删表中未查找到所述数据块的信息时，将所述数据块写入磁盘；

根据所述数据块的写入，建立一临时数据重删表；

通过预设的策略对所述临时数据重删表中记录的相应数据块进行后处理重删。
根据权利要求1所述的方法，在执行实时数据重删之前，该方法还包括：

获取所述数据块的哈希值指纹，作为删除重复数据的关键字KEY；

通过布鲁姆过滤器判断所述KEY是否记录在所述数据重删表中，当所述KEY未记录在所述数据重删表中时，进行所述数据块的存储并将所述KEY和存储地址更新到所述数据重删表中；当所述KEY已记录在所述数据重删表中时，执行实时数据重删。
根据权利要求1或2所述的方法，其中，所述通过预设的策略对所述临时数据重删表中记录的相应数据块进行后处理重删包括：

设置所述临时数据重删表的处理时长阈值，在处理时长到达阈值时，启用独立线程，对所述临时数据重删表中记录的相应数据块进行后处理重删；或者，

设置所述临时数据重删表的存储量阈值，当临时数据重删表达到存储量阈值时，启用独立线程，对所述临时数据重删表中记录的相应数据块进行后处理重删；或者，

查询到系统空闲时，启用独立线程，对所述临时数据重删表中记录的相应数据块进行后处理重删。
根据权利要求1或2所述的方法，还包括：将完成后处理重删的临时数据重删表并入到数据重删表中；具体包括：

在后处理重删过程中，对写入磁盘的非重复的数据块，将所述数据块在所述临时数据重删表的信息加入到所述数据重删表；对重复的数据块，将所述数据块在所述临时数据重删表的信息删除后，修改所述数据重删表中所述重复的数据块的引用次数信息。
一种实现重复数据删除的装置，包括：写入单元和临时数据重删处理单元；其中，

写入单元，设置为在执行实时数据重删过程中，当在内存中的数据重删表中未查找到一数据块的信息；或，在预设时长内，在磁盘的数据重删表中未查找到所述数据块的信息时，将所述数据块写入磁盘；

临时数据重删处理单元，设置为根据所述数据块的写入，建立一临时数据重删表；通过预设的策略对所述临时数据重删表中记录的相应数据块进行后处理重删。
根据权利要求5所述的装置，还包括获取单元和查找处理单元；其中，

获取单元，设置为在写入单元执行实时数据重删之前，获取所述数据块的哈希值指纹，作为删除重复数据的关键字KEY；

查找处理单元，设置为通过布鲁姆过滤器判断所述KEY是否记录在数据重删表中，当所述KEY未记录在数据重删表中时，进行所述数据块的存储并将KEY和存储地址更新到数据重删表中；当所述KEY已记录在数据重删表中时，执行实时数据重删。
根据权利要求5或6所述的装置，其中，所述临时数据重删处理单元是设置为根据所述数据块的写入，建立所述临时数据重删表；

设置所述临时数据重删表的处理时长阈值，在处理时长到达阈值时，启用独立线程，对所述临时数据重删表中记录的相应数据块进行后处理重删；或者，

设置所述临时数据重删表的存储量阈值，当临时数据重删表达到存储量阈值时，启用独立线程，对所述临时数据重删表中记录的相应数据块进行后处理重删；或者，

查询到系统空闲时，启用独立线程，对所述临时数据重删表中记录的相应数据块进行后处理重删。
根据权利要求5或6所述的装置，其中，所述临时数据重删处理单元还设置为：在完成后处理重删后，将临时数据重删表并入到所述数据重删表中，包括：

在后处理重删过程中，对写入磁盘的非重复的数据块，将所述数据块在所述临时数据重删表的信息加入到数据重删表；对重复的数据块，将所述数据块在所述临时数据重删表的信息删除后，修改所述数据重删表中所述重复的数据块的引用次数信息，以实现将完成后处理重删的临时数据重删表并入到数据重删表中。
一种计算机可读存储介质，所述存储介质存储有计算机程序，该计算机程序包括程序指令，当该程序指令被重复数据删除设备执行时，使得该设备可执行权利要求1-4任一项的方法。