WO2016091138A1

WO2016091138A1 - 数据缩减的方法及装置

Info

Publication number: WO2016091138A1
Application number: PCT/CN2015/096568
Authority: WO
Inventors: 金添福
Original assignee: 华为技术有限公司
Priority date: 2014-12-12
Filing date: 2015-12-07
Publication date: 2016-06-16
Also published as: CN104484132A; CN104484132B

Abstract

一种数据缩减的方法及装置。所述数据缩减的方法包括：根据待存储数据的特征信息，确定是否需要对所述待存储数据中的待存储数据块进行去重处理（301）；若需要，则对所述待存储数据块进行去重处理（302）；若不需要，则对所述待存储数据块进行压缩处理（303）。所述方法可以避免对无法去重或去重率低的数据块的指纹计算和查重，减少了存储服务器或存储器的CPU的资源消耗，从而解决了存储服务器或存储器的CPU资源浪费的问题。

Description

数据缩减的方法及装置

本申请要求于2014年12月12日提交中国专利局、申请号为201410767371.2、发明名称为“数据缩减的方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明实施例涉及存储技术，尤其涉及一种数据缩减的方法及装置。

背景技术

随着需要存储的数据信息的不断增加，数据缩减技术在数据存储中的作用越来越重要。

现有技术中，数据缩减主要包括分块处理、去重处理、压缩处理三个过程；其中，去重处理包括指纹计算和查重。首先，存储服务器接收客户端发送的写入请求，该写入请求包括：待存储数据；其次，存储服务器通过分块处理对待存储数据进行数据分块，将待存储数据分为预设大小的待存储数据块；再次，存储服务器对每一待存储数据块通过指纹算法分别获得该待存储数据块对应的指纹标识，并通过查重确定获得的指纹标识与指纹表中已存储的指纹标识是否相同；若相同，则表明该指纹标识对应的待存储数据块与存储服务器中已存储的数据块重复，不需要存储；若不同，则将该指纹标识所对应的待存储数据块进行压缩处理，将压缩处理后的待存储数据块存储至存储服务器中，并将该指纹标识添加至指纹表。

但是，现有技术中，在进行数据缩减时存在存储服务器的中央处理器(CPU，Central Processing Unit)资源浪费的问题。

发明内容

本发明实施例提供一种数据缩减的方法及装置，用以解决存储服务器或存储器的CPU资源浪费的问题。

第一方面，本发明实施例提供一种数据缩减的方法，包括：

根据待存储数据的特征信息，确定是否需要对所述待存储数据中的待存储数据块进行去重处理；

若需要，则对所述待存储数据块进行去重处理；

若不需要，则对所述待存储数据块进行压缩处理。

结合第一方面，在第一方面的第一种可能实现的方式中，所述根据待存储数据的特征信息，确定是否需要对所述待存储数据中的待存储数据块进行去重处理，包括：根据所述待存储数据的位置信息，和/或所述待存储数据块的内容信息，确定是否需要对所述待存储数据块进行去重处理。

结合第一方面的第一种可能实现的方式，在第一方面的第二种可能实现的方式中，所述根据所述待存储数据的位置信息，确定是否需要对所述待存储数据块进行去重处理，包括：根据所述待存储数据对应的存储地址与预设存储地址的相对位置关系，确定是否需要对所述存储数据块进行去重处理；

其中，所述预设存储地址包括第一预设存储地址和第二预设存储地址；所述第一预设存储地址与所述第二预设存储地址之间的数据为不需要去重的数据。

结合第一方面的第二种可能实现的方式，在第一方面的第三种可能实现的方式中，所述预设存储地址，还包括：第三预设存储地址和第四预设存储地址；所述第三预设存储地址与所述第四预设存储地址之间的数据为需要去重的数据。

结合第一方面的第二种或第三种可能实现的方式，在第一方面的第四种可能实现的方式中，所述不需要去重的数据为元数据。

结合第一方面的第一种可能实现的方式，在第一方面的第五种可能实现的方式中，所述根据所述待存储数据块的内容信息，确定是否需要对所述待存储数据块进行去重处理，包括：根据所述待存储数据块的第一预设偏移位置与第二预设偏移位置之间的内容与预设内容的匹配关系，确定是否需要对所述待存储数据块进行去重处理；

其中，所述预设内容包括不需要去重的待存储数据块所需要包括的内容；所述第一预设偏移位置及所述第二预设偏移位置用于指示所述预设内容在待存储数据块中的相对位置。

结合第一方面的第五种可能实现的方式，在第一方面的第六种可能实现的方式中，所述预设内容，还包括需要去重的待存储数据块所需要包括的内容。

结合第一方面的第五种或第六种可能实现的方式，在第一方面的第七种可能实现的方式中，所述内容包括：标签。

结合第一方面的第五种至第七种任一种可能实现的方式，在第一方面的第八种可能实现的方式中，所述不需要去重的待存储数据块所需要包括的内容为FILE；若所述待存储数据块的大小为1K，则所述第一预设偏移位置为0，所述第二预设偏移位置为3。

第二方面，本发明实施例提供一种数据缩减的装置，所述装置为存储服务器，或者为包括控制单元的存储器，所述装置包括：

确定模块，用于根据待存储数据的特征信息，确定是否需要对所述待存储数据中的待存储数据块进行去重处理；

处理模块，用于当所述确定模块确定需要对所述待存储数据块进行去重处理时，对所述待存储数据块进行去重处理；否则，对所述待存储数据块进行压缩处理。

结合第二方面，在第二方面的第一种可能实现的方式中，所述确定模块，具体用于：根据所述待存储数据的位置信息，和/或所述待存储数据块的内容信息，确定是否需要对所述待存储数据块进行去重处理。

结合第二方面的第一种可能实现的方式，在第二方面的第二种可能实现的方式中，所述确定模块，具体用于：根据所述待存储数据对应的存储地址与预设存储地址的相对位置关系，确定是否需要对所述存储数据块进行去重处理；

结合第二方面的第二种可能实现的方式，在第二方面的第三种可能实现的方式中，所述预设存储地址，还包括：第三预设存储地址和第四预设存储地址；所述第三预设存储地址与所述第四预设存储地址之间的数据为需要去重的数据。

结合第二方面的第二种或第三种可能实现的方式，在第二方面的第四种可能实现的方式中，所述不需要去重的数据为元数据。

结合第二方面的第一种可能实现的方式，在第二方面的第五种可能实现的方式中，所述确定模块，具体用于：根据所述待存储数据块的第一预设偏移位置与第二预设偏移位置之间的内容与预设内容的匹配关系，确定是否需要对所述待存储数据块进行去重处理；

结合第二方面的第五种可能实现的方式，在第人方面的第六种可能实现的方式中，所述预设内容，还包括需要去重的待存储数据块所需要包括的内容。

结合第二方面的第五种或第六种可能实现的方式，在第二方面的第七种可能实现的方式中，所述内容包括：标签。

结合第二方面的第五种至第七种任一种可能实现的方式，在第二方面的第八种可能实现的方式中，所述不需要去重的待存储数据块所需要包括的内容为FILE；若所述待存储数据块的大小为1K，则所述第一预设偏移位置为0，所述第二预设偏移位置为3。

本发明实施例提供一种数据缩减的方法及装置，通过根据待存储数据的特征信息，确定是否需要对所述待存储数据中的待存储数据块进行去重处理；若需要，则对所述待存储数据块进行去重处理；若不需要，则对所述待存储数据块进行压缩处理；使得存储服务器对无法去重或去重率低的数据块不再进行去重处理；避免了对无法去重或去重率低的数据块的指纹计算和查重，减少了存储服务器或存储器的CPU的资源消耗，从而解决了存储服务器或存储器的CPU资源浪费的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明数据缩减方法的应用场景示意图一；

图2为本发明数据缩减方法的应用场景示意图二；

图3为本发明数据缩减的方法实施例一的流程图；

图4为本发明数据缩减的方法实施例二的流程图；

图5为本发明数据缩减的方法实施例四的流程图；

图6为本发明数据缩减装置实施例一的结构示意图；

图7为本发明数据缩减装置实施例六的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明数据缩减方法的应用场景示意图一；如图1所示，存储系统中，存储服务器11接收客户端12发送的写入请求；存储服务器11中的CPU 111通过分块处理对待存储数据进行分块处理；CPU 111对每一待存储数据块通过指纹算法分别获得该待存储数据块对应的指纹标识，并通过查重确定所获得指纹标识与指纹表中已存储的指纹标识是否相同；若相同，则表明该指纹标识对应的待存储数据块与存储服务器中已存储的数据块重复，不需要存储；若不同，则将该指纹标识所对应的待存储数据块进行压缩处理，将压缩处理后的待存储数据块存储至存储服务器11中的存储器112中，并将该指纹标识添加至指纹表。现有技术中，当待存储数据块无法去重(也即，待存储数据块的指纹标识与指纹表中已存储的指纹标识必定不相同)或去重率低(也即，待存储数据块的指纹标识与指纹表中已存储的指纹标识重复的概率非常小)时，待存储数据块仍然要经过去重处理中的指纹计算和查重：因此，存在存储服务器11的CPU资源浪费的问题。

本发明的数据缩减方法还可以应用于存储服务器内部第一处理单元向第二处理单元发送数据写入请求，第二处理单元对待存储数据块进行分块处理、去重处理的场景；类似的，这种场景下也存在存储服务器的CPU资源浪费的问题。

图2为本发明数据缩减方法的应用场景示意图二；如图2所示，存储系统中，存储器21接收存储服务器22发送的写入请求；存储器21中的CPU 211对待存储数据进行分块处理、去重处理；类似的，现有技术中也存在存储器21的CPU资源浪费的问题。

可选的，存储器21为包括控制单元的存储器；例如，可以为固态硬盘(SSD，Solid State Drives)，或者，也可以为磁盘。

需要说明的是，任何需要进行数据缩减处理的场景都是本发明数据缩减的方法的应用场景，都属于本发明的保护范围。

图3为本发明数据缩减的方法实施例一的流程图，如图3所示，本实施例的方法可以包括：

步骤301、根据待存储数据的特征信息，确定是否需要对所述待存储数据中的待存储数据块进行去重处理；

若需要，则执行步骤302；否则，执行步骤303。

其中，待存储数据的特征信息包括：待存储数据的位置信息，和/或待存储数据块的内容信息。

步骤302、对所述待存储数据块进行去重处理；

需要说明的是，在执行步骤302后，若确定所述待存储数据块与已存储的数据块重复，则不需要对所述待存储数据块进行存储；若确定所述待存储数据块与已存储的数据块不重复，则将所述待存储数据块进行压缩处理，并对压缩处理后的待存储数据块进行存储。

步骤303、对所述待存储数据块进行压缩处理。

现有技术中，存储服务器或存储器对所有的待存储数据块都进行去重处理；本发明中，存储服务器或存储器根据待存储数据的特征信息，确定是否需要对所述待存储数据中的待存储数据块进行去重处理；若需要，则对所述待存储数据块进行去重处理；若不需要，则对所述待存储数据块进行压缩处理。

现有技术中，由于存储服务器或存储器对所有的待存储数据块都进行去重处理；因此，当待存储数据块无法去重或去重率低时，待存储数据块仍然需要经过去重处理中的指纹计算和查重；因此，存在存储服务器或存储器的CPU资源浪费的问题。本发明中，通过根据待存储数据的特征信息，确定是否需要对所述待存储数据中的待存储数据块进行去重处理；若需要，则对所述待存储数据块进行去重处理；若不需要，则对所述待存储数据块进行压缩处理；使得存储服务器或存储器对无法去重或去重率低的数据块不再进行去重处理；避免了对无法去重或去重率低的数据块的指纹计算和查重，减少了存储服务器或存储器的CPU的资源消耗，从而解决了存储服务器或存储器的CPU资源浪费的问题。

本实施例中，通过根据待存储数据的特征信息，确定是否需要对所述待存储数据中的待存储数据块进行去重处理；若需要，则对所述待存储数据块进行去重处理；若不需要，则对所述待存储数据块进行压缩处理；使得存储服务器或存储器对无法去重或去重率低的数据块不再进行去重处理；避免了对无法去重或去重率低的数据块的指纹计算和查重，减少了存储服务器或存储器的CPU的资源消耗，从而解决了存储服务器或存储器的CPU资源浪费的问题。

图4为本发明数据缩减的方法实施例二的流程图，如图4所示，本实施例的方法可以包括：

步骤401、根据待存储数据的位置信息，确定是否需要对所述待存储数据中的待存储数据块进行去重处理；

具体的，根据所述待存储数据对应的存储地址与预设存储地址的相对位置关系，确定是否需要对所述存储数据块进行去重处理；

若需要，则执行步骤402；否则，执行步骤403。

其中，所述第一预设存储地址和所述第二预设存储地址为第一段存储空间所对应的存储地址的边界值；所述第一段存储空间为存储介质中存储不需要去重的数据的一段存储空间。

可选的，所述存储介质包括：磁盘、U盘、光盘等。

例如，文件系统中存储的内容可分为数据和元数据。数据是指普通文件中的实际数据，元数据指用来描述一个文件的特征的系统数据，例如访问权限、访问时间、修改时间、修改人等。由于对一个文件的任何操作都会造成元数据的变化，因此，元数据为不需要去重的数据。

由于元数据通常存储在磁盘分区前1/8的存储空间，因此可以将第一预设存储地址设置为磁盘分区前1/8存储空间的起始地址，将第二预设存储地址设置为磁盘分区前1/8存储空间的终止地址，通过确定待存储数据对应的存储地址是否在所述第一预设存储地址与所述第二预设存储地址之间，来确定是否需要对待存储数据中的待存储数据块进行去重处理。当待存储数据对应的存储地址在所述第一预设存储地址与所述第二预设存储地址之间时，则确定不需要对待存储数据中的待存储数据块进行去重处理。

可选的，所述预设存储地址，还可以包括：第三预设存储地址和第四预设存储地址；所述第三预设存储地址与所述第四预设存储地址之间的数据为需要去重的数据。

可选的，所述第三预设存储地址和所述第四预设存储地址为第二段存储空间所对应的存储地址的边界值；所述第二段存储空间为存储介质中存储需要去重的数据的一段存储空间。

步骤402、对所述待存储数据块进行去重处理；

需要说明的是，步骤402与步骤302相同，在此不再赘述。

步骤403、对所述待存储数据块进行压缩处理。

需要说明的是，步骤403与步骤303相同，在此不再赘述。

本实施例中，通过根据所述待存储数据对应的存储地址与预设存储地址的相对位置关系，确定是否需要对所述存储数据块进行去重处理；若需要，则对所述待存储数据块进行去重处理；若不需要，则对所述待存储数据块进行压缩处理；使得存储服务器或存储器对无法去重或去重率低的数据块不再进行去重处理；避免了对无法去重或去重率低的数据块的指纹计算和查重，减少了存储服务器或存储器的CPU的资源消耗，从而解决了存储服务器或存储器的CPU资源浪费的问题。

数据缩减的方法实施例三

可选的，在数据缩减的方法实施例二的基础上，步骤401具体还可以为：根据所述待存储数据对应的存储地址及预先存储的位置类规则，确定是否需要对所述待存储数据块进行去重处理；

其中，所述位置类规则，包括根据待存储数据对应的存储地址与预设存储地址之间的相对位置关系所确定的规则；所述预设存储地址包括第一预设存储地址和第二预设存储地址；所述第一预设存储地址与所述第二预设存储地址之间的数据为不需要去重的数据。

本实施例，通过将待存储数据对应的存储地址与预先存储的位置类规则中的各条规则进行比较，确定是否需要对所述待存储数据块进行去重处理。

例如，预先存储的位置类规则，如表1所示：

表1

其中，loc为待存储数据对应的存储位置；N1、N2、N3、N4为预设存储地址，且N1大于N2，N3大于N1，N4小于N2。

本实施例中，通过根据待存储数据对应的存储地址及预先存储的位置类规则，确定是否需要对所述待存储数据中的待存储数据块进行去重处理；若需要，则对所述待存储数据块进行去重处理；若不需要，则对所述待存储数据块进行压缩处理；使得存储服务器或存储器对无法去重或去重率低的数据块不再进行去重处理；避免了对无法去重或去重率低的数据块的指纹计算和查重，减少了存储服务器或存储器的CPU的资源消耗，从而解决了存储服务器或存储器的CPU资源浪费的问题。

图5为本发明数据缩减的方法实施例四的流程图，如图5所示，本实施例的方法可以包括：

步骤501、根据待存储数据中的待存储数据块的内容信息，确定是否需要对所述待存储数据块进行去重处理；

具体的，根据所述待存储数据块的第一预设偏移位置与第二预设偏移位置之间的内容与预设内容的匹配关系，确定是否需要对所述待存储数据块进行去重处理；

若需要，则执行步骤502；否则，执行步骤503。

可选的，所述内容包括：标签。

例如，对于桌面(windows)新技术文件系统(NTFS，New Technology File System)的主文件表(MFT，Master File Table)分区中每个1K的MFT记录，由于这些1K数据块中包含的是日期、时间等信息，因此去重率不高。并且，由于这些1K数据块的前四个字节的内容都为标签“FILE”，因此对于1K的数据块可以将第一预设偏移位置设置为0，将第二预设偏移位置设置为3，通过确定第一预设偏移位置与第二预设偏移位置之间的内容是否为“FILE”，来确定是否需要对该块进行去重。当待存储数据块第一预设偏移位置与第二预设偏移位置之间的内容(也即，前四个字节)为“FILE”(也即，与预设内容匹配)时，确定不需要对该待存储数据块进行去重处理。

可选的，所述预设内容还可以包括需要去重的待存储数据块所需要包括的内容；

可选的，根据所述待存储数据块的第一预设偏移位置与第二预设偏移位置之间的内容与预设内容的匹配关系，确定是否需要对所述待存储数据块进行去重处理，还包括：

当所述待存储数据块的第一预设偏移位置与第二预设偏移位置之间的内容为需要去重的待存储数据块所需包括的内容时，则确定需要对所述待存储数据块进行去重处理。

步骤502、对所述待存储数据块进行去重处理；

需要说明的是，步骤502与步骤302相同，在此不再赘述。

步骤503、对所述待存储数据块进行压缩处理。

需要说明的是，步骤503与步骤303相同，在此不再赘述。

本实施例中，通过根据所述待存储数据块的第一预设偏移位置与第二预设偏移位置之间的内容与预设内容的匹配关系，确定是否需要对所述待存储数据块进行去重处理；若需要，则对所述待存储数据块进行去重处理；若不需要，则对所述待存储数据块进行压缩处理；使得存储服务器或存储器对无法去重或去重率低的数据块不再进行去重处理；避免了对无法去重或去重率低的数据块的指纹计算和查重，减少了存储服务器或存储器的CPU的资源消耗，从而解决了存储服务器的CPU资源浪费的问题。

数据缩减的方法实施例五

可选的，在本发明数据缩减的方法实施例四的基础上，步骤501具体还可以为：根据所述待存储数据块的内容信息及预先存储的内容类规则，确定是否需要对所述待存储数据块进行去重处理；

其中，所述内容类规则，包括：根据待存储数据块的第一预设偏移位置和第二预设偏移位置之间的内容与预设内容之间的匹配关系所确定的规则；

本实施例，通过将待存储数据块的内容信息与预先存储的内容类规则中的各条规则进行比较，确定是否需要对所述待存储数据块进行去重处理。

例如，预先存储的内容类规则，如表2所示：

表2

其中，strl1、strl2为预设内容；n1、n2、n3、n4为预设偏移地址，且n2大于n1，n4大于n3，n3大于n2。

本实施例中，通过根据所述待存储数据块的内容信息及预先存储的内容类规则，确定是否需要对所述待存储数据块进行去重处理；若需要，则对所述待存储数据块进行去重处理；若不需要，则对所述待存储数据块进行压缩处理；使得存储服务器或存储器对无法去重或去重率低的数据块不再进行去重处理；避免了对无法去重或去重率低的数据块的指纹计算和查重，减少了存储服务器或存储器的CPU的资源消耗，从而解决了存储服务器的CPU资源浪费的问题。

图6为本发明数据缩减装置实施例一的结构示意图，该装置可以为存储服务器或包括控制单元的存储器，如图6所示，本实施例的数据缩减装置可以包括：确定模块601和处理模块602。其中，确定模块601，用于根据待存储数据的特征信息，确定是否需要对所述待存储数据中的待存储数据块进行去重处理；处理模块602，用于当确定模块601确定需要对所述待存储数据块进行去重处理时，对所述待存储数据块进行去重处理；否则，对所述待存储数据块进行压缩处理。

可选的，确定模块601，具体用于：根据所述待存储数据的位置信息，和/或所述待存储数据块的内容信息，确定是否需要对所述待存储数据块进行去重处理。

本实施例的数据缩减装置，可以用于执行图3所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

数据缩减装置实施例二

在本发明数据缩减装置实施例一的基础上，可选的，确定模块601，具体用于：根据所述待存储数据对应的存储地址与预设存储地址的相对位置关系，确定是否需要对所述存储数据块进行去重处理；

可选的，所述预设存储地址，还包括：第三预设存储地址和第四预设存储地址；所述第三预设存储地址与所述第四预设存储地址之间的数据为需要去重的数据。

本实施例的数据缩减装置，可以用于执行图4所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

数据缩减装置实施例三

在本发明数据缩减装置实施例一的基础上，可选的，确定模块601，具体用于：根据所述待存储数据对应的存储地址及预先存储的位置类规则，确定是否需要对所述待存储数据块进行去重处理；

本实施例的数据缩减装置，可以用于执行数据缩减的方法实施例三的技术方案，其实现原理和技术效果类似，此处不再赘述。

数据缩减装置实施例四

在本发明数据缩减装置实施例一的基础上，可选的，确定模块601，具体用于：根据所述待存储数据块的第一预设偏移位置与第二预设偏移位置之间的内容与预设内容的匹配关系，确定是否需要对所述待存储数据块进行去重处理；

其中，所述内容包括：标签。

可选的，所述预设内容，还包括需要去重的待存储数据块所需要包括的内容。

本实施例的数据缩减装置，可以用于执行图5所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

数据缩减装置实施例五

在本发明数据缩减装置实施例一的基础上，可选的，确定模块601，具体用于：根据所述待存储数据块的内容信息及预先存储的内容类规则，确定是否需要对所述待存储数据块进行去重处理；

其中，所述内容包括：标签。

本实施例的数据缩减装置，可以用于执行数据缩减的方法实施例五的技术方案，其实现原理和技术效果类似，此处不再赘述。

图7为本发明数据缩减装置实施例六的结构示意图，如图7所示，本实施例的数据缩减装置可以包括：处理器701和存储器702。该数据缩减装置还可以包括发射器703、接收器704。发射器703和接收器704可以和处理器701相连。其中，发射器703用于发送数据或信息，接收器704用于接收数据或信息，存储器702存储执行指令，当数据缩减装置运行时，处理器701与存储器702之间通信，处理器701调用存储器702中的执行指令，用于执行以下操作：

根据待存储数据的特征信息，确定是否需要对所述待存储数据中的待存储数据块进行去重处理；若需要，则对所述待存储数据块进行去重处理；若不需要，则对所述待存储数据块进行压缩处理。

可选的，所述根据待存储数据的特征信息，确定是否需要对所述待存储数据中的待存储数据块进行去重处理，包括：根据所述待存储数据的位置信息，和/或所述待存储数据块的内容信息，确定是否需要对所述待存储数据块进行去重处理。

可选的，所述根据所述待存储数据的位置信息，确定是否需要对所述待存储数据块进行去重处理，包括：根据所述待存储数据对应的存储地址与预设存储地址的相对位置关系，确定是否需要对所述存储数据块进行去重处理；

可选的，所述不需要去重的数据为元数据。

可选的，所述根据所述待存储数据块的内容信息，确定是否需要对所述待存储数据块进行去重处理，包括：根据所述待存储数据块的第一预设偏移位置与第二预设偏移位置之间的内容与预设内容的匹配关系，确定是否需要对所述待存储数据块进行去重处理；

可选的，所述内容包括：标签。

可选的，所述不需要去重的待存储数据块所需要包括的内容为FILE；若所述待存储数据块的大小为1K，则所述第一预设偏移位置为0，所述第二预设偏移位置为3。

本实施例的数据缩减装置，可以用于执行本发明任意实施例所提供的数据缩减的方法的技术方案，其实现原理和技术效果类似，此处不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

一种数据缩减的方法，其特征在于，包括：

根据待存储数据的特征信息，确定是否需要对所述待存储数据中的待存储数据块进行去重处理；

若需要，则对所述待存储数据块进行去重处理；

若不需要，则对所述待存储数据块进行压缩处理。
根据权利要求1所述的方法，其特征在于，所述根据待存储数据的特征信息，确定是否需要对所述待存储数据中的待存储数据块进行去重处理，包括：

根据所述待存储数据的位置信息，和/或所述待存储数据块的内容信息，确定是否需要对所述待存储数据块进行去重处理。
根据权利要求2所述的方法，其特征在于，所述根据所述待存储数据的位置信息，确定是否需要对所述待存储数据块进行去重处理，包括：

根据所述待存储数据对应的存储地址与预设存储地址的相对位置关系，确定是否需要对所述存储数据块进行去重处理；

其中，所述预设存储地址包括第一预设存储地址和第二预设存储地址；所述第一预设存储地址与所述第二预设存储地址之间的数据为不需要去重的数据。
根据权利要求3所述的方法，其特征在于，所述预设存储地址，还包括：第三预设存储地址和第四预设存储地址；所述第三预设存储地址与所述第四预设存储地址之间的数据为需要去重的数据。
根据权利要求3或4所述的方法，其特征在于，所述不需要去重的数据为元数据。
根据权利要求2所述的方法，其特征在于，所述根据所述待存储数据块的内容信息，确定是否需要对所述待存储数据块进行去重处理，包括：

根据所述待存储数据块的第一预设偏移位置与第二预设偏移位置之间的内容与预设内容的匹配关系，确定是否需要对所述待存储数据块进行去重处理；

其中，所述预设内容包括不需要去重的待存储数据块所需要包括的内容；所述第一预设偏移位置及所述第二预设偏移位置用于指示所述预设内容在待存储数据块中的相对位置。
根据权利要求6所述的方法，其特征在于，所述预设内容，还包括需要去重的待存储数据块所需要包括的内容。
根据权利要求6或7所述的方法，其特征在于，所述内容包括：标签。
根据权利要求6～8任一项所述的方法，其特征在于，所述不需要去重的待存储数据块所需要包括的内容为FILE；若所述待存储数据块的大小为1K，则所述第一预设偏移位置为0，所述第二预设偏移位置为3。
一种数据缩减装置，所述装置为存储服务器，或者为包括控制单元的存储器，所述装置包括：

确定模块，用于根据待存储数据的特征信息，确定是否需要对所述待存储数据中的待存储数据块进行去重处理；

处理模块，用于当所述确定模块确定需要对所述待存储数据块进行去重处理时，对所述待存储数据块进行去重处理；否则，对所述待存储数据块进行压缩处理。
根据权利要求10所述的装置，其特征在于，所述确定模块，具体用于：

根据所述待存储数据的位置信息，和/或所述待存储数据块的内容信息，确定是否需要对所述待存储数据块进行去重处理。
根据权利要求11所述的装置，其特征在于，所述确定模块，具体用于：

根据所述待存储数据对应的存储地址与预设存储地址的相对位置关系，确定是否需要对所述存储数据块进行去重处理；

其中，所述预设存储地址包括第一预设存储地址和第二预设存储地址；所述第一预设存储地址与所述第二预设存储地址之间的数据为不需要去重的数据。
根据权利要求12所述的装置，其特征在于，所述预设存储地址，还包括：第三预设存储地址和第四预设存储地址；所述第三预设存储地址与所述第四预设存储地址之间的数据为需要去重的数据。
根据权利要求12或13所述的装置，其特征在于，所述不需要去重的数据为元数据。
根据权利要求11所述的装置，其特征在于，所述确定模块，具体用于：

根据所述待存储数据块的第一预设偏移位置与第二预设偏移位置之间的内容与预设内容的匹配关系，确定是否需要对所述待存储数据块进行去重处理；

其中，所述预设内容包括不需要去重的待存储数据块所需要包括的内容；所述第一预设偏移位置及所述第二预设偏移位置用于指示所述预设内容在待存储数据块中的相对位置。
根据权利要求15所述的装置，其特征在于，所述预设内容，还包括需要去重的待存储数据块所需要包括的内容。
根据权利要求15或16所述的装置，其特征在于，所述内容包括：标签。
根据权利要求15～17任一项所述的装置，其特征在于，所述不需要去重的待存储数据块所需要包括的内容为FILE；若所述待存储数据块的大小为1K，则所述第一预设偏移位置为0，所述第二预设偏移位置为3。