WO2014089802A1

WO2014089802A1 - 一种数据处理方法及装置

Info

Publication number: WO2014089802A1
Application number: PCT/CN2012/086538
Authority: WO
Inventors: 左少夫
Original assignee: 华为技术有限公司
Priority date: 2012-12-13
Filing date: 2012-12-13
Publication date: 2014-06-19
Also published as: CN104012055B; CN104012055A

Abstract

本发明实施例提供了一种数据处理方法，包括：构造沿数据流滑动的数据窗口，所述数据窗口的长度为预设数目的字节；所述数据窗口滑动时，判断所述数据窗口中心位置数据对应的哈希值是否为极值；若是，则确定该位置为第一个中间极值点，所述数据窗口继续滑动以确定后续的中间极值点；若否，则所述数据窗口继续滑动以确定第一个中间极值点；提取相邻中间极值点之间的数据组合成有效数据分片，将所述中间极值点之外的数据作为无效数据分片。本发明实施例还提供了一种数据处理装置。采用本发明，可提升数据去重的效果，提高数据处理的效率，降低数据分片的管理和维护成本。

Description

一种数据处理方法及装置技术领域

本发明涉及计算机技术领域，尤其涉及一种数据处理方法及装置。背景技术

随着信息化社会的飞速发展，需要存储或传输的数据呈指数级增长，数据占用的空间急剧膨胀，但是用于数据存储的容量空间与用于数据传输的网络带宽却受限于存储系统和网络设备高昂的架设、管理以及维护成本而难以与当今庞大的数据量相匹配。在数据存储或网络传输过程中存在大量的重复数据。为了緩解数据量飞快增长与硬件设施更新緩慢之间的矛盾，可采用数据去重（ Data Deduplication, 筒称 DD )压缩技术对数据进行压缩处理。区别于视频、音频、图像以及其它通用的数据压缩技术， DD压缩技术不仅关注数据对象内部数据的重复，还关注数据对象之间数据的重复。其处理流程如下：预先将数据对象切割成片，并建立数据分片及其特征索引库。当相同的数据分片再次出现时，使用较短的分片索引代替较长的分片数据，从而实现存储或传输的数据压缩，达到节省存储空间或提升传输带宽利用率的效果。其中，数据分片是 DD压缩过程的关键环节，数据分片方法的优劣将直接影响 DD压缩技术的效果和性能。

现有技术中采用的基于极值分片的方法来进行数据的处理。该方法通过构造沿数据流按字节滑动的数据窗口，连续对数据窗口内的数据进行哈希计算，从中筛选出在特定范围内的极值，然后提取相邻极值点之间的数据组合成数据分片。首先，由于该方法以字节为单位对数据进行处理，当两个极值点距离 4艮近时，容易产生较短的数据分片，极端情况下还有可能获得单字节的数据分片。这些较短的数据分片与分片索引在长度上相差不大，甚至更短，难以实现数据压缩，反而使得 DD压缩效果不断恶化；其次，对于较短的数据分片，其管理与维护成本与正常数据分片一样，无形中带来了管理与维护成本的提升；最后，该方法必须遍历数据对象中的每个字节，因此数据处理性能较低。发明内容

本发明实施例提供了一种数据处理方法及装置，可提升数据去重的效果，提高数据处理的效率，降低数据分片的管理和维护成本。

本发明实施例第一方面提供一种数据处理方法，可包括：

构造沿数据流滑动的数据窗口，所述数据窗口的长度为预设数目的字节；所述数据窗口滑动时，判断所述数据窗口中心位置对应数据的哈希值是否为极值；

若是，则确定该位置为第一个中间极值点，所述数据窗口继续滑动以确定后续的中间极值点；若否，则所述数据窗口继续滑动以确定第一个中间极值点；提取相邻中间极值点之间的数据组合成有效数据分片，将所述中间极值点之外的数据作为无效数据分片。

在第一种可能的实现方式中，所述极值包括极大值和极小值。

结合第一方面或第一方面的第一种可能的实现方式，在第二种可能的实现方式中，判断所述数据窗口中心位置数据对应的哈希值是否为极值，可包括：确定所述数据窗口在数据流上滑动的第一起始点 a,第一中间点 b及第一截止点 2b-a;

当采用极大值进行处理时，比较所述第一中间点 b对应的数据的哈希值与所述第一中间点 b至所述第一截止点 2b-a的区域之间各个位置点对应的数据的哈希值；

若存在一个位置点 y,所述位置点 y对应的数据的哈希值大于所述第一中间点 b对应的数据的哈希值，则将所述数据窗口右移 y-b的距离，新的数据窗口以 y+a-b作为第二起始点，所述位置点 y作为第二中间点， y+b-a作为第二截止点；比较所述第二中间点 y对应的数据的哈希值与所述第二中间点 y至所述第二起始点 y+a-b的区域之间各个位置点对应的数据的哈希值；

若存在一个位置点 X ,所述位置点 X对应的数据的哈希值大于或等于所述第二中间点 y对应的数据的哈希值，则将所述数据窗口右移 b-a+1的距离，新的数据窗口以 (y+1)作为第三起始点，（y+l)+b-a作为第三中间点，（y+l)+2b-2a作为第三截止点；

其中， a、 b、 x、 y均为自然数。

结合第一方面或第一方面的第一种可能的实现方式，在第三种可能的实现方式中，判断所述数据窗口中心位置数据对应的哈希值是否为极值，可包括：确定所述数据窗口在数据流上滑动的第一起始点 a,第一中间点 b及第一截止点 2b-a;

当采用极大值进行处理时，比较所述第一中间点 a对应的数据的哈希值与所述第一中间点 a至所述第一截止点 2b-a的区域之间各个位置点对应的数据的哈希值；

若存在一个位置点 y,所述位置点 y对应的数据的哈希值等于所述第一中间点 b对应的数据的哈希值，则将所述数据窗口右移 y-b+1的距离，新的数据窗口以 (y+l)+a-b为第二起始点，（y+1)为第二中间点，（y+l)+b-a为第二截止点；比较所述第二中间点（y+1)对应的数据的哈希值与所述第二中间点（y+1)至所述第二起始点 (y+l)+a-b的区域之间各个位置点对应的数据的哈希值；

若存在一个位置点 X ,所述位置点 X对应的数据的哈希值大于或等于所述第二中间点 (y+1)对应的数据的哈希值，则将所述数据窗口右移 b-a+1 的距离，新的数据窗口以（y+2)作为第三起始点，（y+2)+b-a作为第三中间点，（y+2)+2b-2a 作为第三截止点；

其中， a、 b、 x、 y均为自然数。

结合第一方面或第一方面的第一种可能的实现方式，在第四种可能的实现方式中，判断所述数据窗口中心位置数据对应的哈希值是否为极值，可包括：确定所述数据窗口在数据流上滑动的第一起始点 a,第一中间点 b及第一截止点 2b-a;

当采用极小值进行处理时，比较所述第一中间点 b对应的数据的哈希值与所述第一中间点 b至所述第一截止点 2b-a的区域之间各个位置点对应的数据的哈希值；

若存在一个位置点 y,所述位置点 y对应的数据的哈希值小于所述第一中间点 b对应的数据的哈希值，则将所述数据窗口右移 y-b的距离，新的数据窗口以 y+a-b作为第二起始点，所述位置点 y作为第二中间点， y+b-a作为第二截止点；比较所述第二中间点 y对应的数据的哈希值与所述第二中间点 y至所述第二起始点 y+a-b的区域之间各个位置点对应的数据的哈希值；

若存在一个位置点 X ,所述位置点 X对应的数据的哈希值小于或等于所述第二中间点 y对应的数据的哈希值，则将所述数据窗口右移 b-a+1的距离，新的数据窗口以 (y+1)作为第三起始点，（y+l)+b-a作为第三中间点，（y+l)+2b-2a作为第三截止点；其中， a、 b、 x、 y均为自然数。

结合第一方面或第一方面的第一种可能的实现方式，在第五种可能的实现方式中，判断所述数据窗口中心位置数据对应的哈希值是否为极值，可包括：确定所述数据窗口在数据流上滑动的第一起始点 a,第一中间点 b及第一截止点 2b-a;

当采用极小值进行处理时，比较所述第一中间点 a对应的数据的哈希值与所述第一中间点 a至所述第一截止点 2b-a的区域之间各个位置点对应的数据的哈希值；

若存在一个位置点 X ,所述位置点 X对应的数据的哈希值小于或等于所述第二中间点 (y+1)对应的数据的哈希值，则将所述数据窗口右移 b-a+1 的距离，新的数据窗口以（y+2)作为第三起始点，（y+2)+b-a作为第三中间点，（y+2)+2b-2a 作为第三截止点；

其中， a、 b、 x、 y均为自然数。

结合第一方面或结合第一方面的第一或第二或第三或第四或第五种可能的实现方式，在第六种可能的实现方式中，在确定所述中间极值点之前，还可包括：

将数据流中的每个字节扩展成 N个新字节作为数据处理的最小单位，其中，每个最小单位对应一个整数， N>1。

结合第一方面的第六种可能的实现方式，在第七种可能的实现方式中，所述最小单位中新字节的数目 N与进行数据处理的处理器单次处理的最大字节数目相等，且所述新字节之间采用 256进制。

结合第一方面的第六或第七种可能的实现方式，在第八种可能的实现方式中，所述最小单位对应的整数为无符号整数。

结合第一方面或结合第一方面的第一或第二或第三或第四或第五或第六或第七或第八种可能的实现方式，在第九种可能的实现方式中，提取相邻中间极值点之间的数据组合成有效数据分片，将所述中间极值点之外的数据作为无效数据分片之后，还可包括：

对所述有效数据分片及无效数据分片进行哈希计算得到对应的数据签名；在已建立的数据签名库中检索所述数据签名，判断所述数据签名是否存在；若不存在，则存储所述数据分片及对应的数据签名；

若已存在，则不存储所述数据分片及对应的数据签名。

结合第一方面或结合第一方面的第一或第二或第三或第四或第五或第六或第七或第八或第九种可能的实现方式，在第十种可能的实现方式中，所述数据可以为网络数据或存储数据。

本发明实施例第二方面提供一种数据处理装置，可包括：

窗口构造单元，用于构造沿数据流滑动的数据窗口，所述数据窗口的长度为预设数目的字节；

极值判断单元，用于所述数据窗口滑动时，判断所述数据窗口中心位置数据对应的哈希值是否为极值；若是，则确定该位置为第一个中间极值点，所述数据窗口继续滑动以确定后续的中间极值点；若否，则所述数据窗口继续滑动以确定第一个中间极值点；

数据切片单元，用于提取相邻中间极值点之间的数据组合成有效数据分片，将所述中间极值点之外的数据作为无效数据分片。

结合第二方面或第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述极值判断单元可进一步用于：

确定所述数据窗口在数据流上滑动的第一起始点 a,第一中间点 b及第一截止点 2b-a;

其中， a、 b、 x、 y均为自然数。

结合第二方面或第二方面的第一种可能的实现方式，在第三种可能的实现方式中，所述极值判断单元可进一步用于：

其中， a、 b、 x、 y均为自然数。

结合第二方面或第二方面的第一种可能的实现方式，在第四种可能的实现方式中，所述极值判断单元可进一步用于：

当采用极小值进行处理时，比较所述第一中间点 b对应的数据的哈希值与所述第一中间点 b至所述第一截止点 2b-a的区域之间各个位置点对应的数据的哈希值；若存在一个位置点 y,所述位置点 y对应的数据的哈希值小于所述第一中间点 b对应的数据的哈希值，则将所述数据窗口右移 y-b的距离，新的数据窗口以 y+a-b作为第二起始点，所述位置点 y作为第二中间点， y+b-a作为第二截止点；比较所述第二中间点 y对应的数据的哈希值与所述第二中间点 y至所述第二起始点 y+a-b的区域之间各个位置点对应的数据的哈希值；

若存在一个位置点 X ,所述位置点 X对应的数据的哈希值小于或等于所述第二中间点 y对应的数据的哈希值，则将所述数据窗口右移 b-a+1的距离，新的数据窗口以 (y+1)作为第三起始点，（y+l)+b-a作为第三中间点，（y+l)+2b-2a作为第三截止点；

其中， a、 b、 x、 y均为自然数。

结合第二方面或第二方面的第一种可能的实现方式，在第五种可能的实现方式中，所述极值判断单元可进一步用于：

其中， a、 b、 x、 y均为自然数。

结合第二方面或结合第二方面的第一或第二或第三或第四或第五种可能的实现方式，在第六种可能的实现方式中，所述装置还可包括：

字节扩展单元，用于在确定所述中间极值点之前，将数据流中的每个字节扩展成 N个新字节作为数据处理的最小单位，其中，每个最小单位对应一个整数， N>1。

结合第二方面的第六种可能的实现方式，在第七种可能的实现方式中，所述最小单位中新字节的数目 N与进行数据处理的处理器单次处理的最大字节数目相等，且所述新字节之间采用 256进制。

结合第二方面的第六或第七种可能的实现方式，在第八种可能的实现方式中，所述最小单位对应的整数为无符号整数。

结合第二方面或结合第二方面的第一或第二或第三或第四或第五或第六或第七或第八种可能的实现方式，在第九种可能的实现方式中，所述装置还可包括：应的数据签名；

检索单元，用于在已建立的数据签名库中检索所述数据签名，判断所述数据签名是否存在；

存储单元，用于当所述检索单元判定所述数据签名不存在时，存储所述数据分片及对应的数据签名，若所述数据签名已存在，则不存储所述数据分片及对应的数据签名。

结合第二方面或结合第二方面的第一或第二或第三或第四或第五或第六或第七或第八或第九种可能的实现方式，在第十种可能的实现方式中，所述数据可以为网络数据或存储数据。

本发明实施例第三方面提供一种数据处理装置，可包括：

处理器及与所述处理器相配合的存储器；

所述存储器用于存储所述处理器执行的程序、极值点信息及数据分片；所述处理器用于执行以下步骤：

构造沿数据流滑动的数据窗口，所述数据窗口的长度为预设数目的字节；所述数据窗口滑动时，判断所述数据窗口中心位置数据对应的哈希值是否为极值；

结合第三方面或结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述处理器可进一步用于：

其中， a、 b、 x、 y均为自然数。

结合第三方面或结合第一方面的第一种可能的实现方式，在第三种可能的实现方式中，所述处理器可进一步用于：

若存在一个位置点 y,所述位置点 y对应的数据的哈希值等于所述第一中间点 b对应的数据的哈希值，则将所述数据窗口右移 y-b+1的距离，新的数据窗口以 (y+l)+a-b为第二起始点，（y+1)为第二中间点，（y+l)+b-a为第二截止点；比较所述第二中间点（y+1)对应的数据的哈希值与所述第二中间点（y+1)至所述第二起始点 (y+l)+a-b的区域之间各个位置点对应的数据的哈希值；若存在一个位置点 X ,所述位置点 X对应的数据的哈希值大于或等于所述第二中间点 (y+1)对应的数据的哈希值，则将所述数据窗口右移 b-a+1 的距离，新的数据窗口以（y+2)作为第三起始点，（y+2)+b-a作为第三中间点，（y+2)+2b-2a 作为第三截止点；

其中， a、 b、 x、 y均为自然数。

结合第三方面或结合第一方面的第一种可能的实现方式，在第四种可能的实现方式中，所述处理器可进一步用于：

其中， a、 b、 x、 y均为自然数。

结合第三方面或结合第一方面的第一种可能的实现方式，在第五种可能的实现方式中，所述处理器可进一步用于：

当采用极小值进行处理时，比较所述第一中间点 a对应的数据的哈希值与所述第一中间点 a至所述第一截止点 2b-a的区域之间各个位置点对应的数据的哈希值；若存在一个位置点 y,所述位置点 y对应的数据的哈希值等于所述第一中间点 b对应的数据的哈希值，则将所述数据窗口右移 y-b+1的距离，新的数据窗口以 (y+l)+a-b为第二起始点，（y+1)为第二中间点，（y+l)+b-a为第二截止点；

比较所述第二中间点（y+1)对应的数据的哈希值与所述第二中间点（y+1)至所述第二起始点 (y+l)+a-b的区域之间各个位置点对应的数据的哈希值；

其中， a、 b、 x、 y均为自然数。

结合第三方面或结合第三方面的第一或第二或第三或第四或第五种可能的实现方式，在第六种可能的实现方式中，所述处理器还可用于：

在确定所述中间极值点之前，将数据流中的每个字节扩展成 N个新字节作为数据处理的最小单位，其中，每个最小单位对应一个无符号整数， N>1 ; 所述最小单位中新字节的数目 N与进行数据处理的处理器单次处理的最大字节数目相等，且所述新字节之间采用 256进制。

结合第三方面或结合第三方面的第一或第二或第三或第四或第五或第六种可能的实现方式，在第七种可能的实现方式中，所述处理器可更进一步用于：对所述有效数据分片及无效数据分片进行哈希计算得到对应的数据签名；在已建立的数据签名库中检索所述数据签名，判断所述数据签名是否存在；若不存在，则存储所述数据分片及对应的数据签名；

若已存在，则不存储所述数据分片及对应的数据签名。

实施本发明实施例，具有如下有益效果：

通过确定数据窗口的滑动，筛选出数据流中符合中间极值特征的中间极值点，并根据得到的中间极值点进行后续的数据切片，对数据只有一次比较的处理过程，因为数据处理的效率较高，且得到的数据分片至少大于半个数据窗口，避免了切割出大量的较短数据分片而带来的数据去重效果差、管理成本高的缺点。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作筒单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图 1为本发明数据处理方法的第一实施例的流程示意图；

图为本发明数据处理方法的第二实施例的流程示意图；

图 3为本发明数据处理方法中判断中间极值点的第一实施例的流程示意图；图 4为本发明数据处理方法中判断中间极值点的第二实施例的流程示意图；图 5为本发明数据处理方法中判断中间极值点的第三实施例的流程示意图；图 6为本发明数据处理方法中判断中间极值点的第四实施例的流程示意图；图 7为本发明数据处理装置的第一实施例的组成示意图；

图 8为本发明数据处理装置的第二实施例的组成示意图；

图 9为本发明数据处理装置的第三实施例的组成示意图。具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参照图 1 , 为本发明数据处理方法的第一实施例的流程示意图；在本实施例中，所述方法包括以下步骤：

5101 , 构造沿数据流滑动的数据窗口，所述数据窗口的长度为预设数目的字节。

具体地，为了满足后续中间极值点的特征，所述数据窗口的长度必须可以包含奇数个字节。

5102, 所述数据窗口滑动时，判断所述数据窗口中心位置数据对应的哈希值是否为极值。若是，则执行步骤 S103 , 否则执行步骤 S105。

具体地，可以对数据流中的数据分别做哈希计算得到每个数据相应的哈希值。当然也可以采用其他的方式对数据进行数字标记，然后利用寻找中间极值点的原理进行后续的数据处理。 5103 , 确定该位置为第一个中间极值点，所述数据窗口继续滑动以确定后续的中间极值点。

具体地，所述极值包括极大值和极小值。当采用极大值进行数据处理时，所述中间极值点比所述数据窗口中的所有数都大，当采用极小值进行数据处理时，所述中间极值点比所述数据窗口中的所有数都小。

优选地，在确定所述中间极值点之前，还可包括：

由于单字节只有 256种变化，数据窗口的大小将被限制在一个狭小的范围内，中间极值的特征较难满足；相对于选择单字节作为数据处理的最小单位，将每个字节进行扩展后，变化增多，中间极值的特征更容易满足，且扩展后不但将字节的大小，还将字节的排序，纳入重复数据识别的范畴，适于重复数据的深度挖掘。

更优选地，所述最小单位中新字节的数目 N与进行数据处理的处理器单次处理的最大字节数目相等，且所述新字节之间采用 256进制。例如，当操作系统为 64位时，则可以将 N设为 8, 因为 64位操作系统数据处理的字长为 8, 当两者相等时，有利于提升数据处理的效率。

更优选地，所述最小单位对应的整数为无符号整数。通过实测分析发现，间极值更加均匀，也更加集中，这样有利于数据分片的管理与维护，同时有利于分片数据的再次命中。

5104, 提取相邻中间极值点之间的数据组合成有效数据分片，将所述中间极值点之外的数据作为无效数据分片。

S 105 , 所述数据窗口继续滑动以确定第一个中间极值 , ^。

通过确定数据窗口的滑动，筛选出数据流中符合中间极值特征的中间极值点，并根据得到的中间极值点进行后续的数据切片，只有一次比较的处理过程，因为数据处理的效率较高，且得到的数据分片至少大于半个数据窗口，避免了切割出大量的较短数据分片而带来的数据去重效果差、管理成本高的缺点。

请参照图 2, 为本发明数据处理方法的第二实施例的流程示意图；在本实施例中，所述方法包括以下步骤：

5201 , 构造沿数据流滑动的数据窗口，所述数据窗口的长度为预设数目的字节。

5202, 所述数据窗口滑动时，判断所述数据窗口中心位置数据对应的哈希值是否为极值。若是，则执行步骤 S203 , 否则执行步骤 S205。 S203 , 确定该位置为第一个中间极值点，所述数据窗口继续滑动以确定后续的中间极值点。

优选地，在确定所述中间极值点之前，还可包括：

所述最小单位中新字节的数目 N与进行数据处理的处理器单次处理的最大字节数目相等，且所述新字节之间采用 256进制。所述最小单位对应的整数为无符号整数。

这样，切割的数据分片可以随数据内容动态调整，因此对数据的增、删、改或错位等变化非常敏感，有利于重复数据的深度挖掘，提升数据的重复命中率。

5204, 提取相邻中间极值点之间的数据组合成有效数据分片，将所述中间极值点之外的数据作为无效数据分片。

数据分片的长度始终大于半个数据窗口大小，而且分布更加均匀，也更加集中，因此数据去重效果更优。

5205 , 所述数据窗口继续滑动以确定第一个中间极值点。

5206, 对所述有效数据分片及无效数据分片进行哈希计算得到对应的数据签名。

5207 , 在已建立的数据签名库中检索所述数据签名，判断所述数据签名是否存在。若存在，则执行步骤 S208, 否则执行步骤 S209。

5208, 不存储所述数据分片及对应的数据签名。

5209, 存储所述数据分片及对应的数据签名。

基于数据分片粒度进行存取和检索，不存在存储设备访问性能的瓶颈，而且使用分片索校验分片数据一致性，数据处理性能更高。对需要处理的字节只有一次比较操作，使得数据处理效率较高；基于数据内容进行数据分片，对数据的变化十分敏感，确保了重复的分片数据在数据中心只会存储一份，不会消耗额外的存储空间，减少了数据库的管理与维护成本。

请参照图 3 ,为本发明数据处理方法中判断中间极值点的第一实施例的流程示意图；在本实施例中，所述方法包括以下步骤：

5301 , 确定所述数据窗口在数据流上滑动的第一起始点 a, 第一中间点 b及第一截止点 2b-a。

所述数据窗口可以从数据流的起始点即 a=0 的位置开始滑动，当然，也可以从数据流的其他任意位置开始滑动。

5302, 当采用极大值进行处理时，比较所述第一中间点 b对应的数据的哈希值与所述第一中间点 b至所述第一截止点 2b-a的区域之间各个位置点对应的数据的哈希值。

5303 , 若存在一个位置点 y, 所述位置点 y对应的数据的哈希值大于所述第一中间点 b对应的数据的哈希值，则将所述数据窗口右移 y-b的距离，新的数据窗口以 y_+a-b作为第二起始点，所述位置点 y作为第二中间点， y+b-a作为第二截止点。

5304, 比较所述第二中间点 y对应的数据的哈希值与所述第二中间点 y至所述第二起始点 y+a-b的区域之间各个位置点对应的数据的哈希值。

5305 , 若存在一个位置点 X , 所述位置点 X对应的数据的哈希值大于或等于所述第二中间点 y对应的数据的哈希值，则将所述数据窗口右移 b-a+1的距离，新的数据窗口以 (y+1)作为第三起始点，（y+l)+b-a作为第三中间点，（y+l)+2b-2a 作为第三截止点。

其中， a、 b、 x、 y均为自然数。

请参照图 4,为本发明数据处理方法中判断中间极值点的第二实施例的流程示意图；在本实施例中，所述方法包括以下步骤：

5401 , 确定所述数据窗口在数据流上滑动的第一起始点 a, 第一中间点 b及第一截止点 2b-a。

5402, 当采用极大值进行处理时，比较所述第一中间点 a对应的数据的哈希值与所述第一中间点 a至所述第一截止点 2b-a的区域之间各个位置点对应的数据的哈希值。

5403 , 若存在一个位置点 y, 所述位置点 y对应的数据的哈希值等于所述第一中间点 b对应的数据的哈希值，则将所述数据窗口右移 y-b+1的距离，新的数据窗口以 (y+l)+a-b为第二起始点，（y+1)为第二中间点，（y+l)+b-a为第二截止点。

5404 , 比较所述第二中间点（y+1)对应的数据的哈希值与所述第二中间点 (y+1)至所述第二起始点 (y+l)+a-b的区域之间各个位置点对应的数据的哈希值。

5405 , 若存在一个位置点 X , 所述位置点 X对应的数据的哈希值大于或等于所述第二中间点 (y+1)对应的数据的哈希值，则将所述数据窗口右移 b-a+1 的距离，新的数据窗口以（y+2)作为第三起始点，（y+2)+b-a 作为第三中间点， (y+2)+2b-2a作为第三截止点。

其中， a、 b、 x、 y均为自然数。

请参照图 5 ,为本发明数据处理方法中判断中间极值点的第三实施例的流程示意图；在本实施例中，所述方法包括以下步骤：

5501 , 确定所述数据窗口在数据流上滑动的第一起始点 a, 第一中间点 b及第一截止点 2b-a。

5502, 当采用极小值进行处理时，比较所述第一中间点 b对应的数据的哈希值与所述第一中间点 b至所述第一截止点 2b-a的区域之间各个位置点对应的数据的哈希值。

5503 , 若存在一个位置点 y, 所述位置点 y对应的数据的哈希值小于所述第一中间点 b对应的数据的哈希值，则将所述数据窗口右移 y-b的距离，新的数据窗口以 y_+a-b作为第二起始点，所述位置点 y作为第二中间点， y+b-a作为第二截止点。

5504, 比较所述第二中间点 y对应的数据的哈希值与所述第二中间点 y至所述第二起始点 y+a-b的区域之间各个位置点对应的数据的哈希值。

5505 , 若存在一个位置点 X , 所述位置点 X对应的数据的哈希值小于或等于所述第二中间点 y对应的数据的哈希值，则将所述数据窗口右移 b-a+1的距离，新的数据窗口以 (y+1)作为第三起始点，（y+l)+b-a作为第三中间点，（y+l)+2b-2a 作为第三截止点。

其中， a、 b、 x、 y均为自然数。

请参照图 6,为本发明数据处理方法中判断中间极值点的第四实施例的流程示意图；在本实施例中，所述方法包括以下步骤：

S601 , 确定所述数据窗口在数据流上滑动的第一起始点 a, 第一中间点 b及第一截止点 2b-a。 5602, 当采用极小值进行处理时，比较所述第一中间点 a对应的数据的哈希值与所述第一中间点 a至所述第一截止点 2b-a的区域之间各个位置点对应的数据的哈希值。

5603 , 若存在一个位置点 y, 所述位置点 y对应的数据的哈希值等于所述第一中间点 b对应的数据的哈希值，则将所述数据窗口右移 y-b+1的距离，新的数据窗口以 (y+l)+a-b为第二起始点，（y+1)为第二中间点，（y+l)+b-a为第二截止点。

5604 , 比较所述第二中间点（y+1)对应的数据的哈希值与所述第二中间点 (y+1)至所述第二起始点 (y+l)+a-b的区域之间各个位置点对应的数据的哈希值。

5605 , 若存在一个位置点 X , 所述位置点 X对应的数据的哈希值小于或等于所述第二中间点 (y+1)对应的数据的哈希值，则将所述数据窗口右移 b-a+1 的距离，新的数据窗口以（y+2)作为第三起始点，（y+2)+b-a 作为第三中间点， (y+2)+2b-2a作为第三截止点。

其中， a、 b、 x、 y均为自然数。

请参照图 7, 为本发明数据处理装置的第一实施例的组成示意图；在本实施例中，所述装置包括：窗口构造单元 100、极值判断单元 200及数据切片单元 300。

所述窗口构造单元 100用于构造沿数据流滑动的数据窗口，所述数据窗口的长度为预设数目的字节；

所述极值判断单元 200用于所述数据窗口滑动时，判断所述数据窗口中心位置数据对应的哈希值是否为极值；若是，则确定该位置为第一个中间极值点，所述数据窗口继续滑动以确定后续的中间极值点；若否，则所述数据窗口继续滑动以确定第一个中间极值点；

所述数据切片单元 300用于提取相邻中间极值点之间的数据组合成有效数据分片，将所述中间极值点之外的数据作为无效数据分片。

具体地，所述极值包括极大值和极小值。

所述极值判断单元 200可进一步用于：

其中， a、 b、 x、 y均为自然数。

或者，所述极值判断单元 200可进一步用于：

其中， a、 b、 x、 y均为自然数。

或者，所述极值判断单元 200可进一步用于：

确定所述数据窗口在数据流上滑动的第一起始点 a,第一中间点 b及第一截止点 2b-a; 当采用极小值进行处理时，比较所述第一中间点 b对应的数据的哈希值与所述第一中间点 b至所述第一截止点 2b-a的区域之间各个位置点对应的数据的哈希值；

其中， a、 b、 x、 y均为自然数。

或者，所述极值判断单元可进一步用于：

其中， a、 b、 x、 y均为自然数。

请参照图 8, 为本发明数据处理装置的第二实施例的组成示意图；在本实施例中，所述装置包括：窗口构造单元 100、极值判断单元 200、数据切片单元 300、字节扩展单元 400、计算单元 500、检索单元 600及存储单元 700。

所述字节扩展单元用于在确定所述中间极值点之前，将数据流中的每个字节扩展成 N个新字节作为数据处理的最小单位，其中，每个最小单位对应一个整数， N>1。

优选地，所述最小单位中新字节的数目 N与进行数据处理的处理器单次处理的最大字节数目相等，且所述新字节之间采用 256进制。

更优选地，所述最小单位对应的整数为无符号整数。得到对应的数据签名；

所述检索单元 600用于在已建立的数据签名库中检索所述数据签名，判断所述数据签名是否存在；

所述存储单元 700用于当所述检索单元判定所述数据签名不存在时，存储所述数据分片及对应的数据签名，若所述数据签名已存在，则不存储所述数据分片及对应的数据签名。

其中，所述数据为网络数据或存储数据。

请参照图 9, 为本发明数据处理装置的第三实施例的组成示意图。在本实施例中，所述装置包括：处理器 800及与所述处理器 800相配合的存储器 900; 所述存储器 900用于存储所述处理器 800执行的程序、极值点信息及数据分片；

所述处理器 800用于执行以下步骤：

具体地，所述极值包括极大值和极小值。

所述处理器 800可进一步用于：确定所述数据窗口在数据流上滑动的第一起始点 a,第一中间点 b及第一截止点 2b-a;

其中， a、 b、 x、 y均为自然数。

或者，所述处理器 800可进一步用于：

若存在一个位置点 X ,所述位置点 X对应的数据的哈希值大于或等于所述第二中间点 (y+1)对应的数据的哈希值，则将所述数据窗口右移 b-a+1 的距离，新的数据窗口以（y+2)作为第三起始点，（y+2)+b-a作为第三中间点，（y+2)+2b-2a 作为第三截止点；其中， a、 b、 x、 y均为自然数。

或者，所述处理器 800可进一步用于：

其中， a、 b、 x、 y均为自然数。

或者，所述处理器 800可进一步用于：

其中， a、 b、 x、 y均为自然数。

优选地，所述处理器 800还可用于：

更优选地，所述处理器 800可更进一步用于：

若已存在，则不存储所述数据分片及对应的数据签名。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较筒单，相关之处参见方法实施例的部分说明即可。

本发明实施例中所述的数据处理方法及装置可以广泛应用于网络传输，实现网络数据去重。只需要将数据处理装置分别部署在客户端与服务器的网络侧。

当客户端向服务器上传数据时，上传数据流经客户端数据处理装置，转换成数据分片序列，然后送入网络。在网络中，数据按分片形式进行传输。其中，重复的有效数据分片只传输分片索引，无效数据分片或不重复的有效数据分片才传输原始数据，从而实现网络数据去重。上传数据分片序列通过网络传输，抵达服务器数据处理装置，先恢复成原始的上传数据，再提交服务器处理。

当客户端向服务器下载数据时，下载数据流经服务器数据处理装置，转换成数据分片序列，然后送入网络。在网络中，数据按分片形式进行传输。其中，重复的有效数据分片只传输分片索引，无效数据分片或不重复的有效数据分片才传输原始数据，从而实现网络数据去重。下载数据分片序列通过网络传输，抵达客户端数据处理装置，先恢复成原始的下载数据，再提交客户端处理。

客户端与服务器两端的数据处理装置分别建有数据分片及其特征索引库，二者必须保持一致，才能确保一端发布的分片索引，对端可以解析。同样的，本发明所述的数据处理方法及装置还可以应用于数据存储，实现存储数据去重。数据处理装置部署在数据中心连接网络侧。

当客户端保存数据时，存储数据流经数据处理装置，转换成数据分片序列，然后提交数据中心存储。在数据中心上，数据按分片形式进行存储。其中，有效数据分片只存储分片索引，无效数据分片才存储原始数据，从而实现存储数据去重。

当客户端获取数据时，数据中心组织相应的数据分片序列，送入数据处理装置进行数据恢复，然后提交客户端处理。数据处理装置建有数据分片及其特征索引库，用以参考将数据中心存储的数据分片予以还原。

本发明所述数据处理方法及装置还可以应用于数据备份，配合数据处理装置实现备份数据去重。数据处理装置部署在服务器连接网络侧。

当服务器备份数据时，备份数据流经数据处理装置，转换成数据分片序列，然后提交备份服务器存储。在备份服务器上，数据按分片形式进行存储。其中有效数据分片只存储分片索引，无效数据分片才存储原始数据，从而实现备份数据去重。

当服务器提取数据时，备份服务器组织相应的数据分片序列，送入数据处理装置进行数据恢复，然后提交服务器处理。数据处理装置建有数据分片及其特征索引库，用以参考将备份服务器存储的数据分片予以还原。

通过上述实施例的描述，本发明具有以下优点：

通过确定数据窗口的滑动，筛选出数据流中符合中间极值特征的中间极值点，并根据得到的中间极值点进行后续的数据切片，对数据只有一次比较的处理过程，因为数据处理的效率较高，且得到的数据分片至少大于半个数据窗口，避免了切割出大量的较短数据分片而带来的数据去重效果差、管理成本高的缺点。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory, ROM )或随机存取存储器（Random Access Memory, 筒称 RAM )等。以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

权利要求

1、一种数据处理方法，其特征在于，包括：

2、如权利要求 1所述的方法，其特征在于，所述极值包括极大值和极小值。

3、如权利要求 1或 2所述的方法，其特征在于，判断所述数据窗口中心位置数据对应的哈希值是否为极值，包括：

其中， a、 b、 x、 y均为自然数。

4、如权利要求 1或 2所述的方法，其特征在于，判断所述数据窗口中心位置数据对应的哈希值是否为极值，包括：

其中， a、 b、 x、 y均为自然数。

5、如权利要求 1或 2所述的方法，其特征在于，判断所述数据窗口中心位置数据对应的哈希值是否为极值，包括：

其中， a、 b、 x、 y均为自然数。

6、如权利要求 1或 2所述的方法，其特征在于，判断所述数据窗口中心位置数据对应的哈希值是否为极值，包括：

其中， a、 b、 x、 y均为自然数。

7、如权利要求 1-6任一项所述的方法，其特征在于，在确定所述中间极值点之前，还包括：

8、如权利要求 7所述的方法，其特征在于，所述最小单位中新字节的数目 N 与进行数据处理的处理器单次处理的最大字节数目相等，且所述新字节之间采用 256进制。

9、如权利要求 7或 8所述的方法，其特征在于，所述最小单位对应的整数为无符号整数。

10、如权利要求 1-9任一项所述的方法，其特征在于，所述提取相邻中间极值点之间的数据组合成有效数据分片，将所述中间极值点之外的数据作为无效数据分片之后，还包括：

若已存在，则不存储所述数据分片及对应的数据签名。

11、如权利要求 1-10任一项所述的方法，其特征在于，所述数据为网络数据或存储数据。

12、一种数据处理装置，其特征在于，包括：

13、如权利要求 12所述的装置，其特征在于，所述极值包括极大值和极小值。

14、如权利要求 12或 13所述的装置，其特征在于，所述极值判断单元进一步用于：

其中， a、 b、 x、 y均为自然数。

15、如权利要求 12或 13所述的装置，其特征在于，所述极值判断单元进一步用于：

其中， a、 b、 x、 y均为自然数。

16、如权利要求 12或 13所述的装置，其特征在于，所述极值判断单元进一步用于：

其中， a、 b、 x、 y均为自然数。

17、如权利要求 12或 13所述的装置，其特征在于，所述极值判断单元进一步用于：

其中， a、 b、 x、 y均为自然数。

18、如权利要求 12-17任一项所述的装置，其特征在于，所述装置还包括：字节扩展单元，用于在确定所述中间极值点之前，将数据流中的每个字节扩展成 N个新字节作为数据处理的最小单位，其中，每个最小单位对应一个整数， N>1。

19、如权利要求 18所述的装置，其特征在于，所述最小单位中新字节的数目 N与进行数据处理的处理器单次处理的最大字节数目相等，且所述新字节之间采用 256进制。

20、如权利要求 18或 19所述的装置，其特征在于，所述最小单位对应的整数为无符号整数。

21、如权利要求 12-20任一项所述的装置，其特征在于，所述装置还包括：应的数据签名；

检索单元，用于在已建立的数据签名库中检索所述数据签名，判断所述数据签名是否存在；存储单元，用于当所述检索单元判定所述数据签名不存在时，存储所述数据分片及对应的数据签名，若所述数据签名已存在，则不存储所述数据分片及对应的数据签名。

22、如权利要求 12-21任一项所述的装置，其特征在于，所述数据为网络数据或存储数据。

23、一种数据处理装置，其特征在于，包括：处理器及与所述处理器相配合的存储器；

24、如权利要求 23所述的装置，其特征在于，所述极值包括极大值和极小值。

25、如权利要求 22或 23所述的装置，其特征在于，所述处理器进一步用于：

若存在一个位置点 y, 所述位置点 y对应的数据的哈希值大于所述中间点 b 对应的数据的哈希值，则将所述数据窗口右移 y-b的距离，新的数据窗口以 y+a-b 作为第二起始点，所述位置点 y作为第二中间点， y+b-a作为第二截止点；

比较所述第二中间点 y对应的数据的哈希值与所述第二中间点 y至所述第二起始点 y+a-b的区域之间各个位置点对应的数据的哈希值；

其中， a、 b、 x、 y均为自然数。

26、如权利要求 22或 23所述的装置，其特征在于，所述处理器进一步用于：

其中， a、 b、 x、 y均为自然数。

27、如权利要求 22或 23所述的装置，其特征在于，所述处理器进确定所述数据窗口在数据流上滑动的第一起始点 a,第一中间点 b及第一截止点 2b-a;

其中， a、 b、 x、 y均为自然数。

28、如权利要求 22或 23所述的装置，其特征在于，所述处理器进一步用于：

其中， a、 b、 x、 y均为自然数。

29、如权利要求 22-28所述的装置，其特征在于，所述处理器还用于：在确定所述中间极值点之前，将数据流中的每个字节扩展成 N个新字节作为数据处理的最小单位，其中，每个最小单位对应一个无符号整数， N>1 ; 所述最小单位中新字节的数目 N与进行数据处理的处理器单次处理的最大字节数目相等，且所述新字节之间采用 256进制。

30、如权利要求 22-29任一项所述的装置，其特征在于，所述处理器更进一步用于：

若已存在，则不存储所述数据分片及对应的数据签名。