WO2015120645A1

WO2015120645A1 - 一种基于服务器查找数据流分割点的方法及服务器

Info

Publication number: WO2015120645A1
Application number: PCT/CN2014/072648
Authority: WO
Inventors: 于传帅; 张程伟; 徐林波
Original assignee: 华为技术有限公司
Priority date: 2014-02-14
Filing date: 2014-02-27
Publication date: 2015-08-20
Also published as: US10542062B2; JP6198090B2; CA2922994C; BR112016005391B1; AU2014382891A1; US9967304B2; KR20160045108A; US20190215352A1; MX358948B; US20160350026A1; BR112016005391B8; NZ717601A; US20170041367A1; KR101912727B1; EP3026585A1; AU2014382891B2; US20180219930A1; IL244830B; SG10201703412SA; US9906577B2

Abstract

本发明实施例提供了一种基于服务器查找数据流分割点的方法。本发明实施例中通过判断M个窗口中某一个窗口中至少部分数据是否满足预定条件，来查找数据流分割点，当某一个窗口中至少部分数据不满足预定条件，则跳过N*U个长度，获得下一个潜在分割点，提高了数据流分割点查找效率。

Description

一种基于艮务器查找数据流分割点的方法 SJ艮务器技术领域

本发明涉及信息技术领域，尤其涉及一种基于服务器查找数据流分割点的方法及服务器。

背景技术

数据量的不断增长，使得提供充足的数据存储成为当前存储领域面临的严峻挑战。目前应对这一挑战的一种方式为利用需要存储的数据的冗余特性，使用重复数据删除技术，从而减少存储的数据量。

现有技术中，基于内容分块 (Content Defined Chunk, CDC)的重复数据删除算法，首先要将待存储的数据流分成很多数据块，而将数据流分成数据块就需要在数据流中查找合适的分割点，两个相邻数据流分割点之间的数据构成一个数据块。计算数据块的特征值，从而查找是否存在相同特征值的数据块，如果查找到相同特征指的数据块，则认为存在重复数据。具体的，基于内容分块的重复数据删除技术是应用滑动窗口技术（ Sliding Window Technique )基于文件的内容来查找分块的分割点，即通过计算窗口内数据的 Rabin指纹来确定数据流分割点。假设从数据流的左边向右边查找分割点，每次计算滑动窗口内数据的指纹，并且将指纹值基于给定的整数 K取模后，与给定的余数 R进行比对；若相等则窗口的右端为数据流分割点，否则将窗口继续往右滑动一个字节，依次循环地进行计算和比对，直到到达数据流末尾。在基于内容分块的重复数据删除过程中，查找数据流分割点，需要消耗大量的计算资源，从而成为提升重复数据删除性能的瓶颈。发明内容

第一方面，本发明实施例提供了一种基于服务器查找数据流分割点的方法，在所述服务器上预设有规则，所述规则为：为潜在分割点确定 M个点、点对应的窗口 _x[A-4, +^]和窗口 ^_χ[/^-4,Α + Β_χ ]对应的预定条件 C_x , 其中， X为 1到 M连续的自然数， Μ≥2 , A_x和为整数；所述方法包括：

a)依据所述规则为当前潜在分割点 k_t确定点及所述点对应的窗口^ [ _Piz -A_z,_Pi +B_z], i和 z为整数，并且 1≤z≤M;

b) 判断所述窗口 [p,_z-^,p,_z+S_z]中至少部分数据是否满足预定条件 C_z;

当所述窗口^ [_Az -^, _Az + S_z]中至少部分数据不满足所述预定条件 C_z，从所述点 ρ_ιζ沿所述数据流分割点查找方向跳跃 N个数据流分割点最小查找单位 U, N*U不大于 II B_z II +max_x( II A_x II + || {k.-p II ), 获得新的潜在分割点，执行步骤 a)；

c)当所述当前潜在分割点 ^的 M个窗口中的每一个窗口

中至少部分数据满足预定条件^，则所述当前潜在分割点为数据流分割点。

结合第一方面，第一种可能的实现方式中，所述规则还包括：至少两个点和，满足条件 4 = ， B =B_f , C_e = C"

结合第一方面的第一种可能的实现方式，第二种可能的实现方式中，所述规则还包括：所述至少两个点和 ,相对于所述潜在分割点 k，在所述数据流分割点查找反方向上。

结合第一方面的第一种可能的实现方式或第二种可能的实现方式，第三种可能的实现方式中，所述规则还包括：所述至少两个点和之间的距离为 1个 u。

结合第一方面，或第一方面第一至第三种任一可能的实现方式，第四种可能的实现方式中，判断所述窗口^ [_{Az z},_AZ+s_z]中至少部分数据是否满足所述预定条件 _z , 具体包括：

使用随机函数判断所述窗口^ [^-^, +s_z]中至少部分数据是否满足所述预定条件 c_z。

结合第一方面的第四种可能的实现方式，第五种可能的实现方式中，所述使用随机函数判断所述窗口^ [ - _z , + s_z ]中至少部分数据是否满足所述预定条件 C_z, 具体为使用 hash函数判断所述窗口 W_iz [ P_1Z - 4 , + S_Z ]中至少部分数据是否满足所述预定条件 C_z。

结合第一方面，或第一方面第一至第五种任一可能的实现方式，第六种可能的实现方式中，当所述窗口^ [p,_z-4, + ]中至少部分数据不满足所述预定条件 C_z，从所述点 _Piz沿所述数据流分割点查找方向跳跃 N个数据流分割点最小查找单位 U,获得所述新的潜在分割点，根据所述规则，为所述新的潜在分割点确定的点 A对应的窗口 W_;£ [ p_ic - A_c , p_ic + ]的左边界与所述窗口 ^ [ _Az - _z , p,_z + S_Z ]的右边界重合或者为所述新的潜在分割点确定的所述点 p_ic对应的所述窗口 W_FC [ p_ic - 的左边界位于所述窗口^ [A_Z-^,A_Z+S_z]范围之内; 其中，为所述新的潜在分割点确定的所述点是根据所述规则，为所述新的潜在分割点确定的 M个点按照数据流查找方向获得的序列中排序第一的点。

结合第一方面的第四种可能的实现方式，第七种可能的实现方式中，使用随机函数判断所述窗口 [ -^， A + ]中至少部分数据是否满足所述预定条件 C_z, 具体包括：

在所述窗口 W_iz [ p_iz-A_z, _Pi +B_z]中选择 F个字节，将所述 F个字节反复利用 H次，共获得 F*H个字节，其中每个字节由 8位组成，记为 c^... a_m&, 表示所述 F*H个字节中第 m个字节的第 1到第 8位，所述 F*H个字节对应的位可以表示为： , ⁷ 当。 m,n =1时 ^， ⁷ v am,n

=1, 当 „=0时， ,„=-1, 其中 „表示中的任一个，所述 F*H个字节对应的位按照 a_mn与 V_am„的转换关系得到矩阵 ,所述矩阵

^表示为： , 从服务正态分布的随机数中选

择 F*H*8个随机数组成矩阵 R, 所述矩阵 R表示为:

，将所述矩阵 V_a的第 m行与所述矩阵 R的第 m行

的随机数相乘，然后求和得到一个值，具体表示为 ^^^ υ ^ * ₂+...+ * ₈, 同理，获得 s_al、 s_a2.. s_aF,_H, 统计 S_a2... 到8。 ^中满足大于 0的值的个数 K,当 Κ为偶数，则所述窗口 W_iz [ ρ_ίζ-Α_ζ, p_iz+B_z]中至少部分数据满足所述预定条件 C_z。

第二方面，本发明实施例提供了一种基于服务器查找数据流分割点的方法，在所述服务器上预设有规则，所述规则为：为潜在分割点 /1确定 M个窗口 + ]和窗口 + ]对应的预定条件 C_x, 其中， X为 1到 M连续的自然数， M≥2, 4和^为整数；

所述方法包括：

a)依据所述规则为当前潜在分割点确定对应的窗口 -Α_ζ, k_t+B_z], i和 z为整数，并且 l≤z≤M;

b)判断所述窗口^ [ _;-^^+ ]中至少部分数据是否满足预定条件 C_z; 当所述窗口 W_iz [ k, - _z Λ· +s_z ]中至少部分数据不满足所述预定条件 c_z，从所述当前潜在分割点^沿所述数据流分割点查找方向跳跃 N个数据流分割点最小查找单位 U, N*U不大于 II

B_z II +max_x( II A_x || ), 获得新的潜在分割点，执行步骤 a) ； C)当所述当前潜在分割点 k_t的 M个窗口中的每一个窗口 fV_ix [k_t - Α_χ , k_t + B_x ]中至少部分数据满足预定条件 C_x，则所述当前潜在分割点为数据流分割点。

结合第二方面，第一种可能的实现方式中，所述规则还包括：至少两个窗口^ ]与 [ - 满足条件： \A +B_e

。

结合第二方面的第一种可能的实现方式，第二种可能的实现方式中，所述规则还包括： ^和为正整数。

结合第二方面的第一种可能的实现方式或第二种可能的实现方式，在第三种可能的实现方式中，所述规则还包括： ^-1 = ， B_e+\ =

^Bf。

结合第二方面，或第二方面第一至第三任一可能的实现方式，第四种可能的实现方式中，判断所述窗口 ^[ ·-^Λ·+ _ζ]中至少部分数据是否所述满足预定条件 C_z, 具体包括：

使用随机函数判断所述窗口 w_iz [ - 4 Λ· +s_z ]中至少部分数据是否满足所述预定条件 c_z。

结合第二方面的第四种可能的实现方式，第五种可能的实现方式中，所述使用随机函数判断所述窗口^ [ -^, + ]中至少部分数据是否满足所述预定条件 C_z, 具体为使用 hash函数判断所述窗口^ [ - K + s_z ]中至少部分数据是否满足所述预定条件 _z。

结合第二方面，或第二方面第一至第五任一可能的实现方式，第六种可能的实现方式中，当所述窗口 W_iz ik -A_z, k_t+B_z]中至少部分数据不满足所述预定条件，从所述当前潜在分割点沿所述数据流分割点查找方向跳跃 N个数据流分割点最'〗、查找单位 U 获得所述新的潜在分割点，根据所述规则，为所述新的潜在分割点确定的窗口 W,Jk, -4, k, + ^]的左边界与所述窗口 W_iz [k ~A_z, ^ + ^]的右边界重合或者为所述新的潜在分割点确定的所述窗口 W_;t [ k_; - A_c , k_t+B_c ]的左边界位于所述窗口 ^ [^_4， +S_z]范围之内；其中，为所述新的潜在分割点确定的所述窗口 W_;Jk,-4,k, + A]是根据所述规则，为所述新的潜在分割点确定的 M个窗口按照数据流查找方向获得的序列中排序第一的窗口。

结合第二方面的第四种可能的实现方式，第七种可能的实现方式中，使用随机函数判断所述窗口 W_iz ik -A_z, k.+ B 中至少部分数据是否满足所述预定条件 C_z, 具体包括：

在所述窗口 W_iz [k -A_z, k^B 中选择 F个字节，将所述 F个字节反复利用 H次，共获得 F*H个字节，其中每个字节由 8位组成，记为 L.. a_{m &} , 表示所述 F*H个字节中第 m个字节的第 1到第 8位，所述 F*H个字节对应的位可以表示为： , ' 当 a m,n =1时 ^， am,n

=1, 当 =0时， ,„=-1, 其中。表示中的任一个，所述 F*H个字节对应的位按照。_m„与 V 的转换关系得到矩阵 ,所述矩阵

^表示为： , 从服务正态分布的随机数中选

J 择 F*H*8个随机数组成矩阵 R, 所述矩阵 R表示为:

，将所述矩阵 V_a的第 m行与所述矩阵 R的第 m行

的随机数相乘，然后求和得到一个值，具体表示为 + * 2+...+ * ₈, 同理，获得 S。！、 s_a2.. s_aF,_H, 统计 S_a2... 到8。 ^中满足大于 0的值的个数 K, 当 K为偶数，则所述窗口 W_iz [k -A_z, k^B 中至少部分数据满足所述预定条件 C_z。

第三方面，本发明实施例提供了一种用于查找数据流分割点的服务器，所述服务器包括中央处理单元和主存储器，所述中央处理单元与所述主存储器通信，在所述服务器上预设有规则，所述规则为：为潜在分割点 k确定 M个点 p_x、点 p_x对应的窗口 if_x [ _ 4， + ^ ]和窗口 ^ _c [ Α^_4， + ]对应的预定条件 C_x , 其中， X为 1到 M连续的自然数， M>2, 4和^为整数；

所述主存储器用于存储可执行指令，所述中央处理单元执行所述可执行指令，以执行如下步骤：

a)依据所述规则为当前潜在分割点确定点及所述点对应的窗口^ [ _Piz -A_z,_Pi +B_z], i和 z为整数，并且 1≤z≤M;

b) 判断所述窗口 ^_z[p,_z-^,_Az+S_z]中至少部分数据是否满足预定条件 C_z;

当所述窗口 [ - _z,_Az + S_z]中至少部分数据不满足所述预定条件 C_z，从所述点 ρ 沿所述数据流分割点查找方向跳跃 Ν个数据流分割点最小查找单位 U, N*U不大于 II B_z II +max_x( II A_x || + || (k_rPix) II ), 获得新的潜在分割点，执行步骤 a)；

c)当所述当前潜在分割点 ^的 M个窗口中的每一个窗口 Α, + ^]中至少部分数据满足预定条件^，则所述当前潜在分割点为数据流分割点。

结合第三方面，第一种可能的实现方式中，所述规则还包括：至少两个点和，满足条件^ = ， B =B_f , C_e = C,。

结合第三方面的第一种可能的实现方式，第二种可能的实现方式中，所述规则还包括：所述至少两个点和，相对于所述潜在分割点 k，在所述数据流分割点查找反方向上。

结合第三方面的第一种可能的实现方式或第二种可能的实现方式，第三种可能的实现方式中，所述规则还包括：所述至少两个点和之间的距离为 1个 u。

结合第三方面，或第一至第三任一可能的实现方式，第四种可能的实现方式中，所述中央处理单元具体用于

使用随机函数判断所述窗口^ [^-^ , +s_z ]中至少部分数据是否满足所述预定条件 c_z。

结合第三方面的第四种可能的实现方式，第五种可能的实现方式

_Az + s_z ]中至少部分数据是否满足所述预定条件 c_z。

结合第三方面，或第一至第五任一可能的实现方式，第六种可能的实现方式中，当所述窗口^ [ - _z , + s_z ]中至少部分数据不满足所述预定条件 C_z，从所述点沿所述数据流分割点查找方向跳跃 N个数据流分割点最小查找单位 U, 获得所述新的潜在分割点，根据所述规则，为所述新的潜在分割点确定的点 p_ic对应的窗口 [ _Pic - A_c , _Pic +

B_c ]的左边界与所述窗口^ [ ^ - 4 , Ρ_ιζ + s_z ]的右边界重合或者为所述新的潜在分割点确定的所述点 _Αε对应的所述窗口 W_fc [ p_ic - A_c ,p_ic +B_c ] 的左边界位于所述窗口^ [ _ζ-4,_Αζ+^]范围之内；其中，为所述新的潜在分割点确定的所述点 _Α._ε是根据所述规则，为所述新的潜在分割点确定的 Μ个点按照数据流查找方向获得的序列中排序第一的点。

结合第三方面的第四种可能的实现方式，第七种可能的实现方式中，所述中央处理单元使用随机函数判断所述窗口 W_iz [ p_iz-A_z， _Pi + B_z ] 中至少部分数据是否满足所述预定条件 C_z, 具体包括：

在所述窗口 W_iz [ p_i2-A_z, p_i2+B_z]中选择 F个字节，将所述 F个字节反复利用 H次，共获得 F*H个字节，其中每个字节由 8位组成，记为。_ml ... a_m8, 表示所述 F*H个字节中第 m个字节的第 1到第 8位，所述 F*H个字节对应的位可以表示为： , 当 a =1时，

=1, 当 =0时， ,„=-1, 其中。表示中的任一个，所述 F*H个字节对应的位按照 a_{m n}与 V_am„的转换关系得到矩阵 ,所述矩阵

^表示为： , 从服务正态分布的随机数中选

择 F*H*8个随机数组成矩阵 R, 所述矩阵 R表示为:

，将所述矩阵 V_a的第 m行与所述矩阵 R的第 m行 h 的随机数相乘，然后求和得到一个值，具体表示为 +

* ₈, 同理，获得 S。！、 s_a2.. s_aF,_H, 统计 S_a2... 到8。 ^中满足大于 0的值的个数 K,当 K为偶数，则所述窗口 W_iz [ _Piz-A_z, p_iz+ ]中至少部分数据满足所述预定条件 c_z。第四方面，本发明实施例提供了一种用于查找数据流分割点的服务器，所述服务器包括中央处理单元和主存储器，所述中央处理单元与所述主存储器通信，在所述服务器上预设有规则，所述规则为：为潜在分割点确定 M个窗口 [/t_4，和窗口 [ _4，对应的预定条件 c_x, 其中， X为 1到 M连续的自然数， M>2, 4和为整数；

所述主存储器用于存储可执行指令，所述中央处理单元执行所述可执行指令，以执行以下步骤：

a)依据所述规则为当前潜在分割点 1^确定对应的窗口 W_iz[ki - ,k_t + B_z], i和 z为整数，并且 l≤z≤M;

b)判断所述窗口 [ 4 Λ. + ]中至少部分数据是否满足预定条件 c_z;

当所述窗口 W_iz[ki-A_z,ki +B_z ]中至少部分数据不满足所述预定条件

C_z , 从所述当前潜在分割点沿所述数据流分割点查找方向跳跃 N个数据流分割点最小查找单位 U, N*U不大于 II B_z II +max_x( II A_x || ),获得新的潜在分割点，执行步骤 a) ；

C)当所述当前潜在分割点 k_t的 M个窗口中的每一个窗口 fV_ix [k_t - Α_χ , k_t + B_x ]中至少部分数据满足预定条件 C_x，则所述当前潜在分割点 k【为数据流分割点。

结合第四方面，第一种可能的实现方式中，所述规则还包括：至少两个窗口^ + 与 | , - Λ+β,], 满足条件： \A +B_e

|=| c_e=c_f 。

结合第四方面的第一种可能的实现方式，第二种可能的实现方式中，所述规则还包括： ^和为正整数。

结合第四方面的第一种可能的实现方式或第二种可能的实现方式，在第三种可能的实现方式中，所述规则还包括： ^-1 = ， B_e+\ =

^Bf。

结合第四方面，或第一至第三任一可能的实现方式，第四种可能的实现方式中，所述中央处理单元具体用于

使用随机函数判断所述窗口 w_iz [ ki - 4 Λ +s_z ]中至少部分数据是否满足所述预定条件 c_z。

结合第四方面的第四种可能的实现方式，第五种可能的实现方式

ki+B_z ]中至少部分数据是否满足所述预定条件 C_z。

结合第四方面，或第一至第五任一可能的实现方式，第六种可能的实现方式中，当所述窗口 W_iz [k -A_z, k^ B 中至少部分数据不满足所述预定条件 C_z，从所述当前潜在分割点沿所述数据流分割点查找方向跳跃 N个数据流分割点最 '〗、查找单位 U，获得所述新的潜在分割点，根据所述规则，为所述新的潜在分割点确定的窗口 W_;Jk,-4,k,+A] 的左边界与所述窗口 JV_iz [k -A_z, k.+ B 的右边界重合或者为所述新的潜在分割点确定的所述窗口 W_fc [ k,. - A_c , k_; + ]的左边界位于所述窗口 W_iz [k -A₂, +S_z]范围之内；其中，为所述新的潜在分割点确定的所述窗口 ^ - ， + ]是根据所述规则，为所述新的潜在分割点确定的 M个窗口按照数据流查找方向获得的序列中排序第一的窗口。

结合第四方面的第四种可能的实现方式，第七种可能的实现方式中，所述中央处理单元使用随机函数判断所述窗口 fV_iz [ k_t - A_z， k_t + B_z ] 中至少部分数据是否满足所述预定条件 C_z, 具体包括：

在所述窗口 W_iz [k -A_z, k_t+B_z]中选择 F个字节，将所述 F个字节反复利用 H次，共获得 F*H个字节，其中每个字节由 8位组成，记为 L.. a_m& , 表示所述 F*H个字节中第 m个字节的第 1到第 8位，所述 F*H个字节对应的位可以表示为： , ⁷ 当。 m,n =1时 ^， ⁷ v am,n

^表示为： , 从服务正态分布的随机数中选

择 F*H*8个随机数组成矩阵 R, 所述矩阵 R表示为:

，将所述矩阵 V_a的第 m行与所述矩阵 R的第 m行

的随机数相乘，然后求和得到一个值，具体表示为 + * ₂+...+ * ₈, 同理，获得 s_al、 s_a2.. s_aF,_H, 统计 S_a2... 到8。 ^中满足大于 0的值的个数 K, 当 Κ为偶数，则所述窗口 W_iz [k -A_z, k Bj中至少部分数据满足所述预定条件 C_z。

第五方面，本发明实施例提供了一种用于查找数据流分割点的服务器，在所述服务器上预设有规则，所述规则为：为潜在分割点 /1确定 M个点/ ^、点 /^对应的窗口 + 和窗口

对应的预定条件 C_x，其中， X为 1到 M连续的自然数， M≥2, A_x和为整数；

所述服务器包括：处理单元，用于执行步骤 a) ：

a)依据所述规则为当前潜在分割点 ^确定点及所述点对应的窗口^ [ _Pi2 -A_z,_Pj +B_z], i和 z为整数，并且 1≤z≤M;

判断处理单元，用于判断所述窗口 W_iz [ _Pl2-A₂ , ]中至少部分数据是否满足预定条件 _z；

当所述窗口^ [ _Az - ^ , _Az+S_z ]中至少部分数据不满足所述预定条件 C_z，从所述点 _Piz沿所述数据流分割点查找方向跳跃 N个数据流分割点最小查找单位 U, N*U不大于 II B_z II +max_x( II A_s II + II {k _Pix ) II ), 获得新的潜在分割点 ,则所述确定单元为所述新的潜在分割点执行步骤 a)；

当所述当前潜在分割点 k_t的 M个窗口中的每一个窗口 [^-^ , 中至少部分数据满足预定条件^ ,则所述当前潜在分割点为数据流分割点。

结合第五方面，第一种可能的实现方式中，所述规则还包括：至少两个点和，满足条件^ = ， B =B_f , C_e = C_f 。

结合第五方面的第一种可能的实现方式，第二种可能的实现方式中，所述规则还包括：所述至少两个点和，相对于所述潜在分割点 k，在所述数据流分割点查找反方向上。

结合第五方面的第一种可能的实现方式或第二种可能的实现方式，在第三种可能的实现方式中，所述规则还包括：所述至少两个点 A和之间距离为 1个 u。

结合第五方面，或第一至第三任一可能的实现方式，第四种可能的实现方式中，所述判断处理单元具体使用随机函数判断所述窗口

W_iz [ p,_z - _z , + S_z ]中至少部分数据是否满足所述预定条件 C_z。

结合第五方面的第四种可能的实现方式，第五种可能的实现方式

_Az + s_z ]中至少部分数据是否满足所述预定条件 c_z。

结合第五方面，或第一至第五任一可能的实现方式，第六种可能的实现方式中，所述判断处理单元用于当所述窗口 [ ρ_;ζ-4 , +^ ] 中至少部分数据不满足所述预定条件，从所述点^沿所述数据流分割点查找方向跳跃 N个数据流分割点最小查找单位 U,获得所述新的潜在分割点，所述确定单元为所述新的潜在分割点执行步骤 a) , 根据所述规则，为所述新的潜在分割点确定的点 _Pic对应的窗口 W_;£ [ _Pic - A_c , p_ic + ^ ]的左边界与所述窗口^ [ - 4 , ρ_ιζ + S_z ]的右边界重合或者为所述新的潜在分割点确定的所述窗口 W_ic [ p_ic - A_c , p_ic + ]的左边界位于所述窗口 _ζ[Α_ζ-^,Α_ζ + 3_ζ]范围之内；其中，为所述新的潜在分割点确定的所述窗口 W,J_A-4,A +^]是根据所述规则，为所述新的潜在分割点确定的 M个点按照数据流查找方向获得的序列中排序第一的点。

结合第五方面的第四种可能的实现方式，第七种可能的实现方式

A_z, p_iz+ ]中至少部分数据是否满足所述预定条件 C_z, 具体包括：在所述窗口 W_iz [ p_i2-A_z, p_i2+B_z]中选择 F个字节，将所述 F个字节反复利用 H次，共获得 F*H个字节，其中每个字节由 8位组成，记为 ^ ... a_{m &} , 表示所述 F*H个字节中第 m个字节的第 1到第 8位，所述 F*H个字节对应的位可以表示为： , ' 当 a m,n =1时 ^， am,n

=1, 当" 时， _m -1 其中" ^„表示中的任一个，所述 F*H个字节对应的位按照 a_{m n}与 V 的转换关系得到矩阵 ,所述矩阵

^表示为： , 从服务正态分布的随机数中选

择 F*H*8个随机数组成矩阵 R, 所述矩阵 R表示为: ，将所述矩阵 V_a的第 m行与所述矩阵 R的第 m行

的随机数相乘，然后求和得到一个值，具体表示为 =^ * + ^ * ₂+...+ * ₈, 同理，获得 s_al、 s_a2.. s_aF,_H, 统计 S_a2... 到8。 ^中满足大于 0的值的个数 K,当 Κ为偶数，则所述窗口 W_iz [ ρ_ίζ-Α_ζ, p_iz+B_z]中至少部分数据满足所述预定条件 C_z。

第六方面，本发明实施例提供了一种用于查找数据流分割点的服务器，在所述服务器上预设有规则，所述规则为：为潜在分割点 /1确定 M个窗口 + ]和窗口 ^ | -4,/1 + ]对应的预定条件(^ , 其中， X为 1到 M连续的自然数， M≥2, 4和为整数；

所述服务器包括:确定单元，用于执行步骤 a:

a)依据所述规则为当前潜在分割点 ki确定对应的窗口 W_iz[ki - A_z ,k_t

+ B_z], i和 z为整数，并且 l≤z≤M;

判断处理单元，用于判断所述窗口 W_iz [ k_t - A_z ,k_t +B_z ]中至少部分数据是否满足预定条件 C_z;

当所述窗口 Ψ_ίζ[ -Α_ζ, +Β_ζ ]中至少部分数据不满足所述预定条件 C_z , 从所述当前潜在分割点沿所述数据流分割点查找方向跳跃 N个数据流分割点最小查找单位 U, N*U不大于 II B_z II +max_x( II A_x || ),获得新的潜在分割点，执行步骤 a) ；

C当所述当前潜在分割点 ^的 M个窗口中的每一个窗口 fV_ix [k_rA_x , ki + B_x ]中至少部分数据满足预定条件 C_x，则所述当前潜在分割点 k_t为数据流分割点。

结合第六方面，第一种可能的实现方式中，所述规则还包括：至少两个窗口^ | ,·-^Λ· + ^]与， + β,]，满足条件： \A +B_e

|=| C_e=c_f 。

结合第六方面的第一种可能的实现方式，第二种可能的实现方式中，所述规则还包括：和为正整数。

结合第六方面的第一种可能的实现方式或第二种可能的实现方式，在第三种可能的实现方式中，所述规则还包括： ^-1 = ， B_e+\ =

^Bf。

结合第六方面，或第一至第三任一可能的实现方式，第四种可能的实现方式中，所述判断处理单元具体用于

结合第六方面的第四种可能的实现方式，第五种可能的实现方式中，所述判断处理单元具体用于使用 hash函数判断所述窗口 W_iz[k A_z , k_t+B_z ]中至少部分数据是否满足所述预定条件 C_z。

结合第六方面，或第一至第五任一可能的实现方式，第六种可能的实现方式中，所述判断处理单元用于当所述窗口 W_iz [ k, - A_z， k, + B_z ] 中至少部分数据不满足所述预定条件，从所述当前潜在分割点沿所述数据流分割点查找方向跳跃 N个数据流分割点最 d、查找单位 U ,获得所述新的潜在分割点，所述确定单元为所述新的潜在分割点执行步骤 a ) ,根据所述规则，为所述新的潜在分割点确定的窗口 W_;Jk,-^， k,+ ]的左边界与所述窗口 W_iz [ - _z， +S_z]的右边界重合或者为所述新的潜在分割点确定的所述窗口 W_;£ [ k, - A_c , k, + ^ ]的左边界位于所述窗口 ^ [ - _z， + S_z ]范围之内；其中，为所述新的潜在分割点确定的所述窗口 W_;£ [ k, - A_c , k, + B_c ]是根据所述规则，为所述新的潜在分割点确定的 M个窗口按照数据流查找方向获得的序列中排序第一的窗口。

结合第六方面的第四种可能的实现方式，第七种可能的实现方式中，所述判断处理单元使用随机函数判断所述窗口 W_iz [k -A_z, k_t+ B_z] 中至少部分数据是否满足所述预定条件 C_z, 具体包括：

在所述窗口 W_iz [k -A_z, k_t+B_z]中选择 F个字节，将所述 F个字节反复利用 H次，共获得 F*H个字节，其中每个字节由 8位组成，记为 a_{m &} , 表示所述 F*H个字节中第 m个字节的第 1到第 8位，所述 F*H个字节对应的位可以表示为： ,l , 当 a =1时，

=1, 当。 =0时， ,„=-1, 其中。表示 L..^ 中的任一个，所述 F*H个字节对应的位按照。_m„与 V 的转换关系得到矩阵 ,所述矩阵

^表示为： , 从服务正态分布的随机数中选

择 F*H*8个随机数组成矩阵 R, 所述矩阵 R表示为:

，将所述矩阵 V_a的第 m行与所述矩阵 R的第 m行

的随机数相乘，然后求和得到一个值，具体表示为 + "K V_am^h_m^ 同理，获得 S_al s_a2.. s_aF , 统计 S_a2... 到8。 ^中满足大于 0的值的个数 K, 当 Κ为偶数，则所述窗口 W_iz ik -A_z, + Β_ζ]中至少部分数据满足所述预定条件 C_z。

第七方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储可执行指令，服务器执行所述可执行指令以查找数据流分割点，在所述服务器上预设有规则，所述规则为：为潜在分割点 k确定 M个点 ρ_χ、点 ρ_χ对应的窗口 ^ [ A - 4， P_x ⁺ B_x] 和窗口 ^ [ _4，对应的预定条件 C_x , 其中， X为 1到 M连续的自然数， M>2, ^和^为整数；

当所述服务器执行所述可执行指令，以执行以下步骤：

a)依据所述规则为当前潜在分割点确定点 ^及所述点对应的窗口^ [ _Piz -A_z,_Pi +B_z], i和 z为整数，并且 1≤z≤M;

b) 判断所述窗口 ^[p,_z-^,p,_z+S_z]中至少部分数据是否满足预定条件 C_z;

当所述窗口^ [_Az- _z,_Az + S_z]中至少部分数据不满足所述预定条件 C_z，从所述点 p_lz沿所述数据流分割点查找方向跳跃 Ν个数据流分割点最小查找单位 U, N*U不大于 II B_z II +max_x( II A_x || + || (k_rPix) II ), 获得新的潜在分割点，执行步骤 a)；

c)当所述当前潜在分割点 ^的 M个窗口中的每一个窗口 -

4,^+ ]中至少部分数据满足预定条件^ , 则所述当前潜在分割点为数据流分割点。

结合第七方面，第一种可能的实现方式中，所述规则还包括：至少两个点和，满足条件^ = ， B =B_f , C_e = C_f 。

结合第七方面的第一种可能的实现方式，第二种可能的实现方式中，所述规则还包括：所述至少两个点和，相对于所述潜在分割点 k，在所述数据流分割点查找反方向上。

结合第七方面的第一种可能的实现方式或第二种可能的实现方式，在第三种可能的实现方式中，所述规则还包括：所述至少两个点

A和之间的距离为 1个 u。结合第七方面，或第七方面第一至第三任一可能的实现方式,第四种可能的实现方式中，所述服务器判断所述窗口^ [p,_z-4,p,_z+s_z] 中至少部分数据是否满足所述预定条件 c_z, 具体包括：

所述服务器使用随机函数判断所述窗口 _iz [ ρ_ιζ - Α_ζ , _Ρι +Β_ζ ]中至少部分数据是否满足所述预定条件 C_z。

结合第七方面的第四种可能的实现方式，第五种可能的实现方式中，所述服务器使用随机函数判断所述窗口^ [p,_z-4, +s_z]中至少部分数据是否满足所述预定条件 c_z , 具体包括：

所述服务器使用 hash函数判断所述窗口 W_iz [p_lz-A_z,_Pi +B_z ]中至少部分数据是否满足所述预定条件 C_z。

结合第七方面，或第七方面第一至第五任一可能的实现方式，第六种可能的实现方式中，当所述窗口^ [ _z,_Az + S_z]中至少部分数据不满足所述预定条件 _z，从所述点 ρ_ιζ沿所述数据流分割点查找方向跳跃 N个数据流分割点最小查找单位 U, 获得所述新的潜在分割点，根据所述规则，为所述新的潜在分割点确定的点 A对应的窗口 W_;£

[ _Pic - A_c , p_ic + ]的左边界与所述窗口 [ _Az - _z , p,_z + S_z ]的右边界重合或者为所述新的潜在分割点确定的所述点 p_ic对应的所述窗口 W_fc [ p_ic -

Λ,Α + ^]的左边界位于所述窗口^ [A_Z-^,A_Z + S_Z]范围之内; 其中，为所述新的潜在分割点确定的所述点是根据所述规则，为所述新的潜在分割点确定的 M个点按照数据流查找方向获得的序列中排序第一的点。

结合第七方面的第四种可能的实现方式，第七种可能的实现方式中，使用随机函数判断所述窗口 [ A -^， A + ]中至少部分数据是否满足所述预定条件 C_z, 具体包括：

在所述窗口 W_iz [ p_iz— A_z, _Pi +B_z]中选择 F个字节，将所述 F个字节反复利用 H次，共获得 F*H个字节，其中每个字节由 8位组成，记为。_ml ... a_{m 8} , 表示所述 F*H个字节中第 m个字节的第 1到第 8位，所述 F*H个字节对应的位可以表示为： , ' 当。 m n =1时 ^， ' v am,n

=1, 当 =0时， ,„=-1, 其中。表示中的任一个，所述 F*H个字节对应的位按照 a_mn与 V_am„的转换关系得到矩阵 ,所述矩阵

^表示为： , 从服务正态分布的随机数中选

择 F*H*8个随机数组成矩阵 R, 所述矩阵 R表示为:

，将所述矩阵 V_a的第 m行与所述矩阵 R的第 m行

的随机数相乘，然后求和得到一个值，具体表示为 + * 2+...+ * ₈, 同理，获得 S。！、 s_a2.. s_aF,_H, 统计 S_a2... 到8。 ^中满足大于 0的值的个数 K,当 K为偶数，则所述窗口 W_iz [ ρ_ίζ-Α_ζ, _Pi +B_z]中至少部分数据满足所述预定条件 C_z。

第八方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储可执行指令，服务器执行所述可执行指令以查找数据流分割点，在所述服务器上预设有规则，所述规则为：为潜在分割点确定 M个窗口 ^ [ _4，和窗口 ^ _4， k+ B_x ]对应的预定条件 C_x , 其中， X为 1到 M连续的自然数， M > 2 , ^和 ^为整数；当所述服务器执行所述可执行指令，以执行以下步骤： a)依据所述规则为当前潜在分割点确定对应的窗口 W,_:[ki - A_z ,k_t +B_:], i和 z为整数，并且 l≤z≤M;

b)判断所述窗口 - A_z,ki+B_z ]中至少部分数据是否满足预定条件 C_z;

当所述窗口

+B_z ]中至少部分数据不满足所述预定条件 C_z , 从所述当前潜在分割点沿所述数据流分割点查找方向跳跃 N个数据流分割点最小查找单位 U, N*U不大于 II B_z II +1 . ( II II )，获得新的潜在分割点，执行步骤 a) ；

c)当所述当前潜在分割点的 M个窗口中的每一个窗口 [^-4, + _X ]中至少部分数据满足预定条件 C_A.，则所述当前潜在分割点 ^为数据流分割点。

结合第八方面，第一种可能的实现方式中，所述规则还包括：至少两个窗口 + 与 | , - Λ+β,], 满足条件： \A +B_e

\=\A_f +

。

结合第八方面的第一种可能的实现方式，第二种可能的实现方式中，所述规则还包括： ^和为正整数。

结合第八方面的第一种可能的实现方式或第二种可能的实现方式，在第三种可能的实现方式中，所述规则还包括： ^-1= ， +1=

^Bf。

结合第八方面，或第八方面第一到第三任一可能的实现方式，第四种可能的实现方式中，所述服务器判断所述窗口 W_L_ [k A_z ,k_t +B_z ] 中至少部分数据是否满足所述预定条件 C_z, 具体包括：

使用随机函数判断所述窗口 ^ -4 Λ +S_Z ]中至少部分数据是否满足所述预定条件 C_z

结合第八方面的第四种可能的实现方式，第五种可能的实现方式中，所述服务器使用随机函数判断所述窗口 W_iz [ k_t - _z Λ· + s_z ]中至少部分数据是否满足所述预定条件 _z，具体为所述服务器使用 hash函数判断所述窗口 w_iz [ k, - 4 Λ. +s_z ]中至少部分数据是否满足所述预定条件结合第八方面，或第八方面第一到第五任一可能的实现方式，第六种可能的实现方式中，当所述窗口 W_iz [k -A₂, Ι _Ζ\中至少部分数据不满足所述预定条件，从所述当前潜在分割点沿所述数据流分割点查找方向跳跃 Ν个数据流分割点最'〗、查找单位 U，获得所述新的潜在分割点，根据所述规则，为所述新的潜在分割点确定的窗口 W_;Jk, -4, k, + ^]的左边界与所述窗口 W_iz [k -A_z, + S_z]的右边界重合或者为所述新的潜在分割点确定的所述窗口 W_;t [ k_; - A_c , k_t+B_c ]的左边界位于所述窗口 ^ [ - _z， + S_z ]范围之内；其中，为所述新的潜在分割点确定的所述窗口 W,Jk,-4,k, + ]是根据所述规则，为所述新的潜在分割点确定的 M个窗口按照数据流查找方向获得的序列中排序第一的窗口。

结合第八方面的第四种可能的实现方式，第七种可能的实现方式中，使用随机函数判断所述窗口 W_iz [k -A_z, k.+ B 中至少部分数据是否满足所述预定条件 C_z, 具体包括：

在所述窗口 W_iz [k -A_z, k_t+B_z]中选择 F个字节，将所述 F个字节反复利用 H次，共获得 F*H个字节，其中每个字节由 8位组成，记为

a_{m &} , 表示所述 F*H个字节中第 m个字节的第 1到第 8位，所述 F*H个字节对应的位可以表示为： , 当 a =1时，

=1, 当 =0时， v_am =-\, 其中。表示。^中的任一个，所述 F*H个字节对应的位按照 a_mn与 V_am„的转换关系得到矩阵 ,所述矩阵

^表示为： , 从服务正态分布的随机数中选

择 F*H*8个随机数组成矩阵 R, 所述矩阵 R表示为:

h

，将所述矩阵 V_a的第 m行与所述矩阵 R的第 m行的随机数相乘，然后求和得到一个值，具体表示为 +

* ₂+...+ * ₈, 同理，获得 s_al、 s_a2.. s_aF,_H, 统计 S_a2... 到8。 ^中满足大于 0的值的个数 K, 当 Κ为偶数，则所述窗口 W_iz ik -A_z, ^ + Β_ζ]中至少部分数据满足所述预定条件 C_z。本发明实施例中通过判断 M个窗口中某一个窗口中至少部分数据是否满足预定条件，来查找数据流分割点，当某一个窗口中至少部分数据不满足预定条件，则跳过 N*U个长度，获得下一个潜在分割点，提高了数据流分割点查找效率。

附图说明

图 1为本发明实施例一种应用场景示意图；

图 2为数据流分割点示意图；

图 3为查找数据流分割点示意图；

图 4为本发明实施例方法示意图；

图 5和图 6为查找数据流分割点实施方式示意图；

图 7和图 8为查找数据流分割点实施方式示意图；

图 9和图 10为找数据流分割点实施方式示意图；图 11和图 12和图 13为找数据流分割点实施方式示意图；图 14和图 15为找数据流分割点实施方式示意图；

图 16和图 17为判断窗口中至少部分数据是否满足预定条件示意图；图 18为去重服务器结构图；

图 19为去重服务器结构图；

图 20为本发明实施例方法示意图；

图 21和图 22为查找数据流分割点实施方式示意图；

图 23和图 24为查找数据流分割点实施方式示意图；

图 25和图 26为找数据流分割点实施方式示意图；

图 27和图 28和图 29为找数据流分割点实施方式示意图；

图 30和图 31为找数据流分割点实施方式示意图；

图 32和图 33为判断窗口中至少部分数据是否满足预定条件示意图。具体实施例

随着存储技术的不断进步，数据产生量也在不断增加，大量的数据对存储容量提出了最高的要求。存储容量增加的同时，也增加了 IT 设备釆购成本，为了緩解数据量与存储容量之间的需求矛盾，节约 IT 设备釆购成本，在数据存储领域引入了重复数据删除技术。

本发明实施例一种使用场景为数据备份场景。数据备份是为防止各种原因导致的数据丟失，通过备份服务器将数据备份到其他存储介质的过程。如图 1所示的数据备份系统架构。数据备份系统包括客户端（101a、 101b...101η ) 、备份服务器 102、重复数据删除服务器 (简称去重服务器或重删服务器 )103和存储设备（ 104a、 104b...104η ) 。其中客户端（101a、 101b...101η )可以为应用服务器、工作站等；备份服务器 102用于备份客户端生成的数据；去重服务器 103用于执行备份数据的重复数据删除任务；存储设备（104a、 104b...104η )作为存储重复数据删除后的数据的存储介质，可以为磁盘阵列、磁带库等存储介质。客户端 (101a、 101b...101η ) 、备份服务器 102、重复数据删除服务器 103和存储设备（ 104a、 104b...104η ) 可以通过交换机、局域网、互联网、光纤等方式连接，上述设备可以位于同一地点，也可以位于不同地点。备份服务器 102、重删服务器 103、存储设备（ 104a, 104b...104η )可以为独立的物理设备，或者在具体实现中物理上集成为一体，或者备份服务器 102与重删服务器 103集成为一体，或者重删服务器 103与存储设备 ( 104a, 104b...104η ) 集成为一体等。

去重服务器 103对备份数据的数据流执行重复数据删除操作，一般包括以下步骤：

1 )数据流分割点查找：根据特定算法在数据流中查找数据流分割点；

2 )根据查找到的数据流分割点划分数据块；

3 )计算数据块的特征值：计算数据块的特征值作为标识该数据块的特征；将计算得到的特征值添加到该数据流对应的文件的数据块的特征列表中；一般利用 SHA-1或 MD5算法计算数据块的特征值；

4 )相同数据块检测：将计算得到的数据块的特征值与数据块特

5 )删除重复数据块：通过相同数据块检测，如果发现数据块特征列表中存在与该数据块相同的特征值，则不需要再存储该数据块或者根据备份策略确定的重复数据块存储数量决定是否存储该数据块。

通过去重服务器 103对备份数据的数据流执行重复数据删除操作的步骤可知，数据流分割点查找作为重复数据删除操作的关键步骤，直接决定了重复数据删除的性能。

本发明实施例中，去重服务器 103接收备份服务器 102发送的备份文件，对该文件执行重复数据删除处理。通常待处理备份文件在去重服务器 103中以数据流形式呈现，去重服务器 103查找数据流中的分割点时，通常要确定数据流分割点最小查找单位，具体如图 2所示，如潜在分割点位于序号分别为 1和 2的连续两个数据流分割点最小查找单位之间，潜在分割点是指需要进行判断是否可以作为数据流分割点的点；当点为一个数据流分割点，数据流分割点查找方向如图 2 中箭头所示，查找下一个潜在分割点为，即位于序号分别为 7和 8的连续两个数据流分割点最小查找单位之间，当潜在分割点 ^为数据流分割点，则相邻的两个数据流分割点、之间的数据为 1个数据块。数据流分割点最 d、查找单位具体可以根据实际需要确定，这里以 1个字节（Byte )为例，即序号为 1、 2、 7和 8的数据流分割点最小查找单位大小均为 1个字节。如图 2所示的数据流分割点查找方向通常表示由文件头向文件尾方向查找，或者由文件尾向文件头方向，本实施例中以从文件头向文件尾方向查找为例。

在重复数据删除场景，通常数据块越小，重复数据删除率越高，越容易查找到重复数据块，但是由此生成的元数据数量越大，而且数据块小到一定程度之后，重复数据删除率就不会增加了，但是元数据数量却会急剧增加。因此，必须控制数据块大小，实际应用中，通常会设定数据块的最小值，例如 4KB ( 4096个字节），同时考虑到重复数据删除率，也会设定数据块的最大值，即数据块大小不能超过最大值，例如 12KB ( 12288个字节）。一种具体实现方式如图 3所示，去重服务器 103在沿着箭头所示方向查找数据流分割点， k_a为当前查找到的数据流分割点，从向数据流分割点查找方向查找下一个潜在分割点，为满足最小数据块要求，通常会从数据流分割点开始沿着数据流分割点查找方向跳过最小数据块大小，从最小数据块结束位置开始查找，也就是将最小数据块结束位置作为下一个潜在分割点 .。在本发明实施例中，可以先从 _α点沿数据流分割点查找方向跳跃最小数据块 4KB, 即 4*10244096字节。从点沿数据流分割点查找方向跳跃 4096个字节，在第 4096个字节的结束位置获得点，作为潜在分割点，例如 k_t位于序号分别为 4096和 4097的连续两个数据流分割点最小查找单位之间。仍然以图 3为例，为当前查找到的数据流分割点，沿如图 3所示方向查找下一个数据流分割点，如果超过数据块最大值仍然没有找到下一个数据流分割点，则在从 Α。点开始向数据流分割点查找方向达到数据块最大值的点乍为下一个数据流分割点，进行强制分割。

本发明实施例提供一种基于去重服务器查找数据流分割点的方法，如图 4所示，包括：

在去重服务器 103上预设有规则，所述规则为：为潜在分割点确定 M个点 ?_x、点 ? _x†应的窗口 [p_x-4, + ]和窗口 + 对应的预定条件 C_x, 其中， X为 1到 M连续的自然数， M≥2, 4和 ^为整数；其中，与潜在分割点之间距离个数据流分割点最小查找单位，数据流分割点最小查找单位以 U表示，本实施例中 U=l个字节，。在图 3所示的实现方式中，关于 M的取值，其中一种实现方式， M*U取值不大于预设的两个相邻的数据流分割点之间的最大距离，即预设的数据块最大长度。判断点对应的窗口 Ρ +ΒΛ 中至少部分数据是否满足预定条件 C_z, 其中， z为整数， l≤z≤M, ( _Pz -4 )与（ P_z+B_z )分别表示窗口 ^的两个边界。当判断任意一个点的窗口 ]中至少部分数据不满足预定条件 C_z, 则从不满足预定条件的窗口 ^ [ A - 4 , P +B_z ]对应的点 p_z沿数据流分割点查找方向跳跃 N个字节， N< II B_z II +max_x( II II + II (k-_Px) II )。其中， II (k-_Px) II表示 M个点 ^中任一个点与潜在分割点之间的距离， max_x( II A_x II + II (k-p_x) || )表示 M个点 ?_x中任一个点与潜在分割点之间的距离及该点对应的 4的绝对值之和的最大值； II B_Z II表示 ^ [_Pz-A_z , A + s_z ]中 ^的绝对值，将在下面实施例中具体介绍 N取值的原理。当判断 M个窗口中的每一个窗口 ^[^-4, 中至少部分数据满足预定条件，则潜在分割点为数据流分割点。

具体的，对当前潜在分割点，依据所述规则，执行以下步骤：步骤 401：依据所述规则为当前潜在分割点 k_t确定点及所述点对应的窗口^ [ρ_;ζ-4,Ρ_;ζ+β_ζ], i和 ζ为整数，并且 l≤z≤M;

步骤 402:判断所述窗口 ^[^-^,^+ ]中至少部分数据是否满足预定条件 C_z;

当所述窗口 ίρΆ,ΡΆ ]中至少部分数据不满足所述预定条件，从所述点^沿所述数据流分割点查找方向跳跃 Ν个数据流分割点最小查找单位 U, N*U不大于 II B_Z II +max_x( II II + II {k _Pix) II ), 获得新的潜在分割点，执行步骤 401 ；

当所述当前潜在分割点 k_t的 M个窗口中的每一个窗口 ^ , 中至少部分数据满足预定条件 C_x，则所述当前潜在分割点为数据流分割点。

进一步地，所述规则还包括：至少两个点和 ,满足条件 ^= ，

B_E = B , C_e = Cj-；

所述规则还包括：所述至少两个点和，相对于所述潜在分割点 k，在所述数据流分割点查找反方向上。

所述规则还包括：所述至少两个点 p_e和 p_f之间的距离为 1个 U。判断所述窗口^ [ - _z , _Az + s_z ]中至少部分数据是否满足所述预定条件 c_z, 具体包括：

使用随机函数判断所述窗口^ [p,_z-^,p,_z+s_z]中至少部分数据是否满足所述预定条件 c_z。

所述使用随机函数判断所述窗口^ [ -^,ρ,_ζ+β_ζ]中至少部分数据是否满足所述预定条件 C_z, 具体为使用 hash函数判断所述窗口 W_iz [ P,_z - _z , + S_Z ]中至少部分数据是否满足所述预定条件 C_z。

当所述窗口^ [_AZ-^ ,_AZ+S_Z]中至少部分数据不满足所述预定条件 C_z，从所述点 p_lz沿所述数据流分割点查找方向跳跃 Ν个数据流分割点最小查找单位 U, 获得所述新的潜在分割点，根据所述规则，为所述新的潜在分割点确定的点 _Pic对应的窗口 W_;£ [ _Pic - A_c , _Pic + ^ ]的左边界与所述窗口 fV_iz [ ρ_ιζ - A_z , _Ρι +Β_ζ ]的右边界重合或者为所述新的潜在分割点确定的所述点 p_ic对应的所述窗口 W_;E [ p_ic - A_c , p_ic + ^ ]的左边界位于所述窗口^ [ - _z,_Az + S_Z]范围之内；其中，为所述新的潜在分割点确定的所述点 ^是根据所述规则，为所述新的潜在分割点确定的 M 个点按照数据流查找方向获得的序列中排序第一的点。

本发明实施例中通过判断 M个窗口中某一个窗口中至少部分数据是否满足预定条件，来查找数据流分割点，当某一个窗口中至少部分数据不满足预定条件，则跳过 N*U个长度，其中， N*U不大于 II B_z II +max_x( II II + II (k _Plx) II ), 获得下一个潜在分割点，提高了数据流分割点查找效率。

在重复数据删除过程中，为保证数据块大小均匀，会考虑平均数据块（也称为平均分块）大小，即在满足最小数据块大小和最大数据块大小限定的同时，会确定平均数据块大小，以保证获得的数据块大小均匀。点 ? _x个数 M与点 7_X对应的窗口^ [p_x-^, +SJ中至少部分数据满足预定条件的概率，这两个因素决定了找到数据流分割点的概率（以 P(n)表示 )。前者影响跳跃的长度，后者影响跳跃的概率，二者共同影响平均分块大小。一般而言，在平均分块大小固定时，点个数 M增加，则单个点 ?_χ对应的窗口 ^[^-4, ρ_χ+ ]中至少部分数据满足预定条件 C_x的概率也增加，例如在去重服务器 103上预设的规则为：为潜在分割点确定 11个点 7_X , X分别为 1到 11连续的自然数， 11个点中任一个点 7_χ对应的窗口^ [p_x -^, p_x+S_x]中至少部分数据满足预定条件 C_x的概率为 1/2。而在去重服务器 103上预设的另一组规则为：为潜在分割点选择的 24个点 7_x , X分别为 1到 24连续的自然数， 24个点中任一个点 7_χ对应的窗口 [ 7_X -^, ^+^]中至少部分数据满足预定条件 C_x的概率 3/4。具体窗口^ [^-4, 中至少部分数据满足预定条件的概率设定可参见判断窗口 ^[^-4 , P + ]中至少部分数据是否满足预定条件 C_x部分的描述。点 _Px个数 M与点对应的窗口 ^ , 中至少部分数据满足预定条件 C_x的概率这两个因素决定 P(n), P (n)表示：从数据流起始位置 /上一数据流分割点查找 n个数据流分割点最 '〗、查找单位后没找到数据流分割点的概率。关于这两个因素决定 P (n)的计算过程，实际上是一个多步长 Fibonacci数列，后面将具体描述。得到 P (n)后， l-P(n)即为数据流分割点的分布函数，（l-P(n))-(l-P(n-l))=P(n-l)-P(n), 即为在第 n个点找到数据流分割点的概率，也就是数据流分割点的密度函数，根据

12*1024

数据流分割点的密度函数就可以积分 £ "χ(Ρ("-1)-Ρ(«))，从而求得二 4*1024

数据流分割点的期望长度，即平均分块大小，其中， 4*1024 (字节）表示最小数据块长度， 12*1024 (字节）表示最大数据块长度。

如图 3所示的数据流分割点查找的基础上，在图 5所示的实施方式中，在去重服务器 103上预设有规则，所述规则为：为潜在分割点 /1确定 11个点、点对应的窗口 (简称窗口 ^ )和窗口^ ]对应的预定条件 C_x , 其中, Α_ι = Α₂=Α₃ = Α₄=Α₅ = Α₆=Α_Ί = A, =

, 并且 C^C^C^C^C^C^C^C^C^C^C,^其中，点 ^与潜在分割点之间距离个字节，具体的，点与潜在分割点 /1之间距离 0个字节，点 p₂与潜在分割点 /1之间距离 1个字节，点 _P与潜在分割点 k之间距离 2个字节，点;^与潜在分割点 /1之间距离 3个字节，点与潜在分割点 /1 之间距离 4个字节，点 ^与潜在分割点 /1之间距离 5个字节，点与潜在分割点 /1之间距离 6个字节，点与潜在分割点 /1之间距离 7个字节，点 p₉与潜在分割点 /1之间距离 8个字节，点 _A。与潜在分割点 k之间距离 9个字节，点 _Al与潜在分割点/ 1之间距离 10个字节，并且点 _Pl、 _P 、 _P P₅、 p₆、 _Pl、 _P 、 p₉、 A。和相对于潜在分割点均位于数据流分割点查找反方向。为数据流分割点，图 5中所示数据流分割点查找方向为从左向右，从数据流分割点跳过最小数据块 4KB后，最小数据块 4KB结束位置作为下一个潜在分割点 , 为潜在分割点确定点 _Pix, 在本实施例中，根据在去重服务器 103上预设的规则， X分别为 1 到 11连续的自然数。在图 5所示的实施方式中，为潜在分割点确定 ό ；^、为 11个，分另 ll为 ? _;1、 p_n、 p p_i4、 p_i5、 p_i6、 P„、 p 、 p_i9、 p_m 和； ½， Pa ^ Pn、 /¾、 P 、 Pi5、 Pi6、、 /¾、、 Pm^Pm ^^- 的窗口分别为 w_n [ _Pil-169, _Pil ] w_i2[ p_i2 -169, _Pi2 ]、 w_i3 [/¾ -169,/¾ ], w_i4[ _Pi4 -169, ₄]、 w_i5[p_i5-\69,_Pi5], w_i6[p_i6-\69,_Pi6 . w_i7[_Pil-\69,_Pil], w_ti[_Pit -169,_As]、 W_i9[p_i9 -169, _Pi9], ^。[^。-169,^。]和^ ₁

上述窗口分别简称为^、 w_l2 , W_l3、 W_l4, W_l5、 W_l6、 W_l7、 JV_lS、 w_l9 , w_m 和^ i。其中，点;^与潜在分割点之间距离个字节，具体的， p_n 与间距 0个字节、 _A2与间距 1个字节、与间距 2个字节、 _Ρι4与间距 3个字节、与间距 4个字节、 p_i6与间距 5个字节、 p_i7与间距 6个字节、与间距 7个字节、与间距 8个字节、。与间距 9个字节，与间距 10个字节，并且 _A2、 _Pi3、 _Pi4、 _Pi5、 _Pi6、 _Pi，、 P_iS、 _Pi9、。和; ¾相对于潜在分割点均位于数据流分割点查找反方向。判断^ [_Αι-169,_Αι]中至少部分数据是否满足预定条件、判断 [ _Pi2 -169, _Pi2 ]中至少部分数据是否满足预定条件 C₂、判断 w_i3 [ρ -169, P ]中至少部分数据是否满足预定条件 C₃、判断 ₄ [ _Pi4 - 169, _A4 ]中至少部分数据是否满足预定条件 ₄、判断 w_i5 [ _Pi5 - 169, ]中至少部分数据是否满足预定条件 C₅、判断 ₆ [ _Pi6 - 169, _A6 ]中至少部分数据是否满足预定条件 Q、判断 W_i7 [ _Pn -169, _Ρι1 ]中至少部分数据是否满足预定条件 C₇、判断 [ _Pii - 169, _A ]中至少部分数据是否满足预定条件 C₈、判断 iV_i9 [ A₉ -169,_A9 ]中至少部分数据是否满足预定条件 C₉、判断^。 [ 。 -169, 。]中至少部分数据是否满足预定条件 C₁₍₎和判断^ i [_Pm -\69,_Pill ]中至少部分数据是否满足预定条件。当判断窗口^中至少部分数据满足预定条件 ς、窗口 ^中至少部分数据满足预定条件 C₂、窗口 ^中至少部分数据满足预定条件 C₃、窗口 ^中至少部分数据满足预定条件 C₄、窗口 ^中至少部分数据满足预定条件 C₅、窗口^中至少部分数据满足预定条件 C₆、窗口 ^中至少部分数据满足预定条件 C₇、窗口 ^中至少部分数据满足预定条件 C₈、窗口^中至少部分数据满足预定条件 C₉、窗口 _1Q中至少部分数据满足预定条件和窗口中至少部分数据满足预定条件 C_u时，则当前潜在分割点为数据流分割点。当 11个窗口中任一个窗口中至少部分数据不满足对应的预定条件时，如图 6所示， ₅ [/¾ -169,；¾] 中至少部分数据不满足对应的预定条件 C₅ , 则从点沿着数据流分割点查找方向跳跃 N个字节，其中 N 个字节不大于 II B₅ II +max ( II A_x || + || (k_{r Pi} II ), 在图 6所示的实施方式中，跳跃 N个字节不大于 179字节，在本实施例中， N=ll, 得到下一个潜在分割点，为与潜在分割点区别，这里将新的潜在分割点表示为。根据图 5所示的实施方式中在去重服务器 103上预设的规则，为潜在分割点确定的点为 11个，分别为 ^、 _Pjl、 _Pj 、 _Pj4, p_]5、 _Pj6、

Ρρ、 Ρβ、 Pj9、 Pjw

'确定'^？、 P_j2、 Ρ_β、 P_j4、 P_j5、 P_j6、 Ρ _Ί、 Ρ_β、 9、/ 和 „对应的窗口分别为^ [ 「169, 、 W_J2[p_j2-l69,_Pj2]. W_J3 [p_j3- 69,_Pj3]. W_J4[p_j4-l69,_Pj4]. ^,[^,-169,^,], W_J6[_Pj6-\69, _Pj6]. ^7 [ ^7 -1 9, _Pj7]. W_J&[_Pj,-l69, W_J9[_Pj9 -169, _Pj9]. W_jW[_PjW-\69,

/ ]和^ p_jU]. 其中, 与潜在分割点之间距离个字节，具体的，与间距 0个字节、与间距 1个字节、与间距 2个字节、与间距 3个字节、与间距 4个字节、与间距 5个字节、与间距 6个字节、与间距 7个字节、与间距 8个字节、。与间距 9个字节， „与间距 10个字节，并且 _Λί、 ρ 、 Ρ_β、 Ρ_μ、 P_j5、 P_j6、 Pj，、 ρ_β、 p_j9、 ^和 ^相对于潜在分割点均位于数据流分割点查找反方向。如图 6所示实施方式中，当为潜在分割点确定的第 11个窗口 ^ i [ „-169, _PjU],在保证潜在分割点与潜在分割点之间的范围都在判断范围之内，则在本实施方式中，必须保证窗口 W_jn[_PjU-\69, „]的左边界与 ^[/^-Ιό^/^]的右边界; ¾ 重合或者位于范围之内，其中，所述潜在分割点确定的点 „是根据所述规则，为所述潜在分割点 k】确定的 M个点按照数据流查找方向获得的序列中排序第一的点。因此，在这一限定内，当中至少部分数据不满足预定条件 C₅ , 从沿着数据流分割点查找方向跳跃的距离为不大于 II B₅ II +max ( II A_x || + || {k _Pix) II ),其中， M=ll, 11*U不大于 max_x( || A_x || + || {k _Pix) II ), 因此，从 _Pi5沿着数据流分割点查找方向跳跃的距离为不大于 179。判断 1Τ_β [ _Pjl -169, _Pjl ]中至少部分数据是否满足预定条件、判断 W_j2 [ _Pj2 -\ 69, _Pj2 ]中至少部分数据是否满足预定条件 C₂、判断 W_j3 [ _Pj3 - 169, ]中至少部分数据是否满足预定条件 C₃、判断 W_j4 [ _P]4 -\69, _Pj4 ]中至少部分数据是否满足预定条件 C₄、判断 JV_p [ - 169, _Pj, ]中至少部分数据是否满足预定条件 C₅、判断 ·₆ [ -169, ₆]中至少部分数据是否满足预定条件 C₆、判断^ [ -169, ₇ ]中至少部分数据是否满足预定条件 C₇、判断^ [ -169, ₈ ]中至少部分数据是否满足预定条件 C₈、判断 ·₉ [ -169, ₉]中至少部分数据是否满足预定条件 C₉、判断 ·₁₍₎ [;

-169, _PjW ]中至少部分数据是否满足预定条件 C₁₍₎和判断 W [ _Λ·„ -169, _Λ.„]中至少部分数据是否满足预定条件 C_u。当然在本发明实施例中，判断潜在分割点是否为数据流分割点时也遵循该规则，具体实现不再描述，可以参照判断潜在分割点的描述。当判断窗口中至少部分数据满足预定条件^、窗口 V_j2中至少部分数据满足预定条件 C₂、窗口中至少部分数据满足预定条件、窗口中至少部分数据满足预定条件 C₄、窗口 ^.₅中至少部分数据满足预定条件 C₅、窗口 ^.₆中至少部分数据满足预定条件 _Cfi、窗口 _Wp中至少部分数据满足预定条件 C₇、窗口中至少部分数据满足预定条件 C₈、窗口中至少部分数据满足预定条件 C₉、窗口^。中至少部分数据满足预定条件。和窗口 ^„中至少部分数据满足预定条件 C_u时，则当前潜在分割点为数据流分割点，与之间的数据构成 1个数据块，同时按照与相同的方式跳过最小分块大小 4KB, 获得下一个潜在分割点，并按照在去重服务器 103上预设的规则，判断下一个潜在分割点是否为数据流分割点。当判断潜在分割点不是数据流分割点时，按照与相同的方式跳跃 11个字节获得下一个潜在分割点，并按照在去重服务器 103上预设的规则及上述方法判断下一个潜在分割点是否为数据流分割点。当超过设定的最大数据块仍然没有找到数据流分割点时，则从最大数据块的结束位置作为强制分割点。

在图 5所示的实施方式中，根据在去重服务器 103上预设的规则，从判断 w_n [ _Pll-169, _Ρι1 ]中至少部分数据是否满足预定条件开始，当判断 n [ A, -169, _Al]中至少部分数据满足预定条件(^、判断^ [ _Pn - 69, _Pl2] 中至少部分数据满足预定条件 C₂、判断^ [A₃-169,A ] 中至少部分数据满足预定条件 ₃和判断 ^₄ [ p_l4 -169, p_l4 ]中至少部分数据满足预定条件 C₄, 判断 ^[/^-Ιό^;;, ]中至少部分数据不满足预定条件 C₅时，从点; ¾沿着数据流分割点查找方向跳跃 10个字节，在第 10 个字节的结束位置获得新的潜在分割点，为与其他潜在分割点区别，这里表示为，按照在去重服务器 103上预设的规则，为潜在分割点确定 11个点 , X分别为 1到 11连续的自然数，分别为 P_GL、 _PGL、 _PG 、 P_g P_g P 、 P_g，、 P_g P_g9、 P_GL。和 i，确定点 P_GL、 P_g P_gs、、 p_g5、 p_g6、 p_gl、 p_g,、 p_g9、 p_gW和 p_gll对应的窗口分别为 w_gl [p_gl-169, _Pgl ]、

P_g5] W_g6[_Pg6-l69, _Pg6]. W_g7[_Pgl-l69, _Pgl]. W_g,[_PgS-l69, _PgS]. W_g9[_Pg9 -169, _Pg9], W_gW [p_gl0 - 69, 。]和^ _PgU]. 其中， _Pgx与潜在分割点之间距离个字节，具体的， ^与间距 0个字节、 _Pgl与间距 1个字节、与间距 2个字节、 _g4与间距 3个字节、 _Pg5与 k_g 间距 4个字节、 _g6与间距 5个字节、 ₇与间距 6个字节、 ^与间距 7个字节、 ₉与间距 8个字节、。与间距 9个字节， P_GLL与间距 10个字节，并且 ₂、 _PG3、 P 、 P_G5、 P_G6、 P_G，、 p_gS、 P_G9、。和相对于潜在分割点 k_g均位于数据流分割点查找反方向。判断^ [_Pgl -169, p_gl]中至少部分数据是否满足预定条件 ς、判断 ^_g2[ _g2-169, g₂]中至少部分数据是否满足预定条件 C₂、判断 ffg₃[p_g3-169, ；^]中至少部分数据是否满足预定条件 C₃、判断^ [;v-169, _g4]中至少部分数据是否满足预定条件 C₄、判断^ -169, 中至少部分数据是否满足预定条件 C₅、判断 _g6[ _g6-169, 中至少部分数据是否满足预定条件 C₆、判断^ [ _g7-169, _g7]中至少部分数据是否满足预定条件 C₇、判断 ^[p_g8-169, ；^]中至少部分数据是否满足预定条件 C₈、判断^ [ _g9-169, 中至少部分数据是否满足预定条件 C₉、判断 W_GW [ _PGM - 169, _Pgm ]中至少部分数据是否满足预定条件 C₁₍₎和判断 if_gll [p_gn-\69, p_gll]中至少部分数据是否满足预定条件 C„。因此，潜在分割点 k_g对应的点 ?_gll与潜在分割点对应的点 p_i5重合，并且点 ?_gll对应的窗口^ ^ -169, ]与点; ¾对应的窗口^ [； ^- Q^]重合，并且 C₅ = C_U, 因此，对当潜在分割点 , 当判断 ^[/^-^^；^中至少部分数据不满足预定条件 ₅时，从点 p_i5沿着数据流分割点查找方向跳跃 10个字节，获得的潜在分割点 k_g仍然不符合作为数据流分割点的条件。因此，如果从点 _Pi5沿着数据流分割点查找方向跳跃 10个字节会存在重复计算，从点 _Pi5沿着数据流分割点查找方向跳跃 11个字节可以减少重复计算，效率更高。因此提高了查找数据流分割点的速度。当预设规定中点 _Px对应的窗口 ^ [ ^ - 4 , A + ^ ]中至少部分数据满足预定条件 C_X的概率为 1/2时，即是说以 1/2的概率执行跳跃，每次最多可以跳跃 179个字节。

在本实施方式中，预定规则为:为潜在分割点 /1确定 11个点、点对应的窗口 [p_x-4,A + ]和窗口 ]对应的预定条件 C_x , X分别为 1到 11连续的自然数，其中，点对应的窗口 ^[ ^-^, A + ]中至少部分数据满足预定条件的概率为 1/2 , 通过这两个因素可以计算 P(n)。并且 ^ ^ ^^^^^： ^⁶⁹, Β_γ=Β₂ ― S₃ ~ ^4 ⁼ B5 ⁼ Β₆― Βη― S₈― ― S₁₀ ⁼ ― 0 ·> "^f~_@L ― ₂― ― C₄― C₅― ₆― ₇― ₈ = C₉ = C_w = C_n , 其中，与潜在分割点之间距离个字节，具体的， A与潜在分割点 /1之间距离 0个字节， /^与 /1之间距离 1个字节， p^k 之间距离 2个字节，之间距离 3个字节，与/ 1之间距离 4个字节，与/1之间距离 5个字节， ρ₇与/ 1之间距离 6个字节，与/ 1之间距离 7 个字节，与之间距离 8个字节， _A。与之间距离 9个字节， p_u^k之间距离 10个字节，并且 p₂、 _P 、 p₅、 p₆、 ρ_Ί、、 P₉、 A。和 /¾相对于潜在分割点 k均位于数据流分割点查找反方向。因此是否存在连续 11个点对应窗口中的每一个窗口中至少部分数据均满足预定条件 C_x就决定潜在分割点 k是否为数据流分割点。从数据流起始位置 /上一数据流分割点跳跃最小分块长度 4096个字节后 ,向数据流分割点查找反方向回退 10个字节，找到第 4086个点，在该点处不存在数据流分割点，所以卩（4086) =1, 依次类推， P (4087) =1, P (4095 ) =l。在第 4096个点处，即在最小分块大小处，以（ 1/2) ^Λ11的概率这 11个点对应的窗口中每一个窗口中至少部分数据满足预定条件 ,因此以 ( 1/2) ^Λ11的概率存在数据流分割点，以 1- ( 1/2) ^Λ11的概率不存在数据流分割点，所以 Ρ ( 11 ) =1- ( 1/2) ^Λ11。

在第 η个点处，可以分为 12种情况来递推 Ρ (η) 。

情况 1: 第 n个点对应的窗口中至少部分数据以 1/2的概率不满足预定条件，此时第 n个点前面的 n-1个点以 P (n-1 ) 的概率不存在连续的 11个点对应的窗口中每一个窗口中至少部分数据分别满足预定条件，因此 P (n) 包含 1/2* P (n-1 ) 。第 n个点对应的窗口中至少部分数据不满足预定条件，并且第 n个点前面的 n-1个点存在连续的 11个点对应的窗口中每一个窗口中至少部分数据分别满足预定条件的情况与 P (n)无关。

情况 2: 第 n个点对应的窗口中至少部分数据以 1/2的概率满足预定条件，第 n-1个点对应的窗口中至少部分数据以 1/2的概率不满足预定条件，此时第 n-1个点前面的 n-2个点以 P (n-2) 的概率不存在连续的 11个点对应的窗口中每一个窗口中至少部分数据分别满足预定条件，因此 P (n) 包含 1/2*1/2*P (n-2) 。第 n个点对应的窗口中至少部分数据满足预定条件，第 n-1个点对应的窗口中至少部分数据不满足预定条件，并且第 n-1个点前面的 n-2个点存在连续的 11个点对应的窗口中每一个窗口中至少部分数据分别满足预定条件的情况与 P (n)无关。

依照上述描述，情况 11: 第 n至 n-9个点对应的窗口中至少部分数据以（ 1/2) ^Λ10的概率满足预定条件，第 η-10个点对应的窗口中至少部分数据以 1/2的概率不满足预定条件，此时第 η-10个点前面的 η-11 个点以 Ρ (η-11 ) 的概率不存在连续的 11个点对应的窗口中每一个窗口中至少部分数据分别满足预定条件，因此 Ρ(η)包含（ 1/2)^Λ10*1/2*Ρ (η-11 )。第 η至 n-9个点对应的窗口中至少部分数据均满足预定条件，第 n-10个点对应的窗口中至少部分数据不满足预定条件，并且第 n-10 个点前面的 n-11个点存在连续的 11个点对应的窗口中每一个窗口中至少部分数据分别满足预定条件的情况与 P (n)无关。

情况 12: 第 n至 n-10个点对应的窗口中至少部分数据以 ( 1/2) ^Λ11 的概率满足预定条件，该情况与 Ρ (η)无关。

因 P (n) =1/2* P (n-1 ) + ( 1/2) ^Λ2* P ( n-2 ) + + ( 1/2)

^Λ11*Ρ (η-11)。另一种预设规则：为潜在分割点确定 24个点 _Λ、点

_Ρχ对应的窗口 _x [ ρ_χ - 4 , Α +^ ]和窗口 ^ [ p_x - 4 , A +^ ]对应的预定条件 C_x, X分别为 1到 24连续的自然数，其中，点对应的窗口

A + ]中至少部分数据满足预定条件 C_X的概率为 3/4, 通过这两个因素可以计算 Ρ(η)。

Β_Χ

― Β₂ ⁼ Β₃ = Β₄ = Β₅ = Β₆ = Β_Η = 5₈ = Β₉ = B_Q = B_U =0 ·> ^f~_iL = C₂ ⁼ C₃ ⁼ C₄ ⁼ C₅ ⁼ C₆ = C₇ = C_S = C₉=...=C₂₂ = C₂₃=C₂₄ , 其中，与潜在分割点之间距离个字节，具体的， A与潜在分割点 /1之间距离 0个字节， ρ₂与/ 1之间距离 1 个字节， A与/ 1之间距离 2个字节， p₄与 /1之间距离 3个字节， A与/ 1之间距离 4个字节，与/1之间距离 5个字节， p₇与 /1之间距离 6个字节，与/1之间距离 7个字节，与/ 1之间距离 8个字节与/t之间距离 21个字节， /¾与/1之间距离 22个字节， p₂₄与/ 1之间距离 23个字节，并且 P2、 P₄、 P₅、 P₆、 Ρ_η、 P9… P22、 /½和 ½₄相对于潜在分割点 k均位于数据流分割点查找反方向。因此是否存在连续 24个点对应窗口中的每一个窗口中至少部分数据均满足预定条件就决定潜在分割点 /1是否为数据流分割点，可以通过下面的公式计算：

P (4073) =1, P (4074) =1, P (,4095) =1, P (4096) =1-

(3/4) ^Λ24,

Ρ (η) =1/4* Ρ (η-1 ) +1/4* ( 3/4 ) * Ρ ( η-2 ) + +1/4* (3/4)

^Λ23*Ρ ( η-24 ) 。

经过计算， Ρ( 5*1024 )=0.78, Ρ( 11*1024 )=0.17, Ρ(12*1024)=0.13, 即从数据流起始位置 /上一数据流分割点查找到 12KB后以 13%的概率仍未找到数据流分割点，强制进行分割。通过这个概率，求得数据流分割点的密度函数，经过积分求得大约平均在从数据流起始位置 /上一数据流分割点查找 7.6ΚΒ时找到数据流分割点，即平均分块长度大约为 7.6ΚΒ。与连续的 11个点对应的窗口中至少部分数据以 1/2的概率满足预定条件不同，传统 CDC算法釆用一个窗口以 1/2^Λ12的概率满足条件时，方可达到平均分块长度 7.6ΚΒ的效果。

在图 3所示的数据流分割点查找的基础上，在图 7所示的实施方式中，在去重服务器 103上预设有规则，所述规则为：为潜在分割点 /1确定 11个点 ^、点对应的窗口 [ρ_Χ-4,Ρχ+ ]和窗口 ] 对应的预定条件 C_x, X分别为 1到 11连续的自然数，其中，点对应的窗口 ^ [ A - 4 , A 中至少部分数据满足预定条件的概率为

1/2,并且 4 = ₂ = 4 = Λ ⁼ 4 ⁼ 45 ⁼ ^^ 。^ ， Β_ι = Β₂=Β₃ = Β₄=Β₅ = B₆ = B₇=B_& = B₉ =B_w = B_u=0, ^LC^, ₁ = C₂ = C₃ = C₄ = C₅ = C₆ = C₇ = C₈ = C₉ = C₁₀ = C_n , 其中，与潜在分割点 έ之间距离个字节，具体的， A与潜在分割点 /1之间距离 2个字节， ρ₂与/ 1之间距离 3个字节，与/ 1之间距离 4个字节， ₄与之间距离 5个字节，之间距离 6个字节， ^与/ 1之间距离 7个字节， p₇与 /1之间距离 8个字节，与/ 1之间距离 9个字节， p₉与^:之间距离 10个字节， _A。与/ 1之间距离 1个字节，之间距离 0个字节，并且/ _P 、 ρ₄、 ρ₅ , ρ₆、 ρ_Ί、 _P 、 ρ₉和 ^相对于潜在分割点均位于数据流分割点查找反方向。为数据流分割点，图 7 中所示数据流分割点查找方向为从左向右，从数据流分割点 k_a跳过最小数据块 4KB后，在最小数据块 4KB结束位置作为下一个潜在分割点 k_t, 为潜在分割点确定点 _Al，在本实施例中，根据在去重服务器 103 上预设的规则， X分别为 1到 11连续的自然数。在图 7所示的实施方式中 ,依据预定规则，为潜在分割点 k_t确定的点为 11个，分别为 _Pil、 _Pi2、

/¾、 P 、 Pis、 P_i6、 Pn、 /¾、 Pi9、 Pm^Prn ' 点 Pn、 P 、 P 、 P_i4、 p_i5、 p_i6、 Pn、 p 、 p_i9、。和 ½对应的窗口分别为 ^[； ½-169,_Al]、 w_i2[p_n-\69,_Pl2], w_i3[p -l69,_Pi}]. w_i4[p_l4-l69,_Pl4]. w_i5[_Pl5-l69,_Pi5]. w_i6[p_i6-^9,_Pi6], _ίΊ[_Ρί1-\69,ρ_π . ^₈[_A,-169,_A,], w_i9[_Pi9-l69,p_i9]. W_m [ _Pm - 169, _Pm ]和 [ - 169, ]。其中，点 _Pix与潜在分割点之间距离^个字节，具体的， ^与^间距 2个字节、 ^与^间距 3个字节、 ^与^间距 4个字节、与间距 5个字节、与间距 6个字节、 p,₆ 与间距 7个字节、 _A7与间距 8个字节、与间距 9个字节、 _Pi9与间距 10个字节、 _Pm与间距 1个字节，； _ι与间距 0个字节，并且 _Pn、

Pn、 /¾、 P,₄、 p_i5、 p_i6、 p_n、 /¾、 P_i9和; ½。相对于潜在分割点均位于数据流分割点查找反方向。判断^ [； ^-169,^]中至少部分数据是否满足预定条件 ς、判断 w_i2 [ _Pl2 - 169, p,₂ ]中至少部分数据是否满足预定条件 C₂、判断 ₃ [ _Pi3 - 169, ]中至少部分数据是否满足预定条件 C₃、判断 ₄ [ P_l4 -169, _Pl4 ]中至少部分数据是否满足预定条件 C₄、判断 w,₅ [ ρ_ί5- 69,_Ρί5 ]中至少部分数据是否满足预定条件 C₅、判断 W_i6 [ _Pi6 -169, _Pi6 ]中至少部分数据是否满足预定条件 C₆、判断 W_i7 [ _Pi7 - 169, _A7 ]中至少部分数据是否满足预定条件 C₇、判断 W_iS [ _P - 169, ]中至少部分数据是否满足预定条件 C₈、判断 _i9 [_Pi9 -\69, _Pi9 ]中至少部分数据是否满足预定条件 C₉、判断 ^ J 。 - 169, 。 ]中至少部分数据是否满足预定条件 C₁₍₎和判断 W_{n i} [_Pm -169, _Pm ]中至少部分数据是否满足预定条件 C_u。当判断窗口^中至少部分数据满足预定条件 ς、窗口 ^中至少部分数据满足预定条件 C₂、窗口^中至少部分数据满足预定条件 C₃、窗口 ₄中至少部分数据满足预定条件(：₄、窗口 ^中至少部分数据满足预定条件 C₅、窗口^中至少部分数据满足预定条件 C₆、窗口 ^中至少部分数据满足预定条件 C₇、窗口^中至少部分数据满足预定条件 C₈、窗口^中至少部分数据满足预定条件 C₉、窗口^。中至少部分数据满足预定条件(^。和窗口^ ₁中至少部分数据满足预定条件 C_u时，则当前潜在分割点为数据流分割点。当 11个窗口中任一个窗口中至少部分数据不满足对应的预定条件时，如图 8所示， ^₃ [/¾-169, ；¾]中至少部分数据不满足预定条件 ,点；¾沿着数据流分割点查找方向跳跃 11个字节为例进行描述。如图 8所示，当判断 ^不满足预定条件时，以 A为起始点，沿着数据流分割点查找方向跳跃 N个字节，其中 N个字节不大于 II B₃ II +max ( II A_x || + || ( k_{r Pi} II ), 在图 6所示的实施方式中，跳 if夭 N个字节，具体为不大于 179字节，在本实施例中， N=l l , 在第 11个字节的结束位置，获得下一个潜在分割点，为与潜在分割点区别，这里将新的潜在分割点表示为，根据在去重服务器 103上预设的规则，为潜在分割点确定的点为 11个，分别为 ^、 _P]1、 _Pfl、

Ρ_μ、 Pj P_j6、 P_P、 j% Pj9、 Pjw ^ Pju '确定点、 P_j2、 Ρ_β、 Ρ_μ、 P_j5、 P_]6、 Ρ〕_Ί、 Ρ_Β P_J9、 / 和 >对应的窗口分别为^ [^-169, _PJL], W_J2

_PJ2 ]、 Ψ_Β [ _PJ3 -169, _PJ3 ]、 W_J4 [ _Pj4-169, _Pj4 ]、 W_J5 [ _PJ5 -169, _PJ5 ]、

^6 -16 , _PJ6]. Ψ_Ρ[_Ρ]Ί- 69, _Pj7]. W_J&[_Pj,-\69, W_J9[_Pj9-\69,

P_j9 W_Jl0[_Pjl0- 69, ; ]和^ 其中，与潜在分割点之间距离个字节，具体的，与间距 2个字节、 ₂与间距

3个字节、 ₃与间距 4个字节、 ₄与间距 5个字节、 ₅与间距 6 个字节、与间距 7个字节、 ₇与间距 8个字节、与间距 9 个字节、与间距 10个字节、与间距 1个字节， _Λ.„与间距

0个字节，

p 、 _Pfl、 p_j4、 p_j5、 p_j6, P 、 ₉和 _1Q 目^ "于潜在分割点均位于数据流分割点查找反方向。判断 [_Pjl -169, _Pjl ] 中至少部分数据是否满足预定条件 C,、判断 W_J2 [ _PJ2 - 169, ₂ ]中至少部分数据是否满足预定条件 C₂、判断 [ ₃

]中至少部分数据是否满足预定条件、判断 [； ^₄-169, ]中至少部分数据是否满足预定条件 C₄、判断 JV_j5 [ .₅-169,^₅]中至少部分数据是否满足预定条件 C₅、判断^ [ - 169, ]中至少部分数据是否满足预定条件 C₆、判断

[_Pj7- 69, _Pj7 ]中至少部分数据是否满足预定条件 C₇、判断 W_JS [_PjS-169, 中至少部分数据是否满足预定条件 C₈、判断 .₉[ -169, ₉]中至少部分数据是否满足预定条件 C₉、判断^。[； ^。-169, 中至少部分数据是否满足预定条件 C_1Q和判断 W_JU [ _PjU-l69, _PjU ]中至少部分数据是否满足预定条件 C_u。当然在本发明实施例中，判断潜在分割点是否为数据流分割点时也遵循该原则，具体实现不再描述，可以参照判断潜在分割点的描述。当判断窗口中至少部分数据满足预定条件 ς、窗口 ^.₂中至少部分数据满足预定条件 C₂、窗口 ^.₃中至少部分数据满足预定条件 C₃、窗口 J¥_j4中至少部分数据满足预定条件 C₄、窗口 W_j5中至少部分数据满足预定条件 C₅、窗口 W_j6中至少部分数据满足预定条件 C₆、窗口 ^.₇中至少部分数据满足预定条件 C₇、窗口中至少部分数据满足预定条件 c₈、窗口 _Wj9中至少部分数据满足预定条件 C₉、窗口中至少部分数据满足预定条件(^。和窗口^工中至少部分数据满足预定条件 C„时，则当前潜在分割点为数据流分割点， kj 与之间的数据构成 1个数据块，同时按照与相同的方式跳过最 d、分块大小 4KB , 获得下一个潜在分割点，并按照在去重服务器 103上预设的规则，判断下一个潜在分割点是否为数据流分割点。当判断潜在分割点不是数据流分割点时，按照与 ki相同的方式跳跃 11个字节获得下一个潜在分割点，并按照在去重服务器 103上预设的规则及上述方法判断下一个潜在分割点是否为数据流分割点。当超过设定的最大数据块仍然没有找到数据流分割点时，则从最大数据块的结束位置作为强制分割点。当然该方法的实施受最大数据块长度和构成该数据流的文件的大小约束，在此不再赘述。

在图 3所示的数据流分割点查找的基础上，在图 9所示的实施方式中，在去重服务器 103上预设有规则，所述规则为：为潜在分割点 /1确定 1 1个点 p_x、点对应的窗口 [ ρ_χ-4, Ρχ + ]和窗口 ] 对应的预定条件 ,其中 4= 4=4=^=4=4= ^ ^τ^^ τΑ^Ι ^

Β_λ = Β₂ = Β₃ = Β₄ = Β₅ = Β₆ = Β₇ =Β_& = Β₉ =Β ₀ = Β_η =0■> " f"_0- C₁ ⁼ C₂ = C₃ ⁼ C_i ⁼ C₅ ⁼C₆ ⁼ C^ C^ C^ C^ C,^ 其中，与潜在分割点之间距离个字节，具体的， A与潜在分割点之间距离 3个字节，与 /1之间距离 2个字节，之间距离 1个字节， ρ₄与/ 1之间距离 0个字节，与/ 1之间距离 1 个字节， _A与之间距离 2个字节， p₇与之间距离 3个字节，与之间距离 4个字节， p₉与/ 1之间距离 5个字节， _A。与/ 1之间距离 6个字节， _Al与^:之间距离 7个字节，并且 ρ₅、 ρ₆、 ρ_Ί、、 ρ₉、 _Α。和 _Αι相对于潜在分割点 k均位于数据流分割点查找反方向， A、 P₂和 A相对于潜在分割点/ 1均位于数据流分割点查找方向。为数据流分割点，图 9 中所示数据流分割点查找方向为从左向右，从数据流分割点 k_a跳过最小数据块 4KB后，最小数据块 4KB结束位置作为下一个潜在分割点，为潜在分割点确定点；^, 在本实施例中，根据在去重服务器 103上预设的规则， X分别为 1到 11连续的自然数。在图 9所示的实施方式中，为潜在分割点确定的点为 11个，分别为 _Al、 _Pil、 _Pii、 p_i4、 _Pi5、 p 、

Pi，、 /¾、 P»、 Am和 /½，点 Ai、 Pn、 /¾、 P 、 /¾、 P_i6、 Pi，、 P_iS、 p_i9、和； ½对应的窗口分别为^ [^-169,^]、 w_i2

w [ρ - 69,ρ ], w_i4[p_i4-^9,_Pi4], w_i5[p_i5-^9,_Pi5], w_i6[p_i6-\69,_Pi6 . w_i7 [_A7-169,_A7]、 W_i&[p -\69,_P ], ^,[_A,-169,_A,], ^。 [； ^-^^^。]和^丄 [p_m- 69,_P ]_a其中，； ^与潜在分割点之间距离个字节，具体的， _Al与间距 3个字节、与间距 2个字节、与间距 1个字节、 _Pi4 与间距 0个字节、与间距 1个字节、 _A6与间距 2个字节、 _Pil与间距 3个字节、 ^与间距 4个字节、 _A9与间距 5个字节、 _Pm j 间距 6个字节，与间距 7个字节，并且; ¾、 _Pi6、 _Pil、 _Ρ 、 _Pi9、 _Pm 和相对于潜在分割点 _ki均位于数据流分割点查找反方向， _Ρι1、 _Pi2和 _Pi3相对于潜在分割点均位于数据流分割点查找方向。判断

- 169, _Al ]中至少部分数据是否满足预定条件、判断 ^₂ [ _Pi2 -169, _Pi2] 中至少部分数据是否满足预定条件 ₂、判断 w_i3 [ _Pi3 - 169,；¾ ]中至少部分数据是否满足预定条件 C₃、判断^ [_A4-169,_A4]中至少部分数据是否满足预定条件 C₄、判断 w_i5 [ _Pi5 - 169, ]中至少部分数据是否满足预定条件 C₅、判断^ [_Pi6 -169, _A6 ]中至少部分数据是否满足预定条件 C₆、判断 W„ [ _Pn -169, _Pn ]中至少部分数据是否满足预定条件 C₇、判断 W_iS [ _PiS-l69,p_iS ]中至少部分数据是否满足预定条件 C₈、判断 ₉ [ _Pi9 -169, P_i9 ]中至少部分数据是否满足预定条件 C₉、判断 _1Q [ _Pm - 169, _Pm ]中至少部分数据是否满足预定条件(^。和判断^ ₁ [； ^u-169,^]中至少部分数据是否满足预定条件 C_u。当判断窗口 ^中至少部分数据满足预定条件 ς、窗口^中至少部分数据满足预定条件 C₂、窗口 ^中至少部分数据满足预定条件 C₃、窗口^中至少部分数据满足预定条件 C₄、窗口^中至少部分数据满足预定条件 C₅、窗口 ₆中至少部分数据满足预定条件 C₆、窗口 ^中至少部分数据满足预定条件 C₇、窗口^中至少部分数据满足预定条件 C₈、窗口 ^中至少部分数据满足预定条件 C₉、窗口^。中至少部分数据满足预定条件(^。和窗口^ u中至少部分数据满足预定条件时，则当前潜在分割点为数据流分割点。当 11个窗口中任一个窗口中至少部分数据不满足对应的预定条件时，如图 10所示， W_n[_Pn -169, _Pn] 中至少部分数据不满足对应的预定条件，则从点 _Pil沿着数据流分割点查找方向跳跃 N个字节，其中 N个字节不大于 II Β_Λ II +max_x( II A_x 11 + 11 {k _Pix) \\ ), 在图 10所示的实施方式中，跳跃 N个字节，具体为不大于 179个字节，在本实施例中，具体取 Ν=8 , 得到新的潜在分割点，为与潜在分割点区别，这里将新的潜在分割点表示为，根据图 9所示的实施方式中在去重服务器 103上预设的规则，为潜在分割点确定的点为 11个，分别为 ^、 ρ 、 _Ρβ、 _Pj4、 _P]5、

Pj₆、 Pj，、 Ρβ、 Pj9、

Pju '确定' ^ P P_j2、 P 、 P_j4、 P_j5、 P_j6、 P_p、 p_fl、 P_J9、 P_jW和 p !对应的窗口分别为 W_n [_Pjl-\69, _Pjl ]、 W_j2 [ ₂ - 169, _Pj2 ]、 ^[ 3-169, ₃]、 ^[ 4-169, ₄]、 ^[ 5-169, ₅]、 ^,[^,-169, ₆]、 W_J7[_PJL -169, _Pjl]. W_jS[_Pj,- 69, _Ρβ]. W_j9[_Pj9-l69, _Pj9]. W_jW[_PjW-\69, ； ]和^ _π]₀ 其中，与潜在分割点之间距离个字节，具体的，与间距 3个字节、与间距 2个字节、 ρ 间距 1个字节、与间距 0个字节、与间距 1个字节、 ₆与间距 2个字节、与间距 3个字节、与间距 4个字节、与间距 5个字节、与间距 6个字节， „与间距 7个字节，并且、 ₆、 Ρ_Ρ、 _ΡΒ、 _PJ9、和 „相对于潜在分割点均位于数据流分割点查找反方向， _Pjl、和相对于潜在分割点均位于数据流分割点查找方向。判断 _l [ 169,^]中至少部分数据是否满足预定条件、判断 ^[ ₂-169, ₂]中至少部分数据是否满足预定条件 C₂、判断 JV_J3 [ -169, ₃]中至少部分数据是否满足预定条件 C₃、判断 [ -169, _Pj4 ]中至少部分数据是否满足预定条件 C₄、判断 W [ _PJ5 - 169, ]中至少部分数据是否满足预定条件 C₅、判断^ [ - 169, ]中至少部分数据是否满足预定条件 C₆、判断^ [ -169, ₇]中至少部分数据是否满足预定条件 C₇、判断 ._S[ -169, ]中至少部分数据是否满足预定条件 C₈、判断 [ -169, ₉]中至少部分数据是否满足预定条件 C₉、判断^。[； ^-169, 中至少部分数据是否满足预定条件 C_1Q 和判断^ „]中至少部分数据是否满足预定条件 C„。当然在本发明实施例中，判断潜在分割点是否为数据流分割点时也遵循该原则，具体实现不再描述，可以参照判断潜在分割点的描述。当判断窗口 ^中至少部分数据满足预定条件(^、窗口中至少部分数据满足预定条件 C₂、窗口 ^.₃中至少部分数据满足预定条件 C₃、窗口 ^中至少部分数据满足预定条件 C₄、窗口 W_J5中至少部分数据满足预定条件 C₅、窗口 ^.₆中至少部分数据满足预定条件 C₆、窗口中至少部分数据满足预定条件 C₇、窗口中至少部分数据满足预定条件 C₈、窗口^中至少部分数据满足预定条件 C₉、窗口。中至少部分数据满足预定条件(^。和窗口^工中至少部分数据满足预定条件时，则当前潜在分割点为数据流分割点，与之间的数据构成 1个数据块，同时按照与 ^相同的方式跳过最小分块大小 4KB, 获得下一个潜在分割点，并按照在去重服务器 103上预设的规则，判断下一个潜在分割点是否为数据流分割点。当判断潜在分割点不是数据流分割点时，按照与相同的方式跳跃 8个字节获得下一个潜在分割点，并按照在去重服务器 103上预设的规则及上述方法判断下一个潜在分割点是否为数据流分割点。当超过设定的最大数据块仍然没有找到数据流分割点时，则从最大数据块的结束位置作为强制分割点。

在图 3所示的数据流分割点查找的基础上，在图 11所示的实施方式中，在去重服务器 103上预设有规则，所述规则为：为潜在分割点 /1 确定 11个点 p_x、点 p_x对应的窗口 ^ [ -4 , +^]和窗口 [Ρχ-4 ,Ρχ+ ]对应的预定条件(^ ,其中 Α = Α₂ = Α, = Α_Α = Α = Α = Α_Ί = Α, = Α₉ =Α_1ϋ =\69,

=α₅=α₆=ο_Ί=α,=α₉=α_ιο≠α_{η 0} 其中， ^与潜在分割点之间距离个字节，具体的， _Α与潜在分割点 /1之间距离 0个字节， ρ₂与 /1之间距离 1个字节， A与/ 1之间距离 2个字节，与/ 1之间距离 3个字节， A与/ 1之间距离 4个字节，与/1之间距离 5个字节， p₇与 /1之间距离 6个字节，与/1之间距离 7个字节，与/ 1之间距离 8个字节， _A。与/ 1之间距离 1 个字节， /¾与之间距离 3个字节，并且、 P₂、 P₄ P₅、 P₆、 _PL、 P,和相对于潜在分割点 k均位于数据流分割点查找反方向， _A。和 _Al相对于潜在分割点/ 1均位于数据流分割点查找方向。 k_a为数据流分割点，图 11中所示数据流分割点查找方向为从左向右，从数据流分割点 k_a跳过最 '〗、数据块 4KB后，最小数据块 4KB结束位置作为下一个潜在分割点 , 为潜在分割点确定点 , 在本实施例中，根据在去重服务器 103上预设的规则， X分别为 1到 11连续的自然数。在图 11所示的实施方式中，为潜在分割点 ki确定的点为 11个，分别为 _P 、 _Pi2、 _Pi3、

P 、 Pi5、 P_i6、、 /¾、、 Pm^Pm ' Pa ^ Pn、 /¾、、 /¾、 p_i6、 A₇、 /¾、 p_i9、。和; ½对应的窗口分别为 ^[^-169,^]、 W_i2[p_i2 -169, _A2], w_i3[p -\69,p ]. w_i4[p_i4-\69,_Pi4], w_i5[_Pi5- 69,_Pi5], w_i6[p_i6 -169,p,₆]、

w_m [_Pm -169,_Pil0]和^ i

其中，； ^与潜在分割点之间距离个字节，具体的， _Al与间距 0个字节、与间距 1个字节、；¾与间距 2个字节、 _A4与间距 3个字节、与间距 4个字节、 _As与间距 5个字节、与间距 6个字节、与间距 7个字节、 _A9与间距 8 个字节、。与间距 1个字节，与间距 3个字节，并且 A₂、 /¾、 _PI4、 _PI5、 _PI6、 P„、 /¾和 ¾相对于潜在分割点均位于数据流分割点查找反方向，； ^。和相对于潜在分割点均位于数据流分割点查找方向。判断 fT_n [ _Ριϊ - 169, _Al ]中至少部分数据是否满足预定条件 ,、判断 W_i2 [ _Pl2 -169, _Pl2 ]中至少部分数据是否满足预定条件 C₂、判断 w_i3 [ p_i3-l69,_Pi3 ]中至少部分数据是否满足预定条件 C₃、判断 ₄ [ _Pi4 -169, _Pi4 ]中至少部分数据是否满足预定条件 C₄、判断 w_i5 [ _Pi5 - 169, ]中至少部分数据是否满足预定条件 C₅、判断 W_i6 [ _Pi6 -169, ]中至少部分数据是否满足预定条件 C₆、判断 W_i7 [ _Pn - 169, _A7 ]中至少部分数据是否满足预定条件、判断^ [ -169, ]中至少部分数据是否满足预定条件 C₈、判断^ [ ¾-169, ¾]中至少部分数据是否满足预定条件 C₉、判断 W_m [ 。 -169, _Pm ]中至少部分数据是否满足预定条件 C₁₀和判断^ u [ _Pm -169, _PiU ]中至少部分数据是否满足预定条件。当判断窗口 w_n中至少部分数据满足预定条件、窗口^中至少部分数据满足预定条件 c₂、窗口 ^中至少部分数据满足预定条件 c₃、窗口^中至少部分数据满足预定条件(：₄、窗口 ^中至少部分数据满足预定条件 c₅、窗口 ₆ 中至少部分数据满足预定条件、窗口^中至少部分数据满足预定条件 c₇、窗口^中至少部分数据满足预定条件 c₈、窗口^中至少部分数据满足预定条件 c₉、窗口 _1Q中至少部分数据满足预定条件 c₁₍₎和窗口中至少部分数据满足预定条件 C_u时，则当前潜在分割点 ki为数据流分割点。当判断窗口^„中至少部分数据不满足预定条件时，则从潜在分割点沿着数据流分割点查找方向跳跃 1个字节，得到新的潜在分割点，为与潜在分割点区别，这里将新的潜在分割点表示为。当、 w_i2 , w_i3 , w_i4 , w_i5 , w_i6 , w_i7、 w_iS、 ₉和^₁₍₎10个窗口中任一个窗口中至少部分数据不满足对应的预定条件时，如图 12 所示， ^₄[A₄-169, p,₄ , 则从点 p,₄沿着数据流分割点查找方向跳跃 N 个字节，其中 N个字节不大于 II B₄ II +max ( II II + II (k_rp_a) II ), 在图 12所示的实施方式中，跳跃 N个字节，具体为不大于 179, 在本实施例中，具体取 Ν=9 ,得到新的潜在分割点，为与潜在分割点 ki区别，这里将新的潜在分割点表示为 ,根据图 11所示的实施方式中在去重服务器 103上预设的规则，为潜在分割点确定的点为 11个，分别为

P_fl、 Pj2、 P_fi、 μ Ρ 、 P_j 、 Ρ 、 Ρ_β、 Pj9、 / 和 Λ·ιι，确定点、 P_j2、

Pj3、 Pj4、 Pjs、 Pj₆、 Pji、 Pj,、 Pj9、 Pj_W和 Pju对应的窗口分别为 w [ _Pjl -169, P W_j2[p_j2- 69,_Pj2], W_j3[_Pj!-169,_Pj!], W_j4[_Pj4-l69,_Pj4], W_j5[_Pj,-\69, ]、

_P]I ] , W_J9[_PJ9 -169, _PJ9], W_jW[p_JW-^9, _PJW]^W_JU[_PJ,-\S2, 其中, 与潜在分割点之间距离个字节，具体的， ^与间距 0个字节、 _Pjl与 kj 间距 1个字节、与间距 2个字节、与间距 3个字节、与间距 4个字节、与间距 5个字节、与间距 6个字节、与间距 7个字节、与间距 8个字节、与间距 1个字节，；与间距 3个字节，并且 ₂、 _Ρβ、 _Ρμ、 ₅、 _Pj6、 _Ρ]Ί、 ₈和 ₉相对于潜在分割点均位于数据流分割点查找反方向， p_jl0和； ^相对于潜在分割点 kj均位于数据流分割点查找方向。判断 [_Pjl - ,_Pjl ]中至少部分数据是否满足预定条件、判断 [ ₂-169, ₂]中至少部分数据是否满足预定条件 C₂、判断^ [ ₃ -169, ₃ ]中至少部分数据是否满足预定条件 C₃、判断^ [ - 169, ₄]中至少部分数据是否满足预定条件 C₄、判断 [ -169, ]中至少部分数据是否满足预定条件 C₅、判断^ [

-169, ]中至少部分数据是否满足预定条件 C₆、判断^ [ -169,

Ρ _Ί ]中至少部分数据是否满足预定条件 ₇、判断 W_JS [ _ΡΒ - 169, ]中至少部分数据是否满足预定条件 C₈、判断 [ -169, ₉]中至少部分数据是否满足预定条件 C₉、判断^。 [_PJW-\69, ; ]中至少部分数据是否满足预定条件 <^和判断^工 [_Pjn-m, n]中至少部分数据是否满足预定条件 C„。当然在本发明实施例中，判断潜在分割点是否为数据流分割点时也遵循该原则，具体实现不再描述，可以参照判断潜在分割点 ki的描述。当判断窗口 ^中至少部分数据满足预定条件、窗口 ^.₂中至少部分数据满足预定条件 C₂、窗口^中至少部分数据满足预定条件 C₃、窗口 ^.₄中至少部分数据满足预定条件 C₄、窗口中至少部分数据满足预定条件 c₅、窗口 _Wj6中至少部分数据满足预定条件 C₆、窗口 ^.₇中至少部分数据满足预定条件 C₇、窗口中至少部分数据满足预定条件 C₈、窗口中至少部分数据满足预定条件 c₉、窗口 _Ί。中至少部分数据满足预定条件 ς。和窗口工中至少部分数据满足预定条件 c„时，则当前潜在分割点为数据流分割点，与之间的数据构成 1个数据块，同时按照与 k_a相同的方式跳过最小分块大小 4KB, 获得下一个潜在分割点，并按照在去重服务器 103上预设的规则，判断下一个潜在分割点是否为数据流分割点。当判断潜在分割点 ·不是数据流分割点时，按照与相同的方式获得下一个潜在分割点，并按照在去重服务器 103上预设的规则及上述方法判断下一个潜在分割点是否为数据流分割点。当超过设定的最大数据块仍然没有找到数据流分割点时，则从最大数据块的结束位置作为强制分割点。

在图 3所示的数据流分割点查找的基础上，在图 13所示的实施方式中，在去重服务器 103上预设有规则为：为潜在分割点 /1确定 11个点 _Px、点 ^对应的窗口 [p_x-4, A+ ]和窗口 ]对应的预定条件 X分别为 1到 11连续的自然数，其中，点;^对应的窗口 ^ [；^

-4, +^J中至少部分数据满足预定条件的概率为 1/2,并且 4=4 = 4 =

Α₄ = Α₅ = Α₆ = Α₇ = Α, = Α₉ = Α_ιο = Α_η =\ 69, Β Β₂ = Β₃ = Β₄ = Β₅ = Β₆ = Β_Ί = B = B₉ = B_w = B_u=0, iL C₁ = C₂ = C₃ = C₄= C₅ = C₆ =C₇ = C₈ = C₉ = C₁₀ =C₁₁ , 其中， ρ_χ与潜在分割点/ 1之间距离个字节，具体的， A与潜在分割点 /1之间距离 0 个字节， p₂与 /1之间距离 2个字节，与/ 1之间距离 4个字节， p^ k之间距离 6个字节，与/ 1之间距离 8个字节， ^与/ 1之间距离 10个字节，之间距离 12个字节，与/ 1之间距离 14个字节，与/ 1之间距离 16个字节， _A。与/ 1之间距离 18个字节，之间距离 20个字节，并且 p₂、 _P 、 p₄、 p₅、 p₆、 ρ_Ί、、 p₉、 _A。和 _Al相对于潜在分割点均位于数据流分割点查找反方向。为数据流分割点，图 13中所示数据流分割点查找方向为从左向右，从数据流分割点 k_a跳过最小数据块

4KB后，在最小数据块 4KB结束位置作为下一个潜在分割点 , 为潜在分割点确定点 _ftx, 在本实施例中，根据在去重服务器 103上预设的规则， X分别为 1到 11连续的自然数。在图 13所示的实施方式中，依据预定规则，为潜在分割点确定的点为 11个，分别为; ¾、 _Pi2、 _Pn、

P 、 Pi5、 Pib、 Pn、 P 、 Pi9、 Pm^ Pm ' Pn ^ P 、 Pa、、 P 、 /¾、 Pn、、 P,₉ > 和 ¾对应的窗口分别为^ 169, 7_;1]、 W_l2 [Pn

-169,p,₂]、 w_i3[p_l3-l69,_Pl3], w_i4[_Pl4 -169, _Pl4}. w_i5[_Pl5-i69,_Pi5], w_ib[_Pl(,-\69, ½]、 W_i7[p_n-I69,p_i7], w [_Pm-l69,_Pi,], w_i9[p_i9-l69,_Pi9], w_m[_Pm-\69, p_iW]^w_iU[p -^9,p_m].其中，与潜在分割点之间距离个字节，具体的， _/,₁与/₍,.间距0个字节、；,₂与间距 2个字节、 ₃与间距 4个字节、 Ρ,₄与间距 6个字节、与间距 8个字节、 _P,₆与间距 10个字节、与间距 12个字节、与间距 14个字节、与间距 16 个字节、。与间距 18个字节，间距 20个字节，并且 ¾、 _Pl3.

A₄、 ft₅、 ρ_ί6、 Ρ_ιΊ、 ¾、 p_i9、 /½和/ ½相对于潜在分割点均位于数据流分割点查找反方向。判断 w_n [ _P -169, ]中至少部分数据是否满足预定条件、判断 ₂ [ _Pi2 - 169, p,₂ ]中至少部分数据是否满足预定条件 C₂、判断^ [^-Ιό^^]中至少部分数据是否满足预定条件 C₃、判断 ₄ [ _Pi4 -169, _Pl4 ]中至少部分数据是否满足预定条件 C₄、判断 w_i5 [ _Pi5 - 169, _ft5 ]中至少部分数据是否满足预定条件 C₅、判断 w_i6 [ _Pi6 -169, _Pi6] 中至少部分数据是否满足预定条件 C₆、判断 W„ [ _Pn - 169, _A7 ]中至少部分数据是否满足预定条件 C₇、判断^ [ _PiS - 169, ]中至少部分数据是否满足预定条件 C₈、判断 ₉ [ _A9 - 169, _Pi9 ]中至少部分数据是否满足预定条件 C₉、判断^ J 。 - 169, 。 ]中至少部分数据是否满足预定条件。和判断^ ₁ [； ^u-169,^]中至少部分数据是否满足预定条件。当判断窗口 ^中至少部分数据满足预定条件、窗口^中至少部分数据满足预定条件(：₂、窗口 ^中至少部分数据满足预定条件 C₃、窗口^ 中至少部分数据满足预定条件(：₄、窗口 ^中至少部分数据满足预定条件 C₅、窗口^中至少部分数据满足预定条件 C₆、窗口 ^中至少部分数据满足预定条件 C₇、窗口^中至少部分数据满足预定条件 C₈、窗口^中至少部分数据满足预定条件 C₉、窗口^。中至少部分数据满足预定条件 ς。和窗口^ ₁中至少部分数据满足预定条件 C_u时，则当前潜在分割点为数据流分割点。当 11个窗口中任一个窗口中至少部分数据不满足对应的预定条件时，如图 14所示， ^₄[_A4-169,_A4]中至少部分数据不满足预定条件 C₄, 则选择下一个潜在分割点，为与潜在分割点区别，这里表示为，位于右边，并且与间距 1个字节。如图 14所示，依据在去重服务器 103上预设的规则，为潜在分割点确定 11个点，分另' J为 _Pjl、 3、 _Ρμ、 p_J5, p_j6、 Ρ_ρ、 ρ_β、 P_j9、 P_jl0

Pj2、 Ρ_β、 Pj4、 Ρ_β、 P_j6、 P 、 Ρ_β、 Pj9、 /^。和/^ ^ 应的窗口分别为 W_N [_Pjl-\69, _Pjl ]、 W_J2 [ ₂ - 169, _PJ2 ]、 W_J [ _PJ, - 169, ₃ ]、

^[ ₄-169, ₄]、 ^[ -169, ₅]、 W_j6[_Pj,-l69, ₆]、 W_j7[_Pj7-169,

W_J%[_P],-\69, ]、 ^,[^,-169, _PJ9], W_jW[_PjW-\69, ; ]和^丄

[； -169, _PJN],其中,

Β_Λ

= B₂ = B₃ = B₄ = B₅ = B₆ =B₇ =B_& = B₉ =B_W = B_u=0, iL C₁ = C₂ = C₃ = C₄ = C₅=C₆ = C₇ =c_s=c₉=c_w=c_n. 其中，与潜在分割点之间距离个字节，具体的， ^与间距 0个字节、 ₂与间距 2个字节、 ₃与间距 4个字节、与间距 6个字节、与间距 8个字节、与间距 10 个字节、与间距 12个字节、 ₈与间距 14个字节、与间距 16个字节、。与间距 18个字节，与间距 20个字节，并且、 ρ_β、 Ρ_μ、 P_jS

p_j9、 ; 和；^相对于潜在分割点均位于数据流分割点查找反方向。判断 [_Pjl -169, ^ ]中至少部分数据是否满足预定条件 C、判断 [ ₂-169, ₂]中至少部分数据是否满足预定条件 C₂、判断 W_j3 [ ₃-169, ₃]中至少部分数据是否满足预定条件 C₃、判断 ^.₄[ ₄-169, ₄]中至少部分数据是否满足预定条件 C₄、判断 W [ -169, ₅]中至少部分数据是否满足预定条件 C₅、判断^ [ —169, 6]中至少部分数据是否满足预定条件 C₆、判断 [ -169, ₇]中至少部分数据是否满足预定条件 C₇、判断^ [ -169, ₈]中至少部分数据是否满足预定条件 C₈、判断 [ ₉-169, ₉]中至少部分数据是否满足预定条件 C₉、判断 [_Ρβ0-169, ]中至少部分数据是否满足预定条件 C₁₀和判断 W_jU [ _PjU-l69, _Pjn ]中至少部分数据是否满足预定条件。当判断窗口 ^中至少部分数据满足预定条件、窗口 W_j2中至少部分数据满足预定条件 C₂、窗口 W_j3中至少部分数据满足预定条件 C₃、窗口 ^.₄中至少部分数据满足预定条件 C₄、窗口中至少部分数据满足预定条件 C₅、窗口 ^.₆中至少部分数据满足预定条件 C₆、窗口 ^中至少部分数据满足预定条件 C₇、窗口 ιν_β中至少部分数据满足预定条件 C₈、窗口^中至少部分数据满足预定条件 C₉、窗口 ^_Ί。中至少部分数据满足预定条件 C_1Q和窗口^工中至少部分数据满足预定条件 C_u时，则当前潜在分割点 kj为数据流分割点。当判断窗口、 w_j2、 w_i4, w_i5、 w_i6, w_P、 JV_iS、 w_i9, ^。和 _m中任一个窗口中至少部分数据不满足预定条件时，如图 15所示， ^.₃[^₃-169, ₃]中至少部分数据不满足预定条件 C₃时，点 _Pi4相对于数据流分割点查找方向位于点 ₃左边，从点 _A4沿着数据流分割点查找方向跳跃 21个字节，获得下一个潜在分割点，为与潜在分割点、相区别，表示为。根据图 13所实施方式中在去重服务器 103上预设的规则，为潜在分割点确定的点为 11个，分别为/ ¾、 _Pn、 p_n、 p₁₄、 p₁₅、 P₁₆、 Ρ_1Ί、 P_K、

Pi9、 Pno和 Pin , '*、 Pn、 Pn、 Pn、 PI 、 Pis、 Pie、 Pn、 Pm、 P 、 Pm 和; ½对应的窗口分别为^ [ ½-169, _Pn] w_n[p_l2-\69, ρ₁₂], w [_Pn -169, _Pl3], w_l4[_Pl4-\69, _Pl4], w_l5[_Pl5-\69, _Pl5], w_l6[_Pl6-\69, _Pl6], w_n [ρ_/7-169, _Ρη], W„[p_K-l69, _Ρκ], W_l9[_Pl9-l69, _Pl9], ^_/10 [_Λιο -169, _Ρηο] 和^ i [； ^-169, _Ριη], 其中，与潜在分割点之间距离个字节，具体的，与潜在分割点之间距离 0个字节，与之间距离 2个字节，与之间距离 4个字节， ρ_Μ与之间距离 6个字节，与之间距离 8个字节， ^与之间距离 10个字节， ρ_/7与之间距离 12个字节，与之间距离 14个字节， ^与之间距离 16个字节， ρ_ηο与之间距离 18个字节， _P 与之间距离 20个字节，并且、 _Pn、 p_M、 _Pl5、 P_{L6 PN}、 P 、 _PL9 ^。和; ¾相对于潜在分割点均位于数据流分割点查找反方向。判断^ [ -169, 中至少部分数据是否满足预定条件判断 [ -169, 中至少部分数据是否满足预定条件 C₂、判断^ [ ¾-169, ]中至少部分数据是否满足预定条件 C₃、判断^ [ -169, p_M]中至少部分数据是否满足预定条件 C₄、判断^ [ -169, _Pl5] 中至少部分数据是否满足预定条件 C₅、判断 W_!6 [p_l6-\69, p,₆ ]中至少部分数据是否满足预定条件 C₆、判断^ -169, p„]中至少部分数据是否满足预定条件 C₇、判断^ [^-169, 中至少部分数据是否满足预定条件 C₈、判断^ [_Pl9-\69, 中至少部分数据是否满足预定条件 C₉、判断 W_no [ _Pm -169, _Pm ]中至少部分数据是否满足预定条件 C₁₀和判断 W_m[_Pm-\69, _P ]中至少部分数据是否满足预定条件。当判断窗口 w中至少部分数据满足预定条件、窗口 ^₂中至少部分数据满足预定条件 c₂、窗口^中至少部分数据满足预定条件、窗口^中至少部分数据满足预定条件(：₄、窗口^中至少部分数据满足预定条件 c₅、窗口 ^中至少部分数据满足预定条件 c₆、窗口^中至少部分数据满足预定条件 c₇、窗口^中至少部分数据满足预定条件 c₈、窗口 ^中至少部分数据满足预定条件 c₉、窗口 _/iq中至少部分数据满足预定条件(^。和窗口^ ^至少部分数据满足预定条件时，则当前潜在分割点为数据流分割点。当窗口 ^ 、 w_n. w_B、 w_H. w_l5. w_l6. JV_n、 w_ls. w_i9、 ^。和 _m中任一窗口中至少部分数据不满足预定条件时，选择下一个潜在分割点，为与潜在分割点、和区别，表示为位于右边，并且与间距 1个字节。根据图 13所示实施例在去重服务器 103上预设的规则，为潜在分割点确定的点为 11个，分别为、、、、、、、、、、、、、、、、、、，、 Pm9、 1。和对应的窗口分别为^ _Pml]. w_m2[_Pm2-\69, _Pm2], w_m3[_Pm3- 69, _Pm3], w_m4

_Pmll], 其中， /^与潜在分割点之间距离个字节，具体的， P_ml与潜在分割点之间距离 0个字节， ₂与之间距离 2个字节， ^与之间距离 4个字节， ₄与之间距离 6个字节，与之间距离 8个字节， ₆与之间距离 10个字节， ₇与之间距离 12个字节，与之间距离 14个字节，与之间距离 16个字节， _Pml0与 k_m 之间距离 18个字节， ^与之间距离 20个字节，并且 ₂、 _Pm3、 _Pm4、

Pm5、 Pm6、 P ml、 P m 、 Pm9、 PmlO和相对于潜在分割点均位于数据流分割点查找反方向。判断^ ；^]中至少部分数据是否满足预定条件、判断^ ₂[ ₂-169, 中至少部分数据是否满足预定条件 C₂、判断 ff_M3[p_m3-169, ；^]中至少部分数据是否满足预定条件 C₃、判断^ ₄[P_m4-169, p_m4]中至少部分数据是否满足预定条件 C₄、判断 _Pm5]中至少部分数据是否满足预定条件 C₅、判断^ ₆ [_Pm6- 69, 中至少部分数据是否满足预定条件 C₆、判断^ _{7 7} -169, 中至少部分数据是否满足预定条件 C₇、判断^ _s[_Pm8-169, ]中至少部分数据是否满足预定条件 C₈、判断^ ₉[ ₉-169, 中至少部分数据是否满足预定条件 C₉、判断 U _m1Q-169, _1q]中至少部分数据是否满足预定条件 C₁₀和判断 _mll [ _Pmll -169, _Pmll ]中至少部分数据是否满足预定条件 C_u。当判断窗口^ i中至少部分数据满足预定条件、窗口^ ₂中至少部分数据满足预定条件 C₂、窗口 ff_M3†至少部分数据满足预定条件 C₃、窗口^ ₄中至少部分数据满足预定条件 C₄、窗口 ff_m5中至少部分数据满足预定条件 C₅、窗口^ ₆中至少部分数据满足预定条件 C₆、窗口^ ₇中至少部分数据满足预定条件 C₇、窗口^ ₈中至少部分数据满足预定条件 C₈、窗口^ ₉中至少部分数据满足预定条件 C₉、窗口 _ml。中至少部分数据满足预定条件(^。和窗口^„中至少部分数据满足预定条件 Cu时，则当前潜在分割点 k_m为数据流分割点。当任一个窗口中至少部分数据不满足预定条件时，则按照前面描述的方案执行跳跃，以获得下一个潜在分割点并判断是否为数据流分割点。

本发明实施例提供了一种判断窗口 JV_iz [ _Piz-A_z, _Piz+B_z]中至少部分数据是否满足预定条件 c_z的方法，本实施例中使用随机函数判断窗口 [ p -A_z, _Pi + B_z]中至少部分数据是否满足预定条件 C_z, 以图 ⁵ 所示的 j实…，施方式为例，根据在去重服务器 103上预设的规则，为潜在分割点确定点 _Pil及点 _Ρη对应的窗口 ^ - 169, _Ρη ] ,判断 ^ [_Ρη-169, 中至少部分数据是否满足预定的条件如图 16所示， ^表示窗口

为判断^ -169,^]中至少部分数据是否满足预定条件选择 5个字节，图 16中"■ "表示选择的 1个字节，相邻两个选择的字节之间相差 42个字节。将选择的 5字节数据反复利用 51次，共获得 255字节，以增加随机性。其中每个字节由 8位组成，记为

8，表示 255个字节中第 m个字节的第 1到第 8位，因此， 255个字节对应的位可以表示为：，当 α =1时， =1, 当

、

„=0时， „=-1, 其中 „表示 ... ₈中的任一个， 255个字节对应的位按照 a_m„与 „的转换关系得到矩阵 , 可以表示为： ί

。选取大量随机数，组成矩阵，由随机数据

组成的矩阵一旦组成，保持不变，如从服从特定分布（这里以正态分布为例）的随机数中选择 255*8个随机数组成矩阵 R:

，将矩阵 v_a的第 m行与矩阵 R的第 m行的随机数相乘，然后求和得到一个值，具体表示为 ^^ ^+^ ^+…+^^ * ₈。根据该方法，获得 S_al、 ₂…到 ₂₅₅ , 统计 ₂…到 ₂₅₅中满足特定条件（这里以大于 0为例）的值的个数 K。由于矩阵 RJ 人正态分布，则 _m与矩阵 R—样，仍然服从正态分布，根据概率论，正态分布随机数大于 0的概率为 1/2, 在 ₂…到 ₂₅₅中，每个值大于 0

P(k = n) = C" (丄) "(丄 )²⁵⁵- " = C" (丄) ²⁵⁵ 的概率为 1/2,所以 K满足二项分布： ²⁵⁵ W ²⁵⁵ 2^; 。根据统计结果，判断& i、 S_a2…到 ₂₅₅的值大于 0的个数 K是否为偶数，二项分布的随机数为偶数的概率为为 1/2, 所以 K以 1/2的概率满足条件。当 K为偶数时，表明^ -169,^]†至少部分数据满足预定条件当 K为奇数时，表明^ [^-169,/^]中至少部分数据不满足预定条件，这里即指根据上述方式获得的& ,、 S_a2…到 ₂₅₅的值大于 0 的个数 K为偶数。在图 5所示的实施方式中，在 -169,^] 、 w_a[Pa

-169,p,₂]、 ^[Α₃-169,_α.₃]、 w_i [p_l4-\69,_Pl4^ w_i5[_Pl5-l69,_Pl5]. w_i6[_Pl6-\69, ½]、 w_i7[p„-^9,_Pi7], ^[ -169, ]、 w_i9[p_i9-l69,_Pi9], w_m[p_m-^9, 。]和^ i [； ^U-^ AU]中，各窗口大小相同,即窗口大小均为 169字节，同时判断窗口中至少部分数据是否满足预定条件的方式也相同，具体见上述判断 w_n [ _P -169, ]中至少部分数据是否满足预定条件 C_x的描述。因此，如图 16所示，表示判断窗口^ [_A2-169,_A2]中至少部分数据是否满足预定条件 C₂时选择的 1个字节，相邻两个选择的字节之间相差 42个字节。将选择的 5字节数据反复利用 51次，共获得 255 字节，以增加随机性。其中每个字节由 8位组成，记为 b_ml...b_m8，表示

255个字节中第 m个字节的第 1到第 8位，因此， 255个字节对应的位可以表示为：，当 „=i时， =i,当 „=o时， v_b

255，8 J =-1 ,其中 b_mn表示 6_m , ...6_{m 8}中的任一个， 255个字节对应的位按照 b_m„与

^^的转换关系得到矩阵 b , 可以表示为：

J 判断 ^ [ Pa - 169, p_n ]中至少部分数据是否满足预定条件的方式与判断窗口 lV_l2 [ _Pn -169, _A2 ]中至少部分数据是否满足预定条件的方式相

同，因此使用矩阵 R: J ，将矩阵的第 m行与矩阵

R的第 m行的随机数相乘，然后求和得到一个值，具体表示为&

"K,+v_bm^h_m +...+v_bm^h_m^ 根据该方法，获得、 …到& ₂₅₅ , 统计、到& ₂₅₅中满足特定条件（这里以大于 0为例）的值的个数^ 由于矩阵人正态分布，则 _m与矩阵 R—样，仍然服从正态分布，根据概率论，正态分布随机数大于 0的概率为 1/2, 在、 S_b2... 到 ₂₅₅中，每个值大于 0的概率为 1/2, 所以 K满足二项分布：

P(k = n) = C₂"₅₅(丄)" (丄) ²⁵⁵- " = C₂"₅₅ (-)²⁵⁵

2 ²⁵⁵ 。根据统计结果，判断、 …到& ₂₅₅ 的值大于 0的个数 Κ是否为偶数，二项分布的随机数为偶数的概率为为 1/2, 所以1^以1/2的概率满足条件。当 Κ为偶数时，表明^ [ ¾-169, ¾]中至少部分数据满足预定条件 C₂; 当 K为奇数时，表明^ [_A2-169, _Pi2 ]中至少部分数据不满足预定条件 C₂，这里 C₂即指根据上述方式获得的、 ₂…到 ₂₅₅的值大于 0的个数 K为偶数。图 3所示的实施方式中， ₂[ Pn -169, p_i2 ]中至少部分数据满足预定条件 C₂。

因此，如图 16所示，表示判断窗口 ^[ ¾-169,¾]中至少部分数据是否满足预定条件 C₃时选择的 1个字节，相邻两个选择的字节之间相差 42个字节。将选择的 5字节数据反复利用 51次，共获得 255 字节，以增加随机性。然后使用判断窗口^ -169,^]和^ [_A2-169,

_Pi2 ]中至少部分数据是否满足预定条件的方法，判断 w_i3 [ _Pl3 - 169, ]中至少数据是否满足预定条件 C₃。图 5所示的实施方式中， ^₃[i¾-169,_A.₃] 中至少部分数据满足预定条件。如图 16所示，表示判断窗口^ [ _A4 - 169, _Pi4 ]中至少部分数据是否满足预定条件 C₄时选择的 1个字节，相邻两个选择的字节之间相差 42个字节。将选择的 5字节数据反复利用 51次，共获得 255字节，以增加随机性。然后使用判断窗口^ [_P -169, _P ] ^[ ^-Ιό^^]和^ [ ₃-169, ₃]中至少部分数据是否满足预定条件的方法，判断 ₄ [ _Pi4 - 169, _A.₄ ]中至少部分数据是否满足预定条件 C₄。图 5所示的实施方式中， W_i4[p_i4- 69,_Pi4] 中至少部分数据满足预定条件 C₄。如图 16所示， "田"表示判断窗口 ^[； ¾-169,；¾]中至少部分数据是否满足预定条件 C₅时选择的 1个字节，相邻两个选择的字节之间相差 42个字节。将选择的 5字节数据反复利用 51次，共获得 255 字节，以增加随机性。然后使用判断窗口^ -169,^]、 W_i2[p_i2-^9, ^[ ¾-169, ₃]和 ₄[_A4-169,_A4]中至少部分数据是否满足预定条件的方法，判断 w,₅ [ _Pi5 - 169, ]中至少数据是否满足预定条件 C₅。图 5所示的实施方式中， ^[ ¾-169,p_i5]中至少部分数据不满足预定条件 C₅。

当 ^₅[ ¾-169,¾]中至少部分数据不满足预定条件时 C₅ , 从点 ¾ 沿着数据流分割点查找方向跳跃 11个字节，在第 11个字节的结束位置获得下一个潜在分割点，如图 6所示，根据在去重服务器 103上预设的规则，为潜在分割点确定点、点 i对应的窗口 ^[ 169,；^], 判断窗口 ^ [^-169, _Pjl ]中至少部分数据是否满足预定条件的方式与判断窗口^ [ - 169, ]中至少部分数据是否满足预定条件 C,的方式相同，因此如图 17所示， ^^表示窗口 ^[ 「169, 为判断

[ ₁-169, ₁]中至少部分数据是否满足预定条件(：₁, 选择 5个字节，图

17中 "國"表示选择的 1个字节，相邻两个选择的字节之间相差 42个字节。将选择的 5字节数据反复利用 51次，共获得 255字节，以增加随机性。其中每个字节由 8位组成，记为 ^,Λ,.α^ '，表示 255个字节中第 m 个字节的第 1到第 8位，因此， 255个字节对应的位可以表示为：

，当 α '=1时， \,当 a '=0时， V ，

其中 „ '表示 ^ ... ^ ₈ '中的任一个， 255个字节对应的位按照

V 的转换关系得到矩阵^，可以表示为：

判断窗口 ^ [^-169, _Pjl ]中至少部分数据是否满足预定的条件与判断窗口 ^ [ - 169, ]中至少部分数据是否满足预定的条件的方式相

同，因此使用矩阵 R:

将矩阵的第 m行与矩阵

R的第 m行的随机数相乘，然后求和得到一个值，具体表示为^'^ '

^^+ ^+…+^^ '* ₈。根据该方法，获得 '、 …到 ₂₅₅ '，统计、 U…到 ₂₅₅ '中满足特定条件 (这里以大于 0为例）的值的个数 K。由于矩阵 RI 人正态分布，则 f与矩阵 R—样，仍然服从正态分布，根据概率论，正态分布随机数大于 0的概率为 1/2, 在、 U…到 ₂₅₅ '中，每个值大于 0的概率为 1/2, 所以 K满足二项分布： P(k = n) = C" (-)" (丄) ²⁵⁵- " = C" (丄) ²⁵⁵

2 ²⁵⁵ 。根据统计结果，判断，、 …到 2₅₅ '的值大于 0的个数 κ是否为偶数，二项分布的随机数为偶数的概率为 1/2,所以 K以 1/2的概率满足条件。当 K为偶数时，表明

中至少部分数据满足预定条件当 K为奇数时，表明 ^[^-169, _Pjl ]中至少部分数据不满足预定条件。

判断^ [ A₂ -169, p,₂ ]中至少部分数据是否满足预定条件 C₂的方式和判断 w_j2 [ ₂ - 169, _Pj2 ]中至少部分数据是否满足预定条件 C₂的方式相同，因此，如图 17所示，表示判断窗口 [ ₂—169,^₂]中至少部分数据是否满足预定条件 C₂时选择的 1个字节，相邻两个选择的字节之间相差 42个字节。将选择的 5字节数据反复利用 51次，共获得 255 字节，以增加随机性。其中每个字节由 8位组成，记为/ ^'.. ,₈ '，表示

255个字节中第 m个字节的第 1到第 8位，因此， 255个字节对应的位可

V

以表示为： V . - V 当 6„„'=1时， „„'=l, 当 6, =0 h ， h ，， h ，， J

时， V_bm =-\, 其中 „ '表示 '.. ,₈'中的任一个， 255个字节对应的位按照 b_m„^ V_bmn' j转换关系得到矩阵 ^，，可以表示为：

。窗口 ₂[p₂-169,p₂]和 ₂[ ₂-169, 中至少

部分数据是否满足预定条件的方式相同，因此仍使用矩阵 R:

⁸人将矩阵的第 m行与矩阵 R的第 m行的随机数相乘，然后求和得到一个值，具体表示为^^^ +^ ^ +...+ * ₈。根据该方法，获得 '、 …到 ₂₅₅ ',统计 '、 S_bl ... 到 ₂₅₅ '中满足特定条件（这里以大于 0为例）的值的个数 K。由于矩阵人正态分布，则 '与矩阵 R—样，仍然服从正态分布，根据概率论，正态分布随机数大于 0的概率为 1/2, 在 '、到 ₂₅₅ '中，每个值大于 0的概率为 1/2, 所以 Κ满足二项分布：

P(k = n) = C₂ ⁿ ₅₅ ( -)" (丄) ²⁵⁵- " = C₂"₅₅ (丄) ²⁵⁵

2 ²⁵⁵ Y 。根据统计结果，判断、 > …到 & ₂₅₅ '的值大于 0的个数 K是否为偶数，二项分布的随机数为偶数的概率为为 1/2, 所以 K以 1/2的概率满足条件。当 K为偶数时，表明^；₂ [ ₂ -169, ₂]中至少部分数据满足预定条件 C₂;当 K为奇数时，表明 ^₂[_Pj2 -169, ₂]中至少部分数据不满足预定条件 C₂。同理，判断^ [_Λ.₃-169, ₃] 中至少部分数据是否满足预定条件 C₃的方式与判断 [_Pj3 -169, ₃ ] 中至少部分数据是否满足预定条件 C₃的方式相同，同理，判断^ [ ₄ -169, ₄]中至少部分数据是否满足预定条件 C₄、判断 W_j5 [_Pj5 -169, ₅ ] 中至少部分数据是否满足预定条件 C₅、判断^ [ - 169, ]中至少部分数据是否满足预定条件 C₆、判断 .₇[^₇-169, ₇]中至少部分数据是否满足预定条件 C₇、判断 ^ [^-169, ]中至少部分数据是否满足预定条件 C₈、判断^ [ -169, ₉]中至少部分数据是否满足预定条件 C₉、判断^。[； ; -169, 。]中至少部分数据是否满足预定条件。和判断 n]中至少部分数据是否满足预定条件 , 在此不再赘述。

仍然以图 5所示实施方式为例，提供了一种判断窗口^ [ _Pi2-A_z, _Pi +B_z]中至少部分数据是否满足预定条件 (^的方法，本实施例中使用随机函数判断窗口 W_iz [ ρ_ίΓΑ_ζ, _Ρί + Β_ζ]中至少部分数据是否满足预定条件 C_z, 根据在去重服务器 103上预设的规则，为潜在分割点确定点及对应的窗口^ - 169, ], 判断^ - 169, ]中至少部分数据是否满足预定的条件如图 16所示， ^表示窗口^ -169, _P ], 为判断 ^[^-169,^]中至少部分数据是否满足预定条件选择 5个字节，图 16中 "國"表示选择的 1个字节，相邻两个选择 "國，，的字节之间相差 42个字节。其中一种实现方式为使用 HASH函数计算选择的 5个字节，使用 HASH函数计算得到的数值是一个固定均匀分布，如果使用 HASH函数计算得到的数值为偶数，则判断^ [_Pn-I69,p_n] 中至少部分数据满足预定条件<^ , 即 (^表示根据上述方式使用 HASH 函数计算得到的数值为偶数。因此， ^[^-169,^] 中至少部分数据是否满足预定条件的概率为 1/2。在图 5所示的实施方式中，使用 Hash 函数判断^ [_Pl2 -169, _Pl2 ]中至少部分数据是否满足预定条件 C₂、 w_i3 [p_i3- 69, _Pi3 ]中至少部分数据是否满足预定条件 C₃、 w_i4 [ _Pi4 - 169, p_i4 ]中至少部分数据是否满足预定条件 C₄和 w_i5 [ A - 169 , ]中至少部分数据是否满足预定条件 C₅ , 具体实现可参考描述图 5所示实施方式使用 Hash函数判断^ -169, 中至少部分数据是否满足预定条件的方式在此不再赞述。

当 ^₅[ ¾-169,¾]中至少部分数据不满足预定条件 C₅时，从点 ¾ 沿着数据流分割点查找方向跳跃 11个字节，在第 11个字节的结束位置获得当前潜在分割点，如图 6所示，根据在去重服务器 103上预设的规则，为潜在分割点确定点、点 i对应的窗口

判断窗口 ^ [^-169, _Pjl ]中至少部分数据是否满足预定条件的方式与判断窗口 ^[； ¾ - 169, ]中至少部分数据是否满足预定条件 C,的方式相同，因此如图 17所示， ^^表示窗口 ^[ 「169, 为判断

17中 "國"表示选择的 1个字节，相邻两个选择的字节 "國"之间相差 42 个字节。使用 Hash函数计算从窗口中选取的 5个字节，如果得到的数值为偶数，则 ^[^-169,^]中至少部分数据满足预定条件。图 17中，判断^ [_A2-169,_A2]中至少部分数据是否满足预定条件 C₂的方式和判断 W_j2 [ ₂ -169, _Pj2 ]中至少部分数据是否满足预定条件 C₂的方式相同，因此，如图 17所示，"®，，表示判断窗口 ^.₂[ ₂-169, _Pj2 ]中至少部分数据是否满足预定条件 C₂时选择的 1个字节，相邻两个选择的字节" "之间相差 42个字节。使用 Hash函数计算选择的 5个字节，如果得到的数值为偶数，则^.₂[^₂-169,^₂]中至少部分数据满足预定条件 C₂。图 17中，判断^ [_A,-169,_A,]中至少部分数据是否满足预定条件 C₃的方式与判断 JV_j3 [ _Pj3 -169, _Pj3 ]中至少部分数据是否满足预定条件的方式相同，因此，如图 17所示，表示判断窗口

[ _Pj3 -169, _Pj3 ]中至少部分数据是否满足预定条件 C₃时选择的 1个字节，相邻两个选择的字节國"之间相差 42个字节。使用 Hash函数计算选择的 5个字节，得到的数值为偶数，则^.₃[^₃-169,^₃]中至少部分数据满足预定条件 C₃。图 17中，判断^ [； ^-169,^₄]中至少部分数据是否满足预定条件 C₄的方式和判断窗口 tr_M [_Pi4 -169, _Pi4 ]中至少部分数据是否满足预定条件 (：₄的方式，因此，如图 17所示， " "表示判断窗口 ^₄ [_P]4-\69, _Pj4 ]中至少部分数据是否满足预定条件 C₄时选择的 1个字节，相邻两个选择的字节" "之间相差 42个字节。使用 Hash函数计算选择的 5个字节，得到的数值为偶数，则 ^.₄[ -169,^₄]中至少部分数据满足预定条件 C₄。根据上述方法，判断 ^ [^₅-169,^₅]中至少部分数据是否满足预定条件 C₅、判断 [ - 169, ]中至少部分数据是否满足预定条件 C₆、判断 ^[ ₇-169, ₇]中至少部分数据是否满足预定条件 C₇、判断 [ - 169, ₈]中至少部分数据是否满足预定条件 C₈、判断^ [ ₉-169, ₉]中至少部分数据是否满足预定条件 C₉、判断 ^。 [/ -169, ; ]中至少部分数据是否满足预定条件。和判断 W_jU[p_j -\69, J中至少部分数据是否满足预定条件 C_u, 在此不再赘述。

以图 5所示的实施方式为例，提供了一种判断窗口 W_iz [ p_i2-A_z, p_iz + B_z]中至少部分数据是否满足预定条件 ^的方法，本实施例中使用随机函数判断窗口 W_iz [ p_i2-A_z, p_i2+B_z]中至少部分数据是否满足预定条件 C_z, 根据在去重服务器 103上预设的规则，为潜在分割点确定点及对应的窗口^ - 169, ] , 判断^ [ - 169, ]中至少部分数据是否满足预定条件<^ ,如图 16所示， ^表示窗口 w_n [p -169,_P ], 为判断 ^ [ -169, ]中至少部分数据是否满足预定条件 C_x , 选择 5个字节，图 16中序号为 169、 127、 85、 43和 1的字节 "國"分别表示选择的 1个字节，相邻两个选择的字节之间相差 42个字节。将序号为 169、

127、 85、 43和 1的字节 "國"分别转换成一个十进制数值，分别表示为 _ai、 a₂. a₃、 «₄和。因为 1个字节由 8位组成，所以每个字节 "國" 作为一个数值，则 _βι、 α₂、 α₃、 «₄和《₅中的任一个均满足 0≤ ≤255。 _βι、 α₂、 α₃ , «₄和组成 1*5的矩阵。从服从二项分布的随机数中选 h Ό,5

h h、. h、;

择 256*5个随机数，组成矩阵 R, 表示为:

¾55'5 255,5 … 255,5 ) 根据的值和所在的列，从矩阵 R中查找对应的值，如 =36, α_λ 位于第 1列，则查找/ ¾对应的值；根据《₂的值和所在的列，从矩阵 R 中查找对应的值，如《₂ =48, «₂位于第 2列，则查找 ^₂对应的值；根据 ^的值和所在的列，从矩阵 R中查找对应的值，如《₃=26, ^位于第 3列，则查找/ ¾₃对应的值；根据《₄的值和所在的列，从矩阵 R中查找对应的值，如《₄ =26, «₄位于第 4列，则查找/ ¾₄对应的值；根据 ^的值和所在的列，从矩阵 R中查找对应的值，如《₅=88, ^位于第 5列，则查找½,₅对应的值。 ^=/¾+ ₂ ^{+ /}¾₃ ^{+ /}¾ ^+/ ₅ , 因为矩阵 R 人二项分布，因此，也服从二项分布。当为偶数，则^ -169,_Ρ;1] 中至少部分数据满足预定条件当为奇数，则^ -169, 7_;1 ]中至少部分数据不满足预定条件 _Ci , 为偶数的概率为 1/2, 表示按上述方式计算为偶数。在图 5所示实施例中， ^ [^-169,^]中至少部分数据满足预定条件<^。如图 16所示， "^"表示判断窗口 w_n [ _Pi2 -169, _Pn ]中至少部分数据是否满足预定条件 C₂时分别选择的 1个字节，在图 16中，分别用序号 170、 128、 86、 44和 2表示，相邻两个选择的字节之间相差 42个字节。将序号 170、 128、 86、 44和 2的字节分别转换成一个十进制数值，分别表示为 _έι、 b₂、、和 6₅。因为 1个字节由 8位组成，所以每个字节作为一个数值，则、 b₂、 6₃、 b₄ ^ b₅ 中的任一个 b均满足 0≤b≤255。 b₂、 6₃、和组成 1*5的矩阵。本实施方式中，判断 ^和^中至少部分数据是否满足预定条件的方式相同，因此仍然使用矩阵 R, 根据的值和所在的列，从矩阵 R中查找对应的值，如 _6l=66, 位于第 1列，则查找 A₆₆对应的值；根据的值和所在的列，从矩阵 R中查找对应的值，如 ₂=48, 位于第 2列，则查找对应的值；根据 6₃的值和所在的列，从矩阵 R中查找对应的值，如 ¾=99, 6₃位于第 3列，则查找对应的值；根据的值和所在的列，从矩阵 R中查找对应的值，如 ₄=26, ₄位于第 4列，则查找/ 对应的值；根据的值和所在的列，从矩阵 R中查找对应的值，如 =90,

6₅位于第 5列，则查找¾。,₅对应的值。 s₂=/¾+/ ^+/¾,₃ ^+/¾₄ ^+/ ₅,因为矩阵 RI 人二项分布，因此，也服从二项分布。当为偶数，则^ [_Α2-169,_Α2]中至少部分数据满足预定条件 C₂, 当为奇数， w_n[p_i2 -169, ¾]中至少部分数据不满足预定条件 C₂, 为偶数的概率为 1/2。在图 5所示实施例中，中至少部分数据满足预定条件 ₂。使用同样的规则，分别判断 ^[ ^-Ιό^^]中至少部分数据是否满足预定条件、判断^ [_Α4-169,ρ,₄]中至少部分数据是否满足预定条件 C₄、判断 ₅[A.₅-169,p_i5]中至少部分数据是否满足预定条件 C₅、判断 ₆ [ _Pi6 -169, _Pi6 ]中至少部分数据是否满足预定条件 C₆、判断 W_n [ _Pil -169, _Pn ]中至少部分数据是否满足预定条件 C₇、判断 W_iS [ _Pa - 169, ]中至少部分数据是否满足预定条件 C₈、判断 W_i9 [ _Pl9 -169, _Pi9 ]中至少部分数据是否满足预定条件 C₉、判断 _1Q [ _PiW-l69,p_iW ]中至少部分数据是否满足预定条件 C₁₀和判断^ ₁ [ _PiU -169, ]中至少部分数据是否满足预定条件 C_u。图 5所示的实施方式中， ^[^,₅-169,¾]中至少部分数据不满足预定条件 C₅,从点 ¾沿着数据流分割点查找方向跳跃 11个字节，在第 11个字节的结束位置获得当前潜在分割点，如图 6所示，根据在去重服务器 103上预设的规则，为潜在分割点确定点点对应的窗口 ^[^-169,^], 判断窗口 ^[^-169,^]中至少部分数据是否满足预定条件的方式与判断窗口^ [； ¾ - 169, ]中至少部分数据是否满足预定条件的方式相同，因此如图 17所示， ^^表示窗口

[ _Pjl -169, _Pjl ] ,为判断 W [ _Pjl -169, _Pjl ]中至少部分数据是否满足预定条件图 17中序号为 169、 127、 85、 43和 1的字节 "國"分别表示选择的 1个字节，相邻两个选择的字节之间相差 42个字节。将序号为 169、 127、 85、 43和 1的字节 "國"分别转换成一个十进制数值，分别表示为、。₂'、、。₄ '和。因为 1个字节由 8位组成，所以每个字节 "國" 作为一个数值，则、。₂'、 α₃'、。₄ '和 Ω₅ '中的任一个均满足 0≤ ≤255。

、。₂'、、。₄ '和 ₅ '组成 1 *5的矩阵。判断窗口^ [ 169, 中至少部分数据是否满足预定条件 C,的方式与判断窗口^ [^ -169,^ ]中至少部分数据是否满足预定条件 _Cl的方式相同，因此，仍然使用矩阵

"θ,Ι "0,2

h h

：〃1,1 〃 .

1,2

R, 表示为

、〃 h h .

255,5 "255,5 * * 255,5 _y

根据 ^ '的值和所在的列，从矩阵 R中查找对应的值，如 =16, _Ωι '位于第 1列，则查找对应的值；根据的值和所在的列，从矩阵 R中查找对应的值，如。₂'=98,。₂ '位于第 2列，则查找/ ^₂对应的值；根据的值和所在的列，从矩阵 R中查找对应的值，如 =56, Ω₃ '位于第 3 列，则查找对应的值；根据的值和所在的列，从矩阵 R中查找对应的值，如。₄'=36, 。₄ '位于第 4列，则查找 ¾₄对应的值；根据 Ω₅ '的值和所在的列，从矩阵 R中查找对应的值，如 =99, Ω₅ '位于第 5列，则查找对应的值。 '^=/¾^+/¾₂ ^+/¾^+/¾₄ ^+/^ "因为矩阵从二项分布，因此，也服从二项分布。当 '为偶数，则^ [ 169, 中至少部分数据满足预定条件 d , 当 '为奇数，则^ [ ^169,^ ]中至少部分数据不满足预定条件 , 为偶数的概率为 1/2。

判断^ [ A₂ -169, p,₂ ]中至少部分数据是否满足预定条件 C₂的方式和判断 [^₂-169, _Pj2 ]中至少部分数据是否满足预定条件 C₂的方式相同，因此，如图 17所示， " "表示判断窗口 [ ₂-169, ₂]中至少部分数据是否满足预定条件 C₂时选择的 1个字节，相邻两个选择的字节之间相差 42个字节，分别用序号 170、 128、 86、 44和 2表示，相邻两个选择的字节之间相差 42个字节。将序号 170、 128、 86、 44和 2的字节" "分别转换成一个十进制数值，分别表示为、、 b₃'、和 b₅'。因为 1个字节由 8位组成，所以每个字节作为一个数值，则^、、 b₃'、和中的任一个均满足 0≤V≤255。、、、和组成 1 *5的矩阵。与判断窗口 w_n [ _Pi2 - 169, _A2 ]中至少部分数据是否满足预定条件 (：₂使用相同的矩阵 R, 根据的值和所在的列，从矩阵 R中查找对应的值，如 =210, 位于第 1列，则查找/ ½ 对应的值；根据的值和所在的列，从矩阵 R中查找对应的值，如 =156, 位于第 2列，则查找对应的值；根据的值和所在的列，从矩阵 R中查找对应的值，

位于第 3列，则查找对应的值；根据的值和所在的列，从矩阵 R中查找对应的值，如 =60, V位于第 4列，则查找¾₄对应的值；根据的值和所在的列，从矩阵 R中查找对应的值，如 =90, 位于第 5列，则查找¼₅对应的值。 +/¾₅₆,₂ + + ₄ + ₅ ,与的判断条件相同，当 '为偶数，则 W_j2 [_Pj2-I69,p_j2] 中至少部分数据满足预定条件 C₂, 当 '为奇数，则^ ^[^-Ιό^^] 中至少部分数据不满足预定条件 C₂ , 为偶数的概率为 1/2。

同理，判断 W_l3 [_Pi3-I69,p_i3 ]中至少部分数据是否满足预定条件 C₃ 的方式与判断 [ ₃

]中至少部分数据是否满足预定条件 C₃ 的方式相同，同理，判断 ^.₄[^₄-169,^₄]中至少部分数据是否满足预定条件 C₄、判断 W [ _P]5 - 169, ]中至少部分数据是否满足预定条件 C₅、判断^ [ -169, ]中至少部分数据是否满足预定条件 C₆、判断

[ _Pjl-\69, _Pjl ]中至少部分数据是否满足预定条件 C₇、判断 [ _Pjg -169, 8]中至少部分数据是否满足预定条件 C₈、判断^ [ 9-169, ₉]中至少部分数据是否满足预定条件 C₉、判断 W_jW [i -169, 。]中至少部分数据是否满足预定条件(^。和判断 ^^[;^-169, J中至少部分数据是否满足预定条件 C_u , 在此不再赘述。

以图 5所示的实施方式为例，提供了一种判断窗口 W_iz [ _Piz-A_z, _Pi2 + B_Z]中至少部分数据是否满足预定条件 ^的方法，本实施例中使用随机函数判断窗口 W_iz [ _Piz-A_z, _Pi +B_z]中至少部分数据是否满足预定条件 C_z, 根据在去重服务器 103上预设的规则，为潜在分割点确定点及对应的窗口^ - 169, ] , 判断^ - 169, ]中至少部分数据是否满足预定的条件，如图 16所示， ^表示窗口^ [ 7_;1-169, 7_;1], 为判断 W_n [ -169, ]中至少部分数据是否满足预定条件 C, , 选择 5个字节，图 16中序号为 169、 127、 85、 43和 1的字节 "國"分别表示选择的 1个字节，相邻两个选择的字节之间相差 42个字节。将序号为 169、

127、 85、 43和 1的字节 "國"分别转换成一个十进制数值，分别表示为 _Ωι、 α₂、 ₃、《₄和。因为 1个字节由 8位组成，所以每个字节 "國" 作为一个数值，则 I γ、 CI 2、 X 、 I ^和 ₅中的任一个均满足 0≤ ≤255。

和《₅组成 1 *5的矩阵。从服从二项分布的随机数中选择 256*5个随机数，组成矩阵 R, 表示为: ，从服

从二项分布的随机数中选择 256*5个随机数，组成矩阵 G, 表示为：

§255,5 §255,5 " ' §255,5

根据 _Ωι的值和所在的列，如^ =36, _Ωι位于第 1列，则从矩阵 R中查找查找 ¾对应的值，从矩阵 G中查找 g_36;1对应的值；根据《₂的值和所在的列，如《₂=48, «₂位于第 2列，则从矩阵 R中查/₄₈,₂对应的值，从矩阵 G中查找 g₄₈,₂对应的值；根据 ₃的值和所在的列，如^=26, ₃ 位于第 3列，则从矩阵 R中查找 ¾,₃对应的值，从矩阵 G中查找 ₆,₃对应的值；根据《₄的值和所在的列，如《₄ =26, «₄位于第 4列，则从矩阵 R中查找 ¾,₄对应的值，从矩阵 G中查找 g_2M对应的值；根据 ₅的值和所在的列，如《₅=88, «₅位于第 5列，则从矩阵 R中查找 ¾,₅对应的值，从矩阵 G中查找 g₈ 对应的值。 = h₃₆, + Λ_48>2 + Λ_26;3 + h_26A + ，因为矩阵从二项分布，因此， S_1¾也服从二项分布; =g₃₆ +g₄₈,₂ +g₂₆₃ +g_2M + g_{88 5} , 因为矩阵 G服从二项分布，因此 _g也服从二项分布。当 _¾和 _g 中有 1个为偶数，则 ^ [； ¾ - 169 , ]中至少部分数据满足预定条件 , 当和均为奇数 , 则^ [； ¾ - 169, ]中至少部分数据不满足预定条件表述按照上述方法获得的和 _g中有 1个为偶数。因为和均服从二项分布，因此 ^为偶数的概率为 1/2, 为偶数的概率为 1/2, S_1¾和中有 1个为偶数的概率为 1-1/4=3/4, 因此， ^ [^-169,^] 中至少部分数据满足预定条件 <^的概率为 3/4。在图 5所示实施例中， w_n [^-169,^]中至少部分数据满足预定条件。在图 5所示的实施方式中，在 ^ [ - 169, ] 、 ₂ [ _A2 - 169, _A2 ]、 ^[ ¾ - 169, ₃ ]、 ₄ [ _A4 - 169, p_i4] w_i5[p_l5- 69,_Pi5], w_i6[p_i6-\69,_Pi6 . w_i7[p_i7-^9,p_i7], ^₈[¾-169, ]、 W_i9[p_i9-l69,_Pi9], ^。[^。-169,^。]和^ ₁ [； ^u-169,^]中，各窗口大小相同,即窗口大小均为 169字节，同时判断窗口中至少部分数据是否满足预定条件的方式也相同，具体见上述判断^ [ - 169, ]中至少部分数据是否满足预定条件 (^的描述。因此，如图 16所示， " "表示判断窗口 W_n [_Pi2 -169, _Pi2 ]中至少部分数据是否满足预定条件 C₂时分别选择的 1个字节，在图 16中，分别用序号 170、 128、 86、 44和 2表示，相邻两个选择的字节之间相差 42个字节。将序号 170、 128、 86、 44 和 2的字节 " "分别转换成一个十进制数值，分别表示为、 H 和。因为 1个字节由 8位组成，所以每个字节 "作为一个数值，则 b_t、 b₂、 b₃、 b₄和 b₅中的任一个 b_s均满足 0≤ <255。、 b₃、 b₄ 和组成 1*5的矩阵。本实施方式中，判断各窗口中至少部分数据是否满足预定条件的方式相同，因此仍然使用相同矩阵 R^PG。根据的值和所在的列，如 =66, 位于第 1列，则从矩阵 R中查找 ₆₁对应的值，从矩阵 G中查找 g₆₆对应的值；根据的值和所在的列，如 =48, 位于第 2列，则从矩阵 R中查找 ₂对应的值，从矩阵 G中查找 ,₂对应的值；根据¾的值和所在的列，如6₃=99, ¾位于第 3列，则从矩阵 R中查找 ¾,₃对应的值，从矩阵 G中查找 g₉₉,₃对应的值；根据 ¾的值和所在的列，如¾=26, ¾位于第 4列，则从矩阵 R中查找 /₂₆,₄对应的值，从矩阵 G中查找 g_2M对应的值；根据的值和所在的列，如 =90, b₅位于第 5列，则从矩阵 R中查找 ¾,₅对应的值，从矩阵 G中查找 g₉。,₅对应的值。 w ₂+ W "因为矩阵从二项分布，因此，也服从二项分布。 _g=g₆₆ + g₄₈,₂ + g₉₉,₃ + g_2M+g₉。,₅, 因为矩阵 G服从二项分布，因此， _g也服从二项分布。当 ^和^中有 1个为偶数，则 ₂ [ Pn -169, p_i2 ]中至少部分数据满足预定条件 C₂ , 当 S_lh和 _g均为奇数，则 ^[ ^-ΐό^^]中至少部分数据不满足预定条件 c₂, s_2h^s_2g 中有 1个为偶数的概率为 3/4。在图 5所示实施例中， W_i2[p_l2-^9,_Pi2] 中至少部分数据满足预定条件 C₂。使用同样的规则，分别判断^ -169, _Pi3 ]中至少部分数据是否满足预定条件 C₃、判断 ₄ [ _Pi4 -169, _Pi4 ] 中至少部分数据是否满足预定条件 C₄、判断 w_i5 [ _Pl5 - 169, ₅ ]中至少部分数据是否满足预定条件 C₅、判断^ [_Pi6 -169, _Pl6 ]中至少部分数据是否满足预定条件 C₆、判断 W_i7 [ _A7 - 169, _Pn ]中至少部分数据是否满足预定条件 C₇、判断 [ -169, ]中至少部分数据是否满足预定条件 C₈、判断 ₉ [ Pn -169, _Pi9 ]中至少部分数据是否满足预定条件 C₉、判断 ^。

[； ¾。 - 169, 。 ]中至少部分数据是否满足预定条件 ς。和判断^ ₁ [； ¾ - ^A.J中至少部分数据是否满足预定条件图 5所示的实施方式中， ₅[A-169,¾]中至少部分数据不满足预定条件 C₅, 从点 _ft5沿着数据流分割点查找方向跳跃 11个字节，在第 11个字节的结束位置获得当前潜在分割点 kj ,如图 6所示，根据在去重服务器 103上预设的规则，为潜在分割点确定点 ₁ 点 i对应的窗口 [ 「169, 判断窗口 ^ [ P -16 , _Pjl ]中至少部分数据是否满足预定条件的方式与判断窗口^ - 169, ]中至少部分数据是否满足预定条件的方式相同，因此如图 17所示， ^表示窗口 ^ [^-169,^], 为判断

- 169, i ]中至少部分数据是否满足预定条件图 17中序号为 169、

127、 85、 43和 1的字节 "國"分别表示选择的 1个字节，相邻两个选择的字节之间相差 42个字节。将序号为 169、 127、 85、 43和 1的字节 "■" 分别转换成一个十进制数值，分别表示为 _Ωι '、 α₂'、 α₃' . α₄ '和《₅ '。因为 1个字节由 8位组成，所以每个字节 "國 "作为一个数值，则 '、 ₂'、 α₃'、 α₄ '和 ₅'中的任一个均满足 0≤ ≤255。、 α₂'、 α₃' , α₄ '和

«₅ '组成 1*5的矩阵。使用与判断窗口 ^[^-169,^]中至少部分数据是否满足预定条件<^相同的矩阵 R和 G, 分别表示为：

5 J

根据的值和所在的列，如" =16, 位于第 1列, 则从矩阵 R中查找 ^对应的值，从矩阵 G中查找 _gl6>1对应的值；根据 ₂ '的值和所在的列，如 =98, ₂ '位于第 2列，则从矩阵 R中查找 ¾,₂对应的值，从矩阵 G中查找 g₉₈,₂对应的值；根据《₃ '的值和所在的列，如《₃'=56, «₃ '位于第 3列，则从矩阵 R中查找对应的值，从矩阵 G中查找 _{g 3}对应的值；根据的值和所在的列, 如 =36, «₄ '位于第 4列, 则从矩阵 R 中查找 h_i6A对应的值，从矩阵 G中查找 g_3M对应的值；根据 α₅'的值和所在的列，如《₅' =99, «₅'位于第 5列，则从矩阵 R中查找 ¾,₅对应的值，从矩阵 G中查找 g₉₉,₅对应的值。 ¾₁' = /¾₁ + ½,₂ + ½,₃ + ½₆,₄ + ¾,₅,因为矩阵 RI良从二项分布，因此， _A '也服从二项分布； ^^ ^+^^十

+ ¾,₅ '因为矩阵 G服从二项分布，因此 '也服从二项分布。当和 '中有 1个为偶数，则 ^[ 169, 中至少部分数据满足预定条件当^ '和 '均为奇数，则^ [ 169, 中至少部分数据不满足预定条件 C, , s_lh '和 '有 1个为偶数的概率为 3/4。

判断^ [ -169, _A2 ]中至少部分数据是否满足预定条件 C₂的方式和判断 W_j2 [p -\69, _Pj2 ]中至少部分数据是否满足预定条件 C₂的方式相同，因此，如图 17所示，表示判断窗口 ^ ^ [ ₂—169,^₂]中至少部分数据是否满足预定条件 C₂时选择的 1个字节，相邻两个选择的字节之间相差 42个字节。在图 17中，分别用序号 170、 128、 86、 44和 2 表示，相邻两个选择的字节之间相差 42个字节。将序号 170、 128、 86、

44和 2的字节 " "分别转换成一个十进制数值，分别表示为、、、 '和 '。因为 1个字节由 8位组成，所以每个字节 ' ^"作为一个数值，则 V、 V、 V、和中的任一个均满足 0≤ ≤255。、 b₂'、、和组成 1*5的矩阵。使用与判断窗口^ [ ¾-169, ¾]中至少部分数据是否满足预定条件 (：₂相同的矩阵 R和 G, 根据的值和所在的列，如 V=210, 位于第 1列，则从矩阵 R中查找对应的值，从矩阵 G中查找 _g21。_;1对应的值；根据的值和所在的列，如 =156, 位于第 2列，则从矩阵 R中查找 ¾₆,₂对应的值，从矩阵 G中查找 g_1¾,₂对应的值；根据的值和所在的列，如 =144, 位于第 3 列，则从矩阵 R中查找 /?₁₄₄,₃对应的值，从矩阵 G中查找 g₁₄₄,₃对应的值；根据的值和所在的列，如 V=60, 位于第 4列，则从矩阵 R中查找/ ^。，₄对应的值，从矩阵 G中查找 _g6。,₄对应的值；根据的值和所在的歹 |J, 如 =90, 位于第 5列，则从矩阵 R中查找 ¾。,₅对应的值，从矩阵 G中查找 g_90;5对应的值。 S_2h' = h₂ + h_l56 + ₃ + ₄ + ,

+ g₁₅₆,₂ + g₁₄4,₃ + g₆。,₄ + ₅。当和 '中有 1个为偶数，则 W_j2 [_Pj2-I69,p_j2] 中至少部分数据满足预定条件 C₂ , 当 '和 '均为奇数，则 W_j2 [ p_]2 -169, ₂]中至少部分数据不满足预定条件 C₂, 和 <S_2g '中有 1个为偶数的概率为 3/4。同理，判断 w_i3 [p_i3-169,_Pi3 ]中至少部分数据是否满足预定条件 ₃ 的方式与判断 ·₃ [ ₃ -169, ₃ ]中至少部分数据是否满足预定条件 C₃ 的方式相同，同理，判断 ^.₄[ ₄-169, ₄]中至少部分数据是否满足预定条件 C₄、判断 W [ _Pj5 - 169, 5 ]中至少部分数据是否满足预定条件 C₅、判断^ [ 6-169, ₆]中至少部分数据是否满足预定条件 C₆、判断

[ ₇ -169, _Pjl ]中至少部分数据是否满足预定条件 C₇、判断 W_jS [ _P]i -169, 8 ]中至少部分数据是否满足预定条件 C₈、判断^ [ 9-169, ₉]中至少部分数据是否满足预定条件 C₉、判断 W_jl0 [_Pjl0-169, ; ]中至少部分数据是否满足预定条件(^。和判断 _Λίι]中至少部分数据是否满足预定条件 C_u , 在此不再赘述。

以图 5所示的实施方式为例，提供了一种判断窗口 W_iz [ _Piz-A_z, _Piz + B_z]中至少部分数据是否满足预定条件 ^的方法，本实施例中使用随机函数判断窗口 W_iz [ _Pi2-A_z, _Pi +B_z]中至少部分数据是否满足预定条件 C_z, 根据在去重服务器 103上预设的规则，为潜在分割点确定点及对应的窗口^ - 169, ] , 判断^ - 169, ]中至少部分数据是否满足预定的条件，如图 16所示， ^表示窗口^ -169, 7_;1], 为判断 W_n [ _P -169, ]中至少部分数据是否满足预定条件 C, , 选择 5个字节，图 16中序号为 169、 127、 85、 43和 1的字节 "國"分别表示选择的 1个字节，相邻两个选择的字节之间相差 42个字节。将序号为 169、

127、 85、 43和 1的字节 "國 "依次看成 40个位，分别表示为 _Ωι、 α₂. ₃、 α₄...α_{40 1}

a_t

=1时， =1, 根据",与 ^对应关系，生成^、 v_a2. v_a3. ^… 。。从服从正态分布的随机数中选择 40个随机数，分别表示为： h₂、 H S_a =V_al * h_x+V_a2 * h₂+V_a3 * h₃+V_a4 * A₄ +...+V_a40 * h₄₀₀因为 h₂, h₃、 A₄.../z₄。月良从正态分布，因此， S。也月良从正态分布。当 S。为正数，则 ^[^-169, ^]中至少部分数据满足预定条件当 S。为负数或 0, 则^ -169,_P;1]中至少部分数据不满足预定条件 S。为正数的概率为 1/2。在图 5所示实施例中, ^[^-169,^]中至少部分数据满足预定条件。如图 16所示， " "表示判断窗口^ [_A2-169,_A2]中至少部分数据是否满足预定条件 C₂时分别选择的 1个字节，在图 16中，分别用序号 170、 128、 86、 44和 2表示，相邻两个选择的字节之间相差 42个字节。将序号 170、 128、 86、 44和 2的字节依次看成 40 个位，分别表示为、 b₂、 6₃、 b₄... 。。 bp b₂、 b₃, b₄... 。中的任一 b_t, 当^ =0时, V_bt=-1, 当 =1时， V_b=U 根据与 ^对应关系，生成 ^、 v_b2、 v_b3. v_b4...v_b40. 判断窗口^ 中至少部分数据是否满足预定条件的方式与判断窗口^ [ _Pi2 -169, _Pi2 ]中至少部分数据是否满足预定条件 C₂的方式相同，因此，使用相同的随机数： ^、 h₃、 h₄...h₄₀, +^₂*½+^₃*/₃+^₄*/₄+·.·+^。*/ζ₄。。因为 h₂、 h₃、 A₄.../z₄。服从正态分布，因此，也月良从正态分布。当为正数，则 w_n [_Pi2 - ,_Pi2 ]中至少部分数据满足预定条件 C₂，当为负数或 0,则^ 中至少部分数据不满足预定条件 C₂, 为正数的概率为 1/2。在图 5所示实施例中， ₂[ ¾-169, ¾]中至少部分数据满足预定条件 C₂。使用同样的规则，分别判断 ^[ ¾-169,；¾]中至少部分数据是否满足预定条件 C₃、判断^ [p,₄ -169,p,₄ ]中至少部分数据是否满足预定条件 C₄、判断 w_i5 [ _Λ5 -169, _Ρι5 ]中至少部分数据是否满足预定条件 C₅、判断 W_i6 [ _Pi6 -169, _Pi6 ]中至少部分数据是否满足预定条件 C₆、判断 W_n [ _Pn -169, _Pil ]中至少部分数据是否满足预定条件 C₇、判断 W_lS [ _Pa - 169, ]中至少部分数据是否满足预定条件 C₈、判断 ₉ [ _Pi9 -169, _Pi9 ]中至少部分数据是否满足预定条件 C₉、判断 W_m [_Pm-I69,p_m ] 中至少部分数据是否满足预定条件 C₁₀和判断^ u [ _Pm -169, _Pm ]中至少部分数据是否满足预定条件 C_u。图 5所示的实施方式中， ₅ [ _Pl5-169, _Pi5 ] 中至少部分数据不满足预定条件 C₅ ,从点 _Pi5沿着数据流分割点查找方向跳跃 11个字节，在第 11个字节的结束位置获得当前潜在分割点 , 如图 6所示，根据在去重服务器 103上预设的规则，为潜在分割点确定点、点对应的窗口判断窗口 ^[^-169,^] 中至少部分数据是否满足预定条件的方式与判断窗口 ^ [ - 169, ]中至少部分数据是否满足预定条件 C_x的方式相同，因此如图 17所示， ^表示窗口^ [ 「169, 为判断^ [ 169,^ J中至少部分数据是否满足预定条件 C_x , 为判断 ΐν_β [ _Pjl -169, _Pjl ]中至少部分数据是否满足预定条件选择 5个字节，图 17中序号为 169、 127、 85、 43 和 1的字节 "國 "分别表示选择的 1个字节，相邻两个选择的字节之间相差 42个字节。将序号为 169、 127、 85、 43和 1的字节 "■"依次看成 40个位，分别表示为

"₄。'中的任一当《,'=0时， v_at， =-1, 当 =1时， /=1,根据 ^ '与^ / 对应关系，生成，、

判断窗口^ [ 169, 中至少部分数据是否满足预定条件的方式与判断窗口 ^ [ - 169, ]中至少部分数据是否满足预定条件 Q的方式相同，因此使用相同的随机数： h₂、 H s =v_aX^ +ν_α2^ h₂+v_a,^ h,+v_aA^ h_A +...+ _a4Q'*/½。因为、 h₂、 h₃. / .. /z₄。服从正态分布，因此， '也服从正态分布。当 '为正数，则^ [ 「169, 中至少部分数据满足预定条件当 '为负数或 0, 则^ [ 169, 中至少部分数据不满足预定条件 '为正数的概率为 1/2。判断^ [ _A2 -169, _Pi2 ]中至少部分数据是否满足预定条件 C₂的方式和判断 ·₂ [ ₂ - 169, _Pj2 ]中至少部分数据是否满足预定条件 C₂的方式相同，因此，如图 17所示， "； "表示判断窗口 ^.₂[ ₂-169, ₂]中至少部分数据是否满足预定条件 C₂时选择的 1个字节，相邻两个选择的字节之间相差 42个字节。在图 17中，分别用序号 170、 128、 86、 44和 2 表示，相邻两个选择的字节之间相差 42个字节。将序号 170、 128、 86、

44和 2的字节 "^"依次看成 40个位，分别表示为 V、、、 V... 。'。

V、 V、 W、 '... 。'中的任一6/, 当 =o时， ^'=-1, 当 =l时， =1, 根据与 '对应关系，生成 '、 v_b2'、 v_b3'、 ν_Μ ..ν_Μϋ 判断^ [ _Pi2 -169, _Pi2 ]中至少部分数据是否满足预定条件 C₂的方式和判断 W_j2 [ ₂-169, ₂]中至少部分数据是否满足预定条件 C₂的方式相同，因此，使用相同的随机数： h₂、 h₃、 h₄...h₄₀ ,

+...+ _M。'*/½。因为 ^、、 h₃, / 。服从正态分布，因此，也服从正态分布。当为正数，则^；₂ [ -169, ₂]中至少部分数据满足预定条件 C₂, 当 '为负数或 0, 则 ^.₂[ ₂-169, ₂]中至少部分数据不满足预定条件 C₂ , S_b、为正数的概率为 1/2。

同理，判断 w_i3 [p_i3-169,_Pi3 ]中至少部分数据是否满足预定条件 ₃ 的方式与判断 ^[ ₃ -169, ₃ ]中至少部分数据是否满足预定条件 C₃ 的方式相同，同理，判断 ^.₄[^₄-169,^₄]中至少部分数据是否满足预定条件 C₄、判断 W [ _Pj5 - 169, ]中至少部分数据是否满足预定条件 C₅、判断^ [ -169, ]中至少部分数据是否满足预定条件 C₆、判断

[ _Pj7-169, _Pj7 ]中至少部分数据是否满足预定条件 C₇、判断 W_jS [ _PjS -169, 中至少部分数据是否满足预定条件 C₈、判断

₉]中至少部分数据是否满足预定条件 C₉、判断 W_jl0 [_Pjl0-169, ; ]中至少部分数据是否满足预定条件(^。和判断 _Λίι]中至少部分数据是否满足预定条件 C_u , 在此不再赘述。

仍然以图 5所示实施方式为例，提供了一种判断窗口^ [ _Pi2-A_z, _Pi2+B_z]中至少部分数据是否满足预定条件 ^的方法，本实施例中使用随机函数判断窗口 W_iz [ _ΡίΓΑ_ζ, _Ρί + Β_ζ]中至少部分数据是否满足预定条件 C_z, 根据在去重服务器 103上预设的规则，为潜在分割点确定点及对应的窗口^ - 169, ], 判断^ - 169, ]中至少部分数据是否满足预定条件，如图 16所示， ^表示窗口^ [ 7_;1-169, 7_;1], 为判断 W_n [ -169, ]中至少部分数据是否满足预定条件 C, , 选择 5个字节，图 16中序号为 169、 127、 85、 43和 1的字节 "國"分别表示选择的 1个字节，相邻两个选择的字节之间相差 42个字节。将序号为 169、

127、 85、 43和 1的字节 "國"转换成 1个十进制数,范围为 0-( 2M0-1 ) , 使用均匀分布随机数生成器为 0- ( 2 0-1 )中的每一个十进制数生成 1 个指定值，记录 0- (2^Λ40-1) 中的每一个十进制数与指定值之间的对应关系 R, —旦指定则该十进制数对应的指定值就不变，该指定值服从均匀分布，如果该指定值为偶数，则 ^[^-169,^]中至少部分数据满足预定条件如果该指定值为奇数，则 -169,^]中至少部分数据不满足预定条件，表示按照上述方法获得的指定值为偶数。因为均匀分布的随机数为偶数的概率为 1/2, 因此， -169, _ι] 中至少部分数据满足预定条件的概率为 1/2。在图 5所示的实施方式中，使用同样的规则，分别判断^ [_A2-169,_A2]中至少部分数据是否满足预定条件 C₂ , 判断^ [_A,-169,_A,]中至少部分数据是否满足预定条件 C₃、判断 ₄ [ _Pi4 -169, _Pi4 ]中至少部分数据是否满足预定条件 C₄、判断^ 中至少部分数据是否满足预定条件 C₅ , 在此不再赘述。

当 ^₅[ ¾-169,¾]中至少部分数据不满足预定条件 C₅ , _Pi5沿着数据流分割点查找方向跳跃 11个字节，在第 11个字节的结束位置获得当前潜在分割点，如图 6所示，根据在去重服务器 103上预设的规则，为潜在分割点确定点、点;^对应的窗口

判断窗口 ^ [^-169, _Pjl ]中至少部分数据是否满足预定条件的方式与判断窗口 ^[； ¾ - 169, ]中至少部分数据是否满足预定条件 C,的方式相同，因此，使用相同的 0- (2M0-1 ) 中的每一个十进制数与指定值之间的对应关系 R, 如图 17所示， ^表示窗口 ^^[^-169,^], 为判断 _β [ _Pjl -169, _Pjl ]中至少部分数据是否满足预定条件 C, , 选择 5 个字节，图 17中 "國"表示选择的 1个字节，相邻两个选择的字节 "國" 之间相差 42个字节。将序号为 169、 127、 85、 43和 1的字节 "■"转换成 1个十进制数，在 R查找该十进制数对应的指定值，如果该指定值为偶数，则中至少部分数据满足预定条件如果该指定值为奇数，则 [ 169, 中至少部分数据不满足预定条件因为均匀分布的随机数为偶数的概率为 1/2, 因此， ^^[^-169,^. J 中至少部分数据满足预定条件 <^的概率为 1/2。同理，判断^ [_A2-169,

_Pl2 ]中至少部分数据是否满足预定条件 C₂的方式和判断 JV_j2 [ _Pj2 - 169, 2]中至少部分数据是否满足预定条件 C₂的方式相同，判断^ [A

- 169, p_i3 ]中至少部分数据是否满足预定条件 C₃的方式与判断 W_j3 [ _Pj3

-169,^]中至少部分数据是否满足预定条件 C₃的方式相同，同理，判断 [ ₄-169, ]中至少部分数据是否满足预定条件 C₄、判断^ [_Pj5

-169, ₅]中至少部分数据是否满足预定条件 C₅、判断 ^[ 6-169, _Pj6] 中至少部分数据是否满足预定条件 C₆、判断^ [ -169, ₇]中至少部分数据是否满足预定条件 C₇、判断^ [^-169, ]中至少部分数据是否满足预定条件 C₈、判断 [ -169, 中至少部分数据是否满足预定条件 C₉、判断 W_jW [_Ρβ0-169, p_jW ]中至少部分数据是否满足预定条件 C₁₍₎和判断 [ n -169, _Pjn ]中至少部分数据是否满足预定条件 C_u, 在此不再赘述。

图 1所示的本发明实施例中的去重服务器 103 ,是指能够实现本发明实施例所描述的技术方案的装置，如图 18所示，通常包括中央处理单元、主存储器以及输入输出接口。中央处理单元、主存储器与输入输出接口之间相互通信，主存储器存储可执行指令，中央处理单元执行主存储器中存储的可执行指令，从而执行特定的功能，如本发明实施例图 4至图 17所描述的查找数据流分割点。因此，如图 19所示，根据图 4至图 17所示的本发明实施例，去重服务器 103,在去重服务器 103 上预设有规则，所述规则为：为潜在分割点确定 M个点、点对应的窗口 ^[ -4, + ]和窗口 W_x[ p_x-A_x, p + ]对应的预定条件 C_x , 其中， X为 1到 M连续的自然数， M≥2, 4和^为整数；去重服务器 103包括确定单元 1901和判断处理单元 1902。其中，确定单元 1901, 用于用于执行步骤 a ): a)依据所述规则为当前潜在分割点确定点 p_iz 及所述点 p_iz对应的窗口 W_iz [ ρ_ίζ_Α_ζ, _Pi + B_z] , i和 z为整数，并且 1 < z <M; 判断处理单元 WO²,用于所述窗口 W_iz [ ρ_ίζ_Α_ζ, p_iz+B_z]中至少部分数据是否满足预定条件 C_z；

当所述窗口 W_iz [ p_iz-A_z, ρ_ίζ+Β_ζ]中至少部分数据不满足所述预定条件 C_z，从所述点沿所述数据流分割点查找方向跳跃 N个数据流分割点最小查找单位 U,N*U不大于 II B_z II +max_x ( II A_x II + II (k _Pix) II ), 获得新的潜在分割点 ,则所述确定单元为所述新的潜在分割点执行步骤 a)；当所述当前潜在分割点的 M个窗口中的每一个窗口 V_ix [ _Pis- 4， ⁺ ]中至少部分数据满足预定条件 C_x, 则所述当前潜在分割点^为数据流分割点。

进一步地，所述规则还包括：至少两个点 p_e和 _Pf ,满足条件 A_e = A_f , B =B C_e = C_f 。进一步地，所述规则还包括：所述至少两个点和 p_f , 相对于所述潜在分割点 k，在所述数据流分割点查找反方向上。

进一步地，所述规则还包括：所述至少两个点和 ? ,之间的距离为 1个 U。述窗口 W_iz [ p_i2-A_z, p_iz+B_z]中至少部分数据是否满足所述预定条件 C_z。具体地，所述判断处理单元 1902具体用于使用 hash函数判断所述窗口 [ p_i2-A_z, p_iz+ B_z]中至少部分数据是否满足所述预定条件 C_z。

W_iz [ ρ_ίΓΑ_ζ, p_iz+S_z]中至少部分数据是否满足所述预定条件 C_z, 具体包括：

在所述窗口 W_iz [ p_iz-A_z, _Pi +B_z]中选择 F个字节，将所述 F个字节反复利用 H次，共获得 F*H个字节，其中每个字节由 8位组成，记为 c^ ... a_m& , 表示所述 F*H个字节中第 m个字节的第 1到第 8位，所述 F*H个字节对应的位可以表示为： , 当。 =1时，

=1, 当 =0时， ,„=-1, 其中。表示中的任一个，所述 F*H个字节对应的位按照 „与 V 的转换关系得到矩阵 ,所述矩阵 ^表示为： , 从服务正态分布的随机数中选

择 F*H*8个随机数组成矩阵 R, 所述矩阵 R表示为:

Λ₀ ... h

，将所述矩阵 V_a的第 m行与所述矩阵 R的第 m行的随机数相乘，然后求和得到一个值，具体表示为 =^ * + ^ "K,2+.-.+ V_am^h_m^ 同理，获得 S_al、 s_a2.. s_aF , 统计 S_a2... 到8。 ^中满足大于 0的值的个数 K,当 Κ为偶数，则所述窗口 W_iz [ _Pi2-A₂, _Pi +B_z]中至少部分数据满足所述预定条件 C_z。

进一步地，所述判断处理单元 190²用于当所述窗口^ [_Αζ-^,_Ρ;ζ + S_z]中至少部分数据不满足所述预定条件，从所述点沿所述数据流分割点查找方向跳跃 N个数据流分割点最小查找单位 U,获得所述新的潜在分割点，所述确定单元 1901为所述新的潜在分割点执行步骤 a ) , 根据所述规则，为所述新的潜在分割点确定的点 _Αε对应的窗口 W_;£ [ _Pic - A_c , _Pic + ]的左边界与所述窗口 [ _Az - _z , p,_z + S_z ]的右边界重合或者为所述新的潜在分割点确定的所述窗口 W_fc [ p_ic - A_c , p_ic + ^ ]的左边界位于所述窗口^ [_Ρ;ζ-4,_Ρ;ζ + ]范围之内；其中，为所述新的潜在分割点确定的所述窗口 W,J_A-4,A +^]是根据所述规则，为所述新的潜在分割点确定的 M个点按照数据流查找方向获得的序列中排序第一的点。

根据图 4至图 17所示的本发明实施例提供的基于服务器查找数据流分割点的方法中，为潜在分割点 ki确定点 p_ix及点 p_ix的窗口 W_ix [ _Pix -

4, P_ix ⁺B_x], 其中， X分别为 1到 M连续的自然数， M≥2, 可以并行判断 M个窗口中每一个窗口中至少部分数据是否满足预定条件 C_x ,或者依次判断窗口中至少部分数据是否满足预定条件，也可以判断窗口

W_n [Ρη- , Ρπ + Α]中至少部分数据满足预定条件<^时, 再判断 ·₂ [ρ_α-Α₂, 中至少部分数据满足预定条件时，直到判断^

[p_im-A_m , _Am+ _m]中至少部分数据满足预定条件 C_m。实施例中其他窗口的判断与此相同，不再赘述。

另外，根据根据图 4至图 17所示的本发明实施例，实际应用中，在去重服务器 103上预设有规则，所述规则为：为潜在分割点 /1确定 M 个点 p_x、点 p_x对应的窗口 W_x[p_x-A_x, p + S_x]和窗口 W_x[ P - A_x, p + B_x] 对应的预定条件 X分别为 1到 M连续的自然数， M≥2, 在该预设规则中，、 A₂. 4… 可以不全部相等， β β₂、 … 可以不全部相等， c C₂、 C₃...C_M也可以不全部相同。在图 5所示的实施方式中，在窗口 ^ [_AL-169,_AL] 、 W_l2 [p_l2-l69,_Pl2], W_n[_Pa-\69,p . W_lA [p_l4-l69,_Pl4]. W_l5[p_l5-l69,_Pl5]. W_l6 [p_l6-l69,_Pl6]. W_n [ _Pl7-\69, _Pl7]. W_a [ A₈-1 9, A₈]、 W_l9 [ _Pl9 -169, _A9 ]、 W_m [ _Pm-\69, _Al0]和 W_m[ _Pm-169, p ]中，各窗口大小相同，即窗口大小均为 169字节，同时判断窗口中至少部分数据是否满足预定条件的方式也相同，具体见上述判断 ^

[ -169, _Pn ]中至少部分数据是否满足预定条件的描述，但在图 11 所示的实施方式中， ^[^-1 9,^,,] 、 ^[_Α·₂-169,_Α·₂]、 [ , -1 9, W_l4 [p_l4- 69,_Pl4], W_l5[_Pli-\69,_Pli}. W_l6 [p_l6- 69,_Pl6], W_l7[_Pll-\69, A₇]、 ^[Α₈-169,_Α·₈]、 W_l9 [_Pl9 -169, _Pl9]. ^。[ Af ^^o]与^ ^[An - 182, _All ]窗口大小可以不相同，同时判断窗口中至少部分数据是否满足预定条件的方式也可以不相同。在所有实施例中，根据在去重服务器 103上预设的规则，判断窗口 _n中至少部分数据是否满足预定条件的方式与判断窗口 ^中至少部分数据是否满足预定条件(^的方式必然相同，判断^中至少部分数据是否满足预定条件 c₂的方式与判断 w_j2中至少部分数据是否满足预定条件 c₂的方式必然相同 ...判断窗口中至少部分数据是否满足预定条件 C_M的方式与判断窗口^中至少部分数据是否满足预定条件 c_M的方式必然相同。在此不再赘述，同时根据图 4至图 17所示的本发明实施例，虽然均以 M=ll为例，但根据实际需要， M的取值并不限于 11, 本领域技术人员根据本发明实施例中的描述，确定 M的值。

根据图 4至图 17所示的本发明实施例，在去重服务器 103上预设有规则， k_a、 k kj、和为沿着数据流分割点查找方向查找分割点时获得的潜在分割点， k_a、 k_t、、和都依据该规则。本发明实施例中的窗口 ^ [ - 4 , + ]表示一个特定范围，在该特定范围选择数据以判断这些数据是否满足预定条件 C_x , 具体地，可以在该特定范围内选择部分数据，也可以选择全部数据以判断这些数据是否满足预定条件 C_x。本发明实施例中具体使用的窗口概念可参照窗口 ^ [ - A_X,P_X + B_X], 在此不再赞述。

根据图 4至图 17所示的本发明实施例，窗口 ^ [ - 4 , + ]中， ( p_x-A_x )和 ( p_x+B_x )表示该窗口 [ ]的两个边界，其中（ )表示窗口 [ A- 4, A + ]相对于点 ^位于数据流分割点查找反方向的边界， ( p_x + B_x )表示窗口 J -4, + ]相对于点 ^位于数据流分割点查找方向的边界。具体地，在本发明实施例中，在图 3至图 15所示的数据流分割点查找方向为从左向右，则其中 ( _Ρχ-Α_χ )表示窗口 ^[^-4, ^+ ]相对于点 ^位于数据流分割点查找反方向的边界（即左边界），（ + ^ )表示窗口 + ]相对于点位于数据流分割点查找方向的边界（即右边界）。如果在图 3至图 15所示的数据流分割点查找方向为从右向左，则其中 ( _Px - A_x )表示窗口 ^ [ ^- 4, ]相对于点^位于数据流分割点查找反方向的边界（即右边界），（ + ^ )表示窗口 ^ [

+ ^]相对于点 ^位于数据流分割点查找方向的边界（即左边界）。

本领域普通技术人员可以意识到，结合本发明实施例描述的各示例的单元及算法步骤，本发明实施例的关键特征可以与其他技术相结合，以更为复杂的形式呈现，但仍会包含本发明的关键特征。在真实环境中可能使用备用分割点，例如一种实施方式为，根据在去重服务器 103上预设的规则，为潜在分割点确定 1 1个点 A , X为 1到 1 1连续的自然数，确定 p_x对应的窗口 [ + ]及窗口 +

^]对应的预定条件 C_x , 当 1 1个窗口中每一个窗口

中至少部分数据均满足预定条件 c_x ,则潜在分割点为数据流分割点，当超过设定的最大数据块时，仍未查找到分割点，这时可能使用备用的预设规则，备用的预设规则与在去重服务器 103上预设的规则类似，备用的预设规则为：例如为潜在分割点确定 10个点 , X为 1到 10 连续的自然数，确定 p_x对应的窗口 J 及窗口

+^]对应的预定条件 , 当 10个窗口中每一个窗口 + ]中至少部分数据均满足预定条件 C_x , 则潜在分割点为数据流分割点，当超过设定的最大数据块时，仍未查找到数据流分割点时，从最大数据块的结束位置作为强制分割点。

在去重服务器 103上预设有规则，所述规则中为潜在分割点 k 确定 M个点，并不一定要求先有一个潜在分割点 k, 可以通过确定的 M个点来判断潜在分割点 k。

本发明实施例提供一种基于去重服务器查找数据流分割点的方法，如图 20所示，包括：

在去重服务器 103上预设有规则，所述规则为：为潜在分割点 /1确定 M个窗口 [/t-4 +S_x]和窗口 + 对应的预定条件<^ , 其中， X为 1到 M连续的自然数， M≥2, 、 4和为整数；在图 3所示的实施方式中，关于 M的取值，其中一种实现方式， M*U取值不大于预设的两个相邻的数据流分割点之间的最大距离，即预设的数据块最大长度。判断窗口 ff_z[/t-^， /1+β_ζ]中至少部分数据是否满足预定条件 C_z, 其中， z为整数， l<z<M, ( k-A_z )与 +B_z )分别表示窗口 ff_z 的两个边界。当判断任意一个窗口 ff_z[/t -^, /1+β_ζ]中至少部分数据不满足预定条件 C_z，则从潜在分割点/ 1沿数据流分割点查找方向跳跃 N 个字节，N≤|| B_z II +max ( II 11)。其中， II B_z II表示 ff_z[/U_z, k + B_z] 中的绝对值， max_x( II II )表示 M个窗口中^绝对值中的最大值，将在下面实施例中具体介绍 N取值的原理。当判断 M个窗口中的每一个窗口 [/t-4 +A]中至少部分数据满足预定条件 , 则潜在分割点/ 1为数据流分割点。

具体地，对当前潜在分割点 ., 依据所述规则，执行以下步骤：步骤 2001：依据所述规则为当前潜在分割点 ki确定对应的窗口^ [ k_t -A_z,k_t + B_z], i和 z为整数,并且 1 <z<M；

步骤 2002:判断所述窗口 ^ [ -^, + ]中至少部分数据是否满足预定条件 c_z;

当所述窗口 _iz [ k_t - _z Λ· +s_z ]中至少部分数据不满足所述预定条件 , 从所述当前潜在分割点沿所述数据流分割点查找方向跳跃 N 个数据流分割点最小查找单位 U, N*U不大于 II Β_ζ II +max ( II A_x || ), 获得新的潜在分割点，执行步骤 2001 ；

当所述当前潜在分割点的 M个窗口中的每一个窗口 4 Λ. + ]中至少部分数据满足预定条件 C_x，则所述当前潜在分割点 ki为数据流分割点。

进一步地,所述规则还包括：至少两个窗口^ [ - ^ + ]与 w_if

[krA^k. + Bf , 满足条件： \A +B_e\=\A_f + B_f\, C =C_f ; 进一步地，所述规则还包括： 4和为正整数;更进一步地,所述规则还包括： 4-1=

A_r B_e+i=B_f 。其中， μ_β+ I表示窗口^的大小，表示窗口的大小。

进一步地，判断所述窗口^ [ -^Λ.+β_ζ]中至少部分数据是否满足所述预定条件 c_z,具体包括：使用随机函数判断所述窗口^^ - z Λ. + β_ζ ]中至少部分数据是否满足所述预定条件 c_z；更进一步地，所述使用随机函数判断所述窗口 w_iz [ k, - _z Λ· +β_ζ ]中至少部分数据是否满足所述预定条件 C_z,具体为使用 hash函数判断所述窗口^

+ s_z ]中至少部分数据是否满足所述预定条件 C_z。

当所述窗口 W_iz [k -A_z, _Ζ\中至少部分数据不满足所述预定条件 C_z，从所述当前潜在分割点沿所述数据流分割点查找方向跳跃 N个数据流分割点最小查找单位 U, 获得所述新的潜在分割点，根据所述规则，为所述新的潜在分割点确定的窗口 W_;Jk,-^,k,+^]的左边界与所述窗口 JV_iz ik -A_z, +S_z]的右边界重合或者为所述新的潜在分割点确定的所述窗口 Wjl^-AA + ^]的左边界位于所述窗口^ [ - _z， + S_z ]范围之内；其中，为所述新的潜在分割点确定的所述窗口 Wjk,-4,k,+A]是根据所述规则，为所述新的潜在分割点确定的 M个窗口按照数据流查找方向获得的序列中排序第一的窗口。

本发明实施例中通过判断 M个窗口中某一个窗口中至少部分数据是否满足预定条件，来查找数据流分割点，当某一个窗口中至少部分数据不满足预定条件，则跳过 N*U个长度，其中， N*U不大于 II

B_z II +max ( II II ), 获得下一个潜在分割点，提高了数据流分割点查找效率。

在重复数据删除过程中，为保证数据块大小均匀，会考虑平均数据块（也可以称为平均分块）大小，即在满足最小数据块大小和最大数据块大小限定的同时，会确定平均数据块大小，以保证获得的数据块大小均匀。窗口 d 4， +β_χ]的个数 M与窗口 k+B_x] 中至少部分数据满足预设条件的概率这两个因素决定了找到数据流分割点的概率（以 P(n)表示），前者影响跳跃的长度，后者影响跳跃的概率，二者共同影响平均分块大小。一般而言，在平均分块大小固定时， w_x[k-A_x, /t+s_x]个数增加, 则单个窗口 +β_χ]中至少部分数据满足预定条件的概率也增加，例如在去重服务器 103上预设有规则，所述规则为：为潜在分割点 /1确定 11个窗口 k+B_x], x分别为 1到 11连续的自然数， 11个窗口中任一个窗口 k+B_x] 中至少部分数据满足预设条件的概率为 1/2。而在去重服务器 103上预设的另一组规则为：为潜在分割点 k确定 24个窗口^ μ - 4 , k + B_x], x分别为 1到 24连续的自然数， 24个窗口中任一个窗口 , k+B_x] 中至少部分数据满足预设条件的概率 3/4, 具体窗口 k+B_x] 中至少部分数据满足预设条件的概率设定可参见判断窗口 , k

+β_χ]中至少部分数据是否满足预设条件部分的描述。窗口 k +β_χ]的个数 M与窗口 +β_χ]中至少部分数据满足的预设条件的概率这两个因素决定 Ρ(η), Ρ (η)表示：从数据流起始位置或者从上一数据流分割点查找 η个数据流分割点最 '〗、查找单位后没找到数据流分割点的概率。关于这两个因素决定 Ρ (η)的计算过程，实际上是一个多步长 Fibonacci数列，后面将具体描述。得到 P (n)后， l-P(n) 即为数据流分割点的分布函数，（l-P(n))-(l-P(n-l))=P(n-l)-P(n)即为在 n个数据流分割点最小查找单位找到数据流分割点概率，也就是数据流分割点的密度函数，根据数据流分割点的密度函数就可以积分

12*1024

£ nx(P(n-l)-P(n)) ,从而求得数据流分割点的期望长度，即平均分

«-4*1024

块大小,其中， 4*1024 (字节）表示最小数据块长度， 12*1024 (字节）表示最大数据块长度。

在图 3所示的数据流分割点查找的基础上，在图 21所示的实施方式中，在去重服务器 103上预设有规则，所述规则为：为潜在分割点 /1 确定 11个窗口 _x| -4 和窗口 ^1 -4^+ ]对应的预定条件

C_x , 其中， X为 1到 11连续的自然数， ^和^为整数。其中， 4=169， Β_λ =0； ₂=170， Β₂ =-1； Α₃=ΠΙ, Β₃=-2; Α₄=Π2, Β₄=-3-, Α₅=Π3, Β₅=-4-, Α₆ =174, Β₆=-5-, Α_Ί=\15, Β_Ί =-6； 4¾=176， 5₈=-7； Α₉ =177, S₉=-8_; A_w= , B_w=-9; Α_η=\19,

Cn, 则 11个窗口分别为 ^[k- k] ff₂[k-170,k-l]、 ₃ [k-171, k-2]、 ff₄[k-172, k-3]、 W₅[ -I13, k-4]、 ₆[k-174, k-5]、 ₇ [k-175, k-6], ₈[k-176, k-7]、

k-8]、 ₁₀[k-178,k-9]和^ [k-179,k-10]。为数据流分割点，图 21中所示数据流分割点查找方向为从左向右，从数据流分割点 k_a跳过最小数据块 4KB后，最小数据块 4KB结束位置作为下一个潜在分割点，根据为去重服务器 103预设的规则，为潜在分割点确定窗口^ [ - 4 , + _x ],在本实施例中， X分别为 1到 11连续的自然数。在图 21所示的实施方式中，为潜在分割点确定的窗口为 11个，分别为 _n [ k_t -169, ]、 W_i2[k_rl70,k_rl]. W_n[k_rl7l,k_r2], ^₄| _;-172, -3]、 ^₅| _;-173, k 4], _ί6[^-\74,^-5], ^₇| _;-175, -6]、 ^₈| _;-176, -7]、 W_i9[k_t -177, k_t -8]、 W_iW [ k, -178Λ· -9]和 W_m [ k, -179, k_t -10]。判断 W_n [ k_t -169, ]中至少部分数据是否满足预定条件(^、判断 -17( _; -1]中至少部分数据是否满足预定条件 C₂、判断 W_l3 -171Λ.-2]中至少部分数据是否满足预定条件 C₃、判断 w_!4 [ k_t -172, k_t -3]中至少部分数据是否满足预定条件 C₄、判断^ [ -173Λ.-4]中至少部分数据是否满足预定条件 C₅、判断^ ₆[ -174Λ.-5]中至少部分数据是否满足预定条件 C₆、判断 ¥_ιΊ[ΐ^ -175Λ.-6]中至少部分数据是否满足预定条件 C₇、判断 W_lS [k_rll6,k_rl] 中至少部分数据是否满足预定条件 C₈、判断 ₉ [ 177, 8]中至少部分数据是否满足预定条件 C₉、判断 ^。 [ -178Λ.-9]中至少部分数据是否满足预定条件 <^和判断^ ^^-179^-10]中至少部分数据是否满足预定条件。当判断窗口 ^中至少部分数据满足预定条件 ς、窗口 ^中至少部分数据满足预定条件 C₂、窗口 ^中至少部分数据满足预定条件 C₃、窗口 ^中至少部分数据满足预定条件 C₄、窗口 ^中至少部分数据满足预定条件 C₅、窗口 ₆中至少部分数据满足预定条件 C₆、窗口 ^中至少部分数据满足预定条件 C₇、窗口 ^中至少部分数据满足预定条件(^₈、窗口 ^中至少部分数据满足预定条件 C₉、窗口 w_m中至少部分数据满足预定条件 C_1Q和窗口中至少部分数据满足预定条件时，则当前潜在分割点为数据流分割点。当 11个窗口中任一个窗口中至少部分数据不满足对应的预定条件时，如图 22所示， W_l5 [k_t -173,^. -4] , 则从潜在分割点 k_t沿着数据流分割点查找方向跳跃 N个字节，其中 N个字节不大于 II B₅ II +max_x( || A_x || ),在图 22所示的实施方式中，跳跃 N个字节不大于 183个字节，在本实施例中， N=7, 得到新的潜在分割点，为与潜在分割点 ^区别，这里将新的潜在分割点表示为。根据图 21所示的实施方式中，在去重服务器 103上预设有规则，所述规则为：为潜在分割点确定窗口^ [ -4, +^], 在本实施例中， X分别为 1到 11连续的自然数。为潜在分割点确定的窗口为 11个，分别为 _l[ -169, ]、 W_]2[k_r\10,k_r\ . W_]i[k_]-\1\, -2]、 W_j4[k_rl72,k_r3], W_j5[k_rm,k_r4], W_j6[k_rl74,k_r5], W_]1{k_] -175,V6]、 W_jS[k_rl76,k_r7], W_j9[k_r\77,k_rS], ^。 [ ¹⁷⁸， ⁹]和^ i [ -179, -10]。如图 22所示，为潜在分割点确定的第 11个窗口

-179, -10] , 在保证潜在分割点 k,与潜在分割点 k]之间的范围都在判断范围之内，则在本实施方式中，必须保证窗口 ί^_Ί1 [ -179, -10]的左边界与窗口 ^[ -173, -4]的右边界( -4)重合,或者位于窗口 W_l5 [ -173Λ.-4]范围之内，所述窗口 -179, -10]是根据所述规则，为所述潜在分割点 k 角定的 Μ个窗口按照数据流查找方向获得的序列中排序第一的窗口。因此，在这一限定内，当窗口 ^[ -173Λ.-4] 中至少部分数据不满足预定条件 C₅ ,从潜在分割点 ^k'沿数据流分割点查找方向跳跃的距离不大于 II B₅ (I +max_x( || A_x || )。判断^ [ -169, ]中至少部分数据是否满足预定条件、判断 ^₂ [ - 170, - 1 ]中至少部分数据是否满足预定条件 C₂、判断 W_j3 [ - 171 , -2]中至少部分数据是否满足预定条件 C₃、判断 .₄[ -172, -3]中至少部分数据是否满足预定条件 C₄、判断 W_J5 [ - 173 , -4]中至少部分数据是否满足预定条件 C₅、判断^ [ -174, -5]中至少部分数据是否满足预定条件 C₆、判断 W_J7 [ - 175 , -6]中至少部分数据是否满足预定条件 ₇、判断 ₈ [ k_] -176,^-7]中至少部分数据是否满足预定条件 C₈、判断 ^₉[ -177, -8] 中至少部分数据是否满足预定条件 ₉、判断^。 [ - 178 , k_] -9]中至少部分数据是否满足预定条件 C₁₀和判断 _β1 [ k_r\19, -10]中至少部分数据是否满足预定条件。当判断窗口 ^ 中至少部分数据满足预定条件 ς、窗口 ₂中至少部分数据满足预定条件 c₂、窗口 ^.₃中至少部分数据满足预定条件 C₃、窗口 W_J4中至少部分数据满足预定条件 c₄、窗口中至少部分数据满足预定条件(^₅、窗口 ^₆中至少部分数据满足预定条件 C₆、窗口 W_J7中至少部分数据满足预定条件(^₇、窗口 W_JS中至少部分数据满足预定条件 c₈、窗口 w_j9中至少部分数据满足预定条件 c₉、窗口 ^_Ί。中至少部分数据满足预定条件 C_1Q和窗口中至少部分数据满足预定条件 C_u时，则当前潜在分割点为数据流分割点， kj 与^之间的数据构成 1个数据块，同时按照与相同的方式跳过最 d、分块大小 4KB, 获得下一个潜在分割点，并按照在去重服务器 103上预设的规则，判断下一个潜在分割点是否为数据流分割点。当判断潜在分割点不是数据流分割点时，按照与 ^相同的方式获得下一个潜在分割点，并按照在去重服务器 103上预设的规则及上述方法判断下一个潜在分割点是否为数据流分割点。当超过设定的最大数据块仍然没有找到数据流分割点时 ,则从最大数据块的结束位置作为强制分割点。

在如图 21所示的实施方式中，按照在去重服务器 103上预设的规则，从判断 ^ 中至少部分数据是否满足预定条件开始，当判断 [ l69,t_;]、 W_l2[k \10,k \ . ·₃ [ -171Λ-2]和 ·₄ [ -172, -3]中至少部分数据中至少部分数据分别满足预定条件、 C₂、 C₃和 C₄, 判断^ [ -173Λ.-4]中至少部分数据不满足预定条件 C₅时，从潜在分割点沿着数据流分割点查找方向跳跃 6个字节，在第 6个字节的结束位置获得新的潜在分割点，为与其他潜在分割点区别，这里表示为，按照在去重服务器 103上预设的规则，为潜在分割点确定 11 个窗口，分别为 _gl[ 169 ]、 W_g2[k_g-\10,k_g-\], W_g3[k_g-\l\,k_g-2],

-6]、 W_g%[k_g-\16,k_g-l^ W_g9[k_g-\ll,k_g ^J ¹⁷⁸^-⁹^^^^ -179,^-10]。判断 _gl -169 ]中至少部分数据是否满足预定条件判断 _g2 [ - 170 - 1 ]中至少部分数据是否满足预定条件 C₂、判断 _g3 [ - 171 -2]中至少部分数据是否满足预定条件 C₃、判断 ff_g4 [ - 172, -3]中至少部分数据是否满足预定条件 C₄、判断 W_g5 [k_g-l73,k_g -4]中至少部分数据是否满足预定条件 C₅、判断 W_g6 [ k_g -174, k_g -5]中至少部分数据是否满足预定条件 C₆、判断 _g7 [ -175 -6]中至少部分数据是否满足预定条件 ₇、判断 _gS [ k_g -176, k_g -7]中至少部分数据是否满足预定条件 ₈、判断 W_g9 [ k_g -111, k_g -8]中至少部分数据是否满足预定条件 C₉、判断^。 -178 -9]中至少部分数据是否满足预定条件 C₁₀和判断^ 中至少部分数据是否满足预定条件 C_u。窗口 ^_u[ -179 -10]与窗口 ^[ -173, -4]重合，并且 C₅=Cu , 因此，当判断^ ₅ [ - 173 Λ. -4]中至少部分数据不满足预定条件 ₅时，从潜在分割点 k,沿着数据流分割点查找方向跳跃 T个字节，获得的潜在分割点仍然不符合作为数据流分割点的条件。因此，如果从潜在分割点 k,沿着数据流分割点查找方向跳跃 6个字节会存在重复计算，因此，从潜在分割点 k,沿着数据流分割点查找方向跳跃 7个字节可以减少重复计算，效率更高。因此提高了查找数据流分割点的速度。当预设规定中窗口 ^ [k- A_x ,k+ ]中至少部分数据满足预定条件 C_x的概率为 1/2时，即是说以 1/2的概率执行跳跃，每次最多可以跳跃 II II + II A_n II =189个字节。

在本实施方式中，预定规则为：为潜在分割点确定 11个窗口 ^ [k-4,k+s_x]及窗口 _x[k-4,k+s_x]中至少部分数据满足预设条件 , 其中 ^ [k-4,k+s_x]中至少部分数据满足预设条件的概率为 1/2, X 分别为 1到 11连续的自然数并且^和^为整数。其中， 4=169， 5,=0； 2 =170， B₂ =-1； Α₃=ΠΙ, Β₃=-2; Α₄=Π2, Β₄=-3-, Α₅=Π3, Β₅=-4-, Α₆=Π4, Β₆=-5-, 7 =175， Β₇=-6; Α_&=Π6, 5₈=-7； Α₉=Π7, Β₉ =-8； A_l0=m, β₁₀=-9_; Α_η=179, β_π=-ΐθ, 并且 C^C^C^C^C^C^C C^ pQ C^ 即为潜在分割点 k选择 11个窗口，并且为连续 11个窗口，通过这两个因素可以计算 P(n)。 11个窗口的选择方式及判断 11个窗口中的每一个窗口中至少部分数据满足预定条件遵循在去重服务器 103上预设的规则，因此是否存在连续 11个窗口中每一个窗口中至少部分数据满足预定条件 C_x就决定潜在分割点 k是否为数据流分割点。我们称两个字节之间的间隙为一个点。 P (n)表示：连续的 n个窗口内不存在连续的 11个满足条件的窗口的概率，即不存在数据流分割点的概率。从文件头 /上一分割点跳跃最小分块大小 4KB后，向数据流分割点查找反方向回退 10个字节，找到第 4086个点，在该点处不存在数据流分割点，所以 P

(4086) =1, 依次类推， P (4087) =1, P (4095) =L 在第 4096 个点处，即在最小分块大小处，以（ 1/2) ^Λ11的概率这 11个窗口中每一个窗口中至少部分数据满足预定条件 _Ci, 因此以（1/2) ^Λ11的概率存在数据流分割点，以 1- (1/2) ^Λ11的概率不存在数据流分割点，所以 Ρ (4096) =1- ( 1/2) ^Λ11。在第 η个窗口处，可以分为 12种情况来递推 Ρ (η) 。 P ( n)

1/2

不满足满足

1/2

P (n-1)

不满足满足

P (n-2)

1/2

不满足满足连续 11个醫口中每一个醫口中全

P (n-11)

_少部分数据 ffi足条件 Cx _

情况 1: 第 n个窗口中至少部分数据以 1/2的概率不满足预定条件，此时第 n个窗口前面的 n-1个窗口以 P (n-1 ) 的概率不存在连续的 11个窗口中每一个窗口至少部分数据均满足预定条件，因此？（ n )包含 1/2* P (n-1)。第 n个窗口中至少部分数据不满足预定条件，并且且第 n个点前面的 n-1个窗口存在连续的 11个窗口每一个窗口中至少部分数据均满足预定条件的情况与 P (n)无关。

情况 2: 第 n个窗口中至少部分数据以 1/2的概率满足预定条件，第 n-1个窗口中至少部分数据以 1/2的概率不满足预定条件，此时第 n-1 个窗口前面的 n-2个窗口以 P (n-2) 的概率不存在连续的 11个窗口中每一个窗口中至少部分数据均满足预定条件，因此 P(n)包含 1/2*1/2*P (n-2)。第 n个窗口中至少部分数据满足预定条件，第 n-1个点窗口中至少部分数据不满足预定条件，并且第 n-1个窗口前面的 n-2个窗口存在连续的 11个窗口中每一个窗口至少部分数据满足预定条件的情况与 P (n)无关。

依照上述描述，情况 11:第 n至 n-9个窗口中至少部分数据以（ 1/2) ^Λ10的概率满足预定条件，第 η-10个窗口中至少部分数据以 1/2的概率不满足预定条件，此时第 n-10个窗口前面的 n-11个窗口以 P (n-11 )的概率不存在连续的 11个窗口中每一个窗口中至少部分数据均满足预定条件，因此 P (n) 包含 ( 1/2) ^A10*1/2*P (n-11 ) 。第 n至 n-9个窗口中至少部分数据均满足预定条件，第 n-10个窗口中至少部分数据不满足预定条件，并且第 n-10个窗口前面的 n-11个窗口存在连续的 11个窗口中每一个窗口中至少部分数据均满足预定条件的情况与 P (n)无关。

情况 12: 第 n至 n-10个的窗口中至少部分数据以（ 1/2) ^Λ11的概率满足预定条件，该情况与 Ρ (η)无关。

因 P (n) =1/2* P (n-1 ) + ( 1/2) ^Λ2* P ( n-2 ) + + ( 1/2)

^Λ11*Ρ (η-11)。另一种预设规则：为潜在分割点确定 24个窗口 _x[/t -4 + S_x]和窗口 ]对应的预定条件 , 其中， X为 1到 11 连续的自然数, ⁼¹⁶⁹， ι⁼⁰; Α₂=ηο, Β₂ =-1； Α₃=ΠΙ, Β₃=-2·' Α₄=Π2, Β₄ =-3； Α₅=Π3, Β₅=-4-, Α₆=Π4, Β₆=-5-, Α_Ί=\15, Β_Ί =-6； Α_&=Π6, 5₈=-7； 4, =177, S₉=-8; A_w=m, B_W=-9; A_n=\19, S_n=-10, ...A₂₄=\92, B₂₄=-23,^f LC_l = C₂ = C₃ = C₄ = C₅ = C₆=C₇=C₈=C₉=...= C₂₄, 窗口 _X| -4 +S_X]中至少部分数据满足预定条件 C_x的概率为 3/4, 通过这两个因素可以计算 P(n)。

因此是否存在连续 24个窗口中的每一个窗口中至少部分数据均满足预定条件 C_x就决定潜在分割点 /1是否为数据流分割点，可以通过下面的公式计算：

P ( 1 ) =1, P (2) P (23) =1, P (24) =1- (3/4) ^Λ24,

Ρ (η) =1/4* P (n-1 ) +1/4* ( 3/4 ) * P ( n-2 ) + +1/4* (3/4)

^A23*P ( n-24 ) 。

经过计算， P( 5*1024 )=0.78, P( 11*1024 )=0.17, P(12*1024)=0.13, 即从数据流起始位置 /上一数据流分割点查找到 12KB后以 13%的概率仍未找到数据流分割点，强制进行分割。通过这个概率，求得数据流分割点的密度函数，经过积分求得大约平均在从数据流起始位置 /上一数据流分割点查找 7.6KB时找到数据流分割点，即平均分块长度大约为 7.6KB。与连续的 11个窗口中至少部分数据以 1/2的概率满足预定条件不同，传统 CDC算法釆用一个窗口以 1/2^Λ12的概率满足条件时，方可达到平均分块长度 7.6ΚΒ的效果。

在图 3所示的数据流分割点查找的基础上，在图 23所示的实施方式中，在去重服务器 103上预设有规则，所述规则为：为潜在分割点 /1 确定 11个窗口 _x| - 4 +^]和窗口 4 ]对应的预定条件 C_x, 其中， X为 1到 11连续的自然数， 4和 ^为整数。其中，窗口 ^

+ ]中至少部分数据满足预定条件的概率为 1/2, 4=ΐ7ΐ， Β_γ

=-2 ₂ =172， Β₂=-3; Α₃=Π3, Β₃=-4-, Α₄=Π4, Β₄=-5-, Α₅=Π5, Β₅=-6-, Α₆ =176, Β₆=-1-, Α_Ί=\11, β₇=-8_; ⁼¹⁷⁸' 4) =179， S₉=-10_; A_W=\1Q, B_w =-1； A_n =169, B_u=o, C₇= C₈= C₉= C₁₀= C_{u 0} ^为数据流分割点，图 23中所示数据流分割点查找方向为从左向右，从数据流分割点 k_a跳过最小数据块 4KB后，在最小数据块 4KB结束位置作为下一个潜在分割点 ^，根据在去重服务器 103上预设的规则，为潜在分割点 ^确定 _x [k- A_x ,k+ s_x ]及窗口 W_x [k- A_x ,k+ B_x ]对应的预设条件 C_x , 其中 χ为 1到 11连续的自然数。确定的 11个窗口分别为 ^ -17ΐΛ.-2]、 2| _;-172, -3]、 ₃| _;-173, -4]、 W_i4[k_t -174,^ -5], ₅| _;-175, -6]、 W_i6[k_rl76,k_r7], ₇| _;-177, -8]、 W_iS[k_rl7S,k_r9], W_i9[k_rl79,k_rl0], W_m [k_rn0,k_rl]和 W_m [k_r\ 69, k_t ]。判 f W_a[k_r\l\, ki -2]中至少部分数据是否满足预定条件、判断^ [ -172Λ.-3]中至少部分数据是否满足预定条件 C₂、判断^ [ -173Λ.-4]中至少部分数据是否满足预定条件 C₃、判断^ ₄[ -174Λ.-5]中至少部分数据是否满足预定条件 C₄、判断 W_i5 [ -175Λ.-6]中至少部分数据是否满足预定条件 C₅、判断 [k_t -176Λ.-7]中至少部分数据是否满足预定条件 C₆、判断

中至少部分数据是否满足预定条件 C₇、判断 w,₈ [k_t - ,ki -9]中至少部分数据是否满足预定条件 C₈、判断^ [ -179Λ.-10]中至少部分数据是否满足预定条件 C₉、判断^。 [ -170Λ.-1]中至少部分数据是否满足预定条件 C₁₀和判断 _iU [ k_t -169Λ· ]中至少部分数据是否满足预定条件 c_u。当判断窗口 _n中至少部分数据满足预定条件(^、窗口 ^中至少部分数据满足预定条件、窗口 ^中至少部分数据满足预定条件 ₃、窗口 ^₄中至少部分数据满足预定条件 c₄、窗口 ^中至少部分数据满足预定条件 c₅、窗口 ^₆中至少部分数据满足预定条件 c₆、窗口 ^中至少部分数据满足预定条件 c₇、窗口^中至少部分数据满足预定条件 c₈、窗口 ^中至少部分数据满足预定条件 c₉、窗口 ^。中至少部分数据满足预定条件 C_1Q和窗口 ^„中至少部分数据满足预定条件 c_u 时，则当前潜在分割点为数据流分割点。当 11个窗口中任一个窗口中至少部分数据不满足对应的预定条件时，如图 24所示， ^[ ¾-169, i¾]中至少部分数据不满足预定条件 C₃ ,点 _Pl沿着数据流分割点查找方向跳跃 11个字节为例进行描述。如图 24所示，当判断 ^不满足预定条件 C₃时，以为起始点，沿着数据流分割点查找方向跳跃 N个字节，其中 N个字节不大于 II B₃ II +max_x( II II ),在本实施例中，N=7, 在第 7个字节的结束位置，获得下一个潜在分割点，为与潜在分割点 ^ 区别，这里将新的潜在分割点表示为，根据在去重服务器 103上预设的规则，为潜在分割点/ ^确定 11个窗口 ^[ -4, +^], 分别为 [ -171, k_r2], W_j2[k_rl72,k_r3]. W_j3[k_r ,k_r4], W_j4[k_J-U4,k_J -5]、 .₅[ 175, 6]、 W_j6[k_r\76,k_r7]. W_j7[k_rl77,k_rS]. W_jS[k_r\7S, V⁹]、 W_j9[k_J-l79,k_J-lO], W_jW[k_r\10,k_r\^W_jU[k_r\69,k^判断^ [ -171, -2]中至少部分数据是否满足预定条件 C 、判断 ^·₂μ,172, -3]中至少部分数据是否满足预定条件 C₂、判断^₃[ -173, -4]中至少部分数据是否满足预定条件 C₃、判断 .₄[ -174, -5]中至少部分数据是否满足预定条件(：₄、判断 .₅[ -175, -6]中至少部分数据是否满足预定条件 C₅、判断 .₆[ -176, -7]中至少部分数据是否满足预定条件 C₆、判断 ^.₇[ -177, -8]中至少部分数据是否满足预定条件 C₇、判断 [ -178, -9]中至少部分数据是否满足预定条件 C₈、判断

[ -179,^-10]中至少部分数据是否满足预定条件 C₉、判断。 [ -170, -1]中至少部分数据是否满足预定条件 <^和判断^ ^-169, ：^ 至少部分数据是否满足预定条件 C„。当然在本发明实施例中，判断潜在分割点 k_a是否为数据流分割点时也遵循该原则，具体实现不再描述，可以参照判断潜在分割点的描述。当判断窗口中至少部分数据满足预定条件 C 、窗口 ₂中至少部分数据满足预定条件 C₂、窗口 ^中至少部分数据满足预定条件 C₃、窗口中至少部分数据满足预定条件 C₄、窗口中至少部分数据满足预定条件 C₅、窗口 ^中至少部分数据满足预定条件 C₆、窗口 W_j7中至少部分数据满足预定条件 C₇、窗口中至少部分数据满足预定条件 C₈、窗口中至少部分数据满足预定条件(：₉、窗口中至少部分数据满足预定条件 C_1Q和窗口中至少部分数据满足预定条件 C_u时，则当前潜在分割点为数据流分割点，与之间的数据构成 1个数据块，同时按照与相同的方式跳过最小分块大小 4KB, 获得下一个潜在分割点，并按照在去重服务器 103上预设的规则，判断下一个潜在分割点是否为数据流分割点。当判断潜在分割点不是数据流分割点时，按照与相同的方式获得下一个潜在分割点，并按照在去重服务器 103上预设的规则及上述方法判断下一个潜在分割点是否为数据流分割点。当超过设定的最大数据块仍然没有找到数据流分割点时，则从最大数据块的结束位置作为强制分割点。当然该方法的实施受最大数据块长度和构成该数据流的文件的大小约束，在此不再赘述。

在图 3所示的数据流分割点查找的基础上，在图 25所示的实施方式中，在去重服务器 103上预设有规则，所述规则为：为潜在分割点 /1 确定 11个窗口 ^| -4, + ]和窗口 ^| -4^+ ]对应的预定条件

C_x , 其中 X为 1到 11连续自然数，

Β₃ =1； Α₄=169, Β₄=0; Α₅=Π0, Β₅=-1-, Α₆=\1\, Β₆ =-2 Α_Ί=\12, Β₇=-3-, Α_& = Π3, β₈=-4_; , =Π4, Β₉=-5-, A_W=175, S₁₀=-6_; Α_η=\16, Β_η=-Τ, ^f LC_l = C₂ = C₃=C₄

=Ο₅ = Ο₆ = Ο_Ί=Ο, = Ο₉=€₁₀ =€_η, 则 11个窗口分别为 ^[k-166, k+3]、 w₂ [k-167,k+2]、 [k-168,k+l]、 ff₄[k-169, k]、 ₅ [k-170, k-l]、 ₆[k-171, k-2]、 ₇[k-172,k-3], ₈ [k-173, k-4], ₉ [k-174, k-5], w_w [k-175,k-6] 和^ [k-176,k-7]。 ^为数据流分割点，图 25中所示数据流分割点查找方向为从左向右，从数据流分割点跳过最小数据块 4KB后，最小数据块 4KB结束位置作为下一个潜在分割点，在本实施例中，根据在去重服务器 103上预设的规则，为潜在分割点确定 11个窗口^ [ k- A_x ,k+ β_χ ]及窗口 w_ix [ k- A_x ,k+ B_x ]对应的预定条件 C_x , χ分别为 1到 11连续的自然数。在图 25所示的实施方式中，为潜在分割点确定 11个窗口，分别为 +3]、 W_i2[k_r\61, +2]、 ^₃| _;-168, + 1]、 4| _;-169, ]、 W_i5[k_rl70,k_rl]. W_i6[k_rl7l,k_r2], W_n[k_rl72,k_r3]. ^₈| _;-173, -4]、 ₉| _;-174, -5]、 ₁₀| _;-175, -6]和

判断^ [ -166, +3]中至少部分数据是否满足预定条件 C,、判断 ^₂ [^-167, +2]中至少部分数据是否满足预定条件 C₂、判断^ [ 168, +1]中至少部分数据是否满足预定条件 C₃、判断^ 中至少部分数据是否满足预定条件、判断 -17( _; -1]中至少部分数据是否满足预定条件 C₅、判断 ₆[ -17ΐΛ.-2]中至少部分数据是否满足预定条件 C₆、判断^ ^₇[ 172Λ.-3]中至少部分数据是否满足预定条件 C₇、判断 ₈ [ -173Λ.-4]中至少部分数据是否满足预定条件 C₈、判断 W_l9 [ -174Λ.-5]中至少部分数据是否满足预定条件 C₉、判断 ^。

[ -175»]中至少部分数据是否满足预定条件 C_1Q和判断^

-7]中至少部分数据是否满足预定条件。当判断窗口 w_n中至少部分数据满足预定条件、窗口 ^中至少部分数据满足预定条件 C₂、窗口 ₃中至少部分数据满足预定条件 ₃、窗口 ^中至少部分数据满足预定条件 C₄、窗口 ^中至少部分数据满足预定条件 C₅、窗口 ^₆中至少部分数据满足预定条件 C₆、窗口 ^中至少部分数据满足预定条件 C₇、窗口 ^中至少部分数据满足预定条件 C₈、窗口 ^中至少部分数据满足预定条件 C₉、窗口 _Ί。中至少部分数据满足预定条件 C_1Q和窗口中至少部分数据满足预定条件时，则当前潜在分割点为数据流分割点。当 11个窗口中任一个窗口中至少部分数据不满足对应的预定条件时，如图 26所示， ₇[ -172, -3], 则从潜在分割点沿着数据流分割点查找方向跳跃 N个字节，其中 N个字节不大于 II Β_Ί II + max_x( II A_x II), 在图 26所示的实施方式中，跳夭 N个字节不大于 185 个字节，在本实施例中， N=5, 得到新的潜在分割点，为与潜在分割点区别，这里将新的潜在分割点表示为，根据图 25所示的实施方式中在去重服务器 103上预设的规则，为潜在分割点 kj确定的窗口为 11个，分别为 W_n [kj-l66,kj+3], Wj^kj-iei^j+l], _J3| ,168, +1]、 _J4[ 169,]、 ^,[^.-170,^.-1], _J6[ 171, ²]、 _j7[ V¹⁷²， ³]、 J₈[ 173, ⁴]、 _J9[V¹⁷⁴，V⁵]、 ^w [ k_]-\15,k_] -6]^ W_jn [ k_r\16, k_J -7]。判断^ [ -166, +3]中至少部分数据是否满足预定条件、判断 lV_j2 [ ^-167, k_] +2]中至少部分数据是否满足预定条件 ₂、判断 W_j3 [ k_] -168,^+1]中至少部分数据是否满足预定条件 C₃、判断 .₄[ -169, ] 中至少部分数据是否满足预定条件 ₄、判断 [ - 170, - 1 ]中至少部分数据是否满足预定条件 C₅、判断^ [ -171, -2]中至少部分数据是否满足预定条件、判断^ [ -172, -3]中至少部分数据是否满足预定条件 C₇、判断 [ - 173 , -4]中至少部分数据是否满足预定条件 C₈ 判断 .₉[ -174, -5]中至少部分数据是否满足预定条件 C₉、判断

[ ^-175,^. -6]中至少部分数据是否满足预定条件 C₁₀和判断 W_jU [ k l76_: -7]中至少部分数据是否满足预定条件。当然在本发明实施例中，判断潜在分割点是否为数据流分割点时也遵循该原则，具体实现不再描述，可以参照判断潜在分割点的描述。当判断窗口 _l中至少部分数据满足预定条件(^、窗口 ^中至少部分数据满足预定条件 C₂、窗口 ^中至少部分数据满足预定条件 C₃、窗口中至少部分数据满足预定条件 C₄、窗口 ^中至少部分数据满足预定条件 C₅、窗口 ^中至少部分数据满足预定条件 C₆、窗口 ^中至少部分数据满足预定条件 C₇、窗口^中至少部分数据满足预定条件 C₈、窗口中至少部分数据满足预定条件 C₉、窗口 ^。中至少部分数据满足预定条件 C_1Q和窗口 ^„中至少部分数据满足预定条件时，则当前潜在分割点为数据流分割点，与之间的数据构成 1个数据块，同时按照与相同的方式跳过最小分块大小 4KB, 获得下一个潜在分割点，并按照在去重服务器 103上预设的规则，判断下一个潜在分割点是否为数据流分割点。当判断潜在分割点不是数据流分割点时，按照与相同的方式获得下一个潜在分割点，并按照在去重服务器 103上预设的规则及上述方法判断下一个潜在分割点是否为数据流分割点。当超过设定的最大数据块仍然没有找到数据流分割点时 ,则从最大数据块的结束位置作为强制分割点。

在图 3所示的数据流分割点查找的基础上，在图 27所示的实施方式中，在去重服务器 103 上预设有规则，所述规则为：为潜在分割点 /1确定 11个窗口 [k-4, k + ]和窗口 k + ]对应的预定条件其中 X为 1到 11连续的自然数， 4=169, B=0; 4 = 170, B₂=-l; 4=171, Β₃=-2; Α₄ = Π2, Β₄ =-3； A =173, B =-4; 4 = 174, B₆ =-5; 4=175, B₇=-6; 4=176, s₈=-7; A₉ = \77, B₉=-S; 4。=168, B_w=\; A_u=\19, B_u=3; 并且 (^ = (₂ = (₃ = (₄ = (₅ = (₆ = (₇ = (₈ = C₉ = C_w≠C_n , 则 11个窗口分别为 ^[1^-169,1^、 ff₂[k-170,k-l]、 w₃ [k-171, k-2]、 ff₄[k-172, k-3]、 W₅[k-\73, k-4]、 W₆[k-\74, k-5]、 W₇[k-\75, k-6]、 W_s[k-\76, k-7], W₉[k-\77, k-8], ₁₀ [k-168, k+1]和^ [k-179, k+3]。为数据流分割点，图 27中所示数据流分割点查找方向为从左向右，从数据流分割点跳过最小数据块 4KB后，最小数据块 4KB结束位置作为下一个潜在分割点，在本实施例中，根据在去重服务器 103上预设的规则，为潜在分割点确定窗口 - A_x, k_t + B_x], x分别为 1到 11连续的自然数，在图 27所示的实施方式中，为潜在分割点确定 11个窗口分别为 W_n [ ki -169, ki ]、 W_n | _;-170, -1]、 ^₃| _;-171, k_t -2] , W_u[k_r\12, -3]、 ^[^-173, k_t -4]、 W_i6[k_r\l , k_r5], W_n[k_r\15, k_t -6] , W_a[k_r\16, -7]、 W_i9 [ k_t -177, ^-8], W_m [k l6^, + 1]和^ +3]。判断^

]中至少部分数据是否满足预定条件、判断^ -170, I]中至少部分数据是否满足预定条件 C₂、判断^ -171, -2]中至少部分数据是否满足预定条件 C₃、判断^ -172, -3]中至少部分数据是否满足预定条件 C₄、判断^ -173, -4]中至少部分数据是否满足预定条件 C₅、判断 ₆ -174, -5]中至少部分数据是否满足预定条件 C₆、判断^ -175, -6]中至少部分数据是否满足预定条件 C₇、判断^ [ -176, ^-7]中至少部分数据是否满足预定条件 C₈、判断 ₉[ -177, -8]中至少部分数据是否满足预定条件 c₉、判断^。 μ_; - 168 , + 1 ]中至少部分数据是否满足预定条件 c₁₀和判断^„[ -179, +3]中至少部分数据是否满足预定条件 C_u。当判断窗口 ^中至少部分数据满足预定条件、窗口 ^中至少部分数据满足预定条件 C₂、窗口 ^中至少部分数据满足预定条件 C₃、窗口 ^中至少部分数据满足预定条件 C₄、窗口 ^中至少部分数据满足预定条件 C₅、窗口 ^中至少部分数据满足预定条件 C₆、窗口 ^ 中至少部分数据满足预定条件 C₇、窗口 ^中至少部分数据满足预定条件 C₈、窗口 ^中至少部分数据满足预定条件 C₉、窗口 ^。中至少部分数据满足预定条件 C_1Q和窗口 ^ _t中至少部分数据满足预定条件时，则当前潜在分割点 ^为数据流分割点。当判断窗口 „中至少部分数据不满足预定条件 C„时，则从潜在分割点 _kl沿着数据流分割点查找方向跳跃 1 个字节，得到新的潜在分割点，为与潜在分割点区别，这里将新的潜在分割点表示为。当 ^、 w_l2、 w_i3、 w_i4、 w_i5、 w_i6、 w_n、 π_Ά、和 ^。 10个窗口中任一个窗口中至少部分数据不满足对应的预定条件时，如图 28 所示， ^₄[ -172, k_r3], 则从点沿着数据流分割点查找方向跳跃 N个字节，其中 N个字节不大于 II Β_Λ II +max_x( II A_x || ), 在图 28所示的实施方式中，跳跃 N个字节不大于 182个字节，在本实施例中， N=6, 得到新的潜在分割点，为与潜在分割点区别，这里将新的潜在分割点表示为，根据图 27所示的实施方式中在去重服务器 103上预设的规则，为潜在分割点确定的窗口分别为 ]、 W_j2[k l70, k l], Ψ_β Κ_Γ\Ί\, k_r2], W_] [k_r\12, ^-3], ^,[^-173, V⁴]、 ₆[ ¹⁷⁴， V⁵]、 ₇[ ¹⁷⁵， V⁶]、 W_ji[k_]-\16, 7]、 w_j9 [k m, s]、 [ ¹⁶⁸， +1]和川 [V¹⁷⁹， +3]。判断^ [^-169, ]中至少部分数据是否满足预定条件、判断 JV_j2 [ -170, -1]中至少部分数据是否满足预定条件 C₂、判断^ [ -171, k厂 2] 中至少部分数据是否满足预定条件 C₃、判断 .₄[ -172, -3]中至少部分数据是否满足预定条件 C₄、判断 .₅[ -173, -4]中至少部分数据是否满足预定条件 C₅、判断 .₆[ -174, -5]中至少部分数据是否满足预定条件 C₆、判断 .₇[ -175, -6]中至少部分数据是否满足预定条件 C₇、判断 ^ [ -176, -7]中至少部分数据是否满足预定条件 C₈、判断 .₉[ -177, -8]中至少部分数据是否满足预定条件 C₉、判断 W_jW [ -168, +1 ]中至少部分数据是否满足预定条件 C_1Q和判断 _jU [k_r179, k_J +3]中至少部分数据是否满足预定条件 C_u。当然在本发明实施例中，判断潜在分割点是否为数据流分割点时也遵循该原则，具体实现不再描述，可以参照判断潜在分割点的描述。当判断窗口 ^中至少部分数据满足预定条件、窗口 if ,.₂中至少部分数据满足预定条件、窗口 ,.₃中至少部分数据满足预定条件 c₃、窗口 ₄中至少部分数据满足预定条件 c₄、窗口 W_J5中至少部分数据满足预定条件 c₅、窗口 w_j6中至少部分数据满足预定条件 C₆、窗口 ^.₇中至少部分数据满足预定条件 C₇、窗口中至少部分数据满足预定条件 c₈、窗口中至少部分数据满足预定条件 C₉、窗口 ϊ¥ 中至少部分数据满足预定条件 C_1Q和窗口 W_jU中至少部分数据满足预定条件 Cu时，则当前潜在分割点为数据流分割点，与之间的数据构成 1 个数据块，同时按照与相同的方式跳过最小分块大小 4KB, 获得下一个潜在分割点，并按照在去重服务器 103 上预设的规则，判断下一个潜在分割点是否为数据流分割点。当判断潜在分割点不是数据流分割点时，按照与 ^ 相同的方式获得下一个潜在分割点，并按照在去重服务器 103 上预设的规则及上述方法判断下一个潜在分割点是否为数据流分割点。当超过设定的最大数据块仍然没有找到数据流分割点时，则从最大数据块的结束位置作为强制分割点。

在图 3所示的数据流分割点查找的基础上，在图 29所示的实施方式中，在去重服务器 103上预设有规则，所述规则为：为潜在分割点 /1 确定 11个窗口 [ 和窗口 [/ 4, Ρ ]对应的预定条件 C , X分别为 1到 11连续的自然数，其中，窗口 + SJ 中至少部分数据满足预定条件的概率为 1/2, 4=169， Β_Γ0-, 4=171， ₂ =-2； Α₃=Π3, Β₃=-4; Α₄=Π5, Β₄=-6-, Α₅=ΠΊ, Β₅= -?,； Α₆=Π9, Β₆=-10-, A₇=m,

B_u =-20；并且 ς= _{2 3} =C₄=C₅= C₆= C₇= C₈= C₉= C₁₀= C_u, 则 11个窗口分别为 W [k-169,k]、 ff₂[k-171,k-2]、 ₃ [k-173, k-4], ff₄[k-175, k-6]、 ₅[k-177, k-8]、 ₆[k-179,k-10]、 ₇ [k-181, k-12], ₈ [k-183, k-14], ₉ [k-185, k-16], ₁₀[k-187,k-18]和^ [k-189,k-20]。 ^为数据流分割点，图 29中所示数据流分割点查找方向为从左向右，从数据流分割点 k_a跳过最 '〗、数据块 4KB后，在最小数据块 4KB结束位置作为下一个潜在分割点，为潜在分割点 ^确定点 _Ax, 在本实施例中，根据在去重服务器 103上预设的规则， X分别为 1到 11连续的自然数。在图 29所示的实施方式中，依据预定规则，为潜在分割点确定的 11个窗口分别为 ^[^-169, ]、 W_i2[k_r\l\, k 2], W_a[k l73, k_t -4] , W_¼[k_r\15, k_t -6] , W_i5[k_r\ll, k S], W_i6[k \19, -10]、 W^k.-l , -12]、 W_i&[k m, -14]、 W_i9 [ -185, -16]、 W_m [k l^l, k l^ W_m[k m, -20]。判断^ [ -169, ]中至少部分数据是否满足预定条件、判断 ^₂μ_;-171, k_r2] 中至少部分数据是否满足预定条件 C₂、判断^ ₃μ_;-173, -4]中至少部分数据是否满足预定条件 C₃、判断 ^₄[ -175, -6]中至少部分数据是否满足预定条件 C₄、判断^ [ -177, -8]中至少部分数据是否满足预定条件 C₅、判断 J 179, -10]中至少部分数据是否满足预定条件 C₆、判断^ [ -181, -12]中至少部分数据是否满足预定条件 C₇、判断^ -14]中至少部分数据是否满足预定条件 C₈、判断^ -16]中至少部分数据是否满足预定条件 C₉、判断^。

[ k_t -187, -18]中至少部分数据是否满足预定条件 C₁₀和判断 ^„ [ k_t -189, -20]中至少部分数据是否满足预定条件 C_u。当判断窗口 ₁中至少部分数据满足预定条件 d、窗口^中至少部分数据满足预定条件 C₂、窗口 ^中至少部分数据满足预定条件 C₃、窗口 ^中至少部分数据满足预定条件 C₄、窗口 ^中至少部分数据满足预定条件 C₅、窗口 ₆中至少部分数据满足预定条件 C₆、窗口 ^中至少部分数据满足预定条件 ₇、窗口 ^中至少部分数据满足预定条件 ₈、窗口 ^中至少部分数据满足预定条件 c₉、窗口 ^。中至少部分数据满足预定条件 C_1Q和窗口 „中至少部分数据满足预定条件 c_u时，则当前潜在分割点为数据流分割点。当 11个窗口中任一个窗口中至少部分数据不满足对应的预定条件时，如图 30所示， -6]中至少部分数据不满足预定条件 C₄, 则选择下一个潜在分割点，为与潜在分割点区另' J, 这里表示为，位于右边，并且与 ^间距 1个字节。如图 30所示，依为去重服务器 103预设的规则，为潜在分割点确定 11个窗口分别为 [-169, kj], W_j2[k_r\l\, kj-2], ₃[ -173, kj-4], .₄[ -175, k_r6], W_j5[k_r\77, -8]、 ^,[^-179, -10]、 W_j7[k_rm, kj-12],

-14]、 W_J9[kj-lS5, kj-16], W_JW [kj-lS7, -18] 和^ -20], 并且 C^C^C^C^C^C C C^ ^Q^C 判断 ]中至少部分数据是否满足预定条件、判断

[ -171, -2]中至少部分数据是否满足预定条件 C₂、判断^ [ -173, -4]中至少部分数据是否满足预定条件 C₃、判断^ [ -175, -6]中至少部分数据是否满足预定条件 C₄、判断 .₅[ -177, -8]中至少部分数据是否满足预定条件 C₅、判断 .₆[ -179, -10]中至少部分数据是否满足预定条件 C₆、判断 [ - 181 , ¹²]中至少部分数据是否满足预定条件 C₇、判断 [ -183, -14]中至少部分数据是否满足预定条件 C₈、判断 ^.₉[ -185, -16]中至少部分数据是否满足预定条件 C₉、判断 _jW [ -187, -18]中至少部分数据是否满足预定条件 C_1Q和判断 W_JU[k 189, -20]中至少部分数据是否满足预定条件 C„。当判断窗口 ^中至少部分数据满足预定条件、窗口 ^中至少部分数据满足预定条件 c₂、窗口 ^中至少部分数据满足预定条件 c₃、窗口 ^中至少部分数据满足预定条件 c₄、窗口 ^.₅中至少部分数据满足预定条件 c₅、窗口 ₆中至少部分数据满足预定条件 c₆、窗口中至少部分数据满足预定条件 C₇、窗口中至少部分数据满足预定条件 c₈、窗口 ^中至少部分数据满足预定条件 c₉、窗口 ^。中至少部分数据满足预定条件 c_1Q和窗口 ιν_β1中至少部分数据满足预定条件 Cu时，则当前潜在分割点为数据流分割点。当判断窗口 w_j2. w_j}. w_j4、 w_j5. JV_j6、 W_j7、 W_j8、 W_j9、 ^。和 „中任一个窗口中至少部分数据不满足预定条件时，如图 31所示， .₃[ -173, -4]中至少部分数据不满足预定条件 c₃时，位于 ^右边从沿着数据流分割点查找方向跳跃 N个字节，其中 N个字节不大于 II B₄ II +max_x( || A_x || ), 在图 28所示的实施方式中， N个字节不大于 195个字节，在本实施例中， N=15, 获得下一个潜在分割点，为与潜在分割点、相区别，表示为。根据图 29所实施方式中为去重服务器 103预设的规则，为潜在分割点确定 11个窗口分别为 ^[^-169, ]、 W [k_r\l\, k_r2], W_l3[k_rl73, -4]、 W_l4[k_r\75, k_r6]. W₁₅[k_r\ll, -8]、 W₁₆[k_r\19, -10]、 W_n | ,-181, -12]、 _/80,-183, -14]、 W_l9[k,-l^5, -16]、 W_no[k,-l^l,

-20]。判断^ μ,-169, ]中至少部分数据是否满足预定条件、判断 -171, -2]中至少部分数据是否满足预定条件 C₂、判断^ -173, -4]中至少部分数据是否满足预定条件 C" 判断 [ -175, -6]中至少部分数据是否满足预定条件 C₄、判断^ μ,-177, -8]中至少部分数据是否满足预定条件 c₅、判断

-179, -10]中至少部分数据是否满足预定条件 C₆、判断 ^₇μ,-181, -12]中至少部分数据是否满足预定条件 C₇、判断^ μ,-183, -14] 中至少部分数据是否满足预定条件 C₈、判断 -185, -16]中至少部分数据是否满足预定条件 c₉、判断^。 [k_rm, is]中至少部分数据是否满足预定条件 C_1Q和判断^ _t [ -189, k, -20]中至少部分数据是否满足预定条件 Cu。当判断窗口 JV_n中至少部分数据满足预定条件(^、窗口中至少部分数据满足预定条件 C₂、窗口 ^中至少部分数据满足预定条件 C₃、窗口 ^中至少部分数据满足预定条件 C₄、窗口 ^中至少部分数据满足预定条件 C₅、窗口中至少部分数据满足预定条件 c₆、窗口中至少部分数据满足预定条件 c₇、窗口 ^中至少部分数据满足预定条件 c₈、窗口中至少部分数据满足预定条件 c₉、窗口 W_no中至少部分数据满足预定条件 C_1Q和窗口 ff_m中至少部分数据满足预定条件 c„时，则当前潜在分割点为数据流分割点。当窗口 w 、

W_l2 W₁₃、 W_l4, V₁₅、 W₁₆, W_n、 W_K, W₁₉, ^。和 ff_m中任一窗口中至少部分数据不满足预定条件时，选择下一个潜在分割点，为与潜在分割点、和区别，表示为 ^位于右边，并且^与间距

1个字节。根据图 29所示实施例为去重服务器 103预设的规则，为潜在分割点确定的 11个窗口分别为^ k_m]、 W_m2[k_m-\1\, k_m-2], k_m-4], W_m4[k_m-n5, k_m-6]. W_m5[k_m-m, A_m-8]、 W_m6[k_m

-179, ^-io]、 w_m7[k_m-m, k_m-\2], w_m&[k_m- , k_m-u], w_m9[k_m-ns, ^-16]、 w_mW [k_m-m,

w_mn[k_m- , -20]。判断^ μ„-ΐ69, 中至少部分数据是否满足预定条件、判断^ ₂μ_Μ-171, A_m-2]中至少部分数据是否满足预定条件 C₂、判断^ ₃μ„-173, ^-4]中至少部分数据是否满足预定条件 C₃、判断^ ₄μ_Μ-175, ^-6]中至少部分数据是否满足预定条件 C₄、判断^ ₅[^-177, A_m -8]中至少部分数据是否满足预定条件 C₅、判断^ ₆μ„-179, -10]中至少部分数据是否满足预定条件 C₆、判断^ ₇μ„-181, ^-12]中至少部分数据是否满足预定条件 C₇、判断^ ₈[^-183, -14]中至少部分数据是否满足预定条件 C₈、判断^ -16]中至少部分数据是否满足预定条件 C₉、判断 W_mW [k_m-Ul, 中至少部分数据是否满足预定条件 (^和判断

W_m [k_m-U9, ^-20]中至少部分数据是否满足预定条件 C_u。当判断窗口 ^_∞1中至少部分数据满足预定条件、窗口 _m2中至少部分数据满足预定条件 C₂、窗口 ^₃中至少部分数据满足预定条件 C₃、窗口 _m4中至少部分数据满足预定条件 c₄、窗口 _m5中至少部分数据满足预定条件 c₅、窗口 ^ ₆中至少部分数据满足预定条件 c₆、窗口 ^ ₇中至少部分数据满足预定条件 c₇、窗口 ^ ₈中至少部分数据满足预定条件 c₈、窗口 W_m9中至少部分数据满足预定条件 C₉、窗口 ¥_ml0中至少部分数据满足预定条件 c_1Q和窗口 _mll中至少部分数据满足预定条件时，贝' J 当前潜在分割点为数据流分割点。当任一个窗口中至少部分数据不满足预定条件时，则按照前面描述的方案执行跳跃，以获得下一个潜在分割点并判断是否为数据流分割点。

本发明实施例提供了一种判断窗口 V_iz [k -A₂, k^B 中至少部分数据是否满足预定条件 C_z的方法，本实施例中使用随机函数判断窗口 Wjki-Az, ^ + ^]中至少部分数据是否满足预定条件 C_z, 以图 21所示的实施方式为例，根据在去重服务器 103上预设的规则, 为潜在分割点 ^确定窗口 ^ , 判断^

中至少部分数据是否满足预定的条件如图 32所示，表示窗 P W_a[k_rl69, k_t], 为判断^ ]中至少部分数据是否满足预定条件选择 5个字节，图 32中 "國"表示选择的 1个字节，相邻两个选择的字节之间相差 42个字节。将选择的 5字节数据反复利用 51次，共获得 255字节，以增加随机性。其中每个字节由 8位组成，记为 ^ .,. α^,表示 255个字节中第 m个字节的第 1到第 8 位，因此， 255 个字节对应的位可以表示为： , V =1,当一" α =00†, V =-1,

其中表示 , .. 中的任一个， 255个字节对应的位按照 "_m,„与 V_amn 的转换关系得到矩阵 , 可以表示为：

V， 1 ... ν

V … V

，选取大量随机数，组成矩阵，由随机数

V V

,1 ， … V 据组成的矩阵一旦组成，保持不变，如从服从特定分布（这里以正态分布为例）的随机数中选择 255*8 个随机数组成矩阵 R:

'²⁵⁵，⁸ 将矩阵 ^的第 m行与矩阵 R的第 m行的随机数相乘，然后求和得到一个值，具体表示为

+ ···+ V_→ * 。根据该方法，获得、 S_a2…到 S_a255 ,统计、 S_a2... 到 ₂₅₅中满足特定条件（这里以大于 0为例）的值的个数 K。由于矩阵 R服从正态分布，则 _m与矩阵 R—样，仍然服从正态分布，根据概率论，正态分布随机数大于 0的概率为 1/2, 在& S_a2... 到 ₂₅₅中，每个值大于 0 的概率为 1/2, 所以 K满足二项分布：

P(k = n) = C" (-)" (丄) ²⁵⁵- " = C" (丄) ²⁵⁵

^{2 2 255}V 。根据统计结果，判断& s_a2... 到 ₂₅₅的值大于 0的个数 κ是否为偶数，二项分布的随机数为偶数的概率为 1/2, 所以 K以 1/2的概率满足条件。当 K为偶数时，表明 ^ [ 169, t,]中至少部分数据满足预定条件当 Κ为奇数时，表明 ^ -169，中至少部分数据不满足预定条件，这里即指根据上述方式获得的 S_al、 S_a2…到 ₂₅₅的值大于 0的个数 K为偶数。在图 21所示的实施方式中, 在^ ^-169,^]、 _ί2[ -ΙΊ0,^ -1]、 W_i3[k lll,k 2], W_i4[k l72,k 3]. W_l5[k_rl73,k 4], w_i6[k \74, k 5]. ₇| _;-175，/<:,-6]、 ^0,-176,/(,-7]、 W_l9[k_rm ,k_rS], W_n0 [ k_t -178Λ-9]和^„[ -179Λ.-10]中，各窗口大小相同，即窗口大小均为 169 字节，同时判断窗口中至少部分数据是否满足预定条件的方式也相同，具体见上述判断^ -169, 中至少部分数据是否满足预定条件 (^的描述。因此，如图 32所示，表示判断窗口 W_l2[k_r\70, -1]中至少部分数据是否满足预定条件时选择的 1 个字节，相邻两个选择的字节之间相差 42个字节。将选择的 5字节数据反复利用 51次，共获得 255字节，以增加随机性。其中每个字节由 8位组成，记为 H 表示 255个字节中第 m个字节的第 1 到第 8 位，因此， 255 个字节对应的位可以表示为：

其中 „表示 ,. ^中的任一个， 255 个字节对应的位按照 „与

V 的转换关系得到矩阵 ,可以表示为：

判断 W_tl [k \69, ]中至少部分数据是否满足预定条件的方式与判断窗口 ^₂[ -170, 中至少部分数据是否满足预定条件的方式相同，因此使用矩阵 R:

⁸人将矩阵的第 m行与矩阵 R的第 m行的随机数相乘，然后求和得到一个值，具体表示为 S_bm= U U V_bm,₂* h_m,₂ + ...+ V_bm 、 h_m,_s。根据该方法，获得、 s_b2...到 s_blii , 统计、 s_b2...到 s_b255中满足特定条件（这里以大于 0为例）的值的个数 K。由于矩阵 R服从正态分布，则& _m与矩阵 R 一样，仍然服从正态分布，根据概率论，正态分布随机数大于 0 的概率为 1/2,在 S_bl 、 S_b2.. S_b255中，每个值大于 0的概率为 1/2,

P(k = n) = C₂ ⁿ ₅₅ (-)" (丄) ²⁵⁵- " = C₂ ⁿ ₅₅ (丄) ²⁵⁵

所以 K满足二项分布： ²⁵⁵ W ²⁵⁵ 2⁷ 。根据统计结果，判断、到 ₂₅₅的值大于 0的个数 K是否为偶数，二项分布的随机数为偶数的概率为为 1/2, 所以 K以 1/2的概率满足条件。当 K为偶数时，表明 ^ -1]中至少部分数据满足预定条件 C₂; 当 K为奇数时，表明 ^ -170, -1]中至少部分数据不满足预定条件 C₂，这里 C₂即指根据上述方式获得的、到 2₅₅的值大于 0的个数 K为偶数。图 21所示的实施方式中， ₂[

-170, -1]中至少部分数据满足预定条件 C₂。

因此，如图 32所示， "■，，表示判断窗口 ^ ₃μ_;-171, -2]中至少部分数据是否满足预定条件 C₃时选择的 1个字节，相邻两个选择的字节之间相差 42个字节。将选择的 5字节数据反复利用 51次，共获得 255 字节，以增加随机性。然后使用判断窗口 ^[^-169,^]和^ ₂μ_;-170Λ

-1]中至少部分数据是否满足预定条件的方法，判断^ [ -171Λ.-2] 中至少数据是否满足预定条件 C₃。图 21所示的实施方式中， ^₃[ -171, -2]中至少部分数据满足预定条件。如图 32所示，表示判断窗口 W_l4 [ k_t -172, k_t -3]中至少部分数据是否满足预定条件 ₄时选择的 1个字节，相邻两个选择的字节之间相差 42个字节。将选择的 5字节数据反复利用 51次，共获得 255字节，以增加随机性。然后使用判断窗口 W

[ -169, ]、 ^₂[ 170Λ·-1]和^ [ -171Λ-2]中至少部分数据是否满足预定条件的方法，判断 ₄[ -172, -3]中至少部分数据是否满足预定条件 C₄。图 21所示的实施方式中， ^₄[ -172, -3]中至少部分数据满足预定条件 C₄。如图 32所示， "IB"表示判断窗口 ^[^-173,^-4] 中至少部分数据是否满足预定条件 C₅时选择的 1个字节，相邻两个选择的字节之间相差 42个字节。将选择的 5字节数据反复利用 51次，共获得 255字节，以增加随机性。然后使用判断窗口^ [ -169, ]、 W_a μ_;-170Λ·-1]、 ^₃[ -171, -2]和 ^₄[ -172, -3]中至少部分数据是否满足预定条件的方法，判断 W_l5 [k 173, k_t -4]中至少数据是否满足预定条件 C₅。图 21所示的实施方式中， ^[^-173,^-4]中至少部分数据不满足预定条件 C₅。

当 [ -173Λ.-4]中至少部分数据不满足预定条件时 C₅ ,从点 p_l5 沿着数据流分割点查找方向跳跃 7个字节，在第 7个字节的结束位置获得下一个潜在分割点，如图 22所示，根据为去重服务器 103预设的规则，为潜在分割点确定窗口^ [ -169, ], 判断窗口^ [ -169, ]中至少部分数据是否满足预定条件的方式与判断窗口^ [ k_t - 169Λ. ]中至少部分数据是否满足预定条件 _x的方式相同，因此如图 33所示， ^表示窗口，为判断中至少部分数据是否满足预定条件 ς, 选择 5个字节，图 33中 "國"表示选择的 1个字节，相邻两个选择的字节之间相差 42个字节。将选择的 5字节数据反复利用 51次，共获得 255 字节，以增加随机性。其中每个字节由 8位组成，记为 ^,Λ,.^,Λ表示 255个字节中第 m个字节的第 1到第 8位，因此， 255个字节对应的位可以表示为:

=0时， ^^'=-1，其中" _m,„ '表示 ^,Λ.." ^'中的任一个， 255个字节对应的位按照《_m„ '与的转换关系得到矩阵 _α', 可以表示为：

。判断窗口中至少部分数据是否满足预定的

条件与判断窗口 ^[ -169Λ.]中至少部分数据是否满足预定的条件

的方式相同，因此使用矩阵 R:

"²⁵⁵'² "' ，⁸人将矩阵。'的第 m 行与矩阵 R的第 m行的随机数相乘，然后求和得到一个值，具体表示 ^ S = V_am ^h_m,+ V_am, ' * Λ_Μ,₂ + ... + V_→ ' * ₀ 根据该方法，获得、

…到 ₂₅₅ ', 统计、到 ₂₅₅ '中满足特定条件（这里以大于 0为例）的值的个数 K。由于矩阵 RI 人正态分布，则 _m '与矩阵 R 一样，仍然服从正态分布，根据概率论，正态分布随机数大于 0的概率为 1/2, 在 '、 ₂'...到 ₂₅₅ '中，每个值大于 0的概率为 1/2, 所以

P(k = n) = C₂"₅₅(丄)" (丄) ²⁵⁵- " = C₂"₅₅ (-)²⁵⁵

K满足二项分布： ^{2 2 2} 。根据统计结果，判断 '、到 ₂₅₅ '的值大于 0的个数 Κ是否为偶数，二项分布的随机数为偶数的概率为 1/2, 所以 Κ以 1/2的概率满足条件。当 Κ为偶数时，表明 _l[ -169, ]中至少部分数据满足预定条件当 Κ为奇数时，表明 ^[ -169 ]中至少部分数据不满足预定条件。判断 W_l2 [ -170, t_; -1 ]中至少部分数据是否满足预定条件 C₂的方式和判断 [ -170,^-1]中至少部分数据是否满足预定条件 C₂的方式相同，因此，如图 33所示，表示判断窗口 ^₂[ -170, -1]中至少部分数据是否满足预定条件 ₂时选择的 1个字节，相邻两个选择的字节之间相差 42个字节。将选择的 5字节数据反复利用 51次，共获得 255字节，以增加随机性。其中每个字节由 8位组成，记为

表示 255个字节中第 m个字节的第 1到第 8位，因此， 255个字节对应的位可以当 6,

=0时，

节对应的位按照 U与 '的转换关系得到矩阵可以表示为：

V V V

y Μ,Ι ^y b\,2 , ·· ^y ,8 、

V V V

y b2,\ ^v b2,2 '

。判断窗口 ^₂[ 170Λ.-1]中至少部分数据是

V V V

6255,1 ^y >255,2 ' '· ^y 6255,8 J 否满足预定条件和 W_J2 [ ^-170, -1 ]中至少部分数据是否满足预定

条件的方式相同，因此仍使用矩阵 R: 、 ⁵'¹ "²⁵⁵'² "' "²⁵⁵ ,将矩阵 V_b，的第 m行与矩阵 R的第 m行的随机数相乘，然后求和得到一个值，具体表示为 s_bm' = v_bm, ' * κ + v_bm,₂ ' * h_m +...+ v_bm^ h_mfi。根据该方法 , 获得、 · - .到 s_bl55 ' ,统计、 s_b2 ..到 s_b255 '中满足特定条件 (这里以大于 0为例）的值的个数 K。由于矩阵 RI 人正态分布，则 _m '与矩阵 R—样，仍然服从正态分布，根据概率论，正态分布随机数大于 0 的概率为 1/2, 在、 ₂'...到 ₂₅₅ '中，每个值大于 0的概率为 1/2,

P(k = n) = C₂ ⁿ ₅₅ (-)" (丄) ²⁵⁵— " = C₂ ⁿ ₅₅ (丄) ²⁵⁵

所以 K满足二项分布： 2⁷ Ύ ²⁵⁵、2^J 。根据统计结果，判断 '、到 ₂₅₅ '的值大于 0的个数 K是否为偶数，二项分布的随机数为偶数的概率为为 1/2, 所以 K以 1/2的概率满足条件。当 K 为偶数时，表明中至少部分数据满足预定条件 C₂; 当 K为奇数时，表明 ^₂[ -170, -1]中至少部分数据不满足预定条件 C₂。同理，判断^ [ -171 , -2]中至少部分数据是否满足预定条件 C₃的方式与判断 W_J3 [ -171, -2]中至少部分数据是否满足预定条件 C₃的方式相同，同理，判断 ^₄[ -172 -3]中至少部分数据是否满足预定条件 C₄、判断

[ -173, -⁴]中至少部分数据是否满足预定条件 C₅、判断 .₆[ -17⁴, -5]中至少部分数据是否满足预定条件 C₆、判断 ^₇[ -175, -6]中至少部分数据是否满足预定条件 C₇、判断 [ - 176, -7]中至少部分数据是否满足预定条件 ₈、判断 .₉[ -177, -8]中至少部分数据是否满足预定条件 C₉、判断 if_l。 [k厂] &,k】 -9]中至少部分数据是否满足预定条件 C_1Q和判断 _β1 [ k_rU9, -10]中至少部分数据是否满足预定条件 Cu, 在此不再赘述。

本实施例中使用随机函数判断窗口 W_iz [k-A_z, k_t + B_z]中至少部分数据是否满足预定条件 C_z, 仍然以图 21所示实施方式为例，根据在去重服务器 103上预设的规则，为潜在分割点确定窗口

k_t], 判断^ [ -169, ]中至少部分数据是否满足预定的条件如图 32所示, ^表示窗口 ^ -169, k_t], 为判断 ]中至少部分数据是否满足预定条件选择 5个字节，图 32中 "國"表示选择的 1个字节，相邻两个选择 "國，，的字节之间相差 42个字节。其中一种实现方式为使用 HASH函数计算选择的 5个字节，使用 HASH函数计算得到的数值是一个固定均匀分布，如果使用 HASH函数计算得到的数值为偶数，则判断 ^[ l69, 中至少部分数据满足预定条件即 (^表示根据上述方式使用 HASH函数计算得到的数值为偶数。因此，

W_a [k l69, ]中至少部分数据是否满足预定条件的概率为 1/2。在图 21所示的实施方式中，使用 Hash函数判断 ₂[ 17( _;-1]中至少部分数据是否满足预定条件 C₂、 [^ -171, -2]中至少部分数据是否满足预定条件、 ^₄[^-172Λ.-3]中至少部分数据是否满足预定条件和 5[t_;-173,t_;-4]中至少部分数据是否满足预定条件 C₅ , 具体实现可参考描述图 21所示实施方式使用 Hash函数判断 ^ [ ki -169, ]中至少部分数据是否满足预定条件的方式在此不再赘述。

当 ^₅ μ_;-173Λ.-4]中至少部分数据不满足预定条件 C₅时，从潜在分割点 ki沿着数据流分割点查找方向跳跃 7个字节，在第 7个字节的结束位置获得当前潜在分割点，如图 22所示，根据为去重服务器 103 预设的规则，为潜在分割点确定窗口^ [ -169, ], 判断窗口^^ [ k厂 169, k_J ]中至少部分数据是否满足预定条件的方式与判断窗口

W_n [ ki -169, k_t ]中至少部分数据是否满足预定条件 C_x的方式相同，因此如图 33所示， ^表示窗口 ^ [ -169, ], 为判断^ [ -169, ]中至少部分数据是否满足预定条件选择 5个字节，图 33中 "國"表示选择的 1个字节，相邻两个选择的字节 "國"之间相差 42个字节。使用 Hash 函数计算从窗口 _l[ -169, ]中选取的 5个字节，如果得到的数值为偶数，则^ [ -169, ]中至少部分数据满足预定条件。图 33中, 判断 ₂ [ k, -1 -1 ]中至少部分数据是否满足预定条件 ₂的方式和判断 ₂ [ - 170, - 1 ]中至少部分数据是否满足预定条件 C₂的方式相同，因此，如图 33所示， " "表示判断窗口 .₂[ -170, -l]中至少部分数据是否满足预定条件 ₂时选择的 1个字节，相邻两个选择的字节

之间相差 42个字节。使用 Hash函数计算选择的 5个字节，如果得到的数值为偶数，则 ^₂ [ -170,^-1]中至少部分数据满足预定条件 C₂。图 33中，判断^ [ -171Λ.-2]中至少部分数据是否满足预定条件 C₃的方式与判断 [ - 171 , k_J -2 ]中至少部分数据是否满足预定条件 C₃的方式相同，因此，如图 33所示，表示判断窗口 ^₃[ -171, -2] 中至少部分数据是否满足预定条件 C₃时选择的 1个字节，相邻两个选择的字节之间相差 42个字节。使用 Hash函数计算选择的 5个字节，得到的数值为偶数，则 [ -171,^-2]中至少部分数据满足预定条件

C₃。图 33中，判断 ^.₄[ -172, -3]中至少部分数据是否满足预定条件

C₄的方式和判断窗口 ^₄[ -172, -3]中至少部分数据是否满足预定条件的方式，因此，如图 33所示， "表示判断窗口 ^.₄[ -172,

-3]中至少部分数据是否满足预定条件 ₄时选择的 1个字节，相邻两个选择的字节" "之间相差 42个字节。使用 Hash函数计算选择的 5个字节，得到的数值为偶数，则 ^₄[ -172, -3]中至少部分数据满足预定条件 C₄。根据上述方法，判断 ^.₅[ -173, -4]中至少部分数据是否满足预定条件 C₅、判断 .₆[ -174, -5]中至少部分数据是否满足预定条件 C₆、判断 ^₇[ -175 -6]中至少部分数据是否满足预定条件 C₇、判断 ^₈ [ -176, -7]中至少部分数据是否满足预定条件 C₈、判断 [ -177, -8]中至少部分数据是否满足预定条件 C₉、判断^。[ -178, -9] 中至少部分数据是否满足预定条件 C₁₀和判断 [ - 179, - 10]中至少部分数据是否满足预定条件 Cu, 在此不再赘述。本实施例中使用随机函数判断窗口 W_iz [k -A_z, k_t + B_z]中至少部分数据是否满足预定条件 C_z, 以图 21所示的实施方式为例，根据在去重服务器 103上预设的规则，为潜在分割点确定窗口^ -169, k_t], 判断^ [ 169, 中至少部分数据是否满足预定条件如图 32所示， ^表示窗口 ^ k_t], 为判断^ -169, 中至少部分数据是否满足预定条件选择 5个字节，图 32中序号为 169、 127、 85、 43和 1的字节 "國"分别表示选择的 1个字节，相邻两个选择的字节之间相差 42个字节。将序号为 169、 127、 85、 43和 1的字节 "■"分别转换成一个十进制数值，分别表示为 α₁ ^ α₂、 ₃、 α₄和 α₅。因为

1个字节由 8位组成，所以每个字节 "國 "作为一个数值，则 _fll、 ₂、 ₃、 α₄和 α₅中的任一个 a_r均满足 0≤ a_r≤255。和《₅组成

1*5的矩阵。从服从二项分布的随机数中选择 256*5个随机数，组成矩

"θ,Ι "0,2

〃 h1,1 〃 h1,2 .

阵 R, 表示为：

、〃 h h ,

255,5 "255,5 * * 255,5 _y

根据 A的值和所在的列，从矩阵 R中查找对应的值，如 =36, a, 位于第 1列，则查找 ¾对应的值；根据的值和所在的列，从矩阵 R 中查找对应的值，如^=48, ^位于第 2列，则查找 /₄₈₂对应的值；根据《₃的值和所在的列，从矩阵 R中查找对应的值，如《₃=26, «₃位于第 3列，则查找¾₃对应的值；根据 ₄的值和所在的列，从矩阵 R中查找对应的值，如 =26, ^位于第 4列，则查找 ¾₄对应的值；根据《₅ 的值和所在的列，从矩阵 R中查找对应的值，如《₅=88, «₅位于第 5 列，则查找½,₅对应的值。 ^{= /}¾^+/V₂ ^+/¾₃ ^+/¾₄ ^+/V₅, 因为矩阵良从二项分布，因此，也服从二项分布。当为偶数，则 ]中至少部分数据满足预定条件当为奇数， W_n [k 69, k_t] 中至少部分数据不满足预定条件 S为偶数的概率为 1/2, 表示按上述方式计算为偶数。在图 21所示实施例中， ^ -169, 中至少部分数据满足预定条件(^。如图 32所示， "^"表示判断窗口 ₂ [ k_t

-170Λ.-1]中至少部分数据是否满足预定条件 C₂时分别选择的 1个字节，在图 32中，分别用序号 170、 128、 86、 44和 2表示, 相邻两个选择的字节之间相差 42个字节。将序号 170、 128、 86、 44和 2的字节 " " 分别转换成一个十进制数值，分别表示为、 b₂、、和。因为

1个字节由 8位组成，所以每个字节"^ "作为一个数值，则、 b₂、 ¾、和中的任一个均满足 0≤ ≤255。 b₂、 b₃、和组成 1*5 的矩阵。本实施方式中，判断 ^口 ^中至少部分数据是否满足预定条件的方式相同，因此仍然使用矩阵 R, 根据的值和所在的列，从矩阵 R中查找对应的值，如 =66, 位于第 1列，则查找 _6>1对应的值；根据的值和所在的列，从矩阵 R中查找对应的值，如 =48, b₂ 位于第 2列，则查找 ₂对应的值；根据¾的值和所在的列，从矩阵 R 中查找对应的值，如6₃=99, ¾位于第 3列，则查找¾,₃对应的值；根据¾的值和所在的列，从矩阵 R中查找对应的值，如 =26, 位于第 4列，则查找 A_2M对应的值；根据的值和所在的列，从矩阵 R中查找对应的值，如 =90, 位于第 5列，则查找 ₅对应的值。 = ^+ Z^+Z^+Z^+Z^，因为矩阵 RI 人二项分布，因此，也服从二项分布。当为偶数，则 ^₂μ_;-170Λ.-1]中至少部分数据满足预定条件 C₂ , 当为奇数，则 ^₂[ -170, -1]中至少部分数据不满足预定条件 C₂ , 为偶数的概率为 1/2。在图 21所示实施例中， ₂[ -170,^-1]中至少部分数据满足预定条件 C₂。使用同样的规则，分别判断^ [ -171, -2]中至少部分数据是否满足预定条件 C₃、判断 ^₄[ 172Λ.-3]中至少部分数据是否满足预定条件 ₄、判断 ₅ -173Λ. -4]中至少部分数据是否满足预定条件 C₅、判断 ₆[ -174Λ.-5]中至少部分数据是否满足预定条件 C₆、判断V_l7 -175Λ. -6]中至少部分数据是否满足预定条件 C₇、判断^ [ -176Λ.-7]中至少部分数据是否满足预定条件 C₈、判断 W_l9 [ 8]中至少部分数据是否满足预定条件 C₉、判断 W_m [k_t -178Λ.-9]中至少部分数据是否满足预定条件 <^。和判断^„[ 179Λ. - 10]中至少部分数据是否满足预定条件 C„。图 21所示的实施方式中， W_l5 [ -173Λ.-4]中至少部分数据不满足预定条件 c₅ , 从潜在分割点沿着数据流分割点查找方向跳跃 7个字节，在第 7个字节的结束位置获得当前潜在分割点，如图 22所示，根据为去重服务器 103预设的规则,为潜在分割点确定窗口^ [ -169, ],判断窗口^ [ -169, ] 中至少部分数据是否满足预定条件的方式与判断窗口 ^ -169Λ. ] 中至少部分数据是否满足预定条件的方式相同，因此如图 33所示， ^表示窗口 ^,[^-169,^], 为判断^ [ -169, ]中至少部分数据是否满足预定条件图 33中序号为 169、 127、 85、 43和 1的字节 "■" 分别表示选择的 1个字节，相邻两个选择的字节之间相差 42个字节。将序号为 169、 127、 85、 43和 1的字节 "國"分别转换成一个十进制数值，分别表示为和《₅'。因为 1个字节由 8位组成，所以每个字节 "國"作为一个数值，则和《₅'中的任一个 α 均满足 0≤ α_Γ'<255ο "₂、，、 '和 "₅'组成 1*5的矩阵。判断窗口 ^ [ - 169, ]中至少部分数据是否满足预定条件的方式与判断窗口 ^ [ - 169,^ ]中至少部分数据是否满足预定条件的方

式相同，因此，仍然使用矩阵 R, 表示为：〃 h1,1 〃 h1,2 . '. Ks

、〃 h255,5 " h255,5 , - ^55,

根据的值和所在的列，从矩阵 R中查找对应的值，如 =16, _Ωι '位于第 1列，则查找对应的值；根据。₂ '的值和所在的列，从矩阵 R中查找对应的值，如 =98, 。₂ '位于第 2列，则查找¾₂对应的值；根据《₃ '的值和所在的列，从矩阵 R中查找对应的值，如 α₃'=56, «₃ '位于第 3列，则查找¾,₃对应的值；根据。₄ '的值和所在的列，从矩阵 R中查找对应的值，如 =36, 。₄ '位于第 4列, 则查找 ¾₄对应的值；根据《₅ '的值和所在的列，从矩阵 R 中查找对应的值，如《₅'=99, «₅'位于第 5列，则查找¾,₅对应的值。 =

+ ,₂+ ₃+ Μ + ¾₉,"因为矩阵 R服从二项分布，因此， '也服从二项分布。当 '为偶数，则 ^,[ -169, ]中至少部分数据满足预定条件当 '为奇数，则^ -^^ ]中至少部分数据不满足预定条件 '为偶数的概率为 1/2。

判断 ₂ [ -170Λ. -1 ]中至少部分数据是否满足预定条件 C₂的方式和判断 [ -170,^-1]中至少部分数据是否满足预定条件 C₂的方式相同，因此，如图 33所示， " "表示判断窗口 ₂[ -170, -l]中至少部分数据是否满足预定条件 ₂时选择的 1个字节，相邻两个选择的字节之间相差 42个字节，分别用序号 170、 128、 86、 44和 2表示，相邻两个选择的字节之间相差 42个字节。将序号 170、 128、 86、 44和 2 的字节" ¾ '，分别转换成一个十进制数值，分别表示为 v、 V、 b₃'、和。因为 1个字节由 8位组成，所以每个字节作为一个数值，贝'】V、 V、、和中的任一个均满足 0≤V≤255。 v、 V、 V、和组成 1*5的矩阵。与判断窗口 ^₂[ 170Λ.-1]中至少部分数据是否满足预定条件使用相同的矩阵 R, 根据 V的值和所在的列，从矩阵 R中查找对应的值，如 ν=210, V位于第 1列，则查找/ ¾。对应的值；根据的值和所在的列，从矩阵 R中查找对应的值，如 =156, 位于第 2列，则查找 ¾₅₆,₂对应的值；根据的值和所在的列，从矩阵 R中查找对应的值，

位于第 3列，则查找 ¾4,₃对应的值；根据的值和所在的列，从矩阵 R中查找对应的值，如 =60, 位于第 4列，则查找 A_6M对应的值；根据的值和所在的列，从矩阵 R 中查找对应的值，如 =90, 位于第 5列，则查找 ¾。,₅对应的值。 S₂，

= l ⁺ ^6,2 + ^44,3 + 4 ⁺^90,5 ' 与的判断条件相同，当 S₂ '为偶数，则 ^₂[ -170, -1]中至少部分数据满足预定条件 C₂, 当 S₂ '为奇数，则 ^₂[ -170, -1]中至少部分数据不满足预定条件 , s₂'为偶数的概率为 1/2。

同理，判断^ [ - 171 , k_t -2 ]中至少部分数据是否满足预定条件 C₃ 的方式与判断V_J3 [k_]-\l\,k_] -2]中至少部分数据是否满足预定条件 C₃ 的方式相同，同理，判断 ₄[ -172, -3]中至少部分数据是否满足预定条件 C₄、判断 ^.₅[ -173, -4]中至少部分数据是否满足预定条件 C₅、判断 ₆[ -174, -5]中至少部分数据是否满足预定条件 C₆、判断

[ -175, -6]中至少部分数据是否满足预定条件 C₇、判断 .₈[ -176, -7]中至少部分数据是否满足预定条件 C₈、判断 ^₉[ -177, -8]中至少部分数据是否满足预定条件 C₉、判断 _jW [^-178,^. -9]中至少部分数据是否满足预定条件 <^和判断^ i [-179, -10]中至少部分数据是否满足预定条件 C_u, 在此不再赘述。

本实施例中使用随机函数判断窗口 W_iz [k -A_z, ^ + Β_ζ]中至少部分数据是否满足预定条件 C_z , 以图 21所示的实施方式为例，根据在去重服务器 103上预设的规则，为潜在分割点确定窗口 ^ [^-169, k_t], 判断^ [ 169, 中至少部分数据是否满足预定的条件如图 32 所示， ^表示窗口^ [ 169, k_t], 为判断 ^ [ t_;-169, ]中至少部分数据是否满足预定条件选择 5个字节，图 32中序号为 169、 127、 85、 43和 1的字节 "國"分别表示选择的 1个字节，相邻两个选择的字节之间相差 42个字节。将序号为 169、 127、 85、 43和 1的字节 "■"分别转换成一个十进制数值，分别表示为 a_l ^ a₂、 a 、 a₄和 ₅。因为 1 个字节由 8位组成，所以每个字节 "國 "作为一个数值，则 _Ωι、 α₂、 ₃、 α₄和 α₅中的任一个 a_s均满足 0≤ a_s≤255。 l^、 CI 2、 X 、 d ^和 ₅组成 1*5 的矩阵。从服从二项分布的随机数中选择 256*5个随机数，组成矩阵 R, 表示为：数中选择 256

个随机

，组成矩阵 G, 表示为: 根据 _Ωι的值和所在的列，如^=36, _Ωι位于第 1列，则从矩阵 R中查找查找 ¾对应的值，从矩阵 G中查找 g_36;1对应的值；根据《₂的值和所在的列，如《₂=48, «₂位于第 2列，则从矩阵 R中查 /₄₈,₂对应的值，从矩阵 G中查找 g_4S,₂对应的值；根据 ₃的值和所在的列，如 ₃=26, ₃ 位于第 3列，则从矩阵 R中查找 ¾,₃对应的值，从矩阵 G中查找 ₆,₃对应的值；根据《₄的值和所在的列，如《₄=26, «₄位于第 4列，则从矩阵 R中查找 ¾₄对应的值，从矩阵 G中查找 g₂₆₄对应的值；根据 ₅的值和所在的列，如^=88, ₅位于第 5列，则从矩阵 R中查找 /¾,₅对应的值，从矩阵 G中查找 g₈₈,₅对应的值。 S_h = h₃₆, + ₂ + + ^26,4 + /½,₅ ,因为矩阵从二项分布，因此，也服从二项分布; =g₃₆,₁+g_4S,₂+g₂₆,₃ + g₂₆,₄ + 5, 因为矩阵 G月良从二项分布，因此也月良从二项分布。当 _1¾和中有 1个为偶数， M W_n[k l69, ]中至少部分数据满足预定条件当 S_1¾和 _g均为奇数，则 ^ -169, 中至少部分数据不满足预定条件表述按照上述方法获得的和 _g中有 1个为偶数。因为和均服从二项分布，因此 _1¾为偶数的概率为 1/2, _g为偶数的概率为 1/2, _1¾和中有 1个为偶数的概率为 1-1/4=3/4, 因此，

]中至少部分数据满足预定条件 (^的概率为 3/4。在图 21所示实施例中，中至少部分数据满足预定条件。在图 21所示的实施方式中，在^ | _;-169Λ·]、 W_i2[k_rl70,k_rl], W_i3[k_rl7l,k_r2], W_i4 | _;-172, -3]、 W_i5[k_rl73,k_r4], W_i6[k_rl74,k_r5], W_n[k \l 5,^-6]. _Ά μ_; -176,^-7]、 W_i9[k_r\ll ,k_r^ ^。μ_;-178Λ·-9]和 W_m[k_i-\19,k_i-\0'\ 中，各窗口大小相同，即窗口大小均为 169字节，同时判断窗口中至少部分数据是否满足预定条件的方式也相同，具体见上述判断 [k_t -169Λ.]中至少部分数据是否满足预定条件 (^的描述。因此，如图 32 所示， "^"表示判断窗口 ^₂μ_;-170Λ.-1]中至少部分数据是否满足预定条件 C₂时分别选择的 1个字节，在图 32中，分别用序号 170、 128、 86、 44和 2表示，相邻两个选择的字节之间相差 42个字节。将序号 170、 128、 86、 44和 2的字节 "^"分别转换成一个十进制数值，分别表示为、、、和。因为 1个字节由 8位组成，所以每个字节 "^" 作为一个数值，则 _όι、 _bi、 _b、和中的任一个均满足 0≤ ≤255。！^、 b₂、 ¾、和组成 1*5的矩阵。本实施方式中，判断各窗口中至少部分数据是否满足预定条件的方式相同，因此仍然使用相同矩阵 R

位于第 1列, 则从矩阵 R 中查找对应的值，从矩阵 G中查找 g₆₆₁对应的值；根据的值和所在的列，如 =48, 位于第 2列，则从矩阵 R中查找 ₄₈,₂对应的值，从矩阵 G中查找 g_4S,₂对应的值；根据的值和所在的列，如6₃=99, ¾位于第 3列，则从矩阵 R中查找 ¾,₃对应的值，从矩阵 G中查找 ₉,₃对应的值；根据 ¾的值和所在的列，如¾=26, ¾位于第 4列，则从矩阵 R 中查找 ¾,₄对应的值，从矩阵 G中查找 _g26,₄对应的值；根据的值和所在的列，如 =90, 位于第 5列，则从矩阵 R中查找 ¾。,₅对应的值，从矩阵 G中查找 g_9Q,₅对应的值。 = ½,₂+ h₉ ,+ h_26A + / ₅,因为矩阵 R 服从二项分布，因此，也服从二项分布。 ^+g^+g^+g +g₉。₅, 因为矩阵 G服从二项分布，因此， S_2g也服从二项分布。当和中有 1个为偶数，则 ^₂[ -170Λ.-1]中至少部分数据满足预定条件 C₂, 当和均为奇数，则^ [ -170Λ.-1]中至少部分数据不满足预定条件 C₂, _¾和中有 1个为偶数的概率为 3/4。在图 21所示实施例中， ^₂[ 170Λ.-1]中至少部分数据满足预定条件 C₂。使用同样的规则，分别判断 W,₃ [ -171Λ.-2]中至少部分数据是否满足预定条件 C₃、判断 ^₄[^-172,^-3]中至少部分数据是否满足预定条件 C₄、判断 ^[^-173,^-4]中至少部分数据是否满足预定条件 C₅、判断^ ₆[ -174Λ.-5]中至少部分数据是否满足预定条件 C₆、判断^ ₇μ_;-175Λ·-6] 中至少部分数据是否满足预定条件 C₇、判断^ ₈ [ - 176, k_t -7]中至少部分数据是否满足预定条件 C₈、判断^ [ -177Λ.-8]中至少部分数据是否满足预定条件、判断 ^。 [ -178Λ.-9]中至少部分数据是否满足预定条件 C_1Q和判断 ^„ [ k, -179, -10]中至少部分数据是否满足预定条件 Cu。图 21所示的实施方式中， ₅[ t_;-173, t_;-4]中至少部分数据不满足预定条件 C₅ , 从潜在分割点沿着数据流分割点查找方向跳跃 7个字节，在第 7个字节的结束位置获得当前潜在分割点 kj ,如图 22所示，根据为去重服务器 103预设的规则，为潜在分割点确定窗口 W [k_J -169, ], 判断窗口^ [ -169, ]中至少部分数据是否满足预定条件的方式与判断窗口 ^ ₁ [ k_t -169, ]中至少部分数据是否满足预定条件(^的方式相同，因此如图 33所示， ^表示窗口^ [ -169, ], 为判断 ^[ -169, ]中至少部分数据是否满足预定条件 ,图 33中序号为 169、 127、 85、 43和 1的字节 "國"分别表示选择的 1个字节, 相邻两个选择的字节之间相差 42个字节。将序号为 169、 127、 85、 43和 1 的字节 "國"分别转换成一个十进制数值，分别表示为 '、 ₂'、、 4 '和 '。因为 1个字节由 8位组成，所以每个字节 "國 "作为一个数值，贝' 、 α₂' , β₃'、 α₄ '和 ₅'中的任一个均满足 0≤β ≤255。 α 、 α₂' , 3'、 ₄ '和组成 1*5的矩阵。使用与判断窗口^ ^-169,^]中至少部分数据是否满足预定条件相同的矩阵 R和 G, 分别表示为：

5 J

根据的值和所在的列，如" =16, 位于第 1列, 则从矩阵 R中查找 ¾对应的值，从矩阵 G中查找 g₁₆对应的值；根据《₂ '的值和所在的列，如 =98, ₂ '位于第 2列，则从矩阵 R中查找 ₉₈,₂对应的值，从矩阵 G中查找 g_9S,₂对应的值；根据《₃ '的值和所在的列，如《₃'=56, 位于第 3列，则从矩阵 R中查找对应的值，从矩阵 G中查找 g₅₆,₃对应的值；根据 ₄ '的值和所在的列，如 =36, ₄ '位于第 4列，则从矩阵 R 中查找 ₄对应的值，从矩阵 G中查找 _g364对应的值；根据《₅ '的值和所在的列，如《₅' =99, «₅ '位于第 5列，则从矩阵 R中查找 /¾₉,₅对应的值，从矩阵 G中查找 _g99,₅对应的值。 ¾/ = ¾,₁+ ¾₈,₂ ^{+ /}¾₃ ^+/¾₆,₄ ^+/¼₅，因为矩阵 RI良从二项分布，因此，也服从二项分布； ^^^^^+^^十 g₅₆,₃+g₃₆,₄ + ,₅,因为矩阵 G服从二项分布，因此 '也服从二项分布。当 _A '和 '中有 1个为偶数，则^ [ -169, ]中至少部分数据满足预定条件当 '和 _g，均为奇数，则^ [ -169, ]中至少部分数据不满足预定条件 , _A '和 _g '有 1个为偶数的概率为 3/4。

判断 ₂ [ -170,^ -1 ]中至少部分数据是否满足预定条件 C₂的方式和判断 [ -170,^-1]中至少部分数据是否满足预定条件 C₂的方式相同，因此，如图 33所示， "^"表示判断窗口 ^₂[ -170, -1]中至少部分数据是否满足预定条件 ₂时选择的 1个字节，相邻两个选择的字节之间相差 42个字节。在图 33中，分别用序号 170、 128、 86、 44 和 2表示，相邻两个选择的字节之间相差 42个字节。将序号 170、 128、 86、 44和 2的字节 " "分别转换成一个十进制数值，分别表示为、、 V、和 V。因为 1个字节由 8位组成，所以每个字节 " "作为一个数值，则、 V、 V、 V和中的任一个均满足 0≤V≤255。

V、、 V、和组成 1*5的矩阵。使用与判断窗口 ^₂ [ -170, -1 ]中至少部分数据是否满足预定条件 ₂相同的矩阵 R和 G, 根据 b '的值和所在的列，如 =210, 位于第 1列，则从矩阵 R中查找 /^^对应的值，从矩阵 G中查找。对应的值；根据的值和所在的列，如 V=156, 位于第 2列，则从矩阵 R中查找 ½,₂对应的值，从矩阵 G中查找 g₁₅₆,₂对应的值；根据的值和所在的列，如 =144, 位于第 ³ 列，则从矩阵 R中查找 /¾₄₄,₃对应的值，从矩阵 G中查找 g₁₄₄,₃对应的值；根据的值和所在的列，如 V=60, 位于第 4列，则从矩阵 R中查找 ₆。,₄对应的值，从矩阵 G中查找 g₆。,₄对应的值；根据的值和所在的歹 |J, 如 =90, 位于第 5列，则从矩阵 R中查找 ¾。,₅对应的值，从矩阵 G中查找 _g9Q,₅对应的值。 S = h₂ + h + + Λ_60;4 + h₉₀,₅ , S₂ = g_2W, + g₁₅₆,₂+g₁₄4,₃+g₆。,₄+g₉。,₅。当 > 和 · 中有 1个为偶数，则^ [ ¹⁷⁰, -1]中至少部分数据满足预定条件 C₂,当 '和 _g '均为奇数，则 ^.₂[

-170,^-1]中至少部分数据不满足预定条件 C₂, 和 '中有 1个为偶数的概率为 3/4。

同理，判断^ [ - 171 , k_t -2 ]中至少部分数据是否满足预定条件 C₃ 的方式与判断V_J3 [k_]-\l\,k_] -2]中至少部分数据是否满足预定条件 C₃ 的方式相同，同理，判断 .₄[ -172, -3]中至少部分数据是否满足预定条件 C₄、判断 ^.₅[ -173, -4]中至少部分数据是否满足预定条件 C₅、判断 ₆[ -174, -5]中至少部分数据是否满足预定条件 C₆、判断

[ -175, -6]中至少部分数据是否满足预定条件 C₇、判断 .₈[ -176, -7]中至少部分数据是否满足预定条件 C₈、判断 ^₉[ -177, -8]中至少部分数据是否满足预定条件 C₉、判断 W_jW [^-178,^. -9]中至少部分数据是否满足预定条件 <^和判断^ i [-179, -10]中至少部分数据是否满足预定条件 C_u , 在此不再赘述。

本实施例中使用随机函数判断窗口 W_iz [k-A_z, k_t + B_z]中至少部分数据是否满足预定条件 C_z, 以图 21所示的实施方式为例，根据在去重服务器 103上预设的规则，为潜在分割点确定窗口^ [ -169, k_t], 判断^ [ -169, 中至少部分数据是否满足预定的条件如图 32 所示， ^表示窗口^ k_t], 为判断 -169, ]中至少部分数据是否满足预定条件选择 5个字节，图 32中序号为 169、 127、 85、 43和 1的字节 "國"分别表示选择的 1个字节，相邻两个选择的字节之间相差 42个字节。将序号为 169、 127、 85、 43和 1的字节 "■"依次看成 40个位，分别表示为

«₄。中的任一 A , 当 Α=0时， V_at =-1, 当 ,=1时， V_at=L 根据 ^与^ 对应关系，生成、 V_a2、 V_a3、 V_a4... V_{a40 o} 从服从正态分布的随机数中选择 40个随机数，分别表示为： h₂、 H S =v_a^h_x + 。₂* + *^+ 。₄* + ...+ 。₄。* 。。因为 h₂、 …/^服从正态分布，因此， S。也服从正态分布。当为正数，则^ k_t] 中至少部分数据满足预定条件当为负数或 0, 则^ k_t] 中至少部分数据不满足预定条件为正数的概率为 1/2。在图 21 所示实施例中，中至少部分数据满足预定条件。如图 32所示表示判断窗口 W_l2[k_r\10, -1]中至少部分数据是否满足预定条件 C₂时分别选择的 1个字节，在图 32中，分别用序号 170、 128、

86、 44和 2表示，相邻两个选择的字节之间相差 42个字节。将序号 170、 128、 86、 44和 2的字节 "^"依次看成 40个位，分别表示为、 b₂、 ¾、 b₂、 ¾、中的任一，当 =0时， V_bt=-\ , 当^ = 1 时， V_b=i, 根据与对应关系，生成^、 V_bl、 V_b3 , V_b4... V_{b40 o} 判断窗口 ^[^-169, 中至少部分数据是否满足预定条件的方式与判断窗口 ^₂[ -170, 中至少部分数据是否满足预定条件的方式相同，因此，使用相同的随机数： , /¾、 h₃, .,.Η^ , S_b = V_bl

+^^/^+^ +…+^。⁵¹⁵/^。。因为/ / h₂, /¾、 A₄...//₄。月良从正态分布，因此，也服从正态分布。当为正数，则^ [ -170, -1]中至少部分数据满足预定条件 C₂,当为负数或 0,则 W_l2[k_rl70, -1]中至少部分数据不满足预定条件 C₂, 为正数的概率为 1/2。在图 21所示实施例中， ^₂[ -170, -1]中至少部分数据满足预定条件 C₂。使用同样的规则，分别判断^ [ -171Λ.-2]中至少部分数据是否满足预定条件 C₃、判断 ^₄[ 172Λ.-3]中至少部分数据是否满足预定条件 C₄、判断 ^₅[ 173Λ.-4]中至少部分数据是否满足预定条件 C₅、判断 [ -174Λ.-5]中至少部分数据是否满足预定条件 C₆、判断 W„ [ k_t -115,1, -6]中至少部分数据是否满足预定条件 C₇、判断 _Ά [ k_t -176, k_t -7]中至少部分数据是否满足预定条件 C₈、判断^ [ -177Λ.-8]中至少部分数据是否满足预定条件 C₉、判断^。 [ -178Λ.-9]中至少部分数据是否满足预定条件 C₁₀和判断 ^„ [ k_t -179, -10]中至少部分数据是否满足预定条件 C_u。图 21所示的实施方式中， ^₅μ_;-173Λ·-4]中至少部分数据不满足预定条件 ,从潜在分割点沿着数据流分割点查找方向跳跃 7个字节，在第 7个字节的结束位置获得当前潜在分割点，如图 22所示，根据为去重服务器 103预设的规则，为潜在分割点确定窗口 [ -169, ],判断窗口^ [ -169, ]中至少部分数据是否满足预定条件的方式与判断窗口^ i [ k_t -169, ]中至少部分数据是否满足预定条件的方式相同，因此如图 33所示， ^表示窗口

^], 为判断 ^,[ -169, ]中至少部分数据是否满足预定条件选择 5个字节，图 33中序号为 169、 127、 85、 43和 1的字节 "國"分别表示选择的 1个字节，相邻两个选择的字节之间相差 42个字节。将序号为 169、 127、 85、 43和 1的字节 "國"依次看成 40个位，分别表示为、 α₂，、 <¾'、 ₄' ... "₄₀'。、 α₂，、 <¾'、 ₄' ... "₄₀'中 0 任 ' a , 当 " =0 时， v_at' =-i, 当 =1时， ^'=1, 根据 _Ω /与 '对应关系，生成 '、 2'、 ₃'、 ν_α4 ..ν_α40 判断窗口^ [ i69, ]中至少部分数据是否满足预定条件的方式与判断窗口 ^ ₁ μ_; - 169 Λ. ]中至少部分数据是否满足预定条件(^的方式相同，因此使用相同的随机数： h_x. h₂、 h₃, ..h₄₀。 ^：^^+^^ +^ ^+^^ +…+^ 。因为 h₂、 h₃, A₄...//₄。服从正态分布，因此，也服从正态分布。当《为正数，则^ [ -169 ]中至少部分数据满足预定条件当为负数或 0, 则 ^[ -169, ]中至少部分数据不满足预定条件为正数的概率为 1/2。

判断 ₂ [ _ki -1 -1 ]中至少部分数据是否满足预定条件 C₂的方式和判断 [ -170,^-1]中至少部分数据是否满足预定条件 C₂的方式相同，因此，如图 33所示， "^"表示判断窗口 ^₂[ -170, -1]中至少部分数据是否满足预定条件 ₂时选择的 1个字节，相邻两个选择的字节之间相差 42个字节。在图 33中，分别用序号 170、 128、 86、 44 和 2表示，相邻两个选择的字节之间相差 42个字节。将序号 170、 128、 86、 44和 2的字节 "^"依次看成 40个位，分别表示为、 V、、 V... 。'。、 V、、。'中的任一 V，当 =0时， '=-1, 当 = l 时， V_b =1,根据与 '对应关系，生成 '、 V_b2 V_b3'、 V_b4 .. V_b40 判断^ [ 170 Λ. - 1 ]中至少部分数据是否满足预定条件 C₂的方式和判断 ^₂ [ - 170, - 1 ]中至少部分数据是否满足预定条件 ₂的方式相同，因此，使用相同的随机数：、 h₂, /¾、 h₄...h₄₀ , S^V.^h.+ v^ 承^+^^ + ^^^ +…+^^。 /^。。因为/ / /¾、 h₃, .. 月良从正态分布，因此，《也服从正态分布。当《为正数，则 ₂[ -170, -l] 中至少部分数据满足预定条件 C₂, 当《为负数或 0, 则 ^₂[ -170, -1]中至少部分数据不满足预定条件 C₂, ^为正数的概率为 1/2。

同理，判断^ μ_; -171 , k, -2]中至少部分数据是否满足预定条件 C₃的方式与判断 ^₃ [ - 171 , -2 ]中至少部分数据是否满足预定条件 C₃的方式相同，同理，判断 ^₄[ -172, -3]中至少部分数据是否满足预定条件、判断 [ -173, -4]中至少部分数据是否满足预定条件 C₅、判断 ^₆[ -174, -5]中至少部分数据是否满足预定条件 C₆、判断 W_J7 [ ^-175,^. -6]中至少部分数据是否满足预定条件 C₇、判断 W_JS [ k_J -176,^-7]中至少部分数据是否满足预定条件 C₈、判断 ^₉[ -177, -8] 中至少部分数据是否满足预定条件 C₉、判断^。 [ - 178 , k -9]中至少部分数据是否满足预定条件 C₁₀和判断 [ k厂] 9, -10]中至少部分数据是否满足预定条件 Cu , 在此不再赘述。

本实施例中使用随机函数判断窗口 W_iz [k -A_z, k_t + B_z]中至少部分数据是否满足预定条件 C_z, 仍然以图 21所示实施方式为例，根据在去重服务器 103上预设的规则，为潜在分割点确定窗口

k_t], 判断^ [ -169, ]中至少部分数据是否满足预定的条件如图 32所示, ^表示窗口 ^ [ -169, k_t], 为判断^ ]中至少部分数据是否满足预定条件 C 选择 5个字节，图 32中序号为 169、 127、 85、 43和 1的字节 "國"分别表示选择的 1个字节，相邻两个选择的字节之间相差 42个字节。将序号为 169、 127、 85、 43和 1的字节 "■" 转换成 1个十进制数，范围为 0- (2Μ0-1 ) , 使用均匀分布随机数生成器为 0-(2^Λ40-1 )中的每一个十进制数生成 1个指定值，记录 0-( 2 0-1 ) 中的每一个十进制数与指定值之间的对应关系 R, —旦指定则该十进制数对应的指定值就不变，该指定值服从均匀分布，如果该指定值为偶数， M W_a[k_r\69, 中至少部分数据满足预定条件如果该指定值为奇数， w_n[k_rl69, ]中至少部分数据不满足预定条件 C_x 表示按照上述方法获得的指定值为偶数。因为均匀分布的随机数为偶数的概率为 1/2,因此， ^, [ t_;-169, ]中至少部分数据满足预定条件(^ 的概率为 1/2。在图 21所示的实施方式中，使用同样的规则，分别判断^ [ -170Λ.-1]中至少部分数据是否满足预定条件 C₂, 判断 ^[ -171Λ.-2]中至少部分数据是否满足预定条件 C₃、判断

中至少部分数据是否满足预定条件 C₄、判断^ -173Λ.-4]中至少部分数据是否满足预定条件 C₅, 在此不再赘述。

当 ₅[t_;-173,t_;-4]中至少部分数据不满足预定条件 C₅, 从潜在分割点 ki沿着数据流分割点查找方向跳跃 7个字节，在第 7个字节的结束位置获得当前潜在分割点，如图 22所示，根据为去重服务器 103预设的规则，为潜在分割点确定窗口^ [ -169, ], 判断窗口 J . - 169, ]中至少部分数据是否满足预定条件的方式与判断窗口 ^ i

中至少部分数据是否满足预定条件的方式相同，因此，使用相同的 0- ( 2 0-1 ) 中的每一个十进制数与指定值之间的对应关系 R, 如图 33所示，表示窗口，为判断 ^[ -169, ]中至少部分数据是否满足预定条件选择 5个字节，图 33中 "國"表示选择的 1 个字节，相邻两个选择的字节 "國"之间相差 42个字节。将序号为 169、

127、 85、 43和 1的字节 "國"转换成 1个十进制数，在 R查找该十进制数对应的指定值，如果该指定值为偶数，则^^ [ -169, ]中至少部分数据满足预定条件如果该指定值为奇数，则 ^,[ -169, ]中至少部分数据不满足预定条件，因为均匀分布的随机数为偶数的概率为 1/2, 因此， ^[ -169, ]中至少部分数据满足预定条件 (^的概率为

1/2。同理，判断^ ₂[ -170, -1]中至少部分数据是否满足预定条件 c₂ 的方式和判断 [ -170,^-1]中至少部分数据是否满足预定条件 C₂ 的方式相同，判断^ [ -171 , k_t -2]中至少部分数据是否满足预定条件 C₃的方式与判断 ^₃ [ - 171 , -2 ]中至少部分数据是否满足预定条件 C₃的方式相同，同理，判断 ^₄[ -172, -3]中至少部分数据是否满足预定条件、判断 [ -173, -4]中至少部分数据是否满足预定条件 C₅、判断 ^₆[ -174, -5]中至少部分数据是否满足预定条件 C₆、判断 W_J7 [ ^-175,^. -6]中至少部分数据是否满足预定条件 C₇、判断 W_JS [ k_J -176,^-7]中至少部分数据是否满足预定条件 C₈、判断 ^₉[ -177, -8] 中至少部分数据是否满足预定条件 C₉、判断^。 [ - 178 , k -9]中至少部分数据是否满足预定条件 C₁₀和判断 [ k厂] 9, -10]中至少部分数据是否满足预定条件 Cu , 在此不再赘述。

图 1所示的本发明实施例中的去重服务器 103 ,是指能够实现本发明实施例所描述的技术方案的装置，如图 18所示，通常包括中央处理单元、主存储器以及输入输出接口。中央处理单元、主存储器与输入输出接口之间相互通信，主存储器存储可执行指令，中央处理单元执行主存储器中存储的可执行指令，从而执行特定的功能，使去重服务器 103具备特定功能，如本发明实施例图 20至图 33所描述的查找数据流分割点。因此，如图 19所示，根据 20至图 33所示的本发明实施例，去重服务器 103, 在去重服务器 103上预设有规则，所述规则为：为潜在分割点 k石定 M个窗口 ^ [ 4， k+B_x]和窗口 - 4， k+ B_x]对应的预定条件 C_x，其中， X为 1到 M连续的自然数， M > 2 , 4和 ^为整数；

去重服务器 103包括确定单元 1901和判断处理单元 1902。其中，确定单元 1901用于执行步骤 a) ： a)依据所述规则为当前潜在分割点确定对应的窗口^ [k_t - Α_ζ , k_t+B_z], i和 z为整数，并且 l≤z≤M;

判断处理单元 1902，用于判断所述窗口 W_iz ik -A_z, ki+ B_z]中至少部分数据是否满足预定条件 c_z；

当所述窗口 W_iz [k -A_z, Ι _Ζ\中至少部分数据不满足所述预定条件(^ , 从所述当前潜在分割点沿所述数据流分割点查找方向跳跃 Ν 个数据流分割点最小查找单位 U, N*U不大于 II B_z II + max_x ( II II ) , 获得新的潜在分割点，则所述确定单元 1901为所述新的潜在分割点执行步骤 a) ；

当所述当前潜在分割点 k,的 M个窗口中的每一个窗口 W_ix [ k, - A_x， k, + B_x]中至少部分数据满足预定条件 C_x,则所述当前潜在分割点为数据流分割点。

进一步地，所述规则还包括：至少两个窗口 WiH ki + B^ W_if [ki-A ki+B l, 满足条件： \A +B_e\=\A_f +

。进一步地，所述规则还包括： ^和为正整数。进一步地，所述规则还包括： A_e -\ = A_f , B_e+l = B_f 。

进一步地，判断处理单元 1902具体用于使用随机函数判断窗口 w_iz [ - _z Λ· + s_z ]中至少部分数据是否满足预定条件 c_z。更进一步地 , 判断处理单元 1902具体使用 hash函数判断窗口 W_iz [ k_t - _z , + S_z ]中至少部分数据是否满足预定条件。

进一步地，判断处理单元 O²用于当所述窗口 W_iz ik -A_z, k^B 中至少部分数据不满足所述预定条件，从所述当前潜在分割点沿所述数据流分割点查找方向跳跃 N个数据流分割点最 d、查找单位 U ,获得所述新的潜在分割点，所述确定单元 1901为所述新的潜在分割点执行步骤 a ) ,根据所述规则，为所述新的潜在分割点确定的窗口 W_fc [k, -4, k, + ^]的左边界与所述窗口 W_iz [k -A_z, + S_z]的右边界重合或者为所述新的潜在分割点确定的所述窗口 W_;t [ k,. - A_c , k_t+B_c ]的左边界位于所述窗口 ^ [^_4， ^+ ]范围之内；其中，为所述新的潜在分割点确定的所述窗口 W,Jk,-4,k, + ]是根据所述规则，为所述新的潜在分割点确定的 M个窗口按照数据流查找方向获得的序列中排序第一的窗口。

进一步地，判断处理单元 1902使用随机函数判断所述窗口 W_iz [k_t _A_z, k Bj中至少部分数据是否满足所述预定条件 C_z, 具体包括：在所述窗口 W_iz ik -A_z, ki+B_z 中选择 F个字节，将所述 F个字节反复利用 H次，共获得 F*H个字节，其中每个字节由 8位组成，记为 L.. a_{m 8} , 表示所述 F*H个字节中第 m个字节的第 1到第 8位，所述 F*H个字 αι,ι ^ai,2 .

节对应的位可以表示为： ^a2,l , 当。 =1时，

aF ,2 . " ^aF , j

=1, 当" 时， _m -1，其中" ^„表示中的任一个，所述 F*H个字节对应的位按照 a_mn与 V_am„的转换关系得到矩阵 ,所述矩阵

^表示为： , 从服务正态分布的随机数中选

择 F*H*8个随机数组成矩阵 R, 所述矩阵 R表示为:

，将所述矩阵 V_a的第 m行与所述矩阵 R的第 m行

的随机数相乘，然后求和得到一个值，具体表示为 + " 2+...+ V_am^h_mfi, 同理，获得 S_al、 s_a2.. s_aF,_H, 统计 S_a2... 到8。 ^中满足大于 0的值的个数 K, 当 Κ为偶数，则所述窗口 W_iz [k -A_z, k_t + B_z]中至少部分数据满足所述预定条件 C_z。根据 20至图 33所示的本发明实施例提供的基于服务器查找数据流分割点的方法中，为潜在分割点确定窗口 [ -A_x, k_t+B_x], 其中， x分别为 1到 M连续的自然数， M≥2, 可以并行判断 M个窗口中每一个窗口中至少部分数据是否满足预定条件 C_x ,或者依次判断窗口中至少部分数据是否满足预定条件，也可以依次窗口^ i [_ki-_Al , ^ + Β,], 中至少部分数据满足预定条件(^时，再判断 ^₂[ - ₂ , ,+ β₂]中至少部分数据满足预定条件 C₂时，直到判断^_∞ [k A_m , + 中至少部分数据满足预定条件 C_m。实施例中其他窗口的判断与此相同，不再赘述。

另外，根据 20至图 33所示的本发明实施例，在去重服务器 103上预设有规则，所述规则：为潜在分割点 k确定 M个窗口 ^ [k- 4 , k + S_x ] 和窗口 ^ [ k - 4 , k + S_x ]对应的预定条件 C_x , χ分别为 1到 Μ连续的自然数， Μ≥2,在该预设规则中， 4、 4、 4... Λ可以不全部相等， Α、 B₂、可以不全部相等，（^、 C₂、 C₃... C_M也可以不全部相同。在图 21所示的实施方式中, 在 ^ -169, ]、 ·₂| ,·-170Λ-1]、 W_i3 [k_t -17ΐΛ-2]、 W_i4[k_rl72,k_r3]. ₅ | ,-173, -4]、 W_i6[k_rl74,k_r5]. W_n [^.-175,^.-6], ₈| ,-176, -7]、 W_i9[k_rl77,k_rS], W_m[k_rl7S,k_r9]^ „ [ - 179Λ-10]中,各窗口大小相同，即窗口大小均为 169字节，同时判断窗口中至少部分数据是否满足预定条件的方式也相同，具体见上述判断 _n [k, -169,k, ]中至少部分数据是否满足预定条件的描述，但在图 11所示的实施方式中， ^,[^,-169, ]、 W_i2[k_r170, k,-l], W_i3 [k_t -171, k_r2], W_i4[k_rni, k_r3], W_i5[k_rm, k_r4], w_i6[k_rn4, k_r5]. W_n[k_r\15, k_r6], W_m[k_r\76, k_r7], W_i9[k_r\77, k_rS], W_m[k_r\6S, +1]和^ +3]窗口大小可以不相同，同时判断窗口中至少部分数据是否满足预定条件的方式也可以不相同。在所有实施例中，根据为去重服务器 103预设的规则，判断窗口 W 中至少部分数据是否满足预定条件的方式与判断窗口 ^中至少部分数据是否满足预定条件的方式必然相同，判断^中至少部分数据是否满足预定条件 C₂的方式与判断中至少部分数据是否满足预定条件 C₂的方式必然相同…判断窗口 W_lM中至少部分数据是否满足预定条件 C_M的方式与判断窗口 _Μ中至少部分数据是否满足预定条件 C_M的方式必然相同。在此不再赘述。

根据 20至图 33所示的本发明实施例，在去重服务器 103上预设有规则， k_a、 k,、 k 和为沿着数据流分割点查找方向查找分割点时获得的潜在分割点， k_a、 k,、、和都依据该规则。本发明实施例中的窗口 [k-^,k+^]表示一个特定范围，在该特定范围选择数据以判断这些数据是否满足预定条件 C_x ,具体地，可以在该特定范围内选择部分数据，也可以选择全部数据以判断这些数据是否满足预定条件 C_x。本发明实施例中具体使用的窗口概念可参照窗口 [k- , k+5_x], 在此不再赘述。

窗口 [k-4, k + ]中，（ k-4 )和（ k + ）表示该窗口 ^[k- 4, k+ ]的两个边界，其中 (k- )表示窗口 04,k+sj相对于潜在分割点 k位于数据流分割点查找反方向的边界，（ k + ^ )表示窗口 ^[k-4,k+^]相对于潜在分割点 k位于数据流分割点查找方向的边界。具体地，在本发明实施例中，在图 20至图 33所示的数据流分割点查找方向为从左向右，则其中（k-4 )表示窗口 [k-^,k + Β_χ ]相对于潜在分割点 k位于数据流分割点查找反方向的边界（即左边界），（k + )表示窗口 [k-4, k+ ]相对于潜在分割点 k位于数据流分割点查找方向的边界（即右边界）。如果在图 20至图 33所示的数据流分割点查找方向为从右向左，则其中（k-4 )表示窗口 [k-4, k+Sj相对于潜在分割点 k位于数据流分割点查找反方向的边界（即右边界），（k + )表示窗口 O 4, k+ ]相对于潜在分割点于数据流分割点查找方向的边界（即左边界）。

本领域普通技术人员可以意识到，结合本发明实施例图 20至图 33 描述的各示例的单元及算法步骤，本发明实施例的关键特征可以与其他技术相结合，以更为复杂的形式呈现，但仍会包含本发明的关键特征。在真实环境中可能使用备用分割点，例如一种实施方式为，根据为去重服务器 103预设的规则，为潜在分割点确定 11个窗口 [k-4, k+Sj及窗口 ^[1^-4,1^+^]对应的预定条件(₁, X为 1到 11连续的自然数，当 11个窗口中每一个窗口 [k-4,k+ ]中至少部分数据均满足预定条件则潜在分割点为数据流分割点，当超过设定的最大数据块时，仍未查找到分割点，这时可能使用备用预设规则，备用的预设规则与在去重服务器 103上预设的规则类似，备用的预设规则为：例如为潜在分割点确定 10个窗口 ^ [k- 4 , k + ^ ]及窗口 W_x [k- 4 , k + ^]对应的预定条件 X为 1到 10连续的自然数，确定当 10个窗口中每一个窗口 [k-4,k+ ]中至少部分数据均满足预定条件则潜在分割点为数据流分割点，当超过设定的最大数据块时，仍未查找到数据流分割点时，从最大数据块的结束位置作为强制分割点。

根据 20至图 33所示的本发明实施例，在去重服务器 103上预设有规则，所述规则中为潜在分割点 k确定 M个窗口，并不一定要求先有一个潜在分割点 k, 可以通过确定的 M个窗口来判断潜在分割点 k。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业

功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在提供的几个实施例中，应该理解到，所公开的系统、方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取非易失性存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个非易失性存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的非易失性存储介质包括： U盘、移动硬盘、只读存储器（ Read-Only Memory, ROM ) 、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

权利要求

1、一种基于服务器查找数据流分割点的方法，其特征在于：在所述服务器上预设有规则，所述规则为：为潜在分割点 k确定 M 个点 ?_x、点 ? _x†应的窗口 ^ [ ?_Χ_4， +SJ和窗口 _x [P_X-4， p_x ^+B 对应的预定条件 C_x , 其中， X为 1到 M连续的自然数， M>2, 4和为整数；

所述方法包括：

a)依据所述规则为当前潜在分割点确定点及所述点对应的窗口^ [ρ_;ζ_ ^， + S_Z] , i和 z为整数， iLKz M;

b) 判断所述窗口 -^， Ρ_ιζ ⁺ Β_ζ]中至少部分数据是否满足预定条件 C_z;

当所述窗口^ -^， ρ_ιζ + Β_ζ]中至少部分数据不满足所述预定条件 C_z , 从所述点 _Plz沿所述数据流分割点查找方向跳跃 N个数据流分割点最小查找单位 U, N*U不大于 II B_z II +max ( II A_x II + II (k p II ), 获得新的潜在分割点，执行步骤 a)；

c)当所述当前潜在分割点的 M个窗口中的每一个窗口 W_ix [ _Pix-

Α_χ, ρ_ιχ + Β_χ]中至少部分数据满足预定条件 C_x,则所述当前潜在分割点为数据流分割点。

2、根据权利要求 1所述的方法，其特征在于，所述规则还包括：至少两个点和，满足条件 _e = ， B_e=B_f , C_e = C_f 。

3、根据权利要求 2所述的方法，其特征在于，所述规则还包括：所述至少两个点 _Pe和 _Pf，相对于所述潜在分割点 k ,在所述数据流分割点查找反方向上。

4、根据权利要求 2或 3所述的方法，其特征在于，所述规则还包括：所述至少两个点 ^和之间的距离为 1个 u。

5、根据权利要求 1至 4任一所述的方法，其特征在于，判断所述窗口 ―^， P,_Z ⁺B 中至少部分数据是否满足所述预定条件 C_z, 具体包括：

使用随机函数判断所述窗口^ [P,_Z -^， _Pl +B_z]中至少部分数据是否满足所述预定条件 C_z。

6、根据权利要求 5所述的方法，其特征在于，所述使用随机函数判断所述窗口 ^[ -^， _Ρι +Β_ζ]中至少部分数据是否满足所述预定条件 C_z , 具体为使用 hash函数判断所述窗口 W_iz [ _Piz-A_z， _Ρι +Β_ζ ]中至少部分数据是否满足所述预定条件 C_z。

7、根据权利要求 1至 6任一所述的方法，其特征在于，当所述窗口 [Ρ,_Ζ-^,Ρ,_ζ+^]中至少部分数据不满足所述预定条件 C_Z, 从所述点沿所述数据流分割点查找方向跳跃 N个数据流分割点最小查找单位 U, 获得所述新的潜在分割点，根据所述规则，为所述新的潜在分割点确定的点 _Pic对应的窗口 [ _Α._ε -4 , A +^ ]的左边界与所述窗口 [ _Pi2 - 4 , _Pi2 + S_z ]的右边界重合或者为所述新的潜在分割点确定的所述点 p_ic对应的所述窗口 W_;£ [ p_ic - A_c , _Pic + ]的左边界位于所述窗口

^[A_Z-^,A_Z ⁺S_Z]范围之内；其中，为所述新的潜在分割点确定的所述点是根据所述规则，为所述新的潜在分割点确定的 M个点按照数据流查找方向获得的序列中排序第一的点。

8、根据权利要求 5所述的方法，其特征在于，使用随机函数判断所述窗口 W_iz [ p_iz-A_z, p_iz+B_z]中至少部分数据是否满足所述预定条件 C_z, 具体包括：

^表示为： , 从服务正态分布的随机数中选

择 F*H*8个随机数组成矩阵 R, 所述矩阵 R表示为:

，将所述矩阵 V_a的第 m行与所述矩阵 R的第 m行

的随机数相乘，然后求和得到一个值，具体表示为 + * 2+...+ * ₈，同理，获得 S。！、 s_a2.. s_aF,_H, 统计 S_a2... 到8。 ^中满足大于 0的值的个数 K,当 K为偶数，则所述窗口 W_iz [ ρ_ίζ-Α_ζ, _Pi +B_z]中至少部分数据满足所述预定条件 C_z。

9、一种基于服务器查找数据流分割点的方法，其特征在于，在所述服务器上预设有规则，所述规则为：为潜在分割点 k确定 M 个窗口 ^ ik-A_x, + 和窗口 ik-A_x, + ]对应的预定条件(^ , 其中， X为 1到 M连续的自然数， M>2, 4和^为整数；

所述方法包括：

a)依据所述规则为当前潜在分割点 k_t确定对应的窗口^ [ k_t - A_z， k_t+B_z] , i和 z为整数， iLKz M;

b)判断所述窗口^ [k_rA_z, k_t+B_z]中至少部分数据是否满足预定条件 C_z;

当所述窗口^ [k ~A_z, k_t+B_z]中至少部分数据不满足所述预定条件 C_z，从所述当前潜在分割点沿所述数据流分割点查找方向跳跃 N个数据流分割点最小查找单位 U, N*U不大于 II B_z II +max ( II 4 II ) , 获得新的潜在分割点，执行步骤 a) ； c)当所述当前潜在分割点的 M个窗口中的每一个窗口 W_ix [ k_t - A_x， k_t+B_x]中至少部分数据满足预定条件则所述当前潜在分割点为数据流分割点。

10、根据权利要求 9所述的方法，其特征在于，所述规则还包括：至少两个窗口 W_ie [k ~A_e, ki+B_e 与 W_if [ k_t - A_f , k B_f ,满足条件： \A_e +S_e|=| + C_e = C_f 。

11、根据权利要求 10所述的方法，其特征在于，所述规则还包括：

A和为正整数。

12、根据权利要求 10或 11所述的方法，其特征在于，所述规则还包括： A_e-l=A_f , +1 = β,。

13、根据权利要求 9至 12任一所述的方法，其特征在于，判断所述窗口^ ik -A_z, k_t+B_z]中至少部分数据是否满足所述预定条件 C_z, 具体包括：

使用随机函数判断所述窗口^ [k -A_z, k^B 中至少部分数据是否满足所述预定条件 C_z。

14、根据权利要求 13所述的方法，其特征在于，所述使用随机函数判断所述^ [k -A_z, k_t+B_z]中至少部分数据是否满足所述预定条件 C_z, 具体为使用 hash函数判断所述^ [k ~A_z, k_t+B_z]中至少部分数据是否满足所述预定条件 C_z。

15、根据权利要求 9至 14任一所述的方法，其特征在于，当所述窗口 W_iz ik -A_z, k_t+B_z]中至少部分数据不满足所述预定条件 C_z,从所述当前潜在分割点沿所述数据流分割点查找方向跳跃 N个数据流分割点最小查找单位 U, 获得所述新的潜在分割点，根据所述规则，为所述新的潜在分割点确定的窗口 W_;£ [ k, - 4 , k, + ^ ]的左边界与所述窗口 ik -A_z, k_t+ B_z]的右边界重合或者为所述新的潜在分割点确定的所述窗口 W,Jk_;-4,k_; + ^]的左边界位于所述窗口^ [^~Α_Ζ, ^ + Β_Ζ\ 范围之内；其中，为所述新的潜在分割点确定的所述窗口 W_fc [ k_; - A_c , k_; + ]是根据所述规则，为所述新的潜在分割点确定的 M个窗口按照数据流查找方向获得的序列中排序第一的窗口。

16、根据权利要求 13所述的方法，其特征在于，使用随机函数判断所述窗口 W_iz [k -A_z, k_t+B_z]中至少部分数据是否满足所述预定条件 c_z, 具体包括：

在所述窗口 W_iz [k ~A_z, k_t+B_z]中选择 F个字节，将所述 F个字节反复利用 H次，共获得 F*H个字节，其中每个字节由 8位组成，记为

=1, 当" 时， _m -1，其中" ^„表示中的任一个，所述 F*H个字节对应的位按照与 V_am„的转换关系得到矩阵 ,所述矩阵 ^表示为： , 从服务正态分布的随机数中选

择 F*H*8个随机数组成矩阵 R, 所述矩阵 R表示为:

Λ₀ ... h

，将所述矩阵 V_a的第 m行与所述矩阵 R的第 m行的随机数相乘，然后求和得到一个值，具体表示为 =^ * + ^ "K,2+.-.+ V_am^h_m^ 同理，获得 S_al、 s_a2.. s_aF , 统计 S_a2... 到8。 ^中满足大于 0的值的个数 K, 当 Κ为偶数，则所述窗口 W_iz [k -A_z, + Bj中至少部分数据满足所述预定条件 C_z。

17、一种用于查找数据流分割点的服务器，其特征在于，所述服务器包括中央处理单元和主存储器，所述中央处理单元与所述主存储器通信，在所述服务器上预设有规则，所述规则为：为潜在分割点确定 M个点 p_x、点对应的窗口 JV_x [ p_x-A_x, p_x + B_x]和窗口 JV_x [ p_x-A_x, + ]对应的预定条件(^ ,其中， X为 1到 M连续的自然数， M> 2, 4 和^为整数；

a)依据所述规则为当前潜在分割点 ^确定点及所述点对应的窗口^ [ρ_;ζ -^， ρ_;ζ + _ζ] , i和 ζ为整数， iLKz M;

b) 判断所述窗口 fV_iz [_P,_z_A_z, _Pi +B_z]中至少部分数据是否满足预定条件 C_z;

当所述窗口^ -^， p_IZ + B_z]中至少部分数据不满足所述预定条件 C_z，从所述点 ρ_ιζ沿所述数据流分割点查找方向跳跃 N个数据流分割点最小查找单位 U, N*U不大于 II Β_ζ II +max ( II A_x II + II (k_{r Pix} ) II ), 获得新的潜在分割点，执行步骤 a)；

c)当所述当前潜在分割点 k_t的 M个窗口中的每一个窗口 w_ix [ p_a—

A_x , p_a + B_x ]中至少部分数据满足预定条件 C_x ,则所述当前潜在分割点为数据流分割点。

18、根据权利要求 17所述服务器，其特征在于，所述规则还包括：至少两个点和，满足条件^ = ， B_e =B_f , C_e = C_f 。

19、根据权利要求 18所述服务器，其特征在于，所述规则还包括：所述至少两个点 p_e和 p_f , 相对于所述潜在分割 ,在所述数据流分割点查找反方向上。

20、根据权利要求 18或 19所述的服务器，其特征在于，所述规则还包括：所述至少两个点 _Pe和 _Pf之间的距离为 1个 U。

21、根据权利要求 17至 20任一所述的服务器，其特征在于，所述中央处理单元具体用于使用随机函数判断所述窗口^ [ -^， _Pl + B_z ]中至少部分数据是否满足所述预定条件 C_z。

22、根据权利要求 21所述的服务器，其特征在于，所述中央处理单元具体用于使用 ha s h函数判断所述窗口^ [_Az - ^， _Αζ + _ζ ]中至少部分数据是否满足所述预定条件 C_z。

23、根据权利要求 17至 22任一所述的服务器，其特征在于，当所述窗口^ [_Az-4, A_Z+S_z ]中至少部分数据不满足所述预定条件 C_z , 从所述点 ρ 沿所述数据流分割点查找方向跳跃 Ν个数据流分割点最小查找单位 U, 获得所述新的潜在分割点，根据所述规则，为所述新的潜在分割点确定的点 _Pic对应的窗口 W_;t [ _Pic - A_c , _Pic +B_c ]的左边界与所述窗口 [ - 4 , Ρ + S_z ]的右边界重合或者为所述新的潜在分割点确定的所述点 p_ic对应的所述窗口 W_;e [ _Pic - A_c , _Pic + ]的左边界位于所述窗口^ + 范围之内；其中，为所述新的潜在分割点确定的所述点 p_ic是根据所述规则，为所述新的潜在分割点确定的 M个点按照数据流查找方向获得的序列中排序第一的点。

24、根据权利要求 21所述的服务器，其特征在于，所述中央处理单元使用随机函数判断所述窗口 W_iz [ ρ_ίζ-Α_ζ, _Piz+B_z]中至少部分数据是否满足所述预定条件 C_z, 具体包括：

在所述窗口 W_iz [ _Pi2-A_z, _Pi2+B_z]中选择 F个字节，将所述 F个字节反复利用 H次，共获得 F*H个字节，其中每个字节由 8位组成，记为。_ml ... a_m8, 表示所述 F*H个字节中第 m个字节的第 1到第 8位，所述 F*H个字节对应的位可以表示为： , 当 a =1时，

^表示为： , 从服务正态分布的随机数中选

择 F*H*8个随机数组成矩阵 R, 所述矩阵 R表示为:

* ₈, 同理，获得 S。！、 s_a2.. s_aF,_H, 统计 S_a2... 到8。 ^中满足大于 0的值的个数 K,当 K为偶数，则所述窗口 W_iz [ _Piz-A_z, p_iz+B_z]中至少部分数据满足所述预定条件 C_z。

25、一种用于查找数据流分割点的服务器，其特征在于，所述服务器包括中央处理单元和主存储器，所述中央处理单元与所述主存储器通信，在所述服务器上预设有规则，所述规则为：为潜在分割点 έ 确定 Μ个窗口 ^ [/t_4，和窗口 _4，对应的预定条件 C_x, 其中， X为 1到 M连续的自然数， M>2, 4和^为整数；所述主存储器用于存储可执行指令，所述中央处理单元执行所述可执行指令，以执行以下步骤：

a)依据所述规则为当前潜在分割点确定对应的窗口 W_iz [ - A_z， k_t+B_z] , i和 ζ为整数， iLKz M;

b)判断所述窗口^ [k -A_z, k_t+B_z]中至少部分数据是否满足预定条件 C_z;

当所述窗口^ [k ~A_z, k_t+B_z]中至少部分数据不满足所述预定条件<^ , 从所述当前潜在分割点沿所述数据流分割点查找方向跳跃 N 个数据流分割点最小查找单位 U, N*U不大于 II B_z II +max ( II ^ II ) , 获得新的潜在分割点，执行步骤 a) ；

C)当所述当前潜在分割点 ^的 M个窗口中的每一个窗口 fV_ix [ - A_x， k_t+B_x]中至少部分数据满足预定条件则所述当前潜在分割点为数据流分割点。

26、根据权利要求 25所述的服务器，其特征在于，所述规则还包括：至少两个窗口^ ， + 与， ^+β,] ,满足条件： \A +B_e\=\A_f + B_f\, C_e = C_f 。

27、根据权利要求 26所述的服务器，其特征在于，为所述服务器预设规则，所述规则还包括： 4和为正整数。

28、根据权利要求 26或 27所述的服务器，其特征在于，所述规则还包括： A_e-l = A_f , B_e+]=B_f 。

29、根据权利要求 25至 28任一所述的服务器，其特征在于，所述中央处理单元具体用于使用随机函数判断所述窗口 [k -A_z, ki+Bz 中至少部分数据是否满足所述预定条件 C_z。

30、根据权利要求 29所述的服务器，其特征在于，所述中央处理单元具体用于使用 hash函数判断所述窗口^ [k -A_z, ki+B_z 中至少部分数据是否满足所述预定条件 C_z。

31、根据权利要求 25至 30任一所述的服务器，其特征在于，当所述窗口 W_iz ik -A_z, k.+ B 中至少部分数据不满足所述预定条件 C_z,从所述当前潜在分割沿所述数据流分割点查找方向跳跃 N个数据流分割点最小查找单位 U, 获得所述新的潜在分割点，根据所述规则，为所述新的潜在分割点确定的窗口 _ic [ k, - A_c , k, + ]的左边界与所述窗口 _Wiz [k -A_z, k_t+B_z]的右边界重合或者为所述新的潜在分割点确定的所述窗口 W,J 1^.-^,1^ + ]的左边界位于所述窗口^ [ki_A_z, ki + ]范围之内；其中，为所述新的潜在分割点确定的所述窗口 W,Jk,- A_c, _i + B_c ]是根据所述规则，为所述新的潜在分割点确定的 M个窗口按照数据流查找方向获得的序列中排序第一的窗口。

32、根据权利要求 29所述的服务器，其特征在于，所述中央处理单元使用随机函数判断所述窗口 W_iz [k -A_z, Ι _Ζ\中至少部分数据是否满足所述预定条件 C_z, 具体包括：

在所述窗口 W_iz [k -A_z, k^B 中选择 F个字节，将所述 F个字节反复利用 H次，共获得 F*H个字节，其中每个字节由 8位组成，记为 .. a_m8 , 表示所述 F*H个字节中第 m个字节的第 1到第 8位，所述 F*H个字节对应的位可以表示为： , ⁷ 当。 m,n =1时 ^， ⁷ v am,n

^表示为： , 从服务正态分布的随机数中选

择 F*H*8个随机数组成矩阵 R, 所述矩阵 R表示为:

，将所述矩阵 V_a的第 m行与所述矩阵 R的第 m行

33、一种用于查找数据流分割点的服务器，其特征在于，在所述服务器上预设有规则，所述规则为：为潜在分割点 /1确定 M个点 ?_x、点 ?对应的窗口 W_x [ _x-A_x, + SJ和窗口 fV_x [ p_x— A_x, ρ_χ + _χ]对应的预定条件 C_x, 其中， X为 1到 M连续的自然数， M>2, 4和为整数；所述服务器包括:确定单元，用于执行步骤 a) : a)依据所述规则为当前潜在分割点确定点及所述点对应的窗口^ [ - ^， + B_z] , i和 z为整数， iLKz M;

判断处理单元，用于判断所述窗口^ [_Az -^， + β_ζ]中至少部分数据是否满足预定条件 C_z；当所述窗口^ [ρ_ΙΖ-Λ_ζ, ρ_ιζ + Β_ζ]中至少部分数据不满足所述预定条件 C_z , 从所述点 p_lz沿所述数据流分割点查找方向跳跃 N个数据流分割点最小查找单位 U, N*U不大于 II B_z II +max ( II A_x II + II (k _Pix) II ), 获得新的潜在分割点 ,则所述确定单元为所述新的潜在分割点执行步骤 a)；

当所述当前潜在分割点的 M个窗口中的每一个窗口 W_ix [ _PlI-A_x，

_Pa + B_x]中至少部分数据满足预定条件 C_x, 则所述当前潜在分割点为数据流分割点。

34、根据权利要求 33所述的服务器，其特征在于，所述规则还包括：至少两个点和，满足条件 = ， B_e=B_f , C_e = C_f 。

35、根据权利要求 34所述的服务器，其特征在于，所述规则还包括：所述至少两个点和，相对于所述潜在分割点 /1，在所述数据流分割点查找反方向上。

36、根据权利要求 34或 35所述的服务器，其特征在于，所述规则还包括：所述至少两个点 _Pe和 _Pf之间的距离为 1个 U。

37、根据权利要求 33至 36任一所述的服务器，其特征在于，所述判断处理单元具体用于使用随机函数判断所述窗口^ [_Az -^， _Ρι + B_z]中至少部分数据是否满足所述预定条件 C_z。

38、根据权利要求 37所述的服务器，其特征在于，所述判断处理单元具体用于使用 hash函数判断所述窗口^ [_Az -^， _ζ + _ζ]中至少部分数据是否满足所述预定条件 C_z。

39、根据权利要求 33至 38任一所述的服务器，其特征在于，所述判断处理单元用于当所述窗口 W_iz[Piz-A_z,Pi_Z+B_z ]中至少部分数据不满足所述预定条件，从所述点 _Piz沿所述数据流分割点查找方向跳跃 N 个数据流分割点最小查找单位 U, 获得所述新的潜在分割点，所述确定单元为所述新的潜在分割点执行步骤 a) ，根据所述规则，为所述新的潜在分割点确定的点 p_ic对应的窗口 W_;t [ p_ic - A_c , p_ic +B_c ]的左边界与所述窗口^ [ -^, p_iz + S_z ]的右边界重合或者为所述新的潜在分割点确定的所述窗口 λ\ [_Αε-4,_Αε+Α]的左边界位于所述窗口^ [p,_z- ^， + S_Z]范围之内；其中，为所述新的潜在分割点确定的所述窗口 W_ie [ _Pic - A_c , p_ic + B_c ]是根据所述规则 , 为所述新的潜在分割点确定的 M 个点按照数据流查找方向获得的序列中排序第一的点。

40、根据权利要求 37所述的服务器，其特征在于，所述判断处理单元具体用于使用随机函数判断所述窗口 W_iz [ p_iz-A_z, _Pi + B_z]中至少部分数据是否满足所述预定条件 C_z , 具体包括：

在所述窗口 W_iz [ p_iz-A_z, _Pi +B_z]中选择 F个字节，将所述 F个字节反复利用 H次，共获得 F*H个字节，其中每个字节由 8位组成，记为 ^... a_m8, 表示所述 F*H个字节中第 m个字节的第 1到第 8位，所述 F*H个字节对应的位可以表示为： , ' 当。 m,n =1时 ^， ' am,n

=1, 当" 时， _m -1，其中" ^„表示中的任一个，所述 F*H个字节对应的位按照。_m„与 V 的转换关系得到矩阵 ,所述矩阵

^表示为： , 从服务正态分布的随机数中选

择 F*H*8个随机数组成矩阵 R, 所述矩阵 R表示为:

* 2+...+ * ₈, 同理，获得 s_al、 s_a2.. s_aF , 统计 s_a2... 到8。 ^中满足大于 0的值的个数 K,当 Κ为偶数，则所述窗口 W_iz [ p_iz-A_z, _Pi +B_z]中至少部分数据满足所述预定条件 C_z。

41、一种用于查找数据流分割点的服务器，其特征在于，在所述服务器上预设有规则，所述规则为：为潜在分割点 /1确定 M个窗口 ^ [k

_4， + 和窗口 ^ [ -4， + ]对应的预定条件 C_x, 其中， X为 1 到 M连续的自然数， M>2, 4和为整数；

所述服务器包括:确定单元，用于执行步骤 a ) ：

判断处理单元，用于判断所述窗口^ [k -A_z, k^B_z]中至少部分数据是否满足预定条件 C_z；

当所述窗口^ [k ~A_z, k^B 中至少部分数据不满足所述预定条件(^ , 从所述当前潜在分割点沿所述数据流分割点查找方向跳跃 N 个数据流分割点最小查找单位 U, N*U不大于 II B_z II +max ( II 4 U ) , 获得新的潜在分割点 ,则所述确定单元为所述新的潜在分割点执行步骤 a) ；

当所述当前潜在分割点的 M个窗口中的每一个窗口 W_ix [ - A_x， k_t + B_x ]中至少部分数据满足预定条件 C_x，则所述当前潜在分割点为数据流分割点。

42、根据权利要求 41所述的服务器，其特征在于，所述规则还包括：至少两个窗口^ ， + 与， ^+β,] ,满足条件： | + |=| + |, C_e = c_f 。

43、根据权利要求 42所述的服务器，其特征在于，所述规则还包括： A和为正整数。

44、根据权利要求 42或 43所述的服务器，其特征在于，所述规则还包括： A_e-\ = A_f , B_e+ =B_f 。

45、根据权利要求 41至 44任一所述的服务器，其特征在于，所述判断处理单元具体用于

使用随机函数判断所述窗口^ [k -A_z, k_t+B_z]中至少部分数据是否满足所述预定条件 C_z。

46、根据权利要求 45所述的服务器，其特征在于，所述判断处理单元具体使用 hash函数判断所述窗口^ [k_rA_z, k_{+B_z]中至少部分数据是否满足所述预定条件 C_z。

47、根据权利要求 41至 46任一所述的服务器，其特征在于，所述判断处理单元用于当所述窗口 [k -A_z, Ι _Ζ\中至少部分数据不满足所述预定条件 C_z，从所述当前潜在分割点沿所述数据流分割点查找方向跳跃 N个数据流分割点最 '〗、查找单位 U ,获得所述新的潜在分割点，所述确定单元为所述新的潜在分割点执行步骤 a) , 根据所述规则，为所述新的潜在分割点确定的窗口 W,Jk,-^,k,+A]的左边界与所述窗口 W_iz ik -A_z, k_t+B_z]的右边界重合或者为所述新的潜在分割点确定的所述窗口 W_ie [ k,. - A_c , k_; +S_c ]的左边界位于所述窗口 W_iz [ k, - ^， + S_z ]范围之内；其中，为所述新的潜在分割点确定的所述窗口 W_ie [ k, - A_c , k, + B_c ]是根据所述规则，为所述新的潜在分割点确定的 M 个窗口按照数据流查找方向获得的序列中排序第一的窗口。

48、根据权利要求 46所述的服务器，其特征在于，所述判断处理单元使用随机函数判断所述窗口 W_iz [k -A_z, ^+Β_ζ]中至少部分数据是否满足所述预定条件 C_z, 具体包括：在所述窗口 _iz ik -A_z, k^B 中选择 F个字节，将所述 F个字节反复利用 H次，共获得 F*H个字节，其中每个字节由 8位组成，记为 .. a_m&, 表示所述 F*H个字节中第 m个字节的第 1到第 8位，所述 F*H个字 αι,ι ^ai,2 . ·. ^1,8

节对应的位可以表示为： ^a2,l ^2,2 .

, ' 当。 m n =i时 ^， ' v am,n aF ,2 . " ^aF , j

=1, 当 „=0时， ,„=-1, 其中 „表示中的任一个，所述 F*H个字节对应的位按照 „与 V 的转换关系得到矩阵 ,所述矩阵

^表示为： , 从服务正态分布的随机数中选

择 F*H*8个随机数组成矩阵 R, 所述矩阵 R表示为:

，将所述矩阵 V_a的第 m行与所述矩阵 R的第 m行

的随机数相乘，然后求和得到一个值，具体表示为 + * ₂+...+ * ₈, 同理，获得 s_al、 s_a2.. s_aF,_H, 统计 S_a2... 到8。 ^中满足大于 0的值的个数 K, 当 Κ为偶数，则所述窗口 W_iz [k -A_z, k^B 中至少部分数据满足所述预定条件 C_z。

49、一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储可执行指令，服务器执行所述可执行指令以查找数据流分割点，在所述服务器上预设有规则，所述规则为：为潜在分割点确定 M个点 p_x、点对应的窗口 JV_X [ p_x—A_x, p + B 和窗口 JV_X [ p - A_x, p_x+B_x]对应的预定条件 C_x ,其中, x为 1到 Μ连续的自然数， Μ > 2 , ^和^为整数；

当所述服务器执行所述可执行指令，以执行以下步骤：

a)依据所述规则为当前潜在分割点 k_t确定 _Piz及 _Piz对应的窗口^ [p_iz~^A^ P_iz ^{+ B} ^ i和 z为整数， iLKz M;

b) 判断所述窗口 [ -^， Ρ_ιζ ⁺ Β_ζ]中至少部分数据是否满足预定条件 C_z;

当所述窗口^ [ρ_ΙΖ-Λ_ζ, ρ_ιζ + Β_ζ]中至少部分数据不满足所述预定条件 C_z，从所述点 ρ_ιζ沿所述数据流分割点查找方向跳跃 N个数据流分割点最小查找单位 U, N*U不大于 II B_z II +max ( II A_x II + II {k p_ix) II ), 获得新的潜在分割点，执行步骤 a)；

C)当所述当前潜在分割点 k_t的 M个窗口中的每一个窗口 W_ix [ p_a -

50、根据权利要求 49所述的计算机可读存储介质，其特征在于，所述规则还包括：至少两个点和，满足条件 = ， B_e=B_f , C_e

= C>。

51、根据权利要求 50所述的计算机可读存储介质，其特征在于，所述规则还包括：所述至少两个点 A和，相对于所述潜在分割点 /1，在所述数据流分割点查找反方向上。

52、根据权利要求 50或 51所述的计算机可读存储介质，其特征在于，所述规则还包括：所述至少两个点 ^和^之间的距离为 1个 U。

53、根据权利要求 49至 52任一所述的计算机可读存储介质，其特征在于，所述服务器判断所述窗口 [ ρ_ιζ-Α_ζ, +β_ζ]中至少部分数据是否满足所述预定条件 C_z, 具体包括：所述服务器使用随机函数判断所述窗口^ [_Plz-A_z, _Az + S_z]中至少部分数据是否满足所述预定条件 C_z。

54、根据权利要求 53所述的计算机可读存储介质，其特征在于，所述服务器使用随机函数判断所述窗口^ [_Az -^， + S_Z]中至少部分数据是否满足所述预定条件 C_z , 具体包括：

所述服务器使用 hash函数判断所述窗口^ [_Plz-A_z, _Az + S_z]中至少部分数据是否满足所述预定条件 C_z。

55、根据权利要求 49至 54任一所述的计算机可读存储介质，其特征在于，当所述窗口^ [ -^, + ]中至少部分数据不满足所述预定条件 C_z,从所述点沿所述数据流分割点查找方向跳跃 N个数据流分割点最小查找单位 U, 获得所述新的潜在分割点，根据所述规则，为所述新的潜在分割点确定的点 _Pic对应的窗口 [ _Pic - A_c , _Pic + ]的左边界与所述窗口^ [ ^ - 4 , P,_z + S_z ]的右边界重合或者为所述新的潜在分割点确定的所述点 p_ic对应的所述窗口 W_;£ [ p_ic - A_c , p_ic + ^ ]的左边界位于所述窗口 ^[ -^, + S_z]范围之内；其中，为所述新的潜在分割点确定的所述点 ^是根据所述规则，为所述新的潜在分割点确定的 M个点按照数据流查找方向获得的序列中排序第一的点。

56、根据权利要求 53所述的计算机可读存储介质，其特征在于，使用随机函数判断所述窗口 W_iz [ _Piz-A_z, _Pi +B_z]中至少部分数据是否满足所述预定条件 C_z, 具体包括：

在所述窗口 W_iz [ ρ_ίζ-Α_ζ, ρ_ίζ+Β_ζ]中选择 F个字节，将所述 F个字节反复利用 H次，共获得 F*H个字节，其中每个字节由 8位组成，记为 ... a_m&, 表示所述 F*H个字节中第 m个字节的第 1到第 8位，所述 F*H个字节对应的位可以表示为： , ⁷ 当。 m,n =1时 ^， ⁷ v am,n

^表示为： , 从服务正态分布的随机数中选

择 F*H*8个随机数组成矩阵 R, 所述矩阵 R表示为:

，将所述矩阵 V_a的第 m行与所述矩阵 R的第 m行

的随机数相乘，然后求和得到一个值，具体表示为

* ₂+...+ * ₈, 同理，获得 s_al、 s_a2.. s_aF,_H, 统计 S_a2... 到8。 ^中满足大于 0的值的个数 K,当 Κ为偶数，则所述窗口 W_iz [ ρ_ίζ-Α_ζ, p_iz+B_z]中至少部分数据满足所述预定条件 C_z。

57、一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储可执行指令，服务器执行所述可执行指令以查找数据流分割点，在所述服务器上预设有规则，所述规则为：为潜在分割点确定 M个窗口 [ _4，和窗口 ^ _4， ]对应的预定条件 C_x , 其中， X为 1到 M连续的自然数， M>2, 4和^为整数；当所述服务器执行所述可执行指令，以执行以下步骤：

a)依据所述规则为当前潜在分割点确定对应的窗口 W_iz [ k_t - A_z， k_t+B_z] , i和 ζ为整数， iLKz M;

b)判断所述窗口^ [k ~A_z, k_t+B_z]中至少部分数据是否满足预定条件 c_z;

当所述窗口^ [k ~A_z, k_t+B_z]中至少部分数据不满足所述预定条件 , 从所述当前潜在分割点沿所述数据流分割点查找方向跳跃 N 个数据流分割点最小查找单位 U, N*U不大于 II B_z II +max ( II _x II ) , 获得新的潜在分割点，执行步骤 a) ；

C)当所述当前潜在分割点的 M个窗口中的每一个窗口 W_ix [ k_t - A_x， k_t+B_x]中至少部分数据满足预定条件则所述当前潜在分割点为数据流分割点。

58、根据权利要求 57所述的计算机可读存储介质，其特征在于，所述规则还包括：至少两个窗口^ [k ~A_e, ki+B^与 W_if [k ~A k_{ + B_f] , 满足条件： 14 + |=| + β, I, C_e = C_f 。

59、根据权利要求 58所述的计算机可读存储介质，其特征在于，所述规则还包括： Λ和为正整数。

60、根据权利要求 58或 59所述的计算机可读存储介质，其特征在于，所述规则还包括： 4-1= ， +1=β,。

61、根据权利要求 57至 60任一所述的计算机可读存储介质，其特征在于，

所述服务器判断所述窗口^ [k -A_z, +β_ζ]中至少部分数据是否满足所述预定条件 C_z, 具体包括：

使用随机函数判断所述窗口^ [k ~A_z, k^B 中至少部分数据是否满足所述预定条件 C_z。

62、根据权利要求 61所述的计算机可读存储介质，其特征在于，所述服务器使用随机函数判断所述窗口^ [ - _z， . + β_ζ]中至少部分数据是否满足所述预定条件 C_z，具体为所述服务器使用 hash函数判断所述窗口^ ik -A_z, k_t+B_z]中至少部分数据是否满足所述预定条件 C_z。

63、根据权利要求 57至 62任一所述的计算机可读存储介质，其特征在于，当所述窗口 W_iz ik -A_z, k^B 中至少部分数据不满足所述预定条件 C_z，从所述当前潜在分割点沿所述数据流分割点查找方向跳跃 N个数据流分割点最小查找单位 U, 获得所述新的潜在分割点，根据所述规则，为所述新的潜在分割点确定的窗口 W,Jk,-4,k,+^]的左边界与所述窗口 _Wiz [k~A_z, ki+B_z 的右边界重合或者为所述新的潜在分割点确定的所述窗口 W_;£ [ k_; - A_c , k_; + ]的左边界位于所述窗口 W_iz [ - 4， + S_z ]范围之内；其中，为所述新的潜在分割点确定的所述窗口 Wjk,-4,k,+^]是根据所述规则，为所述新的潜在分割点确定的 M个窗口按照数据流查找方向获得的序列中排序第一的窗口。

64、根据权利要求 61所述的计算机可读存储介质，其特征在于，使用随机函数判断所述窗口 ik-A_z, k_t+B_z]中至少部分数据是否满足所述预定条件 C_z, 具体包括：

在所述窗口 W_iz ik -A₂, k_t+B_z]中选择 F个字节，将所述 F个字节反复利用 H次，共获得 F*H个字节，其中每个字节由 8位组成，记为 a_{m &} , 表示所述 F*H个字节中第 m个字节的第 1到第 8位，所述 F*H个字节对应的位可以表示为： , 当 a =1时，

择 F*H*8个随机数组成矩阵 R, 所述矩阵 R表示为:

，将所述矩阵 V_a的第 m行与所述矩阵 R的第 m行

的随机数相乘，然后求和得到一个值，具体表示为 =^ * + ^ "K,2+. - .+ V_am^h_m^ 同理，获得 S_al、 s_a2.. s_aF , 统计 S_a2... 到8。 ^中满足大于 0的值的个数 K, 当 Κ为偶数，则所述窗口 W_iz [k -A_z, ki + Bj中至少部分数据满足所述预定条件 C_z。