WO2017113123A1

WO2017113123A1 - 重复数据删除方法及存储设备

Info

Publication number: WO2017113123A1
Application number: PCT/CN2015/099572
Authority: WO
Inventors: 张宗全; 张程伟
Original assignee: 华为技术有限公司
Priority date: 2015-12-29
Filing date: 2015-12-29
Publication date: 2017-07-06
Also published as: US20180267896A1; CN107430602B; JP2018514045A; SG11201707075SA; EP3264285A4; KR20170117572A; CN107430602A; JP6537214B2; EP3264285A1; KR102082765B1; US10613976B2

Abstract

此处公开了存储设备执行重复数据删除的方案。在本方案中，根据重复数据局部性原理，将逻辑地址连续的非重复数据块按照逻辑地址顺序存储到连续的物理地址中，将逻辑地址连续的非重复数据块的指纹按照逻辑地址顺序也存储到连续的物理地址中，同时建立逻辑地址连续的非重复数据块中的一个逻辑地址到到聚合地址的映射。

Description

重复数据删除方法及存储设备

技术领域

本发明涉及信息技术领域,特别涉及一种重复数据删除方法及存储设备。

背景技术

随着信息技术地发展，需要存储的数据量急速增加。为缓解无限增长的数据量与相对有限的存储空间之间的矛盾，引入了重复数据删除技术。

重复数据删除技术在具体实现中，主要包括以下步骤：

步骤1、存储设备将同一个数据流划分成数据块，具体可以使用定长分块或变长分块算法。

步骤2、存储设备计算数据块的指纹，指纹也称为特征值。

步骤3、存储设备将数据块的指纹与存储设备已经存储的唯一数据块(也称为非重复数据块)的指纹比较，如果数据块的指纹与存储设备已经存储的唯一数据块的指纹相同，则执行步骤4；如果数据块的指纹与存储设备已经存储的唯一数据块的指纹都不相同，则执行步骤5。

步骤4：存储设备不再存储该数据块，将存储设备已经存储的与该数据块具有相同指纹的数据块的引用计数加1，并执行步骤6。

步骤5：存储设备将该数据块作为唯一数据块按照数据块的逻辑地址(logical address,LA)的顺序依次存储到存储设备的数据容器(container)的物理地址(physical address,PA)中，将该数据块的指纹的元数据按照数据块逻辑地址的顺序依次存储到存储设备的指纹容器的物理地址中，生成该指纹的元数据的地址标识，建立指纹的元数据的地址标识与指纹的元数据的映射，执行步骤6。其中，数据块的指纹的元数据包括该数据块的指纹与存储该数据块的物理地址。指纹的元数据的地址标识可以为存储指纹的元数据的物理地址本身。另一种实现，指纹的元数据的地址标识也可以为唯一标识该指纹的元数据的逻辑标识，具体存储设备可以为唯一的数据块对应的指纹的元数据分配一个全局唯一标识，并且逻辑地址连续的多个唯一数据块的指纹的元数据的地址标识线性递增。建立指纹的元数据的地址标识与指纹的元数据的映射，以方便后续重复数据删除操作中加载指纹的元数据进行指纹查询。

步骤6：存储设备建立该数据块的逻辑地址与指纹的映射，建立指纹与存储该唯一数据块的物理地址的映射。在具有重复数据删除功能的存储设备中，不仅要通过逻辑地址能够访问到存储设备存储的唯一的数据块，还需要确定当存储的唯一数据块被删除后，删除该唯一数据块对应的指纹。因此，在具有重复数据删除功能的存储设备中，数据块的逻辑地址、指纹以及指纹对应的唯一数据块的物理地址之间的映射缺一不可。

然而，尽管存储设备对存储的数据不断进行重复数据删除，节省了存储设备的物理空间，但存储设备执行步骤6会建立大量的映射关系，严重消耗了存储设备的内存空间。

发明内容

第一方面，本发明提供了一种重复数据删除方法，包括：

存储设备接收第一数据流；

所述存储设备划分所述第一数据流得到n个数据块；所述n个数据块的逻辑地址连续；所述n个数据块包括第一数据块，所述第一数据块的逻辑地址为所述n个数据块对应的逻辑地址中的首地址；n为不小于2的整数；

所述存储设备计算所述n个数据块得到所述n个数据块的指纹；

当所述存储设备中没有查找到与所述n个数据块的指纹中任一指纹相同的指纹时，所述存储设备将所述n个数据块按照所述n个数据块的逻辑地址的顺序连续存储到第一存储区域；其中，所述第一存储区域中存储所述第一数据块的物理地址为第一物理地址；

所述存储设备将所述n个数据块的指纹的元数据按照所述n个数据块逻辑地址的顺序连续存储到第二存储区域；所述n个数据块的指纹中的任一指纹的元数据包括所述任一指纹以及所述第二存储区域中存储所述任一指纹的物理地址；

所述存储设备建立所述n个数据块的指纹中的每一指纹的元数据的地址标识与元数据的映射；

所述存储设备建立所述第一数据块的逻辑地址与聚合地址的映射，其中，所述聚合地址包括聚合数据块的物理地址和聚合指纹的元数据的地址标识；所述聚合数据块的物理地址包括所述第一物理地址以及所述第一存储区域中存储所述n个数据块的物理地址长度；所述聚合指纹的元数据的地址标识包括所述第一数据块的指纹的元数据的地址标识以及所述n个数据块的指纹的元数据的地址标识的数量。本发明实施例中，存储设备减少了映射的数量，从而节省了存储设备的内存空间，同时可以根据映射关系确定是否需要删除指纹的元数据。可选的，第一存储区域和第二存储区域为容器。进一步的，第一存储区域和第二存储区域可以为同一存储区域。

结合第一方面，在第一种可能的实现方式中，所述存储设备建立所述第一数据块的逻辑地址与所述聚合地址的映射，具体包括：

所述存储设备建立所述第一数据块的逻辑地址与所述聚合数据块的物理地址和所述聚合指纹的元数据的地址标识的映射。

结合第一方面，在第二种可能的实现方式中，所述存储设备建立所述第一数据块的逻辑地址与所述聚合地址的映射，具体包括：

所述存储设备建立所述第一数据块的逻辑地址与所述聚合指纹的元数据的地址标识映射以及所述聚合指纹的元数据的地址标识与所述聚合数据块的物理地址的映射。

结合第一方面，在第三种可能的实现方式中，所述存储设备建立所述第一数据块的逻辑地址与所述聚合地址的映射，具体包括：

所述存储设备建立所述第一数据块的逻辑地址与所述聚合数据块的物理地址的映射以及所述聚合数据块的物理地址与所述聚合指纹的元数据的地址标识的映射。

结合第一方面，或第一方面的第一至三种可能的任一实现方式中，在第四种可能的实现方式中，所述方法还包括：

所述存储设备建立所述第一数据块的逻辑地址与所述聚合地址的映射之前，

所述存储设备确定所述第一存储区域中存储的所述n个数据块的物理地址长度不超过存储设备的压缩窗口。

结合第一方面的第四种可能的实现方式，在第五种可能的实现方式中，所述方法还包括：所述存储设备根据所述压缩窗口压缩所述第一存储区域中存储的所述n个数据块。

结合第一方面，或第一方面的第一至三种可能的任一实现方式中，在第六种可能的实现方式中，还包括：

所述存储设备接收第二数据流；

所述存储设备划分所述第二数据流得到n个数据块；所述第二数据流的n个数据块的逻辑地址连续；所述第二数据流的n个数据块包括第二数据块，所述第二数据块的逻辑地址为所述第二数据流的n个数据块对应的逻辑地址中的首地址；

存储设备计算所述第二数据流的n个数据块得到所述第二数据流的n个数据块的指纹；

当所述存储设备查询所述第一数据流的n个数据块的指纹的元数据确定相同数据块序列位置中的所述第二数据流的n个数据块与所述第一数据块的n个数据块的指纹相同，则所述存储设备建立所述第二数据块的逻辑地址与所述聚合地址的映射；其中，所述数据块序列位置是指在所述第一数据流和所述第二数据流的任一数据流中，每一个数据块在n个数据块中的相对位置。

结合第一方面，在第七种可能的实现方式中，所述方法还包括：

所述存储设备建立所述第一数据流的所述n个数据块的指纹中的第一指纹的索引，所述第一指纹的索引包括所述第一指纹与所述第一指纹的元数据的地址标识的映射。可选的，第一指纹的元数据中的第一指纹除以特定整数得到的余数满足特定值。可选的，在所述第二存储区域存储的指纹的元数据中随机抽取或按一定间隔抽取到所述第一指纹的元数据中的所述第一指纹。

在第一方面的各种可能实现方式中，所述第一数据块的逻辑地址为所述第一数据流的n个数据块对应的逻辑地址中的尾地址；所述第二数据块的逻辑地址为所述第二数据流的n个数据块对应的逻辑地址中的尾地址。可选的，所述第一数据块的逻辑地址与聚合地址的映射中与所述第二数据块的逻辑地址与聚合地址的映射中均包含映射地址方向标识。

第二方面，本发明实施例提供了一种重复数据删除方法，包括：

存储设备接收第一数据流；

所述存储设备接收第二数据流；

当所述存储设备查询所述第一数据流的n个数据块的指纹的元数据确定相同数据块序列位置中的所述第二数据流的n个数据块与所述第一数据块的n个数据块的指纹相同，则所述存储设备建立所述第二数据块的逻辑地址与聚合地址的映射；其中，所述数据块序列位置是指在所述第一数据流和所述第二数据流的任一数据流中，每一个数据块在n个数据块中的相对位置；所述聚合地址包括聚合数据块的物理地址和聚合指纹的元数据的地址标识；所述聚合数据块的物理地址包括所述第一物理地址以及所述第一存储区域中存储所述n个数据块的物理地址长度；所述聚合指纹的元数据的地址标识包括所述第一数据块的指纹的元数据的地址标识以及所述n个数据块的指纹的元数据的地址标识的数量。可选的，第一存储区域和第二存储区域为容器。进一步的，第一存储区域和第二存储区域可以为同一存储区域。

结合第二方面，在第一种可能的实现方式中，所述存储设备建立所述第二数据块的逻辑地址与所述聚合地址的映射，具体包括：

所述存储设备建立所述第二数据块的逻辑地址与所述聚合数据块的物理地址和所述聚合指纹的元数据的地址标识的映射。

结合第二方面，在第二种可能的实现方式中，所述存储设备建立所述第二数据块的逻辑地址与所述聚合地址的映射，具体包括：

所述存储设备建立所述第二数据块的逻辑地址与所述聚合指纹的元数据的地址标识映射以及所述聚合指纹的元数据的地址标识与所述聚合数据块的物理地址的映射。

结合第二方面，在第三种可能的实现方式中，所述存储设备建立所述第二数据块的逻辑地址与所述聚合地址的映射，具体包括：

所述存储设备建立所述第二数据块的逻辑地址与所述聚合数据块的物理地址的映射以及所述聚合数据块的物理地址与所述聚合指纹的元数据的地址标识的映射。

结合第二方面，或第二方面的第一至三种可能的任一实现方式中，在第四种可能的实现方式中，所述方法还包括：

所述存储设备建立所述第二数据块的逻辑地址与所述聚合地址的映射之前，

结合第二方面的第四种可能的实现方式，在第五种可能的实现方式中，所述方法还包括：所述存储设备根据所述压缩窗口压缩所述第一存储区域中存储的所述n个数据块。

结合第二方面，在第六种可能的实现方式中，所述方法还包括：所述存储设备建立所述第一数据流的所述n个数据块的指纹中的第一指纹的索引，所述第一指纹的索引包括所述第一指纹与所述第一指纹的元数据的地址标识的映射。可选的，第一指纹的元数据中的第一指纹除以特定整数得到的余数满足特定值。可选的，在所述第二存储区域存储的指纹的元数据中随机抽取或按一定间隔抽取到所述第一指纹的元数据中的所述第一指纹。

在第二方面的各种可能实现方式中，所述第一数据块的逻辑地址为所述第一数据流的n个数据块对应的逻辑地址中的尾地址；所述第二数据块的逻辑地址为所述第二数据流的n个数据块对应的逻辑地址中的尾地址。可选的，所述第二数据块的逻辑地址与聚合地址的映射中包含映射地址方向标识。

相应的，本发明还提供了存储设备，分别用于作为第一方面和第二方面各种可能的实现方式中存储设备，以分别执行本发明第一方面和第二方面的各种可能实现方案。存储设备包括实现第一方面和第二方面各种可能的实现方案的结构单元，或者，存储设备包括接口和处理器以分别执行本发明第一方面和第二方面的各种可能实现方案。

相应地，本发明还提供了非易失性计算机可读存储介质和计算机程序产品，当本发明提供的存储设备的内存加载非易失性计算机可读存储介质和计算机程序产品中包含的计算机指令，存储设备的中央处理单元(Center Processing Unit，CPU)执行该计算机指令时，分别使存储设备执行本发明第一方面和第二方面的各种可能实现方案。

附图说明

图1为本发明实施例存储设备结构示意图；

图2为本发明实施例存储非重复数据以及指纹的元数据示意图；

图3为本发明实施例指纹的索引示意图；

图4为本发明实施例存储非重复数据以及指纹的元数据示意图；

图5为本发明实施例指纹的索引示意图；

图6为本发明实施例存储设备结构示意图。

具体实施例

如图1所示，具有重删功能的存储设备包括中央处理单元101(Center Processing Unit，CPU)和内存102，CPU101执行内存102中的计算机指令实现本发明实施例描述的重复数据删除操作。另外，为节省CPU的计算资源，现场可编程门阵列(Field Programmable Gate Array,FPGA)或其他硬件执行本发明实施例中重复数据删除全部操作，或者，FPGA或其他硬件与CPU分别执行本发明实施例重复数据删除的部分操作，以实现本发明实施例描述的重复数据删除操作。为方便描述，本发明实施例统一描述为存储设备的处理器用于实现本发明实施例重复数据删除操作，存储设备还包括接口，用于接收数据流，接口和处理器通信。本发明实施例中的存储设备还包括持久化存储介质，用于存储重复数据删除后的唯一数据块、指纹的元数据等。

存储设备在存储数据时，通常相同的数据块会在不同的数据流中重复出现。一个数据流表示一个数据源，例如，一个文件，或者同一个应用等。实际场景中，存储设备在进行重复数据删除操作时，可将1M大小的文件划分为若干个数据块。如果对该文件进行部分修改，这样被修改的文件大部分数据与修改前的文件的数据相同，只有少量数据与修改前的文件的数据不同，并且修改后的文件中与修改前文件相同的数据块的在数据块序列中的位置也基本相同，本发明实施例称这种属性为数据块重复局部性。因此，当存储设备确定一个数据流中的某一个数据块是重复的数据块，则与该数据块相邻的数据块也是重复的数据块的概率很高。因此，存储设备接收数据流，将数据流分成数据块，计算数据块的指纹，查询存储设备中是否存储有相同的指纹，如果没有存储相同的指纹，则表明数据块为不重复的数据块，存储设备将数据流中与已经存储的唯一数据块不重复的数据块，按照这些数据块的逻辑地址的顺序连续存储到存储设备的特定区域的物理地址中。本发明实施例中，存储设备特定的区域可以为容器，用于按照逻辑地址的顺序在物理地址上连续存储的一个数据流中不重复的数据块。同时存储设备将该数据流中不重复的数据块的指纹的元数据按照该不重复的数据块的逻辑地址的顺序连续存储到存储设备特定区域的物理地址上，这种指纹的元数据存储方式有利于利用数据块重复局部性，将逻辑地址连续的不重复的数据块的指纹的元数据加载到内存中，提高重复数据删除过程中指纹查询的命中率。指纹的元数据存储区域可以是前述存储该数据流中不重复的数据块的容器的一部分，也可以是一个独立的容器。本发明实施例中数据块的逻辑地址连续是指一个数据块的逻辑地址结束位置是另一个数据块的逻辑地址的起始位置。同样，本发明实施例中，物理地址连续是指存储一个数据块的物理地址的结束位置是存储另一个数据块的物理地址的起始位置。将数据流中与存储设备中已经存储的唯一数据块不重复的数据块，按照数据块的逻辑地址的顺序连续存储到存储设备的特定区域的物理地址中，则存储数据块的物理地址连续。

本发明实施例中，按照数据块的逻辑地址顺序将数据块连续存储到某一存储区域、按照数据块的逻辑地址顺序依次将数据块存储到某一存储区域以及按照数据块的逻辑地址顺序将数据块在某一存储区域物理地址连续地存储具有相同的含义，逻辑地址连续的数据块在该存储区域物理地址上也连续。

如图2所示，存储设备接收数据流1和数据流2，以存储设备使用定长分块算法为例，分别将数据流1和数据流2切成固定长度的数据块。为方便说明，本发明实施例以数据流1和数据流2中的数据均为首次写入数据为例，即将数据流1和数据流2切成的固定长度的数据块均为存储设备中的唯一块。

其中，数据流1中包含逻辑地址连续的数据块：即逻辑地址分别为LA1-LA16的数据块，逻辑地址为LA1-LA16的数据块对应的指纹分别为FP1-FP16。数据流2中包含逻辑地址连续的数据块：即逻辑地址分别为LA30-LA45的数据块，逻辑地址为LA30-LA45的数据块对应的指纹分别为FP30-FP45。

存储设备将一个数据流的数据块按照逻辑地址顺序连续存储在同一个容器中。存储设备将数据流1的数据块按照逻辑地址LA1-LA16的顺序在容器1的物理地址上连续存储。例如，存储设备将数据流1的数据块按照数据块在数据流1中的逻辑地址LA1-LA16的顺序分别存储到容器1物理地址为PA1至PA16的物理地址中(以容器1的起始物理地址为PA1为例)，即将逻辑地址为LA1-LA16的数据块依次存储到PA1-PA16。存储设备将数据流1的数据块的指纹的元数据(数据块的指纹及存储该数据块的物理地址)按照数据块在数据流1中的逻辑地址顺序在容器3的物理地址上连续存储，即将FP1与PA1存储到PA201、将FP2与PA2存储到PA202、将FP3与PA3存储到PA203、将FP4与PB4存储到PA204、将FP5与PB5存储到PA205、将FP6与PA6存储到PA206、将FP7与PA7存储到PA207、将FP8与PA8存储到PA208、将FP9与PB9存储到PA209、将FP10与PB10存储到PA210、将FP11与PA11存储到PA211、将FP12与PA12存储到PA212、将FP13与PA13存储到PA213、将FP14与PB14存储到PA214、将FP15与PA15存储到PA215、将FP16与PA16存储到PA216。

存储设备建立指纹的元数据的地址标识到指纹的元数据的映射，即建立PA201到FP1与PA1的映射，建立PA202到FP2与PA2的映射，建立PA203到FP3与PA3的映射，建立PA204到FP4与PB4的映射，建立PA205到FP5与PB5的映射，建立PA206到FP6与PA6的映射，建立 PA207到FP7与PA7的映射，建立PA208到FP8与PA8的映射，建立PA209到FP9与PB9的映射，建立PA210到FP10与PB10的映射，建立PA211到FP11与PA11的映射，建立PA212到FP12与PA12的映射，建立PA213到FP13与PA13的映射，建立PA214到FP14与PB14的映射，建立PA215到FP15与PA15的映射，建立PA216到FP16与PA16的映射。

由于逻辑地址为LA1-LA16的不重复的数据块在物理地址上连续存储，即分别存储到PA1-PA16，而LA1-LA16的不重复的数据块的指纹元数据也连续存储，即分别存储到PA201-PA216，建立LA1与聚合地址的映射，聚合地址包括聚合数据块的物理地址和聚合指纹的元数据的地址标识，其中，聚合指纹的元数据的地址标识包括逻辑地址为LA1的数据块对应的指纹的元数据的地址标识以及LA1到LA16对应数据块的指纹的元数据的地址标识的数量16，聚合数据块的物理地址包括存储逻辑地址为LA1的数据块的物理地址PAB1以及容器1中存储逻辑地址从LA1到LA16的数据块的物理地址长度，本发明实施例中，逻辑地址从LA1到LA16的数据块也称为聚合数据块。可选的，容器1中存储逻辑地址从LA1到LA16的数据块的物理地址长度可以用实际的物理长度表示。可选的，容器1中逻辑地址从LA1到LA16的数据块的物理地址长度也可以使用物理块的数量表示，例如，聚合数据块的物理地址可表示为PA1+16，表示存储逻辑地址从LA1到LA16的数据块的物理地址为PA1，一共有16个物理块的长度。聚合指纹的元数据的地址标识表示为PA201+16，表示逻辑地址为LA1的数据块对应的指纹的元数据的地址标识为PA201，LA1到LA16对应的数据块的指纹的元数据的地址标识的数量一共有16个。一种实现方式，存储设备建立LA1与聚合地址的映射具体包括存储设备建立LA1与PA1+16和PA201+16的映射，表示为LA1--->PA1+16和PA201+16，其中，PA1+16和PA201+16存储在同一字段中，具体的，可以使用键(key)-值(value)的形式，即key为LA1，value为PA1+16和PA201+16。如果按照现有技术描述的方式，需要为数据流1的数据块建立32条映射，即从LA1到FP1的映射，从PF1到PA1的映射......从LA32到PF32的映射，从PF32到PA16的映射，本发明实施例中，只需要建立1条映射。因此，存储设备减少了映射的数量，从而节省了存储设备的内存空间，同时可以根据映射关系确定是否需要删除指纹的元数据。可选的，本发明实施例中，存储设备建立LA1到聚合地址1的映射，其中，聚合地址1包括PA1+8，PA201+8；存储设备建立LA9到聚合地址2的映射，其中，聚合地址2包括PA9+8，PA209+8，同样可以减少存储设备中的映射数量，同时可以根据映射关系确定是否需要删除指纹的元数据，具体聚合数据块的物理地址长度可根据具体实现限定，本发明对此不作限定。

另一种实现方式，存储设备建立LA1与聚合地址的映射具体包括存储设备建立LA1与聚合指纹的元数据的地址标识的映射，以及建立聚合指纹的元数据的地址标识与聚合数据块的物理地址的映射，其中，聚合的指纹的元数据的地址标识包括逻辑地址为LA1的数据块对应的指纹的元数据的地址标识以及LA1到LA16对应的数据块的指纹的元数据的地址标识的数量16，聚合数据块的物理地址包括存储逻辑地址为LA1的数据块的物理地址PAB1以及容器1中存储逻辑地址从LA1到LA16的数据块的物理地址长度，其中一种表示方式为LA1到PA201+16的映射，以及PA201+16到PA1+16的映射，可表示为表示为LA1--->PA201+16，PA201+16--->PA1+16，即key为LA1，相应的，value为PA201+16；key为PA201+16，相应的，value为PA1+16。可选的，存储设备建立LA1与聚合指纹的元数据的地址标识3的映射，以及建立聚合指纹的元数据的地址标识3与聚合数据块的物理地址3的映射，其中，聚合指纹的元数据的地址标识3包括PA201+8，聚合数据块的物理地址3包括PA1+8，存储设备建立LA9与聚合指纹的元数据的地址标识4的映射，以及聚合指纹的元数据的地址标识4与聚合数据块的物理地址4的映射，其中，聚合指纹的元数据的地址标识4包括PA209+8，聚合数据块的物理地址4包括PA9+8。

另一种实现方式，存储设备建立LA1与聚合地址的映射具体包括存储设备建立LA1与聚合数据块的物理地址的映射，以及建立聚合数据块的物理地址与聚合指纹的元数据的地址标识的映射，在此不再赘述，可表示为表示为LA1--->PA1+16，PA1+16--->PA201+16即key为LA1，相应的，value为PA1+16；key为PA1+16，相应的，value为PA201+16。

存储设备将数据流2的数据块按照逻辑地址LA30-LA45的顺序在容器2中的物理地址上连续存储。例如，将数据流2的数据块按照数据块在数据流2中的逻辑地址LA30-LA45的顺序分别存储到容器2物理地址为PA101至PA116的物理地址中(以容器2的起始物理地址为 PA101为例)。

存储设备将数据流2的数据块的指纹的元数据按照数据块在数据流2中的逻辑地址LA30-LA45的顺序在容器4的物理地址上连续存储，即将FP30与PA101存储到PA301、将FP31与PA102存储到PA302、将FP32与PA103存储到PA303、将FP33与PB104存储到PA304、将FP34与PB105存储到PA305、将FP35与PA106存储到PA306、将FP36与PA107存储到PA307、将FP37与PA108存储到PA308、将FP38与PB109存储到PA309、将FP39与PB110存储到PA310、将FP40与PA111存储到PA311、将FP41与PA112存储到PA312、将FP42与PA113存储到PA313、将FP43与PB114存储到PA314、将FP44与PA115存储到PA315、将FP45与PA116存储到PA316。存储设备建立指纹的元数据的地址标识到指纹的元数据的映射，即建立PA301到FP30与PA101的映射，建立PA302到FP31与PA102的映射，建立PA303到FP32与PA103的映射，建立PA304到FP33与PB104的映射，建立PA305到FP34与PB105的映射，建立PA306到FP35与PA106的映射，建立PA307到FP36与PA107的映射，建立PA308到FP37与PA108的映射，建立PA309到FP38与PB109的映射，建立PA310到FP39与PB110的映射，建立PA311到FP40与PA111的映射，建立PA312到FP41与PA112的映射，建立PA313到FP42与PA113的映射，建立PA314到FP43与PB114映射，建立PA315到FP44与PA115的映射，建立PA316到FP45与PA116的映射。

由于逻辑地址为LA30-LA45的不重复的数据块在物理地址上连续存储，即分别存储到PA101-PA116，而LA30-LA45的不重复的数据块的指纹元数据也连续存储，即分别存储到PA301-PA316，存储设备建立LA30与聚合地址的映射，聚合地址包括聚合数据块的物理地址和聚合指纹的元数据的地址标识，其中，聚合指纹的元数据的地址标识包括逻辑地址为LA30的数据块对应的指纹的元数据的地址标识以及LA30到LA45对应的数据块的指纹的元数据的地址标识的数量，聚合数据块的物理地址包括存储逻辑地址为LA30的数据块的物理地址PAB101以及容器2中存储逻辑地址从LA30到LA45的数据块的物理地址长度，本发明实施例中，逻辑地址从LA30到LA45的数据块也称为聚合数据块。可选的，PA101到PA116的长度可以用实际的物理长度表示。可选的，PA101到PA116的长度也可以使用物理块的数量16表示，例如，聚合数据块的物理地址可表示为PA101+16，聚合指纹的元数据的地址标识表示为PA301+16。一种实现方式，存储设备建立LA30与聚合地址的映射具体包括存储设备建立LA30与PA101+16和PA301+16的映射，表示为LA30--->PA101+16和PA301+16，具体表示可参考前面描述的实现。如果按照现有技术描述的方式，存储设备需要为数据流2的数据块建立32条映射，即从LA30到FP30的映射，从FP30到PA301的映射......从LA45到FP45的映射，从FP45到PA316的映射，本发明实施例中，只需要建立1条映射。因此，存储设备减少了映射的数量，从而节省了存储设备的内存空间，同时可以根据映射关系确定是否需要删除指纹的元数据。可选的，本发明实施例中，存储设备建立LA30到聚合地址4的映射，其中，聚合地址5包括PA101+8，PA301+8；存储设备建立LA38到聚合地址6的映射，其中，聚合地址 6包括PA109+8，PA309+8，同样可以减少存储设备中的映射数量，具体聚合的数据块的物理地址长度可根据具体实现限定，本发明对此不作限定。

另一种实现方式，存储设备建立LA30与聚合地址的映射具体包括存储设备建立建立LA30与聚合指纹的元数据的地址标识的映射，以及建立聚合指纹的元数据的地址标识与聚合数据块的物理地址的映射，其中，聚合指纹的元数据的地址标识包括逻辑地址为LA30的数据块对应的指纹的元数据的地址标识以及LA30到LA45对应的数据块的指纹的元数据的地址标识的数量，聚合数据块的物理地址包括存储逻辑地址为LA30的数据块的物理地址PAB101以及容器2中存储逻辑地址从LA30到LA45的数据块的物理地址长度，其中一种表示方式为LA30到PA301+16的映射，以及PA301+16到PA101+16的映射，表示为LA30--->PA301+16,PA301+16--->PA101+16，具体表示可参考前面描述的实现。可选的，存储设备建立LA30与聚合指纹的元数据的地址标识7的映射，以及聚合指纹的元数据的地址标识7与聚合数据块的物理地址7的映射，其中，聚合指纹的元数据的地址标识7包括PA201+8，聚合数据块的物理地址7包括PA1+8，存储设备建立LA9与聚合指纹的元数据的地址标识8的映射，以及聚合指纹的元数据的地址标识8与聚合数据块的物理地址8的映射，其中，聚合指纹的元数据的地址标识8包括PA209+8，聚合数据块的物理地址8包括PA9+8，同样可以减少存储设备中的映射数量，具体聚合地址的长度可根据具体实现限定，本发明对此不作限定。

另一种实现方式，存储设备建立LA30与聚合地址的映射具体包括存储设备建立LA30与聚合数据块的物理地址的映射，以及建立聚合数据块的物理地址与聚合的指纹的元数据的地址标识的映射，表示为LA30--->PA101+16,PA101+16--->PA301+16，具体表示可参考前面描述的实现，在此不再赘述。

进一步的，存储设备建立指纹的索引，以方便后续进行重复数据删除操作中的指纹查找，减少存储设备缓存指纹的元数据的数量。具体的，可以用数据流1和数据流2中数据块的指纹的元数据中的指纹除以特定整数得到的余数满足特定值的指纹作为指纹的索引中的代表指纹(也称为抽样指纹)，例如，指纹除以10余数为3的指纹作为抽样指纹，建立该指纹与该指纹的元数据的地址标识的映射。另一种实现，可以从容器3和容器4存储的指纹的元数据中随机抽取或按一定间隔抽取指纹的元数据中的指纹作为抽样指纹。本发明实施例以从容器3和容器4存储的指纹的元数据中按一定间隔抽取指纹的元数据中的指纹作为抽样指纹则得到如图3所示的指纹的索引。

存储设备加载如图3所示的指纹的索引，以进行重复数据删除操作中的指纹查询。

进一步的，存储设备接收数据流3，如图4所示，将数据流3划分数据块并计算数据块的指纹，其中，逻辑地址为LA61的数据块与逻辑地址为LA1的数据块相同，逻辑地址为LA62的数据块与逻辑地址为LA2的数据块相同，LA63的数据块与逻辑地址为LA3的数据块相同,LA64的数据块与逻辑地址为LA4的数据块相同，LA65的数据块与逻辑地址为LA5的数据块相同，LA66的数据块与逻辑地址为LA6的数据块相同，LA67的数据块与逻辑地址为LA7的数据块相同，LA68的数据块与逻辑地址为LA8的数据块相同，LA69的数据块与逻辑地址为LA9的数据块相同，LA70的数据块与逻辑地址为LA10的数据块相同，LA71的数据块与逻辑地址为LA11的数据块相同。在逻辑地址为LA1-LA11的数据块与逻辑地址为LA61-LA71的数据块中，称逻辑地址为LA1的数据块与逻辑地址为LA61的数据块具有相同数据块序列位置，逻辑地址为LA2的数据块与逻辑地址为LA62的数据块具有相同数据块序列位置，依次类推，逻辑地址为LA11的数据块与逻辑地址为LA71的数据块具有相同数据块序列位置。逻辑地址为LA61-LA71的数据块的指纹依次为FP1-FP11。

存储设备加载图3所示的指纹的索引，查找指纹的索引中是否存在与数据流3的数据块的相同的指纹。本发明实施例中，指纹的索引中包含指纹FP1、FP5、FP9、FP13、FP30、FP34、FP38和FP42。存储设备确定指纹的索引中与数据流3的数据块的相同的指纹分别为FP1、FP5、FP9和FP13。根据数据块重复局部性，则根据指纹的索引中FP1、FP5、FP9和FP13对应的指纹的元数据的地址标识加载指纹的元数据FP1与PA1、FP5与PA9、FP9与PA9、FP13与PA13的同时，加载FP2与PA2、FP3与PA3、FP4与PA4、FP6与PA6、FP7与PA7、FP8与PA8、FP10与PA10、FP11与PA11、FP12与PA12、FP14与PA14、FP15与PA15和FP16与PA16。

存储设备查找指纹的元数据，确定逻辑地址为LA61-LA71的数据块为重复的数据块，并且则不再存储逻辑地址为LA61-LA71的数据块。在存储设备中，逻辑地址为LA61-LA71的数据块对应的唯一数据块的物理地址依次为PA1-PA11，建立LA61与聚合地址的映射，具体实现请参见前面实施例描述。其中一种实现，存储设备建立LA61与聚合地址的映射具体包括存储设备建立LA61与PA1+11和PA201+11的映射，表示为LA61--->PA1+11和PA201+11，具体表示可参考前面描述的实现。另一种实现方式，存储设备建立LA61与聚合地址的映射具体包括存储设备建立LA61与聚合指纹的元数据的地址标识的映射，以及建立聚合指纹的元数据的地址标识与聚合数据块的物理地址的映射，具体为LA61到PA201+11的映射，以及PA201+11到PA1+11的映射，表示为LA61--->PA201+11,PA201+11--->PA1+11，具体表示可参考前面描述的实现。另一种实现方式，存储设备建立LA61与聚合地址的映射具体包括存储设备建立LA61与聚合数据块的物理地址的映射，以及建立聚合数据块的物理地址与聚合指纹的元数据的地址标识的映射，表示为LA61--->PA1+11,PA1+11--->PA201+1，具体表示可参考前面描述的实现，在此不再赘述。

逻辑地址为LA72-LA76的数据块为不重复的数据块，按照前面描述的实施方式，为保持数据块重复局部性，按照逻辑地址LA72-LA76的顺序将数据块存储到容器5(本发明实施例中，容器5的首个物理地址为PA401)连续的物理地址中，分别记为物理地址PA401-PA405。将逻辑地址为LA72-LA76的数据块的指纹的元数据按照数据块的逻辑地址LA72-LA76的顺序在容器6(本发明实施例中，容器5的首个物理地址为PA501)的物理地址上连续的存储，即将FP72与PA401存储到PA501，将FP73与PA402存储到PA502，将FP74与PA403存储到PA503，将FP75与PA404存储到PA504，将FP76与PA405存储到PA505分别记为物理地址PA501-PA505。存储设备建立指纹的元数据的地址标识到指纹的元数据的映射，即建立PA501到FP72与PA401的映射，建立PA502到FP73与PA402的映射，建立PA503到FP74与PA403的映射，建立PA504到FP75与PB404的映射，建立PA505到FP76与PB405的映射。由于逻辑地址为LA72-LA76的不重复的数据块在物理地址上连续存储，即依次存储到PA401-PA405，而逻辑地址为LA72-LA76的不重复的数据块的指纹的元数据在容器6中的物理地址上也连续存储，建立LA72与聚合地址的映射，按照本发明实施例前面描述的方法，一种实现，存储设备建立LA72与聚合地址的映射具体包括建立LA72与PA501+5和PA601+5，表示为LA72--->PA601+5和PA601+5，具体表示可参考前面描述的实现。另一种实现方式，存储设备建立LA72与聚合地址的映射具体包括存储设备建立LA72与聚合指纹的元数据的地址标识的映射，以及建立聚合指纹的元数据的地址标识与聚合数据块的物理地址的映射，具体为LA72与PA601+5的映射，以及PA601+5到PA501+5的映射，表示为LA72--->PA601+5,PA601+5--->PA501+5，具体表示可参考前面描述的实现。另一种实现方式，存储设备建立LA72与聚合地址的映射具体包括存储设备建立LA72与聚合数据块的物理地址的映射，以及建立聚合数据块的物理地址与聚合指纹的元数据的地址标识的映射，表示为LA72--->PA501+5,PA501+5---> PA601+5，具体表示可参考前面描述的实现，在此不再赘述。

存储设备对LA64-LA68的不重复的数据块的指纹进行抽样，建立指纹的索引，本发明实施例以从容器6存储的指纹的元数据中按一定间隔抽取指纹的元数据中的指纹作为抽样指纹，则得到在图3基础上的新的指纹的索引，如图5所示。

本发明实施例中，以存储设备建立LA1--->PA1+16和PA201+16的映射为例，当存储设备接收数据读请求，数据读请求携带的逻辑地址为LA2，则存储设备查询LA1--->PA1+16和PA201+16的映射，确定LA2与LA1相差一个逻辑地址，则存储设备从LA1偏移一个逻辑地址对应的物理地址读取数据。

实际实现中，存储设备使用压缩算法对存储的唯一数据块进行压缩。存储设备压缩唯一数据块会设置压缩窗口，压缩窗口是指一次可以压缩的数据块长度，因此，本发明实施列中，聚合数据块的物理地址长度不超过压缩窗口。可选的，存储设备在建立逻辑地址到聚合地址之前，查询所述存储设备的压缩窗口，确定聚合的数据块的物理地址长度不超过压缩窗口。例如，本发明实施例中，逻辑地址为LA1-LA16的数据块可以建立LA1--->PA1+16和PA201+16的映射，但如果聚合的数据块的物理地址长度超过压缩窗口，则可建立多条映射，例如LA1--->PA1+8和PA201+8的映射以及LA9--->PA9+8和PA209+8的映射。存储设备根据压缩窗口对存储的非重复数据进行压缩。

本发明实施例中，也可以将容器5存储的不重复数据和容器6中存储的指纹的元数据存储在同一个容器中，例如容器5，本发明实施例对此不作限定。

本发明实施例中，例如，本发明实施例中，逻辑地址为LA1-LA16的数据块可以建立LA1--->PA1+16和PA201+16的映射，上述映射中包含映射地址方向标识，用于指示从LBA1开始按照逻辑地址递增的顺序寻址。可选的，可以通过聚合数据块的物理地址和聚合指纹的元数据的地址标识来体现，例如，所述聚合数据块的物理地址从PA1开始递增以及从聚合指纹的元数据的地址标识从PA201开始递增。相对应的，另一种实现方式，可以建立LBA16--->PA16-16和PA216-16的映射，同样可以减少映射的数量，节省存储设备的内存空间，其中，上述映射中包含映射地址方向标识，用于指示从LBA16开始按照逻辑地址递减的顺序寻址。可选的，可以通过聚合数据块的物理地址和聚合指纹的元数据的地址标识中来体现，例如，所述聚合数据块的物理地址从PA16开始递减以及所述聚合指纹的元数据的地址标识从PA216开始递减。本发明实施例不再赘述。

本发明实施例以使用定长分块算法为例对数据流划分数据块，在另一种场景中，也可以使用变长分块算法，例如内容分块(Content-Defined Chunking,CDC)算法对数据流划分数据块。本发明实施例中的存储设备可以实现文件系统中的重复数据删除操作，例如，网络附加系统(Network Attached System,NAS)，则本发明实施例中的逻辑地址为文件标识加偏移地址。本发明实施例中的存储设备也可以实现数据块的重复数据删除操作，例如存储区域网络(Storage Area Network,SAN)，则本发明实施列中逻辑地址为逻辑块地址 (logical block address,LBA)。

本发明实施例中的指纹的元数据的地址标识也可以为唯一标识该指纹的元数据的逻辑标识，存储设备可以为唯一的数据块对应的指纹的元数据分配一个全局唯一标识，并且逻辑地址连续的多个唯一数据块的指纹的元数据的地址标识线性递增，例如，逻辑地址为LA1-LA16的数据块的指纹的元数据的地址标识可以依次为块标识(Chunk Identifier，简称Chunk ID)1-Chunk ID16，具体实现中，存储设备对一个数据流进行重复数据删除操作，确定该数据流中逻辑地址连续的唯一数据块，存储设备将该数据流中逻辑地址连续的唯一块的指纹的元数据按照这些唯一数据块的逻辑地址顺序依次存储到容器的物理地址，存储设备按照这些唯一数据块的逻辑地址顺序为这些唯一数据块的指纹的元数据生成全局唯一Chunk ID，这些Chunk ID按照这些唯一数据块的逻辑地址的顺序线性递增。

本发明实施例中，同一个数据流的唯一数据块和唯一数据块的指纹的元数据分别存储到不同的容器中；另一种实现，同一个数据流的唯一数据块和唯一数据块的指纹的元数据也可以存储在同一个容器的不同存储区域。

本发明实施例中使用容器存储唯一的数据块和指纹的元数据。另一种实现，也可以使用树的结构来存储唯一的数据块和指纹的元数据，具体实现中，树的叶子节点可以用来存储唯一的数据块和指纹的元数据。

可选的，本发明实施例也可以只对逻辑地址连续的重复数据块建立本发明实施例中的逻辑地址到聚合地址的映射，对逻辑地址连续的非重复数据块按照现有实现建立一一映射。

如图6所示，本发明实施例提供了一种存储设备600，包括接收单元601、划分单元602、计算单元603、存储单元604和建立单元605。其中，接收单元601用于接收第一数据流；划分单元602用于划分所述第一数据流得到n个数据块；所述n个数据块的逻辑地址连续；所述n个数据块包括第一数据块，所述第一数据块的逻辑地址为所述n个数据块对应的逻辑地址中的首地址；n为不小于2的整数；计算单元603用于计算所述n个数据块得到所述n个数据块的指纹；存储单元604用于用于当存储设备600中没有查找到与所述n个数据块的指纹中任一指纹相同的指纹时，将所述n个数据块按照所述n个数据块的逻辑地址的顺序连续存储到第一存储区域，将所述n个数据块的指纹的元数据按照所述n个数据块逻辑地址的顺序连续存储到第二存储区域；其中，所述第一存储区域中存储所述第一数据块的物理地址为第一物理地址；所述n个数据块的指纹中的任一指纹的元数据包括所述任一指纹以及所述第二存储区域中存储所述任一指纹的物理地址；建立单元605用于建立所述n个数据块的指纹中的每一指纹的元数据的地址标识与元数据的映射，建立所述第一数据块的逻辑地址与聚合地址的映射，其中，所述聚合地址包括聚合数据块的物理地址和聚合指纹的元数据的地址标识；所述聚合数据块的物理地址包括所述第一物理地址以及所述第一存储区域中存储所述n个数据块的物理地址长度；所述聚合指纹的元数据的地址标识包括所述第一数据块的指纹的元数据的地址标识以及所述n个数据块的指纹的元数据的地址标识的数量。

本发明实施例中，存储设备减少了映射的数量，从而节省了存储设备的内存空间，同时可以根据映射关系确定是否需要删除指纹的元数据。

可选的，存储设备600中第一存储区域和第二存储区域为容器。进一步的，第一存储区域和第二存储区域可以为同一存储区域。

可选的，建立单元605具体用于建立所述第一数据块的逻辑地址与所述聚合数据块的物理地址和所述聚合指纹的元数据的地址标识的映射。

可选的，建立单元605具体用于建立所述第一数据块的逻辑地址与所述聚合指纹的元数据的地址标识映射以及所述聚合指纹的元数据的地址标识与所述聚合数据块的物理地址的映射。

可选的，建立单元605具体用于建立所述第一数据块的逻辑地址与所述聚合数据块的物理地址的映射以及所述聚合数据块的物理地址与所述聚合指纹的元数据的地址标识的映射。

可选的，存储设备600还包括确定单元，确定单元用于建立所述第一数据块的逻辑地址与所述聚合地址的映射之前，确定所述第一存储区域中存储的所述n个数据块的物理地址长度不超过存储设备的压缩窗口。可选的，存储设备600还包括压缩单元，压缩单元用于根据所述压缩窗口压缩所述第一存储区域中存储的所述n个数据块。

可选的，接收单元601，还用于接收第二数据流；划分单元602还用于划分所述第二数据流得到n个数据块；所述第二数据流的n个数据块的逻辑地址连续；所述第二数据流的n个数据块包括第二数据块，所述第二数据块的逻辑地址为所述第二数据流的n个数据块对应的逻辑地址中的首地址；计算单元603还用于还用于计算所述第二数据流的n个数据块得到所述第二数据流的n个数据块的指纹；建立单元605还用于还用于当所述存储设备600查询所述第一数据流的n个数据块的指纹的元数据确定相同数据块序列位置中的所述第二数据流的n个数据块与所述第一数据块的n个数据块的指纹相同时，建立所述第二数据块的逻辑地址与所述聚合地址的映射；其中，所述数据块序列位置是指在所述第一数据流和所述第二数据流的任一数据流中，每一个数据块在n个数据块中的相对位置。

可选的，建立单元605还用于建立所述第一数据流的所述n个数据块的指纹中的第一指纹的索引，所述第一指纹的索引包括所述第一指纹与所述第一指纹的元数据的地址标识的映射。

本发明实施例提供的存储设备600，具体功能及实现可参考前面实施例描述的方法及步骤，在此不再赘述。

如图6所示的存储设备600，一种实现方式为存储设备600安装有上述单元，上述单元可被加载到存储设备600的内存中，由存储设备600中的CPU执行内存中的指令，实现本发明对应的实施例中的功能；另一种实现，存储设备600中包含的单元可以由硬件来实现，或者由硬件与CPU执行内存中的指令组合实现。上述单元也称为结构单元。

本发明实施例，还提供了非易失性计算机可读存储介质和计算机程序产品，当图6所示的存储设备600的CPU的内存加载非易失性计算机可读存储介质和计算机程序产品中包含的计算机指令，CPU执行内存中加载的该计算机指令，以实现本发明各实施中对应的功能。

在本发明所提供的几个实施例中，应该理解到，所公开的装置、方法，可以通过其它的方式实现。例如，以上所描述的装置实施例所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

Claims

一种重复数据删除方法,其特征在于,包括：

存储设备接收第一数据流；

所述存储设备划分所述第一数据流得到n个数据块；所述n个数据块的逻辑地址连续；所述n个数据块包括第一数据块，所述第一数据块的逻辑地址为所述n个数据块对应的逻辑地址中的首地址；n为不小于2的整数；

所述存储设备计算所述n个数据块得到所述n个数据块的指纹；

当所述存储设备中没有查找到与所述n个数据块的指纹中任一指纹相同的指纹时，所述存储设备将所述n个数据块按照所述n个数据块的逻辑地址的顺序连续存储到第一存储区域；其中，所述第一存储区域中存储所述第一数据块的物理地址为第一物理地址；

所述存储设备将所述n个数据块的指纹的元数据按照所述n个数据块逻辑地址的顺序连续存储到第二存储区域；所述n个数据块的指纹中的任一指纹的元数据包括所述任一指纹以及所述第二存储区域中存储所述任一指纹的物理地址；

所述存储设备建立所述n个数据块的指纹中的每一指纹的元数据的地址标识与元数据的映射；

所述存储设备建立所述第一数据块的逻辑地址与聚合地址的映射，其中，所述聚合地址包括聚合数据块的物理地址和聚合指纹的元数据的地址标识；所述聚合数据块的物理地址包括所述第一物理地址以及所述第一存储区域中存储所述n个数据块的物理地址长度；所述聚合指纹的元数据的地址标识包括所述第一数据块的指纹的元数据的地址标识以及所述n个数据块的指纹的元数据的地址标识的数量。
根据权利要求1所述的方法，其特征在于，所述存储设备建立所述第一数据块的逻辑地址与所述聚合地址的映射，具体包括：

所述存储设备建立所述第一数据块的逻辑地址与所述聚合数据块的物理地址和所述聚合指纹的元数据的地址标识的映射。
根据权利要求1所述的方法，其特征在于，所述存储设备建立所述第一数据块的逻辑地址与所述聚合地址的映射，具体包括：

所述存储设备建立所述第一数据块的逻辑地址与所述聚合指纹的元数据的地址标识映射以及所述聚合指纹的元数据的地址标识与所述聚合数据块的物理地址的映射。
根据权利要求1所述的方法，其特征在于，所述存储设备建立所述第一数据块的逻辑地址与所述聚合地址的映射，具体包括：

所述存储设备建立所述第一数据块的逻辑地址与所述聚合数据块的物理地址的映射以及所述聚合数据块的物理地址与所述聚合指纹的元数据的地址标识的映射。
根据权利要求1至4任一所述的方法，其特征在于，所述方法还包括：

所述存储设备建立所述第一数据块的逻辑地址与所述聚合地址的映射之前，所述存储设备确定所述第一存储区域中存储的所述n个数据块的物理地址长度不超过存储设备的压缩窗口。
根据权利要求5所述的方法，其特征在于，所述方法还包括：所述存储设备根据所述压缩窗口压缩所述第一存储区域中存储的所述n个数据块。
根据权利要求1至4任一所述的方法，其特征在于，还包括：

所述存储设备接收第二数据流；

所述存储设备划分所述第二数据流得到n个数据块；所述第二数据流的n个数据块的逻辑地址连续；所述第二数据流的n个数据块包括第二数据块，所述第二数据块的逻辑地址为所述第二数据流的n个数据块对应的逻辑地址中的首地址；

存储设备计算所述第二数据流的n个数据块得到所述第二数据流的n个数据块的指纹；

当所述存储设备查询所述第一数据流的n个数据块的指纹的元数据确定相同数据块序列位置中的所述第二数据流的n个数据块与所述第一数据块的n个数据块的指纹相同，则所述存储设备建立所述第二数据块的逻辑地址与所述聚合地址的映射；其中，所述数据块序列位置是指在所述第一数据流和所述第二数据流的任一数据流中，每一个数据块在n个数据块中的相对位置。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述存储设备建立所述第一数据流的所述n个数据块的指纹中的第一指纹的索引，所述第一指纹的索引包括所述第一指纹与所述第一指纹的元数据的地址标识的映射。
一种存储设备,其特征在于,包括：

接收单元，用于接收第一数据流；

划分单元，用于划分所述第一数据流得到n个数据块；所述n个数据块的逻辑地址连续；所述n个数据块包括第一数据块，所述第一数据块的逻辑地址为所述n个数据块对应的逻辑地址中的首地址；n为不小于2的整数；

计算单元，用于计算所述n个数据块得到所述n个数据块的指纹；

存储单元，用于当所述存储设备中没有查找到与所述n个数据块的指纹中任一指纹相同的指纹时，将所述n个数据块按照所述n个数据块的逻辑地址的顺序连续存储到第一存储区域，将所述n个数据块的指纹的元数据按照所述n个数据块逻辑地址的顺序连续存储到第二存储区域；其中，所述第一存储区域中存储所述第一数据块的物理地址为第一物理地址；所述n个数据块的指纹中的任一指纹的元数据包括所述任一指纹以及所述第二存储区域中存储所述任一指纹的物理地址；

建立单元，用于建立所述n个数据块的指纹中的每一指纹的元数据的地址标识与元数据的映射，建立所述第一数据块的逻辑地址与聚合地址的映射，其中，所述聚合地址包括聚合数据块的物理地址和聚合指纹的元数据的地址标识；所述聚合数据块的物理地址包括所述第一物理地址以及所述第一存储区域中存储所述n个数据块的物理地址长度；所述聚合指纹的元数据的地址标识包括所述第一数据块的指纹的元数据的地址标识以及所述n个数据块的指纹的元数据的地址标识的数量。
根据权利要求9所述的存储设备，其特征在于，所述建立单元，具体用于建立所述第一数据块的逻辑地址与所述聚合数据块的物理地址和所述聚合指纹的元数据的地址标识的映射。
根据权利要求9所述的存储设备，其特征在于，所述建立单元，具体用于建立所述第一数据块的逻辑地址与所述聚合指纹的元数据的地址标识映射以及所述聚合指纹的元数据的地址标识与所述聚合数据块的物理地址的映射。
根据权利要求9所述的存储设备，其特征在于，所述建立单元，具体用于建立所述第一数据块的逻辑地址与所述聚合数据块的物理地址的映射以及所述聚合数据块的物理地址与所述聚合指纹的元数据的地址标识的映射。
根据权利要求9至12任一所述的存储设备，其特征在于，所述存储设备还包括确定单元：所述确定单元用于建立所述第一数据块的逻辑地址与所述聚合地址的映射之前，确定所述第一存储区域中存储的所述n个数据块的物理地址长度不超过存储设备的压缩窗口。
根据权利要求13所述的存储设备，其特征在于，所述存储设备还包括压缩单元，所述压缩单元用于根据所述压缩窗口压缩所述第一存储区域中存储的所述n个数据块。
根据权利要求9至12任一所述的存储设备，其特征在于，

所述接收单元还用于接收第二数据流；

所述划分单元还用于划分所述第二数据流得到n个数据块；所述第二数据流的n个数据块的逻辑地址连续；所述第二数据流的n个数据块包括第二数据块，所述第二数据块的逻辑地址为所述第二数据流的 n个数据块对应的逻辑地址中的首地址；

所述计算单元还用于计算所述第二数据流的n个数据块得到所述第二数据流的n个数据块的指纹；

所述建立单元还用于当所述存储设备查询所述第一数据流的n个数据块的指纹的元数据确定相同数据块序列位置中的所述第二数据流的n个数据块与所述第一数据块的n个数据块的指纹相同时，建立所述第二数据块的逻辑地址与所述聚合地址的映射；其中，所述数据块序列位置是指在所述第一数据流和所述第二数据流的任一数据流中，每一个数据块在n个数据块中的相对位置。
根据权利要求9所述的存储设备，其特征在于，所述建立单元还用于建立所述第一数据流的所述n个数据块的指纹中的第一指纹的索引，所述第一指纹的索引包括所述第一指纹与所述第一指纹的元数据的地址标识的映射。
一种存储设备,其特征在于,所述存储设备包括接口和处理器，所述接口与所述处理器通信；其中，

所述接口用于接收第一数据流；

所述处理器用于：

划分所述第一数据流得到n个数据块；所述n个数据块的逻辑地址连续；所述n个数据块包括第一数据块，所述第一数据块的逻辑地址为所述n个数据块对应的逻辑地址中的首地址；n为不小于2的整数；

计算所述n个数据块得到所述n个数据块的指纹；

当所述存储设备中没有查找到与所述n个数据块的指纹中任一指纹相同的指纹时，将所述n个数据块按照所述n个数据块的逻辑地址的顺序连续存储到第一存储区域；其中，所述第一存储区域中存储所述第一数据块的物理地址为第一物理地址；

将所述n个数据块的指纹的元数据按照所述n个数据块逻辑地址的顺序连续存储到第二存储区域；所述n个数据块的指纹中的任一指纹的元数据包括所述任一指纹以及所述第二存储区域中存储所述任一指纹的物理地址；

建立所述n个数据块的指纹中的每一指纹的元数据的地址标识与元数据的映射；

建立所述第一数据块的逻辑地址与聚合地址的映射，其中，所述聚合地址包括聚合数据块的物理地址和聚合指纹的元数据的地址标识；所述聚合数据块的物理地址包括所述第一物理地址以及所述第一存储区域中存储所述n个数据块的物理地址长度；所述聚合指纹的元数据的地址标识包括所述第一数据块的指纹的元数据的地址标识以及所述n个数据块的指纹的元数据的地址标识的数量。
根据权利要求17所述的存储设备，其特征在于，所述处理器具体用于建立所述第一数据块的逻辑地址与所述聚合数据块的物理地址和所述聚合指纹的元数据的地址标识的映射。
根据权利要求17所述的存储设备，其特征在于，所述处理器具体用于建立所述第一数据块的逻辑地址与所述聚合指纹的元数据的地址标识映射以及所述聚合指纹的元数据的地址标识与所述聚合数据块的物理地址的映射。
根据权利要求17所述的存储设备，其特征在于，所述处理器具体用于建立所述第一数据块的逻辑地址与所述聚合数据块的物理地址的映射以及所述聚合数据块的物理地址与所述聚合指纹的元数据的地址标识的映射。
根据权利要求17至20任一所述的存储设备，其特征在于，所述处理器还用于建立所述第一数据块的逻辑地址与所述聚合地址的映射之前，确定所述第一存储区域中存储的所述n个数据块的物理地址长度不超过存储设备的压缩窗口。
根据权利要求21所述的存储设备，其特征在于，所述处理器还用于根据所述压缩窗口压缩所述第一存储区域中存储的所述n个数据块。
根据权利要求17至20任一所述的存储设备，其特征在于，

所述接口还用于接收第二数据流；

所述处理器还用于：

划分所述第二数据流得到n个数据块；所述第二数据流的n个数据块的逻辑地址连续；所述第二数据流的n个数据块包括第二数据块，所述第二数据块的逻辑地址为所述第二数据流的n个数据块对应的逻辑地址中的首地址；

存储设备计算所述第二数据流的n个数据块得到所述第二数据流的n个数据块的指纹；

当所述存储设备查询所述第一数据流的n个数据块的指纹的元数据确定相同数据块序列位置中的所述第二数据流的n个数据块与所述第一数据块的n个数据块的指纹相同，则所述存储设备建立所述第二数据块的逻辑地址与所述聚合地址的映射；其中，所述数据块序列位置是指在所述第一数据流和所述第二数据流的任一数据流中，每一个数据块在n个数据块中的相对位置。
根据权利要求17所述的存储设备，其特征在于，所述处理器还用于建立所述第一数据流的所述n个数据块的指纹中的第一指纹的索引，所述第一指纹的索引包括所述第一指纹与所述第一指纹的元数据的地址标识的映射。