WO2014000458A1

WO2014000458A1 - 小文件处理方法及装置

Info

Publication number: WO2014000458A1
Application number: PCT/CN2013/072039
Authority: WO
Inventors: 叶林睿; 张宗全; 钟延辉
Original assignee: 华为技术有限公司
Priority date: 2012-06-28
Filing date: 2013-03-01
Publication date: 2014-01-03
Also published as: CN103514210A; CN103514210B

Abstract

本发明所提供的小文件处理方法，针对海量小文件的重复数据删除的处理，将小文件整合为一个大文件后，对整合后的大文件整体进行分块后，在分块的过程中，如果当前正在划分的数据块中，包括了任一个小文件的尾部时，需要以这个小文件的尾部作为当前数据分块的结束位置，对整合后的大文件分块完成后再作重复数据查找等操作，提高了小文件的重复数据删除效率。

Description

小文件处理方法及装置本申请要求于 2012 年 06 月 28 日提交中国专利局、申请号为 201210217046.X、发明名称为 "小文件处理方法及装置" 的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及文件处理技术，尤其涉及小文件处理方法及装置。

背景技术重复数据删除技术是存储系统中的一种新型应用。通过删除存储系统中重复的数据，只保留其中的一份，从而消除冗余数据。重删文件需要对文件进行分块、相似性分析、查询重复块等操作，那么，在对一个小文件进行重删时，都会耗费很多时间在消除小块冗余数据上，不仅耗时，而且占用系统资源。

现有技术中，在重删过程中，在对大量小文件的处理，通常釆用如下方式：将多个小文件按照一定方式合并为一个大文件，这个大文件头中记录小文件信息，用于大量小文件的存放与读取。

由于上述方法只是将小文件整合在一个大文件中，不对大文件进行重复数据删除，增加文件头记录小文件信息，增加了小文件的空间占用，对大文件的存放与读取操作速度较慢；而且只是减少了小文件的占用空间，对大于最小读写块的小文件没有作用。

发明内容本发明实施例提供小文件处理方法，应用在重复数据删除操作中，能够加快大量小文件重复数据删除速度、减少大量小文件占用空间。本发明实施例所提供的一种小文件处理方法，包括：

读取 N个小文件，其中，所述小文件为小于预置大小的小文件；

将所述读取的 N个小文件整合为一个大文件，利用滑动窗口对所述整合后的大文件进行分块；所述利用滑动窗口对所述整合后的大文件进行分块，包括：判断所述滑动窗口的结束位置是否是所述任一小文件的尾部，如果是，则将从上一个分块的结束位置到当前滑动窗口的结束位置之间的数据作为一个数据分块；如果否，则判断滑动窗口当前覆盖的数据，是否满足数据分块条件；如果满足所述分块条件，则将从上一个分块的结束位置到当前滑动窗口的结束位置之间的数据作为一个数据分块；如果不满足所述分块条件，则将所述滑动窗口移动一个字节，继续利用滑动窗口对所述整合后的大文件进行分块，直到完成对所述整合后大文件的数据分块；

根据预先设置的数据块元据数信息库，在得到的数据分块中确定重复块和新块；将确定得到的新块的元数据信息添加到所述的元数据信息库中，并将新块的数据添加到记录文件中，在所述元数据信息库中更新重复块的引用次数。

本发明实施例还提供一种小文件处理装置，包括：

读取单元，用于读取 N个小文件，其中，所述小文件为小于预置大小的小文件；

拆分单元，用于将所述读取的 N个小文件整合为一个大文件，对整合后的大文件进行数据分块；

确定单元，用于根据预先设置的数据块元数据信息库，在得到的数据分块中确定重复块和新块；

处理单元，将确定得到的新块的元数据信息添加到所述的元数据信息库中，并将新块的数据添加到记录文件中，在所述元数据信息库中更新重复块的引用次数；

其中，所述拆分单元，包括：

整合单元，用于将所述读取的小文件整合为一个大文件；

第一判断单元，用于判断所述滑动窗口的结束位置是否是所述任一小文件的尾部，如果是，将判断结果发送给拆分处理单元；如果否，将判断结果发送给第二判断单元；

第二判断单元，用于判断滑动窗口当前覆盖的数据，是否满足数据分块条件，如果是，将判断结果发送给拆分处理单元，如果否，将滑动窗口移动一个字节后，返回执行所述第一判断单元功能以继续利用滑动窗口对所述整合后的大文件进行分块，直到完成对所述整合后大文件的数据分块；

拆分处理单元，用于当判断所述滑动窗口的结束位置是所述任一小文件的尾部或者判断滑动窗口当前覆盖的数据满足数据分块条件时，将从上一个分块的结束位置到当前滑动窗口的结束位置之间的数据作为一个数据分块，并将滑动窗口移动一个字节后，返回执行所述第一判断单元功能以继续利用滑动窗口对所述整合后的大文件进行分块，直到完成对所述整合后大文件的数据分块。

本发明实施例提供小文件处理方法及装置，可针对海量小文件的重复数据删除的处理，将小文件整合为一个大文件后，对整合后的大文件整体进行数据分块后，再作重复数据查找等操作，提高了小文件的重复数据删除效率；减少磁盘空间的占用。

附图说明

图 1为本发明实施例提供的一种小文件处理方法的流程图；

图 2为本发明实施例提供的一种利用滑动窗口对整合得到的大文件进行分块的流程图；

图 3为本发明实施例提供的另一种小文件处理方法的流程图；

图 4为本发明实施例所提供的小文件处理方法的应用示意图；

图 5为本发明实施例所提供的一种小文件处理装置的结构示意图；图 6为本发明实施例提供的另一种小文件处理装置的结构示意图；图 7为本发明实施例提供的另一种小文件处理装置的结构示意图。

具体实施方式

图 1为本发明实施例一提供的小文件处理方法流程图，如图 1所示，该方法包括：

步骤 101、读取 N个小文件，其中小文件为小于 MkB的文件。

步骤 101的动作可以由重删管理进程 ( Management, MGT )来执行，可以釆用的方式为： MGT读取磁盘的同一目录下的 N个文件，这样做的优点在于读取速度快并且管理方便。而 M是一个可以根据需要人为定义的一个数值。 N表示小文件的个数，显然， N可以是大于 0的自然数。

步骤 103、将 N个小文件整合为一个大文件，利用滑动窗口对所述整合后的大文件进行分块；

其中，将所述读取的 N个小文件逻辑组合成一个大文件，也就是将 N个小文件看出是逻辑组合成大文件的 N部分，而这 N个小文件物理上分散的，只是在虚拟上看成一个文件，同时每个小文件的末尾是已知的。显然，整合后的大文件也就是对小文件整合后得到的大文件。其中，参见图 2, 利用滑动窗口对所述整合后的大文件进行分块，包括：步骤 1031 , 判断所述滑动窗口的结束位置是否是所述任一小文件的尾部，如果是，则进入步骤 1034; 如果否，则进入步骤 1033;

步骤 1033, 判断滑动窗口当前覆盖的数据，是否满足数据分块条件；如果满足所述分块条件，则进入步骤 1034; 如果不满足所述分块条件，则进入步骤 1035;

步骤 1034,将从上一个分块的结束位置到当前滑动窗口的结束位置之间的数据作为一个数据分块，并进入步骤 1035;

步骤 1035, 将所述滑动窗口移动一个字节，返回步骤 1031继续利用滑动窗口对所述整合后的大文件进行分块，直到完成对所述整合后大文件的数据分块。

其中，所述的将滑动窗口移动一个字节，是向数据的尾部方向滑动一个字节；所述的满足数据分块条件，包括对滑动窗口所覆盖的数据进行哈希值运算，判断哈希值是否满足进行分块的条件，或者是，通过判断滑动窗口所滑动的数据长度是否满足分块条件等等，方法很多，在此不再赘述。显然，所述的满足数据分块的条件中，不再包括判断所述滑动窗口的结束位置是否是所述任一小文件的尾部，判断是否将从上一个分块的结束位置到当前滑动窗口的结束位置之间的数据作为一个数据分块的情况。

本发明实施例中，对整合后的大文件进行数据分块，得到多个分块，其中，在分块的过程中，如果当前正在划分的数据块中，包括了任一个小文件的尾部时，需要以这个小文件的尾部作为当前数据分块的结束位置，以使可以对得到的数据分块通过组合后得到完整的小文件；例如，对两个小文件 filel和 file2整合为的一个大文件进行数据分块，得到分块 A, B, A三个数据分块，其中 filel 被划分为第一个数据分块 A, file2被划分为第二个数据分块 B和第三个数据分块 A, A组成 filel , BA组成 file2。不做限定，分块的主要目的在于后续找到文件中相同的块。对于每个分块的大小有上限和下限，也即最大分块和最小分块。其中，最大分块为 MkB, 也即不超过一个小文件的大小。分块可以是等长的也可以是不等长的，此处不做限定。步骤 105、根据预先设置的数据分块元数据信息库，在得到的数据分块中确定重复块和新块；

本发明实施例所述的重复块，指对大文件进行拆分得到的某一个数据块，判断预先设置的数据分块元数据信息库中的元数据信息，是否已经包含有该数据分块的元数据信息，若是，则判断得到在记录文件（存储真实有效地数据）中，已经包含了该数据块的信息，那么，该数据块就被认为是重复块；反之，则判断得到记录文件中没有包含该数据块的信息，则该数据块为新块。

其中，对拆分得到的数据分块，如何判断是新块还是重复块，可通过如下方式：根据将整合后大文件进行拆分得到的数据分块的特征信息，在元数据信息库中查询是否已经存储有相同的特征信息，如果有，说明与元数据信息库对应的记录文件中已经存储了该数据分块，则确定该数据分块为重复块；反之，则说明记录文件中没有存储该数据分块，则确定该数据分块为新块。新块和重复块的判断方式，还可以依赖其他现有技术，在此不再赘述。

步骤 107、将确定得到的新块的元数据信息添加到所述的元数据信息库中，并将新块的数据添加到记录文件中，在所述元数据信息库中更新重复块的引用次数。

本发明实施例中，当判断得到 N个数据块中的新块后，将新块的元数据信息添加到元数据信息库中，并将新块的数据添加到记录文件中；另外，对重复块可以记录被引用的次数。对新块和重复块的处理方式，类似现有技术，在此不再赘述。

本发明实施例还可以包括：

步骤 109、根据组成所述读取的小文件所需的数据块在记录文件中的地址，建立组成所述读取的小文件的数据块地址和小文件标识之间的对应关系。

这里，所述读取的小文件，也就是前面所读取的用于整合为大文件的 N个小文件；其中，步骤 109 , 本发明实施例可以通过以下方式：

步骤 1091：将所述得到的数据分块在记录文件中的地址信息存储到索引文件中。

其中，索引文件可以但不限于被命名为索引文件，该索引文件是用来保存 N个小文件整合后的大文件进行划分后得到的每个数据分块在记录文件中的地址信息，因此，索引文件中保存的都是指向记录文件中相应块的地址。步骤 1092、根据索引文件中组成所述读取的小文件所需的数据块在记录文件中的地址，建立组成所读取的小文件的数据块地址和小文件标识之间的对应关系。

建立组成所读取的小文件的数据块地址和小文件标识之间的对应关系的具体方式，本发明实施例釆用以下方式但并不限于此：

根据整合前一个小文件的不同数据块在记录文件中的地址，建立一个链接，每个链接对应一个所读取的小文件，按照每个链接对应的小文件的标识，将建立的链接分别重命名。

本实施例中建立的链接，可以是硬链接，使得实际存在的索引文件中的不同小文件只有一份，占用的物理空间也只有一份，但是却具有多个镜像。这样可以更为有效地节约磁盘空间。

本发明实施例对步骤 109的实现方式，仅举例说明，并不限于此。根据本发明实施例所提供的方式的启示，所提出的其他方式在此不再赘述。

本发明实施例所提供的小文件处理方法，针对海量小文件的重复数据删除的处理，将小文件整合为一个大文件后，对整合后的大文件整体进行分块后，再作重复数据查找等操作，提高了小文件的重复数据删除效率。参见附图 3 , 本发明实施例还提供一种小文件处理方法，和附图 1对应的实施例不同之处在于，在得到的数据分块中确定重复块和新块，还可以包括：步骤 104、将得到的数据分块进行相互比较，将得到的数据分块中相同的数据块删除至一份；

本实施例中，通过步骤 104 ,对整合后的大文件进行拆分得到的数据分块，先进行相互比较，确定 N个数据分块中的相同的数据块，并将相同的数据块删除。由此，可以进一步提高重复数据的查询效率。当然，将拆分得到的数据块进行相互之间的比较，可以在步骤 105之前完成，也可以在步骤 105之后完成，本发明实施例为了提高查询效率，以在步骤 105之前完成步骤 104为例。

另外，本发明实施例在步骤 109之后，还可以包括：

步骤 110, 接收读请求，读请求中包括欲读取的小文件标识，根据组成所读取的小文件的数据块地址和小文件标识之间的对应关系，从记录文件中读取组成小文件的数据块。本发明实施例所提供的小文件处理方法，针对海量小文件的重复数据删除的处理，将小文件整合为一个大文件后，对整合后的大文件整体进行分块后，再作重复数据查询、删除等操作，提高了小文件的重复数据删除效率，尤其是在进行重复块查询时，在所得的分块之间进行比较，提高了重复块的查询效率。

下面结合一个实例对本发明提供的文件重删的方法进行说明，如图 4所示的方法示意图， 4叚设 N为 5 , 也即 5个小文件，如图 5第一行所示的 filel、 file2、 file3、 file4以及 file5。本实施例中以每个小文件为单位对 5个小文件进行了一次性的分块处理，釆用的是变长分块的方法，将 5个小文件分成为： A、 B、 A、 B、 C、 E、 E、 D这 8个分块。其中， A组成 filel , BA组成 file2, BC组成 file3 , E组成 file4, ED组成 file5。釆用随机方式对上述几个分块进行釆样，得到釆样分块 A、 B、 C、 E、 D, 根据釆样分块的元数据信息对釆样分块与预置的数据分块元数据信息库中已知的数据块元数据信息分组进行相似性分析，得到相似度最高的分组： groupi。对上述 8个分块与相似度最高的分组之间进行重复块、新块的查询。得到重复块为 A、 B和 C, 新块为 £和0。将新块 E和 D写入相似度最高的分组中，并记录 A、 B、 C的引用次数。将新块 ED的真实数据添加到记录文件中。将组成整合前小文件的数据块地址存放到索引文件中，按照组成上述 5个小文件的数据块地址，也即 A组成 filel , BA组成 file2, BC组成 file3 , E 组成 file4, ED组成 file5, 将 A在记录文件中的地址信息、 B和 A在记录文件中的地址信息、 B和 C在记录文件中的地址信息， E在记录文件中的地址信息、 E和 D在记录文件中的地址信息记录存放在一个索引文件的文件头当中。根据整合前一个小文件不同数据块在记录文件中的地址，建立一个统一硬链接，从而从索引文件中做 N个硬链接，分别按照每个链接和小文件的标识之间的对应关系，将 N个链接分别重命名。用户读取小文件时，由读写驱动读出相应的文件数据即可。

本发明实施例提供的方案，将多个小文件作为一个整体进行分块、重复块查询、删除等动作，加快了小文件重删速率的同时，减少磁盘空间的占用。参见图 5, 本发明实施例还提供一种小文件处理装置，包括：

读取单元 41 , 用于读取 N个小文件，其中，所述小文件为小于预置大小小文件；拆分单元 42, 用于将所述读取的 N个小文件整合为一个大文件，对整合后的大文件进行数据分块；

确定单元 43 , 用于根据预先设置的数据块元数据信息库，在得到的数据分块中确定重复块和新块；

处理单元 44,将确定得到的新块的元数据信息添加到所述的元数据信息库中，并将新块的数据添加到记录文件中，在所述元数据信息库中更新重复块的引用次数；

本发明实施例中的装置和图 1对应的方法实施例的特征相对应，具体分块过程可参见附图 1对应的实施例中的描述。

参见图 6为另一种小文件处理装置的示意图，其中，拆分单元 42可以包括：整合单元 420, 用于将所述读取小文件整合为一个大文件；

第一判断单元 421 , 用于判断所述滑动窗口的结束位置是否是所述任一小文件的尾部，如果是，将判断结果发送给拆分处理单元；如果否，将判断结果发送给第二判断单元；

第二判断单元 422 , 用于判断滑动窗口当前覆盖的数据，是否满足数据分块条件，如果是，将判断结果发送给拆分处理单元，如果否，将滑动窗口移动一个字节后，返回执行所述第一判断单元功能以继续利用滑动窗口对所述整合后的大文件进行分块，直到完成对所述整合后大文件的数据分块；

拆分处理单元 423 , 用于当判断所述滑动窗口的结束位置是所述任一小文件的尾部或者判断滑动窗口当前覆盖的数据满足数据分块条件时，将从上一个分块的结束位置到当前滑动窗口的结束位置之间的数据作为一个数据分块，并将滑动窗口移动一个字节后，返回执行所述第一判断单元功能以继续利用滑动窗口对所述整合后的大文件进行分块，直到完成对所述整合后大文件的数据分块。

本发明实施例所提供的小文件处理装置，针对海量小文件的重复数据删除的处理，将小文件整合为一个大文件后，对整合后的大文件整体进行分块后，再坐重复数据查找等操作，有效提供了小文件的重复数据删除效率。参见图 7 , 本发明实施例还提供另一种小文件处理装置，其结构和图 6对应的实施例中装置的结构大致相同，与之相同的部分不再赘述。不同之处在于，还包括：

映射单元 55 ,用于根据组成所述读取的每个小文件所需的数据块在记录文件中的地址 ,建立组成所述读取的每个 d、文件的数据块地址和 d、文件标识之间的对应关系。

其中，映射单元 55 , 可以包括：

索引单元 551 , 用于存储至少 N个数据分块在记录文件中的地址信息；映射子单元 552 , 用于根据索引文件中组成所述读取的每个小文件所需的数据块在记录文件中的地址，建立组成所述读取的每个小文件的数据块地址和小文件标识之间的对应关系。

其中，映射子单元 552 , 可具体用于根据所述读取的每个一个小文件的不同数据块在记录文件中的地址，建立一个的链接，从而得到 N个链接且每个链接对应一个统一的小文件，按照每个链接对应的小文件的标识，将 N个链接分别重命名。

本发明实施例所提供的小文件处理装置，还可以包括：

请求处理单元 56, 用于接收读取 N个小文件中至少一个小文件的请求，读取请求中包括欲读取的小文件标识，根据组成统一小文件的数据块地址和小文件标识之间的对应关系，从记录文件中读取组成小文件的数据块。

利用本发明实施例所提供的小文件处理方法和装置，对读取的小文件整合为一个大文件后，对整合后的大文件进行整体进行分块后，再进行重复数据查找等操作，提高了小文件的重复数据删除效率。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括： ROM, RAM,磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

权利要求

1、一种小文件处理方法，其特征在于：

根据预先设置的数据块元据数信息库 ,在得到的数据分块中确定重复块和新块；

将确定得到的新块的元数据信息添加到所述的元数据信息库中，并将新块的数据添加到记录文件中，在所述元数据信息库中更新重复块的引用次数。

2、根据权利要求 1所述的方法，其特征在于，还包括：

根据组成所述读取的每个小文件所需的数据块在所述记录文件中的地址，建立组成所述读取的每个小文件的数据块地址和小文件标识之间的对应关系。

3、根据权利要求 2所述的方法，其特征在于，所述根据组成所述读取的每个小文件所需的数据块在记录文件中的地址，建立组成所述读取的每个小文件的数据块地址和小文件标识之间的对应关系，包括：

将所述得到的数据分块在记录文件中的地址信息存储到索引文件中；根据索引文件中组成所述读取的小文件所需的数据块在所述记录文件中的地址，建立组成所述读取的小文件的数据块地址和小文件标识之间的对应关系。

4、根据权利要求 2所述的方法，其特征在于，所述根据组成所述读取的每个小文件所需的数据块在记录文件中的地址，建立组成所述读取的每个小文件的数据块地址和小文件标识之间的对应关系，包括：

根据组成所述读取的一个小文件的所有数据块在记录文件中的地址，建立一个链接，每个链接对应一个所述读取的小文件，按照每个链接对应的小文件的标识，将建立的链接分别重命名。

5、根据权利要求 1-4任一所述的方法，其特征在于，所述根据预先设置的数据块元数据信息库，在得到的数据分块中确定重复块和新块，之前还包括：将得到的数据分块，进行相互比较，将得到的数据分块中相同的数据块删除至一份。

6、根据权利要求 1-4任一所述的方法，其特征在于，所述读取的 N个小文件为存储器中同一目录下的 N个小文件。

7、根据权利要求 2所述的方法，其特征在于，还包括：

接收读请求，所述读请求中包括欲读取的小文件标识，根据组成所述读取的小文件的数据块地址和小文件标识之间的所述对应关系 ,从记录文件中读取组成小文件的数据块。

8、一种小文件处理装置，其特征在于，包括：

其中，所述拆分单元，包括：

整合单元，用于将所述读取的小文件整合为一个大文件；

9、根据权利要求 8所述的装置，其特征在于，还包括：

映射单元，用于根据组成所述读取的每个小文件所需的数据块在所述记录文件中的地址，建立组成所述读取的每个小文件的数据块地址和小文件标识之间的对应关系。

10、根据权利要求 9所述的装置，其特征在于，还包括：

请求处理单元，用于接收读取所述 N个小文件中至少一个小文件的请求，读取请求中包括欲读取的小文件标识，根据组成统一小文件的数据块地址和小文件标识之间的对应关系，从所述记录文件中读取组成小文件的数据块。

11、根据权利要求 9所述的装置，其特征在于，所述映射单元，包括：索引单元，用于存储所述拆分得到的数据分块在所述记录文件中的地址信息；

映射子单元，用于根据索引文件中组成所读取的小文件所需的数据块在所述记录文件中的地址，建立组成所读取的小文件的数据块地址和小文件标识之间的对应关系。