WO2015078136A1

WO2015078136A1 - 去重复数据的恢复方法及装置

Info

Publication number: WO2015078136A1
Application number: PCT/CN2014/075850
Authority: WO
Inventors: 崔飞; 程佳佳; 程宁
Original assignee: 中兴通讯股份有限公司
Priority date: 2013-11-26
Filing date: 2014-04-21
Publication date: 2015-06-04
Also published as: CN104679746A; RU2016124319A; RU2665272C1

Abstract

提供了一种去重复数据的恢复方法及装置，其中，该方法包括：获取第一数据块所对应文件的第一访问次数，其中，第一访问次数表示当前同时访问文件的访问者数量；将第一访问次数分别和第一阈值以及第二阈值进行比较，其中，第一阈值小于第二阈值；根据比较结果，将第一数据块恢复到第一存储媒介或第二存储媒介，其中，在第一访问次数大于第一阈值且小于第二阈值时，将第一数据块恢复到第一存储媒介；在第一访问次数大于第二阈值时，将第一数据块恢复到第二存储媒介；第二存储媒介的访问效率高于第一存储媒介的访问效率。采用提供的上述技术方案，解决了相关技术中，对同一数据块的访问过度密集等问题，从而提高了对文件的访问效率。

Description

去重复数据的恢复方法及装置

技术领域本发明涉及通信领域，具体而言，涉及一种去重复数据的恢复方法及装置。背景技术目前现有的存储技术在去除重复数据时只能在本服务器内去除重复，不能利用高效的网络进行整个系统内的重复数据去除；另外当已经去除重复的数据库在访问量过大时，只是简单的进行回复数据来应对访问量过大引起的访问性能下降问题，这样仍然不能有效解决上述问题。并且，在去重复数据的恢复方案中，往外会造成对同一对数据块（chunk) 的访问过度密集，导致访问效率下降，影响分布式文件系统的运行效率。针对相关技术中的上述问题，目前尚未提出有效的解决方案。发明内容针对相关技术中，对同一数据块的访问过度密集等问题，本发明实施例提供了一种去重复数据的恢复方法及装置，以至少解决上述问题。根据本发明的一个实施例，提供了一种去重复数据的恢复方法，包括：获取第一数据块所对应文件的第一访问次数，其中，所述第一访问数表示当前同时访问所述文件的访问者数量；将所述第一访问次数分别和第一阈值以及第二阈值进行比较，其中，所述第一阈值小于第二阈值；根据比较结果，将所述第一数据块恢复到第一存储媒介或第二存储媒介，其中，在所述第一访问数大于第一阈值且小于第二阈值时，将所述第一数据块恢复到第一存储媒介；在所述第一访问数大于所述第二阈值时，将所述第一数据块恢复到第二存储媒介；所述第二存储媒介的访问效率高于所述第一存储媒介的访问效率。获取第一数据块所对应文件的第一访问次数之前，包括：获取所述第一数据块的第二访问次数，其中，第二访问数表示当前同时访问该第一数据块的访问者数量；在所述第二访问次数大于第三阈值时，查找所述第一数据块所对应的文件。获取所述第一数据块的第二访问次数之前，包括：获取所述第一数据块的特征信息，其中，所述特征信息用于表示仅所述第一数据块具有的内容；将所述特征信息通知给当前分布式文件系统以及与所述当前分布式文件系统相连的其它分布式文件系统，其中，所述特征信息用于对所述当前分布式文件系统以及所述其它分布式文件系统进行消重处理。将所述特征信息通知给当前分布式文件系统包括：将所述特征信息通知给所述当前分布式系统中的节点服务器。将所述第一数据块恢复到第一存储媒介或第二存储媒介，包括：对所述第一数据块进行复制，得到第二数据块；将所述第二数据块复制到所述第一存储媒介或第二存储媒介。将所述第二数据块复制到所述第一存储媒介或第二存储媒介之后，还包括：将所述第二访问次数减去所述第一访问次数，得到所述第一数据块的最新访问次数，以及将所述第一数据块的被引用计数减 1。根据本发明的另一个实施例，提供一种去重复数据的恢复装置，包括：第一获取模块，设置为获取第一数据块所对应文件的第一访问次数，其中，所述第一访问数表示当前同时访问所述文件的访问者数量；比较模块，设置为将所述第一访问次数分别和第一阈值以及第二阈值进行比较，其中，所述第一阈值小于第二阈值；恢复模块，设置为根据比较结果，将所述第一数据块恢复到第一存储媒介或第二存储媒介，其中，在所述第一访问数大于第一阈值且小于第二阈值时，将所述第一数据块恢复到第一存储媒介；在所述第一访问数大于所述第二阈值时，将所述第一数据块恢复到第二存储媒介；其中，所述第二存储媒介的访问效率高于所述第一存储媒介的访问效率。上述装置还包括：第二获取模块，设置为获取所述第一数据块的第二访问次数，其中，第二访问数表示当前同时访问该第一数据块的访问者数量；查询模块，设置为在所述第二访问次数大于第三阈值时，查找所述第一数据块所对应的文件。上述装置还包括：第三获取模块，设置为获取所述第一数据块的特征信息，其中，所述特征信息用于表示仅所述第一数据块具有的内容；通知模块，设置为将所述特征信息通知给当前分布式文件系统以及与所述当前分布式文件系统相连的其它分布式文件系统，其中，所述特征信息用于对所述当前分布式文件系统以及所述其它分布式文件系统进行消重处理。上述装置还包括：计数模块，设置为在将所述第二数据块复制到所述第一存储媒介或第二存储媒介之后，将所述第二访问次数减去所述第一访问次数，得到所述第一数据块的最新访问次数，以及将所述第一数据块的被引用计数减 1。通过本发明实施例，采用根据对第一数据块所对应文件的访问次数分别与第一阈值和第二阈值进行比较，根据比较结果确定将第一数据块恢复到第一存储媒体或第二存储媒介的技术手段，解决了相关技术中，对同一数据块的访问过度密集等问题，从而提高了对文件的访问效率。附图说明此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中- 图 1为根据本发明实施例的去重复数据的恢复方法的流程图；图 2为根据本发明实施例的去重复数据的恢复装置的结构框图；图 3为根据本发明实施例的去重复数据的恢复装置的另一结构框图；图 4为根据本发明优选实施例的分布式文件系统的结构框图；图 5为根据本发明优选实施例的数据块的消重流程示意图；图 6为根据本发明优选实施例的数据块的恢复流程示意图；图 7为根据本发明优选实施例的去重复数据的恢复方法的流程图；以及图 8为根据本发明优选实施例的去重复数据的恢复方法的另一流程图。具体实施方式下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。以下实施例可以应用到计算机中，例如应用到 PC 中。也可以应用到目前采用了智能操作系统中的移动终端中，并且并不限于此。对于计算机或移动终端的操作系统并没有特殊要求，只要支持应用程序的运行即可。例如，以下实施例可以应用到 Windows操作系统中。图 1为根据本发明实施例的去重复数据的恢复方法的流程图。如图 1所示，该方法包括：步骤 S102, 获取第一数据块所对应文件的第一访问次数，其中，该第一访问数表示当前同时访问上述文件的访问者数量；在本实施例中，为了进一步提高对数据块的访问效率，在步骤 S1 02之前，还需要考虑第一数据块的访问次数，具体地：获取第一数据块的第二访问次数，其中，第二访问数表示当前同时访问该第一数据块的访问者数量；在第二访问次数大于第三阈值时，查找第一数据块所对应的文件；获取文件的第一访问次数。为了实现跨系统以及跨服务器的消重处理，还需要执行以下处理过程：获取上述第一数据块的特征信息，其中，上述特征信息用于表示仅上述第一数据块具有的内容；将上述特征信息通知给当前分布式文件系统以及与上述当前分布式文件系统相连的其它分布式文件系统，其中，上述特征信息用于对上述其它分布式文件系统进行消重处理。其中，对于跨服务器进行消重之前，需要将上述特征信息通知给当前分布式系统中的节点服务器。步骤 S104,将第一访问次数分别和第一阈值以及第二阈值进行比较，其中，第一阈值小于第二阈值；步骤 S106, 根据比较结果，将第一数据块恢复到第一存储媒介或第二存储媒介，其中，在第一访问数大于第一阈值且小于第二阈值时，将第一数据块恢复到第一存储媒介；在第一访问数大于第二阈值时，将第一数据块恢复到第二存储媒介；上述第二存储媒介的访问效率高于上述第一存储媒介的访问效率。将第一数据块恢复到第一存储媒介或第二存储媒介可以表现为以下处理过程：对第一数据块进行复制，得到第二数据块；将第二数据块复制到第一存储媒介或第二存储媒介。在将第二数据块复制到上述第一存储媒介或第二存储媒介之后，将上述第二访问次数减去上述第一访问次数，得到上述第一数据块的最新访问次数，以及将上述第一数据块的被引用计数减 1。在本实施例中还提供了一种去重复数据的恢复装置，用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述，下面对该装置中涉及到的模块进行说明。如以下所使用的，术语 "模块"可以实现预定功能的软件和 /或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。图 2为根据本发明实施例的去重复数据的恢复装置的结构框图。如图 2所示，该装置包括：第一获取模块 20，设置为获取第一数据块所对应文件的第一访问次数，其中，第一访问数表示当前同时访问上述文件的访问者数量；比较模块 22，连接至第一获取模块 20，设置为将第一访问次数分别和第一阈值以及第二阈值进行比较，其中，第一阈值小于第二阈值；恢复模块 24，连接至比较模块 22，设置为根据比较结果，将第一数据块恢复到第一存储媒介或第二存储媒介，其中，在第一访问数大于第一阈值且小于第二阈值时，将第一数据块恢复到第一存储媒介；在第一访问数大于第二阈值时，将第一数据块恢复到第二存储媒介；其中，第二存储媒介的访问效率高于第一存储媒介的访问效率。在本实施例中，如图 3所示，上述装置还包括：第二获取模块 26，设置为获取上述第一数据块的第二访问次数，其中，第二访问数表示当前同时访问该第一数据块的访问者数量；查询模块 28，连接至第二获取模块 26，设置为在第二访问次数大于第三阈值时，查找第一数据块所对应的文件。可选地，如图 3所示，上述装置还可以包括以下处理模块：第三获取模块 30，设置为获取上述第一数据块的特征信息，其中，上述特征信息用于表示仅上述第一数据块具有的内容；通知模块 32，设置为将上述特征信息通知给当前分布式文件系统以及与上述当前分布式文件系统相连的其它分布式文件系统，其中，上述特征信息用于对上述当前分布式文件系统以及上述其它分布式文件系统进行消重处理。此处 "相连" 的含义可以为：两者可以进行通信。可选地，如图 3所示，上述装置还可以包括以下处理模块：计数模块 34，设置为在将第二数据块复制到上述第一存储媒介或第二存储媒介之后，将上述第二访问次数减去上述第一访问次数，得到上述第一数据块的最新访问次数，以及将上述第一数据块的被引用计数减 1 为了更好地理解上述实施例，以下结合优选实施例详细说明。实施例 1 图 4为根据本发明优选实施例的分布式文件系统的结构框图。如图 4所示，该系统包括：元数据服务器 40: 负责管理本文件系统内所有文件的文件名、数据块等元数据信息；并向文件访问客户端提供元数据写入和查询等操作；在原有的元数据 chunk的基础上，为了实现消重功能，增加了元数据 chu nk引用计数器，例如， A文件的某个 chu nk 与 B文件的 chunk内容相同，需要做消重，则可以把 B文件的 chunk删除，把 B文件指向 A文件的 chunk, 通过把 A文件的 chunk引用计数加 1；同时根据该 chunk的正在读写进行计数，记录正在操作该 chunk的数量，当超过配置的门限值的时候则要求文件定位寄存器进行该消重 chunk进行恢复，以应对访问数量过大的问题；文件访问客户端 42:负责为本文件系统面向的应用程序提供类似于标准文件系统的接口调用服务；文件访问服务器 44: 负责与本文件系统内的存储介质进行交互，进行实际数据块的读写操作；响应文件访问客户端的数据读写请求，从存储媒介上读取数据并返回给文件访问客户端；从文件访问客户端读取数据并写入存储媒介；文件定位寄存器 46: 负责文件访问控制，数据文件分布和各种数据的管理；文件定位寄存器中还可以包括恩及映射数据库，负责把保存文件和 chunk的映射表，同时统计文件同时访问数；存储媒介 48 : —般为以下之一：普通的电子集成驱动器（Integrqated Drive Elcetronics, 简称为 IDE ) 磁盘、串行高级技术附件（Serial Advanced Technology Attachment, 简称为 SATA) 磁盘、安全数码 (Secure Digital , 简称为 SD)磁盘、固态硬盘（Solid State Disk, 简称为 SSD ) 磁盘。当用户需要读写文件的时候，把读写操作指令发到文件访问客户端，然后通过文件定位寄存器和元数据服务器得到该文件所对应的 chunk信息，最后通过文件访问服务器把具体文件磁盘信息返回给用户。具体地，上述过程可以表现为以下处理过程：步骤 A. 文件定位寄存器定时向元数据服务器查询是否有 chunk没有计算指纹，如果有，则返回需要计算指纹的 chunk, 寄存器通知访问服务器计算指纹，寄存器把计算的指纹通知本系统的元数据服务器和与之相连的其他系统的寄存器，这样只要与该寄存器相连的数据库都可以进行消重操作，从而实现跨服务器的 chunk消重；步骤 B. 元数据服务器统计 chunk A的访问数，如果同时访问数大于阈值 n时，通知文件定位寄存器，寄存器到文件映射数据库上查找到该 chunk对应的文件；步骤 C. 映射数据库计算找到文件的同时访问数，如果该文件同时访问数大于普通访问阈值且小于性能阈值，则通知寄存器把 chunk恢复到普通磁盘上，如果大于性能阈值则恢复到 SSD磁盘上；步骤 D. 文件定位寄存器通知元数据服务器新增加 chunk, 并告诉服务器需要恢复的文件的访问数，元数据服务器创建 chunk B，同时把原来 chunk的访问数减去文件访问数和引用计数减 1 ; 步骤 E. 文件定位寄存器根据需要拷贝的信息，通知文件访问服务器把文件拷贝到对应的存储媒介（例如普通磁盘或者 SSD磁盘）上。为了更好地理解上述实现过程，以下结合图 5和图 6详细说明。如图 5所示，文件定位寄存器定时向本服务器的元数据服务器查是否有 chunk需要计算指纹，如果有则返回需要计算的 chunk, 寄存器到访问服务器计算指纹，然后把计算的指纹发给本服务器的元数据服务器和临接节点的服务器，然后通过各自元数据查询来实现各自服务器的消重目的，由此可见，本发明实施例不仅实现了本服务器的消重还通过消息连接来实现整个系统的服务器的消重，从而解决了消重的效率问题并比老的单服务器更加节省空间。具体实现流程如下：步骤 S502, 定期查询是否有 chunk没有计算指纹；

S504, 返回需要计算指纹的 chunkA; S506，把返回的 chunkA通知计算指纹；

S508, 通知计算的指纹值；

S51 0, 通知计算的指纹值，要求查找是否有需要消重的 chunkA; S51 2，返回需要删除的 chunkB; S514，通知 chunkA的指纹值，查找 B上是否有相同的； S51 6, 通知计算的指纹值，要求查找是否有需要消重的 chunkA;

S51 8，返回需要删除的 chunkC; S520，通知把 chunkB对应的文件映射到 chunkA上； S522，映射成功； S524，通知删除 chunkB;

S526, 删除成功，通知把 chunkB对应的文件映射到 chunkA上； S528, 映射成功；

S530, 通知删除 chunkB;

S532，删除成功。如图 6所示，元数据服务器对所保存的 chunk进行访问计数，当 chunk的访问计数超过阈值 n时，则把该 chunk信息上报到文件定位寄存器，文件寄存器根据 chunk 找到对应的占用该 chunk的文件，并对所有文件的访问数进行排序，如果有文件访问数大于普通访问阈值但是小于把文件性能阈值，则直接恢复到普通磁盘，如果文件访问数大于性能阈值，则把该文件对应消重的 chunk恢复到访问效率高的固态磁盘上。具体实现流程如下：

S602, 统计 chunk同时访问数大于阈值 n ( n为自然数），如果大于 n，且引用计数大于 1，则通知寄存器；

S604, 根据 chunk找到对应的文件 fileid;

S606，找到的 fileid的正在访问数大于 I，但小于 m ( m为自然数），则要求寄存器恢复 chunk到普通磁盘，如果大于 m则恢复到 sd磁盘；

S608, 把 chunk B映射到需要恢复的文件上； S61 0, 返回成功；

S61 2, 通知新增加 chunk, 并把原 chunk的引用计数减 1；

S61 4, 返回新增加的 chunk B;

S61 6，拷贝 chunk信息到普通磁盘或者 sd磁盘；

S61 8, 返回成功; S620，进行拷贝。实施例 2 在打开文件的时候，文件访问客户端把文件信息发送到默认的文件系统的定位寄存器后，定位寄存器通过映射数据库查到该文件所对应的 chunk, 发现该 chunk并不是本系统保存的，则通知访问客户端到该 chunk所在的文件系统去查询，这样就很容易的实现跨系统的文件访问；通过打开文件 file A, 举例说明本发明的一个实施的方式。如图 7所示，包括以下处理步骤：步骤 S702: 打开文件 file A; 步骤 S704: 根据 file A查 chunk, 同时统计该文件的访问数；步骤 S706: 返回 chunk A; 步骤 S708: 通知统计 chunk A的同时访问数；步骤 S710: 发现 chunk A的同时访问数大于访问阈值 n，且引用计数大于 1；步骤 S712: 根据 chunk A，查找对应的文件；步骤 S714: 返回 chunk A对于的文件 file A和 file B，其中 file A的访问数大于性能阈值 m; 步骤 S716: 通知新增加 chunk, 并告诉 file A的访问数; 步骤 S718: 返回新增加的 chunk B，并把 chunkA的访问数减去 file A的访问数，同时把 chunkA的引用计数减 1和 file A与 chunkA的映射关系解除；步骤 S720: 通知 {^ 与 1^1^进行映射；步骤 S722: 文件数据库返回映射成功；步骤 S724: 通知把 chunk A的内容拷贝到 chunk B上，并把 chunk B拷贝到 ssd 磁盘上以增加访问效率；步骤 S726: 文件访问服务器返回拷贝成功；步骤 S728: 定位寄存器返回 chunk B。通过打开文件 file A，在打开过程中发现该文件对应的 chunk别的文件的访问数也超过阈值的一个实施的方式。如图 8所示：步骤 S802: 打开文件 file A; 步骤 S804: 根据 file A查 chunk, 同时统计该文件的访问数；步骤 S806: 返回 chunk A; 步骤 S808: 通知统计 chunk A的同时访问数；步骤 810: 发现 chunk A的同时访问数大于访问阈值 n，且引用计数大于 1；步骤 S812: 根据 chunk A, 查找对应的文件；步骤 S814: 返回 chunk A对于的文件 file A和 file B, 其中 fileB的访问数大于性能阈值 m， file A的访问数大于普通阈值 I；步骤 S816: 通知新增加 chunk, 并告诉 file A的访问数；歩骤 S818: 返回新增加的 chunk B，并把 chunkA的访问数减去 file A的访问数，同时把 chunkA的引用计数减 1和 file A与 chunkA的映射关系解除；步骤 S820: 通知 ^ 与 |^1^进行映射；步骤 S822: 文件数据库返回映射成功；步骤 S824: 通知新增加 chunk, 并告诉 file B的访问数；步骤 S826:返回新增加的 chunk C，并把 chunkA的访问数减去 file B的访问数，同时把 chunkA的引用计数减 1和 file B与 chunkA的映射关系解除；步骤 S828: 通知 file B与 chunkC进行映射；步骤 S830: 文件数据库返回映射成功；步骤 S832:通知把 chunk A的内容拷贝到 chunk B上,此时由于是超过普通阈值，则拷贝在普通磁盘上；步骤 S834: 文件访问服务器返回拷贝成功；步骤 S836: 定位寄存器返回 chunk B; 步骤 S838:在操作 fileA的同时通知把 chunk A的内容拷贝到 chunk C上,此时由于是超过性能阈值，则拷贝在 ssd磁盘上；步骤 S840: 文件访问服务器返回拷贝成功。综上所述，本发明实施例实现了以下有益效果：本发明实施例针对相关技术中，由于消重导致访问同一数据块过度密集，导致访问效率下降的问题，通过统计 chunk的同时访问数和文件的同时访问数来判断访问是否密集，同时把文件访问分级为普通访问数和性能访问数，根据这两个值把 chunk恢复到普通磁盘和 ssd磁盘，从而根据访问数来分级恢复 chunk, 做到效率与经济的合一。另外，直接通过对元数据的消重，增加了消重的粒度，并实现跨系统的消重，更加节省磁盘空间，同时利用引用计数的做法，可以在修改 chunk的时候减少查找文件映射表的机率，增加系统运行的效率。在另外一个实施例中，还提供了一种软件，该软件用于执行上述实施例及优选实施方式中描述的技术方案。在另外一个实施例中，还提供了一种存储介质，该存储介质中存储有上述软件，该存储介质包括但不限于：光盘、软盘、硬盘、可擦写存储器等。显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。工业实用性本发明提供的上述技术方案，可以应用于去重复数据的恢复过程中，采用根据对第一数据块所对应文件的访问次数分别与第一阈值和第二阈值进行比较，根据比较结果确定将第一数据块恢复到第一存储媒体或第二存储媒介的技术手段，解决了相关技术中，对同一数据块的访问过度密集等问题，从而提高了对文件的访问效率。

Claims

权利要求书

1. 一种去重复数据的恢复方法，包括：

获取第一数据块所对应文件的第一访问次数，其中，所述第一访问数表示当前同时访问所述文件的访问者数量；

将所述第一访问次数分别和第一阈值以及第二阈值进行比较，其中，所述第一阈值小于第二阈值；

根据比较结果，将所述第一数据块恢复到第一存储媒介或第二存储媒介，其中，在所述第一访问数大于所述第一阈值且小于所述第二阈值时，将所述第一数据块恢复到所述第一存储媒介；在所述第一访问数大于所述第二阈值时，将所述第一数据块恢复到所述第二存储媒介；所述第二存储媒介的访问效率高于所述第一存储媒介的访问效率。

2. 根据权利要求 1所述的方法，其中，获取第一数据块所对应文件的第一访问次数之前，包括：获取所述第一数据块的第二访问次数，其中，第二访问数表示当前同时访问该第一数据块的访问者数量；在所述第二访问次数大于第三阈值时，查找所述第一数据块所对应的文件。

3. 根据权利要求 2所述的方法，其中，获取所述第一数据块的第二访问次数之前，包括：

获取所述第一数据块的特征信息，其中，所述特征信息用于表示仅所述第一数据块具有的内容；

将所述特征信息通知给当前分布式文件系统以及与所述当前分布式文件系统相连的其它分布式文件系统，其中，所述特征信息用于对所述当前分布式文件系统以及所述其它分布式文件系统进行消重处理。

4. 根据权利要求 3所述的方法，其中，将所述特征信息通知给当前分布式文件系统包括：

将所述特征信息通知给所述当前分布式系统中的节点服务器。

5. 根据权利要求 2所述的方法，其中，将所述第一数据块恢复到第一存储媒介或第二存储媒介，包括：

对所述第一数据块进行复制，得到第二数据块；

将所述第二数据块复制到所述第一存储媒介或第二存储媒介。

6. 根据权利要求 5所述的方法，其中，将所述第二数据块复制到所述第一存储媒介或第二存储媒介之后，还包括：

将所述第二访问次数减去所述第一访问次数，得到所述第一数据块的最新访问次数，以及将所述第一数据块的被引用计数减 1。

7. 一种去重复数据的恢复装置，包括：

第一获取模块，设置为获取第一数据块所对应文件的第一访问次数，其中，所述第一访问数表示当前同时访问所述文件的访问者数量；

比较模块，设置为将所述第一访问次数分别和第一阈值以及第二阈值进行比较，其中，所述第一阈值小于第二阈值；

恢复模块，设置为根据比较结果，将所述第一数据块恢复到第一存储媒介或第二存储媒介，其中，在所述第一访问数大于第一阈值且小于第二阈值时，将所述第一数据块恢复到第一存储媒介；在所述第一访问数大于所述第二阈值时，将所述第一数据块恢复到第二存储媒介；其中，所述第二存储媒介的访问效率高于所述第一存储媒介的访问效率。

8. 根据权利要求 7所述的装置，其中，还包括：第二获取模块，设置为获取所述第一数据块的第二访问次数，其中，第二访问数表示当前同时访问该第一数据块的访问者数量；

查询模块，设置为在所述第二访问次数大于第三阈值时，查找所述第一数据块所对应的文件。

9. 根据权利要求 8所述的装置，其中，还包括：第三获取模块，设置为获取所述第一数据块的特征信息，其中，所述特征信息用于表示仅所述第一数据块具有的内容；

通知模块，设置为将所述特征信息通知给当前分布式文件系统以及与所述当前分布式文件系统相连的其它分布式文件系统，其中，所述特征信息用于对所述当前分布式文件系统以及所述其它分布式文件系统进行消重处理。根据权利要求 9所述的装置，其中，还包括：计数模块，设置为在将所述第二数据块复制到所述第一存储媒介或第二存储媒介之后，将所述第二访问次数减去所述第一访问次数，得到所述第一数据块的最新访问次数，以及将所述第一数据块的被引用计数减 1。