WO2011140991A1

WO2011140991A1 - 分布式文件系统的文件处理方法及装置

Info

Publication number: WO2011140991A1
Application number: PCT/CN2011/073986
Authority: WO
Inventors: 陈善席; 周伟
Original assignee: 华为技术有限公司
Priority date: 2010-10-27
Filing date: 2011-05-12
Publication date: 2011-11-17
Also published as: US20130073522A1; CN102142006A; US9229950B2; CN102142006B

Description

分布式文件系统的文件处理方法及装置本申请要求 2010年 10月 27日递交的申请号为 201010522838.9、发明名称为 "分布式文件系统的文件处理方法及装置"的中国专利申请的优先权，其全部内容通过引用结合在本申请中。技术领域

本发明涉及存储技术领域，尤其涉及分布式文件系统的文件处理方法及装置。背景技术

目前操作系统所包含的文件系统功能，负责将系统、应用及最终用户需要持久化的内容进行组织，将它们保存于本地存储设备，并提供在访问权限的控制下对这些持久化后的内容进行读取、修改、删除、转移等功能。随着存储与网络技术的发展，文件系统在组成方式与实现依赖上出现了较大变化。

现有技术提供了一种分布式文件系统，它采用将所管理文件的每个分块以多个副本的方式来保存，以保证文件内容的可靠性。在整个系统中，任何一个副本是有效的，即表示这个数据是有效的，用户可以成功访问这个数据。这种独立副本提供的可靠性方式，属于可靠性模型中的并联系统。并联系统是一个可靠性增加的系统，通过并联的方式来提供可靠性。

但是，上述现有技术为了保证较高的可靠性，通过对文件分块，然后将分块按直接冗余方式在多个数据存储服务器上保存，使得存储空间利用率低，带来高昂的系统构造成本。特别是在单个数据存储服务器成本不菲的情况下，直接冗余将导致较高的成本，使得系统难以构建。发明内容

本发明实施例提供一种分布式文件系统的文件处理方法，用以提高存储空间利用率，降低分布式文件系统的构造成本，该方法包括- 根据文件大小对文件进行至少一个数据组的分割，确定文件至所述至少一个数据组的第一映射信息，其中每一数据组包括文件的内容分块和校验分块；

确定各个数据组至保存所述各个数据组的数据存储服务器的第二映射信息；将所述第一映射信息和所述第二映射信息提供给客户端进行文件的写入操作。本发明实施例还提供一种分布式文件系统的文件处理方法，用以提高存储空间利用率，降低分布式文件系统的构造成本，该方法包括：

获得文件至至少一个数据组的第一映射信息，和各个数据组至保存所述各个数据组的数据存储服务器的第二映射信息，其中所述至少一个数据组根据文件大小对文件进行分割形成，每一数据组包括文件的内容分块和校验分块；

根据所述第一映射信息，将文件进行内容分块，生成文件的内容分块；

根据所述第一映射信息，生成各数据组的校验分块；

根据所述第二映射信息，将生成的内容分块及校验分块发送给数据存储服务器进行保存。

本发明实施例还提供一种分布式文件系统的文件处理方法，用以在分布式文件系统的存储空间利用率较高、构造成本较低的情况下提高分布式文件系统的可用性，该方法包括：

恢复路径上的数据存储服务器获得所述恢复路径的相关信息；所述恢复路径根据丢失分块所在数据组内的有效分块、保存所述有效分块的数据存储服务器、和为失效的数据存储服务器选择的替代的数据存储服务器生成；所述恢复路径上最后一个数据存储服务器为所述替代的数据存储服务器；所述丟失分块保存于失效的数据存储服务器；所述恢复路径上的数据存储服务器根据所述恢复路径的相关信息，进行丟失分块的计算和保存。

本发明实施例还提供一种分布式文件系统的元数据服务器，用以提高存储空间利用率，降低分布式文件系统的构造成本，该元数据服务器包括：

数据组分割模块，用于根据文件大小对文件进行至少一个数据组的分割，确定文件至所述至少一个数据组的第一映射信息，其中每一数据组包括文件的内容分块和校验分块；

存储映射确定模块，用于确定各个数据组至保存所述各个数据组的数据存储服务器的第二映射信息；

元数据维护模块，用于将所述第一映射信息和所述第二映射信息提供给客户端进行文件的写入操作。

本发明实施例还提供一种分布式文件系统的客户端，用以提高存储空间利用率，降低分布式文件系统的构造成本，该客户端包括：文件处理模块，用于获得文件至至少一个数据组的第一映射信息，和各个数据组至保存所述各个数据组的数据存储服务器的第二映射信息，其中所述至少一个数据组根据文件大小对文件进行分割形成，每一数据组包括文件的内容分块和校验分块；以及，根据所述第一映射信息，将文件进行内容分块，生成文件的内容分块；

冗余校验模块，用于根据所述第一映射信息，生成各数据组的校验分块；块读写模块，用于根据所述第二映射信息，将生成的内容分块及校验分块发送给数据存储服务器进行保存。

本发明实施例还提供一种分布式文件系统的数据存储服务器，用以在分布式文件系统的存储空间利用率较高、构造成本较低的情况下提高分布式文件系统的可用性，该数据存储服务器包括：

恢复路径信息获得模块，用于获得所述恢复路径的相关信息；所述恢复路径根据丢失分块所在数据组内的有效分块、保存所述有效分块的数据存储服务器、和为失效的数据存储服务器选择的替代的数据存储服务器生成；所述恢复路径上最后一个数据存储服务器为所述替代的数据存储服务器；所述丢失分块保存于失效的数据存储服务器；丟失分块处理模块，用于根据所述恢复路径的相关信息，进行丢失分块的计算和保存。

本发明实施例还提供一种分布式文件系统，用以提高存储空间利用率，降低分布式文件系统的构造成本，该分布式文件系统包括：

元数据服务器，用于根据文件大小对文件进行至少一个数据组的分割，确定文件至所述至少一个数据组的第一映射信息，其中每一数据组包括文件的内容分块和校验分块；确定各个数据组至保存所述各个数据组的数据存储服务器的第二映射信息；发送所述第一映射信息和所述第二映射信息；

客户端，用于获得元数据服务器发送的所述第一映射信息和所述第二映射信息；根据所述第一映射信息，将文件进行内容分块，生成文件的内容分块；根据所述第一映射信息，生成各数据组的校验分块；根据所述第二映射信息，发送生成的内容分块及校验分块；

数据存储服务器，用于接收并保存客户端发送的内容分块及校验分块。

本发明实施例中，根据文件大小对文件进行至少一个数据组的分割，其中每一数据组包括文件的内容分块和校验分块，建立文件至所述至少一个数据组的第一映射信息，和各个数据组至保存所述各个数据组的数据存储服务器的第二映射信息，客户端根据所述第一映射信息生成文件的内容分块和各数据组的校验分块，根据所述第二映射信息将内容分块和校验分块保存至相应的数据存储服务器，相对于现有技术中以副本方式保存文件的技术方案，可大大提高存储空间利用率，降低分布式文件系统的构造成本。

本发明实施例中，分布式文件系统的恢复是通过恢复路径，由恢复路径上的数据存储服务器进行丢失分块的计算和保存，无需重新进行数据组的更新，而是根据数据组内的有效分块计算丢失分块即可，可以避免产生大量的读写与计算操作，在分布式文件系统的存储空间利用率较高、构造成本较低的情况下提高分布式文件系统的可用性。附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附图中：

图 1为本发明实施例中分布式文件系统的文件处理方法的流程图；

图 2为本发明实施例中数据组的组成示意图；

图 3为本发明实施例中根据文件大小对文件进行至少一个数据组的分割的流程图；图 4为本发明实施例中另一分布式文件系统的文件处理方法的流程图；

图 5为本发明实施例中文件写入过程的示意图；

图 6为本发明实施例中数据恢复过程的示意图；

图 7为本发明实施例中又一分布式文件系统的文件处理方法的流程图；

图 8为本发明实施例中分布式文件系统的元数据服务器的结构图；

图 9为本发明实施例中以副本方式保存文件的技术方案中元数据服务器的示意图；图 10为本发明实施例中元数据服务器的具体实例的示意图；

图 11为本发明实施例中分布式文件系统的客户端的结构图；

图 12为本发明实施例中以副本方式保存文件的技术方案中客户端的示意图；图 13为本发明实施例中客户端的具体实例的示意图；

图 14为本发明实施例中分布式文件系统的数据存储服务器的结构图；

图 15为本发明实施例中以副本方式保存文件的技术方案中数据存储服务器的示意图；

图 16为本发明实施例中数据存储服务器的具体实例的示意图：图 17为本发明实施例中分布式文件系统的结构图。具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

如图 1所示，本发明实施例中，分布式文件系统的文件处理方法可以包括：步骤 101、根据文件大小对文件进行至少一个数据组的分割，确定文件至所述至少一个数据组的第一映射信息，其中每一数据组包括文件的内容分块和校验分块；

步骤 102、确定各个数据组至保存所述各个数据组的数据存储服务器的第二映射信息；

步骤 103、将所述第一映射信息和所述第二映射信息提供给客户端进行文件的写入操作。

由图 1所示流程可以得知，本发明实施例中，根据文件大小对文件进行至少一个数据组的分割，其中每一数据组包括文件的内容分块和校验分块，建立文件至所述至少一个数据组的第一映射信息，和各个数据组至保存所述各个数据组的数据存储服务器的第二映射信息，将所述第一映射信息和所述第二映射信息提供给客户端进行文件的写入操作，相对于现有技术中以副本方式保存文件的技术方案，可大大提高存储空间利用率，降低分布式文件系统的构造成本。

比较而言，若现有技术中以副本方式保存文件的技术方案，将所管理文件的每个分块以 N个副本的方式来保存，则存储空间利用率为 1/N; 而本发明实施例选择文件的内容分块和校验分块构成数据组来对文件进行管理，数据组包含：文件的 N个内容分块，以及为这 N个内容分块生成的校验分块，可以称为 N+1数据组，存储空间利用率可达到 N/(N+1)。这对于由较高可靠性的数据存储服务器硬件组成的分布式文件系统来说，可以大大降低系统的构建成本。

另外，本发明实施例根据文件大小对文件进行至少一个数据组的分割，数据组个数灵活可变且分块与文件内容相关，能够适应分布式文件系统灵活多变的发展需求。在本发明实施例的分布式文件系统内，任何数据组的分块个数是变化的- 任何数据组的分块只存在于一个文件内；

不同的文件，其内部数据组的分块个数由文件的尺寸决定。因此，本发明实施例中，每个文件的冗余可能是不同的。如图 2所示， File-i的数据组为四个文件内容分块加一个校验分块，这种数据组是（4+1 ) 的冗余模式，它所占用的系统存储空间的利用率在 80%; File-j的数据组为三个文件内容分块加一个校验分块，这种数据组是（3+1 ) 的冗余模式，它所占用的系统存储空间的利用率为 75%。

图 1 所示流程可由能够实现其功能的装置实施，例如该装置可以是元数据服务器等。下面的实施例中以由元数据服务器实施图 1所示流程为例进行说明。

具体实施时，在根据文件大小对文件进行至少一个数据组的分割，确定文件至所述至少一个数据组的第一映射信息时，可以先根据文件大小和分块大小计算文件的内容分块个数；再根据所述文件的内容分块个数和预设的数据组内分块个数界限值，确定所述至少一个数据组的个数及组成。

例如，可以按如下公式计算文件的内容分块个数：

c = {m + b— V) l b . 其中， M为文件大小， ^δ为分块大小， c为文件的内容分块个数；

所述根据文件的内容分块个数和预设的数据组内分块个数界限值，确定所述至少一个数据组的个数及组成，包括- 若 ^{c <} ，则确定所述至少一个数据组的个数为 1，且该数据组由 ^c个内容分块、个空白块和 1个校验分块组成；若^^ ^，则确定所述至少一个数据组的个数为 g ^ + —s^^—¹) , 其中前 g— ¹ 个数据组由 - 1个内容分块和 1个校验分块组成；最后一个数据组由内容分块、空白块和校验分块组成，其中内容分块个数小于< - 1、校验分块个数为 1 ;

其中， ^，为预设的数据组内分块个数界限值，为预设的数据组内分块个数下限值，为预设的数据组内分块个数上限值。

这些数据组的个数及组成即可形成文件的管理元数据。上述， )可以根据针对具体应用环境对可靠性与性能提出的不同要求而设置。针对由较低可靠性的独立存储服务器硬件构成的分布式文件系统，如果需要此系统提供较高的可靠性，则可以使用较小值组成数据组内分块个数界限值针对由较高可靠性的独立存储服务器硬件构成的分布式文件系统，如果需要此系统提供更高的性能，则可以使用较大值组成数据组内分块个数界限值 ( ， ) 。如图 3所示，根据文件大小对文件进行至少一个数据组的分割的处理流程可以包括：

步骤 301、输入文件大小《，分块大小⁶，预设的数据组内分块个数界限值歩骤 302、根据文件大小 ^w ，分块大小 6 ，计算文件的内容分块个数 c = (m + b - l) / b . 执行步骤 ₃₀₃和步骤 _{305 ;}

步骤 303、判断文件的内容分块个数 c是否小于若是则执行步骤 304 ;

步骤 304、生成 1个数据组，且该数据组由 c个内容分块、个空白块和 1个校验分块组成，结束流程；

歩骤 305、判断文件的内容分块个数 ^c是否大于等于；若是则执行歩骤 306; 步骤 306、生成 g个数据组， g = (e + - 2) /( - 1)，其中前 g _ l个数据组由 - 1个内容分块和 1个校验分块组成；最后一个数据组由内容分块、空白块和校验分块组成，其中内容分块个数小于< _ 1、校验分块个数为 1，结束流程。

具体实施时，在确定各个数据组至保存所述各个数据组的数据存储服务器的第二映射信息时，可以确定同一数据组内的不同分块保存于不同的数据存储服务器；和 /或，确定不同的数据组重用数据存储服务器。

同一数据组内的不同分块保存于不同的数据存储服务器，可以避免在一个数据存储服务器失效时，丟失同一数据组内更多的分块，使丟失分块的恢复计算复杂化。当然，实施中，同一数据组内的不同分块保存于相同的数据存储服务器也是可以的。

不同的数据组重用数据存储服务器，可以使得数据存储服务器的空间利用率提高，可进一步减少所使用的数据存储服务器数据，降低系统的构建成本。

如图 4所示，本发明实施例还提供一种分布式文件系统的文件处理方法，其处理流程可以包括- 步骤 401、获得文件至至少一个数据组的第一映射信息，和各个数据组至保存所述各个数据组的数据存储服务器的第二映射信息，其中所述至少一个数据组根据文件大小对文件进行分割形成，每一数据组包括文件的内容分块和校验分块；

步骤 402、根据所述第一映射信息，将文件进行内容分块，生成文件的内容分块；步骤 403、根据所述第一映射信息，生成各数据组的校验分块；

步骤 404、根据所述第二映射信息，将生成的内容分块及校验分块发送给数据存储服务器进行保存。由图 4所示流程可以得知，本发明实施例中，根据第一映射信息生成文件的内容分块和各数据组的校验分块，根据第二映射信息将内容分块和校验分块保存至相应的数据存储服务器，相对于现有技术中以副本方式保存文件的技术方案，可大大提高存储空间利用率，降低分布式文件系统的构造成本；同时由于是根据文件大小对文件进行数据组分割，因此数据组个数灵活可变且分块与文件内容相关，能够适应分布式文件系统灵活多变的发展需求。

图 4所示流程可由能够实现其功能的装置实施，例如该装置可以是客户端等。下面的实施例中以由客户端实施图 4所示流程为例进行说明。

下面举一例说明本发明实施例中的文件写入过程，如图 5所示，可以包括：歩骤 501、客户端向元数据服务器发送文件写入操作请求；

步骤 502、元数据服务器接收到文件写入操作请求后，获得文件的待写入信息，包括文件大小等，并根据文件大小对文件进行至少一个数据组的分割，形成文件至所述至少一个数据组的第一映射信息；

步骤 503、元数据服务器根据各数据存储服务器的容量、存储空间利用率、网络流量等信息，确定保存数据组的数据存储服务器，形成各个数据组至保存所述各个数据组的数据存储服务器的第二映射信息；

实施中，同一数据组内的不同分块可保存于不同的数据存储服务器；不同的数据组可以重用数据存储服务器；

步骤 504、元数据服务器将所述第一映射信息和所述第二映射信息反馈给客户端；步骤 505、元数据服务器向相应的数据存储服务器发送即将保存分块的命令；其中可以向这些数据存储服务器提供分块大小等信息；

步骤 506、客户端在接收到所述第一映射信息和所述第二映射信息后，根据所述第一映射信息，将文件进行内容分块，生成文件的内容分块；

步骤 507、客户端根据所述第一映射信息，生成各数据组的校验分块；

步骤 508、客户端根据所述第二映射信息，将生成的内容分块及校验分块发送给数据存储服务器进行保存；

客户端发送内容分块及校验分块时，还可以发送这些分块的标识等信息；步骤 509、数据存储服务器在接收到分块及分块的标识后进行本地保存，数据存储服务器还可以建立分块及分块的标识与所保存的本地位置之间的映射关系；

步骤 510、操作成功后，数据存储服务器向客户端说明分块内容保存完毕；歩骤 511、客户端从相应的数据存储服务器收集本次操作的分块保存结果，并将结果向元数据服务器说明；

步骤 512、元数据服务器接收到客户端操作成功信息，将此文件的第一映射信息和第二映射信息等信息作为元数据持久化；这样，客户端就可以向上层的应用程序返回文件的写入操作的结果了；如果客户端向元数据服务器报告的是一个失败的结果，则元数据服务器清除此文件的第一映射信息和第二映射信息等文件操作过程中的临时信息。

具体实施时，客户端在获得元数据服务器提供的第一映射信息与第二映射之后，还可以缓存第一映射信息与第二映射信息。通过缓存机制，可以减少客户端与元数据服务器的通信量。

具体实施时，本发明实施例的分布式文件系统还可以进行数据恢复处理。实施时，元数据服务器可以根据所述第一映射信息和所述第二映射信息确定失效的数据存储服务器保存的丢失分块；为失效的数据存储服务器选择替代的数据存储服务器；根据丢失分块所在数据组内的有效分块、保存有效分块的数据存储服务器、和替代的数据存储服务器，生成恢复路径，供恢复路径上的数据存储服务器进行丢失分块的计算和保存。

具体的，恢复路径上的第一个数据存储服务器将本地保存的有效分块作为数据内容提供给恢复路径上的第二个数据存储服务器；恢复路径上的第二个数据存储服务器将本地保存的有效分块与接收的数据内容进行计算，将计算出的数据内容提供给恢复路径上的第三个数据存储服务器；以此类推，直至恢复路径上的最后一个数据存储服务器作为替代的数据存储服务器，将接收的数据内容作为丢失分块保存。

下面举一例说明本发明实施例中的数据恢复过程，如图 6所示，可以包括：步骤 601、元数据服务器以心跳方式识别出数据存储服务器失效的发生；步骤 602、元数据服务器根据保存的元数据中第一映射信息和第二映射信息，确定失效的数据存储服务器保存的丢失分块；

步骤 603、元数据服务器为失效的数据存储服务器选择替代的数据存储服务器；步骤 604、元数据服务器根据丟失分块所在数据组内的有效分块、保存所述有效分块的数据存储服务器、和所述替代的数据存储服务器，生成恢复路径，然后通知按恢复路径向相关的数据存储服务器发送恢复命令；这个恢复路径，是由保存有效分块的数据存储服务器、和替代的数据存储服务器组成的数据存储服务器向量，替代的数据存储服务器处于向量的末端；歩骤 605、由元数据服务器选定的恢复路径中的各数据存储服务器均参与恢复过程的处理：

恢复路径上的第一个数据存储服务将本地保存的有效分块作为数据内容提供给恢复路径上的第二个数据存储服务器；

恢复路径上的第二个数据存储服务器将本地保存的有效分块与接收的数据内容进行计算，将计算出的数据内容提供给恢复路径上的第三个数据存储服务器；以此类推，直至

恢复路径上的最后一个数据存储服务器作为替代的数据存储服务器，用于：将接收的数据内容作为丢失分块保存，并生成元数据信息，然后向元数据服务器汇报恢复结果；

步骤 606、元数据服务器接收到替代的数据存储服务器的恢复结果后，将替代的数据存储服务器相关的元数据信息持久化。

对于数据存储服务器而言，本发明实施例提供一种文件处理方法，即在数据恢复过程中的处理过程，如图 7所示，可以包括- 步骤 701、恢复路径上的数据存储服务器获得所述恢复路径的相关信息；所述恢复路径根据丟失分块所在数据组内的有效分块、保存所述有效分块的数据存储服务器、和为失效的数据存储服务器选择的替代的数据存储服务器生成；所述恢复路径上最后一个数据存储服务器为所述替代的数据存储服务器；所述丢失分块保存于失效的数据存储服务器；

步骤 702、所述恢复路径上的数据存储服务器根据所述恢复路径的相关信息，进行丢失分块的计算和保存。

具体实施时，步骤 702可以包括：

所述恢复路径上的第一个数据存储服务器，将本地保存的有效分块作为数据内容提供给恢复路径上的下一个数据存储服务器；

除所述恢复路径上的第一个和最后一个数据存储服务器之外，所述恢复路径上的其它数据存储服务器，将本地保存的有效分块与接收的数据内容进行计算，将计算出的数据内容提供给恢复路径上的下一个数据存储服务器；

所述恢复路径上的最后一个数据存储服务器，将接收到的数据内容作为丢失分块进行保存。具体实施时，所述恢复路径上的最后一个数据存储服务器，还可以在保存丢失分块后，生成丢失分块的元数据信息并向元数据服务器反馈。

由此可见，本发明实施例中，分布式文件系统的恢复是通过恢复路径，由恢复路径上的数据存储服务器进行丢失分块的计算和保存，无需重新进行数据组的更新，而是根据数据组内的有效分块计算丢失分块即可，可以避免产生大量的读写与计算操作，在分布式文件系统的存储空间利用率较高、构造成本较低的情况下提高分布式文件系统的可用性。

基于同一发明构思，本发明还提供一种分布式文件系统的元数据服务器，如图 8所示，包括：

数据组分割模块 801，用于根据文件大小对文件进行至少一个数据组的分割，确定文件至所述至少一个数据组的第一映射信息，其中每一数据组包括文件的内容分块和校验分块；

存储映射确定模块 802，用于确定各个数据组至保存所述各个数据组的数据存储服务器的第二映射信息；

元数据维护模块 803，用于将所述第一映射信息和所述第二映射信息提供给客户端进行文件的写入操作。

一个实施例中，数据组分割模块 801可以包括：

计算单元，用于根据文件大小和分块大小计算文件的内容分块个数；

确定单元，用于根据所述文件的内容分块个数和预设的数据组内分块个数界限值，确定所述至少一个数据组的个数及组成。

一个实施例中，计算单元具体可以用于- 按如下公式计算文件的内容分块个数- c = ( n + b— V) i b . 其中， ^m为文件大小，为分块大小， c为文件的内容分块个数；

确定单元具体可以用于：

若^ < ，则确定所述至少一个数据组的个数为 1，且该数据组由 c个内容分块、个空白块和 1个校验分块组成；若 _C≥ ，则确定所述至少一个数据组的个数为 g ^ + - S^ -¹) , 其中前 g— ¹ 个数据组由 - 1个内容分块和 1个校验分块组成；最后一个数据组由内容分块、空白块和校验分块组成，其中内容分块个数小于< _ 1、校验分块个数为 1 ; 其中，为预设的数据组内分块个数界限值。

一个实施例中，存储映射确定模块 802具体可以用于：

在确定各个数据组至保存所述各个数据组的数据存储服务器的第二映射信息时，确定同一数据组内的不同分块保存于不同的数据存储服务器；和 /或，确定不同的数据组重用数据存储服务器。

一个实施例中，图 8所示的元数据服务器还可以包括：

丟失分块确定模块 804，用于根据所述第一映射信息和所述第二映射信息确定失效的数据存储服务器保存的丢失分块；

选择替代模块 805，用于为失效的数据存储服务器选择替代的数据存储服务器；失效恢复模块 806，用于根据丢失分块所在数据组内的有效分块、保存所述有效分块的数据存储服务器、和所述替代的数据存储服务器，生成恢复路径，供所述恢复路径上的数据存储服务器进行丢失分块的计算和所述替代的数据存储服务器进行丢失分块的保存。

下面对比现有技术说明本发明实施例中的分布式文件系统的元数据服务器对现有技术以副本方式保存文件的技术方案的改进。

如图 9所示，现有技术以副本方式保存文件的技术方案中，元数据服务器包括：元数据维护模块：实现用户逻辑文件的空间管理与维护，以及这些文件到系统管理的块及存储块的服务器的映射信息；

元数据持久化模块：实现对上述元数据在永久存储上的持久化，以及形成文件信息的快照数据；

副本决策模块：根据所配置 DS ( Data Storage, 数据存储服务器）的个数、容量，以及系统运行中它们的利用率等信息，决定写入文件的数据块保存在哪几个 DS中；失效恢复模块：此模块为每个数据块维护固定的副本因子。当接收到某 DS失效的信息后，对数据块的副本因子进行检査，对那些因为 DS失效而导致副本丢失的数据块，需要在副本决策模块上触发再选择这些副本新的保存 DS;

DS信息维护模块：负责 DS的进入与离开处理，并将这些信息上报给元数据维护模块；负责各 DS的 CPU、存储空间的利用率与网络流量信息的收集，以支持副本决策模块的功能。

如图 10所示，本发明实施例的元数据服务器与现有技术以副本方式保存文件的技术方案的区别在于：本发明实施例提供了数据组分割模块，对文件按大小进行至少一个数据组的分割，从而在系统内部管理中形成文件的 N/ (N+1 )表决模型的冗余；同时还提供存储映射确定模块，以实现确定第二映射信息的功能；元数据维护模块实现将第一映射信息和第二映射信息提供给客户端进行文件的写入操作的功能。

本发明实施例还通过丢失分块确定模块、选择替代模块和失效恢复模块增强了现有技术以副本方式保存文件的技术方案中失效恢复模块的功能。它的目的是保证系统管理中数据内容的可靠性，但它采用了完全不同的失效恢复办法，根据 N/ (N+1 ) 表决模型的冗余，生成恢复路径，使恢复路径上的数据存储服务器将所有受影响的数据组中那些丢失的数据块以计算方式来完成恢复。

基于同一发明构思，本发明还提供一种分布式文件系统的客户端，如图 1 1所示，包括：

文件处理模块 1 101，用于获得文件至至少一个数据组的第一映射信息，和各个数据组至保存所述各个数据组的数据存储服务器的第二映射信息，其中所述至少一个数据组根据文件大小对文件进行分割形成，每一数据组包括文件的内容分块和校验分块；以及，根据所述第一映射信息，将文件进行内容分块，生成文件的内容分块；

冗余校验模块 1102，用于根据所述第一映射信息，生成各数据组的校验分块；块读写模块 1 103，用于根据所述第二映射信息，将生成的内容分块及校验分块发送给数据存储服务器进行保存。

一个实施例中，图 11所示的客户端还可以包括：

缓存模块 1104，用于将所述第一映射信息与所述第二映射信息进行缓存。

下面对比现有技术说明本发明实施例中的分布式文件系统的客户端对现有技术以副本方式保存文件的技术方案的改进。

如图 12所示，现有技术以副本方式保存文件的技术方案中，客户端包括- 文件处理模块，处理应用的文件调用请求及返回文件操作结果，是 Client (客户端）的中心模块，它负责向 MDS ( Metadata Server, 元数据服务器）发送请求操作文件的相关信息；将相关信息传递给驱动块读写模块，并从取得文件各块的操作结果；负责文件元数据在远端 MDS与本地 Cache的连接；

缓存（Cache ) 模块，维护 Client最近处理文件元数据的缓存，通过某种缓存失效策略或者机制，可以减少 Client与 MDS的通信量，最大程度地保持整个系统的一致性；块读写模块，负责文件最终内容分块在各 DS中的读取操作。如图 13所示，本发明实施例的元数据服务器与现有技术以副本方式保存文件的技术方案的区别在于：

本发明实施例的 Client增加了一个冗余校验模块，用于在 Client完成写入时的冗余校验分块的内容生成过程。

基于同一发明构思，本发明还提供一种分布式文件系统的数据存储服务器，如图 14 所示，该数据存储服务器处于恢复路径上，该数据存储服务器包括- 恢复路径信息获得模块 1401，用于获得所述恢复路径的相关信息；所述恢复路径根据丢失分块所在数据组内的有效分块、保存所述有效分块的数据存储服务器、和为失效的数据存储服务器选择的替代的数据存储服务器生成；所述恢复路径上最后一个数据存储服务器为所述替代的数据存储服务器；所述丢失分块保存于失效的数据存储服务器；丢失分块处理模块 1402，用于根据所述恢复路径的相关信息，进行丢失分块的计算和保存。

一个实施例中，若上述数据存储服务器是所述恢复路径上的第一个数据存储服务器，则- 丟失分块处理模块 1402具体用于：将本地保存的有效分块作为数据内容提供给恢复路径上的下一个数据存储服务器；

若上述数据存储服务器是除所述恢复路径上的第一个和最后一个数据存储服务器之夕卜，所述恢复路径上的其它数据存储服务器，贝 1J :

丢失分块处理模块 1402具体用于：将本地保存的有效分块与接收的数据内容进行计算，将计算出的数据内容提供给恢复路径上的下一个数据存储服务器；

若上述数据存储服务器是所述恢复路径上的最后一个数据存储服务器，贝 ij _:

丢失分块处理模块 1402具体用于：将接收到的数据内容作为丢失分块进行保存。一个实施例中，若上述数据存储服务器是所述恢复路径上的最后一个数据存储服务器，则上述数据存储服务器还包括：

元数据维护模块 1403，用于生成丟失分块的元数据信息并向元数据服务器反馈。下面对比现有技术说明本发明实施例中的分布式文件系统的数据存储服务器对现有技术以副本方式保存文件的技术方案的改进。

如图 15所示，现有技术以副本方式保存文件的技术方案中，数据存储服务器包括：数据读写接口，接收来自 Client的数据块读写操作请求，并返回操作结果；元数据维护模块，接收的是带标识的应用文件分块后的数据片段，它需要将这些片段的标识与保存情况维护起来以正确识别；

信息上报模块，负责 DS加入分布式文件系统过程中的注册操作；负责 DS与 MDS 的心跳以说明当前 DS是否正常工作；负责向 MDS上报当前 DS的 CPU、存储空间及网络流量的动态数据。

如图 16所示，本发明实施例的元数据服务器与现有技术以副本方式保存文件的技术方案的区别在于- 本发明实施例的 DS增加了恢复路径信息获得模块和丢失分块处理模块，用于在存储服务器失效时，配合 MDS完成失效恢复处理过程。

基于同一发明构思，本发明实施例还提供一种分布式文件系统，其结构如图 17所示，可以包括：

元数据服务器 1701，用于根据文件大小对文件进行至少一个数据组的分割，确定文件至所述至少一个数据组的第一映射信息，其中每一数据组包括文件的内容分块和校验分块；确定各个数据组至保存所述各个数据组的数据存储服务器的第二映射信息；发送所述第一映射信息和所述第二映射信息；

客户端 1702，用于获得元数据服务器发送的所述第一映射信息和所述第二映射信息；根据所述第一映射信息，将文件进行内容分块，生成文件的内容分块：根据所述第一映射信息，生成各数据组的校验分块；根据所述第二映射信息，发送生成的内容分块及校验分块；

数据存储服务器 1703，用于接收并保存客户端发送的内容分块及校验分块。

一个实施例中，所述元数据服务器 1701还可以用于- 根据所述第一映射信息和所述第二映射信息确定失效的数据存储服务器保存的丢失分块；为失效的数据存储服务器选择替代的数据存储服务器；根据丢失分块所在数据组内的有效分块、保存所述有效分块的数据存储服务器、和所述替代的数据存储服务器，生成恢复路径，供所述恢复路径上的数据存储服务器进行丢失分块的计算和保存。

恢复路径上的数据存储服务器获得所述恢复路径的相关信息；

恢复路径上的第一个数据存储服务器用于：将本地保存的有效分块作为数据内容提供给恢复路径上的第二个数据存储服务器；恢复路径上的第二个数据存储服务器用于：将本地保存的有效分块与接收的数据内容进行计算，将计算出的数据内容提供给恢复路径上的第三个数据存储服务器；以此类推，直至恢复路径上的最后一个数据存储服务器；

所述恢复路径上的最后一个数据存储服务器作为所述替代的数据存储服务器，用于：将接收的数据内容作为丢失分块保存。

综上所述，本发明实施例中，根据文件大小对文件进行至少一个数据组的分割，其中每一数据组包括文件的内容分块和校验分块，建立文件至所述至少一个数据组的第一映射信息，和各个数据组至保存所述各个数据组的数据存储服务器的第二映射信息，客户端根据所述第一映射信息生成文件的内容分块和各数据组的校验分块，根据所述第二映射信息将内容分块和校验分块保存至相应的数据存储服务器，相对于现有技术中以副本方式保存文件的技术方案，可以在保证高可靠性的同时大大提高存储空间利用率，降低分布式文件系统的构造成本；同时由于是根据文件大小对文件进行数据组分割，因此数据组个数灵活可变且分块与文件内容相关，能够适应分布式文件系统灵活多变的发展需求。

本发明实施例中，分布式文件系统的恢复是通过恢复路径，由恢复路径上的数据存储服务器进行丢失分块的计算和保存，无需重新进行数据组的更新，而是根据数据组内的有效分块计算丟失分块即可，可以避免产生大量的读写与计算操作，在分布式文件系统的存储空间利用率较高、构造成本较低的情况下提高分布式文件系统的可用性。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、 CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和 /或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和 /或方框、以及流程图和 /或方框图中的流程和 /或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一歩详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

权利要求书

1、一种分布式文件系统的文件处理方法，其特征在于，包括：

根据文件大小对文件进行至少一个数据组的分割，确定文件至所述至少一个数据组的第一映射信息，其中每一数据组包括文件的内容分块和校验分块；

确定各个数据组至保存所述各个数据组的数据存储服务器的第二映射信息；将所述第一映射信息和所述第二映射信息提供给客户端进行文件的写入操作。

2、如权利要求 1所述的方法，其特征在于，所述根据文件大小对文件进行至少一个数据组的分割，确定文件至所述至少一个数据组的第一映射信息，包括- 根据文件大小和分块大小计算文件的内容分块个数；

根据所述文件的内容分块个数和预设的数据组内分块个数界限值，确定所述至少一个数据组的个数及组成。

3、如权利要求 2所述的方法，其特征在于，所述根据文件大小和分块大小计算文件的内容分块个数包括- 按如下公式计算文件的内容分块个数- c - (m + b - i) / b 其中， ^m为文件大小，为分块大小， c为文件的内容分块个数；

所述根据所述文件的内容分块个数和预设的数据组内分块个数界限值，确定所述至少一个数据组的个数及组成，包括：

若^ < ，则确定所述至少一个数据组的个数为 1，且该数据组由 c个内容分块、个空白块和 1个校验分块组成；

若 ≥ ，则确定所述至少一个数据组的个数为 g ^ + - ²) /*^ - ¹) , 其中前 g— ¹ 个数据组由个内容分块和 1个校验分块组成；最后一个数据组由内容分块、空白块和校验分块组成，其中内容分块个数小于< _ 1、校验分块个数为 1 ;

其中，（^^)为预设的数据组内分块个数界限值。

4、如权利要求 1所述的方法，其特征在于，所述确定各个数据组至保存所述各个数据组的数据存储服务器的第二映射信息，包括：

确定同一数据组内的不同分块保存于不同的数据存储服务器；

和 /或，确定不同的数据组重用数据存储服务器。

5、如权利要求 1至 4任一项所述的方法，其特征在于，还包括：根据所述第一映射信息和所述第二映射信息确定失效的数据存储服务器保存的丢失分块；

为失效的数据存储服务器选择替代的数据存储服务器；

根据丢失分块所在数据组内的有效分块、保存所述有效分块的数据存储服务器、和所述替代的数据存储服务器，生成恢复路径，供所述恢复路径上的数据存储服务器进行丢失分块的计算和保存。

6、一种分布式文件系统的文件处理方法，其特征在于，包括：

根据所述第一映射信息，生成各数据组的校验分块；

7、如权利要求 6所述的方法，其特征在于，还包括- 将所述第一映射信息与所述第二映射信息进行缓存。

8、一种分布式文件系统的文件处理方法，其特征在于，包括：

恢复路径上的数据存储服务器获得所述恢复路径的相关信息；所述恢复路径根据丢失分块所在数据组内的有效分块、保存所述有效分块的数据存储服务器、和为失效的数据存储服务器选择的替代的数据存储服务器生成；所述恢复路径上最后一个数据存储服务器为所述替代的数据存储服务器；所述丢失分块保存于失效的数据存储服务器；所述恢复路径上的数据存储服务器根据所述恢复路径的相关信息，进行丢失分块的计算和保存。

9、如权利要求 8所述的方法，其特征在于，所述恢复路径上的数据存储服务器根据所述恢复路径的相关信息，进行丟失分块的计算和保存，包括：

除所述恢复路径上的第一个和最后一个数据存储服务器之外，所述恢复路径上的其它数据存储服务器，将本地保存的有效分块与接收的数据内容进行计算，将计算出的数据内容提供给恢复路径上的下一个数据存储服务器；所述恢复路径上的最后一个数据存储服务器，将接收到的数据内容作为丢失分块进行保存。

10、如权利要求 9所述的方法，其特征在于，还包括：

所述恢复路径上的最后一个数据存储服务器，生成丢失分块的元数据信息并向元数据服务器反馈。

11、一种分布式文件系统的元数据服务器，其特征在于，包括- 数据组分割模块，用于根据文件大小对文件进行至少一个数据组的分割，确定文件至所述至少一个数据组的第一映射信息，其中每一数据组包括文件的内容分块和校验分块；

12、如权利要求 11所述的元数据服务器，其特征在于，所述数据组分割模块包括- 计算单元，用于根据文件大小和分块大小计算文件的内容分块个数；

13、如权利要求 12所述的元数据服务器，其特征在于，所述计算单元具体用于：按如下公式计算文件的内容分块个数：

c = (m + b - l) l b ^

其中， w为文件大小， &为分块大小， c为文件的内容分块个数；

所述确定单元具体用于：

若^^ ，则确定所述至少一个数据组的个数为 1，且该数据组由 ^c个内容分块、个空白块和 1个校验分块组成；若^≥ ，则确定所述至少一个数据组的个数为 g ^ + - ^^ -¹) , 其中前 g— ¹ 个数据组由个内容分块和 1个校验分块组成；最后一个数据组由内容分块、空白块和校验分块组成，其中内容分块个数小于< - 1、校验分块个数为 1 ;

其中，（^，^)为预设的数据组内分块个数界限值。

14、如权利要求 11所述的元数据服务器，其特征在于，所述存储映射确定模块具体用于在确定各个数据组至保存所述各个数据组的数据存储服务器的第二映射信息时，确定同一数据组内的不同分块保存于不同的数据存储服务器；和 /或，确定不同的数据组重用数据存储服务器。

15、如权利要求 11至 14任一项所述的元数据服务器，其特征在于，还包括：丢失分块确定模块，用于根据所述第一映射信息和所述第二映射信息确定失效的数据存储服务器保存的丢失分块；

选择替代模块，用于为失效的数据存储服务器选择替代的数据存储服务器；失效恢复模块，用于根据丢失分块所在数据组内的有效分块、保存所述有效分块的数据存储服务器、和所述替代的数据存储服务器，生成恢复路径，供所述恢复路径上的数据存储服务器进行丢失分块的计算和所述替代的数据存储服务器进行丢失分块的保存。

16、一种分布式文件系统的客户端，其特征在于，包括- 文件处理模块，用于获得文件至至少一个数据组的第一映射信息，和各个数据组至保存所述各个数据组的数据存储服务器的第二映射信息，其中所述至少一个数据组根据文件大小对文件进行分割形成，每一数据组包括文件的内容分块和校验分块；以及，根据所述第一映射信息，将文件进行内容分块，生成文件的内容分块；

17、如权利要求 16所述的客户端，其特征在于，还包括- 缓存模块，用于将所述第一映射信息与所述第二映射信息进行缓存。

18、一种分布式文件系统的数据存储服务器，其特征在于，所述数据存储服务器处于恢复路径上，所述数据存储服务器包括：

恢复路径信息获得模块，用于获得所述恢复路径的相关信息；所述恢复路径根据丟失分块所在数据组内的有效分块、保存所述有效分块的数据存储服务器、和为失效的数据存储服务器选择的替代的数据存储服务器生成；所述恢复路径上最后一个数据存储服务器为所述替代的数据存储服务器；所述丢失分块保存于失效的数据存储服务器；丢失分块处理模块，用于根据所述恢复路径的相关信息，进行丢失分块的计算和保存。

19、如权利要求 18所述的数据存储服务器，其特征在于，若所述数据存储服务器是所述恢复路径上的第一个数据存储服务器，贝 1J :

所述丢失分块处理模块具体用于：将本地保存的有效分块作为数据内容提供给恢复路径上的下一个数据存储服务器；

若所述数据存储服务器是除所述恢复路径上的第一个和最后一个数据存储服务器之夕卜，所述恢复路径上的其它数据存储服务器，贝 iJ_:

所述丟失分块处理模块具体用于：将本地保存的有效分块与接收的数据内容进行计算，将计算出的数据内容提供给恢复路径上的下一个数据存储服务器；

若所述数据存储服务器是所述恢复路径上的最后一个数据存储服务器，贝 1J :

所述丢失分块处理模块具体用于：将接收到的数据内容作为丢失分块进行保存。

20、如权利要求 19所述的数据存储服务器，其特征在于，若所述数据存储服务器是所述恢复路径上的最后一个数据存储服务器，则所述数据存储服务器还包括：

元数据维护模块，用于生成丢失分块的元数据信息并向元数据服务器反馈。

21、一种分布式文件系统，其特征在于，包括- 元数据服务器，用于根据文件大小对文件进行至少一个数据组的分割，确定文件至所述至少一个数据组的第一映射信息，其中每一数据组包括文件的内容分块和校验分块；确定各个数据组至保存所述各个数据组的数据存储服务器的第二映射信息；发送所述第一映射信息和所述第二映射信息；

22、如权利要求 21所述的分布式文件系统，其特征在于：

所述元数据服务器还用于：

根据所述第一映射信息和所述第二映射信息确定失效的数据存储服务器保存的丢失分块；为失效的数据存储服务器选择替代的数据存储服务器；根据丢失分块所在数据组内的有效分块、保存所述有效分块的数据存储服务器、和所述替代的数据存储服务器，生成恢复路径，供所述恢复路径上的数据存储服务器进行丢失分块的计算和保存。

23、如权利要求 22所述的分布式文件系统，其特征在于- 恢复路径上的数据存储服务器获得所述恢复路径的相关信息；

恢复路径上的第一个数据存储服务器用于：将本地保存的有效分块作为数据内容提供给恢复路径上的第二个数据存储服务器；

恢复路径上的第二个数据存储服务器用于：将本地保存的有效分块与接收的数据内容进行计算，将计算出的数据内容提供给恢复路径上的第三个数据存储服务器；以此类推，直至恢复路径上的最后一个数据存储服务器；

所述恢复路径上的最后一个数据存储服务器作为所述替代的数据存储服务器，用于：将接收的数据内容作为丟失分块保存。