WO2023071043A1

WO2023071043A1 - 文件聚合兼容方法、装置、计算机设备和存储介质

Info

Publication number: WO2023071043A1
Application number: PCT/CN2022/083738
Authority: WO
Inventors: 解志阳; 肖国栋
Original assignee: 苏州浪潮智能科技有限公司
Priority date: 2021-10-29
Filing date: 2022-03-29
Publication date: 2023-05-04
Also published as: CN113704027B; CN113704027A

Abstract

本申请涉及一种分布式文件存储系统下快照和小文件聚合兼容方法、装置、计算机设备和存储介质。所述方法包括：元数据服务器接收到客户端发送的操作请求后，当操作请求是打开请求时，判断文件是否存在O_TRUNC标识，如果存在，则继续判断是否是聚合的小文件，并且是否存在快照，如果是，则返回给客户端错误标识，客户端在接收到错误标识后，将聚合的小文件转换成正常的小文件，并触发小文件对象的写时复制/删除操作，保证快照数据的正确。

Description

文件聚合兼容方法、装置、计算机设备和存储介质

相关申请的交叉引用

本申请要求于2021年10月29日提交中国专利局，申请号为202111268961.7，申请名称为“文件聚合兼容方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及分布式存储系统领域，特别是涉及一种分布式文件存储系统下快照和小文件聚合兼容方法、装置、计算机设备和存储介质。

背景技术

快照(Snapshot)是某个数据集在某一特定时刻的镜像，也称为即时拷贝，它是这个数据集的一个完整可用的副本，可以根据快照查看或者恢复之前的状态。若在使用快照的过程中发生对原存储系统的写操作，将对应数据单元的原有数据存入快照，该数据单元分为快照中的某个时间点数据和当前数据，其他未发生更新的数据在快照和原存储系统中共享。虚拟视图的灵活性及使用存储空间的高效性，使得它成为快照技术的主流。

文件系统中的快照是基于对象的COW(copy-on-write)机制实现的，当文件发生变化时，触发写时复制，生成快照版本和head版本。

CephFS是Ceph提供的文件存储解决方案，是一个支持POSIX接口的文件系统存储类型。在CephFS中，文件数据是以对象的形式存储，对象默认大小为4MB，当一个1KB的小文件存放时，数据也要占用一个对象，即为4MB，如果集存是以小文件数量较多时，就会造成大量的资源浪费。大文件聚合，小文件(小于或等于512KB)以紧密排列的方式(以4KB对齐)写入到一类特殊的文件(聚合文件)中。在读文件时也不再读取源文件的对象，而是从聚合文件的对象中读取源文件数据。通过这样的方式，针对小文件场景，可以极大的提高资源利用率(如图1所示)。

然而，小文件聚合后，对小文件的读写删等操作，实际操作的是对应的大文件。如果小文件存在快照，进行写删操作时，osd接收到的为大文件的快照域(为空)，不能正常的触发cow(copy-on-write，写时复制)，造成小文件快照无法正常工作。如图2中，小文件ino1发生修改写时，由于不能触发cow，导致快照和head版本仍然都指向聚合大文件中的数据，这样快照的数据，一直和head版本一致，失去了快照的意义。

发明内容

基于此，有必要针对上述技术问题，提供一种分布式文件存储系统下快照和小文件聚合兼容方法、装置、计算机设备和存储介质。

一方面，本申请提供一种分布式文件存储系统下快照和小文件聚合兼容方法，所述方法包括：

步骤201：元数据服务器接收客户端发送的操作请求，当操作请求为打开请求时，执行判断步骤，判断文件是否存在O_TRUNC标识，如果是，则执行步骤202；

步骤202：元数据服务器判断文件是否为聚合的小文件，并且存在快照，如果是，则执行步骤203；

步骤203：元数据服务器向客户端返回错误标识；

步骤204：客户端在接收到错误标识后，将聚合的小文件转换成正常的小文件；

步骤205：转换完成后，客户端再次发送打开请求到元数据服务器；

步骤206：元数据服务器再次接收到打开请求后，进行truncate操作，触发小文件对象的写时复制操作，保证快照数据的正确。

在其中一个实施例中，还包括：步骤202中的判断文件是否为聚合的小文件包括：判断原始文件的大小是否小于第一阈值。

在其中一个实施例中，还包括：步骤204中的转换方法包括：

a)获取聚合的小文件的聚合属性，根据所述聚合属性找到并打开聚合大文件，从中读取小文件的数据，所述聚合属性包括该小文件的inode以及偏移量；

b)将小文件的数据写入到一个新的对象中；

c)发送setxattr请求，更新元数据服务器中小文件的元数据；

d)清空聚合大文件中对象头中该小文件的inode。

在其中一个实施例中，还包括：步骤201中，当以O_TRUNC的方式打开一个文件时，元数据服务器收到请求后，对文件执行truncate操作，清空文件的数据。

在其中一个实施例中，还包括：其中操作请求还包括删除操作。

在其中一个实施例中，还包括：

元数据服务器接收到客户端发送的删除请求后，判断文件是否存在O_TRUNC标识，如果存在，则继续判断是否是聚合的小文件，并且是否存在快照，如果是，则返回给客户端错误标识，客户端在接收到错误标识后，将聚合的小文件转换成正常的小文件，并再次发送删除请求到元数据服务器，元数据服务器再次接收到请求后，进行truncate操作，触发小文件对象的删除操作，保证快照数据的正确。

在其中一个实施例中，操作请求还包括读操作：

a)如果读的对象为快照，且快照存在聚合属性；

b)获取快照最新版本的元数据，并获取该元数据的聚合属性；如果快照最新版本的聚合属性和元数据的聚合属性不一致，则将元数据的聚合属性修改为快照最新版本的聚合属性；

c)继续后续的读操作。

在其中一个实施例中，如果步骤201中的判断结果为否，或者，步骤202中的判断结果为否，则结束。

在其中一个实施例中，元数据服务器如果判断文件不存在O_TRUNC标识，或者文件不是聚合的小文件，并且存在快照，则结束。

另一方面，本申请提供了一种分布式文件存储系统下快照和小文件聚合兼容装置，包括元数据服务器和客户端，装置还包括：

判断模块，元数据服务器接收到客户端发送的读/删除请求后，所述判断模块判断文件是否存在O_TRUNC标识，如果存在，则继续判断是否是聚合的小文件，并且是否存在快照，如果是，元数据服务器向客户端返回错误标识；

执行模块，客户端在接收到错误标识后，将聚合的小文件，转换成正常的小文件，转换完成后，客户端再次发送打开/删除请求到元数据服务器；

操作模块，元数据服务器再次接收到打开/删除请求后，进行truncate操作，触发小文件对象的写时复制/删除操作，保证快照数据的正确。

再一方面，本申请提供了一种计算机设备，包括存储器、一个或多个处理器及存储在存储器上并可在处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述任意一个实施例提供的分布式文件存储系统下快照和小文件聚合兼容方法的步骤。

又一方面，本申请提供了一种一个或多个存储有计算机可读指令的非易失性存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任意一个实施例提供的分布式文件存储系统下快照和小文件聚合兼容方法的步骤。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

图1为小文件聚合示意图；

图2为现有技术中聚合小文件进行写删操作示意图；

图3为分布式文件存储系统下快照和小文件聚合兼容方法的应用环境图；

图4为一个或多个实施例中分布式文件存储系统下快照和小文件聚合兼容方法的流程示意图；

图5为一个或多个实施例中分布式文件存储系统下快照和小文件聚合兼容装置的结构框图；

图6为一个或多个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的分布式文件存储系统下快照和小文件聚合兼容方法，可以应用于如图3所示的应用环境中。其中，客户端102通过网络与元数据服务器104进行通信。元数据服务器(MDS)104接收到客户端102发送的请求后，判断文件是否存在O_TRUNC标识，如果存在，则继续判断是否是聚合的小文件，并且是否存在快照，如果是，则返回给客户端102特殊的错误码，客户端在接收到错误码后，将聚合的小文件转换成正常的小文件，正常的触发小文件的对象的操作，保证快照数据的正确。其中，客户端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备元数据服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图4所示，提供了一种分布式文件存储系统下快照和小文件聚合兼容方法，包括以下步骤：

当客户端以O_TRUNC的方式打开一个文件时，MDS收到请求后，首先会对文件执行truncate操作，清空文件的数据。client调用open接口的时候，文件还未完成打开，不能保证client中的缓存为最新的数据，所以是否为聚合的小文件，需要在MDS进行判断。

步骤201：元数据服务器接收客户端发送的操作请求，当操作请求为打开请求时，执行判断步骤，判断文件是否存在O_TRUNC标识，如果是，则执行步骤202；其中，元数据服务器响应于操作请求为打开请求，执行判断步骤；步骤202：元数据服务器判断文件是否为聚合的小文件，并且存在快照，如果是，则执行步骤203；

步骤203：元数据服务器向客户端返回错误标识；

步骤206：元数据服务器再次接收到打开请求后，进行truncate操作，触发小文件对象的写时复制操作，保证快照数据的正确。其中错误标识可以为一种特殊的错误码。

以上，如果文件不存在O_TRUNC标识，或者，文件不是聚合的小文件，并且存在快照，本方法将结束，不执行后续步骤。

上述分布式文件存储系统下快照和小文件聚合兼容方法中，元数据服务器接收到客户端发送的操作请求后，判断文件是否存在O_TRUNC标识，如果存在，则继续判断是否是聚合的小文件，并且是否存在快照，如果是，则返回给客户端错误标识，客户端在接收到错误标识后，将聚合的小文件转换成正常的小文件，并触发小文件对象的写时复制/删除操作，也就是当聚合的小文件数据发生变化时，首先将小文件转换成正常的小文件，再操作小文件的数据，这样就可以触发小文件的cow，保证快照数据的正确。

步骤202中的判断文件是否为聚合的小文件包括：判断原始文件的大小是否小于第一阈值。在CephFS中，文件数据是以对象的形式存储，对象默认大小为4MB，该第一阈值可以预先设置。

写操作时，由于文件已经被打开过，可以保证客户端缓存中的数据是正确，可以直接在客户端的写流程进行修改：如果文件是聚合的小文件，并且存在快照，则首先将聚合的小文件，转换成正常的小文件。具体的转换方法如下：

a)获取小文件中的聚合属性，找到并打开聚合大文件，从中读取小文件的数据；所述聚合属性包括该小文件的inode以及该小文件的偏移量；

b)将小文件的数据写入到一个新的对象中；

c)发送setxattr请求，更新MDS中小文件的元数据；

d)清空聚合大文件中对象头中该小文件的inode。

其中操作请求还包括删除操作。其中删除操作与读操作相同。元数据服务器(MDS)接收到客户端发送的删除请求后，判断文件是否存在O_TRUNC标识，如果存在，则继续判断是否是聚合的小文件，并且是否存在快照，如果是，则返回给客户端错误标识，客户端在接收到错误标识后，将聚合的小文件转换成正常的小文件，并再次发送删除请求到元数据服务器(MDS)，元数据服务器(MDS)再次接收到请求后，进行truncate操作的时候，触发小文件的对象的删除操作，保证快照数据的正确。

同样，以上，如果文件不存在O_TRUNC标识，或者，文件不是聚合的小文件，并且存在快照，本方法将结束，不执行后续步骤。在聚合文件中，多个源文件共用一个对象，删除源文件并不能真正释放所占用的空间，导致存储空间的浪费；同时源文件数量的减少，导致在读取文件时缓存命中率降低，影响读性能。

碎片整理的任务就是计算聚合文件中有效数据在聚合文件总大小的占比，低于设定的阈值时对聚合文件进行清理，以提高存储空间利用率、提升小文件读性能。

碎片整理，会将有效的小文件重新整合到一个新的聚合大文件中，这样就可以释放掉无效的空间，需要修改小文件元数据中的聚合属性。如果client中存在快照的缓存，同时发生了碎片整理，由于系统中快照都是只读的，所以不会同步client中的快照元数据，这样client中快照的元数据仍然指向旧的聚合大文件。如果此时去获取快照的数据，会获取失败，因为旧的聚合大文件已经被删除。所以需要处理快照的读流程：

a)如果读的对象为快照，且快照存在聚合属性；

具体的，获取head版本的元数据，如果head版本不存在聚合属性，说明小文件数据发生过变更，则也清楚快照的聚合属性；如果head版本的聚合属性和元数据的不一致，说明发生过碎片整理，则将元数据的聚合属性修改为head版本的；

c)继续后续的读操作。

应该理解的是，虽然图4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种分布式文件存储系统下快照和小文件聚合兼容装置，包括元数据服务器(MDS)和客户端(client)，装置还包括：

判断模块，元数据服务器(MDS)接收到客户端发送的读/删除请求后，所述判断模块判断文件是否存在O_TRUNC标识，如果存在，则继续判断是否是聚合的小文件，并且是否存在快照，如果是，元数据服务器(MDS)向客户端(client)返回错误标识；

执行模块，客户端(client)在接收到错误标识后，将聚合的小文件，转换成正常的小文件，转换完成后，客户端(client)再次发送打开/删除请求到元数据服务器(MDS)；

操作模块，元数据服务器(MDS)再次接收到请求后，进行truncate操作，触发小文件对象的写时复制/删除操作，保证快照数据的正确。

判断模块中的判断文件是否为聚合的小文件包括：判断原始文件的大小是否小于第一阈值。在CephFS中，文件数据是以对象的形式存储，对象默认大小为4MB，该第一阈值可以预先设置。

a)获取聚合的小文件的聚合属性，根据所述聚合属性找到并打开聚合大文件，从中读取小文件的数据，所述聚合属性包括该小文件的inode以及该小文件的偏移量；

b)将小文件的数据写入到一个新的对象中；

c)发送setxattr请求，更新元数据服务器中小文件的元数据；

d)清空聚合大文件中对象头中该小文件的inode。

其中操作请求还包括删除操作。其中删除操作与读操作相同。元数据服务器(MDS)接收到客户端发送的删除请求后，判断文件是否存在O_TRUNC标识，如果存在，则继续判断是否是聚合的小文件，并且是否存在快照，如果是，则返回给客户端错误标识，客户端在接收到错误标识后，将聚合的小文件转换成正常的小文件，并再次发送删除请求到元数据服务器(MDS)，元数据服务器(MDS)再次接收到请求后，进行truncate操作的时候，触发小文件对象的删除操作，保证快照数据的正确。

在聚合文件中，多个源文件共用一个对象，删除源文件并不能真正释放所占用的空间，导致存储空间的浪费；同时源文件数量的减少，导致在读取文件时缓存命中率降低，影响读性能。

碎片整理，会将有效的小文件重新整合到一个新的聚合大文件中，这样就可以释放掉无效的空间，需要修改小文件元数据中的聚合属性。如果客户端中存在快照的缓存，同时发生了碎片整理，由于系统中快照都是只读的，所以不会同步客户端中的快照元数据，这样客户端中快照的元数据仍然指向旧的聚合大文件。如果此时去获取快照的数据，会获取失败，因为旧的聚合大文件已经被删除。所以需要处理快照的读流程：

a)如果读的对象为快照，且快照存在聚合属性；

c)继续后续的读操作。

关于分布式文件存储系统下快照和小文件聚合兼容装置的具体限定可以参见上文中对于分布式文件存储系统下快照和小文件聚合兼容方法的限定，在此不再赘述。上述分布式文件存储系统下快照和小文件聚合兼容装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的一个或多个处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储聚合数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种分布式文件存储系统下快照和小文件聚合兼容的方法。

本领域技术人员可以理解，图5-6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、一个或多个处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现上述任意一个实施例提供的分布式文件存储系统下快照和小文件聚合兼容方法的步骤。

在一个实施例中，本申请实施例还提供了一个或多个存储有计算机可读指令的非易失性存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任意一个实施例提供的分布式文件存储系统下快照和小文件聚合兼容方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种分布式文件存储系统下快照和小文件聚合兼容方法，其特征在于，包括：

步骤201：元数据服务器接收客户端发送的操作请求，当操作请求为打开请求时，执行判断步骤，判断文件是否存在O_TRUNC标识，如果是，则执行步骤202；

步骤202：元数据服务器判断文件是否为聚合的小文件，并且存在快照，如果是，则执行步骤203；

步骤203：元数据服务器向客户端返回错误标识；

步骤204：客户端在接收到错误标识后，将聚合的小文件转换成正常的小文件；

步骤205：转换完成后，客户端再次发送打开请求到元数据服务器；及

步骤206：元数据服务器再次接收到打开请求后，进行truncate操作，触发小文件对象的写时复制操作，保证快照数据的正确。
根据权利要求1所述的方法，其中，步骤202中的判断文件是否为聚合的小文件包括：判断原始文件的大小是否小于第一阈值。
根据权利要求1所述的方法，其中，步骤204中的转换方法包括：

a)获取聚合的小文件的聚合属性，根据所述聚合属性找到并打开聚合大文件，从中读取小文件的数据，所述聚合属性包括该小文件的inode以及偏移量；

b)将小文件的数据写入到一个新的对象中；

c)发送setxattr请求，更新元数据服务器中小文件的元数据；及

d)清空聚合大文件中对象头中该小文件的inode。
根据权利要求1所述的方法，其中，步骤201中，当以O_TRUNC的方式打开一个文件时，元数据服务器收到请求后，对文件执行truncate操作，清空文件的数据。
根据权利要求1所述的方法，其中操作请求还包括删除操作。
根据权利要求5所述的方法，元数据服务器接收到客户端发送的删除请求后，判断文件是否存在O_TRUNC标识，如果存在，则继续判断是否是聚合的小文件，并且是否存在快照，如果是，则返回给客户端错误标识，客户端在接收到错误标识后，将聚合的小文件转换成正常的小文件，并再次发送删除请求到元数据服务器，元数据服务器再次接收到请求后，进行truncate操作，触发小文件对象的删除操作，保证快照数据的正确。
根据权利要求1-6中任一所述的方法，操作请求还包括读操作：

a)如果读的对象为快照，且快照存在聚合属性；

b)获取快照最新版本的元数据，并获取该元数据的聚合属性；如果快照最新版本的聚合属性和元数据的聚合属性不一致，则将元数据的聚合属性修改为快照最新版本的聚合属性；及

c)继续后续的读操作。
根据权利要求1所述的方法，如果步骤201中的判断结果为否，或者，步骤202中的判断结果为否，则结束。
根据权利要求6所述的方法，元数据服务器如果判断文件不存在O_TRUNC标识，或者文件不是聚合的小文件，并且存在快照，则结束。10、一种分布式文件存储系统下快照和小文件聚合兼容装置，包括元数据服务器和客户端，其特征在于，所述装置还包括：

判断模块，元数据服务器接收到客户端发送的读/删除请求后，所述判断模块判断文件是否存在O_TRUNC标识，如果存在，则继续判断是否是聚合的小文件，并且是否存在快照，如果是，元数据服务器向客户端返回错误标识；

执行模块，客户端在接收到错误标识后，将聚合的小文件，转换成正常的小文件，转换完成后，客户端再次发送打开/删除请求到元数据服务器；

操作模块，元数据服务器再次接收到打开/删除请求后，进行truncate操作，触发小文件对象的写时复制/删除操作，保证快照数据的正确。
一种计算机设备，包括存储器、一个或多个处理器及存储在存储器上并可在处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现权利要求1至9中任一项所述方法的步骤。
一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1-9中任一项所述方法的步骤。