WO2021128893A1

WO2021128893A1 - 一种垃圾数据的识别方法、系统、电子设备及存储介质

Info

Publication number: WO2021128893A1
Application number: PCT/CN2020/110732
Authority: WO
Inventors: 赵煜; 胡永刚
Original assignee: 浪潮电子信息产业股份有限公司
Priority date: 2019-12-26
Filing date: 2020-08-24
Publication date: 2021-07-01
Also published as: CN111177075B; US20220374394A1; CN111177075A; US11687489B2

Abstract

一种垃圾数据的识别方法、系统、电子设备及存储介质，该方法包括：向分布式对象存储系统上传对象（S101）；获取分布式对象存储系统的索引存储池中的头对象标识符（S102）；查询数据存储池中与头对象标识符对应的目标数据组（S103）；将与目标数据组中的尾对象标识符对应的尾对象标记为目标尾对象（S104）；将数据存储池中除目标尾对象之外的尾对象标记为垃圾数据（S105）。所述方法能够识别分布式对象存储系统中的垃圾数据。

Description

一种垃圾数据的识别方法、系统、电子设备及存储介质

本申请要求于2019年12月26日提交中国专利局、申请号为201911367801.0、发明名称为“一种垃圾数据的识别方法、系统、电子设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别涉及一种垃圾数据的识别方法、系统、一种电子设备及一种存储介质。

背景技术

在向分布式对象存储系统中上传对象时，需要将对象拆分为一个头对象以及多个小于等于4M的尾对象，将尾对象和头对象先后上传至数据存储池。但是在将尾对象写入数据存储池过程中，遇到断电等异常中段进程情况，会造成尾对象写入了数据存储池，记录尾对象信息的manifest结构和头对象数据并未写入数据存储池，写入数据存储池的尾对象就成了无法访问的垃圾数据。

因此，如何识别分布式对象存储系统中的垃圾数据是本领域技术人员目前需要解决的技术问题。

发明内容

本申请的目的是提供一种垃圾数据的识别方法、系统、一种电子设备及一种存储介质，能够识别分布式对象存储系统中的垃圾数据。

为解决上述技术问题，本申请提供一种垃圾数据的识别方法，该垃圾数据的识别方法包括：

向分布式对象存储系统上传对象；

获取所述分布式对象存储系统的索引存储池中的头对象标识符；

查询数据存储池中与所述头对象标识符对应的目标数据组；其中，所述目标数据组包括头对象的数据内容和所述头对象对应的尾对象标识符；

将与所述目标数据组中的尾对象标识符对应的尾对象标记为目标尾对象；

将所述数据存储池中除所述目标尾对象之外的尾对象标记为垃圾数据。

可选的，所述向分布式对象存储系统上传对象包括：

将待上传对象拆分为待上传头对象和待上传尾对象；

为所述待上传头对象分配头对象标识符，为所述待上传尾对象分配尾对象标识符；

将所述待上传尾对象的数据内容按照拆分顺序写入所述数据存储池；

将所述待上传头对象的数据内容和所述待上传头对象对应的待上传尾对象的尾对象标识符作为所述目标数据组，写入所述数据存储池；

将所述待上传头对象的头对象标识符写入所述索引存储池。

可选的，所述待上传尾对象的尾对象标识符以manifest结构存储于所述数据存储池。

可选的，将待上传对象拆分为待上传头对象和待上传尾对象包括：

按照预设策略将所述待上传对象拆分为1个待上传头对象和多个待上传尾对象；

其中，所述待上传头对象的数据大小小于第一预设值，所述待上传尾对象的数据大小小于第二预设值，第一预设值小于第二预设值。

可选的，将所述待上传头对象的头对象标识符写入所述索引存储池包括：

将所述待上传头对象的头对象标识符写入所述索引存储池的桶中；

相应的，获取所述分布式对象存储系统的索引存储池中的头对象标识符包括：

从所述分布式对象存储系统的索引存储池的桶中获取所述头对象标识符。

可选的，在将所述数据存储池中除所述目标尾对象之外的尾对象标记为垃圾数据之后，还包括：

删除所述数据存储池中的所述垃圾数据。

可选的，还包括：

当接收到对象访问指令时，查询所述索引存储池中的与所述对象访问指令对应的目标头对象标识符；

将所述数据存储池中与所述目标头对象标识符对应的头对象的数据内容和尾对象的数据内容作为访问结果返回至访问端。

本申请还提供了一种垃圾数据的识别系统，该垃圾数据的识别系统包括：

对象上传模块，用于向分布式对象存储系统上传对象；

头像标识符获取模块，用于获取所述分布式对象存储系统的索引存储池中的头对象标识符；

数据组查询模块，用于查询数据存储池中与所述头对象标识符对应的目标数据组；其中，所述目标数据组包括头对象的数据内容和所述头对象对应的尾对象标识符；

标记模块，用于将与所述目标数据组中的尾对象标识符对应的尾对象标记为目标尾对象；

垃圾数据识别模块，用于将所述数据存储池中除所述目标尾对象之外的尾对象标记为垃圾数据。

本申请还提供了一种存储介质，其上存储有计算机程序，所述计算机程序执行时实现上述垃圾数据的识别方法执行的步骤。

本申请还提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时实现上述垃圾数据的识别方法执行的步骤。

本申请提供了一种垃圾数据的识别方法，包括向分布式对象存储系统上传对象；获取所述分布式对象存储系统的索引存储池中的头对象标识符；查询数据存储池中与所述头对象标识符对应的目标数据组；其中，所述目标数据组包括头对象的数据内容和所述头对象对应的尾对象标识符；将与所述目标数据组中的尾对象标识符对应的尾对象标记为目标尾对象；将所述数据存储池中除所述目标尾对象之外的尾对象标记为垃圾数据。

本申请首先从分布式对象存储系统的索引存储池中获取头对象标识符，基于头对象标识符查询头对象对应的尾对象标识符，将数据存储池中尾对象标识符对应的尾对象标记为目标尾对象，进而将未被标记为目标尾对象的尾对象标记为垃圾数据。由于尾对象存储至数据存储池，但头对象未存储至数据存储池会导致出现垃圾数据，因此本申请基于头对象标识符确定已存储至数据存储池的头对象对应的尾对象，进而将不存在对应头对象的尾对象标记为垃圾数据，可见本申请能够识别分布式对象存储系统中的垃圾数据。本申请同时还提供了一种垃圾数据的识别系统、一种电子设备和一种存储介质，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例所提供的一种垃圾数据的识别方法的流程图；

图2为本申请实施例所提供的一种头对象和尾对象的关系示意图；

图3为本申请实施例所提供的一种垃圾数据的识别系统的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面请参见图1，图1为本申请实施例所提供的一种垃圾数据的识别方法的流程图。

具体步骤可以包括：

S101：向分布式对象存储系统上传对象；

其中，本实施例应用于分布式对象存储系统中，作为一种可行的实施方式本实施例可以通过PUT指令的方式向分布式存储系统上传对象，在上传过程中可以先将对象拆分为一个头对象以及多个小于或等于预设大小的尾对象，每段头对象和尾对象都会按照命名规则生成一个唯一的标识符(即oid，object identifier,对象标识符)。首先将尾对象按照拆分的顺序依次分别写入数据存储池(即data存储池)，然后再将记录尾对象标识符信息的manifest结构以及头对象数据内容写入数据存储池，最后再将头对象的标识符信息写入索引存储池(即index存储池)。可以理解的是，可以按照数据位置将对象拆分为头对象和尾对象，头对象为对象头部，尾对象为除对象头部的其他数据，一个对象可以拆分为一个头对象和至少一个尾对象。存储池是存储系统中存储数据的一组磁盘。

举例说明，本实施例中向分布式对象存储系统中存储对象的操作，例如需要向分布式对象存储系统上传目标数据A，此时先将目标数据A拆分为头对象A1、尾对象A2和尾对象A3，头对象A1的对象标识符为001，尾对象A2的对象标识符为002，尾对象A3的对象标识符为003，先将尾对象A2和尾对象A3的全部数据内容存储至数据存储池，再将头对象A1与对象标识符002和对象标识符003存储至数据存储池，最后将对象标识符001存储至索引存储池。

S102：获取所述分布式对象存储系统的索引存储池中的头对象标识符；

其中，在本步骤之前可以存在接收到垃圾数据检测指令的操作，当然本实施例也可以按照预设周期获取所述分布式对象存储系统的索引存储池中的头对象标识符，以实现对于分布式对象存储系统的垃圾数据定期检测。索引存储池中可以存储头对象的头对象标识符，具体的索引存储池中可以以桶的形式存储对象标识符。

S103：查询数据存储池中与所述头对象标识符对应的目标数据组；

其中，本步骤建立在已经得到头对象标识符的基础上，可以查询数据存储池中与头对象标识符对应的目标数据组，具体的，上述目标数据组可以包括头对象的数据内容和头对象对应的尾对象标识符。即在数据存储池中头对象的数据内容与尾对象的尾对象标识符一同存储在数据存储池中，在得到头对象标识符的基础上，可以从数据存储池中查询该头对象标识符对应的头对象的数据内容，进而得到与头对象数据内容对应的尾对象标识符。作为一种可行的实施方式，本实施例中头对象标识符可以根据头对象的数据内容进行映射(如哈希映射)得到，因此能够根据头对象标识符确定对应的头对象数据内容；同理可知，可以根据尾对象标识符确定对应的尾对象数据内容。

S104：将与所述目标数据组中的尾对象标识符对应的尾对象标记为目标尾对象；

其中，本实施例可以确定目标数据组中的为对象标识符，进而将存储数据池中与目标数据组中的为对象标识符对应的尾对象标记为目标尾对象。也就是说，在将目标尾对象存储至数据存储池的过程中，目标尾对象对应的头对象数据也写入了数据存储池，目标尾对象不为垃圾数据。

S105：将所述数据存储池中除所述目标尾对象之外的尾对象标记为垃圾数据。

其中，本步骤建立在已经确定目标尾对象的基础上，可以将数据存储池中除目标尾对象之外的尾对象标记为垃圾数据，即存储池中不存在除所述目标尾对象之外的尾对象对应的头对象，这些尾对象无法进行访问。

本实施例首先从分布式对象存储系统的索引存储池中获取头对象标识符，基于头对象标识符查询头对象对应的尾对象标识符，将数据存储池中尾对象标识符对应的尾对象标记为目标尾对象，进而将未被标记为目标尾对象的尾对象标记为垃圾数据。由于尾对象存储至数据存储池，但头对象未存储至数据存储池会导致出现垃圾数据，因此本实施例基于头对象标识符确定已存储至数据存储池的头对象对应的尾对象，进而将不存在对应头对象的尾对象标记为垃圾数据，可见本实施例能够识别分布式对象存储系统中的垃圾数据。

作为对于图1对应实施例的进一步说明，在将所述数据存储池中除所述目标尾对象之外的尾对象标记为垃圾数据之后，还可以删除所述数据存储池中的所述垃圾数据。

作为对于图1对应实施例的进一步说明，当接收到对象访问指令时，查询所述索引存储池中的与所述对象访问指令对应的目标头对象标识符；将所述数据存储池中与所述目标头对象标识符对应的头对象的数据内容和尾对象的数据内容作为访问结果返回至访问端。

作为对于图1对应实施例的进一步介绍，S101中上传对象的过程可以具体包括以下操作：

步骤1：将待上传对象拆分为待上传头对象和待上传尾对象；

其中，本步骤可以按照预设策略将所述待上传对象拆分为1个待上传头对象和多个待上传尾对象；其中，所述待上传头对象的数据大小小于第一预设值，所述待上传尾对象的数据大小小于第二预设值，第一预设值小于第二预设值。

步骤2：为所述待上传头对象分配头对象标识符，为所述待上传尾对象分配尾对象标识符；

步骤3：将所述待上传尾对象的数据内容按照拆分顺序写入所述数据存储池；

步骤4：将所述待上传头对象的数据内容和所述待上传头对象对应的待上传尾对象的尾对象标识符作为所述目标数据组，写入所述数据存储池；

其中，本步骤中待上传尾对象的尾对象标识符以manifest结构存储于所述数据存储池。具体的，manifest为存储系统中定义的一种数据，作用是管理应用对象和rados对象的对应关系，下载对象时，通过读取头对象中manifest信息，可下载完整的应用对象。

步骤5：将所述待上传头对象的头对象标识符写入所述索引存储池。

作为一种可行的实施方式，上述实施方式中可以将所述待上传头对象的头对象标识符写入所述索引存储池的桶中，以便所述分布式对象存储系统的索引存储池的桶中获取所述头对象标识符。

下面通过在实际应用中的实施例说明上述实施例描述的流程。

在上传一个对象到分布式对象存储系统中分布式对象，存储系统会按照一定策略将对象数据拆分成一个512k大小的头对象以及多个小于等于4M的尾对象。存储系统将对象存入存储池的过程是，首先依次按顺序将所有尾对象存入数据存储池命名为各自的对象标识符，然后将记录所有尾对象的manifest结构和头对象一起存入数据存储池以头对象的对象标识符命名，最后将头对象的对象标识符信息写入到索引存储池中存储桶的对象标识符的存储空间中。

根据对象的存储策略以及各个对象标识符之间的关联关系，本实施例提出了一种识别垃圾数据的方法，遍历索引存储池中桶存储的对象标识符后，之后根据桶存储的对象标识符遍历数据存储池中头对象标识符并记上标记，最后根据头对象标识符，找出头对象对应的所有尾对象并记上标记。最终数据存储池中所有未做标记的尾对象均为垃圾数据。请参见图2，图2为本申请实施例所提供的一种头对象和尾对象的关系示意图，图2中h1、h2和h3为头对象标识符，t1、t2、t3、t4、t5、t6为尾对象标识符，桶中存储有对象标识符h1、h2和h3，进而从数据存储池中查询h1、h2和h3对应的尾对象标识符t1、t2、t3、t4和t5，因此可以将未存储尾对象标识符的尾对象的数据内容标记为垃圾数据。

上述实施例提出一种识别存储系统中垃圾数据的方法，为清除存储系统垃圾提供了解决办法，丰富了分布式对象存储系统的功能，提高了存储系统磁盘空间的利用率，避免了磁盘空间的浪费，为垃圾数据清除提供准确的定位。

请参见图3，图3为本申请实施例所提供的一种垃圾数据的识别系统的结构示意图；

该系统可以包括：

对象上传模块100，用于向分布式对象存储系统上传对象；

头像标识符获取模块200，用于获取所述分布式对象存储系统的索引存储池中的头对象标识符；

数据组查询模块300，用于查询数据存储池中与所述头对象标识符对应的目标数据组；其中，所述目标数据组包括头对象的数据内容和所述头对象对应的尾对象标识符；

标记模块400，用于将与所述目标数据组中的尾对象标识符对应的尾对象标记为目标尾对象；

垃圾数据识别模块500，用于将所述数据存储池中除所述目标尾对象之外的尾对象标记为垃圾数据。

本实施例首先从分布式对象存储系统的索引存储池中获取头对象标识符，基于头对象标识符查询头对象对应的尾对象标识符，将数据存储池中尾对象标识符对应的尾对象标记为目标尾对象，进而将未被标记为目标尾对象的尾对象标记为垃圾数据。由于尾对象存储至数据存储池但头对象未存储至数据存储池会导致出现垃圾数据，因此本实施例基于头对象标识符确定已存储至数据存储池的头对象对应的尾对象，进而将不存在对应头对象的尾对象标记为垃圾数据，可见本实施例能够识别分布式对象存储系统中的垃圾数据。

进一步的，对象上传模块100包括：

对象拆分单元，用于将待上传对象拆分为待上传头对象和待上传尾对象；

标识符分配单元，用于为所述待上传头对象分配头对象标识符，为所述待上传尾对象分配尾对象标识符；

数据写入单元，用于将所述待上传尾对象的数据内容按照拆分顺序写入所述数据存储池；还用于将所述待上传头对象的数据内容和所述待上传头对象对应的待上传尾对象的尾对象标识符作为所述目标数据组，写入所述数据存储池；还用于将所述待上传头对象的头对象标识符写入所述索引存储池。

进一步的，所述待上传尾对象的尾对象标识符以manifest结构存储于所述数据存储池。

进一步的，对象拆分单元具体为用于按照预设策略将所述待上传对象拆分为1个待上传头对象和多个待上传尾对象的单元；其中，所述待上传头对象的数据大小小于第一预设值，所述待上传尾对象的数据大小小于第二预设值，第一预设值小于第二预设值。

进一步的，数据写入单元用于将所述待上传头对象的头对象标识符写入所述索引存储池的桶中；

相应的，头像标识符获取模块200包括：

进一步的，还包括：

数据清除模块，用于在将所述数据存储池中除所述目标尾对象之外的尾对象标记为垃圾数据之后，删除所述数据存储池中的所述垃圾数据。

进一步的，还包括：

对象访问模块，用于当接收到对象访问指令时，查询所述索引存储池中的与所述对象访问指令对应的目标头对象标识符；还用于将所述数据存储池中与所述目标头对象标识符对应的头对象的数据内容和尾对象的数据内容作为访问结果返回至访问端。

由于系统部分的实施例与方法部分的实施例相互对应，因此系统部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

本申请还提供了一种存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请还提供了一种电子设备，可以包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

一种垃圾数据的识别方法，其特征在于，包括：

向分布式对象存储系统上传对象；

获取所述分布式对象存储系统的索引存储池中的头对象标识符；

查询数据存储池中与所述头对象标识符对应的目标数据组；其中，所述目标数据组包括头对象的数据内容和所述头对象对应的尾对象标识符；

将与所述目标数据组中的尾对象标识符对应的尾对象标记为目标尾对象；

将所述数据存储池中除所述目标尾对象之外的尾对象标记为垃圾数据。
根据权利要求1所述识别方法，其特征在于，所述向分布式对象存储系统上传对象包括：

将待上传对象拆分为待上传头对象和待上传尾对象；

为所述待上传头对象分配头对象标识符，为所述待上传尾对象分配尾对象标识符；

将所述待上传尾对象的数据内容按照拆分顺序写入所述数据存储池；

将所述待上传头对象的数据内容和所述待上传头对象对应的待上传尾对象的尾对象标识符作为所述目标数据组，写入所述数据存储池；

将所述待上传头对象的头对象标识符写入所述索引存储池。
根据权利要求2所述识别方法，其特征在于，所述待上传尾对象的尾对象标识符以manifest结构存储于所述数据存储池。
根据权利要求2所述识别方法，其特征在于，将待上传对象拆分为待上传头对象和待上传尾对象包括：

按照预设策略将所述待上传对象拆分为1个待上传头对象和多个待上传尾对象；

其中，所述待上传头对象的数据大小小于第一预设值，所述待上传尾对象的数据大小小于第二预设值，所述第一预设值小于所述第二预设值。
根据权利要求2所述识别方法，其特征在于，将所述待上传头对象的头对象标识符写入所述索引存储池包括：

将所述待上传头对象的头对象标识符写入所述索引存储池的桶中；

相应的，获取所述分布式对象存储系统的索引存储池中的头对象标识符包括：

从所述分布式对象存储系统的索引存储池的桶中获取所述头对象标识符。
根据权利要求1所述识别方法，其特征在于，在将所述数据存储池中除所述目标尾对象之外的尾对象标记为垃圾数据之后，还包括：

删除所述数据存储池中的所述垃圾数据。
根据权利要求1至6任一项所述识别方法，其特征在于，还包括：

当接收到对象访问指令时，查询所述索引存储池中的与所述对象访问指令对应的目标头对象标识符；

将所述数据存储池中与所述目标头对象标识符对应的头对象的数据内容和尾对象的数据内容作为访问结果返回至访问端。
一种垃圾数据的识别系统，其特征在于，包括：

对象上传模块，用于向分布式对象存储系统上传对象；

头像标识符获取模块，用于获取所述分布式对象存储系统的索引存储池中的头对象标识符；

数据组查询模块，用于查询数据存储池中与所述头对象标识符对应的目标数据组；其中，所述目标数据组包括头对象的数据内容和所述头对象对应的尾对象标识符；

标记模块，用于将与所述目标数据组中的尾对象标识符对应的尾对象标记为目标尾对象；

垃圾数据识别模块，用于将所述数据存储池中除所述目标尾对象之外的尾对象标记为垃圾数据。
一种电子设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如权利要求1至7任一项所述垃圾数据的识别方法的步骤。
一种存储介质，其特征在于，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上权利要求1至7任一项所述垃圾数据的识别方法的步骤。