WO2020215223A1

WO2020215223A1 - 分布式存储系统和分布式存储系统中垃圾回收方法

Info

Publication number: WO2020215223A1
Application number: PCT/CN2019/083960
Authority: WO
Inventors: 罗小东; 陈飘; 何益
Original assignee: 华为技术有限公司
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2020-10-29
Also published as: CN113302597A

Abstract

一种分布式存储系统，以及分布式存储系统中垃圾回收方法。主节点根据源逻辑单元分布在每个存储节点中的有效数据的数据量，从所述多个存储节点中选择目标节点，所述目标节点中存储的第一有效数据的数据量超过设定的数量阈值。所述主节点创建目标逻辑单元，所述目标逻辑单元所分布的存储节点中包括所述目标节点。换而言之，所述目标逻辑单元所占用的存储空间中至少有一部分存储空间是来自于所述目标节点的。然后，所述主节点指令所述目标节点将所述第一有效数据从第一源地址迁移至第一目标地址。再释放所述第一源地址指示的存储空间。节省了存储节点之间的网络带宽。

Description

分布式存储系统和分布式存储系统中垃圾回收方法

技术领域

本申请涉及存储领域，并且更具体地，涉及一种分布式存储系统和分布式存储系统中垃圾回收方法。

背景技术

在分布式存储系统中，数据通常通过追加写的方式写入系统所包含的多个存储节点中。追加写不同于覆盖写，对数据进行修改时，原来的数据并不会立即删除，因此系统中不可避免地会出现大量垃圾数据(修改后的数据是有效数据)。为了释放垃圾数据所占用的存储空间，系统会定期进行垃圾回收。垃圾回收以逻辑单元为对象，其具体过程是，在所述分布式存储系统中选择一定数量的存储节点，在这些存储节点中创建新的逻辑单元，然后将待回收的逻辑单元中的有效数据写入新的逻辑单元，再释放该待回收的逻辑单元所占用的存储空间。由于所述新的逻辑单元所位于的一定数量的存储节点通常是随机选择的，所以这些存储节点往往不同于所述待回收的存储节点所在的节点，那么在将有效数据重新写入新的逻辑单元的过程中，往往涉及到存储节点之间的数据转发，会消耗大量的带宽资源。

发明内容

本申请提供了一种分布式存储系统，以及分布式存储系统中垃圾回收方法，能够保证至少有一部分有效数据在同一个存储节点中迁移，在一定程度上减少了跨节点迁移数据，从而达到节省带宽的目的。

第一方面提供了一种分布式存储系统中的垃圾回收方法，所述分布式存储系统包括多个存储节点，其中一个存储节点是主节点。在该方法中，主节点根据源逻辑单元分布在每个存储节点中的有效数据的数据量，从所述多个存储节点中选择目标节点，所述目标节点中存储的第一有效数据的数据量超过设定的数量阈值。所述主节点创建目标逻辑单元，所述目标逻辑单元所分布的存储节点中包括所述目标节点。换而言之，所述目标逻辑单元所占用的存储空间中至少有一部分存储空间是来自于所述目标节点的。然后，所述主节点指令所述目标节点将所述第一有效数据从第一源地址迁移至第一目标地址。第一源地址和第一目标地址均是指实际地址，并且第一源地址和第一目标地址都位于所述目标节点内，然而第一源地址指示的存储空间属于所述源逻辑单元，第一目标地址指示的存储空间属于所述目标逻辑单元。当所述主节点确认所述源逻辑单元中所有的有效数据均已迁移至所述目标逻辑单元之后，释放所述源逻辑单元占用的存储空间。所述源逻辑单元占用的存储空间包括所述第一源地址指示的存储空间。

按照第一方面提供的垃圾回收方法，将源逻辑单元所分布的中保存有效数据较多的存储节点作为目标节点，主节点创建的目标逻辑单元所分布的存储节点包括所述目标节点，因此目标节点不仅为源逻辑单元提供存储空间，也为目标逻辑单元提供了存储空间。那么主节点在迁移源逻辑单元的有效数据的过程中，可以指令所述目标节点将所述第一有效数据从所述目标节点内的第一源地址迁移至所述目标节点内的第一目标地址。由于所述第一有效数据是在所述目标节点内部迁移，因此在一定程度上避免了数据在存储节点之间的转发，节省了网络带宽。

在第一方面的第一种实现中，在所述主节点指令所述目标节点将所述第一有效数据从所述目标节点内的第一源地址迁移至所述目标节点内的第一目标地址之前，所述主节点创建迁移列表，所述迁移列表包括所述第一有效数据的第一源地址以及所述第一有效数据的第一目标地址。然后，主节点将所述迁移列表发送给所述目标节点。所述迁移列表可以根据最少迁移原则创建。

结合第一方面的第一种实现，在第一方面的第二种实现中，所述多个存储节点还包括其他存储节点，所述其他存储节点独立于所述目标逻辑单元所分布的存储节点，所述迁移列表还包括所述其他存储节点内存储的第二有效数据的第二源地址和所述第二有效数据的第二目标地址，所述第二源地址位于所述其他存储节点中，所述第二目标地址位于所述目标节点中。所述主节点还将所述迁移列表发送给所述其他存储节点。其他存储节点是源逻辑单元所分布的中保存有效数据较少的存储节点，没有被选作目标节点，因此没有为目标逻辑单元提供存储空间。在这种情况下，所述其他存储节点需要将它存储的第二有效数据迁移至目标节点。如果目标节点有多个，则可以迁移至任意一个目标节点。或者，所述其他存储节点还可以将所述第二有效数据迁移至所述目标逻辑单元所位于的除目标节点之外的其他节点。

结合第一方面的第一种实现，在第一方面的第三种实现中，所述第一源地址和所述第一目标地址均位于所述目标节点的第一硬盘中。在这种情况下，所述目标节点可以将所述第一源地址和所述第一目标地址发送给所述第一硬盘，由所述第一硬盘执行迁移操作。由此减轻所述目标节点的处理器的负担。

结合第一方面的第一种实现，在第一方面的第四种实现中，所述第一源地址位于所述目标节点的第一硬盘中，所述第一目标地址位于所述目标节点的第二硬盘中。在这种情况下，具体的迁移操作则是所述目标节点的处理器将所述第一有效数据从所述第一源地址读取至缓存，再从缓存中写入所述第一目标地址。

结合第一方面的第一种实现，在第一方面的第四种实现中，所述主节点指令所述目标节点将所述第一有效数据从所述目标节点内的第一源地址迁移至所述目标节点内的第一目标地址包括所述主节点指令所述目标节点根据所述第一有效数据位于所述源逻辑单元内的偏移量将所述第一有效数据从所述第一源地址迁移至所述第一目标地址，使得所述迁移后所述第一有效数据位于所述目标逻辑单元内的偏移量与迁移前所述第一有效数据位于所述源逻辑单元内的偏移量相同。按照这种迁移方式，第一有效数据位于所述源逻辑单元中的位置和位于所述目标逻辑单元中的位置相同。如果所述第一有效数据所位于的第一分条中所包含的所有的有效数据都按照这样的方式迁移，则所述第一分条所包含的数据分片在迁移前后不会发生变化，因此不需要重新计算校验分片，保留所述第一分条原有的校验分片即可。从而减轻了主节点的计算量，节省了计算资源。

结合第一方面的第四种实现，在第一方面的第五种实现中，当所述源逻辑单元中所有的有效数据均迁移至所述目标逻辑单元，并且释放了所述源逻辑单元所占用的存储空间之后，所述主节点可以将所述目标逻辑单元的标识修改为所述源逻辑单元的标识。由于数据的逻辑地址是由该数据所在的逻辑单元的标识，以及在所述逻辑单元内的偏移量组成的。因为所述目标逻辑单元继承了所述源逻辑单元的标识，并且由第四种实现可知，所述第一有效数据位于所述源逻辑单元中的位置和位于所述目标逻辑单元中的位置相同，因此所述第一有效数据的逻辑地址在迁移前后并没有发生变化，从而避免了所述第一有效数据的元数据的修改，以及修改后的元数据在存储节点间的转发，进一步节省了网络带宽。

本申请第二方面提供了一种主节点，所述主节点位于分布式存储系统中，所述分布式存储系统包括多个存储节点，所述主节点包括接口和处理器，其中所述接口用于与所述多个存储节点进行通信；所述处理器用于执行第一方面提供的任意一种实现。

本申请第三方面提供了一种垃圾回收装置，所述装置位于分布式存储系统的主节点中，所述分布式存储系统包括多个存储节点，所述主节点是所述多个存储节点中的一个存储节点，所述垃圾回收装置用于执行第一方面提供的任意一种实现。

本申请第四方面提供了一种垃圾回收的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令用于执行第一方面所描述的方法。

附图说明

图1是本发明实施例提供的应用场景图；

图2是本发明实施例提供的逻辑单元的示意图；

图3是本发明实施例提供的一种垃圾回收方法的效果示意图；

图4是本发明实施例提供的一种垃圾回收方法的流程示意图；

图5是本发明实施例提供的一种迁移列表的示意图；

图6是本发明实施例提供的另一种垃圾回收方法的流程示意图；

图7是本发明实施例提供的另一种垃圾回收方法的效果示意图；

图8是本发明实施例提供的主节点的结构示意图；

图9是本发明实施例提供的主节点的垃圾回收装置的结构示意图。

具体实施方式

本申请实施例在垃圾回收(garbage collection)时，能够保证至少有一部分有效数据在同一个存储节点中迁移，在一定程度上减少了跨节点迁移数据，从而达到节省带宽的目的。下面将结合附图，对本发明实施例中的技术方案进行描述。

本申请实施例的技术方案可以应用于各种存储系统。在下文中以分布式存储系统为例描述本申请实施例的技术方案，但本发明实施例对此并不限定。在分布式存储系统中，数据分散存储在多台存储节点(下面简称为“节点”)上，由多台存储节点分担存储负荷，这种存储方式不但提高了系统的可靠性、可用性和存取效率，还易于扩展。存储节点例如是服务器，或者是存储控制器和存储介质的组合。

图1是可应用本实施例的技术方案的场景的示意图。如图1所示，多个客户端服务器(client server)101和存储系统100通信，存储系统100包括交换机103和多个存储节点(或简称“节点”)104等。其中，交换机103是可选设备。每个存储节点104可以包括多个机械硬盘或者其他类型的存储介质(例如固态硬盘或者叠瓦式磁记录)，用于存储数据。

图2是本实施例提供的逻辑单元的示例。逻辑单元是一段逻辑空间，每个逻辑单元的实际的物理空间来自多个节点。逻辑单元所占用的节点的数量取决于该逻辑单元对应的独立硬盘冗余阵列(Redundant Array of Independent Disks,RAID)类型。如图2所示，节点2、节点3、节点4、节点5、节点6和节点7各自提供一部分存储空间，从而构建出RAID类型为“4+2”的逻辑单元1，其中，节点2、节点3、节点4和节点5用于存储数据分片，节点6和节点7用于存储校验分片。在这6个节点中，有一个节点(例如，节点2)被选举为主节点。主节点将接收的数据划分成4个数据分片，并计算4个数据分片的2个校验分片，再将每个数据分片及其校验分片发送到相应的节点进行存储。主节点可以是其中一个分片所在的节点，也可以是独立于逻辑单元1之外的节点。在数据分片写入节点时，通常会以设定的粒度写入，粒度的大小例如8KB或者16KB。一个数据分片或者校验分片按照所述设定的粒度可以划分为多个数据块。例如节点2中存储的一个数据分片包括数据块D1和数据块D2，节点3中存储的一个数据分片包括数据D3和D4，……，节点6中存储的一个校验分片包括Q1和Q2等等。校验分片包括Q1、Q2，以及P1、P2。D1、D2、D3、D4、D5、D6、D7、D8和Q1、Q2、P1、P2共同组成一个分条(stripe)。当任意两个数据分片/校验分片发生损坏时，可以利用其它分片进行恢复，从而保证数据的可靠性。示例性的，逻辑单元1还可以包括另一个分条，它由D9、D10、D11、D12、D13、D14、D15、D16和Q3、Q4、P3、P4组成。对于每个分片(数据分片或者校验分片)而言，它所在的逻辑单元的标识以及位于所述逻辑单元内部的位置组成所述分片的逻辑地址，该分片位于节点中的实际地址是所述分片的物理地址。

每个逻辑单元可以包含一个或者多个分条，本实施例中不限定逻辑单元所包含的分条的数量，图2仅为示例。逻辑单元2和逻辑单元3的情况与逻辑单元1类似，这里不再详细描述。本实施例并不限定节点的数量，也不限定逻辑单元的数量以及其所对应的RAID类型。

在实际应用中，系统往往采用追加写的模式将数据写入逻辑单元，当一个逻辑单元写满之后系统会分配新的逻辑单元供数据写入。随着数据的不断修改，修改前写入的数据会变成无效数据。这些无效数据不会被读取，但仍然占据着存储空间。因此，当系统空间不足时就需要回收逻辑单元以释放存储空间了。追加写也称为写时重定向ROW(redirect-On-write)。

在本实施例中，逻辑单元是垃圾回收的基本单位。换而言之，当一定条件触发时，系统从多个逻辑单元中选择出一个或多个待回收的逻辑单元(又称为源逻辑单元)，将这些逻辑单元中的有效数据迁移至其他地方以后再释放这些逻辑单元，以达到回收存储空间的目的。

下面结合图3和图4介绍本实施例提供的垃圾回收方法。该方法可以应用在图1所示的分布式存储系统中，垃圾回收的对象为如图2所示的逻辑单元。图3是垃圾回收方法的效果示意图，图4是是垃圾回收方法的流程示意图。如图4所示，该方法包括以下步骤。

在S401中，主节点确定源逻辑单元。该步骤通常在一定触发条件下进行，例如系统中垃圾数据的数据量达到特定数量阈值，或者系统中可用的存储空间的大小低于特定空间阈值，或者满足回收条件的逻辑单元达到一定数量等等。所述源逻辑单元也需要满足一定条件，例如该逻辑单元所包含的垃圾数据的数据量达到第一垃圾阈值，或者该逻辑单元所包含的有效数据的数据量低于第二垃圾阈值等等。通常情况下，确定出的源逻辑单元可以是一个也可以是多个。以图3为例，假设确定出的源逻辑单元为逻辑单元1、逻辑单元2和逻辑单元3。

在S402中，主节点确定源逻辑单元所位于的节点。假设逻辑单元1、逻辑单元2和逻辑单元3都是源逻辑单元。由图3可知，逻辑单元1对应的RAID类型为“4+2”，分布在节点2、节点3、节点4、节点5、节点6和节点7中。逻辑单元2的RAID类型与逻辑单元1一致，它分布在节点1、节点2、节点3、节点5、节点6和节点7。逻辑单元3的RAID类型与逻辑单元1一致，它分布在节点1、节点2、节点3、节点4、节点5和节点7。因此，源逻辑单元所位于的节点包括节点1、节点2、节点3、节点4、节点5、节点6和节点7。

在S403中，主节点统计所述源逻辑单元所位于的节点包含的有效数据的数据量，并选择出有效数据的数据量超过设定的数量阈值的节点作为目标节点。实际应用中，往往按照上面描述的数据块的粒度来统计有效数据的数据量。如果某个数据块中只包含有效数据，这样的数据块被称为有效数据块(如图3中白色的Dn所示)，如果某个数据块中包含无效数据，那么这个数据块被称为无效数据块(如图3中灰色的Dn所示)。另外，图3中的P、Q数据块中存储的是校验数据，由于通常情况下在垃圾回收完成之后原有的分条所包含的数据分片发生变化，因此会重新计算并存储校验分片以保证可靠性。由此，有效和无效仅针对数据分片中的数据块；P、Q数据块没有有效数据和无效数据之分，只统计数据分片所包含的有效数据块即可。

示例性的，如图3所示，节点2、节点3、节点4和节点5均包含3个或4个有效数据块，如果数量阈值为2，则可以将节点2、节点3、节点4和节点5均作为目标节点。然而，图3仅是一种示例，在本实施例中，只要有效数据的数据量超过设定的数量阈值的节点都可以作为目标节点，目标节点的数量可以是一个也可以是多个，本实施例不做限定。

在S404中，所述主节点创建目标逻辑单元(如图3所示的逻辑单元4)，所述目标逻辑单元所占用的存储空间至少有部分来源于所述目标节点。新创建的目标逻辑单元的RAID类型与源逻辑单元(逻辑单元1、逻辑单元2和逻辑单元3)的RAID类型一致，因此逻辑单元4需要跨越6个节点，所述6个节点包括S403中选择出的目标节点，若选择出的目标节点不够，则再从所述分布式存储系统中选择一些节点以凑够6个节点。例如：假设S403中的目标节点的数量是4个，那么需要再选择2个节点。如图3所示，逻辑单元4的存储空间来源于节点2、节点3、节点4、节点5、节点6和节点7。其中，节点2、节点3、节点4、节点5是S403中选择出的目标节点，节点6和节点7是另外选择的两个节点，目标节点之外的节点的选择策略，可以是负载均衡或者随机原则，本实施例不做限定。逻辑单元4的RAID类型为“4+2”，节点2、节点3、节点4、节点5可以用于数据分片，节点6和节点7用于存储校验分片。

在S405中，将所述源逻辑单元中的有效数据块迁移到目标逻辑单元(逻辑单元4)。由于所述源逻辑单元中的有效数据块是分布在多个节点上的，因此具体的，主节点需要向各个有效数据块所在的节点发送指令，指示该节点将其存储的有效数据块迁移到目标逻辑单元。这里可以分为两种情况，情况1，对于目标节点而言，有效数据块只需要在该节点内部迁移。在这种情况下，主节点可以指令所述目标节点将所述有效数据块从所述目标节点内的第一源地址迁移至所述目标节点内的第一目标地址，所述第一源地址和所述第一目标地址都是实际地址，所述第一源地址指示的存储空间属于所述源逻辑单元，所述第一目标地址指示的存储空间属于所述目标逻辑单元。例如，数据块D1的源地址和目标地址都位于节点2内部，因此数据块D1只需要在节点2内部迁移。情况2，对于除目标节点之外的节点而言，则需要将该节点内存储的有效数据块发送给其中一个目标节点。在这种情况下，主节点指令该节点将存储的有效数据块从第二源地址迁移至第二目标地址。例如数据块D19，它的源地址位于节点1内，而目标地址位于节点2内。由于节点1并没有给逻辑单元4提供存储空间，因此需要将D26发送给其中一个目标节点(如图3所示的节点2)，由节点2将D26保存在逻辑单元4中。

一种可选的实施方式是，在S405之前主节点根据最少迁移策略为各个有效数据块分配目标地址，并创建迁移列表50(如图5所示)。该迁移列表50包括每个有效数据块的源地址和目标地址。有效数据块的源地址是指有效数据块迁移前的实际地址，有效数据块的目标地址是指所述有效数据块迁移后的实际地址。最少迁移策略是一种迁移策略，是指使得跨节点的迁移数据尽量最少的一种策略，尽量避免数据跨节点迁移的原则。例如，对于目标节点(如节点2)而言，它既为源逻辑单元提供存储空间也为目标逻辑单元提供存储空间，因此该目标节点中的有效数据块无需迁移至其他节点。而对于非目标节点(如节点6)，由于它并没有为目标逻辑单元提供存储空间，所以不得不将该节点中的有效数据块迁移至所述目标逻辑单元所在的节点。主节点创建迁移列表50后，将所述列表50发送给有效数据块所在的节点，并指示这些节点按照列表中的目标地址进行迁移。需要特别说明的是，最少迁移策略只是迁移策略中的一种，本发明实施例还可以使用其他迁移策略。由于现有技术中迁移的目的节点是随机选择的，因此，只要有至少一个节点的数据块被指定为：在迁移之后仍然保留在本节点，换句话说，对这个数据块而言，源节点和目标节点是同一个节点。那么，和现有技术相比，就可以产生减少跨节点迁移的有益效果，因此属于本发明实施例所欲保护的范围。

另一种可选的实施方式是，主节点无需生成迁移列表50，而是在根据所述最少迁移策略为各个有效数据块分配目标地址之后直接指示所述有效数据块所在的节点按照所述目标地址进行数据迁移。

进一步地，对于目标节点而言，有效数据块是在其节点内部实现迁移，然而在不同的场景下处理方式也有所差异。若一个有效数据块的源地址和目标地址指向不同硬盘，那么在迁移时需要将该有效数据块从源地址读取至节点内的缓存，再从缓存中获取该数据块重新写入目标地址。例如数据块D5，其源地址位于节点4的硬盘0，而目标地址位于节点4的硬盘1，此时节点4则需要从硬盘0中读取D5至缓存，再从缓存中获取D5并写入硬盘1。若一个有效数据块的源地址和目标地址指向同一个硬盘，那么迁移时则无需将有效数据块从硬盘读取至缓存，直接在硬盘内部实现迁移即可。此时，该节点的处理器可以向所述有效数据块所在的硬盘发送迁移指令，该迁移指令包括所述有效数据块的源地址和目标地址。所述硬盘可直接从源地址读取数据，再写入目标地址。例如，数据块D3，其源地址和目标地址均位于节点3的硬盘0，那么节点3的处理器向硬盘0的读写芯片发送迁移指令，所述读写芯片将D3从盘内偏移地址2写入盘内偏移地址10。在本实施例中，盘内偏移地址用于指示数据存储在硬盘内的具体位置。

对于目标逻辑单元(如图3所示的逻辑单元4)，在各个数据分片写入相应的节点之后，主节点还需要计算这些数据分片的校验分片。校验分片包括校验数据块，如图3所示的P、Q就是校验数据块。校验数据块计算完成之后，主节点再将校验分片(校验分片包括校验数据块)发送给相应的节点的存储。

当源逻辑单元中的所有有效数据均迁移至目标逻辑单元之后，主节点对数据的元数据进行更新。元数据包括数据的逻辑地址和物理地址，逻辑地址是指该数据所位于的逻辑单元的标识以及在所述逻辑单元内部的偏移量。可以理解的是，有效数据块从源逻辑单元迁移至目标逻辑单元后，其逻辑地址会发生变化。为了使得客户端服务器101后续能够读取到正确的数据，主节点需要修改数据的逻辑地址。物理地址是指实际存储所述数据的物理位置，它指示了该数据所在的节点的标识，在节点内的硬盘的标识以及盘内偏移地址(可参考图5)。当数据真实地从一个节点迁移至另一个节点，或者从一个硬盘迁移至另一个硬盘，或者在同一个硬盘内部迁移其物理地址都会发生变化，变化后的物理地址需记录在数据的元数据中。

在S406中，主节点释放所述源逻辑单元(图3所示的逻辑单元1、逻辑单元2和逻辑单元3)所占用的存储空间。在释放之前删除所述源逻辑单元中存储的所有数据，包括有效数据和无效数据。释放后所获得的存储空间可供其他逻辑单元使用。需要说明的是，S406发生在源逻辑单元中的有效数据全部迁移至目标逻辑单元之后，它具体包括：主节点分别释放所述源逻辑单元所分布在各个存储节点中的相应的存储空间。

按照图4所示的垃圾回收方法，将包含有效数据较多的节点选择出来继续为目标逻辑单元提供存储空间，那么这些节点中存储的有效数据就可以继续保留在该节点中，避免了节点间的转发，节省了网络带宽。即使有少量位于其他节点上的有效数据仍然需要发送给这些包含有效数据较多的节点，与现有技术相比，也能在一定程度上节省网络带宽。

进一步的，S405至少有两种实现方式。一种实现是将逻辑单元1、逻辑单元2和逻辑单元3中的各个有效数据块迁移至逻辑单元4对应的存储空间即可，不考虑有效数据块的逻辑地址。换而言之，迁移前、后相比，有效数据块在逻辑单元内的所处的位置会发生变化。那么，一个分条所包含的数据分片也会发生变化，这种情况下，不得不重新计算校验分片。另一种实现方式是，将有效数据块从源逻辑单元迁移至目标逻辑单元的过程中，按照所述有效数据块原有的逻辑地址进行迁移，使得迁移后的各个有效数据块在逻辑单元4内的偏移量与原来的偏移量一致。按照这种迁移方式，在大量逻辑单元需要被回收的情况下，大概率地会出现：和迁移前相比，某些分条在迁移之后，其包含的数据分片也没有发生变化，对于这些分条就不需要重新计算校验分片了。因此，和前一种方式相比，这种方式可以节省系统的计算资源。下面以一个具体的例子来说明。

请参考图6和图7，图6是本实施例提供的另一种垃圾回收方法。该方法可以应用在图1所示的分布式存储系统中，垃圾回收的对象为如图2所示的逻辑单元。图6是所述方法的流程示意图，图7是所述方法的效果示意图。如图6所示，该方法包括以下步骤。

S601，主节点确定至少两个源逻辑单元。该步骤通常在一定触发条件下进行，这里的触发条件与图4所示的S401中的触发条件一致，可参考S401的描述。所述至少两个源逻辑单元也需要满足一定条件。可选的，主节点可以设置所述源逻辑单元符合一定条件，具体的条件设置可以参考S401的描述。

示例性的，以确定两个源逻辑单元为例，这两个逻辑单元分别为逻辑单元22和逻辑单元33。本实施例可以设置每个源逻辑单元均满足所述触发条件，也可以设置只需要其中任意一个源逻辑单元满足所述触发条件，还可以设置逻辑单元22的垃圾数据的数据量达到第一垃圾阈值时，逻辑单元33的垃圾数据的数据量低于第二垃圾阈值。这样的设置使得两个源逻辑单元所包含的垃圾数据的数据量有一定的差异。进一步地，在某些场景下，逻辑单元22可以是拥有的垃圾数据的数据量最高的逻辑单元，而逻辑单元33是拥有的垃圾数据的数据量最低的逻辑单元。同理，本实施例也可以设定其他等同条件筛选两个源逻辑单元。

S602，主节点确定源逻辑单元所位于的节点。逻辑单元22和逻辑单元33所位于的节点可参考图7的示例。

S603，所述主节点统计所述源逻辑单元所位于的节点包含的有效数据的数据量，并选择出有效数据的数据量超过设定的数量阈值的节点作为目标节点。S603的具体实现和S403一致，请参考S403的描述。

S604，所述主节点创建目标逻辑单元(例如图7所示的逻辑单元44)，所述目标逻辑单元所占用的存储空间至少有部分来源于所述目标节点。S604的具体实现和S404一致，请参考S404的描述。在图7的示例中，逻辑单元44所位于的节点，与逻辑单元22、逻辑单元33所在的节点完全重合，这只是一种示例，应理解，在实际应用场景中，逻辑单元44所位于的节点可以仅与逻辑单元22、逻辑单元33所在的节点部分重合(如图3所示)。

S605，将逻辑单元33中的有效数据块迁移至逻辑单元44，在迁移的过程中不改变各个有效数据块在逻辑单元内的偏移量。也就是说，这些有效数据块迁移前在逻辑单元33内的偏移量与迁移后在逻辑单元44内的偏移量相同。

S606，将逻辑单元22中的有效数据块写入逻辑单元44的空白的数据块中。如图7所示，D50所在的分条迁移至逻辑单元44后，某些数据分片中会出现空白的数据块，因为原来的数据块在逻辑单元33中变成无效数据块了。因此，在迁移逻辑单元22中的有效数据块时，可以优先将空白的数据块填满，如有溢出再写入新的分条。如图7所示的D1、D3等都写入了D51所在的分条。为了和逻辑单元33中的有效数据相区别，在图7的示例中将逻辑单元22中的有效数据命名为填充数据，用虚线表示。

按照S605-S606的迁移方式，逻辑单元33中有一些分条所包含的数据分片在迁移后没有发生改变，如图7中D33所在的分条以及D41所在的分条。因此，D33所在的分条和D41所在的分条就不用重新计算校验分片。而对于D50所在的分条，以及D58所在的分条，由于都有新的数据块填充进来，分条发生了改变，因此需要重新计算校验分片。可以理解的是，即使仍然有一些分条需要重新计算校验分片，但至少减少了一部分校验分片的计算量，节省了计算资源。另一方面，由于校验分片是由主节点计算之后再发送给相应的节点(如图7所示的节点5和节点6)存储，既然不需要计算校验分片了，自然也不会发送计算后的校验分片了，节省了带宽资源。

进一步地，在本实施例中，逻辑单元44还可以继承逻辑单元33的标识，这样一来，对于D33、D34等数据块来说，不但在逻辑单元内的偏移量没有发生改变，它们所位于的逻辑单元的标识也没有发生改变，那么相当于这些数据块的逻辑地址没有改变(逻辑地址包括逻辑单元的标识以及位于该逻辑单元内的偏移量)。因此，避免了D33、D34等有效数据块的元数据的修改，以及修改后的元数据在存储节点间的转发，进一步节省了网络带宽。

S607，主节点释放逻辑单元22和逻辑单元33所占用的存储空间。该步骤可参考图4所示的S406的描述。

本实施例还提供了一种存储节点，所述存储节点可以是存储阵列，也可以是服务器。当存储节点是存储阵列时，该存储节点包括存储控制器和存储介质。所述存储控制器的结构可以参考图8的结构示意图。当存储节点是服务器时，也可以参考图8的结构示意图。由此，无论存储节点是哪种形态的设备，都至少包括了处理器801和存储器802。所述存储器802中存储有程序803。处理器801、存储器802和接口804之间通过系统总线805连接并完成相互间的通信。

处理器801是单核或多核中央处理单元，或者为特定集成电路，或者为被配置成实施本发明实施例的一个或多个集成电路。存储器802可以为随机存取存储器(Random Access Memory，RAM)，也可以为非易失性存储器(non-volatile memory)，例如至少一个硬盘存储器。存储器802用于存储计算机执行指令。具体的，计算机执行指令中可以包括程序803。当所述存储节点运行时，处理器801运行所述程序803以执行图4所示的S401-S406的方法流程，或者执行图6所示S601-S607的方法流程。

请参考图9，本实施例还提供一种垃圾回收装置，所述装置位于分布式存储系统的主节点中，所述分布式存储系统包括多个存储节点，所述主节点是所述多个存储节点中的一个存储节点，所述垃圾回收装置包括以下模块。

选择模块901，用于根据源逻辑单元分布在每个存储节点中的有效数据的数据量，从所述多个存储节点中选择目标节点，所述目标节点存储的第一有效数据的数据量超过设定的数量阈值。该模块的具体功能可参考图4所示的S401、S402、S403，以及图6所示的S601、S602和S603。另外，该模块的功能可由图8所示的处理器801运行存储器802中的程序803执行。

创建模块902，用于创建目标逻辑单元，所述目标逻辑单元所分布的存储节点中包括所述目标节点。该模块的具体功能可参考图4所示的S404以及图6所示的S604。另外，该模块的功能可由图8所示的处理器801运行存储器802中的程序803执行。

指示模块903，用于指令所述目标节点将所述第一有效数据从所述目标节点内的第一源地址迁移至所述目标节点内的第一目标地址，所述第一源地址指示的存储空间属于所述源逻辑单元，所述第一目标地址指示的存储空间属于所述目标逻辑单元。该模块的具体功能可参考图4所示的S405以及图6所示的S605和S606。另外，该模块的功能可由图8所示的处理器801运行存储器802中的程序803执行。

释放模块904，用于释放所述第一源地址指示的存储空间。该模块的具体功能可参考图4所示的S406以及图6所示的S607。另外，该模块的功能可由图8所示的处理器801运行存储器802中的程序803执行。

可选的，创建模块902还用于在所述主节点指令所述目标节点将所述第一有效数据从所述目标节点内的第一源地址迁移至所述目标节点内的第一目标地址之前，创建迁移列表，所述迁移列表包括所述第一有效数据的第一源地址以及所述第一有效数据的第一目标地址。所述垃圾回收装置还可以包括发送模块905，该模块用于将所述迁移列表发送给所述目标节点。

可选的，所述迁移列表还包括所述其他存储节点内存储的第二有效数据的第二源地址和所述第二有效数据的第二目标地址，所述第二源地址位于所述其他存储节点中，所述第二目标地址位于所述目标节点中。所述发送模块905还用于将所述迁移列表发送给所述其他存储节点。指示模块903还用于指令所述其他存储节点将存储的所述第二有效数据从所述第二源地址迁移至所述第二目标地址，所述第二源地址指示的存储空间属于所述源逻辑单元，所述第二目标地址指示的存储空间属于所述目标逻辑单元。释放模块904还用于释放所述第二源地址指示的存储空间。

可选的，第一源地址和所述第一目标地址均位于所述目标节点的第一硬盘中。

可选的，所述第一源地址位于所述目标节点的第一硬盘中，所述第一目标地址位于所述目标节点的第二硬盘中。

可选的，指示模块903具体用于指令所述目标节点根据所述第一有效数据位于所述源逻辑单元内的偏移量将所述第一有效数据从所述第一源地址迁移至所述第一目标地址，使得所述迁移后所述第一有效数据位于所述目标逻辑单元内的偏移量与迁移前所述第一有效数据位于所述源逻辑单元内的偏移量相同。

可选的，所述第一有效数据迁移前分布在所述源逻辑单元的第一分条中，所述第一有效数据迁移后分布在所述目标逻辑单元的第二分条中，所述指示模块903还用于判断所述第一分条所包含的数据分片与所述第二分条所包含的数据分片是否相同；当所述第一分条所包含的数据分片与所述第二分条所包含的数据分片相同时，保留所述第一分条所包含的校验分片。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的存储节点、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。

应理解，在本申请实施例中，术语“第一”等仅仅是为了指代对象，并不表示相应对象的次序。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，存储节点，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种分布式存储系统中的垃圾回收方法，所述分布式存储系统包括多个存储节点，其特征在于，所述方法包括：

所述多个存储节点中的主节点根据源逻辑单元分布在每个存储节点中的有效数据的数据量，从所述多个存储节点中选择目标节点，所述目标节点存储的第一有效数据的数据量超过设定的数量阈值；

所述主节点创建目标逻辑单元，所述目标逻辑单元所分布的存储节点中包括所述目标节点；

所述主节点指令所述目标节点将所述第一有效数据从所述目标节点内的第一源地址迁移至所述目标节点内的第一目标地址，所述第一源地址指示的存储空间属于所述源逻辑单元，所述第一目标地址指示的存储空间属于所述目标逻辑单元；

所述主节点释放所述第一源地址指示的存储空间。
根据权1所述的方法，其特征在于，在所述主节点指令所述目标节点将所述第一有效数据从所述目标节点内的第一源地址迁移至所述目标节点内的第一目标地址之前，还包括：

所述主节点创建迁移列表，所述迁移列表包括所述第一有效数据的第一源地址以及所述第一有效数据的第一目标地址；

所述主节点将所述迁移列表发送给所述目标节点。
根据权2所述的方法，其特征在于，所述多个存储节点还包括其他存储节点，所述其他存储节点独立于所述目标逻辑单元所分布的存储节点，所述迁移列表还包括所述其他存储节点内存储的第二有效数据的第二源地址和所述第二有效数据的第二目标地址，所述第二源地址位于所述其他存储节点中，所述第二目标地址位于所述目标节点中，所述方法还包括：

所述主节点将所述迁移列表发送给所述其他存储节点；

所述主节点指令所述其他存储节点将存储的所述第二有效数据从所述第二源地址迁移至所述第二目标地址，所述第二源地址指示的存储空间属于所述源逻辑单元，所述第二目标地址指示的存储空间属于所述目标逻辑单元；

所述主节点释放所述第二源地址指示的存储空间。
根据权1所述的方法，其特征在于，所述第一源地址和所述第一目标地址均位于所述目标节点的第一硬盘中。
根据权1所述的方法，其特征在于，所述第一源地址位于所述目标节点的第一硬盘中，所述第一目标地址位于所述目标节点的第二硬盘中。
根据权1所述的方法，其特征在于，所述主节点指令所述目标节点将所述第一有效数据从所述目标节点内的第一源地址迁移至所述目标节点内的第一目标地址包括：

所述主节点指令所述目标节点根据所述第一有效数据位于所述源逻辑单元内的偏移量将所述第一有效数据从所述第一源地址迁移至所述第一目标地址，使得所述迁移后所述第一有效数据位于所述目标逻辑单元内的偏移量与迁移前所述第一有效数据位于所述源逻辑单元内的偏移量相同。
根据权6所述的方法，其特征在于，所述第一有效数据迁移前分布在所述源逻辑单元的第一分条中，所述第一有效数据迁移后分布在所述目标逻辑单元的第二分条中，所述方法还包括：

判断所述第一分条所包含的数据分片与所述第二分条所包含的数据分片是否相同；

当所述第一分条所包含的数据分片与所述第二分条所包含的数据分片相同时，保留所述第一分条所包含的校验分片。
一种主节点，其特征在于，所述主节点位于分布式存储系统中，所述分布式存储系统包括多个存储节点，所述主节点包括接口和处理器，其中

所述接口用于与所述多个存储节点进行通信；

所述处理器用于:

根据源逻辑单元分布在每个存储节点中的有效数据的数据量，从所述多个存储节点中选择目标节点，所述目标节点存储的第一有效数据的数据量超过设定的数量阈值；

创建目标逻辑单元，所述目标逻辑单元所分布的存储节点中包含所述目标节点；

通过所述接口指令所述目标节点将所述第一有效数据从所述目标节点内的第一源地址迁移至所述目标节点内的第一目标地址，所述第一源地址指示的存储空间属于所述源逻辑单元，所述第一目标地址指示的存储空间属于所述目标逻辑单元；

释放所述第一源地址指示的存储空间。
根据权8所述的主节点，其特征在于，所述处理器还用于：

在所述指令所述目标节点将所述第一有效数据从所述目标节点内的第一源地址迁移至所述目标节点内的第一目标地址之前，创建迁移列表，所述迁移列表包括所述第一有效数据的第一源地址以及所述第一有效数据的第一目标地址；并且将所述迁移列表发送给所述目标节点。
根据权8所述的主节点，其特征在于，所述多个存储节点包括其他存储节点，所述其他存储节点独立于所述目标逻辑单元所分布的存储节点，所述迁移列表还包括所述其他存储节点内存储的第二有效数据的第二源地址和所述第二有效数据的第二目标地址，所述第二源地址位于所述其他存储节点中，所述第二目标地址位于所述目标节点中，所述处理器还用于：

通过所述接口将所述迁移列表发送给所述其他存储节点；

指令所述其他存储节点将存储的所述第二有效数据从所述第二源地址迁移至所述第二目标地址，所述第二源地址指示的存储空间属于所述源逻辑单元，所述第二目标地址指示的存储空间属于所述目标逻辑单元；

释放所述第二源地址指示的存储空间。
根据权8所述的主节点，其特征在于，所述第一源地址和所述第一目标地址均位于所述目标节点的第一硬盘中。
根据权8所述的主节点，其特征在于，所述第一源地址位于所述目标节点的第一硬盘中，所述第一目标地址位于所述目标节点的第二硬盘中。
根据权8所述的主节点，其特征在于，所述处理器具体用于：

指令所述目标节点根据所述第一有效数据位于所述源逻辑单元内的偏移量将所述第一有效数据从所述第一源地址迁移至所述第一目标地址，使得所述迁移后的所述第一有效数据位于所述目标逻辑单元内的偏移量与迁移前所述第一有效数据位于所述源逻辑单元内的偏移量相同。
根据权13所述的主节点，其特征在于，所述第一有效数据迁移前分布在所述源逻辑单元的第一分条中，所述第一有效数据迁移后分布在所述目标逻辑单元的第二分条中，所述处理器还用于：

判断所述第一分条所包含的数据分片与所述第二分条所包含的数据分片是否相同；

当所述第一分条所包含的数据分片与所述第二分条所包含的数据分片相同时，保留所述第一分条所包含的校验分片。
一种垃圾回收装置，所述装置位于分布式存储系统的主节点中，所述分布式存储系统包括多个存储节点，所述主节点是所述多个存储节点中的一个存储节点，所述垃圾回收装置包括：

选择模块，用于根据源逻辑单元分布在每个存储节点中的有效数据的数据量，从所述多个存储节点中选择目标节点，所述目标节点存储的第一有效数据的数据量超过设定的数量阈值；

创建模块，用于创建目标逻辑单元，所述目标逻辑单元所分布的存储节点中包括所述目标节点；

指示模块，用于指令所述目标节点将所述第一有效数据从所述目标节点内的第一源地址迁移至所述目标节点内的第一目标地址，所述第一源地址指示的存储空间属于所述源逻辑单元，所述第一目标地址指示的存储空间属于所述目标逻辑单元；

释放模块，用于释放所述第一源地址指示的存储空间。
根据权15所述的装置，其特征在于，所述创建模块还用于：在所述主节点指令所述目标节点将所述第一有效数据从所述目标节点内的第一源地址迁移至所述目标节点内的第一目标地址之前，创建迁移列表，所述迁移列表包括所述第一有效数据的第一源地址以及所述第一有效数据的第一目标地址；

所述装置还包括发送模块，所述发送模块用于将所述迁移列表发送给所述目标节点。
根据权16所述的装置，其特征在于，所述多个存储节点还包括其他存储节点，所述其他存储节点独立于所述目标逻辑单元所分布的存储节点，所述迁移列表还包括所述其他存储节点内存储的第二有效数据的第二源地址和所述第二有效数据的第二目标地址，所述第二源地址位于所述其他存储节点中，所述第二目标地址位于所述目标节点中，

所述发送模块还用于将所述迁移列表发送给所述其他存储节点；

所述指示模块还用于指令所述其他存储节点将存储的所述第二有效数据从所述第二源地址迁移至所述第二目标地址，所述第二源地址指示的存储空间属于所述源逻辑单元，所述第二目标地址指示的存储空间属于所述目标逻辑单元；

所述释放模块还用于释放所述第二源地址指示的存储空间。
根据权15所述的装置，其特征在于，第一源地址和所述第一目标地址均位于所述目标节点的第一硬盘中。
根据权15所述的装置，其特征在于，所述第一源地址位于所述目标节点的第一硬盘中，所述第一目标地址位于所述目标节点的第二硬盘中。
根据权15所述的装置，其特征在于，所述指示模块具体用于：

指令所述目标节点根据所述第一有效数据位于所述源逻辑单元内的偏移量将所述第一有效数据从所述第一源地址迁移至所述第一目标地址，使得所述迁移后所述第一有效数据位于所述目标逻辑单元内的偏移量与迁移前所述第一有效数据位于所述源逻辑单元内的偏移量相同。
根据权20所述的装置，其特征在于，所述第一有效数据迁移前分布在所述源逻辑单元的第一分条中，所述第一有效数据迁移后分布在所述目标逻辑单元的第二分条中，所述指示模块还用于：

判断所述第一分条所包含的数据分片与所述第二分条所包含的数据分片是否相同；

当所述第一分条所包含的数据分片与所述第二分条所包含的数据分片相同时，保留所述第一分条所包含的校验分片。