WO2017162179A1

WO2017162179A1 - 用于存储系统的负载再均衡方法及装置

Info

Publication number: WO2017162179A1
Application number: PCT/CN2017/077758
Authority: WO
Inventors: 王东临; 金友兵; 莫仲华; 齐宇
Original assignee: 北京书生国际信息技术有限公司; 书生云公司
Priority date: 2016-03-23
Filing date: 2017-03-22
Publication date: 2017-09-28
Also published as: CN105657066B; CN105657066A

Abstract

本发明涉及用于存储系统的负载再均衡方法及装置。该方法包括：监测至少两个存储节点之间的负载状态；以及在监测到一个存储节点的负载超出预定阈值时，对至少两个存储节点中的相关存储节点所管理的存储区域进行调整。根据本发明的实施方式，可以在存储区域之间进行负载再均衡时避免数据的真实迁移过程，从而不会对正常业务数据造成影响。

Description

用于存储系统的负载再均衡方法及装置

技术领域

本发明涉及数据存储系统的技术领域，更具体地，涉及用于存储系统的负载再均衡方法及装置。

背景技术

随着计算机应用规模越来越大，对存储空间的需求也与日俱增。对应的，将复数设备的存储资源(比如存储介质)统合为一体作为一个存储池来提供存储服务成为了现在的主流。在传统的存储系统中，该存储系统通常是由TCP/IP网络连接多个分布式存储节点组成的。图1示出现有技术的存储系统的架构示意图。如图1所示，在传统的存储系统中，各存储节点S通过接入网交换机连接到TCP/IP网络(通过核心交换机实现)。每个存储节点都是单独一台物理服务器，每台服务器都有自己的若干存储介质。各存储节点通过如IP网络这样的存储网络连接起来，构成一个存储池。

在核心交换机的另一侧，各计算节点C也通过接入网交换机连接到TCP/IP网络(通过核心网交换机实现)，以通过TCP/IP网络访问整个存储池。

然而，在该传统的存储系统中，一旦涉及到动态平衡时，需要对存储节点上物理数据进行迁移，以达到平衡目的。

更进一步地，在该传统的存储系统中，通常当用户写入数据时，这些数据可能被平均地分配到存储节点上，此时存储节点负载和数据占用都是比较均衡。但是在以下情况，会出现数据的不均衡：

(1)由于数据分配算法和用户数据本身的特点，导致数据未能平均分配到不同存储节点，表现为有的存储节点负载高，有的存储节点负载低；

(2)扩容操作：通常是通过增加新的节点来实现扩容，此时新加入的存储节点负载为0。必须将现有存储节点的数据物理地迁移一部分到扩容节点，实现存储节点之间的负载再均衡。

图2示出了传统的基于TCP/IP网络的存储系统1中的实现存储节点之间的负载再均衡的过程中的数据迁移的示意图。在该示例中，将负载较高的存储节点S1中存储的部分数据向负载较低的存储节点S2中进行迁移，具体涉及该两个存储节点的存储介质之间的数据迁移，如虚线箭头201所示。可见，在实现TCP/IP网络的存储节点之间的负载再均衡的过程中，会占用大量的磁盘读写性能和网络带宽，影响正常业务数据的读写性能。

发明内容

有鉴于此，本发明实施方式的目的之一在于提供一种用于存储系统的高效负载再均衡方案。

根据本发明的实施方式，所述存储系统可以包括存储网络、至少两个存储节点以及至少一个存储设备，所述至少两个存储节点和所述至少一个存储设备分别连接至所述存储网络，所述至少一个存储设备中的每个存储设备包括至少一个存储介质，其中将所述存储系统所包括的所有存储介质构成一个存储池，所述存储网络被配置为使得每一个存储节点都能够无需借助其他存储节点而访问每个存储介质，并且将所述存储池以存储介质为单位划分成至少两个存储区域，每个存储节点负责管理零到多个存储区域。

根据本发明的一个方面，提供一种用于前述存储系统的负载再均衡方法。所述方法包括：监测所述至少两个存储节点之间的负载状态；以及在监测到一个存储节点的负载超出预定阈值时，对所述至少两个存储节点中的相关存储节点所管理的存储区域进行调整。

根据本发明的另一个方面，提供一种用于前述存储系统的负载再均衡装置。所述装置包括：监测模块，用于监测所述至少两个存储节点之间的负载状态；以及调整模块，用于在监测到负载的不均衡状态超出预定阈值的情况下，对所述至少两个存储节点中的相关存储节点所管理的存储区域进行调整。

进一步地，监测所述至少两个存储节点之间的负载状态可以包括监测所述至少两个存储节点的以下性能参数中的一项或多项：存储节点的IOPS请求数；存储节点的吞吐量；存储节点的CPU使用率；存储节点的内存使用率；以及存储节点管理的存储介质的存储空间使用率。

进一步地，预定阈值可以通过所述性能参数的各自的指定阈值的一项或者多项的组合来表示。

进一步地，性能参数的各自的指定阈值可以包括：每项性能参数的参数值最高的存储节点的与该项性能参数的参数值最低的存储节点的参数值之间的偏差；每项性能参数的参数值最高的存储节点的该项参数值与各个存储节点的该项参数的平均值之间的偏差；或者针对每项性能参数的指定值。

在一个实施例中，预定阈值可以被设置为以下各项中的一项或多项：IOPS数最大的存储节点的IOPS请求数与IOPS数最小的存储节点的IOPS请求数之间的偏差之间的偏差为IOPS数最小的存储节点的IOPS请求数的30％；IOPS数最大的存储节点的IOPS请求数与各个存储节点的IOPS请求数的平均值之间的偏差之间的偏差为该平均值的20％；任一存储介质的存储空间使用率为0％；任一存储介质的存储空间使用率为90％；或者任一存储节点所管理的存储空间使用率最高的存储介质与存储空间使用使用率最低的存储介质之间的存储空间使用率之差大于20％。

根据本发明的实施方式，所述至少两个存储区域中的每个存储区域由至少一个存储块组成，一个存储块是一个完整的存储介质，或者一个存储块是一个存储介质的一部分。

在一个实施例中，对存储区域进行的所述调整可以包括：对相关存储节点所管理的存储区域的配置表进行调整，所述至少两个存储节点根据所述配置表来确定其所管理的存储区域。

在一个实施例中，所述至少两个存储区域中的每个存储区域由至少一个存储块组成，一个存储块是一个完整的存储介质，并且其中对存储区域进行的调整可以包括：将所述至少两个存储区域中的第一存储区域中的一个存储介质和第一存储区域中的一个存储介质相交换；从所述第一存储区域中删除一个存储介质，并且将该删除的存储介质添加到所述第二存储区域中；将接入存储网络的新的存储介质或新的存储区域平均地加入到所述至少两个存储区域中；或者将所述至少两个存储区域中的部分存储区域进行合并。

在一个实施例中，对所述至少两个存储节点中的相关存储节点所管理的存储区域进行调整包括：由所述存储系统的管理人员人工地确定相关存储节点所管理的存储区域的调整方式；采用配置文件方式来确定相关存储节点所管理的存储区域的调整方式；或者根据存储节点的负载情况来确定相关存储节点所管理的存储区域的调整方式。调整方式可以包括要迁移的存储区域的部分和要迁移到的目标存储节点。

进一步地，存储网络可以包括至少一个存储交换设备，所有至少两个存储节点和所述至少一个存储介质都通过存储通道与存储交换设备连接。存储通道可以是SAS通道或PCI/e通道，存储交换设备可以是SAS交换机或PCI/e交换机。

进一步地，存储设备可以为JBOD；和/或存储介质可以是硬盘、闪存、SRAM或DRAM。

进一步地，存储介质的接口可以是SAS接口、SATA接口、PCI/e接口、DIMM接口、NVMe接口、SCSI接口、AHCI接口。

根据本发明的实施方式，每个存储节点可以对应一个或多个计算节点，并且每个存储节点与其对应的计算节点都位于同一服务器。

根据本发明的实施方式，存储节点可以是所述服务器的一个虚拟机、一个容器或直接运行在所述服务器的物理操作系统上的一个模块；和/或计算节点可以是所述服务器的一个虚拟机、一个容器或直接运行在所述服务器的物理操作系统上的一个模块。

根据本发明的实施方式，存储节点对其所管理的存储区域的管理可以包括：每个存储节点只能读写自己管理的存储区域；或每个存储节点只能写自己管理的存储区域，但可以读自己管理的存储区域以及其它存储节点管理的存储区域。

根据本发明的又一个方面，提供一种在计算机可读存储介质中实现的计算机程序产品，所述计算机可读存储介质具有存储于其中的计算机可读程序代码部分，所述计算机可读程序代码部分被配置为执行根据前述方法。比如，所述计算机可读程序代码部分包括：第一可执行部分，用于监测所述至少两个存储节点之间的负载状态；以及第二可执行部分，用于在监测到一个存储节点的负载超出预定阈值时，对所述至少两个存储节点中的相关存储节点所管理的存储区域进行调整。

根据本发明的实施方式，提供了一种支持存储区域的迁移的存储节点负载再均衡方案，直接通过在各个存储节点之间重新分配存储区域的控制权来实现存储节点的负载再均衡，避免了迁移过程中对正常业务数据的影响。

从下文结合附图所做出的详细描述中，本发明的这些和其他优点和特征将变得明显，其中在整个下文描述的若干附图中，类似的元件将具有类似的编号。

附图说明

图1示出现有技术的存储系统的架构示意图；

图2示出现有技术的存储系统中的实现存储节点之间的负载再均衡的原理示意图；

图3A示出根据本发明的一个实施方式所构建的一个具体的存储系统的架构示意图；

图3B示出根据本发明的另一个实施方式所构建的一个具体的存储系统的架构示意图；

图4示出根据本发明的一个实施方式的用于存储系统的负载再均衡方法的流程图；

图5示出根据本发明一种实施方式的中实现负载再均衡的原理示意图；

图6示出根据本发明另一种实施方式的中实现负载再均衡的原理示意图；以及

图7示出根据本发明的一个实施方式的用于存储系统的负载再均衡装置的框图。

具体实施方式

下文将参考附图更完整地描述本公开内容，其中在附图中显示了本公开内容的实施方式。但是这些实施方式可以用许多不同形式来实现并且不应该被解释为限于本文所述的实施方式。相反地，提供这些实例以使得本公开内容将是透彻和完整的，并且将全面地向本领域的熟练技术人员表达本公开内容的范围。

下面结合附图以示例的方式详细描述本发明的各种实施方式。

图3A示出根据本发明的实施方式的存储系统的架构示意图。该存储系统包括存储网络；存储节点，连接至所述存储网络；以及存储设备，同样连接至所述存储网络。每个存储设备包括至少一个存储介质。例如，发明人常用的存储设备可以放置45块存储介质。其中，所述存储网络被配置为使得每一个存储节点都能够无需借助其他存储节点而访问所有存储介质。图3A中将存储网络示意为SAS交换机，但是应当理解，存储网络还可以是SAS集合、或者将在后文中讨论的其他形式。图3A示意性地示出了三个存储节点，即存储节点S1、存储节点S2和存储节点S3，分别直接与SAS交换机相连。图3A所示的存储系统包括物理服务器31、32和33，这些物理服务器分别通过存储网络与存储设备连接。物理服务器31包括共处于其的计算节点C11、C12和存储节点S1，物理服务器32包括共处于其的计算节点C21、C22和存储节点S2，物理服务器33包括共处于其的计算节点C31、C32和存储节点S3。图3A所示的存储系统包括存储设备34、35和36，存储设备34包括共处于其的存储介质1、存储介质2和存储介质3，存储设备35包括共处于其的存储介质1、存储介质2和存储介质3，存储设备36包括共处于其的存储介质1、存储介质2和存储介质3。

利用本发明实施例提供的存储系统，每一个存储节点都能够无需借助其他存储节点而访问所有存储介质，从而使得本发明所有的存储介质都实际上被所有的存储节点共享，进而实现了全局存储池的效果。也就是说，存储网络被配置为使得每一个存储节点都能够无需借助其他存储节点而访问所有存储介质。进一步地，存储网络被配置为使得各个存储节点同时只负责管理固定的存储介质，并且保证一个存储介质不会被同时多个存储节点进行写入，导致数据损坏，从而能够实现每一个存储节点都能够无需借助其他存储节点而访问由其管理的存储介质，并且能够保证存储系统中存储的数据的完整性。此外，可以将所构建的存储池划分成至少两个存储区域，每个存储节点负责管理零到多个存储区域。参考图3A，其利用不同背景图案、示意性示出了存储节点管理的存储区域的情形，其中对相同的存储区域包括的存储介质、以及负责管理其的存储节点以相同的背景图案进行表示。具体而言，存储节点S1负责管理第一存储区域，其包括处于存储设备34的存储介质1、处于存储设备35的存储介质1、以及处于存储设备36的存储介质1；存储节点S2负责管理第二存储区域，其包括处于存储设备34的存储介质2、处于存储设备35的存储介质2、以及处于存储设备36的存储介质2；存储节点S3负责管理第三存储区域，其包括处于存储设备34的存储介质3、处于存储设备35的存储介质3、以及处于存储设备36的存储介质3。

同时，从上述的描述可以看出，相比于现有技术(其中存储节点位于存储介质侧，或者严格来说，存储介质是存储节点所在物理机的内置盘)，本发明实施例中，存储节点所在的物理机独立于存储设备，存储设备更多作为连接存储介质与存储网络的一个通道。

这样的方式，使得在需要进行动态平衡时，无需将物理数据在不同的存储介质中进行迁移，只需要通过配置平衡不同的存储节点所管理的存储区域(或者存储介质)即可。

在本发明另一实施例中，存储节点侧进一步包括计算节点，并且计算节点和存储节点设置在一台物理服务器中，该物理服务器通过存储网络与存储设备连接。利用本发明实施方式所构建的将计算节点和存储节点位于同一物理机的聚合式存储系统，从整体结构而言，可以减少所需物理设备的数量，从而降低成本。同时，计算节点也可以在本地访问到其希望访问的存储资源。另外，由于将计算节点和存储节点聚合在同一台物理服务器上，两者之间数据交换可以简单到仅仅是共享内存，性能特别优异。

本发明实施例提供的存储系统中，计算节点到存储介质之间的I/O数据路径长度包括：(1)存储介质到存储节点；以及(2)存储节点到聚合在同一物理服务器的计算节点(CPU总线通路)。而相比之下，图1所示现有技术的存储系统，其计算节点到存储介质之间的I/O数据路径长度包括：(1)存储介质到存储节点；(2)存储节点到存储网络接入网交换机；(3)存储网络接入网交换机到核心网交换机；(4)核心网交换机到计算网络接入网交换机；以及(5)计算网络接入网交换机到计算节点。显然，本发明实施方式的存储系统的总数据路径只接近于传统存储系统的第(1)项。即，本发明实施例提供的存储系统，通过对I/O数据路径长度的极致压缩能够极大地提高了存储系统的I/O通道性能，其实际运行效果非常接近于读写本地硬盘的I/O通道。

在本发明一实施例中，存储节点可以是物理服务器的一个虚拟机、一个容器或直接运行在服务器的物理操作系统上的一个模块，计算节点也可以是同一个物理机服务器的一个虚拟机、一个容器或直接运行在所述服务器的物理操作系统上的一个模块。在一个实施例中，每个存储节点可以对应一个或多个计算节点。

具体而言，可以将一台物理服务器分成多个虚拟机，其中一台虚拟机做存储节点用，其它虚拟机做计算节点用；也可是利用物理OS上的一个模块做存储节点用，以便实现更好的性能。

在本发明一实施例中，形成虚拟机的虚拟化技术可以是KVM或Zen或VMware或Hyper-V虚拟化技术，形成所述容器的容器技术可以是Docker或Rockett或Odin或Chef或LXC或Vagrant或Ansible或Zone或Jail或 Hyper-V容器技术。

在本发明一实施例中，各个存储节点同时只负责管理固定的存储介质，并且一个存储介质不会同时被多个存储节点进行写入，以避免数据冲突，从而能够实现每一个存储节点都能够无需借助其他存储节点而访问由其管理的存储介质，并且能够保证存储系统中存储的数据的完整性。

在本发明一实施例中，可以将系统中所有的存储介质按照存储逻辑进行划分，具体而言，可以将整个系统的存储池划分为存储区域、存储组、存储块这样的逻辑存储层级架构，其中，存储块为最小存储单位。在本发明一实施例中，可以将存储池划分成至少两个存储区域。

在本发明一实施例中，每一个存储区域可以分为至少一个存储组。在一个较优的实施例中，每个存储区域至少被划分为两个存储组。

在一些实施例中，存储区域和存储组是可以合并的，从而可以在该存储层级架构中省略一个层级。

在本发明一实施例中，每个存储区域(或者存储组)可以由至少一个存储块组成，其中存储块可以是一个完整的存储介质、也可以是一个存储介质的一部分。为了在存储区域内部构建冗余存储，每个存储区域(或者存储组)可以由至少两个存储块组成，当其中任何一个存储块出现故障时，可以从该组中其余存储块中计算出完整的被存储数据。冗余存储方式可以为多副本模式、独立冗余磁盘阵列(RAID)模式、纠删码(erase code)模式。在本发明一实施例中，冗余存储方式可以通过ZFS文件系统建立。在本发明一实施例中，为了对抗存储设备/存储介质的硬件故障，每个存储区域(或者存储组)所包含的多个存储块不会位于同一个存储介质中，甚至也不位于同一个存储设备中。在本发明一实施例中，每个存储区域(或者存储组)所包含的任何两个存储块都不会位于同一个存储介质/存储设备中。在本发明另一实施例中，同一存储区域(或者存储组)中位于同一存储介质/存储设备的存储块数量最好小于或等于冗余存储的冗余度。举例说明，当存储冗余采取的RAID 5方式时，其冗余存储的冗余度为1，那么位于同一存储设备的同一存储组的存储块数量最多为1；对RAID6，其冗余存储的冗余度为2，那么位于同一存储设备的同一存储组的存储块数量最多为2。

在本发明一实施例中，每个存储节点都只能读和写自己管理的存储区域。由于多个存储节点对同一个存储块的读操作并不会互相冲突，而多个存储节点同时写一个存储块容易发生冲突，因此，在另一个实施例中，可以是每个存储节点只能写自己管理的存储区域，但是可以读自己管理的存储区域以及其它存储节点管理的存储区域，即写操作是局域性的，但读操作可以是全局性。

在一个实施方式中，存储系统还可以包括存储控制节点，其连接至存储网络，用于确定每个存储节点管理的存储区域。在另一个实施方式中，每个存储节点可以包括存储分配模块，用于确定该存储节点所管理的存储区域，这可以通过每个存储节点所包括的各个存储分配模块之间的通信和协调处理算法来实现。

在一个实施例中，在监测到一个存储节点发生故障时，可以对其他部分或全部存储节点进行配置，使得这些存储节点接管之前由所述发生故障的存储节点管理的存储区域。例如，可以由其中一个存储节点接管出现故障的存储节点管理的存储区域，或者，可以由其它至少两个存储节点进行接管，其中每个存储节点接管出现故障的存储节点管理的部分的存储区域，比如其他至少两个存储节点分别接管该存储区域内的不同存储组。

在一个实施例中，存储介质可以包括但不限于硬盘、闪存、SRAM、DRAM、NVME或其它形式，存储介质的访问接口可以包括但不限于SAS接口、SATA接口、PCI/e接口、DIMM接口、NVMe接口、SCSI接口、AHCI接口。

在本发明一实施例中，存储网络可以包括至少一个存储交换设备，通过其中包括的存储交换设备之间的数据交换来实现存储节点对存储介质的访问。具体而言，存储节点和存储介质分别通过存储通道与存储交换设备连接。

在本发明一实施例中，存储交换设备可以是SAS交换机或PCI/e交换机，对应地，存储通道可以是SAS(串行连接SCSI)通道或PCI/e通道。

以SAS通道为例，相比传统的基于IP协议的存储方案，基于SAS交换的方案，拥有着性能高，带宽大，单台设备磁盘数量多等优点。在与主机适配器(HBA)或者服务器主板上的SAS接口结合使用后，SAS体系所提供的存储能够很容易的被连接的多台服务器同时访问。

具体而言，SAS交换机到存储设备之间通过一根SAS线连接，存储设备与存储介质之间也是由SAS接口连接，比如，存储设备内部将SAS通道连到每个存储介质(可以在存储设备内部设置一个SAS交换芯片)。由于SAS网络的带宽可以达到24Gb或48Gb，是千兆以太网的几十倍，以及昂贵的万兆以太网的数倍；同时在链路层SAS比IP网有大约一个数量级的提升，在传输层，由于TCP协议三次握手四次关闭，开销很高且TCP的延迟确认机制和慢启动有时会导致100毫秒级的延时，SAS协议的延时只有TCP的几十分之一，性能有更大的提升。总之，SAS网络比基于以太网的TCP/IP在带宽、延时性方面具有巨大优势。本领域技术人员可以理解，PCI/e通道的性能也可以适应系统的需求。

在本发明一实施例中，存储网络可以包括至少两个存储交换设备，所述每个存储节点都可以通过任意一个存储交换设备连接到任何一个存储设备，进而连接至存储介质。当任何一个存储交换设备或连接到一个存储交换设备的存储通道出现故障时，存储节点通过其它存储交换设备读写存储设备上的数据。

参考图3B，其示出了根据本发明一个实施方式所构建的一个具体的存储系统30。存储系统30中的存储设备被构建成多台JBOD 307-310，分别通过SAS数据线连接至两个SAS交换机305和306，这两个SAS交换机构成了存储系统所包括的存储网络的交换核心。前端为至少两个服务器301和302，每台服务器通过HBA设备(未示出)或主板上SAS接口连接至这两个SAS交换机305和306。服务器之间存在基本的网络连接用来监控和通信。每台服务器中都有一个存储节点，利用从SAS链路获取的信息，管理所有JBOD磁盘中的部分或全部磁盘。具体而言，可以利用本申请文件以上描述的存储区域、存储组、存储块来将JBOD磁盘划分成不同的存储组。每个存储节点都管理一组或多组这样的存储组。当每个存储组内部采用冗余存储的方式时，可以将冗余存储的元数据存在于磁盘之上，使得冗余存储能够被其他存储节点直接从磁盘识别。

在所示的示例性存储系统30中，存储节点可以安装监控和管理模块，负责监控本地存储和其它服务器的状态。当某台JBOD整体异常，或者JBOD上某个磁盘异常时，数据可靠性由冗余存储来确保。当某台服务器故障时，另一台预先设定好的服务器上的存储节点中的管理模块，将按照磁盘上的数据，在本地识别并接管原来由故障服务器的存储节点所管理的磁盘。故障服务器的存储节点原本对外提供的存储服务，也将在新的服务器上的存储节点得到延续。至此，实现了一种全新的高可用的全局存储池结构。

可见，所构建的示例性存储系统30提供了一种多点可控的、全局访问的存储池。硬件方面使用多台服务器来对外提供服务，使用JBOD来存放磁盘。将多台JBOD各自连接两台SAS交换机，两台交换机再分别连接服务器的HBA卡，从而确保JBOD上所有磁盘，能够被所有服务器访问。SAS冗余链路也确保了链路上的高可用性。

在每台服务器本地，利用冗余存储技术，从每台JBOD上选取磁盘组成冗余存储，避免单台JBOD的损失造成数据不可用。当一台服务器失效时，对整体状态进行监控的模块将调度另一台服务器，通过SAS通道访问失效服务器的存储节点所管理的磁盘，快速接管对方负责的这些磁盘，实现高可用的全局存储。

虽然在图3中是以JBOD存放磁盘为例进行了说明，但是应当理解，如图3所示的本发明的实施方式还支持JBOD以外的存储设备。另外，以上是以一块存储介质(整个的)作为一个存储块为例，也同样适用于将一个存储介质的一部分作为一个存储块的情形。

图4示出根据本发明的实施方式的用于示例性存储系统的访问控制方法40的流程图。

在步骤S401，监测存储系统所包括的至少两个存储节点之间的负载状态。

在步骤S402，在监测到一个存储节点的负载超出预定阈值时，对至少两个存储节点中的相关存储节点所管理的存储区域进行调整。相关存储节点可以是引起该负载的不均衡状态的存储节点，可能依赖于存储区域的调整策略而确定。对存储区域的调整可以是将涉及到的存储块在存储节点间重新分配，或者可以是存储区域的增加、合并、或者删除等。可以对相关存储节点所管理的存储区域的配置表进行调整，所述至少两个存储节点根据所述配置表来确定其所管理的存储区域。对前述配置表的调整可以通过前述的存储系统包括的存储控制节点、或者存储节点包括的存储分配模块进行。

在一个实施方式中，对至少两个存储节点之间的负载状态的监测可以针对如下性能参数中的一项或多项进行：存储节点的每秒读写操作次数(IOPS)请求数、存储节点的吞吐量、存储节点的CPU使用率、存储节点的内存使用率、以及存储节点管理的存储介质的占用率。

在一个实施方式中，可以使每个节点定期监控自己的性能参数，同时定期查询其他节点的数据，然后通过预先定义的再均衡方案或者通过算法动态产生一个全局统一的再均衡方案，最后各个节点执行该方案。在另一个实施方式，存储系统中包括独立于存储节点S1、存储节点S2和存储节点S3的监控节点、或者前述的存储控制节点或者存储分配模块，来监控各个存储节点的性能参数。

在一个实施例中，对于不均衡的判断可以通过预先定义的阀值(可配置)来实现，比如当各个节点之间的IOPS数的偏差超过一定范围则触发再均衡机制。例如，就IOPS而言，可以将IOPS数最大的存储节点的与IOPS数最小的存储节点的IOPS数相比较，在确定二者之间的偏差大于后者的30％时，触发对存储区域进行调整。例如，将IOPS数最大的存储节点所管理的一个存储介质与IOPS数最小的存储节点所管理的一个存储介质相交换，比如选择IOPS数最大的存储节点所管理的占用率最高的存储介质与IOPS数最小的存储节点所管理的占用率最高的存储介质。

备选地，可以将IOPS数最大的存储节点的IOPS数与各个存储节点的IOPS数的平均值相比较，在确定二者之间的偏差大于后者的20％时，触发对存储区域进行调整，使得调整后的存储区域分配方案不会立即触发再均衡。

应当理解，前述的用于表示负载的不均衡状态的预定阈值20％、30％仅是示例性的，还可以根据应用场合和用于需求的不同定义另外的阈值。类似地，对于其他的性能参数，比如存储节点的吞吐量、存储节点的CPU使用率、存储节点的内存使用率、以及存储节点管理的存储介质的占用率，也定义预先定义用于触发存储节点间负载再均衡的阈值。

还应当理解，虽然前述讨论的对于不均衡的判断的预定阈值可以通过多项性能参数中的各自的指定阈值的一项指定阈值、比如IOPS数来表示，但是发明人预想到该预定阈值其也可以通过多项性能参数中的各自的指定阈值的多项指定阈值的组合来表示。例如，在存储节点的IOPS数达到其指定阈值并且存储节点的吞吐量达到其指定阈值时，才触发存储节点的负载再均衡。

在一个实施方式，对于存储区域的调整(再均衡)，可以将负载高的存储节点所管理的存储介质分配到负载低的存储节点所管理的存储区域中，例如可以包括存储介质的交换、或者从负载高的存储节点所管理的存储区域中的删除和在负载低的存储节点所管理的存储区域中的增加、或者将接入存储网络的新的存储介质或新的存储区域平均地加入到至少两个存储区域中(比如，存储系统扩容)、或者将至少两个存储区域中的部分存储区域进行合并(比如，一个存储节点故障)。在一个实施方式，对于存储区域的调整(再均衡)，可以开发动态算法，例如，将各个存储介质和各个存储节点的各种负载数据进行加权得到一个单一的负载指标，然后计算出一个再均衡方案，通过移动最少数量的磁盘组，使系统不再超出预定阀值。

在一个实施方式中，可以使每个存储节点定期监控自己所管理的存储介质的性能参数，同时定期查询其他节点所管理的存储介质的性能参数，针对存储介质的性能参数定义用于表示负载的不均衡状态的阈值，例如，该阈值可以为任一存储介质的存储空间使用率为0％(有新的磁盘加入)、任一存储介质的存储空间使用率为90％(有磁盘空间将满)、或者存储系统中存储空间使用率最高的存储介质与存储空间使用率最低的存储介质之差大于后者的20％。应当理解，前述的用于表示负载的不均衡状态的预定阈值0％、90％、30％也仅是示例性的。

图5示出根据本发明一种实施方式的、在图3A所示的存储系统中实现负载再均衡的原理示意图。假设在某一时刻，该存储系统中的存储节点S1的负载很高，其所管理的存储介质包括位于存储设备34处的存储介质1、位于存储设备35处的存储介质1、和位于存储设备36处的存储介质1(如图3A所示)，并且其总的存储空间将很快被使用完，同时存储节点3的负载很低，其所管理的存储介质内的存储空间大。

在传统的存储网络中，各个存储节点只能访问直接连接到本身的存储区域。因此在再平衡过程中，需要将重负载的存储节点上的数据复制到轻负载节点上，在此过程中，会出现大量数据复制操作，对存储区域和网络造成额外的负载，影响正常业务数据的IO访问。例如，需要从存储节点1管理的一个或多个存储介质读取数据，然后将读取的数据写入到存储节点3管理的一个或多个，最后释放存储节点1管理的存储介质中存储该数据的磁盘空间，实现负载均衡。

然而，根据本发明的实施方式，由于存储系统所包括中的各个存储节点S1、S2和S3都可以通过存储网络访问所有存储区域，因此，可以通过转移存储介质访问权的方式来实现存储区域在各个存储节点的之间的迁移，即可以对相关存储节点所管理的存储区域重新分组。在再平衡过程中，各个存储区域中的数据不再需要做复制操作。比如，如图5所示的，将位于存储设备34处的、原先有存储节点3管理的存储介质2划分给存储节点1管理，同时将位于存储设备34处的、原先有存储节点1管理的存储介质1划分给存储节点3管理，以此实现存储节点1和存储节点3之间的剩余存储空间的负载均衡。在此过程中，只需要对存储节点1和存储节点3的配置进行修改，可以在很短时间内完成，不会对用户的业务数据读写性能造成影响。

图6示出根据本发明另一种实施方式的、在图3A所示的存储系统中实现负载再均衡的原理示意图。与图5不同，在图6中，在监测到存储节点S1的负载而存储节点S2的负载较低时，可以将位于存储设备35处的、原先有存储节点2管理的存储介质2划分给存储节点1管理，同时将位于存储设备34处的、原先有存储节点1管理的存储介质1划分给存储节点2管理，以此实现存储节点1和存储节点2之间的剩余存储空间的负载均衡。

在监测到是存储介质扩容的另一种实施方式中，例如，可以将新增存储介质的平均分配到各个存储节点上并由其管理，比如按照加入的顺序，以此维持存储节点之间的负载均衡。

应当理解，虽然上述两个实施方式以将存储介质在不同存储节点之间进行调度以实现负载再均衡，但是其还可以适用于在存储节点之间调度存储区域以实现负载再均衡，例如，在存储介质扩容的情形下，监测到加入的是一个存储区域的情形时，可以将加入的存储区域按加入顺序分配到各个存储节点。

附加地，如图5和图6所示，在监测到存储节点S1的负载已经很高，还可以修改存储系统中的计算节点和存储节点之间的配置，使得原先通过存储节点S1存储数据的至少一个计算节点中的一个或多个计算节点、比如C12，可以通过其他存储节点、比如存储节点S2，来存储数据。此时，计算节点可以需要访问其所处的物理服务器之处的存储节点以便存储数据，则可以不在物理上移动计算节点，而是通过远程访问协议、比如iSCSI协议来访问远程存储节点上的存储区域(如图5所示)；或者，可以在对相关存储节点所管理的存储区域进行的调整的同时，将计算节点进行迁移(如图6所示)，这个过程中可能需要先关闭待移动的计算节点。

应当理解，前述参考图3-图6讨论的存储系统所包括的存储节点、存储设备、存储介质和存储区域的数目仅是示意性的，根据本发明实施方式的存储系统可以包括至少两个存储节点、存储网络以及与至少两个存储节点通过存储网络连接的至少一个存储设备，所述至少一个存储设备中的每个存储设备可以包括至少一个存储介质，存储网络可以被配置为使得每一个存储节点都能够无需借助其他存储节点而访问所有存储介质。

根据本发明的实施方式，每个存储区域被多个存储节点中的一个存储节点所管理，当存储节点启动后，存储节点自动连接受它管理的存储区域，然后进行导入，完成之后就可以向上层计算节点提供存储服务。

当监测到存储节点间出现负载不均衡状态时，需要确定对于负载较高的存储节点、需要迁移的存储区域的部分，以及需要将该存储区域迁移到的存储节点。

对于需要迁移的存储区域的部分的确定，可以有多种实施方式。在一个实施方式中，可以由管理人员人工判断需要迁移哪些存储区域。在一个实施方式中，可以采用配置文件方式，即针对每个存储区域预先配置迁移优先级，当需要迁移的时候选择该存储节点当前管理的存储区域中的优先级最高的一个或者多个存储块、存储组或者存储介质来进行迁移。在一个实施方式中，可以根据存储区域所包括的存储块、存储组或者存储介质的负载情况进行迁移；例如，各个存储节点可以监控受其管理的存储区域的所包括的存储块、存储组或者存储介质的负载情况，比如收集IOPS、吞吐量、IO延时等信息，将所有这些信息进行加权综合，以便选择需要迁移的存储区域部分。

对于需要将该存储区域迁移到的存储节点的确定，可以有多种实施方式。在一个实施方式中，可以由管理人员人工判断迁移到的存储节点。在一个实施方式中，可以采用配置文件方式，即针对每个存储区域预先配置迁移目标列表，比如按照优先级排列的存储节点列表，当确定该存储区域(或者部分)需要被迁移后，按照目标列表依次选择迁移目的地。应当注意，采用此种方式，应当保证迁移后不会造成目标存储节点负载过高。在一个实施方式中，可以根据存储节点的负载情况选择要迁移到的存储节点，可以监控各个存储节点负载情况，例如收集CPU使用率、内存使用率、网络带宽使用率等信息，将所有这些信息进行加权综合，以便选择需要将存储区域迁移到的存储节点。例如，各个存储节点可以定期或者不定期地向其他存储节点报告自身的负载情况，当需要迁移的时候，需要迁移数据的存储节点优先选择负载最低的其他存储节点作为目标存储节点进行迁移。

在确定了需要迁移的存储区域(或者其部分)和其管理权迁移到的目标存储节点后，可以由存储系统的管理人员确认并启动具体迁移过程，或者也可以由程序开启该迁移过程。应当注意，迁移过程需要尽量减少对上层计算节点的影响，例如可以选择在应用负载最小的时候迁移，比如在午夜进行(假设该时间段负载最小)；在确定在迁移过程需要关闭计算节点的情况下，应当尽量在该计算节点的低使用率的情况下进行；可以预先配置迁移策略，以便处理在确定需要对多个存储区域或者一个存储区域的多个部分进行迁移的情况下的迁移的顺序和并发数量的控制；在开始对存储区域进行迁移之际，可以对相关存储节点对相关存储区域的写或者读操作进行必要的配置，以便保证数据的完整性，例如将所有缓存数据写入磁盘；在存储区域迁移到目标存储节点后，存储节点需要对该存储节点进行必要的初始化工作，然后该存储区域才可被上层计算节点访问；在迁移过程完成后应当再次监控负载情况，确认负载是否平衡。

如前所述，存储系统可以包括存储控制节点，其连接至所述存储网络，用于确定所述至少两个存储节点中的每个存储节点管理的存储区域；或者，所述存储节点还可以包括存储分配模块，用于确定所述存储节点所管理的存储区域，存储分配模块之间可以共享数据。

在一个实施方式中，存储控制节点或者存储分配模块，记录了各个存储节点负责的存储区域列表。存储节点启动后向存储控制节点或者存储分配模块查询自己管理的存储区域，然后扫描这些存储区域，完成初始化工作。当确定需要发生存储区域迁移时，存储控制节点或者存储分配模块修改相关存储节点的存储区域列表，然后通知存储节点按照要求完成实际的切换工作。

举例而言，假设在SAS存储系统30中需要将存储区域1从存储节点A迁移到存储节点B，则迁移过程可以包括如下步骤：

1)从存储节点A的已管理存储区域列表中删除存储区域1；

2)在存储节点A上将所有缓存数据强制刷入存储区域1；

3)在存储节点A上通过SAS指令关闭(或者重置)存储节点A和存储区域1中所有存储介质之间的SAS链接；

4)在存储节点B上的已管理存储区域列表中添加存储区域1；

5)在存储节点B上通过SAS指令打开(或者重置)存储节点B和存储区域1中所有存储介质之间的SAS链接；

6)存储节点B扫描存储区域1中的所有存储介质，完成初始化工作；以及

7)应用程序通过存储节点B访问存储区域1中的数据。

应当注意，尽管出于简化说明的目的将本发明所述的方法表示和描述为一连串动作，但是应理解和认识到要求保护的主题内容将不受这些动作的执行顺序所限制，因为一些动作可以按照与这里示出和描述的顺序不同的顺序出现或者与其它动作并行地出现，同时一些动作还可能包括若干子步骤，而这些子步骤之间可能出现时序上交叉执行的可能。另外，可能并非所有图示的动作是实施根据所附权利要求书所述的方法所必须的。再者，前述步骤的描述不排除该方法还可以包括可能取得附加效果的附加步骤。还应当理解，不同的实施方式或者流程中描述的方法步骤可以相互组合或者替换。

图7示出根据本发明的一个实施方式的用于存储系统的负载再均衡装置70的框图。负载再均衡装置70可以包括：监测模块701，用于监测所述至少两个存储节点之间的负载状态；以及调整模块702，用于在监测到负载的不均衡状态超出预定阈值的情况下，对所述至少两个存储节点中的相关存储节点所管理的存储区域进行调整。

应当理解，装置70中记载的每个模块与参考图4描述的方法40中的每个步骤相对应。由此，上文针对图4描述的操作和特征同样适用于装置70及其中包含的模块，重复的内容在此不再赘述。

根据本发明的实施方式，装置70可以被实现在每个存储节点处，也可以被实现在多个存储节点的调度装置中。

本发明的教导还可以实现为一种计算机可读存储介质的计算机程序产品，包括计算机程序代码，当计算机程序代码由处理器执行时，其使得处理器能够按照本发明实施方式的方法来实现如本文实施方式所述的用于存储系统的负载再均衡方案。计算机存储介质可以为任何有形媒介，例如软盘、CD-ROM、DVD、硬盘驱动器、甚至网络介质等。

根据本发明的实施方式，提供了一种支持存储介质或者存储区域的迁移的存储节点负载再均衡方案，直接通过在各个存储节点之间重新分配存储介质或者存储区域的控制权来实现再均衡，避免了迁移过程中对正常业务数据的影响，显著地提升了存储节点负载再均衡的效率。

应当理解，虽然以上描述了本发明实施方式的一种实现形式可以是计算机程序产品，但是本发明的实施方式的方法或装置可以被依软件、硬件、或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的方法和设备可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的方法和装置可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

应当理解，尽管在上文的详细描述中提及了装置的若干模块或子模块，但是这种划分仅仅是示例性而非强制性的。实际上，根据本发明的示例性实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块中实现。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来实现。

还应当理解，为了不模糊本发明的实施方式，说明书仅对一些关键、未必必要的技术和特征进行了描述，而可能未对一些本领域技术人员能够实现的特征做出说明。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换等，均应包含在本发明的保护范围之内。

Claims

一种用于存储系统的负载再均衡方法，所述存储系统包括存储网络、至少两个存储节点以及至少一个存储设备，所述至少两个存储节点和所述至少一个存储设备分别连接至所述存储网络，所述至少一个存储设备中的每个存储设备包括至少一个存储介质，其中将所述存储系统所包括的所有存储介质构成一个存储池，所述存储网络被配置为使得每一个存储节点都能够无需借助其他存储节点而访问所有存储介质，并且将所述存储池划分成至少两个存储区域，每个存储节点负责管理零到多个存储区域，

所述方法包括：

监测所述至少两个存储节点之间的负载状态；以及

在监测到一个存储节点的负载超出预定阈值时，对所述至少两个存储节点中的相关存储节点所管理的存储区域进行调整。
根据权利要求1所述的方法，其中，所述存储系统还包括：

存储控制节点，连接至所述存储网络，用于确定所述至少两个存储节点中的每个存储节点管理的存储区域；或

所述存储节点还包括：

存储分配模块，用于确定所述存储节点所管理的存储区域。
根据权利要求2所述的方法，其中，所述存储控制节点或者所述存储分配模块记录了所述至少两个存储节点中的每个存储节点管理的存储区域的存储区域列表，并且所述对所述至少两个存储节点中的相关存储节点所管理的存储区域进行调整包括：

修改相关存储节点的所述存储区域列表。
根据权利要求1所述的方法，其中，所述监测所述至少两个存储节点之间的负载状态包括监测所述至少两个存储节点的以下性能参数中的一项或多项：

存储节点的IOPS请求数；

存储节点的吞吐量；

存储节点的CPU使用率；

存储节点的内存使用率；以及

存储节点管理的存储介质的存储空间使用率。
根据权利要求4所述的方法，其中，所述预定阈值通过所述性能参数的各自的指定阈值的一项或者多项的组合来表示。
根据权利要求5所述的方法，其中，所述性能参数的各自的指定阈值包括：

每项性能参数的参数值最高的存储节点的与该项性能参数的参数值最低的存储节点的参数值之间的偏差；

每项性能参数的参数值最高的存储节点的该项参数值与各个存储节点的该项参数的平均值之间的偏差；或者

针对每项性能参数的指定值。
根据权利要求1所述的方法，其中，所述至少两个存储区域中的每个存储区域由至少一个存储块组成，一个存储块是一个完整的存储介质，或者一个存储块是一个存储介质的一部分。
根据权利要求7所述的方法，其中，对存储区域进行的所述调整包括：对相关存储节点所管理的存储区域的配置表进行调整，所述至少两个存储节点根据所述配置表来确定其所管理的存储区域。
根据权利要求1所述的方法，其中，所述至少两个存储区域中的每个存储区域由至少一个存储块组成，一个存储块是一个完整的存储介质，并且其中对存储区域进行的所述调整包括：

将所述至少两个存储区域中的第一存储区域中的一个存储介质和第二存储区域中的一个存储介质相交换；

从所述第一存储区域中删除一个存储介质，并且将该删除的存储介质添加到所述第二存储区域中；

将接入存储网络的新的存储介质或新的存储区域平均地加入到所述至少两个存储区域中；或者

将所述至少两个存储区域中的部分存储区域进行合并。
根据权利要求1-9中任一项所述的方法，其中，所述对所述至少两个存储节点中的相关存储节点所管理的存储区域进行调整包括：由所述存储系统的管理人员人工地确定相关存储节点所管理的存储区域的调整方式；

采用配置文件方式来确定相关存储节点所管理的存储区域的调整方式；或者

根据存储节点的负载情况来确定相关存储节点所管理的存储区域的调整方式，

其中，所述调整方式包括要迁移的存储区域的部分和要迁移到的目标存储节点。
根据权利要求1-9中任一项所述的方法，其中，所述存储网络包括至少一个存储交换设备，所有至少两个存储节点和所述至少一个存储介质都通过存储通道与存储交换设备连接。
根据权利要求11所述的方法，其中，所述存储通道是SAS通道或PCI/e通道，所述存储交换设备是SAS交换机或PCI/e交换机。
根据权利要求1-9中任一项所述的方法，其中，所述存储设备为JBOD；和/或

所述存储介质是硬盘、闪存、SRAM或DRAM；和/或所述存储介质的接口是SAS接口、SATA接口、PCI/e接口、DIMM接口、NVMe接口、SCSI接口、AHCI接口。
根据权利要求1-9中任一项所述的方法，其中，每个存储节点对应一个或多个计算节点，并且每个存储节点与其对应的计算节点都位于同一服务器。
根据权利要求14所述的方法，其中，所述存储节点是所述服务器的一个虚拟机、一个容器或直接运行在所述服务器的物理操作系统上的一个模块；和/或

所述计算节点是所述服务器的一个虚拟机、一个容器或直接运行在所述服务器的物理操作系统上的一个模块。
根据权利要求1-9中任一项所述的方法，其中，存储节点对其所管理的存储区域的管理包括：

每个存储节点只能读写自己管理的存储区域；或

每个存储节点只能写自己管理的存储区域，但可以读自己管理的存储区域以及其它存储节点管理的存储区域。
一种用于存储系统的负载再均衡装置，所述存储系统包括存储网络、至少两个存储节点以及至少一个存储设备，所述至少两个存储节点和所述至少一个存储设备分别连接至所述存储网络，

所述至少一个存储设备中的每个存储设备包括至少一个存储介质，其中所述存储系统所包括的所有存储介质构成一个存储池，所述存储网络被配置为使得每一个存储节点都能够无需借助其他存储节点而访问所有存储介质，并且将所述存储池划分成至少两个存储区域，每个存储节点负责管理零到多个存储区域，

所述负载再均衡装置包括：

监测模块，用于监测所述至少两个存储节点之间的负载状态；以及

调整模块，用于在监测到一个存储节点的负载超出预定阈值时，对所述至少两个存储节点中的相关存储节点所管理的存储区域进行调整。
一种在计算机可读存储介质中实现的计算机程序产品，所述计算机可读存储介质具有存储于其中的计算机可读程序代码部分，所述计算机可读程序代码部分被配置为执行根据权利要求1-16所述的方法。