WO2017162174A1

WO2017162174A1 - 一种存储系统

Info

Publication number: WO2017162174A1
Application number: PCT/CN2017/077751
Authority: WO
Inventors: 王东临; 金友兵
Original assignee: 北京书生国际信息技术有限公司; 书生云公司
Priority date: 2016-03-25
Filing date: 2017-03-22
Publication date: 2017-09-28
Also published as: CN105897859A; CN105897859B

Abstract

本发明实施例提供了一种存储系统，以避免在服务器发生故障时其缓存数据丢失。该存储系统包括：存储网络；至少两个存储节点，连接至所述存储网络；至少一个存储设备，连接至所述存储网络，每个存储设备包括至少一个存储介质；以及所述存储介质包括至少一个高速存储介质和至少一个持久性存储介质；其中，所述存储网络被配置为使得每一个存储节点都能够无需借助其他存储节点而访问所有存储介质；所述至少一个高速存储介质中的一个或多个高速存储介质的全部或部分构成高速缓存区；所述存储节点在写入数据时，先将数据写入高速缓存区，然后再由相同或不同的存储节点将高速缓存区上的数据写入到持久存储介质。

Description

一种存储系统

技术领域

本发明涉及数据存储技术领域，具体涉及一种存储系统。

背景技术

随着计算机应用规模越来越大，对存储空间的需求也与日俱增。对应的，将复数设备的存储资源(比如，磁盘组的存储介质)统合为一个存储池来为集群服务器提供存储服务成为了现在的主流。缓存作为临时数据交换区，减小了系统负荷，提高了数据传输速率，传统的存储系统，缓存区通常集成在集群服务器的每个存储节点上，即缓存的读写操作在集群服务器的每台主机中实现。每台服务器将常用的数据临时放在自己内置的缓存中，然后待系统空闲时，再将缓存中的数据传送到存储池中的持久性存储介质进行永久存储。由于缓存具有断电后存储内容消失的特点，如果将它设置在服务器主机中将会给存储系统带来不可预测的风险。一旦集群服务器中任何一台主机发生故障，那么保存于这个主机中的缓存数据就会丢失，这将严重地影响整个存储系统的可靠性与稳定性。

发明内容

有鉴于此，本发明实施例提供了一种存储系统，以避免在服务器发生故障时其缓存数据丢失。

本发明一实施例提供了一种存储系统，包括：

存储网络；

至少两个存储节点，连接至所述存储网络；

至少一个存储设备，连接至所述存储网络，每个存储设备包括至少一个存储介质；以及

所述存储介质包括至少一个高速存储介质和至少一个持久性存储介质，

其中，所述存储网络被配置为使得每一个存储节点都能够无需借助其他存储节点而访问所有存储介质；

所述至少一个高速存储介质中的一个或多个高速存储介质的全部或部分构成高速缓存区；

所述存储节点在写入数据时，先将数据写入高速缓存区，然后再由相同或不同的存储节点将高速缓存区上的数据写入到持久存储介质。

本发明实施例提供的存储系统，由高速存储介质构成的高速缓存区独立于集群服务器的各个主机而被设置于全局存储池中，采用这样的方式，既使集群服务器中的某一存储节点发生故障，该存储节点写入高速存储介质中的缓存数据也不会丢失，这会大大增强存储系统的可靠性与稳定性。

附图说明

图1所示为根据本发明一实施例中一个存储系统的架构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1所示为根据本发明的实施方式的存储系统的架构示意图。如图1所示，该存储系统包括存储网络；至少两个存储节点，连接至所述存储网络，其中，存储节点是提供存储服务的软件模块，而非通常意义上的包含存储介质在内的硬件服务器；以及存储设备，同样连接至所述存储网络；每个存储设备包括至少一个高速存储介质和至少一个持久性存储介质。其中，所述存储网络被配置为使得每一个存储节点都能够无需借助其他存储节点而访问所有存储介质。该至少一个高速存储介质中的一个或多个高速存储介质的全部或部分构成高速缓存区；当存储节点在写入数据时，先将数据写入高速缓存区，然后再由相同或不同的存储节点将高速缓存区上的数据写入到持久存储介质。

在本发明另一实施例中，每个存储节点对应一个或多个计算节点，并且每个存储节点与其对应的计算节点都位于同一服务器，该物理服务器通过存储交换设备与存储设备连接。本发明实施例中将计算节点和存储节点聚合在同一服务器中，从存储系统整体结构而言，减少了所需物理设备的数量，降低了成本。同时，计算节点也可以在本地访问到其希望访问的存储资源。

在本发明一实施例中，存储节点在将数据写入高速缓存区的同时，将所述数据最终应写入的持久存储介质的位置也记录在所述高速缓存区中；后续所述相同或不同的存储节点按照所述数据最终应写入的持久存储介质的位置，将所述高速缓存区上的数据写入到持久存储介质。在将高速缓存区的数据写入到持久存储介质后，将对应数据从所述高速缓存区中及时清除，以释放更多的空间供新的待缓存数据写入。

在本发明一实施例中，每一数据最终应写入的持久存储介质的位置并不受其数据所在的告诉存储介质的限制。举例说明，某数据可能缓存在存储设备1的高速存储介质中，但其最终应写入的持久存储介质的位置位于存储设备2中。

在本发明一实施例中，高速缓存区被划分为至少两个缓存单元，每个缓存单元包括一个或多个高速存储介质，或包括一个或多个高速存储介质的部分或全部。同时，每个缓存单元所包括的高速存储介质位于同一个或不同的存储设备中。

举例说明，某一个缓存单元可以包括2个完整的高速存储介质，也可以包括2个高速存储介质的部分，可以是一个高速存储介质的部分以及另一个完整的高速存储介质。

在本发明一实施例中，每一个缓存单元可以由至少两个存储设备上的至少两个高速存储介质的全部或部分以冗余存储的方式构成。

在本发明一实施例中，每个存储节点负责管理零到多个缓存单元。即，有的存储节点可能完全不负责管理缓存单元，而是负责将缓存单元中的数据拷贝到持久存储介质中。举例说明，假设一个系统有9个存储节点，其中存储节点1-8负责将数据写入到其对应的缓存单元中，存储节点9仅仅用于将缓存单元中的数据写入到对应的持有久介质中(如前所述，该对应的持有久介质的地址也记录在对应的缓存数据中)。采用上述的实施方式，可以使一些存储节点释放更多的负担来进行其他操作。另外，设置专门负责将缓存数据写入持久性介质的存储节点还可在空闲时间将缓存数据陆续写入持久性存储单元中，这在很大程度上提高了缓存数据的传输效率。

在本发明一实施例中，每个存储节点只能读写自己管理的缓存单元。由于多个存储节点同时对一个高速存储介质的写操作容易发生冲突，而对读操作并不会互相冲突，因此，在另一个实施例中，每个存储节点只能将待缓存的数据写入自己管理的缓存单元，但是可以读取自己以及其他存储节点管理的所有缓存单元，即存储节点对缓存单元的写操作是局域性的，而读操作可以是全局性的。

在本发明一实施例中，当监测到一个存储节点发生故障时，可以对其他部分或全部存储节点进行配置，使得这些存储节点接管之前由所述发生故障的存储节点管理的缓存单元。例如，可以由其中一个存储节点接管发生故障的存储节点管理的所有缓存单元，也可以由其它至少两个存储节点进行接管，其中每个存储节点接管发生故障的存储节点管理的部分缓存单元。

具体而言，本发明实施例提供的存储系统可以进一步包括存储控制节点，连接存储网络，用于确定每个存储节点管理的缓存单元；或在存储节点中设置有存储分配模块，用于确定该存储节点所管理的缓存单元。当某一个存储节点所管理的缓存单元发生变化时，存储控制节点或存储分配模块维护的每个存储节点管理的缓存单元列表也会对应发生变化；或者说，通过修改存储控制节点或存储分配模块维护的每个存储节点管理的缓存单元列表来修改每个存储节点所管理的缓存单元。

本发明一实施例中，将数据写入高速缓存区时，除了需要写入数据本身以及该数据应写入的持久化存储介质的位置外，还需要写入数据的长度信息，这三类信息合起来称为一个缓存数据块。

本发明一实施例中，将数据写入高速缓存区时，可以按照方式进行。首先在缓存单元固定位置分别记录头指针和尾指针，头指针和尾指针初始都指向缓存单元中空白区域的开始位置。当有缓存数据写入时，头指针增加写入缓存数据块的总长度，从而指向下一块空白区域。当清理缓存时，从尾指针指向的位置读取当前缓存数据块的长度以及该数据应写入的持久化存储介质的位置，将该长度的缓存数据写入到指定位置的持久化介质中，然后将尾指针增加已清理的缓存数据块的长度，从而指向下一块缓存数据块，释放当前已清理的缓存数据的空间。当头指针或尾指针的值超过可用缓存的长度时，指针要相应回卷(即减掉可用缓存的长度，从而回到缓存单元的靠前部分)；所谓可用缓存的长度是缓存单元的长度减掉头指针和尾指针所占用的空间。当写入缓存数据时，如果缓存单元所剩余空间小于缓存数据块的大小(即头指针加上缓存数据块的长度后追上了尾指针)，则清理已有缓存数据，直到有足够的缓存空间写入缓存数据；如果整个缓存单元的可用缓存小于需要写入的缓存数据库大小，则将数据直接写入持久化存储介质，而不做缓存；在清理缓存时，如果尾指针等于头指针，表明缓存数据为空，当前没有需要清理的缓存数据。

基于本发明实施例提供的存储系统，存储节点的所有缓存区都位于全局高速缓存区，而不是存储节点所在物理服务器的内存或任何其它存储介质上。写入全局高速缓存区的缓存数据可被所有存储节点共享。这种情况下，将缓存数据写入持久性存储介质的工作可以由每个存储节点各自完成，也可以根据需要选择固定的一个或者多个存储节点专门负责，这样的实施方式可以提高不同存储节点之间负载的均衡性。

在本发明一实施例中，存储节点用于将待缓存的数据写入全局缓存池中任意一个(或指定的)高速存储介质中，同时，同一个或者其他存储节点将写入全局缓存池中的缓存数据逐一写入到全局缓存池中指定的持久性存储介质中。具体而言，应用程序运行在存储节点所在的服务器中，比如计算节点处，为了降低应用程序对持久性存储介质访问的频次，每个存储节点会将应用程序常用的数据临时存放在高速存储介质中，这样应用程序在运行时就可直接从高速存储介质中读写数据，从而提高了应用的运行速度与性能。在一个实施例中，所述存储设备包括但不限于JBOD，高速存储介质可以包括但不限于SSD、SRAM、NVRAM、DRAM或其他形式，持久性存储介质可以包括但不限于硬盘、闪存、SSD、NVMe或其它形式，高速存储介质和持久性存储介质的访问接口可以包括但不限于SAS接口、SATA接口、PCI/e接口、DIMM接口、NVMe接口、SCSI接口、AHCI接口。

在本发明一实施例中，存储网络包括至少两个交换设备，所述每个存储节点都可以通过任意一个存储交换设备连接到任何一个存储设备，进而连接至高速存储介质和/或持久性存储介质。当任何一个存储交换设备或连接到一个存储交换设备的存储通道出现故障时，存储节点能够通过其它存储交换设备读写存储设备上的数据，这样的设计进一步增强了存储系统数据传输的可靠性。

在本发明一实施例中，存储交换设备可以是SAS交换机或PCI/e交换机，对应地，存储通道可以是SAS(串行连接SCSI)通道或PCI/e通道。以SAS通道为例，基于SAS交换的方案，拥有性能高，带宽大，单台设备磁盘数量多等优点。同时，SAS体系与适配器(HBA)或者服务器主板上的SAS接口结合使用后，它所提供的存储能够很容易被连接的多台服务器同时访问。

在本发明实施例中，由高速存储介质构成的缓存区域独立于集群服务器的各个主机而被设置于全局存储池中，采用这样的方式，如果集群服务器中的某一存储节点发生故障，该存储节点写入高速存储介质中的缓存数据也不会丢失，这会大大增强存储系统的可靠性与稳定性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换等，均应包含在本发明的保护范围之内。

Claims

一种存储系统，其特征在于，包括：

存储网络；

至少两个存储节点，连接至所述存储网络；

至少一个存储设备，连接至所述存储网络，每个存储设备包括至少一个存储介质；以及

所述存储介质包括至少一个高速存储介质和至少一个持久性存储介质；

其中，所述存储网络被配置为使得每一个存储节点都能够无需借助其他存储节点而访问所有存储介质；

所述至少一个高速存储介质中的一个或多个高速存储介质的全部或部分构成高速缓存区；

所述存储节点在写入数据时，先将数据写入高速缓存区，然后再由相同或不同的存储节点将高速缓存区上的数据写入到持久存储介质。
根据权利要求1所述的存储系统，其特征在于，所述存储节点在将数据写入高速缓存区的同时，将所述数据最终应写入的持久存储介质的位置也记录在所述高速缓存区中；后续所述相同或不同的存储节点按照所述数据最终应写入的持久存储介质的位置，将所述高速缓存区上的数据写入到持久存储介质。
根据权利要求2所述的存储系统，其特征在于，所述相同或不同的存储节点将高速缓存区的数据写入到持久存储介质后，并将对应数据从所述高速缓存区中清除。
根据权利要求3所述的存储系统，其特征在于，高速缓存区被划分为至少两个缓存单元，每个缓存单元包括一个或多个高速存储介质，或包括一个或多个高速存储介质的部分或全部；和/或，每个缓存单元所包括的高速存储介质位于同一个或不同的存储设备中；和/或，

每个存储节点负责管理零到多个缓存单元。
根据权利要求4所述的存储系统，其特征在于，设置所述每个存储节点只能读写自己管理的缓存单元；或

设置每个存储节点只能写自己管理的缓存单元，但可以读自己以及其他存储节点管理的所有缓存单元。
根据权利要求4所述的存储系统，其特征在于，当一个存储节点出现故障时，由另一个存储节点接管故障存储节点所管理的缓存单元。
根据权利要求4所述的存储系统，其特征在于，还包括：

存储控制节点，连接所述存储网络，用于确定每个存储节点管理的缓存单元；或

所述存储节点还包括：

存储分配模块，用于确定该存储节点所管理的缓存单元。
根据权利要求4所述的存储系统，其特征在于，所述相同或不同的存储节点利用CPU空闲时间将尚未写入到持久存储介质的数据写入到持久存储介质中。
根据权利要求1至8任一所述的存储系统，其特征在于，在所述高速缓存区中记录头指针和尾指针；

当存储节点将数据写入到高速缓存区时，写入到高速缓存区头指针所指示的位置，并在写入后相应调整头指针的值，使得头指针指向高速缓存区中未被使用的区域；以及

当存储节点将数据从高速缓存区写入所述持久性存储介质时，写入尾指针所指向位置的数据，并在写入后相应调整尾指针的位置，使得尾指针指向下一块尚未写入持久存储介质的数据。
根据权利要求1所述的存储系统，其特征在于，所述高速缓存区由至少两个存储设备上的至少两个高速存储介质的全部或部分以冗余存储的方式构成。
根据权利要求1所述的存储系统，其特征在于，所述存储网络包括至少两个交换设备，当任何一个交换设备或连接到一个交换设备的存储通道出现故障时，存储节点通过其它存储交换设备读写高速缓存区和持久性存储介质。
根据权利要求1项所述的存储系统，其特征在于，所述存储网络是SAS交换机或PCI/e交换机；所述存储网络包括SAS交换机或PCI/e交换机。
根据权利要求1所述的存储系统，其特征在于，所述存储设备为JBOD；和/或所述高速存储介质是SSD、SRAM、NVRAM或DRAM；和/或所述持久性存储介质是硬盘、闪存、SSD或NVMe；和/或所述高速存储介质和持久性存储介质的接口是SAS接口、SATA接口、PCI/e接口、DIMM接口、NVMe接口、SCSI接口、AHCI接口。