WO2015165351A1

WO2015165351A1 - 一种数据存储方法和设备

Info

Publication number: WO2015165351A1
Application number: PCT/CN2015/077214
Authority: WO
Inventors: 岳银亮; 熊劲
Original assignee: 华为技术有限公司
Priority date: 2014-04-30
Filing date: 2015-04-22
Publication date: 2015-11-05
Also published as: CN105094761A; CN105094761B

Abstract

一种数据存储方法和设备，以在一定程度上解决现有的数据副本方式的存储系统不能兼顾读写性能的技术问题。在一些可行的实施方式中，该方法包括：将待存储数据的第一个副本以第一种数据组织方式写入主存储子系统中的多个主存储装置，将待存储数据的第二个副本以第二种数据组织方式写入备存储子系统中的值日备存储装置，所述值日备存储装置是唯一处于工作状态的备存储装置（110）；将所述值日备存储装置对应的主存储装置中存储的、与所述值日备存储装置不一致的数据读出，并将读出的不一致数据以第三种数据组织方式写入所述值日备存储装置（120）；第一种数据组织方式和第二种数据组织方式是写优化的，且第二种数据组织方式的写入速度快于第一种数据组织方式的写入速度，第三种数据组织方式则是读优化的。

Description

一种数据存储方法和设备

技术领域

本发明涉及计算机和存储技术领域，具体涉及一种数据存储方法和设备。

背景技术

数字技术的进步和存储技术的发展催生了海量的数据，数据需要以一定的组织形式存储在存储系统中。数据从产生到消亡的整个生命周期中，在不同的阶段有不同的输入输出(input/output，I/O)访问特征；比如，在数据产生阶段，数据需要以高速写入存储系统；在数据分析阶段，数据需要以高速读出或扫描从而参与计算。

为了提高存储可靠性，以副本方式存储数据越来越得到认可。副本是数据冗余方式的未来趋势。数据副本的典型场景是磁盘阵列(Redundant Arrays of Independent Disks，RAID，全称独立磁盘冗余阵列，简称磁盘阵列)。RAID10是一种常用的磁盘阵列，包括一组主磁盘和一组镜像磁盘，RAID10将数据的一个副本分成多个部分，分别存储到多个主磁盘上，以提高读写性能；并且，将数据的另一个副本存储到对应的镜像磁盘上，以提高可靠性。

存储系统的成本中，软硬件等一次性投入成本所占的比例有限，而能耗成本则逐渐成为存储系统总成本中的主要部分。一种现有技术中，采用旋转日志架构RoLo来降低磁盘阵列RAID10的能耗。旋转日志架构将多个镜像磁盘的空闲空间整合成一个逻辑的日志空间资源池。通过挖掘空间时间片来做分散式的同步，该日志空间资源池可以被循环地利用以提高系统的性能和能效。换句话说，多个镜像磁盘被轮流用作值日日志盘，同时非值日日志盘被切换到低能耗状态，从而降低能耗。

目前常用的旋转日志架构方式的磁盘阵列存储系统具有以下缺陷：现有的磁盘阵列存储系统将多个物理磁盘虚拟化为一个虚拟磁盘，文件系统建立在虚拟磁盘之上，即，单个磁盘之上没有文件系统，因而只能采用同一种数据组织方式向所有的磁盘中写入数据，这种数据组织方式要么是写优化的，以提高写性能，要么是读优化，以提高读性能，而不能同时兼顾读写性能。

发明内容

本发明实施例提供一种数据存储方法和设备，以在一定程度上解决现有的数据副本方式的存储系统不能兼顾读写性能的技术问题。

本发明第一方面提供一种数据存储方法，用于存储系统，所述存储系统包括主存储子系统和备存储子系统；所述主存储子系统包括N个主存储装置，所述备存储子系统包括对应于所述N个主存储装置的N个备存储装置；N为大于1的正整数；其中每个主存储装置和每个备存储装置上都创建有文件系统；所述方法包括：将待存储数据的第一个副本以第一种数据组织方式写入主存储子系统中的多个主存储装置，将待存储数据的第二个副本以第二种数据组织方式写入备存储子系统中的值日备存储装置，所述值日备存储装置是唯一处于工作状态的备存储装置；将所述值日备存储装置对应的主存储装置中存储的、与所述值日备存储装置不一致的数据读出，并将读出的不一致数据以第三种数据组织方式写入所述值日备存储装置；其中，第一种数据组织方式和第二种数据组织方式是写优化的，且第二种数据组织方式的写入速度快于第一种数据组织方式的写入速度，第三种数据组织方式则是读优化的。

在第一种可能的实现方式中，所述方法还包括：判断值日备存储装置的值日日志空间的占用量是否达到预设值；若占用量达到预设值，则将所述值日备存储装置切换到休眠状态，并将另一个备存储装置切换到工作状态作为值日备存储装置。

结合第一方面或者第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述第一种数据组织方式是日志结构合并LSM方式；所述第二种数据组织方式是日志结构文件系统LFS方式；所述第三种数据组织方式是B+树方式。

结合第一方面或者第一方面的第二种可能的实现方式，在第三种可能的实现方式中，所述将待存储数据的第一个副本以第一种数据组织方式写入主存储子系统之前，还包括：在每个主存储装置上创建键值存储系统LevelDB；在每个备存储装置中划分出两个存储区域，其中，在第一个存储区域创建LFS，第二个存储区域创建键值存储系统BDB。

结合第一方面或者第一方面的第三种可能的实现方式，在第四种可能的实现方式中，所述将待存储数据的第一个副本以第一种数据组织方式写入主存储子系统中的多个主存储装置包括：将待存储数据的第一个副本分割为多个部分，将所述多个部分分别写入多个主存储装置的LevelDB中；所述将待存储数据的第二个副本以第二种数据组织方式写入备存储子系统中的值日备存储装置包括：将待存储数据的第二个副本写入所述值日备存储装置的LFS中；所述将读出的不一致数据以第三种数据组织方式写入所述值日备存储装置包括：将读出的不一致数据写入所述值日备存储装置的BDB中。

结合第一方面或者第一方面的第一种至第四种方式中的任一种实现方式，在第五种可能的实现方式中，所述存储系统为磁盘阵列或节点阵列。

本发明第二方面提供一种数据存储设备，用于存储系统，所述存储系统包括主存储子系统和备存储子系统；所述主存储子系统包括N个主存储装置，所述备存储子系统包括对应于所述N个主存储装置的N个备存储装置；N为大于1的正整数；其中每个主存储装置和每个备存储装置上都创建有文件系统；所述设备包括：第一读写模块，用于将待存储数据的第一个副本以第一种数据组织方式写入主存储子系统中的多个主存储装置；第二读写模块，用于将待存储数据的第二个副本以第二种数据组织方式写入备存储子系统中的值日备存储装置，所述值日备存储装置是唯一处于工作状态的备存储装置；第三读写模块，用于将所述值日备存储装置对应的主存储装置中存储的、与所述值日备存储装置不一致的数据读出，并将读出的不一致数据以第三种数据组织方式写入所述值日备存储装置；其中，第一种数据组织方式和第二种数据组织方式是写优化的，且第二种数据组织方式的写入速度快于第一种数据组织方式的写入速度，第三种数据组织方式则是读优化的。

在第一种可能的实现方式中，所述设备还包括：存储装置监控模块，用于判断值日备存储装置的值日日志空间的占用量是否达到预设值；若占用量达到预设值，则将所述值日备存储装置切换到休眠状态，并将另一个备存储装置切换到工作状态作为值日备存储装置。

结合第一方面或者第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述设备还包括：创建模块，用于在每个主存储装置上创建键值存储系统LevelDB；在每个备存储装置中划分出两个存储区域，其中，在第一个存储区域创建LFS，第二个存储区域创建键值存储系统BDB。

结合第一方面或者第一方面的第二种可能的实现方式，在第三种可能的实现方式中，所述第一读写模块具体用于将待存储数据的第一个副本分割为多个部分，将所述多个部分分别写入多个主存储装置的LevelDB中；所述第二读写模块具体用于将待存储数据的第二个副本写入所述值日备存储装置的LFS中；所述第三读写模块具体用于将读出的不一致数据写入所述值日备存储装置的BDB中。

本发明第三方面提供一种计算机设备，可包括：处理器，存储器，通信接口，总线；所述处理器，存储器，通信接口通过所述总线相互的通信；所述存储器，包括主存储子系统和备存储子系统；所述主存储子系统包括N个主存储装置，所述备存储子系统包括对应于所述N个主存储装置的N个备存储装置；N为大于1的正整数；其中每个主存储装置和每个备存储装置上都创建有文件系统；其中，所述处理器用于将待存储数据的第一个副本以第一种数据组织方式写入主存储子系统中的多个主存储装置，将待存储数据的第二个副本以第二种数据组织方式写入备存储子系统中的值日备存储装置，所述值日备存储装置是唯一处于工作状态的备存储装置；将所述值日备存储装置对应的主存储装置中存储的、与所述值日备存储装置不一致的数据读出，并将读出的不一致数据以第三种数据组织方式写入所述值日备存储装置；其中，第一种数据组织方式和第二种数据组织方式是写优化的，且第二种数据组织方式的写入速度快于第一种数据组织方式的写入速度，第三种数据组织方式则是读优化的。

由上可见，本发明实施例采用在每个主存储装置和每个备存储装置上都创建文件系统，以及，将待存储数据的第一个副本以第一种数据组织方式写入主存储子系统，将待存储数据的第二个副本以第二种数据组织方式写入备存储子系统中的值日备存储装置，将所述值日备存储装置对应的主存储装置中存储的、与所述值日备存储装置不一致的数据读出，并将读出的不一致数据以第三种数据组织方式写入所述值日备存储装置的技术方案，取得了以下技术效果：

每个主存储装置和每个备存储装置上都创建有文件系统，数据分别以不同的数据组织方式写入主存储装置和备存储装置，能够满足多种应用、多种负载类型；其中，第一种和第二种数据组织方式是写优化的，可以提高数据的写入速度；第三种数据组织方式是读优化的，使得最终备存储装置上的数据大都以第三种组织方式存在，可具有较高的读出性能，以满足数据分析阶段的需求；从而使整个存储系统兼顾读写性能。并且，第二种数据组织方式的写入速度快于第一种数据组织方式的写入速度，可避免值日备存储装置产生写入瓶颈。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明提供的一种数据存储方法的示意图；

图2是本发明提供的另一种数据存储方法的示意图；

图3是本发明一个场景实施例中磁盘阵列RAID10的示意图；

图4是本发明实施例方法以RAID10为例的数据存储操作示意图；

图5是本发明提供的一种数据存储设备的示意图；

图6是本发明提供的另一种数据存储设备的示意图；

图7是本发明提供的一种计算机设备的示意图。

具体实施方式

目前常用的旋转日志架构方式的磁盘阵列存储系统具有以下缺陷：

一、现有的磁盘阵列存储系统中，在磁盘之上有一虚拟层，将多个磁盘虚拟化为一个虚拟磁盘，文件系统建立在虚拟磁盘之上，即，单个磁盘之上没有文件系统，每个磁盘都是块设备，整个磁盘阵列是在块级实现的。这就导致：写入磁盘的数据不能反映数据结构层的特征，还会进一步导致块级磁盘阵列的重建速度慢。如果一块磁盘失效，从对应的镜像磁盘恢复数据时，需要对镜像磁盘上的每个数据块进行恢复，因此速度较慢。

二、现有的存储系统中，文件系统建立虚拟磁盘之上，采用同一种数据组织方式向所有的磁盘中写入数据，这种数据组织方式要么是写优化的，以提高写性能，要么是读优化，以提高读性能，而不能同时兼顾读写性能。并且，旋转架构日志方式的磁盘阵列中，数据的一个副本被分成多个部分写入多个主磁盘，写入速度较快；但数据的另一个副本只被写入一个值日日志盘，写入速度较慢，跟不上主磁盘的写入速度，会形成瓶颈，影响整个磁盘阵列的性能。

本发明实施例提供一种数据存储方法和设备，以解决现有的数据副本方式的存储系统因在块级实现而导致的重建速度慢，不能反映数据结构层特征等问题，以及因采用同一种数据组织方式向所有磁盘中写入数据而导致的不能兼顾读写性能，在值日日志盘会出现写入瓶颈等问题。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

下面通过具体实施例，分别进行详细的说明。

请参考图1，本发明实施例提供一种数据存储方法。

该方法应用于存储系统，所述存储系统包括主存储子系统和备存储子系统；所述主存储子系统包括N个主存储装置，所述备存储子系统包括对应于所述N个主存储装置的N个备存储装置；N为大于1的正整数。本实施例中，所说的存储系统，可以是磁盘阵列或节点阵列，所说的主、备存储装置可以是磁盘或者节点等。本实施例中，每个主存储装置和每个备存储装置上都创建有文件系统；不同的存储装置上创建的文件系统可以相同，也可以不同。

如图1所示，本发明实施例方法可包括：

110、将待存储数据的第一个副本以第一种数据组织方式写入主存储子系统中的多个主存储装置，将待存储数据的第二个副本以第二种数据组织方式写入备存储子系统中的值日备存储装置，所述值日备存储装置是唯一处于工作状态的备存储装置；

120、将所述值日备存储装置对应的主存储装置中存储的、与所述值日备存储装置不一致的数据读出，并将读出的不一致数据以第三种数据组织方式写入所述值日备存储装置。

本实施例中，将每一份待存储的数据拷贝两个副本，其中第一个副本写入主存储子系统，第二个副本写入备存储子系统。为了提高数据的读写性能，可以将主存储子系统的N个主存储装置都保持在工作状态，将第一个副本分成N个部分，每个部分写入一个主存储装置。为了提高数据的可靠性，在任意时间段内，可以将备存储子系统的N个备存储装置中的一个保持在工作状态，作为值日备存储装置，将数据的第二个副本写入该值日备存储装置；其它备存储装置则处于休眠或待机等低能耗状态，以降低能耗。

本发明实施例中，为了提高写入速度，上述第一种数据组织方式和第二种数据组织方式是写优化的；以及，为了提高数据在分析阶段的读性能，第三种数据组织方式则是读优化的；从而使整个存储系统兼顾读写性能。并且，为了避免在值日备存储装置上形成写入瓶颈，可使第二种数据组织方式的写入速度快于第一种数据组织方式的写入速度；于是，虽然待存储数据的第一个副本是采用第一种数据组织方式被同时写入多个主存储装置，可提高写入速度，但是，数据的第二个副本写入值日备存储装置采用的是比第一中数据组织方式速度更快的第二种数据组织方式，这样，这样就可以取得平衡，尽量将数据的两个副本同时或接近同时写入主、备存储子系统，以提高整个存储系统的写入性能。另外，本发明实施例中，每个存储装置上都建立有文件系统，写入的存储装置的数据以一定的组织形式存在，可以反映数据结构层的特征。

综上，本发明实施例提供了一种数据存储方法，该方法采用上述技术特征，取得了以下技术效果：每个主存储装置和每个备存储装置上都创建有文件系统，数据分别以不同的数据组织方式写入主存储装置和备存储装置，能够满足多种应用、多种负载类型；其中，第一种和第二种数据组织方式是写优化的，可以提高数据的写入速度；第三种数据组织方式是读优化的，使得最终备存储装置上的数据大都以第三种组织方式存在，可具有较高的读出性能，以满足数据分析阶段的需求；从而使整个存储系统兼顾读写性能。并且，第二种数据组织方式的写入速度快于第一种数据组织方式的写入速度，可避免值日备存储装置产生写入瓶颈。

本发明一些实施例中，所述方法还包括：判断值日备存储装置的值日日志空间的占用量是否达到预设值。

本发明实施例中，每个备存储装置是对应的主存储装置的镜像存储装置，将所有备存储装置上的空闲存储空间视为日志空间，将值日备存储装置所提供的日志空间称为值日日志空间。本实施例中，可以实时监控值日备存储装置的值日日志空间的使用情况，判断值日日志空间的占用量是否达到预设值。

如果接收到待存储数据时，判断值日日志空间的占用量未达到预设值，则正常执行步骤110，分别将数据的两个副本分别写入主存储子系统和值日备存储装置即可。

若判断值日日志空间的占用量达到预设值，则本实施例中，将所述值日备存储装置切换到休眠状态，并将另一个备存储装置切换到工作状态作为值日备存储装置。并且，切换值日日志备存储装置之后，可触发一个同步进程，该同步进程用于将对应的主存储装置中的数据同步到值日日志存储装置中。即，一些实施方式中，上述步骤120可在切换值日备存储装置时被触发执行，将值日备存储装置对应的主存储装置中存储的、与值日备存储装置不一致的数据读出，并将读出的不一致数据以第三种数据组织方式写入值日备存储装置。

该同步操作可以在计算机设备的后台执行，利用存储装置的空闲带宽和空闲空间，将读出的不一致数据同步到值日备存储装置中，从而不消耗额外能量。本发明实施例中，为了提高写入性能，上述写数据时采用的第一种和第二种数据组织方式可以选择具有较高写性能的数据组织方式；为了提高读出数据的性能，所说的第三种数据组织方式可以选择具有较高读性能的数据组织方式，以便后续备存储装置可以提供较高的读性能，而且，由于所说的同步操作是在后台进行的，因此可以不考虑第三种数据组织方式的写性能。

本发明一些实施例中，所述第一种数据组织方式可以选择有顺序日志结构，例如日志结构合并(Log Structured Merge，LSM)方式；所述第二种数据组织方式可以选择无顺序日志结构，例如日志结构文件系统(Log Structured File System，LFS)方式；所述第三种数据组织方式可以选择本地更新索引结构，例如B+树方式。其中，LSM和LFS可提供较好的写性能，B+树可提供较好的读性能。且LFS写速度快于LSM的写速度。

为了实现上述的多种数据组织方式，本发明实施例中，在步骤110之前的初始化过程中，可以将每个主存储装置和每个备存储装置分别格式化为任意的文件系统；并且，在每个主存储装置上创建LSM系统，例如具体可以是键值存储系统LevelDB；在每个备存储装置中划分出两个存储区域，其中，在第一个存储区域创建LFS，第二个存储区域创建B+树系统，例如具体可以是键值存储系统BDB。

则上述步骤中，所述将待存储数据的第一个副本以第一种数据组织方式写入主存储子系统可包括：将待存储数据的第一个副本分割为多个部分，将所述多个部分分别写入所述主存储子系统的多个主存储装置的LevelDB中。所述将待存储数据的第二个副本以第二种数据组织方式写入备存储子系统中的值日备存储装置可包括：将待存储数据的第二个副本写入所述值日备存储装置的LFS中。所述将读出的不一致数据以第三种数据组织方式写入所述值日备存储装置可包括：将读出的不一致数据写入所述值日备存储装置的BDB中。

本发明实施例中，每个备存储装置中被划分出的两个存储区域中，第一个存储区域创建LFS，该存储区域用于在数据写入时使用；第二个存储区域创建BDB，该存储区域用于在数据同步时使用。由于多个备存储装置轮流用作值日备存储装置，在轮换过程中，第一个存储区域中以LFS方式写入的副本数据仅为临时数据，不停的被写入，且不停的被释放，因此第一个存储区域不需要太大；第二个存储区域用来保存从主存储装置同步过来的数据，是需要长期保存的数据，不停的被写入，但一般不被释放，因此第二个存储区域需要较大的存储空间，可以占用备存储装置的大部分空间。

最终，所有主存储装置上的数据都是以第一种数据组织方式存储，不仅反映数据结构层特征，而且具有较高的写入性能；备存储装置上需要长期保存的数据副本则都是以第三种数据组织方式存储，也能够反映数据结构层特征，而且，提供较高的读出性能。从而，当后续应用需要读取数据时，可以以较高的读出速度从备存储装置中进行数据读取。

本发明实施例方法优选适用于面向云存储环境的存储系统。

以上，本发明实施例公开了一种数据存储方法，该方法采用在每个主存储装置和每个备存储装置上都创建有文件系统，以及，将待存储数据的第一个副本以第一种数据组织方式写入主存储子系统，将待存储数据的第二个副本以第二种数据组织方式写入备存储子系统中的值日备存储装置，将所述值日备存储装置对应的主存储装置中存储的、与所述值日备存储装置不一致的数据读出，并将读出的不一致数据以第三种数据组织方式写入所述值日备存储装置的技术方案，取得了以下技术效果：

1、由于只有值日备存储装置处于工作状态，其它备存储装置均处于不工作的低能耗状态，因此，可以降低能耗。

2、每个主存储装置和每个备存储装置上都创建有文件系统，数据在主、备存储装置中以一定的数据组织方式存储，能够反映数据结构层特征，且提高了重建速度。如果一块主存储装置失效，从对应的备存储装置恢复数据时，通过数据组织方式可以直接获知哪些数据是需要恢复的，从而不必对每个数据块进行识别，因此重建速度块。

3、数据分别以不同的数据组织方式写入主存储装置和备存储装置，能够满足多种应用、多种负载类型。例如，第一种和第二种数据组织方式是写优化的，可以提高数据的写入速度；第三种数据组织方式是读优化的，使得最终备存储装置上的数据大都以第三种组织方式存在，可具有较高的读出性能，以满足数据分析阶段的需求。并且，第二种数据组织方式的写入速度快于第一种数据组织方式的写入速度，可避免在值日备存储装置上产生写入瓶颈。

4、值日备存储装置对应的主存储装置中存储的、与所述值日备存储装置不一致的数据，是在后台利用存储装置的空闲带宽和空闲空间，同步到值日备存储装置中，在不消耗额外能量的情况下，实现了数据组织方式的转换。

5、数据以一定的数据组织方式写入主存储装置和备存储装置，是在数据结构层实现的，实现较为灵活，既可以实现在块设备上，也可以实现在节点上，例如，可用于磁盘阵列，也可用于节点阵列，并且，可实现于单节点多磁盘环境，也可以实现于多节点分布式存储环境。

为便于更好的理解本发明实施例提供的技术方案，下面通过一个具体场景下的实施方式为例进行介绍。

本场景实施例中，以所说的存储系统是磁盘阵列RAID10为例。RAID10包括一组主磁盘和一组备磁盘(或者称为镜像磁盘)。一组N个主磁盘构成主存储子系统(或者称为主磁盘组)，一组N个镜像磁盘构成备存储子系统(或者称为备磁盘组、镜像磁盘组)。

本实施例中，将所有的镜像磁盘均视为日志磁盘，将所有镜像磁盘上的空闲存储空间视为日志磁盘可提供的日志空间；在任意时间段内仅将一个日志磁盘保持在活动状态(即工作状态)，响应写操作请求；保持在活动状态的镜像磁盘称为值日日志磁盘，值日日志磁盘所提供的日志空间称为值日日志空间。

如图2所示，本场景实施例包括以下步骤：

210、接收键值请求步骤：接收来自应用的键值请求，键值请求中携带待存储的数据(即键值数据)，该键值请求具体可以是写入(PUT)、读出(GET)或删除(DELETE)等。

220、键值数据重定向步骤：将收到的键值请求重定向到目的磁盘上，即相应的主磁盘和值日日志磁盘上。

230、将待存储数据的第一个副本以LSM方式写入主磁盘组；

240、判断值日日志磁盘的值日日志空间的占用量是否达到预设值；

250、如果占用量达到预设值，切换值日日志磁盘，包括：将值日日志磁盘由活动的工作状态切换到休眠或待机状态，将另一个值日日志磁盘唤醒切换到工作状态；同时，值日日志磁盘的切换操作触发一个同步进程，同步进程中，将值日日志磁盘对应的主磁盘中存储的、与值日日志磁盘不一致的数据读出，并将读出的不一致数据以B+树方式写入值日日志磁盘；

260、如果占用量未达到预设值，将待存储数据的第二个副本以LFS方式写入备磁盘组的值日日志磁盘。

下面进一步详细描述。

如图3所示，假设磁盘阵列RAID10包括六块磁盘，其中，三块主磁盘，分别用P0、P1和P2表示，与这三块主磁盘对应的三块镜像磁盘分别用M0、M1和M2表示。相对应的两个磁盘成为镜像磁盘对，该RAID10包括三个镜像磁盘对，分别用(P0，M0)，(P1，M1)和(P2，M2)表示。

图3中，圆柱体表示磁盘，圆柱体中黑色阴影部分表示磁盘中已被占用的存储空间，白色部分表示磁盘中尚未被占用的存储空间。假设M0，M1和M2这三个镜像磁盘上均各自有50％的空闲存储空间，即50％的日志空间。被带箭头的曲线连接起来的三个镜像磁盘M0、M1和M2被作为日志磁盘，该三个日志磁盘上的空闲存储空间，分别用散点和斜纹表示的部分，作为日志空间。用带箭头的曲线连接起来的散点和斜纹部分表示所有三个镜像磁盘的空闲存储空间构成的日志空间。散点所在的镜像磁盘为值日日志磁盘，而斜纹所在的磁盘为非值日日志磁盘。M0，M1和M2依次用作值日日志磁盘，即，在第0个日志周期，M0为值日日志磁盘；在第1个日志周期，M1为值日日志磁盘；在第2个日志周期，M2为值日日志磁盘；在第3个日志周期，M0重新为值日日志磁盘；依此类推。

如图4(a)所示，键值数据的键空间被切分成成等长的键值分段(Key Range，KR)，分别标记为KR1、KR2、KR3、KR4、…、KRi，并被以轮转的方式分布在镜像磁盘对(P0，M0)，(P1，M1)和(P2，M2)上。

如图4(b)、(c)和(d)所示，在日志周期T0内，M0被用作值日日志磁盘，在该日志周期T0内的新写入数据的第一个副本分作三部分，即D0T0、D1T0和D2T0，分别写入主磁盘P0、P1和P2；第二个副本D0T0、D1T0和D2T0，都将被写到镜像磁盘M0。类似地，当进入日志周期T1，新写入数据的第一个副本分作三部分，即D0T1、D1T1和D2T1，分别写入主磁盘P0、P1和P2；第二个副本D0T1、D1T1和D2T1，都将被写到镜像磁盘M1。以后，依次类推。图4所示的带箭头的虚线和数据布局展示了循环日志的基本原理。

每个新的日志周期开始时，值日日志磁盘的切换会触发一个同步进程。如图4(b)所示，在日志周期T0内，M0被选择作为值日日志磁盘，由于T0之前，第0个镜像磁盘对(P0，M0)之间不存在不一致的数据，因此，在T0内，镜像磁盘对(P0，M0)之间无同步操作。在第1个日志周期T1内，M1被选择作为值日日志磁盘，由于T1之前，第1个镜像磁盘对(P1，M1)之间存在不一致的数据，即D1T0，因此，在T1开始时刻，镜像磁盘对(P1，M1)之间的同步过程被触发，数据D1T0被写入M1，同时，M0中存储D1T0的空间被释放，并且该同步过程在将不一致的数据全部同步完成之后才终止。依此类推，在日志周期T2内，M2被选择作为值日日志磁盘，并且在T2开始时刻，第2个镜像磁盘对(P2，M2)之间的同步过程被触发，数据D2T0和D2T1被写入M2，同时，M0和M1中存储D2T0和D2T1的空间被释放，并且该同步过程在将不一致的数据全部同步完成之后才终止。

图4(b)、(c)和(d)分别表示在T0、T1和T2三个日志周期结束时刻磁盘组上的键值数据分布情况。其中，DmTn代表在第n个日志周期Tn内写入第m个镜像磁盘对(Pm，Mm)的所有键值数据，本实施例中，m为0、1或2，n为大于等于0的自然数，空白方格表示主磁盘和镜像盘上尚未被占用的存储空间，带斜纹的方格表示磁盘上该区域所表示的存储空间已经被释放，带竖条纹的方格表示主磁盘上该逻辑区域对应的键值数据已经被同步更新到镜像磁盘中的B+树中。

当一个新的日志磁盘被选择作为值日日志磁盘的时候，一个新的同步过程就被触发，并且该新的同步过程只有当值日日志磁盘上所有不一致数据被更新完毕之后才会被终止。如图4(b)所示，在日志周期T0内，M0被选择作为值日日志磁盘，键值写操作请求到达镜像磁盘对(P0，M0)时，将键值写操作请求数据写到主磁盘P0的LSM数据结构中，经判断，如果T0内的值日日志磁盘M0上值日日志空间的占用量未超过预先设定的阈值T，此时将键值写操作请求数据以日志结构文件系统的方式顺序写到值日日志磁盘M0内；如果T0内的值日日志磁盘M0上值日日志空间的占用量超过预先设定的阈值T，此时将M0切换到低能耗的待机状态，选择M1作为新的值日日志磁盘，将M1切换到高能耗的活动状态，触发镜像磁盘对(P1，M1)之间的同步过程。依此类推，图4(c)和(d)显示，在T1和T2内，分别将(P1，M1)和(P2，M2)中未更新的键值数据从P1或P2的LSM中读出，并写入M1和M2的B+树中。在T1和T2结束时刻，日志磁盘M2和M0分别被选择作为新的值日日志磁盘。

图4(c)和(d)中带箭头的实线和带斜纹的矩形方框分别表示了分散式同步过程和日志空间释放示意图。当日志磁盘M1被选择作为值日日志磁盘时，触发镜像磁盘对(P1，M1)中主磁盘P1和镜像磁盘M1之间的同步过程。当镜像磁盘对(P1，M1)之间的同步过程结束之后，M0上的D1T0所占用的存储空间被释放。类似地，镜像磁盘对(P2，M2)之间的同步过程在M2被选为值日日志磁盘时被触发。当镜像磁盘对(P2，M2)之间的同步过程结束之后，M0上的D2T0和M1上的D2T1所占用的存储空间被释放。

由于日志磁盘M0上大部分已被占用的日志空间分别在日志周期T1和T2内随着镜像磁盘对(P1，M1)和镜像磁盘对(P2，M2)之间的同步过程被释放，日志磁盘M0能够再次被选择作为值日日志磁盘。依此类推，日志磁盘M1和M2上大部分已被占用的日志空间分别随着镜像磁盘对(P0，M0)、(P2，M2)和镜像磁盘对(P0，M0)、(P1，M1)之间的同步过程被释放，因此，M1和M2也能够再次被选择作为值日日志磁盘。

本发明实施例中，为了使磁盘阵列能够支持本发明实例方法，需要预先对磁盘阵列进行初始化处理，包括：

初始化过程中，将每个主磁盘和每个备存磁盘分别格式化为任意的文件系统；并且，在每个主磁盘上创建LSM系统，例如具体可以是键值存储系统LevelDB；在每个备磁盘中划分出两个存储区域，其中，在第一个存储区域创建LFS；第二个存储区域创建B+树系统，例如具体可以是键值存储系统BDB。使得后续能够：将待存储数据的第一个副本写入所述主存储子系统的LevelDB中，将待存储数据的第二个副本写入值日备存储装置的LFS中，以及，在同步过程中，将读出的不一致数据写入值日备存储装置的BDB中。

以上，本实施例以磁盘阵列为例进行了说明，但需要理解，在其它实施例中，所说的存储系统不限于磁盘阵列，磁盘阵列中的磁盘可以是裸磁盘，也可以是格式化为特定文件系统之后的磁盘；所说的存储系统也可以是节点阵列，且节点阵列可以适用于多节点分布式环境。

另外，前文所述的第一种、第二种和第三种数据组织方式可以根据需要随意选择，例如，第一种数据组织方式可以选择LSM，但是也可以选择B+树，或者其它组织方式；第二种数据组织方式可以选择LFS或B+树；第三种数据组织方式可以选择B+树或LSM；此处不再详细赘述。

以上，本发明实施例公开了一种数据存储方法，取得了以下技术效果：

2、每个主存储装置和每个备存储装置上都创建有文件系统，数据在主、备存储装置中都以一定的数据组织方式存储，能够反映数据结构层特征，且提高了重建速度。如果一块主存储装置失效，从对应的备存储装置恢复数据时，通过数据组织方式可以直接获知哪些数据是需要恢复的，从而不必对每个数据块进行识别，因此重建速度块。

为了更好的实施本发明实施例的上述方案，下面还提供用于配合实施上述方案的相关装置。

请参考图5，本发明实施例提供一种数据存储设备500。该设备用于存储系统，所述存储系统包括主存储子系统和备存储子系统；所述主存储子系统包括 N个主存储装置，所述备存储子系统包括对应于所述N个主存储装置的N个备存储装置；N为大于1的正整数；其中每个主存储装置和每个备存储装置上都创建有文件系统。所述设备500可包括：

第一读写模块510，用于将待存储数据的第一个副本以第一种数据组织方式写入主存储子系统中的多个主存储装置；

第二读写模块520，用于将待存储数据的第二个副本以第二种数据组织方式写入备存储子系统中的值日备存储装置，所述值日备存储装置是唯一处于工作状态的备存储装置；

第三读写模块530，用于将所述值日备存储装置对应的主存储装置中存储的、与所述值日备存储装置不一致的数据读出，并将读出的不一致数据以第三种数据组织方式写入所述值日备存储装置；

其中，第一种数据组织方式和第二种数据组织方式是写优化的，且第二种数据组织方式的写入速度快于第一种数据组织方式的写入速度，第三种数据组织方式则是读优化的。

如图6所示，本发明一些实施例中，所述设备还可以包括：

存储装置监控模块540，用于判断值日备存储装置的值日日志空间的占用量是否达到预设值；若占用量达到预设值，则将所述值日备存储装置切换到休眠状态，并将另一个备存储装置切换到工作状态作为值日备存储装置。

如图6所示，本发明另一些实施例中，所述设备还可以包括：

创建模块550，用于在每个主存储装置上创建键值存储系统LevelDB；在每个备存储装置中划分出两个存储区域，其中，在第一个存储区域创建LFS，第二个存储区域创建键值存储系统BDB。

本发明另一些实施例中，所述第一读写模块具体可用于将待存储数据的第一个副本分割为多个部分，将所述多个部分分别写入多个主存储装置的LevelDB中；所述第二读写模块具体可用于将待存储数据的第二个副本写入所述值日备存储装置的LFS中；所述第三读写模块具体可用于将读出的不一致数据写入所述值日备存储装置的BDB中。

本发明实施例的数据存储设备例如可以是包括磁盘阵列的计算机设备，或者管理节点阵列的网络设备。

可以理解，本发明实施例的数据存储设备的各个功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可参照上述方法实施例中的相关描述，此处不再赘述。

由上可见，在本发明的一些可行的实施方式中，采用在每个主存储装置和每个备存储装置上都创建有文件系统，以及，将待存储数据的第一个副本以第一种数据组织方式写入主存储子系统，将待存储数据的第二个副本以第二种数据组织方式写入备存储子系统中的值日备存储装置，将所述值日备存储装置对应的主存储装置中存储的、与所述值日备存储装置不一致的数据读出，并将读出的不一致数据以第三种数据组织方式写入所述值日备存储装置的技术方案，取得了以下技术效果：

本发明实施例还提供一种计算机存储介质，该计算机存储介质可存储有程序，该程序执行时包括上述方法实施例中记载的数据存储方法的部分或全部步骤。

请参考图7，本发明实施例还提供一种计算机设备700，可包括：

处理器710，存储器720，通信接口730，总线740；所述处理器710，存储器720，通信接口730通过所述总线740相互的通信；所述通信接口730，用于接收和发送数据；所述存储器720用于存储程序；所述处理器710用于执行所述存储器中的所述程序。所述存储器720，可包括主存储子系统和备存储子系统；所述主存储子系统包括N个主存储装置，所述备存储子系统包括对应于所述N个主存储装置的N个备存储装置；N为大于1的正整数；其中每个主存储装置和每个备存储装置上都创建有文件系统。所说的主、备存储装置都可以是磁盘。

其中，处理器710用于将待存储数据的第一个副本以第一种数据组织方式写入主存储子系统中的多个主存储装置，将待存储数据的第二个副本以第二种数据组织方式写入备存储子系统中的值日备存储装置，所述值日备存储装置是唯一处于工作状态的备存储装置；将所述值日备存储装置对应的主存储装置中存储的、与所述值日备存储装置不一致的数据读出，并将读出的不一致数据以第三种数据组织方式写入所述值日备存储装置；其中，第一种数据组织方式和第二种数据组织方式是写优化的，且第二种数据组织方式的写入速度快于第一种数据组织方式的写入速度，第三种数据组织方式则是读优化的。

在本发明的一些实施例中，处理器710还用于判断值日备存储装置的值日日志空间的占用量是否达到预设值；若占用量达到预设值，则将所述值日备存储装置切换到休眠状态，并将另一个备存储装置切换到工作状态作为值日备存储装置。

在本发明的一些实施例中，所述第一种数据组织方式是日志结构合并LSM方式；所述第二种数据组织方式是日志结构文件系统LFS方式；所述第三中数据组织方式是B+树方式。

在本发明的一些实施例中，处理器710还用于在每个主存储装置上创建键值存储系统LevelDB；在每个备存储装置中划分出两个存储区域，其中，在第一个存储区域创建LFS，第二个存储区域创建键值存储系统BDB。

在本发明的一些实施例中，处理器710具体用于将待存储数据的第一个副本分割为多个部分，将所述多个部分分别写入多个主存储装置的LevelDB中；将待存储数据的第二个副本写入所述值日备存储装置的LFS中；将读出的不一致数据写入所述值日备存储装置的BDB中。

可以理解，本发明实施例的计算机设备的各个功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可参照上述方法实施例中的相关描述，此处不再赘述。

由上可见，在本发明的一些可行的实施方式，取得了以下技术效果：

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上对本发明实施例所提供的一种数据存储方法和设备进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

一种数据存储方法，其特征在于，用于存储系统，所述存储系统包括主存储子系统和备存储子系统；所述主存储子系统包括N个主存储装置，所述备存储子系统包括对应于所述N个主存储装置的N个备存储装置；N为大于1的正整数；其中每个主存储装置和每个备存储装置上都创建有文件系统；

所述方法包括：

将待存储数据的第一个副本以第一种数据组织方式写入主存储子系统中的多个主存储装置，将待存储数据的第二个副本以第二种数据组织方式写入备存储子系统中的值日备存储装置，所述值日备存储装置是唯一处于工作状态的备存储装置；

将所述值日备存储装置对应的主存储装置中存储的、与所述值日备存储装置不一致的数据读出，并将读出的不一致数据以第三种数据组织方式写入所述值日备存储装置；

其中，第一种数据组织方式和第二种数据组织方式是写优化的，且第二种数据组织方式的写入速度快于第一种数据组织方式的写入速度，第三种数据组织方式则是读优化的。
根据权利要求1所述的方法，其特征在于，还包括：

判断值日备存储装置的值日日志空间的占用量是否达到预设值；

若占用量达到预设值，则将所述值日备存储装置切换到休眠状态，并将另一个备存储装置切换到工作状态作为值日备存储装置。
根据权利要求1所述的方法，其特征在于：

所述第一种数据组织方式是日志结构合并LSM方式；

所述第二种数据组织方式是日志结构文件系统LFS方式；

所述第三种数据组织方式是B+树方式。
根据权利要求3所述的方法，其特征在于，所述将待存储数据的第一个副本以第一种数据组织方式写入主存储子系统之前，还包括：

在每个主存储装置上创建键值存储系统LevelDB；

在每个备存储装置中划分出两个存储区域，其中，在第一个存储区域创建LFS，第二个存储区域创建键值存储系统BDB。
根据权利要求4所述的方法，其特征在于：

所述将待存储数据的第一个副本以第一种数据组织方式写入主存储子系统中的多个主存储装置包括：将待存储数据的第一个副本分割为多个部分，将所述多个部分分别写入多个主存储装置的LevelDB中；

所述将待存储数据的第二个副本以第二种数据组织方式写入备存储子系统中的值日备存储装置包括：将待存储数据的第二个副本写入所述值日备存储装置的LFS中；

所述将读出的不一致数据以第三种数据组织方式写入所述值日备存储装置包括：将读出的不一致数据写入所述值日备存储装置的BDB中。
根据权利要求1至5中任一所述的方法，其特征在于：

所述存储系统为磁盘阵列或节点阵列。
一种数据存储设备，其特征在于，用于存储系统，所述存储系统包括主存储子系统和备存储子系统；所述主存储子系统包括N个主存储装置，所述备存储子系统包括对应于所述N个主存储装置的N个备存储装置；N为大于1的正整数；其中每个主存储装置和每个备存储装置上都创建有文件系统；所述设备包括：

第一读写模块，用于将待存储数据的第一个副本以第一种数据组织方式写入主存储子系统中的多个主存储装置；

第二读写模块，用于将待存储数据的第二个副本以第二种数据组织方式写入备存储子系统中的值日备存储装置，所述值日备存储装置是唯一处于工作状态的备存储装置；

第三读写模块，用于将所述值日备存储装置对应的主存储装置中存储的、与所述值日备存储装置不一致的数据读出，并将读出的不一致数据以第三种数据组织方式写入所述值日备存储装置；

其中，第一种数据组织方式和第二种数据组织方式是写优化的，且第二种数据组织方式的写入速度快于第一种数据组织方式的写入速度，第三种数据组织方式则是读优化的。
根据权利要求7所述的设备，其特征在于，还包括：

存储装置监控模块，用于判断值日备存储装置的值日日志空间的占用量是否达到预设值；若占用量达到预设值，则将所述值日备存储装置切换到休眠状态，并将另一个备存储装置切换到工作状态作为值日备存储装置。
根据权利要求7所述的设备，其特征在于，还包括：

创建模块，用于在每个主存储装置上创建键值存储系统LevelDB；在每个备存储装置中划分出两个存储区域，其中，在第一个存储区域创建LFS，第二个存储区域创建键值存储系统BDB。
根据权利要求9所述的设备，其特征在于：

所述第一读写模块具体用于将待存储数据的第一个副本分割为多个部分，将所述多个部分分别写入多个主存储装置的LevelDB中；

所述第二读写模块具体用于将待存储数据的第二个副本写入所述值日备存储装置的LFS中；

所述第三读写模块具体用于将读出的不一致数据写入所述值日备存储装置的BDB中。
一种计算机设备，其特征在于，包括：

处理器，存储器，通信接口，总线；所述处理器，存储器，通信接口通过所述总线相互的通信；所述存储器，包括主存储子系统和备存储子系统；所述主存储子系统包括N个主存储装置，所述备存储子系统包括对应于所述N个主存储装置的N个备存储装置；N为大于1的正整数；其中每个主存储装置和每个备存储装置上都创建有文件系统；

其中，所述处理器用于将待存储数据的第一个副本以第一种数据组织方式写入主存储子系统中的多个主存储装置，将待存储数据的第二个副本以第二种数据组织方式写入备存储子系统中的值日备存储装置，所述值日备存储装置是唯一处于工作状态的备存储装置；将所述值日备存储装置对应的主存储装置中存储的、与所述值日备存储装置不一致的数据读出，并将读出的不一致数据以第三种数据组织方式写入所述值日备存储装置；其中，第一种数据组织方式和第二种数据组织方式是写优化的，且第二种数据组织方式的写入速度快于第一种数据组织方式的写入速度，第三种数据组织方式则是读优化的。