WO2020134609A1

WO2020134609A1 - 数据存储的方法及装置

Info

Publication number: WO2020134609A1
Application number: PCT/CN2019/115774
Authority: WO
Inventors: 王波; 屠要峰; 黄震江; 韩银俊; 洪建峰; 郭斌; 丁毅
Original assignee: 中兴通讯股份有限公司
Priority date: 2018-12-27
Filing date: 2019-11-05
Publication date: 2020-07-02
Also published as: CN110209345A

Abstract

一种数据存储的方法及装置，其中该方法包括：为第一业务配置多个热度监测配置信息，依据每个热度监测配置信息中的配置对第一业务的热度进行监测，获取每个热度监测配置信息对应的热度值，然后依据该多个热度值选择存储第一业务对应数据位置。

Description

数据存储的方法及装置

技术领域

本申请涉及但不限于数据存储领域，具体而言，涉及一种数据存储的方法及装置。

背景技术

在相关技术中，通常分布式存储系统架构由如下三部分组成：文件访问客户端模块，元数据服务器模块和存储服务器模块。图1是根据相关技术中的分布式存储系统结构模型图，如图1所示，文件访问客户端是应用程序访问文件系统的代理，提供应用程序文件操作接口，热度统计上报等功能；元数据服务器模块具有配置数据管理和文件元数据的管理和分级存储管理功能；存储服务器模块在存储系统中实际存储文件数据。

分布式存储系统(Distribute Storage System，简称为DSS)普遍混插机械硬盘和SSD(Solid State Drives，固态硬盘)闪存，以满足大容量和高性能需求。近年来新型SSD闪存，如NVMe协议类型等，更是具有极高性能、超低延时特点，也逐渐在企业级存储中广泛应用。存储系统使用分级存储管理不同类型硬盘，均衡存储性能和容量需求。分级存储中SSD闪存主要作用是作为热点数据的缓存，用以存储当前业务最新或者最热的数据。数据冷热判断依据主要有：数据价值、数据访问频率、保留时间、数据访问大小等指标，称之为数据的访问热度。分级存储综合上述要素，将分片的副本存储到不同类型硬盘中，并且在不同类型硬盘之间根据热点情况进行自动迁移。

针对相关技术中由于热度值统计方式单一导致热点数据分级存储效果不理想的问题，目前还没有有效的解决方案。

发明内容

本申请实施例提供了一种数据存储的方法及装置，以至少解决相关技术中由于热度值统计方式单一导致热点数据分级存储效果不理想的问题。

根据本申请的一个实施例，提供了一种数据存储的方法，包括：获取为第一业务设置的多个热度监测配置信息；依据每个热度监测配置信息分别监测所述第一业务的热度值，其中，所述热度值用于指示所述第一业务被访问的频率；依据所述多个热度监测配置信息对应的多个热度值，选择存储所述第一业务对应数据的位置，并存储所述数据。

根据本申请的另一个实施例，还提供了一种数据存储的装置，包括：第一获取模块，设置为获取为第一业务设置的多个热度监测配置信息；第二获取模块，设置为依据每个热度监测配置信息分别监测所述第一业务的热度值，其中，所述热度值用于指示所述第一业务被访问的频率；选择模块，设置为依据所述多个热度监测配置信息对应的多个热度值，选择存储所述第一业务对应数据的位置，并存储所述数据。

根据本申请的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本申请的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据相关技术中的分布式存储系统结构模型图；

图2是根据相关技术中的分级存储结构模型图；

图3是本申请实施例的一种数据存储的方法的计算机终端的硬件结构框图；

图4是根据本申请实施例的数据存储的方法的流程图；

图5是根据本申请实施例的多业务分级存储改进模块交互图；

图6是根据本申请实施例的多业务分级存储新增模块交互图；

图7是根据本申请例子一的多业务热度监测配置信息界面示意图；

图8是根据本申请例子二的分级存储多业务列表示意图；

图9是根据本申请另例子三的权重管理流程示意图；

图10是根据本申请例子四的分级存储多目录配置热度管理和淘汰结构图；

图11是根据本申请例子四的分片淘汰主要流程示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

分级存储架构主要功能模块如下：文件访问客户端热度统计和上报；元数据服务器配置管理模块、热度管理模块、热度调度模块、统计模块，图2是根据相关技术中的分级存储结构模型图，如图2中所示，包括访问客户端，元数据服务器，存储服务器，热度配置模块，热度管理模块，热度统计模块，分片淘汰模块，热度调度模块，权重管理模块，协调调度模块。

分级存储热度管理一般流程为：

(1)应用程序调用接口(如read、sendfile等)访问文件分片时，文件访问客户端统计上报该分片读写次数、读写字节数等信息给元数据服务器热度管理模块。

(2)元数据服务器接收到当前上报分片原始信息，结合历史热度和当前上报热度，根据公式计算得出该分片热度并保存到元数据中。

(3)热度管理模块定时扫描元数据的分片，如果分片热度大于配置热度阈值且分片所有副本均位于机械硬盘上，则将相关元数据插入到待升级列表，并且重新将待升级列表排序。如果分片热度值小于热度阈值并且有副本在SSD闪存上，则将相关元数据插入待降级列表，并重新排序待降级列表；此处热度阈值指数据访问热度超过此值的分片可以被作为候选分片升级到SSD闪存。待升级列表指以热度为关键字从大到小已排好序且包含满足超出热度阈值的分片信息；降级列表指以热度为关键字从小到大已排好序，热度小于热度阈值的分片信息。

(3)热度调度模块定时检查系统配置，取出待升级列表和待降级列表中符合条件的分片对存储服务器模块下达分片的副本迁移的指令。

(4)存储服务器迁移分片副本成功后，上报元数据服务器；

(5)元数据服务器修改分片副本迁移后新硬盘位置。

相关技术是在若干历史时间段内统计文件或者对象热度作为历史热度，来预测反映未来一段时间内文件的热度，据此作为分级存储热度判断依据，将不同热度文件迁移到不同性能的硬盘上。

相关技术中的分级存储技术存在较多的局限，一是多业务支持差，一套存储往往需要为多个业务提供存储服务，不同业务有不同的热点内容和热点时间段，笼统的基于历史文件访问热度的统计，将会导致热点不热，分级存储的效果不理想；第二是不同时间段热点支持差，即使是同一业务，在不同的时间段往往有不同的热点内容，单一的基于过往时间段的统计，会导致热点错位，分级存储的效率大打折扣；第三是热点统计周期配置管理困难，通过人为的设定热点周期，很难适应热点内容和时间段的变化。

实施例一

本申请实施例一所提供的方法实施例可以在计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图3是本申请实施例的一种数据存储的方法的计算机终端的硬件结构框图，如图3所示，计算机终端可以包括一个或多个(图3中仅示出一个)处理器302(处理器302可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和设置为存储数据的存储器304，可选地，上述计算机终端还可以包括设置为通信功能的传输装置306以及输入输出设备308。本领域普通技术人员可以理解，图3所示的结构仅为示意，其并不对上述计算机终端的结构造成限定。例如，计算机终端还可包括比图3中所示更多或者更少的组件，或者具有与图3所示不同的配置。

存储器304可设置为存储应用软件的软件程序以及模块，如本申请实施例中的数据存储的方法对应的程序指令/模块，处理器302通过运行存储在存储器304内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器304可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器304可进一步包括相对于处理器302远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置306设置为经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中，传输装置306包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置306可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述计算机终端的数据存储的方法，图4是根据本申请实施例的数据存储的方法的流程图，如图4所示，该流程包括如下步骤：

步骤S402，获取为第一业务设置的多个热度监测配置信息；

步骤S404，依据每个热度监测配置信息分别监测所述第一业务的热度值，其中，所述热度值用于指示所述第一业务被访问的频率；

步骤S406，依据所述多个热度监测配置信息对应的多个热度值，选择存储所述第一业务对应数据的位置，并存储所述数据；

更改存储位置之后可以对应修改元数据信息。

通过上述步骤，通过本申请，为第一业务配置多个热度监测配置信息，依据每个热度监测配置信息中的配置对第一业务的热度进行监测，获取每个热度监测配置信息对应的热度值，然后依据该多个热度值选择存储第一业务对应数据位置，例如固态硬盘或者机械硬盘，可以是综合考虑多个热度值之后对第一业务对应数据进行迁移，也可以是独立地依据一个热度值对第一业务对应数据进行迁移，采用上述方案，一个业务配置有多个热度监测配置信息，可以更为准确及时地迁移该业务的热点数据至固态硬盘，大幅提升分级存储效率，解决了相关技术中由于热度值统计方式单一导致热点数据分级存储效果不理想的问题。

可选地，获取为第一业务设置的多个热度监测配置信息，包括：获取所述热度监测配置信息中包括的以下信息至少之一：热度更新周期、热度统计起始时间、热度统计结束时间。

可选地，依据每个热度监测配置信息分别监测所述第一业务的热度值，包括：在每个热度监测配置信息对应的热度统计开始时间至热度统计结束时间内，统计每个热度更新周期中所述第一业务被访问的第一次数；依据所述第一次数获取每个热度监测配置信息对应的所述第一业务的热度值。

可选地，依据每个热度监测配置信息分别监测所述第一业务的热度值，包括：在所述多个热度监测配置信息中的第一热度监测配置信息针对所述第一业务的第一业务目录时，依据所述第一热度监测配置信息统计所述第一业务目录中一个或多个数据分片的热度值。

可选地，依据所述多个热度监测配置信息对应的多个热度值，选择存储所述第一业务对应数据的位置，并存储所述数据，包括：在所述多个热度监测配置信息为关联的热度监测配置信息时，获取每个热度监测配置信息对应的热度值和预设权重的乘积；获取所述多个热度监测配置信息的乘积的和值，依据所述和值选择存储所述第一业务对应数据的位置，并存储所述数据。

可选地，依据所述和值选择存储所述第一业务对应数据的位置，并存储所述数据，包括：在所述和值大于热度阈值时，将所述第一业务对应的数据由机械硬盘迁移至固态硬盘；在所述和值小于热度阈值时，将所述第一业务对应的数据由固态硬盘迁移至机械硬盘。

可选地，选择存储所述第一业务对应数据的位置，并存储所述数据，包括：选择存储所述第一业务的第一数据分片的副本的固态硬盘或机械硬盘；将所述副本存储至选定的固态硬盘或机械硬盘。

可选地，将所述副本迁移至固态硬盘之后，在一个热度更新周期内，统计执行所述第一业务时读取所述固态硬盘和读取机械硬盘的次数比例；在所述次数比例低于预设比例时，调整所述多个热度监测配置信息的预设权重以增加下一个热度更新周期对应的次数比例。

可选地，调整所述多个热度监测配置信息的预设权重以增加下一个热度更新周期对应的次数比例之后，通过多个热度更新周期的预设权重的调整后，检测到所述次数比例到达最大值；在所述最大值仍小于所述预设比例时，生成统计报告并告警。

可选地，依据所述多个热度监测配置信息对应的多个热度值，选择存储所述第一业务对应数据的位置，包括：在所述多个热度监测配置信息均为彼此独立的热度监测配置信息时，分别依据每个热度监测配置信息对应的热度值选择存储所述第一业务对应数据的位置。

可选地，依据所述多个热度监测配置信息对应的多个热度值，选择存储所述第一业务对应数据的位置，并存储所述数据之后，实时统计所述第一业务被访问的第二次数，在所述第二次数符合预设条件时，自动生成所述第一业务的第二热度监测配置信息。在检测到执行该第一业务的当前多个热度监测配置信息后，第一业务的数据未能高效率的调用后，自动生成第二热度监测配置信息，用于后续的对第一业务的热度监测中，该第二热度监测配置信息的具体配置可以是向其他业务的热度监测配置信息学习的。

可选地，依据所述多个热度监测配置信息对应的多个热度值，选择存储所述第一业务对应数据的位置，并存储所述数据之后，在存储有数据的第一硬盘的存储状态符合预设状态时，通过以下方式至少之一释放所述第一硬盘的存储空间：将所述第一硬盘上存储的热度值低于热度阈值或者热度值最小的第二业务迁移出去；将所述第一硬盘上存储的第二业务的热度值最小的数据分片迁移出去。

下面结合本申请另一个实施例进一步说明。

鉴于上述相关技术的局限性，本申请公开了一种分布式存储系统中提高分级存储效率的方法。适用多业务场景，并且通过自适应的同时对多个时间段分别进行热点的统计分析，很好的解决了分布式存储系统分级存储在上述场景下的问题。

本申请要解决的技术问题是：一套分布式存储系统承载多种业务，不同业务具有不同的访问热点和高峰时间段，并且不论是历史热度还是当前热度，不同时间段的热度贡献值是不同的。当存储系统中有多种业务和不同高峰时间段，相关技术在热度管理方面存在调度效率低的问题。因此针对上述问题，本方案提出一种分级存储方法和装置，能够灵活的部署到分布式存储系统中，它支持多业务设置不同高峰时间段，进行独立热度管理，利用业务不同时间段热度和性能数据，自动生成多种不同时间段的关联热度监测配置信息，改进分级存储热度管理，并且自动依据热度统计生成统计数据，提供自动调整关联配置权重的方法，简化运维人员负担。

技术方案：

本方案在上述基础架构基础上，增加若干功能模块(图2中元数据服务器虚线框模块)和优化多个模块实现，以实现多业务支持时灵活热度管理和改善热点分片高峰时间段调度问题，提出支持：

(1)多业务在分级存储中进行独立热度管理和调度；

(2)存储系统根据运行情况可以为每一个业务依据统计数据，自动生成多个时间段关联热度监测配置信息；某个业务中多个热度监测配置信息可以为独立配置，进行独立热度管理或者关联配置，进行共享热度管理。

(3)业务不同时间段的关联热度监测配置信息在系统运行过程中，提供一种自动调整关联配置权重的方法。

分级存储系统支持多个业务和多个时间段进行热度管理和调度，需要针对已有架构做出调整优化，下面依次详细介绍热度监测配置信息模块、热度管理、热度调度模块、热度统计模块、分片淘汰模块内容：

为支持本方案，热度监测配置信息模块扩展若干字段，单个业务能够增加多个热度监测配置信息，用配置编号来区分不同配置；同时分级存储系统支持配置多个业务。为此每一个热度监测配置信息相关字段包括业务标识、热度调度时间、热度计算公式、分片在SSD闪存保持时间、SSD闪存最大占用空间、热度统计起始时间、热度统计结束时间。

表1是根据本申请的热度监测配置信息中的各主要字段含义说明表格，如表1所示：

表1

本配置基础字段是业务标识、热度更新时间段、权重的组合。此处所述业务标识是作为业务运行在存储系统中所使用资源的标识，业务可以通过目录名、全路径、相对路径、文件前缀或者后缀格式等区分不同业务类型，均可以作为本方案实施例子。一个业务标识可以包含多个目录或者全路径。热度更新时间段可以为一天中若干时间段，如10点-14点，也可以配置为节假日(每周六周日、五一、十一)等。同一业务不同的时间段即可以配置为独立配置进行独立管理，也可以依靠系统自动生成关联配置进行共享热度管理。关联配置权重可以手工配置，也可以在系统运行过程中，自动生成关联配置时，系统自动赋予初始值，并且进行自动调整。还可以包含优选字段关联标签、分片在SSD保持时间、可编译热度计算公式等组合在一起，完善本热度管理方案。

例如分级存储系统2个独立业务目录HOT和TV，表2是根据本申请实施例的热度监测配置信息示意表格，如下表所示，4个热度监测配置信息如下：

表2

配置1、配置2为关联配置，都作用于业务目录HOT，共享同一个待升级、待降级列表，和同一个热度管理任务。配置3和配置4为独立配置，每个配置均具有独立的待升级、待降级列表和单独的热度管理任务。结构图如图10。

不同时间段的关联配置可以系统在运行过程中自动生成。生成规则如下：自动生成的前提是配置中已有相关业务目录的配置。它根据热度统计模块获取业务目录读性能高的若干时间段。此时间段内的性能超出平时运行预设值的1倍或者2倍。系统运行过程中，可以依据次业务目录的配置和此时间段生成一个关联配置，并设置初始权重。这样此业务在存储系统中包含多个热度监测配置信息，每一个热度监测配置信息具有一定权重。存储系统根据热度统计模块获取多个统计周期内数据，可以自动调整关联配置权重。

热度管理模块：

分级存储系统中有多个业务目录，每一个业务目录可以配置多个热度监测配置信息。针对某个业务目录，就形成在某个时间点，需要更新保存多个配置生成的热度数据，为此元数据服务器在文件分片相关元数据中增加若干原始热度字段(如h1，h2，h3)，用以存储不同热度监测配置信息在同一个上报周期内原始热度信息；增加若干热度监测配置信息标签(如 tag1、tag2、tag3)，，对应原始热度字段对应哪个热度监测配置信息。

当应用程序通过read和sendfile等接口读取文件时，文件访问客户端计算原始读写次数、读写分片字节数，发送给元数据服务器。元数据服务器接收到更新分片热度消息，读取当前时间，查找对应文件所属目录，进而递归查找上层目录，针对每一级目录查看是否配置业务目录热度监测配置信息，获取当前时间在热度统计范围内的配置编号。分片相关元数据中获取一个空闲热度字段，填充当前配置编号和根据本配置计算得到的热度。

同一个业务目录关联配置可以有多个，它们共享一个热度管理任务。热度管理模块会定时扫描热度监测配置信息，对于每一个独立配置启动一个单独的热度管理任务，而对于关联配置热度管理只需要启动一个热度管理任务。当热度管理任务进入运行时间后，扫描当前业务目录下的分片相关元数据，获取当前时间，例如当前时间在9点-12点，热度每小时更新一次，当热度更新任务运行时，配置1和配置2均开始生效，按照计算公式计算热度，用benefit1、bennfit2表示。那么当前分片的实际热度benefit通过下面公式(1)进行修正：

benefit＝benefit1*w1+benefit2*w2，公式(1)

在上述公式中，其中w1为配置1关联配置权重，w2为配置2关联配置权重。w1、w2初始值为0.5，即默认关联配置1和配置2地位是一样的。

关联配置中每个配置的权重是可以通过系统自动调整的。当计算实际热度时，实际热度和相关配置中的热度最接近，并将此配置统计数目增加1。当热度统计模块本周期完成运行后，统计出此业务读取SSD闪存和机械硬盘性能数据，得出本轮热度调度实际效率(可以使用业务SSD闪存实际读取数据量/业务总读取数据量)。将调度实际效率与预设想调度效率如80％相比较，如果实际效率低于预设调度效率，则将关联配置中最关联的配置权重上调10％。如此经过几个周期热度调度和热度统计后，每一个周期内依据调整规则，调整关联配置权重。当几个运行周期后(即最关联权重达到1)热度调度和实际数据统计发现调度效率小于预设调度效率，则产生统计报告和告警，警示运维人员需要重新评估调度方案：调整热度统计时间、计算公式。

热度管理任务计算出当前分片热度后，判断热度是否大于热度阈值，若满足条件，则将其加入待升级列表。热度管理任务同时还处理已升级到SSD闪存的分片热度是否小于热度阈值，若满足条件则加入待降级队列。此处不再赘述。

热度调度模块

本模块定时取出每个热度监测配置信息，首先查看热度监测配置信息对应的待升级列表，依次取出热度最高的分片信息，检查分片所有副本是否全部仅在机械硬盘上，将满足升级条件分片的一个副本向存储服务器发送副本从机械盘迁移到SSD闪存请求；副本升级完成后，设置本分片当前升级时间点。然后，从待降级列表取出分片信息，检查分片的副本是否已经被降级到机械硬盘，并且是否已经超过SSD保持时间，将满足条件分片一个副本向存储服务器发送副本从SSD闪存迁移到机械盘请求。

热度统计模块具有的功能如下，统计每个调度周期热度监测配置信息中每一个业务目录下的所有分片读机械硬盘、SSD闪存的次数和读大小；计算热度监测配置信息目录中读分片命中SSD闪存的百分比，即热度调度效率；输出系统中不同业务目录SSD空间和分片在SSD中空间占用。上述统计信息被用来评估分级存储效率，和反馈给热度管理模块改进热度监测配置信息。

分片淘汰模块

分级存储系统多个业务目录同时进行热度调度和一个目录下有多个热度调度任务，而SSD闪存空间是有限的，会出现SSD闪存空间满，造成有些业务目录需要热度调度，但是SSD空间被其他业务占用,导致存储空间不够的问题。有两种解决方法：

①针对每一个业务或者热度监测配置信息，通过手工分配方式设置SSD最大占用空间。保证所有配置SSD空间占用最大值的累加值小于整体SSD空间。此种方法需要提前规划业务对存储系统的要求。

②多个业务使用分级存储系统，或者多个时间段关联热度监测配置信息无法精确SSD闪存空间占用，仅使用业务规划的最大空间时，存储系统中SSD闪存空间使用会超过SSD空间阈值时，需要启动强制淘汰功能。例如存储系统SSD闪存空间为24T，HOT业务规划SSD空间最大占用为13T，TV业务规划SSD空间最大14T；或者TV多个关联配置SSD空间最大占用大于24T。当存储系统SSD空间实际占用超过SSD空间阈值时，需要针对系统中所有业务和热度监测配置信息中分片占用进行分析和释放空间。淘汰策略可以有多种，优选淘汰每一个业务中热度低于热度阈值的分片，其次淘汰每一个业务中热度值小的分片。

下面说明一种多业务和多热度监测配置信息下分片淘汰的方法，主要过程为：

(1)首先查看当前超过SSD空间阈值的业务目录，遍历目录配置的所有热度监测配置信息。将每一个热度监测配置信息中降级列表中的分片，加入到分片淘汰模块。即时触发创建新的热度调度任务。

(2)如果SSD空间占用不满足条件，则查找其他业务目录的所有热度监测配置信息。重复第一步。

(3)当SSD空间占用依然不满足条件时，需要淘汰部分在SSD闪存中未过期的分片。按照业务目录SSD空间占用排序后，依次查找目录中的文件的分片，将超过SSD保持时间的分片，加入分片淘汰模块。

(4)最后依次淘汰超过SSD空间阈值中热度小的分片。

协调调度

不同业务的热度管理和热度调度是相互独立的，这样不同业务在同一时间同时使用分级存储系统。它们共享CPU、SSD闪存、机械硬盘、网络资源。例如在HOT对应业务访问高峰时间段，进行大量TV目录对应业务大量分片热度调度，会影响HOT目录的性能稳定性。因此对多个独立的热度管理进行协调调度，防止因其他业务后台调度原因，影响业务稳定性。主要功能有2个：

(1)接收热度统计模块通知业务高峰时间段，检查业务所有热度监测配置信息，自动生成关联热度监测配置信息，初始化初始权重。

(2)当热度统计模块发现某一个时间段内SSD闪存或者机械硬盘IO能力达到阈值，或者存储系统上报性能达到性能阈值时，会通知各个业务调度程序进行分片副本迁移速度控制。

图5是根据本申请实施例的多业务分级存储改进模块交互图，如图5所示，本方案通过增加若干管理模块和优化功能，以更好支持多业务使用同一分级存储系统，并且根据统计模块获取不同时间段自动生成关联热度监测配置信息，提供关联配置权重自动调整方法，以简化运维复杂性和提升调度效率。当元数据服务器针对相关模块优化后，支持多种业务热度管理，主要流程说明如下(见图5)：

(1)元数据服务器接收分片热度信息后，查找分片的文件所属业务目录，读取当前时间，递归查找上层目录，查看目录是否进行热度监测配置信息，进而得到当前时间在热度统计范围的配置编号，更新本配置对应热度。

(2)热度管理模块定时扫描元数据的分片，获取分片的文件所属业务标识，和当前时间，进而得到业务所有独立和关联配置。检查当前时间生效的是独立配置还是关联配置，进而计算分片热度。

(3)根据业务标识和当前热度监测配置信息，查找配置对应升级、降级列表。检查分片热度大于配置热度阈值且分片所有副本均位于机械硬盘上，则将相关元数据插入到待升级列表，并且重新将待升级列表排序。如果分片热度值小于热度阈值并且有副本在SSD闪存上，则将相关元数据插入待降级列表，并重新排序待降级列表。

(4)针对每一组独立热度监测配置信息，定时启动若干热度调度任务，依次检查相应升级、降级列表。向存储服务器发送分片副本迁移请求。

图6是根据本申请实施例的多业务分级存储新增模块交互图，如图6 所示，本方案新增权重管理、协调调度、分片淘汰模块是后台功能，每个模块功能实现前面已有描述，现在展示新增模块和已有模块进行交互流程。各新增模块交互，如图6所示：

权重管理模块与热度统计、热度监测配置信息交互步骤：

(1)热度统计完成周期内业务统计信息，发送通知给权重管理模块；

(2)权重管理获取业务所有关联热度监测配置信息，检索业务相应热点统计数据，计算关联配置权重；

(3)更新关联配置权重，并存入热度监测配置信息中，进行持久化存储。

协调调度模块与热度统计、热度调度、热度监测配置信息交互，主要功能流程：

(1)定时检查检查存储系统性能、SSD、机械硬盘命中情况，当系统繁忙时，通知所有业务正在进行热度调度任务，降低迁移速度。

(2)热度统计任务发现出现业务量高峰期，超出阈值设置，通知协调调度模块。

(3)协调调度模块获取业务高峰时间段，检查业务所有热度监测配置信息，自动生成关联热度监测配置信息，并初始化初始权重，存入热度监测配置信息中。

本申请所要解决的技术问题是：一套分布式存储系统承载多种业务，不同业务具有不同的访问热点和高峰时间段，并且不论是历史热度还是当前热度，不同时间段的热度贡献值是不同的。当存储系统中有多种业务和不同高峰时间段，现有技术在热度管理方面存在不足，和调度效率低的问题。因此分布式存储系统针对上述问题，提出一种分级存储装置，能够灵活的部署到分布式存储系统中，它支持多业务，并且自动生成多种不同时间段的关联热度监测配置信息，改进分级存储热度管理，并且自动依据热度统计生成关联热度监测配置信息，提供自动调整关联配置权重的方法，简化运维人员负担。

例子一，多业务热度监测配置信息和管理

上述分级存储系统除了大视频的点播、直播业务外，还可以承载网页视频缓存、小程序应用、邮箱备份等业务。这些业务与视频点播用户群、访问平率、高峰访问时间段等有很多差异。它们不能按照统一的热度管理进行分片副本迁移。那么按照每一个业务目录配置一个基础热度监测配置信息和若干关联热度监测配置信息。本文所述业务标识是作为业务运行在存储系统中所使用的资源标识，业务还可以通过全路径、相对路径、文件前缀或者后缀格式等区分不同业务类型的文件。另外所述时间段不仅仅可以每天某段时间间隔(每天9点-11点)，还可以按照天配置为节假日，如周六、周日、国庆(十月一日至十月七日)。例如针对另外一个邮箱业务，在同一存储系统增加如下配置：

配置4，作为MAIL应用基础热度监测配置信息，热度统计时间段每天8点-18点，热度更新周期为每一小时。

配置5，作为配置4的关联配置，热度统计时间段为早8点-早9点半，热度更新周期为每30分钟。

具体配置方式通过人机交互命令，或者交互界面。存储系统新增业务时，除了增加业务路径外，还需要执行多业务分级存储热度监测配置信息。下面介绍存储系统中多业务热度监测配置信息热度交互界面，例如增加业务TV时，增加热度监测配置信息部分参数配置如下图7所示，图7是根据本申请例子一的多业务热度监测配置信息界面示意图。

图8是根据本申请例子二的分级存储多业务列表示意图，如图8所示，下面展示存储系统中包含多个业务配置列表。

热度监测配置信息1为Mail业务，配置2、3为TV配置，是关联热度监测配置信息。配置1是独立热度监测配置信息，配置2、3是关联配置共享热度管理。不同业务之间的热度管理和热度调度是相互独立的，这样不同业务都可以同时使用分级存储系统。分级存储系统为了能够提供稳定的访问性能，和更好的控制系统硬件，需要对多个独立的热度管理进行协调调度。多个业务在存储系统中共享CPU、SSD闪存、机械硬盘、网络资源，不能因后台热度调度原因造成业务运行稳定性下降。

当热度统计模块发现某一个时间段内SSD闪存或者机械硬盘IO能力达到阈值，或者存储系统上报性能达到性能阈值时，会通知各个业务调度程序进行分片副本迁移速度控制。更常见因素是在某个业务高峰期，如电视观众在19点-20点点播节目时，其他业务在此时间内的需要降低热度管理和调度的速度。

例子二，关联热度监测配置信息生成

以内容分发网络为例，它通常提供用户直播、点播等业务，使用分级存储系统以提供高性能读IO和大容量能力。业务对存储系统主要要求有：大量读带宽、较低的延时以及较大存储容量。业务常见场景：一般时间段观众收看和点播电视节目比较平稳，但是在每天几个时间段和周末等特殊时段内集中观看节目，会触发存储系统业务高峰。以业务目录HOT为例，例如用户经常在11点-12点和晚19-21点点播节目，此时存储系统压力较大。如果能将很热的分片调度到SSD闪存中，那么可以提高存储系统的吞吐能力和较低延时。这段时间我们称作高峰期。其他时间段用户点播节目，存储系统的业务平稳。高峰期的热度管理和平时业务热度具有很大不同，不能以一套标准来判定。应用本方案，针对HOT目录可以配置3个以上的热度监测配置信息，如下：

配置1，热度统计时段(起始时间、结束时间，下同)配置为每天11-12点，热度更新时间为每半个小时，计算公式等不做特殊说明，以默认配置为例。

配置2，作为HOT目录基础热度监测配置信息，主要应用平常时段业务，热度统计时间段为早8点-晚23点，热度更新时间为每一个小时。

配置3，热度统计时间段为晚18-22点，热度更新时间为每半个小时。

说明：配置1作为独立配置。配置2、配置3设置为关联配置，初始权重分别为0.2和0.8。SSD存储空间占用依业务规划，同一业务关联热度监测配置信息无需精确设置此值，使用同一配置数据即可。其他配置不再赘述。

HOT业务3个配置在系统中逻辑结构如图8所示，业务目录HOT经过上述配置后，存储系统分配相应资源：生成相应待升级列表、待降级列表，创建调度任务等。其中配置1具有单独的待升级、待降级列表和热度管理任务。配置2、配置3共享一个待升级、待降级列表，并且它们有一个公共的热度管理任务会以配置2、配置3规则执行。

本实例还提供一种系统运行过程中，存储系统感知业务高峰时间段后，自动生成关联热度监测配置信息。当业务目录已有基础热度监测配置信息，系统根据热度统计模块统计业务高峰时段，生成业务目录的新增关联配置，并且设置已有热度监测配置信息和新增热度监测配置信息的权重。它可以帮助用户分析出业务高峰时段，并且生成新的关联热度监测配置信息，自动进行热度调度，简化运维人员配置复杂度。主要步骤有：

(1)系统运行一个完整热度调度周期和统计周期后，出现业务高峰时间段，超出平时访问量的预设值的N倍。并且遍历热度监测配置信息，没有发现相关时间段的关联热度监测配置信息。

(2)通知协调调度模块，生成新的关联配置。

(3)协调调度模块获取此业务目录和已存在的热度监测配置信息，和此时间段的统计信息，生成一个新增关联配置。新增关联配置热度统计时间设置为高峰业务时间段，热度更新时间等参数参照已存在热度监测配置信息，设置新增关联配置的权重。

(4)协调调度模块将新增关联配置加入到配置表中。

例子三，关联热度监测配置信息权重管理

同一个业务目录关联配置权重在存储系统初始化时指定，并且既可以在运维时修改，也可以在系统在运行过程中，依据热度统计模块数据，进行自动调整。本实例应用后，可以减少运维中参数调整和频繁升级版本。

热度统计模块统计周期内业务目录占用SSD空间和机械硬盘空间，业务读SSD闪存和机械硬盘的次数、字节数等，各关联配置计算获取的升级分片数目等。

关联配置的权重取值范围为[0,1]，初始化权重默认值等于1/关联配置数目。图9是根据本申请另例子三的权重管理流程示意图，如图9所示包括以下步骤：

步骤一，初始权重；

步骤二，热度统计任务完成对整个系统各项统计后，启动权重监控任务；

步骤三，查找热度配置中，每一组关联配置中最相关热度配置；

步骤四，设置最相关热度配置权重为原始值+增量权重W _d；

步骤五，下一个热度统计周期重复上述步骤，当某个热度配置权重达到阈值(如1)，但是与预设调度效率，产生统计报告或者告警。

权重管理流程的具体流程可以包括：存储系统统计模块通知协调调度模块，启动权重监控任务，以固定模式调整关联配置的权重。例如它以固定步长0.1进行调整，查找关联热度监测配置信息中本统计周期内最相关热度监测配置信息。最相关热度监测配置信息指在一个预设的统计周期内，某个配置中计算得到的升级分片数目和本热度管理任务实际升级的分片数目最接近的配置。然后将最相关热度监测配置信息中增量权重W _d，增加0.1。在下一个统计周期内，分析热度统计数据，进行调整权重。当最终几个运行周期(即最关联权重达到1)热度调度和实际数据统计发现调度效率小于预设调度效率，则产生统计报告和告警，自动生成高峰时间段的关联配置。

此外还支持当某个业务目录热度调度效率较平稳，超出业务性能需要时，它的相关关联配置权重设置为某个时间段内不需要调整，适用固定值。

例子四，演示分片淘汰模块。

本方案支持多个业务和单个业务配置多个热度监测配置信息。它们实际运行过程中共享SSD闪存，且具有独立热度管理和热度调度，会使SSD空间使用和释放造成一定问题。因此增加分配淘汰模块作为辅助，平滑适应多个热度管理和热度调度。

图11是根据本申请例子四的分片淘汰主要流程示意图，如图11所示，存储系统分片淘汰模块基本流程如下：

步骤一，遍历当前业务目录所有热度配置和热度统计，以SSD空间占用排序。取SSD空间占用最大热度配置，设置为当前热度配置。

步骤二，遍历当前热度配置降级列表，将分片按照热度排序，将其加入待淘汰列表。

步骤三，即时触发创建一个新热度调度。调度结束后，检查SSD闪存占用空间释放满足条件，即退出。

步骤四，SSD空间释放不满足条件时，将存储系统所有配置热度配置目录按SSD空间排序。针对每一个热度目录重复上述步骤。

步骤五，遍历热度配置的业务目录，查找分片是否在SSD闪存，且保持时间超过配置SSD保持时间，将过期分片加入待淘汰过期列表；未过期分片，加入未过期列表，并计算占用SSD空间。

步骤六，未过期分片，加入未过期列表，并计算占用SSD空间。判断SSD闪存占用是否满足条件，否则，依次将最小热度分片加入淘汰列表，触发创建一个新热度调度。

分片淘汰流程进一步可以包括以下步骤：

(1)遍历当前业务目录的所有热度监测配置信息和热度统计，按照实际占用SSD空间排序。

(2)取占用SSD空间占用最大的热度监测配置信息。遍历待降级队列，将分片按照热度排序，并将超过SSD保持时间的分片，加入待淘汰队列(淘汰队列参见图10，图10是根据本申请例子四的分级存储多目录配置热度管理和淘汰结构图)。

(3)即时触发创建新的热度调度，通过热度调度模块，将其从SSD闪存迁移到机械硬盘。

(4)取当前业务目录下一条热度监测配置信息，重复第二步。

(5)将所有分级存储热度监测配置信息目录按照实际SSD占用空间大小排序；遍历排序后的业务目录，取其中一个业务目录设置为当前业务目录。重复第一步。

(6)触发创建新的热度调度。SSD占用空间释放满足条件，即退出。

(7)取当前SSD空间占用最多业务目录，查找目录中文件的分片，检查分片副本是否在SSD闪存上，并且比较副本升级时间和SSD保持时间是否到期。将副本过期的分片，加入待淘汰过期候选队列；将未过期分片加入待淘汰未过期候选队列，并计算占用SSD空间，按照热度从小到大排列。

(8)从待淘汰过期候选队列取出分片。加入热度调度模块的降级队列。转第6步。

(9)从待淘汰未过期候选队列取出分片，当本队列的分片空间大于满足需要淘汰空间大小，每次将队列里面最小热度的分片淘汰出来。转第6步。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

实施例二

在本实施例中还提供了一种数据存储的装置，该装置设置为实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

根据本申请的另一个实施例，还提供了一种数据存储的装置，包括：

第一获取模块，设置为获取为第一业务设置的多个热度监测配置信息；

第二获取模块，设置为依据每个热度监测配置信息分别监测所述第一业务的热度值，其中，所述热度值用于指示所述第一业务被访问的频率；

选择模块，设置为依据所述多个热度监测配置信息对应的多个热度值，选择存储所述第一业务对应数据的位置，并存储所述数据。

通过本申请，为第一业务配置多个热度监测配置信息，依据每个热度监测配置信息中的配置对第一业务的热度进行监测，获取每个热度监测配置信息对应的热度值，然后依据该多个热度值选择存储第一业务对应数据位置，例如固态硬盘或者机械硬盘，可以是综合考虑多个热度值之后对第一业务对应数据进行迁移，也可以是独立地依据一个热度值对第一业务对应数据进行迁移，采用上述方案，一个业务配置有多个热度监测配置信息，可以更为准确及时地迁移该业务的热点数据至固态硬盘，大幅提升分级存储效率，解决了相关技术中由于热度值统计方式单一导致热点数据分级存储效果不理想的问题。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例三

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的程序代码：

S1，获取为第一业务设置的多个热度监测配置信息；

S2，依据每个热度监测配置信息分别监测所述第一业务的热度值，其中，所述热度值用于指示所述第一业务被访问的频率；

S3，依据所述多个热度监测配置信息对应的多个热度值，选择存储所述第一业务对应数据的位置，并存储所述数据。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本申请的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输装置以及输入输出设备，其中，该传输装置和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取为第一业务设置的多个热度监测配置信息；

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

通过本申请的上述实施例，为第一业务配置多个热度监测配置信息，依据每个热度监测配置信息中的配置对第一业务的热度进行监测，获取每个热度监测配置信息对应的热度值，然后依据该多个热度值选择存储第一业务对应数据位置，例如固态硬盘或者机械硬盘，可以是综合考虑多个热度值之后对第一业务对应数据进行迁移，也可以是独立地依据一个热度值对第一业务对应数据进行迁移，采用上述方案，一个业务配置有多个热度监测配置信息，可以更为准确及时地迁移该业务的热点数据至固态硬盘，大幅提升分级存储效率，解决了相关技术中由于热度值统计方式单一导致热点数据分级存储效果不理想的问题。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种数据存储的方法，包括：

获取为第一业务设置的多个热度监测配置信息；

依据每个热度监测配置信息分别监测所述第一业务的热度值，其中，所述热度值用于指示所述第一业务被访问的频率；

依据所述多个热度监测配置信息对应的多个热度值，选择存储所述第一业务对应数据的位置，并存储所述数据。
根据权利要求1所述的方法，其中，获取为第一业务设置的多个热度监测配置信息，包括：

获取所述热度监测配置信息中包括的以下信息至少之一：

热度更新周期、热度统计起始时间、热度统计结束时间。
根据权利要求1所述的方法，其中，依据每个热度监测配置信息分别监测所述第一业务的热度值，包括：

在每个热度监测配置信息对应的热度统计开始时间至热度统计结束时间内，统计每个热度更新周期中所述第一业务被访问的第一次数；

依据所述第一次数获取每个热度监测配置信息对应的所述第一业务的热度值。
根据权利要求1所述的方法，其中，依据每个热度监测配置信息分别监测所述第一业务的热度值，包括：

在所述多个热度监测配置信息中的第一热度监测配置信息针对所述第一业务的第一业务目录时，依据所述第一热度监测配置信息统计所述第一业务目录中一个或多个数据分片的热度值。
根据权利要求1所述的方法，其中，依据所述多个热度监测配置信息对应的多个热度值，选择存储所述第一业务对应数据的位置，并存储所述数据，包括：

在所述多个热度监测配置信息为关联的热度监测配置信息时，获取每个热度监测配置信息对应的热度值和预设权重的乘积；

获取所述多个热度监测配置信息的乘积的和值，依据所述和值选择存储所述第一业务对应数据的位置，并存储所述数据。
根据权利要求5所述的方法，其中，依据所述和值选择存储所述第一业务对应数据的位置，并存储所述数据，包括：

在所述和值大于热度阈值时，将所述第一业务对应的数据由机械硬盘迁移至固态硬盘；

在所述和值小于热度阈值时，将所述第一业务对应的数据由固态硬盘迁移至机械硬盘。
根据权利要求1所述的方法，其中，选择存储所述第一业务对应数据的位置，并存储所述数据，包括：

选择存储所述第一业务的第一数据分片的副本的固态硬盘或机械硬盘；

将所述副本存储至选定的固态硬盘或机械硬盘。
根据权利要求7所述的方法，其中，将所述副本迁移至固态硬盘之后，所述方法还包括：

在一个热度更新周期内，统计执行所述第一业务时读取所述固态硬盘和读取机械硬盘的次数比例；

在所述次数比例低于预设比例时，调整所述多个热度监测配置信息的预设权重以增加下一个热度更新周期对应的次数比例。
根据权利要求8所述的方法，其中，调整所述多个热度监测配置信息的预设权重以增加下一个热度更新周期对应的次数比例之后，所述方法包括：

通过多个热度更新周期的预设权重的调整后，检测到所述次数比例到达最大值；

在所述最大值仍小于所述预设比例时，生成统计报告并告警。
根据权利要求1所述的方法，其中，依据所述多个热度监测配置信息对应的多个热度值，选择存储所述第一业务对应数据的位置，包括：

在所述多个热度监测配置信息均为彼此独立的热度监测配置信息时，分别依据每个热度监测配置信息对应的热度值选择存储所述第一业务对应数据的位置。
根据权利要求1所述的方法，其中，依据所述多个热度监测配置信息对应的多个热度值，选择存储所述第一业务对应数据的位置，并存储所述数据之后，所述方法还包括：

实时统计所述第一业务被访问的第二次数，在所述第二次数符合预设条件时，自动生成所述第一业务的第二热度监测配置信息。
根据权利要求1所述的方法，其中，依据所述多个热度监测配置信息对应的多个热度值，选择存储所述第一业务对应数据的位置，并存储所述数据之后，所述方法还包括：

在存储有数据的第一硬盘的存储状态符合预设状态时，通过以下方式至少之一释放所述第一硬盘的存储空间：

将所述第一硬盘上存储的热度值低于热度阈值或者热度值最小的第二业务迁移出去；

将所述第一硬盘上存储的第二业务的热度值最小的数据分片迁移出去。
一种数据存储的装置，包括：

第一获取模块，设置为获取为第一业务设置的多个热度监测配置信息；

第二获取模块，设置为依据每个热度监测配置信息分别监测所述第一业务的热度值，其中，所述热度值用于指示所述第一业务被访问的频率；

选择模块，设置为依据所述多个热度监测配置信息对应的多个热度值，选择存储所述第一业务对应数据的位置，并存储所述数据。
一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至12任一项中所述的方法。
一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至12任一项中所述的方法。