WO2022121387A1

WO2022121387A1 - 数据存储方法、装置、服务器及介质

Info

Publication number: WO2022121387A1
Application number: PCT/CN2021/116105
Authority: WO
Inventors: 武金剑; 谢永恒; 万月亮
Original assignee: 北京锐安科技有限公司
Priority date: 2020-12-11
Filing date: 2021-09-02
Publication date: 2022-06-16
Also published as: CN112527760A

Abstract

一种数据存储方法、装置、服务器及介质。该数据存储方法包括：通过元数据网关获取待存储数据的数据信息（S110）；根据所述数据信息通过调度服务器将所述待存储数据发送至所述数据信息对应的存储服务器进行保存（S120）。

Description

数据存储方法、装置、服务器及介质

本申请要求在2020年12月11日提交中国专利局、申请号为202011461108.2的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据处理技术，例如涉及一种数据存储方法、装置、服务器及介质。

背景技术

随着科学技术的发展，大数据作为科技时代的产物，得到了广泛的应用。

在对大数据进行存储时，存储资源调度和数据存储资源未进行分离，导致当大数据业务处理所需存储资源调度能力和数据存储资源其中之一不足需要扩容时，因未进行分离，只能同时将二者扩容，导致硬件资源的浪费。

发明内容

本申请提供一种数据存储方法、装置、服务器及介质，以实现存储资源调度和数据存储资源进行分离，避免硬件资源浪费的效果。

提供了一种数据存储方法，该方法包括：

通过元数据网关获取待存储数据的数据信息；

根据所述数据信息通过调度服务器将所述待存储数据发送至所述数据信息对应的存储服务器进行保存。

还提供了一种数据存储装置，该装置包括：

数据信息获取模块，设置为通过元数据网关获取待存储数据的数据信息；

数据保存模块，设置为根据所述数据信息通过调度服务器将所述待存储数据发送至所述数据信息对应的存储服务器进行保存。

还提供了一种服务器，其中，所述服务器包括：

一个或多个处理器；

存储装置，设置为存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本申请任意实施例所提供的数据存储方法。

还提供了一种计算机可读存储介质，存储有计算机程序，其中，该计算机程序被处理器执行时实现如本申请任意实施例所提供的数据存储方法。

附图说明

图1是本申请实施例一中的一种数据存储方法的流程图；

图2是本申请实施例一中的基于纠删码算法的存储数据处理流程示意图；

图3是本申请实施例一中的根据数据名称进行存储处理的示意图；

图4是本申请实施例二中的一种数据存储方法的流程图；

图5是本申请实施例三中的一种数据存储装置的结构图；

图6是本申请实施例四中的一种服务器的结构示意图。

具体实施方式

下面结合附图和实施例对本申请进行说明。此处所描述的实施例仅仅用于解释本申请，而非对本申请的限定。为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

实施例一

图1为本申请实施例一提供的一种数据存储方法的流程图，本实施例可适用于对数据进行存储的情况，该方法可以由数据存储装置来执行，包括如下步骤。

S110、通过元数据网关获取待存储数据的数据信息。

根据不同的计算场景的需求对数据进行实时和离线计算，计算过程中或计算完成后将数据按数据类型存储到不同的数据库组件中，将数据进行保存时，需要通过存储资源调度将存储资源进行分配，存储资源调度与存储资源绑定，通过统一服务器实现上述功能，示例性的，通过Hadoop分布式文件系统(Hadoop Distributed File System，HDFS)架构中的另一种资源协调者(Yet Another Resource Negotiator，YARN)进行存储资源调度，YARN是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了好处，此时，存储资源调度与存储资源绑定，存储资源调度能力与存储资源往往不匹配，当其中之一不足需要扩容时，只能同时扩容，从而导致硬件资源浪费。故需将存储资源调度与存储资源进行分离，存储资源调度通过单独的资源调度服务器完成，存储功能通过单独的存储服务器完成，从而实现存储资源调度与存储资源的分离，避免硬件资源的浪费。

可选的，当需将存储资源调度与存储资源进行分离时，需要进行参数配置，第一步需启用HBase元数据网关开关，登录存储管理节点，通过可执行指令的界面执行命令打开共存元数据网关。第二步，配置将待存储数据转发至远端服务器进行存储的路由策略。第三步，修改HDFS的自定义参数，将符合自定义参数的待存储数据发送至远端服务器进行存储，修改自定义参数后重启服务器，以使所有服务器均获取配置的路由策略和修改的自定义参数。第四步，配置将待存储数据转发至本地服务器的路由策略。

可选的，通过核算调度服务器的中央处理器的核心数与相关方案的服务器的核心数进行对比和匹配。存储服务器的存储能力需要满足业务处理的存储容量需求，可以通过核算存储服务器的有效存储空间与原存储服务器的有效存储空间相对比。相关方案往往存在存储资源调度能力失配和存储资源具有过高冗余度的情况，中央处理器(Central Processing Unit，CPU)核心数和存储容量可根据业务分析或实测适度降低，从而减少硬件成本。

存储数据为元数据，元数据是描述数据属性和环境的信息的数据，通过元数据网关获取待存储数据的存储位置、数据名称、数据大小和数据版本等数据信息，在存储资源调度与存储资源分离后，通过元数据网关获取待存储数据的数据信息，以便将待存储数据保存至对应存储位置。元数据网关为上层大数据计算应用提供一个统一的文件系统访问入口，通过元数据网关识别数据要访问的存储服务器。

S120、根据数据信息通过调度服务器将待存储数据发送至所述数据信息对应的存储服务器进行保存。

通过元数据网关获取待存储数据的数据信息，调度服务器根据待存储数据的数据信息调配存储服务器对待存储数据进行保存。

可选的，数据信息包括：数据属性信息；所述存储服务器包括：大数据存储服务器和小数据存储服务器；所述根据所述数据信息通过调度服务器将所述待存储数据发送至所述数据信息对应的存储服务器进行保存，包括：根据所述数据属性信息通过所述调度服务器将所述待存储数据发送至所述大数据存储服务器或所述小数据存储服务器中进行保存。通过元数据网关获取的待存储数据的信息包括数据的大小，若为大数据量的数据，调度服务器调度大数据存储服务器存储待存储数据，若为小数据量的数据，调度服务器调度小数据存储服务器存储待存储数据。示例性的，如图2所示，大数据存储服务器可以是HDFS 的存储架构，它可以使用户在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力进行高速运算和存储，HDFS为海量的数据提供了存储，采用HDFS存储架构具有高容错性的特点，提高数据存储的安全性。小数据存储服务器可以采用分布式存储，也可以采用关系型存储等存储方式。

可选的，调度服务器包括：第一调度服务器和第二调度服务器；其中，所述第一调度服务器与所述大数据存储服务器对应；所述第二调度服务器与所述小数据存储服务器对应。调度服务器分为与大数据存储服务器对应的第一调度服务器和与小数据存储服务器对应的第二调度服务器。通过元数据网关获取待存储数据的大小信息，当待存储数据为大数据时，通过第一调度服务器进行存储资源的调度，将待存储数据存储到大数据存储服务器中。当待存储数据为小数据时，通过第二调度服务器进行存储资源调度，将待存储数据存储到小数据存储服务器中。

可选的，数据信息包括：数据名称信息；所述大数据存储服务器和所述小数据存储服务器包括：本地存储服务器和远程存储服务器；所述根据所述数据信息通过调度服务器将所述待存储数据发送至所述数据信息对应的存储服务器进行保存，包括：根据所述数据名称信息通过所述调度服务器将所述待存储数据发送至所述本地存储服务器或所述远程存储服务器中进行保存。通过元数据网关获取的数据信息还包括数据名称信息，存储地址包括本地服务器和远程服务器，调度服务器根据数据名称信息将待存储数据发送至本地服务器或远程服务器进行存储。示例性的，以test_开头+4位数字+01结尾的表写入远程服务器存储，其它名称的表写入本地的HDFS存储。如图3所示，test_202001写入远程存储服务器，test_202000写入本地的HDFS。

待存储文件会优先进行本地存储，远程存储的数据为只读数据。在业务上线调整阶段，将网关配置为透明转发到远端处理。一般在新老共存上线的改造的过程中临时使用。在上层应用都改造完成之后，再将路由策略修改为实际需要的方式。调度服务器在调度存储资源时会参考多个存储服务器的容量，根据多个存储服务器的剩余容量的绝对容量值或剩余容量占总容量的比率来调度存储资源，使多个存储服务器的存储资源保持均衡。

本实施例的技术方案，通过元数据网关获取待存储数据的数据信息；根据所述数据信息通过调度服务器将所述待存储数据发送至对应的存储服务器进行保存，解决了存储资源调度能力与存储资源往往不匹配，当其中之一不足需要扩容时，只能同时扩容，从而导致硬件资源浪费的问题，实现存储资源调度与存储资源的分离，避免硬件资源的浪费的效果。

实施例二

图4为本申请实施例二提供的一种数据存储方法的流程图，本实施例是在上一实施例的基础上进行说明，数据信息还包括：数据类型；所述根据所述数据信息通过调度服务器将所述待存储数据发送至所述数据信息对应的存储服务器进行保存，包括：通过所述调度服务器将所述待存储数据发送至所述存储服务器中与所述数据类型对应的数据库中保存。根据数据类型将待存储数据保存至对应的数据库中，便于存储数据的管理。

如图4所示，包括如下步骤。

S210、通过元数据网关获取待存储数据的数据信息，数据信息包括：数据类型。

S220、通过调度服务器将待存储数据发送至存储服务器中与数据类型对应的数据库中保存。

通过元数据网关获取的待存储数据的数据信息还包括数据类型。根据数据类型将待存储数据存储至存储服务器中的对应数据库中，可选的，数据库组件包括并不限于HBase、Druid、Greenplum、JanusGraph和Solr，以满足不同数据类型的数据进行存储。

可选的，通过调度服务器将所述待存储数据发送至所述存储服务器中与所述数据类型对应的数据库中保存，包括：调整所述存储服务器将待存储数据划分为数据块和校验块的比例；根据所述比例通过所述存储服务器将所述待存储数据划分为第一预设数量的数据块和第二预设数量的校验块；根据所述数据类型将所述数据块和所述校验块保存至所述数据类型对应的数据库中。

副本是在分布式存储系统下的一种数据可靠性保护技术，通过将相同的数据在不同的节点上存储多份完全相同的数据内容，支持在单点故障的情况下，比如节点或者硬盘故障，可以通过读取冗余的副本来实现外部存储请求不中断。纠删码是另外一种实现数据保护的机制，是一种数据保护方法，它将数据分割成片段，把冗余数据块扩展、编码，并将冗余数据块存储在不同的位置，比如磁盘、存储节点或者其它地理位置。相较于副本而言，纠删码具有更高存储利用率，能降低成本。在对数据进行存储时，需将数据划分为数据块和校验块，当有数据块丢失时，可通过其他数据块和校验块将数据进行恢复，从而防止数据丢失。

可选的，调整原有的待存储数据划分为数据块和校验块的比例，将数据块调整为第一预设数量，校验块调整为第二预设数量。将待存储数据根据新调整的数据块和校验块的比例进行划分，以提高磁盘的利用率。可选的，调整所述存储服务器将待存储数据划分为数据块和校验块的比例，包括：提高所述存储服务器将待存储数据划分为数据块的数量，以提高数据块的比例。示例性的，原数据块与校验块的比例为4:2时，磁盘的利用率为66.66％，原数据块与校验块的比例为5:1时，磁盘的利用率为83％，将数据块与校验块的比例调整为22:2，此时，磁盘的利用率为91.67％。提高数据块的比例可最大程度降低大型数据中心的设备规模及磁盘可利用空间。校验块可设置为1个或2个，校验块的数量需小于数据块的数量，校验块的个数可根据存储服务器的数量决定，校验块设置为2个时，其中一个校验块为备份校验块，当一个校验块损坏或丢失时，另一个校验块开始启用。

本实施例的技术方案，通过元数据网关获取待存储数据的数据信息；数据信息还包括：数据类型；调度服务器将所述待存储数据发送至所述存储服务器中与所述数据类型对应的数据库中保存，解决了存储资源调度能力与存储资源往往不匹配，当其中之一不足需要扩容时，只能同时扩容，从而导致硬件资源浪费的问题，实现存储资源调度与存储资源的分离，避免硬件资源的浪费的效果。

实施例三

图5为本申请实施例三提供的一种数据存储装置的结构图，该数据存储装置包括：数据信息获取模块310和数据保存模块320。

其中，数据信息获取模块310，设置为通过元数据网关获取待存储数据的数据信息；数据保存模块320，设置为根据所述数据信息通过调度服务器将所述待存储数据发送至所述数据信息对应的存储服务器进行保存。

可选的，数据信息包括：数据属性信息；所述存储服务器包括：大数据存储服务器和小数据存储服务器。

在上述实施例的技术方案中，数据保存模块320是设置为根据所述数据属性信息通过所述调度服务器将所述待存储数据发送至所述大数据存储服务器或所述小数据存储服务器中进行保存。

可选的，调度服务器包括：第一调度服务器和第二调度服务器；其中，所述第一调度服务器与所述大数据存储服务器对应；所述第二调度服务器与所述小数据存储服务器对应。

可选的，数据信息包括：数据名称信息；所述大数据存储服务器和所述小数据存储服务器包括：本地存储服务器和远程存储服务器；

在上述实施例的技术方案中，数据保存模块320还设置为根据所述数据名称信息通过所述调度服务器将所述待存储数据发送至所述本地存储服务器或所述远程存储服务器中进行保存。

可选的，数据信息还包括：数据类型；

在上述实施例的技术方案中，数据保存模块320还设置为通过调度服务器将所述待存储数据发送至所述存储服务器中与所述数据类型对应的数据库中保存。

在上述实施例的技术方案中，数据保存模块320，包括：

比例调整单元，设置为调整所述存储服务器将待存储数据划分为数据块和校验块的比例；

存储数据划分单元，设置为根据所述比例通过所述存储服务器将所述待存储数据划分为第一预设数量的数据块和第二预设数量的校验块；

数据保存单元，设置为根据所述数据类型将所述数据块和所述校验块保存至所述数据类型对应的数据库中。

在上述实施例的技术方案中，比例调整单元，包括：

数据块数量提高子单元，设置为提高所述存储服务器将待存储数据划分为数据块的数量，以提高数据块的比例。

本申请实施例所提供的数据存储装置可执行本申请任意实施例所提供的数据存储方法，具备执行方法相应的功能模块和效果。

实施例四

图6为本申请实施例四提供的一种服务器的结构示意图，如图6所示，该服务器包括处理器410、存储器420、输入装置430和输出装置440；服务器中处理器410的数量可以是一个或多个，图6中以一个处理器410为例；服务器中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接，图6中以通过总线连接为例。

存储器420作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序以及模块，如本申请实施例中的数据存储方法对应的程序指令/模块(例如，数据存储装置中的数据信息获取模块310和数据保存模块320)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块，从而执行服务器的多种功能应用以及数据处理，即实现上述的数据存储方法。

存储器420可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器420可包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可设置为接收输入的数字或字符信息，以及产生与服务器的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。

实施例五

本申请实施例五还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种数据存储方法，该方法包括：

通过元数据网关获取待存储数据的数据信息；

本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本申请任意实施例所提供的数据存储方法中的相关操作。

本申请可借助软件及通用硬件来实现，也可以通过硬件实现。本申请可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请多个实施例所述的方法。

上述数据存储装置的实施例中，所包括的多个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，多个功能单元的名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

Claims

一种数据存储方法，包括：

通过元数据网关获取待存储数据的数据信息；

根据所述数据信息通过调度服务器将所述待存储数据发送至所述数据信息对应的存储服务器进行保存。
根据权利要求1所述的方法，其中，所述数据信息包括：数据属性信息；所述存储服务器包括：大数据存储服务器和小数据存储服务器；

所述根据所述数据信息通过调度服务器将所述待存储数据发送至所述数据信息对应的存储服务器进行保存，包括：

根据所述数据属性信息通过所述调度服务器将所述待存储数据发送至所述大数据存储服务器或所述小数据存储服务器中进行保存。
根据权利要求2所述的方法，其中，所述调度服务器包括：第一调度服务器和第二调度服务器；

其中，所述第一调度服务器与所述大数据存储服务器对应；所述第二调度服务器与所述小数据存储服务器对应。
根据权利要求2所述的方法，其中，所述数据信息包括：数据名称信息；所述大数据存储服务器和所述小数据存储服务器包括：本地存储服务器和远程存储服务器；

所述根据所述数据信息通过调度服务器将所述待存储数据发送至所述数据信息对应的存储服务器进行保存，包括：

根据所述数据名称信息通过所述调度服务器将所述待存储数据发送至所述本地存储服务器或所述远程存储服务器中进行保存。
根据权利要求1所述的方法，其中，所述数据信息包括：数据类型；

所述根据所述数据信息通过调度服务器将所述待存储数据发送至所述数据信息对应的存储服务器进行保存，包括：

通过所述调度服务器将所述待存储数据发送至所述存储服务器中与所述数据类型对应的数据库中保存。
根据权利要求5所述的方法，其中，所述通过所述调度服务器将所述待存储数据发送至所述存储服务器中与所述数据类型对应的数据库中保存，包括：

调整所述存储服务器将所述待存储数据划分为数据块和校验块的比例；

根据所述比例通过所述存储服务器将所述待存储数据划分为第一预设数量的数据块和第二预设数量的校验块；

根据所述数据类型将所述数据块和所述校验块保存至所述数据类型对应的数据库中。
根据权利要求6所述的方法，其中，所述调整所述存储服务器将所述待存储数据划分为数据块和校验块的比例，包括：

提高所述存储服务器将所述待存储数据划分为所述数据块的数量，以提高所述数据块的比例。
一种数据存储装置，包括：

数据信息获取模块，设置为通过元数据网关获取待存储数据的数据信息；

数据保存模块，设置为根据所述数据信息通过调度服务器将所述待存储数据发送至所述数据信息对应的存储服务器进行保存。
一种服务器，包括：

一个或多个处理器；

存储装置，设置为存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一项所述的数据存储方法。
一种计算机可读存储介质，存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的数据存储方法。