WO2020191930A1

WO2020191930A1 - 一种有效降低容器化关系型数据库i/o消耗的方法

Info

Publication number: WO2020191930A1
Application number: PCT/CN2019/092672
Authority: WO
Inventors: 李鹏; 杨菲; 王汝传; 徐鹤; 李超飞; 樊卫北; 朱枫; 程海涛
Original assignee: 南京邮电大学
Priority date: 2019-03-25
Filing date: 2019-06-25
Publication date: 2020-10-01
Also published as: CN109933312B; JP2022505720A; CN109933312A

Abstract

本发明公开了一种有效降低容器化关系型数据库I/O消耗的方法，本发明方法通过在RDS实例层和存储层之间通过在kubernetes和Docker平台搭建基于memcached的高可用分布式缓存架构；RDS实例层需要写入到存储层的数据先写入所述高可用分布式缓存架构持久保存，再由所述高可用分布式缓存架构刷新到存储层；并由所述高可用分布式缓存架构缓存RDS实例层中的热点数据；本发明可利用高可用分布式缓存架构阻挡了RDS实例层和存储层之间的直接交互，能有效降低RDS实例层中I/O的消耗，同时，能够降低网络I/O距离。

Description

一种有效降低容器化关系型数据库I/O消耗的方法

技术领域

本发明属于容器虚拟化的性能优化技术领域，具体涉及一种有效降低容器化关系型数据库I/O消耗的方法。

背景技术

随着信息技术的快速发展，集群系统的规模日益庞大，如何充分高效的使用集群系统资源成为急需解决的问题。由于传统虚拟化技术存在实施难度高、更新和升级困难等问题，容器化成为了传统虚拟化技术的替代，具有轻量级，共享资源及快速扩展等优点。容器可以解决许多分布式应用挑战，例如便携性和性能开销。不过使用容器作为大规模系统的基础技术时其资源管理领域面临许多挑战。Kubernetes是一个在平台即服务(PaaS)云中实现基于容器部署的系统，是业界广泛认可的docker集群解决方案，它可以部署云原生应用程序，是一个由(微)服务组成的分布式和水平可扩展系统，具有弹性和弹性支持等功能。云行业对kubernetes和Docker的组合接受程度超乎想象，并逐渐将其引入RDS(Relational Database Service，关系型数据库服务)领域，但数据库作为一种有状态的应用，使用容器部署时，必须考虑数据持久化问题，就出现了本地存储和远程存储(分离架构的原因)：Kubernetes提供的volume类型中的emptyDir或hostPath(本地存储)方式，会导致容器在重启或漂移后无法保留之前的数据，存储容量受限于单个node节点的容量，以及RDS实例部署节点选择受限于底层存储介质(SSD/HDD)；而Kubernetes提供的volume类型中的云存储以及分布式存储方式都可以实现数据的持久存储，这种将数据持久化到远程存储端的方式便利用了计算与存储分离架构。计算与存储分离最大的优势就是：利用volume将有状态的数据挂载到存储层，RDS实例部署时，不需要像local方式去感知Node节点的存储介质，只需要调度到满足计算资源(requests、limits)要求的Node节点，数据库实例启动时，只需在存储层挂载匹配的volume即可，显著的提高了数据库容器实例的部署密度和计算资源的利用率，同时架构也清晰，且存储容量扩展方便。这种分离架构与本地存储(local)方式相比，需要进行远程的数据传输，单路I/O多了网络开销，较local方式请求响应时间增加，对数据库这种延时敏感型应用,网络延时会极大影响数据库的性能，导致业务系统的服务质量低下，若在高密度部署的场景,可能导致计算资源和存储资源利用不充分。

互联网的飞速发展以及业务的不断扩张，使得数据量急剧膨胀，单个微服务通常对应单独的数据库，这样一个大型应用程序通常由多个库来分担庞大的数据量，同时可能会有多个备份实例，导致数据库实例数量庞大，此时计算与存储分离架构面临多个实例需要将数据持久保存到存储层，造成网络I/O开销，尤其在RDS实例层(平台中所有的RDS实例)高度并发访问远端存储系统场景，网络带宽成为性能瓶颈，网络流量消耗剧增。同时，在存储层引入分布式存储时，分布式存储系统会把计算机系统的两大瓶颈点(磁盘I/O和网络I/O)引入业务系统，进一步加剧分离架构的I/O开销。

现有的优化计算与存储分离架构性能的方法：(1)针对RDS实例层进行的优化：数据库实例可以通过优化事务commit时写Redo的速度来提高I/O吞吐，以及数据库读写分离，DB拆分等；(2)针对存储层进行优化：存储层的多副本(replicas)写入设计中采用副本达到多数即返回策略，硬件升级，或在存储层采用流量控制设计。这些方法不仅成本高昂，而且对于存储分离架构的性能很难达到数量级上的提升，无法满足要求。

发明内容

针对上述现有的优化计算与存储分离架构性能中成本高、性能提升不明显的问题，本发明于提出一种有效降低容器化关系型数据库I/O消耗的方法，该方法通过在RDS实例层和存储层之间加入高可用分布式缓存来实现保存数据采用计算与存储分离架构后造成的I/O开销，具体技术方案如下：

一种有效降低容器化关系型数据库I/O消耗的方法，所方法包括：

S1、在RDS实例层和存储层之间通过在kubernetes和Docker平台搭建基于memcached的高可用分布式缓存架构：

S11、在client端memcached存储数据的Key值前加上namespace_name前缀；

S12、制定所述高可用分布式缓存架构中的libevent、memcached、repcached、magent组件相关组件的容器镜像：libevent+magent和libevent+memcache+repcached；

S13、使用StorageClass在存储层动态创建Persistent Volume，并基于存储层协议在所述高可用分布式缓存架构中创建一个共享存储进行动态分配卷，标明存储层创建好的共享路径以及env中指定provisioner_name；

S14、基于所述容器镜像：libevent+magent和libevent+memcache+repcached部署memcached master容器、memcached slave容器和memcached magent容器，将所述memcached master容器和memcached slave容器设置在不同node节点上；

S15、在所述高可用分布式缓存架构中定义一个svc.yaml文件，并在所述svc.yaml文件中设置与每一个memcached pod对应的Persistent Volume；

S2、RDS实例层需要写入到存储层的数据先写入所述高可用分布式缓存架构持久保存，再由所述高可用分布式缓存架构刷新到存储层；

S3、由所述高可用分布式缓存架构缓存RDS实例层中的热点数据。

进一步的，所述RDS实例层、高可用分布式缓存架构和存储层之间的数据访问模式为串联模式；且所述RDS实例层在所述高可用分布式缓存架构上直接进行读写操作。

进一步的，所述高可用分布式架构通过所述Persistent Volume按照指定周期大小进行数据刷新。

本发明的有效降低容器化关系型数据库I/O消耗的方法，通过在RDS实例层和存储层之间在kubernetes和Docker平台搭建基于memcached的高可用分布式缓存架构，并且将RDS实例层、高可用分布式缓存架构和存储层之间的数据交互方式设置成串联方式，能够有效降低网络I/O距离；通过高可用分布式架构持久保存RDS实例层中的数据，并由高可用分布式缓存架构将数据刷新到存储层，一次实现RDS实例层和存储层之间的数据交互，能有效降低RDS中的I/O消耗；与现有技术相比，本发明的有益效果为：高可用性：高可用分布式缓存架构的设计考虑了容灾问题，使用主从复制且主从不在同一节点的方式部署，可实现数据备份以及缓存实例数据同步；轻量特性：高可用分布式缓存架构使用容器封装memcache应用，实现快速分发和部署，并利用kubernetes技术部署分布式系统的方法，实现对各实例的管理简单化。

附图说明

图1是采用本发明实施例中基于kubernetes和Docker平台采用高可用分布式架构的完成架构图示意；

图2是本发明实施例中所述RDS实例层缓存模式示意图；

图3是本发明实施例中所述高可用分布式架构的组成结构图示意；

图4是本发明实施例中所述RDS实例层写请求的处理流程图图示意；

图5是本发明实施例中所述RDS实例层读请求的处理流程图图示意。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

结合图1～图5，在本发明实施例中，提供了一种有效降低容器化关系型数据库I/O消耗的方法，具体的，方法在RDS实例层和存储层之间通过在kubernetes和Docker平台搭建基于memcached的高可用分布式缓存架构；RDS实例层需要写入到存储层的数据先写入高可用分布式缓存架构持久保存，再由高可用分布式缓存架构刷新到存储层，并由高可用分布式缓存架构缓存RDS实例层中的热点数据。

在本发明实施例中，RDS实例层、高可用分布式缓存架构和存储层之间的数据访问模式为串联模式；且RDS实例层在高可用分布式缓存架构上直接进行读写操作；基于 memcached的高可用分布式缓存架构的搭建过程包括：首先，在client端memcached存储数据的Key值前加上namespace_name前缀；具体的，选择memcached的一致性hash算法为数据进行水平分片，在kubernetes中服务可能被定义在不同的namespace中，为避免不同namespace中出现相同的key值，需要为每个namespace单独进行数据分片，即每一条记录都要有一个全局唯一的主键，在client端，将key的规则设计为：key＝namespace_name+value_key，其中namespace_name代表命名空间的字符串，value_key代表命名空间内的缓存数据的key值；并制定高可用分布式缓存架构中的libevent、memcached、repcached、magent组件相关组件的容器镜像：libevent+magent和libevent+memcache+repcached。

然后，使用StorageClass在存储层动态创建Persistent Volume，并基于存储层协议在高可用分布式缓存架构中创建一个共享存储进行动态分配卷，标明存储层创建好的共享路径以及env中指定provisioner_name；同时，基于容器镜像：libevent+magent和libevent+memcache+repcached部署memcached master容器、memcached slave容器和memcached magent容器，将memcached master容器和memcached slave容器设置在不同node节点上；其中，memcached作为有状态的应用，每个实例都需要具备唯一的标识，并且各实例还有启动顺序的要求，因此采用StatefulSet资源对象创建magent和memcached实例，各容器实例顺序启动，生成的pod顺序从0到n-1：memcached master容器和memcached slave容器使用相同的镜像，但是为memcached master容器和memcached slave容器分别创建statefulset文件。memcached master容器定义文件中指出生成的memcached实例名称为memcached master容器，设置服务port和同步port两种端口，参数TaintBasedEvictions设置为true，用以控制memcached master容器在不同的node节点上生成，在容器模板的command处，定义memcached master容器启动命令并设置replication:listen；memcached slave容器定义文件中指出生成的pod名称为memcached slave容器以及两种端口，设置TaintBasedEvictions参数为true后，在command中添加slave的启动脚本，其中指定相同序号的master和slave不能再同一个node节点启动，执行启动命令前需要匹配和slave实例具有相同编号的master，然后执行启动命令并设置：replication:accept(peer＝master-x)replication:marugoto copying replication:start优选的，memcached master容器和memcached slave容器的定义文件中还需设置volumeClaimTemplates(持久存储)，使其指向创建好的共享路径。

在创建magent实例时，首先匹配与magent实例编号相同的master和slave，在启动命令中指定-s为master-x，-b为slave-x。

最后，在高可用分布式缓存架构中定义一个svc.yaml文件，并在svc.yaml文件中设置与每一个memcached pod对应的Persistent Volume。

具体的，为使memcached client能发现magent，需要为magent创建svc.yaml，指定全局唯一的服务名，以及服务端口；并修改key值规则的memcache(client)镜像；基于此创建headless service指定该共享缓存的服务名，以及提供服务的port；通过修改RDS实例层的环境变量env，其中env指定该共享缓存服务的服务名和端口，RDS实例层通过服务名和端口号对共享缓存进行访问；而当存储层在不加处理时，不能处理缓存层发送的读请求的，此时，需要存储层导入memcached插件libmemcached.so，由libmemcached.so加入配置信息并激活，其中，写入存储层的数据通过provisioner方式传递给存储层，且存储层的数据经过libmemcached.so插件中的函数进行读、写、增、删等操作。

在本发明实施例中，RDS实例层将读写请求通过环境变量env：service_name和port指定发送给memcached client，client端通过一致性hash算法将读写请求转发给对应的memcached magent容器，再由memcached magent容器将请求传递给memcached；具体的，通过一致性hash算法可将读写请求对应的缓存数据的key和memcached magent容器分别经过hash映射到环形hash空间，缓存key和magent容器的映射关系为：hash(key)在顺时针方向遇到的第一个magent容器hash(magent x)；其中，如果是写请求，memcached magent容器写入数据到memcached master容器和memcached slave容器；如果是读请求，将请求发送给角色为memcached master容器的memcached实例；每个Memcached实例的数据通过volume定义定期刷新到存储层Persistent Volume。

此外，在基于memcached的高可用分布式集群架构基础上，加入repcached实现缓存实例单主单从之间的数据同步和备份，memcached master容器和memcached slave容器都可读可写，当memcached master容器出现宕机或暂时不可用，memcached slave容器自动listen成为master，并等待新实例的创建；加入memcached magent容器实现分布式集群的负载均衡，memcached client连接memcached magent容器，memcached magent容器连接memcached master容器和memcached slave容器，每次写数据都会写到memcached master容器和memcached slave容器上，当memcached master容器和memcached slave容器的角色互换时，对于client来说多个memcached magent容器之间的排列顺序没有变，不影响数据的迁移。

优选的，本发明中RDS实例层访问共享缓存的方式是串联模式，通过串联模式可完全阻挡了各RDS实例层和存储层之间的直接的数据交互，当RDS实例层与存储层需要进行数据交互的访问请求时，所有的访问请求全部发送到共享缓存，RDS实例层写数据被直接写入共享缓存，读请求也直接发送给共享缓存，当共享缓存中没有要读取的数据时，请求发送给存储层，由存储层查找对应的数据，先写入共享缓存，再由共享缓存返回。

优选的，本发明中的高可用分布式架构通过Persistent Volume对数据进行刷新处理，且本发明对于数据刷新的大小并不做固定和限制，可按照实际情况进行设定。

以上仅为本发明的较佳实施例，但并不限制本发明的专利范围，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本发明说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本发明专利保护范围之内。

Claims

一种有效降低容器化关系型数据库I/O消耗的方法，其特征在于，所方法包括：

S1、在RDS实例层和存储层之间通过在kubernetes和Docker平台搭建基于memcached的高可用分布式缓存架构：

S11、在client端memcached存储数据的Key值前加上namespace_name前缀；

S12、制定所述高可用分布式缓存架构中的libevent、memcached、repcached、magent组件相关组件的容器镜像：libevent+magent和libevent+memcache+repcached；

S13、使用StorageClass在存储层动态创建Persistent Volume，并基于存储层协议在所述高可用分布式缓存架构中创建一个共享存储进行动态分配卷，标明存储层创建好的共享路径以及env中指定provisioner_name；

S14、基于所述容器镜像：libevent+magent和libevent+memcache+repcached部署memcached master容器、memcached slave容器和memcached magent容器，将所述memcached master容器和memcached slave容器设置在不同node节点上；

S15、在所述高可用分布式缓存架构中定义一个svc.yaml文件，并在所述svc.yaml文件中设置与每一个memcached pod对应的Persistent Volume；

S2、RDS实例层需要写入到存储层的数据先写入所述高可用分布式缓存架构持久保存，再由所述高可用分布式缓存架构刷新到存储层；

S3、由所述高可用分布式缓存架构缓存RDS实例层中的热点数据。
如权利要求1所述的有效降低容器化关系型数据库I/O消耗的方法，其特征在于，所述RDS实例层、高可用分布式缓存架构和存储层之间的数据访问模式为串联模式；且所述RDS实例层在所述高可用分布式缓存架构上直接进行读写操作。
如权利要求1所述的有效降低容器化关系型数据库I/O消耗的方法，其特征在于，所述高可用分布式架构通过所述Persistent Volume按照指定周期大小进行数据刷新。