WO2016188280A1

WO2016188280A1 - 数据库分表的写入方法及装置

Info

Publication number: WO2016188280A1
Application number: PCT/CN2016/080016
Authority: WO
Inventors: 何健超
Original assignee: 阿里巴巴集团控股有限公司; 何健超
Priority date: 2015-05-25
Filing date: 2016-04-22
Publication date: 2016-12-01
Also published as: CN106294423A

Abstract

本申请提供一种数据库分表的写入方法，包括：获取各个分表所属的数据库及其访问参数；采用一定的分配规则，根据将写入数据库的记录的至少一个字段值确定要写入的分表；基于所确定的分表所属数据库的访问参数，将所述记录写入到所确定的分表中。通过本申请的技术方案，提高了大规模数据回流到分表的效率，并且能够利用分配规则对数据进行灵活管理。

Description

数据库分表的写入方法及装置

技术领域

本申请涉及数据处理技术领域，尤其涉及一种数据库分表的写入方法及装置。

背景技术

随着信息技术的发展，越来越多的互联网应用都涉及到海量的数据存储和访问。数据通常以表的形式存储在数据库中，而表的容量、数据库的容量和会受到服务器硬件资源的限制。当表中的数据规模随着业务日益增长到一定程度后，常常需要将表拆分为多个数据库中的多个分表(分库分表)，以维持对表中数据进行操作时的性能。

在大数据时代下，数据需要不断流转、交换才能价值最大化。在企业的数据仓库、商业智能建设中，通常会把存放于各种数据库的在线数据抽取到离线的存储平台、计算平台进行统一加工处理；另一方面，也会把离线的存储平台、计算平台或其他源头的数据写入到在线数据库中。

现有技术中，如果要写入的表为分库分表的形式，则需要通过数据库中间件来实现写入功能。数据库中间件对应用层屏蔽了分库分表，应用层不清楚分库分表的组织形式，也不清楚数据究竟写入了哪个分表中。通常这对于在线应用而言是十分友好的：屏蔽掉了分库分表的繁琐细节，只相当于对一张逻辑表进行读写操作。但是对于离线的大批量数据回流(即把数据写入数据库)的场景而言，通过中间件写入速度较慢，难以达到理想的性能要求，并且由于无法确定所写入的分表而不能灵活的管理数据。

发明内容

有鉴于此，本申请提供一种数据库分表的写入方法，包括：

获取各个分表所属的数据库及其访问参数；

采用一定的分配规则，根据将写入数据库的记录的至少一个字段值确定要写入的分表；

基于所确定的分表所属数据库的访问参数，将所述记录写入到所确定的分表中。

本申请还提供了一种数据库分表的写入装置，包括：

拓扑及参数单元，用于获取各个分表所属的数据库及其访问参数；

记录分配单元，用于采用一定的分配规则，根据将写入数据库的记录的至少一个字段值确定要写入的分表；

记录写入单元，用于基于所确定的分表所属数据库的访问参数，将所述记录写入到所确定的分表中。

由以上技术方案可见，本申请的实施例中采用分配规则来确定将记录写入哪个分表，并通过分表所属数据库的访问参数来完成到所确定分表的写入作，通过直接对分表进行写入操作，提高了大规模数据回流到分表的效率，并且能够利用分配规则对数据进行灵活管理。

附图说明

图1是本申请实施例中数据库分表的写入方法的流程图；

图2是本申请应用示例中数据库分表的写入过程的示意图；

图3是应用本申请实施例的主机的一种硬件结构图；

图4是本申请实施例中一种数据库分表的写入装置的逻辑结构图。

具体实施方式

本申请的实施例中提出一种数据库分表的写入方法，能够实现在数据回流的场景中根据一定的分配规则将数据分配并写入到各个分表中，以解决现有技术存在的问题。本申请实施例中的方法可以应用在应用层软件中，也可以应用在可供应用层软件调用以实现分表数据写入的软件中。本申请实施例的流程如图1所示。

步骤110，获取各个分表所属的数据库及其访问参数。

待写入数据的表拆分而成的所有分表可能在一个数据库中，也可能在多个数据库中。为了将数据写入到确定的分表中，需要得知每个分表所属的数据库，以及访问这个或这些数据库所需的访问参数。访问数据库所需的访问参数往往因数据库的类型和数据库在网络中的位置不同而不同，例如，对非本地(即需要通过网络访问)的关系型数据库，该数据库的访问参数通常包括该数据库所在服务器的IP(Internet Protocol，互联网协议)地址、该数据库使用的端口号和数据库名称。

实际应用中，不同的数据库类型，其访问参数有不同的具体格式，但是通常都需要提供数据库的IP、端口号和数据库名称。其中，一些类型的数据库为了简化，提供了默认端口号，当访问参数中不包括端口号时，可以使用默认端口号。比如通常mysql数据库的连接串是：jdbc:mysql://ip:port(可以不填写端口，默认为3306)/数据库名称；oracle数据库的连接串是：jdbc:oracle:thin:@ip:port(可以不填写端口，默认为1521):数据库名称。

所有分表所属的数据库及其访问参数可以由数据库管理软件自动生成，也可以由系统管理员手动生成，还可以由系统管理员以管理软件自动生成的信息为基础进行修改后生成，本申请的实施例不做限定。

步骤120，采用一定的分配规则，根据将写入数据库的记录的至少一个字段值确定要写入的分表。

数据库中，表的一列称为一个字段，表的一行称为一条记录，每条记录包括一到多个对应于该表的列的字段值。数据以记录为单位写入数据库的表中。以表1所示的用户表为例，该表包括两条记录，每条记录包括5个字段值。

表1

本实施例中，针对要写入数据库的记录的字段值，应用预定的分配规则，来决定将该记录写入哪一个分表。具体的分配规则可以根据实际应用场景的需要来确定，仍以表1所示的用户表为例，如果按照省份划分分表能够加快表的检索速度，则可以将分配规则设置为：按照记录中所属省份字段的值，将该记录写入用来存储该省份用户的分表中；如果按照年龄段划分分表更符合应用需要，则可以将分配规则设置为：按照记录中年龄字段的值得到对应的年龄段，将该记录写入用来存储该年龄段用户的分表中。此外，分配规则可以基于两个或两个以上字段值来设置，例如，可以根据所属省份字段的值以及性别字段的值，来确定写入某条记录的分表。

在一种实现方式中，先为每个分表建立唯一的索引值，然后以将写入数据库的记录的至少一个字段值为输入，采用分配规则得到要写入分表的索引值。这种方式可以方便的用表达式来描述分配规则，易于编程实现，将记录的一个到多个字段值输入到体现分配规则的表达式，经过运算后，其输出为对应于分表的索引值。体现分配规则的表达式要满足的条件是，对记录中所采用字段的可能取值，其运算结果在分表索引值的可能取值范围内。

例如，在按照省份划分分表的情形下，可以将每个分表的索引值设置为对应的省份名称，则分配规则可以描述为索引值等于所属省份字段值。再如，可以将分表的索引值设置为从0到分表的数量减1；将分配规则设置为：对将写入数据库的记录的预定字段值，以分表的数量取模；这个例子中该预定字段值应为整数。

步骤130，基于所确定的分表所属数据库的访问参数，将该记录写入到所确定的分表中。

在确定写入记录的分表后，根据该分表所属数据库的访问参数，可以对该分表发起写入操作，将记录写入到所确定的分表中。利用访问参数进行分表写入操作的具体方式由分表所属数据库的类型、分表所属数据库在网络中的位置等因素来决定，可参照现有技术实现，本实施例中不做限定。

如果分表所属的数据库需要通过网络进行访问，可以先根据各个分表所属数据库的访问参数，建立并维持到每个分表所属数据库的连接；当要在某个数据库中的分表中写入记录时，通过到该数据库的连接来进行该分表的写入操作，将记录写入到步骤120所确定的分表中。这样每次的写入操作不再需要建立和断开连接的处理过程，而直接基于已经建立的连接来进行，能够提高写入操作的处理效率。

例如，对基于TCP/IP(Transmission Control Protocol/Internet Protocol，传输控制协议/互联网协议)协议进行网络访问的关系型数据库，其访问参数通常包括数据库所在主机的IP地址、端口号(尽管关系型数据库一般设置有缺省端口号，但由于该缺省端口号可以被管理员修改，在绝大多数应用场景中会在访问参数里指明数据库所使用的端口号)和数据库名称；对这样的数据库中的分表，可以如利用数据库所属主机的IP地址和数据库的端口号建立并维持到各个分表所属数据库的TCP连接，并通过这些TCP连接将记录写入到所确定的分表中。

在一些应用场合，例如将离线的存储平台、计算平台或其他源头的数据写入到在线数据库中时，频繁的写入操作可能影响在线数据库响应其他实时应用的速度。这种情形下，可以为每个分表设置对应的缓冲区；在确定写入某条记录的分表后，将该记录写入到所确定分表的缓冲区中；当某个分表的缓冲区的使用程度满足预定条件(如缓冲区中的记录达到一定的条数、缓冲区的存储空间使用率达到预定阈值等等)时，将该分表缓冲区中的所有记录写入到该分表中；从而减少对在线数据库其他操作的影响，大大提高写入数据库的性能。

可见，本申请的实施例中，由进行数据库写入的软件采用分配规则来确定将要将记录写入的分表，并通过分表所属数据库的访问参数来完成到所确定分表的写入操作，这样进行数据库写入的软件能够直接控制分表中的记录，从而能够按照实际业务需求来组织各个分表中的数据，高效灵活的将大批量数据批量回流到分库分表中去，以满足分库分表数据回流的功能和性能需求。

在本申请的一个应用示例中，回流服务器将数据源头(数据源头可以是任何能够存放数据的存储，此处以表1为例)的用户数据写入到user(用户)表中。user表包括分布在4个数据库上的8个分表，其中，分表user00和user01在数据库db0中，分表user02和user03在数据库db1中，分表user04和user05在数据库db2中，分表user06和user07在数据库db3中。

管理员在回流服务器上配置user表分库分表的拓扑结构(及分表与所属数据库的对应关系)以及各个数据库的访问参数，访问参数包括各个数据库所在主机的IP地址和访问数据库的端口号。一种可能的配置形式如下所示：

其中，jdbcUrl用来描述每个数据库的访问参数，table用来描述每个数据库中的分表。

回流服务器从管理员的配置中得到8个分表所属的4个数据库以及每个数据库的访问参数。回流服务器为每个分表建立索引值，索引值为0到7(即分表数量减1)，索引值与分表的对应关系如下：

数据库db0：

user00→索引值：0

user01→索引值：1

数据库db1：

user02→索引值：2

user03→索引值：3

数据库db2：

user04→索引值：4

user05→索引值：5

数据库db3：

user06→索引值：6

user07→索引值：7

管理员将分配规则配置为：对将写入数据库的记录的第0列字段的值(如表1中序号字段的值)，以分表的数量8取模。其Groovy(一种开发语言)表达式为：

def route(line){

return line.get(0).toInteger％8；

}

回流服务器采用4个分表所在数据库db0、db1、db2和db3的访问参数，建立到每个数据库的TCP连接，并维持连接状态。在回流服务器上，为每个分表维护一个缓冲区(如空间大小为256条记录的存储区域)。

请参见图2，对来自数据源头、要写入分表的一条记录，回流服务器按照分配规则，对该记录中第0列(即序号字段)的值以8取模，得到要写入分表的索引值。如对表1中的第1行记录，回流服务器得到的索引值为1，即要写入的分表为user01。回流服务器将表1中的第1行记录写入到分表user01的缓冲区中。当user01的缓冲区满(如达到256条记录)时，回流服务器通过与数据库db0的连接，将缓冲区中的所有记录(256条记录)写入分表user01中。

与上述流程实现对应，本申请的实施例还提供了一种数据库分表的写入装置。该装置可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为逻辑意义上的装置，是通过主机的CPU将对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，除了图3所示的CPU(Central Process Unit，中央处理器)、内存以及非易失性存储器之外，该装置所在的主机通常还包括用于实现网络通信功能的板卡等其他硬件。

图4所示为本申请实施例提供的一种数据库分表的写入装置，包括拓扑及参数单元、记录分配单元和记录写入单元，其中：拓扑及参数单元用于获取各个分表所属的数据库及其访问参数；记录分配单元用于采用一定的分配规则，根据将写入数据库的记录的至少一个字段值确定要写入的分表；记录写入单元用于基于所确定的分表所属数据库的访问参数，将所述记录写入到所确定的分表中。

可选的，所述装置还包括缓冲区设置单元，用于为每个分表设置对应的缓冲区；所述记录写入单元包括缓冲模块和写入模块，其中：缓冲模块用于将所述记录写入到所确定的分表的缓冲区中；写入模块用于当某个分表的缓冲区的使用程度满足预定条件时，将所述分表缓冲区中的所有记录写入到所述分表中。

可选的，所述装置还包括索引值建立单元，用于为每个分表建立唯一的索引值；所述记录分配单元具体用于：以将写入数据库的记录的至少一个字段值为输入，采用所述分配规则得到要写入分表的索引值。

一个例子中，所述索引值为从0到分表的数量减1；所述分配规则包括：对将写入数据库的记录的预定字段值，以分表的数量取模；所述记录的预定字段值为整数。

可选的，所述装置还包括连接单元，用于根据各个分表所属数据库的访问参数，建立到各个分表所属数据库的连接；记录写入单元具体用于：通过到所确定的分表所属数据库的连接，将所述记录写入到所确定的分表中。

可选的，所述分表所属数据库的访问参数包括：IP地址、端口号和数据库名称。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

一种数据库分表的写入方法，其特征在于，包括：

获取各个分表所属的数据库及其访问参数；

采用一定的分配规则，根据将写入数据库的记录的至少一个字段值确定要写入的分表；

基于所确定的分表所属数据库的访问参数，将所述记录写入到所确定的分表中。
根据权利要求1所述的方法，其特征在于，所述方法还包括：为每个分表设置对应的缓冲区；

所述将记录写入到所确定的分表中，包括：

将所述记录写入到所确定的分表的缓冲区中；

当某个分表的缓冲区的使用程度满足预定条件时，将所述分表缓冲区中的所有记录写入到所述分表中。
根据权利要求1所述的方法，其特征在于，所述方法还包括：为每个分表建立唯一的索引值；

所述采用一定的分配规则，根据将写入数据库的记录的至少一个字段值确定要写入的分表，包括：以将写入数据库的记录的至少一个字段值为输入，采用所述分配规则得到要写入分表的索引值。
根据权利要求3所述的方法，其特征在于，所述索引值为从0到分表的数量减1；

所述分配规则包括：对将写入数据库的记录的预定字段值，以分表的数量取模；所述记录的预定字段值为整数。
根据权利要求1所述的方法，其特征在于，所述方法还包括：根据各个分表所属数据库的访问参数，建立到各个分表所属数据库的连接；

所述基于所确定的分表所属数据库的访问参数，将所述记录写入到所确定的分表中，包括：通过到所确定的分表所属数据库的连接，将所述记录写入到所确定的分表中。
根据权利要求1所述的方法，其特征在于，所述分表所属数据库的访问参数包括：IP地址、端口号和数据库名称。
一种数据库分表的写入装置，其特征在于，包括：

拓扑及参数单元，用于获取各个分表所属的数据库及其访问参数；

记录分配单元，用于采用一定的分配规则，根据将写入数据库的记录的至少一个字段值确定要写入的分表；

记录写入单元，用于基于所确定的分表所属数据库的访问参数，将所述记录写入到所确定的分表中。
根据权利要求7所述的装置，其特征在于，所述装置还包括：缓冲区设置单元，用于为每个分表设置对应的缓冲区；

所述记录写入单元包括：

缓冲模块，用于将所述记录写入到所确定的分表的缓冲区中；

写入模块，用于当某个分表的缓冲区的使用程度满足预定条件时，将所述分表缓冲区中的所有记录写入到所述分表中。
根据权利要求7所述的装置，其特征在于，所述装置还包括：索引值建立单元，用于为每个分表建立唯一的索引值；

所述记录分配单元具体用于：以将写入数据库的记录的至少一个字段值为输入，采用所述分配规则得到要写入分表的索引值。
根据权利要求9所述的装置，其特征在于，所述索引值为从0到分表的数量减1；

所述分配规则包括：对将写入数据库的记录的预定字段值，以分表的数量取模；所述记录的预定字段值为整数。
根据权利要求7所述的装置，其特征在于，所述装置还包括：连接单元，用于根据各个分表所属数据库的访问参数，建立到各个分表所属数据库的连接；

记录写入单元具体用于：通过到所确定的分表所属数据库的连接，将所述记录写入到所确定的分表中。
根据权利要求7所述的装置，其特征在于，所述分表所属数据库的访问参数包括：IP地址、端口号和数据库名称。