WO2023280053A1

WO2023280053A1 - 数据处理方法、系统、电子设备及存储介质

Info

Publication number: WO2023280053A1
Application number: PCT/CN2022/103200
Authority: WO
Inventors: 古青松; 孟庆义; 熊嘉男; 沈春辉; 杨成虎
Original assignee: 阿里云计算有限公司
Priority date: 2021-07-07
Filing date: 2022-06-30
Publication date: 2023-01-12
Also published as: CN113254460B; CN113254460A

Abstract

一种数据处理方法、系统、电子设备及存储介质。其中，方法包括：监听到针对目标数据的日志读取事件时，确定是否具有发送第一时间日志的权限；所述权限是按照所述目标数据在至少两个服务器间移动的移动轨迹被顺序给予的；具有权限时，获取目标数据的、时间戳大于或等于第一时间的至少一个日志；将至少一个日志发送至读取方。一种数据处理方法，即针对目标数据在多个服务器之间发生转移，各服务器的日志文件中均记录有该目标数据对应日志的情况，在任一服务器欲向读取方(如数据日志订阅方/消费方)发送该目标数据的日志时需具有权限，以实现所述目标数据的日志按时间顺序发送至读取方而不出现混乱。

Description

数据处理方法、系统、电子设备及存储介质

本申请要求于2021年07月07日提交中国专利局、申请号为202110766115.1、申请名称为“数据处理方法、系统、电子设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于数据库技术领域，尤其涉及一种数据处理方法、系统、电子设备及存储介质。

背景技术

数据库中数据变动后，很多场景是需要实时订阅表的数据变更的，如同步到消息队列、应用间消息通信、实时计算场景等。CDC(change data capture，变化数据捕捉)能力是数据库的一项常用的功能。CDC的核心思想是：监测并捕获数据库的变动(包括数据或数据表的插入、更新、删除等)，将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。记录数据、数据表或一数据表的一个分区一次变动内容的文件可称为日志。

类似于HBase的分布式数据库，一个数据表的数据按分区分布在不同的服务器。如果分区发生移动，则该分区的数据不同时间产生的日志会写入到不同服务器中。从不同服务器中采集该分区数据对应的日志时，如果只是简单的并发采集每台服务器的日志，则会发生同一个分区数据对应的日志不能按照时间顺序被下游订阅方/消费方设备收到，而是乱序的。

发明内容

针对现有技术存在的问题，本申请实施例提供一种数据处理方法、系统、电子设备及存储介质。

具体的，在本申请的一个实施例中，提供了一种数据处理方法，适用于第一服务器，包括：

监听到针对目标数据的日志读取事件时，确定是否具有发送第一时间日志的权限；其中，所述权限是按照所述目标数据在至少两个服务器间移动的移动轨迹被顺序给予的；

具有所述权限时，获取所述目标数据的、时间戳大于或等于所述第一时间的至少一个日志；

将所述至少一个日志发送至读取方。

在本申请的另一个实施例中，提供了一种数据处理方法，包括：

接收第一服务器针对目标数据发送的权限申请请求，其中，所述权限申请请求携带有第一时间；

获取所述目标数据在至少两个服务器间移动的移动轨迹；

根据所述第一时间及所述移动轨迹，确定是否给予所述第一服务器发送第一时间日志的权限。

在本申请的又一个实施例中，提供了一种数据处理系统，包括：第一服务器、第二服务器、读取方以及管理方，其中：

第一服务器，用于监听到针对目标数据的日志读取事件时，确定是否具有发送第一时间日志的权限；具有所述权限时，获取所述目标数据的、时间戳大于或等于所述第一时间的至少一个日志；将所述至少一个日志发送至所述读取方；无所述发送权限时，向所述管理方申请发送权限；

管理方，用于接收所述第一服务器针对目标数据发送的权限申请请求，其中，所述权限申请请求携带有第一时间；获取所述目标数据在至少两个服务器间移动的移动轨迹；根据所述第一时间及所述移动轨迹，确定是否给予所述第一服务器发送第一时间日志的权限。

本申请的又一个实施例中，提供了一种电子设备。该电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现上述各方法实施例中的步骤。

本申请的又一个实施例中，提供了一种计算机程序产品。该计算机程序产品包括计算机程序/指令，当所述计算机程序/指令被处理器执行时，致使所述处理器能够实现上述各方法实施例中的步骤。

本申请实施例提供了一种数据处理方法，即针对目标数据在多个服务器之间发生转移，各服务器的日志文件中均记录有该目标数据对应日志的情况，在任一服务器欲向读取方(如数据日志订阅方/消费方)发送该目标数据的日志时，需先确定自身是否具有发送第一时间日志的权限。在具有该权限时，才能获取该目标数据的、时间戳大于或等于所述第一时间的至少一个日志。其中，针对不同服务器，第一时间是不同的。第一时间是服务器的日志文件中记录的、符合读取方读取日志时间戳要求的时间点。可见，本申请实施例提供的方案中，多个服务器中任一服务器都需要在获取到相应的权限后，才能向读取方发送数据的日志；在具体实施时，可基于目标数据在不同服务器间移动的移动轨迹，来管控各服务器获取权限的顺序，便能实现所述目标数据的日志按时间顺序发送至读取方，而不会出现混乱。

这里需要补充的是：下文具体实施方式中将会以举例的方式进一步的对本申请提供的方案所带来的有益效果进行说明。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为数据表通过行键按照一定范围被分割为多个分区(Region)后的示意图；

图2为数据表的多个分区可分布在多个Region服务器上的示意图；

图3为Region服务器主要构成部分是日志文件和Region块的示意图；

图4为本申请一实施例提供的数据处理系统的结构示意图；

图5为本申请一实施例提供的一种数据处理方法的流程示意图；

图6为本申请一实施例提供的数据处理系统中多个服务器、管理方及读取方交互的原理性示意图；

图7为本申请另一实施例提供的数据处理方法的流程意图；

图8为本申请一实施例提供的数据处理装置的结构示意图；

图9为本申请另一实施例提供的数据处理装置的结构示意图；

图10为本申请一实施例提供的电子设备的结构示意图。

具体实施方式

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

HBase：HBase是一个开源的非关系型数据库存储系统。

Wal：在计算机领域中，Write-ahead logging，预写式日志，是关系数据库系统中用于提供原子性和持久化的一系列技术。在使用WAL的系统中，所有的修改在提交之前都要先写入日志(log)文件中。

Segment：日志序列，是一段连续数据更新日志，一但关闭则变为只读。为了便于管理，把日志文件划分为N个segment，每个segment称为Wal segment file(日志序列文件)。

LogEntry：一个日志，记录一张表的一个数据的一次更新操作，包含操作时间及更新内容。

Region：分区，表示一段连续的数据空间，一个分区包含一个起始键(startkey)和一个结束键(endkey)。

SequenceId：sequenceId是Region级别的一次行级事务的自增序号。自增序号就是随着时间推移不断自增，不会减小。行级事务，简单来说就是更新一行中的多个列族、多个列，行级事务能够保证这次更新的原子性、一致性、持久性以及设置的隔离性。HBase会为一次行级事务分配一个自增序号。每个Region(分区数据)都维护属于自己的SequenceId，不同的Region(分区数据)的SequenceId相互独立。

分区移动轨迹：分区移动轨迹记录，记录数据在某一个时间点在某台服务器上的一次上线。

OpenMark：数据上线日志，包含数据标识、时间戳、SequenceId等信息，每台服务器打开一个数据时，在Wal中记录一个OpenMark。

CDC：change data capture，即变化数据捕捉，本申请文件中主要指通过采集数据库的wal日志文件中的日志来获取数据更新内容。

同步点位：一个时间点，如果一台服务器的同步点位是T，代表该服务器T之前的数据都已经同步完成。

Key：primary key,数据库中表的主键，一条数据的唯一标示。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。应当理解，本文中的“第一”、“第二”等描述，是用于区分不同的元件、设备等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于监测”。类似地，取决于语境，短语“如果确定”或“如果监测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当监测(陈述的条件或事件)时”或“响应于监测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

在详细介绍如下各实施例之前，对本申请各实施例中提及的数据进行一个说明。本申请各实施例中的数据可以是：数据、数据表的一个分区或数据集等。本申请各实施例中的日志也可以称为数据变更信息，或其他类似的用于记录数据、数据表的一个分区或数据集变动的信息等等，本申请对此不在具体限定。本申请各实施例中之所以使用日志，是因为到本申请的申请日，本领域技术人员习惯将记录有数据、数据表的一个分区或数据集变动的信息、可用于将数据持久化磁盘、可用于作为数据修复的数据、信息等，称为日志。对于不同类型的数据库来说，数据库内存储数据方式会不一样，相应的本申请各实施例提及的数据可能会存在不一样。比如，HBase是一种构建在HDFS之上的分布式、面向列的存储系统。HBase以表的形式存储数据。如图1所示，数据表Table由行和列组成，列划分为若干个列(row family)。数据表通过行键按照一定范围被分割为多个分区(Region)，每个分区分散在不同的服务器(如Region服务器)中。也就是说，对于HBase，本申请各实施例中提及的数据(如目标数据)为一个数据表的一个分区。

现有技术中，分布式数据库为了实现按数据更新时间向下游订阅方/消费方顺序输出某一个数据的日志，一般通过两种方案。

第一种方案为：同步写方案

同步写方案是通过在数据写入数据库的同时，将数据发送到下游订阅方/消费方来保证有序。如在HBase服务端添加协处理器，处理数据更新请求时先将数据发送到下游订阅方；该方案占用了数据的写入服务资源，需要同时写入数据库和下游订阅方，影响了写入性能，降低了系统的稳定性，要保证数据库和下游订阅数据的一致性需要保证数据库写入和下游写入都成功。下游订阅方不可用的情况下，整个写入都会失败。

第二种方案：

引入了Barrier(分界线)的概念，每当服务器中有Region上线时，就会写入一个新的Barrier到Meta表，其值是Region上线时读到的最大序号加1。HBase中每个Region都有一个序号，且严格递增，同时序号会随着每次写入操作一起写入到日志中。所以当Region发生移动的时候，Region会在新的服务器中重新上线，这时就会写入一个新的Barrier，Region被移动多次之后，就会写入多个Barrier，来将Region的写入操作划分成为多个区间。同时每个Region都维护了一个最后一次写操作的序号，其代表该Region当前推送成功的最后一个写操作的序号，根据Barrier列表和最后一次写操作的序号来判断写式日志中的一个写入操作是否能够复制到备集群。该方案，对系统侵入性较强，需要在Meta表中记录Barrier信息，同时强依赖序号的语义(严格递增，打开Region时序号+1等)，另外每次同步数据时都需要访问Meta表，更新最后一次写操作的序号、查询Barrier，同步性能较差，也额外增加了meta表的压力。

这里对Region上线的概念进行简单的解释：一个数据表的多个Region可分布存储到多台服务器上(如Region服务器)。如图2所示，Master主服务器把不同的Region分配到不同的Region服务器上。同一行键的Region不会被拆分到多个Region服务器上。每个Region服务器负责管理一个Region，通常在每个Region服务器上会放置10～1000个Region。

例如，图2所示，数据表Table1的Region11存储在Region服务器a；数据表Table1的Region12存储在Region服务器c。客户端在插入、删除、查询数据时需要知道哪个Region服务器上存储所需的Region，这个查找Region的过程称为Region定位。任何时刻，一个Region只能分配一个Region服务器。Master记录了当前有哪些可用的Region服务器，以及当前哪些Region分配给了哪些Region服务器，哪些Region还没有分配。当需要分配的新的Region，并且有一个Region服务器上有可用空间时，Master就给这个Region服务器发送一个装载请求，把Region分配给这个Region服务器，Region服务器得到请求后，就开始对此Region提供服务。Region服务器开始为此Region提供服务即可理解为：Region上线，或Region在该Region服务器上线。

Region从一个Region服务器转移至另一个Region服务器的情况，即分区转移。对于移除该Region的Region服务器需下线(或卸载)该Region；对于增加该Region的Region服务器需上线(或装载)该Region，还会生成一个针对该Region的OpenMark。

如图3所示，HBase的核心模块是Region服务器。Region服务器由多个Region块构成，Region块中存储一系列连续的数据集(即存储有一个数据表的一个分区)。Region服务器主要构成部分是日志文件和Region块。日志文件中记录Region服务器所服务的所有Region的操作日志，如图3所示。

Region块包含有多个store，每个store对应当前分区中的一个列族，每个store管理一块内存，即MemStore。当MemStore中的数据达到一定条件时会写入StoreFile文件中，因此每个store包含若干个StoreFile文件。StoreFile文件对应HDFS中的HFile文件。

下面将结合附图，详细说明本申请各实施例提供的技术方案。

图4为本申请一示例性实施例提供的一种数据处理系统的结构示意图，该系统至少包括：第一服务器11、第二服务器12、读取方13以及管理方14。其中，第一服务器11和第二服务器12可以图2和3中的任意两个Region服务器，比如，第一服务器可以是Region服务器a，第二服务器可以是Region服务器b。或者，第一服务器可以是Region服务器c，第二服务器可以是Region服务器d。如图3所示，多个Region服务器可以称为Region服务器集群。第一服务器和第二服务器可以是Region服务器集群中的任意两个，本实施例对此不做限定。

上述管理方14可以是上文中提及的Master主服务器，或是除Master主服务器外新增的管理设备，本实施例对此不作限定。读取方13可以是订阅方设备、消费方设备等等，本实施例对此不做限定。

第一服务器11，用于监听到针对目标数据的日志读取事件时，确定是否具有发送第一时间日志的权限；具有所述权限时，获取所述目标数据的、时间戳大于或等于所述第一时间的至少一个日志；将所述至少一个日志发送至所述读取方13；无所述发送权限时，向所述管理方14申请发送权限；

管理方14，用于接收所述第一服务器11针对目标数据发送的权限申请请求，其中，所述权限申请请求携带有第一时间；基于所述目标数据在至少两个服务器间移动的移动轨迹，确定所述第二服务器12；其中，所述目标数据从所述第二服务器12移动至所述第一服务器11；获取第二时间，其中，所述第二时间是所述第二服务器12上有关所述目标数据的同步点位，反映第二时间之前的所述目标数据的日志已完成同步；通过比较所述第一时间及所述第二时间的关系，确定是否给予所述第一服务器11权限。

本申请实施例提供的所述系统适用于比如HBase、Lindorm等分布式数据库系统。分布式系统中，每个服务器(如region服务器)中都存储有一份日志文件(如图3所示)，记录当前服务器负责的多个Region的数据变更(如插入、删除、更新等)，新的数据更新顺序追加至日志文件的末尾。日志文件中的日志可划分为多个按时间有序的segment。每个segment中多个日志记录了该服务器上一段时间内的所有数据更新。这里的所有数据更新是指：服务器上服务的所有Region的日志。

这里需要说明的是：本实施例提供的所述系统中不只包含有两个服务器，还可包含有三个、四个或更多个。管理方可以是数据库集群(如HBase集群)的主节点(如上文中提及的的主服务器)。其中，主节点可以配置一个或多个，用来实现HA(Highly Available，双机集群系统，提高可用性集群，是保证工作连续性的有效解决方案，一般有两个或两个以上的节点，且分为主节点及备用节点)。该管理方具有为各服务器(如Region服务器)分配region，负责服务器的负载均衡，发现失效的服务器并重新分配其上的Region。

服务器(如上述的第一服务器、第二服务器等)均维护有多个Region，处理对这些Region的读写IO请求，还负责切分在运行过程中变得过大的Region。

具体地，分布式系统中的各服务器可对应有读取单元。如图6中，服务器1对应的读取单元1’；服务器2对应的读取单元2’；服务器3对应的读取单元3’。读取单元可采集其对应的服务器的日志、基于该日志向管理方发送权限申请，以及服务器对应的同步点位。前述日志读取事件，可以由接收自读取方的日志获取请求触发，也可以由来自第一服务器的上游管理设备下发的指令触发。管理方可对应有协调单元(Corordinator)，协调单元可获取目标数据的移动轨迹，如分区1的移动轨迹；接收服务器的读取单元上报的同步点位；接收服务器读取单元申请发送权限的请求，并依据目标数据的移动轨迹向相应的服务器的读取单元下发权限。

本系统实施例中的各组成单元，如第一服务器11、第二服务器12、读取方13以及管理方14的执行原理及交互过程可参见如下各方法实施例的描述。

图5为本申请一示例性实施例提供的一种数据处理方法的流程示意图，该方法的执行主体可以为分布式系统中的第一服务器，该方法至少包括以下步骤：

201、监听到针对目标数据的日志读取事件时，确定是否具有发送第一时间日志的权限，其中，所述权限是按照所述目标数据在至少两个服务器间移动的移动轨迹被顺序给予的。

202、具有所述权限时，获取所述目标数据的、时间戳大于或等于所述第一时间的至少一个日志。

203、将所述至少一个日志发送至读取方。

上述201中，目标数据可以是一个数据表的一个Region(分区)，或是数据集群，本实施例对此不做限定。针对目标数据的日志读取事件，可以是读取方发起的，比如读取方发送的针对所述目标数据的日志读取请求。或者，针对目标数据的日志读取事件是管理方发起的，比如管理方定期或不定期的将目标数据的发送至下游的读取方(比如订阅方/消费方)，管理方向各服务器发送针对所述目标数据的下发指令，各服务器(比如本方法实施例中的第一服务器)在接收到该下发指令后，便触发针对目标数据的日志读取事件。

其中，发送第一时间日志的权限，可由上述系统中的管理方赋予。具体实施时可由本实施例方法的执行主体(如第一服务器)主动申请，管理方统筹各服务器的发送顺序，来确定赋予各服务器发送目标数据的日志。当然，也可由管理方主动地顺序的为各服务器下发权限，各服务器获取到权限后，便可执行步骤202。

这里需要说明一下步骤201中的“第一时间”。所述第一时间是指服务器的日志文件中包含的第一个目标数据对应日志对应的时间戳。为了方便理解，将结合具体示例进行说明。如图6所示例子，假设本实施例中的目标数据为分区1。图6中每个方块中，按照填充的图案区分不同分区。比如，

代表分区1的日志；“□”代表分区2的日志；“■”代表分区3的日志，等等，此处不一一列举。根据分区1的移动轨迹可知，服务器1是在t2时刻开始为分区1提供服务的；服务器2是在t1时刻开始为分区1提供服务的；服务器3是在t3时刻开始为分区1提供服务的。其中，按照时间顺序，t1早于t2，t2早于t1。服务器会在开始为分区1提供服务的时刻起在日志文件中记录分区1的日志，直至该分区1转移至其他服务器。也就是说，服务器上的日志文件中包含有分区1的上线日志(openmark)以及该分区1的上线日志对应时间戳之后的至少一个日志。上线日志对应的时间戳即所述第一时间。若服务器的日志文件中不包含上线日志，那么日志文件中第一个目标数据的日志对应的时间戳即为本实施例中的第一时间。

比如，读取方欲读取t1时间后的分区1的日志。对于服务器1来说，服务器1监听到该日志读取事件后，服务器1需确定自身是否具有发送t4时间日志的权限。在具有发送t4时间(即服务器1对应的第一时间)日志的权限后，服务器1便可获取分区1的、时间戳大于或等于t4的两个日志，分别为时间戳为t4的日志，以及时间戳为t5的日志。再比如，对于服务器2来说，服务器2监听到该日志读取事件后，服务器2需确定自身是否具有发送t6时间(即服务器2对应的第一时间)日志的权限。在具有发送t6时间日志的权限后，服务器2便可获取分区1的、时间戳大于或等于t6的两个日志，分别为时间戳为t6的日志，以及时间戳为t7的日志。同样的，对于服务器3来说，服务器3在具有发送t8时间日志的权限后，服务器3便可获取分区1的、时间戳等于t8的一个日志。

而上述各服务器，如服务器1、服务器2和服务器3，发送自身日志文件中保存的相应时间段的某一分区(如分区1)日志的权限，需按照该分区的转移轨迹来顺序赋予，进而保证下游读取方接收到分区日志的时间有序，而不是乱序的。

本实施例提供了一种数据处理方法，即针对目标数据在多个服务器之间发生转移，各服务器的日志文件中均记录有该目标数据对应日志的情况，在任一服务器欲向读取方(如数据日志订阅方/消费方)发送该目标数据的日志时，需先确定自身是否具有发送第一时间日志的权限。在具有该权限时，才能获取该目标数据的、时间戳大于或等于所述第一时间的至少一个日志。其中，针对不同服务器，第一时间是不同的。第一时间是服务器的日志文件中记录的、符合读取方读取日志时间戳要求的时间点。可见，本申请实施例提供的方案中，多个服务器中任一服务器都需要在获取到相应的权限后，才能向读取方发送数据的日志；在具体实施时，可基于目标数据在不同服务器间移动的移动轨迹，来管控各服务器获取权限的顺序，便能实现所述目标数据的日志按时间顺序发送至读取方，而不会出现混乱。

进一步的，本实施例提供的所述方法还可包括如下步骤：

204、无所述发送权限时，申请发送权限；

其中，所述发送权限是基于第二时间与所述第一时间的关系确定的，所述第二时间是第二服务器上所述目标数据对应的同步点位，所述同步点位反映所述第二服务器上第二时间之前的所述目标数据的日志已完成同步；所述第二服务器是通过所述目标数据在至少两个服务器间移动的移动轨迹得到。

有关申请发送权限的详细内容将在下文中阐释，请参见下文中的相应部分。

另外，这里需要说明的是：上述第二时间即同步点位，见本具体实施方式部分的前部，名词和术语的解释部分。同步点位可在服务器发送完相应日志后向管理方上报，以便于管理方基于各服务器的同步点位，并结合目标数据在多个服务器间移动的移动轨迹来确定为各服务器赋予相应权限的时机。即，本实施例提供的所述方法还包括如下步骤：

205、将所述至少一个日志发送至读取方之后，根据所述至少一个日志的时间戳确定所述目标数据的同步点位；

206、向管理方发送所述目标数据的同步点位。

进一步的，前述201中，“确定是否具有发送第一时间日志的权限”，可包括：

2011、若所述目标数据的第一时间日志为上线日志，则不具所述权限；

2012、若所述目标数据的第一时间日志不为上线日志，则存储空间内存有针对所述目标数据的权限信息时具有所述权限。

再进一步的，本实施例提供的所述方法还可包括如下步骤：

2013、若所述目标数据的第一时间日志为上线日志，则查询存储空间内是否存有针对所述目标数据的权限信息；

2014、存有所述权限信息时，删除所述权限信息。

进一步的，本实施例提供的所述方法还可包括如下步骤：

207、申请发送权限成功后，在存储空间内存储申请到针对所述目标数据的权限信息。

图7示出了本申请另一实施例提供的数据处理方法的流程示意图。如图7所示，所述方法包括：

301、接收第一服务器针对目标数据发送的权限申请请求，所述权限申请请求携带有第一时间；

302、获取所述目标数据在至少两个服务器间移动的移动轨迹；

303、根据所述第一时间及所述移动轨迹，确定是否给予所述第一服务器发送第一时间日志的权限。

上述301中，所述权限申请请求中除包含有第一时间外，还可包含有目标数据标识(如是分区的话，可以是RegionID)、第一服务器标识等。

上述302中，所述目标数据在至少两个服务器间移动的移动轨迹中可包含有：轨迹项。一个分区的一个轨迹项(RegionTraceInfo)记录了该分区在一个服务器上上线的信息，即该轨迹项内包含有：分区标识(RegionID)、服务器标识、上线时间戳等。通过将多个轨迹项按照上线时间戳进行顺序排列，便可得到按照时间顺序推移、分区在不同服务器间移动的过程。

在一具体的实施方案中，上述303“根据所述第一时间及所述移动轨迹，确定是否给予所述第一服务器发送第一时间日志的权限”可具体包括如下步骤：

3031、根据移动轨迹，确定第二服务器；其中，所述目标数据从所述第二服务器移动至所述第一服务器；

3032、获取第二时间，其中，所述第二时间是所述第二服务器上所述目标数据对应的同步点位，所述同步点位反映了所述第二服务器上所述第二时间之前的所述目标数据的日志已完成同步；

3033、通过比较所述第一时间及所述第二时间的关系，确定是否给予所述第一服务器权限。

参见图6所示实例，分区1的移动轨迹包括：轨迹项1、轨迹项2和轨迹项3。其中，轨迹项1是服务器2在分区1上线时上报至管理方的。例如，服务器2在分区 1上线时，通过服务器2对应的一个读取单元2向管理方上报分区1的上线信息，以便管理方生成分区1的轨迹项1。同理，服务器1在分区1上线时上报，管理方生成分区1的轨迹项2；服务器3在分区1上线时上报，管理方生成分区1的轨迹项3。

轨迹项1至少包含有：服务器2标识、分区1标识、上线时间戳t1。轨迹项2至少包含有：服务器1标识、分区1标识、上线时间戳t2。轨迹项3至少包含有：服务器3标识、分区1标识、上线时间戳t3。

按照时间顺序排列，可得出分区1的移动轨迹为：服务器2—>服务器1—>服务器3。

上述3032中，所述第二时间即所述第二服务器上所述目标数据对应的同步点位。参见图6所示的实例，假设分区1为本实施例中的目标数据、服务器2为本实施例中的第二服务器，服务器1为本实施例中的第一服务器。结合图6可以看出，服务器2上所述分区1对应的同步点位为t2，即在t2时刻之前的日志均已完成同步，或是说t2时刻之前的日志均已完成发送。

上述3033，在具体实施时，可具体为：

所述第一时间大于或等于所述第二时间时，给予所述第一服务器所述权限。

相对的，所述第一时间小于所述第二时间时，所述第一服务器申请权限失败。

简单理解就是，在移动轨迹的前一服务器完成目标数据对应日志的同步工作后，后一服务器才能具有相应的权限，以向读取方同步本地日志文件中存储的该目标数据的日志。在前一服务器未完成目标数据对应日志的同步工作前，后一服务器是不同获取到权限的。

举个反例来说，假设图6所示的实例中没有采用本实施例提供的数据处理方法。服务器1、服务器2和服务器3中的日志文件中均包含有分区1的日志。当服务器1、服务器2和服务器3分别对应的读取单元1’、2’和3’采用并行采集的方式采集时，各服务器1、服务器2和服务器3上的分区1的日志会采用并发的方式，发送至读取方。读取方在接收时接收到的分区1的日志是乱序的。而采用本实施例提供的方案，管理方记录有分区1在不同服务器间的移动轨迹，且能根据移动轨迹以及各服务器申请的欲发送的日志的时间戳或时间段，来为各服务器顺次的下发权限，使得各服务器能按照顺序发送相应日志文件中的分区1的日志，这样读取方便能接收到按照时间顺序排列的分区1的日志。

进一步的，本实施例提供的所述方法还可包括如下步骤：

304、监听到所述目标数据由第二服务器移动至第一服务器的事件后，生成相应的轨迹项；

305、将所述轨迹项添加至所述移动轨迹中。

本实施例所述方法的执行主体：管理方可以是分布式数据库系统中的主服务器(Master)，或者是与管理方通信连接的主服务器等等。

以分布式数据库系统，如HBase为例，主服务器在功能上主要负责数据表和分区的管理工作，具体包括：

管理用户对数据表的增、删、改、查操作；

管理服务器(如Region服务器)的负载均衡，调整分区的分布；

在分区分裂后，负责分裂出的新分区的分配；

在服务器(如Region服务器)停机后，负责失效服务器上的分区迁移。

相应的，本实施例步骤304的执行主体，如主服务器(Master)是能获知各服务器上分区的分布，分区从哪个服务器迁移至哪个服务器等。因此，主服务器可在出现分区移动时，根据移动信息(包括但不限于：分区标识、移动目标服务器标识、移动时间戳(或是上线时间戳)等)生成该分区对应的轨迹项，并将该轨迹项添加到该分区对应的移动轨迹中。

或者，本实施例步骤304的执行主体为与主服务器通信的另一个专门负责维护移动轨迹、赋权限的管理方(如管理设备，也可称为管理服务器)。主服务器在监听到存在有分区移动的事件时，向管理方发送分区移动事件信息。例如，该分区移动事件包括但不限于：分区标识、移动前服务器标识、移动后服务器标识、移动时间戳(或是上线时间戳)。其中，移动前服务器标识可有，可无。因为，管理方维护有该分区对应的移动轨迹，通过遍历移动轨迹中的各轨迹项，便可知道分区此次移动前，所在的服务器标识(即移动前服务器标识)。

上述各方法实施例分别站在服务器角度(即服务器是执行主体)、管理方角度(即管理方是执行主体)来阐述本申请的技术方案。下面结合另一具体的实施例，不分角度地对本申请实施例提供的技术方案进行说明。

还以图6所示的例子进行说明，该数据处理系统包括：服务器(如服务器1、服务器2、服务器3)、管理方及读取方。其中，所述管理方中可包含有协调单元(Corordinator)，各服务器对应有一个读取单元(Reader)。具体的，本实施例方法包括如下步骤：

S1、服务器监听到针对分区1的日志读取事件时，服务器对应的读取单元读取所述服务器的日志文件中所述分区1的日志。

读取单元读取分区1日志的过程为：

S11、检查日志文件中是否含有分区1的日志。当日志文件中含有分区1的日志时，获取日志文件中的分区1的日志。

例如，在具体实施时，可使用wal.hasNext()检查日志文件的各日志序列中是否含有分区1的日志。检查出含有分区1的日志时，使用wal.next()获得日志文件的日志序列中所述分区1的第一个日志。所述服务器的发送第一时间日志的权限中的第一时间，即wal.next()获得的所述第一个日志对应的时间戳。

S12、判断所述分区1的第一个日志是否为上线日志；若分区1的第一个日志为上线日志，则标记该分区1为新上线分区；当服务器上存储有该分区1对应的权限信息时，还需清理所述上线日志之前所述服务器被给予的所述分区1对应的权限信息。若分区1的第一个日志不为上线日志，则执行步骤S13。

S13、判断服务器上是否存储所述分区1对应的权限信息，若有，则获取所述分区1的、时间戳大于或等于所述第一个日志对应时间戳(即上文中提及的第一时间)的至少一个日志，并将所述至少一个日志发送至读取方(如订阅方/消费方)。否则，向管理方申请发送权限。

S2、服务器的读取单元在将所述分区1的至少一个日志发送至读取方后，根据所述至少一个日志的时间戳，确定所述分区1对应的同步点位。

具体实施时，可将至少一个日志中时间戳最晚的时间，作为所述分区1对应的同步点位。

S3、服务器的读取单元向管理方上报所述分区1对应的同步点位。

上述各步骤中的服务器可以是图6中的服务器1、服务器2和服务器3。三个服务器会同时或相继监听到针对分区1的日志读取事件，比如，读取方向管理方发送读取分区1日志的读请求，此时管理方将会同时向为分区1提供过服务的多个服务器发送相应的指令。

管理方的Corordinator(协调单元)维护有分区1的移动轨迹以及各服务器上报的相应分区对应的同步点位。假设某一服务器(为方便说明，下述各步骤称为第一服务器)的读取单元申请分区1、第一时间为T1的发送权限，相应的，Corordinator处理该第一服务器的读取单元的发送权限申请过程如下：

S4、根据分区1的移动轨迹找到T1之前，分区1所在的前一服务器(为了方便说明，下述各步骤将其称为第二服务器)。

S5、获取第二服务器上分区1对应的同步点位sever_synctime。

S6、判断T1是否大于或等于sever_synctime，若是，则确定给予所述第一服务器权限，并向所述第一服务器的读取单元下发权限，以便第一服务器的读取单元在得到权限后，将所述第一服务器上分区1的至少一个日志发送至读取方；否则，申请权限失败，等待下次申请。

对于服务器1来说，服务器1的读取单元1通过wal.next()获得的第一个日志对应的时间戳为t2；服务器1上的分区1的第一个日志为上线日志，且服务器1未存储该分区1对应的权限信息，此时服务器1的读取单元1’需向管理方的Corordinator申请发送权限。若服务器1向管理方的Corordinator申请发送权限时，服务器2还未上传分区1对应的同步点位，则说明服务器2还未同步完成，此时服务器1还不能具备针对分区1日志的发送权限。只有在服务器2上传了分区1对应的同步点位，且服务器1发送的分区1的日志对应的时间戳大于或等于服务器2上分区1对应的同步点位，才能获取到发送权限。即，服务器1需要等待服务器2发送了时间戳为t6和 t7的两个分区1的日志之后，才可以获得权限，并在获取到权限后，将时间戳为t4和t5的两个分区1的日志发送给读取方。同理，对于服务器3来说，需要等到服务器1发送了时间戳为t4和t5的两个分区1的日志之后，才能获得权限，并在获得权限后，将时间戳为t8的分区1的日志发送给读取方。

由上述各实施例可以看出，本申请各实施例提供了一种基于移动轨迹确定发送权限的机制，该机制能保证数据按照时间顺序输出。

进一步的，如在分布式数据库系统中，各服务器的日志文件包含的日志序列中的各日志的格式是键值对的形式，如：键(key)1-值(value)1、键2-值2、键3-值3等，其中，各键值对可包含SequenceId、数据标识，以及写入时间(即时间戳)。由此可知，本申请各实施例提供的方案能保证数据在键(即key)级别按数据更新时间(即日志时间戳)输出。

图8为本申请一示例性实施例提供的一种数据处理装置的结构示意图。该数据处理装置适用于上述数据处理系统中的第一服务器。具体的，所述数据处理装置包括：确定模块21、获取模块22及发送模块23。其中，确定模块21用于在监听到针对目标数据的日志读取事件时，确定是否具有发送第一时间日志的权限；其中，所述权限是按照所述目标数据在至少两个服务器间移动的移动轨迹被顺序给予的。获取模块22用于在具有所述权限时，获取所述目标数据的、时间戳大于或等于所述第一时间的至少一个日志。发送模块23用于将所述至少一个日志发送至读取方。

进一步的，本实施例提供的所述装置还可包括申请模块，该申请模块用于无所述发送权限时，申请发送权限。其中，所述发送权限是基于第二时间与所述第一时间的关系确定的；所述第二时间是第二服务器上所述目标数据对应的同步点位，所述同步点位反映所述第二服务器上第二时间之前的所述目标数据的日志已完成同步；所述第二服务器是通过所述目标数据在至少两个服务器间移动的移动轨迹得到。

进一步地，前述监听模块21在用于确定是否具有发送第一时间内的日志的权限时，具体用于：

若所述目标数据的第一时间日志为上线日志，则不具所述权限；

若所述目标数据的第一时间日志不为上线日志，则存储空间内存有针对所述目标数据的权限信息时具有所述权限。

再进一步地，上述装置还可包括查询模块及删除模块。其中，查询模块用于在所述目标数据的第一时间日志为上线日志时，查询存储空间内是否存有针对所述目标数据的权限信息；存有所述权限信息时，删除所述权限信息。

进一步的，本实施例提供的所述装置还可包括存储模块。该存储模块用于申请发送权限成功后，在存储空间内存储申请到针对所述目标数据的权限信息。

进一步的，本实施例中所述确定模块21还用于将所述至少一个日志发送至读取方之后，根据所述至少一个日志的时间戳，确定所述目标数据的同步点位。所述发送模块23还用于向管理方发送所述目标数据的同步点位。

这里需要说明的是：上述实施例提供的定位装置可实现上述各方法实施例中描述的技术方案，上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容，此处不再赘述。

图9为本申请一示例性实施例提供的另一种数据处理装置的结构示意图。该装置可适用于上述数据处理系统中的管理方。该装置包括：接收模块31、获取模块32及确定模块33。其中：接收模块31用于接收第一服务器针对目标数据发送的权限申请请求，所述权限申请请求携带有第一时间。所述获取模块32用于获取所述目标数据在至少两个服务器间移动的移动轨迹。所述确定模块33用于根据所述第一时间及所述移动轨迹，确定是否给予所述第一服务器发送第一时间日志的权限。

进一步的，所述确定模块33在根据所述第一时间及所述移动轨迹，确定是否给予所述第一服务器发送第一时间日志的权限时，具体用于：

根据移动轨迹，确定第二服务器；其中，所述目标数据从所述第二服务器移动至所述第一服务器；

获取第二时间，其中，所述第二时间是所述第二服务器上所述目标数据对应的同步点位，所述同步点位反映了所述第二服务器上所述第二时间之前的所述目标数据的日志已完成同步；

通过比较所述第一时间及所述第二时间的关系，确定是否给予所述第一服务器权限。

再进一步的，所述确定模块33在通过比较所述第一时间及所述第二时间的关系，确定是否给予所述第一服务器发送权限时，具体用于：

进一步的，本实施例提供的所述装置还可包括生成添加模块。该生成添加模块用于监听到所述目标数据由第二服务器移动至第一服务器的事件后，生成相应的轨迹项；将所述轨迹项添加至所述移动轨迹中。

本申请还提供了一种电子设备，如图10所示，该电子设备包括处理器42和存储器41，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行，以用于：

将所述至少一个日志发送至读取方。

上述存储器41可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在的电子设备上操作的任何应用程序或方法的指令。存储器41可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

上述处理器42在执行存储器41中的程序时，除了上面的功能之外，还可实现其它功能，具体可参见前面各实施例的描述。

进一步，如图10所示，电子设备还包括：通信组件43、显示器44、电源组件45、音频组件46等其它组件。图10中仅示意性给出部分组件，并不意味着电子设备只包括图6所示组件。具体实施时，本实施例提供的所述电子设备可以是分布式数据库系统中的服务器，更具体的可以是分区服务器集群中的一分区服务器，该服务器可以是实体服务器、也可以是虚拟服务器，本实施例对此不作具体限定。

本申请又一个实施例提供一种电子设备，该电子设备的结构同图10。具体的，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行，以用于：

接收第一服务器针对目标数据发送的权限申请请求，所述权限申请请求携带有第一时间；

获取所述目标数据在至少两个服务器间移动的移动轨迹；

上述处理器在执行存储中的程序时，除了上面的功能之外，还可实现其它功能，具体可参见前面各实施例的描述。

本实施例提供的电子设备可以是数据处理系统中的管理方，更具体的，可以是分布式数据库系统中的主服务器，该主服务器中部署有协调单元，以用于实现上述根据目标数据的移动轨迹，给予相应服务器发送权限的功能。

相应的，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，所述计算机程序被计算机执行时能够实现上述各实施例提供的数据处理方法的步骤或功能。

本申请实施例还提供一种计算机程序产品。该计算机程序产品包括计算机程序或指令。当计算机程序或指令被处理器执行时，致使处理器能够实现上述各实施例提供的数据处理方法的步骤或功能。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种数据处理方法，适用于第一服务器，包括：

监听到针对目标数据的日志读取事件时，确定是否具有发送第一时间日志的权限；其中，所述权限是按照所述目标数据在至少两个服务器间移动的移动轨迹被顺序给予的；

具有所述权限时，获取所述目标数据的、时间戳大于或等于所述第一时间的至少一个日志；

将所述至少一个日志发送至读取方。
根据权利要求1所述的方法，还包括：

无所述发送权限时，申请发送权限；

其中，所述发送权限是基于第二时间与所述第一时间的关系确定的；所述第二时间是第二服务器上所述目标数据对应的同步点位，所述同步点位反映所述第二服务器上第二时间之前的所述目标数据的日志已完成同步；所述第二服务器是通过所述目标数据在至少两个服务器间移动的移动轨迹得到。
根据权利要求1或2所述的方法，确定是否具有发送第一时间日志的权限，包括：

若所述目标数据的第一时间日志为上线日志，则不具所述权限；

若所述目标数据的第一时间日志不为上线日志，则存储空间内存有针对所述目标数据的权限信息时具有所述权限。
根据权利要求3所述的方法，还包括：

若所述目标数据的第一时间日志为上线日志，则查询存储空间内是否存有针对所述目标数据的权限信息；

存有所述权限信息时，删除所述权限信息。
根据权利要求2至4中任一项所述的方法，还包括：

申请发送权限成功后，在存储空间内存储申请到针对所述目标数据的权限信息。
根据权利要求1至5中任一项所述的方法，还包括：

将所述至少一个日志发送至读取方之后，根据所述至少一个日志的时间戳，确定所述目标数据的同步点位；

向管理方发送所述目标数据的同步点位。
一种数据处理方法，包括：

接收第一服务器针对目标数据发送的权限申请请求，所述权限申请请求携带有第一时间；

获取所述目标数据在至少两个服务器间移动的移动轨迹；

根据所述第一时间及所述移动轨迹，确定是否给予所述第一服务器发送第一时间日志的权限。
根据权利要求7所述的方法，根据所述第一时间及所述移动轨迹，确定是否给予所述第一服务器发送第一时间日志的权限，包括：

根据移动轨迹，确定第二服务器；其中，所述目标数据从所述第二服务器移动至所述第一服务器；

获取第二时间，其中，所述第二时间是所述第二服务器上所述目标数据对应的同步点位，所述同步点位反映了所述第二服务器上所述第二时间之前的所述目标数据的日志已完成同步；

通过比较所述第一时间及所述第二时间的关系，确定是否给予所述第一服务器权限。
根据权利要求8所述的方法，通过比较所述第一时间及所述第二时间的关系，确定是否给予所述第一服务器发送权限，包括：

所述第一时间大于或等于所述第二时间时，给予所述第一服务器所述权限。
根据权利要求8至9中任一项所述的方法，还包括：

监听到所述目标数据由第二服务器移动至第一服务器的事件后，生成相应的轨迹项；

将所述轨迹项添加至所述移动轨迹中。
一种数据处理系统，包括：第一服务器、第二服务器、读取方以及管理方，其中：

第一服务器，用于监听到针对目标数据的日志读取事件时，确定是否具有发送第一时间日志的权限；具有所述权限时，获取所述目标数据的、时间戳大于或等于所述第一时间的至少一个日志；将所述至少一个日志发送至所述读取方；无所述发送权限时，向所述管理方申请发送权限；

管理方，用于接收所述第一服务器针对目标数据发送的权限申请请求，其中，所述权限申请请求携带有第一时间；获取所述目标数据在至少两个服务器间移动的移动轨迹；根据所述第一时间及所述移动轨迹，确定是否给予所述第一服务器发送第一时间日志的权限。
一种电子设备，包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现权利要求1至6中任一项，或权利要求7至10中任一项所述的数据处理方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至6中任一项，或权利要求7至10中任一项所述的数据处理方法。
一种计算机程序产品，包括计算机程序或指令，当所述计算机程序或指令被处理器执行时，致使所述处理器能够实现权利要求1至6中任一项所述方法中的步骤，或权利要求7至10中任一项所述的方法中的步骤。