WO2022256969A1

WO2022256969A1 - 一种通用数据抽取的系统

Info

Publication number: WO2022256969A1
Application number: PCT/CN2021/098638
Authority: WO
Inventors: 王怀亮
Original assignee: 京东方科技集团股份有限公司
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2022-12-15
Also published as: CN115836284A

Abstract

一种通用数据抽取的系统，应用于数据消费方，该系统基于微服务架构，包括服务注册中心，该系统包括：至少一个配置服务，一个配置服务被配置为从对应的一个数据生产方抽取数据的抽取任务进行相关配置；至少一个执行服务，一个执行服务被配置为执行抽取任务，并将抽取的数据映射到目标位置；其中，配置服务和执行服务均注册到微服务架构，且在与数据生产方通信时均使用REST接口传输数据。

Description

一种通用数据抽取的系统

技术领域

本公开涉及数据抽取领域，尤其是涉及一种通用数据抽取的系统。

背景技术

随着企业信息化的发展，信息系统越来越多的使用于日常工作中，不同业务部门、产线、企业等会形成各自的业务系统。

作为业务系统的核心资产——数据库，已成为企业的核心资产，通常不会向第三方开放；即便是同一企业的业务部门由于历史原因，如各自采用的编程语言不通、保密要求不同也导致彼此间的业务数据不能互通。然而，但随着信息化建设的不断深入，一个大型项目通常需要集成不同企业或不同业务部门提供的业务数据(数据生产方)，然而这些业务的流程不互通、数据不共享。这给开发大型项目的用户(数据消费方)对数据的分析利用、报表开发、分析挖掘等带来了巨大困难。

现有技术中，通常是使用数据仓库技术从不同的业务系统的数据库中抽取数据，然后进行加工集成后，再存入本地的数据库。但这种解决方案的缺点在于使用成熟的数据抽取工具需要不菲的价格，一般企业难以负担，而使用开源工具则需要侵入企业的数据库，通常这是不被企业允许的。且，使用上述解决方案，还需要数据消费方针对不同业务系统开发数据同步接口，并由数据生产方调用接口来实现数据抽取及数据上报，这导致数据消费方需要频繁开发接口，同时数据生产方集中式上报会造成数据消费方较大的数据压力。

发明内容

本公开提供一种通用数据抽取的系统，用以解决现有技术中存在的上述技术问题。

第一方面，为解决上述技术问题，本公开实施例提供的一种通用数据抽取的系统，应用于数据消费方，所述系统基于微服务架构，包括服务注册中心，该方法的技术方案如下：

至少一个配置服务，一个所述配置服务被配置为从对应的一个数据生产方抽取数据的抽取任务进行相关配置；

至少一个执行服务，一个所述执行服务被配置为执行所述抽取任务，并将抽取的数据映射到目标位置；其中，所述配置服务和所述执行服务均注册到所述微服务架构，且在与所述数据生产方通信时均使用所述REST接口传输数据。

一种可能的实施方式，所述REST接口，包括：

基于所述REST的认证接口和基于所述REST数据抽取接口；其中，所述认证接口被配置为获取访问所述数据生产方的授权信息，所述数据抽取接口被配置为利用所述授权信息从所述数据生产方抽取数据。

一种可能的实施方式，所述配置服务还被配置为：

通过所述认证接口向所述数据生产方发送授权请求信息；其中，所述授权请求中携带在所述数据消费方进行注册所需的用户名和用户密码；

接收所述数据生产方基于所述授权请求信息返回的所述授权信息；其中，所述授权信息是基于所述用户名和所述用户密码生成的。

一种可能的实施方式，所述配置服务还被配置为：

从所述数据生产方获取所需数据所在的源数据表包含的字段；

将所述源数据表包含的字段映射到所述数据消费方的目标数据表的字段，并建立对应的抽取任务。

一种可能的实施方式，所述配置服务还被配置为：

通过所述数据抽取接口向所述数据生产方发送数据抽取请求；其中，所述数据抽取请求中携带所述授权信息，以及所述数源数据表的相关信息；

接收基于所述数据抽取请求返回的所述源数据表中的一条样本数据；

基于所述样本数据获取所述源数据表包含的字段及对应的字段类型。

一种可能的实施方式，所述配置任务还被配置为：

基于所述数据生产方及所述源数据表对所述抽取任务的数据来源进行定义，并定义所述目标数据表对应的目标数据模型；其中，所述目标数据模型包括从所述数据生产方抽取的数据写入所述目标数据表的方式，及所述目标数据表中字段的字段类型采用的数据格式；

建立所述源数据表中字段与所述目标数据表中字段的映射关系及映射字段的数据格式转换方式；

对所述抽取任务的执行周期及数据同步方式进行配置，建立基于所述目标数据模型和所述映射关系及对应数据格式转换方式的所述抽取任务。

一种可能的实施方式，所述执行服务被配置为：

根据所述抽取任务生成对应的数据抽取请求；

通过所述数据抽取接口向所述数据生产方发送所述数据抽取请求，并接收对应返回的所述源数据表中的数据；

通过所述抽取任务将返回的数据转换为所述目标数据表中的数据进行存储。

一种可能的实施方式，所述REST接口，包括：

用户列表，用于存放所述数据生产方的网址；

接口，用于表征对所述数据生产方执行的操作；

请求参数，用于表征向所述数据生产方请求的参数；

返回值，用于表征所述数据生产方基于所述请求参数返回的数据。

一种可能的实施方式，所述请求参数和所述返回值使用的数据格式为JSON格式。

一种可能的实施方式，当所述REST接口为所述认证接口时，所述请求参数中携带有所述授权请求，所述返回值中携带所述授权信息。

一种可能的实施方式，当所述REST接口为所述数据抽取接口时，所述请求参数中携带所述授权信息以及所述数据抽取请求，所述返回值中携带所述数据生产方基于所述数据抽取请求返回的数据。

一种可能的实施方式，所述数据来源的定义、所述目标数据模型的配置、所述映射关系的建立是采用图形化的界面，基于用户操作完成的。

一种可能的实施方式，所述配置服务和所述执行服务均使用容器技术，且每个所述配置服务和每个所述执行服务均运行在各自对应的一个容器中。

附图说明

图1为本公开实施例提供的一种通用数据抽取系统的结构示意图；

图2为本公开实施例提供的数据消费方与数据生产方的关系图；

图3为本公开实施例提供的数据消费方的运营平台使用的系统结构示意图；

图4为本公开实施例提供的数据来源定义的图形化界面的配置示意图一；

图5为本公开实施例提供的数据来源的图形化界面配置示意图二；

图6为本公开实施例提供的目标数据模型的图形化界面的参数配置示意图；

图7为本公开实施例提供的目标数据表的图形化界面的参数配置示意图；

图8为本公开实施例提供的配置源数据表与目标数据表的映射关系的图形化界面；

图9为本公开实施例提供的配置抽取任务的图形化界面；

图10为本公开实施例提供的配置服务与执行服务的关系示意图。

具体实施方式

本公开实施列提供一种通用数据抽取的系统，以解决现有技术中存在的上述技术问题。

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本公开技术方案做详细的说明，应当理解本公开实施例以及实施例中的具体特征是对本公开技术方案的详细的说明，而不是对本公开技术方案的限定，在不冲突的情况下，本公开实施例以及实施例中的技术特征可以相互组合。

请参考图1，本公开实施例提供一种通用数据抽取的系统，应用于数据消费方，该系统基于微服务架构，包括服务注册中心1，该系统包括：

至少一个配置服务2，一个配置服务2被配置为从对应的一个数据生产方抽取数据的抽取任务进行相关配置；其中，相关配置包括基于REST的数据结构；

至少一个执行服务3，一个执行服务3被配置为执行抽取任务，并将抽取的数据映射到目标位置；其中，配置服务和执行服务均注册到微服务架构，且在与数据生产方通信时均使用REST接口传输数据。

数据生产方可以是外部企业、机构、业务部门的数据库，数据消费方可以是需要将上述外部企业、机构、业务部门的数据库中的部分数据进行融合的一方。请参见图2为本公开实施例提供的数据消费方与数据生产方的关系图。

在图2中厂商C作为数据消费方，需要建立一个运营平台，该运营平台对应的数据库的数据，需要从作为数据生产方的厂商A的智能安防的数据库和厂商B的智能能源的数据库中抽取。

请参见图3为本公开实施例提供的数据消费方的运营平台使用的系统结构示意图。该系统是基于微服务架构的，此系统包括注册中心集群，该中心注册集群可以是由多个服务注册中心1组成的，服务注册中心1是由对系统中的服务提供注册服务的服务器构成的，不同服务注册中心1提供注册服务的种类可以不同。

在微服务架构中，通常是用Spring Eureka(一种具有服务注册和发现的能力的工具)作为注册中心1，通过Spring Eureka可以查询到系统中所包含的服务(包括配置佩服、执行服务等)，服务的注册情况、可用性、状态等，从而对已注册的服务进行管控。

该系统还包括业务服务集群，根据从注册中心集群获取的服务列表可以确定该业务服务集群包括配置单元服务集群和执行单元服务集，配置单元服务集群包括配置服务A、配置服务B、其它配置服务(对应其它数据消费方的其它业务系统)，配置服务A从厂商A(数据生产方)抽取所需数据的抽取任务(记为抽取任务A)进行相关配置，配置服务B从厂商B(数据生产方)抽取所需数据的抽取任务(记为抽取任务B)进行相关配置。执行服务单元集群中包括与配置服务A对应的执行服务A、与配置服务B对应的执行服务B、与其它配置服务对应的其它执行服务；执行服务A被配置为执行由配置服务A生成的抽取任务A，并将从厂商A抽取的数据映射到厂商C(数据消费方)的数据库和/或高速缓存中(目标位置)，执行服务B被配置为执行由配置服务B生成的抽取任务B，并将从厂商B抽取的数据映射到厂商C(数据消费方)的数据库和/或高速缓存中(目标位置)。

上述配置服务中需要的相关参数等可以由用户在用户端进行输入，并通过网络传输给系统，经由系统中的负载均衡及网关服务传输给对应的配置服务。

运营平台在抽取智能安防中的数据时，需要经由网络向智能安防发送请求信息，使智能安防将抽取的数据并放置在响应信息中返回给运营平台。

为了实现上述通信，数据消费方定义了基于表述性状态转移(Representational State Transfer，REST)的REST接口，并让数据生产方也通过该REST接口与数据消费方交互数据。

REST可以用来规范客户端如何在超文本传输协议(HypertextTransferProtocol，HTTP)层与服务端的应用程序接口(ApplicationProgrammingInterface，API)进行数据交互。REST描述了HTTP层里客户端和服务端的数据交互规则；客户端通过向服务端发送HTTP(s)请求，接收服务端的响应，完成一次HTTP交互。这个交互过程中，REST约定了两个重要方面就是HTTP请求所采用的方法，以及请求的链接。

在本公开中将数据消费方作为客户端，将数据生产方作为服务端，基于REST的网络接口将用户列表对应的网址(也就是数据生产方的网址)作为请求的链接，将接口对应的操作作为在HTTP请求所采用的方法，而数据消费方所需的数据或向数据生产方提供的信息则在请求参数中提供，数据生产方基于请求参数返回的数据在存放在返回值中。

具体的，基于REST接口包括以下几个组成部：

用户列表，用于存放数据生产方的网址；

接口，用于表征对数据生产方执行的操作；

请求参数，用于表征向数据生产方请求的参数；

返回值，用于表征数据生产方基于请求参数返回的数据。

其中，请求参数和返回值使用的数据格式为JSON格式。

请参见表1为本公开实施提供的基于REST的网络接口的定义。

表1

名称	内容
用户列表(URL)
接口(Method)
请求参数(参数)
返回值

REST接口，包括基于REST的认证接口和基于REST数据抽取接口；其中，认证接口被配置为获取访问数据生产方的授权信息，数据抽取接口被配置为利用授权信息从数据生产方抽取数据。

需要说明的是，认证接口和数据抽取接口都是REST接口，具有与REST接口相同的组成部分，不同之处在于认证接口和数据抽取接口实现的功能不同。

为了合法的从数据生产方抽取数据，数据消费方需要先在数据生产方进行注册，此时配置服务2还被配置为：

通过认证接口向数据生产方发送授权请求信息；其中，授权请求中携带在数据消费方进行注册所需的用户名和用户密码；接收数据生产方基于授权请求信息返回的授权信息；其中，授权信息是基于用户名和用户密码生成的。

当REST接口为认证接口时，请求参数中携带有授权请求，返回值中携带授权信息。

请参见表2为本公开实施例提供的基于REST接口进行注册的代码表。

表2

数据生产方通过上述表2中示出的内容，可以增加(POST代表增加)一个从数据生产方(对应的网址为boe.com.cn/va/x1)，授权请求信息中携带了注册的用户名为“user”使用的密码为“123456”，将该信息作为基于REST接口的请求参数，数据生产方根据请求参数中提供的上述信息生成对应的授权信息“0a32d8de-4789-49a9-afd7-c5544894fdf5”，将该授权信息作为相应信息，存储在基于REST接口的返回值中，数据消费方获取到此授权信息后，便可利用授权信息向数据生产方发送抽取所需数据的数据抽取请求。由于数据消费方通常需要与多个数据生产方进行数据交互，因此数据消费方采用上述方式可以获得多个数据生产方的授权信息，为便于管理，数据消费方可以将从各数据生产方获得的授权信息存储在本地的数据库中。

在获得数据生产方的授权信息后，数据消费方还需获得数据生产方的源数据表的字段及字段类型等，便于建立对应的抽取任务，为实现此功能，配置服务2还可以被配置为：

从数据生产方获取所需数据所在的源数据表包含的字段；将源数据表包含的字段映射到数据消费方的目标数据表的字段，并建立对应的抽取任务。

配置服务2从数据生产方获取所需数据所在的源数据表包含的字段，可以通过下列方式实现：

通过数据抽取接口向数据生产方发送数据抽取请求；其中，数据抽取请求中携带授权信息，以及数源数据表的相关信息；接收基于数据抽取请求返回的源数据表中的一条样本数据；基于样本数据获取源数据表包含的字段及对应的字段类型。

当REST接口为数据抽取接口时，请求参数中携带授权信息以及数据抽取请求，返回值中携带数据生产方基于数据抽取请求返回的数据。

以表2为例，数据消费方在获得表2中的授权信息后，向表2中的数据生产方通过数据抽取接口发送携带上述授权信息的数据抽取请求，数据生产方根据该数据抽取请求通过数据抽取接口返回响应信息(里面包含一条样本数据)。请参见表3为本公开实施例提供的基于数据抽取接口抽取数据的代码表。

表3

在表3中，基于数据抽取接口，数据消费方在REST接口的请求参数中携带授权信息以及源数据表的相关信息(需从数据生产方的源数据表中抽取数据的范围为每次1页，共获取20页的数据)，上述请求参数中的信息也就是数据抽取请求中的信息，数据生产方接收到上述数据抽取请求后，返回对应的响应信息，该响应信息的内容放置在REST接口的返回值中，该返回值中不仅包括了基于请求参数返回的数据(“name”:“apple”，“color”:“red”)，还包括响应消息的状态(“ok”、“200”，用200表示响应成功)，以及返回的数据所在源数据表的相关信息(“pageindex”:2、“totalpage”:50、“totalsize”:10000)，这样数据生产方通过返回值中的内容告诉数据消费方源数据表中当前返回的是第2页的数据、总共有50页、10000条数据，当前返回抽取的一条抽取数据为“name”:“apple”，“color”:“red”(这条数据即为样本数据，若返回的是多条数据将其中任一条作为样本数据)，根据抽取的样本数据可以确定源数据表中包括name和color这2个字段，根据apple、red可以确定name和color这2个字段的字段类型为字符型。通过上述返回值中返回的数据及数据所在源数据表的相关信息，可以确定源数据表包括的字段及字段类型、数据量等，从而便于准确的对抽取任务的数据来源进行定义。

在获取源数据表中包含的字段和字段类型后，便可将源数据表包含的字段映射到数据消费方的目标数据表的字段，具体的此时配置服务被配置为：

基于数据生产方及源数据表对抽取任务的数据来源进行定义，并定义目标数据表对应的目标数据模型；其中，目标数据模型包括从数据生产方抽取的数据写入目标数据表的方式，及目标数据表中字段的字段类型采用的数据格式；建立源数据表中字段与目标数据表中字段的映射关系及映射字段的数据格式转换方式；对抽取任务的执行周期及数据同步方式进行配置，建立基于目标数据模型和映射关系及对应数据格式转换方式的抽取任务。

其中，数据来源的定义、目标数据模型的配置、映射关系的建立是采用图形化的界面，基于用户操作完成的。用户操作可以是语音指令、触摸指令、动作识别等。

请参见图4为本公开实施例提供的数据来源定义的图形化界面的配置示意图一。

在图4所示的图形化界面中，需要配置的参数包括：选择数据源类型(选择的是REST)、模板名称(为REST01)、模板描述(为REST01描述)、请求协议(支持http和https，选择的是http)、服务地址(为10.10.85.33:7000)、Pageindex(为1)、Pagesize(为10)、请求方式(为POST)、登录API(为isys/login)、用户名(为用户名)、密码、认证方式(选择的是JWT)，用户只需在上述图形化界面中输入相关参数。

根据图4中配置的内容，可以确定在认证接口中需要请求的参数(请求参数)包括：用户名test01、密码，在数据抽取接口中需要请求的参数(请求参数)包括：抽取源数据表中1～10页的数据。

请参见图5为本公开实施例提供的数据来源定义的图形化界面配置示意图二。

在图5所示的图形化界面中，需要配置的参数包括：数据源类型(设置为REST)、数据源(设置为data-resource-ap)、请求API(设置为/peds:nan/staffs)、请求方式(选择的GET)、请求参数(可以任一个参数的参数名、参数值进行设置，如参数名为Pageindex的参数值为1，参数名为Pagesize的参数值为20，在该项中可以利用提供的加、减号删除已建好的参数，也可以用加号增加一个新参数)、参数预览(根据设置的参数生成对应的预览数据Pageindex＝1&Pagesize＝20)。

数据生产方的来源定义即可通过图4和图5的图形化界面，由用户进行输入，根据用户输入的上述信息完成对源数据表的来源定义。

请参见图6为本公开实施例提供的目标数据模型的图形化界面的参数配置示意图。

在图6所示的图形化界面中，包括的参数有：选择数据源类型(选为POSTGRESOL)、模板名称(为pg_test)、模板描述(为pg_test的描述)、POSTGRESOL连接参数(设置参数名为sslmode、参数值为disabie)、POSTGRESOL地址(设为10.10.85.33：5432)、认证方式(选择默认)。用户通过在上述图形界面中设置相关参数，可以完成对目标数据模型的定义。

请参见图7为本公开实施例提供的目标数据表的图形化界面的参数配置示意图。

在图7所示的图形化界面中，包括的参数有：数据源类型(选择为postgresql)、数据源(选择为datasource-pg-dest)、库名(即目标数据库的库名设为test)、表名(设置为tb_staff)、写入方式(设为insert)、批量大小等。用户通过在上述图形化界面中进行参数配置，可以定义好抽取的数据需要写入到目标数据库中的哪个表中，是以插入的方式写入还是其它方式写入(如覆盖的方式)，写入的批量大小是多少等。使用插入方式写入时，可以仅将新增的数据写入，这样可以减少数据传输量；以覆盖的方式写入时，可以对发生变化的数据进行更新。

请参见图8为本公开实施例提供的配置源数据表与目标数据表的映射关系的图形化界面。

在图8所示的图形化界面中，主要包括四部分：对源数据表中包含的字段(称为源字段)及字段类型(简称类型)进行设置、对与之对应的源数据表中包含的字段(称为目标字段)及其字段类型(简称类型)进行设置，以及相应源字段与目标字段应采用何种校验函数(该校验函数使用何种参数)进行校验、采用何种转换函数(该转换函数使用的参数)进行数据转换。图8所示，源字段(包括字段1～字段3)、其对应的类型(类型1～类型3)、目标字段(包括字段a～字段c)、其对应的类型(类型a～类型c)，图8中未具体示出校验函数、转换函数及它们的参数设置。用户通过上述图形化界面可以直接配置好各源字段与各目标字段的映射关系(同一行的为一个映射关系)，及它们各自的字段类型(即类型)，若具有映射关系的一个源字段与对应的目标字段的字段类型不同可以设置转换函数，并且还可以设置校验函数进行校验。

上述校验函数可以是校验规则，如校验使用转换函数转换前后对应的数据含义是否相同，使用校验函数对转换结果进行校验，可以防止转换函数在转换的过程中出现错误，而导致目标字段对应的数据发生错误，从而能够提高数据转换的正确率。而转换函数是将源字段对应的字段类型转换为目标字段对应的字段类型，这样可以自动将从数据生产方抽取的数据异构为数据消费方的数据，从而提高数据异构的效率。

请参见图9为本公开实施例提供的配置抽取任务的图形化界面。

在图9所示的图形化界面中，包括的参数有：任务名称、提醒人、定时(如选择每05分钟执行一次数据抽取任务)、任务描述、执行用户(如设置为admin)、执行节点(如设置为10.10.85.33.9501)、超时时间(如设置为43200s)、同步方式(可以选择全量或增量，图9中选择的是全量)。用户通过图9所示的图形化界面可以对某一抽取任务的执行周期等进行配置。

在完成图4～图9的配置后，配置服务2便建立了一个抽取任务，并将该抽取任务提供给执行服务3。

执行服务3被配置为：

根据抽取任务生成对应的数据抽取请求；通过数据抽取接口向数据生产方发送数据抽取请求，并接收对应返回的源数据表中的数据；通过抽取任务将返回的数据转换为目标数据表中的数据进行存储。

请参见图10为本公开实施例提供的配置服务与执行服务的关系示意图。

继续以图2为例，配置服务按功能可以包括数据来源定义、目标数据模型定义、数据字段映射、抽取任务配置这几个主要的组成部分，上述各部分的配置方式在前面已经介绍过，在此不再赘述。配置服务每建立一个抽取任务，相应的该抽取任务便会送到执行服务。

执行服务3按功能可以包括：执行器、任务调度、数据映射转换、目标数据保存这几个主要的组成部分。配置服务2建立的抽取任务，在执行服务3中包括对应的执行器，而具体控制哪个抽取任务的执行器运行，则是由任务调度决定的，在执行服务从数据生产方(假设当前被抽取数据的数据生产方为厂商A)，任务调度控制调度厂商A对应的抽取任务的执行器运行，生成对应的数据抽取请求，并在通过认证接口进行授权后，再通过数据抽取接口将数据收取请求发送给厂商A的智能安防(源数据表)，以实现从厂商A的智能安防中抽取数据，按照配置服务中配置的源数据表与目标数据表的映射关系及字段类型进行数据映射和数据格式的转换，得到目标数据表，并进行保持(即目标数据保存)。

需要说明的是，在图10中将配置服务和执行服务分成了图10所示的4种功能，然而在实际应用中，也可以分为1种、2种、3种、甚至更多功能，因此不应理解为配置服务和执行服务被限定为分成图10所示的4种功能。

继续以图2为例，现运营分析平台(厂商C)需要智能安防(厂商A)的设备数据，需要智能能源(厂商B)的电量数据等信息，作为数据消费方的厂商C与作为数据生产方的厂商A和厂商B在基于REST接口交互数据的代码示意如表4所示：

表4

根据上述表4中REST接口中的信息，可以将厂商A和厂商B作为厂商C的目标数据库中的元数据的来源进行定义(如分别定义为sourceDs1和sourceDs2)，以及定义与厂商A和厂商B分别对应的目标数据库中的表(如分别定义为destDs1和destDs2)，将sourceDs1映射到destDs1并创建抽取任务1，将sourceDs2映射到destDs2并创建抽取任务2，通过执行抽取任务1和抽取任务2各自对应的执行器，便可自动完成从厂商A和B抽取数据，并映射到目标数据表中，进而将目标数据表存储到目标位置。

在本公开提供的实施例中，通过让数据消费方的系统包括至少一个配置服务和至少一个执行服务，一个配置服务被配置为从对应的一个数据生产方基于REST接口抽取数据的抽取任务进行相关配置；相应的一个执行服务被配置为执行抽取任务，并通过REST接口获得抽取的数据，进而将抽取的数据映射到目标位置。由于采用的是数据消费方定义的REST接口，使得数据消费方可以作为客户端向作为服务端的数据生产方通过发送http请求的方式，让数据生产方按照数据消费方定义的REST接口，返回数据消费方所需抽取的数据，并由数据消费方将抽取的数据映射到目标数据表中，这样数据消费方无需侵入数据生产方的数据库便能获取所需抽取数据，从而提高了数据抽取的安全性，且无需在数据消费方和数据生产方部署接口程序、单独进行接口程序的开发，从而降低了人力、时间成本的投入，进而降低了企业的开发成本。并且由于数据消费方在进行数据抽取前是通过图形化界面对相关参数进行配置的，提高了用户的易操作性，操作简单方便。

请参见表5为本公开实施例提供的本公开基于微服务架构与其它系统的优劣对照表。

表5

在本公开提供的实施例中，由于通用数据抽取的系统是基于微服务架构开发的，并将配置服务、执行服务等都注册到服务注册中心，这样可以让针对不同数据生产方的配置服务、执行服务快速上线，提高了各服务的自治性和独立性，让针对新的数据生产方的服务能够迅速的发布上线，而不用担心对系统其它功能带来大范围的影响和波及。并且上述各服务可以以组件的方式存在，这样能够重用重组，快速的形成和发布数据抽取的新应用。

当有更多的用户访问此系统进行数据抽取时，可以针对性的对数据抽取应用中的某些服务进行扩容，解决性能的瓶颈。可以独立替换或恢复微服务中的某个服务对应的组件。

进一步的，采用微服务架构体系的系统在开发效率、稳定性、可扩展性上具备了无可比拟的优势，保障了服务的高可用和高并发。并且能让在该系统上运行的数据抽取的应用快速上线，这意味着速度和效率的提升，并且可以实现独立扩容和恢复，这意味着系统的安全、稳定、可扩展更高。

进一步的，由于微服务本身就是独立发布、独立部署、自治的、微小的服务，上述每个服务可以独立布置在一个容器中，而容器也是跨平台、独立运行、是一个小的执行单元。所以本公开实施例中，各服务的部署采用了容器化方式部署，可以让整个微服务架构中包含的服务及其依赖的环境打包为容器镜像的方式进行部署。这样容器仅需要封装服务和服务需要的依赖文件，从而实现轻量的运行环境，且拥有比虚拟机更高的硬件资源利用率。进而可以实行依赖上述服务的应用中不同服务相互隔离，实现了服务的一键部署，大大减轻了运维人员实施的工作量。

本领域内的技术人员应明白，本公开实施例可提供为方法、系统、或计算机程序产品。因此，本公开实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开实施例是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。

这样，倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包含这些改动和变型在内。

Claims

一种通用数据抽取的系统，应用于数据消费方，所述系统基于微服务架构，包括服务注册中心，其中，包括：

至少一个配置服务，一个所述配置服务被配置为从对应的一个数据生产方抽取数据的抽取任务进行相关配置；

至少一个执行服务，一个所述执行服务被配置为执行所述抽取任务，并将抽取的数据映射到目标位置；其中，所述配置服务和所述执行服务均注册到所述微服务架构，且在与所述数据生产方通信时均使用REST接口传输数据。
如权利要求1所述的系统，其中，所述REST接口，包括：

基于所述REST的认证接口和基于所述REST数据抽取接口；其中，所述认证接口被配置为获取访问所述数据生产方的授权信息，所述数据抽取接口被配置为利用所述授权信息从所述数据生产方抽取数据。
如权利要求2所述的系统，其中，所述配置服务还被配置为：

通过所述认证接口向所述数据生产方发送授权请求信息；其中，所述授权请求中携带在所述数据消费方进行注册所需的用户名和用户密码；

接收所述数据生产方基于所述授权请求信息返回的所述授权信息；其中，所述授权信息是基于所述用户名和所述用户密码生成的。
如权利要求3所述的系统，其中，所述配置服务还被配置为：

从所述数据生产方获取所需数据所在的源数据表包含的字段；

将所述源数据表包含的字段映射到所述数据消费方的目标数据表的字段，并建立对应的抽取任务。
如权利要求4所述的系统，其中，所述配置服务还被配置为：

通过所述数据抽取接口向所述数据生产方发送数据抽取请求；其中，所述数据抽取请求中携带所述授权信息，以及所述数源数据表的相关信息；

接收基于所述数据抽取请求返回的所述源数据表中的一条样本数据；

基于所述样本数据获取所述源数据表包含的字段及对应的字段类型。
如权利要求5所述的系统，其中，所述配置任务还被配置为：

基于所述数据生产方及所述源数据表对所述抽取任务的数据来源进行定义，并定义所述目标数据表对应的目标数据模型；其中，所述目标数据模型包括从所述数据生产方抽取的数据写入所述目标数据表的方式，及所述目标数据表中字段的字段类型采用的数据格式；

建立所述源数据表中字段与所述目标数据表中字段的映射关系及映射字段的数据格式转换方式；

对所述抽取任务的执行周期及数据同步方式进行配置，建立基于所述目标数据模型和所述映射关系及对应数据格式转换方式的所述抽取任务。
如权利要求1-6任一项所述的系统，其中，所述执行服务被配置为：

根据所述抽取任务生成对应的数据抽取请求；

通过所述数据抽取接口向所述数据生产方发送所述数据抽取请求，并接收对应返回的所述源数据表中的数据；

通过所述抽取任务将返回的数据转换为所述目标数据表中的数据进行存储。
如权利要求1-6任一项所述的系统，其中，所述REST接口，包括：

用户列表，用于存放所述数据生产方的网址；

接口，用于表征对所述数据生产方执行的操作；

请求参数，用于表征向所述数据生产方请求的参数；

返回值，用于表征所述数据生产方基于所述请求参数返回的数据。
如权利要求8所述的系统，其中，所述请求参数和所述返回值使用的数据格式为JSON格式。
如权利要求9所述的系统，其中，当所述REST接口为所述认证接口时，所述请求参数中携带有所述授权请求，所述返回值中携带所述授权信息。
如权利要求9所述的系统，其中，当所述REST接口为所述数据抽取接口时，所述请求参数中携带所述授权信息以及所述数据抽取请求，所述返回值中携带所述数据生产方基于所述数据抽取请求返回的数据。
如权利要求6所述的系统，其中，所述数据来源的定义、所述目标数据模型的配置、所述映射关系的建立是采用图形化的界面，基于用户操作完成的。
如权利要求1-6任一项所述的系统，其中，所述配置服务和所述执行服务均使用容器技术，且每个所述配置服务和每个所述执行服务均运行在各自对应的一个容器中。