WO2023226461A1

WO2023226461A1 - 一种多域数据融合的方法、装置和存储介质

Info

Publication number: WO2023226461A1
Application number: PCT/CN2023/072949
Authority: WO
Inventors: 林文楷; 周成祖; 魏超; 吴文; 朱海勇
Original assignee: 厦门市美亚柏科信息股份有限公司
Priority date: 2022-05-25
Filing date: 2023-01-18
Publication date: 2023-11-30
Also published as: CN115033590A; ZA202305627B

Abstract

本发明提供了一种多域数据融合的方法、装置和存储介质，该方法包括：S1，在预先设置的多域调度融合区建立任务规则库；S2，提取任务规则库中选定的所有任务，针对选定的每一任务确定对应的数据域组及对应的执行引擎组，并获得与同一数据域相关的任务集合；S3，根据预先设置的任务优先级对与同一数据域相关的任务集合中的任务进行调度，优先调用与优先级较高的任务对应的执行引擎；S4，针对每一任务，将对应的执行引擎组中的各执行引擎从对应数据域返回的任务结果存储到多域调度融合区，并在多域调度融合区进行融合，获得融合结果。利用上述技术方案，可以实现高效的跨域数据融合。

Description

一种多域数据融合的方法、装置和存储介质

本PCT申请要求于2022年05月25日提交的申请号为CN 202210573368.1的中国在先申请的优先权，在此通过引用将该中国在先申请的全部内容并入本文。

技术领域

本发明涉及大数据处理领域，特别是涉及一种多域数据融合的方法、装置和存储介质。

背景技术

在当今时代，大数据已成为宝贵的资源。现有的大数据项目常常采用传统的“标准+集中”的融合方法。这种融合方法要求将各域的数据都转化成统一的标准格式，并集中存储在某一特定的域内。对于数据量大、结构复杂的大数据项目而言，这种处理方法存在以下不足：集中存储会导致很大的数据体量重复转换和存储，这会导致较高的项目建设成本；由于各域的业务变化频繁，这会导致产生的业务数据也会经常性地变化，而按照一定的标准集中存储的方式，往往难以及时匹配变化的数据格式及兼容旧的数据格式，这将导致对外赋能能力的下降。

发明内容

本发明的实施例提供了一种多域数据融合的方法、装置及存储介质，通过设置多域调度融合区、任务归一化和任务调度，实现了高效的跨域数据融合。

一方面，提供了一种多域数据融合的方法，用于使用多个域的数据来执行处理任务，包括：

S1，在预先设置的多域调度融合区建立任务规则库，任务规则库包括：待处理任务的标识、与待处理任务相关的数据源、与数据源相关的多个数据域、与各数据域对应的执行引擎；

S2，提取任务规则库中选定的所有任务，针对选定的每一任务确定对应的数据域组及对应的执行引擎组，并获得与同一数据域相关的任务集合；

S3，根据预先设置的任务优先级对与同一数据域相关的任务集合中的任务进行调度，优先调用与优先级较高的任务对应的执行引擎；

S4，针对选定每一任务，将对应的执行引擎组中的各执行引擎从对应数据域返回的任务结果存储到多域调度融合区，并在多域调度融合区进行融合，获得融合结果。

进一步地，该方法中，步骤S2包括：

提取任务规则库中选定的所有任务，形成待处理任务数据集Sn，并新建归一任务数据集合Tn；

遍历Sn，获得与各任务相关的数据源所对应的数据域组及对应的执行引擎组list(clyc)，并根据执行引擎组list(clyc)将Sn拆分存储到Tn，其中Tn＝{Sn，list(clyc)}；

遍历Tn，根据执行引擎对Tn中的记录进行聚合，将同一数据域的任务进行合并，获得与同一数据域相关的任务集合。

进一步地，该方法中，S3包括：

根据多域调度融合区分配的硬件资源确定最大的处理线程数m，m为大于0的自然数；

根据预先设置的优先级，对与同一数据域相关的任务集合中的任务进行排序，依次取优先级较高的m条任务；

调用与m条任务对应的执行引擎进行数据处理。

进一步地，该方法中，在S2之后、S3之前，还包括：

对与同一数据域相关的任务集合中的任务进行验证；如果验证通过，将对应任务的任务状态设置为可用；否则，将对应任务的任务状态设置为不可用；

S3中，参与任务调度的任务为与同一数据域相关的任务集合中任务状态可用的任务。

进一步地，该方法中，对任务进行验证的步骤包括：

调用任务对应的执行引擎，如果执行引擎返回结果的为0，则进行重试，且重试次数加1；如果重试次数达到预定阈值时，返回结果仍为0，则将任务状态设置为不可用；如果执行引擎返回结果的为1，则验证通过，将任务状态设置为可用。

进一步地，该方法中，返回的任务结果的格式由对应的执行引擎动态定义。

进一步地，该方法中，根据预先设置的数据分类设置融合结果的保存时限。

进一步地，该方法中，还包括根据任务来源和任务分级对融合结果进行过滤，并将过滤后的结果分发给任务来源方。

进一步地，该方法中，还包括：在分发完成后，将对应任务销毁的步骤。

另一方面，提供了一种多域数据融合的装置，包括存储器和处理器，存储器存储有至少一段程序，至少一段程序由处理器执行以实现如上文所述的多域数据融合的方法。

又一方面，提供了一种计算机可读存储介质，存储介质中存储有至少一段程序，至少一段程序由处理器执行以实现如上文所述的多域数据融合的方法。。

上述技术方案具有如下技术效果：

针对多域海量数据融合应用的场景，本发明实施例的多域数据融合技术方案利用预先设置的多域多域调度融合区，通过任务归一化和任务调度，将各业务场景下的数据调度任务标准化处理，形成统一的任务池，针对不同的数据域执行对应的执行引擎，并对任务执行结果进行有效地融合处理和精准分发，从而可以形成物理分散，逻辑统一的跨域的数据融合模式，实时有效地支撑了各业务场景下的大数据应用需求，提升了大数据红利共享的覆盖面。

附图说明

图1为本发明一实施例的多域数据融合的方法流程示意图；

图2为本发明另一实施例的多域数据融合的方法整体流程示意图；

图3为本发明一实施例的多域数据融合的装置的结构示意图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

现结合附图和具体实施方式对本发明的实施例进行进一步说明。

实施例一：

图1为本发明一实施例的多域数据融合的方法流程示意图。如图1，该实施例的多域数据融合的方法用于使用多个域的数据来执行处理任务，包括如下步骤：

S1，在预先设置的多域调度融合区建立任务规则库，任务规则库包括：待处理任务的标识、与待处理任务相关的数据源、与数据源相关的多个数据域、与各数据域对应的执行引擎；利用任务规则库可以将各业务场景下的数据处理或数据调度任务标准化；

S2，提取任务规则库中选定的所有任务，针对选定的每一任务确定对应的数据域组及对应的执行引擎组，并获得与同一数据域相关的任务集合；在大数据的许多业务场景下，一个任务可能对应多个不同的数据域，上述的数据域组可以包括对应数据源所涉及的各数据域，这些数据域可以属于不同的所有者；利用本发明实施例的多域数据融合方法，可以针对不同的数据域在不同的数据域之间构建一个处于中间地位的多域调度融合区，根据各数据域的情况匹配对应的执行引擎或处理引擎，上述执行引擎组包含与一任务相关的不同数据域所匹配或对应的执行引擎；执行引擎也可以根据任务的类型预先设定；

S3，根据预先设置的任务优先级对与同一数据域相关的任务集合中的任务进行调度，优先调用与优先级较高的任务对应的执行引擎；同一数据域可能涉及多个任务，在执行任务时按照任务的优先级来调用执行引擎执行任务可以实现考虑不同业务场景的任务调度，提高数据处理的效率；

S4，针对选定的每一任务，将对应的执行引擎组中的各执行引擎从对应数据域返回的任务结果存储到多域调度融合区，并在多域调度融合区进行融合，获得融合结果。利用多域调度融合区，可以方便地针对同一任务完成对来自不同域执行结果的结果融合。

实施例二：

图2为本发明另一实施例的多域数据融合的方法的整体流程示意图。如图2，在本发明该实施例中，多域数据融合的方法可在预设的多域调度融合区中执行。

在本发明该实施例的多域数据融合方法中，定义了任务规则库，该规则库中存储了与待处理任务相关的各属性，表1为规则库中的特征表示例。优选地，任务规则库包括：待处理任务的标识、与待处理任务相关的数据源、与数据源相关的多个数据域、与各数据域对应的执行引擎。根据需要，任务库中可以包含其他与任务相关的特征信息，如要求时限、关联特征、关联比例等，具体如表1所示。利用任务规则库可以获取各待处理任务的特征及相匹配的执行引擎等信息。属性LWLC表示任务类型标签，示例性地，如用1表示人员信息补充，用2表示手机建档，用3表示建模等。该标签仅为示例性的说明，根据实际业务场景可以设定与任务类型标签适配的任务内容。

表2为任务调度表，利用该任务调度表可以获取每个待处理的任务的调度信息。表1和表2都存储在多域调度融合区中。表1、表2中的属性名称仅为示例性的，根据需要可以采用其他的名称。

表1

表2

任务归一化：

该实施例中，数据域与执行引擎的对应关系或任务类型与执行引擎的对应关系预先建立。对任务进行归一化处理，例如对任务的主体标识进行归一化，然后进一步形成针对同一数据域的任务集合，这将会大大提高调度任务执行的效率，降低计算资源的使用率。

提取任务规则库的所有任务，形成待处理任务数据集Sn，并新建归一任务数据集合Tn。遍历Sn，分析得到任务中所涉及到的数据源Sn.CJLY所对应的执行引擎组list(clyc)。将Sn根据执行引擎拆分存储到Tn，如Tn＝{Sn，list(clyc)}。举例说明：现在存在一个数据处理任务1。任务1要求调用“宾馆住宿记录”这张资源，而在域1、域3中都存储有该资源，则Tn＝{任务1，域1引擎}，{任务1，域3引擎}。

接下来，遍历Tn，再根据数据域进行记录的聚合，将同一域的任务进行合并，形成最终的与同一数据域相关的任务集合即执行任务列表Tn{数据域，List(任务类型标签、任务标识、执行引擎)}。

传统的任务调度往往只考虑任务本身的执行情况，无法满足不同业务场景下的数据融合要求。本发明实施例中的任务调度将任务调度与权限控制、数据融合进行了综合考虑，可以满足从任务验证到调度再到最后销毁的全生命周期的管理，又满足特定业务场景下的按需数据应用和数据安全的要求，使构建多域调度融合区成为不同业务场景融合的较佳模式。

任务验证：

进一步的实现中，在建立任务规则库之后且在进行实际的任务调度之前可以对任务先进行验证。具体地，遍历Tn，将List中的任务标识数组的第一条记录作为参数，调用[Tn].数据域的List中的执行引擎，如果执行引擎的返回结果为0，则将任务的状态设置为不可用，重试，且重试次数加1即Tn.zt＝0 and Tn.ZXCC＝Tn.ZXCC+1。如果执行引擎的返回结果为1，则状态可用即Tn.zt＝1。当重试次数超过5次状态依然为0则不再重试，该任务的状态保持为不可用。最终取Tn状态为1的记录保存为Pn，即状态为可用的任务集合。通过任务验证，可以大大减少生产环境的异常比例，例如大数据平台将建好的动态模型推送至融合区进行模型测试验证，验证运行成功后，再将模型部署至指定域进行运算分析，确保生产环境的稳定运行。

任务调度：

针对同一数据域的任务集合，基于预先设置的优先级来进行任务调度。根据多域调度融合区分配的硬件资源得到最大的处理线程数m，遍历Pn，按任务的优先级进行降序排序，依次取Pn的前m条记录，将List中的任务标识数组作为参数，调用[Tn].数据域的List中的执行引擎执行正式的调度处理，并返回分析结果Rn。每次处理m条，直至遍历完针对同一数据域的所有任务对应的执行引擎。示例性地，优先级的设置可以结合考虑任务的类型、数据的路由、数据使用者的权限来设置。

调度结果存储：

本发明实施例的方法支持由与域对应的执行引擎动态地定义返回数据的属性，也可以支持根据预先设置的域数据项的安全级别进行返回，如可以根据预先设置的权限来返回数据。不同域返回的同一对象或同一任务的结果，可以存储在多域调度融合区，并在多域调度融合区进行融合如属性合并，得到最终的融合结果。这样就能适应灵活多变的业务场景数据融合。例如，针对手机的检索任务，可以在多域调度融合区建立手机档案。不同的域的执行引擎可按照各自的数据特性刻画出手机的维度，分别提供数据，最终可以在多域调度融合区中合并成完整档案，完成该手机的检索任务。

针对该例，各域的数据具体如下：

域1：手机标识、手机应用信息，APP包名、APP应用软件名称、APP版本号、APP安装时间、操作系统类型、应用信息；

域2：手机标识、通讯录信息：通讯录好友姓名(昵称)、好友手机号、手机归属地、好友备注、分组名称、数据源、人员标签、通话次数、通话时长、最近通话时间；

域3：手机标识、手机关联地址信息：账号类型、账号、手机号、姓名、身份证号、认证账号、联系地址、数据来源、数据源。

在进一步的实现中，还可按照预先设置的业务分级分类的原则来确定返回结果的保存时限。例如，对于人员档案而言，针对老人和小孩等低危人群的数据可以保存的时间短一些，而前科人员、重点管控人员等高危数据可以保存的时间久一些。

调度结果分发：

进一步的实现中，在任务执行完成后，根据任务来源和任务分级分类对融合结果Rn进行过滤，将预先设定不允许查阅的数据项过滤掉，将过滤后的Rn分发给任务来源方，并做好日志记录和审计工作，确保数据使用合理合规、安全可靠。示例性地，不允许查阅的数据项可以根据权限、安全来设定。

任务销毁：

进一步的实现中，在结果分发完成后，将任务状态置为不可用，即Tn.Zt＝0，不再执行针对该任务记录的任务调度。

本发明实施例的技术方案通过构建多域融合调度区、建立任务规则库、进行任务归一和任务调度，将各业务场景下的数据任务标准化处理，形成统一的任务池；针对不同的数据域执行对应的执行引擎，并对各执行引擎的执行结果进行有效地融合处理和精准分发，可形成物理分散，逻辑统一的跨域的数据融合模式，满足了各业务场景下的大数据融合需求，解决了大数据时代下，困扰已久的海量数据融合存在的问题，能实时有效地支撑各业务场景下的大数据应用需求，提升大数据红利共享的覆盖面。

实施例三：

本发明还提供一种多域数据融合的装置，如图3所示，该装置包括处理器301、存储器302、总线303、以及存储在存储器302中并可在处理器301上运行的计算机程序，处理器301包括一个或一个以上处理核心，存储器302通过总线303与处理器301相连，存储器302用于存储程序指令，处理器执行计算机程序时实现本发明实施例一的上述方法实施例中的步骤。

进一步地，作为一个可执行方案，识别微塑料的装置可以是计算机单元，该计算机单元可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机单元可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述计算机单元的组成结构仅仅是计算机单元的示例，并不构成对计算机单元的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件。例如计算机单元还可以包括输入输出设备、网络接入设备、总线等，本发明实施例对此不做限定。

进一步地，作为一个可执行方案，所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是计算机单元的控制中心，利用各种接口和线路连接整个计算机单元的各个部分。

存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现计算机单元的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

实施例四：

本发明还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现本发明实施例上述方法的步骤。

计算机单元集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Onny Memory)、随机存取存储器(RAM，Random Access Memory)以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

一种多域数据融合的方法，用于使用多个域的数据来执行处理任务，其特征在于，包括：

S1，在预先设置的多域调度融合区建立任务规则库，所述任务规则库包括：待处理任务的标识、与所述待处理任务相关的数据源、与各数据源相关的多个数据域、与各数据域对应的执行引擎；

S2，提取所述任务规则库中选定的所有任务，针对选定的每一任务确定对应的数据域组及对应的执行引擎组，并获得与同一数据域相关的任务集合；

S3，根据预先设置的任务优先级对与所述同一数据域相关的任务集合中的任务进行调度，优先调用与优先级较高的任务对应的执行引擎；

S4，针对选定的所述每一任务，将对应的执行引擎组中的各执行引擎从对应数据域返回的任务结果存储到所述多域调度融合区，并在所述多域调度融合区进行融合，获得融合结果。
根据权利要求1的方法，其特征在于，所述步骤S2包括：

提取所述任务规则库中所述选定的所有任务，形成待处理任务数据集Sn，并新建归一任务数据集合Tn；

遍历所述Sn，获得与各任务相关的数据源所对应的数据域组及对应的执行引擎组list(clyc)，并根据所述执行引擎组list(clyc)将所述Sn拆分存储到Tn，其中Tn＝{Sn，list(clyc)}；

遍历所述Tn，根据执行引擎对所述Tn中的记录进行聚合，将同一数据域的任务进行合并，获得与同一数据域相关的任务集合。
根据权利要求1的方法，其特征在于，所述S3包括：

根据所述多域调度融合区分配的硬件资源确定最大的处理线程数m，m为大于0的自然数；

根据预先设置的优先级，对所述与同一数据域相关的任务集合中的任务进行排序，依次取优先级较高的m条任务；

调用与所述m条任务对应的执行引擎进行数据处理。
根据权利要求1的方法，其特征在于，在所述S2之后、所述S3之前，还包括：

对所述与同一数据域相关的任务集合中的任务进行验证；如果验证通过，将对应任务的任务状态设置为可用；否则，将对应任务的任务状态设置为不可用；

所述S3中，参与任务调度的任务为所述与同一数据域相关的任务集合中任务状态可用的任务。
根据权利要求4的方法，其特征在于，对任务进行验证的步骤包括：

调用待验证任务对应的执行引擎，如果执行引擎返回结果的为0，则进行重试，且重试次数加1；如果重试次数达到预定阈值时，返回结果仍为0，则将任务状态设置为不可用；如果执行引擎返回结果的为1，则验证通过，将任务状态设置为可用。
根据权利要求1的方法，其特征在于，返回的任务结果的格式由对应的执行引擎动态定义。
根据权利要求1的方法，其特征在于，根据预先设置的数据分类设置所述融合结果的保存时限。
根据权利要求1的方法，其特征在于，还包括根据任务来源和任务分级对所述融合结果进行过滤，并将过滤后的结果分发给任务来源方。
根据权利要求1的方法，其特征在于，还包括：在分发完成后，将对应任务销毁的步骤。
一种多域数据融合的装置，其特征在于，包括存储器和处理器，存储器存储有至少一段程序，至少一段程序由处理器执行以实现如权利要求1至9中任一项所述的多域数据融合的方法。
一种计算机可读存储介质，其特征在于，存储介质中存储有至少一段程序，至少一段程序由处理器执行以实现如权利要求1至9中任一项所述的多域数据融合的方法。