WO2021147559A1

WO2021147559A1 - 业务数据质量检测方法、装置、计算机设备及存储介质

Info

Publication number: WO2021147559A1
Application number: PCT/CN2020/135593
Authority: WO
Inventors: 胡立波; 张茜; 侯宗元; 郑玉桂; 张敏
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-08-31
Filing date: 2020-12-11
Publication date: 2021-07-29
Also published as: CN112052138A

Abstract

一种业务数据质量检测方法、检测装置、计算机设备及存储介质，该方法包括：接收业务数据检测任务，获取包含数据表名、库名、检测队列和检测类型的检测参数；基于数据表名和库名访问数据库并确定数据表，根据数据表获取待检测业务数据；对待检测业务数据进行元数据解析和元数据识别，得到解析识别数据；根据检测类型确定至少一个检测元件，根据检测队列确定被分配的资源，使检测元件基于被分配的资源对解析识别数据进行检测，输出检测结果。该方法可以自动实现不同维度的数据检测，检测更加全面、智能，效率更高。

Description

业务数据质量检测方法、装置、计算机设备及存储介质

本申请要求于 2020 年 08 月 31 日提交中国专利局、申请号为 202010899921.1 ，发明名称为“业务数据质量检测方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及大数据技术领域，尤其涉及业务数据质量检测方法、装置、计算机设备及存储介质。

背景技术

监控系统是利用计算机、控制等技术实现环境的数据存储和采集、监控的系统，常见的监控系统诸如Zabbix、Nagios、Cacti等属于运维监控系统的范畴，可以支持硬件信息、CPU、内存、网络、磁盘空间性能、数据量、数据增量等各方面的指标监控，发明人发现这些监控系统对于具有业务逻辑的数据质量的监控不能够予以支持，数据质量的监控包括检测数据量、数据取值等是否异常，当前检测工作完全人工处理，处理过程耗费时力，且无法全面发现数据问题。

技术问题

本申请实施例的目的在于提出一种业务数据质量检测方法、装置、计算机设备及存储介质，以解决现有技术中采用人工处理的方式进行业务数据质量检测存在的检测效率低、检测不全面的问题。

技术解决方案

为了解决上述技术问题，本申请实施例提供一种业务数据质量检测方法，采用了如下所述的技术方案：

一种业务数据质量检测方法，包括下述步骤：

接收业务数据检测任务，根据所述业务数据检测任务获取对应的检测参数，所述检测参数至少包括数据表名、库名、检测队列和检测类型；

基于所述数据表名和所述库名访问数据库并确定数据表，根据所述数据表获取存储于所述数据库中的待检测业务数据，对所述待检测业务数据进行元数据解析和元数据识别，得到解析识别数据；

根据所述检测类型确定至少一个检测元件，并根据所述检测队列确定被分配的资源，使所述检测元件基于所述被分配的资源对所述解析识别数据进行检测，输出检测结果。

为了解决上述技术问题，本申请实施例还提供一种业务数据质量检测装置，采用了如下所述的技术方案：

一种业务数据质量检测装置，包括：

参数获取模块，用于接收业务数据检测任务，根据所述业务数据检测任务获取对应的检测参数，所述检测参数至少包括数据表名、库名、检测队列和检测类型；

数据获取模块，用于基于所述数据表名和所述库名访问数据库并确定数据表，根据所述数据表获取存储于所述数据库中的待检测业务数据，对所述待检测业务数据进行元数据解析和元数据识别，得到解析识别数据；

检测模块，用于根据所述检测类型确定至少一个检测元件，并根据所述检测队列确定被分配的资源，使所述检测元件基于所述被分配的资源对所述解析识别数据进行检测，输出检测结果。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时，使得所述处理器执行如下步骤：

有益效果

与现有技术相比，本申请实施例提供的业务数据质量检测方法、装置、计算机设备及存储介质主要有以下有益效果：

本申请接收业务数据检测任务后可以自动实现待检测业务数据的获取以及解析和识别，并通过检测元件实现模块化的检测，自动实现不同维度的数据检测，检测会更加的全面、智能，效率更高，同时可降低人力投入，特别对于上线运行的业务数据，可以实时监控指标的异常变化，有助于更早更及时的发现数据异常，提高业务数据的可用性、稳定性和准确性。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，下面描述中的附图对应于本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的业务数据质量检测方法的一个实施例的流程图；

图3是根据本申请的业务数据质量检测装置的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

本发明的最佳实施方式

本申请实施例提供业务数据质量检测方法的一个实施例，参考图2，所述的业务数据质量检测方法包括以下步骤：

S201,接收业务数据检测任务，根据所述业务数据检测任务获取对应的检测参数，所述检测参数至少包括数据表名、库名、检测队列和检测类型；

S202,基于所述数据表名和所述库名访问数据库并确定数据表，根据所述数据表获取存储于所述数据库中的待检测业务数据,对所述待检测业务数据进行元数据解析和元数据识别，得到解析识别数据；

S203,根据所述检测类型确定至少一个检测元件，并根据所述检测队列确定被分配的资源，使所述检测元件基于所述被分配的资源对所述解析识别数据进行检测，输出检测结果。

本实施例还提供业务数据质量检测装置的一个实施例，如图3所示，所述的业务数据质量检测装置包括：参数获取模块301、数据获取模块302以及检测模块303。

其中，所述参数获取模块301用于接收业务数据检测任务，根据所述业务数据检测任务获取对应的检测参数，所述检测参数至少包括数据表名、库名、检测队列和检测类型；所述数据获取模块302用于基于所述数据表名和所述库名访问数据库并确定数据表，根据所述数据表获取存储于所述数据库中的待检测业务数据，对所述待检测业务数据进行元数据解析和元数据识别，得到解析识别数据；所述检测模块303用于根据所述检测类型确定至少一个检测元件，并根据所述检测队列确定被分配的资源，使所述检测元件基于所述被分配的资源对所述解析识别数据进行检测，输出检测结果。

本申请实施例还提供计算机设备的一个实施例。如图4所示的计算机设备基本结构框图。所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43，所述存储器41中存储有计算机可读指令，所述处理器42执行如下步骤：

本申请实施例还提供计算机可读存储介质的一个实施例，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时，使得所述处理器执行如下步骤：

本发明的实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器( Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3 )、MP4( Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4 )播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的业务数据质量检测方法一般由服务器执行，相应地，业务数据质量检测装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，其示出了根据本申请的业务数据质量检测方法的一个实施例的流程图。所述的业务数据质量检测方法包括以下步骤：

下面对上述步骤进行展开说明。

对于步骤S201，新开发的数据表在上线前，或者上线后的数据表被更新后，都将进行业务数据的检测，确保数据表中的异常数据能够被及时检测出来，使得新开发的数据表达到业务的上线标准，或者使更新的数据表继续满足业务的上线标准。

在本申请实施例中，所述业务数据检测任务可由任务提交端提交，比如用户通过Web页面或终端等提交，在同时有多个业务数据检测任务被提交时，任务信息可被写入关系型数据库PG的任务表中，由数据检测端定时访问任务表以确认是否有检测任务需要执行，访问任务表可以通过设置守护进程来实现，可针对业务的数据质量检测设置多个守护进程，各守护进程以不同虚拟用户（具有不同的数据权限）的身份运行在集群的不同节点之上，每个守护进程每隔一段时间发起访问请求，以确认是否有任务需要执行。在任务表中存在多个任务信息时，对任务表中的业务数据检测任务依次执行检测操作。

在本实施例中，业务数据检测任务涉及需要检测的数据表及检测类型等信息，具体对应于检测参数，包括数据表名、库名、检测队列和检测类型等，通过业务数据检测任务可以确定每次检测动用的资源和待检测的内容。

具体的，所述数据表名用于确定待检测的数据表。

所述库名用于确定存储待检测的数据表的数据库。

所述检测队列用于从现有的若干处理队列中确定至少一个处理队列进行检测运算，每个处理队列被分配有独立的检测资源，根据待检测的数据表包含的数据量的大小，可以选择检测资源不同的检测队列，或者存在多个检测任务时，这些检测任务被分配至不同检测队列进行同步检测，具体可根据库名和预设的配置信息自动选择至少一个默认的处理队列。

所述检测类型用于确定针对待检测的数据表执行何种检测，比如对整体数据量、某个或某些数据字段的取值（或取值范围）是否异常进行检测。

在本实施例中，所述检测类型至少包括统计型和预测型，其中，检测类型为统计型时，具体为对数据表执行某个或某几个统计项的统计操作，统计结果可用于业务运行过程中的数据监测；检测类型为预测型时，具体为基于异常检测模型对数据表进行异常检测。

在进一步的实施例中，所述统计型包括描述性统计、趋势统计、对比统计等。

其中，描述性统计和趋势统计会自动计算预设的多个指标，例如对数值型字段，可包括记录数、最大值、最小值、均值、分位数和饱和度等指标；对于非数值型字段，可包括记录数、饱和度等指标；对于枚举值类型字段，可包括各枚举值的分布等指标；在进行检测时，可以选取部分指标进行检测，一方面通过指标来汇总描述数据表的各个维度，另一方面通过指标取值是否合理/是否有异常的变化来检测数据是否异常，因此其中部分指标的检测结果可用于后续的数据监测，部分指标的检测结果可用于完善数据表的描述性信息。

对比统计具体通过预设的字段的检查规则进行，例如预设枚举值取值范围、数据型取值范围、字段编码等检查规则，比方说格式化的手机号字段，应为11位的纯数字，又或者性别字段取值范围不能超出男、女、未知三种。

在进一步的实施例中，所述异常检测模型可采用孤立森林异常检测模型，孤立森林异常检测模型所采用的孤立森林算法中，“异常点”被定义为“容易被孤立的离群点”，分布稀疏且离密度高的群体较远。本申请实施例在由待检测业务数据形成的数据集上，随机选择特征以及拆分的值，构造多颗随机树，由于“异常点”更加的稀少，分布也更加的稀疏，会更容易被区分开，距离根节点的距离会更短，从而可检测出异常的数据。相比人工评估，采用模型预测时判断标准容易界定，可以充分考虑不同数据的特性。在采用异常检测模型进行异常检测时，本申请实施例会考虑到日期因素，比如月份、工作日与否、假期与否等，避免对数据正常的波动报异常。

对于步骤S202，被访问的数据库可以仅有一个，也可有多个，相应的，数据表和待检测的业务数据可存储在一个或多个数据库中。

在本实施例中，所述元数据解析是指通过执行hive ddl命令，获取系统里数据表的建表语句，根据建表语句获取待检测业务数据中的列信息（哪些列、列类似、列备注信息）、表信息（表时间、数据压缩格式等）、表数据信息（有无分区、文件数、文件大小等）等，然后通过python程序解析、存储为结构化数据，供其他后续使用。

进一步地，所述元数据识别可以自动识别数据类型，业务数据由关系型数据库导入Hive时，将各类型的值（数值、日期等）都按照字符串格式来存储，即存储为文本字段，本申请实施例元数据识别使用元数据解析的出参数据，通过正则表达式对文本字段的真实类型做出判断，识别出业务数据原本的类型，具体可以识别整型、浮点数型、日期等数据类型，例如：一个字符串以+或者-开头，后跟的全为0-9数字，则会被认为是数值型；形如xxxx-yy-zz，这里x、y、z均为正整数且取值在合理的范围内，则会被认为是日期型。

待检测业务数据进行上述的元数据解析和元数据识别后即得到解析识别数据，解析识别数据为具有确定的数据类型的结构化数据。

在一些实施例中，所述根据所述数据表获取存储于所述数据库中的待检测业务数据包括：确定所述数据表包含的数据量，判断所述数据表的数据量是否大于预设阈值；当所述数据表的数据量不大于预设阈值时，直接根据所述数据表获取所述待检测业务数据，否则从所述数据表中随机抽取预设数量的数据生成临时数据表，根据所述临时数据表获取所述待检测业务数据。

具体的，所述预设数量不超过所述预设阈值，比如30万条。当生成临时数据表时，后续将针对临时数据表进行元数据解析和元数据识别，在实际处理时，元数据识别涉及数据类型间的兼容，如一列数据，大部分数字，少量为字符串，整列也只能被归类为字符串，原则上随机抽样部分数据做判别即可。在针对临时数据表进行业务数据检测时，尽管检测结果精确度相比于全量数据时降低，但在面对超大数据表时可有效降低检测元件的检测耗时，并提升检测元件的检测稳定性，对于采用全量数据比较耗时、结果又相对不要求特别精确（如分位数，精确的分位数涉及全量数据排序，一般不会计算精确值）的检测过程，采用临时数据表尤其有效。此外，在另一些实施例中，当数据表数据量过大、且检测过程通过Spark执行时，也可以通过优化Spark的资源参数配置、部分计算过程使用SparkDataFrame代替SparkSQL的操作来提高检测效率和稳定性。

在一些实施例中，在所述确定所述数据表包含的数据量之后，所述方法还包括：确定的各所述检测元件执行检测时所需的最低数据量；判断步骤各所述检测元件所需的最低数据量是否大于所述数据表包含的数据量，并将所需的最低数据量大于所述数据表包含的数据量所对应的检测元件剔除。在实际检测时，一些检测元件对待检测数据的数据量有要求，例如对数据表做模型预测来检测数据异常时，数据量过小会导致模型训练过程异常，进而会导致数据检测不准确，此时将跳过模型评测，仅在输出的检测结果表里做相应的记录。

在一些实施例中，在所述根据所述检测类型确定至少一个检测元件之前，所述方法还包括：获取预设的特殊字符识别配置信息，根据特征字符识别配置信息进行元数据识别。采用此步骤可以为了提高元数据识别的准确度，例如当日期类型字段中存在“NULL”字符串时，可能误识别为字符串，而未识别为日期类型，通过预设的特殊字符配置信息可以实现准确的识别，类似的特殊字符还有字符串头尾多余的空格等。

对于步骤S203，所述检测队列被分配的资源可包括处理器、存储空间等。

所述检测元件对所述解析识别数据进行检测输出的检测结果数据可写入PG数据库，可通过报表查看或下载结果数据，由于业务数据往往对接多个机构或部门，可针对不同机构生成不同的报表或结果数据，确保数据的安全性和私密性。此外，检测元件执行检测时，将实时更新日志信息。

在本步骤中，前文提到通过守护进程来确认是否有任务需要执行，当确认有任务时，本步骤相应的通过守护进行控制检测元件依次执行检测。

上述实施例提到检测类型包含有统计型和预测型，每一种检测类型对应一个检测元件，相应的上述检测元件可以有描述性统计元件、趋势统计元件、对比统计元件、模型预测元件等。在本申请实施例中，这些元件以封装模块的形式存在，具体的，各元件为基于要执行检测的检测类型自动生成的封装SQL代码，执行检测时通过Spark执行。

在本实施例，通过检测类型这一参数来确定守护进行要执行的检测元件，比如检测类型的参数值为“全部”，则依次执行所有检测元件，若检测类型的参数值为“描述性统计”，则只会执行描述性统计元件。本申请实施例在对检测类型进行参数赋值时，可以通过数字来标识检测元件的类型，比如“0”标识“全部”，“1”标识“描述性统计元件”，“2”标识“趋势统计元件”，“3”标识“模型预测元件”等，当然，在其他实施例中也可用其他标识方式，此处不做限定。

在本申请实施例中，上述元数据解析和元数据识别的执行部件也可以封装元件的形式体现，分别对应元数据解析元件和元数据识别元件。

相应的，在对检测出来存在数据异常时，也可通过配置问题发现元件来实现数据异常问题的汇总和输出。具体的，问题发现元件可根据描述性统计、趋势统计、对比统计、模型预测各元件获取的检测数据，自动收集、汇总数据表中可能存在的问题，同时对数据问题的“严重程度”进行划分，便于可以做分层的展示，如：空表、主键冲突为严重问题；某字段的饱和度低于30%为一般严重问题。在进行数据展示时，根据问题的严重程度，提供筛选器或者拆分为不同的图表展示，对于比较严重的数据问题可设置提醒或告警，比如接入即时通信软件、邮箱等实现告警信息的发送。在本申请实施例中，问题发现元件并非必须，比如部分场景下出于探索数据、了解数据概况的需求，只需要输出各字段的饱和度、数值型字段的最大值、最小值、均值等描述性统计信息，不涉及到异常信息，故本申请实施例在根据根据检测类型确定至少一个检测元件后，还包括确定各检测元件是否涉及数据异常检测，若涉及则加载问题发现元件，否则不加载。本申请实施例通过将执行数据检测涉及的各部分模块化，可以方便调用，提高检测的灵活性。

在一些实施例中，在所述使所述检测元件基于所述被分配的资源对所述解析识别数据进行检测之前，所述方法还包括：当根据所述检测类型确定有至少两个检测元件时，判断各所述检测元件之间是否存在依赖关系，若存在则根据所述依赖关系确定各所述检测元件的执行顺序。具体的，在存在多个检测元件时，部分检测元件的检测可能存在先后顺序，比如模型预测模块依赖于趋势统计模块，则二者之间存储依赖关系，此时趋势统计模块执行在模型预测模块之前，而前述的问题发现模块依赖于在前的所有检测元件，则问题发现模块最后执行。

在一些实施例中，在所述使所述检测元件基于所述被分配的资源对所述解析识别数据进行检测之前，所述方法还包括：获取并解析辅助参数，判断所述辅助参数中的各参数项的赋值是否为空，并根据赋值非空的参数项对待进行元数据解析和元数据识别的所述待检测业务数据进行筛选，同时根据赋值非空的参数项对根据所述检测类型确定的检测元件进行筛选。具体的，所述检测参数还可包括辅助参数，辅助参数可为用户自定义的参数，具体的，辅助参数可包括测试字段、数值型字段、字符型字段、枚举型字段、业务日期字段、条件、主键、虚拟用户等参数项，在实际检测时，可根据这些参数项的赋值情况来对待进行元数据解析和元数据识别的所述待检测业务数据进行筛选，以及对根据所述检测类型确定的检测元件进行筛选。下面对这些参数项进行展开说明。

在本实施例中，测试字段用于指定要检测的字段，如果该参数为空，则默认评测全部字段，如果该参数不为空，则后续的元数据解析和元数据识别仅针对指定要检测的字段。

数值型字段用于指定哪些字段为数值型，字符型字段用于指定哪些字段为字符型，枚举型字段用于指定哪些字段为枚举型，如果数值型字段、字符型字段、枚举型字段这三个参数为空，则使用元数据识别的结果，若不为空，则元数据识别仅针对未指定类型的字段。

业务日期字段用于指定业务日期字段，则以该字段为业务日期，待检测的数据若含有该字段，则可执行趋势统计和模型预测，如该参数为空，则即便检测类型参数包含趋势统计和模型预测，也不执行趋势统计和模型预测。

条件参数用于标识是否对数据表中的数据进行筛选，比如对测试表做where条件筛选，如果该参数为空，则不做条件筛选；

主键用于标识是否对数据表进行唯一性测试，如果输入该参数，则会执行主键或联合主键的唯一性测试，如果该参数为空，则不执行主键唯一性测试；

虚拟用户用于指定数据检测时的执行脚本虚拟用户，如果为空，则选择默认的虚拟用户。

在一些实施例中，所述根据所述检测类型确定至少一个检测元件包括：判断当前是否存在与所述检测类型相对应的检测元件，若存在则直接获取对应的所述检测元件，否则基于所述检测类型生成与所述检测类型相对应的新的检测元件。例如基于描述性统计这一检测类型来生成描述性统计元件，具体通过获取对应的描述性统计配置信息，这些配置信息可包含描述性统计需要统计的类别、数据范围、时间范围、统计规则等，基于配置信息来生成描述性统计元件。对于生成的检测元件，每个检测元件被封装成互相独立的Python函数，每个检测元件可独立运行，进行检测时，待执行的各个检测元件由一个shell主程序串联构成数据质量检测整体功能，由于各检测元件互相独立，可以方便地增删模块，或者选择性执行一部分模块。因此可以根据检测需求生成新的检测元件或当某一检测需求不存在时删除对应的检测元件，灵活性高。

本申请实施例提供的业务数据质量检测方法在接收业务数据检测任务后可以自动实现待检测业务数据的获取以及解析和识别，并通过检测元件实现模块化的检测，自动实现不同维度的数据检测，检测会更加的全面、智能，效率更高，同时可降低人力投入，特别对于上线运行的业务数据，可以实时监控指标的异常变化，有助于更早更及时的发现数据异常更新、不完全更新、漏更新等数据异常，以及及时发现计算逻辑异常、数据指标异常变化等问题，提高业务数据的可用性、稳定性和准确性。此外，本申请实施例可自动生成数据表的基本信息、描述性信息等，这有助于提升数据探索、数据梳理等工作的效率。使用方便，可以通过Web页面提交任务，检测结果自动生成报表，可视化的方式查看、使用数据。

需要强调的是，为进一步保证信息的私密和安全性，根据数据表获取的待检测业务数据还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的所述计算机可读存储介质可以是非易失性存储介质，也可以是易失性存储介质，比如可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）等非易失性存储介质，或随机存储记忆体（Random Access Memory，RAM）等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种业务数据质量检测装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的业务数据质量检测装置包括：参数获取模块301、数据获取模块302以及检测模块303。

具体的，新开发的数据表在上线前，或者上线后的数据表被更新后，都可通过业务数据质量检测装置进行业务数据的检测，确保数据表中的异常数据能够被及时检测出来，使得新开发的数据表达到业务的上线标准，或者使更新的数据表继续满足业务的上线标准。

在本申请实施例中，所述业务数据检测任务可由任务提交端提交，比如用户通过Web页面或终端等提交，在同时有多个业务数据检测任务被提交时，任务信息可被写入关系型数据库PG的任务表中，业务数据质量检测装置定时访问任务表以确认是否有检测任务需要执行，访问任务表可以通过设置守护进程来实现，关于守护进程具体可参考上述方法实施例的相关内容，在此不作展开。在任务表中存在多个任务信息时，业务数据质量检测装置对任务表中的业务数据检测任务依次执行检测操作。

在本实施例中，业务数据检测任务涉及需要检测的数据表及检测类型等信息，具体对应于检测参数，包括数据表名、库名、检测队列和检测类型等，参数获取模块301通过业务数据检测任务可以确定每次检测动用的资源和待检测的内容。对于数据表名、库名、检测队列和检测类型等的相关内容可参考上述方法实施例，在此不作展开。

在本实施例中，数据获取模块302访问的数据库可以仅有一个，也可有多个，即数据表和待检测的业务数据可存储在一个或多个数据库中。

在本实施例中，数据获取模块302进行元数据解析是指通过执行hive ddl命令，获取系统里数据表的建表语句，根据建表语句获取待检测业务数据中的列信息（哪些列、列类似、列备注信息）、表信息（表时间、数据压缩格式等）、表数据信息（有无分区、文件数、文件大小等）等，然后通过python程序解析、存储为结构化数据，供其他后续使用。

进一步地，数据获取模块302通过元数据识别可以自动识别数据类型，业务数据由关系型数据库导入Hive时，将各类型的值（数值、日期等）都按照字符串格式来存储，即存储为文本字段，本申请实施例元数据识别使用元数据解析的出参数据，通过正则表达式对文本字段的真实类型做出判断，识别出业务数据原本的类型，具体可以识别整型、浮点数型、日期等数据类型，例如：一个字符串以+或者-开头，后跟的全为0-9数字，则会被认为是数值型；形如xxxx-yy-zz，这里x、y、z均为正整数且取值在合理的范围内，则会被认为是日期型。

数据获取模块302对待检测业务数据进行上述的元数据解析和元数据识别后即得到解析识别数据，解析识别数据为具有确定的数据类型的结构化数据。

在一些实施例中，所述数据获取模块302根据所述数据表获取存储于所述数据库中的待检测业务数据时，具体用于确定所述数据表包含的数据量，判断所述数据表的数据量是否大于预设阈值；当所述数据表的数据量不大于预设阈值时，直接根据所述数据表获取所述待检测业务数据，否则从所述数据表中随机抽取预设数量的数据生成临时数据表，根据所述临时数据表获取所述待检测业务数据。关于临时数据表的相关内容具体可参考上述方法实施例，在此不作展开。

在一些实施例中，在所述数据获取模块302确定所述数据表包含的数据量之后，所述检测模块303还用于确定的各所述检测元件执行检测时所需的最低数据量，并判断步骤各所述检测元件所需的最低数据量是否大于所述数据表包含的数据量，并将所需的最低数据量大于所述数据表包含的数据量所对应的检测元件剔除。在实际检测时，一些检测元件对待检测数据的数据量有要求，例如对数据表做模型预测来检测数据异常时，数据量过小会导致模型训练过程异常，进而会导致数据检测不准确，此时检测模块303将跳过模型评测，仅在输出的检测结果表里做相应的记录。

在一些实施例中，所述检测模块303在根据所述检测类型确定至少一个检测元件之前，还用于获取预设的特殊字符识别配置信息，根据特征字符识别配置信息进行元数据识别。采用此步骤可以为了提高元数据识别的准确度，例如当日期类型字段中存在“NULL”字符串时，可能误识别为字符串，而未识别为日期类型，通过预设的特殊字符配置信息可以实现准确的识别，类似的特殊字符还有字符串头尾多余的空格等。

在本实施例中，所述检测模块303确定检测队列被分配的资源时具体用于确定执行检测时所调用的处理器、存储空间等资源。

所述检测模块303通过检测元件对所述解析识别数据进行检测输出的检测结果数据可写入PG数据库，可通过报表查看或下载结果数据，由于业务数据往往对接多个机构或部门，可针对不同机构生成不同的报表或结果数据，确保数据的安全性和私密性。此外，检测元件执行检测时，将实时更新日志信息。

前文提到通过守护进程来确认是否有任务需要执行，当确认有任务时，所述检测模块303相应的通过守护进行控制检测元件依次执行检测。

前文提到检测类型包含有统计型和预测型，每一种类型对应一个检测元件，相应的所述检测模块303调用的检测元件可以有描述性统计元件、趋势统计元件、对比统计元件、模型预测元件等。在本申请实施例中，这些元件以封装模块的形式存在，具体的，各元件为基于要执行检测的检测类型自动生成的封装SQL代码，执行检测时通过Spark执行。

在本实施例，所述检测模块303通过检测类型这一参数来确定守护进行要执行的检测元件，具体可参考上述方法实施例，在此不作展开。

在本申请实施例中，上述元数据解析和元数据识别的执行部件也可以封装元件的形式体现，分别对应元数据解析元件和元数据识别元件。相应的，在对检测出来存在数据异常时，也可通过配置问题发现元件来实现数据异常问题的汇总和输出，具体可参考上述方法实施例，在此不作展开。

在一些实施例中，所述检测模块303在使所述检测元件基于所述被分配的资源对所述解析识别数据进行检测之前，还用于在根据所述检测类型确定有至少两个检测元件时，判断各所述检测元件之间是否存在依赖关系，若存在则根据所述依赖关系确定各所述检测元件的执行顺序。具体的，在存在多个检测元件时，部分检测元件的检测可能存在先后顺序，比如模型预测模块依赖于趋势统计模块，则二者之间存储依赖关系，此时趋势统计模块执行在模型预测模块之前，而前述的问题发现模块依赖于在前的所有检测元件，则问题发现模块最后执行。

在一些实施例中，所述检测模块303在使所述检测元件基于所述被分配的资源对所述解析识别数据进行检测之前，所述参数获取模块301还用于获取并解析辅助参数，所述数据获取模块302还用于判断所述辅助参数中的各参数项的赋值是否为空，根据赋值非空的参数项对待进行元数据解析和元数据识别的所述待检测业务数据进行筛选，所述检测模块303还用于根据赋值非空的参数项对根据所述检测类型确定的检测元件进行筛选。所述辅助参数可为用户自定义的参数，具体的，辅助参数可包括测试字段、数值型字段、字符型字段、枚举型字段、业务日期字段、条件、主键、虚拟用户等参数项，这些参数项的相关内容可参考上述方法实施例，在此不作展开。在实际检测时，可根据这些参数项的赋值情况来对待进行元数据解析和元数据识别的所述待检测业务数据进行筛选，以及对根据所述检测类型确定的检测元件进行筛选。

在一些实施例中，所述检测模块303根据所述检测类型确定至少一个检测元件时，具体用于判断当前是否存在与所述检测类型相对应的检测元件，若存在则直接获取对应的所述检测元件，否则基于所述检测类型生成与所述检测类型相对应的新的检测元件。对于生成的检测元件，每个检测元件被封装成互相独立的Python函数，每个检测元件可独立运行，进行检测时，待执行的各个检测元件由一个shell主程序串联构成数据质量检测整体功能，由于各检测元件互相独立，可以方便地增删模块，或者选择性执行一部分模块。因此可以根据检测需求生成新的检测元件或当某一检测需求不存在时删除对应的检测元件，灵活性高。

本申请提供的业务数据质量检测装置在接收业务数据检测任务后可以自动实现待检测业务数据的获取以及解析和识别，并通过检测元件实现模块化的检测，自动实现不同维度的数据检测，检测会更加的全面、智能，效率更高，同时可降低人力投入，特别对于上线运行的业务数据，可以实时监控指标的异常变化，有助于更早更及时的发现数据异常更新、不完全更新、漏更新等数据异常，以及及时发现计算逻辑异常、数据指标异常变化等问题，提高业务数据的可用性、稳定性和准确性。此外，本申请实施例可自动生成数据表的基本信息、描述性信息等，这有助于提升数据探索、数据梳理等工作的效率。使用方便，可以通过Web页面提交任务，检测结果自动生成报表，可视化的方式查看、使用数据。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43，所述存储器41中存储有计算机可读指令，所述处理器42执行所述计算机可读指令时实现上述方法实施例中所述的业务数据质量检测方法的步骤，并具有与上述业务数据质量检测方法相对应的有益效果，在此不作展开。

需要指出的是，图中仅示出了具有存储器41、处理器42、网络接口43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器 (Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

在本实施例中，所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如对应于上述业务数据质量检测方法的计算机可读指令等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器（Central Processing Unit，CPU）、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据，例如运行对应于所述业务数据质量检测方法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的业务数据质量检测方法的步骤，并具有与上述业务数据质量检测方法相对应的有益效果，在此不作展开。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干计算机可读指令用以使得一台终端设备（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

一种业务数据质量检测方法，包括下述步骤：

接收业务数据检测任务，根据所述业务数据检测任务获取对应的检测参数，所述检测参数至少包括数据表名、库名、检测队列和检测类型；

基于所述数据表名和所述库名访问数据库并确定数据表，根据所述数据表获取存储于所述数据库中的待检测业务数据，对所述待检测业务数据进行元数据解析和元数据识别，得到解析识别数据；

根据所述检测类型确定至少一个检测元件，并根据所述检测队列确定被分配的资源，使所述检测元件基于所述被分配的资源对所述解析识别数据进行检测，输出检测结果。
根据权利要求1所述的业务数据质量检测方法，其中，所述根据所述数据表获取存储于所述数据库中的待检测业务数据包括：

确定所述数据表包含的数据量，判断所述数据表的数据量是否大于预设阈值；当所述数据表的数据量不大于预设阈值时，直接根据所述数据表获取所述待检测业务数据，否则从所述数据表中随机抽取预设数量的数据生成临时数据表，根据所述临时数据表获取所述待检测业务数据。
根据权利要求2所述的业务数据质量检测方法，其中，在所述确定所述数据表包含的数据量之后，所述方法还包括：

确定的各所述检测元件执行检测时所需的最低数据量；

判断步骤各所述检测元件所需的最低数据量是否大于所述数据表包含的数据量，并将所需的最低数据量大于所述数据表包含的数据量所对应的检测元件剔除。
根据权利要求1至3任一项所述的业务数据质量检测方法，其中，在所述根据所述检测类型确定至少一个检测元件之前，所述方法还包括：获取预设的特殊字符识别配置信息，根据特征字符识别配置信息进行元数据识别。
根据权利要求1至3任一项所述的业务数据质量检测方法，其中，在所述使所述检测元件基于所述被分配的资源对所述解析识别数据进行检测之前，所述方法还包括：

当根据所述检测类型确定有至少两个检测元件时，判断各所述检测元件之间是否存在依赖关系，若存在则根据所述依赖关系确定各所述检测元件的执行顺序。
根据权利要求1至3任一项所述的业务数据质量检测方法，其中，在所述使所述检测元件基于所述被分配的资源对所述解析识别数据进行检测之前，所述方法还包括：

获取并解析辅助参数，判断所述辅助参数中的各参数项的赋值是否为空，并根据赋值非空的参数项对待进行元数据解析和元数据识别的所述待检测业务数据进行筛选，同时根据赋值非空的参数项对根据所述检测类型确定的检测元件进行筛选。
根据权利要求1至3任一项所述的业务数据质量检测方法，其中，所述根据所述检测类型确定至少一个检测元件包括：

判断当前是否存在与所述检测类型相对应的检测元件，若存在则直接获取对应的所述检测元件，否则基于所述检测类型生成与所述检测类型相对应的新的检测元件。
一种业务数据质量检测装置，包括：

参数获取模块，用于接收业务数据检测任务，根据所述业务数据检测任务获取对应的检测参数，所述检测参数至少包括数据表名、库名、检测队列和检测类型；

数据获取模块，用于基于所述数据表名和所述库名访问数据库并确定数据表，根据所述数据表获取存储于所述数据库中的待检测业务数据，对所述待检测业务数据进行元数据解析和元数据识别，得到解析识别数据；

检测模块，用于根据所述检测类型确定至少一个检测元件，并根据所述检测队列确定被分配的资源，使所述检测元件基于所述被分配的资源对所述解析识别数据进行检测，输出检测结果。
一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

接收业务数据检测任务，根据所述业务数据检测任务获取对应的检测参数，所述检测参数至少包括数据表名、库名、检测队列和检测类型；

基于所述数据表名和所述库名访问数据库并确定数据表，根据所述数据表获取存储于所述数据库中的待检测业务数据，对所述待检测业务数据进行元数据解析和元数据识别，得到解析识别数据；

根据所述检测类型确定至少一个检测元件，并根据所述检测队列确定被分配的资源，使所述检测元件基于所述被分配的资源对所述解析识别数据进行检测，输出检测结果。
根据权利要求9所述的计算机设备，其中，所述处理器执行所述计算机可读指令实现所述根据所述数据表获取存储于所述数据库中的待检测业务数据的步骤时，具体实现如下步骤：

确定所述数据表包含的数据量，判断所述数据表的数据量是否大于预设阈值；当所述数据表的数据量不大于预设阈值时，直接根据所述数据表获取所述待检测业务数据，否则从所述数据表中随机抽取预设数量的数据生成临时数据表，根据所述临时数据表获取所述待检测业务数据。
根据权利要求10所述的计算机设备，其中，所述处理器在执行所述计算机可读指令实现所述确定所述数据表包含的数据量的步骤之后，所述处理器执行所述计算机可读指令时还实现如下步骤：

确定的各所述检测元件执行检测时所需的最低数据量；

判断步骤各所述检测元件所需的最低数据量是否大于所述数据表包含的数据量，并将所需的最低数据量大于所述数据表包含的数据量所对应的检测元件剔除。
根据权利要求9至11任一项所述的计算机设备，其中，所述处理器在执行所述计算机可读指令实现所述根据所述检测类型确定至少一个检测元件的步骤之前，所述处理器执行所述计算机可读指令时还实现如下步骤：

获取预设的特殊字符识别配置信息，根据特征字符识别配置信息进行元数据识别。
根据权利要求9至11任一项所述的计算机设备，其中，所述处理器在执行所述计算机可读指令实现所述使所述检测元件基于所述被分配的资源对所述解析识别数据进行检测的步骤之前，所述处理器执行所述计算机可读指令时还实现如下步骤：

当根据所述检测类型确定有至少两个检测元件时，判断各所述检测元件之间是否存在依赖关系，若存在则根据所述依赖关系确定各所述检测元件的执行顺序。
根据权利要求9至11任一项所述的计算机设备，其中，所述处理器在执行所述计算机可读指令实现所述使所述检测元件基于所述被分配的资源对所述解析识别数据进行检测的步骤之前，所述处理器执行所述计算机可读指令时还实现如下步骤：

获取并解析辅助参数，判断所述辅助参数中的各参数项的赋值是否为空，并根据赋值非空的参数项对待进行元数据解析和元数据识别的所述待检测业务数据进行筛选，同时根据赋值非空的参数项对根据所述检测类型确定的检测元件进行筛选。
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时，使得所述处理器执行如下步骤：

接收业务数据检测任务，根据所述业务数据检测任务获取对应的检测参数，所述检测参数至少包括数据表名、库名、检测队列和检测类型；

基于所述数据表名和所述库名访问数据库并确定数据表，根据所述数据表获取存储于所述数据库中的待检测业务数据，对所述待检测业务数据进行元数据解析和元数据识别，得到解析识别数据；

根据所述检测类型确定至少一个检测元件，并根据所述检测队列确定被分配的资源，使所述检测元件基于所述被分配的资源对所述解析识别数据进行检测，输出检测结果。
根据权利要求15所述的计算机可读存储介质，其中，所述计算机可读指令被所述处理器执行，使得所述处理器执行所述根据所述数据表获取存储于所述数据库中的待检测业务数据的步骤时，具体执行如下步骤：

确定所述数据表包含的数据量，判断所述数据表的数据量是否大于预设阈值；当所述数据表的数据量不大于预设阈值时，直接根据所述数据表获取所述待检测业务数据，否则从所述数据表中随机抽取预设数量的数据生成临时数据表，根据所述临时数据表获取所述待检测业务数据。
根据权利要求16所述的计算机可读存储介质，其中，所述计算机可读指令被所述处理器执行，使得所述处理器在执行所述确定所述数据表包含的数据量的步骤之后，还执行如下步骤：

确定的各所述检测元件执行检测时所需的最低数据量；

判断步骤各所述检测元件所需的最低数据量是否大于所述数据表包含的数据量，并将所需的最低数据量大于所述数据表包含的数据量所对应的检测元件剔除。
根据权利要求15至17任一项所述的计算机可读存储介质，其中，所述计算机可读指令被所述处理器执行，使得所述处理器在执行所述根据所述检测类型确定至少一个检测元件的步骤之前，还执行如下步骤：

获取预设的特殊字符识别配置信息，根据特征字符识别配置信息进行元数据识别。
根据权利要求15至17任一项所述的计算机可读存储介质，其中，所述计算机可读指令被所述处理器执行，使得所述处理器在执行所述使所述检测元件基于所述被分配的资源对所述解析识别数据进行检测的步骤之前，还执行如下步骤：

当根据所述检测类型确定有至少两个检测元件时，判断各所述检测元件之间是否存在依赖关系，若存在则根据所述依赖关系确定各所述检测元件的执行顺序。
根据权利要求15至17任一项所述的计算机可读存储介质，其中，所述计算机可读指令被所述处理器执行，使得所述处理器在执行所述使所述检测元件基于所述被分配的资源对所述解析识别数据进行检测的步骤之前，还执行如下步骤：

获取并解析辅助参数，判断所述辅助参数中的各参数项的赋值是否为空，并根据赋值非空的参数项对待进行元数据解析和元数据识别的所述待检测业务数据进行筛选，同时根据赋值非空的参数项对根据所述检测类型确定的检测元件进行筛选。