WO2015103880A1

WO2015103880A1 - 一种对批量数据进行自动修复的方法及系统

Info

Publication number: WO2015103880A1
Application number: PCT/CN2014/084625
Authority: WO
Inventors: 卢长烛; 贾西贝
Original assignee: 深圳市华傲数据技术有限公司
Priority date: 2014-01-07
Filing date: 2014-08-18
Publication date: 2015-07-16
Also published as: CN104253850A

Abstract

本发明提供一种对批量数据进行自动修复的方法，该方法包括：检测当前批量待录入数据，并触发自动修复步骤；采用规则过滤并逐条遍历可能不正确的待录入数据步骤；通过与用户交互来确定正确的数据步骤；根据上述正确的数据和规则来审核其他不确定的数据，并对错误的数据进行标记步骤；子系统根据参考数据对上述错误的数据进行更新，并将更新后的数据录入到子系统的数据库步骤。本发明通过采用规则对批量数据进行过滤并与用户交互确定正确数据从而对其他不确定数据进行规则审核与修复，从而对批量数据进行了自动修复，确保了数据正确和数据质量。另外，本发明还提供一种对批量数据进行自动修复的系统。

Description

一种对批量数据进行自动修复的方法及系统

技术领域

本发明涉及数据修复领域，尤其涉及一种对批量数据进行自动修复的方法及系统。

背景技术

大型的集团控股公司，拥有总公司和分散到各地的若干子公司或分公司。这些集团股份总公司的主数据系统都有统一、严格的数据管理机制；同时为了提高基础数据质量，降低业务数据分析处理难度，提高业务数据准确性，总公司会对主数据进行认真的清洗和维护，然而若干子公司或分公司则并没有如此完善的数据管理体系，每个子公司或分公司在录入待处理的业务数据时，常常都有自己的输入方式，使得不同子公司或分公司的数据形式无法保持一致。甚至于，因为不同的子公司或分公司最终都会把自己的业务数据汇总到主数据中，在数据的录入过程中，会引入错误到主数据库当中。特别是对批量数据进行处理的情况下，就会因为数据标准不一致或者人为因素会导致数据的错误，影响了公司整体数据的质量，因此需要一种对批量数据录入时就进行监控与修复的数据修复方法。

发明内容

为此，本发明为了解决上述缺陷之一。

因而本发明提供一种对批量数据进行自动修复的方法及系统，通过采用规则对批量数据进行过滤并与用户交互确定正确数据从而对其他不确定数据进行规则审核与修复，从而对批量数据进行了自动修复，确保了数据正确和数据质量。

所以，本发明一个实施例提供一种对批量数据进行自动修复的方法，该方法包括：检测当前批量待录入数据，并触发自动修复步骤；采用规则过滤并逐条遍历可能不正确的待录入数据步骤；通过与用户交互来确定正确的数据步骤；根据上述正确的数据和规则来审核其他不确定的数据，并对错误的数据进行标记步骤；子系统根据参考数据对上述错误的数据进行更新，并将更新后的数据录入到子系统的数据库步骤。

优选地，所述采用规则过滤得到正确的数据。

优选地，所述采用规则过滤得到正确的数据由规则间不冲突来确定。

优选地，所述可能不正确的待录入数据为根据规则过滤得到规则间相冲突的数据。

优选地，所述用户交互来确定正确的数据从可能不正确的待录入数据中指定。

进一步地，所述根据上述正确的数据和规则来审核其他不确定的数据具体包括以下步骤：

防火墙系统获取已知规则列表和已确定的数据属性集合步骤；根据所述规则的逻辑顺序确定它们的依赖关系步骤；从上述规则中确定能直接应用的规则集合VSet步骤；遍历规则集合VSet，如果规则集合VSet为空，则输出确认的属性集合，否则，审核和修复规则集合VSet中规则对应的确定属性，并通过依赖关系找到所述规定推出的其他规则，将这些规则对应的确定属性放入到规则集合VSet中步骤。

优选地，所述依据所述规则的逻辑顺序确定它们的依赖关系依据所述规则的属性值进行。

优选地，所述对错误的数据进行更新包括根据参考数据中数据所属的正确值更新所述错误数据的对应属性。本发明通过采用规则对批量数据进行过滤并与用户交互确定正确数据从而对其他不确定数据进行规则审核与修复，从而对批量数据进行了自动修复，确保了数据正确和数据质量。

本发明另一个实施例提供一种对批量数据进行自动修复的系统，该系统包括：数据检测单元，用于检测当前批量待录入数据，并触发自动修复；数据过滤单元，用于采用规则过滤并逐条遍历可能不正确的待录入数据；数据交互单元，用于通过与用户交互来确定正确的数据；数据审核单元，用于根据上述正确的数据和规则来审核其他不确定的数据，并对错误的数据进行标记；数据更新单元，用于子系统根据参考数据对上述错误的数据进行更新，并将更新后的数据录入到子系统的数据库。

优选地，所述数据过滤单元采用规则过滤得到正确的数据。

进一步地，所述数据审核单元所述根据上述正确的数据和规则来审核其他不确定的数据具体包括以下步骤：防火墙系统获取已知规则列表和已确定的数据属性集合步骤；根据所述规则的逻辑顺序确定它们的依赖关系步骤；从上述规则中确定能直接应用的规则集合VSet步骤；遍历规则集合VSet，如果规则集合VSet为空，则输出确认的属性集合，否则，审核和修复规则集合VSet中规则对应的确定属性，并通过依赖关系找到所述规定推出的其他规则，将这些规则对应的确定属性放入到规则集合VSet中步骤。

优选地，所述依据所述规则的逻辑顺序确定它们的依赖关系依据所述规则的属性值进行。本发明通过采用规则对批量数据进行过滤并与用户交互确定正确数据从而对其他不确定数据进行规则审核与修复，从而对批量数据进行了自动修复，确保了数据正确和数据质量。

附图说明

图1是本发明一个实施例提供的一种对批量数据进行自动修复的方法的流程示意图。

图2是本发明另一个实施例提供的根据正确的数据和规则来审核其他不确定的数据的具体流程示意图。

图3是本发明另一个实施例提供的一种对批量数据进行自动修复的系统的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

本发明提供一种对批量数据进行自动修复的方法及系统，本发明通过采用规则对批量数据进行过滤并与用户交互确定正确数据从而对其他不确定数据进行规则审核与修复，从而对批量数据进行了自动修复，确保了数据正确和数据质量。附图1是本发明提供的一种对批量数据进行自动修复的方法的流程示意图，具体包括以下步骤。

步骤S110：检测当前批量待录入数据，并触发自动修复步骤。

步骤S120：采用规则过滤并逐条遍历可能不正确的待录入数据步骤。

在对当前批量待录入数据启动自动修复步骤后，在本步骤中，先采用规则过滤得到正确的数据。所述采用规则过滤得到正确的数据由规则间不冲突来确定。所述可能不正确的待录入数据为根据规则过滤得到规则间相冲突的数据。例如，对待录入根据规则进行过滤，查找匹配规则的数据，如存在两条数据，它们的属性A都为‘0’，属性B都为‘1’，而我们已知，一条规则：（A，A’）-> (B，B’)||（），则这两条数据的这两个属性值都是正确的。反之，则为可能不正确的待录入数据。

步骤S130：通过与用户交互来确定正确的数据步骤。

在本步骤中，所述用户交互来确定正确的数据从经上步骤过滤后得到的可能不正确的待录入数据中指定。所述用户交互确定正确的数据包括数据中的正确属性。所述正确属性根据用户的经验进行判断，所述用户交互来确定正确的数据可以为一条确定数据里的属性。例如：有一条待确定数据包含以下多个属性：A、B、C、D、E、F、G、H、I。用户既可以根据自身经验确定其中某一条也可以确定整条数据属性均为正确。

步骤S140：根据上述正确的数据和规则来审核其他不确定的数据，并对错误的数据进行标记步骤。

如图2所示，所述根据上述正确的数据和规则来审核其他不确定的数据具体包括以下步骤：获取已知规则列表和已确定的数据属性集合步骤；根据所述规则的逻辑顺序确定它们的依赖关系步骤；从上述规则中确定能直接应用的规则集合VSet步骤；遍历规则集合VSet，如果规则集合VSet为空，则输出确认的属性集合，否则，审核和修复规则集合VSet中规则对应的确定属性，并通过依赖关系找到所述规定推出的其他规则，将这些规则对应的确定属性放入到规则集合VSet中步骤。所述依据所述规则的逻辑顺序确定它们的依赖关系依据所述规则的属性值进行。在本步骤中，对规则的遍历顺序不同，会是推导出来的审核属性结果不一样，那么在本步骤中需要先根据规则的属性值来确定所述规则间的依赖关系，例如，已知有三条规则Rule1:（A，Am）-> (B，Bm)||（），Rule2:（B，Bm）-> (C，Cm)||（），Rule3:（E，Em）-> (B，Bm)||（D =‘0’）。根据这三条规则的属性可知Rule2同时依赖于Rule1和Rule3，也即当Rule1和Rule3中任意一个规则包含的属性值确认后，Rule2的属性值才有可能确认。比如用户交互确定正确属性为A，根据上述规则应用，首先利用Rule1，即当前VSet = {Rule1}。因为VSet不为空，所以我们根据Rule1可以推导出属性B能够被确认。因为Rule2依赖于Rule1，由此得到Rule2在当前情况下是可用的规则，把它放入VSet，此时，VSet = {Rule2}，Rule1已经用完，被删除了。再次使用VSet，能够确认属性C。而此时，VSet是为空了，没有更多的规则可用了。最后属性{B、C}的集合会被返回，作为经过审核能够确认的属性，如果错误，则可以修复它们。

步骤S150：子系统根据参考数据对上述错误的数据进行更新，并将更新后的数据录入到子系统的数据库步骤。

本步骤中，所述对错误的数据进行更新包括根据参考数据中数据所属的正确值更新所述错误数据的对应属性。如上例中，发现B和C的值为错误，那么我们就把Bm的值更新到B上、Cm的值更新到C上。本发明通过采用规则对批量数据进行过滤并与用户交互确定正确数据从而对其他不确定数据进行规则审核与修复，从而对批量数据进行了自动修复，确保了数据正确和数据质量。

如图3所示是本发明另一个实施例提供的一种对批量数据进行自动修复的系统的示意图，具体为：数据检测单元10，用于检测当前批量待录入数据，并触发自动修复。

数据过滤单元20，用于采用规则过滤并逐条遍历可能不正确的待录入数据。所述数据过滤单元20采用规则过滤得到正确的数据。

数据交互单元30，用于通过与用户交互来确定正确的数据。

在数据交互单元30中，所述用户交互确定正确的数据包括数据中的正确属性，所述正确属性根据用户的经验进行判断，所述用户交互来确定正确的数据可以为一条确定数据里的属性。例如：有一条待确定数据包含以下多个属性：A、B、C、D、E、F、G、H、I。用户既可以根据自身经验确定其中某一条也可以确定整条数据属性均为正确。

数据审核单元40，用于根据上述正确的数据和规则来审核其他不确定的数据，并对错误的数据进行标记。所述数据审核单元40所述根据上述正确的数据和规则来审核其他不确定的数据具体包括以下步骤：获取已知规则列表和已确定的数据属性集合步骤；根据所述规则的逻辑顺序确定它们的依赖关系步骤；从上述规则中确定能直接应用的规则集合VSet步骤；遍历规则集合VSet，如果规则集合VSet为空，则输出确认的属性集合，否则，审核和修复规则集合VSet中规则对应的确定属性，并通过依赖关系找到所述规定推出的其他规则，将这些规则对应的确定属性放入到规则集合VSet中步骤。所述数据审核单元40依据所述规则的逻辑顺序确定它们的依赖关系依据所述规则的属性值进行。

数据更新单元50，用于子系统根据参考数据对上述错误的数据进行更新，并将更新后的数据录入到子系统的数据库。本发明通过采用规则对批量数据进行过滤并与用户交互确定正确数据从而对其他不确定数据进行规则审核与修复，从而对批量数据进行了自动修复，确保了数据正确和数据质量。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换。

Claims

一种对批量数据进行自动修复的方法，其特征在于，所述方法包括以下步骤：

检测当前批量待录入数据，并触发自动修复步骤；

采用规则过滤并逐条遍历可能不正确的待录入数据步骤；

通过与用户交互来确定正确的数据步骤；

根据上述正确的数据和规则来审核其他不确定的数据，并对错误的数据进行标记步骤；

子系统根据参考数据对上述错误的数据进行更新，并将更新后的数据录入到子系统的数据库步骤。
根据权利要求1所述的方法，其特征在于，所述采用规则过滤得到正确的数据。
根据权利要求1或2所述的方法，其特征在于，所述采用规则过滤得到正确的数据由规则间不冲突来确定。
根据权利要求1所述的方法，其特征在于，所述可能不正确的待录入数据为根据规则过滤得到规则间相冲突的数据。
根据权利要求1或4所述的方法，其特征在于，所述用户交互来确定正确的数据从可能不正确的待录入数据中指定。
根据权利要求1所述的方法，其特征在于，所述根据上述正确的数据和规则来审核其他不确定的数据具体包括以下步骤：

获取已知规则列表和已确定的数据属性集合步骤；

根据所述规则的逻辑顺序确定它们的依赖关系步骤；

从上述规则中确定能直接应用的规则集合VSet步骤；

遍历规则集合VSet，如果规则集合VSet为空，则输出确认的属性集合，否则，审核和修复规则集合VSet中规则对应的确定属性，并通过依赖关系找到所述规定推出的其他规则，将这些规则对应的确定属性放入到规则集合VSet中步骤。
根据权利要求6所述的方法，其特征在于，所述依据所述规则的逻辑顺序确定它们的依赖关系依据所述规则的属性值进行。
根据权利要求1或6所述的方法，其特征在于，所述对错误的数据进行更新包括根据参考数据中数据所属的正确值更新所述错误数据的对应属性。
一种对批量数据进行自动修复的系统，其特征在于，所述系统包括：

数据检测单元，用于检测当前批次待录入数据，并触发自动修复；

数据过滤单元，用于采用规则过滤并逐条遍历可能不正确的待录入数据；

数据交互单元，用于通过与用户交互来确定正确的数据；

数据审核单元，用于根据上述正确的数据和规则来审核其他不确定的数据，并对错误的数据进行标记；

数据更新单元，用于子系统根据参考数据对上述错误的数据进行更新，并将更新后的数据录入到子系统的数据库。
根据权利要求9所述的系统，其特征在于，所述数据过滤单元采用规则过滤得到正确的数据。
根据权利要求9所述的系统，其特征在于，所述数据审核单元所述根据上述正确的数据和规则来审核其他不确定的数据具体包括以下步骤：

获取已知规则列表和已确定的数据属性集合步骤；

根据所述规则的逻辑顺序确定它们的依赖关系步骤；

从上述规则中确定能直接应用的规则集合VSet步骤；

遍历规则集合VSet，如果规则集合VSet为空，则输出确认的属性集合，否则，审核和修复规则集合VSet中规则对应的确定属性，并通过依赖关系找到所述规定推出的其他规则，将这些规则对应的确定属性放入到规则集合VSet中步骤。
根据权利要求9或11所述的系统，其特征在于，所述依据所述规则的逻辑顺序确定它们的依赖关系依据所述规则的属性值进行。