WO2020119097A1

WO2020119097A1 - 一种数据标准化处理方法、装置及存储介质

Info

Publication number: WO2020119097A1
Application number: PCT/CN2019/095014
Authority: WO
Inventors: 王岭峻; 姚致君; 左浩
Original assignee: 平安医疗健康管理股份有限公司
Priority date: 2018-12-13
Filing date: 2019-07-08
Publication date: 2020-06-18
Also published as: CN109783479A; CN109783479B

Abstract

本申请实施例公开了一种数据标准化处理方法、装置及存储介质，其中数据标准化处理方法包括：连接医保数据库，并从医保数据库中获取待验证医保数据，待验证医保数据包括多个医保业务字段及其对应的医保业务数据；将待验证医保数据通过预设对应规则进行检验，判断多个医保业务字段与医保业务数据是否按照预设对应规则相互对应；若不对应，则将医保业务数据进行迭代变换，获得完全按照预设对应规则对应的医保数据，作为标准化医保数据。采用本申请，能够通过建立预设对应规则，使得医保业务字段与医保业务数据根据预设对应规则进行迭代变换，获得与预设对应规则匹配的标准化医保数据，减少医保数据的对应失误率，提升医保数据的标准化程度。

Description

一种数据标准化处理方法、装置及存储介质

本申请要求于2018年12月13日提交中国专利局、申请号为2018115258137、申请名称为“一种数据标准化处理方法、装置及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据处理领域，具体涉及一种数据标准化处理方法、装置及存储介质。

背景技术

医疗保险属于我国社会保障五大险种之一，医疗保险基金指通过法律或合同的形式，由参加医疗保险的企事业单位、机关团体或个人在事先确定的比例下，缴纳规定数量的医疗保险费汇集而成的、为被保险人提供基本医疗保障的一种货币资金，医疗保险基金的筹集和管理带有强制性，不以营利为目的。

正是因为医疗保险的重要性，在很多时候都需要对医保数据进行分析和研究。而医保数据的名目十分丰富，包括报销人信息、涉及疾病、报销政策、和报销金额等，尤其报销金额方面，又包括费用总额、自付金额、自费金额和统筹报销金额。由于种类繁多，如果在获取医保数据进行分析和研究的时候，数据名目与数据内容存在对应失误，将造成研究效率低下、研究成果可信率低的问题，因此，亟待对医保数据进行标准化处理和清洗，以提升数据准确率。

发明内容

本申请实施例提供一种数据标准化处理方法、装置及存储介质，能够通过建立预设对应规则，使得医保业务字段与医保业务数据根据预设对应规则进行迭代变换，获得与预设对应规则匹配的标准化医保数据，减少医保数据的对应失误率，提升医保数据的标准化程度。

本申请实施例的第一方面提供了一种数据标准化处理方法，所述数据标准化处理方法包括：

连接医保数据库，并从所述医保数据库中获取待验证医保数据，所述待验证医保数据包括多个医保业务字段及其对应的医保业务数据；

通过预设对应规则对所述待验证医保数据进行检验，判断所述多个医保业务字段与所述医保业务数据是否按照所述预设对应规则相互对应；

若不对应，则将所述医保业务数据进行迭代变换，确定所述医保业务数据与所述多个医保业务字段按照所述预设对应规则相互对应，获得标准化医保数据。

本申请实施例的第二方面提供了一种数据标准化处理装置，所述数据标准化处理装置包括：

获取单元，用于连接医保数据库，并从所述医保数据库中获取待验证医保数据，所述待验证医保数据包括多个医保业务字段及其对应的医保业务数据；

判断单元，用于通过预设对应规则对所述待验证医保数据进行检验，判断所述多个医保业务字段与所述医保业务数据是否按照所述预设对应规则相互对应；

标准化单元，用于若不对应，则将所述医保业务数据进行迭代变换，确定所述医保业务数据与所述多个医保业务字段按照所述预设对应规则相互对应，获得标准化医保数据。

本申请实施例第三方面提供了一种电子装置，包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行第一方面任一方法中的步骤的指令。

本申请实施例第四方面提供了一种计算机可读存储介质，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行第一方面任一方法所述的步骤的指令。

可见，本申请实施例所描述的数据标准化处理方法，首先连接医保数据库，并从医保数据库中获取待验证医保数据，待验证医保数据包括多个医保业务字段及其对应的医保业务数据；然后将待验证医保数据通过预设对应规则进行检验，判断多个医保业务字段与医保业务数据是否按照对应规则相互对应；最后若不对应，则将医保业务数据进行迭代变换，确定医保业务数据与多个医保业务字段按照预设对应规则相互对应，获得标准化医保数据。这个过程通过设置预设对应规则，将医保业务字段与医保业务数据进行迭代变换，获得与预设对应规则匹配的标准化医保数据，减少了医保数据因业务对应错误造成的数据失误率，提升了医保数据的标准化程度，进而提升了医保数据用于数据分析的准确率和有效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据标准化处理方法流程示意图；

图2是本申请实施例提供的另一种数据标准化处理方法的流程示意图；

图3是本申请实施例提供的另一种数据标准化处理方法的流程示意图；

图4是本申请实施例提供的另一种数据标准化处理方法的流程示意图；

图5是本申请实施例提供的一种电子装置的结构示意图；

图6是本申请实施例提供的一种数据标准化处理装置的结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

下面对本申请实施例进行详细介绍。

请参阅图1，图1为本申请实施例中一种数据标准化处理方法流程示意图，如图1所示，所述数据标准化处理方法包括：

101、连接医保数据库，并从所述医保数据库中获取待验证医保数据，所述待验证医保数据包括多个医保业务字段及其对应的医保业务数据。

医保是指医疗保险，属于我国社会保障五大险种之一，具有强制性，医疗保险基金的筹集和管理带有强制性，不以营利为目的。我国居民可以以个人或集体的方式参保。医保数据库可以由医院、门诊或诊疗所等医疗机构建立，或者由医保局根据各个医疗机构提交的医保报销数据建立，也可以由第三方机构从各个医疗机构获取医保报销数据建立。医保数据库中可以包含医保对象信息、报销人姓名、报销档次、报销目录以及报销金额等信息，用于记录各种医保报销相关的数据信息。

从医保数据库中获取的待验证医保数据包括多个医保业务字段及其对应的医保业务数据，可如表1所示：

表1待验证医保数据

医院名称	患者名称	消费总额	自付金额	自费金额	统筹报销金额
人民医院	赵XX	900	450	200	250
第一医院	韩XX	1000	500	100	400

其中，医院名称、患者名称、消费总额、自费金额、自付金额、统筹报销金额等数据名目即为医保业务字段，“人民医院”和“赵XX”等数据即为这些医保业务字段对应的医保业务数据。

102、通过预设对应规则对所述待验证医保数据通过预设对应规则进行检验，判断所述多个医保业务字段与所述医保业务数据是否按照所述预设对应规则相互对应。

由于医疗数据库中的医保数据是非常繁复的，除了上述表1所述的医保业务字段外，还可能包含主治医生姓名、治疗时间、患者性别、患者年龄、患者诊断症状、开具药品名称、药品数量、药品价格或者药品使用方法等，而在建立医保数据库时，统一地将这些数据存入数据库中，只能保证医保业务字段对应的数据类型是正确的，例如患者性别，在建立数据库时只能选择“男”或“女”，而对于患者姓名，可以根据数据库设置为文本格式。但是对于数据类型相同的医保业务字段，例如费用总额、自付金额、自费金额和统筹报销金额等，在获取这些待验证的医保数据时，并不能保证医保业务字段与医保业务数据是准确对应的，就需要对其对应关系进行判断。

可选的，将待验证医保数据通过预设对应规则进行检验包括：获取预设对应规则；根据预设对应规则获取待验证医保数据中的目标医保业务字段及其对应的医保业务数据，通过预设对应规则对目标医保业务字段对应的医保业务数据进行检验。

具体地，在对待验证医保数据进行检验时，需要确定待验证医保数据中的目标医保业务字段与医保业务数据是否满足预设对应规则。预设对应规则可以是数据类型，也可以是数值关系式，还可以是数据长度、数据格式等。

可选的，获取预设对应规则具体包括：根据医保数据库的建立标准，确定多个医保业务字段的对应数据类型；若确定医保业务字段对应的数据类型为文本类型，则获取医保业务字段类型；若医保业务字段类型为医院名称，则为医保业务字段设置关键字匹配规则作为预设对应规则；若医保业务字段类型为用户名，则为医保业务字段设置字符长度和首字符关键字匹配规则作为预设对应规则。

对于一些数据类型相同的医保业务字段，例如“医院名称”和“患者名称”，可能都为文本类型，可以通过关键字对比来确定医保业务字段与医保业务数据的对应关系，例如“医院名称”的关键字匹配正则表达式[.*医院]，表示前面匹配任意字符，最后匹配“医院”，而“患者名称”的文本长度为2～5个中文字符，且首个或首两个中文字符为百家姓中的一个字。对于一些比较复杂的对应数据类型相同的医保业务字段，需要设置更复杂的预设对应规则。

可选的，获取预设对应规则具体包括：根据医保数据库的建立标准，确定多个医保业务字段的对应数据类型；获取多个医保业务字段中对应数据类型为相同的数值类型的至少两个医保业务字段，并设定至少两个医保业务字段为关系医保业务字段；获取保报销政策，并根据医保报销政策和关系医保业务字段确定关系医保业务字段对应的医保业务数据之间的规则等式关系，规则等式关系用于限定医保业务数据之间的数值关系；获取规则等式关系作为关系医保业务字段之间的预设对应规则。

具体地，首先根据医保数据库的建立标准，确定医保业务字段的对应数据类型，并获取医保业务字段中对应数据类型为相同的数值类型的至少两个医保业务字段，数值类型包括int，float和double，tinyint，smallint，bigint，money和real等，医保业务字段的对应数据类型相同时容易造成混淆，而数值类型对应的医保业务字段又通常为重要数据，因此需要重点处理。对于相同的数值类型的医保业务字段，例如都为int型，设定其为关系医保业务字段，然后获取报销政策，根据报销政策和关系医保业务字段确定关系医保业务字段对应的医保业务数据之间的规则等式关系。例如医保报销政策为“城镇居民报销80％”，“超过1000元部分开始报销”，“超过1万元部分自费”等。那么根据这些医保报销政策和关系医保业务字段确定医保业务数据之间的规则等式关系，即可获得预设对应规则，规则等式关系用于限定所述医保业务数据之间的数值关系，包括大小关系，和差关系，范围关系等。

可选的，根据医保报销政策和目标医保业务字段确定关系医保业务字段对应的医保业务数据之间的等式关系，包括：从医保报销政策中提取与关系医保业务字段相关的关键字，确定目标医保业务字段之间的业务逻辑；从医保数据库中获取除待验证医保数据之外的医保数据实验集，医保数据实验集包括训练集和验证集；从训练集获取多条训练关系医保业务数据，根据多条训练关系医保业务数据之间的业务逻辑和数据关系，建立关系医保业务字段之间的等式关系，等式关系包括和差关系、大小关系或比值关系；从验证集获取多条验证关系医保业务数据，根据多条验证关系医保业务数据验证等式关系是否有效，并根据有效的等式关系数量确定等式关系的有效率；若有效率小于第一预设阈值，则对等式关系进行调整，获得新的等式关系，并重新进行验证；若匹配率不小于第一预设阈值，则确定等式关系为关系医保业务数据之间的规则等式关系。

根据医保报销政策和关系医保业务字段确定关系医保业务字段对应的医保业务数据之间的规则等式关系需要采用实验数据集进行训练，并且对得到的结果进行验证，确定其有效性。因此，首先从医保数据库中获取待验证医保数据之外的医保数据实验集，然后将实验集划分为训练集和验证集，训练集用于训练出规则等式关系，验证集用于验证规则等式关系的有效性。

上述内容已经获取了医保报销政策，而这些医保报销政策中隐藏着医保业务字段之间的业务逻辑，例如根据“城镇居民报销80％”，可获得的业务逻辑为：“统筹报销金额＝(消费总额-自费金额)*80％，自付金额＝(消费总额-自费金额)*20％”；根据“超过1000元部分开始报销”可获得的业务逻辑为：“统筹报销金额＝(消费总额-1000)*80％，自费金额＝1000”，根据“超过1万元部分自费”可获得的业务逻辑为：“统筹报销金额≤10000”。除了业务逻辑之外，还有医保业务数据之间的数据关系，例如表2中所示：

表2医保数据实验集

患者编号	消费总额	自付金额	自费金额	统筹报销金额
1	1200	40	1000	160
2	900	0	900	0
3	15000	1800	6000	7200
4	10000	1800	1000	7200

根据表2中的1，2条数据可知，医保业务数据之间的数据关系有：消费总额＝统筹报销金额+自费金额+自付金额。且自费金额＞自付金额。那么，设置消费总额＝S1，自付金额＝S2，自费金额＝S3，统筹报销金额＝S4，则可建立目标业务字段之间的等式关系如式(1)所示：

根据多条训练医保业务数据之间的业务逻辑和数据关系获得公式(1)后，采用表(2)中的3，4条数据验证公式(1)的正确性，其中公式(1)中的前6个等式关系都验证成功，但是第7个等式关系在第4条数据时验证失败，设定第一预设阈值为80％，第7个等式关系的验证有效率为50％，小于第一预设阈值，对公式(1)进行调整，去除第7个等式关系，获得规则等式关系为：

103、若不对应，则将所述医保业务数据进行迭代变换，确定所述医保业务数据与所述多个医保业务字段按照所述预设对应规则相互对应，获得标准化医保数据。

若医保业务数据与医保业务字段不能按照预设对应规则相互对应，说明医保业务数据存在错误的对应关系，需要对其进行调整。在本申请实施例中，将医保业务数据进行迭代变换，即进行重复的变换并获得反馈结果，直到获得的反馈结果满足预设对应规则。

可选的，将医保业务数据进行迭代变换，获得完全按照所述预设对应规则对应的医保数据包括：

S51：获取预设对应规则中的k个规则等式关系，将k个规则等式按照涉及的约束力从小到大进行排序；

S52：将医保业务数据按照预设对应规则中的第i个规则等式关系进行对应关系变换，获得第i个对应结果，其中i是初始值为1，以1为间隔的递增整数；

S53：将第i个对应结果按照预设对应规则中的第i+1个规则等式关系进行对应关系变换，获得第i+1个对应结果；

S54：检测第i+1个对应结果是否符合第i个规则等式关系，若否，则返回第i个对应结果，再次触发将第i个对应结果按照预设对应规则中的第i+1个规则等式关系进行对应关系变换，获得第i+1个对应结果的操作，直到获得的第i+1个对应结果同时符合第i个规则等式关系和第i+1个规则等式关系，退出迭代；

S55：当i+1小于k时，将i+1作为新的i，执行步骤S54；否则，将获得的第i+1个对应结果作为完全按照预设对应规则对应的医保数据；

S56：当步骤S54中的迭代次数大于第一预测阈值时，退出迭代并发出错误提示，错误提示用于提示医保数据存在数据错误。

具体地，首先将规则等式按照约束力大小进行排序，和差关系、大小关系和比值关系的约束大小为：比值关系＞和差关系＞大小关系，那么对于公式(2)按照约束力大小排序之后为：

其中S1＝S2+S3+S4可以由第一和第二个规则等式推到得出，因此可以省略。

如表3所示的待验证医保数据：

表3待验证医保数据

患者编号	消费总额(S1)	自付金额(S2)	自费金额(S3)	统筹报销金额(S4)
1	18000	7200	9000	1800

在进行验证时，将医保业务数据按照公式(3)中的第一个规则等式进行对应变换，(S1-S3)*80％＝7200≠S4，因此将S4进行调整，在进行调整时，可以直接扫描所有数值，然后获取与规则等式中求取结果相同的医保业务数据与原本的医保业务数据进行交换，即将S4与S2进行交换，获得第一对应结果。

将第一对应结果按照第二个规则等式关系进行关系变换，因为第一结果完全符合第二个规则等式，所以第二对应结果与第一对应结果相同，第二对应结果同时符合第一个规则等式和第二个规则等式，退出迭代，进行第三个规则等式的关系变换。以此类推，最终获得完全符合公式(3)的对应结果，即为第一对应结果。在这里，步骤S54是一层迭代，而从S54～S55～S54是另一层迭代。另外，设置第一预设次数目的是为了不让迭代陷入无限循环，在进行有限次数的迭代后仍然得不到满足预设对应规则的对应结果，则停止迭代并发出错误提示。第一预设次数可以是任意正整数。

S61：获取预设对应规则中的m个规则等式关系，并将m个规则等式关系按照涉及的医保业务字段的个数由多到少进行排序；

S62：将医保业务数据按照预设对应规则中的m个规则等式关系依次进行对应关系变换，获得第j个对应结果，其中j是初始值为1，以1为间隔递增的整数；

S63：检测第j个对应结果是否同时符合m个规则等式关系；

S64：若是，则获取第j个对应结果为完全按照预设对应规则对应的医保数据；

S65：若否，则根据第j个对应结果不符合的规则等式关系，对第j个对应结果进行最小单位的对应关系变换，获得第j+1个对应结果；

S66：将j+1作为新的j，执行步骤S63；

S67：当步骤S63中的j大于第二预设阈值时，发出错误提示，用于提示医保数据存在数据错误。

具体地，对医保业务数据进行迭代变换时，还可以根据涉及的医保业务字段个数由多到少对规则等式进行排序，对于公式(2)，按照该种方法排序获得的结果与公式(3)相同。然后，将表3中的待验证医保数据按照公式(3)中的规则等式关系依次进行对应关系变换，获得第三对应结果为表4：

表4第三对应结果

患者编号	消费总额(S1)	自付金额(S2)	自费金额(S3)	统筹报销金额(S4)
1	18000	1800	9000	7200

检测表4中的第三对应结果是否符合公式(3)中所有的规则等式关系，若否，则对第三结果进行最小单位的对应关系变换，即涉及的医保业务字段最少的对应关系变换，获得第四对应结果。持续进行小于第二预设次数的迭代变换，直到获得的对应结果完全符合公式(3)中的预设对应规则。其中，第二预设次数可以是任意正整数，设置第二预设次数的目的是为了不让迭代陷入无限循环，在进行有限次数的迭代后仍然得不到满足预设对应规则的对应结果，则停止迭代并发出错误提示。

可见，在本申请实施例中，通过将医保业务数据按照预设对应规则进行有限次的迭代变换，包括按照满足预设对应规则中的每一个规则等式关系进行多次巡回迭代，和按照满足预设对应规则中的每一个规则等式关系进行依次迭代，再进行全部规则等式关系的验证，前者能够在前几次迭代中获得精确的对应结果，后者能够快速按照所有规则等式关系对医保业务数据进行迭代，获得准确结果，都提升了对医保业务数据进行迭代变换的效率和准确率，有助于高效获得标准化医保数据。

可选的，将医保业务数据进行迭代变换，获得完全按照预设对应规则对应的医保数据还包括：检测医保业务字段是否存在空值；若是，则将医保业务数据进行迭代变换；当获得的第r个对应结果满足预设对应规则中的k个规则等式关系或m个规则等式关系的规则等式关系个数最大时，获取第r个对应结果为完全按照预设对应规则对应的医保数据。

具体地，可能存在某些医保业务字段为空值，那么医保业务数据和医保业务字段就不能进行一一对应，这种情况下，依然按照预设对应规则，例如步骤S51～S56的对应规则，或者步骤S61～S67的对应规则，对医保业务数据进行迭代变换，直到获得满足预设对应规则中规则等式关系最多的对应结果，作为最终的标准化医保数据。

可见，在本申请实施例中，首先连接医保数据库，并从医保数据库中获取待验证医保数据，待验证医保数据包括多个医保业务字段及其对应的医保业务数据；然后将待验证医保数据通过预设对应规则进行检验，判断多个医保业务字段与医保业务数据是否按照对应规则相互对应；最后若不对应，则将医保业务数据进行迭代变换，确定医保业务数据与多个医保业务字段按照预设对应规则相互对应，获得标准化医保数据。这个过程通过设置预设对应规则，将医保业务字段与医保业务数据进行迭代变换，获得与预设对应规则匹配的标准化医保数据，减少了医保数据因业务对应错误造成的数据失误率，提升了医保数据的标准化程度，进而提升了医保数据用于数据分析的准确率和有效率。

请参阅图2，图2是本申请实施例提供的另一种数据标准化处理方法的流程示意图，如图所示，本实施例中的数据标准化处理方法包括：

201、连接医保数据库，并从所述医保数据库中获取待验证医保数据，所述待验证医保数据包括多个医保业务字段及其对应的医保业务数据；

202、根据所述医保数据库的建立标准，确定所述多个医保业务字段的对应数据类型；

203、获取所述多个医保业务字段中所述对应数据类型为相同的数值类型的至少两个医保业务字段，并设定所述至少两个医保业务字段为关系医保业务字段；

204、获取医保报销政策，从所述医保报销政策中提取与所述关系医保业务字段相关的关键字，确定所述目标医保业务字段之间的业务逻辑；

205、从所述医保数据库中获取除所述待验证医保数据之外的医保数据实验集，所述医保数据实验集包括训练集和验证集；

206、从所述训练集获取多条训练关系医保业务数据，根据所述多条训练关系医保业务数据之间的业务逻辑和数据关系，建立所述关系医保业务字段之间的等式关系，所述等式关系包括和差关系、大小关系或比值关系；

207、从所述验证集获取多条验证关系医保业务数据，根据所述多条验证关系医保业务数据验证所述等式关系是否有效，并根据有效的等式关系数量确定所述等式关系的有效率；

208、若所述有效率小于所述第一预设阈值，则对所述等式关系进行调整，获得新的等式关系，并重新进行验证；

209、若所述匹配率不小于第一预设阈值，则确定所述等式关系为所述关系医保业务数据之间的规则等式关系；

210、获取所述规则等式关系作为所述关系医保业务字段之间的预设对应规则；

211、根据所述预设对应规则获取所述待验证医保数据中的目标医保业务字段及其对应的医保业务数据，对所述目标医保业务字段对应的医保业务数据通过所述预设对应规则进行检验；

212、判断所述多个医保业务字段与所述医保业务数据是否按照所述预设对应规则相互对应；

213、若不对应，则将所述医保业务数据进行迭代变换，确定所述医保业务数据与所述多个医保业务字段按照所述预设对应规则相互对应，获得标准化医保数据。

在本申请实施例中，通过对对应数据相同且都为数值类型的关系医保业务字段设置预设对应规则，然后按照预设对应规则获取目标医保业务字段，并对医保业务字段对应的医保业务数据进行检验和迭代变换，直到目标医保业务字段和医保业务数据按照预设对应规则相互对应，获得标准化医保数据。这个过程使得医保业务数据的迭代变换更具有针对性，提升迭代变换效率，同时提升了获取标准化医保数据的效率和准确率。

请参阅图3，图3是本申请实施例提供的另一种数据标准化处理方法的流程示意图，如图所示，本实施例中的数据标准化处理方法包括：

301、连接医保数据库，并从所述医保数据库中获取待验证医保数据，所述待验证医保数据包括多个医保业务字段及其对应的医保业务数据；

302、通过预设对应规则对所述待验证医保数据进行检验，判断所述多个医保业务字段与所述医保业务数据是否按照所述预设对应规则中的多个规则等式相互对应；

303、若不对应，则获取所述预设对应规则中的k个规则等式关系，将所述k个规则等式按照涉及的约束力从小到大进行排序；

304、将所述医保业务数据按照所述预设对应规则中的第i个规则等式关系进行对应关系变换，获得第i个对应结果，其中i是初始值为1，以1为间隔的递增整数；

305、将所述第i个对应结果按照所述预设对应规则中的第i+1个规则等式关系进行对应关系变换，获得第i+1个对应结果；

306、检测所述第i+1个对应结果是否符合所述第i个规则等式关系，若否，则返回所述第i个对应结果，再次触发所述将所述第i个对应结果按照所述预设对应规则中的第i+1个规则等式关系进行对应关系变换，获得第i+1个对应结果的操作，直到获得的第i+1个对应结果同时符合所述第i个规则等式关系和所述第i+1个规则等式关系，退出迭代；

307、当所述i+1小于k时，将所述i+1作为新的i，执行步骤306；否则，将获得的所述第i+1个对应结果作为所述完全按照所述预设对应规则对应的医保数据；

308、当步骤306中的迭代次数大于第一预测阈值时，退出迭代并发出错误提示，所述错误提示用于提示所述医保数据存在数据错误。

在本申请实施例中，对于不满足预设对应规则的医保业务字段和医保业务数据，对其按照预设对应规则进行有限次的迭代变换，包括按照满足预设对应规则中的每一个规则等式关系进行多次巡回迭代，这种迭代方法能够在前几次迭代中获得满足预设对应规则的对应结果，进而获得标准医保数据，提升了对医保业务数据进行迭代变换的效率和准确率，有助于高效获得标准化医保数据。

请参阅图4，图4是本申请实施例提供的另一种数据标准化处理方法的流程示意图，如图所示，本实施例中的数据标准化处理方法包括：

401、连接医保数据库，并从所述医保数据库中获取待验证医保数据，所述待验证医保数据包括多个医保业务字段及其对应的医保业务数据；

402、通过预设对应规则对所述待验证医保数据进行检验，判断所述多个医保业务字段与所述医保业务数据是否按照所述预设对应规则相互对应；

403、若不对应，则获取所述预设对应规则中的m个规则等式关系，并将所述m个规则等式关系按照涉及的医保业务字段的个数由多到少进行排序；

404、将所述医保业务数据按照所述预设对应规则中的m个规则等式关系依次进行对应关系变换，获得第j个对应结果，其中j是初始值为1，以1为间隔递增的整数；

405、检测所述第j个对应结果是否同时符合所述m个规则等式关系；

406、若是，则获取所述第j个对应结果为所述完全按照所述预设对应规则对应的医保数据；

407、若否，则根据所述第j个对应结果不符合的所述规则等式关系，对所述第j个对应结果进行最小单位的对应关系变换，获得第j+1个对应结果；

408、将所述j+1作为新的j，执行步骤405；

409、当步骤405中的所述j大于第二预设阈值时，发出错误提示，用于提示所述医保数据存在数据错误。

可见，在本申请实施例中，对于不满足预设对应规则的医保业务字段和医保业务数据，对其按照预设对应规则进行有限次的迭代变换，包括按照满足预设对应规则中的每一个规则等式关系进行依次迭代，再进行全部规则等式关系的验证，这种迭代方法能够快速按照所有规则等式关系对医保业务数据进行迭代，获得准确结果，进而获得标准医保数据，提升了对医保业务数据进行迭代变换的效率和准确率，有助于高效获得标准化医保数据。

图5是本申请实施例提供的一种电子装置的结构示意图，如图5所示，该电子装置包括处理器、存储器、通信接口以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行以下步骤的指令：

若不对应，则将所述医保业务数据进行迭代变换，获得完全按照所述预设对应规则对应的医保数据，作为标准化医保数据。

可以看出，在本申请实施例中，过程通过设置预设对应规则，将医保业务字段与医保业务数据进行迭代变换，获得与预设对应规则匹配的标准化医保数据，减少了医保数据因业务对应错误造成的数据失误率，提升了医保数据的标准化程度，进而提升了医保数据用于数据分析的准确率和有效率。

图6是本申请实施例中所涉及的数据标准化处理装置600的功能单元组成框图。该数据标准化处理装置600应用于电子装置，所述数据标准化处理装置包括：

获取单元601，用于连接医保数据库，并从所述医保数据库中获取待验证医保数据，所述待验证医保数据包括多个医保业务字段及其对应的医保业务数据；

判断单元602，用于通过预设对应规则对所述待验证医保数据进行检验，判断所述多个医保业务字段与所述医保业务数据是否按照所述预设对应规则相互对应；

标准化单元603，用于若不对应，则将所述医保业务数据进行迭代变换，获得完全按照所述预设对应规则对应的医保数据，作为标准化医保数据。

在此需要说明的是，上述获取单元601、判断单元602和标准化单元603的具体工作过程参见上述步骤101-103的相关描述。在此不再赘述。

可以看出，在本申请实施例中，通过设置预设对应规则，将医保业务字段与医保业务数据进行迭代变换，获得与预设对应规则匹配的标准化医保数据，减少了医保数据因业务对应错误造成的数据失误率，提升了医保数据的标准化程度，进而提升了医保数据用于数据分析的准确率和有效率。

在可选情况下，在通过预设对应规则对所述待验证医保数据进行检验方面，所述判断单元602具体用于：

获取预设对应规则；

根据所述预设对应规则获取所述待验证医保数据中的目标医保业务字段及其对应的医保业务数据，通过所述预设对应规则对所述目标医保业务字段对应的医保业务数据进行检验。

在可选情况下，在获取预设对应规则方面，所述判断单元602包括规则建立单元6021，具体用于：

根据所述医保数据库的建立标准，确定所述多个医保业务字段的对应数据类型；

若确定所述医保业务字段对应的数据类型为文本类型，则获取医保业务字段类型；

若所述医保业务字段类型为医院名称，则为所述医保业务字段设置关键字匹配规则作为预设对应规则；

若所述医保业务字段类型为用户名，则为所述医保业务字段设置字符长度和首字符关键字匹配规则作为预设对应规则。

获取所述多个医保业务字段中所述对应数据类型为相同的数值类型的至少两个医保业务字段，并设定所述至少两个医保业务字段为关系医保业务字段；

获取医保报销政策，并根据所述医保报销政策和所述关系医保业务字段确定所述关系医保业务字段对应的医保业务数据之间的规则等式关系，所述规则等式关系用于限定所述医保业务数据之间的数值关系；

获取所述规则等式关系作为所述关系医保业务字段之间的预设对应规则。

在可选情况下，在根据所述医保报销政策和所述关系医保业务字段确定所述关系医保业务字段对应的医保业务数据之间的规则等式关系方面，所述规则建立单元6021具体用于：

从所述医保报销政策中提取与所述关系医保业务字段相关的关键字，确定所述目标医保业务字段之间的业务逻辑；

从所述医保数据库中获取除所述待验证医保数据之外的医保数据实验集，所述医保数据实验集包括训练集和验证集；

从所述训练集获取多条训练关系医保业务数据，根据所述多条训练关系医保业务数据之间的业务逻辑和数据关系，建立所述关系医保业务字段之间的等式关系，所述等式关系包括和差关系、大小关系或比值关系；

从所述验证集获取多条验证关系医保业务数据，根据所述多条验证关系医保业务数据验证所述等式关系是否有效，并根据有效的等式关系数量确定所述等式关系的有效率；

若所述有效率小于所述第一预设阈值，则对所述等式关系进行调整，获得新的等式关系，并重新进行验证；

若所述匹配率不小于第一预设阈值，则确定所述等式关系为所述关系医保业务数据之间的规则等式关系。

在可选情况下，在将所述医保业务数据进行迭代变换，获得完全按照所述预设对应规则对应的医保数据方面，所述标准化单元603具体用于：

S51：获取所述预设对应规则中的k个规则等式关系，将所述k个规则等式按照涉及的约束力从小到大进行排序；

S52：将所述医保业务数据按照所述预设对应规则中的第i个规则等式关系进行对应关系变换，获得第i个对应结果，其中i是初始值为1，以1为间隔的递增整数；

S53：将所述第i个对应结果按照所述预设对应规则中的第i+1个规则等式关系进行对应关系变换，获得第i+1个对应结果；

S54：检测所述第i+1个对应结果是否符合所述第i个规则等式关系，若否，则返回所述第i个对应结果，再次触发所述将所述第i个对应结果按照所述预设对应规则中的第i+1个规则等式关系进行对应关系变换，获得第i+1个对应结果的操作，直到获得的第i+1个对应结果同时符合所述第i个规则等式关系和所述第i+1个规则等式关系，退出迭代；

S55：当所述i+1小于k时，将所述i+1作为新的i，执行步骤S54；否则，将获得的所述第i+1个对应结果作为所述完全按照所述预设对应规则对应的医保数据；

S56：当步骤S54中的迭代次数大于第一预测阈值时，退出迭代并发出错误提示，所述错误提示用于提示所述医保数据存在数据错误。

S61：获取所述预设对应规则中的m个规则等式关系，并将所述m个规则等式关系按照涉及的医保业务字段的个数由多到少进行排序；

S62：将所述医保业务数据按照所述预设对应规则中的m个规则等式关系依次进行对应关系变换，获得第j个对应结果，其中j是初始值为1，以1为间隔递增的整数；

S63：检测所述第j个对应结果是否同时符合所述m个规则等式关系；

S64：若是，则获取所述第j个对应结果为所述完全按照所述预设对应规则对应的医保数据；

S65：若否，则根据所述第j个对应结果不符合的所述规则等式关系，对所述第j个对应结果进行最小单位的对应关系变换，获得第j+1个对应结果；

S66：将所述j+1作为新的j，执行步骤S63；

S67：当步骤S63中的所述j大于第二预设阈值时，发出错误提示，用于提示所述医保数据存在数据错误。

在可选情况下，所述标准化单元603还具体用于：

检测所述医保业务字段是否存在空值；

若是，则将所述医保业务数据进行迭代变换；

当获得的第r个对应结果满足所述预设对应规则中的k个规则等式关系或m个规则等式关系的规则等式关系个数最大时，获取所述第r个对应结果为所述完全按照所述预设对应规则对应的医保数据。

在可选情况下，所述k个规则等式关系对应的等式关系包括：和差关系、大小关系和比值关系，所述等式关系的约束力大小为：比值关系＞和差关系＞大小关系。

本申请实施例还提供一种计算机可读存储介质，其中，该计算机可读存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括移动终端。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括移动终端。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种数据标准化处理方法，其特征在于，所述方法包括：

连接医保数据库，并从所述医保数据库中获取待验证医保数据，所述待验证医保数据包括多个医保业务字段及其对应的医保业务数据；

通过预设对应规则对所述待验证医保数据进行检验，判断所述多个医保业务字段与所述医保业务数据是否按照所述预设对应规则相互对应；

若不对应，则将所述医保业务数据进行迭代变换，获得完全按照所述预设对应规则对应的医保数据，作为标准化医保数据。
根据权利要求1所述的方法，其特征在于，所述通过预设对应规则对所述待验证医保数据进行检验包括：

获取预设对应规则；

根据所述预设对应规则获取所述待验证医保数据中的目标医保业务字段及其对应的医保业务数据，通过所述预设对应规则对所述目标医保业务字段对应的医保业务数据进行检验。
根据权利要求2所述的方法，其特征在于，所述获取预设对应规则具体包括：

根据所述医保数据库的建立标准，确定所述多个医保业务字段的对应数据类型；

若确定所述医保业务字段对应的数据类型为文本类型，则获取医保业务字段类型；

若所述医保业务字段类型为医院名称，则为所述医保业务字段设置关键字匹配规则作为预设对应规则；

若所述医保业务字段类型为用户名，则为所述医保业务字段设置字符长度和首字符关键字匹配规则作为预设对应规则。
根据权利要求2所述的方法，其特征在于，所述获取预设对应规则具体包括：

根据所述医保数据库的建立标准，确定所述多个医保业务字段的对应数据类型；

获取所述多个医保业务字段中所述对应数据类型为相同的数值类型的至少两个医保业务字段，并设定所述至少两个医保业务字段为关系医保业务字段；

获取医保报销政策，并根据所述医保报销政策和所述关系医保业务字段确定所述关系医保业务字段对应的医保业务数据之间的规则等式关系，所述规则等式关系用于限定所述医保业务数据之间的数值关系；

获取所述规则等式关系作为所述关系医保业务字段之间的预设对应规则。
根据权利要求4所述的方法，其特征在于，所述根据所述医保报销政策和所述关系医保业务字段确定所述关系医保业务字段对应的医保业务数据之间的规则等式关系，包括：

从所述医保报销政策中提取与所述关系医保业务字段相关的关键字，确定所述目标医保业务字段之间的业务逻辑；

从所述医保数据库中获取除所述待验证医保数据之外的医保数据实验集，所述医保数据实验集包括训练集和验证集；

从所述训练集获取多条训练关系医保业务数据，根据所述多条训练关系医保业务数据之间的业务逻辑和数据关系，建立所述关系医保业务字段之间的等式关系，所述等式关系包括和差关系、大小关系或比值关系；

从所述验证集获取多条验证关系医保业务数据，根据所述多条验证关系医保业务数据验证所述等式关系是否有效，并根据有效的等式关系数量确定所述等式关系的有效率；

若所述有效率小于所述第一预设阈值，则对所述等式关系进行调整，获得新的等式关系，并重新进行验证；

若所述匹配率不小于第一预设阈值，则确定所述等式关系为所述关系医保业务数据之间的规则等式关系。
根据权利要求5所述的方法，其特征在于，所述将所述医保业务数据进行迭代变换，获得完全按照所述预设对应规则对应的医保数据包括：

S51：获取所述预设对应规则中的k个规则等式关系，将所述k个规则等式按照涉及的约束力从小到大进行排序；

S52：将所述医保业务数据按照所述预设对应规则中的第i个规则等式关系进行对应关系变换，获得第i个对应结果，其中i是初始值为1，以1为间隔的递增整数；

S53：将所述第i个对应结果按照所述预设对应规则中的第i+1个规则等式关系进行对应关系变换，获得第i+1个对应结果；

S54：检测所述第i+1个对应结果是否符合所述第i个规则等式关系，若否，则返回所述第i个对应结果，再次触发所述将所述第i个对应结果按照所述预设对应规则中的第i+1个规则等式关系进行对应关系变换，获得第i+1个对应结果的操作，直到获得的第i+1个对应结果同时符合所述第i个规则等式关系和所述第i+1个规则等式关系，退出迭代；

S55：当所述i+1小于k时，将所述i+1作为新的i，执行步骤S54；否则，将获得的所述第i+1个对应结果作为所述完全按照所述预设对应规则对应的医保数据；

S56：当步骤S54中的迭代次数大于第一预测阈值时，退出迭代并发出错误提示，所述错误提示用于提示所述医保数据存在数据错误。
根据权利要求5所述的方法，其特征在于，所述将所述医保业务数据进行迭代变换，获得完全按照所述预设对应规则对应的医保数据包括：

S61：获取所述预设对应规则中的m个规则等式关系，并将所述m个规则等式关系按照涉及的医保业务字段的个数由多到少进行排序；

S62：将所述医保业务数据按照所述预设对应规则中的m个规则等式关系依次进行对应关系变换，获得第j个对应结果，其中j是初始值为1，以1为间隔递增的整数；

S63：检测所述第j个对应结果是否同时符合所述m个规则等式关系；

S64：若是，则获取所述第j个对应结果为所述完全按照所述预设对应规则对应的医保数据；

S65：若否，则根据所述第j个对应结果不符合的所述规则等式关系，对所述第j个对应结果进行最小单位的对应关系变换，获得第j+1个对应结果；

S66：将所述j+1作为新的j，执行步骤S63；

S67：当步骤S63中的所述j大于第二预设阈值时，发出错误提示，用于提示所述医保数据存在数据错误。
根据权利要求6或7所述的方法，其特征在于，所述将所述医保业务数据进行迭代变换，获得完全按照所述预设对应规则对应的医保数据还包括：

检测所述医保业务字段是否存在空值；

若是，则将所述医保业务数据进行迭代变换；

当获得的第r个对应结果满足所述预设对应规则中的k个规则等式关系或m个规则等式关系的规则等式关系个数最大时，获取所述第r个对应结果为所述完全按照所述预设对应规则对应的医保数据。
根据权利要求5所述的方法，其特征在于，所述k个规则等式关系对应的等式关系包括：和差关系、大小关系和比值关系，所述等式关系的约束力大小为：比值关系＞和差关系＞大小关系。
一种数据标准化处理装置，其特征在于，所述数据标准化处理装置包括：

获取单元，用于连接医保数据库，并从所述医保数据库中获取待验证医保数据，所述待验证医保数据包括多个医保业务字段及其对应的医保业务数据；

判断单元，用于通过预设对应规则对所述待验证医保数据进行检验，判断所述多个医保业务字段与所述医保业务数据是否按照所述预设对应规则相互对应；

标准化单元，用于若不对应，则将所述医保业务数据进行迭代变换，获得完全按照所述预设对应规则对应的医保数据，作为标准化医保数据。
根据权利要求10所述的装置，其特征在于，在通过预设对应规则对所述待验证医保数据进行检验方面，所述判断单元具体用于：

获取预设对应规则；

根据所述预设对应规则获取所述待验证医保数据中的目标医保业务字段及其对应的医保业务数据，通过所述预设对应规则对所述目标医保业务字段对应的医保业务数据进行检验。
根据权利要求11所述的装置，其特征在于，在获取预设对应规则方面，所述判断单元包括规则建立单元，具体用于：

根据所述医保数据库的建立标准，确定所述多个医保业务字段的对应数据类型；

若确定所述医保业务字段对应的数据类型为文本类型，则获取医保业务字段类型；

若所述医保业务字段类型为医院名称，则为所述医保业务字段设置关键字匹配规则作为预设对应规则；

若所述医保业务字段类型为用户名，则为所述医保业务字段设置字符长度和首字符关键字匹配规则作为预设对应规则。
根据权利要求11所述的装置，其特征在于，在获取预设对应规则方面，所述判断单元包括规则建立单元，具体用于：

根据所述医保数据库的建立标准，确定所述多个医保业务字段的对应数据类型；

获取所述多个医保业务字段中所述对应数据类型为相同的数值类型的至少两个医保业务字段，并设定所述至少两个医保业务字段为关系医保业务字段；

获取医保报销政策，并根据所述医保报销政策和所述关系医保业务字段确定所述关系医保业务字段对应的医保业务数据之间的规则等式关系，所述规则等式关系用于限定所述医保业务数据之间的数值关系；

获取所述规则等式关系作为所述关系医保业务字段之间的预设对应规则。
根据权利要11所述的装置，其特征在于，在根据所述医保报销政策和所述关系医保业务字段确定所述关系医保业务字段对应的医保业务数据之间的规则等式关系方面，所述规则建立单元具体用于：

从所述医保报销政策中提取与所述关系医保业务字段相关的关键字，确定所述目标医保业务字段之间的业务逻辑；

从所述医保数据库中获取除所述待验证医保数据之外的医保数据实验集，所述医保数据实验集包括训练集和验证集；

从所述训练集获取多条训练关系医保业务数据，根据所述多条训练关系医保业务数据之间的业务逻辑和数据关系，建立所述关系医保业务字段之间的等式关系，所述等式关系包括和差关系、大小关系或比值关系；

从所述验证集获取多条验证关系医保业务数据，根据所述多条验证关系医保业务数据验证所述等式关系是否有效，并根据有效的等式关系数量确定所述等式关系的有效率；

若所述有效率小于所述第一预设阈值，则对所述等式关系进行调整，获得新的等式关系，并重新进行验证；

若所述匹配率不小于第一预设阈值，则确定所述等式关系为所述关系医保业务数据之间的规则等式关系。
根据权利要求14所述的装置，其特征在于，在将所述医保业务数据进行迭代变换，获得完全按照所述预设对应规则对应的医保数据方面，所述标准化单元具体用于：

S51：获取所述预设对应规则中的k个规则等式关系，将所述k个规则等式按照涉及的约束力从小到大进行排序；

S52：将所述医保业务数据按照所述预设对应规则中的第i个规则等式关系进行对应关系变换，获得第i个对应结果，其中i是初始值为1，以1为间隔的递增整数；

S53：将所述第i个对应结果按照所述预设对应规则中的第i+1个规则等式关系进行对应关系变换，获得第i+1个对应结果；

S54：检测所述第i+1个对应结果是否符合所述第i个规则等式关系，若否，则返回所述第i个对应结果，再次触发所述将所述第i个对应结果按照所述预设对应规则中的第i+1个规则等式关系进行对应关系变换，获得第i+1个对应结果的操作，直到获得的第i+1个对应结果同时符合所述第i个规则等式关系和所述第i+1个规则等式关系，退出迭代；

S55：当所述i+1小于k时，将所述i+1作为新的i，执行步骤S54；否则，将获得的所述第i+1个对应结果作为所述完全按照所述预设对应规则对应的医保数据；

S56：当步骤S54中的迭代次数大于第一预测阈值时，退出迭代并发出错误提示，所述错误提示用于提示所述医保数据存在数据错误。
根据权利要求14所述的装置，其特征在于，在将所述医保业务数据进行迭代变换，获得完全按照所述预设对应规则对应的医保数据方面，所述标准化单元具体用于：

S61：获取所述预设对应规则中的m个规则等式关系，并将所述m个规则等式关系按照涉及的医保业务字段的个数由多到少进行排序；

S62：将所述医保业务数据按照所述预设对应规则中的m个规则等式关系依次进行对应关系变换，获得第j个对应结果，其中j是初始值为1，以1为间隔递增的整数；

S63：检测所述第j个对应结果是否同时符合所述m个规则等式关系；

S64：若是，则获取所述第j个对应结果为所述完全按照所述预设对应规则对应的医保数据；

S65：若否，则根据所述第j个对应结果不符合的所述规则等式关系，对所述第j个对应结果进行最小单位的对应关系变换，获得第j+1个对应结果；

S66：将所述j+1作为新的j，执行步骤S63；

S67：当步骤S63中的所述j大于第二预设阈值时，发出错误提示，用于提示所述医保数据存在数据错误。
根据权利要求15或16所述的装置，其特征在于，所述标准化单元还具体用于：

检测所述医保业务字段是否存在空值；

若是，则将所述医保业务数据进行迭代变换；

当获得的第r个对应结果满足所述预设对应规则中的k个规则等式关系或m个规则等式关系的规则等式关系个数最大时，获取所述第r个对应结果为所述完全按照所述预设对应规则对应的医保数据。
根据权利要求14所述的装置，其特征在于，所述k个规则等式关系对应的等式关系包括：和差关系、大小关系和比值关系，所述等式关系的约束力大小为：比值关系＞和差关系＞大小关系。
一种终端，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行权利1-9中任一方法所述的步骤。
一种计算机可读存储介质，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行权利要求1-9中任一方法所述的步骤的指令。