WO2020119386A1

WO2020119386A1 - 基于大数据的异常数据识别方法、设备、存储介质及装置

Info

Publication number: WO2020119386A1
Application number: PCT/CN2019/118839
Authority: WO
Inventors: 陈明东; 黄越; 胥畅
Original assignee: 平安医疗健康管理股份有限公司
Priority date: 2018-12-13
Filing date: 2019-11-15
Publication date: 2020-06-18
Also published as: CN109615377A

Abstract

一种基于大数据的异常数据识别方法、设备、存储介质及装置，该方法包括：获取患者的诊疗数据（S10）；对所述诊疗数据进行标准化处理，获得标准化诊疗数据（S20）；通过预设嵌套循环算法对所述标准化诊疗数据进行异常挖掘，以识别所述标准化诊疗数据中的重复收费数据（S30）。由于对患者的诊疗数据进行标准化，获得了标准化诊疗数据，并利用预设嵌套循环算法对该标准化诊疗数据进行异常挖掘，从而能够准确地识别出重复收费数据，识别效率高、成本低，而且能够督促医院合理收费，保障患者的利益。

Description

基于大数据的异常数据识别方法、设备、存储介质及装置

本申请要求于2018年12月13日提交中国专利局、申请号为201811530843.7、发明名称为“基于大数据的重复收费识别方法、设备、存储介质及装置”的中国专利申请的优先权，其全部内容通过引用结合在申请中。

技术领域

本申请涉及异常数据识别技术领域，尤其涉及一种基于大数据的异常数据识别方法、设备、存储介质及装置。

背景技术

由于医保体系的不完善，参保人在医院治疗期间，可能会出现套餐内的包含项目再次收费，或收费次数超过项目实际开展次数的情形，例如腰椎间盘摘除术治疗套餐已经包含了药品费用，但医院还会重复收取患者的药品费用。目前对上述重复收费情形进行排查的主要手段是：人社局工作人员在庞大的诊疗明细数据中查找并核对收费是否异常，然而，该手段易出现两类问题，一是人工排查难免存在疏漏，二是效率较低、耗时较长及成本较高。

发明内容

本申请的主要目的在于提供一种基于大数据的异常数据识别方法、设备、存储介质及装置，旨在解决现有技术中如何更有效地识别重复收费数据的技术问题。

为实现上述目的，本申请提供一种基于大数据的异常数据识别方法，所述基于大数据的异常数据识别方法包括以下步骤：

获取患者的诊疗数据；

对所述诊疗数据进行标准化处理，获得标准化诊疗数据；

通过预设嵌套循环算法对所述标准化诊疗数据进行异常挖掘，以识别所述标准化诊疗数据中的重复收费数据。

优选地，所述通过预设嵌套循环算法对所述标准化诊疗数据进行异常挖掘，以识别所述标准化诊疗数据中的重复收费数据，包括：

根据所述标准化诊疗数据生成费用总表，所述费用总表包括若干条收费记录，每条收费记录至少包括收费项目；

根据所述收费项目的类型将所述费用总表拆分为套餐费用表和单项费用表；

通过预设嵌套循环算法判断所述套餐费用表与所述单项费用表是否包含相同收费项目的收费记录；

若所述套餐费用表与所述单项费用表包含相同收费项目的收费记录，则将所述包含相同收费项目的收费记录作为重复收费数据。

优选地，所述通过预设嵌套循环算法判断所述套餐费用表与所述单项费用表是否包含相同收费项目的收费记录，包括：

通过预设嵌套循环算法遍历所述套餐费用表，选取第一收费记录；

将所述第一收费记录与所述单项费用表中的多条第二收费记录依次进行匹配，根据匹配结果判断所述第一收费记录与所述第二收费记录是否包含相同收费项目；

所述若所述套餐费用表与所述单项费用表包含相同收费项目的收费记录，则将所述包含相同收费项目的收费记录作为重复收费数据，包括：

若所述第一收费记录与所述第二收费记录包含相同收费项目，则将包含相同收费项目的第一收费记录和第二收费记录作为重复收费数据。

优选地，所述通过预设嵌套循环算法遍历所述套餐费用表，选取第一收费记录之前，所述方法还包括：

将所述套餐费用表与所述单项费用表中的记录数目进行比较；

若所述套餐费用表中的记录数目低于所述单项费用表中的记录数目，则执行所述通过预设嵌套循环算法遍历所述套餐费用表，选取第一收费记录的步骤。

优选地，所述对所述诊疗数据进行标准化处理，获得标准化诊疗数据，包括：

对所述诊疗数据进行分词处理，生成词语序列；

将所述词语序列中的词语转化为词向量，生成对应的词向量序列；

根据预设双向递归神经网络模型将所述词向量序列编码为句子矩阵；

通过预设注意力模型将所述句子矩阵压缩为句向量，并将所述句向量作为标准化诊疗数据。

优选地，所述根据预设双向递归神经网络模型将所述词向量序列编码为句子矩阵，包括：

将所述词向量序列依次先正向后反向输入到预设双向递归神经网络模型中，以使所述预设双向递归神经网络模型对所述词向量序列进行编码，并输出句子矩阵。

优选地，所述通过预设注意力模型将所述句子矩阵压缩为句向量，并将所述句向量作为标准化诊疗数据，包括：

通过预设注意力模型从所述句子矩阵中提取上下文向量；

根据所述上下文向量将所述句子矩阵压缩为句向量，并将所述句向量作为标准化诊疗数据。

此外，为实现上述目的，本申请还提出一种基于大数据的异常数据识别设备，所述基于大数据的异常数据识别设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于大数据的异常数据识别计算机可读指令，所述基于大数据的异常数据识别计算机可读指令配置为实现如上文所述的基于大数据的异常数据识别方法的步骤。

此外，为实现上述目的，本申请还提出一种存储介质，所述存储介质上存储有基于大数据的异常数据识别计算机可读指令，所述基于大数据的异常数据识别计算机可读指令被处理器执行时实现如上文所述的基于大数据的异常数据识别方法的步骤。

此外，为实现上述目的，本申请还提出一种基于大数据的异常数据识别装置，所述基于大数据的异常数据识别装置包括：

获取模块，用于获取患者的诊疗数据；

处理模块，用于对所述诊疗数据进行标准化处理，获得标准化诊疗数据；

挖掘模块，用于通过预设嵌套循环算法对所述标准化诊疗数据进行异常挖掘，以识别所述标准化诊疗数据中的重复收费数据。

本申请中，通过获取患者的诊疗数据；对所述诊疗数据进行标准化处理，获得标准化诊疗数据；通过预设嵌套循环算法对所述标准化诊疗数据进行异常挖掘，以识别所述标准化诊疗数据中的重复收费数据。由于对患者的诊疗数据进行标准化，获得了标准化诊疗数据，并利用预设嵌套循环算法对该标准化诊疗数据进行异常挖掘，从而能够准确地识别出重复收费数据，该识别方法效率高、成本低，而且能够督促医院合理收费，保障患者的利益。

附图说明

图1是本申请实施例方案涉及的硬件运行环境的基于大数据的异常数据识别设备结构示意图；

图2为本申请基于大数据的异常数据识别方法第一实施例的流程示意图；

图3为本申请基于大数据的异常数据识别方法第二实施例的流程示意图；

图4为本申请基于大数据的异常数据识别方法第三实施例的流程示意图；

图5为本申请基于大数据的异常数据识别装置第一实施例的结构框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，图1为本申请实施例方案涉及的硬件运行环境的基于大数据的异常数据识别设备结构示意图。

如图1所示，该基于大数据的异常数据识别设备可以包括：处理器1001，例如中央处理器（Central Processing Unit，CPU），通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏（Display），可选用户接口1003还可以包括标准的有线接口、无线接口，对于用户接口1003的有线接口在本申请中可为USB接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如无线保真（WIreless-FIdelity，WI-FI）接口）。存储器1005可以是高速的随机存取存储器（Random Access Memory，RAM）存储器，也可以是稳定的存储器（Non-volatile Memory，NVM），例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对基于大数据的异常数据识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于大数据的异常数据识别计算机可读指令。

在图1所示的基于大数据的异常数据识别设备中，网络接口1004主要用于连接后台服务器，与所述后台服务器进行数据通信；用户接口1003主要用于连接外设，与所述外设进行数据通信；所述基于大数据的异常数据识别设备通过处理器1001调用存储器1005中存储的基于大数据的异常数据识别计算机可读指令，并执行本申请实施例提供的基于大数据的异常数据识别方法。

基于上述硬件结构，提出本申请基于大数据的异常数据识别方法的实施例。

参照图2，图2为本申请基于大数据的异常数据识别方法第一实施例的流程示意图，提出本申请基于大数据的异常数据识别方法第一实施例。

在第一实施例中，所述基于大数据的异常数据识别方法包括以下步骤：

步骤S10：获取患者的诊疗数据。

需要说明的是，本实施例的执行主体是基于大数据的异常数据识别设备，所述基于大数据的异常数据识别设备可为个人电脑或服务器等电子设备，本实施例的应用场景是，患者在医院治疗时刷医保卡即时结算诊疗费用，医保卡就会记录患者的诊疗数据，所述诊疗数据包括就诊时间、收费项目及收费金额等，并将该诊疗数据上传至人社核心系统，每隔固定时间，例如，一季度，用户将使用所述基于大数据的异常数据识别设备对患者的诊疗数据进行异常挖掘，识别出所述诊疗数据中的重复收费数据，避免门诊不合理的重复收费情形，保障患者的利益。

在具体实现中，所述基于大数据的异常数据识别设备根据患者的身份信息从人社核心系统中获取患者的诊疗数据，以供后续从所述诊疗数据中识别出重复收费数据。所述患者身份信息包含患者姓名和身份证号等信息，所述身份证号用于确认患者身份和管理患者名单。

步骤S20：对所述诊疗数据进行标准化处理，获得标准化诊疗数据。

可以理解的是，所述人社核心系统记载的诊疗数据一般为不规范的文本信息，为了方便地识别出重复收费数据，在进行异常挖掘之前，将预先对所述诊疗数据进行标准化处理，将所述诊疗数据转化为计算机能够识别的标准化诊疗数据。

在具体实现中，利用神经语言计算机可读指令学（Neuro-Linguistic Programming，NLP）技术将所述诊疗数据转化为标准化诊疗数据，通过向量表示所述诊疗数据中的词语，为了表示每个词语之间的联系，使用预设双向递归神经网络模型将向量编码为一个句子矩阵，并通过注意力模型将所述句子矩阵压缩为句向量，该句向量即为所述标准化诊疗数据。

步骤S30：通过预设嵌套循环算法对所述标准化诊疗数据进行异常挖掘，以识别所述标准化诊疗数据中的重复收费数据。

需要说明的是，收费项目包含套餐收费项目以及单项收费项目，所述套餐收费项目指的是一个套餐中包含多项收费项目，例如腰椎间盘摘除术治疗套餐包含床位费和护理费、检查和检验费用、药品及耗材费用、医生的诊疗费和手术费等收费项目，而单项收费项目指的是一项独立的收费项目，比如手术费用。由于部分医院存在收费管理不合理，套餐内的收费项目另外还会再收费，例如腰椎间盘摘除术治疗套餐已经包含了药品费用，但医院还会重复收取患者的药品费用，因此，急需识别出所述标准化诊疗数据中的重复收费数据，减少医院乱收费现象。

在具体实现中，由于本实施例是为了识别出套餐收费项目中的收费项目是否再次收费，而嵌套循环算法用于逐条检查两个数据表中是否存在相同数据，因此，根据这一特性，构造所述预设嵌套循环算法，以查找所述标准化诊疗数据中的重复收费数据。将所述标准化诊疗数据拆分为套餐诊疗数据和单项诊疗数据，以所述套餐诊疗数据以基准，判断所述单项诊疗数据的收费项目是否与所述套餐诊疗数据中的任一收费项目相同，从而根据判断结果获得重复收费数据。

在第一实施例中，通过获取患者的诊疗数据；对所述诊疗数据进行标准化处理，获得标准化诊疗数据；通过预设嵌套循环算法对所述标准化诊疗数据进行异常挖掘，以识别所述标准化诊疗数据中的重复收费数据。由于对患者的诊疗数据进行标准化，获得了标准化诊疗数据，并利用预设嵌套循环算法对该标准化诊疗数据进行异常挖掘，从而能够准确地识别出重复收费数据，识别效率高、成本低，而且能够督促医院合理收费，保障患者的利益。

参照图3，图3为本申请基于大数据的异常数据识别方法第二实施例的流程示意图，基于上述图2所示的第一实施例，提出本申请基于大数据的异常数据识别方法的第二实施例。

在第二实施例中，所述步骤S30，包括：

步骤S301：根据所述标准化诊疗数据生成费用总表，所述费用总表包括若干条收费记录，每条收费记录至少包括收费项目。

需要说明的是，为了识别出重复收费数据，将通过预设嵌套循环算法逐条检查套餐收费项目中的收费项目是否再次收费，首先根据所述标准化诊疗数据生成费用总表。

在具体实现中，建立预设费用总表，在所述预设费用总表中设置收费时间、收费项目与收费金额等栏目，从每条标准化诊疗数据中提取出收费时间、收费项目与收费金额等信息，将提取出的信息作为一条收费记录填入所述预设费用总表中，从而生成包含若干条收费记录的费用总表。

步骤S302：根据所述收费项目的类型将所述费用总表拆分为套餐费用表和单项费用表。

可以理解的是，为了通过所述预设嵌套循环算法识别所述标准化诊疗数据中的重复收费数据，将根据所述收费项目的类型将所述费用总表拆分为套餐费用表和单项费用表，对所述费用总表中的每条记录，判断该条记录中的收费项目的类型，当该条记录中的收费项目的类型为套餐收费项目时，将该条记录保存至套餐费用表中，当该条记录中的收费项目的类型为单项收费项目时，将该条记录保存至单项费用表中。

步骤S303：通过预设嵌套循环算法判断所述套餐费用表与所述单项费用表是否包含相同收费项目的收费记录。

步骤S304：若所述套餐费用表与所述单项费用表包含相同收费项目的收费记录，则将包含相同收费项目的收费记录作为重复收费数据。

需要说明的是，当获取所述套餐费用表和所述单项费用表之后，将通过预设嵌套循环算法判断所述套餐费用表与所述单项费用表是否包含相同收费项目的收费记录，若所述套餐费用表与所述单项费用表包含相同收费项目的收费记录，则将所述包含相同收费项目的收费记录作为重复收费数据。

进一步地，所述步骤S303，包括：

将所述第一收费记录与所述单项费用表中的多条第二收费记录依次进行匹配，根据匹配结果判断所述第一收费记录与所述第二收费记录是否包含相同收费项目。在本实施例中，所述步骤S304，包括：

可以理解的是，嵌套循环算法中包含驱动表与被驱动表，在本实施例中，将所述套餐费用表作为驱动表，将所述单项费用表作为被驱动表，遍历所述套餐费用表，从所述套餐费用表中选取第一收费记录，将所述第一收费记录与所述单项费用表中的多条第二收费记录依次进行匹配，匹配成功说明所述第一收费记录与所述第二收费记录中包含相同收费项目，匹配失败则说明所述第一收费记录与所述第二收费记录中不包含相同收费项目，从而将包含相同收费项目的第一收费记录和第二收费记录作为重复收费数据。

在具体实现中，例如第一收费记录为腰椎间盘摘除术治疗收费记录，该收费记录包括收费时间、收费项目以及收费金额，其中，收费项目为包含了床位费和护理费、检查和检验费用、药品及耗材费用、医生的诊疗费和手术费的套餐收费项目；第二收费记录包括多条收费记录，各条第二收费记录中的收费项目依次为床位费、心电监测以及吸氧治疗等，当第一收费记录与多条第二收费记录依次进行匹配时，首先将所述腰椎间盘摘除术治疗收费记录与床位费进行匹配，匹配成功，再将所述腰椎间盘摘除术治疗收费记录与心电监测进行匹配，匹配失败，最后将所述腰椎间盘摘除术治疗收费记录与吸氧治疗进行匹配，匹配失败，因此，将包含床位费的第一收费记录与包含床位费的第二收费记录作为重复收费数据。

所述通过预设嵌套循环算法遍历所述套餐费用表，选取第一收费记录之前，所述方法还包括：

需要说明的是，驱动表中的记录选取次数与驱动表中的记录数目相同，因而，为了提高所述预设嵌套循环算法的实施效率，以表中记录数目较少的表作为驱动表，因此，分别获取所述套餐费用表与所述单项费用表中的记录数目，将所述套餐费用表与所述单项费用表中的记录数目进行比较，若所述套餐费用表中的记录数目低于所述单项费用表中的记录数目，则以所述套餐费用表作为驱动表，将所述单项费用表作为被驱动表，从而执行所述通过预设嵌套循环算法遍历所述套餐费用表，选取第一收费记录的步骤。

在具体实现中，若所述套餐费用表中的记录数目不低于所述单项费用表中的记录数目，则将所述单项费用表作为驱动表，以所述套餐费用表作为被驱动表，遍历所述单项费用表，选取收费记录，将该选取的收费记录与套餐费用表中的收费记录进行匹配，从而识别出重复收费数据，方便高效。

在第二实施例中，根据所述标准化诊疗数据生成费用总表，所述费用总表包括若干条收费记录，每条收费记录至少包括收费项目；根据所述收费项目的类型将所述费用总表拆分为套餐费用表和单项费用表；通过预设嵌套循环算法判断所述套餐费用表与所述单项费用表是否包含相同收费项目的收费记录，若所述套餐费用表与所述单项费用表包含相同收费项目的收费记录，则将所述将包含相同收费项目的收费记录作为重复收费数据。由于将所述套餐费用表与所述单项费用表逐一进行匹配，能够准确地获取所有重复收费数据，能够督促医院合理收费，保障患者的利益。

参照图4，图4为本申请基于大数据的异常数据识别方法第三实施例的流程示意图，基于上述图3所示的第二实施例，提出本申请基于大数据的异常数据识别方法的第三实施例。

在第二实施例中，所述步骤S20，包括：

步骤S201：对所述诊疗数据进行分词处理，生成词语序列。

步骤S202：将所述词语序列中的词语转化为词向量，生成对应的词向量序列。

可以理解的是，为了实现对所述诊疗数据的标准化，需将所述诊疗数据转化为计算机可以识别的标准化诊疗数据，比如向量，在本实施例中，对所述诊疗数据进行分词处理，生成词语序列，所述词语序列包含所述诊疗数据的每个词语与词语的序列。将所述词语序列中的词语转化为词向量，结合所述词语的序列，可获得词向量序列，所述词向量包含所述诊疗数据的词向量与词向量的序列。

步骤S203：根据预设双向递归神经网络模型将所述词向量序列编码为句子矩阵。

需要说明的是，所述预设双向递归神经网络（Bidirectional recurrent neural network，BRNN）模型是一种具有反馈结构的神经网络模型，将所述词向量输入至所述预设双向递归神经网络模型中，以使所述预设双向递归神经网络模型对所述词向量序列进行编码，并输出句子矩阵，所述句子矩阵的每一行表示每个词语在上下文中所表达的意思。

步骤S204：通过预设注意力模型将所述句子矩阵压缩为句向量，并将所述句向量作为标准化诊疗数据。

可以理解的是，注意力模型（Attention Model）用于从众多信息中选择出对当前任务目标更关键的信息，而所述预设注意力模型用于从所述句子矩阵中提取有效数据，并将所述有效数据转化为句向量。

进一步地，在第三实施例中，所述步骤S203，包括：

需要说明的是，将所述词向量序列依次正向和反向输入到所述预设双向递归神经网络模型中，其中，正向输入是指将所述词向量序列中的词向量，按照位置的前后顺序依次输入对应时刻的预设双向递归神经网络模型中，所述反向输入是指将所述词向量序列中的词向量倒序依次输入对应时刻的预设双向递归神经网络模型，所述预设双向递归神经网络模型每个当前时刻的输入信号还包括上一时刻所述预设双向递归神经网络模型的输出信号，正向和反向信息输入都结束后，停止递归，输出句子矩阵。

进一步地，在第三实施例中，所述步骤S204，包括：

通过预设注意力模型从所述句子矩阵中提取上下文向量；

可以理解的是，所述上下文向量表达了词向量之间的上下文关系，通过所述预设注意力模型从所述句子矩阵中提取上下文向量，根据所述上下文向量将所述句子矩阵压缩为句向量，能够提高句向量的准确性与全面性，从而获得准确的标准化诊疗数据。

在第三实施例中，对所述诊疗数据进行分词处理，生成词语序列，将所述词语序列中的词语转化为词向量，生成对应的词向量序列，根据预设双向递归神经网络模型将所述词向量序列编码为句子矩阵，通过预设注意力模型将所述句子矩阵压缩为句向量，并将所述句向量作为标准化诊疗数据。由于依赖上下文向量，提高了生成标准化诊疗数据的效率和准确率。

此外，本申请实施例还提出一种存储介质，所述存储介质可以为非易失性可读存储介质。所述存储介质上存储有基于大数据的异常数据识别计算机可读指令，所述基于大数据的异常数据识别计算机可读指令被处理器执行时实现如上文所述的基于大数据的异常数据识别方法的步骤。其中，该计算机可读指令被执行时所实现的方法可参照本申请基于大数据的异常数据识别方法的各个实施例，此处不再赘述。

此外，参照图5，本申请实施例还提出一种基于大数据的异常数据识别装置，所述基于大数据的异常数据识别装置包括：

获取模块10，用于获取患者的诊疗数据；

处理模块20，用于对所述诊疗数据进行标准化处理，获得标准化诊疗数据；

挖掘模块30，用于通过预设嵌套循环算法对所述标准化诊疗数据进行异常挖掘，以识别所述标准化诊疗数据中的重复收费数据。

在一实施例中，所述挖掘模块30，还用于根据所述标准化诊疗数据生成费用总表，所述费用总表包括若干条收费记录，每条收费记录至少包括收费项目；根据所述收费项目的类型将所述费用总表拆分为套餐费用表和单项费用表；通过预设嵌套循环算法判断所述套餐费用表与所述单项费用表是否包含相同收费项目的收费记录，将包含相同收费项目的收费记录作为重复收费数据。

在一实施例中，所述挖掘模块30，还用于通过预设嵌套循环算法遍历所述套餐费用表，选取第一收费记录；将所述第一收费记录与所述单项费用表中的多条第二收费记录依次进行匹配，根据匹配结果判断所述第一收费记录与所述第二收费记录是否包含相同收费项目；将包含相同收费项目的第一收费记录和第二收费记录作为重复收费数据。

在一实施例中，所述挖掘模块30，还用于将所述套餐费用表与所述单项费用表中的记录数目进行比较；当所述套餐费用表中的记录数目低于所述单项费用表中的记录数目时，执行所述通过预设嵌套循环算法遍历所述套餐费用表，选取第一收费记录的步骤。

在一实施例中，所述处理模块20，还用于对所述诊疗数据进行分词处理，生成词语序列；将所述词语序列中的词语转化为词向量，生成对应的词向量序列；根据预设双向递归神经网络模型将所述词向量序列编码为句子矩阵；通过预设注意力模型将所述句子矩阵压缩为句向量，并将所述句向量作为标准化诊疗数据。

在一实施例中，所述处理模块20，还用于将所述词向量序列依次先正向后反向输入到预设双向递归神经网络模型中，以使所述预设双向递归神经网络模型对所述词向量序列进行编码，并输出句子矩阵。

在一实施例中，所述处理模块20，还用于通过预设注意力模型从所述句子矩阵中提取上下文向量；根据所述上下文向量将所述句子矩阵压缩为句向量，并将所述句向量作为标准化诊疗数据。

本申请所述基于大数据的异常数据识别装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种基于大数据的异常数据识别方法，其特征在于，所述基于大数据的异常数据识别方法包括以下步骤：

获取患者的诊疗数据；

对所述诊疗数据进行标准化处理，获得标准化诊疗数据；

通过预设嵌套循环算法对所述标准化诊疗数据进行异常挖掘，以识别所述标准化诊疗数据中的重复收费数据。
如权利要求1所述的基于大数据的异常数据识别方法，其特征在于，所述通过预设嵌套循环算法对所述标准化诊疗数据进行异常挖掘，以识别所述标准化诊疗数据中的重复收费数据，包括：

根据所述标准化诊疗数据生成费用总表，所述费用总表包括若干条收费记录，每条收费记录至少包括收费项目；

根据所述收费项目的类型将所述费用总表拆分为套餐费用表和单项费用表；

通过预设嵌套循环算法判断所述套餐费用表与所述单项费用表是否包含相同收费项目的收费记录；

若所述套餐费用表与所述单项费用表包含相同收费项目的收费记录，则将所述包含相同收费项目的收费记录作为重复收费数据。
如权利要求2所述的基于大数据的异常数据识别方法，其特征在于，所述通过预设嵌套循环算法判断所述套餐费用表与所述单项费用表是否包含相同收费项目的收费记录，包括：

通过预设嵌套循环算法遍历所述套餐费用表，选取第一收费记录；

将所述第一收费记录与所述单项费用表中的多条第二收费记录依次进行匹配，根据匹配结果判断所述第一收费记录与所述第二收费记录是否包含相同收费项目；

所述若所述套餐费用表与所述单项费用表包含相同收费项目的收费记录，则将所述包含相同收费项目的收费记录作为重复收费数据，包括：

若所述第一收费记录与所述第二收费记录包含相同收费项目，则将包含相同收费项目的第一收费记录和第二收费记录作为重复收费数据。
如权利要求3所述的基于大数据的异常数据识别方法，其特征在于，所述通过预设嵌套循环算法遍历所述套餐费用表，选取第一收费记录之前，所述方法还包括：

将所述套餐费用表与所述单项费用表中的记录数目进行比较；

若所述套餐费用表中的记录数目低于所述单项费用表中的记录数目，则执行所述通过预设嵌套循环算法遍历所述套餐费用表，选取第一收费记录的步骤。
如权利要求1所述的基于大数据的异常数据识别方法，其特征在于，所述对所述诊疗数据进行标准化处理，获得标准化诊疗数据，包括：

对所述诊疗数据进行分词处理，生成词语序列；

将所述词语序列中的词语转化为词向量，生成对应的词向量序列；

根据预设双向递归神经网络模型将所述词向量序列编码为句子矩阵；

通过预设注意力模型将所述句子矩阵压缩为句向量，并将所述句向量作为标准化诊疗数据。
如权利要求5所述的基于大数据的异常数据识别方法，其特征在于，所述根据预设双向递归神经网络模型将所述词向量序列编码为句子矩阵，包括：

将所述词向量序列依次先正向后反向输入到预设双向递归神经网络模型中，以使所述预设双向递归神经网络模型对所述词向量序列进行编码，并输出句子矩阵。
如权利要求6所述的基于大数据的异常数据识别方法，其特征在于，所述通过预设注意力模型将所述句子矩阵压缩为句向量，并将所述句向量作为标准化诊疗数据，包括：

通过预设注意力模型从所述句子矩阵中提取上下文向量；

根据所述上下文向量将所述句子矩阵压缩为句向量，并将所述句向量作为标准化诊疗数据。
一种基于大数据的异常数据识别设备，其特征在于，所述基于大数据的异常数据识别设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于大数据的异常数据识别计算机可读指令，所述基于大数据的异常数据识别计算机可读指令被所述处理器执行时实现如下步骤：

获取患者的诊疗数据；

对所述诊疗数据进行标准化处理，获得标准化诊疗数据；

通过预设嵌套循环算法对所述标准化诊疗数据进行异常挖掘，以识别所述标准化诊疗数据中的重复收费数据。
如权利要求8所述的基于大数据的异常数据识别设备，其特征在于，所述通过预设嵌套循环算法对所述标准化诊疗数据进行异常挖掘，以识别所述标准化诊疗数据中的重复收费数据，包括：

根据所述标准化诊疗数据生成费用总表，所述费用总表包括若干条收费记录，每条收费记录至少包括收费项目；

根据所述收费项目的类型将所述费用总表拆分为套餐费用表和单项费用表；

通过预设嵌套循环算法判断所述套餐费用表与所述单项费用表是否包含相同收费项目的收费记录；

若所述套餐费用表与所述单项费用表包含相同收费项目的收费记录，则将所述包含相同收费项目的收费记录作为重复收费数据。
如权利要求9所述的基于大数据的异常数据识别设备，其特征在于，所述通过预设嵌套循环算法判断所述套餐费用表与所述单项费用表是否包含相同收费项目的收费记录，包括：

通过预设嵌套循环算法遍历所述套餐费用表，选取第一收费记录；

将所述第一收费记录与所述单项费用表中的多条第二收费记录依次进行匹配，根据匹配结果判断所述第一收费记录与所述第二收费记录是否包含相同收费项目；

所述若所述套餐费用表与所述单项费用表包含相同收费项目的收费记录，则将所述包含相同收费项目的收费记录作为重复收费数据，包括：

若所述第一收费记录与所述第二收费记录包含相同收费项目，则将包含相同收费项目的第一收费记录和第二收费记录作为重复收费数据。
如权利要求10所述的基于大数据的异常数据识别设备，其特征在于，所述通过预设嵌套循环算法遍历所述套餐费用表，选取第一收费记录之前，还包括：

将所述套餐费用表与所述单项费用表中的记录数目进行比较；

若所述套餐费用表中的记录数目低于所述单项费用表中的记录数目，则执行所述通过预设嵌套循环算法遍历所述套餐费用表，选取第一收费记录的步骤。
如权利要求8所述的基于大数据的异常数据识别设备，其特征在于，所述对所述诊疗数据进行标准化处理，获得标准化诊疗数据，包括：

对所述诊疗数据进行分词处理，生成词语序列；

将所述词语序列中的词语转化为词向量，生成对应的词向量序列；

根据预设双向递归神经网络模型将所述词向量序列编码为句子矩阵；

通过预设注意力模型将所述句子矩阵压缩为句向量，并将所述句向量作为标准化诊疗数据。
一种基于大数据的异常数据识别装置，其特征在于，所述基于大数据的异常数据识别装置包括：

获取模块，用于获取患者的诊疗数据；

处理模块，用于对所述诊疗数据进行标准化处理，获得标准化诊疗数据；

挖掘模块，用于通过预设嵌套循环算法对所述标准化诊疗数据进行异常挖掘，以识别所述标准化诊疗数据中的重复收费数据。
如权利要求13所述的基于大数据的异常数据识别装置，其特征在于，所述挖掘模块，还用于根据所述标准化诊疗数据生成费用总表，所述费用总表包括若干条收费记录，每条收费记录至少包括收费项目；

根据所述收费项目的类型将所述费用总表拆分为套餐费用表和单项费用表；

通过预设嵌套循环算法判断所述套餐费用表与所述单项费用表是否包含相同收费项目的收费记录；

若所述套餐费用表与所述单项费用表包含相同收费项目的收费记录，则将所述包含相同收费项目的收费记录作为重复收费数据。
如权利要求14所述的基于大数据的异常数据识别装置，其特征在于，所述挖掘模块，还用于通过预设嵌套循环算法遍历所述套餐费用表，选取第一收费记录；

将所述第一收费记录与所述单项费用表中的多条第二收费记录依次进行匹配，根据匹配结果判断所述第一收费记录与所述第二收费记录是否包含相同收费项目；

若所述第一收费记录与所述第二收费记录包含相同收费项目，则将包含相同收费项目的第一收费记录和第二收费记录作为重复收费数据。
如权利要求15所述的基于大数据的异常数据识别装置，其特征在于，所述挖掘模块，还用于将所述套餐费用表与所述单项费用表中的记录数目进行比较；

若所述套餐费用表中的记录数目低于所述单项费用表中的记录数目，则执行所述通过预设嵌套循环算法遍历所述套餐费用表，选取第一收费记录的步骤。
如权利要求13所述的基于大数据的异常数据识别装置，其特征在于，所述处理模块，还用于对所述诊疗数据进行分词处理，生成词语序列；

将所述词语序列中的词语转化为词向量，生成对应的词向量序列；

根据预设双向递归神经网络模型将所述词向量序列编码为句子矩阵；

通过预设注意力模型将所述句子矩阵压缩为句向量，并将所述句向量作为标准化诊疗数据。
一种存储介质，其特征在于，所述存储介质上存储有基于大数据的异常数据识别计算机可读指令，所述基于大数据的异常数据识别计算机可读指令被处理器执行时实现如下步骤：

获取患者的诊疗数据；

对所述诊疗数据进行标准化处理，获得标准化诊疗数据；

通过预设嵌套循环算法对所述标准化诊疗数据进行异常挖掘，以识别所述标准化诊疗数据中的重复收费数据。
如权利要求18所述的存储介质，其特征在于，所述通过预设嵌套循环算法对所述标准化诊疗数据进行异常挖掘，以识别所述标准化诊疗数据中的重复收费数据，包括：

根据所述标准化诊疗数据生成费用总表，所述费用总表包括若干条收费记录，每条收费记录至少包括收费项目；

根据所述收费项目的类型将所述费用总表拆分为套餐费用表和单项费用表；

通过预设嵌套循环算法判断所述套餐费用表与所述单项费用表是否包含相同收费项目的收费记录；

若所述套餐费用表与所述单项费用表包含相同收费项目的收费记录，则将所述包含相同收费项目的收费记录作为重复收费数据。
如权利要求19所述的存储介质，其特征在于，所述通过预设嵌套循环算法判断所述套餐费用表与所述单项费用表是否包含相同收费项目的收费记录，包括：

通过预设嵌套循环算法遍历所述套餐费用表，选取第一收费记录；

将所述第一收费记录与所述单项费用表中的多条第二收费记录依次进行匹配，根据匹配结果判断所述第一收费记录与所述第二收费记录是否包含相同收费项目；

所述若所述套餐费用表与所述单项费用表包含相同收费项目的收费记录，则将所述包含相同收费项目的收费记录作为重复收费数据，包括：

若所述第一收费记录与所述第二收费记录包含相同收费项目，则将包含相同收费项目的第一收费记录和第二收费记录作为重复收费数据。