WO2022082908A1

WO2022082908A1 - 一种基于两阶段筛查流程的医保异常购药的检测方法及装置

Info

Publication number: WO2022082908A1
Application number: PCT/CN2020/129363
Authority: WO
Inventors: 吴健; 姜晓红; 应豪超; 徐黎明; 胡荷萍
Original assignee: 浙江大学山东工业技术研究院
Priority date: 2020-10-19
Filing date: 2020-11-17
Publication date: 2022-04-28
Also published as: CN112289403A

Abstract

本发明属于医疗数据处理技术领域，尤其是涉及一种基于两阶段筛查流程的医保异常购药的检测方法及装置。一种基于两阶段筛查流程的医保异常购药的检测方法，包括以下步骤：S1、建立分析维度模型；S2、对步骤S1模型中的数据依据参保人的个人编号进行分组统计，将统计得出的每个参保人的分析数据输入一阶段模型；S3、对步骤S2所得的一阶段模型中的数据进行异常值检测，并将检测出的异常参保人进行阈值处理。本发明提供了一种解决实际医疗保险中参保人超量购药异常检测中的准确率不高和速度慢的问题、基于两阶段筛查流程的医保异常购药的检测方法及装置。

Description

一种基于两阶段筛查流程的医保异常购药的检测方法及装置

技术领域

本发明属于医疗数据处理技术领域，尤其是涉及一种基于两阶段筛查流程的医保异常购药的检测方法及装置。

背景技术

随着人民生活水平的不断提高，广大公民自身的社会保障意识得到不断提升，同时，医疗保险制度以其不可或缺的重要性在我国社会保障体系中占据着重要的地位。医疗保险制度自实施以来，医保基金在解决人民大众就医看病方面起到了重要作用，而医保也被认为是介于参保人，医疗机构和医保机构三方之间的博弈的过程，三方利益的驱动往往容易诱发欺诈行为的发生。在这种情况下，愈演愈烈的医保欺诈行为使医保基金遭受巨大的损失，威胁着医保基金的正常运转，因此，为了实现医保基金长期的正常运转，加大对医保欺诈行为的检测至关重要。

国家医保局成立后，在2018年9月开始打击欺诈骗保，一直延续到2019年年底。在这期间要求各省市医保局做省内飞行检查和专项稽核，各级医疗机构做自查整改。各地医保局在媒体和官网上公布欺诈骗保典型案例，主要集中在医疗机构重复收费、超标准收费、串换项目收费、超范围治疗、低标准入院、挂床住院等行为；定点药店存在串换药品、诱导消费等，参保人存在冒名就医、超量取药、因药而病等。

目前，大部分对于医保违规欺诈行为的审核，主要还是靠人工手段去解决，但是医保数据数量庞大，人工解决工作量极大，效率低下，最重要的是，由于人工检查过程中的疏漏，导致很多的医保欺诈行为不能被成功检测出来。随着数据挖掘和机器学习方法在医疗领域的广泛应用，利用数据挖掘等大数据技术来解决医疗保险中欺诈行为的需求应运而生，相当一部分的学者以及一些医保机构也开始逐渐把机器学习数据挖掘技术用于医疗保险欺诈行为的检测，目前大部分的研究和检测都是使用单一的异常检测模型对医保欺诈异常进行检测，单一检测模型对于其他的医保欺诈异常能较好得检测出异常，但是对于医保超量购药异常，需要把具体的高频开药数据也进纳入分析和检测的范围，如果只用一阶段的模型的话，数据分析维度过高，检测算法效率低下，并且高维数据过于复杂，也在很大程度上影响了模型的性能。

发明内容

本发明所要解决的技术问题是提供一种解决实际医疗保险中参保人超量购药异常检测中的准确率不高和速度慢的问题、基于两阶段筛查流程的医保异常购药的检测方法及装置。为此，本发明采用以下技术方案：

一种基于两阶段筛查流程的医保异常购药的检测方法，包括以下步骤：

S1、建立分析维度模型，并根据该模型需要将医保参保人购药数据记录从医保数据库中进行提取；

S2、对步骤S1模型中的数据依据参保人的个人编号进行分组统计，将统计得出的每个参保人的分析数据输入一阶段模型；

S3、对步骤S2所得的一阶段模型中的数据进行异常值检测，并将检测出的异常参保人进行阈值处理；

S4、将步骤S3中检测出的异常参保人的开药记录从所有开药记录中筛选出，统计药物的开药频次，将开药频次上四分位点的药物视为高频药物；

S5、将异常参保人对步骤S4中获得的高频药物中的每一种药物的购药记录进行筛选，并计算出异常参保人的分析数据输入二阶段模型；

S6、将步骤S5中的二阶段模型输入数据结合步骤S4中获得的高频药物中的每一种药物，进行二阶段的异常检测，并得出预测为异常的参保人的异常值；

S7、将步骤S6所得的预测为异常的参保人进行求并集和去重，以得到检测结果。

其中，四分位点即四分位数(Quartile)，是指在统计学中把所有数值由小到大排列并分成四等份，处于三个分割点位置的数值，它是一组数据排序后处于25％和75％位置上的值。四分位数是通过3个点将全部数据等分为4部分，其中每部分包含25％的数据。很显然，中间的四分位数就是中位数，因此通常所说的四分位数是指处在25％位置上的数值(称为下四分位数)和处在75％位置上的数值(称为上四分位数)。

在采用上述技术方案的基础上，本发明还可采用以下进一步的技术方案：

所述步骤S1中提取的购药数据记录至少包括交易流水号、参保人个人编号、交易项目金额、交易项目医保报销金额、交易项目编码、交易项目名称、项目单价、项目数量、项目价格、项目自费金额、项目自理金额和交易时间。

在提取数据的过程中，为了方便处理以及提升医保异常检测模型的效率，我们在医保数据库中提取参保人购药数据记录中剔除了处理起来较为繁杂且对模型训练不力的部分中药以及部分非常常见的药物如氯化钠注射液及葡萄糖注射液。

所述步骤S2中的分组统计方法采用Groupby方法，所述分析数据为一阶段异常检测模型分析数据，该分析数据包括年就诊次数、年医保报销金额、年开药种类数、年开药总金额、年开药数量、年开药记录中高频药的种类数。由于iForest异常检测模型不适合使用对高维的数据进行异常检测，故在此方法中设计了两个阶段的异常检测模型，在第一阶段模型中，对所有参保人只提取与总的就诊次数以及总的医保金额等相关的六个维度的数据，根据参保人年度总的购药信息完成初步的异常检测。

所述步骤S3中的异常值检测包括利用iForest模型中的部分模块计算所有待检测参保人的异常程度值并进行排序，考虑到待筛查的参保人人数较多(60W)，在保证排序速度和稳定性的情况下选择快速排序算法，所述阈值处理的标准为年就诊次数和年开药总金额。这样的评估方法会将两个极端的情况“过量购药”和“少量购药”视为异常，所以在异常值排序之后需要根据年就诊次数和药物总金额进行取阈值处理，将阈值处理后异常程度值的前一定数目的参保人视为一阶段模型预测的异常结果。

所述步骤S5中的分析数据为二阶段异常检测模型分析数据，该分析数据包括开药月份数、月均开药数、每月开药次数、每月开药种数，以一年为分析数据周期，二阶段异常检测模型分析数据包括二十六个维度。

所述步骤S6中二阶段的异常检测采用OneClassSVM异常检测方法。其中，参数：kernel：核函数(一般用高斯核)；nu：设定训练误差(0，1]，方法：fit(x)：训练，根据训练样本和上面两个参数探测边界。predict(x)：返回预测值，+1就是正常样本，-1为异常样本。decision_function(X)：返回各样本点到超平面的函数距离(signed distance),正的为正常样本，负的为异常样本。通过该异常检测方法，可以比较有效地对二阶段高维数据的特征进行特诊提取和聚类分析并检测出其中的异常值。

步骤S4、S5、S6为二阶段的模型的数据处理和异常检测过程，由于在一阶段异常检测过程中的数据分析维度只是整体数据，并未将参保人具体的高频药物开药加入模型进行异常检测，所以在二阶段的模型中重点针对具体的高频开药记录进行分析和异常检测。在数据处理中，首先将异常人员的开药频次前1/4的药物视为高频药物，然后针对对于每一种高频药，都对其异常人员的开药记录进行提取并用OneClassSVM方法进行异常检测，同时给出二阶段模型预测为异常的参保人的异常值。

进一步地，本发明同时还提供以下技术方案：

一种基于两阶段筛查流程的医保异常购药的检测装置，包括：

存储器，用于存储计算机的可执行指令、和在执行所述可执行指令时使用或产生的数据；

处理器，用于执行存储器存储的计算机可执行指令，与所述存储器通信连接；

所述检测装置用于实现上述的方法。

与现有技术相比，本发明具有以下有益效果：

1)将机器学习数据挖掘中的异常检测方法用于医保超量购药异常的检测，很大程度上提高了医保异常检测的效率。

2)采用两个阶段的异常检测流程，在提升检测准确率的同时维持了不错的算法效率。

3)能有效提升医保工作人员工作效率，为国家节省大量的医保基金。

附图说明

图1为本发明一种基于两阶段筛查流程的医保异常购药的检测方法及装置的算法流程图。

具体实施方式

为了进一步理解本发明，下面结合具体实施方式对本发明提供的一种基于两阶段筛查流程的医保异常购药的检测方法及装置进行具体描述，但本发明并不限于此，该领域技术人员在本发明核心指导思想下做出的非本质改进和调整，仍然属于本发明的保护范围。

S1、提取数据

建立分析维度模型，并根据该模型需要将医保参保人购药数据记录从医保数据库中进行提取。

具体地，从医保数据库中提取的参保人购药记录维度包括但不限于：交易流水号，参保人个人编号，交易项目金额，交易项目医保报销金额，交易项目编码(药物编码)，交易项目名称(药物名称)，项目单价，项目数量，项目价格，项目自费金额，项目自理金额和交易时间。在剔除部分中药以及诊疗项目之后，共有记录2500多万条。

S2、数据预处理

对提取的所有购药记录利用Groupby方法对根据参保人个人编号进行分组统计，合计得待检测参保人共37万人次，对于每个参保人，数据预处理得到的一阶段异常检测模型分析数据包括：年就诊次数，年医保报销金额，年开药种类数，年开药总金额和年开药记录中高频药的的种类数。

S3、一阶段异常检测

一阶段异常检测模型利用iForest模型中的部分模块计算所有待检测参保人的异常程度值并对该异常值进行排序，并根据年就诊次数和药物总金额进行取阈值处理，将阈值处理后异常程度值的前5000个参保人视为一阶段模型预测的初步异常结果。

S4、二阶段异常检测

首先根据一阶段异常人群的开药记录统计得出异常人群的开药记录并统计频次，取上四分位点为高频药，共计300种，每一种高频药都对应一个二阶段的异常检测模型，每个模型的数据分析维度包括：开药月份数，月均开药数，每个月的开药次数及种数(每个月两个维度共24个维度)，二阶段的异常检测方法采用OneClassSVM对所有一阶段的异常参保人进行异常检测，并给出预测为异常的参保人的异常值。

S5、后处理及结果汇总

对所有的高频药对应的二阶段模型预测为异常参保人信息进行求并集并去重，得出了最终的超量购药异常参保人。

虽然本发明已通过参考优选的实施例进行了图示和描述，但是，本专业普通技术人员应当了解，在权利要求书的范围内，可作形式和细节上的各种各样变化。

Claims

一种基于两阶段筛查流程的医保异常购药的检测方法，其特征在于包括以下步骤：

S1、建立分析维度模型，并根据该模型需要将医保参保人购药数据记录从医保数据库中进行提取；

S2、对步骤S1模型中的数据依据参保人的个人编号进行分组统计，将统计得出的每个参保人的分析数据输入一阶段模型；

S3、对步骤S2所得的一阶段模型中的数据进行异常值检测，并将检测出的异常参保人进行阈值处理；

S4、将步骤S3中检测出的异常参保人的开药记录从所有开药记录中筛选出，统计药物的开药频次，将开药频次上四分位点的药物视为高频药物；

S5、将异常参保人对步骤S4中获得的高频药物中的每一种药物的购药记录进行筛选，并计算出异常参保人的分析数据二阶段模型；

S6、将步骤S5中的二阶段模型输入数据结合步骤S4中获得的高频药物中的每一种药物，进行二阶段的异常检测，并得出预测为异常的参保人的异常值；

S7、将步骤S6所得的预测为异常的参保人进行求并集和去重，以得到检测结果。
根据权利要求1所述的一种基于两阶段筛查流程的医保异常购药的检测方法，其特征在于所述步骤S1中提取的购药数据记录至少包括交易流水号、参保人个人编号、交易项目金额、交易项目医保报销金额、交易项目编码、交易项目名称、项目单价、项目数量、项目价格、项目自费金额、项目自理金额和交易时间。
根据权利要求1所述的一种基于两阶段筛查流程的医保异常购药的检测方法，其特征在于所述步骤S2中的分组统计方法采用Groupby方法，所述分析数据为一阶段异常检测模型分析数据，该分析数据包括年就诊次数、年医保报销金额、年开药种类、年开药数量、年开药总金额、年开药记录中高频药的种类数。
根据权利要求3所述的一种基于两阶段筛查流程的医保异常购药的检测方法，其特征在于所述步骤S3中的异常值检测包括利用iForest模型中的部分模块计算所有待检测参保人的异常程度值并进行排序，所述阈值处理的标准为年就诊次数和年开药总金额。
根据权利要求1所述的一种基于两阶段筛查流程的医保异常购药的检测方法，其特征在于所述步骤S5中的分析数据为二阶段异常检测模型分析数据，该分析数据包括开药月份数、月均开药数、每月开药次数、每月开药种数，以一年为分析数据周期，二阶段异常检测模型分析数据包括二十六个维度。
根据权利要求1所述的一种基于两阶段筛查流程的医保异常购药的检测方法，其特征在于所述步骤S6中二阶段的异常检测采用OneClassSVM异常检测方法。
一种基于两阶段筛查流程的医保异常购药的检测装置，包括：存储器，用于存储计算机的可执行指令、和在执行所述可执行指令时使用或产生的数据，处理器，用于执行存储器存储的计算机可执行指令，与所述存储器通信连接，其特征在于所述检测装置用于实现如权利要求1-6中任意一项所述的方法。