WO2021051938A1

WO2021051938A1 - 基于图分析的数据异常解析方法、系统和计算机设备

Info

Publication number: WO2021051938A1
Application number: PCT/CN2020/099235
Authority: WO
Inventors: 王健宗; 黄章成; 孔令炜
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-09-16
Filing date: 2020-06-30
Publication date: 2021-03-25
Also published as: CN110766557B; CN110766557A

Abstract

一种基于图分析的数据异常解析方法，所述方法包括：获取待分析医保数据，基于待分析医保数据构建关系异构图，关系异构图是以多个节点数据以及多个节点数据之间的关联关系为边构建得到的；对关系异构图中的患者节点数据进行聚类，以根据各个医生节点数据从所述关系异构图中提取多个社区C＝{C ₁，C ₂，...，C _k}（S106）；获取各个社区C _i的多个特征的多个特征数据；根据各个社区C _i的多个特征的多个特征数据，计算各个社区C _i异常检测系数（S110）；及根据各个社区C _i异常检测系数，确定是否出现欺诈事件。上述方法通过对医保数据构成的关系异构图进行分析，实现高效地挖掘欺诈情形并精确定位欺诈实体，提高了医保数据异常解析的准确性和灵活性。

Description

基于图分析的数据异常解析方法、系统和计算机设备

本申请申明2019年09月16日递交的申请号为201910871381.3、名称为“基于图分析的数据异常解析方法、系统和计算机设备”的中国专利申请的优先权，该中国专利申请的整体内容以参考的方式结合在本申请中。

技术领域

本申请实施例涉及大数据分析领域，尤其涉及一种基于图分析的数据异常解析方法、系统、计算机设备及计算机可读存储介质。

背景技术

随着医保市场逐渐扩大，医保领域的数据分析技术得到快速发展。麦肯锡在一份基于大数据分析得出的权威报告中指出，医保是未来最有前途的应用领域。医保领域中存在的欺诈、浪费和滥用(FWA)等问题造成了巨额的医保经费损失。医保行业、数据分析行业的研究团队为解决欺诈问题付出了很多努力。医保反欺诈研究具有很高的经济价值，但由于面临技术上的诸多困难，欺诈检测问题仍未得到解决。医疗数据通常规模大且多样化，还随时间动态变化，因此需要从多个角度开展分析，挖掘欺诈情形。

传统的欺诈检测方法从专业领域知识出发，设计一套欺诈检测规则，着重发现违反这些规则的行为。但是，发明人意识到，虽然这种方法很有效，但会受限于领域专家的知识层面，这些知识可能是缺乏准确性和完整性。此外，欺诈行为经过不断进化，可以规避事先设定的检测规则。数据驱动的机器学习方法，可以从真实数据中识别正常模式并检测偏差，这种方法更灵活，但由于搜索空间很大会造成庞大的计算量。

因此，如何高效地挖掘欺诈情形并精确定位欺诈实体，从而进一步提高医保数据异常解析的准确性和灵活性，成为了当前要解决的技术问题之一。

发明内容

有鉴于此，有必要提供一种基于图分析的数据异常解析方法、系统、计算机设备及计算机可读存储介质，以解决当前反欺诈手段缺乏准确性和完整性和欺诈情形难以精确定位等技术问题。

为实现上述目的，本申请实施例提供了基于图分析的数据异常解析方法，所述方法步骤包括：

接收用户终端发送的数据异常分析请求；

响应于所述数据异常分析请求，从医保数据库中获取待分析医保数据，根据关键词提取及语义分析从所述医保数据提取节点数据及关联关系数据，所述节点数据包括多个患者节点数据、多个医生节点数据和多个药房节点数据，所述关联关系数据为所述表征所述节点数据之间关联关系的数据；

根据所述数据及所述关联关系构建关系异构图，所述关系异构图是以节点数据以及节点数据之间的关联关系为边构建得到的；

根据各个医生节点数据从所述关系异构图中提取多个社区；

获取各个社区的多个特征的多个特征数据，所述多个特征包括节点数据数量特征、社区密度特征和/或平均医疗金额特征；

根据各个社区的多个特征的多个特征数据，计算各个社区异常检测系数；及

根据各个社区异常检测系数，判断所述社区中出现异常的患者节点数据；

输出所述出现异常的患者节点数据至用户终端。

为实现上述目的，本申请实施例还提供了基于图分析的数据异常解析系统，包括：

接收模块，用于接收用户终端发送的数据异常分析请求；

响应模块，用于响应于所述数据异常分析请求，从医保数据库中获取待分析医保数据，根据关键词提取及语义分析从所述医保数据提取节点数据及关联关系数据，所述节点数据包括多个患者节点数据、多个医生节点数据和多个药房节点数据，所述关联关系数据为表征所述节点数据之间关联关系的数据；

构建模块，用于根据所述节点数据及所述关联关系构建关系异构图，所述关系异构图是以多个节点数据以及多个节点数据之间的关联关系为边构建得到的；

提取模块，根据各个医生节点数据从所述关系异构图中提取多个社区C＝{C ₁，C ₂，...，C _k}；

获取模块，用于获取各个社区C _i的多个特征的多个特征数据，所述多个特征数据包括节点数据数量、社区密度和/或平均医疗金额；

计算模块，用于根据各个社区C _i的多个特征的多个特征数据，计算各个社区C _i异常检测系数；及

判断模块，用于根据各个社区C _i异常检测系数，判断所述社区中出现异常的患者节点数据；

输出模块，用于输出所述出现异常的患者节点数据至用户终端。

为实现上述目的，本申请实施例还提供了一种计算机设备，，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令，所述计算机可读指令被处理器执行时实现以下步骤：

接收用户终端发送的数据异常分析请求；

根据各个医生节点数据从所述关系异构图中提取多个社区C＝{C ₁，C ₂，...，C _k}；

获取各个社区C _i的多个特征的多个特征数据，所述多个特征包括节点数据数量特征、社区密度特征和/或平均医疗金额特征；

根据各个社区C _i的多个特征的多个特征数据，计算各个社区C _i异常检测系数；

根据各个社区C _i异常检测系数，判断所述社区中出现异常的患者节点数据；及

输出所述出现异常的患者节点数据至用户终端。

为实现上述目的，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机可读指令，所述计算机可读指令可被至少一个处理器所执行，以使所述至少一个处理器执行如下步骤：

接收用户终端发送的数据异常分析请求；

输出所述出现异常的患者节点数据至用户终端。

本申请实施例提供的基于图分析的数据异常解析方法、系统、计算机设备及计算机可读存储介质，为医保提供了有效的数据异常解析方法；通过对实体构成的关系异构图分析，实现高效地挖掘欺诈情形并精确定位欺诈实体，从而进一步提高医保数据异常解析的准确性和灵活性。

附图说明

图1为本申请实施例基于图分析的数据异常解析方法的流程示意图。

图2为本申请基于图分析的数据异常解析系统实施例二的程序模块示意图。

图3为本申请计算机设备实施例三的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

以下实施例中，将以计算机设备2为执行主体进行示例性描述。

实施例一

参阅图1，示出了本申请实施例之基于图分析的数据异常解析方法的步骤流程图。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备2为执行主体进行示例性描述。具体如下。

步骤S100，接收用户终端发送的数据异常分析请求。

步骤S102，响应于所述数据异常分析请求，从医保数据库中获取待分析医保数据，根据关键词提取及语义分析从所述医保数据提取节点数据及关联关系数据，所述节点数据包括多个患者节点数据、多个医生节点数据和多个药房节点数据，所述关联关系数据为所述表征所述节点数据之间关联关系的数据。

示例性的，从数据库中获取所述待分析医保数据，所述待分析医保数据包括保险信息、银行信息、证券信息、支付信息、信托信息和期货信息；所述医保数据库涵盖了保险、银行、证券、支付、信托、期货等领域。

示例性的，通过关键词提取及语义分析从所述医保数据提取节点数据及关联关系，其中，所述关联关系是根据患者、医生和药房之间共有的特征或关系生成得到的，例如，医生给患者看病都会给患者开药单，那么所述给患者开药单的行为就可作为医生的共有特征之一，这些特征都可通过关键词提取及语义分析从所述医保数据中获取得到。

步骤S104，根据所述数据及所述关联关系构建关系异构图，所述关系异构图是以节点数据以及节点数据之间的关联关系为边构建得到的。

具体的，所述关系异构图包括第一二分图、第二二分图和第三二分图；所述步骤S104可以进一步包括：

步骤S104a，根据所述节点数据获取多个实体对应的多个实体特征，所述实体特征包括多个患者的多个患者特征、多个医生的多个医生特征和多个药房的多个药房特征。

示例性的，所述多个实体包括多个患者、多个医生和多个药房，根据所述节点数据获取多个实体对应的多个实体特征，即，根据所述多个患者节点数据、所述多个医生节点数据和所述多个药房节点数据，提取多个患者的多个患者特征、多个医生的多个医生特征和多个药房的多个药房特征。

步骤S104b，根据所述多个患者特征和多个医生特征构建患者节点数据与医生节点数据之间的第一二分图；根据所述多个患者特征和多个药房特征构建患者节点数据与药房节点数据之间的第二二分图；根据所述多个医生特征和多个药房特征构建医生节点数据与药房之间的第三二分图。

将每个成对关系包括患者和医生，患者和药房，医生和药房，生成二分图。

示例性的，以金融社保领域的患者就诊和拿药记录作为数据集构建二分图，所述二分图包括节点患者与节点医保卡图、节点患者与节点身份证图、节点患者与节点出生城市图、节点患者与节点医生图、节点患者与节点账单图、节点医生与节点科室图、节点医生与节点医嘱项、节点账单与节点医嘱项、节点医嘱项与节点子类等等。

所述二分图进行融合，根据患者、医生和药房的关系构建关系异构图。

示例性的，所述根据患者、医生和药房的关系构建关系异构图的步骤，包括：

步骤S104b1，将每个二分图中互补相交的两个顶点集合进行拆分，以得到单独的顶点集合。

步骤S104b2，将不同二分图中的单独的顶点集合根据每个顶点的特征进行聚集，其中，相似度高的顶点会进行合并，且同时更新新顶点的特征。

步骤S104b3，对边进行融合，以得到所述患者、所述医生和所述药房之间关系形成关系异构图，其中，所述对边进行融合的可以包括三种情况：

第一种：若边连接的两个节点数据皆是融合的新节点数据，则直接对边的属性进行多条边的累加平均，其中，新节点数据是由多个节点数据融合生成的，故存在多条边。

第二种：若边连接的两个节点数据中有一个是新节点数据另外一个为原节点数据，则先对新节点数据的边进行累加平均，再将平均得到的结果与原节点数据的边进行累加平均。

第三种：若边连接的两个节点数据均为原节点数据，则两点之间的边不变。

通过通过以上多个二分图融合的方法，患者、医生和药房之间关系自动会形成关系异构图。

步骤S106，根据各个医生节点数据从所述关系异构图中提取多个社区C＝{C ₁，C ₂，...，C _k}。

具体的，所述步骤S106可以进一步包括：

步骤S106a，对所述关系异构图中的多个患者节点数据进行聚类，得到多个聚类，每个聚类对应一个聚类中心。

示例性的，在所述关系异构图中根据医生节点对所述多个患者节点进行聚类，以得到多个聚类，每个医生对应一个聚类，每个聚类对应一个聚类中心。

步骤S106b，根据多个医生节点从所述多个聚类中心中进行多次提取，每次根据一个医生节点提取一个聚类中心，根据每次提取的一个聚类中心从所述关系异构图建立一个社区，得到多个社区，其中，所述多个社区中的每个社区都为紧密社区，所述紧密社区为与其他社区有交集的社区。

示例性的，每个患者生病就医的行为都会被记录，即所有就诊过相同医生患者都会有一个相同的就医特征，根据这一就医特征就可以通过该医生节点对患者节点进行聚类，每个医生多可以对所述患者节点进行聚类。

示例性的，对所述关系异构图中的多个患者节点数据进行聚类，根据所述聚类得到患者关系网络，计算所述患者关系网络中两个相邻节点数据B _i和A _i之间的余弦相似度，其中A _ij为第i个节点数据向量A的第j个分量，其中B _ij为第i个节点数据向量B的第j个分量，所述i和j均为正整数，其中j的取值范围为[1,3]；以及根据余弦相似度公式更新患者关系网络中每条边对应的权重：

基于平均相似度计算公式，根据所述患者关系网络中每条边更新后的权重系数w _i，其中w _i为第i条边的权重系数，N表示总共有N个社区封闭环，计算每个社区封闭环对应的平均相似度：

示例性的，基于社区聚类的嫌疑团伙挖掘技术，根据患者就诊行为划分不同的社区，利用社区内患者之间的就诊行为相似度计算该社区的平均相似度，由此可以根据平均相似度以衡量社区的整体行为的一致性，以确认是否为骗保行为。

示例性的，不同社区的患者是根据不同患者的就医行为来进行区分的，就诊过同一个医生或都看过同一类医生的患者会有相同或相识的就医行为，而相同的就医行为又可根据患者就医的不同可分为不同的就医经历，可理解为在相同的医生处看过不同的病，通过就诊行为相似度可以判断患者的不同医经历，即可得到患者的正常就医经历，以此来判断异常的就医经历；例如医生只给单一患者开麻醉药的单或主要给单一患者开出大量麻醉药的单，即可判断出该医生该患者存在异常的就医行为。

步骤S106c，从所述多个社区中提取一组社区C＝{C ₁，C ₂，...，C _k}。

示例性的，所述紧密社区是由多个强联通结构构成的，所述多个强联通结构为多个顶点构成一个封闭环结构；所述多个顶点为所述医生节点数据对应的多个患者节点数据，所述封闭环内的每个医生节点数据和患者节点数据之间都存在边。

示例性的，所述封闭环中的每个患者都看过同一个医生或同一类医生，所述同一类医生为拥有相似的就医行为的医生。

示例性的，所述建立的紧密社区即是根据医生聚类后，在患者关系网络中包括多个强联通结构；其中，所述多个顶点构成一个封闭环结构，且环内的任意两个节点数据之间存在边。强联通结构为社区封闭环，不同的封闭环结构代表不同的社区，所述社区是指基于相似行为或特征的医生聚集而成的医生、患者和药房的共同集合，该社区中的医生存在强相似性，该社区中的患者和药房与医生具有强关联的特性，社区中的“居民”是指就诊过同一个医生或都看过同一类医生的社区患者，即他们拥有相似的就医行为，可以此来侦查团队作案可能。

步骤S108，获取各个社区C _i的多个特征的多个特征数据，所述多个特征数据包括节点数据数量、社区密度和/或平均医疗金额。

步骤S110，根据各个社区C _i的多个特征的多个特征数据，计算各个社区C _i异常检测系数。

步骤S112，根据各个社区C _i异常检测系数，判断所述社区中出现异常的患者节点数据。

示例性的，计算社区C _i中节点数据总数相对于关系异构图中节点数据总数的比率来检查提取的社区是否存在异常；这里的节点数据比率指的是该节点数据的Degree(度)数比该社区所有节点数据的Degree(度)数之和。

示例性的，当所述比率小于预设的阈值时，则表明关系异构图中是一个基本上没有社区的网络，因此可认为所述关系异构图中所有的社区都是异常的。相反，，当所述比率大于预设的阈值时，则关系异构图中存在的社区并非全部都是异常社区，其中，所述预设的阈值可以通过异常检测结果进行可控调整。

示例性的，当所述比率大于预设的阈值时，通过提取给定社区C _i的社区特征，寻找与所述社区特征相关的异常社区；通过以下几组特征来表征推荐网络中的任何给定社区C _i；所述社区特征包括：社区大小特征，C _i中的节点数据数；社区密度特征，C _i中总边数与节点数据数的比值；平均金额特征，C _i中总金额与节点数据数的比值；并根据边统计数据计算所有医生的异常分数，并计算社区C _i的平均异常分数；根据所述社区C _i的社区特征，进行异常检测。

示例性的，异常点比正常点更容易隔离，本方法使用iForest异常检测算法，所述iForest异常检测算法基于随机生成的分类树将点与其余点隔离来检测异常。

步骤S114，输出所述出现异常的患者节点数据至用户终端。

示例性的，所述方法还包括：

步骤S300，提取所述关系异构图的多个聚合特征，所述多个聚合特征包括不同实体之间的度、权重以及熵比。

步骤S302，根据所述多个聚合特征确定异常实体。

示例性的，所述聚合特征包括：度，邻居节点数据数，即|S|其中S代表节点数据的邻居集合；熵比：

其中给定节点数据n及其1跳邻居集合N，其中，1跳邻居是指两个节点数据之间是连通或可达的，但它们之间存在且仅存在一个中间节点数据；p _k是节点数据n与邻居k发生的业务占节点数据n总业务的百分比。求和项是经验熵，衡量n与其邻域集合N中的不同节点数据产生业务数量的偏差。如果n在N中所有节点数据产生的业务是均匀分布的，则熵比为1。相反，n与一个邻居进行大部分业务，则表现为分布非常偏斜，导致熵比接近 0。节点数据n的经验熵除以log(|N|)实现归一化，其中|N|表示邻居集合N中节点数据的数量。

示例性的，所述异常实体对应有多个异常类型，所述多个异常类型包括个人水平异常、关系水平异常以及医疗行为异常。

示例性的，基于个人水平的异常包括：谁是麻醉药的主要消费者以及获取麻醉品药的来源；医生给谁开出了麻醉药；哪家药房出售大量麻醉药，以及出售对象是谁。

示例性的，所述关系水平异常为关系过于集中，例如：药房的麻醉药销售对象是极少数患者和医生；医生开出了大量的麻醉药处方，指导患者在几家药房购买；医生只向少数病人开了麻醉药。节点数据之间的强联系可认为有潜在的共谋。“购物型患者”，即患者访问大量医生以获得更多的麻醉药处方。

示例性的，所述熵比即是信息差，例如：一个医生如果给少数人开出了大量的药(数量呈高斯分布)，则他们之间的熵比会特别大，也说明了这种医患关系存在问题；相反，如果一个医生给大多数病人开了数量呈均匀分布的药品，则他们的熵比会比较小，相对而言该节点数据医生较靠谱。

示例性的，所述医疗行为异常是指医疗实践无法证明的行为异常。这些包括：患者只消费麻醉药；患者和医生之间仅关注麻醉药。

示例性的，为了量化这些指标，我们将计算消费金额和医嘱总量中麻醉药所占的百分比。对于异常患者个体，直接利用个人麻醉药消费/个人总用药消费以及个人麻醉消费/总麻醉药用量消费即可得到这两项指标；均可在构图完成后单独选取麻醉药这一属性进行计算。

示例性的，所述方法还包括确定所述异常实体的个人水平异常的步骤：

步骤S400，通过PageRank算法计算所述第一二分图中每个患者节点数据的度、出度和入度与每个医生节点数据的度、出度和入度。

步骤S402，根据每个患者节点数据的度、出度和入度与各个医生节点数据的度、出度和入度，在患者节点数据与医生节点数据之间通过有向边连接，得到所述患者和所述医生的关系有向图，并根据所述关系有向图生成有向图矩阵。

步骤S404，对所述有向图矩阵进行二维矩阵相乘并反复迭代改变权值，得到PageRank值。

步骤S406，根据所述PageRank值确定个人水平异常。

示例性的，对于这个有向图矩阵，利用二维矩阵相乘，反复迭代改变权值，再次相乘，再次改变权值，反复多次后最终权值的收敛值即是PageRank值。同样，如果一个节点数据被其他很多节点数据链接到，那么说明该节点数据受到普遍认可和信赖；不同节点数据被其他的节点数据链接时的权重也各不相同；一个节点数据的重要性，也即该节点数据PageRank值应该为所有链接该节点数据的权重之和。

实施例二

图2为本申请基于图分析的数据异常解析系统实施例二的程序模块示意图。数据异常解析系统20可以包括或被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本申请，并可实现上述基于图分析的数据异常解析方法。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序本身更适合于描述数据异常解析系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能：

接收模块200，用于接收用户终端发送的数据异常分析请求。

响应模块202，用于响应于所述数据异常分析请求，从医保数据库中获取待分析医保数据，根据关键词提取及语义分析从所述医保数据提取节点数据及关联关系数据，所述节点数据包括多个患者节点数据、多个医生节点数据和多个药房节点数据，所述关联关系数据为表征所述节点数据之间关联关系的数据。

构建模块204，用于根据所述节点数据及所述关联关系构建关系异构图，所述关系异构图是以多个节点数据以及多个节点数据之间的关联关系为边构建得到的。

提取模块206，根据各个医生节点数据从所述关系异构图中提取多个社区C＝{C ₁，C ₂，...，C _k}。

获取模块208，用于获取各个社区C _i的多个特征的多个特征数据，所述多个特征数据包括节点数据数量、社区密度和/或平均医疗金额。

计算模块210，用于根据各个社区C _i的多个特征的多个特征数据，计算各个社区C _i异常检测系数。

判断模块212，用于根据各个社区C _i异常检测系数，判断所述社区中出现异常的患者节点数据。

示例性的，所述构建模块200，还用于：根据所述节点数据获取多个实体对应的多个实体特征，所述实体特征包括多个患者的多个患者特征、多个医生的多个医生特征和多个药房的多个药房特征；及根据所述多个患者特征和多个医生特征构建患者节点数据与医生节点数据之间的第一二分图；根据所述多个患者特征和多个药房特征构建患者节点数据与药房节点数据之间的第二二分图；根据所述多个医生特征和多个药房特征构建医生节点数据与药房之间的第三二分图。

示例性的，所述提取模块206，还用于：对所述关系异构图中的多个患者节点数据进行聚类，得到多个聚类，每个聚类对应一个聚类中心；根据多个医生节点数据从所述多个聚类中心中进行多次提取，每次根据一个医生节点数据提取一个聚类中心，根据每次提取的一个聚类中心从所述关系异构图建立一个社区，得到多个社区，其中，所述多个社区中的每个社区都为紧密社区，所述紧密社区为与其他社区有交集的社区，所述多个紧密社区的数量等于所述多个聚类中心的数量；从所述多个社区中提取一组社区C＝{C ₁，C ₂，...，C _k}。

示例性的，所述判断模块212，还用于：提取所述关系异构图的多个聚合特征，所述多个聚合特征包括不同实体之间的度、权重以及熵比；根据所述多个聚合特征确定异常实体。所述异常实体对应有多个异常类型，所述多个异常类型包括个人水平异常、关系水平异常以及医疗行为异常。

示例性的，所述判断模块212，还用于：通过PageRank算法计算所述第一二分图中每个患者节点数据的度、出度和入度与每个医生节点数据的度、出度和入度；根据每个患者节点数据的度、出度和入度与各个医生节点数据的度、出度和入度，在患者节点数据与医生节点数据之间通过有向边连接，得到所述患者和所述医生的关系有向图，并根据所述关系有向图生成有向图矩阵；对所述有向图矩阵进行二维矩阵相乘并反复迭代改变权值，得到PageRank值；根据所述PageRank值确定个人水平异常。

输出模块214，用于输出所述出现异常的患者节点数据至用户终端。

实施例三

参阅图3，是本申请实施例三之计算机设备的硬件架构示意图。本实施例中，所述计算机设备2是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图所示，所述计算机设备2至少包括，但不限于，可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及数据异常解析系统20。

本实施例中，存储器21至少包括一种类型的计算机可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备2的内部存储单元，例如该计算机设备2的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备2的外部存储设备，例如该计算机设备2上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。当然，存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件，例如实施例二的基于图分析的数据异常解析系统20的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据，例如运行基于图分析的数据异常解析系统20，以实现实施例一的基于图分析的数据异常解析方法。

所述网络接口23可包括无线网络接口或有线网络接口，该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如，所述网络接口23用于通过网络将所述计算机设备2与外部终端相连，在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图3仅示出了具有部件20-23的计算机设备2，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器21中的基于图分析的数据异常解析系统20还可以被分割为一个或者多个程序模块，所述一个或者多个程序模块被存储于存储器21中，并由一个或多个处理器(本实施例为处理器22)所执行，以完成本申请。

例如，图2示出了本申请实施例二之所述实现基于图分析的数据异常解析系统20的程序模块示意图，该实施例中，所述基于图分析的数据异常解析系统20可以被划分为接收模块200、响应模块202、构建模块204、提取模块206、获取训练208、计算模块210、判断模块212和输出模块214。其中，本申请所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序更适合于描述所述基于图分析的数据异常解析分类20在所述计算机设备2中的执行过程。所述程序模块200-214的具体功能在实施例二中已有详细描述，在此不再赘述。

实施例四

本实施例还提供一种计算机可读存储介质，所述计算机可读存储介质可以是非易失性，也可以是易失性，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于基于图分析的数据异常解析系统20，被处理器执行如下步骤：

接收用户终端发送的数据异常分析请求；

输出所述出现异常的患者节点数据至用户终端。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种基于图分析的数据异常解析方法，其中，所述方法包括：

接收用户终端发送的数据异常分析请求；

响应于所述数据异常分析请求，从医保数据库中获取待分析医保数据，根据关键词提取及语义分析从所述医保数据提取节点数据及关联关系数据，所述节点数据包括多个患者节点数据、多个医生节点数据和多个药房节点数据，所述关联关系数据为所述表征所述节点数据之间关联关系的数据；

根据所述数据及所述关联关系构建关系异构图，所述关系异构图是以节点数据以及节点数据之间的关联关系为边构建得到的；

根据各个医生节点数据从所述关系异构图中提取多个社区C＝{C ₁，C ₂，...，C _k}；

获取各个社区C _i的多个特征的多个特征数据，所述多个特征包括节点数据数量特征、社区密度特征和/或平均医疗金额特征；

根据各个社区C _i的多个特征的多个特征数据，计算各个社区C _i异常检测系数；

根据各个社区C _i异常检测系数，判断所述社区中出现异常的患者节点数据；及

输出所述出现异常的患者节点数据至用户终端。
如权利要求1所述的基于图分析的数据异常解析方法，其中，所述关系异构图包括第一二分图、第二二分图和第三二分图；所述根据所述节点数据及所述关联关系构建关系异构图的步骤，包括：

根据所述节点数据获取多个实体对应的多个实体特征，所述实体特征包括多个患者的多个患者特征、多个医生的多个医生特征和多个药房的多个药房特征；

根据所述多个患者特征和多个医生特征构建患者节点数据与医生节点数据之间的第一二分图；根据所述多个患者特征和多个药房特征构建患者节点数据与药房节点数据之间的第二二分图；根据所述多个医生特征和多个药房特征构建医生节点数据与药房之间的第三二分图。
如权利要求2所述的基于图分析的数据异常解析方法，其中，所述方法还包括：

提取所述关系异构图的多个聚合特征，所述多个聚合特征包括不同实体之间的度、权重以及熵比；及

根据所述多个聚合特征确定异常实体；

所述异常实体对应有多个异常类型，所述多个异常类型包括个人水平异常、关系水平异常以及医疗行为异常。
如权利要求3所述的基于图分析的数据异常解析方法，其中，所述方法还包括确定所述异常实体的个人水平异常的步骤：

通过PageRank算法计算所述第一二分图中每个患者节点数据的度、出度和入度与每个医生节点数据的度、出度和入度；

根据每个患者节点数据的度、出度和入度与各个医生节点数据的度、出度和入度，在患者节点数据与医生节点数据之间通过有向边连接，得到所述患者和所述医生的关系有向图，并根据所述关系有向图生成有向图矩阵；

对所述有向图矩阵进行二维矩阵相乘并反复迭代改变权值，得到PageRank值；

根据所述PageRank值确定个人水平异常。
如权利要求1所述的基于图分析的数据异常解析方法，其中，所述根据各个医生节点数据从所述关系异构图中提取多个社区C＝{C ₁，C ₂，...，C _k}的步骤，包括：

对所述关系异构图中的多个患者节点数据进行聚类，得到多个聚类，每个聚类对应一个聚类中心；

根据多个医生节点数据从所述多个聚类中心中进行多次提取，每次根据一个医生节点数据提取一个聚类中心，根据每次提取的一个聚类中心从所述关系异构图建立一个社区，得到多个社区，其中，所述多个社区中的每个社区都为紧密社区，所述紧密社区为与其他社区有交集的社区；及

从所述多个社区中提取一组社区C＝{C ₁，C ₂，...，C _k}。
如权利要求5所述的基于图分析的数据异常解析方法，其中，所述紧密社区是由多个强联通结构构成的，所述多个强联通结构为多个顶点构成一个封闭环结构；所述多个顶点为所述医生节点数据对应的多个患者节点数据，所述封闭环内的每个医生节点数据和患者节点数据之间都存在边。
一种基于图分析的数据异常解析系统，其中，包括：

接收模块，用于接收用户终端发送的数据异常分析请求；

响应模块，用于响应于所述数据异常分析请求，从医保数据库中获取待分析医保数据，根据关键词提取及语义分析从所述医保数据提取节点数据及关联关系数据，所述节点数据包括多个患者节点数据、多个医生节点数据和多个药房节点数据，所述关联关系数据为表征所述节点数据之间关联关系的数据；

构建模块，用于根据所述节点数据及所述关联关系构建关系异构图，所述关系异构图是以多个节点数据以及多个节点数据之间的关联关系为边构建得到的；

提取模块，根据各个医生节点数据从所述关系异构图中提取多个社区C＝{C ₁，C ₂，...，C _k}；

获取模块，用于获取各个社区C _i的多个特征的多个特征数据，所述多个特征数据包括节点数据数量、社区密度和/或平均医疗金额；

计算模块，用于根据各个社区C _i的多个特征的多个特征数据，计算各个社区C _i异常检测系数；

判断模块，用于根据各个社区C _i异常检测系数，判断所述社区中出现异常的患者节点数据；及

输出模块，用于输出所述出现异常的患者节点数据至用户终端。
如权利要求5所述的基于图分析的数据异常解析系统，其中，所述提取模块还用于：

对所述关系异构图中的多个患者节点数据进行聚类，得到多个聚类，每个聚类对应一个聚类中心；

根据多个医生节点数据从所述多个聚类中心中进行多次提取，每次根据一个医生节点数据提取一个聚类中心，根据每次提取的一个聚类中心从所述关系异构图建立一个社区，得到多个社区，其中，所述多个社区中的每个社区都为紧密社区，所述紧密社区为与其他社区有交集的社区，所述多个紧密社区的数量等于所述多个聚类中心的数量；及

从所述多个社区中提取一组社区C＝{C ₁，C ₂，...，C _k}。
一种计算机设备，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令，其中，所述计算机可读指令被处理器执行时实现以下步骤：

接收用户终端发送的数据异常分析请求；

响应于所述数据异常分析请求，从医保数据库中获取待分析医保数据，根据关键词提取及语义分析从所述医保数据提取节点数据及关联关系数据，所述节点数据包括多个患者节点数据、多个医生节点数据和多个药房节点数据，所述关联关系数据为所述表征所述节点数据之间关联关系的数据；

根据所述数据及所述关联关系构建关系异构图，所述关系异构图是以节点数据以及节点数据之间的关联关系为边构建得到的；

根据各个医生节点数据从所述关系异构图中提取多个社区C＝{C ₁，C ₂，...，C _k}；

获取各个社区C _i的多个特征的多个特征数据，所述多个特征包括节点数据数量特征、社区密度特征和/或平均医疗金额特征；

根据各个社区C _i的多个特征的多个特征数据，计算各个社区C _i异常检测系数；

根据各个社区C _i异常检测系数，判断所述社区中出现异常的患者节点数据；及

输出所述出现异常的患者节点数据至用户终端。
如权利要求9所述的计算机设备，其中，所述计算机可读指令被处理器执行时还实现以下步骤：

根据所述节点数据获取多个实体对应的多个实体特征，所述实体特征包括多个患者的多个患者特征、多个医生的多个医生特征和多个药房的多个药房特征；

根据所述多个患者特征和多个医生特征构建患者节点数据与医生节点数据之间的第一二分图；根据所述多个患者特征和多个药房特征构建患者节点数据与药房节点数据之间的第二二分图；根据所述多个医生特征和多个药房特征构建医生节点数据与药房之间的第三二分图。
如权利要求10所述的计算机设备，其中，所述计算机可读指令被处理器执行时还实现以下步骤：

提取所述关系异构图的多个聚合特征，所述多个聚合特征包括不同实体之间的度、权重以及熵比；及

根据所述多个聚合特征确定异常实体；

所述异常实体对应有多个异常类型，所述多个异常类型包括个人水平异常、关系水平异常以及医疗行为异常。
如权利要求11所述的计算机设备，其中，所述计算机可读指令被处理器执行时还实现以下步骤：

通过PageRank算法计算所述第一二分图中每个患者节点数据的度、出度和入度与每个医生节点数据的度、出度和入度；

根据每个患者节点数据的度、出度和入度与各个医生节点数据的度、出度和入度，在患者节点数据与医生节点数据之间通过有向边连接，得到所述患者和所述医生的关系有向图，并根据所述关系有向图生成有向图矩阵；

对所述有向图矩阵进行二维矩阵相乘并反复迭代改变权值，得到PageRank值；

根据所述PageRank值确定个人水平异常。
如权利要求9所述的计算机设备，其中，所述计算机可读指令被处理器执行时还实现以下步骤：

对所述关系异构图中的多个患者节点数据进行聚类，得到多个聚类，每个聚类对应一个聚类中心；

根据多个医生节点数据从所述多个聚类中心中进行多次提取，每次根据一个医生节点数据提取一个聚类中心，根据每次提取的一个聚类中心从所述关系异构图建立一个社区，得到多个社区，其中，所述多个社区中的每个社区都为紧密社区，所述紧密社区为与其他社区有交集的社区；及

从所述多个社区中提取一组社区C＝{C ₁，C ₂，...，C _k}。
如权利要求13所述的计算机设备，其中，所述紧密社区是由多个强联通结构构成的，所述多个强联通结构为多个顶点构成一个封闭环结构；所述多个顶点为所述医生节点数据对应的多个患者节点数据，所述封闭环内的每个医生节点数据和患者节点数据之间都存在边。
一种计算机可读存储介质，其中，所述计算机可读存储介质内存储有计算机可读指令，所述计算机可读指令可被至少一个处理器所执行，以使所述至少一个处理器执行如下步骤：

接收用户终端发送的数据异常分析请求；

响应于所述数据异常分析请求，从医保数据库中获取待分析医保数据，根据关键词提取及语义分析从所述医保数据提取节点数据及关联关系数据，所述节点数据包括多个患者节点数据、多个医生节点数据和多个药房节点数据，所述关联关系数据为所述表征所述节点数据之间关联关系的数据；

根据所述数据及所述关联关系构建关系异构图，所述关系异构图是以节点数据以及节点数据之间的关联关系为边构建得到的；

根据各个医生节点数据从所述关系异构图中提取多个社区C＝{C ₁，C ₂，...，C _k}；

获取各个社区C _i的多个特征的多个特征数据，所述多个特征包括节点数据数量特征、社区密度特征和/或平均医疗金额特征；

根据各个社区C _i的多个特征的多个特征数据，计算各个社区C _i异常检测系数；

根据各个社区C _i异常检测系数，判断所述社区中出现异常的患者节点数据；及

输出所述出现异常的患者节点数据至用户终端。
如权利要求15所述的计算机可读存储介质，其中，所述计算机可读指令还可被至少一个处理器所执行，以使所述至少一个处理器执行如下步骤：

根据所述节点数据获取多个实体对应的多个实体特征，所述实体特征包括多个患者的多个患者特征、多个医生的多个医生特征和多个药房的多个药房特征；

根据所述多个患者特征和多个医生特征构建患者节点数据与医生节点数据之间的第一二分图；根据所述多个患者特征和多个药房特征构建患者节点数据与药房节点数据之间的第二二分图；根据所述多个医生特征和多个药房特征构建医生节点数据与药房之间的第三二分图。
如权利要求16所述的计算机可读存储介质，其中，所述计算机可读指令还可被至少一个处理器所执行，以使所述至少一个处理器执行如下步骤：

提取所述关系异构图的多个聚合特征，所述多个聚合特征包括不同实体之间的度、权重以及熵比；及

根据所述多个聚合特征确定异常实体；

所述异常实体对应有多个异常类型，所述多个异常类型包括个人水平异常、关系水平异常以及医疗行为异常。
如权利要求17所述的计算机可读存储介质，其中，所述计算机可读指令还可被至少一个处理器所执行，以使所述至少一个处理器执行如下步骤：

通过PageRank算法计算所述第一二分图中每个患者节点数据的度、出度和入度与每个医生节点数据的度、出度和入度；

根据每个患者节点数据的度、出度和入度与各个医生节点数据的度、出度和入度，在患者节点数据与医生节点数据之间通过有向边连接，得到所述患者和所述医生的关系有向图，并根据所述关系有向图生成有向图矩阵；

对所述有向图矩阵进行二维矩阵相乘并反复迭代改变权值，得到PageRank值；

根据所述PageRank值确定个人水平异常。
如权利要求15所述的计算机可读存储介质，其中，所述计算机可读指令还可被至少一个处理器所执行，以使所述至少一个处理器执行如下步骤：

对所述关系异构图中的多个患者节点数据进行聚类，得到多个聚类，每个聚类对应一个聚类中心；

根据多个医生节点数据从所述多个聚类中心中进行多次提取，每次根据一个医生节点数据提取一个聚类中心，根据每次提取的一个聚类中心从所述关系异构图建立一个社区，得到多个社区，其中，所述多个社区中的每个社区都为紧密社区，所述紧密社区为与其他社区有交集的社区；及

从所述多个社区中提取一组社区C＝{C ₁，C ₂，...，C _k}。
如权利要求19所述的计算机可读存储介质，其中，所述紧密社区是由多个强联通结构构成的，所述多个强联通结构为多个顶点构成一个封闭环结构；所述多个顶点为所述医生节点数据对应的多个患者节点数据，所述封闭环内的每个医生节点数据和患者节点数据之间都存在边。