WO2021169088A1

WO2021169088A1 - 用于大规模电子健康档案知识协同约简的最近邻多粒度利润方法

Info

Publication number: WO2021169088A1
Application number: PCT/CN2020/096484
Authority: WO
Inventors: 丁卫平; 孙颖; 李铭; 鞠恒荣; 冯志豪; 曹金鑫; 张毅; 任龙杰; 丁帅荣; 陈森博; 万杰; 赵理莉
Original assignee: 南通大学
Priority date: 2020-02-25
Filing date: 2020-06-17
Publication date: 2021-09-02
Also published as: AU2020331559A1; CN111354427B; CN111354427A

Abstract

一种用于大规模电子健康档案知识协同约简的最近邻多粒度利润方法，首先在Spark云平台上将大规模电子健康档案数据集分割至不同的多粒度进化子种群中；接着构建一种基于最近邻多粒度利润模型，在最近邻半径中构造协同化的最近邻向量；然后求出超级精英的共享最近邻利润权重及其权重利润向量，执行超级精英权重利润矩阵的自适应动态调整策略；最后求出大规模电子健康档案数据知识协同约简集及其核属性，并将电子健康档案知识约简集存储至Spark云平台。该方法能高效取得大规模电子健康档案中不完备和模糊数据知识约简集，对电子健康档案决策支持分析具有重要意义与价值。

Description

用于大规模电子健康档案知识协同约简的最近邻多粒度利润方法

技术领域：

本发明涉及到医学信息智能处理领域，具体来说涉及一种用于大规模电子健康档案知识协同约简的最近邻多粒度利润方法。

背景技术：

“健康中国2020”战略规划中提到：“我国要建立起比较完善的覆盖城乡居民的基本医疗卫生制度，实现人人享有基本医疗卫生服务的目标，促进卫生服务利用的均等化，大幅度提高全民健康水平；在卫生信息化方面，要建立起覆盖城乡居民的电子健康档案使用与管理制度。”

电子健康档案是人们在从事与医疗健康相关活动时形成的、具有保存备查价值的个人健康电子化历史记录。经过这些年的发展，我国在电子健康档案领域积累了大量的医疗和健康数据信息。利用人工智能方法从丰富的电子健康档案数据信息中自动发现潜藏的医学规律，对于疾病的预防、控制和治疗等具有重要意义与价值。然而由于大规模电子健康档案数据具有高度不完备性和模糊性，极大地限制了传统人工智能、机器学习和数据挖掘算法的应用。

传统数据挖掘算法处理的数据训练样本一般要求不能包含大量的缺失信息，即要求数据的完备性，对含有缺失信息的数据大部分采用直接删除的方式处理，且处理的数据类型大部分为符号型或数值型数据，对于模糊类型数据则将其转化为数值型数据后进行处理。然而大规模电子健康档案中的数据往往呈现出高度的不完备性，已建立的电子健康档案中存在着相当大比例的缺失数据。另外电子健康档案数据部分属性列的取值用描述性语言刻画，具有较强的模糊性，如将全部模糊型数据直接转化为数值型或者符号型数据有可能造成电子健康档案信息的大量丢失，甚至影响后续智能辅助诊断决策。

因此，拓展针对大规模电子健康档案特点的数据挖掘方法，建立电子健康档案智能辅助决策系统的实际应用，充分提取出疾病或体征之间的关联性，对开展大规模电子健康档案决策支持分析以及提供个性化、协同化与知识化的电子健康档案大数据服务等具有重要意义。

多粒度计算是人类进行问题求解时通常采用的策略之一，是人类认知能力的重要体现。基于多粒度的数据建模就是通过获得信息粒集和多个粒结构进行复杂数据智能分析，从中提取出可用的知识并形成有效决策方案。若数据建模仅使用一个粒结构，则称其为基于单粒度的数据建模；若使用多个粒结构，则称其为基于多粒度的数据建模。基于多粒度的数据分析可从多个角度、多个层次出发分析问题，较好地获得更加合理、更加满意的问题解。多粒度作为人类认知的重要特征之一，对复杂数据的数据挖掘与知识发现具有重要作用。因此在医疗大数据应用背景下，针对大规模电子健康档案中混合不完备和模糊数据提出有效的多粒度知识协同约简方法，对大规模电子健康档案决策支持分析具有重要的意义与价值。

发明内容：

本发明的目的是公开了一种降低了执行时间，提升了大规模电子健康档案知识协同约简的准确率，降低了云计算Spark云平台上大规模电子健康档案知识协同约简的复杂度成本，为开展电子健康档案特征选择、规则挖掘以及临床决策支持等智能服务奠定了较好的基础的用于大规模电子健康档案知识协同约简的最近邻多粒度利润方法。

本发明公开了一种用于大规模电子健康档案知识协同约简的最近邻多粒度利润方法，包括以下步骤：

A.在大数据Spark云平台上将大规模电子健康档案数据集分割至不同的多粒度进化子种群Granu-Subpopulation _i中，i＝1,2,…,N，N为多粒度进化子种群总个数，这样大规模电子健康档案数据集知识约简任务分解为多个并行化多粒度进化子种群的知识协同约简任务，分别计算出多粒度进化子种群所分配的电子健康档案数据集候选等价类；

B.设计一种最近邻多粒度利润模型，将第i个多粒度进化子种群Granu-Subpopulation _i用于大规模电子健康档案第i个数据子集的知识约简，同时在多粒度进化种群Granu-Subpopulation _i中根据适应度的大小，选择适应度值最大的超级精英Super-Elitist _i和适应度值最小的普通精英Ordinary-Elitist _i，求出共享最近邻域向量的相似度Sim(m,n)和共享最近邻利润向量ζ(e)，并在最近邻半径的第d _i层中构造协同化的最近邻向量；

C.构建多粒度精英矩阵Gp _i，计算多粒度子种群Granu-Subpopulation _i中精英矩阵Gp _i的最近邻多粒度利润权重，得到其相应的权重利润矩阵Γ(e)，执行超级精英权重利润矩阵自适应动态调整策略，求得各超级精英在各自多粒度子种群内利润权重

然后分配给进行大规模电子健康档案数据子集知识协同约简的各个多粒度子种群Granu-Subpopulation _i中超级精英Super-Elitist _i；

D.存储所有超级精英的多粒度利润权重集合

然后利用粗糙集理论中差别矩阵公式计算大规模电子健康档案数据子集知识协同约简集及其核属性，从而将大规模电子健康档案数据集正确分类到决策属性的知识规则类中；

E.比较上述求出的大规模电子健康档案知识协同约简集精度EHR与预先设定精度值λ关系，若满足EHR≥λ，则输出大规模电子健康档案最优知识协同约简集。否则，继续执行上述C和D步骤，直至大规模电子健康档案知识协同约简精度满足EHR≥λ；

F.求出大规模电子健康档案数据知识协同约简集及其核属性，并将电子健康档案相关知识约简集存储至Spark云平台，为大规模电子健康档案决策支持分析提供重要的智能辅助诊断依据。

本发明的进一步改进在于：所述步骤B的具体步骤如下：

a.采用共享最近邻域向量表示第d _i层中最近邻半径集为：

d _i＝{w ₁,w ₂,...,w _j,...,w _m},

w _j＝(1+logtf(R _j))*log(1+n/df(R _j)),

其中tf(R _j)为第d _i层中最近邻域半径R _j的出现频率，df(R _j)为权重向量w _j在最近邻域半径R _j的层次频率；

b.构造一个N ⁱ×N ⁱ的矩阵C ⁱ，其中N ⁱ是第d _i层中最近邻域半径数量，则最近半径R _i和R _j之间共享权重C ⁱ(i,j)定义如下：

C ⁱ(i,j)＝corr(f _i,f _j)，

其中f _i和f _j分别对应于最近邻半径R _i和R _j的特征向量，corr(f _i,f _j)表示f _i和f _j两个特征向量的内积操作；

c.在最近邻半径的第d _i层中，构造4个交叠邻域向量为

和

并将它们分别分解成4个子向量如下：

d.在第d _i层中计算交叠邻域向量

和

的共享邻域为

其中

和

分别是交叠邻域向量

和

对应的最近邻域集；

e.求出共享最近邻域交叠邻域向量

和

的相似度Sim(m,n)，计算公式如下：

f.求出共享最近邻利润向量ζ(e)，计算公式如下：

g.计算最近邻半径R _i和R _j之间的自适应利润补偿权重f _i ^j如下：

f _i ^j＝Df(R _iR _j)/df(R _j)，

其中Df(R _iR _j)为最近邻域向量包含最近邻域半径R _i和R _j的总数量，df(R _j)为权重向量w _j在最近邻域半径R _j的层次频率；

h.在最近邻半径的第d _i层中构造协同化最近邻向量f _m,f _n,f _p,f _t,分别如下：

其中ξ _i为第i个最近邻半径中用于第i个电子健康档案数据子集进行知识约简的超级精英Super-Elitist _i数量。

本发明的进一步改进在于：所述步骤C的具体步骤如下：

a.在第i个多粒度进化子种群Granu-Subpopulation _i中，将最近邻半径矩阵表示成两个张量

和

然后将它们合并到多粒度子种群Granu-Subpopulation _i的超级精英矩阵集Gp _i中，其中i＝1,2,…,N；

b.计算超级精英矩阵中相邻张量之间的平均共享相似度，计算公式如下：

其中

表示相邻张量

和

之间的相似度；

c.计算多粒度子种群Granu-Subpopulation _i中超级精英矩阵Gp _i的最近邻多粒度利润权重，计算公式如下：

其中

||Gp _i||表示第i个多粒度子种群

Granu-Subpopulation _i的超级精英矩阵的势，

为最近邻半径R _i和R _j之间在第k次迭代时的信任度；

d.构造子种群Granu-Subpopulation _i的多粒度染色体，其包括m个超级精英，相应的权重利润矩阵Γ(e)定义如下：

e.更新超级精英Super-Elitist _i的权重，在大规模电子健康档案数据子集知识协同约简过程中如果多粒度子种群Granu-Subpopulation _i中超级精英

矩阵的势

大于

N为多粒度进化子种群总个数，则

超级精英权重

将相应增加，自适应动态调整公式如下：

其中||Γ(e)||为权重利润矩阵Γ(e)的势，η _i是控制超级精英Super-Elitist _i的动态权重参数，其公式定义如下：

其中

为第i个超级精英Super-Elitist _i的适应度，

为第i个超级精英Super-Elitist _i所在多粒度子种群Granu-population _i的适应度；

f.将超级精英Super-Elitist _i的利润权重

进行归一化操作，求得其归一利润权重

为

本发明与现有技术相比具有如下优点：

1)本发明能够支持大规模电子健康档案在多个结点上并行化知识协同约简,超级精英在各自多粒度子种群内进行知识约简任务，大大降低了执行时间，提升了大规模电子健康档案知识协同约简的准确率。

2)本发明提出的最近邻多粒度利润方法将大规模电子健康档案划分和存储在多个进化子种群Granu-Subpopulation _i中,降低了云计算Spark云平台上大规模电子健康档案知识约简的复杂度成本，为开展电子健康档案特征选择、规则挖掘以及临床决策支持等智能服务奠定了较好的基础。

3)本发明能高效取得大规模电子健康档案中不完备和模糊数据的知识协同约简集，对大规模电子健康档案决策支持分析具有非常重要的意义与价值。

附图说明：

图1为系统总体流程图；

图2为最近邻多粒度利润模型动态执行过程图；

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。

如图1-2所示，本发明公开了一种用于大规模电子健康档案知识协同约简的最近邻多粒度利润方法，包括以下步骤：

所述步骤B的具体步骤如下：

a.采用共享最近邻域向量表示第d _i层中最近邻半径集为：

d _i＝{w ₁,w ₂,...,w _j,...,w _m},

w _j＝(1+logtf(R _j))*log(1+n/df(R _j)),

C ⁱ(i,j)＝corr(f _i,f _j)，

c.在最近邻半径的第d _i层中，构造4个交叠邻域向量为

和

并将它们分别分解成4个子向量如下：

d.在第d _i层中计算交叠邻域向量

和

的共享邻域为

其中

和

分别是交叠邻域向量

和

对应的最近邻域集；

e.求出共享最近邻域交叠邻域向量

和

的相似度Sim(m,n)，计算公式如下：

f.求出共享最近邻利润向量ζ(e)，计算公式如下：

f _i ^j＝Df(R _iR _j)/df(R _j)，

其中ξ _i为第i个最近邻半径中用于第i个电子健康档案数据子集进行知

识约简的超级精英Super-Elitist _i数量。

所述步骤C的具体步骤如下：

和

其中

表示相邻张量

和

之间的相似度；

其中

||Gp _i||表示第i个多粒度子种群

Granu-Subpopulation _i的超级精英矩阵的势，

为最近邻半径R _i和R _j之间在第k次迭代时的信任度；

矩阵的势||Gp _i||大于

N为多粒度进化子种群总个数，则超级精英权重

将相应增加，自适应动态调整公式如下：

其中

为第i个超级精英Super-Elitist _i的适应度，

f.将超级精英Super-Elitist _i的利润权重

进行归一化操作，求得其归一利润权重

为

D.存储所有超级精英的多粒度利润权重集合

本发明能够支持大规模电子健康档案在多个结点上并行化知识协同约简,超级精英在各自多粒度子种群内进行知识约简任务，大大降低了执行时间，提升了大规模电子健康档案知识协同约简的准确率。

本发明提出的最近邻多粒度利润方法将大规模电子健康档案划分和存储在多个进化子种群Granu-Subpopulation _i中,降低了云计算Spark云平台上大规模电子健康档案知识约简的复杂度成本，为开展电子健康档案特征选择、规则挖掘以及临床决策支持等智能服务奠定了较好的基础；能高效取得大规模电子健康档案中不完备和模糊数据的知识约简集，对大规模电子健康档案决策支持分析具有非常重要的意义与价值；本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

申请人又一声明，本发明通过上述实施例来说明本发明的实现方法及装置结构，但本发明并不局限于上述实施方式，即不意味着本发明必须依赖上述方法及结构才能实施。所属技术领域的技术人员应该明了，对本发明的任何改进，对本发明所选用实现方法等效替换及步骤的添加、具体方式的选择等，均落在本发明的保护范围和公开的范围之内。

本发明并不限于上述实施方式，凡采用和本发明相似结构及其方法来实现本发明目的的所有方式，均在本发明的保护范围之内。

Claims

用于大规模电子健康档案知识协同约简的最近邻多粒度利润方法，其特征在于：具体步骤如下：

A.在大数据Spark云平台上将大规模电子健康档案数据集分割至不同的多粒度进化子种群Granu-Subpopulation _i中，i＝1,2,…,N，N为多粒度进化子种群总个数，这样大规模电子健康档案数据集知识约简任务分解为多个并行化多粒度进化子种群的知识协同约简任务，分别计算出多粒度进化子种群所分配的电子健康档案数据集候选等价类；

B.设计一种最近邻多粒度利润模型，将第i个多粒度进化子种群个Granu-Subpopulation _i用于大规模电子健康档案第i个数据子集的知识约简，同时在多粒度进化种群Granu-Subpopulation _i中根据适应度的大小，选择适应度值最大的超级精英Super-Elitist _i和适应度值最小的普通精英Ordinary-Elitist _i，求出共享最近邻域向量的相似度Sim(m,n)和共享最近邻利润向量ζ(e)，并在最近邻半径的第d _i层中构造协同化的最近邻向量；

C.构建多粒度精英矩阵Gp _i，计算多粒度子种群Granu-Subpopulation _i中精英矩阵Gp _i的最近邻多粒度利润权重，得到其相应的权重利润矩阵Γ(e)，执行超级精英权重利润矩阵自适应动态调整策略，求得各超级精英在各自多粒度子种群内利润权重
然后分配给进行大规模电子健康档案数据子集知识协同约简的各个多粒度子种群Granu-Subpopulation _i中超级精英Super-Elitist _i；

D.存储所有超级精英的多粒度利润权重集合
然后利用粗糙集理论中差别矩阵公式计算大规模电子健康档案数据子集知识协同约简集及其核属性，从而将大规模电子健康档案数据集正确分类到决策属性的知识规则类中；

E.比较上述求出的大规模电子健康档案知识协同约简集精度EHR与预先设定精度值λ关系，若满足EHR≥λ，则输出大规模电子健康档案最优知识协同约简集。否则，继续执行上述C和D步骤，直至大规模电子健康档案知识协同约简精度满足EHR≥λ；

F.求出大规模电子健康档案数据知识协同约简集及其核属性，并将电子健康档案相关知识约简集存储至Spark云平台，为大规模电子健康档案决策支持分析提供重要的智能辅助诊断依据。
根据权利要求1所述一种用于大规模电子健康档案知识协同约简的最近邻多粒度利润方法，其特征在于：所述步骤B的具体步骤如下：

a.采用共享最近邻域向量表示第d _i层中最近邻半径集为：

d _i＝{w ₁,w ₂,...,w _j,...,w _m},

w _j＝(1+log tf(R _j))*log(1+n/df(R _j)),

其中tf(R _j)为第d _i层中最近邻域半径R _j的出现频率，df(R _j)为权重向量w _j在最近邻域半径R _j的层次频率；

b.构造一个N ⁱ×N ⁱ的矩阵C ⁱ，其中N ⁱ是第d _i层中最近邻域半径数量，则最近半径R _i和R _j之间共享权重C ⁱ(i,j)定义如下：

C ⁱ(i,j)＝corr(f _i,f _j)，

其中f _i和f _j分别对应于最近邻半径R _i和R _j的特征向量，corr(f _i,f _j)表示f _i和f _j两个特征向量的内积操作；

c.在最近邻半径的第d _i层中，构造4个交叠邻域向量为
和
并将它们分别分解成4个子向量如下：

d.在第d _i层中计算交叠邻域向量
和
的共享邻域为

其中
和
分别是交叠邻域向量
和
对应的最近邻域集；

e.求出共享最近邻域交叠邻域向量
和
的相似度Sim(m,n)，计算公式如下：

f.求出共享最近邻利润向量ζ(e)，计算公式如下：

g.计算最近邻半径R _i和R _j之间的自适应利润补偿权重f _i ^j如下：

f _i ^j＝Df(R _iR _j)/df(R _j)，

其中Df(R _iR _j)为最近邻域向量包含最近邻域半径R _i和R _j的总数量，df(R _j)为权重向量w _j在最近邻域半径R _j的层次频率；

h.在最近邻半径的第d _i层中构造协同化最近邻向量f _m,f _n,f _p,f _t,分别如下：

其中ξ _i为第i个最近邻半径中用于第i个电子健康档案数据子集进行知识约简的超级精英Super-Elitist _i数量。
根据权利要求1所述一种用于大规模电子健康档案知识协同约简的最近邻多粒度利润方法，其特征在于：所述步骤C的具体步骤如下：

a.在第i个多粒度进化子种群Granu-Subpopulation _i中，将最近邻半径矩阵表示成两个张量
和
然后将它们合并到多粒度子种群Granu-Subpopulation _i的超级精英矩阵集Gp _i中，其中i＝1,2,…,N；

b.计算超级精英矩阵中相邻张量之间的平均共享相似度，计算公式如下：

其中
表示相邻张量
和
之间的相似度；

c.计算多粒度子种群Granu-Subpopulation _i中超级精英矩阵Gp _i的最近邻多粒度利润权重，计算公式如下：

其中
||Gp _i||表示第i个多粒度子种群Granu-Subpopulation _i的超级精英矩阵的势，
为最近邻半径R _i和R _j之间在第k次迭代时的信任度；

d.构造子种群Granu-Subpopulation _i的多粒度染色体，其包括m个超级精英，相应的权重利润矩阵Γ(e)定义如下：

e.更新超级精英Super-Elitist _i的权重，在大规模电子健康档案数据子集知识协同约简过程中如果多粒度子种群Granu-Subpopulation _i中超级精英
矩阵的势||Gp _i||大于
N为多粒度进化子种群总个数，则超级精英权重
将相应增加，自适应动态调整公式如下：

其中||Γ(e)||为权重利润矩阵Γ(e)的势，η _i是控制超级精英Super-Elitist _i的动态权重参数，其公式定义如下：

其中
为第i个超级精英Super-Elitist _i的适应度，
为第i个超级精英Super-Elitist _i所在多粒度子种群Granu-Subpopulation _i的适应度；

f.将超级精英Super-Elitist _i的利润权重
进行归一化操作，求得其归一利润权重
为