WO2024008043A1

WO2024008043A1 - 一种基于因果关系挖掘的临床数据自动化生成方法及系统

Info

Publication number: WO2024008043A1
Application number: PCT/CN2023/105558
Authority: WO
Inventors: 李劲松; 田雨; 周天舒; 路子豪
Original assignee: 浙江大学
Priority date: 2022-07-05
Filing date: 2023-07-03
Publication date: 2024-01-11
Also published as: CN114864099A; CN114864099B

Abstract

本发明公开了一种基于因果关系挖掘的临床数据自动化生成方法及系统，从医学数据的收集来源出发，按照患者的入院出院流程，将患者留存在医院的信息进行分门别类的统计，忽略患者入院流程中产生的多余信息，将患者的入院流程整理为病情、检查、病症、药物4项，将其整合为统一数据集，之后再根据使用者的个性化需求，对数据集中的数据进行第一次筛选，之后通过算法明确各列数据间的依赖关系和依赖方向，绘出挑选的数据的完全部分有向无环图，从而发现这些数据之间的因果关联，之后再从因果图中挑选出使用者感兴趣的部分进行因果关联虚拟生成，进而解决生成的虚拟数据之间联系不紧密的问题。

Description

一种基于因果关系挖掘的临床数据自动化生成方法及系统

技术领域

本发明涉及医疗信息技术领域，尤其涉及一种基于因果关系挖掘的临床数据自动化生成方法及系统。

背景技术

通过对个体患者临床数据的整合、分析与挖掘，可以为个体患者建立一个良好的健康模型，给患者提供一个精细、准确的疾病预防方案和治疗方案。个体患者的临床数据一旦被整合收集，由机构统一研究，就可以辅助开发医疗软件，开发新药等等，这会对医疗行业有很大的辅助作用，但是这些临床数据往往包含着患者敏感的个人信息，这些隐私信息一旦泄露就有可能给患者的生活带来一定的负面影响，所以医疗部门在使用这些数据时会有担忧。

为了让医学临床数据充分发挥作用，就要解决医学临床数据中隐私性带来的问题，一方面可以通过各种匿名化手段来隐去个人可辨识信息，但是攻击者可以通过手中的其他信息表进行撞库，从而获取到发布的信息表中的个人可辨识信息，这种方式并不稳定，会受到数据攻击者持有数据的威胁，并不能有效保护患者的隐私数据。另一方面也可以生成整体的虚拟的医学临床数据来隔离开单独的真实的隐私数据，只要保证虚拟数据和真实数据在整体分布上相似，就不用担心真实数据中的隐私泄露问题了，但是患者产生的临床数据种类多、样式多，难以完整地对所有数据进行虚拟生成，并且生成的虚拟数据与真实数据的相似度无法完美保证，虚拟数据对真实临床数据之间的关联情况的学习并不充分，还没有达到实际应用的目标。

现有技术产生的虚拟患者的合理性不足，虚拟患者的数据有前后矛盾的可能。现有技术在生成多种临床数据时大多是将这些临床数据通过数据拼接的方式连接到一起，然后通过生成对抗网络互相竞争自我学习的方式来隐性获取数据之间的关联，这种方式学习不到数据关联的真实情况，并且学习到的关联会存有一定误差，导致生成的虚拟数据有可能出现前后冲突的情况。在医学领域，采用生成虚拟数据的方式来保护患者隐私的方法有很多，但基本的思路是不变的，都是一份数据、一份数据的生成，先掌握分布，然后根据真实数据的分布情况来生成虚拟数据。但是由于神经网络的黑箱特性，无法对生成的虚拟数据进行适当的解释，而医学领域相比于其他的工业和机械领域更加强调结果来源的可解释性，这就导致该模型的适用性较低，不具有普遍使用的价值。

已经有许多研究针对临床数据的隐私性提出了自己的解决方案，其中与本发明最相近似的技术方案则是2018年Baowaly等人提出的medWGAN和medBGAN，这两种方案都是在2017年Choi等人提出的medGAN的基础上进行优化得到的，接下来将对该方案进行详细描述。

medGAN对医学数据中较为重要的两种数据——疾病数据和手术数据进行虚拟生成，该方案以MIMIC_III数据集作为实例验证，借助国际疾病分类(international Classification of diseases,ICD)依据疾病的某些特征将疾病分门别类，通过舍尾的方式对MIMIC_III数据集中的疾病数据和手术数据进行简单收集，在去掉大量细小分类项之后，对其采用one-hot编码方式，借助自动编码器的学习能力，将离散数据转变为连续数据，然后将最初的生成对抗网络中的卷积层更改为全连接层，进而对原始临床数据的分布进行建模，通过生成器来获取与真实医学数据相似的虚拟临床数据。

相比于medGAN，medWGAN和medBGAN最重要的改进则是将生成对抗网络中较优秀的模型替代掉medGAN中最初的生成对抗网络，加快了训练速度、适当地改善了生成对抗网络训练过程中出现的模式崩溃问题。

参考文献

【1】Baowaly M K,Lin C C,Liu C L,et al.Synthesizing electronic health records using improved generative adversarial networks[J].Journal of the American Medical Informatics Association,2019,26(3):228-241.

【2】Choi E,Biswal S,Malin B,et al.Generating multi-label discrete patient records using generative adversarial networks[C]//Machine learning for healthcare conference.PMLR,2017:286-305。

发明内容

本发明目的在于针对现有技术的不足，提出一种基于因果关系挖掘的临床数据自动化生成方法及系统。

本发明的目的是通过以下技术方案来实现的：一种基于因果关系挖掘的临床数据自动化生成方法，具体步骤如下：

(1)数据集构建：构建以患者为行，患者临床信息为列的表格，得到需要进行虚拟生成的数据集；

(2)自然语言处理：对步骤(1)中得到的数据集中的文字信息和数值信息进行预处理，将文字信息转变为统一的表述形式，进行顺序编码后得到数字序列，对数值信息采用统一的数值表达形式；

(3)因果发现：将经过自然语言处理后的数据集的数据列作为数据节点，所有的数据节点之间均绘上连接线，完成一张完全无向图，再根据d分隔的原理确定完全无向图中边的依赖方向，将完全无向图扩展为完全部分有向无环图，进而获得数据列之间的因果联系，得到因果图；

(4)原因数据生成：将步骤(3)中得到的因果图中的数据节点划分为起始原因列和后续结果列两种类型；对于起始原因列，根据自定义的组数计算组距和起始原因列数据的极差，进而绘制出频率分布直方图，得到频率分布折线图，近似得到总体密度曲线，计算概率密度函数的分布函数，得到值域为(0,1)的递增函数并取反函数，在[0,1]范围内均匀产生随机数，利用反函数找到对应的随机数，得到起始原因列数据的虚拟生成结果；

(5)结果数据生成：对于后续结果列中每一个结果数据，首先从正态分布中均匀采样获取随机噪声，并将该随机噪声与该结果数据对应的真实原因数据输入到生成器中，构建与真实原因数据具备因果联系的虚拟结果数据，之后将虚拟结果数据、真实原因数据以及真实的结果数据输入到判别器中训练，由判别器对虚拟结果数据的真实情况进行判断，对生成器和判别器经过一定轮次的训练达到稳定状态，再将随机噪声与虚拟原因数据输入到生成器中，从而得到虚拟结果数据。

进一步地，步骤(1)中，所述患者临床信息，是根据患者的入院编码在医院不同的科室中挑选出患者的病情、检查、病症和药物相关的临床信息。

进一步地，步骤(2)中，对于文字信息预处理过程具体为：消除无用的字符，对表格内的信息完整性进行查验，查看信息缺失、信息明确有误情况，并进行数据删除或更改，之后借助正则表达式对长句进行分割，再对分割之后的语句进行极性判断，进而借助统一的医学表达方式将各种不同的语言文字通过其内在含义的一致性转变为同一形式，保证表格内采用统一的表述形式，给每一列不同的文字表述进行顺序编码，将其转变为数字序列。

进一步地，步骤(2)中，预处理后的文字信息和数值信息结合得到由数字构成的真实医学临床表格数据；该表格数据用数学符号(x，Y)表示，其中x＝[x₁，x₂，x₃，...x_n]为患者的入院编码集合，n为患者数量，x_n为第n个患者编码，Y＝[y₁，y₂，y₃，...y_n]^T＝[f₁，f₂，f₃，...f_m]∈R^n×m为患者的特征矩阵，m为选定的患者信息指标的数量，f_m为患者第m个信息指标的数据，y_n为第n位患者的临床医学数据。

进一步地，步骤(3)中，获得数据列之间的因果联系具体过程为：对于完全无向图中的任意两个数据节点，如果对其他所有节点均不满足条件独立的要求，则判定这两个数据节点之间有因果联系，再假设全部的随机节点在整体上服从多元高斯分布，依据偏相关系数的公式确定数据节点之间是否条件独立。

进一步地，对于一张含有r个数据节点的完全无向图，其中任意两个数据节点a，b，将其余数据节点的集合视为H，其s阶偏相关系数ρ_a，b|H为：

其中ρ_a，b|H\s为数据节点a和b的s-1阶偏相关系数，ρ_a，b|H\s为数据节点a和s的s-1阶偏相关系数，ρ_a，b|H\s为数据节点b和s的s-1阶偏相关系数，将其通过Fisher Z变换转变为正态分布Z(a，b|H)，其表示为：

其中ρ_a，b|H为数据节点a和b的s阶偏相关系数，在给定显著性水平α的前提下，判断与的大小关系，其中Φ^-1(·)为正态分布N(0，1)的累积分布函数；若后者大，则说明数据节点a和b对于剩余数据节点集合H的偏相关系数为0，即数据节点a与b条件独立，进而确定数据节点之间的连接线条，即数据列之间的依赖关系。

进一步地，步骤(4)中，概率密度函数的分布函数计算过程如下：根据总体密度曲线上峰的个数和误差平方和最小原则将概率密度函数表示为t个正态分布的结合p(g)，即将其表示为：

其中g为步骤(4)中起始原因列的数据，ξ_i为第i个正态分布的均值，σ_i为第i个正态分布的标准差；根据g与p(g)的位置关系求取该分布函数的反函数。

进一步地，步骤(5)中，生成器的损失包括两部分，一是由判别器本身带来的真假损失，二是由因果性带来的因果损失；其中判别器本身带来的真假损失越小，则表示虚拟数据与真实数据越相似，该真假损失loss_a公式如下：

其中N为训练过程中一批次的患者数量，为第i个生成的虚拟结果数据在判别器的判别效果下确认为与输入的真实原因数据相对应的后续结果列中结果数据的概率；

对于因果损失，首先明确因果损失是为了保证生成器生成的虚拟样本与原始的真实样本之间的因果性是相似的，因果损失越小，则表明虚拟样本之间的因果性越满足需求；数据列之间的因果性表示为数值间的相关性，对于虚拟的结果列和真实的结果列，将其和对应的原因列的每一列计算相关系数，通过反向传播相关系数之间的差进而对虚拟结果列的因果性进行反馈，因果损失loss_b的公式如下：

其中M为输入生成器的起始原因列的数量，c_j为真实的结果列与对应的第j个原因列的皮尔逊相关系数，为生成器生成的虚拟的结果列与对应的第j个原因列的皮尔逊相关系数；

生成器采用上述两损失函数之和作为其损失函数，并使用基于梯度惩罚与推土机距离的生成对抗网络Wasserstein GAN-gradient penalty的网络优化方法，从而生成与虚拟原因数据具备因果联系且与真实结果数据相似的虚拟结果数据；在训练阶段，输入真实的原因数据，通过生成器的损失函数学习真实原因数据与真实结果数据之间的因果联系，网络稳定之后，再输入虚拟的原因数据，从而得到对应的虚拟的结果数据。

进一步地，步骤(5)中，将生成的虚拟结果数据连接起来，和真实结果数据一同输入到联合判别器中，由联合判别器对虚拟结果数据的因果关联进行判断，根据生成器和联合判别器的训练比例，对生成器的因果联系能力进行优化，将训练的目标函数Value(D，G)设置为：

其中G指代生成器，D指代判别器，q表示真实结果数据，z表示随机变量，E_q～P(q)表示对满足p(q)这种分布的q取期望得到的结果，表示对满足p_z(z)这种分布的z取期望得到的结果，使用误差反向传播算法，根据生成的虚拟结果数据的前后顺序，将虚拟结果数据与真实结果数据的相似度差距反向传播到每一个生成器中，从而提高虚拟结果数据与虚拟原因数据之间的因果关联。

本发明还提供了一种基于因果关系挖掘的临床数据自动化生成系统，该系统包括数据集构建模块、自然语言处理模块、因果发现模块、原因数据生成模块、结果数据生成模块；

所述数据集构建模块用于构建以患者为行，患者临床信息为列的表格，得到需要进行虚拟生成的数据集；

所述自然语言处理模块用于对数据集构建模块得到的数据集中的文字信息和数值信息进行预处理，将文字信息转变为统一的表述形式，进行顺序编码后得到数字序列，对数值信息采用统一的数值表达形式；

所述因果发现模块用于将经过自然语言处理模块处理后的数据集的数据列作为数据节点，所有的数据节点之间均绘上连接线，完成一张完全无向图，再根据d分隔的原理确定完全无向图中边的依赖方向，将完全无向图扩展为完全部分有向无环图，进而获得数据列之间的因果联系，得到因果图；

所述原因数据生成模块用于将因果发现模块中得到的因果图中的数据节点划分为起始原因列和后续结果列两种类型；对于起始原因列，根据自定义的组数计算组距和起始原因列数据的极差，进而绘制出频率分布直方图，得到频率分布折线图，近似得到总体密度曲线，计算概率密度函数的分布函数，得到值域为(0,1)的递增函数并取反函数，在[0,1]范围内均匀产生随机数，利用反函数找到对应的随机数，得到起始原因列数据的虚拟生成结果；

所述结果数据生成模块用于对后续结果列中每一个结果数据，首先从正态分布中均匀采样获取随机噪声，并将该随机噪声与该结果数据对应的真实原因数据输入到生成器中，构建与真实原因数据具备因果联系的虚拟结果数据，之后将虚拟结果数据、真实原因数据以及真实的结果数据输入到判别器中训练，由判别器对虚拟结果数据的真实情况进行判断，对生成器和判别器经过一定轮次的训练达到稳定状态，再将随机噪声与虚拟原因数据输入到生成器中，从而得到虚拟结果数据。

本发明的有益效果：

1.本发明在进行医学临床数据的生成时，实现了部分的可解释性，这是通过生成对抗网络实现了因果关联的方法：依据医学数据本身存在的因果性质，依赖于医学数据中的原因数据通过随机变量的方式使用生成对抗网络进而生成虚拟的结果数据，使用多个生成器从而实现医学因果临床数据的生成。

2.本发明在进行医学临床数据的生成时，采用了先分别生成，再统一优化的方法：借助因果链条将患者的医学信息拆开，对于原因数据，通过正态分布的有机组合进行模拟从而获得虚拟数据；对于结果数据，通过生成对抗网络的生成器与原因数据进行因果关联从而获得虚拟数据，这样分别进行虚拟生成，之后再借助联合判别器的判别能力将前述的生成器进行优化，从而得到逼真的虚拟临床数据。

3.本发明在进行医学临床数据的生成时，将难体现的医学因果性转变为简易形式：在生成后续结果数据时，对于后续结果数据与起始原因数据的因果联系，借助皮尔逊相关系数将整体因果图中的因果性转变为较少节点之间的数值相关性，将真实数据与虚拟数据之间相关系数的差作为生成器的损失通过反向传播的方式传递到生成器网络中，从而保证生成器生成的虚拟的后续结果数据与真实原因数据的因果关联。

4.本发明将病人不同信息间的因果联系性通过多个生成器进行连接，大大增加了生成的虚拟患者临床数据内部的联系性，不但可以生成虚拟的临床数据，而且减少了生成的虚拟临床数据内部矛盾的可能，使得数据与真实数据更加相似，更能够投入真实场景下的使用。

附图说明

图1为本发明基于因果关系挖掘的临床数据自动化生成方法的流程示意图。

图2为本发明因果生成对抗网络训练示意图。

图3为本发明将完全无向图转变为完全有向无环图的样例。

图4为本发明基于因果关系挖掘的临床数据自动化生成系统结构图。

具体实施方式

以下结合附图对本发明具体实施方式作进一步详细说明。

如图1所示，本发明提供的一种基于因果关系挖掘的临床数据自动化生成方法。

本发明从医学数据的收集来源出发，按照患者的入院出院流程，将患者留存在医院的信息进行分门别类的统计，其中的记录大致可以分为病程记录、检查检验结果、医嘱、手术记录、护理记录几类，其中的数据类型包括图像、文字乃至影像数据，但其中存储数据量最为丰富、应用范围最广的还是文字类型的数据，而这些数据在医院内往往都是记录在患者的表格中，本发明忽略患者入院流程中产生的多余信息，将患者的入院流程整理为病情、检查、病症、药物4项，将其整合为统一数据集，之后再根据使用者的个性化需求，对数据集中的数据进行第一次筛选，之后通过算法明确各列数据间的依赖关系和依赖方向，绘出挑选的数据的完全部分有向无环图，从而发现这些数据之间的因果关联，之后再从因果图中挑选出使用者感兴趣的部分进行因果关联虚拟生成，进而解决生成的虚拟数据之间联系不紧密的问题。

本发明方法具体步骤如下：

(1)数据集构建：根据具体需求，选择具体某一段时间入院、或是具体某一地区的患者，根据患者的入院编码在医院不同的科室中挑选出患者的病情、检查、病症、药物这4方面的信息，之后构建以患者为行，患者不同的信息为列的表格，完成本次需要进行虚拟生成的数据集，之后可以根据使用者需求对数据集内的数据进行筛选。

(2)自然语言处理：基于步骤(1)中筛选后的数据集，对步骤(1)中得到数据集中文字信息和数值信息进行预处理，医院应用文字和数值两种形式记录患者病情、病症和药物等情况，对文字而言，消除无用的字符，对表格内的信息完整性进行查验，查看信息缺失、信息明确有误等情况，并按照具体情形进行数据删除或更改，之后借助正则表达式对长句进行分割，再对分割之后的语句进行极性判断，进而借助统一的医学表达方式将各种不同的语言文字通过其内在含义的一致性转变为同一形式，保证表格内采用统一的表述形式，给每一列不同的文字表述进行顺序编码，将其转变为数字序列；对数值而言，则对每一列都采用统一的数值表达形式。两者结合得到由数字构成的真实医学临床表格数据。该表格数据用数学符号(x，Y)表示，其中x＝[x₁，x₂，x₃，...x_n]为患者的入院编码集合，n为患者数量，x_n为第n个患者编码，Y＝[y₁，y₂，y₃，...y_n]^T＝[f₁，f₂，f₃，...f_m]∈R^n×m为患者的特征矩阵，m为选定的患者信息指标的数量，f_m为患者第m个信息指标的数据，y_n为第n位患者的临床医学数据。

(3)因果发现：将经过自然语言处理后的数据列作为数据节点，所有的数据节点之间都绘上连接线，完成一张完全无向图，之后判断数据节点之间的因果联系，对于图中的任意两个数据节点，如果对其他所有节点都不满足条件独立的要求，则断定这两个数据节点之间有因果联系，再假设全部的随机节点在整体上服从多元高斯分布，就可以将变量条件独立这一要求转变为变量之间的偏相关系数为0这一公式。对于一张含有r个数据节点的完全无向图，其中任意两个数据节点a，b，将其余数据节点的集合视为H，其s阶偏相关系数ρ_a，b|H为：

其中ρ_a，b|H\s为数据节点a和b的s-1阶偏相关系数，ρ_a，b|H\s为数据节点a和s的s-1阶偏相关系数，ρ_a，b|H\s为数据节点b和s的s-1阶偏相关系数，将其通过Fisher Z变换转变为正态分布Z(a，b|H)，其表示为

其中ρ_a，b|H为数据节点a和b的s阶偏相关系数，在给定显著性水平α的前提下，判断与的大小关系，其中Φ^-1(·)为正态分布N(0，1)的累积分布函数；若后者大，则说明数据节点a和b对于剩余数据节点集合H的偏相关系数为0，即数据节点a与b条件独立，进而确定数据节点之间的连接线条，即数据列之间的依赖关系。之后再根据d分隔的原理来确定无向图中边的依赖方向，就可以将无向图扩展为完全部分有向无环图，进而获得数据列之间的因果联系。

(4)原因数据生成：对于步骤(3)中找到的因果图，根据使用者需求对因果图进行拆解，拿出其中感兴趣的部分，将该因果图中的数据节点根据有无父节点这一特征划分为起始原因列和后续结果列两种类型。对于起始原因列，不采用最小最大归一化的方式来处理，而是计算该列数据的极差，再根据自定义的组数计算组距，进而绘制出频率分布直方图，从而得到频率分布折线图，近似得到总体密度曲线，再根据总体密度曲线上峰的个数和误差平方和最小原则将概率密度函数表示为t个正态分布的结合p(g)，即将其表示为：

其中g为步骤(4)中起始原因列的数据，ξ_i为第i个正态分布的均值，σ_i为第i个正态分布的标准差，之后计算该概率密度函数的分布函数，得到值域为(0,1)的递增函数，之后再根据g与p(g)的位置关系求取该分布函数的反函数，之后再在[0,1]范围内均匀产生随机数，利用求得的反函数找到对应的随机数，这些随机数就是起始原因列数据的虚拟生成结果，进而为后续结果列的数据生成打下基础。

(5)结果数据生成：在步骤(3)中已经得到了所挑选数据的因果图，根据因果关联性，所有的结果数据都是由相应的原因数据影响的，而在步骤(4)中已经对原因数据进行了虚拟生成，接下来列举拆解下来的因果图中的结果数据，每一个结果数据都是由一个生成器来生成的，要构建多个生成器针对结果数据进行虚拟生成。对于每一个结果数据，首先从正态分布中均匀采样获取随机噪声，并将该随机噪声与该结果数据对应的原因数据通过embedding层输送到同一隐藏层中，进而输入到生成器中，借助生成器的学习能力来虚拟构建与原因数据具备因果联系的结果数据，之后将虚拟结果数据、真实原因数据以及真实的结果数据输入到判别器中，由判别器对结果数据的真实情况进行判断。生成器的损失包括两部分，一是由判别器本身带来的真假损失，二是由因果性带来的因果损失。其中判别器本身带来的真假损失越小，则表示虚拟数据与真实数据越相似，该真假损失公式如下：

对于因果损失，首先明确因果损失是为了保证生成器生成的虚拟样本与原始的真实样本之间的因果性是相似的，因果损失越小，则表明虚拟样本之间的因果性越满足需求；数据列之间的因果性表示为数值间的相关性，对于虚拟的后续结果列和真实的后续结果列，将其对起始原因列的每一列计算相关系数，通过反向传播相关系数之间的差进而对虚拟后续结果列的因果性进行反馈，因果损失的公式如下：

其中M为输入生成器的起始原因列的数量，c_j为真实的后续结果列与对应的第j个起始原因列的皮尔逊相关系数，为生成器生成的虚拟的后续结果列与对应的第j个起始原因列的皮尔逊相关系数；

生成器采用上述两损失函数之和作为其损失函数，并使用基于梯度惩罚与推土机距离的生成对抗网络Wasserstein GAN-gradient penalty的网络优化方法，从而生成与虚拟原因数据具备因果联系且与真实结果数据相似的虚拟结果数据；在训练阶段，输入真实的原因数据，通过生成器的损失函数学习真实原因数据与真实结果数据之间的因果联系，网络稳定之后，再将随机噪声与虚拟原因数据输入到生成器中，从而得到对应的虚拟结果数据；

(6)联合训练：在训练好步骤(5)中的所有生成器之后，借助随机变量依次进行虚拟数据生成，将生成的虚拟数据连接起来，和真实数据一同输入到联合判别器中，由联合判别器对虚拟结果数据的因果关联进行判断；

根据生成器和联合判别器的训练比例，对生成器的因果联系能力进行优化，将训练的目标函数Value(D，G)设置为：

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其它不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

本发明实施例提供一种基于因果关系挖掘的临床数据自动化生成方法，用于虚拟生成糖尿病相关的临床数据；具体如下：

(1)数据集构建：首先根据个人需求，将2000年-2020年入院的病人的ID在医院系统内找到，之后在不同的科室中挑选出病人的主诉，身高、体重、BMI等基本生理指标，白蛋白、球蛋白、尿素、尿酸等常规化验指标以及病人疾病情况和服药情况等，构建以患者为行，患者不同的信息为列的表格，形成本次虚拟生成的数据集，如表1所示，再从中着重挑选与糖尿病相关的数据指标。

表1

(2)自然语言处理：对步骤(1)中得到数据集中文字信息和数值信息进行预处理，例如可以对于“无恶心呕吐，无胸闷气短”这一部分病史，通过“，”将其分割为2个短句，之后根据“无”进行极性判断，进而得到患者的具体信息，再与其他患者的信息统一分析，借助one-hot编码转变为序列形式。

(3)因果发现：如图3所示，将上述挑选与糖尿病相关的数据列作为数据节点，比如年龄、血糖、格列美脲片等，所有的数据节点之间都绘上连接线，完成一张完全无向图；之后再根据d分隔的原理来确定无向图中边的依赖方向，将无向图扩展为完全部分有向无环图，即为因果图。

(4)原因数据生成：拆解出尿糖、糖尿病以及格列美脲片等相关药物这一部分因果图，将该因果图中的数据节点根据有无父节点这一特征划分为起始原因列和后续结果列这两种类型。根据起始原因列实现尿糖、年龄等数据的虚拟生成。

(5)结果数据生成：如图2中的(a)～(e)所示，其中a和b为真实的起始原因数据，而c、d、e为真实的后续结果数据，a’和b’分别表示通过步骤(4)得到的虚拟的起始原因数据，而c’、d’、e’则分别表示通过生成对抗网络生成的虚拟的结果数据；对于步骤(3)中因果图的每一个结果数据，都需要借助生成器的学习能力来虚拟构建与原因数据具备因果联系的结果数据，之后将虚拟结果数据与真实原因数据一同输入到判别器中，由判别器对数据之间的因果联系情况和虚拟结果数据的真实情况进行判断，基于训练好的生成器，生成与原因数据具备因果联系且与真实结果数据相似的虚拟结果数据。

(6)联合训练：对所有生成器进行联合训练，将生成器和联合判别器训练比例设置为3:1，对生成器的因果联系能力进行优化，使用误差反向传播算法，将虚拟数据与真实数据的相似度差距反向传播到每一个生成器中，对每一个生成器的参数进行进一步优化，减少经过多个生成器而出现的流程误差，提高虚拟结果数据的真实性和整体因果关联。

之后还需对生成的虚拟临床数据进行测试。首先显示出虚拟临床数据每一列数据的分布情况，将其各种类占比信息与真实临床数据进行对比，从而得到单列相似度，之后再采用逻辑回归分类器对真实临床数据和虚拟临床数据进行整体相似度判断。再对虚拟临床数据中的某些信息进行遮掩，然后通过其他的信息对遮掩的信息进行预测，进而判别出因果性学习的优劣，之后再查验真实临床数据和虚拟临床数据在某一特定情况下的患者人数，发现该因果生成对抗网络模型有效地保护了患者的隐私，之后就将虚拟数据正式投入使用。

与基于因果关系挖掘的临床数据自动化生成方法的实施例相对应，本发明还提供了基于因果关系挖掘的临床数据自动化生成系统的实施例。

如图4所示，本发明提供的一种基于因果关系挖掘的临床数据自动化生成系统，包括数据集构建模块、自然语言处理模块、因果发现模块、原因数据生成模块、结果数据生成模块；

所述因果发现模块用于将自然语言处理模块处理后的数据集的数据列作为数据节点，所有的数据节点之间均绘上连接线，完成一张完全无向图，再根据d分隔的原理确定完全无向图中边的依赖方向，将完全无向图扩展为完全部分有向无环图，进而获得数据列之间的因果联系，得到因果图；

上述系统中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于系统实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

一种基于因果关系挖掘的临床数据自动化生成方法，其特征在于，具体步骤如下：

(1)数据集构建：构建以患者为行，患者临床信息为列的表格，得到需要进行虚拟生成的数据集；

(2)自然语言处理：对步骤(1)中得到的数据集中的文字信息和数值信息进行预处理，将文字信息转变为统一的表述形式，进行顺序编码后得到数字序列，对数值信息采用统一的数值表达形式；

(3)因果发现：将经过自然语言处理后的数据集的数据列作为数据节点，所有的数据节点之间均绘上连接线，完成一张完全无向图，再根据d分隔的原理确定完全无向图中边的依赖方向，将完全无向图扩展为完全部分有向无环图，进而获得数据列之间的因果联系，得到因果图；

(4)原因数据生成：将步骤(3)中得到的因果图中的数据节点划分为起始原因列和后续结果列两种类型；对于起始原因列，根据自定义的组数计算组距和起始原因列数据的极差，进而绘制出频率分布直方图，得到频率分布折线图，近似得到总体密度曲线，计算概率密度函数的分布函数，得到值域为(0,1)的递增函数并取反函数，在[0,1]范围内均匀产生随机数，利用反函数找到对应的随机数，得到起始原因列数据的虚拟生成结果；

(5)结果数据生成：对于后续结果列中每一个结果数据，首先从正态分布中均匀采样获取随机噪声，并将该随机噪声与该结果数据对应的真实原因数据输入到生成器中，构建与真实原因数据具备因果联系的虚拟结果数据，之后将虚拟结果数据、真实原因数据以及真实的结果数据输入到判别器中训练，由判别器对虚拟结果数据的真实情况进行判断，对生成器和判别器经过一定轮次的训练达到稳定状态，再将随机噪声与虚拟原因数据输入到生成器中，从而得到虚拟结果数据。
根据权利要求1所述的一种基于因果关系挖掘的临床数据自动化生成方法，其特征在于，步骤(1)中，所述患者临床信息，是根据患者的入院编码在医院不同的科室中挑选出患者的病情、检查、病症和药物相关的临床信息。
根据权利要求1所述的一种基于因果关系挖掘的临床数据自动化生成方法，其特征在于，步骤(2)中，对于文字信息预处理过程具体为：消除无用的字符，对表格内的信息完整性进行查验，查看信息缺失、信息明确有误情况，并进行数据删除或更改，之后借助正则表达式对长句进行分割，再对分割之后的语句进行极性判断，进而借助统一的医学表达方式将各种不同的语言文字通过其内在含义的一致性转变为同一形式，保证表格内采用统一的表述形式，给每一列不同的文字表述进行顺序编码，将其转变为数字序列。
根据权利要求1所述的一种基于因果关系挖掘的临床数据自动化生成方法，其特征在于，步骤(2)中，预处理后的文字信息和数值信息结合得到由数字构成的真实医学临床表格数据；该表格数据用数学符号(x，Y)表示，其中x＝[x₁，x₂，x₃，...x_n]为患者的入院编码集合，n为患者数量，x_n为第n个患者编码，Y＝[y₁，y₂，y₃，...y_n]^T＝[f₁，f₂，f₃，...f_m]∈R^n×m为患者的特征矩阵，m为选定的患者信息指标的数量，f_m为患者第m个信息指标的数据，y_n为第n位患者的临床医学数据。
根据权利要求1所述的一种基于因果关系挖掘的临床数据自动化生成方法，其特征在于，步骤(3)中，获得数据列之间的因果联系具体过程为：对于完全无向图中的任意两个数据节点，如果对其他所有节点均不满足条件独立的要求，则判定这两个数据节点之间有因果联系，再假设全部的随机节点在整体上服从多元高斯分布，依据偏相关系数的公式确定数据节点之间是否条件独立。
根据权利要求5所述的一种基于因果关系挖掘的临床数据自动化生成方法，其特征在于，对于一张含有r个数据节点的完全无向图，其中任意两个数据节点a，b，将其余数据节点的集合视为H，其s阶偏相关系数ρ_a，b|H为：

其中ρ_a，b|H\s为数据节点a和b的s-1阶偏相关系数，ρ_a，s|H\s为数据节点a和s的s-1阶偏相关系数，ρ_b，s|H\s为数据节点b和s的s-1阶偏相关系数，将其通过Fisher Z变换转变为正态分布Z(a，b|H)，其表示为：

其中ρ_a，b|H为数据节点a和b的s阶偏相关系数，在给定显著性水平α的前提下，判断与的大小关系，其中Φ^-1(·)为正态分布N(0，1)的累积分布函数；若后者大，则说明数据节点a和b对于剩余数据节点集合H的偏相关系数为0，即数据节点a与b条件独立，进而确定数据节点之间的连接线条，即数据列之间的依赖关系。
根据权利要求1所述的一种基于因果关系挖掘的临床数据自动化生成方法，其特征在于，步骤(4)中，概率密度函数的分布函数计算过程如下：根据总体密度曲线上峰的个数和误差平方和最小原则将概率密度函数表示为t个正态分布的结合p(g)，即将其表示为：

其中g为步骤(4)中起始原因列的数据，ξ_i为第i个正态分布的均值，σ_i为第i个正态分布的标准差；根据g与p(g)的位置关系求取该分布函数的反函数。
根据权利要求1所述的一种基于因果关系挖掘的临床数据自动化生成方法，其特征在于，步骤(5)中，生成器的损失包括两部分，一是由判别器本身带来的真假损失，二是由因果性带来的因果损失；其中判别器本身带来的真假损失越小，则表示虚拟数据与真实数据越相似，该真假损失loss_a公式如下：

其中N为训练过程中一批次的患者数量，为第i个生成的虚拟结果数据在判别器的判别效果下确认为与输入的真实原因数据相对应的后续结果列中结果数据的概率；

对于因果损失，首先明确因果损失是为了保证生成器生成的虚拟样本与原始的真实样本之间的因果性是相似的，因果损失越小，则表明虚拟样本之间的因果性越满足需求；数据列之间的因果性表示为数值间的相关性，对于虚拟的结果列和真实的结果列，将其和对应的原因列的每一列计算相关系数，通过反向传播相关系数之间的差进而对虚拟结果列的因果性进行反馈，因果损失loss_b的公式如下：

其中M为输入生成器的起始原因列的数量，c_j为真实的结果列与对应的第j个原因列的皮尔逊相关系数，为生成器生成的虚拟的结果列与对应的第j个原因列的皮尔逊相关系数；

生成器采用上述两损失函数之和作为其损失函数，并使用基于梯度惩罚与推土机距离的生成对抗网络Wasserstein GAN-gradient penalty的网络优化方法，从而生成与虚拟原因数据具备因果联系且与真实结果数据相似的虚拟结果数据；在训练阶段，输入真实的原因数据，通过生成器的损失函数学习真实原因数据与真实结果数据之间的因果联系，网络稳定之后，再输入虚拟的原因数据，从而得到对应的虚拟的结果数据。
根据权利要求1所述的一种基于因果关系挖掘的临床数据自动化生成方法，其特征在于，步骤(5)中，将生成的虚拟结果数据连接起来，和真实结果数据一同输入到联合判别器中，由联合判别器对虚拟结果数据的因果关联进行判断，根据生成器和联合判别器的训练比例，对生成器的因果联系能力进行优化，将训练的目标函数Value(D，G)设置为：

其中G指代生成器，D指代判别器，q表示真实结果数据，z表示随机变量，E_q～P(q)表示对满足p(q)这种分布的q取期望得到的结果，表示对满足p_z(z)这种分布的z取期望得到的结果，使用误差反向传播算法，根据生成的虚拟结果数据的前后顺序，将虚拟结果数据与真实结果数据的相似度差距反向传播到每一个生成器中，从而提高虚拟结果数据与虚拟原因数据之间的因果关联。
一种基于因果关系挖掘的临床数据自动化生成系统，其特征在于，该系统包括数据集构建模块、自然语言处理模块、因果发现模块、原因数据生成模块、结果数据生成模块；

所述数据集构建模块用于构建以患者为行，患者临床信息为列的表格，得到需要进行虚拟生成的数据集；

所述自然语言处理模块用于对数据集构建模块得到的数据集中的文字信息和数值信息进行预处理，将文字信息转变为统一的表述形式，进行顺序编码后得到数字序列，对数值信息采用统一的数值表达形式；

所述因果发现模块用于将经过自然语言处理模块处理后的数据集的数据列作为数据节点，所有的数据节点之间均绘上连接线，完成一张完全无向图，再根据d分隔的原理确定完全无向图中边的依赖方向，将完全无向图扩展为完全部分有向无环图，进而获得数据列之间的因果联系，得到因果图；

所述原因数据生成模块用于将因果发现模块中得到的因果图中的数据节点划分为起始原因列和后续结果列两种类型；对于起始原因列，根据自定义的组数计算组距和起始原因列数据的极差，进而绘制出频率分布直方图，得到频率分布折线图，近似得到总体密度曲线，计算概率密度函数的分布函数，得到值域为(0,1)的递增函数并取反函数，在[0,1]范围内均匀产生随机数，利用反函数找到对应的随机数，得到起始原因列数据的虚拟生成结果；

所述结果数据生成模块用于对后续结果列中每一个结果数据，首先从正态分布中均匀采样获取随机噪声，并将该随机噪声与该结果数据对应的真实原因数据输入到生成器中，构建与真实原因数据具备因果联系的虚拟结果数据，之后将虚拟结果数据、真实原因数据以及真实的结果数据输入到判别器中训练，由判别器对虚拟结果数据的真实情况进行判断，对生成器和判别器经过一定轮次的训练达到稳定状态，再将随机噪声与虚拟原因数据输入到生成器中，从而得到虚拟结果数据。