WO2023221739A1

WO2023221739A1 - 一种基于因果校验数据生成的全科多疾病预测系统

Info

Publication number: WO2023221739A1
Application number: PCT/CN2023/089993
Authority: WO
Inventors: 李劲松; 王丰; 张航; 池胜强; 田雨; 周天舒
Original assignee: 之江实验室
Priority date: 2022-05-20
Filing date: 2023-04-23
Publication date: 2023-11-23
Also published as: CN114664452A; CN114664452B

Abstract

本发明公开了一种基于因果校验数据生成的全科多疾病预测系统，本发明针对全科场景，从因果性的角度出发，提出了基于全科倾向性得分网络的倾向性得分计算方法；相较于传统生成式对抗网络可解释性差的问题，本发明提出了基于因果校验的生成式对抗网络，使得生成的数据更加符合真实的因果逻辑；针对现有图卷积神经网络仅从相关性角度建模的问题，本发明提出了基于全科因果图卷积神经网络的全科多疾病预测模型，融入因果效应值以提升全科多疾病预测系统对疾病的预测性能，解决了全科场景因训练样本少导致模型表现差以及鲁棒性不高的问题。

Description

一种基于因果校验数据生成的全科多疾病预测系统

技术领域

本发明属于医疗健康信息技术领域，具体涉及一种基于因果校验数据生成的全科多疾病预测系统。

背景技术

随着信息技术的发展，机器学习已经成为推动医疗发展的重要力量。全科医学作为医疗领域受众面最广的医学学科，是机器学习模型在医疗场景应用的重点领域之一。然而，由于全科疾病多而繁杂，样本获取成本高等问题，部分疾病常常难以获取大量的训练数据，导致现有的全科多疾病预测系统对少样本疾病的预测效果不佳。目前迫切需要一套针对少样本的全科多疾病预测系统。

通过数据生成方法生成模拟数据是解决机器学习模型训练样本不足的常见方法。现有的数据生成方式主要是基于生成式对抗网络。生成式对抗网络在生成图像数据的时候表现良好。然而全科场景，数据种类繁多且结构复杂，尤其是结构化的医疗数据，包含以患者为中心的多种类特征数据，在时间、空间上存在异质性，数据分布较为复杂。传统生成式对抗网络难以处理分布复杂的结构化数据。一方面，使用少样本数据训练容易出现训练不稳定、梯度消失、模式崩溃的问题。另一方面，仅考虑了变量之间的相关性，没有考虑变量之间的因果关系，将导致其生成的数据常常难以理解，不符合常识，使用这些数据用于模型训练，可能不能提高甚至会削弱模型的训练效果。例如，感冒可分为病毒性感冒和细菌性感冒，也会用两种药。如果基于相关性模型生成发烧患者的数据，可能会生成同时使用病毒性感冒药和细菌性感冒药的情况，这会对后续构建模型产生干扰。

基于倾向性得分的因果效应值计算方法是最为常见衡量变量之间因果关系的方法。现有的倾向性得分计算方法大多是基于逻辑斯特回归，然而全科场景由于数据种类繁多，结构复杂且常常线性不可分，基于逻辑斯特回归的倾向性得分计算方法在全科场景表现不佳。

发明内容

本发明针对现有技术的不足，从因果性的角度出发，提出了基于全科倾向性得分网络的倾向性得分计算方法，并在此基础上提出了基于因果校验的生成式对抗网络的医疗数据生成方法，解决了基于相关性分析的生成式对抗网络生成数据难以理解的问题，构建了一套全科多疾病预测系统，解决了全科场景因训练样本少导致模型表现差以及鲁棒性不高的问题。

本发明的目的是通过以下技术方案实现的：一种基于因果校验数据生成的全科多疾病预测系统，包括：

(1)疾病统计模块：用于统计各种全科疾病样本数，根据各种全科疾病样本比率得到少样本全科疾病；

(2)因果校验模块：根据全科病人的特征变量集构成第一事件变量集合，疾病标签变量集构成第二事件变量集合，任意第一事件变量同任意第二事件变量构成一个事件配对；

构建并训练全科倾向性得分网络，使用训练完成的全科倾向性得分网络计算全科倾向性得分，所述全科倾向性得分表示全科病人在协变量条件下发生第一事件的概率；使用全科倾向性得分计算所有事件配对的因果效应值；

(3)数据生成模块：对于少样本全科疾病，基于因果校验的生成式对抗网络构建数据生成模型，使用训练完成的数据生成模型生成模拟数据；

所述数据生成模型包括生成器和判别器，所述生成器和所述判别器迭代交替训练；

所述生成器的训练过程包括：对于每种少样本全科疾病生成随机噪声，将随机噪声以及对应的疾病标签输入生成器得到生成样本；计算生成样本的所有事件配对的因果效应值；将生成样本以及对应的疾病标签输入判别器，得到判别结果；所述生成器的总损失包括判别器对抗损失、因果损失和正则项损失；所述因果损失为经过少样本全科疾病频率矫正的生成样本的所有事件配对的因果效应值与原始数据的所有事件配对的因果效应值的KL散度损失；

所述判别器的训练过程包括：从原始数据中随机抽取正样本，并抽取相同数量但疾病标签不同的负样本；生成相同数量随机噪声，使用生成器得到生成样本；将正样本、负样本、生成样本分别输入判别器，得到判别结果；

(4)模型预测模块：获取待训练全科病人的特征数据和疾病标签数据，对少样本全科疾病使用数据生成模型生成全科疾病数据；将训练样本以及生成的全科疾病数据共同训练基于全科因果图卷积神经网络的全科多疾病预测模型，使用训练完成的全科多疾病预测模型对全科疾病进行预测。

进一步地，所述因果校验模块中，使用全科病人的二分类变量数据训练全科倾向性得分网络；将全科病人的特征变量数据和标签变量数据转换成二分类变量，对于类别变量，通过独热编码转换成二分类变量，对于连续变量，通过分箱转换至类别变量之后通过独热编码转换成二分类变量。

进一步地，所述全科倾向性得分网络包括输入层、局部连接层、sigmoid激活层和输出层；

输入层节点个数和输出层节点个数均为第一事件变量集合中的第一事件变量个数M；局部连接层和sigmoid激活层均包含τM个节点，τ≥2；输入层的第u个节点同局部连接层的除第τ(u-1)+1到τu个节点之外的所有节点相连；第τ(u-1)+1到τu个局部连接层节点同第τ(u-1)+1到τu个sigmoid激活层节点一一对应连接；第τ(u-1)+1到τu个sigmoid激活层节点仅同第u个输出层节点相连。

进一步地，所述全科倾向性得分网络的训练过程如下：

对于每个第一事件变量a，将训练样本对应的协变量数据输入局部连接层得到倾向性第一特征表示，将所述倾向性第一特征表示输入sigmoid激活层得到倾向性第二特征表示，将所述倾向性第二特征表示输入输出层得到第一事件变量a的预测值；使用所有第一事件变量的预测值同所有第一事件变量的真实值计算倾向性损失。

进一步地，所述因果校验模块中，使用训练完成的全科倾向性得分网络计算全科病人i对于第一事件变量a的全科倾向性得分使用全科倾向性得分计算第一事件变量a同第二事件变量b的因果效应值ATE_a，b，计算公式如下：

其中n表示待研究病人总数，T_i表示第i个病人第一事件变量真实值；Y_i表示第i个病人第二事件变量真实值。

进一步地，所述数据生成模块中，所述生成器由多层生成器模块构成，所述生成器模块包括规范化层、全连接层和激活层，所述生成器的最后一层生成器模块的激活层为sigmoid激活层；在训练过程中，将随机噪声以及对应的疾病标签输入第一生成器模块的规范化层，将规范化后的数据输入第一生成器模块的全连接层得到输入数据的第一特征表示，将第一特征表示输入第一生成器模块的激活层得到输入数据的第二特征表示，将第二特征表示作为下一层生成器模块的输入数据，最终通过最后一层生成器模块的sigmoid激活层得到生成样本。

进一步地，所述数据生成模块中，因果损失L_causal计算公式如下：

其中表示原始数据的第一事件变量a同第二事件变量r的因果效应值，表示生成样本的第一事件变量a同第二事件变量r的因果效应值；A_r表示与第二事件变量r配对的第一事件变量集合；R表示疾病统计模块得到的少样本全科疾病集合；q_r表示少样本全科疾病r的频率。

进一步地，所述数据生成模块中，判别器对抗损失L_ζ计算公式如下：

其中N为随机噪声数据量，为第i个生成样本经判别器判别为对应疾病真实数据的概率；

正则项损失L_regular计算公式如下：

L_regular＝||w||

其中||·||表示L1范数，w表示生成器模型参数。

进一步地，所述数据生成模块中，所述判别器的总损失L_d计算公式如下：

其中m_d为正样本数量，y_k为正样本对应的疾病标签，分别为抽取的第k个正样本、抽取的第k个负样本、使用生成器得到的第k个生成样本，分别为正样本x_k、负样本生成样本d_k经判别器判定为疾病y_k真实数据的概率。

进一步地，所述模型预测模块包括：

构建事件关系图：每个第一事件变量构成事件关系图中的一个第一事件节点，每个第二事件变量构成事件关系图中的一个第二事件节点，对于每个事件配对构建一条边；

生成第一事件节点和第二事件节点的节点嵌入表示；基于事件关系图构建度数矩阵Φ和邻接矩阵A；使用原始数据的因果效应值构建因果效应矩阵Ψ；

构建基于全科因果图卷积神经网络的全科多疾病预测模型，所述全科因果图卷积神经网络包含多个因果图卷积模块，所述因果图卷积模块包括因果图卷积层和激活层；

将节点嵌入表示输入第一因果图卷积模块的因果图卷积层，得到第一图特征表示h⁽⁰⁾：

其中H⁽⁰⁾表示节点嵌入表示，W⁽⁰⁾表示因果图卷积层权值，I表示单位矩阵，*表示矩阵各元素相乘；

将h⁽⁰⁾输入第一因果图卷积模块的激活层得到第一因果图卷积模块的输出H⁽¹⁾；

将上一因果图卷积模块的输出输入下一因果图卷积模块，直到得到最终疾病预测结果。

本发明的有益效果是：

1.本发明对数据进行扩增的同时，考虑了特征之间的因果逻辑，使得产生的数据更加符合真实情况，这部分数据进行模型训练能够提升模型性能。

2.相较于传统生成式对抗网络可解释性差的问题，本发明提出了基于因果校验的生成式对抗网络，使得生成的数据更加符合真实的因果逻辑，具有一定的因果可解释性。

3.针对现有图卷积神经网络仅从相关性角度建模的问题，本发明提出了全科因果图卷积神经网络，提升全科多疾病预测模型的鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于因果校验数据生成的全科多疾病预测系统结构框图；

图2为本发明实施例提供的因果校验模块实现流程图；

图3为本发明实施例提供的全科倾向性得分网络结构图；

图4为本发明实施例提供的基于因果校验的生成式对抗网络结构图；

图5为本发明实施例提供的模型预测模块实现流程图。

具体实施方式

为了更好的理解本申请的技术方案，下面结合附图对本申请实施例进行详细描述。

应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

本发明提供一种基于因果校验的生成式对抗网络的医疗数据生成方法，并基于该方法构建了一套用以解决全科多疾病预测模型中因训练样本较少导致模型对少样本疾病预测较差问题的全科多疾病预测系统。如图1所示，本发明提供的基于因果校验数据生成的全科多疾病预测系统包括疾病统计模块、因果校验模块、数据生成模块和模型预测模块。

下述说明进一步给出了符合本申请要求的基于因果校验数据生成的全科多疾病预测系统各模块实现的部分实施例。

一、疾病统计模块

对所有种类全科疾病，统计各种疾病的样本数，计算各种疾病的样本比率。样本比率为样本数最多的疾病的样本数同各种疾病样本数的比率，例如对于感冒、胃炎、腹泻、发烧四种全科疾病，分别对应样本数10、20、30、40，分别对应样本比率4、2、4/3、1。

对于疾病样本比率大于设定阈值(可调参数，根据实际情况设定)的疾病，将其加入少样本全科疾病集合R，计算第r种少样本全科疾病的频率其中count_r为第r种疾病的样本数。

二、因果校验模块，实现流程如图2所示。

获取病人的特征变量数据以及标签变量数据。将特征变量数据以及标签变量数据按以下方法转换成二分类变量。对于类别变量，通过独热编码转换成二分类变量。对于连续变量，通过分箱转换至类别变量之后再通过独热编码转换成二分类变量。

特征变量集构成第一事件变量集合，标签变量集构成第二事件变量集合。第一事件变量集合为临床表现集合，例如{高血压，发烧，胸闷}，第二事件变量集合为全科疾病集合，例如{感冒，胃炎，心血管疾病}。

对于第一事件变量集合中的任意一个第一事件变量同第二事件变量集合中的任意一个第二事件变量构成一个事件配对，计算所有事件配对的因果效应值，因果效应值计算方法如下。

记第一事件变量a和第二事件变量b构成事件配对δ；定义事件配对δ对应的协变量为第一事件变量集合中除第一事件变量a之外的变量，以事件配对高血压-感冒为例，协变量即第一事件变量集合{高血压，发烧，胸闷}中除高血压变量之外的变量，即{发烧，胸闷}。由于全科场景数据多样且复杂，传统的基于逻辑斯特回归的倾向性得分计算方法在处理非线性可分的数据能力有限。因此本发明构建了针对全科场景的全科倾向性得分网络，使用全科病人的二分类变量数据训练全科倾向性得分网络，并使用训练完成的全科倾向性得分网络计算全科倾向性得分。

全科倾向性得分表示病人在协变量条件下发生第一事件的概率。以{高血压，发烧，胸闷}为例，即发生发烧，胸闷的病人，其发生高血压的概率。

全科倾向性得分网络包括输入层、局部连接层、sigmoid激活层和输出层。

具体地，输入层节点个数以及输出层节点个数均为第一事件变量集合中的第一事件变量个数M。局部连接层以及sigmoid激活层均包含τM个节点，τ为可调节参数，τ≥2，输入层的第u个节点同局部连接层的除第τ(u-1)+1到τu个局部连接层节点之外的所有节点相连。第τ(u-1)+1到τu个局部连接层节点同第τ(u-1)+1到τu个sigmoid激活层节点一一对应进行连接。第τ(u-1)+1到τu个sigmoid激活层节点仅同第u个输出层节点相连。局部连接层的有益效果为，局部连接层保证了输入层同输出层局部连接，对于每一个待预测的第一事件变量，输入层的协变量特征节点同局部连接层、sigmoid激活层以及输出层的第一事件变量节点构成一个局部网络，局部连接层保证了局部网络之间相互独立，使得被预测的第一事件变量不会用于预测。

图3为一全科倾向性得分网络示例，该示例中M＝3，τ＝2，对于输入层节点1，其同局部连接层除节点1，2之外的所有节点相连，局部连接层节点1连接sigmoid激活层节点1，局部连接层节点2连接sigmoid激活层节点2，局部连接层节点1，2仅同输出层节点1相连。

全科倾向性得分网络的训练流程如下：

对于每一个第一事件变量a，将训练样本对应的协变量数据输入局部连接层得到倾向性第一特征表示，将倾向性第一特征表示输入sigmoid激活层，得到倾向性第二特征表示，将倾向性第二特征表示输入输出层得到第一事件变量a的预测值。使用所有第一事件变量的预测值同所有第一事件变量的真实值计算倾向性损失，倾向性损失函数L_p如下：

其中m_p表示训练样本总数，γ_f，a表示训练样本f的第一事件变量a的真实值，表示训练样本f的第一事件变量a的预测值。

使用训练完成的全科倾向性得分网络计算全科病人i的对于第一事件变量a的全科倾向性得分使用全科倾向性得分计算第一事件变量同第二事件变量的因果效应值ATE，第一事件变量a同第二事件变量b的因果效应值ATE_a，b公式如下：

其中n表示待研究病人总数，T_i表示第i个病人第一事件变量真实值；Y_i表示第i个病人第二事件变量真实值，Y_i＝1表示第i个病人发生了第二事件，Y_i＝0表示第i个病人未发生第二事件。

三、数据生成模块

对于少样本全科疾病集合R，基于因果校验的生成式对抗网络构建数据生成模型，使用训练完成的数据生成模型生成模拟数据。

具体地，数据生成模型包括生成器和判别器。生成器G(z，c)由多层生成器模块构成，其中z表示随机噪声，c表示待生成样本的疾病标签，生成器模块包括规范化层、全连接层和激活层。生成器的最后一层生成器模块的激活层为sigmoid激活层，其余生成器模块的激活层可以为relu激活层、sigmoid激活层、tanh激活层。判别器D由多层判别器模块构成，判别器模块包括全连接层、Dropout层和激活层。

图4为基于因果校验的生成式对抗网络结构图。按照生成器训练流程以及判别器训练流程，迭代交替训练生成器以及判别器，最终得到训练完成的数据生成模型，下面详细阐述训练流程。

(1)生成器训练流程

S1：对于少样本全科疾病集合R中的每种疾病r，从二项分布中随机生成m_g个噪声点对应的疾病标签c^r＝{r，r，...，r}。对于所有v种疾病，生成N＝m_g×v个随机噪声数据和疾病标签数据，随机噪声数据z＝{z¹，z²，...，z^v}，疾病标签数据c＝{c¹，c²，...，c^v}。

S2：将随机噪声z以及对应的疾病标签c输入第一生成器模块的规范化层，规范化层用于对输入数据进行规范化操作，包括批标准化、样本标准化等，将规范化后的数据输入第一生成器模块的全连接层，得到输入数据的第一特征表示，将第一特征表示输入第一生成器模块的激活层，得到输入数据的第二特征表示，将第二特征表示作为下一层生成器模块的输入数据，逐层输入输出，最终通过最后一层生成器模块的sigmoid激活层得到生成样本。

S3：使用因果校验模块计算生成样本的所有事件配对的因果效应值。

S4：将生成样本以及疾病标签输入判别器，得到判别器将生成样本判别为对应疾病真实数据的概率y^*。

S5：计算生成器总损失L，包括判别器对抗损失L_ζ、因果损失L_causal以及正则项损失L_regular。

判别器对抗损失衡量了生成器的生成样本被判别器判别为真的程度，判别器对抗损失越小，生成样本越易被判别为真。判别器对抗损失L_ζ计算公式如下：

其中为第i个生成样本经判别器判别为对应疾病真实数据的概率。

因果损失衡量了生成器的生成样本同原始数据因果符合程度，因果损失越小，生成样本的内在因果关系同原始数据越一致。具体地，因果损失为经过少样本全科疾病频率q_r矫正的生成样本的所有事件配对的因果效应值与原始数据的所有事件配对的因果效应值的KL散度损失。对于样本特少的疾病，计算的原始数据对应的因果效应值方差较大，赋予较小的权重以提升训练的稳定性。因果损失L_causal计算公式如下：

其中表示原始数据的第一事件变量a同第二事件变量r的因果效应值，表示生成样本的第一事件变量a同第二事件变量r的因果效应值；A_r表示与第二事件变量r配对的第一事件变量集合；q_r表示少样本全科疾病r的频率。

正则项损失L_regular计算公式如下：

L_regular＝||w||

其中||·||表示L1范数，w表示生成器模型参数。

生成器总损失如下：

L＝L_ζ+L_causal+L_regular

(2)判别器训练流程

S1：从原始数据即全科数据集中随机抽取m_d个病人样本作为正样本，x_k，y_k分别表示抽取的第k个正样本的特征数据和疾病标签。

S2：从原始数据中随机抽取m_d个病人样本作为负样本，分别表示抽取的第k个负样本的特征数据和疾病标签。抽样时需保证第k个正样本同第k个负样本对应的疾病标签不一样，即

S3：从二项分布中随机采样出m_d个噪声点并使用生成器得到生成样本，第k个生成样本d_k表示如下：

S4：将抽取的正负样本，以及生成样本分别输入判别器D，得到预测的疾病标签。

S5：计算判别器总损失L_d，计算公式如下：

其中分别为正样本、负样本、生成样本经判别器D判别为疾病y_k真实数据的概率。

四、模型预测模块，实现流程如图5所示。

获取待训练全科病人的特征数据以及疾病标签数据。对训练样本不足的疾病使用数据生成模块中训练完成的数据生成模型生成全科疾病数据。将训练样本连同生成的全科疾病数据一同用于训练全科多疾病预测模型，具体流程如下：

首先构建事件关系图，包括：

对于第一事件变量集合的每一个第一事件变量构成事件关系图中的一个第一事件节点，对于第二事件变量集合中的每一个第二事件变量构成事件关系图中的一个第二事件节点。对于每一个病人的每一对第一事件变量同第二事件变量构建一条边，从而完成事件关系图构建。

以一个病人的第一事件变量集合{发烧，胸闷}，第二事件变量集合{急性呼吸道感染}为例。发烧同急性呼吸道感染之间构建一条边，胸闷同急性呼吸道感染构建一条边。

使用图表示学习算法生成第一事件节点以及第二事件节点的嵌入表示。基于事件关系图构建对应的度数矩阵Φ以及邻接矩阵A。使用原始数据的因果效应值构建因果效应矩阵Ψ，因果效应矩阵Ψ的行数和列数相同，为第一事件节点个数加上第二事件节点个数。因果效应矩阵Ψ的第α行第β列元素记为ψ_α，β，如果第α行为第一事件节点，第β列为第二事件节点，则否则ψ_α，β＝0。

构建基于全科因果图卷积神经网络的全科多疾病预测模型，全科因果图卷积神经网络包含多个因果图卷积模块，因果图卷积模块包括因果图卷积层和激活层。因果图卷积层为经过因果效应矩阵修正的图卷积层，通过加入因果效应修正来提高模型鲁棒性。将节点嵌入表示输入第一因果图卷积模块的因果图卷积层，得到第一图特征表示h⁽⁰⁾：

A^∧＝A+I

其中H⁽⁰⁾表示节点嵌入表示，W⁽⁰⁾表示第一因果图卷积模块的因果图卷积层的权值，可训练得到，I表示单位矩阵，*表示矩阵各元素相乘。

将第一图特征表示h⁽⁰⁾输入第一因果图卷积模块的激活层得到第一因果图卷积模块的输出H⁽¹⁾：
H⁽¹⁾＝σ(h⁽⁰⁾)

其中σ(·)表示激活函数

将上一因果图卷积模块的输出输入下一因果图卷积模块，直到得到最终疾病预测结果。计算全科因果图卷积神经网络损失，损失函数为交叉熵损失函数。

迭代训练全科因果图卷积神经网络，得到训练完成的全科多疾病预测模型，并使用训练完成的全科多疾病预测模型对全科疾病进行预测。

本发明针对全科场景，提出适用于计算全科倾向性得分的全科倾向性得分网络；利用因果效应计算方法对生成式对抗网络生成的全科数据进行因果校验，使得生成的数据更符合真实的因果逻辑；生成器训练过程，对每一个少样本疾病从二项分布中生成相同数量的噪声点，并一同作为生成器的输入；判别器训练过程，从原始数据抽取正样本，并抽取相同数量但是标签不同的样本作为负样本，连同生成器生成的负样本一起用于训练判别器；针对少样本全科疾病，使用基于因果校验的生成式对抗网络对全科数据扩增，提升全科多疾病预测系统对少样本疾病的预测性能；提出基于全科因果图卷积神经网络的全科多疾病预测模型，融入因果效应值以提升全科多疾病预测系统对疾病的预测性能。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

一种基于因果校验数据生成的全科多疾病预测系统，其特征在于，包括：

(1)疾病统计模块：用于统计各种全科疾病样本数，根据各种全科疾病样本比率得到少样本全科疾病；所述样本比率为样本数最多的疾病的样本数同各种疾病样本数的比率，对于全科疾病样本比率大于设定阈值的全科疾病，将其加入少样本全科疾病集合R，计算第r种少样本全科疾病的频率其中count_r为第r种全科疾病样本数；

(2)因果校验模块：根据全科病人的特征变量集构成第一事件变量集合，根据全科病人的疾病标签变量集构成第二事件变量集合，任意第一事件变量同任意第二事件变量构成一个事件配对；

构建并训练全科倾向性得分网络，使用训练完成的全科倾向性得分网络计算全科倾向性得分，所述全科倾向性得分表示全科病人在协变量条件下发生第一事件的概率；使用全科倾向性得分计算所有事件配对的因果效应值；

(3)数据生成模块：对于少样本全科疾病，基于因果校验的生成式对抗网络构建数据生成模型，使用训练完成的数据生成模型生成模拟数据；

所述数据生成模型包括生成器和判别器，所述生成器和所述判别器迭代交替训练；

所述生成器的训练过程包括：对于每种少样本全科疾病生成随机噪声，将随机噪声以及对应的疾病标签输入生成器得到生成样本；计算生成样本的所有事件配对的因果效应值；将生成样本以及对应的疾病标签输入判别器，得到判别结果；所述生成器的总损失包括判别器对抗损失、因果损失和正则项损失；所述因果损失为经过少样本全科疾病频率矫正的生成样本的所有事件配对的因果效应值与原始数据的所有事件配对的因果效应值的KL散度损失；

所述判别器的训练过程包括：从原始数据中随机抽取正样本，并抽取相同数量但与正样本疾病标签不同的负样本；生成相同数量随机噪声，使用生成器得到生成样本；将正样本、负样本、生成样本分别输入判别器，得到判别结果；

(4)模型预测模块：获取待训练全科病人的特征数据和疾病标签数据，对少样本全科疾病使用数据生成模型生成全科疾病数据；将训练样本以及生成的全科疾病数据共同训练基于全科因果图卷积神经网络的全科多疾病预测模型，使用训练完成的全科多疾病预测模型对全科疾病进行预测。
根据权利要求1所述的基于因果校验数据生成的全科多疾病预测系统，其特征在于，所述因果校验模块中，使用全科病人的二分类变量数据训练全科倾向性得分网络；将全科病人的特征变量数据和标签变量数据转换成二分类变量，对于类别变量，通过独热编码转换成二分类变量，对于连续变量，通过分箱转换至类别变量之后通过独热编码转换成二分类变量。
根据权利要求1所述的基于因果校验数据生成的全科多疾病预测系统，其特征在于，所述全科倾向性得分网络包括输入层、局部连接层、sigmoid激活层和输出层；

输入层节点个数和输出层节点个数均为第一事件变量集合中的第一事件变量个数M；局部连接层和sigmoid激活层均包含τM个节点，τ≥2；输入层的第u个节点同局部连接层的除第τ(u-1)+1到τu个节点之外的所有节点相连；第τ(u-1)+1到τu个局部连接层节点同第τ(u-1)+1到τu个sigmoid激活层节点一一对应连接；第τ(u-1)+1到τu个sigmoid激活层节点仅同第u个输出层节点相连。
根据权利要求3所述的基于因果校验数据生成的全科多疾病预测系统，其特征在于，所述全科倾向性得分网络的训练过程如下：

对于每个第一事件变量a，将训练样本对应的协变量数据输入局部连接层得到倾向性第一特征表示，将所述倾向性第一特征表示输入sigmoid激活层得到倾向性第二特征表示，将所述倾向性第二特征表示输入输出层得到第一事件变量a的预测值；使用所有第一事件变量的预测值同所有第一事件变量的真实值计算倾向性损失。
根据权利要求1所述的基于因果校验数据生成的全科多疾病预测系统，其特征在于，所述因果校验模块中，使用训练完成的全科倾向性得分网络计算全科病人i对于第一事件变量a的全科倾向性得分使用全科倾向性得分计算第一事件变量a同第二事件变量b的因果效应值ATE_a，b，计算公式如下：

其中n表示待研究病人总数，T_i表示第i个病人第一事件变量真实值；Y_i表示第i个病人第二事件变量真实值。
根据权利要求1所述的基于因果校验数据生成的全科多疾病预测系统，其特征在于，所述数据生成模块中，所述生成器由多层生成器模块构成，所述生成器模块包括规范化层、全连接层和激活层，所述生成器的最后一层生成器模块的激活层为sigmoid激活层；在训练过程中，将随机噪声以及对应的疾病标签输入第一生成器模块的规范化层，将规范化后的数据输入第一生成器模块的全连接层得到输入数据的第一特征表示，将第一特征表示输入第一生成器模块的激活层得到输入数据的第二特征表示，将第二特征表示作为下一层生成器模块的输入数据，最终通过最后一层生成器模块的sigmoid激活层得到生成样本。
根据权利要求1所述的基于因果校验数据生成的全科多疾病预测系统，其特征在于，所述数据生成模块中，因果损失L_causal计算公式如下：

其中表示原始数据的第一事件变量a同第二事件变量r的因果效应值，表示生成样本的第一事件变量a同第二事件变量r的因果效应值；A_r表示与第二事件变量r配对的第一事件变量集合；所述第二事件变量集合为全科疾病集合，所述第二事件变量r对应少样本全科疾病集合R中的少样本全科疾病r。
根据权利要求1所述的基于因果校验数据生成的全科多疾病预测系统，其特征在于，所述数据生成模块中，判别器对抗损失L_ζ计算公式如下：

其中N为随机噪声数据量，为第i个生成样本经判别器判别为对应疾病真实数据的概率；

正则项损失L_regular计算公式如下：
L_regular＝||w||

其中||·||表示L1范数，w表示生成器模型参数。
根据权利要求1所述的基于因果校验数据生成的全科多疾病预测系统，其特征在于，所述数据生成模块中，所述判别器的总损失L_d计算公式如下：

其中m_d为正样本数量，y_k为正样本对应的疾病标签，分别为抽取的第k个正样本、抽取的第k个负样本、使用生成器得到的第k个生成样本，分别为正样本x_k、负样本生成样本d_k经判别器判定为疾病y_k真实数据的概率。
根据权利要求1-9中任一项所述的基于因果校验数据生成的全科多疾病预测系统，其特征在于，所述模型预测模块包括：

构建事件关系图：每个第一事件变量构成事件关系图中的一个第一事件节点，每个第二事件变量构成事件关系图中的一个第二事件节点，对于每个事件配对构建一条边；

生成第一事件节点和第二事件节点的节点嵌入表示；基于事件关系图构建度数矩阵Φ和邻接矩阵A；使用原始数据的因果效应值构建因果效应矩阵Ψ；

构建基于全科因果图卷积神经网络的全科多疾病预测模型，所述全科因果图卷积神经网络包含多个因果图卷积模块，所述因果图卷积模块包括因果图卷积层和激活层；

将节点嵌入表示输入第一因果图卷积模块的因果图卷积层，得到第一图特征表示h⁽⁰⁾：

其中H⁽⁰⁾表示节点嵌入表示，W⁽⁰⁾表示因果图卷积层权值，I表示单位矩阵，*表示矩阵各元素相乘；

将h⁽⁰⁾输入第一因果图卷积模块的激活层得到第一因果图卷积模块的输出H⁽¹⁾；

将上一因果图卷积模块的输出输入下一因果图卷积模块，直到得到最终疾病预测结果。