WO2023124190A1

WO2023124190A1 - 一种基于图神经网络的疾病诊断预测系统

Info

Publication number: WO2023124190A1
Application number: PCT/CN2022/116970
Authority: WO
Inventors: 李劲松; 池胜强; 王宇清; 田雨; 周天舒
Original assignee: 之江实验室
Priority date: 2021-12-27
Filing date: 2022-09-05
Publication date: 2023-07-06
Also published as: CN113990495A; CN113990495B; JP2024503980A; JP7459386B2

Abstract

本发明公开了一种基于图神经网络的疾病诊断预测系统，系统包括知识图谱构建模块、数据提取与预处理模块、疾病诊断模型构建模块和疾病诊断模型应用模块。本发明有效整合知识图谱中的专家知识和电子病历数据，构建异构图网络。在异构图网络上，利用图卷积神经网络方法，学习异构图网络的局部信息和全局信息。疾病诊断模型可以对知识和数据同时进行端到端的训练。在模型优化目标中，除了优化疾病预测任务，同时加入对知识关系的监督信息，从而保证疾病预测任务可以有效利用知识，也保证知识表示不受数据噪声的影响。针对预测疾病数量多，部分疾病对应患者数量有限的问题，设计多标签层次分类，用于提高少样本类别疾病的预测效果。

Description

一种基于图神经网络的疾病诊断预测系统

技术领域

本发明属于医疗健康信息技术领域，尤其涉及一种基于图神经网络的疾病诊断预测系统。

背景技术

在医疗保健领域有许多组织良好的知识图谱，如国际疾病分类、DrugBank、临床指南与共识等，具有符合人类认知的层级信息、复杂关联关系。知识图谱是一种包含多种关系的异构图网络。如何同时利用知识图谱中的专家知识和电子病历数据，整合知识与数据进行建模，用于疾病诊断预测，具有重要作用。

现有基于图神经网络模型进行疾病预测的方法，缺少有效融合医学知识图谱与电子病历数据构建异构图网络的方法。目前主要的方法有以下几种：(1)基于数据的图网络建模：基于电子病历数据构建图网络，利用图神经网络模型进行疾病预测；该方法没有充分利用现有的医学知识源。(2)知识表示学习和疾病预测的分阶段建模方法：对医学知识图谱进行表示学习，得到知识的向量表示，再融入到电子病历数据中，进行疾病预测；分阶段的训练方法不能获得最适合疾病预测的知识表示。(3)只关注疾病预测任务的端到端建模方法：融合医学知识图谱和电子病历数据，构建异构图网络，利用图神经网络模型进行疾病预测；该方法虽然解决了上述两种方法中存在的不足，但是，由于模型只优化疾病预测任务，可能导致学习到的知识表示受到数据中噪声的影响。

发明内容

本发明针对现有技术的不足，提出一种基于图神经网络的疾病诊断预测系统。

本发明的目的是通过以下技术方案实现的：一种基于图神经网络的疾病诊断预测系统，该系统包括：

(1)知识图谱构建模块：基于医学知识源构建疾病-症状知识图谱；

(2)数据提取与预处理模块：从电子病历系统中抽取患者电子病历数据，包括患者疾病诊断和症状数据，用三元组形式保存；

(3)疾病诊断模型构建模块：对疾病-症状知识图谱和电子病历数据进行图神经网络学习和预测建模，包括：

构建异构图网络，所述异构图网络包括从疾病-症状知识图谱中提取疾病-症状关系构建的疾病-症状子图，以及利用三元组形式的患者疾病诊断和症状数据构建的患者-症状子图；

构建疾病诊断模型，所述疾病诊断模型由图编码器和图解码器两部分组成；

所述图编码器基于图卷积神经网络实现，输入为利用疾病-症状共现矩阵得到的疾病、症状、患者的节点初始嵌入表示，以及疾病-症状邻接矩阵和患者-症状邻接矩阵，不同类型的节点通过连接边传递信息，通过节点嵌入表示更新操作得到疾病、症状、患者节点嵌入表示，输入图解码器；

所述图解码器利用节点嵌入表示进行多任务学习，包括三个部分：

a)患者疾病诊断预测的多标签层次分类：利用疾病的层级结构构建疾病层级关系，包括需要进行诊断预测的疾病层和根据医学知识得到的疾病系统分类层；构建多标签层次分类器，设计多标签层次分类的损失函数；

b)疾病对比学习：构建疾病对系统类别判别器，计算疾病对中两种疾病之间的距离，设计疾病对比学习的损失函数；

c)疾病-症状关系学习：构建疾病-症状关系学习器，计算疾病-症状对中疾病与症状存在关联关系的概率，设计疾病-症状关系学习的损失函数；

将所述多标签层次分类的损失函数、所述疾病对比学习的损失函数和所述疾病-症状关系学习的损失函数加和得到疾病诊断模型的损失函数；

(4)疾病诊断模型应用模块：利用疾病诊断模型，对新患者的输入症状进行疾病诊断预测。

进一步地，所述知识图谱构建模块中，所述疾病-症状知识图谱包括疾病、症状两种节点类型和疾病-症状一种关系。

进一步地，所述异构图网络基于疾病-症状知识图谱和电子病历数据构建，包含疾病、症状及患者三种节点类型，其中症状是疾病与患者之间连接的中间节点，所述异构图网络集成了疾病-症状知识图谱中与疾病、症状相关的关系子图和电子病历数据中与患者、症状相关的关系子图。

进一步地，所述异构图网络G表示为：

G＝(V，E)

其中，节点集V＝{v _i|v _i∈{D∪S∪P}}，D、S、P分别为给定的疾病集、症状集和患者集，

N ^D、N ^S、N ^P分别表示疾病种类、症状种类和患者数量；边集E＝{(v _i，r，v _j)|r∈R，v _i，v _j∈V}，集合R包括疾病-症状关系r _DS和患者-症状关系r _PS，所述疾病-症状关系存储在疾病-症状邻接矩阵中，所述患者-症状关系存储在患者-症状邻接矩阵中。

进一步地，所述节点初始嵌入表示的生成包括：

构建疾病-症状共现矩阵

矩阵M的第i行、第j列记为M _ij，表示电子病历数据中诊断为疾病D _i的患者中出现症状S _j的数量；

对M进行行归一化，得到M ^D，疾病D _i的初始嵌入表示为

即M ^D的第i行；

对M进行列归一化，得到M ^S，症状S _i的初始嵌入表示为

即M ^S的第i列；

计算患者P _i的初始嵌入表示

计算公式如下：

其中，

为患者P _i的症状数量。

进一步地，将不同类型的节点初始嵌入表示分别输入一个多层感知器，得到相同维度的初始嵌入表示，再输入图编码器中。

进一步地，所述图编码器中，对于疾病D _i，第l层的节点嵌入表示

计算公式为：

对于症状S _i，第l层的节点嵌入表示

计算公式为：

对于患者P _i，第l层的节点嵌入表示

计算公式为：

其中，σ是激活函数，

分别是第l层疾病诊断模型训练得到的疾病-症状关联权重矩阵和患者-症状关联权重矩阵；

分别是疾病D _i、症状S _i、患者P _i在第l-1层的节点嵌入表示；N ^S(D _i)表示疾病D _i相邻症状节点的集合，N ^D(S _i)表示症状S _i相邻疾病节点的集合，N ^P(S _i)表示症状S _i相邻患者节点的集合，N ^S(P _i)表示患者P _i相邻症状节点的集合。

进一步地，所述图解码器中，所述患者疾病诊断预测的多标签层次分类包括：

构建疾病层级关系，疾病层的疾病种类记为N ^D，疾病系统分类层记为

为疾病系统分类数量；

构建包含N ^clf个二分类器的多标签层次分类器，N ^clf个二分类器记为clf _c，c＝1，2，...，N ^clf，

将患者P _i的节点嵌入表示分别输入N ^clf个二分类器，得到N ^clf个预测概率，记为prob _c，c＝1，2，...，N ^clf，其中，二分类器

对应的标签为患者的疾病系统分类；二分类器

对应的标签为患者的疾病诊断，对应的模型参数为w _c，c＝1，2，...，N ^D；

计算患者P _i出现疾病D _j的概率

其中，

为二分类器

预测患者是否出现疾病D _j的概率；假设疾病D _j的系统分类为SD _c，

为二分类器clf _c预测患者是否出现疾病系统分类SD _c的概率；

计算多标签层次分类的损失函数L _clf，公式如下：

L _clf＝L _p-diag+L _diag+L _sparse

其中，

为患者P _i出现疾病D _j的真实标签，

为患者P _i的疾病诊断对应的疾病系统分类的真实标签，||·|| ₁表示L1范数，α _ab为疾病a和疾病b之间的相似性，计算公式如下：

α _ab＝cos(dist _a，dist _b)

其中，dist _a，dist _b分别表示疾病a和疾病b的真实标签分布，

和

分别表示患者P _i出现疾病a和疾病b的真实标签。

进一步地，所述图解码器中，所述疾病对比学习包括：

将疾病集D中的疾病进行两两组合，得到疾病对集合DD，疾病对数量为N ^DD；对DD中的任意一个疾病对DD _i，如果两种疾病属于同一个系统分类，则疾病对标签

如果两种疾病属于不同的系统分类，则

构建疾病对系统类别判别器clf _discri，将疾病对DD _i中两种疾病的节点嵌入表示e _i1，e _i2输入clf _discri中，计算两种疾病之间的距离

其中，||·|| ₂表示L2范数；

计算疾病对比学习的损失函数L _dis-dis，公式如下：

其中，m为不同疾病系统类别嵌入表示之间距离的下界。

进一步地，所述图解码器中，所述疾病-症状关系学习包括：

从疾病集D和症状集S中分别选取一种疾病和一种症状，得到疾病-症状对集合DS，疾病-症状对数量为N ^DS；对DS中的任意一个疾病-症状对DS _i，如果疾病-症状在疾病-症状知识图谱中存在关联关系，则疾病-症状对标签

如果不存在关联关系，则

构建疾病-症状关系学习器clf _rel，将DS _i中的疾病和症状的节点嵌入表示e _id，e _is输入clf _rel中，计算DS _i中疾病与症状存在关联关系的概率

其中，sigmoid(·)表示sigmoid函数；

计算疾病-症状关系学习的损失函数L _dis-symp，公式如下：

本发明的有益效果是：本发明有效整合知识图谱中的专家知识和电子病历数据，构建异构图网络。在异构图网络上，利用图卷积神经网络方法，学习异构图网络的局部信息和全局信息。疾病诊断模型可以对知识和数据同时进行端到端的训练。在模型优化目标中，除了优化疾病预测任务，同时加入对知识关系的监督信息(疾病对比学习部分和疾病-症状关系学习部分)，从而保证疾病预测任务可以有效利用知识，也保证知识表示不受数据噪声的影响。针对预测疾病数量多，部分疾病对应患者数量有限的问题，设计多标签层次分类，用于提高少样本类别疾病的预测效果。

附图说明

图1为本发明实施例提供的基于图神经网络的疾病诊断预测系统结构图；

图2为本发明实施例提供的异构图网络结构图；

图3为本发明实施例提供的疾病诊断模型结构图；

图4为本发明实施例提供的疾病的层级结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其它不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

本发明实施例提供一种基于图神经网络的疾病诊断预测系统，如图1所示，该系统包括知识图谱构建模块、数据提取与预处理模块、疾病诊断模型构建模块和疾病诊断模型应用模块，下面详细阐述每个模块的实现过程。

知识图谱构建模块：基于SNOMED-CT、HPO等医学知识源构建疾病-症状知识图谱，所述疾病-症状知识图谱包括疾病、症状两种节点类型和疾病-症状一种关系。

数据提取与预处理模块：从电子病历系统中抽取患者的电子病历数据，包括患者疾病诊断和症状数据，用三元组形式保存。

疾病诊断模型构建模块：对疾病-症状知识图谱和电子病历数据进行图神经网络学习和预测建模。

疾病诊断模型应用模块：利用疾病诊断模型，对新患者的输入症状进行疾病诊断预测。

疾病诊断模型构建模块的具体功能为：给定疾病集

症状集

和患者集

其中，N ^D、N ^S、N ^P分别表示疾病种类、症状种类和患者数量。将疾病诊断预测看作是多标签分类问题，即在给定患者症状的情况下，疾病诊断模型能够预测患者的疾病诊断。

疾病诊断模型的实现包括：

(1)异构图网络构建

利用疾病-症状知识图谱和电子病历数据，构建一个包含疾病、症状以及患者三种节点类型的异构图网络G，其中症状是疾病与患者之间连接的中间节点。该异构图网络集成了疾病-症状知识图谱中与疾病、症状相关的关系子图和电子病历数据中与患者、症状相关的关系子图，包括疾病-症状子图G _DS和患者-症状子图G _PS。

异构图网络G可以表示为：

G＝(V，E)

其中，节点集V＝{v _i|v _i∈{D∪S∪P}}，边集E＝{(v _i，r，v _j)|r∈R，v _i，v _j∈V}，集合R包括疾病-症状关系r _DS和患者-症状关系r _PS，疾病-症状关系存储在疾病-症状邻接矩阵中，患者-症状关系存储在患者-症状邻接矩阵中。

图2为一异构图网络结构示例，包括4个患者P ₁，P ₂，P ₃，P ₄、4种疾病D ₁，D ₂，D ₃，D ₄、4种症状S ₁，S ₂，S ₃，S ₄，以及患者-症状关系、疾病-症状关系。

(2)子图构建

疾病-症状子图G _DS：从疾病-症状知识图谱中提取疾病-症状关系构建疾病-症状子图。

患者-症状子图G _PS：利用三元组形式的患者疾病诊断和症状数据，构建患者-症状子图。

(3)疾病诊断模型结构

图3为疾病诊断模型结构示例。利用疾病-症状共现矩阵，得到疾病、症状、患者的节点初始嵌入表示。将节点初始嵌入表示和邻接矩阵作为疾病诊断模型的输入。疾病诊断模型由图编码器和图解码器两部分组成。节点初始嵌入表示的生成、图编码器和图解码器的具体步骤见(4)-(6)。

(4)节点初始嵌入表示的生成

首先，构建一个疾病-症状共现矩阵

矩阵M的第i行、第j列记为M _ij，表示电子病历数据中诊断为疾病D _i的患者中，出现症状S _j的数量。接着，对M进行行归一化，得到M ^D，疾病D _i的初始嵌入表示为

即M ^D的第i行；对M进行列归一化，得到M ^S，症状S _i的初始嵌入表示为

即M ^S的第i列。然后，计算患者P _i的初始嵌入表示

计算公式如下：

其中，

为患者P _i的症状数量。

(5)图编码器

首先，不同类型的节点初始嵌入表示分别输入一个多层感知器，得到相同维度的初始嵌入表示，随后输入图编码器中。图编码器基于图卷积神经网络实现。

在图编码器中，不同类型的节点可以通过图中的连接边传递信息，来整合其他类型节点的信息。对于疾病D _i，第l层的节点嵌入表示

计算公式为：

对于症状S _i，第l层的节点嵌入表示

计算公式为：

对于患者P _i，第l层的节点嵌入表示

计算公式为：

其中，σ是激活函数，

分别是疾病节点D _i、症状节点S _i、患者节点P _i在第l-1层的节点嵌入表示，图编码器的总层数为L _N。N ^S(D _i)表示疾病节点D _i相邻症状节点的集合，N ^D(S _i)表示症状节点S _i相邻疾病节点的集合，N ^P(S _i)表示症状节点S _i相邻患者节点的集合，N ^S(P _i)表示患者节点P _i相邻症状节点的集合。N ^S(D _i)、N ^D(S _i)通过疾病-症状邻接矩阵获得，N ^P(S _i)、N ^S(P _i)通过患者-症状邻接矩阵获得。通过反复执行上述节点嵌入表示更新操作L _N次，得到能够充分捕获关联关系的疾病、症状、患者节点嵌入表示。

(6)图解码器

将图编码器得到的节点嵌入表示输入图解码器中。在图解码器中，利用节点嵌入表示进行多任务学习。

第一，进行患者疾病诊断预测的多标签层次分类。

首先，利用疾病的层级结构构建疾病层级关系，示例如图4所示。其中，L _D层是疾病集D中的疾病，即需要进行诊断预测的疾病，疾病种类如前所述为N ^D；L _SD层是根据医学知识对疾病进行的系统分类，记为

为L _SD层的疾病系统分类数量。

接着，构建包含N ^clf个二分类器的多标签层次分类器，N ^clf个二分类器记为clf _c，c＝1，2，...，N ^clf。将患者P _i的节点嵌入表示分别输入N ^clf个二分类器，得到N ^clf个预测概率，记为prob _c，c＝1，2，...，N ^clf。其中，

分类器

对应的标签为患者的疾病系统分类；分类器

对应的标签为患者的疾病诊断，对应的模型参数为w _c，c＝1，2，...，N ^D。

然后，计算患者P _i出现疾病D _j的概率

其中，

为分类器

为分类器clf _c预测患者是否出现疾病系统分类SD _c的概率。

最后，计算多标签层次分类的损失函数L _clf，公式如下：

L _clf＝L _p-diag+L _diag+L _sparse

其中，

为患者P _i出现疾病D _j的真实标签，

为患者P _i的疾病诊断对应的系统分类的真实标签，||·|| ₁表示L1范数，α _ab为疾病a和疾病b之间的相似性，计算公式如下：

α _ab＝cos(dist _a，dist _b)

其中，dist _a，dist _b分别表示疾病a和疾病b的真实标签分布，

和

分别表示患者P _i出现疾病a和疾病b的真实标签。

第二，进行疾病对比学习。

首先，将疾病集D中的疾病进行两两组合，得到疾病对集合DD，疾病对数量为N ^DD。对DD中的任意一个疾病对DD _i，如果两种疾病属于同一个系统分类，则疾病对标签

如果两种疾病属于不同的系统分类，则

接着，构建疾病对系统类别判别器clf _discri。将疾病对DD _i中两种疾病的节点嵌入表示e _i1，e _i2输入clf _discri中，计算两种疾病之间的距离

其中，||·|| ₂表示L2范数。

最后，计算疾病对比学习的损失函数L _dis-dis，公式如下：

其中，m为不同疾病系统类别嵌入表示之间距离的下界。

第三，进行疾病-症状关系学习。

首先，从疾病集D和症状集S中分别选取一种疾病和一种症状，得到疾病-症状对集合DS，疾病-症状对数量为N ^DS。对DS中的任意一个疾病-症状对DS _i，如果该疾病-症状在疾病-症状知识图谱中存在关联关系，则疾病-症状对标签

如果不存在关联关系，则

接着，构建疾病-症状关系学习器clf _rel，将DS _i中的疾病和症状的节点嵌入表示e _id，e _is输入clf _rel中，计算疾病-症状对DS _i中疾病与症状存在关联关系的概率

其中，sigmoid(·)表示sigmoid函数。

最后，计算疾病-症状关系学习的损失函数L _dis-symp，公式如下：

疾病诊断模型的损失函数L定义如下：

L＝L _clf+L _dis-dis+L _dis-symp

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

一种基于图神经网络的疾病诊断预测系统，其特征在于，包括：

(1)知识图谱构建模块：基于医学知识源构建疾病-症状知识图谱；

(2)数据提取与预处理模块：从电子病历系统中抽取患者电子病历数据，包括患者疾病诊断和症状数据，用三元组形式保存；

(3)疾病诊断模型构建模块：对疾病-症状知识图谱和电子病历数据进行图神经网络学习和预测建模，包括：

构建异构图网络，所述异构图网络包括从疾病-症状知识图谱中提取疾病-症状关系构建的疾病-症状子图，以及利用三元组形式的患者疾病诊断和症状数据构建的患者-症状子图；

构建疾病诊断模型，所述疾病诊断模型由图编码器和图解码器两部分组成；

所述图编码器基于图卷积神经网络实现，输入为利用疾病-症状共现矩阵得到的疾病、症状、患者的节点初始嵌入表示，以及疾病-症状邻接矩阵和患者-症状邻接矩阵，不同类型的节点通过连接边传递信息，通过节点嵌入表示更新操作得到疾病、症状、患者节点嵌入表示，输入图解码器；

所述图解码器利用节点嵌入表示进行多任务学习，包括三个部分：

a)患者疾病诊断预测的多标签层次分类：

利用疾病的层级结构构建疾病层级关系，包括需要进行诊断预测的疾病层和根据医学知识得到的疾病系统分类层，疾病层的疾病种类记为N ^D，疾病系统分类层记为SD _i，
为疾病系统分类数量；

构建包含N ^clf个二分类器的多标签层次分类器，N ^clf个二分类器记为clf _c，c＝1，2，...，N ^clf，
将患者P _i的节点嵌入表示分别输入N ^clf个二分类器，得到N ^clf个预测概率，记为prob _c，c＝1，2，...，N ^clf，其中，二分类器clf _c，
对应的标签为患者的疾病系统分类；二分类器clf _c，
对应的标签为患者的疾病诊断，对应的模型参数为w _c，c＝1，2，...，N ^D；

计算患者P _i出现疾病D _j的概率
其中，
为二分类器
预测患者是否出现疾病D _j的概率；假设疾病D _j的系统分类为SD _c，
为二分类器clf _c预测患者是否出现疾病系统分类SD _c的概率；

计算多标签层次分类的损失函数L _clf，公式如下：

L _clf＝L _p-diag+L _diag+L _sparse

其中，N ^P表示患者数量，
为患者P _i出现疾病D _j的真实标签，
为患者P _i的疾病诊断对应的疾病系统分类的真实标签，||·|| ₁表示L1范数，α _ab为疾病a和疾病b之间的相似性，计算公式如下：

α _ab＝cos(dist _a，dist _b)

其中，dist _a，dist _b分别表示疾病a和疾病b的真实标签分布，
和
分别表示患者P _i出现疾病a和疾病b的真实标签；

b)疾病对比学习：构建疾病对系统类别判别器，计算疾病对中两种疾病之间的距离，设计疾病对比学习的损失函数；

c)疾病-症状关系学习：构建疾病-症状关系学习器，计算疾病-症状对中疾病与症状存在关联关系的概率，设计疾病-症状关系学习的损失函数；

将所述多标签层次分类的损失函数、所述疾病对比学习的损失函数和所述疾病-症状关系学习的损失函数加和得到疾病诊断模型的损失函数；

(4)疾病诊断模型应用模块：利用疾病诊断模型，对新患者的输入症状进行疾病诊断预测。
根据权利要求1所述的基于图神经网络的疾病诊断预测系统，其特征在于，所述知识图谱构建模块中，所述疾病-症状知识图谱包括疾病、症状两种节点类型和疾病-症状一种关系。
根据权利要求1所述的基于图神经网络的疾病诊断预测系统，其特征在于，所述异构图网络基于疾病-症状知识图谱和电子病历数据构建，包含疾病、症状及患者三种节点类型，其中症状是疾病与患者之间连接的中间节点，所述异构图网络集成了疾病-症状知识图谱中与疾病、症状相关的关系子图和电子病历数据中与患者、症状相关的关系子图。
根据权利要求1所述的基于图神经网络的疾病诊断预测系统，其特征在于，所述异构图网络G表示为：

G＝(V,E)

其中，节点集V＝{v _i|v _i∈{D∪S∪P}}，D、S、P分别为给定的疾病集、症状集和患者集，
N ^D、N ^S、N ^P分别表示疾病种类、症状种类和患者数量；边集E＝{(v _i，r，v _j)|r∈R，v _i，v _j∈V}，集合R包括表示疾病-症状关系r _DS和患者-症状关系r _PS，所述疾病-症状关系存储在疾病-症状邻接矩阵中，所述患者-症状关系存储在患者-症状邻接矩阵中。
根据权利要求4所述的基于图神经网络的疾病诊断预测系统，其特征在于，所述节点初始嵌入表示的生成包括：

构建疾病-症状共现矩阵
矩阵M的第i行、第j列记为M _ij，表示电子病历数据中诊断为疾病D _i的患者中出现症状S _j的数量；

对M进行行归一化，得到M ^D，疾病D _i的初始嵌入表示为
即M ^D的第i行；

对M进行列归一化，得到M ^S，症状S _i的初始嵌入表示为
即M ^S的第i列；

计算患者P _i的初始嵌入表示
计算公式如下：

其中，
为患者P _i的症状数量。
根据权利要求1所述的基于图神经网络的疾病诊断预测系统，其特征在于，将不同类型的节点初始嵌入表示分别输入一个多层感知器，得到相同维度的初始嵌入表示，再输入图编码器中。
根据权利要求5所述的基于图神经网络的疾病诊断预测系统，其特征在于，所述图编码器中，对于疾病D _i，第l层的节点嵌入表示
计算公式为：

对于症状S _i，第l层的节点嵌入表示
计算公式为：

对于患者P _i，第l层的节点嵌入表示
计算公式为：

其中，σ是激活函数，
分别是第l层疾病诊断模型训练得到的疾病-症状关联权重矩阵和患者-症状关联权重矩阵；
分别是疾病D _i、症状S _i、患者P _i在第l-1层的节点嵌入表示；N ^S(D _i)表示疾病D _i相邻症状节点的集合，N ^D(S _i)表示症状S _i相邻疾病节点的集合，N ^P(S _i)表示症状S _i相邻患者节点的集合，N ^S(P _i)表示患者P _i相邻症状节点的集合。
根据权利要求7所述的基于图神经网络的疾病诊断预测系统，其特征在于，所述图解码器中，所述疾病对比学习包括：

将疾病集D中的疾病进行两两组合，得到疾病对集合DD，疾病对数量为N ^DD；对DD中的任意一个疾病对DD _i，如果两种疾病属于同一个系统分类，则疾病对标签
如果两种疾病属于不同的系统分类，则

构建疾病对系统类别判别器clf _discri，将疾病对DD _i中两种疾病的节点嵌入表示e _i1，e _i2输入clf _discri中，计算两种疾病之间的距离

其中，||·|| ₂表示L2范数；

计算疾病对比学习的损失函数L _dis-dis，公式如下：

其中，m为不同疾病系统类别嵌入表示之间距离的下界。
根据权利要求7所述的基于图神经网络的疾病诊断预测系统，其特征在于，所述图解码器中，所述疾病-症状关系学习包括：

从疾病集D和症状集S中分别选取一种疾病和一种症状，得到疾病-症状对集合DS，疾病-症状对数量为N ^DS；对DS中的任意一个疾病-症状对DS _i，如果疾病-症状在疾病-症状知识图谱中存在关联关系，则疾病-症状对标签
如果不存在关联关系，则
构建疾病-症状关系学习器clf _rel，将DS _i中的疾病和症状的节点嵌入表示e _id，e _is输入clf _rel中，计算DS _i中疾病与症状存在关联关系的概率

其中，sigmoid(·)表示sigmoid函数；

计算疾病-症状关系学习的损失函数L _dis-symp，公式如下：