WO2021120936A1

WO2021120936A1 - 一种基于多任务学习模型的慢病预测系统

Info

Publication number: WO2021120936A1
Application number: PCT/CN2020/128427
Authority: WO
Inventors: 吴健; 姜晓红; 应豪超; 冯芮苇; 刘雪晨; 曹燕
Original assignee: 浙江大学
Priority date: 2019-12-19
Filing date: 2020-11-12
Publication date: 2021-06-24
Also published as: US20220254493A1; CN111180068A

Abstract

一种基于多任务学习模型的慢病预测系统，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机存储器中存有训练好的慢病预测模型，所述的慢病预测模型由共享层卷积神经网络和多个慢病分支网络组成；所述计算机处理器执行所述计算机程序时实现以下步骤：将待预测的体检记录经过预处理后先输入慢病预测模型的共享层卷积神经网络中进行特征提取，得到特征图；然后将得到的特征图分别输入每个慢病分支网络，分别进行特征提取和预测，得到慢病预测结果。该系统可以同时对多种慢性病进行预测。

Description

一种基于多任务学习模型的慢病预测系统

技术领域

本发明属于医学人工智能领域，尤其是涉及一种基于多任务学习模型的慢病预测系统。

背景技术

慢性病(也称慢病)是一类潜伏性、病程长的常见疾病，包括糖尿病、心血管疾病、癌症和呼吸系统疾病等。近年来，慢性病的患者数量还在迅速增加。一般来说，慢性病的病因复杂，需要持续的治疗。因此，慢性病给人们身体、生活带来的危害，其死亡率和治疗负担不断增加。如果能够对慢性病进行早期的发现和干预，能够有效缓解这些问题。

目前，已经有一些方法尝试进行及早的慢性病的发现和治疗。这些方法普遍可以分为两大类：一类是侧重研究包含人们生活习惯和人口统计学变量的数据，找出可能导致某种慢性病的身体装潢或者生活习惯，从而对慢性病进行预防。

如公开号为CN107153774A的中国专利文献公开了慢性病风险评估双曲线模型的构建及应用该模型的疾病预测系统，其依托山东省20多家健康管理中心的纵向健康管理数据构建山东多中心健康管理纵向观察队列，探讨遗传、环境、个人生活方式、健康干预因素等在重大慢性病发生、发展和转归过程中的作用，建立适用于山东省健康体检人群的各种慢性病的风险评估双曲线模型和疾病预测系统，并为慢性病的健康干预提供科学依据。

另一类是通过一些方法来分析电子健康档案的数据和其他通过检查收集的数据，包括人体测量特征(年龄、性别、体重指数等)和生理记录(包括血常规、血糖、尿常规等)，通过寻找医学指标和慢性病之间的联系，从而发现某种疾病的危险因素，从而对其进行预测。与此同时，一些研究已经探索了常见的危险因素以及一些常见慢性病之间的潜在联系。

如公开号为CN107007284A的中国专利文献公开了一种多病种慢性病信息管理系统，包括数据库、应用服务器、若干个医院客户端和患者客户端；数据库存储患者的各项体检数据、医生建议、各检查项的健康数据参考范围及各种慢性病的健康状态评估指标；应用服务器根据医院/患者客户端发来的第一查询指令，在数据库中获取指定患者的各项体检数据及相应的健康数据参考范围、各种慢性病的健康状态评估指标、医生建议，得出慢性病评估结果，并将当前指定患者的慢性病评估结果及上述各种数据返回给医院/患者客户端。

然而，目前仍然没有一种运用这些可能存在的慢性病之间的潜在联系，对多种慢性病进行同时预测的方法。

发明内容

本发明提供了一种基于多任务学习模型的慢病预测系统，可以通过运用多种慢性病之间可能存在的潜在联系，同时对多种慢性病进行预测。

一种基于多任务学习模型的慢病预测系统，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机存储器中存有训练好的慢病预测模型，所述的慢病预测模型由共享层卷积神经网络和多个慢病分支网络组成；

所述计算机处理器执行所述计算机程序时实现以下步骤：

将待预测的体检记录经过预处理后输入慢病预测模型的共享层卷积神经网络中进行特征提取，特得到特征图；

将得到的特征图分别输入每个慢病分支网络，分别进行特征提取和预测，得到慢病预测结果。

所述共享层卷积神经网络的结构为：首先通过多层任务共享的卷积层，然后分别使用3个和6个尺寸为3×3的卷积核进行特征提取，卷积核的步长设置为1；

每个慢病分支网络分别设有2个卷积层，每个卷积层分别由9个和12个卷积核进行特征提取，卷积核的步长分别设计为2和1；最后，每个分支分别依次通过两个节点数为32的全连接层和一个softmax层得到最后的输出。

所述慢性病预测模型的训练过程如下：

获取慢性病检查相关的体检数据作为样本数据，经过预处理之后，标注标签，标注后的样本数据通过5折交叉验证方法分成训练集和验证集；

设计针对体检数据中结构化数据的数据编码方法，得到慢病预测模型的输入数据；所述数据编码方法包括内容编码策略和空间编码策略，其中，内容编码策略用于实现数据的数值类型统一，空间编码策略用于实现输入模型的数据格式统一；

搭建基于多任务学习的慢病预测模型，使用深度学习方法对编码的结构化数据进行特征提取和分类，同时输出多种慢病的预测结果；

使用训练集对所述慢病预测模型进行训练，根据模型的预测结果与标签的重合度对模型的参数进行调整，直至模型收敛。

本发明中所使用的体检数据为csv格式数据，也可以是其他格式的结构化数据，针对患者的体检记录。每条csv数据对应一个患者的体检记录，每条csv记录中包括多个体检指标项目。在模型训练过程中，可能有一些患者的多项体检指标项目是缺失的，这会导致模型训练的误差较大、效果较差，因此，在这个步骤中，我们对这些数据记录进行了剔除。同时，有一些体检指标项在多个患者中是缺失的，这同样会导致模型训练过程中表现较差，因此，对这些指标项进行了剔除。

具体来说，所述的预处理包括：对于体检数据中的各项指标进行相关性分析、缺失值统计，从体检记录角度剔除单条记录缺失值超过一定比例的数据，从数据指标角度剔除所有记录中缺失值超过一定比例的数据指标，对体检记录中的缺失数据，根据年龄分组并进行缺失值填充。

具体来讲，首先根据患者的年龄进行分组，分别对每个组内数据的缺失项根据该项在该组内的平均值或者众数进行填充。

为了提升模型性能的稳定性，选用5折交叉验证方法，通过将数据集进行分组，从而对5个不同分组训练的结果进行平均来减少方差，降低模型的性能对数据的划分的敏感性。5折交叉验证方法的具体过程如下：

不重复抽样将样本数据随机分为5份，每份数据样本数量相等或相接近；每一次挑选其中1份作为测试集，剩余4份作为训练集用于模型训练，重复5次，制作5组不同的训练集和验证集组。这样每个子集都有一次机会作为验证集，其余集合作为训练集。

所述的内容编码策略采取如下两种具体操作：

使用标签编码方式将体检记录中的文本信息编码成数值信息；

使用One-hot编码方式将体检记录中的连续变量编码成类别变量，作为输入。

所述的空间编码策略具体操作过程如下：

内容编码之后的体检记录是一维向量，对一维向量中的所有变量进行两两之间相关性分析；根据某个变量和其他所有变量之间的相关性之和进行降序排序；降序排列之后的所有变量依次排列，形成二维向量，作为网络的输入数据。

使用训练集对所述慢病预测模型进行训练的具体过程如下：

输入一组训练集，分别经过潜在相关性的共享层特征提取、针对单种慢性病的特征提取，输出预测结果；

将输出的预测结果与数据所对应的标签进行对比，运用ACC函数作为当前模型的损失，并回传到模型中，对所述模型中的参数进行更新；

当达到设定的ACC阈值或者达到指定迭代次数时，所述模型停止更新，输出结果；

使用上述方法依次输入剩余的训练集进行训练，直至模型收敛。

上述训练过程还包括：在每组的训练集训练结束后，将该组的验证集输入模型，得到对应的分类结果；将所有验证集得到的损失值求平均值，作为模型的性能评估，用于寻找最优参数。模型性能评估包括对多种单一病种的预测准确率。

与现有技术相比，本发明具有以下有益效果：

本发明搭建了基于多任务学习模型的慢病预测系统，首先对体检记录的数据预处理、数据的内容编码和结构编码，然后设计多任务学习模型，利用多任务共享层实现多种疾病之间可能存在的潜在联系进行特征提取，再通过针对单种慢病设计的单任务分支进行分别的特征提取和最终预测，能够实现多种慢病的同时预测，并能够充分运用多种慢病之间可能存在的潜在关联。在训练过程中，使用5折交叉验证的方法，对模型进行训练，经过多次迭代之后模型能够达到一个较为稳定的效果和较高的准确率。

附图说明

图1为本发明实施例所使用的体检记录预处理流程示意图；

图2为本发明实施例中采用的5折交叉验证方法示意图；

图3为本发明提出的网络模型的整体框架流程图；

图4为本发明实施例中所使用的内容编码策略的实施方法；

图5为本发明实施例中所使用的慢病预测模型的网络结构示意图；

图6为本发明实施例中模型预测的结果。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

一种基于多任务学习模型的慢病预测系统，包括计算机存储器、计算机处理器以及存储在计算机存储器中并可在计算机处理器上执行的计算机程序，计算机存储器中存有训练好的慢病预测模型，慢病预测模型由共享层卷积神经网络和多个慢病分支网络组成；计算机处理器执行计算机程序时实现以下步骤：

将待预测的体检记录经过预处理后先输入慢病预测模型的共享层卷积神经网络中进行特征提取，特得到特征图；然后将得到的特征图分别输入每个慢病分支网络，分别进行特征提取和预测，得到慢病预测结果。

下面从模型的构建、训练及验证过程进行详细介绍。

S01，建立样本数据集。

获取体检数据记录并进行预处理，从5家合作医院获得样本数据集，样本数据集共包含48953条体检记录，单条体检记录中最多包括55项体检数据，各个体检项有不同范围的参考值，也有一些异常值，每条记录都被3个以上专业医生共同进行了精细标注，区分患者属于高血压、糖尿病、二者都有或者正常。

S02，数据集预处理。

将获取的样本数据集依据进行预处理，依据特征相关性和特征缺失进行数据剔除。首先，对全部的55个指标进行指标之间相关性分析。考虑到指标的数量和发明中所述的数据编码方式，为了对每条记录保留尽可能多的有用信息，同时尽量不增加冗余信息，对其中的一些变量进行剔除。依据各个指标的值所对应的变量类型，主要使用皮尔逊相关性系数进行对特征之间的相关性进行计算。对于皮尔逊系数大于0.8的成对变量，将变量对当中数据缺失量较大的一个特征进行剔除。此外，对于所有患者，如果其特征缺失量大于0.2，该患者的数据也被舍弃。经过剔除后的数据共13358条体检记录，49种体检指标，每条中数据变量中数值的缺失量都小于0.2。

然后，对这些体检记录依据年龄分组进行缺失数据填充。研究表明，年龄是高血压和糖尿病的危险因素之一。因此，将年龄作为缺失值填充的一个重要的分组依据。对于数据集不同类别的数据，首先根据年龄对患者进行分组，总共分为7组。然后针对待填充的某个特征，选取该组当中特征值的众数进行填充。数据集预处理的具体步骤如图1所示。

将上述样本数据集近似平均分成5份进行五折交叉验证，其中每份样本数量分布为[2672,2672,2672,2671,2671]，并分别标记为[E ₁,E ₂,E ₃,E ₄，E ₅]，分别进行五次模型的训练和预测，记作1 ^st iteration、2 ^nd iteration···，所述具体的五折交叉验证方法的过程如图2所示，其中，Training folds表示训练集，Test folds表示验证集。

S03，数据的编码。

对于每条记录中的49个指标项，首先利用内容编码策略中的one-hot编码方式，对其中指标项对应的值位文字的数据进行编码，编码方式如图4所示。然后，利用空间编码策略将49个指标项映射到一个7×7的矩阵，作为网络模型的输入，如图3的左边部分所示。这里的空间映射方法遵照本发明中所述的方法，首先对49个指标项分别计算两两之间的相关性，并按照某个指标和其他所有指标的相关性之和的大小降序排列，并进而将一维的指标序列映射到二维空间中，49个指标中第h个值映射到矩阵M的第i，j个位置m _ij。(在一组实验中，保持相同的映射方式，即一组实验中某个indexes在全部样本中都被映射到固定位置，以保证后续的相关性分析)。

S04，多任务学习模型(慢病预测模型)的构建。

本发明的慢病预测模型，将二维向量作为输入，如图3所示，首先设计多种疾病共享的共享层卷积神经网络，对多种疾病中可能存在的潜在相关性进行特征提取；经过共同特征提取之后的特征图分别通过针对不同种慢性病的各个分支，分别进行特征提取和预测。

本实施例构建了针对糖尿病、高血压这两种特定疾病的网络模型，对两种疾病进行特征提取和患病预测。上述步骤S03编码后的第I组数据中的训练数据集，以个体为单位输入到模型中，即每个输入数据是包含一条体检记录的二维矩阵的数据。数据输入模型中进行特征提取和预测，模型的细节结构如图5所示。首先通过两层任务共享的卷积层，分别使用3个和6个尺寸为3×3的卷积核进行特征提取，卷积核的步长设置为1。然后，通过模型中的任务特定分支，分别进行糖尿病体检数据的特征提取和高血压体检数据的特征提取，每个分支分别以此设计2个卷积层，每个卷积层分别由9个和12个卷积核进行特征提取，卷积核的步长分别设计为2和1。最后，预测糖尿病和高血压两种疾病的两个分支分别依次通过两个节点数为32的全连接层和一个softmax层得到最后的输出。每个分支分别依据模型提取到的特征对于患者是否患有糖尿病和高血压进行判别，分支1相对于高血压，分支2相对于糖尿病。模型输出的判别结果和步骤1中专家标注的体检记录对应的标注通交叉熵损失函数进行损失计算，两个分支的损失值加和作为整个模型的损失函数，用来优化模型。

S05，测试集数据预测。

将对应的第Ⅰ组数据测试数据集中的数据输入到步骤S04训练得到的收敛的基于多任务学习的慢病预测模型中，得到其对应的预测结果，并对该组所有的测试数据进行ACC(预测准确率)的计算，分别计算对于高血压的预测准确率和对于糖尿病的预测准确率。

S06，五折交叉验证。

对步骤S04、S05重复五次完成五折交叉验证，得到五个测试数据集上的预测准确率(分别针对高血压和糖尿病)，将这些预测准确率求平均值，作为参数和模型的性能评估，从而寻找最优参数。

如图6所示，本发明的模型在训练后，针对高血压的预测准确率能够达到73％，针对糖尿病的预测准确率能够达到82％。并且AUC指标能够达到79％和85％以上，相比单任务模型有很大的优势和更好的效果。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。

Claims

一种基于多任务学习模型的慢病预测系统，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机存储器中存有训练好的慢病预测模型，所述的慢病预测模型由共享层卷积神经网络和多个慢病分支网络组成；

所述计算机处理器执行所述计算机程序时实现以下步骤：

将待预测的体检记录经过预处理后先输入慢病预测模型的共享层卷积神经网络中进行特征提取，特得到特征图；

然后将得到的特征图分别输入每个慢病分支网络，分别进行特征提取和预测，得到慢病预测结果。
根据权利要求1所述的基于多任务学习模型的慢病预测系统，其特征在于，所述共享层卷积神经网络的结构为：首先通过多层任务共享的卷积层，然后分别使用3个和6个尺寸为3×3的卷积核进行特征提取，卷积核的步长设置为1；

每个慢病分支网络分别设有2个卷积层，每个卷积层分别由9个和12个卷积核进行特征提取，卷积核的步长分别设计为2和1；最后，每个分支分别依次通过两个节点数为32的全连接层和一个softmax层得到最后的输出。
根据权利要求1所述的基于多任务学习模型的慢病预测系统，其特征在于，所述慢性病预测模型的训练过程如下：

获取慢性病检查相关的体检数据作为样本数据，经过预处理之后，标注标签，标注后的样本数据通过5折交叉验证方法分成训练集和验证集；

设计针对体检数据中结构化数据的数据编码方法，得到慢病预测模型的输入数据；所述数据编码方法包括内容编码策略和空间编码策略，其中，内容编码策略用于实现数据的数值类型统一，空间编码策略用于实现输入模型的数据格式统一；

搭建基于多任务学习的慢病预测模型，使用深度学习方法对编码的结构化数据进行特征提取和分类，同时输出多种慢病的预测结果；

使用训练集对所述慢病预测模型进行训练，根据模型的预测结果与标签的重合度对模型的参数进行调整，直至模型收敛。
根据权利要求3所述的基于多任务学习模型的慢病预测系统，其特征在于，所述的预处理包括：对于体检数据中的各项指标进行相关性分析、缺失值统计，从体检记录角度剔除单条记录缺失值超过一定比例的数据，从数据指标角度剔除所有记录中缺失值超过一定比例的数据指标，对体检记录中的缺失数据，根据年龄分组并进行缺失值填充。
根据权利要求3所述的基于多任务学习模型的慢病预测系统，其特征在于，所述的5折交叉验证方法具体过程如下：

不重复抽样将样本数据随机分为5份，每份数据样本数量相等或相接近；每一次挑选其中1份作为测试集，剩余4份作为训练集用于模型训练，重复5次，制作5组不同的训练集和验证集组。
根据权利要求3所述的基于多任务学习模型的慢病预测系统，其特征在于，所述的内容编码策略采取如下两种具体操作：

使用标签编码方式将体检记录中的文本信息编码成数值信息；

使用One-hot编码方式将体检记录中的文本信息编码成数值信息，作为输入。
根据权利要求3所述的基于多任务学习模型的慢病预测系统，其特征在于，所述的空间编码策略具体操作过程如下：

内容编码之后的体检记录是一维向量，对一维向量中的所有变量进行两两之间相关性分析；根据某个变量和其他所有变量之间的相关性之和进行降序排序；降序排列之后的所有变量依次排列，形成二维向量，作为网络的输入数据。
根据权利要求3所述的基于多任务学习模型的慢病预测系统，其特征在于，使用训练集对所述慢病预测模型进行训练的具体过程如下：

输入一组训练集，分别经过潜在相关性的共享层特征提取、针对单种慢性病的特征提取，输出预测结果；

将输出的预测结果与数据所对应的标签进行对比，运用ACC函数作为当前模型的损失，并回传到模型中，对所述模型中的参数进行更新；

当达到设定的ACC阈值或者达到指定迭代次数时，所述模型停止更新，输出结果；

使用上述方法依次输入剩余的训练集进行训练，直至模型收敛。
根据权利要求8所述的基于多任务学习模型的慢病预测系统，其特征在于，训练过程还包括：在每组的训练集训练结束后，将该组的验证集输入模型，得到对应的分类结果；将所有验证集得到的损失值求平均值，作为模型的性能评估，用于寻找最优参数。