WO2018103538A1

WO2018103538A1 - 一种分析高维医疗数据的深度学习方法和装置

Info

Publication number: WO2018103538A1
Application number: PCT/CN2017/112606
Authority: WO
Inventors: 张荣国; 陈宽
Original assignee: 北京推想科技有限公司
Priority date: 2016-12-08
Filing date: 2017-11-23
Publication date: 2018-06-14
Also published as: CN108198625B; CN108198625A

Abstract

本申请公开了一种分析高维医疗数据的深度学习方法和装置。所述方法包括：读取高维医疗数据，通过分析数据属性，将高维医疗数据预处理为特征提取模型能够接收的数据格式；根据不同的预处理的方式，来选择不同的特征提取模型，将预处理后的数据输入选择的特征提取模型进行特征提取，得到相应的特征向量；将相应的特征向量输入至循环神经网络模型进行训练，得到用于医疗数据分析的最终深度学习模型。该方法能够提高基于深度学习模型进行高维医疗数据分析的准确率。本发明还包括一种分析高维医疗数据的深度学习装置，其包括：预处理模块、特征提取模块和模型训练模块。

Description

一种分析高维医疗数据的深度学习方法和装置

技术领域

本发明涉及医疗人工智能与大数据处理领域，特别涉及分析高维医疗数据的方法和装置。

背景技术

近年来人工智能技术蓬勃发展，随着以深度学习框架为内核的新人工智能技术强势崛起，在各个领域都获得了长足的发展与推进，AlphaGo、无人驾驶车、语音识别等人们期盼多年的技术也都在很短的时间内获得了突破。在可见的未来当中，深度学习也将推动医疗行业的大数据分析与人工智能应用的发展，深度学习方法在改变医疗健康方面有很大的潜力。深度学习方法是通过构建深层网络结构进行多层次特征学习的人工智能方法，已经广泛而有效地用于图像识别、语音识别等领域。随着深度学习方法在大规模图片分类(ImageNet)上取得突破性进展，深度学习在各个方面都受到了极大的关注，在图像识别与语音识别领域都取得了很大的成功。

具体到医疗行业，医疗领域维度本来就比一般应用场景要多，每一个病人的诊疗数据纷繁复杂，深度学习和数据分析模型也比一般的要庞大和复杂，训练成本非常高，传统方法对深度学习和大数据、机器学习模型进行学习和训练将耗费大量的人力与物力，大大降低该应用的经济可行性。高维医疗影像涉及到CT、PET、SPECT、MRI、fMRI等多维数据，即使对单个病人来说，数据量就非常大，医生对处理这样的影像数据费时费力，因此基于深度学习的分析方法可以大大减少医生的工作量，辅助医生更有效地完成病人的诊断。

发明内容

为克服现有技术的不足，本发明提供了一种分析高维医疗数据的深度学习方法和装置，其可以有效解决高维医疗数据的分析处理问题，以提升深度学习在处理医疗数据领域的实用效果。

本发明的一种分析高维医疗数据的深度学习方法，其包括如下步骤：

S1：读取高维医疗数据，通过分析数据属性，将高维医疗数据预处理为特征提取模型能够接收的数据格式；

S2：根据不同的预处理的方式，来选择不同的特征提取模型，将预处理后的数据通过选择的特征提取模型进行特征提取，得到相应的特征向量；

S3：对相应的特征向量进行训练，得到用于医疗数据分析的最终深度学习模型；

在步骤S1中，将高维数据进行预处理的方式包括：定长间隔抽取方式、定长重叠抽取方式以及变长序列加工方式。

优选地，所述定长间隔抽取方式包括：将不同长度的数据，按一定的间隔选取数据，最终组成一定长度的数据格式，以备后续的特征提取模型所用。

优选地，所述定长重叠抽取方式包括：对于不同长度的数据，从数据的一端开始抽取一定数量的帧数作为第一组数据，然后抽取相同数量的帧数作为第二组数据，两组数据有部分重叠，最终组成一定长度的数据格式，以备后续的特征提取模型所用。

优选地，所述变长序列处理方式包括：对于不同长度的数据，将数据都加入到事先确定的一定长度的数据格式里面，如果数据本身长度小于该定长，后面数据补0进行对齐，以备后续的特征提取模型所用。

优选地，在步骤S2中，对于定长间隔抽取方式和变长序列处理方式处理得到的数据格式，选择2d的卷积神经网络或者2d的循环神经网络，对于定长重叠抽取方式处理得到的数据格式选择3d的卷积神经网络或者3d的循环神经网络。

本发明还涉及一种分析高维医疗数据的深度学习装置，其包括：数据预处理模块，其读取高维医疗数据，通过分析数据属性，将高维医疗数据预处理为特征提取模型能够接收的数据格式；特征提取模块，其接收预处理后的数据并进行特征提取，得到相应的特征向量，其中，特征提取模型根据不同的预处理的方式来选择；模型训练模块，其接收相应的特征向量并进行训练，得到用于医疗数据分析的最终深度学习模型；高维数据进行预处理的方式包括：定长间隔抽取方式、定长重叠抽取方式以及变长序列加工方式。

优选地，对于定长间隔抽取方式和变长序列处理方式处理得到的数据格式，选择2d的卷积神经网络或者2d的循环神经网络作为特征提取模块，对于定长重叠抽取方式处理得到的数据格式选择3d的卷积神经网络或者3d的循环神经网络作为特征提取模块。

本发明提供的技术方案带来的有益效果体现在：可以提高基于深度学习模型进行高维医疗数据分析的准确率，从而用于医疗影像的分析，使得在医学影像智能诊断方面具有很好的应用价值。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的分析高维医疗数据的深度学习方法的示意图；

图2是根据本发明实施例的分析高维医疗数据的深度学习方法的流程图；

图3是根据本发明实施例的分析高维医疗数据的深度学习装置的框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施方式做进一步地详细描述。

本发明提供了一种分析高维医疗数据的深度学习方法，如图1所示，其为根据本发明实施例的分析高维医疗数据的深度学习方法的示意图。

首先读取高维医疗数据，通过分析数据属性而将高维数据预处理为特征提取模型能够接收的数据格式；特征提取模型对预处理后的数据进行特征提取，从而得到特征向量；用特征向量来训练得到最终的深度学习模型，从而用于医疗数据的分析。

如图2所示，本发明的一种分析高维医疗数据的深度学习方法包括如下步骤：

S1：读取高维医疗数据，通过分析数据属性，将高维医疗数据预处理为特征提取模型能够接收的数据格式。

S2：根据不同的预处理的方式，来选择不同的特征提取模型，将预处理后的数据输入选择的特征提取模型进行特征提取，得到相应的特征向量。

S3：将相应的特征向量输入至循环神经网络模型进行训练，得到用于医疗数据分析的最终深度学习模型。

所述定长间隔抽取方式包括：将不同长度的数据，如不同层数的CT切片数据，取中间层为基准，按一定的间隔向两侧分别选取切片数据，最终组成特定长度(例如100个切片层)的数据格式(100，1，512，512)，以备后续的特征提取所用。

所述定长重叠抽取方式包括：对于不同长度的数据，从数据的一端开始抽取一定数量的帧数作为第一组数据，然后抽取相同数量的帧数作为第二组数据，两组数据有一定量的重叠，最终组成特定长度的数据格式(100，50，512，512)，以备后续的特征提取所用。

所述变长序列加工方式包括：对于不同长度的数据，将数据所有切片层都加入到事先确定的一定长度的数据格式里面，如果数据本身长度小于该定长，后面数据补0进行对齐。最终的数据格式为(500，1，512，512)，以备后续的特征提取所用。

根据不同的数据格式选择特征提取模型，进行特征提取得到相应的特征向量，其中，对于定长间隔抽取方式处理得到的数据格式如(100，1，512，512)，对于变长序列加工方式处理得到的数据格式如(500，1，512，512)，选择2d的卷积神经网络(CNN)或者2d的循环(递归)神经网络(RNN)等进行特征提取得到特征向量，其格式如(100，4096)或者(500，4096)。对于定长重叠抽取方式整理得到的数据格式如(100，50，512，512)，选择3d的卷积神经网络或者3d的循环(递归)神经网络进行特征抽取得到特征向量，其格式如(100，4096)。

如图2所示，本发明还涉及一种分析高维医疗数据的深度学习装置，所述装置包括：

数据预处理模块，其读取高维医疗数据，通过分析数据属性，将高维医疗数据预处理为特征提取模型能够接收的数据格式。

特征提取模块，其根据不同的预处理的方式，来选择不同的特征提取模型，将预处理后的数据输入选择的特征提取模型进行特征提取，得到相应的特征向量。

模型训练模块，其将相应的特征向量输入至循环神经网络模型进行训练，得到用于医疗数据分析的最终深度学习模型。

在数据预处理模块中，所述预处理的方式包括：定长间隔抽取方式、定长重叠抽取方式以及变长序列加工方式。

在特征提取模块中，根据不同的预处理的方式，而选择不同的特征提取模型进行特征提取。

下面以示例来进行说明。

第一实施例：利用本发明提出的深度学习装置来对肺部CT图像的高维医疗数据进行深度学习。

预处理模块：其读取肺部CT图像的高维医疗数据信息，由于肺部CT扫描间距不同，因此每隔CT所有的切片数目也有所不同。对于(300，1，512，512)的CT，切片大小是512×512，切片数目为300，如果要抽取其中的100帧做分析，采用定长间隔抽取方式进行处理：每3帧抽取1帧用来分析，即固定间隔为2帧，这样得到待提取特征的100帧图像数据；

特征提取模块：对于定长间隔抽取方式，选择2d的特征提取模型，将预处理得到的(100，1，512，512)输入2d的特征提取模型，得到(100，4096)格式的特征向量；

模型训练模块：将训练集数目为N的特征向量(N，100，4096)输入到循环神经网络中进行训练得到最终的深度学习模型。

第二实施例：利用本发明提出的深度学习装置来对头部MRI图像的高维医疗数据进行深度学习。

数据加工模块：其读取头部MRI图像的高维医疗数据信息；由于扫描层间距的不同，每例MRI的切片数目也有所不同，例如对于(416，1，512，512)的MRI，切片大小是512*512，切片数目为416，采用定长重叠抽取方式进行处理：从数据一端开始抽取20帧作为第一组数据，移动步长4，取20帧作为第二组数据，即每组数据重叠16帧，这样处理得到(416-20)/4+1＝100组待提取特征的数据；

特征提取模块：对于定长重叠抽取方式处理的数据，选择3d的特征提取模型，将预处理得到的(100，20，512，512)输入3d的特征提取模型，得到(100，4096)格式的特征向量；

模型训练模块：将训练集数目为N的特征向量(N，100，4096)输入到循环神经网络中进行训练得到最终深度学习模型。

第三实施例：利用本发明提出的深度学习装置来对肺部CT图像的高维医疗数据进行深度学习。

数据加工模块：其读取肺部CT图像的高维医疗数据信息，由于肺部CT扫描间距不同，因此每隔CT所有的切片数目也有所不同。对于(300，1，512，512)、(416，1，512，512)、(200，1，512，512)等不同长度的CT，切片大小是512×512，切片数目各不相同，用变长序列处理方式进行处理：将500作为不同长度CT数据处理的长度，不足500帧的进行补0对齐，最后将上述不同长度的CT处理得到(500，1，512，512)格式的待提取特征的数据；

特征提取模块：对于变长序列处理方式处理的数据，选择2d的特征提取模型，将预处理得到的(500，1，512，512)输入2d的特征提取模型中，得到(500，4096)格式的特征向量；

模型训练模块：将训练集数目为N的特征向量(N，500，4096)输入到循环神经网络中进行训练得到最终深度学习模型。

以上详细描述了本发明的具体实施例，但可以理解，在不脱离本发明的精神下可以对其做出修改。本发明的权利要求旨在覆盖这些修改，以保证其落入本发明的真实范围和精神内。

Claims

一种分析高维医疗数据的深度学习方法，其特征在于包括如下步骤：

S1：读取高维医疗数据，通过分析数据属性，将高维医疗数据预处理为特征提取模型能够接收的数据格式；

S2：根据不同的预处理的方式，来选择不同的特征提取模型，将预处理后的数据通过选择的特征提取模型进行特征提取，得到相应的特征向量；

S3：对相应的特征向量进行训练，得到用于医疗数据分析的最终深度学习模型；

在步骤S1中，将高维数据进行预处理的方式包括：定长间隔抽取方式、定长重叠抽取方式以及变长序列加工方式。
根据权利要求1所述的分析高维医疗数据的深度学习方法，其特征在于，所述定长间隔抽取方式包括：

将不同长度的数据，按一定的间隔选取数据，最终组成一定长度的数据格式，以备后续的特征提取模型所用。
根据权利要求1所述的分析高维医疗数据的深度学习方法，其特征在于，所述定长重叠抽取方式包括：

对于不同长度的数据，从数据的一端开始抽取一定数量的帧数作为第一组数据，然后抽取相同数量的帧数作为第二组数据，两组数据有部分重叠，最终组成一定长度的数据格式，以备后续的特征提取模型所用。
根据权利要求1所述的分析高维医疗数据的深度学习方法，其特征在于，所述变长序列处理方式包括：

对于不同长度的数据，将数据都加入到事先确定的一定长度的数据格式里面，如果数据本身长度小于该定长，后面数据补0进行对齐，以备后续的特征提取模型所用。
根据权利要求1所述的分析高维医疗数据的深度学习方法，其特征在于，在步骤S2中，对于定长间隔抽取方式和变长序列处理方式处理得到的数据格式，选择2d的卷积神经网络或者2d的循环神经网络，对于定长重叠抽取方式处理得到的数据格式选择3d的卷积神经网络或者3d的循环神经网络。
一种分析高维医疗数据的深度学习装置，其特征在于包括：

数据预处理模块，其读取高维医疗数据，通过分析数据属性，将高维医疗数据预处理为特征提取模型能够接收的数据格式；

特征提取模块，其接收预处理后的数据并进行特征提取，得到相应的特征向量，其中，特征提取模型根据不同的预处理的方式来选择；

模型训练模块，其接收相应的特征向量并进行训练，得到用于医疗数据分析的最终深度学习模型；

将高维数据进行预处理的方式包括：定长间隔抽取方式、定长重叠抽取方式以及变长序列加工方式。
根据权利要求6所述的分析高维医疗数据的深度学习装置，其中，对于定长间隔抽取方式和变长序列处理方式处理得到的数据格式，选择2d的卷积神经网络或者2d的循环神经网络作为特征提取模块，对于定长重叠抽取方式处理得到的数据格式选择3d的卷积神经网络或者3d的循环神经网络作为特征提取模块。