WO2018149300A1

WO2018149300A1 - 疾病概率的检测方法、装置、设备及计算机可读存储介质

Info

Publication number: WO2018149300A1
Application number: PCT/CN2018/074808
Authority: WO
Inventors: 李菲菲; 徐亮; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2017-02-20
Filing date: 2018-01-31
Publication date: 2018-08-23
Also published as: SG11201810380VA; CN107622801A; US20200126662A1; JP2019521418A

Abstract

一种疾病概率的检测方法、装置、设备和计算机可读存储介质。其中，所述方法包括：采集用户关联的各个数据，并对采集的各个数据进行特征处理（S10）；根据特征处理后的各个数据构造多维度数据集（S20）；对所述多维度数据集进行随机抽样，以划分出测试集和训练集（S30）；基于所述训练集搭建模型，得到回归决策树（S40）；根据所述测试集对所述回归决策树进行测试，以计算用户的疾病概率（S50）。通过采集的数据搭建模型，最终根据搭建的所述模型计算用户的疾病概率，对疾病概率的检测效率较高，而且疾病概率检测的成本也较低。

Description

疾病概率的检测方法、装置、设备及计算机可读存储介质

本申请要求于2017年02月20日提交中国专利局、申请号为201710095020.5、发明名称为“疾病概率的检测方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及疾病信息处理领域，尤其涉及一种疾病概率的检测方法、装置、设备及计算机可读存储介质。

背景技术

传统的疾病概率检测，如癌症患病率的检测，是基于生物学、基因组学、以及体检化验结果等复杂方式实现的。这种方法需要精准的数据源，并且在获取到数据源之后，还需要花费较长的时间进行分析处理，以得到检测结果，再加上数据源获得途径较复杂，对疾病检所花费的成本也较高。因此，现有的疾病概率检测方式，既无法快速对疾病概率进行检测，而且疾病概率检测的成本也较高。

发明内容

本申请的主要目的在于提供一种疾病概率的检测方法、装置、设备及计算机可读存储介质，旨在解决现有技术对疾病概率的检测，不仅检测的时间较长，而且花费成本也较高的技术问题。

为实现上述目的，本申请提供一种疾病概率的检测方法，所述疾病概率的检测方法包括：

采集用户关联的各个数据，并对采集的各个数据进行特征处理；

根据特征处理后的各个数据构造多维度数据集；

对所述多维度数据集进行随机抽样，以划分出测试集和训练集；

基于所述训练集搭建模型，得到回归决策树；

根据所述测试集对所述回归决策树进行测试，以计算用户的疾病概率。

此外，为实现上述目的，本申请还提供一种疾病概率的检测装置，所述疾病概率的检测装置包括：

处理模块，用于采集用户关联的各个数据，并对采集的各个数据进行特征处理；

构造模块，用于根据特征处理后的各个数据构造多维度数据集；

划分模块，用于对所述多维度数据集进行随机抽样，以划分出测试集和训练集；

搭建模块，用于基于所述训练集搭建模型，得到回归决策树；

计算模块，用于根据所述测试集对所述回归决策树进行测试，以计算用户的疾病概率。

此外，为实现上述目的，本申请还提供一种疾病概率的检测设备，所述疾病概率的检测设备包括处理器、以及存储有疾病概率的检测程序的存储器；所述处理器用于执行所述疾病概率的检测程序，以实现上文所述的疾病概率的检测方法的步骤。

此外，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有疾病概率的检测程序，所述疾病概率的检测程序被处理器执行，以实现上文所述的疾病概率的检测方法的步骤。

本申请提出的疾病概率的检测方法和装置，先采集用户关联的各个数据，然后对采集的各个数据进行特征处理，再根据特征处理后的各个数据构造多维度数据集，并对所述多维度数据集进行随机抽样，以划分出测试集和训练集，基于所述训练集搭建模型，得到回归决策树，最终根据所述测试集对所述回归决策树进行测试，以计算用户的疾病概率。本方案通过采集的数据搭建模型，最终根据搭建的所述模型计算用户的疾病概率，无需通过体检化验的方式检测疾病概率，对疾病概率的检测效率较高，而且疾病概率检测的成本也较低。

附图说明

图1为本申请疾病概率的检测方法第一实施例的流程示意图；

图2为图1中步骤S10的细化流程示意图；

图3为图1中步骤S20的细化流程示意图；

图4为图1中步骤S50的细化流程示意图；

图5为本申请疾病概率的检测装置第一实施例的功能模块示意图；

图6为图5中处理模块10的细化功能模块示意图；

图7为图5中构造模块20的细化功能模块示意图；

图8为图5中计算模块50的细化功能模块示意图；

图9是本申请实施例方案涉及的硬件运行环境的设备结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例的解决方案主要是：先采集用户关联的各个数据，然后对采集的各个数据进行特征处理，再根据特征处理后的各个数据构造多维度数据集，并对所述多维度数据集进行随机抽样，以划分出测试集和训练集，基于所述训练集搭建模型，得到回归决策树，最终根据所述测试集对所述回归决策树进行测试，以计算用户的疾病概率。解决了现有的疾病概率，需要通过体检、化验的方式进行检测，无法快速对疾病概率进行检测，而且疾病概率检测的成本较高的问题。

应当理解，传统意义上的疾病检测，数据源获得途径较复杂，无法实现快速针对每个普通用户的疾病概率检测，并且该传统方法在保险行业实现也较为困难。

基于现有技术存在的问题，本申请提供一种疾病概率的检测方法。

参照图1，图1为本申请疾病概率的检测方法第一实施例的流程示意图。

在本实施例中，所述疾病概率的检测方法包括：

采集用户关联的各个数据，并对采集的各个数据进行特征处理；根据特征处理后的各个数据构造多维度数据集；对所述多维度数据集进行随机抽样，以划分出测试集和训练集；基于所述训练集搭建模型，得到回归决策树；根据所述测试集对所述回归决策树进行测试，以计算用户的疾病概率。

以下是本实施例中逐步实现疾病概率检测的具体步骤：

步骤S10，采集用户关联的各个数据，并对采集的各个数据进行特征处理；

在本实施例中，所述疾病概率的检测方法优选应用于保险系统中，可以理解，用户在进行投保之前，会将体检的相关的健康信息，或者是自身的一些行为信息等数据上报至保险系统中，由保险系统进行综合分析，以检测出用户的疾病概率，后续再确定是否要进行投保。因此，在数据库中采集用户关联的各个数据，实际上就是在保险系统对应的数据库中采集用户关联的各个数据，本实施例中，所述数据包括行为信息和健康信息，行为信息和健康信息表示不同维度的信息。

在采集到用户关联的各个数据之后，对采集的各个数据进行特征处理。具体地，参照图2，所述步骤S10包括：

步骤S11，对采集的各个数据进行特征分析，以确定各个数据的特征类型；

步骤S12，在数据为缺失值数据时，对缺失值数据进行均值插补处理或多重插补处理；

步骤S13，在数据为异常值数据时，对异常值数据进行筛选，以筛选出异常值小于预设阈值的数据，并将筛选出的数据作为缺失值数据进行处理。

即，在采集到用户关联的各个数据之后，先对采集的各个数据进行特征分析，以确定各个数据的特征类型，本实施例中，数据的特征类型包括异常值和缺失值等特征类型。在确定各个数据的特征类型之后，若发现数据为缺失值数据，则对缺失值数据进行均值插补处理或多重插补处理，具体采用哪种插补处理方式，根据实际情况进行限定。

在本实施例中，所述均值插补处理包括两种方式：1）一种是采用平均值进行插补处理；2）另一种是采用众数进行插补处理。具体地：先将数据的属性分为定距型和非定距型，如果缺失值是定距型的，就以该属性存在值的平均值来插补缺失的值；如果缺失值是非定距型的，就根据统计学中的众数原理，用该属性的众数（即出现频率最高的值）来补齐缺失的值。

所述多重插补处理（Multiple Imputation，MI），认为待插补的值是随机的，它的值来自于已观测到的值。具体实践上通常是估计出待插补的值，然后再加上不同的噪声，形成多组可选插补值。多重插补处理方法分为三个步骤：①为每个空值产生一套可能的插补值，这些值反映了无响应模型的不确定性；每个值都可以被用来插补数据集中的缺失值，产生若干个完整数据集合。②每个插补数据集合都用针对完整数据集的统计方法进行统计分析。③对来自各个插补数据集的结果，根据评分函数进行选择，产生最终的插补值。

例如，当前一有组数据，包括三个变量Y1，Y2，Y3，它们的联合分布为正态分布，将这组数据处理成三组，A组保持原始数据，B组仅缺失Y3，C组缺失Y1和Y2。在进行多值插补时，对A组将不进行任何处理，对B组产生Y3的一组估计值（作Y3关于Y1，Y2的回归），对C组作产生Y1和Y2的一组成对估计值（作Y1，Y2关于Y3的回归）。当用多值插补时，对A组将不进行处理，对B、C组将完整的样本随机抽取形成为m组（m为可选择的m组插补值），每组个案数只要能够有效估计参数就可以了。对存在缺失值的属性的分布作出估计，然后基于这m组观测值，对于这m组样本分别产生关于参数的m组估计值，给出相应的预测即，这时采用的估计方法为极大似然法，在计算机中具体的实现算法为期望最大化法（EM）。对B组估计出一组Y3的值，对C将利用 Y1，Y，Y3它们的联合分布为正态分布这一前提，估计出一组(Y1，Y2）。

通过上述方式，即可实现对缺失值数据进行均值插补处理或多重插补处理。

当然，若发现数据为异常值数据时，则对异常值数据进行筛选，以筛选出异常值小于预设阈值的数据，其中，所述预设阈值根据具体情况进行限定。在筛选出异常值小于预设阈值的数据之后，即可将筛选出的数据作为缺失值数据进行处理，所述缺失值数据的处理方式上文在已经详述，此处不再进行赘述。

应当理解的是，本实施例中，对数据进行插补处理，相当于是对有缺失值的数据进行内容的填补，之所以要进行内容的填补，是因为从数据库中采集的数据可以有些信息没有填补完全，若是后续进行疾病概率的计算，可能不够准确，因此本实施例中，对有缺失值的数据进行填补，可以提高数据的饱和度，可以保证后续进行疾病概率计算时，准确性更高。而对异常值进行筛选，是将异常情况较为严重的数据进行剔除，以防止对疾病概率检测结果造成影响。

步骤S20，根据特征处理后的各个数据构造多维度数据集；

在对采集的各个数据进行特征处理之后，再根据特征处理后的各个数据构造多维度数据集。可以理解，上述内容已经公开了对有缺失值的数据进行填补，但是填补后的数据，可能饱和度还是没有达到要求，若是采用这些数据进行后续的计算，可能仍然会导致疾病概率的准确性降低。因此，在本实施例中，为了提高疾病概率计算的准确性，参照图3，所述步骤S20包括：

步骤S21，确定特征处理后的各个数据对应的特征饱和度；

步骤S22，根据特征饱和度对各个数据进行筛选，以筛选出特征饱和度达到预设饱和度的各个数据；

步骤S23，根据筛选出的各个数据构造多维度数据集。

即，对采集的各个数据进行特征处理之后，先确定特征处理后的各个数据对应的特征饱和度，然后再根据特征饱和度对各个数据进行筛选，以筛选出特征饱和度达到预设饱和度的各个数据，最终根据筛选出的各个数据构造多维度数据集。相当于是对采集的数据进行清洗，以筛选出符合要求的数据，以便保证后续计算的疾病概率较为准确。

步骤S30，对所述多维度数据集进行随机抽样，以划分出测试集和训练集；

即，在构造多维度数据集之后，对所述多维度数据集进行随机抽样，以将所述多维度数据划分为测试集和训练集。本实施例中，所述测试集和训练集划分的数量不做限定，根据具体情况进行设置，但是要保证训练集的数量高于测试集的数量，例如，将训练集划分为70%，将测试集划分为30%。

步骤S40，基于所述训练集搭建模型，得到回归决策树；

再基于训练集搭建模型，得到回归决策树，本实施例中，根据训练集搭建模型的方式与现有的数据集搭建模型的方式一致，此处不做赘述。

步骤S50，根据所述测试集对所述回归决策树进行测试，以计算用户的疾病概率。

在得到回归决策树之后，根据所述测试集对所述回归决策树进行测试，以计算用户的疾病概率。其中，参照图4，所述步骤S50包括：

步骤S51，将所述测试集的数据输入到所述回归决策树中，以根据所述回归决策树中树的数量得到对应数量的各个数值；

步骤S52，将各个数值与所述回归决策树中各个树的权重值进行加权平均，得到所述回归决策树的总值；

步骤S53，将所述总值作为用户的疾病概率。

也就是说，根据所述测试集对所述回归决策树进行测试，以计算用户的疾病概率，实质上是将所述测试集的数据输入到所述回归决策树中，再根据所述回归决策树中树的数量得到对应数量的各个数值，例如，当前所述回归决策树中树的数量在3000-5000，那么得到的数值的数量也是树的数目在3000-5000，由于所述回归决策树中各个树的权重值是预先设定的，那么在根据所述回归决策树中树的数量得到对应数量的各个数值之后，将各个数值与所述回归决策树中各个树的权重值进行加权平均，即可得到所述回归决策树的总值。例如，所述回归决策树中有4个树，权重分别为0.3、0.15、0.2、0.35，而根据所述回归决策树中树的数量得到的各个数值分别为A、B、C、D，那么最终得到的总值Q=0.3*A+0.15*B+0.2*C+0.35*D。该总值就是用户的疾病概率。

本实施例，相当于是对患病情况未知的用户，通过回归决策树模型，输出模型的预测结果，以得到用户的患病概率。

本实施例提出的疾病概率的检测方法，先采集用户关联的各个数据，然后对采集的各个数据进行特征处理，再根据特征处理后的各个数据构造多维度数据集，并对所述多维度数据集进行随机抽样，以划分出测试集和训练集，基于所述训练集搭建模型，得到回归决策树，最终根据所述测试集对所述回归决策树进行测试，以计算用户的疾病概率。本方案通过采集的数据搭建模型，最终根据搭建的所述模型计算用户的疾病概率，无需通过体检化验的方式检测疾病概率，对疾病概率的检测效率较高，而且疾病概率检测的成本也较低。

需要说明的是，本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

本申请进一步提供一种疾病概率的检测装置。

参照图5，图5为本申请疾病概率的检测装置100第一实施例的功能模块示意图。

需要强调的是，对本领域的技术人员来说，图5所示功能模块图仅仅是一个较佳实施例的示例图，本领域的技术人员围绕图5所示的疾病概率的检测装置100的功能模块，可轻易进行新的功能模块的补充；各功能模块的名称是自定义名称，仅用于辅助理解该疾病概率的检测装置100的各个程序功能块，不用于限定本申请的技术方案，本申请技术方案的核心是，各自定义名称的功能模块所要达成的功能。

在本实施例中，所述疾病概率的检测装置100包括：

处理模块10，用于采集用户关联的各个数据，并对采集的各个数据进行特征处理；

构造模块20，用于根据特征处理后的各个数据构造多维度数据集；

划分模块30，用于对所述多维度数据集进行随机抽样，以划分出测试集和训练集；

搭建模块40，用于基于所述训练集搭建模型，得到回归决策树；

计算模块50，用于根据所述测试集对所述回归决策树进行测试，以计算用户的疾病概率。

在本实施例中，所述疾病概率的检测装置优选应用于保险系统中，可以理解，用户在进行投保之前，会将体检的相关的健康信息，或者是自身的一些行为信息等数据上报至保险系统中，由保险系统进行综合分析，以检测出用户的疾病概率，后续再确定是否要进行投保。因此，处理模块10在数据库中采集用户关联的各个数据，实际上就是在保险系统对应的数据库中采集用户关联的各个数据，本实施例中，所述数据包括行为信息和健康信息，行为信息和健康信息表示不同维度的信息。

在采集到用户关联的各个数据之后，处理模块10对采集的各个数据进行特征处理。具体地，参照图6，所述处理模块10包括：

特征分析单元11，用于对采集的各个数据进行特征分析，以确定各个数据的特征类型；

插补处理单元12，用于在数据为缺失值数据时，对缺失值数据进行均值插补处理或多重插补处理；

筛选处理单元13，用于在数据为异常值数据时，对异常值数据进行筛选，以筛选出异常值小于预设阈值的数据，并将筛选出的数据作为缺失值数据进行处理。

即，在采集到用户关联的各个数据之后，特征分析单元11先对采集的各个数据进行特征分析，以确定各个数据的特征类型，本实施例中，数据的特征类型包括异常值和缺失值等特征类型。在确定各个数据的特征类型之后，若发现数据为缺失值数据，则插补处理单元12对缺失值数据进行均值插补处理或多重插补处理，具体采用哪种插补处理方式，根据实际情况进行限定。

当然，若发现数据为异常值数据时，则筛选处理单元13对异常值数据进行筛选，以筛选出异常值小于预设阈值的数据，其中，所述预设阈值根据具体情况进行限定。在筛选出异常值小于预设阈值的数据之后，即可将筛选出的数据作为缺失值数据进行处理，所述缺失值数据的处理方式上文在已经详述，此处不再进行赘述。

在所述处理模块10对采集的各个数据进行特征处理之后，构造模块20再根据特征处理后的各个数据构造多维度数据集。可以理解，上述内容已经公开了对有缺失值的数据进行填补，但是填补后的数据，可能饱和度还是没有达到要求，若是采用这些数据进行后续的计算，可能仍然会导致疾病概率的准确性降低。因此，在本实施例中，为了提高疾病概率计算的准确性，参照图7，所述构造模块20包括：

确定单元21，用于确定特征处理后的各个数据对应的特征饱和度；

筛选单元22，用于根据特征饱和度对各个数据进行筛选，以筛选出特征饱和度达到预设饱和度的各个数据；

构造单元23，用于根据筛选出的各个数据构造多维度数据集。

即，所述处理模块10对采集的各个数据进行特征处理之后，确定单元21先确定特征处理后的各个数据对应的特征饱和度，然后筛选单元22再根据特征饱和度对各个数据进行筛选，以筛选出特征饱和度达到预设饱和度的各个数据，最终构造单元23根据筛选出的各个数据构造多维度数据集。相当于是对采集的数据进行清洗，以筛选出符合要求的数据，以便保证后续计算的疾病概率较为准确。

在本实施例中，在所述构造模块20构造多维度数据集之后，划分模块30对所述多维度数据集进行随机抽样，以将所述多维度数据划分为测试集和训练集。本实施例中，所述测试集和训练集划分的数量不做限定，根据具体情况进行设置，但是要保证训练集的数量高于测试集的数量，例如，将训练集划分为70%，将测试集划分为30%。

搭建模块40再基于训练集搭建模型，得到回归决策树，本实施例中，根据训练集搭建模型的方式与现有的数据集搭建模型的方式一致，此处不做赘述。

在得到回归决策树之后，计算模块50根据所述测试集对所述回归决策树进行测试，以计算用户的疾病概率。其中，参照图8，所述计算模块50包括：

输入单元51，用于将所述测试集的数据输入到所述回归决策树中，以根据所述回归决策树中树的数量得到对应数量的各个数值；

计算单元52，用于将各个数值与所述回归决策树中各个树的权重值进行加权平均，得到所述回归决策树的总值；

处理单元53，用于将所述总值作为用户的疾病概率。

也就是说，所述计算模块50根据所述测试集对所述回归决策树进行测试，以计算用户的疾病概率，实质上是输入单元51将所述测试集的数据输入到所述回归决策树中，再根据所述回归决策树中树的数量得到对应数量的各个数值，例如，当前所述回归决策树中树的数量在3000-5000，那么得到的数值的数量也是树的数目在3000-5000，由于所述回归决策树中各个树的权重值是预先设定的，那么在根据所述回归决策树中树的数量得到对应数量的各个数值之后，计算单元52将各个数值与所述回归决策树中各个树的权重值进行加权平均，即可得到所述回归决策树的总值。例如，所述回归决策树中有4个树，权重分别为0.3、0.15、0.2、0.35，而根据所述回归决策树中树的数量得到的各个数值分别为A、 B、C、D，那么最终得到的总值Q=0.3*A+0.15*B+0.2*C+0.35*D，该总值就是用户的疾病概率。

本实施例提出的疾病概率的检测装置，先采集用户关联的各个数据，然后对采集的各个数据进行特征处理，再根据特征处理后的各个数据构造多维度数据集，并对所述多维度数据集进行随机抽样，以划分出测试集和训练集，基于所述训练集搭建模型，得到回归决策树，最终根据所述测试集对所述回归决策树进行测试，以计算用户的疾病概率。本方案通过采集的数据搭建模型，最终根据搭建的所述模型计算用户的疾病概率，无需通过体检化验的方式检测疾病概率，对疾病概率的检测效率较高，而且疾病概率检测的成本也较低。

需要说明的是，在硬件实现上，以上处理模块10、构造模块20、划分模块30、搭建模块40及计算模块50等可以以硬件形式内嵌于或独立于疾病概率的检测装置中，也可以以软件形式存储于疾病概率的检测装置的存储器中，以便于处理器调用执行以上各个模块对应的操作。该处理器可以为中央处理单元（CPU)、微处理器、单片机等。

参照图9，图9是本申请实施例方案涉及的硬件运行环境的设备结构示意图。

本申请实施例疾病概率的检测设备可以是PC，也可以是智能手机、平板电脑、便携计算机等终端设备。

如图9所示，该疾病概率的检测设备可以包括：处理器1001，例如CPU，网络接口1002，用户接口1003，存储器1004。这些组件之间的连接通信可以通过通信总线实现。网络接口1002可选的可以包括标准的有线接口（用于连接有线网络）、无线接口（如WI-FI接口、蓝牙接口、红外线接口等，用于连接无线网络）。用户接口1003可以包括显示屏（Display）、输入单元比如键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口（例如用于连接有线键盘、有线鼠标等）、无线接口（例如用于连接无线键盘、无线鼠标）。存储器1004可以是高速RAM存储器，也可以是稳定的存储器（non-volatile memory），例如磁盘存储器。存储器1004可选的还可以是独立于前述处理器1001的存储装置。

可选地，该疾病概率的检测设备还可以包括摄像头、RF（Radio Frequency，射频）电路，传感器、音频电路、WiFi模块等等。

本领域技术人员可以理解，图9中示出的疾病概率的检测设备结构并不构成对疾病概率的检测设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图9所示，作为一种计算机存储介质的存储器1004中可以包括操作系统、网络通信模块、用户接口模块以及疾病概率的检测程序。其中，操作系统是管理和控制疾病概率的检测设备硬件与软件资源的程序，支持网络通信模块、用户接口模块、疾病概率的检测程序以及其他程序或软件的运行；网络通信模块用于管理和控制网络接口1002；用户接口模块用于管理和控制用户接口1003。

在图9所示的疾病概率的检测设备中，而处理器1001可以用于执行存储器1004中存储的疾病概率的检测程序，以实现如上文所述的疾病概率的检测方法的各个步骤。

本申请提供了一种计算机可读存储介质，所述计算机可读存储介质存储有疾病概率的检测程序，所述疾病概率的检测程序被处理器执行，以实现如上文所述的疾病概率的检测方法的各个步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种疾病概率的检测方法，其特征在于，所述疾病概率的检测方法包括：

采集用户关联的各个数据，并对采集的各个数据进行特征处理；

根据特征处理后的各个数据构造多维度数据集；

对所述多维度数据集进行随机抽样，以划分出测试集和训练集；

基于所述训练集搭建模型，得到回归决策树；

根据所述测试集对所述回归决策树进行测试，以计算用户的疾病概率。
如权利要求1所述的疾病概率的检测方法，其特征在于，所述对采集的各个数据进行特征处理的步骤包括：

对采集的各个数据进行特征分析，以确定各个数据的特征类型；

在数据为缺失值数据时，对缺失值数据进行均值插补处理或多重插补处理；

在数据为异常值数据时，对异常值数据进行筛选，以筛选出异常值小于预设阈值的数据，并将筛选出的数据作为缺失值数据进行处理。
如权利要求2所述的疾病概率的检测方法，其特征在于，所述均值插补处理的方式包括：采用平均值进行插补处理，或采用众数进行插补处理。
如权利要求1所述的疾病概率的检测方法，其特征在于，所述根据特征处理后的各个数据构造多维度数据集的步骤包括：

确定特征处理后的各个数据对应的特征饱和度；

根据特征饱和度对各个数据进行筛选，以筛选出特征饱和度达到预设饱和度的各个数据；

根据筛选出的各个数据构造多维度数据集。
如权利要求1述的疾病概率的检测方法，其特征在于，所述根据所述测试集对所述回归决策树进行测试，以计算用户的疾病概率的步骤包括：

将所述测试集的数据输入到所述回归决策树中，以根据所述回归决策树中树的数量得到对应数量的各个数值；

将各个数值与所述回归决策树中各个树的权重值进行加权平均，得到所述回归决策树的总值；

将所述总值作为用户的疾病概率。
一种疾病概率的检测装置，其特征在于，所述疾病概率的检测装置包括：

处理模块，用于采集用户关联的各个数据，并对采集的各个数据进行特征处理；

构造模块，用于根据特征处理后的各个数据构造多维度数据集；

划分模块，用于对所述多维度数据集进行随机抽样，以划分出测试集和训练集；

搭建模块，用于基于所述训练集搭建模型，得到回归决策树；

计算模块，用于根据所述测试集对所述回归决策树进行测试，以计算用户的疾病概率。
如权利要求6所述的疾病概率的检测装置，其特征在于，所述处理模块包括：

特征分析单元，用于对采集的各个数据进行特征分析，以确定各个数据的特征类型；

插补处理单元，用于在数据为缺失值数据时，对缺失值数据进行均值插补处理或多重插补处理；

筛选处理单元，用于在数据为异常值数据时，对异常值数据进行筛选，以筛选出异常值小于预设阈值的数据，并将筛选出的数据作为缺失值数据进行处理。
如权利要求7所述的疾病概率的检测装置，其特征在于，所述均值插补处理的方式包括：采用平均值进行插补处理，或采用众数进行插补处理。
如权利要求6所述的疾病概率的检测装置，其特征在于，所述构造模块包括：

确定单元，用于确定特征处理后的各个数据对应的特征饱和度；

筛选单元，用于根据特征饱和度对各个数据进行筛选，以筛选出特征饱和度达到预设饱和度的各个数据；

构造单元，用于根据筛选出的各个数据构造多维度数据集。
如权利要求6所述的疾病概率的检测装置，其特征在于，所述计算模块包括：

输入单元，用于将所述测试集的数据输入到所述回归决策树中，以根据所述回归决策树中树的数量得到对应数量的各个数值；

计算单元，用于将各个数值与所述回归决策树中各个树的权重值进行加权平均，得到所述回归决策树的总值；

处理单元，用于将所述总值作为用户的疾病概率。
一种疾病概率的检测设备，其特征在于，所述疾病概率的检测设备包括处理器、以及存储有疾病概率的检测程序的存储器；所述处理器用于执行所述疾病概率的检测程序，以实现以下步骤：

采集用户关联的各个数据，并对采集的各个数据进行特征处理；

根据特征处理后的各个数据构造多维度数据集；

对所述多维度数据集进行随机抽样，以划分出测试集和训练集；

基于所述训练集搭建模型，得到回归决策树；

根据所述测试集对所述回归决策树进行测试，以计算用户的疾病概率。
如权利要求11所述的疾病概率的检测设备，其特征在于，所述处理器还用于执行所述疾病概率的检测程序，以实现对采集的各个数据进行特征处理的步骤：

对采集的各个数据进行特征分析，以确定各个数据的特征类型；

在数据为缺失值数据时，对缺失值数据进行均值插补处理或多重插补处理；

在数据为异常值数据时，对异常值数据进行筛选，以筛选出异常值小于预设阈值的数据，并将筛选出的数据作为缺失值数据进行处理。
如权利要求12所述的疾病概率的检测设备，其特征在于，所述均值插补处理的方式包括：采用平均值进行插补处理，或采用众数进行插补处理。
如权利要求11所述的疾病概率的检测设备，其特征在于，所述处理器还用于执行所述疾病概率的检测程序，以实现根据特征处理后的各个数据构造多维度数据集的步骤：

确定特征处理后的各个数据对应的特征饱和度；

根据特征饱和度对各个数据进行筛选，以筛选出特征饱和度达到预设饱和度的各个数据；

根据筛选出的各个数据构造多维度数据集。
如权利要求11所述的疾病概率的检测设备，其特征在于，所述处理器还用于执行所述疾病概率的检测程序，以实现根据所述测试集对所述回归决策树进行测试，以计算用户的疾病概率的步骤：

将所述测试集的数据输入到所述回归决策树中，以根据所述回归决策树中树的数量得到对应数量的各个数值；

将各个数值与所述回归决策树中各个树的权重值进行加权平均，得到所述回归决策树的总值；

将所述总值作为用户的疾病概率。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有疾病概率的检测程序，所述疾病概率的检测程序被处理器执行，以实现以下步骤：

采集用户关联的各个数据，并对采集的各个数据进行特征处理；

根据特征处理后的各个数据构造多维度数据集；

对所述多维度数据集进行随机抽样，以划分出测试集和训练集；

基于所述训练集搭建模型，得到回归决策树；

根据所述测试集对所述回归决策树进行测试，以计算用户的疾病概率。
如权利要求16所述的计算机可读存储介质，其特征在于，所述疾病概率的检测程序被处理器执行，还实现对采集的各个数据进行特征处理的步骤：

对采集的各个数据进行特征分析，以确定各个数据的特征类型；

在数据为缺失值数据时，对缺失值数据进行均值插补处理或多重插补处理；

在数据为异常值数据时，对异常值数据进行筛选，以筛选出异常值小于预设阈值的数据，并将筛选出的数据作为缺失值数据进行处理。
如权利要求17所述的计算机可读存储介质，其特征在于，所述均值插补处理的方式包括：采用平均值进行插补处理，或采用众数进行插补处理。
如权利要求16所述的计算机可读存储介质，其特征在于，所述疾病概率的检测程序被处理器执行，还实现根据特征处理后的各个数据构造多维度数据集的步骤：

确定特征处理后的各个数据对应的特征饱和度；

根据特征饱和度对各个数据进行筛选，以筛选出特征饱和度达到预设饱和度的各个数据；

根据筛选出的各个数据构造多维度数据集。
如权利要求16所述的计算机可读存储介质，其特征在于，所述疾病概率的检测程序被处理器执行，还实现根据所述测试集对所述回归决策树进行测试，以计算用户的疾病概率的步骤：

将所述测试集的数据输入到所述回归决策树中，以根据所述回归决策树中树的数量得到对应数量的各个数值；

将各个数值与所述回归决策树中各个树的权重值进行加权平均，得到所述回归决策树的总值；将所述总值作为用户的疾病概率。