WO2020211240A1

WO2020211240A1 - 预测模型的联合构建方法、装置及计算机设备

Info

Publication number: WO2020211240A1
Application number: PCT/CN2019/102911
Authority: WO
Inventors: 毕野; 黄博; 吴振宇; 王建明
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-04-19
Filing date: 2019-08-27
Publication date: 2020-10-22
Also published as: CN110210233B; CN110210233A

Abstract

一种预测模型的联合构建方法、装置、存储介质及计算机设备，涉及信息技术领域，主要在于能够避免第三方与数据提供方勾结，泄露其他数据提供方的数据，在各企业联合建模的同时能够保证数据的安全性。所述方法包括：获取各个企业的样本特征数据和所述样本特征数据对应的类别标签（101）；根据所述样本特征数据和所述类别标签，构建各个企业的加密模型（102）；将所述各个企业的样本特征数据分别输入至对应的加密模型进行加密，得到各个企业的加密数据（103）；根据所述各个企业的加密数据及其对应的类别标签联合构建预测模型（104）。该方法适用于预测模型的联合构建。

Description

预测模型的联合构建方法、装置及计算机设备

技术领域

本申请要求与2019年04月19日提交中国专利局、申请号为201910319424.7、申请名称为“预测模型的联合构建方法、装置、存储介质及计算机设备”的中国专利申请的优先权，其全部内容通过引用结合在申请中。

背景技术

金融智能推荐领域中的预测模型在决策制定、产品推荐等方面起着关键性作用，为了获得预测精度更高的预测模型，企业之间通常会联合建模，尤其是当前分析的现象非常复杂，需要大量数据进行训练时，在企业联合建模时，企业之间并不会将真实数据进行分享，在分享数据之前，企业通常会对自己的数据进行加密，以确保企业数据的隐私性，之后根据各个企业分享的加密数据构建预测模型。

目前，常用的预测模型为线性回归模型和逻辑回归模型，对于线性回归模型和逻辑回归模型的数据加密方式，通常需要第三方向各个企业提供相应的随机数或者公钥，各个企业通过第三方提供的随机数或者公钥对自己的数据进行加密，之后再分享给其他企业。然而，针对线性回归模型和逻辑回归模型的数据加密过程，都需要第三方的存在，并且要求第三方足够诚信，否则第三方将提供给某企业的随机数泄露给其他企业，其他企业回推后便能得到该企业的数据，造成企业内部数据的泄露，此外，目前的加密方式都是根据选择的预测模型而定，上述两种预测模型都仅涉及加法和乘法，因此其相应的加密方式并不适用于所有预测模型。

申请内容

本申请提供了一种预测模型的联合构建方法、装置及计算机设备，主要在于能够避免第三方与数据提供方勾结，泄露其他数据提供方的数据，在各企业联合建模的同时能够保证数据的安全性。

根据本申请的第一个方面，提供一种预测模型的联合构建方法，包括：

获取各个企业的样本特征数据和所述样本特征数据对应的类别标签；

根据所述样本特征数据和所述类别标签，构建各个企业的加密模型；

将所述各个企业的样本特征数据分别输入至对应的加密模型进行加密，得到各个企业的加密数据；

根据所述各个企业的加密数据及其对应的类别标签联合构建预测模型。

根据本申请的第二个方面，提供一种预测模型的联合构建装置，包括：

获取单元，用于获取各个企业的样本特征数据和所述样本特征数据对应的类别标签；

第一构建单元，用于根据所述样本特征数据和所述类别标签，构建各个企业的加密模型；

加密单元，用于将所述各个企业的样本特征数据分别输入至对应的加密模型进行加密，得到各个企业的加密数据；

第二构建单元，用于根据所述各个企业的加密数据及其对应的类别标签联合构建预测模型。

根据本申请的第三个方面，提供一种计算机非易失性可读存储介质，其上存储有计算机可读指令，该计算机可读指令被处理器执行时实现以下步骤：

根据本申请的第四个方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现以下步骤：

本申请提供的一种预测模型的联合构建方法、装置及计算机设备，与目前需要第三方的介入对企业数据进行加密，并根据企业的加密数据联合建模的方式相比，本申请能够获取各个企业的样本特征数据和样本特征数据对应的标签数据；并根据样本特征数据和类别标签，构建各个企业的加密模型；与此同时，将各个企业的样本特征数据分别输入至对应的加密模型进行加密，得到各个企业的加密数据；并根据各个企业的加密数据及其对应的类别标签联合构建预测模型，由此不需要第三方的介入，企业可以通过加密模型对内部的数据进行加密，从而避免了第三方与其他企业勾结，泄露企业内部数据，提高了企业内部数据的安全性，同时通过加密模型对企业数据加密的方式不仅适用于线性回归预测模型和逻辑回归预测模型，还可以适用于其他预测模型。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种预测模型的联合构建方法流程图；

图2示出了本申请实施例提供的另一种预测模型的联合构建方法流程图；

图3示出了本申请实施例提供的一种预测模型的联合构建装置的结构示意图；

图4示出了本申请实施例提供的另一种预测模型的联合构建装置的结构示意图；

图5示出了本申请实施例提供的一种计算机设备的实体结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

如背景技术，目前，常用的预测模型为线性回归模型和逻辑回归模型，对于线性回归模型和逻辑回归模型的数据加密方式，通常需要第三方向各个企业提供相应的随机数或者公钥。然而，针对线性回归模型和逻辑回归模型的数据加密过程，都需要第三方的存在，并且要求第三方足够诚信，否则第三方与其他企业勾结，会造成企业内部数据的泄露，此外，目前的加密方式都是根据选择的预测模型而定，上述两种预测模型都仅涉及加法和乘法，因此其相应的加密方式并不适用于所有预测模型。

为了解决上述问题，本申请实施例提供了一种预测模型的联合构建方法，如图1所示，所述方法包括：

101、获取各个企业的样本特征数据和所述样本特征数据对应的类别标签。

其中，样本特征数据对应的类别标签为样本特征数据所属的真实类别，在各个企业联合建模时，要将企业内部数据与其他企业共享，为了不将企业的真实数据泄露给其他企业，需要根据企业内部数据，建立各个企业的加密模型，通过加密模型对企业内部数据进行加密，再将加密后的数据分享给其他企业，在构建各个企业的加密模型时，首先要获取各个企业的样本特征数据和样本特征数据对应的类别标签，例如，各个企业联合构建预测模型对人的性别进行预测，预测模型的输入为特征数据，预测模型的输出为人的性别，对预测模型进行训练时，训练集中的特征数据包括上网的时长、上网的时段、网购所花金额、喜欢去的地方、喜欢吃的东西，但是这些特征数据并不是被所有企业共有，其中，P1企业掌握的样本特征数据包括上网的时长、上网的时段、网购所花金额，而P2企业掌握的样本特征数据包括喜欢去的地方、喜欢吃的东西，P1和P2企业已知各自的每组样本特征数据对应的性别标签，分别获取P1和P2企业的样本特征数据和该样本特征数据对应的性别标签，根据P1和P2企业的样本特征数据和该样本特征数据对应的性别标签，分别建立P1和P2企业的加密模型。

102、根据所述样本特征数据和所述类别标签，构建各个企业的加密模型。

对于本申请实施例，为了提高预测模型的精度，各个企业联合建模时会将企业内部数据分享给其他企业，为了不将企业的真实数据泄露给其他企业，需要构建加密模型对企业的内部数据进行加密，具体在构建加密模型时，该加密模型可以为梯度下降树加密模型，利用预设梯度下降树算法对获取的企业样本特征数据和样本特征数据对应的类别标签进行训练，分别构建各个企业的加密模型，例如，P1企业的100组样本特征数据，包括上网的时长、上网的时段、网购所花金额，每组特征数据对应唯一的性别标签，利用梯度下降树算法对P1企业的100组样本特征数据进行训练，构建加密模型，以便应用该加密模型对该企业内部数据进行加密，保证企业的内部数据的私密性。

103、将所述各个企业的样本特征数据分别输入至对应的加密模型进行加密，得到各个企业的加密数据。

对于本申请实施例，各个企业根据自己的样本特征数据和标签类别建立加密模型后，将企业的样本特征数据输入对应的加密模型，将样本特征数据转化为0-1元组成的样本特征向量，以此对企业内部数据进行加密。

例如，P1企业根据自己的样本特征数据构建了加密模型，该加密模型为梯度下降树加密模型，该模型包括两棵树，共有5个叶子节点，将P1企业的某组样本特征数据输入至梯度下降树加密模型，该组样本特征数据落在了第一棵树的第二个叶子节点和第二颗树的第一个叶子节点，叶子节点数代表样本特征向量的维数，不同的叶子节点代表样本特征向量的不同分量，若样本特征数据落在叶子节点上，将该叶子节点对应的样本特征向量的分量值设置为1，若样本特征数据未落在叶子节点上，将该叶子节点对应的样本特征向量的分量值设置为0，由此该组样本特征数据通过梯度下降树加密模型加密后转化为一个五维向量Z1＝[0,1,0,1,0]，因此通过加密模型对企业的样本特征数据进行加密，不需要第三方的介入，而且其他企业无法根据分享的加密数据回推原数据，保证了企业内部数据的安全性。

104、根据所述各个企业的加密数据及其对应的类别标签联合构建预测模型。

对于本申请实施例，将各个企业的加密数据及其对应的类别标签、以及企业的样本特征数据联合成预测训练集，并根据所述预测训练集构建预测模型，例如，样本特征数据X＝[X1,X2]分别被企业P1和企业P2所拥有，企业P1拥有样本特征数据X1，企业P2拥有样本特征数据X2，样本特征数据X1通过P1企业构建的加密模型进行加密，转化为样本特征向量Z1，样本特征数据X2通过P2企业构建的加密模型进行加密，转化为样本特征向量Z2，可以将Z＝[Z1,Z2]作为预测训练集，此外，为了进一步提高预测模型的精度，各个企业不仅可以根据预测训练集Z＝[Z1,Z2]构建预测模型，对于P1企业来说，还可以将Z＝[X1,Z1,Z2]作为预测训练集，并根据该预测训练集构建预测模型，对于P2企业来说，还可以将Z＝[X2,Z1,Z2]作为预测训练集，并根据该预测训练集构建预测模型。

本申请实施例提供的一种预测模型的联合构建方法，与目前需要第三方的介入对企业数据进行加密，并根据加密数据企业联合建模的方式相比，本申请能够获取各个企业的样本特征数据和所述样本特征数据对应的标签数据；并根据所述样本特征数据和所述标签数据，构建各个企业的加密模型；与此同时，将所述各个企业的样本特征数据分别输入至对应的加密模型进行加密，得到各个企业的加密数据；并根据所述各个企业的加密数据及其对应的类别标签联合构建预测模型，由此不需要第三方的介入，企业可以通过加密模型对内部的数据进行加密，从而避免了第三方与其他企业勾结，泄露企业内部数据，提高了企业内部数据的安全性，同时通过加密模型对企业数据加密的方式不仅适用于线性回归预测模型和逻辑回归预测模型，还可以适用于其他预测模型。

进一步的，为了更好的说明上述对企业内部数据加密的过程，作为对上述实施例的细化和扩展，本申请实施例提供了另一种预测模型的联合构建方法，如图2所示，所述方法包括：

201、获取各个企业的样本特征数据和所述样本特征数据对应的类别标签。

对于本申请实施例，各个企业的样本特征数据和样本特征数据对应的类别标签预先存储在各个企业的数据库中，在构建各个企业的加密模型时，从数据库中获取企业的样本特征数据和该样本特征数据对应的类别标签。

202、利用预设梯度下降树算法对所述样本特征数据和所述类别标签进行训练，以构建所述梯度下降树加密模型。

对于本申请实施例，所述加密模型为梯度下降树加密模型，所述步骤202具体可以包括：利用预设决策树算法对所述样本特征数据和所述类别标签进行初步训练，得到初步决策树模型；将所述类别标签和所述初步决策树模型进行匹配，得到所述样本特征数据归属于所述初步决策树模型的各个叶子节点对应类别的真实概率值；将所述样本特征数据输入到所述初步决策树模型进行类别预测，得到所述样本特征数据归属于所述初步决策树模型的各个叶子节点对应类别的预测概率值；根据所述真实概率值和所述预测概率值的差值，确定初步迭代训练的残差梯度下降值；根据所述残差梯度下降值、所述样本特征数据和所述类别标签对所述初步决策树模型进行迭代训练，并重复计算残差梯度下降值的步骤；当计算的残差梯度下降值为最小的残差梯度下降值时，将所述最小的残差梯度下降值对应迭代层级训练的决策树模型，确定为所述梯度下降树加密模型。

例如，P1企业的100组样本特征数据，包括上网的时长、上网的时段、网购所花金额，每组特征数据对应唯一的性别标签，利用梯度下降树算法对P1企业的100组样本特征数据进行训练，构建梯度下降树加密模型，具体地，给定初始估计函数F _k(x)，也可以设定初始估计函数F _k(x)＝0，k＝1,…,K，其中，K代表K个分类，对于性格预测，K等于2，利用初始估计函数对样本特征数据进行估计，得到样本特征数据的估计值为F ₁(x),…,F _K(x)，之后对样本特征数据的估计值进行逻辑变换，得到样本特征数据归属于各个类别k的概率p _k(x)，

根据所述样本特征数据的真实概率值和初始估计函数估计的概率值，得到对数似然损失函数为：

其中，y _k为样本特征数据的真实概率值，例如，当一个样本属于类别k时，y _k＝1，否则y _k＝0，将样本特征数据归属于各个类别k的概率p _k(x)代入损失函数，并且对其求导，可以得到损失函数的梯度为：

由此可以计算出第i个样本特征数据对应类别k的的梯度误差为y _ik-p _k,m-1，其中，m-1代表迭代次数，即初始估计函数经过m-1轮迭代，由此可知梯度误差为样本特征数据 i对应类别k的真实概率和经m-1轮迭代后预测概率的差值，之后根据样本特征数据和梯度误差，得到决策树模型，根据生成的决策树模型，计算各个叶子节点的残差拟合值为：

其中，J代表决策树模型的叶子节点数，计算各个叶子节点的残差拟合值与上一轮迭代的估计函数之和，得到本轮迭代的估计函数为：

由此每一步迭代都会根据当前的样本特征数据对应的梯度误差建立一棵决策树，使损失函数的梯度往反方向前进，最终经过预设的迭代次数，使得梯度最小，此时确定最终的估计函数为梯度下降树加密模型。

203、将所述各个企业的样本特征数据输入至所述梯度下降树加密模型进行加密，得到所述样本特征数据对应的样本特征向量；将所述样本特征向量确定为所述各个企业的加密数据。

对于本申请实施例，将企业内部的样本特征数据输入至企业的加密模型进行加密，将样本特征数据转为为0-1元组成的样本特征向量，并将0-1元组成的样本特征向量作为企业的加密数据，可以与其他企业共享，具体地，步骤203还包括：将所述各个企业的样本特征数据输入至所述梯度下降树加密模型进行匹配，以确定所述样本特征数据是否与梯度下降树加密模型的叶子节点匹配；根据匹配结果，确定所述样本特征数据的各个特征匹配值；根据梯度下降树加密模型的叶子节点数量，确定所述样本特征向量的维数；根据所述样本特征数据的各个特征匹配值和所述样本特征向量的维数，确定所述样本特征数据对应的样本特征向量，进一步地，根据匹配结果，确定所述样本特征数据的各个特征匹配值，还包括：若所述样本特征数据与所述梯度下降树加密模型的叶子节点匹配，则将所述样本特征数据的特征匹配值确定为1；若所述样本特征数据与所述梯度下降树加密模型的叶子节点不匹配，则将所述样本特征数据的特征匹配值确定为0，由此将样本特征数据转化为样本特征向量，这种加密方式无需第三方的介入，而且其他企业根据分享的加密数据，也无法回推原数据，保证了企业内部数据的安全性。

204、利用预设逻辑回归算法对所述各个企业的加密数据及其对应的类别标签进行训练，以构建所述逻辑回归预测模型。

对于本申请实施例，所述预测模型为逻辑回归预测模型，步骤204具体还包括利用极大似然估计算法对所述各个企业的加密数据及其对应的类别标签进行训练，得到极大似然估计预测模型；利用梯度下降算法对所述极大似然估计预测模型进行收敛计算，得到所述逻辑回归预测模型，例如，各个企业联合构建性格预测模型，获取P1企业的100组加密数据Z1和P2企业的100组加密数据Z2，该加密数据对应唯一的性格标签，将Z＝[Z1,Z2]作为预测训练集，根据该预测训练集构建逻辑回归预测模型，首先构造预测函数如下：

其中，预测函数h _θ(x)表示预测结果取1的概率，则对于输入的待预测的特征数据，其分类结果为类别1和类别0的概率分别为：

p(y＝1|x；θ)＝h _θ(x)

p(y＝0|x；θ)＝1-h _θ(x)

其中，y＝1代表分类结果为男性，y＝0代表分类结果为女性，之后根据预测函数，利用极大似然算法构造损失函数如下：

失函数最小值时的参数θ，求解的θ即为最佳参数，根据最佳参数θ，确定最终的预测函数为逻辑回归预测模型，由于在逻辑回归预测模型构建时，将不同企业的加密数据联合作为预测训练集，可以进一步提高预测模型的精度。

本申请实施例提供的另一种预测模型的联合构建方法，与目前需要第三方的介入对企业数据进行加密，并根据加密数据企业联合建模的方式相比，本申请能够获取各个企业的样本特征数据和所述样本特征数据对应的标签数据；能够根据所述样本特征数据和所述标签数据，构建各个企业的加密模型；与此同时，将所述各个企业的样本特征数据分别输入至对应的加密模型进行加密，得到各个企业的加密数据；并根据所述各个企业的加密数据及其对应的类别标签联合构建预测模型，由此不需要第三方的介入，企业可以通过加密模型对内部的数据进行加密，从而避免了第三方与其他企业勾结，泄露企业内部数据，提高了企业内部数据的安全性，同时通过加密模型对企业数据加密的方式不仅适用于线性回归预测模型和逻辑回归预测模型，还可以适用于其他预测模型。

进一步地，作为图1的具体实现，本申请实施例提供了一种预测模型的联合构建装置，如图3所示，所述装置包括：获取单元31、第一构建单元32，加密单元33和第二构建单元34。

所述获取单元31，可以用于获取各个企业的样本特征数据和所述样本特征数据对应的类别标签。所述获取单元31是本装置中获取各个企业的样本特征数据和所述样本特征数据对应的类别标签的主要功能模块。

所述第一构建单元32，可以用于根据所述样本特征数据和所述类别标签，构建各个企业的加密模型。所述第一构建单元32是本装置中根据所述样本特征数据和所述类别标签，构建各个企业的加密模型的主要功能模块，也是核心模块。

所述加密单元33，可以用于将所述各个企业的样本特征数据分别输入至对应的加密模型进行加密，得到各个企业的加密数据。所述加密单元33是本装置中将所述各个企业的样本特征数据分别输入至对应的加密模型进行加密，得到各个企业的加密数据的主要功能模块，也是核心模块。

所述第二构建单元34，可以用于根据所述各个企业的加密数据及其对应的类别标签联合构建预测模型。所述第二构建单元34是本装置中根据所述各个企业的加密数据及其对应的类别标签联合构建预测模型的主要功能模块。

对于本申请实施例，所述加密模型为梯度下降树加密模型，所述第一构建单元32，具体可以用于利用预设梯度下降树算法对所述样本特征数据和所述类别标签进行训练，以构建所述梯度下降树加密模型。

此外，所述第一构建单元32还包括：初步训练模块321，匹配模块322，预测模块323，确定模块324和迭代训练模块325。

所述初步训练模块321，可以用于利用预设决策树算法对所述样本特征数据和所述类别标签进行初步训练，得到初步决策树模型。

所述匹配模块322，可以用于将所述类别标签和所述初步决策树模型进行匹配，得到所述样本特征数据归属于所述初步决策树模型的各个叶子节点对应类别的真实概率值。

所述预测模块323，可以用于将所述样本特征数据输入到所述初步决策树模型进行类别预测，得到所述样本特征数据归属于所述初步决策树模型的各个叶子节点对应类别的预测概率值。

所述确定模块324，可以用于根据所述真实概率值和所述预测概率值的差值，确定初步迭代训练的残差梯度下降值。

所述迭代训练模块325，可以用于根据所述残差梯度下降值、所述样本特征数据和所述类别标签对所述初步决策树模型进行迭代训练，并重复计算残差梯度下降值的步骤。

所述确定模块324，还可以用于当计算的残差梯度下降值为最小的残差梯度下降值时，将所述最小的残差梯度下降值对应迭代层级训练的决策树模型，确定为所述梯度下降树加密模型。

对于本申请实施例，所述加密单元33，包括：加密模块331和确定模块332。

所述加密模块331，可以用于将所述各个企业的样本特征数据输入至所述梯度下降树加密模型进行加密，得到所述样本特征数据对应的样本特征向量。

所述确定模块332，可以用于将所述样本特征向量确定为所述各个企业的加密数据。

此外，针对样本特征数据转化为样本特征向量的具体过程，所述加密模块331，还包括：匹配子模块3311和确定子模块3312。

所述匹配子模块3311，可以用于将所述各个企业的样本特征数据输入至所述梯度下降树加密模型进行匹配，以确定所述样本特征数据是否与梯度下降树加密模型的叶子节点匹配。

所述确定子模块3312，可以用于根据匹配结果，确定所述样本特征数据的各个特征匹配值。

所述确定子模块3312，还可以用于根据梯度下降树加密模型的叶子节点数量，确定所述样本特征向量的维数。

所述确定子模块3312，还可以用于根据所述样本特征数据的各个特征匹配值和所述样本特征向量的维数，确定所述样本特征数据对应的样本特征向量。

此外，针对样本特征数据的各个特征值的确定过程，所述确定子模块3312，具体可以用于若所述样本特征数据与所述梯度下降树加密模型的叶子节点匹配，则将所述样本特征数据的特征匹配值确定为1；若所述样本特征数据与所述梯度下降树加密模型的叶子节点不匹配，则将所述样本特征数据的特征匹配值确定为0。

对于本申请实施例，所述第二构建单元34，具体可以用于将所述各个企业的加密数据及其对应的类别标签、以及企业的样本特征数据联合成预测训练集，并根据所述预测训练集构建预测模型。

此外，所述预测模型为逻辑回归预测模型，所述第二构建单元34，具体还可以用于利用预设逻辑回归算法对所述各个企业的加密数据及其对应的类别标签进行训练，以构建所述逻辑回归预测模型。

进一步地，针对逻辑回归预测模型的具体构建过程，所述第二构建单元34，还包括：训练模块341和计算模块342。

所述训练模块341，可以用于利用极大似然估计算法对所述各个企业的加密数据及其对应的类别标签进行训练，得到极大似然估计预测模型。

所述计算模块342，可以用于利用梯度下降算法对所述极大似然估计预测模型进行收敛计算，得到所述逻辑回归预测模型。

需要说明的是，本申请实施例提供的一种预测模型的联合构建装置所涉及各功能模块的其他相应描述，可以参考图1所示方法的对应描述，在此不再赘述。

基于上述如图1所示方法，相应的，本申请实施例还提供了一种计算机非易失性可读存储介质，其上存储有计算机可读指令，该计算机可读指令被处理器执行时实现以下步骤：获取各个企业的样本特征数据和所述样本特征数据对应的类别标签；根据所述样本特征数据和所述类别标签，构建各个企业的加密模型；将所述各个企业的样本特征数据分别输入至对应的加密模型进行加密，得到各个企业的加密数据；根据所述各个企业的加密数据及其对应的类别标签联合构建预测模型。

基于上述如图1所示方法和如图3所示装置的实施例，本申请实施例还提供了一种计算机设备的实体结构图，如图5所示，该计算机设备包括：处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机可读指令，其中存储器42和处理器41均设置在总线43上所述处理器41执行所述计算机可读指令时实现以下步骤：获取各个企业的样本特征数据和所述样本特征数据对应的类别标签；根据所述样本特征数据和所述类别标签，构建各个企业的加密模型；将所述各个企业的样本特征数据分别输入至对应的加密模型进行加密，得到各个企业的加密数据；根据所述各个企业的加密数据及其对应的类别标签联合构建预测模型。

通过本申请的技术方案，本申请能够获取各个企业的样本特征数据和样本特征数据对应的标签数据；并根据样本特征数据和类别标签，构建各个企业的加密模型；与此同时，将各个企业的样本特征数据分别输入至对应的加密模型进行加密，得到各个企业的加密数据；并根据各个企业的加密数据及其对应的类别标签联合构建预测模型，由此不需要第三方的介入，企业可以通过加密模型对内部的数据进行加密，从而避免了第三方与其他企业勾结，泄露企业内部数据，提高了企业内部数据的安全性，同时通过加密模型对企业数据加密的方式不仅适用于线性回归预测模型和逻辑回归预测模型，还可以适用于其他预测模型。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本申请的保护范围之内。

Claims

一种预测模型的联合构建方法，其特征在于，包括：

获取各个企业的样本特征数据和所述样本特征数据对应的类别标签；

根据所述样本特征数据和所述类别标签，构建各个企业的加密模型；

将所述各个企业的样本特征数据分别输入至对应的加密模型进行加密，得到各个企业的加密数据；

根据所述各个企业的加密数据及其对应的类别标签联合构建预测模型。
根据权利要求1所述的方法，其特征在于，所述加密模型为梯度下降树加密模型，所述根据所述样本特征数据和所述类别标签，构建各个企业的加密模型，包括：

利用预设梯度下降树算法对所述样本特征数据和所述类别标签进行训练，以构建所述梯度下降树加密模型；

所述将所述各个企业的样本特征数据分别输入至对应的加密模型进行加密，得到各个企业的加密数据，包括：

将所述各个企业的样本特征数据输入至所述梯度下降树加密模型进行加密，得到所述样本特征数据对应的样本特征向量；

将所述样本特征向量确定为所述各个企业的加密数据。
根据权利要求2所述的方法，其特征在于，所述利用预设梯度下降树算法对所述样本特征数据和所述类别标签进行训练，以构建所述梯度下降树加密模型，包括：

利用预设决策树算法对所述样本特征数据和所述类别标签进行初步训练，得到初步决策树模型；

将所述类别标签和所述初步决策树模型进行匹配，得到所述样本特征数据归属于所述初步决策树模型的各个叶子节点对应类别的真实概率值；

将所述样本特征数据输入到所述初步决策树模型进行类别预测，得到所述样本特征数据归属于所述初步决策树模型的各个叶子节点对应类别的预测概率值；

根据所述真实概率值和所述预测概率值的差值，确定初步迭代训练的残差梯度下降值；

根据所述残差梯度下降值、所述样本特征数据和所述类别标签对所述初步决策树模型进行迭代训练，并重复计算残差梯度下降值的步骤；

当计算的残差梯度下降值为最小的残差梯度下降值时，将所述最小的残差梯度下降值对应迭代层级训练的决策树模型，确定为所述梯度下降树加密模型。
根据权利要求2所述的方法，其特征在于，所述将所述各个企业的样本特征数据输入至所述梯度下降树加密模型进行加密，得到所述样本特征数据对应的样本特征向量，包括：

将所述各个企业的样本特征数据输入至所述梯度下降树加密模型进行匹配，以确定所述样本特征数据是否与梯度下降树加密模型的叶子节点匹配；

根据匹配结果，确定所述样本特征数据的各个特征匹配值；

根据梯度下降树加密模型的叶子节点数量，确定所述样本特征向量的维数；

根据所述样本特征数据的各个特征匹配值和所述样本特征向量的维数，确定所述样本特征数据对应的样本特征向量。
根据权利要求4所述的方法，其特征在于，所述根据匹配结果，确定所述样本特征数据的各个特征匹配值，包括：

若所述样本特征数据与所述梯度下降树加密模型的叶子节点匹配，则将所述样本特征数据的特征匹配值确定为1；

若所述样本特征数据与所述梯度下降树加密模型的叶子节点不匹配，则将所述样本特征数据的特征匹配值确定为0。
根据权利要求1所述的方法，其特征在于，所述根据所述各个企业的加密数据及其对应的类别标签联合构建预测模型，包括：

将所述各个企业的加密数据及其对应的类别标签、以及企业的样本特征数据联合成预测训练集，并根据所述预测训练集构建预测模型。
根据权利要求1-6任一项所述的方法，其特征在于，所述预测模型为逻辑回归预测模型，所述根据所述各个企业的加密数据及其对应的类别标签联合构建预测模型，包括：

利用预设逻辑回归算法对所述各个企业的加密数据及其对应的类别标签进行训练，以构建所述逻辑回归预测模型。
一种预测模型的联合构建装置，其特征在于，包括：

获取单元，用于获取各个企业的样本特征数据和所述样本特征数据对应的类别标签；

第一构建单元，用于根据所述样本特征数据和所述类别标签，构建各个企业的加密模型；

加密单元，用于将所述各个企业的样本特征数据分别输入至对应的加密模型进行加密，得到各个企业的加密数据；

第二构建单元，用于根据所述各个企业的加密数据及其对应的类别标签联合构建预测模型。
根据权利要求8所述的装置，其特征在于，所述加密模型为梯度下降树加密模型，所述第一构建单元，具体用于利用预设梯度下降树算法对所述样本特征数据和所述类别标签进行训练，以构建所述梯度下降树加密模型；

所述加密单元，包括：

加密模块，用于将所述各个企业的样本特征数据输入至所述梯度下降树加密模型进行加密，得到所述样本特征数据对应的样本特征向量；

确定模块，用于将所述样本特征向量确定为所述各个企业的加密数据。
根据权利要求9所述的装置，其特征在于，所述第一构建单元，包括：

初步训练模块，用于利用预设决策树算法对所述样本特征数据和所述类别标签进行初步训练，得到初步决策树模型；

匹配模块，用于将所述类别标签和所述初步决策树模型进行匹配，得到所述样本特征数据归属于所述初步决策树模型的各个叶子节点对应类别的真实概率值；

预测模块，用于将所述样本特征数据输入到所述初步决策树模型进行类别预测，得到所述样本特征数据归属于所述初步决策树模型的各个叶子节点对应类别的预测概率值；

确定模块，用于根据所述真实概率值和所述预测概率值的差值，确定初步迭代训练的残差梯度下降值；

迭代训练模块，用于根据所述残差梯度下降值、所述样本特征数据和所述类别标签对所述初步决策树模型进行迭代训练，并重复计算残差梯度下降值的步骤；

所述确定模块，还用于当计算的残差梯度下降值为最小的残差梯度下降值时，将所述最小的残差梯度下降值对应迭代层级训练的决策树模型，确定为所述梯度下降树加密模型。
根据权利要求9所述的装置，其特征在于，所述加密模块，包括：

匹配子模块，用于将所述各个企业的样本特征数据输入至所述梯度下降树加密模型进行匹配，以确定所述样本特征数据是否与梯度下降树加密模型的叶子节点匹配；

确定子模块，用于根据匹配结果，确定所述样本特征数据的各个特征匹配值；

所述确定子模块，还用于根据梯度下降树加密模型的叶子节点数量，确定所述样本特征向量的维数；

所述确定子模块，还用于根据所述样本特征数据的各个特征匹配值和所述样本特征向量的维数，确定所述样本特征数据对应的样本特征向量。
根据权利要求11所述的装置，其特征在于，所述确定子模块，具体用于若所述样本特征数据与所述梯度下降树加密模型的叶子节点匹配，则将所述样本特征数据的特征匹配值确定为1；若所述样本特征数据与所述梯度下降树加密模型的叶子节点不匹配，则将所述样本特征数据的特征匹配值确定为0。
根据权利要求8所述的装置，其特征在于，所述第二构建单元，具体用于将所述各个企业的加密数据及其对应的类别标签、以及企业的样本特征数据联合成预测训练集，并根据所述预测训练集构建预测模型。
根据权利要求8-13任一项所述的装置，其特征在于，所述预测模型为逻辑回归预测模型，所述第二构建单元，具体还用于利用预设逻辑回归算法对所述各个企业的加密数据及其对应的类别标签进行训练，以构建所述逻辑回归预测模型。
一种计算机非易失性可读存储介质，其上存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现预测模型的联合构建方法，包括：

获取各个企业的样本特征数据和所述样本特征数据对应的类别标签；根据所述样本特征数据和所述类别标签，构建各个企业的加密模型；将所述各个企业的样本特征数据分别输入至对应的加密模型进行加密，得到各个企业的加密数据；根据所述各个企业的加密数据及其对应的类别标签联合构建预测模型。
根据权利要求15所述的计算机非易失性可读存储介质，其特征在于，所述加密模型为梯度下降树加密模型，所述计算机可读指令被处理器执行时实现所述根据所述样本特征数据和所述类别标签，构建各个企业的加密模型，包括：利用预设梯度下降树算法对所述样本特征数据和所述类别标签进行训练，以构建所述梯度下降树加密模型；

所述将所述各个企业的样本特征数据分别输入至对应的加密模型进行加密，得到各个企业的加密数据，包括：将所述各个企业的样本特征数据输入至所述梯度下降树加密模型进行加密，得到所述样本特征数据对应的样本特征向量；将所述样本特征向量确定为所述各个企业的加密数据。
根据权利要求16所述的计算机非易失性可读存储介质，其特征在于，所述计算机可读指令被处理器执行时实现所述利用预设梯度下降树算法对所述样本特征数据和所述类别标签进行训练，以构建所述梯度下降树加密模型，包括：

利用预设决策树算法对所述样本特征数据和所述类别标签进行初步训练，得到初步决策树模型；将所述类别标签和所述初步决策树模型进行匹配，得到所述样本特征数据归属于所述初步决策树模型的各个叶子节点对应类别的真实概率值；将所述样本特征数据输入到所述初步决策树模型进行类别预测，得到所述样本特征数据归属于所述初步决策树模型的各个叶子节点对应类别的预测概率值；根据所述真实概率值和所述预测概率值的差值，确定初步迭代训练的残差梯度下降值；根据所述残差梯度下降值、所述样本特征数据和所述类别标签对所述初步决策树模型进行迭代训练，并重复计算残差梯度下降值的步骤；当计算的残差梯度下降值为最小的残差梯度下降值时，将所述最小的残差梯度下降值对应迭代层级训练的决策树模型，确定为所述梯度下降树加密模型。
一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现预测模型的联合构建方法，包括：

获取各个企业的样本特征数据和所述样本特征数据对应的类别标签；根据所述样本特征数据和所述类别标签，构建各个企业的加密模型；将所述各个企业的样本特征数据分别输入至对应的加密模型进行加密，得到各个企业的加密数据；根据所述各个企业的加密数据及其对应的类别标签联合构建预测模型。
根据权利要求18所述的计算机设备，其特征在于，所述加密模型为梯度下降树加密模型，所述计算机可读指令被处理器执行时实现所述根据所述样本特征数据和所述类别标签，构建各个企业的加密模型，包括：利用预设梯度下降树算法对所述样本特征数据和所述类别标签进行训练，以构建所述梯度下降树加密模型；所述将所述各个企业的样本特征数据分别输入至对应的加密模型进行加密，得到各个企业的加密数据，包括：将所述各个企业的样本特征数据输入至所述梯度下降树加密模型进行加密，得到所述样本特征数据对应的样本特征向量；将所述样本特征向量确定为所述各个企业的加密数据。
根据权利要求19所述的计算机设备，其特征在于，所述计算机可读指令被处理器执行时实现所述利用预设梯度下降树算法对所述样本特征数据和所述类别标签进行训练，以构建所述梯度下降树加密模型，包括：利用预设决策树算法对所述样本特征数据和所述类别标签进行初步训练，得到初步决策树模型；将所述类别标签和所述初步决策树模型进行匹配，得到所述样本特征数据归属于所述初步决策树模型的各个叶子节点对应类别的真实概率值；将所述样本特征数据输入到所述初步决策树模型进行类别预测，得到所述样本特征数据归属于所述初步决策树模型的各个叶子节点对应类别的预测概率值；根据所述真实概率值和所述预测概率值的差值，确定初步迭代训练的残差梯度下降值；根据所述残差梯度下降值、所述样本特征数据和所述类别标签对所述初步决策树模型进行迭代训练，并重复计算残差梯度下降值的步骤；当计算的残差梯度下降值为最小的残差梯度下降值时，将所述最小的残差梯度下降值对应迭代层级训练的决策树模型，确定为所述梯度下降树加密模型。