WO2022088606A1

WO2022088606A1 - 基于联邦学习的gbdt与lr融合方法、装置、设备和存储介质

Info

Publication number: WO2022088606A1
Application number: PCT/CN2021/084670
Authority: WO
Inventors: 王健宗; 肖京; 何安珣
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-10-29
Filing date: 2021-03-31
Publication date: 2022-05-05
Also published as: CN112288101A

Abstract

一种基于联邦学习的GBDT与LR融合方法、装置、设备和存储介质，所述方法包括：计算各个第一样本的梯度，将梯度加密后传给被动方，其中，所述第一样本具有标签（S1）；获取被动方各个分组经过加密后的梯度和组；其中，所述梯度和组是通过所述被动方将各个第二样本按照属性进行分组后，计算各个分组的梯度和所得到的梯度和组；所述第一样本和所述第二样本对应相同的用户，所述第二样本不具有标签（S2）；对所述梯度和组进行解密，根据所述梯度和选取最优特征划分，将所述最优特征划分对应的划分值传给被动方（S3）；获取所述被动方被划分为左结点或右结点的样本空间；其中，所述样本空间是通过所述被动方将所述第二样本根据所述划分值进行划分，所得到左结点或右结点对应的样本空间（S4）；根据样本空间对第一样本进行分裂，得到GBDT模型对应的树结构（S5）；根据树结构构建特征矩阵，进行逻辑回归的训练，得到LR模型（S6）。通过本方法提供的基于联邦学习的GBDT与LR融合方法、装置、设备和存储介质，使得金融数据能够直接聚合进行GBDT和LR模型的融合模型训练。

Description

基于联邦学习的GBDT与LR融合方法、装置、设备和存储介质

本申请要求于2020年10月29日提交中国专利局、申请号为202011182203.9，发明名称为“基于联邦学习的GBDT与LR融合方法、装置、设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及模型托管的技术领域，特别涉及一种基于联邦学习的GBDT与LR融合方法、装置、设备和存储介质。

背景技术

在金融场景下，经常涉及到一些风控模型的构建，并且由于业界需要可解释性高的模型，因此常使用简单有效的逻辑回归进行分类问题的处理。但逻辑回归是一个线性模型，并不能捕捉到非线性信息，需要大量特征工程，耗费人力物力，而GBDT(Gradient Boost Decision Tree，梯度提升树)正好可以用来发觉有区分度的特征、特征组合，减少特征工程中人力成本。但相应地，GBDT是一种集成方法，因此它的解释性较低。GBDT与LR(Logistic Regression，广义线性模型)的融合模型恰好结合了两者的优点，先采用GBDT来发掘有区分度的特征以及组合特征，进而使用LR构建解释性高的模型。

发明人意识到，现有的GBDT与LR的融合模型都是建立在开源数据的基础上进行模型的训练。而如今对金融行业的管控越来越严格，金融数据无法被直接聚合来进行机器学习模型训练。

技术问题

本申请的主要目的为提供一种基于联邦学习的GBDT与LR融合方法、装置、设备和存储介质，旨在解决金融数据无法直接聚合进行GBDT和LR模型的融合模型训练的技术问题。

技术解决方案

为实现上述目的，本申请提供了一种基于联邦学习的GBDT与LR融合方法，应用于主动方，包括以下步骤：

计算各个第一样本的梯度，将所述梯度经过加密后传给被动方，其中，所述第一样本具有标签；

获取被动方经过加密后的梯度和组；其中，所述梯度和组是通过所述被动方将各个第二样本按照属性进行分组后，计算各个分组的梯度和所得到的梯度和组；所述第一样本和所述第二样本对应相同的用户，所述第二样本不具有标签；

对所述梯度和组进行解密，根据解密后的所述梯度和选取最优特征划分，将所述最优特征划分对应的划分值传给所述被动方；

获取所述被动方被划分为左结点或右结点的样本空间；其中，所述样本空间是通过所述被动方将所述第二样本根据所述划分值进行划分，所得到左结点或右结点对应的样本空间；

根据所述样本空间对所述第一样本进行分裂，得到GBDT模型对应的树结构；

根据所述树结构构建特征矩阵，进行逻辑回归的训练，得到LR模型。

本申请还提供了另一种基于联邦学习的GBDT与LR融合方法，应用于被动方，包括以下步骤：

获取所述被动方的各个第二样本的年龄特征值；

对所述第二样本根据所述年龄特征值进行排序；

对所述第二样本根据所述排序按照预设分位数进行划分，得到各个分组；

计算各个分组的梯度和，得到所述梯度和组；

将所述梯度和组经过加密后传给主动方；

获取所述主动方的划分值；其中，所述划分值是所述主动方对所述梯度和组进行解密，根据解密后的所述梯度和选取最优特征划分所得到的；

将属于所述划分值的所述第二样本划分在左结点，将不属于所述划分值的所述第二样本划分在右结点，得到所述左结点或所述右结点对应的样本空间；

将所述左结点或所述右结点对应的样本空间传递给所述主动方。

本申请还提供了一种基于联邦学习的GBDT与LR融合装置，包括：

计算单元，用于计算各个第一样本的梯度，将所述梯度经过加密后传给被动方，其中，所述第一样本具有标签；

第一获取单元，用于获取被动方经过加密后的梯度和组；其中，所述梯度和组是通过所述被动方将各个第二样本按照属性进行分组后，计算各个分组的梯度和所得到的梯度和组；所述第一样本和所述第二样本对应相同的用户，所述第二样本不具有标签；

解密单元，用于对所述梯度和组进行解密，根据解密后的所述梯度和选取最优特征划分，将所述最优特征划分对应的划分值传给所述被动方；

第二获取单元，用于获取所述被动方被划分为左结点或右结点的样本空间；其中，所述样本空间是通过所述被动方将所述第二样本根据所述划分值进行划分，所得到左结点或右结点对应的样本空间；

分裂单元，用于根据所述样本空间对所述第一样本进行分裂，得到GBDT模型对应的树结构；

构建单元，用于根据所述树结构构建特征矩阵，进行逻辑回归的训练，得到LR模型。

本申请还提供了另一种基于联邦学习的GBDT与LR融合装置，包括：

第三获取单元，用于获取所述被动方的各个第二样本的年龄特征值；

排序单元，用于对所述第二样本根据所述年龄特征值进行排序；

分组单元，用于对所述第二样本根据所述排序按照预设分位数进行划分，得到各个分组；

计算单元，用于计算各个分组的梯度和，得到所述梯度和组；

加密单元，用于将所述梯度和组经过加密后传给主动方；

第四获取单元，用于获取所述主动方的划分值；其中，所述划分值是所述主动方对所述梯度和组进行解密，根据解密后的所述梯度和选取最优特征划分所得到的；

划分单元，用于将属于所述划分值的所述第二样本划分在左结点，将不属于所述划分值的所述第二样本划分在右结点，得到所述左结点或所述右结点对应的样本空间；

传递单元，用于将所述左结点或所述右结点对应的样本空间传递给所述主动方。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现一种基于联邦学习的GBDT与LR融合方法的步骤：

获取所述被动方的各个第二样本的年龄特征值；

对所述第二样本根据所述年龄特征值进行排序；

计算各个分组的梯度和，得到所述梯度和组；

将所述梯度和组经过加密后传给主动方；

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现一种基于联邦学习的GBDT与LR融合方法的步骤：

获取所述被动方的各个第二样本的年龄特征值；

对所述第二样本根据所述年龄特征值进行排序；

计算各个分组的梯度和，得到所述梯度和组；

将所述梯度和组经过加密后传给主动方；

有益效果

本申请提供的基于联邦学习的GBDT与LR融合方法、装置、设备和存储介质，能在不直接将数据聚合进行模型训练的情况下构建一个可解释性高且效果较好的联邦模型。该方法在训练LR模型时，直接根据GBDT模型的树结构构建特征矩阵，无需繁琐的特征构造，就能得到解释性高的LR模型。该方法仅仅在构建GBDT模型时需要传输梯度等，LR模型的构建直接在主动方训练得到，因此时间效率基本取决于GBDT的模型效率，不会提升时间复杂度。同时，主动方与被动方之间并不需要知道对方的数据信息，各自的金融数据不会被其他方知晓，使得金融数据也可以用于机器学习模型训练。

附图说明

图1是本申请一实施例的实施环境示意图；

图2是本申请一实施例中基于联邦学习的GBDT与LR融合方法步骤示意图；

图3是本申请另一实施例中另一基于联邦学习的GBDT与LR融合方法步骤示意图；

图4是本申请一实施例中基于联邦学习的GBDT与LR融合装置结构框图；

图5是本申请一实施例中另一基于联邦学习的GBDT与LR融合装置结构框图；

图6为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

本发明的最佳实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参见图1，联邦学习下，主动方具有第一终端1，被动方至少具有一个第二终端2，所述第一终端1和所述第二终端2之间可通过网络进行数据通信；其中，主动方和被动方拥有相同用户，第一终端1具有样本数据X1和标签数据Y，第二终端2具有样本数据X2、X3……XN。第一终端1以及第二终端2均可以包括一个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群，其中服务器可以是云端服务器。联邦学习可以在不直接访问样本数据的情况下构建机器学习系统，样本数据保留在原始位置，有助于确保隐私并降低通信成本。

具体的，第一终端1计算第一样本的梯度并加密传递给第二终端2，第二终端2对第二样本进行分组并计算分组的梯度和形成梯度和组传递给第一终端1，第一终端1对梯度和组解密并根据解密后的梯度和选取最优特征划分，将最优特征的划分值传递给第二终端2，第二终端2根据划分对值第二样本进行划分，将划分完成后的左结点或右结点的样本空间传递给第一终端1，第一终端1根据样本空间对第一样本进行分裂，得到GBDT模型，根据GBDT模型的树结构构建特征矩阵，进行逻辑回归的训练，得到LR模型。

参照图2，本申请一实施例提供了一种基于联邦学习的GBDT与LR融合方法，应用于主动方，包括以下步骤：

步骤S1，第一计算各个第一样本的梯度，将所述梯度经过加密后传给被动方，其中，所述第一样本具有标签；

步骤S2，获取被动方经过加密后的梯度和组；其中，所述梯度和组是通过所述被动方将各个第二样本按照属性进行分组后，计算各个分组的梯度和所得到的梯度和组；所述第一样本和所述第二样本对应相同的用户，所述第二样本不具有标签；

步骤S3，对所述梯度和组进行解密，根据解密后的所述梯度和选取最优特征划分，将所述最优特征划分对应的划分值传给所述被动方；

步骤S4，获取所述被动方被划分为左结点或右结点的样本空间；其中，所述样本空间是通过所述被动方将所述第二样本根据所述划分值进行划分，所得到左结点或右结点对应的样本空间；

步骤S5，根据所述样本空间对所述第一样本进行分裂，得到GBDT模型对应的树结构；

步骤S6，根据所述树结构构建特征矩阵，进行逻辑回归的训练，得到LR模型。

本实施例中所提出的基于联邦学习的GBDT与LR融合方法应用在主动方，主动方和被动方拥有同一批用户，但主动方和被动方所拥有的用户信息不同，例如甲银行有用户：A，B，C；乙银行有用户A，B，C；这三位用户，甲银行有用户的电话、借贷情况是否良好的标签，乙银行有用户的年龄、性别等信息，将具有标签的一方称为主动方，如甲银行，将仅有特征、没有标签的一方称为被动方，如乙银行，在其他实施例中，被动方可能具有标签，当被动方具有标签时，以主动方的标签为主，被动方的标签不参与训练。具体的，被动方可包括多家银行。如上述步骤S1所述，计算主动方中各个第一样本的梯度，具体的，第t次迭代时，计算得到的梯度为：

其中h _i为g _i的二阶导数；y _i为第一样本y的第i个特征，将所述梯度加密后传给被动方，具体的，可通过加法同态加密算法进行加密后传给被动方。

如上述步骤S2所述，获取被动方各个分组经过加密后的梯度和组。被动方对第二样本进行分组，具体的，可基于第二样本中的一些特征属性进行分组，如性别、年龄等，根据上述公式(1)和(2)计算各个分组中第二样本的梯度，再计算每个分组的梯度和，将各个分组的梯度和加密后传给主动方。在另一实施例中，联合多方银行进行训练时，被动方包括多个银行，每个银行的第二样本进行分组，并计算分组的梯度和，然后形成梯度和组，再将梯度和组加密后传给主动方。

如上述步骤S3所述，由于GBDT模型的基学习器采用的是树模型，在主动方对接收到的梯度和进行解密后，树模型根据解密得到的梯度和进行分裂，每次分裂的时候将一个结点分为左结点和右结点，每个第一样本在每棵树中都会落入唯一的叶子结点中。选取最优特征划分，将最优特征划分相应的划分值传给被动方，最优特征划分表示着树模型分裂的最佳方式，划分值为一个超参，即是在开始训练之前设置值的参数，而不是通过训练得到的参数数据。

如上述步骤S4所述，被动方接收到特征列和划分值后，根据该划分值对样本进行划分，即将特征列的值在划分值区间内的样本划分在左结点，其余的划分在右结点，并将划分为左结点或右结点的样本空间返回给主动方，主动方获取被动方被划分为左结点或右结点的样本空间。

如上述步骤S5所述，主动方接受到划分为左结点的样本空间后，即可知道哪些第二样本中落入左结点，因此可对第一样本做同样的分裂，进行左右结点的划分，最终达到相应的阈值构造叶子结点，得到GBDT模型的树结构。

如上述步骤S6所述，由于主动方已知GBDT模型的树结构以及落入叶子结点的样本空间，因此主动方对第一样本进行赋值，构造稀疏矩阵，将该稀疏矩阵作为特征矩阵，进行逻辑回归的训练，得到LR模型。

本实施例中，基于联邦学习的GBDT与LR融合方法能在不直接将数据聚合进行模型训练的情况下构建一个可解释性高且效果较好的联邦模型。该方法在训练LR模型时，直接根据GBDT模型的树结构构建特征矩阵，无需繁琐的特征构造，就能得到解释性高的LR模型。该方法仅仅在构建GBDT模型时需要传输梯度等，LR模型的构建直接在主动方训练得到，因此时间效率基本取决于GBDT的模型效率，不会提升时间复杂度。同时，主动方与被动方之间并不需要知道对方的数据信息，各自的金融数据不会被其他方知晓，使得金融数据也可以用于机器学习模型训练。具体的，本方法在联合多方银行训练风控模型时，并未泄露各方银行的数据信息，因此该方法能有效的在保障数据安全的情形下，尽可能的利用多方数据来完成对个人的风险评估，使得银行可以有效识别出在其它银行信贷情况不良的用户。

在一实施例中，所述对所述梯度和进行解密，根据所述梯度和选取最优特征划分，将所述最优特征划分对应的特征列及划分值传给被动方的步骤S3，包括：

对所述梯度和组进行解密；

根据解密后的所述梯度和计算所述第一样本的增益；

根据所述增益选取最优特征划分；

将所述最优特征划分所对应的划分值传递给所述被动方。

本实施例中，主动方对梯度和组进行解密，得到各个分组的梯度和，根据所述梯度和计算主动方中第一样本的增益。

在一实施例中，所述根据解密后的所述梯度和计算所述第一样本的增益的步骤，包括：

通过公式

计算所述第一样本的增益，其中，所述g _l、h _l为分裂为左结点中第一样本的梯度信息，所述g _r、h _r为分裂为右结点中第一样本的梯度信息，所述g、h为当前所述第一样本的梯度信息，所述λ为公式G的参数。本实施例中，通过上述公式计算第一样本的增益，增益的值能表征树模型分裂的优劣，当增益越大，则表明树模型分裂得越好。

根据增益选取最优特征划分，选择增益值最大时的所对应的树模型，将最优特征划分所对应的特征列和划分值传给被动方，使得被动方知晓主动方的分裂。

在一实施例中，所述根据所述样本空间对所述第一样本进行分裂，得到GBDT模型对应的树结构的步骤S5，包括：

根据所述样本空间，将所述样本空间内的所述第二样本相对应的所述第一样本划分为左结点；

将剩余所述第一样本划分为右结点，得到所述GBDT模型对应的树结构。

本实施例中，主动方知晓被动方的划分为左结点的样本空间后，将处于左结点的第二样本所对应的第一样本划分为左结点，剩余第一样本划分为右结点，得到GBDT模型的树结构，完成GBDT模型的训练。

在一实施例中，所述根据所述树结构构建特征矩阵，进行逻辑回归的训练，得到LR模型的步骤S6，包括：

所述对所述树结构中的叶子结点作one-hot编码；

根据所述one-hot编码对所述第一样本进行赋值，构造稀疏矩阵；

将所述稀疏矩阵作为特征矩阵，进行逻辑回归的训练，得到所述LR模型。

本实施例中，训练结束后的GBDT模型产生了多棵树，每个第一样本在每棵树里都会落入唯一的叶子结点，将每个叶子结点都视为一个特征，对叶子结点做one-hot编码，根据one-hot编码对第一样本进行赋值，每一个第一样本得到相应的特征向量，所有的第一样本最终会得到一个稀疏矩阵，并且每一列代表该叶子结点的含义，将这一稀疏矩阵放入逻辑回归进行训练，完成LR模型的构建。本实施例中，LR模型的构建过程中没有进行传输，因此构建过程十分高效，不会提升时间复杂度。

参见图3，本申请一实施例提供了另一种基于联邦学习的GBDT与LR融合方法，应用在被动方，包括以下步骤：

步骤S10，获取所述被动方的各个第二样本的年龄特征值；

步骤S20，对所述第二样本根据所述年龄特征值进行排序；

步骤S30，对所述第二样本根据所述排序按照预设分位数进行划分，得到各个分组；

步骤S40，计算各个分组的梯度和，得到所述梯度和组；

步骤S50，将所述梯度和组经过加密后传给主动方；

步骤S60，获取所述主动方的划分值；其中，所述划分值是所述主动方对所述梯度和组进行解密，根据解密后的所述梯度和选取最优特征划分所得到的；

步骤S70，将属于所述划分值的所述第二样本划分在左结点，将不属于所述划分值的所述第二样本划分在右结点，得到所述左结点或所述右结点对应的样本空间；

步骤S80，将所述左结点或所述右结点对应的样本空间传递给所述主动方。

本实施例中所提出的基于联邦学习的GBDT与LR融合方法，应用于被动方，如上述步骤S10-S20所述，被动方的第二样本具有年龄这一特征，通过被动方获取第二样本的年龄特征值，根据年龄特征值进行排序，即按照年龄大小从小到大进行排序。

如上述步骤S30所述，根据所述排序对各个第二样本进行分组，具体的，预先设定一个分位数，如四分位、五分位，如采用四分位，则是将排序完成的若干第二样本分为四个等分，得到四个分组。

如上述步骤S40-S50所述，通过被动方将各个分组内的第二样本的梯度加和计算得到各个分组的梯度和，得到梯度和组。具体的，将每个分组的梯度和经过加法同态加密算法加密后传给主动方。通过预设分位数，根据年龄特征值对各个第二样本进行分组，每个分组内的第二样本数相同，通过分位数进行分组，可以直接的了解到第二样本从小至大排列之后小于某值的第二样本数占总第二样本数的比例。

如上述步骤S60-S80所述，被动方收到主动方最优特征划分的划分值后，将属于该划分值的第二样本划分在左结点，不属于该划分值的第二样本划分到右结点，将划分为左结点或右结点的样本空间传递给主动方，使得主动方可以知晓被动方的样本空间，便于主动方根据被动方的一半的样本空间就可以进行分裂，得到GBDT模型。

本申请提供的基于联邦学习的GBDT与LR融合方法可运用在区块链领域中，将训练好的GBDT模型和LR模型存储在区块链网络中，区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。

参见图4，本申请一实施例提供了一种基于联邦学习的GBDT与LR融合装置，包括：

计算单元10，用于计算各个第一样本的梯度，将所述梯度经过加密后传给被动方，其中，所述第一样本具有标签；

第一获取单元20，用于获取被动方经过加密后的梯度和组；其中，所述梯度和组是通过所述被动方将各个第二样本按照属性进行分组后，计算各个分组的梯度和所得到的梯度和组；所述第一样本和所述第二样本对应相同的用户，所述第二样本不具有标签；

解密单元30，用于对所述梯度和组进行解密，根据解密后的所述梯度和选取最优特征划分，将所述最优特征划分对应的划分值传给所述被动方；

第二获取单元40，用于获取所述被动方被划分为左结点或右结点的样本空间；其中，所述样本空间是通过所述被动方将所述第二样本根据所述划分值进行划分，所得到左结点或右结点对应的样本空间；

分裂单元50，用于根据所述样本空间对所述第一样本进行分裂，得到GBDT模型对应的树结构；

构建单元60，用于根据所述树结构构建特征矩阵，进行逻辑回归的训练，得到LR模型。

在一实施例中，所述解密单元30，包括：

解密子单元，用于对所述梯度和组进行解密；

第二计算子单元，用于根据解密后的所述梯度和计算所述第一样本的增益；

选取子单元，用于根据所述增益选取最优特征划分；

传递子单元，用于将所述最优特征划分所对应的特征列及划分值传递给所述被动方。

在一实施例中，所述第二计算子单元，包括：

计算模块，用于通过公式

计算所述第一样本的增益，其中，所述g _l、h _l为分裂为左结点中第一样本的梯度信息，所述g _r、h _r为分裂为右结点中第一样本的梯度信息，所述g、h为当前所述第一样本的梯度信息，所述λ为公式G的参数。

在一实施例中，所述分裂单元50，包括：

第三划分子单元，用于根据所述样本空间，将与所述样本空间内的所述第二样本相对应的所述第一样本划分为左结点；

第四划分子单元，用于将剩余所述第一样本划分为右结点，得到所述GBDT模型对应的树结构。

在一实施例中，所述构建单元60，包括：

编码单元，用于对所述树结构中的叶子结点作one-hot编码；

赋值单元，用于根据所述one-hot编码对所述第一样本进行赋值，构造稀疏矩阵；

训练子单元，用于将所述稀疏矩阵作为特征矩阵，进行逻辑回归的训练，得到所述LR模型。

参见图5，本申请一实施例提供了另一种基于联邦学习的GBDT与LR融合装置，包括：

第三获取单元1A，用于获取所述被动方的各个第二样本的年龄特征值；

排序单元1B，用于对所述第二样本根据所述年龄特征值进行排序；

分组单元1C，用于对所述第二样本根据所述排序按照预设分位数进行划分，得到各个分组；

计算单元1D，用于计算各个分组的梯度和，得到所述梯度和组；

加密单元1E，用于将所述梯度和组经过加密后传给主动方；

第四获取单元1F，用于获取所述主动方的划分值；其中，所述划分值是所述主动方对所述梯度和组进行解密，根据解密后的所述梯度和选取最优特征划分所得到的；

划分单元1G，用于将属于所述划分值的所述第二样本划分在左结点，将不属于所述划分值的所述第二样本划分在右结点，得到所述左结点或所述右结点对应的样本空间；

传递单元1H，用于将所述左结点或所述右结点对应的样本空间传递给所述主动方。

在本实施例中，上述各个单元、子单元的具体实现请参照上述方法实施例中所述，在此不再进行赘述。

参照图6，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储第一样本数据、第二样本数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于联邦学习的GBDT与LR融合方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，上述存储介质可以是非易失性存储介质，也可以是易失性存储介质。其上存储有计算机程序，计算机程序被处理器执行时实现一种基于联邦学习的GBDT与LR融合方法。

综上所述，为本申请实施例中提供的基于联邦学习的GBDT与LR融合方法、装置、设备和存储介质，主动方计算各个第一样本的梯度，将所述梯度经过加密后传给被动方，其中，所述第一样本具有标签；获取被动方经过加密后的梯度和组；其中，所述梯度和组是通过所述被动方将各个第二样本按照属性进行分组后，计算各个分组的梯度和所得到的梯度和组；所述第一样本和所述第二样本对应相同的用户，所述第二样本不具有标签；对所述梯度和组进行解密，根据解密后的所述梯度和选取最优特征划分，将所述最优特征划分对应的划分值传给所述被动方；获取所述被动方被划分为左结点或右结点的样本空间；其中，所述样本空间是通过所述被动方将所述第二样本根据所述划分值进行划分，所得到左结点或右结点对应的样本空间；根据所述样本空间对所述第一样本进行分裂，得到GBDT模型对应的树结构；根据所述树结构构建特征矩阵，进行逻辑回归的训练，得到LR模型。基于联邦学习的GBDT与LR融合方法能在不直接将数据聚合进行模型训练的情况下构建一个可解释性高且效果较好的联邦模型。该方法在训练LR模型时，直接根据GBDT模型的树结构构建特征矩阵，无需繁琐的特征构造，就能得到解释性高的LR模型。该方法仅仅在构建GBDT模型时需要传输梯度等，LR模型的构建直接在主动方训练得到，因此时间效率基本取决于GBDT的模型效率，不会提升时间复杂度。同时，主动方与被动方之间并不需要知道对方的数据信息，各自的金融数据不会被其他方知晓，使得金融数据也可以用于机器学习模型训练。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种基于联邦学习的GBDT与LR融合方法，应用于主动方，其中，包括以下步骤：

计算各个第一样本的梯度，将所述梯度经过加密后传给被动方，其中，所述第一样本具有标签；

获取被动方经过加密后的梯度和组；其中，所述梯度和组是通过所述被动方将各个第二样本按照属性进行分组后，计算各个分组的梯度和所得到的梯度和组；所述第一样本和所述第二样本对应相同的用户，所述第二样本不具有标签；

对所述梯度和组进行解密，根据解密后的所述梯度和选取最优特征划分，将所述最优特征划分对应的划分值传给所述被动方；

获取所述被动方被划分为左结点或右结点的样本空间；其中，所述样本空间是通过所述被动方将所述第二样本根据所述划分值进行划分，所得到左结点或右结点对应的样本空间；

根据所述样本空间对所述第一样本进行分裂，得到GBDT模型对应的树结构；

根据所述树结构构建特征矩阵，进行逻辑回归的训练，得到LR模型。
根据权利要求1所述的基于联邦学习的GBDT与LR融合方法，其中，所述对所述梯度和组进行解密，根据解密后的所述梯度和选取最优特征划分，将所述最优特征划分对应的划分值传给所述被动方的步骤，包括：

对所述梯度和组进行解密；

根据解密后的所述梯度和计算所述第一样本的增益；

根据所述增益选取最优特征划分；

将所述最优特征划分所对应的划分值传递给所述被动方。
根据权利要求2所述的基于联邦学习的GBDT与LR融合方法，其中，所述根据解密后的所述梯度和计算所述第一样本的增益的步骤，包括：

通过公式
计算所述第一样本的增益，其中，所述g _l、h _l为分裂为左结点中第一样本的梯度信息，所述g _r、h _r为分裂为右结点中第一样本的梯度信息，所述g、h为当前所述第一样本的梯度信息，所述λ为公式G的参数。
根据权利要求1所述的基于联邦学习的GBDT与LR融合方法，其中，所述根据所述样本空间对所述第一样本进行分裂，得到GBDT模型对应的树结构的步骤，包括：

根据所述样本空间，将所述样本空间内的所述第二样本相对应的所述第一样本划分为左结点；

将剩余所述第一样本划分为右结点，得到所述GBDT模型对应的树结构。
根据权利要求1所述的基于联邦学习的GBDT与LR融合方法，其中，所述根据所述树结构构建特征矩阵，进行逻辑回归的训练，得到LR模型的步骤，包括：

对所述树结构中的叶子结点作one-hot编码；

根据所述one-hot编码对所述第一样本进行赋值，构造稀疏矩阵；

将所述稀疏矩阵作为特征矩阵，进行逻辑回归的训练，得到所述LR模型。
一种基于联邦学习的GBDT与LR融合方法，应用于被动方，其中，包括以下步骤：

获取所述被动方的各个第二样本的年龄特征值；

对所述第二样本根据所述年龄特征值进行排序；

对所述第二样本根据所述排序按照预设分位数进行划分，得到各个分组；

计算各个分组的梯度和，得到所述梯度和组；

将所述梯度和组经过加密后传给主动方；

获取所述主动方的划分值；其中，所述划分值是所述主动方对所述梯度和组进行解密，根据解密后的所述梯度和选取最优特征划分所得到的；

将属于所述划分值的所述第二样本划分在左结点，将不属于所述划分值的所述第二样本划分在右结点，得到所述左结点或所述右结点对应的样本空间；

将所述左结点或所述右结点对应的样本空间传递给所述主动方。
一种基于联邦学习的GBDT与LR融合装置，其中，包括：

计算单元，用于计算各个第一样本的梯度，将所述梯度经过加密后传给被动方，其中，所述第一样本具有标签；

第一获取单元，用于获取被动方经过加密后的梯度和组；其中，所述梯度和组是通过所述被动方将各个第二样本按照属性进行分组后，计算各个分组的梯度和所得到的梯度和组；所述第一样本和所述第二样本对应相同的用户，所述第二样本不具有标签；

解密单元，用于对所述梯度和组进行解密，根据解密后的所述梯度和选取最优特征划分，将所述最优特征划分对应的划分值传给所述被动方；

第二获取单元，用于获取所述被动方被划分为左结点或右结点的样本空间；其中，所述样本空间是通过所述被动方将所述第二样本根据所述划分值进行划分，所得到左结点或右结点对应的样本空间；

分裂单元，用于根据所述样本空间对所述第一样本进行分裂，得到GBDT模型对应的树结构；

构建单元，用于根据所述树结构构建特征矩阵，进行逻辑回归的训练，得到LR模型。
一种基于联邦学习的GBDT与LR融合装置，其中，包括：

第三获取单元，用于获取所述被动方的各个第二样本的年龄特征值；

排序单元，用于对所述第二样本根据所述年龄特征值进行排序；

分组单元，用于对所述第二样本根据所述排序按照预设分位数进行划分，得到各个分组；

计算单元，用于计算各个分组的梯度和，得到所述梯度和组；

加密单元，用于将所述梯度和组经过加密后传给主动方；

第四获取单元，用于获取所述主动方的划分值；其中，所述划分值是所述主动方对所述梯度和组进行解密，根据解密后的所述梯度和选取最优特征划分所得到的；

划分单元，用于将属于所述划分值的所述第二样本划分在左结点，将不属于所述划分值的所述第二样本划分在右结点，得到所述左结点或所述右结点对应的样本空间；

传递单元，用于将所述左结点或所述右结点对应的样本空间传递给所述主动方。
一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其中，所述处理器执行所述计算机程序时实现一种基于联邦学习的GBDT与LR融合方法的步骤：

计算各个第一样本的梯度，将所述梯度经过加密后传给被动方，其中，所述第一样本具有标签；

获取被动方经过加密后的梯度和组；其中，所述梯度和组是通过所述被动方将各个第二样本按照属性进行分组后，计算各个分组的梯度和所得到的梯度和组；所述第一样本和所述第二样本对应相同的用户，所述第二样本不具有标签；

对所述梯度和组进行解密，根据解密后的所述梯度和选取最优特征划分，将所述最优特征划分对应的划分值传给所述被动方；

获取所述被动方被划分为左结点或右结点的样本空间；其中，所述样本空间是通过所述被动方将所述第二样本根据所述划分值进行划分，所得到左结点或右结点对应的样本空间；

根据所述样本空间对所述第一样本进行分裂，得到GBDT模型对应的树结构；

根据所述树结构构建特征矩阵，进行逻辑回归的训练，得到LR模型。
根据权利要求9所述的计算机设备，其中，所述对所述梯度和组进行解密，根据解密后的所述梯度和选取最优特征划分，将所述最优特征划分对应的划分值传给所述被动方的步骤，包括：

对所述梯度和组进行解密；

根据解密后的所述梯度和计算所述第一样本的增益；

根据所述增益选取最优特征划分；

将所述最优特征划分所对应的划分值传递给所述被动方。
根据权利要求10所述的计算机设备，其中，所述根据解密后的所述梯度和计算所述第一样本的增益的步骤，包括：

通过公式
计算所述第一样本的增益，其中，所述g _l、h _l为分裂为左结点中第一样本的梯度信息，所述g _r、h _r为分裂为右结点中第一样本的梯度信息，所述g、h为当前所述第一样本的梯度信息，所述λ为公式G的参数。
根据权利要求9所述的计算机设备，其中，所述根据所述样本空间对所述第一样本进行分裂，得到GBDT模型对应的树结构的步骤，包括：

根据所述样本空间，将所述样本空间内的所述第二样本相对应的所述第一样本划分为左结点；

将剩余所述第一样本划分为右结点，得到所述GBDT模型对应的树结构。
根据权利要求9所述的计算机设备，其中，所述根据所述树结构构建特征矩阵，进行逻辑回归的训练，得到LR模型的步骤，包括：

对所述树结构中的叶子结点作one-hot编码；

根据所述one-hot编码对所述第一样本进行赋值，构造稀疏矩阵；

将所述稀疏矩阵作为特征矩阵，进行逻辑回归的训练，得到所述LR模型。
一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其中，所述处理器执行所述计算机程序时实现一种基于联邦学习的GBDT与LR融合方法的步骤：

获取所述被动方的各个第二样本的年龄特征值；

对所述第二样本根据所述年龄特征值进行排序；

对所述第二样本根据所述排序按照预设分位数进行划分，得到各个分组；

计算各个分组的梯度和，得到所述梯度和组；

将所述梯度和组经过加密后传给主动方；

获取所述主动方的划分值；其中，所述划分值是所述主动方对所述梯度和组进行解密，根据解密后的所述梯度和选取最优特征划分所得到的；

将属于所述划分值的所述第二样本划分在左结点，将不属于所述划分值的所述第二样本划分在右结点，得到所述左结点或所述右结点对应的样本空间；

将所述左结点或所述右结点对应的样本空间传递给所述主动方。
一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现一种基于联邦学习的GBDT与LR融合方法的步骤：

计算各个第一样本的梯度，将所述梯度经过加密后传给被动方，其中，所述第一样本具有标签；

获取被动方经过加密后的梯度和组；其中，所述梯度和组是通过所述被动方将各个第二样本按照属性进行分组后，计算各个分组的梯度和所得到的梯度和组；所述第一样本和所述第二样本对应相同的用户，所述第二样本不具有标签；

对所述梯度和组进行解密，根据解密后的所述梯度和选取最优特征划分，将所述最优特征划分对应的划分值传给所述被动方；

获取所述被动方被划分为左结点或右结点的样本空间；其中，所述样本空间是通过所述被动方将所述第二样本根据所述划分值进行划分，所得到左结点或右结点对应的样本空间；

根据所述样本空间对所述第一样本进行分裂，得到GBDT模型对应的树结构；

根据所述树结构构建特征矩阵，进行逻辑回归的训练，得到LR模型。
根据权利要求15所述的计算机可读存储介质，其中，所述对所述梯度和组进行解密，根据解密后的所述梯度和选取最优特征划分，将所述最优特征划分对应的划分值传给所述被动方的步骤，包括：

对所述梯度和组进行解密；

根据解密后的所述梯度和计算所述第一样本的增益；

根据所述增益选取最优特征划分；

将所述最优特征划分所对应的划分值传递给所述被动方。
根据权利要求16所述的计算机可读存储介质，其中，所述根据解密后的所述梯度和计算所述第一样本的增益的步骤，包括：

通过公式
计算所述第一样本的增益，其中，所述g _l、h _l为分裂为左结点中第一样本的梯度信息，所述g _r、h _r为分裂为右结点中第一样本的梯度信息，所述g、h为当前所述第一样本的梯度信息，所述λ为公式G的参数。
根据权利要求15所述的计算机可读存储介质，其中，所述根据所述样本空间对所述第一样本进行分裂，得到GBDT模型对应的树结构的步骤，包括：

根据所述样本空间，将所述样本空间内的所述第二样本相对应的所述第一样本划分为左结点；

将剩余所述第一样本划分为右结点，得到所述GBDT模型对应的树结构。
根据权利要求15所述的计算机可读存储介质，其中，所述根据所述树结构构建特征矩阵，进行逻辑回归的训练，得到LR模型的步骤，包括：

对所述树结构中的叶子结点作one-hot编码；

根据所述one-hot编码对所述第一样本进行赋值，构造稀疏矩阵；

将所述稀疏矩阵作为特征矩阵，进行逻辑回归的训练，得到所述LR模型。
一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现一种基于联邦学习的GBDT与LR融合方法的步骤：

获取所述被动方的各个第二样本的年龄特征值；

对所述第二样本根据所述年龄特征值进行排序；

对所述第二样本根据所述排序按照预设分位数进行划分，得到各个分组；

计算各个分组的梯度和，得到所述梯度和组；

将所述梯度和组经过加密后传给主动方；

获取所述主动方的划分值；其中，所述划分值是所述主动方对所述梯度和组进行解密，根据解密后的所述梯度和选取最优特征划分所得到的；

将属于所述划分值的所述第二样本划分在左结点，将不属于所述划分值的所述第二样本划分在右结点，得到所述左结点或所述右结点对应的样本空间；

将所述左结点或所述右结点对应的样本空间传递给所述主动方。