WO2021000572A1

WO2021000572A1 - 数据处理方法、装置和电子设备

Info

Publication number: WO2021000572A1
Application number: PCT/CN2020/071577
Authority: WO
Inventors: 李漓春; 张晋升; 王华忠
Original assignee: 创新先进技术有限公司
Priority date: 2019-07-01
Filing date: 2020-01-11
Publication date: 2021-01-07
Also published as: TW202103154A; CN110427969B; TWI729698B; CN110427969A

Abstract

本说明书实施例提供一种数据处理方法、装置和电子设备。所述方法包括：根据所述业务数据，确定分裂条件集合中分裂条件的取值，得到取值集合；利用随机数对取值集合中的取值进行加密，得到取值密文集合；以取值密文集合为输入与模型方协作执行安全数据选择算法；以随机数为输入与模型方协作执行多方安全计算算法，以便模型方和/或数据方获得决策森林的预测结果。

Description

数据处理方法、装置和电子设备

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种数据处理方法、装置和电子设备。

背景技术

在业务实际中，通常一方拥有需要保密的模型(以下称为模型方)，另一方拥有需要保密的业务数据(以下称为数据方)。如何在所述模型方不泄漏所述模型、且所述数据方不泄漏所述业务数据的条件下，使得模型方和/或模型方获得基于所述模型对所述业务数据进行预测后的预测结果，是当前亟需解决的技术问题。

发明内容

本说明书实施例的目的是提供一种数据处理方法、装置和电子设备，以便于在模型方不泄漏自身的模型、且数据方不泄漏自身的业务数据的条件下，或者，在模型方不泄漏自身的模型和业务数据、且数据方不泄漏自身的业务数据的条件下，模型方和/或数据方获得基于所述模型对业务数据进行预测后的预测结果。

为实现上述目的，本说明书中一个或多个实施例提供的技术方案如下。

根据本说明书一个或多个实施例的第一方面，提供了一种数据处理方法，应用于模型方，包括：从决策森林中选取与数据方持有的业务数据相关联的分裂节点作为目标分裂节点，所述决策森林包括至少一个决策树，所述决策树包括至少一个分裂节点和至少两个叶子节点，所述分裂节点对应有真实分裂条件，所述叶子节点对应有叶子值；为所述目标分裂节点生成虚假分裂条件；向数据方发送所述目标分裂节点对应的分裂条件集合，所述分裂条件集合包括虚假分裂条件和真实分裂条件。

根据本说明书一个或多个实施例的第二方面，提供了一种数据处理装置，设置于模型方，包括：选取单元，用于从决策森林中选取与数据方持有的业务数据相关联的分裂节点作为目标分裂节点，所述决策森林包括至少一个决策树，所述决策树包括至少一个分裂节点和至少两个叶子节点，所述分裂节点对应有真实分裂条件，所述叶子节点对应有叶子值；生成单元，用于为所述目标分裂节点生成虚假分裂条件；发送单元，用于向数据方发送所述目标分裂节点对应的分裂条件集合，所述分裂条件集合包括虚假分裂条件和真实分裂条件。

根据本说明书一个或多个实施例的第三方面，提供了一种电子设备，包括：存储器，用于存储计算机指令；处理器，用于执行所述计算机指令以实现如第一方面所述的方法步骤。

根据本说明书一个或多个实施例的第四方面，提供了一种数据处理方法，应用于数据方，所述数据方持有业务数据和目标分裂节点对应的分裂条件集合，所述目标分裂节点为决策森林中与所述业务数据相关联的分裂节点，所述方法包括：根据所述业务数据，确定分裂条件集合中分裂条件的取值，得到取值集合；利用随机数对取值集合中的取值进行加密，得到取值密文集合；以取值密文集合为输入与模型方协作执行安全数据选择算法；以随机数为输入与模型方协作执行多方安全计算算法，以便模型方和/或数据方获得决策森林的预测结果。

根据本说明书一个或多个实施例的第五方面，提供了一种数据处理装置，设置于数据方，所述数据方持有业务数据和目标分裂节点对应的分裂条件集合，所述目标分裂节点为决策森林中与所述业务数据相关联的分裂节点，所述装置包括：确定单元，用于根据所述业务数据，确定所述分裂条件集合中分裂条件的取值，得到取值集合；加密单元，用于利用随机数对取值集合中的取值进行加密，得到取值密文集合；第一计算单元，用于以取值密文集合为输入与模型方协作执行安全数据选择算法；第二计算单元，用于以随机数为输入与模型方协作执行多方安全计算算法，以便模型方和/或数据方获得决策森林的预测结果。

根据本说明书一个或多个实施例的第六方面，提供了一种电子设备，包括：存储器，用于存储计算机指令；处理器，用于执行所述计算机指令以实现如第四方面所述的方法步骤。

根据本说明书一个或多个实施例的第七方面，提供了一种数据处理方法，应用于模型方，所述模型方持有决策森林，所述决策森林包括目标分裂节点，所述目标分裂节点与数据方持有的业务数据相关联、且对应有分裂条件集合，所述分裂条件集合包括真实分裂条件和虚假分裂条件，所述方法包括：将分裂条件集合中真实分裂条件所在的位次作为数据选择值，以数据选择值为输入与模型方协作执行安全数据选择算法，得到真实分裂条件的取值密文；以取值密文为输入与模型方协作执行多方安全计算算法，以便模型方和/或数据方获得决策森林的预测结果。

根据本说明书一个或多个实施例的第八方面，提供了一种数据处理装置，设置于模型方，所述模型方持有决策森林，所述决策森林包括目标分裂节点，所述目标分裂节点与数据方持有的业务数据相关联、且对应有分裂条件集合，所述分裂条件集合包括真实分裂条件和虚假分裂条件，所述装置包括：第一计算单元，用于将分裂条件集合中真实分裂条件所在的位次作为数据选择值，以数据选择值为输入与模型方协作执行安全数据选择算法，得到真实分裂条件的取值密文；第二计算单元，用于以取值密文为输入与模型方协作执行多方安全计算算法，以便模型方和/或数据方获得决策森林的预测结果。

根据本说明书一个或多个实施例的第九方面，提供了一种电子设备，包括：存储器，用于存储计算机指令；处理器，用于执行所述计算机指令以实现如第七方面所述的方法步骤。

由以上本说明书实施例提供的技术方案可见，本实施例的数据处理方法，通过为与数据方持有的业务数据相关联的分裂节点添加虚假分裂条件以进行混淆，可以实现在模型方不泄漏自身持有的决策森林、且数据方不泄漏自身持有的业务数据的条件下，或者，在模型方不泄漏自身持有的决策森林和业务数据，且数据方不泄漏自身持有的业务数据的条件下，由数据方和/或数据方获得决策森林的预测结果。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施例一种决策树的结构示意图；

图2为本说明书实施例一种数据处理方法的流程图；

图3为本说明书实施例一种数据处理方法的流程图；

图4为本说明书实施例一种决策树的结构示意图；

图5为本说明书实施例一种数据处理方法的流程图；

图6为本说明书实施例一种数据处理方法的流程图；

图7为本说明书实施例一种数据处理装置的功能结构示意图；

图8为本说明书实施例一种数据处理装置的功能结构示意图；

图9为本说明书实施例一种数据处理装置的功能结构示意图；

图10为本说明书实施例一种电子设备的功能结构示意图。

具体实施方式

下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

多方安全计算(Secure Muti-Party Computation，MPC)是一种保护数据隐私安全的算法。多个参与方可以在不泄漏自身数据的前提下，使用多方安全计算技术进行协作计算，得到计算结果。利用多方安全计算技术可以实现任意类型的数学运算，诸如四则运算(例如加法运算、减法运算、乘法运算、除法运算)、逻辑运算(例如与运算、或运算、异或运算)等。

在实际应用中，多方安全计算可以有多种实现方式。例如，采用多方安全计算，参与方P ₁,…,P _n可以协作计算函数f(x ₁,…,x _n)＝(y ₁,…,y _n)＝y。其中，n≥2；x ₁,...,x _n分别为参与方P ₁,…,P _n拥有的数据；y为计算结果；y ₁,…,y _n分别为参与方P ₁,…,P _n在计算后所拥有的计算结果y的份额；y ₁+y ₂+…+y _n＝y。另举一例，采用多方安全计算，参与方P ₁,…,P _n可以协作计算函数f(x ₁,…,x _n)＝y。参与方P ₁,…,P _n中的一个或多个在计算后可以拥有计算结果y。

安全数据选择算法是一种可以保护隐私的数据选择算法，具体可以包括不经意传输(Oblivious Transfer，OT)和私有信息检索(Private Information Retrieval，PIR)等算法。

不经意传输，又称为茫然传输，是一种可以保护隐私的双方通信协议，能够使通信双方以一种选择模糊化的方式传递数据。发送方可以具有多个数据。经由不经意传输接收方能够获得所述多个数据中的一个或多个数据。在此过程中，发送方不知晓接收方接收的是哪些数据；而接收方不能够获得其所接收数据之外的其它任何数据。

私有信息检索，是一种保护隐私的安全检索协议。服务方可以具有多个数据。需求方可以从服务方的多个数据中检索一个或多个数据。服务方不知晓需求方检索的是哪些数据。需求方也不知晓除了其所检索数据以外的其它任何数据。

决策树：一种有监督的机器学习模型。所述决策树可以包括二叉树等。所述决策树可以包括多个节点。每个节点可以对应有位置信息，所述位置信息用于表示节点在决策树中的位置，例如可以为节点的编号等。所述多个节点能够形成多个预测路径。所述预测路径的起始节点为所述决策树的根节点，终止节点为所述决策树的叶子节点。

所述决策树可以包括回归决策树和分类决策树等。所述回归决策树的预测结果可以为一个具体的数值。所述分类决策树的预测结果可以为一个具体的类别。值得说明的是，为了便于分析计算，通常可以采用向量来表示类别。例如，向量[1 0 0]可以表示类别A，向量[0 1 0]可以表示类别B，向量[0 0 1]可以表示类别C。当然，此处的向量仅为示例，在实际应用中还可以采用其它的数学方式来表示类别。

分裂节点：当决策树中的一个节点能够向下分裂时，可以将该节点称为分裂节点。所述分裂节点可以包括根节点、以及除叶子节点和根节点以外的其它节点。所述分裂节点对应有分裂条件和数据类型，所述分裂条件可以用于选择预测路径，所述数据类型用于表示分裂条件针对的是哪些类型的数据。

叶子节点：当决策树中的一个节点不能够向下分裂时，可以将该节点称为叶子节点。所述叶子节点对应有叶子值。不同叶子节点对应的叶子值可以相同或不同。每个叶子值可以表示一种预测结果。所述叶子值可以为数值或向量等。例如，回归决策树的叶子节点对应的叶子值可以为数值，分类决策树的叶子节点对应的叶子值可以为向量。

为了更好地对以上术语进行理解，以下介绍一个场景示例。

请参阅图1。在本场景示例中，决策树Tree1可以包括节点1、2、3、4和5。节点1、2、3、4和5的位置信息分别为1、2、3、4和5。其中，节点1为根节点，节点1、2和3为分裂节点，节点3、4和5为叶子节点。节点1、2和4可以形成一个预测路径，节点1、2和5可以形成另一个预测路径，节点1和3可以形成另一个预测路径。

分裂节点1、2和3对应的分裂条件和数据类型可以如下表1所示。

表1

分裂节点	分裂条件	数据类型
1	年龄大于20岁	年龄
2	年收入大于5万	收入

叶子节点3、4和5对应的叶子值可以如下表2所示。

表2

叶子节点	叶子值
3	200
4	700
5	500

在决策树Tree1中，分裂条件“年龄大于20岁”、“年收入大于5万”可以用于选择预测路径。当满足分裂条件时，可以选择左边的预测路径；当不满足分裂条件时，可以选择右边的预测路径。具体地，针对节点1，当满足分裂条件“年龄大于20岁”时，可以选择左边的预测路径，进而跳转到节点2；当不满足分裂条件“年龄大于20岁”时，可以选择右边的预测路径，进而跳转到节点3。针对节点2，当满足分裂条件“年收入大于5万”时，可以选择左边的预测路径，进而跳转到节点4；当不满足分裂条件“年收入大于5万”时，可以选择右边的预测路径，进而跳转到节点5。

一个或多个决策树可以构成决策森林。所述决策森林可以包括回归决策森林和分类决策森林。所述回归决策森林可以包括一个或多个回归决策树。当回归决策森林包括一个回归决策树时，可以将该回归决策树的预测结果作为该回归决策森林的预测结果。当回归决策森林包括多个回归决策树时，可以对所述多个回归决策树的预测结果进行求和处理，可以将求和结果作为该回归决策森林的预测结果。所述分类决策森林可以包括一个或多个分类决策树。当分类决策森林包括一个分类决策树时，可以将该分类决策树的预测结果作为该分类决策森林的预测结果。当分类决策森林包括多个分类决策树时，可以对所述多个分类决策树的预测结果进行统计，可以将统计结果作为该分类决策森林的预测结果。值得说明的是，在一些场景下，分类决策树的预测结果可以表示为向量，所述向量可以用于表示类别。如此，可以对分类决策森林中多个分类决策树预测出的向量进行求和处理，可以将求和结果作为分类决策森林的预测结果。例如，某一分类决策森林可以包括分类决策树Tree2、Tree3、Tree4。分类决策树Tree2的预测结果可以表示为向量[1 0 0]，向量[1 0 0]表示类别A。分类决策树Tree3的预测结果可以表示为向量[0 1 0]，向量[0 1 0]表示类别B。分类决策树Tree4的预测结果可以表示为向量[1 0 0]，向量[0 0 1]表示类别C。那么，可以对向量[1 0 0]、[0 1 0]和[1 0 0] 进行求和处理，得到向量[2 1 0]作为分类决策森林的预测结果。向量[2 1 0]表示在分类决策森林中预测结果为类别A的次数为2次、预测结果为类别B的次数为1次，预测结果为类别C的次数为0次。

本说明书提供数据处理系统的一个实施例。

所述数据处理系统可以包括模型方和数据方。模型方和数据方可以分别为服务器、手机、平板电脑、或个人电脑等设备；或者，也可以分别为由多台设备组成的系统，例如由多个服务器组成的服务器集群。模型方可以持有需要保密的决策森林，数据方可以持有需要保密的业务数据。在实际应用中，一些情况下，数据方持有全体业务数据。另一些情况下，模型方持有全体业务数据中的一部分业务数据，数据方持有全体业务数据中的另一部分业务数据。例如，模型方持有交易业务数据，数据方持有借贷业务数据。模型方和数据方可以进行协作计算，以便模型方和/或数据方获得基于决策森林对全体业务数据进行预测后的预测结果。

请参阅图2。基于前面的数据处理系统实施例，本说明书提供数据处理方法的一个实施例。该实施例应用于预处理阶段。该实施例以模型方为执行主体，可以包括以下步骤。

步骤S10：从决策森林中选取与数据方持有的业务数据相关联的分裂节点作为目标分裂节点，所述决策森林包括至少一个决策树，所述决策树包括至少一个分裂节点和至少两个叶子节点，所述分裂节点对应有真实分裂条件，所述叶子节点对应有叶子值。

在一些实施例中，决策森林中的每个分裂节点可以对应有分裂条件。为了与后续的虚假分裂条件进行区分，可以将这里的分裂条件作为真实分裂条件。

在一些实施例中，分裂节点与数据方持有的业务数据相关联可以理解为：分裂节点对应的数据类型与数据方持有业务数据的数据类型相同。模型方可以预先获得数据方持有业务数据的数据类型。如此模型方可以从决策森林中选取对应的数据类型与数据方持有的业务数据的数据类型相同的分裂节点作为目标分裂节点。

在一些实施例中，所述目标分裂节点的数量可以为一个或多个。具体地，在一些实施方式中，数据方持有全体业务数据，模型方不持有任何业务数据。决策森林中的所有分裂节点均与数据方持有的业务数据相关联。这样决策森林中的所有分裂节点均为目标分裂节点。在另一些实施方式中，数据方持有全体业务数据中的一部分数据，模型方持有全体业务数据中的另一部分数据。决策森林中的部分分裂节点与数据方持有的业务数据相关联，另一部分分裂节点与模型方持有的业务数据相关联。这样决策森林中的部分分裂节点为目标分裂节点。

步骤S12：为所述目标分裂节点生成虚假分裂条件。

在一些实施例中，模型方可以为每个目标分裂节点生成至少一个虚假分裂条件。所述虚假分裂条件可以是随机生成的，或者，还可以是按照预设规则生成的。

步骤S14：向数据方发送所述目标分裂节点对应的分裂条件集合，所述分裂条件集合包括虚假分裂条件和真实分裂条件。

在一些实施例中，经过步骤S12，每个目标分裂节点可以对应有虚假分裂条件和真实分裂条件，可以将虚假分裂条件和真实分裂条件形成的集合作为该目标分裂节点对应的分裂条件集合。所述模型方可以向数据方发送每个目标分裂节点对应的分裂条件集合。数据方可以接收目标分裂节点对应的分裂条件集合。分裂条件集合中的分裂条件可以具有一定的顺序，真实分裂条件所在的位次是随机的。通过虚假分裂条件进行混淆，使得数据方不知晓分裂条件集合中的哪个分裂条件为真实分裂条件，从而实现了对决策森林的隐私保护。

在一些实施例中，模型方可以保留决策森林中叶子节点对应的叶子值。

在一些实施方式中，决策森林中的所有分裂节点均与数据方持有的业务数据相关联。即，决策森林中的所有分裂节点均为目标分裂节点。在另一些实施方式中，决策森林中的一部分分裂节点与数据方持有的业务数据相关联，另一部分分裂节点与模型方持有的业务数据相关联。即，决策森林中包括目标分裂节点和除目标分裂节点以外的其它分裂节点。分裂节点与模型方持有的业务数据相关联可以理解为：分裂节点对应的数据类型与模型方持有业务数据的数据类型相同。如此模型方可以保留所述其它分裂节点对应的真实分裂条件。

在一些实施例中，模型方还可以向数据方发送决策森林中分裂节点的位置信息和叶子节点的位置信息。数据方可以接收决策森林中分裂节点的位置信息和叶子节点的位置信息；可以基于决策森林中分裂节点的位置信息和叶子节点的位置信息，重构决策森林中决策树的拓扑结构。决策树的拓扑结构可以包括决策树中分裂节点和叶子节点的连接关系。

本实施例的数据处理方法，模型方可以从决策森林中选取与数据方持有的业务数据相关联的分裂节点作为目标分裂节点，可以为所述目标分裂节点生成虚假分裂条件，可以向数据方发送所述目标分裂节点对应的分裂条件集合，所述分裂条件集合包括虚假分裂条件和真实分裂条件。这样一方面，通过虚假分裂条件进行混淆，实现了对决策森林的隐私保护。另一方面，便于利用决策森林对全体业务数据进行预测。

请参阅图3。基于前面的数据处理系统实施例，本说明书提供数据处理方法的另一个实施例。该实施例应用于预测阶段，可以包括以下步骤。

步骤S20：数据方根据持有的业务数据，确定目标分裂节点所对应分裂条件集合中分裂条件的取值，得到取值集合；所述目标分裂节点为决策森林中与数据方持有的业务数据相关联的分裂节点。

在一些实施例中，数据方可以获得决策森林中目标分裂节点对应的分裂条件集合。所述目标分裂节点为决策森林中与数据方持有的业务数据相关联的分裂节点，所述分裂条件集合可以包括虚假分裂条件和真实分裂条件。数据方可以根据持有的业务数据，确定目标分裂节点所对应分裂条件集合中分裂条件的取值，得到取值集合。所述取值集合可以包括至少两个取值，所述至少两个取值可以包括真实分裂条件的取值和至少一个虚假分裂条件的取值。

分裂条件的取值可以用于表征业务数据是否满足分裂条件，若是，分裂条件的取值可以为第一数值，若否，分裂条件的取值可以为第二数值。例如，所述第一数值可以为1，所述第二数值可以为0。在实际应用中，针对决策森林中的每个目标分裂节点，数据方可以根据自身持有的业务数据，分别确定该目标分裂节点所对应分裂条件集合中每个分裂条件的取值，可以将确定的取值作为该目标分裂节点所对应取值集合中的取值。

步骤S22：数据方利用随机数对取值集合中的取值进行加密，得到取值密文集合。

在一些实施例中，所述取值密文集合包括至少两个取值密文，所述至少两个取值密文可以包括真实分裂条件的取值密文和至少一个虚假分裂条件的取值密文。

在一些实施例中，数据方可以为每个目标分裂节点生成随机数。针对决策森林中的每个目标分裂节点，数据方可以利用该目标分裂节点的随机数，对该目标分裂节点所对应取值集合中的每个取值分别进行加密，可以将加密结果作为该目标分裂节点所对应取值密文集合中的取值密文。至于采用哪种方式对进行加密，本实施例并不做具体限定。例如，可以通过对随机数和分裂节点的取值进行异或运算来加密。

步骤S24：针对决策森林中的目标分裂节点，模型方以该目标分裂节点对应的数据选择值为输入，数据方以该目标分裂节点对应的取值密文集合为输入，二者协作执行安全数据选择算法。模型方从数据方输入的取值密文集合中选择真实分裂条件的取值密文。

在一些实施例中，数据选择值作为模型方在执行安全数据选择算法过程中的输入，可以用于从数据方在执行安全数据选择算法过程中输入的取值密文集合中选择取值密文。模型方具体可以将目标分裂节点所对应分裂条件集合中真实分裂条件所在的位次，作为该目标分裂节点对应的数据选择值。例如，某一分裂条件集合包括Condition1、Condition2、Condition3、Condition4等4个分裂条件。其中，Condition1、Condition2和Condition4为虚假分裂条件，Condition3为真实分裂条件。该分裂条件集合中分裂条件的顺序为Condition1、Condition2、Condition3和Condition4。那么，真实分裂条件Condition3所在的位次为3。

在一些实施例中，针对决策森林中的目标分裂节点，模型方可以以该目标分裂节点对应的数据选择值为输入，数据方可以以该目标分裂节点对应的取值密文集合为输入，二者协作执行安全数据选择算法。模型方可以从取值密文集合中选择真实分裂条件的取值密文。根据安全数据选择算法的特性，数据方并不知晓模型方具体选择了哪个取值密文，模型方也不能够知晓除了所选择取值密文以外的其它取值密文。所述安全数据选择算法可以包括不经意传输算法和私有信息检索算法等。

步骤S26：模型方以真实分裂条件的取值密文为输入，数据方以随机数为输入，二者协作执行多方安全计算算法。模型方和/或数据方获得决策森林的预测结果。

在一些实施例中，经过步骤S24，模型方获得了每个目标分裂节点所对应真实分裂条件的取值密文。针对决策森林中的每个决策树，模型方可以以该决策树中各个目标分裂节点所对应真实分裂条件的取值密文、以及叶子节点对应的叶子值为输入，数据方可以以该决策树中各个目标分裂节点对应的随机数为输入，二者协作执行多方安全计算算法。模型方和/或数据方可以获得该决策树的预测结果。模型方和/或数据方可以根据决策森林中决策树的预测结果，确定决策森林的预测结果。至于具体的确定方式可以参见前面的叙述，在此不再赘述。

在一些实施方式中，决策森林中的所有分裂节点均与数据方持有的业务数据相关联。即，决策森林中的所有分裂节点均为目标分裂节点。在另一些实施方式中，决策森林中的一部分分裂节点与数据方持有的业务数据相关联，另一部分分裂节点与模型方持有的业务数据相关联。即，决策森林中包括目标分裂节点和除目标分裂节点以外的其它分裂节点。如此模型方可以根据自身持有的业务数据，确定所述其它分裂节点对应的真实分裂条件的取值。针对决策森林中的每个决策树，模型方可以以该决策树中各个目标分裂节点所对应真实分裂条件的取值密文、各个其它分裂节点所对应真实分裂条件的取值、以及叶子节点对应的叶子值为输入，数据方可以以该决策树中各个目标分裂节点对应的随机数为输入，二者协作执行多方安全计算算法。模型方和/或数据方可以获得该决策树的预测结果。

在一些实施例中，依据采用的多方安全计算算法类型的不同，模型方和/或数据方获得决策树的预测结果的方式可以不同。例如，通过执行多方安全计算，模型方和数据方可以分别获得决策树的预测结果的一份份额。为了便于区分，可以将模型方获得的份额作为第一份额，可以将数据方获得的份额作为第二份额。模型方可以向数据方发送第一份额。数据方可以接收第一份额；可以将第一份额和第二份额相加，得到决策树的预测结果。或者，数据方可以向模型方发送第二份额。模型方可以接收第二份额；可以将第一份额和第二份额相加，得到决策树的预测结果。或者，模型方可以向数据方发送第一份额，数据方可以接收第一份额；并且数据方可以向模型方发送第二份额，模型方可以接收第二份额。通过将第一份额和第二份额相加，模型方和数据方均可以获得决策树的预测结果。另举一例，通过执行多方安全计算，模型方和/或数据方可以直接得到决策树的预测结果。

以下介绍一个应用场景示例。需要说明的是，该应用场景示例的目的仅在于更好地说明本说明书的实施例，并不构成对本实施例的不当限定。

请参阅图4。在本场景示例中，决策树Tree2可以包括节点C1、C2、C3、C4、C5、O6、O7、O8、O9、O10和O11。其中，节点C1、C2、C3、C4和C5为分裂节点，节点O7、O8、O9、O10和O11为叶子节点。在决策树Tree2中，分裂节点左侧的分支为取值为0的分支，具体表示不满足分裂条件的分支；分裂节点右侧的分支为取值为1的分支，具体表示满足分裂条件的分支。

在本场景示例中，模型方持有决策树Tree2。数据方持有全体业务数据。决策树Tree2中的分裂节点C1、C2、C3、C4和C5均与数据方持有的业务数据相关联。

决策树Tree2的预测结果可以表示为如下公式。

v _Tree2＝((v _o8×(1-v _c4)+v _o9×v _c4)×(1-v _c2)+(v _o10×(1-v _c5)+v _o11×v _c5)×v _c2)×(1-v _c1)+

(v _o6×(1-v _c3)+v _o7×v _c3)×v _c1

＝v _o8×(1-v _c4)×(1-v _c2)×(1-v _c1)+v _o9×v _c4×(1-v _c2)×(1-v _c1)+

v _o10×(1-v _c5)×(1-v _c2)×(1-v _c1)+v _o11×v _c5×(1-v _c2)×(1-v _c1)+

v _o6×(1-v _c3)×v _c1+v _o7×v _c3×v _c1

(1)

上式(1)中，

v _Tree2表示决策树Tree2的预测结果；

v _o6表示叶子节点O6的叶子值。依次类推，v _o11表示叶子节点O11的叶子值；

v _c1表示分裂节点C1所对应真实分裂条件的取值密文。依次类推，v _c5表示分裂节点C5所对应真实分裂条件的取值密文。

模型方可以以v _c1,...,v _c5,...,v _o6,...,v _o11为输入，数据方可以以分裂节点C1、C2、C3、C4和C5的随机数为输入，二者协作执行多方安全计算算法。在执行多方安全计算算法后，模型方可以获得v _Tree2的一份份额v1 _Tree2，数据方可以获得v _Tree2的另一份份额v2 _Tree2。模型方可以向数据方发送v1 _Tree2。数据方可以接收v1 _Tree2；可以将v1 _Tree2和v2 _Tree2相加，得到v _Tree2。

本实施例的数据处理方法，通过为与数据方持有的业务数据相关联的分裂节点添加虚假分裂条件以进行混淆，可以实现在模型方不泄漏自身持有的决策森林、且数据方不泄漏自身持有的业务数据的条件下，或者，在模型方不泄漏自身持有的决策森林和业务数据，且数据方不泄漏自身持有的业务数据的条件下，由数据方和/或数据方获得决策森林的预测结果。

请参阅图5。基于同样的发明构思，本说明书提供数据处理方法的另一个实施例。该实施例以数据方为执行主体，可以包括以下步骤。

步骤S30：根据持有的业务数据，确定分裂条件集合中分裂条件的取值，得到取值集合。

步骤S32：利用随机数对取值集合中的取值进行加密，得到取值密文集合。

步骤S34：以取值密文集合为输入与模型方协作执行安全数据选择算法。

步骤S36：以随机数为输入与模型方协作执行多方安全计算算法，以便模型方和/或数据方获得决策森林的预测结果。

步骤S30、步骤S32、步骤S34和步骤S36的具体过程可以参见图2对应的实施例，在此不再赘述。

请参阅图6。基于同样的发明构思，本说明书提供数据处理方法的另一个实施例。该实施例以模型方为执行主体，可以包括以下步骤。

步骤S40：将分裂条件集合中真实分裂条件所在的位次作为数据选择值，以数据选择值为输入与模型方协作执行安全数据选择算法，得到真实分裂条件的取值密文。

步骤S42：以取值密文为输入与模型方协作执行多方安全计算算法，以便模型方和/或数据方获得决策森林的预测结果。

步骤S40和步骤S42的具体过程可以参见图2对应的实施例，在此不再赘述。

请参阅图7。本说明书还提供一种数据处理装置的实施例。该实施例可以设置于模型方。所述装置可以包括以下单元。

选取单元50，用于从决策森林中选取与数据方持有的业务数据相关联的分裂节点作为目标分裂节点，所述决策森林包括至少一个决策树，所述决策树包括至少一个分裂节点和至少两个叶子节点，所述分裂节点对应有真实分裂条件，所述叶子节点对应有叶子值；

生成单元52，用于为所述目标分裂节点生成虚假分裂条件；

发送单元54，用于向数据方发送所述目标分裂节点对应的分裂条件集合，所述分裂条件集合包括虚假分裂条件和真实分裂条件。

请参阅图8。本说明书还提供一种数据处理装置的实施例。该实施例可以设置于数据方，所述数据方持有业务数据和目标分裂节点对应的分裂条件集合，所述目标分裂节点为决策森林中与所述业务数据相关联的分裂节点。所述装置可以包括以下单元。

确定单元60，用于根据所述业务数据，确定所述分裂条件集合中分裂条件的取值，得到取值集合；

加密单元62，用于利用随机数对取值集合中的取值进行加密，得到取值密文集合；

第一计算单元64，用于以取值密文集合为输入与模型方协作执行安全数据选择算法；

第二计算单元66，用于以随机数为输入与模型方协作执行多方安全计算算法，以便模型方和/或数据方获得决策森林的预测结果。

请参阅图9。本说明书还提供一种数据处理装置的实施例。该实施例可以设置于模型方，所述模型方持有决策森林，所述决策森林包括目标分裂节点，所述目标分裂节点与数据方持有的业务数据相关联、且对应有分裂条件集合，所述分裂条件集合包括真实分裂条件和虚假分裂条件。所述装置可以包括以下单元。

第一计算单元70，用于将分裂条件集合中真实分裂条件所在的位次作为数据选择值，以数据选择值为输入与模型方协作执行安全数据选择算法，得到真实分裂条件的取值密文；

第二计算单元72，用于以取值密文为输入与模型方协作执行多方安全计算算法，以便模型方和/或数据方获得决策森林的预测结果。

下面介绍本说明书电子设备的一个实施例。图10是该实施例中一种电子设备的硬件结构示意图。如图10所示，所述电子设备可以包括一个或多个(图中仅示出一个)处理器、存储器和传输模块。当然，本领域普通技术人员可以理解，图10所示的硬件结构仅为示意，其并不对上述电子设备的硬件结构造成限定。在实际中所述电子设备还可以包括比图10所示更多或者更少的组件单元；或者，具有与图10所示不同的配置。

所述存储器可以包括高速随机存储器；或者，还可以包括非易失性存储器，例如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。当然，所述存储器还可以包括远程设置的网络存储器。所述远程设置的网络存储器可以通过诸如互联网、企业内部网、局域网、移动通信网等网络连接至所述电子设备。所述存储器可以用于存储应用软件的程序指令或模块，例如本说明书图2所对应实施例的程序指令或模块、本说明书图5所对应实施例的程序指令或模块、图6所对应实施例的程序指令或模块。

所述处理器可以按任何适当的方式实现。例如，所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以读取并执行所述存储器中的程序指令或模块。

所述传输模块可以用于经由网络进行数据传输，例如经由诸如互联网、企业内部网、局域网、移动通信网等网络进行数据传输。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其它实施例的不同之处。尤其，对于装置实施例和电子设备实施例而言，由于其基本相似于数据处理方法实施例，所以描述的比较简单，相关之处参见数据处理方法实施例的部分说明即可。

另外，可以理解的是，本领域技术人员在阅读本说明书文件之后，可以无需创造性劳动想到将本说明书列举的部分或全部实施例进行任意组合，这些组合也在本说明书公开和保护的范围内。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable Gate Array，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片2。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等，目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。

本说明书可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

虽然通过实施例描绘了本说明书，本领域普通技术人员知道，本说明书有许多变形和变化而不脱离本说明书的精神，希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims

一种数据处理方法，应用于模型方，包括：

从决策森林中选取与数据方持有的业务数据相关联的分裂节点作为目标分裂节点，所述决策森林包括至少一个决策树，所述决策树包括至少一个分裂节点和至少两个叶子节点，所述分裂节点对应有真实分裂条件，所述叶子节点对应有叶子值；

为所述目标分裂节点生成虚假分裂条件；

向数据方发送所述目标分裂节点对应的分裂条件集合，所述分裂条件集合包括虚假分裂条件和真实分裂条件。
如权利要求1所述的方法，在决策森林中分裂节点对应有数据类型，所述目标分裂节点对应的数据类型与所述业务数据的数据类型相同。
如权利要求1所述的方法，数据方持有全体业务数据；或者，模型方持有全体业务数据中的一部分业务数据，数据方持有全体业务数据中的另一部分业务数据。
如权利要求1所述的方法，所述决策森林还包括其它分裂节点，所述其它分裂节点与所述模型方持有的业务数据相关联；所述方法还包括：

保留其它分裂节点对应的真实分裂条件以及叶子节点对应的叶子值。
一种数据处理装置，设置于模型方，包括：

选取单元，用于从决策森林中选取与数据方持有的业务数据相关联的分裂节点作为目标分裂节点，所述决策森林包括至少一个决策树，所述决策树包括至少一个分裂节点和至少两个叶子节点，所述分裂节点对应有真实分裂条件，所述叶子节点对应有叶子值；

生成单元，用于为所述目标分裂节点生成虚假分裂条件；

发送单元，用于向数据方发送所述目标分裂节点对应的分裂条件集合，所述分裂条件集合包括虚假分裂条件和真实分裂条件。
一种电子设备，包括：

存储器，用于存储计算机指令；

处理器，用于执行所述计算机指令以实现如权利要求1-4中任一项所述的方法步骤。
一种数据处理方法，应用于数据方，所述数据方持有业务数据和目标分裂节点对应的分裂条件集合，所述目标分裂节点为决策森林中与所述业务数据相关联的分裂节点，所述方法包括：

根据所述业务数据，确定分裂条件集合中分裂条件的取值，得到取值集合；

利用随机数对取值集合中的取值进行加密，得到取值密文集合；

以取值密文集合为输入与模型方协作执行安全数据选择算法；

以随机数为输入与模型方协作执行多方安全计算算法，以便模型方和/或数据方获得决策森林的预测结果。
如权利要求7所述的方法，所述数据方持有全体业务数据；或者，所述模型方持有全体业务数据中的一部分业务数据，所述数据方持有全体业务数据中的另一部分业务数据；

所述分裂条件集合包括真实分裂条件和虚假分裂条件；

所述安全数据选择算法选自不经意传输算法和私有信息检索算法。
如权利要求7所述的方法，所述目标分裂节点的数量为至少一个；所述利用随机数对取值集合中的取值进行加密，得到取值密文集合，包括：

为每个目标分裂节点生成随机数；

利用目标分裂节点的随机数，对该目标分裂节点所对应取值集合中的每个取值分别进行加密，得到取值密文集合。
如权利要求7所述的方法，所述利用随机数对取值集合中的取值进行加密，得到取值密文集合，包括：

将随机数与取值集合中的每个取值分别进行异或运算，将运算结果作为取值密文集合中的取值密文。
一种数据处理装置，设置于数据方，所述数据方持有业务数据和目标分裂节点对应的分裂条件集合，所述目标分裂节点为决策森林中与所述业务数据相关联的分裂节点，所述装置包括：

确定单元，用于根据所述业务数据，确定所述分裂条件集合中分裂条件的取值，得到取值集合；

加密单元，用于利用随机数对取值集合中的取值进行加密，得到取值密文集合；

第一计算单元，用于以取值密文集合为输入与模型方协作执行安全数据选择算法；

第二计算单元，用于以随机数为输入与模型方协作执行多方安全计算算法，以便模型方和/或数据方获得决策森林的预测结果。
一种电子设备，包括：

存储器，用于存储计算机指令；

处理器，用于执行所述计算机指令以实现如权利要求7-10中任一项所述的方法步骤。
一种数据处理方法，应用于模型方，所述模型方持有决策森林，所述决策森林包括目标分裂节点，所述目标分裂节点与数据方持有的业务数据相关联、且对应有分裂条件集合，所述分裂条件集合包括真实分裂条件和虚假分裂条件，所述方法包括：

将分裂条件集合中真实分裂条件所在的位次作为数据选择值，以数据选择值为输入与模型方协作执行安全数据选择算法，得到真实分裂条件的取值密文；

以取值密文为输入与模型方协作执行多方安全计算算法，以便模型方和/或数据方获得决策森林的预测结果。
如权利要求13所述的方法，所述决策森林还包括其它分裂节点，所述其它分裂节点与所述模型方持有的业务数据相关联、且对应有真实分裂条件；所述方法还包括：

根据模型方持有的业务数据，确定所述其它分裂节点对应的真实分裂条件的取值；

所述以取值密文为输入与模型方协作执行多方安全计算算法，包括：

以目标分裂节点对应的真实分裂条件的取值密文和其它分裂节点对应的真实分裂条件的取值为输入，与模型方协作执行多方安全计算算法。
一种数据处理装置，设置于模型方，所述模型方持有决策森林，所述决策森林包括目标分裂节点，所述目标分裂节点与数据方持有的业务数据相关联、且对应有分裂条件集合，所述分裂条件集合包括真实分裂条件和虚假分裂条件，所述装置包括：

第一计算单元，用于将分裂条件集合中真实分裂条件所在的位次作为数据选择值，以数据选择值为输入与模型方协作执行安全数据选择算法，得到真实分裂条件的取值密文；

第二计算单元，用于以取值密文为输入与模型方协作执行多方安全计算算法，以便模型方和/或数据方获得决策森林的预测结果。
一种电子设备，包括：

存储器，用于存储计算机指令；

处理器，用于执行所述计算机指令以实现如权利要求13-14中任一项所述的方法步骤。