WO2021114927A1

WO2021114927A1 - 保护隐私安全的多方联合进行特征评估的方法及装置

Info

Publication number: WO2021114927A1
Application number: PCT/CN2020/124454
Authority: WO
Inventors: 陆梦倩; 汲小溪; 王维强
Original assignee: 支付宝(杭州)信息技术有限公司
Priority date: 2019-12-11
Filing date: 2020-10-28
Publication date: 2021-06-17
Also published as: TWI738333B; TW202123049A; CN110990857A; CN110990857B

Abstract

一种保护隐私安全的多方联合进行特征评估的方法和装置。该多方至少包括存储有第一样本集的第一设备和存储有第二样本集的第二设备，该方法应用于第一设备；该方法包括：对第一样本集中各样本的初始ID进行加密，并将得到的第一样本集的第一次加密ID和标签发送给第二设备；从第二设备接收第二样本集的第一次加密ID和所在分箱的标识，以及第一样本集的第二次加密ID和标签；对第二样本集的第一次加密ID进行加密，得到第二样本集的第二次加密ID；根据第二样本集的第二次加密ID和第一样本集的第二加密ID确定共有样本；根据共有样本的标签、所在分箱的标识计算特征的信息价值，以针对机器学习模型进行特征选择。

Description

保护隐私安全的多方联合进行特征评估的方法及装置

技术领域

本说明书一个或多个实施例涉及计算机信息处理领域，尤其涉及一种保护隐私安全的多方联合进行特征评估的方法及装置。

背景技术

机器学习所需要的数据往往会涉及到多个领域。例如在基于机器学习的商户分类分析场景中，电子支付平台拥有商户的交易流水数据，电子商务平台存储有商户的销售数据，银行机构拥有商户的借贷数据。数据往往以孤岛的形式存在。由于行业竞争、数据安全、用户隐私等问题，数据整合面临着很大阻力，将分散在各个平台的数据整合在一起训练机器学习模型难以实现。在保证数据不泄露的前提下，使用多方数据联合训练机器学习模型变成目前的一大挑战。为此，提出有联邦学习(Federated Learning)方案。

通常，利用联邦学习(Federated Learning)算法训练机器学习模型需要标签相关特征，因此，联邦学习的第一步是进行特征筛选。目前，较为常用的特征筛选方案为计算特征的信息价值(Information Value，IV)，以此来评估该特征和标签的相关性。计算特征的信息价值需要用到标签和特征数据。其中，计算非标签持有方的特征的信息价值需要标签持有方的标签数据，但标签持有方通常不愿意直接向非标签持有方透露的标签和用户的对应关系(即黑白名单库)。并且，非标签持有方也不愿意把其用户和特征数据透露给标签持有方。

另外，利用联邦学习(Federated Learning)需要各平台共有的用户，以进行联合训练。

而对于任一方而言，用户以及用户与标签(或特征)的对应关系都为隐私数据。因此，需要一种能够在各方未知其他方的用户的情况下，以及在标签和特征数据隔离的情况下，计算特征的信息价值的方案。

发明内容

本说明书一个或多个实施例描述了一种保护隐私安全的多方联合进行特征评估的方法及装置，可以在双方未知对方用户以及在标签和特征数据隔离的情况下，计算双方共有用户的特征的信息价值。

根据第一方面，提供了一种保护隐私安全的多方联合进行特征评估的方法，所述多方至少包括第一设备和第二设备，第一设备存储有第一样本集和其中各样本的标签，第二设备存储有第二样本集，所述方法应用于第一设备；所述方法包括：使用第一密钥对第一样本集中各样本的初始ID进行加密，得到第一样本集中各样本的第一次加密ID；向所述第二设备发送第一交换信息，其中至少包括，第一样本集中每个样本的第一次加密ID和标签；从所述第二设备分别接收第二交换信息和第三交换信息，其中，所述第二交换信息包括，由所述第二设备使用第二密钥对第一样本集中每个样本的第一次加密ID进行二次加密后得到的第二次加密ID和对应的标签，且所述第二交换信息中各样本的相对顺序已由所述第二设备扰乱；所述第三交换信息包括，针对第二样本集中每一个样本，由所述第二设备基于所述第二密钥对其初始ID进行加密得到的第一次加密ID和该样本所在第一分箱的标识，所述第一分箱的标识由所述第二设备基于第二样本集中各样本的第一特征的特征值进行分箱得到；使用所述第一密钥，对所述第三交换信息中各样本的第一次加密ID进行二次加密，得到第一加密集合；基于第二交换信息中的第二次加密ID和第一加密集合中的第二次加密ID,确定第一样本集和第二样本集的共有样本；基于共有样本中各样本的标签、所在第一分箱的标识，确定所述第一特征的信息价值，用以针对机器学习模型进行特征选择。

在一些实施例中，所述方法还包括：在向第二设备发送第一交换信息之前，基于第一样本集中各样本的第二特征的特征值，将第一样本集分成多个第二分箱，并将第一样本集中每一个样本所在第二分箱的标识包括在所述第一交换信息中；在得到所述第一加密集合之后，扰乱第二样本集中各样本的相对顺序，得到第四交换信息；向所述第二设备发送所述第四交换信息，以便所述第二设备基于所述第四交换信息中的第二次加密ID和第二加密集合中各样本的第二次加密ID确定共有样本，并基于共有样本中各样本的标签、所在第二分箱的标识，确定所述第二特征的信息价值，其中第二加密集合是使用所述第二密钥对所述第一交换信息中的第一次加密ID进行二次加密得到的。

在一些实施例中，所述基于第一样本集中各样本的第二特征的特征值，将第一样本集分成多个第二分箱包括：根据等频分箱、等距分箱、卡方分箱中任一项，将第一样本集分成所述多个第二分箱。

在一些实施例中，第一样本集中各样本的初始ID和第二样本集中各样本的初始ID均为正整数；在使用第一密钥对第一样本集中各样本的初始ID进行加密之前，所述方法还包括：确定大于第一样本集中各样本的初始ID中最大初始ID，且大于第二样本集中各样本的初始ID中最大初始ID的第一质数；确定与第一质数互质的第一正整数为所述第一密钥。

在一些实施例中，所述使用第一密钥对第一样本集中各样本的初始ID进行加密，得到第一样本集中各样本的第一次加密ID包括：对于第一样本集中每一个样本，确定该样本初始ID和所述第一密钥的乘积除以所述第一质数的余数为该样本的第一次加密ID。

在一些实施例中，第一样本集包括标签为正的多个样本和标签为负的多个样本；所述基于共有样本中各样本的标签、所在第一分箱的标识，确定所述第一特征的信息价值包括：确定共有样本中落入具有第一标识的第一分箱中且标签为正的样本个数，相对于共有样本中标签为正的样本总个数的第一比例；确定共有样本中落入所述具有第一标识的第一分箱中且标签为负的样本个数，相对于共有样本中标签为负的样本总个数的第二比例；基于各个标识的第一分箱分别对应的所述第一比例，和所述第二比例，确定共有样本的第一特征的信息价值。

在一些实施例中，所述第一样本集中的样本包括用户样本，所述机器学习模型为用户分类模型；或者，所述第一样本集中的样本包括业务样本，所述机器学习模型为业务处理模型。

根据第二方面，提供了一种保护隐私安全的多方联合进行特征评估的方法，所述多方至少包括第一设备和第二设备，所述第一设备存储有第一样本集和其中各样本的标签，所述第二设备存储有第二样本集，所述方法应用于第二设备；所述方法包括：从第一设备接收第一交换信息，其中至少包括，由所述第一设备使用第一密钥对第一样本集中每个样本的初始ID进行加密后得到的第一次加密ID和对应的标签；使用第二密钥，对所述第一交换信息中各样本的第一次加密ID进行二次加密，得到第二加密集合，然后扰乱所述第二加密集合中各样本的相对顺序；向所述第一设备发送第二交换信息，所述第二交换信息包括已扰乱相对顺序的第一样本集中各样本的第二次加密ID和标签；使用第二密钥对第二样本集中各个样本的初始ID进行加密，得到第二样本集中第一次加密ID；基于第二样本集中各样本的第一特征的特征值，将第二样本集分成多个第一分箱；

向所述第一设备发送第三交换信息，所述第三交换信息包括第二样本集中各样本的第一次加密ID和所在第一分箱的标识，以便所述第一设备使用第一密钥对第三交换信息中的第一次加密ID进行二次加密，得到第一加密集合，并基于第一加密集合中的第二次加密ID和所述第二交换信息中的第二次加密ID，确定第一样本集和第二样本集的共有样本，以及基于共有样本中各样本的标签、所在第一分箱的标识，确定所述第一特征的信息价值，用于针对机器学习模型进行特征选择。

在一些实施例中，所述第一交换信息还包括第一样本集中每一个样本所在第二分箱的标识，所述第二分箱的标识由所述第一设备基于第一样本集中各样本的第二特征的特征值进行分箱得到；所述方法还包括：从所述第一设备接收第四交换信息，所述第四交换信息包括第二样本集中各样本的第二次加密ID，且所述第四交换信息中各样本的相对顺序已由所述第一设备扰乱；基于所说第二加密集合的第二次加密ID和所述第四交换信息中的第二次加密ID，确定第一样本集和第二样本集的共有样本；基于共有样本中各样本的标签、所在第二分箱的标识，确定所述第二特征的信息价值，用于针对机器学习模型进行特征选择。

根据第三方面，提供了一种保护隐私安全的多方联合进行特征评估的装置，所述多方至少包括第一设备和第二设备，第一设备存储有第一样本集和其中各样本的标签，第二设备存储有第二样本集，所述装置配置于第一设备；所述装置包括：第一加密单元，用于使用第一密钥对第一样本集中各样本的初始ID进行加密，得到第一样本集中各样本的第一次加密ID；第一发送单元，用于向所述第二设备发送第一交换信息，其中至少包括，第一样本集中每个样本的第一次加密ID和标签；第一接收单元，用于从所述第二设备分别接收第二交换信息和第三交换信息，其中，所述第二交换信息包括，由所述第二设备使用第二密钥对第一样本集中每个样本的第一次加密ID进行二次加密后得到的第二次加密ID和对应的标签，且所述第二交换信息中各样本的相对顺序已由所述第二设备扰乱；所述第三交换信息包括，针对第二样本集中每一个样本，由所述第二设备基于所述第二密钥对其初始ID进行加密得到的第一次加密ID和该样本所在第一分箱的标识，所述第一分箱的标识由所述第二设备基于第二样本集中各样本的第一特征的特征值进行分箱得到；第二加密单元，用于使用所述第一密钥，对所述第三交换信息中各样本的第一次加密ID进行二次加密，得到第一加密集合；第一确定单元，用于基于第二交换信息中的第二次加密ID和第一加密集合中的第二次加密ID,确定第一样本集和第二样本集的共有样本；第二确定单元，用于基于共有样本中各样本的标签、所在第一分箱的标识，确定所述第一特征的信息价值，用以针对机器学习模型进行特征选择。

根据第四方面，提供了一种保护隐私安全的多方联合进行特征评估的装置，所述多方至少包括第一设备和第二设备，所述第一设备存储有第一样本集和其中各样本的标签，所述第二设备存储有第二样本集，所述装置配置于第二设备；所述装置包括：第二接收单元，用于从第一设备接收第一交换信息，其中至少包括，由所述第一设备使用第一密钥对第一样本集中每个样本的初始ID进行加密后得到的第一次加密ID和对应的标签；第三加密单元，用于使用第二密钥，对所述第一交换信息中各样本的第一次加密ID进行二次加密，得到第二加密集合，然后扰乱所述第二加密集合中各样本的相对顺序；第二发送单元，用于向所述第一设备发送第二交换信息，所述第二交换信息包括已扰乱相对顺序的第一样本集中各样本的第二次加密ID和标签；第四加密单元，用于使用第二密钥对第二样本集中各个样本的初始ID进行加密，得到第二样本集中第一次加密ID；第二分箱单元，用于基于第二样本集中各样本的第一特征的特征值，将第二样本集分成多个第一分箱；第二发送单元还用于向所述第一设备发送第三交换信息，所述第三交换信息包括第二样本集中各样本的第一次加密ID和所在第一分箱的标识，以便所述第一设备使用第一密钥对第三交换信息中的第一次加密ID进行二次加密，得到第一加密集合，并基于第一加密集合中的第二次加密ID和所述第二交换信息中的各样本的第二次加密ID，确定第一样本集和第二样本集的共有样本，以及基于共有样本中各样本的标签、所在第一分箱的标识，确定所述第一特征的信息价值，用于针对机器学习模型进行特征选择。

根据第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法或第六方面所述的方法。

根据第六方面，提供了一种计算终端，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法或第六方面的方法。

本说明书实施例提供的方法及装置，可以在双方未知对方用户以及在标签和特征数据隔离的情况下，计算双方共有用户的特征的信息价值，具体较高的安全性。

附图说明

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1A示出根据一个实施例的数据方A的数据示意图；

图1B示出根据一个实施例的数据方B的数据示意图；

图2示出根据一个实施例的联合计算特征的信息价值的流程图；

图3示出根据一个实施例的保护隐私安全的多方联合进行特征评估的方法的流程图；

图4示出根据一个实施例的对ID进行加密的流程图；

图5示出根据一个实施例的保护隐私安全的多方联合进行特征评估的方法的流程图；

图6示出根据一个实施例的保护隐私安全的多方联合进行特征评估的方法的流程图；

图7示出根据一个实施例的保护隐私安全的多方联合进行特征评估的装置的示意性框图；

图8示出根据一个实施例的保护隐私安全的多方联合进行特征评估的装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1A示出了本说明书实施例披露的数据方A拥有的数据。图1B示出了本说明书实施例披露的数据方B拥有的数据。图1A和图1B中的每一个ID(Identity Document，身份标识号)可以为唯一标识一个用户的数字编码，例如手机号等。如图1A和图1B所示，ID1、ID2、ID3为数据方A和数据方B共有的ID。图1A中的每一个ID具有标签和特征Fa的特征值。示例性的，如图1A所示，标签可分为正标签和负标签两种。图1B中的每一个ID具有特征Fb的特征值。

在一个示例性场景中，数据方A可以为电子支付平台(例如支付宝)，标签可以为欺诈商户的标记或非欺诈商户的标记。特征Fa可以为交易流水数据。数据方B可以为银行机构，特征Fb可以为借贷数据。每个ID对应的交易流水数据的特征值或者借贷数据的特征值，可以通过特征工程计算得到，具体可以参考现有技术介绍，此处不再赘述。

在一个示例性场景中，数据方A可以为电子商务平台(例如淘宝)，标签可以为正常买家的标记或非正常买家的标记，特征Fa可以为销售数据。数据方B可以为银行机构，特征Fb可以为借贷数据。

多方联合训练机器学习模型，需要使用数据方A和数据方B共有用户的特征。为了有效训练机器学习模型，需要评估特征和标签的相关性。

可以通过图2所示方案进行特征筛选。其中,数据方A中的多个ID(ID集合)，可以称为set_A。B中的多个ID(ID集合)，可以称为set_B。在进行联合计算时，数据方A可以将set_A和set_A的标签发送给数据方B。由此，数据方B可以确定set_A和set_B的共有ID，然后，计算共有ID的特征Fb的信息价值，以评估特征Fb和标签的相关性。数据方B可以将set_B发送给数据方A。由此，数据方A可以确定set_A和set_B的共有ID，然后，计算共有ID的特征Fa的信息价值，以评估特征Fa和标签的相关性。在该方案中，数据双方需要交换明文ID。

用于评估特征和标签的相关性的另一种方案为，构建可信执行环境(例如利用intel的sgx技术构建一个可信执行环境)，数据方A的数据(set_A、set_A的标签、set_A的特征Fa)以及数据方B的数据(set_B、set_B的特征Fb)可以各自经公钥加密后，传入可信执行环境。在可信执行环境内进行私钥解密，并完成特征的信息价值计算，以及将特征的信息价值计算结果传出可信环境。

用于评估特征和标签的相关性的又一种方案为，数据方A的数据(set_A、set_A的标签、set_A的特征Fa)以及数据方B的数据(set_B、set_B的特征Fb)发送给第三方机构，由第三方完成特征的信息价值计算。

为进一步增强隐私数据安全，本说明书实施例提供了一种多方联合进行特征评估的方法，可以在双方未知对方用户以及在标签和特征数据隔离的情况下，计算双方共有用户的特征的信息价值。在一个实施例中，该方法可以包括如图3所示的步骤。需要说明的是，图3虽然按照序列顺序示出步骤300a-步骤310a以及步骤300b-步骤310b，并不限定这些步骤300-步骤310的执行顺序。在一些示例中，可以按照图3所示顺序执行步骤300a-步骤310a以及步骤300b-步骤310b。在一些示例中，可以按照与图3所示顺序不同的顺序执行步骤300a-步骤310a以及步骤300b-步骤310b。在一些示例中，可以并行执行步骤300a-步骤310a以及步骤300b-步骤310b中的两个或更多个步骤。

接下来，结合图3对本说明书提供的保护隐私安全的多方联合进行特征评估的方法进行示例说明。

数据方A和数据方B可以为具有计算、处理能力的装置、设备、平台、设备集群，可相互配合以执行图3所示的方法。

在步骤300a和步骤300b，数据方A和数据方B可以相互配合以执行初始化操作。具体的，数据方A和数据方B可以确定其拥有的ID的取值上限。以ID为手机号为例，其为11位数字构成的整数，即每一个ID为一整数。任一方的ID的取值上限为该方拥有的ID中数值最大ID。

在一个示例中，数据方A可以确定大于或等于数据方A的数值最大ID的整数C1。示例性的，以ID为11位数字组成手机号为例，整数C1可以为12位数字构成的整数。数据方A可以向数据方B发送数据方A的整数C1。数据方B可以确定大于数据方B的数值最大ID，且大于整数C1的质数P，并将质数P发送给数据方A。

在一个示例中，数据方B可以确定大于或等于数据方B的数值最大ID的整数C2。示例性的，以ID为11位数字组成手机号为例，整数C2可以为12位数字构成的整数。数据方B可以向数据方A发送数据方A的整数C2。数据方A可以确定大于数据方A的数值最大ID，且大于整数C2的质数P，并将质数P发送给数据方B。

数据方A可以随机生成与质数P互质的正整数keyA。keyA也可以称为第一密钥。数据方B可以随机生成与质数P互质的正整数keyB。keyB也可以称为第二密钥。

通过上述方式数据方A和数据方B完成初始化，得到各自的密钥。接下来，数据方A和数据方B分别通过各自的密钥对各自的ID进行第一次加密，得到各自的第一次加密ID。然后分别将各自的第一次加密ID发送给对方，由对方使用其密钥再进行第二次加密。就数值相同的ID而言，经过两次加密后，数值仍然相同，由此，可以使得数据方A和数据方B可以在无需向对方透漏未加密ID(也可以称为初始ID)情况下，分别得到双方共有的ID。具体如下。

为表述方便，可以将数据方A拥有的ID集合，即数据方A的样本集中各样本的ID的集合，称为set_A。可以将数据方B拥有的ID集合，即数据方B的样本集中各样本的ID的集合，称为set_B。可理解的，样本和ID具有一一对应关系。在进行下文所述的加密之前，set_A和set_B中的各ID可以称为样本的初始ID。

在步骤302a中，数据方A使用keyA对set_A的每一个ID(初始ID)，进行第一次加密，得到第一次加密ID。示例性的，就set_A的每一个ID而言，其第一次加密方式为，计算该ID和keyA的乘积，并将乘积除以质数P得到的余数用作对应于该ID对应的第一次加密ID。第一次加密ID可以记为Encry(ID，keyA)。

具体可以如图4所示，待加密的ID可以为set_A中的每一个ID。初始化p即为上述质数p。max(ID)为数据方A中数值最大ID。可以将待加密ID乘以待加密ID,得到TMP。然后，将TMP模质数p的余数(即TMP除以质数p得到的余数)E，作为待加密ID的加密结果。

数据方A可以根据特征Fa的特征值对set_A进行特征分箱，以将set_A中第一次加密ID分到多个分箱中。参阅图3，特征Fa可以为包括了特征Fa1、特征Fa2等多种特征的特征集合，特征Fa1、特征Fa2可以统称为Fai，即Fai中i可以为1，也可以为2，等等。其中，每个样本具有特征Fai的特征值(特征Fai的特征值也可以称为特征Fai的取值)。就特征Fai而言，数据方A可以根据set_A中各ID对应的特征Fai的特征值，进行特征分箱，以将set_A中ID的第一次加密ID分到特征Fai对应的多个分箱中。每一个分箱均具有分箱标识，以特征Fa1为例，其分箱标识可以记为Fa1_bin。以特征Fa2为例，其分箱标识可以记为Fa2_bin。可以将每一个第一次加密ID、Fa1_bin、Fa2_bin等进行关联，可以记为(Encry(ID，keyA)，Fa1_bin，Fa2_bin，…)。其中，Fa1_bin、Fa2_bin等可以统称为Fai_bin，其表示ID根据特征Fai的特征值被分到了第Fai_bin分箱中。

在一个例子中，可以采用等频分箱算法进行特征分箱。在另一个例子中，可以采用等距分箱算法进行特征分箱。在又一个例子中，可以采用卡方分箱算法进行特征分箱。

可以将set_A每一个样本的第一次加密ID、标签以及按照特征Fai的特征值进行分箱后所在分箱的标识进行关联，得到set_A每一个样本的第一次加密ID的关联信息，可以记为(Encry(ID，keyA)，标签，Fa1_bin，Fa2_bin，…)。set_A所有第一次加密ID的关联信息构成了第一交换信息。数据方A可以将第一交换信息发送给数据方B。

可理解的，每一个分箱中可以包括多个ID，例如K个ID。这相当于B得到的A的特征分箱信息是K匿名化的，即对应任意一个ID，都至少有K各ID与其特征分箱信息是相同的，因此，数据方B难以根据ID对应的特征信息，来推测ID和特征信息的对应关系。

在步骤302b中，数据方B使用keyB对set_B的每一个ID(初始ID)，进行第一次加密，得到第一次加密ID。示例性的，就set_B的每一个ID而言，其第一次加密方式为，计算该ID和keyB的乘积，并将乘积除以质数P得到的余数用作对应于该ID的第一次加密ID。第一次加密ID可以记为Encry(ID，keyB)。

数据方B可以根据特征Fb的特征值对set_B进行特征分箱，以将set_B中第一次加密ID分到多个分箱中。参阅图3，特征Fb可以为包括了特征Fb1、特征Fb2等多种特征的特征集合。特征Fb1、特征Fb2可以统称为Fbi，即Fai中i可以为1，也可以为2，等等。其中，每个样本具有特征Fbi的特征值。可以根据特征Fbi的特征值，对set_B进行特征分箱。具体可以参考上文关于步骤302a所示实施例的介绍，在此不再赘述。

可以将set_B中每一个样本的第一次加密ID、按照Fbi的特征值进行分箱后所在分箱的标识进行关联，得到set_B每一个样本的第一次加密ID的关联信息，可以记为(Encry(ID，keyB)，Fb1_bin，Fb2_bin，…)。set_B所有第一次加密ID的关联信息构成了第三交换信息。数据方B可以将第三交换信息发送给数据方A。

在步骤304a中，数据方A在接收到第三交换信息后，可以使用keyA对第三交换信息中set_B的各个第一次加密ID分别进行二次加密，分别得到set_B的各个第一次加密ID的第二次加密ID。具体为，计算第一次加密ID和keyA的乘积，并将乘积除以质数P得到的余数用作对应于该第一次加密ID的第二次加密ID，可以记为Encry(Encry(ID，keyB),keyA)。连同所在分箱标识，可以记为(Encry(Encry(ID，keyB),keyA)，Fb1_bin，Fb2_bin，…)，该信息构成第一加密集合。

在步骤306a中，打乱(扰乱)set_B的各个第二次加密ID之间的相对顺序，并将扰乱后的set_B的各个第二次加密ID，作为第四交换信息发送给数据方B。

需要理解，第三交换信息中的set_B的各个第一次加密ID之间具有相对顺序，在使用第一密钥对set_B的各个第一次加密ID进行二次加密，得到的set_B的各个第二次加密ID之间的相对顺序与set_B的各个第一次加密ID之间具有相对顺序相同。如不打乱set_B各个第二次加密ID之间的相对顺序，就将set_B各个第二次加密ID发送给数据方B，则数据方B可以根据set_B各个第二次加密ID之间的相对顺序，确定set_B各个第二次加密ID和set_B各个第一次加密ID的一一对应关系，由此可以得到第一密钥，进而可以确定定set_A中的ID，导致数据方A的ID以及黑白名单泄露。

并且，在第三交换信息中并不携带set_B的各个ID的所在分箱的标识，以避免数据方B根据set_B的各个第二次加密ID的所在分箱的标识，推测出各样本第二次加密ID和各样本的初始ID(或第一次加密ID)的对应关系，由此，得到第一密钥，进而可以确定set_A中的ID，导致数据方A的ID以及黑白名单泄露。

在步骤304b中，数据方B在接收到第一交换信息后，可以使用keyB对第一交换信息中set_A的各个第一次加密ID分别进行二次加密，分别得到set_A的各个第一次加密ID对应的第二次加密ID。具体为，计算第一次加密ID和keyB的乘积，并将乘积除以质数P得到的余数用作对应于该第一次加密ID的第二次加密ID，可以记为Encry(Encry(ID，keyA),keyB)。连同所在分箱标识，可以记为(Encry(Encry(ID，keyA),keyB)，标签，Fa1_bin，Fa2_bin，…)，该信息构成第二加密集合。

在步骤306b中，打乱(扰乱)set_A的各个第二次加密ID之间的相对顺序，并将扰乱后的set_A的各个第二次加密ID连同各自的标签，作为第二交换信息发送给数据方A。在步骤306b中，扰乱set_A的各个第二次加密ID之间的相对顺序，以及不向数据方发送set_A中ID的所在分箱的标识，以避免数据方A推测出第二密钥。

通过上述步骤，set_A和set_B中各初始ID的均进行了两次加密。其中，set_A中的初始ID，先在数据方A使用第一密钥进行第一次加密，然后在数据方B使用第二密钥进行第二次加密。set_B中的初始ID，先在数据方B使用第一密钥进行第一次加密，然后在数据方A使用第二密钥进行第二次加密。数据方A和B彼此交换各自二次加密的结果，使得数据方A和数据方B都拥有set_A和set_B中各初始ID对应的第二次加密ID。第一密钥和第二密钥均与质数p的互质，并且第一次和第二次的加密方式均为将密钥和ID乘积除以质数p的余数作为加密ID。由余数系统的性质，使得上述加密方式具有如下性质：可叠加性，ID加密前后具有相同的取值范围，可进行多次加密运算；可交换性，加密符合交换律，同一个ID通过两个不同的密钥进行二次加密，交换加密次序，得到的密文一致，即Encry(Encry(ID，keyA)，keyB)＝Encry(Encry(ID，keyB)，keyA)。

难解密性，加密的密钥未知时，解密是极难的。

唯一性，当且仅当ID(整数)相等时，ID的加密结果才相同。

接下来，结合余数系统的性质对本说明书实施例所述的加密方式的性质进行证明。

在本说明书实施例中，x mod(y)，可以称为x模y，表示x除以y所得的余数。余数系统具有如下性质。

模n的完整余数系统的任意两个数模n的余数不同，且正整数中任意正整数模n必定与模n的完整余数系统中的某个数模n的余数相同。模n完整余数系统中，与模n互质的代表数所构成的集合，称为模n的简约余数系统。

对于质数p和任意与p互质的正整数a，模p的最小简约余数系统集合S＝{1,2,3,…,(p-1)}的元素都乘以a，得到新的集合a*S＝{a,2a,3a,…,(p-1)a}，满足a*S mod(p)＝S。证明如下。

若x属于S，由余数性质可知a*x mod(p)属于集合S或0。假设a*x mod(p)＝0，则a*x是p的整数倍。因p是质数，x不能被p整除，推出a能被p整除，与“a与p互质的条件”矛盾，因而假设不成立，a*x mod(p)不等于0，即知a*x mod(p)属于集合S。

若x1、x2都属于S且x1>x2，假设a*x1和a*x2模p同余，即a*x1 mod(p)＝a*x2 mod(p)，则a*x1-k1*p＝a*x2-k2*p，推出a*(x1-x2)＝(k1-k2)*p。因-p<x1-x2<p，p是质数。若前式a*(x1-x2)＝(k1-k2)*p成立，即a是p的整数倍，这与“a与p互质的条件”矛盾，因而a*x1和a*x2模p同余不成立，a*x1和a*x2模p不同余。由上可知，集合a*S中的p-1个元素，模p后的余数是集合S中的元素，且互不相等，那么显而易见，集合S中的任何一个元素，都一定是a*S中某个元素模p的余数。即，集合a*S mod(p)与集合S相同。

在本说明书实施例中，max(ID)<p，所以ID属于集合S＝{1,2,3,...(p-1)}，由此，可叠加性得证。即集合S的元素，经本说明书实施例提供的加密方式加密后，仍属于集合S，因而可以继续进行下一次加密。

对于质数p，对任意与p互质的正整数a和b，满足交换律b*(a*x mod(p))mod(p)＝a*(b*x mod(p))mod(p)。证明如下。

易证明x*y mod(z)＝(x mod(z))*(y mod(z))，于是，b*(a*x mod(p))mod(p)＝[b mod(p)]*[(a*x mod(p))mod(p)]＝[b mod(p)]*[a*x mod(p)]＝[b mod(p)]*[a mod(p)]*[x mod(p)]，同理可得a*(b*x mod(p))mod(p)＝[a mod(p)]*[b mod(p)]*[x mod(p)]，由上，b*(a*x mod(p))mod(p)＝a*(b*x mod(p))mod(p)得证。

在本说明书实施例中，同一个ID通过两个不同的key进行二次加密，交换加密次序，得到的密文一致，即Encry(Encry(ID，keyA)，keyB)＝Encry(Encry(ID，keyB)，keyA)。由此，可交换性得证。

已知质数p，和a*x mod(p)的值v，已知x属于集合{1,2,3,…,(p-1)}，a是一个与p互质的正整数，求x是一件很难的事。证明：这里有两个未知数a和x，a的取值范围是1至正无穷，x的取值范围是1～(p-1)，有无穷组可能解，因而不可能解出x的值。即加密key未知时，解密是极难。由此，难解密性得证。

对于质数p和任意与p互质的正整数a，m和n是集合S＝{1,2,3,…,(p-1)}的两个不同的元素，那么a*m mod(p)一定不等于a*n mod(p)。证明如下。

假设a*m mod(p)＝a*n mod(p)，那么a*m-k1*p＝a*n-k2*p，k1和k2是整数。可推出a*(m-n)＝(k1-k2)*p。因a与p互质，那么必然有m-n可被p整除。因为m和n都属于集合S，因而只可能有m-n＝0，m和n相等，不符合条件，推出矛盾。因而a*m mod(p)不等于a*n mod(p)得证。

因此，通过本说明书提供的加密方式，当且仅当ID相等时，ID的加密结果才相同；当ID不相等时，ID的加密结果一定不同。

通过上述论证可知，set_A和set_B中具有相同ID时,set_A中的该ID经过上文所述加密方式加密后的加密结果，等于set_B中该ID经过上述所述加密方式加密后的加密界面。

由此，在步骤308a中，数据方A可以确定出set_A和set_B共有ID。并且第二交换信息中携带了各ID的标签，通过第三次交换信息可以得到共有ID通过特征Fbi(Fb1、特征Fb2等)的特征值进行分箱得到的所在分箱的标识。

在步骤310a中，可以根据步骤308a得到的信息，利用图3所示的公式，计算各特征Fbi的信息价值。其中，label＝1表示标签为正，label＝0表示标签为负。对于任一特征Fbi而言，Precall _k表示分箱k中标签为正的ID的数量相对于共有样本中标签为正的样本总个数的比例，Nrecall _k表示分箱k中标签为负的ID的数量相对于共有样本中标签为负的样本总个数的比例，IV表示信息价值。

在步骤308b中，数据方B可以确定出set_A和set_B共有ID。并且第一交换信息中携带了各ID的标签以及所在分箱的标识，由此，可以在步骤310b中，计算各特征Fai的信息价值。

本说明书实施例提供的方法，能够实现各方数据隔离的情况下，完成特征的信息价值的安全计算，不泄露各方数据。具体如下。

在信息价值计算过程中，数据方A拿到了数据方B的ID是由keyB加密的结果和对应的Fb特征分箱，但这个数据对数据方A来说是足够隐密的，因为：1)数据方A拿到的ID是经过keyB加密的，数据方A无法知道其背后对应的原ID，因而也无法把Fb分箱结果与真实ID对应起来；2)计算信息价值时用的分箱信息无关分箱的顺序，因而数据方B传给数据方A的所在分箱的标识可以是打乱顺序的(可以在打乱第二次加密ID顺序时实现)，或者所在分箱的标识只是一个代号，这样数据方A无法知道分箱对应的特征大小顺序；3)特征的每个分箱里包含K个ID，相当于数据方A得到的关于数据方B特征的信息是经过K匿名化的，任何一个ID的信息，都有至少K个ID与之是一样。数据方A还拿到了数据方A ID经过二次加密后的结果，这个加密ID因为已经被B打乱顺序，且没有携带任何其它可供辨识的额外信息，因而数据方A只知道，这些ID都是自身ID被加密后得到的结果，且一一对应，但是并不清楚其中的对应关系。数据方A在拿到两份数据后进行匹配、取交集、运算，这些操作相当于在一个ID加密后的空间内进行，且这个加密空间与原空间的对应关系未知(这个映射关系必须拥有两方的keyA和keyB两个密钥才可知)，因此，计算是安全的。类似可知，数据方B可获得的数据，也不足以让数据方B推导出数据方A的数据信息。

参阅图5，本说明书实施例提供了一种保护隐私安全的多方联合进行特征评估的方法，所述多方至少包括第一设备和第二设备，第一设备存储有第一样本集和其中各样本的标签，第二设备存储有第二样本集，所述方法应用于第一设备。参阅图5，所述方法包括如下步骤。

步骤501，使用第一密钥对第一样本集中各样本的初始ID进行加密，得到第一样本集中各样本的第一次加密ID。具体可以参阅上文对图3中步骤302a的介绍，在此不再赘述。

需要理解，在描述302a时结合余数加密的算法进行描述。余数加密算法计算量少，并且安全性高，为一种较佳的加密算法。应该理解，余数加密算法并非唯一的加密算法，只要加密算法满足可叠加性、交换性、唯一性，都可以用于在步骤302a以及步骤302b中对样本ID进行加密。在本说明书实施例中，数据方A与数据方B可以预先协商其他加密算法。这里的加密算法可以为任一基于同一组密钥对目标数据进行加密时，密钥的使用顺序不影响加密结果的算法。这里的加密算法除图3所示实施例中描述的余数加密算法外，还可以为异或(XOR)算法、DH算法、ECC-DH算法等中任一种。

步骤503，向所述第二设备发送第一交换信息，其中至少包括，第一样本集中每个样本的第一次加密ID和标签。具体可以参阅上文对图3中步骤302a的介绍，在此步骤赘述。

步骤505，从所述第二设备分别接收第二交换信息和第三交换信息，其中，所述第二交换信息包括，由所述第二设备使用第二密钥对第一样本集中每个样本的第一次加密ID进行二次加密后得到的第二次加密ID和对应的标签，且所述第二交换信息中各样本的相对顺序已由所述第二设备扰乱；所述第三交换信息包括，针对第二样本集中每一个样本，由所述第二设备基于所述第二密钥对其初始ID进行加密得到的第一次加密ID和该样本所在第一分箱的标识，所述第一分箱的标识由所述第二设备基于第二样本集中各样本的第一特征的特征值进行分箱得到。

具体可以参阅上文对图3中步骤302b、304b、306b的介绍，在此不再赘述。

步骤507，使用所述第一密钥，对所述第三交换信息中各样本的第一次加密ID进行二次加密，得到第一加密集合。具体可以参阅上文对图3中步骤304a的介绍，在此不再赘述。

步骤509，基于第二交换信息中的第二次加密ID和第一加密集合中的第二次加密ID,确定第一样本集和第二样本集的共有样本。具体可以参阅上文对图3步骤308a的介绍，在此不再赘述。

步骤511，基于共有样本中各样本的标签、所在第一分箱的标识，确定所述第一特征的信息价值，用以针对机器学习模型进行特征选择。具体可以参阅上文对图3中步骤310a的介绍，在此不再赘述。

在一些实施例中，所述方法还包括：在向第二设备发送第一交换信息之前，基于第一样本集中各样本的第二特征的特征值，将第一样本集分成多个第二分箱，并将第一样本集中每一个样本所在第二分箱的标识包括在所述第一交换信息中；在得到所述第一加密集合之后，扰乱第二样本集中各样本的相对顺序，得到第四交换信息；向所述第二设备发送所述第四交换信息，以便所述第二设备基于所述第四交换信息中的第二次加密ID和第二加密集合中的第二次加密ID确定共有样本，并基于共有样本中各样本的标签、所在第二分箱的标识，确定所述第二特征的信息价值，其中第二加密集合是使用所述第二密钥对所述第一交换信息中的第一次加密ID进行二次加密得到的。具体可以参阅上文对图3中步骤302a、306a、308b、310b的介绍，在此不再赘述。

在该实施例的一个示例中，所述基于第一样本集中各样本的第二特征的特征值，将第一样本集分成多个第二分箱包括：根据等频分箱、等距分箱、卡方分箱中任一项，将第一样本集分成所述多个第二分箱。

在一些实施例中，第一样本集中各样本的初始ID和第二样本集中各样本的初始ID 均为正整数；在使用第一密钥对第一样本集中各样本的初始ID进行加密之前，所述方法还包括：确定大于第一样本集中各样本的初始ID中最大初始ID，且大于第二样本集中各样本的初始ID中最大初始ID的第一质数；确定与第一质数互质的第一正整数为所述第一密钥。具体可以参阅上文对图3中步骤300a和步骤300b的介绍，在此不再赘述。

在一些实施例中，所述使用第一密钥对第一样本集中各样本的初始ID进行加密，得到第一样本集中各样本的第一次加密ID包括：对于第一样本集中每一个样本，确定该样本初始ID和所述第一密钥的乘积除以所述第一质数的余数为该样本的第一次加密ID。具体可以参阅上文对图3中步骤302的介绍，在此不再赘述。

在一些实施例中，第一样本集包括标签为正的多个样本和标签为负的多个样本；所述基于共有样本中各样本的标签、所在第一分箱的标识，确定所述第一特征的信息价值包括：确定共有样本中落入具有第一标识的第一分箱中且标签为正的样本个数，相对于共有样本中标签为正的样本总个数的第一比例；确定共有样本中落入所述具有第一标识的第一分箱中且标签为负的样本个数，相对于共有样本中标签为负的样本总个数的第二比例；基于各个标识的第一分箱分别对应的所述第一比例，和所述第二比例，确定共有样本的第一特征的信息价值。具体可以参阅上文对图3中步骤310a的介绍，在此不再赘述。

本说明书实施例提供的方法，可以在双方未知对方用户以及在标签和特征数据隔离的情况下，计算双方共有用户的特征的信息价值，安全性高。

参阅图6，本说明书实施例提供了一种保护隐私安全的多方联合进行特征评估的方法，所述多方至少包括第一设备和第二设备，所述第一设备存储有第一样本集和其中各样本的标签，所述第二设备存储有第二样本集，所述方法应用于第二设备。如图6所示，该方法包括如下步骤。

步骤601，从第一设备接收第一交换信息，其中至少包括，由所述第一设备使用第一密钥对第一样本集中每个样本的初始ID进行加密后得到的第一次加密ID和对应的标签。具体可以参阅上文对图3中步骤302a的介绍，在此不再赘述。

步骤603，使用第二密钥，对所述第一交换信息中各样本的第一次加密ID进行二次加密，得到第二加密集合，然后扰乱所述第二加密集合中各样本的相对顺序。具体可以参阅上文对图3中步骤304b、306b的介绍，在此不再赘述。

步骤605，向所述第一设备发送第二交换信息，所述第二交换信息包括已扰乱相对顺序的第一样本集中各样本的第二次加密ID和标签。具体可以参阅上文对图3中步骤306b的介绍，在此不再赘述。

步骤607，使用第二密钥对第二样本集中各个样本的初始ID进行加密，得到第二样本集中第一次加密ID。具体可以参阅上文对图3中步骤302b的介绍，在此不再赘述。

步骤609，基于第二样本集中各样本的第一特征的特征值，将第二样本集分成多个第一分箱。具体可以参阅上文对图3中步骤302b的介绍，在此不再赘述。

步骤611，向所述第一设备发送第三交换信息，所述第三交换信息包括第二样本集中各样本的第一次加密ID和所在第一分箱的标识，以便所述第一设备使用第一密钥对第三交换信息中的第一次加密ID进行加密，得到第一加密集合，并基于第一加密集合中的第二次加密ID和所述第二交换信息中的第二次加密ID，确定第一样本集和第二样本集的共有样本，以及基于共有样本中各样本的标签、所在第一分箱的标识，确定所述第一特征的信息价值，用于针对机器学习模型进行特征选择。

具体可以参阅上文对图3中步骤302b的介绍，在此不再赘述。

在一些实施例中，所述第一交换信息还包括第一样本集中每一个样本所在第二分箱的标识，所述第二分箱的标识由所述第一设备基于第一样本集中各样本的第二特征的特征值进行分箱得到；所述方法还包括：从所述第一设备接收第四交换信息，所述第四交换信息包括第二样本集中各样本的第二次加密ID，且所述第四交换信息中各样本的相对顺序已由所述第一设备扰乱；基于所述第二加密集合的第二次加密ID和所述第四交换信息中的第二次加密ID，确定第一样本集和第二样本集的共有样本；基于共有样本中各样本的标签、所在第二分箱的标识，确定所述第二特征的信息价值，用于针对机器学习模型进行特征选择。具体可以参阅上文对图3中步骤302a、304a、306a、308b、310b的介绍，在此不再赘述。

参阅图7，本说明书实施例提供了一种保护隐私安全的多方联合进行特征评估的装置700，所述多方至少包括第一设备和第二设备，第一设备存储有第一样本集和其中各样本的标签，第二设备存储有第二样本集，所述装置配置于第一设备。如图7所示，所述装置700包括以下单元。

第一加密单元710，用于使用第一密钥对第一样本集中各样本的初始ID进行加密，得到第一样本集中各样本的第一次加密ID。

第一发送单元720，用于向所述第二设备发送第一交换信息，其中至少包括，第一样本集中每个样本的第一次加密ID和标签。

第一接收单元730，用于从所述第二设备分别接收第二交换信息和第三交换信息，其中，所述第二交换信息包括，由所述第二设备使用第二密钥对第一样本集中每个样本的第一次加密ID进行二次加密后得到的第二次加密ID和对应的标签，且所述第二交换信息中各样本的相对顺序已由所述第二设备扰乱；所述第三交换信息包括，针对第二样本集中每一个样本，由所述第二设备基于所述第二密钥对其初始ID进行加密得到的第一次加密ID和该样本所在第一分箱的标识，所述第一分箱的标识由所述第二设备基于第二样本集中各样本的第一特征的特征值进行分箱得到。

第二加密单元740，用于基于所述第一密钥，对所述第三交换信息中各样本的第一次加密ID进行二次加密，得到第二样本集中各样本的第二次加密ID。

第一确定单元750，用于基于第一样本集中各样本的第二次加密ID和第二样本集中各样本的第二次加密ID,确定第一样本集和第二样本集的共有样本。

第二确定单元760，用于基于共有样本中各样本的标签、所在第一分箱的标识，确定所述第一特征的信息价值，用以针对机器学习模型进行特征选择。

装置700的各功能单元的功能可以参考图5所示方法实施例实现，在此不再赘述。

本说明书实施例提供的装置，可以在双方未知对方用户以及在标签和特征数据隔离的情况下，计算双方共有用户的特征的信息价值，安全性高。

参阅图8，本说明书实施例提供了一种保护隐私安全的多方联合进行特征评估的装置，所述多方至少包括第一设备和第二设备，所述第一设备存储有第一样本集和其中各样本的标签，所述第二设备存储有第二样本集，所述装置配置于第二设备；所述装置包括以下单元。

第二接收单元810，用于从第一设备接收第一交换信息，其中至少包括，由所述第一设备使用第一密钥对第一样本集中每个样本的初始ID进行加密后得到的第一次加密ID和对应的标签。

第三加密单元820，用于使用第二密钥，对所述第一交换信息中各样本的第一次加密ID进行二次加密，得到第二加密集合，然后扰乱所述第二加密集合中各样本的相对顺序。

第二发送单元830，用于向所述第一设备发送第二交换信息，所述第二交换信息包括已扰乱相对顺序的第一样本集中各样本的第二次加密ID和标签。

第四加密单元840，用于使用第二密钥对第二样本集中各个样本的初始ID进行加密，得到第二样本集中第一次加密ID。

第二分箱单元850，用于基于第二样本集中各样本的第一特征的特征值，将第二样本集分成多个第一分箱。

第二发送单元830还用于向所述第一设备发送第三交换信息，所述第三交换信息包括第二样本集中各样本的第一次加密ID和所在第一分箱的标识，以便所述第一设备使用第一密钥对第三交换信息中的第一次加密ID进行二次加密，得到第一加密集合，并基于第一加密集合中的第二次加密ID和所述第二交换信息中的各样本的第二次加密ID，确定第一样本集和第二样本集的共有样本，以及基于共有样本中各样本的标签、所在第一分箱的标识，确定所述第一特征的信息价值，用于针对机器学习模型进行特征选择。

装置800的各功能单元的功能可以参考图6所示方法实施例实现，在此不再赘述。

另一方面，本说明书的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行图5所示的方法或图6所示的方法。

另一方面，本说明书的实施例提供了一种计算终端，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现图5所示的方法或图6所示的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本说明书所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

一种保护隐私安全的多方联合进行特征评估的方法，所述多方至少包括第一设备和第二设备，第一设备存储有第一样本集和其中各样本的标签，第二设备存储有第二样本集，所述方法应用于第一设备；所述方法包括：

使用第一密钥对第一样本集中各样本的初始ID进行加密，得到第一样本集中各样本的第一次加密ID；

向所述第二设备发送第一交换信息，其中至少包括，第一样本集中每个样本的第一次加密ID和标签；

从所述第二设备分别接收第二交换信息和第三交换信息，其中，所述第二交换信息包括，由所述第二设备使用第二密钥对第一样本集中每个样本的第一次加密ID进行二次加密后得到的第二次加密ID和对应的标签，且所述第二交换信息中各样本的相对顺序已由所述第二设备扰乱；所述第三交换信息包括，针对第二样本集中每一个样本，由所述第二设备基于所述第二密钥对其初始ID进行加密得到的第一次加密ID和该样本所在第一分箱的标识，所述第一分箱的标识由所述第二设备基于第二样本集中各样本的第一特征的特征值进行分箱得到；

使用所述第一密钥，对所述第三交换信息中各样本的第一次加密ID进行二次加密，得到第一加密集合；

基于第二交换信息中的第二次加密ID和第一加密集合中的第二次加密ID,确定第一样本集和第二样本集的共有样本；

基于共有样本中各样本的标签、所在第一分箱的标识，确定所述第一特征的信息价值，用以针对机器学习模型进行特征选择。
根据权利要求1所述的方法，其中，所述方法还包括：

在向第二设备发送第一交换信息之前，基于第一样本集中各样本的第二特征的特征值，将第一样本集分成多个第二分箱，并将第一样本集中每一个样本所在第二分箱的标识包括在所述第一交换信息中；

在得到所述第一加密集合之后，扰乱第二样本集中各样本的相对顺序，得到第四交换信息；

向所述第二设备发送所述第四交换信息，以便所述第二设备基于所述第四交换信息中的第二次加密ID和第二加密集合中的第二次加密ID确定共有样本，并基于共有样本中各样本的标签、所在第二分箱的标识，确定所述第二特征的信息价值，其中第二加密集合是使用所述第二密钥对所述第一交换信息中的第一次加密ID进行二次加密得到的。
根据权利要求2所述的方法，其中，所述基于第一样本集中各样本的第二特征的特征值，将第一样本集分成多个第二分箱包括：

根据等频分箱、等距分箱、卡方分箱中任一项，将第一样本集分成所述多个第二分箱。
根据权利要求1所述的方法，其中，第一样本集中各样本的初始ID和第二样本集中各样本的初始ID均为正整数；在使用第一密钥对第一样本集中各样本的初始ID进行加密之前，所述方法还包括：

确定大于第一样本集中各样本的初始ID中最大初始ID，且大于第二样本集中各样本的初始ID中最大初始ID的第一质数；

确定与第一质数互质的第一正整数为所述第一密钥。
根据权利要求4所述的方法，其中，所述使用第一密钥对第一样本集中各样本的初始ID进行加密，得到第一样本集中各样本的第一次加密ID包括：

对于第一样本集中每一个样本，确定该样本初始ID和所述第一密钥的乘积除以所述第一质数的余数为该样本的第一次加密ID。
根据权利要求1所述的方法，其中，第一样本集包括标签为正的多个样本和标签为负的多个样本；所述基于共有样本中各样本的标签、所在第一分箱的标识，确定所述第一特征的信息价值包括：

确定共有样本中落入具有第一标识的第一分箱中且标签为正的样本个数，相对于共有样本中标签为正的样本总个数的第一比例；

确定共有样本中落入所述具有第一标识的第一分箱中且标签为负的样本个数，相对于共有样本中标签为负的样本总个数的第二比例；

基于各个标识的第一分箱分别对应的所述第一比例，和所述第二比例，确定共有样本的第一特征的信息价值。
根据权利要求1所述的方法，其中，所述第一样本集中的样本包括用户样本，所述机器学习模型为用户分类模型；或者，

所述第一样本集中的样本包括业务样本，所述机器学习模型为业务处理模型。
一种保护隐私安全的多方联合进行特征评估的方法，所述多方至少包括第一设备和第二设备，所述第一设备存储有第一样本集和其中各样本的标签，所述第二设备存储有第二样本集，所述方法应用于第二设备；所述方法包括：

从第一设备接收第一交换信息，其中至少包括，由所述第一设备使用第一密钥对第一样本集中每个样本的初始ID进行加密后得到的第一次加密ID和对应的标签；

使用第二密钥，对所述第一交换信息中各样本的第一次加密ID进行二次加密，得到第二加密集合，然后扰乱所述第二加密集合中各样本的相对顺序；

向所述第一设备发送第二交换信息，所述第二交换信息包括已扰乱相对顺序的第一样本集中各样本的第二次加密ID和标签；

使用第二密钥对第二样本集中各个样本的初始ID进行加密，得到第二样本集中第一次加密ID；

基于第二样本集中各样本的第一特征的特征值，将第二样本集分成多个第一分箱；

向所述第一设备发送第三交换信息，所述第三交换信息包括第二样本集中各样本的第一次加密ID和所在第一分箱的标识，以便所述第一设备使用第一密钥对第三交换信息中的第一次加密ID进行二次加密，得到第一加密集合，并基于第一加密集合中的第二次加密ID和所述第二交换信息中的第二次加密ID，确定第一样本集和第二样本集的共有样本，以及基于共有样本中各样本的标签、所在第一分箱的标识，确定所述第一特征的信息价值，用于针对机器学习模型进行特征选择。
根据权利要求8所述的方法，其中，所述第一交换信息还包括第一样本集中每一个样本所在第二分箱的标识，所述第二分箱的标识由所述第一设备基于第一样本集中各样本的第二特征的特征值进行分箱得到；

所述方法还包括：

从所述第一设备接收第四交换信息，所述第四交换信息包括第二样本集中各样本的第二次加密ID，且所述第四交换信息中各样本的相对顺序已由所述第一设备扰乱；

基于所述第二加密集合的第二次加密ID和所述第四交换信息中的第二次加密ID，确定第一样本集和第二样本集的共有样本；

基于共有样本中各样本的标签、所在第二分箱的标识，确定所述第二特征的信息价值，用于针对机器学习模型进行特征选择。
一种保护隐私安全的多方联合进行特征评估的装置，所述多方至少包括第一设备和第二设备，第一设备存储有第一样本集和其中各样本的标签，第二设备存储有第二样本集，所述装置配置于第一设备；所述装置包括：

第一加密单元，用于使用第一密钥对第一样本集中各样本的初始ID进行加密，得到第一样本集中各样本的第一次加密ID；

第一发送单元，用于向所述第二设备发送第一交换信息，其中至少包括，第一样本集中每个样本的第一次加密ID和标签；

第一接收单元，用于从所述第二设备分别接收第二交换信息和第三交换信息，其中，所述第二交换信息包括，由所述第二设备使用第二密钥对第一样本集中每个样本的第一次加密ID进行二次加密后得到的第二次加密ID和对应的标签，且所述第二交换信息中各样本的相对顺序已由所述第二设备扰乱；所述第三交换信息包括，针对第二样本集中每一个样本，由所述第二设备基于所述第二密钥对其初始ID进行加密得到的第一次加密ID和该样本所在第一分箱的标识，所述第一分箱的标识由所述第二设备基于第二样本集中各样本的第一特征的特征值进行分箱得到；

第二加密单元，用于使用所述第一密钥，对所述第三交换信息中各样本的第一次加密ID进行二次加密，得到第一加密集合；

第一确定单元，用于基于第二交换信息中的第二次加密ID和第一加密集合中的第二次加密ID,确定第一样本集和第二样本集的共有样本；

第二确定单元，用于基于共有样本中各样本的标签、所在第一分箱的标识，确定所述第一特征的信息价值，用以针对机器学习模型进行特征选择。
根据权利要求10所述的装置，其中，所述装置还包括：第一分箱单元和第一扰乱单元；

所述第一分箱单元用于，在向第二设备发送第一交换信息之前，基于第一样本集中各样本的第二特征的特征值，将第一样本集分成多个第二分箱，其中，并将第一样本集中每一个样本所在第二分箱的标识包括在所述第一交换信息中；

所述第一扰乱单元用于，在得到所述第一加密集合之后，扰乱第二样本集中各样本的相对顺序，得到第四交换信息；

所述第一发送单元还用于，向所述第二设备发送所述第四交换信息，以便所述第二设备基于所述第四交换信息中的第二次加密ID和第二加密集合中的第二次加密ID确定共有样本，并基于共有样本中各样本的标签、所在第二分箱的标识，确定所述第二特征的信息价值，其中第二加密集合是使用所述第二密钥对所述第一交换信息中的第一次加密ID进行二次加密得到的。
根据权利要求11所述的装置，其中，所述第一分箱单元用于根据等频分箱、等距分箱、卡方分箱中任一项，将第一样本集分成所述多个第二分箱。
根据权利要求10所述的装置，其中，第一样本集中各样本的初始ID和第二样本集中各样本的初始ID均为正整数；所述装置还包括：第三确定单元和第四确定单元；

所述第三确定单元用于，确定大于第一样本集中各样本的初始ID中最大初始ID，且大于第二样本集中各样本的初始ID中最大初始ID的第一质数；

所述第四确定单元用于，确定与第一质数互质的第一正整数为所述第一密钥。
根据权利要求13所述的装置，其中，所述第一加密单元还用于，对于第一样本集中每一个样本，确定该样本初始ID和所述第一密钥的乘积除以所述第一质数的余数为该样本的第一次加密ID。
根据权利要求10所述的装置，其中，所述第二确定单元还用于，确定共有样本中落入具有第一标识的第一分箱中且标签为正的样本个数，相对于共有样本中标签为正的样本总个数的第一比例；

所述第二确定单元还用于，确定共有样本中落入所述具有第一标识的第一分箱中且标签为负的样本个数，相对于共有样本中标签为负的样本总个数的第二比例；

所述第二确定单元还用于，基于各个标识的第一分箱分别对应的所述第一比例，和所述第二比例，确定共有样本的第一特征的信息价值。
根据权利要求10所述的装置，其中，所述第一样本集中的样本包括用户样本，所述机器学习模型为用户分类模型；或者，

所述第一样本集中的样本包括业务样本，所述机器学习模型为业务处理模型。
一种保护隐私安全的多方联合进行特征评估的装置，所述多方至少包括第一设备和第二设备，所述第一设备存储有第一样本集和其中各样本的标签，所述第二设备存储有第二样本集，所述装置配置于第二设备；所述装置包括：

第二接收单元，用于从第一设备接收第一交换信息，其中至少包括，由所述第一设备使用第一密钥对第一样本集中每个样本的初始ID进行加密后得到的第一次加密ID和对应的标签；

第三加密单元，用于使用第二密钥，对所述第一交换信息中各样本的第一次加密ID进行二次加密，得到第二加密集合，然后扰乱第一样本集中各样本的相对顺序；

第二发送单元，用于向所述第一设备发送第二交换信息，所述第二交换信息包括已扰乱相对顺序的第一样本集中各样本的第二次加密ID和标签；

第四加密单元，用于使用第二密钥对第二样本集中各个样本的初始ID进行加密，得到第二样本集中第一次加密ID；

第二分箱单元，用于基于第二样本集中各样本的第一特征的特征值，将第二样本集分成多个第一分箱；

第二发送单元还用于向所述第一设备发送第三交换信息，所述第三交换信息包括第二样本集中各样本的第一次加密ID和所在第一分箱的标识，以便所述第一设备使用第一密钥对第三交换信息中的第一次加密ID进行二次加密，得到第一加密集合，并基于第一加密集合中的第二次加密ID和所述第二交换信息中的各样本的第二次加密ID，确定第一样本集和第二样本集的共有样本，以及基于共有样本中各样本的标签、所在第一分箱的标识，确定所述第一特征的信息价值，用于针对机器学习模型进行特征选择。
根据权利要求17所述的装置，其中，所述第一交换信息还包括第一样本集中每一个样本所在第二分箱的标识，所述第二分箱的标识由所述第一设备基于第一样本集中各样本的第二特征的特征值进行分箱得到；

所述装置还包括：第五单元和第六单元；

所述第二接收单元用于，从所述第一设备接收第四交换信息，所述第四交换信息包括第二样本集中各样本的第二次加密ID，且所述第四交换信息中各样本的相对顺序已由所述第一设备扰乱；

所述第五单元用于，基于所述第二加密集合的第二次加密ID和所述第四交换信息中的第二次加密ID，确定第一样本集和第二样本集的共有样本；

所述第六单元用于，基于共有样本中各样本的标签、所在第二分箱的标识，确定第二特征的信息价值，用于针对机器学习模型进行特征选择。
一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-7中任一项所述的方法或8-9任一项所述的方法。
一种计算终端，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-7中任一项所述的方法或8-9任一项所述的方法。