WO2023045503A1

WO2023045503A1 - 基于差分隐私进行特征处理的方法及装置

Info

Publication number: WO2023045503A1
Application number: PCT/CN2022/105052
Authority: WO
Inventors: 杜健; 段普; 张本宇
Original assignee: 支付宝(杭州)信息技术有限公司
Priority date: 2021-09-27
Filing date: 2022-07-12
Publication date: 2023-03-30
Also published as: US20240152643A1; CN113591133A; CN113591133B

Abstract

本说明书实施例提供一种基于差分隐私进行特征处理的方法及装置，所述方法涉及第一方和第二方，其中第一方存储多个样本的第一特征部分，第二方存储该多个样本的二分类标签；所述方法包括：第二方对多个样本对应的多个二分类标签分别进行加密，得到多个加密标签；第一方基于该多个加密标签以及差分隐私噪声，确定多个分箱中每个分箱对应的正样本加密加噪数量和负样本加密加噪数量，其中多个分箱是针对第一特征部分中的任一特征对多个样本进行分箱处理而得到；第二方对该正样本加密加噪数量和负样本加密加噪数量进行解密，得到正样本加噪数量和负样本加噪数量，从而确定出相对应分箱的加噪指标。

Description

基于差分隐私进行特征处理的方法及装置

本申请要求于2021年09月27日提交中国国家知识产权局、申请号为202111133642.5、申请名称为“基于差分隐私进行特征处理的方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本说明书一个或多个实施例涉及数据处理技术领域，尤其涉及一种基于差分隐私进行特征处理的方法及装置。

背景技术

在大多数行业中，由于行业竞争、隐私安全等问题，数据常常以孤岛的形式存在，即使是在同一个公司的不同部门之间进行数据的集中整合，也面临着重重阻力。

联邦学习(Federated Learning)技术的提出，为打破数据孤岛提供了可能。联邦学习又名联邦机器学习、联盟学习等，是一个机器学习框架，旨在有效帮助多方在满足数据隐私保护、合法合规的要求下，进行数据使用和机器学习建模。根据数据在多方之间的分布情况，联邦学习可以分为横向联邦学习和纵向联邦学习等。其中，纵向联邦学习又称样本对齐的联邦学习，如图1所示，多方各自持有相同样本ID的不同样本特征，并且，某一方(图1中示意为B方)拥有样本标签。

在纵向联邦学习等场景中，存在某个数据方对样本特征数据进行筛选等特征处理时，需要用到其他数据方持有的样本标签的情况。因此，需要一种方案，可以在保证各方数据隐私均不被泄露的情况下，利用一方的样本标签信息完成对另一方特征数据的处理。

发明内容

本说明书一个或多个实施例描述了一种基于差分隐私进行特征处理的方法及装置，通过引入差分隐私机制和数据加密算法等，使得各个数据持有方可以在保证己方数据安全的情况下，联合完成特征变换处理。

根据第一方面，提供一种基于差分隐私进行特征处理的方法，所述方法涉及第一方和第二方，其中第一方存储多个样本的第一特征部分，第二方存储所述多个样本的二分类标签；所述方法由所述第二方执行，包括：对所述多个样本对应的多个二分类标签分别进行加密，得到多个加密标签；将所述多个加密标签发送至所述第一方；从所述第一方接收多个第一分箱中每个第一分箱对应的第一正样本加密加噪数量以及第一负样本加密加噪数量，并对其进行解密，得到对应的第一正样本加噪数量和第一负样本加噪数量；其中，所述第一正样本加密加噪数量和第一负样本加密加噪数量基于所述多个加密标签以及第一差分隐私噪声而确定；所述多个第一分箱是针对所述第一特征部分中的任一特征，对所述多个样本进行分箱处理而得到；基于所述第一正样本加噪数量和第一负样本加噪数量，确定相对应的第一分箱的第一加噪指标。

在一个实施例中，所述多个样本针对的业务对象为以下中的任一种：用户、商品、业务事件。

在一个实施例中，对所述多个样本对应的多个二分类标签分别进行加密，得到多个加密标签，包括：基于同态加密算法，对所述多个二分类标签分别进行加密，得到所述多个加密标签。

在一个实施例中，基于所述第一正样本加噪数量和第一负样本加噪数量，确定相对应的第一分箱的第一加噪指标，包括：对所述多个第一分箱对应的多个第一正样本加噪数量进行求和处理，得到第一正样本加噪总数；对所述多个第一分箱对应的多个第一负样本加噪数量进行求和处理，得到第一负样本加噪总数；基于所述第一正样本加噪总数、第一负样本加噪总数、第一正样本加噪数量、第一负样本加噪数量，确定所述第一加噪指标。

在一个具体的实施例中，所述第一加噪指标为第一加噪证据权重，基于此，上述确定所述第一加噪指标，包括：将所述第一正样本加噪数量除以所述第一正样本加噪总数，得到第一正样本占比；将所述第一负样本加噪数量除以所述第一负样本加噪总数，得到第一负样本占比；将所述第一正样本占比的取对数结果减去所述第一负样本占比的取对数结果，得到所述第一加噪证据权重。

在一个实施例中，所述第二方还存储所述多个样本的第二特征部分；所述方法还包括：针对所述第二特征部分中的任一特征，对所述多个样本进行分箱处理，得到多个第二分箱；基于差分隐私机制，确定多个第二分箱中每个第二分箱的第二加噪指标；其中，在确定相对应的第一分箱的第一加噪指标之后，所述方法还包括：基于所述第一加噪指标和第二加噪指标，对所述第一特征部分和/或第二特征部分进行特征筛选处理。

在一个具体的实施例中，基于差分隐私机制，确定多个第二分箱中每个第二分箱的第二加噪指标，包括：基于所述二分类标签，确定每个第二分箱中正样本的真实数量和负样本的真实数量；在所述正样本的真实数量和负样本的真实数量上，分别添加第二差分隐私噪声，对应得到第二正样本加噪数量和第二负样本加噪数量；基于所述第二正样本加噪数量和第二负样本加噪数量，确定相对应的第二分箱的第二加噪指标。

一方面，在一个更具体的实施例中，所述第二差分隐私噪声为高斯噪声；在所述分别添加第二差分隐私噪声之前，所述方法还包括：基于针对所述多个样本设定的隐私预算参数，以及所述第二特征部分中各个特征所对应的分箱数量，确定噪声功率；以所述噪声功率作为高斯分布的方差，以0为均值，生成高斯噪声分布；从所述高斯噪声分布中采样所述高斯噪声。

进一步，在一个例子中，其中确定噪声功率包括：确定所述各个特征所对应分箱数量的和值；获取均值变量的变量值，该变量值基于所述隐私预算参数的参数值，以及差分隐私的高斯机制下所述隐私预算参数和均值变量的约束关系而确定；基于以下因子的乘积计算得到所述噪声功率：所述分箱数量的和值，以及所述变量值进行平方运算后的倒数。

更进一步地，在一个具体的例子中，所述隐私预算参数包括预算项参数和松弛项参数。

另一方面，在一个更具体的实施例中，所述方法还包括：针对所述多个第二分箱，从差分隐私的噪声分布中对应采样多组噪声；其中，所述分别添加差分隐私噪声包括：在所述正样本的真实数量上，添加对应组别噪声中的一个噪声，并且，在所述负样本的真实数量上，添加该组噪声中的另一个噪声。

在又一个更具体的实施例中，基于所述第二正样本加噪数量和第二负样本加噪数量，确定相对应的第二分箱的第二加噪指标，包括：对所述多个第二分箱对应的多个第二正样本加噪数量进行求和处理，得到第二正样本加噪总数；对所述多个第二分箱对应的多个第二负样本加噪数量进行求和处理，得到第二负样本加噪总数；基于所述第二正样本加噪总数、第二负样本加噪总数、第二正样本加噪数量、第二负样本加噪数量，确定所述第二加噪指标。

进一步，在一个例子中，所述第二加噪指标为第二加噪证据权重，基于此，上述确定所述第二加噪指标，包括：将所述第二正样本加噪数量除以所述第二正样本加噪总数，得到第二正样本占比；将所述第二负样本加噪数量除以所述第二负样本加噪总数，得到第二负样本占比；将所述第二正样本占比的取对数结果减去所述第二负样本占比的取对数结果，得到所述第二加噪证据权重。

根据第二方面，提供一种基于差分隐私进行特征处理的方法，所述方法涉及第一方和第二方，其中第一方存储多个样本的第一特征部分，第二方存储所述多个样本的第二特征部分和二分类标签；所述方法由所述第一方执行，包括：从所述第二方接收多个加密标签，其是对所述多个样本对应的多个二分类标签分别进行加密而得到；针对所述第一特征部分中的任一特征，对所述多个样本进行分箱处理，得到多个第一分箱；基于所述多个加密标签以及差分隐私噪声，确定每个第一分箱对应的第一正样本加密加噪数量和第一负样本加密加噪数量；将所述第一正样本加密加噪数量和第一负样本加密加噪数量发送至所述第二方，以使得所述第二方对其解密得到第一正样本加噪数量和第一负样本加噪数量，并基于该解密的结果确定相对应的第一分箱的第一加噪指标。

在一个实施例中，基于所述多个加密标签以及差分隐私噪声，确定每个第一分箱对应的第一正样本加密加噪数量和第一负样本加密加噪数量，包括：针对所述每个第一分箱，确定其中各个样本所对应的加密标签之间的连乘结果；对所述连乘结果以及加密所述差分隐私噪声而得到的加密噪声进行乘积处理，得到所述第一正样本加密加噪数量；利用加密该第一分箱中样本的总数而得到的加密总数，减去所述第一正样本加密噪声数量，得到所述第一负样本加密加噪数量。

在一个具体的实施例中，在对所述连乘结果以及加密所述差分隐私噪声而得到的加密噪声进行乘积处理，得到所述第一正样本加密加噪数量之前，所述方法还包括：针对所述多个第一分箱，从差分隐私的噪声分布中对应采样多个噪声；其中，对所述连乘结果以及加密所述差分隐私噪声而得到的加密噪声进行乘积处理，包括：对所述多个噪声中对应所述连乘结果的噪声进行加密，得到所述加密噪声；对所述连乘结果和所述加密噪声进行乘积处理。

在一个实施例中，所述差分隐私噪声为高斯噪声；在基于所述多个加密标签以及差分隐私噪声，确定每个第一分箱对应的第一正样本加密加噪数量和第一负样本加密加噪数量之前，所述方法还包括：基于针对所述多个样本设定的隐私预算参数，以及所述第一特征部分中各个特征所对应的分箱数量，确定噪声功率；以所述噪声功率作为高斯分布的方差，以0为均值，生成高斯噪声分布；从所述高斯噪声分布中采样所述高斯噪声。

在一个具体的实施例中，确定噪声功率包括：确定所述各个特征所对应的分箱数量的和值；获取均值变量的变量值，该变量值基于所述隐私预算参数的参数值，以及差分隐私的高斯机制下所述隐私预算参数和均值变量的约束关系而确定；基于以下因子的乘积计算得到所述噪声功率：所述分箱数量的和值，以及所述变量值进行平方运算后的倒数。

在一个例子中，所述隐私预算参数包括预算项参数和松弛项参数。

根据第三方面，提供一种基于差分隐私进行特征处理的装置，所述特征处理涉及第一方和第二方，其中第一方存储多个样本的第一特征部分，第二方存储所述多个样本的二分类标签；所述装置集成于所述第二方，包括：标签加密单元，配置为对所述多个样本对应的多个二分类标签分别进行加密，得到多个加密标签；加密标签发送单元，配置为将所述多个加密标签发送至所述第一方；加密数量处理单元，配置为从所述第一方接收多个第一分箱中每个第一分箱对应的第一正样本加密加噪数量以及第一负样本加密加噪数量，并对其进行解密，得到对应的第一正样本加噪数量和第一负样本加噪数量；其中，所述第一正样本加密加噪数量和第一负样本加密加噪数量基于所述多个加密标签以及第一差分隐私噪声而确定；所述多个第一分箱是针对所述第一特征部分中的任一特征，对所述多个样本进行分箱处理而得到；第一指标计算单元，配置为基于所述第一正样本加噪数量和第一负样本加噪数量，确定相对应的第一分箱的第一加噪指标。

在一个实施例中，所述第二方还存储所述多个样本的第二特征部分；所述装置还包括：分箱处理单元，配置为针对所述第二特征部分中的任一特征，对所述多个样本进行分箱处理，得到多个第二分箱；第二指标计算单元，配置为基于差分隐私机制，确定多个第二分箱中每个第二分箱的第二加噪指标；所述装置还包括：特征筛选单元，配置为基于所述第一加噪指标和第二加噪指标，对所述第一特征部分和/或第二特征部分进行特征筛选处理。

根据第四方面，提供一种基于差分隐私进行特征处理的装置，所述特征处理涉及第一方和第二方，其中第一方存储多个样本的第一特征部分，第二方存储所述多个样本的第二特征部分和二分类标签；所述装置集成于所述第一方，包括：加密标签接收单元，配置为从所述第二方接收多个加密标签，其是对所述多个样本对应的多个二分类标签分别进行加密而得到；分箱处理单元，配置为针对所述第一特征部分中的任一特征，对所述多个样本进行分箱处理，得到多个第一分箱；加密加噪单元，配置为基于所述多个加密标签以及差分隐私噪声，确定每个第一分箱对应的第一正样本加密加噪数量和第一负样本加密加噪数量；加密数量发送单元，配置为将所述第一正样本加密加噪数量和第一负样本加密加噪数量发送至所述第二方，以使得所述第二方对其解密得到第一正样本加噪数量和第一负样本加噪数量，并基于该解密的结果确定相对应的第一分箱的第一加噪指标。

根据第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当该计算机程序在计算机中执行时，令计算机执行上述第一方面或第二方面提供的方法。

根据第六方面，提供了一种计算设备，包括存储器和处理器，存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现上述第一方面或第二方面提供的方法。

采用本说明书实施例提供的方法和装置，通过引入差分隐私机制和数据加密算法等，使得各个数据持有方可以在保证己方数据安全的情况下，联合完成特征变换处理。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出根据一个实施例的纵向联邦学习的数据分布场景示意图；

图2示出根据一个实施例的基于差分隐私进行特征处理的多方交互图；

图3示出根据一个实施例的基于差分隐私进行特征处理的方法流程图；

图4示出根据一个实施例的基于差分隐私进行特征处理的装置结构示意图；

图5示出根据另一个实施例的基于差分隐私进行特征处理的装置结构示意图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

如前所述，数据方对样本特征数据进行特征处理时，有时需要用到样本标签。在一种典型的场景中，可以基于样本标签，计算样本特征的证据权重(weight of evidence，WoE)、信息值(Information Value，IV)等评估指标，从而实现特征筛选、特征编码或提供相关的数据查询服务等。比方说，为计算样本特征i的WoE，通常首先根据该特征i的特征值分布，对样本进行分箱，然后分别计算各个分箱的WoE。简单清楚起见，第i个样本特征下第j个分箱，或简称为某个特征分箱，采用以下公式计算WoE值：

在上式中，WoE _i,j表示某个特征分箱的证据权重，y _i,j和n _i,j分别表示某个特征分箱中正样本的数量和负样本的数量，y和n分别表示样本总集中正样本的数量和负样本的数量。

由上可知，在计算WoE的过程中，变量y _i,j、n _i,j、y和n取值的确定均需要用到各个样本是正样本还是负样本的样本标签。然而，在纵向联邦学习等场景下中，有些数据方只持有样本特征数据，而并未持有样本标签。

基于以上，本说明书实施例披露一种方案，使得没有样本标签的数据方，可以借助标签持有方中的样本标签信息，计算自身特征数据的WoE等特征评估指标，同时，保证各方数据隐私均不发生泄露。具体，图2示出根据一个实施例的基于差分隐私进行特征处理的多方交互图。需说明，其中多方至少为两个，为简洁描述，文中将持有样本标签的参与方称为第二方，将未存储样本标签但持有样本特征数据的其他任意一个参与方称为第一方，并且，将第一方持有的针对样本的部分特征称为第一特征部分。需理解，图2中仅示出第二方与某个第一方的交互过程，并且，第一方和第二方均可以实现为任何具有计算、处理能力的装置、平台或设备集群等。

如图2所示，所述交互过程包括以下步骤：

步骤S201，第二方对多个样本对应的多个二分类标签分别进行加密，得到多个加密标签。需说明，该多个样本针对的业务对象可以为用户、商品或业务事件，其中二分类标签(或称二元分类的类标签)可以包括风险类别标签或异常等级标签等。在一个示例中，业务对象是个人用户，相应，个人用户样本对应的二分类标签可以包括高消费人群和低消费人群，或者，可以是低风险用户或高风险用户。在另一个示例中，业务对象是企业用户，相应，企业用户样本对应的二分类标签可以包括信用企业和失信企业。在又一个示例中，业务对象是商品，相应，商品样本对应的二分类标签可以包括热销商品和冷门商品。在还一个示例中，业务对象是业务事件，如注册事件、访问事件、登录事件或支付事件等，相应，事件样本对应的二分类标签可以包括异常事件和正常事件。

在一个实施例中，本步骤可以包括：基于同态加密算法，对上述多个二分类标签分别进行加密，得到多个加密标签。在一个具体的实施例中，同态加密算法满足加法同态，进一步，在一个例子中，其满足条件：密文相乘后的解密结果等于对应明文的相加。示例性地，可以将此条件表示为：

Dec[∏ _iEnc(t _i)]＝∑ _it _i (2)

在上式中，t _i表示第i个明文，Enc()表示加密操作，Dec()表示解密操作。需理解，二分类标签涉及的两类标签值通常取0和1，基于此，上述条件在本说明书实施例披露的场景中，可以被细化为：针对多个二分类标签中任意数量T的二分类标签

其所对应加密标签

之间的连乘结果

与加密某个第一数值m ₁而得到的加密数值Enc(m ₁)之间的乘积结果，被解密后等于，T个二分类标签

中标签值取1的标签的数量m ₂与第一数值m ₁之间的和值。示例性地，可以将此细化后的条件表示为：

需说明，在公式(3)中，

其中g为预设加密算法中设计的数值。

在另一个具体的实施例中，上述预设加密算法满足的条件还可以为：密文相乘后基于预设数值n进行取模运算的结果，被解密后等于对应明文的相加。示例性地，可以将此条件表示为：

Dec[∏ _iEnc(t _i)mod n]＝∑ _it _i (4)

由上，第二方可以加密得到多个加密标签

需说明，虽然二分类标签的取值只有两类，但是，通过采用具有非确定性(non-deterministic)的加密算法，可以实现对同一标签值进行多次加密得到不同随机数，由此，利用得到的随机数作为对应的加密标签，可以保证其他方无法根据加密标签解密得到真实标签。

之后，在步骤S202，第一方从第二方接收上述多个加密标签

第一方可以在步骤S202之前、同时或之后，执行步骤S203，针对其持有的第一特征部分中的任一特征，对上述多个样本进行分箱处理，得到多个第一分箱。

对于上述第一特征部分，在一个实施例中，多个样本针对的业务对象为个人用户，相应，第一特征部分可以包括以下个人用户特征中的至少一项：年龄、性别、职业、常驻地、收入、交易频次、交易金额、交易明细等。在另一个实施例中，多个样本针对的业务对象为企业用户，相应，第一特征部分可以包括以下企业用户特征中的至少一项：成立时间、经营范围、招聘信息等。在又一个实施例中，多个样本针对的业务对象为商品，相应，第一特征部分可以包括以下商品特征中的一项或多项：成本、名称、产地、类目、销量、库存、毛利等。在还一个实施例中，多个样本针对的业务对象为业务事件，相应，第一特征部分可以包括以下事件特征中的一项或多项：事件发生时刻、网络环境(如IP地址)、地理位置或持续时长等。

对于分箱处理，简单来说，就是将连续变量离散化，将多状态的离散变量合并成少状态。分箱方式有多种，包括等频分箱、等距分箱、聚类分箱、Best-KS分箱和卡方分箱等。

为便于理解，以等距分箱为例进行示例性说明。在一个实施例中，本步骤可以包括：针对第一特征部分中任意的第一特征，先根据第一特征的取值空间确定多个等距区间，对应多个分箱类别；然后，对于上述多个样本中的任意一个样本，确定其对应该第一特征的特征值所在的等距区间，从而将该样本划归到对应类别的分箱中。在一个示例中，假定第一特征为年收入，并且，多个样本对应年收入的多个特征值包括12、20、32、45、55、60(单位：万)，据此采用等距分箱，可以得到下表1中示出的分箱结果。

表1

如表1所示，分箱结果中包括多个分箱中各个分箱对应的样本ID。

由上，第一方可以在步骤S203通过分箱处理得到任意的第一特征下的多个第一分箱，以及，在步骤S202中从第二方接收上述多个加密标签

基于此，第一方可以执行步骤S204，基于该多个加密标签

以及第一差分隐私噪声，确定上述多个第一分箱中每个第一分箱对应的第一正样本加密加噪数量和第一负样本加密加噪数量。

需说明，上述第一差分隐私噪声是由第一方基于差分隐私(Differential Privacy，简称DP)机制采样的噪声。在DP技术的实施中，通常，在原始数据或原始的数据计算结果上添加随机噪声，使得加噪后的数据在具有可用性的同时，有效防止其公布造成原始数据隐私泄露。

DP机制有多种，如高斯机制、拉普拉斯机制或指数机制等，相应，上述第一差分隐私噪声可以是高斯噪声、拉普拉斯噪声或指数噪声等。为便于理解，以上述第一差分隐私噪声是高斯噪声为例，对噪声的确定过程进行示例性说明。

高斯噪声采样自差分隐私的高斯噪声分布，高斯噪声分布的关键参数包括均值和方差，在一个实施例中，以基于差分隐私预算参数确定出的噪声功率作为高斯分布的方差，以0为均值，生成上述高斯噪声分布。具体，第一方可以基于其针对上述多个样本设定的隐私预算参数，以及其持有的第一特征部分中各个特征所对应的分箱数量，确定噪声功率。

进一步，在一个具体的实施例中，第一方确定第一特征部分中各个特征所对应的分箱数量的和值。示例性地，将第一特征部分对应的特征集合记作

将其中第i个特征对应的分箱数量记作K _i，从而可以将分箱数量的和值表示为

除了确定上述和值，第一方还求解均值变量的变量值，此变量值基于上述隐私预算参数的参数值，以及隐私预算参数和均值变量的约束关系而确定。其中约束关系是差分隐私的高斯机制中已有的，可以表示为下式：

在上式中，ε和δ分别表示上述隐私预算参数中的预算项参数和松弛项参数，二者的参数值可以是由工作人员根据实际需要人为设定的；μ表示上述均值变量；Φ(t)表示标准高斯分布的概率分布函数，

进一步，可以基于以上确定出的分箱数量和值和均值变量的变量值，计算上述噪声功率。具体，可以基于以下因子的乘积计算得到噪声功率：上述分箱数量的和值，以及均值变量的变量值进行平方运算后的倒数。示例性地，可以通过以下公式计算噪声功率：

在上式中，下角标A表示变量与第一方对应，

和μ _A分别表示噪声功率和均值变量的变量值，

表示第一特征部分对应的特征集合，

表示集合中特征元素的个数，K _i表示第i个特征对应的分箱数量。

如此，第一方可以确定出噪声功率，从而以该噪声功率作为高斯分布的方差，以0为均值，生成高斯噪声分布

进而从中随机采样得到高斯噪声

以上，主要以高斯噪声为示例，对差分隐私的噪声分布的确定进行说明。另一方面，对于第一差分隐私噪声的采样数量，通常，可以针对不同的待加噪对象，分别进行随机噪声的采样。在一个实施例中，第一方可以针对上述多个第一分箱，从差分隐私的噪声分布中对应采样多个噪声；例如，可以对上述高斯噪声分布进行多次随机采样，得到多个高斯噪声。

由上，可以采样得到第一差分隐私噪声，从而结合上述多个加密标签

确定每个第一分箱对应的第一正样本加密加噪数量和第一负样本加密加噪数量。

在一个实施例中，可以先确定上述第一正样本加密加噪数量。在一个具体的实施例中，针对上述每个第一分箱，确定其中各个样本所对应的加密标签之间的连乘结果，从而对该连乘结果以及加密上述第一差分隐私噪声而得到的加密噪声进行乘积处理，得到第一正样本加密加噪数量。示例性地，可以将此计算过程表示为：

上式中，下标‘i,j’表示第i个特征下的第j个分箱，其对应任意的某个第一分箱；

表示该某个第一分箱对应的第一正样本加密加噪数量；

表示该某个第一分箱对应的差分隐私噪声，

表示对应的加密噪声；

表示该某个第一分箱对应的样本集合，

表示集合

中样本的标签；

表示样本标签

对应的加密标签，

表示加密标签之间的连乘结果。

在另一个具体的实施例中，还可以针对上述乘积处理得到的结果进行取模运算，从而得到上述第一正样本加密加噪数量。示例性地，可以将此计算过程表示为：

在上式(4)中，n表示预设数值。

如此，可以确定第一分箱对应的第一正样本加密加噪数量。进一步，可以确定该第一分箱对应的第一负样本加密加噪数量，具体，利用基于同态加密算法加密该第一分箱中样本的总数而得到的加密总数，减去上述第一正样本加密噪声数量，从而得到第一负样本加密加噪数量。示例性地，可以将此计算过程表示为：

在上式中，Enc(·)表示同态加密算法，其满足加法同态；

表示某个第一分箱对应的第一负样本加密加噪数量；N _i,j表示该某个第一分箱中样本的总数，Enc(N _i,j)表示对该总数加密得到的加密总数；

表示该某个第一分箱对应的第一正样本加密加噪数量。

如此，可以先确定出第一分箱的第一正样本加密加噪数量

再确定出其第一负样本加密加噪数量

实际上，也可以设计上述公式(7)或(8)的计算结果对应第一负样本加密加噪数量

进一步，采样与公式(9)相同的思路，利用加密总数Enc(N _i,j)减去

可以得到第一正样本加密加噪数量

此外需说明的是，在一个实施例中，第一方在对上述差分隐私噪声、分箱样本总数进行加密时所采用的加密算法，与第二方加密样本标签时采用的加密算法相同。

由上，第一方可以确定第一特征部分中任一特征下的多个第一分箱中，每个第一分箱对应的第一正样本加密加噪数量

和第一负样本加密加噪数量

从而在步骤S205，将之发送给第二方。

然后，第二方执行步骤S206，对上述每个第一分箱对应的第一正样本加密加噪数量

和第一负样本加密加噪数量

进行解密，得到对应的第一正样本加噪数量

和第一负样本加噪数量

在一个实施例中，假定第一正样本加密加噪数量

是基于上式(7)进行计算而得到，并且，第二方采用的加密算法满足上述公式(3)，基于此，对

进行解密可以对照表示为：

同时，假定第一负样本加密加噪数量

是基于上式(9)进行计算而得到，此时，利用加密算法的同态性，可以基于

解密出负样本加密加噪数量

需说明，解密方式与加密方式相适应，在此不作穷举。

如此，第二方可以解密得到第一正样本加噪数量

和第一负样本加噪数量

进一步，第二方执行步骤S207，基于第一正样本加噪数量

和第一负样本加噪数量

确定相对应的第一分箱的第一加噪指标。

具体，一方面，对某个第一特征下的多个第一分箱对应的多个第一正样本加噪数量

进行求和处理，得到第一正样本加噪总数

示例性地，可以将此求和处理表示为：

另一方面，通过利用上述多个样本的样本总数

减去第一正样本加噪总数

得到第一负样本加噪总数

示例性地，可以将此计算过程表示为：

或者，通过对上述多个第一分箱对应的多个第一负样本加噪数量

进行求和处理，得到第一负样本加噪总数

示例性地，可以将此求和处理表示为：

上式中，

表示第i个特征下多个第一分箱组成的集合。

进一步，可以基于得到的第一正样本加噪总数

和第一负样本加噪总数

以及任意的第一分箱对应的第一正样本加噪数量

和第一负样本加噪数量

确定该第一分箱的第一加噪指标。

在一个实施例中，上述第一加噪指标是第一证据权重

其计算可以包括：将第一正样本加噪数量

除以第一正样本加噪总数

得到第一正样本占比；并且，将第一负样本加噪数量

除以第一负样本加噪总数

得到第一负样本占比；之后，将第一正样本占比的取对数结果减去所述第一负样本占比的取对数结果，得到所述第一加噪证据权重。示例性地，可以将此计算过程表示为：

如此，第二方可以确定出任意的第一分箱对应的第一加噪证据权重

可以理解，此第一加噪证据权重

等同于在对应的原始证据权重WoE _i,j中加入差分隐私噪声

而得到的加噪量。

在另一个实施例中，上述第一加噪指标是第一信息值

其计算可以包括：计算上述第一正样本占比和第一负样本占比；接着，计算第一正样本占比与第一负样本占比之间的差值，以及，计算第一正样本占比的取对数结果与所述第一负样本占比的取对数结果之间的差值；之后，求取这两个差值之间的乘积结果，作为第一信息值

示例性地，可以将此计算过程表示为：

如此，第二方可以确定出任意的第一分箱对应的第一信息值

可以理解，此第一信息值

等同于在对应的原始信息值IV _i,j中加入差分隐私噪声

而得到的加噪量。

以上，实现了在保护各方数据隐私的前提下，借助第二方持有的样本标签信息，对未持有样本标签的第一方中的特征数据进行证据权重、或IV值等特征评估指标的计算。

根据另一方面的实施例，第二方在执行上述步骤S207之后，还可以执行步骤S208，将第一加噪指标发送给第一方，从而，第一方可以根据其持有的第一特征部分中各个第一特征下的各个第一分箱所对应的加噪指标，进行特征的筛选，例如，若某个特征下各个第一分箱对应的加噪指标均十分接近，则可以判定该某个特征是冗余特征，并舍弃该某个特征；或者，还可以进行特征的编码，例如，针对上述多个样本，可以将其中任意样本对应任意第一特征的特征值，编码为该样本在该第一特征下所属的第一分箱的加噪指标，进一步，特征的编码值可以被用作联邦学习中机器学习模型的输入，从而有效避免模型参数公布或模型开放使用而导致训练数据隐私的泄露。

根据再一方面的实施例，第二方可以引入差分隐私机制，对自身持有的特征数据进行特征评估指标计算。为区分描述，文中将第二方持有的针对上述多个样本的特征数据称为第二特征部分，对第二特征部分的描述可以参见前述对第一特征部分的描述，需注意，二者对应相同样本ID的不同特征。

第二方通过计算第二特征下第二分箱的第二加噪指标，而非原始指标，在一种应用场景中，可以结合第二加噪指标和上述第一加噪指标，实现对第二特征部分和/或第一特征部分的特征筛选，从而在保护各方隐私的同时得到更加精准的特征筛选结果；在另一种应用场景中，还可以基于第二加噪指标对第二特征部分进行特征编码。

下面，对第二方其基于持有的二分类标签和特征数据，引入隐私差分隐私机制计算WoE、IV值等特征评估指标的过程进行介绍。图3示出根据一个实施例的基于差分隐私进行特征处理的方法流程图，所述方法由第二方执行。如图3所示，所述方法可以包括以下步骤：

步骤S310，针对第二特征部分中的任一特征，对多个样本进行分箱处理，得到多个第二分箱；步骤S320，基于二分类标签，确定每个第二分箱中正样本的真实数量和负样本的真实数量；步骤S330，在所述正样本的真实数量和负样本的真实数量上，分别添加第二差分隐私噪声，对应得到第二正样本加噪数量和第二负样本加噪数量；步骤S340，基于所述第二正样本加噪数量和第二负样本加噪数量，确定相对应的第二分箱的第二加噪指标。

对以上步骤的展开介绍如下：

首先，在步骤S310，针对第二特征部分中任意的第二特征，对多个样本进行分箱处理，得到多个第二分箱。需说明，各个第二分箱中可以包括对应样本的样本ID，此外，对分箱处理的介绍可以参见前述实施例中的相关描述，不在此赘述。

然后，在步骤S320，基于二分类标签，确定每个第二分箱中正样本的真实数量和负样本的真实数量。具体，针对任意一个的第二分箱，可以根据其中各个样本的二分类标签，统计出该第二分箱中的正样本的数量和负样本的数量，此处统计出的数量为真实数量。

在一个示例中，下表2中示意统计出的样本分布情况，包括在各个第二分箱下不同标签值，即低消费人群和高消费人群，对应的样本数量。

表2

由上，可以确定出每个第二分箱中正样本的真实数量和负样本的真实数量。从而，在步骤S330，在正样本的真实数量和负样本的真实数量上，分别添加第二差分隐私噪声，对应得到第二正样本加噪数量和第二负样本加噪数量。

需说明，第二差分隐私噪声是由第二方基于DP机制采样的噪声；并且，第二方采样的DP机制与第一方确定上述第一差分隐私噪声时采用的DP机制通常相同，但也可以不同。在一个实施例中，第二差分隐私噪声属于高斯噪声，采样自高斯噪声分布，具体，第二方可以基于其针对多个样本设定的隐私预算参数，以及其持有的第二特征部分中各个特征所对应的分箱数量，确定噪声功率，再以该噪声功率作为高斯分布的方差，以0为均值，确定高斯噪声分布

进而从中采样高斯噪声

此外，对于第二方确定

的进一步描述，可以参见前述对第一方确定高斯噪声分布

的相关描述，在此不作赘述。

另一方面，对于第二差分隐私噪声的采样数量，通常，可以针对不同的待加噪对象，分别进行随机噪声的采样。在一个实施例中，可以针对上述多个第二分箱，从差分隐私的噪声分布中对应采样多个噪声。在另一个实施例中，可以针对上述多个第二分箱，从差分隐私的噪声分布中对应采样多组噪声，每组噪声中的两个噪声分别对应分箱中的正样本和负样本。

由上，可以采样得到第二差分隐私噪声，从而对正负样本的真实数量进行加噪处理。在一个实施例中，可以在某个第二分箱对应的正样本真实数量和负样本真实数量上，分别添加与该某个第二分箱对应的第二差分隐私噪声，也就是说，对应同一分箱的正负样本数量添加的噪声相同，从而得到对应的第二正样本加噪数量和第二负样本加噪数量。示例性地，可以将此加噪过程表示为：

在公式(16)和(17)中，下标‘i,j’表示第i个特征下的第j个分箱，其对应任意的某个第二分箱；

表示该某个第二分箱对应的样本集合；

表示集合

中样本的标签；z _i,j表示该某个第二分箱对应的差分隐私噪声；

和

分别表示该某个第二分箱对应的正样本真实数量和负样本真实数量；

和

分别表示该某个第二分箱对应的第二正样本加噪数量和第二负样本加噪数量。

在另一个实施例中，针对某个第二分箱对应的正样本真实数量和负样本真实数量，可以对前者添加对应组别差分隐私噪声中的一个噪声，并且，对后者添加对应组别噪声中的两个噪声，从而得到对应的第二正样本加噪数量和第二负样本加噪数量。示例性地，可以将此加噪过程表示为：

在公式(18)和(19)中，用符号

和

示意对应某个第二分箱的一组差分隐私噪声中的两个不同噪声。

由上，可以得到每个第二分箱对应的第二正样本加噪数量

和第二负样本加噪数量

其中

表示上述第二特征部分。基于此，可以执行步骤S340，基于该第二正样本加噪数量

和第二负样本加噪数量

确定相对应的第二分箱的第二加噪指标。

需理解，对本步骤的描述，可以参见前述对步骤S207中确定第一分箱的第一加噪指标的描述，以下仅列出计算第二加噪证据权重的公式进行示意性说明，其他可以参见步骤S207中的相关描述。

在以上公式(20)、(21)和(22)中，

表示第i个第二特征下多个第二分箱组成的集合；j表示该多个第二分箱中第j个第二分箱；

和

分别表示第二正样本加噪总数和第二负样本加噪总数；

表示第i个第二特征下第j个第二分箱对应的第二加噪证据权重。

如此，持有标签的第二方，可以通过引入差分隐私机制，确定出任意的第二分箱对应的第二加噪证据权重

从而基于此第二加噪证据权重

和/或，前述确定出的第一加噪证据权重

对第一特征部分和/或第二特征部分，进行进一步的特征处理，如特征筛选、评估或编码等。

与上述特征处理方法相对应的，本说明书实施例还披露特征处理装置。图4示出根据一个实施例的基于差分隐私进行特征处理的装置结构示意图，所述联邦学习的参与方包括第一方和第二方，其中第一方存储多个样本的第一特征部分，第二方存储所述多个样本的二分类标签；所述装置集成于所述第二方。如图4所示，所述装置400包括：

标签加密单元410，配置为对所述多个样本对应的多个二分类标签分别进行加密，得到多个加密标签；加密标签发送单元420，配置为将所述多个加密标签发送至所述第一方；加密数量处理单元430，配置为从所述第一方接收多个第一分箱中每个第一分箱对应的第一正样本加密加噪数量以及第一负样本加密加噪数量，并对其进行解密，得到对应的第一正样本加噪数量和第一负样本加噪数量；其中，所述第一正样本加密加噪数量和第一负样本加密加噪数量基于所述多个加密标签以及第一差分隐私噪声而确定；所述多个第一分箱是针对所述第一特征部分中的任一特征，对所述多个样本进行分箱处理而得到；第一指标计算单元440，配置为基于所述第一正样本加噪数量和第一负样本加噪数量，确定相对应的第一分箱的第一加噪指标。

在一个实施例中，所述标签加密单元410具体配置为：基于预设加密算法，对所述多个二分类标签分别进行加密，得到所述多个加密标签；其中，所述预设加密算法满足以下条件：密文相乘的解密结果等于对应明文的相加。

在一个具体的实施例中，第一指标计算单元440包括：总数确定子单元，配置为对所述多个第一分箱对应的多个第一正样本加噪数量进行求和处理，得到第一正样本加噪总数；并且，对所述多个第一分箱对应的多个第一负样本加噪数量进行求和处理，得到第一负样本加噪总数；指标确定子单元，配置为基于所述第一正样本加噪总数、第一负样本加噪总数、第一正样本加噪数量、第一负样本加噪数量，确定所述第一加噪指标。

在一个具体的实施例中，第一加噪指标为第一加噪证据权重；指标确定子单元具体配置为：将所述第一正样本加噪数量除以所述第一正样本加噪总数，得到第一正样本占比；将所述第一负样本加噪数量除以所述第一负样本加噪总数，得到第一负样本占比；将所述第一正样本占比的取对数结果减去所述第一负样本占比的取对数结果，得到所述第一加噪证据权重。

在一个实施例中，所述第二方还存储所述多个样本的第二特征部分；所述装置400还包括：分箱处理单元450，配置为针对所述第二特征部分中的任一特征，对所述多个样本进行分箱处理，得到多个第二分箱；第二指标计算单元460，配置为基于差分隐私机制，确定多个第二分箱中每个第二分箱的第二加噪指标；所述装置400还包括：特征筛选单元470，配置为基于所述第一加噪指标和第二加噪指标，对所述第一特征部分和/或第二特征部分进行特征筛选处理。

在一个具体的实施例中，第二指标计算单元460包括：真实数量确定子单元，配置为基于所述二分类标签，确定每个第二分箱中正样本的真实数量和负样本的真实数量；加噪数量确定子单元，配置为在所述正样本的真实数量和负样本的真实数量上，分别添加第二差分隐私噪声，对应得到第二正样本加噪数量和第二负样本加噪数量；加噪指标确定子单元，配置为基于所述第二正样本加噪数量和第二负样本加噪数量，确定相对应的第二分箱的第二加噪指标。

在一个更具体的实施例中，所述第二差分隐私噪声为高斯噪声；所述装置400还包括：噪声确定单元480，配置为：基于针对所述多个样本设定的隐私预算参数，以及所述第二特征部分中各个特征所对应的分箱数量，确定噪声功率；以所述噪声功率作为高斯分布的方差，以0为均值，生成高斯噪声分布；从所述高斯噪声分布中采样所述高斯噪声。

进一步，在一个例子中，所述噪声确定单元480配置为确定噪声功率，具体包括：确定所述各个特征所对应分箱数量的和值；获取均值变量的变量值，该变量值基于所述隐私预算参数的参数值，以及差分隐私的高斯机制下所述隐私预算参数和均值变量的约束关系而确定；基于以下因子的乘积计算得到所述噪声功率：所述分箱数量的和值，以及所述变量值进行平方运算后的倒数。

更进一步，在一个具体的例子中，所述隐私预算参数包括预算项参数和松弛项参数。

在另一个更具体的实施例中，所述装置还包括：噪声采样单元，配置为针对所述多个第二分箱，从差分隐私的噪声分布中对应采样多组噪声；所述第二指标计算单元460配置为分别添加差分隐私噪声，具体包括：在所述正样本的真实数量上，添加对应组别噪声中的一个噪声，并且，在所述负样本的真实数量上，添加该组噪声中的另一个噪声。

在又一个更具体的实施例中，所述第二指标计算单元460中的加噪指标确定子单元具体配置为：对所述多个第二分箱对应的多个第二正样本加噪数量进行求和处理，得到第二正样本加噪总数；对所述多个第二分箱对应的多个第二负样本加噪数量进行求和处理，得到第二负样本加噪总数；基于所述第二正样本加噪总数、第二负样本加噪总数、第二正样本加噪数量、第二负样本加噪数量，确定所述第二加噪指标。

进一步，在一个例子中，第二加噪指标为第二加噪证据权重，加噪指标确定子单元配置为确定所述第二加噪指标，具体包括：将所述第二正样本加噪数量除以所述第二正样本加噪总数，得到第二正样本占比；将所述第二负样本加噪数量除以所述第二负样本加噪总数，得到第二负样本占比；将所述第二正样本占比的取对数结果减去所述第二负样本占比的取对数结果，得到所述第二加噪证据权重。

图5示出根据另一个实施例的基于差分隐私进行特征处理的装置结构示意图，所述联邦学习的参与方包括第一方和第二方，其中第一方存储多个样本的第一特征部分，第二方存储所述多个样本的第二特征部分和二分类标签，所述装置集成于所述第一方。如图5所示，所述装置500包括：

加密标签接收单元510，配置为从所述第二方接收多个加密标签，其是对所述多个样本对应的多个二分类标签分别进行加密而得到；分箱处理单元520，配置为针对所述第一特征部分中的任一特征，对所述多个样本进行分箱处理，得到多个第一分箱；加密加噪单元530，配置为基于所述多个加密标签以及差分隐私噪声，确定每个第一分箱对应的第一正样本加密加噪数量和第一负样本加密加噪数量；加密数量发送单元540，配置为将所述第一正样本加密加噪数量和第一负样本加密加噪数量发送至所述第二方，以使得所述第二方对其解密得到第一正样本加噪数量和第一负样本加噪数量，并基于该解密的结果确定相对应的第一分箱的第一加噪指标。

在一个实施例中，所述加密加噪单元530具体配置为：针对所述每个第一分箱，确定其中各个样本所对应的加密标签之间的连乘结果；对所述连乘结果以及加密所述差分隐私噪声而得到的加密噪声进行乘积处理，得到所述第一正样本加密加噪数量；利用加密该第一分箱中样本的总数而得到的加密总数，减去所述第一正样本加密噪声数量，得到所述第一负样本加密加噪数量。

在一个具体的实施例中，所述装置500还包括：噪声采样单元550，配置为针对所述多个第一分箱，从差分隐私的噪声分布中对应采样多个噪声；所述加密加噪单元530配置为进行所述乘积处理，具体包括：对所述多个噪声中对应所述连乘结果的噪声进行加密，得到所述加密噪声；对所述连乘结果和所述加密噪声进行乘积处理。

在一个实施例中，所述差分隐私噪声为高斯噪声；所述装置500还包括：噪声确定单元550，配置为基于针对所述多个样本设定的隐私预算参数，以及所述第一特征部分中各个特征所对应的分箱数量，确定噪声功率；以所述噪声功率作为高斯分布的方差，以0为均值，生成高斯噪声分布；从所述高斯噪声分布中采样所述高斯噪声。

在一个具体的实施例中，所述噪声确定单元500配置为确定噪声功率，具体包括：确定所述各个特征所对应的分箱数量的和值；获取均值变量的变量值，该变量值基于所述隐私预算参数的参数值，以及差分隐私的高斯机制下所述隐私预算参数和均值变量的约束关系而确定；基于以下因子的乘积计算得到所述噪声功率：所述分箱数量的和值，以及所述变量值进行平方运算后的倒数。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2或图3所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，该存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2或图3所描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

一种基于差分隐私进行特征处理的方法，所述方法涉及第一方和第二方，其中第一方存储多个样本的第一特征部分，第二方存储所述多个样本的二分类标签；所述方法由所述第二方执行，包括：

对所述多个样本对应的多个二分类标签分别进行加密，得到多个加密标签；

将所述多个加密标签发送至所述第一方；

从所述第一方接收多个第一分箱中每个第一分箱对应的第一正样本加密加噪数量以及第一负样本加密加噪数量，并对其进行解密，得到对应的第一正样本加噪数量和第一负样本加噪数量；其中，所述第一正样本加密加噪数量和第一负样本加密加噪数量基于所述多个加密标签以及第一差分隐私噪声而确定；所述多个第一分箱是针对所述第一特征部分中的任一特征，对所述多个样本进行分箱处理而得到；

基于所述第一正样本加噪数量和第一负样本加噪数量，确定相对应的第一分箱的第一加噪指标。
根据权利要求1所述的方法，其中，所述多个样本针对的业务对象为以下中的任一种：用户、商品、业务事件。
根据权利要求1所述的方法，其中，对所述多个样本对应的多个二分类标签分别进行加密，得到多个加密标签，包括：

基于同态加密算法，对所述多个二分类标签分别进行加密，得到所述多个加密标签。
根据权利要求1所述的方法，其中，基于所述第一正样本加噪数量和第一负样本加噪数量，确定相对应的第一分箱的第一加噪指标，包括：

对所述多个第一分箱对应的多个第一正样本加噪数量进行求和处理，得到第一正样本加噪总数；

对所述多个第一分箱对应的多个第一负样本加噪数量进行求和处理，得到第一负样本加噪总数；

基于所述第一正样本加噪总数、第一负样本加噪总数、第一正样本加噪数量、第一负样本加噪数量，确定所述第一加噪指标。
根据权利要求4所述的方法，所述第一加噪指标为第一加噪证据权重，其中，确定所述第一加噪指标，包括：

将所述第一正样本加噪数量除以所述第一正样本加噪总数，得到第一正样本占比；

将所述第一负样本加噪数量除以所述第一负样本加噪总数，得到第一负样本占比；

将所述第一正样本占比的取对数结果减去所述第一负样本占比的取对数结果，得到所述第一加噪证据权重。
根据权利要求1所述的方法，所述第二方还存储所述多个样本的第二特征部分；所述方法还包括：

针对所述第二特征部分中的任一特征，对所述多个样本进行分箱处理，得到多个第二分箱；

基于差分隐私机制，确定多个第二分箱中每个第二分箱的第二加噪指标；

其中，在确定相对应的第一分箱的第一加噪指标之后，所述方法还包括：

基于所述第一加噪指标和第二加噪指标，对所述第一特征部分和/或第二特征部分进行特征筛选处理。
根据权利要求6所述的方法，其中，基于差分隐私机制，确定多个第二分箱中每个第二分箱的第二加噪指标，包括：

基于所述二分类标签，确定每个第二分箱中正样本的真实数量和负样本的真实数量；

在所述正样本的真实数量和负样本的真实数量上，分别添加第二差分隐私噪声，对应得到第二正样本加噪数量和第二负样本加噪数量；

基于所述第二正样本加噪数量和第二负样本加噪数量，确定相对应的第二分箱的第二加噪指标。
根据权利要求7所述的方法，其中，所述第二差分隐私噪声为高斯噪声；在所述分别添加第二差分隐私噪声之前，所述方法还包括：

基于针对所述多个样本设定的隐私预算参数，以及所述第二特征部分中各个特征所对应的分箱数量，确定噪声功率；

以所述噪声功率作为高斯分布的方差，以0为均值，生成高斯噪声分布；

从所述高斯噪声分布中采样所述高斯噪声。
根据权利要求8所述的方法，其中，确定噪声功率包括：

确定所述各个特征所对应分箱数量的和值；

获取均值变量的变量值，该变量值基于所述隐私预算参数的参数值，以及差分隐私的高斯机制下所述隐私预算参数和均值变量的约束关系而确定；

基于以下因子的乘积计算得到所述噪声功率：所述分箱数量的和值，以及所述变量值进行平方运算后的倒数。
根据权利要求8或9所述的方法，其中，所述隐私预算参数包括预算项参数和松弛项参数。
根据权利要求7所述的方法，其中，在所述分别添加第二差分隐私噪声之前，所述方法还包括：

针对所述多个第二分箱，从差分隐私的噪声分布中对应采样多组噪声；

其中，所述分别添加差分隐私噪声包括：

在所述正样本的真实数量上，添加对应组别噪声中的一个噪声，并且，在所述负样本的真实数量上，添加该组噪声中的另一个噪声。
根据权利要求7所述的方法，其中，基于所述第二正样本加噪数量和第二负样本加噪数量，确定相对应的第二分箱的第二加噪指标，包括：

对所述多个第二分箱对应的多个第二正样本加噪数量进行求和处理，得到第二正样本加噪总数；

对所述多个第二分箱对应的多个第二负样本加噪数量进行求和处理，得到第二负样本加噪总数；

基于所述第二正样本加噪总数、第二负样本加噪总数、第二正样本加噪数量、第二负样本加噪数量，确定所述第二加噪指标。
根据权利要求12所述的方法，所述第二加噪指标为第二加噪证据权重，其中，确定所述第二加噪指标，包括：

将所述第二正样本加噪数量除以所述第二正样本加噪总数，得到第二正样本占比；

将所述第二负样本加噪数量除以所述第二负样本加噪总数，得到第二负样本占比；

将所述第二正样本占比的取对数结果减去所述第二负样本占比的取对数结果，得到所述第二加噪证据权重。
一种基于差分隐私进行特征处理的方法，所述方法涉及第一方和第二方，其中第一方存储多个样本的第一特征部分，第二方存储所述多个样本的二分类标签；所述方法由所述第一方执行，包括：

从所述第二方接收多个加密标签，其是对所述多个样本对应的多个二分类标签分别进行加密而得到；

针对所述第一特征部分中的任一特征，对所述多个样本进行分箱处理，得到多个第一分箱；

基于所述多个加密标签以及差分隐私噪声，确定每个第一分箱对应的第一正样本加密加噪数量和第一负样本加密加噪数量；

将所述第一正样本加密加噪数量和第一负样本加密加噪数量发送至所述第二方，以使得所述第二方对其解密得到第一正样本加噪数量和第一负样本加噪数量，并基于该解密的结果确定相对应的第一分箱的第一加噪指标。
根据权利要求14所述的方法，其中，所述多个样本针对的业务对象为以下中的任一种：用户、商品、业务事件。
根据权利要求14所述的方法，其中，基于所述多个加密标签以及差分隐私噪声，确定每个第一分箱对应的第一正样本加密加噪数量和第一负样本加密加噪数量，包括：

针对所述每个第一分箱，确定其中各个样本所对应的加密标签之间的连乘结果；

对所述连乘结果以及加密所述差分隐私噪声而得到的加密噪声进行乘积处理，得到所述第一正样本加密加噪数量；

利用加密该第一分箱中样本的总数而得到的加密总数，减去所述第一正样本加密噪声数量，得到所述第一负样本加密加噪数量。
根据权利要求16所述的方法，其中，在对所述连乘结果以及加密所述差分隐私噪声而得到的加密噪声进行乘积处理，得到所述第一正样本加密加噪数量之前，所述方法还包括：

针对所述多个第一分箱，从差分隐私的噪声分布中对应采样多个噪声；

其中，对所述连乘结果以及加密所述差分隐私噪声而得到的加密噪声进行乘积处理，包括：

对所述多个噪声中对应所述连乘结果的噪声进行加密，得到所述加密噪声；

对所述连乘结果和所述加密噪声进行乘积处理。
根据权利要求14所述的方法，其中，所述差分隐私噪声为高斯噪声；在基于所述多个加密标签以及差分隐私噪声，确定每个第一分箱对应的第一正样本加密加噪数量和第一负样本加密加噪数量之前，所述方法还包括：

基于针对所述多个样本设定的隐私预算参数，以及所述第一特征部分中各个特征所对应的分箱数量，确定噪声功率；

以所述噪声功率作为高斯分布的方差，以0为均值，生成高斯噪声分布；

从所述高斯噪声分布中采样所述高斯噪声。
根据权利要求18所述的方法，其中，确定噪声功率包括：

确定所述各个特征所对应的分箱数量的和值；

获取均值变量的变量值，该变量值基于所述隐私预算参数的参数值，以及差分隐私的高斯机制下所述隐私预算参数和均值变量的约束关系而确定；

基于以下因子的乘积计算得到所述噪声功率：所述分箱数量的和值，以及所述变量值进行平方运算后的倒数。
根据权利要求18或19所述的方法，其中，所述隐私预算参数包括预算项参数和松弛项参数。
一种基于差分隐私进行特征处理的装置，所述特征处理涉及第一方和第二方，其中第一方存储多个样本的第一特征部分，第二方存储所述多个样本的二分类标签；所述装置集成于所述第二方，包括：

标签加密单元，配置为对所述多个样本对应的多个二分类标签分别进行加密，得到多个加密标签；

加密标签发送单元，配置为将所述多个加密标签发送至所述第一方；

加密数量处理单元，配置为从所述第一方接收多个第一分箱中每个第一分箱对应的第一正样本加密加噪数量以及第一负样本加密加噪数量，并对其进行解密，得到对应的第一正样本加噪数量和第一负样本加噪数量；其中，所述第一正样本加密加噪数量和第一负样本加密加噪数量基于所述多个加密标签以及第一差分隐私噪声而确定；所述多个第一分箱是针对所述第一特征部分中的任一特征，对所述多个样本进行分箱处理而得到；

第一指标计算单元，配置为基于所述第一正样本加噪数量和第一负样本加噪数量，确定相对应的第一分箱的第一加噪指标。
根据权利要求21所述的装置，所述第二方还存储所述多个样本的第二特征部分；所述装置还包括：

分箱处理单元，配置为针对所述第二特征部分中的任一特征，对所述多个样本进行分箱处理，得到多个第二分箱；

第二指标计算单元，配置为基于差分隐私机制，确定多个第二分箱中每个第二分箱的第二加噪指标；

所述装置还包括：

特征筛选单元，配置为基于所述第一加噪指标和第二加噪指标，对所述第一特征部分和/或第二特征部分进行特征筛选处理。
一种基于差分隐私进行特征处理的装置，所述特征处理涉及第一方和第二方，其中第一方存储多个样本的第一特征部分，第二方存储所述多个样本的二分类标签；所述装置集成于所述第一方，包括：

加密标签接收单元，配置为从所述第二方接收多个加密标签，其是对所述多个样本对应的多个二分类标签分别进行加密而得到；

分箱处理单元，配置为针对所述第一特征部分中的任一特征，对所述多个样本进行分箱处理，得到多个第一分箱；

加密加噪单元，配置为基于所述多个加密标签以及差分隐私噪声，确定每个第一分箱对应的第一正样本加密加噪数量和第一负样本加密加噪数量；

加密数量发送单元，配置为将所述第一正样本加密加噪数量和第一负样本加密加噪数量发送至所述第二方，以使得所述第二方对其解密得到第一正样本加噪数量和第一负样本加噪数量，并基于该解密的结果确定相对应的第一分箱的第一加噪指标。
一种计算机可读存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-20中任一项所述的方法。
一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-20中任一项所述的方法。