WO2021114974A1

WO2021114974A1 - 用户风险评估方法及装置、电子设备、存储介质

Info

Publication number: WO2021114974A1
Application number: PCT/CN2020/126961
Authority: WO
Inventors: 陈岑
Original assignee: 支付宝(杭州)信息技术有限公司
Priority date: 2019-12-14
Filing date: 2020-11-06
Publication date: 2021-06-17
Also published as: CN111080123A

Abstract

本说明书提供一种用户风险评估方法，该方法包括：将目标合作方的用户的行为信息输入对应于该目标合作方的学生风控模型；该学生风控模型通过基于该目标合作方的目标样本数据的软标签值和该目标样本数据原本被标注的被作为硬标签值的风险标签值，对该目标样本数据进行知识蒸馏得到，该软标签值通过对多个教师风控模型针对该目标样本数据的预测结果进行集成得到，各个教师风控模型通过对相应的其他合作方的样本数据进行训练得到；其中，任一样本数据包含被标注有风险标签值的行为信息；根据该学生风控模型的输出结果确定该用户的风险评分。该方法可在保证各个合作方隐私的情况下，使得各个合作方协同训练学生风控模型，以用于进行风险评估。

Description

用户风险评估方法及装置、电子设备、存储介质

技术领域

本说明书一个或多个实施例涉及人工智能技术领域，尤其涉及一种用户风险评估方法及装置、电子设备、存储介质。

背景技术

风险控制是指风险管理者采取各种措施和方法，消灭或减少风险事件发生的各种可能性，或风险控制者减少风险事件发生时造成的损失。企业通过对用户潜在的风险进行精准识别，可以提升自身以及合作伙伴的安全防护能力，有助于业务增长。

发明内容

有鉴于此，本说明书一个或多个实施例提供一种用户风险评估方法及装置、电子设备、存储介质。

为实现上述目的，本说明书一个或多个实施例提供技术方案如下。

根据本说明书一个或多个实施例的第一方面，提出了一种用户风险评估方法，包括：将目标合作方的用户的行为信息输入对应于所述目标合作方的学生风控模型；所述学生风控模型通过基于所述目标合作方的目标样本数据的软标签值和所述目标样本数据原本被标注的被作为硬标签值的风险标签值，对所述目标样本数据进行知识蒸馏得到，所述软标签值通过多个教师风控模型针对所述目标样本数据的预测结果进行集成得到，各个教师风控模型通过对相应的其他合作方的样本数据进行训练得到；其中，任一样本数据包含被标注有风险标签值的行为信息；根据所述学生风控模型的输出结果确定所述用户的风险评分。

根据本说明书一个或多个实施例的第二方面，提出了一种基于机器学习模型的知识迁移方法，包括：获取多个教师网络针对来自于目标领域的目标样本数据的预测结果，各个教师网络通过对各自源领域的样本数据进行训练得到；对获取到的多个预测结果进行集成，得到对应于所述目标样本数据的软标签值；基于所述软标签值和所述目标样本数据原本被标注的硬标签值，对所述目标样本数据进行知识蒸馏以得到所述目标领域的学生网络。

根据本说明书一个或多个实施例的第三方面，提出了一种基于机器学习模型的知识迁移方法，包括：将接收到的来自于目标领域的目标样本数据输入教师网络，所述教师网络通过自身对所属源领域的样本数据进行训练得到；向所述目标样本数据的提供方返回所述教师网络输出的预测结果，以使得所述提供方对所述预测结果和其他教师网络针对所述目标样本数据的预测结果进行集成得到对应于所述目标样本数据的软标签值，以及基于所述软标签值和所述目标样本数据原本被标注的硬标签值对所述目标样本数据进行知识蒸馏以得到所述目标领域的学生网络。

根据本说明书一个或多个实施例的第四方面，提出了一种用户风险评估装置，包括：信息输入单元，将目标合作方的用户的行为信息输入对应于所述目标合作方的学生风控模型；所述学生风控模型通过基于所述目标合作方的目标样本数据的软标签值和所述目标样本数据原本被标注的被作为硬标签值的风险标签值，对所述目标样本数据进行知识蒸馏得到，所述软标签值通过对多个教师风控模型针对所述目标样本数据的预测结果进行集成得到，各个教师风控模型通过对相应的其他合作方的样本数据进行训练得到；其中，任一样本数据包含被标注有风险标签值的行为信息；风险评估单元，根据所述学生风控模型的输出结果确定所述用户的风险评分。

根据本说明书一个或多个实施例的第五方面，提出了一种基于机器学习模型的知识迁移装置，包括：预测结果获取单元，获取多个教师网络针对来自于目标领域的目标样本数据的预测结果，各个教师网络通过对各自源领域的样本数据进行训练得到；集成学习单元，对获取到的多个预测结果进行集成，得到对应于所述目标样本数据的软标签值；学生网络训练单元，基于所述软标签值和所述目标样本数据原本被标注的硬标签值，对所述目标样本数据进行知识蒸馏以得到所述目标领域的学生网络。

根据本说明书一个或多个实施例的第六方面，提出了一种基于机器学习模型的知识迁移装置，包括：样本数据输入单元，将接收到的来自于目标领域的目标样本数据输入教师网络，所述教师网络通过自身对所属源领域的样本数据进行训练得到；预测结果返回单元，向所述目标样本数据的提供方返回所述教师网络输出的预测结果，以使得所述提供方对所述预测结果和其他教师网络针对所述目标样本数据的预测结果进行集成得到对应于所述目标样本数据的软标签值，以及基于所述软标签值和所述目标样本数据原本被标注的硬标签值对所述目标样本数据进行知识蒸馏以得到所述目标领域的学生网络。

根据本说明书一个或多个实施例的第七方面，提出了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器通过运行所述可执行指令以实现如上述第一方面中所述的用户风险评估方法。

根据本说明书一个或多个实施例的第八方面，提出了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器通过运行所述可执行指令以实现如上述第二方面中所述的基于机器学习模型的知识迁移方法。

根据本说明书一个或多个实施例的第九方面，提出了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器通过运行所述可执行指令以实现如上述第三方面中所述的基于机器学习模型的知识迁移方法。

根据本公开实施例的第十方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述第一方面中所述的用户风险评估方法的步骤。

根据本公开实施例的第十一方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述第二方面中所述的基于机器学习模型的知识迁移方法的步骤。

根据本公开实施例的第十二方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述第三方面中所述的基于机器学习模型的知识迁移方法的步骤。

附图说明

图1是一示例性实施例提供的一种基于机器学习模型的知识迁移系统的架构示意图。

图2是一示例性实施例提供的一种基于机器学习模型的知识迁移方法的流程图。

图3是一示例性实施例提供的另一种基于机器学习模型的知识迁移方法的流程图。

图4是一示例性实施例提供的一种用户风险评估方法的流程图。

图5是一示例性实施例提供的一种基于机器学习模型的知识迁移方法的交互图。

图6是一示例性实施例提供的一种设备的结构示意图。

图7是一示例性实施例提供的一种用户风险评估装置的框图。

图8是一示例性实施例提供的另一种设备的结构示意图。

图9是一示例性实施例提供的一种基于机器学习模型的知识迁移装置的框图。

图10是一示例性实施例提供的另一种设备的结构示意图。

图11是一示例性实施例提供的另一种基于机器学习模型的知识迁移装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

图1是一示例性实施例提供的一种基于机器学习模型的知识迁移系统的架构示意图。如图1所示，该系统可以包括服务器11、网络12、若干电子设备，比如手机13、手机14和PC15-16等。

服务器11可以为包含一独立主机的物理服务器，或者该服务器11可以为主机集群承载的虚拟服务器。在运行过程中，服务器11作为服务端与各个合作方对接，也即向各个合作方提供合作的平台，用于将与之对接的各个合作方训练的教师网络的性能迁移到学生网络中。

手机13-14、PC15-16只是用户可以使用的一种类型的电子设备。实际上，与服务器11对接的合作方显然还可以使用诸如下述类型的电子设备：平板设备、笔记本电脑、掌上电脑(PDAs，Personal Digital Assistants)、可穿戴设备(如智能眼镜、智能手表等)等，本说明书一个或多个实施例并不对此进行限制。在本说明书一个或多个实施例的技术方案中，各个合作方利用自身的样本数据训练得到教师网络，从而可指导相关的学生网络的训练，将教师网络学习到的模型参数(也可理解为教师网络学到的知识)分享给学生网络从而提升学生网络的性能。

而对于手机13-14、PC15-16与服务器11之间进行交互的网络12，可以包括多种类型的有线或无线网络。在一实施例中，该网络12可以包括公共交换电话网络(Public Switched Telephone Network，PSTN)和因特网。

图2是一示例性实施例提供的一种基于机器学习模型的知识迁移方法的流程图。如图2所示，该方法应用于服务端，可以包括步骤202～206。

步骤202，获取多个教师网络针对来自于目标领域的目标样本数据的预测结果，各个教师网络通过对各自源领域的样本数据进行训练得到。

在本实施例中，在训练监督式机器学习模型时，收集标注有标签值的样本数据可能存在一定困难，例如，样本数据因时间问题积累较少，收集样本数据的数据量较大，耗时，成本较高。进一步的，即便在样本数据充足的情况下，从头开始构建模型的成本较高，效率较低。因此。当存在训练某一领域的监督式机器学习模型的需求时，可利用迁移学习(Transfer Learning)技术，将与该领域相关(比如，属于同一类型，相似度较高等)的已经训练好的模型学习到的知识，迁移至该领域的机器学习模型中，从而提高训练模型的效率。换言之，利用已有的知识来学习新的知识，已有的知识和新的知识之间存在相似性。在迁移学习中，将已有知识所属领域称为源领域(source domain)，待学习的新知识所属领域称为目标领域(target domain)；其中，源领域通常有大量标签数据，而目标领域往往只有少量标签样本，源领域和目标领域不同但有一定关联，可通过减小源领域和目标领域的分布差异，进而进行知识迁移。

进一步的，在迁移过程中，引入知识蒸馏(Knowledge Distillation)技术来提高待训练模型的泛化能力和性能。具体而言，采用教师-学生网络(teacher-student network)，通过对教师网络进行知识蒸馏以指导训练学生网络。其中，教师网络往往是一个更加复杂的网络，具有非常好的性能和泛化能力，可以将教师网络作为一个soft target来指导另外一个更加简单的学生网络进行学习，使得更加简单、参数运算量更少的学生模型也能够具有和教师网络相近的性能。

在本说明书一个或多个实施例的技术方案中，教师网络与源领域相对应，即由源领域已经训练好的监督式学习模型作为教师网络，用于指导学生网络的学习，将自身学习到的知识迁移至学生网络，而学生网络与目标领域相对应，即由目标领域的待训练模型作为学生网络。

在本实施例中，当与服务端对接的某一合作方存在待训练模型时，服务端可通过对其他与该合作方所属领域相关的合作方已经训练好的监督式机器学习模型进行迁移学习，以指导该待训练模型的学习。那么，在训练目标领域的学生网络的过程中，无需重新收集大量目标领域的样本数据以进行训练，从而可提高训练学生网络的效率。同时，学生网络还可继承教师网络较好的泛化能力和性能。

在本实施例中，可以选取一个或多个教师网络来指导学生网络的训练。其中，源领域与教师网络一一对应。为了提高学生网络的泛化能力和性能(即能够将教师网络的泛化能力和性能较好地迁移至学生网络)，可选取与目标领域相似度较高的领域作为源领域。作为一示例性实施例，可设定为各个源领域与目标领域属于同一类型。例如，在图像识别领域，均用于识别车辆、均用于识别猫科动物、均用于人脸识别等。

在本实施例中，在选取多个教师网络的情况下，本说明书的基于机器学习模型的知识迁移方案，可理解为各个源领域的数据提供方共同协同合作来完成对学生网络的训练，即多个数据提供方拥有自己的样本数据，可共同使用彼此的数据来统一训练机器学习模型。需要注意的是，各个数据提供方的样本数据属于自身的隐私数据，因此上述多方联合建模(joint modelling)的过程应在保证各方数据安全的情况下进行。因此，数据提供方作为训练教师网络的执行主体，分别在各自的源领域利用自身标注的样本数据来训练得到教师网络。换言之，各个教师网络通过各自源领域的数据提供方将自身的隐私数据作为样本数据进行训练得到。由此可见，一方面，各个数据提供方协同合作训练各自的教师网络，可提高后续训练学生网络的效率；另一方面，各个源领域的教师网络的训练过程都不用出域，可以保证各个源领域的样本数据的隐私。

步骤204，对获取到的多个预测结果进行集成，得到对应于所述目标样本数据的软标签值。

在本实施例中，为了提高训练出的学生网络为多样性(全面性)的强监督模型，使得学生网络稳定且在各个方面表现都较好，而非存在偏好(弱监督模型，在某些方面表现的比较好)，可对获取到的多个教师网络的预测结果进行集成学习。通过对获取到的多个预测结果进行集成学习，可在某一教师网络针对目标样本数据存在错误预测的情况下，通过其他的教师网络将该错误预测纠正，从而减小方差(bagging)、偏差(boosting)和改进预测(stacking)的效果。其中，集成学习的具体实现方式可根据实际情况灵活选取，本说明书一个或多个实施例并不对此进行限制。例如，可采取投票、加权平均等方式。又如，可采用Bagging(bootstrap aggregating，装袋；例如随机森林)、Boosting和Stacking等算法。

步骤206，基于所述软标签值和所述目标样本数据原本被标注的硬标签值，对所述目标样本数据进行知识蒸馏以得到所述目标领域的学生网络。

在本实施例中，硬标签值为目标样本数据中原本被标注的标签值。例如，硬标签值由目标样本数据的提供方(属于目标领域)对目标样本数据进行标注得到。在通过集成学习得到对应于目标样本数据的软标签值(soft target)后，基于软标签值和目标样本数据原本被标注的硬标签值(hard target)，对目标样本数据进行知识蒸馏以得到目标领域的学生网络。源自目标样本数据(数据量较小)原本被标注的hard target，包含的信息量(信息熵)较低；而soft target来自于大模型(教师网络)的预测输出，具有更高的熵，能比hard target提供更加多的信息。因此，通过soft target来辅助hard target一起训练，也即使用较少的数据以及较大的学习率，使得更加简单、参数运算量更少的学生模型也能够具有和教师网络相近的性能(因此也可理解为一种模型压缩的方式)。换言之，学生网络的训练含有两个目标函数：一个与hard target对应，即原始的目标函数，为学生网络的类别概率输出与标签(label)真值的交叉熵；另一个与soft target对应，为学生网络的类别概率输出与教师网络的类别概率输出的交叉熵。在soft target中，在softmax函数中增加温度参数T：

其中，q _i是第i类的概率值大小，输入z _i是第i类的预测向量(对数logits)；logits是分类模型生成的原始(非标准化)，预测向量通常会传递给标准化函数。当模型要解决多类别分类问题时，则logits通常作为softmax函数的输入，以由softmax函数生成一个(标准化)概率向量，对应于每个可能的类别。softmax函数通过将输入z _i与其他logits进行比较，将每个类别的logit z _i计算为概率q _i。

进一步的，Loss值为：L＝αL ^(soft)+(1-α)L ^(hard)。其中soft loss指的是对student model(学生网络)中softmax(T＝20)的输出与teacher model(教师网络)的softmax(T＝20)的输出求loss1；hard loss指的是对softmax(T＝1)的输出与原始label求loss2。

比如，可将与hard target对应的目标函数和与soft target对应的目标函数通过加权平均来作为学生网络的最终目标函数。例如，可以设定为soft target所占的权重更大一些。又如，T值可取一个中间值，而soft target所分配的权重为T^2，hard target的权重为1。当然，还可为其他任意权重设定，本说明书一个或多个实施例并不对此进行限制。

同时，由于针对目标领域的学生网络的训练过程无任何限制，因此可得到解释性强的学生网络。以分类器为例，由于对分类器没有限制，则可采用解释性强的分类器进行训练。

相应的，图3是一示例性实施例提供的另一种基于机器学习模型的知识迁移方法的流程图。如图3所示，该方法应用于教师网络的提供方，可以包括步骤302～304。

步骤302，将接收到的来自于目标领域的目标样本数据输入教师网络，所述教师网络通过自身对所属源领域的样本数据进行训练得到。

在本实施例中，教师网络的提供方可以是训练教师网络的样本数据提供方。为了保证样本数据提供方的隐私，样本数据应不被向外泄露。因此，样本数据提供方作为训练教师网络的执行主体，分别在各自的源领域利用自身标注的样本数据来训练得到教师网络。可见，各个源领域的教师网络的训练过程都不用出域，可以保证各个源领域的样本数据的隐私。

在本实施例中，对于将来自目标领域的目标样本数据输入教师网络得到的预测结果，可利用差分隐私技术来保护决策隐私(即保证各个教师网络输出结果的隐私)。因此，可对教师网络输出的预测结果进行差分隐私处理，再向目标样本数据的提供方返回被进行差分隐私处理的预测结果。具体而言，可针对预测结果引入拉普拉斯噪声(Laplacian Noises)，通过以下公式对教师网络输出的预测结果进行差分隐私处理：

f(i)+Lap(1/ε)；

其中，f(i)表示第i个样本数据的概率预测数值；Lap(1/ε)表示以0为中心并按1/ε缩放的拉普拉斯概率分布，ε表示用于控制隐私保护程度的参数。

当然，差分隐私具体的实现机制可根据实际情况灵活选取，本说明书一个或多个实施例并不对此进行限制。例如，Laplace机制、Laplace分布、指数机制等。

步骤304，向所述目标样本数据的提供方返回所述教师网络输出的预测结果，以使得所述提供方对所述预测结果和其他教师网络针对所述目标样本数据的预测结果进行集成得到对应于所述目标样本数据的软标签值，以及基于所述软标签值和所述目标样本数据原本被标注的硬标签值对所述目标样本数据进行知识蒸馏以得到所述目标领域的学生网络。

在本说明书一个或多个实施例的技术方案中，样本数据的具体内容可根据实际应用场景灵活设定。比如，样本数据的数据类型可以包含图像、文本、语音等。同样的，对样本数据的标注也可以根据实际应用场景灵活设定，下面举例进行说明。

在对实体对象进行风控的场景中，可对用户或商户潜在的风险进行预测，比如预测借贷、实时交易的风险。以实时交易为例，合作平台与商户对接合作，各个商户在营业过程中已积累有大量的样本数据。其中，样本数据(以文本形式，或者为其他数据类型)包括用户的基本信息、行为信息、交易信息等。并且，商户可在交易风险维度上对样本数据进行标注。当合作平台新接入一家新开业的商户a时，由于自身掌握的样本数据有限，导致无法训练得到较为准确全面的风控模型。那么，该新接入的商户a可联合合作平台上其他同类型的商户进行联合建模。在该情况下，新接入的商户a属于目标领域，自身掌握的少量样本数据为目标样本数据，待训练的风控模型为学生网络；合作平台上其他与该新接入的商户为同一行业(比如同属于基金、保险公司等)的商户1-n属于源领域，商户1-n可利用各自积累的大量样本数据训练得到教师网络以指导学生网络的训练。而在完成对学生网络的联合建模后，商户a便可将获取到的用户的基本信息、行为信息、交易信息等数据输入该学生网络，从而预测当前与该用户进行的交易的风险评分。

在智能推荐的场景中，可对用户潜在的需求进行预测，比如预测用户想买的商品、感兴趣的新闻、喜欢看的书籍等。以卖家向用户推荐商品为例，合作平台与多个卖家对接合作，各个卖家在营业过程中已积累有大量的用户购买记录。其中，样本数据(以文本形式，或者为其他数据类型)为职业、收入、年龄、性别等用户信息，商户可根据用户购买记录中用户购买的商品对样本数据进行标注。当合作平台新接入一卖家a时，由于自身的历史用户有限，导致无法向用户推荐商品。那么，该新接入的卖家a可联合合作平台上其他同类型的卖家进行联合建模。在该情况下，新接入的商户a属于目标领域，自身掌握的少量用户购买记录作为目标样本数据，待训练的商品推荐模型为学生网络；合作平台上其他与该新接入的卖家为同一行业(比如同属于餐饮、服装等)的卖家1-n属于源领域，卖家1-n可利用各自积累的大量用户购买记录训练得到教师网络以指导学生网络的训练。而在完成对学生网络的联合建模后，卖家a便可将获取到的用户的用户信息输入该学生网络，从而预测该用户可能存在购买需求的商品，进而根据预测结果向该用户推荐相应的商品。

在智能客服的场景中，可实时与用户进行语音对话，解答用户疑问或者与用户聊天。例如，合作平台与多家企业合作，各个企业在向用户提供客服服务的过程中已积累有大量的对话数据。其中，样本数据可以为用户输入的文本、图像、用户的语音等，针对样本数据的标注为对话数据中客服向用户回复的内容。当另外一家企业a新接入合作平台，并希望向用户提供智能客服的服务时，若自身掌握的用户与客服之间的对话数据有限，则可联合合作平台中其他企业进行联合建模。比如，可由提供语音助手、聊天工具、解答疑问等客服服务的企业1-n通过各自积累的对话数据进行联合建模。其中，企业1-n的客服与用户的对话场景存在一定的相似度。在该情况下，新接入的企业a属于目标领域，自身掌握的少量对话数据为目标样本数据，待训练的客服模型为学生网络；企业1-n属于源领域，企业1-n可利用各自积累的大量对话数据训练得到教师网络以指导学生网络的训练。而在完成对学生网络的联合建模后，企业a(或者企业1-n)便可利用该学生网络向用户提供智能客服的服务，即将用户发起的对话内容(文本、图像、语音等)作为该学生网络的输入，从而将输出结果作为本次对话的回复。

下面以风控的应用场景为例，对上述实施例训练得到的学生网络的应用过程进行说明。请参见图4，图4是一示例性实施例提供的一种用户风险评估方法的流程图。如图4所示，该评估方法可以包括步骤402～404。

步骤402，将目标合作方的用户的行为信息输入对应于所述目标合作方的学生风控模型；所述学生风控模型通过基于所述目标合作方的目标样本数据的软标签值和所述目标样本数据原本被标注的被作为硬标签值的风险标签值，对所述目标样本数据进行知识蒸馏得到，所述软标签值通过对多个教师风控模型针对所述目标样本数据的预测结果进行集成得到，各个教师风控模型通过对相应的其他合作方的样本数据进行训练得到；其中，任一样本数据包含被标注有风险标签值的行为信息。

步骤404，根据所述学生风控模型的输出结果确定所述用户的风险评分。

在本实施例中，在风控的应用场景下，学生风控模型与上述图2-3实施例中的学生网络相对应，而教师风控模型与上述图2-3实施例中的教师网络相对应。训练各个模型的样本数据的具体内容为用户的行为信息，标注内容为用户的风险评分；换言之，各个模型的输入是用户的行为信息，输出为用户的风险评分(包括概率分布)。多方在同一平台合作，目标合作方属于目标领域，为目标样本数据的提供方，待训练模型为学生风控模型，那么可通过其他合作方的教师风控模型来指导学生风控模型的训练。其中，训练的具体过程可参考上述图2-3所示的实施例，在此不再赘述。

而在训练得到对应于目标合作方的学生风控模型后，在一种情况下，可在目标合作方的客户端侧配置该学生风控模型，那么目标合作方在获取用户的行为信息后，可通过客户端向学生风控模型输入行为信息，以根据输出结果确定该用户的风险评分，进而决定后续针对该用户的处理方式。例如，当风险评分较低时(说明该用户较为安全)，可向该用户发放消费权益；当风险评分较高时(说明该用户存在潜在风险)，可拦截该用户的注册请求。在另一种情况下，可将学生风控模型配置于与目标合作方对接的服务端侧，那么目标合作方在获取用户的行为信息后，可通过客户端向服务端发送该行为信息，以由服务端利用学生风控模型来确定该用户的风险评分并返回至客户端进行展示。

在本实施例中，为了提高学生风控模型的泛化能力和性能(即能够将教师风控模型的泛化能力和性能较好地迁移至学生风控模型)，可选取与目标合作方相似度较高的其他合作方的教师风控模型来指导学生风控模型的训练。作为一示例性实施例，可设定为目标合作方和该其他合作方属于同一类型的合作方。例如，均属于餐饮类，均属于金融类等。

在本实施例中，为了保护各个其他合作方的隐私安全，各个教师风控模型通过相应的其他合作方对自身的样本数据进行训练得到。换言之，其他合作方作为训练教师风控模型的执行主体，分别利用自身标注的样本数据来训练得到教师风控模型。由此可见，一方面，各个合作方协同合作训练各自的教师风控模型，可提高后续训练学生风控模型的效率；另一方面，各个教师风控模型的训练过程都不用出域，可以保证各个源领域的样本数据的隐私。

为了便于理解，下面结合应用场景和举例对本说明书的基于机器学习模型的知识迁移方案的交互过程进行详细说明。如图5所示，该交互过程可以包括以下步骤：

步骤502A，合作方1通过自身标注的隐私数据训练得到教师网络1。

步骤502B，合作方2通过自身标注的隐私数据训练得到教师网络2。

步骤502C，合作方n通过自身标注的隐私数据训练得到教师网络n。

需要说明的是，步骤502A-502C之间为互相并列的步骤，在时间上的先后顺序并无要求。

在本实施例中，以风控场景为例，“商户健康分”是服务端作为商家合作平台向ISV(Independent Software Vendors，独立软件开发商)渠道商针对渠道商下的商家一种风险评估的指标，通过对渠道商下的商家的“商户健康分”进行评估，可帮助合作伙伴(ISV渠道商)提升风控能力。在ISV渠道商对用于评估商户健康分的模型进行建模的过程中，由于掌握的商户行为数据有限(即样本数据有限)，可借助于商家合作平台从其他合作方(其他ISV渠道商)积累的商户行为数据进行联合建模。其中，联合建模的其他合作方应与该ISV渠道商存在一定的关联，例如属于同一行业。以下以ISV渠道商与合作方1-n联合建模为例进行说明。

其中，合作方1-n对在历史营业过程中商户的行为信息进行在风险维度上的标注，进而得到用于训练教师网络的样本数据(属于自身的隐私数据)，也即训练得到的教师网络的输入为商户的行为信息，输出为相应的风险评分。而针对训练所采用的监督式机器学习算法，可根据实际情况灵活选取，本说明书一个或多个实施例并不对此进行限制。以下以分类器为例进行说明。

步骤504A，合作平台向合作方1发送目标样本数据。

步骤504B，合作平台向合作方2发送目标样本数据。

步骤504C，合作平台向合作方n发送目标样本数据。

在本实施例中，可由ISV渠道商向合作平台发送目标样本数据(即自身掌握的商户行为信息)，以由合作平台基于目标样本数据与合作方1-n进行联合建模。当然，也可由ISV渠道商直接与合作方1-n进行联合建模，即本实施例中合作平台执行的步骤由ISV渠道商直接执行。

需要说明的是，向合作方1-n分享目标样本数据的方式存在多种可能，可根据实际情况灵活设定，上述步骤504A-504C仅作为一示例性举例，本说明书一个或多个实施例并不对此进行限制。比如，还可由合作平台将目标样本数据发送至合作方1，再由合作方1分别向合作方2-n转发目标样本数据。

步骤506A，合作方1将目标样本数据输入教师网络1得到预测结果1。

步骤506B，合作方2将目标样本数据输入教师网络2得到预测结果2。

步骤506C，合作方n将目标样本数据输入教师网络n得到预测结果n。

以分类器为例进行说明，假设教师网络和学生网络解决的是一个有M个类别(classes)的多分类问题，给定一个目标样本数据xi，每个分类器fk(教师网络)都能预测出一个概率分布fk(xi)，那么可以通过集成学习技术来对每个fk(xi)进行集成以得到最终分数。

步骤508A，合作方1对预测结果1进行差分隐私处理。

步骤508B，合作方2对预测结果2进行差分隐私处理。

步骤508C，合作方n对预测结果n进行差分隐私处理。

承接于上述举例，各个合作方对于得到的预测结果，可利用差分隐私技术来保护决策隐私(即保证各个教师网络输出结果的隐私)。因此，可对教师网络输出的预测结果进行差分隐私处理。比如，可在每个分类器的概率预测数值(即预测结果)上引入拉普拉斯噪声(Laplacian Noises)，即fk(xi)+Lap(1/ε)；其中，Lap(1/ε)表示以0为中心并按1/ε缩放的拉普拉斯概率分布，ε表示用于控制隐私保护程度的参数。当然，差分隐私具体的实现机制可根据实际情况灵活选取，本说明书一个或多个实施例并不对此进行限制。例如，Laplace机制、Laplace分布、指数机制等。

步骤510A，合作方1向合作平台返回差分隐私处理后的预测结果1。

步骤510B，合作方2向合作平台返回差分隐私处理后的预测结果2。

步骤510C，合作方n向合作平台返回差分隐私处理后的预测结果n。

类似的，本说明书不对步骤506A-506C、步骤508A-508C、步骤510A-510C中并列的步骤之间设定时间先后顺序的要求。

步骤512，合作平台对预测结果1-n进行集成得到软标签值。

在本实施例中，为了提高训练出的学生网络为多样性(全面性)的强监督模型，使得学生网络稳定且在各个方面表现都较好，而非存在偏好(弱监督模型，在某些方面表现的比较好)，可对获取到的预测结果1-n进行集成学习从而得到对应于目标样本数据的软标签值。例如，将集成学习的结果作为对应于目标样本数据的软标签值。通过对获取到的多个预测结果进行集成学习，可在某一教师网络针对目标样本数据存在错误预测的情况下，通过其他的教师网络将该错误预测纠正，从而减小方差(bagging)、偏差(boosting)和改进预测(stacking)的效果。其中，集成学习的具体实现方式可根据实际情况灵活选取，本说明书一个或多个实施例并不对此进行限制。例如，可采取投票、求平均等方式。又如，可采用Bagging(bootstrap aggregating，装袋；例如随机森林)、Boosting和Stacking等算法。

步骤514，合作平台基于软标签值和目标样本数据原本被标注的硬标签值，对目标样本数据进行知识蒸馏得到学生网络。

以采用求平均的方式进行集成学习为例，针对所有分类器进行差分隐私处理后的概率分布输出取平均，并将取平均得到的最终概率输出作为一个soft target来指导学生网络学习。而目标样本数据原本被标注(比如，由目标域的ISV渠道商对自身积累的商户行为信息进行标注)的标签值定义为hard target(硬标签值)，那么最终的标签值Target＝a*hard target+b*soft target(a+b＝1)，Target则作为训练学生网络的最终标签值。其中，参数a，b是用于控制标签融合权重，比如，a＝0.1，b＝0.9。

通过上述训练的过程，可以得到一输入为商户的行为信息，输出为相应风险评分的学生网络。在一种情况下，可在ISV渠道商的客户端侧配置该学生网络，那么该ISV渠道商在获取到商户的行为信息后，可通过客户端向学生网络输入行为信息，以根据输出结果确定该商户的风险评分，进而决定后续针对该商户的处理方式。例如，当风险评分较低时(说明该商户较为安全)，可向该商户发放消费权益；当风险评分较高时(说明该商户存在潜在风险)，可拦截该商户的注册请求。在另一种情况下，可将学生网络配置于合作平台，那么ISV渠道商在获取到商户的行为信息后，可通过客户端向合作平台发送该行为信息，以由合作平台利用学生网络来确定该商户的风险评分并返回至客户端进行展示。

与上述方法实施例相对应，本说明书还提供了装置实施例。

本说明书的用户风险评估装置的实施例可以应用在电子设备上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。

从硬件层面而言，图6是一示例性实施例提供的一种设备的示意结构图。请参考图6，在硬件层面，该设备包括处理器602、内部总线604、网络接口606、内存608以及非易失性存储器610，当然还可能包括其他业务所需要的硬件。处理器602从非易失性存储器610中读取对应的计算机程序到内存608中然后运行，在逻辑层面上形成用户风险评估装置。当然，除了软件实现方式之外，本说明书一个或多个实施例并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

请参考图7，在软件实施方式中，该用户风险评估装置可以包括：信息输入单元71，将目标合作方的用户的行为信息输入对应于所述目标合作方的学生风控模型；所述学生风控模型通过基于所述目标合作方的目标样本数据的软标签值和所述目标样本数据原本被标注的被作为硬标签值的风险标签值，对所述目标样本数据进行知识蒸馏得到，所述软标签值通过对多个教师风控模型针对所述目标样本数据的预测结果进行集成得到，各个教师风控模型通过对相应的其他合作方的样本数据进行训练得到；其中，任一样本数据包含被标注有风险标签值的行为信息；风险评估单元72，根据所述学生风控模型的输出结果确定所述用户的风险评分。

可选的，各个教师风控模型通过相应的其他合作方对自身的样本数据进行训练得到。

本说明书的基于机器学习模型的知识迁移装置的实施例可以应用在电子设备上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。

从硬件层面而言，图8是一示例性实施例提供的一种设备的示意结构图。请参考图8，在硬件层面，该设备包括处理器802、内部总线804、网络接口806、内存808以及非易失性存储器810，当然还可能包括其他业务所需要的硬件。处理器802从非易失性存储器810中读取对应的计算机程序到内存808中然后运行，在逻辑层面上形成基于机器学习模型的知识迁移装置。当然，除了软件实现方式之外，本说明书一个或多个实施例并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

请参考图9，在软件实施方式中，该基于机器学习模型的知识迁移装置可以包括：预测结果获取单元91，获取多个教师网络针对来自于目标领域的目标样本数据的预测结果，各个教师网络通过对各自源领域的样本数据进行训练得到；集成学习单元92，对获取到的多个预测结果进行集成，得到对应于所述目标样本数据的软标签值；学生网络训练单元93，基于所述软标签值和所述目标样本数据原本被标注的硬标签值，对所述目标样本数据进行知识蒸馏以得到所述目标领域的学生网络。

可选的，各个源领域与所述目标领域属于同一类型。

可选的，各个教师网络通过各自源领域的数据提供方将自身的隐私数据作为样本数据进行训练得到。

可选的，所述目标样本数据和/或各个源领域的样本数据的数据类型包含以下至少之一：图像、文本、语音。

从硬件层面而言，图10是一示例性实施例提供的一种设备的示意结构图。请参考图10，在硬件层面，该设备包括处理器1002、内部总线1004、网络接口1006、内存1008 以及非易失性存储器1010，当然还可能包括其他业务所需要的硬件。处理器1002从非易失性存储器1010中读取对应的计算机程序到内存1008中然后运行，在逻辑层面上形成基于机器学习模型的知识迁移装置。当然，除了软件实现方式之外，本说明书一个或多个实施例并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

请参考图11，在软件实施方式中，该基于机器学习模型的知识迁移装置可以包括：样本数据输入单元1101，将接收到的来自于目标领域的目标样本数据输入教师网络，所述教师网络通过自身对所属源领域的样本数据进行训练得到；预测结果返回单元1102，向所述目标样本数据的提供方返回所述教师网络输出的预测结果，以使得所述提供方对所述预测结果和其他教师网络针对所述目标样本数据的预测结果进行集成得到对应于所述目标样本数据的软标签值，以及基于所述软标签值和所述目标样本数据原本被标注的硬标签值对所述目标样本数据进行知识蒸馏以得到所述目标领域的学生网络。

可选的，所述预测结果返回单元1102具体用于：对所述教师网络输出的预测结果进行差分隐私处理；向所述提供方返回被进行差分隐私处理的预测结果。

可选的，通过以下公式对所述教师网络输出的预测结果进行差分隐私处理：

f(i)+Lap(1/ε)；

可选的，还包括：隐私获取单元1103，获取自身所属源领域的隐私数据；教师网络训练单元1104，将所述隐私数据作为样本数据进行训练以得到所述教师网络。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

在一个典型的配置中，计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

一种用户风险评估方法，包括：

将目标合作方的用户的行为信息输入对应于所述目标合作方的学生风控模型；所述学生风控模型通过基于所述目标合作方的目标样本数据的软标签值和所述目标样本数据原本被标注的被作为硬标签值的风险标签值，对所述目标样本数据进行知识蒸馏得到，所述软标签值通过对多个教师风控模型针对所述目标样本数据的预测结果进行集成得到，各个教师风控模型通过对相应的其他合作方的样本数据进行训练得到；其中，任一样本数据包含被标注有风险标签值的行为信息；

根据所述学生风控模型的输出结果确定所述用户的风险评分。
根据权利要求1所述的方法，各个教师风控模型通过相应的其他合作方对自身的样本数据进行训练得到。
一种基于机器学习模型的知识迁移方法，包括：

获取多个教师网络针对来自于目标领域的目标样本数据的预测结果，各个教师网络通过对各自源领域的样本数据进行训练得到；

对获取到的多个预测结果进行集成，得到对应于所述目标样本数据的软标签值；

基于所述软标签值和所述目标样本数据原本被标注的硬标签值，对所述目标样本数据进行知识蒸馏以得到所述目标领域的学生网络。
根据权利要求3所述的方法，各个教师网络通过各自源领域的数据提供方将自身的隐私数据作为样本数据进行训练得到。
根据权利要求3所述的方法，所述目标样本数据和各个源领域的样本数据的数据类型包含以下至少之一：图像、文本、语音。
一种基于机器学习模型的知识迁移方法，包括：

将接收到的来自于目标领域的目标样本数据输入教师网络，所述教师网络通过自身对所属源领域的样本数据进行训练得到；

向所述目标样本数据的提供方返回所述教师网络输出的预测结果，以使得所述提供方对所述预测结果和其他教师网络针对所述目标样本数据的预测结果进行集成得到对应于所述目标样本数据的软标签值，以及基于所述软标签值和所述目标样本数据原本被标注的硬标签值对所述目标样本数据进行知识蒸馏以得到所述目标领域的学生网络。
根据权利要求6所述的方法，所述向所述目标样本数据的提供方返回所述教师网络输出的预测结果，包括：

对所述教师网络输出的预测结果进行差分隐私处理；

向所述提供方返回被进行差分隐私处理的预测结果。
根据权利要求7所述的方法，通过以下公式对所述教师网络输出的预测结果进行差分隐私处理：

f(i)+Lap(1/ε)；

其中，f(i)表示第i个样本数据的概率预测数值；

Lap(1/ε)表示以0为中心并按1/ε缩放的拉普拉斯概率分布，ε表示用于控制隐私保护程度的参数。
根据权利要求6所述的方法，还包括：

获取自身所属源领域的隐私数据；

将所述隐私数据作为样本数据进行训练以得到所述教师网络。
根据权利要求6所述的方法，所述目标样本数据和各个源领域的样本数据的数据类型包含以下至少之一：图像、文本、语音。
一种用户风险评估装置，包括：

信息输入单元，将目标合作方的用户的行为信息输入对应于所述目标合作方的学生风控模型；所述学生风控模型通过基于所述目标合作方的目标样本数据的软标签值和所述目标样本数据原本被标注的被作为硬标签值的风险标签值，对所述目标样本数据进行知识蒸馏得到，所述软标签值通过对多个教师风控模型针对所述目标样本数据的预测结果进行集成得到，各个教师风控模型通过对相应的其他合作方的样本数据进行训练得到；其中，任一样本数据包含被标注有风险标签值的行为信息；

风险评估单元，根据所述学生风控模型的输出结果确定所述用户的风险评分。
根据权利要求11所述的装置，各个教师风控模型通过相应的其他合作方对自身的样本数据进行训练得到。
一种基于机器学习模型的知识迁移装置，包括：

预测结果获取单元，获取多个教师网络针对来自于目标领域的目标样本数据的预测结果，各个教师网络通过对各自源领域的样本数据进行训练得到；

集成学习单元，对获取到的多个预测结果进行集成，得到对应于所述目标样本数据的软标签值；

学生网络训练单元，基于所述软标签值和所述目标样本数据原本被标注的硬标签值，对所述目标样本数据进行知识蒸馏以得到所述目标领域的学生网络。
根据权利要求13所述的装置，各个教师网络通过各自源领域的数据提供方将自身的隐私数据作为样本数据进行训练得到。
根据权利要求13所述的装置，所述目标样本数据和各个源领域的样本数据的数据类型包含以下至少之一：图像、文本、语音。
一种基于机器学习模型的知识迁移装置，包括：

样本数据输入单元，将接收到的来自于目标领域的目标样本数据输入教师网络，所述教师网络通过自身对所属源领域的样本数据进行训练得到；

预测结果返回单元，向所述目标样本数据的提供方返回所述教师网络输出的预测结果，以使得所述提供方对所述预测结果和其他教师网络针对所述目标样本数据的预测结果进行集成得到对应于所述目标样本数据的软标签值，以及基于所述软标签值和所述目标样本数据原本被标注的硬标签值对所述目标样本数据进行知识蒸馏以得到所述目标领域的学生网络。
根据权利要求16所述的装置，所述预测结果返回单元具体用于：

对所述教师网络输出的预测结果进行差分隐私处理；

向所述提供方返回被进行差分隐私处理的预测结果。
根据权利要求17所述的装置，通过以下公式对所述教师网络输出的预测结果进行差分隐私处理：

f(i)+Lap(1/ε)；

其中，f(i)表示第i个样本数据的概率预测数值；

Lap(1/ε)表示以0为中心并按1/ε缩放的拉普拉斯概率分布，ε表示用于控制隐私保护程度的参数。
根据权利要求16所述的装置，还包括：

隐私获取单元，获取自身所属源领域的隐私数据；

教师网络训练单元，将所述隐私数据作为样本数据进行训练以得到所述教师网络。
根据权利要求16所述的装置，所述目标样本数据和各个源领域的样本数据的数据类型包含以下至少之一：图像、文本、语音。
一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如权利要求1或2所述的方法。
一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如权利要求3-5中任一项所述的方法。
一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如权利要求6-10中任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如权利要求1或2所述方法的步骤。
一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如权利要求3-5中任一项所述方法的步骤。
一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如权利要求6-10中任一项所述方法的步骤。