WO2020155831A1

WO2020155831A1 - 数据标签生成、模型训练、事件识别方法和装置

Info

Publication number: WO2020155831A1
Application number: PCT/CN2019/121902
Authority: WO
Inventors: 程羽; 刘腾飞; 王维强; 杨洋; 徐轶
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2019-01-31
Filing date: 2019-11-29
Publication date: 2020-08-06
Also published as: CN110033092B; TWI713019B; CN110033092A; TW202038217A

Abstract

一种数据标签生成、模型训练、事件识别方法和装置，其中数据标签生成方法包括：获取目标事件的多条事件数据（S202）；通过所述目标事件对应的多个事件识别策略，分别对各条所述事件数据进行处理，得到各条所述事件数据的相对于风险事件的第一识别结果数据（S204）；根据所述第一识别结果数据对应的数据推断模型，基于所述第一识别结果数据进行数据推断，得到各条所述事件数据的相对于风险事件的第二识别结果数据（S206）；根据各条所述事件数据的所述第二识别结果数据，确定各条所述事件数据的数据标签（S208）。

Description

数据标签生成、模型训练、事件识别方法和装置

技术领域

本申请涉及计算机设备领域，尤其涉及一种数据标签生成、模型训练、事件识别方法和装置。

背景技术

随着人工智能技术和深度学习技术的发展，可以在计算机内建立各种模型，通过模型对各种事件进行处理。比如，通过用户投诉事件识别模型对用户投诉事件进行处理，以判断用户投诉事件是否成立。用户投诉事件可以是投诉其他用户赌博、洗钱等事件。

目前训练模型的主要过程为：获取样本数据，对样本数据打标签，利用打标签后的样本数据训练模型。目前主要通过人工手动的方式对数据打标签，存在标签的准确性难以保证的问题，导致模型的数据处理结果准确率低。

发明内容

本申请实施例的目的是提供一种数据标签生成、模型训练、事件识别方法和装置，以解决人工手动打标签存在的标签准确性难以保证的问题，提高模型的数据处理结果的准确率。

为解决上述技术问题，本申请实施例是这样实现的：

本申请实施例提供了一种数据标签生成方法，包括：

获取目标事件的多条事件数据；

通过所述目标事件对应的多个事件识别策略，分别对各条所述事件数据进行处理，得到各条所述事件数据的相对于风险事件的第一识别结果数据；

根据所述第一识别结果数据对应的数据推断模型，基于所述第一识别结果数据进行数据推断，得到各条所述事件数据的相对于风险事件的第二识别结果数据；

根据各条所述事件数据的所述第二识别结果数据，确定各条所述事件数据的数据标签。

本申请实施例提供了一种模型训练方法，包括：

根据上述的数据标签生成方法，确定目标事件的事件数据的数据标签；

将所述目标事件的事件数据作为所述目标事件的样本数据；

根据所述目标事件的样本数据和所述样本数据的数据标签，训练所述目标事件对应的风险事件识别模型，其中，所述风险事件识别模型用于识别所述目标事件是否为风险事件，或者，用于识别所述目标事件为风险事件的概率。

本申请实施例提供了一种事件识别方法，包括：

获取待识别目标事件的事件数据；

利用上述模型训练方法训练得到的风险事件识别模型，对所述待识别目标事件的事件数据进行处理；

根据处理结果，确定所述待识别目标事件是否为风险事件，或者，确定所述待识别目标事件为风险事件的概率。

本申请实施例提供了一种数据标签生成装置，包括：

第一获取模块，用于获取目标事件的多条事件数据；

第一结果确定模块，用于通过所述目标事件对应的多个事件识别策略，分别对各条所述事件数据进行处理，得到各条所述事件数据的相对于风险事件的第一识别结果数据；

第二结果确定模块，用于根据所述第一识别结果数据对应的数据推断模型，基于所述第一识别结果数据进行数据推断，得到各条所述事件数据的相对于风险事件的第二识别结果数据；

标签生成模块，用于根据各条所述事件数据的所述第二识别结果数据，确定各条所述事件数据的数据标签。

本申请实施例提供了一种模型训练装置，包括：

标签确定模块，用于根据上述的数据标签生成装置，确定目标事件的事件数据的数据标签；

样本确定模块，用于将所述目标事件的事件数据作为所述目标事件的样本数据；

模型训练模块，用于根据所述目标事件的样本数据和所述样本数据的数据标签，训练所述目标事件对应的风险事件识别模型，其中，所述风险事件识别模型用于识别所述目标事件是否为风险事件，或者，用于识别所述目标事件为风险事件的概率。

本申请实施例提供了一种事件识别装置，包括：

第二获取模块，用于获取待识别目标事件的事件数据；

数据处理模块，用于利用上述的模型训练装置训练得到的风险事件识别模型，对所述待识别目标事件的事件数据进行处理；

事件识别模块，用于根据处理结果，确定所述待识别目标事件是否为风险事件，或者，确定所述待识别目标事件为风险事件的概率。

本申请实施例提供了一种电子设备，包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器实现上述的数据标签生成方法的步骤，或者，实现上述的模型训练方法的步骤，或者，实现上述的事件识别方法的步骤。

本申请实施例提供了一种存储介质，用于存储计算机可执行指令，所述计算机可执行指令在被执行时实现上述的数据标签生成方法的步骤，或者，实现上述的模型训练方法的步骤，或者，实现上述的事件识别方法的步骤。

本实施例中，首先获取目标事件的多条事件数据，并通过目标事件对应的多个事件识别策略，分别对各条事件数据进行处理，得到各条事件数据的相对于风险事件的第一识别结果数据，然后根据第一识别结果数据对应的数据推断模型，基于第一识别结果数据进行数据推断，得到各条事件数据的相对于风险事件的第二识别结果数据，最后根据各条事件数据的第二识别结果数据，确定各条事件数据的数据标签。本实施例中，通过数据推断的方式，能够准确得到各条事件数据的识别结果数据，从而准确确定事件数据的数据标签，解决人工手动打标签存在的标签准确性难以保证的问题，提高数据打标签的准确率，提高模型的数据处理结果的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的本实施例中的各个方法的应用场景示意图；

图2为本申请一实施例提供的数据标签生成方法的流程示意图；

图3为本申请另一实施例提供的数据标签生成方法的流程示意图；

图4为本申请另一实施例提供的数据标签生成方法的流程示意图；

图5为本申请一实施例提供的模型训练方法的流程示意图；

图6为本申请一实施例提供的事件识别方法的流程示意图；

图7为本申请一实施例提供的一种数据标签生成装置的模块组成示意图；

图8为本申请一实施例提供的一种模型训练装置的模块组成示意图；

图9为本申请一实施例提供的一种事件识别装置的模块组成示意图；

图10为本申请一实施例提供的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本申请实施例提供了一种数据标签生成、模型训练、事件识别方法和装置，以解决人工手动打标签存在的标签准确性难以保证的问题，提高模型的数据处理结果的准确率。

图1为本申请一实施例提供的本实施例中的各个方法的应用场景示意图，如图1所示，图1提供了一种计算机系统，该系统包括数据标签生成子系统100、模型训练子系统200和事件识别子系统300，其中，数据标签生成子系统100可以执行本实施例中的数据标签生成方法，以为各条事件数据打标签。模型训练子系统200可以执行本实施例中的模型训练方法，基于打标签完成的各条事件数据，训练风险事件识别模型，风险事件识别模型用于识别目标事件是否为风险事件，或者，用于识别目标事件为风险事件的概率。事件识别子系统300可以执行本实施例中的事件识别方法，运行模型训练子系统200训练得到的风险事件识别模型，从而识别目标事件是否为风险事件，或者，识别目标事件为风险事件的概率。

本实施例中，图1中的数据标签生成子系统100、模型训练子系统200和事件识别子系统300可以分别包括一个或多个计算机设备，比如，通过若干个计算机设备组成数据标签生成子系统100，通过若干个计算机设备组成模型训练子系统200，通过若干个计算机设备组成事件识别子系统300。

在其他实施例中，也可以通过两个子系统实现本实施例中的各个方法，比如，通过一个子系统执行数据标签生成方法和模型训练方法，通过另一个子系统执行事件识别方法，或者，通过一个子系统执行数据标签生成方法，通过另一个子系统执行模型训练方法和事件识别方法。其中，每个子系统分别包括一个或多个计算机设备。

在其他实施例中，也可以通过一个计算机设备实现上述的数据标签生成方法、模型训练方法和事件识别方法。需要说明的是，以上提及的各种实施例所达到的功能和效果均相同，这里不再重复。

图2为本申请一实施例提供的数据标签生成方法的流程示意图，如图2所示，该流程包括以下步骤：

步骤S202，获取目标事件的多条事件数据；

步骤S204，通过目标事件对应的多个事件识别策略，分别对各条事件数据进行处理，得到各条事件数据的相对于风险事件的第一识别结果数据；

步骤S206，根据第一识别结果数据对应的数据推断模型，基于第一识别结果数据进行数据推断，得到各条事件数据的相对于风险事件的第二识别结果数据；

步骤S208，根据各条事件数据的第二识别结果数据，确定各条事件数据的数据标签。

上述步骤S202中，目标事件可以为用户交易事件，目标事件的事件数据可以为用户交易事件对应的交易数据。比如，用户通过电商平台进行多次商品购买活动，则目标事件设定为用户的买卖交易事件，目标事件的事件数据设定为用户的买卖交易事件对应的交易数据。本实施例中，交易数据包括但不限于交易时间、交易金额、交易时的网络环境参数、交易所用的终端设备的设备参数、交易金额扣款途径、商家信息、收款账户信息等。

一个具体的实施例中，选取用户的信用卡交易事件为目标事件，并设置风险事件为套现事件，从而为用户的信用卡交易数据打标签，该标签可以用于表示对应的信用卡交易事件为套现事件的概率。另一个具体的实施例中，选取用户的购物交易事件为目标事件，并设置风险事件为赌博事件，从而为用户的购物交易数据打标签，该标签可以用于表示对应的购物交易事件为赌博事件的概率。

本实施例中，预设有风险数据仓库，该仓库中存储有大量用户的交易数据，步骤S202中，可以从该风险数据仓库中获取多条交易数据作为事件数据。

本实施例中，预先配置有多个事件识别策略，事件识别策略可以对目标事件的事件数据进行处理，以识别目标事件是否为风险事件，或者识别目标事件为风险事件的概率。以目标事件为信用卡交易事件，风险事件为套现事件为例，通过事件识别策略可以识别信用卡交易事件是否为套现事件。事件识别策略可以包括各种模型或规则等。

上述步骤S204中，通过目标事件对应的多个事件识别策略，分别对各条事件数据进行处理，得到各条事件数据的相对于风险事件的第一识别结果数据。由于分别通过多个事件识别策略对各条事件数据进行处理，因此每条事件数据均具有多个第一识别结果数据。一个实施例中，每条事件数据通过一个事件识别策略识别得到一个第一识别结果数据，每条事件数据的第一识别结果数据的数量与事件识别策略的数量相同。

在一个具体的实施例中，事件识别策略包括模型和规则。通过模型可以对事件数据进行处理，从而确定目标事件为风险事件的概率，通过规则(比如基于If-Then的规则)可以对事件数据进行处理，从而确定目标事件是否为风险事件。其中，模型和规则中涉及的各个阈值可以基于人工经验确定。本实施例中，若模型或规则的输出结果为分值形式，则可以对模型或规则输出的各个分值进行归一化处理，比如将分值都归一化到0-10分之间，从而方便后续处理。

由于通过事件识别策略识别得到的第一识别结果数据可能不太准确，基于第一识别结果数据为事件数据打标签可能存在准确率低的问题，因此本实施例中第一识别结果数据又可以称为事件数据的“弱标签”。

下表1为本申请一实施例提供的第一识别结果数据的示意表，如表1所示，以三个事件识别策略、四条事件数据为例，通过每个事件识别策略，能够为每条事件数据识别得到一个第一识别结果数据，从而得到下表1。

表1

在得到多个第一识别结果数据后，本实施例中，可以确定第一识别结果数据对应的数据推断模型，具体确定方式如下：

(a1)在得到各条事件数据的相对于风险事件的第二识别结果数据之前，将每个事件识别策略的针对各条事件数据的多个第一识别结果数据确定为一组第一识别结果数据；

(a2)对各组第一识别结果数据进行分析，以确定各组第一识别结果数据之间的数据相关性分析结果；

(a3)分别对各组第一识别结果数据进行分布统计，以确定各组第一识别结果数据各自对应的分布数据；其中，第一识别结果数据可以为分值数据；

(a4)根据数据相关性分析结果和/或分布数据，确定第一识别结果数据对应的数据推断模型，数据推断模型包括投票模型、概率图模型和矩阵分解模型中的至少一种。

由表1可知，每个事件识别策略基于多条事件数据对应一组第一识别结果数据，比如表1中的第一识别结果数据1.1、第一识别结果数据1.2、第一识别结果数据1.3和第一识别结果数据1.4组成一组第一识别结果数据。因此上述动作(a1)中，在得到各条事件数据的相对于风险事件的第二识别结果数据之前，将每个事件识别策略的针对各条事件数据的多个第一识别结果数据确定为一组第一识别结果数据，表1中共有三组第一识别结果数据。

上述动作(a2)中，对各组第一识别结果数据进行分析，以确定各组第一识别结果数据之间的数据相关性分析结果，比如，将表1中从左至右的每列第一识别结果数据确定为一组第一识别结果数据，对表1中的这三组第一识别结果数据进行分析，以确定任意两组第一识别结果数据之间的数据相关性。数据相关性是指数据之间存在某种关系，如正相关，负相关等，具体分析方法可以采用通用的分析算法，这里不做限定。

上述动作(a3)中，分别对各组第一识别结果数据进行分布统计，以确定各组第一识别结果数据各自对应的分布数据。一个具体的实施例中，分别对各组第一识别结果数据进行分布统计，得到各组第一识别结果数据各自对应的数据分布函数，将该数据分布函数作为各组第一识别结果数据各自对应的分布数据。当然，该分布数据也可以为数据分布直方图或者数据分布曲线图等，这里不做限定。

上述动作(a4)中，根据数据相关性分析结果和/或分布数据，确定第一识别结果数据对应的数据推断模型，数据推断模型包括投票模型、概率图模型和矩阵分解模型中的至少一种。

一个实施例中，可以人工根据数据相关性分析结果和/或分布数据，在投票模型、概率图模型和矩阵分解模型中选择一种模型作为第一识别结果数据对应的数据推断模型。

另一个实施例中，若数据相关性分析结果表示各组第一识别结果数据之间高度相关，则可以选择概率图模型或矩阵分解模型作为数据推断模型，若数据相关性分析结果表示各组第一识别结果数据之间不相关，则可以选择投票模型作为数据推断模型。

另一个实施例中，若上述分布数据满足特定的分布形态要求，则可以选择概率图模型或矩阵分解模型作为数据推断模型，若上述分布数据不满足特定的分布形态要求，则可以选择投票模型作为数据推断模型。

另一个实施例中，若数据相关性分析结果表示各组第一识别结果数据之间高度相关，且上述分布数据满足特定的分布形态要求，则可以选择概率图模型或矩阵分解模型作为数据推断模型，若数据相关性分析结果表示各组第一识别结果数据之间不相关，或者，上述分布数据不满足特定的分布形态要求，则可以选择投票模型作为数据推断模型。

根据数据相关性分析结果和/或分布数据在投票模型、概率图模型和矩阵分解模型中选择一种模型作为数据推断模型的方式有多种，这里不再一一列举。

在确定数据推断模型后，可以执行上述步骤S206，根据第一识别结果数据对应的数据推断模型，基于第一识别结果数据进行数据推断，得到各条事件数据的相对于风险事件的第二识别结果数据，该过程具体为：通过所述数据推断模型，对各条事件数据对应的各个第一识别结果数据进行运算，得到各条事件数据的相对于风险事件的第二识别结果数据。

具体地，以数据推断模型为投票模型为例，结合上述表1，本步骤中可以通过投票模型对每条事件数据对应的各个第一识别结果数据进行投票运算，得到每条事件数据的相对于风险事件的第二识别结果数据。其中，第二识别结果数据可以是从各个第一识别结果数据中投票选择确定的，也可以是重新生成的识别结果数据。

以数据推断模型为概率图模型为例，结合上述表1，本步骤中可以通过概率图模型以每条事件数据对应的各个第一识别结果数据为基础建立概率图，根据该概率图确定每条事件数据的相对于风险事件的第二识别结果数据。其中，第二识别结果数据可以是从各个第一识别结果数据中选择确定的，也可以是重新生成的识别结果数据。

通过矩阵分解模型对每条事件数据对应的各个第一识别结果数据进行运算，得到每条事件数据的相对于风险事件的第二识别结果数据的过程可以参考矩阵分解模型的具体算法过程，这里不再重复。

由于本实施例中通过数据推断的方式对每条事件数据对应的各个第一识别结果数据进行运算，得到每条事件数据的相对于风险事件的第二识别结果数据，因此得到的第二识别结果数据具有准确性高的优点。

上述步骤S208中，根据各条事件数据的第二识别结果数据，确定各条事件数据的数据标签，可以为：将各条事件数据的第二识别结果数据，分别确定为各条事件数据的数据标签，比如第一条事件数据的数据标签为1，表示该条事件数据对应的目标事件为赌博事件，第二条事件数据的数据标签为0，表示该条事件数据对应的目标事件不为赌博事件，其中，赌博事件即为前述的风险事件。

通过以上过程，能够为各条事件数据确定准确的数据标签，从而解决人工手动打标签存在的标签准确性难以保证的问题，提高数据打标签的准确率，提高模型的数据处理结果的准确率。

考虑到通过步骤S204得到各条事件数据的相对于风险事件的第一识别结果数据后，可能存在第一识别结果数据为缺失数据，或者第一识别结果数据过于不准确不具有参考依据的情况，本实施例中的方法在得到各条事件数据的相对于风险事件的第二识别结果数据之前，还可以：根据第一识别结果数据，在各个事件识别策略中确定问题策略，在第一识别结果数据中删除问题策略对应的第一识别结果数据。相应地，根据第一识别结果数据对应的数据推断模型，基于第一识别结果数据进行数据推断，具体为：根据删除后的第一识别结果数据对应的数据推断模型，基于删除后的第一识别结果数据进行数据推断。

其中，根据第一识别结果数据，在各个事件识别策略中确定问题策略，可以为：

(b1)将每个事件识别策略的针对各条事件数据的多个第一识别结果数据确定为一组第一识别结果数据；

(b2)对第一识别结果数据分别执行以下处理中的一项或多项，根据执行结果，在各个事件识别策略中确定问题策略；

(b21)分别统计各组第一识别结果数据中表示识别结果为空缺的第一识别结果数据的数量比例；

(b22)分别对各组第一识别结果数据进行分布统计，以确定各组第一识别结果数据各自对应的分布数据；其中，第一识别结果数据可以为分值数据；

(b23)对各组第一识别结果数据进行分析，以确定各组第一识别结果数据之间的数据相关性分析结果。

由表1可知，每个事件识别策略基于多条事件数据对应一组第一识别结果数据，比如表1中的第一识别结果数据1.1、第一识别结果数据1.2、第一识别结果数据1.3和第一识别结果数据1.4组成一组第一识别结果数据。因此上述动作(b1)中，将每个事件识别策略的针对各条事件数据的多个第一识别结果数据确定为一组第一识别结果数据，表1中共有三组第一识别结果数据。

上述动作(b21)中，分别统计各组第一识别结果数据中表示识别结果为空缺的第一识别结果数据的数量比例。以表1为例，统计表1中每列数据(即每组第一识别结果数据)中表示识别结果为空缺的第一识别结果数据的数量比例。在通过事件识别策略对目标事件的事件数据进行处理时，事件识别策略的识别结果数据可能表示识别结果为空缺，即未得到识别结果的情况，基于此，本实施例中统计空缺结果的数量比例，若空缺结果的数量比例偏高，则说明对应的事件识别策略不适用于处理该目标事件的事件数据。

上述动作(b22)中，分别对各组第一识别结果数据进行分布统计，以确定各组第一识别结果数据各自对应的分布数据。一个具体的实施例中，分别对各组第一识别结果数据进行分布统计，得到各组第一识别结果数据各自对应的数据分布函数，将该数据分布函数作为各组第一识别结果数据各自对应的分布数据。当然，该分布数据也可以为数据分布直方图或者数据分布曲线图等，这里不做限定。

上述动作(b23)中，对各组第一识别结果数据进行分析，以确定各组第一识别结果数据之间的数据相关性分析结果，比如，将表1中从左至右的每列第一识别结果数据确定为一组第一识别结果数据，对表1中的这三组第一识别结果数据进行分析，以确定任意两组第一识别结果数据之间的数据相关性，或者确定任意三组第一识别结果数据之间的数据相关性。数据相关性是指数据之间存在某种关系，如正相关，负相关等，具体分析方法可以采用通用的分析算法，这里不做限定。

上述动作(b2)中，根据执行结果，在各个事件识别策略中确定问题策略。比如，根据动作(b21)中统计的数量比例，确定表示识别结果为空缺的第一识别结果数据的数量比例超过设定比例阈值的一组或多组第一识别结果数据，将该一组或多组第一识别结果数据对应的事件识别策略确定为问题策略。又如，根据动作(b22)确定的分布数据，确定对应的分布数据的分布形态不符合预设的分布形态要求的一组或多组第一识别结果数据，将该一组或多组第一识别结果数据对应的事件识别策略确定为问题策略。又如，根据动作(b23)确定的数据相关性分析结果，确定两组高度相关的第一识别结果数据，将这两组第一识别结果数据中任意一组第一识别结果数据对应的事件识别策略确定为问题策略。

在一个具体的实施例中，若根据数据相关性分析结果确定存在两组第一识别结果数据的数据相关性高度相关，并且其中一组第一识别结果数据中表示识别结果为空缺的第一识别结果数据的数量比例大于预设的比例阈值，则将这两组第一识别结果数据中任意一组第一识别结果数据对应的事件识别策略确定为问题策略。

在另一个具体的实施例中，可以先确定空缺值比例要求、分布数据要求、数据相关性要求等，根据这些要求以及上述动作(b21)(b22)(b23)的执行结果，在各个事件识别策略中确定问题策略，然后在第一识别结果数据中删除问题策略对应的第一识别结果数据，并确定删除后的第一识别结果数据对应的数据推断模型。

在又一个具体的实施例中，可以先确定第一识别结果数据对应的数据推断模型，然后根据该数据推断模型的性能参数，确定对应的数据要求，数据要求包括空缺值比例要求、分布数据要求和数据相关性要求等，根据这些要求以及上述动作(b21)(b22)(b23)的执行结果，在各个事件识别策略中确定问题策略。该方式中，删除后的第一识别结果数据对应的数据推断模型，即为，删除前的第一识别结果数据对应的数据推断模型。

图3为本申请另一实施例提供的数据标签生成方法的流程示意图，如图3所示，该流程包括以下步骤：

步骤S302，获取目标事件的多条事件数据；

步骤S304，通过目标事件对应的多个事件识别策略，分别对各条事件数据进行处理，得到各条事件数据的相对于风险事件的第一识别结果数据；

步骤S306，根据第一识别结果数据，在各个事件识别策略中确定问题策略，在第一识别结果数据中删除问题策略对应的第一识别结果数据；

步骤S308，确定删除后的第一识别结果数据对应的数据推断模型；

步骤S310，根据删除后的第一识别结果数据对应的数据推断模型，基于删除后的第一识别结果数据进行数据推断，得到各条事件数据的相对于风险事件的第二识别结果数据；

步骤S312，将各条事件数据的第二识别结果数据，分别确定为各条事件数据的数据标签。

图4为本申请另一实施例提供的数据标签生成方法的流程示意图，如图4所示，该流程包括以下步骤：

步骤S402，获取目标事件的多条事件数据；

步骤S404，通过目标事件对应的多个事件识别策略，分别对各条事件数据进行处理，得到各条事件数据的相对于风险事件的第一识别结果数据；

步骤S406，确定第一识别结果数据对应的数据推断模型；

步骤S408，根据第一识别结果数据和数据推断模型对应的数据要求，在各个事件识别策略中确定问题策略，在第一识别结果数据中删除问题策略对应的第一识别结果数据；

步骤S410，根据第一识别结果数据对应的数据推断模型，基于删除后的第一识别结果数据进行数据推断，得到各条事件数据的相对于风险事件的第二识别结果数据；

步骤S412，将各条事件数据的第二识别结果数据，分别确定为各条事件数据的数据标签。

通过图3图4中的流程，能够为各条事件数据确定准确的数据标签，从而解决人工手动打标签存在的标签准确性难以保证的问题，提高数据打标签的准确率，提高模型的数据处理结果的准确率。尤其，通过图4中的流程，能够根据数据推断模型对应的数据要求在第一识别结果数据中确定不符合要求的数据进行删除，可以使得数据标签推断结果更为准确。

在资金风险识别领域中可以应用本实施例中的数据标签生成方法，通过设置目标事件为用户的交易事件，目标事件的事件数据为用户的交易事件的事件数据，可以达到为事件数据打标签的效果，其中，风险事件可以为洗钱事件、赌博事件、套现事件等。

在资金风险识别领域中通过本实施例中的方法为交易数据打标签，能够提高打标签的准确性，提高用户资金风险识别的准确性，并且由于该方法可以自动执行，不需要人工干预，因此该方法运维简单方便。

综上，本实施例中的数据标签生成方法具有以下有益效果：

(1)可以为各条事件数据确定准确的数据标签，从而解决人工手动打标签存在的标签准确性难以保证的问题，提高数据打标签的准确率，提高模型的数据处理结果的准确率；

(2)提出了一种基于弱监督学习的数据标签生成方法，针对现有的识别模型和规则准确率不高、覆盖率低的问题进行了改进，将该本质上无监督学习的问题从标签学习出发，提供了基于弱标签的解决思路和途径；

(3)该方法可以应用在资金风险识别场景中，提高用户资金风险识别的准确性；

(4)该方法可以使用多种计算机语言和软硬件实现，不受到软硬件环境和计算机语言的限制。

基于上述的数据标签生成方法，本申请实施例还提供了一种模型训练方法，图5为本申请一实施例提供的模型训练方法的流程示意图，如图5所示，该方法包括以下步骤：

步骤S502，根据上述的数据标签生成方法，确定目标事件的事件数据的数据标签；

这部分可以参考前面的描述，这里不再重复。

步骤S504，将目标事件的事件数据作为目标事件的样本数据；

步骤S506，根据目标事件的样本数据和样本数据的数据标签，训练目标事件对应的风险事件识别模型，其中，风险事件识别模型用于识别目标事件是否为风险事件，或者，用于识别目标事件为风险事件的概率。

步骤S506中模型可以采用已有的方法训练，这里不做限定。本实施例中训练得到的风险事件识别模型可以为深度学习模型或卷积神经网络模型等模型。

本实施例中，目标事件可以为用户交易事件，目标事件的事件数据可以为用户交易事件对应的交易数据。比如，用户通过电商平台进行多次商品购买活动，则目标事件设定为用户的买卖交易事件，目标事件的事件数据设定为用户的买卖交易事件对应的交易数据。本实施例中，交易数据包括但不限于交易时间、交易金额、交易时的网络环境参数、交易所用的终端设备的设备参数、交易金额扣款途径、商家信息、收款账户信息等。

一个具体的实施例中，选取用户的信用卡交易事件为目标事件，并设置风险事件为套现事件，从而为用户的信用卡交易数据打标签，基于所打的标签训练用于识别套现事件的风险事件识别模型。另一个具体的实施例中，选取用户的购物交易事件为目标事件，并设置风险事件为赌博事件，从而为用户的购物交易数据打标签，基于所打的标签训练用于识别赌博事件的风险事件识别模型。

本实施例中，利用上述的数据标签生成方法所生成的数据标签训练风险事件识别模型。由于在生成数据标签时通过数据推断的方式，能够准确得到各条事件数据的识别结果数据，因此能够准确确定事件数据的数据标签，解决人工手动打标签存在的标签准确性难以保证的问题，提高数据打标签的准确率，提高模型训练的准确性，提高模型的数据处理结果的准确率。

基于上述的模型训练方法，本申请实施例还提供了一种事件识别方法，图6为本申请一实施例提供的事件识别方法的流程示意图，如图6所示，该方法包括以下步骤：

步骤S602，获取待识别目标事件的事件数据。

具体地，可以从网络上获取待识别目标事件的事件数据。

步骤S604，利用上述模型训练方法训练得到的风险事件识别模型，对待识别目标事件的事件数据进行处理。

步骤S606，根据处理结果，确定待识别目标事件是否为风险事件，或者，确定待识别目标事件为风险事件的概率。

其中，风险事件识别模型的输出结果可以是待识别目标事件是否为风险事件，或者是待识别目标事件为风险事件的概率。

本实施例中，待识别目标事件可以为用户交易事件，待识别目标事件的事件数据可以为用户交易事件对应的交易数据。比如，用户通过电商平台进行多次商品购买活动，则待识别目标事件设定为用户的买卖交易事件，待识别目标事件的事件数据设定为用户的买卖交易事件对应的交易数据。本实施例中，交易数据包括但不限于交易时间、交易金额、交易时的网络环境参数、交易所用的终端设备的设备参数、交易金额扣款途径、商家信息、收款账户信息等。

一个具体的实施例中，选取用户的信用卡交易事件为待识别目标事件，并设置风险事件为套现事件，从而识别信用卡交易事件是否为套现事件。另一个具体的实施例中，选取用户的购物交易事件为待识别目标事件，并设置风险事件为赌博事件，从而识别购物交易事件是否为赌博事件。

本实施例中风险事件识别模型的处理结果可以为二分类结果或分值结果。

本实施例中，利用上述的模型训练方法训练得到的风险事件识别模型识别待识别目标事件是否为风险事件。由于在训练风险事件识别模型时，采用上述的数据标签生成方法通过数据推断的方式准确得到各条事件数据的识别结果数据，因此能够准确确定事件数据的数据标签，从而提高数据打标签的准确率，进而提高模型训练的准确性，提高模型的数据处理结果的准确率。

基于上述的数据标签生成方法，本申请实施例还提供了一种数据标签生成装置，图7为本申请一实施例提供的一种数据标签生成装置的模块组成示意图，如图7所示，该装置包括：

第一获取模块71，用于获取目标事件的多条事件数据；第一结果确定模块72，用于通过所述目标事件对应的多个事件识别策略，分别对各条所述事件数据进行处理，得到各条所述事件数据的相对于风险事件的第一识别结果数据；第二结果确定模块73，用于根据所述第一识别结果数据对应的数据推断模型，基于所述第一识别结果数据进行数据推断，得到各条所述事件数据的相对于风险事件的第二识别结果数据；标签生成模块74，用于根据各条所述事件数据的所述第二识别结果数据，确定各条所述事件数据的数据标签。

可选地，所述装置还包括模型确定模块，用于：在得到各条所述事件数据的相对于风险事件的第二识别结果数据之前，将每个所述事件识别策略的针对各条所述事件数据的多个所述第一识别结果数据确定为一组所述第一识别结果数据；对各组所述第一识别结果数据进行分析，以确定各组所述第一识别结果数据之间的数据相关性分析结果；分别对各组所述第一识别结果数据进行分布统计，以确定各组所述第一识别结果数据各自对应的分布数据；根据所述数据相关性分析结果和/或所述分布数据，确定所述第一识别结果数据对应的数据推断模型，所述数据推断模型包括投票模型、概率图模型和矩阵分解模型中的至少一种。

可选地，所述装置还包括数据删除模块，用于：在得到各条所述事件数据的相对于风险事件的第二识别结果数据之前，根据所述第一识别结果数据，在各个所述事件识别策略中确定问题策略，在所述第一识别结果数据中删除所述问题策略对应的第一识别结果数据；所述第二结果确定模块73具体用于：根据删除后的所述第一识别结果数据对应的数据推断模型，基于删除后的所述第一识别结果数据进行数据推断。

可选地，所述数据删除模块具体用于：将每个所述事件识别策略的针对各条所述事件数据的多个所述第一识别结果数据确定为一组所述第一识别结果数据；对所述第一识别结果数据分别执行以下处理中的一项或多项，根据执行结果，在各个所述事件识别策略中确定问题策略；分别统计各组所述第一识别结果数据中表示识别结果为空缺的第一识别结果数据的数量比例；分别对各组所述第一识别结果数据进行分布统计，以确定各组所述第一识别结果数据各自对应的分布数据；对各组所述第一识别结果数据进行分析，以确定各组所述第一识别结果数据之间的数据相关性分析结果。

可选地，所述数据推断模型包括投票模型、概率图模型和矩阵分解模型中的至少一种；所述第二结果确定模块73具体用于：通过所述数据推断模型，对各条所述事件数据对应的各个所述第一识别结果数据进行运算，得到各条所述事件数据的相对于风险事件的第二识别结果数据。

可选地，所述标签生成模块74具体用于：将各条所述事件数据的所述第二识别结果数据，分别确定为各条所述事件数据的数据标签。

基于上述的模型训练方法，本申请实施例还提供了一种模型训练装置，图8为本申请一实施例提供的一种模型训练装置的模块组成示意图，如图8所示，该装置包括：

标签确定模块81，用于根据上述的数据标签生成装置，确定目标事件的事件数据的数据标签；

样本确定模块82，用于将所述目标事件的事件数据作为所述目标事件的样本数据；

模型训练模块83，用于根据所述目标事件的样本数据和所述样本数据的数据标签，训练所述目标事件对应的风险事件识别模型，其中，所述风险事件识别模型用于识别所述目标事件是否为风险事件，或者，用于识别所述目标事件为风险事件的概率。

本实施例中，利用上述的数据标签生成装置所生成的数据标签训练风险事件识别模型。由于在生成数据标签时通过数据推断的方式，能够准确得到各条事件数据的识别结果数据，因此能够准确确定事件数据的数据标签，解决人工手动打标签存在的标签准确性难以保证的问题，提高数据打标签的准确率，提高模型训练的准确性，提高模型的数据处理结果的准确率。

基于上述的事件识别方法，本申请实施例还提供了一种事件识别装置，图9为本申请一实施例提供的一种事件识别装置的模块组成示意图，如图9所示，该装置包括：

第二获取模块91，用于获取待识别目标事件的事件数据；

数据处理模块92，用于利用上述的模型训练装置训练得到的风险事件识别模型，对所述待识别目标事件的事件数据进行处理；

事件识别模块93，用于根据处理结果，确定所述待识别目标事件是否为风险事件，或者，确定所述待识别目标事件为风险事件的概率。

本实施例中，利用上述的模型训练装置训练得到的风险事件识别模型识别待识别目标事件是否为风险事件。由于在训练风险事件识别模型时，采用上述的数据标签生成装置通过数据推断的方式准确得到各条事件数据的识别结果数据，因此能够准确确定事件数据的数据标签，从而提高数据打标签的准确率，进而提高模型训练的准确性，提高模型的数据处理结果的准确率。

需要说明的是，本申请实施例中的数据标签生成装置、模型训练装置和事件识别装置，分别可以实现前述的数据标签生成方法、模型训练方法和事件识别方法的实施例的各个过程，并达到相同的效果和功能，这里不再赘述。

进一步地，本申请实施例还提供了一种电子设备，图10为本申请一实施例提供的电子设备的结构示意图，如图10所示。电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器901和存储器902，存储器902中可以存储有一个或一个以上存储应用程序或数据。其中，存储器902可以是短暂存储或持久存储。存储在存储器902的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对电子设备中的一系列计算机可执行指令。更进一步地，处理器901可以设置为与存储器902通信，在电子设备上执行存储器902中的一系列计算机可执行指令。电子设备还可以包括一个或一个以上电源903，一个或一个以上有线或无线网络接口904，一个或一个以上输入输出接口905，一个或一个以上键盘906等。

在一个具体的实施例中，电子设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对电子设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：

获取目标事件的多条事件数据；

可选地，计算机可执行指令在被执行时，在得到各条所述事件数据的相对于风险事件的第二识别结果数据之前，还包括：将每个所述事件识别策略的针对各条所述事件数据的多个所述第一识别结果数据确定为一组所述第一识别结果数据；对各组所述第一识别结果数据进行分析，以确定各组所述第一识别结果数据之间的数据相关性分析结果；分别对各组所述第一识别结果数据进行分布统计，以确定各组所述第一识别结果数据各自对应的分布数据；根据所述数据相关性分析结果和/或所述分布数据，确定所述第一识别结果数据对应的数据推断模型，所述数据推断模型包括投票模型、概率图模型和矩阵分解模型中的至少一种。

可选地，计算机可执行指令在被执行时，在得到各条所述事件数据的相对于风险事件的第二识别结果数据之前，还包括：根据所述第一识别结果数据，在各个所述事件识别策略中确定问题策略，在所述第一识别结果数据中删除所述问题策略对应的第一识别结果数据；根据所述第一识别结果数据对应的数据推断模型，基于所述第一识别结果数据进行数据推断，包括：根据删除后的所述第一识别结果数据对应的数据推断模型，基于删除后的所述第一识别结果数据进行数据推断。

可选地，计算机可执行指令在被执行时，根据所述第一识别结果数据，在各个所述事件识别策略中确定问题策略，包括：将每个所述事件识别策略的针对各条所述事件数据的多个所述第一识别结果数据确定为一组所述第一识别结果数据；对所述第一识别结果数据分别执行以下处理中的一项或多项，根据执行结果，在各个所述事件识别策略中确定问题策略；分别统计各组所述第一识别结果数据中表示识别结果为空缺的第一识别结果数据的数量比例；分别对各组所述第一识别结果数据进行分布统计，以确定各组所述第一识别结果数据各自对应的分布数据；对各组所述第一识别结果数据进行分析，以确定各组所述第一识别结果数据之间的数据相关性分析结果。

可选地，计算机可执行指令在被执行时，所述数据推断模型包括投票模型、概率图模型和矩阵分解模型中的至少一种；根据所述第一识别结果数据对应的数据推断模型，基于所述第一识别结果数据进行数据推断，得到各条所述事件数据的相对于风险事件的第二识别结果数据，包括：通过所述数据推断模型，对各条所述事件数据对应的各个所述第一识别结果数据进行运算，得到各条所述事件数据的相对于风险事件的第二识别结果数据。

可选地，计算机可执行指令在被执行时，根据各条所述事件数据的所述第二识别结果数据，确定各条所述事件数据的数据标签，包括：将各条所述事件数据的所述第二识别结果数据，分别确定为各条所述事件数据的数据标签。

在另一个具体的实施例中，电子设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对电子设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：

将所述目标事件的事件数据作为所述目标事件的样本数据；

获取待识别目标事件的事件数据；

利用上述的模型训练方法训练得到的风险事件识别模型，对所述待识别目标事件的事件数据进行处理；

需要说明的是，本申请各个实施例中的电子设备，分别可以实现前述的数据标签生成方法、模型训练方法和事件识别方法的实施例的各个过程，并达到相同的效果和功能，这里不再赘述。

进一步地，本申请实施例还提供了一种存储介质，用于存储计算机可执行指令，一种具体的实施例中，该存储介质可以为U盘、光盘、硬盘等，该存储介质存储的计算机可执行指令在被处理器执行时，能实现以下流程：

获取目标事件的多条事件数据；

可选地，该存储介质存储的计算机可执行指令在被处理器执行时，在得到各条所述事件数据的相对于风险事件的第二识别结果数据之前，还包括：将每个所述事件识别策略的针对各条所述事件数据的多个所述第一识别结果数据确定为一组所述第一识别结果数据；对各组所述第一识别结果数据进行分析，以确定各组所述第一识别结果数据之间的数据相关性分析结果；分别对各组所述第一识别结果数据进行分布统计，以确定各组所述第一识别结果数据各自对应的分布数据；根据所述数据相关性分析结果和/或所述分布数据，确定所述第一识别结果数据对应的数据推断模型，所述数据推断模型包括投票模型、概率图模型和矩阵分解模型中的至少一种。

可选地，该存储介质存储的计算机可执行指令在被处理器执行时，在得到各条所述事件数据的相对于风险事件的第二识别结果数据之前，还包括：根据所述第一识别结果数据，在各个所述事件识别策略中确定问题策略，在所述第一识别结果数据中删除所述问题策略对应的第一识别结果数据；根据所述第一识别结果数据对应的数据推断模型，基于所述第一识别结果数据进行数据推断，包括：根据删除后的所述第一识别结果数据对应的数据推断模型，基于删除后的所述第一识别结果数据进行数据推断。

可选地，该存储介质存储的计算机可执行指令在被处理器执行时，根据所述第一识别结果数据，在各个所述事件识别策略中确定问题策略，包括：将每个所述事件识别策略的针对各条所述事件数据的多个所述第一识别结果数据确定为一组所述第一识别结果数据；对所述第一识别结果数据分别执行以下处理中的一项或多项，根据执行结果，在各个所述事件识别策略中确定问题策略；分别统计各组所述第一识别结果数据中表示识别结果为空缺的第一识别结果数据的数量比例；分别对各组所述第一识别结果数据进行分布统计，以确定各组所述第一识别结果数据各自对应的分布数据；对各组所述第一识别结果数据进行分析，以确定各组所述第一识别结果数据之间的数据相关性分析结果。

可选地，该存储介质存储的计算机可执行指令在被处理器执行时，所述数据推断模型包括投票模型、概率图模型和矩阵分解模型中的至少一种；根据所述第一识别结果数据对应的数据推断模型，基于所述第一识别结果数据进行数据推断，得到各条所述事件数据的相对于风险事件的第二识别结果数据，包括：通过所述数据推断模型，对各条所述事件数据对应的各个所述第一识别结果数据进行运算，得到各条所述事件数据的相对于风险事件的第二识别结果数据。

可选地，该存储介质存储的计算机可执行指令在被处理器执行时，根据各条所述事件数据的所述第二识别结果数据，确定各条所述事件数据的数据标签，包括：将各条所述事件数据的所述第二识别结果数据，分别确定为各条所述事件数据的数据标签。

在另一种具体的实施例中，该存储介质可以为U盘、光盘、硬盘等，该存储介质存储的计算机可执行指令在被处理器执行时，能实现以下流程：

将所述目标事件的事件数据作为所述目标事件的样本数据；

获取待识别目标事件的事件数据；

需要说明的是，本申请各个实施例中的存储介质，分别可以实现前述的数据标签生成方法、模型训练方法和事件识别方法的实施例的各个过程，并达到相同的效果和功能，这里不再赘述。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device，PLD)(例如现场可编程门阵列(Field Programmable Gate Array，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等，目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

一种数据标签生成方法，其特征在于，包括：

获取目标事件的多条事件数据；

通过所述目标事件对应的多个事件识别策略，分别对各条所述事件数据进行处理，得到各条所述事件数据的相对于风险事件的第一识别结果数据；

根据所述第一识别结果数据对应的数据推断模型，基于所述第一识别结果数据进行数据推断，得到各条所述事件数据的相对于风险事件的第二识别结果数据；

根据各条所述事件数据的所述第二识别结果数据，确定各条所述事件数据的数据标签。
根据权利要求1所述的方法，其特征在于，在得到各条所述事件数据的相对于风险事件的第二识别结果数据之前，所述方法还包括：

将每个所述事件识别策略的针对各条所述事件数据的多个所述第一识别结果数据确定为一组所述第一识别结果数据；

对各组所述第一识别结果数据进行分析，以确定各组所述第一识别结果数据之间的数据相关性分析结果；

分别对各组所述第一识别结果数据进行分布统计，以确定各组所述第一识别结果数据各自对应的分布数据；

根据所述数据相关性分析结果和/或所述分布数据，确定所述第一识别结果数据对应的数据推断模型，所述数据推断模型包括投票模型、概率图模型和矩阵分解模型中的至少一种。
根据权利要求1所述的方法，其特征在于，

在得到各条所述事件数据的相对于风险事件的第二识别结果数据之前，所述方法还包括：

根据所述第一识别结果数据，在各个所述事件识别策略中确定问题策略，在所述第一识别结果数据中删除所述问题策略对应的第一识别结果数据；

根据所述第一识别结果数据对应的数据推断模型，基于所述第一识别结果数据进行数据推断，包括：

根据删除后的所述第一识别结果数据对应的数据推断模型，基于删除后的所述第一识别结果数据进行数据推断。
根据权利要求3所述的方法，其特征在于，根据所述第一识别结果数据，在各个所述事件识别策略中确定问题策略，包括：

将每个所述事件识别策略的针对各条所述事件数据的多个所述第一识别结果数据确定为一组所述第一识别结果数据；

对所述第一识别结果数据分别执行以下处理中的一项或多项，根据执行结果，在各个所述事件识别策略中确定问题策略；

分别统计各组所述第一识别结果数据中表示识别结果为空缺的第一识别结果数据的数量比例；

分别对各组所述第一识别结果数据进行分布统计，以确定各组所述第一识别结果数据各自对应的分布数据；

对各组所述第一识别结果数据进行分析，以确定各组所述第一识别结果数据之间的数据相关性分析结果。
根据权利要求1至4任一项所述的方法，其特征在于，所述数据推断模型包括投票模型、概率图模型和矩阵分解模型中的至少一种；根据所述第一识别结果数据对应的数据推断模型，基于所述第一识别结果数据进行数据推断，得到各条所述事件数据的相对于风险事件的第二识别结果数据，包括：

通过所述数据推断模型，对各条所述事件数据对应的各个所述第一识别结果数据进行运算，得到各条所述事件数据的相对于风险事件的第二识别结果数据。
根据权利要求1至4任一项所述的方法，其特征在于，根据各条所述事件数据的所述第二识别结果数据，确定各条所述事件数据的数据标签，包括：

将各条所述事件数据的所述第二识别结果数据，分别确定为各条所述事件数据的数据标签。
一种模型训练方法，其特征在于，包括：

根据权利要求1至6中任一项所述的方法，确定目标事件的事件数据的数据标签；

将所述目标事件的事件数据作为所述目标事件的样本数据；

根据所述目标事件的样本数据和所述样本数据的数据标签，训练所述目标事件对应的风险事件识别模型，其中，所述风险事件识别模型用于识别所述目标事件是否为风险事件，或者，用于识别所述目标事件为风险事件的概率。
一种事件识别方法，其特征在于，包括：

获取待识别目标事件的事件数据；

利用权利要求7训练得到的风险事件识别模型，对所述待识别目标事件的事件数据进行处理；

根据处理结果，确定所述待识别目标事件是否为风险事件，或者，确定所述待识别目标事件为风险事件的概率。
一种数据标签生成装置，其特征在于，包括：

第一获取模块，用于获取目标事件的多条事件数据；

第一结果确定模块，用于通过所述目标事件对应的多个事件识别策略，分别对各条所述事件数据进行处理，得到各条所述事件数据的相对于风险事件的第一识别结果数据；

第二结果确定模块，用于根据所述第一识别结果数据对应的数据推断模型，基于所述第一识别结果数据进行数据推断，得到各条所述事件数据的相对于风险事件的第二识别结果数据；

标签生成模块，用于根据各条所述事件数据的所述第二识别结果数据，确定各条所述事件数据的数据标签。
根据权利要求9所述的装置，其特征在于，所述装置还包括模型确定模块，用于：

在得到各条所述事件数据的相对于风险事件的第二识别结果数据之前，将每个所述事件识别策略的针对各条所述事件数据的多个所述第一识别结果数据确定为一组所述第一识别结果数据；

对各组所述第一识别结果数据进行分析，以确定各组所述第一识别结果数据之间的数据相关性分析结果；

分别对各组所述第一识别结果数据进行分布统计，以确定各组所述第一识别结果数据各自对应的分布数据；

根据所述数据相关性分析结果和/或所述分布数据，确定所述第一识别结果数据对应的数据推断模型，所述数据推断模型包括投票模型、概率图模型和矩阵分解模型中的至少一种。
根据权利要求9所述的装置，其特征在于，所述装置还包括数据删除模块，用于：

在得到各条所述事件数据的相对于风险事件的第二识别结果数据之前，根据所述第一识别结果数据，在各个所述事件识别策略中确定问题策略，在所述第一识别结果数据中删除所述问题策略对应的第一识别结果数据；

所述第二结果确定模块具体用于：

根据删除后的所述第一识别结果数据对应的数据推断模型，基于删除后的所述第一识别结果数据进行数据推断。
根据权利要求11所述的装置，其特征在于，所述数据删除模块具体用于：

将每个所述事件识别策略的针对各条所述事件数据的多个所述第一识别结果数据确定为一组所述第一识别结果数据；

对所述第一识别结果数据分别执行以下处理中的一项或多项，根据执行结果，在各个所述事件识别策略中确定问题策略；

分别统计各组所述第一识别结果数据中表示识别结果为空缺的第一识别结果数据的数量比例；

分别对各组所述第一识别结果数据进行分布统计，以确定各组所述第一识别结果数据各自对应的分布数据；

对各组所述第一识别结果数据进行分析，以确定各组所述第一识别结果数据之间的数据相关性分析结果。
根据权利要求9至12任一项所述的装置，其特征在于，所述数据推断模型包括投票模型、概率图模型和矩阵分解模型中的至少一种；所述第二结果确定模块具体用于：

通过所述数据推断模型，对各条所述事件数据对应的各个所述第一识别结果数据进行运算，得到各条所述事件数据的相对于风险事件的第二识别结果数据。
根据权利要求9至12任一项所述的装置，其特征在于，所述标签生成模块具体用于：

将各条所述事件数据的所述第二识别结果数据，分别确定为各条所述事件数据的数据标签。
一种模型训练装置，其特征在于，包括：

标签确定模块，用于根据权利要求9至14中任一项所述的装置，确定目标事件的事件数据的数据标签；

样本确定模块，用于将所述目标事件的事件数据作为所述目标事件的样本数据；

模型训练模块，用于根据所述目标事件的样本数据和所述样本数据的数据标签，训练所述目标事件对应的风险事件识别模型，其中，所述风险事件识别模型用于识别所述目标事件是否为风险事件，或者，用于识别所述目标事件为风险事件的概率。
一种事件识别装置，其特征在于，包括：

第二获取模块，用于获取待识别目标事件的事件数据；

数据处理模块，用于利用权利要求15训练得到的风险事件识别模型，对所述待识别目标事件的事件数据进行处理；

事件识别模块，用于根据处理结果，确定所述待识别目标事件是否为风险事件，或者，确定所述待识别目标事件为风险事件的概率。
一种电子设备，其特征在于，包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器实现上述权利要求1至6任一项所述的数据标签生成方法的步骤，或者，实现上述权利要求7所述的模型训练方法的步骤，或者，实现上述权利要求8所述的事件识别方法的步骤。
一种存储介质，用于存储计算机可执行指令，其特征在于，所述计算机可执行指令在被执行时实现上述权利要求1至6任一项所述的数据标签生成方法的步骤，或者，实现上述权利要求7所述的模型训练方法的步骤，或者，实现上述权利要求8所述的事件识别方法的步骤。