WO2019137050A1

WO2019137050A1 - 互联网信贷场景下的实时欺诈检测方法、装置及服务器

Info

Publication number: WO2019137050A1
Application number: PCT/CN2018/109729
Authority: WO
Inventors: 于皓; 张�杰; 李犇; 张涧; 张卓博
Original assignee: 阳光财产保险股份有限公司
Priority date: 2018-01-12
Filing date: 2018-10-10
Publication date: 2019-07-18
Also published as: CN108564460A; CN108564460B

Abstract

本申请提供了一种互联网信贷场景下的实时欺诈检测方法及装置，该方法包括：获取目标用户通过互联网信贷APP授权后发送的授权数据；基于授权数据构建目标用户的特征向量；通过K-MEANS算法对特征向量进行训练，得到无监督反欺诈机器学习模型；通过无监督反欺诈机器学习模型对特征向量进行欺诈概率计算，得到目标用户的欺诈概率。该方法充分利用了目标用户的授权数据，对授权数据向量化得到特征向量，进而通过K-MEANS算法建模得到无监督反欺诈机器学习模型，无监督反欺诈机器学习模型再对特征向量进行欺诈概率计算，得到目标用户的欺诈概率，该方法能够实时发现新式的欺诈模式，缓解了现有的欺诈检测方法无法在较短时间内识别出新式的欺诈模式的技术问题。

Description

互联网信贷场景下的实时欺诈检测方法、装置及服务器

相关申请的交叉引用

本申请要求于2018年01月12日提交中国专利局的申请号为2018100336152、名称为“互联网信贷场景下的实时欺诈检测方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及互联网信贷风控的技术领域，尤其是涉及一种互联网信贷场景下的实时欺诈检测方法、装置及服务器。

背景技术

互联网信贷产业，近几年得到了飞速发展，呈现出百家争鸣、百花齐放的局面，伴随着产业的欣荣发展，欺诈黑色产业链也在不断地渗透到该领域，各种新颖的欺诈模式层出不穷，对互联网信贷产业的健康发展蒙上了一层阴影。据不完全统计，每年因欺诈导致的损失在500亿—1000亿，欺诈风险已成为互联网信贷产业风险的重中之重。

信贷产业防范欺诈的主要方法是基于规则引擎的方法和基于监督机器学习模型的方法，基于规则引擎的方法是通过将风控专家的经验知识转化为欺诈防范规则，通过规则引擎的方式进行匹配。基于监督机器学习模型的方法，通过将有欺诈行为的人群和没有欺诈行为的人群组合为样本数据，通过选取相应的特征，利用监督机器学习方法，构建模型，用以识别欺诈风险。

上述两种方法在传统的信贷行业中，效果较为明显，然而在互联网信贷场景下，在互联网的大背景下，创新业务发展迅速，因此，针对各种业务场景下的欺诈手段和技术也在不断更新，基于规则引擎和监督机器学习模型的方法都是根据现有的欺诈模式得到的模型，只能识别现有的欺诈模式，无法在较短时间内识别新式的欺诈模式。

综上，现有的信贷产业防范欺诈的方法无法在较短时间内识别出新式的欺诈模式。

发明内容

有鉴于此，本申请的目的包括，提供一种互联网信贷场景下的实时欺诈检测方法、装置及服务器，以至少缓解现有的信贷产业防范欺诈的方法无法在较短时间内识别出新式的欺诈模式的技术问题。

第一方面，本申请实施例提供了一种互联网信贷场景下的实时欺诈检测方法，所述方法包括：

获取目标用户通过互联网信贷APP授权后发送的授权数据，其中，所述授权数据包括：所述目标用户的设备数据，所述目标用户的行为数据，所述目标用户的社交数据，所述目标用户的申请业务数据；

基于所述授权数据构建所述目标用户的特征向量，其中，所述特征向量包括：统计特征向量，关系特征向量，行为特征向量；

通过K-MEANS算法对所述特征向量进行训练，得到无监督反欺诈机器学习模型；

通过所述无监督反欺诈机器学习模型对所述特征向量进行欺诈概率计算，得到所述目标用户的欺诈概率。

结合第一方面，本申请实施例提供了第一方面的第一种可能的实施方式，其中，基于所述授权数据构建所述目标用户的特征向量包括：

对所述目标用户的行为数据和所述目标用户的设备数据进行计算，得到所述统计特征向量；

对所述目标用户的社交数据，所述目标用户的申请数据和所述目标用户的设备数据进行计算，得到所述关系特征向量；

对所述目标用户的行为数据进行计算，得到所述行为特征向量，其中，所述行为特征向量包括：输入行为特征向量，操作行为特征向量。

结合第一方面，本申请实施例提供了第一方面的第二种可能的实施方式，其中，对所述目标用户的行为数据和所述目标用户的设备数据进行计算，得到所述统计特征向量包括：

获取非欺诈人群的目标特征范围和欺诈人群的目标特征范围；

基于所述目标用户的行为数据和所述目标用户的设备数据提取所述目标用户的目标特征，其中，所述目标用户的目标特征包括：地理信息申请频次，IP的申请频次，设备电量占比，陀螺仪的平均加速度；

结合所述非欺诈人群的目标特征范围，所述欺诈人群的目标特征范围以及所述目标用户的目标特征，确定所述目标用户所属的人群分布；

基于所述目标用户所属的人群分布计算所述统计特征向量。

结合第一方面，本申请实施例提供了第一方面的第三种可能的实施方式，其中，对所述目标用户的社交数据，所述目标用户的申请数据和所述目标用户的设备数据进行计算，得到所述关系特征向量包括：

将所述目标用户的设备数据，所述目标用户的社交数据以及所述目标用户的申请数据与历史关系图谱建立关联，其中，所述历史关系图谱为根据历史授权数据得到的关系图谱；

通过社区发现算法对所述历史关系图谱进行计算，得到所述目标用户所属的社交群体；

通过所述社交群体的欺诈风险更新所述历史关系图谱中边的权重值，得到更新后的关系图谱，其中，所述社交群体的欺诈风险为根据所述历史授权数据获得的；

通过随机游走算法和node2vector对所述更新后的关系图谱进行计算，得到所述关系特征向量。

结合第一方面，本申请实施例提供了第一方面的第四种可能的实施方式，其中，对所述目标用户的行为数据进行计算，得到所述行为特征向量包括：

在所述目标用户的行为数据中提取输入行为数据；

根据所述输入行为数据计算输入行为的输入总耗时，输入平均耗时，输入字符的平均间隔耗时，方差，其中，所述输入行为包括：输入身份证号的行为，输入手机号的行为，输入银行卡号的行为，所述方差用于表示输入字符间隔的波动情况；

将所述输入总耗时，所述输入平均耗时，所述输入字符的平均间隔耗时，所述方差作为所述目标用户的所述输入行为特征向量；

在所述目标用户的行为数据中提取操作行为数据；

对所述操作行为数据进行分析，得到操作行为的操作时延序列，其中，所述操作行为为操作所述互联网信贷APP的行为；

将所述操作时延序列作为所述操作行为特征向量。

结合第一方面，本申请实施例提供了第一方面的第五种可能的实施方式，其中，所述方法还包括：

通过所述无监督反欺诈机器学习模型对所述目标用户所属的群体进行欺诈概率计算，得到所述群体的欺诈概率。

结合第一方面，本申请实施例提供了第一方面的第六种可能的实施方式，其中，所述方法还包括：

通过统计分析方法对所述目标用户所属的群体的操作行为进行计算，得到所述群体的行为模式向量；

对所述行为模式向量进行实时监控；

当所述行为模式向量出现显著变化时，确定所述群体为具有潜伏期的欺诈群体。

结合第一方面，本申请实施例提供了第一方面的第七种可能的实施方式，其中，所述方法还包括：

获取多个用户的历史授权数据作为训练样本；

基于多个所述训练样本构建所述训练样本的特征向量，其中，所述特征向量包括：统计特征向量、关系特征向量和行为特征向量；

通过K-MEANS算法根据所述训练样本的特征向量进行聚类训练，并对聚类结果进行标注得到训练后的无监督反欺诈机器学习模型。

第二方面，本申请实施例还提供了一种互联网信贷场景下的实时欺诈检测装置，所述装置包括：

获取模块，配置成获取目标用户通过互联网信贷APP授权后发送的授权数据，其中，所述授权数据包括：所述目标用户的设备数据，所述目标用户的行为数据，所述目标用户的社交数据，所述目标用户的申请业务数据；

构建模块，配置成基于所述授权数据构建所述目标用户的特征向量，其中，所述特征向量包括：统计特征向量，关系特征向量，行为特征向量；

训练模块，配置成通过K-MEANS算法对所述特征向量进行训练，得到无监督反欺诈机器学习模型；

第一欺诈概率计算模块，配置成通过所述无监督反欺诈机器学习模型对所述特征向量进行欺诈概率计算，得到所述目标用户的欺诈概率。

结合第二方面，本申请实施例提供了第二方面的第一种可能的实施方式，其中，所述构建模块包括：

第一计算单元，配置成对所述目标用户的行为数据和所述目标用户的设备数据进行计算，得到所述统计特征向量；

第二计算单元，配置成对所述目标用户的社交数据，所述目标用户的申请数据和所述目标用户的设备数据进行计算，得到所述关系特征向量；

第三计算单元，配置成对所述目标用户的行为数据进行计算，得到所述行为特征向量，其中，所述行为特征向量包括：输入行为特征向量，操作行为特征向量。

结合第二方面，本申请实施例提供了第二方面的第二种可能的实施方式，其中，所述第一计算单元包括：

获取子单元，配置成获取非欺诈人群的目标特征范围和欺诈人群的目标特征范围；

第一提取子单元，配置成基于所述目标用户的行为数据和所述目标用户的设备数据提取所述目标用户的目标特征，其中，所述目标用户的目标特征包括：地理信息申请频次，IP的申请频次，设备电量占比，陀螺仪的平均加速度；

确定子单元，配置成结合所述非欺诈人群的目标特征范围，所述欺诈人群的目标特征范围以及所述目标用户的目标特征，确定所述目标用户所属的人群分布；

第一计算子单元，配置成基于所述目标用户所属的人群分布计算所述统计特征向量。

结合第二方面，本申请实施例提供了第二方面的第三种可能的实施方式，其中，所述第二计算单元具体配置成将所述目标用户的设备数据，所述目标用户的社交数据以及所述目标用户的申请数据与历史关系图谱建立关联，其中，所述历史关系图谱为根据历史授权数据得到的关系图谱；通过社区发现算法对所述历史关系图谱进行计算，得到所述目标用户所属的社交群体；通过所述社交群体的欺诈风险更新所述历史关系图谱中边的权重值，得到更新后的关系图谱，其中，所述社交群体的欺诈风险为根据所述历史授权数据获得的；通过随机游走算法和node2vector对所述更新后的关系图谱进行计算，得到所述关系特征向量。

结合第二方面，本申请实施例提供了第二方面的第四种可能的实施方式，其中，所述第三计算单元具体配置成在所述目标用户的行为数据中提取输入行为数据；根据所述输入行为数据计算输入行为的输入总耗时、输入平均耗时、输入字符的平均间隔耗时和方差，其中，所述输入行为包括：输入身份证号的行为、输入手机号的行为和输入银行卡号的行为，所述方差用于表示输入字符间隔的波动情况；将所述输入总耗时、所述输入平均耗时、所述输入字符的平均间隔耗时和所述方差作为所述目标用户的所述输入行为特征向量；在所述目标用户的行为数据中提取操作行为数据；对所述操作行为数据进行分析，得到操作行为的操作时延序列，其中，所述操作行为为操作所述互联网信贷APP的行为；将所述操作时延序列作为所述操作行为特征向量。

结合第二方面，本申请实施例提供了第二方面的第五种可能的实施方式，其中，所述获取模块还配置成获取多个用户的历史授权数据作为训练样本；

所述构建模块还配置成基于多个所述训练样本构建所述训练样本的特征向量，其中，所述特征向量包括：统计特征向量、关系特征向量和行为特征向量；

所述训练模块还配置成通过K-MEANS算法根据所述训练样本的特征向量进行聚类训练，并对聚类结果进行标注得到训练后的无监督反欺诈机器学习模型。

第三方面，本申请实施例还提供了一种服务器，所述数据处理设备包括机器可读存储介质及处理器，所述机器可读存储介质存储有机器可执行的指令，所述指令在被所述处理器执行时，促使所述服务器实现本申请实施例提供所述互联网信贷场景下的实时欺诈检测方法。

本申请实施例至少带来了以下有益效果：本申请实施例提供了一种互联网信贷场景下的实时欺诈检测方法、装置及服务器，该方法包括：获取目标用户通过互联网信贷APP授权后发送的授权数据，其中，授权数据包括：目标用户的设备数据，目标用户的行为数据，目标用户的社交数据，目标用户的申请业务数据；基于授权数据构建目标用户的特征向量，其中，特征向量包括：统计特征向量，关系特征向量，行为特征向量；通过K-MEANS算法对特征向量进行训练，得到无监督反欺诈机器学习模型；通过无监督反欺诈机器学习模型对特征向量进行欺诈概率计算，得到目标用户的欺诈概率。

现有的基于规则引擎和监督机器学习模型的欺诈检测方法都是根据现有的欺诈模式得到的模型，只能识别现有的欺诈模式，无法在较短时间内识别新式的欺诈模式。与现有的基于规则引擎和监督机器学习模型的欺诈检测方法相比，本申请实施例中的互联网信贷场景下的实时欺诈检测方法中，能够将目标用户的授权数据向量化，得到目标用户的特征向量，通过K-MEANS算法对特征向量进行训练，得到无监督反欺诈机器学习模型，最终，通过无监督反欺诈机器学习模型对目标用户的特征向量进行欺诈概率计算，便能够得到目标用户的欺诈概率。该方法充分利用了目标用户的授权数据，如果目标用户以蓄意欺诈的目的进行信贷申请，则欺诈的蛛丝马迹会隐藏于授权数据中，授权数据为非结构化数据，无法用于K-MEANS算法进行建模，所以需要进行向量化，得到目标用户的特征向量，进而建模得到无监督反欺诈机器学习模型，最终，通过无监督反欺诈机器学习模型对特征向量进行欺诈概率计算，得到目标用户的欺诈概率，该方法能够实时发现新式的欺诈模式，帮助互联网信贷产业有效应对欺诈风险，缓解了现有的欺诈检测方法无法在较短时间内识别出新式的欺诈模式的技术问题。

本申请的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种服务器的硬件结构示意图；

图2为本申请实施例提供的一种互联网信贷场景下的实时欺诈检测方法的流程图；

图3为本申请实施例提供的基于授权数据构建目标用户的特征向量的流程图；

图4为本申请实施例提供的对目标用户的行为数据和目标用户的设备数据进行计算，得到统计特征向量的流程图；

图5为本申请实施例提供的对目标用户的社交数据，目标用户的申请数据和目标用户的设备数据进行计算，得到关系特征向量的流程图；

图6为本申请实施例提供的对目标用户的行为数据进行计算，得到行为特征向量的流程图；

图7为本申请实施例提供的一种互联网信贷场景下的实时欺诈检测装置的示意图。

图标：

100-服务器；120-机器可读存储介质；130-处理器；140-通信单元；11-获取模块；12-构建模块；13-训练模块；14-第一欺诈概率计算模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种互联网信贷场景下的实时欺诈检测方法进行详细介绍。

请参照图1，图1为本实施例提供的一种服务器100的结构示意图，该服务器100包括机器可读存储介质120、处理器130、通信单元140。

机器可读存储介质120、处理器130以及通信单元140各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

其中，机器可读存储介质120可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。机器可读存储介质120配置成存储机器可执行指令，处理器130执行这些指令，促织服务器100实现本申请实施例提供的方法。

通信单元140配置成与客户端(如手机APP)进行交互以获取客户端发送的数据或向客户端发送指令。

请参照图2，本申请还提供一种互联网信贷场景下的实时欺诈检测方法，该方法包括：

步骤S102、获取目标用户通过互联网信贷APP授权后发送的授权数据，其中，授权数据包括：目标用户的设备数据、目标用户的行为数据、目标用户的社交数据和目标用户的申请业务数据。

在本申请实施例中，用户在进行信贷申请时，一般需要在手机端使用互联网信贷APP填写相关数据，填写完毕后，授权进行申请，所以，称之为授权数据。

该互联网信贷场景下的实时欺诈检测方法的执行主体为服务器，服务器100可以通过通信单元140获取APP发送的授权数据。具体的，授权数据包括目标用户的设备数据、目标用户的行为数据、目标用户的社交数据和目标用户的申请业务数据。

设备数据包括手机号、GPS位置数据、MAC地址数据和IP地址数据等等，本申请实施例对其不做具体限制。

行为数据包括操作行为数据和输入行为数据。操作行为数据是指操作互联网信贷APP时的数据；输入行为数据是指输入身份证号、输入手机号和输入银行卡号等，本申请实施例对其不做具体限制。

步骤S104、基于授权数据构建目标用户的特征向量，其中，特征向量包括统计特征向量、关系特征向量和行为特征向量。

在得到授权数据后，由于设备数据、行为数据和社交数据为非结构化数据，无法用于后期的应用计算，服务器100的处理器130可以将这些非结构化数据进行结构化。具体的，基于授权数据构建目标用户的特征向量包括了统计特征向量、关系特征向量和行为特征向量。

步骤S106、通过K-MEANS算法对特征向量进行训练，得到无监督反欺诈机器学习模型。

在本申请实施例中，服务器100的处理器130可以基于步骤S102和S104的数据对无监督反欺诈机器学习模型进行训练，得到更新后的无监督反欺诈机器学习模型。

在得到目标用户的特征向量后，通过K-MEANS算法对特征向量进行训练，更新无监督反欺诈机器学习模型。K-MEANS算法为无监督机器学习算法中的一种，本申请中在使用K-MEANS算法时，其中的K是通过高斯函数对授权数据进行分析后得到的。

步骤S108、通过无监督反欺诈机器学习模型对特征向量进行欺诈概率计算，得到目标用户的欺诈概率。

服务器100的处理器130可以在得到无监督反欺诈机器学习模型后，通过无监督反欺诈机器学习模型对特征向量进行欺诈概率计算，就能够得到目标用户的欺诈概率。

具体的，在后台服务器100中，已经事先构建了无监督反欺诈机器学习模型。该无监督反欺诈机器学习模型为根据大量用户的历史授权数据作为训练样本，按照步骤S102至步骤S106的方式进行无监督训练，对历史授权数据进行特征提取及聚类分析，根据聚类结果得到划分用户群体，从而可以对具有相似欺诈行为的用户进行标注，使构建得到无监督反欺诈机器学习模型可以根据待识别用户对应的特征向量进行欺诈概率计算。

在无监督反欺诈机器学习模型为建立完成后，该模型进行在对目标用户进行识别的同时也可以在线实时学习，新来的授权数据进行步骤S102至步骤S108的计算，得到欺诈概率，并对该模型进行不断迭代优化。

上述内容对互联网信贷场景下的实时欺诈检测方法进行了简要描述，下面对其中涉及的具体内容进行详细描述。

可选地，参考图3，基于授权数据构建目标用户的特征向量包括：

步骤S201、对目标用户的行为数据和目标用户的设备数据进行计算，得到统计特征向量。

具体的，服务器100的处理器130可以统计特征向量是根据目标用户的行为数据和目标用户的设备数据计算得到的，下文中再对具体的计算过程进行详细描述，在此不再赘述。

步骤S202、对目标用户的社交数据、目标用户的申请数据和目标用户的设备数据进行计算，得到关系特征向量。

具体的，关系特征向量是处理器130根据目标用户的社交数据、目标用户的申请数据和目标用户的设备数据计算得到的，下文中再对具体的计算过程进行详细描述，在此不再赘述。

步骤S203、对目标用户的行为数据进行计算，得到行为特征向量，其中，行为特征向量包括：输入行为特征向量和操作行为特征向量。

具体的，行为特征向量是处理器130根据目标用户的行为数据计算得到的，同样下文中再对该过程进行详细描述，在此不再赘述。

可选地，参考图4，对目标用户的行为数据和目标用户的设备数据进行计算，得到统计特征向量包括：

步骤S301、获取非欺诈人群的目标特征范围和欺诈人群的目标特征范围；

在本申请实施例中，目标特征包括地理信息申请频次、IP的申请频次、设备电量占比和陀螺仪的平均加速度等。非欺诈人群存在目标特征范围，欺诈人群也存在目标特征范围，该范围的得出可以由专家或者经验得出。比如地理信息申请频次小于10次为非欺诈人群，地理信息申请频次大于等于10次为欺诈人群，该举例是为了更好的理解本申请的方案，不应作为对本申请实施力的限制。

目标特征可以为上述特征的一个或者多个，也可以包含其它特征，本申请实施例对其不做具体限制。

下面对地理信息申请频次的含义进行举例说明：检测同一时间段，比如说在3分钟内某地(GPS定位得到)方圆10公里以内信贷申请次数是多少。因为很多人是属于集中式诈骗，某个地域来说地理信息可能是集中过来进行的信贷申请，这就属于危险的。

IP的申请频次是指一个人同时操作多少IP进行信贷申请。

设备电量占比是指用户的手机设备电量的波动情况，如果没有波动，会被认定为恶意操控。

陀螺仪的平均加速度为0或很小，说明不符合正常人的使用方式，会被认定为欺诈的嫌疑。

步骤S302、基于目标用户的行为数据和目标用户的设备数据提取目标用户的目标特征，其中，目标用户的目标特征包括：地理信息申请频次、IP的申请频次、设备电量占比和陀螺仪的平均加速度。

步骤S303、结合非欺诈人群的目标特征范围，欺诈人群的目标特征范围以及目标用户的目标特征，确定目标用户所属的人群分布。

具体的，处理器130在得到目标用户的目标特征后，判断目标用户的目标特征落在哪一个目标特征范围内，确定得到目标用户所属的人群。

步骤S304、基于目标用户所属的人群分布计算统计特征向量。

处理器130在得到目标用户所属的人群分布后，就能够得到统计特征向量。具体的，目标用户的目标特征在目标特征范围的位置不同，得到的数值也不同，便能得到统计特征向量。

可选地，参考图5，对目标用户的社交数据，目标用户的申请数据和目标用户的设备数据进行计算，得到关系特征向量包括：

步骤S401、将目标用户的设备数据，目标用户的社交数据以及目标用户的申请数据与历史关系图谱建立关联，其中，历史关系图谱为根据历史授权数据得到的关系图谱；

在本申请实施例中，服务器中存在历史授权数据，所以，对应的也存在历史关系图谱。处理器130在得到目标用户的设备数据，目标用户的社交数据以及目标用户的申请数据后，将该些数据与历史关系图谱建立关联，比如，历史关系图谱中，存在一个MAC地址为A，目标用户的设备数据中的MAC地址也为A，便能够建立目标用户的授权数据与历史关系图谱的关联。

步骤S402、通过社区发现算法对历史关系图谱进行计算，得到目标用户所属的社交群体。

处理器130在建立与历史关系图谱的关联后，通过社区发现算法对建立关联后的历史关系图谱进行计算，得到目标用户所属的社交群体。

步骤S403、通过社交群体的欺诈风险更新历史关系图谱中边的权重值，得到更新后的关系图谱，其中，社交群体的欺诈风险为根据历史授权数据获得的。

处理器130通过社交群体的欺诈风险更新历史关系图谱中边的权重值，得到更新后的关系图谱。其中，社交群体的欺诈风险已知。

步骤S404、通过随机游走算法和node2vector对更新后的关系图谱进行计算，得到关系特征向量。

处理器130在得到更新后的关系图谱后，通过随机游走算法和node2vector对更新后的关系图谱进行计算，得到关系特征向量。

可选地，参考图6，对目标用户的行为数据进行计算，得到行为特征向量包括：

步骤S501、在目标用户的行为数据中提取输入行为数据。

步骤S502、根据输入行为数据计算输入行为的输入总耗时、输入平均耗时和输入字符的平均间隔耗时，方差，其中，输入行为包括：输入身份证号的行为、输入手机号的行为和输入银行卡号的行为，方差用于表示输入字符间隔的波动情况。

步骤S503、将输入总耗时，输入平均耗时，输入字符的平均间隔耗时，方差作为目标用户的输入行为特征向量。

步骤S504、在目标用户的行为数据中提取操作行为数据。

步骤S505、对操作行为数据进行分析，得到操作行为的操作时延序列，其中，操作行为为操作互联网信贷APP的行为。

具体的，操作互联网信贷APP时，如果操作步骤固定，每步之间存在一定的时延序列。

步骤S506、将操作时延序列作为操作行为特征向量。

可选地，该方法还包括：

通过无监督反欺诈机器学习模型对目标用户所属的群体进行欺诈概率计算，得到群体的欺诈概率。

通过无监督反欺诈机器学习模型发现目标用户所属的群体，通过关联性分析，识别是否为欺诈团伙。

假如说聚类得到100个群体，其中有一个类跟其它的类差别很大，存在一个类偏离了另外99个类，假如有一个群跟其它群体距离差别非常大，说明它就是异常点，欺诈概率就大。

在聚类的时候也是看个体是不是跟它其他个体有相似性，有相似性肯定就归为一个群体里面，如果他没有相似性，说明他在群体之外，他就是异常点，欺诈概率就大。

可选地，该方法还包括：

(1)通过统计分析方法对目标用户所属的群体的操作行为进行计算，得到群体的行为模式向量；

(2)对行为模式向量进行实时监控；

(3)当行为模式向量出现显著变化时，确定群体为具有潜伏期的欺诈群体。

本申请公开了一种互联网信贷场景下的实时欺诈检测方法及装置，对无监督机器学习模型的技术创新应用到互联网信贷的风控反欺诈检测中，通过对用户的行为数据和关系数据的向量化计算，结合其它结构化特征通过K-MEANS算法构建无监督反欺诈机器学习模型，可以实时识别新式的欺诈模式和潜伏式的欺诈模式，提高了互联网信贷风控反欺诈方法的时效性和应变性，有效降低互联网信贷场景中的欺诈风险。

在实际的互联网信贷场景下，通过手机端的APP，在用户授权的前提下，获取用户的手机设备数据、行为数据、关系数据，若该用户以蓄意欺诈的目的进行信贷申请，则欺诈的蛛丝马迹会隐藏于相应的数据中。由于非结构化的行为和关系数据，无法应用于机器学习算法进行建模，通过将关系数据和行为数据进行向量化计算，转换为结构化的数据特征，最后将用户的所有特征组合为特征向量，通过K-MEANS算法，计算用户是否属于信贷申请用户中的异常点，通过关联计算，判断用户是否属于欺诈团伙成员，提高了互联网信贷风控反欺诈方法的时效性和应变性，有效降低互联网信贷场景中的欺诈风险。

请参照图7，本实施例还提供一种互联网信贷场景下的实时欺诈检测装置，该装置包括：

获取模块11，配置成获取目标用户通过互联网信贷APP授权后发送的授权数据，其中，授权数据包括：目标用户的设备数据，目标用户的行为数据，目标用户的社交数据，目标用户的申请业务数据；

构建模块12，配置成基于授权数据构建目标用户的特征向量，其中，特征向量包括：统计特征向量，关系特征向量，行为特征向量；

训练模块13，配置成通过K-MEANS算法对特征向量进行训练，得到无监督反欺诈机器学习模型；

第一欺诈概率计算模块14，配置成通过无监督反欺诈机器学习模型对特征向量进行欺诈概率计算，得到目标用户的欺诈概率。

本申请实施例中的互联网信贷场景下的实时欺诈检测装置中，能够将目标用户的授权数据向量化，得到目标用户的特征向量，通过K-MEANS算法对特征向量进行训练，得到无监督反欺诈机器学习模型，最终，通过无监督反欺诈机器学习模型对目标用户的特征向量进行欺诈概率计算，便能够得到目标用户的欺诈概率。该装置充分利用了目标用户的授权数据，如果目标用户以蓄意欺诈的目的进行信贷申请，则欺诈的蛛丝马迹会隐藏于授权数据中，授权数据为非结构化数据，无法用于K-MEANS算法进行建模，所以需要进行向量化，得到目标用户的特征向量，进而建模得到无监督反欺诈机器学习模型，最终，通过无监督反欺诈机器学习模型对特征向量进行欺诈概率计算，得到目标用户的欺诈概率，该装置能够实时发现新式的欺诈模式，帮助互联网信贷产业有效应对欺诈风险，缓解了现有的欺诈检测装置无法在较短时间内识别出新式的欺诈模式的技术问题。

可选地，构建模块包括：

第一计算单元，配置成对目标用户的行为数据和目标用户的设备数据进行计算，得到统计特征向量；

第二计算单元，配置成对目标用户的社交数据，目标用户的申请数据和目标用户的设备数据进行计算，得到关系特征向量；

第三计算单元，配置成对目标用户的行为数据进行计算，得到行为特征向量，其中，行为特征向量包括：输入行为特征向量，操作行为特征向量。

可选地，第一计算单元包括：

第一提取子单元，配置成基于目标用户的行为数据和目标用户的设备数据提取目标用户的目标特征，其中，目标用户的目标特征包括：地理信息申请频次，IP的申请频次，设备电量占比，陀螺仪的平均加速度；

确定子单元，配置成结合非欺诈人群的目标特征范围，欺诈人群的目标特征范围以及目标用户的目标特征，确定目标用户所属的人群分布；

第一计算子单元，配置成基于目标用户所属的人群分布计算统计特征向量。

可选地，第二计算单元包括：

建立关联子单元，配置成将目标用户的设备数据，目标用户的社交数据以及目标用户的申请数据与历史关系图谱建立关联，其中，历史关系图谱为根据历史授权数据得到的关系图谱；

第二计算子单元，配置成通过社区发现算法对历史关系图谱进行计算，得到目标用户所属的社交群体；

更新子单元，配置成通过社交群体的欺诈风险更新历史关系图谱中边的权重值，得到更新后的关系图谱，其中，社交群体的欺诈风险为根据历史授权数据获得的；

第三计算子单元，配置成通过随机游走算法和node2vector对更新后的关系图谱进行计算，得到关系特征向量。

可选地，第三计算单元包括：

第二提取子单元，配置成在目标用户的行为数据中提取输入行为数据；

第四计算子单元，配置成根据输入行为数据计算输入行为的输入总耗时，输入平均耗时，输入字符的平均间隔耗时，方差，其中，输入行为包括：输入身份证号的行为，输入手机号的行为，输入银行卡号的行为，方差用于表示输入字符间隔的波动情况；

第一设定子单元，配置成将输入总耗时，输入平均耗时，输入字符的平均间隔耗时，方差作为目标用户的输入行为特征向量；

第三提取子单元，配置成在目标用户的行为数据中提取操作行为数据；

分析子单元，配置成对操作行为数据进行分析，得到操作行为的操作时延序列，其中，操作行为为操作互联网信贷APP的行为；

第二设定子单元，配置成将操作时延序列作为操作行为特征向量。

可选地，该装置还包括：

第二欺诈概率计算模块，配置成通过无监督反欺诈机器学习模型对目标用户所属的群体进行欺诈概率计算，得到群体的欺诈概率。

可选地，该装置还包括：

计算模块，配置成通过统计分析方法对目标用户所属的群体的操作行为进行计算，得到群体的行为模式向量；

实时监控模块，配置成对行为模式向量进行实时监控；

确定模块，配置成当行为模式向量出现显著变化时，确定群体为具有潜伏期的欺诈群体。

可选地，第二计算单元具体配置成将目标用户的设备数据，目标用户的社交数据以及目标用户的申请数据与历史关系图谱建立关联，其中，历史关系图谱为根据历史授权数据得到的关系图谱；通过社区发现算法对历史关系图谱进行计算，得到目标用户所属的社交群体；通过社交群体的欺诈风险更新历史关系图谱中边的权重值，得到更新后的关系图谱，其中，社交群体的欺诈风险为根据历史授权数据获得的；通过随机游走算法和node2vector对更新后的关系图谱进行计算，得到关系特征向量。

可选地，第三计算单元具体配置成在目标用户的行为数据中提取输入行为数据；根据输入行为数据计算输入行为的输入总耗时、输入平均耗时、输入字符的平均间隔耗时和方差，其中，输入行为包括：输入身份证号的行为、输入手机号的行为和输入银行卡号的行为，方差用于表示输入字符间隔的波动情况；将输入总耗时、输入平均耗时、输入字符的平均间隔耗时和方差作为目标用户的输入行为特征向量；在目标用户的行为数据中提取操作行为数据；对操作行为数据进行分析，得到操作行为的操作时延序列，其中，操作行为为操作互联网信贷APP的行为；将操作时延序列作为操作行为特征向量。

可选地，获取模块11还配置成获取多个用户的历史授权数据作为训练样本。

构建模块12还配置成基于多个训练样本构建训练样本的特征向量，其中，特征向量包括：统计特征向量、关系特征向量和行为特征向量。

训练模块13还配置成通过K-MEANS算法根据训练样本的特征向量进行聚类训练，并对聚类结果进行标注得到训练后的无监督反欺诈机器学习模型。

该实施例二中的具体内容可以参考上述实施例一中的具体描述，在此不再赘述。

本申请实施例所提供的互联网信贷场景下的实时欺诈检测方法及装置的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本申请实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

工业实用性

本申请实施例提供的互联网信贷场景下的实时欺诈检测方法、装置及服务器，能够将目标用户的授权数据向量化，得到目标用户的特征向量，通过K-MEANS算法对特征向量进行训练，得到无监督反欺诈机器学习模型，最终，通过无监督反欺诈机器学习模型对目标用户的特征向量进行欺诈概率计算，便能够得到目标用户的欺诈概率。该方法充分利用了目标用户的授权数据，如果目标用户以蓄意欺诈的目的进行信贷申请，则欺诈的蛛丝马迹会隐藏于授权数据中，授权数据为非结构化数据，无法用于K-MEANS算法进行建模，所以需要进行向量化，得到目标用户的特征向量，进而建模得到无监督反欺诈机器学习模型，最终，通过无监督反欺诈机器学习模型对特征向量进行欺诈概率计算，得到目标用户的欺诈概率，该方法能够实时发现新式的欺诈模式，帮助互联网信贷产业有效应对欺诈风险，缓解了现有的欺诈检测方法无法在较短时间内识别出新式的欺诈模式的技术问题。

Claims

一种互联网信贷场景下的实时欺诈检测方法，其特征在于，所述方法包括：

获取目标用户通过互联网信贷APP授权后发送的授权数据，其中，所述授权数据包括：所述目标用户的设备数据、所述目标用户的行为数据、所述目标用户的社交数据和所述目标用户的申请业务数据；

基于所述授权数据构建所述目标用户的特征向量，其中，所述特征向量包括：统计特征向量、关系特征向量和行为特征向量；

通过K-MEANS算法对所述特征向量进行训练，得到无监督反欺诈机器学习模型；

通过所述无监督反欺诈机器学习模型对所述特征向量进行欺诈概率计算，得到所述目标用户的欺诈概率。
根据权利要求1所述的方法，其特征在于，基于所述授权数据构建所述目标用户的特征向量包括：

对所述目标用户的行为数据和所述目标用户的设备数据进行计算，得到所述统计特征向量；

对所述目标用户的社交数据、所述目标用户的申请数据和所述目标用户的设备数据进行计算，得到所述关系特征向量；

对所述目标用户的行为数据进行计算，得到所述行为特征向量，其中，所述行为特征向量包括：输入行为特征向量和操作行为特征向量。
根据权利要求2所述的方法，其特征在于，对所述目标用户的行为数据和所述目标用户的设备数据进行计算，得到所述统计特征向量包括：

获取非欺诈人群的目标特征范围和欺诈人群的目标特征范围；

基于所述目标用户的行为数据和所述目标用户的设备数据提取所述目标用户的目标特征，其中，所述目标用户的目标特征包括：地理信息申请频次、IP的申请频次、设备电量占比和陀螺仪的平均加速度；

结合所述非欺诈人群的目标特征范围，所述欺诈人群的目标特征范围以及所述目标用户的目标特征，确定所述目标用户所属的人群分布；

基于所述目标用户所属的人群分布计算所述统计特征向量。
根据权利要求2或3所述的方法，其特征在于，对所述目标用户的社交数据，所述目标用户的申请数据和所述目标用户的设备数据进行计算，得到所述关系特征向量包括：

将所述目标用户的设备数据，所述目标用户的社交数据以及所述目标用户的申请数据与历史关系图谱建立关联，其中，所述历史关系图谱为根据历史授权数据得到的关系图谱；

通过社区发现算法对所述历史关系图谱进行计算，得到所述目标用户所属的社交群体；

通过所述社交群体的欺诈风险更新所述历史关系图谱中边的权重值，得到更新后的关系图谱，其中，所述社交群体的欺诈风险为根据所述历史授权数据获得的；

通过随机游走算法和node2vector对所述更新后的关系图谱进行计算，得到所述关系特征向量。
根据权利要求2-4中任一项所述的方法，其特征在于，对所述目标用户的行为数据进行计算，得到所述行为特征向量包括：

在所述目标用户的行为数据中提取输入行为数据；

根据所述输入行为数据计算输入行为的输入总耗时、输入平均耗时、输入字符的平均间隔耗时和方差，其中，所述输入行为包括：输入身份证号的行为、输入手机号的行为和输入银行卡号的行为，所述方差用于表示输入字符间隔的波动情况；

将所述输入总耗时、所述输入平均耗时、所述输入字符的平均间隔耗时和所述方差作为所述目标用户的所述输入行为特征向量；

在所述目标用户的行为数据中提取操作行为数据；

对所述操作行为数据进行分析，得到操作行为的操作时延序列，其中，所述操作行为为操作所述互联网信贷APP的行为；

将所述操作时延序列作为所述操作行为特征向量。
根据权利要求1-5中任一项所述的方法，其特征在于，所述方法还包括：

通过所述无监督反欺诈机器学习模型对所述目标用户所属的群体进行欺诈概率计算，得到所述群体的欺诈概率。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

通过统计分析方法对所述目标用户所属的群体的操作行为进行计算，得到所述群体的行为模式向量；

对所述行为模式向量进行实时监控；

当所述行为模式向量出现显著变化时，确定所述群体为具有潜伏期的欺诈群体。
根据权利要求1-7中任一项所述的方法，其特征在于，所述方法还包括：

获取多个用户的历史授权数据作为训练样本；

基于多个所述训练样本构建所述训练样本的特征向量，其中，所述特征向量包括：统计特征向量、关系特征向量和行为特征向量；

通过K-MEANS算法根据所述训练样本的特征向量进行聚类训练，并对聚类结果进行标注得到训练后的无监督反欺诈机器学习模型。
一种互联网信贷场景下的实时欺诈检测装置，其特征在于，所述装置包括：

获取模块，配置成获取目标用户通过互联网信贷APP授权后发送的授权数据，其中，所述授权数据包括：所述目标用户的设备数据、所述目标用户的行为数据、所述目标用户的社交数据和所述目标用户的申请业务数据；

构建模块，配置成基于所述授权数据构建所述目标用户的特征向量，其中，所述特征向量包括：统计特征向量、关系特征向量和行为特征向量；

训练模块，配置成通过K-MEANS算法对所述特征向量进行训练，得到无监督反欺诈机器学习模型；

第一欺诈概率计算模块，配置成通过所述无监督反欺诈机器学习模型对所述特征向量进行欺诈概率计算，得到所述目标用户的欺诈概率。
根据权利要求9所述的装置，其特征在于，所述构建模块包括：

第一计算单元，配置成对所述目标用户的行为数据和所述目标用户的设备数据进行计算，得到所述统计特征向量；

第二计算单元，配置成对所述目标用户的社交数据，所述目标用户的申请数据和所述目标用户的设备数据进行计算，得到所述关系特征向量；

第三计算单元，配置成对所述目标用户的行为数据进行计算，得到所述行为特征向量，其中，所述行为特征向量包括：输入行为特征向量和操作行为特征向量。
根据权利要求10所述的装置，其特征在于，所述第一计算单元包括：

获取子单元，配置成获取非欺诈人群的目标特征范围和欺诈人群的目标特征范围；

第一提取子单元，配置成基于所述目标用户的行为数据和所述目标用户的设备数据提取所述目标用户的目标特征，其中，所述目标用户的目标特征包括：地理信息申请频次、IP的申请频次、设备电量占比和陀螺仪的平均加速度；

确定子单元，配置成结合所述非欺诈人群的目标特征范围，所述欺诈人群的目标特征范围以及所述目标用户的目标特征，确定所述目标用户所属的人群分布；

第一计算子单元，配置成基于所述目标用户所属的人群分布计算所述统计特征向量。
根据权利要求10或11所述的装置，其特征在于，所述第二计算单元具体配置成将所述目标用户的设备数据，所述目标用户的社交数据以及所述目标用户的申请数据与历史关系图谱建立关联，其中，所述历史关系图谱为根据历史授权数据得到的关系图谱；通过社区发现算法对所述历史关系图谱进行计算，得到所述目标用户所属的社交群体；通过所述社交群体的欺诈风险更新所述历史关系图谱中边的权重值，得到更新后的关系图谱，其中，所述社交群体的欺诈风险为根据所述历史授权数据获得的；通过随机游走算法和node2vector对所述更新后的关系图谱进行计算，得到所述关系特征向量。
根据权利要求10-12中任一项所述的方法，其特征在于，所述第三计算单元具体配置成在所述目标用户的行为数据中提取输入行为数据；根据所述输入行为数据计算输入行为的输入总耗时、输入平均耗时、输入字符的平均间隔耗时和方差，其中，所述输入行为包括：输入身份证号的行为、输入手机号的行为和输入银行卡号的行为，所述方差用于表示输入字符间隔的波动情况；将所述输入总耗时、所述输入平均耗时、所述输入字符的平均间隔耗时和所述方差作为所述目标用户的所述输入行为特征向量；在所述目标用户的行为数据中提取操作行为数据；对所述操作行为数据进行分析，得到操作行为的操作时延序列，其中，所述操作行为为操作所述互联网信贷APP的行为；将所述操作时延序列作为所述操作行为特征向量。
根据权利要求9-13中任一项所述的装置，其特征在于，

所述获取模块还配置成获取多个用户的历史授权数据作为训练样本；

所述构建模块还配置成基于多个所述训练样本构建所述训练样本的特征向量，其中，所述特征向量包括：统计特征向量、关系特征向量和行为特征向量；

所述训练模块还配置成通过K-MEANS算法根据所述训练样本的特征向量进行聚类训练，并对聚类结果进行标注得到训练后的无监督反欺诈机器学习模型。
一种服务器，其特征在于，所述数据处理设备包括机器可读存储介质及处理器，所述机器可读存储介质存储有机器可执行的指令，所述指令在被所述处理器执行时，促使所述服务器实现权利要求1-8任意一项所述的方法。