WO2021258992A1

WO2021258992A1 - 基于大数据的用户行为监测方法、装置、设备及介质

Info

Publication number: WO2021258992A1
Application number: PCT/CN2021/096700
Authority: WO
Inventors: 许超俊
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-06-24
Filing date: 2021-05-28
Publication date: 2021-12-30
Also published as: CN111737101A; CN111737101B

Abstract

一种基于大数据的用户行为监测方法，该方法包括：获取第一预设时间段内的若干个用户及其历史行为记录和标识信息（S101）；以所识信息作为目标变量，以所述若干个用户的历史行为记录作为输入参数，采用朴素贝叶斯算法进行训练，得到每一标识信息的执行概率（S102）；对于待监测用户，以标识信息作为目标变量，以待监测用户的历史行为记录作为输入参数，采用朴素贝叶斯算法进行预测，得到所述待监测用户的用户概率（S103）；获取所述待监测用户的标识信息及其对应的执行概率（S104）；根据所述待监测用户的用户概率与所述标识信息的执行概率，确定所述待监测用户是否存在风险（S105）。该方法解决了后台数据库因不断增加的数据表和交叉访问的需求产生的用户行为监测问题。该方法还涉及区块链及人工智能技术。

Description

基于大数据的用户行为监测方法、装置、设备及介质

本申请要求于2020年6月24日提交中国专利局、申请号为202010589176.0，发明名称为“基于大数据的用户行为监测方法、装置、设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及信息技术领域，尤其涉及一种基于大数据的用户行为监测方法、装置、设备及介质。

背景技术

随着企业信息化建设的快速发展，不少企业根据各自的业务需求，搭建了多套应用系统以适应各自发展的需要。企业的生产业务系统和后台管理系统会产生大量的业务数据与企业经营数据，保障这些数据的可靠性、有效性、可用性和准确性是企业全面信息化与数字化运营的关键。生产业务系统与后台管理系统通过给各个用户设定角色，以限制用户对数据的访问和使用。发明人意识到，在后台数据库的维护过程中，由于存在交叉访问各个数据表的需求，通常需要为已设定角色的用户额外授予其他操作权限，比如单独的数据库的表授权。由于无法对后台数据库角色进行细分，现有技术主要通过安全人员或者计算机逐条分析、使用穷举的方式对用户的非法行为进行排查，效率低，且耗费时间。

因此，寻找一种方法以解决后台数据库因不断增加的数据表和交叉访问的需求产生的用户行为监测问题成为本领域技术人员亟需解决的技术问题。

申请内容

本申请实施例提供了一种基于大数据的用户行为监测方法、装置、设备及介质，以解决后台数据库因不断增加的数据表和交叉访问的需求产生的用户行为监测问题。

一种基于大数据的用户行为监测方法，包括：

获取第一预设时间段内的若干个用户及其对应的历史行为记录和标识信息；

以所述标识信息作为目标变量，以所述若干个用户的历史行为记录作为输入参数，采用朴素贝叶斯算法进行训练，得到每一标识信息对应的执行概率；

对于待监测用户，以标识信息作为目标变量，以所述待监测用户的历史行为记录作为输入参数，采用朴素贝叶斯算法进行预测，得到所述待监测用户对应的用户概率；

获取所述待监测用户的标识信息，以及所述标识信息对应的执行概率；

根据所述待监测用户对应的用户概率与所述标识信息对应的执行概率，确定所述待监测用户是否存在风险。

可选地，所述获取第一预设时间段内的若干个用户及其对应的历史行为记录和标识信息包括：

获取第一预设时间段内的若干个用户的历史操作数据；

将所述历史操作数据转换为SQL数据，并对所述SQL数据进行正则化清洗和解析，得到每一个用户对应的操作数据、标识信息；

遍历每一个用户，对所述用户对应的操作数据按预设时间周期进行聚合，并对聚合后的所述操作数据进行标准化处理，得到历史行为记录；

遍历每一个用户，对所述用户及其历史行为记录进行标识信息标记。

可选地，所述根据所述待监测用户对应的用户概率与所述标识信息对应的执行概率，确定所述待监测用户是否存在风险包括：

比较所述待监测用户对应的用户概率与所述标识信息对应的执行概率；

若所述待监测用户对应的用户概率相对于所述标识信息对应的执行概率的偏差值大于或等于第一预设阈值时，确定所述待监测用户的当前行为存在风险；

若所述待监测用户对应的用户概率相对于所述标识信息对应的执行概率的偏差值小于第一预设阈值时，确定所述待监测用户的当前行为不存在风险。

可选地，所述方法还包括：

获取所述待监测用户在第二预设时间段内的历史行为记录；

以标识信息作为目标变量，以所述第二预设时间段内的历史行为记录为输入参数，采用朴素贝叶斯算法进行预测，得到所述待监测用户的第一一般概率；

获取所述待监测用户在第三预设时间段内的历史行为记录；

以标识信息作为目标变量，以所述第三预设时间段内的历史行为记录为输入参数，采用朴素贝叶斯算法进行预测，得到所述待监测用户的第二一般概率；

根据所述待监测用户的第一一般概率与第二一般概率，确定所述待监测用户是否存在风险。

可选地，所述根据所述待监测用户的第一一般概率与第二一般概率，确定所述待监测用户是否存在风险包括：

比较所述待监测用户的第一一般概率和第二一般概率；

若所述待监测用户的第二一般概率相对于所述第一一般概率的偏差值大于或等于第二预设阈值时，确定所述待监测用户的当前行为存在风险；

若所述待监测用户的第二一般概率相对于所述第一一般概率的偏差值小于第二预设阈值时，确定所述待监测用户的当前行为不存在风险。

可选地，所述方法还包括：

根据所述待监测用户对应的用户概率和标识信息对应的执行概率、所述待监测用户的第一一般概率和第二一般概率，确定所述待监测用户的操作是否存在风险。

可选地，所述根据所述待监测用户对应的用户概率和标识信息对应的执行概率、所述待监测用户的第一一般概率和第二一般概率，确定所述待监测用户的操作是否存在风险包括：

比较所述待监测用户对应的用户概率和标识信息对应的执行概率，比较所述待监测用户的第一一般概率和第二一般概率；

若所述待监测用户对应的用户概率相对于标识信息对应的执行概率的偏差大于或等于第一预设阈值，且所述待监测用户的第二一般概率相对于第一一般概率的偏差大于或等于第二预设阈值，确定所述待监测用户的当前行为存在风险；

若所述待监测用户对应的用户概率相对于标识信息对应的执行概率的偏差小于第一预设阈值，和/或所述待监测用户的第二一般概率相对于第一一般概率的偏差小于第二预设阈值，确定所述待监测用户的当前行为不存在风险。

一种基于大数据的用户行为监测装置，所述装置包括：

参数获取模块，用于获取第一预设时间段内的若干个用户及其对应的历史行为记录和标识信息；

训练模块，用于以所述标识信息作为目标变量，以所述若干个用户的历史行为记录作为输入参数，采用朴素贝叶斯算法进行训练，得到每一标识信息对应的执行概率；

预测模块，用于对于待监测用户，以标识信息作为目标变量，以所述待监测用户的历史行为记录作为输入参数，采用朴素贝叶斯算法进行预测，得到所述待监测用户对应的用户概率；

概率获取模块，用于获取所述待监测用户的标识信息，以及所述标识信息对应的执行概率；

风险监测模块，用于根据所述待监测用户对应的用户概率与所述标识信息对应的执行概率，确定所述待监测用户是否存在风险。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

一个或多个存储有计算机可读指令的可读存储介质，其中，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

本申请实施例对用户行为进行不同维度分析，通过获取第一预设时间段内的若干个用户及其对应的历史行为记录和标识信息；以以所述标识信息作为目标变量，以所述若干个用户的历史行为记录作为输入参数，采用朴素贝叶斯算法进行训练，得到每一标识信息对应的执行概率；对于待监测用户，以标识信息作为目标变量，以所述待监测用户的历史行为记录作为输入参数，采用朴素贝叶斯算法进行预测，得到所述待监测用户对应的用户概率；获取所述待监测用户的标识信息，以及所述标识信息对应的执行概率；根据所述待监测用户对应的用户概率与所述标识信息对应的执行概率，确定所述待监测用户是否存在风险；从而有利于发现用户的反常行为，减少、替代了人工排查数据库用户风险的时间和效率，提升了排查效果，有效地解决了后台数据库因不断增加的数据表和交叉访问的需求产生的用户行为监测问题。

本申请的一个或多个实施例的细节在下面的附图和描述中提出，本申请的其他特征和优点将从说明书、附图以及权利要求变得明显。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例中基于大数据的用户行为监测方法的一流程图；

图2是本申请实施例中基于大数据的用户行为监测方法中步骤S101的一流程图；

图3是本申请实施例中基于大数据的用户行为监测方法中步骤S105的一流程图；

图4是本申请实施例中基于大数据的用户行为监测方法的另一流程图；

图5是本申请实施例中基于大数据的用户行为监测方法中步骤S110的一流程图；

图6是本申请实施例中基于大数据的用户行为监测方法的另一流程图；

图7是本申请实施例中基于大数据的用户行为监测方法中步骤S111的一流程图；

图8是本申请实施例中基于大数据的用户行为监测装置的一原理框图；

图9是本申请实施例中计算机设备的一示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的基于大数据的用户行为监测方法的目的是为了解决后台数据库因不断增加的数据表和交叉访问的需求产生的用户行为监测问题，以便发现用户的反常行为，减少、替代了人工排查数据库用户风险的时间和效率，解决现有技术对风险排查效果较低的问题，优化了实现路径，缩短排查时间，并能智能判定主动发现潜在风险，减少人工干涉；也有利于结合实际管理部门对于数据的规范性要求，给相应的数据管理制度和政策的制定提供基础。

以下将对本实施例提供的基于大数据的用户行为监测方法进行详细的描述。如图1所示，所述基于大数据的用户行为监测方法包括：

在步骤S101中，获取第一预设时间段内的若干个用户及其对应的历史行为记录和标识信息。

在这里，所述第一预设时间段可根据需要设定。本实施例获取每一个用户对应的在所述第一预设时间段内的历史行为记录。所述历史行为记录是指用户在所述第一预设时间段内的无量纲的操作记录，所述标识信息是指用户对应的用户角色，是用户的操作凭证。

可选地，如图2所示，所述步骤S101包括：

在步骤S201中，获取第一预设时间段内的若干个用户的历史操作数据。

在这里，所述历史操作数据是指过去预设时间范围内的用户操作的集合，可以是从交换机实时采集流量数据的形式获得，也可以通过以数据库支持的慢查询、数据库日志文件的形式收集。优选地，为进一步保证上述历史操作数据的私密和安全性，上述历史操作数据还可以存储于一区块链的节点中。步骤S201还可以从区块链的节点中获取。

在步骤S202中，将所述历史操作数据转换为SQL数据，并对所述SQL数据进行正则化清洗和解析，得到每一个用户对应的操作数据、标识信息。

将所述历史操作数据还原为SQL格式的数据，以便于对所述历史操作数据进行处理。然后对所述SQL数据进行正则化清洗和解析，包括但不限于比如：清除文本中的特殊符号、标点、英文、数字，去除换行符，将多个空格转换为一个空格等。最终得到每一个用户对应的操作数据、标识信息。其中，所述操作数据是指用户针对数据表及其字段的查询或者插入或者更新或者创建或者删除的操作记录。所述标识信息是指用户对应的用户角色，是用户的操作凭证。一个标识信息对应一组权限配置的集合。本实施例按照业务条线、工作职能来划分出不同库、不同表的操作权限，比如建表、删表、插入、更新、查询为一组操作权限，插入、更新、查询为另一组操作权限。一个标识信息对应一组操作权限，这个标识信息可以赋权给一个乃至多个用户，从而使得具备所述标识信息的用户具有了对应的一组操作权限。

在步骤S203中，遍历每一个用户，对所述用户对应的操作数据按预设时间周期进行聚合，并对聚合后的所述操作数据进行标准化处理，得到历史行为记录。

通过上述步骤S202得到的操作数据是分散的，且数据量大。本实施例针对每一个用户，对所述用户对应的操作数据按预设时间周期来进行聚合。可选地，可以通过将操作记录转换为哑变量，然后基于对哑变量的统计来实现对同一用户对应的操作数据进行聚合。具体地，当用户在某一时刻对一个数据表进行操作时，则生成该数据表的哑变量为1，未操作的其他数据表的哑变量为则0，遍历该用户的所有操作数据，然后将该用户的所有操作数据按照预设时间周期进行统计，比如按照天或者按照周或者按照月，以对所述用户重复的操作数据进行聚合，对在一个预设时间周期内所述用户的操作数据进行统计及累计次数，得到行为记录。

示例性地，假设用户X的操作数据包括：

1月1日，AM10:00查询数据表A，AM10:35查询数据表A；

1月2日，AM9:00查询数据表A，PM2:00修改数据表C……

若按照天来进行聚合时，则聚合后的行为记录为：

1月1日，查询数据表A两次；

1月2日，查询数据表A一次，修改数据表C一次。

在完成对操作数据的聚合后，这些操作数据作为原始指标数据，采用了不同的评价指标，具有不同的量纲和数量级。为了保证朴素贝叶斯算法输出结果的可靠性，本实施例对聚合得到的行为记录进行标准化处理，以将所述行为记录转换为无量纲化指标评价值，得到历史行为记录，作为所述朴素贝叶斯算法的训练参数。

在步骤S204中，遍历每一个用户，对所述用户及其历史行为记录进行标识信息标记。

在将标识信息从数据库的标识记录表，比如角色表，中提取出来后，本实施例进一步对每一个用户进行标记，以形成样本集合。

在步骤S102中，以所述标识信息作为目标变量，以所述若干个用户的历史行为记录作为输入参数，采用朴素贝叶斯算法进行训练，得到每一标识信息对应的执行概率。

如前所述，所述标识信息是指角色信息，是用户的操作凭证，即一组权限配置的集合。每一个标识信息对应一组操作权限，本申请实施例通过朴素贝叶斯算法得到每一个标识信息的执行概率，所述执行概率表示一组操作权限对应所属标识信息的概率，即从总体上看具有所述标识信息的用户执行该组操作权限的概率。

其中，朴素贝叶斯算法是基于贝叶斯定理与特征条件独立假设的分类方法，本实施例以用户及其对应的历史行为记录作为给定训练数据集，以标识信息作为目标变量，基于特征条件独立假设学习历史行为记录与标识信息之间的联合概率分布。具体地，以每一标识信息Y作为一个类别先估计出每个标识信息出现的先验概率P(Y＝y _j)，可以通过计算具有相同标识信息y _i的用户数量与用户总数的比值，作为所述标识信息的先验概率。针对每一个标识，计算在每个标识下出现各个操作X的条件概率

具体可以通过计算具有指定标识信息y _i且执行指定操作x _i的用户数量与具有指定标识信息y _i的用户总数的比值，作为具有所述指定标识信息y _i的用户执行指定操作x _i的条件概率。然后对于操作组合T，其包括多个指定操作x _i，比如当指定操作x ₁、x ₂、x ₃组成操作组合时，T＝(x ₁、x ₂、x ₃)，计算具体操作组合T出现的条件下属于每一所述标识信息y _i的后验概率

其中全概率公式

P(T)＝P(Y＝y ₁)P(T|Y＝y ₁)+P(Y＝y ₂)P(T|Y＝y ₂)......，P(T|Y＝y _j)通过计算指定标识信息y _i下用户执行操作组合T所包含的指定操作x _i的条件概率乘积得到，从所述后验概率P(Y＝y _j|T)中选择最大值，得到后验概率最大值对应的标识信息y _i和操作组合T，以所述后验概率最大值作为所述标识信息y _i的执行概率，所述操作组合T作为所述标识信息y _i对应的一组操作权限。所述的一组操作权限是具有对应的标识信息y _i的用户可执行的，具有对应的标识信息y _i的用户执行该组操作权限外的操作时可考虑是非法操作。

在步骤S103中，对于待监测用户，以标识信息作为目标变量，以所述待监测用户的历史行为记录作为输入参数，采用朴素贝叶斯算法进行预测，得到所述待监测用户对应的用户概率。

在这里，与执行概率为标识信息所指代的角色的行为概率不同，所述用户概率是指用户的行为概率，表示一个用户所执行的一个操作组合对应一个具体角色的概率。对于一个用户的一个操作组合，针对每个标识信息，分别计算该标识信息的先验概率，以及在该标识信息条件下出现所述操作组合中每一操作的条件概率，然后计算该操作组合出现的条件下属于每一所述标识信息的后验概率，从中选择最大的后验概率作为用户概率，所述用户概率对应的标识信息作为所述用户的一个操作组合对应的标识信息。

对于一个确定的用户，已赋权一些操作权限，包括其标识信息对应的操作权限和一些额外配置的操作权限，本实施例通过朴素贝叶斯算法计算所述用户的操作组合的用户概率。

在步骤S104中，获取所述待监测用户的标识信息，以及所述标识信息对应的执行概率。

根据所述待监测用户的标识信息，从步骤S102得到的操作权限、标识信息和执行概率的对应关系中查找到所述待监测用户的标识信息的执行概率。

在步骤S105中，根据所述待监测用户对应的用户概率与所述标识信息对应的执行概率，确定所述待监测用户是否存在风险。

在这里，所述待监测用户的用户概率表示所述待监测用户执行的一组操作行为属于一个具体标识信息的概率，所述标识信息的执行概率表示一组操作权限属于所述具体标识的概率。本实施例通过将所述待监测用户的用户概率与所述标识信息对应的执行概率进行比较，可以判断出所述待监测用户的一组操作行为是否落在其所述标识信息对应的一组操作权限范围内，从而判断所述待监测用户是否存在风险。

可选地，如图3所示，所述步骤S105还包括：

在步骤S301中，比较所述待监测用户对应的用户概率与所述标识信息对应的执行概率。

在步骤S302中，若所述待监测用户对应的用户概率相对于所述标识信息对应的执行概率的偏差值大于或等于第一预设阈值时，确定所述待监测用户的当前行为存在风险。

在步骤S303中，若所述待监测用户对应的用户概率相对于所述标识信息对应的执行概率的偏差值小于第一预设阈值时，确定所述待监测用户的当前行为不存在风险。

在这里，若所述待监测用户执行的操作组合是其所属标识信息对应的操作权限，所述待监测用户的用户概率与所述标识信息对应的执行概率应该是相同或趋于相同的。若所述待监测用户的用户概率与其所属标识信息对应的执行概率之间的偏差太大，则说明所述待监测用户的当前行为组合与其所属标识信息对应的操作权限不一致，存在操作风险。

可选地，所述第一预设阈值优选为3倍标准差。在这里，本实施例将属于同一个标识信息的用户及其用户概率梳理出来，以所述用户概率符合正态分布为前提，计算用户概率与所述执行概率之间的标准差，然后以3倍标准差作为第一预设阈值。当所述待监测用户的用户概率偏离其所属标识信息对应的执行概率超过所述3倍标准差时，则认为所述用户概率为一个离群点，确定所述待监测用户的当前行为存在风险，若所述待监测用户的用户概率偏离其所属标识信息对应的执行概率在所述3倍标准差以内时，则认为所述待监测用户的当前行为在合理的权限范围内，确定所述待监测用户的当前行为不存在风险，从而为每一个待监测用户保留了配置额外权限的空间，即使待监测用户执行了其标识信息对应的操作权限以外的一些额外权限，比如基于用户授权的对数据库中的零散表字段的额外操作权限，也认为是安全的。有利于解决主动发现数据操作和使用过程中的一些潜在违规或风险行为，同时也可以用来弥补技术人员在对业务应用不是完全熟悉的条件下，在敏感数据访问、数据安全防范、权限合规授予上的欠缺或疏忽，保障操作安全监测的同时留一些冗余空间。

可选地，作为本申请的另一个优选示例，在上述实施例的基础上，如图4所示，所述基于大数据的用户行为监测方法还包括：

在步骤S106中，获取所述待监测用户在第二预设时间段内的历史行为记录。

在这里，所述第二预设时间段小于所述第一预设时间段，比如第一预设时间段为3个月，则所述第二预设时间段为2个月。步骤S106具体请参见上述步骤S101的叙述，此处不再赘述。

在步骤S107中，以标识信息作为目标变量，以所述第二预设时间段内的历史行为记录为输入参数，采用朴素贝叶斯算法进行预测，得到所述待监测用户的第一一般概率。

在这里，所述第一一般概率也是用户的行为概率，表示所述待监测用户在所述第二预设时间段内的一个操作组合对应其所属标识信息的概率。

在步骤S108中，获取所述待监测用户在第三预设时间段内的历史行为记录。步骤S108具体请参见上述步骤S101的叙述，此处不再赘述。

在这里，所述第三预设时间段小于所述第二预设时间段，比如第二预设时间段为2个月，则所述第三预设时间段为1个月。

在步骤S109中，以标识信息作为目标变量，以所述第三预设时间段内的历史行为记录为输入参数，采用朴素贝叶斯算法进行预测，得到所述待监测用户的第二一般概率。

在这里，所述第二一般概率也是用户的行为概率，表示所述待监测用户在所述第三预设时间段内的一个操作组合对应其所属标识信息的概率。

在步骤S110中，根据所述待监测用户的第一一般概率与第二一般概率，确定所述待监测用户是否存在风险。

在这里，所述待监测用户的第一一般概率和第二一般概率均表示所述待监测用户在预设时间内执行的一组操作行为对应其所属标识信息的概率，本申请实施例以所述第一一般概率作为参照，基于所述第二一般概率相对所述第一一般概率的偏差情况，确定所述待监测用户在第三预设时间段内的操作组合是在第二预设时间段之前已经发生过，还是之前未发生过而在第三预设时间段内新发生的。如图5所示，所述步骤S110包括：

在步骤S501中，比较所述待监测用户的第一一般概率和第二一般概率。

在步骤S502中，若所述待监测用户的第二一般概率相对于所述第一一般概率的偏差值大于或等于第二预设阈值时，确定所述待监测用户的当前行为存在风险。

在步骤S503中，若所述待监测用户的第二一般概率相对于所述第一一般概率的偏差值小于第二预设阈值时，确定所述待监测用户的当前行为不存在风险。

在这里，若所述待监测用户在第二预设时间和第三预设时间内执行的操作组合是相同或相似的，那么所述第一一般概率和第二一般概率应当是相同或趋于相同的。若所述待监测用户的第二一般概率相对于所述第一一般概率的偏差太大，则说明所述待监测用户的第三预设时间内的历史行为偏离第二设时间内的历史行为较大，是在第三预设时间段内新发生的操作组合，可能存在操作风险。可选地，所述第二预设阈值优选为3倍标准差。以所述用户概率符合正态分布为前提，通过计算历史上待监测用户的第二一般概率与所述第一一般概率之间的标准差，然后以3倍标准差作为第二预设阈值。

可选地，作为本申请的另一个优选示例，还可以结合标识信息的执行概率、用户的用户概率和第一一般概率、第二一般概率来监测用户的风险行为。如图6所示，所述基于大数据的用户行为监测方法还包括：

在步骤S111中，根据所述待监测用户对应的用户概率和标识信息对应的执行概率、所述待监测用户的第一一般概率和第二一般概率，确定所述待监测用户的操作是否存在风险。

如前所述，所述待监测用户的用户概率表示所述待监测用户执行的一组操作行为属于一个具体标识信息的概率，所述标识信息的执行概率表示一组操作权限属于所述具体标识的概率。所述待监测用户的第一一般概率表示所述待监测用户在所述第二预设时间内执行的一组操作行为对应其所属标识信息的概率，所述待监测用户的第二一般概率表示所述待监测用户在所述第三预设时间内执行的一组操作行为对应其所属标识信息的概率。本实施例通过判断所述待监测用户的一组操作行为是否落在其所述标识信息对应的一组操作权限范围内，以及判断所述待监测用户在第三预设时间段内的操作组合是在第二预设时间段之前已经发生过，来得出所述待监测用户是否存在风险。如图7所示，所述步骤S111包括：

在步骤S701中，比较所述待监测用户对应的用户概率和标识信息对应的执行概率，比较所述待监测用户的第一一般概率和第二一般概率。

在步骤S702中，若所述待监测用户对应的用户概率相对于标识信息对应的执行概率的偏差大于或等于第一预设阈值，且所述待监测用户的第二一般概率相对于第一一般概率的偏差大于或等于第二预设阈值，确定所述待监测用户的当前行为存在风险。

在步骤S703中，若所述待监测用户对应的用户概率相对于标识信息对应的执行概率的偏差小于第一预设阈值，和/或所述待监测用户的第二一般概率相对于第一一般概率的偏差小于第二预设阈值，确定所述待监测用户的当前行为不存在风险。

可选地，所述第一预设阈值和第二预设阈值优选为3倍标准差，比较原理分别见上述实施例的叙述，此处不再赘述。

综上所述，本实施例通过对用户行为历史数据学习，对用户及其所属标识信息进行常规性处理，便于发现用户的反常行为，减少、替代了人工排查数据库用户风险的时间和效率，解决现有技术进行风险排查效果较低的问题，优化了实现路径，缩短排查时间，并能智能判定主动发现潜在风险，减少人工干涉；也有利于结合实际管理部门对于数据的规范性要求，给相应的数据管理制度和政策的制定提供基础。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在一实施例中，提供一种基于大数据的用户行为监测装置，该基于大数据的用户行为监测装置与上述实施例基于大数据的用户行为监测方法一一对应。如图8所示，该基于大数据的用户行为监测装置包括第一参数获取模块81、训练模块82、第一预测模块83、概率获取模块84、第一风险监测模块85。各功能模块详细说明如下：

第一参数获取模块81，用于获取第一预设时间段内的若干个用户及其对应的历史行为记录和标识信息；

训练模块82，用于以所述标识信息作为目标变量，以所述若干个用户的历史行为记录作为输入参数，采用朴素贝叶斯算法进行训练，得到每一标识信息对应的执行概率；

第一预测模块83，用于对于待监测用户，以标识信息作为目标变量，以所述待监测用户的历史行为记录作为输入参数，采用朴素贝叶斯算法进行预测，得到所述待监测用户对应的用户概率；

概率获取模块84，用于获取所述待监测用户的标识信息，以及所述标识信息对应的执行概率；

第一风险监测模块85，用于根据所述待监测用户对应的用户概率与所述标识信息对应的执行概率，确定所述待监测用户是否存在风险。

可选地，所述第一参数获取模块81包括：

数据获取单元，用于获取第一预设时间段内的若干个用户的历史操作数据；

预处理单元，用于将所述历史操作数据转换为SQL数据，并对所述SQL数据进行正则化清洗和解析，得到每一个用户对应的操作数据、标识信息；

聚合单元，用于遍历每一个用户，对所述用户对应的操作数据按预设时间周期进行聚合，并对聚合后的所述操作数据进行标准化处理，得到历史行为记录；

标记单元，用于遍历每一个用户，对所述用户及其历史行为记录进行标识信息标记。

可选地，所述第一风险监测模块85包括：

第一比较单元，用于比较所述待监测用户对应的用户概率与所述标识信息对应的执行概率；

第一风险判定单元，用于若所述待监测用户对应的用户概率相对于所述标识信息对应的执行概率的偏差值大于或等于第一预设阈值时，确定所述待监测用户的当前行为存在风险；

第二风险判定单元，用于若所述待监测用户对应的用户概率相对于所述标识信息对应的执行概率的偏差值小于第一预设阈值时，确定所述待监测用户的当前行为不存在风险。

可选地，所述装置还包括：

第二参数获取模块，用于获取所述待监测用户在第二预设时间段内的历史行为记录；

第二预测模块，用于以标识信息作为目标变量，以所述第二预设时间段内的历史行为记录为输入参数，采用朴素贝叶斯算法进行预测，得到所述待监测用户的第一一般概率；

第三参数获取模块，用于获取所述待监测用户在第三预设时间段内的历史行为记录；

第三预测模块，用于以标识信息作为目标变量，以所述第三预设时间段内的历史行为记录为输入参数，采用朴素贝叶斯算法进行预测，得到所述待监测用户的第二一般概率；

第二风险监测模块，用于根据所述待监测用户的第一一般概率与第二一般概率，确定所述待监测用户是否存在风险。

可选地，所述第二风险监测模块包括：

第二比较单元，用于比较所述待监测用户的第一一般概率和第二一般概率；

第三风险判定单元，用于若所述待监测用户的第二一般概率相对于所述第一一般概率的偏差值大于或等于第二预设阈值时，确定所述待监测用户的当前行为存在风险；

第四风险判定单元，用于若所述待监测用户的第二一般概率相对于所述第一一般概率的偏差值小于第二预设阈值时，确定所述待监测用户的当前行为不存在风险。

可选地，所述装置还包括：

第三风险监测模块，用于根据所述待监测用户对应的用户概率和标识信息对应的执行概率、所述待监测用户的第一一般概率和第二一般概率，确定所述待监测用户的操作是否存在风险。

可选地，所述第三风险监测模块包括：

第三比较单元，用于比较所述待监测用户对应的用户概率和标识信息对应的执行概率，比较所述待监测用户的第一一般概率和第二一般概率；

第五风险判定单元，用于若所述待监测用户对应的用户概率相对于标识信息对应的执行概率的偏差大于或等于第一预设阈值，且所述待监测用户的第二一般概率相对于第一一般概率的偏差大于或等于第二预设阈值，确定所述待监测用户的当前行为存在风险；

第六风险判定单元，用于若所述待监测用户对应的用户概率相对于标识信息对应的执行概率的偏差小于第一预设阈值，和/或所述待监测用户的第二一般概率相对于第一一般概率的偏差小于第二预设阈值，确定所述待监测用户的当前行为不存在风险。

关于基于大数据的用户行为监测装置的具体限定可以参见上文中对于基于大数据的用户行为监测方法的限定，在此不再赘述。上述基于大数据的用户行为监测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种基于大数据的用户行为监测方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

在一个实施例中，提供一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质或者易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

需要说明的是，本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种基于大数据的用户行为监测方法，其中，包括：

获取第一预设时间段内的若干个用户及其对应的历史行为记录和标识信息；

以所述标识信息作为目标变量，以所述若干个用户的历史行为记录作为输入参数，采用朴素贝叶斯算法进行训练，得到每一标识信息对应的执行概率；

对于待监测用户，以标识信息作为目标变量，以所述待监测用户的历史行为记录作为输入参数，采用朴素贝叶斯算法进行预测，得到所述待监测用户对应的用户概率；

获取所述待监测用户的标识信息，以及所述标识信息对应的执行概率；

根据所述待监测用户对应的用户概率与所述标识信息对应的执行概率，确定所述待监测用户是否存在风险。
如权利要求1所述的基于大数据的用户行为监测方法，其中，所述获取第一预设时间段内的若干个用户及其对应的历史行为记录和标识信息包括：

获取第一预设时间段内的若干个用户的历史操作数据；

将所述历史操作数据转换为SQL数据，并对所述SQL数据进行正则化清洗和解析，得到每一个用户对应的操作数据、标识信息；

遍历每一个用户，对所述用户对应的操作数据按预设时间周期进行聚合，并对聚合后的所述操作数据进行标准化处理，得到历史行为记录；

遍历每一个用户，对所述用户及其历史行为记录进行标识信息标记。
如权利要求2所述的基于大数据的用户行为监测方法，其中，所述根据所述待监测用户对应的用户概率与所述标识信息对应的执行概率，确定所述待监测用户是否存在风险包括：

比较所述待监测用户对应的用户概率与所述标识信息对应的执行概率；

若所述待监测用户对应的用户概率相对于所述标识信息对应的执行概率的偏差值大于或等于第一预设阈值时，确定所述待监测用户的当前行为存在风险；

若所述待监测用户对应的用户概率相对于所述标识信息对应的执行概率的偏差值小于第一预设阈值时，确定所述待监测用户的当前行为不存在风险。
如权利要求1至3任一项所述的基于大数据的用户行为监测方法，其中，所述方法还包括：

获取所述待监测用户在第二预设时间段内的历史行为记录；

以标识信息作为目标变量，以所述第二预设时间段内的历史行为记录为输入参数，采用朴素贝叶斯算法进行预测，得到所述待监测用户的第一一般概率；

获取所述待监测用户在第三预设时间段内的历史行为记录；

以标识信息作为目标变量，以所述第三预设时间段内的历史行为记录为输入参数，采用朴素贝叶斯算法进行预测，得到所述待监测用户的第二一般概率；

根据所述待监测用户的第一一般概率与第二一般概率，确定所述待监测用户是否存在风险。
如权利要求4所述的基于大数据的用户行为监测方法，其中，所述根据所述待监测用户的第一一般概率与第二一般概率，确定所述待监测用户是否存在风险包括：

比较所述待监测用户的第一一般概率和第二一般概率；

若所述待监测用户的第二一般概率相对于所述第一一般概率的偏差值大于或等于第二预设阈值时，确定所述待监测用户的当前行为存在风险；

若所述待监测用户的第二一般概率相对于所述第一一般概率的偏差值小于第二预设阈值时，确定所述待监测用户的当前行为不存在风险。
如权利要求4所述的基于大数据的用户行为监测方法，其中，所述方法还包括：

根据所述待监测用户对应的用户概率和标识信息对应的执行概率、所述待监测用户的第一一般概率和第二一般概率，确定所述待监测用户的操作是否存在风险。
如权利要求6所述的基于大数据的用户行为监测方法，其中，所述根据所述待监测用户对应的用户概率和标识信息对应的执行概率、所述待监测用户的第一一般概率和第二一般概率，确定所述待监测用户的操作是否存在风险包括：

比较所述待监测用户对应的用户概率和标识信息对应的执行概率，比较所述待监测用户的第一一般概率和第二一般概率；

若所述待监测用户对应的用户概率相对于标识信息对应的执行概率的偏差大于或等于第一预设阈值，且所述待监测用户的第二一般概率相对于第一一般概率的偏差大于或等于第二预设阈值，确定所述待监测用户的当前行为存在风险；

若所述待监测用户对应的用户概率相对于标识信息对应的执行概率的偏差小于第一预设阈值，和/或所述待监测用户的第二一般概率相对于第一一般概率的偏差小于第二预设阈值，确定所述待监测用户的当前行为不存在风险。
一种基于大数据的用户行为监测装置，其中，所述装置包括：

参数获取模块，用于获取第一预设时间段内的若干个用户及其对应的历史行为记录和标识信息；

训练模块，用于以所述标识信息作为目标变量，以所述若干个用户的历史行为记录作为输入参数，采用朴素贝叶斯算法进行训练，得到每一标识信息对应的执行概率；

预测模块，用于对于待监测用户，以标识信息作为目标变量，以所述待监测用户的历史行为记录作为输入参数，采用朴素贝叶斯算法进行预测，得到所述待监测用户对应的用户概率；

概率获取模块，用于获取所述待监测用户的标识信息，以及所述标识信息对应的执行概率；

风险监测模块，用于根据所述待监测用户对应的用户概率与所述标识信息对应的执行概率，确定所述待监测用户是否存在风险。
一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其中，所述处理器执行所述计算机可读指令时实现如下步骤：

获取第一预设时间段内的若干个用户及其对应的历史行为记录和标识信息；

以所述标识信息作为目标变量，以所述若干个用户的历史行为记录作为输入参数，采用朴素贝叶斯算法进行训练，得到每一标识信息对应的执行概率；

对于待监测用户，以标识信息作为目标变量，以所述待监测用户的历史行为记录作为输入参数，采用朴素贝叶斯算法进行预测，得到所述待监测用户对应的用户概率；

获取所述待监测用户的标识信息，以及所述标识信息对应的执行概率；

根据所述待监测用户对应的用户概率与所述标识信息对应的执行概率，确定所述待监测用户是否存在风险。
如权利要求9所述的计算机设备，其中，所述获取第一预设时间段内的若干个用户及其对应的历史行为记录和标识信息包括：

获取第一预设时间段内的若干个用户的历史操作数据；

将所述历史操作数据转换为SQL数据，并对所述SQL数据进行正则化清洗和解析，得到每一个用户对应的操作数据、标识信息；

遍历每一个用户，对所述用户对应的操作数据按预设时间周期进行聚合，并对聚合后的所述操作数据进行标准化处理，得到历史行为记录；

遍历每一个用户，对所述用户及其历史行为记录进行标识信息标记。
如权利要求10所述的计算机设备，其中，所述根据所述待监测用户对应的用户概率与所述标识信息对应的执行概率，确定所述待监测用户是否存在风险包括：

比较所述待监测用户对应的用户概率与所述标识信息对应的执行概率；

若所述待监测用户对应的用户概率相对于所述标识信息对应的执行概率的偏差值大于或等于第一预设阈值时，确定所述待监测用户的当前行为存在风险；

若所述待监测用户对应的用户概率相对于所述标识信息对应的执行概率的偏差值小于第一预设阈值时，确定所述待监测用户的当前行为不存在风险。
如权利9至11任一项所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还实现如下步骤：

获取所述待监测用户在第二预设时间段内的历史行为记录；

以标识信息作为目标变量，以所述第二预设时间段内的历史行为记录为输入参数，采用朴素贝叶斯算法进行预测，得到所述待监测用户的第一一般概率；

获取所述待监测用户在第三预设时间段内的历史行为记录；

以标识信息作为目标变量，以所述第三预设时间段内的历史行为记录为输入参数，采用朴素贝叶斯算法进行预测，得到所述待监测用户的第二一般概率；

根据所述待监测用户的第一一般概率与第二一般概率，确定所述待监测用户是否存在风险。
如权利要求12所述的计算机设备，其中，所述根据所述待监测用户的第一一般概率与第二一般概率，确定所述待监测用户是否存在风险包括：

比较所述待监测用户的第一一般概率和第二一般概率；

若所述待监测用户的第二一般概率相对于所述第一一般概率的偏差值大于或等于第二预设阈值时，确定所述待监测用户的当前行为存在风险；

若所述待监测用户的第二一般概率相对于所述第一一般概率的偏差值小于第二预设阈值时，确定所述待监测用户的当前行为不存在风险。
如权利要求12所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还实现如下步骤：

根据所述待监测用户对应的用户概率和标识信息对应的执行概率、所述待监测用户的第一一般概率和第二一般概率，确定所述待监测用户的操作是否存在风险。
一个或多个存储有计算机可读指令的可读存储介质，其中，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

获取第一预设时间段内的若干个用户及其对应的历史行为记录和标识信息；

以所述标识信息作为目标变量，以所述若干个用户的历史行为记录作为输入参数，采用朴素贝叶斯算法进行训练，得到每一标识信息对应的执行概率；

对于待监测用户，以标识信息作为目标变量，以所述待监测用户的历史行为记录作为输入参数，采用朴素贝叶斯算法进行预测，得到所述待监测用户对应的用户概率；

获取所述待监测用户的标识信息，以及所述标识信息对应的执行概率；

根据所述待监测用户对应的用户概率与所述标识信息对应的执行概率，确定所述待监测用户是否存在风险。
如权利要求15所述的可读存储介质，其中，所述获取第一预设时间段内的若干个用户及其对应的历史行为记录和标识信息包括：

获取第一预设时间段内的若干个用户的历史操作数据；

将所述历史操作数据转换为SQL数据，并对所述SQL数据进行正则化清洗和解析，得到每一个用户对应的操作数据、标识信息；

遍历每一个用户，对所述用户对应的操作数据按预设时间周期进行聚合，并对聚合后的所述操作数据进行标准化处理，得到历史行为记录；

遍历每一个用户，对所述用户及其历史行为记录进行标识信息标记。
如权利要求16所述的可读存储介质，其中，所述根据所述待监测用户对应的用户概率与所述标识信息对应的执行概率，确定所述待监测用户是否存在风险包括：

比较所述待监测用户对应的用户概率与所述标识信息对应的执行概率；

若所述待监测用户对应的用户概率相对于所述标识信息对应的执行概率的偏差值大于或等于第一预设阈值时，确定所述待监测用户的当前行为存在风险；

若所述待监测用户对应的用户概率相对于所述标识信息对应的执行概率的偏差值小于第一预设阈值时，确定所述待监测用户的当前行为不存在风险。
如权利要求15至17任一项所述的可读存储介质，其中，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器还执行如下步骤：

获取所述待监测用户在第二预设时间段内的历史行为记录；

以标识信息作为目标变量，以所述第二预设时间段内的历史行为记录为输入参数，采用朴素贝叶斯算法进行预测，得到所述待监测用户的第一一般概率；

获取所述待监测用户在第三预设时间段内的历史行为记录；

以标识信息作为目标变量，以所述第三预设时间段内的历史行为记录为输入参数，采用朴素贝叶斯算法进行预测，得到所述待监测用户的第二一般概率；

根据所述待监测用户的第一一般概率与第二一般概率，确定所述待监测用户是否存在风险。
如权利要求18所述的可读存储介质，其中，所述根据所述待监测用户的第一一般概率与第二一般概率，确定所述待监测用户是否存在风险包括：

比较所述待监测用户的第一一般概率和第二一般概率；

若所述待监测用户的第二一般概率相对于所述第一一般概率的偏差值大于或等于第二预设阈值时，确定所述待监测用户的当前行为存在风险；

若所述待监测用户的第二一般概率相对于所述第一一般概率的偏差值小于第二预设阈值时，确定所述待监测用户的当前行为不存在风险。
如权利要求18所述的可读存储介质，其中，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器还执行如下步骤：

根据所述待监测用户对应的用户概率和标识信息对应的执行概率、所述待监测用户的第一一般概率和第二一般概率，确定所述待监测用户的操作是否存在风险。