WO2019109741A1

WO2019109741A1 - 异常数据访问的识别方法和装置

Info

Publication number: WO2019109741A1
Application number: PCT/CN2018/110756
Authority: WO
Inventors: 郭龙
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2017-12-05
Filing date: 2018-10-18
Publication date: 2019-06-13
Also published as: CN108200008A; TWI734038B; TW201926105A

Abstract

说明书披露一种异常数据访问的识别方法和装置。该方法包括：获取目标数据访问行为的原始访问信息；将所述原始访问信息量化为多个维度的目标访问特征参数；将所述多个维度的目标访问特征参数作为入参输入已训练的访问模型；根据所述访问模型的输出结果判断所述目标数据访问行为是否异常。

Description

异常数据访问的识别方法和装置

技术领域

本说明书涉及互联网技术领域，尤其涉及一种异常数据访问的识别方法和装置。

背景技术

随着互联网技术的快速发展，开放平台已经成为很多公司的战略发展方向。开放平台可以向企业、政府等机构开放数据接口，以供相关机构进行数据调用。然而，目前有很多不法人员盗用数据接口，非法窃取开放平台的数据，导致数据泄露。

发明内容

有鉴于此，本说明书提供一种异常数据访问的识别方法和装置。

具体地，本说明书是通过如下技术方案实现的：

一种异常数据访问的识别方法，包括：

获取目标数据访问行为的原始访问信息；

将所述原始访问信息量化为多个维度的目标访问特征参数；

将所述多个维度的目标访问特征参数作为入参输入已训练的访问模型；

根据所述访问模型的输出结果判断所述目标数据访问行为是否异常。

一种异常数据访问的识别装置，包括：

信息获取单元，获取目标数据访问行为的原始访问信息；

信息量化单元，将所述原始访问信息量化为多个维度的目标访问特征参数；

模型使用单元，将所述多个维度的目标访问特征参数作为入参输入已训练的访问模型；

异常判断单元，根据所述访问模型的输出结果判断所述目标数据访问行为是否异常。

一种异常数据访问的识别装置，包括：

处理器；

用于存储机器可执行指令的存储器；

其中，通过读取并执行所述存储器存储的与异常数据访问的识别逻辑对应的机器可执行指令，所述处理器被促使：

获取目标数据访问行为的原始访问信息；

将所述原始访问信息量化为多个维度的目标访问特征参数；

由以上描述可以看出，本说明书可将目标数据访问行为的原始访问信息量化为多个维度的目标访问特征参数，并基于已训练的访问模型识别目标数据访问行为是否异常，从而实现对数据访问行为的有效识别与监管。

附图说明

图1是本说明书一示例性实施例示出的一种异常数据访问的识别方法的流程示意图。

图2是本说明书一示例性实施例示出的一种用于异常数据访问的识别装置的一结构示意图。

图3是本说明书一示例性实施例示出的一种异常数据访问的识别装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

所述异常数据访问的识别方法可以应用在开放平台，所述开放平台对外提供有数据调用接口，所述开放平台的物理载体通常是服务器或者服务器集群。

请参考图1，所述异常数据访问的识别方法可以包括以下步骤：

步骤102，获取目标数据访问行为的原始访问信息。

在本实施例中，在判断目标数据访问行为是否为异常数据访问行为时，可以获取目标数据访问行为的原始访问信息。

其中，所述目标数据访问行为是否为异常数据访问行为的判断时机可以预先设置，例如：可依据24小时、48小时等判断周期进行判断，也可以在接收到管理员下发的判断指令时进行判断，本说明书对此不作特殊限制。

所述原始访问信息可以包括：访问发起方信息、访问时间点、访问数据量等。

步骤104，将所述原始访问信息量化为多个维度的目标访问特征参数。

基于前述步骤102，在获取到所述原始访问信息后，可以基于预设的维度，将所述原始访问信息量化为各个维度的访问特征参数，为便于区分，在本说明书中，可将该访问特征参数称为目标访问特征参数。

其中，所述预设的维度可以由开发人员预先进行设置，例如，所述预设的维度可以包括：数量维度、时间维度、位置维度等。

步骤106，将所述多个维度的目标访问特征参数作为入参输入已训练的访问模型。

步骤108，根据所述访问模型的输出结果判断所述目标数据访问行为是否异常。

在本实施例中，所述访问模型可以为有监督模型，例如，神经网络模型等。所述访问模型也可以为无监督模型，例如，Isolation Forest(孤立点检测算法)模型、聚类模型等。

在本实施例中，基于不同的访问模型，所述输出结果的判断方式也不相同，例如，若采用Isolation Forest模型，如果输出结果是孤立点的话，可确定目标数据访问行为异常。本领域技术人员可以依据访问模型的特点进行判断，本说明书在此不再一一赘述。

下面分别从访问模型的训练、已训练的访问模型的应用两个方面来描述本说明书的具体实现过程。

一、访问模型的训练

在本实施例中，在训练访问模型时，可先选择原始访问模型。所述原始访问模型可以为有监督模型，也可以为无监督模型，下面以无监督模型为例进行描述。

在本实施例中，可先获取一段时间内不同访问发起方的历史访问信息。所述历史访问信息是各访问发起方历史上调用数据接口进行数据访问的访问信息，可包括：访问时间点、访问数据量、访问数据的所属地等。

在获取到所述历史访问信息后，可以将所述历史访问信息量化为多个维度的历史访问特征参数。

所述历史访问特征参数的维度可以由开发人员根据业务特点预先进行设置，例如，所述多个维度的目标访问特征参数包括以下一种或多种：

1、访问数量参数。所述访问数量参数可以包括：访问数据总量、单位时间内的访问数据量等。

其中，所述访问数据总量可以为访问数据的条数，例如，访问了5万条数据，则访问数据总量是5万。

上述单位时间可以为24小时，也可以为7天等，本说明书对此不作特殊限制。

2、访问数量参数与访问行为发起方所属类别的访问数量参数均值的比对结果参数。

在本实施例中，访问发起方可包括：医院、事业单位、商户等各种企事业单位或政府机构，不同类别的访问发起方调用数据的目的和特点通常也不相同。由此，本实施例将所述访问数据参数与访问行为发起方所属类别的访问数量参数的均值进行比对，并将比对结果参数作为一个维度的访问特征参数。

其中，所述比对结果参数可以为访问数量与访问发起方所属类别的访问数量参数均值的比值，举例来说，假设访问数量是访问数据总量5万，访问发起方是某医院，而医院行业的访问数据总量的均值是6万，那么上述比对结果参数为5/6。

当然，所述比对结果参数也可以为访问数量占访问发起方所属类别的访问数量参数均值百分比等，本说明书对此不作特殊限制。

3、访问时间参数与访问行为发起方所属类别的访问时间参数均值的比对结果参数。

在本实施例中，所述访问时间参数可以包括：所述数据访问行为中每次数据访问的平均访问时间间隔等。举例来说，仍以医院为例，假设历史访问信息中每次数据访问的平均访问时间间隔是5分钟，而医院行业的平均访问时间间隔是60分钟，那么上述比对结果参数可以为5/60。

当然，与前述访问数量类似，该比对结果参数也可以为百分比等，本说明书对此不作特殊限制。

4、数据访问行为所访问的数据中与数据访问行为发起方所在地不同的数据量比例。

仍以医院为例，去医院看病的患者大部分是本地患者，医院在访问患者信息时，所访问的患者所在地也应该大部分与医院所在地相同。若医院访问了大量外地用户的信息，则说明访问接口被不法人员盗用的概率较高。

针对这样的特点，可先确定访问发起方所在地，例如，杭州。然后统计访问发起方访问的数据中所在地不在杭州或者不在浙江省的数据的数量，并用统计到的该数量除以访问数据总量，得到数据访问行为所访问的数据中与数据访问行为发起方所在地不同的数据量比例。

当然，在实际应用中，也可以采用数据访问行为中与数据访问行为发起方所在地相同的数据量比例以作为访问特征参数，本说明书对此不作特殊限制。

在本实施例中，在将历史访问信息量化为多个维度的历史访问特征参数后，可以使用该历史访问特征参数对原始访问模型进行训练，得到训练后的访问模型。

在本实施例中，采用无监督模型作为原始访问模型，无需对标识历史访问信息的访问标签，节省了大量处理资源。其中，所述访问标签用于标记正常数据访问行为和异常数据访问行为。

在本实施例中，为确保访问模型的准确性，在对访问模型进行训练后，可以人工对训练后的访问模型进行检测。

若检测合格，可以将访问模型上线，以识别异常数据访问行为。

若检测不合格，可以对上述多维度的访问特征参数进行调整，例如，增加访问特征参数，或减少访问特征参数等，以对模型进行优化。

二、已训练的访问模型的应用

在本实施例中，当访问模型训练完毕后，可以将访问模型上线，以对实际中的数据访问行为进行识别。

在一个例子中，可以依据24小时的时间周期获取各个访问发起方的数据访问行为的访问信息，为便于描述，可将该访问信息称为原始访问信息。

其中，所述原始访问信息可以包括：访问发起方信息、访问时间点、访问数据量、访问数据的所在地等。

上述时间周期也可以为48小时、36小时等，本说明书对此不作特殊限制。

在本实施例中，在获取到所述原始访问信息后，可将所述原始访问信息量化为多个维度的目标访问特征参数。所述目标访问特征参数的维度以及量化规则可以参考前述访问模型的训练过程，本说明书再次不再一一赘述。

在本实施例中，可将量化后的所述多个维度的目标访问特征参数作为入参输入已训练的访问模型，并根据访问模型的输出结果判断所述目标数据访问行为是否异常。

举例来说，可每天零时获取前一天(24小时)各医院的原始访问信息，针对每个医院的原始访问信息，可以将其量化为多个维度的目标访问特征参数，并可将所述多个维度的目标访问特征参数作为入参输入已训练的访问模型，以根据访问模型的输出结果判断该医院在前一天的数据访问行为是否异常。若异常，则可提示管理员进行排查，确定是否有非法人员调用数据接口窃取数据。

与前述异常数据访问的识别方法的实施例相对应，本说明书还提供了异常数据访问的识别装置的实施例。

本说明书异常数据访问的识别装置的实施例可以应用在服务器上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图2所示，为本说明书异常数据访问的识别装置所在服务器的一种硬件结构图，除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的服务器通常根据该服务器的实际功能，还可以包括其他硬件，对此不再赘述。

请参考图3，所述异常数据访问的识别装置200可以应用在前述图2所示的服务器中，包括有：信息获取单元201、信息量化单元202、模型使用单元203、异常判断单元204以及模型训练单元205。

其中，信息获取单元201，获取目标数据访问行为的原始访问信息；

信息量化单元202，将所述原始访问信息量化为多个维度的目标访问特征参数；

模型使用单元203，将所述多个维度的目标访问特征参数作为入参输入已训练的访问模型；

异常判断单元204，根据所述访问模型的输出结果判断所述目标数据访问行为是否异常。

模型训练单元205，获取历史访问信息；

将所述历史访问信息量化为多个维度的历史访问特征参数；

根据所述历史访问特征参数对原始访问模型进行训练，得到已训练的访问模型。

可选的，当所述原始访问模型是无监督模型时，所述历史访问信息不包括访问标签；所述访问标签用于标记正常数据访问行为和异常数据访问行为。

可选的，所述多个维度的目标访问特征参数包括以下一种或多种：

目标数据访问行为的访问数量参数；

目标数据访问行为的访问数量参数与目标数据访问行为发起方所属类别的访问数量参数均值的比对结果参数；

目标数据访问行为的访问时间参数与目标数据访问行为发起方所属类别的访问时间参数均值的比对结果参数；

目标数据访问行为所访问的数据中与目标数据访问行为发起方所在地不同的数据量比例。

可选的，所述访问数量参数包括：访问数据总量、单位时间内的访问数据量；

所述访问时间参数包括：所述目标数据访问行为中数据访问的平均访问时间间隔。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

与前述异常数据访问的识别方法的实施例相对应，本说明书还提供一种异常数据访问的识别装置，该异常数据访问的识别装置包括：处理器以及用于存储机器可执行指令的存储器。其中，处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中，所述设备还可能包括外部接口，以能够与其他设备或者部件进行通信。

在本实施例中，通过读取并执行所述存储器存储的与异常数据访问的识别逻辑对应的机器可执行指令，所述处理器被促使：

获取目标数据访问行为的原始访问信息；

将所述原始访问信息量化为多个维度的目标访问特征参数；

可选的，在访问模型的训练时，通过读取并执行所述存储器存储的与异常数据访问的识别逻辑对应的机器可执行指令，所述处理器还被促使：

获取历史访问信息；

将所述历史访问信息量化为多个维度的历史访问特征参数；

目标数据访问行为的访问数量参数；

与前述异常数据访问的识别方法的实施例相对应，本说明书还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现以下步骤：

获取目标数据访问行为的原始访问信息；

将所述原始访问信息量化为多个维度的目标访问特征参数；

可选的，访问模型的训练过程，包括：

获取历史访问信息；

将所述历史访问信息量化为多个维度的历史访问特征参数；

目标数据访问行为的访问数量参数；

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

一种异常数据访问的识别方法，包括：

获取目标数据访问行为的原始访问信息；

将所述原始访问信息量化为多个维度的目标访问特征参数；

将所述多个维度的目标访问特征参数作为入参输入已训练的访问模型；

根据所述访问模型的输出结果判断所述目标数据访问行为是否异常。
根据权利要求1所述的方法，访问模型的训练过程，包括：

获取历史访问信息；

将所述历史访问信息量化为多个维度的历史访问特征参数；

根据所述历史访问特征参数对原始访问模型进行训练，得到已训练的访问模型。
根据权利要求2所述的方法，

当所述原始访问模型是无监督模型时，所述历史访问信息不包括访问标签；所述访问标签用于标记正常数据访问行为和异常数据访问行为。
根据权利要求1所述的方法，所述多个维度的目标访问特征参数包括以下一种或多种：

目标数据访问行为的访问数量参数；

目标数据访问行为的访问数量参数与目标数据访问行为发起方所属类别的访问数量参数均值的比对结果参数；

目标数据访问行为的访问时间参数与目标数据访问行为发起方所属类别的访问时间参数均值的比对结果参数；

目标数据访问行为所访问的数据中与目标数据访问行为发起方所在地不同的数据量比例。
根据权利要求4所述的方法，

所述访问数量参数包括：访问数据总量、单位时间内的访问数据量；

所述访问时间参数包括：所述目标数据访问行为中数据访问的平均访问时间间隔。
一种异常数据访问的识别装置，包括：

信息获取单元，获取目标数据访问行为的原始访问信息；

信息量化单元，将所述原始访问信息量化为多个维度的目标访问特征参数；

模型使用单元，将所述多个维度的目标访问特征参数作为入参输入已训练的访问模型；

异常判断单元，根据所述访问模型的输出结果判断所述目标数据访问行为是否异常。
根据权利要求6所述的装置，还包括：

模型训练单元，获取历史访问信息；

将所述历史访问信息量化为多个维度的历史访问特征参数；

根据所述历史访问特征参数对原始访问模型进行训练，得到已训练的访问模型。
根据权利要求7所述的装置，

当所述原始访问模型是无监督模型时，所述历史访问信息不包括访问标签；所述访问标签用于标记正常数据访问行为和异常数据访问行为。
根据权利要求6所述的装置，所述多个维度的目标访问特征参数包括以下一种或多种：

目标数据访问行为的访问数量参数；

目标数据访问行为的访问数量参数与目标数据访问行为发起方所属类别的访问数量参数均值的比对结果参数；

目标数据访问行为的访问时间参数与目标数据访问行为发起方所属类别的访问时间参数均值的比对结果参数；

目标数据访问行为所访问的数据中与目标数据访问行为发起方所在地不同的数据量比例。
根据权利要求9所述的装置，

所述访问数量参数包括：访问数据总量、单位时间内的访问数据量；

所述访问时间参数包括：所述目标数据访问行为中数据访问的平均访问时间间隔。
一种异常数据访问的识别装置，包括：

处理器；

用于存储机器可执行指令的存储器；

其中，通过读取并执行所述存储器存储的与异常数据访问的识别逻辑对应的机器可执行指令，所述处理器被促使：

获取目标数据访问行为的原始访问信息；

将所述原始访问信息量化为多个维度的目标访问特征参数；

将所述多个维度的目标访问特征参数作为入参输入已训练的访问模型；

根据所述访问模型的输出结果判断所述目标数据访问行为是否异常。