WO2019109741A1 - 异常数据访问的识别方法和装置 - Google Patents

异常数据访问的识别方法和装置 Download PDF

Info

Publication number
WO2019109741A1
WO2019109741A1 PCT/CN2018/110756 CN2018110756W WO2019109741A1 WO 2019109741 A1 WO2019109741 A1 WO 2019109741A1 CN 2018110756 W CN2018110756 W CN 2018110756W WO 2019109741 A1 WO2019109741 A1 WO 2019109741A1
Authority
WO
WIPO (PCT)
Prior art keywords
access
behavior
model
target
target data
Prior art date
Application number
PCT/CN2018/110756
Other languages
English (en)
French (fr)
Inventor
郭龙
Original Assignee
阿里巴巴集团控股有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 阿里巴巴集团控股有限公司 filed Critical 阿里巴巴集团控股有限公司
Publication of WO2019109741A1 publication Critical patent/WO2019109741A1/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Definitions

  • the present specification relates to the field of Internet technologies, and in particular, to a method and apparatus for identifying abnormal data access.
  • the open platform can open data interfaces to enterprises, governments and other institutions for data calls by relevant institutions.
  • the open platform can open data interfaces to enterprises, governments and other institutions for data calls by relevant institutions.
  • the present specification provides an identification method and apparatus for abnormal data access.
  • An identification method for abnormal data access including:
  • An identification device for abnormal data access comprising:
  • the information obtaining unit acquires original access information of the target data access behavior
  • An information quantization unit that quantizes the original access information into target access feature parameters of multiple dimensions
  • the model uses the unit to input the target access feature parameters of the multiple dimensions as input parameters into the trained access model
  • the abnormality determining unit determines whether the target data access behavior is abnormal according to an output result of the access model.
  • An identification device for abnormal data access comprising:
  • a memory for storing machine executable instructions
  • the processor by reading and executing the machine executable instructions stored in the memory corresponding to the identification logic of the abnormal data access, the processor is caused to:
  • the present specification can quantize the original access information of the target data access behavior into target access feature parameters of multiple dimensions, and identify whether the target data access behavior is abnormal based on the trained access model, thereby implementing data access. Effective identification and regulation of behavior.
  • FIG. 1 is a schematic flow chart of a method for identifying an abnormal data access according to an exemplary embodiment of the present specification.
  • FIG. 2 is a schematic structural diagram of an identification device for abnormal data access according to an exemplary embodiment of the present specification.
  • FIG. 3 is a block diagram of an apparatus for identifying an abnormal data access, which is an exemplary embodiment of the present specification.
  • first, second, third, etc. may be used in this specification to describe various information, such information should not be limited to these terms. These terms are only used to distinguish the same type of information from each other.
  • first information may also be referred to as the second information without departing from the scope of the present description.
  • second information may also be referred to as the first information.
  • word "if” as used herein may be interpreted as "when” or “when” or “in response to a determination.”
  • FIG. 1 is a schematic flow chart of a method for identifying an abnormal data access according to an exemplary embodiment of the present specification.
  • the method for identifying the abnormal data access can be applied to an open platform, and the open platform is provided with a data calling interface, and the physical carrier of the open platform is usually a server or a server cluster.
  • the method for identifying an abnormal data access may include the following steps:
  • Step 102 Acquire original access information of the target data access behavior.
  • the original access information of the target data access behavior may be acquired.
  • the timing of determining whether the target data access behavior is an abnormal data access behavior may be set in advance, for example, may be determined according to a judgment period of 24 hours, 48 hours, or the like, or may be performed when receiving a judgment instruction issued by an administrator. Judging, this specification does not impose any special restrictions on this.
  • the original access information may include: access initiator information, access time points, amount of access data, and the like.
  • Step 104 Quantify the original access information into target access feature parameters of multiple dimensions.
  • the original access information may be quantized into access feature parameters of each dimension based on a preset dimension.
  • the access may be performed.
  • the feature parameters are called target access feature parameters.
  • the preset dimension may be preset by a developer.
  • the preset dimension may include: a quantity dimension, a time dimension, a location dimension, and the like.
  • Step 106 Enter the target access feature parameters of the multiple dimensions as input parameters into the trained access model.
  • Step 108 Determine, according to an output result of the access model, whether the target data access behavior is abnormal.
  • the access model may be a supervised model, such as a neural network model or the like.
  • the access model may also be an unsupervised model, such as an Isolation Forest model, a clustering model, and the like.
  • the output result is determined differently based on different access models. For example, if the Isolation Forest model is used, if the output result is an isolated point, the target data access behavior may be determined to be abnormal. Those skilled in the art can make judgments according to the characteristics of the access model, and the present specification will not be repeated here.
  • the present specification can quantize the original access information of the target data access behavior into target access feature parameters of multiple dimensions, and identify whether the target data access behavior is abnormal based on the trained access model, thereby implementing data access. Effective identification and regulation of behavior.
  • the original access model when training the access model, may be selected first.
  • the original access model may be a supervised model or an unsupervised model.
  • the following is an example of an unsupervised model.
  • historical access information of different access initiators may be acquired for a period of time.
  • the historical access information is access information for invoking a data interface for data access in the history of each access initiator, and may include: an access time point, an amount of access data, a location of the access data, and the like.
  • the historical access information may be quantized into historical access feature parameters of multiple dimensions.
  • the dimension of the historical access feature parameter may be set in advance by the developer according to the service feature.
  • the target access feature parameter of the multiple dimensions includes one or more of the following:
  • the access quantity parameter may include: a total amount of access data, an amount of access data per unit time, and the like.
  • the total amount of access data may be the number of access data. For example, if 50,000 pieces of data are accessed, the total amount of access data is 50,000.
  • the above unit time may be 24 hours or 7 days, and the present specification is not particularly limited.
  • the access initiator may include: various enterprises, institutions, and government agencies such as hospitals, institutions, and merchants, and the purpose and characteristics of the data invoking by different types of access initiators are usually different. Therefore, in this embodiment, the access data parameter is compared with the average value of the access quantity parameter of the category to which the access behavior initiator belongs, and the comparison result parameter is used as the access feature parameter of one dimension.
  • the comparison result parameter may be a ratio of the number of accesses to the mean value of the number of access parameters of the category to which the access initiator belongs. For example, if the number of accesses is 50,000 for the total amount of access data, the access initiator is a hospital, and the hospital The average value of the industry's total access data is 60,000, then the above comparison result parameter is 5/6.
  • the comparison result parameter may also be a percentage of the number of accesses occupying the average number of access parameters of the category to which the access initiator belongs, and the like, which is not particularly limited in this specification.
  • the comparison result parameter of the access time parameter and the access time parameter mean value of the category to which the initiator of the access behavior belongs.
  • the access time parameter may include: an average access time interval of each data access in the data access behavior, and the like. For example, still taking the hospital as an example, assuming that the average access time interval of each data access in the historical access information is 5 minutes, and the average access time interval of the hospital industry is 60 minutes, the above comparison result parameter can be 5/ 60.
  • comparison result parameter may also be a percentage or the like, which is not specifically limited in this specification.
  • the location of the originator of the visit can be determined first, for example, Hangzhou. Then, the number of data in the data accessed by the initiator and not located in Hangzhou or in Zhejiang province is counted, and the number of statistics is divided by the total amount of access data, and the data accessed by the data access behavior and the location of the initiator of the data access behavior are obtained. Different proportions of data.
  • the same data amount ratio as the location of the data access behavior initiator in the data access behavior may also be used as the access feature parameter, which is not specifically limited in this specification.
  • the original access model may be trained using the historical access feature parameter to obtain a trained access model.
  • the unsupervised model is adopted as the original access model, and the access tag for identifying the historical access information is not needed, and a large amount of processing resources are saved.
  • the access tag is used to mark normal data access behavior and abnormal data access behavior.
  • the trained access model in order to ensure the accuracy of the access model, after the access model is trained, the trained access model can be manually detected.
  • the access model can be launched to identify the abnormal data access behavior.
  • the multi-dimensional access feature parameters may be adjusted, for example, the access feature parameter is added, or the access feature parameter is reduced to optimize the model.
  • the access model after the access model is trained, the access model can be launched to identify the actual data access behavior.
  • the access information of the data access behavior of each access initiator may be obtained according to a 24-hour time period.
  • the access information may be referred to as original access information.
  • the original access information may include: access initiator information, access time points, access data amount, location of access data, and the like.
  • the above time period may also be 48 hours, 36 hours, etc., and the specification does not particularly limit this.
  • the original access information may be quantized into target access feature parameters of multiple dimensions.
  • the dimension of the target access feature parameter and the quantization rule may refer to the training process of the foregoing access model, and the description will not be repeated here.
  • the quantized target access feature parameters of the multiple dimensions may be input into the trained access model as input parameters, and whether the target data access behavior is abnormal according to an output result of the access model.
  • the original access information of each hospital on the previous day can be obtained every day at zero time, and the original access information of each hospital can be quantized into target access feature parameters of multiple dimensions, and the The target access feature parameters of multiple dimensions are input as input parameters to the trained access model to determine whether the data access behavior of the hospital on the previous day is abnormal according to the output result of the access model. If it is abnormal, the administrator can be prompted to check whether there is an illegal person calling the data interface to steal data.
  • the present specification also provides an embodiment of an identification device for abnormal data access.
  • the embodiment of the identification device for abnormal data access of the present specification can be applied to a server.
  • the device embodiment may be implemented by software, or may be implemented by hardware or a combination of hardware and software.
  • the processor of the server in which it is located reads the corresponding computer program instructions in the non-volatile memory into the memory.
  • FIG. 2 a hardware structure diagram of the server where the identification device for abnormal data access is located, except for the processor, the memory, the network interface, and the non-volatile memory shown in FIG. 2.
  • the server where the device is located in the embodiment may also include other hardware according to the actual function of the server, and details are not described herein again.
  • FIG. 3 is a block diagram of an apparatus for identifying an abnormal data access, which is an exemplary embodiment of the present specification.
  • the abnormal data access identification apparatus 200 can be applied to the server shown in FIG. 2, and includes: an information acquisition unit 201, an information quantization unit 202, a model usage unit 203, an abnormality determination unit 204, and a model. Training unit 205.
  • the information obtaining unit 201 acquires original access information of the target data access behavior
  • the information quantization unit 202 quantizes the original access information into target access feature parameters of multiple dimensions
  • the model usage unit 203 inputs the target access feature parameters of the multiple dimensions as input parameters into the trained access model
  • the abnormality determining unit 204 determines whether the target data access behavior is abnormal according to an output result of the access model.
  • the model training unit 205 acquires historical access information
  • the original access model is trained according to the historical access feature parameters to obtain a trained access model.
  • the historical access information does not include an access tag; the access tag is used to mark normal data access behavior and abnormal data access behavior.
  • the target access feature parameters of the multiple dimensions include one or more of the following:
  • the number of access parameters for the target data access behavior is the number of access parameters for the target data access behavior
  • the proportion of data in the data accessed by the target data access behavior that is different from the location of the target data access behavior initiator.
  • the access quantity parameter includes: a total amount of access data, and an amount of access data per unit time;
  • the access time parameter includes an average access time interval of data access in the target data access behavior.
  • the device embodiment since it basically corresponds to the method embodiment, reference may be made to the partial description of the method embodiment.
  • the device embodiments described above are merely illustrative, wherein the units described as separate components may or may not be physically separate, and the components displayed as units may or may not be physical units, ie may be located A place, or it can be distributed to multiple network units. Some or all of the modules may be selected according to actual needs to achieve the objectives of the present specification. Those of ordinary skill in the art can understand and implement without any creative effort.
  • the system, device, module or unit illustrated in the above embodiments may be implemented by a computer chip or an entity, or by a product having a certain function.
  • a typical implementation device is a computer, and the specific form of the computer may be a personal computer, a laptop computer, a cellular phone, a camera phone, a smart phone, a personal digital assistant, a media player, a navigation device, an email transceiver, and a game control.
  • the present specification also provides an identification device for abnormal data access, the identification device for the abnormal data access comprising: a processor and a memory for storing machine executable instructions.
  • the processor and the memory are usually connected to each other by an internal bus.
  • the device may also include an external interface to enable communication with other devices or components.
  • the processor by reading and executing the machine-executable instructions stored in the memory corresponding to the identification logic of the abnormal data access, the processor is caused to:
  • the processor when the training of the access model is performed, by reading and executing the machine-executable instructions stored in the memory corresponding to the identification logic of the abnormal data access, the processor is further caused to:
  • the original access model is trained according to the historical access feature parameters to obtain a trained access model.
  • the historical access information does not include an access tag; the access tag is used to mark normal data access behavior and abnormal data access behavior.
  • the target access feature parameters of the multiple dimensions include one or more of the following:
  • the number of access parameters for the target data access behavior is the number of access parameters for the target data access behavior
  • the proportion of data in the data accessed by the target data access behavior that is different from the location of the target data access behavior initiator.
  • the access quantity parameter includes: a total amount of access data, and an amount of access data per unit time;
  • the access time parameter includes an average access time interval of data access in the target data access behavior.
  • the present specification further provides a computer readable storage medium having a computer program stored thereon, the program being executed by the processor to implement the following steps:
  • the training process for accessing the model includes:
  • the original access model is trained according to the historical access feature parameters to obtain a trained access model.
  • the historical access information does not include an access tag; the access tag is used to mark normal data access behavior and abnormal data access behavior.
  • the target access feature parameters of the multiple dimensions include one or more of the following:
  • the number of access parameters for the target data access behavior is the number of access parameters for the target data access behavior
  • the proportion of data in the data accessed by the target data access behavior that is different from the location of the target data access behavior initiator.
  • the access quantity parameter includes: a total amount of access data, and an amount of access data per unit time;
  • the access time parameter includes an average access time interval of data access in the target data access behavior.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Storage Device Security (AREA)

Abstract

说明书披露一种异常数据访问的识别方法和装置。该方法包括:获取目标数据访问行为的原始访问信息;将所述原始访问信息量化为多个维度的目标访问特征参数;将所述多个维度的目标访问特征参数作为入参输入已训练的访问模型;根据所述访问模型的输出结果判断所述目标数据访问行为是否异常。

Description

异常数据访问的识别方法和装置 技术领域
本说明书涉及互联网技术领域,尤其涉及一种异常数据访问的识别方法和装置。
背景技术
随着互联网技术的快速发展,开放平台已经成为很多公司的战略发展方向。开放平台可以向企业、政府等机构开放数据接口,以供相关机构进行数据调用。然而,目前有很多不法人员盗用数据接口,非法窃取开放平台的数据,导致数据泄露。
发明内容
有鉴于此,本说明书提供一种异常数据访问的识别方法和装置。
具体地,本说明书是通过如下技术方案实现的:
一种异常数据访问的识别方法,包括:
获取目标数据访问行为的原始访问信息;
将所述原始访问信息量化为多个维度的目标访问特征参数;
将所述多个维度的目标访问特征参数作为入参输入已训练的访问模型;
根据所述访问模型的输出结果判断所述目标数据访问行为是否异常。
一种异常数据访问的识别装置,包括:
信息获取单元,获取目标数据访问行为的原始访问信息;
信息量化单元,将所述原始访问信息量化为多个维度的目标访问特征参数;
模型使用单元,将所述多个维度的目标访问特征参数作为入参输入已训练的访问模型;
异常判断单元,根据所述访问模型的输出结果判断所述目标数据访问行为是否异常。
一种异常数据访问的识别装置,包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与异常数据访问的识别逻辑对应的机器可执行指令,所述处理器被促使:
获取目标数据访问行为的原始访问信息;
将所述原始访问信息量化为多个维度的目标访问特征参数;
将所述多个维度的目标访问特征参数作为入参输入已训练的访问模型;
根据所述访问模型的输出结果判断所述目标数据访问行为是否异常。
由以上描述可以看出,本说明书可将目标数据访问行为的原始访问信息量化为多个维度的目标访问特征参数,并基于已训练的访问模型识别目标数据访问行为是否异常,从而实现对数据访问行为的有效识别与监管。
附图说明
图1是本说明书一示例性实施例示出的一种异常数据访问的识别方法的流程示意图。
图2是本说明书一示例性实施例示出的一种用于异常数据访问的识别装置的一结构示意图。
图3是本说明书一示例性实施例示出的一种异常数据访问的识别装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
图1是本说明书一示例性实施例示出的一种异常数据访问的识别方法的流程示意图。
所述异常数据访问的识别方法可以应用在开放平台,所述开放平台对外提供有数据调用接口,所述开放平台的物理载体通常是服务器或者服务器集群。
请参考图1,所述异常数据访问的识别方法可以包括以下步骤:
步骤102,获取目标数据访问行为的原始访问信息。
在本实施例中,在判断目标数据访问行为是否为异常数据访问行为时,可以获取目标数据访问行为的原始访问信息。
其中,所述目标数据访问行为是否为异常数据访问行为的判断时机可以预先设置,例如:可依据24小时、48小时等判断周期进行判断,也可以在接收到管理员下发的判断指令时进行判断,本说明书对此不作特殊限制。
所述原始访问信息可以包括:访问发起方信息、访问时间点、访问数据量等。
步骤104,将所述原始访问信息量化为多个维度的目标访问特征参数。
基于前述步骤102,在获取到所述原始访问信息后,可以基于预设的维度,将所述原始访问信息量化为各个维度的访问特征参数,为便于区分,在本说明书中,可将该访问特征参数称为目标访问特征参数。
其中,所述预设的维度可以由开发人员预先进行设置,例如,所述预设的维度可以包括:数量维度、时间维度、位置维度等。
步骤106,将所述多个维度的目标访问特征参数作为入参输入已训练的访问模型。
步骤108,根据所述访问模型的输出结果判断所述目标数据访问行为是否异常。
在本实施例中,所述访问模型可以为有监督模型,例如,神经网络模型等。所述访问模型也可以为无监督模型,例如,Isolation Forest(孤立点检测算法)模型、聚类模型等。
在本实施例中,基于不同的访问模型,所述输出结果的判断方式也不相同,例如,若采用Isolation Forest模型,如果输出结果是孤立点的话,可确定目标数据访问行为异常。本领域技术人员可以依据访问模型的特点进行判断,本说明书在此不再一一赘述。
由以上描述可以看出,本说明书可将目标数据访问行为的原始访问信息量化为多个维度的目标访问特征参数,并基于已训练的访问模型识别目标数据访问行为是否异常,从而实现对数据访问行为的有效识别与监管。
下面分别从访问模型的训练、已训练的访问模型的应用两个方面来描述本说明书的具体实现过程。
一、访问模型的训练
在本实施例中,在训练访问模型时,可先选择原始访问模型。所述原始访问模型可以为有监督模型,也可以为无监督模型,下面以无监督模型为例进行描述。
在本实施例中,可先获取一段时间内不同访问发起方的历史访问信息。所述历史访问信息是各访问发起方历史上调用数据接口进行数据访问的访问信息,可包括:访问时间点、访问数据量、访问数据的所属地等。
在获取到所述历史访问信息后,可以将所述历史访问信息量化为多个维度的历史访问特征参数。
所述历史访问特征参数的维度可以由开发人员根据业务特点预先进行设置,例如,所述多个维度的目标访问特征参数包括以下一种或多种:
1、访问数量参数。所述访问数量参数可以包括:访问数据总量、单位时间内的访问数据量等。
其中,所述访问数据总量可以为访问数据的条数,例如,访问了5万条数据,则访问数据总量是5万。
上述单位时间可以为24小时,也可以为7天等,本说明书对此不作特殊限制。
2、访问数量参数与访问行为发起方所属类别的访问数量参数均值的比对结果参数。
在本实施例中,访问发起方可包括:医院、事业单位、商户等各种企事业单位或政府机构,不同类别的访问发起方调用数据的目的和特点通常也不相同。由此,本实施例将所述访问数据参数与访问行为发起方所属类别的访问数量参数的均值进行比对,并将比对结果参数作为一个维度的访问特征参数。
其中,所述比对结果参数可以为访问数量与访问发起方所属类别的访问数量参数均值的比值,举例来说,假设访问数量是访问数据总量5万,访问发起方是某医院,而医院行业的访问数据总量的均值是6万,那么上述比对结果参数为5/6。
当然,所述比对结果参数也可以为访问数量占访问发起方所属类别的访问数量参数均值百分比等,本说明书对此不作特殊限制。
3、访问时间参数与访问行为发起方所属类别的访问时间参数均值的比对结果参数。
在本实施例中,所述访问时间参数可以包括:所述数据访问行为中每次数据访问的平均访问时间间隔等。举例来说,仍以医院为例,假设历史访问信息中每次数据访问的平均访问时间间隔是5分钟,而医院行业的平均访问时间间隔是60分钟,那么上述比对结果参数可以为5/60。
当然,与前述访问数量类似,该比对结果参数也可以为百分比等,本说明书对此不作特殊限制。
4、数据访问行为所访问的数据中与数据访问行为发起方所在地不同的数据量比例。
仍以医院为例,去医院看病的患者大部分是本地患者,医院在访问患者信息时,所访问的患者所在地也应该大部分与医院所在地相同。若医院访问了大量外地用户的信息,则说明访问接口被不法人员盗用的概率较高。
针对这样的特点,可先确定访问发起方所在地,例如,杭州。然后统计访问发起方访问的数据中所在地不在杭州或者不在浙江省的数据的数量,并用统计到的该数量除以访问数据总量,得到数据访问行为所访问的数据中与数据访问行为发起方所在地不同的数据量比例。
当然,在实际应用中,也可以采用数据访问行为中与数据访问行为发起方所在地相同的数据量比例以作为访问特征参数,本说明书对此不作特殊限制。
在本实施例中,在将历史访问信息量化为多个维度的历史访问特征参数后,可以使用该历史访问特征参数对原始访问模型进行训练,得到训练后的访问模型。
在本实施例中,采用无监督模型作为原始访问模型,无需对标识历史访问信息的访问标签,节省了大量处理资源。其中,所述访问标签用于标记正常数据访问行为和异常数据访问行为。
在本实施例中,为确保访问模型的准确性,在对访问模型进行训练后,可以人工对训练后的访问模型进行检测。
若检测合格,可以将访问模型上线,以识别异常数据访问行为。
若检测不合格,可以对上述多维度的访问特征参数进行调整,例如,增加访问特征参数,或减少访问特征参数等,以对模型进行优化。
二、已训练的访问模型的应用
在本实施例中,当访问模型训练完毕后,可以将访问模型上线,以对实际中的数据访问行为进行识别。
在一个例子中,可以依据24小时的时间周期获取各个访问发起方的数据访问行为的访问信息,为便于描述,可将该访问信息称为原始访问信息。
其中,所述原始访问信息可以包括:访问发起方信息、访问时间点、访问数据量、访问数据的所在地等。
上述时间周期也可以为48小时、36小时等,本说明书对此不作特殊限制。
在本实施例中,在获取到所述原始访问信息后,可将所述原始访问信息量化为多个维度的目标访问特征参数。所述目标访问特征参数的维度以及量化规则可以参考前述访问模型的训练过程,本说明书再次不再一一赘述。
在本实施例中,可将量化后的所述多个维度的目标访问特征参数作为入参输入已训练的访问模型,并根据访问模型的输出结果判断所述目标数据访问行为是否异常。
举例来说,可每天零时获取前一天(24小时)各医院的原始访问信息,针对每个医院的原始访问信息,可以将其量化为多个维度的目标访问特征参数,并可将所述多个维度的目标访问特征参数作为入参输入已训练的访问模型,以根据访问模型的输出结果判断该医院在前一天的数据访问行为是否异常。若异常,则可提示管理员进行排查,确定是否有非法人员调用数据接口窃取数据。
与前述异常数据访问的识别方法的实施例相对应,本说明书还提供了异常数据访问的识别装置的实施例。
本说明书异常数据访问的识别装置的实施例可以应用在服务器上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图2所示,为本说明书异常数据访问的识别装置所在服务器的一种硬件结构图,除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的服务器通常根据该服务器的实际功能,还可以包括其他硬件,对此不再赘述。
图3是本说明书一示例性实施例示出的一种异常数据访问的识别装置的框图。
请参考图3,所述异常数据访问的识别装置200可以应用在前述图2所示的服务器中,包括有:信息获取单元201、信息量化单元202、模型使用单元203、异常判断单元204以及模型训练单元205。
其中,信息获取单元201,获取目标数据访问行为的原始访问信息;
信息量化单元202,将所述原始访问信息量化为多个维度的目标访问特征参数;
模型使用单元203,将所述多个维度的目标访问特征参数作为入参输入已训练的访问模型;
异常判断单元204,根据所述访问模型的输出结果判断所述目标数据访问行为是否异常。
模型训练单元205,获取历史访问信息;
将所述历史访问信息量化为多个维度的历史访问特征参数;
根据所述历史访问特征参数对原始访问模型进行训练,得到已训练的访问模型。
可选的,当所述原始访问模型是无监督模型时,所述历史访问信息不包括访问标签;所述访问标签用于标记正常数据访问行为和异常数据访问行为。
可选的,所述多个维度的目标访问特征参数包括以下一种或多种:
目标数据访问行为的访问数量参数;
目标数据访问行为的访问数量参数与目标数据访问行为发起方所属类别的访问数量参数均值的比对结果参数;
目标数据访问行为的访问时间参数与目标数据访问行为发起方所属类别的访问时间 参数均值的比对结果参数;
目标数据访问行为所访问的数据中与目标数据访问行为发起方所在地不同的数据量比例。
可选的,所述访问数量参数包括:访问数据总量、单位时间内的访问数据量;
所述访问时间参数包括:所述目标数据访问行为中数据访问的平均访问时间间隔。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
与前述异常数据访问的识别方法的实施例相对应,本说明书还提供一种异常数据访问的识别装置,该异常数据访问的识别装置包括:处理器以及用于存储机器可执行指令的存储器。其中,处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中,所述设备还可能包括外部接口,以能够与其他设备或者部件进行通信。
在本实施例中,通过读取并执行所述存储器存储的与异常数据访问的识别逻辑对应的机器可执行指令,所述处理器被促使:
获取目标数据访问行为的原始访问信息;
将所述原始访问信息量化为多个维度的目标访问特征参数;
将所述多个维度的目标访问特征参数作为入参输入已训练的访问模型;
根据所述访问模型的输出结果判断所述目标数据访问行为是否异常。
可选的,在访问模型的训练时,通过读取并执行所述存储器存储的与异常数据访问的识别逻辑对应的机器可执行指令,所述处理器还被促使:
获取历史访问信息;
将所述历史访问信息量化为多个维度的历史访问特征参数;
根据所述历史访问特征参数对原始访问模型进行训练,得到已训练的访问模型。
可选的,当所述原始访问模型是无监督模型时,所述历史访问信息不包括访问标签;所述访问标签用于标记正常数据访问行为和异常数据访问行为。
可选的,所述多个维度的目标访问特征参数包括以下一种或多种:
目标数据访问行为的访问数量参数;
目标数据访问行为的访问数量参数与目标数据访问行为发起方所属类别的访问数量参数均值的比对结果参数;
目标数据访问行为的访问时间参数与目标数据访问行为发起方所属类别的访问时间参数均值的比对结果参数;
目标数据访问行为所访问的数据中与目标数据访问行为发起方所在地不同的数据量比例。
可选的,所述访问数量参数包括:访问数据总量、单位时间内的访问数据量;
所述访问时间参数包括:所述目标数据访问行为中数据访问的平均访问时间间隔。
与前述异常数据访问的识别方法的实施例相对应,本说明书还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取目标数据访问行为的原始访问信息;
将所述原始访问信息量化为多个维度的目标访问特征参数;
将所述多个维度的目标访问特征参数作为入参输入已训练的访问模型;
根据所述访问模型的输出结果判断所述目标数据访问行为是否异常。
可选的,访问模型的训练过程,包括:
获取历史访问信息;
将所述历史访问信息量化为多个维度的历史访问特征参数;
根据所述历史访问特征参数对原始访问模型进行训练,得到已训练的访问模型。
可选的,当所述原始访问模型是无监督模型时,所述历史访问信息不包括访问标签;所述访问标签用于标记正常数据访问行为和异常数据访问行为。
可选的,所述多个维度的目标访问特征参数包括以下一种或多种:
目标数据访问行为的访问数量参数;
目标数据访问行为的访问数量参数与目标数据访问行为发起方所属类别的访问数量参数均值的比对结果参数;
目标数据访问行为的访问时间参数与目标数据访问行为发起方所属类别的访问时间参数均值的比对结果参数;
目标数据访问行为所访问的数据中与目标数据访问行为发起方所在地不同的数据量比例。
可选的,所述访问数量参数包括:访问数据总量、单位时间内的访问数据量;
所述访问时间参数包括:所述目标数据访问行为中数据访问的平均访问时间间隔。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

Claims (11)

  1. 一种异常数据访问的识别方法,包括:
    获取目标数据访问行为的原始访问信息;
    将所述原始访问信息量化为多个维度的目标访问特征参数;
    将所述多个维度的目标访问特征参数作为入参输入已训练的访问模型;
    根据所述访问模型的输出结果判断所述目标数据访问行为是否异常。
  2. 根据权利要求1所述的方法,访问模型的训练过程,包括:
    获取历史访问信息;
    将所述历史访问信息量化为多个维度的历史访问特征参数;
    根据所述历史访问特征参数对原始访问模型进行训练,得到已训练的访问模型。
  3. 根据权利要求2所述的方法,
    当所述原始访问模型是无监督模型时,所述历史访问信息不包括访问标签;所述访问标签用于标记正常数据访问行为和异常数据访问行为。
  4. 根据权利要求1所述的方法,所述多个维度的目标访问特征参数包括以下一种或多种:
    目标数据访问行为的访问数量参数;
    目标数据访问行为的访问数量参数与目标数据访问行为发起方所属类别的访问数量参数均值的比对结果参数;
    目标数据访问行为的访问时间参数与目标数据访问行为发起方所属类别的访问时间参数均值的比对结果参数;
    目标数据访问行为所访问的数据中与目标数据访问行为发起方所在地不同的数据量比例。
  5. 根据权利要求4所述的方法,
    所述访问数量参数包括:访问数据总量、单位时间内的访问数据量;
    所述访问时间参数包括:所述目标数据访问行为中数据访问的平均访问时间间隔。
  6. 一种异常数据访问的识别装置,包括:
    信息获取单元,获取目标数据访问行为的原始访问信息;
    信息量化单元,将所述原始访问信息量化为多个维度的目标访问特征参数;
    模型使用单元,将所述多个维度的目标访问特征参数作为入参输入已训练的访问模型;
    异常判断单元,根据所述访问模型的输出结果判断所述目标数据访问行为是否异常。
  7. 根据权利要求6所述的装置,还包括:
    模型训练单元,获取历史访问信息;
    将所述历史访问信息量化为多个维度的历史访问特征参数;
    根据所述历史访问特征参数对原始访问模型进行训练,得到已训练的访问模型。
  8. 根据权利要求7所述的装置,
    当所述原始访问模型是无监督模型时,所述历史访问信息不包括访问标签;所述访问标签用于标记正常数据访问行为和异常数据访问行为。
  9. 根据权利要求6所述的装置,所述多个维度的目标访问特征参数包括以下一种或多种:
    目标数据访问行为的访问数量参数;
    目标数据访问行为的访问数量参数与目标数据访问行为发起方所属类别的访问数量参数均值的比对结果参数;
    目标数据访问行为的访问时间参数与目标数据访问行为发起方所属类别的访问时间参数均值的比对结果参数;
    目标数据访问行为所访问的数据中与目标数据访问行为发起方所在地不同的数据量比例。
  10. 根据权利要求9所述的装置,
    所述访问数量参数包括:访问数据总量、单位时间内的访问数据量;
    所述访问时间参数包括:所述目标数据访问行为中数据访问的平均访问时间间隔。
  11. 一种异常数据访问的识别装置,包括:
    处理器;
    用于存储机器可执行指令的存储器;
    其中,通过读取并执行所述存储器存储的与异常数据访问的识别逻辑对应的机器可执行指令,所述处理器被促使:
    获取目标数据访问行为的原始访问信息;
    将所述原始访问信息量化为多个维度的目标访问特征参数;
    将所述多个维度的目标访问特征参数作为入参输入已训练的访问模型;
    根据所述访问模型的输出结果判断所述目标数据访问行为是否异常。
PCT/CN2018/110756 2017-12-05 2018-10-18 异常数据访问的识别方法和装置 WO2019109741A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201711265695.6A CN108200008A (zh) 2017-12-05 2017-12-05 异常数据访问的识别方法和装置
CN201711265695.6 2017-12-05

Publications (1)

Publication Number Publication Date
WO2019109741A1 true WO2019109741A1 (zh) 2019-06-13

Family

ID=62573649

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/110756 WO2019109741A1 (zh) 2017-12-05 2018-10-18 异常数据访问的识别方法和装置

Country Status (3)

Country Link
CN (1) CN108200008A (zh)
TW (1) TWI734038B (zh)
WO (1) WO2019109741A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10826927B1 (en) 2020-03-05 2020-11-03 Fmr Llc Systems and methods for data exfiltration detection
CN112306722A (zh) * 2019-07-26 2021-02-02 北京京东乾石科技有限公司 识别故障的方法、装置、设备和计算机可读介质
CN112328934A (zh) * 2020-10-16 2021-02-05 上海涛飞网络科技有限公司 访问行为路径分析方法、装置、设备及存储介质
CN113381977A (zh) * 2021-05-07 2021-09-10 北京锐服信科技有限公司 一种数据包的应用层压缩方法及系统
CN113746899A (zh) * 2021-07-29 2021-12-03 济南浪潮数据技术有限公司 一种云平台访问方法及装置
CN115134102A (zh) * 2021-03-24 2022-09-30 北京字节跳动网络技术有限公司 异常访问检测方法、装置、存储介质及电子设备
CN115296855A (zh) * 2022-07-11 2022-11-04 绿盟科技集团股份有限公司 一种用户行为基线生成方法及相关装置
CN116684202A (zh) * 2023-08-01 2023-09-01 光谷技术有限公司 一种物联网信息安全传输方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109274639A (zh) * 2018-07-03 2019-01-25 阿里巴巴集团控股有限公司 开放平台异常数据访问的识别方法和装置
CN109460784A (zh) * 2018-10-22 2019-03-12 武汉极意网络科技有限公司 访问行为特征模型建立方法、设备、存储介质及装置
CN109818974A (zh) * 2019-03-14 2019-05-28 北京百度网讯科技有限公司 用于发送信息的方法和装置
TWI757915B (zh) * 2020-10-14 2022-03-11 國立中央大學 高效率異質性時序資料表示法辨別系統

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104935600A (zh) * 2015-06-19 2015-09-23 中国电子科技集团公司第五十四研究所 一种基于深度学习的移动自组织网络入侵检测方法与设备
CN106341407A (zh) * 2016-09-19 2017-01-18 成都知道创宇信息技术有限公司 基于网站画像的异常访问日志挖掘方法及装置
US20170132068A1 (en) * 2015-11-06 2017-05-11 Homeaway, Inc. Data stream processor and method to counteract anomalies in data streams transiting a distributed computing system
CN106982196A (zh) * 2016-01-19 2017-07-25 阿里巴巴集团控股有限公司 一种异常访问检测方法及设备
CN107330731A (zh) * 2017-06-30 2017-11-07 北京京东尚科信息技术有限公司 一种识别广告位点击异常的方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI331868B (en) * 2007-06-11 2010-10-11 Univ Nat Pingtung Sci & Tech Detecting method of network invasion
TWI607338B (zh) * 2016-07-19 2017-12-01 資富電子股份有限公司 儲存裝置及其資料保護方法與資料保護系統

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104935600A (zh) * 2015-06-19 2015-09-23 中国电子科技集团公司第五十四研究所 一种基于深度学习的移动自组织网络入侵检测方法与设备
US20170132068A1 (en) * 2015-11-06 2017-05-11 Homeaway, Inc. Data stream processor and method to counteract anomalies in data streams transiting a distributed computing system
CN106982196A (zh) * 2016-01-19 2017-07-25 阿里巴巴集团控股有限公司 一种异常访问检测方法及设备
CN106341407A (zh) * 2016-09-19 2017-01-18 成都知道创宇信息技术有限公司 基于网站画像的异常访问日志挖掘方法及装置
CN107330731A (zh) * 2017-06-30 2017-11-07 北京京东尚科信息技术有限公司 一种识别广告位点击异常的方法和装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112306722A (zh) * 2019-07-26 2021-02-02 北京京东乾石科技有限公司 识别故障的方法、装置、设备和计算机可读介质
US10826927B1 (en) 2020-03-05 2020-11-03 Fmr Llc Systems and methods for data exfiltration detection
CN112328934A (zh) * 2020-10-16 2021-02-05 上海涛飞网络科技有限公司 访问行为路径分析方法、装置、设备及存储介质
CN115134102A (zh) * 2021-03-24 2022-09-30 北京字节跳动网络技术有限公司 异常访问检测方法、装置、存储介质及电子设备
CN113381977A (zh) * 2021-05-07 2021-09-10 北京锐服信科技有限公司 一种数据包的应用层压缩方法及系统
CN113381977B (zh) * 2021-05-07 2022-11-22 北京锐服信科技有限公司 一种数据包的应用层压缩方法及系统
CN113746899A (zh) * 2021-07-29 2021-12-03 济南浪潮数据技术有限公司 一种云平台访问方法及装置
CN115296855A (zh) * 2022-07-11 2022-11-04 绿盟科技集团股份有限公司 一种用户行为基线生成方法及相关装置
CN115296855B (zh) * 2022-07-11 2023-11-07 绿盟科技集团股份有限公司 一种用户行为基线生成方法及相关装置
CN116684202A (zh) * 2023-08-01 2023-09-01 光谷技术有限公司 一种物联网信息安全传输方法
CN116684202B (zh) * 2023-08-01 2023-10-24 光谷技术有限公司 一种物联网信息安全传输方法

Also Published As

Publication number Publication date
CN108200008A (zh) 2018-06-22
TWI734038B (zh) 2021-07-21
TW201926105A (zh) 2019-07-01

Similar Documents

Publication Publication Date Title
WO2019109741A1 (zh) 异常数据访问的识别方法和装置
JP6899065B2 (ja) ブロックチェーン・データからの分析結果の自動生成のための方法、装置および非一過性コンピュータ可読ストレージ媒体
US11276495B2 (en) Systems and methods for predicting multiple health care outcomes
Ying et al. Two‐stage residual inclusion for survival data and competing risks—An instrumental variable approach with application to SEER‐Medicare linked data
CN109274639A (zh) 开放平台异常数据访问的识别方法和装置
US10409834B2 (en) Methods and systems for multi-dynamic data retrieval and data disbursement
JP6725155B2 (ja) モバイルデバイス属性の経時的変化に基づいて一意のモバイルデバイスを識別するための方法及びシステム
CN111814910B (zh) 异常检测方法、装置、电子设备及存储介质
CN111242793B (zh) 医保数据异常的检测方法和装置
CN110825757A (zh) 一种设备行为风险分析方法及系统
US20210012026A1 (en) Tokenization system for customer data in audio or video
US11698956B2 (en) Open data biometric identity validation
US20170140023A1 (en) Techniques for Determining Whether to Associate New User Information with an Existing User
Balan et al. Nonproportional hazards and unobserved heterogeneity in clustered survival data: when can we tell the difference?
WO2021174881A1 (zh) 多维度信息的组合预测方法、装置、计算机设备及介质
JP2023535851A (ja) プライバシー保護によるデータ処理モデルの取得方法、装置、ターミナル機器及び記憶媒体
US11176268B1 (en) Systems and methods for generating user profiles
US20160092313A1 (en) Application Copy Counting Using Snapshot Backups For Licensing
CN112528327B (zh) 数据脱敏方法及装置、数据还原方法及装置
CN108985755B (zh) 一种账号状态识别方法、装置及服务器
US20230214518A1 (en) Information security systems and methods for early change detection and data protection
CN117035980A (zh) 资源借调评估方法、装置、计算机设备和存储介质
US20220027514A1 (en) Data identification method, apparatus, device, and readable medium
US20230259631A1 (en) Detecting synthetic user accounts using synthetic patterns learned via machine learning
WO2019019711A1 (zh) 行为模式数据的发布方法、装置、终端设备及介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18884991

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18884991

Country of ref document: EP

Kind code of ref document: A1