WO2019228158A1 - 通过文本信息检测危险信息的方法、装置、介质及设备 - Google Patents

通过文本信息检测危险信息的方法、装置、介质及设备 Download PDF

Info

Publication number
WO2019228158A1
WO2019228158A1 PCT/CN2019/085926 CN2019085926W WO2019228158A1 WO 2019228158 A1 WO2019228158 A1 WO 2019228158A1 CN 2019085926 W CN2019085926 W CN 2019085926W WO 2019228158 A1 WO2019228158 A1 WO 2019228158A1
Authority
WO
WIPO (PCT)
Prior art keywords
text information
information
detected
group behavior
detecting dangerous
Prior art date
Application number
PCT/CN2019/085926
Other languages
English (en)
French (fr)
Inventor
陈哲
丛磊
Original Assignee
北京白山耘科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京白山耘科技有限公司 filed Critical 北京白山耘科技有限公司
Publication of WO2019228158A1 publication Critical patent/WO2019228158A1/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Definitions

  • the embodiments of the present invention relate to, but are not limited to, the field of communications, and in particular, to a method, a device, a medium, and a device for detecting dangerous information through text information.
  • the traditional detection method using regular libraries has the following disadvantages: 1) it is impossible to distinguish whether the suspected abnormal input is a legitimate input; 2) the attack features are ever-changing, and only the attacks whose features are included in the rules can be identified; 3) the use is highly dependent Experienced engineer debugging and customization. Therefore, when faced with the special case that the normal user ’s access log contains suspected abnormal content or abnormal access information whose characteristics are not very obvious, the use of fixed index rules such as regular expressions has obvious misjudgments and omissions. .
  • the detection method through machine learning does not rely on artificial debugging and custom regular expressions, it still has the following disadvantages: 1) the recognition results cannot be accurately controlled and adjusted; 2) the recognition results may not be interpretable to the end user 3) Normal behaviors that are inconsistent with group behavior will be misjudged. Therefore, in the special case of a normal user's access log containing suspected abnormal content or abnormal access information whose abnormal features are not obvious, there are still obvious cases of misjudgment.
  • a method for detecting dangerous information through text information including:
  • the method further includes:
  • the group behavior model is constructed or periodically updated based on the sampled text information.
  • the method further includes:
  • the method before the step of detecting dangerous information in the text information to be detected based on the group behavior model and the recognition model, the method further includes:
  • the method further includes:
  • an apparatus for detecting danger information through text information including:
  • a first acquisition module configured to acquire text information to be detected
  • a detection module is configured to detect danger information in the text information to be detected based on a group behavior model and a recognition model.
  • the apparatus further includes:
  • a second acquisition module configured to acquire sampled text information in real time
  • a group behavior model construction module is configured to construct or periodically update the group behavior model based on the sampled text information.
  • the apparatus further includes:
  • a third acquisition module which is used to periodically acquire labeled sample text information
  • a recognition model construction module is configured to construct or update the recognition model based on the labeled sampled text information and the group behavior model.
  • the apparatus further includes:
  • a text information pre-processing module is configured to pre-process the text information to be detected.
  • the apparatus further includes:
  • a keyword matching module is configured to use a keyword database to perform keyword matching on pre-processed text information to be detected.
  • a computer-readable storage medium is provided.
  • a computer program is stored on the storage medium, and the steps of the foregoing method are implemented when the program is executed by a processor.
  • a computer device including a memory, a processor, and a computer program stored on the memory and executable on the processor, the processor executing the program When implementing the steps of the above method.
  • Fig. 1 is a schematic flowchart of a method for detecting dangerous information through text information according to the present invention according to an exemplary embodiment.
  • Fig. 2 is a schematic block diagram of an apparatus for detecting danger information through text information according to an exemplary embodiment.
  • Fig. 3 is a schematic block diagram of an apparatus for detecting danger information through text information according to an exemplary embodiment.
  • FIG. 1 exemplarily shows a schematic flowchart of a method for detecting dangerous information by text information according to the present invention.
  • the method for detecting dangerous information through text information includes:
  • Step S102 acquiring text information to be detected
  • Step S104 Detect danger information in the text information to be detected based on the group behavior model and the recognition model.
  • the method for detecting dangerous information through text information according to the present invention before step S102 further includes:
  • Step S106 acquiring the sample text information in real time
  • Step S108 Construct or periodically update a group behavior model based on the sampled text information.
  • the method for detecting dangerous information through text information according to the present invention before step S102 further includes:
  • Step S110 Periodically obtain sampled text information that is marked (for example, manually marked at any time according to the user's needs);
  • Step S112 Construct or update a recognition model based on the labeled sampled text information and the group behavior model.
  • step S104 further includes:
  • Step S114 Preprocess the text information to be detected.
  • the method for detecting dangerous information through text information after step S114, further includes:
  • Step S116 Use a keyword library to perform keyword matching on the pre-processed text information to be detected.
  • FIG. 2 exemplarily shows a schematic block diagram of an apparatus 200 for detecting danger information through text information according to the present invention.
  • the apparatus 200 for detecting danger information through text information includes:
  • a first acquisition module 201 configured to acquire text information to be detected
  • the detection module 203 is configured to detect danger information in the text information to be detected based on the group behavior model and the recognition model.
  • the apparatus 200 for detecting dangerous information through text information further includes:
  • a second acquisition module 205 configured to acquire sampled text information in real time
  • the group behavior model construction module 207 is configured to construct or periodically update a group behavior model based on the sampled text information.
  • the apparatus 200 for detecting dangerous information through text information further includes:
  • a third acquisition module 209 configured to periodically acquire labeled sample text information
  • the recognition model construction module 211 is configured to construct or update a recognition model based on the labeled sampled text information and a group behavior model.
  • the apparatus 200 for detecting dangerous information through text information further includes:
  • the text information preprocessing module 213 is configured to preprocess the text information to be detected.
  • the apparatus 200 for detecting dangerous information through text information further includes:
  • the keyword matching module 215 is configured to use a keyword database to perform keyword matching on the pre-processed text information to be detected.
  • FIG. 3 exemplarily shows a schematic block diagram of an embodiment of the apparatus including the above-mentioned device for detecting danger information through text information according to the present invention.
  • this embodiment includes a “log system”, “log preprocessing”, “training model”, “training recognition model”, “real-time recognition”, and “recognition result” shown by the dashed box in FIG. 3. 6 sections (ie, modules).
  • the "log system” module includes three modules: "original log” (corresponding to the text information to be detected acquired by the first acquisition module 201), “sampling log” and “sample log”.
  • the “log preprocessing” module includes “preprocessing” (corresponding to the text information preprocessing module 213) and “keyword filtering” (corresponding to the keyword matching module 215), which are used to receive the original log, and Perform pre-processing and keyword filtering (ie, matching).
  • the "training model” module includes two modules: a “group behavior model” (corresponding to the group behavior model building module 207) and a “recognition model” (corresponding to the recognition model building module 211).
  • the "group behavior model” includes the following multiple models (that is, weak classifiers with multiple features): “visiting users”, “path special characters”, “parameter structure”, “parameter value components”, “status codes”, etc. .
  • the “group behavior model” is trained (ie, constructed or regularly updated).
  • the "training recognition model” module is used to train (ie, construct or update) a recognition model based on the "group behavior model” and the “sample log” (corresponding to the labeled sample text information obtained by the third acquisition module 209), thereby Get the "recognition model”.
  • the "real-time recognition” module shown by the dashed box is used to perform "real-time recognition” on the pre-processed and keyword-filtered log information based on the "group behavior model” and “recognition model” (see the solid line in Figure 3) Box).
  • the "recognition result” module (corresponding to the detection of danger information by the detection module 203) is used to output a "threat score”.
  • the "log preprocessing" module in FIG. 3 may perform the following operations:
  • the "Sampling Log” module in Figure 3 can perform the following operations:
  • sample log module in Figure 3 can perform the following operations:
  • fixed preset sample data can also be used instead of expanding the labeled sample size by manual labeling.
  • the "group behavior model" module in FIG. 3 may perform the following operations:
  • the "training recognition model” module in FIG. 3 may perform the following operations:
  • the "real-time identification" module in FIG. 3 may perform the following operations:
  • an integrated learning method is used (for example, from a server log) to automatically extract multiple characteristics of group behavior, construct or periodically update a group behavior model, and use a labeled sample and a group behavior model to train a recognition model.
  • a recognition model By accumulating input logs and user annotation samples, continuously repeating iterations, rolling (e.g., periodically) updating group behavior models and recognition model data, automatically adapting to site characteristics, and supplemented by a keyword library to limit the final results to have at least basic attack characteristics and detect in real time Enter logs to filter out suspected abnormal visits that meet the characteristics of the group and increase the threat level of the visits that do not meet the characteristics of the group.
  • the dangerous keyword database it is possible to further combine the dangerous keyword database to limit the basic characteristics of the result content keywords and word relationship verification attacks, and ultimately improve the accuracy and recall of the recognition at the same time. That is, by further combining the keyword database to improve the accuracy rate, it has a higher accuracy rate and recall rate than the prior art without human intervention by the user.
  • the final application rate in the production environment is more than 99.9%, and the recall rate is increased by 4000% compared with the original regular library detection method.
  • the group feature can be automatically extracted and the suspected abnormal access that matches the group feature can be filtered out. Increasing the threat level of non-compliance group access can reduce the false detection rate of dangerous information detection.
  • the traditional detection method using regular expressions can be further combined to further reduce the missed detection rate and false detection rate.
  • a computer-readable storage medium is also provided.
  • a computer program is stored on the storage medium, and the steps of the foregoing method are implemented when the program is executed by a processor.
  • a computer device which includes a memory, a processor, and a computer program stored on the memory and executable on the processor, and is implemented when the processor executes the program. Steps of the above method.
  • Computer storage medium includes both volatile and nonvolatile implementations in any method or technology used to store information such as computer-readable instructions, data structures, program modules or other data.
  • Computer storage media includes, but is not limited to, RAM, ROM, EEPROM, flash memory or other memory technologies, CD-ROM, digital versatile disk (DVD) or other optical disk storage, magnetic cartridges, magnetic tape, disk storage or other magnetic storage devices, or may Any other medium used to store desired information and which can be accessed by a computer.
  • a communication medium typically contains computer-readable instructions, data structures, program modules, or other data in a modulated data signal such as a carrier wave or other transmission mechanism, and may include any information delivery medium .
  • the population characteristics can be automatically extracted, and the suspected abnormal access that meets the characteristics of the group can be filtered to improve Threat levels that do not meet group-specific access can reduce the false detection rate of dangerous information detection.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

通过文本信息检测危险信息的方法、装置、介质及设备。该方法包括:获取待检测文本信息;基于群体行为模型和识别模型检测待检测文本信息中的危险信息。该方法能够降低危险信息检测的误检率。

Description

通过文本信息检测危险信息的方法、装置、介质及设备
本申请要求在2018年5月29日提交中国专利局、申请号为201810530356.4、发明名称为“一种通过文本信息检测危险信息的方法及装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明实施例涉及但不限于涉及通信领域,尤其涉及通过文本信息检测危险信息的方法、装置、介质及设备。
背景技术
在信息安全领域中,经常需要解决对所获取的各种文本信息进行检测、从而发现其中存在的危险信息的问题。例如,在web漏洞攻击检测中就需要解决这种问题。
现有技术通常基于web日志中的文本信息,使用正则库或者使用机器学习的方式来比较个群差异,最终实现针对web漏洞攻击的检测。
然而,由于使用正则库的传统检测方法存在以下缺点:1)不能辨别疑似异常的输入是不是合法输入;2)攻击特征千变万化,只能识别特征包含于规则内的攻击;3)使用时高度依赖有经验的工程师调试、定制。因此,当面对正常用户的访问日志中包含疑似异常内容、或者异常特征不是很明显的异常访问信息这种特殊情况时,单单使用正则表达式等固定指标规则存在明显误判和漏判的情况。
尽管通过机器学习的方式进行检测的方法不依赖于人为的调试、定制正则表达式,然而,仍具有以下缺点:1)不能对识别结果精确控制、调整;2)识别结果对最终用户可能不可解释;3)与群体行为不符的正常行为会被误判。因此,在面对正常用户的访问日志中包含疑似异常内容、或者包含了异常特征不是很明显的异常访问信息这种特殊情况时,仍然存在明显误判的情况。
为了减小上述特殊情况下的误检率,需要提出新的技术方案。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
根据本公开实施例的一方面,提供了一种通过文本信息检测危险信息的方法,包括:
获取待检测文本信息;
基于群体行为模型和识别模型检测所述待检测文本信息中的危险信息。
可选地,在所述获取待检测文本信息的步骤之前,还包括:
实时获取抽样文本信息;
基于所述抽样文本信息构建或定期更新所述群体行为模型。
可选地,在所述获取待检测文本信息的步骤之前,还包括:
定期获取经标注的抽样文本信息;
基于所述经标注的抽样文本信息和所述群体行为模型构建或更新所述识别模型。
可选地,,在所述基于群体行为模型和识别模型检测所述待检测文本信息中的危险信息的步骤之前,还包括:
对所述待检测文本信息进行预处理。
可选地,在所述对所述待检测文本信息进行预处理的步骤之后,还包括:
使用关键词库对预处理之后的待检测文本信息进行关键词匹配。
根据本公开实施例的另一方面,提供了一种通过文本信息检测危险信息的装置,包括:
第一获取模块,用于获取待检测文本信息;
检测模块,用于基于群体行为模型和识别模型检测所述待检测文本信息中的危险信息。
可选地,所述装置还包括:
第二获取模块,用于实时获取抽样文本信息;
群体行为模型构建模块,用于基于所述抽样文本信息构建或定期更新所述群体行为模型。
可选地,所述装置还包括:
第三获取模块,用于定期获取经标注的抽样文本信息;
识别模型构建模块,用于基于所述经标注的抽样文本信息和所述群体行为模型构建或更新所述识别模型。
可选地,所述装置还包括:
文本信息预处理模块,用于对所述待检测文本信息进行预处理。
可选地,所述装置还包括:
关键词匹配模块,用于使用关键词库对预处理之后的待检测文本信息进行关键词匹配。
根据本公开实施例的另一方面,提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述程序被处理器执行时实现上述方法的步骤。
根据本公开实施例的另一方面,提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,本发明实施例的示意性实施例及其说明用于解释本发明实施例,并不构成对本发明实施例的不当限定。在附图中:
图1是根据一示例性实施例示出的根据本发明的通过文本信息检测危险信息的方法的示意流程图。
图2是根据一示例性实施例示出的通过文本信息检测危险信息的装置的示意框图。
图3是根据一示例性实施例示出的通过文本信息检测危险信息的装置的示意框图。
具体实施方式
现结合附图和具体实施方式对本发明实施例进一步说明。
图1示例性地示出了根据本发明的通过文本信息检测危险信息的方法的示意流程图。
如图1的实线框所示,根据本发明的通过文本信息检测危险信息的方法,包括:
步骤S102:获取待检测文本信息;
步骤S104:基于群体行为模型和识别模型检测待检测文本信息中的危险信息。
可选地,如图1的虚线框所示,根据本发明的通过文本信息检测危险信息的方法,在步骤S102之前,还包括:
步骤S106:实时获取抽样文本信息;
步骤S108:基于抽样文本信息构建或定期更新群体行为模型。
可选地,如图1的虚线框所示,根据本发明的通过文本信息检测危险信息的方法,在步骤S102之前,还包括:
步骤S110:定期获取经标注(例如,根据用户需要在任意时刻人工标注)的抽样文本信息;
步骤S112:基于经标注的抽样文本信息和群体行为模型构建或更新识别模型。
可选地,如图1的虚线框所示,根据本发明的通过文本信息检测危险信息的方法,在步骤S104之前,还包括:
步骤S114:对待检测文本信息进行预处理。
可选地,如图1的虚线框所示,根据本发明的通过文本信息检测危险信息的方法,在步骤S114之后,还包括:
步骤S116:使用关键词库对预处理之后的待检测文本信息进行关键词匹配。
图2示例性地示出了根据本发明的通过文本信息检测危险信息的装置200的示意框图。
如图2的实线框所示,通过文本信息检测危险信息的装置200包括:
第一获取模块201,用于获取待检测文本信息;
检测模块203,用于基于群体行为模型和识别模型检测待检测文本信息中的危险信息。
可选地,如图2的虚线框所示,通过文本信息检测危险信息的装置200还包括:
第二获取模块205,用于实时获取抽样文本信息;
群体行为模型构建模块207,用于基于抽样文本信息构建或定期更新群体行为模型。
可选地,如图2的虚线框所示,通过文本信息检测危险信息的装置200还包括:
第三获取模块209,用于定期获取经标注的抽样文本信息;
识别模型构建模块211,用于基于经标注的抽样文本信息和群体行为模型构建或更新识别模型。
可选地,如图2的虚线框所示,通过文本信息检测危险信息的装置200还包括:
文本信息预处理模块213,用于对待检测文本信息进行预处理。
可选地,如图2的虚线框所示,通过文本信息检测危险信息的装置200还包括:
关键词匹配模块215,用于使用关键词库对预处理之后的待检测文本信息进行关键词匹配。
为了使本领域技术人员更清楚地理解根据本发明的上述技术方案,下面将结合一个具体实施例进行说明。
图3示例性地示出了包含根据本发明的上述通过文本信息检测危险信息的装置的实施例的示意框图。
如图3所示,该实施例包含由图3的虚线框所示的“日志系统”、“日志预处理”、“训练模型”、“训练识别模型”、“实时识别”和“识别结果”6 个部分(即,模块)。
“日志系统”模块包括“原始日志”(对应于第一获取模块201所获取的待检测文本信息)、“抽样日志”和“样本日志”3个模块。
“日志预处理”模块包括“预处理”(对应于文本信息预处理模块213)和“关键词过滤”(对应于关键词匹配模块215),用于接收原始日志,并且对原始日志中的信息进行预处理和关键词过滤(即,匹配)。
“训练模型”模块包括“群体行为模型”(对应于群体行为模型构建模块207)和“识别模型”(对应于识别模型构建模块211)2个模块。“群体行为模型”包括以下多个模型(即,多个特征的弱分类器):“访问用户量”、“path特殊字符”、“参数结构”、“参数值成分”、“状态码”等。
其中,基于“抽样日志”(对应于第二获取模块205获取的抽样文本信息)来训练(即,构建或定期更新)“群体行为模型”。
“训练识别模型”模块用于,基于“群体行为模型”和“样本日志”(对应于第三获取模块209获取的经标注的抽样文本信息)来训练(即,构建或更新)识别模型,从而得到“识别模型”。
由虚线框所示的“实时识别”模块用于,基于“群体行为模型”和“识别模型”,对经过预处理和关键词过滤的日志信息进行“实时识别”操作(如图3的实线框所示)。
“识别结果”模块(对应于检测模块203检测危险信息)用于输出“威胁分数”。
可选地,图3中的“日志预处理”模块可以执行以下操作:
S1.预处理日志。
S11.按日志格式配置提取字段,得到统一格式的日志。
S12.计算uri分类id。
S121.uri中,包括path部分的每一级文件夹、queryString里每个key的值,将其中经常变化的部分替换为*。去除不常出现的key。得到的字符串即为uri的分类id。
S13.过滤关键词。
S131.uri分词。
S132.解码还原原文。
S133.匹配关键词及词关系。
可选地,图3中的“抽样日志”模块可以执行以下操作:
S2.维护抽样日志数据。
S21.按时间、分类、ip、id等维度持续地抽样筛选新产生的日志,避免训练样本被攻击行为影响。
S22.淘汰过期日志模型数据。
S23.清理网站逻辑变更导致的提前过期模型数据。
可选地,图3中的“样本日志”模块可以执行以下操作:
S3.通过人工标注扩充标注样本量,用于计算符合指定业务特征的识别模型。通过此步骤可以对识别分数(即,“威胁分数”)进行调整。
可选地,也可以使用固定的预置样本数据,而不通过人工标注扩充标注样本量。
可选地,图3中的“群体行为模型”模块可以执行以下操作:
S4.使用抽样日志统计群体特征,分别得到若干群体行为特征模型(如图3中的“训练模型”模块所示)。
S41.计算单位时间内每个uri分类的平均独立访问用户数量。
S42.计算uri的path部分包含的除数字字母外的字符组合在群体行为中的出现概率。
S43.计算单位时间内每个uri分类里uri的queryString部分key的组合在群体行为中的出现概率。
S44.计算单位时间内每个uri分类里uri的queryString部分每个key的值字符组合在群体行为中的出现概率,并计算熵,丢弃熵较大的模型数据。
S45.判断http返回状态码是否在400以上。以及,
S46.对uri解码、分词,匹配疑似威胁关键词并符合关键词顺序及上下文特征。
可选地,图3中的“训练识别模型”模块可以执行以下操作:
S5.使用标注样本训练识别模型。
S51.使用群体行为特征模型检测标注样本。
S52.对各个群体行为特征模型输出的样本分数数值做归一化处理。
S53.使用标注样本和群体行为模型数据训练识别模型。
可选地,图3中的“实时识别”模块可以执行以下操作:
S6.将训练得出的群体行为模型和识别模型应用到实时识别模块,实时检测业务日志,输出每一条日志的威胁分数(例如,加权概率值或加权概率倒数值)。
根据本发明的上述技术方案,使用集成学习的方式,(例如,从服务器日志中)自动提取群体行为的多项特征,构建或定期更新群体行为模型,使用标注样本和群体行为模型训练识别模型,通过累积输入日志和用户标注样本,不断重复迭代,滚动(例如,定期)更新群体行为模型和识别模型数据,自动适应网站特征,并辅以关键词库限制最终结果至少具有基本攻击特征,实时检测输入日志,过滤掉符合群体特征的疑似异常访问,提高不符合群体特征访问的威胁等级。
另外,还可以进一步结合危险关键词库,以限定结果内容关键词及词关系验证攻击的基本特征,最终同时提高识别的准确率和召回率。即,通过进一步结合关键词库提高准确率,最终在没有或很少用户人工干预的情况下比现有技术具有更高的准确率和召回率。最终应用到生产环境中准确率超过99.9%,与原正则库检测方式相比召回率提高4000%。
因此,在面对正常用户的访问日志中包含疑似异常内容、或者包含了异常特征不是很明显的异常访问信息这种特殊情况时,能够自动提取群体特征,过滤掉符合群体特征的疑似异常访问,提高不符合群体特征访问的威胁等级,能够降低危险信息检测的误检率。
根据本发明的上述技术方案,还可以进一步结合使用正则表达式的传统检测方法,进一步减小漏检率和误检率。
在另一实施例中,还提供了一种计算机可读存储介质,所述存储介质上存 储有计算机程序,所述程序被处理器执行时实现上述方法的步骤。
在另一实施例中,还提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
上面描述的内容可以单独地或者以各种方式组合起来实施,而这些变型方式都在本发明的保护范围之内。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制。尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例的技术方案的精神和范围。
工业实用性
本文在面对正常用户的访问日志中包含疑似异常内容、或者包含了异常特征不是很明显的异常访问信息这种特殊情况时,能够自动提取群体特征,过滤掉符合群体特征的疑似异常访问,提高不符合群体特征访问的威胁等级,能够降低危险信息检测的误检率。

Claims (12)

  1. 一种通过文本信息检测危险信息的方法,包括:
    获取待检测文本信息;
    基于群体行为模型和识别模型检测所述待检测文本信息中的危险信息。
  2. 如权利要求1所述的通过文本信息检测危险信息的方法,其中,在所述获取待检测文本信息的步骤之前,还包括:
    实时获取抽样文本信息;
    基于所述抽样文本信息构建或定期更新所述群体行为模型。
  3. 如权利要求1或2所述的通过文本信息检测危险信息的方法,其中,在所述获取待检测文本信息的步骤之前,还包括:
    定期获取经标注的抽样文本信息;
    基于所述经标注的抽样文本信息和所述群体行为模型构建或更新所述识别模型。
  4. 如权利要求1或2所述的通过文本信息检测危险信息的方法,其中,在所述基于群体行为模型和识别模型检测所述待检测文本信息中的危险信息的步骤之前,还包括:
    对所述待检测文本信息进行预处理。
  5. 如权利要求4所述的通过文本信息检测危险信息的方法,其中,在所述对所述待检测文本信息进行预处理的步骤之后,还包括:
    使用关键词库对预处理之后的待检测文本信息进行关键词匹配。
  6. 一种通过文本信息检测危险信息的装置,其中,包括:
    第一获取模块,用于获取待检测文本信息;
    检测模块,用于基于群体行为模型和识别模型检测所述待检测文本信息中的危险信息。
  7. 如权利要求6所述的通过文本信息检测危险信息的装置,其中,还包括:
    第二获取模块,用于实时获取抽样文本信息;
    群体行为模型构建模块,用于基于所述抽样文本信息构建或定期更新所述群体行为模型。
  8. 如权利要求6或7所述的通过文本信息检测危险信息的装置,其中,还包括:
    第三获取模块,用于定期获取经标注的抽样文本信息;
    识别模型构建模块,用于基于所述经标注的抽样文本信息和所述群体行为模型构建或更新所述识别模型。
  9. 如权利要求6或7所述的通过文本信息检测危险信息的装置,其中,还包括:
    文本信息预处理模块,用于对所述待检测文本信息进行预处理。
  10. 如权利要求9所述的通过文本信息检测危险信息的装置,其中,还包括:
    关键词匹配模块,用于使用关键词库对预处理之后的待检测文本信息进行关键词匹配。
  11. 一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述程序被处理器执行时实现权利要求1至5任意一项所述方法的步骤。
  12. 一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至5中任意一项所述方法的步骤。
PCT/CN2019/085926 2018-05-29 2019-05-08 通过文本信息检测危险信息的方法、装置、介质及设备 WO2019228158A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810530356.4 2018-05-29
CN201810530356.4A CN108763470A (zh) 2018-05-29 2018-05-29 一种通过文本信息检测危险信息的方法及装置

Publications (1)

Publication Number Publication Date
WO2019228158A1 true WO2019228158A1 (zh) 2019-12-05

Family

ID=64003321

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/085926 WO2019228158A1 (zh) 2018-05-29 2019-05-08 通过文本信息检测危险信息的方法、装置、介质及设备

Country Status (2)

Country Link
CN (1) CN108763470A (zh)
WO (1) WO2019228158A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117474457A (zh) * 2023-08-31 2024-01-30 应急管理部大数据中心 一种危化/工贸设备应急管理执法检查智能辅助系统

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763470A (zh) * 2018-05-29 2018-11-06 北京白山耘科技有限公司 一种通过文本信息检测危险信息的方法及装置
CN110135166B (zh) * 2019-05-08 2021-03-30 北京国舜科技股份有限公司 一种针对业务逻辑漏洞攻击的检测方法及系统
CN112905743B (zh) * 2021-02-20 2023-08-01 北京百度网讯科技有限公司 文本对象检测的方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105553998A (zh) * 2015-12-23 2016-05-04 中国电子科技集团公司第三十研究所 一种网络攻击异常检测方法
US20160127402A1 (en) * 2014-11-04 2016-05-05 Patternex, Inc. Method and apparatus for identifying and detecting threats to an enterprise or e-commerce system
CN106131071A (zh) * 2016-08-26 2016-11-16 北京奇虎科技有限公司 一种Web异常检测方法和装置
CN107888616A (zh) * 2017-12-06 2018-04-06 北京知道创宇信息技术有限公司 基于URI的分类模型的构建方法和Webshell攻击网站的检测方法
CN108763470A (zh) * 2018-05-29 2018-11-06 北京白山耘科技有限公司 一种通过文本信息检测危险信息的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160127402A1 (en) * 2014-11-04 2016-05-05 Patternex, Inc. Method and apparatus for identifying and detecting threats to an enterprise or e-commerce system
CN105553998A (zh) * 2015-12-23 2016-05-04 中国电子科技集团公司第三十研究所 一种网络攻击异常检测方法
CN106131071A (zh) * 2016-08-26 2016-11-16 北京奇虎科技有限公司 一种Web异常检测方法和装置
CN107888616A (zh) * 2017-12-06 2018-04-06 北京知道创宇信息技术有限公司 基于URI的分类模型的构建方法和Webshell攻击网站的检测方法
CN108763470A (zh) * 2018-05-29 2018-11-06 北京白山耘科技有限公司 一种通过文本信息检测危险信息的方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117474457A (zh) * 2023-08-31 2024-01-30 应急管理部大数据中心 一种危化/工贸设备应急管理执法检查智能辅助系统
CN117474457B (zh) * 2023-08-31 2024-03-26 应急管理部大数据中心 一种危化和工贸设备应急管理执法检查智能辅助系统

Also Published As

Publication number Publication date
CN108763470A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
WO2019228158A1 (zh) 通过文本信息检测危险信息的方法、装置、介质及设备
US10530795B2 (en) Word embeddings for anomaly classification from event logs
CN107707545B (zh) 一种异常网页访问片段检测方法、装置、设备及存储介质
CN107204960B (zh) 网页识别方法及装置、服务器
CN111614599A (zh) 基于人工智能的webshell检测方法和装置
CN108718306B (zh) 一种异常流量行为判别方法和装置
US10740212B2 (en) Content-level anomaly detector for systems with limited memory
CN111740946B (zh) Webshell报文的检测方法及装置
CN106713067A (zh) 一种基于dpi的敏感文件流转监控方法
US9582662B1 (en) Sensor based rules for responding to malicious activity
CN113408281B (zh) 邮箱账号异常检测方法、装置、电子设备及存储介质
CN110162958B (zh) 用于计算设备的综合信用分的方法、装置和记录介质
CN114079579B (zh) 一种恶意加密流量检测方法及装置
CN111865960A (zh) 一种网络入侵场景分析处理方法、系统、终端及存储介质
CN112839014B (zh) 建立识别异常访问者模型的方法、系统、设备及介质
CN111464510B (zh) 基于快速梯度提升树分类模型的网络实时入侵检测方法
CN113836128A (zh) 一种异常数据识别方法、系统、设备及存储介质
CN114650176A (zh) 钓鱼网站的检测方法、装置、计算机设备及存储介质
CN113704328A (zh) 基于人工智能的用户行为大数据挖掘方法及系统
CA3122975A1 (en) Network device identification
WO2015044595A1 (fr) Procédé de détection d'anomalies dans un trafic réseau
CN108933781A (zh) 用于处理字符串的方法、装置及计算机可读存储介质
US20210075812A1 (en) A system and a method for sequential anomaly revealing in a computer network
CN110147839A (zh) 基于XGBoost的算法生成域名检测模型的方法
CN108804501B (zh) 一种检测有效信息的方法及装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19810664

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19810664

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205 DATED 14/05/2021)