WO2019228158A1

WO2019228158A1 - 通过文本信息检测危险信息的方法、装置、介质及设备

Info

Publication number: WO2019228158A1
Application number: PCT/CN2019/085926
Authority: WO
Inventors: 陈哲; 丛磊
Original assignee: 北京白山耘科技有限公司
Priority date: 2018-05-29
Filing date: 2019-05-08
Publication date: 2019-12-05
Also published as: CN108763470A

Abstract

通过文本信息检测危险信息的方法、装置、介质及设备。该方法包括：获取待检测文本信息；基于群体行为模型和识别模型检测待检测文本信息中的危险信息。该方法能够降低危险信息检测的误检率。

Description

通过文本信息检测危险信息的方法、装置、介质及设备

本申请要求在2018年5月29日提交中国专利局、申请号为201810530356.4、发明名称为“一种通过文本信息检测危险信息的方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明实施例涉及但不限于涉及通信领域，尤其涉及通过文本信息检测危险信息的方法、装置、介质及设备。

背景技术

在信息安全领域中，经常需要解决对所获取的各种文本信息进行检测、从而发现其中存在的危险信息的问题。例如，在web漏洞攻击检测中就需要解决这种问题。

现有技术通常基于web日志中的文本信息，使用正则库或者使用机器学习的方式来比较个群差异，最终实现针对web漏洞攻击的检测。

然而，由于使用正则库的传统检测方法存在以下缺点：1)不能辨别疑似异常的输入是不是合法输入；2)攻击特征千变万化，只能识别特征包含于规则内的攻击；3)使用时高度依赖有经验的工程师调试、定制。因此，当面对正常用户的访问日志中包含疑似异常内容、或者异常特征不是很明显的异常访问信息这种特殊情况时，单单使用正则表达式等固定指标规则存在明显误判和漏判的情况。

尽管通过机器学习的方式进行检测的方法不依赖于人为的调试、定制正则表达式，然而，仍具有以下缺点：1)不能对识别结果精确控制、调整；2)识别结果对最终用户可能不可解释；3)与群体行为不符的正常行为会被误判。因此，在面对正常用户的访问日志中包含疑似异常内容、或者包含了异常特征不是很明显的异常访问信息这种特殊情况时，仍然存在明显误判的情况。

为了减小上述特殊情况下的误检率，需要提出新的技术方案。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

根据本公开实施例的一方面，提供了一种通过文本信息检测危险信息的方法，包括：

获取待检测文本信息；

基于群体行为模型和识别模型检测所述待检测文本信息中的危险信息。

可选地，在所述获取待检测文本信息的步骤之前，还包括：

实时获取抽样文本信息；

基于所述抽样文本信息构建或定期更新所述群体行为模型。

可选地，在所述获取待检测文本信息的步骤之前，还包括：

定期获取经标注的抽样文本信息；

基于所述经标注的抽样文本信息和所述群体行为模型构建或更新所述识别模型。

可选地，，在所述基于群体行为模型和识别模型检测所述待检测文本信息中的危险信息的步骤之前，还包括：

对所述待检测文本信息进行预处理。

可选地，在所述对所述待检测文本信息进行预处理的步骤之后，还包括：

使用关键词库对预处理之后的待检测文本信息进行关键词匹配。

根据本公开实施例的另一方面，提供了一种通过文本信息检测危险信息的装置，包括：

第一获取模块，用于获取待检测文本信息；

检测模块，用于基于群体行为模型和识别模型检测所述待检测文本信息中的危险信息。

可选地，所述装置还包括：

第二获取模块，用于实时获取抽样文本信息；

群体行为模型构建模块，用于基于所述抽样文本信息构建或定期更新所述群体行为模型。

可选地，所述装置还包括：

第三获取模块，用于定期获取经标注的抽样文本信息；

识别模型构建模块，用于基于所述经标注的抽样文本信息和所述群体行为模型构建或更新所述识别模型。

可选地，所述装置还包括：

文本信息预处理模块，用于对所述待检测文本信息进行预处理。

可选地，所述装置还包括：

关键词匹配模块，用于使用关键词库对预处理之后的待检测文本信息进行关键词匹配。

根据本公开实施例的另一方面，提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，所述程序被处理器执行时实现上述方法的步骤。

根据本公开实施例的另一方面，提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，本发明实施例的示意性实施例及其说明用于解释本发明实施例，并不构成对本发明实施例的不当限定。在附图中：

图1是根据一示例性实施例示出的根据本发明的通过文本信息检测危险信息的方法的示意流程图。

图2是根据一示例性实施例示出的通过文本信息检测危险信息的装置的示意框图。

图3是根据一示例性实施例示出的通过文本信息检测危险信息的装置的示意框图。

具体实施方式

现结合附图和具体实施方式对本发明实施例进一步说明。

图1示例性地示出了根据本发明的通过文本信息检测危险信息的方法的示意流程图。

如图1的实线框所示，根据本发明的通过文本信息检测危险信息的方法，包括：

步骤S102：获取待检测文本信息；

步骤S104：基于群体行为模型和识别模型检测待检测文本信息中的危险信息。

可选地，如图1的虚线框所示，根据本发明的通过文本信息检测危险信息的方法，在步骤S102之前，还包括：

步骤S106：实时获取抽样文本信息；

步骤S108：基于抽样文本信息构建或定期更新群体行为模型。

步骤S110：定期获取经标注(例如，根据用户需要在任意时刻人工标注)的抽样文本信息；

步骤S112：基于经标注的抽样文本信息和群体行为模型构建或更新识别模型。

可选地，如图1的虚线框所示，根据本发明的通过文本信息检测危险信息的方法，在步骤S104之前，还包括：

步骤S114：对待检测文本信息进行预处理。

可选地，如图1的虚线框所示，根据本发明的通过文本信息检测危险信息的方法，在步骤S114之后，还包括：

步骤S116：使用关键词库对预处理之后的待检测文本信息进行关键词匹配。

图2示例性地示出了根据本发明的通过文本信息检测危险信息的装置200的示意框图。

如图2的实线框所示，通过文本信息检测危险信息的装置200包括：

第一获取模块201，用于获取待检测文本信息；

检测模块203，用于基于群体行为模型和识别模型检测待检测文本信息中的危险信息。

可选地，如图2的虚线框所示，通过文本信息检测危险信息的装置200还包括：

第二获取模块205，用于实时获取抽样文本信息；

群体行为模型构建模块207，用于基于抽样文本信息构建或定期更新群体行为模型。

第三获取模块209，用于定期获取经标注的抽样文本信息；

识别模型构建模块211，用于基于经标注的抽样文本信息和群体行为模型构建或更新识别模型。

文本信息预处理模块213，用于对待检测文本信息进行预处理。

关键词匹配模块215，用于使用关键词库对预处理之后的待检测文本信息进行关键词匹配。

为了使本领域技术人员更清楚地理解根据本发明的上述技术方案，下面将结合一个具体实施例进行说明。

图3示例性地示出了包含根据本发明的上述通过文本信息检测危险信息的装置的实施例的示意框图。

如图3所示，该实施例包含由图3的虚线框所示的“日志系统”、“日志预处理”、“训练模型”、“训练识别模型”、“实时识别”和“识别结果”6 个部分(即，模块)。

“日志系统”模块包括“原始日志”(对应于第一获取模块201所获取的待检测文本信息)、“抽样日志”和“样本日志”3个模块。

“日志预处理”模块包括“预处理”(对应于文本信息预处理模块213)和“关键词过滤”(对应于关键词匹配模块215)，用于接收原始日志，并且对原始日志中的信息进行预处理和关键词过滤(即，匹配)。

“训练模型”模块包括“群体行为模型”(对应于群体行为模型构建模块207)和“识别模型”(对应于识别模型构建模块211)2个模块。“群体行为模型”包括以下多个模型(即，多个特征的弱分类器)：“访问用户量”、“path特殊字符”、“参数结构”、“参数值成分”、“状态码”等。

其中，基于“抽样日志”(对应于第二获取模块205获取的抽样文本信息)来训练(即，构建或定期更新)“群体行为模型”。

“训练识别模型”模块用于，基于“群体行为模型”和“样本日志”(对应于第三获取模块209获取的经标注的抽样文本信息)来训练(即，构建或更新)识别模型，从而得到“识别模型”。

由虚线框所示的“实时识别”模块用于，基于“群体行为模型”和“识别模型”，对经过预处理和关键词过滤的日志信息进行“实时识别”操作(如图3的实线框所示)。

“识别结果”模块(对应于检测模块203检测危险信息)用于输出“威胁分数”。

可选地，图3中的“日志预处理”模块可以执行以下操作：

S1.预处理日志。

S11.按日志格式配置提取字段，得到统一格式的日志。

S12.计算uri分类id。

S121.uri中，包括path部分的每一级文件夹、queryString里每个key的值，将其中经常变化的部分替换为*。去除不常出现的key。得到的字符串即为uri的分类id。

S13.过滤关键词。

S131.uri分词。

S132.解码还原原文。

S133.匹配关键词及词关系。

可选地，图3中的“抽样日志”模块可以执行以下操作：

S2.维护抽样日志数据。

S21.按时间、分类、ip、id等维度持续地抽样筛选新产生的日志，避免训练样本被攻击行为影响。

S22.淘汰过期日志模型数据。

S23.清理网站逻辑变更导致的提前过期模型数据。

可选地，图3中的“样本日志”模块可以执行以下操作：

S3.通过人工标注扩充标注样本量，用于计算符合指定业务特征的识别模型。通过此步骤可以对识别分数(即，“威胁分数”)进行调整。

可选地，也可以使用固定的预置样本数据，而不通过人工标注扩充标注样本量。

可选地，图3中的“群体行为模型”模块可以执行以下操作：

S4.使用抽样日志统计群体特征，分别得到若干群体行为特征模型(如图3中的“训练模型”模块所示)。

S41.计算单位时间内每个uri分类的平均独立访问用户数量。

S42.计算uri的path部分包含的除数字字母外的字符组合在群体行为中的出现概率。

S43.计算单位时间内每个uri分类里uri的queryString部分key的组合在群体行为中的出现概率。

S44.计算单位时间内每个uri分类里uri的queryString部分每个key的值字符组合在群体行为中的出现概率，并计算熵，丢弃熵较大的模型数据。

S45.判断http返回状态码是否在400以上。以及，

S46.对uri解码、分词，匹配疑似威胁关键词并符合关键词顺序及上下文特征。

可选地，图3中的“训练识别模型”模块可以执行以下操作：

S5.使用标注样本训练识别模型。

S51.使用群体行为特征模型检测标注样本。

S52.对各个群体行为特征模型输出的样本分数数值做归一化处理。

S53.使用标注样本和群体行为模型数据训练识别模型。

可选地，图3中的“实时识别”模块可以执行以下操作：

S6.将训练得出的群体行为模型和识别模型应用到实时识别模块，实时检测业务日志，输出每一条日志的威胁分数(例如，加权概率值或加权概率倒数值)。

根据本发明的上述技术方案，使用集成学习的方式，(例如，从服务器日志中)自动提取群体行为的多项特征，构建或定期更新群体行为模型，使用标注样本和群体行为模型训练识别模型，通过累积输入日志和用户标注样本，不断重复迭代，滚动(例如，定期)更新群体行为模型和识别模型数据，自动适应网站特征，并辅以关键词库限制最终结果至少具有基本攻击特征，实时检测输入日志，过滤掉符合群体特征的疑似异常访问，提高不符合群体特征访问的威胁等级。

另外，还可以进一步结合危险关键词库，以限定结果内容关键词及词关系验证攻击的基本特征，最终同时提高识别的准确率和召回率。即，通过进一步结合关键词库提高准确率，最终在没有或很少用户人工干预的情况下比现有技术具有更高的准确率和召回率。最终应用到生产环境中准确率超过99.9％，与原正则库检测方式相比召回率提高4000％。

因此，在面对正常用户的访问日志中包含疑似异常内容、或者包含了异常特征不是很明显的异常访问信息这种特殊情况时，能够自动提取群体特征，过滤掉符合群体特征的疑似异常访问，提高不符合群体特征访问的威胁等级，能够降低危险信息检测的误检率。

根据本发明的上述技术方案，还可以进一步结合使用正则表达式的传统检测方法，进一步减小漏检率和误检率。

在另一实施例中，还提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，所述程序被处理器执行时实现上述方法的步骤。

在另一实施例中，还提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

上面描述的内容可以单独地或者以各种方式组合起来实施，而这些变型方式都在本发明的保护范围之内。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制。尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例的技术方案的精神和范围。

工业实用性

本文在面对正常用户的访问日志中包含疑似异常内容、或者包含了异常特征不是很明显的异常访问信息这种特殊情况时，能够自动提取群体特征，过滤掉符合群体特征的疑似异常访问，提高不符合群体特征访问的威胁等级，能够降低危险信息检测的误检率。

Claims

一种通过文本信息检测危险信息的方法，包括：

获取待检测文本信息；

基于群体行为模型和识别模型检测所述待检测文本信息中的危险信息。
如权利要求1所述的通过文本信息检测危险信息的方法，其中，在所述获取待检测文本信息的步骤之前，还包括：

实时获取抽样文本信息；

基于所述抽样文本信息构建或定期更新所述群体行为模型。
如权利要求1或2所述的通过文本信息检测危险信息的方法，其中，在所述获取待检测文本信息的步骤之前，还包括：

定期获取经标注的抽样文本信息；

基于所述经标注的抽样文本信息和所述群体行为模型构建或更新所述识别模型。
如权利要求1或2所述的通过文本信息检测危险信息的方法，其中，在所述基于群体行为模型和识别模型检测所述待检测文本信息中的危险信息的步骤之前，还包括：

对所述待检测文本信息进行预处理。
如权利要求4所述的通过文本信息检测危险信息的方法，其中，在所述对所述待检测文本信息进行预处理的步骤之后，还包括：

使用关键词库对预处理之后的待检测文本信息进行关键词匹配。
一种通过文本信息检测危险信息的装置，其中，包括：

第一获取模块，用于获取待检测文本信息；

检测模块，用于基于群体行为模型和识别模型检测所述待检测文本信息中的危险信息。
如权利要求6所述的通过文本信息检测危险信息的装置，其中，还包括：

第二获取模块，用于实时获取抽样文本信息；

群体行为模型构建模块，用于基于所述抽样文本信息构建或定期更新所述群体行为模型。
如权利要求6或7所述的通过文本信息检测危险信息的装置，其中，还包括：

第三获取模块，用于定期获取经标注的抽样文本信息；

识别模型构建模块，用于基于所述经标注的抽样文本信息和所述群体行为模型构建或更新所述识别模型。
如权利要求6或7所述的通过文本信息检测危险信息的装置，其中，还包括：

文本信息预处理模块，用于对所述待检测文本信息进行预处理。
如权利要求9所述的通过文本信息检测危险信息的装置，其中，还包括：

关键词匹配模块，用于使用关键词库对预处理之后的待检测文本信息进行关键词匹配。
一种计算机可读存储介质，所述存储介质上存储有计算机程序，所述程序被处理器执行时实现权利要求1至5任意一项所述方法的步骤。
一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1至5中任意一项所述方法的步骤。