WO2017028789A1

WO2017028789A1 - 网络攻击检测方法和设备

Info

Publication number: WO2017028789A1
Application number: PCT/CN2016/095714
Authority: WO
Inventors: 申军利
Original assignee: 北京神州绿盟信息安全科技股份有限公司; 北京神州绿盟科技有限公司
Priority date: 2015-08-17
Filing date: 2016-08-17
Publication date: 2017-02-23
Also published as: JP2018530046A; US10645105B2; CN105187408A; JP6567169B2; US20180212986A1

Abstract

一种网络攻击检测方法和设备，该方法包括：对待检测字符串进行分词处理得到各单词；确定与待检测字符串对应的各元组；确定攻击模型数据库中是否存在与各元组对应的模型元组，是否存在与各单词中的第一个单词对应的模型单词，攻击模型数据库中存储有各模型元组以及每个模型元组的出现概率，各模型单词以及每个模型单词的出现概率；若存在，则获取各对应模型元组以及对应模型单词的出现概率，并根据各对应模型元组的出现概率以及各对应模型单词的出现概率，确定待检测字符串对应的攻击概率；若攻击概率大于或等于预设概率阈值，则确定待检测字符串是具有攻击行为的字符串，从而保证能准确确定该待检测字符串是否具有攻击行为。

Description

网络攻击检测方法和设备

本申请要求在2015年8月17日提交中华人民共和国知识产权局、申请号为201510505895.9、发明名称为“网络攻击检测方法和设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及网络安全领域，尤其是涉及一种网络攻击检测方法和设备。

背景技术

网络攻击是影响网络安全的一个重要隐患，为了保证网络安全运行，需要及时检测出网络中存在的攻击行为。

现有的网络攻击检测技术都是使用特征库中的正则表达式来匹配诸如HTTP(HyperText Transfer Protocol，超文本传输协议)请求等网络传输数据，以此判定传输数据中是否存在攻击。

这种方式需要基于大量的正则表达式特征库，但该特征库中经常会出现盲点，而且特征库中的特征经常会出现前后关联的情况，导致添加新特征人工成本更高，甚至可能出现新特征影响旧特征，致使旧特征失效的情况，从而无法保证网络攻击检测的准确可靠。

发明内容

本申请提供一种网络攻击检测方法和设备，用以提高网络攻击检测的准确性。

本申请实施例提供的一种网络攻击检测方法，包括：

获取待检测字符串，并对所述待检测字符串进行分词处理，得到所述待检测字符串中包含的各单词；根据预设元组构成规则对所述各单词进行元组生成处理，以确定与所述待检测字符串对应的各元组；

确定预先获得的攻击模型数据库中，是否存在与所述各元组对应的模型元组，是否存在与所述各单词中的第一个单词对应的模型单词，所述攻击模型数据库中存储有各模型元组以及每个模型元组的出现概率，各模型单词以及每个模型单词的出现概率；

若存在，则获取各对应模型元组以及对应模型单词的出现概率，并根据所述各对应模型元组的出现概率以及各对应模型单词的出现概率，确定所述待检测字符串对应的攻击概率；若所述攻击概率大于或等于预设概率阈值，则确定所述待检测字符串是具有攻击行为的字符串。

本申请实施例提供的方法，针对当前待检测字符串即网络传输数据，在确定其是否具有网络攻击行为时，首先对其进行分词、元组构成处理，得到对应的各元组；进而，在预先获得的存储有各模型元组及其对应出现概率和各模型单词及其对应出现概率的攻击模型数据库中，匹配与得到的各元组对应的模型元组和第一个单词，从而根据对应模型元组和对应模型单词的出现概率确定出该待检测字符串的攻击概率，如果攻击概率大于一定阈值，则确定该字符串为具有攻击行为的字符串。由于攻击模型数据库中存储的各模型单词和模型元组的出现概率是基于对大量攻击样本统计分析获得的，能够体现出攻击样本的统计特征，从而，基于该统计特征能够使得待检测字符串的攻击行为检测结果更加准确。

可选的，所述根据所述各对应模型元组的出现概率以及各对应模型单词的出现概率，确定所述待检测字符串对应的攻击概率，包括：

将所述各对应攻击模型元组的出现概率和所述对应模型单词的出现概率加和，得到所述待检测字符串对应的攻击概率。

进一步地，所述获取待检测字符串，并对所述待检测字符串进行分词处理，得到所述待检测字符串中包含的各单词之前，还包括：

获取攻击样本集，所述攻击样本集中包括各攻击样本字符串；

分别对所述各攻击样本字符串进行分词处理，得到所述攻击样本集中包含的所述各模型单词；

根据所述预设元组构成规则分别对所述各攻击样本字符串中包含的模型单词进行元组生成处理，以确定所述攻击样本集中包含的所述各模型元组；

分别确定所述攻击样本集中包含的所述各模型单词的出现概率以及所述攻击样本集中包含的所述各模型元组的出现概率；

将所述攻击样本集中包含的所述各模型单词与所述各模型单词的出现概率关联存储到所述攻击模型数据库中，以及将所述攻击样本集中包含的所述各模型元组与所述各模型元组的出现概率关联存储到所述攻击模型数据库中。

上述方法，由于攻击模型数据库中存储的各模型单词和模型元组的出现概率是基于对大量攻击样本统计分析获得的，能够体现出攻击样本的统计特征，从而，基于该统计特征能够使得待检测字符串的攻击行为检测结果更加准确。

可选的，所述确定所述攻击样本集中包含的所述各模型单词的出现概率，包括：

根据所述攻击样本集中包含的每个各模型单词的出现次数，与所述攻击样本集中包含的全部模型单词的总数的比值，确定所述攻击样本集中包含的每个模型单词的出现概率。

可选的，所述确定所述攻击样本集中包含的所述各模型元组的出现概率，包括：

根据如下公式确定所述攻击样本集中包含的所述各模型元组的出现概率：

P(w_n|w₁,...,w_n-1)＝#(w₁,...,w_n-1,w_n)/#(w₁,...,w_n-1)

其中，w₁,...,w_n-1,w_n为任一模型元组中包含的n个模型单词，P(w_n|w₁,...,w_n-1)为该任一模型元组的出现概率，n为大于或等于2的整数，w_n为模型元组中的第一个模型单词，w₁,...,w_n-1为位于第一个模型单词之后的n-1个模型单词；#(w₁,...,w_n-1,w_n)为该任一模型元组在所述攻击样本集中包含的全部模型元组中出现的次数，#(w₁,...,w_n-1)为模型单词w₁,...,w_n-1在所述攻击样本集中包含的全部样本字符串中共同出现的次数。

上述方法，基于对大量攻击样本字符串中各单词和各元组出现概率的分析，得到了攻击模型数据库，虽然随着攻击字符串具体形式的不断更新，但是，其攻击行为的特征不会发生本质改变，即其往往会有大量攻击样本字符串具有类似的概率统计特征。从而，基于该攻击模型数据库，能够实现对待检测字符串是否具有攻击行为进行准确判定。

本申请实施例提供一种网络攻击检测设备，包括：

第一获取模块，用于获取待检测字符串，并对所述待检测字符串进行分词处理，得到所述待检测字符串中包含的各单词；

第一确定模块，用于根据预设元组构成规则对所述各单词进行元组生成处理，以确定与所述待检测字符串对应的各元组；

第二确定模块，用于确定预先获得的攻击模型数据库中，是否存在与所述各元组对应的模型元组，是否存在与所述各单词中的第一个单词对应的模型单词，所述攻击模型数据库中存储有各模型元组以及每个模型元组的出现概率，各模型单词以及每个模型单词的出现概率；

第三确定模块，用于在所述第二确定模块确定存在各对应模型元组和对应模型单词时，获取各对应模型元组以及对应模型单词的出现概率，并根据所述各对应模型元组的出现概率以及各对应模型单词的出现概率，确定所述待检测字符串对应的攻击概率；

第四确定模块，用于在所述攻击概率大于或等于预设概率阈值时，确定所述待检测字符串是具有攻击行为的字符串。

可选的，所述第三确定模块具体用于：将所述各对应攻击模型元组的出现概率和所述对应模型单词的出现概率加和，得到所述待检测字符串对应的攻击概率。

可选的，还包括：

第二获取模块，用于获取攻击样本集，所述攻击样本集中包括各攻击样本字符串；

第三获取模块，用于分别对所述各攻击样本字符串进行分词处理，得到所述攻击样本集中包含的所述各模型单词；

第五确定模块，用于根据所述预设元组构成规则分别对所述各攻击样本字符串中包含的模型单词进行元组生成处理，以确定所述攻击样本集中包含的所述各模型元组；

第六确定模块，用于分别确定所述攻击样本集中包含的所述各模型单词的出现概率以及所述攻击样本集中包含的所述各模型元组的出现概率；

存储模块，用于将所述攻击样本集中包含的所述各模型单词与所述各模型单词的出现概率关联存储到所述攻击模型数据库中，以及将所述攻击样本集中包含的所述各模型元组与所述各模型元组的出现概率关联存储到所述攻击模型数据库中。

可选的，所述第六确定模块具体用于：

可选的，所述第六确定模块还用于：

P(w_n|w₁,...,w_n-1)＝#(w₁,...,w_n-1,w_n)/#(w₁,...,w_n-1)

本申请实施例提供一种网络攻击检测设备，包括：收发器、处理器；

所述收发器，用于获取待检测字符串；

所述处理器，用于对所述待检测字符串进行分词处理，得到所述待检测字符串中包含的各单词；根据预设元组构成规则对所述各单词进行元组生成处理，以确定与所述待检测字符串对应的各元组；

所述处理器，还用于确定预先获得的攻击模型数据库中，是否存在与所述各元组对应的模型元组，是否存在与所述各单词中的第一个单词对应的模型单词，所述攻击模型数据库中存储有各模型元组以及每个模型元组的出现概率，各模型单词以及每个模型单词的出现概率；若存在，则获取各对应模型元组以及对应模型单词的出现概率，并根据所述各对应模型元组的出现概率以及各对应模型单词的出现概率，确定所述待检测字符串对应的攻击概率；若所述攻击概率大于或等于预设概率阈值，则确定所述待检测字符串是具有攻击行为的字符串。

可选的，所述处理器具体用于：

可选的，所述处理器还用于：

所述收发器还用于：获取攻击样本集，所述攻击样本集中包括各攻击样本字符串；

所述处理器还用于：分别对所述各攻击样本字符串进行分词处理，得到所述攻击样本集中包含的所述各模型单词；根据所述预设元组构成规则分别对所述各攻击样本字符串中包含的模型单词进行元组生成处理，以确定所述攻击样本集中包含的所述各模型元组；分别确定所述攻击样本集中包含的所述各模型单词的出现概率以及所述攻击样本集中包含的所述各模型元组的出现概率；

所述设备还包括：

存储器，用于将所述攻击样本集中包含的所述各模型单词与所述各模型单词的出现概率关联存储到所述攻击模型数据库中，以及将所述攻击样本集中包含的所述各模型元组与所述各模型元组的出现概率关联存储到所述攻击模型数据库中。

可选的，所述处理器具体用于：

P(w_n|w₁,...,w_n-1)＝#(w₁,...,w_n-1,w_n)/#(w₁,...,w_n-1)

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍。

图1为本发明网络攻击检测方法实施例一的流程图；

图2为本发明网络攻击检测方法实施例二的流程图；

图3为本发明网络攻击检测设备实施例一的结构示意图；

图4为本发明网络攻击检测设备实施例二的结构示意图；

图5为本发明网络攻击检测设备实施例三的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

下面结合说明书附图对本申请实施例作进一步详细描述。

图1为本发明网络攻击检测方法实施例一的流程图，如图1所示，该方法包括如下步骤：

步骤101、获取待检测字符串，并对所述待检测字符串进行分词处理，得到所述待检测字符串中包含的各单词。

本实施例中，上述待检测字符串是指比如HTTP请求消息等网络传输数据。基于语义以及字符识别等方式，对待检测字符串进行分词处理，得到其中包含的各单词。

值得说明的是，对于一条待检测字符串来说，其并非完全由英文单词组成的，还包含数字、符号等组成部分，本实施例中，将这些组成部分统称为单词。

步骤102、根据预设元组构成规则对所述各单词进行元组生成处理，以确定与所述待检测字符串对应的各元组。

上述预设元组构成规则中比如规定了元组大小即每个元组中包含的单词数量，以及每个元组内各单词的位置关系。

举例来说，假设待检测字符串S的分词结果是依次包括：A、B、C三个单词。并且假设元组构成规则规定元组的大小为2即每个元组包含2个单词，且依次针对每个单词来说，其对应的元组由自身以及其后相邻的一个单词构成。那么，上述待检测字符串S对应的元组包括(A,B)和(B,C)这两个元组。

步骤103、确定预先获得的攻击模型数据库中，是否存在与所述各元组对应的模型元组，是否存在与所述各单词中的第一个单词对应的模型单词，若存在，则执行步骤104，否则，结束。

其中，所述攻击模型数据库中存储有各模型元组以及每个模型元组的出现概率，各模型单词以及每个模型单词的出现概率。

步骤104、获取各对应模型元组以及对应模型单词的出现概率，并根据所述各对应模型元组的出现概率以及各对应模型单词的出现概率，确定所述待检测字符串对应的攻击概率。

步骤105、若所述攻击概率大于或等于预设概率阈值，则确定所述待检测字符串是具有攻击行为的字符串。

本实施例中，上述攻击模型数据库是预先建立的，是通过对预先获得的大量攻击样本字符串进行统计分析后获得的，具体来说，攻击模型数据库中存储的各模型元组以及每个模型元组的出现概率，各模型单词以及每个模型单词的出现概率，都是对大量攻击样本字符串统计分析获得的。

其中，各模型单词包括对大量攻击样本字符串分别分词处理后得到的各单词；各模型元组包括对每个攻击样本字符串中包含的各模型单词进行组建元组后得到的各元组。

具体的攻击模型数据库的建立过程将在后续实施例中描述。本实施例中，仅涉及攻击模型数据库的使用过程。

具体地，在获得了待检测字符串中包含的各单词以及各元组之后，查询攻击模型数据库，以确定攻击模型数据库中是否存在与各元组对应的模型元组，是否存在与待检测字符串分词处理后得到的第一个单词对应的模型单词。如果存在，则分别获得对应的出现概率。

其中，之所以是确定是否存在与待检测字符串分词处理后得到的第一个单词对应的模型单词，是由待检测字符串的攻击概率计算公式决定的，下面会介绍。

在得到各对应模型元组的出现概率以及与第一个单词对应的模型单词的出现概率之后，可以通过如下方式得到待检测字符串对应的攻击概率：

将各对应攻击模型元组的出现概率和对应模型单词的出现概率加和。

仍以上述举例来说，待检测字符串S分词处理后得到的第一个单词为A。假设攻击模型数据库中存在上述单词A，以及元组(A,B)和元组(B,C)，且A的出现概率P(A)＝p1，元组(A,B)的出现概率P(A|B)＝p2，元组(B,C)的出现概率P(B|C)＝p3。

从而，待检测字符串S的攻击概率P(S)＝P(A)+P(A|B)+P(B|C)＝p1+p2+p3。

进而，如果(p1+p2+p3)大于预设概率阈值p0，则说明该待检测字符串S中具有很多具有攻击特征的元组和单词，此时，确定待检测字符串S是具有攻击行为的字符串。

本实施例中，针对当前待检测字符串即网络传输数据，在确定其是否具有网络攻击行为时，首先对其进行分词、元组构成处理，得到对应的各元组；进而，在预先获得的存储有各模型元组及其对应出现概率和各模型单词及其对应出现概率的攻击模型数据库中，匹配与得到的各元组对应的模型元组和第一个单词，从而根据对应模型元组和对应模型单词的出现概率确定出该待检测字符串的攻击概率，如果攻击概率大于一定阈值，则确定该字符串为具有攻击行为的字符串。由于攻击模型数据库中存储的各模型单词和模型元组的出现概率是基于对大量攻击样本统计分析获得的，能够体现出攻击样本的统计特征，从而，基于该统计特征能够使得待检测字符串的攻击行为检测结果更加准确。

图2为本发明网络攻击检测方法实施例二的流程图，如图2所示，在步骤101之前，本实施例中还包括如下步骤：

步骤201、获取攻击样本集，所述攻击样本集中包括各攻击样本字符串。

上述各攻击样本字符串是预先采集获得的具有网络攻击行为的字符串。

步骤202、分别对所述各攻击样本字符串进行分词处理，得到所述攻击样本集中包含的所述各模型单词。

参考上述实施例，对每个攻击样本字符串进行分词处理，得到每个攻击样本字符串中包括的模型单词，进而，合并各攻击样本字符串中包含的模型单词，得到攻击样本集中包含的各模型单词。

步骤203、根据所述预设元组构成规则分别对所述各攻击样本字符串中包含的模型单词进行元组生成处理，以确定所述攻击样本集中包含的所述各模型元组。

参考上述实施例，对每个攻击样本字符串中包含的模型单词进行元组生成处理，得到每个攻击样本字符串中包含的模型元组，进而，合并各攻击样本字符串中包含的模型元组，得到攻击样本集中包含的各模型元组。

步骤204、分别确定所述攻击样本集中包含的所述各模型单词的出现概率以及所述攻击样本集中包含的所述各模型元组的出现概率。

举例来说，假设攻击样本集中包含S1和S2两个攻击样本字符串，S1分词结果是依次包括A、B、C三个模型单词，得到(A,B)和(B,C)两个元组；S2分词结果是依次包括A、C、D三个模型单词，得到(A,C)和(C,D)两个元组。

其中，根据如下方式确定攻击样本集中包含的各模型单词的出现概率：

根据攻击样本集中包含的每个各模型单词的出现次数，与攻击样本集中包含的全部模型单词的总数的比值，确定攻击样本集中包含的每个模型单词的出现概率。

以上述举例来说，针对模型单词C来说，其出现次数为2，攻击样本集中包含的全部模型单词的总数为6，从而，其出现概率为2/6。

其中，根据如下公式确定攻击样本集中包含的各模型元组的出现概率：

P(w_n|w₁,...,w_n-1)＝#(w₁,...,w_n-1,w_n)/#(w₁,...,w_n-1)

以上述举例来说，针对元组(A,C)来说，其出现概率为P(A|C)＝#(A,C)/#(A)。

其中，#(A,C)＝1，#(A)＝2，则P(A|C)＝1/2。

步骤205、将所述攻击样本集中包含的所述各模型单词与所述各模型单词的出现概率关联存储到所述攻击模型数据库中，以及将所述攻击样本集中包含的所述各模型元组与所述各模型元组的出现概率关联存储到所述攻击模型数据库中。

本实施例中，基于对大量攻击样本字符串中各单词和各元组出现概率的分析，得到了攻击模型数据库。虽然随着攻击字符串具体形式的不断更新，但是，其攻击行为的特征不会发生本质改变，即其往往会有大量攻击样本字符串具有类似的概率统计特征。从而，基于该攻击模型数据库，能够实现对待检测字符串是否具有攻击行为进行准确判定。

图3为本发明网络攻击检测设备实施例一的结构示意图，如图3所示，该终端设备包括：第一获取模块11、第一确定模块12、第二确定模块13、第三确定模块14、第四确定模块15。

第一获取模块11，用于获取待检测字符串，并对所述待检测字符串进行分词处理，得到所述待检测字符串中包含的各单词。

第一确定模块12，用于根据预设元组构成规则对所述各单词进行元组生成处理，以确定与所述待检测字符串对应的各元组。

第二确定模块13，用于确定预先获得的攻击模型数据库中，是否存在与所述各元组对应的模型元组，是否存在与所述各单词中的第一个单词对应的模型单词，所述攻击模型数据库中存储有各模型元组以及每个模型元组的出现概率，各模型单词以及每个模型单词的出现概率。

第三确定模块14，用于在所述第二确定模块确定存在各对应模型元组和对应模型单词时，获取各对应模型元组以及对应模型单词的出现概率，并根据所述各对应模型元组的出现概率以及各对应模型单词的出现概率，确定所述待检测字符串对应的攻击概率。

第四确定模块15，用于在所述攻击概率大于或等于预设概率阈值时，确定所述待检测字符串是具有攻击行为的字符串。

其中，所述第三确定模块14具有用于：

将所述各对应攻击模型元组的出现概率和所述各对应模型单词的出现概率加和，得到所述待检测字符串对应的攻击概率。

本实施例的设备可以用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图4为本发明网络攻击检测设备实施例二的结构示意图，如图4所示，在图3所示实施例的基础上，还包括：第二获取模块21、第三获取模块22、第五确定模块23、第六确定模块24、存储模块25。

第二获取模块21，用于获取攻击样本集，所述攻击样本集中包括各攻击样本字符串。

第三获取模块22，用于分别对所述各攻击样本字符串进行分词处理，得到所述攻击样本集中包含的所述各模型单词。

第五确定模块23，用于根据所述预设元组构成规则分别对所述各攻击样本字符串中包含的模型单词进行元组生成处理，以确定所述攻击样本集中包含的所述各模型元组。

第六确定模块24，用于分别确定所述攻击样本集中包含的所述各模型单词的出现概率以及所述攻击样本集中包含的所述各模型元组的出现概率。

存储模块25，用于将所述攻击样本集中包含的所述各模型单词与所述各模型单词的出现概率关联存储到所述攻击模型数据库中，以及将所述攻击样本集中包含的所述各模型元组与所述各模型元组的出现概率关联存储到所述攻击模型数据库中。

其中，所述第六确定模块24具体用于：

其中，所述第六确定模块24还用于：

P(w_n|w₁,...,w_n-1)＝#(w₁,...,w_n-1,w_n)/#(w₁,...,w_n-1)

本实施例的设备可以用于执行图2所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

基于相同的技术构思，本申请实施例提供另一种网络攻击检测设备。图5为本发明网络攻击检测设备实施例三的结构示意图，该网络攻击检测设备400包括：收发器401、处理器402、存储器403和总线系统404；

其中，存储器403，用于存放程序。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。存储器403可能为随机存取存储器(random access memory，简称RAM)，也可能为非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。图中仅示出了一个存储器，当然，存储器也可以根据需要，设置为多个。存储器403也可以是处理器402中的存储器。

存储器403存储了如下的元素，可执行模块或者数据结构，或者它们的子集，或者它们的扩展集：

操作指令：包括各种操作指令，用于实现各种操作。

操作系统：包括各种系统程序，用于实现各种基础业务以及处理基于硬件的任务。

处理器402控制网络攻击检测设备400的操作，处理器402还可以称为CPU(Central Processing Unit，中央处理单元)。具体的应用中，网络攻击检测设备400的各个组件通过总线系统404耦合在一起，其中总线系统404除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线系统404。为便于表示，图5中仅是示意性画出。

上述本申请实施例揭示的方法可以应用于处理器402中，或者由处理器402实现。处理器402可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器402中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器402可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器403，处理器402读取存储器403中的信息，结合其硬件执行以下步骤：

所述收发器401，用于获取待检测字符串；

所述处理器402，用于对所述待检测字符串进行分词处理，得到所述待检测字符串中包含的各单词；根据预设元组构成规则对所述各单词进行元组生成处理，以确定与所述待检测字符串对应的各元组；

所述处理器402，还用于确定预先获得的攻击模型数据库中，是否存在与所述各元组对应的模型元组，是否存在与所述各单词中的第一个单词对应的模型单词，所述攻击模型数据库中存储有各模型元组以及每个模型元组的出现概率，各模型单词以及每个模型单词的出现概率；若存在，则获取各对应模型元组以及对应模型单词的出现概率，并根据所述各对应模型元组的出现概率以及各对应模型单词的出现概率，确定所述待检测字符串对应的攻击概率；若所述攻击概率大于或等于预设概率阈值，则确定所述待检测字符串是具有攻击行为的字符串。

可选的，所述处理器402具体用于：

可选的，所述收发器401还用于：获取攻击样本集，所述攻击样本集中包括各攻击样本字符串；

所述处理器402还用于：

分别对所述各攻击样本字符串进行分词处理，得到所述攻击样本集中包含的所述各模型单词；根据所述预设元组构成规则分别对所述各攻击样本字符串中包含的模型单词进行元组生成处理，以确定所述攻击样本集中包含的所述各模型元组；分别确定所述攻击样本集中包含的所述各模型单词的出现概率以及所述攻击样本集中包含的所述各模型元组的出现概率。

存储器403，用于将所述攻击样本集中包含的所述各模型单词与所述各模型单词的出现概率关联存储到所述攻击模型数据库中，以及将所述攻击样本集中包含的所述各模型元组与所述各模型元组的出现概率关联存储到所述攻击模型数据库中

可选的，所述处理器402具体用于：

根据所述攻击样本集中包含的每个各模型单词的出现次数，与所述攻击样本集中包含的全部模型单词的总数的比值，确定所述攻击样本集中包含的每个模型单词的出现概率。。

可选的，所述处理器402具体用于：

P(w_n|w₁,...,w_n-1)＝#(w₁,...,w_n-1,w_n)/#(w₁,...,w_n-1)

其中，w₁,...,w_n-1,w_n为任一模型元组中包含的n个模型单词，P(w_n|w₁,...,w_n-1)为该任一模型元组的出现概率，n为大于或等于2的整数，w_n为模型元组中的第一个模型单词， w₁,...,w_n-1为位于第一个模型单词之后的n-1个模型单词；#(w₁,...,w_n-1,w_n)为该任一模型元组在所述攻击样本集中包含的全部模型元组中出现的次数，#(w₁,...,w_n-1)为模型单词w₁,...,w_n-1在所述攻击样本集中包含的全部样本字符串中共同出现的次数。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

一种网络攻击检测方法，其特征在于，包括：

获取待检测字符串，并对所述待检测字符串进行分词处理，得到所述待检测字符串中包含的各单词；

根据预设元组构成规则对所述各单词进行元组生成处理，以确定与所述待检测字符串对应的各元组；

确定预先获得的攻击模型数据库中，是否存在与所述各元组对应的模型元组，是否存在与所述各单词中的第一个单词对应的模型单词，所述攻击模型数据库中存储有各模型元组以及每个模型元组的出现概率，各模型单词以及每个模型单词的出现概率；

若存在，则获取各对应模型元组以及对应模型单词的出现概率，并根据所述各对应模型元组的出现概率以及各对应模型单词的出现概率，确定所述待检测字符串对应的攻击概率；

若所述攻击概率大于或等于预设概率阈值，则确定所述待检测字符串是具有攻击行为的字符串。
根据权利要求1所述的方法，其特征在于，所述根据所述各对应模型元组的出现概率以及各对应模型单词的出现概率，确定所述待检测字符串对应的攻击概率，包括：

将所述各对应攻击模型元组的出现概率和所述对应模型单词的出现概率加和，得到所述待检测字符串对应的攻击概率。
根据权利要求1所述的方法，其特征在于，所述获取待检测字符串，并对所述待检测字符串进行分词处理，得到所述待检测字符串中包含的各单词之前，还包括：

获取攻击样本集，所述攻击样本集中包括各攻击样本字符串；

分别对所述各攻击样本字符串进行分词处理，得到所述攻击样本集中包含的所述各模型单词；

根据所述预设元组构成规则分别对所述各攻击样本字符串中包含的模型单词进行元组生成处理，以确定所述攻击样本集中包含的所述各模型元组；

分别确定所述攻击样本集中包含的所述各模型单词的出现概率以及所述攻击样本集中包含的所述各模型元组的出现概率；

将所述攻击样本集中包含的所述各模型单词与所述各模型单词的出现概率关联存储到所述攻击模型数据库中，以及将所述攻击样本集中包含的所述各模型元组与所述各模型元组的出现概率关联存储到所述攻击模型数据库中。
根据权利要求3所述的方法，其特征在于，所述确定所述攻击样本集中包含的所述各模型单词的出现概率，包括：

根据所述攻击样本集中包含的每个各模型单词的出现次数，与所述攻击样本集中包含的全部模型单词的总数的比值，确定所述攻击样本集中包含的每个模型单词的出现概率。
根据权利要求3所述的方法，其特征在于，所述确定所述攻击样本集中包含的所述各模型元组的出现概率，包括：

根据如下公式确定所述攻击样本集中包含的所述各模型元组的出现概率：

P(w_n|w₁,...,w_n-1)＝#(w₁,...,w_n-1,w_n)/#(w₁,...,w_n-1)

其中，w₁,...,w_n-1,w_n为任一模型元组中包含的n个模型单词，P(w_n|w₁,...,w_n-1)为该任一模型元组的出现概率，n为大于或等于2的整数，w_n为模型元组中的第一个模型单词，w₁,...,w_n-1为位于第一个模型单词之后的n-1个模型单词；#(w₁,...,w_n-1,w_n)为该任一模型元组在所述攻击样本集中包含的全部模型元组中出现的次数，#(w₁,...,w_n-1)为模型单词w₁,...,w_n-1在所述攻击样本集中包含的全部样本字符串中共同出现的次数。
一种网络攻击检测设备，其特征在于，包括：

第一获取模块，用于获取待检测字符串，并对所述待检测字符串进行分词处理，得到所述待检测字符串中包含的各单词；

第一确定模块，用于根据预设元组构成规则对所述各单词进行元组生成处理，以确定与所述待检测字符串对应的各元组；

第二确定模块，用于确定预先获得的攻击模型数据库中，是否存在与所述各元组对应的模型元组，是否存在与所述各单词中的第一个单词对应的模型单词，所述攻击模型数据库中存储有各模型元组以及每个模型元组的出现概率，各模型单词以及每个模型单词的出现概率；

第三确定模块，用于在所述第二确定模块确定存在各对应模型元组和对应模型单词时，获取各对应模型元组以及对应模型单词的出现概率，并根据所述各对应模型元组的出现概率以及各对应模型单词的出现概率，确定所述待检测字符串对应的攻击概率；

第四确定模块，用于在所述攻击概率大于或等于预设概率阈值时，确定所述待检测字符串是具有攻击行为的字符串。
根据权利要求6所述的设备，其特征在于，所述第三确定模块具体用于：

将所述各对应攻击模型元组的出现概率和所述对应模型单词的出现概率加和，得到所述待检测字符串对应的攻击概率。
根据权利要求6所述的设备，其特征在于，还包括：

第二获取模块，用于获取攻击样本集，所述攻击样本集中包括各攻击样本字符串；

第三获取模块，用于分别对所述各攻击样本字符串进行分词处理，得到所述攻击样本集中包含的所述各模型单词；

第五确定模块，用于根据所述预设元组构成规则分别对所述各攻击样本字符串中包含的模型单词进行元组生成处理，以确定所述攻击样本集中包含的所述各模型元组；

第六确定模块，用于分别确定所述攻击样本集中包含的所述各模型单词的出现概率以及所述攻击样本集中包含的所述各模型元组的出现概率；

存储模块，用于将所述攻击样本集中包含的所述各模型单词与所述各模型单词的出现概率关联存储到所述攻击模型数据库中，以及将所述攻击样本集中包含的所述各模型元组与所述各模型元组的出现概率关联存储到所述攻击模型数据库中。
根据权利要求8所述的设备，其特征在于，所述第六确定模块具体用于：

根据所述攻击样本集中包含的每个各模型单词的出现次数，与所述攻击样本集中包含的全部模型单词的总数的比值，确定所述攻击样本集中包含的每个模型单词的出现概率。
根据权利要求8所述的设备，其特征在于，所述第六确定模块还用于：

根据如下公式确定所述攻击样本集中包含的所述各模型元组的出现概率：

P(w_n|w₁,...,w_n-1)＝#(w₁,...,w_n-1,w_n)/#(w₁,...,w_n-1)

其中，w₁,...,w_n-1,w_n为任一模型元组中包含的n个模型单词，P(w_n|w₁,...,w_n-1)为该任一模型元组的出现概率，n为大于或等于2的整数，w_n为模型元组中的第一个模型单词，w₁,...,w_n-1为位于第一个模型单词之后的n-1个模型单词；#(w₁,...,w_n-1,w_n)为该任一模型元组在所述攻击样本集中包含的全部模型元组中出现的次数，#(w₁,...,w_n-1)为模型单词w₁,...,w_n-1在所述攻击样本集中包含的全部样本字符串中共同出现的次数。
一种网络攻击检测设备，其特征在于，包括：收发器、处理器；

所述收发器，用于获取待检测字符串；

所述处理器，用于对所述待检测字符串进行分词处理，得到所述待检测字符串中包含的各单词；根据预设元组构成规则对所述各单词进行元组生成处理，以确定与所述待检测字符串对应的各元组；

所述处理器，还用于确定预先获得的攻击模型数据库中，是否存在与所述各元组对应的模型元组，是否存在与所述各单词中的第一个单词对应的模型单词，所述攻击模型数据库中存储有各模型元组以及每个模型元组的出现概率，各模型单词以及每个模型单词的出现概率；若存在，则获取各对应模型元组以及对应模型单词的出现概率，并根据所述各对应模型元组的出现概率以及各对应模型单词的出现概率，确定所述待检测字符串对应的攻击概率；若所述攻击概率大于或等于预设概率阈值，则确定所述待检测字符串是具有攻击行为的字符串。
根据权利要求11所述的设备，其特征在于，所述处理器具体用于：

将所述各对应攻击模型元组的出现概率和所述对应模型单词的出现概率加和，得到所述待检测字符串对应的攻击概率。
根据权利要求11所述的设备，其特征在于，

所述收发器还用于：获取攻击样本集，所述攻击样本集中包括各攻击样本字符串；

所述处理器还用于：分别对所述各攻击样本字符串进行分词处理，得到所述攻击样本集中包含的所述各模型单词；根据所述预设元组构成规则分别对所述各攻击样本字符串中包含的模型单词进行元组生成处理，以确定所述攻击样本集中包含的所述各模型元组；分别确定所述攻击样本集中包含的所述各模型单词的出现概率以及所述攻击样本集中包含的所述各模型元组的出现概率；

所述设备还包括：

存储器，用于将所述攻击样本集中包含的所述各模型单词与所述各模型单词的出现概率关联存储到所述攻击模型数据库中，以及将所述攻击样本集中包含的所述各模型元组与所述各模型元组的出现概率关联存储到所述攻击模型数据库中。
根据权利要求13所述的设备，其特征在于，所述处理器具体用于：

根据所述攻击样本集中包含的每个各模型单词的出现次数，与所述攻击样本集中包含的全部模型单词的总数的比值，确定所述攻击样本集中包含的每个模型单词的出现概率。
根据权利要求13所述的设备，其特征在于，所述处理器具体用于：

根据如下公式确定所述攻击样本集中包含的所述各模型元组的出现概率：

P(w_n|w₁,...,w_n-1)＝#(w₁,...,w_n-1,w_n)/#(w₁,...,w_n-1)

其中，w₁,...,w_n-1,w_n为任一模型元组中包含的n个模型单词，P(w_n|w₁,...,w_n-1)为该任一模型元组的出现概率，n为大于或等于2的整数，w_n为模型元组中的第一个模型单词，w₁,...,w_n-1为位于第一个模型单词之后的n-1个模型单词；#(w₁,...,w_n-1,w_n)为该任一模型元组在所述攻击样本集中包含的全部模型元组中出现的次数，#(w₁,...,w_n-1)为模型单词w₁,...,w_n-1在所述攻击样本集中包含的全部样本字符串中共同出现的次数。