WO2023061304A1

WO2023061304A1 - 一种基于大数据的威胁情报预警文本分析方法及系统

Info

Publication number: WO2023061304A1
Application number: PCT/CN2022/124189
Authority: WO
Inventors: 张鹏; 伍军; 周晓健; 朱志华; 谢礼炮; 黎婷婷
Original assignee: 广东机电职业技术学院
Priority date: 2021-10-13
Filing date: 2022-10-09
Publication date: 2023-04-20
Also published as: CN113627179B; CN113627179A

Abstract

一种基于大数据的威胁情报预警文本分析方法及系统，该方法包括：通过网络爬虫技术获取网络数据文本（S100）；对网络数据文本进行分词得到分词集合（S200）；对分词集合中的各个分词进行数值化处理，得到各分词的对应的分词数值信号（S300）；根据各分词的分词数值信号计算各分词之间的序列联系度（S400）；计算筛选出与其他的分词之间的序列联系度存在异常的分词作为威胁情报分词，将得到的威胁情报分词组合成预警文本，并将预警文本发送到客户端的屏幕进行显示（S500）。该方法实现了根据网络数据对潜在的语义风险进行分析并快速显示的有益效果。

Description

一种基于大数据的威胁情报预警文本分析方法及系统

技术领域

本发明属于大数据分析、文字处理、网络安全威胁预警技术领域，具体涉及一种基于大数据的威胁情报预警文本分析方法及系统。

背景技术

随着现代社会的信息化程度加深，大数据技术的使用日益普及，在网络社交媒体的信息存储与传播中，文本数据的生产量与需求量也在急剧攀升。系统安全数据的采集和存储，以及信息安全威胁的发现排查，都相应带来了比以往更高的安全防护技术和管理规范化技术要求。在信息文本的存储总量和产生速度都急剧增长的社会现状下，超量的网页数据的分析和管理对技术系统产生了新要求。在公开号CN107196910A的专利提供的基于大数据分析的威胁预警监测系统、方法及部署架构中，尽管可用于多种业务场景下的网络安全威胁态势感知和深度分析，但仍不能有效分析网络数据的语义风险。

发明内容

本发明的目的在于提出一种基于大数据的威胁情报预警文本分析方法及系统，以解决现有技术中所存在的一个或多个技术问题，至少提供一种有益的选择或创造条件。

文本数据的生产量与需求量的急剧攀升，对系统安全数据的采集和存储、以及信息安全威胁的发现排查，带来了比以往更高的安全防护技术和管理规范化技术要求，需要有效分析网络数据的语义风险。

本发明提供了一种基于大数据的威胁情报预警文本分析方法及系统，通过网络爬虫技术获取网络数据文本进行分词得到分词集合，并对分词集合中的各个分词进行数值化处理得到各分词的对应的分词数值信号，根据各分词的分词数值信号计算各分词之间的序列联系度计算筛选出与其他的分词之间的序列联系度存在异常的分词作为威胁情报分词，并将预警文本发送到客户端的屏幕进行显示。

为了实现上述目的，根据本发明的一方面，提供一种基于大数据的威胁情报预警文本分析方法，所述方法包括以下步骤：

S100，通过网络爬虫技术获取网络数据文本；

S200，对网络数据文本进行分词得到分词集合；

S300，对分词集合中的各个分词进行数值化处理，得到各分词的对应的分词数值信号；

S400，根据各分词的分词数值信号计算各分词之间的序列联系度；

S500，计算筛选出与其他的分词之间的序列联系度存在异常的分词作为威胁情报分词，将得到的威胁情报分词组合成预警文本，并将预警文本发送到客户端的屏幕进行显示。

进一步地，在S100中，通过网络爬虫技术获取网络数据文本的方法为：通过网络爬虫技术获取互联网的社交媒体上的网页文本，将获取到的网页文本作为字符串数据进行保存，将保存得到的文本文件作为网络数据文本，记所有的网络数据文本组成的集合为集合Txtset，以变量t表示集合Txtset中网络数据文本的序号，集合Txtset中序号为t的网络数据文本记为Txtset(t)。

进一步地，在S200中，对网络数据文本进行分词得到分词集合的方法为：使用中文分词算法将所有的网络数据文本中保存的字符串数据进行分词，得到多个字符串的片段记作多个分词，并去除重复出现的分词，将多个分词组成的集合记作分词集合，所述分词集合为具有互异性与有序性的集合。

进一步地，在S300中，对分词集合中的各个分词进行数值化处理，得到各分词的对应的分词数值信号的方法为：对分词集合中的各个分词进行数值化处理的具体方法为，记分词集合为集合Tokenset，令变量n表示集合Tokenset中元素的数量，变量i表示集合Tokenset中元素的序号，i∈[1,n]，变量Tokenset(i)表示集合Tokenset中序号为i的元素，将分词Tokenset(i)的字符串中的每个字符在国家标准代码中的十六进制数换算得到的二进制数进行相加的结果作为二进制字符bistr(i)，变量bistr(i)表示集合Tokenset中序号为i的元素即分词Tokenset(i)的二进制字符，所述二进制字符Tokenset(i)为由字符“0”和字符“1”组成的字符串，以变量v表示所述二进制字符Tokenset(i)的字符串长度，进而通过字符串切分将Tokenset(i)分成由v个为0或1的数值组成v维数组，即将集合中的各个分词Tokenset(i)分别得到的v维数组记作数组tv(i)，将集合中的各个分词Tokenset(i)的数组tv(i)的集合记为集合tvset，tv(i)在集合tvset中的序号为i，记数组tv(i)中的元素的序号为t，t∈[1,v]，数组tv(i)中序号为t的元素为tv(i)_t，记函数Dtp()为对数组进行处理的函数，Dtp(tv(i))表示通过函数Dtp()对数组tv(i)进行处理，π为圆周率，cos()为计算余弦函数，Dtp(tv(i))的计算过程为：

Dtp(tv(i))所得结果为与数组tv(i)的数组大小相同的数组，Dtp(tv(i))所得结果中序号为t的元素为tv(i)_t*cos(π*(t/n))，将数组Dtp(tv(i))记作Dtp(i)并表示集合Tokenset中序号为i的分词Tokenset(i)对应的分词数值信号，分词数值的数组长度为v，分词数值信号中的元素的序号为t，记集合Tokenset中各分词对应的各个分词数值信号的集合为Dtpset，数组Dtp(i)在集合Dtpset中的序号为i。

进一步地，在S400中，根据各分词的分词数值信号计算各分词之间的序列联系度的方法为：将网络数据文本Txtset(t)中保存的字符串数据进行分词得到的分词的集合作为Tokenset_t，记集合Txtset中各个网络数据文本Txtset(t)分别进行分词得到的各个Tokenset_t的集合为Tokensets，集合Tokenset_t中的元素同时存在于集合Tokenset中，令变量s表示集合Tokenset_t中元素的序号，Tokenset_t中序号为s的元素记作Tokenset_t(s)，变量k表示集合Tokenset_t中元素的总数，s∈[1,k]，将通过Tokenset_t(s)的序号s得到分词Tokenset_t(s)在集合Dtpset中的分词数值信号记为Dtp(s)；

设置集合Seqset，集合Seqset中的元素数量与集合Txtset中的元素数量相同，集合Seqset中的元素的序号为t，Seqset中序号为t的元素记作Seqset(t)，元素Seqset(t)为有序集合；

计算各分词之间的序列联系度的程序为：

S401，开始程序；获取Tokenset_t；获取集合Seqset中序号为t的元素Seqset(t)，令Seqset(t)中的元素清空；

S402，令s的数值为1；设置变量s2；设置变量u，令变量u的数值为0；

S403，通过s获取Dtp(s)；

S4041，令s2的数值为s的数值；

S4042，令s2的数值增加1；

S4043，通过s2获取Dtp(s2)；

S4044，定义计算两个分词的分词数值信号之间的关联度的函数为Rel()，则Rel(Dtp(s),Dtp(s2))为计算Dtp(s)、Dtp(s2)之间的关联度记作Rel(s,s2)，记数组Dtp(s)中序号为t的元素为Dtp(s)(t)、数组Dtp(s2)中序号为t的元素为Dtp(s2)(t)，Rel(s,s2)的计算公式如下：

S4045，计算Tokenset_t(s)与集合Tokenset_t中的其他分词的关联度，设置变量s3表示集合Tokenset_t中第s2个元素到第k个元素的序号，记Tokenset_t(s)与集合Tokenset_t中第s2个到第k个分词的关联度为Rel(s,s2,k)，计算公式为：

所得的Rel(s,s2,k)即为Tokenset_t(s)与集合Tokenset_t中第s2个到第k个分词的关联度，s3为累加变量，s3∈[s2,k]；

S4046，进行对阈值的计算，函数exp()表示以自然数e为底数的指数函数，所述阈值的计算公式为：

所得数值即为所述阈值的数值，并将u的数值设置为所述阈值的数值；

根据所述Rel(s,s2,k)和所述u进行对序列联系度的计算，记Tokenset_t(s)与集合Tokenset_t中的其他分词的序列联系度为Seq(Tokenset_t(s))，序列联系度Seq(Tokenset_t(s))的计算公式为：

Seq(Tokenset_t(s))＝u*Rel(s，s2，k)，

将所得序列联系度Seq(Tokenset_t(s))记作Seq_t_s并加入到集合Seqset(t)中作为Seqset(t)序号为s的元素；

S4047，将u的数值设置为Seq_t_s的数值；转到S4051；

S4051，判断s的数值是否大于或等于k，若是则转到S4052，若否则将s的数值增加1；转到S403；

S4052，将集合Seqset(t)作为集合Seqset中序号为t的元素并进行保存；结束程序；

集合Seqset中序号为t的元素Seqset(t)与集合Txtset中序号为t的网络数据文本Txtset(t)进行分词得到的分词的集合Tokenset_t相互对应，所述集合Seqset(t)中的元素即为该元素对应序号的分词的序列联系度。

进一步地，在S500中，计算筛选出与其他的分词之间的序列联系度存在异常的分词作为威胁情报分词，将得到的威胁情报分词组合成预警文本并将预警文本发送到客户端的屏幕进行显示的方法为：对一个分词的序列联系度进行判断是否存在异常的方法为，在任一网络数据文本Txtset(t)的分词的集合Tokenset_t中的任一分词Tokenset_t(s)，若Tokenset_t(s)在Tokenset_t中的序列联系度Seq(Tokenset_t(s))的数值大于该分词Tokenset_t(s)在集合Tokensets中的其他元素中的数值，则该网络数据文本Txtset(t)存在异常，记在集合Tokensets中除了Tokenset_t的元素组成的集合为Cu(Tokenset_t)，Tokenset_t`∈Cu(Tokenset_t)，记t`为集合Cu(Tokenset_t)中元素的序号，Tokenset_t`为集合Cu(Tokenset_t)中序号为t`的元素，Tokenset_t`(s)∈Tokenset_t`，函数len()为获取集合元素数量的函数，Seq(Tokenset_t`(s))表示Tokenset_t`(s)与Tokenset_t`中的其他分词的序列联系度，判断Tokenset_t(s)在Tokenset_t中的序列联系度Seq(Tokenset_t(s))的数值是否大于该分词Tokenset_t(s)在集合Tokensets中的其他元素中的数值的公式如下：

若满足上述公式，则表示分词Tokenset_t(s)在Tokenset_t中存在异常，将分词Tokenset_t(s)及其所在的Tokenset_t发送到输出设备进行显示或打印，即将得到的威胁情报分词进行字符串拼接组合成的字符串作为预警文本，并将所述预警文本发送到客户端的屏幕进行显示。

本发明还提供了一种基于大数据的威胁情报预警文本分析系统，所述一种基于大数据的威胁情报预警文本分析系统包括：处理器、存储器及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述一种基于大数据的威胁情报预警文本分析方法中的步骤，所述一种基于大数据的威胁情报预警文本分析系统可以运行于桌上型计算机、笔记本、掌上电脑及云端数据中心等计算设备中，可运行的系统可包括，但不仅限于，处理器、存储器、服务器集群，所述处理器执行所述计算机程序运行在以下系统的单元中：

网络爬虫单元，用于通过网络爬虫技术获取网络数据文本；

分词单元，用于对网络数据文本进行分词得到分词集合；

数值化处理单元，用于对分词集合中的各个分词进行数值化处理，得到各分词的对应的分词数值信号；

序列联系度计算单元，用于根据各分词的分词数值信号计算各分词之间的序列联系度；

威胁情报筛选单元，用于计算筛选出与其他的分词之间的序列联系度存在异常的分词作为威胁情报分词，并将得到的威胁情报分词组合成预警文本发送到客户端的屏幕进行显示。

本发明的有益效果为：本发明提供了一种基于大数据的威胁情报预警文本分析方法及系统，通过网络爬虫技术获取网络数据文本进行分词得到分词集合，并对分词集合中的各个分词进行数值化处理得到各分词的对应的分词数值信号，根据各分词的分词数值信号计算各分词之间的序列联系度计算筛选出与其他的分词之间的序列联系度存在异常的分词作为威胁情报分词，并将预警文本发送到客户端的屏幕进行显示，实现了根据网络数据对潜在的语义风险进行分析并快速显示的有益效果。

附图说明

通过对结合附图所示出的实施方式进行详细说明，本发明的上述以及其他特征将更加明显，本发明附图中相同的参考标号表示相同或相似的元素，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，在附图中：

图1所示为一种基于大数据的威胁情报预警文本分析方法的流程图；

图2所示为一种基于大数据的威胁情报预警文本分析系统的系统结构图。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本发明的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

如图1所示为根据本发明的一种基于大数据的威胁情报预警文本分析方法的流程图，下面结合图1来阐述根据本发明的实施方式的一种基于大数据的威胁情报预警文本分析方法及系统。

本发明提出一种基于大数据的威胁情报预警文本分析方法，所述方法具体包括以下步骤：

S100，通过网络爬虫技术获取网络数据文本；

S200，对网络数据文本进行分词得到分词集合；

进一步地，在S100中，通过网络爬虫技术获取网络数据文本的方法为：通过网络爬虫技术获取互联网的社交媒体上的网页文本，将获取到的网页文本作为字符串数据进行保存，将保存得到的文本文件作为网络数据文本，记所有的网络数据文本组成的集合为集合Txtset，以变量t表示集合Txtset中网络数据文本的序号，集合Txtset中序号为t的网络数据文本记为Txtset(t)，其中，网络爬虫技术包括聚焦网络爬虫、增量式网络爬虫、Deep Web爬虫中任意一种。

进一步地，在S200中，对网络数据文本进行分词得到分词集合的方法为：使用中文分词算法(包括逆向最大匹配算法RMM、双向最大匹配法或者N-gram模型中任意一种)将所有的网络数据文本中保存的字符串数据进行分词，得到多个字符串的片段记作多个分词，并去除重复出现的分词，将多个分词组成的集合记作分词集合，所述分词集合为具有互异性与有序性的集合。

进一步地，在S300中，对分词集合中的各个分词进行数值化处理，得到各分词的对应的分词数值信号的方法为：对分词集合中的各个分词进行数值化处理的具体方法为，记分词集合为集合Tokenset，令变量n表示集合Tokenset中元素的数量，变量i表示集合Tokenset中元素的序号，i∈[1,n]，变量Tokenset(i)表示集合Tokenset中序号为i的元素，将分词Tokenset(i)的字符串中的每个字符在国家标准代码中的十六进制数换算得到的二进制数进行相加的结果作为二进制字符bistr(i)，

例如，“这是一只猫”，可被分词为数组[“这是”,“一只”,“猫”]，字符串“一只”是一个分词，当Tokenset(i)指代“一只”时，Tokenset(i)的字符串中的2个字符即为“一”和“只”，分别取“一”的字符和“只”的字符在国家标准代码中的十六进制数换算得到的二进制数，“一”的十六进制为D2BB，D2BB转成字符串“D2BB”，D2BB的二进制为1101001010111011，

“只”的十六进制为D6BB，D6BB转成字符串“D6BB”，D6BB的二进制为1101011010111011，

1101001010111011+1101011010111011＝11010100101110110，11010100101110110转成字符串“11010100101110110”，“11010100101110110”即为bistr(i)，将bistr(i)中的每一位分开为“1、1、0、1、0、1、0、0、1、0、1、1、1、0、1、1、0”再以这些中的为0或1的数值组成数组[1、1、0、1、0、1、0、0、1、0、1、1、1、0、1、1、0]，其中的顿号“、”表示分隔符，

变量bistr(i)表示集合Tokenset中序号为i的元素即分词Tokenset(i)的二进制字符，所述二进制字符bistr(i)为由字符“0”和字符“1”组成的字符串，以变量v表示所述二进制字符bistr(i)的字符串长度，进而通过字符串切分将bistr(i)分成由v个为0或1的数值组成v维数组，即将集合中的各个分词Tokenset(i)分别得到的v维数组记作数组tv(i)，将集合中的各个分词Tokenset(i)的数组tv(i)的集合记为集合tvset，tv(i)在集合tvset中的序号为i，记数组tv(i)中的元素的序号为t，t∈[1,v]，数组tv(i)中序号为t的元素为tv(i)_t，记函数Dtp()为对数组进行分词数值化处理的函数，Dtp(tv(i))表示通过函数Dtp()对数组tv(i)进行分词数值化处理，π为圆周率，cos()为计算余弦函数，Dtp(tv(i))的计算过程为：

Dtp(tv(i))所得结果为与数组tv(i)的数组大小相同的数组，Dtp(tv(i))所得结果中序号为t的元素为tv(i)_t*cos(π*(t/n))，将数组Dtp(tv(i))记作Dtp(i)并表示集合Tokenset中序号为i的分词Tokenset(i)对应的分词数值信号，由于分词数值与分词一一对应，则分词与分词数组的数量和序号保持一致，所以，分词数值的数组长度同样为v，分词数值信号中的元素的序号同样为t，记集合Tokenset中各分词对应的各个分词数值信号的集合为Dtpset，数组Dtp(i)在集合Dtpset中的序号为i。

计算各分词之间的序列联系度的程序为：

S401，开设程序；获取Tokenset_t；获取集合Seqset中序号为t的元素Seqset(t)，令Seqset(t)中的元素清空；

S403，通过s获取Dtp(s)；

S4041，令s2的数值为s的数值；

S4042，令s2的数值增加1；

S4043，通过s2获取Dtp(s2)；

所得的Rel(s,s2,k)即为Tokenset_t(s)与集合Tokenset_t中第s2个到第k个分词的关联度；

S4046，进行对阈值的计算，函数exp()表示以自然数e为底数的指数函数，所述阈值记为u1的计算公式为：

所得数值即为阈值u1的数值，并将u的数值设置为阈值u1的数值；

Seq(Tokenset_t(s))＝u*Rel(s，s2，k)，

S4047，将u的数值设置为Seq_t_s的数值；转到S4051；

进一步地，在S500中，计算筛选出与其他的分词之间的序列联系度存在异常的分词作为威胁情报分词，将得到的威胁情报分词组合成预警文本并将预警文本发送到客户端的屏幕进行显示的方法为：对一个分词的序列联系度进行判断是否存在异常的方法为，在任一网络数据文本Txtset(t)的分词的集合Tokenset_t中的任一分词Tokenset_t(s)，若Tokenset_t(s)在Tokenset_t中的序列联系度Seq(Tokenset_t(s))的数值大于该分词Tokenset_t(s)在集合Tokensets中的其他元素中的数值，则该网络数据文本Txtset(t)存在异常，记在集合Tokensets中除了Tokenset_t的元素组成的集合为Cu(Tokenset_t)，Tokenset_t`∈Cu(Tokenset_t)，记t`为集合Cu(Tokenset_t)中元素的序号，Tokenset_t`为集合Cu(Tokenset_t)中序号为t`的元素，Tokenset_t`(s)为Tokenset_t`中序号为s的元素，Tokenset_t`(s)∈ Tokenset_t`，函数len()为获取集合元素数量的函数，Seq(Tokenset_t`(s))表示Tokenset_t`(s)与Tokenset_t`中的其他分词的序列联系度，判断Tokenset_t(s)在Tokenset_t中的序列联系度Seq(Tokenset_t(s))的数值是否大于该分词Tokenset_t(s)在集合Tokensets中的其他元素中的数值的公式如下：

若满足上述公式，则表示分词Tokenset_t(s)在Tokenset_t中存在异常，将分词Tokenset_t(s)及其所在的Tokenset_t发送到输出设备进行显示或打印；

其中，可优选地，计算筛选出与其他的分词之间的序列联系度存在异常的分词作为威胁情报分词的Python实现代码的关键部分可包括：

即将得到的威胁情报分词进行字符串拼接组合成的字符串作为预警文本，并将所述预警文本发送到客户端的屏幕进行显示。

所述一种基于大数据的威胁情报预警文本分析系统包括：处理器、存储器及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种基于大数据的威胁情报预警文本分析方法实施例中的步骤，所述一种基于大数据的威胁情报预警文本分析系统可以运行于桌上型计算机、笔记本、掌上电脑及云端数据中心等计算设备中，可运行的系统可包括，但不仅限于，处理器、存储器、服务器集群。

本发明的实施例提供的一种基于大数据的威胁情报预警文本分析系统，如图2所示，该实施例的一种基于大数据的威胁情报预警文本分析系统包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种基于大数据的威胁情报预警文本分析方法实施例中的步骤，所述处理器执行所述计算机程序运行在以下系统的单元中：

网络爬虫单元，用于通过网络爬虫技术获取网络数据文本；

分词单元，用于对网络数据文本进行分词得到分词集合；

所述一种基于大数据的威胁情报预警文本分析系统可以运行于桌上型计算机、笔记本、掌上电脑及云端数据中心等计算设备中。所述一种基于大数据的威胁情报预警文本分析系统包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述例子仅仅是一种基于大数据的威胁情报预警文本分析方法及系统的示例，并不构成对一种基于大数据的威胁情报预警文本分析方法及系统的限定，可以包括比例子更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述一种基于大数据的威胁情报预警文本分析系统还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立元器件门电路或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述一种基于大数据的威胁情报预警文本分析系统的控制中心，利用各种接口和线路连接整个基于大数据的威胁情报预警文本分析的各个分区域。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述一种xxx方法及系统的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明提供了一种基于大数据的威胁情报预警文本分析方法及系统，通过网络爬虫技术获取网络数据文本进行分词得到分词集合，并对分词集合中的各个分词进行数值化处理得到各分词的对应的分词数值信号，根据各分词的分词数值信号计算各分词之间的序列联系度计算筛选出与其他的分词之间的序列联系度存在异常的分词作为威胁情报分词，并将预警文本发送到客户端的屏幕进行显示，实现了根据网络数据对潜在的语义风险进行分析并快速显示的有益效果。

注：如果本申请中出现重复定义的变量或者代号，则该变量的作用范围只在本自然段中，或者重复定义的变量或者代号由于之前的变量或者代号一一对应，则变量或者代号的数量和序号保持一致，故可以重复定义。

尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，从而有效地涵盖本发明的预定范围。此外，上文以发明人可预见的实施例对本发明进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。

Claims

一种基于大数据的威胁情报预警文本分析方法，其特征在于，所述方法包括以下步骤：

S100，通过网络爬虫技术获取网络数据文本；

S200，对网络数据文本进行分词得到分词集合；

S300，对分词集合中的各个分词进行数值化处理，得到各分词的对应的分词数值信号；

S400，根据各分词的分词数值信号计算各分词之间的序列联系度；

S500，计算筛选出与其他的分词之间的序列联系度存在异常的分词作为威胁情报分词，将得到的威胁情报分词组合成预警文本，并将预警文本发送到客户端的屏幕进行显示。
根据权利要求1所述的一种基于大数据的威胁情报预警文本分析方法，其特征在于，在S100中，通过网络爬虫技术获取网络数据文本的方法为：通过网络爬虫技术获取互联网的社交媒体上的网页文本，将获取到的网页文本作为字符串数据进行保存，将保存得到的文本文件作为网络数据文本，记所有的网络数据文本组成的集合为集合Txtset，以变量t表示集合Txtset中网络数据文本的序号，集合Txtset中序号为t的网络数据文本记为Txtset(t)。
根据权利要求1所述的一种基于大数据的威胁情报预警文本分析方法，其特征在于，在S200中，对网络数据文本进行分词得到分词集合的方法为：使用中文分词算法将所有的网络数据文本中保存的字符串数据进行分词，得到多个字符串的片段记作多个分词，并去除重复出现的分词，将多个分词组成的集合记作分词集合。
根据权利要求1所述的一种基于大数据的威胁情报预警文本分析方法，其特征在于，在S300中，对分词集合中的各个分词进行数值化处理，得到各分词的对应的分词数值信号的方法为：记分词集合为集合Tokenset，令变量n表示集合Tokenset中元素的数量，变量i表示集合Tokenset中元素的序号，i∈[1,n]，变量Tokenset(i)表示集合Tokenset中序号为i的元素，将分词Tokenset(i)的字符串中的每个字符的十六进制数换算得到的二进制数进行相加的结果作为二进制字符bistr(i)，变量bistr(i)表示集合Tokenset中序号为i的元素即分词Tokenset(i)的二进制字符，所述二进制字符bistr(i)为由字符“0”和字符“1”组成的字符串，以变量v表示所述二进制字符bistr(i)的字符串长度，进而通过字符串切分将bistr(i)分成由v个为0或1的数值组成v维数组，即将集合中的各个分词Tokenset(i)分别得到的v维数组记作数组tv(i)，将集合中的各个分词Tokenset(i)的数组tv(i)的集合记为集合tvset，tv(i)在集合tvset中的序号为i，记数组tv(i)中的元素的序号为t，t∈[1,v]，数组tv(i)中序号为t的元素为tv(i)_t，记函数Dtp()为对数组进行分词数值化处理的函数，Dtp(tv(i))表示通过函数Dtp()对数组tv(i)进行分词数值化处理，π为圆周率，cos()为计算余弦函数，Dtp(tv(i))的计算过程为：

Dtp(tv(i))所得结果为与数组tv(i)的数组大小相同的数组，Dtp(tv(i))所得结果中序号为t的元素为tv(i)_t*cos(π*(t/n))，将数组Dtp(tv(i))记作Dtp(i)并表示集合Tokenset中序号为i的分词Tokenset(i)对应的分词数值信号，由于分词数值与分词一一对应，则分词与分词数组的数量和序号保持一致，所以，分词数值的数组长度同样为v，分词数值信号中的元素的序号同样为t，记集合Tokenset中各分词对应的各个分词数值信号的集合为Dtpset，数组Dtp(i)在集合Dtpset中的序号为i。
根据权利要求4所述的一种基于大数据的威胁情报预警文本分析方法，其特征在于，在S400中，根据各分词的分词数值信号计算各分词之间的序列联系度的方法为：将网络数据文本Txtset(t)中保存的字符串数据进行分词得到的分词的集合作为Tokenset_t，记集合Txtset中各个网络数据文本Txtset(t)分别进行分词得到的各个Tokenset_t的集合为Tokensets，集合Tokenset_t中的元素同时存在于集合Tokenset中，令变量s表示集合Tokenset_t中元素的序号，Tokenset_t中序号为s的元素记作Tokenset_t(s)，变量k表示集合Tokenset_t中元素的总数，s∈[1,k]，将通过Tokenset_t(s)的序号s得到分词Tokenset_t(s)在集合Dtpset中的分词数值信号记为Dtp(s)；

设置集合Seqset，集合Seqset中的元素数量与集合Txtset中的元素数量相同，集合Seqset中的元素的序号为t，Seqset中序号为t的元素记作Seqset(t)，元素Seqset(t)为有序集合；

计算各分词之间的序列联系度的程序为：

S401，开始程序；获取Tokenset_t；获取集合Seqset中序号为t的元素Seqset(t)，令Seqset(t)中的元素清空；

S402，令s的数值为1；设置变量s2；设置变量u，令变量u的数值为0；

S403，通过s获取Dtp(s)；

S4041，令s2的数值为s的数值；

S4042，令s2的数值增加1；

S4043，通过s2获取Dtp(s2)；

S4044，定义计算两个分词的分词数值信号之间的关联度的函数为Rel()，则Rel(Dtp(s),Dtp(s2))为计算Dtp(s)、Dtp(s2)之间的关联度记作Rel(s,s2)，记数组Dtp(s)中序号为t的元素为Dtp(s)(t)、数组Dtp(s2)中序号为t的元素为Dtp(s2)(t)，Rel(s,s2)的计算公式如下：

S4045，计算Tokenset_t(s)与集合Tokenset_t中的其他分词的关联度，设置变量s3表示集合Tokenset_t中第s2个元素到第k个元素的序号，记Tokenset_t(s)与集合Tokenset_t中第s2个到第k个分词的关联度为Rel(s,s2,k)，计算公式为：

所得的Rel(s,s2,k)即为Tokenset_t(s)与集合Tokenset_t中第s2个到第k个分词的关联度；

S4046，进行对阈值的计算，函数exp()表示以自然数e为底数的指数函数，所述阈值记为u1的计算公式为：

所得数值即为阈值u1的数值，并将u的数值设置为阈值u1的数值；

根据所述Rel(s,s2,k)和u进行计算序列联系度，记Tokenset_t(s)与集合Tokenset_t中的其他分词的序列联系度为Seq(Tokenset_t(s))，序列联系度Seq(Tokenset_t(s))的计算公式为：

Seq(Tokenset_t(s))＝u*Rel(s,s2,k)，

将所得序列联系度Seq(Tokenset_t(s))记作Seq_t_s并加入到集合Seqset(t)中作为Seqset(t)序号为s的元素；

S4047，将u的数值设置为Seq_t_s的数值；转到S4051；

S4051，判断s的数值是否大于或等于k，若是则转到S4052，若否则将s的数值增加1；转到S403；

S4052，将集合Seqset(t)作为集合Seqset中序号为t的元素并进行保存；结束程序；

集合Seqset中序号为t的元素Seqset(t)与集合Txtset中序号为t的网络数据文本Txtset(t)进行分词得到的分词的集合Tokenset_t相互对应，所述集合Seqset(t)中的元素即为该元素对应序号的分词的序列联系度。
根据权利要求5所述的一种基于大数据的威胁情报预警文本分析方法，其特征在于，在S500中，计算筛选出与其他的分词之间的序列联系度存在异常的分词作为威胁情报分词，将得到的威胁情报分词组合成预警文本并将预警文本发送到客户端的屏幕进行显示的方法为：对一个分词的序列联系度进行判断是否存在异常的方法为，在任一网络数据文本Txtset(t)的分词的集合Tokenset_t中的任一分词Tokenset_t(s)，若Tokenset_t(s)在Tokenset_t中的序列联系度Seq(Tokenset_t(s))的数值大于该分词Tokenset_t(s)在集合Tokensets中的其他元素中的数值，则该网络数据文本Txtset(t)存在异常，记在集合Tokensets中除了Tokenset_t的元素组成的集合为Cu(Tokenset_t)，Tokenset_t`∈Cu(Tokenset_t)，记t`为集合Cu(Tokenset_t)中元素的序号，Tokenset_t`为集合Cu(Tokenset_t)中序号为t`的元素，Tokenset_t`(s)∈Tokenset_t`，Tokenset_t`(s)为Tokenset_t`中序号为s的元素，函数len()为获取集合元素数量的函数，Seq(Tokenset_t`(s))表示Tokenset_t`(s)与Tokenset_t`中的其他分词的序列联系度，判断Tokenset_t(s)在Tokenset_t中的序列联系度Seq(Tokenset_t(s))的数值是否大于该分词Tokenset_t(s)在集合Tokensets中的其他元素中的数值的公式如下：

若满足上述公式，则表示分词Tokenset_t(s)在Tokenset_t中存在异常，将分词Tokenset_t(s)及其所在的Tokenset_t发送到输出设备进行显示或打印，即将得到的威胁情报分词进行字符串拼接组合成的字符串作为预警文本，并将所述预警文本发送到客户端的屏幕进行显示。
一种基于大数据的威胁情报预警文本分析系统，其特征在于，所述一种基于大数据的威胁情报预警文本分析系统包括：处理器、存储器及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1中的一种基于大数据的威胁情报预警文本分析方法中的步骤，所述一种基于大数据的威胁情报预警文本分析系统运行于桌上型计算机、笔记本、掌上电脑及云端数据中心的计算设备中。