WO2021227831A1

WO2021227831A1 - 威胁情报的主题检测方法、装置和计算机存储介质

Info

Publication number: WO2021227831A1
Application number: PCT/CN2021/089290
Authority: WO
Inventors: 范如; 范渊
Original assignee: 杭州安恒信息技术股份有限公司
Priority date: 2020-05-13
Filing date: 2021-04-23
Publication date: 2021-11-18
Also published as: CN111581355A; CN111581355B

Abstract

一种威胁情报的主题检测方法、装置和计算机存储介质，其中，该威胁情报的主题检测方法包括：从预设数据源中爬取待检测的威胁情报文本；从待检测的威胁情报文本中抽取候选词集合，并从候选词集合中提取多种关键特征；融合多种关键特征，得到待检测的威胁情报文本的文本特征；采用层次聚类算法，根据待检测的威胁情报文本的文本特征将待检测的威胁情报文本聚类到已有主题或者新增主题。

Description

威胁情报的主题检测方法、装置和计算机存储介质

相关申请

本申请要求2020年5月13日申请的，申请号为202010402752.6，发明名称为“威胁情报的主题检测方法、装置和计算机存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及信息安全技术领域，特别是涉及威胁情报的主题检测方法、装置和计算机存储介质。

背景技术

随着目的性强、手段复杂的网络攻击逐渐增多，早期的单点检测防御技术难以有效分析网络攻击的协同性和攻击所处阶段。随着威胁环境的不断变化，以及攻击者手段更加先进，安全人员需要更有效地预防、检测和相应威胁。合理利用威胁情报(Cyber Threat Intelligence，CTI)可以在一定程度上减缓网络威胁，威胁情报作为新一代网络防御体系，能够及时感知层出不穷的安全事件及各种APTs的攻击，为各种攻击提供预防及防御措施。

新一代网络防御体系中，常常对开源信息进行处理，但开源信息中，由于存在互联网漏洞、恶意病毒、黑客攻击工具等具有威胁性的开源信息，这些开源威胁信息可以被任何人通过互联网获取后加以利用和扩散，对互联网开源信息安全影响巨大。同时，在通常的网络防御体系中，存在对大规模文本数据向量化的处理效率低，对高纬度向量的语义挖掘效果较差，不能及时发现互联网开源威胁的不足。

目前针对相关技术中处理海量文档数据效率低，挖掘高纬度数据特征不精准，对威胁主题不能及时发现，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种威胁情报的主题检测方法、装置和计算机存储介质，以至少解决相关技术中对威胁主题不能及时发现的问题。

第一方面，本申请实施例提供了一种威胁情报的主题检测方法，包括：

从预设数据源中爬取待检测的威胁情报文本；

从待检测的威胁情报文本中抽取候选词集合，并从所述候选词集合中提取多种关键特征，其中，所述关键特征包括：关键词特征、主题词特征和/或实体特征；

融合所述多种关键特征，得到所述待检测的威胁情报文本的文本特征；

采用层次聚类算法，根据所述待检测的威胁情报文本的文本特征将所述待检测的威胁情报文本聚类到已有主题或者新增主题。

在其中一些实施例中，从所述待检测的威胁情报文本中抽取候选词集合包括：

对所述待检测的威胁情报文本进行预处理，得到所述候选词集合；其中，所述预处理包括以下至少之一：去重、停用词删除、标点符号去除、大小写转换、词性标注及去除、词形还原。

在其中一些实施例中，从所述候选词集合中提取所述关键词特征包括：

从所述候选词集合中提取关键词，确定所述关键词的词频和逆文档频率，根据所述词频和所述逆文档频率确定所述关键词的权重值，并根据所述关键词的权重值确定所述关键词特征。

在其中一些实施例中，从所述候选词集合中提取所述主题词特征包括：

从所述候选词集合中提取候选主题词，计算所述候选主题词与预设标签类别词的相似度，根据所述相似度确定所述候选主题词的权重值，并根据所述候选主题词的权重值确定所述主题词特征。

在其中一些实施例中，从所述候选词集合中提取所述实体特征包括：

从所述候选词集合中识别实体候选词，从所述实体候选词中删除预设词性的实体候选词，得到所述实体特征。

在其中一些实施例中，采用层次聚类算法，根据所述待检测的威胁情报文本的文本特征将所述待检测的威胁情报文本聚类到已有主题或者新增主题包括：

判断所述待检测的威胁情报文本的文本特征与已有主题簇中当前层级的已有主题的文本特征的相似度是否高于与所述当前层级的已有主题对应的预设阈值；

在所述待检测的威胁情报文本的文本特征与所述当前层级的已有主题的文本特征的相似度高于所述预设阈值的情况下，将所述待检测的威胁情报文本分类到所述当前层级的下一层级的主题。

在其中一些实施例中，所述方法还包括：

在所述待检测的威胁情报文本的文本特征与所述当前层级的已有主题的文本特征的相似度不高于所述预设阈值的情况下，在所述当前层级下增加新增主题，并将所述待检测的威胁情报文本分类到所述新增主题。

在其中一些实施例中，所述方法还包括：

从聚类到相同已有主题的多个威胁情报文本中选取基准威胁情报文本，分别计算所述多个威胁情报文本中每个威胁情报文本与所述基准威胁情报文本的相似度，并将得到的相似度的平均值作为与所述相同已有主题对应的预设阈值。

第二方面，本申请实施例提供了一种威胁情报的主题检测装置，包括：

获取模块，用于从预设数据源中爬取待检测的威胁情报文本；

提取模块，用于从待检测的威胁情报文本中抽取候选词集合，并从所述候选词集合中提取多种关键特征，其中，所述关键特征包括：关键词特征、主题词特征和/或实体特征；

融合模块，用于融合所述多种关键特征，得到所述待检测的威胁情报文本的文本特征；

处理模块，用于采用层次聚类算法，根据所述待检测的威胁情报文本的文本特征将所述待检测的威胁情报文本聚类到已有主题或者新增主题。

在其中一些实施例中，所述获取模块包括：

预处理单元，用于对所述待检测的威胁情报文本进行预处理，得到所述候选词集合；其中，所述预处理包括以下至少之一：去重、停用词删除、标点符号去除、大小写转换、词性标注及去除、词形还原。

在其中一些实施例中，所述提取模块包括：

第一提取单元，用于从所述候选词集合中提取关键词，确定所述关键词的词频和逆文档频率，根据所述词频和所述逆文档频率确定所述关键词的权重值，并根据所述关键词的权重值确定所述关键词特征。

在其中一些实施例中，所述提取模块还包括：

第二提取单元，用于从所述候选词集合中提取候选主题词，计算所述候选主题词与预设标签类别词的相似度，根据所述相似度确定所述候选主题词的权重值，并根据所述候选主题词的权重值确定所述主题词特征。

在其中一些实施例中，所述提取模块还包括：

第三提取单元，用于从所述候选词集合中识别实体候选词，从所述实体候选词中删除预设词性的实体候选词，得到所述实体特征。

在其中一些实施例中，所述处理模块包括：

第一判断单元，用于判断所述待检测的威胁情报文本的文本特征与已有主题簇中当前层级的已有主题的文本特征的相似度是否高于与所述当前层级的已有主题对应的预设阈值；

第一分类单元，用于在所述待检测的威胁情报文本的文本特征与所述当前层级的已有主题的文本特征的相似度高于所述预设阈值的情况下，将所述待检测的威胁情报文本分类到所述当前层级的下一层级的主题。

在其中一些实施例中，所述装置还包括：

第一处理模块，用于在所述待检测的威胁情报文本的文本特征与所述当前层级的已有主题的文本特征的相似度不高于所述预设阈值的情况下，在所述当前层级下增加新增主题，并将所述待检测的威胁情报文本分类到所述新增主题。

在其中一些实施例中，所述装置还包括：

第二处理模块，用于从聚类到相同已有主题的多个威胁情报文本中选取基准威胁情报文本，分别计算所述多个威胁情报文本中每个威胁情报文本与所述基准威胁情报文本的相似度，并将得到的相似度的平均值作为与所述相同已有主题对应的预设阈值。

第三方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的威胁情报的主题检测方法。

相比于相关技术，本申请实施例提供的一种威胁情报的主题检测方法、装置和计算机存储介质，通过从预设数据源中爬取待检测的威胁情报文本；从待检测的威胁情报文本中抽取候选词集合，并从候选词集合中提取多种关键特征；融合多种关键特征，得到待检测的威胁情报文本的文本特征；采用层次聚类算法，根据待检测的威胁情报文本的文本特征将待检测的威胁情报文本聚类到已有主题或者新增主题，解决了相关技术中对威胁主题不能及时发现的问题，实现了从海量文档数据中高效精准的发现和提取威胁主题。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的威胁情报的主题检测方法的流程图。

图2是本申请实施例的待检测的威胁情报文本预处理流程图。

图3是本申请实施例的关键特征提取的流程图。

图4是本申请实施例的威胁主题检测的框架图。

图5是本申请实施例中威胁主题发现与跟踪流程图。

图6是根据本申请实施例的威胁情报的主题检测装置的结构图。

图7是根据本申请实施例的计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本申请中描述的各种技术科用于各种信息网络安全系统、网络防御系统。对本申请的实施例进行描述之前，对以下技术术语进行说明如下：

威胁情报(Cyber Threat Intelligence，CTI)指收集证据知识的任务，包括关于现存的或潜在威胁和风险的背景、机制、指标、意义和行动的建议，可用于对威胁或风险做出响应的决策。

Word2Vec模型是一类神经网络模型，在给定无标签语料库中，用一个个能表达语义信息的词向量来表示语料中的词语，Word2Vec模型训练的词向量包含词的语义信息并且能体现词之间的线性关系。

LDA主题模型是一种文档主题生成模型。

本实施例提供了一种威胁情报的主题检测方法。图1是根据本申请实施例的威胁情报的主题检测方法的流程图，如图1所示，该流程包括如下步骤：

步骤S101：从预设数据源中爬取待检测的威胁情报文本。

本实施例中，从预设数据源中爬取待检测的威胁情报文本是通过监控一系列网站，对特定类别的各安全网站的论坛、新闻、博客等安全资讯平台实时地爬取收集文章和评论数据。

步骤S102：从待检测的威胁情报文本中抽取候选词集合，并从候选词集合中提取多种关键特征，其中，所述关键特征包括：关键词特征、主题词特征和/或实体特征。

步骤S103：融合多种关键特征，得到待检测的威胁情报文本的文本特征。

步骤S104：采用层次聚类算法，根据待检测的威胁情报文本的文本特征将待检测的威胁情报文本聚类到已有主题或者新增主题。

通过上述步骤S101至步骤S104，采用从预设数据源中爬取待检测的威胁情报文本；从待检测的威胁情报文本中抽取候选词集合，并从候选词集合中提取多种关键特征；融合多种关键特征，得到待检测的威胁情报文本的文本特征；采用层次聚类算法，根据待检测的威胁情报文本的文本特征将待检测的威胁情报文本聚类到已有主题或者新增主题。解决了相关技术中处理海量文档数据效率低，挖掘高纬度数据特征不精准，对威胁主题不能及时发现的问题，实现了将从待检测的威胁情报文本提取的关键特征融合得到威胁情报文本的文本特征，并根据文本特征聚类判断出该待检测威胁情报文本的主题类型，高效地处理海量文档数据，精准的挖掘高纬度数据特征，及时发现威胁主题。

下面通过可选实施例对本申请实施例进行描述和说明。

在其中一些实施例中，步骤S102中的从待检测的威胁情报文本中抽取候选词集合通过如下步骤实现：

步骤S102-1：对待检测的威胁情报文本进行预处理，得到候选词集合；其中，预处理包括以下至少之一：去重、停用词删除、标点符号去除、大小写转换、词性标注及去除、词形还原。

附图2是待检测的威胁情报文本预处理流程图。如图2所示，对待检测的威胁情报文本进行预处理的进一步阐述如下：

将预处理操作得到的词语作为特征抽取的候选词，能提高特征提取效率及效果。

预处理包括如下步骤：

1、词性标注

利用词性标注方法标注文章中的词语，剔除不可能是文章主题词的词性的词语，减少文章维度，提高关键特征抽取的效率和效果。本申请实施例采用的是自然语言处理(NLP)中的自然语言处理库(NLTK)进行词性标注。

2、繁简体、特殊字符转换

繁简体、特殊字符转换，也就是词形还原，由于爬虫得到的文章中相同原形的词经常以不同形态出现，在后续特征提取阶段这类词通常会当做两个词进行处理，比如同一个字符的繁简体、特殊编码字符等，削弱了这类词的语义及统计作用，因此，需要通过词形还原将不同形态的相同原词转为统一形态的原词。

3、特征候选词提取

由于限定词、基数词、量词等词性的词和文章主题无关，因此预处理阶段去除文章中“限定词(DT)”、“副词(adverb、RB)”、“基数词(CD)”、“连词(CC)”、“存在句(existential there、EX)”、“介词或从属连词(preposition or conjunction，subordinating、IN)”、“形容词比较级(adjective，comparative、JJR)”、“情态助动词(modal auxiliary、MD)”、“WH限定词(WH-determiner、WDT)”、“WH代词(WH-pronoun、WP)”等词性的词。然后将剩余的词进行词形还原，将相同原形不同形态的词还原为其一般形式。

经过上述词性标注，繁简体、特殊字符转换，特征候选词提取处理后保留的词作为关键特征抽取的候选词。

在对如下实施例进行阐述之前，先对以下相关技术进行说明如下：

1、基于词频-逆文本频率(Term Frequency-InverseDocument Frequency、TF-IDF)优化的关键词特征提取方法。

TF-IDF是一种文本特征降维或提取的方法，其主要思想是在一篇文章中某个词出现的概率越大，即词频TF越高；而该词在其他文章中出现的很少，即逆文档概率IDF越高，则说明该词具有很高的辨识度。文章中每个词的逆文档频率IDF是一个长数值，而威胁情报的数据集是动态变化的，动态数据集中逆文档频率用固定的IDF集合不能很好的表示。

现有的TF计算方法对于文章中的停用词、词的词性、词在文本中出现的位置对词权重的影响这些因素都没有考虑，导致很多文章主题词直接用该算法会被误判不是关键词。本申请中使用的TF-IDF计算方法提取关键词采用的是：首先去除了文本中停用词、量词、限定词等非文章关键词，剩下的词作为关键词的候选词，同时，本申请中使用的TF-IDF算法还考虑了对于文章中词的位置，不同位置的词重要程度不同，如标题比正文中的词重要，本申请中使用的基于候选关键词的位置的改进的TF方法公式如下：

式中的TF(t，d)表示t出现在文档d中的概率，T表示由标题部分的词构成的集合，C表示由正文中的词构成的集合，α表示词出现在标题中的权重，α越大表示标题中的词越重要。

此外，本申请中将IDF部分的计算优化成增量IDF方法，解决IDF值不随数据集动态更改的问题，使用的公式如下：

式中N _c表示当前时间段数据库中总的文档数量，n(t，c)表示数据库中包含词t的文档数量，由于数据库中数据集是动态变化的，所以本申请中改变候选词的权重使N _c与n(t，c)随时间动态变化。

2、本申请中使用文档主题生成模型(LDA主题模型)来提取文章中的主题，但由于LDA主题模型提取的文章中的候选主题词比较广泛，高频词出现在候选主题词中的概率大，而这些词不能很好地体现文章的主题，因此需要从候选主题词中进一步进行剔除主题特征词。同时，由于文章主题词与文章的类别密切相关，因此本申请中采用计算候选主题词向量与标签类别词向量的相似度，将此相似度作为候选主题词权重系数，重新计算候选主题词权重，筛选主题词。

图3是关键特征提取的流程图。如图3所示，在其中一些实施例中，步骤S102中的从候选词集合中提取关键词特征通过如下步骤实现：

步骤S102-2：从候选词集合中提取关键词，确定关键词的词频和逆文档频率，根据词频和逆文档频率确定关键词的权重值，并根据关键词的权重值确定关键词特征。

需要说明的是，本实施例中的关键词特征提取方法如下：首先，使用考虑词位置的TF方法计算文章中关键候选词的词频；之后，利用增量IDF方法计算文章中关键候选词的逆文档频率；最后基于上述的TF-IDF方法计算文章中关键候选词的权重，提取文章关键词特征。

在其中一些实施例中，步骤S102中的从候选词集合中提取主题词特征通过如下步骤实现：

步骤S102-3：从候选词集合中提取候选主题词，计算候选主题词与预设标签类别词的相似度，根据相似度确定候选主题词的权重值，并根据候选主题词的权重值确定主题词特征。

需要说明的是，本实施例中的主题词特征提取方法如下：首先，利用LDA模型提取文章候选主题词；然后，利用自然语言处理(NLP)中的Word2Vec模型训练文章词向量；随之，计算候选主题词向量与标签类别词向量的相似度，将此相似度的词值作为候选主题词权重的系数，更新确定候选主题词的权重值，提高与标签类别相似度高的候选主题词的权重值；最后，提高某些词性以及包含在标题中的候选主题词的权重，提取文章主题词特征。

在其中一些实施例中，步骤S102中的从候选词集合中提取实体特征通过如下步骤实现：

从候选词集合中识别实体候选词，从实体候选词中删除预设词性的实体候选词，得到实体特征。

需要说明的是，本实施例中，实体特征提取方法如下：首先，获取每篇文章的人物、地点、组织机构实体；然后，去除某些词性的实体，这些实体词(预设词性的实体词)不可能是本申请实施例需要的实体特征；最后，提取文章的实体特征。

在申请的实施例中，从候选词集合中提取多种关键特征后，采用特征融合方法合并上述提取的关键词特征、主题词特征和实体特征，得到文章的关键特征，然后，根据关键特征构建文章特征向量作为主题分层聚类的输入。

在其中一些实施例中，步骤S104中的采用层次聚类算法，根据待检测的威胁情报文本的文本特征将待检测的威胁情报文本聚类到已有主题或者新增主题通过如下步骤实现：

步骤S104-1：判断待检测的威胁情报文本的文本特征与已有主题簇中当前层级的已有主题的文本特征的相似度是否高于与当前层级的已有主题对应的预设阈值；

步骤S104-2：在待检测的威胁情报文本的文本特征与当前层级的已有主题的文本特征的相似度高于预设阈值的情况下，将待检测的威胁情报文本分类到当前层级的下一层级的主题。

需要说明的是，本申请中使用的层次聚类算法是在基于质心连锁(centroid linkage)方法的层次聚类模型上采用向量乘积相似度的一种改进型的层次聚类模型。

本申请中使用的层次聚类算法对待检测的威胁情报文本进行主题聚类包括主题聚类与主题跟踪，其中，主题聚类主要是利用聚类模型聚类每个时间段的待检测的威胁情报文本的文本特征，得到实时的主题；主题跟踪是将实时的主题与已有主题进行相似度比较，实时识别新的主题以及已有主题的事件延续。

本申请的威胁情报的主题检测方法，通过计算当前聚类的主题与已有主题的相似度，选取与当前主题相似度最高的已有主题，若其相似度大于设定的阈值，则将当前主题文本归并到已有主题簇，否则创建新的主题簇，插入数据库。

其中，当前主题与已有主题簇相似度采用如下计算方法：

首先对每个主题选取主题种子文章，主题种子文章的选择依据是计算主题内所有文本特征与某一文本特征的相似度，然后得到相似度的平均值，选取平均值最高的前N个文章作为主题种子文章。即如果这篇文章与主题内所有文章的相关性都很高，那么它就是一篇种子文章。然后计算所有已有主题种子文章的文本特征与当前聚类的主题种子文章的文本特征的相似度，得到相似度算术平均值作为两主题的相似度的值。

上述的质心连锁(centroid linkage)方法是一种以主题质心向量作为主题向量，以主题质心向量每一维度为主题内所有文章特征向量对应维度元素值的平均值的层次聚类算法，该质心连锁(centroid linkage)方法计算主题向量相似度是使用余弦(consine)相似度、欧式距离来度量的。但上述的centroid linkage方法的主题向量余弦(consine)夹角小，主题向量相似度高，不能表示两主题之间的文本(文章)都相似，因此该centroid linkage方法度量主题间的相似度无法确保合并后新主题的文章之间相似度在可接受范围内。

为了确保合并后的新主题(相对当前聚类的主题而言属于已有主题)的文章之间相似度在可接受范围内，也就是确保与当前聚类的主题进行相似度计算的已有主题内的所有文章都与该已有主题的相关性都高，本申请的层次聚类算法在确定选取与当前聚类的主题进行相似度计算的已有主题之前，采用向量乘积方法对上述已有主题内的所有文章进行相关性计算，使得在完成上述向量乘积运算后，上述已有主题内的所有文章都与该主题相关。例如，当合并后的新主题(相对当前聚类的主题而言属于已有主题)与多个文章向量有关，那么进行向量乘积运算后，合并后的新主题会与多个文章向量的向量乘积成正比。只要新主题与其包括的多个文章向量的向量乘积成正比，则表征合并后的新主题的所有文章的相关性都高。

本申请使用的层次聚类算法在保留质心连锁(centroid linkage)度量两主题相似度计算复杂度低的优势下，通过向量乘积运算改善了质心连锁(centroid linkage)计算主题向量相似度容易形成“聚集效应”的缺点。上述的聚集效应是指：随着主题合并次数增加，容易出现某一主题文章数量多、主题内的某些文章相似度低的问题。

在其中一些实施例中，所述方法还实施如下步骤：步骤S105：在待检测的威胁情报文本的文本特征与当前层级的已有主题的文本特征的相似度不高于预设阈值的情况下，在当前层级下增加新增主题，并将待检测的威胁情报文本分类到新增主题。

通过步骤S105，当采用层次分类算法对待检测的威胁情报文本的文本特征进行主题分类时，实施自顶向下的方式逐层聚类分类到最底层的新增主题或已有主题上。

在其中一些实施例中，所述方法还实施如下步骤：步骤S106：从聚类到相同已有主题的多个威胁情报文本中选取基准威胁情报文本，分别计算多个威胁情报文本中每个威胁情报文本与基准威胁情报文本的相似度，并将得到的相似度的平均值作为与相同已有主题对应的预设阈值。

图4是本申请实施例中威胁主题检测的框架图；图5是威胁主题发现与跟踪流程图。如图4和5所示，本申请实施例的威胁情报的主题检测过程中，还进行如下具体的步骤：

1、每隔一段时间抓取最新安全领域数据；之后对数据进行预处理；然后利用上述三种特征提取方法(关键词特征提取方法、主题词特征方法和实体特征方法)提取文本特征(多种关键特征)；最后对文本特征进行特征融合，得到文本特征向量(待检测的威胁情报文本的文本特征)。

2、使用聚类模型进行主题聚类，准确地发现实时威胁主题簇，其中，聚类的对象为待检测的威胁情报文本的文本特征。

3、将实时发现的威胁主题与主题簇中已有主题进行相似度比较，选取与当前主题相似度最高的已有主题，若其相似度高于设定阈值，则将识别的主题与已有主题合并，然后插入已有主题库；若相似度低于设定的阈值，则将实时识别的威胁主题作为新兴主题插入主题库。

4、淘汰过时主题，即删除数据库中超过N天未更新的主题簇，减轻服务器存储负担。

本实施例还提供了一种威胁情报的主题检测装置，该装置用于实现上述实施例及可选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图6是根据本申请实施例的威胁情报的主题检测装置的结构图，如图6所示，该装置包括：

获取模块61，用于从预设数据源中爬取待检测的威胁情报文本；

提取模块62，与获取模块61耦合连接，用于从待检测的威胁情报文本中抽取候选词集合，并从所述候选词集合中提取多种关键特征，其中，所述关键特征包括：关键词特征、主题词特征和/或实体特征；

融合模块63，与提取模块62耦合连接，用于融合多种关键特征，得到待检测的威胁情报文本的文本特征；

处理模块64，与融合模块63耦合连接，用于采用层次聚类算法，根据待检测的威胁情报文本的文本特征将待检测的威胁情报文本聚类到已有主题或者新增主题。

在其中一些实施例中，获取模块61包括：

预处理单元，用于对待检测的威胁情报文本进行预处理，得到候选词集合；其中，预处理包括以下至少之一：去重、停用词删除、标点符号去除、大小写转换、词性标注及去除、词形还原。

在其中一些实施例中，提取模块62包括：

第一提取单元，与预处理单元耦合连接，用于从候选词集合中提取关键词，确定关键词的词频和逆文档频率，根据词频和逆文档频率确定关键词的权重值，并根据关键词的权重值确定关键词特征。

在其中一些实施例中，提取模块62还包括：

第二提取单元，与预处理单元耦合连接，用于从候选词集合中提取候选主题词，计算候选主题词与预设标签类别词的相似度，根据相似度确定候选主题词的权重值，并根据候选主题词的权重值确定主题词特征。

在其中一些实施例中，提取模块62还包括：

第三提取单元，与预处理单元耦合连接，用于从候选词集合中识别实体候选词，从实体候选词中删除预设词性的实体候选词，得到实体特征。

在其中一些实施例中，处理模块64包括：

第一判断单元，与融合模块63耦合连接，用于判断待检测的威胁情报文本的文本特征与已有主题簇中当前层级的已有主题的文本特征的相似度是否高于与当前层级的已有主题对应的预设阈值；

第一分类单元，与第一判断单元耦合连接，用于在待检测的威胁情报文本的文本特征与当前层级的已有主题的文本特征的相似度高于预设阈值的情况下，将待检测的威胁情报文本分类到当前层级的下一层级的主题。

在其中一些实施例中，装置还包括：

第一处理模块，与融合模块63耦合连接，用于在所述待检测的威胁情报文本的文本特征与所述当前层级的已有主题的文本特征的相似度不高于所述预设阈值的情况下，在所述当前层级下增加新增主题，并将所述待检测的威胁情报文本分类到所述新增主题。

在其中一些实施例中，装置还包括：

第二处理模块，与处理模块64耦合连接，用于从聚类到相同已有主题的多个威胁情报文本中选取基准威胁情报文本，分别计算多个威胁情报文本中每个威胁情报文本与基准威胁情报文本的相似度，并将得到的相似度的平均值作为与相同已有主题对应的预设阈值。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

另外，结合图1描述的本申请实施例威胁情报的主题检测方法可以由计算机设备来实现。图7为根据本申请实施例的计算机设备的硬件结构示意图。

计算机设备可以包括处理器71以及存储有计算机程序指令的存储器72。

具体地，上述处理器71可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器72可以包括用于文本或指令的大容量存储器。举例来说而非限制，存储器72可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(Solid State Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器72可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器72可在文本处理装置的内部或外部。在特定实施例中，存储器72是非易失性(Non-Volatile)存储器。在特定实施例中，存储器72包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(Random Access Memory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-Only Memory，简称为PROM)、可擦除PROM(Erasable Programmable Read-Only Memory，简称为EPROM)、电可擦除PROM(Electrically Erasable Programmable Read-Only Memory，简称为EEPROM)、电可改写ROM(Electrically Alterable Read-Only Memory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-Access Memory，简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory，简称为FPMDRAM)、扩展文本输出动态随机存取存储器(Extended Data Out Dynamic Random Access Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器72可以用来存储或者缓存需要处理和/或通信使用的各种文本文件，以及处理器71所执行的可能的计算机程序指令。

处理器71通过读取并执行存储器72中存储的计算机程序指令，以实现上述实施例中的任意一种威胁情报的主题检测方法。

在其中一些实施例中，计算机设备还可包括通信接口73和总线70。其中，如图7所示，处理器71、存储器72、通信接口73通过总线70连接并完成相互间的通信。

通信接口73用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信接口73还可以实现与其他部件例如：外接设备、图像/文本采集设备、文本库、外部存储以及图像/文本处理工作站等之间进行文本通信。

总线70包括硬件、软件或两者，将计算机设备的部件彼此耦接在一起。总线70包括但不限于以下至少之一：文本总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制，总线70可包括图形加速接口(Accelerated Graphics Port，简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA)总线、前端总线(Front Side Bus，简称为FSB)、超传输(Hyper Transport，简称为HT)互连、工业标准架构(Industry Standard Architecture，简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count，简称为LPC)总线、存储器总线、微信道架构(Micro Channel Architecture，简称为MCA)总线、外围组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial Advanced Technology Attachment，简称为SATA)总线、视频电子标准协会局部(Video Electronics Standards Association Local Bus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线70可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该计算机设备可以基于获取到的待检测的威胁情报文本，执行本申请实施例中的威胁情报的主题检测方法，从而实现结合图1描述的威胁情报的主题检测方法。

另外，结合上述实施例中的威胁情报的主题检测方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种威胁情报的主题检测方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种威胁情报的主题检测方法，其特征在于，所述方法包括：

从预设数据源中爬取待检测的威胁情报文本；

从待检测的威胁情报文本中抽取候选词集合，并从所述候选词集合中提取多种关键特征，其中，所述关键特征包括：关键词特征、主题词特征和/或实体特征；

融合所述多种关键特征，得到所述待检测的威胁情报文本的文本特征；

采用层次聚类算法，根据所述待检测的威胁情报文本的文本特征将所述待检测的威胁情报文本聚类到已有主题或者新增主题。
根据权利要求1所述的威胁情报的主题检测方法，其中，从所述待检测的威胁情报文本中抽取候选词集合包括：

对所述待检测的威胁情报文本进行预处理，得到所述候选词集合；其中，所述预处理包括以下至少之一：去重、停用词删除、标点符号去除、大小写转换、词性标注及去除、词形还原。
根据权利要求1所述的威胁情报的主题检测方法，其中，从所述候选词集合中提取所述关键词特征包括：

从所述候选词集合中提取关键词，确定所述关键词的词频和逆文档频率，根据所述词频和所述逆文档频率确定所述关键词的权重值，并根据所述关键词的权重值确定所述关键词特征。
根据权利要求1所述的威胁情报的主题检测方法，其中，从所述候选词集合中提取所述主题词特征包括：

从所述候选词集合中提取候选主题词，计算所述候选主题词与预设标签类别词的相似度，根据所述相似度确定所述候选主题词的权重值，并根据所述候选主题词的权重值确定所述主题词特征。
根据权利要求1所述的威胁情报的主题检测方法，其中，从所述候选词集合中提取所述实体特征包括：

从所述候选词集合中识别实体候选词，从所述实体候选词中删除预设词性的实体候选词，得到所述实体特征。
根据权利要求1所述的威胁情报的主题检测方法，其中，采用层次聚类算法，根据所述待检测的威胁情报文本的文本特征将所述待检测的威胁情报文本聚类到已有主题或者新增主题包括：

判断所述待检测的威胁情报文本的文本特征与已有主题簇中当前层级的已有主题的文本特征的相似度是否高于与所述当前层级的已有主题对应的预设阈值；

在所述待检测的威胁情报文本的文本特征与所述当前层级的已有主题的文本特征的相似度高于所述预设阈值的情况下，将所述待检测的威胁情报文本分类到所述当前层级的下一层级的主题。
根据权利要求6所述的威胁情报的主题检测方法，其中，所述方法还包括：

在所述待检测的威胁情报文本的文本特征与所述当前层级的已有主题的文本特征的相似度不高于所述预设阈值的情况下，在所述当前层级下增加新增主题，并将所述待检测的威胁情报文本分类到所述新增主题。
根据权利要求6所述的威胁情报的主题检测方法，其中，所述方法还包括：

从聚类到相同已有主题的多个威胁情报文本中选取基准威胁情报文本，分别计算所述多个威胁情报文本中每个威胁情报文本与所述基准威胁情报文本的相似度，并将得到的相似度的平均值作为与所述相同已有主题对应的预设阈值。
一种威胁情报的主题检测装置，其特征在于，包括：

获取模块，用于从预设数据源中爬取待检测的威胁情报文本；

提取模块，用于从待检测的威胁情报文本中抽取候选词集合，并从所述候选词集合中提取多种关键特征，其中，所述关键特征包括：关键词特征、主题词特征和/或实体特征；

融合模块，用于融合所述多种关键特征，得到所述待检测的威胁情报文本的文本特征；

处理模块，用于采用层次聚类算法，根据所述待检测的威胁情报文本的文本特征将所述待检测的威胁情报文本聚类到已有主题或者新增主题。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至8中任一项所述的威胁情报的主题检测方法。