WO2021077642A1

WO2021077642A1 - 一种基于异构图嵌入的网络空间安全威胁检测方法及系统

Info

Publication number: WO2021077642A1
Application number: PCT/CN2020/072591
Authority: WO
Inventors: 文雨; 刘福承; 张东雪; 张博洋; 杨纯; 杜莹莹; 郑阳; 孟丹
Original assignee: 中国科学院信息工程研究所
Priority date: 2019-10-24
Filing date: 2020-01-17
Publication date: 2021-04-29
Also published as: CN110958220A; CN110958220B

Abstract

本申请实施例提供一种基于异构图嵌入的网络空间安全威胁检测方法及系统，包括：获取实体行为数据；根据元属性关联关系对所述实体行为数据中所有的数据项进行关联，获取数据项序列，并基于数据项序列构建异构图；基于图嵌入学习方法，将异构图中的每个节点转换成低维向量，获取每个节点的向量化表达；对所述向量化表达的特征进行分析处理，以判断所述向量化表达所对应的所述数据项是否为恶意行为。本实施例通过建立用于威胁检测的异构图，精简并向量化表示实体行为数据项，提供的针对网络空间安全的数据项级威胁检测，无需后期人工修正以及有标签的数据项作为训练样本，有效的提高了检测的精度和检测的可行性。

Description

一种基于异构图嵌入的网络空间安全威胁检测方法及系统

交叉引用

本申请引用于2019年10月24日提交的专利名称为“一种基于异构图嵌入的网络空间安全威胁检测方法及系统”的第2019110196209号中国专利申请，其通过引用被全部并入本申请。

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于异构图嵌入的网络空间安全威胁检测方法及系统。

背景技术

现代信息系统对于当今的企业和组织而言，已经成为重要且不可替代的组成部分。而该系统始终处于网络空间安全威胁的风险中，其中主要的网络空间安全威胁表现在两个方面，其一为内部攻击威胁，另一种是高级持续威胁(APT攻击)。

内部攻击威胁通常来自于内部恶意雇员，其具有合法访问信息系统的权限，并具有利用访问权限以破坏信息系统的机密性、完整性或可用性的威胁。APT攻击的威胁主体通常先渗透进入目标网络中的主机并窃取合法账号和权限，然后以此为基础，通过内部互联网络隐蔽且持续地入侵更多的主机并窃取机密信息。这两种攻击被认为是现代企业的主要安全威胁。然而，这两种攻击的检测和发现技术存在一定差异。

其中，对于内部攻击威胁的检测和识别一般是通过基于序列的威胁检测方法，通过对用户行为进行建模并以此发现异常行为。通常会将用户的各种操作(即数据项)转换为序列，这些序列基于各数据项之间的时序关系或因果关系，然后使用序列分析技术，例如深度神经网络，从历史事件中学习序列模式并预测接下来的事件，如果实际发生的事件与预测发生的事件存在较大偏离，则认为是异常事件。

本质上，这类方法对用户正常行为模式进行识别和建模，并将偏离正常行为模式的用户行为判断为异常行为。然而，这类检测方法忽略了数据项之间的其它有用关系，例如：整体比较用户单位时间窗口(如一天、一周)内的行为是内部威胁检测的一种常用方法，这类方法基于的前提是，用户在单位时间窗口内的行为在一定时期内具有相对稳定的规律性。而上述基于序列的威胁检测方法忽略了这种重要关系，因此导致检测性能不够理想。此外，这类方法还要求已知的正常行为数据，甚至需要大量有标签日志数据来训练模型。但在现实场景中，攻击行为相对正常行为非常罕见，因此限制了这类方法准确进行行为预测的能力。

另外，现今对于APT攻击的威胁检测技术主要包括：在通过分析实体登录行为来发现异常主机的基于登录结构图的威胁检测方法。虽然该方法通常能够分析主机之间的特定交互关系，然而无法检测前面提到的涉及许多其它操作(例如文件操作、网站浏览)的内部攻击。此外，这类方法发现的可疑主机，不可避免地同时包含许多正常行为和操作，从而需要大量的后期人工修正。

综上所述，现阶段对于网络空间安全威胁的检测面临以下三个问题：

1)如何同时检测内部攻击威胁以及APT攻击；

2)如何细粒度的检测APT攻击，尤其是深入挖掘和分析主机数据项之间的关联关系；

3)如何不依赖攻击样本训练实现威胁检测。

发明内容

本申请实施例提供了一种基于异构图嵌入的网络空间安全威胁检测方法及系统，用以解决现有技术中存在的网络空间安全威胁检测对象单一、精度低以及过度依赖检测样本训练的缺陷，实现对网络空间安全威胁的有效检测的目的。

第一方面，本申请实施例提供一种基于异构图嵌入的网络空间安全威胁检测方法，包括：获取实体行为数据；根据元属性关联关系对实体行为数据中所有的数据项进行关联，获取数据项序列，并基于数据项序列构建异构图；基于图嵌入学习方法，将异构图中的每个节点转换成低维向量，获取每个节点的向量化表达；对向量化表达的特征进行分析处理，以判断向量化表达所对应的数据项是否为恶意操作行为。

进一步地，上述根据元属性关联关系对实体行为数据中所有的数据项进行关联，获取数据项序列，并基于数据项序列构建异构图，包括：

设定多个元属性，根据元属性关联关系，对每类实体行为数据中的数据项进行关联，获取数据项序列；以每个数据项为节点，以数据项序列为边类型映射构建异构图。

进一步地，上述根据元属性关联关系，对每类实体行为数据中的数据项进行关联，包括：根据每个元属性之间的单位时间窗口内实体行为的因果关系和顺序关系、单位时间窗口内实体行为之间的相似性逻辑关系、操作对象之间的相似性逻辑关系中的一个或多个对每类实体行为数据中的数据项进行关联。

进一步地，上述设定多个所述元属性，包括：设定数据主体、操作对象、操作类型、操作时间以及对象主机中的至少两个为元属性。

进一步地，在根据元属性关联关系，对每类实体行为数据中的数据项进行关联之前，还包括：根据网络空间安全威胁场景，确定每个元属性关联关系的重要性，并根据重要性的大小，确定对实体行为数据中所有的数据项进行关联的程度。

进一步地，上述基于图嵌入学习方法，将异构图中的每个节点转换成低维向量，获取每个节点的向量化表达，包括：基于随机行走图遍历算法，根据所述异构图中的每条边的权重和类型，确定每个节点的节点序列；基于word2vec算法，根据每个节点的节点序列，计算每个节点的向量化表达。

进一步地，上述基于分类方法对向量化表达的特征进行分析处理，以判断向量化表达所对应的数据项是否为恶意操作行为，包括：

根据每个向量化表达的特征，基于异常检测算法对向量化表达进行分析，发现异常的向量化表达，则其所对应的数据项为恶意行为。

进一步地，上述基于异常检测对所述向量化表达进行分析，发现异常的所述向量化表达，则其所对应的所述数据项为所述恶意行为，包括：若所述向量化表达不属于期望的分类，则为异常；或者，若所述向量化表达不属于任何聚类集群或不属于期望的分布，则为异常；或者，若所述向量化表达所属的聚类集群的项数目小于异常阈值，则所述聚类集群中所有所述向量化表达为异常；或者，若所述向量化表达所属的分布包含的所述向量化表达数目小于异常阈值，则所述分布中所有所述向量化表达为异常。

进一步地，上述实体行为数据包括用户行为数据以及软件行为数据。

第二方面，本申请实施例提供一种基于异构图嵌入的网络空间安全威胁检测系统，包括：实体行为数据读取单元、异构图构建单元、图嵌入单元以及检测运算单元，其中：实体行为数据读取单元被配置为获取实体行为数据；异构图构建单元被配置为根据元属性关联关系对实体行为数据中所有的数据项进行关联，获取数据项序列，并基于数据项序列构建异构图；图嵌入单元被配置为基于图嵌入学习方法，将异构图中的每个节点转换成低维向量，获取每个节点的向量化表达；检测运算单元被配置为对所述向量化表达的特征进行分析处理，以判断所述向量化表达所对应的所述数据项是否为恶意操作行为。

第三方面，本申请实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中：处理器执行程序时实现如上述第一方面记载的基于异构图嵌入的网络空间安全威胁检测方法的步骤。

第四方面，本申请实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面记载的基于异构图嵌入的网络空间安全威胁检测方法的步骤。

本申请实施例提供的基于异构图嵌入的网络空间安全威胁检测方法及系统，通过建立用于威胁检测的异构图，精简并向量化表示实体行为数据项，提供的针对网络空间安全的数据项级威胁检测，无需后期人工修正以及有标签的行为数据作为训练样本，有效的提高了检测的精度和检测的全面性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施提供的现有技术中基于序列的威胁检测方法以及基于登录行为结构图进行网络空间安全威胁检测的示意图；

图2为本申请实施提供的基于异构图嵌入的网络空间安全威胁检测方法的流程示意图；

图3为本申请实施提供的又一基于异构图嵌入的网络空间安全威胁检测方法的流程示意图；

图4为本申请实施例提供的基于异构图嵌入的网络空间安全威胁检测系统的结构示意图；

图5为本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施提供的现有技术中基于序列的威胁检测方法以及基于登录行为结构图进行网络空间安全威胁检测的示意图，其中图1(a)中示出了获取的任意三天的实体行为数据，其中为表述方便，在图中仅示意出日志数据；图1(b)表示对图1(a)中数据项的属性字段；图1(c)为现有技术中的基于序列的威胁检测方法；图1(d)为现有技术中基于登录行为结构图进行网络空间安全威胁检测方法的流程示意图。

如图1(c)所示，在基于序列的威胁检测方法中，通过对图1(a)中的每一条数据项进行编码，并按照时间顺序排列为序列。然后利用深度学习网络模型，如长短期记忆模型(LSTM)，从过去的事件中学习各事件间的模式以及规律，并对接下来发生的事件进行预测。该方法由于主要是通过对之前发生过的网络威胁事件进行学习，即分析并记忆之前发生过的网络威胁事件中各数据项之间的因果关系以及顺序关系，来对当前发生的时间进行威胁性判断。因此，基于序列的威胁检测方法仅仅是根据数据项之间的因果关系以及顺序关系来进行威胁性检测，而忽略了数据项在其它方面有价值的关联关系，无法获取较高精度的检测结果。

一方面，由于通常情况下，用户每天的行为相对稳定且相似，通过以直接比较用户各单位时间窗口的行为差异可以分析出是否遭受网络威胁。例如：在图1中，相对于day1和day2，在day3存在大量的设备接入以及文件复制的操作，发生数据泄漏(遭受网络攻击)的可能性会更高。但采用基于序列的威胁检测方法，其中深度网络模型(如LSTM模型)，虽然能够分析出，在时间序列上事件之间的长期依赖关系，但是无法根据用户行为宏观上的相似程度(如day1和day2中具没有大量的设备接入以及文件复制的操作)的变化，对当前事件是否为网络攻击进行判断，造成检测精度低。

另一方面，采用基于序列的威胁检测方法仅仅考虑到各数据项之间的因果关系以及顺序关系而未兼顾到主机之间的交互关系，因此也不能适用于对高级持续威胁(APT攻击)的检测，造成检测性能单一。

再一方面，采用基于序列的威胁检测方法中的深度网络模型(或其它模型)需要大量待标签的行为数据来进行预训练，然而，在实际场景中即便是已知的攻击行为也是相当罕见的，从而难以获取有效的训练样本。

最后，传统的基于机器学习的检测方法，采用对用户在某个单位时间窗口内(如一天、一周)的行为进行建模，并输出包含用户可疑行为的具体时间段。但这类方法由于检测结果给出的时间段不可避免地包含了大量正常操作，因此均为粗粒度的检测方法。

图1(d)为现有技术中基于登录行为结构图进行网络空间安全威胁检测方法的流程示意图，如图1(d)所示，基于登录行为结构图进行网络空间安全威胁检测的方法，通过分析这种主机间的交互关系，发现异常登录行为，来检测APT攻击。例如，管理员可以定期的登录到一组主机上进行系统维护，而普通用户则只能访问其有访问权限的主机。如果是APT攻击的登录行为，则该APT攻击涉及的主机数量通常不同于正常登录行为，可以根据登录踪迹数据能够捕获这种异常登录。基于上述原因，能够基于登录行为异常，识别出被入侵的主机，再根据人工提取出被入侵的主机上的操作记录(数据项)，分析出是否遭受网络安全威胁。然而识别出的被入侵的主机的数据项中，往往也包含有许多正常的操作，从而造成检测精度低。并且人工提取特定领域特征也不适用于图1(c)所示的内部攻击威胁。

为了克服现有技术中对于网络空间安全威胁检测的诸多缺陷，本申请实施例提供一种基于异构图嵌入的网络空间安全威胁检测方法，如图2所示，包括但不限于以下步骤：

步骤S21：获取实体行为数据；

步骤S22：根据元属性关联关系对实体行为数据中所有的数据项进行关联，获取数据项序列，并基于数据项序列构建异构图；

步骤S23：基于图嵌入学习方法，将异构图中的每个节点转换成低维向量，获取每个节点的向量化表达；

步骤S34：对上述向量化表达的特征进行分析处理，以判断每个向量化表达所对应的数据项是否为恶意操作行为。

具体地，在本申请实施例步骤S21中，获取实体行为数据的方法可以是实时获取到各被监控主机上的实体行为数据，以实现实时监控；也可以是根据定期的收集各被监控主机上的实体行为数据，以实现事后检测。在本申请实施例中，不对如何获取到实体行为数据做出具体地限定。

进一步地，每个实体行为数据是由多个数据项组成的(其中所述的数据项是指实体行为数据中的任一条数据条目)，而每个数据项必然通过多个元属性之间的关联关系进行描述的。在本申请实施例步骤S22中，首先通过定义出多个元属性，并基于各元属性之间的关联关系，对待分析的实体行为数据中所有的数据项进行关联，组建成数据项序列。其中各元属性之间的关联关系可以包括因果关系、顺序关系、逻辑关系等；需要说明的是在组建成数据项序列的同时，不可忽视的是，各元属性之间也必然存在着诸多的关联关系；例如当元属性设置为对象主机时，该数据主体则包含着多个不同的对象主机，而各个对象主机之间也必然存在着不同的关联关系。在本申请实施例中，在建立数据项序列时，是综合各元属性之间的关联关系以及各元属性本身的关联关系进行创建的，并进一步的将构建的数据项序列进行映射以构建出异构图。

例如：将图1(a)中。根据实体行为数据可以获知，在day2中，管理员登录到自己的计算机，然后远程登录到服务器并打开了了一个文件夹，以查看系统的状态。基于本实施例的方法，由于可以将元属性设置为时间以及主体两个属性，并根据两个属性之间的关联关系，将同一用户的数据项按照时间的顺序进行关联，获取操作数据序列，最后将操作数据序列转换成异构图的一部分(或称作异构图子图)，再根据各操作数据序列之间的关联关系将每个异构图子图相连接组建成异构图。

进一步地，在步骤S23中，本实施例中所提供的图嵌入学习方法可以是一种基于机器学习的图标表示方法，主要用于将步骤S22中所构建的异构图中的节点(即各数据项)转换成低维向量，以获取每个节点的向量化表达。

在对于同构图的网络表示有多种方法，不过异构图在实际运用中更为广泛，异构图指的是图中的节点有不同的形式，图中节点之间的关系也有多种不同的形式。主要以下几种方法：其一，通过将异构图映射到同构图；其二，对不同类型的节转点使用不同类型的编码，其三，用特定类型的参数来扩展成对的解码器。其四，利用是通过对random walks的扩展。其中，在本申请实施例中可以是，基于random walks(行走算子)对上述异构图进行转换，以获取到每个节点的向量化表达。通过上述处理，保留了每个节点与其节点序列中其它节点之间的相近性，使得节点(数据项)及其相邻节点(与之关系密切的数据项)共有相似的嵌入(即向量化表达)。如图1(a)所示，day1(第一天)和day2(第二天)的数据项(设备接入操作)共有相近的向量化表达，而day3(第三天)的数据项则被表达成差异较大的向量。

在步骤S24中，本申请实施例提供的基于异构图嵌入的网络空间安全威胁检测方法中，通过对所述向量化表达的特征进行分析处理，以判断所述向量化表达所对应的所述数据项是否为恶意操作行为。

其中，上述分析处理的方法可以是基于无监督的分析方法，例如聚类算法，即先将上述向量化表达划分为不同的聚类集群，由于每个向量化表达与每个操作数据项相对应。因此，经过聚类后即可以将所有的操作数据项划分为多个不同的聚类集群。最后，通过对每一个聚类集群进行威胁判断，完成基于异构图嵌入的网络空间安全威胁检测。

上述分类方法也可以是基于有监督的分类处理的方法，如利用深度学习模型进行分析，即利用训练好的分类标签对学习模型进行训练后，将任意一个向量化表达输入至该学习模型后，获取到与所述向量化表达相对应的得分。然后，设定一个判断阈值，若得分低于(或高于)上述阈值，则判断与该向量化表达所对应的数据项为恶意操作行为。

需要说明的是在本申请实施例中，在获取到与每个数据项所对应的向量化表达后对于该向量化表达的分析处理的方式是不作具体地限定的。

本申请实施例提供的基于异构图嵌入的网络空间安全威胁检测方法，通过建立用于威胁检测的异构图，精简并向量化表示实体行为数据项，提供的针对数据项级网络空间安全的威胁检测，无需后期人工修正以及有标签的行为数据作为训练样本，有效的提高了检测的精度和检测的全面性。

基于上述实施例的内容，作为一种可选实施例，上述根据元属性关联关系对所述实体行为数据中所有的数据项进行关联，获取数据项序列，并基于数据项序列构建异构图，包括：

设定多个所述元属性，根据元属性关联关系，对每个实体行为数据中的数据项进行关联，获取数据项序列；以每个数据项为节点，以数据项序列为边类型映射构建异构图。

其中，所述根据所述元属性关联关系，对每个所述实体行为数据中的所述数据项进行关联，包括：根据每个元属性之间的单位时间窗口内用户操作的因果关系和顺序关系、单位时间窗口内用户操作之间的相似性逻辑关系、操作对象之间的相似性逻辑关系中的一个或多个对每个实体行为数据中的数据项进行关联。

其中，上述设定多个元属性，包括：设定数据主体、操作对象、操作类型、操作时间以及对象主机中的至少两个为元属性。

具体地，为了更为精确的在异构图中体现出个数据项之间的关联关系，可以将每个数据项归纳整理为由多个元属性(包括：主体、对象、操作类型、时间以及主机中的任意组合)所构成。其次在利用元属性关联关系进行构建异构图时，可以综合考虑各元属性自身的关联关系，以及各元属性之间的关联关系，选取合适的元属性进行组合，以尽量通过关联较少的节点便可以将各数据项之间的关联关系完整的映射至该异构图中。

例如：在图1(a)中，第二天的数据内容为：管理员登录到自己的计算机，然后远程登录到服务器并打开一个文件以查看系统状态。作为一种可选实施例，可以通过设置规则A，利用主体和时间两个元属性，将同一用户的所有数据项按照时间顺序进行关联。作为另一实施例，也可以设置规则B，通过利用主体、时间以及操作类型(如设备接入)这三个元属性，对上述内容进行关联。此时由于获取到的数据项序列中仅包含设备接入之一元属性的数据项，使得该数据项序列中的数据项数量远少于通过规则A所获取到的数据项序列中的数据项数量。

进一步地，在分别对每个单位时间窗口内的实体行为数据生成一个数据项序列之后，再设置其它的规则根据这些序列的相似性将它们进一步进行关联。由于第3天的序列涉及的设备接入操作，远远超过其它两天的序列，因此该序列与其它两天序列的关联权重较小。而在图嵌入学习中，则可以根据该权重差异，对每个节点进行不同的向量化表达。

进一步地，在本实施例中，根据不同的构图规则，可以将数据项转换为数据项序列(或子图)，从而构成一个异构图。其中关于异构图中的边，由于不同的关联关系在各种检测场景下具有不同的作用，因此可以使用边类型而不是权重来区分它们，即异构图的每种边类型对应一条定义某种特定关联关系的规则。

本申请实施例提供的基于异构图嵌入的网络空间安全威胁检测方法，通过设置多个元属性，并根据元属性之间的不同组合，可以有效减少所获取的数据项序列中操作数据项的数量的同时，还能够准确的反映出实际的关联关系，有效的提高了检测的效率和精度。

基于上述实施例的内容，作为一种可选实施例，上述基于图嵌入学习方法，将异构图中的每个节点转换成低维向量，获取每个节点的向量化表达，包括：基于随机行走图遍历算法，根据异构图中的每条边的权重和类型，确定每个节点的节点序列；基于word2vec算法，根据每个节点的节点序列，计算每个节点的向量化表达。

结合图3所示，在本申请实施例中，基于图嵌入学习方法包括两个子步骤，其一是根据异构图中的每条边的权重和类型，确定每个节点的节点序列；其二是根据上述节点序列，计算出节点的向量化表达。

其中，确定每个节点的节点序列的方法可以是基于随机行走图遍历算法(random walk)，即假设某个行走算子位于图中的某个节点上，该算子将根据每条边的权重和类型决定接下来要访问的节点。由该算子生成的路径，即节点序列，被视为这个路径上节点的上下文。例如在图1(a)中，当行走算子位于图中第1天或第2天的包含设备接入的数据项序列时，它较低可能选择第3天包含设备接入的数据项序列中的节点作为接下来的节点，因为第3天的该序列与其它两天的该序列的关联权重较小。同样的，当它在第3天序列的某个节点上时，也不大可能选择第1天或第2天该序列中的节点。因此，在本申请实施例中，要么关联包含第1天或第2天节点的路径创建每个所述节点的节点序列，要么关联单独包含第3天节点的路径创建每个所述节点的节点序列。

进一步地，在计算出节点的向量化表达可以使用word2vec模型，计算每个带有路径的节点的向量化表达。例如：在图1(a)所示的实体行为数据中，第1天和第2天的数据项(含设备接入操作)位于同一路径中，因此共有相近的向量化表达，而第3天的数据项则被表达成差异较大的向量。

基于上述实施例的内容，作为一种可选实施例，上述对向量化表达的特征进行分析处理，以判断向量化表达所对应的数据项是否为恶意操作行为，包括：基于异常检测对向量化表达进行分析，发现异常的所述向量化表达，则其所对应的数据项为恶意行为。

进一步地，所述基于异常检测对所述向量化表达进行分析，发现异常的向量化表达，则其所对应的数据项为所述恶意行为，包括：

若向量化表达不属于期望的分类，则为异常；

或者，若向量化表达不属于任何聚类集群或不属于期望的分布，则为异常；

或者，若向量化表达所属的聚类集群的项数目小于异常阈值，则聚类集群中所有向量化表达为异常；

或者，若向量化表达所属的分布包含的向量化表达数目小于异常阈值，则分布中所有向量化表达为异常。

其中，上述基于异常检测对向量化表达进行分析方法也可以是：根据每个向量化表达的特征，基于聚类算法对向量化表达进行聚类，获取多个聚类集群，判断聚类集群中是否存在恶意操作行为类；若存在恶意操作行为类，则恶意操作行为类中的每个向量化表达所对应的所述数据项为恶意操作行为。其中，上述聚类算法可以是SVC向量聚类法。作为一种可选实施例，其中判断聚类集群中是否存在恶意操作行为类，以完成网络空间安全威胁检测，包括但不限于以下步骤：

设定威胁判断阈值；若所有聚类集群的项数目均大于威胁判断阈值，则判断聚类集群中不存在恶意操作行为类；若任一聚类集群的项数目小于威胁判断阈值，则判断该聚类集群为恶意操作行为类。

具体地，由于相对于恶意操作，用户正常操作之间存在着相对更密切的关联关系；同样的道理，相对于用户正常操作，恶意操作之间也存在着相对更密切的关联关系，而用户正常操作与恶意操作之间的具有更少的关联关系甚至没有关联关系。因此在本申请实施例中，通过区别性的关联和表达这些关联关系，从而将它们分为不同的聚类。此外，由于恶意操作的数量相对正常操作数量要小很多，因此包含较小的项数目的聚类集群更可能包含恶意操作。

在本申请实施例中，可以根据检测精度的不同要求设置一个威胁判断阈值，用于跟每个聚类集群中包含的项数目进行比较，当聚类集群的项数目小于该威胁判断阈值，则判断不存在恶意操作行为类，即判断当前网络为安全。

进一步地，当某个聚类集群的项数目小于该威胁判断阈值时，则可以判断该聚类集群为恶意操作行为类。

进一步地，在本申请实施例中，实体行为数据可以包括用户行为数据以及软件进程数据，也可以包括其它的操作数据。其中软件进程数据，可以是进程日志，主要包括：系统调用(如子进程或线程的建立和撤销)、对于文件的各种访问操作、进程间的通信等。其中，用户行为数据可以是用户对于软件的操作所产生的数据，比如，该实体行为数据还可以包括对于支付宝等支付软件的登陆、密码的输入、消费记录的读取；对于微信、QQ等通信软件的好友资源的读取及下载等等，在本实施例中不对如何获取上述实体行为数据、以及所述实体行为数据的具体内容作出具体地限定。

本申请实施例还提供了一种基于异构图嵌入的网络空间安全威胁检测系统，如图4所示，包括但不限于：

实体行为数据读取单元41、异构图构建单元42、图嵌入单元43以及检测运算单元44，其中：

实体行为数据读取单元41被配置为获取实体行为数据；

异构图构建单元42被配置为根据元属性关联关系对实体行为数据中所有的数据项进行关联，获取数据项序列，并基于数据项序列构建异构图；

图嵌入单元43被配置为基于图嵌入学习方法，将异构图中的每个节点转换成低维向量，获取每个节点的向量化表达；

检测运算单元44被配置为基于分类方法对所述向量化表达的特征进行分析处理，以判断所述向量化表达所对应的所述数据项是否为恶意操作行为。

本申请实施例提供的基于异构图嵌入的网络空间安全威胁检测系统，通过建立用于威胁检测的异构图，精简并向量化表示实体行为数据项，提供的针对数据项级网络空间安全的威胁检测，无需后期人工修正以及有标签的操作数据作为训练样本，有效的提高了检测的精度和检测的全面性。

给了更充分的展示本申请实施例提供的基于异构图嵌入的网络空间安全威胁检测方法及系统，在实际检测过程中的先进性，以下通过两个不同类型的数据集分别对其进行验证，具体内容为：

一、关于数据集

在验证过程中，本申请实施例使用了两套数据集，一套合成数据集是美国卡耐基梅隆大学CERT中心的内部威胁测试数据集(对应于内部攻击威胁)，另一套真实数据集是美国洛斯阿拉莫斯国家实验室(LANL)的综合网络空间安全事件数据集(对应于高级持续威胁)。

其中，CERT数据集是一套全面的数据集，它包含完整的用户行为记录和攻击场景，且在本实施例中使用的是该数据集的最新版本r6.2。我们使用了五个数据文件，分别记录了用户登录操作、移动存储设备使用操作、文件操作、网络操作和电子邮件流量，以及另一个记录用户角色及其隶属部门的文件。该数据集总共包含4,000个用户在516天中的135,117,169个操作。在该数据集中包含5种攻击场景，6个恶意用户的470次恶意操作。此数据集显示了内部威胁检测中常见的数据极端不平衡问题。上述5类内部威胁场景，被用于评价log2vec是否可以根据不同场景确定每种边类型的重要性，并区别性地提取和表达这些关联关系。

LANL数据集包含了历时58天在LANL内部网络中12425位用户和17684台计算机上收集的超过10亿条的日志数据。它包含一种典型的APT攻击场景，即利用98个窃取的帐户进行的749次恶意主机登录。我们使用了两个分别关于身份认证和进程的数据文件来验证Log2vec的恶意操作检测效果，该数据集可用于评价log2vec是否能够检测APT攻击场景。

上述两个数据集香结合完全可以被用于证明log2vec检测用户恶意操作(包括内部威胁和APT攻击)的有效性，并能够涵盖各种攻击场景。

二、关于基线方法

在整个验证过程中，在使用CERT数据集的验证上，总共使用了11种基线方法，包括：数据项粒度的异常检测方法TIRESIAS和DeepLog；隐马尔可夫模型(markovs和markov-c)和深度学习模型(DNN和LSTM)，上述两个模型是在CERT数据集上目前最先进的技术；检测恶意信息流的高级方法STREAMSPOT；利用node2vec和metapath2vec来对比本实施例提供的系统(log2vec系统)中异构图随机行走效果；利用Log2vec-euclidean和log2vec-cosine证明本系统的聚类方法在解决本实施例中面对的聚类问题方面优于普通的k-means；利用集成检测方法和TIRESIAS来显示log2vec系统在LANL数据集上检测APT攻击的有效性；同时，引入了log2vec的新版本log2vec++，其参数可以根据不同的用户和攻击类型灵活设置。

三、关于实验效果

表1：不同方法的检测效果

表2：Log2vec分别在CERT数据集上对6个恶意用户和在LANL数据集

上50个攻击者的检测结果

本实施例通过采用AUC(ROC曲线下的面积)来比较不同方法的实验效果。由表1可知，log2vec的检测效果优于其它基线方法。TIRESIAS和DeepLog是当前最先进的数据项粒度的异常检测方法，但在CERT数据集检测上，它们都只是使用了利用因果关系和顺序关系，而没有考虑其它两类关联关系，即序列之间的相似性逻辑关系和操作对象之间的相似性逻辑关系。因此，不能获得令人满意的检测性能(0.39，0.10)。此外，缺乏足够的恶意操作样本同样会影响它们的检测性能。例如，TIRESIAS需要使用预先标记的安全事件进行训练，但是CERT数据集和LANL数据集都是不平衡数据集，如表2所示，某些用户仅执行了22个、18个甚至4个恶意操作，因此缺乏足够的恶意操作训练样本。

深度学习方法(DNN和LSTM)不同于TIRESIAS和DeepLog。具体来说，TIRESIAS将按时间顺序排列的数据项序列作为输入，而LSTM使用从每天日志数据中提取的统计特征构成输入序列。尽管DNN和LSTM在数据项粒度的检测性能不如log2vec，但由于它们考虑了更多的关联关系(例如，跨天序列之间的相似性逻辑关系)，它们的检测效果要好于TIRESIAS和DeepLog。隐马尔可夫模型(markov-s和markov-c)旨在识别发生恶意事件的可疑日期。STREAMSPOT旨在检测恶意信息流图。表1显示这些方法也无法达到log2vec的检测效果。

Metapath2vec和node2vec是高级图嵌入模型。由于它们不包括构图和检测算法，我们使用与log2vec相同的构图和检测方法。Node2vec被设计为处理同构图，因此检测效果较差。Metapath2vec能够处理异构图。实际上，metapath2vec和log2vec在图嵌入方面的主要区别是，log2vec具有调整边类型占比的能力，而metapath2vec却不支持。如果默认各类边类型的占比相同，则这两种方法效果相近。然而，内部威胁检测要求不同边类型的占比应该不同，因此log2vec能够到达更好的检测性能。

Log2vec-Euclidean和log2vec-cosine分别使用具有欧式距离和余弦值的k-means来检测恶意事件。但是，它们的表现并不理想。

图5示例了一种服务器的实体结构示意图，如图5所示，该服务器可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行如下方法，包括：获取实体行为数据；根据元属性关联关系对实体行为数据中所有的数据项进行关联，获取数据项序列，并基于数据项序列构建异构图；基于图嵌入学习方法，将异构图中的每个节点转换成低维向量，获取每个节点的向量化表达；用于基于分类方法对所述向量化表达的特征进行分析处理，以判断所述向量化表达所对应的所述数据项是否为恶意操作行为。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法，例如包括：获取实体行为数据；根据元属性关联关系对实体行为数据中所有的数据项进行关联，获取数据项序列，并基于数据项序列构建异构图；基于图嵌入学习方法，将异构图中的每个节点转换成低维向量，获取每个节点的向量化表达；用于基于分类方法对所述向量化表达的特征进行分析处理，以判断所述向量化表达所对应的所述数据项是否为恶意操作行为。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种基于异构图嵌入的网络空间安全威胁检测方法，其特征在于，包括：

获取实体行为数据；

根据元属性关联关系对所述实体行为数据中所有的数据项进行关联，获取数据项序列，并基于所述数据项序列构建异构图；

基于图嵌入学习方法，将所述异构图中的每个节点转换成低维向量，获取每个所述节点的向量化表达；

对所述向量化表达的特征进行分析处理，以判断所述向量化表达所对应的所述数据项是否为恶意行为。
根据权利要求1所述的基于异构图嵌入的网络空间安全威胁检测方法，其特征在于，所述根据元属性关联关系对所述实体行为数据中所有的数据项进行关联，获取数据项序列，并基于所述数据项序列构建异构图，包括：

设定多个所述元属性，根据所述元属性关联关系，对每类所述实体行为数据中的所述数据项进行关联，获取所述数据项序列；

以每个所述数据项为节点，以所述数据项序列为边类型映射构建所述异构图。
根据权利要求2所述的基于异构图嵌入的网络空间安全威胁检测方法，其特征在于，所述根据所述元属性关联关系，对每类所述实体行为数据中的所述数据项进行关联，包括：

根据每个元属性之间的单位时间窗口内实体行为的因果关系和顺序关系、单位时间窗口内实体行为之间的相似性逻辑关系、操作对象之间的相似性逻辑关系中的一个或多个对每类所述实体行为数据中的所述数据项进行关联。
根据权利要求2所述的基于异构图嵌入的网络空间安全威胁检测方法，其特征在于，所述设定多个所述元属性，包括：

设定数据主体、操作对象、操作类型、操作时间以及对象主机中的至少两个为所述元属性。
根据权利要求2所述的基于异构图嵌入的网络空间安全威胁检测方法，其特征在于，在所述根据所述元属性关联关系，对每类所述实体行为数据中的所述数据项进行关联之前，还包括：

根据网络空间安全威胁场景，确定每个所述元属性关联关系的重要性，并根据所述重要性的大小，确定对所述实体行为数据中所有的数据项进行关联的程度。
根据权利要求1所述的基于异构图嵌入的网络空间安全威胁检测方法，其特征在于，所述基于图嵌入学习方法，将所述异构图中的每个节点转换成低维向量，获取每个所述节点的向量化表达，包括：

基于随机行走图遍历算法，根据所述异构图中的每条边的权重和类型，确定每个所述节点的节点序列；

基于word2vec算法，根据每个所述节点的节点序列，计算每个所述节点的向量化表达。
根据权利要求1所述的基于异构图嵌入的网络空间安全威胁检测方法，其特征在于，所述对所述向量化表达的特征进行分析处理，以判断所述向量化表达所对应的所述数据项是否为恶意行为，包括：

根据每个所述向量化表达的特征，基于异常检测对所述向量化表达进行分析，发现异常的所述向量化表达，则其所对应的所述数据项为所述恶意行为。
根据权利要求7所述的基于异构图嵌入的网络空间安全威胁检测方法，其特征在于，所述基于异常检测对所述向量化表达进行分析，发现异常的所述向量化表达，则其所对应的所述数据项为所述恶意行为，包括：

若所述向量化表达不属于期望的分类，则为异常；

或者，若所述向量化表达不属于任何聚类集群或不属于期望的分布，则为异常；

或者，若所述向量化表达所属的聚类集群的项数目小于异常阈值，则所述聚类集群中所有所述向量化表达为异常；

或者，若所述向量化表达所属的分布包含的所述向量化表达数目小于异常阈值，则所述分布中所有所述向量化表达为异常。
根据权利要求1所述的基于异构图嵌入的网络空间安全威胁检测方法，其特征在于，所述实体行为数据包括用户行为数据以及软件行为数据。
一种基于异构图嵌入的网络空间安全威胁检测系统，其特征在于，包括：

实体行为数据读取单元、异构图构建单元、图嵌入单元以及检测运算单元；

所述实体行为数据读取单元被配置为获取实体行为数据；

所述异构图构建单元被配置为根据元属性关联关系对所述实体行为数据中所有的数据项进行关联，获取数据项序列，并基于所述数据项序列构建异构图；

所述图嵌入单元被配置为基于图嵌入学习方法，将所述异构图中的每个节点转换成低维向量，获取每个所述节点的向量化表达；

所述检测运算单元被配置为基于异常检测方法对所述向量化表达的特征进行分析处理，以判断所述向量化表达所对应的所述数据项是否为恶意操作行为。
一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至9任一项所述基于异构图嵌入的网络空间安全威胁检测方法。
一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至9任一项所述基于异构图嵌入的网络空间安全威胁检测方法。