WO2023173790A1

WO2023173790A1 - 一种基于数据包的加密流量分类系统

Info

Publication number: WO2023173790A1
Application number: PCT/CN2022/133120
Authority: WO
Inventors: 仇晶; 丁杰; 李鉴明; 周玲; 贾焰; 田志宏; 韩伟红; 顾钊铨; 王乐; 李树栋; 鲁辉; 苏申
Original assignee: 广州大学
Priority date: 2022-03-18
Filing date: 2022-11-21
Publication date: 2023-09-21
Also published as: CN114866486A; CN114866486B; US20240064107A1

Abstract

本发明涉及网络数据技术领域,且公开了一种基于数据包的加密流量分类系统,由捕获流量、分析数据包和流量分类三部分功能构成:捕获流量,在两个IP与对应端口号之间传输的所有数据包即网络流,该基于数据包的加密流量分类系统,目标是提供一种有效的方法来利用原始PCAP文件的信息,通过收集网络流数据包,构建机器学习模型,对加密流量进行分类,拦截恶意流量，构建特征矩阵时,除了获得基本的时空特征、头部特征、负载数据和统计特征外,还提出了数据包行为特征,数据包的行为表现了正常流量和恶意流量的区别，与此同时,本发明重点关注了加密协议尤其是TLS协议不同版本的区别,同时引入到模型中进行分析,从而提高系统对于加密流量的分类能力。

Description

一种基于数据包的加密流量分类系统

技术领域

本发明涉及网络数据技术领域，具体为一种基于数据包的加密流量分类系统，

背景技术

流量分类是一种将网络流量划分为相应类别的任务，在网络入侵检测系统等许多软件程序中具有至关重要的应用，流量分类可以追溯流量产生的来源，比如应用、操作系统以及浏览器的类型，在网络空间安全领域中，主要关注的类别是流量的安全性质，比如正常流量和恶意流量，从而识别网络中恶意软件产生的流量，帮助防火墙识别恶意连接入侵，恶意软件可以定义为旨在破坏计算机系统的程序，它是当今信息安全领域的最大威胁，

随着网络的发展，加密流量方法受到大范围推广，网络中传输的报文主体变成TLS/SSL协议加密后的密文，过去依赖明文内容的流量分类方法使用率不断下降，加密流量是一种对原始数据报文加密后，在网络上进行信息传输的技术，加密旨在保护网络通信的安全性和隐蔽性，保障用户隐私，但这种隐蔽性往往被攻击者利用于隐藏和部署恶意代码，远程命令控制或者造成数据泄露，因此，如何在不解密数据包的前提下对加密流量进行分类成为网络空间安全研究的主要问题，

网络上主要采用TLS协议对流量加密，TLS协议是为了互联网通信安全被设计出来的，其在两个通信的应用程序之间进行握手，从而建立起可靠的加密通信信道，传统方法如基于端口以及深度包检测技术对流量分类时依赖明文数据，因此这些方法在加密流量面前失去作用，这也导致了利用机器学习对加密流量进行分类的方法逐渐引起了大多数学者的关注，机器学习算法已被证明是处理加密流量分类任务最合适的方法，

机器学习算法相比传统流量分类方法具有更多的优点，比如机器学习算法能够处理加密流量分类，同时具备了很高的准确率，基于机器学习的加密流量检测方法通过对数据流元数据的统计分析，构建加密流量的统计属性组合作为指纹，对加密流量进行分类识别，Kim等提出了一种从加密的流量有效载荷数据中自动生成服务签名的新方法，使用证书交换过程中的证书颁发信息字段对服务进行签名，并构建证书、会话ID和IP地址对系列表以匹配流量的类别，建立映射表是基于规则的加密流量检测的常用方法，Shbair等将服务器名称指示(SNI)与IP对应的域名信息进行比较，依靠可信的DNS服务来验证真实目标服务器与声明的SNI值的一致性，从而监控HTTPs流量，Papadogiannaki等提出了一种模式语言，通过定期匹配固定的加密模式(例如相关数据包的出现频率或数据包的位置)来识别加密流量的类型，

以上的方法需要对字段特征进行人工过滤，匹配提取的规则对加密流量进行分类，这种方法也被称为基于规则的加密流量检测，这种方法具有轻量快速且容易构建的优点，但缺点在于需要人工筛选特征字段，仅可以对已知类别的流量构造映射表进行对应匹配，容易被攻击者采用数据包相关字段拼接或伪造的方法绕过，具有很高的误报率，2016年，思科提供了一种基于对TLS握手元数据和上下文分析的方法来识别加密流量中的威胁，他们以时间序列和统计数据为特征，既可以对未加密流量进行分类，也可以通过对加密流量的加密协议进行分析从而完成流量分类的目的，因为TLS协议在握手协议阶段，双方发送的数据仍然是以明文的形式进行传输，直到加密通信信道建立为止，这种方法关注到流量数据本身的特征以及在加密握手阶段数据的交互信息，而不是简单构建规则映射表，具有很高的扩展性和准确率，能够适应复杂多变的网络环境，

发明内容

本发明的目的在于提供一种基于数据包的加密流量分类系统，以解决上述背景技术中提出的问题，

为实现上述目的，本发明提供如下技术方案：一种基于数据包的加密流量分类系统，该系统总共由捕获流量、分析数据包和流量分类三部分功能构成；

捕获流量，在两个IP与对应端口号之间传输的所有数据包即网络流，这其中包含了大量与信息交互有关的重要数据包，同时也包含了众多超时重传、乱序以及错误的数据包，基于数据包的加密流量分类系统通过识别流量的IP、端口号、协议类别、标志位等信息对流中数据包信息进行筛选过滤，从而得到可靠的流数据；

流量分析

从流中可以提取到TLS、HTTP、DNS等协议信息以及相关字段，基于数据包的加密流量分类系统又提取了流中数据包的信息，对数据包的大小、流向、时延等重要信息进行了聚类分析，不同于以往研究中的数据包统计信息，提取出的数据包信息将数据包行为作为重要特征输入到模型之中进行训练，该系统从网络流中提取出四种特征，分别为时空特征、头部特征、负载特征和统计特征，

时空特征一般指网络流量传输过程中正常发送的数据包时间和空间属性；

头部特征包括流量五元组、DNS、HTTP信息；

负载特征，在建立安全的加密通信信道之前，客户端和服务端需交换数据报文以确认对方身份信息；在TLS协议中，客户端和服务端需要交换彼此支持的密码套件从而选择一种合适的加密算法加密数据报文；认证客户端和服务端的身份，服务端会发送证书给客户端，验证通信双方的身份；

统计特征，单个数据包具有三个属性：字节数、传输方向和包间延迟；然后进一步计算出上下行数据包数的比值、上下行字节数的比值；

正常流量会有异常流量包，恶意流量也会有正常流量包，采用k-means聚类方法对正常数据包和恶意数据包进行分类；

输入的数据集格式为D＝{x ₁，x ₂，...x _m}，输出是分类的结果C＝{C ₁，C ₂}，C1和C2分别是正常流量和恶意流量的标签，首先，从数据集D中随机选择两个样本作为质心集{μ ₁，μ ₂}，μ _j是集合的质心，之后计算每个样本x _i和质心μ _j的距离，距离计算方法为：

之后重新计算集合C中的质心，计算公式如下:

计算每个样本与两个质心之间的距离，将每个对象分配给距离它最近的质心，质心与它分配的样本就代表一个聚类，所有的样本被分配之后，如果所有的质心向量都没有被改变，则输出聚类的结果，最终，在我们的系统中，输出簇划分为：

C＝{C ₁，C ₂}.

得到流量中正常行为数据包和异常数据包的类别之后，我们进一步计算出正常行为数据包和异常数据宝在流量中的比例以及两者之间的比值，将它们作为参数添加到特征矩阵之中，最终得到样本集合S＝{S_1，S_2|x_i∈S}，其中x _i是集合S中的一个样本，

输入特征集之后，这篇论文使用LightGBM模型进行分类，LightGBM是一种实现GBDT算法的框架，主要思想是使用弱分类器迭代训练以得到最佳模型，支持高效的计算，并且具有更快的训练速度、更高的准确率等优点，LightGBM使用基尼系数而不是信息增益比，基尼系数越小，杂质越低，特性越好，概率分布的基尼系数表达式为：

Gini(p)＝2p(1-p)

p是属于正常流量的概率，我们使用的损失函数是对数似然损失函数，其计算公式如下：

优选的，所述数据包时间的属性有数据包发送时间、包间时延，

优选的，所述数据包的空间特征包括数据包长度、数据包发送方向和数据包个数，

优选的，所述DNS包括DNS域名、返回码、DNS地址和TTL生存期；可以从DNS中提取其他特征，如网站的受访问欢迎度排名；如网站Alexa排名；如网站域名的长度以及字符分布规律；如域名的高斯分布，

优选的，所述HTTP是使用最广泛的协议，常用于web浏览器和SMTP邮件服务中，能够提取出的特征包括HTTP协议类型、请求方式、状态码以及Content-Type字段，

优选的，所述根据客户端和服务端发送数据的来源可以简单定义流量的方向，上行流量为客户端发送给服务端的流量，下行流量为客户端接收服务端的流量，

优选的，所述根据数据包本身的属性，可以计算得到平均包长、最大包长、平均包间时延等属性，

优选的，所述L是损失函数，N是样本数，是输入实例的真实类别，是输入实例属于正常流量类别的预测概率，

与现有技术相比，本发明的有益效果是：该基于数据包的加密流量分类系统，目标是提供一种有效的方法来利用原始PCAP文件的信息，通过收集网络流数据包，构建机器学习模型，对加密流量进行分类，拦截恶意流量，构建特征矩阵时，除了获得基本的时空特征、头部特征、负载数据和统计特征外，还提出了数据包行为特征，数据包的行为表现了正常流量和恶意流量的区别，与此同时，本发明重点关注了加密协议尤其是TLS协议不同版本的区别，同时引入到模型中进行分析，从而提高系统对于加密流量的分类能力，

附图说明

图1为本发明数据集流量包示意图；

图2为本发明数据包特征字段图；

图3为本发明模型架构图，

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围，

请参阅图1-3，本发明提供一种技术方案：一种基于数据包的加密流量分类系统，该系统总共由捕获流量、分析数据包和流量分类三部分功能构成；

流量分析

从流中可以提取到TLS、HTTP、DNS等协议信息以及相关字段，基于数据包的加密流量分类系统又提取了流中数据包的信息，对数据包的大小、流向、时延等重要信息进行了聚类分析，不同于以往研究中的数据包统计信息，提取出的数据包信息将数据包行为作为重要特征输入到模型之中进行训练，该系统从网络流中提取出四种特征，依次是时空特征、头部特征、负载特征和统计特征，

时空特征一般指网络流量传输过程中正常发送的数据包时间和空间属性，数据包的时间属性有数据包发送时间、包间时延等等，数据包的空间特征包括数据包长度、数据包发送方向和数据包个数等等，

头部特征，包括流量五元组、DNS、HTTP信息，DNS包括DNS域名、返回码、DNS地址和TTL生存期，除此之外，还可以从DNS中提取其他特征，比如网站的受访问欢迎度排名，如网站Alexa排名；比如网站域名的长度以及字符分布规律，如域名的高斯分布，HTTP是使用最广泛的协议，常用于web浏览器和SMTP邮件服务中，能够提取出的特征包括HTTP协议类型、请求方式、状态码以及Content-Type字段等等，

负载特征，它是指封装在流数据上的内容，例如加密协议，在建立安全的加密通信信道之前，客户端和服务端必须交换数据报文以确认对方身份信息，这一过程通常称为加密协议的握手阶段，在TLS协议中，客户端和服务端需要交换彼此支持的密码套件从而选择一种合适的加密算法加密数据报文，为了认证客户端和服务端的身份，服务端会发送证书给客户端，验证通信双方的身份，值得一提的是，目前对加密流量的研究大多基于TLS1.2协议，而TLS1.3已经开始流行，相比于TLS1.2协议而言，TLS1.3协议的握手过程发送的报文以及握手次数更少，也给加密流量分类任务带来更多的挑战，

统计特征，可以从流量中获取，单个数据包具有三个属性：字节数、传输方向和包间延迟，根据数据包本身的属性，可以计算得到平均包长、最大包长、平均包间时延等属性，根据客户端和服务端发送数据的来源可以简单定义流量的方向，上行流量为客户端发送给服务端的流量，下行流量为客户端接收服务端的流量，由此，可以进一步计算出上下行数据包数的比值、上下行字节数的比值，统计特征可以从数值上看出正常流量和恶意流量的区别，这也是对加密流量进行分类的一个重要特征，但是为了获得统计特征，分类器必须在一个流或会话中获得许多数据包，因此它只能用于离线分类，

分类算法

本文提出的模型侧重于数据包行为的特征，我们认为不同的数据包有不同的行为，正常流量会有异常流量包，恶意流量也会有正常流量包，本文采用k-means聚类方法对正常数据包和恶意数据包进行分类输入的数据集格为D＝{x ₁，x ₂，...x _m}，输出是分类的结果C＝{C ₁，C ₂}，C1和C2分别是正常流量和恶意流量的标签，首先，从数据集D中随机选择两个样本作为质心集{μ ₁，μ ₂}，μ _j是集合的质心，之后计算每个样本x _i和质心μ _j的距离，距离计算方法为：

之后重新计算集合C中的质心，计算公式如下:

C＝{C ₁，C ₂}.

Gini(p)＝2p(1-p)

L是损失函数，N是样本数，是输入实例的真实类别，是输入实例属于正常流量类别的预测概率，

该基于数据包的加密流量分类系统，对加密协议以及数据包特征进行整合，提高了对恶意流量的识别准确率；支持多版本TLS协议，随着网络的发展，加密协议也在不断迭代，如TLS1.3协议自2018年提出以来得到广泛应用，保证了系统能够适应加密协议的迭代，在目前网络环境下拥有很高的适用性，

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

一种基于数据包的加密流量分类系统，其特征在于：该系统总共由捕获流量、分析数据包和流量分类三部分功能构成；

捕获流量，在两个IP与对应端口号之间传输的所有数据包即网络流，这其中包含了大量与信息交互有关的重要数据包，同时也包含了众多超时重传、乱序以及错误的数据包，基于数据包的加密流量分类系统通过识别流量的IP、端口号、协议类别、标志位等信息对流中数据包信息进行筛选过滤，从而得到可靠的流数据；

流量分析

从流中可以提取到TLS、HTTP、DNS等协议信息以及相关字段，基于数据包的加密流量分类系统又提取了流中数据包的信息，对数据包的大小、流向、时延等重要信息进行了聚类分析，不同于以往研究中的数据包统计信息，提取出的数据包信息将数据包行为作为重要特征输入到模型之中进行训练；该系统从网络流中提取出四种特征，分别为时空特征、头部特征、负载特征和统计特征，

时空特征一般指网络流量传输过程中正常发送的数据包时间和空间属性；

头部特征包括流量五元组、DNS、HTTP信息；

负载特征，在建立安全的加密通信信道之前，客户端和服务端需交换数据报文以确认对方身份信息；在TLS协议中，客户端和服务端需要交换彼此支持的密码套件从而选择一种合适的加密算法加密数据报文；认证客户端和服务端的身份，服务端会发送证书给客户端，验证通信双方的身份；

统计特征，单个数据包具有三个属性：字节数、传输方向和包间延迟；然后进一步计算出上下行数据包数的比值、上下行字节数的比值；

正常流量会有异常流量包，恶意流量也会有正常流量包，采用k-means聚类方法对正常数据包和恶意数据包进行分类；

输入的数据集格式为D＝{x ₁，x ₂，...x _m}，输出是分类的结果C＝{C ₁，C ₂}，C1和C2分别是正常流量和恶意流量的标签，首先，从数据集D中随机选择两个样本作为质心集{μ ₁，μ ₂}，μ _j是集合的质心，之后计算每个样本x _i和质心μ _j的距离，距离计算方法为：

之后重新计算集合C中的质心，计算公式如下:

计算每个样本与两个质心之间的距离，将每个对象分配给距离它最近的质心，质心与它分配的样本就代表一个聚类，所有的样本被分配之后，如果所有的质心向量都没有被改变，则输出聚类的结果，最终，在我们的系统中，输出簇划分为：

C＝{C ₁，C ₂}.

得到流量中正常行为数据包和异常数据包的类别之后，我们进一步计算出正常行为数据包和异常数据宝在流量中的比例以及两者之间的比值，将它们作为参数添加到特征矩阵之中，最终得到样本集合S＝{S_1，S_2|x_i∈S}，其中x _i是集合S中的一个样本，

输入特征集之后，这篇论文使用LightGBM模型进行分类，LightGBM是一种实现GBDT算法的框架，主要思想是使用弱分类器迭代训练以得到最佳模型，支持高效的计算，并且具有更快的训练速度、更高的准确率等优点，LightGBM使用基尼系数而不是信息增益比，基尼系数越小，杂质越低，特性越好，概率分布的基尼系数表达式为：

Gini(p)＝2p(1-p)

p是属于正常流量的概率，我们使用的损失函数是对数似然损失函数，其计算公式如下：
根据权利要求1所述的一种基于数据包的加密流量分类系统，其特征在于：所述数据包时间的属性有数据包发送时间、包间时延。
根据权利要求1所述的一种基于数据包的加密流量分类系统，其特征在于：所述数据包的空间特征包括数据包长度、数据包发送方向和数据包个数。
根据权利要求1所述的一种基于数据包的加密流量分类系统，其特征在于：所述DNS包括DNS域名、返回码、DNS地址和TTL生存期；可以从DNS中提取其他特征，如网站的受访问欢迎度排名；如网站Alexa排名；如网站域名的长度以及字符分布规律；如域名的高斯分布。
根据权利要求1所述的一种基于数据包的加密流量分类系统，其特征在于：所述HTTP是使用最广泛的协议，常用于web浏览器和SMTP邮件服务中，能够提取出的特征包括HTTP协议类型、请求方式、状态码以及Content-Type字段。
根据权利要求1所述的一种基于数据包的加密流量分类系统，其特征在于：所述根据客户端和服务端发送数据的来源可以简单定义流量的方向，上行流量为客户端发送给服务端的流量，下行流量为客户端接收服务端的流量。
根据权利要求1所述的一种基于数据包的加密流量分类系统，其特征在于：所述根据数据包本身的属性，可以计算得到平均包长、最大包长、平均包间时延等属性。
根据权利要求1所述的一种基于数据包的加密流量分类系统，其特征在于：所述L是损失函数，N是样本数，是输入实例的真实类别，是输入实例属于正常流量类别的预测概率。