WO2021258961A1

WO2021258961A1 - 基于改进K-means算法的网络流量分类方法及系统

Info

Publication number: WO2021258961A1
Application number: PCT/CN2021/095793
Authority: WO
Inventors: 张登银; 蔡岳; 肖毅; 赵莎莎
Original assignee: 南京邮电大学
Priority date: 2020-06-22
Filing date: 2021-05-25
Publication date: 2021-12-30
Also published as: US20220329504A1; CN111740921A; US11570069B2

Abstract

本发明公开了一种基于改进K-means算法的网络流量分类方法及系统，所述方法包括：判断初始聚类中心集合中网络流量数据点的总数NIC是否达到期望的网络流量簇数量k值，若没有达到k值，则计算高密度网络流量数据点集合中各个网络流量数据点的候选度量值，选择候选度量值最大的网络流量数据点并将其加入到初始聚类中心集合中，并从高密度网络流量数据点集合中去除该网络流量数据点，然后重复该步骤直至初始聚类中心集合中网络流量数据点的总数NIC达到k值，步骤结束。本发明能够保证较高的网络流量分类准确率。

Description

基于改进K-means算法的网络流量分类方法及系统

技术领域

本发明涉及一种基于改进K-means算法的网络流量分类方法及系统，属于网络流量分类技术领域。

背景技术

网络流量分类技术是分析网络流量特征和增强网络可控性的基本手段之一，早期的网络流量分类方法主要是基于端口，但是随着网络中的数据复杂度增加，很多协议不再遵循这样的规则，而很多p2p软件对端口的使用具有随机性和并发性的特点，这类软件大部分都同时使用多个端口，另外有些应用会故意伪装端口，例如使用DNS隧道可以绕开ACL或者流量审计，因此基于端口的网络流量分类不再可靠。

还有一种网络流量分类方法是基于数据包特征标识的，有些数据包特征标识只对应一个应用，从而可以通过识别特征标识来区分数据包，这种方法简单而且正确率高。但是一旦协议发生改变，该方法就要重新调节特征标识，从而对协议变化的反应不够迅速，另外，对于特征标识的识别工作很大程度上依赖人的劳动，这会耗费较大人力和时间。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种基于改进K-means算法的网络流量分类方法及系统，能够保证较高的网络流量分类准确率。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种基于改进K-means算法的网络流量分类方法，所述方法包括如下步骤：

步骤1：定义网络流量数据点数量为N；

定义距离第i个网络流量数据点为第n近的网络流量数据点与第i个网络流量数据点之间的欧氏距离为第i个网络流量数据点的第n距离，其中i＝1,2,3...N；

定义距离第i个网络流量数据点最近到第n近之间的所有网络流量数据点在以第i个网络流量数据点为球心，以第i个网络流量数据点的第n距离为半径r的多维空间超球体中的分布密度为第i个网络流量数据点的第n密度D _in，且距离第i个网络流量数据点从最近到第n近的网络流量数据点分别有且只有一个，其中所有网络流量数据点包括距离第i个网络流量数据点最近的网络流量数据点和距离第i个网络流量数据点为第n近的网络流量数据点；

输入待聚类的网络流量数据点集和期望的网络流量簇数量k；

确定第i个网络流量数据点的第n距离中n的具体数值；

计算所有网络流量数据点的第n密度的平均值avg；

将所有网络流量数据点中第n密度大于avg的网络流量数据点加入到高密度网络流量数据点集合中；

选取高密度网络流量数据点集合中第n密度最大的网络流量数据点，将其加入到初始聚类中心集合中，并从高密度网络流量数据点集合中去除该网络流量数据点；

步骤2：判断初始聚类中心集合中网络流量数据点的总数NIC是否达到期望的网络流量簇数量k值，若没有达到k值，则计算高密度网络流量数据点集合中各个网络流量数据点的候选度量值，选择候选度量值最大的网络流量数据点并将其加入到初始聚类中心集合中，并从高密度网络流量数据点集合中去除该网络流量数据点，然后重复步骤2直至初始聚类中心集合中网络流量数据点的总数NIC达到k值，步骤2结束。

结合第一方面，进一步的，第i个网络流量数据点的第n密度D _in的计算公式为

结合第一方面，进一步的，第i个网络流量数据点的第n距离中n的计算公式为

结合第一方面，进一步的，所有网络流量数据点的第n密度的平均值avg的计算公式为

结合第一方面，进一步的，高密度网络流量数据点集合中第j个网络流量数据点的候选度量值，记作cd _j，其计算公式为cd _j＝min(<A _j,ic1>,<A _j,ic2>,···,<A _j，icNIC>)，

其中，A _j为高密度网络流量数据点集合中第j个网络流量数据点，j＝1,2,3...NHD，NHD为高密度网络流量数据点集合中网络流量数据点的总数，ic1，ic2，···，icNIC分别为初始聚类中心集合中第1个，第2个···，第NIC个网络流量数据点，<A _j,ic1>为高密度网络流量数据点集合中第j个网络流量数据点与初始聚类中心集合中第1个网络流量数据点间的欧氏距离，以此类推，<A _j，icNIC>为高密度网络流量数据点集合中第j个网络流量数据点与初始聚类中心集合中第NIC个网络流量数据点间的欧氏距离。

第二方面，本发明提供了一种基于改进K-means算法的网络流量分类系统，所述系统包括：

第一定义模块：用于定义网络流量数据点数量为N；

第二定义模块：用于定义距离第i个网络流量数据点为第n近的网络流量数据点与第i个网络流量数据点之间的欧氏距离为第i个网络流量数据点的第n距离，其中i＝1,2,3...N；

第三定义模块：用于定义距离第i个网络流量数据点最近到第n近之间的所有网络流量数据点在以第i个网络流量数据点为球心，以第i个网络流量数据点的第n距离为半径r的多维空间超球体中的分布密度为第i个网络流量数据点的第n密度D _in，且距离第i个网络流量数据点从最近到第n近的网络流量数据点分别有且只有一个，其中所有网络流量数据点包括距离第i个网络流量数据点最近的网络流量数据点和距离第i个网络流量数据点为第n近的网络流量数据点；

输入模块：用于输入待聚类的网络流量数据点集和期望的网络流量簇数量k；

确定n值模块：用于确定第i个网络流量数据点的第n距离中n的具体数值；

计算平均值模块：用于计算所有网络流量数据点的第n密度的平均值avg；

第一加入模块：用于将所有网络流量数据点中第n密度大于avg的网络流量数据点加入到高密度网络流量数据点集合中；

第二加入模块：用于选取高密度网络流量数据点集合中第n密度最大的网络流量数据点，将其加入到初始聚类中心集合中，并从高密度网络流量数据点集合中去除该网络流量数据点；

判断模块：用于判断初始聚类中心集合中网络流量数据点的总数NIC是否达到期望的网络流量簇数量k值，若没有达到k值，则计算高密度网络流量数据点集合中各个网络流量数据点的候选度量值，选择候选度量值最大的网络流量数据点并将其加入到初始聚类中心集合中，并从高密度网络流量数据点集合中去除该网络流量数据点，然后重复判断模块所执行任务直至初始聚类中心集合中网络流量数据点的总数NIC达到k值，判断模块所执行任务结束。

第三方面，本发明提供了一种基于改进K-means算法的网络流量分类系统，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行前述任一项所述方法的步骤。

第四方面，计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一项所述方法的步骤。

与现有技术相比，本发明所达到的有益效果：

本发明基于改进K-means算法充分考虑了网络流量数据点的分布情况，放弃了随机产生初始聚类中心的方法，从而得到较好的初始聚类中心并以此进行聚类，使得训练效率得以提高，从而能够保证较高的网络流量分类准确率。

附图说明

图1是本发明实施例提供的选择初始聚类中心前的准备工作流程图；

图2是本发明实施例提供的选择初始聚类中心并聚类，建立聚类得到的网络流量簇与网络应用类型的映射关系的具体流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明实施例提供了一种基于改进K-means算法的网络流量分类方法，所述方法包括如下步骤：

步骤1：获取网络流量数据包。

步骤2：统计网络流量数据包的信息特征，包括数据包大小，数据包控制字节长度和流持续时间，并将这些信息特征向量化。

步骤3：对向量化的网络流量数据包中的数据进行缺失值补充，在本实施例中，采用均值填充的策略。

步骤4：通过向量化的信息特征之间的计算，得到三个额外的新特征，具体如下：使用C/S向包数除以S/C向包数得到的C/S和S/C向包数的比例值作为第一个新特征；使用C/S向总字节数加上S/C向总字节数得到的双向传输总字节数作为第二个新特征；使用包平均控制字节数除以包平均字节数得到的平均控制字节占比作为第三个新特征。

步骤5：训练集和测试集分离，在本实施例中，训练集是指交付给改进K-means算法并进行聚类的网络流量数据包集合，然后通过训练集获得分类模型；测试集是指根据聚类结果(即聚类得到的分类模型)将该集合中网络流量数据包划分为不同的网络应用类型，并统计该划分的正确率用以评估分类模型性能的网络流量数据包集合；测试集与训练集的并集为整个网络流量数据包集合，即为全集，测试集占全集的20％，训练集占全集的80％。

步骤6：选择带标记的网络流量数据包，由于本实施例基于非监督学习，因此认为所有网络流量数据包都不带有标记，但是如果所有的网络流量数据包都不带有标记，那么聚类得到簇之后就无法将簇与实际的应用类型建立映射关系，因此需要随机认为一些网络流量数据包具有标记，这样才能用极大似然法将簇与实际的应用类型对应起来并更加符合实际情况，从而针对大量未标记的网络流量数据包和少量已标记过的网络流量数据包，本发明实施例只需识别未标记的网络流量数据包；

步骤7：对向量化的网络流量数据包中的数据进行变换的预处理工作，处理方法为先采用对数变换方法，再采用标准化方法，最后采用归一化方法；在本实施例中，采用对数变换方法的具体步骤为，记待变换的数据为x，变换结果为x′，运用对数变换公式x′＝ln(x+1)进行对数变换，使得网络流量数据包的信息特征分布更加趋向正态分布，从而提高改进K-means算法对未标记的网络流量数据包识别的准确率。

如图1所示，步骤1-步骤7为选择初始聚类中心前的准备工作流程图。

步骤8：基于改进K-means算法选择初始聚类中心，将网络流量数据包抽象为网络流量数据点，具体步骤如下：

步骤(8.1):定义网络流量数据点数量为N；

步骤(8.2):定义距离第i个网络流量数据点为第n近的网络流量数据点与第i个网络流量数据点之间的欧氏距离为第i个网络流量数据点的第n距离(i＝1,2,3...N)；

步骤(8.3):定义距离第i个网络流量数据点最近到第n近之间的所有网络流量数据点(所有网络流量数据点包括距离第i个网络流量数据点最近的网络流量数据点和距离第i个网络流量数据点为第n近的网络流量数据点)在以第i个网络流量数据点为球心，以第i个网络流量数据点的第n距离为半径r的多维空间超球体中的分布密度为第i个网络流量数据点的第n密度D _in，其中，

且距离第i个网络流量数据点从最近到第n近的网络流量数据点分别有且只有一个；

由于多维空间超球体内包含n-1个点，而距离第i个网络流量数据点为第n 近的网络流量数据点在多维空间超球体的球壳上，可将其计作为0.5个点，因此D _in计算式的分子为n-1+0.5为n-0.5；为避免第i个网络流量数据点的第n距离太小而带来的计算精度不够问题，因此令D _in计算式的分母为多维空间超球体的半径r+1。

步骤(8.4):输入待聚类的网络流量数据点集和期望的网络流量簇数量k；

步骤(8.5):确定第i个网络流量数据点的第n距离中n的具体数值，其中，

n的具体数值和网络流量簇数量k有关，n为平均簇数值N/k的1/8，此为本实施例通过实验得到的最优解；

步骤(8.6):计算所有网络流量数据点的第n密度的平均值avg，其中，

步骤(8.7):将所有网络流量数据点中第n密度大于avg的网络流量数据点加入到高密度网络流量数据点集合中；

步骤(8.8):选取高密度网络流量数据点集合中第n密度最大的网络流量数据点，将其加入到初始聚类中心集合中，并从高密度网络流量数据点集合中去除该网络流量数据点；

步骤(8.9):判断初始聚类中心集合中网络流量数据点的总数NIC是否达到期望的网络流量簇数量k值，若没有达到k值，则计算高密度网络流量数据点集合中各个网络流量数据点的候选度量值，选择候选度量值最大的网络流量数据点并将其加入到初始聚类中心集合中，并从高密度网络流量数据点集合中去除该网络流量数据点，然后重复步骤(8.9)直至初始聚类中心集合中网络流量数据点的总数NIC达到k值，步骤(8.9)结束，从而得到初始聚类中心，

其中，高密度网络流量数据点集合中第j个网络流量数据点的候选度量值，记作cd _j，其计算公式为cd _j＝min(<A _j,ic1>,<A _j,ic2>,···,<A _j，icNIC>)，而A _j为高密度网络流量数据点集合中第j个网络流量数据点，j＝1,2,3...NHD，NHD为高密度网络流量数据点集合中网络流量数据点的总数，ic1，ic2，···，icNIC分别为初始聚类中心集合中第1个，第2个···，第NIC个网络流量数据点，<A _j,ic1>为高密度网络流量数据点集合中第j个网络流量数据点与初始聚类中心集合中第1个网络流量数据点间的欧氏距离，以此类推，<A _j，icNIC>为高密度网络流量数据点集合中第j个网络流量数据点与初始聚类中心集合中第NIC个网络流量数据点间的欧氏距离。

步骤9：使用步骤(8.9)得到的初始聚类中心进行聚类。

步骤10：使用极大似然法，建立聚类得到的网络流量簇与网络应用类型的映射关系，具体步骤如下：

设C＝{C ₁，C ₂，...，C _k}为聚类得到的网络流量簇集合，k为聚类得到的网络流量簇的集合总数，设R＝{R ₁，R ₂，...，R _l}为网络流量的网络应用类型集合，l为网络应用类型总数，其中l≤k，设聚类得到的网络流量簇C _i与网络应用类型R _j之间存在映射f：C→R，使用极大似然法定义映射f的概率模型为

其中，n _ji是网络流量簇C _i中被标记为网络应用类型R _j的网络流量数据点数量，N _i为网络流量簇C _i中所有被标记的网络流量数据点总数；

记R _t为网络流量簇C _i所对应的被最终认定的网络应用类型，则R _t需要满足如下条件：

P(R _t|C _i)＝max[P(R ₁|C _i)，P(R ₂|C _i)，...，P(R _l|C _i)]。

如果一个网络流量簇中没有已标记的网络流量数据点，那么该网络流量簇就被认定为未知的网络应用类型。在本实施例中，P(R _j|C _i)的计算有所简化，如果网络流量簇内部已标记的网络流量数据点中某个网络应用类型的网络流量数据点最多，就将该网络流量簇认定为该网络应用类型，因此常常存在多个网络流量簇映射到同一个网络应用类型，并不一定是网络流量簇与网络应用类型一一对应。

如图2所示，步骤8-步骤10为选择初始聚类中心并聚类，建立聚类得到的网络流量簇与网络应用类型的映射关系的具体流程图。

本发明实施例提供了一种基于改进K-means算法的网络流量分类系统，所述系统包括：

第一定义模块：用于定义网络流量数据点数量为N；

本发明实施例还提供了一种基于改进K-means算法的网络流量分类系统，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行前述方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品，该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

一种基于改进K-means算法的网络流量分类方法，其特征在于，所述方法包括如下步骤：

步骤1：定义网络流量数据点数量为N；

定义距离第i个网络流量数据点为第n近的网络流量数据点与第i个网络流量数据点之间的欧氏距离为第i个网络流量数据点的第n距离，其中i＝1,2,3...N；

定义距离第i个网络流量数据点最近到第n近之间的所有网络流量数据点在以第i个网络流量数据点为球心，以第i个网络流量数据点的第n距离为半径r的多维空间超球体中的分布密度为第i个网络流量数据点的第n密度D _in，且距离第i个网络流量数据点从最近到第n近的网络流量数据点分别有且只有一个，其中所有网络流量数据点包括距离第i个网络流量数据点最近的网络流量数据点和距离第i个网络流量数据点为第n近的网络流量数据点；

输入待聚类的网络流量数据点集和期望的网络流量簇数量k；

确定第i个网络流量数据点的第n距离中n的具体数值；

计算所有网络流量数据点的第n密度的平均值avg；

将所有网络流量数据点中第n密度大于avg的网络流量数据点加入到高密度网络流量数据点集合中,所述高密度即为大于密度平均值avg；

选取高密度网络流量数据点集合中第n密度最大的网络流量数据点，将其加入到初始聚类中心集合中，并从高密度网络流量数据点集合中去除该网络流量数据点；

步骤2：判断初始聚类中心集合中网络流量数据点的总数NIC是否达到期望的网络流量簇数量k值，若没有达到k值，则计算高密度网络流量数据点集合中各个网络流量数据点的候选度量值，选择候选度量值最大的网络流量数据点并将其加入到初始聚类中心集合中，并从高密度网络流量数据点集合中去除该网络流量数据点，然后重复步骤2直至初始聚类中心集合中网络流量数据点的总数NIC达到k值，步骤2结束。
根据权利要求1所述的基于改进K-means算法的网络流量分类方法，其特征在于，第i个网络流量数据点的第n密度D _in的计算公式为
根据权利要求1所述的基于改进K-means算法的网络流量分类方法，其特征在于，第i个网络流量数据点的第n距离中n的计算公式为
根据权利要求2所述的基于改进K-means算法的网络流量分类方法，其特征在于，所有网络流量数据点的第n密度的平均值avg的计算公式为
根据权利要求1所述的基于改进K-means算法的网络流量分类方法，其特征在于，高密度网络流量数据点集合中第j个网络流量数据点的候选度量值，记作cd _j，其计算公式为cd _j＝min(<A _j,ic1>,<A _j,ic2>,···,<A _j，icNIC>)，其中，A _j为高密度网络流量数据点集合中第j个网络流量数据点，j＝1,2,3...NHD，NHD为高密度网络流量数据点集合中网络流量数据点的总数，ic1，ic2，···，icNIC分别为初始聚类中心集合中第1个，第2个···，第NIC个网络流量数据点，<A _j,ic1>为高密度网络流量数据点集合中第j个网络流量数据点与初始聚类中心集合中第1个网络流量数据点间的欧氏距离，以此类推，<A _j，icNIC>为高密度网络流量数据点集合中第j个网络流量数据点与初始聚类中心集合中第NIC个网络流量数据点间的欧氏距离。
一种基于改进K-means算法的网络流量分类系统，其特征在于，所述系统包括：

第一定义模块：用于定义网络流量数据点数量为N；

第二定义模块：用于定义距离第i个网络流量数据点为第n近的网络流量数据点与第i个网络流量数据点之间的欧氏距离为第i个网络流量数据点的第n距离，其中i＝1,2,3...N；

第三定义模块：用于定义距离第i个网络流量数据点最近到第n近之间的所有网络流量数据点在以第i个网络流量数据点为球心，以第i个网络流量数据点的第n距离为半径r的多维空间超球体中的分布密度为第i个网络流量数据点的第n密度D _in，且距离第i个网络流量数据点从最近到第n近的网络流量数据点分别有且只有一个，其中所有网络流量数据点包括距离第i个网络流量数据点最近的网络流量数据点和距离第i个网络流量数据点为第n近的网络流量数据点；

输入模块：用于输入待聚类的网络流量数据点集和期望的网络流量簇数量k；

确定n值模块：用于确定第i个网络流量数据点的第n距离中n的具体数值；

计算平均值模块：用于计算所有网络流量数据点的第n密度的平均值avg；

第一加入模块：用于将所有网络流量数据点中第n密度大于avg的网络流量数据点加入到高密度网络流量数据点集合中；

第二加入模块：用于选取高密度网络流量数据点集合中第n密度最大的网络流量数据点，将其加入到初始聚类中心集合中，并从高密度网络流量数据点集合中去除该网络流量数据点；

判断模块：用于判断初始聚类中心集合中网络流量数据点的总数NIC是否达到期望的网络流量簇数量k值，若没有达到k值，则计算高密度网络流量数据点集合中各个网络流量数据点的候选度量值，选择候选度量值最大的网络流量数据点并将其加入到初始聚类中心集合中，并从高密度网络流量数据点集合中去除该网络流量数据点，然后重复判断模块所执行任务直至初始聚类中心集合中网络流量数据点的总数NIC达到k值，判断模块所执行任务结束。
一种基于改进K-means算法的网络流量分类系统，其特征在于，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据权利要求1～5任一项所述方法的步骤。
计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1～5任一项所述方法的步骤。