WO2019169928A1 - 一种流量检测方法和流量检测设备 - Google Patents

一种流量检测方法和流量检测设备 Download PDF

Info

Publication number
WO2019169928A1
WO2019169928A1 PCT/CN2018/121917 CN2018121917W WO2019169928A1 WO 2019169928 A1 WO2019169928 A1 WO 2019169928A1 CN 2018121917 W CN2018121917 W CN 2018121917W WO 2019169928 A1 WO2019169928 A1 WO 2019169928A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature
time period
service type
data stream
transaction
Prior art date
Application number
PCT/CN2018/121917
Other languages
English (en)
French (fr)
Inventor
罗涛
郭建伟
彭柳青
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Publication of WO2019169928A1 publication Critical patent/WO2019169928A1/zh
Priority to US16/910,361 priority Critical patent/US20200322237A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0894Packet rate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • H04L43/045Processing captured monitoring data, e.g. for logfile generation for graphical visualisation of monitoring data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports
    • H04L43/062Generation of reports related to network traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports
    • H04L43/067Generation of reports using time frame reporting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/12Network monitoring probes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/08Testing, supervising or monitoring using real traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5003Managing SLA; Interaction between SLA and QoS
    • H04L41/5009Determining service level performance parameters or violations of service level contracts, e.g. violations of agreed response time or mean time between failures [MTBF]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5061Network service management, e.g. ensuring proper service fulfilment according to agreements characterised by the interaction between service providers and their network customers, e.g. customer relationship management
    • H04L41/5067Customer-centric QoS measurements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/022Capturing of monitoring data by sampling

Definitions

  • the present application relates to the field of communications, and in particular, to a traffic detection method and a traffic detection device.
  • the feature of the transaction further includes at least one of a statistical parameter of a receiving time interval corresponding to the plurality of packets included in the transaction, and a statistical parameter of a transmission rate of the plurality of packets included in the transaction,
  • the receiving time interval corresponding to multiple packets is the interval of receiving time between two adjacent packets in a plurality of packets.
  • the multiple new samples include at least one first new sample, and the first new sample corresponds to a feature set in the feature library, where the first new sample includes one a high-confidence feature, the similarity between the high-confidence feature and the feature set in the feature library satisfies a preset condition, and the feature set corresponding to the first new sample included in the first added sample
  • the corresponding business type is the same.
  • FIG. 7b is another schematic diagram of a message sequence in the embodiment of the present application.
  • FIG. 10 is another flowchart of a method for detecting a traffic in an embodiment of the present application.
  • 17 is another schematic diagram of a sample training device in an embodiment of the present application.
  • the data processing module is configured to perform data processing on the packets captured by the packet capture module. Specifically, data storage, feature calculation, sample tagging, training, recognition, and the like can be realized. It can be understood that each function of the data processing module can be performed by a separate sub-module, for example, a data storage function is performed by the storage sub-module, and a feature calculation and recognition function is implemented by the data processing sub-module, which is marked by the sample.
  • the module implements the sample tag function, and the training sub-module implements the training function.
  • the traffic detection device performs data collection and data storage from network devices (such as user terminals and servers). First, the collected message is analyzed. If the sliding window condition is met, the sliding window processing is performed. After the sliding window is processed, the sampling window is expanded, and the packet obtained in the expanded window is used as a to-be-processed message, and then the feature to be processed is processed. After at least one feature is obtained, the correspondence between the at least one feature and the service type is obtained. Determine the service type corresponding to the pending message, and then display the recognition result. This enables the function of identifying the data stream in real time.
  • network devices such as user terminals and servers.
  • the capture module, the data processing module and the display module can also be implemented by independent devices connected to each other.
  • the traffic detection device may further include a configuration management module configured to configure system parameters of the traffic detection device.
  • x i is the size of the ith message
  • the arithmetic mean of the size of the message, N is the total number of messages.
  • the duration of the packet selected by the traffic detection device from multiple data streams may be a fixed duration or a variable duration.
  • the generated new sample is trained together with the historical sample, and the correspondence between the feature set and the service type can be updated and corrected, so that the correspondence between the updated feature set and the service type is more compatible with the current data flow and the service type. Close, you can also be more diverse.
  • the correspondence between the updated feature set and the service type on the one hand, more data streams can be identified, and on the other hand, the accuracy of the traffic detection can be improved.
  • the new data flow appearing in the actual application can be accurately identified, thereby solving the problem that the method of offline sample training cannot accurately identify the new data flow.
  • the target feature set is the same as the feature type included in the first feature set.
  • some servers only provide one type of service.
  • the type of service provided by the server can be quickly identified by the server identifier.
  • the first message sequence refers to multiple messages belonging to the first data stream in the first time period.
  • the second message sequence refers to a plurality of messages belonging to the second data stream in the first time period.
  • the first data stream and the second data stream are different data streams belonging to the same user.
  • the ⁇ 220 bytes, 240 bytes, 200 bytes, 28, 220 bytes ⁇ included in the target feature set and the web browsing service are added as samples, and the newly added sample is saved.
  • the target feature set may be used as a comparison object. If the subsequent feature set is the same as or similar to the target feature set, the service type corresponding to the subsequent feature set is determined to be a web browsing service.
  • the updated sample set is trained according to a machine learning algorithm, and the subsequent packets are detected by using the correspondence between the feature set and the service type obtained by the training.
  • Determining the target feature set according to the plurality of messages includes: determining the target feature set according to the plurality of messages, specifically: determining, according to the plurality of messages acquired from the first data stream and the second data stream in the first time period, a multi-stream feature corresponding to the plurality of packets; and determining, according to the plurality of packets included in the first data stream collected in the first time period, a single stream feature corresponding to the first data stream in the first time period .
  • the acquiring module 1101 is configured to acquire multiple packets collected by the traffic collection device in the second time period, and the multiple packets collected in the second time period include the first data. And a packet in the at least one second data stream; if the total amount of data received by the traffic collection device in the second time period is greater than a preset data volume, and acquiring the traffic collection device in the third time period The plurality of messages, wherein the sum of the second time period and the third time period is the first time period.
  • the single stream feature further includes at least one of a statistical parameter of a received time interval of a packet of the collected first data stream and a statistical parameter of a transmission rate, where the receiving time interval is collected. The interval of the reception time between any two adjacent time-receiving messages in the message of the first data stream.
  • the traffic detection device 1100 further includes:
  • the service type module 1103 is configured to determine, according to the target feature set, and the correspondence between the target feature set and the service type, the service type corresponding to the first data flow in the first time period.
  • the traffic detecting device 1100 of this embodiment can implement the traffic detecting method in the embodiment shown in FIG. 9 or the optional embodiment.
  • the obtaining module 1101 can be used to perform other multiple implementations of the step 901, and obtain the report in various implementation manners for performing traffic identification by using one or more of the single stream feature, the multi-flow feature, and the transaction feature.
  • the step of determining the feature module 1102 can be used to perform various other implementations of step 902, and various implementations for traffic identification by any one or more of the single stream feature, the multi-flow feature, and the transaction feature.
  • the step of determining the target feature set; determining the service type module 1103 can be used to perform the other various implementations of step 903, and the step of determining the service type in various implementations of traffic identification by the transaction feature.
  • the plurality of newly added samples includes at least one first new sample, and the first added sample corresponds to a feature set in the feature library, wherein the first added sample includes a set of high a feature of the confidence that the similarity between the set of high-confidence features and one feature set in the feature library satisfies a preset condition, and the service type included in the first new sample corresponds to the feature set corresponding to the first new sample
  • the business type is the same.
  • the memory 1602 is configured to store programs and messages.
  • the program can include program code, the program code including computer operating instructions.
  • the memory 1602 may include a random access memory (RAM), and may also include a non-volatile memory (NVM), such as at least one disk storage.
  • the processor 1601 executes the program code stored in the memory 1602 to implement the method of the embodiment shown in FIG. 4 or the alternative embodiment, the embodiment shown in FIG. 9, or the alternative embodiment.
  • the present application provides a sample training device 1700 for implementing the functions of the sample training device in the above method.
  • the flow detecting device 1700 includes a processor 1701 and a memory 1702, where The processor 1701 is connected to the memory 1702.
  • the sample training device is generally a network side device, such as a server or a gateway.
  • the server may further include an input and output device and a communication interface, and the input device may be a keyboard, a mouse, or the like for inputting information.
  • the output device can be a display.
  • the communication interface is used to communicate with other devices in the network.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请公开一种流量检测方法,包括:获取流量采集设备在第一时间段内采集到的多个报文,多个报文包括第一数据流以及至少一个第二数据流中的报文;根据多个报文,确定目标特征集合,目标特征集合包括多个报文对应的多流特征,多流特征包括多个报文的大小的统计参数;根据目标特征集合,以及目标特征集合与业务类型的对应关系,确定在第一时间段内第一数据流对应的业务类型。上述流量检测方法能够获得更多特征,通过更多的特征比对能够提高流量检测的准确率。本申请还公开了一种流量检测设备,能够实现上述流量检测方法。

Description

一种流量检测方法和流量检测设备
本申请要求于2018年03月06日提交中国专利局、申请号为201810183112.3、申请名称为“一种流量检测方法和流量检测设备”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及通信领域,尤其涉及一种流量检测方法和流量检测设备。
背景技术
流量识别一直是互联网数据分析中的重要研究领域,具有广泛的应用场景。流量识别技术是做流量精细化管理和体验质量评估保障的基础,可提供用户级和业务级的体验质量监控和优化。流量识别技术是运营商做精准运营的基础,可提供OTT用户画像、精准营销等服务;此外,流量识别在网络安全等其他场景也具有重要价值。
而实现上述的种种服务,则需要识别流量中的业务类型,因为不同的业务类型所需要的带宽、网络延时等网络质量指标的等级要求不同,而指标的评估和优化需要细化到业务类型的粒度。不同的业务类型可以包括如页面流量、视频观看、网页浏览、Speedtest测速、Youtube在线视频观看、文件传输、网络电视、网络电台以及即时通信等等。例如数据流的流量吞吐率随时间的变化,与该数据流的用户在不同时刻做的不同类型的业务有关,不同业务存在明显的吞吐率差异,因此抛开业务类型谈指标,是不可能精确评估当前的网络质量指标(这里以吞吐率为例)是否达标,以及用户做业务的体验质量是否正常,而网络流量识别可以支持从业务类型的角度分析指标和体验的优劣的。
现有技术中,基于固定时间窗的流量识别技术大致如下:采用固定时间窗(如15秒)采集一个数据流的报文,然后根据这些报文中携带的信息,例如某个用于表征业务类型的字段的信息,或者该时间窗内该数据流的报文的个数或者上下行比例等,识别该数据流的业务类型。
现有技术的这种流量检测方法的准确率不高。
发明内容
有鉴于此,本申请提供一种流量检测方法和流量检测设备,为了确定一数据流的业务,从该数据流以及至少一条与该数据流属于同一用户的数据流的报文中提取多流特征,由于多流特征能够考虑了同一用户的其他数据流对该数据流的影响,因此能够更加准确地描述数据流,从而能够提高对一条数据流的流量检测的准确率。
本申请的第一方面提供一种流量检测方法,流量检测方法用于流量检测设备。该方法包括:获取流量采集设备在第一时间段内采集到的多个报文,多个报文包括第一数据流以及与第一数据流关联的至少一个第二数据流中的报文,第一数据流与至少一个第二数据流为属于同一用户的数据流;根据多个报文,确定目标特征集合,目标特征集合包括多个报文对应的多流特征,多流特征包括多个报文的大小的统计参数;根据目标特征集合,以及目标特征集合与业务类型的对应关系,确定在第一时间段内第一数据流对应的业务类型。 其中,报文大小可以是指一个报文的报文总长度,也可以是一个报文包括的数据的长度。例如数据的长度为报文包括的应用层数据的长度,本申请不做限制。
依此实施,为了确定一数据流的业务,从该数据流以及至少一条与该数据流属于同一用户的数据流的报文中提取多流特征,由于多流特征能够考虑了同一用户的其他数据流对该数据流的影响,因此能够更加准确地描述数据流,从而提高流量检测的准确性。
在一种可能的实现方式中,多流特征还包括多个报文对应的接收时间间隔的统计参数和多个报文的传输速率的统计参数中的至少一种。多个报文对应的接收时间间隔为多个报文中,任意两个接收时间相邻的报文之间的接收时间的间隔。在另一种可能的实现方式中,接收时间间隔可以是接收时间间隔相同个报文的情况,例如算间隔是都隔一个报文算,或者都隔多个报文算。依此实施,增加了多流特征的特征类型,能够进一步提高流量检测的准确性。
在另一种可能的实现方式中,第一时间段与流量采集设备在第二时间段内采集到的多个报文的统计参数相关。
在另一种可能的实现方式中,上述方法还包括:获取流量采集设备在第二时间段内采集到的多个报文,在第二时间段内采集到的多个报文包括第一数据流以及至少一个第二数据流中的报文;在流量采集设备在第二时间段内接收的最后一个用户的报文的接收时刻与第二时间段的结束时刻之间的时间差小于预设阈值的情况下,确定第一时间段,第一时间段长于第二时间段,且第二时间段在第一时间段内。依此实施,可以扩大获取报文所用的时间窗,从而获得更多报文,这样能够得到更加完整的消息序列。与从消息序列片段提取特征相比,从完整消息序列提取的特征更为准确,能够提高流量检测的准确率。
在另一种可能的实现方式中,获取流量采集设备在第一时间段内采集到的多个报文,具体包括:获取流量采集设备在第二时间段内采集到的多个报文,在第二时间段内采集到的多个报文包括第一数据流以及至少一个第二数据流中的报文;在流量采集设备在第二时间段内接收的最后一个第一数据流的报文的接收时刻与第二时间段的结束时刻之间的时间差小于预设阈值的情况下,获取流量采集设备在第三时间段内采集到的多个报文,其中,第二时间段与第三时间段之和为第一时间段。或者,在流量采集设备在第二时间段内接收的最后一个第一数据流的报文的接收时刻与第二时间段的结束时刻之间的时间差不小于预设阈值的情况下,第二时间段与第一时间段相同。依此实施,可以扩大获取报文所用的时间窗,从而获得更多报文,这样能够得到更加完整的消息序列。与从消息序列片段提取特征相比,从完整消息序列提取的特征更为准确,能够提高流量检测的准确率。
在另一种可能的实现方式中,上述方法还包括:获取流量采集设备在第二时间段内采集到的多个报文,在第二时间段内采集到的多个报文包括第一数据流以及至少一个第二数据流中的报文;在流量采集设备在第二时间段内接收的数据总量大于预设数据量的情况下,确定第一时间段,第一时间段长于第二时间段,且第二时间段在第一时间段内。或者,在流量采集设备在第二时间段内接收的数据总量不大于预设数据量的情况下,第二时间段与第一时间段相同。这样提供了另一种扩大时间窗的方法,能够获得更加完整的消息序列,以提高流量检测的准确率。
在另一种可能的实现方式中,根据目标特征集合,以及目标特征集合与业务类型的对应关系,确定在第一时间段内第一数据流对应的业务类型包括:根据目标特征集合,从特征库中查找出第一特征集合,第一特征集合为与目标特征集合的相似度最高的特征集合;根据第一特征集合与业务类型的对应关系,确定在第一时间段内第一数据流对应的业务类型,在第一时间段内第一数据流对应的业务类型与第一特征集合对应的业务类型相同。由于目标特征集合与第一特征集合的相似度最高,这样,上述多个报文对应的业务类型与第一特征集合的业务类型相同的可能性最高,由此可实现流量检测功能。
在另一种可能的实现方式中,目标特征集合还包括在第一时间段内采集到的第一数据流的报文对应的单流特征,单流特征包括采集到的第一数据流的报文的大小的统计参数。进一步的,单流特征还包括采集到的第一数据流的报文的接收时间间隔的统计参数和传输速率的统计参数中的至少一种,接收时间间隔为在采集到的第一数据流的报文中任意两个接收时间相邻的报文之间的接收时间的间隔。这样,在特征库中查找相似特征集合时,流量检测设备不仅需要比较多流特征,还需要比较单流特征。更多特征能够更为完整准确地表示数据流,能够进一步提高流量检测的准确性。
在另一种可能的实现方式中,目标特征集合还包括在第一时间段内采集到的第一数据流的事务的特征,事务包括多个报文,事务包括的多个报文为一请求和与请求对应的至少一个响应,事务的特征包括事务包括的多个报文的大小的统计参数。进一步的,事务的特征还包括事务包括的多个报文所对应的接收时间间隔的统计参数,以及事务包括的多个报文的传输速率的统计参数。这样,在特征库中查找相似特征集合时,流量检测设备不仅需要比较多流特征,还需要比较事务的特征。更多特征能够更为完整准确地表示数据流,能够进一步提高流量检测的准确性。
在以上可能的实现方式中,统计参数包括平均值、最大值、最小值、标准差、分位数、峰度、偏度和频谱参数中的至少一种。对上述的各种量,所选取的统计参数的种类和数量可以相同也可以不同,除了以上涉及的这些统计参数之外,还可以是其他类型的参数,如方差、协方差和极差等。对本申请技术方案中,可能使用的统计参数的类型,本申请不做限制。
在另一种可能的实现方式中,上述方法还包括:通过机器学习算法训练多个新增样本和多个历史样本,以更新特征库中特征集合与业务类型的对应关系,多个新增样本包括第一时间段内第一数据流对应的样本,第一数据流对应的样本包括第一数据流的多流特征以及业务类型。历史样本是指在获取新增样本之前已获得的样本。这样,将产生的新增样本与历史样本一起训练,能够更新和修正特征集合与业务类型的对应关系,使得更新后的特征集合与业务类型的对应关系与当前数据流与业务类型的对应关系更加接近,也可以更加多样化。在识别时,通过更新后的特征集合与业务类型的对应关系,一方面能够识别出更多的数据流,一方面也能够提高流量检测的准确率。
在另一种可能的实现方式中,多个新增样本中,包括至少一个第一新增样本,第一新增样本对应特征库中的一特征集合,其中,第一新增样本中包括一组高置信的特征,该组高置信的特征与特征库中的一个特征集合的相似度满足预设条件,以及第一新增样本中包 括的业务类型与第一新增样本对应的特征集合所对应的业务类型相同。这样可以将高置信特征集合及其对应的业务类型作为新增样本,避免将包括低置信特征集合的样本作为训练样本。
在另一种可能的实现方式中,多个新增样本中,包括至少一个第二新增样本,方法还包括:获取流量采集设备采集到的一数据流在一个时间段内对应的服务器标识,服务器标识包括一服务器的网络互连协议IP地址和服务器的名称;根据服务器标识与业务类型的对应关系,确定数据流的业务类型;保存数据流对应的第二新增样本,第二新增样本中包括数据流的业务类型以及在时间段内的多流特征。在实际应用中,部分服务器只提供一种业务。由此,通过服务器标识可以判断一些数据流在一个时间段内由该服务器提供的业务的类型,也就是说,可以有多种方式得到包括业务类型的新增样本,得到新增样本的方式多样化,也有利于得到更多的新增样本。
第二方面提供一种流量检测方法,上述方法包括:获取流量采集设备在第一时间段内采集到的多个报文,多个报文包括在第一时间段内第一数据流中至少一个事务的报文;根据多个报文,确定目标特征集合,目标特征集合包括在第一时间段内采集到的第一数据流的事务的特征,每个事务包括的多个报文为一请求和与请求对应的至少一个响应,事务的特征包括事务包括的多个报文的大小的统计参数;根据目标特征集合,以及目标特征集合与业务类型的对应关系,确定在第一时间段内第一数据流对应的业务类型。依此实施,可以根据第一数据流的事务的特征确定第一数据流对应的业务类型,提供了一种识别数据流的新方法,具有良好的可行性。
在一种可能的实现方式中,事务的特征还包括事务包括的多个报文所对应的接收时间间隔的统计参数和事务包括的多个报文的传输速率的统计参数中的至少一种,多个报文对应的接收时间间隔为多个报文中,任意两个接收时间相邻的报文之间的接收时间的间隔。
在另一种可能的实现方式中,上述方法还包括:根据第一事务包括的多个报文,确定第一事务的特征,第一事务为至少一个事务中的任意一个事务;根据第一事务的特征以及第一事务的特征与业务类型的对应关系,确定第一事务对应的业务类型。
在另一种可能的实现方式中,统计参数包括平均值、最大值、最小值、标准差、分位数、峰度、偏度或频谱参数中的至少一种。
在另一种可能的实现方式中,上述方法还包括:通过机器学习算法训练多个新增样本和多个历史样本,以更新在特征库中特征集合与业务类型的对应关系,多个新增样本包括在第一时间段内第一数据流的事务对应的样本,第一数据流的事务对应的样本包括第一数据流的事务的特征以及业务类型。这样,将产生的新增样本与历史样本一起训练,能够更新和修正特征集合与业务类型的对应关系,使得更新后的特征集合与业务类型的对应关系与当前数据流与业务类型的对应关系更加接近,也可以更加多样化。在识别时,通过更新后的特征集合与业务类型的对应关系,一方面能够识别出更多的数据流,一方面也能够提高流量检测的准确率。
在另一种可能的实现方式中,多个新增样本中,包括至少一个第一新增样本,第一新增样本对应特征库中的一特征集合,其中,第一新增样本中包括一组高置信的特征,该组 高置信的特征与特征库中的一个特征集合的相似度满足预设条件,以及第一新增样本中包括的业务类型与第一新增样本对应的特征集合所对应的业务类型相同。
在另一种可能的实现方式中,多个新增样本中,包括至少一个第二新增样本,方法还包括:获取流量采集设备在第一时间段内采集到的第一数据流的事务对应的服务器标识,服务器标识包括一服务器的网络互连协议IP地址和服务器的名称;根据服务器标识与业务类型的对应关系,确定第一数据流的事务的业务类型;保存在第一时间段内第一数据流的事务对应的第二新增样本,第二新增样本包括第一数据流的事务的业务类型以及第一数据流的事务的特征,事务的特征包括至少一个统计参数。
第三方面提供一种样本训练方法。该方法包括:流量检测设备识别一个时间段内多条数据流的业务类型,以得到多个新增样本;通过机器学习算法训练更新后的样本集合,以得到更新后的对应关系集合,对应关系集合包括多条映射关系,映射关系为特征集合与业务类型之间的映射关系;更新后的样本集合包括多个新增样本和多个历史样本,其中,更新后的样本集合中的每个样本包括一业务类型以及多个特征,多个特征包括多流特征,单流特征和事务的特征中的至少一种,多流特征,单流特征和事务的特征都包括至少一个统计参数。这样,将产生的新增样本与历史样本一起训练,能够更新和修正特征集合与业务类型的对应关系,使得保存的特征集合与业务类型的对应关系与当前数据流与业务类型的对应关系更加接近,也可以更加多样化。在识别时,通过更新后的特征集合与业务类型的对应关系,一方面能够识别出更多的数据流,一方面也能够提高流量检测的准确率。
在一种可能的实现方式中,多个新增样本中,包括至少一个第一新增样本,第一新增样本对应特征库中的一特征集合,其中,第一新增样本中包括一组高置信的特征,该组高置信的特征与特征库中的一个特征集合的相似度满足预设条件,以及第一新增样本中包括的业务类型与第一新增样本对应的特征集合所对应的业务类型相同。
在另一种可能的实现方式中,多个新增样本中,包括至少一个第二新增样本,方法还包括:获取流量采集设备采集到的一数据流在一个时间段内对应的服务器标识,服务器标识包括一服务器的网络互连协议IP地址和服务器的名称;根据服务器标识与业务类型的对应关系,确定数据流的业务类型;保存在时间段内数据流对应的第二新增样本,第二新增样本中包括数据流的业务类型以及数据流的多流特征。
第四方面提供一种流量检测设备,流量检测设备包括获取模块,确定特征模块和确定业务类型模块;获取模块用于获取流量采集设备在第一时间段内采集到的多个报文,所述多个报文包括第一数据流以及与所述第一数据流关联的至少一个第二数据流中的报文,所述第一数据流与所述至少一个第二数据流为属于同一用户的数据流;确定特征模块用于根据所述多个报文,确定目标特征集合,所述目标特征集合包括所述多个报文对应的多流特征,所述多流特征包括所述多个报文的大小的统计参数;确定业务类型模块用于根据所述目标特征集合,以及所述目标特征集合与业务类型的对应关系,确定在所述第一时间段内所述第一数据流对应的业务类型。该流量检测设备是对应于第一方面的方法的设备,具体实现方式,技术效果和解释可参照第一方面的相应描述。
第五方面提供一种流量检测设备,流量检测设备包括获取模块,确定特征模块和确定 业务类型模块;获取模块用于获取流量采集设备在第一时间段内采集到的多个报文,所述多个报文包括在所述第一时间段内第一数据流中至少一个事务的报文;确定特征模块用于根据所述多个报文,确定目标特征集合,所述目标特征集合包括在所述第一时间段内采集到的所述第一数据流的事务的特征,所述事务包括的多个报文为一请求和与所述请求对应的至少一个响应,所述事务的特征包括所述事务包括的多个报文的大小的统计参数;确定业务类型模块用于根据所述目标特征集合,以及所述目标特征集合与业务类型的对应关系,确定在所述第一时间段内所述第一数据流对应的业务类型。该流量检测设备是与第二方面的方法对应的设备,具体实现方式,技术效果和解释可参照第二方面的相应描述。
第六方面提供一种样本训练设备,样本训练设备包括样本标记模块和训练模块;样本标记模块用于识别一个时间段内多条数据流的业务类型,以得到多个新增样本;训练模块用于通过机器学习算法训练更新后的样本集合,以得到更新后的对应关系集合,所述对应关系集合包括多条映射关系,所述映射关系为特征集合与业务类型之间的映射关系;所述更新后的样本集合包括多个新增样本和多个历史样本,其中,所述更新后的样本集合中的每个样本包括一业务类型以及多个特征,所述多个特征包括多流特征,单流特征和事务的特征中的至少一种,所述多流特征,单流特征和事务的特征都包括至少一个统计参数。该样本训练设备是与第三方面的方法对应的设备,具体实施方式、技术效果和解释可参照第三方面的相应描述。
第七方面提供一种流量检测设备,包括以总线相连的通信接口、处理器和存储器;所述存储器,用于存储程序以及报文;所述处理器通过执行程序用于实现第一方面的方法。
第八方面提供一种流量检测设备,包括以总线相连的通信接口、处理器和存储器;所述存储器,用于存储程序以及报文;所述处理器通过执行程序用于实现第二方面的方法。
本申请的又一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。
本申请的又一方面提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面的方法。
附图说明
图1为本申请实施例中系统架构的一个示意图;
图2为本申请实施例中流量采集设备的功能模块示意图;
图3为本申请实施例中流量检测方法的一个示意图;
图4为本申请实施例中流量检测方法的一个流程图;
图5a为本申请实施例中扩大时间窗获取报文的一个示意图;
图5b为本申请实施例中不扩大时间窗获取报文的一个示意图;
图6a为本申请实施例中扩大时间窗获取报文的另一个示意图;
图6b为本申请实施例中不扩大时间窗获取报文的另一个示意图;
图7a为本申请实施例中消息序列的一个示意图;
图7b为本申请实施例中消息序列的另一个示意图;
图8a为本申请实施例中消息序列的另一个示意图;
图8b为本申请实施例中消息序列的另一个示意图;
图9为本申请实施例中流量检测方法的另一个流程图;
图10为本申请实施例中流量检测方法的另一个流程图;
图11为本申请实施例中流量检测设备的一个示意图;
图12为本申请实施例中流量检测设备的另一个示意图;
图13为本申请实施例中流量检测设备的另一个示意图;
图14为本申请实施例中样本训练设备的一个示意图;
图15为本申请实施例中样本训练设备的另一个示意图;
图16为本申请实施例中流量检测设备的另一个示意图;
图17为本申请实施例中样本训练设备的另一个示意图。
具体实施方式
首先对本申请实施例中出现的部分名词进行解释:
从报文可以采集多种报文信息。报文信息可以包括但不限于:报文的大小,报文的接收时间间隔,报文的传输速率,报文的上下行比例和报文的数量等。
报文大小,即报文的大小,可以是指一个报文的报文总长度,也可以是一个报文包括的数据的长度。报文大小可以但不限于用字节数表示。对一个报文,其中所包括的数据具体指报文的哪一部分,与该报文对应的协议有关。例如数据的长度为报文包括的应用层数据的长度,本申请不做限制。以网络互联协议(Internet Protocol,IP)报文为例,IP报文的数据封装格式是IP包头+IP有效载荷。IP有效载荷为传输控制协议(Transmission Control Protocol,TCP)报文。即IP有效载荷=TCP包头+TCP有效载荷。TCP有效载荷即为应用层数据。那么,一种实现方式下,本申请实施例中的报文大小可以是TCP有效载荷的大小。
需要理解的是,由于本申请描述的方法和装置有多种实现方式,在不同的实现方式下,某个词语或者词组的含义可能不同;而在一种实现方式中(如一个方法流程中),某个技术词语报文大小的技术含义应当是一致的。以报文大小这个词组为例,在一个实现方式中,对所有报文都采用报文总长度作为报文大小,或者在另一个实现方式中对所有报文都用报文包括的数据的长度作为报文大小。对本申请中有多种含义的词组或者词语,请参照本段的解释,下文不再详细说明这一问题。
报文的接收时间间隔是指任意两个接收时间相邻的报文之间的接收时间的间隔。另外,接收时间间隔可以是接收时间间隔相同个报文的情况,例如算间隔是都隔一个报文算,或者都隔多个报文算。
报文的传输速率是指在单位时间内传输的数据量,单位可以采用比特/秒,或,字节/秒。
报文的上下行比例是指在单位时间内上行报文的数据量与下行报文的数据量的比例。上行报文是指用户终端发送到网络的报文,下行报文是指从网络发送到用户终端的报文。
对报文信息可以进行统计得到统计参数。统计参数包括但不限于:平均值、最大值、最小值、标准差、分位数、峰度、偏度、频谱参数、方差、协方差和极差。对于以上统计参数,用于表示不同特征的统计参数的种类和数量可以不同。
平均值包括算术平均值、加权平均值等等。对于需要处理的N个数值,算术平均值是N个数值之和与N的比例值。加权平均值是对于每个数值给予权重,将加权后的数值之和与N的比例值。
对于需要处理的N个数值,分位数表示N个数值作为累积分布函数的因变量时自变量的取值。分位数包括二分位数、四分位数或百分位数等,二分位数也称为中位数。
对于需要处理的N个数值,峰度用于表示N个数值分布形态的陡缓程度,偏度用于表示N个数值分布的偏斜方向和程度。
特征集合包括一个或多个特征,每个特征为报文信息的一种统计参数。
置信度是指被处理的特征集合的可信程度。具体可以根据被处理的特征集合与特征库中的特征集合的相似度,确定被处理的特征集合为高置信特征集合还是低置信特征集合。例如,当被处理的特征集合与特征库中的某个特征集合的相似度高于阈值时,确定被处理的特征集合为高置信特征集合;否则,被处理的特征集合为低置信特征集合。
相似度是指两个参与比较的特征集合的相似程度。具体可以通过相似度公式对两个特征集合中的特征值进行处理,得到的计算结果为两个特征集合的相似度的取值。相似度公式可以是欧氏距离公式、曼哈顿距离公式、夹角余弦公式或皮尔逊相关系数公式。在相似度的取值区间为(0,1]的情况下,当相似度取值为1时,表示两个参与比较的特征集合相同。
短时业务是指传输时长小于或等于设定时长的业务,例如交互消息(如即时通信消息、短信业务等),多媒体消息等。长时业务是指传输时长大于设定时长的业务,例如文件传输业务或网络电话(Voice over Internet Protocol,VoIP)业务等。大流量业务是指在设定时间内的数据量大于预设数据量的业务,例如在线视频业务等。小流量业务是指在设定时间内的数据量不大于预设数据量的业务,例如交互消息、多媒体消息等。对于大流量业务,一个数据传输任务需要较长时间。对于小流量业务,一个数据传输任务需要较短时间。
通信网络可以用于传输端与端,云与云,端与云等交互的数据流,这些数据流往往用于承载某种业务的数据。一个数据流在某段时间内传输什么类型的业务的数据,就可以说该数据流在该段时间内对应该种业务的类型(本文之后简称为业务类型)。本申请提供的流量检测方法应用于流量检测设备,流量检测设备可以位于运营商网络,检测的数据流可以是端与端,云与云,端与云等交互的数据流。
图1为本申请中系统架构的一个示意图。如图1所示,系统包括数据分析系统、用户终端、运营商网络设备和服务器,该服务器可以是应用服务器等。
运营商网络设备包括接入网设备(如基站、中继)、路由器、交换机等。
应用服务器通过运营商网络与用户终端连接,用于触发和执行网络应用程序。网络应用程序如即时通信应用程序(如微信)、视频(如youtube)、社交网络应用程序(如facebook)等。
用户终端是指用户使用的具有计算能力的电子设备,例如手机、个人电脑、平板电脑、 车载电脑、可穿戴电子设备或自助终端等。
数据分析系统包括流量采集设备。在一种实现方式中,流量采集设备和流量检测设备是不同的设备,由流量采集设备从运营商网络设备获取用户终端和应用服务器之间传输的数据流,流量检测设备对流量采集设备采集的数据流的报文进行识别。在另一种实现方式中,流量检测设备是流量采集设备上的软件,由流量采集设备中运行的软件实现采集流量数据功能以及流量检测功能。可以理解的是,数据分析系统还可以包括业务分析设备。
数据流的业务类型包括但不限于:网页浏览、在线视频、在线音频、文件传输、多媒体、网络电话(Voice over Internet Protocol,VoIP)和交互消息。VoIP业务包括但不限于音频VoIP业务和视频VoIP业务。
业务分析设备根据流量识别的结果以及KQI进行业务分析,将业务分析结果反馈给用户和运营商。KQI是针对不同业务提出的贴近用户感受的业务质量参数。例如,数据分析系统根据关键质量指标(Key Quality Indicators,KQI)进行体验质量监控,用于分析用户业务的体验质量。或者,数据分析系统根据KQI确定网络优化方案,运营商服务器从数据分析系统获得网络优化方案后,进行网络优化。或者,数据分析系统根据KQI分析网络故障,获取网络故障解决方案,运营商服务器根据从数据分析系统获得的网络故障解决方案,进行故障诊断。
图2为流量采集设备的一个示意图,这种情况下,流量检测在流量采集设备中实现。参阅图2,流量采集设备可以包括抓包模块、数据处理模块和显示模块。
抓包模块,用于从网络中抓取报文,例如抓取通过网关设备的报文。
数据处理模块,用于对抓包模块抓取的报文进行数据处理。具体可以实现数据存储、特征计算、样本标记、训练、识别等功能。可以理解的是,对于数据处理模块的每个功能,可以由一个独立的子模块来执行,例如由存储子模块执行数据存储功能,由数据处理子模块实现特征计算和识别功能,由样本标记子模块实现样本标记功能,由训练子模块实现训练功能。
显示模块,用于在数据处理模块处理完成后,显示识别结果。
参阅图3,流量检测设备从网络设备(如用户终端、服务器)进行数据采集并进行数据存储。首先对采集的报文进行分析,若符合滑窗条件,则进行滑窗处理。经滑窗处理后采样窗口扩大,将在扩大后的窗口获得的报文作为待处理报文,然后对待处理报文进行特征计算,获得至少一个特征后,根据至少一个特征与业务类型的对应关系确定待处理报文对应的业务类型,然后显示识别结果。这样就实现了实时识别数据流的功能。
另外,在对待处理报文进行特征计算,将计算结果与历史特征集合进行比较,若存在与计算结果相似的特征集合,则将相似特征集合对应的业务类型作为待处理报文的业务类型。这样将计算得到的特征值作为新的样本,将相似特征集合对应的业务类型作为样本标签,形成新的训练集,通过机器学习算法更新特征集合与业务类型的对应关系。由此通过在线学习能够快速更新特征集合与业务类型的对应关系,从而对新出现的数据进行准确地流量检测。
可以理解的是,抓包模块、数据处理模块和显示模块也可以由相互连接的独立设备实 现。流量检测设备还可以包括配置管理模块,用于配置管理流量检测设备的系统参数。
流量检测设备采集的数据是混合各种业务类型的不定长的消息序列,因此在识别前需要先将待处理消息序列分割为若干块。现有技术采用固定时间窗采集流量数据(流量数据即采集到的该时间窗内的报文),然后根据这些报文中携带的信息,例如某个用于表征业务类型的字段的信息,或者该时间窗内该数据流的报文的个数或者上下行比例等,识别该数据流的业务类型。
为了提高流量识别的准确率,本申请可以选取同一用户的多个数据流,从其中获取一个时间段的报文后,从上述报文提取报文的多流特征,然后根据包括多流特征的目标特征集合确定该时间段的报文对应的业务类型。下面进行详细介绍,参阅图4,本申请提供的流量检测方法的一个实施例包括:
步骤401、获取流量采集设备在第一时间段内采集到的多个报文,多个报文包括第一数据流以及与第一数据流关联的至少一个第二数据流中的报文。
本实施例中,第一数据流与至少一个第二数据流为属于同一用户的数据流。第一时间段的时长可以设置为固定时长或可变时长。
网络互连协议(Internet Protocol,IP)五元组包括用户终端的IP地址、用户终端的端口号、服务器的IP地址、服务器的端口号以及协议类型。流量检测设备根据用户终端的IP地址从待检测数据流中确定一个用户的数据流,然后对该用户的多个数据流进行采样。例如,从多个数据流中提取一个时间段的多个报文。同理,根据服务器的IP地址可以从待检测数据流中确定一个服务器的数据流,然后对该服务器的多个数据流进行采样。
需要说明的是,流量检测设备可以集成到流量采集设备,即为运行于流量采集设备中的软件装置,也可以作为一个单独的硬件部署。
步骤402、根据多个报文确定目标特征集合,目标特征集合包括多个报文对应的多流特征。
多流特征是指从同一用户的多条数据流中提取的特征,数量可以是一个或多个。多流特征包括多个报文的大小的至少一个统计参数。可选的,多流特征还包括但不限于:多个报文的接收时间间隔的至少一个统计参数,或者多个报文的传输速率的至少一个统计参数。多流特征还可以包括在第一时间段内从第一数据流和第二数据流获取的多个报文的数量。统计参数可以是平均值、最大值、最小值、标准差、分位数、峰度、偏度或频谱参数等。除了以上举例涉及的统计参数之外,还可以是其他类型的参数,如方差、协方差和极差等。对本申请技术方案所使用的统计参数的类型,本申请不做限制。
可以理解的是,目标特征集合可包括多个报文的大小的统计参数、多个报文对应的接收时间间隔的统计参数、多个报文的传输速率的统计参数中的至少一项,具体可以如表1所示:
Figure PCTCN2018121917-appb-000001
Figure PCTCN2018121917-appb-000002
表1
将从第一数据流和至少一个第二数据流中采集的多个报文的数量记为N,确定N个报文对应的多流特征,N为正整数。下面对于N个报文的大小对应的多流特征值的计算方法进行简单介绍:
(1)平均值的计算公式为:
Figure PCTCN2018121917-appb-000003
x i为第i个报文的大小,
Figure PCTCN2018121917-appb-000004
为报文的大小的算术平均值,N为报文的大小的总数。
可以理解的是,平均值还可以是加权平均值或其他平均值。
(2)统计N个报文中每个报文的大小,从其中选取报文的大小的最大值。
(3)统计N个报文中每个报文的大小,从其中选取报文的大小的最小值。
(4)报文的大小的标准差用于表示报文的大小的离散程度。
标准差的计算公式为:
Figure PCTCN2018121917-appb-000005
σ为报文的大小的标准差,N为报文的大小的总数,x i为第i个报文的大小,
Figure PCTCN2018121917-appb-000006
为报文的大小的算术平均值。
(5)报文的大小的分位数表示报文的大小作为累积分布函数的因变量时自变量的取值。分位数包括二分位数、四分位数或百分位数等,二分位数也称为中位数。下面以二分位数为例,二分位数的计算方式如下:当报文数量为奇数时,将所有报文的大小排序后选取正中间的一个作为二分位数;当报文数量为偶数时,将所有报文的大小排序后选取正中间的两个,将两个报文的大小的平均值作为二分位数。
(6)报文的大小的峰度用于表示报文的大小分布形态的陡缓程度。
峰度的计算公式可以如下:
首先计算方差D:
Figure PCTCN2018121917-appb-000007
再计算峰度E:
Figure PCTCN2018121917-appb-000008
其中,x i为第i个报文的大小,
Figure PCTCN2018121917-appb-000009
为报文的大小的算术平均值,N为报文的大小的数量。
(7)报文的大小的偏度用于表示报文的大小分布形态的偏斜方向和程度。
偏度的计算公式为:
Figure PCTCN2018121917-appb-000010
Figure PCTCN2018121917-appb-000011
S k为偏度,μ 3为三阶中心矩,σ为标准差。N为报文的大小的总数,x i为第i个报文的大小,
Figure PCTCN2018121917-appb-000012
为报文的大小的算术平均值。
(8)报文的大小的频谱参数是指位于预设区间的报文的大小与报文的大小的总数的比例。报文的大小的频谱参数值的计算公式如下:
P i=N i/N;
P i为报文的大小的取值在第i个取值区间的频谱参数值,N i为第i个取值区间包括的报文的大小的数量,N为报文的大小的总数。
举例来说,报文的大小的总数为10个,报文的大小的预设区间为(230字节,270字节)。若有5个报文的大小位于(230字节,270字节)时,则在此取值区间的报文的大小的频谱参数的取值为:P=5/10=0.5。
需要说明的是,对于M个数据流,N个报文,可以获取(N-M)个报文的接收时间间隔。 计算(N-M)报文的接收时间间隔的统计参数的方法与计算N个报文的大小的统计参数的方法相似。对于第一时间段可以划分为P个单位时间,根据每个单位时间的数据量可以确定在单位时间内报文的传输速率。计算P个报文的传输速率的统计参数的方法与计算N个报文的大小的统计参数的方法相似。
步骤403、根据目标特征集合,以及目标特征集合与业务类型的对应关系,确定在第一时间段内第一数据流对应的业务类型。
具体的,特征库包括多个特征集合,每个特征集合都有一个业务类型与之对应,并且一个业务类型可以对应一个特征集合,也可以对应多个特征集合。
流量检测设备可以从本地或网络存储服务器获取特征库。当目标特征集合是属于特征库中的一个特征集合时,根据目标特征集合,以及目标特征集合与业务类型的对应关系,确定在第一时间段内第一数据流对应的业务类型为目标特征集合对应的业务类型。
当特征库不包括目标特征集合时,在特征库中查找与目标特征集合相似度最高的第一特征集合,然后将第一特征集合对应的业务类型作为在第一时间段内第一数据流对应的业务类型。或者,在特征库中查找与目标特征集合相似度高于预设阈值的特征集合后,将查找到的一个特征集合对应的业务类型作为在第一时间段内第一数据流对应的业务类型。在一个可选实施方式中,获取目标特征集合后,可以根据目标特征集和用于表示业务类型的标识之间的对应关系,确定并输出一个用于表示业务类型的标识。得到标识后,再根据标识确定业务类型。
需要说明的是,在流量采集设备采集得到报文之后,流量检测设备可以立即对采集得到的报文执行以上流量检测方法进行实时分析。或者,流量采集设备采集得到报文后,将采集得到的报文存储在本地存储服务器或者网络存储服务器,流量检测设备从存储服务器读取报文,然后对读取的报文执行以上流量检测方法进行离线分析。
本实施例中,为了确定一数据流的业务,从该数据流以及至少一条与该数据流属于同一用户的数据流的报文中提取多流特征,由于多流特征能够考虑了同一用户的其他数据流对该数据流的影响,因此能够更加准确地描述数据流,从而能够提高对一条数据流的流量检测的准确率。
流量检测设备从多个数据流中选取报文的时长可以是固定时长,也可以是可变时长。下面对采用可变时长选取报文的过程进行详细介绍:
在一个可选实施例中,步骤401具体为:获取流量采集设备在第二时间段内采集到的多个报文;在流量采集设备在第二时间段内接收的最后一个第一数据流的报文的接收时刻与第二时间段的结束时刻之间的时间差小于预设阈值的情况下,获取流量采集设备在第三时间段内采集到的多个报文;在流量采集设备在第二时间段内接收的最后一个第一数据流的报文的接收时刻与第二时间段的结束时刻之间的时间差不小于预设阈值的情况下,第二时间段与第一时间段相同。
具体的,在第二时间段内采集到的多个报文包括第一数据流以及至少一个第二数据流中的报文。第二时间段的起始时刻为第一时间段的起始时刻,第二时间段为第一时间段的一部分。其中,第二时间段与第三时间段之和为第一时间段。
在流量采集设备在第二时间段内接收的最后一个第一数据流的报文的接收时刻与第二时间段的结束时刻之间的时间差小于预设阈值的情况下,则表示在第二时间段内传输的报文可能是一个数据传输任务的部分数据,这样流量检测设备在第二时间段的基础上增加第三时间段,将在第二时间段和第三时间段获得的报文作为在第一时间段获得的报文。由于增加了第三时间段获取的报文,即获得了更多报文进行流量分析,因此采集得到的消息序列更为完整。本申请对于第三时间段的时长不做限制,其可以包括但不限于5秒,10秒,30秒等。
在流量采集设备在第二时间段内接收的最后一个第一数据流的报文的接收时刻与第二时间段的结束时刻之间的时间差大于或等于预设阈值的情况下,则表示在第二时间段内已经完成数据传输任务,这样表示在第二时间段采集的多个报文能够满足流量识别要求,可以不延长时间段,在此情况下第二时间段与第一时间段相同。
参阅图5a,图5a为扩大时间窗获取报文的一个示意图。在第一次获取流量检测所用报文的过程中,第二时间段为[0,10s],预设时间为1s。若在[0,10s]内接收最后一个报文的时刻为9.8s,则最后一个报文的接收时刻与第10s相差0.2s。由于0.2s小于1s,因此获取第三时间段[10s,15s]的报文,将在[0,15s]接收的报文作为在第一次获取流量检测所用报文的过程中第一时间段获得的报文。
参阅图5b,图5b为不扩大时间窗获取报文的一个示意图。在第二次获取流量检测所用报文时,第二时间段为[10s,20s],预设时间为1s。首先获取[10s,20s]的报文,在[10s,20s]内接收最后一个报文的时刻为17s,则最后一个报文的接收时刻与第20s相差3s。由于3s大于1s,因此获取[10s,20s]的报文作为在第二次获取流量检测所用报文的过程中第一时间段获得的报文。这样,两次连续获取报文的过程存在重叠时间差,按照这种方式进行流量检测,能够对在以上过程中流经流量检测设备的所有报文都进行处理。另外从以上可以看出,第10s既是第一次获取流量检测所用报文的过程中第二时间段的结束时刻,也是第二次获取流量检测所用报文的过程中第一时间段的起始时刻。这样通过在后时间段可查找在前时间段。
对于长时业务或者大流量业务,通过调整采集报文的时长能够从数据流中获取更为完整的消息序列。与从消息序列片段提取特征相比,从完整消息序列提取的特征更为准确,能够提高流量检测的准确率。
在另一个可选实施例中,步骤401具体为:获取流量采集设备在第二时间段内采集到的多个报文;在流量采集设备在第二时间段内接收的数据总量大于预设数据量的情况下,并获取流量采集设备在第三时间段内采集到的多个报文,其中,第二时间段与第三时间段之和为第一时间段;在流量采集设备在第二时间段内接收的数据总量不大于预设数据量的情况下,第二时间段与第一时间段相同。
本实施例中,在第二时间段内采集到的多个报文包括在第二时间段内第一数据流以及至少一个第二数据流中的报文。
第二时间段内接收的数据总量大于预设数据量的情况,表示在第二时间段的数据量较大,在第二时间段内传输的数据可能是一个数据传输任务的部分数据。这样流量检测设备 在第二时间段的基础上增加第三时间段,以得到更多报文,从而使采集得到的消息序列更为完整。本申请对于第三时间段的时长不做限制,其包括但不限于5秒,10秒或30秒。
第二时间段内接收的数据总量不大于预设数据量的情况,表示在第二时间段已经将一个数据传输任务完成。这样在第二时间段选取的多个报文能够满足流量识别要求,可以不延长时间段,第二时间段即为第一时间段。
参阅图6a,图6a为扩大时间窗获取报文的另一个示意图。举例来说,第二时间段为[0,10s],预设数据量为3兆字节(MB)。若在[0,10s]内收到报文的数据总量为5MB。由于5MB大于3MB,将在[0,10s]获取的报文作为第一时间段内获取的报文。
参阅图6b,图6b为不扩大时间窗获取报文的另一个示意图。在下一次获取流量检测所用报文时,首先获取[5s,15s]的报文,若在[5s,15s]内收到报文的数据总量为1MB。由于1MB小于3MB,因此获取第三时间段[15s,20s]的报文,将在[5s,20s]获取的报文作为第一时间段内获取的报文。
对于长时业务或者大流量业务,在本实施例中流量检测设备通过调整采样时长能够从数据流中获取更为完整的消息序列。与从消息序列片段提取特征相比,从完整消息序列提取的特征更为准确,能够增加流量检测的准确率。
在另一个可选实施例中,步骤403具体包括:根据目标特征集合,从特征库中查找出第一特征集合,第一特征集合为与目标特征集合的相似度最高的特征集合;根据第一特征集合与业务类型的对应关系,确定在第一时间段内第一数据流对应的业务类型,在第一时间段内第一数据流对应的业务类型与第一特征集合对应的业务类型相同。
本实施例中,特征库由多个特征集合构成,每个特征集合都有一个业务类型与之对应。具体的,一个业务类型可以对应一个或多个特征集合。其中,特征库中的特征集合可以是预先设置的,也可以是经过检测确定符合预设条件后加入特征库的。
相似度是指两个参与比较的特征集合中特征值的相似程度,其大小可以通过相似度公式来计算得到。相似度公式包括不限于欧氏距离公式,曼哈顿距离公式、夹角余弦公式或皮尔逊相关系数等。预设阈值用于衡量两个参与比较对象是否相似,其取值可以根据实际情况设置,例如80%。若超过预设阈值时,确定两个参与比较对象相似,若不超过预设阈值,则确定两个参与比较对象不相似。
例如,特征集合包括的特征为报文大小的平均值。目标特征集合中特征值为220字节,目标特征集合记为A1。特征库包括三个特征集合,分别记为A2、A3和A4。A2、A3和A4中的特征值分别为200字节,500字节,1000字节。首先将220字节,200字节,500字节,1000字节利用1000字节进行归一化得到0.22,0.2,0.5,1,然后相似度公式分别计算A1与A2,A1与A3,A1与A4的相似度。
相似度公式为:X和Y的相似度=1/(1+Distance(X,Y))。其中,Distance(X,Y)表示X和Y的欧式距离。X和Y均可以包括一个特征值或者一组特征值。
计算结果分别如下:
A1与A2的相似度=1/(1+|0.22-0.2|)≈0.98。
A1与A3的相似度=1/(1+|0.5-0.2|)≈0.77。
A1与A4的相似度=1/(1+|1-0.2|)≈0.56。
根据0.98>0.77>0.56的比较结果,可知A1与A2的相似度的取值最大,即在特征库中特征集合A2与目标特征集合A1的相似度最高。
若X和Y都包括一组特征值,X包括的一组特征值记为(x1,x2,x3,x4,x5),Y包括的一组特征值记为(y1,y2,y3,y4,y5),则在上述相似度公式中,
Figure PCTCN2018121917-appb-000013
需要说明的是,两个特征集合中两个比较的特征的类型相同,即x1与y1的特征类型相同,x1与y1的特征类型相同,x2与y2的特征类型相同,x3与y3的特征类型相同,x4与y4的特征类型相同,x5与y5的特征类型相同。
在另一个可选实施例中,上述流量检测方法还包括:通过机器学习算法训练多个新增样本和多个历史样本,以更新特征库中特征集合与业务类型的对应关系,多个新增样本包括第一时间段内第一数据流对应的样本,第一数据流对应的样本包括第一数据流的多流特征以及业务类型。
样本可能是一个表,在表中每行或每条记录可以记录一个样本的信息,包括该数据流的各种特征以及该数据流的业务类型。例如,一个样本可以包括N个多流特征,M个单流特征和L个事务的特征。或者,一个样本包括N个多流特征和M个单流特征;或者,一个样本包括N个多流特征和L个事务的特征。N、M、L为正整数,其取值可以相同,也可以不同,本申请对上述取值不做限制。而经过机器学习后得到的特征集合与业务类型的对应关系中,所包括的特征是样本的特征集合的全集或者子集,事实上,子集是常见的情况。可以理解的是,样本的特征集合包括的特征可参阅前述实施例中的相应描述,本申请不做限制。
本实施例中,历史样本是指在获取新增样本之前已获得的样本。历史样本可以是预先设置的,也可以是经过流量检测后生成的样本。机器学习算法包括但不限于:决策树算法、随机森林算法、逻辑回归算法,支持向量机(Support Vector Machine,SVM)算法,朴素贝叶斯算法、K均值算法、Adaboost算法、马尔科夫算法等。
在步骤403之后,可以将第一数据流对应的多流特征和业务类型作为新增样本,采用上述方法还可以在后续时间段获得其他新增样本,或者将第二数据流对应的多流特征和业务类型作为新增样本。然后,通过机器学习算法训练多个新增样本和多个历史样本,以更新特征集合和业务类型的对应关系。需要说明的是,样本中的特征集合包括但不限于多流特征,还可以包括单流特征或事务特征等。
这样,将产生的新增样本与历史样本一起训练,能够更新和修正特征集合与业务类型的对应关系,使得更新后的特征集合与业务类型的对应关系与当前数据流与业务类型的对应关系更加接近,也可以更加多样化。在识别时,通过更新后的特征集合与业务类型的对应关系,一方面能够识别出更多的数据流,一方面也能够提高流量检测的准确率。并且,通过实时更新特征集合与业务类型的对应关系可以准确识别在实际应用中出现的新数据流,由此可以解决依靠离线样本训练的方法无法准确识别新数据流的问题。
需要说明的是,本申请还可以设置多个阈值,例如第一阈值为80%,第二阈值为60%, 置信度高于80%的特征集合为高置信度特征集合,置信度在[60%,80%]的特征集合为中置信度特征集合,低于60%的特征集合为低置信度特征集合。
以上公开了一种将相似度最高的特征集合对应的业务类型作为目标特征集合对应的业务类型的方法。但是,在一些情况下,两个特征集合的相似度虽然最高,但是在实际应用中两个特征集合并不被认为相似,例如相似度低于60%,或者相似度低于其他预设的相似度阈值。这样将低置信样本和高置信样本进行训练,会导致更新后的特征集合与业务类型的对应关系的准确率变差。为了解决该问题,本申请提供多种选取新增样本的方法,以去除新增样本中的低置信样本,保证参与训练的样本均为高置信样本。下面进行详细介绍:
在一个可选实施例中,多个新增样本中,包括至少一个第一新增样本,第一新增样本对应特征库中的一特征集合,其中,第一新增样本中包括一组高置信的特征,该组高置信的特征与特征库中的一个特征集合的相似度满足预设条件,以及第一新增样本中包括的业务类型与第一新增样本对应的特征集合所对应的业务类型相同。
本实施例中,目标特征集合与第一特征集合包括的特征类型相同。
确定第一数据流对应的目标特征集合后,从特征库中查找与目标特征集合的相似度最高的第一特征集合。判断目标特征集合与第一特征集合的相似度是否不低于预设相似度阈值,若不低于,则确定目标特征集合为高置信特征集合,将该目标特征集合以及第一特征集合对应的业务类型作为一个第一新增样本;若低于,则确定目标特征集合为低置信特征集合,不采用该特征集合以及其对应的业务类型作为样本。这样将高置信特征集合及其对应的业务类型作为新增样本,避免将包括低置信特征集合的样本作为训练样本。
在另一个可选实施例中,多个新增样本中,包括至少一个第二新增样本,上述方法还包括:获取流量采集设备采集到的一数据流在一个时间段内对应的服务器标识,服务器标识包括一服务器的网络互连协议IP地址和服务器的名称;根据服务器标识与业务类型的对应关系,确定数据流的业务类型;保存数据流对应的第二新增样本,第二新增样本中包括数据流的业务类型以及在时间段内的多流特征。
本实施例中,流量检测设备可以从报文的头部中解析出服务器标识,服务器标识包括但不限于服务器网络互连协议IP地址和服务器名称。服务器名称是从加密握手消息中解析出的(Server Name Indication,SNI)信息,或是从HTTP header中解析出的http.host信息(如域名)。
举例来说,业务类型、IP特征和SNI特征的对应关系如表2所示:
业务类型 IP SNI
Web 115.231.171.50 huawei.com
Web 202.89.233.100 bing.com
Video 106.11.47.19 youku.com
Video 31.13.97.245 youtube.com
表2
在服务器IP地址为115.231.171.50,且服务器名称为huawei.com的情况下,确定在第一时间段内第一数据流对应的业务类型为Web业务。
在一个时间段内获取从第一数据流和第二数据流中多个报文,确定上述多个报文对应的多流特征以及Web业务后,将该多流特征及Web业务作为第二新增样本保存。在实际应用中,部分服务器只提供一种业务。由此,通过服务器标识可以迅速识别出服务器提供的业务的类型。
在实际应用中,一个IP地址和一个服务器名称构成的服务器标识所对应的服务器可以提供一种或多种业务。这样,一个IP地址和一个服务器名称构成的服务器标识,可能对应一种或多种业务类型。
在另一种实现方式中,流量检测设备获取一个时间段内一个服务器标识对应的多个记录以及业务类型,统计每个业务类型对应的记录的数量;计算每个业务类型的记录的数量与记录的总数的比例,确定比例最大的业务类型为该时间段内服务器标识对应的业务类型。其中,服务器标识对应的记录是指,服务器标识对应的服务器在一个时间段内传输的一个或多个报文。
举例来说,一组IP地址和服务器名称,在一段时间内总共15条记录,业务类型1对应的记录的数量为4,业务类型2对应的记录的数量为5,业务类型3对应的记录的数量为6。可见,在上述时间段内,该组IP地址和服务器名称与业务类型1对应的概率=4/15≈0.27,该组IP地址和服务器名称与业务类型2对应的概率=5/15≈0.33,该组IP地址和服务器名称与业务类型3对应的概率=6/15=0.4。其中0.4最大,即表明业务类型为业务类型3的报文最多,由此确定在上述时间段内该组IP地址和服务器名称对应的业务类型为业务类型3。
在另一个例子中,一组IP地址和服务器名称,在一段时间段总共10条记录,10条记录对应的业务类型为业务类型1。可见,该组IP地址和服务器名称与业务类型1对应的概率为1,由此确定在上述时间段内该组IP地址和服务器名称对应的业务类型为业务类型1。
在另一个可选实施例中,上述流量检测方法还包括:在第一消息序列的接收时段和第二消息序列的接收时段存在时间重叠的情况下,流量检测设备确定在第一时间段内第一数据流对应的业务类型为网页浏览业务。
其中,第一消息序列是指在第一时间段内属于第一数据流的多个报文。第二消息序列是指在第一时间段内属于第二数据流的多个报文。第一数据流和第二数据流是属于同一用户的不同数据流。
具体可参阅图7a和7b,图7a为第一消息序列的一个示意图,图7b为第二消息序列的一个示意图。第一时间段为0~10秒,第一消息序列的接收时段为2~4秒,第二消息序列的接收时段为3~6秒。由于第一消息序列和第二消息序列的接收时段存在重叠,可确定用户在第一时间段内的业务为网页浏览业务。
在另一个可选实施例中,上述流量检测方法还包括:在第一消息序列的接收时段和第二消息序列的接收时段无时间重叠,且第一消息序列的数据量与第二消息序列的数据量之差小于预设差量的情况下,流量检测设备确定在第一时间段内第一数据流对应的业务类型为在线视频业务。
其中,第一消息序列是指在第一时间段内属于第一数据流的多个报文。第二消息序列是指在第一时间段内属于第二数据流的多个报文。第一数据流和第二数据流是属于同一用 户的不同数据流。
具体可参阅图8a和8b,图8a为第一消息序列的一个示意图,图8b为第二消息序列的一个示意图。第一时间段为0~10秒,第一消息序列的接收时段为2~4秒,第二消息序列的接收时段为5~9秒,第一消息序列的数据量为10M,第二消息序列的数据量为10.5M,预设差量为2M。在此情况下,第一消息序列和第二消息序列的接收时段不存在重叠,且第一消息序列的数据量与第二消息序列的数据量之差小于预设差量,可确定用户在第一时间段内的业务为在线视频业务。
为了便于理解,下面以多个具体应用场景对本申请提供的流量检测方法进行具体介绍:
在第一个具体应用场景中,流量检测设备根据IP地址确定同一用户的3个数据流。初始采样时间段为0~10秒,在第一个数据流采集200个报文,在第二个数据流采集300个报文,在第三个数据流采集500个报文,采集得到的报文总数为1000。
预设数据量以10MB为例,采集的1000个报文的数据量以220KB为例,由于在初始采样时间段内采集的报文的数据量不超过10MB,流量检测设备不延长采样时间段。这样流量检测设备根据在0~10秒内采集的1000个报文,确定其对应的目标特征集合。
如表3所示,目标特征集合可以包括但不限于表3所示的统计参数。在多流特征与业务类型的映射关系中包括多流特征集合1和多流特征集合2,多流特征集合1对应的业务类型为网页浏览业务,多流特征集合2对应的业务类型为在线视频。
  目标特征集合 多流特征集合1 多流特征集合2
报文的大小的平均值 220字节 200字节 1000字节
报文的大小的最大值 240字节 220字节 1020字节
报文的大小的最小值 200字节 180字节 980字节
报文的大小的标准差 28 28 28
报文的大小的中位数 220字节 200字节 1000字节
表3
对于表3的示例,用1500字节归一化各特征集合后得到以下特征值组:
目标特征集合:X=[220,240,200,28,220]/1500=[0.146667,0.16,0.133333,0.018667,0.146667]。
多流特征集合1:Y1=[200,220,180,28,200]/1500=[0.133333,0.146667,0.12,0.018667,0.133333]。多流集合2:Y2=[1000,1020,980,28,1000]/1500=[0.666667,0.68,0.653333,0.018667,0.666667]。
相似度公式以相似度=1/(1+Distance(X,Y))为例,计算X与Y1的相似度。预设相似度以0.6为例,X与Y1的相似度=0.974,表明两者相似。X与Y2的相似度=0.49,表明两者不相似。这样,目标特征集合对应的业务类型与多流特征集合1对应的业务类型相同,即网页浏览业务。
此外,将目标特征集合包括的{220字节,240字节,200字节,28,220字节}与网页浏览业务作为新增样本,并保存该新增样本。可以理解的是,在后续流量检测过程中,可以将上述目标特征集合作为比较对象,若后续特征集合与目标特征集合相同或相似,则确定后续特征集合对应的业务类型为网页浏览业务。或者,根据机器学习算法对更新后的样本集合进行训练,利用训练得到的特征集合与业务类型的对应关系对后续报文进行检测。
在第二个具体应用场景中,流量检测设备根据IP地址确定同一用户的3个数据流。初始采样时间段为0~10秒,在第一个数据流采集2000个报文,在第二个数据流采集3000个报文,在第三个数据流采集5000个报文,采集得到的报文总数为10000。
预设数据量以10MB为例,采集的10000个报文的数据量以12MB为例,由于在初始采样时间段内采集的报文的数据量超过10MB,流量检测设备将采样时间段延长5秒,即0~15秒。在10~15秒内采集的报文总数以5000为例,5000个报文的数据量以6MB为例,这样流量检测设备根据在0~15秒内采集的15000个报文,确定其对应的目标特征集合。
如表4所示,目标特征集合可以包括但不限于表3所示的统计参数。在多流特征与业务类型的映射关系中包括多流特征集合1和多流特征集合2,多流特征集合1对应的业务类型为网页浏览业务,多流特征集合3对应的业务类型为在线视频。
  目标特征集合 多流特征集合1 多流特征集合2
报文的大小的平均值 1200字节 200字节 1000字节
报文的大小的最大值 1400字节 220字节 1100字节
报文的大小的最小值 1000字节 180字节 900字节
报文的大小的标准差 28 28 28
报文的大小的中位数 1200字节 200字节 1000字节
表4
对于表4的示例,用1500字节归一化目标特征集合、多流特征集合1和多流特征集合2分别得到以下特征值组X,Y1和Y2。
X=[1200,1400,1000,28,1200]/1500=[0.8,0.933333,0.666667,0.018667,0.8]。
Y1=[200,220,180,28,200]/1500=[0.133333,0.146667,0.12,0.018667,0.133333]。
Y2=[1000,1100,980,28,1000]/1500=[0.666667,0.733333,0.6,0.018667,0.666667]。
相似度公式以相似度=1/(1+Distance(X,Y))为例,计算X与Y1的相似度。预设相似度以0.6为例,X与Y1的相似度=0.426,表明两者不相似。X与Y2的相似度=0.726,表明两者相似。这样,确定目标特征集合对应的业务类型与多流特征集合2对应的业务类型相同,即在线视频业务。
此外,将表4中目标特征集合包括的{1200字节,1400字节,1000字节,28,1200字节}与在线视频业务作为新增样本,将新增样本加入样本集合。可以理解的是,后续流量检测可以将新增样本作为比较对象,若后续特征集合与目标特征集合相同或相似,则确定后续特征集合对应的业务类型为在线视频业务。或者,根据机器学习算法对样本集合进行训练,利用训练得到的特征集合与业务类型的对应关系对后续报文进行检测。
对于同一用户的多条数据流,除了获取多流特征之外,流量检测设备还可以从一条数据流中获取单流特征和事务特征,以便更准确地确定该数据流的业务类型。本申请可以结合多流特征、单流特征或事务特征进行流量检测。下面进行详细介绍,其中,涉及到的与前述的实现方式相应的步骤以及解释等,请参照前文描述:
一、根据多流特征和单流特征进行流量检测:
本申请提供的流量检测方法的另一个实施例包括:获取流量采集设备在第一时间段内采集到的多个报文;根据多个报文确定目标特征集合,目标特征集合包括多个报文对应的多流特征和在第一时间段内采集到的第一数据流的多个报文对应的单流特征;根据目标特 征集合,以及目标特征集合与业务类型的对应关系,确定在第一时间段内第一数据流对应的业务类型。
本实施例中,上述多个报文包括第一数据流以及与第一数据流关联的至少一个第二数据流中的报文。第一数据流与至少一个第二数据流为属于同一用户的数据流。
单流特征包括采集到的第一数据流的报文的大小的统计参数。可选的,单流特征还包括采集到的第一数据流的报文的接收时间间隔的统计参数和传输速率的统计参数中的至少一种,接收时间间隔为在采集到的第一数据流的报文中任意两个接收时间相邻的报文之间的接收时间的间隔。统计参数包括平均值、最大值、最小值、标准差、分位数、峰度、偏度和频谱参数中的至少一种。
其中,根据多个报文确定目标特征集合包括:根据多个报文确定目标特征集合具体包括:根据在第一时间段内从第一数据流以及第二数据流获取的多个报文,确定上述多个报文对应的多流特征;以及,根据在第一时间段内采集到的第一数据流包括的多个报文,确定在第一时间段内第一数据流对应的单流特征。
具体的,根据在第一时间段内从第一数据流以及第二数据流获取的多个报文,确定上述多个报文对应的多流特征的具体方法可参阅图4所示实施例中步骤402。
根据在第一时间段内采集到的第一数据流包括的多个报文,确定在第一时间段内采集到的第一数据流对应的单流特征的具体方法与步骤402中从多个报文中确定多流特征的方法相似。举例来说,在第一时间段第一数据流包括M个报文。对于M个报文,获取M个报文的大小,然后计算出M个报文大小的平均值,作为第一数据流对应的一个单流特征。相似的,可以计算出M个报文的接收时间间隔的平均值作为第一数据流对应的另一单流特征。可以计算出M个报文的传输速率的平均值作为第一数据流对应的另一单流特征。
本实施例中,在特征库中查找相似特征集合时,流量检测设备不仅需要比较多流特征,还需要比较单流特征。与只根据多流特征识别数据流的业务类型相比,本实施例中通过更多特征能够更为完整准确描述该数据流。在识别业务时,需要更多维度的特征,从而提高识别数据流的准确率。
其次,流量检测设备可以根据多流特征和单流特征确定第一数据流对应的业务类型,提供了一种识别数据流的新方法,具有良好的可行性。
二、根据多流特征和事务特征进行流量检测:
本申请提供的流量检测方法的另一个实施例包括:获取流量采集设备在第一时间段内采集到的多个报文;根据多个报文,确定目标特征集合,目标特征集合包括多个报文对应的多流特征和第一时间段内采集到的第一数据流的事务的特征;根据目标特征集合,以及目标特征集合与业务类型的对应关系,确定在第一时间段内第一数据流对应的业务类型;根据目标特征集合,以及目标特征集合与业务类型的对应关系,确定在第一时间段内第一数据流对应的业务类型。
本实施例中,多个报文是指在第一时间段内从第一数据流和至少一个第二数据流采集的多个报文。第一数据流和第二数据流可参阅图4所示实施例的相关描述。
事务包括一个数据流中的多个报文,事务包括的多个报文为一请求和与请求对应的至 少一个响应,事务的特征包括事务包括的多个报文的大小的统计参数。可选的,事务的特征还包括事务包括的多个报文所对应的接收时间间隔的统计参数,以及事务包括的多个报文的传输速率的统计参数。举例来说,用户通过Google应用程序分别搜索关键字A和关键字B,用户向Google服务器发送包括关键字A的搜索请求以及Google服务器对包括关键字A的搜索请求的响应构成一个事务。同理,用户向Google服务器发送包括关键字B的搜索请求以及Google服务器对包括关键字B的搜索请求的响应构成另一个事务。
其中,根据多个报文确定目标特征集合具体包括:根据在第一时间段内获取的第一数据流以及第二数据流中的多个报文,确定上述多个报文对应的多流特征;以及,根据在第一时间段内采集到的第一数据流的事务包括的多个报文,确定在第一时间段内第一数据流的事务的特征。
具体的,根据在第一时间段内获取的第一数据流以及第二数据流中的多个报文,确定上述多个报文对应的多流特征的具体方法可参阅图4所示实施例中步骤402。
根据在第一时间段内采集到的第一数据流的事务包括的多个报文,确定在第一时间段内采集到的第一数据流的事务的特征的具体方法与步骤402中从多个报文中确定多流特征的方法相似。举例来说,在第一时间段内第一数据流包括多个事务,在多个事务中第i个事务包括的报文数量为N i。对于第i个事务包括的N i个报文,获取N i个报文的大小,然后计算出N i个报文的大小的平均值,作为第一数据流的事务的一个事务特征。
本实施例中,在特征库中查找相似特征集合时,流量检测设备不仅需要比较多流特征,还需要比较事务特征。与只根据多流特征识别数据流的业务类型相比,本实施例中通过更多特征能够更为完整准确地表示数据流。在识别业务时,需要更多维度的特征,从而提高识别数据流的准确率。
三、根据多流特征、单流特征和事务特征进行流量识别:
本申请提供的流量检测方法的另一个实施例包括:获取流量采集设备在第一时间段内采集到的多个报文;根据多个报文确定目标特征集合,目标特征集合包括多个报文对应的多流特征,在第一时间段内第一数据流对应的单流特征和在一时间段内第一数据流的事务对应的事务特征;根据目标特征集合,以及目标特征集合与业务类型的对应关系,确定在第一时间段内第一数据流对应的业务类型。
本实施例中,上述多个报文包括第一数据流以及与第一数据流关联的至少一个第二数据流中的报文。第一数据流、第二数据流、事务、多流特征、单流特征和事务的特征可参阅前述实施例。
其中,根据多个报文确定目标特征集合具体包括:根据多个报文确定目标特征集合具体包括:根据在第一时间段内从第一数据流以及第二数据流获取的多个报文,确定上述多个报文对应的多流特征;根据在第一时间段内采集到的第一数据流包括的多个报文,确定在第一时间段内采集到的第一数据流对应的单流特征;根据在第一时间段内采集到的第一数据流的事务包括的多个报文,确定在第一时间段内采集到的第一数据流的事务对应的事务特征。
具体的,根据在第一时间段内从第一数据流以及第二数据流获取的多个报文,确定上 述多个报文对应的多流特征的具体方法可参阅图4所示实施例中步骤402。根据在第一时间段内采集到的第一数据流包括的多个报文,确定在第一时间段内第一数据流对应的单流特征的具体方法参阅前述实施例。根据在第一时间段内采集到的第一数据流的事务包括的多个报文,确定在第一时间段内采集到的第一数据流的事务的特征的具体方法可参阅上一实施例。
本实施例中,在特征库中查找相似特征集合时,流量检测设备不仅需要比较多流特征,还需要比较单流特征和事务特征。与只根据多流特征或单流特征识别数据流的业务类型相比,本实施例中通过更多特征能够更为完整准确地表示数据流。在识别业务时,需要更多维度的特征,从而提高识别数据流的准确率。
四、根据单流特征和事务特征进行流量识别:
本申请提供的流量检测方法的另一个实施例包括:获取流量采集设备在第一时间段内采集到的多个报文;根据多个报文确定目标特征集合,目标特征集合包括在第一时间段内从第一数据流对应的单流特征和在第一时间段内从第一数据流的事务对应的的事务特征;根据目标特征集合,以及目标特征集合与业务类型的对应关系,确定在第一时间段内第一数据流对应的业务类型。
本实施例中,上述多个报文是指在第一时间段内从第一数据流采集的多个报文。
其中,根据多个报文确定目标特征集合具体包括:根据在第一时间段内采集到的第一数据流包括的多个报文,确定在第一时间段内第一数据流对应的单流特征;根据在第一时间段内采集到的第一数据流的事务包括的多个报文,确定在第一时间段内第一数据流的事务对应的事务特征。
具体的,根据在第一时间段内采集到的第一数据流包括的多个报文,确定在第一时间段内第一数据流对应的单流特征的具体方法参阅前述实施例。根据在第一时间段内采集到的第一数据流的事务包括的多个报文,确定在第一时间段内第一数据流的事务的特征的具体方法可参阅前述实施例。
本实施例中,在特征库中查找相似特征集合时,流量检测设备不仅需要比较单流特征,还需要比较事务特征。与只根据单流特征识别数据流的业务类型相比,本实施例中通过更多特征能够更为完整准确地表示数据流。在识别业务时,需要更多维度的特征,从而提高识别数据流的准确率。
五、根据事务特征进行流量识别:
参阅图9,本申请提供的流量检测方法的另一个实施例包括:
步骤901、获取流量采集设备在第一时间段内采集到的多个报文。
本实施例中,多个报文包括在第一时间段内第一数据流中至少一个事务的报文。
步骤902、根据多个报文确定目标特征集合,目标特征集合包括在第一时间段内采集到的第一数据流的事务的特征。
事务的特征包括事务包括的多个报文的大小的统计参数。可选的,事务的特征还包括事务包括的多个报文所对应的接收时间间隔的统计参数和事务包括的多个报文的传输速率的统计参数中的至少一种,多个报文对应的接收时间间隔为多个报文中,任意两个接收时 间相邻的报文之间的接收时间的间隔。统计参数包括平均值、最大值、最小值、标准差、分位数、峰度、偏度或频谱参数中的至少一种。
步骤903、根据目标特征集合,以及目标特征集合与业务类型的对应关系,确定在第一时间段内第一数据流对应的业务类型。
本实施例中,特征库包括多个特征集合,每个特征集合包括但不限于事务特征集合。
流量检测设备可以从本地或网络存储服务器获取特征库。当目标特征集合是属于特征库中的一个特征集合时,根据目标特征集合,以及目标特征集合与业务类型的对应关系,确定在第一时间段内第一数据流对应的业务类型。
当特征库不包括目标特征集合时,在特征库中查找与目标特征集合相似度最高的第一特征集合,然后将第一特征集合对应的业务类型作为在第一时间段内第一数据流的事物对应的业务类型。与目标特征集合相似度最高的特征集合具体是指:目标特征集合包括的事务特征集合与第一特征集合包括的事务特征集合的相似度最高。或者,在特征库中查找与目标特征集合相似度高于预设阈值的特征集合后,将查找到的一个特征集合对应的业务类型作为在第一时间段内第一数据流的事务对应的业务类型。
本实施例中,流量检测设备可以根据第一数据流的事务的特征确定第一数据流对应的业务类型,提供了一种识别数据流的新方法,具有良好的可行性。
在一个可选实施例中,在步骤901之后,上述方法还包括:根据第一事务包括的多个报文,确定第一事务的特征;根据第一事务的特征,以及第一事务的特征与业务类型的对应关系,确定第一事务对应的业务类型。第一事务为第一数据流的事务中的任意一个事务。
举例来说,在预设事务特征集合包括4个特征集合,特征集合中的特征包括报文的大小的平均值。4个特征集合中报文的大小的平均值分别为200字节,500字节,800字节,1000字节。200字节对应的业务类型为网页浏览业务,1000字节对应的业务类型为在线视频业务。
若第一时间段为[0s,10s],在[0s,5s]内从第一数据流中获取10个事务,第5个事务包含10个报文。对于第5个事务,计算出10个报文的大小的平均值为200字节。由于200字节属于预设事务特征集合,根据200字节与业务类型的对应关系确定第5个事务对应的业务类型为网页浏览业务。
若在[0s,10s]内从第一数据流中获取20个事务,第10个事务包含15个报文。对于第10个事务,计算出15个报文的大小的平均值为1100字节。由于在预设事务内部特征值集合不包括1100字节的特征值,流量检测设备在预设事务内部特征集合中查找与1100字节相似度最高的特征值,例如1000字节。将1000字节对应的业务类型(即在线视频业务)作为第10个事务对应的业务为在线视频业务。这样,流量检测设备可以确定每个事务对应的业务类型,能够进一步提高流量检测的精度。
在另一个可选实施例中,上述方法还包括:通过机器学习算法训练多个新增样本和多个历史样本,以更新在特征库中特征集合与业务类型的对应关系,多个新增样本包括在第一时间段内第一数据流的事务对应的样本,第一数据流的事务对应的样本包括第一数据流的事务的特征以及业务类型。
本实施例中,在步骤903之后,可以将第一数据流的事务对应的事务特征和业务类型作为新增样本。采用上述方法还可以在后续时间段获得其他新增样本,或者将第二数据流的事务对应的事务特征和业务类型作为新增样本。然后,通过机器学习算法训练多个新增样本和多个历史样本,以更新特征集合和业务类型的对应关系。
这样,将产生的新增样本与历史样本一起训练,能够更新和修正特征集合与业务类型的对应关系,使得更新后的特征集合与业务类型的对应关系与当前数据流与业务类型的对应关系更加接近,也可以更加多样化。在识别时,通过更新后的特征集合与业务类型的对应关系,一方面能够识别出更多的数据流,一方面也能够提高流量检测的准确率。并且,通过实时更新特征集合与业务类型的对应关系可以识别在实际应用中出现的新数据流对应的业务类型,由此可以解决依靠离线样本训练的方法无法检测新数据流的问题。
为了避免将低相似度的特征集合和其对应的业务类型加入训练用的样本集合,本申请提供多种选取新增样本的方法,以去除新增样本中的低置信样本,保证参与训练的样本均为高置信样本,下面进行详细介绍:
在一个可选实施例中,多个新增样本中,包括至少一个第一新增样本,第一新增样本对应特征库中的一特征集合,其中,第一新增样本中包括一组高置信的特征,该组高置信的特征与特征库中的一个特征集合的相似度满足预设条件,以及第一新增样本中包括的业务类型与第一新增样本对应的特征集合所对应的业务类型相同。
本实施例中,目标特征集合与第一特征集合包括的特征类型相同。
确定第一数据流对应的目标特征集合后,从特征库中查找与目标特征集合的相似度最高的第一特征集合。判断目标特征集合与第一特征集合的相似度是否不低于预设相似度阈值,若不低于,则确定目标特征集合为高置信特征集合,将该目标特征集合以及第一特征集合对应的业务类型作为一个第一新增样本;若低于,则确定目标特征集合为低置信特征集合,不采用该特征集合以及其对应的业务类型作为样本。这样将高置信特征集合及其对应的业务类型作为新增样本,避免将包括低置信特征集合的样本作为训练样本。
在另一个可选实施例中,多个新增样本中,包括至少一个第二新增样本。上述方法还包括:获取流量采集设备在一个时间段内采集到的一数据流的事务对应的服务器标识,服务器标识包括一服务器的网络互连协议IP地址和服务器的名称;根据服务器标识与业务类型的对应关系,确定数据流的事务对应的业务类型;保存数据流的事务对应的第二新增样本,第二新增样本中包括事务的业务类型以及事务特征。
本实施例中,流量检测设备可以从报文的头部中解析出服务器标识,服务器标识包括但不限于服务器IP地址和服务器名称。服务器名称是从加密握手消息中解析出的SNI信息,或是从HTTP header中解析出的http.host信息(如域名)。
在一个时间段内获取从第一数据流的事务包括多个报文,确定上述多个报文对应的事务特征以及业务类型后,将该事务特征及业务类型作为第二新增样本保存。在实际应用中,部分服务器只提供一种业务。由此,通过服务器标识可以迅速识别出服务器提供的业务的类型。
除了以上举例之外,流量检测设备还可以获取流量采集设备在第一时间段内采集的第 一数据流包括的多个报文,根据第一数据流包括的多个报文确定第一数据流的单流特征,然后根据第一数据流的单流特征以及单流特征与业务类型的对应关系,确定在第一时间段内第一数据流的业务类型。
基于以上流量检测方法,可以确定每个数据流对应目标特征集合和业务类型。在实际应用中,数据流与业务类型的对应关系是复杂的。目标特征集合
参阅图10,本申请实施例中样本训练方法的一个实施例包括:
步骤1001、识别一个时间段内多条数据流的业务类型,以得到多个新增样本。
本实施例中,根据一个时间段内多条数据流包括的多个报文,可以确定多流特征和业务类型。根据一个时间段内一条数据流包括的多个报文,可以确定该数据流的单流特征。根据一个时间段内一条数据流的事物包括的多个报文,可以确定该数据流的事务的特征。由此获得的目标特征集合包括多流特征、单流特征和事务的特征中的至少一个。在确定目标特征集合对应的业务类型后,将上述目标特征集合和业务类型作为新增样本。
步骤1002、通过机器学习算法训练更新后的样本集合,以得到更新后的对应关系集合。
其中,对应关系集合包括多条映射关系,映射关系为特征集合与业务类型之间的映射关系;更新后的样本集合包括多个新增样本和多个历史样本,其中,更新后的样本集合中的每个样本包括一业务类型以及多个特征,多个特征包括多流特征,单流特征和事务的特征中的至少一种,多流特征,单流特征和事务的特征都包括至少一个统计参数。
本实施例中,将产生的新增样本与历史样本一起训练,能够更新和修正特征集合与业务类型的对应关系,使得保存的特征集合与业务类型的对应关系与当前数据流与业务类型的对应关系更加接近,也可以更加多样化。在识别时,通过更新后的特征集合与业务类型的对应关系,一方面能够识别出更多的数据流,一方面也能够提高流量检测的准确率。
在一个可选实施例中,多个新增样本中,包括至少一个第一新增样本,第一新增样本对应特征库中的一特征集合,其中,第一新增样本中包括一组高置信的特征,该组高置信的特征与特征库中的一个特征集合的相似度满足预设条件,以及第一新增样本中包括的业务类型与第一新增样本对应的特征集合所对应的业务类型相同。
本实施例中,确定第一数据流对应的目标特征集合后,从特征库中查找与目标特征集合的相似度最高的第一特征集合。判断目标特征集合与第一特征集合的相似度是否不低于预设相似度阈值,若不低于,则确定目标特征集合为高置信特征集合,将该目标特征集合以及第一特征集合对应的业务类型作为一个第一新增样本;若低于,则确定目标特征集合为低置信特征集合,不采用该目标特征集合以及其对应的业务类型作为样本。这样将高置信特征集合及其对应的业务类型作为新增样本,避免将包括低置信特征集合的样本作为训练样本。
在另一个可选实施例中,多个新增样本中,包括至少一个第二新增样本;
上述方法还包括:获取流量采集设备采集到的一数据流在一个时间段内对应的服务器标识,服务器标识包括一服务器的IP地址和服务器的名称;根据服务器标识与业务类型的对应关系,确定数据流的业务类型;保存在时间段内数据流对应的第二新增样本,第二新增样本中包括数据流的业务类型以及数据流的多流特征。
本实施例中,流量检测设备可以从报文的头部中解析出服务器标识,服务器标识包括但不限于服务器IP地址和服务器名称。服务器名称是从加密握手消息中解析出的SNI信息,或是从HTTP header中解析出的http.host信息(如域名)。
在一个时间段内获取从第一数据流和第二数据流中多个报文,确定上述多个报文对应的目标特征集合以及业务类型后,将该目标特征集合以及业务类型作为第二新增样本保存。在实际应用中,部分服务器只提供一种业务。由此,通过服务器标识可以迅速识别出服务器提供的业务的类型。
由于对一网络,识别出其中传输的数据流的业务类型,就能进一步分析出用户对不同业务的业务需求的差异,对网络的网络优化和网络故障诊断,以及网络的用户体验质量监控等操作都十分关键,故使用本申请记载的任一种方法,能更准确地识别出数据流在一个时间段内的业务类型。以下简单描述使用识别出的业务类型,监控网络的服务质量的流程,其中,网络的服务质量以参数KQI表示。
现有技术评估网络质量不区分流量类型,难以准确反映用户对不同业务的业务需求差别。本申请根据流量类型与业务类型的对应关系,以及业务类型与KQI参数的对应关系,能够对用户体验质量进行监控、网络优化和网络故障诊断,从而提升用户体验。
本申请提供的业务分析方法的一个实施例包括:根据在一个时间段内第一数据流对应的业务类型,确定在一个时间段内第一数据流对应的KQI参数。判断KQI参数值是否不低于预设KQI,若低于预设KQI,则根据业务类型进行根因分析,根据分析结果执行后续流程。
本实施例中,业务分析模块可以从本地或网络存储服务器获取预设的业务类型和KQI参数的对应关系,例如,网页浏览业务的KQI参数包括但不限于网页加载时延。网络视频业务的KQI参数包括但不限于卡顿时长。VoIP业务的KQI参数包括但不限于通话时长。文件传输业务的KQI参数包括但不限于下载速率。确定KQI参数后,计算上述多个报文的KQI参数值。
预设KQI用于衡量用户体验质量是否合格。确定数据流集合的KQI参数值后,判断其是否高于预设KQI,若高于或等于预设KQI,则表明其满足用户体验质量要求。若低于预设KQI,则表明数据流的KQI不满足用户体验质量要求。若KQI不满足质量标准,则表明用户体验不佳,需要改善用户体验。为了使用户满意,不同业务的预设KQI的取值不同。例如在用户正常体验水平时,网页浏览的数据传输速率为500kbps,文件传输的数据传输速率为4000kbps,在线视频的数据传输速率为900kbps。即文件传输的速率KQI>在线视频的速率KQI>网页浏览的速率KQI。
根据分析结果可以对用户体验质量进行监控。若收到用户投诉单,可以将分析结果与用户投诉单匹配,向用户反馈分析结果。对于文件传输业务,对链路往返时延、丢包率、发送窗口进行分析。对于网络视频业务,对视频码率、视频初始缓冲阶段的丢包率和发送窗口进行分析。若分析结果为网络延时,则生成网络优化方案。若分析结果为网络故障,则下发告警通知并生成网络故障诊断方案。
本实施例中,根据流量类型与业务类型的对应关系,以及业务类型与KQI的对应关系,能够对用户体验质量进行监控、网络优化和网络故障诊断,从而提升用户体验。
本申请提供一种流量检测设备1100,其能实现图4所示实施例或可选实施例中流量检测方法。参阅图11,流量检测设备1100的一个实施例包括:
获取模块1101,用于获取流量采集设备在第一时间段内采集到的多个报文,多个报文包括第一数据流以及与第一数据流关联的至少一个第二数据流中的报文,第一数据流与至少一个第二数据流为属于同一用户的数据流;
确定特征模块1102,用于根据多个报文,确定目标特征集合,目标特征集合包括多个报文对应的多流特征,多流特征包括多个报文的大小的统计参数;
确定业务类型模块1103,用于根据目标特征集合,以及目标特征集合与业务类型的对应关系,确定在第一时间段内第一数据流对应的业务类型。
本实施例的流量检测设备1100能实现前文的多个方法实施例,例如图4所示实施例或可选实施例中的流量检测方法。其中,具体实施方式、技术效果以及名词解释请参阅前文所示实施例或可选实施例的相应描述。例如,获取模块1101可以用于执行步骤401的其他多种实现方式,以及通过单流特征、多流特征和事务特征中任意一种或者多种特征进行流量识别的各种实现方式中的获取报文的步骤;确定特征模块1102可以用于执行步骤402的其他多种实现方式,以及通过单流特征、多流特征和事务特征中任意一种或者多种特征进行流量识别的各种实现方式中的确定目标特征集合的步骤;确定业务类型模块1103可以用于执行步骤403的其他多种实现方式,以及通过单流特征、多流特征和事务特征中任意一种或者多种特征进行流量识别的各种实现方式中的确定业务类型的步骤。
在一个可选实施例中,多流特征还包括多个报文对应的接收时间间隔的统计参数和多个报文的传输速率的统计参数中的至少一种,多个报文对应的接收时间间隔为多个报文中,任意两个接收时间相邻的报文之间的接收时间的间隔。
在另一个可选实施例中,第一时间段与流量采集设备在第二时间段内采集到的多个报文的统计参数相关。
在另一个可选实施例中,
获取模块1101,用于获取流量采集设备在第二时间段内采集到的多个报文,在第二时间段内采集到的多个报文包括第一数据流以及至少一个第二数据流中的报文;在流量采集设备在第二时间段内接收的最后一个第一数据流的报文的接收时刻与第二时间段的结束时刻之间的时间差小于预设阈值的情况下,获取流量采集设备在第三时间段内采集到的多个报文,其中,第二时间段与第三时间段之和为第一时间段。
在另一个可选实施例中,获取模块1101,用于获取流量采集设备在第二时间段内采集到的多个报文,在第二时间段内采集到的多个报文包括第一数据流以及至少一个第二数据流中的报文;在流量采集设备在第二时间段内接收的数据总量大于预设数据量的情况下,并获取流量采集设备在第三时间段内采集到的多个报文,其中,第二时间段与第三时间段之和为第一时间段。
在另一个可选实施例中,确定业务类型模块1103用于根据目标特征集合,从特征库中查找出第一特征集合,第一特征集合为与目标特征集合的相似度最高的特征集合;根据第一特征集合与业务类型的对应关系,确定在第一时间段内第一数据流对应的业务类型,在 第一时间段内第一数据流对应的业务类型与第一特征集合对应的业务类型相同。
在另一个可选实施例中,目标特征集合还包括在第一时间段内采集到的第一数据流的报文对应的单流特征,单流特征包括采集到的第一数据流的报文的大小的统计参数。
在另一个可选实施例中,单流特征还包括采集到的第一数据流的报文的接收时间间隔的统计参数和传输速率的统计参数中的至少一种,接收时间间隔为在采集到的第一数据流的报文中任意两个接收时间相邻的报文之间的接收时间的间隔。
在另一个可选实施例中,目标特征集合还包括在第一时间段内采集到的第一数据流的事务的特征,事务包括多个报文,事务包括的多个报文为一请求和与请求对应的至少一个响应,事务的特征包括事务包括的多个报文的大小的统计参数。
在另一个可选实施例中,事务的特征还包括事务包括的多个报文所对应的接收时间间隔的统计参数,以及事务包括的多个报文的传输速率的统计参数。
在以上实施例中,统计参数包括平均值、最大值、最小值、标准差、分位数、峰度、偏度和频谱参数中的至少一种。
在另一个可选实施例中,流量检测设备1100还包括:
训练模块1201,用于通过机器学习算法训练多个新增样本和多个历史样本,以更新特征库中特征集合与业务类型的对应关系,多个新增样本包括第一时间段内第一数据流对应的样本,第一数据流对应的样本包括第一数据流的多流特征以及业务类型。
在另一个可选实施例中,多个新增样本中,包括至少一个第一新增样本,第一新增样本对应特征库中的一特征集合,其中,第一新增样本中包括一组高置信的特征,该组高置信的特征与特征库中的一个特征集合的相似度满足预设条件,以及第一新增样本中包括的业务类型与第一新增样本对应的特征集合所对应的业务类型相同。
参阅图13,在另一个可选实施例中,多个新增样本中,包括至少一个第二新增样本;
确定特征模块1202,还用于获取流量采集设备采集到的一数据流在一个时间段内对应的服务器标识,服务器标识包括一服务器的网络互连协议IP地址和服务器的名称;
确定业务类型模块1203,还用于根据服务器标识与业务类型的对应关系,确定数据流的业务类型;
流量检测设备1100还包括:
存储模块1301,用于保存数据流对应的第二新增样本,第二新增样本中包括数据流的业务类型以及在时间段内的多流特征。
可以理解的是,获取模块1101、确定特征模块1102、确定业务类型模块1103、训练模块1201和存储模块1301的功能均可以由图2所示的流量检测设备的数据处理模块实现。或者,获取模块1101、确定特征模块1102、确定业务类型模块1103、训练模块1201和存储模块1301分别由具有上述功能的独立模块实现,以上独立模块可以集成在一个设备上,也可以分布在不同的设备上。
基于图11所示的流量检测设备1100,其能够实现图9所示实施例或可选实施例中的流量检测方法。流量检测设备1100的另一个实施例包括:
获取模块1101,用于获取流量采集设备在第一时间段内采集到的多个报文,多个报文 包括在第一时间段内第一数据流中至少一个事务的报文;
确定特征模块1102,用于根据多个报文,确定目标特征集合,目标特征集合包括在第一时间段内采集到的第一数据流的事务的特征,事务包括的多个报文为一请求和与请求对应的至少一个响应,事务的特征包括事务包括的多个报文的大小的统计参数;
确定业务类型模块1103,用于根据目标特征集合,以及目标特征集合与业务类型的对应关系,确定在第一时间段内第一数据流对应的业务类型。
本实施例的流量检测设备1100能实现图9所示实施例或可选实施例中流量检测方法。其中,具体实施方式、技术效果以及名词解释请参阅图9所示实施例或可选实施例的相应描述。例如,获取模块1101可以用于执行步骤901的其他多种实现方式,以及通过单流特征、多流特征和事务特征中任意一种或者多种特征进行流量识别的各种实现方式中的获取报文的步骤;确定特征模块1102可以用于执行步骤902的其他多种实现方式,以及通过单流特征、多流特征和事务特征中任意一种或者多种特征进行流量识别的各种实现方式中的确定目标特征集合的步骤;确定业务类型模块1103可以用于执行步骤903的其他多种实现方式,以及通过事务特征进行流量识别的各种实现方式中的确定业务类型的步骤。
在一个可选实施例中,事务的特征还包括事务包括的多个报文所对应的接收时间间隔的统计参数和事务包括的多个报文的传输速率的统计参数中的至少一种,多个报文对应的接收时间间隔为多个报文中,任意两个接收时间相邻的报文之间的接收时间的间隔。
在另一个可选实施例中,
确定特征模块1102还用于根据第一事务包括的多个报文,确定第一事务的特征,第一事务为至少一个事务中的任意一个事务;
确定业务类型模块1103还用于根据第一事务的特征以及第一事务的特征与业务类型的对应关系,确定第一事务对应的业务类型。
在以上实施例中,统计参数包括平均值、最大值、最小值、标准差、分位数、峰度、偏度或频谱参数中的至少一种。
基于图12所示的流量检测设备,在另一个可选实施例中,训练模块1201,还用于通过机器学习算法训练多个新增样本和多个历史样本,以更新在特征库中特征集合与业务类型的对应关系,多个新增样本包括在第一时间段内第一数据流的事务对应的样本,第一数据流的事务对应的样本包括第一数据流的事务的特征以及业务类型。
在另一个可选实施例中,多个新增样本中,包括至少一个第一新增样本,第一新增样本对应特征库中的一特征集合,其中,第一新增样本中包括一组高置信的特征,该组高置信的特征与特征库中的一个特征集合的相似度满足预设条件,以及第一新增样本中包括的业务类型与第一新增样本对应的特征集合所对应的业务类型相同。
基于图13所示的流量检测设备,在另一个可选实施例中,多个新增样本中,包括至少一个第二新增样本;
确定业务类型模块1103,还用于获取流量采集设备在第一时间段内采集到的第一数据流的事务对应的服务器标识,服务器标识包括一服务器的网络互连协议IP地址和服务器的名称;根据服务器标识与业务类型的对应关系,确定第一数据流的事务的业务类型;
流量检测设备1100还包括:
存储模块1301,用于保存在第一时间段内第一数据流的事务对应的第二新增样本,第二新增样本包括第一数据流的事务的业务类型以及第一数据流的事务的特征,事务的特征包括至少一个统计参数。
参阅图14,本申请提供一种样本训练设备1400,其能够实现图10所示实施例中的样本训练方法。样本训练设备1400的一个实施例包括:
样本标记模块1401,用于识别一个时间段内多条数据流的业务类型,以得到多个新增样本;
训练模块1402,还用于通过机器学习算法训练更新后的样本集合,以得到更新后的对应关系集合,对应关系集合包括多条映射关系,映射关系为特征集合与业务类型之间的映射关系;更新后的样本集合包括多个新增样本和多个历史样本,其中,更新后的样本集合中的每个样本包括一业务类型以及多个特征,多个特征包括多流特征,单流特征和事务的特征中的至少一种,多流特征,单流特征和事务的特征都包括至少一个统计参数。
本实施例的样本训练设备1400能够实现图10所示实施例或可选实施例中的样本标记方法。其中,具体实施方式、技术效果以及名词解释请参阅图10所示实施例或可选实施例的相应描述。例如,样本标记模块1401可以用于执行步骤1001的其他多种实现方式,以及通过单流特征、多流特征和事务特征中任意一种或者多种特征进行流量识别的各种实现方式中的获取报文的步骤;训练模块1402可以用于执行步骤1002的其他多种实现方式。
在一个可选实施例中,多个新增样本中,包括至少一个第一新增样本,第一新增样本对应特征库中的一特征集合,其中,第一新增样本中包括一组高置信的特征,该组高置信的特征与特征库中的一个特征集合的相似度满足预设条件,以及第一新增样本中包括的业务类型与第一新增样本对应的特征集合所对应的业务类型相同。
参阅图15,在另一个可选实施例中,多个新增样本中,包括至少一个第二新增样本;
样本标记模块1401,还用于获取流量采集设备采集到的一数据流在一个时间段内对应的服务器标识,服务器标识包括一服务器的网络互连协议IP地址和服务器的名称;根据服务器标识与业务类型的对应关系,确定数据流的业务类型;
样本训练设备1400还包括:
存储模块1501,用于保存在时间段内数据流对应的第二新增样本,第二新增样本中包括数据流的业务类型以及数据流的多流特征。
本实施例的样本训练设备1400能够实现图10所示实施例或可选实施例中的样本训练方法。其中,具体实施方式、技术效果以及名词解释请参阅图10所示实施例或可选实施例的相应描述。
可以理解的是,样本标记模块1401、训练模块1402和存储模块1501的功能可以由图2所示的流量检测设备的数据处理模块实现。或者,样本标记模块1401、训练模块1402和存储模块1501分别由具有上述功能的独立模块实现,以上独立模块可以集成在一个设备上,也可以分布在不同的设备上。
基于以上本申请提供的方法,本申请提供一种流量检测设备1600,用于实现上述方法 中流量检测设备的功能,如图16所示,流量检测设备1600包括处理器1601和存储器1602,其中,处理器1601和存储器1602相连。需要说明的是,流量检测设备一般是网络侧设备,例如可以是服务器或网关,当流量检测设备为服务器时,服务器还可以包括输入输出设备和通信接口,输入设备可以是键盘、鼠标等用于输入信息的设备。输出设备可以是显示器。通信接口用于与网络中的其他设备进行通信。
处理器1601可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件等。
存储器1602,用于存储程序和报文。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。存储器1602可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(Non-Volatile Memory,简称NVM),例如至少一个磁盘存储器。处理器1601执行存储器1602中存储的程序代码,实现图4所示实施例或可选实施例、图9所示实施例或可选实施例中的方法。
在一种实现方式中,处理器1601可以实现图11所示实施例中获取模块1101、确定特征模块1102、确定业务类型模块1103、训练模块1201的功能。存储器1602在处理器1601的控制下可以实现存储模块1301的功能。
基于以上本申请提供的方法,本申请提供一种样本训练设备1700,用于实现上述方法中样本训练设备的功能,如图17所示,流量检测设备1700包括处理器1701和存储器1702,其中,处理器1701和存储器1702相连。需要说明的是,样本训练设备一般为网络侧设备,例如服务器或网关,当样本训练设备为服务器时,服务器还可以包括输入输出设备和通信接口,输入设备可以是键盘、鼠标等用于输入信息的设备。输出设备可以是显示器。通信接口用于与网络中的其他设备通信。
处理器1701可以是通用处理器,包括CPU、NP等;还可以是DSP、ASIC、FPGA或者其他可编程逻辑器件等。
存储器1702,用于存储程序和报文。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。存储器1702可能包含RAM,也可能还包括NVM,例如至少一个磁盘存储器。处理器1701执行存储器1702中存储的程序代码,实现图10所示实施例或可选实施例中的方法。
在另一种实现方式中,处理器1701可以实现图14所示实施例中样本标记模块1401,训练模块1402的功能。存储器1702在处理器1701的控制下可以实现存储模块1501的功能。
本申请提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如以上实施例中任意一个实施例提供的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (45)

  1. 一种流量检测方法,其特征在于,所述方法包括:
    获取流量采集设备在第一时间段内采集到的多个报文,所述多个报文包括第一数据流以及至少一个第二数据流中的报文,所述第一数据流与所述至少一个第二数据流为属于同一用户的数据流;
    根据所述多个报文,确定目标特征集合,所述目标特征集合包括所述多个报文对应的多流特征,所述多流特征包括所述多个报文的大小的统计参数;
    根据所述目标特征集合,以及所述目标特征集合与业务类型的对应关系,确定在所述第一时间段内所述第一数据流对应的业务类型。
  2. 根据权利要求1所述的方法,其特征在于,所述多流特征还包括所述多个报文对应的接收时间间隔的统计参数和所述多个报文的传输速率的统计参数中的至少一种。
  3. 根据权利要求1所述的方法,其特征在于,所述第一时间段与所述流量采集设备在第二时间段内采集到的多个报文的统计参数相关。
  4. 根据权利要求1所述的方法,其特征在于,所述获取所述流量采集设备在所述第一时间段内采集到的多个报文,包括:
    获取所述流量采集设备在第二时间段内采集到的多个报文,在所述第二时间段内采集到的多个报文包括所述第一数据流以及所述至少一个第二数据流中的报文;
    在所述流量采集设备在所述第二时间段内接收的最后一个所述第一数据流的报文的接收时刻与所述第二时间段的结束时刻之间的时间差小于预设阈值的情况下,获取所述流量采集设备在所述第三时间段内采集到的多个报文,其中,所述第二时间段与所述第三时间段之和为所述第一时间段。
  5. 根据权利要求1所述的方法,其特征在于,所述获取流量采集设备在第一时间段内采集到的多个报文,包括:
    获取所述流量采集设备在第二时间段内采集到的多个报文,在所述第二时间段内采集到的多个报文包括所述第一数据流以及所述至少一个第二数据流中的报文;
    在所述流量采集设备在所述第二时间段内接收的数据总量大于预设数据量的情况下,并获取所述流量采集设备在所述第三时间段内采集到的多个报文,其中,所述第二时间段与所述第三时间段之和为所述第一时间段。
  6. 根据权利要求1所述的方法,其特征在于,所述根据所述目标特征集合,以及所述目标特征集合与业务类型的对应关系,确定在所述第一时间段内所述第一数据流对应的业务类型包括:
    根据所述目标特征集合,从特征库中查找出第一特征集合,所述第一特征集合为与所述目标特征集合的相似度最高的特征集合;
    根据所述第一特征集合与业务类型的对应关系,确定在所述第一时间段内所述第一数据流对应的业务类型,所述在所述第一时间段内所述第一数据流对应的业务类型与所述第一特征集合对应的业务类型相同。
  7. 根据权利要求1所述的方法,其特征在于,所述目标特征集合还包括在所述第一时 间段内采集到的所述第一数据流的报文对应的单流特征,所述单流特征包括所述采集到的所述第一数据流的报文的大小的统计参数。
  8. 根据权利要求7所述的方法,其特征在于,所述单流特征还包括所述采集到的所述第一数据流的报文的接收时间间隔的统计参数和传输速率的统计参数中的至少一种。
  9. 根据权利要求1至8中任一项所述的方法,其特征在于,所述目标特征集合还包括在所述第一时间段内采集到的所述第一数据流的事务的特征,所述事务包括多个报文,所述事务包括的多个报文为一请求和与所述请求对应的至少一个响应,所述事务的特征包括所述事务包括的多个报文的大小的统计参数。
  10. 根据权利要求9所述的方法,其特征在于,所述事务的特征还包括所述事务包括的多个报文所对应的接收时间间隔的统计参数,以及所述事务包括的多个报文的传输速率的统计参数。
  11. 根据权利要求1至10中任一项所述的方法,其特征在于,所述统计参数包括平均值、最大值、最小值、标准差、分位数、峰度、偏度和频谱参数中的至少一种。
  12. 根据权利要求7到11任一所述的方法,其特征在于,所述方法还包括:
    通过机器学习算法训练多个新增样本和多个历史样本,以更新所述特征库中特征集合与业务类型的对应关系,所述多个新增样本包括所述第一时间段内第一数据流对应的样本,所述第一数据流对应的样本包括所述第一数据流的多流特征以及业务类型。
  13. 根据权利要求12所述的方法,其特征在于,所述多个新增样本中,包括至少一个第一新增样本,所述第一新增样本对应所述特征库中的一特征集合,其中,所述第一新增样本中包括一组高置信的特征,该组高置信的特征与所述特征库中的一个特征集合的相似度满足预设条件,以及所述第一新增样本中包括的业务类型与所述第一新增样本对应的特征集合所对应的业务类型相同。
  14. 根据权利要求12或13所述的方法,其特征在于,所述多个新增样本中,包括至少一个第二新增样本,所述方法还包括:
    获取流量采集设备采集到的一数据流在一个时间段内对应的服务器标识,所述服务器标识包括一服务器的网络互连协议IP地址和所述服务器的名称;根据所述服务器标识与业务类型的对应关系,确定所述数据流的业务类型;保存所述数据流对应的第二新增样本,所述第二新增样本中包括所述数据流的业务类型以及在所述时间段内的多流特征。
  15. 一种流量检测方法,其特征在于,所述方法包括:
    获取流量采集设备在第一时间段内采集到的多个报文,所述多个报文包括在所述第一时间段内第一数据流中至少一个事务的报文;根据所述多个报文,确定目标特征集合,所述目标特征集合包括在所述第一时间段内采集到的所述第一数据流的事务的特征,所述事务包括的多个报文为一请求和与所述请求对应的至少一个响应,所述事务的特征包括所述事务包括的多个报文的大小的统计参数;
    根据所述目标特征集合,以及所述目标特征集合与业务类型的对应关系,确定在所述第一时间段内所述第一数据流对应的业务类型。
  16. 根据权利要求15所述的方法,其特征在于,所述事务的特征还包括所述事务包括 的多个报文所对应的接收时间间隔的统计参数和所述事务包括的多个报文的传输速率的统计参数中的至少一种,所述多个报文对应的接收时间间隔为所述多个报文中,任意两个接收时间相邻的报文之间的接收时间的间隔。
  17. 根据权利要求15所述的方法,其特征在于,所述方法还包括:
    根据第一事务包括的多个报文,确定所述第一事务的特征,所述第一事务为所述第一数据流的事务中的任意一个事务;
    根据所述第一事务的特征以及所述第一事务的特征与业务类型的对应关系,确定所述第一事务对应的业务类型。
  18. 根据权利要求15至17中任一项所述的方法,其特征在于,所述统计参数包括平均值、最大值、最小值、标准差、分位数、峰度、偏度或频谱参数中的至少一种。
  19. 根据权利要求15至17中任一项所述的方法,其特征在于,所述方法还包括:
    通过机器学习算法训练多个新增样本和多个历史样本,以更新在特征库中特征集合与业务类型的对应关系,所述多个新增样本包括在所述第一时间段内所述第一数据流的事务对应的样本,所述第一数据流的事务对应的样本包括所述第一数据流的事务的特征以及业务类型。
  20. 根据权利要求19所述的方法,其特征在于,所述多个新增样本中,包括至少一个第一新增样本,所述第一新增样本对应所述特征库中的一特征集合,其中,所述第一新增样本中包括一组高置信的特征,该组高置信的特征与所述特征库中的一个特征集合的相似度满足预设条件,以及所述第一新增样本中包括的业务类型与所述第一新增样本对应的特征集合所对应的业务类型相同。
  21. 根据权利要求19或20所述的方法,其特征在于,所述多个新增样本中,包括至少一个第二新增样本,所述方法还包括:
    获取流量采集设备在所述第一时间段内采集到的所述第一数据流的事务对应的服务器标识,所述服务器标识包括一服务器的网络互连协议IP地址和所述服务器的名称;根据所述服务器标识与业务类型的对应关系,确定所述第一数据流的事务的业务类型;保存在第一时间段内所述第一数据流的事务对应的第二新增样本,所述第二新增样本包括所述第一数据流的事务的业务类型以及所述第一数据流的事务的特征,所述事务的特征包括至少一个统计参数。
  22. 一种样本训练方法,其特征在于,包括:
    识别一个时间段内多条数据流的业务类型,以得到多个新增样本;
    通过机器学习算法训练更新后的样本集合,以得到更新后的对应关系集合,所述更新后的对应关系集合包括多条映射关系,所述映射关系为特征集合与业务类型之间的映射关系;
    所述更新后的样本集合包括多个新增样本和多个历史样本,其中,所述更新后的样本集合中的每个样本包括一业务类型以及多个特征,所述多个特征包括多流特征,单流特征和事务的特征中的至少一种,所述多流特征,单流特征和事务的特征都包括至少一个统计参数。
  23. 根据权利要求22所述的方法,其特征在于,所述多个新增样本中,包括至少一个第一新增样本,所述第一新增样本对应所述特征库中的一特征集合,其中,所述第一新增样本中包括一组高置信的特征,该组高置信的特征与所述特征库中的一个特征集合的相似度满足预设条件,以及所述第一新增样本中包括的业务类型与所述第一新增样本对应的特征集合所对应的业务类型相同。
  24. 根据权利要求22所述的方法,其特征在于,所述多个新增样本中,包括至少一个第二新增样本,所述方法还包括:
    获取流量采集设备采集到的一数据流在一个时间段内对应的服务器标识,所述服务器标识包括一服务器的网络互连协议IP地址和所述服务器的名称;根据所述服务器标识与业务类型的对应关系,确定所述数据流的业务类型;保存在所述时间段内所述数据流对应的第二新增样本,所述第二新增样本中包括所述数据流的业务类型以及所述数据流的多流特征。
  25. 一种流量检测设备,其特征在于,包括:
    获取模块,用于获取流量采集设备在第一时间段内采集到的多个报文,所述多个报文包括第一数据流以及与所述第一数据流关联的至少一个第二数据流中的报文,所述第一数据流与所述至少一个第二数据流为属于同一用户的数据流;
    确定特征模块,用于根据所述多个报文,确定目标特征集合,所述目标特征集合包括所述多个报文对应的多流特征,所述多流特征包括所述多个报文的大小的统计参数;
    确定业务类型模块,用于根据所述目标特征集合,以及所述目标特征集合与业务类型的对应关系,确定在所述第一时间段内所述第一数据流对应的业务类型。
  26. 根据权利要求25所述的流量检测设备,其特征在于,所述多流特征还包括所述多个报文对应的接收时间间隔的统计参数和所述多个报文的传输速率的统计参数中的至少一种,所述多个报文对应的接收时间间隔为所述多个报文中,任意两个接收时间相邻的报文之间的接收时间的间隔。
  27. 根据权利要求25所述的流量检测设备,其特征在于,所述第一时间段与所述流量采集设备在第二时间段内采集到的多个报文的统计参数相关。
  28. 根据权利要求25所述的流量检测设备,其特征在于,
    所述获取模块,用于获取所述流量采集设备在第二时间段内采集到的多个报文,在所述第二时间段内采集到的多个报文包括所述第一数据流以及所述至少一个第二数据流中的报文;在所述流量采集设备在所述第二时间段内接收的最后一个所述第一数据流的报文的接收时刻与所述第二时间段的结束时刻之间的时间差小于预设阈值的情况下,获取所述流量采集设备在所述第三时间段内采集到的多个报文,其中,所述第二时间段与所述第三时间段之和为所述第一时间段。
  29. 根据权利要求25所述的流量检测设备,其特征在于,
    所述获取模块,用于获取所述流量采集设备在第二时间段内采集到的多个报文,在所述第二时间段内采集到的多个报文包括所述第一数据流以及所述至少一个第二数据流中的报文;在所述流量采集设备在所述第二时间段内接收的数据总量大于预设数据量的情况下, 并获取所述流量采集设备在所述第三时间段内采集到的多个报文,其中,所述第二时间段与所述第三时间段之和为所述第一时间段。
  30. 根据权利要求25所述的流量检测设备,其特征在于,在所述根据所述目标特征集合,以及所述目标特征集合与业务类型的对应关系,确定在所述第一时间段内所述第一数据流对应的业务类型的方面,
    所述确定业务类型模块用于根据所述目标特征集合,从特征库中查找出第一特征集合,所述第一特征集合为与所述目标特征集合的相似度最高的特征集合;根据所述第一特征集合与业务类型的对应关系,确定在所述第一时间段内所述第一数据流对应的业务类型,所述在所述第一时间段内所述第一数据流对应的业务类型与所述第一特征集合对应的业务类型相同。
  31. 根据权利要求25到30任一所述的流量检测设备,其特征在于,所述流量检测设备还包括:
    训练模块,用于通过机器学习算法训练多个新增样本和多个历史样本,以更新所述特征库中特征集合与业务类型的对应关系,所述多个新增样本包括所述第一时间段内第一数据流对应的样本,所述第一数据流对应的样本包括所述第一数据流的多流特征以及业务类型。
  32. 根据权利要求31所述的流量检测设备,其特征在于,所述多个新增样本中,包括至少一个第一新增样本,所述第一新增样本对应所述特征库中的一特征集合,其中,所述第一新增样本中包括一组高置信的特征,该组高置信的特征与所述特征库中的一个特征集合的相似度满足预设条件,以及所述第一新增样本中包括的业务类型与所述第一新增样本对应的特征集合所对应的业务类型相同。
  33. 根据权利要求31或32所述的流量检测设备,其特征在于,所述多个新增样本中,包括至少一个第二新增样本;
    所述确定业务类型模块,还用于获取流量采集设备采集到的一数据流在一个时间段内对应的服务器标识,所述服务器标识包括一服务器的网络互连协议IP地址和所述服务器的名称;根据所述服务器标识与业务类型的对应关系,确定所述数据流的业务类型;
    所述流量检测设备还包括:
    存储模块,还用于保存所述数据流对应的第二新增样本,所述第二新增样本中包括所述数据流的业务类型以及在所述时间段内的多流特征。
  34. 一种流量检测设备,其特征在于,包括:
    获取模块,用于获取流量采集设备在第一时间段内采集到的多个报文,所述多个报文包括在所述第一时间段内第一数据流中至少一个事务的报文;
    确定特征模块,用于根据所述多个报文,确定目标特征集合,所述目标特征集合包括在所述第一时间段内采集到的所述第一数据流的事务的特征,所述事务包括的多个报文为一请求和与所述请求对应的至少一个响应,所述事务的特征包括所述事务包括的多个报文的大小的统计参数;
    确定业务类型模块,用于根据所述目标特征集合,以及所述目标特征集合与业务类型 的对应关系,确定在所述第一时间段内所述第一数据流对应的业务类型。
  35. 根据权利要求34所述的流量检测设备,其特征在于,所述事务的特征还包括所述事务包括的多个报文所对应的接收时间间隔的统计参数和所述事务包括的多个报文的传输速率的统计参数中的至少一种,所述多个报文对应的接收时间间隔为所述多个报文中,任意两个接收时间相邻的报文之间的接收时间的间隔。
  36. 根据权利要求34或35所述的流量检测设备,其特征在于,
    所述确定特征模块,还用于根据第一事务包括的多个报文,确定所述第一事务的特征,所述第一事务为所述至少一个事务中的任意一个事务;
    所述确定业务类型模块,还用于根据所述第一事务的特征以及所述第一事务的特征与业务类型的对应关系,确定所述第一事务对应的业务类型。
  37. 根据权利要求34至36中任一项所述的流量检测设备,其特征在于,所述流量检测设备还包括:
    训练模块,用于通过机器学习算法训练多个新增样本和多个历史样本,以更新在特征库中特征集合与业务类型的对应关系,所述多个新增样本包括在所述第一时间段内所述第一数据流的事务对应的样本,所述第一数据流的事务对应的样本包括所述第一数据流的事务的特征以及业务类型。
  38. 根据权利要求37所述的流量检测设备,其特征在于,所述多个新增样本中,包括至少一个第一新增样本,所述第一新增样本对应所述特征库中的一特征集合,其中,所述第一新增样本中包括一组高置信的特征,该组高置信的特征与所述特征库中的一个特征集合的相似度满足预设条件,以及所述第一新增样本中包括的业务类型与所述第一新增样本对应的特征集合所对应的业务类型相同。
  39. 根据权利要求37或38所述的流量检测设备,其特征在于,所述多个新增样本中,包括至少一个第二新增样本;
    所述确定业务类型模块,还用于获取流量采集设备在所述第一时间段内采集到的所述第一数据流的事务对应的服务器标识,所述服务器标识包括一服务器的网络互连协议IP地址和所述服务器的名称;根据所述服务器标识与业务类型的对应关系,确定所述第一数据流的事务的业务类型;
    所述流量检测设备还包括:
    存储模块,用于保存在第一时间段内所述第一数据流的事务对应的第二新增样本,所述第二新增样本包括所述第一数据流的事务的业务类型以及所述第一数据流的事务的特征,所述事务的特征包括至少一个统计参数。
  40. 一种样本训练设备,其特征在于,包括:
    样本标记模块,用于识别一个时间段内多条数据流的业务类型,以得到多个新增样本;
    训练模块,用于通过机器学习算法训练更新后的样本集合,以得到更新后的对应关系集合,所述对应关系集合包括多条映射关系,所述映射关系为特征集合与业务类型之间的映射关系;
    所述更新后的样本集合包括多个新增样本和多个历史样本,其中,所述更新后的样本 集合中的每个样本包括一业务类型以及多个特征,所述多个特征包括多流特征,单流特征和事务的特征中的至少一种,所述多流特征,单流特征和事务的特征都包括至少一个统计参数。
  41. 根据权利要求40所述的样本训练设备,其特征在于,所述多个新增样本中,包括至少一个第一新增样本,所述第一新增样本对应所述特征库中的一特征集合,其中,所述第一新增样本中包括一组高置信的特征,该组高置信的特征与所述特征库中的一个特征集合的相似度满足预设条件,以及所述第一新增样本中包括的业务类型与所述第一新增样本对应的特征集合所对应的业务类型相同。
  42. 根据权利要求40或41所述的样本训练设备,其特征在于,所述多个新增样本中,包括至少一个第二新增样本;
    所述样本标记模块,还用于获取流量采集设备采集到的一数据流在一个时间段内对应的服务器标识,所述服务器标识包括一服务器的网络互连协议IP地址和所述服务器的名称;根据所述服务器标识与业务类型的对应关系,确定所述数据流的业务类型;
    所述样本训练设备还包括:
    存储模块,用于保存在所述时间段内所述数据流对应的第二新增样本,所述第二新增样本中包括所述数据流的业务类型以及所述数据流的多流特征。
  43. 一种流量检测设备,其特征在于,包括处理器和存储器;
    所述存储器,用于存储程序以及报文;
    所述处理器通过执行所述存储器中的程序,以实现权利要求1至14中任一项所述的方法,或者用于实现如权利要求15至21中任一项所述的方法。
  44. 一种样本训练设备,其特征在于,包括处理器和存储器;
    所述存储器,用于存储程序以及报文;
    所述处理器通过执行所述存储器中的程序,以实现权利要求22至24中任一项所述的方法。
  45. 一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至14任意一项所述的方法,或使得计算机执行权利要求15至21中任意一项所述的方法,或使得计算执行权利要求22至24中任意一项所述的方法。
PCT/CN2018/121917 2018-03-06 2018-12-19 一种流量检测方法和流量检测设备 WO2019169928A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/910,361 US20200322237A1 (en) 2018-03-06 2020-06-24 Traffic detection method and traffic detection device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810183112.3 2018-03-06
CN201810183112.3A CN110233769B (zh) 2018-03-06 2018-03-06 流量检测方法和设备、样本训练方法和设备、以及介质

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/910,361 Continuation US20200322237A1 (en) 2018-03-06 2020-06-24 Traffic detection method and traffic detection device

Publications (1)

Publication Number Publication Date
WO2019169928A1 true WO2019169928A1 (zh) 2019-09-12

Family

ID=67845492

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/121917 WO2019169928A1 (zh) 2018-03-06 2018-12-19 一种流量检测方法和流量检测设备

Country Status (3)

Country Link
US (1) US20200322237A1 (zh)
CN (1) CN110233769B (zh)
WO (1) WO2019169928A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126500A (zh) * 2019-12-26 2020-05-08 南京烽火星空通信发展有限公司 一种基于离散报文的多媒体流量识别方法
CN111181969B (zh) * 2019-12-30 2021-03-23 西安交通大学 一种基于自发流量的物联网设备识别方法
CN111404833B (zh) * 2020-02-28 2022-04-12 华为技术有限公司 一种数据流类型识别模型更新方法及相关设备
CN111490992B (zh) * 2020-04-11 2021-01-22 江苏政采数据科技有限公司 基于数据流量检测及时序特征提取的入侵检测方法及设备
CN113723720B (zh) * 2020-05-20 2023-08-18 中国移动通信集团河北有限公司 页面浏览质量评估方法及装置
CN112118188A (zh) * 2020-08-25 2020-12-22 北京五八信息技术有限公司 一种流量限速方法、装置、电子设备及存储介质
WO2022083509A1 (zh) * 2020-10-19 2022-04-28 华为技术有限公司 一种数据流识别方法以及装置
CN112615758B (zh) * 2020-12-16 2022-04-29 北京锐安科技有限公司 一种应用识别方法、装置、设备及存储介质
US20220321317A1 (en) * 2021-04-05 2022-10-06 At&T Intellectual Property I, L.P. Time division duplex scheduling
US20230065207A1 (en) * 2021-08-25 2023-03-02 At&T Intellectual Property I, L.P. User quality of experience assessment in radio access networks
CN114338549B (zh) * 2021-12-30 2024-02-09 南京中孚信息技术有限公司 数据流识别处理方法、装置、服务器及存储介质
CN114565231A (zh) * 2022-02-07 2022-05-31 三一汽车制造有限公司 作业方量确定方法、装置、设备、存储介质及作业机械
US11425099B1 (en) 2022-03-08 2022-08-23 Uab 360 It Managing data communication in a virtual private network
CN114884849B (zh) * 2022-04-01 2023-10-13 开源网安物联网技术(武汉)有限公司 基于Adaboost的CAN总线异常检测方法及系统
CN115456033B (zh) * 2022-10-26 2023-02-03 四川九洲空管科技有限责任公司 一种基于信号特征识别的识别系统增强识别方法
CN116186503A (zh) * 2022-12-05 2023-05-30 广州大学 一种面向工控系统的恶意流量检测方法、装置及计算机存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645806A (zh) * 2009-09-04 2010-02-10 东南大学 Dpi和dfi相结合的网络流量分类系统及分类方法
CN102111814A (zh) * 2010-12-29 2011-06-29 华为技术有限公司 一种识别业务类型的方法、装置及系统
CN102315974A (zh) * 2011-10-17 2012-01-11 北京邮电大学 基于层次化特征分析的tcp、udp流量在线识别方法和装置
US20160219067A1 (en) * 2015-01-28 2016-07-28 Korea Internet & Security Agency Method of detecting anomalies suspected of attack, based on time series statistics

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2957738B1 (fr) * 2010-03-17 2012-04-20 Thales Sa Procede d'identification d'un protocole a l'origine d'un flux de donnees
WO2012135221A1 (en) * 2011-03-28 2012-10-04 Citrix Systems, Inc. Systems and methods for tracking application layer flow via a multi-connection intermediary device
KR101437008B1 (ko) * 2012-11-19 2014-09-05 서울대학교산학협력단 트래픽 분석 장치 및 방법
US20170093648A1 (en) * 2015-09-28 2017-03-30 Wi-Lan Labs, Inc. System and method for assessing streaming video quality of experience in the presence of end-to-end encryption

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645806A (zh) * 2009-09-04 2010-02-10 东南大学 Dpi和dfi相结合的网络流量分类系统及分类方法
CN102111814A (zh) * 2010-12-29 2011-06-29 华为技术有限公司 一种识别业务类型的方法、装置及系统
CN102315974A (zh) * 2011-10-17 2012-01-11 北京邮电大学 基于层次化特征分析的tcp、udp流量在线识别方法和装置
US20160219067A1 (en) * 2015-01-28 2016-07-28 Korea Internet & Security Agency Method of detecting anomalies suspected of attack, based on time series statistics

Also Published As

Publication number Publication date
CN110233769B (zh) 2021-09-14
US20200322237A1 (en) 2020-10-08
CN110233769A (zh) 2019-09-13

Similar Documents

Publication Publication Date Title
WO2019169928A1 (zh) 一种流量检测方法和流量检测设备
US9769190B2 (en) Methods and apparatus to identify malicious activity in a network
Fu et al. Service usage classification with encrypted internet traffic in mobile messaging apps
CN108737333B (zh) 一种数据检测方法以及装置
US9386028B2 (en) System and method for malware detection using multidimensional feature clustering
WO2021068831A1 (zh) 一种业务告警方法、设备及存储介质
US20150334125A1 (en) Identifying threats based on hierarchical classification
US20220174008A1 (en) System and method for identifying devices behind network address translators
US7903657B2 (en) Method for classifying applications and detecting network abnormality by statistical information of packets and apparatus therefor
CN109861957A (zh) 一种移动应用私有加密协议的用户行为精细化分类方法及系统
CN111953552B (zh) 数据流的分类方法和报文转发设备
CN106878314B (zh) 基于可信度的网络恶意行为检测方法
CN110266726B (zh) 一种识别ddos攻击数据流的方法及装置
Su et al. Hierarchical clustering based network traffic data reduction for improving suspicious flow detection
CN112765324B (zh) 一种概念漂移检测方法及装置
Janabi et al. Convolutional neural network based algorithm for early warning proactive system security in software defined networks
JP2006148686A (ja) 通信監視システム
Niandong et al. Detection of probe flow anomalies using information entropy and random forest method
CN110958305A (zh) 一种识别物联网终端设备的方法和装置
Chang et al. Study on os fingerprinting and nat/tethering based on dns log analysis
KR100608541B1 (ko) 샘플링과 시그너쳐 검색 기능을 구비한 인터넷 프로토콜패킷 수집 장치 및 그 방법
CN111478861B (zh) 流量识别方法、装置、电子设备、及存储介质
CN110602059B (zh) 一种精准复原tls协议加密传输数据明文长度指纹的方法
He et al. Identifying mobile applications for encrypted network traffic
CN112104628A (zh) 一种自适应特征规则匹配的实时恶意流量检测方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18908625

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18908625

Country of ref document: EP

Kind code of ref document: A1