WO2015165229A1

WO2015165229A1 - 一种识别异常ip数据流的方法、装置和系统

Info

Publication number: WO2015165229A1
Application number: PCT/CN2014/089939
Authority: WO
Inventors: 何诚; 黄群; 李柏晴
Original assignee: 华为技术有限公司
Priority date: 2014-04-28
Filing date: 2014-10-30
Publication date: 2015-11-05
Also published as: CN105099732A; CN105099732B

Abstract

本发明实施例公开了一种识别异常IP数据流的方法、装置和系统，涉及通信领域，用以提高识别准确度。本发明实施例提供的方法包括：在当前时间区间内，接收数据收集节点发送的Y个元素；按照映射算法将Y个元素映射到N个桶中；获取N个桶中的、所映射的所有元素的总流量大于或者等于第一阈值的桶作为目标桶；获取当前时间区间内第一对象在所映射到的r个桶中的r个流量上界；其中，第一对象为映射到目标桶中的任一对象，r个桶中的每个桶中包含针对第一对象的1个流量上界；根据预设的异常对象的类型和当前时间区间内的r个流量上界识别第一对象是否为异常对象；预设的异常对象的类型为大流量对象或大变化对象。

Description

一种识别异常IP数据流的方法、装置和系统

技术领域

本发明涉及通信领域，尤其涉及一种识别异常IP数据流的方法、装置和系统。

背景技术

互联网(Internet)和MBB(Mobile Broadband，移动宽带)的结合，以及智能终端、平板电脑等智能设备的大规模推广和应用，使得MBB数据网络流量大幅度增长；与此同时，带来了新的问题：各种网络异常频发。其中，网络异常包括：异常流量、网络攻击、病毒等，异常流量包括大流量对象(heavy hitters)和大变化对象(heavy changers)。这对网络利用率、网络性能和用户体验带来很大的负面影响，同时也带来关键信息泄露、系统和终端损坏等风险。

在各种网络异常中，大流量对象和大变化对象是最为重要的两类网络异常。大流量对象是指网络中频繁出现的数据流，本文中将其定义为整体流量很大的数据流；大变化对象是指在给定时间段内，主要特征(包括大小、端口号、协议号等)发生很大变化的数据流。其中，由IP(Internet Protocol，Internet协议)包的五元组(包括：源IP、目的IP、源端口、目的端口、协议号)定义一个IP数据流对象(下文中称为“对象”)。

目前，识别网络异常流量的方法包括：1)数据收集节点将收集到的针对不同对象的元素随机发送到一个或者多个工作节点上；其中，对象和元素的关系可以表示为“元素(对象，值)，即元素(key，value)”；元素包含的“值”可以为该元素的流量值、或者能够表示该元素的流量值的信息(例如，该元素包含的数据包的个数等)；2)工作节点按照映射算法将接收到的元素映射到由多个桶构成的数据结构表中，并在每个时间区间结束时，向控制节点汇报该时间区间内映射到每个桶中的元素的总流量；其中，针对同一对象的元素一般被映射到同一个桶中，另外，由于对象的数目很大，为了节省数据结构表占用的存储空间，可以将不同对象映射到同一个桶中；3)控制节点对各工作节点汇报的信息进行汇总，当针对某一类对象的所有桶所映射的元素的总流量大于一阈值时，将这类对象均识别为大流量对象，其中，该类对象是指在同一工作节点中被映射到同一个桶中的对象。

在上述方法中，当针对某一类对象的所有桶所映射的元素的总流量大于一阈值时，即认为这类对象均为大流量对象，但是，造成针对某一类对象的所有桶所映射的元素的总流量大于一阈值的原因可能是：该类对象由很多个小流量对象构成。因此，利用上述方法进行识别，会错误地将这些小流量对象识别为大流量对象，也就是说上述方法的识别准确度低。

发明内容

本发明实施例提供一种识别异常IP数据流的方法、装置和系统，用以提高识别准确度。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，提供一种识别异常IP数据流的方法，应用于工作节点中，所述方法包括：

在当前时间区间内，接收数据收集节点发送的Y个元素；其中，Y≥1，Y为整数；

按照映射算法将所述Y个元素映射到N个桶中；其中，N≥1，N为整数；

获取所述N个桶中的、所映射的所有元素的总流量大于或者等于第一阈值的桶作为目标桶；

获取所述当前时间区间内第一对象在所映射到的r个桶中的r个流量上界；其中，所述第一对象为映射到所述目标桶中的任一对象，所述r个桶中的每个桶中包含针对所述第一对象的1个流量上界，r≥1，r为整数；

根据预设的异常对象的类型和所述当前时间区间内的r个流量上界识别所述第一对象是否为异常对象；所述预设的异常对象的类型为大流量对象或大变化对象。

结合第一方面，在第一种可能的实现方式中，所述预设的异常对象的类型为大流量对象；所述根据预设的异常对象的类型和所述当前时间区间内的r个流量上界识别所述第一对象是否为异常对象，包括：

当所述当前时间区间内的r个流量上界中的r1个流量上界均大于或者等于第二阈值时，确定所述第一对象为大流量对象；其中，r≥r1≥1。

结合第一方面或第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述预设的异常对象的类型为大变化对象；所述方法还包括：

获取所述当前时间区间的前一个时间区间内所述第一对象在所映射到的r个桶中的r个流量上界；

所述根据预设的异常对象的类型和所述当前时间区间内的r个流量上界识别所述第一对象是否为异常对象，包括：

根据所述当前时间区间内的r个流量上界和所述前一个时间区间内的r个流量上界，获取r个流量上界的变化量；

当所述r个流量上界的变化量中的r2个流量上界的变化量均大于或者等于第三阈值时，确定所述第一对象为大变化对象；其中，r≥r2≥1。

结合第一方面、第一方面的第一种可能的实现方式或第二种可能的实现方式任一种，在第三种可能的实现方式中，针对所述第一对象的元素分布在包括所述工作节点的d个工作节点上，d≥2，d为整数，所述d个工作节点识别得到d个异常对象集合，每个工作节点识别得到1个异常对象集合；在所述根据预设的异常对象的类型和所述当前时间区间内的r个流量上界识别所述第一对象是否为异常对象之后，所述方法还包括：

接收其他d-1个工作节点发送的d-1个异常对象集合，当所述d个异常对象集合中的d1个异常对象集合均包含所述第一对象时，确定所述第一对象为目标异常对象；其中，d≥d1≥1；

或者，向控制节点发送所述工作节点识别得到的异常对象集合，以使得所述控制节点在所述d个异常对象集合中的d2个异常对象集合均包含所述第一对象时，确定所述第一对象为目标异常对象；其中，d≥d2≥1。

结合第一方面、第一方面的第一种可能的实现方式或第三种可能的实现方式任一种，在第四种可能的实现方式中，所述按照映射算法将所述Y个元素映射到N个桶中，包括：

按照映射算法将所述Y个元素中的、针对所述第一对象的任一元素映射到第一桶中；其中，所述第一桶是指所述第一对象按照所述映射算法能够映射到的任一桶；

所述方法还包括：

更新所述第一桶包含的记录信息；所述记录信息包括：映射到所述第一桶中的所有元素的总流量和附属队列；其中，所述附属队列用于确定所述第一桶所映射的各对象在所述第一桶中的流量上界。

结合第一方面的第四种可能的实现方式，在第五种可能的实现方式中，所述附属队列由映射到所述第一桶中的对象的对象总流量构成，第一元素包含所述第一对象的流量值v；其中，所述第一元素为针对所述第一对象的元素；所述更新所述第一桶包含的记录信息包括：

当所述附属队列中包含所述第一对象的对象总流量时，将所述v 叠加到所述第一对象的对象总流量的值上；或者，

当所述附属队列中不包含所述第一对象的对象总流量时，在所述附属队列中添加所述第一对象的对象总流量，并将所述v赋值给所述第一对象的对象总流量。

结合第一方面的第四种可能的实现方式，在第六种可能的实现方式中，所述附属队列由映射到所述第一桶中的对象的对象总流量构成，第一元素包含所述第一对象的流量值v；其中，所述第一元素为针对所述第一对象的元素；所述记录信息还包括所述附属队列的最大允许容量；所述更新所述第一桶包含的记录信息包括：

在所述附属队列的当前容量的值小于所述最大允许容量的值的情况下，当所述附属队列中不包含所述第一对象的对象总流量时，在所述附属队列中添加所述第一对象的对象总流量，并将所述v赋值给所述第一对象的对象总流量。

结合第一方面的第五种可能的实现方式，在第七种可能的实现方式中，所述记录信息还包括所述附属队列的最大允许容量，所述附属队列的当前容量的值大于或者等于所述附属队列的最大允许容量的值；在所述附属队列中添加所述第一对象的对象总流量之前，所述方法还包括：

当所述附属队列的最大允许容量的值满足预设扩张条件时，将所述最大允许容量的值对应的存储空间扩张为扩张容量的值对应的存储空间；

所述更新所述第一桶包含的记录信息，还包括：

将所述扩张容量的值赋值给所述最大允许容量。

结合第一方面的第四种可能的实现方式至第七种可能的实现方式任一种，在第八种可能的实现方式中，所述附属队列中不包含所述第一对象的对象总流量，所述记录信息还包括所述附属队列的最大允许容量和所述第一桶的对象流量估计误差，所述附属队列的最大允许容量的值不满足预设扩张条件，第一元素包含所述第一对象的流量值v；其中，所述第一元素为针对所述第一对象的元素；所述第一桶的对象流量估计误差用于确定映射到所述第一桶中的对象在所述第一桶中的流量上界；在所述更新所述第一桶包含的记录信息之前，所述方法还包括：

确定所述v与所述附属队列中各对象的对象总流量的值中的最小值；

所述更新所述第一桶包含的记录信息，包括：

将所述附属队列中各对象的对象总流量的值均减去所述最小值，并将所述最小值叠加到所述第一桶的对象流量估计误差的值上。

结合第一方面的第八种可能的实现方式，在第九种可能的实现方式中，当所述附属队列中包含值为零的对象总流量时，所述更新所述第一桶包含的记录信息，还包括：

删除所述值为零的对象总流量；

在所述附属队列中添加所述第一对象的对象总流量；

将所述v赋值给所述第一对象的对象总流量。

结合第一方面的第八种可能的实现方式或第九种可能的实现方式，在第十种可能的实现方式中，当所述附属队列中不包含值为零的对象总流量时，所述方法还包括：

删除所述第一元素。

结合第一方面的第七种可能的实现方式或第八种可能的实现方式，在第十一种可能的实现方式中，所述方法还包括：

确定所述附属队列的最大允许容量的值L是否满足预设扩张条件；具体包括：

确定当前扩张轮数k；

当(k+1)(k+2)-1＞L时，确定所述附属队列的最大允许容量的值满足预设扩张条件；

当(k+1)(k+2)-1≤L时，确定所述附属队列的最大允许容量的值不满足预设扩张条件；

所述扩张容量的值为(k+1)(k+2)-1。

结合第一方面的第十一种可能的实现方式，在第十二种可能的实现方式中，所述确定当前扩张轮数k，包括：

根据公式

确定所述当前扩张轮数k；其中，所述W是指将所述第一元素映射到所述第一桶中后得到的、映射到所述第一桶中的所有元素的总流量，所述T是指动态扩张参数；当所述预设的异常对象的类型为大流量对象时，T＝φ；或者，当所述预设的异常对象的类型为大变化对象时，T＝εφ；其中，所述φ是指预设的所述第一对象的对象总流量阈值；所述ε为常数，0＜ε≤1。

结合第一方面的第八种可能的实现方式，在第十三种可能的实现方式中，所述第一元素为所述Y个元素中的、针对所述第一对象的元素，具体为针对所述第一对象的最后一个元素；

所述获取所述当前时间区间内第一对象在所映射到的r个桶中的r个流量上界，包括：

获取所述第一对象在所述第一桶中的流量上界；具体包括：

当所述第一对象的对象总流量在所述附属队列中时，将所述第一对象的对象总流量的值作为所述第一对象在所述第一桶中的流量下界，当所述第一对象的对象总流量不在所述附属队列中时，将零值作为所述第一对象在所述第一桶中的流量下界；

将所述第一对象在所述第一桶中的流量下界与所述第一桶的对象流量估计误差的和，作为所述第一对象在所述第一桶中的流量上界。

第二方面，提供一种工作节点，包括：

接收单元，用于在当前时间区间内，接收数据收集节点发送的 Y个元素；其中，Y≥1，Y为整数；

映射单元，用于按照映射算法将所述Y个元素映射到N个桶中；其中，N≥1，N为整数；

第一获取单元，用于获取所述N个桶中的、所映射的所有元素的总流量大于或者等于第一阈值的桶作为目标桶；

第二获取单元，用于获取所述当前时间区间内第一对象在所映射到的r个桶中的r个流量上界；其中，所述第一对象为映射到所述目标桶中的任一对象，所述r个桶中的每个桶中包含针对所述第一对象的1个流量上界，r≥1，r为整数；

识别单元，用于根据预设的异常对象的类型和所述当前时间区间内的r个流量上界识别所述第一对象是否为异常对象；所述预设的异常对象的类型为大流量对象或大变化对象。

结合第二方面，在第一种可能的实现方式中，所述预设的异常对象的类型为大流量对象；

所述识别单元具体用于，当所述当前时间区间内的r个流量上界中的r 1个流量上界均大于或者等于第二阈值时，确定所述第一对象为大流量对象；其中，r≥r1≥1。

结合第二方面或第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述预设的异常对象的类型为大变化对象；所述工作节点还包括：

第三获取单元，用于获取所述当前时间区间的前一个时间区间内所述第一对象在所映射到的r个桶中的r个流量上界；

所述识别单元具体用于：根据所述当前时间区间内的r个流量上界和所述前一个时间区间内的r个流量上界，获取r个流量上界的变化量；当所述r个流量上界的变化量中的r2个流量上界的变化量均大于或者等于第三阈值时，确定所述第一对象为大变化对象；其中，r≥r2≥1。

结合第二方面、第二方面的第一种可能的实现方式或第二种可能的实现方式任一种，在第三种可能的实现方式中，针对所述第一对象的元素分布在包括所述工作节点的d个工作节点上，d≥2，d为整数，所述d个工作节点识别得到d个异常对象集合，每个工作节点识别得到1个异常对象集合；

所述接收单元还用于，接收其他d-1个工作节点发送的d-1个异常对象集合，当所述d个异常对象集合中的d1个异常对象集合均包含所述第一对象时，确定所述第一对象为目标异常对象；其中，d≥d1≥1；

或者，所述工作节点还包括：发送单元，用于向控制节点发送所述工作节点识别得到的异常对象集合，以使得所述控制节点在所述d个异常对象集合中的d2个异常对象集合均包含所述第一对象时，确定所述第一对象为目标异常对象；其中，d≥d2≥1。

结合第二方面、第二方面的第一种可能的实现方式或第三种可能的实现方式任一种，在第四种可能的实现方式中，

所述映射单元具体用于，按照映射算法将所述Y个元素中的、针对所述第一对象的任一元素映射到第一桶中；其中，所述第一桶是指所述第一对象按照所述映射算法能够映射到的任一桶；

所述工作节点还包括：更新单元，用于更新所述第一桶包含的记录信息；所述记录信息包括：映射到所述第一桶中的所有元素的总流量和附属队列；其中，所述附属队列用于确定所述第一桶所映射的各对象在所述第一桶中的流量上界。

结合第二方面的第四种可能的实现方式，在第五种可能的实现方式中，所述附属队列由映射到所述第一桶中的对象的对象总流量构成，第一元素包含所述第一对象的流量值v；其中，所述第一元素为针对第一对象的元素；

所述更新单元具体用于：当所述附属队列中包含所述第一对象的对象总流量时，将所述v叠加到所述第一对象的对象总流量的值上；或者，当所述附属队列中不包含所述第一对象的对象总流量时，在所述附属队列中添加所述第一对象的对象总流量，并将所述v赋值给所述第一对象的对象总流量。

结合第二方面的第四种可能的实现方式，在第六种可能的实现方式中，所述附属队列由映射到所述第一桶中的对象的对象总流量构成，第一元素包含所述第一对象的流量值v；其中，所述第一元素为针对所述第一对象的元素；所述记录信息还包括所述附属队列的最大允许容量；

所述更新单元具体用于：在所述附属队列的当前容量的值小于所述最大允许容量的值的情况下，当所述附属队列中不包含所述第一对象的对象总流量时，在所述附属队列中添加所述第一对象的对象总流量，并将所述v赋值给所述第一对象的对象总流量。

结合第二方面的第五种可能的实现方式，在第七种可能的实现方式中，所述记录信息还包括所述附属队列的最大允许容量，所述附属队列的当前容量的值大于或者等于所述附属队列的最大允许容量的值；所述工作节点还包括：

扩张单元，用于当所述附属队列的最大允许容量的值满足预设扩张条件时，将所述最大允许容量的值对应的存储空间扩张为扩张容量的值对应的存储空间；

所述更新单元具体用于，将所述扩张容量的值赋值给所述最大允许容量。

结合第二方面的第四种可能的实现方式至第七种可能的实现方式任一种，在第八种可能的实现方式中，所述附属队列中不包含所述第一对象的对象总流量，所述记录信息还包括所述附属队列的最大允许容量和所述第一桶的对象流量估计误差，所述附属队列的最大允许容量的值不满足预设扩张条件，第一元素包含所述第一对象的流量值v；其中，所述第一元素为针对所述第一对象的元素；所述第一桶的对象流量估计误差用于确定映射到所述第一桶中的对象在所述第一桶中的流量上界；所述工作节点还包括：

第一确定单元，用于确定所述v与所述附属队列中各对象的对象总流量的值中的最小值；

所述更新单元具体用于，将所述附属队列中各对象的对象总流量的值均减去所述最小值，并将所述最小值叠加到所述第一桶的对象流量估计误差的值上。

结合第二方面的第八种可能的实现方式，在第九种可能的实现方式中，当所述附属队列中包含值为零的对象总流量时，所述更新单元还用于：

删除所述值为零的对象总流量；

在所述附属队列中添加所述第一对象的对象总流量；

将所述v赋值给所述第一对象的对象总流量。

结合第二方面的第八种可能的实现方式或第九种可能的实现方式，在第十种可能的实现方式中，所述工作节点还包括：

删除单元，用于当所述附属队列中不包含值为零的对象总流量时，删除所述第一元素。

结合第二方面的第七种可能的实现方式或第八种可能的实现方式，在第十一种可能的实现方式中，所述工作节点还包括：

第二确定单元，用于确定所述附属队列的最大允许容量的值L是否满足预设扩张条件；具体用于：

确定当前扩张轮数k；

所述扩张容量的值为(k+1)(k+2)-1。

结合第二方面的第十一种可能的实现方式，在第十二种可能的实现方式中，所述第二确定单元具体用于：根据公式

结合第二方面的第八种可能的实现方式，在第十三种可能的实现方式中，所述第一元素为所述Y个元素中的、针对所述第一对象的元素，具体为针对所述第一对象的最后一个元素；

所述第二获取单元具体用于：获取所述第一对象在所述第一桶中的流量上界；具体用于：

第三方面，提供一种识别异常IP数据流的系统，包括：数据收集节点和上述第二方面提供的任一种工作节点，其中所述数据收集节点用于发送所述Y个元素。

本发明实施例提供的识别异常IP数据流的方法、装置和系统，通过获取当前时间区间内所映射的所有元素的总流量大于或者等于第一阈值的目标桶的桶作为目标桶，并进一步根据预设异常对象的类型和获取到的第一对象在所映射到的r个桶中的r个流量上界识别该对象是否为异常对象；其中，第一对象为映射到目标桶中的任一对象。本方案结合了映射到桶中的所有元素的总流量和单个对象在所映射到的桶中的流量上界识别一对象是否为异常对象，能够有效避免现有技术中，因只利用映射到桶中的所有元素的总流量识别一对象是否为异常对象导致的错误地将这些小流量对象识别为大流量对象的问题，从而提高了识别准确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种识别异常IP数据流的方法的流程示意图；

图2为本发明实施例提供的一种元素分发及映射过程的流程示意图；

图3为本发明实施例提供的一种记录信息更新过程的流程示意图；

图4为本发明实施例提供的一种工作节点识别异常流量的过程的流程示意图；

图5为本发明实施例提供的一种控制节点识别异常流量的过程的流程示意图；

图6为本发明实施例提供的另一种工作节点识别异常流量的过程的流程示意图。

图7为本发明实施例提供的一种工作节点的结构示意图；

图8为本发明实施例提供的另一种工作节点的结构示意图；

图9为本发明实施例提供的另一种工作节点的结构示意图；

图10为本发明实施例提供的另一种工作节点的结构示意图；

图11为本发明实施例提供的一种识别异常IP数据流的系统框图；

图12为本发明实施例提供的另一种识别异常IP数据流的系统框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，均属于本发明保护的范围。

需要说明的是，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本文中字符“/”，一般表示前后关联对象是一种“或”的关系。本文中的术语“多个”表示两个或者两个以上。

实施例一

如图1所示，为本发明实施例提供的一种识别异常IP数据流的方法，应用于工作节点中，所述方法包括：

101：在当前时间区间内，接收数据收集节点发送的Y个元素；其中，Y≥1，Y为整数。

其中，“工作节点”和“数据收集节点”均可以为：服务器或者PC(Personal Computer，个人计算机)等设备。另外，不同的工作节点和/或数据收集节点还可以分布在同一设备的不同CPU(Central Processing Unit，中央处理器)上。需要说明的是，为了方便描述，下文中均以不同的工作节点和/或数据收集节点分布在不同的设备上为例进行说明。

每个服务器或者PC均可以作为工作节点或者数据收集节点，但是，在同一应用场景中，同一节点一般不同时作为工作节点和数据收集节点；这里的“应用场景”可以包含一个/多数量据收集节点以及一个/多个工作节点。

每个元素由对象和该对象所对应的值构成，可以将“元素”表示为：元素(对象，值)，即(key，value)；其中，元素包含的“值”可以为该元素的流量值或者能够表示该元素的流量值的信息。需要说明的是，在下文中，如果不加说明，元素包含的“值”均是指该元素的流量值。不同元素包含的对象可以相同也可以不同，不同元素包含的值可以相同也可以不同；例如：元素1(对象1，值1)、元素2(对象1，值2)、元素3(对象2，值3)、元素4(对象2、值1)等。

针对同一对象的不同元素一般来自同一个数据收集节点或者固定的几个数据收集节点。具体实现时，每个数据收集节点可以按照一定的分发规则将收集到的不同元素分发到预设的一个/多个工作节点上，本发明实施例对具体的分发规则不进行限定。其中，分发规则可以包括：预先在数据收集节点中设置每个对象所分布的工作节点，当数据收集节点获取到一元素时，根据该元素所针对的对象向预设的该对象所分布的其中一个工作节点发送该元素。

本发明实施例对“当前时间区间”的取值不进行限定。

102：按照映射算法将所述Y个元素映射到N个桶中；其中，N≥1，N为整数。

其中，为了清楚描述本发明实施例提供的技术，首先说明“数据结构表”。“数据结构表”存储在工作节点的存储单元中，由I行J列桶构成，其中，I≥1，J≥1，I、J为整数；数据结构表的每行对应一个哈希函数，哈希函数用于将工作节点接收到的元素映射到该行的某一个桶中。数据结构表具体可以为sketch数据结构。“桶”是指用于存储I×J矩阵中每个元素的存储单元，其中，本领域技术人员应当理解，这里的“矩阵中的元素”与本文中其他地方描述的“元素”不为同一概念。具体实现时，I与J的取值与内存占用空间的大小有关，可以根据现有技术中的方法确定。

示例性的，该步骤102可以包括：工作节点按照数据结构表的每行对应的映射算法(即数据结构表的每行对应的哈希函数)，将Y个元素分别映射到每行中。具体实现时，工作节点可以在接收到每个元素时，即按照数据结构表的每行对应的映射算法，将该元素映射到每行中。本发明实施例对具体的映射算法不进行限定，可以为现有技术中的映射算法。

由于映射算法是根据对象进行映射的，因此，在数据结构表的任一行中，针对同一对象的不同元素(即包含相同对象的不同元素)一般被映射到同一个桶中；针对不同对象的不同元素一般被映射到不同桶中。需要说明的是，具体实现时，一方面，由于桶的数量比较小，对象的数量比较大，因此，不同的对象往往需要被映射到同一个桶中；另一方面，由于存在不同的对象经映射算法进行映射后得到同一个值的情况，因此，在数据结构表的任一行中，针对不同对象的元素也可能被映射到同一个桶中。

103：获取所述N个桶中的、所映射的所有元素的总流量大于或者等于第一阈值的桶作为目标桶。

其中，第一阈值，工作节点可以根据实际网络环境中工作节点的运算能力的大小确定第一阈值，所述工作节点的运算能力越大，所述第一阈值越小，所述工作节点的运算能力越小，所述第一阈值越大，所述第一阈值必须保证在所述N个桶中的、至少选择到一个目标桶；具体的，当用于实现某一功能的目标网络环境要求异常对象占总流量的百分比不超过一阈值时，工作节点可以根据该阈值和实际网络环境确定第一阈值。需要说明的是，不同目标网络环境要求的异常流量占总流量的百分比可以相同也可以不同，可选的，异常流量占总流量的百分比可以为1％。目标桶的数量可以为一个或者多个。针对每个桶，工作节点可以记录映射到该桶的所有元素的总流量。

104：获取所述当前时间区间内第一对象在所映射到的r个桶中的r个流量上界；其中，所述第一对象为映射到所述目标桶中的任一对象，所述r个桶中的每个桶中包含针对所述第一对象的1个流量上界，r≥1，r为整数。

其中，“r个桶”可以为第一对象映射到的、任意r个桶，具体可以为第一对象映射到数据结构表的每行中的桶，即r＝I。针对每个桶，工作节点可以记录映射到该桶的每个对象的流量上界。

可选的，步骤102可以包括：按照映射算法将所述Y个元素中的、针对所述第一对象的任一元素映射到所述M个桶中的第一桶中；其中，所述第一桶是指所述第一对象按照所述映射算法能够映射到的任一桶；该情况下，所述方法还包括：更新所述第一桶包含的记录信息；所述记录信息包括：映射到所述第一桶中的所有元素的总流量和附属队列；其中，所述附属队列用于确定所述第一桶所映射的各对象在所述第一桶中的流量上界。

示例性的，“工作节点可以在接收到Y个元素中的每个元素时，即对该元素所映射到的桶中包含的记录信息进行更新。“对象的对象流量值”是指针对该对象的所有元素的总流量。“附属队列”由映射到第一桶中的部分/全部对象的对象总流量构成；具体何种情况下由全部对象的对象总流量构成，何种情况下由部分对象的对象总流量构成，以及后者中由哪些对象的对象总流量构成等可参见下述具体的实施例。

可选的，第一元素包含所述第一对象的流量值v；其中，所述第一元素为针对所述第一对象的元素，具体为Y个元素中的针对苏搜狐第一对象的任一元素；所述更新所述第一桶包含的记录信息可以包括：当所述附属队列中包含所述第一对象的对象总流量时，将所述v叠加到所述第一对象的对象总流量的值上；或者，当所述附属队列中不包含所述第一对象的对象总流量时，在所述附属队列中添加所述第一对象的对象总流量，并将所述v赋值给所述第一对象的对象总流量。

需要说明的是，在该可选的方式中，“当前时间区间内第一对象在所映射到的某个桶中的流量上界”即为：工作节点在当前时间区间的结束时刻获取到的该桶中包含的记录信息中的第一对象的对象总流量的值。

可选的，可以通过设置附属队列的最大允许容量来限制数据结构表的存储空间的大小，以避免由于桶中的附属队列容量过大导致数据结构表的存储空间过大的问题。具体的：所述附属队列由映射到所述第一桶中的对象的对象总流量构成，第一元素包含所述第一对象的流量值v；其中，所述第一元素为针对所述第一对象的元素；所述记录信息还包括所述附属队列的最大允许容量；所述更新所述第一桶包含的记录信息包括：在所述附属队列的当前容量的值小于所述最大允许容量的值的情况下，当所述附属队列中不包含所述第一对象的对象总流量时，在所述附属队列中添加所述第一对象的对象总流量，并将所述v赋值给所述第一对象的对象总流量。

可选的，在附属队列的当前容量的值大于或者等于附属队列的最大允许容量的值的情况下，本发明还提供了对附属队列所占的存储空间(即附属队列的最大允许容量的值对应的存储空间)进行适当扩张的实施例。具体的：所述记录信息还包括所述附属队列的最大允许容量，所述附属队列的当前容量的值大于或者等于所述附属队列的最大允许容量的值；在所述附属队列中添加所述第一对象的对象总流量之前，所述方法还可以包括：当所述附属队列的最大允许容量的值满足预设扩张条件时，将所述最大允许容量的值对应的存储空间扩张为扩张容量的值对应的存储空间；该情况下，所述更新所述第一桶包含的记录信息，还包括：将所述扩张容量的值赋值给所述附属队列的最大允许容量。

示例性的，本发明实施例对“预设扩张条件”和“扩张容量的值”的具体内容及确定方式不进行限定，可以根据经验值进行确定。下面提供一种可选的实现方式：所述方法还可以包括：确定所述附属队列的最大允许容量的值L是否满足预设扩张条件；具体包括：确定当前扩张轮数k；当(k+1)(k+2)-1＞L时，确定所述附属队列的最大允许容量的值满足预设扩张条件；当(k+1)(k+2)-1≤L时，确定所述附属队列的最大允许容量的值不满足预设扩张条件；该情况下，所述扩张容量的值为(k+1)(k+2)-1。另外，还可以根据其他经验值确定预设扩张条件及扩张容量的值。

示例性的，所述确定当前扩张轮数k，可以包括：根据公式

确定所述当前扩张轮数k；其中，所述W是指将所述第一元素映射到所述第一桶中后得到的、映射到所述第一桶中的所有元素的总流量，所述T是指动态扩张参数；当所述预设的异常对象的类型为大流量对象时，T＝φ；或者，当所述预设的异常对象的类型为大变化对象时，T＝εφ；其中，所述φ是指预设的所述第一对象的对象总流量阈值；所述ε为常数，0＜ε≤1。示例性的，不同对象的对象总流量阈值可以相同，也可以不同。

另外可选的，所述附属队列中不包含所述第一对象的对象总流量，所述记录信息还包括所述附属队列的最大允许容量和所述第一桶的对象流量估计误差，所述附属队列的最大允许容量的值不满足预设扩张条件，所述第一元素包含所述第一对象的流量值v；在所述更新所述第一桶包含的记录信息之前，所述方法还可以包括：确定所述v与所述附属队列中各对象的对象总流量的值中的最小值；该情况下，所述更新所述第一桶包含的记录信息，包括：将所述附属队列中各对象的对象总流量的值均减去所述最小值，并将所述最小值叠加到所述第一桶的对象流量估计误差上。

示例性的，该可选的方式中的“预设扩张条件”及确定方式可以参考上文的描述。在该可选的方式下，当所述附属队列中包含值为零的对象总流量时，所述更新所述第一桶包含的记录信息，还可以包括：删除所述值为零的对象总流量；在所述附属队列中添加所述第一对象的对象总流量；将所述v赋值给所述第一对象的对象总流量。另外，当所述附属队列中不包含值为零的对象总流量时，所述方法还可以包括：删除所述第一元素。

需要说明的是，在该可选的方式中，“当前时间区间内第一对象在所映射到的某个桶中的流量上界”可以通过下述方式获得：

所述第一元素为所述Y个元素中的、针对所述第一对象的元素，具体为针对所述第一对象的最后一个元素；该情况下，步骤104可以包括：获取所述第一对象在所述第一桶中的流量上界；具体包括：当所述第一对象的对象总流量在所述附属队列中时，将所述第一对象的对象总流量的值作为所述第一对象在所述第一桶中的流量下界，当所述第一对象的对象总流量不在所述附属队列中时，将零值作为所述第一对象在所述第一桶中的流量下界；将所述第一对象在所述第一桶中的流量下界与所述第一桶的对象流量估计误差的和，作为所述第一对象在所述第一桶中的流量上界。

105：根据预设的异常对象的类型和所述当前时间区间内的r个流量上界识别所述第一对象是否为异常对象；所述预设的异常对象的类型为大流量对象或大变化对象。

可选的，所述预设的异常对象的类型为大流量对象；该情况下，步骤104可以包括：当所述当前时间区间内的r个流量上界中的r1个流量上界均大于或者等于第二阈值时，确定所述第一对象为大流量对象；其中，r≥r1≥1。

另外可选的，所述预设的异常对象的类型为大变化对象；该情况下，所述方法还可以包括：获取所述当前时间区间的前一个时间区间内第一对象在所映射到的r个桶中的r个流量上界；该情况下，步骤105可以包括：根据所述当前时间区间内的r个流量上界和所述当前时间区间的前一个时间区间内的r个流量上界，获取所述r个流量上界的变化量；当所述r个流量上界的变化量中的r2个流量上界的变化量均大于或者等于第三阈值时，确定所述第一对象为大变化对象；其中，r≥r2≥1。

其中，工作节点可以根据实际网络环境中工作节点的运算能力的大小确定第二阈值，所述工作节点的运算能力越大，所述第二阈值越小，所述工作节点的运算能力越小，所述第二阈值越大，所述第二阈值必须保证在针对所述Y个元素的对象中、至少选择到一个大流量对象。

其中，工作节点可以根据实际网络环境中工作节点的运算能力的大小确定第三阈值，所述工作节点的运算能力越大，所述第三阈值越小，所述工作节点的运算能力越小，所述第三阈值越大，所述第三阈值必须保证在针对所述Y个元素的对象中、至少选择到一个大变化对象。

具体实现时，第二阈值与第三阈值可以相同也可以不同。

可选的，针对所述第一对象的元素分布在包括所述工作节点的d个工作节点上，d≥2，d为整数，所述d个工作节点识别得到d个异常对象集合，每个工作节点识别得到1个异常对象集合；为了进一步提高识别的准确度，在步骤104之后，所述方法还可以包括以下三种实现方式中的任一种：

方式1：接收其他d-1个工作节点发送的d-1个异常对象集合，当所述d个异常对象集合中的d1个异常对象集合均包含所述第一对象时，确定所述第一对象为目标异常对象；其中，d≥d1≥1；

方式2：向控制节点发送所述工作节点识别得到的异常对象集合，以使得所述控制节点在所述d个异常对象集合中的d2个异常对象集合均包含所述第一对象时，确定所述第一对象为目标异常对象；其中，d≥d2≥1；

方式3：向其他d-1个工作节点中的任一工作节点发送所述工作节点识别得到的异常对象集合，以使得所述任一工作节点在所述d个异常对象集合中的d3个异常对象中均包含所述第一对象时，确定所述第一对象为目标异常对象；其中，d≥d3≥1。

示例性的，为了清楚描述，引入“汇总节点”的概念，汇总节点用于对工作节点获得的异常对象集合进行汇总，以确定最终的异常对象(即目标异常对象)；也就是说，汇总节点为上述方式1、2、3中确定目标异常对象的执行主体，即可以为任一个工作节点还可以为一独立于工作节点的节点(如上述“控制节点”)。工作节点中可以预先存储针对第一对象的汇总节点的标识，用于在一个时间区间结束时向汇总节点发送异常对象集合。其中，汇总节点的标识可以为在用户的指示下设置在汇总节点中，也可以为接收数据收集节点或者任意节点发送的信息得到的。

需要说明的是，“异常对象集合”是指由异常对象构成的集合，其中，各工作节点确定异常对象集合中的每个异常对象的方式可以参考上述步骤101-103中确定异常对象的方式。

本发明实施例提供的识别异常IP数据流的方法，工作节点通过获取当前时间区间内所映射的所有元素的总流量大于或者等于第一阈值的桶作为目标桶，并进一步根据预设异常对象的类型和获取到的第一对象在所映射到的r个桶中的r个流量上界识别该对象是否为异常对象；其中，第一对象为映射到目标桶中的任一对象。本方案结合了映射到桶中的所有元素的总流量和单个对象在所映射到的桶中的流量上界识别一对象是否为异常对象，能够有效避免现有技术中，因只利用映射到桶中的所有元素的总流量识别一对象是否为异常对象导致的错误地将这些小流量对象识别为大流量对象的问题，从而提高了识别准确度。

下面通过具体的实施例对上文描述的识别异常IP数据流的方法进行示例性说明。

需要说明的是，在下述两个实施例中，数据结构表中的任意一个桶包含的记录信息包括：映射到该桶的所有元素的总流量、附属队列、附属队列的最大允许容量和该桶的对象流量估计误差；在当前时间区间的开始时刻，映射到该桶的所有元素的总流量的值为0，该桶的对象流量估计误差的值0，最大允许容量的值L为预设阈值、附属队列中包含L个空对象的对象流量值。另外，控制节点与工作节点不为同一节点。下述两个实施例均包括：元素分发及映射过程、记录信息更新过程、工作节点识别过程、控制节点识别过程几部分。

实施例1

本实施例用于确定目标大流量对象，即预设的异常对象的类型为大流量对象。具体的，包括：

(一)元素分发及映射过程

在当前时间区间内，数据收集节点共获取到Y个元素，下面以元素(x，v_x)为例对元素分发及映射过程进行说明；其中，x表示对象x，v_x表示对象x的流量值。

如图2所示，元素分发及映射过程包括：

201：数据收集节点获取元素(x，v_x)。

202：向预设的对象x所分布的d个工作节点中的其中一个工作节点发送该元素；其中，d≥1。

示例性的，数据收集节点可以预先存储每个对象所分布的工作节点，其中，不同对象所分布的工作节点的数目可以相同也可以不同，不同对象所分布的工作节点可以完全/部分相同，也可以均不同。当数据收集节点获取到一元素时，根据该元素所针对的对象，确定该对象所分布的d个工作节点，从而向该d个工作节点中的其中一个工作节点发送该元素。

需要说明的是，数据收集节点可以根据对象的属性特征确定对象所分布的工作节点，对象的属性特征可以包括对象的五元组。具体的，根据哈希(Hash)函数对每个对象的五元组信息进行运算，从而确定每个对象所分布的工作节点。由于Hash函数具有随机性质，因此可以保证划分的均匀性，进而保证系统的负载均衡(load balance)

203：接收该元素的工作节点按照数据结构表的每行对应的映射算法分别将该元素映射到每行中，其中，共映射到I个桶中，I是指数据结构表的行数，I≥1，I为整数。

示例性的，针对数据结构表中的每一行，接收该元素的工作节点按照该某行对应的映射算法将该元素映射到该行的一个桶中。

(二)记录信息更新过程

接收到元素(x，v_x)的工作节点针对I个桶中的每个桶均执行记录信息更新过程，其中，针对I个桶中的每个桶的记录信息的更新过程可以先后执行，也可以同时执行。下面以针对第i个桶为例对记录信息更新过程进行说明，其中，1≤i≤I，i为整数。

如图3所示，更新过程包括：

301：将元素(x，v_x)的流量值v_x叠加到第i个桶中的所有元素的总流量的值上。

示例性的，该步骤301可以描述为：更新映射到第i个桶中的所有元素的总流量。

302：判断对象x的对象总流量A[x]是否在附属队列中。

若是，说明：当前时间区间内工作节点还未接收到针对对象x的元素或者将已删除接收到的针对对象x的所有元素，则执行步骤303；若否，说明：当前时间区间内工作节点已经接收到针对对象x的元素且未删除接收到的针对对象x的元素/未完全删除接收到的针对对象x的元素，则执行步骤304。

303：将元素(x，v_x)的流量值v_x叠加到对象x的对象总流量的值上。

示例性的，该步骤303可以描述为：更新对象x的对象总流量。

执行步骤303之后，针对元素(x，v_x)的记录信息更新过程结束。该情况下，记录信息更新过程包括：更新第i个桶中的所有元素的总流量。

304：判断附属队列的当前容量的值是否小于L。

若是，说明：附属队列的当前容量还未达到最大允许容量，也就是说还可以向附属队列中添加针对某一对象的对象总流量，则执行步骤305；若否，说明：附属队列的当前容量已经达到最大允许容量，则执行步骤306。

示例性的，附属队列的当前容量的值是指，附属队列中包含的非空对象的对象总流量的数量。L是指该附属队列允许包含的所有对象总流量的数量，具体包括：非空对象的对象总流量的数量和/或空对象的对象总流量的数量。

305：在附属队列中添加对象x的对象总流量A[x]，A[x]＝v_x。

示例性的，“在附属队列中添加对象x的对象总流量A[x]”可以实现为：将附属队列中的一个空对象的对象总流量更新为对象x的对象总流量A[x]。“A[x]＝v_x”可以描述为：将v_x赋值给A[x]，即将v_x作为A[x]的初始值。

执行步骤305之后，针对元素(x，v_x)的记录信息更新过程结束。该情况下，记录信息更新过程包括：更新第i个桶中的所有元素的总流量和附属队列。

306：根据公式

确定当前扩张轮数k；其中，W是指当前时间区间内映射到第i个桶中的所有元素的总流量的值，T是指动态扩张参数，T＝φ，φ是指预设的对象x的对象总流量阈值。

示例性的，可以根据以下方式预先设置对象x的对象总流量阈值：方式一：根据期望的大流量对象的数量确定，例如，期望的大流量对象的数量为100，已知网络在一定时间内的最大流量是S(带宽×时间)，则对象x的对象总流量阈值可以为S÷100。方式二：利用自适应算法(如EWMA)估计每个时间区间内的总流量S′，并将对象x的对象总流量阈值设S′/100。

307：判断(k+1)(k+2)-1是否大于L。

若是，说明：k和L满足预设扩展条件，则执行步骤308；若否，说明：k和L不满足预设扩展条件，则执行步骤309。

308：将L对应的存储空间扩张为扩张容量的值对应的存储空间，将(k+1)(k+2)-1赋值给最大允许容量，在附属队列中添加对象x的对象总流量A[x]，A[x]＝v_x。

示例性的，“将L对应的存储空间扩张为扩张容量的值对应的存储空间”可以实现为：在附属队列中添加(k+1)(k+2)-1个空对象的对象总流量。“将(k+1)(k+2)-1赋值给最大允许容量”可以描述为：更新最大允许容量。

执行步骤308之后，针对元素(x，v_x)的记录信息更新过程结束。该情况下，记录信息更新过程包括：更新第i个桶中的所有元素的总流量、附属队列和附属队列的最大允许容量。

309：确定v_x与附属队列中各对象的对象总流量的值中的最小值。

310：将附属队列中各对象的对象总流量的值均减去该最小值，将该最小值叠加到第i个桶的对象流量估计误差的值上。

示例性的，“将该最小值叠加到第i个桶的对象流量估计误差的值上”可以描述为：更新第i个桶的对象流量估计误差。需要说明的是，当第i个桶中还未映射任何一个元素时，第i个桶的对象流量估计误差的值为0。

311：判断附属队列中是否包含值为零的对象总流量。

若是，说明：步骤310中的“最小值”为附属队列中的一个/多个对象总流量的值，进一步地，当前时刻附属队列中不需要记录该值为零的对象总流量，需要记录对象x的对象总流量，则执行步骤312；若否，说明：步骤310中的“最小值”为v_x，进一步地，当前时刻不需要记录对象x的对象总流量，则执行步骤313。

312：删除值为零的对象总流量，在附属队列中添加对象x的对象总流量A[x]，A[x]＝v_x。

示例性的，“删除值为零的对象总流量”可以实现为：将值为零的对象总流量设置为空对象的对象总流量。

执行步骤312之后，针对元素(x，v_x)的记录信息更新过程结束。该情况下，记录信息更新过程包括：更新第i个桶中的所有元素的总流量、附属队列、附属队列的最大允许容量和第i个桶的对象流量估计误差。

313：删除该元素。

执行该步骤313之后，针对元素(x，v_x)的记录信息更新过程结束。该情况下，附属队列中仍然不包含A[x]。该情况下，记录信息更新过程包括：更新第i个桶中的所有元素的总流量、附属队列、附属队列的最大允许容量、第i个桶的对象流量估计误差。

(三)工作节点识别过程

在当前时间区间的结束时刻，当前时间区间内接收到元素的每个工作节点均执行工作节点识别过程。此时，每个工作节点的数据结构表中的每个桶中的记录信息均包含：更新后的映射到该桶的元素的总流量、更新后的附属队列、更新后的附属队列的最大允许容量和更新后的该桶的对象流量估计误差。

如图4所示，工作节点识别过程包括：

401：工作节点确定自身数据结构表中的、更新后的映射到该桶的元素的总流量大于或者等于第一阈值的桶作为目标桶，目标桶的数量为N个；其中，N≥1，N为整数。

需要说明的是，具体实现时，针对一个工作节点，当前时间区间内接收到元素的数量往往远大于数据结构表中桶的数量，因此，工作节点可以通过依次检测映射到每个桶的元素的总流量来确定目标桶，而不需要根据元素所针对的对象来确定目标桶。

402：确定第n个目标桶所映射的每个对象在当前时间区间内映射到的I个桶，其中，1≤n≤N，n为整数。

需要说明的是，针对N个目标桶中的每个目标桶均执行步骤402。

示例性的，假设数据结构表包含3×4个桶，即3行4列共12个桶，第n个目标桶在数据结构表中的位置为第1行第2列，即第n个目标桶可以表示为：桶12。映射到桶12中的对象包括：对象x1、对象x2、对象x3、对象x4，这4个对象所映射的桶可以如表1所示：

表1

对象	对象所映射的桶
对象	对象所映射的桶	x1	桶12、桶23、桶33
x2	桶12、桶21、桶31	x1	桶12、桶23、桶33
x2	桶12、桶21、桶31	x3	桶12、桶24、桶34
x4	桶12、桶24、桶31	x3	桶12、桶24、桶34

下面以第n个桶所映射的第一对象为例对工作节点识别过程进行说明，具体包括步骤403-410。

403：确定第一对象的对象总流量是否在第i个桶中的附属队列中；其中，1≤i≤I，i为整数。

若是，说明：工作节点在执行记录信息更新过程时，删除了针对第一对象的所有元素，则执行步骤404；若否，说明：工作节点在执行记录信息更新过程时，未删除针对第一对象的元素或者删除了部分针对第一对象的元素，则执行步骤405。

需要说明的是，针对第n个桶中的每个对象均执行步骤403-410。

404：将第一对象在第i个桶中的对象总流量的值作为第一对象在第i个桶中的流量下界S_down1。

执行步骤404之后，则执行步骤406。

405：将零值作为第一对象在第i个桶中的流量下界S_down1。

406：S_up1＝S_down1+e；其中，S_up1是指当前时间区间内第一对象在第i个桶中的流量上界，e是指第i个桶的对象流量估计误差的值。

407：判断i是否大于或者等于I。

若否，则执行步骤408；若是，则执行步骤409。

408：i自加1。

执行步骤408之后，执行步骤403。

409：判断第一对象在I个桶中的流量上界是否均大于或者等于第二阈值。

若是，说明第一对象为大流量对象，则执行步骤410；若否，说明第一对象不为大流量对象，则结束。

410：将第一对象添加到该工作节点识别得到的大流量对象集合中。

执行步骤410之后，该工作节点针对第一对象的识别过程结束。

(四)控制节点识别过程

如图5所示，控制节点识别过程包括：

501：控制节点接收第一对象所分布的d个工作节点发送的d个大流量对象集合。

502：判断d个大流量对象集合中是否均包含第一对象。

若是，则执行步骤503；若否，则控制节点对第一对象的识别过程结束。

503：确定第一对象为目标大流量对象。

执行步骤503之后，控制节点对第一对象的识别过程结束。

本发明实施例提供的识别异常IP数据流的方法，工作节点通过获取当前时间区间内所映射的所有元素的总流量大于或者等于第一阈值的桶作为目标桶，并进一步根据获取到的第一对象在所映射到的r个桶中的r个流量上界识别该对象是否为大流量对象，最后由控制节点对每个工作节点识别的大流量对象进行汇总，以确定目标大流量对象。本方案结合了映射到桶中的所有元素的总流量和单个对象在所映射到的桶中的流量上界识别一对象是否为异常对象，能够有效避免现有技术中，因只利用映射到桶中的所有元素的总流量识别一对象是否为异常对象导致的错误地将这些小流量对象识别为大流量对象的问题，从而提高了识别准确度。

实施例2

本实施例用于确定目标大变化对象，即预设的异常对象的类型为大变化对象。具体的，包括：

(一)元素分发及映射过程

该过程与实施例1中的“元素分发过程”相同。

(二)记录信息更新过程

该过程与实施例1中的“记录信息更新过程”的区别在于：上述步骤308中的动态扩张参数T在本实施例中，满足T＝εφ；其中，ε为常数，0＜ε≤1。其他步骤与实施例1中的“记录信息更新过程”相同。

(三)工作节点识别过程

如图6所示，工作节点识别过程包括：

601-606：与上述步骤401-406相同。

607：获取当前时间区间的前一个时间区间内第一对象在所映射到第i个桶中的流量下界S_down2和流量上界S_up2。

示例性的，工作节点获得S_down2和S_up2的具体实现方法可以参考上述获得S_down1和S_up1的方法。

608：获取第一对象在第i个桶中的流量上界的变化量D_i＝max{S_up2-S_down1，S_up1-S_down2}。

609：判断i是否大于或者等于I。

若否，则执行步骤610；若是，则执行步骤611。

610：i自加1。

执行步骤610之后，执行步骤603。

611：判断第一对象在I个桶中的流量上界的变化量是否均大于或者等于第三阈值。其中，第一对象在I个桶中的流量上界的变化量包括：D1、D2、…、Di、…、DI、

若是，说明第一对象时大变化对象，则执行步骤612；若否，说明第一对象不为大变化对象，则结束。

612：将第一对象添加到该工作节点识别得到的大变化对象集合中。

执行步骤612之后，该工作节点针对第一对象的识别过程结束。

(四)控制节点识别过程

该过程与上述实施例一中的“控制节点识别过程”的区别在于：上述的“大流量对象集合”在本实施例中为“大变化对象集合”，上述的“目标大流量对象”在本实施例中为“目标大变化对象”。

由此可知，在上述实施例1提供的识别大流量对象的方法的基础上作简单改变即可实现本实施例提供的识别大变化对象的方法，也就是说，本发明实施例提供的识别异常IP数据流的方法的构思既可应用于识别大流量对象的场景中，又可应用于识别大变化对象的场景中。解决了现有技术方案中，因没有预留时间区间保留位导致的识别大流量对象的方法不能同时适用于识别大变化对象的问题。

实施例二

如图7所示，为本发明实施例提供的一种工作节点7，用以执行图1所示的识别异常IP数据流的方法，该工作节点7包括：

接收单元71，用于在当前时间区间内，接收数据收集节点发送的Y个元素；其中，Y≥1，Y为整数；

映射单元72，用于按照映射算法将所述Y个元素映射到N个桶中；其中，N≥1，N为整数；

第一获取单元73，用于获取所述N个桶中的、所映射的所有元素的总流量大于或者等于第一阈值的桶作为目标桶；

第二获取单元74，用于获取所述当前时间区间内第一对象在所映射到的r个桶中的r个流量上界；其中，所述第一对象为映射到所述目标桶中的任一对象，所述r个桶中的每个桶中包含针对所述第一对象的1个流量上界，r≥1，r为整数；

识别单元75，用于根据预设的异常对象的类型和所述当前时间区间内的r个流量上界识别所述第一对象是否为异常对象；所述预设的异常对象的类型为大流量对象或大变化对象。

可选的，所述预设的异常对象的类型为大流量对象；

所述识别单元75具体用于，当所述当前时间区间内的r个流量上界中的r1个流量上界均大于或者等于第二阈值时，确定所述第一对象为大流量对象；其中，r≥r1≥1。

可选的，所述预设的异常对象的类型为大变化对象；如图8所示，所述工作节点7还包括：

第三获取单元76，用于获取所述当前时间区间的前一个时间区间内所述第一对象在所映射到的r个桶中的r个流量上界；

所述识别单元75具体用于：根据所述当前时间区间内的r个流量上界和所述前一个时间区间内的r个流量上界，获取r个流量上界的变化量；当所述r个流量上界的变化量中的r2个流量上界的变化量均大于或者等于第三阈值时，确定所述第一对象为大变化对象；其中，r≥r2≥1。

可选的，对所述第一对象的元素分布在包括所述工作节点7的d个工作节点上，d≥2，d为整数，所述d个工作节点识别得到d个异常对象集合，每个工作节点识别得到1个异常对象集合；

所述接收单元71还用于，接收其他d-1个工作节点发送的d-1个异常对象集合，当所述d个异常对象集合中的d1个异常对象集合均包含所述第一对象时，确定所述第一对象为目标异常对象；其中，d≥d1≥1；

或者，如图8所示，所述工作节点7还包括：发送单元77，用于向控制节点发送所述工作节点识别得到的异常对象集合，以使得所述控制节点在所述d个异常对象集合中的d2个异常对象集合均包含所述第一对象时，确定所述第一对象为目标异常对象；其中，d≥d2≥1。

可选的，所述映射单元72具体用于，按照映射算法将所述Y个元素中的、针对所述第一对象的任一元素映射到第一桶中；其中，所述第一桶是指所述第一对象按照所述映射算法能够映射到的任一桶；

如图8所示，所述工作节点7还包括：更新单元78，用于更新所述第一桶包含的记录信息；所述记录信息包括：映射到所述第一桶中的所有元素的总流量和附属队列；其中，所述附属队列用于确定所述第一桶所映射的各对象在所述第一桶中的流量上界。

可选的，所述附属队列由映射到所述第一桶中的对象的对象总流量构成，第一元素包含所述第一对象的流量值v；其中，所述第一元素为针对所述第一对象的元素；

所述更新单元78具体用于：当所述附属队列中包含所述第一对象的对象总流量时，将所述v叠加到所述第一对象的对象总流量的值上；或者，当所述附属队列中不包含所述第一对象的对象总流量时，在所述附属队列中添加所述第一对象的对象总流量，并将所述v赋值给所述第一对象的对象总流量。

可选的，所述附属队列由映射到所述第一桶中的对象的对象总流量构成，第一元素包含所述第一对象的流量值v；其中，所述第一元素为针对所述第一对象的元素；所述记录信息还包括所述附属队列的最大允许容量；

所述更新单元78具体用于：在所述附属队列的当前容量的值小于所述最大允许容量的值的情况下，当所述附属队列中不包含所述第一对象的对象总流量时，在所述附属队列中添加所述第一对象的对象总流量，并将所述v赋值给所述第一对象的对象总流量。

可选的，所述记录信息还包括所述附属队列的最大允许容量，所述附属队列的当前容量的值大于或者等于所述附属队列的最大允许容量的值；如图8所示，所述工作节点7还包括：

扩张单元79，用于当所述附属队列的最大允许容量的值满足预设扩张条件时，将所述最大允许容量的值对应的存储空间扩张为扩张容量的值对应的存储空间；

所述更新单元78具体用于，将所述扩张容量的值赋值给所述最大允许容量。

可选的，所述附属队列中不包含所述第一对象的对象总流量，所述记录信息还包括所述附属队列的最大允许容量和所述第一桶的对象流量估计误差，所述附属队列的最大允许容量的值不满足预设扩张条件，第一元素包含所述第一对象的流量值v；其中，所述第一元素为针对所述第一对象的元素；所述第一桶的对象流量估计误差用于确定映射到所述第一桶中的对象在所述第一桶中的流量上界；

如图8所示，所述工作节点7还包括：

第一确定单元7A，用于确定所述v与所述附属队列中各对象的对象总流量的值中的最小值；

所述更新单元78具体用于，将所述附属队列中各对象的对象总流量的值均减去所述最小值，并将所述最小值叠加到所述第一桶的对象流量估计误差的值上。

可选的，当所述附属队列中包含值为零的对象总流量时，所述更新单元78还用于：

删除所述值为零的对象总流量；

在所述附属队列中添加所述第一对象的对象总流量；

将所述v赋值给所述第一对象的对象总流量。

可选的，如图8所示，所述工作节点7还包括：

删除单元7B，用于当所述附属队列中不包含值为零的对象总流量时，删除所述第一元素。

可选的，如图8所示，所述工作节点7还包括：

第二确定单元7C，用于确定所述附属队列的最大允许容量的值L是否满足预设扩张条件；具体用于：

确定当前扩张轮数k；

所述扩张容量的值为(k+1)(k+2)-1。

可选的，所述第二确定单元7C具体用于：根据公式

可选的，所述第一元素为所述Y个元素中的、针对所述第一对象的元素，具体为针对所述第一对象的最后一个元素；

所述第二获取单元7C具体用于：获取所述第一对象在所述第一桶中的流量上界；具体用于：

示例性的，工作节点7具体可以为服务器或者P C等设备。

本发明实施例提供的工作节点，通过获取当前时间区间内所映射的所有元素的总流量大于或者等于第一阈值的目标桶的桶作为目标桶，并进一步根据预设异常对象的类型和获取到的第一对象在所映射到的r个桶中的r个流量上界识别该对象是否为异常对象；其中，第一对象为映射到目标桶中的任一对象。本方案结合了映射到桶中的所有元素的总流量和单个对象在所映射到的桶中的流量上界识别一对象是否为异常对象，能够有效避免现有技术中，因只利用映射到桶中的所有元素的总流量识别一对象是否为异常对象导致的错误地将这些小流量对象识别为大流量对象的问题，从而提高了识别准确度。

实施例三

在硬件实现上，图8中的发送单元可以为发送器，接收单元可以为接收器，且该发送器和接收器可以集成在一起构成收发器；其他除存储单元之外的单元可以以硬件形式内嵌于或独立于工作节点的处理器中，也可以以软件形式存储于工作节点的存储器中，以便于处理器调用执行以上各个模块对应的操作，该处理器可以为中央处理单元(CPU)、微处理器、单片机等。

如图9所示，为本发明实施例提供的一种工作节点9，用以执行图1所示的识别异常IP数据流的方法，所述工作节点9包括：存储器91、处理器92、接收器93和总线系统94。

其中，存储器91、处理器92和接收器93之间是通过总线系统94耦合在一起的，其中总线系统94除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线系统94。

存储器91，用于存储一组代码，该代码用于控制处理器92和接收器93执行相应的动作，具体的：

接收器93，用于在当前时间区间内，接收数据收集节点发送的Y个元素；其中，Y≥1，Y为整数；

处理器92，用于执行以下动作：

获取所述当前时间区间内第一对象在所映射到的r个桶中的r 个流量上界；其中，所述第一对象为映射到所述目标桶中的任一对象，所述r个桶中的每个桶中包含针对所述第一对象的1个流量上界，r≥1，r为整数；

可选的，所述预设的异常对象的类型为大流量对象；

处理器92具体用于：当所述当前时间区间内的r个流量上界中的r1个流量上界均大于或者等于第二阈值时，确定所述第一对象为大流量对象；其中，r≥r1≥1。

可选的，所述预设的异常对象的类型为大变化对象；处理器92还用于：获取所述当前时间区间的前一个时间区间内所述第一对象在所映射到的r个桶中的r个流量上界；

处理器92具体用于：

可选的，针对所述第一对象的元素分布在包括所述工作节点的d个工作节点上，d≥2，d为整数，所述d个工作节点识别得到d个异常对象集合，每个工作节点识别得到1个异常对象集合；

接收器93还用于：接收其他d-1个工作节点发送的d-1个异常对象集合，当所述d个异常对象集合中的d1个异常对象集合均包含所述第一对象时，确定所述第一对象为目标异常对象；其中，d≥d1≥1；

或者，如图10所示，工作节点9还包括：发送器94，用于向控制节点发送所述工作节点识别得到的异常对象集合，以使得所述控制节点在所述d个异常对象集合中的d2个异常对象集合均包含所述第一对象时，确定所述第一对象为目标异常对象；其中，d≥d2≥1。

可选的，处理器92具体用于：按照映射算法将所述Y个元素中的、针对所述第一对象的任一元素映射到第一桶中；其中，所述第一桶是指所述第一对象按照所述映射算法能够映射到的任一桶；

处理器92还用于，更新所述第一桶包含的记录信息；所述记录信息包括：映射到所述第一桶中的所有元素的总流量和附属队列；其中，所述附属队列用于确定所述第一桶所映射的各对象在所述第一桶中的流量上界。

可选的，所述附属队列由映射到所述第一桶中的对象的对象总流量构成，第一元素包含所述第一对象的流量值v；其中，所述第一元素为针对所述第一对象的元素；处理器92具体用于：

当所述附属队列中包含所述第一对象的对象总流量时，将所述v叠加到所述第一对象的对象总流量的值上；或者，

可选的，所述附属队列由映射到所述第一桶中的对象的对象总流量构成，第一元素包含所述第一对象的流量值v；其中，所述第一元素为针对所述第一对象的元素；所述记录信息还包括所述附属队列的最大允许容量；处理器92具体用于：在所述附属队列的当前容量的值小于所述最大允许容量的值的情况下，当所述附属队列中不包含所述第一对象的对象总流量时，在所述附属队列中添加所述第一对象的对象总流量，并将所述v赋值给所述第一对象的对象总流量。

可选的，所述记录信息还包括所述附属队列的最大允许容量，所述附属队列的当前容量的值大于或者等于所述附属队列的最大允许容量的值；处理器92还用于，当所述附属队列的最大允许容量的值满足预设扩张条件时，将所述最大允许容量的值对应的存储空间扩张为扩张容量的值对应的存储空间；将所述扩张容量的值赋值给所述最大允许容量。

处理器92还用于，确定所述v与所述附属队列中各对象的对象总流量的值中的最小值；

处理器92具体用于，将所述附属队列中各对象的对象总流量的值均减去所述最小值，并将所述最小值叠加到所述第一桶的对象流量估计误差的值上。

可选的，处理器92还用于：

当所述附属队列中包含值为零的对象总流量时，删除所述值为零的对象总流量；

在所述附属队列中添加所述第一对象的对象总流量；

将所述v赋值给所述第一对象的对象总流量。

可选的，处理器92还用于，当所述附属队列中不包含值为零的对象总流量时，删除所述第一元素。

可选的，处理器92还用于，确定所述附属队列的最大允许容量的值L是否满足预设扩张条件；具体用于：

确定当前扩张轮数k；

所述扩张容量的值为(k+1)(k+2)-1。

可选的，处理器92具体用于，根据公式

可选的，所述第一元素为所述Y个元素中的、针对所述第一对象的元素，具体为针对所述第一对象的最后一个元素；处理器92具体用于，获取所述第一对象在所述第一桶中的流量上界；具体用于：

示例性的，工作节点7具体可以为服务器或者PC等设备。

另外，本发明实施例还提供一种识别异常IP数据流的系统，包括：一个/多个数据收集节点，以及一个/多个工作节点，其中，工作节点可为上述实施例提供的任一种工作节点7或工作节点9。需要说明的是，数据收集节点/工作节点的功能及实现该功能所执行的动作可以参考上述实施例的相关部分，此处不再赘述。如图11所示，为本发明实施例提供的一种识别异常IP数据流的系统框图。可选的，如图12所示，该系统还可以包括控制节点，其中，控制节点的功能及实现该功能所执行的动作可以参考上述实施例的相关部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

一种识别异常IP数据流的方法，其特征在于，应用于工作节点中，所述方法包括：

在当前时间区间内，接收数据收集节点发送的Y个元素；其中，Y≥1，Y为整数；

按照映射算法将所述Y个元素映射到N个桶中；其中，N≥1，N为整数；

获取所述N个桶中的、所映射的所有元素的总流量大于或者等于第一阈值的桶作为目标桶；

获取所述当前时间区间内第一对象在所映射到的r个桶中的r个流量上界；其中，所述第一对象为映射到所述目标桶中的任一对象，所述r个桶中的每个桶中包含针对所述第一对象的1个流量上界，r≥1，r为整数；

根据预设的异常对象的类型和所述当前时间区间内的r个流量上界识别所述第一对象是否为异常对象；所述预设的异常对象的类型为大流量对象或大变化对象。
根据权利要求1所述的方法，其特征在于，所述预设的异常对象的类型为大流量对象；所述根据预设的异常对象的类型和所述当前时间区间内的r个流量上界识别所述第一对象是否为异常对象，包括：

当所述当前时间区间内的r个流量上界中的r1个流量上界均大于或者等于第二阈值时，确定所述第一对象为大流量对象；其中，r≥r1≥1。
根据权利要求1或2所述的方法，其特征在于，所述预设的异常对象的类型为大变化对象；所述方法还包括：

获取所述当前时间区间的前一个时间区间内所述第一对象在所映射到的r个桶中的r个流量上界；

所述根据预设的异常对象的类型和所述当前时间区间内的r个流量上界识别所述第一对象是否为异常对象，包括：

根据所述当前时间区间内的r个流量上界和所述前一个时间区间内的r个流量上界，获取r个流量上界的变化量；

当所述r个流量上界的变化量中的r2个流量上界的变化量均大于或者等于第三阈值时，确定所述第一对象为大变化对象；其中，r≥r2≥1。
根据权利要求1至3任一项所述的方法，其特征在于，针对所述第一对象的元素分布在包括所述工作节点的d个工作节点上，d≥2，d为整数，所述d个工作节点识别得到d个异常对象集合，每个工作节点识别得到1个异常对象集合；在所述根据预设的异常对象的类型和所述当前时间区间内的r个流量上界识别所述第一对象是否为异常对象之后，所述方法还包括：

接收其他d-1个工作节点发送的d-1个异常对象集合，当所述d个异常对象集合中的d1个异常对象集合均包含所述第一对象时，确定所述第一对象为目标异常对象；其中，d≥d1≥1；

或者，向控制节点发送所述工作节点识别得到的异常对象集合，以使得所述控制节点在所述d个异常对象集合中的d2个异常对象集合均包含所述第一对象时，确定所述第一对象为目标异常对象；其中，d≥d2≥1。
根据权利要求1至4任一项所述的方法，其特征在于，所述按照映射算法将所述Y个元素映射到N个桶中，包括：

按照映射算法将所述Y个元素中的、针对所述第一对象的任一元素映射到第一桶中；其中，所述第一桶是指所述第一对象按照所述映射算法能够映射到的任一桶；

所述方法还包括：

更新所述第一桶包含的记录信息；所述记录信息包括：映射到所述第一桶中的所有元素的总流量和附属队列；其中，所述附属队列用于确定所述第一桶所映射的各对象在所述第一桶中的流量上界。
根据权利要求5所述的方法，其特征在于，所述附属队列由映射到所述第一桶中的对象的对象总流量构成，第一元素包含所述第一对象的流量值v；其中，所述第一元素为针对所述第一对象的元素；所述更新所述第一桶包含的记录信息包括：

当所述附属队列中包含所述第一对象的对象总流量时，将所述v叠加到所述第一对象的对象总流量的值上；或者，

当所述附属队列中不包含所述第一对象的对象总流量时，在所述附属队列中添加所述第一对象的对象总流量，并将所述v赋值给所述第一对象的对象总流量。
根据权利要求5所述的方法，其特征在于，所述附属队列由映射到所述第一桶中的对象的对象总流量构成，第一元素包含所述第一对象的流量值v；其中，所述第一元素为针对所述第一对象的元素；所述记录信息还包括所述附属队列的最大允许容量；所述更新所述第一桶包含的记录信息包括：

在所述附属队列的当前容量的值小于所述最大允许容量的值的情况下，当所述附属队列中不包含所述第一对象的对象总流量时，在所述附属队列中添加所述第一对象的对象总流量，并将所述v赋值给所述第一对象的对象总流量。
根据权利要求6所述的方法，其特征在于，所述记录信息还包括所述附属队列的最大允许容量，所述附属队列的当前容量的值大于或者等于所述附属队列的最大允许容量的值；在所述附属队列中添加所述第一对象的对象总流量之前，所述方法还包括：

当所述附属队列的最大允许容量的值满足预设扩张条件时，将所述最大允许容量的值对应的存储空间扩张为扩张容量的值对应的存储空间；

所述更新所述第一桶包含的记录信息，还包括：

将所述扩张容量的值赋值给所述最大允许容量。
根据权利要求5-8任一项所述的方法，其特征在于，所述附属队列中不包含所述第一对象的对象总流量，所述记录信息还包括所述附属队列的最大允许容量和所述第一桶的对象流量估计误差，所述附属队列的最大允许容量的值不满足预设扩张条件，第一元素包含所述第一对象的流量值v；其中，所述第一元素为针对所述第一对象的元素；所述第一桶的对象流量估计误差用于确定映射到所述第一桶中的对象在所述第一桶中的流量上界；在所述更新所述第一桶包含的记录信息之前，所述方法还包括：

确定所述v与所述附属队列中各对象的对象总流量的值中的最小值；

所述更新所述第一桶包含的记录信息，包括：

将所述附属队列中各对象的对象总流量的值均减去所述最小值，并将所述最小值叠加到所述第一桶的对象流量估计误差的值上。
根据权利要求9所述的方法，其特征在于，当所述附属队列中包含值为零的对象总流量时，所述更新所述第一桶包含的记录信息，还包括：

删除所述值为零的对象总流量；

在所述附属队列中添加所述第一对象的对象总流量；

将所述v赋值给所述第一对象的对象总流量。
根据权利要求9或10所述的方法，其特征在于，当所述附属队列中不包含值为零的对象总流量时，所述方法还包括：

删除所述第一元素。
根据权利要求8或9所述的方法，其特征在于，所述方法还包括：

确定所述附属队列的最大允许容量的值L是否满足预设扩张条件；具体包括：

确定当前扩张轮数k；

当(k+1)(k+2)-1＞L时，确定所述附属队列的最大允许容量的值满足预设扩张条件；

当(k+1)(k+2)-1≤L时，确定所述附属队列的最大允许容量的值不满足预设扩张条件；

所述扩张容量的值为(k+1)(k+2)-1。
根据权利要求12所述的方法，其特征在于，所述确定当前扩张轮数k，包括：

根据公式
确定所述当前扩张轮数k；其中，所述W是指将所述第一元素映射到所述第一桶中后得到的、映射到所述第一桶中的所有元素的总流量，所述T是指动态扩张参数；当所述预设的异常对象的类型为大流量对象时，T＝φ；或者，当所述预设的异常对象的类型为大变化对象时，T＝εφ；其中，所述φ是指预设的所述第一对象的对象总流量阈值；所述ε为常数，0＜ε≤1。
根据权利要求9所述的方法，其特征在于，所述第一元素为所述Y个元素中的、针对所述第一对象的元素，具体为针对所述第一对象的最后一个元素；

所述获取所述当前时间区间内第一对象在所映射到的r个桶中的r个流量上界，包括：

获取所述第一对象在所述第一桶中的流量上界；具体包括：

当所述第一对象的对象总流量在所述附属队列中时，将所述第一对象的对象总流量的值作为所述第一对象在所述第一桶中的流量下界，当所述第一对象的对象总流量不在所述附属队列中时，将零值作为所述第一对象在所述第一桶中的流量下界；

将所述第一对象在所述第一桶中的流量下界与所述第一桶的对象流量估计误差的和，作为所述第一对象在所述第一桶中的流量上界。
一种工作节点，其特征在于，包括：

接收单元，用于在当前时间区间内，接收数据收集节点发送的Y个元素；其中，Y≥1，Y为整数；

映射单元，用于按照映射算法将所述Y个元素映射到N个桶中；其中，N≥1，N为整数；

第一获取单元，用于获取所述N个桶中的、所映射的所有元素的总流量大于或者等于第一阈值的桶作为目标桶；

第二获取单元，用于获取所述当前时间区间内第一对象在所映射到的r个桶中的r个流量上界；其中，所述第一对象为映射到所述目标桶中的任一对象，所述r个桶中的每个桶中包含针对所述第一对象的1个流量上界，r≥1，r为整数；

识别单元，用于根据预设的异常对象的类型和所述当前时间区间内的r个流量上界识别所述第一对象是否为异常对象；所述预设的异常对象的类型为大流量对象或大变化对象。
根据权利要求15所述的工作节点，其特征在于，所述预设的异常对象的类型为大流量对象；

所述识别单元具体用于，当所述当前时间区间内的r个流量上界中的r1个流量上界均大于或者等于第二阈值时，确定所述第一对象为大流量对象；其中，r≥r1≥1。
根据权利要求15或16所述的工作节点，其特征在于，所述预设的异常对象的类型为大变化对象；所述工作节点还包括：

第三获取单元，用于获取所述当前时间区间的前一个时间区间内所述第一对象在所映射到的r个桶中的r个流量上界；

所述识别单元具体用于：根据所述当前时间区间内的r个流量上界和所述前一个时间区间内的r个流量上界，获取r个流量上界的变化量；当所述r个流量上界的变化量中的r2个流量上界的变化量均大于或者等于第三阈值时，确定所述第一对象为大变化对象；其中，r≥r2≥1。
根据权利要求15至17任一项所述的工作节点，其特征在于，针对所述第一对象的元素分布在包括所述工作节点的d个工作节点上，d≥2，d为整数，所述d个工作节点识别得到d个异常对象集合，每个工作节点识别得到1个异常对象集合；

所述接收单元还用于，接收其他d-1个工作节点发送的d-1个异常对象集合，当所述d个异常对象集合中的d1个异常对象集合均包含所述第一对象时，确定所述第一对象为目标异常对象；其中，d≥d1≥1；

或者，所述工作节点还包括：发送单元，用于向控制节点发送所述工作节点识别得到的异常对象集合，以使得所述控制节点在所述d个异常对象集合中的d2个异常对象集合均包含所述第一对象时，确定所述第一对象为目标异常对象；其中，d≥d2≥1。
根据权利要求15至18任一项所述的工作节点，其特征在于，

所述映射单元具体用于，按照映射算法将所述Y个元素中的、针对所述第一对象的任一元素映射到第一桶中；其中，所述第一桶是指所述第一对象按照所述映射算法能够映射到的任一桶；

所述工作节点还包括：更新单元，用于更新所述第一桶包含的记录信息；所述记录信息包括：映射到所述第一桶中的所有元素的总流量和附属队列；其中，所述附属队列用于确定所述第一桶所映射的各对象在所述第一桶中的流量上界。
根据权利要求19所述的工作节点，其特征在于，所述附属队列由映射到所述第一桶中的对象的对象总流量构成，第一元素包含所述第一对象的流量值v；其中，所述第一元素为针对所述第一对象的元素；

所述更新单元具体用于：当所述附属队列中包含所述第一对象的对象总流量时，将所述v叠加到所述第一对象的对象总流量的值上；或者，当所述附属队列中不包含所述第一对象的对象总流量时，在所述附属队列中添加所述第一对象的对象总流量，并将所述v赋值给所述第一对象的对象总流量。
根据权利要求19所述的工作节点，其特征在于，所述附属队列由映射到所述第一桶中的对象的对象总流量构成，第一元素包含所述第一对象的流量值v；其中，所述第一元素为针对所述第一对象的元素；所述记录信息还包括所述附属队列的最大允许容量；

所述更新单元具体用于：在所述附属队列的当前容量的值小于所述最大允许容量的值的情况下，当所述附属队列中不包含所述第一对象的对象总流量时，在所述附属队列中添加所述第一对象的对象总流量，并将所述v赋值给所述第一对象的对象总流量。
根据权利要求20所述的工作节点，其特征在于，所述记录信息还包括所述附属队列的最大允许容量，所述附属队列的当前容量的值大于或者等于所述附属队列的最大允许容量的值；所述工作节点还包括：

扩张单元，用于当所述附属队列的最大允许容量的值满足预设扩张条件时，将所述最大允许容量的值对应的存储空间扩张为扩张容量的值对应的存储空间；

所述更新单元具体用于，将所述扩张容量的值赋值给所述最大允许容量。
根据权利要求19-22任一项所述的工作节点，其特征在于，所述附属队列中不包含所述第一对象的对象总流量，所述记录信息还包括所述附属队列的最大允许容量和所述第一桶的对象流量估计误差，所述附属队列的最大允许容量的值不满足预设扩张条件，第一元素包含所述第一对象的流量值v；其中，所述第一元素为针对所述第一对象的元素；所述第一桶的对象流量估计误差用于确定映射到所述第一桶中的对象在所述第一桶中的流量上界；所述工作节点还包括：

第一确定单元，用于确定所述v与所述附属队列中各对象的对象总流量的值中的最小值；

所述更新单元具体用于，将所述附属队列中各对象的对象总流量的值均减去所述最小值，并将所述最小值叠加到所述第一桶的对象流量估计误差的值上。
根据权利要求23所述的工作节点，其特征在于，当所述附属队列中包含值为零的对象总流量时，所述更新单元还用于：

删除所述值为零的对象总流量；

在所述附属队列中添加所述第一对象的对象总流量；

将所述v赋值给所述第一对象的对象总流量。
根据权利要求23或24所述的工作节点，其特征在于，所述工作节点还包括：

删除单元，用于当所述附属队列中不包含值为零的对象总流量时，删除所述第一元素。
根据权利要求22或23所述的工作节点，其特征在于，所述工作节点还包括：

第二确定单元，用于确定所述附属队列的最大允许容量的值L是否满足预设扩张条件；具体用于：

确定当前扩张轮数k；

当(k+1)(k+2)-1＞L时，确定所述附属队列的最大允许容量的值满足预设扩张条件；

当(k+1)(k+2)-1≤L时，确定所述附属队列的最大允许容量的值不满足预设扩张条件；

所述扩张容量的值为(k+1)(k+2)-1。
根据权利要求26所述的工作节点，其特征在于，所述第二确定单元具体用于：根据公式
确定所述当前扩张轮数k；其中，所述W是指将所述第一元素映射到所述第一桶中后得到的、映射到所述第一桶中的所有元素的总流量，所述T是指动态扩张参数；当所述预设的异常对象的类型为大流量对象时，T＝φ；或者，当所述预设的异常对象的类型为大变化对象时，T＝εφ；其中，所述φ是指预设的所述第一对象的对象总流量阈值；所述ε为常数，0＜ε≤1。
根据权利要求23所述的工作节点，其特征在于，所述第一元素为所述Y个元素中的、针对所述第一对象的元素，具体为针对所述第一对象的最后一个元素；

所述第二获取单元具体用于：获取所述第一对象在所述第一桶中的流量上界；具体用于：

当所述第一对象的对象总流量在所述附属队列中时，将所述第一对象的对象总流量的值作为所述第一对象在所述第一桶中的流量下界，当所述第一对象的对象总流量不在所述附属队列中时，将零值作为所述第一对象在所述第一桶中的流量下界；

将所述第一对象在所述第一桶中的流量下界与所述第一桶的对象流量估计误差的和，作为所述第一对象在所述第一桶中的流量上界。
一种识别异常IP数据流的系统，其特征在于，包括：数据收集节点和上述权利要求15-28任一项所述的工作节点，其中所述数据收集节点用于发送所述Y个元素。