WO2017050038A1

WO2017050038A1 - 报文识别方法、装置和计算机存储介质

Info

Publication number: WO2017050038A1
Application number: PCT/CN2016/094459
Authority: WO
Inventors: 李乐村
Original assignee: 深圳市中兴微电子技术有限公司
Priority date: 2015-09-21
Filing date: 2016-08-10
Publication date: 2017-03-30
Also published as: CN106549817A

Abstract

本发明实施例公开了一种报文识别方法及装置，所述方法包括：接收数据报文；提取数据报文中待识别的字段；采用至少2级流水线分析所述待识别的字段。本发明实施例还公开了一种计算机存储介质。

Description

报文识别方法、装置和计算机存储介质

技术领域

本发明涉及通信领域，尤其涉及一种报文识别方法、装置和计算机存储介质。

背景技术

随着家庭对数据带宽业务需求增大，比如网络电视IPTV、在线直播、高清视频、无线智能设备接入等，上下行带宽各10G的终端接入设备逐步研发，在这种大流量、高带宽的背景下，如何高速识别数据报文将显得尤为重要。以太网是当前应用最普遍的局域网技术，以太网数据报文帧格式网络中最常见的是EthernetⅡ、Ethernet 802.3 SAP、Ethernet 802.3 SNAP，以上三种格式封装的具体协议报文类型众多，要想识别具体的数据报文类型，就要考虑包长，分析包内容提取关键字段，如何高速准确地识别数据包内容，成为提高网络传输速率，细分带宽业务，满足不同用户宽带需求的重要技术。目前主要识别数据报文方法是串行识别报文，只有当上一个报文完全分析完后才启动下一个报文的识别，识别效率低，不能满足高速宽带业务。

当然在某些情况下，发现在进行报文识别时，有些报文是无法被识别。

发明内容

有鉴于此，本发明实施例期望提供的报文识别方法、装置和计算机存储介质，能够至少部分解决报文识别效率低的问题或部分解决某些报文无法被识别的问题。

本发明实施例的技术方案是这样实现的：

本发明实施例第一方面提供一种报文识别方法，所述方法包括：

接收数据报文；

提取数据报文中待识别的字段；

采用至少2级流水线分析所述待识别的字段。

基于上述方案，所述采用至少2级流水线识别所述待识别的字段，包括：

采用第1级流水线分析所述报文的目的地址DA、源地址SA及虚拟局域网VLAN层数；

采用第2级流水线分析所述报文的封装格式以太网类型；

采用第3级流水线分析所述报文是否有携带通过以太网传输点对点协议PPPoE封装格式头及网络协议IP头；

采用第4级流水线分析所述报文的遵循的协议类型；

采用第5级流水线根据所述第1级流水线至第4级流水线的分析结果，输出数据报文编码。

基于上述方案，所述采用至少2级流水线分析所述待识别的字段，包括：

第n级流水线识别后，输出已识别字节数的位置偏移量和所述待识别的字段；

第n+1级流水线接收所述位置偏移量和所述待识别的字段，从所述第n级流水线输出的已识别字节数的位置偏移量对应的偏移位置开始识别所述待识别的字段；

所述n为不小于1的整数；所述第n级流水线是所述第n+1级流水线的前一级流水线。

基于上述方案，所述方法还包括：

在接收所述数据报文之后，将所述数据报文存储先入先出队列；

所述提取数据报文中待识别的字段，包括：

从所述先入先出队列中取出待识别的报文，并提取所述待识别报文的待识别字段。

基于上述方案，所述提取数据报文中待识别的字段，包括：

判断所述数据报文的报文长度；

当所述数据报文长度大于指定长度时，提取所述数据报文前N个字节作为所述待识别的字段；所述N等于所述指定长度对应的字节数。

基于上述方案，所述提取数据报文中待识别的字段，还包括：

当所述数据报文的长度不大于所述指定长度时，将所述数据报文整个视为所述待识别的字段。

基于上述方案，所述方法还包括：

获取自定义识别规则；

根据所述自定义识别规则识别所述数据报文，形成识别结果；

根据所述识别结果，判断所述数据报文是否为满足所述自定义规则的自定义报文。

基于上述方案，所述获取自定义识别规则，包括：

从所述自定义识别规则获取掩码、匹配方式提取数据的起始位置；

所述根据所述自定义识别规则识别所述报文，形成识别结果，包括：

从所述提取数据的起始位置开始，进行M1次数据提取且每次提取M2个字节；所述M1和所述M2均为不小于1的整数；

将提取的字节与所述掩码进行运算，获得待匹配的数据；

将所述待匹配的数据按照所述匹配方式与匹配数据表进行匹配，形成识别结果；

所述根据所述识别结果，判断所述数据报文是否为满足所述自定义规则的自定义报文，包括：

当所述识别结果表明所述待匹配的数据与所述匹配数据表中的数据相匹配时，确定所述数据报文为满足所述自定义规则的自定义报文。

基于上述方案，所述获取自定义识别规则，还包括，

从所述自定义识别规则中获取规则有效使能位；

所述根据所述自定义识别规则识别所述报文，形成识别结果，还包括：

根据所述规则有效使能位的信息，确定所述自定义识别规则是否有效；

所述从所述提取数据的起始位置开始，进行M1次数据提取且每次提取M2个字节，包括：

当判断出所述自定义识别规则有效时，从所述提取数据的起始位置开始，进行M1次数据提取且每次提取M2个字节。

本发明实施例第二方面提供另一种报文识别方法，所述方法还包括：

获取自定义识别规则；

根据所述自定义识别规则识别数据报文，形成识别结果；

基于上述方案，所述获取自定义识别规则，包括：

将提取的字节与所述掩码进行运算，获得待匹配的数据；

基于上述方案，所述获取自定义识别规则，还包括，

从所述自定义识别规则中获取规则有效使能位；

根据所述规则有效使能位的内容，确定所述自定义识别规则是否有效；

本发明实施例第三方面提供一种报文识别装置，所述装置包括：

接收单元，配置为接收数据报文；

提取单元，配置为提取数据报文中待识别的字段；

第一识别单元，配置为采用至少2级流水线分析所述待识别的字段。

基于上述方案，所述第一识别单元，配置为采用第1级流水线分析所述报文的目的地址DA、源地址SA及虚拟局域网VLAN层数；采用第2级流水线分析所述报文的封装格式以太网类型；采用第3级流水线分析所述报文是否有携带通过以太网传输点对点协议PPPoE封装格式头及网络协议IP头；采用第4级流水线分析所述报文的遵循的协议类型；采用第5级流水线根据所述第1级流水线至第4级流水线的分析结果，输出数据报文编码。

基于上述方案，所述第一识别单元，配置为第n级流水线识别后，输出已识别字节数的位置偏移量和所述待识别的字段；及第n+1级流水线接收所述位置偏移量和所述待识别的字段，从所述第n级流水线输出的已识别字节数的位置偏移量对应的偏移位置开始识别所述待识别的字段；

基于上述方案，所述装置还包括：

存储单元，配置为在接收所述数据报文之后，将所述数据报文存储先入先出队列；

所述提取单元，配置为从所述先入先出队列中取出待识别的报文，并提取所述待识别报文的待识别字段。

基于上述方案，所述提取单元，配置为判断所述数据报文的报文长度；当所述数据报文长度大于指定长度时，提取所述数据报文前N个字节作为所述待识别的字段；所述N等于所述指定长度对应的字节数。

基于上述方案，所述提取单元，还配置为当所述数据报文的长度不大于所述指定长度时，将所述数据报文整个视为所述待识别的字段。

基于上述方案，所述装置还包括：

获取单元，配置为获取自定义识别规则；

第二识别单元，配置为根据所述自定义识别规则识别所述数据报文，形成识别结果；

判断单元，配置为根据所述识别结果，判断所述数据报文是否为满足所述自定义规则的自定义报文。

基于上述方案，所述获取单元，配置为从所述自定义识别规则获取掩码、匹配方式提取数据的起始位置；

所述第二识别单元，配置为从所述提取数据的起始位置开始，进行M1次数据提取且每次提取M2个字节；所述M1和所述M2均为不小于1的整数；将提取的字节与所述掩码进行运算，获得待匹配的数据；将所述待匹配的数据按照所述匹配方式与匹配数据表进行匹配，形成识别结果；

所述判断单元，配置为当所述识别结果表明所述待匹配的数据与所述匹配数据表中的数据相匹配时，确定所述数据报文为满足所述自定义规则的自定义报文。

基于上述方案，所述获取单元，还配置为从所述自定义识别规则中获取规则有效使能位；

所述第二识别单元，还配置为根据所述规则有效使能位的信息，确定所述自定义识别规则是否有效；当判断出所述自定义识别规则有效时，从所述提取数据的起始位置开始，进行M1次数据提取且每次提取M2个字节。

本发明实施例第四方面提供一种报文识别装置，所述装置还包括：

获取单元，配置为获取自定义识别规则；

第二识别单元，配置为根据所述自定义识别规则识别数据报文，形成识别结果；

基于上述方案，所述获取单元，具体用于从所述自定义识别规则获取掩码、匹配方式提取数据的起始位置；

所述第二识别单元，配置为从所述提取数据的起始位置开始，进行M1次数据提取且每次提取M2个字节；所述M1和所述M2均为不小于1的整数；将提取的字节与所述掩码进行运算，获得待匹配的数据；将所述待匹配的数据按照所述匹配方式与匹配数据表进行匹配，形成所述识别结果；

所述第二识别单元，还配置为根据所述规则有效使能位的内容，确定所述自定义识别规则是否有效；当判断出所述自定义识别规则有效时，从所述提取数据的起始位置开始，进行M1次数据提取且每次提取M2个字节。

本发明实施例第五方面提供一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行前述任意一个所述报文识别方法。

本发明实施例提供的第一种报文识别方法、装置和计算机存储介质，采用至少2级流水线对数据报文进行识别，显然该条流水线中同时至少可对两个数据报文进行识别，这样当识别装置需要对多个数据报文进行识别时，能够显著的提高报文识别的整体效率，提高报文识别的响应速度，满足高速带宽的业务。本发明实施例提供的第二种报文识别方法及装置，利用自定义规则进行报文识别，能够识别出自定义报文，解决了现有的识别方法及装置中无法对自定义本报文进行识别的现象，尤其是无法识别不规则的自定义报文的识别困难的问题。

附图说明

图1为本发明实施例提供的第一种报文识别方法的流程示意图；

图2为本发明实施例提供的一种数据报文的结构示意图；

图3为本发明实施例提供的一种5级流水线的流水线结构示意图；

图4为本发明实施例提供的第二种报文识别方法的流程示意图；

图5为本发明实施例提供的第三种报文识别方法的流程示意图；

图6为本发明实施例提供的根据自定义识别规则形成识别结果的示意图；

图7为本发明实施例提供的第四种报文识别方法的流程示意图；

图8为本发明实施例提供的第五种报文识别方法的流程示意图；

图9为本发明实施例提供的第一种报文识别装置的结构示意图；

图10为本发明实施例提供的第二种报文识别装置的结构示意图；

图11为本发明实施例提供的第三种报文识别装置的结构示意图。

具体实施方式

以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述，应当理解，以下所说明的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

方法实施例一：

如图1所示，本实施例提供一种报文识别方法，所述方法包括：

步骤S110：接收数据报文；

步骤S120：提取数据报文中待识别的字段；

步骤S130：采用至少2级流水线分析所述待识别的字段。

本实施例所述的报文识别方法通常应用于数据报文接收端中。步骤S120中提取数据报文中的待识别的字段，通常这些待识别的字段至少包括数据报文的报头中部分字节。

在步骤S130中采用至少2级柳树线来识别待识别的字段，这样的话，一条流水线中可至少同时存在两个被识别的报文，显然相对于现有技术中采用一个处理模块识别报文，一次性仅能识别一个数据报文，大大的提升了报文识别的速率，减少了识别装置对多个报文识别的整体延时。

所述至少2级流水线可为2级流水线、3级流水线、4级流水线或5级流水线、6级流水线、甚至6级以上的流水线。所述流水线的级数可根据识别需求进行分割。以下提供一种5级流水线的识别方法：

所述步骤S130可包括：

采用第2级流水线分析所述报文的封装格式及以太网类型；

采用第4级流水线分析所述报文的遵循的协议类型；

所述第1级流水线用于分析所述待识别的字段中的第一个字节至所述VLAN层数对应的字节。所述VLAN层数对应的字节可为表示所述VLAN标签TAG标签。

所述第2级流水线分析所述VLAN层数对应的字节之后的第一个字节开始识别，一直识别至所述待识别的字节中的以太网类型字段。所述以太网络类型字段可表征所述数据报文来自什么样类型的以太网。当然所述第2级流水线所识别的字段还可包所述待识别的字段中的封装类型字段。所述封装类型可为Ethernet 802.3 SAP、Ethernet 802.2 LLC、Ethernet 802.3 SNAP或EthernetⅡ。所述Ethernet 802.3 SAP、所述Ethernet 802.2 LLC、所述Ethernet 802.3 SNAP及所述EthernetⅡ都是以太网标准帧格式的一种，这三种以太网标准帧的格式的特点可参见现有技术，在此就赘述了。

所述第3级流水线分析的字段可包括所述待识别的字段中的PPPoE格式头和IP头。若所述待识别的字段中包括所述PPPoE格式头，则表明所述数据报文中携带有所述PPPoE格式头。分析所述IP头包括分析IP类型、IP类型组合格式以及是否有IP扩展头等。具体如，所述IP类型可包括IPv4或IPv6。所述IP类型组合可包括IPv4加上IPv6的组合，也可以是IPv6加上IPv4的组合。所述IP扩展头可包括IPv6携带的扩展头等。

第4级流水线分析的所述数据报文遵循的具体的协议类型，例如所述数据报文是遵循传输控制协议(Transmission Control Protocol，TCP)协议的TCP报文，还是遵循用户数据报协议(User Datagram Protocol，UDP)协议的UDP报文。通常所述第4级流水线报文识别的字段还可包括为所述待识别字段中的目的端口DPORT字段和/或源端口SPORT字段。

第5级流水线分析所述待识别字段中尚未被分析的剩余字段，可根据第1至4级流水线的识别结果，输出数据报文编码。这里的数据报文编码为每一级流水线的识别结果组合形成字段串或编码串。最后将所述数据报文编码与预先配置的识别编码进行匹配后，将确定出所述报文是哪一种数据报文，实现了所述数据报文的识别。在具体的实现过程中，所述第5级流水线还可用于匹配出所述数据报文配置的动作。这里所配置的动作可包括转发或接收存储等操作，至此完成所述数据报文的识别后，执行所述数据报文配置的动作。

上述操作为标准的5级流水线的识别方式，若当前所述流水线是3级流水线时，可以将5级流水线中相邻的2级或3级流水线进行合并处理，从而实现3级流水线识别。本实施例所述的5级流水线的识别处理，每一级流水线识别的时间相当，很少会出现哪一级流水线识别速率过慢导致识别瓶颈的现象，具有实现简便及识别效率高的特点。

图2可为数据报文的一种组成结构，这些内容按照如图2所示的顺序进行排序可构成数据报文的报头。与SA相邻的标签TAG可为VLAN标签。在图2中，LLC表示Ethernet 802.2 LLC、SNAP表示Ethernet 802.3 SNAP，与LLC、SNAP相邻的TYPE表示的以太网类型字段。图2中IPv6、IPv4表示的是IPv6加上IPv4的组合。图2中IPv4、IPv6表示的IPv4加上IPv6的组合。图2中数据可表示的所述数据包的正文或业务内容。

图3表示的为一条5级流水线，分别分析处理的字段。分别并行向各级流水线输入数据报文的前256个字节，或通过流水线逐级向各级流水线输入所述数据报文的前256个字节。通常这前256个字节包括数据报文的报头。

第1级流水线对这256个字节中的标签TAG1，例如VLAN标签，进行分析，分析完后将分析结果输入第2级流水线。第2级流水线从第1级流水线分析截止的字节开始分析，将对标签TAG2和以太网类型字段进行分析，TAG2可包括帧格式标签。第3级流水线从第2级流水线接收分析解雇，并从第2级流水线分析截止的字节开始分析，将对IP头进行分析。第4级流水线接收第3级流水线的分析结果并分析数据报文采用的通信协议，该数据报文是TCP报文还是UDP报文。第5级流水线将从第4级接收到前4级流水线的分析结果，分析结束，输出数据报文编码。这里的数据报文编码为分析结果构成的编码。

在本实施例中，所述流水线识别可是对所述待识别的字节的顺序识别，具体如，所述步骤S130可包括：第n级流水线识别后，输出已识别字节数的位置偏移量和所述待识别的字段；第n+1级流水线接收所述位置偏移量和所述待识别的字段，从所述第n级流水线输出的已识别字节数的位置偏移量对应的偏移位置开始识别所述待识别的字段；所述n为不小于1的整数；所述第n级流水线是所述第n+1级流水线的前一级流水线。例如，所述第n级流水线为第2级流水线，则所述第n+1级流水线将是所述第3级流水线。

在具体实现时，上一级流水线的识别结果还会传输给下一级流水线或最后一级流水线，方便下一级流水线顺序传输给最后一级流水线，方便最后一级流水线形成所述数据报文编码，以最终确定数据报文的类型等。

在本实施例中，

如图4所示，所述方法还包括：

步骤S111:在接收所述数据报文之后，将所述数据报文存储先入先出队列；

所述步骤S120可包括：从所述先入先出队列中取出待识别的报文，并提取所述待识别报文的待识别字段。

所述先入先出队列又可称为FIFO队列，所述FIFO为First Input First Output的缩写。所述先入先出的队列具有以下特点，先进入队列的数据报文，先被取出来。这样的话，所述步骤S120中在提取数据报文的先后顺序与数据报文进入所述FIFO队列的顺序一致，这样的话，就可以避免某一个数据报文长时间没有被识别的现象。

所述步骤S120可包括：

判断所述数据报文的报文长度；

例如，所述指定长度可为事先配置在识别装置中的，也可以是基于通信协议而确定的。所述指定长度可为256个字节。通常数据报文的长队一般在64个字节到1518个字节之间，数据报文的报头通常不超过256个字节。在本实施例中可以将所述N设置为256。这样的话，当所述数据报文的报文长度超过256个字节时，将提取所述数据报文的前256个字节。这样话，相当于提取了所述数据报文的报头，在数据报文的报头中通常承载了各种需要进行报文识别的字段，这样就能够方便识别装置，快速的完成数据报文识别。

此外，所述步骤S120还包括：当所述数据报文的长度不大于所述指定长度时，将所述数据报文整个视为所述待识别的字段。

例如，当所述N等于256时，若一个数据报文的报文长度小于所256个字节，这个时候，可以将整个数据报文视为所述待识别的字段，这样必然包括所述数据报文的报头。

当然提取所述待识别的字节，还可包括：确定数据报文的报文长度，依据该报文长度通过查询报文长度与报头长度的映射关系，确定该数据报文的报头长度；基于该报头长度提取该数据报文的报头。

上述两种提取所述待识别的字节的方法，均能够简便的提取出识别所述数据报文所需的待识别的字段。

方法实施例二：

如图5所示，本实施例所述方法还包括：

步骤S140：获取自定义识别规则；

步骤S150：根据所述自定义识别规则识别所述数据报文，形成识别结果；

步骤S160：根据所述识别结果，判断所述数据报文是否为满足所述自定义规则的自定义报文。

此处，增加的技术方案，主要用于识别自定义报文。

首先，在步骤S140中将提取所述自定义识别规则。接下来在步骤S150中根据识别规则识别所述报文。所述步骤S150具体可包括提取所述数据报文中在所述自定义识别规则中指定提取的字段，并将提取的字段与预设的字段进行匹配，形成识别结果。在步骤S160中若识别结果表明提取的字段与预设的字段都匹配，则可确认该数据报文为满足自定义规则的自定义报文，否则不是所述自定义报文。

所述步骤S140可包括：从所述自定义识别规则获取掩码、匹配方式提取数据的起始位置。

如图6所示，

所述步骤S150可包括：

步骤S151：从所述提取数据的起始位置开始，进行M1次数据提取且每次提取M2个字节；所述M1和所述M2均为不小于1的整数；

步骤S152：将提取的字节与所述掩码进行运算，获得待匹配的数据；

步骤S153：将所述待匹配的数据按照所述匹配方式与匹配数据表进行匹配，形成所述识别结果；

所述步骤S160可包括：当所述识别结果表明所述待匹配的数据与所述匹配数据表中的数据相匹配时，确定所述数据报文为满足所述自定义规则的自定义报文。

在本实施例中将从所述提取数据的开始位置开始进行M1次的数据提取，每一次提取M2个字节，所述M1和所述M2都可为定义在所述自定义识别规则中的数值。例如，所述M1等于10，所述M2等于2，这样的话，所述步骤S151中将提取20个字节。在步骤S152中将这20个字节按所述自定义识别规则排序形成待匹配的字段串，例如按这20个字节在所述数据报文中的先后顺序依次排序，形成所述待匹配的字段串。当然这20个字节中并非每一个字节或每一个字节中的每一位数都需要和匹配数据表中的数据进行匹配，为了提高匹配效率，在本实施例中引入了掩码，将所述待匹配的字节与掩码进行运算，例如，进行的运算可包括与运算，例如所述掩码将对应于所述待匹配的数据的数据位设置为1，将不对应于所述待匹配的数据的数据位设置为0，通过将所述掩码与待匹配字节的与运算，显然就可以将无需进行匹配的数据位置为0，方便后续进行快速匹配。

可选地，所述步骤S140可还包括，

从所述自定义识别规则中获取规则有效使能位；

所述步骤S150还包括：

所述步骤S151具体可包括：

在本实施例中还包括提取所述自定义识别规则的有效使能位，通常若所述有效使能位的内容表示该自定义规则有效时，表示识别装置需要判断该数据报文是否为自定义报文，若所述有效使能位的内容表示该自定义规则无效时，表示识别装置无需判断该数据是否为自定义报文，故无需进行本次识别，故无需执行所述步骤S151，且即可停止本次识别。

这样的话，方便后续识别装置通过设置所述有效使能位，来确定是否识别报文是否为自定义报文。在本实施例中提供了一种方法，能够简便的识别出自定义报文，本实施例中所述自定义报文可为非标准报文，满足用户对自定义报文的识别需求，提高了识别的智能性及用户使用满意度。

以下提供基于本实施例所述的方法，提供一个示例：

如7所示，本示例中利用8组寄存区搭建并行索引，形成8个自定义识别规则，通过该并行索引可以查询到所述自定义识别规则。利用规则表来存储所述自定义识别规则，在本示例中每一个所述自定义识别规则的规则表占用261个存储位置，共8个自定义识别规则，故规则表占用的存储空间的容量为8*261。

第一步，当数据报文存储完后，提供数据报文的报头的前256个字节。

第二步，从偏移量起始位置开始进行数据提取，每次提取2个字节，共提取10次，共提取20个字节。

第三步，当规则使能位表示自定义识别规则有效时，将提取的20个字节与掩码进行运算。从数据表中读出配置的数据。将运算后的数据与配置的数据按照匹配方式进行匹配。在本示例中数据表占用的存储空间的容量为8*160个存储位置。每一个自定义识别规则的数据表占用160个存储位置。

第四步，当10组运算后的数据与配置的数据全部匹配时，表示数据报文识别成功，输出对应匹配方式的自定义报文编码。这里的匹配方式包括等于，大于和小于。例如，当匹配的字段为地址时，可以采用等于的方式，确定目的地址是否为配置表中的目的地址。当匹配的字段为端口时，可以采用大于或小于的匹配方式，例如端口号80、1000等，这样的话，将端口号数值话，与数据表中的端口号比较端口号的大小。

第五步，当可以与多条自定义规则中的配置的数据进行匹配时，优选选择排序靠前的自定义规则进行匹配。这里排序靠前为存储在识别装置中存储位置靠前的，也可以识别优先级靠前的自定义规则。

在具体实现过程中，可以将方法实施一和方法实施例二提供的报文识别方法配合使用。所述方法实施例二中任意一个技术方案都可以与方法实施一中的任意一个技术方案，结合使用。在结合使用进行报文识别时，本实施例所述步骤S140至步骤160相对于步骤S110至步骤S130之间没有一定的先后顺序。所述步骤S140和步骤S110可以同步开始，所述步骤S140也可以完成所述步骤S130之后开始，所述步骤S110也可以位于所述步骤S140之后执行。

以下结合方法实施一至方法实施例二中所述的方法，提供一个具体示例。

如图8所示，本实施例提供一种报文识别方法，包括：

步骤A：接收数据报文，从数据报文中提取报头进行分析，例如提取256个字节，进入步骤B。

步骤B：存储报头，启动第1级流水线分析，分析出报文的DA、SA、VLAN层数关键字段，输出已识别完报头字节数的位置偏移量，把数据报头传递给下一级流水，此级流水分析结束，进入步骤C。

步骤C：启动第2级流水线分析，此级流水线水从第1级流水线输入的偏移位置开始进行报文识别，分析出报文的数据封装协议格式、以太网类型字段，输出已识别完报头字节数的位置偏移量，把数据报头传递给下一级流水线。此级流水线分析结束，进入步骤D。如图2所示，待分析报文进入步骤C时，已经可以接收下一个数据报文并启动新的第1级流水线分析，再进入步骤B。如此可以每一步接收新的数据报文启动新一级流水线分析，实现高速流水识别数据报文。

步骤D：启动第3级流水线分析，此级流水线从第2级流水线输入的偏移位置开始进行报文识别，分析出报文PPPoE格式头、IP头类型，输出已识别完报头字节数的位置偏移量，把数据报头传递给下一级流水线。此级流水线分析结束，进入步骤E。

步骤E：启动第4级流水线分析，此级流水线从第3级流水输入的偏移位置开始进行报文识别，分析出报文的DPORT字段、SPORT字段、TCP头或UDP头，把数据报头传递给下一级流水线。此级流水线分析结束，至此数据报文具体协议类型已经识别出。接下来将判断输入的手报文是否同时匹配通信协议标准格式报文和自定义格式的自定义报文；若是，则进入步骤，

步骤F：启动第5级流水分析，获取上级流水线给出的具体协议报文类型，输出数据报文编码，进入步骤J。在执行步骤F之后还将进入判断自定义识别模式是否开启的步骤。若判断结果为是，则还需进入步骤G，若判断结果为否，则自定义识别流程结束。

步骤G：逐个获取8个自定义规则配置表，根据用户配置的提取数据位置偏移，从256字节的报头中对应获取20字节数据，进入步骤H。

步骤H：逐个获取8个匹配数据表，每个规则配置表和匹配数据表一一对应，提取规则配置表中的掩码值报头中提取的20字节数据进行相应运算，根据规则配置表中的匹配方式与匹配数据表的数据进行比较，进入步骤I。

步骤I：当20字节数据全部匹配成功时，表示此条自定义识别规则匹配成功，输出该数据报文为自定义的报文编码。如果8条自定义规则中有多条命中，优先选择前者；任意一条自定义规则匹配成功进入步骤K，否则结束自定义报文识别流程。

步骤K：判断输入的数据报文是否需要同时匹配通信协议的标准格式和自定义格式的报文。若是进入步骤J，若否进入步骤L。

步骤J：如果步骤I自定义规则匹配成功，即同时满足了步骤F的数据报文编码和步骤I的数据报文编码，根据预先配置输出步骤F和/或步骤I的数据报文编码。

步骤L：选择输出一种数据报文编码。

设备实施例：

如图9所示，本实施例提供一种报文识别装置，所述装置包括：

接收单元110，配置为接收数据报文；

提取单元120，配置为提取数据报文中待识别的字段；

第一识别单元130，用于采用至少2级流水线分析所述待识别的字段。

本实施例所述的报文识别装置可为应用于能够接收或转发数据报文网络节点中。

所述接收单元110可包括各种类型的接收接口，例如光缆接口或电缆接口等。

所述提取单元120和所述第一识别单元130的物理结构都可对应于处理器或处理电路。所述处理器可包括应用处理器、中央处理器、微处理器或数字信号处理器等结构。所述处理电路可包括专用集成电路。所述提取单元120和所述第一识别单元130可集成对应于相同的处理器或处理电路，也可以分别对应于不同的处理器或处理电路。所述中央处理器或微处理器等结构可以通过执行可执行代码实现上述提取单元和第一识别单元130的功能。

本实施例所述的报文识别装置，将采用多级流水线来识别所述数据报文，一条流水线的各级流水线可以同时对不同的数据报文进行识别，从而整体上提高了报文识别的效率及响应速度。

识别所述数据报文的流水线可包括至少2级，例如3级流水线识别、4级流水线识别、5级流水线识别或6级流水线识别，甚至6级以上的流水线识别。以下详细接收一种采用5级流水线识别的第一识别单元130的具体结构。所述第一识别单元130，具体用于采用第1级流水线分析所述报文的目的地址DA、源地址SA及虚拟局域网VLAN层数；采用第2级流水线分析所述报文的封装格式以太网类型；采用第3级流水线分析所述报文是否有携带通过以太网传输点对点协议PPPoE封装格式头及网络协议IP头；采用第4级流水线分析所述报文的遵循的协议类型；采用第5级流水线根据所述第1级流水线至第4级流水线的分析结果，输出数据报文编码。

当然，在采用多级流水线识别所述数据报文时，所述第一识别单元130，具体用于第n级流水线识别后，输出已识别字节数的位置偏移量和所述待识别的字段；及第n+1级流水线接收所述位置偏移量和所述待识别的字段，从所述第n级流水线输出的已识别字节数的位置偏移量对应的偏移位置开始识别所述待识别的字段；其中，所述n为不小于1的整数；所述第n级流水线是所述第n+1级流水线的前一级流水线。显然相邻2级流水线之间的数据传输有一定的先后承接关系；各级流水线顺序识别所述待识别的字段，下一级流水线接收上一级流水线的识别结果等。

所述装置还包括：

所述提取单元120，配置为从所述先入先出队列中取出待识别的报文，并提取所述待识别报文的待识别字段。

在本实施例所述存储单元可包括各种类型的存储介质，能够用于存储所述数据报文，但是在本实施例中所述存储介质将采用FIFO队列来存储所述数据报文，以保证所述数据报文的顺序识别，避免个别数据报文一直被堆压未被识别导致的用户使用满意度低的现象。

所述提取单元120可为从数据报文指定位置读取对应数据的信息读取结构，在本实施例中所述提取单元120，具体用于判断所述数据报文的报文长度；当所述数据报文长度大于指定长度时，提取所述数据报文前N个字节作为所述待识别的字段；所述N等于所述指定长度对应的字节数。当然，所述提取单元120，还用于当所述数据报文的长度不大于所述指定长度时，将所述数据报文整个视为所述待识别的字段。本实施例所述提取单元120可快速简便的从数据报文中提取出待识别的字节，从而方便后续各级流水线快速仅需要对待识别的字节进行处理即可。

此外，如图10所示，所述装置还包括：

获取单元140，配置为获取自定义识别规则；

第二识别单元150，配置为根据所述自定义识别规则识别数据报文，形成所述识别结果；

判断单元160，配置为根据所述识别结果，判断所述数据报文是否为满足所述自定义规则的自定义报文。

本实施例所述的获取单元140可包括处理器或处理电路，所述处理器或处理电路到所述装置的存储有所述自定义识别规则的存储空间，读取所述自定义规则。所述获取单元140也可包括通信接口，从外设接收所述自定义识别规则。

所述第二识别单元150和所述判断单元160的具体结构可均包括处理器或处理电路，所述处理器或处理电路的结构可参见前述部分，在此就不重复了。

总之，本实施例中所述装置通过获取单元140、第二识别单元150及判断单元160的设置，还能够识别出该数据报文是否为自定义报文，避免了在某些应用场景下，非规则的自定义报文无法被识别的现象，拓宽了所述装置能够识别报文的范围。

所述获取单元140，配置为从所述自定义识别规则获取掩码、匹配方式提取数据的起始位置；

所述第二识别单元150，配置为从所述提取数据的起始位置开始，进行M1次数据提取且每次提取M2个字节；所述M1和所述M2均为不小于1的整数；将提取的字节与所述掩码进行运算，获得待匹配的数据；将所述待匹配的数据按照所述匹配方式与匹配数据表进行匹配，形成识别结果；

所述判断单元160，具体用于当所述识别结果表明所述待匹配的数据与所述匹配数据表中的数据相匹配时，确定所述数据报文为满足所述自定义规则的自定义报文。

在本实施例中所述获取单元140主用配置为读取或接收所述掩码、匹配方式提取数据的起始位置。所述第二识别单元150可包括数据读取结构、逻辑计算单元及比较结构等接结构，数据读取结构用于提取M1*M2个字节，逻辑计算单元可用于将所述掩码与提取的字节进行运算。所述比较结构可包括比较器或比较电路或具有比较功能的处理器，所述比较结构将待匹配的数据与匹配数据包中的数据进行比较匹配，从而形成所述识别结果。

所述判断单元160可为所述处理器或处理电路，将根据所述识别结果确定当前被识别的数据报文是否为满足所述自定义规则的所述自定义报文。这样的话，就简便的实现了对自定义报文进行识别，尤其对一些并没有按照现有通信协议定义的自定义报文进行识别，拓宽了所述识别装置能够识别的数据报文的范围。

如图11所示，所述报文识别装置，也可以仅包括所述获取单元140、第二识别单元150及所述判断单元160。所述获取单元140、第二识别单元150及所述判断单元140的具体结构可参见前述部分，在此就不重复了。

本发明实施例还提供一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行前述任意方法实施例提供的报文识别方法，例如，可用于实现图1、图4、图5、图6、图7及图8任一项所述的方法。

所述计算机存储介质可为各种类型的存储介质，例如，移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，凡按照本发明原理所作的修改，都应当理解为落入本发明的保护范围。

Claims

一种报文识别方法，所述方法包括：

接收数据报文；

提取数据报文中待识别的字段；

采用至少2级流水线分析所述待识别的字段。
根据权利要求1所述的方法，其中，

所述采用至少2级流水线识别所述待识别的字段，包括：

采用第1级流水线分析所述报文的目的地址DA、源地址SA及虚拟局域网VLAN层数；

采用第2级流水线分析所述报文的封装格式以太网类型；

采用第3级流水线分析所述报文是否有携带通过以太网传输点对点协议PPPoE封装格式头及网络协议IP头；

采用第4级流水线分析所述报文的遵循的协议类型；

采用第5级流水线根据所述第1级流水线至第4级流水线的分析结果，输出数据报文编码。
根据权利要求1或2所述的方法，其中，

所述采用至少2级流水线分析所述待识别的字段，包括：

第n级流水线识别后，输出已识别字节数的位置偏移量和所述待识别的字段；

第n+1级流水线接收所述位置偏移量和所述待识别的字段，从所述第n级流水线输出的已识别字节数的位置偏移量对应的偏移位置开始识别所述待识别的字段；

所述n为不小于1的整数；所述第n级流水线是所述第n+1级流水线的前一级流水线。
根据权利要求1所述的方法，其中，

所述方法还包括：

在接收所述数据报文之后，将所述数据报文存储先入先出队列；

所述提取数据报文中待识别的字段，包括：

从所述先入先出队列中取出待识别的报文，并提取所述待识别报文的待识别字段。
根据权利要求1或2所述的方法，其中，

所述提取数据报文中待识别的字段，包括：

判断所述数据报文的报文长度；

当所述数据报文长度大于指定长度时，提取所述数据报文前N个字节作为所述待识别的字段；所述N等于所述指定长度对应的字节数。
根据权利要求5所述的方法，其中，

所述提取数据报文中待识别的字段，还包括：

当所述数据报文的长度不大于所述指定长度时，将所述数据报文整个视为所述待识别的字段。
根据权利要求1或2所述的方法，其中，

所述方法还包括：

获取自定义识别规则；

根据所述自定义识别规则识别所述数据报文，形成识别结果；

根据所述识别结果，判断所述数据报文是否为满足所述自定义规则的自定义报文。
根据权利要求7所述的方法，其中，

所述获取自定义识别规则，包括：

从所述自定义识别规则获取掩码、匹配方式提取数据的起始位置；

所述根据所述自定义识别规则识别所述报文，形成识别结果，包括：

从所述提取数据的起始位置开始，进行M1次数据提取且每次提取M2个字节；所述M1和所述M2均为不小于1的整数；

将提取的字节与所述掩码进行运算，获得待匹配的数据；

将所述待匹配的数据按照所述匹配方式与匹配数据表进行匹配，形成识别结果；

所述根据所述识别结果，判断所述数据报文是否为满足所述自定义规则的自定义报文，包括：

当所述识别结果表明所述待匹配的数据与所述匹配数据表中的数据相匹配时，确定所述数据报文为满足所述自定义规则的自定义报文。
根据权利要求8所述的方法，其中，

所述获取自定义识别规则，还包括，

从所述自定义识别规则中获取规则有效使能位；

所述根据所述自定义识别规则识别所述报文，形成识别结果，还包括：

根据所述规则有效使能位的信息，确定所述自定义识别规则是否有效；

所述从所述提取数据的起始位置开始，进行M1次数据提取且每次提取M2个字节，包括：

当判断出所述自定义识别规则有效时，从所述提取数据的起始位置开始，进行M1次数据提取且每次提取M2个字节。
一种报文识别方法，所述方法还包括：

获取自定义识别规则；

根据所述自定义识别规则识别数据报文，形成识别结果；

根据所述识别结果，判断所述数据报文是否为满足所述自定义规则的自定义报文。
根据权利要求10所述的方法，其中，

所述获取自定义识别规则，包括：

从所述自定义识别规则获取掩码、匹配方式提取数据的起始位置；

所述根据所述自定义识别规则识别所述报文，形成识别结果，包括：

从所述提取数据的起始位置开始，进行M1次数据提取且每次提取M2个字节；所述M1和所述M2均为不小于1的整数；

将提取的字节与所述掩码进行运算，获得待匹配的数据；

将所述待匹配的数据按照所述匹配方式与匹配数据表进行匹配，形成识别结果；

所述根据所述识别结果，判断所述数据报文是否为满足所述自定义规则的自定义报文，包括：

当所述识别结果表明所述待匹配的数据与所述匹配数据表中的数据相匹配时，确定所述数据报文为满足所述自定义规则的自定义报文。
根据权利要求11所述的方法，其中，

所述获取自定义识别规则，还包括，

从所述自定义识别规则中获取规则有效使能位；

所述根据所述自定义识别规则识别所述报文，形成识别结果，还包括：

根据所述规则有效使能位的内容，确定所述自定义识别规则是否有效；

所述从所述提取数据的起始位置开始，进行M1次数据提取且每次提取M2个字节，包括：

当判断出所述自定义识别规则有效时，从所述提取数据的起始位置开始，进行M1次数据提取且每次提取M2个字节。
一种报文识别装置，其中，所述装置包括：

接收单元，配置为接收数据报文；

提取单元，配置为提取数据报文中待识别的字段；

第一识别单元，配置为采用至少2级流水线分析所述待识别的字段。
根据权利要求13所述的装置，其中，

所述第一识别单元，配置为采用第1级流水线分析所述报文的目的地址DA、源地址SA及虚拟局域网VLAN层数；采用第2级流水线分析所述报文的封装格式以太网类型；采用第3级流水线分析所述报文是否有携带通过以太网传输点对点协议PPPoE封装格式头及网络协议IP头；采用第4级流水线分析所述报文的遵循的协议类型；采用第5级流水线根据所述第1级流水线至第4级流水线的分析结果，输出数据报文编码。
根据权利要求13或14所述的装置，其中，

所述第一识别单元，配置为第n级流水线识别后，输出已识别字节数的位置偏移量和所述待识别的字段；及第n+1级流水线接收所述位置偏移量和所述待识别的字段，从所述第n级流水线输出的已识别字节数的位置偏移量对应的偏移位置开始识别所述待识别的字段；

所述n为不小于1的整数；所述第n级流水线是所述第n+1级流水线的前一级流水线。
根据权利要求13所述的装置，其中，

所述装置还包括：

存储单元，配置为在接收所述数据报文之后，将所述数据报文存储先入先出队列；

所述提取单元，配置为从所述先入先出队列中取出待识别的报文，并提取所述待识别报文的待识别字段。
根据权利要求13或14所述的装置，其中，

所述提取单元，配置为判断所述数据报文的报文长度；当所述数据报文长度大于指定长度时，提取所述数据报文前N个字节作为所述待识别的字段；所述N等于所述指定长度对应的字节数。
根据权利要求17所述的装置，其中，

所述提取单元，还配置为当所述数据报文的长度不大于所述指定长度时，将所述数据报文整个视为所述待识别的字段。
根据权利要求13或14所述的装置，其中，

所述装置还包括：

获取单元，配置为获取自定义识别规则；

第二识别单元，配置为根据所述自定义识别规则识别所述数据报文，形成识别结果；

判断单元，配置为根据所述识别结果，判断所述数据报文是否为满足所述自定义规则的自定义报文。
根据权利要求19所述的装置，其中，

所述获取单元，配置为从所述自定义识别规则获取掩码、匹配方式提取数据的起始位置；

所述第二识别单元，配置为从所述提取数据的起始位置开始，进行M1次数据提取且每次提取M2个字节；所述M1和所述M2均为不小于1的整数；将提取的字节与所述掩码进行运算，获得待匹配的数据；将所述待匹配的数据按照所述匹配方式与匹配数据表进行匹配，形成识别结果；

所述判断单元，配置为当所述识别结果表明所述待匹配的数据与所述匹配数据表中的数据相匹配时，确定所述数据报文为满足所述自定义规则的自定义报文。
根据权利要求9所述的装置，其中，

所述获取单元，还配置为从所述自定义识别规则中获取规则有效使能位；

所述第二识别单元，还用于根据所述规则有效使能位的信息，确定所述自定义识别规则是否有效；当判断出所述自定义识别规则有效时，从所述提取数据的起始位置开始，进行M1次数据提取且每次提取M2个字节。
一种报文识别装置，所述装置还包括：

获取单元，配置为获取自定义识别规则；

第二识别单元，配置为根据所述自定义识别规则识别数据报文，形成识别结果；

判断单元，配置为根据所述识别结果，判断所述数据报文是否为满足所述自定义规则的自定义报文。
根据权利要求22所述的装置，其中，

所述获取单元，配置为从所述自定义识别规则获取掩码、匹配方式提取数据的起始位置；

所述第二识别单元，配置为从所述提取数据的起始位置开始，进行M1次数据提取且每次提取M2个字节；所述M1和所述M2均为不小于1的整数；将提取的字节与所述掩码进行运算，获得待匹配的数据；将所述待匹配的数据按照所述匹配方式与匹配数据表进行匹配，形成所述识别结果；

所述判断单元，配置为当所述识别结果表明所述待匹配的数据与所述匹配数据表中的数据相匹配时，确定所述数据报文为满足所述自定义规则的自定义报文。
根据权利要求23所述的装置，其中，

所述获取单元，还配置为从所述自定义识别规则中获取规则有效使能位；

所述第二识别单元，还用于根据所述规则有效使能位的内容，确定所述自定义识别规则是否有效；当判断出所述自定义识别规则有效时，从所述提取数据的起始位置开始，进行M1次数据提取且每次提取M2个字节。
一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1至2任一项所述的方法。