WO2016074434A1

WO2016074434A1 - 数据提取方法及装置

Info

Publication number: WO2016074434A1
Application number: PCT/CN2015/076587
Authority: WO
Inventors: 陈娟; 吴明; 陈伟
Original assignee: 中兴通讯股份有限公司
Priority date: 2014-11-12
Filing date: 2015-04-14
Publication date: 2016-05-19
Also published as: CN105653531A; CN105653531B

Abstract

本发明公开了一种数据提取方法及装置，其中，该方法包括：依据数据报文确定提取的目标数据；根据预定的正则表达式对该报文数据中的内容进行匹配；在该报文数据中存在至少两个目标数据的情况下，对该至少两个目标数据进行提取。通过本发明，解决了相关技术中对目标数据的提取不准确的问题，进而能够准确提取目标数据的效果。

Description

数据提取方法及装置

技术领域

本发明涉及通信领域，具体而言，涉及一种数据提取方法及装置。

背景技术

随着移动通信技术的发展，互联网信息交流传递越来越便捷。运营商网络的不断优化，速度提升，带宽升级，费用降低，都是顺应时代的潮流。为了更好的推广产品，提升用户体验，运营商迫切需要了解用户的需求喜好等等。元数据提取可以协助了解用户常登陆的网站，业务应用，和服务器的交互内容。运营商根据元数据提取的结果就能对用户行为和用户体验做跟踪分析，统计热点网站，用户上相应网站的时延、流量等信息。能更好地优化无线网络，协助运营商提升网络质量，从而使产品获得更高的价值。

简单地，用户通过互联网终端设备向服务器请求获取资源，在接收和解释请求消息后，服务器会返回响应消息，问题就是如何从海量的报文内容中准确提取出所需要的数据。现有的方法一般都是根据正则表达式直接匹配提取，由于在网络上传输的元数据信息纷繁复杂，有时候无法找到明文的特征，正则表达式无法较好地进行配置；有时候报文数据中有多个提取目标但是提取不全面或者是只需提取一个却提取出很多不需要的错误内容。

针对相关技术中对目标数据的提取不准确的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据提取方法及装置，以至少解决相关技术中对目标数据的提取不准确的问题。

根据本发明实施例的一个方面，提供了一种数据提取方法，包括：依据数据报文确定提取的目标数据；根据预定的正则表达式对所述报文数据中的内容进行匹配；在所述报文数据中存在至少两个目标数据的情况下，对所述至少两个目标数据进行提取。

在本发明实施例中，根据预定的正则表达式对所述报文数据中的内容进行匹配包括：在所述报文数据中具有字符串特征的情况下，根据预定的字符正则表达式对所述报文数据中的内容进行匹配。

在本发明实施例中，根据预定的正则表达式对所述报文数据中的内容进行匹配包括：在所述报文数据中不具有字符特征的情况下，采用预定函数解析的方式解析所述报文数据，解码得到所述目标数据。

在本发明实施例中，对所述至少两个目标数据进行提取包括：在对不同的所述报文数据中提取所述至少两个目标数据的情况下，通过预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对所述目标数据进行提取。

在本发明实施例中，对所述至少两个目标数据进行提取包括：在一个报文数据有两个提取目标的情况下，对所述报文数据中的内容进行多次匹配后对两个目标数据进行提取；和/或，在不同报文数据有两个提取目标的情况下，采用预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对两个目标数据进行提取。

在本发明实施例中，在通过预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对所述目标数据进行提取之前，还包括：配置动态设置接口，其中，所述动态设置接口用于接收针对不同提取类型设置的不同提取次数和尝试提取次数。

根据本发明实施例的另一方面，提供了一种数据提取装置，包括：确定模块，设置为依据数据报文确定提取的目标数据；匹配模块，设置为根据预定的正则表达式对所述报文数据中的内容进行匹配；提取模块，设置为在所述报文数据中存在至少两个目标数据的情况下，对所述至少两个目标数据进行提取。

在本发明实施例中，所述匹配模块包括：匹配单元，设置为在所述报文数据中具有字符串特征的情况下，根据预定的字符正则表达式对所述报文数据中的内容进行匹配。

在本发明实施例中，所述匹配模块包括：解析单元，设置为在所述报文数据中不具有字符特征的情况下，采用预定函数解析的方式解析所述报文数据，解码得到所述目标数据。

在本发明实施例中，所述提取模块包括：提取单元，设置为在对不同的所述报文数据中提取所述至少两个目标数据的情况下，通过预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对所述目标数据进行提取。

在本发明实施例中，所述提取模块包括：第二提取单元，设置为在一个报文数据有两个提取目标的情况下，对所述报文数据中的内容进行多次匹配后对两个目标数据进行提取；和/或，第三提取单元，设置为在不同报文数据有两个提取目标的情况下，采用预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对两个目标数据进行提取。

在本发明实施例中，所述装置还包括：配置单元，设置为配置动态设置接口，其中，所述动态设置接口用于接收针对不同提取类型设置的不同提取次数和尝试提取次数。

通过本发明实施例，采用依据数据报文确定提取的目标数据；根据预定的正则表达式对所述报文数据中的内容进行匹配；在所述报文数据中存在至少两个目标数据的情况下，对所述至少两个目标数据进行提取，解决了相关技术中对目标数据的提取不准确的问题，进而能够准确提取目标数据的效果。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，本发明实施例的示意性实施例及其说明用于解释本发明实施例，并不构成对本发明实施例的不当限定。在附图中：

图1是根据本发明实施例的数据提取方法的流程图；

图2是根据本发明实施例的数据提取装置的框图；

图3是根据本发明优选实施例的数据提取装置的框图一；

图4是根据本发明优选实施例的数据提取装置的框图二；

图5是根据本发明优选实施例的数据提取装置的框图三；

图6是根据本发明优选实施例的数据提取装置的框图四；

图7是根据本发明优选实施例的数据提取方法的流程图一；

图8是根据本发明优选实施例的数据提取方法的流程图二；

图9是根据本发明优选实施例的数据提取方法的流程图三；

图10是根据本发明优选实施例的数据提取方法的流程图四；

图11是根据本发明优选实施例的数据提取方法的流程图五；

图12是根据本发明优选实施例的数据提取方法的流程图六；

图13是根据本发明优选实施例的数据提取方法的流程图七。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明实施例。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在本实施例中提供了一种数据提取方法，图1是根据本发明实施例的数据提取方法的流程图，如图1所示，该流程包括如下步骤：

步骤S102，依据数据报文确定提取的目标数据；

步骤S104，根据预定的正则表达式对该报文数据中的内容进行匹配；

步骤S106，在该报文数据中存在至少两个目标数据的情况下，对该至少两个目标数据进行提取。

通过上述步骤，依据数据报文确定提取的目标数据，根据预定的正则表达式对该报文数据中的内容进行匹配，在该报文数据中存在至少两个目标数据的情况下，对该至少两个目标数据进行提取，解决了相关技术中对目标数据的提取不准确的问题，进而能够准确提取目标数据的效果。

本实施例中，根据预定的正则表达式对该报文数据中的内容进行匹配可以包括：在该报文数据中具有字符串特征的情况下，根据预定的字符正则表达式对该报文数据中的内容进行匹配；和/或，在该报文数据中不具有字符特征的情况下，采用预定函数解析的方式解析该报文数据，解码得到该目标数据。

在一个可选的实施方式中，对该至少两个目标数据进行提取可以包括：在对不同的该报文数据中提取该至少两个目标数据的情况下，通过预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对该目标数据进行提取。

在本发明实施例中，对该至少两个目标数据进行提取包括：在一个报文数据有两个提取目标的情况下，对该报文数据中的内容进行多次匹配后对两个目标数据进行提取；和/或，在不同报文数据有两个提取目标的情况下，采用预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对两个目标数据进行提取。

作为一种优选的实施方式，在通过预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对该目标数据进行提取之前，配置动态设置接口，其中，该动态设置接口用于接收针对不同提取类型设置的不同提取次数和尝试提取次数。

本发明实施例还提供了一种数据提取装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图2是根据本发明实施例的数据提取装置的框图，如图2所示，包括：确定模块22、匹配模块24和提取模块26，下面对各个模块进行简要说明。

确定模块22，设置为依据数据报文确定提取的目标数据；

匹配模块24，连接至上述确定模块22，设置为根据预定的正则表达式对该报文数据中的内容进行匹配；

提取模块26，连接至上述匹配模块24，设置为在该报文数据中存在至少两个目标数据的情况下，对该至少两个目标数据进行提取。

图3是根据本发明优选实施例的数据提取装置的框图一，如图3所示，该匹配模块24包括：

匹配单元32，设置为在该报文数据中具有字符串特征的情况下，根据预定的字符正则表达式对该报文数据中的内容进行匹配。

图4是根据本发明优选实施例的数据提取装置的框图二，如图4所示，该匹配模块24包括：

解析单元42，设置为在该报文数据中不具有字符特征的情况下，采用预定函数解析的方式解析该报文数据，解码得到该目标数据。

图5是根据本发明优选实施例的数据提取装置的框图三，如图5所示，该提取模块26包括：

提取单元52，设置为在对不同的该报文数据中提取该至少两个目标数据的情况下，通过预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对该目标数据进行提取。

在本发明实施例中，该提取模块26还可以包括：第二提取单元，设置为在一个报文数据有两个提取目标的情况下，对该报文数据中的内容进行多次匹配后对两个目标数据进行提取；和/或，第三提取单元，设置为在不同报文数据有两个提取目标的情况下，采用预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对两个目标数据进行提取。

图6是根据本发明优选实施例的数据提取装置的框图四，如图6所示，该装置还包括：

配置单元62，连接至上述提取单元52，设置为配置动态设置接口，其中，该动态设置接口用于接收针对不同提取类型设置的不同提取次数和尝试提取次数。

下面结合可选实施方式对本发明实施例进行进一步说明。

为了更好的提升网络服务，本发明实施例提供了一种元数据提取的方法，首先需要分析报文中的内容，找到所需要的目标数据，当报文数据内容具有字符串特征时，根据预先定义的正则表达式，对报文中的内容进行匹配，匹配成功后进行目标数据的提取。如果一个报文数据中传输多个提取目标都需要提取，而正则规则一般只能匹配出一个结果，本发明实施例采用多次匹配扩展功能，可以通过配置多次匹配扩展属性实现全部提取。比如一个报文中存在多处hello，如果只配置基本的提取配置，只能提取出该报文中首次出现位置的内容，为保证全部提取，增加配置多次提取扩展配置，多次匹配的开始位置是首次匹配的结束位置(只有首次匹配满足，才会进行多次匹配)。图7是根据本发明优选实施例的数据提取方法的流程图一，如图7所示，包括以下步骤：

步骤S702，分析到一个报文有多个提取目标；

步骤S704，书写正则表达式；

步骤S706，报文匹配正则表达式；

步骤S708，匹配成功提取到第一个；

步骤S710，配置多次匹配扩展属性；

步骤S712，从上次匹配的结束位置开始继续匹配，直到提取结束。

当不同报文数据中传输多个提取目标都需要提取，本发明实施例提供配置提取次数和尝试提取次数。用户可以指定任意的提取次数，每提取到一次计数加1，当达到提取次数后，就不再进行提取。有些情况下，有可能配置了提取正则，但是却迟迟不能提取到待提取的信息，例如可能是加密报文或者是下一条目标出现较晚，这时可以指定尝试提取次数来避免白白的性能损失。尝试提取次数的累加方法：连续未提取到则加1，如果提取到则重新清零。

不同提取类型的提取次数和尝试提取次数有着不同的配置需求，元数据提取提供一个动态设置接口接收用户修改参数。用户可针对不同提取类型设置不同的提取次数和尝试提取次数，实时动态修改提取数据。图8是根据本发明优选实施例的数据提取方法的流程图二，如图8所示，包括以下步骤：

步骤S802，某提取类型提取次数和尝试提取次数采用默认值；

步骤S804，用户(产品)调用参数配置接口动态修改；

步骤S806，按照新的参数进行元数据提取。

当从报文中无法找到特征字串时，采用函数解析的方式分析应用层数据，直接解码得到提取目标。图9是根据本发明优选实施例的数据提取方法的流程图三，如图9所示，包括以下步骤：

步骤S902，函数解析应用层数据；

步骤S904，解码得到提取目标。

在某些情况下，只有报文满足了某个特征说明了是特定的报文数据时(定义切入规则)才能进行提取，或者是由于正则特征较弱或者提取较多不需要的内容(定义排除规则)而影响性能时，可以采用表达式辅助信息提取。定义变量，将报文内容中数据赋值到变量，用于表达式运算。表达式形式类似如：(a+6)>＝b&&(c！＝d||e>>2<8))，支持逻辑表达式，数学表达式以及两者组合的表达式。只有表达式为真时，才能进行提取动作。图10是根据本发明优选实施例的数据提取方法的流程图四，如图10所示，包括以下步骤：

步骤S1002，定义变量；

步骤S1004，提取报文中的数据，赋值给变量；

步骤S1006，变量参与表达式计算

步骤S1008，判断表达式成立，在判断结果为是的情况下。执行步骤S1010，在判断结果为否的情况下，执行步骤S1012；

步骤S1010，进行提取；

步骤S1012，不提取，返回。

相关实施例中，以一个报文有多个提取目标来说明多次匹配扩展属性提取的过程，以多个报文有多个提取目标来说明元数据提取次数和尝试提取次数的使用方法，下面以QQ登陆和退出事件来说明表达式辅助元数据提取的过程，但元数据提取的机制及方法不仅限于上述几种情况。

关于多次匹配扩展属性提取的功能描述。利用本发明实施例，从报文载荷内容abcdefghijkdeflmn中需要提取出def。这个报文中存在两个提取目标def，配置多次匹配扩展属性进行提取。配置正则表达式R1＝abc，R2＝ghi。匹配到R1表达式之后，匹配到的结束位置加1或者匹配到的开始位置加3就是提取目标的起始位置；匹配到R2表达式之后，匹配到的开始位置减1或者匹配到的结束位置减3就是提取目标的结束位置。继续进行第二次匹配，从第一次匹配的结束位置i开始，配置正则表达式R3＝jk，R4＝lmn。匹配到R3表达式之后，匹配到的结束位置加1或者匹配到的开始位置加2就是提取目标的起始位置；匹配到R4表达式之后，匹配到的开始位置减1或者匹配到的结束位置减3就是提取目标的结束位置。多次匹配扩展属性提取到两个结果，提取结束。图11是根据本发明优选实施例的数据提取方法的流程图五，如图11所示，包括以下步骤：

步骤S1102，需要从abcdefghijkdeflmn中提取出def，报文中存在两个提取目标def，配置多次匹配扩展属性进行提取；

步骤S1104，配置正则表达式R1＝abc，R2＝ghi，报文匹配成功；

步骤S1106，计算起始位置：R1的结尾位置加1或R1的开始位置加3；

步骤S1108，计算结束位置：R2的开始位置减1或R2的结尾位置减3；

步骤S1110，继续进行第二次匹配，从第一次匹配的结束位置i开始，配置正则表达式R3＝jk，R4＝lmn，报文匹配成功；

步骤S1112，计算起始位置：R3的结尾位置加1或R3的开始位置加2；

步骤S1114，计算结束位置：R4的开始位置减1或R4的结尾位置减3；

步骤S1116，多次匹配扩展属性提取到两个结果，提取结束。

关于配置提取次数和尝试提取次数的功能描述，用户配置目标提取类型的提取次数和尝试提取次数，这些参数实时的写入元数据提取模块，用户进行互联网业务请求服务器数据，数据报文进入提取模块进行正则表达式匹配。匹配成功时，提取次数计数加1，尝试提取次数清零，计算得到起始位置和结束位置，然后判断提取次数是否达到配置的数值，没有达到则报文继续进入模块进行匹配，否则提取过程结束；如匹配不成功时，尝试提取次数加1，判断尝试提取次数是否达到配置的数值，没有达到则报文继续进入模块进行匹配，否则提取过程结束。图12是根据本发明优选实施例的数据提取方法的流程图六，如图12所示，包括以下步骤：

步骤S1202，产品配置目标提取类型的提取次数和尝试提取次数；

步骤S1204，提取次数和尝试提取次数实时地写入提取模块；

步骤S1206，用户进行互联网业务请求服务器数据；

步骤S1208，数据报文进行正则表达式匹配；

步骤S1210，匹配成功，提取次数+1，尝试提取次数清零；

步骤S1212，计算起始位置和结束位置；

步骤S1214，判断提取次数是否达到，没有达到，继续进入步骤S1208，达到则执行步骤S1220，提取结束；

步骤S1216，匹配不成功，尝试提取次数+1；

步骤S1218，判断尝试提取次数是否达到，没有达到，继续进入步骤S1208，，达到则执行步骤S1220，提取结束；

步骤S1220，提取结束。

关于表达式辅助QQ登陆和退出事件提取的功能描述。分析QQ登陆报文，Flag字段在报文载荷起始位置一字节内容为0x02，代表登陆的Command字段在报文载荷起始+3位置两字节内容为0x62，Data字段在报文载荷起始+11位置一字节内容为0x02。分析QQ退出报文，Flag字段为0x02，代表退出的Command字段为0x01，Data字段为0x02。需要提取出载荷起始+3位置两字节内容的Command字段，如上的规则太短太简单，这里采用表达式判断Flag为2，且Data等于2，并且QQ命令字Command 为0x62或0x01，即只有判断出这个报文是登陆报文，或者是退出报文，表达式成立时才进行提取。提取出报文载荷起始+3位置的两个字节的数值，提取结束。图13是根据本发明优选实施例的数据提取方法的流程图七，如图13所示，包括以下步骤：

步骤S1302，定义三个变量，Flag，Command，Data；

步骤S1304，Flag赋值，报文载荷起始位置内容取1字节值；Command赋值，载荷起始+3位置内容取2字节值；Data赋值，载荷起始+11位置内容取1字节值；

步骤S1306，计算表达式是否为真((Flag＝＝2)&&(Data＝＝2)&&((Command＝＝0x62)||Command＝＝0x01))；

步骤S1308，提取出报文载荷起始+3位置的两个字节的数值；

步骤S1310，提取结束。

显然，本领域的技术人员应该明白，上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

工业实用性

如上所述，通过上述实施例及优选实施方式，解决了相关技术中对目标数据的提取不准确的问题，进而能够准确提取目标数据的效果。

Claims

一种数据提取方法，包括：

依据数据报文确定提取的目标数据；

根据预定的正则表达式对所述报文数据中的内容进行匹配；

在所述报文数据中存在至少两个目标数据的情况下，对所述至少两个目标数据进行提取。
根据权利要求1所述的方法，其中，根据预定的正则表达式对所述报文数据中的内容进行匹配包括：

在所述报文数据中具有字符串特征的情况下，根据预定的字符正则表达式对所述报文数据中的内容进行匹配。
根据权利要求2所述的方法，其中，根据预定的正则表达式对所述报文数据中的内容进行匹配包括：

在所述报文数据中不具有字符特征的情况下，采用预定函数解析的方式解析所述报文数据，解码得到所述目标数据。
根据权利要求1所述的方法，其中，对所述至少两个目标数据进行提取包括：

在对不同的所述报文数据中提取所述至少两个目标数据的情况下，通过预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对所述目标数据进行提取。
根据权利要求4中所述的方法，其中，对所述至少两个目标数据进行提取包括：

在一个报文数据有两个提取目标的情况下，对所述报文数据中的内容进行多次匹配后对两个目标数据进行提取；和/或

在不同报文数据有两个提取目标的情况下，采用预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对两个目标数据进行提取。
根据权利要求4或5所述的方法，其中，在通过预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对所述目标数据进行提取之前，还包括：

配置动态设置接口，其中，所述动态设置接口用于接收针对不同提取类型设置的不同提取次数和尝试提取次数。
一种数据提取装置，包括：

确定模块，设置为依据数据报文确定提取的目标数据；

匹配模块，设置为根据预定的正则表达式对所述报文数据中的内容进行匹配；

提取模块，设置为在所述报文数据中存在至少两个目标数据的情况下，对所述至少两个目标数据进行提取。
根据权利要求7所述的装置，其中，所述匹配模块包括：

匹配单元，设置为在所述报文数据中具有字符串特征的情况下，根据预定的字符正则表达式对所述报文数据中的内容进行匹配。
根据权利要求8所述的装置，其中，所述匹配模块包括：

解析单元，设置为在所述报文数据中不具有字符特征的情况下，采用预定函数解析的方式解析所述报文数据，解码得到所述目标数据。
根据权利要求7所述的装置，其中所述提取模块包括：

第一提取单元，设置为在对不同的所述报文数据中提取所述至少两个目标数据的情况下，通过预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对所述目标数据进行提取。
根据权利要求7中所述的装置，其中，所述提取模块包括：

第二提取单元，设置为在一个报文数据有两个提取目标的情况下，对所述报文数据中的内容进行多次匹配后对两个目标数据进行提取；和/或

第三提取单元，设置为在不同报文数据有两个提取目标的情况下，采用预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对两个目标数据进行提取。
根据权利要求10或11所述的装置，其中，所述装置还包括：

配置单元，设置为配置动态设置接口，其中，所述动态设置接口用于接收针对不同提取类型设置的不同提取次数和尝试提取次数。