WO2016197924A1

WO2016197924A1 - 数据预处理方法及装置

Info

Publication number: WO2016197924A1
Application number: PCT/CN2016/085161
Authority: WO
Inventors: 占义忠
Original assignee: 中兴通讯股份有限公司
Priority date: 2015-12-29
Filing date: 2016-06-07
Publication date: 2016-12-15
Also published as: CN106933826B; CN106933826A

Abstract

一种数据预处理方法，在接收到数据预处理指令时，获取待处理的数据；将获取的待处理的数据映射为预设消息模型对应的输入消息；采用预设的处理器对所述输入消息进行逻辑处理，以得到输出消息，其中，所述处理器对所述输入消息进行逻辑处理包括：提取所述输入消息的字段信息，并对所述字段信息进行加工变形，以得到输出消息。

Description

数据预处理方法及装置

技术领域

本文涉及但不限于数据处理领域，尤其涉及一种数据预处理方法及装置。

背景技术

随着计算机、互联网和物联网等技术在多个领域的大规模应用，产生的数据量也随之增多。由于数据源产生的数据类型多样，格式不一，因此，在处理数据之前，要先对数据进行预处理，并在预处理后才执行对数据的具体处理操作，而由于数据的类型多样和格式不一，导致数据的结构不相同，对于不同的数据，需要开发不同的软件，分别对每种数据进行预处理，并在预处理结束后，才将数据集中到处理器中执行后续的处理操作，而通过不同的开发软件对数据进行预处理，导致数据预处理的过程操作耗时，效率低，操作成本高。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提出一种数据预处理方法及装置，能够减少对数据预处理的过程所需要的时间，提高效率，降低操作成本。

本发明实施例提供的一种数据预处理方法，所述数据预处理方法包括以下步骤：

在接收到数据预处理指令时，获取待处理的数据；

将获取的待处理的数据映射为预设消息模型对应的输入消息；

采用预设的处理器对所述输入消息进行逻辑处理，以得到输出消息，其中，所述处理器对所述输入消息进行逻辑处理包括：提取所述输入消息的字段信息，并对所述字段信息进行加工变形，以得到输出消息。

可选地，所述采用预设的处理器对所述输入消息进行逻辑处理，以得到输出消息的步骤包括：

确定所述输入消息的类型；

根据预设的类型与消息执行流的映射关系，获取确定的类型对应的消息执行流；

基于获取的所述消息执行流确定所述处理器，其中，确定的所述处理器包括输出消息处理器；

根据确定的所述处理器对所述输入消息进行逻辑处理，以得到输出消息。

可选地，在确定的所述处理器还包括临时消息处理器和/或缓存消息处理器时，所述根据确定的所述处理器对所述输入消息进行逻辑处理，以得到输出消息的步骤包括：

确定所述临时消息处理器和/或所述缓存消息处理器对应的属性；

在所述临时消息处理器和/或所述缓存消息处理器对应的属性为可创建属性时，根据所述临时消息处理器对所述输入消息进行逻辑处理以得到临时消息，和/或根据所述缓存消息处理器对所述输入消息进行逻辑处理以得到缓存消息；

根据所述输出消息处理器对所述临时消息和/或所述缓存消息进行逻辑处理，以得到输出消息。

可选地，所述根据所述输出消息处理器对所述临时消息和/或所述缓存消息进行逻辑处理，以得到输出消息的同时，若接收到临时消息的存储指令，执行以下步骤：

将所述临时消息存储到预设的缓存区域中，以生成缓存消息，以供下次接收到数据预处理指令时，将所述缓存区域中的缓存消息作为新的输入消息的被引用数据。

可选地，所述数据预处理方法还包括：

在所述缓存区域的消息存储容量值达到预设容量值时，删除所述缓存区域中的部分缓存消息，其中，删除的缓存消息的访问时间早于未删除的缓存消息的访问时间；

或者，删除缓存区域中访问时间点距离当前时间点达到预设时长的缓存消息。

本发明实施例还提出一种数据预处理装置，所述数据预处理装置包括：

获取模块，设置为在接收到数据预处理指令时，获取待处理的数据；

映射模块，设置为将获取的待处理的数据映射为预设消息模型对应的输入消息；

处理模块，设置为采用预设的处理器对所述输入消息进行逻辑处理，以得到输出消息，其中，所述处理器对所述输入消息进行逻辑处理包括：提取所述输入消息的字段信息，并对所述字段信息进行加工变形，以得到输出消息。

可选地，所述处理模块包括：

第一确定子模块，设置为确定所述输入消息的类型；

获取子模块，设置为根据预设的类型与消息执行流的映射关系，获取确定的类型对应的消息执行流；

第二确定子模块，设置为基于获取的所述消息执行流确定所述处理器，其中，确定的所述处理器包括输出消息处理器；

处理子模块，设置为根据确定的所述处理器对所述输入消息进行逻辑处理，以得到输出消息。

可选地，在确定的所述处理器还包括临时消息处理器和/或缓存消息处理器时，所述处理子模块包括：

确定单元，设置为确定所述临时消息处理器和/或所述缓存消息处理器对应的属性；

第一处理单元，设置为在所述临时消息处理器和/或所述缓存消息处理器对应的属性为可创建属性时，根据所述临时消息处理器对所述输入消息进行逻辑处理以得到临时消息，和/或根据所述缓存消息处理器对所述输入消息进行逻辑处理以得到缓存消息；

第二处理单元，设置为根据所述输出消息处理器对所述临时消息和/或所述缓存消息进行逻辑处理，以得到输出消息。

可选地，所述数据预处理装置还包括：

存储单元，设置为若接收到临时消息的存储指令，将所述临时消息存储到预设的缓存区域中，以生成缓存消息，以供下次接收到数据预处理指令时，将所述缓存区域中的缓存消息作为新的输入消息的被引用数据。

可选地，所述数据预处理装置还包括：

删除模块，设置为在所述缓存区域的消息存储容量值达到预设容量值时，删除所述缓存区域中的部分缓存消息，其中，删除的缓存消息的访问时间早于未删除的缓存消息的访问时间；

本发明实施例提出的数据预处理方法及装置，在接收到数据预处理指令时，获取待处理的数据，将获取的所述数据映射为预设消息模型对应的输入消息，采用预设的处理器对所述输入消息进行逻辑处理，以得到输出消息，其中，所述处理器对所述输入消息进行逻辑处理包括：提取所述输入消息的字段信息，并对所述字段信息进行加工变形，以得到输出消息，实现了将不同类型的数据映射为消息模型对应的输入消息，也就是将数据去结构化，以提取出输入消息的字段信息，并对提取的字段信息进行逻辑处理，最终得到输出消息，而不是在数据的类型结构不同时，需要不同的软件分别对所述进行预处理，本发明实施例提高了数据预处理的效率，并降低了数据预处理的操作成本。

在阅读并理解了附图和详细描述后，可以明白其他方面。

附图概述

图1为本发明可选实施例数据预处理方法的流程示意图；

图2为本发明可选实施例采用预设的处理器对所述输入消息进行逻辑处理，以得到输出消息的流程示意图；

图3为本发明可选实施例根据确定的所述处理器对所述输入消息进行逻辑处理的流程示意图；

图4为本发明可选实施例数据预处理装置的功能模块示意图；

图5为图4中处理模块的细化功能模块示意图；

图6为图5中处理子模块的细化功能模块示意图；

图7为本发明实施例的实施场景的示意图；

图8为本发明实施例预设的消息执行流的示意图；

图9为图8中消息执行流中每一个个消息对应的高度值的示意图。

本发明的实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种数据预处理方法。

参照图1，图1为本发明数据预处理方法第一实施例的流程示意图。

本实施例提出一种数据预处理方法，所述数据预处理方法包括：

步骤S10，在接收到数据预处理指令时，获取待处理的数据；

在本实施例中，待处理的数据包括：数据源产生的数据，值得注意的是，在数据预处理过程中，可获取上一次数据预处理过程产生的临时消息或缓存消息，并将所述临时消息或缓存消息作为待处理的数据的被引用数据(即引用临时消息或缓存消息对待处理的数据进行处理)，可选地，在上一次数据预处理过程中产生的临时消息可先存储到预设的缓存空间中成为缓存消息，然后在本次进行数据预处理时，将所述缓存区域中的缓存消息作为待处理数据的被引用数据。

步骤S20，将获取的待处理的数据映射为预设消息模型对应的输入消息；

在本实施例中，数据预处理过程中是先将待处理的数据抽象成消息，再对抽象后的消息进行预处理，将待处理的数据抽象成消息的方式包括：通过加载预设的消息模型，并将待处理的数据映射为所述消息模型对应的输入消息。

将待处理的数据映射为所述消息模型对应的输入消息包括：

提取待处理的数据中包含的每一个字段信息，根据预设的消息模型，将提取的每一个字段信息按照所述消息模型的形式进行排列，最终将排列好的字段信息作为输入消息。

可选地，所述输入消息是由一组连续的字段组成，字段可以是简单的数据类型，也可以是复杂的组合数据类型。而所述消息模型的结构内容包括：

1、消息名称、消息类型；

其中，所述消息名称是以字母开头的字符串，不能包含的特殊字符，例如，特殊字符包括空格，‘.’，‘-’等，并且由于消息名称需要在消息模型中相互引用，因此消息名称必须全局唯一，且能代表描述消息的含义，消息名称同时也作为模型配置的文件名；而所述消息类型包括所述消息模型的编码方式，所述消息模型的编码方式可以是固定格式编码，如TLV(Type-Length-Value，一种编码格式)编码，也可以是自定义的一些复杂编码等等。

2、消息的逻辑条件表达式：消息模型中会配置一些逻辑表达式来控制消息被处理的流程，比如缓存消息的创建条件表达式处理器和删除条件表达式处理器，当创建条件表达式满足时，缓存消息才会被创建并缓存，删除条件表达式满足时，相应的缓存消息在流程处理完就会从缓存中删除；

3、消息的组成：消息由字段组成。通常，消息模型用XML(Extensible Markup Language，可扩展标记语言)表示，考虑到消息模型动态变更，可以用关系数据库保存消息模型。本实施例中，所述输入消息可以为移动网络的呼叫信令，也可以是用户的上网记录。

而消息中的字段的结构内容包括：

1、字段名称、字段类型、字段长度等；

其中，所述字段名称包括以字母开头的字符串，不能包含的特殊字符，例如，特殊字符包括空格，‘.’，‘-’等，而且字段名称在每个消息模型内必须唯一，且能代表字段的含义；而所述字段类型可以是基本的字段类型如整型、字符串等，也可以是复合的字段类型，其中，整型可以分为单字节、双字节、四字节和长整型等；而字段长度例如[0,65535]，值得注意的是，当字段是字符串的类型时，字段长度表示字符串最大长度。

2、字段的处理器：数据预处理过程新生成的消息字段可以由已经生成的消息字段经过加工或运算得到，这种加工或运算可以抽象出通用的处理器。对于复杂的加工逻辑可以通过内置处理器实现，一般的逻辑处理可以通过表达式处理器实现，表达式处理器是支持在线编辑和编译的逻辑处理代码，表达式隐含了消息的关联关系和处理逻辑。其中，每个表达式中可以包含多个子表达式，每个子表达式之间用“：”分隔或其他特殊符号分隔，当第一个子表达式处理失败时，就会处理第二个子表达式，直到成功才中止继续处理后续的表达式。可以理解的是，表达式处理器系统会动态地编译成机器码而不是解释执行，这样即可以保证处理器能灵活配置同时又能高效执行，内置处理器和表达式处理器相互可以组合成组合处理器。为了模型的字段描述更加直观，将处理器作为字段的属性放到模型配置中。

步骤S30，采用预设的处理器对所述输入消息进行逻辑处理，以得到输出消息，其中，所述处理器对所述输入消息进行逻辑处理包括：提取所述输入消息的字段信息，并对所述字段信息进行加工变形，以得到输出消息。

在本实施例中，采用预设的处理器对所述输入消息进行逻辑处理，以得到输出消息，也就是说先提取所述输入消息的字段信息，然后对所述字段信息进行逻辑处理，即将所述字段信息进行加工变形，得到待输出形式的消息，并将所述待输出的形式的消息作为输出消息。

为更好理解本方案，举例应用场景如下：数据预处理系统启动时会加载预设的消息模型，参照图7，消息模型包括输入消息模型、中间消息(包括临时消息和缓存消息)模型和预处理后的输出消息模型。加载完所述消息模型后，将待处理的数据映射为可以直接高效定位的内部结构，得到输入消息，可选地，此时可加载配置信息，将加载的配置信息转化为缓存消息，配置信息可以以多种形式存在，比如关系数据库、属性文件、XML文件等，缓存消息存在关键字，在内部会建立关键字和缓存消息的映射，允许按关键字查找或条件匹配查找。缓存消息可以设置为数据回填、数据归约等大数据预处理，同时，加载消息接收服务，即确定数据预处理后待传输的对象，并启动所述消息接收服务，所述消息接收服务可以是UDP(User Datagram Protocol，用户数据报协议)协议或TCP(Transmission Control Protocol，传输控制协议)协议的网络接收服务，具体根据实际网络场景选择相应的协议。最后，通过预设的处理器对所述输入消息进行处理，以提取所述输入消息中的字段信息，并对提取的所述字段信息进行逻辑加工，以得到待输出形式的消息，最终将所述输出消息进行输出。

本实施例提出的数据预处理方法，在接收到数据预处理指令时，获取待处理的数据，将获取的所述数据映射为预设消息模型对应的输入消息，采用预设的处理器对所述输入消息进行逻辑处理，以得到输出消息，其中，所述处理器对所述输入消息进行逻辑处理包括：提取所述输入消息的字段信息，并对所述字段信息进行加工变形，以得到输出消息，实现了将不同类型的数据映射为消息模型对应的输入消息，也就是将数据去结构化，以提取出输入消息的字段信息，并对提取的字段信息进行逻辑处理，最终得到输出消息，而不是在数据的类型结构不同时，需要不同的软件分别对所述进行预处理，本发明实施例提高了数据预处理的效率，并降低了数据预处理的操作成本。

可选地，为了提高数据预处理的灵活性，基于第一实施例提出本发明数据预处理方法的第二实施例，在本实施例中，参照图2，所述步骤S30包括：

步骤S31，确定所述输入消息的类型；

本步骤中，可以根据输入消息号或唯一标识找到对应的schema模型(即预设消息模型)，从schema模型中获取消息的类型。

步骤S32，根据预设的类型与消息执行流的映射关系，获取确定的类型对应的消息执行流；

步骤S33，基于获取的所述消息执行流确定处理器，其中，确定的所述处理器包括输出消息处理器；

在本实施例中，先确定所述输入消息的类型，所述类型包括呼叫类型、上网类型等等，在确定输入消息的类型后，根据预设的类型与消息执行流的映射关系，获取确定的类型对应的消息执行流，可以理解的是，系统中事先存储了消息类型与消息类型对应的消息执行流，即哪种消息对应哪种消息执行流，具体参照图8，将输入消息的类型定义为A，则可知道输入消息的类型对应的消息执行流为A-B-C-E-D。可以理解，此时所述消息执行流对应的处理器包括中间消息处理器和输出消息处理器，而所述中间消息处理器包括缓存消息处理器和/或临时消息处理器。值得注意的是，每个输入消息类型对应的消息执行流只有一种。

步骤S34，根据确定的所述处理器对所述输入消息进行逻辑处理，以得到输出消息。

本实施例中，同样参照图8，当所述输入消息的类型为E时，所述消息执行流为E-D，此时，可知道数据预处理过程中仅包括输入消息和输出消息，不包含中间消息，此时，所述确定的所述处理器为输出消息处理器，所述输出消息处理器对所述输入消息E进行逻辑处理，以得到输出消息D。

在本实施例中，参照图3，在确定的所述处理器还包括临时消息处理器和/或缓存消息处理器时，所述步骤S34包括：

步骤S341，确定所述临时消息处理器和/或所述缓存消息处理器对应的属性；

步骤S342，在所述临时消息处理器和/或所述缓存消息处理器对应的属性为可创建属性时，根据所述临时消息处理器对所述输入消息进行逻辑处理以得到临时消息，和/或根据所述缓存消息处理器对所述输入消息进行逻辑处理以得到缓存消息；

步骤S343，根据所述输出消息处理器对所述临时消息和/或所述缓存消息进行逻辑处理，以得到输出消息。

在本实施例中，在确定了所述处理器后，先确定所述处理器对应的属性，即在确定的所述处理器还包括临时消息处理器和/或缓存消息处理器时，确定所述临时消息处理器和/或所述缓存消息处理器对应的属性，在所述临时消息处理器和/或所述缓存消息处理器对应的属性为可创建属性时，根据所述临时消息处理器对所述输入消息进行逻辑处理以得到临时消息，和/或根据所述缓存消息处理器对所述输入消息进行逻辑处理以得到缓存消息，根据所述输出消息处理器对所述临时消息和/或所述缓存消息进行逻辑处理，以得到输出消息。可以理解的是，除了输入消息外，其他消息都可以存在创建条件处理器，即所述临时消息、缓存消息以及所述输出消息都存在创建条件处理器，而所述创建条件处理器设置为创建消息，例如，在临时消息的创建条件处理器对应的属性为可创建属性时，此时，所述输入消息通过所述临时消息处理器对应的创建条件处理器可生成临时消息，在临时消息的创建条件处理器对应的属性为不可创建属性时，此时，则所述输入消息不生成临时消息，可选地，所述缓存消息还存在更新条件处理器和删除条件处理器，即仅仅所述缓存消息处理器才对应更新条件处理器和删除条件处理器，所述更新处理器设置为更新缓存消息，所述删除条件处理器设置为删除老化的缓存消息。本实施例中，为更好理解本实施例，同样参照图8，当所述输入消息的类型为A时，所述消息执行流为A-B-C-E-D，可以理解的是，在得到所述消息执行流后，还可以根据消息模型中的创建条件和删除条件，决定是否生成该缓存消息或输出消息，或者一个消息执行流处理完后，是否删除该消息。即根据所述消息执行流中对应的处理器的属性确定是否能生成消息，若处理器的属性为不可创建属性，则所述处理器无法生成消息内容，在所述输入消息的类型为A时，所述执行流为A-B-C-E-D，若此时仅仅是消息C对应的处理器的属性为可创建属性，其它每一个消息对应的处理器的属性为不可创建属性，则最终生成的输出消息为C。

若每一个消息对应的处理器的属性都为可创建属性，则需要先确定每一个消息对应的高度值(如图1中，W_A表示A节点的高度值，W_B表示B节点的高度值，W_C表示C节点的高度值，W_E表示E节点的高度值)，按照每一个消息的高度值确定每一个消息的输出顺序。即，首先加载消息模型，建立内部映射关系。根据消息之间的引用关系建立消息执行流，当一个消息没有依赖其他消息时，可以认为是输入消息，那么就以该消息作为引用关系的入口，遍历关系图，找到引用关系的列表。如下表1：

消息	依赖消息列表
A
B	A

C	A
D	E，A，C
E	B，A

A、B、C、D和E五个消息依赖关系，A是没有依赖任何其他消息，所以它是输入消息，那么就可以以A为入口，遍历引用关系，每个消息的高度都是等于被其依赖的消息中高度最大值加上一。根据每个消息的高度值大小进行排序，最后得到一个依赖链表，保证被依赖的消息排在前面，可参照图9，最终，可得知输出消息为D。

可选地，为了提高数据预处理的灵活性，基于第二实施例提出本发明数据预处理方法的第三实施例，在本实施例中，所述执行步骤S343的同时，若接收到临时消息的存储指令，执行以下步骤：

在本实施例中，在根据所述输出消息处理器对所述临时消息及所述缓存消息进行逻辑处理，以得到输出消息的同时，若接收到临时消息的存储指令，将所述临时消息存储到预设的缓存区域中，以生成缓存消息，可参照图7，将临时消息流到缓存消息处理器中，以存储到预设的缓存区域中生成缓存消息，可以理解的是，根据所述缓存消息处理器对所述输入消息进行逻辑处理生成的缓存消息也是存储到预设的缓存区域中，在下次接收到数据预处理指令时，可将所述缓存区域中的缓存消息作为新的输入消息的被引用数据，实现了下次处理数据时，可将本次产生的临时消息或者缓存消息作为被引用数据，提高了数据处理的效率。

本实施例中，数据库中或者是一些配置化的数据可以动态加载到缓存中，以便预处理过程中可以作为被引用的数据。

可选地，为了提高数据预处理的灵活性，基于第三实施例提出本发明数据预处理方法的第四实施例，在本实施例中，所述数据预处理方法还包括：

在本实施例中，缓存消息可能会随着消息不断处理，而越来越多，因此，缓存消息一般需要存在最大数量限制、保存周期和淘汰删除机制，因此，本实施例中通过定时删除所述缓存区域中的缓存消息，避免了缓存区域中的缓存消息占用过多的容量，从而降低了数据预处理的运行效率，本实施例通过定时删除缓存消息，增大了缓存区域的存储空间，提高了系统的运行效率。

可选地，缓存消息存在对应的定时服务，每个缓存消息本身绑定定时器信息，使得当缓存区域中存在海量数据时，可以自动删除缓存消息。

上述方法可以通过服务器实现。

本发明实施例还提出了一种计算机可读存储介质，存储有计算机可执行指令，计算机可执行指令用于执行上述描述的任意一个方法。

本发明进一步提供一种数据预处理装置。

参照图4，图4为本发明数据预处理装置第一实施例的功能模块示意图。

需要强调的是，对本领域的技术人员来说，图4所示功能模块图仅仅是一个可选实施例的示例图，本领域的技术人员围绕图4所示的数据预处理装置的功能模块，可轻易进行新的功能模块的补充；每一个功能模块的名称是自定义名称，仅用于辅助理解该数据预处理装置的每一个程序功能块，不用于限定本发明的技术方案，本发明技术方案的核心是，每一个自定义名称的功能模块所要达成的功能。

本实施例提出一种数据预处理装置，所述数据预处理装置包括：

获取模块10，设置为在接收到数据预处理指令时，获取待处理的数据；

在本实施例中，在接收到所述数据预处理指令时，所述获取模块10获取所述待处理的数据，所述待处理数据包括：数据源产生的数据，值得注意的是，在数据预处理过程中，可获取上一次数据预处理过程产生的临时消息或缓存消息，并将所述临时消息或缓存消息作为待处理数据的被引用数据，可选地，在上一次数据预处理过程中产生的临时消息可先存储到预设的缓存空间中成为缓存消息，然后在本次进行数据预处理时，将所述缓存区域中的缓存消息作为待处理数据的被引用数据。

映射模块20，设置为将获取的待处理的数据映射为预设消息模型对应的输入消息；

在本实施例中，数据预处理过程中是先将待处理的数据抽象成消息，再对抽象后的消息进行预处理，将待处理的数据抽象成消息的方式包括：通过加载预设的消息模型，即所述映射模块20将待处理的数据映射为所述消息模型对应的输入消息，所述映射模块20是设置为采用以下方式实现将待处理数据映射为所述消息模型对应的输入消息：提取待处理的数据中包含的每一个字段信息，根据预设的消息模型，将提取的每一个字段信息按照所述消息模型的形式进行排列，最终将排列好的字段信息作为输入消息。

1、消息名称、消息类型；

其中，所述消息名称是以字母开头的字符串，不能包含的特殊字符，例如，特殊字符包括空格，‘.’，‘-’等，并且由于消息名称需要在消息模型中相互引用，因此消息模型名称必须全局唯一，且能代表描述消息的含义，消息名称同时也作为模型配置的文件名；而所述消息类型包括所述消息模型的编码方式，所述消息模型的编码方式可以是固定格式编码，如TLV(Type-Length-Value，一种编码格式)编码，也可以是自定义的一些复杂编码等等。

而消息中的字段的结构内容包括：

1、字段名称、字段类型、字段长度等；

处理模块30，设置为采用预设的处理器对所述输入消息进行逻辑处理，以得到输出消息，其中，所述处理器对所述输入消息进行逻辑处理包括：提取所述输入消息的字段信息，并对所述字段信息进行加工变形，以得到输出消息。

在本实施例中，所述处理模块30采用预设的处理器对所述输入消息进行逻辑处理，以得到输出消息，也就是说先提取所述输入消息的字段信息，然后对所述字段信息进行逻辑处理，即将所述字段信息进行加工变形，得到待输出形式的消息，并将所述待输出的形式的消息作为输出消息。

为更好理解本方案，举例应用场景如下：数据预处理系统启动时会加载预设的消息模型，参照图7，消息模型包括输入消息模型、中间消息(包括临时消息和缓存消息)模型和预处理后的输出消息模型。加载完所述消息模型后，将待处理的数据映射为可以直接高效定位的内部结构，得到输入消息，可选地，此时可加载配置信息，将加载的配置信息转化为缓存消息，配置信息可以以多种形式存在，比如关系数据库、属性文件、XML文件等，缓存消息存在存在关键字，在内部会建立关键字和缓存消息的映射，允许按关键字查找或条件匹配查找。缓存消息可以设置为数据回填、数据归约等大数据预处理，同时，加载消息接收服务，即确定数据预处理后待传输的对象，并启动所述消息接收服务，所述消息接收服务可以是UDP(User Datagram Protocol，用户数据报协议)协议或TCP(Transmission Control Protocol，传输控制协议)协议的网络接收服务，具体根据实际网络场景选择相应的协议。最后，通过预设的处理器对所述输入消息进行处理，以提取所述输入消息中的字段信息，并对提取的所述字段信息进行逻辑加工，以得到待输出形式的消息，最终将所述输出消息进行输出。

本实施例提出的数据预处理装置，在接收到数据预处理指令时，获取待处理的数据，将获取的所述数据映射为预设消息模型对应的输入消息，采用预设的处理器对所述输入消息进行逻辑处理，以得到输出消息，其中，所述处理器对所述输入消息进行逻辑处理包括：提取所述输入消息的字段信息，并对所述字段信息进行加工变形，以得到输出消息，实现了将不同类型的数据映射为消息模型对应的输入消息，也就是将数据去结构化，以提取出输入消息的字段信息，并对提取的字段信息进行逻辑处理，最终得到输出消息，而不是在数据的类型结构不同时，需要不同的软件分别对所述进行预处理，本发明实施例提高了数据预处理的效率，并降低了数据预处理的操作成本。

可选地，为了提高数据预处理的灵活性，基于第一实施例提出本发明数据预处理装置的第二实施例，在本实施例中，参照图5，所述处理模块30包括：

第一确定子模块31，设置为确定所述输入消息的类型；

获取子模块32，设置为根据预设的类型与消息执行流的映射关系，获取确定的类型对应的消息执行流；

第二确定子模块33，设置为基于获取的所述消息执行流确定处理器，其中，确定的所述处理器包括输出消息处理器；

在本实施例中，所述第一确定子模块31先确定所述输入消息的类型，所述类型包括呼叫类型、上网类型等等，在确定输入消息的类型后，所述获取子模块32根据预设的类型与消息执行流的映射关系，获取确定的类型对应的消息执行流，可以理解的是，系统中事先存储了消息类型与消息类型对应的消息执行流，即哪种消息对应哪种消息执行流，具体参照图8，将输入消息的类型定义为A，则可知道输入消息的类型对应的消息执行流为A-B-C-E-D，可以理解，此时所述消息执行流对应的处理器包括中间消息处理器和输出消息处理器，而所述中间消息处理器包括缓存消息处理器和/或临时消息处理器。值得注意的是，每个输入消息类型对应的消息执行流只有一种。

处理子模块34，设置为根据确定的所述处理器对所述字段消息进行逻辑处理，以得到输出消息。

本实施例中，同样参照图8，当所述输入消息的类型为E时，所述消息执行流为E-D，此时，可知道数据预处理过程中仅包括输入消息和输出消息，不包含中间消息，此时，所述第二确定子模块33确定的所述处理器为输出消息处理器，所述输出消息处理器对所述输入消息E进行逻辑处理，以得到输出消息D。

在本实施例中，参照图6，在确定的所述处理器还包括临时消息处理器和/或缓存消息处理器时，所述处理子模块34包括：

确定单元34，设置为确定所述临时消息处理器和/或所述缓存消息处理器对应的属性；

第一处理单元35，设置为在所述临时消息处理器和/或所述缓存消息处理器对应的属性为可创建属性时，根据所述临时消息处理器对所述输入消息进行逻辑处理以得到临时消息，和/或根据所述缓存消息处理器对所述输入消息进行逻辑处理以得到缓存消息；

第二处理单元36，设置为根据所述输出消息处理器对所述临时消息和/或所述缓存消息进行逻辑处理，以得到输出消息。

在本实施例中，在确定了所述处理器后，所述确定单元34先确定所述处理器对应的属性，即在确定的所述处理器还包括临时消息处理器和/或缓存消息处理器时，确定所述临时消息处理器和/或所述缓存消息处理器对应的属性，在所述临时消息处理器和/或所述缓存消息处理器对应的属性为可创建属性时，所述第一处理单元35根据所述临时消息处理器对所述输入消息进行逻辑处理以得到临时消息，和/或根据所述缓存消息处理器对所述输入消息进行逻辑处理以得到缓存消息，所述第二处理单元36根据所述输出消息处理器对所述临时消息和/或所述缓存消息进行逻辑处理，以得到输出消息。可以理解的是，除了输入消息外，其他消息都可以存在创建条件处理器，即所述临时消息、缓存消息以及所述输出消息都存在创建条件处理器，而所述创建条件处理器设置为创建消息，例如，在临时消息的创建条件处理器对应的属性为可创建属性时，此时，所述输入消息通过所述临时消息处理器对应的创建条件处理器可生成临时消息，在临时消息的创建条件处理器对应的属性为不可创建属性时，此时，则所述输入消息不生成临时消息，可选地，所述缓存消息还存在更新条件处理器和删除条件处理器，即仅仅所述缓存消息处理器才对应更新条件处理器和删除条件处理器，所述更新处理器设置为更新缓存消息，所述删除条件处理器设置为删除老化的缓存消息。本实施例中，为更好理解本实施例，同样参照图8，当所述输入消息的类型为A时，所述执行流为A-B、A-B-C-E-D，可以理解的是，在得到所述消息执行流后，还可以根据消息模型中的创建条件和删除条件，决定是否生成该缓存消息或输出消息，或者一个消息执行流处理完后，是否删除该消息。即根据所述消息执行流中对应的处理器的属性确定是否能生成消息，若处理器的属性为不可创建属性，则所述处理器无法生成消息内容，在所述输入消息的类型为A时，所述执行流为所述消息执行流中对应的，若此时仅仅是消息C对应的处理器的属性为可创建属性，其它每一个消息对应的处理器的属性为不可创建属性，则最终生成的输出消息为C。

若每一个消息对应的处理器的属性都为可创建属性，则需要先确定每一个消息对应的高度值，按照每一个消息的高度值确定每一个消息的输出顺序。即，首先加载消息模型，建立内部映射关系。根据消息之间的引用关系建立消息执行流，当一个消息没有依赖其他消息时，可以认为是输入消息，那么就以该消息作为引用关系的入口，遍历关系图，找到引用关系的列表。如下表1：

消息	依赖消息列表
A
B	A
C	A
D	E，A，C
E	B，A

A、B、C、D和E五个消息依赖关系，A是没有依赖任何其他消息，所以它是输入消息，那么就可以以A为入口，遍历引用关系，每个消息的高度都是等于被其依赖的消息中高度最大值加上一。根据每个消息的高度值大小进行排序，最后得到一个依赖链表，保证被依赖的消息排在前面，可参照图9，最终，可得输出消息为D。

可选地，为了提高数据预处理的灵活性，基于第二实施例提出本发明数据预处理装置的第三实施例，在本实施例中，所述数据预处理装置还包括：

在本实施例中，在根据所述输出消息处理器对所述临时消息及所述缓存消息进行逻辑处理，以得到输出消息的同时，若接收到临时消息的存储指令，将所述临时消息存储到预设的缓存区域中，以生成缓存消息，可参照图7，将临时消息流到缓存消息处理器中，以存储到预设的缓存区域中生成缓存消息，可以理解的是，根据所述缓存消息处理器对所述输入消息进行逻辑处理生成的缓存消息也是存储到预设的缓存区域中，在下次接收到数据预处理指令时，所述获取模块10可将所述缓存区域中的缓存消息作为新的输入消息的被引用数据，实现了下次处理数据时，可将本次产生的临时消息或者缓存消息作为被引用数据，提高了数据处理的效率。

可选地，为了提高数据预处理的灵活性，基于第三实施例提出本发明数据预处理装置的第四实施例，在本实施例中，所述数据预处理装置还包括：

在本实施例中，缓存消息可能会随着消息不断处理，而越来越多，因此，缓存消息一般需要存在最大数量限制、保存周期和淘汰删除机制，因此，本实施例中所述删除模块通过定时删除所述缓存区域中的缓存消息，避免了缓存区域中的缓存消息占用过多的容量，从而降低了数据预处理的运行效率，本实施例通过定时删除缓存消息，增大了缓存区域的存储空间，提高了系统的运行效率。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，例如通过集成电路来实现其相应功能，也可以采用软件功能模块的形式实现，例如通过处理器执行存储与存储器中的程序/指令来实现其相应功能。本发明不限于任何特定形式的硬件和软件的结合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

工业实用性

上述技术方案提高了数据预处理的效率，并降低了数据预处理的操作成本。

Claims

一种数据预处理方法，所述数据预处理方法包括以下步骤：

在接收到数据预处理指令时，获取待处理的数据；

将获取的待处理的数据映射为预设消息模型对应的输入消息；

采用预设的处理器对所述输入消息进行逻辑处理，以得到输出消息，其中，所述处理器对所述输入消息进行逻辑处理包括：提取所述输入消息的字段信息，并对所述字段信息进行加工变形，以得到输出消息。
如权利要求1所述的数据预处理方法，其中，所述采用预设的处理器对所述输入消息进行逻辑处理，以得到输出消息的步骤包括：

确定所述输入消息的类型；

根据预设的类型与消息执行流的映射关系，获取确定的类型对应的消息执行流；

基于获取的所述消息执行流确定所述处理器，其中，确定的所述处理器包括输出消息处理器；

根据确定的所述处理器对所述输入消息进行逻辑处理，以得到输出消息。
如权利要求2所述的数据预处理方法，其中，在确定的所述处理器还包括临时消息处理器和/或缓存消息处理器时，所述根据确定的所述处理器对所述输入消息进行逻辑处理，以得到输出消息的步骤包括：

确定所述临时消息处理器和/或所述缓存消息处理器对应的属性；

在所述临时消息处理器和/或所述缓存消息处理器对应的属性为可创建属性时，根据所述临时消息处理器对所述输入消息进行逻辑处理以得到临时消息，和/或根据所述缓存消息处理器对所述输入消息进行逻辑处理以得到缓存消息；

根据所述输出消息处理器对所述临时消息和/或所述缓存消息进行逻辑处理，以得到输出消息。
如权利要求3所述的数据预处理方法，所述根据所述输出消息处理器对所述临时消息和/或所述缓存消息进行逻辑处理，以得到输出消息的同时，若接收到临时消息的存储指令，执行以下步骤：

将所述临时消息存储到预设的缓存区域中，以生成缓存消息，以供下次接收到数据预处理指令时，将所述缓存区域中的缓存消息作为新的输入消息的被引用数据。
如权利要求4所述的数据预处理方法，所述数据预处理方法还包括：

在所述缓存区域的消息存储容量值达到预设容量值时，删除所述缓存区域中的部分缓存消息，其中，删除的缓存消息的访问时间早于未删除的缓存消息的访问时间；

或者，删除所述缓存区域中访问时间点距离当前时间点达到预设时长的缓存消息。
一种数据预处理装置，所述数据预处理装置包括：

获取模块，设置为在接收到数据预处理指令时，获取待处理的数据；

映射模块，设置为将获取的待处理的数据映射为预设消息模型对应的输入消息；

处理模块，设置为采用预设的处理器对所述输入消息进行逻辑处理，以得到输出消息，其中，所述处理器对所述输入消息进行逻辑处理包括：提取所述输入消息的字段信息，并对所述字段信息进行加工变形，以得到输出消息。
如权利要求6所述的数据预处理装置，其中，所述处理模块包括：

第一确定子模块，设置为确定所述输入消息的类型；

获取子模块，设置为根据预设的类型与消息执行流的映射关系，获取确定的类型对应的消息执行流；

第二确定子模块，设置为基于获取的所述消息执行流确定所述处理器，其中，确定的所述处理器包括输出消息处理器；

处理子模块，设置为根据确定的所述处理器对所述输入消息进行逻辑处理，以得到输出消息。
如权利要求7所述的数据预处理装置，其中，在确定的所述处理器还包括临时消息处理器和/或缓存消息处理器时，所述处理子模块包括：

确定单元，设置为确定所述临时消息处理器和/或所述缓存消息处理器对应的属性；

第一处理单元，设置为在所述临时消息处理器和/或所述缓存消息处理器对应的属性为可创建属性时，根据所述临时消息处理器对所述输入消息进行逻辑处理以得到临时消息，和/或根据所述缓存消息处理器对所述输入消息进行逻辑处理以得到缓存消息；

第二处理单元，设置为根据所述输出消息处理器对所述临时消息和/或所述缓存消息进行逻辑处理，以得到输出消息。
如权利要求8所述的数据预处理装置，所述数据预处理装置还包括：

存储单元，设置为若接收到临时消息的存储指令，将所述临时消息存储到预设的缓存区域中，以生成缓存消息，以供下次接收到数据预处理指令时，将所述缓存区域中的缓存消息作为新的输入消息的被引用数据。
如权利要求9所述的数据预处理装置，所述数据预处理装置还包括：

删除模块，设置为在所述缓存区域的消息存储容量值达到预设容量值时，删除所述缓存区域中的部分缓存消息，其中，删除的缓存消息的访问时间早于未删除的缓存消息的访问时间；

或者，删除所述缓存区域中访问时间点距离当前时间点达到预设时长的缓存消息。