WO2019153735A1

WO2019153735A1 - 数据处理方法、装置和系统

Info

Publication number: WO2019153735A1
Application number: PCT/CN2018/104530
Authority: WO
Inventors: 胡洋; 张赞; 李泽敏
Original assignee: 华为技术有限公司
Priority date: 2018-02-11
Filing date: 2018-09-07
Publication date: 2019-08-15
Also published as: CN108427725A; US20200372039A1; CN108427725B

Abstract

本发明实施例公开了一种数据处理方法、装置和系统，属于计算机技术领域。所述方法包括：分发服务器在获取原始数据之后，确定原始数据的目标类型，根据目标类型确定原始数据所属的目标计算服务器，然后通过向目标计算服务器发送数据存储请求来发送该目标类型的原始数据。进而，目标计算服务器接收分发服务器发送的数据存储请求，并存储目标类型的原始数据，每当达到预设的聚合周期，根据当前的聚合周期内接收的目标类型的原始数据，确定当前的聚合周期的目标类型的聚合数据。采用本发明，可以提高数据统计处理的效率。

Description

数据处理方法、装置和系统

技术领域

本发明涉及计算机技术领域，特别涉及一种数据处理方法、装置和系统。

背景技术

数据的统计规律可以应用于对事物的监控分析，例如，利用机房内各个服务器的CPU(Central Processing Unit，中央处理器)使用率的统计规律可以监控分析服务器的运行情况、利用各地区的降水量的统计规律可以监控分析各地区的气象变化情况、利用本市各个学生的成绩的统计规律可以监控分析本市的教育情况、利用本年度全国各个公民的工资的统计规律可以监控分析今年的国民生活水平情况等。

用于监控的数据可以随机存储在多个存储服务器中，但是当数据规模较大时，会导致浪费存储资源。因此，可以对数据进行统计处理，对得到的聚合数据再进行存储，减少存储资源的开销。统计的方法一般包括统计最大值、统计最小值、统计平均值、求和、统计个数等，将一段时间内采集到的大量数据统计为这段时间内的最大值、最小值、和值、数据个数等，即得到这段时间的聚合数据。上述聚合数据就可以反映数据的统计规律，在对事物进行监控分析时，可以不再需要原始的数据。在现有技术中，每当达到预设的聚合周期，计算服务器可以通过网络传输，获取各个存储服务器上的相同类型的数据，进而，将获取到的数据进行统计处理得到聚合数据。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

基于上述处理方式，每当进行统计处理，计算服务器需要等待各存储服务器传输数据，该过程会导致从统计处理的触发到结束的时间增加，从而降低数据统计处理的效率。

发明内容

为了实现提高数据统计处理的效率的目的，本发明实施例提供了一种数据处理方法、装置和系统。所述技术方案如下：

第一方面，提供了一种数据处理方法，该方法用于分发服务器，该方法包括：获取原始数据，其中，原始数据包括参数值和至少一个属性值；确定原始数据所属的目标类型，其中，目标类型包括的属性值在至少一个属性值中；根据目标类型，确定原始数据所属的目标计算服务器；向目标计算服务器发送数据存储请求，其中，数据存储请求中携带有原始数据。

本发明实施例所示的方案，分发服务器在获取到原始数据时，可以根据原始数据的目标类型，将原始数据分发给所属的目标计算服务器。分发服务器可以是周期性地获取该目标类型的原始数据，每当分发服务器获取到一条原始数据时，可以根据该原始数据的目标类型，确定需要将该原始数据分发到的目标计算服务器，然后可以向该目标计算服务器发送携带有该原始数据的数据存储请求。这样，同一类型的原始数据可以分发到同一个计算服务器上，当计算服务器进行统计处理时，计算所依赖的数据都存储在计算服务器中，而不再需要等待其它服务器传输数据，从而，提高数据统计处理的效率。

在一种可能的实现方式中，根据目标类型，确定原始数据所属的目标计算服务器，包括：确定目标类型对应的目标分组的组编号，根据预先设置的分组与计算服务器的对应关系，将目标分组对应的计算服务器确定为原始数据所属的目标计算服务器；数据存储请求中还携带有目标分组的组编号。

本发明实施例所示的方案，每当分发服务器接收到原始数据时，可以根据原始数据的目标类型计算得到所属的目标分组，进而，分发服务器可以根据预先设置的分组与计算服务器的对应关系，确定目标分组对应的目标计算服务器，该目标计算服务器即为该目标类型的原始数据所属的目标计算服务器。在得到原始数据所属的目标分组时，还可以将该目标分组的组编号对应地添加到原始数据的数据存储请求中。

在一种可能的实现方式中，确定目标类型对应的目标分组的组编号，包括：基于目标类型包括的属性值，计算目标类型的原始数据对应的目标分组的组编号。

本发明实施例所示的方案，将目标类型转换为对应的标识字符串，进而可以根据该标识字符串计算目标类型的原始数据对应的目标分组的组编号。标识字符串可以唯一地表示目标类型，使得不同类型的原始数据可能计算得到不同的组编号。

在一种可能的实现方式中，基于目标类型包括的属性值，计算目标类型对应的目标分组的组编号，包括：确定目标类型包括的属性值中每个字符对应的预设编码类型的编码；基于确定出的每个编码和预设的计算函数，计算目标类型对应的特征码；将特征码与分组总数目进行取余运算，将得到的余数确定为目标类型对应的目标分组的组编号。

本发明实施例所示的方案，分发服务器每当接收到原始数据时，可以将原始数据转换为统一格式的第一数据元组，然后将其中的每个属性都转换为字符串类型，并将每个字符转换为预设编码类型的编码，通过预先设置的计算函数，计算得到目标类型对应的特征码，用于表示该目标类型。将特征码除以分组总数目，可以得到对应的余数，余数与分组的组编号一一对应，因此，可以直接将得到的余数确定为目标类型对应的目标分组的组编号，简化余数与组编号的对应关系。

在一种可能的实现方式中，预设的计算函数包括以下函数中的一个函数或多个函数组成的组合函数：求和函数、求差函数、乘积函数、按位与函数。

本发明实施例所示的方案，可以通过不同的预设的计算函数，计算得到目标类型对应的特征码，不论是哪种计算函数，得到的特征码都用于将目标类型与其它类型区别开。

在一种可能的实现方式中，预设编码类型的编码为美国信息交换标准代码ASCII(American Standard Code for Information Interchange)码。

本发明实施例所示的方案，每个字符可以有唯一对应的ASCII码，将字符串中每个字符的ASCII码组合起来可以用于表示目标类型。

第二方面，提供了一种数据处理方法，该方法用于计算服务器，该方法包括：接收分发服务器发送的数据存储请求，其中，数据存储请求中携带有原始数据，原始数据包括参数值和至少一个属性值，原始数据属于目标类型，目标类型包括的属性值在至少一个属性值中；存储目标类型的原始数据；每当达到预设的聚合周期，根据当前的聚合周期内接收的属于该目标类型的原始数据，确定当前的聚合周期的属于该目标类型的聚合数据。

本发明实施例所示的方案，计算服务器随时可以接收到分发服务器发送的数据存储请求，然后，可以将数据存储请求中携带的原始数据获取出来，存储到内存中。每当达到聚合周期时，计算服务器可以从内存中读取出当前聚合周期内接收到目标类型的原始数据，对读取出的原始数据进行统计处理，计算当前聚合周期的目标类型的聚合数据。计算服务器可能接收到不止一个类型的原始数据，都可以对每种类型的原始数据进行上述处理，得到当前的聚合周期的每种类型的聚合数据。在统计处理时所依赖的数据不再需要占用网络带宽来传输，从而减少网络带宽的占用。

在一种可能的实现方式中，数据存储请求中还携带有目标分组的组编号；该方法还包括：存储目标类型对应的目标分组的组编号；每当达到预设的聚合周期，根据当前的聚合周期内接收的目标类型的原始数据，确定当前的聚合周期的目标类型的聚合数据，包括：每当达到预设的聚合周期，对于每个组编号，根据组编号对应的当前的聚合周期内接收的目标类型的原始数据，确定当前的聚合周期的目标类型的聚合数据。

本发明实施例所示的方案，计算服务器还可以同时将原始数据所属的目标分组的组编号获取出来，与原始数据对应地存储在内存中。每当需要对原始数据进行处理时，目标计算服务器可以根据进程对应的分组，将内存中当前的聚合周期内存储的该分组的组编号对应的原始数据读取出来。然后根据自定义聚合函数，对相同类型的原始数据进行统计处理，得到当前的聚合周期的每种类型的聚合数据。

在一种可能的实现方式中，聚合周期中包括多个第1级子聚合周期，第i级子聚合周期中包括多个第i+1级子聚合周期，其中，i为大于1小于n的任意正整数，n为预设正整数；每当达到预设的聚合周期，对于每个组编号，根据组编号对应的当前的聚合周期内接收的目标类型的原始数据，确定当前的聚合周期的目标类型的聚合数据，包括：每当达到第n级子聚合周期，分别获取当前的第n级子聚合周期内接收的每个组编号对应的原始数据，对于每个组编号，对获取的组编号对应的原始数据中目标类型的原始数据，分别进行统计处理，得到当前的第n级子聚合周期的目标类型的聚合数据，并存储每个聚合数据对应的组编号；每当达到第i级子聚合周期，分别获取当前的第i级子聚合周期内得到的每个组编号对应的所有第i+1级子聚合周期的聚合数据，对于每个组编号，对组编号对应的所有第i+1级子聚合周期的聚合数据，分别进行统计处理，得到当前的第i级子聚合周期的目标类型的聚合数据，并存储每个聚合数据对应的组编号；每当达到预设的聚合周期，分别获取当前的聚合周期内得到的每个组编号对应的所有第1级子聚合周期的聚合数据，对于每个组编号，对组编号对应的所有第1级子聚合周期的聚合数据，分别进行统计处理，得到当前的聚合周期的目标类型的聚合数据。

本发明实施例所示的方案，每当达到第n级子聚合周期时，触发对原始数据的统计处理，进而，分别基于每个进程，通过聚合函数自动索引当前分组中的所有数据，并将具有相同类型的原始数据进行统计处理，得到当前周期的目标类型的聚合数据，并将聚合数据与对应的组编号存储在内存中。每当达到第i级子聚合周期时，触发对当前周期内所有第i+1级的聚合数据的统计处理，分别得到每个分组的当前周期的目标类型的聚合数据，并将聚合数据与对应的组编号存储在内存中。每当达到预设的聚合周期时，触发对当前周期内所有第1级的聚合数据的统计处理，分别得到每个分组的当前周期的目标类型的聚合数据，并将聚合数据与对应的组编号存储在内存中。这样，将对预设的聚合周期内的原始数据的处理分散到各个子聚合周期中，一次计算的数据量减少，从而使得计算服务器的处理时间减少，提高数据统计处理的效率。

在一种可能的实现方式中，聚合周期包括m个第1级子聚合周期，第i级子聚合周期包括m个第i+1级子聚合周期，其中，m为预设正整数。

本发明实施例所示的方案，每个层次的聚合周期之间的倍数相同，使得每次进行统计计算时所使用的数据量较为均衡，从而数据聚合时每个计算服务器的计算效率和内存使用率达到平衡，数据聚合系统可以平稳运行。

在一种可能的实现方式中，得到当前的第n级子聚合周期对应的聚合数据之后，删除当前的第n级子聚合周期内接收的每个组编号对应的原始数据；得到当前的第i级子聚合周期对应的聚合数据之后，删除当前的第i级子聚合周期内得到的每个组编号对应的所有第i+1级子聚合周期的聚合数据；得到当前的聚合周期对应的聚合数据之后，删除当前的聚合周期内得到的每个组编号对应的所有第1级子聚合周期的聚合数据。

本发明实施例所示的方案，每当得到聚合数据之后，删除计算该聚合数据所依赖的数据删除，以节省内存的使用。

第三方面，提供了一种分发服务器，该分法服务器包括至少一个模块，该至少一个模块用于实现上述第一方面所提供的数据处理方法。

第四方面，提供了一种计算服务器，该计算服务器包括至少一个模块，该至少一个模块用于实现上述第二方面所提供的数据处理方法。

第五方面，提供了一种数据处理系统，该系统包括分发服务器和计算服务器，其中：

分发服务器，用于获取原始数据，其中，原始数据包括参数值和至少一个属性值；确定原始数据所属的目标类型，其中，目标类型包括的属性值在至少一个属性值中；根据目标类型，确定原始数据所属的目标计算服务器；向目标计算服务器发送数据存储请求，其中，数据存储请求中携带有原始数据；

计算服务器，用于接收分发服务器发送的数据存储请求，其中，数据存储请求中携带有原始数据，原始数据包括参数值和至少一个属性值，原始数据属于目标类型，目标类型包括的属性值在至少一个属性值中；存储目标类型的原始数据；每当达到预设的聚合周期，根据当前的聚合周期内接收的目标类型的原始数据，确定当前的聚合周期的目标类型的聚合数据。

第六方面，提供一种分发服务器，该分发服务器包括处理器、存储器，处理器被配置为执行存储器中存储的指令；处理器通过执行指令来实现上述第一方面所提供的数据处理方法。

第七方面，提供一种计算服务器，该计算服务器包括处理器、存储器，处理器被配置为执行存储器中存储的指令；处理器通过执行指令来实现上述第二方面所提供的数据处理方法。

第八方面，提供了计算机可读存储介质，包括指令，当所述计算机可读存储介质在分发服务器上运行时，使得分发服务器执行第一方面所述的方法。

第九方面，提供了一种包含指令的计算机程序产品，当所述计算机程序产品在分发服务器上运行时，使得分发服务器执行第一方面所述的方法。

第十方面，提供了一种计算机可读存储介质，包括指令，当所述计算机可读存储介质在计算服务器上运行时，使得计算服务器执行第二方面所述的方法。

第十一方面，提供了一种包含指令的计算机程序产品，当所述计算机程序产品在计算服务器上运行时，使得计算服务器执行第二方面所述的方法。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例中，分发服务器可以在获取目标类型的原始数据之后，根据目标类型确定原始数据所属的目标计算服务器，然后通过向目标计算服务器发送数据存储请求来发送该目标类型的原始数据。进而，目标计算服务器可以接收分发服务器发送的数据存储请求，并存储目标类型的原始数据，每当达到预设的聚合周期，根据当前的聚合周期内接收的每种类型的原始数据，确定当前的聚合周期的每种类型的聚合数据。这样，同一类型的原始数据可以分发到同一个计算服务器上，当计算服务器进行统计处理时，计算所依赖的数据都存储在计算服务器中，而不再需要等待其它服务器传输数据，从而，提高数据统计处理的效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种系统框架示意图；

图2是本发明实施例提供的一种分发服务器结构示意图；

图3是本发明实施例提供的一种计算服务器结构示意图；

图4是本发明实施例提供的一种数据聚合的方法流程图；

图5是本发明实施例提供的一种数据聚合的方法流程图；

图6是本发明实施例提供的一种计算组编号示意图；

图7是本发明实施例提供的一种聚合周期划分示意图；

图8是本发明实施例提供的一种并行处理示意图；

图9是本发明实施例提供的一种二叉树聚合周期划分示意图；

图10是本发明实施例提供的一种数据聚合的装置示意图；

图11是本发明实施例提供的一种数据聚合的装置示意图；

图12是本发明实施例提供的一种数据聚合的装置示意图。

具体实施方式

本发明实施例提供了一种数据处理方法，该方法可以用于数据处理系统，如图1所示，该系统中可以至少包括分发服务器和计算服务器，并且系统中可以包括多个计算服务器，可以包括一个或多个分发服务器。分发服务器与计算服务器之间可以建立通信连接。为了避免在聚合计算的过程中数据需要在各个服务器之间传输，分发服务器在获取数据源的原始数据后，可以将同一类型的原始数据分发给同一个计算服务器，并且可以将各个类型的原始数据分发给各个计算服务器。计算服务器可以对原始数据进行统计处理，得到聚合数据。上述分发服务器和计算服务器在实际场景中可以由同一个服务器实现相应的功能，该服务器在执行分发进程时即为逻辑上的分发服务器，在执行计算进程时即为逻辑上的计算服务器。

分发服务器可以包括处理器210、发射器220、接收器230，接收器230和发射器220可以分别与处理器210连接，如图2所示。接收器230可以用于接收消息或数据，即可以接收其它电子设备发送的原始数据，发射器220和接收器230可以是网卡，发射器220可以用于发送消息或数据，即可以将获取到的原始数据发送给各个计算服务器。处理器210可以是服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，如接收器230和发射器220等。在本发明中，处理器210可以是CPU，可以用于确定原始数据所属的目标计算服务器的相关处理，可选的，处理器210可以包括一个或多个处理单元；处理器210可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统，调制解调处理器主要处理无线通信。处理器210还可以是数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件等。服务器还可以包括存储器240，存储器240可用于存储软件程序以及模块，处理器210通过读取存储在存储器的软件代码以及模块，从而执行服务器的各种功能应用以及数据处理。

计算服务器可以包括处理器310、发射器320、接收器330，接收器330和发射器320可以分别与处理器310连接，如图3所示。接收器330可以用于接收消息或数据，即可以接收各个分发服务器发送的原始数据，发射器320和接收器330可以是网卡，发射器320可以用于发送消息或数据。处理器310可以是服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，如接收器330和发射器320等。在本发明中，处理器310可以是CPU，可以用于确定聚合数据的相关处理，可选的，处理器310可以包括一个或多个处理单元；处理器310可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统，调制解调处理器主要处理无线通信。处理器310还可以是数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件等。服务器还可以包括存储器340，存储器340可用于存储软件程序以及模块，处理器310通过读取存储在存储器的软件代码以及模块，从而执行服务器的各种功能应用以及数据处理。

下面将结合具体实施方式，对图4所示的数据聚合的方法流程图，进行详细的说明，内容可以如下：

在步骤401中，分发服务器获取原始数据。

其中，原始数据是数据源设备提供给分发服务器的数据，包括参数值和至少一个属性值，也即原始数据中可以包括需要统计的参数值和该参数值对应的属性值。原始数据的各个属性值的组合可以用来表示该原始数据的类型。目标类型是分发服务器当前获取到的原始数据所属的类型，其包括的属性值在原始数据的至少一个属性值中。在本方案中，是针对同类型的原始数据进行聚合处理的，所以本方案的后续处理中会将同类型的原始数据存储在同一计算服务器中，以便进行聚合处理。

根据不同的监控需求，技术人员可以设置统计时所需要的原始数据的属性组合。例如，可以对任一班级中任一学生任一科目的成绩的长期情况进行监控，原始数据可以如下表一所示，其中，每一行对应一条原始数据。

表一本校班级学生各科成绩表

班级	姓名	科目	成绩
一班	张三	语文	90
二班	李四	语文	85
一班	张三	数学	100
一班	王六	语文	95
二班	李四	数学	90

在表一中，班级、姓名、科目为属性，成绩为参数，一班、二班为班级属性的属性值，张三、李四、王六为姓名属性的属性值，语文、数学为科目属性的属性值，90、85、100等为成绩参数的参数值，其中，一班、张三、语文即为一个类型，可称作类型1，二班、李四、语文又为一个类型，可称作类型2，一班、张三、数学即为一个类型，可称作类型3，等等。此表中只记录了一次考试成绩，对于每个类型，可以统计多次考试的成绩，对多次考试的成绩进行分析，例如，一班张三在连续多次考试中的语文成绩分别为76、79、82、86、88、90，也即统计过程中接收到的类型1的成绩依次为76、79、82、86、88、90，进而可以对类型1的数据进行分析，也即对一班张三的语文成绩进行分析，可以看出他的语文是在进步的。

又例如，可以对任一班级中任一学生的总成绩的长期情况进行监控，原始数据可以如下表二所示，其中，每一行对应一条原始数据。

表二本校班级学生成绩表

班级	姓名	总成绩
一班	张三	602
二班	李四	586
一班	王六	627

在表二中，班级、姓名为属性，总成绩为参数，一班、二班为班级属性的属性值，张三、李四、王六为姓名属性的属性值，602、586、627为总成绩参数的参数值，其中，一班、张三即为一个类型，可称作类型4，二班、李四又为一个类型，可称作类型5，一班、王六即为一个类型，可称作类型6，等等。此表中只记录了一次考试成绩，对于每个类型，可以统计多次考试的成绩，对多次考试的成绩进行分析，例如，一班张三在连续多次考试中的总成绩分别为580、585、610、596、572、602，也即统计过程中得到的类型4的总成绩依次为580、585、610、596、572、602，进而可以对类型4的数据进行分析，也即对一班张三的总成绩进行分析，可以看出他在高考中得到一本是很有希望的。

再例如，可以对任一班级的语文平均成绩的长期情况进行监控，原始数据可以如下表三所示，其中，每一行对应一条原始数据。

表三本校班级语文平均成绩表

班级	平均成绩
一班	90
二班	85

在表三中，班级为属性，平均成绩为参数，一班、二班为班级的属性值，90、85为平均成绩参数的参数值，其中，一班即为一个类型，可称作类型7，二班又为一个类型，可称作类型8，等等。此表中只记录了一次语文考试的平均成绩，对于每个类型，可以统计多次语文考试的平均成绩，对多次语文考试的平均成绩进行分析，例如，一班在连续多次语文考试中的平均成绩分别为85、80、86、90、76、84，也即统计过程中得到的类型7的平均成绩依次为85、80、86、90、76、84，进而可以对类型7的数据进行分析，也即对一班的语文平均成绩进行分析，可以看出一班的语文平均成绩处于优秀水平。

在实施中，原始数据来源可以是多样的，例如，当用于监控的数据为学生的成绩时，原始数据可以来自网络侧的云端存储的数据；当用于监控的数据为降水量时，原始数据可以来自各个监控站的监控设备发送的数据；当用于监控的数据为服务器的CPU使用率、内存使用率时，原始数据可以来自于分发服务器本身。由此可见，原始数据的类型可以是多种多样的，本发明实施例以一个类型(即目标类型)的原始数据为例，其它类型的原始数据的处理过程相同，不再赘述。

对于目标类型的原始数据，分发服务器可以是周期性地获取该原始数据。例如，机房内的每台服务器可以每隔10秒采集一次CPU使用率，然后可以将采集的CPU使用率作为原始数据发送给分发服务器，进而分发服务器可以获取到各个服务器的CPU使用率。

分发服务器获取到的原始数据的格式可以是文本、RDD(Resilient Distributed Datasets，弹性分布式数据集)、JSON(Java Script Object Notation，Java脚本对象标记)等。若以监控服务器的CPU使用率为例，则原始数据可以为“服务器1的CPU使用率为54％”，“服务器1”与“CPU使用率”皆为该原始数据的属性值，“54％”是该原始数据的参数值。为了保证对各种格式的原始数据都能进行相同的数据聚合处理，可以预先设置固定格式的第一数据元组data1＝(p ₁，p ₂，...，p _s，d ₁，...，d _t)，其中，p _i为原始数据中的第i个属性值，d _j为原始数据中第j个参数值，data1中的所有p _i的组合可以用于表示数据的类型。

当分发服务器接收到一条原始数据时，即可继续进行步骤402。

在步骤402中，分发服务器确定原始数据所属的目标类型。

在实施中，根据设置好的所需的至少一个属性，分发服务器可以从接收到的原始数据中提取出所需的至少一个属性的属性值，得到该原始数据所属的目标类型，然后可以将提取出的属性值赋值给上述第一数据元组的p _i，并且提取参数值赋值给d _j。也即将原始数据转换为统一格式的第一数据元组，例如，可以将上述例子中的原始数据转换为data1＝(服务器1，CPU使用率，54％)。

在步骤403中，分发服务器根据目标类型，确定原始数据所属的目标计算服务器。

在实施中，每当分发服务器获取到一条原始数据时，可以根据该原始数据的目标类型，确定需要将该原始数据分发到的目标计算服务器。经过上述处理，同一类型的原始数据可以分发到同一个计算服务器，仅在分发的过程中占用网络带宽，在统计的过程中可以不再占用带宽，减少计算过程中网络传输的开销，缩短整个数据聚合的方法流程的时间。

可选的，可以对原始数据进行分组，以便计算服务器对不同分组的原始数据进行并行处理，相应的处理可以如下：确定目标类型对应的目标分组的组编号，根据预先设置的分组与计算服务器的对应关系，将目标分组对应的计算服务器确定为原始数据所属的目标计算服务器。

在实施中，并行度k为数据聚合系统中可以同时执行的进程的数目。数据聚合系统的并行度k可以根据所有计算服务器的总CPU核数来预先设置，一般来说，并行度k等于总CPU核数的2到3倍，例如，如果计算服务器有3台，每台计算服务器的CPU都有4个核，那么并行度k可以设置为24。进而，数据的分组的总数目可以为k个，并且可以按照0～k-1进行编号，分别用于k个进程对分组中的数据进行处理。然后，可以随机设置计算服务器需要计算的分组的编号，也可以是按照一定的规则进行设置，此处不作限定。然后可以将分组的编号与计算服务器的标识添加到对应关系表中，建立分组与计算服务器的对应关系，进而将分组与计算服务器的对应关系存储在分发服务器中。例如，设置计算服务器2为处理分组2、分组3的数据时，可以将分组2与计算服务器2的对应关系、分组3与计算服务器2的对应关系存储在分发服务器中。

每当分发服务器接收到原始数据时，可以根据原始数据的目标类型计算得到所属的目标分组。可选的，分发服务器可以基于目标类型包括的属性值，计算目标类型对应的目标分组的组编号，如图5所示，具体的处理可以如下：

在步骤4031中，确定目标类型包括的属性值中每个字符对应的预设编码类型的编码。

其中，预设编码类型的编码可以是ASCII码，也可以是基于预设的字符到数字的映射关系得到的编码，例如基于SHA(Secure Hash Algorithm，安全散列算法)得到的编码。

可选的，当预设编码类型的编码可以为ASCII码时，对于上述第一数据元组的原始数据，分发服务器可以将其中的每个p _i都转换为字符串类型，即可得到目标类型包括的属性值对应的标识字符串的多个字符。然后，分发服务器可以将每个字符都转换为对应的ASCII码的数字。

在步骤4032中，基于确定出的每个编码和预设的计算函数，计算目标类型对应的特征码。

将步骤4031中确定下的每个字符对应的ASCII码的数字，通过预先设置的计算函数，计算得到目标类型对应的特征码，用于代表该目标类型。可选的，预设的计算函数可以包括以下函数中的一个函数或多个函数组成的组合函数：求和函数、求差函数、乘积函数、按位与函数。如图6所示的计算组编号示意图，如果原始数据的属性有“123” 和“abc”，则可以将每个属性转换为字符串“123”、“abc”，“1”对应的ASCII码的数字为49，“2”对应50，“3”对应51，“a”对应97，“b”对应“98”，“c”对应99，进行求和运算，得到目标类型对应的特征码S为444。

在步骤4033中，将特征码与分组总数目进行取余运算，将得到的余数确定为目标类型对应的目标分组的组编号。

将特征码除以分组总数目，可以得到对应的余数。上述预先设置分组的组编号的内容中介绍到，分组总数目为k，分组的组编号为0～k-1，则分组总数目作为除数时，余数的范围应为0～k-1，与分组的组编号一一对应。因此，可以直接将得到的余数确定为目标类型的原始数据对应的目标分组的组编号，简化余数与组编号的对应关系。如图6所示的计算组编号示意图，目标类型对应的特征码S为444，分组总数目k等于128，|S|％k＝60，即该目标类型的原始数据所属的目标分组为分组60。

进而，分发服务器可以根据预先设置的分组与计算服务器的对应关系，确定目标分组对应的目标计算服务器，该目标计算服务器即为该目标类型的原始数据所属的目标计算服务器。

对于每种类型的原始数据，每当分发服务器接收到原始数据时，都可以按照上述过程确定每种类型的原始数据所属的计算服务器。不同类型的原始数据所属的计算服务器可能相同，也可能不同，但是依然能够有效地减小一个进程所需要处理的数据量，从而提高进程处理的效率。

在步骤404中，分发服务器向目标计算服务器发送数据存储请求。

在实施中，分发服务器在上述过程中确定下需要将原始数据分发到的目标计算服务器后，可以向该目标计算服务器发送存储该原始数据的数据存储请求。其中，数据存储请求中携带有目标类型的原始数据。分发服务器仅仅需要在分发原始数据时占用一定的带宽，而在后续统计处理时所依赖的数据不再需要占用网络带宽来传输，从而减少网络带宽的占用。

可选的，数据存储请求中还可以携带有原始数据所属的目标分组的组编号。数据存储请求中携带有原始数据，该原始数据还可以是上述过程中转换成第一数据元组的原始数据，以便后续处理。

在步骤405中，目标计算服务器接收分发服务器发送的数据存储请求。

在实施中，目标计算服务器可以接收到分发服务器发送的数据存储请求，然后，可以将数据存储请求中携带的原始数据获取出来。可选的，目标计算服务器还可以同时将原始数据所属的目标分组的组编号获取出来。

在步骤406中，目标计算服务器存储目标类型的原始数据。

在实施中，目标计算服务器可以将获取到的原始数据存储到内存中，以便后续处理使用。可选的，目标计算服务器还可以同时存储目标类型对应的目标分组的组编号，也即将原始数据所属的目标分组的组编号，与原始数据对应地存储在内存中。

在聚合周期开始时，目标计算服务器可以随时接收到原始数据的数据存储请求。上述步骤405-406会在聚合周期之内重复执行，而只有聚合周期结束时，才继续执行步骤407。

在步骤407中，每当达到预设的聚合周期，目标计算服务器根据当前的聚合周期内接收的每种类型的原始数据，确定当前的聚合周期的目标类型的聚合数据。

在实施中，Spark是专为大规模数据处理而设计的快速通用的计算引擎，计算服务器中可以安装有Spark并基于Spark对数据进行处理。技术人员可以在Spark中对聚合周期进行预先设置，每当达到聚合周期时，目标计算服务器可以从内存中读取出当前聚合周期内接收到目标类型的原始数据，对读取出的原始数据进行统计处理，计算当前聚合周期的目标类型的聚合数据。例如，预设的聚合周期可以是60分钟，从数据聚合的程序运行开始，每当达到60分钟时，可以得到该60分钟内服务器1的CPU使用率的最大值、最小值、平均值、和值、数据个数等。目标计算服务器可能接收到不止一个类型的原始数据，都可以对每种类型的原始数据进行上述处理，得到当前的聚合周期的每种类型的聚合数据。

可选的，目标计算服务器可以根据存储的原始数据所属的分组，分别对每个分组的原始数据进行并行处理，相应的处理可以如下：每当达到预设的聚合周期，对于每个组编号，根据组编号对应的当前的聚合周期内接收的目标类型的原始数据，确定当前的聚合周期的目标类型的聚合数据。

在实施中，目标计算服务器可以基于多个进程对数据进行处理，每个进程对应一个分组。每当需要对原始数据进行处理时，目标计算服务器可以根据进程对应的分组，将内存中当前的聚合周期内存储的该分组的组编号对应的原始数据读取出来。对于上述第一数据元组的原始数据，可以将其中的每个p _i进行拼接，得到第二数据元组，各个属性拼接后构成第二数据元组的唯一属性，例如，第一数据元组data1＝(服务器1，CPU使用率，54％)，可以得到相应的第二数据元组data2＝(服务器1CPU使用率，54％)。然后根据自定义聚合函数，对相同属性的第二数据元组进行统计处理，得到当前的聚合周期的每种类型的聚合数据。之后，计算服务器还可以将已经进行过统计处理的原始数据进行删除，以节省内存的使用。

基于多个进程对多个分组的数据进行处理时，每个进程相互独立，也即每组数据可以同时进行处理，提高统计处理的并行度。

将原始数据转换成第一数据元组的格式时，没有添加多余的结构信息来构成DataFrame(数据帧)的格式，因此不能直接使用Spark中自带的聚合函数，而需要用户自定义。但是在进行具体的统计处理时，并没有使用到结构信息，而是在调用Spark自带的聚合函数时才会用到。因此，存储转换成第一数据元组的原始数据，可以避免存储多余的结构信息，从而减少内存的开销，提高内存使用率。

可选的，聚合周期还可以划分为多层次的子聚合周期，并可以根据周期较短的子聚合周期的聚合数据生成周期较长的子聚合周期的聚合数据。聚合周期中包括多个第1级子聚合周期，第i级子聚合周期中包括多个第i+1级子聚合周期，其中，i为大于1小于n的任意正整数，n为预设正整数。每个子聚合周期与聚合周期可以按照从小到大的顺序排列，构成一个聚合时间序列{t ₀，t ₁，…，t _w}。如图7所示的聚合周期划分示意图，600秒的聚合周期内可以划分为2个300秒的第1级子聚合周期，每个300秒的第1级子聚合周期可以划分为5个60秒的第2级子聚合周期，因此聚合时间序列可以为{60，300，600}。

如图8所示的并行处理示意图，每个分组的数据独立进行处理，互不干扰，并且可以根据聚合时间序列{t ₀，t ₁，…，t _w}重复进行统计处理。下面对各个子聚合周期以及聚合周期的统计处理进行详细介绍：

每当达到第n级子聚合周期，目标计算服务器可以分别获取当前的第n级子聚合周期内接收的每个组编号对应的原始数据，对于每个组编号，对获取的组编号对应的原始数据中目标类型的原始数据，分别进行统计处理，得到当前的第n级子聚合周期的目标类型的聚合数据，并存储每个聚合数据对应的组编号。

在实施中，第n级子聚合周期的周期长度最短，计算依赖的数据是当前周期内接收的原始数据。也即，每当达到第n级子聚合周期时，触发对原始数据的统计处理，进而，分别基于每个进程，通过聚合函数自动索引当前分组中的所有数据，并将具有相同属性的第二数据元组中的参数值进行统计处理，得到当前周期的目标类型的聚合数据，并将聚合数据与对应的组编号存储在内存中，以便后续处理。如图7所示的聚合周期划分示意图，60秒的第2级子聚合周期即对应于此处的第n级子聚合周期，计算依赖的数据为当前60秒内接收的原始数据。

可选的，每当得到当前的第n级子聚合周期的每种类型的聚合数据之后，还可以删除当前的第n级子聚合周期内接收的每个组编号对应的原始数据，也即将当前计算所依赖的数据删除，以节省内存的使用。得到的聚合数据还可以存入数据库或输出到Kafka(一种高吞吐量的分布式发布订阅消息系统)，以便用户查询或使用。上述过程中得到的聚合数据可能是第二数据元组的格式，则在存入数据库或输出到Kafka之前，可以将聚合数据转换为第一数据元组的格式，也即，将第二数据元组中的属性拆分为原第一数据元组的各个属性，这样可以便于用于根据不同的属性值进行查询。

每当达到第i级子聚合周期，目标计算服务器可以分别获取当前的第i级子聚合周期内得到的每个组编号对应的所有第i+1级子聚合周期的聚合数据，对于每个组编号，对组编号对应的所有第i+1级子聚合周期的聚合数据，分别进行统计处理，得到当前的第i级子聚合周期的目标类型的聚合数据，并存储每个聚合数据对应的组编号。

在实施中，第i级子聚合周期中计算依赖的数据是当前周期内得到的所有第i+1级的聚合数据。也即，每当达到第i级子聚合周期时，触发对当前周期内所有第i+1级的聚合数据的统计处理，分别得到每个分组的当前周期的目标类型的聚合数据，并将聚合数据与对应的组编号存储在内存中，具体过程与上面介绍第n级子聚合周期内进行的统计处理相类似，此处不再赘述。如图7所示的聚合周期划分示意图，300秒的第1级子聚合周期即对应于此处的第i级子聚合周期，计算300秒的聚合数据时，可以根据其中的5个60秒周期的聚合数据进行计算。

可选的，在此之后，还可以删除当前的第i级子聚合周期内得到的每个组编号对应的所有第i+1级子聚合周期的聚合数据，得到的聚合数据还可以存入数据库或输出到Kafka，此处不再赘述。

每当达到预设的聚合周期，目标计算服务器可以分别获取当前的聚合周期内得到的每个组编号对应的所有第1级子聚合周期的聚合数据，对于每个组编号，对组编号对应的所有第1级子聚合周期的聚合数据，分别进行统计处理，得到当前的聚合周期的目标类型的聚合数据。

在实施中，预设的聚合周期的周期长度最长，计算依赖的数据是当前周期内得到的所有第1级的聚合数据。也即，每当达到预设的聚合周期时，触发对当前周期内所有第1级的聚合数据的统计处理，分别得到每个分组的当前周期的目标类型的聚合数据，具体过程与上面介绍第n级子聚合周期内进行的统计处理相类似，此处不再赘述。如图7所示的聚合周期划分示意图，600秒的聚合周期即对应于此处的预设的聚合周期，计算600秒的聚合数据时，可以根据其中的2个300秒周期的聚合数据进行计算。

可选的，在此之后，还可以删除当前的第1级子聚合周期内得到的每个组编号对应的所有第i+1级子聚合周期的聚合数据，得到的聚合数据还可以存入数据库或输出到Kafka，此处不再赘述。由于聚合周期为预设的最大长度的周期，两个聚合周期之间的聚合数据不再进行统计处理，因此，在当前的聚合周期的每种类型的聚合数据存入数据库或输出到Kafka之后，可以将计算服务器中缓存的该聚合数据删除。

此时，聚合时间序列中的各个时间都已经执行过统计处理，则可以重复步骤407，进行下一个聚合周期的计算。如果直接对预设的聚合周期内的原始数据进行处理，一次计算的数据量可能比较大，则可能导致计算服务器的处理时间较长。而将对预设的聚合周期内的原始数据的处理分散到各个子聚合周期中，一次计算的数据量减少，从而使得计算服务器的处理时间减少，提高数据统计处理的效率。

可选的，聚合周期可以包括m个第1级子聚合周期，第i级子聚合周期也可以包括m个第i+1级子聚合周期，其中，m为预设正整数。也即，每个层次的聚合周期之间的倍数相同。如图9所示的二叉树聚合周期划分示意图，当m等于2时，各个子聚合周期与预设的聚合周期可以构成一个二叉树的形式，各个子聚合周期可以根据预设的聚合周期来确定，即t _i＝2 ⁱ*t ₀，其中，t _i为聚合时间序列{t ₀，t ₁，…，t _w}中的任一时间。例如，预设的聚合周期为600秒，600＝2 ³*75，则聚合时间序列可以为{75，150，300，600}。

进而，可以根据确定下的聚合时间序列执行步骤407的处理，此处不再赘述。由于每个层次的聚合周期之间的倍数相同，使得每次进行统计计算时所使用的数据量较为均衡，从而数据聚合时每个计算服务器的计算效率和内存使用率达到平衡，数据聚合系统可以平稳运行。

如果每个类型的数据得到的聚合数据存入数据库或输出到Kafka，则用户可以根据所需的属性信息，查询或调用聚合数据，以分析对应事物的变化趋势。例如，用户可以在数据库中查询，在过去的1个小时内服务器1每10分钟的CPU使用率的最大值、最小值、平均值等。

本发明实施例中，分发服务器可以在获取目标类型的原始数据之后，根据目标类型确定原始数据所属的目标计算服务器，然后通过向目标计算服务器发送数据存储请求来发送该目标类型的原始数据。进而，目标计算服务器可以接收分发服务器发送的数据存储请求，并存储目标类型的原始数据，每当达到预设的聚合周期，根据当前的聚合周期内接收的目标类型的原始数据，确定当前的聚合周期的目标类型的聚合数据。这样，同一类型的原始数据可以分发到同一个计算服务器上，当计算服务器进行统计处理时，计算所依赖的数据都存储在计算服务器中，而不再需要等待其它服务器传输数据，从而，提高数据统计处理的效率。

基于相同的技术构思，本发明实施例还提供了一种数据处理装置，该装置可以是上述分发服务器，如图10所示，该装置包括：

获取模块1010，用于获取原始数据，其中，所述原始数据包括参数值和至少一个属性值，具体可以实现上述步骤401中的获取功能，以及其他隐含步骤；

第一确定模块1020，用于确定所述原始数据所属的目标类型，其中，所述目标类型包括的属性值在所述至少一个属性值中，具体可以实现上述步骤402中的确定功能，以及其他隐含步骤；第二确定模块1030，用于根据所述目标类型，确定所述原始数据所属的目标计算服务器，具体可以实现上述步骤403中的确定功能，以及其他隐含步骤；

发送模块1040，用于向所述目标计算服务器发送数据存储请求，其中，所述数据存储请求中携带有所述目标类型的原始数据，具体可以实现上述步骤404中的发送功能，以及其他隐含步骤。

可选的，所述第二确定模块1030用于：

确定所述目标类型对应的目标分组的组编号，根据预先设置的分组与计算服务器的对应关系，将所述目标分组对应的计算服务器确定为所述原始数据所属的目标计算服务器；

所述数据存储请求中还携带有所述目标分组的组编号。

可选的，所述第二确定模块1030用于：

基于所述目标类型包括的属性值，计算所述目标类型的原始数据对应的目标分组的组编号。

可选的，所述第二确定模块1030用于：

确定所述目标类型包括的属性值中每个字符对应的预设编码类型的编码；

基于确定出的每个编码和预设的计算函数，计算所述目标类型对应的特征码；

将所述特征码与分组总数目进行取余运算，将得到的余数确定为所述目标类型的原始数据对应的目标分组的组编号。

可选的，所述预设的计算函数包括以下函数中的一个函数或多个函数组成的组合函数：

求和函数、求差函数、乘积函数、按位与函数。

可选的，所述预设编码类型的编码为美国信息交换标准代码ASCII码。

需要说明的是，上述获取模块1010可以由收发器实现，第一确定模块1020可以由处理器实现，第二确定模块1030可以由处理器实现，发送模块1040可以由收发器实现。

基于相同的技术构思，本发明实施例还提供了一种数据处理装置，该装置可以是上述计算服务器，如图11所示，该装置包括：

接收模块1110，用于接收分发服务器发送的数据存储请求，其中，所述数据存储请求中携带有目标类型的原始数据，所述原始数据包括参数值和至少一个属性值，所述原始数据属于目标类型，所述目标类型包括的属性值在所述至少一个属性值中，具体可以实现上述步骤405中的接收功能，以及其他隐含步骤；

存储模块1120，用于存储所述目标类型的原始数据，具体可以实现上述步骤406 中的存储功能，以及其他隐含步骤；

确定模块1130，用于每当达到预设的聚合周期，根据当前的聚合周期内接收的目标类型的原始数据，确定当前的聚合周期的目标类型的聚合数据，具体可以实现上述步骤407中的确定功能，以及其他隐含步骤。

可选的，所述数据存储请求中还携带有目标分组的组编号；

所述存储模块1120还用于：存储所述目标类型对应的所述目标分组的组编号；

所述确定模块1130用于：每当达到预设的聚合周期，对于每个组编号，根据所述组编号对应的当前的聚合周期内接收的目标类型的原始数据，确定当前的聚合周期的目标类型的聚合数据。

可选的，所述聚合周期中包括多个第1级子聚合周期，第i级子聚合周期中包括多个第i+1级子聚合周期，其中，i为大于1小于n的任意正整数，n为预设正整数；所述确定模块1130用于：

每当达到第n级子聚合周期，分别获取当前的第n级子聚合周期内接收的每个组编号对应的原始数据，对于每个组编号，对获取的所述组编号对应的原始数据中目标类型的原始数据，分别进行统计处理，得到当前的第n级子聚合周期的目标类型的聚合数据，并存储每个聚合数据对应的组编号；

每当达到第i级子聚合周期，分别获取当前的第i级子聚合周期内得到的每个组编号对应的所有第i+1级子聚合周期的聚合数据，对于每个组编号，对所述组编号对应的所有第i+1级子聚合周期的聚合数据，分别进行统计处理，得到当前的第i级子聚合周期的目标类型的聚合数据，并存储每个聚合数据对应的组编号；

每当达到预设的聚合周期，分别获取当前的聚合周期内得到的每个组编号对应的所有第1级子聚合周期的聚合数据，对于每个组编号，对所述组编号对应的所有第1级子聚合周期的聚合数据，分别进行统计处理，得到当前的聚合周期的目标类型的聚合数据。

可选的，所述聚合周期包括m个第1级子聚合周期，第i级子聚合周期包括m个第i+1级子聚合周期，其中，所述m为预设正整数。

可选的，如图12所示，所述装置还包括：

删除模块1140，用于所述得到当前的第n级子聚合周期对应的聚合数据之后，删除当前的第n级子聚合周期内接收的每个组编号对应的原始数据；所述得到当前的第i级子聚合周期对应的聚合数据之后，删除当前的第i级子聚合周期内得到的每个组编号对应的所有第i+1级子聚合周期的聚合数据；所述得到当前的聚合周期对应的聚合数据之后，删除当前的聚合周期内得到的每个组编号对应的所有第1级子聚合周期的聚合数据。

需要说明的是，上述接收模块1110可以由收发器实现，存储模块1120可以由存储器实现，确定模块1130可以由处理器实现，删除模块1140可以由处理器与存储器共同实现。

需要说明的是：上述实施例提供的数据处理装置在处理数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将分发服务器和计算服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的数据处理装置与数据处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

基于相同的技术构思，本发明实施例还提供了一种数据处理系统，该系统包括分发服务器和计算服务器，其中：

计算服务器，用于接收分发服务器发送的数据存储请求，其中，数据存储请求中携带有目标类型的原始数据，原始数据包括参数值和至少一个属性值，原始数据属于目标类型，目标类型包括的属性值在至少一个属性值中；存储目标类型的原始数据；每当达到预设的聚合周期，根据当前的聚合周期内接收的目标类型的原始数据，确定当前的聚合周期的目标类型的聚合数据。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现，当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令，在设备上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴光缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是设备能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(如软盘、硬盘和磁带等)，也可以是光介质(如数字视盘(Digital Video Disk，DVD)等)，或者半导体介质(如固态硬盘等)。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种数据处理方法，其特征在于，所述方法用于分发服务器，所述分发服务器与多个计算服务器建立通信连接，所述方法包括：

获取原始数据，其中，所述原始数据包括参数值和至少一个属性值；

确定所述原始数据所属的目标类型，其中，所述目标类型包括的属性值在所述至少一个属性值中；

根据所述目标类型，确定所述原始数据所属的目标计算服务器；

向所述目标计算服务器发送数据存储请求，其中，所述数据存储请求中携带有所述原始数据。
根据权利要求1所述的方法，其特征在于，所述根据所述目标类型，确定所述原始数据所属的目标计算服务器，包括：

确定所述目标类型对应的目标分组的组编号，根据预先设置的分组与计算服务器的对应关系，将所述目标分组对应的计算服务器确定为所述原始数据所属的目标计算服务器；

所述数据存储请求中还携带有所述目标分组的组编号。
根据权利要求2所述的方法，其特征在于，所述确定所述目标类型对应的目标分组的组编号，包括：

基于所述目标类型包括的属性值，计算所述目标类型对应的目标分组的组编号。
根据权利要求3所述的方法，其特征在于，所述基于所述目标类型包括的属性值，计算所述目标类型对应的目标分组的组编号，包括：

确定所述目标类型包括的属性值中每个字符对应的预设编码类型的编码；

基于确定出的每个编码和预设的计算函数，计算所述目标类型对应的特征码；

将所述特征码与分组总数目进行取余运算，将得到的余数确定为所述目标类型对应的目标分组的组编号。
一种数据处理方法，其特征在于，所述方法用于计算服务器，所述计算服务器与至少一个分发服务器建立通信连接，所述方法包括：

接收分发服务器发送的数据存储请求，其中，所述数据存储请求中携带有原始数据，所述原始数据包括参数值和至少一个属性值，所述原始数据属于目标类型，所述目标类型包括的属性值在所述至少一个属性值中；

存储所述目标类型的原始数据；

每当达到预设的聚合周期，根据当前的聚合周期内接收的属于所述目标类型的原始数据，确定当前的聚合周期的属于所述目标类型的聚合数据。
根据权利要求5所述的方法，其特征在于，所述数据存储请求中还携带有目标分组的组编号；

所述方法还包括：存储所述目标类型对应的所述目标分组的组编号；

所述每当达到预设的聚合周期，根据当前的聚合周期内接收的目标类型的原始数据，确定当前的聚合周期的目标类型的聚合数据，包括：每当达到预设的聚合周期，对于每个组编号，根据所述组编号对应的当前的聚合周期内接收的目标类型的原始数据，确定当前的聚合周期的目标类型的聚合数据。
根据权利要求6所述的方法，其特征在于，所述聚合周期中包括多个第1级子聚合周期，第i级子聚合周期中包括多个第i+1级子聚合周期，其中，i为大于1小于n的任意正整数，n为预设正整数；所述每当达到预设的聚合周期，对于每个组编号，根据所述组编号对应的当前的聚合周期内接收的目标类型的原始数据，确定当前的聚合周期的目标类型的聚合数据，包括：

每当达到第n级子聚合周期，分别获取当前的第n级子聚合周期内接收的每个组编号对应的原始数据，对于每个组编号，对获取的所述组编号对应的原始数据中目标类型的原始数据，分别进行统计处理，得到当前的第n级子聚合周期的目标类型的聚合数据，并存储每个聚合数据对应的组编号；

每当达到第i级子聚合周期，分别获取当前的第i级子聚合周期内得到的每个组编号对应的所有第i+1级子聚合周期的聚合数据，对于每个组编号，对所述组编号对应的所有第i+1级子聚合周期的聚合数据，分别进行统计处理，得到当前的第i级子聚合周期的目标类型的聚合数据，并存储每个聚合数据对应的组编号；

每当达到预设的聚合周期，分别获取当前的聚合周期内得到的每个组编号对应的所有第1级子聚合周期的聚合数据，对于每个组编号，对所述组编号对应的所有第1级子聚合周期的聚合数据，分别进行统计处理，得到当前的聚合周期的目标类型的聚合数据。
根据权利要求7所述的方法，其特征在于，所述聚合周期包括m个第1级子聚合周期，第i级子聚合周期包括m个第i+1级子聚合周期，其中，所述m为预设正整数。
根据权利要求7所述的方法，其特征在于，所述得到当前的第n级子聚合周期对应的聚合数据之后，所述方法还包括：删除当前的第n级子聚合周期内接收的每个组编号对应的原始数据；

所述得到当前的第i级子聚合周期对应的聚合数据之后，所述方法还包括：删除当前的第i级子聚合周期内得到的每个组编号对应的所有第i+1级子聚合周期的聚合数据；

所述得到当前的聚合周期对应的聚合数据之后，所述方法还包括：删除当前的聚合周期内得到的每个组编号对应的所有第1级子聚合周期的聚合数据。
一种分发服务器，其特征在于，所述分发服务器包括：

获取模块，用于获取原始数据，其中，所述原始数据包括参数值和至少一个属性值；

第一确定模块，用于确定所述原始数据所属的目标类型，其中，所述目标类型包括的属性值在所述至少一个属性值中；

第二确定模块，用于根据所述目标类型，确定所述原始数据所属的目标计算服务器；

发送模块，用于向所述目标计算服务器发送数据存储请求，其中，所述数据存储请求中携带有所述目标类型的原始数据。
根据权利要求10所述的分发服务器，其特征在于，所述第二确定模块用于：

确定所述目标类型对应的目标分组的组编号，根据预先设置的分组与计算服务器的对应关系，将所述目标分组对应的计算服务器确定为所述原始数据所属的目标计算服务器；

所述数据存储请求中还携带有所述目标分组的组编号。
根据权利要求11所述的分发服务器，其特征在于，所述第二确定模块用于：

基于所述目标类型包括的属性值，计算所述目标类型对应的目标分组的组编号。
根据权利要求12所述的分发服务器，其特征在于，所述第二确定模块用于：

确定所述目标类型包括的属性值中每个字符对应的预设编码类型的编码；

基于确定出的每个编码和预设的计算函数，计算所述目标类型对应的特征码；

将所述特征码与分组总数目进行取余运算，将得到的余数确定为所述目标类型对应的目标分组的组编号。
一种计算服务器，其特征在于，所述计算服务器包括：

接收模块，用于接收分发服务器发送的数据存储请求，其中，所述数据存储请求中携带有原始数据，所述原始数据包括参数值和至少一个属性值，所述原始数据属于目标类型，所述目标类型包括的属性值在所述至少一个属性值中；

存储模块，用于存储所述目标类型的原始数据；

确定模块，用于每当达到预设的聚合周期，根据当前的聚合周期内接收的目标类型的原始数据，确定当前的聚合周期的目标类型的聚合数据。
根据权利要求14所述的计算服务器，其特征在于，所述数据存储请求中还携带有目标分组的组编号；

所述存储模块还用于：存储所述目标类型对应的所述目标分组的组编号；

所述确定模块用于：每当达到预设的聚合周期，对于每个组编号，根据所述组编号对应的当前的聚合周期内接收的目标类型的原始数据，确定当前的聚合周期的目标类型的聚合数据。
根据权利要求15所述的计算服务器，其特征在于，所述聚合周期中包括多个第1级子聚合周期，第i级子聚合周期中包括多个第i+1级子聚合周期，其中，i为大于1小于n的任意正整数，n为预设正整数；所述确定模块用于：

每当达到第n级子聚合周期，分别获取当前的第n级子聚合周期内接收的每个组编号对应的原始数据，对于每个组编号，对获取的所述组编号对应的原始数据中目标类型的原始数据，分别进行统计处理，得到当前的第n级子聚合周期的目标类型的聚合数据，并存储每个聚合数据对应的组编号；

每当达到第i级子聚合周期，分别获取当前的第i级子聚合周期内得到的每个组编号对应的所有第i+1级子聚合周期的聚合数据，对于每个组编号，对所述组编号对应的所有第i+1级子聚合周期的聚合数据，分别进行统计处理，得到当前的第i级子聚合周期的目标类型的聚合数据，并存储每个聚合数据对应的组编号；

每当达到预设的聚合周期，分别获取当前的聚合周期内得到的每个组编号对应的所有第1级子聚合周期的聚合数据，对于每个组编号，对所述组编号对应的所有第1级子聚合周期的聚合数据，分别进行统计处理，得到当前的聚合周期的目标类型的聚合数据。
根据权利要求16所述的计算服务器，其特征在于，所述聚合周期包括m个第 1级子聚合周期，第i级子聚合周期包括m个第i+1级子聚合周期，其中，所述m为预设正整数。
根据权利要求16所述的计算服务器，其特征在于，所述计算服务器还包括：

删除模块，用于所述得到当前的第n级子聚合周期对应的聚合数据之后，删除当前的第n级子聚合周期内接收的每个组编号对应的原始数据；所述得到当前的第i级子聚合周期对应的聚合数据之后，删除当前的第i级子聚合周期内得到的每个组编号对应的所有第i+1级子聚合周期的聚合数据；所述得到当前的聚合周期对应的聚合数据之后，删除当前的聚合周期内得到的每个组编号对应的所有第1级子聚合周期的聚合数据。
一种数据处理系统，其特征在于，所述系统包括分发服务器和计算服务器，其中：

所述分发服务器，用于获取原始数据，其中，所述原始数据包括参数值和至少一个属性值；确定所述原始数据所属的目标类型，其中，所述目标类型包括的属性值在所述至少一个属性值中；根据所述目标类型，确定所述原始数据所属的目标计算服务器；向所述目标计算服务器发送数据存储请求，其中，所述数据存储请求中携带有所述原始数据；

所述计算服务器，用于接收分发服务器发送的数据存储请求，其中，所述数据存储请求中携带有原始数据，所述原始数据包括参数值和至少一个属性值，所述原始数据属于目标类型，所述目标类型包括的属性值在所述至少一个属性值中；存储所述目标类型的原始数据；每当达到预设的聚合周期，根据当前的聚合周期内接收的目标类型的原始数据，确定当前的聚合周期的目标类型的聚合数据。
一种分发服务器，其特征在于，所述分发服务器包括收发器和处理器，其中：

所述收发器和所述处理器，被配置为执行所述权利要求1-4中任一权利要求所述的方法。
一种计算服务器，其特征在于，所述计算服务器包括收发器、存储器和处理器，其中：

所述收发器、所述存储器和所述处理器，被配置为执行所述权利要求5-9中任一权利要求所述的方法。
一种计算机可读存储介质，其特征在于，包括指令，当所述计算机可读存储介质在分发服务器上运行时，使得所述分发服务器执行所述权利要求1-4中任一权利要求所述的方法。
一种计算机可读存储介质，其特征在于，包括指令，当所述计算机可读存储介质在计算服务器上运行时，使得所述计算服务器执行所述权利要求5-9中任一权利要求所述的方法。