WO2016101798A1

WO2016101798A1 - 一种对大数据进行处理的方法和装置

Info

Publication number: WO2016101798A1
Application number: PCT/CN2015/097179
Authority: WO
Inventors: 王晓丽
Original assignee: 华为技术有限公司
Priority date: 2014-12-26
Filing date: 2015-12-11
Publication date: 2016-06-30
Also published as: EP3193264A4; EP3193264B1; EP3193264A1; US10691669B2; CN105786938A; US20170212923A1

Abstract

一种对大数据进行处理的方法和装置，属于数据处理领域。所述方法包括：获取多个键值对集合，键值对集合包括至少一个键值对，键值对中的键和值分别为待处理的大数据中的两个子数据，且两个子数据之间存在预设数据关系，键值对集合中的各键值对中的取模余数都相同；分别计算每个键值对集合中包括的各值之和，得到每个键值对集合包括的值的总值；获取Reduce处理模块集合中的每个Reduce处理模块的负载情况；根据每个键值对集合中包括的值的总值和每个Reduce处理模块的负载情况，分别为每个Reduce处理模块分配对应的键值对集合；通过每个Reduce处理模块分别对分配到的所述键值对集合进行处理。

Description

一种对大数据进行处理的方法和装置

技术领域

本发明涉及数据处理领域，特别涉及一种对大数据进行处理的方法和装置。

背景技术

大数据就是一种包含大量数据的数据集，这些数据可以称为是大数据的子数据，在大数据中只有少量的子数据对用户具有较高的价值。为了方便用户浏览大数据，目前可以对大数据进行处理，将大数据中包含的价值较高的子数据优先提供给用户。例如，在搜索引擎领域中，搜索引擎根据用户输入的关键词搜索出众多搜索结果，该众多搜索结果便组成了一个大数据，搜索引擎通过对该大数据进行处理，得到对用户价值较高的搜索结果并优先提供给用户。

目前可以通过如下过程来对大数据进行处理，包括：通过映射(英文：Map)模块对待处理的大数据进行Map处理并输出大数据中的子数据对应的至少一个键值对，子数据对应的键值对中的键为该子数据，值为大数据中的与该键之间存在预设关系的其他一子数据。然后将包含键相同的各键值对分配给一规约(英文：Reduce)处理模块集合中的一Reduce处理模块，由该Reduce处理模块对这些键值对中的值进行处理，并输出该键的价值度，该键为一子数据，即得到该子数据的价值度，按上述方法可以得到大数据中的每个子数据的价值度，价值度越高的子数据，对用户越有价值，根据价值度向用户显示大数据中包括的子数据。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

目前根据键值对的键来将各键值对分配到各Reduce处理模块中，可能会造成各Reduce处理模块的负载不均衡。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种对大数据进行处理的方法和装置。所述技术方案如下：

第一方面，本发明实施例提供了一种对大数据进行处理的方法，所述方法包括：

获取多个键值对集合，所述键值对集合包括至少一个键值对，键值对中的键和值分别为待处理的大数据中的两个子数据，且所述两个子数据之间存在预设数据关系，所述键值对集合中的各键值对中的取模余数都相同；

分别计算每个键值对集合中包括的各值之和，得到所述每个键值对集合包括的值的总值；

获取Reduce处理模块集合中的每个Reduce处理模块的负载情况；

根据所述每个键值对集合中包括的值的总值和所述每个Reduce处理模块的负载情况，分别为所述每个Reduce处理模块分配对应的键值对集合；

通过所述每个Reduce处理模块分别对分配到的所述键值对集合进行处理。

在第一方面的第一种可能的实现方式中，所述获取多个键值对集合步骤包括：

通过Map处理模块对所述大数据进行处理，得到多个所述键值对；

根据预先设置的取模系数，分别对得到的多个所述键值对的键进行取模操作，分别得到多个所述键值对的取模余数；

将取模余数相同的多个所述键值对分配到一个键值对集合中，形成所述多个键值对集合。

与第一方面的第一种可能的实现方式相结合，在第一方面的第二种可能的实现方式中，所述取模系数＝Reduce处理模块数量×取模因子，所述取模因子是预先确定的。

在第一方面的第三种可能的实现方式中，所述根据所述每个键值对集合中包括的值的总值和所述每个Reduce处理模块的负载情况，分别为所述每个Reduce处理模块分配对应的键值对集合步骤包括：

确定当前所述键值对集合的分配次数；

根据确定的当前所述键值对集合的分配次数，找到与所述分配次数对应的所述键值对集合的分配比例，所述分配次数与所述键值对集合的分配比例的对应关系是预先设定的；

根据得到的所述键值对集合的分配比例，从多个所述键值对集合中获取相应数量的所述键值对集合；

根据按照分配比例获取到的所述每个键值对集合中包括的值的总值和所述每个Reduce处理模块的负载情况，分别为所述每个Reduce处理模块分配对应的键值对集合。

与第一方面的第三种可能的实现方式相结合，在第一方面的第四种可能的实现方式中，根据按照分配比例获取到的所述每个键值对集合中包括的值的总值和所述每个Reduce处理模块的负载情况，分别为所述每个Reduce处理模块分配对应的键值对集合步骤包括：

按照对负载较轻的所述Reduce处理模块分配总值较大的所述键值对集合的分配规则，分别为所述每个Reduce处理模块分配对应的键值对集合。

第二方面，本发明实施例提供一种对大数据进行处理的装置，所述装置包括：

第一获取模块，用于获取多个键值对集合，所述键值对集合包括至少一个键值对，键值对中的键和值分别为待处理的大数据中的两个子数据，且所述两个子数据之间存在预设数据关系，所述键值对集合中的各键值对中的取模余数都相同；

计算模块，用于分别计算每个键值对集合中包括的各值之和，得到所述每个键值对集合包括的值的总值；

第二获取模块，用于获取Reduce处理模块集合中的每个Reduce处理模块的负载情况；

分配模块，用于根据所述每个键值对集合中包括的值的总值和所述每个Reduce处理模块的负载情况，分别为所述每个Reduce处理模块分配对应的键值对集合；

处理模块，用于通过所述每个Reduce处理模块分别对分配到的所述键值对集合进行处理。

在第二方面的第一种可能的实现方式中，所述第一获取模块用于：

与第二方面的第一种可能的实现方式相结合，在第二方面的第二种可能的实现方式中，所述取模系数＝Reduce处理模块数量×取模因子，所述取模因子是预先确定的。

在第二方面的第三种可能的实现方式中，所述分配模块用于：

确定当前所述键值对集合的分配次数；

与第二方面的第三种可能的实现方式相结合，在第二方面的第四种可能的实现方式中，所述分配模块还用于：

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例提供的对大数据进行处理的方法和装置，根据各个分区中各键值对集合的总值和各Reduce处理模块的负载情况将各分区中的键值对分配到各个Reduce处理模块，相对于通常情况下根据键值对的键将各键值对分配到各Reduce任务的方式，使各Reduce处理模块的负载更加均衡。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的对大数据进行处理的方法所涉及的一种实施环境的结构示意图；

图2是本发明实施例提供的对大数据进行处理的方法所涉及的另一种实施环境的结构示意图；

图3是本发明实施例一提供的对大数据进行处理的方法的流程图；

图4是本发明实施例二提供的对大数据进行处理的方法的流程图；

图5是本发明实施例三提供的对大数据进行处理的装置结构示意图；

图6是本发明实施例四提供的对大数据进行处理的装置结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另作定义，此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”或者“一”等类似词语也不表示数量限制，而是表示存在至少一个。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

参见图1，其示出了本发明实施例提供的虚拟机处理方法所涉及的一种实施环境的结构示意图，该系统包括：作业服务器10和与作业服务器10进行数据交互的任务服务器20。

其中，作业服务器10中设置有作业跟踪器11，作业跟踪器11根据任务服务器20传输的每个键值对集合包括的总值，以及直接从Reduce处理模块集合中获取每个Reduce处理模块的负载情况，根据预先设定的分配规则，分别为每个Reduce处理模块分配对应的键值对集合，为每个Reduce处理模块分配对应的键值对集合的过程就是建立各键值对集合与每个Reduce处理模块的对应关系；然后将建立好的各键值对集合与每个Reduce处理模块的对应关系反馈给任务服务器20。

任务服务器20中设置有拆分器21、Map处理模块22、Reduce处理模块23、分区器24和任务跟踪器25；其中，拆分器21，用于将大数据分为多个数据分片，以便Map处理模块22对大数据进行处理；Map处理模块22，用于对由大数据得到的多个数据分片进行Map处理，得到多个键值对，将得到的多个键值对发送给分区器24；分区器24，用于对得到的键值对进行取模操作，将取模余数相同的键值对分配到一个键值对集合中，然后通过计算得到每个键值对集合的总值，将得到的键值对集合的总值传输到作业跟踪器11中；任务跟踪器25，用于获取作业跟踪器11反馈的各键值对集合与每个Reduce处理模块的对应关系，确定当前键值对集合的分配次数，根据确定的分配次数找到与分配次数对应的键值对集合的分配比例，然后根据键值对集合的分配比例控制各Reduce处理模块23从分区器24中获取分配比例相应数量的键值对集合；Reduce处理模块23，用于处理获取到的键值对集合，并将处理结果输出。

其中，键值对集合的总值是由键值对集合中各键值对的值累加得到的。

可选地，参见图2，其示出了本发明实施例提供的对大数据进行处理的方法所涉及的另一种实施环境的结构示意图，该实施场景下作业服务器10以一功能模块的形式设置在任务服务器20中。

实施例一

参见图3，本发明实施例提供了一种对大数据进行处理的方法，该方法的流程包括：

步骤100、任务服务器的分区器获取多个键值对集合，键值对集合包括至少一个键值对，键值对中的键和值分别为待处理的大数据中的两个子数据，且两个子数据之间存在预设数据关系，键值对集合中的各键值对中的取模余数都相同。

步骤101、任务服务器的分区器分别计算每个键值对集合中包括的各值之和，得到每个键值对集合包括的值的总值。

步骤102、作业服务器的作业跟踪器获取Reduce处理模块集合中的每个Reduce处理模块的负载情况。

步骤103、作业服务器的作业跟踪器根据每个键值对集合中包括的值的总值和每个Reduce处理模块的负载情况，分别为每个Reduce处理模块分配对应的键值对集合。

步骤104、通过任务服务器的每个Reduce处理模块分别对每个Reduce处理模块对应的键值对集合进行处理。

本实施例提供的对大数据进行处理的方法，根据各个分区中各键值对集合的总值和各Reduce处理模块的负载情况将各分区中的键值对分配到各个Reduce处理模块，相对于通常情况下根据键值对的键将各键值对分配到各Reduce任务的方式，使各Reduce处理模块的负载更加均衡。

实施例二

参见图4，本发明实施例提供了一种对大数据进行处理的方法，该方法流程包括：

步骤200、任务服务器的分区器获取多个键值对集合，键值对集合包括至少一个键值对，键值对中的键和值分别为待处理的大数据中的两个子数据，且两个子数据之间存在预设数据关系，键值对集合中的各键值对中的取模余数都相同。

其中，键和值之间存在的预设数据关系是指Map处理模块获取的对大数据的查找条件和对大数据完成查找后得到的查找结果之间的对应关系，查找条件就是键，查找结果就是值；对大数据的查找条件和大数据完成查找后得到的查找结果之间的对应关系就形成了键值对。当Map处理模块通过查找条件对大数据进行查找并得到相应的查找结果时，会以(查找条件，查找结果)的形式输出键值对。

比如：若想要在一本书中找出“华”字的数量，那么“华”字就是查找条件，而“华”字数量就是查找结果；Map处理模块就会根据这个“华”字在这本书中查找“华”字的数量，并在查找完成后，以(“华”，“华”字数量)的形式输出键值对。若想要在网页集合中找到具有包含“中华”二字的超链接的网页，那么包含“中华”二字的超链接就是查找条件，具有包含“中华”二字的超链接的网页就是查找结果，Map处理模块就会根据包含“中华”二字的超链接在网页集合中查找具有包含“中华”二字的超链接的网页，并在查找完成后，以(包含“中华”二字的超链接，具有包含“中华”二字的超链接的网页)的形式输出键值对。

具体地，步骤200的流程由步骤2001至步骤2003具体描述：

步骤2001、通过任务服务器的Map处理模块对大数据进行处理，得到多个键值对。

具体地，Map处理模块处理的大数据是任务服务器的拆分器将待处理的大数据分成的多个数据块。Map处理模块在接收到拆分器传输过来的多个数据块后，按照预先设定的键，在接收的每个数据块中查找是否有键的内容，并以键值对的形式得到查找结果。

例如，在搜索引擎领域，将大数据包含的各搜索结果输入；当用户要从网络的众多网页中找出具有“中华”这两个字的超链接时，在检索后找到100个具有“中华”二字的超链接的网页，这100个网页中具有包含“中华”二字的超链接有A和B，具有超链接A的网页有E、F和G，具有超链接B的网页有F、G和H，那么经过Map处理模块处理后得到的键值对就是(A，E)、(A，F)、(A，G)、(B，F)、(B，G)和(B，H)。

其中，拆分器对大数据的拆分是根据大数据的具体内容来对大数据进行的操作。比如：如果待处理的大数据是一本电子书，那么可以按照一个段落作为一个数据块的方式将电子书分成多个数据块，也可以按照一个句子作为一个数据块的方式将电子书分成多个数据块。如果大数据是某网站的主页集合，那么可以按照一个网页作为一个数据块的方式将某网站的主页集合中的网页分成多个数据块。

其中，Map处理模块将经过处理形成的键值对发送到分区器中。

步骤2002、任务服务器的分区器根据预先设置的取模系数，分别对得到的多个键值对的键进行取模操作，得到各键值对的取模余数。

具体地，任务服务器的分区器接收Map处理模块传输过来的键值对，对键值对中的键进行哈希操作，得到键对应的数字串；根据预先设置的取模系数，分区器分别对各键值对的键的数字串进行取模操作，得到各键值对的取模余数。

其中，取模系数＝Reduce处理模块数量×取模因子，取模因子是预先确定的，存储在任务服务器的分区器中。

步骤2003、任务服务器的分区器将取模余数相同的多个键值对分配到一个键值对集合中，形成多个键值对集合。

其中，各个键值对集合都分别具有键值对集合标识。

通过步骤2001至步骤2003的描述，在形成键值对集合之前，根据预先设置的取模系数对得到的键值对进行取模操作，由于取模系数等于Reduce任务数量×取模因子，所以相对于通常的取模方式，可以将键值对分配到更多的键值对集合中，使得对键值对的分配更加均匀，使得Reduce处理模块集合中的各Reduce处理模块在处理键值对集合中的键值对所花费的时间更加均衡。

步骤201、任务服务器的分区器分别计算每个键值对集合中包括的各值之和，得到每个键值对集合包括的值的总值。

其中，每个键值对集合的总值的越大，说明获取该键值对集合的Reduce处理模块对该键值对集合的处理时间就越长。

其中，分区器在得到每个键值对集合的总值后，生成每个键值对集合的标识和总值的对应关系并记录到预先设置的关系列表中，然后将得到的关系列表发送到作业服务器的作业跟踪器中。

步骤202、作业服务器的作业跟踪器获取Reduce处理模块集合中的每个Reduce处理模块的负载情况。

其中，作业服务器的作业跟踪器从任务服务器的任务跟踪器中获取每个Reduce处理模块的负载情况。

其中，任务服务器的任务跟踪器中预先设置有记录Reduce处理模块集合中每个Reduce处理模块的负载情况的负载列表，任务服务器的任务跟踪器周期性获取每个Reduce处理模块的负载情况，以更新负载列表中记录的每个Reduce处理模块的负载情况。

其中，负载列表中记录有每个Reduce处理模块的标识和还未处理的键值对集合的总值的对应关系。

步骤203、作业服务器的作业跟踪器根据每个键值对集合中包括的值的总值和每个Reduce处理模块的负载情况，分别为每个Reduce处理模块分配对应的键值对集合。

具体地，步骤203的流程由步骤2031至步骤2035具体描述：

步骤2031、作业服务器的作业跟踪器确定当前键值对集合的分配次数。

其中，键值对集合的分配次数预先记录在作业服务器的作业跟踪器的分配列表中，分配列表中还记录有与分配次数对应的键值对集合的分配比例。

比如：分配列表中记录有分配次数1分配比例20％、分配次数2分配比例40％、分配次数3分配比例60％、分配次数4分配比例80％、分配次数5分配比例100％。

以上分配列表只记录了对键值对集合进行分配的一种方式，也可以采用其他的分配次数和对应的分配比例对键值对集合进行分配，这里不再一一赘述。

步骤2032、根据确定的当前键值对集合的分配次数，作业服务器的作业跟踪器找到与分配次数对应的键值对集合的分配比例，分配次数与键值对集合的分配比例的对应关系是预先设定的。

其中，根据确定的当前键值对集合的分配次数，作业服务器的作业跟踪器从预先存储的分配列表中找到与分配次数对应的键值对集合的分配比例。

步骤2033、根据得到的键值对集合的分配比例，作业服务器的作业跟踪器从多个键值对集合中获取相应数量的键值对集合。

具体地，根据得到的键值对集合的分配比例，作业服务器的作业跟踪器从接收的关系列表中获取分配比例相应数量的键值对集合的标识和总值的对应关系。

比如：分配列表中记录的当前的分配次数1，对应的分配比例是40％，那么作业跟踪器就会从当前的关系列表中获取关系列表中记录的键值对集合的标识和总值的对应关系总数的40％进行分配。例如：关系列表中记录了1000条键值对集合的标识和总值的对应关系，那么就对其中的400条进行分配。

步骤2034、根据按照分配比例获取到的每个键值对集合中包括的值的总值和每个Reduce处理模块的负载情况，作业服务器的作业跟踪器分别为每个Reduce处理模块分配对应的键值对集合。

具体地，作业服务器的作业跟踪器从负载列表中获取Reduce处理模块的标识，从关系列表中获取键值对集合的标识，根据Reduce处理模块的标识对应的负载情况和键值对集合的标识对应的总值，按照对负载较轻的Reduce处理模块分配总值较大的键值对集合的分配规则，分别为每个Reduce处理模块分配对应的键值对集合，即：将获取到的Reduce处理模块的标识和键值对集合的标识进行关联，建立键值对集合与Reduce处理模块的对应关系，然后将生成的键值对集合与Reduce处理模块的对应关系反馈给任务服务器的任务跟踪器，任务跟踪器会根据键值对集合与Reduce处理模块的对应关系控制Reduce处理模块从分区器中获取对应的键值对集合。

比如：有3个Reduce处理模块：A、B和C，A的负载是10，B的负载是20，C的负载是30；而待分配的键值对集合有3个，分别是a、b和c，a的总值是30，b的总值是40，c的总值是50；那么根据分配规则，会将键值对集合a分配给Reduce处理模块C，将键值对集合b分配给Reduce处理模块B，将键值对集合c分配给Reduce处理模块A。在分配完毕之后，Reduce处理模块A、B和C的负载都是60，使Reduce处理模块A、B和C的负载均衡。

通过步骤2034的描述，通过对负载较轻的Reduce处理模块分配总值较大的键值对集合的分配规则将键值对集合分配到每个Reduce处理模块中，保证了各Reduce处理模块的负载均衡，从而使Reduce处理模块能够尽可能同时完成所分配的任务。

步骤204、通过任务服务器中的每个Reduce处理模块分别对分配到的键值对集合进行处理。

实施例三

参见图5，本发明实施例提供了一种对大数据进行处理的装置，该装置包括：

第一获取模块300、计算模块301、第二获取模块302、分配模块303和处理模块304；

具体地，第一获取模块300，用于获取多个键值对集合，键值对集合包括至少一个键值对，键值对中的键和值分别为待处理的大数据中的两个子数据，且两个子数据之间存在预设数据关系，键值对集合中的各键值对中的取模余数都相同；计算模块301，与第一获取模块300连接，用于分别计算每个键值对集合中包括的各值之和，得到每个键值对集合包括的值的总值；第二获取模块302，与计算模块301连接，用于获取Reduce处理模块集合中的每个Reduce处理模块的负载情况；分配模块303，与第二获取模块302连接，用于根据每个键值对集合中包括的值的总值和每个Reduce处理模块的负载情况，分别为每个Reduce 处理模块分配对应的键值对集合；处理模块304，与分配模块303连接，用于通过每个Reduce处理模块分别对分配到的键值对集合进行处理。

实施例四

参见图6，本发明实施例提供了一种对大数据进行处理的装置，该装置包括：

第一获取模块400、计算模块401、第二获取模块402、分配模块403和处理模块404；

具体地，第一获取模块400，用于获取多个键值对集合，键值对集合包括至少一个键值对，键值对中的键和值分别为待处理的大数据中的两个子数据，且两个子数据之间存在预设数据关系，键值对集合中的各键值对中的取模余数都相同；计算模块401，与第一获取模块400连接，用于分别计算每个键值对集合中包括的各值之和，得到每个键值对集合包括的值的总值；第二获取模块402，与计算模块401连接，用于获取Reduce处理模块集合中的每个Reduce处理模块的负载情况；分配模块403，与第二获取模块402连接，用于根据每个键值对集合中包括的值的总值和每个Reduce处理模块的负载情况，分别为每个Reduce处理模块分配对应的键值对集合；处理模块404，与分配模块403连接，用于通过每个Reduce处理模块分别对分配到的键值对集合进行处理。

具体地，第一获取模块401用于：

通过Map处理模块对大数据进行处理，得到多个键值对；

根据预先设置的取模系数，分别对得到的多个键值对的键进行取模操作，分别得到多个键值对的取模余数；

将取模余数相同的多个键值对分配到一个键值对集合中，形成多个键值对集合。

进一步地，取模系数＝Reduce处理模块数量×取模因子，取模因子是预先确定的。

具体地，分配模块403用于：

确定当前键值对集合的分配次数；

根据确定的当前键值对集合的分配次数，找到与分配次数对应的键值对集合的分配比例，分配次数与键值对集合的分配比例的对应关系是预先设定的；

根据得到的键值对集合的分配比例，从多个键值对集合中获取相应数量的键值对集合；

根据按照分配比例获取到的每个键值对集合中包括的值的总值和每个Reduce处理模块的负载情况，分别为每个Reduce处理模块分配对应的键值对集合。

进一步地，分配模块403还用于：

按照对负载较轻的Reduce处理模块分配总值较大的键值对集合的分配规则，分别为每个Reduce处理模块分配对应的键值对集合。

需要说明的是：上述实施例提供的对大数据进行处理的装置在对大数据进行处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的对大数据进行处理的装置与对大数据进行处理的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

一种对大数据进行处理的方法，其特征在于，所述方法包括：

获取多个键值对集合，所述键值对集合包括至少一个键值对，键值对中的键和值分别为待处理的大数据中的两个子数据，且所述两个子数据之间存在预设数据关系，所述键值对集合中的各键值对中的取模余数都相同；

分别计算每个键值对集合中包括的各值之和，得到所述每个键值对集合包括的值的总值；

获取Reduce处理模块集合中的每个Reduce处理模块的负载情况；

根据所述每个键值对集合中包括的值的总值和所述每个Reduce处理模块的负载情况，分别为所述每个Reduce处理模块分配对应的键值对集合；

通过所述每个Reduce处理模块分别对分配到的所述键值对集合进行处理。
根据权利要求1所述的对大数据进行处理的方法，其特征在于，所述获取多个键值对集合步骤包括：

通过Map处理模块对所述大数据进行处理，得到多个所述键值对；

根据预先设置的取模系数，分别对得到的多个所述键值对的键进行取模操作，分别得到多个所述键值对的取模余数；

将取模余数相同的多个所述键值对分配到一个键值对集合中，形成所述多个键值对集合。
根据权利要求2所述的对大数据进行处理的方法，其特征在于，所述取模系数＝Reduce处理模块数量×取模因子，所述取模因子是预先确定的。
根据权利要求1所述的对大数据进行处理的方法，其特征在于，所述根据所述每个键值对集合中包括的值的总值和所述每个Reduce处理模块的负载情况，分别为所述每个Reduce处理模块分配对应的键值对集合步骤包括：

确定当前所述键值对集合的分配次数；

根据确定的当前所述键值对集合的分配次数，找到与所述分配次数对应的所述键值对集合的分配比例，所述分配次数与所述键值对集合的分配比例的对应关系是预先设定的；

根据得到的所述键值对集合的分配比例，从多个所述键值对集合中获取相应数量的所述键值对集合；

根据按照分配比例获取到的所述每个键值对集合中包括的值的总值和所述每个Reduce处理模块的负载情况，分别为所述每个Reduce处理模块分配对应的键值对集合。
根据权利要求4所述的对大数据进行处理的方法，其特征在于，所述根据按照分配比例获取到的所述每个键值对集合中包括的值的总值和所述每个Reduce处理模块的负载情况，分别为所述每个Reduce处理模块分配对应的键值对集合步骤包括：

按照对负载较轻的所述Reduce处理模块分配总值较大的所述键值对集合的分配规则，分别为所述每个Reduce处理模块分配对应的键值对集合。
一种对大数据进行处理的装置，其特征在于，所述装置包括：

第一获取模块，用于获取多个键值对集合，所述键值对集合包括至少一个键值对，键值对中的键和值分别为待处理的大数据中的两个子数据，且所述两个子数据之间存在预设数据关系，所述键值对集合中的各键值对中的取模余数都相同；

计算模块，用于分别计算每个键值对集合中包括的各值之和，得到所述每个键值对集合包括的值的总值；

第二获取模块，用于获取Reduce处理模块集合中的每个Reduce处理模块的负载情况；

分配模块，用于根据所述每个键值对集合中包括的值的总值和所述每个Reduce处理模块的负载情况，分别为所述每个Reduce处理模块分配对应的键值对集合；

处理模块，用于通过所述每个Reduce处理模块分别对分配到的所述键值对集合进行处理。
根据权利要求6所述的对大数据进行处理的装置，其特征在于，所述第一获取模块用于：

通过Map处理模块对所述大数据进行处理，得到多个所述键值对；

根据预先设置的取模系数，分别对得到的多个所述键值对的键进行取模操作，分别得到多个所述键值对的取模余数；

将取模余数相同的多个所述键值对分配到一个键值对集合中，形成所述多个键值对集合。
根据权利要求7所述的对大数据进行处理的装置，其特征在于，所述取模系数＝Reduce处理模块数量×取模因子，所述取模因子是预先确定的。
根据权利要求6所述的对大数据进行处理的装置，其特征在于，所述分配模块用于：

确定当前所述键值对集合的分配次数；

根据确定的当前所述键值对集合的分配次数，找到与所述分配次数对应的所述键值对集合的分配比例，所述分配次数与所述键值对集合的分配比例的对应关系是预先设定的；

根据得到的所述键值对集合的分配比例，从多个所述键值对集合中获取相应数量的所述键值对集合；

根据按照分配比例获取到的所述每个键值对集合中包括的值的总值和所述每个Reduce处理模块的负载情况，分别为所述每个Reduce处理模块分配对应的键值对集合。
根据权利要求9所述的对大数据进行处理的装置，其特征在于，所述分配模块还用于：

按照对负载较轻的所述Reduce处理模块分配总值较大的所述键值对集合的分配规则，分别为所述每个Reduce处理模块分配对应的键值对集合。