WO2014180411A1

WO2014180411A1 - 分布式索引的生成方法及装置

Info

Publication number: WO2014180411A1
Application number: PCT/CN2014/078696
Authority: WO
Inventors: 韩丙卫
Original assignee: 中兴通讯股份有限公司
Priority date: 2013-12-17
Filing date: 2014-05-28
Publication date: 2014-11-13
Also published as: CN104714983B; CN104714983A

Abstract

本发明公开了一种分布式索引的生成方法及装置，在上述方法中，根据原始数据的数据量确定Hadoop中的map作业的数量；将经过各个map作业处理后的数据分配至多个reduce作业，并生成与每个reduce作业对应的索引库，其中，reduce作业的数量以及每个reduce作业与一个或多个map作业之间的对应关系均为预先配置完成的；对与每个reduce作业对应的索引库进行合并。根据本发明提供的技术方案，实现了对海量数据高效地、快速地进行索引。

Description

分布式索引的生成方法及装置技术领域本发明涉及通信领域，具体而言，涉及一种分布式索引的生成方法及装置。背景技术随着云时代的来临，大数据（Big data) 也吸引了越来越多的关注。大数据通常用来形容一个公司创造的大量非结构化和半结构化数据，这些数据在下载到关系型数据库用于分析时会耗费过多的时间和金钱。大数据分析常与云计算联系到一起，因为实时的大型数据集分析需要像 MapReduce—样的框架来向数十、数百或甚至数千的电脑分配工作。而大数据在互联网行业通常指代这样一种现象：互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大，以至于无法采用 G或 T来衡量。大数据到底有多大？仅通过一天的时间，互联网产生的全部内容即可刻满 1.68亿张 DVD; 发送的邮件量可以达到 2940亿封之多；发出的社区帖子能够达到 200万个；销售的手机为 37.8万台…… 截止至 2012年，数据量已经从 TB( 1TB=1024GB )级别跃升到 PB ( 1PB=1024TB)、

EB ( 1EB=1024PB ) 乃至 ZB ( 1ZB=1024EB ) 级别。国际数据公司（IDC) 的研究结果表明，2008年全球产生的数据量为 0.49ZB，2009年全球产生的数据量为 0.8ZB，2010 年全球产生的数据量增长为 1.2ZB,而 2011年全球产生的数据量更是高达 1.82ZB,相当于全球每人产生 200GB以上的数据。到 2012年为止，人类生产的所有印刷材料的数据量是 200PB,全人类历史上说过的所有话的数据量大约是 5EB。 IBM的研究表明，整个人类文明所获得的全部数据中，有 90%是过去两年内产生的。而到了 2020年，全世界所产生的数据规模将达到今天的 44倍。目前，在大数据时代，如何从大数据中快速有效地搜索出用户所关心的数据已经成为日趋重要的问题。高效快速的创建索引是用户进行搜索的前提，而相关技术中通常采用的创建索引的技术方案均为单线程的，在面对海量数据时存在性能瓶颈，由于对系统要求较高，并且系统扩展能力有限，其已经无法满足用户在海量数据中快速有效地进行数据检索的需求。发明内容本发明提供了一种分布式索引的生成方法及装置，以至少解决相关技术中无法对海量数据创建高效快速的索引的问题。根据本发明的一个方面，提供了一种分布式索引的生成方法。根据本发明的分布式索引的生成方法包括：根据原始数据的数据量确定 Hadoop 中的映射（map) 作业的数量；将经过各个 map 作业处理后的数据分配至多个规约 (reduce) 作业，并生成与每个 reduce作业对应的索引库，其中， reduce作业的数量以及每个 reduce作业与一个或多个 map作业之间的对应关系均为预先配置完成的；对与每个 reduce作业对应的索引库进行合并。优选地，生成与每个 reduce作业对应的索引库包括：获取当前支持的文件系统的类型；根据文件系统的类型确定与每个 reduce作业对应的索引库的生成方式；按照生成方式生成与每个 reduce作业对应的索引库。优选地，按照生成方式生成与每个 reduce作业对应的索引库包括：当文件系统的类型为 Hadoop分布式文件系统（HDFS)时，在本地磁盘中生成与每个 reduce作业对应的索引库，然后将在本地磁盘中生成的索引库均上传至 HDFS; 或者，当文件系统的类型为除 HDFS之外的其余支持共享的分布式文件系统（DFS) 时，直接在其余支持共享的 DFS中生成与每个 reduce作业对应的索引库。优选地，对与每个 reduce作业对应的索引库进行合并包括：当文件系统的类型为 HDFS时，将 HDFS中的与每个 reduce作业对应的索引库下载至本地磁盘；在本地磁盘对与每个 reduce作业对应的索引库进行合并；将合并后得到的索引库上传至 HDFS, 并将本地磁盘中的与每个 reduce作业对应的索引库进行删除。优选地，对与每个 reduce作业对应的索引库进行合并包括：当文件系统的类型为其余支持共享的 DFS时，对其余支持共享的 DFS中生成的与每个 reduce作业对应的索引库进行合并；将其余支持共享的 DFS中生成的与每个 reduce作业对应的索引库进行删除。根据本发明的另一方面，提供了一种分布式索引的生成装置。根据本发明的分布式索引的生成装置包括：确定模块，设置为根据原始数据的数据量确定 Hadoop中的映射 map作业的数量；生成模块，设置为将经过各个 map作业处理后的数据分配至多个规约 reduce作业，并生成与每个 reduce作业对应的索引库，其中， reduce作业的数量以及每个 reduce作业与一个或多个 map作业之间的对应关系均为预先配置完成的；合并模块，设置为对与每个 reduce作业对应的索引库进行合并。优选地，生成模块包括：获取单元，设置为获取当前支持的文件系统的类型；确定单元，设置为根据文件系统的类型确定与每个 reduce作业对应的索引库的生成方式；生成单元，设置为按照生成方式生成与每个 reduce作业对应的索引库。优选地，生成单元，设置为当文件系统的类型为 Hadoop分布式文件系统 HDFS 时，在本地磁盘中生成与每个 reduce作业对应的索引库，然后将在本地磁盘中生成的索引库均上传至 HDFS; 或者，生成单元，设置为当文件系统的类型为除 HDFS之外的其余支持共享的分布式文件系统 DFS时，直接在其余支持共享的 DFS中生成与每个 reduce作业对应的索引库。优选地，合并模块包括:下载单元，设置为当文件系统的类型为 HDFS时，将 HDFS 中的与每个 reduce作业对应的索引库下载至本地磁盘；第一合并单元，设置为在本地磁盘对与每个 reduce作业对应的索引库进行合并；第一处理单元，设置为将合并后得到的索引库上传至 HDFS, 并将本地磁盘中的与每个 reduce作业对应的索引库进行删除。优选地，合并模块包括：第二合并单元，设置为当文件系统的类型为其余支持共享的 DFS时，对其余支持共享的 DFS中生成的与每个 reduce作业对应的索引库进行合并；第二处理单元，设置为将其余支持共享的 DFS中生成的与每个 reduce作业对应的索引库进行删除。通过本发明实施例，采用根据原始数据的数据量确定 Hadoop中的 map作业的数量；将经过各个 map作业处理后的数据分配至多个 reduce作业，并生成与每个 reduce 作业对应的索引库，该 reduce作业的数量以及每个 reduce作业与一个或多个 map作业之间的对应关系均为预先配置完成的；对与每个 reduce作业对应的索引库进行合并，即通过采用 Hadoop 中的 map作业和 reduce作业对原始数据进行处理，生成与每个 reduce作业对应的索引库，然后对与每个 reduce作业对应的索引库进行合并，由此解决了相关技术中无法对海量数据创建高效快速的索引的问题，进而实现了对海量数据高效地、快速地进行索引。附图说明此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：图 1是根据本发明实施例的分布式索引的生成方法的流程图；图 2是根据本发明优选实施例的分布式索引的生成方法的流程图；图 3是根据本发明实施例的分布式索引的生成装置的结构框图；图 4是根据本发明优选实施例的分布式索引的生成装置的结构框图。具体实施方式下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。图 1是根据本发明实施例的分布式索引的生成方法的流程图。如图 1所示，该方法可以包括以下处理步骤：步骤 S102: 根据原始数据的数据量确定 Hadoop中的 map作业的数量；步骤 S104: 将经过各个 map作业处理后的数据分配至多个 reduce作业，并生成与每个 reduce作业对应的索引库，其中， reduce作业的数量以及每个 reduce作业与一个或多个 map作业之间的对应关系均为预先配置完成的；步骤 S106: 对与每个 reduce作业对应的索引库进行合并。相关技术中，无法对海量数据创建高效、快速的索引。采用如图 1所示的方法，通过采用 Hadoop中的 map作业和 reduce作业对原始数据进行处理，生成与每个 reduce 作业对应的索引库，然后对与每个 reduce作业对应的索引库进行合并，由此解决了相关技术中无法对海量数据创建高效快速的索引的问题，进而实现了对海量数据高效地、快速地进行索引。优选地，在步骤 S104中，生成与每个 reduce作业对应的索引库可以包括以下操作：步骤 S1 : 获取当前支持的文件系统的类型；步骤 S2_: 根据文件系统的类型确定与每个 reduce作业对应的索引库的生成方式；步骤 S3 : 按照生成方式生成与每个 reduce作业对应的索引库。在优选实施例中，首先，需要确定待获取的原始数据的数据量的大小，并划分成 M (M为正整数）份，其中，每份数据分别对应一个 map作业。当然，每个 map作业所处理的数据量是可以动态配置的。由此，设置 map数据处理插件。此外，经过各个 map作业处理后产生的中间键值对集合会定期写入本地磁盘，本地磁盘又可以被划分成 N (N为正整数）个， N是用户自定义设置的，每个分区分别对应一个 reduce作业。通过配置 reduce作业的最大数目，以提高分布式索引的创建效率，并且按照用户配置的 reduce作业的数量设置 reduce数据处理插件。在该优选实施例中，创建索引能够支持 Hadoop分布式文件系统（HDFS) 以及其它可支持共享的分布式文件系统（DFS)。因此，可以根据创建索引过程中所支持的文件系统的类型差异确定与每个 reduce作业对应的索引库的生成方式，然后按照生成方式生成与每个 reduce作业对应的索引库。优选地，在步骤 S3中，按照生成方式生成与每个 reduce作业对应的索引库可以包括以下步骤之一：步骤 S31 : 当文件系统的类型为 Hadoop分布式文件系统（HDFS) 时，在本地磁盘中生成与每个 reduce作业对应的索引库，然后将在本地磁盘中生成的索引库均上传至 HDFS; 步骤 S32: 当文件系统的类型为除 HDFS之外的其余支持共享的分布式文件系统 (DFS) 时，直接在其余支持共享的 DFS中生成与每个 reduce作业对应的索引库。在优选实施例中，如果当前支持的文件系统的类型为 HDFS, 那么每个 reduce作业均在本地文件系统（即本地磁盘）中生成临时索引库；然后，在 reduce作业最后的清理过程中，可以将在本地文件系统中生成的临时索引库上传至 HDFS文件系统中。如果当前支持的文件系统的类型为其余支持共享的 DFS，则可以直接在 DFS文件系统中生成临时索引库。优选地，在步骤 S106中，对与每个 reduce作业对应的索引库进行合并可以包括以下操作：步骤 S4: 当文件系统的类型为 HDFS时，将 HDFS中的与每个 reduce作业对应的索引库下载至本地磁盘；步骤 S5: 在本地磁盘对与每个 reduce作业对应的索引库进行合并；步骤 S6: 将合并后得到的索引库上传至 HDFS，并将本地磁盘中的与每个 reduce 作业对应的索引库进行删除。在优选实施例中，如果当前支持的文件系统的类型为 HDFS,那么，首先由 Hadoop 的索引主节点（master)从 HDFS文件系统中将全部临时索引库下载至本地文件系统；其次，在索引主节点上对本地文件系统中的全部临时索引库进行合并，生成完整的索引库；再次，在索引主节点上将完整的索引库上传至 HDFS文件系统中；然后，在索引主节点上将本地文件系统中的各个临时索引库进行删除；最后， Hadoop的索引从节点（slave) 从 HDFS文件系统中将完整的索引库下载至本地文件系统中，以便检索使用。优选地，在步骤 S106中，对与每个 reduce作业对应的索引库进行合并可以包括以下步骤：步骤 S7: 当文件系统的类型为其余支持共享的 DFS时，对其余支持共享的 DFS 中生成的与每个 reduce作业对应的索引库进行合并；步骤 S8: 将其余支持共享的 DFS中生成的与每个 reduce作业对应的索引库进行删除。在优选实施例中，如果当前支持的文件系统的类型为其余支持共享的 DFS，那么先由 Hadoop的索引主节点将 DFS文件系统中的临时索引库合并成完整的索引库，以便检索使用；再在索引主节点上将 DFS文件系统中的各个临时索引库进行删除。下面将结合图 2所示的优选实施方式对上述优选实施过程作进一步的描述。图 2是根据本发明优选实施例的分布式索引的生成方法的流程图。如图 2所示，该流程可以包括以下处理阶段：第一阶段：数据采集阶段，即 Hadoop的 map作业阶段，数据采集阶段是设置索引的前置准备阶段，其能够为创建索引提供数据支持。 Hadoop的 map作业阶段所采用的是分布式的实现方式，其可以并行地处理数据，其中， map作业的数量需要由采集的数据量动态确定。利用 Hadoop的 map作业的采集文本文件或者数据库文件对数据进行处理，生成创建索引所需要的各个字段（即键值对（key, value) 集合）的内容，由此极大地提高了数据处理性能。而在采集时由于支持插件处理，因此可以根据数据量定制不同的处理方式。第二阶段：创建索引阶段，即 Hadoop的 reduce作业阶段，创建分布式索引库。通过设置 reduce作业的数目来确定 reduce作业并行处理的最大数值 reduceNum。在数据采集阶段生成的数据通过 HashCode()%reduceNum来分配具体的数据到各个 reduce 作业作为索引，每个 reduce作业分别生成自身的临时索引库文件。需要说明的是，创建索引能够支持 Hadoop分布式文件系统（HDFS) 以及其它可支持共享的分布式文件系统（DFS)。第三阶段：索引合并阶段，根据创建索引阶段得到的各个 reduce作业生成的各个临时索引库，由索引主节点调用索引合并将各个临时索引库合并成一个完整索引库。在执行索引合并时，可以逐个读取各个临时索引库，将临时索引库合并至单独的主索引库，最后将各个临时索引库进行删除，而由主索引库提供检索服务。图 3是根据本发明实施例的分布式索引的生成装置的结构框图。如图 3所示，该装置可以包括：确定模块 10，设置为根据原始数据的数据量确定 Hadoop中的映射 map 作业的数量；生成模块 20，设置为将经过各个 map作业处理后的数据分配至多个规约 reduce作业，并生成与每个 reduce作业对应的索引库，其中， reduce作业的数量以及每个 reduce作业与一个或多个 map作业之间的对应关系均为预先配置完成的；合并模块 30，设置为对与每个 reduce作业对应的索引库进行合并。采用如图 3所示的装置，解决了相关技术中无法对海量数据创建高效快速的索引的问题，进而实现了对海量数据高效地、快速地进行索引。优选地，如图 4所示，生成模块 20可以包括：获取单元 200，设置为获取当前支持的文件系统的类型；确定单元 202，设置为根据文件系统的类型确定与每个 reduce 作业对应的索引库的生成方式；生成单元 204，设置为按照生成方式生成与每个 reduce 作业对应的索引库。优选地，如图 4所示，生成单元 204，设置为当文件系统的类型为 Hadoop分布式文件系统 HDFS时，在本地磁盘中生成与每个 reduce作业对应的索引库，然后将在本地磁盘中生成的索引库均上传至 HDFS; 或者，生成单元 204，设置为当文件系统的类型为除 HDFS之外的其余支持共享的分布式文件系统 DFS时，直接在其余支持共享的 DFS中生成与每个 reduce作业对应的索引库。优选地，如图 4所示，合并模块 30可以包括：下载单元 300，设置为当文件系统的类型为 HDFS时，将 HDFS中的与每个 reduce作业对应的索引库下载至本地磁盘；第一合并单元 302，设置为在本地磁盘对与每个 reduce作业对应的索引库进行合并；第一处理单元 304，设置为将合并后得到的索引库上传至 HDFS，并将本地磁盘中的与每个 reduce作业对应的索引库进行删除。优选地，如图 4所示，合并模块 30可以包括：第二合并单元 306，设置为当文件系统的类型为其余支持共享的 DFS时，对其余支持共享的 DFS中生成的与每个 reduce 作业对应的索引库进行合并；第二处理单元 308，设置为将其余支持共享的 DFS中生成的与每个 reduce作业对应的索引库进行删除。从以上的描述中，可以看出，上述实施例实现了如下技术效果（需要说明的是这些效果是某些优选实施例可以达到的效果）：采用本发明实施例所提供的技术方案，能够通过采用 Hadoop中的 map-reduce编程模型对原始数据进行处理，生成与每个 reduce 作业对应的索引库，然后对与每个 reduce作业对应的索引库加以合并，形成一个完整的索引库，以便检索使用，由此解决了相关技术中无法对海量数据创建高效快速的索引的问题，进而实现了对海量数据高效地、快速地进行索引。显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。工业实用性如上所述，本发明实施例提供的一种分布式索引的生成方法及装置具有以下有益效果：通过采用 Hadoop中的 map作业和 reduce作业对原始数据进行处理，生成与每个 reduce作业对应的索引库，然后对与每个 reduce作业对应的索引库进行合并，进而实现了对海量数据高效地、快速地进行索引。

Claims

权利要求书

1. 一种分布式索引的生成方法，包括：

根据原始数据的数据量确定 Hadoop中的映射 map作业的数量；将经过各个 map作业处理后的数据分配至多个规约 reduce作业，并生成与每个 reduce作业对应的索引库，其中，所述 reduce作业的数量以及所述每个 reduce作业与一个或多个 map作业之间的对应关系均为预先配置完成的；对与所述每个 reduce作业对应的索引库进行合并。

2. 根据权利要求 1所述的方法，其中，生成与所述每个 reduce作业对应的索引库包括：

获取当前支持的文件系统的类型；

根据所述文件系统的类型确定与所述每个 reduce作业对应的索引库的生成方式；

按照所述生成方式生成与所述每个 reduce作业对应的索引库。

3. 根据权利要求 2所述的方法，其中，按照所述生成方式生成与所述每个 reduce 作业对应的索引库包括：

当所述文件系统的类型为 Hadoop分布式文件系统 HDFS时，在本地磁盘中生成与所述每个 reduce作业对应的索引库，然后将在所述本地磁盘中生成的索引库均上传至所述 HDFS; 或者，

当所述文件系统的类型为除所述 HDFS之外的其余支持共享的分布式文件系统 DFS时，直接在所述其余支持共享的 DFS中生成与所述每个 reduce作业对应的索引库。

4. 根据权利要求 3所述的方法，其中，对与所述每个 reduce作业对应的索引库进行合并包括：

当所述文件系统的类型为所述 HDFS 时，将所述 HDFS 中的与所述每个 reduce作业对应的索引库下载至所述本地磁盘；

在所述本地磁盘对与所述每个 reduce作业对应的索引库进行合并；将合并后得到的索引库上传至所述 HDFS, 并将所述本地磁盘中的与所述每个 reduce作业对应的索引库进行删除。

5. 根据权利要求 3所述的方法，其中，对与所述每个 reduce作业对应的索引库进行合并包括：

当所述文件系统的类型为所述其余支持共享的 DFS时，对所述其余支持共享的 DFS中生成的与所述每个 reduce作业对应的索引库进行合并；

将所述其余支持共享的 DFS中生成的与所述每个 reduce作业对应的索引库进行删除。

6. 一种分布式索引的生成装置，包括：

确定模块，设置为根据原始数据的数据量确定 Hadoop中的映射 map作业的数量；

生成模块，设置为将经过各个 map 作业处理后的数据分配至多个规约 reduce作业，并生成与每个 reduce作业对应的索引库，其中，所述 reduce作业的数量以及所述每个 reduce作业与一个或多个 map作业之间的对应关系均为预先配置完成的；

合并模块，设置为对与所述每个 reduce作业对应的索引库进行合并。

7. 根据权利要求 6所述的装置，其中，所述生成模块包括：

获取单元，设置为获取当前支持的文件系统的类型；

确定单元，设置为根据所述文件系统的类型确定与所述每个 reduce作业对应的索引库的生成方式；

生成单元，设置为按照所述生成方式生成与所述每个 reduce作业对应的索引库。

8. 根据权利要求 7所述的装置，其中，所述生成单元，设置为当所述文件系统的类型为 Hadoop分布式文件系统 HDFS时，在本地磁盘中生成与所述每个 reduce 作业对应的索引库，然后将在所述本地磁盘中生成的索引库均上传至所述 HDFS; 或者，所述生成单元，设置为当所述文件系统的类型为除所述 HDFS 之外的其余支持共享的分布式文件系统 DFS 时，直接在所述其余支持共享的 DFS中生成与所述每个 reduce作业对应的索引库。根据权利要求 8所述的装置，其中，所述合并模块包括：下载单元，设置为当所述文件系统的类型为所述 HDFS时，将所述 HDFS 中的与所述每个 reduce作业对应的索引库下载至所述本地磁盘；

第一合并单元，设置为在所述本地磁盘对与所述每个 reduce作业对应的索引库进行合并；

第一处理单元，设置为将合并后得到的索引库上传至所述 HDFS, 并将所述本地磁盘中的与所述每个 reduce作业对应的索引库进行删除。根据权利要求 8所述的装置，其中，所述合并模块包括：第二合并单元，设置为当所述文件系统的类型为所述其余支持共享的 DFS 时，对所述其余支持共享的 DFS中生成的与所述每个 reduce作业对应的索引库进行合并；

第二处理单元，设置为将所述其余支持共享的 DFS 中生成的与所述每个 reduce作业对应的索引库进行删除。