WO2022218218A1

WO2022218218A1 - 数据处理方法、装置、归约服务器及映射服务器

Info

Publication number: WO2022218218A1
Application number: PCT/CN2022/085771
Authority: WO
Inventors: 徐华; 包小明; 孙宏伟; 郑宜海; 刘春�
Original assignee: 华为技术有限公司
Priority date: 2021-04-14
Filing date: 2022-04-08
Publication date: 2022-10-20
Also published as: EP4318257A1; US20240036728A1; CN115203133A; EP4318257A4

Abstract

一种数据处理方法，应用于分布式处理系统中的归约服务器，该分布式处理系统包括多个映射服务器及多个归约服务器，上述多个映射服务器的内存及上述多个归约服务器的内存构成全局内存，方法包括：从预设的第一存储区域，获取待读取的第一数据的元数据，然后根据第一数据的元数据，确定第一数据在全局内存中的第一地址，最后根据第一地址，从全局内存中读取第一数据。本申请的实施例能够以内存方式对洗牌阶段存储在全局内存中的数据进行读取，从而提高洗牌阶段的处理效率。

Description

数据处理方法、装置、归约服务器及映射服务器

本申请要求于2021年4月14日提交中国专利局、申请号为202110401463.9、发明名称为“一种基于全局大内存系统的shuffle方法”的中国专利申请的优先权，以及要求于2021年6月08日提交中国专利局、申请号为202110638812.9、发明名称为“一种数据处理的方法、装置和系统”的中国专利申请的优先权，以及要求于2021年7月19日提交中国专利局、申请号为202110812926.0、发明名称为“数据处理方法、装置、归约服务器及映射服务器”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据处理方法、装置、归约服务器及映射服务器。

背景技术

近年来，以大数据、物联网、人工智能、第五代移动通信技术(5th generation mobile networks，5G)为核心特征的数字化浪潮正席卷全球，由此产生了海量数据。

在相关技术中，对海量数据进行处理时，通常采用分布式高并发计算框架，将待处理数据划分为若干数据块，通过不同计算节点并发进行运算。由于整个数据处理过程可能分为若干步骤，在一个步骤的输入数据来源于前一个步骤的多个计算节点的运算结果的情况下，必然涉及到大量数据在计算节点间的传输。而受单个计算节点的内存容量有限、计算节点间网络传输时延大、带宽小等因素的影响，计算节点间的数据传输效率较低。

发明内容

有鉴于此，提出了一种数据处理技术方案。

第一方面，本申请的实施例提供了一种数据处理方法，所述方法应用于分布式处理系统中的归约服务器，所述分布式处理系统包括多个映射服务器及多个归约服务器，所述多个映射服务器的内存及所述多个归约服务器的内存构成全局内存，所述方法包括：从预设的第一存储区域，获取待读取的第一数据的元数据；根据所述元数据，确定所述第一数据在所述全局内存中的第一地址；根据所述第一地址，从所述全局内存中读取所述第一数据，其中，所述第一数据包括第二数据的多个数据块中的目标数据块，所述第二数据包括相应的映射服务器对输入数据的处理结果。

根据本申请的实施例，分布式处理系统中的归约服务器，能够从第一存储区域，获取待读取的第一数据的元数据，其中，第一数据包括第二数据的多个数据块中的目标数据块，第二数据包括相应的映射服务器对输入数据的处理结果，然后根据该元数据，确定第一数据在全局内存中的第一地址，并根据第一地址，从全局内存中读取第一数据，从而能够在归约服务器从多个映射服务器的处理结果中读取包括目标数据块的输入数据(第一数据)时，无需对目标数据块进行拷贝传输，而是以内存方式对存储在全局内存中的目标数据块直接进行读取，不仅使得洗牌阶段的处理过程不受计算节点的内存容量、传输网络的物理带宽、传输时延等因素的限制，而且能够提高洗牌阶段的处理效率及处理性能，进而提高分布式处理系统的处理效率。

根据第一方面，在所述数据处理方法的第一种可能的实现方式中，所述根据所述第一地址，从所述全局内存中读取所述第一数据，包括：在所述第一地址位于所述归约服务器的访问范围之外的情况下，将所述第一地址映射为第二地址，所述第二地址位于所述归约服务器的访问范围内；根据所述第二地址，从所述全局内存中读取所述第一数据。

在本实施例中，通过在第一地址位于归约服务器的访问范围之外的情况下进行地址映射，使得归约服务器可以从全局内存中读取位于远端的第一数据。

根据第一方面或第一方面的第一种可能的实现方式，在所述数据处理方法的第二种可能的实现方式中，所述方法还包括：在所述归约服务器连接到所述分布式处理系统后，所述归约服务器通过预设的注册指令进行注册，以使所述归约服务器的内存加入所述全局内存。

在本实施例中，通过归约服务器的注册，能够对加入分布式处理系统的归约服务器的内存进行统一管理，从而实现对全局内存的管理。

第二方面，本申请的实施例提供了一种数据处理方法，所述方法应用于分布式处理系统中的映射服务器，所述分布式处理系统包括多个映射服务器及多个归约服务器，所述多个映射服务器的内存及所述多个归约服务器的内存构成全局内存，所述方法包括：对输入数据进行处理，得到第二数据；根据预设标签，将所述第二数据划分为多个数据块；将所述多个数据块存储到第二存储区域，所述第二存储区域位于所述全局内存中。

根据本申请的实施例，分布式处理系统中的映射服务器，能够对输入数据进行处理，得到第二数据，并根据预设标签，将第二数据划分为多个数据块，然后将多个数据块存储到位于全局内存中第二存储区域，从而可以在洗牌阶段，将映射服务器的处理结果(即第二数据)存储在全局内存中，不仅能够避免缓慢的磁盘读写，而且能够使得洗牌阶段的处理过程不受映射服务器的内存容量的限制，进而提高洗牌阶段的处理效率及处理性能。

根据第二方面，在所述数据处理方法的第一种可能的实现方式中，所述将所述多个数据块存储到第二存储区域，包括：在需要对多个数据块中的数据进行排序的情况下，根据预设的第二尺寸，将第二存储区域划分为多个子区域；按照子区域的顺序，将所述多个数据块存储到所述多个子区域中；在将所述多个数据块依次存储到所述多个子区域期间，通过更新有序索引链表，对存储完成的所有子区域中的数据进行排序，所述有序索引链表通过链表链接数据的位置索引的方式进行排序。

在本实施例中，通过异步流水线(pipeline)的方式执行数据写入与排序，并在排序时使用有序索引链表，不仅能够边写边排序，实现在写入时直接排序，而且能够去除单独排序时的数据拷贝环节，减少内存占用，从而可以提高洗牌阶段中洗牌写入的处理效率。此外，通过这种方式，还可以将写入及排序合并为一个步骤，减少处理步骤，提高洗牌阶段的处理效率。

根据第二方面，在所述数据处理方法的第二种可能的实现方式中，所述映射服务器包括对所述输入数据进行处理的至少一个第一算子，所述方法通过所述映射服务器上的第一运算进程实现，所述方法还包括：在所述第一运算进程的初始化阶段，根据所述映射服务器的处理器核的数量，向所述全局内存申请所述第二存储区域，以使每个处理器核对应一个第二存储区域，其中，所述每个处理器核上运行至少一个第一算子。

在本实施例中，能够在映射服务器上的第一运算进程的初始化阶段，根据映射服务器的处理器核的数量，向全局内存申请第二存储区域，以使每个处理器核对应一个第二存储区域，其中，每个处理器核上运行至少一个第一算子，从而可以将运行在同一处理器核上的至少一个算子，看作一个洗牌写入者，并在全局内存中为该洗牌写入者分配存储空间，使得运行在同一个处理器核上的至少一个算子的处理结果中标签相同的数据存储在全局内存的同一区域，实现基于处理器核的数据汇聚，减少数据分散，进而提高数据读取效率。

根据第二方面，在所述数据处理方法的第三种可能的实现方式中，所述根据预设标签，将所述第二数据划分为多个数据块，包括：根据预设标签，通过哈希方式，将所述第二数据划分为多个数据块。

在本实施例中，通过哈希方式将第二数据划分为多个数据块，能够在对第二数据分块前无需进行排序，从而可提高第二数据分块的处理效率。

根据第二方面，在所述数据处理方法的第四种可能的实现方式中，所述将所述多个数据块存储到第二存储区域，包括：确定第二存储区域的第三地址；在所述第三地址位于所述映射服务器的访问范围之外的情况下，将所述第三地址映射为第四地址，所述第四地址位于所述映射服务器的访问范围内；根据所述第四地址，将所述多个数据块存储到所述第二存储区域。

在本实施例中，通过在第三地址位于映射服务器的访问范围之外的情况下进行地址映射，能够实现映射服务器对位于远端的第二存储区域的访问。

根据第二方面或第二方面的第一种可能的实现方式至第二方面的第四种可能的实现方式中的任一种，在所述数据处理方法的第五种可能的实现方式中，所述方法还包括：确定所述多个数据块的元数据；将所述多个数据块的元数据存储到预设的第一存储区域。

在本实施例中，通过确定多个数据块的元数据，并将该元数据存储到第一存储区域，使得归约服务器能够从第一存储区域获取待读取数据的元数据，例如标签、存储地址等。

根据第二方面或第二方面的第一种可能的实现方式至第二方面的第五种可能的实现方式中的任一种，在所述数据处理方法的第六种可能的实现方式中，所述方法还包括：在所述映射服务器连接到所述分布式处理系统后，所述映射服务器通过预设的注册指令进行注册，以使所述映射服务器的内存加入所述全局内存。

在本实施例中，通过映射服务器的注册，能够对加入分布式处理系统的映射服务器的内存进行统一管理，从而实现对全局内存的管理。

根据第二方面或第二方面的第一种可能的实现方式至第二方面的第六种可能的实现方式中的任一种，在所述数据处理方法的第七种可能的实现方式中，所述方法还包括：

当第一内存满足第一条件时，从所述第一内存存储的数据中确定第一目标数据，将所述第一目标数据存储至外部存储区域，所述第一条件为所述第一内存已经使用的空间大于或等于第一阈值，或者，为所述第一内存已经使用的空间与所述第一内存的总空间的比值大于或等于第二阈值，所述第一内存为所述全局内存或者所述全局内存的部分内存。

在本实施例中，通过内存管理装置对第一内存的管理，能够在第一内存的存储空间不够时，将第一内存中的部分数据存储至外部存储区域，以腾出空间存储待存储数据，避免第一内存无法存储大量数据，导致应用出现无法正常运行或者运行效率低的情况。

根据第二方面或第二方面的第一种可能的实现方式至第二方面的第七种可能的实现方式中的任一种，在所述数据处理方法的第八种可能的实现方式中，所述方法还包括：

当所述第一内存满足第二条件时，从所述外部存储区域存储的数据中确定第二目标数据，将所述第二目标数据存储至所述第一内存，所述第二条件为所述第一内存已经使用的空间小于或等于第三阈值，或者，为所述第一内存已经使用的空间与所述第一内存的总空间的比值小于或等于第四阈值。

在本实施例中，通过内存管理装置对第一内存的管理，能够在第一内存的可用存储空间变大时，将存储至外部存储区域的数据取回第一内存，以便需要读取该部分数据的规约服务器可以从全局内存中读取到对应数据，而不是从外部存储区域读取，提高数据读取效率。

根据第二方面或第二方面的第七种可能的实现方式或第二方面的第八种可能的实现方式，在所述数据处理方法的第九种可能的实现方式中，所述外部存储区域包括以下至少一种：硬盘驱动器(hard disk drive，HDD)、固态硬盘(solid state disk，SSD)。

在本实施例中，外部存储区域包括HDD和/或SSD，能够持久化存储数据。

第三方面，本申请的实施例提供了一种归约服务器，所述归约服务器应用于分布式处理系统，所述分布式处理系统包括多个映射服务器及多个归约服务器，所述多个映射服务器的内存及所述多个归约服务器的内存构成全局内存，所述归约服务器包括：元数据读取模块，用于从预设的第一存储区域，获取待读取的第一数据的元数据；地址确定模块，用于根据所述元数据，确定所述第一数据在所述全局内存中的第一地址；数据读取模块，用于根据所述第一地址，从所述全局内存中读取所述第一数据，其中，所述第一数据包括第二数据的多个数据块中的目标数据块，所述第二数据包括相应的映射服务器对输入数据的处理结果。

根据第三方面，在所述归约服务器的第一种可能的实现方式中，所述数据读取模块，被配置为：在所述第一地址位于所述归约服务器的访问范围之外的情况下，将所述第一地址映射为第二地址，所述第二地址位于所述归约服务器的访问范围内；根据所述第二地址，从所述全局内存中读取所述第一数据。

根据第三方面或第三方面的第一种可能的实现方式，在所述归约服务器的第二种可能的实现方式中，所述归约服务器还包括：第一注册模块，用于在所述归约服务器连接到所述分布式处理系统后，所述归约服务器通过预设的注册指令进行注册，以使所述归约服务器的内存加入所述全局内存。

第四方面，本申请的实施例提供了一种映射服务器，所述映射服务器应用于分布式处理系统，所述分布式处理系统包括多个映射服务器及多个归约服务器，所述多个映射服务器的内存及所述多个归约服务器的内存构成全局内存，所述映射服务器包括：数据处理模块，用于对输入数据进行处理，得到第二数据；数据划分模块，用于根据预设标签，将所述第二数据划分为多个数据块；数据存储模块，用于将所述多个数据块存储到第二存储区域，所述第二存储区域位于所述全局内存中。

根据第四方面，在所述映射服务器的第一种可能的实现方式中，所述数据存储模块，被配置为：在需要对多个数据块中的数据进行排序的情况下，根据预设的第二尺寸，将第二存储区域划分为多个子区域；按照子区域的顺序，将所述多个数据块存储到所述多个子区域中；在将所述多个数据块依次存储到所述多个子区域期间，通过更新有序索引链表，对存储完成的所有子区域中的数据进行排序，所述有序索引链表通过链表链接数据的位置索引的方式进行排序。

根据第四方面，在所述映射服务器的第二种可能的实现方式中，所述映射服务器还包括：初始化模块，用于在第一运算进程的初始化阶段，根据所述映射服务器的处理器核的数量，向所述全局内存申请所述第二存储区域，以使每个处理器核对应一个第二存储区域，其中，所述第一运算进程运行在所述映射服务器上，用于对所述输入数据进行处理，所述每个处理器核上运行至少一个第一算子，所述第一算子用于对所述输入数据进行处理。

在本实施例中，能够在映射服务器的第一运算进程的初始化阶段，根据映射服务器的处理器核的数量，向全局内存申请第二存储区域，以使每个处理器核对应一个第二存储区域，其中，每个处理器核上运行至少一个第一算子，从而可以将运行在同一处理器核上的至少一个算子，看作一个洗牌写入者，并在全局内存中为该洗牌写入者分配存储空间，使得运行在同一个处理器核上的至少一个算子的处理结果中标签相同的数据存储在全局内存的同一区域，实现基于处理器核的数据汇聚，减少数据分散，进而提高数据读取效率。

根据第四方面，在所述映射服务器的第三种可能的实现方式中，所述数据划分模块，被配置为：根据预设标签，通过哈希方式，将所述第二数据划分为多个数据块。

根据第四方面，在所述映射服务器的第四种可能的实现方式中，所述数据存储模块，被配置为：确定第二存储区域的第三地址；在所述第三地址位于所述映射服务器的访问范围之外的情况下，将所述第三地址映射为第四地址，所述第四地址位于所述映射服务器的访问范围内；根据所述第四地址，将所述多个数据块存储到所述第二存储区域。

根据第四方面或第四方面的第一种可能的实现方式至第四方面的第四种可能的实现方式中的任一种，在所述映射服务器的第五种可能的实现方式中，所述映射服务器还包括：元数据确定模块，用于确定所述多个数据块的元数据；元数据存储模块，用于将所述多个数据块的元数据存储到预设的第一存储区域。

根据第四方面或第四方面的第一种可能的实现方式至第四方面的第五种可能的实现方式中的任一种，在所述映射服务器的第六种可能的实现方式中，所述映射服务器还包括：第二注册模块，用于在所述映射服务器连接到所述分布式处理系统后，所述映射服务器通过预设的注册指令进行注册，以使所述映射服务器的内存加入所述全局内存。

根据第四方面或第四方面的第一种可能的实现方式至第四方面的第六种可能的实现方式中的任一种，在所述数据处理方法的第七种可能的实现方式中，所述映射服务器还包括：

内存管理装置，用于当第一内存满足第一条件时，从所述第一内存存储的数据中确定第一目标数据，将所述第一目标数据存储至外部存储区域，所述第一条件为所述第一内存已经使用的空间大于或等于第一阈值，或者，为所述第一内存已经使用的空间与所述第一内存的总空间的比值大于或等于第二阈值，所述第一内存为所述全局内存或者所述全局内存的部分。

根据第四方面或第四方面的第一种可能的实现方式至第四方面的第七种可能的实现方式中的任一种，在所述数据处理方法的第八种可能的实现方式中，所述内存管理装置，还用于：

根据第四方面或第四方面的第七种可能的实现方式或第四方面的第八种可能的实现方式，在所述数据处理方法的第九种可能的实现方式中，所述外部存储区域包括以下至少一种：HDD、SSD。

第五方面，本申请的实施例提供了一种数据处理装置，包括处理器及用于存储处理器可执行指令的存储器，其中，所述处理器被配置为执行所述指令时实现上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的数据处理方法，或者实现上述第二方面或者第二方面的多种可能的实现方式中的一种或几种的数据处理方法。

分布式处理系统中的归约服务器，能够从第一存储区域，获取待读取的第一数据的元数据，其中，第一数据包括第二数据的多个数据块中的目标数据块，第二数据包括相应的映射服务器对输入数据的处理结果，然后根据该元数据，确定第一数据在全局内存中的第一地址，并根据第一地址，从全局内存中读取第一数据，从而能够在归约服务器从多个映射服务器的处理结果中读取包括目标数据块的输入数据(第一数据)时，无需对目标数据块进行拷贝传输，而是以内存方式对存储在全局内存中的目标数据块直接进行读取，不仅使得洗牌阶段的处理过程不受计算节点的内存容量、传输网络的物理带宽、传输时延等因素的限制，而且能够提高洗牌阶段的处理效率及处理性能，进而提高分布式处理系统的处理效率。

第六方面，本申请的实施例提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的数据处理方法，或者实现上述第二方面或者第二方面的多种可能的实现方式中的一种或几种的数据处理方法。

第七方面，本申请的实施例提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备中运行时，所述电子设备中的处理器执行上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的数据处理方法，或者执行上述第二方面或者第二方面的多种可能的实现方式中的一种或几种的数据处理方法。

本申请的这些和其他方面在以下(多个)实施例的描述中会更加简明易懂。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面，并且用于解释本申请的原理。

图1示出一种映射归约框架的示意图；

图2示出一种洗牌阶段的处理过程的示意图；

图3示出根据本申请一实施例的分布式处理系统的示意图；

图4示出根据本申请一实施例的数据处理方法的流程图；

图5示出根据本申请一实施例的数据处理方法中数据写入时排序的示意图；

图6示出根据本申请一实施例的数据处理方法的流程图；

图7示出根据本申请一实施例的内存管理装置对全局内存进行管理的流程图；

图8示出根据本申请一实施例的数据处理方法的软件架构的示意图；

图9示出根据本申请一实施例的映射服务器的运算进程的初始化示意图；

图10示出根据本申请一实施例的数据处理方法的处理过程的示意图；

图11示出根据本申请一实施例的归约服务器的框图；

图12示出根据本申请一实施例的映射服务器的框图。

具体实施方式

以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本申请，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本申请同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本申请的主旨。

目前，对海量数据的处理及分析通常采用分布式高并发计算框架，例如海杜普映射归约(hadoop map-reduce，HadoopMR)框架、Spark等。分布式高并发计算框架通过多个计算节点对待处理数据进行并发运算。

图1示出一种映射归约框架的示意图。如图1所示，映射归约框架的数据处理过程包括映射(map)阶段及归约(reduce)阶段，其中，可将映射阶段中算子的输出到归约阶段中算子的输入的这段处理过程，称为洗牌(shuffle)阶段。洗牌阶段可包括映射阶段中算子的输出数据的保存、分块、归约阶段中输入数据的拷贝/拉取、合并、排序等。

可以认为，洗牌阶段将上一个阶段的计算结果通过洗牌分散到下一阶段用于计算或存储结果的物理节点上。

参考图1，待处理数据110存储在海杜普分布式文件系统(hadoop distributed file system，HDFS)100上。对待处理数据110进行处理时，可首先进行数据切分，将待处理数据110切分成数据块A1、数据块A2、数据块A3及数据块A4这4个数据块；然后将4个数据块输入4个映射计算节点(分别为map1、map2、map3及map4，执行相同的处理)进行处理：将数据块A1输入map1处理，将数据块A2输入map2处理，将数据块A3输入map3处理，将数据块A4输入map4处理，得到相应的处理结果；根据与归约阶段的3个归约计算节点相对应的标签121、122、123，将各个映射计算节点的处理结果划分为3个数据块并进行存储，完成映射阶段的处理。

在映射阶段完成后，进入归约阶段。各个归约计算节点从相应的映射计算节点拷贝/拉取数据并进行处理：第1个归约计算节点(包括sort1和reduce1)从各个映射计算节点拉取标签为121的数据块，在获取数据块后，通过sort1对数据块中的数据进行排序，并将排序后的数据输入reduce1进行处理，得到处理结果数据块B1；第2个归约计算节点(包括sort2和reduce2)从各个映射计算节点拉取标签为122的数据块，在获取数据块后，通过sort2对数据块中的数据进行排序，并将排序后的数据输入reduce2进行处理，得到处理结果数据块B2；第3个归约计算节点(包括sort3和reduce3)从各个映射计算节点拉取标签为123的数据块，并在获取数据块后，通过sort3对数据块中的数据进行排序，将排序后的数据输入reduce3进行处理，得到处理结果数据块B3。然后将数据块B1、数据块B2及数据块B3存储在HDFS 130上。

在图1所示的映射归约框架中，映射计算节点与归约计算节点之间通过网络连接。受限于内存容量，各个映射计算节点的处理结果需要存储在本地磁盘，归约计算节点需要从相应的映射计算节点的磁盘中读取数据，再通过网络传输到本地后进行处理。

图2示出一种洗牌阶段的处理过程的示意图。如图2所示，待处理数据为数据块201及数据块202，分别将数据块201及数据块202输入映射计算节点211及映射计算节点212进行处理。映射计算节点211通过算子1对数据块201进行处理，得到处理结果，然后进行洗牌写入(shuffle write)，将算子1的处理结果进行分区并存储到内存1，在内存1存满之后，执行溢出(spill)操作，将内存1中的数据存储在磁盘1上，重复该过程，直到数据块201处理完成。同时，在进行洗牌写入时，将描述算子1的处理结果所在磁盘文件信息的元数据存储到映射输出管理(MapOutTracker)单元221。

映射计算节点212通过算子2对数据块202进行处理，得到处理结果，然后进行洗牌写入(shuffle write)，将算子2的处理结果进行分区并存储到内存2，在内存2存满之后，执行溢出(spill)操作，将内存2中的数据存储在磁盘2上，重复该过程，直到数据块202处理完成。同时，在进行洗牌写入时，将描述算子2的处理结果所在磁盘文件信息的元数据也存储到映射输出管理单元221。其中，算子1与算子2执行相同的处理。

归约计算节点231运行时，首先从映射输出管理单元221处获取待读取数据的元数据，并根据该元数据，进行洗牌读取(shuffle read)，通过网络分别从映射计算节点211的磁盘1及映射计算节点212的磁盘2读取相应数据，然后通过算子3对数据进行处理，得到输出结果241。

由上述示例可知，在现有映射归约框架的洗牌阶段，各个映射计算节点的处理结果存储在磁盘，归约计算节点需要从多个映射计算节点的磁盘中读取数据，并通过网络传输到本地后进行处理。在该过程中，缓慢的磁盘读写严重影响数据传输效率，且短时间内大量数据在计算节点间通过网络传输，网络的物理带宽及传输绝对时延也对数据传输效率有较大影响，进而影响洗牌阶段的处理效率。

在一些技术方案中，为了缓解内存容量压力及网络传输压力，在洗牌阶段(shuffle阶段)，通常会对需要传输的中间数据(即映射计算节点的处理结果)进行序列化、排序、压缩、下硬盘、网络传输、解压缩、反序列化等处理。该方式虽然可以部分缓解内存容量压力及网络传输压力，但同时也带来了冗余开销，而且也不能从根本上解决内存容量受限及数据传输效率较低的问题，也就不能有效提高洗牌阶段的处理效率。

此外，通过网络传输数据时，即在归约计算节点通过网络从映射计算节点拷贝/拉取数据时，使用传输控制协议(transmission control protocol，TCP)及网际互连协议(Internet Protocol，IP)。传输过程中，数据需要经过TCP/IP协议栈的二次拷贝：映射计算节点的处理器(central processing unit，CPU)跨态(从用户态到内核态)将应用层的数据拷贝到TCP内核发送缓存区，通过网络适配器(即网卡)发送给归约计算节点；归约计算节点的CPU也跨态(从内核态到应用态)将通过网络适配器(即网卡)接收的数据从TCP内核接收缓存区拷贝至应用层。数据在TCP/IP协议栈的二次拷贝，会耗费大量CPU时间，导致传输绝对时延较高(通常在10ms级别)，进而影响数据传输效率。

在一些技术方案中，受限于计算节点的内存容量，使用了在内存中缓存部分高频使用的临时数据的折中方法，虽然该方法对某些特定场景有加速作用，但是洗牌阶段的中间数据仍然需要保存在磁盘，内存加速受限，而且也不能解决内存容量受限的问题。

在一些技术方案中，为了提高网络传输效率，在洗牌阶段的数据传输过程中使用了远程直接数据存取(Remote Direct Memory Access，RDMA)技术。映射计算节点的数据可以通过RDMA网卡直接到达归约计算节点的应用层，去除了数据在TCP/IP协议栈的二次拷贝，减少了时间开销和CPU占用率。然而，该方法中数据需要跨节点拷贝，内存占用增加(内存占用为中间数据的两倍)，且洗牌阶段的中间数据仍以文件形式存储，数据传输基于开销较大的输入/输出(input/output，IO)语义，即存在文件系统调用开销，因此，与内存访问相比，计算节点间通过RDMA进行数据传输，仍然存在相对较高的传输绝对时延。

为了解决上述技术问题，本申请提供了一种数据处理方法。本申请实施例的数据处理方法应用于分布式处理系统，能够基于分布式处理系统中多个计算节点的内存互联构成的全局内存，通过内存操作实现洗牌阶段的数据读写，从而在洗牌阶段无需对中间数据进行拷贝传输，使得洗牌阶段的处理过程不受计算节点的内存容量、传输网络的物理带宽、传输时延等因素的限制，而且能够基于高效的内存语义，以内存方式对洗牌阶段的数据进行读写，提高洗牌阶段的处理效率，进而提高分布式处理系统对海量数据的处理效率。

在一种可能的实现方式中，所述分布式处理系统可包括服务器集群、数据中心等用于处理海量数据的分布式系统。本申请对分布式处理系统的具体类型不作限制。

在一种可能的实现方式中，所述分布式处理系统可包括多个映射服务器及多个归约服务器。所述多个映射服务器及所述多个归约服务器用于数据处理。

在一种可能的实现方式中，所述分布式处理系统可包括至少一个洗牌阶段。在任一洗牌阶段，各个归约服务器的输入数据来源于多个映射服务器的输出数据，可将多个映射服务器看作前端，将多个归约服务器看作后端，前端的输出数据作为后端的输入数据。

在一种可能的实现方式中，分布式处理系统中的多个映射服务器的内存及多个归约服务器的内存可以通过系统总线、高速串行计算机扩展(peripheral component interconnect express，PCIE)总线、GEN-Z总线、RDMA等内存互联方式进行连接，以使得多个映射服务器的内存及多个归约服务器的内存构成全局内存。分布式处理系统中的各个映射服务器及各个归约服务器可以以内存方式(使用内存操作指令)访问全局内存。本申请对内存互联的具体方式不作限制。

在一种可能的实现方式中，在映射服务器连接到分布式处理系统后，映射服务器可通过预设的注册指令进行注册，以使该映射服务器的内存加入全局内存。例如，预设的注册指令为register指令，映射服务器连接到分布式处理系统，且其内存通过系统总线与分布式处理系统中其他服务器(包括映射服务器及归约服务器)的内存互联后，该映射服务器可向系统总线发送register指令(即预设的注册指令)，在系统总线上进行注册，以使该映射服务器的内存加入全局内存。系统总线还可向该映射服务器发送注册完成、注册成功等确认指令，以使该映射服务器获得访问全局内存的权限。

在一种可能的实现方式中，在归约服务器连接到分布式处理系统后，归约服务器也可通过预设的注册指令进行注册，以使该归约服务器的内存加入全局内存。例如，预设的注册指令为register指令，归约服务器连接到分布式处理系统，且其内存通过系统总线与分布式处理系统中其他服务器(包括映射服务器及归约服务器)的内存互联后，该归约服务器可向系统总线发送register指令(即预设的注册指令)，在系统总线上进行注册，以使该归约服务器的内存加入全局内存。系统总线还可向该归约服务器发送注册完成、注册成功等确认指令，以使该归约服务器获得访问全局内存的权限。

通过这种方式，能够对加入分布式处理系统的归约服务器及映射服务器的内存进行统一管理，从而实现对全局内存的统一管理。

在一种可能的实现方式中，构建全局内存后，还可建立全局内存与各个映射服务器及各个归约服务器的内存的地址映射关系，以便数据读写时进行地址映射。

在一种可能的实现方式中，映射服务器的内存及归约服务器的内存均为多级内存。多级内存可包括双倍速率同步动态随机存储器(Double Data Rate Synchronous Dynamic Random Access Memory，DDR SDRAM，也可简称DDR)、动态随机存取存储器(dynamic random access memory，DRAM)、傲腾内存(optane memory)或者其他以内存方式访问的存储器中的至少两种。其中，傲腾内存也可称为AEP(Apache Pass)内存。

在一种可能的实现方式中，可根据内存的读写速度，构建多级内存。读写速度越快，内存级别越高。例如，DDR的读写速度比傲腾内存的读写速度快，可将多级内存设置为“DDR+傲腾内存”，在该多级内存的使用过程中，优先使用DDR，DDR存满后，使用傲腾内存。类似地，也可将多级内存设置为“DRAM+傲腾内存”。本领域技术人员可根据实际情况对多级内存进行设置，本申请对此不作限制。

在映射服务器的内存及归约服务器的内存均为多级内存的情况下，通过多个映射服务器的内存与多个归约服务器的内存互联构成的全局内存，也为多级内存。

图3示出根据本申请一实施例的数据处理方法的应用场景的示意图。如图3所示，数据处理方法应用于分布式处理系统，该分布式处理系统包括2个映射服务器(分别为映射服务器311及映射服务器321)和1个归约服务器331。其中，映射服务器311的多级内存314(DDR+AEP+其他内存)、映射服务器321的多级内存324(DDR+AEP+其他内存)、归约服务器331的多级内存334(DDR+AEP+其他内存)通过系统总线314进行连接，构成全局内存。也就是说，图3中的全局内存340包括多级内存314、多级内存324及多级内存334。

参考图3，该分布式处理系统对数据块301及数据块302进行处理。数据块301输入映射服务器311，映射服务器311执行映射任务(maptask)315：通过算子312对数据块301进行处理，得到处理结果，之后执行洗牌写入313，通过内存操作指令，将该处理结果写入全局内存340；类似地，数据块302输入映射服务器321，映射服务器的321执行映射任务(maptask)325：通过算子322对数据块302进行处理，得到处理结果，之后执行洗牌写入323，通过内存操作指令，将该处理结果写入全局内存340。其中，算子312为对输入数据(数据块301)进行处理的第一算子，算子322为对输入数据(数据块302)进行处理的第一算子。

映射服务器311及映射服务器321处理完成后，归约服务器331执行归约任务(reducetask) 335：首先执行洗牌读取333，通过内存操作指令，从全局内存340中读取数据，然后通过算子332对读取的数据进行处理，得到输出结果341。其中，算子332为运行在归约服务器上的、对映射服务器的处理结果进行处理的第二算子。

需要说明的是，以上仅以2个映射服务器及1个归约服务器作为示例，对分布式处理系统及全局内存进行了示例性说明。本领域技术人员应当理解，分布式处理系统可包括多个映射服务器及多个归约服务器，本申请对分布式处理系统中映射服务器的数量及归约服务器的数量不作限制。

图4示出根据本申请一实施例的数据处理方法的流程图。如图4所示，所述方法应用于分布式处理系统中的映射服务器，所述方法包括：

步骤S401，对输入数据进行处理，得到第二数据。

在一种可能的实现方式中，分布式处理系统可包括多个映射服务器。对于待处理的海量数据，分布式处理系统可根据映射服务器的数量，对待处理的海量数据进行分割，例如，可通过分割函数split()，将待处理的海量数据切分为多个待处理数据块；然后将一个或多个待处理数据块作为映射服务器的输入数据。

例如，映射服务器的数量为4，待处理数据块的数量也为4，则为每个映射服务器分配1个待处理数据块作为输入数据；若映射服务器的数量为4，待处理数据块的数量为8，则为每个映射服务器分配2个待处理数据块作为输入数据。

映射服务器接收到输入数据后，可通过第一算子，对输入数据进行格式转换、数据筛选或计算等处理，得到第二数据。也就是说，第二数据为映射服务器对输入数据的处理结果。

例如，待处理的海量数据为X国的人口档案，分布式处理系统需要按省对人口进行分析及统计，可将待处理的海量数据划分为多个待处理数据块，并将多个待处理数据块作为分布式处理系统中映射服务器的输入数据；映射服务器可从输入数据中提取预设的人口关键信息，例如姓名、出生日期、户籍所在地、居住地等信息，得到第二数据。

步骤S402，根据预设标签，将第二数据划分为多个数据块。

在一种可能的实现方式中，预设标签可根据使用场景及待处理的海量数据的关键词进行预先设置。例如，待处理的海量数据为X国的人口档案，分布式处理系统需要按省对人口进行分析及统计，该场景下，可将户籍所在省作为预设标签，预设标签的数量与X国的省市总数量一致。

在一种可能的实现方式中，确定预设标签时，还可考虑分布式处理系统中归约服务器的数量。例如，可首先根据归约服务器的数量，确定预设标签的数量，然后再将预设标签与待处理的海量数据的关键词相对应。

需要说明的是，还可通过其他方式对预设标签进行设置，本申请对预设标签的设置方式及设置依据均不作限制。

在一种可能的实现方式中，得到第二数据后，可在步骤S402中，根据预设标签，通过查找、匹配、哈希等方式，将第二数据划分为多个数据块。例如，假设预设标签为户籍所在省，预设标签的数量为10个，可根据户籍所在省，将第二数据划分为10个数据块。可选的，在第二数据中不包括某个或某些省的数据的情况下，将第二数据划分后得到的数据块的数量会小于10。

在一种可能的实现方式中，将第二数据划分多个数据块时，可通过哈希(hash)方式，从第二数据中选取数据，将第二数据划分为多个数据块。通过这种方式，在对第二数据分块前无需进行排序，从而可提高第二数据分块的处理效率。

步骤S403，将多个数据块存储到第二存储区域，第二存储区域位于全局内存中。

在一种可能的实现方式中，在映射服务器将多个数据块存储到第二存储区域前，可根据第二数据的尺寸，通过内存分配指令，例如allocate(size)指令，其中size表示第二数据的尺寸，向全局内存申请存储空间，申请成功后，将申请到的存储空间作为存储第二数据的第二存储区域。通过这种方式，能够根据第二数据的尺寸动态申请第二存储空间，从而能够节省内存空间，提高内存使用率。

在一种可能的实现方式中，映射服务器也可根据预设的第一尺寸，在全局内存中为第二数据预先分配第二存储区域。在第二数据的尺寸大于第二存储区域的情况下，即第二存储区域的空间不够的情况下，映射服务器再根据实际需要，动态申请存储空间。通过这种方式，能够预先为第二数据分配第二存储空间，减少运行中动态申请存储空间的次数，从而能够提高处理效率。

由于第二存储区域位于全局内存中，那么第二存储区域可能位于本地(映射服务器的物理内存中)，也可能位于远端(其他服务器的物理内存中)。在将多个数据块存储到第二存储区域时，可确定第二存储区域的第三地址，并判断第三地址是否位于映射服务器的访问范围内。若第三地址位于映射服务器的访问范围内，则无需进行地址映射，映射服务器可直接通过写数据指令，例如store指令，将多个数据块存储到第二存储区域。

若第三地址位于映射服务器的访问范围之外，则需要进行地址映射。可根据预设的地址映射关系，通过地址映射指令，例如map指令，将第三地址映射为位于映射服务器的访问范围内的第四地址；然后根据第四地址，将多个数据块存储到第二存储区域。

通过在第三地址位于映射服务器的访问范围之外的情况下进行地址映射，能够实现映射服务器对位于远端的第二存储区域的访问。

在一种可能的实现方式中，映射服务器中对输入数据进行处理的第一算子与第二存储区域对应，即每个第一算子对应一个第二存储区域。在需要对多个数据块中的数据进行排序的情况下，可根据预设的第二尺寸，将第二存储区域划分为多个子区域，并按照子区域的顺序，将多个数据块存储到多个子区域中；在将多个数据块依次存储到多个子区域期间，可通过更新有序索引链表，对存储完成的所有子区域中的数据进行排序。其中，有序索引链表通过链表链接数据的位置索引的方式进行排序。

可将这种写入时排序的方式看作异步流水线(pipeline)方式。通过这种方式，能够在将多个数据块中的数据写入第二存储区域的同时，对写入的数据进行排序，实现写入时直接排序，即边写边排序。下面将结合图5对数据写入时排序的处理过程进行示例性说明。

图5示出根据本申请一实施例的数据处理方法中数据写入时排序的示意图。如图5所示，可根据预设的第二尺寸，将与映射服务器的第一算子(即映射任务)551对应第二存储区域(位于全局内存中)550划分为10个子区域或内存切片(slice)，分别为子区域560至569。其中，子区域560-564已存储完成，即第一算子551已完成对子区域560-564的洗牌写入(shuffle write)，且子区域560-564上存储的数据已排序；子区域565已存储完成，但其上存储的数据并未进行排序；子区域566-569为未使用的空白区域。

第一算子551继续执行洗牌写入(shuffle write)，可从第二存储区域550中按照子区域的顺序，选取第一个空白的子区域566，以独占方式执行数据写入，并同时通过位置数组等方式，为写入的每条数据(或记录)建立位置索引。子区域566写满之后，第一算子551可选取下一个空白的子区域567继续执行数据写入，并通知(例如通过消息等方式)排序线程(sorter)570子区域566写入完成。

在第一算子551对子区域566进行写入的同时，排序线程570可通过有序索引链表，对子区域565上的数据以及子区域560-564上已排序的数据，进行归并排序，以使子区域560-565上存储的数据实现整体排序。可选地，排序线程570可根据子区域565的位置索引依次读取数据，然后通过桶排序等方式，对读取的数据和已排序的数据(即子区域560-564上的数据)进行归并排序，并更新有序索引链表，得到排序结果。其中，排序时使用有序索引链表，能够使得排序过程中不发生数据的拷贝。

排序线程570对子区域565排序完成后，在接收到子区域566写入完成后的通知后，以类似的方式，对子区域566上存储的数据以及子区域560-565上已排序的数据进行归并排序。

可选的，在映射服务器运行在Java平台时，在排序时，可通过native sorter进行堆外的桶排序。由于运行在Java虚拟机(java virtual machine，JVM)上的堆内归并排序存在执行速度慢、内存溢出会引发磁盘IO、排序算法效率低等问题，通过native sorter进行堆外的桶排序，能够有效提高排序效率。

通过异步流水线(pipeline)的方式执行数据写入与排序，并在排序时使用有序索引链表，不仅能够边写边排序，实现在写入时直接排序，而且能够去除单独排序时的数据拷贝环节，减少内存占用，从而可以提高洗牌阶段中洗牌写入的处理效率。此外，通过这种方式，还可以将写入及排序合并为一个步骤，减少处理步骤，提高洗牌阶段的处理效率。

在一种可能的实现方式中，在步骤S403之后，所述方法还可包括：确定所述多个数据块的元数据；将所述多个数据块的元数据存储到预设的第一存储区域。

其中，元数据可包括多个数据块的属性信息。每个数据块的属性信息包括该数据块在全局内存中的存储地址，可选的，每个数据块的属性信息还可包括该数据块的标签、尺寸(即大小)等中的至少一种。本领域技术人员可根据实际对元数据的具体内容进行设置，本申请对此不作限制。

在将多个数据块存储到第二存储区域之后，可确定多个数据块的元数据，并将该元数据存储到预设的第一存储区域。第一存储区域可位于全局内存中，也可位于多个映射服务器及多个归约服务器均可访问的其他内存中。本申请对第一存储区域的具体位置不作限制。

通过确定多个数据块的元数据，并将该元数据存储到第一存储区域，使得归约服务器能够从第一存储区域获取待读取数据的元数据，例如标签、存储地址等。

图6示出根据本申请一实施例的数据处理方法的流程图。如图6所示，所述方法应用于分布式处理系统中的归约服务器，所述方法包括：

步骤S601，从预设的第一存储区域，获取待读取的第一数据的元数据。

在一种可能的实现方式中，第二数据包括分布式处理系统中位于前端的映射服务器对输入数据的处理结果，而作为后端的任一归约服务器，其待读取的第一数据可包括第二数据的多个数据块中的目标数据块。也就是说，第一数据是第二数据的多个数据块中由该归约服务器处理的目标数据块。

在映射阶段，根据预设标签，第二数据被划分为多个数据块存储在全局内存中，多个数据块的元数据存储在第一存储区域。在归约阶段，归约服务器可根据预设标签中与待处理的第一数据对应的目标标签，从第一存储区域中获取第一数据中包括的目标数据块的元数据。

在第一数据中包括的目标数据块为多个的情况下，可从第一存储区域，分别获取各个目标数据块的元数据。

步骤S602，根据第一数据的元数据，确定第一数据在全局内存中的第一地址。

获取第一数据的元数据后，可从该元数据中，得到第一数据在全局内存中的第一地址(即存储地址)。在第一数据包括的目标数据块为多个的情况下，可分别从各个目标数据块的元数据中，确定其在全局内存中的第一地址。

步骤S603，根据第一地址，从全局内存中读取第一数据。

由于第一地址位于全局内存中，那么第一地址可能位于本地(归约服务器的物理内存中)，也可能位于远端(其他服务器的物理内存中)。在从全局内存中读取第一数据时，可判断第一地址是否位于归约服务器的访问范围内。若第一地址位于归约服务器的访问范围内，则无需进行地址映射，归约服务器可直接通过读数据指令，例如load指令，从全局内存中读取第一数据。

若第一地址位于归约服务器的访问范围之外，则需要进行地址映射。可根据预设的地址映射关系，通过地址映射指令，例如map指令，将第一地址映射为位于归约服务器的访问范围内的第二地址；然后根据第二地址，通过内存指令，例如load指令，从全局内存中读取第一数据。

通过在第一地址位于归约服务器的访问范围之外的情况下进行地址映射，使得归约服务器可以从全局内存中读取位于远端的第一数据。

可以理解，在具体实现中，全局内存并不是无限大，若多个映射服务器并行执行图4所示的方法，那么多个映射服务器很可能要存储大量的数据到全局内存，而全局内存的存储空间有限，很可能会出现全局内存无法存储大量数据，导致应用出现无法正常运行或者运行效率低的情况。

为了避免出现上述情况，本申请提供一种内存管理装置，该装置可以对全局内存进行管理，在全局内存的存储空间不够时，将全局内存中的部分数据存储至外部存储区域，以腾出空间存储待存储数据；在全局内存的可用存储空间变大时，再将存储至外部存储区域的数据取回全局内存，以便需要读取该部分数据的规约服务器可以从全局内存中读取到对应数据，而不是从外部存储区域读取，提高数据读取效率。

在本申请具体的实施例中，上述外部存储区域包括但不限于以下至少一种：HDD、SSD或者其他类型的硬盘。可选地，外部存储区域还可以是多个映射服务器以及多个规约服务器共享的HDFS等。

在本申请具体的实施例中，上述内存管理装置可以为部署在单个映射服务器上的一个软件模块，可选地，内存管理装置也可以由映射服务器的硬件实现，例如，由映射服务器中一个处理器实现内存管理装置的功能。此时，内存管理装置可以管理全局内存的全部空间，也可以只管理全局内存分配给该内存管理装置所在的映射服务器的内存空间。

可选地，内存管理装置也可以为一个单独的设备，也可以是部署在一个单独的设备上的软件模块等。此时，内存管理装置可以管理全局内存的全部空间。

参见图7，内存管理装置对全局内存进行管理的具体过程包括：

S701、内存管理装置获取第一内存已经使用的空间。

当内存管理装置用于管理全局内存的全部内存空间时，第一内存为全局内存的全部内存空间，当内存管理装置用于管理全局内存分配给该内存管理装置所在的映射服务器上的内存空间时，第一内存为全局内存分配给该内存管理装置所在的映射服务器的内存空间，即全局内存的部分内存。

S702、内存管理装置确定第一内存是否满足第一条件，当确定第一内存满足第一条件的情况下，执行S703，当确定第一内存不满足第一条件的情况下，执行S704。

S703、内存管理装置从第一内存存储的数据中确定第一目标数据，将第一目标数据存储至外部存储区域。

其中，第一条件为第一内存已经使用的空间大于或等于第一阈值，例如，假设第一内存的总空间为100M，则第一阈值可以为80M，或者，第一条件为第一内存已经使用的空间与第一内存的总空间的比值大于或等于第二阈值，例如，假设第一内存的总空间为100M，则第二阈值可以为80％，第一阈值、第二阈值可以根据实际情况进行设置，此处不做具体限定。

在本申请具体的实施例中，内存管理装置可以根据第一内存存储的数据的优先级从第一内存存储的数据中确定第一目标数据，具体地，第一目标数据可以为第一内存存储的数据中优先级低的部分数据。

内存管理装置在将第一目标数据存储至外部存储区域时，可以根据数据的优先级进行存储，即低优先级的数据先出第一内存，高优先级的数据后出第一内存。

第一内存存储的数据的优先级可以通过以下方式中任意一种体现：

方式1、由数据所属的子区域ID体现。

具体地，在映射服务器向第一内存申请第二存储区域时，可以根据规约服务器的数量，向第一内存申请包括预设数量的子区域的第二存储区域，每个子区域对应一个唯一的规约服务器，即上述预设数量与规约服务器的数量相同，且每个子区域对应一个唯一的标识(identification，ID)，可选地，ID小的子区域可以对应需要先启动数据读取任务的规约服务器，ID大的子区域对应后启动数据读取任务的规约服务器，或者，ID大的子区域对应需要先启动数据读取任务的规约服务器，ID小的子区域对应后启动数据读取任务的规约服务器。

映射服务器在向第二存储区域存储数据时，可以根据子区域ID将与不同规约服务器对应的数据存储到与每个规约服务器对应的子区域，后续规约服务器可以根据子区域ID从相应的子区域中读取对应的数据。例如，标识为001的规约服务器对应标识为1的子区域，该规约服务器可以从标识为1的子区域中读取数据，标识为002的规约服务器对应标识为2的子区域，该规约服务器可以从标识为2的子区域中读取数据。

在映射服务器根据子区域ID将数据存储到对应的子区域的情况下，第一内存存储的数据的优先级由数据所属的子区域ID体现，具体地，在ID小的子区域对应需要先启动数据读取任务的规约服务器，ID大的子区域对应后启动数据读取任务的规约服务器时，第一内存存储的数据的优先级可以为ID小的子区域中的数据的优先级高于ID大的子区域中的数据的优先级，在ID大的子区域对应需要先启动数据读取任务的规约服务器，ID小的子区域对应后启动数据读取任务的规约服务器，第一内存存储的数据的优先级可以为ID大的子区域中的数据的优先级高于ID小的子区域中的数据的优先级。

在第一内存存储的数据的优先级为ID小的子区域中的数据的优先级高于ID大的子区域中的数据的优先级的情况下，内存管理装置从第一内存中确定的第一目标数据可以为ID大于第一预设ID的子区域中的数据，第一预设ID可以根据实际情况进行设置，例如，假设第一内存包括ID为1至ID为10的子区域，第一预设ID为8，则第一目标数据包括ID为9的子区域中的数据和ID为10的子区域中的数据。

在第一内存存储的数据的优先级为ID大的子区域中的数据的优先级高于ID小的子区域中的数据的优先级的情况下，内存管理装置从第一内存中确定的第一目标数据可以为ID小于第二预设ID的子区域中的数据，第二预设ID可以根据实际情况进行设置，例如，假设第一内存包括ID为1至ID为10的子区域，第二预设ID为3，则第一目标数据包括ID为1的子区域中的数据和ID为2的子区域中的数据。

方式2、由数据存储到第一内存的先后顺序体现。

具体地，数据的优先级可以为先存储到第一内存的数据的优先级低于后存储到第一内存的数据的优先级，或者，为先存储到第一内存的数据的优先级高于后存储到第一内存的数据的优先级。

以上述第一种情况为例，第一目标数据可以为第一内存存储的数据中先存储的预设数量的数据，预设数量可以根据实际情况进行设置，例如，假设第一内存先后存储了100个数据，预设数量为10，则第一目标数据为上述100个数据中先存储到第一内存中的10个数据。

方式3、由数据的数据量大小体现。

具体地，数据的优先级可以为数据量大的数据的优先级高于数据量小的数据的优先级，或者，为数据量大的数据的优先级低于数据量小的数据的优先级。

以上述第一种情况为例，第一目标数据为第一内存存储的数据中数据量小于或等于预设数据量的数据，预设数据量可以根据实际情况进行设置，例如，假设第一内存存储了100个数据，预设数据量为10KB，则第一目标数据包括上述100个数据中数据量小于或等于10KB的数据。

需要说明的是，上述所列举的几种体现数据的优先级方式仅仅是作为一种示例，不应视为具体限定。

S704、内存管理装置确定第一内存是否满足第二条件，当确定第一内存满足第二条件时，执行S705，当确定第一内存不满足第二条件时，执行S701。

S705、内存管理装置从外部存储区域存储的数据中确定第二目标数据，将第二目标数据存储至第一内存。

其中，第二条件为第一内存已经使用的空间小于或等于第三阈值，例如，假设第一内存的总空间为100M，则第三阈值可以为70M，或者，第二条件为第一内存已经使用的空间与第一内存的总空间的比值小于或等于第四阈值，例如，假设第一内存的总空间为100M，则第四阈值可以为70％，第三阈值、第四阈值可以根据实际情况进行设置，此处不作具体限定。

第三阈值可小于第一阈值，第四阈值可小于第二阈值，可选地，第三阈值可等于第一阈值，第四阈值可等于第二阈值。

在第三阈值等于第一阈值或者第四阈值等于第二阈值的情况下，内存管理装置可执行S703或者S705。

在本申请具体的实施例中，与内存管理装置根据数据的优先级将第一内存中的数据存储在外部存储区域对应，内存管理装置也可以根据数据的优先级将外部存储区域中的数据存储至第一内存，即高优先级的数据先出外部存储区域，低优先级的数据后出外部存储区域，内存管理装置从外部存储区域存储的数据中确定第二目标数据的过程与上文所述内存管理装置从第一内存存储的数据中确定第一目标数据的过程相类似，可以参考上文相关描述，此处不再展开赘述。

可以理解，内存管理装置在将第一目标数据存储至外部存储区域的过程中，第一内存的可用存储空间会逐渐变大，为了避免过多的数据被存储至外部存储区域，第一内存中剩余的数据过少，导致规约服务器读取数据时，需要从外部存储区域进行读取，因此，内存管理装置在将第一目标数据存储至外部存储区域的过程中，可以监测第一内存的情况，在确定第一内存满足第三条件时，停止进行将第一目标数据存储至外部存储区域的操作。其中，第三条件为第一内存已经使用的空间等于第五阈值，或者，为第一内存已经使用的空间与第一内存的总空间的比值等于第六阈值，第五阈值小于第一阈值，第六阈值小于第二阈值，第五阈值、第六阈值可以根据实际情况进行设置，此处不作具体限定。

根据本申请的实施例可以看出，通过内存管理装置对第一内存进行管理，可以解决第一内存的空间有限时导致应用无法正常运行或者运行效率低的问题。

在本申请具体的实施例中，内存管理装置在将第一目标数据存储至外部存储区域时，还可以确定第一目标数据的元数据，以及确定第一内存中剩余的数据的元数据，并将第一目标数据的元数据以及第一内存中剩余的数据的元数据更新至预设的第一存储区域，其中，第一目标数据的元数据可以包括第一目标数据的属性信息。第一目标数据的属性信息包括数据在外部存储区域中的存储地址，可选地，还可以包括数据的标签、尺寸等中的至少一种，第一内存中剩余的数据的元数据可以包括剩余的数据的属性信息，剩余数据的属性信息包括数据在第一内存中的存储地址，可选地，还可以包括数据的标签、尺寸等中的至少一种，本领域技术人员可根据实际情况对第一目标数据的元数据以及剩余数据的元数据的具体内容进行设置，本申请对此不作限制。

通过确定第一目标数据的元数据以及第一内存中剩余的数据的元数据，并将上述元数据存储到第一存储区域，使得规约服务器能够从第一存储区域获取待读取数据的元数据，例如标签、尺寸、存储地址等。

可以理解，通过内存管理装置对第一内存的管理，步骤S601中规约服务器待读取的第一数据可能如步骤S601所述全部位于全局内存，也可能全部位于外部存储区域，还可能部分位于全局内存，部分位于外部存储区域。

在第一数据全部位于全局内存的情况下，规约服务器从全局内存中读取第一数据的过程可以参考图6所示方法流程。

在第一数据全部位于外部存储区域的情况下，那么第一数据的地址可能位于本地，也可能位于远端。在从外部存储区域读取第一数据时，可判断第一数据的地址是否位于本地，若第一数据的地址位于本地，则规约服务器可以直接从本地读取第一数据，若第一数据的地址位于远端，则规约服务器可以向内存管理装置发送包括第一数据的地址的读数据请求，请求读取第一数据，内存管理装置在接收到读数据请求后，可以根据第一数据的地址从远端的外部存储区域中查找到第一数据，然后将第一数据从远端的外部存储区域存储到全局内存，并将第一数据在全局内存中的地址返回至规约服务器，使得规约服务器可以从全局内存中读取第一数据。

在第一数据中的部分数据位于全局内存以及部分数据位于外部存储区域的情况下，规约服务器从预设的第一存储区域，获取的第一数据的元数据包括第一部分数据的元数据和第二部分数据的元数据，其中，第一部分数据表示第一数据中位于全局内存的数据，第二部分数据表示第一数据中位于外部存储区域的数据。

在获取第一部分数据的元数据和第二部分数据的元数据后，可从第一部分数据的元数据中，得到第一部分数据在全局内存的地址，从第二部分数据的元数据中，得到第二部分数据在外部存储区域的地址，然后从全局内存中读取第一部分数据，从外部存储区域读取第二部分数据。规约服务器从全局内存读取第一部分数据的过程与上文所述规约服务器从全局内存中读取第一数据的过程相类似，规约服务器从外部存储区域读取第二部分数据的过程与上文所述规约服务器从外部存储区域读取第一数据的过程相类似，可以参考上文相关描述。

在本申请具体的实施例中，内存管理装置将第一目标数据从第一内存存储至外部存储区域的操作和映射服务器向第一内存存储数据的操作可以并行执行，内存管理装置将第一目标数据从第一内存存储至外部存储区域的操作和规约服务器从全局内存中读取数据的操作可以并行执行，内存管理装置将第二目标数据从外部存储区域存储至第一内存的操作和映射服务器向第一内存存储数据的操作可以并行执行，内存管理装置将第二目标数据从外部存储区域存储至第一内存的操作和规约服务器从全局内存中读取数据的操作也可以并行执行，以提高数据处理的效率。

在具体实现中，内存管理装置可以采用异步或者同步的传输方式将第一目标数据从第一内存存储至外部存储区域，或者，将第二目标数据从外部存储区域存储至第一内存。

图8示出根据本申请一实施例的数据处理方法的软件架构的示意图。如图8所示，该数据处理方法可应用于分布式处理系统的洗牌阶段，可通过洗牌管理组件(shuffle manager)811和812、洗牌写入者(shuffle writer)812、洗牌读取者(shuffle writer)822、数据管理组件(shuffle)830及全局内存840实现。

其中，洗牌管理组件可提供对外的shuffle功能接口(例如与读写相关的全局内存接口，或与全局内存的其他操作相关的接口，例如将第一目标数据从第一内存存储至外部存储区域的接口)，上层软件注册后可使用。洗牌管理组件可以通过插件(plugin)的形式，与多个开源软件无缝兼容。

参考图8，洗牌管理组件811部署在分布式处理系统中的映射服务器810上，洗牌写入者(shuffle writer)812，例如映射任务maptask，可通过洗牌管理组件811提供的功能接口，使用基于内存语义的操作指令，将待写入的数据(例如maptask的处理结果)写入全局内存840。

洗牌管理组件821部署在分布式处理系统中的归约服务器820上，洗牌读取者(shuffle reader)822，例如归约任务reducetask，可通过洗牌管理组件821提供的功能接口，使用基于内存语义的操作指令，从全局内存840中读取reducetask的输入数据。

数据管理组件830与分布式处理系统中映射服务器810上部署的洗牌管理组件811以及归约服务器820上部署的洗牌管理组件821均存在交互。数据管理组件830对中间数据/临时数据进行管理，并提供元数据服务。例如，数据管理组件830可为部署在映射服务器810上的洗牌管理组件811提供元数据写入服务；数据管理组件830可为部署在归约服务器820上的洗牌管理组件821提供元数据读取服务。

洗牌写入者812用于执行与向全局内存840写入数据相关的内存操作。例如，可执行内存申请(例如allocate(size)指令)、地址映射(例如map指令)、解除映射(例如unmap指令)、内存释放(例如release指令)、写数据(例如store指令)等基于内存语义的操作指令。

洗牌读取者822用于执行与从全局内存840读取数据相关的内存操作。例如，可执行内存申请(例如allocate(size)指令)、地址映射(例如map指令)、解除映射(例如unmap指令)、内存释放(例如release指令)、读数据(例如load指令)等基于内存语义的操作指令，以及与全局内存拷贝相关的内存语义。

需要说明的是，以上仅以1个映射服务器及1个归约服务器作为示例，对本申请的实施例的数据处理方法的软件架构进行了示例性说明。分布式处理系统中的多个映射服务器及归约服务器均可使用图8所示的软件架构。

在一种可能的实现方式中，上述软件架构可通过Java、C++、Python等多种编程语言实现，本申请对此不作限制。可选的，在上述软件架构通过Java实现时，上述组件(包括洗牌管理组件811和821、洗牌写入者812、洗牌读取者822、数据管理组件830)均可运行在Java虚拟机(Java Virtual Machine，JVM)上。

在一种可能的实现方式中，在通过上述软件架构实现本申请实施例的数据处理方法时，可在映射服务器的第一运算进程的初始化阶段，可根据预设的第一尺寸，向全局内存申请第二存储空间，用于存储映射服务器的处理结果，即存储shuffle阶段的中间数据。其中，第一运算进程用于执行映射服务器上的数据处理任务，可包括多个映射任务线程。

可选的，映射服务器可包括对输入数据进行处理的至少一个第一算子，在第一运算进程的初始化阶段，可根据预设的第一尺寸及映射服务器的处理器核的数量，向全局内存申请第二存储区域，以使每个处理器核对应一个第二存储区域，其中，每个处理器核上运行至少一个第一算子。

图9示出根据本申请一实施例的映射服务器的第一运算进程的初始化示意图。如图9所示，第一运算进程910及第一运算进程920运行在不同的映射服务器上。每个映射服务器的处理器包括2个内核(CPU core)。

其中，第一运算进程910包括算子911、算子912、算子913及算子914这4个算子。算子911、算子912、算子913及算子914均为运行在映射服务器上的、用于对输入数据进行处理的第一算子(即maptask)。其中，算子911及算子912以并发方式运行在处理器的一个内核上，算子913及算子914以并发方式运行在处理器的另一个内核上。

第一运算进程920包括算子921、算子922、算子923及算子924这4个算子。算子921、算子922、算子923及算子924均为运行在映射服务器上的、用于对输入数据进行处理的第一算子(即maptask)。其中，算子921及算子922以并发方式运行在处理器的一个内核上，算子923及算子924以并发方式运行在处理器的另一个内核上。

第一运算进程910及第一运算进程920初始化时，可根据预设的第一尺寸及映射服务器的处理器核的数量，向全局内存930申请存储空间(用于存储映射服务器的处理结果)作为第二存储区域，以使每个处理器核对应一个第二存储区域。映射服务器的每个处理器核上可运行至少一个第一算子。

也就是说，可将运行在同一处理器核上至少一个的算子，看作一个洗牌写入者(shuffle writer)，即每个处理器核对应一个洗牌写入者，并根据预设的第一尺寸，在全局内存930中分别为各个洗牌写入者申请存储空间，作为与各个处理器核(或各个洗牌写入者)对应的第二存储区域。

参考图9，第一运算进程910将运行在同一处理器核上的算子911及算子912，看作洗牌写入者writer915，将运行在同一处理器核上的算子913及算子914，看作洗牌写入者writer916。

第一运算进程910为writer915在全局内存930中申请的第二存储区域包括9个缓存，分别为3个缓存A、3个缓存B及3个缓存C。其中，缓存A用于存储算子911及算子912的处理结果中标签为key1的数据，即对算子911及算子912的处理结果中标签为key1的数据进行汇聚；缓存B用于存储算子911及算子912的处理结果中标签为key2的数据，即对算子911及算子912的处理结果中标签为key2的数据进行汇聚；缓存C用于存储算子911及算子912的处理结果中标签为key3的数据，即对算子911及算子912的处理结果中标签为key3的数据进行汇聚。

第一运算进程910为writer916在全局内存930中申请的第二存储区域包括9个缓存，分别为3个缓存D、3个缓存E及3个缓存F。其中，缓存D用于存储算子913及算子914的处理结果中标签为key1的数据，即对算子913及算子914的处理结果中标签为key1的数据进行汇聚；缓存E用于存储算子913及算子914的处理结果中标签为key2的数据，即对算子913及算子914的处理结果中标签为key2的数据进行汇聚；缓存F用于存储算子913及算子914的处理结果中标签为key3的数据，即对算子913及算子914的处理结果中标签为key3的数据进行汇聚。

类似地，与处理器核相对应，第一运算进程920将运行在同一处理器核上的算子921及算子922，看作洗牌写入者writer925，将运行在同一处理器核上的算子923及算子924，看作洗牌写入者writer926。

第一运算进程920为writer925在全局内存930中申请的第二存储区域包括9个缓存，分别为3个缓存G、3个缓存H及3个缓存J。其中，缓存G用于存储算子921及算子922的处理结果中标签为key1的数据，即对算子921及算子922的处理结果中标签为key1的数据进行汇聚；缓存H用于存储算子921及算子922的处理结果中标签为key2的数据，即对算子921及算子922的处理结果中标签为key3的数据进行汇聚；缓存J用于存储算子921及算子922的处理结果中标签为key3的数据，即对算子921及算子922的处理结果中标签为key3的数据进行汇聚。

第一运算进程920为writer926在全局内存930中申请的第二存储区域包括9个缓存，分别为3个缓存K、3个缓存L及3个缓存M。其中，缓存K用于存储算子923及算子924的处理结果中标签为key1的数据，即对算子923及算子924的处理结果中标签为key1的数据进行汇聚；缓存L用于存储算子923及算子924的处理结果中标签为key2的数据，即对算子923及算子924的处理结果中标签为key2的数据进行汇聚；缓存M用于存储算子923及算子924的处理结果中标签为key3的数据，即对算子923及算子924的处理结果中标签为key3的数据进行汇聚。

在第一运算进程910及第一运算进程920处理完成后，运行在归约服务器上的归约任务(reducetask)940、归约任务(reducetask)950及归约任务(reducetask)960，分别从全局内存930中读取数据。

具体地，归约任务(reducetask)940从全局内存930中读取标签为key1的数据，即分别从缓存A、缓存D、缓存G、缓存K中读取数据；归约任务(reducetask)950从全局内存930中读取标签为key2的数据，即分别从缓存B、缓存E、缓存H、缓存L中读取数据；归约任务(reducetask)960从全局内存930中读取标签为key3的数据，即分别从缓存C、缓存F、缓存J、缓存M中读取数据。

需要说明的是，以上仅以2个映射服务器作为示例，对本申请的实施例的映射服务器的第一运算进程的初始化进行了示例性说明。分布式处理系统中的其他映射服务器也通过类似的方式进行初始化。

通过这种方式，能够在映射服务器上的第一运算进程的初始化阶段，根据映射服务器的处理器核的数量，向全局内存申请第二存储区域，以使每个处理器核对应一个第二存储区域，其中，每个处理器核上运行至少一个第一算子，从而可以将运行在同一处理器核上的至少一个算子(例如算子911及算子912)，看作一个洗牌写入者，并在全局内存中为该洗牌写入者分配存储空间，使得运行在同一个处理器核上的至少一个算子的处理结果中标签相同的数据存储在全局内存的同一区域，实现基于处理器核的数据汇聚，减少数据分散，进而提高数据读取效率。

图10示出根据本申请一实施例的数据处理方法的处理过程的示意图。如图10所示，分布式处理系统包括映射服务器1010及归约服务器1020。映射服务器1010的多级内存1012包括DRAM+AEP，归约服务器1020的多级内存1022也包括DRAM+AEP，多级内存1012及多级内存1022通过系统总线1040连接。映射服务器1010及归约服务器1020通过预设的注册命令注册后，多级内存1012及多级内存1022构成全局内存。

映射服务器1010上的第一运算进程1015用于对输入数据进行处理。第一运算进程1015可包括多个用于执行映射任务的线程(与第一算子对应的线程)，即maptask线程。第一运算进程1015可向部署在映射服务器1010上的洗牌管理组件1011注册后，作为洗牌写入者的maptask线程，可通过洗牌管理组件1011提供的功能接口，将待写入的数据写入全局内存。

在第一运算进程1015的初始化阶段，第一运算进程1015可根据预设的第一尺寸，使用图9所示的方式，向全局内存申请存储空间(也可称为内存空间、缓存空间等)，作为第二存储区域。初始化完成后，第一运算进程1015中的多个maptask线程可对输入数据进行处理，得到第二数据(即映射服务器1010的处理结果)，例如，多条<键，值>记录。第一运算进程1015可根据第二数据的尺寸，可判断在初始化阶段申请的存储空间是否够用。在初始化阶段申请的存储空间不够的情况下，第一运算进程1015还可通过全局内存接口，向全局内存动态申请存储空间，并将新申请的存储空间映射到的访问范围内，以使存储空间可以被第一运算进程1015访问。

得到第二数据后，maptask线程可根据预设标签，通过哈希方式，将第二数据划分为多个数据块，并作为洗牌写入者，通过洗牌管理组件1011提供的功能接口，使用内存操作指令，将多个数据块存储在申请好的存储空间(即第二存储区域)中。

如果需要对写入的数据进行排序，则可通过异步流水线(pipeline)方式(参考图5)，利用排序线程1013，在写入数据的同时进行排序。假设多个数据块存储在映射服务器1010的多级内存1012中的DRAM上，在多个数据块存储完成后，第一运算进程1015可向数据管理组件1030发送存储的多个数据块的元数据，以使数据管理组件1030对元数据进行存储。

归约服务器1020上的第二运算进程1025用于从映射服务器1010及其他映射服务器(图中未示出)的处理结果(即第二数据)中，读取第一数据(第二数据的多个数据块中的目标数据块)，并对读取的第一数据进行处理。第二运算进程1025可包括多个用于执行归约任务的线程(与第二算子对应的线程)，即reducetask线程。第二运算进程1025可向部署在映射服务器1020上的洗牌管理组件1021注册后，作为洗牌读取者的reducetask线程，可通过洗牌管理组件1021提供的功能接口，使用内存操作指令，从全局内存中读取数据。

在读取待处理的第一数据时，第二运算进程1025中的各个reducetask线程可从数据管理组件1030获取第一数据的元数据，根据该元数据，确定第一数据的存储地址，并将该存储地址映射到第二运算进程1025的访问范围内。第二运算进程1025可在本地申请相应的内存，然后根据映射后的存储地址，直接通过内存读数据命令(例如load命令)，将存储在映射服务器1010的多级内存1012中的DRAM上数据读取到归约服务器1020的本地内存中进行处理。

在一种可能的实现方式中，第二运算进程1025也可异步执行内存拷贝(gather memory copy)，把分散存储在不同远端内存的数据一次性硬拷贝到本地内存中，以便进行后续处理。

在一种可能的实现方式中，第一运算进程1015还可监测第一内存的情况：

如果确定第一内存满足第一条件，则可从第一内存存储的数据中确定第一目标数据，并通过洗牌管理组件1011提供的功能接口，将第一目标数据存储至外部存储区域。在第一运算进程1015将第一目标数据存储至外部存储区域后，第一运算进程1015可向数据管理组件1030发送第一目标数据的元数据以及第一内存存储的数据中除第一目标数据之外的剩余数据的元数据，以使数据管理组件1030对外部存储区域以及第一内存存储的数据的元数据进行存储。

如果第一运算进程1015确定第一内存满足第二条件，第一运算进程1015可从外部存储区域存储的数据中确定第二目标数据，并通过洗牌管理组件1011提供的功能接口，将第二目标数据存储至第一内存。在第一运算进程1015将第二目标数据存储至第一内存后，第一运算进程1015可向数据管理组件1030发送第二目标数据的元数据以及外部存储区域存储的数据中除第二目标数据之外的剩余数据的元数据，以使数据管理组件1030对外部存储区域以及第一内存存储的数据的元数据进行存储。

需要说明的是，以上仅以1个映射服务器及1个归约服务器作为示例，对本申请的实施例的数据处理方法的处理过程进行了示例性说明。应当理解，分布式处理系统可包括多个映射服务器及多个归约服务器，其处理过程与此类似，此处不再赘述。

在一种可能的实现方式中，对全局内存中的远端内存直接执行读写命令(例如load/store命令)时，与读写本地内存相比，仍然存在较大开销。基于shuffle阶段中间数据的排序结果可以预先获取，可通过构建内存地址列表(memory address list)等方式，对数据进行预存取，从而可以提高远端内存的读写效率。

本申请的实施例所述的数据处理方法，应用于分布式处理系统，能够基于分布式处理系统中多个计算节点的内存互联构成的全局内存，通过内存操作实现洗牌阶段的数据读写，不仅能够充分利用海量内存，还能够去除旧的软件架构中冗余的数据处理环节，极大地提升了shuffle阶段的处理性能。

本申请的实施例所述的数据处理方法，基于内存互联的新硬件拓扑结构，重新定义了shuffle阶段的软件架构，使得shuffle阶段中间数据的存储、计算节点间的读写都以高效的内存操作进行，减少了shuffle阶段的处理流程，使得shuffle阶段在大数据处理中的瓶颈效应进一步减轻。

图11示出根据本申请一实施例的归约服务器的框图。该归约服务器应用于分布式处理系统，所述分布式处理系统包括多个映射服务器及多个归约服务器，所述多个映射服务器的内存及所述多个归约服务器的内存构成全局内存。

如图11所示，该归约服务器包括：

元数据读取模块1110，用于从预设的第一存储区域，获取待读取的第一数据的元数据；元数据读取模块1110的功能的具体实现可参考步骤S601，这里不再赘述。

地址确定模块1120，用于根据所述元数据，确定所述第一数据在所述全局内存中的第一地址；地址确定模块1120的功能的具体实现可参考步骤S602，这里不再赘述。

数据读取模块1130，用于根据所述第一地址，从所述全局内存中读取所述第一数据，

其中，所述第一数据包括第二数据的多个数据块中的目标数据块，所述第二数据包括相应的映射服务器对输入数据的处理结果。数据读取模块1130的功能的具体实现可参考步骤S603，这里不再赘述。

在一种可能的实现方式中，所述数据读取模块1130，被配置为：在所述第一地址位于所述归约服务器的访问范围之外的情况下，将所述第一地址映射为第二地址，所述第二地址位于所述归约服务器的访问范围内；根据所述第二地址，从所述全局内存中读取所述第一数据。

在一种可能的实现方式中，所述归约服务器还包括：第一注册模块，用于在所述归约服务器连接到所述分布式处理系统后，所述归约服务器通过预设的注册指令进行注册，以使所述归约服务器的内存加入所述全局内存。

图12示出根据本申请一实施例的映射服务器的框图。该映射服务器应用于分布式处理系统，所述分布式处理系统包括多个映射服务器及多个归约服务器，所述多个映射服务器的内存及所述多个归约服务器的内存构成全局内存。

如图12所示，该映射服务器包括：

数据处理模块1210，用于对输入数据进行处理，得到第二数据；数据处理模块1210的功能的具体实现可参考步骤S4.1，这里不再赘述。

数据划分模块1220，用于根据预设标签，将所述第二数据划分为多个数据块；数据划分模块1220的功能的具体实现可参考步骤S402，这里不再赘述。

数据存储模块1230，用于将所述多个数据块存储到第二存储区域，所述第二存储区域位于所述全局内存中，数据存储模块1230的功能的具体实现可参考步骤S403，这里不再赘述。

在一种可能的实现方式中，所述数据存储模块1230，被配置为：在需要对多个数据块中的数据进行排序的情况下，根据预设的第二尺寸，将第二存储区域划分为多个子区域；按照子区域的顺序，将所述多个数据块存储到所述多个子区域中；在将所述多个数据块依次存储到所述多个子区域期间，通过更新有序索引链表，对存储完成的所有子区域中的数据进行排序，所述有序索引链表通过链表链接数据的位置索引的方式进行排序。

在一种可能的实现方式中，所述映射服务器还包括：初始化模块，用于在第一运算进程的初始化阶段，根据所述映射服务器的处理器核的数量，向所述全局内存申请所述第二存储区域，以使每个处理器核对应一个第二存储区域，其中，所述第一运算进程运行在所述映射服务器上，用于对所述输入数据进行处理，所述每个处理器核上运行至少一个第一算子，所述第一算子用于对所述输入数据进行处理。

在一种可能的实现方式中，所述数据划分模块1220，被配置为：根据预设标签，通过哈希方式，将所述第二数据划分为多个数据块。

在一种可能的实现方式中，所述数据存储模块1230，被配置为：确定第二存储区域的第三地址；在所述第三地址位于所述映射服务器的访问范围之外的情况下，将所述第三地址映射为第四地址，所述第四地址位于所述映射服务器的访问范围内；根据所述第四地址，将所述多个数据块存储到所述第二存储区域。

在一种可能的实现方式中，所述映射服务器还包括：元数据确定模块，用于确定所述多个数据块的元数据；元数据存储模块，用于将所述多个数据块的元数据存储到预设的第一存储区域。

在一种可能的实现方式中，所述映射服务器还包括：第二注册模块，用于在所述映射服务器连接到所述分布式处理系统后，所述映射服务器通过预设的注册指令进行注册，以使所述映射服务器的内存加入所述全局内存。

在一种可能的实现方式中，所述映射服务器还包括：内存管理装置，用于在所述第一内存满足第一条件时，从所述第一内存存储的数据中确定第一目标数据，将所述第一目标数据存储至外部存储区域，所述第一条件为所述第一内存已经使用的空间大于或等于第一阈值，或者，为所述第一内存已经使用的空间与所述第一内存的总空间的比值大于或等于第二阈值，所述第一内存为所述全局内存或者所述全局内存的部分内存。

在一种可能的实现方式中，上述内存管理装置，还用于在所述第一内存满足第二条件时，从所述外部存储区域存储的数据中确定第二目标数据，将所述第二目标数据存储至所述第一内存，所述第二条件为所述第一内存已经使用的空间小于或等于第三阈值，或者，为所述第一内存已经使用的空间与所述第一内存的总空间的比值小于或等于第四阈值。

在一种可能的实现方式中，所述外部存储区域包括但不限于以下至少一种：HDD、SSD。

本申请的实施例提供了一种数据处理装置，包括：处理器以及用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令时实现上述方法。

本申请的实施例提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。

本申请的实施例提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备的处理器中运行时，所述电子设备中的处理器执行上述方法。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(Random Access Memory，RAM)、只读存储器(Read Only Memory，ROM)、可擦式可编程只读存储器(Electrically Programmable Read-Only-Memory，EPROM或闪存)、静态随机存取存储器(Static Random-Access Memory，SRAM)、便携式压缩盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、数字多功能盘(Digital Video Disc，DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

这里所描述的计算机可读程序指令或代码可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(Instruction Set Architecture，ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(Local Area Network，LAN)或广域网(Wide Area Network，WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或可编程逻辑阵列(Programmable Logic Array，PLA)，该电子电路可以执行计算机可读程序指令，从而实现本申请的各个方面。

这里参照根据本申请实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本申请的多个实施例的装置、系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。

也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行相应的功能或动作的硬件(例如电路或ASIC(Application Specific Integrated Circuit，专用集成电路))来实现，或者可以用硬件和软件的组合，如固件等来实现。

尽管在此结合各实施例对本发明进行了描述，然而，在实施所要求保护的本发明过程中，本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书，可理解并实现所述公开实施例的其它变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其它单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

一种数据处理方法，其特征在于，所述方法应用于分布式处理系统中的归约服务器，所述分布式处理系统包括多个映射服务器及多个归约服务器，所述多个映射服务器的内存及所述多个归约服务器的内存构成全局内存，

所述方法包括：

从预设的第一存储区域，获取待读取的第一数据的元数据；

根据所述元数据，确定所述第一数据在所述全局内存中的第一地址；

根据所述第一地址，从所述全局内存中读取所述第一数据，

其中，所述第一数据包括第二数据的多个数据块中的目标数据块，所述第二数据包括相应的映射服务器对输入数据的处理结果。
根据权利要求1所述的方法，其特征在于，所述根据所述第一地址，从所述全局内存中读取所述第一数据，包括：

在所述第一地址位于所述归约服务器的访问范围之外的情况下，将所述第一地址映射为第二地址，所述第二地址位于所述归约服务器的访问范围内；

根据所述第二地址，从所述全局内存中读取所述第一数据。
根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

在所述归约服务器连接到所述分布式处理系统后，所述归约服务器通过预设的注册指令进行注册，以使所述归约服务器的内存加入所述全局内存。
一种数据处理方法，其特征在于，所述方法应用于分布式处理系统中的映射服务器，所述分布式处理系统包括多个映射服务器及多个归约服务器，所述多个映射服务器的内存及所述多个归约服务器的内存构成全局内存，

所述方法包括：

对输入数据进行处理，得到第二数据；

根据预设标签，将所述第二数据划分为多个数据块；

将所述多个数据块存储到第二存储区域，所述第二存储区域位于所述全局内存中。
根据权利要求4所述的方法，其特征在于，所述将所述多个数据块存储到第二存储区域，包括：

在需要对多个数据块中的数据进行排序的情况下，根据预设的第二尺寸，将第二存储区域划分为多个子区域；

按照子区域的顺序，将所述多个数据块存储到所述多个子区域中；

在将所述多个数据块依次存储到所述多个子区域期间，通过更新有序索引链表，对存储完成的所有子区域中的数据进行排序，所述有序索引链表通过链表链接数据的位置索引的方式进行排序。
根据权利要求4中所述的方法，其特征在于，所述映射服务器包括对所述输入数据进行处理的至少一个第一算子，所述方法通过所述映射服务器上的第一运算进程实现，

所述方法还包括：

在所述第一运算进程的初始化阶段，根据所述映射服务器的处理器核的数量，向所述全局内存申请所述第二存储区域，以使每个处理器核对应一个第二存储区域，

其中，所述每个处理器核上运行至少一个第一算子。
根据权利要求4所述的方法，其特征在于，所述根据预设标签，将所述第二数据划分为多个数据块，包括：

根据预设标签，通过哈希方式，将所述第二数据划分为多个数据块。
根据权利要求4所述的方法，其特征在于，所述将所述多个数据块存储到第二存储区域，包括：

确定第二存储区域的第三地址；

在所述第三地址位于所述映射服务器的访问范围之外的情况下，将所述第三地址映射为第四地址，所述第四地址位于所述映射服务器的访问范围内；

根据所述第四地址，将所述多个数据块存储到所述第二存储区域。
根据权利要求4-8中任一项所述的方法，其特征在于，所述方法还包括：

确定所述多个数据块的元数据；

将所述多个数据块的元数据存储到预设的第一存储区域。
根据权利要求4-9中任一项所述的方法，其特征在于，所述方法还包括：

在所述映射服务器连接到所述分布式处理系统后，所述映射服务器通过预设的注册指令进行注册，以使所述映射服务器的内存加入所述全局内存。
根据权利要求4-10任一项所述的方法，其特征在于，所述方法还包括：

当第一内存满足第一条件时，从所述第一内存存储的数据中确定第一目标数据，将所述第一目标数据存储至外部存储区域，所述第一条件为所述第一内存已经使用的空间大于或等于第一阈值，或者，为所述第一内存已经使用的空间与所述第一内存的总空间的比值大于或等于第二阈值，所述第一内存为所述全局内存或者所述全局内存的部分内存。
根据权利要求4-11任一所述的方法，其特征在于，所述方法还包括：

当所述第一内存满足第二条件时，从所述外部存储区域存储的数据中确定第二目标数据，将所述第二目标数据存储至所述第一内存，所述第二条件为所述第一内存已经使用的空间小于或等于第三阈值，或者，为所述第一内存已经使用的空间与所述第一内存的总空间的比值小于或等于第四阈值。
根据权利要求11或12所述的方法，其特征在于，所述外部存储区域包括以下至少一种：硬盘驱动器HDD、固态硬盘SSD。
一种归约服务器，其特征在于，所述归约服务器应用于分布式处理系统，所述分布式处理系统包括多个映射服务器及多个归约服务器，所述多个映射服务器的内存及所述多个归约服务器的内存构成全局内存，

所述归约服务器包括：

元数据读取模块，用于从预设的第一存储区域，获取待读取的第一数据的元数据；

地址确定模块，用于根据所述元数据，确定所述第一数据在所述全局内存中的第一地址；

数据读取模块，用于根据所述第一地址，从所述全局内存中读取所述第一数据，

其中，所述第一数据包括第二数据的多个数据块中的目标数据块，所述第二数据包括相应的映射服务器对输入数据的处理结果。
根据权利要求14所述的归约服务器，其特征在于，所述数据读取模块，被配置为：

在所述第一地址位于所述归约服务器的访问范围之外的情况下，将所述第一地址映射为第二地址，所述第二地址位于所述归约服务器的访问范围内；

根据所述第二地址，从所述全局内存中读取所述第一数据。
根据权利要求14或15所述的归约服务器，其特征在于，所述归约服务器还包括：

第一注册模块，用于在所述归约服务器连接到所述分布式处理系统后，所述归约服务器通过预设的注册指令进行注册，以使所述归约服务器的内存加入所述全局内存。
一种映射服务器，其特征在于，所述映射服务器应用于分布式处理系统，所述分布式处理系统包括多个映射服务器及多个归约服务器，所述多个映射服务器的内存及所述多个归约服务器的内存构成全局内存，

所述映射服务器包括：

数据处理模块，用于对输入数据进行处理，得到第二数据；

数据划分模块，用于根据预设标签，将所述第二数据划分为多个数据块；

数据存储模块，用于将所述多个数据块存储到第二存储区域，所述第二存储区域位于所述全局内存中。
根据权利要求17所述的映射服务器，其特征在于，所述数据存储模块，被配置为：

在需要对多个数据块中的数据进行排序的情况下，根据预设的第二尺寸，将第二存储区域划分为多个子区域；

按照子区域的顺序，将所述多个数据块存储到所述多个子区域中；

在将所述多个数据块依次存储到所述多个子区域期间，通过更新有序索引链表，对存储完成的所有子区域中的数据进行排序，所述有序索引链表通过链表链接数据的位置索引的方式进行排序。
根据权利要求17所述的映射服务器，其特征在于，所述映射服务器还包括：

初始化模块，用于在第一运算进程的初始化阶段，根据所述映射服务器的处理器核的数量，向所述全局内存申请所述第二存储区域，以使每个处理器核对应一个第二存储区域，

其中，所述第一运算进程运行在所述映射服务器上，用于对所述输入数据进行处理，所述每个处理器核上运行至少一个第一算子，所述第一算子用于对所述输入数据进行处理。
根据权利要求17所述的映射服务器，其特征在于，所述数据划分模块，被配置为：

根据预设标签，通过哈希方式，将所述第二数据划分为多个数据块。
根据权利要求17所述的映射服务器，其特征在于，所述数据存储模块，被配置为：

确定第二存储区域的第三地址；

在所述第三地址位于所述映射服务器的访问范围之外的情况下，将所述第三地址映射为第四地址，所述第四地址位于所述映射服务器的访问范围内；

根据所述第四地址，将所述多个数据块存储到所述第二存储区域。
根据权利要求17-21中任一项所述的映射服务器，其特征在于，所述映射服务器还包括：

元数据确定模块，用于确定所述多个数据块的元数据；

元数据存储模块，用于将所述多个数据块的元数据存储到预设的第一存储区域。
根据权利要求17-22中任一项所述的映射服务器，其特征在于，所述映射服务器还包括：

第二注册模块，用于在所述映射服务器连接到所述分布式处理系统后，所述映射服务器通过预设的注册指令进行注册，以使所述映射服务器的内存加入所述全局内存。
根据权利要求17-23任一项所述的映射服务器，其特征在于，所述映射服务器还包括：

内存管理装置，用于当第一内存满足第一条件时，从所述第一内存存储的数据中确定第一目标数据，将所述第一目标数据存储至外部存储区域，所述第一条件为所述第一内存已经使用的空间大于或等于第一阈值，或者，为所述第一内存已经使用的空间与所述第一内存的总空间的比值大于或等于第二阈值，所述第一内存为所述全局内存或者所述全局内存的部分。
根据权利要求17-24任一所述的映射服务器，其特征在于，所述内存管理装置，还用于：

当所述第一内存满足第二条件时，从所述外部存储区域存储的数据中确定第二目标数据，将所述第二目标数据存储至所述第一内存，所述第二条件为所述第一内存已经使用的空间小于或等于第三阈值，或者，为所述第一内存已经使用的空间与所述第一内存的总空间的比值小于或等于第四阈值。
根据权利要求24或25所述的映射服务器，其特征在于，所述外部存储区域包括以下至少一种：HDD、SSD。
一种数据处理装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令时实现权利要求1-3中任意一项所述的方法，或者实现权利要求4-13中任意一项所述的方法。
一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1-3中任意一项所述的方法，或者，实现权利要求4-13中任意一项所述的方法。
一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备中运行时，所述电子设备中的处理器执行权利要求1-3中任意一项所述的方法，或者，执行权利要求4-13中任意一项所述的方法。