WO2020093227A1

WO2020093227A1 - 一种异构计算系统及内存管理方法

Info

Publication number: WO2020093227A1
Application number: PCT/CN2018/114102
Authority: WO
Inventors: 张龙; 郑明�
Original assignee: 华为技术有限公司
Priority date: 2018-11-06
Filing date: 2018-11-06
Publication date: 2020-05-14
Also published as: CN112368686A

Abstract

一种异构计算系统及内存管理方法，涉及计算机技术领域，能够减少内存出现逻辑地址碎片。该异构计算系统中，主设备用于生成重映射表，并将重映射表发送给至少一个从设备，以及按照重映射表中指示的即将被至少一个从设备处理的计算任务的连续不间断的多个逻辑地址，对与第一内存的内存空间中输入数据的物理地址、计算参数的物理地址和输出数据的物理地址所对应的多个初始逻辑地址进行调整，该多个逻辑地址包括该计算任务的输入数据的逻辑地址、计算参数的逻辑地址和输出数据的逻辑地址；该至少一个从设备用于在执行该计算任务时，根据重映射表指示的多个逻辑地址，在该内存空间中读取输入数据和计算参数、并写入输出数据。

Description

一种异构计算系统及内存管理方法

技术领域

本申请涉及计算机技术领域，尤其涉及一种异构计算系统及内存管理方法。

背景技术

在异构计算系统中，由一个主设备对网络任务中的M个计算任务分发给多个从设备，由从设备完成该M个计算任务的计算。通常，主设备和从设备共享一个共享内存(shared memory)。主设备在分发计算任务之前，向共享内存申请内存空间，用于存放该M个计算任务在执行过程中产生的任务数据，例如，输入数据、计算参数以及输出数据。

目前，内存空间的地址分配是针对每个计算任务独立完成。例如，假设主设备申请的内存空间为51个逻辑页(假设为逻辑页0-50)。任务1的输入数据需占用4个逻辑页，计算参数需占用18个逻辑页，输出数据需占用7个逻辑页。任务2的输入数据为任务1的输出数据，需占用7个逻辑页，计算参数需占用36个逻辑页，输出数据需占用7个逻辑页。在任务1的执行过程中，从设备先向共享内存申请逻辑地址，共享内存根据任务1的任务数据的大小完成地址分配。如图1所示，任务1的输入数据占用逻辑页0-3，计算参数占用逻辑页4-21，输出数据占用逻辑页22-28。任务1完成之后，任务1的输入数据和计算参数被释放，任务1的输出数据作为任务2的输入数据，仍然占用逻辑页22-28。此时，内存空间中逻辑页0-21，29-50空闲。在任务2的执行过程中，从设备向共享内存申请逻辑地址时，由于任务2的计算参数需占用36个逻辑页，而内存空间中不存在连续的36个逻辑页，仅存在两段逻辑地址碎片(逻辑页0-21和29-50)，可能导致从设备或从设备的相关软件难以处理碎片化的逻辑地址，容易导致任务2失败。因此，如何减少内存出现逻辑地址碎片就成为一个问题。

发明内容

本申请提供一种异构计算系统及内存管理方法，能够减少内存出现逻辑地址碎片，提高内存的利用率。

第一方面，本申请提供一种异构计算系统，包括主设备和N个从设备，N为大于等于1的整数；主设备，用于生成重映射表，并将该重映射表发送给N个从设备中的至少一个从设备，该重映射表包括即将被该至少一个从设备处理的计算任务的多个逻辑地址，该多个逻辑地址为对应第一内存的内存空间的连续不间断的多个逻辑地址，包括该计算任务的输入数据的逻辑地址、计算参数的逻辑地址和输出数据的逻辑地址，该计算任务为神经网络或者人工智能中的子任务，以及按照该重映射表中指示的该多个逻辑地址，对与该内存空间中输入数据的物理地址、计算参数的物理地址和输出数据的物理地址所对应的多个初始逻辑地址进行调整，该输入数据的物理地址和计算参数的物理地址中至少一个由前一计算任务确定；该至少一个从设备，用于在执行该计算任务时，根据该重映射表指示的该多个逻辑地址，在该内存空间中读取输入数据和计算参数、并写入输出数据。

在本申请提供的异构计算系统中，主设备通过计算重映射表，提前规划好计算任务的输入数据、输出数据以及计算参数的逻辑地址，以使得至少一个从设备在执行计算任务的过程中，在内存空间中具有连续的逻辑地址来读取输入数据和计算参数，以及写入输出数据，从而避免出现逻辑地址碎片，提高第一内存的利用率。

在一种可选的方式中，异构计算系统还包括系统内存管理单元SMMU，主设备，还用于将对该多个初始逻辑地址进行调整后得到的输入数据的物理地址、计算参数的物理地址和输出数据的物理地址与多个逻辑地址的对应关系发送给SMMU；SMMU，用于接收主设备发送的对应关系，并在从主设备或至少一个从设备接收到携带了该内存空间的待操作逻辑地址的指令时，按照该对应关系，将该待操作逻辑地址转换为物理地址，以使得发送该指令的该主设备或至少一个从设备访问该物理地址，该指令为读指令或者写指令。

基于该可选的方式，主设备通过将多个初始逻辑地址进行调整后得到的输入数据的物理地址、计算参数的物理地址和输出数据的物理地址与多个逻辑地址的对应关系发送给SMMU，便于SMMU按照该对应关系进行逻辑地址到物理地址的转换，从而保证从设备能够根据重映射表中指示的多个逻辑地址成功访问内存空间中输入数据的物理地址、计算参数的物理地址和输出数据的物理地址。

在一种可选的方式中，主设备，还用于在生成重映射表之前，向第一内存申请内存空间，并确定任务信息，该任务信息包括该计算任务的任务数据的数据大小和该计算任务与该前一计算任务之间的数据依赖关系；以及根据该任务信息生成该重映射表，该任务数据包括该输入数据、该计算参数和该输出数据。

在一种可选的方式中，主设备包括中央处理单元，从设备包括如下至少一个：图形处理器、神经处理器或现场可编程门阵列。

第二方面，本申请提供一种内存管理方法，应用于如第一方面所述的异构计算系统，该方法包括：主设备生成重映射表，并将该重映射表发送给该N个从设备中的至少一个从设备，该重映射表包括即将被该至少一个从设备处理的计算任务的多个逻辑地址，该多个逻辑地址为对应第一内存的内存空间的连续不间断的多个逻辑地址，包括该计算任务的输入数据的逻辑地址、计算参数的逻辑地址和输出数据的逻辑地址，该计算任务为神经网络或者人工智能中的子任务，以及按照该重映射表中指示的该多个逻辑地址，对与该内存空间中输入数据的物理地址、计算参数的物理地址和输出数据的物理地址所对应的多个初始逻辑地址进行调整，该输入数据的物理地址和计算参数的物理地址中至少一个由前一计算任务确定；该至少一个从设备在执行该计算任务时，根据该重映射表指示的该多个逻辑地址，在该内存空间中读取该输入数据和该计算参数、并写入该输出数据。

在一种可选的方式中，该方法还包括：主设备将对多个初始逻辑地址进行调整后得到的输入数据的物理地址、计算参数的物理地址和输出数据的物理地址与多个逻辑地址的对应关系发送给系统内存管理单元SMMU；SMMU接收主设备发送的对应关系，并在从主设备或至少一个从设备接收到携带了该内存空间的待操作逻辑地址的指令时，按照该对应关系，将该待操作逻辑地址转换为物理地址，以使得发送该指令的该主设备或至少一个从设备访问该物理地址，该指令为读指令或者写指令。

在一种可选的方式中，主设备生成重映射表之前，该方法还包括：主设备向第一内存申请内存空间，并确定任务信息，该任务信息包括该计算任务的任务数据的数据大小和该计算任务与该前一计算任务之间的数据依赖关系，该任务数据包括输入数据、计算参数和输出数据；主设备生成重映射表，包括：主设备根据该任务信息生成该重映射表。

本申请提供的内存管理装置的技术效果可以参见上述第一方面和第一方面的各个可选方式的技术效果，此处不再赘述。

第三方面，本申请提供一种内存管理装置，包括第一模块和N个第二模块，N为大于等于1的整数。例如，第一模块可以为异构计算系统中主设备的驱动软件。当主设备运行第一模块时，主设备可以实现上述第二方面所述的内存管理方法中的对应步骤。N个第二模块与异构计算系统中的N个从设备一一对应，第二模块可以为从设备的驱动软件，当从设备运行第二模块时，从设备可以实现上述第二方面所述的内存管理方法中的对应步骤。可替换地，第一模块和N个第二模块也可以是硬件或软件与硬件结合实现。

在第三方面中，第一模块，用于生成重映射表，并将该重映射表发送给N个第二模块中的至少一个第二模块，该重映射表包括即将被该至少一个第二模块处理的计算任务的多个逻辑地址，该多个逻辑地址为对应第一内存的内存空间的连续不间断的多个逻辑地址，包括该计算任务的输入数据的逻辑地址、计算参数的逻辑地址和输出数据的逻辑地址，该计算任务为神经网络或者人工智能中的子任务，以及按照该重映射表中指示的该多个逻辑地址，对与该内存空间中输入数据的物理地址、计算参数的物理地址和输出数据的物理地址所对应的多个初始逻辑地址进行调整，该输入数据的物理地址和计算参数的物理地址中至少一个由前一计算任务确定；该至少一个第二模块，用于在执行该计算任务时，根据该重映射表指示的该多个逻辑地址，在该内存空间中读取输入数据和计算参数、并写入输出数据。

在一种可选的方式中，第一模块，还用于将对该多个初始逻辑地址进行调整后得到的输入数据的物理地址、计算参数的物理地址和输出数据的物理地址与多个逻辑地址的对应关系发送给SMMU；SMMU，用于接收第一模块发送的对应关系，并在从第一模块或至少一个第二模块接收到携带了该内存空间的待操作逻辑地址的指令时，按照该对应关系，将该待操作逻辑地址转换为物理地址，以使得发送该指令的该第一模块或至少一个第二模块访问该物理地址，该指令为读指令或者写指令。

在一种可选的方式中，第一模块，还用于在生成重映射表之前，向第一内存申请内存空间，并确定任务信息，该任务信息包括该计算任务的任务数据的数据大小和该计算任务与该前一计算任务之间的数据依赖关系；以及根据该任务信息生成该重映射表，该任务数据包括该输入数据、该计算参数和该输出数据。

基于上述第一方面至第三方面，在一种可选的方式中，重映射表中包括多个逻辑地址从该内存空间的起始逻辑地址开始。

在一种可选的方式中，数据依赖关系包括：计算任务与该计算任务的前一计算任务共享输入数据和计算参数；或者，该前一计算任务的输出数据为该计算任务的输入数据。

在一种可选的方式中，计算任务的输入数据的物理地址和计算参数的物理地址中至少一个通过如下至少一个方式确定：该输入数据的物理地址是前一计算任务的输入数据的物理地址；输入数据的物理地址是前一计算任务的输出数据的物理地址；或计算参数的物理地址是前一计算任务的计算参数的物理地址。

第四方面，提本申请提供计算机存储介质，所述计算机存储介质中存储有例如第三方面中所述第一模块中的计算机指令和所述N个第二模块中的每个第二模块的计算机指令。可选地，所述计算机存储介质中存储有的计算机程序产品，用于执行之前第二方面和第二方面的各个可选方式中任一的所示的方法。

第五方面，提本申请提供计算机程序产品，所述计算机程序产品包括例如第三方面中所述第一模块的软件包和所述N个第二模块中的每个第二模块的软件包。可选地，所述计算机程序产品，用于执行之前第二方面和第二方面的各个可选方式中任一的所示的方法。

附图说明

图1为现有技术中的一种内存空间的逻辑地址的使用情况示意图；

图2为本申请提供的一种异构计算系统的结构示意图；

图3为本申请提供的一种内存管理方法的一个实施例的流程图；

图4为本申请提供的一种内存空间的逻辑地址的使用情况示意图；

图5为本申请提供的一种内存管理装置的结构示意图。

具体实施方式

首先，当本申请提及“第一”、“第二”或者“第三”等序数词时，除非根据上下文其确实表达顺序之意，否则应当理解为仅仅是起区分之用。

其次，本申请提供的内存管理方法适用于如图2所示的异构计算系统，包括主设备、N(N为大于等于1的整数)个从设备(假设为从设备1、从设备2、……、从设备N)、第一内存，以及系统内存管理单元(system memory management unit，SMMU)。其中，主设备可以是中央处理单元(central processing unit，CPU)，主设备为异构计算系统的主控端，用于在获取到计算任务后，在第一内存中为每个计算任务分配内存空间，并将计算任务分发给多个从设备。从设备可以是图形处理器(graphics processing unit，GPU)、神经处理器(Neural processing unit，NPU)、现场可编程门阵列(field programmable gate array，FPGA)等部件，从设备为异构计算系统的主要计算部件，用于对主设备下发的计算任务进行计算。主设备和从设备中的至少一个可以执行软件来实现计算或处理功能。相关软件包括但不限于驱动软件、平台软件、操作系统软件或应用软件中的至少一个。

第一内存可以是异构计算系统中的任何一种存储计算任务的任务数据的内存，例如全局内存(global memory)、共享内存(shared memory)、本地内存(local memory)、寄存器内存(Register memory)等。

SMMU为一种内存管理单元，能够为主设备和从设备提供虚拟地址管理、或映射等的工作，使得从设备在读、或写数据时不需要通过主设备的处理。

基于如图2所示的异构计算系统，如图3所示为本申请提供的一种内存管理方法的一个实施例，该方法可以包括：

步骤301，主设备生成重映射表(remap table)。其中，重映射表中包括分配给M个计算任务中的每个计算任务的任务数据的连续的逻辑地址，即该任务数据的逻辑地址不会断裂。该M个计算任务为神经网络或者人工智能中的M个子任务。M为大于等于1的整数。例如，在神经网络的融合计算任务中，神经网络中的多个层中每一个单层(layer)或者融合层(fusion layers)为一个计算任务。或者，在统一计算设备架构(Compute Unified Device Architecture，CUDA)中的融合核(fusion kernel)任务中，每一个核(kernel)为一个计算任务。

主设备通过软件模拟执行该M个计算任务，确定每个计算任务的每个任务数据、每个任务数据的数据大小和该M个计算任务之间的数据依赖关系等任务信息。其中，一个计算任务的任务数据可以包括输入数据、计算参数和输出数据。一个计算任务可以采用多个输入数据和多个计算参数，并在对该多个输入数据和多个计算参数完成计算后，得到多个输出数据。M个计算任务之间的数据依赖关系，包括但不限于：该M个计算任务中的多个计算任务共享输入数据和计算参数；或者，M个计算任务中存在两个计算任务，这两个计算任务中先执行的计算任务的输出数据为后执行的计算任务的输入数据。

主设备和执行该M个计算任务的多个从设备共享第一内存(例如，异构计算系统中的共享内存、或全局内存等)，当M个计算任务的任务数据需要存储在第一内存时，主设备可以向第一内存申请获取内存空间，并确定该内存空间的内存信息。该内存空间的内存信息可以包括逻辑地址和物理地址等，用以从设备在第一内存上读写该M个计算任务的任务数据。

示例性的，主设备可以根据任务信息和内存空间的内存信息计算重映射表，该重映射表中可以包括任务标识(task ID)、输入标识(input ID)、权重标识(weight ID)、输出标识(out ID)、和内存地址(memory address)等。其中，任务标识用于标识每一个计算任务。输入标识用于标识输入数据。权重标识用于标识计算参数，即标识用于人工智能或神经网络计算的权重参数。输出标识用于标识输出数据。由于每一个计算任务可能具有多个输入数据、计算参数、和输出数据，因此可以通过输入标识、权重标识、输出标识对计算任务的每一个输入数据、计算参数、和输出数据的逻辑地址进行标记。

内存地址为每一个输入数据、每一个输出数据以及每一个计算参数在第一内存上的逻辑地址(logical address)，用于从设备在执行计算任务时对相应的任务数据进行读写。逻辑地址为来自任一需要操作第一内存的设备的指令，如是主设备或从设备对第一内存做读或写的读指令或写指令中的地址，SMMU在接收到读指令或写指令后，会根据SMMU中缓存的页表中记录的该内存空间的物理地址(physical dddress)与逻辑地址之间的对应关系(如映射表)，将指令中的逻辑地址映射为物理地址，以使得该读指令或写指令能够访问到第一内存中对应的物理地址。其中，物理地址为第一内存中实际存储数据的地址。与逻辑地址不同，物理地址是第一内存中真实的地址，可以实际存储数据。而逻辑地址是为了便于任一设备或相关软件对该地址进行管理，其属于虚拟的地址。在进行第一内存的访问时，所述任一设备或相关软件操作的逻辑地址需要被SMMU根据所述对应关系转换为物理地址以便访问真实的第一内存。

重映射表中还可以指示数据大小(data size)，用于记录每一个输入数据、每一个输出数据以及每一个计算参数的数据大小。示例性的，假设主设备为该M个计算任务申请的内存空间的逻辑地址包括逻辑页0-50，共51个逻辑页的内存空间，该M个计算任务依次执行，且前一个计算任务的输出数据为后一个计算任务的输入数据。假设，主设备根据该M个计算任务的任务信息和第一内存的51个逻辑页生成的重映射表如表1所示。其中，逻辑页是一个逻辑地址的单位。

表1

在本实施例中，为了便于描述，表1中的逻辑地址均通过逻辑页的编号来表示。后续实施例如无特别说明，也以逻辑页为逻辑地址单位进行介绍。

在本申请中，主设备生成重映射表的过程中，针对每一个计算任务的任务数据，主设备都将内存空间的逻辑地址进行重新分配，保证每个任务数据都具有连续的逻辑地址。而不是基于任务之间的关系进行分配。例如，表1中，针对任务1，主设备从逻辑页0开始依次将内存空间的逻辑页分配给任务1的每个任务数据。而针对任务2，主设备也是从逻辑页0开始依次将内存空间的逻辑页分配给任务2的每个任务数据。而不是基于任务1与任务2之间的数据依赖关系，直接将逻辑页19-25分配给任务2的输入数据，从而导致任务2的计算参数没有连续的逻辑地址也可以使用。

在本实施例中，主设备通过计算重映射表，提前规划好每个计算任务的每个任务数据的逻辑地址，以使得每个计算任务在执行的过程中具有连续的逻辑地址来读和写任务数据，从而避免出现地址碎片，保证M个计算任务能够顺利完成。

步骤302，主设备向N个从设备发送重映射表。其中，该N个从设备为执行该M个计算任务的从设备，该N个从设备中的每个从设备执行该M个计算任务中的至少一个计算任务。主设备可以根据该M个计算任务之间的数据依赖关系、任务数据的数据大小、以及各个从设备的计算资源的负载状况等信息，确定N(N≤M，且为大于等于1的整数)个执行该M个计算任务的从设备，以及确定每个从设备所执行的计算任务。

例如，当该M个计算任务共享相同的输入数据以及计算参数时，主设备可以将该M个计算任务分配给M个从设备，由M个从设备并行执行。或者，当该M个计算任务中，前一个执行的计算任务的输出数据为后一个执行的计算任务的输入数据时，主设备可以将该M个计算任务分配给同一个从设备，由该从设备串行执行。例如，主设备可以在调度该M个计算任务的过程中，将重映射表携带在调度信息中发送给该N个从设备，也可以通过单独的信令发送该重映射表给该N个从设备。

步骤303，在每个计算任务被执行之前，主设备按照重映射表中指示的该计算任务的逻辑地址，对申请到的内存空间的物理地址所对应的逻辑地址进行一次调整，更新该内存空间的物理地址与逻辑地址的对应关系。即对应于物理地址的逻辑地址根据步骤301中的重映射表而改变。步骤304，从设备在执行计算任务时，根据该重映射表中指示的逻辑地址，在第一内存中读或写任务数据。具体的，主设备在每一次更新物理地址与逻辑地址之间的对应关系后，将更新后的对应关系发送给SMMU，以使得SMMU在接收到主设备或者从设备发送的读指令或者写指令时，可以根据该更新后的对应关系进行逻辑地址到物理地址的映射。相应的，从设备可以通过发送读指令或写指令至SMMU，SMMU按照主设备发送的对应关系将指令内的逻辑地址转换为物理地址，以便进一步实现访问对应的物理地址，从而使得从设备能够针对所述物理地址读或写所述任务数据。

示例性的，以表1中的任务1和任务2为例，假设从设备1执行任务1和任务2，任务2的输入数据为任务1的输出数据。为了便于描述，以逻辑地址中的逻辑页与物理地址中的物理页为例进行描述。假设，M个计算任务在开始执行之前，SMMU中缓存的页表上记录的该内存空间的逻辑页与物理页之间的对应关系如下表2所示。

表2

逻辑页	0	1	……	49	50
物理页	0	1	……	49	50

需要说明的是，该M个计算任务在执行之前，由于该内存空间还未被使用，即内存空间内的每个物理地址均为可写入状态。那么，主设备在该M个计算任务中的第一个计算任务被执行之前，可以将在步骤301中生成重映射表时，使用的内存信息中携带的内存空间的逻辑页与物理页之间的对应关系(如表2所示)，作为更新后的对应关系，发送送给SMMU。

假设，主设备发送给SMMU的更新后的对应关系仍如表2所示。那么在从设备1执行任务1之前，主设备向SMMU发送写指令，该写指令包括任务1的3个输入数据(输入标识为101、102、103的输入数据，以下称为输入数据101、输入数据102以及输入数据103)和3个计算参数(权重标识为111、112、113的计算参数，以下称为计算参数111、计算参数112、计算参数113)，以及重映射表中指示的输入数据101、输入数据102、输入数据103、计算参数111、计算参数112、计算参数113的逻辑地址，即逻辑页0-18。SMMU根据缓存的页表中记录的如表2所示的对应关系，将写指令中的逻辑地址映射表为物理地址，即物理页0-18。然后将该写指令发送给第一内存，第一内存根据该写指令，将输入数据101存储到物理页0中，输入数据102存储到物理页1中，输入数据103存储到物理页2-3中，计算参数111存储到物理页4-6，计算参数112存储到物理页7-11，计算参数113存储到物理页12-18中。

从设备1在执行任务1时，从设备1向SMMU发送读指令，该读指令中包括重映射表中指示的输入数据101、输入数据102、输入数据103、计算参数111、计算参数112和计算参数113的逻辑地址，即逻辑页0-18。SMMU根据页表中记录的如表2所示的对应关系，将读指令中的逻辑地址映射为物理地址，即物理页0-18。然后将该读指令发送至第一内存，以访问第一内存物理页0-18。第一内存将物理页0-18中存储的数据包括输入数据101、输入数据102、输入数据103、计算参数111、计算参数112和计算参数113。其中，从设备1可以通过一个读指令读取一个输入数据或计算参数，也可以通过一个读指令读取任务1的所有输入数据或计算参数。

从设备1根据输入数据101、输入数据102、输入数据103、计算参数111、计算参数112和计算参数113执行计算，得到任务1的3个输出数据(输出标识为121、122、123的输出数据，以下称为输出数据121、输出数据122、输出数据123)。从设备1向SMMU发送写指令，该写指令中包括输出数据121、输出数据122、输出数据123，以及重映射表中指示的输出数据121、输出数据122、输出数据123的逻辑地址，即逻辑页19-25。SMMU根据页表中记录的如表2所示的对应关系，将写指令中的逻辑地址映射为物理地址，即物理页19-25。然后将该写指令发送至第一内存，第一内存根据写指令，将写指令中包括的输出数据121、输出数据122、输出数据123写入物理页19-25中。

在任务1被执行的过程中，任务1的输入数据和计算参数被读出后，就会被第一内存删除。因此，当任务1结束后，内存空间物理页0-18被释放。此时，内存空间的物理页19-25中存储了任务1的3个输出数据。而下一步执行的任务2的输入数据201、输入数据202以及输入数据203分别为任务1的输出数据121、输出数据122、输出数据123。也就是说，此时，任务2的输入数据201的逻辑地址为逻辑页19-20，物理地址为物理页19-20，输入数据202的逻辑地址为逻辑页21-23，物理地址为物理页21-23，输入数据203的逻辑地址为逻辑页24-25，物理地址为物理页24-25。

在从设备1执行任务2之前，主设备需要根据表1中指示的任务2的任务数据的逻辑地址，对内存空间的物理地址所对应的逻辑地址进行一次调整，更新该内存空间的物理地址与逻辑地址的对应关系。即重新建立逻辑地址0-50与物理地址0-50之间的一一对应关系，以保证任务2的输入数据的逻辑地址按照表1所指示的从逻辑页开始，且从设备1能够根据逻辑页0-6，准确访问存储了任务2的输入数据的物理地址，即物理页19-25。同时，保证在更新后的对应关系中，逻辑页7-50所对应的物理页为可写入状态。示例性的，主设备根据表1中指示的任务2的任务数据的逻辑地址，对内存空间的物理地址所对应的逻辑地址进行一次调整后，得到的更新后的对应关系，可以如下表3所示：

表3

逻辑页	0	1	……	31	32	33	……	50
物理页	19	20		50	0	1	……	18

由于在步骤303中，主设备通过调整物理地址所对应的逻辑地址，使得任务2的输入数据的逻辑地址仍然为从0开始，那么原来的表2需要被调整为表3。即任务1执行后本来存储了任务2的输入数据的物理页19-25所对应的逻辑地址为逻辑页19-25，但在根据步骤301的重映射表，对内存空间的物理地址所对应的逻辑地址进行调整的过程中，物理页19-25所对应的逻辑地址被调整为逻辑页0-6。因此，在后续步骤304中，当从设备1执行任务2时，能够通过SMMU，根据逻辑页0-6去访问物理页19-25，以读取任务2的输入数据。即在任务1结束后，任务2被执行之前，主设备在步骤303中，按照步骤301中的重映射表，将内存空间的物理地址所对应逻辑地址进行一次调整，即将原本的表2更新为表3，并将表3提供给SMMU。从设备1在后续步骤304的操作中，使用重映射表执行任务2，从逻辑页0开始执行，对应的实际物理页19是前一次任务1的输出数据，即本次任务2的输入数据，对于该从设备1而言，能够继续使用任务1的输出数据作为输入数据，但其逻辑地址不会从逻辑页19开始，而是从逻辑页0开始，保证后续一系列处理的逻辑地址是连续的，防止出现逻辑地址碎片，便于主设备或从设备1管理和维护逻辑地址。

在步骤303中，主设备可以将表3发送至SMMU，以使得SMMU根据表3更新其缓存的页表中记录的内存空间的逻辑页与物理页之间的对应关系，并在后续采用更新后的对应关系，进行逻辑地址到物理地址的映射，以保证地址正确性。基于表3可知，主设备根据表1中指示的任务2的任务数据的逻辑地址，对内存空间的物理地址所对应的逻辑地址进行一次调整后，逻辑页0-31依次与物理页19-50一一对应，逻辑页32-50与依次与物理页0-18一一对应。无论任务2所需要占用的逻辑地址多大，只要需占用逻辑地址小于罗辑页的总数(例如，第一内存空间总量)，其逻辑地址都从0开始，避免出现逻辑地址碎片化。也就是说，在步骤303中主设备对物理地址所对应的逻辑地址进行调整后，任务2的3个输入数据的逻辑地址被映射到内存空间的起始位置，即任务2的输入数据201的逻辑地址为逻辑页0-1，物理地址为物理页19-20，输入数据202的逻辑地址为逻辑页2-4，物理地址为物理页21-23，输入数据203的逻辑地址为逻辑页5-6，物理地址为物理页24-25。从而，从设备1在后续步骤304中执行任务2时，能够根据逻辑页0-1通过SMMU读取物理页19-20中存储的输入数据201，根据通过SMMU逻辑页2-4读取物理页21-23中存储的输入数据202，根据逻辑页5-6通过SMMU读取物理页24-25中存储的输入数据203。

由于主设备在根据表1中指示的任务2的任务数据的逻辑地址，对内存空间的物理地址所对应的逻辑地址进行一次调整后，内存空间除了分配给任务2的输入数据的7个逻辑页(逻辑页0-6)外，还剩余44个连续的逻辑页(逻辑页7-50)可以被分配给任务2的计算参数和输出数据。而任务2的3个计算参数(计算参数211、计算参数212、计算参数213)分别需要占用12、14、10共36个逻辑页。因此主设备可以根据重映射表中指示的逻辑地址，通过SMMU将任务2的3计算参数成功写入第一内存。

具体的，主设备向SMMU发送写指令，该写指令中包括计算参数211、计算参数212、计算参数213，以及重映射表中指示计算参数211、计算参数212、计算参数213的逻辑地址：逻辑页14-49。SMMU根据页表中记录的如表3所示的对应关系，将写指令中的逻辑页14-49映射为物理页33-50和0-17。然后将该写指令发送至第一内存，第一内存根据写指令，将写指令中包括的计算参数211存储到物理页33-44中，将计算参数212存储到物理页45-50和0-7中，将计算参数213存储到物理页8-17中。

从设备1在执行任务2时，在如前所述的步骤304中向SMMU发送读指令，该读指令中包括重映射表中指示的输入数据201、输入数据202、输入数据203、计算参数211、计算参数212和计算参数213的逻辑地址。SMMU根据缓存的页表中记录的如表3所示的对应关系，将读指令中的逻辑地址映射为物理地址。然后将该读指令发送至第一内存，以使得该读指令能够成功访问到对应的物理地址。第一内存根据读指令，将物理页19-20中存储的输入数据201、物理页21-23中存储的输入数据202、物理页24-25中存储的输入数据203、物理页33-44中存储的计算参数211、物理页45-50和0-7中存储的计算参数212、以及物理页8-17中存储的计算参数213输出至从设备1。

从设备1根据任务2的3个输入数据和3个计算参数执行计算，得到任务2的3个输出数据(输出数据221、输出数据222、输出数据223)。从设备1向SMMU发送写指令，写指令中包括输出数据221、输出数据222、输出数据223，以及重映射表中指示的输出数据221、输出数据222、输出数据223的逻辑地址。SMMU根据页表中记录的如表3所示的对应关系，将写指令中的逻辑地址映射为物理地址。然后将该写指令发送至第一内存，第一内存根据该写指令，将输出数据221存储到物理页26-27中、将输出数据222存储到物理页28-30中、将输出数据223存储到物理页31-32中。

任务1和任务2对主设备申请的内存空间的逻辑地址(逻辑页0-50)的使用情况可以参见图4所示，在任务1被执行时，任务1的输入数据占用4个逻辑页(逻辑页0-3)，计算参数占用15个逻辑页(逻辑页4-18)，输出数据占7个逻辑页(逻辑页19-20)。经过重映射之后，在任务2被执行时，任务2的输入数据占用7个逻辑页(逻辑页0-6)，计算参数占用36个逻辑页(逻辑页14-49)，输出数据占7个逻辑页(逻辑页7-13)。相比于图1中所示的由于任务2的输入数据占用逻辑页19-20，导致计算参数没有连续的36个逻辑地址可以使用，从而导致任务2失败的情况，本申请中主设备根据重映射表在每个计算任务被执行之前，进行对内存空间的逻辑地址和物理地址进行重映射，能够避免内存空间的逻辑地址碎片化，进而保证每个任务数据都有连续的逻辑地址可以使用，保证计算任务成功执行。

可选的，在M个计算任务被执行的过程中，可能会出现其他数据需要临时或者持续占用分配给该M个计算任务的内存空间(第一内存上)的情况。当其他数据的优先级高于该M个计算任务的任务数据的优先级时，为了避免即将被执行的计算任务的任务数据被高优先级的其他数据覆盖，导致计算任务失败，主设备还可以预先为每个计算任务的每个任务数据分配在第二内存上的镜像地址(mirror address)，并将每个计算任务的每个任务数据在第二内存上的镜像地址携带在重映射表中，发送给每个从设备，以用于在第一内存的内存空间被占用时，主设备和从设备可以通过任务数据在第二内存上的镜像地址在第二内存上读写任务数据，以保证计算任务顺利完成。其中，当第一内存为共享内存时，第二内存可为全局内存。

在异构计算系统中，全局内存通常是容量最大、带宽最小的内存，计算任务的任务数据通常存储在全局内存中，若按照常规机制，多个从设备在执行计算任务的过程中，需要高频次的在全局内存中读或写任务数据，从而造成全局内存的带宽压力，且对于从设备来说，由于全局内的带宽较小，因此在全局内存上读或写任务数据时，花费的时间较多，降低了计算效率。而共享内存虽然容量较小，但数据通路通常具有较大的带宽，因此若网络任务能够在共享内存上完成计算，则可以大大降低从设备在读写任务数据上花费的时间，并减轻全局内的带宽压力。即在计算任务的执行过程中，只需要由主设备将计算任务所需部分任务数据(例如，计算参数，或者部分输入数据)从全局内存，转移到共享内存上，以供从设备读取，无需从设备在全局内存上读写任务数据，从而提高网络任务的计算效率。由于共享内存的容量较小，因此当采用本申请提供的内存管理方法管理共享内存(即第一内存为共享内存)时，能够有效的避免共享的逻辑地址碎片化，提高共享内存的利用率，从而保证网络任务能够在共享内存上完成计算，减轻全局内存的带宽压力。

表4为采用常规机制和重映射机制执行网络任务时，计算周期、读带宽(网络任务执行过程中在全局内存上读数据时占用的带宽)、写带宽(网络任务执行过程中在全局内存上写数据时占用的带宽)的数据对比。表4中的计算周期、读带宽、写带宽均为采用常规机制和重映射机制执行场景识别网络(scene classify net)中的融合任务时采集到的数据。

表4

其中，常规机制为主设备和从设备在全局内存上执行网络任务，且全局内存上逻辑地址的分配是针对网络任务中的每个计算任务独立完成，无需重映射逻辑地址。重映射机制为基于本申请提供的内存管理方法，调整共享内存上申请到的内存空间的物理地址对应的逻辑地址，以使得从设备和主设备能够顺利在共享内存(即第一内存)上执行网络任务。从表4中记录的数据可以看出，相比于常规机制，采用重映射机制，能够使得网络任务的计算周期大幅减小，提高网络任务的计算效率。且由于采用本申请提供的内存管理方法，使得共享内存被高效使用，保证从设备无需在全局内存上读写任务数据上执行网络任务，从而减小了全局内存的带宽压力。

下面介绍本申请实施例提供的一种内存管理装置，如图11所示，包括第一模块和N个第二模块(假设为第二模块1、第二模块2、……、第二模块N)，N为大于等于1的整数。例如，第一模块可以为异构计算系统中主设备的驱动软件，当主设备运行第一模块时，主设备可以实现上述实施例中的主设备执行的过程。N个第二模块与异构计算系统中的N个从设备一一对应，第二模块可以为从设备的驱动软件，当从设备运行第二模块时，从设备可以实现上述实施例中的从设备执行的过程。

在一个实施例中，第一模块，用于生成重映射表，并将该重映射表发送给N个第二模块中的至少一个第二模块，该重映射表包括即将被该至少一个第二模块处理的计算任务的多个逻辑地址，该多个逻辑地址为对应第一内存的内存空间的连续不间断的多个逻辑地址，包括该计算任务的输入数据的逻辑地址、计算参数的逻辑地址和输出数据的逻辑地址，该计算任务为神经网络或者人工智能中的子任务，以及按照该重映射表中指示的该多个逻辑地址，对与该内存空间中输入数据的物理地址、计算参数的物理地址和输出数据的物理地址所对应的多个初始逻辑地址进行调整，该输入数据的物理地址和计算参数的物理地址中至少一个由前一计算任务确定；该至少一个第二模块，用于在执行该计算任务时，根据该重映射表指示的该多个逻辑地址，在该内存空间中读取输入数据和计算参数、并写入输出数据。

可选的，第一模块，还用于将对该多个初始逻辑地址进行调整后得到的输入数据的物理地址、计算参数的物理地址和输出数据的物理地址与多个逻辑地址的对应关系发送给SMMU；SMMU，用于接收第一模块发送的对应关系，并在从第一模块或至少一个第二模块接收到携带了该内存空间的待操作逻辑地址的指令时，按照该对应关系，将该待操作逻辑地址转换为物理地址，以使得发送该指令的该第一模块或至少一个第二模块访问该物理地址，该指令为读指令或者写指令。

在一种可选的方式中，该多个逻辑地址从该内存空间的起始逻辑地址开始。

在本申请另一种实施例中，提供了一种计算机存储介质，计算机存储介质中存储有如上第一模块中的计算机指令和N个第二模块中的每个第二模块的计算机指令。例如，该计算机存储介质存储有计算机程序产品，用于执行如上所述的方法。所述的计算机存储介质可为只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(Electrically erasable programmabler-only memory，EEPROM)。在某些场景下，存储器还可以是只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

因此，结合本文中所公开的实施例描述的各示例的算法步骤，本申请提供的内存管理方法能够以如前所述的计算机程序软件、硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于内存管理装置的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本申请的保护范围之内。

Claims

一种异构计算系统，其特征在于，包括主设备和N个从设备，N为大于等于1的整数；

所述主设备，用于生成重映射表，并将所述重映射表发送给所述N个从设备中的至少一个从设备，所述重映射表包括即将被所述至少一个从设备处理的计算任务的多个逻辑地址，所述多个逻辑地址为对应第一内存的内存空间的连续不间断的多个逻辑地址，包括所述计算任务的输入数据的逻辑地址、计算参数的逻辑地址和输出数据的逻辑地址，所述计算任务为神经网络或者人工智能中的子任务，以及

按照所述重映射表中指示的所述多个逻辑地址，对与所述内存空间中输入数据的物理地址、计算参数的物理地址和输出数据的物理地址所对应的多个初始逻辑地址进行调整，所述输入数据的物理地址和计算参数的物理地址中至少一个由前一计算任务确定；

所述至少一个从设备，用于在执行所述计算任务时，根据所述重映射表指示的所述多个逻辑地址，在所述内存空间中读取所述输入数据和所述计算参数、并写入所述输出数据。
根据权利要求1所述的异构计算系统，其特征在于，所述多个逻辑地址从所述内存空间的起始逻辑地址开始。
根据权利要求1或2所述的异构计算系统，其特征在于，还包括系统内存管理单元SMMU，

所述主设备，还用于将对所述多个初始逻辑地址进行调整后得到的输入数据的物理地址、计算参数的物理地址和输出数据的物理地址与多个逻辑地址的对应关系发送给所述SMMU；

所述SMMU，用于接收所述主设备发送的所述对应关系，并在从所述主设备或至少一个从设备接收到携带了所述内存空间的待操作逻辑地址的指令时，按照所述对应关系，将所述待操作逻辑地址转换为物理地址，以使得发送所述指令的所述主设备或至少一个从设备访问所述物理地址，所述指令为读指令或者写指令。
根据权利要求1-3所述的异构计算系统，其特征在于，

所述主设备，还用于在生成所述重映射表之前，向所述第一内存申请所述内存空间，并确定任务信息，所述任务信息包括所述计算任务的任务数据的数据大小和所述计算任务与所述前一计算任务之间的数据依赖关系；以及

根据所述任务信息生成所述重映射表，所述任务数据包括所述输入数据、所述计算参数和所述输出数据。
根据权利要求4所述的异构计算系统，其特征在于，所述数据依赖关系包括：

所述计算任务与所述前一计算任务共享输入数据和计算参数；或者，

所述前一计算任务的输出数据为所述计算任务的输入数据。
根据权利要求1-5所述的异构计算系统，其特征在于，所述输入数据的物理地址和所述计算参数的物理地址中至少一个通过如下至少一个方式确定：

所述输入数据的物理地址是所述前一计算任务的输入数据的物理地址；

所述输入数据的物理地址是所述前一计算任务的输出数据的物理地址；或

所述计算参数的物理地址是所述前一计算任务的计算参数的物理地址。
根据权利要求1至6中任一项所述的异构计算系统，其特征在于，所述主设备包括中央处理单元，所述从设备包括如下至少一个：图形处理器、神经处理器或现场可编程门阵列。
一种内存管理方法，其特征在于，应用于如权利要求1所述的异构计算系统，所述方法包括：

主设备生成重映射表，并将所述重映射表发送给所述N个从设备中的至少一个从设备，所述重映射表包括即将被所述至少一个从设备处理的计算任务的多个逻辑地址，所述多个逻辑地址为对应第一内存的内存空间的连续不间断的多个逻辑地址，包括所述计算任务的输入数据的逻辑地址、计算参数的逻辑地址和输出数据的逻辑地址，所述计算任务为神经网络或者人工智能中的子任务，以及

按照所述重映射表中指示的所述多个逻辑地址，对与所述内存空间中输入数据的物理地址、计算参数的物理地址和输出数据的物理地址所对应的多个初始逻辑地址进行调整，所述输入数据的物理地址和计算参数的物理地址中至少一个由前一计算任务确定；

所述至少一个从设备在执行所述计算任务时，根据所述重映射表指示的所述多个逻辑地址，在所述内存空间中读取所述输入数据和所述计算参数、并写入所述输出数据。
根据权利要求8所述的方法，其特征在于，所述多个逻辑地址从所述内存空间的起始逻辑地址开始。
根据权利要求8或9所述的方法，其特征在于，所述方法还包括：

所述主设备将对所述多个初始逻辑地址进行调整后得到的输入数据的物理地址、计算参数的物理地址和输出数据的物理地址与多个逻辑地址的对应关系发送给系统内存管理单元SMMU；

所述SMMU接收所述主设备发送的所述对应关系，并在从所述主设备或至少一个从设备接收到携带了所述内存空间的待操作逻辑地址的指令时，按照所述对应关系，将所述待操作逻辑地址转换为物理地址，以使得发送所述指令的所述主设备或至少一个从设备访问所述物理地址，所述指令为读指令或者写指令。
根据权利要求8-10所述的方法，其特征在于，所述主设备生成重映射表之前，所述方法还包括：

所述主设备向所述第一内存申请所述内存空间，并确定任务信息，所述任务信息包括所述计算任务的任务数据的数据大小和所述计算任务与所述前一计算任务之间的数据依赖关系，所述任务数据包括输入数据、计算参数和输出数据；

所述主设备生成重映射表，包括：

所述主设备根据所述任务信息生成所述重映射表。
根据权利要求11所述的方法，其特征在于，所述数据依赖关系包括：

所述计算任务与所述前一计算任务共享输入数据和计算参数；或者，

所述前一计算任务的输出数据为所述计算任务的输入数据。
根据权利要求8-12所述的方法，其特征在于，所述输入数据的物理地址和计算参数的物理地址中至少一个通过如下至少一个方式确定：

所述输入数据的物理地址是所述前一计算任务的输入数据的物理地址；

所述输入数据的物理地址是所述前一计算任务的输出数据的物理地址；或

所述计算参数的物理地址是所述前一计算任务的计算参数的物理地址。