WO2022161394A1

WO2022161394A1 - 任务映射方法、任务处理方法、处理核和电子设备

Info

Publication number: WO2022161394A1
Application number: PCT/CN2022/073984
Authority: WO
Inventors: 王封; 祝夭龙
Original assignee: 北京灵汐科技有限公司
Priority date: 2021-01-26
Filing date: 2022-01-26
Publication date: 2022-08-04

Abstract

本申请提供了一种任务映射方法、任务处理方法、处理核和电子设备，方法包括：根据第一矩阵确定多层第二矩阵，每一层第二矩阵划分为至少一个第二子矩阵；其中，第N+1层第二矩阵中的元素与第N层第二矩阵的多个第二子矩阵一一对应，第1层第二子矩阵为第一矩阵的子矩阵；其中，N为正整数（S110）；将每一层第二矩阵中的第二子矩阵映射到众核系统中的处理核，每一个处理核对应一个第二子矩阵，以使处理核进行其对应的第二子矩阵的矩阵运算并存储运算结果（S120）。

Description

任务映射方法、任务处理方法、处理核和电子设备

技术领域

本申请涉及计算机技术领域，特别涉及一种任务映射方法、任务处理方法、处理核和电子设备。

背景技术

稀疏矩阵是指零元素的数目远远多于非零元素的数目、且非零元素的分布无规律的矩阵。稀疏矩阵在现实生活被广泛使用，特别地，稀疏矩阵经常出现在高性能计算和机器学习中，例如，包含计数的数据、映射类别的数据编码、以及自然语言处理(NLP，Natural Language Processing)等机器学习的子领域。

发明内容

本申请提供一种任务映射方法、任务处理方法、处理核和电子设备。

第一方面，本申请提供了一种任务映射方法，包括：根据第一矩阵确定多层第二矩阵，每一层第二矩阵划分为至少一个第二子矩阵；其中，第N+1层第二矩阵中的元素与第N层第二矩阵的多个第二子矩阵一一对应，第1层第二子矩阵为所述第一矩阵的子矩阵；其中，N为正整数；将每一层第二矩阵中的第二子矩阵映射到众核系统中的处理核，每一个所述处理核对应一个第二子矩阵，以使所述处理核进行其对应的第二子矩阵的矩阵运算并存储运算结果。

其中，每一层第二矩阵的至少一个第二子矩阵中包括至少一个非零第二子矩阵；所述将每一层第二矩阵中的第二子矩阵映射到众核系统中的处理核，包括：将每一层第二矩阵中的非零第二子矩阵分别映射到所述众核系统中的处理核。

其中，所述处理核进行的所述矩阵计算是基于运算指令进行的计算，且每一个所述处理核对应一个第二子矩阵及对应的运算指令；

所述将每一层第二矩阵中的第二子矩阵映射到众核系统中的处理核，每一个所述处理核对应一个第二子矩阵，以使所述处理核进行其对应的第二子矩阵的矩阵运算并存储运算结果，包括：确定至少一个第二子矩阵对应的运算指令；将每一层第二矩阵中的第二子矩阵及第二子矩阵对应的运算指令映射到众核系统中的处理核，以使所述处理核根据其对应的所述运算指令对其对应的第二子矩阵的进行矩阵运算并存储计算结果。

其中，将每一层第二矩阵中的第二子矩阵及第二子矩阵对应的运算指令映射到众核系统中的处理核，包括：将每一层第二矩阵中的非零第二子矩阵分别映射到所述众核系统中的处理核；将至少一个非零第二子矩阵对应的运算指令配置到所述众核系统的处理核中。

其中，对应第N层第二子矩阵的处理核为第N层处理核；所述将每一层第二矩阵中的非零第二子矩阵分别映射到所述众核系统中的处理核，包括：将第1层第二矩阵中的第1层非零第二子矩阵传输到第1层处理核，以使第1层处理核进行计算其对应的第1层非零第二子矩阵的矩阵运算；将第N层处理核与第一坐标的第一对应关系传输到第N+1层处理核，以使第N+1层处理核根据所述第一对应关系确定第N层处理核与第二坐标的第二对应关系；所述第一坐标为第N层非零第二子矩阵对应的第N+1层第二矩阵中的元素在第N+1层第二矩阵中的坐标；所述第二坐标为第N层非零第二子矩阵对应的第N+1层第二矩阵中的元素在第N+1层第二矩阵的运算结果矩阵中的坐标。

其中，所述根据第一矩阵确定多层第二矩阵，包括：根据所述第一矩阵的尺寸确定目标尺寸，所述目标尺寸为每一层第二子矩阵的尺寸；根据所述第一矩阵和所述目标尺寸，确定多层第二矩阵。

其中，在所述将每一层第二矩阵中的第二子矩阵映射到众核系统中的处理核之后，所述方法还包括：根据多层第二矩阵中的至少一个第二子矩阵与众核系统中的多个处理核的映射关系，确定目标处理核；所述目标处理核为多个所述处理核中存储目标数据的至少一者；所述目标数据为待处理任务的任务数据对应的第一矩阵的子矩阵的运算结果矩阵；将所述任务数据传输到所述目标处理核，以使所述目标处理核读取所述目标数据，并执行所述任务数据对应的运算。

其中，每一层第二矩阵的至少一个第二子矩阵中包括至少一个非零第二子矩阵；多层第二矩阵中的至少一个第二子矩阵与众核系统中的多个处理核的映射关系为每一层第二矩阵中的至少一个非零第二子矩阵与多个所述处理核的映射关系；对应第N层第二子矩阵的处理核为第N层处理核；第1层处理核存储有对其对应的第1层非零第二子矩阵进行矩阵运算得到的计算结果；第N+1层处理核中存储有根据第N层处理核与第一坐标的第一对应关系确定的第N层处理核与第二坐标的第二对应关系；所述第一坐标为第N层非零第二子矩阵对应的第N+1层第二矩阵中的元素在第N+1层第二矩阵中的坐标；所述第二坐标为第N层非零第二子矩阵对应的第N+1层第二矩阵中的元素在第N+1层第二矩阵的运算结果矩阵中的坐标；所述目标处理核为至少一个第1层处理核中的一者；

其中，所述根据多层第二矩阵中的至少一个第二子矩阵与众核系统中的多个处理核的映射关系，确定目标处理核，包括：在N大于1的情况下，根据所述目标数据对应的第N层处理核存储的所述第二对应关系，确定所述目标数据对应的第N-1层处理核；在N等于1的情况下，将存储所述目标数据的第1层处理核作为所述目标处理核。

其中，所述任务映射方法还包括：根据每一层处理核中存储的所述第二对应关系，确定至少一个目标计算结果在片外存储中的存储空间的地址；所述目标计算结果为第1层处理核进行其对应的第1层非零第二子矩阵的矩阵运算并存储的计算结果；控制至少一个第1层处理核根据所述第1层处理核存储的目标计算结果在所述片外存储中的存储空间的地址，将所述第1层处理核存储的目标计算结果写入所述片外存储，其中，至少一个所述目标计算结果在所述片外存储中拼接成所述第一矩阵的运算结果矩阵。

其中，每一层第二子矩阵为方阵；所述矩阵运算至少包括矩阵转置运算。

第二方面，本申请实施例提供一种任务处理方法，包括：接收多层第二矩阵中第N层处理核与第一坐标的第一对应关系；其中，N为正整数；根据所述第一对应关系确定第N层处理核与第二坐标的第二对应关系；其中，所述多层第二矩阵中每一层第二矩阵划分为至少一个第二子矩阵；第N+1层第二矩阵中的元素与第N层第二矩阵的多个第二子矩阵一一对应；众核系统中的多个处理核中的每一个所述处理核对应一个第二子矩阵；所述第一坐标为第N层第二子矩阵对应的第N+1层第二矩阵中的元素在第N+1层第二矩阵中的坐标；所述第二坐标为第N层第二子矩阵对应的第N+1层第二矩阵中的元素在第N+1层第二矩阵的运算结果矩阵中的坐标。

其中，每一个所述处理核对应一个第二子矩阵及对应的运算指令；所述根据所述第一对应关系确定第N层处理核与第二坐标的第二对应关系，包括：接收运算指令；根据所述运算指令和所述第一对应关系确定第N层处理核与第二坐标的第二对应关系。

第三方面，本申请实施例提供一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本申请实施例第一方面所述的任务映射方法；一个或多个I/O接口，连接在所述处理器与存储器之间，配置为实现所述处理器与存储器的信息交互。

第四方面，本申请实施例提供一种处理核，包括：包括计算单元和缓存；所述计算单元能够实现本申请实施例第一方面的任务映射方法；和/或本申请实施例第二方面的任务处理方法。

第五方面，本申请实施例提供一种众核系统，包括：多个处理核；以及片上网络，被配置为交互所述多个处理核间的数据和外部数据；一个或多个所述处理核中存储有一个或多个指令，一个或多个所述指令被一个或多个所述处理核执行，以使一个或多个所述处理核能够执行本申请实施例第一方面所述的任务映射方法；和/或本申请实施例第二方面的任务处理方法。

第六方面，本申请实施例提供一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备的处理器中运行时，所述电子设备中的处理器执行本申请实施例第一方面所述的任务映射方法；和/或本申请实施例第二方面的任务处理方法。

在本申请实施例中，提供一种利用众核系统执行稀疏矩阵的矩阵运算的方案，根据需要执行矩阵运算的第一矩阵确定多层第二矩阵，每一层第二矩阵的第二子矩阵的规模都远远小于第一矩阵的规模；将至少一层第二矩阵的第二子矩阵映射到众核系统中的多个处理核执行矩阵运算，最终得到第一矩阵的矩阵运算结果，从而能够实现对矩阵中元素坐标维度的较高压缩率，大大降低内存开销；矩阵运算的计算结果存储在众核系统的至少一个处理核中，无需写入内存等片外存储中，还降低了数据重复搬运的概率，提高了对超大规模稀疏矩阵进行矩阵运算的效率。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用来提供对本申请的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请，并不构成对本申请的限制。通过参考附图对详细示例实施例进行描述，以上和其他特征和优点对本领域技术人员将变得更加显而易见，在附图中：

图1是本申请实施例中任务映射方法的流程图；

图2是本申请实施例中多层第二矩阵到处理核的映射示意图；

图3是本申请实施例中任务映射方法中部分步骤的流程图；

图4是本申请实施例中任务映射方法中部分步骤的流程图；

图5是本申请实施例中任务映射方法中部分步骤的流程图；

图6是本申请实施例中任务映射方法中部分步骤的流程图；

图7是本申请实施例中任务映射方法的流程图；

图8是本申请实施例中任务映射方法中部分步骤的流程图；

图9是本申请实施例中任务映射方法中部分步骤的流程图；

图10是本申请实施例中任务处理方法的流程图；

图11示出本申请实施例中任务映射方法中部分步骤的流程图；

图12本申请实施例中任务映射装置的流程图；

图13本申请实施例中任务处理装置的流程图；

图14是本申请实施例提供的电子设备的组成框图；

图15是本申请实施例提供的处理核的组成框图；

图16是本申请实施例提供的众核系统的组成框图。

具体实施方式

为使本领域的技术人员更好地理解本申请的技术方案，以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在不冲突的情况下，本申请实施例及实施例中的一个或多个特征可相互组合。

如本文所使用的，术语“和/或”包括一个或多个相关列举条目的任何和所有组合。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本申请。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本申请的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

在一些相关技术中，在对稀疏矩阵进行转置等运算，且存储稀疏矩阵时，需要存储稀疏矩阵中一个或多个元素的值及其在稀疏矩阵中的坐标。稀疏矩阵规模越大，存储稀疏矩阵中的每个元素的坐标需要的比特位数越多。例如，存储百亿维矩阵中的元素的坐标需要行、列各35比特(bit)。对于超大规模的稀疏矩阵，不仅要占用大量的存储空间来存储元素的坐标，而且执行涉及稀疏矩阵的运算的速率也较慢。当稀疏矩阵规模越大时，稀疏矩阵需要占用越多的存储空间，且计算量较大，涉及稀疏矩阵的运算的效率较低。此外，在一些相关技术中，执行稀疏矩阵的矩阵运算后，需要将矩阵运算的结果传输到内存(例如双倍速率同步动态随机存储器(DDR，Double Data Rate))中，并在内存中拼接出完整的稀疏矩阵的运算结果矩阵；在执行后续运算时，需要从内存中读取稀疏矩阵的运算结果矩阵。上述反复搬运数据的过程进一步降低了涉及稀疏矩阵的运算效率。

图1是本申请实施例中一种任务映射方法的流程图。

参照图1，本申请实施例提供一种任务映射方法，该方法包括如下步骤。

在步骤S110中，根据第一矩阵确定多层第二矩阵，每一层第二矩阵划分为至少一个第二子矩阵；其中，第N+1层第二矩阵中的元素与第N层第二矩阵中的多个第二子矩阵一一对应，第1层第二子矩阵为第一矩阵的子矩阵；其中，N为正整数。

在步骤S120中，将每一层第二矩阵中的第二子矩阵映射到众核系统中的处理核，每一个处理核对应一个第二子矩阵，以使处理核进行其对应的第二子矩阵的矩阵运算并存储运算结果。

本申请实施例中的矩阵运算可以包括：矩阵转置运算、确定矩阵对应的内存存储位置等。本申请实施例对此不做特殊限定。

本申请实施例提供一种利用众核系统执行稀疏矩阵的矩阵运算的方案。在本申请实施例中，众核系统可以是单个芯片构成的，芯片具有多个处理核，处理核是众核系统中可独立调度并拥有完整计算能力的最小计算单元；众核系统还可以是由多个芯片构成的，每个芯片可以具有多个处理核。本申请实施例对此不做特殊限定。

需要说明的是，在本申请实施例中，众核系统中的多个处理核可以分别独立运行程序指令，也可以联合工作，利用并行计算的能力加快程序的运行速度，并提供多任务处理能力。还需要说明的是，在本申请实施例中，众核系统中的每个处理核都具有独立的缓存，能够存储处理核执行运算得到的计算结果等数据。

在本申请实施例中，通过步骤S110至步骤S120可以进行第一矩阵的矩阵运算。其中，第一矩阵为稀疏矩阵。通过步骤S110确定的多层第二矩阵中，第1层第二矩阵即第一矩阵。第1层第二矩阵划分得到的多个第1层第二子矩阵即按照相同规则划分第一矩阵得到的第一矩阵的子矩阵。

作为一种可选的实施方式，每一层第二矩阵都为实数矩阵，其中，第二矩阵中的元素都为实数。例如，若第N+1层第二矩阵中的元素对应的第N层第二子矩阵为非零矩阵，则该元素为1；若第N+1层第二矩阵中的元素对应的第N层第二子矩阵为零矩阵，则该元素为0。还可以用其他数值作为第二矩阵中的元素，本申请实施例对此不做特殊限定。

图2示出本申请实施例中多层第二矩阵到处理核的映射示意图。

如图2所示，第一矩阵被划分为16个4*4子矩阵：A、B、C、D、E、F、G、H、I、J、K、L、O、P、Q、R，对应第1层第二矩阵；第2层第二矩阵包括16个元素，每个元素与第一矩阵的16个子矩阵一一对应。例如：第一行第一列的元素对应4*4子矩阵A，第一行第二列的元素对应4*4子矩阵B(由于4*4子矩阵B为零矩阵，所以在第2层第二矩阵未示出该标记B)、……、以此类推，第四行第四列的元素对应对应4*4子矩阵R(由于4*4子矩阵R为零矩阵，所以在第2层第二矩阵未示出该标记R)。需要说明的是，划分第一矩阵得到的子矩阵可以为非零矩阵，也可以为零矩阵。当作为稀疏矩阵的第一矩阵较稀疏时，划分第一矩阵得到的零矩阵的数量可以大于非零矩阵的数量。划分每一层第二矩阵得到的第二子矩阵可以为非零矩阵，也可以为零矩阵。非零矩阵例如图2中的4*4子矩阵A、D、K、P；零矩阵例如图2中的4*4子矩阵B、C、E、F、G、H、I、J、L、O、Q、R。

以矩阵运算为矩阵转置(也称转置或转置运算)为例，众核系统中的处理核可以并行执行各自对应的4*4的矩阵转置，其中，零矩阵B、C、E、F、G、H、I、J、L、O、Q、R无需存储也无需进行转置运算，众核系统中的处理核对其对应的非零矩阵A、D、K、P进行转置后，得到转置后的矩阵(运算结果矩阵)A1、D1、K1、P1。

在图2中，可以由一个控制核，根据众核系统中的多个核进行转置运算得到的转置结果，进行高层转置。其中，控制核可以只存储非零矩阵的位置坐标，因此，存储所占用的数据量非常小。控制核进行转置后的结果(如图2中示出的第2层第二矩阵的转置结果)为第一层第二矩阵的转置结果(其中，非零矩阵D与零矩阵O位置互换，非零矩阵P与零矩阵H位置互换)。

需要说明的是，在步骤S110中，在总共有M层第二矩阵、且第1层第二矩阵为第一矩阵的情况下，第1层第二矩阵、第2层第二矩阵、……、第M-1层第二矩阵划分为多个第二子矩阵；第M层第二矩阵划分为一个第二子矩阵，即，第M层第二子矩阵为第M层第二矩阵本身。其中，M为大于或等于N的整数。

在本申请实施例中，通过步骤S120可以将多层第二子矩阵分别映射到众核系统的多个处理核，由处理核进行对应的第二子矩阵的矩阵运算，并存储计算结果。作为示例，由矩阵的运算法则可知，本申请实施例中由众核系统中的多个处理核分别进行一个或多个层第二子矩阵的矩阵运算，从而得到第一矩阵的运算结果矩阵。

作为一种可选的实施方式，通过预编译的方式，步骤S120中的多个处理核中已经配置有对第二子矩阵进行矩阵运算所需的算子、参数等运算指令，例如，处理核能够确定计算多大规模的矩阵。第二子矩阵以数据流的方式通过片上网络(NOC，Network On Chip)传输到处理核。

在本申请实施例中，步骤S110-S120可以是在众核系统中的控制核执行的。其中，控制核可以是众核系统中的任意一个处理核。例如，控制核可以是步骤S120中的多个处理核以外的任意一个处理核；也可以是步骤S120中的多个处理核中的一者，具体来说，在总共有M层第二矩阵、且第1层第二矩阵为第一矩阵的情况下，第M层第二矩阵对应的第M层处理核为控制核。本公开实施例对此不做特殊限定。

在一些实施例中，由控制核通过执行步骤S120确定至少一个第二子矩阵对应的运算指令，运算指令包括处理核对第二子矩阵进行矩阵运算所需的算子、参数等。例如，运算指令指示处理核计算多大规模的矩阵运算。在本公开实施例中，控制核根据第一矩阵动态确定执行矩阵运算的处理核，并确定至少一个处理核的运算指令。其中，第一矩阵的尺寸可以为任意维。

在一些实施例中，控制核通过执行步骤S120将多层第二子矩阵和运算指令分别映射到众核系统的多个处理核，由处理核进行对应的第二子矩阵的矩阵运算，并存储计算结果。由矩阵的运算法则可知，本公开实施例中由众核系统中的多个处理核分别进行至少一层第二子矩阵的矩阵运算，从而得到第一矩阵的运算结果矩阵。

需要说明的是，在本申请实施例中，至少一层第二子矩阵的规模均小于第一矩阵的规模，众核系统中存储至少一层第二子矩阵及矩阵运算的结果需要的存储空间显著小于存储第一矩阵及矩阵运算的结果需要的存储空间，而且至少一个处理核在执行第二子矩阵的矩阵运算时的计算量也显著小于执行第一矩阵的矩阵运算时的计算量。例如，如图2所示将16*16第一矩阵划分为16个4*4子矩阵，对应第1层第二矩阵；第2层第二矩阵也为4*4矩阵。存储16*16第一矩阵中的元素的坐标需要行、列各4bits，而处理核存储一个4*4子矩阵中的元素的坐标需要行、列各2bits。本申请实施例由多个第一处理核进行子矩阵的矩阵运算、由第二处理核进行分块矩阵的矩阵运算的分层矩阵运算方案能够实现对矩阵中元素坐标维度的较高压缩率，能够大大降低内存开销。

在本申请实施例提供的任务映射方法中，提供一种利用众核系统执行稀疏矩阵的矩阵运算的方案，根据需要执行矩阵运算的第一矩阵确定多层第二矩阵，每一层第二矩阵的第二子矩阵的规模都远远小于第一矩阵的规模；将至少一层第二矩阵的第二子矩阵映射到众核系统中的多个处理核执行矩阵运算，最终得到第一矩阵的矩阵运算结果，从而能够实现对矩阵中元素坐标维度的较高压缩率，大大降低内存开销；矩阵运算的计算结果存储在众核系统的至少一个处理核中，无需写入内存等片外存储中，还降低了数据重复搬运的概率，提高了对超大规模稀疏矩阵进行矩阵运算的效率。

在本申请一些实施例中，通过步骤S120将每一层第二矩阵中的第二子矩阵分别映射到众核系统中的处理核时，或者，通过步骤S120将每一层第二矩阵中的第二子矩阵和运算指令映射到众核系统中的处理核时，可以将每一层第二矩阵中的所有第二子矩阵映射到众核系统中的多个处理核；也可以将每一层第二矩阵中的非零第二子矩阵映射到众核系统中的多个处理核。

需要说明的是，在第一矩阵为稀疏矩阵的情况下，第一矩阵的子矩阵包括多个零矩阵；在确定多层第二矩阵时，若第N+1层第二矩阵中的元素对应的第N层第二子矩阵为非零矩阵，则该元素为1；若第N+1层第二矩阵中的元素对应的第N层第二子矩阵为零矩阵，则该元素为0。因此，每一层第二矩阵的第二子矩阵包括非零矩阵和/或零矩阵。在步骤S120中，将每一层第二矩阵中的非零第二子矩阵映射到众核系统中的多个处理核，能够进一步降低对存储资源和计算资源的占用。图2示出了将每一层第二矩阵中的非零第二子矩阵映射到众核系统中的多个处理核的一种可选实施方式。

图3是本申请实施例中任务映射方法中部分步骤的流程图。在一些实施例中，每一层第二矩阵的至少一个第二子矩阵中包括至少一个非零第二子矩阵。

参照图3，步骤S120中将每一层第二矩阵中的第二子矩阵映射到众核系统中的处理核的步骤，具体可以包括：S121，将每一层第二矩阵中的非零第二子矩阵分别映射到众核系统中的处理核。

在本申请实施例中，对应第N层第二子矩阵的处理核为第N层处理核。第1层第二子矩阵即第一矩阵的子矩阵，第1层处理核计算第一矩阵的子矩阵并存储第一矩阵的子矩阵的运算结果矩阵；第N+1层处理核根据矩阵运算(例如转置)前第N层处理核对应的第N+1层第二矩阵中的坐标，确定矩阵运算(例如转置)后第N层处理核对应的第N+1层第二矩阵的运算结果矩阵中的坐标。当后续运算需要第一矩阵的矩阵运算结果时，能够根据处理核存储的处理核与坐标的对应关系，逐层确定存储第1层第二子矩阵的运算结果矩阵的第1层处理核，即第一矩阵的子矩阵的运算结果矩阵。

作为另一种可选的实施方式，处理核进行的第二子矩阵的矩阵运算是基于运算指令进行的计算，且每一个处理核对应一个第二子矩阵及对应的运算指令；上述步骤S120具体可以包括：S11，确定至少一个第二子矩阵对应的运算指令；S12，将每一层第二矩阵中的第二子矩阵及第二子矩阵对应的运算指令映射到众核系统中的多个处理核，以使处理核根据其对应的运算指令进行其对应的第二子矩阵的矩阵运算并存储计算结果。

在本申请实施例中，可以由众核系统中的控制核根据需要执行矩阵运算例如转置运算的第一矩阵确定多层第二矩阵和运算指令，每一层第二矩阵的第二子矩阵的规模都远远小于第一矩阵的规模；将至少一层第二矩阵的第二子矩阵和运算指令映射到众核系统中的多个处理核执行矩阵运算，最终得到第一矩阵的矩阵运算结果，从而能够实现对矩阵中元素坐标维度的较高压缩率，显著降低内存开销；矩阵运算的计算结果存储在众核系统的至少一个处理核中，无需写入内存等片外存储中，还降低了数据重复搬运的概率，提高了对超大规模稀疏矩阵进行矩阵运算的效率。

图4是本申请实施例中任务映射方法中部分步骤的流程图。

在一些实施例中，参照图4，上述步骤S12具体可以包括：S41，将每一层第二矩阵中的非零第二子矩阵分别映射到众核系统中的处理核；S42，将非零第二子矩阵对应的运算指令配置到众核系统的处理核中。

在本申请实施例中，对应第N层第二子矩阵的处理核为第N层处理核。第1层第二子矩阵即第一矩阵的子矩阵，第1层处理核计算第一矩阵的子矩阵并存储第一矩阵的子矩阵的运算结果矩阵；根据确定的至少一个第二子矩阵对应的运算指令，第N+1层处理核根据转置前第N层处理核对应的第N+1层第二矩阵中的坐标，确定转置后第N层处理核对应的第N+1层第二矩阵的运算结果矩阵中的坐标。当后续运算需要第一矩阵的矩阵运算结果时，能够根据至少一层处理核存储的处理核与坐标的对应关系，逐层确定存储第1层第二子矩阵的运算结果矩阵的第1层处理核，即第一矩阵的子矩阵的运算结果矩阵。

图5是本申请实施例中任务映射方法中部分步骤的流程图。在一些实施例中，对应第N层第二子矩阵的处理核为第N层处理核；

参照图5，在一些实施例中，上述步骤S121或上述步骤S41，具体可以包括如下步骤。

S51，将第1层第二矩阵中的第1层非零第二子矩阵传输到第1层处理核，以使第1层处理核进行其对应的第1层非零第二子矩阵的矩阵运算。

S52，将第N层处理核与第一坐标的第一对应关系传输到第N+1层处理核，以使第N+1层处理核根据第一对应关系确定第N层处理核与第二坐标的第二对应关系；第一坐标为第N层非零第二子矩阵对应的第N+1层第二矩阵中的元素在第N+1层第二矩阵中的坐标；第二坐标为第N层非零第二子矩阵对应的第N+1层第二矩阵中的元素在第N+1层第二矩阵的运算结果矩阵中的坐标。

在该实施例中，若矩阵运算为转置运算，则运算结果矩阵为转置矩阵。

在本申请实施例中，至少一层第二子矩阵的尺寸可以相同，也可以不同。本申请实施例对此不做特殊限定。

图6是本申请实施例中任务映射方法中部分步骤的流程图。

参照图6，在一些实施例中，步骤S110包括：S61，根据第一矩阵的尺寸确定目标尺寸，目标尺寸为每一层第二子矩阵的尺寸；S62，根据第一矩阵和目标尺寸，确定多层第二矩阵。

在本申请实施例中，对第二子矩阵的尺寸不做特殊限定。可以根据众核系统的计算能力、存储大小、以及对运算效率的需求确定第二子矩阵的大小；本申请实施例对第二子矩阵也不做特殊限定。在一些实施例中，每一层第二子矩阵为方阵，矩阵运算至少包括矩阵转置运算。

在本公开实施例中，矩阵运算的计算结果存储在众核系统的至少一个处理核中，当需要执行涉及到矩阵运算的结果的后续运算时，将后续运算的数据传输到对应的处理核中，由该处理核执行该后续运算，无需将至少一个处理核计算得到的第一矩阵的子矩阵的运算结果矩阵先传输到内存等片外存储、再从片外存储读取第一矩阵的运算结果，从而还降低了数据重复搬运的概率，提高了对大规模稀疏矩阵进行矩阵运算的效率。

图7是本申请实施例中任务映射方法的流程图。图7与图1中相同的步骤使用相同的标号。参照图7，在一些实施例中，在上述步骤S120之后，该方法还包括如下步骤。

S130，根据多层第二矩阵中的至少一个第二子矩阵与众核系统中的多个处理核的映射关系，确定目标处理核；目标处理核为多个处理核中存储目标数据的至少一者；目标数据为待处理任务的任务数据对应的第一矩阵的子矩阵的运算结果矩阵。

S140，将任务数据传输到目标处理核，以使目标处理核读取目标数据，并执行任务数据对应的运算。

其中，多层第二矩阵为根据第一矩阵确定的，每一层第二矩阵划分为至少一个第二子矩阵；第N+1层第二矩阵中的元素与第N层第二矩阵中的多个第二子矩阵一一对应，第1层第二子矩阵为第一矩阵的子矩阵；多个处理核中的每一个处理核对应一个第二子矩阵，处理核存储有对其对应的第二子矩阵进行矩阵运算得到的计算结果；N为正整数。

在本申请实施例中，多个处理核进行第二子矩阵的矩阵运算后，将得到的矩阵运算结果存储在处理核中。当众核系统执行涉及矩阵运算的结果的待处理任务时，由控制核执行步骤S130至步骤S140，将待处理任务的任务数据传输到目标处理核中，由目标处理核执行任务数据对应的运算。本申请实施例对任务数据对应的运算不做特殊限定。例如，第一矩阵的子矩阵的运算结果矩阵与任务数据的矩阵乘运算、矩阵加/减运算。

控制核可以是众核系统中的任意一个处理核。在本申请实施例中，控制核可以对第二子矩阵进行矩阵运算并存储计算结果的多个处理核以外的任意一个处理核；也可以是对第二子矩阵进行矩阵运算并存储计算结果的多个处理核中的一者。本申请实施例对此不做特殊限定。例如，在总共有M层第二矩阵、且第1层第二矩阵为第一矩阵的情况下，第M层第二矩阵对应的第M层处理核为控制核。

在本申请实施例提供的任务映射方法中，矩阵计算例如转置运算的计算结果存储在众核系统的至少一个处理核中，当需要执行涉及矩阵运算的待处理任务时，将待处理任务的任务数据传输到目标处理核中，由目标处理核执行任务数据对应的运算，无需将至少一个处理核进行矩阵计算得到的第一矩阵的子矩阵的矩阵运算的计算结果先传输到内存等片外存储、再从片外存储读取第一矩阵的运算结果，从而降低了数据重复搬运的概率，提高了超对大规模稀疏矩阵进行矩阵运算的效率。

在一些实施例中，每一层第二矩阵的至少一个第二子矩阵中包括至少一个非零第二子矩阵；多层第二矩阵中的至少一个第二子矩阵与众核系统中的多个处理核的映射关系为每一层第二矩阵中的至少一个非零第二子矩阵与多个处理核的映射关系；对应第N层第二子矩阵的处理核为第N层处理核；第1层处理核存储有对其对应的第1层非零第二子矩阵进行矩阵运算得到的计算结果；第N+1层处理核中存储有根据第N层处理核与第一坐标的第一对应关系确定的第N层处理核与第二坐标的第二对应关系；第一坐标为第N层非零第二子矩阵对应的第N+1层第二矩阵中的元素在第N+1层第二矩阵中的坐标；第二坐标为第N层非零第二子矩阵对应的第N+1层第二矩阵中的元素在第N+1层第二矩阵的运算结果矩阵中的坐标；目标处理核为至少一个第1层处理核中的一者。在该实施例中，若矩阵运算为转置运算，则运算结果矩阵为转置矩阵。

图8示出本公开实施例的任务映射方法中部分步骤的流程图。

参照图8，在一些实施例中，上述步骤S130具体可以包括如下步骤。

S81，在N大于1的情况下，根据目标数据对应的第N层处理核存储的第二对应关系，确定目标数据对应的第N-1层处理核。

S82，在N等于1的情况下，将存储目标数据的第1层处理核作为目标处理核。

需要说明的是，在总共有M层第二矩阵、且第1层第二矩阵为第一矩阵的情况下，从第M层处理核起，在N大于1的情况下，通过迭代执行S81逐层确定目标数据对应的至少一层处理核，直到N等于1，将存储目标数据的第1层处理核作为目标处理核。即，在N大于1的情况下，执行一次步骤S81，并将N减小1；若减小1后N仍大于1，则继续执行步骤S81；若减小1后N等于1，则执行步骤S82。

图9示出本公开实施例的任务映射方法中部分步骤的流程图。

在一些实施例中，参照图9，任务映射方法还包括如下步骤。

S91，根据每一层处理核中存储的第二对应关系，确定至少一个目标计算结果在片外存储中的存储空间的地址；目标计算结果为第1层处理核进行其对应的第1层非零第二子矩阵的矩阵运算并存储的计算结果。

S92，控制至少一个第1层处理核根据第1层处理核存储的目标计算结果在片外存储中的存储空间的地址，将第1层处理核存储的目标计算结果写入片外存储，其中，至少一个目标计算结果在片外存储中拼接成第一矩阵的运算结果矩阵。

在本申请实施例中，控制核还可以控制多个处理核将多个处理核中的矩阵运算的结果输出到内存等片外存储中。在后续计算中，可以从片外存储获取第一矩阵的运算结果矩阵。需要说明的是，在将多个处理核中的矩阵运算的结果输出到内存等片外存储时，直接存储为第一矩阵的运算结果矩阵。

需要说明的是，在将每一层第二矩阵中的非零第二子矩阵映射到众核系统中的多个处理核的情况下，将多个处理核中的矩阵运算的结果输出到内存等片外存储时需要补充至少一个第一矩阵的子矩阵中的零矩阵。其中，由控制核确定至少一个处理核中存储的矩阵运算的结果在片外存储中的地址，从而确保至少一个处理核将存储的矩阵运算结果中所包含的元素写入片外存储后，能够拼接成第一矩阵的运算结果矩阵。

图10示出本申请实施例的任务处理方法的流程图。

参照图10，在一些实施例中，本申请实施例提供一种任务处理方法，该方法包括如下步骤。

S1010，接收多层第二矩阵中第N层处理核与第一坐标的第一对应关系；其中，N为正整数。

S1020，根据第一对应关系确定第N层处理核与第二坐标的第二对应关系。

其中，多层第二矩阵中每一层第二矩阵划分为至少一个第二子矩阵；第N+1层第二矩阵中的元素与第N层第二矩阵中的多个第二子矩阵一一对应；众核系统中的多个处理核中的每一个处理核对应一个第二子矩阵；第一坐标为第N层第二子矩阵对应的第N+1层第二矩阵中的元素在第N+1层第二矩阵中的坐标；第二坐标为第N层第二子矩阵对应的第N+1层第二矩阵中的元素在第N+1层第二矩阵的运算结果矩阵中的坐标；N为正整数。

在本申请实施例提供的任务处理方法中，众核系统的处理核能够根据转置前第N层处理核对应的第N+1层第二矩阵中的坐标，确定转置后第N层处理核对应的第N+1层第二矩阵的运算结果矩阵中的坐标，使得众核系统能够根据需要执行矩阵运算的第一矩阵确定多层第二矩阵，并将至少一层第二矩阵的第二子矩阵映射到众核系统中的多个处理核执行矩阵运算，最终得到第一矩阵的矩阵运算结果，从而能够实现对矩阵中元素坐标维度的较高压缩率，大大降低内存开销；矩阵运算的计算结果存储在众核系统的处理核中，无需写入内存等片外存储中，还降低了数的重复搬运的概率，提高了对超大规模稀疏矩阵进行矩阵运算的效率。

图11示出本申请实施例中任务映射方法中部分步骤的流程图。在一些实施例中，每一个处理核对应一个第二子矩阵及对应的运算指令。

如图11所示，在一些实施例中，步骤S1020具体可以包括如下步骤。

S1110，接收运算指令；S1120，根据运算指令和第一对应关系确定第N层处理核与第二坐标的第二对应关系。

在本公开实施例提供的任务处理方法中，众核系统的处理核能够根据运算指令和转置前第N层处理核对应的第N+1层第二矩阵中的坐标，确定转置后第N层处理核对应的第N+1层第二矩阵的运算结果矩阵中的坐标，使得众核系统能够根据需要执行矩阵运算的第一矩阵确定多层第二矩阵，并将至少一层第二矩阵的第二子矩阵映射到众核系统中的多个处理核执行矩阵运算，最终得到第一矩阵的矩阵运算结果，从而能够实现对矩阵中元素坐标维度的较高压缩率，大大降低内存开销；矩阵运算的计算结果存储在众核系统的处理核中，无需写入内存等片外存储中，还降低了数据重复搬运的概率，提高了对超大规模稀疏矩阵进行矩阵运算的效率。

图12本申请实施例中任务映射装置的流程图；如图12所示，在一些实施例中，该任务映射装置1200可以包括如下模块。

矩阵确定模块1210，用于根据第一矩阵确定多层第二矩阵，每一层第二矩阵划分为至少一个第二子矩阵；其中，第N+1层第二矩阵中的元素与第N层第二矩阵的多个第二子矩阵一一对应，第1层第二子矩阵为第一矩阵的子矩阵；其中，N为正整数。

矩阵映射模块1220，用于将每一层第二矩阵中的第二子矩阵映射到众核系统中的处理核，每一个处理核对应一个第二子矩阵，以使处理核进行其对应的第二子矩阵的矩阵运算并存储运算结果。

在一些实施例中，每一层第二矩阵的至少一个第二子矩阵中包括至少一个非零第二子矩阵；矩阵映射模块1220，具体用于将每一层第二矩阵中的非零第二子矩阵分别映射到众核系统中的处理核。

在一些实施例中，处理核进行的矩阵计算是基于运算指令进行的计算，且每一个处理核对应一个第二子矩阵及对应的运算指令；矩阵映射模块1220，包括：指令确定单元，确定至少一个第二子矩阵对应的运算指令；矩阵映射模块1220，具体用于将每一层第二矩阵中的第二子矩阵及第二子矩阵对应的运算指令映射到众核系统中的处理核，以使处理核根据其对应的运算指令对其对应的第二子矩阵的进行矩阵运算并存储计算结果。

在一些实施例中，矩阵映射模块1220，在用于将每一层第二矩阵中的第二子矩阵及第二子矩阵对应的运算指令映射到众核系统中的处理核时，具体用于：将每一层第二矩阵中的非零第二子矩阵分别映射到众核系统中的处理核；将至少一个非零第二子矩阵对应的运算指令配置到众核系统的处理核中。

在一些实施例中，对应第N层第二子矩阵的处理核为第N层处理核；矩阵映射模块1220，在用于将每一层第二矩阵中的非零第二子矩阵分别映射到众核系统中的处理核时，具体用于：将第1层第二矩阵中的第1层非零第二子矩阵传输到第1层处理核，以使第1层处理核进行对其对应的第1层非零第二子矩阵进行矩阵运算；将第N层处理核与第一坐标的第一对应关系传输到第N+1层处理核，以使第N+1层处理核根据第一对应关系确定第N层处理核与第二坐标的第二对应关系；第一坐标为第N层非零第二子矩阵对应的第N+1层第二矩阵中的元素在第N+1层第二矩阵中的坐标；第二坐标为第N层非零第二子矩阵对应的第N+1层第二矩阵中的元素在第N+1层第二矩阵的运算结果矩阵中的坐标。在该实施例中，若矩阵运算为转置运算，则运算结果矩阵为转置矩阵。

在一些实施例中，矩阵确定模块1210，具体用于：根据第一矩阵的尺寸确定目标尺寸，目标尺寸为每一层第二子矩阵的尺寸；根据第一矩阵和目标尺寸，确定多层第二矩阵。

在一些实施例中，任务映射装置1200还包括：目标核确定模块，用于在将每一层第二矩阵中的第二子矩阵映射到众核系统中的处理核之后，根据多层第二矩阵中的至少一个第二子矩阵与众核系统中的多个处理核的映射关系，确定目标处理核；目标处理核为多个处理核中存储目标数据的至少一者；目标数据为待处理任务的任务数据对应的第一矩阵的子矩阵的运算结果矩阵；数据传输模块，用于将任务数据传输到目标处理核，以使目标处理核读取目标数据，并执行任务数据对应的运算。

目标核确定模块，具体用于：在N大于1的情况下，根据目标数据对应的第N层处理核存储的第二对应关系，确定目标数据对应的第N-1层处理核；在N等于1的情况下，将存储目标数据的第1层处理核作为目标处理核。

在一些实施例中，任务映射装置1200还包括：地址确定模块，用于根据每一层处理核中存储的第二对应关系，确定至少一个目标计算结果在片外存储中的存储空间的地址；目标计算结果为第1层处理核进行其对应的第1层非零第二子矩阵的矩阵运算并存储的计算结果；地址写入模块，用于控制至少一个第1层处理核根据第1层处理核存储的目标计算结果在片外存储中的存储空间的地址，将第1层处理核存储的目标计算结果写入片外存储，其中，至少一个目标计算结果在片外存储中拼接成第一矩阵的运算结果矩阵。

在一些实施例中，其中，每一层第二子矩阵为方阵；矩阵运算至少包括矩阵转置运算。

根据本发明实施例任务映射装置，提供一种利用众核系统执行稀疏矩阵的矩阵运算的方案，根据需要执行矩阵运算的第一矩阵确定多层第二矩阵，每一层第二矩阵的第二子矩阵的规模都远远小于第一矩阵的规模；将至少一层第二矩阵的第二子矩阵映射到众核系统中的多个处理核执行矩阵运算，最终得到第一矩阵的矩阵运算结果，从而能够实现对矩阵中元素坐标维度的较高压缩率，大大降低内存开销；矩阵运算的计算结果存储在众核系统的至少一个处理核中，无需写入内存等片外存储中，还降低了数据重复搬运的概率，提高了超大规模稀疏矩阵进行矩阵运算的效率。

图13本申请实施例中任务处理装置的流程图；如图13所示，在一些实施例中，该任务处理装置1300可以包括如下模块。

接收模块1310，用于接收多层第二矩阵中第N层处理核与第一坐标的第一对应关系；其中，N为正整数；关系确定模块1320，用于根据第一对应关系确定第N层处理核与第二坐标的第二对应关系。

其中，多层第二矩阵中每一层第二矩阵划分为至少一个第二子矩阵；第N+1层第二矩阵中的元素与第N层第二矩阵中的多个第二子矩阵一一对应；众核系统中的多个处理核中的每一个处理核对应一个第二子矩阵；第一坐标为第N层第二子矩阵对应的第N+1层第二矩阵中的元素在第N+1层第二矩阵中的坐标；第二坐标为第N层第二子矩阵对应的第N+1层第二矩阵中的元素在第N+1层第二矩阵的运算结果矩阵中的坐标。

在一些实施例中，每一个处理核对应一个第二子矩阵及对应的运算指令；关系确定模块1320，包括：指令接收模块，用于接收运算指令；关系确定模块1320，具体用于根据运算指令和第一对应关系确定第N层处理核与第二坐标的第二对应关系。

根据本发明实施例的任务处理装置，众核系统的处理核能够根据转置前第N层处理核对应的第N+1层第二矩阵中的坐标，确定转置后第N层处理核对应的第N+1层第二矩阵的运算结果矩阵中的坐标，使得众核系统能够根据需要执行矩阵运算的第一矩阵确定多层第二矩阵，并将至少一层第二矩阵的第二子矩阵映射到众核系统中的多个处理核执行矩阵运算，最终得到第一矩阵的矩阵运算结果，从而能够实现对矩阵中元素坐标维度的较高压缩率，大大降低内存开销；矩阵运算的计算结果存储在众核系统的处理核中，无需写入内存等片外存储中，还降低了数据重复搬运的概率，提高了对超大规模稀疏矩阵进行矩阵运算的效率。

图14是本申请实施例提供的电子设备的组成框图。

参照图14，在一些实施例中，本申请实施例提供一种电子设备，包括：一个或多个处理器1401；存储器1402，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现本申请实施例的任务映射方法；一个或多个I/O接口1403，连接在处理器与存储器之间，配置为实现处理器与存储器的信息交互。其中，处理器1401为具有数据处理能力的器件，其包括但不限于中央处理器(CPU)等；存储器1402为具有数据存储能力的器件，其包括但不限于随机存取存储器(RAM，更具体如SDRAM、DDR等)、只读存储器(ROM)、带电可擦可编程只读存储器(EEPROM)、闪存(FLASH)；I/O接口(读写接口)1403连接在处理器1401与存储器1402间，能实现处理器1401与存储器1402的信息交互，其包括但不限于数据总线(Bus)等。

在一些实施例中，处理器1401、存储器1402和I/O接口1403通过总线1404相互连接，进而与计算设备的其它组件连接。

图15是本申请实施例提供的处理核的组成框图。参照图15，在一些实施例中，本申请实施例提供一种处理核，包括：包括计算单元1501和缓存1502；计算单元1501能够实现本申请实施例本申请上述实施例任务映射方法；和/或本申请实施例的任务处理方法。

图16是本申请实施例提供的众核系统的组成框图。参照图16，本申请实施例提供一种众核系统，包括：多个处理核1601；以及片上网络1602，被配置为交互多个处理核1601间的数据和外部数据；一个或多个处理核1601中存储有一个或多个指令，一个或多个指令被一个或多个处理核1601执行，以使一个或多个处理核1601能够执行本申请上述实施例的任务映射方法；和/或本申请实施例的任务处理方法。

本发明实施例还提供一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当计算机可读代码在电子设备的处理器中运行时，电子设备中的处理器执行用于实现本申请任一实施例的任务映射方法或任务处理方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本申请的范围的情况下，可进行各种形式和细节上的改变。

Claims

一种任务映射方法，包括：

根据第一矩阵确定多层第二矩阵，每一层第二矩阵划分为至少一个第二子矩阵；其中，第N+1层第二矩阵中的元素与第N层第二矩阵的多个第二子矩阵一一对应，第1层第二子矩阵为所述第一矩阵的子矩阵；其中，N为正整数；

将每一层第二矩阵中的第二子矩阵映射到众核系统中的处理核，每一个所述处理核对应一个第二子矩阵，以使所述处理核进行其对应的第二子矩阵的矩阵运算并存储运算结果。
根据权利要求1所述的方法，其中，每一层第二矩阵的第二子矩阵中包括至少一个非零第二子矩阵；所述将每一层第二矩阵中的第二子矩阵映射到众核系统中的处理核，包括：

将每一层第二矩阵中的非零第二子矩阵分别映射到所述众核系统中的处理核。
根据权利要求1所述的方法，其中，所述处理核进行的所述矩阵计算是基于运算指令进行的计算，且每一个所述处理核对应一个第二子矩阵及对应的运算指令；

所述将每一层第二矩阵中的第二子矩阵映射到众核系统中的处理核，每一个所述处理核对应一个第二子矩阵，以使所述处理核进行其对应的第二子矩阵的矩阵运算并存储运算结果，包括：

确定至少一个第二子矩阵对应的运算指令；

将每一层第二矩阵中的第二子矩阵及第二子矩阵对应的运算指令映射到众核系统中的处理核，以使所述处理核根据其对应的所述运算指令对其对应的第二子矩阵的进行矩阵运算并存储计算结果。
根据权利要求3所述的方法，其中，所述将每一层第二矩阵中的第二子矩阵及第二子矩阵对应的运算指令映射到众核系统中的处理核，包括：

将每一层第二矩阵中的非零第二子矩阵分别映射到所述众核系统中的处理核；

将所述非零第二子矩阵对应的运算指令配置到所述众核系统的处理核中。
根据权利要求2或4所述的方法，其中，对应第N层第二子矩阵的处理核为第N层处理核；所述将每一层第二矩阵中的非零第二子矩阵分别映射到所述众核系统中的处理核，包括：

将第1层第二矩阵中的第1层非零第二子矩阵传输到第1层处理核，以使第1层处理核进行其对应的第1层非零第二子矩阵的矩阵运算；

将第N层处理核与第一坐标的第一对应关系传输到第N+1层处理核，以使第N+1层处理核根据所述第一对应关系确定第N层处理核与第二坐标的第二对应关系；所述第一坐标为第N层非零第二子矩阵对应的第N+1层第二矩阵中的元素在第N+1层第二矩阵中的坐标；所述第二坐标为第N层非零第二子矩阵对应的第N+1层第二矩阵中的元素在第N+1层第二矩阵的运算结果矩阵中的坐标。
根据权利要求1至4中任意一项所述的方法，其中，所述根据第一矩阵确定多层第二矩阵，包括：

根据所述第一矩阵的尺寸确定目标尺寸，所述目标尺寸为每一层第二子矩阵的尺寸；

根据所述第一矩阵和所述目标尺寸，确定多层第二矩阵。
根据权利要求1至4中任意一项所述的方法，其特征在于，在所述将每一层第二矩阵中的第二子矩阵映射到众核系统中的处理核之后，所述方法还包括：

根据多层第二矩阵中的至少一个第二子矩阵与众核系统中的多个处理核的映射关系，确定目标处理核；所述目标处理核为多个所述处理核中存储目标数据的至少一者；所述目标数据为待处理任务的任务数据对应的第一矩阵的子矩阵的运算结果矩阵；

将所述任务数据传输到所述目标处理核，以使所述目标处理核读取所述目标数据，并执行所述任务数据对应的运算。
根据权利要求7所述的方法，其中，每一层第二矩阵的至少一个第二子矩阵中包括至少一个非零第二子矩阵；多层第二矩阵中的至少一个第二子矩阵与众核系统中的多个处理核的映射关系为每一层第二矩阵中的至少一个非零第二子矩阵与多个所述处理核的映射关系；

对应第N层第二子矩阵的处理核为第N层处理核；第1层处理核存储有对其对应的第1层非零第二子矩阵进行矩阵运算得到的计算结果；第N+1层处理核中存储有根据第N层处理核与第一坐标的第一对应关系确定的第N层处理核与第二坐标的第二对应关系；

所述第一坐标为第N层非零第二子矩阵对应的第N+1层第二矩阵中的元素在第N+1层第二矩阵中的坐标；所述第二坐标为第N层非零第二子矩阵对应的第N+1层第二矩阵中的元素在第N+1层第二矩阵的运算结果矩阵中的坐标；所述目标处理核为至少一个第1层处理核中的一者；

所述根据多层第二矩阵中的至少一个第二子矩阵与众核系统中的多个处理核的映射关系，确定目标处理核，包括：

在N大于1的情况下，根据所述目标数据对应的第N层处理核存储的所述第二对应关系，确定所述目标数据对应的第N-1层处理核；

在N等于1的情况下，将存储所述目标数据的第1层处理核作为所述目标处理核。
根据权利要求8所述的方法，其中，所述任务映射方法还包括：

根据每一层处理核中存储的所述第二对应关系，确定至少一个目标计算结果在片外存储中的存储空间的地址；所述目标计算结果为第1层处理核进行其对应的第1层非零第二子矩阵的矩阵运算并存储的计算结果；

控制至少一个第1层处理核根据所述第1层处理核存储的目标计算结果在所述片外存储中的存储空间的地址，将所述第1层处理核存储的目标计算结果写入所述片外存储，其中，至少一个所述目标计算结果在所述片外存储中拼接成所述第一矩阵的运算结果矩阵。
根据权利要求1至4中任意一项所述的方法，其中，每一层第二子矩阵为方阵；所述矩阵运算至少包括矩阵转置运算。
一种任务处理方法，包括：

接收多层第二矩阵中第N层处理核与第一坐标的第一对应关系；其中，N为正整数；

根据所述第一对应关系确定第N层处理核与第二坐标的第二对应关系；

其中，所述多层第二矩阵中每一层第二矩阵划分为至少一个第二子矩阵；第N+1层第二矩阵中的元素与第N层第二矩阵的多个第二子矩阵一一对应；众核系统中的多个处理核中的每一个所述处理核对应一个第二子矩阵；所述第一坐标为第N层第二子矩阵对应的第N+1层第二矩阵中的元素在第N+1层第二矩阵中的坐标；所述第二坐标为第N层第二子矩阵对应的第N+1层第二矩阵中的元素在第N+1层第二矩阵的运算结果矩阵中的坐标。
根据权利要求11所述的方法，其中，每一个所述处理核对应一个第二子矩阵及对应的运算指令；所述根据所述第一对应关系确定第N层处理核与第二坐标的第二对应关系，包括：

接收运算指令；

根据所述运算指令和所述第一对应关系确定第N层处理核与第二坐标的第二对应关系。
一种任务映射装置，包括：

矩阵确定模块，用于根据第一矩阵确定多层第二矩阵，每一层第二矩阵划分为至少一个第二子矩阵；其中，第N+1层第二矩阵中的元素与第N层第二矩阵的多个第二子矩阵一一对应，第1层第二子矩阵为所述第一矩阵的子矩阵；其中，N为正整数；

矩阵映射模块，用于将每一层第二矩阵中的第二子矩阵映射到众核系统中的处理核，每一个所述处理核对应一个第二子矩阵，以使所述处理核进行其对应的第二子矩阵的矩阵运算并存储运算结果。
一种任务处理装置，包括：

接收模块，用于接收多层第二矩阵中第N层处理核与第一坐标的第一对应关系；其中，N为正整数；

关系确定模块，用于根据所述第一对应关系确定第N层处理核与第二坐标的第二对应关系；

其中，所述多层第二矩阵中每一层第二矩阵划分为至少一个第二子矩阵；第N+1层第二矩阵中的元素与第N层第二矩阵的多个第二子矩阵一一对应；众核系统中的多个处理核中的每一个所述处理核对应一个第二子矩阵；所述第一坐标为第N层第二子矩阵对应的第N+1层第二矩阵中的元素在第N+1层第二矩阵中的坐标；所述第二坐标为第N层第二子矩阵对应的第N+1层第二矩阵中的元素在第N+1层第二矩阵的运算结果矩阵中的坐标。
一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求1至10中任意一项所述的任务映射方法；

一个或多个I/O接口，连接在所述处理器与存储器之间，配置为实现所述处理器与存储器的信息交互。
一种处理核，包括：

包括计算单元和缓存；

所述计算单元能够实现根据权利要求1-10中任意一项所述的任务映射方法；和/或，根据权利要求11-12中任意一项所述的任务处理方法。
一种众核系统，包括：

多个处理核；以及

片上网络，被配置为交互所述多个处理核间的数据和外部数据；

一个或多个所述处理核中存储有一个或多个指令，一个或多个所述指令被一个或多个所述处理核执行，以使一个或多个所述处理核能够执行根据权利要求1-10中任意一项所述的任务映射方法；和/或，根据权利要求11-12中任意一项所述的任务处理方法。
一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备的处理器中运行时，所述电子设备中的处理器执行用于实现权利要求1-10中任意一项所述的任务映射方法；和/或，根据权利要求11-12中任意一项所述的任务处理方法。