WO2021212972A1

WO2021212972A1 - 运算方法、处理器以及相关产品

Info

Publication number: WO2021212972A1
Application number: PCT/CN2021/075957
Authority: WO
Inventors: 刘少礼; 何得园; 刘道福
Original assignee: 中科寒武纪科技股份有限公司
Priority date: 2020-04-21
Filing date: 2021-02-08
Publication date: 2021-10-28
Also published as: US20230169144A1

Abstract

一种运算方法、处理器以及相关产品。所述产品包括存储器件（390）、接口装置（391）和控制器件（392）以及人工智能芯片（389）；其中，所述人工智能芯片（389）与所述存储器件（390）、所述控制器件（392）以及所述接口装置（391）分别连接；所述存储器件（390），用于存储数据；所述接口装置（391），用于实现所述人工智能芯片（389）与外部设备之间的数据传输；所述控制器件（392），用于对所述人工智能芯片（389）的状态进行监控。通过以上运算方法或相关产品，可以提高相关产品在进行矩阵乘法运算时的运算效率。

Description

运算方法、处理器以及相关产品

技术领域

本公开涉及信息处理技术领域，特别是涉及一种运算方法、处理器以及相关产品。

背景技术

在人工智能技术领域，神经网络算法是最近非常流行的一种机器学习算法，在各种领域中都取得了非常好的效果，比如图像识别，语音识别，自然语言处理等。随着神经网络算法的发展，算法的复杂度也越来越高，为了提高识别度，模型的规模也在逐渐增大。用GPU和CPU处理起这些大规模的模型，要花费大量的计算时间，并且耗电量很大。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高运算效率的运算方法、处理器及相关产品。

根据本公开的一方面，提供了一种基于处理元件矩阵的矩阵乘的运算方法，应用于处理器，所述处理器包括两个以上处理元件，所述两个以上处理元件以二维矩阵排列，处理元件包括至少一个寄存器，所述方法实现对第一矩阵和第二矩阵的矩阵乘法运算，

所述方法包括：

将第一矩阵加载到处理元件的寄存器中，第一矩阵中的元素在矩阵中的排列方式和在处理元件的寄存器中的排列方式相同；

针对第二矩阵的每一行，将所述每一行中的元素与第一矩阵的每一列元素对应存储到处理元件的寄存器，与第一矩阵的每一列中的元素分别求乘积，计算一列乘积的和得到第一中间结果；或者，针对第二矩阵的每一列，将所述每一列中的元素与第一矩阵的每一行元素对应存储到处理元件的寄存器，与第一矩阵的每一行中的元素分别求乘积，计算一行乘积的和得到第一中间结果；

将第一中间结果进行处理得到第一矩阵和第二矩阵的乘积。

根据本公开的另一方面，提供了一种处理器，所述处理器包括两个以上处理元件，所述两个以上处理元件以二维矩阵排列，处理元件包括至少一个寄存器，所述处理器用于对第一矩阵和第二矩阵执行矩阵乘法运算，

所述处理器还包括控制器，所述控制器用于将第一矩阵加载到处理元件的寄存器中；

针对第二矩阵的每一行，所述控制器用于将所述每一行中的元素与第一矩阵的每一列元素对应存储到处理元件的寄存器，与第一矩阵的每一列中的元素分别求乘积，计算一列乘积的和得到第一中间结果；或者，针对第二矩阵的每一列，所述控制器用于将所述每一列中的元素与第一矩阵的每一行元素对应存储到处理元件的寄存器，与第一矩阵的每一行中的元素分别求乘积，计算一行乘积的和得到第一中间结果；

所述控制器还用于将第一中间结果进行处理得到第一矩阵和第二矩阵的乘积。

根据本公开的另一方面，提供了一种人工智能芯片，所述芯片包括如上所述的处理器。

根据本公开的另一方面，提供了一种电子设备，包括如上所述的人工智能芯片。

根据本公开的另一方面，提供了一种电子设备，包括如上所述的处理器。

根据本公开上述各实施方式的矩阵乘的运算方法、处理器，更适用于以阵列排布的处理元件组成的处理器，运算效率高。且对于满足处理元件的排列的任意规模的输入矩阵，可以得到矩阵乘法的运算结果，可以减少访存次数，降低带宽压力，提高运算的效率。

根据本公开的第一方面，提供了一种处理器，所述处理器包括两个以上处理元件，所述两个以上处理元件以二维矩阵排列，处理元件包括至少一个寄存器，所述处理器用于对第一矩阵和第二矩阵执行矩阵乘法运算，

所述处理器还包括控制器，所述控制器用于将第一矩阵的转置矩阵和第二矩阵的各元素分别加载到各处理元件的寄存器中，所述转置矩阵和所述第二矩阵对应位置的元素存储在同一处理元件的寄存器中；

所述控制器用于控制所述转置矩阵或者第二矩阵在行方向或者列方向滚动，控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积、将同一行或同一列的元素乘积求和得到第一中间结果；

所述控制器还用于对所述第一中间结果进行处理得到第一矩阵和第二矩阵的乘积。

根据本公开的第二方面，提供了一种基于处理元件矩阵的矩阵乘的运算方法，应用于处理器，所述处理器包括两个以上处理元件，所述两个以上处理元件以二维矩阵排列，处理元件包括至少一个寄存器，所述方法实现对第一矩阵和第二矩阵的矩阵乘法运算，所述方法包括：

将第一矩阵进行转置得到转置矩阵，将转置矩阵和第二矩阵的各元素分别加载到各处理元件的寄存器中，转置矩阵和第二矩阵对应位置的元素存储在同一处理元件的寄存器中；

控制所述转置矩阵或者第二矩阵在行方向或者列方向滚动，控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积、将同一行或同一列的元素乘积求和得到第一中间结果；

对所述第一中间结果进行处理得到第一矩阵和第二矩阵的乘积。

根据本公开的第三方面，提供了一种人工智能芯片，所述芯片包括如上所述的处理器。

根据本公开的第四方面，提供了一种电子设备，包括如上所述的人工智能芯片。

根据本公开上述各实施方式的矩阵乘的运算方法、处理器等产品，对于满足处理元件的排列的任意规模的输入矩阵，都可以得到矩阵乘法的运算结果，并且相比于相关技术中的矩阵乘运算可以减少访存次数，降低带宽压力，提高运算的效率。

根据本公开的一方面，提供了一种基于处理元件矩阵的矩阵乘的运算方法，应用于处理器，所述处理器包括两个以上处理元件，所述两个以上处理元件以二维矩阵排列，处理元件包括至少一个寄存器，所述方法实现对第一矩阵和第二矩阵的矩阵乘法运算，所述方法包括：

对第一矩阵和第二矩阵进行预处理得到第三矩阵和第四矩阵，其中第三矩阵和第四矩阵都为p×p矩阵，p＝max(m,k,n)，m表示第一矩阵的行秩，n表示第二矩阵的列秩，第一矩阵的列秩和第二矩阵的行秩为k，p为m、k、n三者中的最大值；

将所述第三矩阵和所述第四矩阵以行列对齐的方式加载到处理元件的寄存器中，加载后第三矩阵和第四矩阵对应位置的元素存储在同一处理元件的寄存器中；

对第三矩阵和第四矩阵在行方向或者列方向进行滚动，控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积矩阵；

根据对第一矩阵和第二矩阵预处理的方式对元素乘积矩阵进行处理得到第一矩阵和第二矩阵的乘积。

在一种可能的实现方式中，对第三矩阵和第四矩阵在行方向或者列方向进行滚动，控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积矩阵，包括：

控制处理元件对相应的寄存器内的元素进行乘法运算得到第一元素乘积矩阵；

将第三矩阵整体向左滚动一次、将第四矩阵整体向上滚动一次，或者，将第三矩阵整体向右滚动一次、将第四矩阵整体向下滚动一次，控制处理元件对相应的寄存器内的元素进行乘法运算得到第二元素乘积矩阵，重复p-1次得到第二元素乘积矩阵。

在一种可能的实现方式中，根据对第一矩阵和第二矩阵预处理的方式对元素乘积矩阵进行处理得到第一矩阵和第二矩阵的乘积，包括：

将第一元素乘积矩阵和第二元素乘积矩阵求和得到第五矩阵，根据对第一矩阵和第二矩阵预处理的方式对第五矩阵进行处理得到第一矩阵和第二矩阵的乘积。

根据本公开的另一方面，提供了一种处理器，所述处理器包括两个以上处理元件，所述两个以上处理元件以二维矩阵排列，处理元件包括至少一个寄存器，所述处理器用于对第一矩阵和第二矩阵的矩阵乘法运算，所述处理器还包括控制器，所述控制器用于对第一矩阵和第二矩阵进行预处理得到第三矩阵和第四矩阵，其中，第三矩阵和第四矩阵对应位置的元素存储在同一处理元件的寄存器中，第三矩阵和第四矩阵都为p×p矩阵，p＝max(m,k,n)，m表示第一矩阵的行秩，n表示第二矩阵的列秩，第一矩阵的列秩和第二矩阵的行秩为k，p为m、k、n三者中的最大值；

所述控制器用于对第三矩阵和第四矩阵在行方向或者列方向进行滚动，控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积矩阵；

所述控制器用于根据对第一矩阵和第二矩阵预处理的方式对元素乘积矩阵进行处理得到第一矩阵和第二矩阵的乘积。

根据本公开的另一方面，提供了一种基于处理元件矩阵的矩阵乘的运算装置，包括：上述处理器。

根据本公开的另一方面，提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现上述方法。

根据本公开上述各实施方式的矩阵乘的运算方法、处理器及相关产品，进行矩阵乘法运算时不需要反复读取数据，减少读取内存的次数，降低带宽压力，运算效率高。且对于任意规模的输入矩阵，都可以通过预处理的方式对输入矩阵进行变换，然后进行运算，可以得到矩阵乘法的运算结果。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1-1示出根据本公开一实施例的处理器的示意图。

图1-2a和图1-2b分别示出了不同的划分方式的示例。

图1-3示出根据本公开一实施例的运算方法的流程图。

图1-4示出根据本公开一实施例的处理元件组成的阵列的示意图。

图1-5示出根据本公开一实施例的分块的示意图。

图1-6示出根据本公开一实施例的对矩阵划分的示例。

图2-1示出根据本公开一实施例的处理器的示意图。

图2-2a和图2-2b分别示出了多种不同的划分方式的示例。

图2-3示出根据本公开一实施例的运算方法的流程图。

图2-4示出根据本公开一实施例的处理元件组成的阵列的示意图。

图2-5示出根据本公开一实施例的分块的示意图。

图2-6示出根据本公开一实施例的对矩阵划分的示例。

图3-1示出根据本公开一实施例的处理器的示意图。

图3-2a和图3-2b分别示出了不同的划分矩阵的方式的示例。

图3-3示出根据本公开一实施例的运算方法的流程图。

图3-4示出根据本公开一实施例的分块的示意图。

图4示出根据本公开实施例的板卡的结构框图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

应当理解，本公开的权利要求、说明书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。本公开的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本公开说明书中所使用的术语仅仅是出于描述特定实施例的目的，而并不意在限定本公开。如在本公开说明书和权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解，在本公开说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何处理以及所有可能处理，并且包括这些处理。

如在本说明书和权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

矩阵运算在利用人工智能对信息进行处理的过程中占据比较大的计算量，并且现有的处理器在处理矩阵运算的过程中把矩阵运算拆解成乘法运算和加法运算，需要频繁的从内存中读取数据，运算的效率很低。

相关技术中，对于输入矩阵规模比较大的矩阵乘法，为了提高矩阵运算的效率，通常采用多级流水线的方式实现运算的过程，但多级流水线由于每一级对输入数据中的一部分进行处理，因此，需要频繁的从内存中读取数据，频繁访问内存导致对带宽的要求较高。

为了解决上述技术问题，本公开提供了一种运算方法以及执行该运算方法的处理器。处理器可以包括多个处理元件，在一些实施方式中，多个处理元件可以以二维矩阵的形式排列以更好的适应矩阵运算，每个处理元件可以包括至少一个寄存器。

图1-1示出根据本公开一实施例的处理器的示意图。如图1-1所示，多个处理元件PE(Processing Element)以二维矩阵的形式排列，每个处理元件与相邻的处理元件之间连接，每个PE中可以设置有至少一个寄存器(register)(图中未示出)。处理器还可以包括控制器和存储器，其中，控制器和存储器都与多个处理元件连接，且控制器可以连接存储器。所述控制器用于从存储器中加载数据到处理元件的寄存器中，并控制处理元件对输入数据进行处理。

在本公开的实施例的运算过程中，控制器可以先将一个矩阵的元素加载到各个PE对应的寄存器中，然后将另一个矩阵的元素按行或者按列或者按照元素遍历的方式根据加载到寄存器的矩阵中的元素加载的位置存储至对应的寄存器中，然后控制每个PE对PE内设置的寄存器存储的元素进行运算。

在一种可能的实现方式中，存储器中还可以存储有可执行程序，可执行程序中可以包括指令，处理器执行指令可以实现矩阵乘法运算。控制器中可以设置有加载器、译码器等，其中，加载器可以用于将存储器中的输入数据加载到处理元件的寄存器中，译码器可以根据加载后输入数据的存储地址的变化对可执行程序中访问数据的指令进行译码，比如说，对于访问数据的指令，通过译码获得数据在寄存器中存储的地址赋值给访问数据的指令，并将译码后的指令发送给处理元件，由处理元件执行指令，从而实现对数据的处理。

在一种可能的实现方式中，存储器可以为片上缓存，控制器可以将片外闪存上的可执行程序以及输入数据(例如，输入矩阵，包括左乘矩阵和右乘矩阵)加载到上述存储器(片上缓存)中，再进行之后的矩阵乘法运算的过程。

在一种可能的实现方式中，控制器也可以直接从片外内存上加载输入矩阵以及可执行程序到处理元件的寄存器中，本公开对此不作限定。

PE中还可以包括运算器以完成指定的运算，以矩阵运算为例，PE中可以包括例如乘法器、加法器等，各个PE中的具体结构可以相同，也可以存在不同，本公开对此不作限定。PE中还可以包括其他类型的运算器，以适应各种不同的运算过程，本公开对PE包括的运算器的数量和类型不作限定。

乘法操作的输入矩阵可以包括左乘矩阵和右乘矩阵，其中，左乘矩阵可以是指位于乘号左边的矩阵，右乘矩阵可以是指位于乘号右边的矩阵。

本公开提供的运算方法用于实现对第一矩阵和第二矩阵的矩阵乘法运算。其中，在一个示例中，第一矩阵可以为左乘矩阵，第二矩阵可以为右乘矩阵；在另一个示例中，第一矩阵可以为右乘矩阵，第二矩阵可以为左乘矩阵。

本公开的实施方式中，控制器可以将输入矩阵中的一个矩阵确定为待加载矩阵。由于处理器中PE的数量以及排列方式是固定的，因此，在一些情况下控制器可以对待加载矩阵进行分块，在一些情况下，可以不对加载到处理器中的矩阵进行分块。对于输入矩阵中除了待加载矩阵以外的另一矩阵，可以不进行分块处理。

在一种可能的实现方式中，控制器可以从输入矩阵中确定待加载矩阵，根据处理元件的排列以及待加载矩阵的行数和列数确定是否对待加载矩阵进行分块。其中，处理元件的排列可以是指处理元件的行数和列数，待加载矩阵的行秩、列秩可以是指该矩阵的行数和列数。待加载矩阵可以是左乘矩阵，也可以是右乘矩阵，本公开对此不作限定。

若待加载矩阵的行数不大于处理元件的行数、且待加载矩阵的列数不大于处理元件的列数，则控制器可以不对待加载矩阵进行分块，若待加载矩阵的行数大于处理元件的行数，或者待加载矩阵的列数大于处理元件的列数，则控制器可以对待加载矩阵进行分块。

在一种可能的实现方式中，在从输入矩阵中确定待加载矩阵时，控制器可以随机确定，也可以根据处理元件的排列优先确定不需要进行分块的矩阵为待加载矩阵，本公开对具体的确定方式不作限定。

比如说，假设处理元件组成的阵列可以表示为PE _MN，表示处理元件为M×N的矩阵，其中，M表示处理元件的行数、N表示处理元件的列数，M和N都为大于0的正整数。假设左乘矩阵为a _mn，表示左乘矩阵为m×n的矩阵，其中，m表示矩阵a _mn的行数，n表示矩阵a _mn的列数，m和n都为正整数，右乘矩阵为b _nk，表示右乘矩阵为n×k的矩阵，其中n为矩阵b _nk的行数，k为矩阵b _nk的列数，k为正整数。如果m小于M、n小于N，n大于M或者k大于N，那么控制器可以优选矩阵a _mn为待加载矩阵。

在一种可能的实现方式中，若两个输入矩阵都满足不需要分块的条件，即都可以作为待加载矩阵，此时控制器可以随机确定其中一个为待加载矩阵，也可以选择包含元素较多的矩阵作为待加载矩阵，这样可以减少加载元素的次数，提高运算效率。

若要对待加载矩阵进行分块，则控制器可以根据待处理元件的排列以及待加载矩阵的行秩以及列秩对待加载矩阵进行分块得到两个以上第一矩阵。

需要说明的是，本公开的示例中以加载第一矩阵到各处理元件为例，也就是将待加载矩阵作为第一矩阵或者将对待加载矩阵分块后得到的矩阵作为第一矩阵。

对于不需要分块的情况，如果加载的第一矩阵为左乘矩阵，那么控制器可以将右乘作为第二矩阵，如果加载的第一矩阵为右乘矩阵，那么控制器可以将左乘矩阵作为第二矩阵。

对于需要分块的情况，如果对待加载矩阵进行分块得到两个以上第一矩阵，那么控制器可以根据情况对输入矩阵中的另一个矩阵进行处理。

如果处理元件包括的寄存器无法存储全部的第一矩阵，这时，根据对待加载矩阵分块的方式的不同，控制器可以对输入矩阵中待加载矩阵以外的另一个矩阵进行分块，也可以不进行分块。

比如说，若待加载矩阵为左乘矩阵，对待加载矩阵在行方向进行了分块，此时控制器可以不对另一个矩阵进行分块；如果待加载矩阵为左乘矩阵，对待加载矩阵在列方向进行了分块，此时控制器可以根据对待加载矩阵分块的方式，将输入矩阵中待加载矩阵以外的另一个矩阵进行分块得到两个以上第二矩阵。

若待加载矩阵为右乘矩阵，对待加载矩阵在行方向进行了分块，此时控制器可以根据对待加载矩阵分块的方式，将输入矩阵中待加载矩阵以外的另一个矩阵进行分块得到两个以上第二矩阵；如果待加载矩阵为右乘矩阵，对待加载矩阵在列方向进行了分块，此时控制器可以不对另一个矩阵进行分块。

如果待加载矩阵为a _mn，那么根据矩阵a _mn的行数和列数以及处理元件的行数和列数确定是否需要对矩阵a _mn进行分块，如果矩阵a _mn的行数m不大于处理元件的行数M、且列数n不大于处理元件的列数N，则可以不对矩阵a _mn进行分块。如果矩阵a _mn的行数m大于处理元件的行数M、或者列数n大于处理元件的列数N，则可以对矩阵a _mn在行方向或者列方向进行分块。

如果待加载矩阵为b _nk，那么根据矩阵b _nk的行数和列数以及处理元件的行数和列数确定是否需要对矩阵b _nk进行分块，如果矩阵b _nk的行数n不大于处理元件的行数M、且列数k不大于处理元件的列数N，则可以不对矩阵b _nk进行分块。如果矩阵b _nk的行数n大于处理元件的行数M、或列数k大于处理元件的列数N，则可以对矩阵b _nk在行方向或者列方向进行分块。

在一种可能的实现方式中，分块后得到的矩阵满足不需要再进行分块的条件，也就是说，分块后矩阵的行数不大于处理元件的行数、且列数不大于处理元件的列数。

如果矩阵a _mn的行数m大于处理元件的行数M、列数n不大于处理元件的列数N，则控制器可以对矩阵a _mn在行方向进行分块，由于矩阵a _mn为左乘矩阵，因此在行方向进行分块，并不影响与右乘矩阵的正常的运算，因此控制器可以不对右乘矩阵进行分块处理。如果矩阵a _mn的行数m不大于处理元件的行数M、列数n大于处理元件的列数N，则可以对矩阵a _mn在列方向进行分块，此时，控制器可以根据对矩阵a _mn在列方向进行分块的方式对右乘矩阵的行方向进行分块，对左乘矩阵列方向和右乘矩阵行方向以相同的方式进行分块，所述相同的方式分块指的是分块后所得的第一矩阵的列数和第二矩阵的行数是相同的，以保证能正常完成矩阵运算。如果矩阵a _mn的行数m大于处理元件的行数M、列数n大于处理元件的列数N，则控制器可以对矩阵a _mn在行方向和列方向进行分块，可以根据对矩阵a _mn在列方向进行分块的方式对右乘矩阵的行方向进行分块，对左乘矩阵列方向和右乘矩阵行方向以相同的方式进行分块，所述相同的方式分块指的是分块后所得的第一矩阵的列数和第二矩阵的行数是相同的，以保证能正常完成矩阵运算。

如果矩阵b _nk的行数n不大于处理元件的行数M、列数k大于处理元件的列数N，则控制器可以对矩阵b _nk在列方向进行分块。由于矩阵b _nk为右乘矩阵，因此在列方向进行分块并不影响与左乘矩阵的正常的运算，因此控制器可以不对左乘矩阵进行分块处理。如果矩阵b _nk的行数n大于处理元件的行数M、列数k不大于处理元件的列数N，则可以对矩阵b _nk在行方向进行分块，此时，控制器可以根据对矩阵b _nk在行方向进行分块的方式对左乘矩阵的列方向进行分块，对左乘矩阵列方向和右乘矩阵行方向以相同的方式进行分块，所述相同的方式分块指的是分块后所得的第一矩阵的列数和第二矩阵的行数是相同的，以保证能正常完成矩阵运算。如果矩阵b _nk的行数n大于处理元件的行数M、列数k大于处理元件的列数N，则控制器可以对矩阵b _nk在行方向和列方向进行分块，此时，控制器可以根据对矩阵b _nk在行方向进行分块的方式对左乘矩阵的列方向进行分块，对左乘矩阵列方向和右乘矩阵行方向以相同的方式进行分块，所述相同的方式分块指的是分块后所得的第一矩阵的列数和第二矩阵的行数是相同的，以保证能正常完成矩阵运算。

在一种可能的实现方式中，可以按照分块后的矩阵的行秩和列秩尽量接近处理元件的行数和列数的方式进行分块，这样可以提高运算的效率，缩短运算时间。也就是说，假设处理元件为4×4的阵列，那么可以先按照分块后的矩阵为4×4的方式进行分块，这样可以最大效率的利用处理元件，提高运算效率。

举例来说，假设处理元件为2×2的阵列，左乘矩阵为2×4矩阵、右乘矩阵为4×3矩阵，这种情况下不管是加载左乘矩阵还是右乘矩阵，都需要对两者进行分块。分块的方式可以有很多种，图1-2a和图1-2b分别示出了多种不同的分块方式，矩阵a ₂₄在列方向和矩阵b ₄₃在行方向以相同的方式进行分块。图1-2a是分块的一个示例，矩阵a ₂₄在列方向划分为两部分，每一部分包括两列，矩阵b ₄₃在行方向划分为两部分，每一部分包括两行；图1-2b是分块的另一个示例，矩阵a ₂₄在列方向划分为三部分，其中一部分包括两列、另外两部分都包括一列，矩阵b ₄₃在行方向划分为三部分，其中一部分包括两行、另外两部分都包括一行。以上处理元件的排列以及输入矩阵的分块方式仅仅是本公开的一个示例，不以任何方式限制本公开。

图1-2a中的分块方式划分出的矩阵的行秩和列秩更接近处理元件的行数和列数，这样，能够有助于提高处理元件的利用率，并且降低控制复杂度，对于相同的输入矩阵，由于分块后的块数较少，因此加载数据的次数少，这种分块方式运算的效率更高。

对于左乘矩阵的行方向和右乘矩阵的列方向的分块方式，本公开不作具体的限定，只要分块后的矩阵都满足不需要再进行分块的条件即可。

在一种可能的实现方式中，如果处理元件包含的寄存器的数量可以满足存储输入矩阵的需求，那么还可以采用堆叠存储的方式将划分后的第一矩阵存储到处理元件的寄存器中，来实现输入矩阵的乘法运算。比如说，每个处理元件可以包括多个寄存器，控制器可以把处理元件中的寄存器分为多个不同的组，控制器在对所述输入矩阵进行分块后，可以在多组寄存器中堆叠存储所述两个以上第一矩阵，每组存储一个第一矩阵。在该实施方式中，控制器可以将输入矩阵中待加载矩阵以外的另一个矩阵作为第二矩阵。需要说明的是，堆叠存储仅仅是一种可选的实现方式，本公开不限于此。

图1-3示出根据本公开一实施例的运算方法的流程图。以不需要对待加载矩阵进行分块为例，先对本公开的运算方法进行说明，假设待加载矩阵为第一矩阵，输入矩阵中除了待加载矩阵以外的另一个矩阵为第二矩阵，如图1-3所示，本公开提供的运算方法可以包括以下步骤：

步骤S1-11，将第一矩阵加载到各处理元件的寄存器中；

在一种可能的实现方式中，第一矩阵中的元素在矩阵中的排列方式和在处理元件的寄存器中的排列方式相同；

步骤S1-12，针对第二矩阵的每一行或者每一列，将所述每一行或者每一列中的元素与第一矩阵的每一列或每一行元素对应存储到处理元件的寄存器，与第一矩阵的每一列或每一行中的元素分别求乘积，计算一列或一行乘积的和得到第一中间结果；也就是说，针对第一矩阵的每一行或者每一列，将每一行或者每一列的元素存储到第一矩阵的每一列或者每一行元素存储的寄存器所在的处理元件的寄存器中。

也就是说，针对第二矩阵的每一行，将所述每一行中的元素与第一矩阵的每一列元素对应存储到处理元件的寄存器，与第一矩阵的每一列中的元素分别求乘积，计算一列乘积的和得到第一中间结果；或者，针对第二矩阵的每一列，将所述每一列中的元素与第一矩阵的每一行元素对应存储到处理元件的寄存器，与第一矩阵的每一行中的元素分别求乘积，计算一行乘积的和得到第一中间结果。

步骤S1-13，将第一中间结果进行处理得到第一矩阵和第二矩阵的乘积。

对于不分块的情况，控制器可以直接把左乘矩阵作为第一矩阵、右乘矩阵作为第二矩阵，或者将左乘矩阵作为第二矩阵、右乘矩阵作为第一矩阵，本公开对此不作限定。

在一个示例中，第一矩阵为左乘矩阵，第二矩阵为右乘矩阵，那么在步骤S1-12中，针对第二矩阵中的每一列元素，可以将该列元素中的每个元素与第一矩阵中对应的一列元素存储到处理元件的寄存器(或者说，将该列元素中的每个元素存储至第一矩阵中对应的一列元素存储的寄存器所在的处理元件的寄存器中)，控制每一个处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，计算每一行元素乘积的和得到第一中间结果。其中，第一矩阵中与所述每个元素对应的一列元素是指，该元素在所述第二矩阵中的行数与一列元素在第二矩阵中的列数相同。

在另一个示例中，第一矩阵为右乘矩阵，第二矩阵为左乘矩阵，那么在步骤S1-12中，针对第二矩阵中的每一行元素，可以将该行元素中的每个元素与第一矩阵中对应的一行元素存储到处理元件的寄存器，控制每一个处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，计算每一列元素乘积的和得到第一中间结果。其中，第一矩阵中与所述每个元素对应的一行元素是指，该元素在所述第二矩阵中的列数与一行元素所在的行数相同。

根据加载到处理器中的矩阵为左乘矩阵或者右乘矩阵，步骤S1-13中对第一中间结果的处理方式不同。具体地，若第一矩阵为左乘矩阵，那么，得到的第一中间结果作为第一矩阵和第二矩阵的乘积矩阵的一列元素，第一中间结果在乘积矩阵中的列数与进行运算得到第一中间结果的第二矩阵中的列的列数相同；若第一矩阵为右乘矩阵，那么，得到的第一中间结果作为第一矩阵和第二矩阵的乘积矩阵的一行元素，第一中间结果在乘积矩阵中的行数与进行运算得到第一中间结果的第二矩阵中的行的行数相同。

在一种可能的实现方式中，对于同一行或者同一列的处理元件，控制器可以控制该行或者该列的处理元件将每次计算得到的元素乘积移动到该行或者该列的一个处理元件中，并控制该行或者该列的一个处理元件计算元素乘积的和得到第一中间结果。比如说，在第一矩阵为左乘矩阵、第二矩阵为右乘矩阵时，在每次计算得到元素乘积时，控制器可以控制同一行的处理元件将计算得到的元素乘积移动到该行的一个处理元件中，并控制该一个处理元件计算元素乘积的和得到第一中间结果；在第一矩阵为右乘矩阵、第二矩阵为左乘矩阵时，在每次计算得到元素乘积时，控制器可以控制同一列的处理元件将计算得到的元素乘积移动到该列的一个处理元件中，并控制该一个处理元件计算元素乘积的和得到第一中间结果。其中，处理元件可以采用加法器计算元素乘积的和。其中的一个处理元件可以是存储有第一矩阵的元素的处理元件，也可以是未存储第一矩阵的元素的处理元件，本公开对此不作限定。

以上示例仅仅是计算第一中间结果的一种方式，本公开不限于此，比如，还可以在处理元件阵列的行或者列上设置专门的加法器用于实现上述计算过程。

示例1-1 第一矩阵为左乘矩阵，第二矩阵为右乘矩阵

假设第一矩阵a _mn和第二矩阵b _nk都为3×3矩阵，处理元件为4×4的阵列。

图1-4示出根据本公开一实施例的处理元件组成的阵列的示意图。结合图1-4以及图1-3对本公开的运算方法进行说明。

假设第一矩阵

第二矩阵

将第一矩阵加载到所述处理元件的寄存器中，可以按照第一矩阵的行和列的排列方式加载到所述处理元件的寄存器中，也就是说，第一矩阵中的元素在矩阵中的排列方式和在处理元件的寄存器中的排列方式相同，换言之，所述排列方式相同指的是矩阵中所有元素的行下标与其所处的处理元件的行差值相同、所有元素的列下标与其所处的处理元件的列下标的差值相同。

在一种可能的实现方式中，第一矩阵中的元素在矩阵中的行列数与加载有该元素的处理元件在处理元件组成的阵列中的行列数相同。

举例来说，在一个示例中，控制器可以将A ₁₁加载到PE ₁₁的寄存器中、A ₁₂加载到PE ₁₂的寄存器中、A ₁₃加载到PE ₁₃的寄存器中、A ₂₁加载到PE ₂₁的寄存器中…A ₃₃加载到PE ₃₃的寄存器中，也就是说，第一矩阵中元素的下标可以与其所处的处理元件的下标完全相同，上述行下标差值和列下标差值都为0。

在另一个示例中，控制器可以将A ₁₁加载到PE ₁₂的寄存器中、A ₁₂加载到PE ₁₃的寄存器中、A ₁₃加载到PE ₁₄的寄存器中、A ₂₁加载到PE ₂₂的寄存器中…A ₃₃加载到PE ₃₄的寄存器中，也就是说，第一矩阵中的元素在矩阵中的排列方式和在处理元件的寄存器中的排列方式相同，行下标差值为0、列下标的差值为1。

需要说明的是，以上两个示例仅仅是加载第一矩阵的一些示例，不以任何方式限制本公开，本领域技术人员应当知道，只要满足第一矩阵中的元素在矩阵中的排列方式和在处理元件的寄存器中的排列方式相同即可。

在一种可能的实现方式中，在加载完输入矩阵之后，对于步骤S1-12，控制器可以将第二矩阵的第一列中的元素B ₁₁到第一矩阵中对应的一列元素存储到处理元件的寄存器，对应的一列元素是指该元素在所述第二矩阵中的行数与一列元素在第一矩阵中的列数相同，B ₁₁在第一矩阵为第一行，那么对应的一列元素是指第一矩阵中的第一列元素。也就是说，控制器将元素B ₁₁存储至A ₁₁、A ₂₁、A ₃₁存储的寄存器所在的处理元件的寄存器中。

控制器将第二矩阵的第一列中的元素B ₂₁存储至A ₁₂、A ₂₂、A ₃₂存储的寄存器所在的处理元件的寄存器中，将第二矩阵的第一列中的元素B ₃₁存储至A ₁₃、A ₂₃、A ₃₃存储的寄存器所在的处理元件的寄存器中。

也就是说，B ₁₁和A ₁₁存储在同一个处理元件的寄存器中，B ₁₁和A ₂₁存储在同一个处理元件的寄存器中，B ₁₁和A ₃₁存储在同一个处理元件的寄存器中。B ₂₁和A ₁₂存储在同一个处理元件的寄存器中，B ₂₁和A ₂₂存储在同一个处理元件的寄存器中，B ₂₁和A ₃₂存储在同一个处理元件的寄存器中。B ₃₁和A ₁₃存储在同一个处理元件的寄存器中，B ₃₁和A ₂₃存储在同一个处理元件的寄存器中，B ₃₁和A ₃₃存储在同一个处理元件的寄存器中。

处理器中的控制器控制处理元件分别对对应的寄存器内存储的元素求乘积，然后计算每一行乘积的和得到第一中间结果分别为：B ₁₁×A ₁₁+B ₂₁×A ₁₂+B ₃₁×A ₁₃、B ₁₁×A ₂₁+B ₂₁×A ₂₂+B ₃₁×A ₂₃、B ₁₁×A ₃₁+B ₂₁×A ₃₂+B ₃₁×A ₃₃。假设第一矩阵和第二矩阵相乘得到的矩阵为C ₃₃，那么上述第一中间结果可以表示为：C ₁₁、C ₂₁、C ₃₁。

在一种可能的实现方式中，示例性的，控制器可以将A ₁₁加载到PE ₁₁的寄存器中、A ₁₂加载到PE ₁₂的寄存器中、A ₁₃加载到PE ₁₃的寄存器中、A ₂₁加载到PE ₂₁的寄存器中…A ₃₃加载到PE ₃₃的寄存器中，也就是说，第一矩阵中元素的下标可以与其所处的处理元件的下标完全相同，上述行下标差值和列下标差值都为0。在本示例中，控制器将第二矩阵的第一列元素B ₁₁、B ₂₁、B ₃₁存储至处理元件的寄存器之后，控制器控制处理元件采用乘法器对各自的寄存器中的元素求乘积得到元素乘积，控制器可以控制每一行处理元件将计算得到的元素乘积移动到该行的一个处理元件中，比如说，控制器可以控制PE ₁₁、PE ₁₂和PE ₁₃将计算得到的元素乘积B ₁₁×A ₁₁、B ₂₁×A ₁₂、B ₃₁×A ₁₃移动到处理元件PE ₁₄中，控制PE ₁₄采用加法器对上述元素乘积求和得到C ₁₁，需要说明的是，控制器也可以控制第一行的处理元件将元素乘积移动到PE ₁₁、PE ₁₂或者PE ₁₃中，本公开对此不作限定。控制器控制第二行和第三行的处理元件执行类似的操作后，可以得到第一中间结果C ₁₁、C ₂₁、C ₃₁。

针对第二矩阵中的每一列，重复以上过程可以得到第一中间结果：C ₁₂、C ₂₂、C ₃₂和C ₁₃、C ₂₃、C ₃₃。利用上述第一中间结果即可得到第一矩阵和第二矩阵的乘积

在一种可能的实现方式中，对于得到的第一中间结果，可以按列存储即可得到第一矩阵和第二矩阵的乘积。也就是如上文所述的，第一矩阵为左乘矩阵时，以每一次得到的第一中间结果作为第一矩阵和第二矩阵的乘积矩阵的一列元素。第一中间结果在乘积矩阵中的列数与进行运算得到第一中间结果的第二矩阵中的列的列数相同是指，以上述示例为例，第二矩阵中的第一列元素与第一矩阵中的元素进行运算得到的第一中间结果C ₁₁、C ₂₁、C ₃₁为c ₃₃的第一列。

示例1-2 第一矩阵为右乘矩阵，第二矩阵为左乘矩阵

仍然假设第一矩阵a _mn和第二矩阵b _nk都为3×3矩阵，处理元件为4×4的阵列。

假设第一矩阵

第二矩阵

将第一矩阵加载到所输出处理元件的寄存器中，加载的方式可以参见示例1-1中加载第一矩阵的方式，不再赘述。

在加载完第一矩阵之后，对于步骤S1-12，将第二矩阵的第一行中的元素B ₁₁与第一矩阵中对应的一行元素存储到处理元件的寄存器，对应的一行元素是指该元素在所述第二矩阵中的列数与一列元素在第一矩阵中的行数相同，B ₁₁在第一矩阵为第一列，那么对应的一列元素是指第一矩阵中的第一行元素。也就是说，控制器可以将元素B ₁₁存储至A ₁₁、A ₁₂、A ₁₃存储的寄存器所在的处理元件的寄存器中。

将第二矩阵的第一行中的元素B ₁₂存储至A ₂₁、A ₂₂、A ₂₃存储的寄存器所在的处理元件的寄存器中，将第二矩阵的第一行中的元素B ₁₃存储至A ₃₁、A ₃₂、A ₃₃存储的寄存器所在的处理元件的寄存器中。

也就是说，B ₁₁和A ₁₁存储在同一个处理元件的寄存器中，B ₁₁和A ₁₂存储在同一个处理元件的寄存器中，B ₁₁和A ₁₃存储在同一个处理元件的寄存器中。B ₁₂和A ₂₁存储在同一个处理元件的寄存器中，B ₁₂和A ₂₂存储在同一个处理元件的寄存器中，B ₁₂和A ₂₃存储在同一个处理元件的寄存器中。B ₁₃和A ₃₁存储在同一个处理元件的寄存器中，B ₁₃和A ₃₂存储在同一个处理元件的寄存器中，B ₁₃和A ₃₃存储在同一个处理元件的寄存器中。

处理器中的控制器控制处理元件分别对对应的寄存器内存储的元素求乘积，然后计算每一列乘积的和得到第一中间结果分别为：B ₁₁×A ₁₁+B ₁₂×A ₂₁+B ₁₃×A ₃₁、B ₁₁×A ₁₂+B ₁₂×A ₂₂+B ₁₃×A ₃₂、B ₁₁×A ₁₃+B ₁₂×A ₂₃+B ₁₃×A ₃₃。假设第一矩阵和第二矩阵相乘得到的矩阵为C ₃₃，那么上述第一中间结果可以表示为：C ₁₁、C ₁₂、C ₁₃。

在一种可能的实现方式中，示例性的，控制器可以将A ₁₁加载到PE ₁₁的寄存器中、A ₁₂加载到PE ₁₂的寄存器中、A ₁₃加载到PE ₁₃的寄存器中、A ₂₁加载到PE ₂₁的寄存器中…A ₃₃加载到PE ₃₃的寄存器中，也就是说，第一矩阵中元素的下标可以与其所处的处理元件的下标完全相同，上述行下标差值和列下标差值都为0。在本示例中，控制器将第二矩阵的第一行元素B ₁₁、B ₁₂、B ₁₃存储至处理元件的寄存器之后，控制器控制处理元件采用乘法器对各自的寄存器中的元素求乘积得到元素乘积，控制器可以控制每一列处理元件将计算得到的元素乘积移动到该列的一个处理元件中，比如说，控制器可以控制PE ₁₁、PE ₂₁和PE ₃₁将计算得到的元素乘积B ₁₁×A ₁₁、B ₁₂×A ₂₁、B ₁₃×A ₃₁移动到处理元件PE ₄₁中，控制PE ₁₄采用加法器对上述元素乘积求和得到C ₁₁，需要说明的是，控制器也可以控制第一行的处理元件将元素乘积移动到PE ₁₁、PE ₂₁或者PE ₃₁中，本公开对此不作限定。控制器控制第二行和第三行的处理元件执行类似的操作后，可以得到第一中间结果C ₁₁、C ₁₂、C ₁₃。

针对第二矩阵中的每一行，重复以上过程可以得到第一中间结果：C ₂₁、C ₂₂、C ₂₃和C ₃₁、C ₃₂、C ₃₃。利用上述第一中间结果即可得到第一矩阵和第二矩阵的乘积

在一种可能的实现方式中，对于得到的第一中间结果，可以按列存储即可得到第一矩阵和第二矩阵的乘积。

需要说明的是，以上示例中的处理元件的排列、输入矩阵等仅仅是为了清楚说明本公开运算方法的过程，不以任何方式限制本公开。

根据本公开上述各实施方式的矩阵乘的运算方法，对于满足处理元件的排列的任意规模的输入矩阵，可以得到矩阵乘法的运算结果。

对于不进行分块的情况，根据上述示例可以直接得到矩阵乘的结果。

根据本公开上述各实施方式的矩阵乘的运算方法，更适用于以阵列排布的处理元件组成的处理器，相比于相关技术中的矩阵乘运算可以减少访存次数，降低带宽压力，提高运算的效率。对于需要进行分块的情况，对于分块后的第一矩阵和第二矩阵(可以是分块得到的，也可以是直接将另一个矩阵作为第二矩阵)，根据第一矩阵和对应的第二矩阵的乘积，按照矩阵乘的规则计算所述左乘矩阵和所述右乘矩阵的乘积。也就是说，可以将分块后得到的第一矩阵和第二矩阵作为矩阵的一个元素，按照矩阵乘的规则执行矩阵乘法的运算过程得到第二中间结果，根据第二中间结果进行计算可以得到所述输入矩阵的乘积。

图1-5示出根据本公开一实施例的分块的示意图。如图1-5所示，将矩阵D和E按照以上所述的方式进行分块得到第一矩阵D ₁₁、D ₁₂、D ₂₁、D ₂₂，以及第二矩阵E ₁₁、E ₁₂、E ₂₁、E ₂₂。可以将第一矩阵和第二矩阵作为矩阵的一个元素执行矩阵乘法的运算过程，例如，矩阵D第一行乘以矩阵E第一列为F ₁₁＝D ₁₁×E ₁₁+D ₁₂×E ₂₁，矩阵D第一行乘以矩阵E第二列为F ₁₂＝D ₁₁×E ₁₂+D ₁₂×E ₂₂，矩阵D第二行乘以矩阵E第一列为F ₂₁＝D ₂₁×E ₁₁+D ₂₂×E ₂₁，矩阵D第二行乘以矩阵E第二列为F ₂₂＝D ₂₁×E ₁₂+D ₂₂×E ₂₂。也就是说，为了得到最终的矩阵乘法的运算结果，需要先得到第二中间结果：

D ₁₁×E ₁₁，D ₁₂×E ₂₁，D ₁₁×E ₁₂，D ₁₂×E ₂₂，

D ₂₁×E ₁₁，D ₂₂×E ₂₁，D ₂₁×E ₁₂，D ₂₂×E ₂₂。

具体计算第二中间结果的过程可以通过将对应的第一矩阵和第二矩阵分别按照步骤S1-11-步骤S1-13的过程进行运算得到。

通过对输入矩阵进行分块，并针对分块后的矩阵分别进行本公开的矩阵乘法运算得到第二中间结果，利用矩阵乘的规则根据第二中间结果可以计算得到输入矩阵的乘积。根据本公开上述实施方式的运算方法，对于任何维度的矩阵都可以快速的实现矩阵相乘的过程，运算效率高。

对于进行分块的情况，如果处理元件包含的寄存器的数量可以满足存储输入矩阵的需求，那么还可以采用堆叠存储的方式将输入矩阵存储到处理元件的寄存器中，来实现输入矩阵的乘法运算。比如说，每个处理元件中可以包括多个寄存器，控制器可以将处理元件中的寄存器分为多组寄存器，那么，所述处理器包括多组寄存器，每组寄存器用于存储分块后的一个第一矩阵。因此，在一种可能的实现方式中，控制器可以根据对输入矩阵分块的方式对处理元件的寄存器进行分组得到多组寄存器。

在本实施方式中，本公开的运算方法还可以包括：

在对所述输入矩阵进行分块后，控制器在所述多组寄存器中堆叠存储所述两个以上第一矩阵，每组寄存器存储一个第一矩阵。

在另一种可能的实现方式中，控制器也可以每次存储一个第一矩阵，参照图1-5的示例，根据第二中间结果计算输入矩阵的乘积。

按照步骤S1-11-步骤S1-13的过程执行第一矩阵和与第一矩阵对应的第二矩阵的矩阵乘法运算得到第二中间结果，根据第二中间结果计算输入矩阵的乘积。其中，与第一矩阵对应的第二矩阵可以是指根据矩阵乘法规则左乘矩阵/右乘矩阵分块得到的矩阵中需要与第一矩阵进行乘法运算的矩阵。

示例1-3 堆叠存储结合步骤S1-11-步骤S1-13

举例来说，以处理元件为2×2的阵列，输入矩阵都为4×4矩阵为例对本公开的运算方法进行说明。

假设左乘矩阵

右乘矩阵为

那么，在一示例中，可以将左乘矩阵和右乘矩阵都划分为2×2的矩阵。需要说明的是，以上分块方式仅仅是本公开的一个示例，还可以采用其他方式进行分块，本公开对此不作限定。

图1-6示出根据本公开一实施例的对矩阵划分的示例。如图1-6所示，可以将左乘矩阵和右乘矩阵都划分为2×2的子矩阵，左乘矩阵划分后得到四个第一矩阵a ₁₁、a ₁₂、a ₂₁、a ₂₂，其中，a ₁₁为

a ₁₂为

a ₂₁为

a ₂₂为

右乘矩阵划分后得到四个第二矩阵b ₁₁、b ₁₂、b ₂₁、b ₂₂，其中，b ₁₁为

b ₁₂为

b ₂₁为

b ₂₂为

以采用步骤S1-11-步骤S1-13的过程计算第二中间结果为例，假设处理元件为2×2的阵列，以图1-6所示的示例为例，对于本公开的运算方法，可以加载第一矩阵，加载的结果如表1-1所示。其中，Reg0、Reg1、Reg2和Reg3分别表示处理元件中上的一组寄存器，处理元件为2×2的阵列，每个处理元件都包括多个寄存器，在进行数据存储时用位于同一组的寄存器存储一个第一矩阵如表1-1所示。

在一种可能的实现方式中，根据步骤S1-12的方式对第一矩阵和对应的第二矩阵进行处理：Reg0存储a ₁₁、将b ₁₁的第一列存储到a ₁₁的第一行和第二行所在的处理元件的寄存器中，Reg1存储a ₁₂、将b ₂₁的第一列存储到a ₁₂的第一行和第二行所在的处理元件的寄存器中，Reg2存储a ₂₁、将b ₁₂的第一列存储到a ₂₁的第一行和第二行所在的处理元件的寄存器中，Reg3存储a ₂₂、将b ₂₂的第一列存储到a ₂₂的第一行和第二行所在的处理元件的寄存器中，如表1-2所示。

然后处理器中的控制器控制处理元件分别对对应的寄存器内存储的元素求乘积得到元素乘积，然后计算每一行元素乘积的和得到第一中间结果(具体过程，可以如上文的示例所述，不再赘述)。对于b ₁₁、b ₁₂、b ₂₁、b ₂₂的第二列，采用类似的方式进行存储并计算乘积得到元素乘积，按行求和得到第一中间结果。将第一中间结果进行处理可以得到第二中间结果a ₁₁×b ₁₁、a ₁₂×b ₂₁、a ₂₁×b ₁₂以及a ₂₂×b ₂₂。

表1-1 元素存储示例

表1-2 元素存储示例

也就是说，在计算过程中，对于每一组寄存器内的元素，控制器可以控制处理元件计算得到第二中间结果a ₁₁×b ₁₁、a ₁₂×b ₂₁、a ₂₁×b ₁₂以及a ₂₂×b ₂₂。具体过程不再赘述。根据第二中间结果a ₁₁×b ₁₁、a ₁₂×b ₂₁、a ₂₁×b ₁₂以及a ₂₂×b ₂₂，控制器可以控制处理元件计算得到C ₁₁＝a ₁₁×b ₁₁+a ₁₂×b ₂₁，C ₂₂＝a ₂₁×b ₁₂+a ₂₂×b ₂₂。

根据以上过程，控制器还可以控制处理元件根据步骤S1-11-步骤S1-13的过程计算得到第二中间结果a ₁₁×b ₁₂、a ₁₂×b ₂₂、a ₂₁×b ₁₁以及a ₂₂×b ₂₁：将b ₁₁的第一列存储到a ₂₁的第一行和第二行所在的处理元件的寄存器中，将b ₂₁的第一列存储到a ₂₂的第一行和第二行所在的处理元件的寄存器中，将b ₁₂的第一列存储到a ₁₁的第一行和第二行所在的处理元件的寄存器中，将b ₂₂的第一列存储到a ₁₂的第一行和第二行所在的处理元件的寄存器中，然后处理器中的控制器控制处理元件分别对对应的寄存器内存储的元素求乘积得到元素乘积，然后计算每一行元素乘积的和得到第一中间结果；对b ₁₁、b ₁₂、b ₂₁、b ₂₂的第二列，采用类似的方式进行存储并计算乘积，按行求和得到第一中间结果，将第一中间结果进行处理可以得到第二中间结果a ₁₁×b ₁₂、a ₁₂×b ₂₂、a ₂₁×b ₁₁以及a ₂₂×b ₂₁。根据第二中间结果a ₁₁×b ₁₂、a ₁₂×b ₂₂、a ₂₁×b ₁₁以及a ₂₂×b ₂₁可以计算得到C ₁₂＝a ₁₁×b ₁₂+a ₁₂×b ₂₂，C ₂₁＝a ₂₁×b ₁₁+a ₂₂×b ₂₁。

在另一种可能的实现方式中，如表1-3所示，在步骤S1-12中，控制器还可以先将b ₁₁的第一列存储到a ₁₁的第一行和第二行所在的处理元件的寄存器中、a ₂₁的第一行和第二行所在的处理元件的寄存器中，将b ₂₁的第一列存储到a ₁₂的第一行和第二行所在的处理元件的寄存器中、a ₂₂的第一行和第二行所在的处理元件的寄存器中。

表1-3 元素存储示例

对于表1-3的示例，处理器中的控制器控制处理元件分别对对应的寄存器内存储的元素求乘积得到元素乘积，然后计算每一行元素乘积的和得到第一中间结果。对于b ₁₁、b ₂₁的第二列，采用类似的方式进行存储并计算乘积得到元素乘积，按行求和得到第一中间结果。控制器可以控制处理元件根据第一中间结果计算得到第二中间结果a ₁₁×b ₁₁、a ₁₂×b ₂₁、a ₂₁×b ₁₁以及a ₂₂×b ₂₁。

对于b ₁₂、b ₂₂也可以重复上述过程得到第二中间结果a ₁₁×b ₁₂、a ₁₂×b ₂₂、a ₂₁×b ₁₂以及a ₂₂×b ₂₂。具体过程不再赘述。

根据第二中间结果可以计算得到输入矩阵的乘积。

根据以上过程，可以采用分块的方式计算得到输入矩阵的乘积。因此，根据本公开的矩阵乘的运算方法可以实现任意大小规模的矩阵运算。并且，相比于相关技术中的矩阵乘运算可以减少访存次数，降低带宽压力，提高运算的效率。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作处理，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本公开所必须的。

进一步需要说明的是，虽然流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本公开还提供了一种处理器。图1-1所示为处理器的一个示例，处理器可以包括两个以上处理元件，两个以上处理元件以二维矩阵排列，每个处理元件包括至少一个寄存器，所述处理器用于实现对第一矩阵和第二矩阵的矩阵乘法运算。

在一种可能的实现方式中，所述处理器还包括控制器，所述控制器用于将第一矩阵加载到处理元件的寄存器中；

针对第二矩阵的每一行，所述控制器用于将所述每一行中的元素存储到第一矩阵的每一列元素存储的处理元件的寄存器，与第一矩阵的每一列中的元素分别求乘积，计算一列乘积的和得到第一中间结果；或者，针对第二矩阵的每一列，所述控制器用于将所述每一列中的元素存储到第一矩阵的每一行元素存储的处理元件的寄存器，与第一矩阵的每一行中的元素分别求乘积，计算一行乘积的和得到第一中间结果；

其中的第一矩阵可以是对待加载矩阵分块后得到的多个第一矩阵中的一个，待加载矩阵可以为左乘矩阵或者右乘矩阵。输入矩阵中除了待加载矩阵以外的另一个矩阵为第二矩阵。

第一矩阵也可以不是分块后的矩阵，例如，第一矩阵可以为输入矩阵中的左乘矩阵或者右乘矩阵，第二矩阵为输入矩阵中的另一个矩阵。

也就是说，在一种可能的实现方式中，本公开的处理器的控制器还可以根据处理元件的排列，从输入矩阵中确定不需要进行分块的矩阵为第一矩阵，输入矩阵中的另一矩阵为第二矩阵，输入矩阵包括左乘矩阵和右乘矩阵。

在一种可能的实现方式中，第一矩阵为左乘矩阵、第二矩阵为右乘矩阵，针对第二矩阵中的每一列元素，所述控制器用于将该列元素中的每个元素存储至第一矩阵中对应的一列元素存储的处理元件的寄存器，控制每一个处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，计算每一行元素乘积的和得到第一中间结果，其中，第一矩阵中与所述每个元素对应的一列元素是指，该元素在所述第二矩阵中的行数与一列元素的列数相同。

在另一种可能的实现方式中，第一矩阵为右乘矩阵、第二矩阵为左乘矩阵，针对第二矩阵中的每一行元素，所述控制器用于将该行元素中的每个元素存储至第一矩阵中对应的一行元素存储的处理元件的寄存器，控制每一个处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，计算每一列元素乘积的和得到第一中间结果，其中，第一矩阵中与所述每个元素对应的一行元素是指，该元素在所述第二矩阵中的列数与一行元素所在的行数相同。

针对上述两种实施方式，对于不分块的具体的示例可以参见上文运算方法部分的描述，不再赘述。

在另一种可能的实现方式中，控制器还用于从输入矩阵中确定待加载矩阵；其中，输入矩阵包括左乘矩阵和右乘矩阵，待加载矩阵为左乘矩阵或右乘矩阵；根据处理元件的排列以及待加载矩阵的行秩以及列秩确定是否对待加载矩阵进行分块；若要对待加载矩阵进行分块，则所述控制器用于根据待处理元件的排列以及待加载矩阵的行秩以及列秩对待加载矩阵进行分块得到两个以上第一矩阵。

在该实施方式中，所述控制器还用于根据对待加载矩阵分块的方式，对输入矩阵中除了待加载矩阵以外的另一个矩阵进行分块得到两个以上第二矩阵；在该实施方式中，所述处理器包括多组寄存器，在对所述输入矩阵进行分块后，所述控制器还用于在所述多组寄存器中堆叠存储所述两个以上第一矩阵，每组存储一个第一矩阵。在该实施方式中，控制器还可以根据第一矩阵和对应的第二矩阵的乘积，按照矩阵乘的规则计算所述左乘矩阵和所述右乘矩阵的乘积。

针对上述分块的具体示例，可以参见上文中关于图1-5和图1-6部分的描述，不再赘述。

本公开实施例还提出一种人工智能芯片，所述芯片包括如上所述的处理器。

在一种可能的实现方式中，还公开了一种板卡，其包括存储器件、接口装置和控制器件以及上述人工智能芯片；其中，所述人工智能芯片与所述存储器件、所述控制器件以及所述接口装置分别连接；所述存储器件，用于存储数据；所述接口装置，用于实现所述人工智能芯片与外部设备之间的数据传输；所述控制器件，用于对所述人工智能芯片的状态进行监控。

依据以下条款可更好地理解前述内容：

条款A1.一种基于处理元件矩阵的矩阵乘的运算方法，应用于处理器，所述处理器包括两个以上处理元件，所述两个以上处理元件以二维矩阵排列，处理元件包括至少一个寄存器，所述方法实现对第一矩阵和第二矩阵的矩阵乘法运算，

所述方法包括：

将第一矩阵加载到处理元件的寄存器中；

针对第二矩阵的每一行，将所述每一行中的元素存储到第一矩阵的每一列元素存储的处理元件的寄存器，与第一矩阵的每一列中的元素分别求乘积，计算一列乘积的和得到第一中间结果；或者，针对第二矩阵的每一列，将所述每一列中的元素存储到第一矩阵的每一行元素存储的处理元件的寄存器，与第一矩阵的每一行中的元素分别求乘积，计算一行乘积的和得到第一中间结果；

将第一中间结果进行处理得到第一矩阵和第二矩阵的乘积。

条款A2.根据条款A1所述的方法，第一矩阵为左乘矩阵、第二矩阵为右乘矩阵，

针对第二矩阵中的每一列元素，将该列元素中的每个元素存储至第一矩阵中对应的一列元素存储的处理元件的寄存器，控制每一个处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，计算每一行元素乘积的和得到第一中间结果，

其中，第一矩阵中与所述每个元素对应的一列元素是指，该元素在所述第二矩阵中的行数与一列元素的列数相同。

条款A3.根据条款A1所述的方法，第一矩阵为右乘矩阵、第二矩阵为左乘矩阵，

针对第二矩阵中的每一行元素，将该行元素中的每个元素存储至第一矩阵中对应的一行元素存储的处理元件的寄存器，控制每一个处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，计算每一列元素乘积的和得到第一中间结果，

其中，第一矩阵中与所述每个元素对应的一行元素是指，该元素在所述第二矩阵中的列数与一行元素所在的行数相同。

条款A4.根据条款A1-A3任意一项所述的方法，所述方法还包括：

根据处理元件的排列，从输入矩阵中确定不需要进行分块的矩阵为第一矩阵，输入矩阵中的另一矩阵为第二矩阵。

条款A5.根据条款A1-A3任意一项所述的方法，所述方法还包括：

从输入矩阵中确定待加载矩阵；其中，输入矩阵包括左乘矩阵和右乘矩阵，待加载矩阵为左乘矩阵或右乘矩阵；

根据处理元件的排列以及待加载矩阵的行秩以及列秩确定是否对待加载矩阵进行分块；其中，待加载矩阵为左乘矩阵或右乘矩阵；

若要对待加载矩阵进行分块，则根据待处理元件的排列以及待加载矩阵的行秩以及列秩对待加载矩阵进行分块得到两个以上第一矩阵。

条款A6.根据条款A5所述的方法，所述方法还包括：

根据对待加载矩阵分块的方式，对输入矩阵中除了待加载矩阵以外的另一个矩阵进行分块得到两个以上第二矩阵；

根据第一矩阵和对应的第二矩阵的乘积，按照矩阵乘的规则计算所述左乘矩阵和所述右乘矩阵的乘积。

条款A7.根据条款A5所述的方法，所述处理器包括多组寄存器，所述方法还包括：

在对所述输入矩阵进行分块后，在所述多组寄存器中堆叠存储所述两个以上第一矩阵，每组存储一个第一矩阵。

条款A8.一种处理器，所述处理器包括两个以上处理元件，所述两个以上处理元件以二维矩阵排列，处理元件包括至少一个寄存器，所述处理器用于对第一矩阵和第二矩阵执行矩阵乘法运算，

条款A9.根据条款A8所述的处理器，第一矩阵为左乘矩阵、第二矩阵为右乘矩阵，

针对第二矩阵中的每一列元素，所述控制器用于将该列元素中的每个元素存储至第一矩阵中对应的一列元素存储的处理元件的寄存器，控制每一个处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，计算每一行元素乘积的和得到第一中间结果，

条款A10.根据条款A8所述的处理器，第一矩阵为右乘矩阵、第二矩阵为左乘矩阵，

针对第二矩阵中的每一行元素，所述控制器用于将该行元素中的每个元素存储至第一矩阵中对应的一行元素存储的处理元件的寄存器，控制每一个处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，计算每一列元素乘积的和得到第一中间结果，

条款A11.根据条款A8-A10任意一项所述的处理器，所述处理器还用于根据处理元件的排列，从输入矩阵中确定不需要进行分块的矩阵为第一矩阵，输入矩阵中的另一矩阵为第二矩阵，输入矩阵包括左乘矩阵和右乘矩阵。

条款A12.根据条款A8-A10任意一项所述的处理器，所述控制器还用于从输入矩阵中确定待加载矩阵；其中，输入矩阵包括左乘矩阵和右乘矩阵，待加载矩阵为左乘矩阵或右乘矩阵；根据处理元件的排列以及待加载矩阵的行秩以及列秩确定是否对待加载矩阵进行分块；

若要对待加载矩阵进行分块，则所述控制器用于根据待处理元件的排列以及待加载矩阵的行秩以及列秩对待加载矩阵进行分块得到两个以上第一矩阵。

条款A13.根据条款A12所述的处理器，所述控制器还用于根据对待加载矩阵分块的方式，对输入矩阵中除了待加载矩阵以外的另一个矩阵进行分块得到两个以上第二矩阵；根据第一矩阵和对应的第二矩阵的乘积，按照矩阵乘的规则计算所述左乘矩阵和所述右乘矩阵的乘积。

条款A14.根据条款A12所述的处理器，所述处理器包括多组寄存器，在对所述输入矩阵进行分块后，所述控制器还用于在所述多组寄存器中堆叠存储所述两个以上第一矩阵，每组存储一个第一矩阵。

条款A15.一种人工智能芯片，所述芯片包括如条款A8-A14中任意一项所述的处理器。

条款A16.一种电子设备，包括如条款A15所述的人工智能芯片。

在利用人工智能对信息进行处理的过程中，矩阵运算占用比较大的计算量，并且现有的处理器在处理矩阵运算的过程中把矩阵运算拆解成乘法运算和加法运算，需要频繁的从内存中读取数据，运算的效率很低。

为了解决上述技术问题，本公开提供了一种运算方法以及执行该运算方法的处理器。处理器可以包括多个处理元件(两个以上)，这些处理元件可以以二维矩阵的形式排列，每个处理元件可以包括至少一个寄存器。

图2-1示出根据本公开一实施例的处理器的示意图。如图2-1所示，多个处理元件PE(Processing Element)以二维矩阵的形式排列，每个处理元件与相邻的处理元件之间连接，每个PE中可以设置有至少一个寄存器(register)(图中未示出)。处理器还可以包括控制器和存储器，其中，控制器和存储器都与多个处理元件连接，且控制器可以连接存储器。所述控制器用于从存储器中加载输入数据到处理元件的寄存器中，并控制处理元件对输入数据进行处理，比如说，存储器中可以存储有第一矩阵和第二矩阵，处理器用于对第一矩阵和第二矩阵执行矩阵乘法运算，因此，控制器可以将第一矩阵和第二矩阵加载到处理元件的寄存器中，并控制处理元件执行矩阵乘法运算。

在一种可能的实现方式中，存储器中还可以存储有可执行程序，可执行程序中可以包括指令，执行指令可以实现对第一矩阵和第二矩阵的矩阵乘法运算。控制器中可以设置有加载器、译码器等，其中，加载器可以用于将存储器中的输入数据加载到处理元件的寄存器中，译码器可以根据加载后输入数据的存储地址对可执行程序中访问数据的指令进行译码，比如说，对于访问数据的指令，通过译码获得数据在寄存器中存储的地址赋值给访问数据的指令，并将译码后的指令发送给处理元件，由处理元件执行指令，从而实现对数据的处理，比如说实现对第一矩阵和第二矩阵的矩阵乘法运算。

矩阵乘法运算的输入矩阵可以包括左乘矩阵和右乘矩阵，其中，左乘矩阵可以是指位于乘号左边的矩阵，右乘矩阵可以是指位于乘号右边的矩阵。

由于处理器中PE的数量以及排列方式是固定的，因此，在向处理元件中的寄存器中加载数据并计算之前，控制器可以根据处理元件的排列以及输入矩阵的行秩以及列秩确定是否对输入矩阵进行分块。处理元件的排列可以是指处理元件的行数和列数，输入矩阵的行秩、列秩可以是指左乘矩阵以及右乘矩阵的行数和列数。

控制器根据处理元件的排列以及输入矩阵的行秩以及列秩确定是否对输入矩阵进行分块可以是指：控制器判断输入矩阵或者输入矩阵的转置的行数是否大于处理元件的行数、列数是否大于处理元件的列数，根据判断的结果确定是否对输入矩阵进行分块。

如果输入矩阵中的一个矩阵的行数不大于处理元件的行数、且列数不大于处理元件的列数，而且，输入矩阵中的另一个矩阵的转置的行数不大于处理元件的行数、且列数不大于处理元件的列数，则可以不对输入矩阵进行分块。

如果输入矩阵中的任意一个矩阵的行数大于处理元件的行数、或者列数大于处理元件的列数，或者，输入矩阵中的任意一个矩阵的转置的行数大于处理元件的行数、或者列数大于处理元件的列数，则控制器可以对输入矩阵进行分块。

举例来说，假设处理元件组成的阵列可以表示为PE _MN，表示处理元件组成一个M×N的矩阵，M表示矩阵的行数，N表示矩阵的列数，假设一个输入矩阵为A _mn，表示m×n的矩阵，m代表矩阵的行数，n代表矩阵的列数，另一个输入矩阵为B _nk，表示n×k的矩阵，n代表矩阵的行数，k代表矩阵的列数。如果矩阵A _mn的行数m不大于处理元件的行数M、且列数n不大于处理元件的列数N，而且，B _nk的转置矩阵

的行数k不大于处理元件的行数M、且列数n不大于处理元件的列数N，则可以不对输入矩阵进行分块。或者说，如果A _mn的转置矩阵

的行数n不大于处理元件的行数M、且列数m不大于处理元件的列数N，而且，B _nk的行数n不大于处理元件的行数M、且列数k不大于处理元件的列数N，则可以不对输入矩阵进行分块。

如果矩阵A _mn的行数m大于处理元件的行数M、或者列数n大于处理元件的列数N，或者矩阵B _nk的转置

的行数k大于处理元件的行数M、或列数n大于处理元件的列数N，则可以对输入矩阵进行分分块；或者，如果

的行数n大于处理元件的行数M、或列数m大于处理元件的列数N，或者，B _nk的行数n大于处理元件的行数M、或列数k大于处理元件的列数N，则可以对输入矩阵进行分块。

若要对输入矩阵中的一个矩阵进行分块，控制器可以根据处理元件的排列对左乘矩阵的行进行拆分或者对右乘矩阵的列进行拆分。

举例来说，假设处理元件组成的阵列为PE ₂₂，左乘矩阵为A ₃₂，右乘矩阵为B ₂₂，那么可以将A ₃₂拆分为A ₁₂、A ₂₂分别与B ₂₂相乘。若左乘矩阵为A ₂₂、右乘矩阵为B ₃₂，那么可以将B ₃₂拆分为B ₁₂、B ₂₂。

若要对输入矩阵中的两个矩阵都进行分块，控制器可以根据处理元件的排列以及输入矩阵的行秩和列秩对左乘矩阵列方向和右乘矩阵行方向以相同的方式进行分块。

也就是说，可以对左乘矩阵和转置后的右乘矩阵在列方向上以相同的方式进行分块，或者将转置后的左乘矩阵和右乘矩阵在行方向上以相同的方式进行分块，其中，所述相同的方式划分指的是划分后所得的第一矩阵和第二矩阵的列数或者行数是相同的，以保证能正常完成矩阵运算。

假设对左乘矩阵分块后可以得到两个以上第一矩阵，对右乘矩阵分块后可以得到两个以上第二矩阵，或者，对右乘矩阵分块后可以得到两个以上第一矩阵，对左乘矩阵分块后可以得到两个以上第二矩阵。

根据处理元件的排列以及输入矩阵的行秩和列秩对左乘矩阵列方向和右乘矩阵行方向以相同的方式进行分块，分块后得到的第一矩阵和第二矩阵都需要满足不需要再进行分块的条件，也就是说，第一矩阵和第二矩阵的转置行数不大于处理元件的行数、且列数不大于处理元件的列数，或者，第一矩阵的转置和第二矩阵的行数不大于处理元件的行数、且列数不大于处理元件的列数。

在一种可能的实现方式中，控制器可以按照划分出的第一矩阵或者第二矩阵的行秩和列秩尽量接近处理元件的行数和列数的方式进行划分，这样可以提高运算的效率，缩短运算时间。也就是说，假设处理元件为4×4的阵列，那么可以先按照划分出的矩阵为4×4的方式进行划分，这样可以最大效率的利用处理元件，提高运算效率。

举例来说，假设处理元件为2×2的阵列，输入矩阵一个为2×4矩阵、一个为4×3矩阵。划分的方式可以有很多种，图2-2a和图2-2b分别示出了多种不同的划分方式，矩阵A ₂₄在列方向和矩阵B ₄₃在行方向以相同的方式进行分块。图2-2a是划分的一个示例，矩阵A ₂₄在列方向划分为两部分，每一部分包括两列，矩阵B ₄₃在行方向划分为两部分，每一部分包括两行；图2-2b是划分的另一个示例，矩阵A ₂₄在列方向划分为三部分，其中一部分包括两列、另外两部分都包括一列，矩阵B ₄₃在行方向划分为三部分，其中一部分包括两行、另外两部分都包括一行。以上处理元件的排列以及输入矩阵的划分方式仅仅是本公开的一个示例，不以任何方式限制本公开。

对于左乘矩阵的行方向和右乘矩阵的列方向的划分方式，本公开不作具体的限定，只要划分后的矩阵都需要满足不需要再进行分块的条件即可。

根据矩阵乘法的运算规则，左乘矩阵的行中的元素与右乘矩阵的列中的元素逐个求乘积、然后求和。因此，在一种可能的实现方式中，对于不分块的情况，或者分块后的第一矩阵和对应的第二矩阵，所述控制器用于将第一矩阵的转置矩阵和第二矩阵的各元素分别加载到各处理元件的寄存器中，转置矩阵和第二矩阵对应位置的元素存储在同一处理元件的寄存器中。按照矩阵乘法规则，转置矩阵和第二矩阵对应位置的元素可以是指转置矩阵中和第二矩阵中需要进行乘法运算的元素。

在一种可能的实现方式中，控制器可以先对第一矩阵进行转置得到转置矩阵，然后将转置矩阵的元素加载到各处理元件的寄存器中，或者，在另一种可能的实现方式中，控制器也可以在加载的过程中实现对第一矩阵的转置，比如说，假设第一矩阵为右乘矩阵，那么控制器在将第一矩阵元素加载到各处理元件的寄存器的过程中，可以将第一矩阵的一列元素加载到一行处理元件的寄存器中实现对第一矩阵的转置。

在一种可能的实现方式中，转置矩阵和第二矩阵在行或者列方向对齐。具体地，如果对左乘矩阵转置，那么，加载后，第一矩阵的转置矩阵的行与第二矩阵在列方向对齐，也就是在列的方向上，转置矩阵和第二矩阵的行对齐；如果对右乘矩阵转置，那么加载后，转置矩阵的列与第二矩阵在行方向对齐，也就是说，在行的方向上，转置矩阵和第二矩阵的列对齐。

在加载完转置矩阵和第二矩阵后，所述控制器还用于控制所述转置矩阵或者第二矩阵中的元素在行方向或者列方向滚动，控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积、将同一行或同一列的元素乘积求和得到第一中间结果。具体地，控制器控制处理元件、存储在寄存器内的转置矩阵和第二矩阵重复以下过程，直到转置矩阵或第二矩阵中的元素恢复到未滚动时的位置：控制器控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，对同一行或者同一列的元素乘积求和得到第一中间结果，控制存储在寄存器中的转置矩阵或第二矩阵在行方向或列方向滚动一行或一列。

也就是说，先控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，对同一行或者同一列的元素乘积求和得到第一中间结果，然后控制转置矩阵或第二矩阵中的元素在行方向或列方向滚动一行或一列，此时可以判断滚动完之后转置矩阵或者第二矩阵中的元素与初始位置是否相同，其中，初始位置可以是指转置矩阵或第二矩阵中的元素未滚动时的位置。若判断结果为相同，那么，结束此过程。若判断结果为不同，那么再控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，对同一行或者同一列的元素乘积求和得到第一中间结果，然后控制转置矩阵或第二矩阵中的元素在行方向或列方向滚动一行或一列，判断滚动完之后转置矩阵或者第二矩阵中的元素与初始位置是否相同……，循环上述过程直到滚动完之后转置矩阵或者第二矩阵中的元素与初始位置相同。

在一个示例中，所述第一矩阵为左乘矩阵、第二矩阵为右乘矩阵。在另一个示例中，所述第一矩阵为右乘矩阵、第二矩阵为左乘矩阵。

在第一矩阵为左乘矩阵、第二矩阵为右乘矩阵时，控制器控制转置矩阵中的元素在行方向上滚动，或者控制第二矩阵的元素在行方向上滚动，控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，对同一列的元素乘积求和得到第一中间结果。

在第一矩阵为右乘矩阵、第二矩阵为左乘矩阵时，控制器控制转置矩阵中的元素在列方向上滚动、或者控制第二矩阵中的元素在列方向上滚动；控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，对同一行的元素乘积求和得到第一中间结果。

在一种可能的实现方式中，上述的滚动，每次滚动一行或者一列。在存储有矩阵的元素的处理元件之间形成闭环，由于相邻的处理元件之间是连接在一起的，因此控制器可以根据矩阵的维度确定成环的方式，比如说，如果要按行滚动(在列方向滚动)，那么，存储有矩阵的元素的第一行处理元件和最后一行处理元件连接起来，在滚动的过程中，如果向上滚动一行，那么矩阵的第一行元素从原来存储的位置滚动到最后一行元素存储的位置。若要按列滚动(在行方向上滚动)，那么，存储有矩阵的元素的第一列处理元件和最后一列处理元件连接起来，在滚动的过程中，如果向左滚动一列，那么矩阵的第一列元素从原来存储的位置滚动到最后一列元素存储的位置。上述的处理元件与处理元件的连接可以是指虚拟的连接，也就是说，并没有实际的连接线路，而是控制器记录了对应的处理器，在滚动的过程中形成闭环即可。

在转置矩阵或第二矩阵中的元素恢复到未滚动时的位置时，完成滚动和计算第一中间结果的过程之后，控制器可以对所述第一中间结果进行处理得到第一矩阵和第二矩阵的乘积。

在一种可能的实现方式中，控制器将第一中间结果按行或者按列存储，在行方向或者列方向进行滚动后得到第一矩阵和第二矩阵的乘积。具体的处理方式与进行转置的矩阵和滚动的方向有关，比如说：

在第一矩阵为右乘矩阵、第二矩阵为左乘矩阵时，对转置矩阵在列方向上向上滚动的情况下，可以将第一中间结果按列存储，并将第一中间结果中的元素在行方向上向右滚动；比如，第i行元素在行方向向右滚动i-1步；

在第一矩阵为右乘矩阵、第二矩阵为左乘矩阵时，对转置矩阵在列方向上向下滚动的情况下，可以将第一中间结果按列存储，并将第一中间结果中的元素在行方向上向左滚动；比如，第i行元素在行方向向左滚动i-1步；

在第一矩阵为左乘矩阵、第二矩阵为右乘矩阵时，对转置矩阵在行方向向左滚动的情况下，可以将第一中间结果按行存储，将第一中间结果中第i列元素在列方向向下滚动i-1步得到输入矩阵的乘积；

在第一矩阵为左乘矩阵、第二矩阵为右乘矩阵时，对转置矩阵在行方向向右滚动的情况下，可以将第一中间结果按行存储，将第一中间结果中第i列元素在列方向向上滚动i-1步得到输入矩阵的乘积。

相关技术中，对于输入矩阵规模比较大的矩阵乘法，为了提高矩阵运算的效率，通常采用多级流水线的方式实现运算的过程，但多级流水线由于每一级对输入数据中的一部分进行处理，因此，需要频繁的从内存中读取数据，频繁访问内存导致对带宽的要求较高。为了解决上述技术问题，本公开提供的处理器可以对输入矩阵进行分块后堆叠存储，同时对分块后对应的矩阵进矩阵乘法运算，可以降低访存频率，提高运算效率。

若第一矩阵是根据左乘矩阵进行分块得到的，或第二矩阵是根据右乘矩阵分块后得到的，那么，在一种可能的实现方式中，控制器还用于根据第一矩阵和第二矩阵的乘积计算左乘矩阵和右乘矩阵的乘积。也就是说，对于分块后的第一矩阵和对应的第二矩阵分别计算第一矩阵和第二矩阵的乘积，然后根据第一矩阵和第二矩阵的乘积计算左乘矩阵和右乘矩阵的乘积。这样可以降低访存频率，提高运算效率。

在另一种可能的实现方式中，所述处理器包括多组寄存器。也就是说，控制器可以根据对矩阵分块的情况，将处理元件的寄存器分为多个组。

这样，所述控制器可以在对所述输入矩阵进行分块后，将两个以上所述第一矩阵进行转置得到转置矩阵；控制器将转置矩阵、和两个以上所述第二矩阵加载到所述多组寄存器中堆叠存储，一组寄存器中存储有对应位置的转置矩阵和第二矩阵。

在每次对转置矩阵或第二矩阵中的元素在行方向或列方向滚动一次之前，控制器控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，对同一行或者同一列的元素乘积求和得到第一中间结果；在控制一组寄存器中的元素在行或列方向上滚动一行或一列转置矩阵之后，控制器还对滚动结果进行修正。

在一种可能的实现方式中，对滚动结果进行修正包括：

若在行方向上向左滚动，则修正的方式为，将滚动之后每一块转置矩阵内最后一列数据滚动到相邻的前一块转置矩阵数据的最后一列；

若在行方向上向右滚动，则修正的方式为，将滚动之后每一块转置矩阵内第一列数据滚动到相邻的后一块转置矩阵数据的第一列；

若在列方向上向上滚动，则修正的方式为，将滚动之后每一块转置矩阵内最后一行数据滚动到相邻的前一块转置矩阵数据的最后一行；

若在列方向上向下滚动，则修正的方式为，将滚动之后每一块转置矩阵内第一行数据滚动到相邻的后一块转置矩阵数据的第一行；

其中，每一块转置矩阵是指对分块之后的每一块矩阵进行转置之后的矩阵。具体的计算和修正过程将在下文的示例中详细介绍。

本公开还提供了一种运算方法，用于实现矩阵乘法运算。

对于不分块的情况，或者分块后的第一矩阵和第二矩阵，图2-3示出根据本公开一实施例的运算方法的流程图。对于不分块的情况，也可以直接把左乘矩阵作为第一矩阵、右乘矩阵作为第二矩阵，或者直接把左乘矩阵作为第二矩阵、右乘矩阵作为第一矩阵，本公开对此不作限定。

如图2-3所示，本公开提供的运算方法可以包括以下步骤：

步骤S2-11，将第一矩阵进行转置得到转置矩阵，将转置矩阵和第二矩阵加载到处理元件的寄存器中，转置矩阵和第二矩阵对应位置的元素存储在同一处理元件的寄存器中。

按照矩阵乘法规则，转置矩阵和第二矩阵对应位置的元素可以是指转置矩阵中和第二矩阵中需要进行乘法运算的元素。

步骤S2-12，控制所述转置矩阵或者第二矩阵在行方向或者列方向滚动，控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积、将同一行或同一列的元素乘积求和得到第一中间结果。

在一种可能的实现方式中，步骤S2-12具体可以包括，重复以下过程直到转置矩阵或第二矩阵中的元素恢复到未滚动时的位置：控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，对同一行或者同一列的元素乘积求和得到第一中间结果；在处理元件的矩阵中对转置矩阵或第二矩阵在行方向或列方向滚动一行或一列。

步骤S2-13，将所述第一中间结果进行处理得到所述第一矩阵和第二矩阵的乘积。

也就是说，对于步骤S2-12和步骤S2-13，先控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，对同一行或者同一列的元素乘积求和得到第一中间结果，然后控制转置矩阵或第二矩阵中的元素在行方向或列方向滚动一行或一列，此时可以判断滚动完之后转置矩阵或者第二矩阵中的元素与初始位置是否相同，其中，初始位置可以是指转置矩阵或第二矩阵中的元素未滚动时的位置。若判断结果为相同，那么，结束此过程，继续执行步骤S2-13。若判断结果为不同，那么再控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，对同一行或者同一列的元素乘积求和得到第一中间结果，然后控制转置矩阵或第二矩阵中的元素在行方向或列方向滚动一行或一列，判断滚动完之后转置矩阵或者第二矩阵中的元素与初始位置是否相同……，循环上述过程直到滚动完之后转置矩阵或者第二矩阵中的元素与初始位置相同。

在第一矩阵为左乘矩阵、第二矩阵为右乘矩阵时，步骤S2-12中控制转置矩阵中的元素在行方向上滚动，或者控制第二矩阵中的元素在行方向上滚动，控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，对同一列的元素乘积求和得到第一中间结果。

在第一矩阵为右乘矩阵、第二矩阵为左乘矩阵时，步骤S2-12中，控制转置矩阵中的元素在列方向上滚动、或者控制第二矩阵中的元素在列方向上滚动，控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，对同一行的元素乘积求和得到第一中间结果。

在一种可能的实现方式中，上述的滚动，每次滚动一行或者一列。

对于步骤S2-13，对第一中间结果进行处理可以是指：将第一中间结果按行或者按列存储，在行方向或者列方向进行滚动后得到第一矩阵和第二矩阵的乘积。具体的处理方式与进行转置的矩阵和滚动的方向有关，比如说：

在第一矩阵为右乘矩阵、第二矩阵为左乘矩阵时，对转置矩阵在列方向上向上滚动的情况下，可以将第一中间结果按列存储，将第一中间结果中的元素在行方向上向右滚动；比如，第i行元素在行方向向右滚动i-1步；

在第一矩阵为右乘矩阵、第二矩阵为左乘矩阵时，对转置矩阵在列方向上向下滚动的情况下，可以将第一中间结果按列存储，将第一中间结果中的元素在行方向上向左滚动；比如，第i行元素在行方向向左滚动i-1步；

下面将分别以第一矩阵为右乘矩阵、第二矩阵为左乘矩阵，和，第一矩阵为左乘矩阵、第二矩阵为右乘矩阵为例对步骤S2-11-步骤S2-13的过程进行说明。

示例2-1 第一矩阵为右乘矩阵、第二矩阵为左乘矩阵，也就是说，对右乘矩阵进行转置。

假设第一矩阵b _nk和第二矩阵a _mn都为3×3矩阵，处理元件组成4×4的阵列。

图2-4示出根据本公开一实施例的处理元件组成的阵列的示意图。结合图2-4以及图2-3对本公开的运算方法进行说明。

假设第一矩阵

第二矩阵

那么对第一矩阵进行转置得到的转置矩阵为

将第二矩阵加载到所述处理元件的寄存器中，可以按照第二矩阵的行和列的排列方式加载到所述处理元件的寄存器中，也就是说，第二矩阵中的元素在矩阵中的排列方式和在处理元件的寄存器中的排列方式相同。

在一种可能的实现方式中，第二矩阵中的元素在矩阵中的行列数与加载有该元素的处理元件在处理元件组成的阵列中的行列数相同。

举例来说，在一个示例中，可以将A ₁₁加载到PE ₁₁的寄存器中、A ₁₂加载到PE ₁₂的寄存器中、A ₁₃加载到PE ₁₃的寄存器中、A ₂₁加载到PE ₂₁的寄存器中…A ₃₃加载到PE ₃₃的寄存器中，也就是说，第二矩阵中元素的下标可以与其所处的处理元件的下标完全相同。

在另一个示例中，可以将A ₁₁加载到PE ₁₂的寄存器中、A ₁₂加载到PE ₁₃的寄存器中、A ₁₃加载到PE ₁₄的寄存器中、A ₂₁加载到PE ₂₂的寄存器中…A ₃₃加载到PE ₃₄的寄存器中，也就是说，第二矩阵中的元素在矩阵中的排列方式和在处理元件的寄存器中的排列方式相同。

需要说明的是，以上示例仅仅是加载第一矩阵的一些举例，不以任何方式限制本公开，本领域技术人员应当知道，只要满足第一矩阵中的元素在矩阵中的排列方式和在处理元件的寄存器中的排列方式相同即可。

可以根据加载所述第一矩阵的方式将转置矩阵加载到所述处理元件的寄存器中，或者说，加载后，第二矩阵的列与转置矩阵的列对齐，加载后转置矩阵和第二矩阵对应位置的元素存储在同一处理元件的寄存器中。

举例来说，假设将A ₁₁加载到PE ₁₁的寄存器中、A ₁₂加载到PE ₁₂的寄存器中、A ₁₃加载到PE ₁₃的寄存器中、A ₂₁加载到PE ₂₁的寄存器中…A ₃₃加载到PE ₃₃的寄存器中，也就是说，第一矩阵中元素的下标可以与其所处的处理元件的下标完全相同。那么，可以将B ₁₁加载到PE ₁₁的寄存器中、B ₂₁加载到PE ₁₂的寄存器中、B ₃₁加载到PE ₁₃的寄存器中、B ₁₂加载到PE ₂₁的寄存器中、B ₂₂加载到PE ₂₂的寄存器中、B ₃₂加载到PE ₂₃的寄存器中……B ₃₃加载到PE ₃₃的寄存器中。也就是说，将转置矩阵按照与第二矩阵列对齐的排序方式加载到处理元件的寄存器中。

在一种可能的实现方式中，也可以先加载转置矩阵再加载第二矩阵，或者同时加载，本公开对具体加载的方式不作限定，只要保证加载后转置矩阵和第二矩阵在行方向对齐，转置矩阵和第二矩阵对应位置的元素存储在同一处理元件的寄存器中即可。

在一种可能的实现方式中，在加载完输入矩阵之后，对于将右乘矩阵转置的情况，可以在列方向连接存储转置矩阵的第一行元素的处理元件和存储转置矩阵的最后一行元素的处理元件，形成环，在环内的数据可以进行流动以实现矩阵在列方向上的滚动。如图2-1所示，可以将PE ₁₁与PE ₃₁连接形成环，连接PE ₁₂和PE ₃₂可以形成环，连接PE ₁₃和PE ₃₃可以形成环。这样，当数据在环内进行流动时，如果是向上流动，那么第一行的数据将流动到第三行，第二行的数据将流动到第一行，第三行的数据将流动到第二行；如果是向下流动，那么第一行的数据将流动到第二行，第二行的数据将流动到第三行，第三行的数据将流动到第一行。

在本实施方式中，可以仅对转置矩阵进行滚动，在对转置矩阵进行第一次滚动之前，控制器可以控制处理元件对相应的寄存器内的元素进程乘法运算得到元素乘积，对同一行的元素乘积求和得到第一中间结果。以上述示例为例，控制器可以控制PE ₁₁对其内的寄存器存储的元素A ₁₁和B ₁₁进行乘法运算得到元素乘积A ₁₁×B ₁₁，同样的，控制器可以控制PE ₁₂、PE ₁₃以得到A ₁₂×B ₂₁、A ₁₃×B ₃₁，

然后控制器可以将位于同一行的元素乘积求和得到C ₁₁＝A ₁₁×B ₁₁+A ₁₂×B ₂₁+A ₁₃×B ₃₁；

通过同样的方式可以得到C ₂₂和C ₃₃。

在一种可能的实现方式中，可以将C ₁₁、C ₂₂和C ₃₃作为第一列第一中间结果暂时存储在缓存器中。该缓存器可以位于处理器中多个处理元件以外的位置。

接下来，在一种可能的实现方式中，可以对转置矩阵向上滚动一行，第一行的元素滚动到(存储有矩阵的元素的处理元件的)最后一行。或者，也可以对转置矩阵向下滚动一行，本公开对具体滚动的方向不作限定，对于本实施方式中的示例在列方向以行为单位进行滚动即可。

如图2-1所示，在进行向上滚动时，第一行的数据可以滚动到第三行，如下所示：

在一种可能的实现方式中，可以利用处理元件内多余的寄存器或者处理器中的片上缓存实现矩阵中数据的滚动过程。该实施方式适用于本公开的示例2-1和示例2-2中的滚动过程。

举例来说，以上述示例2-1为例，可以先将转置矩阵的第一行元素暂存在多余的寄存器中，控制第二行的处理元件将对应的寄存器存储的转置矩阵的第二行元素发送给第一行的处理元件，然后再控制第三行的处理元件将对应的寄存器存储的转置矩阵的第三行元素发送给第二行处理元件，最后，可以将暂存的第一行元素存储到第三行的处理元件对应的寄存器中，从而实现转置矩阵的一行数据的滚动过程。以上过程仅仅是本公开的一个示例，不以任何方式限制本公开。

再次进行控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，对同一行的元素乘积求和得到第一中间结果，a ₃₃的第一行乘以

的第二行得到C ₁₂、a ₃₃的第二行乘以

的第三行得到C ₂₃、和a ₃₃的第三行乘以

的第一行得到C ₃₁。将C ₁₂、C ₂₃和C ₃₁作为第二列第一中间结果暂时存储在缓存器中。

再次向上滚动一行转置矩阵，并对相应的寄存器内的元素进程乘法运算得到元素乘积，对同一行的元素乘积求和得到第一中间结果C ₁₃、C ₂₁和C ₃₂，将C ₁₃、C ₂₁和C ₃₂作为第三列第一中间结果暂时存储在缓存器中。

也就是说，缓存器中存储的第一中间结果为

对于步骤S2-13，对于将转置矩阵向上滚动的情况，所述将第一中间结果进行处理指的是，控制器将得到的第一中间结果按列存储，然后控制器将第一中间结果中第i行元素在行方向向右滚动i-1步得到输入矩阵的乘积，此处的滚动也是指在行的方向成闭环的滚动，存储有矩阵的元素的第一列处理元件和最后一列处理元件连接形成闭环。在滚动的过程中，如果向右滚动，那么最后一列处理元件中存储的元素滚动到第一列处理元件中。

可选地，对于步骤S2-13，对于将转置矩阵向下滚动的情况，所述将第一中间结果进行处理指的是，控制器将得到的第一中间结果按列存储，然后由控制器将第一中间结果中第i行元素在行方向向左滚动i-1步得到输入矩阵的乘积。

本领域技术人员可以理解的是，对于步骤S2-13，还可以由控制器将根据第一中间结果的行列标识将第一中间结果中的元素在行方向(例如，向右滚动或者向左滚动)滚动得到输入矩阵的乘积。在这种实施方式中，存储在寄存器中的元素都可以携带有元素在矩阵中的行列标识，在滚动的过程中，根据元素在矩阵中所处的行列标识确定第一中间结果中元素的行列标识，从而使得控制器可以根据第一中间结果的行列标识对第一中间结果中的元素在行方向进行滚动得到第一矩阵和第二矩阵的乘积。

以上述示例为例，第1行向右滚动0步，也就是不滚动。第2行向右滚动1步，也就是说C ₂₁向右滚动1步到第1列，C ₂₃向右滚动1步到第3列，C ₂₂向右滚动1步到第2列，得到的结果为：

将第3行向右滚动2步，得到的输入矩阵的乘积为：

在一种可能的实现方式中，在步骤S2-12中，还可以对第二矩阵在列方向上进行滚动，具体的过程与转置矩阵滚动的过程类似，只不过对于步骤S2-13中处理和滚动元素的方式稍有区别。本公开对具体的推导过程不再赘述，参考以上过程。

示例2-2 第一矩阵为左乘矩阵、第二矩阵为右乘矩阵，也就是说对左乘矩阵进行转置

假设第一矩阵

那么对第一矩阵进行转置的转置矩阵为

第二矩阵

将第二矩阵加载到所输出处理元件的寄存器中，加载的方式可以参见示例2-1中加载第一矩阵的方式，不再赘述，然后根据加载第二矩阵的方式将转置矩阵加载到处理元件的寄存器中，加载后，第一矩阵的转置矩阵的行与第二矩阵的行对齐。

举例来说，假设将B ₁₁加载到PE ₁₁的寄存器中、B ₁₂加载到PE ₁₂的寄存器中、B ₁₃加载到PE ₁₃的寄存器中、B ₂₁加载到PE ₂₁的寄存器中…B ₃₃加载到PE ₃₃的寄存器中，也就是说，第一矩阵中元素的下标可以与其所处的处理元件的下标完全相同。那么，可以将A ₁₁加载到PE ₁₁的寄存器中、A ₂₁加载到PE ₁₂的寄存器中、A ₃₁加载到PE ₁₃的寄存器中、A ₁₂加载到PE ₂₁的寄存器中、A ₂₂加载到PE ₂₂的寄存器中、A ₃₂加载到PE ₂₃的寄存器中……A ₃₃加载到PE ₃₃的寄存器中。也就是说，将转置矩阵按照与另一个矩阵(第二矩阵)以行对齐的排序方式加载到处理元件的寄存器中。

在一种可能的实现方式中，在加载完输入矩阵之后，对于将第一矩阵转置的情况，可以在行方向连接存储转置矩阵的第一列元素的处理元件和存储转置矩阵的最后一列元素的处理元件，形成环，在环内的数据可以进行流动，从而便于在行的方向上以列为单位进行滚动。如图2-4所示，连接PE ₁₁和PE ₁₃可以形成环，连接PE ₂₁和PE ₂₃可以形成环，连接PE ₃₁和PE ₃₃可以形成环，这样，当数据在环内进行流动时，如果是向左流动，那么第一列的数据将流动到第三列，第二列的数据将流动到第一列，第三列的数据将流动到第二列；如果是向右流动，那么第一列的数据将流动到第二列，第二列的数据将流动到第三列，第三列的数据将流动到第一列。

在本实施方式中，可以仅对转置矩阵进行滚动，在对转置矩阵进行按照列方向向左或者向右滚动第一次之前，控制器可以控制处理器元件对相应的寄存器内的元素进行乘法运算得到元素乘积，对同一列的元素乘积求和得到第一中间结果。以上述示例为例，PE ₁₁对其内的寄存器存储的元素A ₁₁和B ₁₁进行乘法运算得到元素乘积A ₁₁×B ₁₁，同样的可以得到A ₁₂×B ₂₁、A ₁₃×B ₃₁。

第一列的元素乘积求和可以得到C ₁₁＝A ₁₁×B ₁₁+A ₁₂×B ₂₁+A ₁₃×B ₃₁；

通过同样的方式可以得到第二列的元素乘积求和C ₂₂、第三列的元素乘积求和C ₃₃。

在一种可能的实现方式中，可以将C ₁₁、C ₂₂和C ₃₃作为第一行第一中间结果暂时存储在缓存器中。

接下来可以对转置矩阵向左滚动一列，第一列的元素滚动到最后一列，或者也可以向右滚动一列，本公开对此不作限定。

如图2-1所示，在进行向左滚动时，第一列的数据可以滚动到第三列，如下所示：

再次进行控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，对同一列的元素乘积求和得到第一中间结果，

的第二列乘以b ₃₃的第一列得到C ₂₁、

的第三列乘以b ₃₃的第二列得到C ₃₂、和

的第一列乘以b ₃₃的第三列得到C ₁₃。将C ₂₁、C ₃₂和C ₁₃作为第二行第一中间结果暂时存储在缓存器中。

再次向左滚动一列转置矩阵，并对相应的寄存器内的元素进程乘法运算得到元素乘积，对同一列的元素乘积求和得到第一中间结果C ₃₁、C ₁₂和C ₂₃，将C ₃₁、C ₁₂和C ₂₃作为第三行第一中间结果暂时存储在缓存器中。

也就是说，缓存器中存储的第一中间结果为

于步骤S2-13，对于将第一转置矩阵向左滚动的情况，可以将第一中间结果按行存储，可以由控制器将第一中间结果中第i列元素在列方向向下滚动i-1步得到输入矩阵的乘积。

可选地，当将第一转置矩阵向右滚动的情况，可以由控制器将第一中间结果按行存储，将第一中间结果中第i列元素在列方向向上滚动i-1步得到输入矩阵的乘积。具体步骤和向左滚动类似，在此不再赘述。

本领域技术人员可以理解的是，对于步骤S2-13，还可以由控制器将根据第一中间结果的行列标识将第一中间结果中的元素在列方向(例如，向上移或者向下移)滚动得到输入矩阵的乘积。在这种实施方式中，存储在寄存器中的元素都可以携带有元素在矩阵中的行列标识，在滚动的过程中，根据元素在矩阵中所处的行列标识确定第一中间结果中元素的行列标识，从而使得控制器可以根据第一中间结果的行列标识对第一中间结果中的元素在列方向进行滚动得到输入矩阵的乘积。

以上述示例为例，第1列向下滚动0步，也就是不滚动。第2列向下滚动1步，也就是说C ₁₂向下滚动1步到第1列，C ₃₂向下滚动1步到第3列，C ₂₂向下滚动1步到第2列，得到的结果为：

将第3列向下滚动2步，得到的输入矩阵的乘积为：

在一种可能的实现方式中，在步骤S2-12中，还可以对第二矩阵在行方向上进行滚动，具体的过程与转置矩阵滚动的过程类似，只不过对于步骤S2-13中处理和滚动元素的方式稍有区别。本公开对具体的推导过程不再赘述，参考以上过程。

根据本公开上述各实施方式的矩阵乘的运算方法，更适用于以阵列排布的处理元件组成的处理器。对于满足处理元件的排列的任意规模的输入矩阵，都可以得到矩阵乘法的运算结果，并且相比于相关技术中的矩阵乘运算可以减少访存次数，降低带宽压力，提高运算的效率。

对于不进行分块的情况，根据上述示例可以直接得到矩阵乘的结果。对于需要进行分块的情况，对于分块后的第一矩阵和第二矩阵，按照矩阵乘的规则将第一矩阵和对应的第二矩阵相乘得到的结果作为第二中间结果，也就是说可以将分块后得到的第一矩阵和第二矩阵作为矩阵的一个元素执行矩阵乘法的运算过程得到第二中间结果，根据第二中间结果进行计算可以得到所述输入矩阵的乘积。

图2-5示出根据本公开一实施例的分块的示意图。如图2-5所示，控制器可以将矩阵D和E按照以上所述的方式进行分块得到第一矩阵D ₁₁、D ₁₂、D ₂₁、D ₂₂，以及第二矩阵E ₁₁、E ₁₂、E ₂₁、E ₂₂。控制器可以将第一矩阵和第二矩阵作为矩阵的一个元素执行矩阵乘法的运算过程，例如，将矩阵D第一行乘以矩阵E第一列为F ₁₁＝D ₁₁×E ₁₁+D ₁₂×E ₂₁，将矩阵D第一行乘以矩阵E第二列为F ₁₂＝D ₁₁×E ₁₂+D ₁₂×E ₂₂，将矩阵D第二行乘以矩阵E第一列为F ₂₁＝D ₂₁×E ₁₁+D ₂₂×E ₂₁，将矩阵D第二行乘以矩阵E第二列为F ₂₂＝D ₂₁×E ₁₂+D ₂₂×E ₂₂。也就是说，为了得到最终的矩阵乘法的运算结果，需要先得到第二中间结果：

得到第二中间结果的过程可以通过将对应的第一矩阵和第二矩阵分别按照步骤S2-11-步骤S2-13的过程进行运算得到。

通过对输入矩阵进行分块，并针对分块后的矩阵分别进行本公开的矩阵乘法运算得到第二中间结果，根据第二中间结果可以计算得到输入矩阵的乘积。根据本公开上述实施方式的运算方法，对于任何维度的矩阵都可以快速的实现矩阵相乘的过程。

在一个可选地实施例中，所述分块后的第一矩阵和第二矩阵可以分别依次存储在处理元件中进行计算，也还可以堆叠存储在处理元件中。

示例2-3 堆叠存储结合步骤S2-11-步骤S2-13

假设左乘矩阵

右乘矩阵为

那么控制器可以将左乘矩阵和右乘矩阵都划分为2×2的矩阵。

图2-6示出根据本公开一实施例的对矩阵划分的示例。如图2-6所示，控制器可以将左乘矩阵和右乘矩阵都划分为2×2的子矩阵，左乘矩阵划分后得到四个矩阵a ₁₁、a ₁₂、a ₂₁、a ₂₂，其中，a ₁₁为

a ₁₂为

a ₂₁为

a ₂₂为

右乘矩阵划分后得到四个矩阵b ₁₁、b ₁₂、b ₂₁、b ₂₂，其中，b ₁₁为

b ₁₂为

b ₂₁为

b ₂₂为

对于进行分块的情况，如果处理元件包含的寄存器的数量可以满足存储输入矩阵的需求，那么还可以采用堆叠存储的方式将输入矩阵存储到处理元件的寄存器中，来实现输入矩阵的乘法运算。在采用堆叠存储的方式存储输入矩阵时，控制器可以把处理元件中的寄存器分为多个不同的组，每组存储一个分块后的第一矩阵和对应的第二矩阵，本公开对具体分组的方式不作限定，但同一组的寄存器中的每一个可以位于不同的处理元件内。

在采用堆叠存储的方式存储输入矩阵的示例中，一种可能的计算方式是，以分块得到的第一矩阵和第二矩阵为单位对矩阵进行滚动，在计算第二中间结果的过程中，采用步骤S2-11-步骤S2-13的过程进行运算。

以采用步骤S2-11-步骤S2-13的过程计算第二中间结果为例，假设以处理元件为2×2的阵列，以图2-6所示的示例为例，对于本公开的运算方法，第一矩阵可以为左乘矩阵分块得到的，也可以是右乘矩阵分块后得到的。

本公开以第一矩阵为右乘矩阵分块得到的为例，加载第二矩阵，将对应的第一矩阵转置后再加载为例对运算方法进行说明，加载的结果如表2-1和表2-2所示。其中，Reg0、Reg1、Reg2和Reg3分别表示处理元件中的一组寄存器，处理元件为2×2的阵列，每个处理器都包括多个寄存器，控制器可以将多个寄存器分为多组，以本实施例为例，可以分为4组，用位于同一组的寄存器存储一个转置矩阵和对应的第二矩阵，如表2-1和表2-2所示，Reg0存储a ₁₁和b ₁₁，Reg1存储a ₁₂和b ₂₁，Reg2存储a ₂₁和b ₁₂，Reg3存储a ₂₂和b ₂₂，也就是说，矩阵

的第一行元素乘以矩阵

的第一列元素、以及第二行元素乘以第二列元素。

表2-1 元素存储示例

表2-2 元素存储示例

在计算过程中，对于一组寄存器内的元素，处理元件可以根据步骤S2-11-步骤S2-13的过程计算得到第二中间结果a ₁₁×b ₁₁、a ₁₂×b ₂₁、a ₂₁×b ₁₂以及a ₂₂×b ₂₂。具体过程不再赘述。根据第二中间结果a ₁₁×b ₁₁、a ₁₂×b ₂₁、a ₂₁×b ₁₂以及a ₂₂×b ₂₂可以计算得到C ₁₁＝a ₁₁×b ₁₁+a ₁₂×b ₂₁，C ₂₂＝a ₂₁×b ₁₂+a ₂₂×b ₂₂。

在计算完上述第二中间结果之后，可以以组为单元对转置矩阵进行滚动。具体来说，对于转置矩阵

向上滚动一行，也就是说，将Reg2中的转置矩阵的元素滚动到Reg0中，Reg0中的转置矩阵的元素滚动到Reg2中，Reg3中的转置矩阵的元素滚动到Reg1中，Reg1中的转置矩阵的元素滚动到Reg3中，由此，可以得到表2-3。

表2-3 元素存储示例

结合表2-1和表2-3，在计算过程中，对于一组寄存器内的元素，处理元件可以根据步骤S2-11-步骤S2-13的过程计算得到第二中间结果a ₁₁×b ₁₂、a ₁₂×b ₂₂、a ₂₁×b ₁₁以及a ₂₂×b ₂₁。具体过程不再赘述。根据第二中间结果a ₁₁×b ₁₂、a ₁₂×b ₂₂、a ₂₁×b ₁₁以及a ₂₂×b ₂₁可以计算得到C ₁₂＝a ₁₁×b ₁₂+a ₁₂×b ₂₂，C ₂₁＝a ₂₁×b ₁₁+a ₂₂×b ₂₁。

根据以上过程，可以采用分块的方式计算得到输入矩阵的乘积。

因此，根据本公开的矩阵乘的运算方法可以实现任意大小规模的矩阵运算。

示例2-4 堆叠存储结合整体滚动

在另一种可能的实现方式中，还可以采用另一种滚动方式，在本实施例的滚动方式中，图2-3中的步骤S2-12可以通过以下过程实现，在每次对转置矩阵在行方向或列方向滚动一次之前，控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，对同一行(或者在对第一矩阵转置的示例中，对同一列)的元素乘积求和得到第一中间结果C ₁₁、C ₂₂、C ₃₃、C ₄₄。

由于对输入矩阵进行了分块、堆叠存储，原先的一行或者一列数据被存储在不同组的寄存器内，导致原来一行或一列连续存储的数据变成至少两行或至少两列独立的数据存储在不同组的寄存器时，存储在不同组的寄存器中的数据的下一行或下一列的首个数据与上一行或下一列数据的末尾数据在堆叠存放前是连续存放的数据，而在堆叠存放后是不连续存放的，因此，在控制一组寄存器中的元素在行或列方向上滚动一次之后，需要对滚动结果进行修正，才能得到正确的结果。具体修正的方式可以为：

针对每一块转置矩阵，在行或者列方向上滚动一次；

若在行方向上向左滚动，则修正的方式为，将滚动之后每一块内最后一列数据滚动到相邻的前一块数据的最后一列；

若在行方向上向右滚动，则修正的方式为，将滚动之后每一块内第一列数据滚动到相邻的后一块数据的第一列；

若在列方向上向上滚动，则修正的方式为，将滚动之后每一块内最后一行数据滚动到相邻的前一块数据的最后一行；

若在列方向上向下滚动，则修正的方式为，将滚动之后每一块内第一行数据滚动到相邻的后一块数据的第一行。

其中，以上所述的每一块是指每一块转置矩阵，每一块转置矩阵是指对分块之后的每一块矩阵进行转置之后的矩阵。

对于本实施例，对右乘矩阵进行了转置，在滚动过程中还是在行的方向上进行滚动，只不过由于进行了堆叠存储，存在至少两行之间的元素应该是连续的，但是在堆叠存储时被看成了独立的每行，仅仅在每一组的寄存器内的行方向进行滚动无法实现正确的滚动，还需要进行修正。

以表2-2为例，在每一组寄存器内部，向上滚动一行，滚动结果如表2-4所示，在表2-4中，一组寄存器内第一行元素滚动到最后一行。但如表2-2所示，Reg0和Reg1的第一行元素应该滚动到Reg2和Reg3的最后一行、但现在位于Reg0和Reg1的最后一行(如表2-4所示)；如表2-2所示，Reg2和Reg3的第一行元素应该滚动到Reg0和Reg1的最后一行、但现在位于Reg2和Reg3的最后一行(如表2-4所示)；也就是说，表2-4中现在Reg0和Reg1的最后一行元素应该位于Reg2和Reg3的最后一行，Reg2和Reg3的最后一行元素应该位于Reg0和Reg1的最后一行，那么交换Reg2和Reg0的最后一行元素、以及交换Reg3和Reg1的最后一行元素即可实现滚动的过程，如表2-5所示。

表2-4 元素存储示例

表2-5 元素存储示例

根据较表2-1和表2-5，控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，对同一行的元素乘积求和得到第一中间结果C ₁₂、C ₂₃、C ₃₄、C ₄₁。

重复执行上述过程中的4次计算、3次滚动即可完成矩阵乘的运算过程，根据第一中间结果可以得到输入矩阵的乘积。

在一个可选地实施例中，所述堆叠存储的方式可以根据上文中分块的方式存储，不限于每一个寄存器都存储矩阵中的一个元素，不限于所述矩阵乘的行列数是处理元件行列数的整数倍，也不限于所述堆叠存储的方法是唯一的，在所述修正过程是一样的，只需要满足在修正后原本的一行/列元素能够串联起来即可，具体堆叠存储过程在此不作限制。

需要说明的是，以上堆叠存储、滚动元素的方式仅仅是本公开的一个示例，还可以采用其他的方式实现，本公开对此不作限定。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本公开所必须的。

本公开还提供了一种基于处理元件矩阵的矩阵乘的运算装置，该运算装置可以应用于处理器。图2-1所示为处理器的一个示例，处理器可以包括两个以上处理元件，两个以上处理元件以二维矩阵排列，每个处理元件包括至少一个寄存器，所述运算装置用于实现对第一矩阵和第二矩阵的矩阵乘法运算。

应该理解，上述的装置实施例仅是示意性的，本公开的装置还可通过其它的方式实现。例如，上述实施例中所述单元/模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如，多个单元、模块或组件可以结合，或者可以集成到另一个系统，或一些特征可以忽略或不执行。

另外，若无特别说明，在本公开各个实施例中的各功能单元/模块可以集成在一个单元/模块中，也可以是各个单元/模块单独物理存在，也可以两个或两个以上单元/模块集成在一起。上述集成的单元/模块既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元/模块如果以硬件的形式实现时，该硬件可以是数字电路，模拟电路等等。硬件结构的物理实现包括但不局限于晶体管，忆阻器等等。若无特别说明，所述寄存器可以是任何适当的磁存储介质或者磁光存储介质，比如，阻变式存储器RRAM(Resistive Random Access Memory)、动态随机存取存储器DRAM(Dynamic Random Access Memory)、静态随机存取存储器SRAM(Static Random-Access Memory)、增强动态随机存取存储器EDRAM(Enhanced Dynamic Random Access Memory)、高带宽内存HBM(High-Bandwidth Memory)、混合存储立方HMC(Hybrid Memory Cube)等等。

所述集成的单元/模块如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本公开实施例还提出一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是非易失性计算机可读存储介质。

依据以下条款可更好地理解前述内容：

条款B1.一种处理器，所述处理器包括两个以上处理元件，所述两个以上处理元件以二维矩阵排列，处理元件包括至少一个寄存器，所述处理器用于对第一矩阵和第二矩阵执行矩阵乘法运算，

条款B2.根据条款B1所述的处理器，

控制器控制处理元件、存储在寄存器内的转置矩阵和第二矩阵重复以下过程，直到转置矩阵或第二矩阵中的元素恢复到未滚动时的位置：

所述控制器用于控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，对同一行或者同一列的元素乘积求和得到第一中间结果，控制存储在寄存器中的转置矩阵或第二矩阵在行方向或列方向滚动一行或一列。

条款B3.根据条款B1或B2所述的处理器，

在第一矩阵为左乘矩阵、第二矩阵为右乘矩阵时，控制器控制转置矩阵中的元素在行方向上滚动，或者控制第二矩阵中的元素在行方向上滚动；控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，对同一列的元素乘积求和得到第一中间结果；

条款B4.根据条款B1或B2所述的处理器，

所述控制器将第一中间结果按行或者按列存储，在行方向或者列方向进行滚动后得到第一矩阵和第二矩阵的乘积。

条款B5.根据条款B1-B4任意一项所述的处理器，所述控制器还用于根据处理元件的排列以及输入矩阵的行秩以及列秩确定是否对输入矩阵进行分块，其中，输入矩阵包括左乘矩阵和右乘矩阵；

若要对输入矩阵中的一个矩阵进行分块，控制器根据处理元件的排列对左乘矩阵的行进行拆分或者对右乘矩阵的列进行拆分；

若要对输入矩阵中的两个矩阵都进行分块，控制器根据处理元件的排列以及输入矩阵的行秩和列秩对左乘矩阵列方向和右乘矩阵行方向以相同的方式进行分块；

对左乘矩阵分块后得到两个以上所述第一矩阵，对右乘矩阵分块后得到两个以上所述第二矩阵，或者，对左乘矩阵分块后得到两个以上所述第二矩阵，对右乘矩阵分块后得到两个以上所述第一矩阵。

条款B6.根据条款B5所述的处理器，

所述控制器还用于根据第一矩阵和第二矩阵的乘积计算所述左乘矩阵和所述右乘矩阵的乘积。

条款B7.根据条款B5所述的处理器，所述处理器包括多组寄存器，

所述控制器还用于在对所述输入矩阵进行分块后，将两个以上所述第一矩阵进行转置得到转置矩阵；

控制器将转置矩阵、和两个以上所述第二矩阵加载到所述多组寄存器中堆叠存储，一组寄存器中存储有对应位置的转置矩阵和第二矩阵；

在每次对转置矩阵或第二矩阵中的元素在行方向或列方向滚动一次之前，控制器控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，对同一行或者同一列的元素乘积求和得到第一中间结果；

在控制一组寄存器中的元素在行或列方向上滚动一行或一列转置矩阵之后，控制器还对滚动结果进行修正。

条款B8.根据条款B7所述的处理器，对滚动结果进行修正包括：

其中，每一块转置矩阵是指对分块之后的每一块矩阵进行转置之后的矩阵。

条款B9.一种基于处理元件矩阵的矩阵乘的运算方法，应用于处理器，所述处理器包括两个以上处理元件，所述两个以上处理元件以二维矩阵排列，处理元件包括至少一个寄存器，所述方法实现对第一矩阵和第二矩阵的矩阵乘法运算，所述方法包括：

将第一矩阵进行转置得到转置矩阵，将所述转置矩阵和所述第二矩阵的各元素分别加载到各处理元件的寄存器中，所述转置矩阵和所述第二矩阵对应位置的元素存储在同一处理元件的寄存器中；

条款B10.根据条款B9所述的运算方法，控制所述转置矩阵或者第二矩阵在行方向或者列方向滚动，控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积、将同一行或同一列的元素乘积求和得到第一中间结果，包括，重复以下过程直到转置矩阵或第二矩阵中的元素恢复到未滚动时的位置：

控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，对同一行或者同一列的元素乘积求和得到第一中间结果，在处理元件的矩阵中对转置矩阵或第二矩阵在行方向或列方向滚动一行或一列。

条款B11.根据条款B9或B10所述的方法，

在第一矩阵为左乘矩阵、第二矩阵为右乘矩阵时，控制转置矩阵中的元素在行方向上滚动，或者控制第二矩阵中的元素在行方向上滚动；控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，对同一列的元素乘积求和得到第一中间结果；

在第一矩阵为右乘矩阵、第二矩阵为左乘矩阵时，控制转置矩阵中的元素在列方向上滚动、或者控制第二矩阵中的元素在列方向上滚动；控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，对同一行的元素乘积求和得到第一中间结果。

条款B12.根据条款B9或B10所述的方法，将所述第一中间结果进行处理得到所述第一矩阵和第二矩阵的乘积，包括：

将第一中间结果按行或者按列存储，在行方向或者列方向进行滚动后得到第一矩阵和第二矩阵的乘积。

条款B13.根据条款B9-B12任意一项所述的方法，所述方法还包括：

根据处理元件的排列以及输入矩阵的行秩以及列秩确定是否对输入矩阵进行分块，其中，输入矩阵包括左乘矩阵和右乘矩阵；

若要对输入矩阵中的一个矩阵进行分块，根据处理元件的排列对左乘矩阵的行进行拆分或者对右乘矩阵的列进行拆分；

若要对输入矩阵中的两个矩阵都进行分块，根据处理元件的排列以及输入矩阵的行秩和列秩对左乘矩阵列方向和右乘矩阵行方向以相同的方式进行分块；

条款B14.根据条款B13所述的方法，所述方法还包括：

根据第一矩阵和第二矩阵的乘积计算所述左乘矩阵和所述右乘矩阵的乘积。

条款B15.根据条款B13所述的方法，所述处理器包括多组寄存器，

所述方法还包括：

在对所述输入矩阵进行分块后，将两个以上所述第一矩阵进行转置得到转置矩阵；

在所述多组寄存器中堆叠存储所述转置矩阵、和两个以上所述第二矩阵，一组寄存器中存储有对应位置的转置矩阵和第二矩阵；

在每次对转置矩阵或第二矩阵中的元素在行方向或列方向滚动一次之前，控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，对同一行或者同一列的元素乘积求和得到第一中间结果；

在控制一组寄存器中的元素在行或列方向上滚动一行或一列转置矩阵之后，对滚动结果进行修正。

条款B16.根据条款B15所述的方法，对滚动结果进行修正包括：

条款B17.一种人工智能芯片，所述芯片包括如条款B1-B8中任意一项所述的处理器。

条款B18.一种电子设备，包括如条款B17所述的人工智能芯片。

矩阵运算在利用人工智能对信息进行处理的过程中占据比较大的计算量，并且现有的处理器在处理矩阵运算的过程中把矩阵运算拆解成乘法运算和加法运算逐步运算，需要频繁的从内存中读取数据，运算的效率很低。

为了解决上述技术问题，本公开提供了一种运算方法以及执行该运算方法的处理器。处理器可以包括多个处理元件，在一些实施方式中，多个处理元件可以以二维矩阵的形式排列以更好的适应矩阵运算。

图3-1示出根据本公开一实施例的处理器的示意图。如图3-1所示，处理器包括多个处理元件PE(Processing Element)以二维矩阵的形式排列，每个处理元件与相邻的处理元件之间连接，每个PE中可以设置有至少一个寄存器(register)(图中未示出)。在运算过程中，处理器可以将矩阵的元素加载到各个PE对应的寄存器中，处理器可以控制PE可以对PE内设置的寄存器存储的元素进行运算。

处理器还可以包括控制器和存储器，其中，控制器和存储器都与多个处理元件连接，且控制器可以连接存储器。所述控制器用于从存储器中加载输入数据到处理元件的寄存器中，并控制处理元件对输入数据进行处理，比如说，存储器中可以存储有第一矩阵和第二矩阵(或者左乘矩阵和右乘矩阵)，处理器用于对第一矩阵和第二矩阵执行矩阵乘法运算，因此，控制器可以将第一矩阵和第二矩阵加载到处理元件的寄存器中，并控制处理元件执行矩阵乘法运算。

在一种可能的实现方式中，存储器中还可以存储有可执行程序，可执行程序中可以包括指令，执行指令可以实现对第一矩阵和第二矩阵的矩阵乘法运算。控制器中可以设置有加载器、译码器等，其中，加载器可以用于将存储器中的输入数据加载到处理元件的寄存器中，译码器可以根据加载后输入数据的存储地址对可执行程序中访问数据的指令进行译码，比如说，对于访问数据的指令，通过译码获得输入数据在寄存器中存储的地址赋值给访问数据的指令，并将译码后的指令发送给处理元件，由处理元件执行指令，从而实现对数据的处理，比如说实现对第一矩阵和第二矩阵的矩阵乘法运算。

在一种可能的实现方式中，处理器(控制器)还可以对输入数据进行预处理得到与预处理后的输入数据，将预处理后的输入数据加载到处理元件的寄存器中，控制处理元件对预处理后的输入数据进行运算。

由于处理器中PE的数量以及排列方式是已知的，因此，在加载数据并计算之前，控制器可以先根据处理元件的排列以及输入矩阵的行秩以及列秩确定是否对输入矩阵进行分块。对于分块后的每一块矩阵进行运算得到第一中间结果，控制器可以控制处理元件根据第一中间结果计算输入矩阵的乘积。

其中，处理元件的排列可以是指处理元件的行数和列数，输入矩阵的行秩、列秩可以是指左乘矩阵以及右乘矩阵的行数和列数。

根据处理元件的排列以及输入矩阵的行秩以及列秩确定是否对输入矩阵进行分块可以是指：控制器可以判断输入矩阵的行数是否大于处理元件的行数、列数是否大于处理元件的列数，根据判断的结果确定是否对输入矩阵进行分块。

如果输入矩阵中的两个矩阵的行数都不大于处理元件的行数、且列数都不大于处理元件的列数，则控制器可以不对输入矩阵进行分块。

如果输入矩阵中的任意一个矩阵的行数大于处理元件的行数、或者列数大于处理元件的列数，则控制器可以对输入矩阵进行分块。

举例来说，假设处理元件组成的阵列为M×N的矩阵，可以表示为PE _MN，假设一个输入矩阵为m×n的矩阵，可以表示为A _mn，另一个输入矩阵为n×k的矩阵，可以表示为B _nk。如果控制器判断矩阵A _mn的行数m不大于处理元件的行数M、且列数n不大于处理元件的列数N，而且，B _nk的行数n不大于处理元件的行数M、且列数k不大于处理元件的列数N，则控制器可以不对输入矩阵进行分块。

如果矩阵A _mn的行数m大于处理元件的行数M、或者列数n大于处理元件的列数N，或者矩阵B _nk的行数n大于处理元件的行数M、或列数k大于处理元件的列数N，则控制器可以对输入矩阵进行分块。

如果要对输入矩阵进行分块，那么假设对左乘矩阵分块后可以得到两个以上第一矩阵，对右乘矩阵分块后可以得到两个以上第二矩阵。

对于分块的情况：若左乘矩阵的列数不大于处理元件的列数、右乘矩阵的行数不大于处理元件的行数，左乘矩阵的行数大于处理元件的行数，则控制器可以确定对输入矩阵中的左乘矩阵进行分块，右乘矩阵的列数大于处理元件的列数，则控制器可以确定对右乘矩阵进行分块；若要对左乘矩阵进行分块，控制器可以根据处理元件的排列对左乘矩阵的行进行拆分，若要对右乘矩阵进行分块，控制器可以根据处理元件的排列对右乘矩阵的列进行拆分。

若输入矩阵中的左乘矩阵的列数大于处理元件的列数、或者右乘矩阵的行数大于处理元件的行数，则控制器可以对输入矩阵中的两个矩阵都进行分块，由于为了使得分块后的矩阵可以进行矩阵乘法运算，只要对左乘矩阵的列进行拆分、就必须对右乘矩阵的行进行拆分，因此不管是左乘矩阵的列数大于处理元件的列数还是右乘矩阵的行数大于处理元件的行数，控制器都需要对两个矩阵进行分块；若要对输入矩阵中的两个矩阵都进行分块，控制器可以根据处理元件的排列以及输入矩阵的行秩和列秩对左乘矩阵列方向和右乘矩阵行方向以相同的方式进行分块。

举例来说，假设处理元件组成2×2的阵列为PE ₂₂，左乘矩阵为A ₃₂，右乘矩阵为B ₂₂，那么可以将左乘矩阵A ₃₂拆分为矩阵A ₁₂、矩阵A ₂₂分别与右乘矩阵B ₂₂相乘。若左乘矩阵为A ₂₂、右乘矩阵为B ₂₃，那么可以将右乘矩阵B ₂₃拆分为矩阵B ₂₁、矩阵B ₂₂。

对于要对输入矩阵中的两个矩阵都进行分块的情况，控制器可以在左乘矩阵的列方向上和右乘矩阵的行方向上以相同的方式进行分块，其中，所述相同的方式划分指的是划分后所得的第一矩阵的列数和对应的第二矩阵的行数是相同的，以保证能正常完成矩阵运算。

根据处理元件的排列以及输入矩阵的行秩和列秩对左乘矩阵列方向和右乘矩阵行方向以相同的方式进行分块，分块后得到的第一矩阵和第二矩阵都需要满足不需要再进行分块的条件，也就是说，第一矩阵和第二矩阵的行数都不大于处理元件的行数、且列数都不大于处理元件的列数。

在一种可能的实现方式中，可以按照划分出的第一矩阵或者第二矩阵的行秩和列秩尽量接近处理元件的行数和列数的方式进行划分，这样可以提高运算的效率，缩短运算时间。也就是说，假设处理元件为4×4的阵列，那么可以先按照划分出的矩阵为4×4的方式进行划分，这样可以最大效率的利用处理元件，提高运算效率。

举例来说，假设处理元件为2×2的阵列，输入矩阵一个为2×4矩阵、一个为4×3矩阵。划分的方式可以有很多种，图3-2a和图3-2b分别示出了多种不同的划分方式，矩阵A ₂₄在列方向和矩阵B ₄₃在行方向以相同的方式进行分块。图3-2a是划分的一个示例，矩阵A ₂₄在列方向划分为两部分，每一部分包括两列，矩阵B ₄₃在行方向划分为两部分，每一部分包括两行，包括图3-2a中(1)和(2)两种情况；图3-2b是划分的另一个示例，矩阵A ₂₄在列方向划分为三部分，其中一部分包括两列、另外两部分都包括一列，矩阵B ₄₃在行方向划分为三部分，其中一部分包括两行、另外两部分都包括一行。以上处理元件的排列以及输入矩阵的划分方式仅仅是本公开的一个示例，不以任何方式限制本公开。

对于左乘矩阵的行方向和右乘矩阵的列方向的划分方式，本公开不作具体的限定，只要划分后的矩阵都满足不需要再进行分块的条件即可。

对于不分块的情况，或者分块后的第一矩阵和第二矩阵，图3-3示出根据本公开一实施例的运算方法的流程图。对于不分块的情况，控制器也可以直接把左乘矩阵作为第一矩阵、右乘矩阵作为第二矩阵。图3-3所示的方法可以由处理器中的控制器执行或者控制器控制处理元件执行，如图3-3所示，本公开提供的运算方法可以包括以下步骤：

步骤S3-31，对第一矩阵和第二矩阵进行预处理得到第三矩阵和第四矩阵，其中，第三矩阵和第四矩阵对应位置的元素存储在同一处理元件的寄存器中。

其中，第三矩阵和第四矩阵都为p×p矩阵，p＝max(m,k,n)，m表示第一矩阵的行秩，n表示第二矩阵的列秩，第一矩阵的列秩和第二矩阵的行秩为k，max(m,k,n)表示取m、k、n中的最大值；

步骤S3-32，对第三矩阵和第四矩阵在行方向或者列方向进行滚动，控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积矩阵；

步骤S3-33，根据对第一矩阵和第二矩阵预处理的方式对元素乘积矩阵进行处理得到第一矩阵和第二矩阵的乘积。

对于步骤S3-31中的预处理，步骤S3-32中的不同滚动方式对应不同的预处理方式。预处理可以包括：第一预处理和第二预处理，第一预处理可以是指对第一矩阵和第二矩阵进行扩充，第二预处理可以是指对扩充后的矩阵中的元素进行滚动。

对于第一预处理的过程，控制器可以采用0对第一矩阵和第二矩阵进行扩充，具体地，假设第一矩阵为m×k、第二矩阵为k×n，控制器可以确定m、k、n三者中的最大值p，然后用0在第一矩阵和第二矩阵的下侧和/或右侧扩充形成p×p矩阵。

对于第二预处理的过程，在步骤S3-32中采用不同的滚动方式所对应的第二预处理的过程也是不同的。在一种可能的实现方式中，步骤S3-32可以包括以下过程：

步骤S3-321，控制器控制处理元件对相应的寄存器内的元素进行乘法运算得到第一元素乘积矩阵；

步骤S3-322，控制器重复(p-1)次以下过程：将第三矩阵整体向左滚动一步、将第四矩阵整体向上滚动一步，或者，将第三矩阵整体向右滚动一步、将第四矩阵整体向下滚动一步，控制处理元件对相应的寄存器内的元素进行乘法运算得到第二元素乘积矩阵。

也就是说，控制器在对第三矩阵和第四矩阵进行滚动之前，可以控制处理元件对相应的寄存器内的元素进行乘法运算得到第一元素乘积矩阵。之后，控制器可重复以下过程p-1次：将第三矩阵整体向左滚动一步、将第四矩阵整体向上滚动一步，控制处理元件对相应的寄存器内的元素进行乘法运算得到第二元素乘积矩阵；或者重复以下过程p-1次：将第三矩阵整体向右滚动一步、将第四矩阵整体向下滚动一步，控制处理元件对相应的寄存器内的元素进行乘法运算得到第二元素乘积矩阵。也就是说，执行完步骤S3-322后，控制器可以控制处理元件计算得到p-1个第二元素乘积矩阵。

对于步骤S3-322中每次将第三矩阵整体向左滚动一步、将第四矩阵整体向上滚动一步的过程，对应的第二预处理的过程可以为“将扩充后的第一矩阵的第i行向左滚动i步，将扩充后的第二矩阵的第j列向上滚动j步，其中i、j为自然数，且0≤i≤p-1，0≤j≤p-1”，而对于步骤S3-322中每次将第三矩阵整体向右滚动一步、将第四矩阵整体向下滚动一步的过程，对应的第二预处理的过程可以为“将扩充后的第一矩阵的第i行向左滚动i步、再整体向右滚动1步，将扩充后的第二矩阵的第j列向上滚动j步、再整体向下滚动1步”，或者说“将扩充后的第一矩阵的第i行向左滚动i-1步，将扩充后的第二矩阵的第j列向上滚动j-1步”。

在一种可能的实现方式中，可以在存储有矩阵的元素的处理元件之间形成闭环，由于相邻的处理元件之间是连接在一起的，因此控制器可以根据矩阵的维度确定成环的方式，比如说，如果要在列方向滚动，那么，存储有矩阵的元素的第一行处理元件和最后一行处理元件连接起来，在滚动的过程中，如果向上滚动，那么矩阵的第一行元素从原来存储的位置滚动到最后一行元素存储的位置。若要在行方向上滚动，那么，存储有矩阵的元素的第一列处理元件和最后一列处理元件连接起来，在滚动的过程中，如果向左滚动，那么矩阵的第一列元素从原来存储的位置滚动到最后一列元素存储的位置。上述的处理元件与处理元件的连接可以是指虚拟的连接，也就是说，并没有实际的连接线路，而是控制器记录了对应的处理器，在滚动的过程中形成闭环即可。

在一种可能的实现方式中，对第一矩阵和第二矩阵的预处理还可以包括加载过程，加载过程可以是在第一预处理和第二预处理之前执行，也可以是在第一预处理和第二预处理之后执行。也就是说，在本公开的实施方式中，也可以先将第一矩阵和第二矩阵加载到处理元件的寄存器中，然后对第一矩阵和第二矩阵进行第一预处理和第二预处理的过程得到第三矩阵和第四矩阵，也可以在控制器外完成对第一矩阵和第二矩阵的第一预处理和第二预处理后得到第三矩阵和第四矩阵，再将第三矩阵和第四矩阵加载到处理元件的寄存器中，本公开对此不作限定。

需要说明的是，以上步骤S3-321、步骤S3-322中的滚动和计算的过程以及对应的预处理过程仅仅是本公开的一个示例，本公开不限于此。

在一种可能的实现方式中，步骤S3-33可以包括：将第一元素乘积矩阵和多个第二元素乘积矩阵求和得到第五矩阵，根据对第一矩阵和第二矩阵预处理的方式对第五矩阵进行处理得到矩阵乘积。

其中，对于步骤S3-33中的根据对第一矩阵和第二矩阵预处理的方式对第五矩阵进行的处理，可以根据第一预处理的过程对第五矩阵进行处理，比如说，在第一矩阵和第二矩阵的右侧和下侧添加元素0形成p×p矩阵，这样，对第五矩阵的后处理可以是在第五矩阵的右侧和下侧反扩充，例如，将第五矩阵右侧和下侧的元素0去掉形成m×n矩阵。

根据本公开上述实施方式的矩阵乘的运算方法，进行矩阵乘法运算时不需要拆解运算、不需要反复读取数据，减少读取内存的次数，降低带宽压力，运算效率高。且对于任意规模的输入矩阵，都可以通过预处理的方式对输入矩阵进行变换，然后进行运算，可以得到矩阵乘法的运算结果。

应用示例

举例来说，假设第一矩阵为

第二矩阵为

由于第一矩阵为2×2、第二矩阵为2×3，也就是说m＝2，k＝2，n＝3，因此，p可以为最大值3。

对于步骤S3-31，可以先将第一矩阵和第二矩阵加载到处理元件的寄存器中，之后执行第一预处理的过程：将第一矩阵扩充为

将第二矩阵扩充为

在一种可能的实现方式中，加载时可以将第一矩阵和第二矩阵的第一行、第一列元素加载到同一个处理元件的寄存器中。例如，可以将第一矩阵加载到处理元件的第一组寄存器Reg0中，将第二矩阵加载到处理元件的第二组寄存器Reg1中。其中，Reg0中的每一个框可以表示不同处理元件中的寄存器，Reg1中的每一个框可以表示不同处理元件中的寄存器。A ₁₁和B ₁₁存储在同一个处理元件的寄存器中。这里的第一组寄存器或第二组寄存器可以是指物理上划分为不同层的一层寄存器，也可以是逻辑上划分的一组寄存器，本公开对此不作限定。

控制器还可以在行方向或者列方向连接处理元件形成闭环，比如说可以在列方向连接存储扩充后的第一矩阵和第二矩阵的第一行元素的处理元件和最后一行元素的处理元件，形成环，在环内的数据可以进行流动以实现矩阵在列方向上的滚动。或者也可以在行方向连接存储扩充后的第一矩阵和第二矩阵的第一列元素的处理元件和最后一列元素的处理元件，形成环，在环内的数据可以进行流动以实现矩阵在行方向上的滚动。

以上述示例来说，可以连接PE ₁₁与PE ₃₁形成闭环、连接PE ₁₂和PE ₃₂形成闭环、连接PE ₁₃和PE ₃₃形成闭环。这样，当数据在环内进行流动时，如果是向上流动，那么第一行的数据将流动到第三行，第二行的数据将流动到第一行，第三行的数据将流动到第二行；如果是向下流动，那么第一行的数据将流动到第二行，第二行的数据将流动到第三行，第三行的数据将流动到第一行。

还可以连接PE ₁₁和PE ₁₃形成闭环、连接PE ₂₁和PE ₂₃形成闭环、连接PE ₃₁和PE ₃₃形成闭环。这样，当数据在环内进行流动时，如果是向左流动，那么第一列的数据将流动到第三列，第二列的数据将流动到第一列，第三列的数据将流动到第二列；如果是向右流动，那么第一列的数据将流动到第二列，第二列的数据将流动到第三列，第三列的数据将流动到第一列。

第二预处理的过程：在一个示例中(示例3-1)，对于矩阵a ₃₃来说，控制器不需要对第0行滚动，控制第1行的元素依次向左滚动1步、第2行的元素依次向左滚动2步得到的第三矩阵如下：

对于矩阵b ₃₃来说，控制器不需要对第0列滚动，控制第1列的元素依次向上滚动1步，第2列的元素依次向上滚动2步得到的第四矩阵如下：

对于第二预处理的过程：在另一个示例(示例3-2)中，对于矩阵a ₃₃来说，控制器不需要对第0行滚动，控制第1行的元素依次向左滚动1步，第2行的元素依次向左滚动2步，再控制矩阵中的元素整体向右滚动1步得到的第三矩阵(或者说，控制器控制第0行向右滚动1步，控制第1行元素不滚动，控制第2行元素向左滚动1步)如下：

对于矩阵b ₃₃来说，控制器不需要对第0列滚动，控制第1列的元素依次向上滚动1步，第2列的元素依次向上滚动2步，再整体向下滚动1步得到的第四矩阵如下：

在一种可能的实现方式中，还可以在完成对第一矩阵和第二矩阵的预处理得到第三矩阵和第四矩阵后，将第三矩阵和第四矩阵加载到处理元件的寄存器中。将对应位置的第三矩阵和第四矩阵内容的元素加载到同一个处理元件的寄存器中即可，不需要对第三矩阵和第四矩阵进行转置，也就是说，将第三矩阵和第四矩阵以行列对齐的方式加载到处理元件的寄存器中。

例如，可以将第三矩阵加载到处理元件的第一组寄存器Reg0中，将第四矩阵加载到处理元件的第二组寄存器Reg1中。其中，Reg0中的每一个框可以表示不同处理元件中的寄存器，Reg1中的每一个框可以表示不同处理元件中的寄存器，如图3-1所示，结合上文所述的示例3-1中预处理得到的第三矩阵和第四矩阵，元素A ₁₁、元素B ₁₁存储的位置可以是处理元件PE ₁₁中的寄存器，元素A ₁₂、元素B ₂₂存储的位置可以是指处理元件PE ₁₂中的寄存器，元素A ₂₁、元素B ₁₃存储的位置可以是指处理元件PE ₂₃中的寄存器……。这里的第一组寄存器或第二组寄存器可以是指物理上划分为不同层的一层寄存器，也可以是逻辑上划分的一组寄存器，本公开对此不作限定。

需要说明的是，该实施例仅仅是本公开的一个示例，不以任何方式限制本公开，只要按照行列对齐的方式将第三矩阵和第四矩阵加载到处理元件的寄存器中即可。

控制处理元件对相应的寄存器内的元素进行乘法运算得到第一元素乘积矩阵，第一元素乘积矩阵可以如下所示，

A ₁₁B ₁₁	A ₁₂B ₂₂	0
A ₂₂B ₂₁	0	A ₂₁B ₁₃
0	0	0

对于步骤S3-32，仍然以示例3-1为例，将第三矩阵整体向左滚动一步可以得到

将第四矩阵整体向上滚动一步可以得到

控制处理元件对相应的寄存器内的元素进行乘法运算得到第二元素乘积矩阵，第二元素乘积矩阵可以如下所示，

A ₁₂B ₂₁	0	A ₁₁B ₁₃
0	A ₂₁B ₁₂	A ₂₂B ₂₃
0	0	0

p为3，p-1为2，因此，还需要对第三矩阵整体向左滚动一步，将第四矩阵整体向上滚动一步，

控制处理元件对相应的寄存器内的元素进行乘法运算得到第二元素乘积矩阵，

0	A ₁₁B ₁₂	A ₁₂B ₂₃
A ₂₁B ₁₁	A ₂₂B ₂₂	0
0	0	0

对于步骤S3-33，将第一元素乘积矩阵和多个第二元素乘积矩阵求和得到第五矩阵，

A ₁₁B ₁₁+A ₁₂B ₂₁	A ₁₁B ₁₂+A ₁₂B ₂₂	A ₁₁B ₁₃+A ₁₂B ₂₃
A ₂₁B ₁₁+A ₂₂B ₂₁	A ₂₁B ₁₂+A ₂₂B ₂₂	A ₂₁B ₁₃+A ₂₂B ₂₃
0	0	0

对第五矩阵进行反扩充处理(将下侧的元素0去掉)可以得到矩阵乘积。

A ₁₁B ₁₁+A ₁₂B ₂₁	A ₁₁B ₁₂+A ₁₂B ₂₂	A ₁₁B ₁₃+A ₁₂B ₂₃
A ₂₁B ₁₁+A ₂₂B ₂₁	A ₂₁B ₁₂+A ₂₂B ₂₂	A ₂₁B ₁₃+A ₂₂B ₂₃

在一种可能的实现方式中，对于上述过程中计算得到的第一元素乘积矩阵和多个第二元素乘积矩阵，可以暂存在临时缓存器中。或者，也可以将第一元素乘积矩阵和多个第二元素乘积矩阵存储在处理元件的寄存器中，比如说，存储在Reg2、Reg3、Reg4(处理元件的其他组寄存器)中，每个处理元件可以对相应寄存器内存储的元素进行相加实现第一元素乘积矩阵和多个第二元素乘积矩阵求和的过程。需要说明的是，以上仅仅是本公开的一些计算第五矩阵的示例，不以任何方式限制本公开。

根据本公开上述各实施方式的矩阵乘的运算方法，更适用于以阵列排布的处理元件组成的处理器，运算效率高。且对于满足处理元件的排列的任意规模的输入矩阵，都可以通过预处理的方式对输入矩阵进行变换，然后进行运算，可以得到矩阵乘法的运算结果。并且，相比于相关技术中的矩阵乘运算可以减少访存次数，降低带宽压力，提高运算的效率。

对于不进行分块的情况，根据上述示例可以直接得到矩阵乘的结果。对于需要进行分块的情况，对于分块后的第一矩阵和第二矩阵，按照矩阵乘的规则将第一矩阵和对应的第二矩阵相乘得到的结果作为第一中间结果，也就是说可以将分块后得到的第一矩阵和第二矩阵作为矩阵的一个元素执行矩阵乘法的运算过程得到第一中间结果，根据第一中间结果进行计算可以得到所述输入矩阵的乘积。

图3-4示出根据本公开一实施例的分块的示意图。如图3-4所示，将矩阵D和E按照以上所述的方式进行分块得到第一矩阵D ₁₁、D ₁₂、D ₂₁、D ₂₂，以及第二矩阵E ₁₁、E ₁₂、E ₂₁、E ₂₂。可以将第一矩阵和第二矩阵作为矩阵的一个元素执行矩阵乘法的运算过程，例如，矩阵D第一行乘以矩阵E第一列为F ₁₁＝D ₁₁×E ₁₁+D ₁₂×E ₂₁，矩阵D第一行乘以矩阵E第二列为F ₁₂＝D ₁₁×E ₁₂+D ₁₂×E ₂₂，矩阵D第二行乘以矩阵E第一列为F ₂₁＝D ₂₁×E ₁₁+D ₂₂×E ₂₁，矩阵D第二行乘以矩阵E第二列为F ₂₂＝D ₂₁×E ₁₂+D ₂₂×E ₂₂。也就是说，为了得到最终的矩阵乘法的运算结果，需要先得到第一中间结果：

得到第一中间结果的过程可以通过将对应的第一矩阵和第二矩阵分别按照步骤S3-31-步骤S3-34的过程进行运算得到。

通过对输入矩阵进行分块，并针对分块后的矩阵分别进行本公开的矩阵乘法运算得到第一中间结果，根据第一中间结果可以计算得到输入矩阵的乘积。根据本公开上述实施方式的运算方法，对于任何维度的矩阵都可以快速的实现矩阵相乘的过程。且相比于相关技术通过多级流水线实现运算的过程，可以减少访存次数，降低带宽压力，提高运算的效率。

示例3-3

假设处理元件为2×2的阵列，以图3-2a中第(1)种分块的方式为例说明分块计算得到第一中间结果，并根据第一中间结果计算输入矩阵的乘积的过程。

a ₁₁为

a ₁₂为

b ₁₁为

b ₂₁为

b ₁₂为

b ₂₂为

那么a ₁₁×b ₁₁根据步骤S3-31-步骤S3-33的计算过程为：

对于步骤S3-31，由于矩阵a ₁₁和矩阵a ₁₂都是2×2的矩阵，因此，不需要进行扩充。第二预处理过程可以为，对于矩阵a ₁₁来说，控制器不需要对第0行滚动，控制第1行的元素依次向左滚动1步得到的第三矩阵如下：

对于a ₁₂来说，控制器不需要对第0列滚动，控制第1列的元素依次向上滚动1步得到的第四矩阵如下：

第三矩阵和第四矩阵对应位置的元素存储在同一个处理元件的寄存器中。例如，第三矩阵存储在处理元件的第一组寄存器Reg0中，第四矩阵存储在处理元件的第二组寄存器Reg1中。元素A ₁₁、元素B ₁₁存储的位置可以是指处理元件PE ₁₁中的寄存器，元素A ₁₂、元素B ₂₂存储的位置可以是指处理元件PE ₁₂中的寄存器，元素A ₂₂、元素B ₂₁存储的位置可以是指处理元件PE ₂₁中的寄存器。

A ₁₁B ₁₁

A ₁₂B ₂₂

A ₂₂B ₂₁

A ₂₁B ₁₂

将第四矩阵整体向上滚动一步可以得到

A ₁₂B ₂₁	A ₁₁B ₁₂
A ₂₁B ₁₁	A ₂₂B ₂₂

p为2，p-1为1，因此，可以结束滚动的过程。

对于步骤S3-33，将第一元素乘积矩阵和第二元素乘积矩阵求和得到第五矩阵，

A ₁₁B ₁₁+A ₁₂B ₂₁	A ₁₂B ₂₂+A ₁₁B ₁₂
A ₂₂B ₂₁+A ₂₁B ₁₁	A ₂₁B ₁₂+A ₂₂B ₂₂

由于没有对第一矩阵和第二矩阵进行扩充，因此，也不需要进行反向扩充的过程，因此，以上结果就是a ₁₁×b ₁₁的第一中间结果。

对于a ₁₂×b ₂₁，a ₁₁×b ₁₂，a ₁₂×b ₂₂都可以采用步骤S3-31-步骤S3-33的过程得到第一中间结果，然后根据第一中间结果计算输入矩阵的乘积，计算过程为：

C ₁₁＝a ₁₁×b ₁₁+a ₁₂×b ₂₁

C ₁₂＝a ₁₁×b ₁₂+a ₁₂×b ₂₂。

以上就是根据本公开各实施方式的矩阵乘的运算方法，根据以上过程，可以采用分块的方式计算得到输入矩阵的乘积。因此，根据本公开的矩阵乘的运算方法可以实现任意大小规模的矩阵运算。

本公开还提供了一种处理器。图3-1所示为处理器的一个示例，处理器可以包括两个以上处理元件，两个以上处理元件以二维矩阵排列，每个处理元件包括至少一个寄存器，所述处理器用于实现对第一矩阵和第二矩阵的矩阵乘法运算。

所述处理器还包括控制器，所述控制器用于对第一矩阵和第二矩阵进行预处理得到第三矩阵和第四矩阵，其中，第三矩阵和第四矩阵对应位置的元素存储在同一处理元件的寄存器中，第三矩阵和第四矩阵都为p×p矩阵，p＝max(m,k,n)，m表示第一矩阵的行秩，n表示第二矩阵的列秩，第一矩阵的列秩和第二矩阵的行秩为k，p为m、k、n三者中的最大值；

在一种可能的实现方式中，所述控制器还用于控制处理元件对相应的寄存器内的元素进行乘法运算得到第一元素乘积矩阵；

所述控制器重复p-1次以下过程：将第三矩阵整体向左滚动一次、将第四矩阵整体向上滚动一次，或者，将第三矩阵整体向右滚动一次、将第四矩阵整体向下滚动一次，控制处理元件对相应的寄存器内的元素进行乘法运算得到第二元素乘积矩阵。

在一种可能的实现方式中，所述控制器用于将第一元素乘积矩阵和第二元素乘积矩阵求和得到第五矩阵，根据对第一矩阵和第二矩阵预处理的方式对第五矩阵进行处理得到第一矩阵和第二矩阵的乘积。

在一种可能的实现方式中，所述控制器对第一矩阵和第二矩阵的预处理包括：第一预处理和第二预处理，

其中，其中，所述第一预处理指：采用0扩充第一矩阵和第二矩阵的右侧和/或下侧得到p×p矩阵；

所述第二预处理指：对扩充后的p×p矩阵中的元素进行滚动。

在一种可能的实现方式中，对于将第三矩阵整体向左滚动、将第四矩阵整体向上滚动的方式，对应的第二预处理的过程为：将扩充后的第一矩阵的第i行向左滚动i步，将扩充后的第二矩阵的第j列向上滚动j步，其中i、j为自然数，且0≤i≤p-1，0≤j≤p-1。

在一种可能的实现方式中，对于将第三矩阵整体向右滚动、将第四矩阵整体向下滚动的方式，对应的第二预处理的过程为：将扩充后的第一矩阵的第i行向左滚动i-1步，将扩充后的第二矩阵的第j列向上滚动j-1步。

在一种可能的实现方式中，所述控制器还用于根据处理元件的排列以及输入矩阵的行秩以及列秩确定是否对输入矩阵进行分块，其中，输入矩阵包括左乘矩阵和右乘矩阵；

若要对左乘矩阵进行分块，控制器根据处理元件的排列对左乘矩阵的行进行拆分，若要对右乘矩阵进行分块，控制器根据处理元件的排列对右乘矩阵的列进行拆分；

在一种可能的实现方式中，若左乘矩阵的列数不大于处理元件的列数、右乘矩阵的行数不大于处理元件的行数，左乘矩阵的行数大于处理元件的行数则控制器确定对左乘矩阵进行分块，右乘矩阵的列数大于处理元件的列数，则控制器确定对右乘矩阵进行分块；

若输入矩阵中的左乘矩阵的列数大于处理元件的列数、或者右乘矩阵的行数大于处理元件的行数，则所述控制器对输入矩阵中的两个矩阵都进行分块。

在一种可能的实现方式中，所述控制器还用于按照矩阵乘的规则，根据所述第一矩阵和第二矩阵的乘积计算所述左乘矩阵和所述右乘矩阵的乘积。

对于本实施例的处理器执行矩阵乘法运算的详细过程可参见上文的方法部分，不再赘述。

本公开实施例还提出一种人工智能芯片，所述芯片包括如上所述的处理器。本公开实施例还提出一种运算装置，包括如上所述的处理器。

依据以下条款可更好地理解前述内容：

条款C1.一种基于处理元件矩阵的矩阵乘的运算方法，应用于处理器，所述处理器包括两个以上处理元件，所述两个以上处理元件以二维矩阵排列，处理元件包括至少一个寄存器，所述方法实现对第一矩阵和第二矩阵的矩阵乘法运算，所述方法包括：

对第一矩阵和第二矩阵进行预处理得到第三矩阵和第四矩阵，其中，第三矩阵和第四矩阵对应位置的元素存储在同一处理元件的寄存器中，第三矩阵和第四矩阵都为p×p矩阵，p＝max(m,k,n)，m表示第一矩阵的行秩，n表示第二矩阵的列秩，第一矩阵的列秩和第二矩阵的行秩为k，p为m、k、n三者中的最大值；

条款C2.根据条款C1所述的方法，对第三矩阵和第四矩阵在行方向或者列方向进行滚动，控制处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积矩阵，包括：

重复p-1次以下过程：将第三矩阵整体向左滚动一次、将第四矩阵整体向上滚动一次，或者，将第三矩阵整体向右滚动一次、将第四矩阵整体向下滚动一次，控制处理元件对相应的寄存器内的元素进行乘法运算得到第二元素乘积矩阵。

条款C3.根据条款C2所述的方法，根据对第一矩阵和第二矩阵预处理的方式对元素乘积矩阵进行处理得到第一矩阵和第二矩阵的乘积，包括：

条款C4.根据条款C1所述的方法，所述对第一矩阵和第二矩阵进行预处理得到第三矩阵和第四矩阵，包括：包括第一预处理和第二预处理，

其中，所述第一预处理指：采用0扩充第一矩阵和第二矩阵的右侧和/或下侧得到p×p矩阵；

所述第二预处理指：对扩充后的p×p矩阵中的元素进行滚动。

条款C5.根据条款C4所述的方法，

对于将第三矩阵整体向左滚动、将第四矩阵整体向上滚动的方式，对应的第二预处理的过程为：将扩充后的第一矩阵的第i行向左滚动i步，将扩充后的第二矩阵的第j列向上滚动j步，其中i、j为自然数，且0≤i≤p-1，0≤j≤p-1。

条款C6.根据条款C4所述的方法，

对于将第三矩阵整体向右滚动、将第四矩阵整体向下滚动的方式，对应的第二预处理的过程为：将扩充后的第一矩阵的第i行向左滚动i-1步，将扩充后的第二矩阵的第j列向上滚动j-1步。

条款C7.根据条款C1-C6任意一项所述的方法，所述方法还包括：

若要对左乘矩阵进行分块，根据处理元件的排列对左乘矩阵的行进行拆分，若要对右乘矩阵进行分块，根据处理元件的排列对右乘矩阵的列进行拆分；

条款C8.根据条款C7所述的方法，根据处理元件的排列以及输入矩阵的行秩以及列秩确定是否对输入矩阵进行分块，包括：

若左乘矩阵的列数不大于处理元件的列数、右乘矩阵的行数不大于处理元件的行数，左乘矩阵的行数大于处理元件的行数则确定对左乘矩阵进行分块，右乘矩阵的列数大于处理元件的列数则确定对右乘矩阵进行分块；

若输入矩阵中的左乘矩阵的列数大于处理元件的列数、或者右乘矩阵的行数大于处理元件的行数，则对输入矩阵中的两个矩阵都进行分块。

条款C9.根据条款C7所述的方法，所述方法还包括：按照矩阵乘的规则，根据第一矩阵和第二矩阵的乘积计算所述左乘矩阵和所述右乘矩阵的乘积。

条款C10.一种处理器，所述处理器包括两个以上处理元件，所述两个以上处理元件以二维矩阵排列，处理元件包括至少一个寄存器，所述处理器用于对第一矩阵和第二矩阵的矩阵乘法运算，所述处理器还包括控制器，所述控制器用于对第一矩阵和第二矩阵进行预处理得到第三矩阵和第四矩阵，其中，第三矩阵和第四矩阵对应位置的元素存储在同一处理元件的寄存器中，第三矩阵和第四矩阵都为p×p矩阵，p＝max(m,k,n)，m表示第一矩阵的行秩，n表示第二矩阵的列秩，第一矩阵的列秩和第二矩阵的行秩为k，p为m、k、n三者中的最大值；

条款C11.根据条款C10所述的处理器，所述控制器还用于控制处理元件对相应的寄存器内的元素进行乘法运算得到第一元素乘积矩阵；

所述控制器重复p-1次将第三矩阵整体向左滚动一次、将第四矩阵整体向上滚动一次，或者，将第三矩阵整体向右滚动一次、将第四矩阵整体向下滚动一次，控制处理元件对相应的寄存器内的元素进行乘法运算得到第二元素乘积矩阵。

条款C12.根据条款C11所述的处理器，所述控制器用于将第一元素乘积矩阵和第二元素乘积矩阵求和得到第五矩阵，根据对第一矩阵和第二矩阵预处理的方式对第五矩阵进行处理得到第一矩阵和第二矩阵的乘积。

条款C13.根据条款C10所述的处理器，所述控制器对第一矩阵和第二矩阵的预处理包括：第一预处理和第二预处理，

所述第二预处理指：对扩充后的p×p矩阵中的元素进行滚动。

条款C14.根据条款C13所述的处理器，对于将第三矩阵整体向左滚动、将第四矩阵整体向上滚动的方式，对应的第二预处理的过程为：将扩充后的第一矩阵的第i行向左滚动i步，将扩充后的第二矩阵的第j列向上滚动j步，其中i、j为自然数，且0≤i≤p-1，0≤j≤p-1。

条款C15.根据条款C13所述的处理器，对于将第三矩阵整体向右滚动、将第四矩阵整体向下滚动的方式，对应的第二预处理的过程为：将扩充后的第一矩阵的第i行向左滚动i-1步，将扩充后的第二矩阵的第j列向上滚动j-1步。

条款C16.根据条款C10-C15任意一项所述的处理器，

所述控制器还用于根据处理元件的排列以及输入矩阵的行秩以及列秩确定是否对输入矩阵进行分块，其中，输入矩阵包括左乘矩阵和右乘矩阵；

条款C17.根据条款C16所述的处理器，若左乘矩阵的列数不大于处理元件的列数、右乘矩阵的行数不大于处理元件的行数，左乘矩阵的行数大于处理元件的行数则控制器确定对左乘矩阵进行分块，右乘矩阵的列数大于处理元件的列数，则控制器确定对右乘矩阵进行分块；

条款C18.根据条款C16所述的处理器，所述控制器还用于按照矩阵乘的规则，根据所述第一矩阵和第二矩阵的乘积计算所述左乘矩阵和所述右乘矩阵的乘积。

图4示出根据本公开实施例的板卡的结构框图，参阅图4，上述板卡除了包括上述芯片189以外，还可以包括其他的配套部件，该配套部件包括但不限于：存储器件190、接口装置191和控制器件192；

所述存储器件190与所述人工智能芯片通过总线连接，用于存储数据。所述存储器件可以包括多组存储单元193。每一组所述存储单元与所述人工智能芯片通过总线连接。可以理解，每一组所述存储单元可以是DDR SDRAM(英文：Double Data Rate SDRAM，双倍速率同步动态随机存储器)。

DDR不需要提高时钟频率就能加倍提高SDRAM的速度。DDR允许在时钟脉冲的上升沿和下降沿读出数据。DDR的速度是标准SDRAM的两倍。在一个实施例中，所述存储装置可以包括4组所述存储单元。每一组所述存储单元可以包括多个DDR4颗粒(芯片)。在一个实施例中，所述人工智能芯片内部可以包括4个72位DDR4控制器，上述72位DDR4控制器中64bit用于传输数据，8bit用于ECC校验。

在一个实施例中，每一组所述存储单元包括多个并联设置的双倍速率同步动态随机存储器。DDR在一个时钟周期内可以传输两次数据。在所述芯片中设置控制DDR的控制器，用于对每个所述存储单元的数据传输与数据存储的控制。

所述接口装置与所述人工智能芯片电连接。所述接口装置用于实现所述人工智能芯片与外部设备(例如服务器或计算机)之间的数据传输。例如在一个实施例中，所述接口装置可以为标准PCIE接口。比如，待处理的数据由服务器通过标准PCIE接口传递至所述芯片，实现数据转移。在另一个实施例中，所述接口装置还可以是其他的接口，本公开并不限制上述其他的接口的具体表现形式，所述接口单元能够实现转接功能即可。另外，所述人工智能芯片的计算结果仍由所述接口装置传送回外部设备(例如服务器)。

所述控制器件与所述人工智能芯片电连接。所述控制器件用于对所述人工智能芯片的状态进行监控。具体的，所述人工智能芯片与所述控制器件可以通过SPI接口电连接。所述控制器件可以包括单片机(Micro Controller Unit，MCU)。如所述人工智能芯片可以包括多个处理芯片、多个处理核或多个处理电路，可以带动多个负载。因此，所述人工智能芯片可以处于多负载和轻负载等不同的工作状态。通过所述控制装置可以实现对所述人工智能芯片中多个处理芯片、多个处理和/或多个处理电路的工作状态的调控。

本公开实施例还提出一种电子设备，包括上述处理器。

应该理解，上述的实施例仅是示意性的，本公开的装置还可通过其它的方式实现。例如，上述实施例中所述单元/模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如，多个单元、模块或组件可以结合，或者可以集成到另一个系统，或一些特征可以忽略或不执行。

所述集成的单元/模块如果以硬件的形式实现时，该硬件可以是数字电路，模拟电路等等。硬件结构的物理实现包括但不局限于晶体管，忆阻器等等。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。上述实施例的各技术特征可以进行任意的处理，为使描述简洁，未对上述实施例中的各个技术特征所有可能的处理都进行描述，然而，只要这些技术特征的处理不存在矛盾，都应当认为是本说明书记载的范围。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的处理。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的处理。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意处理编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的处理，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的处理，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的处理来实现。

以上对本公开实施例进行了详细介绍，本文中应用了具体个例对本公开的原理及实施方式进行了阐述，以上实施例的说明仅用于帮助理解本公开的方法及其核心思想。同时，本领域技术人员依据本公开的思想，基于本公开的具体实施方式及应用范围上做出的改变或变形之处，都属于本公开保护的范围。综上所述，本说明书内容不应理解为对本公开的限制。

Claims

一种基于处理元件矩阵的矩阵乘的运算方法，其特征在于，应用于处理器，所述处理器包括两个以上处理元件，所述两个以上处理元件以二维矩阵排列，处理元件包括至少一个寄存器，所述方法实现对第一矩阵和第二矩阵的矩阵乘法运算，

所述方法包括：

将第一矩阵加载到处理元件的寄存器中；

针对第二矩阵的每一行，将所述每一行中的元素与第一矩阵的每一列元素对应存储到处理元件的寄存器，与第一矩阵的每一列中的元素分别求乘积，计算一列乘积的和得到第一中间结果；或者，针对第二矩阵的每一列，将所述每一列中的元素与第一矩阵的每一行元素对应存储到处理元件的寄存器，与第一矩阵的每一行中的元素分别求乘积，计算一行乘积的和得到第一中间结果；

将第一中间结果进行处理得到第一矩阵和第二矩阵的乘积。
根据权利要求1所述的方法，其特征在于，第一矩阵为左乘矩阵、第二矩阵为右乘矩阵，

针对第二矩阵中的每一列元素，将该列元素中的每个元素与第一矩阵中对应的一列元素存储到处理元件的寄存器，控制每一个处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，计算每一行元素乘积的和得到第一中间结果，

其中，第一矩阵中与所述每个元素对应的一列元素是指，该元素在所述第二矩阵中的行数与一列元素的列数相同。
根据权利要求1所述的方法，其特征在于，第一矩阵为右乘矩阵、第二矩阵为左乘矩阵，

针对第二矩阵中的每一行元素，将该行元素中的每个元素与第一矩阵中对应的一行元素存储到处理元件的寄存器，控制每一个处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，计算每一列元素乘积的和得到第一中间结果，

其中，第一矩阵中与所述每个元素对应的一行元素是指，该元素在所述第二矩阵中的列数与一行元素所在的行数相同。
根据权利要求1-3任意一项所述的方法，其特征在于，所述方法还包括：

根据处理元件的排列，从输入矩阵中确定不需要进行分块的矩阵为第一矩阵，输入矩阵中的另一矩阵为第二矩阵，输入矩阵包括左乘矩阵和右乘矩阵。
根据权利要求1-3任意一项所述的方法，其特征在于，所述方法还包括：

从输入矩阵中确定待加载矩阵；其中，输入矩阵包括左乘矩阵和右乘矩阵，待加载矩阵为左乘矩阵或右乘矩阵；

根据处理元件的排列以及待加载矩阵的行秩以及列秩确定是否对待加载矩阵进行分块；

若要对待加载矩阵进行分块，则根据待处理元件的排列以及待加载矩阵的行秩以及列秩对待加载矩阵进行分块得到两个以上第一矩阵。
根据权利要求5所述的方法，其特征在于，所述方法还包括：

根据对待加载矩阵分块的方式，对输入矩阵中除了待加载矩阵以外的另一个矩阵进行分块得到两个以上第二矩阵；

根据第一矩阵和对应的第二矩阵的乘积，按照矩阵乘的规则计算所述左乘矩阵和所述右乘矩阵的乘积。
根据权利要求5所述的方法，其特征在于，所述处理器包括多组寄存器，所述方法还包括：

在对所述输入矩阵进行分块后，在所述多组寄存器中堆叠存储所述两个以上第一矩阵，每组存储一个第一矩阵。
一种处理器，其特征在于，所述处理器包括两个以上处理元件，所述两个以上处理元件以二维矩阵排列，处理元件包括至少一个寄存器，所述处理器用于对第一矩阵和第二矩阵执行矩阵乘法运算，

所述处理器还包括控制器，所述控制器用于将第一矩阵加载到处理元件的寄存器中；

针对第二矩阵的每一行，所述控制器用于将所述每一行中的元素与第一矩阵的每一列元素对应存储到处理元件的寄存器，与第一矩阵的每一列中的元素分别求乘积，计算一列乘积的和得到第一中间结果；或者，针对第二矩阵的每一列，所述控制器用于将所述每一列中的元素与第一矩阵的每一行元素对应存储到处理元件的寄存器，与第一矩阵的每一行中的元素分别求乘积，计算一行乘积的和得到第一中间结果；

所述控制器还用于将第一中间结果进行处理得到第一矩阵和第二矩阵的乘积。
根据权利要求8所述的处理器，其特征在于，第一矩阵为左乘矩阵、第二矩阵为右乘矩阵，

针对第二矩阵中的每一列元素，所述控制器用于将该列元素中的每个元素与第一矩阵中对应的一列元素存储到处理元件的寄存器，控制每一个处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，计算每一行元素乘积的和得到第一中间结果，

其中，第一矩阵中与所述每个元素对应的一列元素是指，该元素在所述第二矩阵中的行数与一列元素的列数相同。
根据权利要求8所述的处理器，其特征在于，第一矩阵为右乘矩阵、第二矩阵为左乘矩阵，

针对第二矩阵中的每一行元素，所述控制器用于将该行元素中的每个元素与第一矩阵中对应的一行元素存储到处理元件的寄存器，控制每一个处理元件对相应的寄存器内的元素进行乘法运算得到元素乘积，计算每一列元素乘积的和得到第一中间结果，

其中，第一矩阵中与所述每个元素对应的一行元素是指，该元素在所述第二矩阵中的列数与一行元素所在的行数相同。
根据权利要求8-10任意一项所述的处理器，其特征在于，所述处理器还用于根据处理元件的排列，从输入矩阵中确定不需要进行分块的矩阵为第一矩阵，输入矩阵中的另一矩阵为第二矩阵，输入矩阵包括左乘矩阵和右乘矩阵。
根据权利要求8-10任意一项所述的处理器，其特征在于，所述控制器还用于从输入矩阵中确定待加载矩阵；其中，输入矩阵包括左乘矩阵和右乘矩阵，待加载矩阵为左乘矩阵或右乘矩阵；根据处理元件的排列以及待加载矩阵的行秩以及列秩确定是否对待加载矩阵进行分块；

若要对待加载矩阵进行分块，则所述控制器用于根据待处理元件的排列以及待加载矩阵的行秩以及列秩对待加载矩阵进行分块得到两个以上第一矩阵。
根据权利要求12所述的处理器，其特征在于，所述控制器还用于根据对待加载矩阵分块的方式，对输入矩阵中除了待加载矩阵以外的另一个矩阵进行分块得到两个以上第二矩阵；根据第一矩阵和对应的第二矩阵的乘积，按照矩阵乘的规则计算所述左乘矩阵和所述右乘矩阵的乘积。
根据权利要求12所述的处理器，其特征在于，所述处理器包括多组寄存器，在对所述输入矩阵进行分块后，所述控制器还用于在所述多组寄存器中堆叠存储所述两个以上第一矩阵，每组存储一个第一矩阵。
一种人工智能芯片，其特征在于，所述芯片包括如权利要求8-14中任意一项所述的处理器。
一种电子设备，其特征在于，包括如权利要求15所述的人工智能芯片。