WO2022206556A1

WO2022206556A1 - 图像数据的矩阵运算方法、装置、设备及存储介质

Info

Publication number: WO2022206556A1
Application number: PCT/CN2022/082811
Authority: WO
Inventors: 陈仲华; 李峰; 刘程浩; 刘毅; 艾通; 李昊沅; 陈其锋
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2021-03-31
Filing date: 2022-03-24
Publication date: 2022-10-06
Also published as: CN112991142A; EP4227886A1; EP4227886A4; US20230049471A1; CN112991142B

Abstract

一种图像数据的矩阵运算方法、装置、设备及存储介质，涉及计算机技术领域。所述方法包括：基于图像算子的矩阵尺寸M行N列，在所述图像数据中读取矩阵数据(220)；采用所述图像算子对应的单一计算指令对所述矩阵数据中的列数据进行计算，得到中间计算结果(240)；将所述中间计算结果复用重排为N行缓存数据(260)；采用所述单一计算指令对所述N行缓存数据中目标列的矩阵元素进行计算，得到所述矩阵数据在所述单一计算指令下的计算结果(280)；将所述计算结果输出为所述图像算子对所述矩阵数据的图像处理结果(300)。本申请提高了对于图像数据进行矩阵运算的效率。

Description

图像数据的矩阵运算方法、装置、设备及存储介质

本申请要求于2021年03月31日提交，申请号为202110349762.2、发明名称为“图像数据的矩阵运算方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请实施例中。

技术领域

本申请涉及计算机技术领域，特别涉及一种图像数据的矩阵运算方法、装置、设备及存储介质。

背景技术

在使用神经网络中的神经元对图像数据进行计算的场景中，由于神经元均为矩阵形式的算子，因此计算机需要将图像数据以矩阵的形式进行存储和计算。由于矩阵的运算过程往往计算量很大，时延严重，因此需要对矩阵运算进行优化来提升运算效率。

相关技术中提供有针对矩阵数据重排的优化方法，对源矩阵数据进行重排操作，例如将数据排为NC4HW4格式。该重排算法不仅由于数据的大规模调整会带来额外的耗时，而且对于通道数不能被4整除的矩阵，在运算时会加入额外的通道填充步骤。对于大型矩阵而言，重排算法对矩阵运算整体效率带来的提升可以抵消通道填充带来的额外耗费；而对于小型矩阵而言，通道填充带来的额外耗费对矩阵运算效率的影响非常大。

在对图像数据进行计算的场景中，如何提高小型矩阵的运算效率，是亟待解决的技术问题。

发明内容

本申请实施例提供了一种图像数据的矩阵运算方法、装置、设备及存储介质。所述技术方案如下：

根据本申请的一个方面，提供了一种图像数据的矩阵运算方法，所述方法由计算机设备执行，所述方法包括：

基于图像算子的矩阵尺寸M行N列，在所述图像数据中读取矩阵数据，M和N为正整数；

采用所述图像算子对应的单一计算指令对所述矩阵数据中的列数据进行计算，得到中间计算结果，所述中间计算结果采用行形式；

将所述中间计算结果复用重排为N行缓存数据；

采用所述单一计算指令对所述N行缓存数据中目标列的矩阵元素进行计算，得到所述矩阵数据在所述单一计算指令下的计算结果，所述目标列包含所述中间计算结果中的N个矩阵元素；

将所述计算结果输出为所述图像算子对所述矩阵数据的图像处理结果。

根据本申请的另一方面，提供了一种图像数据的矩阵运算装置，所述装置包括：

读取模块，用于基于图像算子的矩阵尺寸M行N列，在所述图像数据中读取矩阵数据，M和N为正整数；

计算模块，用于采用所述图像算子对应的单一计算指令对所述矩阵数据中的列数据进行计算，得到中间计算结果，所述中间计算结果采用行形式；

复用模块，用于将所述中间计算结果复用重排为N行缓存数据；

所述计算模块，还用于采用所述单一计算指令对所述N行缓存数据中目标列的矩阵元素进行计算，得到所述矩阵数据在所述单一计算指令下的计算结果，所述目标列包含所述中间计算结果中的N个矩阵元素；

输出模块，用于将所述计算结果输出为所述图像算子对所述矩阵数据的图像处理结果。

根据本申请的另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如本申请各个方面提供的矩阵数据的运算方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如本申请各个方面提供的图像数据的矩阵运算方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图像数据的矩阵运算方法。

在对图像数据进行计算的场景中，通过对矩阵数据的中间计算结果进行复用重排，并对复用重排后的中间计算结果进行运算得到矩阵数据的运算结果。本方法在数据重排时不需要进行通道填充，因此避免了相关技术重排算法中因为矩阵通道数不能整除4所带来的通道填充的资源耗费。虽然本方案的缓存数据中的非目标列会存在一些存储资源的耗费，但是对于通道数越小的矩阵，该非目标列的耗费越少，因此能够显著提升小型矩阵的运算效率。

附图说明

图1是本申请一个示例性实施例提供的一种3行3列的矩阵的示意图；

图2是本申请一个示例性实施例提供的一种3行3列的系数矩阵的示意图；

图3是本申请实施例提供的一种计算机设备的结构框图；

图4是本申请实施例提供的图像数据的矩阵运算架构的示意图；

图5是本申请一个示例性实施例提供的一种图像数据的矩阵运算方法的流程图；

图6是本申请一个示例性实施例提供的一种图像数据的矩阵运算方法的示意图；

图7是本申请一个示例性实施例提供的一种对中间计算结果进行复用重排的示意图；

图8是本申请一个示例性实施例提供的一种对中间计算结果进行复用重排的示意图；

图9是本申请一个示例性实施例提供的一种对中间计算结果进行复用重排的示意图；

图10是本申请一个示例性实施例提供的一种图像数据的矩阵运算方法的流程图；

图11是本申请一个示例性实施例提供的一种图像数据的矩阵运算方法的实例示意图；

图12是本申请一个示例性实施例提供的一种图像数据的矩阵运算方法的示意图；

图13是本申请一个示例性实施例提供的一种图像数据的矩阵运算方法的特殊情况示意图；

图14是本申请一个示例性实施例提供的一种图像数据的矩阵运算方法的特殊情况示意图；

图15是本申请一个示例性实施例提供的一种图像数据的矩阵运算方法的示意图；

图16是本申请一个示例性实施例提供的一种图像数据的矩阵运算方法的优化效果对比图；

图17是本申请一个示例性实施例提供的一种图像数据的矩阵运算装置的结构框图。

具体实施方式

图像算子：用于图像处理的矩阵运算操作。

矩阵数据：按照矩阵形式存储的计算机数据。

矩阵元素：是指组成矩阵的每一个数据。矩阵元素存储在计算机设备的存储器中，每个矩阵元素都有对应的存储地址。计算机设备可以通过访问矩阵元素的存储地址获取该矩阵元素。

单一计算指令：包括如下至少之一：求和指令、求最大值指令、求最小值指令以及求积指令。

求和指令用于指示将矩阵中各元素相加得到求和结果。以图1中的3行3列矩阵为例，求和指令输出的结果R0＝a0+a1+a2+b0+b1+b2+c0+c1+c2；

均值滤波指令用于指示对矩阵中的元素进行均值滤波操作得到结果，即，将矩阵中各元素相加后除以矩阵元素数量。以图1中的3行3列矩阵为例，均值滤波指令输出的结果R0＝(a0+a1+a2+b0+b1+b2+c0+c1+c2)/9；

求最大值指令用于指示比较矩阵中各元素的大小，得到最大值。以图1的3行3列矩阵为例，求最大值指令输出的结果R0＝Max(a0,a1,a2,b0,b1,b2,c0,c1,c2)；

求最小值指令用于指示比较矩阵中各元素的大小，得到最小值。以图1的3行3列矩阵为例，求最小值指令输出的结果R0＝Min(a0,a1,a2,b0,b1,b2,c0,c1,c2)；

卷积指令用于指示将矩阵中各元素分别与系数矩阵中对应位置的系数相乘后，将结果相加，再除以矩阵元素数量得到的求积结果。以图1的3行3列矩阵为例，系数矩阵为图2所示的3行3列的矩阵，则卷积指令输出的结果为R0＝(a0*k00+a1*k01+a2*k02+b0*k10+b1*k11+b2*k12+c0*k20+c1*k21+c2*k22)/9。

相关技术的矩阵重排算法对源数据进行大规模重排，额外的耗时较大；并且对于通道数不能被4整除的矩阵，在每次运算时都需要填充通道，耗费很大，对于小型矩阵的运算来说，优化提升效果不佳。本文提出的方法只需对图像数据中读取的矩阵数据的中间计算结果进行微调重排，对于卷积核越小的矩阵，额外耗费越小，针对小型矩阵有更良好的优化效果。

图3示出了本申请一个示例性实施例提供的一种计算机设备的结构示意图。该设备包括：总线101、处理器102、存储器103。

处理器102包括一个或者一个以上处理核心，处理器102通过运行软件程序以及模块，从而执行各种功能应用以及信息处理。

存储器103通过总线101与处理器102相连。

存储器103可用于存储至少一个指令，处理器102用于执行该至少一个指令，以实现下述方法实施例中的各个步骤。

可选地，存储器103还包括一个或多个寄存器104。寄存器104可用于存储通过单指令多数据流(Single Instruction Multiple Data,SIMD)指令读取到的数据、矩阵数据运算的中间计算结果，以及在滑窗处理中存储滑动窗口中的数据。

此外，存储器103可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，易失性或非易失性存储设备包括但不限于：磁盘或光盘，电可擦除可编程只读存储器(Electrically-Erasable Programmable Read Only Memory，EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)，静态随时存取存储器(Static Random Access Memory，SRAM)，只读存储器(Read-Only Memory，ROM)，磁存储器，快闪存储器，可编程只读存储器(Programmable Read-Only Memory，PROM)。

本申请实施例中的计算机设备可以为智能手机、平板电脑、个人计算机、可穿戴式设备、车载终端或服务器等等，本申请实施例并不对此进行限定。在一些实施例中，计算机设备中安装有具有图像处理、图像识别、图像分割等需求的应用，该应用在运行过程中即需要对图像数据进行矩阵运算。

图4示出了本申请一个示例性实施例提供的图像数据的矩阵运算架构的示意图，该运算架构包括：输入数据30、算法处理模块40、输出数据50。

输入数据30为计算机设备从图像数据中读取的至少一个M行N列的输入矩阵，输出数据50为计算机设备通过算法处理模块40运算得到的图像处理结果。算法处理模块40可能代表包含多个函数或者多个模块的算法整体；或者，算法处理模块40仅为单个函数或单个模块。

图5示出了本申请一个示例性实施例提供的图像数据的矩阵运算方法的流程图。示例性的，该矩阵数据的运算方法由图3示出的计算机设备执行。该方法包括：

步骤220：基于图像算子的矩阵尺寸M行N列，在图像数据中读取矩阵数据，M和N为正整数；

在对于图像进行处理的人工智能(Artificial Intelligence，AI)应用中，待处理图像按照像素点的大小以矩阵的形式存储于计算机设备中。在通过神经网络中的图像算子(比如卷积核)对图像进行处理时，需要读取图像算子所在区域的各个像素点的值。

示例性的，采用矩阵尺寸为3行3列的图像算子对待处理图像进行分析处理，在图像数据中读取3行3列的矩阵数据，分别为a0、a1、a2、b0、b1、b2、c0、c1、c2，得到图像算子如图6中矩阵10所示。

步骤240：采用图像算子对应的单一计算指令对矩阵数据中的列数据进行计算，得到中间计算结果，中间计算结果采用行形式；

图像算子对应的单一计算指令确定为五种单一计算指令之一，根据单一计算指令对M行N列的矩阵数据中的列数据分别进行计算，得到采用行形式的中间计算结果，该方法如下：

响应于图像算子对应的单一计算指令是求和指令，将矩阵数据中的每列矩阵元素相加；

响应于图像算子对应的单一计算指令是均值滤波指令，将矩阵数据中的每列矩阵元素进行均值滤波；

响应于图像算子对应的单一计算指令是求最大值指令，对矩阵数据中的每列矩阵元素求最大值；

响应于图像算子对应的单一计算指令是求最小值指令，对矩阵数据中的每列矩阵元素求最小值；

响应于图像算子对应的单一计算指令是卷积指令，将矩阵数据中的每列矩阵元素乘上各自对应的系数值后相加。

在一些实施例中，计算机设备根据单一计算指令对矩阵数据中的每列列数据进行计算，得到1行中间计算结果。

示例性的，图6中所示的3行3列的图像算子10，矩阵数据中的每列矩阵元素经过单一计算指令指示的计算后，得到1行中间计算结果12。

步骤260：将中间计算结果复用重排为N行缓存数据；

将中间计算结果复用重排为N行缓存数据的方式可以是将中间计算结果分别向左移动i次以及向右移动N-1-i次，共得到N行缓存结果，i为小于等于N且大于等于0的整数。即，当i取值为0时，计算机设备将中间计算结果连续向右移动N-1次，得到N行缓存数据；当i取值为N-1时，计算机设备将中间计算结果连续向左移动N-1次，得到N行缓存数据；当i取值为小于N-1且大于0的整数时，计算机设备既需要将中间计算结果向左移动，也需要向右移动。本申请对中间计算结果的复用重排方式不加以限定。

本实施例以中间计算结果为1行3列的s1、s2、s3为例，对该中间计算结果进行复用重排。

示例性的如图7所示，将中间计算结果12向右移动2次，分别得到移动1次后的中间计算结果13和移动2次后的中间计算结果14。

示例性的如图8所示，将中间计算结果12向左移动2次，分别得到移动1次后的中间计算结果16和移动2次后的中间计算结果17。

示例性的如图9所示，将中间计算结果分别向左和向右各移动1次，得到向左移动1次后的中间计算结果19和向右移动1次后的中间计算结果20。

步骤280：采用单一计算指令对N行缓存数据中目标列的矩阵元素进行计算，得到矩阵数据在单一计算指令下的计算结果；

其中，目标列包含中间计算结果中的N个矩阵元素，即N行缓存数据中同时包含中间计算结果中N个矩阵元素的列为目标列。例如，在图7、图8、图9中，目标列指的是s0、s1、s2同时存在的列。

计算机设备采用单一计算指令计算目标列中的矩阵元素，得到矩阵数据在单一计算指令下的计算结果。例如，图7中通过对s2、s1、s0进行计算得到计算结果15；图8中通过对s0、s1、s2进行计算得到计算结果18；图9中通过对s2、s1、s0进行计算得到计算结果21。计算目标列中的矩阵元素，得到矩阵数据在单一计算指令下的计算结果，该方法如下：

响应于图像算子对应的单一计算指令是求和指令，将目标列中的矩阵元素相加，得到计算结果；

响应于图像算子对应的单一计算指令是均值滤波指令，将目标列中的矩阵元素相加，再除以矩阵元素数量，得到计算结果；

响应于图像算子对应的单一计算指令是求最大值指令，对目标列中的矩阵元素求最大值，得到计算结果；

响应于图像算子对应的单一计算指令是求最小值指令，对目标列中的矩阵元素求最小值，得到计算结果；

响应于图像算子对应的单一计算指令是卷积指令，将目标列中的矩阵元素相加，再除以矩阵元素数量，得到计算结果。

步骤300：将计算结果输出为图像算子对矩阵数据的图像处理结果。

示例性的，以采用3行3列的图像算子对图像数据进行处理进行举例：

基于图像算子的矩阵尺寸3行3列，在待处理图像中读取矩阵数据，如图6中矩阵10所示。

当矩阵操作指令为求和指令时，对每列矩阵数据进行求和运算得到中间计算结果：

s0＝a0+b0+c0，s1＝a1+b1+c1，s2＝a2+b2+c2。将中间计算结果通过步骤220所述的任一复用重排方式得到N行缓存数据，确定s0、s1、s2同时所在的目标列，对目标列数据相加，得到矩阵数据的运算结果，即R0＝s0+s1+s2，输出为图像算子对矩阵数据的图像处理结果。

当矩阵操作指令为均值滤波指令时，对每列矩阵数据进行求和运算得到中间计算结果：s0＝a0+b0+c0，s1＝a1+b1+c1，s2＝a2+b2+c2。将中间计算结果通过步骤220所述的任一复用重排方式得到N行缓存数据，确定s0、s1、s2同时所在的目标列，对目标列数据相加后除以矩阵中元素的个数，得到矩阵数据的运算结果，即R0＝(s0+s1+s2)/9，输出为图像算子对矩阵数据的图像处理结果。

当矩阵操作指令为求最大值指令时，对每列矩阵数据进行求最大值运算得到中间计算结果：s0＝max(a0,b0,c0)，s1＝max(a1,b1,c1)，s2＝max(a2,b2,c2)。将中间计算结果通过步骤220所述的任一复用重排方式得到N行缓存数据，确定s0、s1、s2同时所在的目标列，对目标列求最大值运算得到矩阵数据的运算结果，即R0＝max(s0,s1,s2)，输出为图像算子对矩阵数据的图像处理结果。

当矩阵操作指令为求最小值指令时，对每列矩阵数据进行求最小值运算得到中间计算结果：s0＝min(a0,b0,c0)，s1＝min(a1,b1,c1)，s2＝min(a2,b2,c2)。将中间计算结果通过步骤220所述的任一复用重排方式得到N行缓存数据，确定s0、s1、s2同时所在的目标列，对目标列求最小值运算得到矩阵数据的运算结果，即R0＝min(s0,s1,s2)，输出为图像算子对矩阵数据的图像处理结果。

当矩阵操作指令为卷积指令时，对每列矩阵数据进行卷积运算得到中间计算结果：s0＝a0*k00+b0*k10+c0*k20，s1＝a1*k01+b1*k11+c1*k21，s2＝a2*k02+b2*k12+c2*k22。将中间计算结果通过步骤220所述的任一复用重排方式得到N行缓存数据，确定s0、s1、s2同时所在的目标列，对目标列数据相加后除以矩阵中元素的个数，得到矩阵数据的运算结果，即R0＝(s0+s1+s2)/9，输出为图像算子对矩阵数据的图像处理结果。

综上所述，本实施例通过从图像数据中读取矩阵数据，分别计算矩阵数据中的每列矩阵元素，再对得到的中间计算结果进行复用重排，并计算复用重排后的数据，得到矩阵数据在单一计算指令下的计算结果。本实施例减少了对矩阵中单个元素数据的重复计算，提高了矩阵运算的并发度，进而提高了图像数据的矩阵运算效率。

图10示出了本申请一个示例性实施例提供的图像数据的矩阵运算方法的流程图。本实施例以适用于arm处理器neon指令为例，对于uint8_t类型的数据，load/store的单指令多数据流(Single Instruction Multiple Data，SIMD)指令一次性读/写16个uint8_t数据。示例性的，该图像数据的矩阵运算方法由图3所示的计算机设备执行。该方法包括：

步骤320：基于图像算子的矩阵尺寸M行N列，在图像数据中读取矩阵数据，M和N为正整数；

本步骤的实施方式可以参考上述步骤220，本实施例在此不作赘述。

本实施例中以进行运算的图像算子为3行3列的矩阵为例。

示例性的，图11中的黑色实线框表示图像原图1101，实线框外区域是为了适应矩阵运算溢出图像有效区域而扩展的扩边区域1102。其中，图像原图1101的宽度为n×simd_width+tail，simd_width为SIMD指令一次读写数据的数据量，tail小于simd_width，n为正整数。

从图11中黑色实线框代表的图像原图1101的左上角开始运算，选取图像原图1101中一个像素点，将其作为3行3列的矩阵的中心点，读取该3行3列的矩阵数据。

示例性的，使用neon指令一次性读取图像原图中的16个数据，在读取的数据中获取3行3列的矩阵。例如，图12中的虚线框表示的即为一个3行3列的矩阵，矩阵中的矩阵元素分别为a0、a1、a2、b0、b1、b2、c0、c1、c2。

步骤340：采用图像算子对应的单一计算指令对矩阵数据中的列数据进行计算，得到中间计算结果；

本步骤的实施方式可以参考上述步骤240，本实施例在此不作赘述。

对于寄存器中的其余各列以此类推，得到图12中表示中间计算结果的s行。

步骤362:采用基于滑动窗口的处理指令，将滑动窗口中的数据存储至第j个寄存器中，j的起始值为0；

本实施例以SIMD指令一次性读/写16个数据为例，因此窗口大小取16。

为了通过中间计算结果实现矩阵操作指令要求，需要对中间计算结果进行重排复用。采用滑窗的处理方式，将通过M行N列的矩阵获得的中间计算结果中的各列数据排列至同一列，再通过单一计算指令得到最终的矩阵计算结果。滑窗处理的起始步骤，先确定一个窗口的起始位置，并将窗口数据放入寄存器t0中。

示例性的，选取窗口大小为16的滑动窗口，滑动窗口的起始位置位于1行N列的中间计算结果的起始点。将滑动窗口中的数据存储至初始寄存器t0。

步骤364：将滑动窗口进行滑动后，将滑动窗口中的数据存储至第j+1个寄存器中；

采用滑窗的处理方式，为了将通过M行N列的矩阵获得的中间计算结果中的各列数据排列至同一列，从而实现矩阵操作指令的目的。该滑窗的处理方式，需要将滑动窗口移动至少N-1次。

示例性的，滑动方式可以是将滑动窗口从1行N列的中间计算结果的起始点开始，连续向左滑动N-1次；或者，将滑动窗口从1行N列的中间计算结果的起始点开始，连续向右滑动N-1次；再或者，将滑动窗口从1行N列的中间计算结果的起始点开始，连续向左滑动i次，以及从1行N列的中间计算结果的起始点开始，连续向右滑动N-1-i次，i是大于等于0且小于等于N-1的整数。

将滑动窗口进行滑动后，将滑动窗口中的数据存储至第j+1个寄存器中，并且更新j的值j＝j+1，j的起始值为0。

将滑动窗口进行滑动的过程中，可能会涉及到超出矩阵运算范围的问题，计算机设备可以将矩阵的边界进行扩充；或者，采用标量方法对矩阵进行计算；或者，跳过运算。

以图11为例，图11中的黑色粗实线框表示图像原图1101，黑色粗实线框外区域是为了适应矩阵运算溢出图像有效区域而扩展的扩边区域1102，运算的起始位置位于黑色粗实线框的左上角，以对3行3列的矩阵通过滑窗处理方式进行运算为例，图像的尺寸远大于3*3。寄存器tcurr用于存放当前需要进行运算的区域的数值，寄存器tprev用于存放当前需要进行运算的区域的左侧相邻区域的数值，寄存器tnext用于存放当前需要进行运算的区域的右侧相邻区域的数值。在图11中的黑色粗实线框代表的图像原图1101内通过SIMD指令读取数据，放入寄存器tcurr，并分别向前、向后取连续的数据，分别放入寄存器tprev、寄存器tnext。

示例性的，在寄存器tcurr的起点位于图像原图1101的首列的情况下，跳过涉及寄存器tprev中数据所在列的计算。由于图像原图1101左侧不存在内容，即寄存器tprev涉及图11中斜向下条纹表示的1号区域，故寄存器tprev为空，无法计算得出结果，跳过该列运算。也即，当所计算的矩阵的中心点的列位置x小于等于该矩阵列数的一半时，由于寄存器tprev为空，所以无法得出结果，跳过该列运算。例如，图13中的寄存器t1行中的黑色实线框表示寄存器tprev中的最后一位数据sf，当寄存器tcurr的起点位于首列时，寄存器tprev为空，无法得出计算结果，即跳过第一列的运算。

示例性的，在寄存器tcurr的起点位于图像原图1101的首行或是末行的情况下，扩充矩阵的边界。也即，所计算的矩阵中心点的行位置y小于等于该矩阵行数大小的一半，或者，y大于等于图像高度减去该矩阵行数大小的一半时，矩阵的运算涉及图11中的图像上方斜方格条纹表示的2号区域和图像下方横线条纹表示的3号区域。此时，扩充矩阵的边界。扩充边界的方式可以预先定义，例如，边界范围内扩边区域都为0；或者，边界区域内扩边区域都为1；或者，扩边区域的值与其相邻的矩阵内的像素点的大小相同。本申请对扩边填充的方式不加以限定。

示例性的，在寄存器tcurr的起点位于4号区域且没有涉及到6号扩边区域的情况下，不影响矩阵的运算。由于4号区域的宽度与SIMD指令进行一次读/写操作的数据数量相同，则寄存器tnext会涉及图11右侧灰色填充表示的5号区域和/或方格填充表示的6号区域的取值。由于图片本身存在扩边区域，所以可以进行运算。例如，图13中t2寄存器行中的黑色实线框表示寄存器tnext中的第一位数据s0，该中间计算结果s0由寄存器tnext中的数据a0、b0、c0计算产生，而a0、b0、c0在扩边区域的范围内的，因此不影响矩阵的运算。

示例性的，在寄存器tcurr的起点位于4号区域且涉及到6号扩边区域的情况下，或者，在寄存器tcurr的起点位于灰色填充表示的5号区域的情况下，采用标量的方式获得矩阵运算的结果，即直接对源数据进行运算。该情况中寄存器tnext起点位于图像扩边之外的未知地址。如图14所示，寄存器tcurr中前4列为图像中的数据，第5列为扩边区域的填充数据，得到中间计算结果s1至s5，对中间结果采用滑窗处理方式，在这种情况下只能得到第R1至R4，无法得到R5的结果。对于R5需要采用标量方式，即直接比较矩阵中源数据的大小。

示例性的，在图像的宽度为SIMD指令进行一次读/写操作的数据数量的整数倍的情况下，即图11中不存在5号tail区域，则对于tcurr中的最后一个数，采用标量的方式进行计算，即直接比较矩阵中源数据的大小。

步骤366a：判断当前寄存器是否为第N-1个寄存器；

在一种可能的实施方式中，在j未达到N的情况下，计算机设备将滑动窗口进行滑动后，将滑动窗口中的数据存储至第j+1个寄存器中，直至得到存储在N个寄存器中的N行缓存数据。

计算机设备判断当前存储器是否为第N-1个寄存器。若当前寄存器为第N-1个寄存器，计算机设备则完成滑窗处理过程，执行步骤380；若当前存储器不是第N-1个存储器，计算机设备则还需要重复步骤364，继续滑动窗口进行取值缓存。

步骤366b：重复步骤364，直至得到存储在N个寄存器中的N行缓存数据；

得到的N行缓存数据中，中间计算结果的N个矩阵元素同时存在的一列即为用于进行后续运算的目标列。

步骤380：采用单一计算指令对N行缓存数据中目标列的矩阵元素进行计算，得到矩阵数据在单一计算指令下的计算结果；

目标列是中间计算结果中的N个矩阵元素在N行缓存数据中同时所在的列。

计算目标列中的矩阵元素，得到矩阵数据在单一计算指令下的计算结果，该方法如下：

响应于图像算子操作指令是求和指令，将目标列中的矩阵元素相加，得到计算结果；

步骤400：将计算结果输出为图像算子对矩阵数据的图像处理结果。

示例性的如图15所示，以对3行3列的矩阵通过滑窗处理方式求最大值为例。选取大小为16的滑动窗口，初始位置的起点位于s行寄存器tcurr的起点处。将初始滑动窗口中的数据存储至寄存器t0中，即图15中，将寄存器tcurr中的16个数据存储至寄存器t0中。将滑动窗口从初始位置向右滑动一位，滑动后的窗口位置如图15中的黑色实线框所示。将滑动窗口中的数据存储至寄存器t1中，即将寄存器tcurr中的后15位数据和寄存器tnext中的第1位数据存储至寄存器t1。判断当前寄存器t1不是第N-1个寄存器(即寄存器t2)，继续执行滑动窗口操作。将滑动窗口从初始位置向左滑动一位，将滑动窗口中的数据存储至寄存器t2中，即将寄存器tprev中的最后一位数据和寄存器tcurr中的前15位数据存储至寄存器t2。判断当前寄存器t2是第N-1个寄存器，确定目标列，采用单一计算指令对缓存数据中目标列的矩阵元素进行计算。对寄存器t0、t1、t2中的目标列求最大值，即可实现对3行3列的矩阵求最大值的指令。例如，通过对s0、s1、s2列求最大值得到的结果即为图12中虚线框代表矩阵的最大值。

示例性的，本实施例中展示的3行3列的图像算子进行矩阵运算的过程，也可以类推到5行5列、7行7列等小型图像算子。如上述实施例所示，在卷积核矩阵为3行3列的矩阵的情况下，通过滑动窗口将中间计算结果复用重排为3行缓存数据，则至多有2列非目标列的存储资源会被耗费；而在卷积核矩阵为5行5列的矩阵的情况下，通过滑动窗口将中间计算结果复用重排为5行缓存数据，则至多有4列非目标列的存储资源会被耗费；类推到卷积核矩阵为7行7列的矩阵的情况下，通过滑动窗口将中间计算结果复用重排为7行缓存数据，则至多有6列非目标列的存储资源会被耗费。由此可以看出，对于通道数越小的矩阵，耗费于非目标列的存储资源越少，因此本方法对小型图像算子的运算效率有显著的提升效果。

综上所述，本实施例通过分别计算矩阵数据中的每列数据，再对得到的中间计算结果进行滑窗处理，计算通过滑窗处理复用重排后的数据，得到矩阵数据的计算结果。本实施例通过滑窗处理的方式对得到的中间计算结果进行复用，结合SIMD指令一次性可得到多个矩阵的数据计算结果，减少了对矩阵中单个元素数据的重复计算，提高了矩阵运算的并发度，进而提高了图像数据的矩阵运算效率。

图16示出了采用本方法进行图像数据的矩阵运算与采用常规方法进行图像数据的矩阵运算的耗时对比。对于Uint8_t类型的数据，选择3×3大小的图像算子对图像数据进行矩阵运算。对于不同大小的分辨率，采用本方法与采用OpenCV方法对比，得到的加速比大约在1.8到2.1之间，加速比是指采用OpenCV常规方法进行矩阵运算的耗时与采用本方法进行矩阵运算的耗时之比。可以看出本方法对图像数据的矩阵运算效率作出了大幅提升。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图17是本申请一个示例性实施例提供的一种图像数据的矩阵运算装置的结构框图。所述装置包括：

读取模块500，用于基于图像算子的矩阵尺寸M行N列，在所述图像数据中读取矩阵数据，M和N为正整数；

计算模块520，用于采用所述图像算子对应的单一计算指令对所述矩阵数据中的列数据进行计算，得到中间计算结果，所述中间计算结果采用行形式；

复用模块540，用于将所述中间计算结果复用重排为N行缓存数据；

所述计算模块520，还用于采用所述单一计算指令对所述N行缓存数据中目标列的矩阵元素进行计算，得到所述矩阵数据在所述单一计算指令下的计算结果，所述目标列包含所述中间计算结果中的N个矩阵元素；

输出模块560，用于将所述计算结果输出为所述图像算子对所述矩阵数据的图像处理结果。

在一个可能的设计中，所述复用模块540，

用于采用基于滑动窗口的处理指令，将所述滑动窗口中的数据存储至第j个寄存器中，所述滑动窗口中的数据包含所述1行的中间计算结果的部分或全部，j的起始值为0；在j未达到N的情况下，将所述滑动窗口进行滑动后，将所述滑动窗口中的数据存储至第j+1个寄存器中，直至得到存储在N个寄存器中的N行缓存数据，所述滑动窗口中的数据包含所述1行的中间计算结果的部分或全部。

在一个可能的设计中，所述处理指令是单指令多数据流指令，所述处理指令支持同时处理K个数据；

所述复用模块540，用于采用基于所述滑动窗口的处理指令，将所述滑动窗口中的K个数据存储至第j个寄存器中，所述滑动窗口中的数据包含所述中间计算结果的部分或全部；将所述滑动窗口进行滑动后，将所述滑动窗口中的K个数据存储至第j+1个寄存器中。

在一个可能的设计中，所述复用模块540，用于将所述滑动窗口左滑一位后，将所述滑动窗口中的K个数据存储至第j+1个寄存器中；或，所述复用模块540，用于将所述滑动窗口右滑一位后，将所述滑动窗口中的K个数据存储至第j+1个寄存器中。

在一个可能的设计中，所述N行缓存数据中存在如下至少一种情况：存在第j行第i列的矩阵元素与第j+1行第i-1列的矩阵元素相同；存在第t行第i列的矩阵元素与第t-1行第i+1列的矩阵元素相同。

在一个可能的设计中，所述单一运算指令是均值滤波指令或卷积指令，所述计算模块520，用于将所述缓存数据中目标列的N个矩阵元素进行相加，得到矩阵元素和；将所述矩阵元素和除以矩阵元素数量，输出所述矩阵数据在所述单一计算指令下的计算结果；其中，所述矩阵元素数量等于M乘N。

在示例性实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述各个方法实施例提供的图像数据的矩阵运算的方法。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面所述的图像数据的矩阵运算的方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种图像数据的矩阵运算方法，所述方法由计算机设备执行，所述方法包括：

基于图像算子的矩阵尺寸M行N列，在所述图像数据中读取矩阵数据，M和N为正整数；

采用所述图像算子对应的单一计算指令对所述矩阵数据中的列数据进行计算，得到中间计算结果，所述中间计算结果采用行形式；

将所述中间计算结果复用重排为N行缓存数据；

采用所述单一计算指令对所述N行缓存数据中目标列的矩阵元素进行计算，得到所述矩阵数据在所述单一计算指令下的计算结果，所述目标列包含所述中间计算结果中的N个矩阵元素；

将所述计算结果输出为所述图像算子对所述矩阵数据的图像处理结果。
根据权利要求1所述的方法，其中，所述将所述一行中间计算结果复用重排为N行缓存数据，包括：

采用基于滑动窗口的处理指令，将所述滑动窗口中的数据存储至第j个寄存器中，所述滑动窗口中的数据包含所述中间计算结果的部分或全部，j的起始值为0；

在j未达到N的情况下，将所述滑动窗口进行滑动后，将所述滑动窗口中的数据存储至第j+1个寄存器中，直至得到存储在N个寄存器中的N行缓存数据，所述滑动窗口中的数据包含所述中间计算结果的部分或全部。
根据权利要求2所述的方法，其中，所述处理指令是单指令多数据流指令，所述处理指令支持同时处理K个数据；

所述采用基于滑动窗口的处理指令，将所述滑动窗口中的数据存储至第j个寄存器中，包括：

采用基于所述滑动窗口的处理指令，将所述滑动窗口中的K个数据存储至第j个寄存器中，所述滑动窗口中的数据包含所述中间计算结果的部分或全部；

所述将所述滑动窗口进行滑动后，将所述滑动窗口中的数据存储至第j+1个寄存器中，包括：

将所述滑动窗口进行滑动后，将所述滑动窗口中的K个数据存储至第j+1个寄存器中。
根据权利要求3所述的方法，其中，所述将所述滑动窗口进行滑动后，将所述滑动窗口中的K个数据存储至第j+1个寄存器中，包括：

将所述滑动窗口左滑一位后，将所述滑动窗口中的K个数据存储至第j+1个寄存器中；

或，

将所述滑动窗口右滑一位后，将所述滑动窗口中的K个数据存储至第j+1个寄存器中。
根据权利要求2至4任一所述的方法，其中，所述N行缓存数据中存在如下至少一种情况：

存在第j行第i列的矩阵元素与第j+1行第i-1列的矩阵元素相同；

存在第t行第i列的矩阵元素与第t-1行第i+1列的矩阵元素相同。
根据权利要求1至4任一所述的方法，其中，所述单一运算指令包括如下至少之一：

求和指令；

均值滤波指令；

求最大值指令；

求最小值指令；

卷积指令。
根据权利要求1至4任一所述的方法，其中，所述单一运算指令是均值滤波指令或卷积指令，所述采用所述单一运算指令对所述N行缓存数据中目标列的矩阵元素进行计算，输出所述矩阵数据在所述单一计算指令下的计算结果，包括：

将所述缓存数据中目标列的N个矩阵元素进行相加，得到矩阵元素和；

将所述矩阵元素和除以矩阵元素数量，输出所述矩阵数据在所述单一计算指令下的计算结果；

其中，所述矩阵元素数量等于M乘N。
一种图像数据的矩阵运算装置，所述装置包括：

读取模块，用于基于图像算子的矩阵尺寸M行N列，在所述图像数据中读取矩阵数据，M和N为正整数；

计算模块，用于采用所述图像算子对应的单一计算指令对所述矩阵数据中的列数据进行计算，得到中间计算结果，所述中间计算结果采用行形式；

复用模块，用于将所述中间计算结果复用重排为N行缓存数据；

所述计算模块，还用于采用所述单一计算指令对所述N行缓存数据中目标列的矩阵元素进行计算，得到所述矩阵数据在所述单一计算指令下的计算结果，所述目标列包含所述中间计算结果中的N个矩阵元素；

输出模块，用于将所述计算结果输出为所述图像算子对所述矩阵数据的图像处理结果。
根据权利要求8所述的装置，其中，

所述复用模块，用于采用基于滑动窗口的处理指令，将所述滑动窗口中的数据存储至第j个寄存器中，所述滑动窗口中的数据包含所述1行的中间计算结果的部分或全部，j的起始值为0；在j未达到N的情况下，将所述滑动窗口进行滑动后，将所述滑动窗口中的数据存储至第j+1个寄存器中，直至得到存储在N个寄存器中的N行缓存数据，所述滑动窗口中的数据包含所述中间计算结果的部分或全部。
根据权利要求9所述的装置，其中，所述处理指令是单指令多数据流指令，所述处理指令支持同时处理K个数据；

所述复用模块，用于采用基于所述滑动窗口的处理指令，将所述滑动窗口中的K个数据存储至第j个寄存器中，所述滑动窗口中的数据包含所述中间计算结果的部分或全部；将所述滑动窗口进行滑动后，将所述滑动窗口中的K个数据存储至第j+1个寄存器中。
根据权利要求10所述的装置，其中，

所述复用模块，用于将所述滑动窗口左滑一位后，将所述滑动窗口中的K个数据存储至第j+1个寄存器中；

或，

所述复用模块，用于将所述滑动窗口右滑一位后，将所述滑动窗口中的K个数据存储至第j+1个寄存器中。
根据权利要求9至11任一所述的装置，其中，所述N行缓存数据中存在如下至少一种情况：

存在第j行第i列的矩阵元素与第j+1行第i-1列的矩阵元素相同；

存在第t行第i列的矩阵元素与第t-1行第i+1列的矩阵元素相同。
根据权利要求8至11任一所述的装置，其中，所述单一运算指令是均值滤波指令或卷积指令，所述计算模块，用于将所述缓存数据中目标列的N个矩阵元素进行相加，得到矩阵元素和；将所述矩阵元素和除以矩阵元素数量，输出所述矩阵数据在所述单一计算指令下的计算结果；其中，所述矩阵元素数量等于M乘N。
一种计算机设备，所述计算机设备包括处理器，与所述处理器相连的存储器，以及存储在所述存储器上的程序指令，所述处理器执行的所述程序指令时实现如权利要求1至7任一所述的图像数据的矩阵运算方法。
一种计算机可读存储介质，所述存储介质中存储有程序指令，其特征在于，所述程序指令被处理器执行时实现如权利要求1至7任一所述的图像数据的矩阵运算方法。
一种计算机程序产品或计算机程序，所述计算机程序产品或所述计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中；计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备实现如权利要求1至7任一所述的图像数据的矩阵运算方法。