WO2019206161A1

WO2019206161A1 - 池化运算装置

Info

Publication number: WO2019206161A1
Application number: PCT/CN2019/084004
Authority: WO
Inventors: 梁晓峣; 景乃锋; 崔晓松; 陈云
Original assignee: 华为技术有限公司
Priority date: 2018-04-25
Filing date: 2019-04-24
Publication date: 2019-10-31
Also published as: CN110399977A

Abstract

本申请提供一种池化运算装置，该装置包括：多个寄存器组，用于存储多个数据；多个计算单元，用于对该多个数据执行池化操作，其中，不同的计算单元操作的数据位于该多个寄存器组中的不同寄存器组中；该多个计算单元中的第一计算单元用于：对该多个数据中的第一数据和第二数据进行第一池化运算，获得第一运算结果；存储该第一运算结果；从该多个寄存器中的第一寄存器组中获取第三数据；对该第一运算结果和该第三数据进行第二池化运算。本申请可以实现并行池化，其中的计算单元中可以存储中间计算结果，能提高数据读写效率，可以提高池化效率。

Description

池化运算装置

技术领域

本申请涉及神经网络领域，具体地，涉及一种池化运算装置。

背景技术

卷积神经网络通常应用于图像识别。卷积神经网络一般包括卷积层、池化层和全连接层。池化层作为降维的重要工具，一般置于卷积层后。池化层的运算称为池化运算。池化运算的过程为，将一个固定大小的窗口滑动过整个图像平面，在每个时刻对窗口内覆盖的数据进行运算，例如求最大值或者求平均值作为输出。这个窗口可以称为池化窗，通常池化窗的大小为k1*k2，其中，k1和k2分别为不小于2的整数。池化包括最大池化以及平均池化。

目前，有些现有技术利用通用图像处理器做池化运算，具体地，采用通用指令控制实现了池化操作。但这种方案的弊端在于，每次的运算结果需要写回寄存器堆，下次运算需要时又需要从寄存器堆读出来，导致重复读写，从而降低数据读写效率。

发明内容

本申请提供一种池化运算装置，可以在一定程度上避免重复读写，从而可以有效提高数据读写效率。

第一方面，提供了一种池化运算装置，该装置包括：多个寄存器组，用于存储多个数据；多个计算单元，用于对该多个数据执行池化操作，其中，不同的计算单元操作的数据位于该多个寄存器组中的不同寄存器组中；该多个计算单元中的第一计算单元用于：对该多个数据中的第一数据和第二数据进行第一池化运算，获得第一运算结果；存储该第一运算结果；从该多个寄存器中的第一寄存器组中获取第三数据；对该第一运算结果和该第三数据进行第二池化运算。

在同一个时钟周期，不同计算单元所获取的数据位于多个寄存器组中的不同寄存器组中，可以有效避免数据读取冲突，从而可以更好地实现并行池化，以提高池化运算效率。

应理解，第一运算结果为一个池化窗对应的池化操作中的中间计算结果，该中间计算结果还要参与后续的运算(例如第二池化运算)。第一计算单元通过存储该中间计算结果，从而在后续运算过程中，可以直接使用该中间计算结果执行运算，无需从外部寄存器堆读取数据，相对于现有技术采用通过图像处理器执行池化运算，本申请提供的池化运算装置，可以有效提高数据读写效率，从而可以整体上提高池化效率。

此外，每个计算单元每次读取一个池化操作数，且每次针对两个数据进行运算，这样使得本申请提供的池化运算装置不受限于池化窗的大小变化的影响，换句话说，本申请实施例提供的池化运算装置可以适用于任意大小池化窗的池化操作。

因此，本申请提供的池化运算装置，通过多个计算单元与多个寄存器组可以实现并行池化运算，可以提高池化效率；此外，由于每个计算单元均可以存储池化操作的中间计算结果，因此可以提高数据读写效率，进而整体上可以提高池化效率，以实现最大化加速池化运算。

对于同一个计算单元，其在不同时钟周期获取的数据可以位于不同的寄存器组，也可以位于相同的寄存器组。

在不同时钟周期之间，不同计算单元所获取的数据可以位于不同的寄存器组，也可以位于相同的寄存器组。

多个寄存器组中的每个寄存器组具有一个读端口。即，在每个时钟周期，一个寄存器组可以被读出一个数据。

可选地，多个计算单元的数量小于或等于多个寄存器组的数量。

结合第一方面，在第一方面的一种可能的实现方式中，该多个计算单元中的任一个计算单元能够读取该多个寄存器组中任一个寄存器组中的数据。

具体地，多个寄存器组和多个计算单元的连接关系为：多个计算单元中的每个计算单元分别与多个寄存器组中的全部寄存器组连接。这种连接关系可称为全连接。

可选地，多个寄存器组和多个计算单元的连接关系也可以为：多个计算单元中的每个计算单元分别与多个寄存器组中的部分寄存器组连接。

结合第一方面，在第一方面的一种可能的实现方式中，包括存储模块与运算模块。运算模块用于，对从多个寄存器组获取的第一数据与第二数据进行第一池化运算，获得第一运算结果，并将该第一运算结果存储于该存储模块，该运算模块还用于，对该存储模块存储的第一运算结果与从多个寄存器组获取的第三数据进行第二池化运算。

在池化操作为最大池化的场景下，第一池化运算为比较运算，即比较第一数据与第二数，相应地，该运算模块可以包括加法器或比较器。在池化操作为平均池化的场景下，第一池化运算为累加运算，即对第一数据与第二数据进行累加，相应地，该运算模块包括加法器。应理解，该运算模块还包括乘法器，用于对池化窗内所有操作数的总累加结果求平均。

本申请提供的池化运算装置采用硬件实现池化操作中的相关运算，而非采用指令控制。

结合第一方面，在第一方面的一种可能的实现方式中，该第一池化运算包括最大值池化运算，该第一计算单元包括：第一数据接口，用于接收从该多个寄存器组获取的该第一数据；第二数据接口，用于接收从该多个寄存器组获取的该第二数据；第一存储模块，用于存储该第一数据；第二存储模块，用于存储该第二数据；运算模块，用于比较该第一数据与该第二数据，获得该第一运算结果，并将该第一运算结果存储于锁存器中，该比较结果为该第一数据大于该第二数据；该锁存器用于，用于存储该第一运算结果，并根据该第一运算结果向该第一数据接口与该第二数据接口发送反馈信号，该反馈信号用于指示该第一数据接口关闭并指示该第二数据接口开启，其中，该开启的第二数据接口用于接收从该第一寄存器组中获取的该第三数据；该运算模块，还用于对该第一计算结果和该第三数据进行该第二池化运算。

本申请提供的池化运算装置可以用于实现最大池化。

结合第一方面，在第一方面的一种可能的实现方式中，该第一池化运算包括平均值池化运算；该第一计算单元具体包括：第一数据接口，用于从该多个寄存器组接收该第一数据；第二数据接口，用于从该多个寄存器组接收该第二数据；第一存储模块，用于存储该第一数据；第二存储模块，用于存储该第二数据；加法器，用于对该第一数据与该第二数据进行累加，获得该第一运算结果；该第二存储模块，还用于存储该第一运算结果；该第一数据接口，还用于从该第一寄存器组获取该第三数据；该加法器，还用于对该第一运算结果与该第三数据进行该第二池化运算。

该第一计算单元还包括：乘法器，用于当该加法器获得k1*k2个数据的累加结果时，对该k1*k2个数据的累加结果乘以1/(k1*k2)以获得该k1*k2个数据的平均值，其中，k1*k2为该池化操作对应的池化窗的大小，k1和k2分别为不小于2的整数。

本申请提供的池化运算装置可以用于实现平均池化。

结合第一方面，在第一方面的一种可能的实现方式中，该池化运算装置还包括：控制单元，用于向该多个计算单元发送控制信号，该控制信号用于指示该池化操作为最大池化或平均池化；该第一计算单元，还用于接收该控制信号；在对该多个数据中的第一数据和第二数据进行第一池化运算的过程中，该第一计算单元具体用于：当该控制信号指示该池化操作为最大池化时，对该第一数据和该第二数据执行最大值池化运算；当该控制信号指示该池化操作为平均池化时，对该第一数据和该第二数据进行平均值池化运算。

本申请提供的池化运算装置既可以用于处理平均池化，又可以用于处理最大池化，从而可以提高硬件利用率，降低硬件成本。

第二方面，提供一种计算机设备，包括内存以及第一方面提供的池化运算装置，其中，该内存用于存储该池化运算装置待执行池化操作的数据。

附图说明

图1为池化操作的示意图。

图2为本申请实施例提供的池化运算装置的示意性框图。

图3、图4、图5和图6为本申请实施例中计算单元的结构示意图。

图7为本申请实施例中多个寄存器组存储数据的示意图。

图8至图11为本申请实施例中计算单元从寄存器组中读取数据的示意图。

图12与图13为本申请实施例中多个寄存器组存储数据的另一示意图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

为了便于理解本申请实施例提供的方案，下文首先结合图1描述池化的概念。

池化指的是神经网络中池化层的运算。池化操作的过程为，将一个固定大小的窗口滑动过整个图像平面，在每个时刻对窗口内覆盖的数据进行运算，求最大值或者求平均值作为输出。其中，这个窗口可以称为池化窗。池化窗的大小可以为k1*k2，其中，k1和k2分别为不小于2的整数，k1与k2的值可以相同也可以不相同，在本发明实施例中不进行限定。

图1为池化操作的示意图。输入图像(即待进行池化处理的图像)的大小为4*4，池化窗的大小为2*2。池化操作为一个2*2的池化窗在4*4的图像上以步长为2的间隔滑动，每个池化窗覆盖的4个数据得到一个输出结果，所有输出结果构成输出图像，如图1所示，输出图像的大小为2*2。

图1中所示的输出图像中的图像数据是通过如下公式得到的：

o1＝op{d1,d2,d3,d4}，

其中，d1-d4表示输入图像中的图像数据(即像素值)，o1表示输出图像中的图像数据(即像素值)。

运算符op的运算方式可以为求最大值(max)或求平均值(avg)。当运算符op的运算方式为求最大值(max)时，对应的池化操作称为最大池化。当运算符op的运算方式为求平均值(avg)时，对应的池化操作称为平均池化。

一个池化窗覆盖的输入图像中的数据可以称为池化操作数。例如，池化窗的大小为k1*k2，则一个池化操作包括k1*k2个池化操作数。

本文中涉及的池化运算可以是平均池化运算或最大池化运算。

为了便于理解与描述，本文某些实施例中会以池化窗的大小为k*k(即k1＝k2＝k)为例进行描述，k为不小于2的整数，但这并不对本申请造成限定。实际应用中，k1和k2的大小可以相同，也可以不相同，在此不做限定。

图2为本申请实施例提供的池化运算装置200的示意性框图。如图2所示，该装置200包括多个寄存器组210和多个计算单元220。

多个寄存器组210用于，存储多个数据。

具体地，多个寄存器组存储的多个数据为待进行池化操作的数据。例如，在图1所示场景中，该多个数据为输入图像的第1行和第2行的数据。可以理解的是，每个寄存器组中包括多个寄存器。

具体地，每个寄存器组210具有一个读端口。换句话说，一个寄存器组每次可被读出一个数据。作为示例，本实施例涉及的寄存器组可以被称为Bank，多个寄存区组即为多个Bank。多个计算单元220用于，对该多个数据执行池化操作，其中，不同的计算单元操作的数据位于该多个寄存器组中的不同寄存器组中。

具体地，多个计算单元220用于并行对不同池化窗的数据进行池化操作。

以图1所示场景为例，假设多个计算单元220包括2个计算单元(例如：计算单元1和计算单元2)。假设多个寄存器组210中存储了图1所示输入图像中的第1行和第2行的数据，池化窗的大小为2*2。则可以将上述两行数据划分为两个池化窗，其中，第一池化窗的数据包括：9、5、10和32，第二池化窗的数据包括：5、3、2和2。计算单元1和计算单元2可以分别对这两个池化窗的数据进行池化操作。例如，计算单元1对第一池化窗的数据进行池化操作，计算单元2对第二池化窗的数据进行池化操作。具体的，在时钟周期T，计算单元1从寄存器组读取池化操作数9，计算单元2从寄存器组读取池化操作数5；在下一个时钟周期T+1，计算单元1从寄存器组读取池化操作数5，计算单元2从寄存器组读取池化操作数3；在再下一个时钟周期T+2，计算单元1从寄存器组读取池化操作数10，计算单元2从寄存器组读取池化操作数2；在再下一个时钟周期T+3，计算单元1从寄存器组读取池化操作数32，计算单元2从寄存器组读取池化操作数2。应理解，在时钟周期T+3之后，计算单元1和计算单元2可以同时获得两个池化窗的池化结果。

上述可知，本申请实施例提供的池化运算装置可以实现并行池化，这样可以有效提高池化运算效率。

需要说明的是，为了减少计算单元从寄存器组读取数据的时间，提升计算效率，在本发明实施例中，在同一个时钟周期，不同计算单元所获取的数据位于多个寄存器组中的不同寄存器组中。

例如，在上面图1的例子中，在时钟周期T，计算单元1从寄存器组读取池化操作数9，计算单元2从寄存器组读取池化操作数5，其中，池化操作数9和5分别位于不同的寄存器组中；在下一个时钟周期T+1，计算单元1从寄存器组读取池化操作数5，计算单元2从寄存器组读取池化操作数3，其中，池化操作数5和3分别位于不同的寄存器组中；在再下一个时钟周期T+2，计算单元1从寄存器组读取池化操作数10，计算单元2从寄存器组读取池化操作数2，其中，池化操作数10和2分别位于不同的寄存器组中；在再下一个时钟周期T+3，计算单元1从寄存器组读取池化操作数32，计算单元2从寄存器组读取池化操作数2，其中，池化操作数32和2分别位于不同的寄存器组。

应理解，在同一个时钟周期，不同计算单元所获取的数据位于多个寄存器组中的不同寄存器组中，可以有效避免数据读取冲突，从而可以更好地实现并行池化，以提高池化运算效率。

需要说明的是，对于同一个计算单元在不同时钟周期获取的数据可以位于不同的寄存器组，也可以位于相同的寄存器组，本申请实施例对此不做限定。

多个计算单元220中的每个计算单元220的功能与结构都是相同的，为了便于理解与描述，下文中将以多个计算单元220中的一个计算单元(记为第一计算单元220)为例描述本申请实施例提供的池化运算装置中的计算单元的结构与功能。下文针对第一计算单元220的描述均适用于多个计算单元220中的每个计算单元220。

第一计算单元220用于，对该多个数据中的第一数据和第二数据进行第一池化运算，获得第一运算结果；存储该第一运算结果；从该多个寄存器中的第一寄存器组中获取第三数据；对该第一运算结果和该第三数据进行第二池化运算。

该第一数据与该第二数据分别表示该第一计算单元负责处理的一个池化窗中的第一个池化操作数与第二个池化操作数，该第三数据表示这个池化窗内的第三个池化操作数。

此外，在本申请实施例中，每个计算单元每次读取一个池化操作数，且每次针对两个数据进行运算，这样使得本申请实施例提供的池化运算装置不受限于池化窗的大小变化的影响，换句话说，本申请实施例提供的池化运算装置可以适用于任意大小池化窗的池化操作。

因此，本申请实施例提供的池化运算装置，通过多个计算单元与多个寄存器组可以实现并行池化运算，可以提高池化效率；此外，由于每个计算单元均可以存储池化操作的中间计算结果，因此可以提高数据读写效率，进而整体上可以提高池化效率，以实现最大化加速池化运算。

具体地，如图2所示，多个寄存器组210中的数据是从动态存储器240中加载的。动态存储器例如为动态随机存取存储器(Dynamic Random Access Memory，DRAM)。动态存储器240可以位于池化运算装置200内部，也可以位于池化运算装置200的外部。

多个计算单元220的数量小于或等于多个寄存器组210的数量。例如，该池化运算装置200包括n个计算单元220和n个寄存器组210。

可选地，多个寄存器组210和多个计算单元220的连接关系为：多个计算单元中的每个计算单元分别与多个寄存器组中的所有寄存器组均连接。应理解，这种连接关系，使得多个计算单元中的每个计算单元能够获取该多个寄存器组中任意一个寄存器组中存储的数据。这种连接关系可以称为全连接。

下文中出现的多个计算单元与多个寄存器组全连接，指的就是，多个计算单元中的每个计算单元分别与多个寄存器组中的所有寄存器组均连接。

可选地，多个寄存器组210和多个计算单元220的连接关系为：多个计算单元中的每个计算单元分别与多个寄存器组中的部分寄存器组连接。具体地，不同计算单元所连接的寄存器组可以相同，也可以完全不同，也可以不完全相同，本申请实施例对此不做限定。

为了清楚的说明本发明实施例如何做池化运算，下面将对本发明实施例提供的计算单元进行描述。第一计算单元220中包括存储模块与运算模块。运算模块用于，对从多个寄存器组获取的第一数据与第二数据进行第一池化运算，获得第一运算结果，并将该第一运算结果存储于该存储模块，该运算模块还用于，对该存储模块存储的第一运算结果与从多个寄存器组获取的第三数据进行第二池化运算。

在池化操作为最大池化的场景下，第一池化运算为比较运算，即比较第一数据与第二数，相应地，该运算模块可以包括加法器或比较器。

在池化操作为平均池化的场景下，第一池化运算为累加运算，即对第一数据与第二数据进行累加，相应地，该运算模块包括加法器。应理解，该运算模块还包括乘法器，用于对池化窗内所有操作数的总累加结果求平均。

可选地，作为第一种实现方式，该第一计算单元220包括：

第一数据接口，用于接收从该多个寄存器组获取的该第一数据；第二数据接口，用于接收从该多个寄存器组获取的该第二数据；第一存储模块，用于存储该第一数据；第二存储模块，用于存储该第二数据；运算模块，用于比较该第一数据与该第二数据，获得该第一运算结果，并将该第一运算结果存储于锁存器中，该比较结果为该第一数据大于该第二数据；该锁存器用于，用于存储该第一运算结果，并根据该第一运算结果向该第一数据接口与该第二数据接口发送反馈信号，该反馈信号用于指示该第一数据接口关闭并指示该第二数据接口开启，其中，该开启的第二数据接口用于接收从该第一寄存器组中获取的该第三数据；该运算模块，还用于对该第一计算结果和该第三数据进行该第二池化运算。

具体地，如图3所示，该第一计算单元220包括数据接口311、数据接口312、存储模块321、存储模块322、运算模块330和锁存器340。

数据接口311用于，从多个寄存器组获取数据。

数据接口312用于，从多个寄存器组获取数据。

存储模块321用于，存储数据接口311获取的数据。

存储模块322用于，存储数据接口312获取的数据。

运算模块330用于，从存储模块321获取第一操作数，从存储模块322获取第二操作数，并比较第一操作数与第二操作数，并比较结果存入锁存器340。

锁存器340用于，当该比较结果为该第一操作数大于或等于该第二操作数时，向数据接口311与数据接口312发送第一反馈信号，当该比较结果为该第一操作数小于该第二操作数时，用于向数据接口311与数据接口312发送第二反馈信号，其中，该第一反馈信号用于关闭数据接口311、开启数据二接口312，该第二反馈信号用于开启数据接口311、关闭数据接口312。

应理解，当数据接口311(或数据接口312)关闭时，不从寄存器组获取数据，当数据接口311(或数据接口312)开启时，从寄存器组获取数据。

以池化窗的大小为2*2为例，在时钟周期T，数据接口311从一个寄存器组接收第一数据，存储模块321存储该第一数据；在时钟周期T+1，数据接口312从一个寄存器组接收第二数据，存储模块322存储该第二数据，运算模块330从存储模块321中获取第操作数(即第一数据)，从存储模块322中获取第二操作数(即第二数据)，对第一操作数与第二操作数进行比较，并将比较结果存入锁存器340，锁存器340用于，当该比较结果为该第一操作数大于或等于该第二操作数时，向数据接口311与数据接口312发送第一反馈信号，当该比较结果为该第一操作数小于该第二操作数时，用于向数据接口311与数据接口312发送第二反馈信号，为了便于描述与理解，下面均以第一操作数大于或等于第二操作数，锁存器340向数据接口311和312发送第一反馈信号为例进行描述；在时钟周期T+2，数据接口311关闭，数据接口312开启，并从一个寄存器组接收第三数据，存储模块322存储第三数据，运算模块330从存储模块321中获取第一操作数(即时钟周期T+1中比较出的较大值：第一数据)，从存储模块322中获取第二操作数(即第三数据)，并对第一操作数与第二操作数据进行比较，比较结果为第一操作数大于或等于第二操作数，将比较结果存入锁存器340，锁存器340用于，向数据接口311与数据接口312发送第一反馈信号；在时钟周期T+3，数据接口311关闭，数据接口312开启，并从一个寄存器组接收第四数据，存储模块322存储第四数据，运算模块330从存储模块321中获取第一操作数(即时钟周期T+2中比较出的较大值：第一数据)，从存储模块322中获取第二操作数(即第四数据)，并对第一操作数与第二操作数据进行比较，比较结果为第一操作数大于或等于第二操作数，至此，获得本次池化操作的池化结果：第一数据。

存储模块321和存储模块322均可以为寄存器。

可选地，数据接口311与数据接口312可以均为多路选择器。多路选择器的输入端的数量等于该第一计算单元所连接的寄存器组的数量。

可选地，运算模块330为加法器，该加法器用于将从存储模块321获取的第一操作数减去从存储模块322获取的第二操作数，将相减的结果作为比较结果存入锁存器340。

可选地，运算模块330为比较器，用于比较从存储模块321获取的第一操作数减去从存储模块322获取的第二操作数，并将比较结果存入锁存器340。

应理解，第一种实现方式的计算单元适用于池化操作为最大池化的场景，也就是说，本申请实施例提供的池化运算装置可以用于实现最大池化。

可选地，作为第二种实现方式，该第一计算单元220具体包括：

第一数据接口，用于从该多个寄存器组接收该第一数据；第二数据接口，用于从该多个寄存器组接收该第二数据；第一存储模块，用于存储该第一数据；第二存储模块，用于存储该第二数据；加法器，用于对该第一数据与该第二数据进行累加，获得该第一运算结果；该第二存储模块，还用于存储该第一运算结果；该第一数据接口，还用于从该第一寄存器组获取该第三数据；该加法器，还用于对该第一运算结果与该第三数据进行该第二池化运算。

该第一计算单元220还包括：乘法器，用于当该加法器获得k1*k2个数据的累加结果时，对该k1*k2个数据的累加结果乘以1/(k1*k2)以获得该k1*k2个数据的平均值，其中，k1*k2为该池化操作对应的池化窗的大小，k1和k2分别为不小于2的整数。

具体地，如图4所示，该第一计算单元220包括数据接口411、数据接口412、存储模块421、存储模块422、加法器430和乘法器440。

数据接口411用于，从寄存器组获取数据。

数据接口412用于，从寄存器组获取数据。

存储模块421用于，存储数据接口411获取的数据。

存储模块422用于，存储数据接口412获取的数据。

加法器430用于，从存储模块421获取第一操作数，从存储模块422获取第二操作数，并对第一操作数与第二操作数进行累加，并将累加结果存入存储模块422，当第一计算单元从寄存器组读取k1*k2个数据之后，加法器430用于将累加结果发送至乘法器440，k1*k2为池化窗的大小。

当累加结果存入存储模块422时，数据接口412关闭，之后，仅数据接口411用于从寄存器组接收数据。

乘法器440用于，将加法器430发送的累加结果乘以1/(k1*k2)，至此得到本次池化操作的池化结果。

以池化窗的大小为2*2为例，在时钟周期T，数据接口411从一个寄存器组接收第一数据，存储模块421存储该第一数据；在时钟周期T+1，数据接口412从一个寄存器组接收第二数据，存储模块422存储该第二数据，加法器430从存储模块421中获取第一操作数(即第一数据)，从存储模块422中获取第二操作数(即第二数据)，对第一操作数与第二操作数进行累加，并将累加结果(记为累加值1)存入存储模块422，这时关闭数据接口412；在时钟周期T+2，数据接口412关闭，数据接口411开启，并从一个寄存器组接收第三数据，存储模块421存储第三数据，加法器430从存储模块421中获取第一操作数(即第三数据)，从存储模块422中获取第二操作数(即累加值1)，并对第一操作数与第二操作数据进行累加，将累加结果(记为累加值2)存入存储模块422；在时钟周期T+3，数据接口412关闭，数据接口411开启，并从一个寄存器组接收第四数据，存储模块421存储第四数据，加法器430从存储模块421中获取第一操作数(即第四数据)，从存储模块422中获取第二操作数(即累加值2)，并对第一操作数与第二操作数据进行累加，将累加结果(记为累加值3)发送至乘法器440，乘法器440将累加值3乘以1/4，相乘结果为本次池化操作的池化结果。

作为示例而非限定，上文以存储模块422用于存储加法器430的累加结果为例进行描述，实际操作中，也可以设计成由存储模块421来存储加法器430的累加结果(这时，需要关闭数据接口411，开启数据接口412)，本实施例对此不作限定。

存储模块421和存储模块422均可以为寄存器。

可选地，数据接口411与数据接口412可以均为多路选择器。多路选择器的输入端的数量等于该第一计算单元所连接的寄存器组的数量。

应理解，第二种实现方式的计算单元适用于池化操作为平均池化的场景，也就是说，本申请实施例提供的池化运算装置可以用于处理平均池化。

可选地，作为第三种实现方式，如图5和图6所示，该第一计算单元220包括数据接口511、数据接口512、存储模块521、存储模块522、加法器530、乘法器540和锁存器 550。

数据接口511用于，从寄存器组获取数据。

数据接口512用于，从寄存器组获取数据。

存储模块521用于，存储数据接口511获取的数据。

存储模块522用于，存储数据接口512获取的数据。

在池化操作为最大池化的情况下，如图5所示。

加法器530用于，从存储模块521获取第一操作数，从存储模块522获取第二操作数，并比较第一操作数与第二操作数，并比较结果存入锁存器550。

锁存器550用于，当该比较结果为该第一操作数大于或等于该第二操作数时，向数据接口511与数据接口512发送第一反馈信号，当该比较结果为该第一操作数小于该第二操作数时，用于向数据接口511与数据接口512发送第二反馈信号，其中，该第一反馈信号用于关闭数据接口511、开启数据二接口512，该第二反馈信号用于开启数据接口511、关闭数据接口512。

应理解，当数据接口511(或数据接口512)关闭时，不从寄存器组获取数据，当数据接口511(或数据接口512)开启时，从寄存器组获取数据。

在池化操作为平均池化的情况下，如图6所示。

加法器530用于，从存储模块521获取第一操作数，从存储模块522获取第二操作数，并对第一操作数与第二操作数进行累加，并将累加结果存入存储模块522，当第一计算单元从寄存器组读取k1*k2个数据之后，加法器530用于将累加结果发送至乘法器550，k1*k2为池化窗的大小。

当累加结果存入存储模块522时，数据接口512关闭，之后，仅数据接口511用于从寄存器组接收数据。

乘法器540用于，将加法器530发送的累加结果乘以1/(k1*k2)，至此得到本次池化操作的池化结果。

应理解，第三种实现方式的第一计算单元可以支持两种状态，一种是用于做最大池化的状态(如图5)，一种是用于做平均池化的状态(如图6)。

在第一计算单元220的实现方式为上述第三种实现方式时，如图2所示，该池化运算装置还包括：控制单元230，用于向该多个计算单元发送控制信号，该控制信号用于指示该池化操作为最大池化或平均池化。

该第一计算单元220，还用于接收该控制信号；当该控制信号指示该池化操作为最大池化时，该第一计算单元220对该第一数据和该第二数据执行最大值池化运算；当该控制信号指示该池化操作为平均池化时，对该第一数据和该第二数据进行平均值池化运算。

具体地，当该控制信号指示该池化操作为最大池化时，该第一计算单元220切换为如图5的状态；当该控制信号指示该池化操作为平均池化时，该第一计算单元220切换为如图6的状态。

应理解，该控制单元230也可以位于本申请提供的池化运算装置200的外部，本申请对此不做限定。

存储模块521和存储模块522均可以为寄存器。

可选地，数据接口511与数据接口512可以均为多路选择器。多路选择器的输入端的数量等于该第一计算单元220所连接的寄存器组的数量。

应理解，图5所示的计算单元既可以适用于平均池化的场景，也可以适用于最大池化的场景，也就是说，本申请实施例提供的池化运算装置既可以用于处理平均池化，又可以处理最大池化，从而可以提高硬件利用率，降低硬件成本。

下文将描述多个寄存器组存储数据的方式。为了便于理解与描述，下文实施例中以多个计算单元与多个寄存器组全连接为例进行描述。下面描述的实施例通过合理的变换也可以适用于多个计算单元中每个计算单元与多个寄存器组中部分寄存器组连接的场景，这部分内容也落入本申请保护范围。下文实施例中以多个寄存器组210为多个Bank为例进行描述。

在本申请实施例中，待进行池化操作的数据在多个寄存器组中的存储方式，使得在每个读取数据过程(即每个时钟周期)，不同计算单元读取的数据位于不同的寄存器组中。即可以保证不同计算单元从寄存器组读取数据不会发生冲突。

假设多个计算单元为n个计算单元，多个寄存器组为n个Bank，池化窗的大小为k*k，待进行池化处理的图像的大小为m*m，其中，k为大于1的正数，n为大于1的正数，m为大于1的正数。假设m＝n*k。例如待进行池化操作的数据为该图像中的k行n*k列数据，则待进行池化操作的数据在n个Bank中的存储方式为：该k行中的第j行的第1列、第k+1列、第2k+1列、…、第(n-1)*k+1列数据分别存储于该n个寄存器组的不同寄存器组中，该第j行的第2列、第k+2列、第2k+2列、…、第(n-1)*k+2列数据分别存储于该n个寄存器组的不同寄存器组中，…，该第j行的第k列、第k+k列、第2k+k列、…、第(n-1)*k+k列数据分别存储于该n个寄存器组的不同寄存器组中，j为1，2，...，k。

图7给出一种具体的待进行池化操作的数据在多个Bank中的存储方式的示意图。在图7中，k为2，n为9，即池化窗的大小为2*2，计算单元与Bank的数量均为9，如图6中所示的9个计算单元和9个Bank。每个Bank中包括多个寄存器(图7中示意性给出每个Bank中具有5个寄存器)，则9个Bank的寄存器构成一个9行多列的寄存器阵列(图7中示意性给出9行5列的寄存器阵列)。待处理的图像的大小为18*18，假设待进行池化操作的数据为该图像的第1行与第2行的数据，具体如图7中所示，其中，相同图案的4个数据表示同一个池化窗内的数据。

图像的第1行与第2行中的数据存入9个Bank的方式为：

图像的第1行中的数据从寄存器阵列中的第r1列的第1行开始加载，直到占用2列寄存器(图7中所示的第r1列和第r2列)完成第1行数据的加载。

图像的第2行中的数据从寄存器阵列中的第(r1+2)列(即第r3列)的第一行开始加载，直到占用2列寄存器(图7中所示的第r3列和第r4列)完成第2行数据的加载。

具体地，如图7所示。

9个计算单元从9个Bank中读取数据的流程图如图8、图9、图10和图11所示。

如图8所示，在时钟周期T，9个Bank中虚线框内的数据同时被读出来，如图8所示，这几个数据分别是图像的第1行的第1列、第3列、第5列、…第17列的数据，即各个池化窗内的第一个池化操作数。其中，计算单元1从Bank1中读取数据“1”，计算单元2从Bank3中读取数据“3”，计算单元3从Bank5中读取数据“5”，计算单元4从Bank7中读取数据“7”，计算单元5从Bank9中读取数据“9”，计算单元6从Bank2中读取数据“11”，计算单元7从Bank4中读取数据“13”，计算单元8从Bank6中读取数据“15”，计算单元9从Bank8读取数据“17”。

如图9所示，在时钟周期T+1，9个Bank中虚线框内的数据同时被读出来，如图9所示，这几个数据分别是图像的第1行的第2列、第4列、第6列、…第18列的数据，即各个池化窗内的第二个池化操作数。其中，计算单元1从Bank2中读取数据“2”，计算单元2从Bank4中读取数据“4”，计算单元3从Bank6中读取数据“6”，计算单元4从Bank8中读取数据“8”，计算单元5从Bank1中读取数据“10”，计算单元6从Bank3中读取数据“12”，计算单元7从Bank5中读取数据“14”，计算单元8从Bank7中读取数据“16”，计算单元9从Bank9读取数据“18”。

如图10所示，在时钟周期T+2，9个Bank中虚线框内的数据同时被读出来，如图10所示，这几个数据分别是图像的第2行的第1列、第3列、第5列、…第17列的数据，即各个池化窗内的第三个池化操作数。其中，计算单元1从Bank1中读取数据“19”，计算单元2从Bank3中读取数据“3”，计算单元3从Bank5中读取数据“5”，计算单元4从Bank7中读取数据“7”，计算单元5从Bank9中读取数据“9”，计算单元6从Bank2中读取数据“11”，计算单元7从Bank4中读取数据“13”，计算单元8从Bank6中读取数据“15”，计算单元9从Bank8读取数据“17”。

如图11所示，在时钟周期T+2，9个Bank中虚线框内的数据同时被读出来，如图11所示，这几个数据分别是图像的第2行的第2列、第4列、第6列、…第18列的数据，即各个池化窗内的第四个池化操作数。其中，计算单元1从Bank2中读取数据“20”，计算单元2从Bank4中读取数据“22”，计算单元3从Bank6中读取数据“24”，计算单元4从Bank8中读取数据“26”，计算单元5从Bank1中读取数据“28”，计算单元6从Bank3中读取数据“30”，计算单元7从Bank5中读取数据“32”，计算单元8从Bank7中读取数据“34”，计算单元9从Bank9读取数据“36”。至此，9个计算单元可以同时输出9个池化结果。

通过上文结合图8、图9、图10与图11的描述可知，每个时钟周期，不同计算单元读取的数据位于不同的Bank中。此外，同一个计算单元在不同的时钟周期读取数据的Bank也可能不同。

上述实施例中的计算单元的结构可以是图3所示的结构，也可以是图4所示的结构，还可以是图5所示的结果，本申请对此不做限定。

作为一个示例，假设在上述结合图7描述的实施例中，9个计算单元的结构如图5所示的结构，具体如图7中所示，应理解，为了画图的简洁，图7中只给出计算单元9的结构，其他8个计算单元的结构与计算单元9的结构一致。

在池化操作为最大池化的情况下，图7中所示的9个计算单元均切换至如图5所示的状态。下面以计算单元9为例进行描述，对于计算单元9的描述同样适用于计算单元1-8，为了简洁，不再赘述。例如，在时钟周期T，如图8所示，计算单元9中的数据接口511从Bank1接收数据“1”，存储模块521存储数据“1”；在时钟周期T+1，如图9所示，计算单元9中的数据接口512从Bank2接收数据“2”，存储模块存储数据“2”，加法器530从存储模块521中获取第一操作数“1”，从存储模块522中获取第二操作数“2”，对两个操作数做比较，将比较结果(即第一操作数小于第二操作数)存入锁存器550；锁存器550向数据接口511和数据接口512发送第二反馈信号，该第二反馈信号使数据接口511开启，数据接口512关闭；在时钟周期T+2，如图10所示，数据接口511从Bank1中接收数据“19”，存储模块521存储数据“19”，加法器530从存储模块521获取第一操作数“19”，从存储模块522获取第二操作数“2”(即时钟周期T+1比较出的较大值)，对两个操作数做比较，将比较结果(即第一操作数大于第二操作数)存入锁存器550；锁存器550向数据接口511和数据接口512发送第一反馈信号，该第一反馈信号使数据接口511关闭，数据接口512开启；在时钟周期T+3，如图11所示，数据接口512从Bank2中接收数据“20”，存储模块522存储数据“20”，加法器530从存储模块521获取第一操作数“19”(即时钟周期T+2比较出的较大值)，从存储模块522获取第二操作数“20”，对两个操作数做比较，得到比较结果(即第一操作数小于第二操作数)，即得到本次池化操作的池化结果“20”。

在池化操作为最大池化的情况下，图7中所示的9个计算单元均切换至如图6所示的状态。计算单元从寄存器组中读取数据的流程与上文最大池化中的描述一致，区别在于，图6所示的状态与图5所示的状态的数据处理方法不同，具体描述详见上文结合图5的描述，为了简洁，这里不再赘述。

应理解，每个计算单元获得的池化结果，可以写回多个寄存器组中。例如，原始图像中同一行的池化结果写到不同的寄存器组中。

上述可知，本申请实施例提供的池化运算装置，通过多个计算单元与多个寄存器组，且不同计算单元可以无阻塞地从不同寄存器组中读取数据，从而可以实现并行池化，这样可以提高池化操作的效率；此外，计算单元中包括用于存储中间计算结果的存储模块，这样可以提高数据读写效率，从而整体上提高池化操作的效率。

应理解，图7、图8-图11仅为示例而非限定。在此基础上，针对不同的应用场景，可以通过适应性推演，得到相应地处理方法，这些方案也落入本申请的保护范围。

在上文结合图7、图8-图11的描述中，均以m＝n*k为例进行描述，实际应用中，可能会出现m＞n*k，或m＜n*k。

例如，当m＞n*k时，还以图像的第1行至第k行为例进行描述，图像的第1行至第k行中的前n*k列的池化操作可以使得n个计算单元满载运行，即使得n个计算单元实现并行运算。在k*k个时钟周期后，图像的第1行至第k行中的后(m-k*n)列数据只能支持计算单元1-5的池化运算，计算单元6-9中没有数据，如图12所示(图8中n为9，k为2)，导致部分计算单元空闲，这样导致资源浪费。当m＜n*k时，也会出现上述导致部分计算单元空闲的问题。

针对上述问题，本申请实施例提供一种解决方法。当n个计算单元不满载时，将图像中的其他行中的部分数据存入n个寄存器组，使得n个计算单元都可以读取数据进行并行池化处理。

以m＞n*k为例，如图13所示，还以n为9为例，k为2为例。图13中示出图像的第1行至第4行的数据，其中，一种图案表示第1行至第2行的数据，另一种图案表示第3行至第4行的数据。

先对图像的第1行与第2行中的前9*2列数据进行池化操作，2*2个时钟周期后，将图像的第1行与第2行中的后(m-2*9)列数据存储到9个寄存器组(Bank)中，将图像的第3行与第4行中的前x列数据存储到9个寄存器组中，且第3行与第4行中的前x列数据在9个寄存器组中的存储位置与图像的第1行与第2行中的后(m-2*9)列数据在9个寄存器组中的位置要拼接在一起，如图13所示，经过上述拼接处理之后的数据可以使得，在接下来的2*2的时钟周期中，9个计算单元可以满载运行。

当m小于n*k时，处理方法类似。在开始处理图像的第1行和第2行的数据时，将图像的第1行与第2行的数据存储到9个寄存器组中，将图像的第3行和第4行的前y列数据存储到9个寄存器组中，这些数据可以使得在接下来的k*k个时钟周期内，9个计算单元满载运行。

本实施例提供的数据在多个寄存器组中的存储方法可以成为拼接方法。

应理解，通过本申请实施例提供的方案，使得本申请提供的池化运算装置针对不同尺寸的图像和池化窗，均可以实现并行池化，即实现池化运算的加速。

综上所述，本申请实施例提供的池化运算装置，通过多个计算单元与多个寄存器组可以实现并行池化运算，可以提高池化效率；此外，由于每个计算单元均可以存储池化操作的中间计算结果，因此可以提高数据读写效率，进而整体上可以提高池化效率，以实现最大化加速池化运算。

还应理解，上述各个实施例，可依据内在逻辑关系进行合理的组合，本申请对此不做限定。

还应理解，上文某些实施例中，均以池化运算装置中包9个计算单元与9个寄存器组为例进行描述，仅为示例而非限定。实际应用中，可以根据实际需要设计池化运算装置中多个计算单元与多个寄存器组的数量。

可选地，本申请实施例提供的池化运算装置的具体形态可以是芯片。

本申请实施例还提供一种计算机设备，包括内存以及上文实施例提供的池化运算装置，其中，该内存用于存储该池化运算装置待执行池化操作的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

上述仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种池化运算装置，其特征在于，包括：

多个寄存器组，用于存储多个数据；

多个计算单元，用于对所述多个数据执行池化操作，其中，不同的计算单元操作的数据位于所述多个寄存器组中的不同寄存器组中；

所述多个计算单元中的第一计算单元用于：

对所述多个数据中的第一数据和第二数据进行第一池化运算，获得第一运算结果；

存储所述第一运算结果；

从所述多个寄存器中的第一寄存器组中获取第三数据；

对所述第一运算结果和所述第三数据进行第二池化运算。
根据权利要求1所述的池化运算装置，其特征在于：

所述多个计算单元中的每个计算单元能够获取所述多个寄存器组中任意一个寄存器组中存储的数据。
根据权利要求1或2所述的池化运算装置，其特征在于，还包括：

控制单元，用于向所述多个计算单元发送控制信号，所述控制信号用于指示所述池化操作为最大池化或平均池化；

所述第一计算单元，还用于接收所述控制信号；

在对所述多个数据中的第一数据和第二数据进行第一池化运算的过程中，所述第一计算单元具体用于：

当所述控制信号指示所述池化操作为最大池化时，对所述第一数据和所述第二数据执行最大值池化运算；

当所述控制信号指示所述池化操作为平均池化时，对所述第一数据和所述第二数据进行平均值池化运算。
根据权利要求1至3中任一项所述的池化运算装置，其特征在于，所述第一池化运算包括最大值池化运算，

所述第一计算单元包括：

第一数据接口，用于接收从所述多个寄存器组获取的所述第一数据；

第二数据接口，用于接收从所述多个寄存器组获取的所述第二数据；

第一存储模块，用于存储所述第一数据；

第二存储模块，用于存储所述第二数据；

运算模块，用于比较所述第一数据与所述第二数据，获得所述第一运算结果，并将所述第一运算结果存储于锁存器中，所述比较结果为所述第一数据大于所述第二数据；

所述锁存器用于，用于存储所述第一运算结果，并根据所述第一运算结果向所述第一数据接口与所述第二数据接口发送反馈信号，所述反馈信号用于指示所述第一数据接口关闭并指示所述第二数据接口开启，其中，所述开启的第二数据接口用于接收从所述第一寄存器组中获取的所述第三数据；

所述运算模块，还用于对所述第一计算结果和所述第三数据进行所述第二池化运算。
根据权利要求1至3中任一项所述的池化运算装置，其特征在于，所述第一池化运算包括平均值池化运算；

所述第一计算单元具体包括：

第一数据接口，用于从所述多个寄存器组接收所述第一数据；

第二数据接口，用于从所述多个寄存器组接收所述第二数据；

第一存储模块，用于存储所述第一数据；

第二存储模块，用于存储所述第二数据；

加法器，用于对所述第一数据与所述第二数据进行累加，获得所述第一运算结果；

所述第二存储模块，还用于存储所述第一运算结果；

所述第一数据接口，还用于从所述第一寄存器组获取所述第三数据；

所述加法器，还用于对所述第一运算结果与所述第三数据进行所述第二池化运算。
根据权利要求5所述的池化运算装置，其特征在于，所述第一计算单元还包括：

乘法器，用于当所述加法器获得k1*k2个数据的累加结果时，对所述k1*k2个数据的累加结果乘以1/(k1*k2)以获得所述k1*k2个数据的平均值，其中，k1*k2为所述池化操作对应的池化窗的大小，k1和k2分别为不小于2的整数。
一种计算机设备，包括内存以及如权利要求1-6中任一项所述的池化运算装置，其中，所述内存用于存储所述池化运算装置待执行池化操作的数据。