WO2019227322A1

WO2019227322A1 - 池化装置和池化方法

Info

Publication number: WO2019227322A1
Application number: PCT/CN2018/088959
Authority: WO
Inventors: 高明明; 谷骞; 杨康
Original assignee: 深圳市大疆创新科技有限公司
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2019-12-05
Also published as: US20210073569A1; CN110383330A

Abstract

提供一种池化装置和方法。该池化装置包括第一处理电路和第二处理电路。第一处理电路用于计算输入图像沿行方向或列方向的临时池化结果；第二处理电路用于根据输入图像沿行方向或列方向的临时池化结果，生成输出图像。先沿输入图像的某个方向对输入图像进行池化运算，再根据计算出的临时池化结果生成计算输入图像的最终池化结果，这种池化方式具有通用性，可以使得池化过程的硬件设计变得简单。

Description

池化装置和池化方法

版权申明

技术领域

本申请涉及人工智能(artificial intelligence，AI)领域，并且更为具体地，涉及一种池化装置和池化方法。

背景技术

随着AI的发展，卷积神经网络(convolutional neural networks，CNN)在图像分类、图像分割取得了不错的成绩。

目前，各大厂商开始对CNN的运算过程进行硬件化，希望可以以芯片的形式实现CNN的片上运算。

CNN通常包含卷积层、池化(pooling)层等神经网络层，池化层可用于执行池化运算。池化运算可以包括一般池化以及感兴趣区域(region of interest，ROI)池化，池化操作包括最大池化和平均池化。不同池化运算和/或池化操作对硬件的要求并不完全相同，导致硬件的设计复杂。

发明内容

本申请提供一种池化装置和池化方法，能够简化池化过程的硬件设计。

第一方面，提供一种池化装置，所述池化装置用于对输入图像进行池化操作以生成池化后的输出图像。所述池化装置包括：一个或多个第一处理电路，用于计算所述输入图像沿行方向或列方向的临时池化结果；一个或多个第二处理电路，用于根据所述输入图像沿行方向或列方向的临时池化结果，生成所述输出图像。

第二方面，提供一种池化方法，所述池化方法用于对输入图像进行池化操作以生成池化后的输出图像，所述池化方法包括：计算所述输入图像沿行方向或列方向的临时池化结果；根据所述输入图像沿行方向或列方向的临时池化结果，生成所述输出图像。

本申请先沿输入图像的行方向(或列方向)对输入图像进行池化运算，再根据计算出的临时池化结果生成计算输入图像的最终池化结果(即输出图像的像素)，这种池化方式具有通用性，可以使得池化过程的硬件设计变得简单。

附图说明

图1是本申请实施例提供的池化装置的示意性结构图。

图2是本申请实施例提供的第一处理电路对输入图像的一种计算方式的示意图。

图3是本申请实施例提供的第一处理电路对输入图像的另一计算方式的示意图。

图4是本申请实施例提供的第一处理电路和片上缓存的连接关系示例图。

图5是本申请实施例提供的片上缓存的结构的示例图。

图6是本申请实施例提供的神经网络处理器的示意性结构图。

图7是本申请实施例提供的池化方法的示意性流程图。

具体实施方式

CNN可以包括以下神经网络层中的一种或多种：预处理层，卷积层，激活层，池化层，以及全连接层。

池化层主要用于执行池化操作。池化层通常会以池化窗口为单位对输入的特征图像进行池化操作。池化窗口的宽度可用于标识一个池化窗口所包含的像素的列数，相应地，池化窗口的高度可用于标识一个池化窗口所包含的像素的行数。池化窗口的宽度和高度可以相同，也可以不同，其具体数值可以根据实际需要选择，本申请实施例对此并不限定。池化窗口有时也可称为池化操作的滑动窗口或池化核。

池化操作的种类可以有多种，如平均池化(average pooling)和最大值池化(max pooling)。平均池化可用于计算池化窗口所包含的像素的平均值；最大值池化可用于计算池化窗口所包含的像素的最大值。以平均池化为例，可以先将池化窗口中的像素的像素值累加，然后再计算这些像素的平均值。以最大值池化为例，可以将池化窗口中的像素的像素值两两进行比较，最终的比较结果即为池化窗口中的像素的最大值。

池化操作需要对池化窗口中的各像素依次进行处理，当池化窗口中的各像素均处理完毕之后即可产生最终的池化结果。在得到最终的池化结果之前，池化操作一般会产生临时池化结果。行方向的临时池化结果指的是对输入图像的行像素处理得到的临时池化结果。输入图像的一行像素对应的临时池化结果的数量与该输入图像经过池化层后需要得到的输出图像的列数相等。同理，列方向的临时池化结果指的是对输入图像的列像素处理得到的临时池化结果。输入图像的一列像素对应的临时池化结果的数量与该输入图像经过池化层后需要得到的输出图像的行数相等。以平均池化为例，输入图像的行方向的临时池化结果可以指输入图像的行像素中的属于一个池化窗口的像素的像素累加值，输入图像的列方向的临时池化结果可以指输入图像的列像素中的属于一个池化窗口的像素的像素累加值；以最大值池化为例，输入图像的行方向的临时池化结果可以指输入图像的行像素中的属于一个池化窗口的像素的像素最大值，输入图像的列方向的临时池化结果可以指输入图像的列像素中的属于一个池化窗口的像素的像素最大值。

按照池化层的池化对象的不同，池化层对应的池化过程可以分为一般池化和ROI池化。对于一般池化而言，其通常对输入的整个特征图像进行池化操作。对于ROI池化而言，其主要对输入的整个特征图像中的一个或多个图像块(block)进行池化，该一个或多个图像块可以称为ROIs。在进行ROI池化之前，通常需要先对ROI在输入的特征图像中的位置(如ROI在输入特征图像中的行列坐标)进行解析，并根据解析出的ROI的位置从输入特征图像中取出ROI中的图像数据，作为待池化的输入图像。不同ROI位于特征图像的不同位置，且不同ROI的长度和/或宽度通常也是变化的，因此，对于ROI池化而言，其针对的图像的尺寸通常是变化的，硬件设计难度较大。因此，传统技术中，ROI池化通常采用软件的方式实现。

本申请实施例提供一种通用的池化装置。该池化装置既可用于实现一般池化，也可用于实现ROI池化。

需要说明的是，上文是以CNN中的池化操作为例进行举例说明的，但本申请实施例提供的池化装置的应用场合不限于此，可应用于需要执行池化操作的任意其他场合。下面结合图1，对本申请实施例提供的池化装置进行详细说明。

如图1所示，本申请实施例提供的池化装置10可用于对输入图像进行池化操作以生成池化后的输出图像。池化装置10可以为硬件电路(或芯片)，例如可以是现场可编程门阵列(field programmable gate array，FPGA)，也可以是特定用途集成电路(application specific integrated circuits，ASIC)。以池化装置10用于执行一般池化为例，该输入图像可以是卷积层输入的特征图像的部分或全部图像。以池化装置10用于执行ROI池化为例，该输入图像可以是卷积层输入的特征图像的某个ROI中的部分或全部图像。例如，当某个ROI中的图像的尺寸较大，可以将该ROI中的图像进一步分割成许多小的图像，作为上述输入图像。

池化装置10可以包括一个或多个第一处理电路12以及一个或多个第二处理电路14。

该一个或多个第一处理电路12可用于计算输入图像沿行方向或列方向的临时池化结果。当该一个或多个第一处理电路12用于计算输入图像沿行方向的临时池化结果时，该第一处理电路12也可称为行处理电路。同理，当该一个或多个第一处理电路12用于计算输入图像沿列方向的临时池化结果时，该第一处理电路12也可称为列处理电路。

该一个或多个第二处理电路14可用于根据输入图像沿行方向或列方向的临时池化结果，生成输出图像。

例如，该一个或多个第二处理电路14可用于沿与第一处理电路12的处理方向相垂直的方向对第一处理电路12输出的临时池化结果进行处理，得到输出图像。

传统池化过程通常需要逐池化窗口计算，即先计算出当前池化窗口的最终池化结果，再对下一池化窗口进行计算。本申请实施例打破了传统池化过程的上述计算方式，先沿输入图像的行方向(或列方向)对输入图像进行池化运算，再根据计算出的临时池化结果生成计算输入图像的最终池化结果(即输出图像的像素)，这种池化方式具有通用性，可以使得池化过程的硬件设计变得简单。

第一处理电路12和第二处理电路14可以是相互独立的硬件电路，也可以共用同一电路。或者，第二处理电路14可以复用第一处理电路12。第一处理电路12和第二处理电路14共用同一电路可以简化池化装置10的结构，降低池化装置10的成本。

第一处理电路12每个时钟周期可以处理一个像素对应的运算(即单点运算)，也可以处理多个像素对应的运算。像素对应的运算的类型与池化操作的类型、像素在图像中的位置等因素有关，本申请实施例对此不做具体限定。例如，一个像素对应的运算可以包括该像素与相邻像素之间的像素值比较、该像素与相邻像素的像素值的累加、该像素位于图像块边界时的边界划分操作，像素对应的临时池化结果的存储等。

如果第一处理电路12每个时钟周期处理多个像素对应的运算，则需要向第一处理电路12输入该多个像素对应的多条运算指令，这样实现起来比较复杂。相比而言，如果控制第一处理电路12每个时钟周期进行单点运算，则会使得池化装置10的逻辑控制变得简单。

本申请实施例对池化装置10包含的第一处理电路12的数量不做具体限定。可选地，在一些实施例中，池化装置10可以仅包括一个第一处理电路12。在这种情况下，该第一处理电路12可以对输入图像进行逐行或逐列处理。

可选地，在另一些实施例中，池化装置10可以包括多个第一处理电路12。该多个第一处理电路12可以并行地计算输入图像的多行像素或多列像素对应的临时池化结果，多行像素或多列像素的并行计算可以提高池化装置的计算效率。

进一步地，可以将池化装置10所包括的第一处理电路12的数量与一个第一处理电路12处理目标像素所需的时钟周期的数量相匹配。其中，目标像素为一个第一处理电路12在一个时钟周期内接收到的待处理像素。

假设一个处理电路12处理目标像素需要N个时钟周期，则可以将池化装置10包括的第一处理电路12的数量设置为N。假设池化装置10在第k至第k+N个时钟周期分别向第1至第N个第一处理电路12传输目标像素，由于一个第一处理电路12处理目标像素需要N个时钟周期，则当第k+N+1个时钟周期来临时，最先接收到目标像素的第1个第一处理电路12刚好将之前接收到的目标像素处理完毕，进而可以在第k+N+1个时钟周期接收新的目标像素。因此，将池化装置10所包括的第一处理电路12的数量配置成与一个第一处理电路12处理目标像素所需的时钟周期的数量相匹配，可以使得每个第一处理电路的处理过程实现紧密流水，提高池化装置的并行度和计算效率。

为了便于理解，下面结合图2，以第一处理电路12为行处理电路，输入图像的像素沿行方向输入至池化装置为例进行更为详细的举例说明。首先，在硬件设计时，通常会在系统的时钟频率、总线位宽以及系统的成本等因素之间进行权衡。假设本申请实施例提供的池化装置10所属的系统的主频为1GHz，总线位宽为128比特，每个像素包含8比特的像素数据，则系统在一个时钟周期可以向池化装置10的一个行处理电路输入沿行方向连续的16个像素(对应于上述目标像素)。假设一个行处理电路一个时钟周期针对一个像素进行单点运算，则一个行处理电路处理完16个像素需要16个时钟周期。在这种情况下，可以将池化装置10中的行处理电路的数量设置为16。

经过上述设置，假设系统满带宽运行，则对于每个行处理电路而言，经过16个周期可以处理完128比特的像素数据，等128比特的像素数据处理完成之后的下一时钟周期恰好有新的16个像素被输入至该行处理电路，从而可以实现每个行处理电路的紧密流水，提高了系统的并行度。

图2是以输入图像的像素沿行方向输入至池化装置为例进行说明的，但本申请实施例不限于此，输入图像的像素也可以沿列方向输入至池化装置。在这种情况下，一个时钟周期输入的16个像素分别属于输入图像的16行，因此，如图3所示，可以在每个时钟周期将该16个像素分别输入至16个行处理电路，使得每个行处理得到8比特的像素数据。

第一处理电路12计算得到的临时池化结果可以存入片上缓存，也可以通过系统总线存入外部的存储器，本申请实施例对此并不限定。下面结合图4，给出临时池化结果的一种可选的存储方式。

如图4所示，池化装置10还可包括多个片上缓存16。该多个片上缓存16可以与多个第一处理电路12一一对应，其中每个片上缓存16可专门用于存储相应第一处理电路12计算得到的临时池化结果。

本申请实施例为各第一处理电路12设置了专门的片上缓存16，可以使得每个第一行处理电路12的每个临时池化结果的计算过程尽可能在片上完成，降低池化过程中池化装置与外部存储器之间的数据交互，这样可以提高池化装置的计算效率。

可选地，可以对片上缓存16的容量进行配置，使得片上缓存16的容量能够容纳输入图像的一行或一列像素对应的临时池化结果。

可选地，如图5所示，片上缓存16的一个存储地址161可用于存储输入图像的一行或一列像素对应的临时池化结果中的一个临时池化结果。多个片上缓存16的同一存储地址存储的临时池化结果可对应输入图像的相同列方向或相同行方向。具体地，当第一处理电路12计算输入图像沿行方向的临时池化结果时，多个片上缓存16的同一存储地址存储的临时池化结果对应输入图像的相同列方向；当第一处理电路12计算输入图像沿行方向的临时池化结果时，多个片上缓存16的同一存储地址存储的临时池化结果对应输入图像的相同行方向。在本实施例中，第二处理电路14的输入数据可以由多个片上缓存16的同一存储地址存储的临时池化结果拼接而成。

片上缓存16的存储地址的上述配置方式使得第二处理电路14通过简单的数据拼接操作即可获得输入数据，无需进行复杂的寻址操作，从而简化了池化装置的实现。

假设片上缓存16的深度为64，如果输入图像的一行或一列像素对应的临时池化结果的数量多于64，一种处理方式是增大片上缓存16的深度，使其能够容纳一行或一列像素对应的临时池化结果(如将片上缓存的深度增加至512)，以满足绝大多数应用；另一种处理方式是将输入图像进行拆分，得到尺寸较小的多个输入图像，然后利用池化装置对该多个输入图像分别进行池化运算。

第二处理电路14基于第一处理电路12输出的临时池化结果生成输出图像。作为一种可能的实现方式，第二处理电路14可以等第一处理电路12将输入图像的所有行或列处理完毕之后，再基于第一处理电路12输出的临时池化结果生成输出图像。作为另一种可能的实现方式，第一处理电路12每处理完输入图像的部分行或部分列的像素，即可控制第二处理电路14开始处理，即第一处理电路12与第二处理电路14的处理过程交替进行，这种处理方式的优点在于无需同时存储输入图像的所有临时池化结果，对缓存容量的要求会低一些。

可选地，池化装置10可以包括N个第一处理电路12(N为大于1的正整数)。池化装置10还可包括控制电路。控制电路可用于执行如下操作：如果池化窗口的高度或宽度小于或等于N，则每当N个第一处理电路将N行或N列像素对应的临时池化结果存入N个片上缓存之后，控制第二处理电路14可以根据N个片上缓存存储的临时池化结果生成输出图像的部分像素。

可选地，控制电路还可用于如果池化窗口的高度或宽度大于N，将N个片上缓存16存储的至少部分临时池化结果存入除多个片上缓存之外的其他片上缓存或外部存储器，并控制第二处理电路14根据M行或M列像素对应的临时池化结果，生成输出图像的部分或全部像素，其中M为大于或等于池化窗口的高度或宽度的正整数，M行或M列像素对应的临时池化结果包括其他片上缓存或外部存储器存储的临时池化结果。

以第一处理电路为行处理电路，池化装置10包括16个行处理电路为例，池化装置10可以根据池化窗口的尺寸对行处理电路的计算方式以及行处理电路输出的临时池化结果的存储方式进行控制。

以pooling≤16(pooling≤16表示池化窗口的宽度和高度小于或等于16，如pooling＝2或pooling＝16)为例，每当16个行处理电路处理完输入图像的16行像素，可以控制列处理电路(对应于上文的第二处理电路，列处理电路可以复用行处理电路，即与行处理电路共用同一电路)对该16行像素对应的临时池化结果进行串行处理，以获取该16行像素对应的最终池化结果。

以pooling＞16(如pooling＝32)为例，由于16行像素对应的临时池化结果不能完成完整的池化操作，则可以先将片上缓存中缓存的数据拼接，并将拼接后的输入存储到其他片上缓存(如片上的更大的临时缓存)或外部存储器中(如片外的双倍速率(double data rate，DDR)中)，待行处理电路输出的临时池化结果能够完成完整的池化操作之后，再从其他片上缓存或外部存储器中读取数据，并采用列处理单元对这些数据进行处理。

当然，当pooling≤16时，也可以采用与pooling＞16的处理方式类似的方式进行处理，这样做的优点在于无论池化窗口的尺寸是多少，池化装置10的处理方式保持一致，仅需要设计一套通用电路即可。

上文指出，输入图像可以是ROI中的图像，池化装置可用于执行ROI池化。ROI的解析可以通过软件配置给池化装置10，也可以由池化装置10进行自解析。

例如，池化装置10还可包括解析电路19。解析电路19可用于接收卷积层输出的特征图像和ROI参数；根据ROI参数确定ROI在特征图像中的位置；并将ROI中的图像作为输入图像，传输至一个或多个第一处理电路16。ROI在特征图像中的位置的解析方式可以参见传统技术，此处不再详述。

本申请实施例还提供一种神经网络处理器。如图6所示，该神经网络处理器60可以包括卷积装置62和池化装置10。池化装置10可用于对卷积装置62输出的特征图像进行池化操作。

上文结合图1至图6，详细描述了本申请的装置实施例，下面结合图7，详细描述本申请的方法实施例。应理解，方法实施例的描述与装置实施例的描述相互对应，因此，未详细描述的部分可以参见前面装置实施例。

图7是本申请实施例提供的池化方法的示意性流程图。图7所示的池化方法可用于对输入图像进行池化操作以生成池化后的输出图像，图7的方法可包括步骤710和步骤720。

在步骤710中，计算所述输入图像沿行方向或列方向的临时池化结果。

在步骤720中，根据所述输入图像沿行方向或列方向的临时池化结果，生成所述输出图像。

可选地，步骤710可包括：利用多个第一处理电路并行地计算所述输入图像的多行或多列像素的临时池化结果。

可选地，所述第一处理电路的数量与一个所述第一处理电路处理目标像素所需的时钟周期的数量相匹配，所述目标像素为一个所述第一处理电路在一个时钟周期内接收到的待处理的像素。

可选地，图7的方法还可包括：将多个所述第一处理电路计算得到的临时池化结果分别存入与多个所述第一处理电路一一对应的多个片上缓存。

可选地，所述片上缓存的容量能够容纳所述输入图像的一行或一列像素对应的临时池化结果。

可选地，所述片上缓存的一个存储地址用于存储所述输入图像的一行或一列像素对应的临时池化结果中的一个临时池化结果。多个所述片上缓存的同一存储地址存储的临时池化结果对应所述输入图像的相同列方向或相同行方向。在步骤720之前，图7的方法还可包括：对多个所述片上缓存的同一存储地址存储的临时池化结果进行拼接。

可选地，步骤720可包括：如果池化窗口的高度或宽度小于或等于N，则每当N个所述第一处理电路将N行或N列像素对应的临时池化结果存入N个所述片上缓存之后，根据N个所述片上缓存存储的临时池化结果生成所述输出图像的部分像素，其中N表示所述第一处理电路的数量，N为大于1的正整数。

可选地，在步骤720之前，图7的方法还可包括：如果池化窗口的高度或宽度大于N，将N个所述片上缓存存储的至少部分临时池化结果存入除多个所述片上缓存之外的其他片上缓存或外部存储器；步骤720可包括：根据M行或M列像素对应的临时池化结果，生成所述输出图像的部分或全部像素，其中M为大于或等于所述池化窗口的高度或宽度的正整数，M行或M列所述像素对应的临时池化结果包括所述其他片上缓存或外部存储器存储的临时池化结果。

可选地，所述输出图像是基于一个或多个第二处理电路计算得到的，且至少一个所述第一处理电路和至少一个所述第二处理电路共同同一电路。

可选地，所述第一处理电路每个时钟周期处理一个像素对应的运算。

可选地，所述池化装置为现场可编程门阵列或特定用途集成电路。

可选地，所述输入图像为感兴趣区域ROI中的图像。

可选地，图7的方法还可包括：接收卷积层输出的特征图像和ROI参数；根据所述ROI参数，确定ROI在所述特征图像中的位置；将所述ROI中的图像作为所述输入图像。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其他任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

需要说明的是，在不冲突的前提下，本申请描述的各个实施例和/或各个实施例中的技术特征可以任意的相互组合，组合之后得到的技术方案也应落入本申请的保护范围。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种池化装置，其特征在于，所述池化装置用于对输入图像进行池化操作以生成池化后的输出图像，

所述池化装置包括：

一个或多个第一处理电路，用于计算所述输入图像沿行方向或列方向的临时池化结果；

一个或多个第二处理电路，用于根据所述输入图像沿行方向或列方向的临时池化结果，生成所述输出图像。
根据权利要求1所述的池化装置，其特征在于，所述池化装置包括多个所述第一处理电路，多个所述第一处理电路用于并行地计算所述输入图像的多行或多列像素的临时池化结果。
根据权利要求2所述的池化装置，其特征在于，所述池化装置包括的第一处理电路的数量与一个所述第一处理电路处理目标像素所需的时钟周期的数量相匹配，所述目标像素为一个所述第一处理电路在一个时钟周期内接收到的待处理的像素。
根据权利要求2或3所述的池化装置，其特征在于，所述池化装置还包括：

多个片上缓存，与多个所述第一处理电路一一对应，其中每个所述片上缓存专门用于存储相应第一处理电路计算得到的临时池化结果。
根据权利要求4所述的池化装置，其特征在于，所述片上缓存的容量能够容纳所述输入图像的一行或一列像素对应的临时池化结果。
根据权利要求4或5所述的池化装置，其特征在于，所述片上缓存的一个存储地址用于存储所述输入图像的一行或一列像素对应的临时池化结果中的一个临时池化结果，多个所述片上缓存的同一存储地址存储的临时池化结果对应所述输入图像的相同列方向或相同行方向，所述第二处理电路的输入数据由多个所述片上缓存的同一存储地址存储的临时池化结果拼接而成。
根据权利要求4-6中任一项所述的池化装置，其特征在于，所述池化装置包括N个所述第一处理电路，N为大于1的正整数，

所述池化装置还包括：

控制电路，用于：

如果池化窗口的高度或宽度小于或等于N，则每当N个所述第一处理电路将N行或N列像素对应的临时池化结果存入N个所述片上缓存之后，控制所述第二处理电路根据N个所述片上缓存存储的临时池化结果生成所述输出图像的部分像素。
根据权利要求7所述的池化装置，其特征在于，所述控制电路还用于：

如果池化窗口的高度或宽度大于N，将N个所述片上缓存存储的至少部分临时池化结果存入除多个所述片上缓存之外的其他片上缓存或外部存储器，并控制所述第二处理电路根据M行或M列像素对应的临时池化结果，生成所述输出图像的部分或全部像素，其中M为大于或等于所述池化窗口的高度或宽度的正整数，M行或M列所述像素对应的临时池化结果包括所述其他片上缓存或外部存储器存储的临时池化结果。
根据权利要求1-8中任一项所述的池化装置，其特征在于，至少一个所述第一处理电路和至少一个所述第二处理电路共用同一电路。
根据权利要求1-9中任一项所述的池化装置，其特征在于，所述输入图像为感兴趣区域ROI中的图像。
根据权利要求10所述的池化装置，其特征在于，所述池化装置还包括：

解析电路，用于接收卷积层输出的特征图像和ROI参数；根据所述ROI参数，确定ROI在所述特征图像中的位置；将所述ROI中的图像作为所述输入图像，传输至一个或多个所述第一处理电路。
根据权利要求1-11中任一项所述的池化装置，其特征在于，所述第一处理电路每个时钟周期处理一个像素对应的运算。
根据权利要求1-12中任一项所述的池化装置，其特征在于，所述池化装置为现场可编程门阵列或特定用途集成电路。
一种神经网络处理器，其特征在于，包括：

卷积装置；以及

如权利要求1-13中任一项所述的池化装置，用于对所述卷积装置输出的特征图像进行池化操作。
一种池化方法，其特征在于，所述池化方法用于对输入图像进行池化操作以生成池化后的输出图像，

所述池化方法包括：

计算所述输入图像沿行方向或列方向的临时池化结果；

根据所述输入图像沿行方向或列方向的临时池化结果，生成所述输出图像。
根据权利要求15所述的池化方法，其特征在于，所述计算所述输入图像沿行方向或列方向的临时池化结果，包括：

利用多个第一处理电路并行地计算所述输入图像的多行或多列像素的临时池化结果。
根据权利要求16所述的池化方法，其特征在于，所述第一处理电路的数量与一个所述第一处理电路处理目标像素所需的时钟周期的数量相匹配，所述目标像素为一个所述第一处理电路在一个时钟周期内接收到的待处理的像素。
根据权利要求16或17所述的池化方法，其特征在于，所述池化方法还包括：

将多个所述第一处理电路计算得到的临时池化结果分别存入与多个所述第一处理电路一一对应的多个片上缓存。
根据权利要求18所述的池化方法，其特征在于，所述片上缓存的容量能够容纳所述输入图像的一行或一列像素对应的临时池化结果。
根据权利要求18或19所述的池化方法，其特征在于，所述片上缓存的一个存储地址用于存储所述输入图像的一行或一列像素对应的临时池化结果中的一个临时池化结果，多个所述片上缓存的同一存储地址存储的临时池化结果对应所述输入图像的相同列方向或相同行方向；

在所述根据所述输入图像沿行方向或列方向的临时池化结果生成所述输出图像之前，所述池化方法还包括：

对多个所述片上缓存的同一存储地址存储的临时池化结果进行拼接。
根据权利要求18-20中任一项所述的池化方法，其特征在于，所述根据所述输入图像沿行方向或列方向的临时池化结果，生成所述输出图像，包括：

如果池化窗口的高度或宽度小于或等于N，则每当N个所述第一处理电路将N行或N列像素对应的临时池化结果存入N个所述片上缓存之后，根据N个所述片上缓存存储的临时池化结果生成所述输出图像的部分像素，其中N表示所述第一处理电路的数量，N为大于1的正整数。
根据权利要求21所述的池化方法，其特征在于，在所述根据所述输入图像沿行方向或列方向的临时池化结果生成所述输出图像之前，所述池化方法还包括：

如果池化窗口的高度或宽度大于N，将N个所述片上缓存存储的至少部分临时池化结果存入除多个所述片上缓存之外的其他片上缓存或外部存储器；

所述根据所述输入图像沿行方向或列方向的临时池化结果，生成所述输出图像，包括：

根据M行或M列像素对应的临时池化结果，生成所述输出图像的部分或全部像素，其中M为大于或等于所述池化窗口的高度或宽度的正整数，M行或M列所述像素对应的临时池化结果包括所述其他片上缓存或外部存储器存储的临时池化结果。
根据权利要求16-22中任一项所述的池化方法，其特征在于，所述输出图像是基于一个或多个第二处理电路计算得到的，且至少一个所述第一处理电路和至少一个所述第二处理电路共用同一电路。
根据权利要求16-23中任一项所述的池化方法，其特征在于，所述第一处理电路每个时钟周期处理一个像素对应的运算。
根据权利要求15-24中任一项所述的池化方法，其特征在于，所述池化装置为现场可编程门阵列或特定用途集成电路。
根据权利要求15-25中任一项所述的池化方法，其特征在于，所述输入图像为感兴趣区域ROI中的图像。
根据权利要求26所述的池化方法，其特征在于，所述池化方法还包括：

接收卷积层输出的特征图像和ROI参数；

根据所述ROI参数，确定ROI在所述特征图像中的位置；

将所述ROI中的图像作为所述输入图像。