WO2018205708A1

WO2018205708A1 - 应用于二值权重卷积网络的处理系统及方法

Info

Publication number: WO2018205708A1
Application number: PCT/CN2018/076260
Authority: WO
Inventors: 韩银和; 许浩博; 王颖
Original assignee: 中国科学院计算技术研究所
Priority date: 2017-05-08
Filing date: 2018-02-11
Publication date: 2018-11-15
Also published as: US20210089871A1; CN107169563B; CN107169563A; US11551068B2

Abstract

本发明提供一种应用于二值权重卷积神经网络的处理系统。该系统包括：至少一个存储单元，用于存储数据和指令；至少一个控制单元，用于获得保存在所述存储单元的指令并发出控制信号；至少一个计算单元，用于从所述存储单元获得卷积神经网络中的一层的节点值和对应的二值权重值数据并通过执行加减操作获得下一层的节点值。本发明的系统减少了卷积神经网络计算过程中的数据位宽、提高了卷积运算速度、降低了存储容量及工作能耗。

Description

应用于二值权重卷积网络的处理系统及方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种应用于二值权重卷积网络的处理系统及方法。

背景技术

深度学习技术在近几年得到了飞速的发展，深度神经网络，尤其是卷积神经网络，在图像识别、语音识别、自然语言理解、天气预测、基因表达、内容推荐和智能机器人等领域取得了广泛的应用。通过深度学习获得的深度网络结构是一种运算模型，其中包含大量数据节点，每个数据节点与其他数据节点相连，各个节点间的连接关系用权重表示。伴随着神经网络复杂度的不断提高，神经网络技术在实际应用过程中存在占用资源多、运算速度慢、能量消耗大等问题。

在现有技术中，为解决上述问题，将二值权重卷积神经网络模型应用到图像识别、增强现实和虚拟现实等领域。二值权重卷积神经网络通过将权重二值化(例如，采用1和-1表示权重)减少了数据位宽，极大地降低了参数容量并且提高了网络模型运算速度。二值权重卷积神经网络的出现降低了图像识别等复杂系统运行所需要的硬件配置，扩展了卷积神经网络的应用领域。

然而，目前大部分的深度学习应用是使用中央处理器和图形处理单元等实现的，这些技术能效不高，在嵌入式设备或低开销数据中心等领域应用时存在严重的能效问题和运算速度瓶颈，难以满足应用的性能要求，因此，很难将其应用于移动电话、嵌入式电子设备等小型化轻量级设备中。

发明内容

本发明针对二值权重卷积神经网络的网络特征和计算特征，提供一种应用于二值权重卷积网络的处理系统及方法，以克服上述现有技术的缺陷。

根据本发明的一个方面，提供了一种应用于二值权重卷积神经网络的处理系统。该系统包括：

至少一个存储单元，用于存储数据和指令；

至少一个控制单元，用于获得保存在所述存储单元的指令并发出控制信号；

至少一个计算单元，用于从所述存储单元获得卷积神经网络中的一层的节点值和对应的二值权重值数据并通过执行加减操作获得下一层的节点值。

在本发明的系统中，所述计算单元包括卷积单元和累加器，其中，所述卷积单元接收卷积神经网络中的一层的节点值和对应的二值权重值数据，所述卷积单元的输出耦合到所述累加器。

在本发明的系统中，所述卷积单元包括数值取反单元、多路选择单元和加法器，其中，输入数据分别通过所述数值取反单元接入至所述多路选择单元以及直接接入至所述多路选择单元，二值权重值数据接入至所述多路选择单元以控制所述多路选择单元的信号选通，所述多路选择单元的输出接入至所述加法器。

在本发明的系统中，所述二值权重值采用以下公式进行映射：

其中，z表示操作数，Binarize(z)表示映射后的值。

在本发明的系统中，所述二值权重值进一步映射为：

其中，z表示操作数，r(z)表示映射后的值。

根据本发明的第二方面，提供了一种应用于二值权重卷积神经网络的处理方法。该方法包括：获得卷积神经网络中的一层的节点值和对应的二值权重值数据；通过执行加减操作获得下一层的节点值。

在本发明的方法中，所述二值权重值采用以下公式进行映射：

其中，z表示操作数，Binarize(z)表示映射后的值。

在本发明的方法中，通过执行加减操作获得下一层的节点值包括：当权重值为1时，将原始输入数据传送到加法器；以及当权重值为-1时，将经过数值取反后的输入数据传送到加法器。

在本发明的方法中，所述二值权重值进一步映射为：

其中，z表示操作数，r(z)表示映射后的值。

与现有技术相比，本发明的优点在于，基于本发明的系统可以实现面向二值卷积网络的处理器或芯片，通过将权重值位宽降低至单比特，减少了存储电路的开销，降低了计算复杂度，此外，也降低了片上数据传输带宽。与采用普通位宽的神经网络相比，本发明提供的处理系统可以在不损失过多计算精度的情况下，有效降低芯片功耗和电路面积。

附图说明

以下附图仅对本发明作示意性的说明和解释，并不用于限定本发明的范围，其中：

图1示出了根据本发明一个实施例的二值神经网络的模型示意图；

图2示出了根据本发明一个实施例的神经网络处理系统的结构框图；

图3示出了根据本发明另一实施例的神经网络处理系统的结构框图；

图4示出了本发明的神经网络处理系统中计算单元的结构框图；

图5示出了根据本发明的计算单元中的卷积单元的结构框图；

图6示出了根据本发明一个实施例的神经网络的处理方法的流程图。

具体实施方式

为了使本发明的目的、技术方案、设计方法及优点更加清楚明了，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

神经网络结构包括输入层、多个隐藏层和输出层，在二值权重卷积神经网络中，多层结构的第一层输入值为原始图像(在本发明中的“原始图像”指的是待处理的原始数据，不仅仅是狭义的通过拍摄照片获得的图像)，因此在第一层(输入层)计算时需要采用正常位宽(例如，8位、1 6位等)来进行计算，其余层可以采用二值方式进行计算，即通过对该层的节点值和其对应的权重值进行二值运算来得到下一层的节点。

参见图1示出的二值神经网络模型示意图，假设

表示神经网络中某一层的几个节点，它们与下一层的节点y相连。

表示对应连接的权重，由于所有的权重都是二值数据，例如，可以用1和-1表示二值的两个取值。通过函数f来计算y的取值，则可以定义：y＝x×w。对于每一层的参数，权重值w为二值数据，当权重值w为1时，函数f的计算结果为x，当权重值w为-1时，函数f的计算结果为-x。因此，针对各层的运算存在大量的乘加操作。

本发明旨在提供一种面向二值权重神经网络的处理系统或称作处理器，该系统在二值权重神经网络计算过程中采用基本的加减操作来代替传统卷积神经网络中的乘加操作，从而提升神经网络的运算速度及能效。

图2示出了根据本发明一个实施例的应用于二值权重神经网络的处理系统的框图。概括而言，本发明提供的神经网络处理器基于存储-控制-计算的结构。存储结构用于存储参与计算的数据、神经网络权重及处理器操作指令；控制结构用于解析操作指令，生成控制信号，该信号用于控制处理系统内数据的调度和存储以及神经网络的计算过程；计算结构用于参与该处理器中的神经网络计算操作，保证数据在计算单元中能够正确地与相应权重进行计算。

具体地，参见图2的实施例，提供了面向二值权重神经网络的处理系统200，其包括至少一个存储单元210、至少一个控制单元220和至少一个计算单元230。控制单元220与存储单元210、计算单元230连接。计算单元230和存储单元210连接，用于从存储单元210读取或写入数据。存储单元210、控制单元220和计算单元230之间的数据通路包括H-TREE或FAT-TREE等互联技术。

存储单元210用于存储神经网络处理系统外部传来的数据(例如，原始特征图数据)或用于存储处理过程中产生的数据，包括处理过程中产生的处理结果或中间结果，这些结果可以来自于神经网络处理系统内部的核心运算部件或其他外部运算部件。此外，存储单元还可用于存储参与计算的指令信息(例如，载入数据至计算单元、计算开始、计算结束、或将计算结果存储至存储单元等)。存储单元可以是静态随机存储器(SRAM)、动态随机存储器(DRAM)、寄存器堆等常见存储介质，也可以是3D存储器件等新型的存储类型。

控制单元220用于获取保存在存储单元的指令并进行解析，进而根据解析得到的控制信号来控制计算单元230进行神经网络的相关运算。控制单元220完成指令译码、数据调度、过程控制等工作。

计算单元230用于根据从控制单元220获得的控制信号来执行相应的神经网络计算，计算单元230与存储单元210相连，以获得数据进行计算并将计算结果写入到存储单元210。计算单元230可完成神经网络中的大部分计算，如，卷积操作、池化操作等。池化操作通常在卷积操作之后进行，其作用为降低卷积层特征向量，通常包括平均值池化和最大值池化两类。平均值池化的方法为计算图层内所有元素的平均值作为输出结果，最大值池化的方法为计算图层内所有元素的最大值最为输出结果。通过池化操作可以改善图层出现过拟合现象。

本领域的技术人员应理解的是，尽管图2中未示出，该处理系统还包括地址寻址功能，用于将输入的索引映射到正确的存储地址，以从存储单元中获得需要的数据或指令，地址寻址功能可以实现在控制单元中或以独立单元的形式实现。

图3是根据本发明另一实施例的神经网络处理系统的结构框图。与图2的神经网络处理系统的区别是：在图3(其中未示出各单元的连接关系)的神经网络处理系统300中，根据存储数据的类型不同，划分成多个存储单元，即输入数据存储单元311、权重存储单元312、指令存储单元313和输出数据存储单元314；计算单元包括多个可以并行处理的子计算单元1至N。

输入数据存储单元311用于存储参与计算的数据，该数据包括原始特征图数据和参与中间层计算的数据；权重存储单元312用于存储已经训练好的神经网络权重；指令存储单元313用于存储参与计算的指令信息，指令可被控制单元320解析为控制流来调度神经网络的计算；输出数据存储单元314用于存储计算得到的神经元响应值。通过将存储单元进行细分，可将数据类型基本一致的数据集中存储，以便于选择合适的存储介质并可以简化数据寻址等操作。

此外，通过采用多个并行的计算单元，可以提供神经网络的计算速度。

图4示出了图2和图3中的计算单元的结构框图和连接关系图。参见图4所示，计算单元由依次连接的卷积单元、加法单元(或加法器)、累加器单元、中间层缓冲单元、池化及批量归一化单元等运算部件组成。应注意的是，在本文中，所述的卷积单元指的是在物理实现时通过加减操作来完成卷积的结果。

卷积单元可由原码-补码转换单元、多路选择器和加法器等单元组成，用于完成图层数据与权重的卷积操作，输出结果作为加法单元的输入数据。

累加器由加法器单元组成，用于保存和累加加法单元的部分数据和结果。

中间层缓冲单元由存储器组成，用于存储单个卷积核完成卷积操作后的结果。

池化及批量归一化单元对卷积输出层进行池化操作。

在本发明的实施例中，可采用或门实现加法单元，或门的输入为来自卷积单元的输出结果，输出值为单比特值，采用或门实现加法单元可以简化运算、增加运算效率。在另一实施例中，可以采用汉明重量计算单元来实现加法单元。汉明重量计算单元的输入为卷积单元的输出结果，输出值为输入数据中逻辑1的数量，即汉明重量。采用汉明重量计算单元实现加法单元能够精确实现求和操作。

进一步地，本发明提出一种适用于二值权重神经网络的卷积单元，如图5所示。卷积单元由数值取反单元、多路选择单元和加法器单元组成。输入数据(例如，卷积神经网络中的一层的节点值)分别接入到数值取反单元以及多路选择单元的一个输入，数值取反单元接入至多路选择单元的另一个输入，权重数据接入至多路选择单元中作为信号选通单元，多路选择单元的输出结果接入至加法器单元中，加法器单元的输出结果作为卷积单元的输出结果。

数值取反单元用于将输入数值做取反操作。在本发明提供的应用于二值权重卷积神经网络处理中，正数采用原码表示，负数采用补码表示，数值取反单元可将输入数据做数值取反处理。例如，对于具有符号位的二进制正数0101(+5)，输入至数值取反单元后输出的二进制补码为1011(-5)；对于采用补码表示的具有符号位的二进制负数1010(-6)，输入值数值取反单元后输出的二进制数为0110(+6)。

在卷积单元中原始输入数据和数值取反后的输入数据接入至多路选择器中，当权重值为-1时，多路选择器输出经过数值取反后的输入数据，当权重值为1时，多路选择器输出原始输入数据。加法器单元用于完成卷积运算中加法操作。

具体地，当采用本发明的卷积单元时，以卷积神经网络某一层的y＝x ₀×w ₀+x ₁×w ₁+x ₂×w ₂为例，当w0为1，w1为-1，w2为1时，则y可以表示为y＝x ₀-x ₁+x ₂，即乘加运算过程转化为加减运算。

此外，在本发明提供的基于二值权重神经网络处理系统中，为了减少存储空间并提高运算效率，在本发明的另外实施中，还可将权重数据进一步缩减。具体过程如下：

对于二值权重卷积神经网络，权重可采用1和数值-1表示，因此在将传统卷积神经网络中的正常位宽的权重数据应用至二值权重卷积神经网络时需要依据下式对图层进行二值化处理。

其中，z表示输入操作数，Binarize(z)表示映射结果，即式(1)表达的操作可理解为，当输入操作数大于等于零时，所述操作数被二值化为1；当操作数小于零时，操作数被二值化为-1。

本领域的技术人员应当理解，除了采用上式(1)中的决定式的二值化方式外，还可采用其他方式进行映射，例如，通过概率方法来判断映射为1或-1。

通常，可采用两比特二进制数描述二值权重神经网络中被二值化的权重数据，其中高位为符号位，低位为数据位，1的二进制源码为01，-1的二进制补码为11。

可将上述采用两比特表示的权重数据进行重映射，重映射函数r(z)为：

式(2)表达的操作可理解为，当输入操作数等于1时，所述操作数保持数值1不变；当操作数为-1时，操作数被映射为数值0。

因此，本发明提出的二值权重神经网络处理系统也可采用数值0代表二值权重神经网络中数值为-1的权重值，采用数值1代表二值权重神经网络中数值为1的权重值。载入至权重神经网络处理器的权重值需要在片外进行预处理，即根据函数r(z)进行重映射。通过这种方式，可以将两比特表示的权重值缩减为单比特。

图6是本发明利用图3的神经网络处理系统进行神经网络计算的方法流程图，该方法包括：

步骤S1，控制单元对存储单元寻址，读取并解析下一步需要执行的指令；

步骤S2，根据解析指令得到的存储地址从存储单元中获取输入数据；

步骤S3，将数据和权重分别从输入存储单元和权重存储单元载入至计算单元；

步骤S4，计算单元执行神经网络运算中的运算操作，其中包括卷积操作、池化操作等

步骤S5，将数据存储输出至存储单元中。

本发明依据二值权重神经网络中权重值为1和-1的特点，提供一种应用于二值权重卷积神经网络的处理系统，减少了神经网络计算过程中数据位宽、提高卷积运算速度、降低了存储容量及工作能耗。

本发明的卷积神经网络处理器可应用了各种电子设备，例如、移动电话、嵌入式电子设备等。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

一种应用于二值权重卷积神经网络的处理系统，其特征在于，包括：

至少一个存储单元，用于存储数据和指令；

至少一个控制单元，用于获得保存在所述存储单元的指令并发出控制信号；

至少一个计算单元，用于从所述存储单元获得卷积神经网络中的一层的节点值和对应的二值权重值数据并通过执行加减操作获得下一层的节点值。
根据权利要求1所述的系统，其特征在于，所述计算单元包括卷积单元和累加器，其中，所述卷积单元接收卷积神经网络中的一层的节点值和对应的二值权重值数据，所述卷积单元的输出耦合到所述累加器。
根据权利要求2所述的系统，其特征在于，所述卷积单元包括数值取反单元、多路选择单元和加法器，其中，输入数据分别通过所述数值取反单元接入至所述多路选择单元以及直接接入至所述多路选择单元，二值权重值数据接入至所述多路选择单元以控制所述多路选择单元的信号选通，所述多路选择单元的输出接入至所述加法器。
根据权利要求1所述的系统，其特征在于，所述二值权重值采用以下公式进行映射：

其中，z表示操作数，Binarize(z)表示映射后的值。
根据权利要求4所述的系统，其特征在于，所述二值权重值进一步映射为：

其中，z表示操作数，r(z)表示映射后的值。
一种应用于二值权重卷积神经网络的处理方法，其特征在于，包括：

获得卷积神经网络中的一层的节点值和对应的二值权重值数据；

通过执行加减操作获得下一层的节点值。
根据权利要求6所述的处理方法，其中，所述二值权重值采用以下公式进行映射：

其中，z表示操作数，Binarize(z)表示映射后的值。
根据权利要求7所述的处理方法，其中，通过执行加减操作获得下一层的节点值包括：

当权重值为1时，将原始输入数据传送到加法器；以及

当权重值为-1时，将经过数值取反后的输入数据传送到加法器。
根据权利要求7所述的处理方法，其中，所述二值权重值进一步映射为：

其中，z表示操作数，r(z)表示映射后的值。
一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求6至9中任一项所述方法的步骤。