WO2021027214A1

WO2021027214A1 - 基于flash存算阵列的脉冲型卷积神经网络

Info

Publication number: WO2021027214A1
Application number: PCT/CN2019/126343
Authority: WO
Inventors: 黄鹏; 项亚臣; 康晋峰; 刘晓彦; 韩润泽
Original assignee: 北京大学
Priority date: 2019-08-12
Filing date: 2019-12-18
Publication date: 2021-02-18
Also published as: US20220414427A1; CN110543933B; CN110543933A

Abstract

一种基于FLASH存算阵列的脉冲型卷积神经网络，包括：采样模块、基于FLASH的存算阵列及其对应的神经元模块、以及计数器模块；所述采样模块用于对输入图像进行采样，得到输入脉冲；所述基于FLASH的存算阵列存储有权重矩阵，其对输入脉冲与权重矩阵进行向量矩阵乘法运算，运算结果以电流形式输出；所述神经元模块对基于FLASH的存算阵列的运算结果进行积分，生成输出脉冲；所述计数器模块统计输出层的神经元模块产生的脉冲数量，将具有最大脉冲数量的神经元模块的脉冲数量作为识别结果。

Description

基于FLASH存算阵列的脉冲型卷积神经网络

技术领域

本公开涉及半导体器件及集成电路领域，具体是一种基于FLASH存算阵列的脉冲型卷积神经网络。

背景技术

深度学习在图像处理和语音识别等方面取得了巨大成功，并被广泛应用于自动驾驶、安防监控等领域。作为深度学习重要组成部分的卷积神经网络，其性能的提升对深度学习的进一步发展具有重要意义。基于FLASH设计的存储计算一体化阵列(存算阵列)能够并行执行矩阵向量乘法运算，实现存算一体化，从而在硬件层面对运算进行加速。但是类似的存算一体化结构会引入新的问题，即外围电路尤其是模数/数模转换器带来的额外且巨大的硬件开销。

公开内容

根据本公开的一个方面，提供了一种基于FLASH存算阵列的脉冲型卷积神经网络，包括：采样模块、基于FLASH的存算阵列及其对应的神经元模块、以及计数器模块；

所述采样模块用于对输入图像进行采样，得到输入脉冲；

所述基于FLASH的存算阵列存储有权重矩阵，其对输入脉冲与权重矩阵进行向量矩阵乘法运算，运算结果以电流形式输出；

所述神经元模块对基于FLASH的存算阵列的运算结果进行积分，生成输出脉冲；

所述计数器模块统计输出层的神经元模块产生的脉冲数量，将具有最大脉冲数量的神经元模块的脉冲数量作为识别结果。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举优选实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定。对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本公开实施例的基于FLASH存算阵列的脉冲型卷积神经网络的结构示意图；

图2(a)为基于FLASH存算阵列的全连接层；图2(b)为基于FLASH存算阵列的卷积层和池化层；

图3为神经元模块的结构示意图；

图4为计数器模块的结构示意图。

具体实施方式

本发明以脉冲个数代表具体数值信息，即将卷积神经网络中各层的输入输出均用二进制(1/0)表示。这样的硬件实现方式将卷积神经网络各层的中间值均转变为二进制，因此消除了模数/数模转换器，可以有效解决外围电路带来的硬件开销，并简化存算一体化结构的硬件实现。

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。其中一些但并非全部的实施例将被示出。实际上，本公开的各种实施例可以许多不同形式实现，而不应被解释为限于此数所阐述的实施例。在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

本公开第一实施例提供了一种基于FLASH存算阵列的脉冲型卷积神经网络。卷积神经网络包括：输入层、多个隐藏层以及输出层。多个隐藏层包括：多层卷积层、多层池化层、一层或多层全连接层。卷积层和池化层对输入数据进行特征提取与特征压缩，全连接层对卷积层和池化层提取得到的特征图像进行处理，输出得到分类或识别结果。

本公开实施例提供了一种基于FLASH存算阵列的脉冲型卷积神经网络，如图1所示，脉冲型卷积神经网络包括：采样模块、多层的基于FLASH的存算阵列以及对应的神经元模块、以及计数器模块。

采样模块对输入图像进行采样，利用泊松采样或高斯采样对输入图像进行采样，得到二进制的输入脉冲。

每一层基于FLASH的存算阵列以及对应的神经元模块，均对应卷积神经网络的一层，即基于FLASH的存算阵列以及对应的神经元模块可以是输入层、卷积层、池化层、全连接层和输出层。每一层的基于FLASH的存算阵列接收上一层神经元模块的输出脉冲，该层的神经元模块的输出脉冲作为下一层基于FLASH的存算阵列的输入。

基于FLASH的存算阵列对输入脉冲与存算阵列中存储的权重矩阵进行向量矩阵乘法运算，从而在硬件层面实现卷积、池化和全连接等运算，运算结果以电流形式输出。

神经元模块对本层的FLASH存算阵列的运算结果(电流)进行积分，当积分得到的电压超过预先设置的阈值，将触发脉冲产生电路生成脉冲，神经元模块输出一个脉冲，然后该神经元模块的积分电压被复位至初始状态。当积分得到的电压未超过该预先设置的阈值，脉冲产生电路不会被触发，神经元模块不输出脉冲。神经元模块通过上述方式产生脉冲序列(1/0)作为输出脉冲，并作为下一层基于FLASH的存算阵列的输入脉冲。

输出层的每一个节点包括一个计数器模块，即作为输出层的每一个神经元模块均连接一个计数器模块。计数器模块统计在整个识别过程中每个输出层的神经元模块产生的脉冲数并记录。由于单次采样无法保证对输入图像采样的完整性，故利用本实施例的基于FLASH存算阵列的脉冲型卷积神经网络进行多次识别，即采样-计算-积分这一过程会在整个识别过程内多次进行。而在识别过程结束时，输出层的计数器模块会比较每个输出层的神经元模块产生的脉冲数，具有最大脉冲数的神经元模块的输出的脉冲数即为识别结果。

如图2所示，所述基于FLASH的存算阵列包括：多个FLASH单元、多条字线、多条源线、多条位线、多个减法器。

多个FLASH单元组成存算阵列，其中，每一列FLASH单元的栅极连接相同的字线，源极连接相同的源线，每一行FLASH单元的漏极连接相同的位线。

字线的数量对应于存算阵列的列数，输入脉冲通过字线输入FLASH单元。

源线的数量对应于存算阵列的列数，源线均接固定的驱动电压V _ds，向FLASH单元的源极施加该驱动电压。

位线的数量对应于存算阵列的行数，用于输出FLASH单元漏极的信号，每一行位线叠加该行各列FLASH单元的漏极信号，并将叠加的漏极信号作为输出信号输出。即每一行的FLASH单元的漏极都连接于同一根位线，位线上的总电流值即这一行各列FLASH单元输出值的和。

图2(a)为全连接层的基于FLASH的存算阵列。输入脉冲(1/0)以电压形式被输入至字线，与存储在FLASH存算阵列中的权值矩阵相乘并累加，生成沿位线方向的和电流。图2(b)为卷积层和池化层的基于FLASH的存算阵列。在每两根相邻的位线上的k×k个FLASH单元，存储k×k的卷积核。这样操作的好处是可以实现并行计算，卷积或池化运算的结果可以一次性从位线直接读出。

FLASH单元的阈值电压可以通过编程和擦除进行设置。当对FLASH单元编程时，热电子注入，FLASH单元的阈值电压升高，其存储状态视为“0”，即该FLASH单元存储有数据“0”。当对FLASH单元擦除时，电子隧穿，FLASH单元的阈值电压降低，其存储状态视为“1”，即该FLASH单元存储有数据“1”。由此可见，通过对FLASH单元的编程和擦除，可使FLASH单元存储有“0”和“1”两种数据，通过将卷积神经网络的权值矩阵中的权值转换为二进制数，并用存储状态为“0”的FLASH单元表示二进制权值中的“0”，用存储状态为“1”的FLASH单元表示二进制权值中的“1”，从而多个FLASH单元组成的存算阵列即可表示出权值矩阵。

本实施例的基于FLASH的存算阵列，FLASH单元的源线均接固定的驱动电压V _ds。输入脉冲经字线输入FLASH单元。对于输入脉冲中的“0”，0电压通过字线施加于FLASH单元的栅极，此时该FLASH单元的漏极输出电流与参考电流的比值0，漏极输出电流即为输入脉冲中的“0”与该FLASH单元存储数据(“0”或“1”)的乘积；对于输入脉冲中的“1”，V _g通过字线施加于FLASH单元的栅极，该FLASH单元的漏极输出电流为“1”，即为输入脉冲中的“1”与FLASH单元存储数据的乘积。将多个FLASH单元的漏极连接在一起输出，“和电流”反映了输入向量和FLASH阵列中所存矩阵相乘后的结果，实现矩阵向量乘法运算。

每一行位线叠加该行各列FLASH单元的漏极信号，并将叠加的漏极信号“和电流”作为输出信号输出，即位线上的总电流值即这一行各列FLASH单元输出信号的和，反映了输入向量和FLASH存算阵列中所存权值矩阵相乘后的结果。

如图3所示，神经元模块包括：运算放大器、比较器、脉冲产生电路、复位开关、输入电阻、积分电容、并联电阻。

每个神经元模块对应基于FLASH的存算阵列的一个减法器。其中，运算放大器的负极端通过输入电阻连接减法器的输出端，其正极端接地，其负极端与其输出端之间还并联有复位开关、并联电阻和积分电容，其输出端连接比较器的一个输入端。比较器的另一个输入端输入预先设置的阈值，其输出端连接复位开关以及脉冲产生电路。

基于FLASH的存算阵列的减法器输出的电流输入运算放大器，积分电容对电流进行积分。比较器将积分得到的输出电压与预先设置的阈值电压进行比较，如果输出电压超过阈值电压，比较器触发脉冲产生电路输出脉冲，并通过比较器的反馈触发复位开关，将神经元模块置为初始状态。如果输出电压未超过阈值电压，比较器不会触发脉冲产生电路，脉冲产生电路不输出脉冲。

图4为计数器模块，该模块由N位移位寄存器构成。计数器模块的输入端连接输出层的神经元模块的脉冲产生电路，用于接收该脉冲产生电路输出的脉冲，输出端为Q ₀，…，Q _N-2，Q _N-1。每个神经元模块的计数器统计该神经元模块输出的脉冲数量，对应输出脉冲数最大的神经元模块的输出脉冲数量即为该神经网络的识别结果。

以上的详细描述通过使用示意图、流程图和/或示例，已经阐述了上述空净一体机的众多实施例。在这种示意图、流程图和/或示例包含一个或多个功能和/或操作的情况下，本领域技术人员应理解，这种示意图、流程图或示例中的每一功能和/或操作可以通过各种结构、硬件、软件、固件或实质上它们的任意组合来单独和/或共同实现。

除非存在技术障碍或矛盾，本公开的上述各种实施例可以自由组合以形成另外的实施例，这些另外的实施例均在本公开的保护范围中。

虽然结合附图对本公开进行了说明，但是附图中公开的实施例旨在对本公开优选实施方式进行示例性说明，而不能理解为对本公开的一种限制。附图中的尺寸比例仅仅是示意性的，并不能理解为对本公开的限制。

虽然本公开总体构思的一些实施例已被显示和说明，本领域普通技术人员将理解，在不背离本公开公开构思的原则和精神的情况下，可对这些实施例做出改变，本公开的范围以权利要求和它们的等同物限定。

Claims

一种基于FLASH存算阵列的脉冲型卷积神经网络，其特征在于，包括：采样模块、基于FLASH的存算阵列及其对应的神经元模块、以及计数器模块；

所述采样模块用于对输入图像进行采样，得到输入脉冲；

所述基于FLASH的存算阵列存储有权重矩阵，其对输入脉冲与权重矩阵进行向量矩阵乘法运算，运算结果以电流形式输出；

所述神经元模块对基于FLASH的存算阵列的运算结果进行积分，生成输出脉冲；

所述计数器模块统计输出层的神经元模块产生的脉冲数量，将具有最大脉冲数量的神经元模块的脉冲数量作为识别结果。
如权利要求1所述的脉冲型卷积神经网络，其特征在于，所述采样模块用于利用泊松采样或高斯采样对输入图像进行采样，得到输入脉冲。
如权利要求1所述的脉冲型卷积神经网络，其特征在于，所述脉冲型卷积神经网络的每一层均包括：所述基于FLASH的存算阵列，所述基于FLASH的存算阵列包括：多个FLASH单元、多条字线、多条源线、多条位线、多个减法器；

多个FLASH单元组成的存算阵列，每一列FLASH单元的栅极连接相同的字线，源极连接相同的源线，每一行FLASH单元的漏极连接相同的位线；每个减法器的正极端和负极端分别连接相邻两条位线。
如权利要求3所述的脉冲型卷积神经网络，其特征在于，

所述字线的数量对应于所述存算阵列的列数，输入脉冲通过字线输入FLASH单元；

所述源线的数量对应于所述存算阵列的列数，所述源线均接固定的驱动电压；

所述位线的数量对应于所述存算阵列的行数，每一行位线叠加该行各列FLASH单元的漏极信号，并将叠加的漏极信号作为输出信号输出。
如权利要求3所述的脉冲型卷积神经网络，其特征在于，所述FLASH单元存储有卷积神经网络的权重值，所述基于FLASH的存算阵列存储卷积神经网络的权重矩阵。
如权利要求5所述的脉冲型卷积神经网络，其特征在于，对所述FLASH单元编程，所述FLASH单元的存储状态视为“0”；对所述FLASH单元擦除，所述FLASH单元的存储状态视为“1”。
如权利要求5所述的脉冲型卷积神经网络，其特征在于，所述减法器正极端连接的位线上的FLASH单元存储正权重值，其负极端连接的位线上的FLASH单元存储负权重值。
如权利要求1所述的脉冲型卷积神经网络，其特征在于，神经元模块包括：比较器、脉冲产生电路、复位开关、积分电容；

积分电容对运算结果进行积分，比较器将积分得到的输出电压与预先设置的阈值电压进行比较，如果输出电压超过阈值电压，比较器触发脉冲产生电路输出脉冲，并通过比较器的反馈触发复位开关，将神经元模块置为初始状态；如果输出电压未超过阈值电压，比较器不会触发脉冲产生电路，脉冲产生电路不输出脉冲。
如权利要求1所述的脉冲型卷积神经网络，其特征在于，所述脉冲型卷积神经网络包括：输入层、多个隐藏层以及输出层；

多个隐藏层包括：多层卷积层、多层池化层、一层或多层全连接层。
如权利要求9所述的脉冲型卷积神经网络，其特征在于，所述输入层、卷积层、池化层、全连接层和输出层中的至少一层的节点包括：基于FLASH的存算阵列以及对应的神经元模块。
如权利要求10所述的脉冲型卷积神经网络，其特征在于，所述输出层的每个节点的神经元模块均连接一个所述计数器模块。