WO2021115262A1

WO2021115262A1 - 脉冲卷积神经网络算法、集成电路、运算装置及存储介质

Info

Publication number: WO2021115262A1
Application number: PCT/CN2020/134558
Authority: WO
Inventors: 王瑶; 陈轩; 李张南; 王宇宣
Original assignee: 南京惟心光电系统有限公司
Priority date: 2019-12-09
Filing date: 2020-12-08
Publication date: 2021-06-17
Also published as: TW202123032A; CN113033759A; TWI774147B

Abstract

一种脉冲卷积神经网络算法以及相关的集成电路、运算装置和存储介质，用于以高效低能耗的方式进行人工智能中的脉冲卷积神经网络运算。所述算法的特征在于，基于存算一体单元，所述存算一体单元包括至少一个存输入端，至少一个算输入端以及一个输出端，其特征在于将脉冲卷积神经网络的第一层的权值复制至若干份，份数至少为用于表征待分析物属性的量所转换成的二进制数的位数以及所述存算一体单元的存输入端的最小值，并且将复制后的所述份数的权值进行处理，使复制后的各个权值在数值上依次缩小两倍，所得数值被分别输入到多个所述存算一体单元的存输入端，所述存算一体单元的个数与所述份数相同。

Description

脉冲卷积神经网络算法、集成电路、运算装置及存储介质

本申请要求于2019年12月9日递交的中国专利申请第201911249006.1号的优先权，在此全文引用上述中国专利申请公开的内容以作为本申请的一部分。

技术领域

本发明涉及一种脉冲卷积神经网络脉冲卷积神经网络算法、集成电路、运算装置及存储介质，可以将传统的卷积神经网络转换成脉冲神经网络，具体涉及图像分类领域。

背景技术

传统的计算机大多采取冯诺依曼架构，然而，因为冯诺依曼架构存储单元和运算单元的分立，导致了在数据传输上产生了极大的能量消耗，并且影响运算速度。目前卷积神经网络在图像分类领域具有非常好的效果，拥有大量成熟的训练方法和工具，还有经过大量验证的经典卷积神经网络模型，如lenet-5、alexnet、vgg-16等。如果在采用冯诺依曼架构的硬件上运行，比如CPU、GPU、FPGA，则需要大量的数据传输过程，对于规模很大的矩阵，计算速度比数据传输的速度要快得多，优化计算速度不能够加快整个系统的速度。

存算一体单元由于能够将数据直接保存在计算单元上且不需要片上缓存，从而解决了上述问题，但是卷积神经网络运算中依然存在大量的中间数据需要缓存，且在存算一体单元上实现时，需要使用大量模数转换器将电流转换为数字信号，占用了整个系统大部分的面积和功耗。另外由于模数转换器的频率有限，所以整个系统的计算速度也受到其限制，无法再进行提升。

发明内容

脉冲神经网络试图尽可能模拟人脑的计算方式，明显的特征就是数据都是以脉冲信号的形式在网络里流动，在用硬件实现时，功耗远小于卷积神经网络。

脉冲卷积神经网络结合了卷积神经网络和脉冲神经网络的特点，将卷积神经网络模型进行一些修改后，使得可以用训练卷积神经网络的方法得到权值，并且分类准确率相对于所采用的卷积神经网络，下降幅度很小。由于网络中的数据都是脉冲形式，所以硬件资源消耗小。目前该领域的研究还仅停留在算法层面，没有相关的硬件实现方案。

现有的脉冲卷积神经网络算法中，一种输入方式是，输入脉冲通过随机数生成的方式产生，根据大数定律，需要很长时间生成大量脉冲后，才可能收敛到原始值，贴近卷积神经网络的分类结果，而这样就需要大量的计算时间，计算效率很低。另一种输入方式是，输入并不是脉冲，而是模拟值，在电路实现时，一方面输入的精度得不到保证，另一方面考虑到实际应用，输入源很可能是图像传感器，输出均为数字信号，需要考虑到兼容性。

批标准化(Batch Normalization，BN)层是卷积神经网络中的一种对网络进行优化的常用层，可以提高训练的准确率，减少训练结果对初始化方法的依赖。通过数学推导，如果要在脉冲卷积神经网络算法中添加BN层，经过卷积层/全连接层与BN层的合并后，卷积层/全连接层中一定会不可避免地产生偏置。而现有的脉冲卷积神经网络算法中，都避免了偏置的使用，这样就无法添加BN层，对大规模的卷积神经网络的训练工作带来了困扰。

此外，现有的脉冲卷积神经网络算法中，都没有考虑过结束的问题，然而在实际仿真和电路中，计算时长也是很重要的考量因素，针对这一点也值得改进。

鉴于以上，根据本发明的一方面，提出了一种脉冲卷积神经网络算法，通过改变输入方式、将平均池化层并入下一个卷积层或全连接层、支持带偏置的卷积层和全连接层的计算、支持在网络中添加BN层、设定计算结束判定条件、加入对特殊情况的辅助判断等优化改进方法，可以大大节约现有脉冲卷积神经网络算法的计算时间，并提高图像分类的准确率，增加脉冲卷积神经网络算法对偏置和BN层的功能支持，并调整输入方式增加兼容性。

根据本发明的另一方面，提出了一种脉冲卷积神经网络运算装置，在存算一体单元上实现脉冲卷积神经网络时，通过将代表卷积神经网络中真实值的多位数字信号转换成时间序列脉冲信号的形式，用电流积分比较电路代替模数转换器，从而大大减小了面积和功耗。而且卷积层和全连接层的映射方式是完全展开，即每一层的所有输出结果同时计算完成，并与作为下一层的输入连接到下一层，且每一层卷积层/全连接层的权值系数均保存在存算一体单元中，从而运算过程中没有数据需要缓存，整个系统的计算速度显著加快。

但是对于大规模的脉冲卷积神经网络，所需的存算一体单元与输入图像尺寸的平方和卷积层通道数成正比，需要占用大量面积。并且这个方案的计算速度非常快，在图像很大的情况下，远远超过了输入图像数据的传输速度，也就是说，会因为数据传输速度跟不上而导致计算速度受限。

鉴于以上，根据本发明的又一方面，提出了一种带有存储器的脉冲卷积神经网络运算装置，通过将脉冲信号按照固定时长进行打包并加入片上或者片外的存储器保存中间数据，大大缩减了所需的存算一体单元数目，从而减小面积和功耗。虽然这样的方法会使得理论上的计算速度比起不用保存中间数据的方案下降很多，但是实际上因为数据传输速度的瓶颈限制，最终的速度也在可以接受的范围内。

根据本发明的一个方面，提供一种脉冲卷积神经网络算法，基于存算一体单元，所述存算一体单元包括至少一个存输入端，至少一个算输入端以及一个输出端，其特征在于：1)将脉冲卷积神经网络的第一层的权值复制至若干份，份数至少为用于表征待分析物属性的量所转换成的二进制数的位数以及所述存算一体单元的存输入端的最小值，并且将复制后的所述份数的权值进行处理，使复制后的各个权值在数值上依次缩小两倍，所得数值被分别输入到多个所述存算一体单元的存输入端，所述存算一体单元的个数与所述份数相同；2)将所选的、集中用于表征待分析物属性的量转换成二进制数，并将待输入的所述二进制数的每一位数值，或者根据系统位宽截位后的数值作为输入脉冲，输入到所述脉冲卷积神经网络的存算一体计算单元中；并且，对于每个表征待分析物属性的输入集合，在对应于所述输入集合的时间周期内，使所述输入脉冲保持不变并不间断地输入到所述脉冲卷积神经网络中相应的计算单元，直到完成对该被分析物的所述属性的处理；3)对于用于表征待分析物属性的、对应于所述一个组中的每个基本的二进制数，使所述每个存输入端的输入量，分别与一个算输入端的输入量相对应，并且绝对值较大的存输入端的输入量与较高位的算输入端的输入量一一对应；4)在每个所述存算一体单元中，使所述存输入端的量与所述算输入端的量进行运算，输出端得到的电流值代表所述存算一体单元的存输入端的值与算输入端的值进行乘法运算的结果。

此外，根据本发明的一个实施例，所述脉冲卷积神经网络算法，其特征还在于：1)包括所述第一层的运算以及其它层的运算，并且在其中的任意层，在所述存输入端与所述算输入端的运算以外，再加一个运算累加项，所述运算累加项为一个经过修正的偏置值，所述经过修正的偏置值正比于其原始值再除以该层之前所有层的正阈值的累乘，所述正比的比例与该偏置所在的层以及之前的层的权值缩放比例有关；2)所述脉冲卷积神经网络算法，对所述存算一体单元的输出持续地进行累加，当所述累加和超过一个设定的正阈值后，对所述累加和进行清零，并且向下一层相应位置的算输入端释放一个输出脉冲；并且当所述累加和小于一个设定的负阈值之后，使该累加和保持在该负阈值上。

此外，根据本发明的一个实施例，所述脉冲卷积神经网络中包括批标准化层，对该批标准化层之前的一个卷积层或全连接层中的权值和偏置进行线性变换，其中所述线性变换中的参数由前面的训练过程中得到。

此外，根据本发明的一个实施例，其中用多个计数器对所述脉冲卷积神经网络最后一个全连接层中每个神经元的脉冲个数以及最早出现脉冲的时间进行统计，所述计数器个数为所述神经元的数目或其两倍。

此外，根据本发明的一个实施例，如果所述多个计数器中至少两个计数器计数结果均为相同的最大值，则选取最早接收到脉冲的计数器所对应的类别值为最终结果。

此外，根据本发明的一个实施例，计数器显著地多，则输出终止运算，将最终的分类结果作为所述多个计数器计数结果的最大值所对应的类别值进行输出。

此外，根据本发明的一个实施例，在所述第一层的运算之后，还进行平均池化、最大池化、卷积层和全连接层运算中的至少一种。

此外，根据本发明的一个实施例，所述脉冲卷积神经网络算法，其特征还在于：1)设定若干个时钟信号的时长为一个分析周期；2)将待分析的标的物分为若干分区；3)以所述分析周期为时间单位，逐次分析一个分区的时间序列信号，将代表该分区的运算结果送至一个存储器；4)分析下一个分区的信号，将所述代表该分区的运算结果送至所述存储器，直到所完成的多个分区的信号联合地满足下一层的分析条件；5)将所述存储器存储的各个所述分区的信号送入下一层进行运算。

此外，根据本发明的一个实施例，所述存储器为寄存器、片上缓存、片外存储或者云存储中的至少一种，或者它们的组合。

根据本发明的另一个方面，提供一种基于脉冲卷积神经网络的集成电路，其特征在于，所述集成电路执行如上述的脉冲卷积神经网络算法。

根据本发明的又一个方面，提供一种计算机可读记录介质，其上存储计算机可读指令，当所述计算机可读指令由计算机执行时，使得所述计算机执行脉冲卷积神经网络算法，所述脉冲卷积神经网络算法的特征在于：1)将脉冲卷积神经网络的第一层的权值复制至若干份，份数至少为用于表征待分析物属性的量所转换成的二进制数的位数以及所述存算一体单元的存输入端的最小值，并且将复制后的所述份数的权值进行处理，使复制后的各个权值在数值上依次缩小两倍，所得数值被分别输入到多个所述存算一体单元的存输入端，所述存算一体单元的个数与所述份数相同；2)将所选的、集中用于表征待分析物属性的量转换成二进制数，并将待输入的所述二进制数的每一位数值，或者根据系统位宽截位后的数值作为输入脉冲，输入到所述脉冲卷积神经网络的存算一体计算单元中；并且，对于每个表征待分析物属性的输入集合，在对应于所述输入集合的时间周期内，使所述输入脉冲保持不变并不间断地输入到所述脉冲卷积神经网络中相应的计算单元，直到完成对该被分析物的所述属性的处理；3)对于用于表征待分析物属性的、对应于所述一个组中的每个基本的二进制数，使所述每个存输入端的输入量，分别与一个算输入端的输入量相对应，并且绝对值较大的存输入端的输入量与较高位的算输入端的输入量一一对应；4)在每个所述存算一体单元中，使所述存输入端的量与所述算输入端的量进行运算，输出端得到的电流值代表所述存算一体单元的存输入端的值与算输入端的值进行乘法运算的结果。

此外，根据本发明的一个实施例，所述计算机可读记录介质的特征还在于：1)所述脉冲卷积神经网络算法包括所述第一层的运算以及其它层的运算，并且在其中的任意层，在所述存输入端与所述算输入端的运算以外，再加一个运算累加项，所述运算累加项为一个经过修正的偏置值，所述经过修正的偏置值正比于其原始值再除以该层之前所有层的正阈值的累乘，所述正比的比例与该偏置所在的层以及之前的层的权值缩放比例有关；2)所述脉冲卷积神经网络算法，对所述存算一体单元的输出持续地进行累加，当所述累加和超过一个设定的正阈值后，对所述累加和进行清零，并且向下一层相应位置的算输入端释放一个输出脉冲；并且当所述累加和小于一个设定的负阈值之后，使该累加和保持在该负阈值上。

此外，根据本发明的一个实施例，用多个计数器对所述脉冲卷积神经网络最后一个全连接层中每个神经元的脉冲个数以及最早出现脉冲的时间进行统计，所述计数器个数为所述神经元的数目或其两倍。

此外，根据本发明的一个实施例，在所述多个计数器进行计数的过程中，一个计数器收集的脉冲数比其他计数器显著地多，则输出终止运算，将最终的分类结果作为所述多个计数器计数结果的最大值所对应的类别值进行输出。

此外，根据本发明的一个实施例，所述脉冲卷积神经网络算法包括以下：1)设定若干个时钟信号的时长为一个分析周期；2)将待分析的标的物分为若干分区；3)以所述分析周期为时间单位，逐次分析一个分区的、时间序列信号，将代表该分区的运算结果送至一个存储器，已分析的信号可以被后续的信号覆盖；4)分析下一个分区的信号，将所述代表该分区的运算结果送至所述存储器，直到所完成的多个分区的信号联合地满足下一层的分析条件；5)将所述存储器存储的各个所述分区的信号送入下一层进行运算。

根据本发明的又一个方面，提供一种基于脉冲卷积神经网络的集成电路，所述脉冲卷积神经网络包括多层神经元，每层神经元包括多个神经元组件，每层神经元中的多个神经元彼此不连接，而连接到后层的神经元；至少一个所述神经元组件带有至多一个数字逻辑电路，所述数字逻辑电路被用于操作，所述操作包括数据分发，还可以包括最大池化、时钟同步、以及数据缓存；并且，最后一层的每个神经元组件带有一个计数器组，统计该神经元组件的输出脉冲中具有高电平的脉冲个数；其中，每个神经元包括至少一个存算一体单元和至少一个积分比较电路，所述多个存算一体单元的电流输出端彼此连接，并且集体地连接到所述积分比较电路上；每个所述积分比较电路包括至少一个积分器和至少一个比较器，所述积分器用于累加电流输出端的输出量，所述比较器用于将积分器中被累加的输出量与在先设定的阈值进行比较，并且进行比较器的清零和脉冲输出，所述清零的操作使所述的积分器可以进行下一次的累加操作；并且，每个所述存算一体单元包括至少一个存输入端和至少一个算输入端以及至少一个电流输出端，所述存输入端被设置为接收表征所述上位机所下发的权值的载流子，所述算输入端被设置为接收表征外界或所设定的上层输入脉冲的载流子；所述电流输出端被设置为以电流的形式输出被作为权值的载流子和作为输入脉冲的载流子共同作用后的载流子。

此外，根据本发明的一个实施例，所述存算一体单元为半导体原理的光电计算单元、忆阻器、快闪存储器中的一种。

此外，根据本发明的一个实施例，所述数字逻辑电路被设置为从当前池化层的上一层神经元组件中输出的、数量为池化层尺寸的平方的多个输出信号中，找出最先出现的高电平脉冲信号；并且，所述数字逻辑电路还被设置为包括一个多路选择器的功能器件，使所述高电平脉冲信号经过所述多路选择器后，保持该高电平脉冲信号所对应的通路开启，将所述通路与下一个卷积层或全连接层连通；同时忽略与该高电平脉冲信号所对应的通路相并行的其它通路的信号，或者关闭所述其它通路。

此外，根据本发明的一个实施例，将平均池化运算合并到下一个卷积层或全连接层中进行，包括：1)卷积层或全连接层，所述卷积层或全连接层的每个神经元组件中的存算一体单元数量为该层对应算法的原始尺寸的若干倍，倍数为池化层尺寸的平方，并且所述对应算法中的每一个权值在所述神经元组件中出现若干次，次数为池化层尺寸的平方，2)其中从上一层神经元组件中输出的、待传输到下一个池化层的、数量为池化层尺寸的平方的输出脉冲信号，直接作为所述卷积层或全连接层中的存算一体单元的算输入量，所述存算一体单元分别与同样的权值对应。

此外，根据本发明的一个实施例，每个所述神经元组件包括一个神经元，并且带有寄存器，所述寄存器用于实现所涉及的数据操作在时间上的同步。

根据本发明的又一个方面，提供一种脉冲卷积神经网络运算装置，用于进行脉冲卷积神经网络运算，包括一个上位机和上述的集成电路；其中，所述上位机被设置为处理并生成第一层的权值，所述生成第一层的权值的过程包括：根据一个训练得出的初始权值经过若干线性变换生成一组权值，该组权值包括多个权值数，其中后一个权值数值为前一个权值数值的1/2；并且，所述上位机将该组权值发送给所述脉冲卷积神经网络的第一层的各个神经元组件中的存算一体单元中的存输入端；并且，所述上位机将初始权值经过若干线性变换后发送给所述第一层之后的其它层的存算一体单元的存输入端中，对于紧接着平均池化层之后的卷积层或全连接层的权值，还根据池化尺寸将权值复制若干份，份数为池化层尺寸的平方。

此外，根据本发明的一个实施例，所述装置被用于按分区来分析标的物，再将各分区的标的物信号合成，构成完整的标的物信息，并且所述脉冲卷积神经网络运算装置还包括存储器，所述存储器用于存储已分步处理过的、代表所述标的物的至少一个分区的信号，并在所有的分区信号处理完以后，将所有的分区信号进行合成，或将所有的分区信号发送至另一个处理器进行合成；所述存储器为寄存器、片上缓存、片外存储或者云存储中的至少一种。

根据本发明的又一个方面，提供一种上述集成电路的制造方法，所述方法包括以下步骤：1)通过热氧化和淀积形成数字逻辑电路、积分比较电路和存算一体单元中晶体管的介质层和栅极；所述晶体管至少包括普通逻辑晶体管，高压晶体管以及浮栅晶体管；2)通过淀积MIM介质层以及淀积金属层，或热氧化和淀积工艺形成积分比较电路中的电容；3)通过离子注入的方式形成数字逻辑电路、积分比较电路和存算一体单元中晶体管的源极和漏极，以及PN结的P级和N级；4)通过金属层工艺、金属层介质工艺以及通孔工艺形成整体电路的金属连线和有源区-金属层以及金属层-金属层通孔；5)通过应用于忆阻器或快闪存储器的工艺，生成一个CMOS工艺的存算一体单元。

本发明的目的至少在于，通过将卷积神经网络中的数据转换为时间脉冲序列的方式，通过电流积分比较电路代替功耗和面积都很大的模数转换器，大大降低整个系统的面积和功耗。

本发明的另一个目在于，将每一层卷积层/全连接层的输出结果均与下一层卷积层/全连接层直接相连，权值数据可以直接保存在存算一体单元中，整个系统中不需要片上缓存，节省了大量数据搬运的过程，从而加快计算的速度。而对于大规模的网络，本发明提出了一种带有存储器的脉冲卷积神经网络运算装置，每一层卷积层/全连接层的输出结果与下一层卷积层/全连接层直接相连所需要的存算一体单元过多，面积过大，所以通过片上或片外的存储器保存部分数据，用时间换空间的方式将大大减少所需要的硬件资源。

附图说明

图1是根据实施例的计算单元的多功能区框图。

图2是根据实施例的光电计算阵列的结构示意图。

图3是实施例1-1计算单元结构的截面图(a)和立体图(b)。

图4是实施例1-2计算单元结构的截面图(a)和立体图(b)。

图5是实施例1-3计算单元的结构示意图(a)和多功能区示意图(b)。

图6是根据实施例的RRAM器件结构示意图以及其三端概述。

图7是根据实施例的闪存的基本cell单元结构图。

图8是实施例4-1的Spiking-Lenet-5的结构示意图(平均池化)。

图9是实施例4-1的Spiking-Lenet-5的结构示意图(最大池化)。

图10是实施例4-1的由存算一体单元组成的一个神经元示意图。

图11是实施例4-1的整个系统的框图(平均池化)。

图12是实施例4-1的整个系统的框图(最大池化)。

图13是实施例4-1的整个系统的计算流程图(平均池化)。

图14是实施例4-1的整个系统的计算流程图(最大池化)。

图15是实施例4-2的由存算一体单元组成的一个神经元示意图(去除寄存器)。

图16是实施例4-2的整个系统的框图(平均池化、去除寄存器)。

图17是实施例4-2的整个系统的框图(最大池化、去除寄存器)。

图18是实施例4-3的Spiking-Alexnet的结构示意图。

图19是实施例4-3的由存算一体单元组成的一个神经元示意图。

图20是实施例4-3的整个系统的框图。

图21是实施例4-3的整个系统的计算流程图。

图22是实施例4-4的整个系统的框图。

图23是实施例4-5的整个系统的框图。

图24是实施例4-6的整个系统的框图。

图25是实施例5的Alexnet网络结构图。

图26是实施例5的Spiking-Alexnet网络结构图(平均池化)。

图27是实施例5的Spiking-Alexnet网络结构图(最大池化)。

图28是实施例5的神经元的结构图。

具体实施方式

本发明中所述的存算一体单元，并不具体到某一种特定器件，只要存算一体单元中可以保存数据，通过多个存算一体单元组合可以完成向量点乘的运算即可。对于每一个存算一体单元，有存输入端、算输入端和输出端，存输入端的数据可以长时间保存，输出端的值与算输入端和和存输入端的乘积成正比，且多个存算一体单元的输出端可以进行求和。

接下来分别以光电计算单元、忆阻器、快闪存储器为例，描述存算一体单元。

实施例1

光电计算单元中的计算单元为包括三大功能区的多功能区结构，如图1所示，三大功能区为：载流子控制区、耦合区、光生载流子收集区和读出区，具体功能分别如下：

载流子控制区：负责控制并调制光电计算单元内的载流子，并且作为计算单元的电输入端口，输入其中一个运算量作为电输入量；或者只控制并调制计算单元内的载流子，通过其他区域输入电输入量。

耦合区：负责连接光生载流子收集区和读出区，使得光子入射产生的光生载流子作用于光电计算单元内的载流子，形成运算关系。

光生载流子收集区和读出区：其中收集区负责吸收入射的光子并收集产生的光生载流子，并且作为计算单元的光输入端口，输入其中一个运算量作为光输入量；读出区可以作为计算单元的电输入端口，输入其中一个运算量作为电输入量，并且作为计算单元的输出端口，输出被光输入量和电输入量作用后的载流子作为单元输出量；或者通过其他区域输入电输入量，读出区只作为计算单元的输出端口，输出被光输入量和电输入量作用后的载流子，作为单元输出量。

在上述例子中，因为光输入量实际为存储在半导体器件内的光生载流子，此载流子可以在相对于运算速度较长的时间内(通常为秒级，更长的能到数年)存储在光电计算单元中，因此光输入量即为存算一体单元中的存输入量，光生载流子收集和读出区中的收集区为存算一体单元的存输入端；电输入量不具备长时间保存在单元内的功能，因此点输入量为存算一体单元中的算输入量，光生载流子收集和读出区中的读出区或者载流子控制区为存算一体单元的算输入端，取决于具体工作模式；光电计算单元的最终运算结果在光生载流子收集和读出区中的读出区以电流的形式输出，因此光生载流子收集和读出区中的读出区即为存算一体单元的输出端。

发光单元发出的光作为入射计算单元光生载流子收集和读出区的光子，参与运算。图2是光电计算阵列的结构示意图，其中：1为发光阵列，2为计算阵列。如图2所示，光电计算阵列包括发光阵列1和计算阵列2。发光阵列1由多个发光单元周期性排列组成，计算阵列2由多个计算单元周期性排列组成。

本实施例所述的光电计算单元，有如下三种具体的器件实现形式：

实施例1-1

图3是实施例1-1计算单元结构的截面图(a)和立体图(b)。如图3所示，本实施例的计算单元包括：作为载流子控制区的控制栅极、作为耦合区的电荷耦合层，以及作为光生载流子收集区和读出区的P型衬底，P型衬底中分为左侧收集区和右侧读出区，其中右侧读出区中包括浅槽隔离、通过离子注入形成的N型源端和N型漏端。浅槽隔离位于半导体衬底中部、收集区和读出区的中间，浅槽隔离通过刻蚀并填充入二氧化硅来形成，以用于隔离收集区和读出区的电信号。N型源端位于读出区内靠近底层介质层的一侧，通过离子注入法掺杂而形成。N型漏端位于半导体衬底中靠近底层介质层与N型源端相对的另一侧，同样通过离子注入法进行掺杂法形成。应理解，本文中提及的左侧、右侧、上方以及下方只代表在通过图中所示视角观察下的相对位置随观察视角变化而变化，并不理解为对具体结构的限制。

在收集区的衬底上施加一个电压范围为负压的脉冲，或在控制栅上施加一个电压范围为正压的脉冲，使得收集区衬底中产生用于光电子收集的耗尽层，并通过右侧读出区读出收集的光电子数量，作为光输入端的输入量。读出时，在控制栅极上施加一正电压，使N型源端和收集区N型漏端间形成导电沟道，再通过在N型源端和N型漏端间施加一个偏置脉冲电压，使得导电沟道内的电子加速形成源漏之间的电流。源漏之间沟道内形成电流的载流子，受到控制栅电压、源漏间电压和收集区收集的光电子数量共同作用，作为被光输入量和电输入量共同作用后的电子，以电流的形式进行输出，其中控制栅电压、源漏间电压可以作为器件的电输入量，光电子数量则为器件的光输入量。

耦合区的电荷耦合层用于连接收集区和读出区，使收集区衬底内耗尽区开始收集光电子以后，收集区衬底表面势就会受到收集的光电子数量影响；通过电荷耦合层的连接，使得读出区半导体衬底表面势受到收集区半导体衬底表面势影响，进而影响读出区源漏间电流大小，从而通过判断读出区源漏间电流来读出收集区收集的光电子数量；

载流子控制区的控制栅，用以在其上施加一个脉冲电压，使得在P型半导体衬底读出区中产生用于激发光电子的耗尽区，同时也可以作为电输入端，输入其中一位运算量。

此外，P型半导体衬底和电荷耦合层之间存在用于隔离的底层介质层；电荷耦合层和控制栅之间亦存在用于隔离的顶层介质层。

实施例1-2

图4是实施例1-2计算单元结构的截面图(a)和立体图(b)。如图4所示，本实施例的计算单元包括：作为载流子控制区的控制栅极、作为耦合区的电荷耦合层，以及作为光生载流子收集区和读出区的P型半导体衬底，其中P型衬底中包含通过离子注入形成的N型源端和漏端。P型半导体衬底可以同时承担感光和读出的工作。N型源端位于读出区内靠近底层介质层的一侧，通过离子注入法掺杂而形成。N型漏端位于半导体衬底中靠近底层介质层与所述N型源端相对的另一侧，同样通过离子注入法进行掺杂法形成。

感光时，在P型半导体衬底上施加一个电压范围为负压的脉冲，同时在作为载流子控制区的控制栅极上施加一个电压范围为正压的脉冲，使得P型衬底中产生用于光电子收集的耗尽层，产生在耗尽区内的电子在控制栅极和P型衬底两端之间的电场作用下被加速，并在到达获得足够高的能量，穿过P型衬底和电荷耦合层之间的底层介质层势垒，进入电荷耦合层并储存于此，电荷耦合层中的电荷数量，会影响器件开启时的阈值，进而影响读出时的源漏间电流大小；读出时，在控制栅极上施加一脉冲电压，使N型源端和N型漏端间形成导电沟道，再通过在N型源端和N型漏端间施加一个脉冲电压，使得导电沟道内的电子加速形成源漏之间的电流。源漏之间的电流受到控制栅脉冲电压、源漏间电压和电荷耦合层中存储的电子数量共同作用，作为被光输入量和电输入量共同作用后的电子，以电流的形式进行输出，其中控制栅电压、源漏间电压可以作为器件的电输入量，电荷耦合层中存储的光电子数量则为器件的光输入量。

耦合区的电荷耦合层用于储存进入其中的光电子，并改变读出时器件阈值大小，进而影响读出区源漏间电流，从而通过判断读出区源漏间电流来读出感光时产生并且进入电荷耦合层中的光电子数量。

此外，P型半导体衬底和电荷耦合层之间存在一层用于隔离的底层介质层；电荷耦合层和控制栅之间亦存在一层用于隔离的顶层介质层。

实施例1-3

图5是实施例1-3计算单元的结构示意图(a)和多功能区示意图(b)。如图5所示，本实施例的计算单元包括：作为光生载流子收集和读出区的光电二极管和读出管，其中，光电二极管通过离子掺杂形成，负责感光。光电二极管的N区通过作为耦合区的光电子耦合引线连接到读出管的控制栅和复位管的源端上，读出管的漏端施加一正电压脉冲，作为读出电流的驱动电压；曝光前，复位管打开，复位管漏端电压施加到光电二极管上，使作为收集区的光电二极管处于反偏状态，产生耗尽层；曝光时，复位管关断，光电二极管被电学上隔离，光子入射光电二极管耗尽区后产生光电子，并在二极管中积累，二极管的N区和在电学上通过作为耦合区的光电子耦合引线和N区连接的读出管控制栅电势开始下降，进而影响读出管沟道内的电子浓度。读出管负责读出，其漏端施加一正脉冲电压，源端和选址管漏端连接，读出时，打开选址管，读出管中产生电流,电流大小受到复位管漏端电压、读出管漏端电压和入射光子数共同影响，读出管沟道内的电子，作为被光输入量和电输入量共同作用后的电子，以电流的形式输出，其中复位管漏端电压、读出管漏端电压可以作为器件的电输入量，电入射光子数则为器件的光输入量。

耦合区的光电子耦合引线用于连接作为光生载流子收集和读出区中收集区的光电二极管和作为读出区的读出管，将光电二极管N区电势施加到读出管控制栅上。

作为载流子控制区的复位管，通过其漏端输入一个正电压作用于光电二极管，当复位管打开时，正电压即会作用在光电二极管上，使光电二极管产生耗尽区并感光，同时也可以作为电输入端，输入其中一位运算量。

此外，选址管用于控制整个运算器件作为输出量的输出电流的输出，可以在光电计算单元组成阵列时行列选址使用。

实施例2

忆阻器(RRAM)全称为记忆电阻器，该器件可以概括为可在“高阻状态”和“低阻状态”之间切换，并可将电阻值长时间存储的一种特殊的非易失性(NVM)存储器件。

图6是RRAM器件结构示意图以及其三端概述。如图6所示，通常该器件由两层金属电极中间夹着可以行成导电通孔的特殊通孔层组，通孔层多由金属氧化物组成，常见的有如WO _x，TaO _x等。成当RRAM器件处于初始模式时，器件处于高阻态，当有较大偏压加在器件两端时，器件进入编程状态，特殊通孔层中形成导电通道，并在电压降低后继续维持此导电通道的存在并存储当前电阻值，直到施加一较大负偏压后器件进入擦除状态，导电通道管段，使得器件重新回到初始高阻态。

使用RRAM器件作为存算一体器件，因为其具有长时间存储电阻值的功能，因此其存输入端即为处于编程状态时的器件两端；电阻输入完成后器件即处于低阻态并可以在一定电压范围内当作线性电阻使用，利用此线性电阻的范围即可完成存算一体单元所需的运算，因此其算输入端即为处于线性电阻范围内的器件两端；当有线性电阻范围内的偏压加在器件两端时，电流即从 RRAM的一端流到另一端，因此此时器件电流流出的一端即为存算一体器件中的输出端。

因为RRAM通常为两端器件，因此其存输入端，算输入端和输出端通常为不同工作模式下的相同区域。

实施例3

闪存(FLASH)为目前最常见的非易失性(NVM)存储器件，其基本存储单元为浮栅器件，例如和实施例1-2中描述的光电计算单元类似的结构，或如图7所示的结构。

图7是一种闪存的基本cell单元结构图。如图7所示，添加用于擦除和选择的EG和WL。其基本原理为在一正常MOSFET晶体管的沟道和控制栅极之间添加四周被氧化物隔离层包裹的电荷存储层，利用此隔离存储层来存储电荷以存储数据，并通过判断该晶体管的阈值来将存储的电荷量读出。其中所述隔离层可以是使用多晶硅制作的浮栅，如图7中的FG(floating gate)，也可以是氮化物层等，电荷存入隔离层多为通过沟道热电子注入(CHE)的机制来实现。

使用flash器件作为存算一体器件，因为存储在被隔离的电荷存储层中的电核可以在长时间内保存在器件当中，因此被存储的电荷量即为存算一体器件中的存输入量，存输入端即为热电子注入端，这一机制通常发生在flash器件P型衬底中的表面沟道的电荷存储层正下方，如图7中的FG(floating gate)正下方；flash器件读出时，MOSFET晶体管的沟道电流受到源漏间电压Vds、控制栅极电压Vgs和电荷存储层中存储的电荷量共同作用，因此算输入端可以为flash器件的控制栅极，如图7中的CG(coupling gate)或WL(word line)，或者为源端和漏端；因为最终受电输入量和存输入量共同作用后的数据以电流的形式从flash源漏间流过，因此flash器件作为存算一体器件的输出端为源端和漏端。

实施例4

本实施例使用上述实施例中的任意一种作为存算一体单元，进行脉冲卷积神经网络的计算，有如下具体的实施方式：

实施例4-1

数据集以MNIST为例，数据集大小为10000*28*28，共10000组测试数据，图像尺寸为28*28，通道数为1，数据为0-1之间的浮点数，分类数目为10。

卷积神经网络以Lenet-5为例，池化层可以是最大池化，也可以是平均池化，具体网络结构见图8和图9。其中图8是Spiking-Lenet-5的结构示意图(平均池化)，图9是Spiking-Lenet-5的结构示意图(最大池化)。

具体地，图8和图9中的输入图像大小都是28*28，每一个像素值还需要转化为位宽为width的二进制数。第一层是卷积层，卷积核尺寸为5*5，个数为6个，并且每个权值都需要被复制成比例为1/2的等比数列，一共复制成width个，与同一个像素值的不同位的0/1对应相乘；每个卷积窗口的大小为5*5，因为第一层只有1个通道，如果是多通道的输入，则每一个卷积核也应有多通道，每一个通道里的像素值与卷积核权值对应相乘；关于5*5的卷积窗口，在输入图像上选取5*5个像素值，位置相同的像素值与卷积核权值对应相乘；同一个卷积窗口内所有的乘积累加得到的结果，对应于一个神经元电流积分比较电路中的积分值的增量；将卷积窗口在输入图像上按照固定顺序滑窗，则对应不同的神经元；之后更换不同的卷积核，对应不同的一组神经元。

如图8和图9所示，卷积层1上方的28*28*6，即为卷积层1的神经元总个数，28*28为输出图像的大小(进行卷积运算时，图像边缘在卷积窗口中不足的部分用0进行填补)，6与卷积核个数对应，表示输出图像的通道数。

在图8中，该28*28*6的输出图像，直接作为卷积层2的输入，开始进行新的计算。因为这里采用了平均池化的方式，原本28*28的图像应该2*2平均，生成14*14的图像，这里直接将14*14图像中任一个像素点在28*28图像中对应的4个像素点整合在同一个卷积窗口中了，相应地，原本5*5的卷积窗口则变成了10*10，相邻2*2的像素点对应的权值是一样的。卷积计算过程与卷积层1类似。

而在图9中，因为采用了最大池化，所以需要在卷积层2之前加上最大池化层1，功能是4选1，使得卷积层2的输入图像大小为14*14。

对于全连接层，就是直接进行矩阵向量乘的操作，图8中的1600*120是在400*120的基础上因为平均池化复制权值所致。

最后的10个计数器，则分别统计全连接层3的10个神经元的输出脉冲信号中，高电平的个数了。根据系统的具体实现方案，还可以添加10个计数器，记录每个神经元最早生成高电平的时间。

在上位机中，首先要先训练好卷积神经网络，训练好的卷积神经网络按照如下公式进行计算：

其中，I为卷积神经网络某一层的输入，W为权值，B为偏置，O为输出，channel为输入通道数，kernelsize为卷积核尺寸。ii为输出图像的行，jj为输出图像的列，nn为输出图像的通道。

再将得到的每一层的权值W和偏置B以及来自于数据集的输入数据，即第一层的I，进行如下处理：

先考虑来自数据集的输入数据，在存输入端量化位宽和数据集输入位宽之间，选择更小的那个值作为系统位宽width。将数据集中的灰度值按照假数据位宽width进行量化，得到width位的二进制数，不足的位数在高位补零。原来的输入数据即被扩展成width倍的二进制数，即脉冲信号。

再考虑权值和偏置。如果卷积神经网络中有BN层(批标准化，batch normalization)，那么在训练的时候，需要导出bn.weight(γ)、bn.bias(β)、bn.running_mean(mean)、bn.running_var(var)和bn.eps(eps，给分母加上的小量，默认为1e-5)，其中，bn.weight(γ)表示：训练过程中学习到的缩放系数；bn.bias(β)表示：训练过程中学习到的偏移系数；bn.running_mean(mean)表示：训练过程中得到的，数据的统计平均值；bn.running_var(var)表示：训练过程中得到的，数据的统计方差值。并按照如下公式修改该BN层前一层卷积层或全连接层的权值W和偏置B：

这样就完成了卷积层或全连接层与BN层的合并，在进行推断任务的时候，仅需保留修正过的W’和B’的卷积层或全连接层计算即可，无需多余的BN层运算。

还有一些特殊情况，对于第一层，假设输入图像的灰度值本应和某个卷积核中的某个权值W’相乘并按照卷积神经网络的计算公式进行累加，那么将第一层的权值复制为width份，依次保持不变、除以2、除以4等2的指数次幂，将修正后的权值记为W”。该层的偏置应在上述修正B’的基础上再乘以2，记为B”。其中，灰度值量化得到的二进制数，按照高位到低位的顺序，依次与W’、W’/2、W’/4、W’/8……对应起来排序。

如果该卷积神经网络中使用了平均池化层，那么该平均池化层的下一层卷积层或全连接层的中的每个权值W’都将被复制成若干份，该数量为池化层尺寸的平方，比如池化层是2*2的，那么每个权值都被复制成4份，将修正后的权值记为W”。若该层有偏置，则将偏置值在B’的基础上再放大4倍，记为B”。

至此，在卷积神经网络层面上，对于输入、权值和偏置的处理就已经结束了，考虑脉冲卷积神经网络层面。

首先是用户根据实际需要(比如根据实际量化位宽以及该层权值的最大绝对值进行缩放调整，以达到尽可能高的精度)，会对每一层的权值进行缩放，令新的权值为W”’。

然后是根据脉冲卷积神经网络的原理，给每层的偏置带来的修正。

对于第一层而言，其计算公式为O”’＝I”’*W”’+B”’，此处省略了如上文卷积计算公式中复杂的求和表达式，这里的形式虽然略有不同，但区别仅在于将I改变成了二进制展开的若干输入I”，W”也相应处理成若干倍W”’。由于不论在任何时刻，W”’与B”’的关系都应该能够计算出与卷积神经网络中O”对应的O”’，即如果I”*W”’＝A1*(I”*W”)，那么B”’＝A1*B”，O”’＝A1*O”，A1为一个缩放比例。

再考虑第二层，对于第二层而言，其输入I”’是由第一层的O”’按照时间累加，每超过阈值

后生成一次1，否则为0，假设这个时间为T1，即

对于I”’，每T1时间内仅包含1次1，其余均为零。假设第二层的I”’*W”’+B”’按照时间累加，每超过阈值

后生成一次1，否则为0，假设这个时间为T2，即

将第一层的公式代入得：

由于在卷积神经网络中，第二层的输出＝O”*W”+B”，其中W”’＝A2*W”，O”’＝A1*O”，那么

之后的第n层同理推导可得：

其中分母的这些超参数vth ⁺均为在上位机上由用户设置的值。

所有的权值和偏置都应在修正过的基础上再按照width的位宽进行二进制量化得到最终写入存算一体单元存输入端的值，记为W””和B””。

上述工作均在上位机中完成，完成后将权值和偏置根据卷积神经网络的计算公式排好顺序，写入存算一体单元中。

存输入端的输入全部完成后，上位机向第一层存算一体单元的算输入端发送输入脉冲，本装置开始进行计算任务。

图10是实施例4-1的由存算一体单元组成的一个神经元示意图。在脉冲卷积神经网络算法中，除了输入与权值之间的对应关系与卷积神经网络算法保持一致，所有的流通数据均为脉冲信号，即0或1，基本的计算单元为存算一体单元，负责乘法。在此基础上，如图10所示，一个神经元包括多个存算一体单元，这些存算一体单元中存输入端的输入对应于人脑中神经元的突触，即W””，算输入端的输入对应于突触连接强度，即I””。此外，神经元中还需有一个胞体，在每一个时钟周期内，负责将这些存算一体单元的输出端结果∑I″″·W″″+1*B″″进行累加，并与该神经元胞体此时的电势v(t-1)进行累加。用公式表示即为：

v(t)＝v(t-1)+∑I″″·W″″+1*B″″

输出脉冲的生成公式为：

输出脉冲生成完之后，神经元电势经过如下变化，这些都在下一个时钟周期到来之前完成：

其中vth ^-和vth ⁺均为每层可自行设定的超参数。vth ⁺为正阈值，vth ^-为负阈值。对于不加偏置的神经网络，负阈值也可以设置为0。

该功能由电流积分比较电路实现，并将输出的结果保存至寄存器中，与时钟上升沿对齐，传送给下一层的神经元。

对于需要加入偏置的某一层卷积层或全连接层，其经过修正的偏置值已经保存在该层每个神经元中的一个存算一体单元中，仅需将该存算一体单元的算输入始终置为1即可。

有的网络在很多卷积层中都会出现需要补零的情况，因为补零的位置是固定的，只要将相应输入一直置0即可。

对于平均池化层，需要在下一个卷积层或全连接层中，将需要平均池化的所有输入直接和相应的神经元连接起来，并将权值复制多份(在上位机中已完成)，实现和原来等比例的乘累加。

对于最大池化层，不需要在下一个卷积层或全连接层进行操作，而是需要在这相邻两层卷积层或全连接层中间，加上额外的判断条件，即从计算开始算起，每一个池化窗口所对应的输入信号中，选择最早为1的那一路，与下一层卷积层或全连接层接通，其余的输入信号就可以被忽略了。这里的具体实现方式为一些数字逻辑加上多路选择器。

在全连接层3(即最后一个全连接层)后面，有10个计数器一直在统计这十类接收到的脉冲数目(高电平)，并通过控制系统发送给上位机。

方案一：10个计数器的值实时地传送给上位机。

在上位机中，需要进行这样的结束条件判断：当某时刻，有1类计数器中的脉冲数目，要比别的类多a个，a为设定的常数，即认为计算可以结束了，输出脉冲数目最大的该类类别号。建议设置为4。

如果到了设定的最大时长后，还没有满足结束判定条件，就强制结束，找出这10类中脉冲数目最多的那一类。

如果有至少2类中，脉冲数目是一致的，那么就比较谁最先接收到脉冲，输出该类。

该图片计算完成后，上位机发送相应的控制信号给控制系统，将系统中一些需要清零复位的地方进行清零复位，然后再发送下一张图片的输入脉冲信号，开始下一轮计算。

方案二：10个计数器的值没有办法实时地传送给上位机。

在硬件部分中，这10个计数器的值被传输到一个专门的结束条件判断模块，需要实现这样的功能：当某时刻，有1类计数器中的脉冲数目，要比别的类多a个，a为设定的常数(建议设置为4)，即认为计算可以结束了。或者到了设定的最大时长后，还没有满足结束判定条件，就强制结束，这里的结束指的是拉高一个输出的结束信号，传输给控制系统和上位机，对硬件部分的相应位置进行复位，上位机向控制系统传输新的图像数据，控制系统保存上位机发送的图像数据，并将接下来需要计算的图像数据分发给存算一体单元。(这里根据实际系统中存储器容量的使用情况，可以有若干种不同的数据传输方案，不做限定)。

除了结束信号外，当结束信号拉高之后，需要将这10个计数器的值通过控制系统传送给上位机。此外，除了这10个计数器，在全连接层3的后面还需设置10个计数器，用来记录这10个神经元最早生成高电平输出的时间，这10个计数器也将被传送给上位机。

在上位机中，需要先在10个统计高电平数目的计数器中找出最大值，若有一样的，则选择最早生成高电平的那一类，作为最终的分类结果。

整个系统的框图见图11和图12。图11是整个系统的框图(平均池化)。图12是整个系统的框图(最大池化)。其中CONV表示卷积层，FC表示全连接层。如结合图8、9所描述的Spiking-Lenet-5脉冲卷积神经网络结构图，图11和图12将每一层都分别用硬件实现，数据在不同的模块中流通；此外，硬件部分还有控制系统，用于从上位机接收输入数据和控制信号，然后分发至Conv1模块中，并从计数器模块中接收统计的结果，再发送给上位机。

整个系统的计算流程图见图13和图14。图13是整个系统的计算流程图 (平均池化)。图14是整个系统的计算流程图(最大池化)。其中CONV表示卷积层，FC表示全连接层。

在对图像进行计算之前，需要先将训练好的权值和偏置，经过修正之后，写入存算一体单元的存输入端。之后对整个硬件加速器的除了存输入端写入的数据之外，所有的模块进行复位操作。接着上位机开始向硬件加速器传输输入数据，控制系统接收到这些数据，等第一幅图的所有输入数据传输完毕后，开始同时对存算一体单元分发数据。由于同一幅图的输入数据在该图像没有计算完毕之前是一直保持不变的，根据系统的具体设计方案，可以等一幅图像算完之后再传输下一张图像的输入数据，或者在第一张图像算完之前，就将下一张或者若干张图像的输入数据保存在硬件加速器中，实现乒乓操作。

对于每一个卷积层或者全连接层模块，存算一体单元接收算输入端的输入信号，所有的存算一体单元的计算结果通过串联的方式将电流相加，输入至电流积分比较电路中，在该电路中经过积分、与阈值比较，然后生成输出脉冲，在紧接着的寄存器中完成与时钟上升沿对齐的操作，得到该层的输出。这些模块都是在同时、一刻不停地进行着独立的运算的。

在图14中，还多了最大池化模块，conv1和conv2的输出先接入最大池化1、2，在最大池化模块中选择高电平最早出现的那一路传输至下一层。

关于计数器组，方案一：计数器组统计最后一层全连接层每个神经元的输出脉冲中，高电平的个数，该结果一直在被控制系统传送回上位机。上位机根据用户设置的条件，判断本张图片的计算是否完成，如果没有完成则继续保持现状，如果完成了，就改变控制信号，将硬件加速器中，电流积分比较电路以及系统中的其它寄存器和计数器进行复位，并开始传输新的图片。

方案二：计数器组统计最后一层全连接层每个神经元的输出脉冲中高电平的个数，以及每个神经元最早生成高电平脉冲的时间，该结果仅在本轮计算结束后才被控制系统传送回上位机。本轮计算结束的判断由数字逻辑根据计数器组统计的结果来完成，如果没有结束则继续保持现状，如果结束了，就向控制系统发送拉高的结束信号，将硬件加速器中，电流积分比较电路以及系统中的其它寄存器和计数器进行复位，存算一体单元等待控制系统分发下一张图像的数据。上位机接收到该结束信号后，向控制系统传送新的图片，并对传回的计数器组的数据进行处理，得到最终的分类结果。

根据上述实施例，通过将卷积神经网络中的数据转换为时间脉冲序列的方式，通过电流积分比较电路代替功耗和面积都很大的模数转换器，大大降低整个系统的面积和功耗。另外，将每一层卷积层/全连接层的输出结果均与下一层卷积层/全连接层直接相连，权值数据可以直接保存在存算一体单元中，整个系统中不需要片上缓存，节省了大量数据搬运的过程，从而加快计算的速度。

实施例4-2

本实施例在实施例4-1的基础上，在积分比较电路中，加入积分比较电路的输出结果与时钟信号同步的功能，实施例4-1中每一个与积分比较电路相连的寄存器被除去，积分比较电路的输出直接被接入下一层神经元、最大池化模块或者计数器。除去寄存器的神经元示意图见图15，整个系统(去除寄存器、平均池化)的框图见图16，整个系统(去除寄存器、最大池化)的框图见图17。

实施例4-3

数据集以Cifar-10为例，数据集大小为10000*32*32*3，共10000组测试数据，图像尺寸为32*32，通道数为3，数据为0-255的整数，分类数目为10。

卷积神经网络以Alexnet为例，这里采用的模型有所变动，在第一层和第二层卷积层后面紧跟着加BN层，池化层改为平均池化，且所有卷积层的卷积核大小均为3*3，具体网络结构见图18。

具体地，图18中的输入图像大小是32*32，通道数为3，每一个像素值需要转化为位宽为width的二进制数。第一层是卷积层，卷积核尺寸为3*3，通道数为3，个数为96个，并且每个权值都需要被复制成比例为1/2的等比数列，一共复制成width个，与同一个像素值的不同位的0/1对应相乘；3个通道的卷积核与输入图像对应；卷积窗口大小为3*3，在输入图像上选取3*3个像素值，位置相同的像素值与卷积核权值对应相乘；同一个卷积窗口内所有的乘积累加得到的结果，对应于一个神经元电流积分比较电路中的积分值的增量；将卷积窗口在输入图像上按照固定顺序滑窗，则对应不同的神经元；之后更换不同的卷积核，对应不同的一组神经元。

如图18所示，卷积层1上方的32*32*96，即为卷积层1的神经元总个数，32*32为输出图像的大小(进行卷积运算时，图像边缘在卷积窗口中不足的部分用0进行填补)，96与卷积核个数对应，表示输出图像的通道数。该3输出图像，直接作为卷积层2的输入，开始进行新的计算。因为这里采用了平均池化的方式，原本32*32的图像应该2*2平均，生成16*16的图像，这里直接将16*16图像中任一个像素点在32*32图像中对应的4个像素点整合在同一个卷积窗口中了，相应地，原本3*3的卷积窗口则变成了6*6，相邻2*2的像素点对应的权值是一样的。卷积计算过程与卷积层1类似。其它卷积层同理。

对于全连接层，就是直接进行矩阵向量乘的操作，图18中的16384*1024是在4096*1024的基础上因为平均池化复制权值所致。

先考虑来自数据集的输入数据，在存输入端量化位宽和数据集输入位宽之间，选择更小的那个值作为系统位宽width。将数据集中的RGB值按照假数据位宽width进行量化，得到width位的二进制数，不足的位数在高位补零。原来的输入数据即被扩展成width倍的二进制数，即脉冲信号。

还有一些特殊情况，对于第一层，假设输入图像的RGB值本应和某个卷积核中的某个权值W’相乘并按照卷积神经网络的计算公式进行累加，那么将第一层的权值复制为width份，依次保持不变、除以2、除以4等2的指数次幂，将修正后的权值记为W”。该层的偏置应在上述修正B’的基础上再乘以2，记为B”。其中，RGB值量化得到的二进制数，按照高位到低位的顺序，依次与W’、W’/2、W’/4、W’/8……对应起来排序。

后生成一次1，否则为0，假设这个时间为T1，即

后生成一次1，否则为0，假设这个时间为T2，即

将第一层的公式代入得：

之后的第n层同理推导可得：

图19是实施例4-2的由存算一体单元组成的一个神经元示意图。在脉冲卷积神经网络算法中，除了输入与权值之间的对应关系与卷积神经网络算法保持一致，所有的流通数据均为脉冲信号，即0或1，基本的计算单元为存算一体单元，负责乘法。在此基础上，如图19所示，一个神经元包括多个存算一体单元，这些存算一体单元中存输入端的输入对应于人脑中神经元的突触，即W””，算输入端的输入对应于突触连接强度，即I””。此外，神经元中还需有一个胞体，在每一个时钟周期内，负责将这些存算一体单元的输出端结果∑I″″·W″″+1*B″″进行累加，并与该神经元胞体此时的电势v(t-1)进行累加。用公式表示即为：

v(t)＝v(t-1)+∑I″″·W″″+1*B″″

输出脉冲的生成公式为：

该功能由电流积分比较电路实现，并将输出的结果保存片上缓存中，对于每一个神经元，需要收集固定时长的输出脉冲信号，作为一个数据包，该固定时长与输入脉冲的发送时长一致。当该输出结果在下一层的计算中所需要的所有数据包均缓存完毕后，就会以数据包的形式被传送给下一层神经元，并且该电流积分比较电路中的累加值会被清零。片上缓存的容量以及所需神经元的个数需要根据实际情况，综合面积、功耗、速度和各层计算速度的平衡这几个方面来考虑。

有的网络在很多卷积层中都会出现需要补零的情况，因为补零的位置是固定的，只要将相应输入在其发送时长内一直置0即可。

在全连接层3后面，有10个计数器一直在统计这十类接收到的脉冲数目，并通过控制系统发送给上位机。这里还需要额外的逻辑电路来判断什么时候有脉冲，因为最后一层的运行时间相比于前面的层来说很短，并不是一直在运行。根据系统的具体实现方案，还可以添加10个计数器，记录每个神经元最早生成高电平的时间。

在上位机中，需要对固定时长内接收到的10个脉冲数目进行比较，选其中的最大值，如果添加了10个计数器，记录每个神经元最早生成高电平的时间，那么还可以进行辅助比较：如果有至少2类中，脉冲数目是一致的，那么就比较谁最先接收到脉冲，输出该类。

整个系统的框图见图20。如结合图18所描述的Spiking-Alexnet脉冲卷积神经网络结构图，图20中将每一层都分别用硬件实现，数据在不同的模块中流通；此外，硬件部分还有控制系统，用于从上位机接收输入数据和控制信号，将输入数据写入片上缓存，并从计数器模块中接收统计的结果，再发送给上位机。特别地，整个系统中还有片上缓存和与其相对应的逻辑电路，逻辑电路接收控制系统的控制信号，根据数据分发计算的顺序，生成片上缓存的控制信号和存数地址，将从Conv1～Conv5接收到的输出脉冲保存至片上缓存；根据实际缓存容量，使缓存中不再会被使用到的数据被新的数据覆盖；根据数据分发计算的顺序，生成片上缓存的控制信号和读数地址，将Conv1～Conv5以及FC1计算所需的输入数据读出。

整个系统的计算流程图见图21。如图21所示，在对图像进行计算之前，需要先将训练好的权值和偏置，经过修正之后，写入存算一体单元的存输入端。之后对整个硬件加速器的除了存输入端写入的数据之外，所有的模块进行复位操作。接着上位机开始向硬件加速器传输输入数据，控制系统接收到这些数据，并写入片上缓存中，等Conv1模块进行一次计算所需的所有输入数据传输完毕后，片上缓存开始对Conv1模块的存算一体单元分发数据，全部分发完毕后，Conv1模块开始计算。此时上位机的传输速度，应与整个系统各个模块的计算速度以及片上缓存容量相结合考虑。但应确保固定时长T后，Conv1模块下一次计算所需的数据在T时间内已经保存在片上缓存上了。

对于每一个卷积层或者全连接层模块，存算一体单元接收算输入端的输入信号，所有的存算一体单元的计算结果通过串联的方式将电流相加，输入至电流积分比较电路中，在该电路中经过积分、与阈值比较，然后生成输出脉冲，在紧接着的寄存器中完成与时钟上升沿对齐的操作，得到该层的输出。这些模块都是在同时进行着独立的运算的。每个模块的连续工作时间以固定时长T为单位，在T个时钟周期内，存算一体单元及电流积分比较电路都在连续不间断地进行计算。该T个时钟周期结束后，电流积分比较电路收到来自控制系统的控制信号，进行复位归零操作，等待下一次计算的开始。

对于每一个卷积或者全连接1模块，算输入端的输入信号都来自于片上缓存，即对于这些模块的每一次时长为T个时钟周期的计算，开始的前提条件是该次计算所需要的全部输入已经由片上缓存读取出来了。对于全连接2和全连接3模块，其输入信号来自于上一个全连接层的输出信号。对于每一个卷积模块，其每一个神经元的输出信号，都会按照以T为单位大小进行打包，存储在片上缓存中。

计数器组统计最后一层全连接层每个神经元的输出脉冲中，高电平的个数，当固定时长的计算时间结束后，该结果被控制系统传送回上位机。上位机改变控制信号，将硬件加速器中，电流积分比较电路及其寄存器和计数器进行复位，并开始传输新的图片。根据系统的具体实现方案，还可以添加10个计数器，记录每个神经元最早生成高电平的时间，用于分类结果的辅助判断。

根据上述实施例，对于大规模的网络，通过利用片上缓存保存部分数据，用时间换空间的方式将大大减少所需要的硬件资源。

实施例4-4

本实施例在实施例4-3的基础上，将片上缓存改为寄存器，逻辑控制电路也要相应修改，因为寄存器的定位方式与片上缓存不同。系统框图见图22。

实施例4-5

本实施例在实施例4-3的基础上，将片上缓存改为片外的存储器，对于硬件加速器部分，就仅包含每一层的存算一体单元和计数器部分，实施例4-3中的片上缓存及其逻辑控制电路被移到了片外，由FPGA开发板(现场可编程门阵列)和DDR(双倍速率同步动态随机存储器)代替其功能。系统框图见图23。

实施例4-6

本实施例在实施例4-3的基础上，将片上缓存改为片外的云存储，对于硬件加速器部分，就仅包含每一层的存算一体单元和计数器部分，实施例4-3中的片上缓存及其逻辑控制电路被移到了片外，由上位机和云存储代替其功能。系统框图见图24。

实施例5

图25是实施例5的Alexnet网络结构图。如图25所示，数据集以cifar-10为例，数据集大小为10000*32*32*3，其中共10000组测试数据，输入图像尺寸为32*32，通道数为3，数据为0-255之间的整数，分类数目为10。

卷积神经网络以Alexnet为例，这里采用的模型有所变动，在第一层和第二层卷积层后面紧跟着加BN层，池化层可以是最大池化，也可以是平均池化，且所有卷积层的卷积核大小均为3*3。

每一层卷积层的输出按照如下公式获得：

其中I为该层的输入，W为权值，B为偏置，O为输出，channel为输入通道数，kernelsize为卷积核尺寸，此处均为3。

每一层全连接层的输出按照如下公式获得：

其中I为该层的输入，W为权值，B为偏置，O为输出，channel为输入通道数。

现在上述卷积神经网络的基础上，生成脉冲卷积神经网络。该脉冲卷积神经网络的最基本计算单元为存算一体单元，负责完成乘法。图28是实施例5的神经元的结构图。如图28所示，一个神经元包括多个存算一体单元，所述存算一体单元与在上述实施例4中的描述类似，在此不再赘述。

对于需要加入BN层的某一层Layer M，在训练的时候，需要导出bn.weight(γ)、bn.bias(β)、bn.running_mean(mean)、bn.running_var(var)和bn.eps(eps，给分母加上的小量，默认为1e-5)，并按照如下公式修改Layer M的权值和偏置：

这样就完成了Layer M(卷积层或全连接层)与BN层的合并，在进行推断任务的时候，仅需保留修正过W和B的Layer M即可，无需多余的BN层运算。

考虑脉冲卷积神经网络第一层的输入数据，假设像素值为64，其转换为二进制为01000000，0-255可由8位二进制数表示，不足的位数在高位补零。假设该像素值本应和某个卷积核中的某个权值W相乘。那么本来的64*W就需要被转换为128*(0*W+1*W/2+0*W/4+0*W/8+0*W/16+0*W/32+0*W/64+0*W/128)，即输入扩展成原来的8倍，权值也先复制7份，然后分别除以2的不同指数幂，再进行累加。并且该输入一直保持不变，直到整轮计算结束，整轮计算对应数据集中的一组测试数据，在Cifar-10中，即为32*32*3的图像。此外，该层若有偏置，如果该层权值保持原始比例，则其偏置值应在上述修正公式的基础上再乘以2；如果该层权值整体进行了缩放，则偏置值也应随之进行同比例的缩放。

相比于现有脉冲卷积神经网络算法中，输入脉冲由随机数生成，即随机生成0-1的小数，与像素值/255进行比较，如果随机数比这个数小，则生成脉冲，否则不生成脉冲。但该方法因为具有很大的随机性，只有计算大量脉冲后才能尽可能贴近原始像素值。而本发明的算法中，输入脉冲与原始像素值是完全等价的，不需要大量脉冲。

此外，根据实际需求，还会存在对权值进行量化的情况。即假设权值最多只能由WW位二进制数表示，对于WW不小于8(0-255所需的8位二进制数，对于范围更大的输入数据即不是8)的情况，输入数据以及权值复制如上文所述。但如果WW小于8，那么将权值除以较大2的指数幂的那些份，可能就直接等于0了，输入对其没有任何影响，可以直接略去。即输入取从高位开始的WW位，复制的权值也取绝对值较大的WW个。

对于每一层的偏置修正，除了由于阈值产生的修正外，此前的各层的权值缩放都将在该层进行累积，比如说第一层的权值经过调整后，最终在积分比较电路中累加的结果，为卷积神经网络模型中理论值的2倍，那么除了第一层的偏置需要随之变成2倍外，到了第二层，这个2倍依然会从输入脉冲的频率上体现出来，也就是说第二层公式中的I*W+B中的I已经是原来的2倍了，那么B也应该相应变成原来的2倍。其它层以此类推，总之修正依据就是I*W与B的缩放倍数是一致的。

除了卷积层、全连接层和BN层之外，卷积神经网络中还有池化层，常用最大池化和平均池化两种，假设池化窗口的尺寸为2*2，则池化的作用是将原始的4个输入变成1个输出，将图像的尺寸减小减少计算量。最大池化就是在这4个输入中选择最大值输出，平均池化就是对这4个输入计算平均值输出。

对于平均池化层，需要在下一个卷积层或全连接层中，将需要平均池化的所有输入直接和相应的神经元连接起来，并将权值复制多份，实现和原来等比例的乘累加，所述处理与在上述实施例4-2中描述的类似，在此不再赘述。

由于在脉冲神经网络算法中，等比例地将某一层所有的权值和偏置都放大或者缩小，对于最终的输出结果没有影响，所以在下一个卷积层或全连接层中，直接计算∑ _2*2O·W即可，若该层有偏置，则将偏置值在前文所述的所有修正的基础上再放大4倍写入存算一体单元的存输入端。

相比于专门添加一个由神经元组成的平均池化层，通过阈值的方法生成的脉冲信号，与理论结果会有一定的误差。将平均池化层并入下一层后，就可以保证在平均池化的计算上，没有精度的损失，所得到的Spiking-Alexnet网络结构(平均池化)如图26所示。

对于最大池化层，不需要在下一个卷积层或全连接层进行操作，而是需要在这相邻两层卷积层或全连接层中间，加上额外的判断条件，即从计算开始算起，每一个池化窗口所对应的输入信号中，选择最早为1的那一路，与下一层卷积层或全连接层接通，其余的输入信号就可以被忽略了，所得到的Spiking-Alexnet网络结构(最大池化)如图27所示。

如图所示，在全连接层3后面，有10或20个计数器一直在统计接收到的脉冲数目(高电平)以及最早接收到脉冲(高电平)的时间。每一个计数器对应一个神经元，也对应着图像分类的一类结果，

当某时刻，有1类计数器中的脉冲数目，要比别的类多a个，a为设定的超参数，即认为计算可以结束了，输出脉冲数目最大的该类类别号。建议设置为4。

根据上述实施例的脉冲卷积神经网络算法，通过改变输入方式、将平均池化层并入下一个卷积层或全连接层、支持带偏置的卷积层和全连接层的计算、支持在网络中添加BN层、设定计算结束判定条件、加入对特殊情况的辅助判断等优化改进方法，可以大大节约现有脉冲卷积神经网络算法的计算时间，并提高图像分类的准确率。此外，考虑了脉冲卷积神经网络算法的结束，针对计算时长也作出了改进。

此外，根据本发明上述实施例所述的存算一体单元可以实施于集成电路中，接下来将描述这种集成电路的制造方法，其包括以下步骤：

1)通过热氧化和淀积形成数字逻辑电路、积分比较电路和存算一体单元中晶体管的介质层和栅极；所述晶体管包括普通逻辑晶体管，高压晶体管以及浮栅晶体管等；

2)通过淀积MIM介质层以及淀积金属层，或热氧化和淀积工艺形成积分比较电路中的电容，所述电容可以为MIM电容也可以是MOS电容；

3)通过离子注入的方式形成数字逻辑电路、积分比较电路和存算一体单元中晶体管的源极和漏极，以及PN结的P级和N级；

4)通过金属层工艺、金属层介质工艺以及通孔工艺形成整体电路的金属连线和有源区-金属层以及金属层-金属层通孔；

5)通过相应于忆阻器或快闪存储器的工艺，生成一个CMOS工艺的存算一体单元。

基于脉冲卷积神经网络的集成电路的生产工艺，其中的数字逻辑电路、神经元中的积分比较电路均可使用标准CMOS工艺生产，神经元中的存算一体单元，如果使用光电计算单元或闪存的话，则同样可以使用标准CMOS工艺生产，关于标准CMOS工艺对于基于此工艺的器件如晶体管二极管或电容等半导体器件的生产流程，在此不详细叙述，其中光电计算单元使用CIS图像传感器工艺生产能够获得更好的器件性能。如使用忆阻器作为神经元中的存算一体单元，则需要使用兼容此种忆阻器的特殊工艺，其中使用特殊工艺的存算一体器件和使用标准CMOS工艺的数字逻辑电路和积分比较电路的集成方式，可以通过直接在硅基衬底上使用特殊工艺制作特殊器件的方式来实现，也可以通过晶圆级集成或片外集成等方式来实现。如中国专利CN110098324A中提到的在硅基衬底上生成高耐久性忆阻器的方法等多种忆阻器制作工艺方法。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的器件及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

在本公开所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

一种脉冲卷积神经网络算法，基于存算一体单元，所述存算一体单元包括至少一个存输入端，至少一个算输入端以及一个输出端，其特征在于：

1)将脉冲卷积神经网络的第一层的权值复制至若干份，份数至少为用于表征待分析物属性的量所转换成的二进制数的位数以及所述存算一体单元的存输入端的最小值，并且将复制后的所述份数的权值进行处理，使复制后的各个权值在数值上依次缩小两倍，所得数值被分别输入到多个所述存算一体单元的存输入端，所述存算一体单元的个数与所述份数相同；

2)将所选的、集中用于表征待分析物属性的量转换成二进制数，并将待输入的所述二进制数的每一位数值，或者根据系统位宽截位后的数值作为输入脉冲，输入到所述脉冲卷积神经网络的存算一体计算单元中；并且，对于每个表征待分析物属性的输入集合，在对应于所述输入集合的时间周期内，使所述输入脉冲保持不变并不间断地输入到所述脉冲卷积神经网络中相应的计算单元，直到完成对该被分析物的所述属性的处理；

3)对于用于表征待分析物属性的、对应于所述一个组中的每个基本的二进制数，使所述每个存输入端的输入量，分别与一个算输入端的输入量相对应，并且绝对值较大的存输入端的输入量与较高位的算输入端的输入量一一对应；

4)在每个所述存算一体单元中，使所述存输入端的量与所述算输入端的量进行运算，输出端得到的电流值代表所述存算一体单元的存输入端的值与算输入端的值进行乘法运算的结果。
如权利要求1所述的脉冲卷积神经网络算法，其特征在于：

1)包括所述第一层的运算以及其它层的运算，并且在其中的任意层，在所述存输入端与所述算输入端的运算以外，再加一个运算累加项，所述运算累加项为一个经过修正的偏置值，所述经过修正的偏置值正比于其原始值再除以该层之前所有层的正阈值的累乘，所述正比的比例与该偏置所在的层以及之前的层的权值缩放比例有关；

2)所述脉冲卷积神经网络算法，对所述存算一体单元的输出持续地进行累加，当所述累加和超过一个设定的正阈值后，对所述累加和进行清零，并且向下一层相应位置的算输入端释放一个输出脉冲；并且当所述累加和小于一个设定的负阈值之后，使该累加和保持在该负阈值上。
如权利要求2所述的脉冲卷积神经网络算法，其特征在于，所述脉冲卷积神经网络中包括批标准化层，对该批标准化层之前的一个卷积层或全连接层中的权值和偏置进行线性变换，其中所述线性变换中的参数由前面的训练过程中得到。
如权利要求1至3中任一项所述的脉冲卷积神经网络算法，其特征在于，用多个计数器对所述脉冲卷积神经网络最后一个全连接层中每个神经元的脉冲个数以及最早出现脉冲的时间进行统计，所述计数器个数为所述神经元的数目或其两倍。
如权利要求4所述的脉冲卷积神经网络算法，其特征在于，如果所述多个计数器中至少两个计数器计数结果均为相同的最大值，则选取最早接收到脉冲的计数器所对应的类别值为最终结果。
如权利要求4所述的脉冲卷积神经网络算法，其特征在于，计数器显著地多，则输出终止运算，将最终的分类结果作为所述多个计数器计数结果的最大值所对应的类别值进行输出。
如权利要求1所述的脉冲卷积神经网络算法，其特征在于，在所述第一层的运算之后，还进行平均池化、最大池化、卷积层和全连接层运算中的至少一种。
如权利要求1至3，及7中任一项所述的脉冲卷积神经网络算法，其特征在于：

1)设定若干个时钟信号的时长为一个分析周期；

2)将待分析的标的物分为若干分区；

3)以所述分析周期为时间单位，逐次分析一个分区的时间序列信号，将代表该分区的运算结果送至一个存储器；

4)分析下一个分区的信号，将所述代表该分区的运算结果送至所述存储器，直到所完成的多个分区的信号联合地满足下一层的分析条件；

5)将所述存储器存储的各个所述分区的信号送入下一层进行运算。
如权利要求8所述的脉冲卷积神经网络算法，其特征在于，所述存储器为寄存器、片上缓存、片外存储或者云存储中的至少一种，或者它们的组合。
一种基于脉冲卷积神经网络的集成电路，其特征在于，所述集成电路执行如权利要求1-3，及7中任一项所述的脉冲卷积神经网络算法。
一种基于脉冲卷积神经网络的集成电路，其特征在于，所述集成电路执行如权利要求8所述的脉冲卷积神经网络算法。
一种计算机可读记录介质，其上存储计算机可读指令，当所述计算机可读指令由计算机执行时，使得所述计算机执行脉冲卷积神经网络算法，所述脉冲卷积神经网络算法的特征在于：

1)将脉冲卷积神经网络的第一层的权值复制至若干份，份数至少为用于表征待分析物属性的量所转换成的二进制数的位数以及所述存算一体单元的存输入端的最小值，并且将复制后的所述份数的权值进行处理，使复制后的各个权值在数值上依次缩小两倍，所得数值被分别输入到多个所述存算一体单元的存输入端，所述存算一体单元的个数与所述份数相同；

2)将所选的、集中用于表征待分析物属性的量转换成二进制数，并将待输入的所述二进制数的每一位数值，或者根据系统位宽截位后的数值作为输入脉冲，输入到所述脉冲卷积神经网络的存算一体计算单元中；并且，对于每个表征待分析物属性的输入集合，在对应于所述输入集合的时间周期内，使所述输入脉冲保持不变并不间断地输入到所述脉冲卷积神经网络中相应的计算单元，直到完成对该被分析物的所述属性的处理；

3)对于用于表征待分析物属性的、对应于所述一个组中的每个基本的二进制数，使所述每个存输入端的输入量，分别与一个算输入端的输入量相对应，并且绝对值较大的存输入端的输入量与较高位的算输入端的输入量一一对应；

4)在每个所述存算一体单元中，使所述存输入端的量与所述算输入端的量进行运算，输出端得到的电流值代表所述存算一体单元的存输入端的值与算输入端的值进行乘法运算的结果。
如权利要求12所述的计算机可读记录介质，其特征在于：

1)所述脉冲卷积神经网络算法包括所述第一层的运算以及其它层的运算，并且在其中的任意层，在所述存输入端与所述算输入端的运算以外，再加一个运算累加项，所述运算累加项为一个经过修正的偏置值，所述经过修正的偏置值正比于其原始值再除以该层之前所有层的正阈值的累乘，所述正比的比例与该偏置所在的层以及之前的层的权值缩放比例有关；

2)所述脉冲卷积神经网络算法，对所述存算一体单元的输出持续地进行累加，当所述累加和超过一个设定的正阈值后，对所述累加和进行清零，并且向下一层相应位置的算输入端释放一个输出脉冲；并且当所述累加和小于一个设定的负阈值之后，使该累加和保持在该负阈值上。
如权利要求12所述的计算机可读记录介质，其特征在于，所述脉冲卷积神经网络中包括批标准化层，对该批标准化层之前的一个卷积层或全连接层中的权值和偏置进行线性变换，其中所述线性变换中的参数由前面的训练过程中得到。
如权利要求12至14中任一项所述的计算机可读记录介质，其特征在于，用多个计数器对所述脉冲卷积神经网络最后一个全连接层中每个神经元的脉冲个数以及最早出现脉冲的时间进行统计，所述计数器个数为所述神经元的数目或其两倍。
如权利要求15所述的计算机可读记录介质，其特征在于，如果所述多个计数器中至少两个计数器计数结果均为相同的最大值，则选取最早接收到脉冲的计数器所对应的类别值为最终结果。
如权利要求15所述的计算机可读记录介质，其特征在于，在所述多个计数器进行计数的过程中，一个计数器收集的脉冲数比其他计数器显著地多，则输出终止运算，将最终的分类结果作为所述多个计数器计数结果的最大值所对应的类别值进行输出。
如权利要求12所述的计算机可读记录介质，其特征在于，在所述第一层的运算之后，还进行平均池化、最大池化、卷积层和全连接层运算中的至少一种。
如权利要求12至14，及18中任一项所述的计算机可读记录介质，其特征在于，所述脉冲卷积神经网络算法包括以下：

1)设定若干个时钟信号的时长为一个分析周期；

2)将待分析的标的物分为若干分区；

3)以所述分析周期为时间单位，逐次分析一个分区的、时间序列信号，将代表该分区的运算结果送至一个存储器，已分析的信号可以被后续的信号覆盖；

4)分析下一个分区的信号，将所述代表该分区的运算结果送至所述存储器，直到所完成的多个分区的信号联合地满足下一层的分析条件；

5)将所述存储器存储的各个所述分区的信号送入下一层进行运算。
如权利要求19所述的计算机可读记录介质，其特征在于，所述存储器为寄存器、片上缓存、片外存储或者云存储中的至少一种，或者它们的组合。
一种基于脉冲卷积神经网络的集成电路，所述脉冲卷积神经网络包括多层神经元，每层神经元包括多个神经元组件，每层神经元中的多个神经元彼此不连接，而连接到后层的神经元；

至少一个所述神经元组件带有至多一个数字逻辑电路，所述数字逻辑电路被用于操作，所述操作包括数据分发；并且，最后一层的每个神经元组件带有一个计数器组，统计该神经元组件的输出脉冲中具有高电平的脉冲个数；其中，

每个神经元包括至少一个存算一体单元和至少一个积分比较电路，所述多个存算一体单元的电流输出端彼此连接，并且集体地连接到所述积分比较电路上；

每个所述积分比较电路包括至少一个积分器和至少一个比较器，所述积分器用于累加电流输出端的输出量，所述比较器用于将积分器中被累加的输出量与在先设定的阈值进行比较，并且进行比较器的清零和脉冲输出，所述清零的操作使所述的积分器可以进行下一次的累加操作；

并且，每个所述存算一体单元包括至少一个存输入端和至少一个算输入端以及至少一个电流输出端，所述存输入端被设置为接收表征所述上位机所下发的权值的载流子，所述算输入端被设置为接收表征外界或所设定的上层输入脉冲的载流子；

所述电流输出端被设置为以电流的形式输出被作为权值的载流子和作为输入脉冲的载流子共同作用后的载流子。
如权利要求21所述的集成电路，其特征在于，所述存算一体单元为半导体原理的光电计算单元、忆阻器、快闪存储器中的一种。
如权利要求21或22所述的集成电路，其特征在于，所述数字逻辑电路的所述操作还包括最大池化、时钟同步和数据缓存。
如权利要求21所述的集成电路，其特征在于，所述数字逻辑电路被设置为从当前池化层的上一层神经元组件中输出的、数量为池化层尺寸的平方的多个输出信号中，找出最先出现的高电平脉冲信号；并且，

所述数字逻辑电路还被设置为包括一个多路选择器的功能器件，使所述高电平脉冲信号经过所述多路选择器后，保持该高电平脉冲信号所对应的通路开启，将所述通路与下一个卷积层或全连接层连通；同时忽略与该高电平脉冲信号所对应的通路相并行的其它通路的信号，或者关闭所述其它通路。
如权利要求21所述的集成电路，其特征在于，将平均池化运算合并到下一个卷积层或全连接层中进行，包括：

1)卷积层或全连接层，所述卷积层或全连接层的每个神经元组件中的存算一体单元数量为该层对应算法的原始尺寸的若干倍，倍数为池化层尺寸的平方，并且所述对应算法中的每一个权值在所述神经元组件中出现若干次，次数为池化层尺寸的平方，

2)其中从上一层神经元组件中输出的、待传输到下一个池化层的、数量为池化层尺寸的平方的输出脉冲信号，直接作为所述卷积层或全连接层中的存算一体单元的算输入量，所述存算一体单元分别与同样的权值对应。
如权利要求21所述的集成电路，其特征在于，每个所述神经元组件包括一个神经元，并且带有寄存器，所述寄存器用于实现所涉及的数据操作在时间上的同步。
一种脉冲卷积神经网络运算装置，用于进行脉冲卷积神经网络运算，包括一个上位机和如权利要求21所述的集成电路；其中，

所述上位机被设置为处理并生成第一层的权值，所述生成第一层的权值的过程包括：根据一个训练得出的初始权值经过若干线性变换生成一组权值，该组权值包括多个权值数，其中后一个权值数值为前一个权值数值的1/2；并且，所述上位机将该组权值发送给所述脉冲卷积神经网络的第一层的各个神经元组件中的存算一体单元中的存输入端；并且，所述上位机将初始权值经过若干线性变换后发送给所述第一层之后的其它层的存算一体单元的存输入端中，对于紧接着平均池化层之后的卷积层或全连接层的权值，还根据池化尺寸将权值复制若干份，份数为池化层尺寸的平方。
如权利要求27所述的脉冲卷积神经网络运算装置，其特征在于，所述装置被用于按分区来分析标的物，再将各分区的标的物信号合成，构成完整的标的物信息，并且

所述脉冲卷积神经网络运算装置还包括存储器，所述存储器用于存储已分步处理过的、代表所述标的物的至少一个分区的信号，并在所有的分区信号处理完以后，将所有的分区信号进行合成，或将所有的分区信号发送至另一个处理器进行合成；

所述存储器为寄存器、片上缓存、片外存储或者云存储中的至少一种。
一种集成电路的制造方法，其特征在于，所述集成电路为权利要求21所述的集成电路，所述方法包括以下步骤：

1)通过热氧化和淀积形成数字逻辑电路、积分比较电路和存算一体单元中晶体管的介质层和栅极；所述晶体管至少包括普通逻辑晶体管，高压晶体管以及浮栅晶体管；

2)通过淀积MIM介质层以及淀积金属层，或热氧化和淀积工艺形成积分比较电路中的电容；

3)通过离子注入的方式形成数字逻辑电路、积分比较电路和存算一体单元中晶体管的源极和漏极，以及PN结的P级和N级；

4)通过金属层工艺、金属层介质工艺以及通孔工艺形成整体电路的金属连线和有源区-金属层以及金属层-金属层通孔；

5)通过应用于忆阻器或快闪存储器的工艺，生成一个CMOS工艺的存算一体单元。