WO2021004466A1

WO2021004466A1 - 一种基于多位并行二进制突触阵列的神经形态计算电路

Info

Publication number: WO2021004466A1
Application number: PCT/CN2020/100756
Authority: WO
Inventors: 黄科杰; 张赛; 沈海斌
Original assignee: 浙江大学
Priority date: 2019-07-08
Filing date: 2020-07-08
Publication date: 2021-01-14
Also published as: CN110378475A; CN110378475B

Abstract

一种基于多位并行二进制突触阵列的神经形态计算电路，包括神经轴突模块、多位并行的二进制RRAM突触阵列、时分复用器、多个积分器和一个共享的逐次逼近型模数转换器；神经轴突模块包括2个基本单元：时序调度器和加法器，时序调度器用于安排信号的时序，使输入信号采用树突优先的策略，依次输入到多位并行的二进制RRAM突触阵列；加法器用于阵列规模的拓展，当配置的神经网络输入层大于1个RRAM阵列的输入时，利用加法器将多个阵列的计算结果相加，从而得到网络层的输出。该电路相比于当前的体制具有高精度和低功耗的优势，可配置成大多数深度神经网络应用，特别适合部署于对能耗要求高的边缘计算设备中。

Description

一种基于多位并行二进制突触阵列的神经形态计算电路

本申请要求于2019年7月08日提交中国专利局、申请号为201910609991.6、发明名称为“一种基于多位并行二进制突触阵列的神经形态计算电路”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及神经形态计算领域，特别是涉及一种基于多位并行二进制突触阵列的神经形态计算电路。

背景技术

近年来深度神经网络在人工智能领域迅速发展，在图像识别、自然语言处理等方面取得优异的成果。目前很多先进的深度学习算法，通过增加网络的深度和参数的数量来提高网络的性能，对硬件的存储容量、计算能力以及能效提出了更高的要求。比如AlphaGo需要消耗一百万瓦的能量才能获得足够的算力，相比之下人脑只需要消耗20瓦的能量。

神经形态计算能够大幅提升人工神经网络计算的能效，通过模仿人脑的结构将存储单元和计算单元集成在一起，解决了传统冯诺依曼结构传输带宽和传输能耗的瓶颈问题。新兴的电阻式非易失性存储器(RRAM，Resistive Random-Access-Memory)是实现神经形态计算的最佳选择，利用RRAM阻值可以将输入信号的加权组合转变为输出电压，完成人工神经网络中的基本操作矩阵乘法和累加(MAC，Multiplication-and-Accumulation)，从而实现超低功耗的存内并行计算。

当前提出的神经形态计算电路，大都需要高精度的数模转换器(DACs，Digital-to-Analog Converters)和模数转换器(ADCs，Analog-to-Digital Converters)作为接口器件，导致接口器件的能耗占整体能耗的80％以上，不利于在边缘计算设备里的应用。而且当前的神经形态计算解决方案，实现的权重量化精度和激活值量化精度低，只能面向Lenet等简单网络，对于Alexnet等规模较大的深度神经网络性能损失明显，很大程度上限制了其应用的范围。因此，本发明提出了一种基于多位并行二进制神经网络突触阵列的神经形态计算电路，能够在低能耗的情况下实现高精度高性能的深度神经网络。

发明内容

针对现有技术存在的缺陷和对低功耗高精度的改进需求，本发明提出了一种新颖的神经网络突触阵列，能够执行大量乘和累加的并行计算。同时提出了一种高效能的神经形态计算架构，可配置成不同的深度神经网络，以满足不同的应用需求。

为实现上述目的，本发明提供了如下方案：

一种基于多位并行二进制突触阵列的神经形态计算电路，包括：神经轴突模块、多位并行的二进制RRAM突触阵列、时分复用器、多个积分器和一个共享的逐次逼近型模数转换器；

来自神经网络上一层的输入信号，先进入神经轴突模块，神经轴突模块包括2个基本单元：时序调度器和加法器；时序调度器用于安排信号的时序，使输入信号采用树突优先的策略，依次输入到多位并行的二进制RRAM突触阵列；加法器用于阵列规模的拓展，当配置的神经网络输入层大于1个RRAM阵列的输入时，利用加法器将多个阵列的计算结果相加，从而得到网络层的输出；

多位并行的二进制RRAM突触阵列中的基本组成单元为1晶体管-1RRAM结构，其中晶体管用来控制开关行为，源级接地，漏级接二进制RRAM的一端，RRAM的另一端连入积分器电路；多位并行的二进制RRAM突触阵列中N个二进制RRAM以固定点数的形式来模拟神经突触的差异水平；晶体管栅极接输入信号线，神经网络层的输入也采用N位固定点数的形式，每位二进制的输入直接作为1晶体管-1RRAM结构的控制电压Vc；

积分器包括积分运放和开关电容电路，用来将输入信号和RRAM阵列权重的MAC计算结果转化为模拟积分电压；

共享的逐次逼近型模数转换器将模拟积分电压量化为N位数字形式的输出数据；

时分复用器用于将共享的逐次逼近型模数转换器和积分器共享给网络层所有的输入，通过时序的调度最大化硬件资源的利用率。

可选的，采用氮掺杂氧化铝结构的实验数据对RRAM进行建模，每个RRAM具有2个电阻：低阻态和高阻态。

可选的，所示共享的逐次逼近型模数转换器采用高精度高功耗ADC和低精度低功耗ADC组合的结构，用低精度低功耗ADC量化高4位结果，用高精度高功耗ADC量化低4位结果。

与现有技术相比，本发明具有以下技术效果：

本发明提出的多位并行的二进制RRAM神经网络突触阵列和神经形态计算电路，相比当前的体制具有高精度和低功耗的优势，可配置成大多数深度神经网络应用，特别适合部署于对能耗要求高的边缘计算设备中。

说明书附图

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是传统神经形态计算结构图；

图2是本发明提出的高效能神经形态计算结构图；

图3是本发明提出的多位并行的二进制RRAM突触阵列；

图4是1T1R单元结构图；

图5是本发明提出的计算电路积分原理图；

图6是本发明提出的积分体制框图；

图7是本发明提出的8位共享SARADC结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

传统的神经形态计算电路如图1所示，DAC和ADC等接口部件会带来很大的功耗，而且以不同的输入电压作为RRAM的读取电压，RRAM阻值会产生较大的偏差，导致计算结果的精确度不高，限制了应用的范围。图2表示本发明提出的神经形态计算架构，包括神经轴突模块、多位并行的二进制RRAM突触阵列、时分复用器、多个积分器和一个共享的逐次逼近型模数转换器(SAR ADC，Successive Approximation Register Analog-to-DigitalConverter)。来自神经网络上一层的输入信号，先进入神经轴突模块，神经轴突模块包括2个基本单元：时序调度器和加法器。时序调度器用于安排信号的时序，使输入信号采用树突优先的策略，依次输入到多位并行的二进制RRAM突触阵列；加法器可用于阵列规模的拓展，当配置的神经网络输入层大于1个RRAM阵列的输入时，可以利用轴突模块的加法器将多个阵列的计算结果相加，从而得到网络层的输出。积分器包括积分运放和开关电容电路，用来将输入信号和RRAM阵列权重的MAC计算结果转化为模拟积分电压，在下面积分电路的描述中将会给出详细的介绍。最后通过共享SARADC将模拟积分电压量化为N位数字形式的输出数据。时分复用器用于将SARADC和积分器共享给网络层所有的输入，通过时序的调度最大化硬件资源的利用率。

本发明提出的多位并行的二进制RRAM突触阵列如图3所示。采用图4的1晶体管-1RRAM(1T1R，1 Transistor 1 RRAM)结构作为基本组成单元，晶体管(NMOS)用来控制开关行为，源级接地，漏级接二进制RRAM的一端，RRAM的另一端连入积分器电路，N个二进制RRAM以固定点数的形式来模拟神经突触的差异水平。栅极接输入信号线，神经网络层的输入也采用N位固定点数的形式，每位二进制的输入直接作为1T1R单元的控制电压Vc，从而消除了输入接口DAC的使用，大幅减少了能量的消耗和面积的占用。本发明采用氮掺杂氧化铝结构的实验数据对RRAM进行建模，每个RRAM具有2个电阻：低阻态(约10MΩ)和高阻态(约1G—10GΩ)。通过时序安排，使RRAM阵列只在积分阶段导通，大多数时间处于关断状态，从而大大降低了突触阵列的功耗。

相比传统的SRAM阵列，本发明提出的RRAM阵列具有高密度和一次性读取的特点，能大幅减少突触阵列的功耗和面积。相比传统的多位RRAM和采用不同输入电压作为读取电压的体制，本发明提出的多个二进制RRAM解决了单个多位RRAM非线性偏差大、量化精度低的问题，同时采用固定的运放参考电压作为RRAM的读取电压，能显著降低 RRAM阻值在不同读取电压下的偏差，提升权重量化的精度。相比传统的二值神经网络(BNN，BinarizedNeural Networks)突触阵列的方法，本发明提出的N个二进制RRAM能将权重量化精度提升至N位，而且RRAM阵列的每层激活值输入也是N位，因此可以将整个网络的精度提升到N位，克服了BNN阵列结构在Alexnet等深度神经网络中性能损失大的问题，能实现较高的准确率。

本发明提出的计算电路积分原理如图5所示，采用256路输入并行计算和树突优先的策略，将输入数据的每一位顺序输入积分电路，利用电荷重新分配的原理，完成如图6的积分体制。N位输入信号和N位RRAM阵列权重，可依次表示为数字形式x＝A _n-1A _n-2…A ₀和w＝a _n-1a _n-2…a ₀，利用欧姆定律和电流积分完成乘和累加过程，然后将模拟积分电压的结果通过共享SARADC量化为N位数字形式，便于信号的传输与存储。本发明提出的积分电路，利用电荷重新分配的原理，完成不同权重位和不同输入位的加权过程，结构简单且误差小易控制，能实现较高的积分精度和网络正确率。而当前提出的镜像电流源体制和动态阈值体制等，普遍存在结构复杂、电路误差大和功耗大的问题，导致只能应用在小规模的神经网络中。

本发明提出的8位共享SARADC结构如图7所示，可根据具体需要将SARADC配置为N位。在积分电路中用于数据暂存和电荷重新分配的电容也用于SARADC中的DAC电容阵列，通过资源共享的方式减少了面积的占用。本发明提出的8位共享SARADC采用高精度高功耗ADC和低精度低功耗ADC组合的结构，用低功耗ADC量化高4位结果，用高精度ADC量化低4位结果，在实现高精度的同时降低了能量的消耗。此外，还可以采用动态比较器结构和自激时钟的方法来降低比较器的功耗，采用分离DAC电容方法降低电容阵列的转换功耗，利于部署到低功耗的设计中。

图3是本发明采用的神经突触阵列结构，用N个二进制的RRAM来模拟一个突触，因此可将一个N位固定点权重表示为w＝a _n-1a _n-2…a ₀，进一步地可将树突输出结果表达为：

y＝∑x _iw _i＝∑2 ^n-1a _i,n-1x _i+…+∑2 ¹a _i,1x _i+∑2 ⁰a _i,0x _i (1)

图5和图6是具体的计算电路积分原理和积分体制。每个积分器由积分运放、C _n电容、C _f-C _n电容以及S1、S2、S3、S4开关组成，具体连接关系如图5所示。采用256路并行输入，每一个输入数据量化为N位固定点数，从低位到高位依次进入积分电路，换言之，A ₀， ₀A ₁， _0…A _p-1，0依次被选为轴突线的输入，作为RRAM突触阵列中1T1R单元的控制电压。

当积分电路开启时，门控时钟打开，由开关S1、S2、S3、S4和S5控制积分过程和电荷重分配过程。

在积分阶段，开关S1、S2和SARADC中的采样开关S5闭合，同时将开关S3和S4关断以分隔开积分器的输出电压，得到的积分电压可表示为：

其中V _o是当前积分器的积分电压，V _o ^-是积分器前面的积分状态，T是固定的积分时间，G _i是二值化权重的电导值(RRAM在高阻态和低阻态对应的电阻值分别为1/R _H和1/R _L)，V _ref是基准读取电压， _Cf是总的反馈电容。

当1位积分过程完成后，开关S2断开以维持积分电压恒定，同时关断运放以最小化功耗，然后开关S1关断使RRAM阵列的功耗接近于0。随后开关S3闭合利用电荷重分配方法得到MAC计算的等价模拟电压。同时开关S4关断完成积分电路的复位。一旦电荷重分配过程完成，开关S4关断、S2打开，为下一位输入数据的积分过程做好准备。

在电荷重分配阶段，同时完成了不同权重位和不同输入位的加权过程。首先用不同的电容来实现不同权重位的加权，电容从大到小依次为C _n-1，C _n-2…C ₀，可表示为如下关系：C _n-1＝2 ¹C _n-2＝…＝2 ^n-1C ₀。不同权重位加权后，过程等效电压V _s可表示为：

式(3)可以看作等式(1)在输入只有1位时的特殊情况。

SARADC中的共享DAC电容阵列C _f(C _f＝2 ⁿC ₀)用于镜像V _s电压，以完成不同输入位的加权过程。输出积分电压V _out初始化为0，每位积分过程完成后，前面输入位的平分电压V _x ^-与当前位的积分等效电压V _s通过C _f和C _n-1C _n-2…C ₀进行电荷平分，由于输入数据从低位到高位依次进行输入，相当于分别被平分了2 ^n-1,2 ^n-2…2 ⁰次，因此最后积分输出电压Vout可表示为：

等式(4)等价于等式(1)。通过上述积分过程和电荷重分配过程，完成了数字形式的N位固定点输入和N位固定点权重的乘和累加运算，得到模拟形式的输出电压。

最后，位于SARADC中的采样开关S5断开，在完成所有位积分过程得到V _out输出电压的同时，SARADC也通过共享DAC阵列完成了对V _out的采样，开始将模拟积分电压结果量化成N位数字形式，以便于存储和传输。在SARADC量化阶段，门控时钟关断，开关S1、S2、S3和S4断开以关断积分电路的能耗。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

一种基于多位并行二进制突触阵列的神经形态计算电路，其特征在于，包括：神经轴突模块、多位并行的二进制RRAM突触阵列、时分复用器、多个积分器和一个共享的逐次逼近型模数转换器；

来自神经网络上一层的输入信号，先进入神经轴突模块，神经轴突模块包括2个基本单元：时序调度器和加法器；时序调度器用于安排信号的时序，使输入信号采用树突优先的策略，依次输入到多位并行的二进制RRAM突触阵列；加法器用于阵列规模的拓展，当配置的神经网络输入层大于1个RRAM阵列的输入时，利用加法器将多个阵列的计算结果相加，从而得到网络层的输出；

多位并行的二进制RRAM突触阵列中的基本组成单元为1晶体管-1RRAM结构，其中晶体管用来控制开关行为，源级接地，漏级接二进制RRAM的一端，RRAM的另一端连入积分器电路；多位并行的二进制RRAM突触阵列中N个二进制RRAM以固定点数的形式来模拟神经突触的差异水平；晶体管栅极接输入信号线，神经网络层的输入也采用N位固定点数的形式，每位二进制的输入直接作为1晶体管-1RRAM结构的控制电压Vc；

积分器包括积分运放和开关电容电路，用来将输入信号和RRAM阵列权重的MAC计算结果转化为模拟积分电压；

共享的逐次逼近型模数转换器将模拟积分电压量化为N位数字形式的输出数据；

时分复用器用于将共享的逐次逼近型模数转换器和积分器共享给网络层所有的输入，通过时序的调度最大化硬件资源的利用率。
根据权利要求1所述的基于多位并行二进制突触阵列的神经形态计算电路，其特征在于，采用氮掺杂氧化铝结构的实验数据对RRAM进行建模，每个RRAM具有2个电阻：低阻态和高阻态。
根据权利要求1所述基于多位并行二进制突触阵列的神经形态计算电路，其特征在于，所示共享的逐次逼近型模数转换器采用高精度高功耗ADC和低精度低功耗ADC组合的结构，用低精度低功耗ADC量化高4位结果，用高精度高功耗ADC量化低4位结果。

。