WO2020253692A1

WO2020253692A1 - 一种针对深度学习网络参数的量化方法

Info

Publication number: WO2020253692A1
Application number: PCT/CN2020/096430
Authority: WO
Inventors: 韦逸; 赵明敏; 赵民建
Original assignee: 浙江大学
Priority date: 2019-06-17
Filing date: 2020-06-16
Publication date: 2020-12-24
Also published as: CN110378467A

Abstract

一种针对深度学习网络参数的量化方法。包括如下步骤：(1)构建深度学习网络，产生训练数据；(2)利用大量训练数据对所构建的深度学习网络进行训练，确定网络参数的值；(3)提取出学习参数，确定超参数；(4)设计软阶梯函数，由超参数确定所设计软阶梯函数的具体表达式，并引入可学习参数，使之形状可调整；(5)将该带有学习参数的软阶梯函数引入深度学习网络，量化学习参数，通过相同的训练数据学习量化器参数，训练过程采用退火策略；(6)训练所得软阶梯函数固化为量化器，对深度学习网络进行量化。该方法能够有效降低量化所引起的性能损失，大大降低了深度网络所需的存储开销。

Description

一种针对深度学习网络参数的量化方法

技术领域

本发明属于深度学习领域，是一种针对深度学习网络参数的量化方法。

背景技术

深度学习网络这一学科是自从2006年起，随着基于层叠的限制玻尔兹曼机的深度信念网络的学习算法的提出，而逐渐开创起来的，它在人工智能领域中是一门新兴的学科，其研究的主要内容，就是多层神经网络的建模和算法学习的问题。深度学习网络方法已经成功运用于其他很多领域，比如说图像处理，自然语言处理等。

深度学习是一种新兴的多层神经网络学习算法，因其缓解了传统网络训练中局部最小性，引起机器学习领域的广泛关注。随着近几年的发展，深度学习网络不仅仅指多层神经网络，而是泛指由复杂网络结构构成的多层网络，主要可将深度学习网络分为两种，一是模型驱动的深度学习网络，该类网络根据已知的知识和机制构建，通常是将已知的迭代算法展开成网络，比如LAMP和LISTA算法；二是数据驱动深度学习方法，此方法将网络看做是黑盒并依赖大量数据训练这个网络，常见的全连接网络以及深度卷积网络都属于此种方法。深度网络凭借其多层网络结构，在很多领域获得了很好的应用，但是与此同时，随着网络层次的增加，随之而来的是数量庞大的网络参数，不仅难以学习，在存储网络结构时需要大量的硬件开销。

对于大型深度网络，量化网络参数不是为一种压缩网络存储空间的方法。另外，在不同的应用中，训练所得的网络参数具有不同的分布，如果采用常用的量化器，容易引起较大的量化误差，本发明提出了专门针对深度学习网络的量化器，通过学习来确定量化函数。量化器通常表示为分离的硬阶梯函数，硬阶梯函数并非处处可导，且绝大部分区域导数为零，难以引入网络进行后向梯度传递过程，因此本发明专门设计了一种处处可导的软阶梯函数，并且引入了可学习参数以调整该阶梯函数的形状。该软阶梯函数可以引入训练完成后的网络中，固定网络参数，以训练量化器的参数。通过学习，可得到适应于网络参数的量化器，不仅减少了网络的存储开销，并且减少了由于量化引起的性能损失。

发明内容

本发明的目的是针对在大型深度网络中，由于网络结构复杂，层数深，网络中所包含的网络参数往往数量过多，这会引起巨大的存储开销。在参数更新的系统中，大量网络参数也给传输增加了巨大的负担。提出了一种针对深度学习网络参数的量化方法。本发明采用如下技术方案：

(1)构建所需的深度学习网络结构，并根据问题产生训练数据；

(2)利用大量训练数据对所构建的深度学习网络进行训练，确定网络参数的值。大型深度网络所表示的映射过程为：

其中y表示输入信号，

表示网络的输出信号，Θ为深度网络中所包含学习参数。训练数据为

其中y _m是输入数据，s _m是标签，M是训练数据的数量。

(3)提取训练后的网络参数，寻找界限，将绝对值最大的网络参数作为界限G _b。确定所需量化的阶梯数2l+1，根据阶梯数可确认所量化比特数

根据量化阶梯数L以及界限确定相邻阶梯间隔为

(4)设计可引入网络的处处可导的软阶梯函数，由(3)所确认的超参数确定软阶梯函数的函数具体表达式，并引入可学习参数。具体做法如下:

为了赋予阶梯函数处处可导的能力使其能够引入网络训练，设计专门的软阶梯函数TanhSum(x)，其由多个tanh(·)函数组成，该软阶梯函数的表达式为：

其中2l+1表示该阶梯函数台阶数，一个2l+1台阶的TanhSum(x)函数由2l个tanh(·)函数组成；σ是为锐利系数，为超参数，需要在网络训练之前设置，锐利系数决定了该软阶梯函数的平滑程度，该系数越大，越接近硬阶梯函数；量化台阶数2l+1、界限G _bound以及相邻阶梯间隔G都是步骤(3)中所确定的超参数。

将可学习参数引入该量化器，使其能够被学习并根据深度学习网络中参数的特征调整其形状，引入可学习参数后的软阶梯函数Q _s(x)可表示为：

其中，w _1t用于调整第t个阶梯的高度，w _2t用于调整第t个阶梯的宽度，b _1t用于调整第t个阶梯在x轴方向的位置，b _2t用于调整第t个阶梯在y轴方向的位置。选择L2范数作为代价函数对此量化器的可学习参数进行学习。

(5)将该带有学习参数的软阶梯函数引入深度学习网络，量化学习参数，通过相同的训练数据学习量化器参数。

采用L2函数作为损失函数

其中，

为训练大型深度网络的训练数据，

为量化器中所包含的学习参数，Θ是训练后的大型深度网络学习参数，{σ,l,G _b}是步骤(4)中所确定的超参数。

训练过程采用退火策略，即在训练过程中逐渐增加锐利系数σ的值，逐渐使软阶梯函数趋近于分离的硬阶梯函数。

(6)训练所得软阶梯函数固化为量化器，对深度学习网络进行量化。

本发明针对在大型深度网络中参数众多而导致存储开销巨大的情况，充分利用了深度学习的方法，因此本发明专门设计了一种处处可导的软阶梯函数，并且引入了可学习参数以调整该阶梯函数的形状。该软阶梯函数可以引入训练完成后的网络中，固定网络参数，以训练量化器的参数。通过学习，可得到适应于网络参数的量化器，将量化器的阶梯是非均匀的，其形状随着网络参数的具体分布作出了调整。将训练所得量化器引入网络中对网络参数进行量化，不仅能够大量减少了网络的存储开销，还尽可能降低了由于量化参数而导致的网络性能损失。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是示例大型深度网络的网络结构示意图；

图2是量化器应用于大型深度网络的网络结构示意图；；

图3是训练所得量化器具体形状；

图4是运用所训练量化器量化后的网络性能。

具体实施方式

为了使本发明的技术方案和优点变得更加清晰，接下来将结合附图对技术方案的具体实施方式作更加详细地说明：

此处将所发明的针对深度学习网络参数的量化方法应用于具体场景中以便更清晰的说明。考虑一个运用于无线通信领域大规模MIMO信号检测的深度网络LcgNetV，该网络由相同结构的多层构成，该网络可实现输入接收信号，检测出发射信号的功能。

(1)构建所需的深度学习网络结构LcgNetV，该网络由L层网络构成，每一层网络具有相同的结构，单层网络结构由图1所示，其中

代表检测信号，为单层网络的输出，

为网络各层之间的传递变量，第一层网络的输入

即为接收信号y _rm，最后一层网络的输出

为由网络所得的检测信号，{α ⁽ⁱ⁾,β ⁽ⁱ⁾}为第i层所包含的待学习的网络参数。根据问题产生训练数据

M为训练数据的数量；

其中y表示输入信号，

其中y _m是输入数据，s _m是标签，M是训练数据的数量。

根据量化阶梯数2l+1以及界限确定相邻阶梯间隔为

此处我们选择量化台阶数2l+1为7和15，所对应的量化比特数为3bit和4bit。根据训练结果，G _b＝2.5。

其中2l+1表示该阶梯函数台阶数，一个2l+1台阶的TanhSum(x)函数由2l个tanh(·)函数组成；σ是为锐利系数，为超参数，需要在网络训练之前设置，锐利系数决定了该软阶梯函数的平滑程度，该系数越大，越接近硬阶梯函数；量化台阶数2l+1、网络参数界限G _b以及相邻阶梯间隔G都是步骤(3)中所确定的超参数。

(5)固定深度学习网络参数，将该带有可学习参数的软阶梯函数引入深度学习网络，量化网络参数，通过步骤(1)所述的训练数据学习量化器参数。引入量化器的深度网络模型如图2所示，该网络的所有参数都通过相同的量化器进行量化。

采用L2函数作为损失函数

其中，

为训练大型深度网络的训练数据，

为量化器中所包含的学习参数，Θ是训练后的大型深度网络学习参数，此处为

{σ,l,G _b}是步骤(4)中所确定的超参数。

训练过程采用退火策略，即在训练过程中逐渐增加锐利系数σ的值，逐渐使软阶梯函数趋近于分离的硬阶梯函数，此处训练时锐利系数σ依次为{10,100,500}，当归一化均方误差不再下降时训练终止。

(6)训练所得软阶梯函数固化为量化器，对深度学习网络参数进行量化。

图3对比了在3bit量化(a)和4bit量化(b)下不同量化器的形状，其中hard quantizer表示的不同基于硬阶梯函数的量化器，soft quantizer表示的是本发明所提出的量化器。可以从图中看出，本发明所提出的量化器中，量化台阶是不均匀的，可见该量化器随着网络参数的具体分布作出了调整。

图4对比了所示例网络LcgNetV在不同量化器下的性能曲线，性能由不同性噪比下的检测误比特率衡量。LcgNetV曲线代表未经量化的检测性能，QLcgNetV hard 3bit和QLcgNetV hard 4bit表示的是用普通硬阶梯函数经过3bit和4bit量化后放入LcgNetV的检测性能，QLcgNetV soft 3bit和QLcgNetV soft 4bit表示的是用所提出量化器数经过3bit和4bit量化后放入LcgNetV的检测性能。从图中可以看出本发明所提供的量化器所提供的性能要明显好于用普通量化器提供的性能，用本发明所提出的量化器3bit量化的结果甚至超过了普通量化器4bit量化的结果。

本发明是一种应用于基于透镜天线的毫米波大规模MIMO系统，基于近似消息传播算法的深度学习波束域信道估计方法。针对基于近似消息传播算法的深度学习波束域信道估计方法，我们要求将作为发明进行保护。以上所述仅为特定应用场合的具体实施方式，但本发明的真实精神和范围不局限于此，任何熟悉本领域的技术人员可以修改、等同替换、改进等，实现不同应用场合的信道估计方法。本发明由权利要求书及其等效技术方案来限定。

Claims

一种针对深度学习网络参数的量化方法，其特征在于包括以下步骤：

(1)构建深度学习网络，并根据问题产生训练数据；

(2)利用训练数据对所构建的深度学习网络进行训练，确定网络参数；

(3)提取步骤(2)所述的网络参数，根据网络参数界限和量化台阶数确定量化比特数和相邻量化台阶间隔；

(4)设计量化器，所述量化器由带有可学习参数的处处可导的软阶梯函数构成，由步骤(3)所述的网络参数界限、量化台阶数和相邻量化台阶间隔确定软阶梯函数的函数表达式，并引入可学习参数作为量化器参数；

(5)将步骤(4)所述的量化器引入深度学习网络并量化步骤(2)得到的网络参数，采用步骤(1)所述的训练数据训练量化器参数，训练过程采用退火策略；

(6)利用步骤(5)得到的训练后的量化器参数，运用训练好的量化器对步骤(2)得到的网络参数进行量化。
如权利要求1所述的针对深度学习网络参数的量化方法，其特征在于所述的步骤(3)具体为：

提取训练后的网络参数，寻找界限，将绝对值最大的网络参数作为网络参数界限G _b；确定所需的量化台阶数2l+1，根据量化台阶数确认所需的量化比特数
根据量化台阶数2l+1以及网络参数界限G _b确定相邻量化台阶间隔为
如权利要求1所述的针对深度学习网络参数的量化方法，其特征在于所述的步骤(4)具体为：

设计可引入深度学习网络的处处可导的软阶梯函数TanhSum(x)，其由多个tanh(·)函数组成，该软阶梯函数的表达式为：

其中2l+1表示该软阶梯函数台阶数，一个2l+1台阶的TanhSum(x)函数由2l个tanh(·)函数组成；σ是为锐利系数，为超参数决定了该软阶梯函数的平滑程度，σ越大，越接近硬阶梯函数；量化台阶数2l+1、网络参数界限G _b以及相邻量化台阶间隔G都是步骤(3)中所确定的超参数；

将可学习参数引入软阶梯函数，使其能够被学习并根据深度学习网络参数的特征调整形状，引入可学习参数后的软阶梯函数Q _s(x)可表示为：

其中，w _1t用于调整第t个台阶的高度，w _2t用于调整第t个台阶的宽度，b _1t用于调整第t个台阶在x轴方向的位置，b _2t用于调整第t个台阶在y轴方向的位置；

将带有可学习参数的软阶梯函数作为量化器，选择L2范数作为代价函数对此量化器的可学习参数进行学习。
如权利要求1所述的针对深度学习网络参数的量化方法，其特征在于所述的步骤(5)具体为：

将步骤(4)得到的带有可学习参数的软阶梯函数引入训练后的深度学习网络以量化步骤(2)得到的网络参数，运用训练数据训练量化器参数；训练过程采用退火策略，依次增大σ，使软阶梯函数逐渐趋近于硬阶梯函数，训练过程中采用步骤(1)所述的训练数据进行训练，当归一化均方误差不再下降时训练终止。