WO2021103597A1

WO2021103597A1 - 一种神经网络的模型压缩的方法和设备

Info

Publication number: WO2021103597A1
Application number: PCT/CN2020/103697
Authority: WO
Inventors: 郭韶燕
Original assignee: 苏州浪潮智能科技有限公司
Priority date: 2019-11-29
Filing date: 2020-07-23
Publication date: 2021-06-03
Also published as: US20230004809A1; KR20220091575A; US11928599B2; CN111126595A

Abstract

一种神经网络的模型压缩的方法和设备，该方法包括以下步骤：记录网络层中每一层网络的输入和输出参数（S1）；根据输入和输出参数将网络层分为若干小网络（S2）；将每个小网络中的第一个卷积层的裁剪标志位设置为0，得到裁剪小网络（S3）；使用通道裁剪算法对每个裁剪小网络进行训练，得到网络权重和权重掩码（S4）；记录权重掩码为0的裁剪小网络的每一个卷积层的裁剪通道索引号（S5）；根据裁剪通道索引号对每个裁剪小网络进行分解计算（S6）。通过使用上述方法，能够直接减少计算量，并减小模型大小，在网络部署时，可一键加载模型，降低使用难度。

Description

一种神经网络的模型压缩的方法和设备

本申请要求于2019年11月29日提交中国专利局、申请号为201911198187.X、发明名称为“一种神经网络的模型压缩的方法和设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本领域涉及计算机领域，并且更具体地涉及一种神经网络的模型压缩的方法和设备。

背景技术

结合大数据的获取，深度神经网络关键技术广泛应用于图像分类、物体检测、语音识别和自然语言处理等领域。随着深度神经网络模型性能不断提升，模型体积和计算需求提高，以致其依赖高功耗的计算平台。为解决在实时嵌入式系统中的存储资源和内存访问带宽的限制，以及计算资源相对不足的问题，已开展嵌入式应用的深度神经网络模型压缩技术研究，以便缩减模型体积和对存储空间的需求,优化模型计算过程。

综合现有的深度模型压缩方法，它们主要分为四类：参数修剪和共享、低秩因子分解、转移/紧凑卷积滤波器、知识蒸馏。低秩因子分解、转移/紧凑卷积滤波器、知识蒸馏这三种方法，通常涉及到网络结构的改变，故本发明主要针对参数裁剪和共享改进。

现有的裁剪算法，分为两种非结构性裁剪和结构性裁剪。裁剪后的模型的表现形式为，裁剪掉的模型权重数值为0，而未被裁剪掉的模型权重数值为非0的float数据，因此模型大小本质上没有发生改变。在实际应用中，使用非结构性裁剪算法，裁剪的模型，通常使用数据索引等方法，使实际模型大小发生改变。结构性裁剪算法后的模型，通常需将当前卷积层的参数按裁剪比例减少，并在当前卷积层按照裁剪通道的索引号，添加相应的卷积运算。但是裁剪压缩后的模型，压缩率低，在模型加载时，需添加特定解压模块；具有shortcut结构的网络，对某些卷积层裁剪过度。

发明内容

有鉴于此，本发明实施例的目的在于提出一种神经网络的模型压缩的方法，能够直接减少计算量，并减小模型大小，在网络部署时，可一键加载模型，降低使用难度。

基于上述目的，本发明的实施例的一个方面提供了一种神经网络的模型压缩的方法，包括以下步骤：

记录网络层中每一层网络的输入和输出参数；

根据输入和输出参数将网络层分为若干小网络；

将每个小网络中的第一个卷积层的裁剪标志位设置为0，得到裁剪小网络；

使用通道裁剪算法对每个裁剪小网络进行训练，得到网络权重和权重掩码；

记录权重掩码为0的裁剪小网络的每一个卷积层的裁剪通道索引号；根据裁剪通道索引号对每个裁剪小网络进行分解计算。

根据本发明的一个实施例，记录网络层中每一层网络的输入和输出参数包括：

记录网络层中每一层网络的输入个数、输出个数、输入名称和输出名称。

根据本发明的一个实施例，根据输入和输出参数将网络层分为若干小网络包括：

如果当前网络层的输入个数和输出个数均为1，且输入名称与其它网络层的输入名称均不一致，则将当前网络层与上一网络层分为同一个小网络；

如果当前网络层的输入个数或输出个数不为1，则将当前网络层分为一个小网络；

如果当前网络层的输入个数和输出个数均为1，且输入名称与其它网络层之一的输入名称一致，则将当前网络层分为一个小网络。

根据本发明的一个实施例，通道裁剪算法包括：动态通道裁剪算法和基于自动机器学习的通道裁剪算法。

根据本发明的一个实施例，根据裁剪通道索引号对每个裁剪小网络进行分解计算包括：

从每个裁剪小网络中最后一层向第一层依次遍历，根据每个裁剪小网络中相应层的裁剪通道索引号将相应层对应的输出通道中的相应索引号进行裁剪。

本发明的实施例的另一个方面，还提供了一种神经网络的模型压缩的设备，其特征在于，设备包括：

至少一个处理器；和

存储器，存储器存储有处理器可运行的程序代码，程序代码在被处理器运行时执行以下步骤：

记录网络层中每一层网络的输入和输出参数；

根据输入和输出参数将网络层分为若干小网络；

记录权重掩码为0的裁剪小网络的每一个卷积层的裁剪通道索引号；

根据裁剪通道索引号对每个裁剪小网络进行分解计算。

本发明具有以下有益技术效果：本发明实施例提供的神经网络的模型压缩的方法，通过记录网络层中每一层网络的输入和输出参数；根据输入和输出参数将网络层分为若干小网络；将每个小网络中的第一个卷积层的裁剪标志位设置为0，得到裁剪小网络；使用通道裁剪算法对每个裁剪小网络进行训练，得到网络权重和权重掩码；记录权重掩码为0的裁剪小网络的每一个卷积层的裁剪通道索引号；根据裁剪通道索引号对每个裁剪小网络进行分解计算的技术方案，能够直接减少计算量，并减小模型大小，在网络部署时，可一键加载模型，降低使用难度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为根据本发明一个实施例的神经网络的模型压缩的方法的示意性流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

基于上述目的，本发明的实施例的第一个方面，提出了一种神经网络的模型压缩的方法的一个实施例。图1示出的是该方法的示意性流程图。

如图1中所示，该方法可以包括以下步骤：

S1记录网络层中每一层网络的输入和输出参数，可以对每一层进行标号，从第0层标记到第n层；

S2根据输入和输出参数将网络层分为若干小网络，根据参数的不同将n层的大网络分为m个小网络；

S3将每个小网络中的第一个卷积层的裁剪标志位设置为0，得到裁剪小网络，其他层的裁剪标志位都设置为1，0表示不裁剪，1表示裁剪；

S4使用通道裁剪算法对每个裁剪小网络进行训练，得到网络权重和权重掩码(mask)，理论上可以采用任意一种通道裁剪算法对裁剪小网络进行训练，训练后得到很多网络参数，这里我们需要用到权重和权重的掩码，若该权重被裁剪，则mask为0，否则为1；

S5记录权重掩码为0的裁剪小网络的每一个卷积层的裁剪通道索引号，即若该通道被裁剪，则记录其索引号；

S6根据裁剪通道索引号对每个裁剪小网络进行分解计算，即，如果裁剪小网络有k层，按照第k层的通道裁剪索引号，将k-1层的输出通道相应的索引号进行裁剪，直至遍历完成该小网络的每一层。最后的到的网络参数，仅包括权重(未裁剪的)。例如，权重是5x10x3x3，第k层的索引号记录的是第二维中的0、1、2，则将第k-1层权重中10x8x3x2的第一维中的索引号为0、1、2进行裁剪。

本发明提供的一种神经网络的压缩算法，在具有shortcut结构的网络中，合理裁剪网络，保证性能。裁剪后的模型，无需增加特定卷积运算，模型大小直接减少，并实现模型推理时，一键加载，无需解码。

通过以上技术方案，能够直接减少计算量，并减小模型大小，在网络部署时，可一键加载模型，降低使用难度。

在本发明的一个优选实施例中，记录网络层中每一层网络的输入和输出参数包括：

在本发明的一个优选实施例中，根据输入和输出参数将网络层分为若干小网络包括：

如果当前网络层的输入个数和输出个数均为1，且输入名称与其它网络层的输入名称均不一致，则将当前网络层与上一网络层分为同一个小网络；如果当前网络层的输入个数或输出个数不为1，则将当前网络层分为一个小网络；如果当前网络层的输入个数和输出个数均为1，且输入名称与其它网络层之一的输入名称一致，则将当前网络层分为一个小网络。

在本发明的一个优选实施例中，通道裁剪算法包括：动态通道裁剪算法和基于自动机器学习的通道裁剪算法。还可以使用其他的通道裁剪算法，理论上可以使用任何一种算法。

在本发明的一个优选实施例中，根据裁剪通道索引号对每个裁剪小网络进行分解计算包括：

从每个裁剪小网络中最后一层向第一层依次遍历，根据每个裁剪小网络中相应层(即当前所遍历的层)的裁剪通道索引号将相应层对应的输出通道中的相应索引号进行裁剪。即，如果裁剪小网络有i层，按照第i层的通道裁剪索引号，将i-1层的输出通道相应的索引号进行裁剪，直至遍历完成该小网络的每一层。最后的到的网络参数，仅包括权重(未裁剪的)。例如，权重是5x10x3x3，第k层的索引号记录的是第二维中的0、1、2，则将第i-1层权重中10x8x3x2的第一维中的索引号为0、1、2进行裁剪。

本发明可以在现有量化算法中添加以下两个模块以完成上述方法：

1)网络切分模块。在通道裁剪时，选择裁剪输入通道而不是输出通道。这是由于，第一：卷积层如含有bias，则需保证裁剪的卷积层输出通道索引号与bias索引号一致；第二：若卷积层相邻层为batchnorm层(现有网络结构通常为conv、batchnorm)，在batchnorm层计算时，被裁剪的通道又被复原，失去裁剪的意义。在实验中发现，对于直连的网络结构，即每一层只有一个输入和一个输出，可将所有卷积层裁剪，第一个卷积层除外(一般CNN网络，输入图像通道为3，如果将其通道直接较少，相当于直接减少图像原始信息)。但对于resnet50含有shortcut结构的网络，虽可以将所有卷积层裁剪，在实际中并不能减少计算。减少当前卷积层的输入通道，相当于减少其上一层(相邻连接)的输出通道。当两个卷积层的输入都来自于同一层时，必须保证两个卷积层裁剪的输入通道索引号一致，但两个不同的卷积，同一索引输入通道重要性不同，因此保证两个不同卷积裁剪输入通道索引号一致，不可实现。因此，shortcut结构中，只裁剪具有单个输入和单个输出的卷积。

2)通道索引压缩模块。裁剪后的网络，对于被裁剪的输入通道，其权重为0。实际中，为了实现被裁剪的通道不参与计算，在该卷积层之前通常添加一个卷积层，将被裁剪的通道mask，但这种方式在减少当前层计算量时，也增加了额外的卷积计算。因此为了实现真正意义上的计算量直接减少，分析卷积计算，以及相连层的关系，并最终实现卷积计算的实际减少。其核心思想为当前被裁剪的输入通道，与其相连层(conv、batchnorm)的输出通道也可相应的裁剪。对于resnet50网络，其具体步骤为：第一，将网络结构拆分为n个子网，每个子网的每一层仅有一个输入和一个输出；第二，将每个子网，从最后一层逐步向上分解计算，即记录n层被裁剪的通道索引号，并将n-1层的输出通道n层记录的通道索引号裁剪，直至遍历完成所有层。

通过以上技术方案，能够实现系统安全等级灵活控制，保证服务正常运行，实现同一套存储系统满足用户的多种安全级别要求，实现配置内容的简化处理，避免冗长，解决系统不允许直接修改其中文件场景下用户无法直接修改配置文件的问题，实现存储系统各项服务安全的统一、灵活控制，避免了直接手动修改配置文件可能出错的问题。

需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，上述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储器(Read-Only Memory，ROM)或随机存取存储器(Random Access Memory，RAM)等。上述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

此外，根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时，执行本发明实施例公开的方法中限定的上述功能。

基于上述目的，本发明的实施例的第二个方面，提出了一种神经网络的模型压缩的设备，其特征在于，设备包括：

至少一个处理器；和

记录网络层中每一层网络的输入和输出参数；

根据输入和输出参数将网络层分为若干小网络；

根据裁剪通道索引号对每个裁剪小网络进行分解计算。

在本发明的一个优选实施例中，通道裁剪算法包括：动态通道裁剪算法和基于自动机器学习的通道裁剪算法。

需要特别指出的是，上述系统的实施例采用了上述方法的实施例来具体说明各模块的工作过程，本领域技术人员能够很容易想到，将这些模块应用到上述方法的其他实施例中。

此外，上述方法步骤以及系统单元或模块也可以利用控制器以及用于存储使得控制器实现上述步骤或单元或模块功能的计算机程序的计算机可读存储介质实现。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

上述实施例，特别是任何“优选”实施例是实现的可能示例，并且仅为了清楚地理解本发明的原理而提出。可以在不脱离本文所描述的技术的精神和原理的情况下对上述实施例进行许多变化和修改。所有修改旨在被包括在本公开的范围内并且由所附权利要求保护。

Claims

一种神经网络的模型压缩的方法，其特征在于，包括以下步骤：

记录网络层中每一层网络的输入和输出参数；

根据所述输入和输出参数将所述网络层分为若干小网络；

将每个所述小网络中的第一个卷积层的裁剪标志位设置为0，得到裁剪小网络；

使用通道裁剪算法对每个所述裁剪小网络进行训练，得到网络权重和权重掩码；

记录所述权重掩码为0的所述裁剪小网络的每一个卷积层的裁剪通道索引号；

根据所述裁剪通道索引号对每个所述裁剪小网络进行分解计算。
根据权利要求1所述的方法，其特征在于，记录网络层中每一层网络的输入和输出参数包括：

记录所述网络层中每一层网络的输入个数、输出个数、输入名称和输出名称。
根据权利要求2所述的方法，其特征在于，根据所述输入和输出参数将所述网络层分为若干小网络包括：

如果当前网络层的输入个数和输出个数均为1，且输入名称与其它网络层的输入名称均不一致，则将所述当前网络层与上一网络层分为同一个所述小网络；

如果所述当前网络层的输入个数或输出个数不为1，则将所述当前网络层分为一个所述小网络；

如果所述当前网络层的输入个数和输出个数均为1，且输入名称与其它网络层之一的输入名称一致，则将所述当前网络层分为一个所述小网络。
根据权利要求1所述的方法，其特征在于，所述通道裁剪算法包括：动态通道裁剪算法和基于自动机器学习的通道裁剪算法。
根据权利要求1所述的方法，其特征在于，根据所述裁剪通道索引号对每个所述裁剪小网络进行分解计算包括：

从每个所述裁剪小网络中最后一层向第一层依次遍历，根据每个所述裁剪小网络中相应层的裁剪通道索引号将所述相应层对应的输出通道中的相应索引号进行裁剪。
一种神经网络的模型压缩的设备，其特征在于，所述设备包括：

至少一个处理器；和

存储器，所述存储器存储有处理器可运行的程序代码，所述程序代码在被处理器运行时执行以下步骤：

记录网络层中每一层网络的输入和输出参数；

根据所述输入和输出参数将所述网络层分为若干小网络；

将每个所述小网络中的第一个卷积层的裁剪标志位设置为0，得到裁剪小网络；

使用通道裁剪算法对每个所述裁剪小网络进行训练，得到网络权重和权重掩码；

记录所述权重掩码为0的所述裁剪小网络的每一个卷积层的裁剪通道索引号；

根据所述裁剪通道索引号对每个所述裁剪小网络进行分解计算。
根据权利要求6所述的设备，其特征在于，记录网络层中每一层网络的输入和输出参数包括：

记录所述网络层中每一层网络的输入个数、输出个数、输入名称和输出名称。
根据权利要求7所述的设备，其特征在于，根据所述输入和输出参数将所述网络层分为若干小网络包括：

如果当前网络层的输入个数和输出个数均为1，且输入名称与其它网络层的输入名称均不一致，则将所述当前网络层与上一网络层分为同一个所述小网络；

如果所述当前网络层的输入个数或输出个数不为1，则将所述当前网络层分为一个所述小网络；

如果所述当前网络层的输入个数和输出个数均为1，且输入名称与其它网络层之一的输入名称一致，则将所述当前网络层分为一个所述小网络。
根据权利要求6所述的设备，其特征在于，所述通道裁剪算法包括：动态通道裁剪算法和基于自动机器学习的通道裁剪算法。
根据权利要求6所述的设备，其特征在于，根据所述裁剪通道索引号对每个所述裁剪小网络进行分解计算包括：

从每个所述裁剪小网络中最后一层向第一层依次遍历，根据每个所述裁剪小网络中相应层的裁剪通道索引号将所述相应层对应的输出通道中的相应索引号进行裁剪。