WO2021253857A1

WO2021253857A1 - 一种融合裁剪与量化的模型压缩方法及系统

Info

Publication number: WO2021253857A1
Application number: PCT/CN2021/076975
Authority: WO
Inventors: 刘姝
Original assignee: 苏州浪潮智能科技有限公司
Priority date: 2020-06-18
Filing date: 2021-02-20
Publication date: 2021-12-23
Also published as: CN111860770A

Abstract

一种融合裁剪与量化的模型压缩方法及系统，该方法包括：基于待压缩模型生成超网络（S3）；对超网络进行训练，生成待压缩模型的第一权重参数空间（S4）；对第一权重参数空间量化，形成第二权重参数空间（S5）；在第二权重参数空间中进行模型裁剪以及压缩后模型的精度评估，获取压缩后的最优模型（S6）。该系统包括：超网络生成模块、训练模块、量化模块以及裁剪模块。通过该方法和系统，能够将模型裁剪与模型量化融合起来，有效处理在模型低bit量化时不同模型结构对量化结果产生的重要影响，最终获取到在裁剪和量化维度上自适应优化的深度压缩模型。

Description

一种融合裁剪与量化的模型压缩方法及系统

本申请要求于2020年6月18日提交中国专利局、申请号为CN202010558278.6、发明名称为“一种融合裁剪与量化的模型压缩方法及系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及神经网络模型深度压缩技术领域，特别是涉及一种融合裁剪与量化的模型压缩方法及系统。

背景技术

随着深度学习技术的发展，神经网络模型被设计的越来越复杂，随之带来的问题是这些复杂模型难以部署到内存、带宽等资源受限的硬件平台或移动设备中。而且，对于一些如在线学习、增量学习以及自动驾驶的实时应用来说，计算量、参数量高达数千万或上亿的复杂模型很难满足时间上的实时要求。因此，模型压缩成为深度学习应用加速的一大重要目标。如何进行模型压缩，从而有效降低参数冗余，减少存储占用、通信带宽及计算复杂度，同时降低模型应用阶段的延迟，是加快深度学习的应用部署和发展的重要技术问题。

目前CNN(Convolutional Neural Networks，卷积神经网络)模型压缩的方法，通常是采用裁剪与量化方法。具体地，先融合全精度参数空间完成模型的裁剪，然后对裁剪后的固定模型参数进行低bit(binary digit，比特)量化，从而实现模型压缩。

然而，目前的CNN模型压缩方法，由于模型裁剪和量化是先后分开执行的，模型压缩过程相对独立，没有考虑到量化与模型结构之间的相互影响。某些情况下，模型中特定层的channel(通道)数值的设置会极大影响到量化结果，从而导致模型压缩空间受限，进而导致模型压缩精度不够高，模型压缩效果不够好。

发明内容

本申请提供了一种融合裁剪与量化的模型压缩方法及系统，以解决现有技术中的压缩方法使得模型压缩精度不够高以及模型压缩效果不够好的问题。

为了解决上述技术问题，本申请实施例公开了如下技术方案：

一种融合裁剪与量化的模型压缩方法，所述方法包括：

基于待压缩模型生成超网络；

对所述超网络进行训练，生成待压缩模型的第一权重参数空间，其中，所述第一权重参数空间用float32表示，所述第一权重参数空间中包含多个第一权重参数，所述第一权重参数用于评估待压缩模型的精度；

对第一权重参数空间量化，形成第二权重参数空间，其中，所述第二权重参数空间用低bit位表示，所述第二权重参数空间中包含多个第二权重参数，所述第二权重参数用于评估压缩后模型的精度；

在第二权重参数空间中进行模型裁剪以及压缩后模型的精度评估，获取压缩后的最优模型。

可选地，所述在第二权重参数空间中进行模型裁剪以及压缩后模型的精度评估，获取压缩后的最优模型，包括：

根据设定的约束条件，在第二权重参数空间搜索所有符合所述约束条件的裁剪模型；

评估任一所述裁剪模型的精度；

根据所有裁剪模型的精度评估结果，确定在各层channel上与低bit量化相匹配的裁剪模型结构；

根据所述裁剪模型结构，确定最优裁剪模型。

可选地，所述约束条件包括：计算量和延迟。

可选地，根据设定的约束条件，在第二权重参数空间搜索所有符合所述约束条件的裁剪模型的方法，具体为：

根据设定的约束条件，采用基于AutoM1的自动化搜索方法，在第二权重参数空间搜索所有符合所述约束条件的裁剪模型。

可选地，基于待压缩模型生成超网络之前，所述方法还包括：

定义模型压缩的维度，所述维度包括：结构维度和参数空间维度；

根据所述维度，确定模型压缩的方式。

可选地，根据所述维度，确定模型压缩的方式，包括：

采用模型裁剪的方式，进行结构维度的模型压缩；

采用量化的方式，进行参数空间维度的模型压缩。

可选地，所述待压缩模型包括：CNN模型、目标检测模型以及自然语言处理模型。

一种融合裁剪与量化的模型压缩系统，所述系统包括：

超网络生成模块，用于根据待压缩模型生成超网络；

训练模块，用于对所述超网络进行训练，生成待压缩模型的第一权重参数空间，其中，所述第一权重参数空间用float32表示，所述第一权重参数空间中包含多个第一权重参数，所述第一权重参数用于评估待压缩模型的精度；

量化模块，用于对第一权重参数空间量化，形成第二权重参数空间，其中，所述第二权重参数空间用低bit位表示，所述第二权重参数空间中包含多个第二权重参数，所述第二权重参数用于评估压缩后模型的精度；

裁剪模块，用于在第二权重参数空间中进行模型裁剪以及压缩后模型的精度评估，获取压缩后的最优模型。

可选地，所述系统中还包括：

压缩维度定义模块，用于定义模型压缩的维度，所述维度包括：结构维度和参数空间维度；

压缩方式确定模块，用于根据所述维度，确定模型压缩的方式。

可选地，所述裁剪模块包括：

搜索单元，用于根据设定的约束条件，在第二权重参数空间搜索所有符合所述约束条件的裁剪模型；

精度评估单元，用于评估任一所述裁剪模型的精度；

裁剪模型结构确定单元，用于根据所有裁剪模型的精度评估结果，确定在各层channel上与低bit量化相匹配的裁剪模型结构；

最优裁剪模型确定单元，用于根据所述裁剪模型结构，确定最优裁剪模型。

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请提供一种融合裁剪与量化的模型压缩方法，该方法首先基于待压缩模型生成超网络，然后对超网络进行训练生成待压缩模型的第一权重参数空间，然后对第一权重参数空间量化形成第二权重参数空间，最后在第二权重参数空间中进行模型裁剪以及压缩后模型的精度评估，获取到压缩后的最优模型。本实施例中第一权重参数空间用float32表示，第二权重参数空间用低bit位表示，通过将低bit位量化的约束添加到模型裁剪中，基于低bit量化的参数空间进行裁剪模型的搜索和精度评估，能够确定在各层channel上与低bit量化相匹配的裁剪模型结构，有效结合模型裁剪和模型量化，能够得到在裁剪和量化维度上自适应优化的深度压缩模型，有利于提高模型压缩的精度以及模型压缩效果。

另外，本实施例中在模型裁剪方法上采用基于AutoM1的自动化搜索方法，搜索空间更加灵活，能够实现channel级别的裁剪，有利于进一步提高模型压缩的精度。

本申请还提供一种融合裁剪与量化的模型压缩系统，该系统主要包括：超网络生成模块、训练模块、量化模块以及裁剪模块。通过训练模块生成第一权重参数空间，通过量化模块生成第二权重空间，然后通过裁剪模块在低bit位的第二权重参数空间中进行模型裁剪以及压缩后模型的精度评估，最终获取压缩后的最优模型。本实施例通过四个模块的设置，能够将模型裁剪与模型量化融合起来，充分考虑到在模型低bit量化时，不同模型结构对量化结果产生的重要影响，如各层channel值的设定对量化结果的影响不同，最终获取到在裁剪和量化维度上自适应优化的深度压缩模型。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

图1为本申请实施例所提供的一种融合裁剪与量化的模型压缩方法的流程示意图；

图2为本实施例中的方法应用于4bit量化时的模型压缩原理示意图；

图3为本申请实施例所提供的一种融合裁剪与量化的模型压缩系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。融合本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

为了更好地理解本申请，下面结合附图来详细解释本申请的实施方式。

实施例一

参见图1，图1为本申请实施例所提供的一种融合裁剪与量化的模型压缩方法的流程示意图。由图1可知，本实施例中融合裁剪与量化的模型压缩方法，主要包括如下过程：

S3：基于待压缩模型生成超网络。

超网络通常为float32(32位浮点型数)全精度表示的超网络。本实施例中的待压缩模型包括：CNN模型、目标检测模型以及自然语言处理模型。下面主要以CNN模型为例进行描述。

S4：对超网络进行训练，生成待压缩模型的第一权重参数空间。

其中，第一权重参数空间用float32表示，第一权重参数空间中包含多个第一权重参数，第一权重参数用于评估待压缩模型的精度。

本实施例中采用的模型压缩方法包括模型裁剪和模型量化，并将两者进行融合。生成超网络后，通过步骤S4对超网络进行训练，生成第一权重参数空间，第一权重参数空间采用float32表示，也就是以float32表示神经网络的权重值，其bit位相比于第二权重参数空间较大。第一权重参数和第二权重参数都用于评估模型的精度，其中，第一权重参数用于评估待压缩模型的精度。

获取到第一权重参数空间之后，执行步骤S5：对第一权重参数空间量化，形成第二权重参数空间。

其中，第二权重参数空间用低bit位表示，第二权重参数空间中包含多个第二权重参数，第二权重参数用于评估压缩后模型的精度。

通过对第一权重参数空间量化，获取到更低bit位的第二权重参数空间，量化后的超网络可以生成低bit范围表示的权重参数，即第二权重参数，将float32全精度模型参数空间用低bit参数空间代替，为后续实现模型压缩提供条件。

继续参见图1可知，获取到第二权重参数空间之后，执行步骤S6：在第二权重参数空间中进行模型裁剪以及压缩后模型的精度评估，获取压缩后的最优模型。

具体地，步骤S6包括如下过程：

S61：根据设定的约束条件，在第二权重参数空间搜索所有符合约束条件的裁剪模型。

本实施例中的约束条件包括：计算量和延迟。也就是可以在设定的计算量和设定的延迟约束下进行模型压缩，最终实现将待压缩模型的计算量压缩至设定的计算量，将待压缩模型的延迟压缩至设定的延迟。

具体地，步骤S61可以采用如下方式：

根据设定的约束条件，采用基于AutoM1的自动化搜索方法，在第二权重参数空间搜索所有符合约束条件的裁剪模型。

采用基于AutoM1的自动化搜索方法，针对给定特定模型，可以灵活设定深度学习模型中各层的裁剪维度，从而能够在特定的搜索空间中最大限度搜索到符合条件的裁剪优化模型。因此这种搜索方法搜索空间更加灵活，能够实现channel级别的裁剪，有利于进一步提高模型压缩的精度。

搜索到符合约束条件的裁剪模型之后，执行步骤S62：评估任一裁剪模型的精度。

本实施例中可以搜索到一个符合约束条件的裁剪模型即对其进行精度评估，直到所有符合约束条件的裁剪模型均搜索完毕。

对所有符合约束条件的裁剪模型逐一搜索并进行精度评估之后，获取到精度评估结果，执行步骤S63：根据所有裁剪模型的精度评估结果，确定在各层channel上与低bit量化相匹配的裁剪模型结构。

本实施例将自动化裁剪与量化融合，能够有效解决模型结构中channel个数的设定对量化结果的影响，从而避免裁剪操作与量化操作独立进行所导致的模型裁剪后固定模型不适应量化空间的问题，获取在各层channel设定上适应于低bit量化的裁剪模型结构，有利于提高压缩模型的精度，提高模型的性能。

S64：根据裁剪模型结构，确定最优裁剪模型。

由以上步骤S61-S64可知，在计算量、延迟等特定的约束条件下，在搜索空间搜索所有可能的裁剪模型，用第二权重参数来评估各个裁剪模型的精度，最终基于精度评估结果获取到符合需求的最优裁剪模型。

进一步地，本实施例中在步骤S3之前还包括步骤S1和S2。其中步骤S1：定义模型压缩的维度，模型维度包括：结构维度和参数空间维度。

也就是定义模型压缩维度，对模型进行结构维度的压缩和参数空间维度的压缩。

S2：根据维度，确定模型压缩的方式。

具体地，步骤S2包括如下过程：

S21：采用模型裁剪的方式，进行结构维度的模型压缩。

模型结构维度的压缩通过模型裁剪实现，即：裁减掉CNN模型各层中特定个数的channel。

S22：采用量化的方式，进行参数空间维度的模型压缩。

模型参数空间维度的压缩通过模型量化实现，即将float32表示的参数空间量化至低bit位表示。

本实施例中融合裁剪与量化的模型压缩方法的原理示意图可以参见图2所示，图2中的低bit位以4bit量化为例。图2中以待压缩模型、通过裁剪和量化压缩模型的过程、压缩后模型的顺序进行展示。第一次通过超网络生成的权重参数空间以float32表示，为第一权重参数空间，将float32表示的权重参数空间进行量化后，获取到以4bit位表示的第二权重参数空间，并在第二权重参数空间中进行模型裁剪，最终获取到压缩后模型，其中，压缩后模型中虚线部分表示模型中裁剪掉的部分。

实施例二

在图1和图2所示实施例的基础之上参见图3，图3为本申请实施例所提供的一种融合裁剪与量化的模型压缩系统的结构示意图。由图3可知本实施例中融合裁剪与量化的模型压缩系统主要包括：超网络生成模块、训练模块、量化模块以及裁剪模块。

其中，超网络生成模块，用于根据待压缩模型生成超网络。训练模块，用于对超网络进行训练，生成待压缩模型的第一权重参数空间，其中，第一权重参数空间用float32表示，第一权重参数空间中包含多个第一权重参数，第一权重参数用于评估待压缩模型的精度。量化模块，用于对第一权重参数空间量化，形成第二权重参数空间，其中，第二权重参数空间用低bit位表示，第二权重参数空间中包含多个第二权重参数，第二权重参数用于评估压缩后模型的精度。裁剪模块，用于在第二权重参数空间中进行模型裁剪以及压缩后模型的精度评估，获取压缩后的最优模型。

进一步地，该系统中还包括：压缩维度定义模块和压缩方式确定模块。其中，压缩维度定义模块，用于定义模型压缩的维度，维度包括：结构维度和参数空间维度；压缩方式确定模块，用于根据维度，确定模型压缩的方式。

裁剪模块包括：搜索单元、精度评估单元、裁剪模型结构确定单元和最优裁剪模型确定单元。其中，搜索单元，用于根据设定的约束条件，在第二权重参数空间搜索所有符合约束条件的裁剪模型。精度评估单元，用于评估任一裁剪模型的精度。裁剪模型结构确定单元，用于根据所有裁剪模型的精度评估结果，确定在各层channel上与低bit量化相匹配的裁剪模型结构。最优裁剪模型确定单元，用于根据裁剪模型结构，确定最优裁剪模型。

该实施例中融合裁剪与量化的模型压缩系统的工作原理和工作方法，在图1和图2所示的实施例中已经详细阐述，在此不再赘述。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种融合裁剪与量化的模型压缩方法，其特征在于，所述方法包括：

基于待压缩模型生成超网络；

对所述超网络进行训练，生成待压缩模型的第一权重参数空间，其中，所述第一权重参数空间用float32表示，所述第一权重参数空间中包含多个第一权重参数，所述第一权重参数用于评估待压缩模型的精度；

对第一权重参数空间量化，形成第二权重参数空间，其中，所述第二权重参数空间用低bit位表示，所述第二权重参数空间中包含多个第二权重参数，所述第二权重参数用于评估压缩后模型的精度；

在第二权重参数空间中进行模型裁剪以及压缩后模型的精度评估，获取压缩后的最优模型。
根据权利要求1所述的一种融合裁剪与量化的模型压缩方法，其特征在于，所述在第二权重参数空间中进行模型裁剪以及压缩后模型的精度评估，获取压缩后的最优模型，包括：

根据设定的约束条件，在第二权重参数空间搜索所有符合所述约束条件的裁剪模型；

评估任一所述裁剪模型的精度；

根据所有裁剪模型的精度评估结果，确定在各层channel上与低bit量化相匹配的裁剪模型结构；

根据所述裁剪模型结构，确定最优裁剪模型。
根据权利要求2所述的一种融合裁剪与量化的模型压缩方法，其特征在于，所述约束条件包括：计算量和延迟。
根据权利要求2所述的一种融合裁剪与量化的模型压缩方法，其特征在于，根据设定的约束条件，在第二权重参数空间搜索所有符合所述约束条件的裁剪模型的方法，具体为：

根据设定的约束条件，采用基于AutoM1的自动化搜索方法，在第二权重参数空间搜索所有符合所述约束条件的裁剪模型。
根据权利要求1所述的一种融合裁剪与量化的模型压缩方法，其特征在于，基于待压缩模型生成超网络之前，所述方法还包括：

定义模型压缩的维度，所述维度包括：结构维度和参数空间维度；

根据所述维度，确定模型压缩的方式。
根据权利要求5所述的一种融合裁剪与量化的模型压缩方法，其特征在于，根据所述维度，确定模型压缩的方式，包括：

采用模型裁剪的方式，进行结构维度的模型压缩；

采用量化的方式，进行参数空间维度的模型压缩。
根据权利要求1-6中任一所述的一种融合裁剪与量化的模型压缩方法，其特征在于，所述待压缩模型包括：CNN模型、目标检测模型以及自然语言处理模型。
一种融合裁剪与量化的模型压缩系统，其特征在于，所述系统包括：

超网络生成模块，用于根据待压缩模型生成超网络；

训练模块，用于对所述超网络进行训练，生成待压缩模型的第一权重参数空间，其中，所述第一权重参数空间用float32表示，所述第一权重参数空间中包含多个第一权重参数，所述第一权重参数用于评估待压缩模型的精度；

量化模块，用于对第一权重参数空间量化，形成第二权重参数空间，其中，所述第二权重参数空间用低bit位表示，所述第二权重参数空间中包含多个第二权重参数，所述第二权重参数用于评估压缩后模型的精度；

裁剪模块，用于在第二权重参数空间中进行模型裁剪以及压缩后模型的精度评估，获取压缩后的最优模型。
根据权利要求8所述的一种融合裁剪与量化的模型压缩系统，其特征在于，所述系统中还包括：

压缩维度定义模块，用于定义模型压缩的维度，所述维度包括：结构维度和参数空间维度；

压缩方式确定模块，用于根据所述维度，确定模型压缩的方式。
根据权利要求8所述的一种融合裁剪与量化的模型压缩系统，其特征在于，所述裁剪模块包括：

搜索单元，用于根据设定的约束条件，在第二权重参数空间搜索所有符合所述约束条件的裁剪模型；

精度评估单元，用于评估任一所述裁剪模型的精度；

裁剪模型结构确定单元，用于根据所有裁剪模型的精度评估结果，确定在各层channel上与低bit量化相匹配的裁剪模型结构；

最优裁剪模型确定单元，用于根据所述裁剪模型结构，确定最优裁剪模型。