WO2022057468A1

WO2022057468A1 - 一种深度学习模型推理加速的方法、系统、设备及介质

Info

Publication number: WO2022057468A1
Application number: PCT/CN2021/109609
Authority: WO
Inventors: 刘姝
Original assignee: 苏州浪潮智能科技有限公司
Priority date: 2020-09-18
Filing date: 2021-07-30
Publication date: 2022-03-24
Also published as: CN112200313A

Abstract

本发明公开了一种深度学习模型推理加速的方法、系统、设备和存储介质，方法包括：根据裁剪前后性能和精度的综合提升对深度学习模型进行裁剪；计算裁剪前的深度学习模型的第一损失函数，并计算裁剪后的深度学习模型的第二损失函数；将第一损失函数加入第二损失函数以对第二损失函数进行更新；以及通过更新后的第二损失函数对裁剪后的深度学习模型进行训练。本发明实现了大规模深度学习模型的精简压缩，降低模型的计算量和参数量，同时压缩后的模型精度损失小，对硬件平台的限制少，提升深度学习应用在线推理的速度与效率，进而推进深度学习应用的推理部署与快速发展。

Description

一种深度学习模型推理加速的方法、系统、设备及介质

本申请要求于2020年09月18日提交中国国家知识产权局，申请号为202010985523.1，发明名称为“一种深度学习模型推理加速的方法、系统、设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及深度学习领域，更具体地，特别是指一种深度学习模型推理加速的方法、系统、计算机设备及计算机可读存储介质。

背景技术

近几年来随着深度学习技术的快速发展，深度学习越来越多的应用到工业界中，如基于深度学习的图像识别、自动驾驶、自动翻译系统等，目前的深度学习模型由于其计算复杂性高、参数冗余，对硬件平台的内存、带宽等条件要求较高，从而导致在一些场景或设备上的推理部署存在限制。近几年来模型推理的优化方法包括模型压缩、软件库优化、异构计算、硬件加速等技术。

现有推理优化软件如TVM(一种用于CPU实现深度学习的开源推理优化器)、tensorrt(NVIDIA公司推出的深度学习推理优化器)，都是对深度学习模型进行深度推理优化，一方面从编译器级别进行计算优化，另一方面通过对深度学习中的计算特征进行算子融合、参数量化等技术，来加速深度学习在硬件平台的推理与部署。另一种是利用深度学习模型的稀疏性，通过降低模型的计算量或参数量来对模型进行压缩，进而可以降低模型的内存或带宽占用量，可以更方便的部署到推理平台，同时达到推理加速的效果。

但是，目前的模型压缩技术中，非结构化裁剪与低bit(计算机存储中的比特数)量化后的模型，由于其结构变化的不规则，继续应用于传统软硬件无法达到加速的效果，需要特殊的软硬件支持才能完成推理部署与加速，导致部署成本增加，同时，压缩后的模型一般需要重训练，而重训练不当的情况下在一定程度上会导致模型精度损失。

发明内容

有鉴于此，本发明实施例的目的在于提出一种深度学习模型推理加速的方法、系统、计算机设备及计算机可读存储介质，通过对深度学习模型进行结构化裁剪，裁剪后的模型不受软硬件平台的限制，可以直接部署到与裁剪前模型相同的推理平台；采用模型蒸馏的优化训练方法，对裁剪后的模型重训练，这种训练方式可在将裁剪后模型性能提升一倍的情况下保持精度不下降。

基于上述目的，本发明实施例的一方面提供了一种深度学习模型推理加速的方法，包括如下步骤：根据裁剪前后性能和精度的综合提升对深度学习模型进行裁剪；计算裁剪前的所述深度学习模型的第一损失函数，并计算裁剪后的所述深度学习模型的第二损失函数；将所述第一损失函数加入所述第二损失函数以对所述第二损失函数进行更新；以及通过更新后的所述第二损失函数对裁剪后的所述深度学习模型进行训练。

在一些实施方式中，所述根据裁剪前后性能和精度的综合提升对深度学习模型进行裁剪包括：对性能提升和精度提升分配权重，根据所述权重计算提升的分数，并使用所述分数最高的裁剪方案对所述深度学习模型进行裁剪。

在一些实施方式中，所述根据裁剪前后性能和精度的综合提升对深度学习模型进行裁剪包括：计算不同的候选裁剪结构在推理平台的性能值，并使用性能值最大的候选裁剪结构对所述深度学习模型进行裁剪。

在一些实施方式中，所述计算裁剪前的所述深度学习模型的第一损失函数包括：对裁剪前的所述深度学习模型的预测输出采用预设策略以得到软化的概率分布，并根据所述软化的概率分布计算所述深度学习模型的第一损失函数。

在一些实施方式中，所述计算裁剪后的所述深度学习模型的第二损失函数包括：获取裁剪后的所述深度学习模型的预测概率分布，并根据所述预测概率分布计算所述深度学习模型的第二损失函数。

在一些实施方式中，所述将所述第一损失函数加入所述第二损失函数以对所述第二损失函数进行更新包括：对所述第一损失函数和所述第二损失函数分配权重，并将基于所述权重计算得到的结果替换所述第二损失函数。

在一些实施方式中，所述通过更新后的所述第二损失函数对裁剪后的所述深度学习模型进行训练包括：依次降低所述第二损失函数的权重，并根据每次更新后的所述第二损失函数对裁剪后的所述深度学习模型进行训练。

本发明实施例的另一方面，还提供了一种深度学习模型推理加速系统，包括：裁剪模块，配置用于根据裁剪前后性能和精度的综合提升对深度学习模型进行裁剪；计算模块，配置用于计算裁剪前的所述深度学习模型的第一损失函数，并计算裁剪后的所述深度学习模型的第二损失函数；更新模块，配置用于将所述第一损失函数加入所述第二损失函数以对所述第二损失函数进行更新；以及训练模块，配置用于通过更新后的所述第二损失函数对裁剪后的所述深度学习模型进行训练。

本发明实施例的又一方面，还提供了一种计算机设备，包括：至少一个处理器；以及存储器，所述存储器存储有可在所述处理器上运行的计算机指令，所述指令由所述处理器执行时实现如上方法的步骤。

本发明实施例的再一方面，还提供了一种计算机可读存储介质，计算机可读存储介质存储有被处理器执行时实现如上方法步骤的计算机程序。

本发明具有以下有益技术效果：通过对深度学习模型进行结构化裁剪，裁剪后的模型不受软硬件平台的限制，可以直接部署到与裁剪前模型相同的推理平台；采用模型蒸馏的优化训练方法，对裁剪后的模型重训练，这种训练方式可在将裁剪后模型性能提升一倍的情况下保持精度不下降。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明提供的深度学习模型推理加速的方法的实施例的示意图；

图2为本发明提供的深度学习模型推理加速的计算机设备的实施例的硬件结构示意图；

图3为本发明提供的深度学习模型推理加速的计算机可读存储介质的实施例的结构示意图；

图4为本发明实施例提供的深度学习模型推理加速的系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

基于上述目的，本发明实施例的第一个方面，提出了一种深度学习模型推理加速的方法的实施例。图1示出的是本发明提供的深度学习模型推理加速的方法的实施例的示意图。如图1所示，本发明实施例包括如下步骤：

S1、根据裁剪前后性能和精度的综合提升对深度学习模型进行裁剪；

S2、计算裁剪前的深度学习模型的第一损失函数，并计算裁剪后的深度学习模型的第二损失函数；

S3、将第一损失函数加入第二损失函数以对第二损失函数进行更新；以及

S4、通过更新后的第二损失函数对裁剪后的深度学习模型进行训练。

在模型推理优化中，模型压缩因成本低、对软硬件的限制少逐渐被应用，目前模型压缩技术包括模型裁剪和模型量化：模型裁剪是通过一定技术手段将模型中的参数裁剪掉，包括结构化裁剪与非结构化裁剪，结构化裁剪是粗粒度裁剪，如kernal(内核)或channel(神经网络中的通道)级别，裁剪后的模型可与原模型部署到相同平台，非结构化裁剪是细粒度裁剪，如单个权重参数级别，裁剪后的平台需要特殊的软硬件平台支持，不然达不到推理加速效果。而模型量化是将模型中的权重参数以更少的bit数表示，如float32(32位浮点型数据)表示的参数降低到float16(16位浮点型数据)表示，可将内存占用量降低到一半，和非结构化裁剪一样，量化后的模型需要特定的软硬件平台支持，不然难以达到推理加速效果。

本发明实施例对深度学习模型进行结构化裁剪，裁剪后的模型不受软硬件平台的限制，可以直接部署到与裁剪前模型相同的推理平台；同时模型裁剪过程中裁剪指标以裁剪后模型在推理平台的实际性能提升为指导，可大幅提升裁剪后模型在推理平台的部署效率和运行效率，而传统的模型裁剪往往仅以模型本身为指导，导致在推理平台的提升效率有限；本发明实施例采用模型蒸馏的优化训练方法，对裁剪后的模型重训练，这种训练方式可在将裁剪后模型性能提升一倍的情况下保持精度不下降。

根据裁剪前后性能和精度的综合提升对深度学习模型进行裁剪。本发明实施例采用结构化剪枝的方式对深度学习模型进行裁剪，结构化裁剪是channel级别的裁剪，裁剪后的模型可以直接部署到与裁剪前模型相同的软硬件推理平台，无需定制特殊的软硬件。深度学习模型如神经网络模型包含多层卷积，每层卷积由多个channel组成，每层channel个数一般几十到上千，如resnet50(Residual Network50，残差网络50)第一层卷积channel数为64，最后一层卷积channel数为2048，对模型channel做适当的裁剪可以降低模型冗余、提高模型运行速度。在结构化裁剪过程，本发明实施例的模型裁剪基于以下规则：基于模型本身的结构规则，对一些卷积层进行多裁剪，对另外一些卷积层进行少裁剪，以最大限度保持模型本身的结构和裁剪后模型的精度；传统的模型裁剪仅考虑裁剪后模型计算量的降低，而计算量的降低并不能代表模型在推理平台上真实的性能提升。

在一些实施方式中，所述根据裁剪前后性能和精度的综合提升对深度学习模型进行裁剪包括：对性能提升和精度提升分配权重，根据所述权重计算提升的分数，并使用所述分数最高的裁剪方案对所述深度学习模型进行裁剪。在大部分情况下，性能的提升往往会带来精度的降低，因此，可以根据需求对性能和精度分配权重，例如，如果想要性能更好，可以对性能分配更多的权重，如果想要精度更好，可以对精度分配更多的权重，如果想同时保证性能和精度，可以对两者分配相同的权重。

在一些实施方式中，所述根据裁剪前后性能和精度的综合提升对深度学习模型进行裁剪包括：计算不同的候选裁剪结构在推理平台的性能值，并使用性能值最大的候选裁剪结构对所述深度学习模型进行裁剪。本发明实施例在模型裁剪过程中考虑裁剪后模型在推理平台的实际性能提升，以模型在推理平台的实际latency(延迟)为指导，首先计算不同的候选裁剪结构在推理平台的latency性能，选取实际latency性能提升最有效的裁剪结构为最终裁剪目标，这样得到的裁剪模型可以最大限度提升在推理平台的实际运行效率，进而提高推理速度。

裁剪后的模型需要重训练来恢复精度，用传统的训练方法对裁剪后的模型进行重训练往往很难恢复到与未裁剪模型一致的精度，本发明实施例用知识蒸馏的方法对裁剪后模型进行重训练，即用未裁剪的大模型来指导裁剪后的模型进行训练，将未裁剪的复杂模型推广能力知识迁移到裁剪模型的网络中。

计算裁剪前的深度学习模型的第一损失函数，并计算裁剪后的深度学习模型的第二损失函数。

在一些实施方式中，所述计算裁剪前的所述深度学习模型的第一损失函数包括：对裁剪前的所述深度学习模型的预测输出采用预设策略以得到软化的概率分布，并根据所述软化的概率分布计算所述深度学习模型的第一损失函数。对未裁剪的深度学习模型的预测输出通过预设策略进行变化，得到软化的概率分布，计算未裁剪的深度学习模型的损失函数(即软目标损失)。预设策略可以是用未裁剪的深度学习模型的预测概率除以一个固定参数。

在一些实施方式中，所述计算裁剪后的所述深度学习模型的第二损失函数包括：获取裁剪后的所述深度学习模型的预测概率分布，并根据所述预测概率分布计算所述深度学习模型的第二损失函数。获取裁剪后的深度学习模型的预测概率分布，计算裁剪后的深度学习模型的损失函数(即硬目标损失)。

将第一损失函数加入第二损失函数以对第二损失函数进行更新。也即是将软目标损失加入到硬目标损失中，用于指导硬目标损失的计算与更新，即用未裁剪模型的训练知识来指导裁剪后模型的训练知识，以补偿模型裁剪引起的精度下降。该方法可在将模型裁剪一半的情况下保持精度不下降。

在一些实施方式中，所述将所述第一损失函数加入所述第二损失函数以对所述第二损失函数进行更新包括：对所述第一损失函数和所述第二损失函数分配权重，并将基于所述权重计算得到的结果替换所述第二损失函数。例如，可以给第一损失函数分配权重0.3，给第二损失函数分配权重0.7，并根据上述权重对第二损失函数进行更新。

通过更新后的第二损失函数对裁剪后的深度学习模型进行训练。

在一些实施方式中，所述通过更新后的所述第二损失函数对裁剪后的所述深度学习模型进行训练包括：依次降低所述第二损失函数的权重，并根据每次更新后的所述第二损失函数对裁剪后的所述深度学习模型进行训练。继续上例，在每次训练完成之后降低给第二损失函数分配的权重，例如，可以给第一损失函数分配权重0.35，给第二损失函数分配权重0.65，根据上述权重对第二损失函数进行更新，并根据更新后的第二损失函数对深度学习模型进行再次训练。分配权重0.65的第二损失函数既可以是原始第二损失函数，也可以是更新后的第二损失函数，可以根据具体的情形进行具体的选择。

本发明实施例可以实现大规模深度学习模型的精简压缩，降低模型的计算量和参数量，同时压缩后的模型精度损失小，对硬件平台的限制少，可用于快速将深度学习模型部署到内存、带宽等资源受限的推理平台，提升深度学习应用在线推理的速度与效率，进而可推进深度学习应用的推理部署与快速发展。

需要特别指出的是，上述深度学习模型推理加速的方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于深度学习模型推理加速的方法也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在实施例之上。

如图4所示，基于上述目的，本发明实施例的第二个方面，提出了一种深度学习模型推理加速的系统500，包括：裁剪模块501，配置用于根据裁剪前后性能和精度的综合提升对深度学习模型进行裁剪；计算模块502，配置用于计算裁剪前的所述深度学习模型的第一损失函数，并计算裁剪后的所述深度学习模型的第二损失函数；更新模块503，配置用于将所述第一损失函数加入所述第二损失函数以对所述第二损失函数进行更新；以及训练模块504，配置用于通过更新后的所述第二损失函数对裁剪后的所述深度学习模型进行训练。

在一些实施方式中，所述裁剪模块501配置用于：对性能提升和精度提升分配权重，根据所述权重计算提升的分数，并使用所述分数最高的裁剪方案对所述深度学习模型进行裁剪。

在一些实施方式中，所述裁剪模块501配置用于：计算不同的候选裁剪结构在推理平台的性能值，并使用性能值最大的候选裁剪结构对所述深度学习模型进行裁剪。

在一些实施方式中，所述计算模块502配置用于：对裁剪前的所述深度学习模型的预测输出采用预设策略以得到软化的概率分布，并根据所述软化的概率分布计算所述深度学习模型的第一损失函数。

在一些实施方式中，所述计算模块502配置用于：获取裁剪后的所述深度学习模型的预测概率分布，并根据所述预测概率分布计算所述深度学习模型的第二损失函数。

在一些实施方式中，所述更新模块503配置用于：对所述第一损失函数和所述第二损失函数分配权重，并将基于所述权重计算得到的结果替换所述第二损失函数。

在一些实施方式中，所述训练模块504配置用于：依次降低所述第二损失函数的权重，并根据每次更新后的所述第二损失函数对裁剪后的所述深度学习模型进行训练。

基于上述目的，本发明实施例的第三个方面，提出了一种计算机设备，包括：至少一个处理器；以及存储器，存储器存储有可在处理器上运行的计算机指令，指令由处理器执行以实现如下步骤：S1、根据裁剪前后性能和精度的综合提升对深度学习模型进行裁剪；S2、计算裁剪前的深度学习模型的第一损失函数，并计算裁剪后的深度学习模型的第二损失函数；S3、将第一损失函数加入第二损失函数以对第二损失函数进行更新；以及S4、通过更新后的第二损失函数对裁剪后的深度学习模型进行训练。

如图2所示，为本发明提供的上述深度学习模型推理加速的计算机设备的一个实施例的硬件结构示意图。

以如图2所示的装置为例，在该装置中包括一个处理器301以及一个存储器302，并还可以包括：输入装置303和输出装置304。

处理器301、存储器302、输入装置303和输出装置304可以通过总线或者其他方式连接，图2中以通过总线连接为例。

存储器302作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的深度学习模型推理加速的方法对应的程序指令/模块。处理器301通过运行存储在存储器302中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的深度学习模型推理加速的方法。

存储器302可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据深度学习模型推理加速的方法的使用所创建的数据等。此外，存储器302可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器302可选包括相对于处理器301远程设置的存储器，这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置303可接收输入的用户名和密码等信息。输出装置304可包括显示屏等显示设备。

一个或者多个深度学习模型推理加速的方法对应的程序指令/模块存储在存储器302中，当被处理器301执行时，执行上述任意方法实施例中的深度学习模型推理加速的方法。

执行上述深度学习模型推理加速的方法的计算机设备的任何一个实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

如图3所示，本发明还提供了一种计算机可读存储介质400，计算机可读存储介质400存储有被处理器401执行时执行如上方法的计算机程序402。

最后需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，深度学习模型推理加速的方法的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，程序的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。上述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

一种深度学习模型推理加速的方法，其特征在于，包括以下步骤：

根据裁剪前后性能和精度的综合提升对深度学习模型进行裁剪；

计算裁剪前的所述深度学习模型的第一损失函数，并计算裁剪后的所述深度学习模型的第二损失函数；

将所述第一损失函数加入所述第二损失函数以对所述第二损失函数进行更新；以及

通过更新后的所述第二损失函数对裁剪后的所述深度学习模型进行训练。
根据权利要求1所述的方法，其特征在于，所述根据裁剪前后性能和精度的综合提升对深度学习模型进行裁剪包括：

对性能提升和精度提升分配权重，根据所述权重计算提升的分数，并使用所述分数最高的裁剪方案对所述深度学习模型进行裁剪。
根据权利要求1所述的方法，其特征在于，所述根据裁剪前后性能和精度的综合提升对深度学习模型进行裁剪包括：

计算不同的候选裁剪结构在推理平台的性能值，并使用性能值最大的候选裁剪结构对所述深度学习模型进行裁剪。
根据权利要求1所述的方法，其特征在于，所述计算裁剪前的所述深度学习模型的第一损失函数包括：

对裁剪前的所述深度学习模型的预测输出采用预设策略以得到软化的概率分布，并根据所述软化的概率分布计算所述深度学习模型的第一损失函数。
根据权利要求4所述的方法，其特征在于，所述计算裁剪后的所述深度学习模型的第二损失函数包括：

获取裁剪后的所述深度学习模型的预测概率分布，并根据所述预测概率分布计算所述深度学习模型的第二损失函数。
根据权利要求5所述的方法，其特征在于，所述将所述第一损失函数加入所述第二损失函数以对所述第二损失函数进行更新包括：

对所述第一损失函数和所述第二损失函数分配权重，并将基于所述权重计算得到的结果替换所述第二损失函数。
根据权利要求6所述的方法，其特征在于，所述通过更新后的所述第二损失函数对裁剪后的所述深度学习模型进行训练包括：

依次降低所述第二损失函数的权重，并根据每次更新后的所述第二损失函数对裁剪后的所述深度学习模型进行训练。
一种深度学习模型推理加速的系统，其特征在于，包括：

裁剪模块，配置用于根据裁剪前后性能和精度的综合提升对深度学习模型进行裁剪；

计算模块，配置用于计算裁剪前的所述深度学习模型的第一损失函数，并计算裁剪后的所述深度学习模型的第二损失函数；

更新模块，配置用于将所述第一损失函数加入所述第二损失函数以对所述第二损失函数进行更新；以及

训练模块，配置用于通过更新后的所述第二损失函数对裁剪后的所述深度学习模型进行训练。
一种计算机设备，其特征在于，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器上运行的计算机指令，所述指令由所述处理器执行时实现权利要求1-7任意一项所述方法的步骤。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任意一项所述方法的步骤。