WO2023236319A1

WO2023236319A1 - 一种面向微控制器的卷积神经网络部署和优化方法

Info

Publication number: WO2023236319A1
Application number: PCT/CN2022/106634
Authority: WO
Inventors: 孙雁飞; 王子牛; 亓晋
Original assignee: 南京邮电大学
Priority date: 2022-06-10
Filing date: 2022-07-20
Publication date: 2023-12-14
Also published as: CN114742211A; CN114742211B

Abstract

一种面向微控制器的卷积神经网络部署和优化方法，包含卷积神经网络模型的设计、卷积计算内存的优化以及卷积神经网络的部署三部分。卷积神经网络模型的设计基于神经网络架构搜索，搜索适用于微控制器计算量、参数量和内存需求小的卷积神经网络模型；对卷积神经网络中常用到的标准卷积、深度卷积和点卷积分别进行优化，减少卷积神经网络推理过程中的内存占用，使卷积神经网络可以运行在更多内存受限的微控制器上；提供一种运行在微控制器上的卷积神经网络从构建到应用的方法，提高了微控制器运行卷积神经网络模型的易用性和实用性。

Description

一种面向微控制器的卷积神经网络部署和优化方法

技术领域

本发明涉及微控制器设计领域，具体涉及一种面向微控制器的卷积神经网络部署和优化方法。

背景技术

微控制器通常只有几十到几百KB的内存空间和存储空间，运行频率从几MHz到几百MHz，而主流卷积神经网络模型参数量从几M到几百M不等，难以满足微控制器的存储空间约束。针对轻量化卷积神经网络模型的需求，学术界和工业界提出一些设计轻量化神经网络的方法，尽管有效降低了模型的参数量和计算量，但对于微控制器来说仍有不足。以轻量化卷积神经网络模型MobileNet V3为例，参数量有2.9M，即使在权重量化后也无法存储到微控制器上，较大的计算量也使得在微控制器上难以实现实时检测。此外学术界主要关注卷积神经网络的准确率、计算量和参数量，而忽视卷积神经网络在推理过程中的内存消耗，而内存消耗大小也决定该卷积神经网络能否运行在微控制器上。

目前卷积神经网络计算过程中需要大量内存，难以在微控制器上运行，使得微控制器在卷积神经网络实际应用中主要负责采集数据，并将传感器读数传送到服务器，在服务器上运行卷积神经网络进行决策，这种方式对卷积神经网络的应用场景造成一定限制。

现有技术中，“一种基于嵌入式GPU和卷积计算的图像处理方法和装置”(CN110246078B)公开了一种减少运算时内存开销的方法，该专利是与im2col卷积计算方法相比，减少内存开销。im2col卷积计算通过使用额外的内存空间优化数据布局，从而减少调用通用矩阵乘的次数加速卷积计算速度。相较于普通卷积计算，im2col和该专利公布的卷积计算方法都消耗更多的内存空间。“一种视觉图像的卷积计算优化方法”(CN108564524A)公开了一种卷积计算优化方法，该专利优化内存传输，提高卷积计算效率，但并未减少内存使用量。“微型真菌类作物病害检测方法”(CN11351664A)公开了一种在微控制器上运行深度学习算法的方法，该专利仅提供训练深度学习算法、量化模型并部署微控制器上的方法，模型依靠人工设计/选取，没有针对微控制器进行模型设计、模型压缩、内存优化和计算加速等方法。

发明内容

本发明的目的是提供种面向微控制器的卷积神经网络部署和优化方法，针对微控制器算力低、存储空间有限，难以运行主流卷积神经网络的问题，提出基于神经网络架构搜索的方法。在搜索过程中考虑卷积神经网络准确率、计算时间和参数量约束，从而搜索到适用于微控制器计算量和参数量小的卷积神经网络模型；针对微控制器内存空间有限的问题，提出卷积计算占用内存的优化方法，对卷积神经网络中常用到的标准卷积、深度卷积和点卷积分别进行优化，通过就地计算等方法减少卷积神经网络推理过程中的内存占用；针对卷积神经网络在微控制器上应用问题，设计运行在微控制器上的卷积神经网络从构建到应用的方法，包括数据获取、网络设计、训练、部署、加速等流程。

一种面向微控制器的卷积神经网络部署和优化方法，包含卷积神经网络模型的设计、卷积计算内存的优化以及卷积神经网络的部署三部分。其中，

卷积神经网络模型的设计：

使用神经网络架构搜索技术在设定的搜索空间中针对准确率、计算时间、内存消耗三个指标搜索最优的网络结构，图1为神经网络架构搜索流程图。

搜索空间是一系列的可选操作，由搜索空间中的模块组成超级网络，在超级网络的损失函数中加入微控制器端的计算时间消耗和内存空间消耗，和准确率一起作为优化的目标。在搜索结束后，选取超级网络每层中概论最大的模块作为该层保留的模块，去除其它模块，与其它层保留的模块共同组成搜索到的目标网络。

将搜索到的目标模型进行压缩，模型压缩可以使用基于AutoML的自动模型压缩算法，将上一步搜索到的模型作为基准模型，代理部分使用深度确定性策略梯度从第l层中接受嵌入，输出稀疏比率并根据稀疏比率对l层进行模型压缩，接着在环境部分移动到第l+1层进行操作，在完成对所有层的操作之后，评估整个网络的准确率(评估过程与常规网络相同，即将测试集数据输入网络模型，计算网络模型预测正确的数量÷测试集总数量)。最后将包含准确率、参数量和实际计算时间的奖励反馈给代理部分，根据微控制器的应用场景设计了以下奖励算法：

Reware _lat＝-Error×log(Lat)

Reward _mem＝-Error×log(Mem)

式中Reward为获得的奖励，Lat表示模型计算时间，Mem表示模型的内存消耗，Error为系数。

卷积计算内存的优化：

卷积神经网络中常用的卷积有标准卷积、深度卷积和点卷积，针对这三种常用卷积，本发明提出一种内存优化的卷积计算方法，采用内存复用方法，实现减少内存消耗，具体如下。

符号约定：C _in、W _in、H _in卷积输入层通道数、宽度、高度；C _out、W _out、H _out卷积输出层通道数、宽度、高度；W _k、H _k卷积核宽度、高度；h分配内存空间的高度。

标准卷积计算：

标准卷积计算流程图如图2所示。

情况一：C _out×W _out×H _out≤C _in×W _in×H _in，即卷积输出层大小不大于卷积输入层大小(此时输入层空间可存储全部输出层数据)，计算过程如图3所示。

步骤1、分配内存空间m，大小为C _out×W _out×h(h≥H _k/2)。

步骤2、卷积输入层部分数据与卷积核运算后填满内存空间m。

步骤3、将此时内存空间m中下层数据复制到卷积输入层适当位置，覆盖原有输入数据。

步骤4、将内存空间m中上层数据复制到内存空间m中下层数据，覆盖原有数据。

步骤2、3、4，将输出暂时存放在m中，由于卷积计算涉及到相邻行和列，不可直接将计算后的结果存放在输入层中，需要等到输入层中该位置输入数据后续不再被相邻行、列卷积计算用到时才可将m中的数据复制到输入层数据对应位置。

步骤5、按照顺序计算卷积输入层部分数据与卷积核运算后填充内存空间m中上层数据。

步骤6、将此时内存空间m中下层数据复制到卷积输入层适当位置，覆盖原有输入数据。

步骤7、重复步骤4～6，直至计算完卷积输入层所有数据。

步骤8、对计算后存放在输入层的数据做reshape操作，使其符合输出层的通道数、宽度和高度。

优化前内存消耗：C _out×W _out×H _out(输出层空间全部分配)；

优化后内存消耗：C _out×W _out×h(输出层复用输入层空间，h＜＜H _out)。

情况二：C _out×W _out×H _out>C _in×W _in×H _in，即卷积输出层大小大于卷积输入层大小(此时输入层空间不可存储全部输出层数据，需要额外内存空间M)，计算过程如图4所示。

步骤1、分配内存空间m，大小为C _out×W _out×h(h≥H _k/2)。分配内存空间M，大小为C _out×W _out×H _out-C _in×W _in×H _in。

步骤3、按照计算顺序计算卷积输入层部分与卷积核运算后填满内存空间m。

步骤4、将此时内存空间m中下层数据复制到卷积输入层适当位置，覆盖原有输入数据。

步骤5、将内存空间m中上层数据复制到内存空间m中下层数据，覆盖原有数据。

步骤3、4、5，将输出暂时存放在m中，由于卷积计算涉及到相邻行和列，不可直接将计算后的结果存放在输入层中，需要等到输入层中该位置输入数据后续不再被相邻行、列卷积计算用到时才可将m中的数据复制到输入层数据对应位置。

步骤6、按照顺序计算卷积输入层部分数据与卷积核运算后填充内存空间m中上层数据。

步骤7、将此时内存空间m中下层数据复制到卷积输入层适当位置，覆盖原有输入数据。

步骤8、重复步骤5～7，直至计算完卷积输入层所有数据。

步骤9、对计算后存放在输入层的数据和M中的数据连接起来，并做reshape操作，使其符合输出层的通道数、宽度和高度。

优化前内存消耗：C _out×W _out×H _out(输出层空间全部分配)；

优化后内存消耗：C _out×W _out×h+C _out×W _out×H _out-C _in×W _in×H _in(输出层部分复用输入层空间，h＜＜H _out)。

深度卷积计算：

图5为深度卷积计算流程图，具体步骤如下：

步骤1、分配内存空间m，其大小为1×W _out×H _out，即分配输出单个通道占用的内存空间。

步骤2、将输入第1个通道与第1个卷积核做深度卷积后输出存放在内存空间m中。

步骤3、将输入层第n(n>1)个通道与对应第n个卷积核做深度卷积后结果存放在第n-1个通道中。

步骤4、将内存空间m中存放的数据复制到最后一个通道中。

步骤5、释放内存空间m。

步骤6、对计算后存放在输入层的数据做reshape操作，使其符合输出层的通道数、宽度和高度。

深度卷积计算示意图如图6所示。

优化前内存消耗：C _out×W _out×H _out(输出层空间全部分配)；

优化后内存消耗：1×W _out×H _out(输出层复用输入层空间)。

点卷积计算：

点卷积可看成卷积核大小为1×1的标准卷积，因此可以采用本发明所述标准卷积的计算方法。此外，针对点卷积计算过程中不涉及相邻位置值的特点，本发明还提供一种针对点卷积内存优化的计算方法，将标准卷积内存优化中分配的m内存空间压缩为C _out×1×1大小，实现更低的内存消耗，点卷积流程图如图7所示步骤如下：

情况一：C _out≤C _in，即输出通道数不大于输入通道数(此时输入层空间可存储全部输出层数据)，图8为该情况的计算示意图。

步骤1、分配内存空间m，其大小为C _out×1×1，即每个输出通道分配一个位置大小，临时存储点卷积计算数据。

步骤2、将输入层各通道位置(i,j)(i∈[1,W _in],j∈[1,H _in])与点卷积计算，计算结果存放在内存空间m中。

步骤3、将内存中间m中的数据复制到输入层对应通道位置(i,j)，覆盖原有数据。

步骤4、重复步骤2和步骤3，直至计算完全部输入数据。

步骤5、释放内存空间m。

优化前内存消耗：C _out×W _out×H _out(输出层空间全部分配)；

优化后内存消耗：C _out×1×1(输出层复用输入层空间)。

情况二：C _out>C _in，即输出通道数大于输入通道数(此时输入层空间不可存储全部输出层数据，需要额外内存空间M)，图9为该情况的计算示意图。

步骤1、分配内存空间m，其大小为C _out×1×1，即每个输出通道分配一个位置大小，临时存储点卷积计算数据。分配内存空间M，其大小为(C _out-C _in)× W _out×H _out。

步骤3、将内存中间m中前C _in个数据复制到输入层对应通道位置(i,j)，覆盖原有数据。内存中间m中剩余C _out-C _in个数据复制到内存空间M对应通道位置(i,j)。

步骤4、重复步骤2和步骤3，直至计算完全部输入数据。

步骤5、释放内存空间m。

步骤6、对计算后存放在输入层的数据和M中的数据连接起来，并做reshape操作，使其符合输出层的通道数、宽度和高度。

优化前内存消耗：C _out×W _out×H _out(输出层空间全部分配)；

优化后内存消耗：C _out×1×1+(C _out-C _in)×W _out×H _out(输出层部分复用输入层空间)。

卷积神经网络的部署：

所述面向微控制器的卷积神经网络部署方法包括卷积神经网络模型设计(即上文中卷积神经网络模型的设计)、卷积神经网络模型验证及卷积神经网络模型部署三部分，如图10所示。

针对以上几个组成部分，具体技术方案如下：

1、模型设计：包括数据集获取、数据预处理、模型搜索和训练和模型压缩几步骤。

(1)数据集获取：以图像数据为例，数据集使用微控制器采集的图像数据，微控制器采集的图像数据存储在存储单元中，如内存卡或者FLASH中，采集完成后将数据集传输到计算机中打上对应标签作为训练集和验证集。

(2)数据预处理：数据预处理包括图片增强，对采集到的图像数据进行裁切、旋转以及色彩调整等处理，用于扩充数据集样本数量；调整大小，调整到适合卷积神经网络模型训练的尺寸；归一化，对采集到的图像数据均值和标准差进行处理，加速卷积神经网络模型训练过程。

(3)卷积神经网络模型搜索和训练：使用神经网络架构搜索技术在设定的搜索空间中针对准确率、计算时间、内存消耗三个指标搜索合适的网络结构，再通过AutoML自动模型压缩算法对搜索到的模型进行压缩，得到目标卷积神经网络模型，并在计算机上使用预处理后的图像数据进行训练，得到训练后的卷积神经网络模型。

2、模型验证：模型验证包括计算机端模型验证和微控制器端模型验证两个步骤。

(1)计算机端模型验证：首先在计算机端使用TensorFlow Lite for Micro深度学习推理框架验证训练后的模型文件中用到的卷积算子、池化算子、激活函数算子等是否支持，若不支持则替换受支持的算子。其次验证TensorFlow Lite for Micro深度学习推理框架推理结果和训练深度学习模型的深度学习框架结果一致性。

(2)微控制器端模型验证：首先验证微控制器端使用TensorFlow Lite for Micro深度学习推理框架和训练深度学习模型的深度学习框架结果一致性。

3、模型部署:包括数据采集、数据预处理和卷积神经网络检测几步骤。

(1)数据采集：例如采用摄像头作为数据采集设备，由微控制器控制摄像头采集数据，将采集到的图像数据送入数据预处理步骤，并保存到外部存储单元中。

(2)数据预处理：数据预处理对待检测的图像数据进行裁切和归一化，对图像数据均值和标准差进行处理。

(3)卷积神经网络检测：卷积神经网络检测将预处理后的数据输入模型推理框架，得到检测结果，检测结果交由应用部分后续处理，执行相应的动作。该步骤包括：卷积神经网络应用层、模型层、模型推理框架层、CMSIS-NN硬件加速层、ARM Cortex-M层和存储层，卷积神经网络检测部署框图如图11所示。

卷积神经网络应用层：用于根据实际应用场景采取不同检测策略，可采用单个检测模型或多个级联模型等策略对待检测数据进行检测。

模型层：用于检测待检测数据的卷积神经网络模型，该模型为第一部分模型设计得到的模型。

模型推理框架层：用于解析和执行模型推理，该框架采用TensorFlow Lite for Micro在微控制器上执行推理计算。

CMSIS-NN计算层：用于加速模型推理速度，该层通过封装ARM内核中数字信号处理器(DSP)为上层推理框架提供硬件加速，相较于使用通用CPU进行推理运算，使用DSP进行推理运算可将推理速度提升5-10倍。此外该层是可选的，对于没有DSP的微控制器可以去掉该层，直接使用CPU进行推理。

ARM Cortex-M层：用于执行模型推理的实际运算，同时也负责执行其他模块的功能，包括用于数据采集、数据预处理、执行动作等功能。

存储层：存储层包括RAM和FLASH部分，RAM用于存放模型推理过程中中间层的临时数据，FLASH用于存储模型的权重文件。此外存储层还用于存储其他模块的程序。

本发明达到的有益效果为：

(1)本发明针对微控制器运行卷积神经网络提出一种基于神经网络架构搜索的方法，搜索适用于微控制器计算量、参数量和内存需求小的卷积神经网络模型。

(2)本发明提出一种优化内存占用的卷积计算方法。对卷积神经网络中常用到的标准卷积、深度卷积和点卷积分别进行优化，减少卷积神经网络推理过程中的内存占用，使卷积神经网络可以运行在更多内存受限的微控制器上。

(3)本发明设计一种运行在微控制器上的卷积神经网络从构建到应用的方法，提高了微控制器运行卷积神经网络模型的易用性和实用性。

附图说明

图1是本发明中的神经网络架构搜索流程图。

图2是本发明中的标准卷积计算流程图。

图3是本发明中的标准卷积计算示意图一。

图4是本发明中的标准卷积计算示意图二。

图5是本发明中的深度卷积计算流程图。

图6是本发明中的深度卷积计算示意图。

图7是本发明中的点卷积流程图。

图8是本发明中的点卷积计算示意图一。

图9是本发明中的点卷积计算示意图二。

图10是本发明中的基于深度学习技术的工件表面检测方法框图。

图11是本发明中的卷积神经网络检测部署框图。

图12是本发明实施例中的神经网络架构搜索模块示意图。

图13是本发明实施例中的神经网络架构搜索示意图。

图14是本发明实施例中的卷积算法的内存开销柱状图比较图。

具体实施方式

下面结合说明书附图对本发明的技术方案做进一步的详细说明。

一种面向微控制器的卷积神经网络部署和优化方法，包含卷积神经网络模型的设计、卷积计算内存的优化以及卷积神经网络的部署三部分。

(1)卷积神经网络模型的设计：

1)定义n个模块作为神经网络结构搜索的候选方案，每个模块可由几个算子组成，如卷积算子等，如图12所示。

2)指定神经网络中包含的模块层数L。

3)定义一个超级网络，该网络中包含L层，每层中包含n个模块，同一层的n个模块输出维度相同。

4)将每一层n个模块的输出乘以对应标量

后相加作为该层的输出，

表示第l层的第j个模块对应的标量。

5)定义损失函数：

其中，n为训练集样本数量，Loss为损失函数，本处使用交叉熵损失函数，y _i为实际标签值，p(x _i；W,Θ)为网络根据输入x _i和参数W、Θ预测的值，使用交叉熵损失函数作为预测与实际值的损失。

表示网络的计算时间，

为常数，根据运行该网络模型的微控制器测量得到；

表示第l层的第j个模块对应的标量；exp()表示以自然常数e为底的指数函数，

表示网络占用的内存大小，

其中

和

分别表示第l层第j个模块的第i个算子输出特征的宽、高和通道数。

β、γ表示计算时间和内存消耗的损失权重，β、γ越大搜索到的网络计算时间和内存消耗越小。

6)训练超级网络，学习参数W和Θ。

7)计算

对超级网络的每层取

取最大值的模块保留下来，得到搜索到最优的网络模型。如图13所示，深色的模块保留下来组成搜索到的网络，其它模块丢弃，减少网络大小。

8)模型压缩使用基于AutoML的自动模型压缩算法，将上一步搜索到的模型作为基准模型，代理部分使用深度确定性策略梯度从第l层中接受嵌入，输出稀疏比率并根据稀疏比率对l层进行模型压缩，接着在环境部分移动到第l+1层进行操作，在完成对所有层的操作之后，评估整个网络的准确率。最后将包含准确率、参数量和实际计算时间的奖励反馈给代理部分，根据微控制器的应用场景设计了以下奖励算法：

Reward _lat＝-Error×log(Lat)

Reward _mem＝-Error×log(Mem)

(2)卷积计算内存的优化：

1)标准卷积计算：

计算当前算子的输入层参数C _in、W _in、H _in和输出层参数C _out、W _out、H _out。

步骤1、分配内存空间m，大小为C _out×W _out×h(h≥H _k/2)，在本实施例中H _k＝3，取h＝2。

步骤7、重复步骤4～6，直至计算完卷积输入层所有数据。

步骤1、分配内存空间m，大小为C _out×W _out×h(h≥H _k/2)，在本实施例中H _k＝3，取h＝2。分配内存空间M，大小为C _out×W _out×H _out-C _in×W _in×H _in。

步骤8、重复步骤5～7，直至计算完卷积输入层所有数据。

2)深度卷积计算：

深度卷积计算示意图如图6所示，具体步骤如下：

步骤4、将内存空间m中存放的数据复制到最后一个通道中。

步骤5、释放内存空间m。

3)点卷积计算：

情况一：C _out≤C _in，即输出通道数不大于输入通道数(此时输入层空间可存储全部输出层数据)，计算过程如图8所示。

步骤4、重复步骤2和步骤3，直至计算完全部输入数据。

步骤5、释放内存空间m。

情况二：C _out>C _in，即输出通道数大于输入通道数(此时输入层空间不可存储全部输出层数据，需要额外内存空间M)，计算过程如图9所示。

步骤1、分配内存空间m，其大小为C _out×1×1，即每个输出通道分配一个位置大小，临时存储点卷积计算数据。分配内存空间M，其大小为(C _out-C _in)×W _out×H _out。

步骤4、重复步骤2和步骤3，直至计算完全部输入数据。

步骤5、释放内存空间m。

(3)卷积神经网络的部署：

1、通过数据采集将样本数据采集存储在微控制器内部FLASH或内存卡等存储单元中。

2、将采集到的数据导入到计算机中，并根据缺陷类型打上标签信息，供深度学习算法使用。

3、采用神经网络结构搜索方法在计算时间和内存消耗约束的搜索空间中搜索到最优的网络模型。

4、在计算机上搭建深度学习环境，可以采用TensorFlow、Pytorch、Caffe等框架，可以采用GPU加速的方式提高深度神经网络训练的速度，如采用NVIDIA显卡并对其进行GPU配置。

5、在计算机端采用根据上述算法生成的的深度学习模型和配置后的深度学习框架对工件表面缺陷样本数据进行训练。根据训练结果调整深度学习模型结构和超参数等配置，使之达到目标要求。

6、将训练后的深度学习模型做模型压缩处理，模型压缩可以大幅减少内存占用和计算时间，压缩后的模型可以保存为tflite、onnx、h5等格式。

7、将深度学习模型文件数据存储到微控制器上。

8、在微控制器上部署TensorFlow Lite for Micro推理框架和CMSIS-NN神经网络硬件加速组件。通过编写中间层代码将TensorFlow Lite for Micro深度学习推理框架和CMSIS-NN计算层组合起来，由TensorFlow Lite for Micro负责解析、执行深度学习模型，并调用CMSIS-NN计算层执行计算操作，CMSIS-NN计算层负责调用DSP执行模型推理过程中实际的计算。对于内核不包含DSP的微控制器可以不使用CMSIS-NN，由CPU执行推理过程中实际的计算。

9、在计算机端使用TensorFlow Lite for Micro深度学习推理框架验证训练后的模型文件中用到的深度学习算子是否支持，若不支持则替换受支持的算子。验证在计算机端使用TensorFlow Lite for Micro深度学习推理框架推理结果和训练深度学习模型的深度学习框架推理结果以及在微控制器端使用TensorFlow Lite for Micro深度学习推理框架推理结果的一致性。

10、微控制器将采集到的图像数据送入推理框架中，推理框架执行完推理后返回推理结果，微控制器根据推理结果和实际需要执行相应动作。

接着对本方法和几种算法进行比较实验，具体如下：

表1 测试集信息

表2 几种卷积算法的内存开销对比

表1为实验测试数据。表2为实验测试结果，内存使用量包括卷积计算过程中的额外内存使用量和输出矩阵的内存使用量，不包含输入矩阵和卷积核的内存使用量，M _im2 col、M _MEC、M _direct conv和M _ours分别表示im2col+GEMM、MEC、直接卷积和本方法内存使用量大小。图14为表2数据的直方图对比。可以看出，本方法显著降低了运算内存的使用开销。

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。

Claims

一种面向微控制器的卷积神经网络部署和优化方法，其特征在于：所述方法包含卷积神经网络模型的设计、卷积计算内存的优化以及卷积神经网络的部署三部分；

卷积神经网络模型的设计中，首先搜索得到指标最优的网络结构，组成超级网络，结合微控制器的指标要求得到目标网络；然后对目标网络进行压缩，并评估压缩后的网络准确率以及相应的设计奖励函数；

卷积计算内存的优化中，分别对于标准卷积、深度卷积和点卷积三种计算方式的内容使用进行优化，基于内存复用实现减少内存消耗；

卷积神经网络的部署中，基于卷积神经网络模型的设计，还包括卷积神经网络模型验证和卷积神经网络模型部署；

其中，模型验证包括计算机端模型验证和微控制器端模型验证；模型部署包括数据采集、数据预处理和卷积神经网络检测。
根据权利要求1所述的一种面向微控制器的卷积神经网络部署和优化方法，其特征在于：使用神经网络架构搜索技术在设定的搜索空间中针对准确率、计算时间、内存消耗三个指标搜索最优的网络结构，由搜索空间中的模块组成超级网络，在超级网络的损失函数中加入微控制器端的计算时间消耗和内存空间消耗，和准确率一起作为优化的目标；在搜索结束后，选取超级网络每层中概论最大的模块作为该层保留的模块，去除其它模块，与其它层保留的模块共同组成搜索到的目标网络。
根据权利要求2所述的一种面向微控制器的卷积神经网络部署和优化方法，其特征在于：模型压缩中，将上一步搜索到的模型作为基准模型，代理部分使用深度确定性策略梯度从第l层中接受嵌入，输出稀疏比率并根据稀疏比率对l层进行模型压缩，接着在环境部分移动到第l+1层进行操作，在完成对所有层的操作之后，评估整个网络的准确率；最后将包含准确率、参数量和实际计算时间的奖励反馈给代理部分，根据微控制器的应用场景设计了以下奖励算法：

Reward _lat＝-Error×log(Lat)

Reward _mem＝-Error×log(Mem)

式中Reward为获得的奖励，Lat表示模型计算时间，Mem表示模型的内存消耗，Error为系数。
根据权利要求1所述的一种面向微控制器的卷积神经网络部署和优化方法，其特征在于：对于标准卷积，根据卷积输出层大小和卷积输入层大小之前的关系进行分类处理；

当卷积输出层大小不大于卷积输入层大小时，分配内存空间m；卷积输入层部分数据与卷积核运算后填满内存空间m；将此时内存空间m中下层数据复制到卷积输入层适当位置，覆盖原有输入数据；将内存空间m中上层数据复制到内存空间m中下层数据，覆盖原有数据；按照顺序计算卷积输入层部分数据与卷积核运算后填充内存空间m中上层数据；将此时内存空间m中下层数据复制到卷积输入层适当位置，覆盖原有输入数据；重复上述流程，直至计算完卷积输入层所有数据；对计算后存放在输入层的数据做reshape操作，使其符合输出层的通道数、宽度和高度；

当卷积输出层大小大于卷积输入层大小时，分配内存空间m和内存空间M；卷积输入层部分数据与卷积核运算后填满内存空间M；按照计算顺序计算卷积输入层部分与卷积核运算后填满内存空间m；将此时内存空间m中下层数据复制到卷积输入层适当位置，覆盖原有输入数据；将内存空间m中上层数据复制到内存空间m中下层数据，覆盖原有数据；按照顺序计算卷积输入层部分数据与卷积核运算后填充内存空间m中上层数据；将此时内存空间m中下层数据复制到卷积输入层适当位置，覆盖原有输入数据；重复步骤上述流程，直至计算完卷积输入层所有数据；对计算后存放在输入层的数据和M中的数据连接起来，并做reshape操作，使其符合输出层的通道数、宽度和高度。
根据权利要求1所述的一种面向微控制器的卷积神经网络部署和优化方法，其特征在于：对于深度卷积计算，分配内存空间m，即分配输出单个通道占用的内存空间；将输入第1个通道与第1个卷积核做深度卷积后输出存放在内存空间m中；将输入层第n(n>1)个通道与对应第n个卷积核做深度卷积后结果存放在第n-1个通道中；将内存空间m中存放的数据复制到最后一个通道中；释放内存空间m；对计算后存放在输入层的数据做reshape操作，使其符合输出层的通道数、宽度和高度。
根据权利要求1所述的一种面向微控制器的卷积神经网络部署和优化方法，其特征在于：对于点卷积，根据输出通道数和输入通道数分类处理：

当输出通道数不大于输入通道数时，分配内存空间m，每个输出通道分配一个位置大小，临时存储点卷积计算数据；将输入层各通道位置与点卷积计算，计算结果存放在内存空间m中；将内存中间m中的数据复制到输入层对应通道位置，覆盖原有数据；重复上述流程，直至计算完全部输入数据；释放内存空间m；对计算后存放在输入层的数据做reshape操作，使其符合输出层的通道数、宽度和高度；

当输出通道数大于输入通道数时，分配内存空间m，每个输出通道分配一个位置大小，临时存储点卷积计算数据，分配内存空间M；将输入层各通道位置与点卷积计算，计算结果存放在内存空间m中；将内存中间m中对应于卷积输入层通道数的前数个数据复制到输入层对应通道位置，覆盖原有数据，内存中间m中剩余数据复制到内存空间M对应通道位置；重复上述步骤，直至计算完全部输入数据；释放内存空间m；对计算后存放在输入层的数据和M中的数据连接起来，并做reshape操作，使其符合输出层的通道数、宽度和高度。
根据权利要求1所述的一种面向微控制器的卷积神经网络部署和优化方法，其特征在于：所述模型验证具体包括如下分步骤：

计算机端模型验证：首先在计算机端使用深度学习推理框架验证训练后的模型文件中用到的卷积算子、池化算子、激活函数算子是否支持，若不支持则替换受支持的算子；其次验证深度学习推理框架推理结果和训练深度学习模型的深度学习框架结果一致性；

微控制器端模型验证：验证微控制器端使用深度学习推理框架和训练深度学习模型的深度学习框架结果一致性。
根据权利要求1所述的一种面向微控制器的卷积神经网络部署和优化方法，其特征在于：所述模型部署具体包括如下分步骤：

数据采集：由微控制器控制外部设备采集数据，将采集到的数据送入数据预处理步骤，并保存到外部存储单元中；

数据预处理：数据预处理对采集到数据进行裁切、归一化、均值和标准差进行处理；

卷积神经网络检测：卷积神经网络检测将预处理后的数据输入模型推理框架，得到检测结果；部署的卷积神经网络包括应用层、模型层、模型推理框架层、 CMSIS-NN硬件加速层、ARM Cortex-M层和存储层。
根据权利要求1所述的一种面向微控制器的卷积神经网络部署和优化方法，其特征在于：所述卷积神经网络中，

卷积神经网络应用层用于根据实际情况采取不同检测策略；

模型层中根据实际需要替换不同的检测模型；

模型推理框架层用于解析和执行模型推理；

CMSIS-NN计算层用于加速模型推理速度，该层通过封装ARM内核中数字信号处理器DSP为上层推理框架提供硬件加速；

ARM Cortex-M层用于执行模型推理的实际运算，同时也负责执行其他模块的功能，包括用于数据采集、数据预处理、执行动作的功能；

存储层包括RAM和FLASH部分，RAM用于存放模型推理过程中中间层的临时数据，FLASH用于存储模型的权重文件。