WO2023221608A1

WO2023221608A1 - 口罩识别模型的训练方法、装置、设备及存储介质

Info

Publication number: WO2023221608A1
Application number: PCT/CN2023/080248
Authority: WO
Inventors: 孟海秀; 万业聪; 陈录城; 施森闽; 郑旭东
Original assignee: 卡奥斯工业智能研究院(青岛)有限公司; 卡奥斯物联科技股份有限公司; 海尔数字科技(青岛)有限公司
Priority date: 2022-05-20
Filing date: 2023-03-08
Publication date: 2023-11-23
Also published as: CN114898434A

Abstract

本申请提供一种口罩识别模型的训练方法、装置、设备及存储介质。该方法包括：将第一训练集中的各图片分别切割成多个大小相同的图像块，并对所述图像块进行标签标注，得到第二训练集；将第三训练集中的各图片分别切割成多个大小相同的图像块，并对所述图像块进行标签标注，得到第四训练集；使用所述第二训练集对第一预设模型进行预训练，得到预训练模型；使用所述第四训练集和第二预设模型进行正式训练，得到口罩识别模型；其中，所述第一预设模型和所述第二预设模型可以采用YOLOV4-tiny网络模型，所述YOLOV4-tiny网络模型包括主干网络和剩余部分网络；所述预训练和正式训练中模型的主干网络的参数被冻结。该方法提高了模型的运行速度和距离较远小目标识别的准确性。

Description

口罩识别模型的训练方法、装置、设备及存储介质

本申请要求于2022年05月20日提交国家知识产权局、申请号为202210549746.2、申请名称为“口罩识别模型的训练方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及新一代信息技术领域，尤其涉及一种口罩识别模型的训练方法、装置、设备及存储介质。

背景技术

随着计算机视觉技术的发展，利用计算机视觉技术，从图像中检测人脸并进行口罩穿戴的识别有着非常重要的研究意义和应用价值。

目前，对于口罩的识别大多采用神经网络进行识别，很多安防监控系统通过系统升级来实现口罩识别。例如，采用多任务级联卷积神经网络(Multi-task convolutional neural network，简称MTCNN)作为口罩佩戴识别的网络模型，在光谱图像上标记感兴趣区域(Region of interest，简称ROI)，获取坐标和类别信息，训练支持向量机(Support Vector Machine，简称SVM)分类器，进而针对是否佩戴口罩进行分类判断。

现有的识别方法由于模型参数量大，导致运行速度慢，识别周期长，并且对于距离较远的小目标无法准确的识别。

发明内容

本申请提供一种口罩识别模型的训练方法、装置、设备及存储介质，用于提高对于距离较远的小目标识别的准确性，同时解决因模型参数量大导致运行速度慢，识别周期长的问题。

第一方面，本申请实施例提供一种口罩识别模型的训练方法，包括：

将第一训练集中的各图片分别切割成多个图像块，并对图像块进行标签标注，得到第二训练集，该第一训练集为第一人脸口罩数据集，第二训练集中的图像块的标签包括图像块在图片中的位置信息和图像块中人脸是否佩戴口罩的类别信息；

将第三训练集中的各图片分别切割成多个图像块，并对图像块进行标签标注，得到第四训练集，该第三训练集为第二人脸口罩数据集，第四训练集中的图像块的标签包括图像块在图片中的位置信息和图像块中人脸是否佩戴口罩的类别信息；

使用第二训练集对第一预设模型进行预训练，得到预训练模型，该第一预设模型包括主干网络和剩余部分网络，在预训练过程中第一预设模型的主干网络的参数被冻结；

使用第四训练集和第二预设模型进行正式训练，得到口罩识别模型，该第二预设模型包括主干网络和剩余部分网络，第二训练模型的主干网络的参数为预训练模型的主干网络的参数，第二预设模型的剩余部分网络的初始参数为预训练模型的剩余部分网络的参数，在正式训练过程中第二预设模型的主干网络的参数被冻结。

一种可能的实现方式中，第一预设模型采用YOLOV4-tiny网络模型，使用第二训练集对第一预设模型进行预训练，得到预训练模型，包括：

将ImageNet数据集上训练得到的参数加载到第一预设模型的主干网络上；

加载完成之后，冻结第一预设模型的主干网络；

使用如下迭代过程更新第一预设模型的剩余部分网络的参数，直至迭代条件满足，则将训练得到的模型作为预训练模型：

每次将第二训练集中的第一数量的图像块输入第一预设模型进行训练，得到训练结果；

根据输入的图像块的标签以及输入的图像块的训练结果，确定YOLO损失值；

根据YOLO损失值进行反向传播，得到第一预设模型的剩余部分网络的更新参数；

使用更新参数更新第一预设模型的剩余部分网络的参数。

一种可能的实现方式中，第二预设模型采用YOLOV4-tiny网络模型，使用第四训练集和第二预设模型进行正式训练，得到口罩识别模型，包括：

将预训练模型的主干网络的参数加载到第二预设模型的主干网络上；

加载完成之后，冻结第二预设模型的主干网络；

将预训练模型的剩余部分网络的参数加载到第二预设模型的剩余部分网络上；

使用如下迭代过程更新第二预设模型的剩余部分网络的参数，直至迭代条件满足，则将训练得到的模型作为口罩识别模型：

每次将第四训练集中的第一数量的图像块输入第二预设模型进行训练，得到训练结果；

根据YOLO损失值进行反向传播，得到预设模型的剩余部分网络的更新参数；

使用更新参数更新第二预设模型的剩余部分网络的参数。

一种可能的实现方式中，将第一训练集和第三训练集中的各图片分别切割成多个图像块，包括：

从图片的任意一个角开始，以预设像素滑动图像框，将图像框内的图像切割下来形成图像块，其中，预设像素的大小小于图像框的长度和宽度；

根据图片标有的图片框的坐标和滑动图像框的大小得到图像块的框的坐标。

一种可能的实现方式中，将第一训练集和第三训练集中的各图片分别切割成多个图像块之前，还包括：

对第一训练集和第三训练集中的图片进行数据增强处理，该数据增强处理包括以下处理中的一种或者多种：随机调整图片大小、随机调整图片对比度、随机调整图片色调、随机调整图片亮度、随机为图片添加噪声、随机改变图片色彩模型、随机裁剪图片。

一种可能的实现方式中，图像块的大小为416*416像素，主干网络包括6个串联的跨阶段部分CSP网络，每个CSP网络用于对输入的图像进行特征提取；

主干网络中的目标CSP网络与CAT模块的输入连接，CAT模块的输出端与剩余部分网络连接，目标CSP网络提取的特征图为26*26像素以及13*13像素，CAT模块用于连接目标CSP网络提取的特征图。

一种可能的实现方式中，第一人脸口罩数据集中部分图片的人脸目标的占比大于预设阈值，剩余部分图片的人脸目标的占比小于等于预设阈值；

第二人脸口罩数据集中的各图片包括的人脸目标的占比大于预设阈值。

第二方面，本申请实施例提供的一种口罩识别方法，应用于第一方面所述方法训练得到的口罩识别模型，该口罩识别方法包括：

将待识别图片切割成多个图像块，并确定各图像块在待识别图片中的位置信息，该待识别图片中包含至少一个人脸目标；

将多个图像块输入口罩识别模型，得到每个图像块的第一识别结果，该第一识别结果用于表示图像块中的人脸是否佩戴口罩；

当待识别图片中的同一人脸目标存在于不同的图像块时，根据人脸目标所在的各图像块在待识别图片中的位置信息，以及各图像块中的人脸目标检测框，计算人脸目标所在的各图像块的置信度，并选取置信度最大的图像块的第一识别结果作为人脸目标的识别结果；

输出待识别图片中人脸目标的识别结果。

一种可能的实现方式中，根据人脸目标所在的各图像块在待识别图片中的位置信息，以及各图像块中的人脸目标检测框，计算人脸目标所在的各图像块的置信度，包括：

根据人脸目标所在的各图像块在待识别图片中的位置信息，将各图像块恢复到待识别图片中；

对于每个图像块，计算图像块中人脸目标检测框与待识别图片中人脸目标检测框的比值；

将计算得到的比值作为图像块的置信度。

第三方面，本申请实施例提供的一种口罩识别模型的训练装置，包括：

第一切割模块，用于将第一训练集中的各图片分别切割成多个图像块，并对图像块进行标签标注，得到第二训练集，该第一训练集为第一人脸口罩数据集，第二训练集中的图像块的标签包括图像块在图片中的位置信息和图像块中人脸是否佩戴口罩的类别信息；

第二切割模块，用于将第三训练集中的各图片分别切割成多个图像块，并对图像块进行标签标注，得到第四训练集，该第三训练集为第二人脸口罩数据集，第四训练集中的图像块的标签包括图像块在图片中的位置信息和图像块中人脸是否佩戴口罩的类别信息；

预训练模块，用于使用第二训练集对第一预设模型进行预训练，得到预训练模型，该第一预设模型包括主干网络和剩余部分网络，在预训练过程中第一预设模型的主干网络的参数被冻结；

正式训练模块，用于使用第四训练集和第二预设模型进行正式训练，得到口罩识别模型，该第二预设模型包括主干网络和剩余部分网络，第二训练模型的主干网络的参数为预训练模型的主干网络的参数，第二预设模型的剩余部分网络的初始参数为预训练模型的剩余部分网络的参数，在正式训练过程中第二预设模型的主干网络的参数被冻结。

一种可能的实现方式中，第一预设模型采用YOLOV4-tiny网络模型，预训练模块，具体用于：

加载完成之后，冻结第一预设模型的主干网络；

使用更新参数更新第一预设模型的剩余部分网络的参数。

一种可能的实现方式中，第二预设模型采用YOLOV4-tiny网络模型，正式训练模块，具体用于：

加载完成之后，冻结第二预设模型的主干网络；

使用更新参数更新第二预设模型的剩余部分网络的参数。

一种可能的实现方式中，第一切割模块和第二切割模块，具体用于：

根据图片标有的图片框坐标和滑动图像框的大小得到图像块的框的坐标。

一种可能的实现方式中，第一切割模块和第二切割模块，还包括：

增强单元，用于对第一训练集和第三训练集中的图片进行数据增强处理，该数据增强处理包括以下处理中的一种或者多种：随机调整图片大小、随机调整图片对比度、随机调整图片色调、随机调整图片亮度、随机为图片添加噪声、随机改变图片色彩模型、随机裁剪图片。

一种可能的实现方式中，第一切割模块或第二切割模块中图像块的大小为416*416像素，预训练模块或正式训练模块中主干网络包括6个串联的跨阶段部分CSP网络，每个CSP网络用于对输入的图像进行特征提取；

主干网络中的目标CSP网络与CAT模块的输入连接，该CAT模块的输出端与剩余部分网络连接，目标CSP网络提取的特征图为26*26像素以及13*13像素，CAT模块用于连接目标CSP网络提取的特征图。

第四方面，一种口罩识别装置，该口罩识别装置包括：

切割模块，用于将待识别图片切割成多个图像块，并确定各图像块在待识别图片中的位置信息，该待识别图片中包含至少一个人脸目标；

输入模块，用于将多个图像块输入口罩识别模型，得到每个图像块的第一识别结果，该第一识别结果用于表示图像块中的人脸是否佩戴口罩；

计算模块，当待识别图片中的同一人脸目标存在于不同的图像块时，根据人脸目标所在的各图像块在待识别图片中的位置信息，以及各图像块中的人脸目标检测框，计算人脸目标所在的各图像块的置信度，并选取置信度最大的图像块的第一识别结果作为人脸目标的识别结果；

输出模块，用于输出待识别图片中人脸目标的识别结果。

一种可能的实现方式中，计算模块，具体用于：

将计算得到的比值作为图像块的置信度。

第五方面，一种口罩识别的电子设备，包括：

至少一个处理器；

以及与所述至少一个处理器通信连接的存储器；

其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本申请第一方面提供的口罩识别模型的训练方法。

第六方面，一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现本申请第一方面提供的口罩模型的训练方法。

本申请提供的一种口罩识别模型的训练方法、装置、设备及存储介质，通过对模型结构的设计及对训练集图像块的小目标改进处理，减小了模型参数量，从而加快了运行速度，缩短了识别周期，同时提高了对于距离较远的小目标识别的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请YOLOV4-tiny网络模型的结构示意图；

图2为本申请YOLOV4-tiny网络模型中CSP网络的结构示意图；

图3为本申请实施例一提供的一种口罩识别模型的训练方法的流程图；

图4为图片切割的一种示意图；

图5为图像块位置信息的一种示意图；

图6为本申请实施例二提供的一种口罩识别模型的预训练方法的流程图；

图7为本申请实施例三提供的一种口中识别模型的正式训练方法的流程图；

图8为本申请实施例四提供的一种口罩识别方法的流程图；

图9为本申请实施例五提供的一种口罩识别模型的训练装置的结构示意图；

图10为本申请实施例六提供的一种口罩识别装置的结构示意图；

图11为本申请实施例七提供的一种口罩识别设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

本申请实施例提供一种口罩识别模型的训练方法和使用方法，该口罩识别模型用于识别人脸是否佩戴口罩，该口罩识别模型可以采用YOLOV4-tiny网络模型，图1为本申请YOLOV4-tiny网络模型的结构示意图。如图1所示，YOLOV4-tiny网络模型主要由主干网络107、Concat连接模块108和剩余部分网络109组成。其中，主干网络107为6个串联的跨阶段部分网络(Cross Stage Partial network，简称CSP网络)，如图中101至106所示，每个CSP网络用于对输入的图像块进行特征提取，各CSP网络提取的特征图的大小不同，按照串联顺序，CSP网络提取的特征图逐渐减小，图1所示结构中，最后两级CSP网络与Concat连接模块108的输入端连接，将这两级CSP网络提取到的目标特征图经Concat连接模块108的输出端进入剩余部分网络109，剩余部分网络109为一个卷积层，对输入的目标特征图进行卷积处理。

示例性的，当输入416*416像素的图像块时，经过主干网络串联的6个跨阶段部分CSP网络依次提取得到的特征图为208*208像素、104*104像素、52*52像素、26*26像素和13*13像素，26*26像素和13*13像素的特征图通过Concat连接模块输入到剩余网络中，经过剩余网络对图像块的处理，最终输出图像块的识别结果。

本申请采用YOLOV4-tiny网络模型对待识别图片中的人脸目标是否佩戴口罩进行识别，该网络模型通过使用多个具有跨跃连接结构的CSP网络，提高了模型的运行速度。

下面结合图2对YOLOV4-tiny网络模型中的CSP网络结构进行详细说明。

图2为本申请YOLOV4-tiny网络模型中CSP网络的结构示意图。如图2所示，CSP网络由输入模块201，输出模块206，卷积层202、203、204、205，CAT模块25、26组成。其中，卷积层202、卷积层203和卷积层204的卷积核大小均为3×3，卷积层205的卷积核大小为1×1。CAT模块25、26的作用为将两个数组在不改变数组特征的前提下相连接。CSP网络中含有两个跳跃连接结构，如图中207和208所示，其作用为将输入的特征图在通道上一分为二，输入的特征图通过跳跃连接结构后只需对一个通道上的特征图进行卷积计算，从而减少了模型的计算量，加快了计算机的运行速度。

具体的，如图2所示，经卷积层202输出的特征图经过跳跃连接结构207时在通道上分为路径21和路径22，经路径21输出的特征图直接与卷积层205输出的特征图在CAT模块26中连接并进入输出模块206。经路径22输出的特征图进入卷积层203，经卷积层203进行卷积计算后输出的特征图经过跳跃连接结构208时在通道上分为路径23和路径24，经路径24输出的特征图进入卷积层204，经路径23输出的特征图与经卷积层204输出的特征图在CAT模块25中连接并进入卷积层205。

示例性的，输入模块201输入64@104*104像素的特征图，进入第一个卷积层202，经卷积函数Conv3×3对特征图进行卷积计算处理后输出特征图，输出的特征图经过跳跃连接结构207时，在通道上将特征图一分为二使得特征图的通道减半。然后将其中一部分32@104*104像素的特征图经路径21进入CAT模块26，另一部分32@104*104像素的特征图经路径22进入卷积层203中，经卷积函数Conv3×3对特征图进行卷积计算处理后输出特征图，输出的特征图经过跳跃连接结构208时，在通道上在通道上将特征图一分为二使得特征图的通道减半。然后将其中一部分16@104*104像素的特征图经路径23进入CAT模块25，另一部分16@104*104像素的特征图经路径24进入卷积层204中，经卷积函数Conv3×3对特征图进行卷积计算处理后输出特征图，输出的特征图进入CAT模块25与经路径23输入的特征图相结合，然后将特征图输入卷积层205，经卷积函数Conv1×1对特征图进行卷积计算处理后将特征图输入CAT模块26，与经路径21输入的特征图在CAT模块26中相结合，然后将特征图经输出模块206输出。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对发明的实施例进行描述。

需要说明的是，下面具体实施例中用到的网络模型采用图1所示的YOLOV4-tiny网络模型。

在使用YOLOV4-tiny网络模型识别待测图片中人脸目标是否佩戴口罩前，需要对YOLOV4-tiny网络模型中的参数进行训练得到具有最优识别效率的YOLOV4-tiny网络模型。下面，结合图3对YOLOV4-tiny网络模型的训练进行详细说明。

图3为本申请实施例一提供的一种口罩识别模型的训练方法的流程图。如图3所示，该口罩识别模型的训练方法包括以下步骤。

S301，将第一训练集中的各图片分别切割成多个图像块，并对该图像块进行标签标注，得到第二训练集。

第一训练集为第一人脸口罩数据集，具体的，第一人脸口罩数据集中部分图片的人脸目标的占比大于预设阈值，剩余部分图片的人脸目标的占比小于等于预设阈值，示例性的，该数据集可以为口罩人脸数据集(FaceMask_CelebA)，也可以为口罩遮挡人脸数据集(Real-Word Masked Face Dataset，简称RMFD)中真实口罩人脸识别数据集、模拟口罩人脸识别数据集和真实口罩人脸验证数据集的一种或几种。

具体的，该数据集包含大量图片以及图片的标签，该标签为人脸是否佩戴口罩的类别信息。示例性的，当图片中的人脸佩戴口罩时，其类别信息为1，人脸没有佩戴口罩时，其类别信息为0，当然，类别信息还可以通过其他形式表示，本实施例不对此进行限制。

将第一训练集中的各图片切割成多个图像块，图像块的大小可以相同，也可以不同，本实施例不对此进行限定。并对切割得到的图像块进行标签标注，具体的，该标签包括图像块在各图片中的位置信息和图像块中人脸是否佩戴口罩的类别信息。

目前口罩佩戴的识别方法对于距离较远的小目标检测效果较差，为了提高对距离较远的小目标的检测效果，本申请采用先放大再检测的方式，即将训练集中的各图片切割成多个图像块，然后对图像块进行检测。

图4为图片切割的一种示意图。如图4所示，使用一定大小的图像框40按预设像素依次在图片上滑动，并将每个图像框内的区域切割下来得到图像块，其中，预设像素的大小小于一定大小图像框的长度和宽度。示例性的，图像框40的大小可以为416*416，预设像素大小可以为300。

如图4所示，一种可能的实施方式中，从图片的左上角开始，使用固定大小的图像框从左向右按预设像素依次滑动，并将图像框内的图像切割下来形成多个图像块。在图像框滑动到最右端时，将图像框按滑动步长向下滑动一个步长，然后，按预设像素从左向右依次滑动或者从右向左依次滑动，按照上述方式完成图像块的切割。其中，滑动步长为多个像素的大小，滑动步长和预设像素可以相同，也可以不同。

另一种可能的实施方式中，从图片的左上角开始，使用大小一定的框在图片上从上向下按预设像素的大小依次滑动，并将图像框内的图像切割下来形成多个图像块。在图像框滑动到最下端时，将图像框按滑动步长向右滑动一个步长，然后，按预设像素从上向下依次滑动或者从下向上依次滑动，按照上述方式完成图像块的切割。其中，滑动步长为多个像素的大小，滑动步长和预设像素可以相同，也可以不同。

将切割后的图像块进行标签标注得到第二训练集，第二训练集中的图像块的标签包括图像块在图片中的位置信息和图像块中人脸是否佩戴口罩的类别信息，图像块的类别信息与切割之前图片的类别信息相同，即切割之前图片中人脸的类别信息为佩戴口罩，那么切割后各个图像块中人脸的类别信息也为佩戴口罩，其中，在切割完成之后，有部分图像块中可能没有人脸，那么没有人脸的图像块的类别信息为没有佩戴口罩。

图像块的位置信息可以为图像块在图片中切割点的位置信息，可以根据切割之前图片的坐标得到。图5为图像块位置的一种示意图。如图5所示，定义图片的点A(0，0)为坐标原点，点B和点C分别为第一个图像块和第二个图像块在图片中的位置信息。可以理解，这里图像块的位置并不是图像块的物理坐标，而是图像块的像素位置。示例性的，当切割框的大小为416*416，滑动像素为300，则得到第一个图像块的位置信息为B(416，416)，第二个图像块的位置信息为C(716,416)。依次类推，根据图片的坐标和切割时图像框的大小以及滑动像素进行平移操作，可以得到每个图像框在图片中的位置信息。

可选的，将第一训练集中的各图片分别切割成多个图像块之前，需要对第一训练集的各图片进行数据增强处理。具体的，数据增强处理的方式可以为以下处理方式中的一种或几种：随机调整图片大小、随机调整图片对比度、随机调整图片色调、随机调整图片亮度、随机为图片添加噪声、随机改变图片色彩模型、随机裁剪图片。

示例性的，随机调整图片亮度和对比度，可以改变图片的质量，使图片的质量与真实拍摄场景下因空气质量等环境因素造成的成像质量不一的情况相契合；随机裁剪图片，可以改变图片中人脸目标的位置，使图片中人脸目标的位置与真实场景下人脸目标位置变化导致的前景和后景的景深变化相契合；由此可见，通过对数据集图片进行增强处理，使最终训练集中的图片包含了常规取景状态下可能存在的各种影响成像质量的问题。

S302，将第三训练集中的各图片分别切割成多个图像块，并对图像块进行标签标注，得到第四训练集。

第三训练集为第二人脸口罩数据集，具体的，第二人脸口罩数据集中的各图片包括的人脸目标的占比大于预设阈值，该数据集中的图片是工作人员通过日常拍摄得到的，较第一人脸口罩数据集中的图片相比，该数据集中的图片更接近于监控摄像头下拍摄的图片，即图片中人脸目标更接近于小目标。本申请通过对该非公开的人脸训练集中的图片进行训练，可以提升对小目标检测的准确性。

将切割后的图像块进行标签标注得到第四训练集，第四训练集中的图像块的标签包括图像块在图片中的位置信息和图像块中人脸是否佩戴口罩的类别信息，图像块的类别信息与切割之前图片的类别信息相同，即切割之前图片中人脸的类别信息为佩戴口罩，那么切割后各个图像块中人脸的类别信息也为佩戴口罩，其中，在切割完成之后，有部分图像块中可能没有人脸，那么没有人脸的图像块的类别信息为没有佩戴口罩。

具体的，对第三训练集中图片的切割方法以及标注图像块位置信息的方法与步骤S301相同，这里不再赘述。

可选的，将第三训练集中的各图片分别切割成多个图像块之前，需要对第三训练集的各图片进行数据增强处理，其增强处理方式及其效果与步骤S301中相同，这里不再赘述。

S303，使用第二训练集对第一预设模型进行预训练，得到预训练模型。

第一预设模型采用YOLOV4-tiny网络模型，YOLOV4-tiny网络模型可以采用如图1所示的结构，可以理解，YOLOV4-tiny网络模型的网络结构可以变换，例如，CSP网络的数量大于或小于图1所示网络模型。将第二训练集中的图像块每次按一定数量输入第一预设模型中进行模型预训练，示例性的，每次输入图像块的数量可以为16张，相应的，会得到16个图像块的输出结果，该输出结果用于表示图像块中的人脸是否佩戴口罩。根据模型训练的输出结果与图像块的标签得到YOLO损失值，通过YOLO损失值进行反向传播，利用梯度下降法进行迭代不断更新模型参数，直到迭代结束得到预训练模型。

第一预设模型包括主干网络和剩余部分网络，其中，在预训练过程中第一预设模型的主干网络的参数被冻结，主干网络的参数被冻结是指主干网络的参数在迭代训练过程中不更新，保持不变，只更新剩余部分网络的参数，通过冻结主干网络的参数，可以加快训练过程，减少训练时间。

S304，使用第四训练集和第二预设模型进行正式训练，得到口罩识别模型。

第二预设模型采用YOLOV4-tiny网络模型，YOLOV4-tiny网络模型可以采用图1所示的结构。将第四训练集中的图像块每次按一定数量输入第一预设模型中进行模型预训练，示例性的，每次输入图像块的数量可以为16张，相应的，会得到16个图像块的输出结果，该输出结果用于表示图像块中的人脸是否佩戴口罩。根据模型训练的输出结果与图像块的标签得到YOLO损失值，通过YOLO损失值进行反向传播，利用梯度下降法进行迭代不断更新模型参数，直到迭代结束得到口罩识别模型。

第二预设模型包括主干网络和剩余部分网络，该第二预设模型的主干网络的参数为预训练模型的主干网络的参数，第二预设模型的剩余部分网络的初始参数为预训练模型的剩余部分网络的参数，通过预训练将剩余部分网络的参数置为一个较好的状态，可以加快正式训练中模型的收敛。

其中，在进行正式训练的过程中与预训练过程相同，主干网络的参数被冻结，只更新剩余部分网络的参数。

本实施例中，通过对第一训练集和第三训练集中的图片进行切割处理，分别得到第二训练集和第四训练集，并通过将第二训练集中的图像块输入第一预设模型进行预训练得到预训练模型，在预训练模型的基础上将第四训练集中图像块输入第二预设模型进行正式训练，得到口罩识别模型。该方法通过将图片切割为多个图像块，对小的图像块进行训练和识别，提高了对于距离较远的小目标识别的准确率。

图6为本申请实施例二提供的一种口罩识别模型的预训练方法的流程图。该实施例是对实施例一中步骤S303的详细说明。如图6所示，该口罩识别模型的预训练方法包括以下步骤。

S601，将ImageNet数据集上训练得到的参数加载到第一预设模型的主干网络上。

将ImageNet数据集中的图像块输入到YOLOV4-tiny网络模型的主干网络上，并在主干网络上对模型的参数进行训练，最后将训练好的各个参数依次填入主干网络的对应位置。

示例性的，主干网络的模型为n＝Ax+By+Cz时，将ImageNet数据集输入主干网络并进行训练，可以得到参数A、B、C的值并将该参数值填入主干网络的对应位置。

S602，加载完成之后，冻结第一预设模型的主干网络。

根据步骤S601，将各个参数依次填入主干网络的对应位置后，冻结主干网络即使得在进行预训练时主干网络部分的参数不会被更改。

S603，每次将第二训练集中的第一数量的图像块输入第一预设模型进行训练，得到训练结果。

将第二训练集中的第一数量的图像块输入YOLOV4-tiny网络模型，示例性的，第一数量可以为16张图像块。每次输入第一数量的图像块，直到将第二训练集中的图像块全部输入YOLOV4-tiny网络模型中，根据每次输入的第一数量的图像块对模型进行训练得到每次的训练结果，并将训练结果输出。

S604，根据输入的图像块的标签以及输入的图像块的训练结果，确定YOLO损失值。

输入的图像块的标签为人脸是否佩戴口罩的类别信息，示例性的，即佩戴口罩的类别信息为1，没有佩戴口罩的类别信息为0。图像块的训练结果为0-1之间的实数，示例性的，可以为0.12，也可以为0.9，数值接近于1时，表示该图像块的人脸目标佩戴口罩，数值接近于0时，表示该图像块的人脸目标没有佩戴口罩。将输入图像块的标签和输入图像块的训练结果的差值作为YOLO损失值。

S605，根据YOLO损失值进行反向传播，得到第一预设模型的剩余部分网络的更新参数。

根据YOLO损失值进行反向传播即求YOLO损失值对模型各参数的梯度，之后通过梯度下降法利用该梯度更新第一预设模型中剩余部分网络模型的参数。梯度下降是迭代法的一种，简单来说是一种寻找目标函数最小化的方法，即在求解损失函数的最小值时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数和模型参数值。

S606，使用更新参数更新第一预设模型的剩余部分网络的参数。

S607，判断迭代条件是否满足。

每次更新完成后，判断迭代条件是否满足，当迭代条件满足时，执行步骤S608，当迭代条件不满足时，返回执行步骤S603。

该迭代条件例如为完成预设次数的迭代训练，该预设次数可以为100或120等，其中，一次迭代训练是指将第二训练集中的全部图像块进行一次训练。

S608、将训练得到的模型作为预训练模型。

通过步骤S603-608的步骤迭代更新第一预设模型的剩余部分网络的参数，直至迭代条件满足，则将训练得到的模型作为预训练模型。

将预训练结束后输出的模型各个参数依次填入第一预设网络模型的剩余部分网络的对应位置，用于对第二预设网络模型进行正式训练。

本实施例中，将ImageNet数据集上训练得到的参数加载到第一预设网络模型的主干网络上，并将主干网络冻结。利用第二训练集的数据对第一预设网络模型进行预训练，并根据输入图像块的标签和输入图像块的训练结果的差值得到YOLO损失值，将YOLO损失值进行反向传播得到YOLO损失值对模型参数的梯度，之后通过梯度下降法利用该梯度更新模型参数，通过迭代得到预训练模型。该方法通过对第一预设网络模型进行预训练，可以使第一预设网络模型的参数置为一个较好的状态，从而加速正式训练中第二预设网络模型的收敛。

图7为本申请实施例三提供的一种口罩识别模型的正式训练方法的流程图。该实施例是对实施例一中步骤S304的详细说明。如图7所示，该口罩识别模型的正式训练方法包括以下步骤。

S701，将预训练模型中主干网络的参数加载到第二预设模型的主干网络上。

将实施例二中得到的预训练模型中主干网络上的参数依次填入第二预设模型中主干网络对应的位置。

S702，加载完成之后，冻结第二预设模型的主干网络。

冻结第二预设模型中的主干网路，即在对第二预设模型剩余部分网络进行训练时，保证其主干网络的参数不被更改。

S703，将预训练模型的剩余部分网络的参数加载到第二预设模型的剩余部分网络上。

将实施例二中得到的预训练模型的剩余部分网络的各个参数依次填入第二预设模型中剩余部分网络的对应位置上，在预训练得到的参数的基础上对第二预设模型进行正式训练，有利于加速正式训练中第二预设网络模型的收敛，从而提高训练的效率。

S704，每次将第四训练集中的第一数量的图像块输入第二预设模型进行训练，得到训练结果。

将第四训练集中的第一数量的图像块输入第二预设网络模型，具体的输入图像块的第一数量及方法与实施例二中步骤S603相同，这里不再赘述。

S705，根据输入的图像块的标签以及输入的图像块的训练结果，确定YOLO损失值。

输入图像块的标签信息与实施例二中步骤S604中图像块的信息相同，这里不再赘述。将输入图像块的标签和输入图像块的训练结果的差值作为YOLO损失值。

S706，根据YOLO损失值进行反向传播，得到第二预设模型的剩余部分网络的更新参数。

根据YOLO损失值进行反向传播即求YOLO损失值对模型各参数的梯度，之后通过梯度下降法进行迭代，利用该梯度更新模型参数。，在进行模型正式训练的过程中，该阶段，需要根据具体的训练指标要求设定训练阶段的相关参数，这些参数包括学习率、迭代次数和衰减策略等，通过人为调节这些相关参数，可以加速模型的训练，同时使训练得到的模型参数更优，进一步可以提高模型识别的准确率。

S707，使用更新参数更新第二预设模型的剩余部分网络的参数。

S708，判断迭代条件是否满足。

每次更新完成后，判断迭代条件是否满足，当迭代条件满足时，执行步骤S709，当迭代条件不满足时，返回执行步骤S704。

该迭代条件例如为YOLO损失值减小到预设的YOLO损失值，且YOLO损失值在连续多次训练过程中不再明显变化，其中，YOLO损失值的变化可以通过方差判断。具体的，利用梯度下降法进行迭代训练时，训练期间YOLO损失值不断减小，当YOLO损失值减小到一个较低水平且不再明显减小即得到最小YOLO损失值，此时迭代完成，停止训练。

S709，将正式训练中得到的各个模型参数依次填入第二预设模型中剩余部分网络的对应位置，得到口罩识别模型。

本实施例中，在预训练模型的基础上，将第二预设模型中的主干网络冻结，其中主干网络的参数与预训练模型中的相同。利用第四训练集的数据对YOLOV4-tiny网络模型进行正式训练，并根据输入图像块的标签和输入图像块的训练结果的差值得到YOLO损失值，将YOLO损失值进行反向传播得到YOLO损失值对模型参数的梯度，之后通过梯度下降法进行迭代，利用该梯度更新模型参数。在训练过程中，YOLO损失值不断减小，当YOLO损失值减小到一个较低水平且不再明显减小即得到最小YOLO损失值时，停止训练得到口罩识别模型。该方法通过对YOLOV4-tiny网络模型的正式训练，可以提高对目标检测对象的识别准确率。

图8为本申请实施例四提供的一种口罩识别方法，本实施例的方法使用实施例一、实施例二、实施例三中训练得到的口罩识别模型，如图8所示，该口罩识别方法包括以下步骤。

S801，将待识别图片切割成多个图像块，并确定各图像块在该待识别图片中的位置信息，该待识别图片中包含至少一个人脸目标。

待识别图片为从监控视频中获取的图像，具体的，通过分帧的方法将实时获取的监控视频转换为逐帧图像。从监控视频中获取的一个图像中包含至少一个人脸目标，示例性的，可以为1个人脸目标，也可以为3个人脸目标。

将待识别图片切割成多个大小相同的图像块，其具体的切割方法与实施例一中的切割方法相同，这里不再赘述。

确定各图像块在待识别图片中的位置信息，其方法与实施例一中的方法相同，这里不再赘述。

S802，将多个图像块输入口罩识别模型，得到每个图像块的第一识别结果，该第一识别结果用于表示图像块中的人脸是否佩戴口罩。

将多个图像块输入口罩识别模型，该图像块的个数为根据待识别图片切割得到的图像块的个数。

通过口罩识别模型得到的各个图像块的第一识别结果为图像块中人脸是否佩戴口罩的类别信息，其第一识别结果为0-1之间的实数，当第一识别结果值接近于1时，表示该图像块中的人脸目标有佩戴口罩，当第一识别结果值接近于0时，表示该图像块中的人脸目标没有佩戴口罩。

S803，当待识别图片中的同一人脸目标存在于不同的图像块时，计算人脸目标所在的各图像块的置信度，并选取置信度最大的图像块的第一识别结果作为该人脸目标的识别结果。

当待识别图片中的同一人脸目标存在于不同的图像块时，根据该人脸目标所在的各图像块在待识别图片中的位置信息，以及各图像块中的人脸目标检测框计算各图像块的置信度，具体的，根据人脸目标所在的各图像块在待识别图片中的位置信息，将各图像块恢复到待识别图片中，对于每个图像块，计算图像块中人脸目标检测框与待识别图片中人脸目标检测框的比值，并将计算得到的比值作为每个图像块的置信度。

通过计算具有同一人脸目标的各图像块的置信度，并将置信度最大的图像块的第一识别结果作为该人脸目标的识别结果。

S804，输出待识别图片中人脸目标的识别结果。

待识别图片中人脸目标的识别结果即人脸目标对应的图像块的第一识别结果，当待识别图片中有多个人脸目标时，根据人脸目标所在图像块的第一识别结果可以分别得到每个人脸目标的识别结果。

本实施例中，将从监控视频中获取的图像作为待识别图片，并将该待识别图片切割成多个大小相同的图像块，然后将图像块输入到口罩识别模型中得到每个图像块的第一识别结果，根据图像块的第一识别结果得到待识别图片中人脸目标是否佩戴口罩的识别结果。其中，当待识别图片中的同一人脸目标存在与不同的图像块时，计算每个图像块的置信度并选取置信度最大的图像块的第一识别结果用于表示图像块中的人脸是否佩戴口罩。该方法，使用本申请的口罩识别模型对目标对象是否佩戴口罩进行识别检查，根据识别结果进一步验证了识别模型的准确性。

图9为本申请实施例五提供的一种口罩识别模型的训练装置的结构示意图。如图9所示，该口罩识别模型的训练装置90包括：第一切割模块901，第二切割模块902，预训练模块903，正式训练模块904。

其中，第一切割模块901，用于将第一训练集中的各图片分别切割成多个图像块，并对图像块进行标签标注，得到第二训练集，第一训练集为第一人脸口罩数据集，第二训练集中的图像块的标签包括图像块在图片中的位置信息和图像块中人脸是否佩戴口罩的类别信息；

第二切割模块902，用于将第三训练集中的各图片分别切割成多个图像块，并对图像块进行标签标注，得到第四训练集，第三训练集为第二人脸口罩数据集，第四训练集中的图像块的标签包括图像块在图片中的位置信息和图像块中人脸是否佩戴口罩的类别信息；

预训练模块903，用于使用第二训练集对第一预设模型进行预训练，得到预训练模型，该第一预设模型包括主干网络和剩余部分网络，在预训练过程中第一预设模型的主干网络的参数被冻结；

正式训练模块904，用于使用第四训练集和第二预设模型进行正式训练，得到口罩识别模型，该第二预设模型包括主干网络和剩余部分网络，第二训练模型的主干网络的参数为预训练模型的主干网络的参数，第二预设模型的剩余部分网络的初始参数为预训练模型的剩余部分网络的参数，在正式训练过程中第二预设模型的主干网络的参数被冻结。

一种可能的实现方式中，第一预设模型采用YOLOV4-tiny网络模型，预训练模块903，具体用于：

加载完成之后，冻结第一预设模型的主干网络；

使用更新参数更新第一预设模型的剩余部分网络的参数。

一种可能的实现方式中，第二预设模型采用YOLOV4-tiny网络模型，正式训练模块904，具体用于：

加载完成之后，冻结第二预设模型的主干网络；

使用更新参数更新第二预设模型的剩余部分网络的参数。

一种可能的实现方式中，第一切割模块901和第二切割模块902，具体用于：

一种可能的实现方式中，第一切割模块901和第二切割模块902，还包括：

一种可能的实现方式中，第一切割模块901或第二切割模块902中图像块的大小为416*416像素，预训练模块或正式训练模块中主干网络包括6个串联的跨阶段部分CSP网络，每个CSP网络用于对输入的图像进行特征提取；

本实施例提供的装置可用于执行上述实施例一、实施例二或实施例三的方法步骤，具体实现方式和技术效果类似，这里不再赘述。

图10为本申请实施例六提供的一种口罩识别装置的结构示意图。如图10所示，该口罩识别装置10包括：切割模块110，输入模块120，计算模块130，输出模块140。

其中，切割模块110，用于将待识别图片切割成多个图像块，并确定各图像块在待识别图片中的位置信息，该待识别图片中包含至少一个人脸目标；

输入模块120，用于将多个图像块输入口罩识别模型，得到每个图像块的第一识别结果，该第一识别结果用于表示图像块中的人脸是否佩戴口罩；

计算模块130，当待识别图片中的同一人脸目标存在于不同的图像块时，根据人脸目标所在的各图像块在待识别图片中的位置信息，以及各图像块中的人脸目标检测框，计算人脸目标所在的各图像块的置信度，并选取置信度最大的图像块的第一识别结果作为人脸目标的识别结果；

输出模块140，用于输出待识别图片中人脸目标的识别结果。

本实施例提供的装置可用于执行上述实施例四的方法步骤，具体实现方式和技术效果类似，这里不再赘述。

图11为本申请实施例七提供的一种口罩识别的电子设备11，包括：

至少一个处理器111；以及

与至少一个处理器111通信连接的存储器112；其中，

存储器112存储有可被至少一个处理器111执行的指令，指令被至少一个处理器111执行，以使至少一个处理器111能够执行如上所述的口罩识别模型的训练方法。

处理器111的具体实现过程可参见上述方法实施例，具体实现方式和技术效果类似，这里不再赘述。

本申请实施例八提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现如上所述方法实施例中的方法步骤，具体实现方式和技术效果类似，这里不再赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

一种口罩识别模型的训练方法，其特征在于，包括：

将第一训练集中的各图片分别切割成多个图像块，并对所述图像块进行标签标注，得到第二训练集，所述第一训练集为第一人脸口罩数据集，所述第二训练集中的图像块的标签包括图像块在图片中的位置信息和图像块中人脸是否佩戴口罩的类别信息；

将第三训练集中的各图片分别切割成多个图像块，并对所述图像块进行标签标注，得到第四训练集，所述第三训练集为第二人脸口罩数据集，所述第四训练集中的图像块的标签包括图像块在图片中的位置信息和图像块中人脸是否佩戴口罩的类别信息；

使用所述第二训练集对第一预设模型进行预训练，得到预训练模型，所述第一预设模型包括主干网络和剩余部分网络，在预训练过程中所述第一预设模型的主干网络的参数被冻结；

使用所述第四训练集和第二预设模型进行正式训练，得到口罩识别模型，所述第二预设模型包括主干网络和剩余部分网络，所述第二训练模型的主干网络的参数为所述预训练模型的主干网络的参数，所述第二预设模型的剩余部分网络的初始参数为所述预训练模型的剩余部分网络的参数，在正式训练过程中所述第二预设模型的主干网络的参数被冻结。
根据权利要求1所述的方法，其特征在于，所述第一预设模型采用YOLOV4-tiny网络模型，所述使用所述第二训练集对第一预设模型进行预训练，得到预训练模型，包括：

将ImageNet数据集上训练得到的参数加载到所述第一预设模型的主干网络上；

加载完成之后，冻结所述第一预设模型的主干网络；

使用如下迭代过程更新所述第一预设模型的剩余部分网络的参数，直至迭代条件满足，则将训练得到的模型作为所述预训练模型：

每次将所述第二训练集中的第一数量的图像块输入所述第一预设模型进行训练，得到训练结果；

根据输入的图像块的标签以及输入的图像块的训练结果，确定YOLO损失值；

根据所述YOLO损失值进行反向传播，得到所述第一预设模型的剩余部分网络的更新参数；

使用所述更新参数更新所述第一预设模型的剩余部分网络的参数。
根据权利要求2所述的方法，其特征在于，所述第二预设模型采用YOLOV4-tiny网络模型，所述使用所述第四训练集和第二预设模型进行正式训练，得到口罩识别模型，包括：

将所述预训练模型的主干网络的参数加载到所述第二预设模型的主干网络上；

加载完成之后，冻结所述第二预设模型的主干网络；

将所述预训练模型的剩余部分网络的参数加载到所述第二预设模型的剩余部分网络上；

使用如下迭代过程更新所述第二预设模型的剩余部分网络的参数，直至迭代条件满足，则将训练得到的模型作为所述口罩识别模型：

每次将所述第四训练集中的第一数量的图像块输入所述第二预设模型进行训练，得到训练结果；

根据输入的图像块的标签以及输入的图像块的训练结果，确定YOLO损失值；

根据所述YOLO损失值进行反向传播，得到所述预设模型的剩余部分网络的更新参数；

使用所述更新参数更新所述第二预设模型的剩余部分网络的参数。
根据权利要求1-3任一项所述的方法，其特征在于，将所述第一训练集和所述第三训练集中的各图片分别切割成多个图像块，包括：

从所述图片的任意一个角开始，以预设像素滑动图像框，将所述图像框内的图像切割下来形成所述图像块，其中，所述预设像素的大小小于所述图像框的长度和宽度；

根据所述图片标有的图片框的坐标和所述滑动图像框的大小得到所述图像块的框的坐标。
根据权利要求4所述的方法，其特征在于，将所述第一训练集和所述第三训练集中的各图片分别切割成多个图像块之前，还包括：

对所述第一训练集和所述第三训练集中的图片进行数据增强处理，所述数据增强处理包括以下处理中的一种或者多种：随机调整图片大小、随机调整图片对比度、随机调整图片色调、随机调整图片亮度、随机为图片添加噪声、随机改变图片色彩模型、随机裁剪图片。
根据权利要求2或3任一项所述的方法，其特征在于，所述图像块的大小为416*416像素，所述主干网络包括6个串联的跨阶段部分CSP网络，每个所述 CSP网络用于对输入的图像进行特征提取；

所述主干网络中的目标CSP网络与CAT模块的输入连接，所述CAT模块的输出端与所述剩余部分网络连接，所述目标CSP网络提取的特征图为26*26像素以及13*13像素，所述CAT模块用于连接所述目标CSP网络提取的特征图。
根据权利要求1-3任一项所述的方法，其特征在于，所述第一人脸口罩数据集中部分图片的人脸目标的占比大于预设阈值，剩余部分图片的人脸目标的占比小于等于所述预设阈值；

所述第二人脸口罩数据集中的各图片包括的人脸目标的占比大于所述预设阈值。
一种口罩识别方法，其特征在于，应用于权利要求1-7任一项所述方法训练得到的口罩识别模型，所述方法包括：

将待识别图片切割成多个图像块，并确定各所述图像块在所述待识别图片中的位置信息，所述待识别图片中包含至少一个人脸目标；

将所述多个图像块输入所述口罩识别模型，得到每个图像块的第一识别结果，所述第一识别结果用于表示所述图像块中的人脸是否佩戴口罩；

当所述待识别图片中的同一人脸目标存在于不同的所述图像块时，根据所述人脸目标所在的各所述图像块在所述待识别图片中的位置信息，以及各所述图像块中的人脸目标检测框，计算所述人脸目标所在的各所述图像块的置信度，并选取置信度最大的图像块的第一识别结果作为所述人脸目标的识别结果；

输出所述待识别图片中人脸目标的识别结果。
根据权利要求8所述的方法，其特征在于，所述根据所述人脸目标所在的各所述图像块在所述待识别图片中的位置信息，以及各所述图像块中的人脸目标检测框，计算所述人脸目标所在的各所述图像块的置信度，包括：

根据所述人脸目标所在的各所述图像块在所述待识别图片中的位置信息，将各所述图像块恢复到所述待识别图片中；

对于每个图像块，计算所述图像块中人脸目标检测框与所述待识别图片中人脸目标检测框的比值；

将计算得到的比值作为所述图像块的置信度。
一种口罩识别模型的训练装置，其特征在于，包括：

第一切割模块，用于将第一训练集中的各图片分别切割成多个图像块，并对所述图像块进行标签标注，得到第二训练集，所述第一训练集为第一人脸口罩数据集，所述图片标有图片框的坐标和人脸是否佩戴口罩的类别信息，所述第二训练集中的图像块的标签用于表示图像块的框的坐标和人脸是否佩戴口罩的类别信息；

第二切割模块，用于将第三训练集中的各图片分别切割成多个图像块，并对所述图像块进行标签标注，得到第四训练集，所述第三训练集为第二人脸口罩数据集，所述图片标有图片框的坐标和人脸是否佩戴口罩的类别信息，所述第四训练集中的图像块的标签用于表示图像块的框的坐标和人脸是否佩戴口罩的类别信息；

预训练模块，用于使用所述第二训练集对第一预设模型进行预训练，得到预训练模型，所述第一预设模型包括主干网络和剩余部分网络，在预训练过程中所述第一预设模型的主干网络的参数被冻结；

正式训练模块，用于使用所述第四训练集和第二预设模型进行正式训练，得到口罩识别模型，所述第二预设模型包括主干网络和剩余部分网络，所述第二训练模型的主干网络的参数为所述预训练模型的主干网络的参数，所述第二预设模型的剩余部分网络的初始参数为所述预训练模型的剩余部分网络的参数，在正式训练过程中所述第二预设模型的主干网络的参数被冻结。
根据权利要求10所述的装置，其特征在于，所述第一预设模型采用YOLOV4-tiny网络模型，所述预训练模块，具体用于：

将ImageNet数据集上训练得到的参数加载到所述第一预设模型的主干网络上；

加载完成之后，冻结所述第一预设模型的主干网络；

使用如下迭代过程更新所述第一预设模型的剩余部分网络的参数，直至迭代条件满足，则将训练得到的模型作为所述预训练模型：

每次将所述第二训练集中的第一数量的图像块输入所述第一预设模型进行训练，得到训练结果；

根据输入的图像块的标签以及输入的图像块的训练结果，确定YOLO损失值；

根据所述YOLO损失值进行反向传播，得到所述第一预设模型的剩余部分网络的更新参数；

使用所述更新参数更新所述第一预设模型的剩余部分网络的参数。
根据权利要求11所述的装置，其特征在于，所述第二预设模型采用YOLOV4-tiny网络模型，所述正式训练模块，具体用于：

将所述预训练模型的主干网络的参数加载到所述第二预设模型的主干网络上；

加载完成之后，冻结所述第二预设模型的主干网络；

将所述预训练模型的剩余部分网络的参数加载到所述第二预设模型的剩余部分网络上；

使用如下迭代过程更新所述第二预设模型的剩余部分网络的参数，直至迭代条件满足，则将训练得到的模型作为所述口罩识别模型：

每次将所述第四训练集中的第一数量的图像块输入所述第二预设模型进行训练，得到训练结果；

根据输入的图像块的标签以及输入的图像块的训练结果，确定YOLO损失值；

根据所述YOLO损失值进行反向传播，得到所述预设模型的剩余部分网络的更新参数；

使用所述更新参数更新所述第二预设模型的剩余部分网络的参数。
根据权利要求10所述的装置，其特征在于，所述第一切割模块和所述第二切割模块，具体用于：

从所述图片的任意一角开始，以预设像素滑动图像框，将所述图像框内的图像切割下来形成所述图像块，其中，所述预设像素的大小小于所述图像框的长度和宽度；

根据所述图片标有的图片框的坐标和所述滑动图像框的大小得到所述图像块的框的坐标。
一种口罩识别装置，其特征在于，应用于权利要求1-7任一项所述方法训练得到的口罩识别模型，所述装置包括：

切割模块，用于将待识别图片切割成多个图像块，并确定各所述图像块在所述待识别图片中的位置信息，所述待识别图片中包含至少一个人脸目标；

输入模块，用于将所述多个图像块输入所述口罩识别模型，得到每个图像块的第一识别结果，所述第一识别结果用于表示所述图像块中的人脸是否佩戴口罩；

计算模块，用于当所述待识别图片中的同一人脸目标存在于不同的所述图像块时，根据所述人脸目标所在的各所述图像块在所述待识别图片中的位置信息，以及各所述图像块中的人脸目标检测框，计算所述人脸目标所在的各所述图像块的置信度，并选取置信度最大的图像块的第一识别结果作为所述人脸目标的识别结果；

输出模块，用于输出所述待识别图片中人脸目标的识别结果。
一种口罩识别的电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至9中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至9任一项所述的方法。