WO2024055530A1

WO2024055530A1 - 一种图像的目标检测方法、系统、设备及存储介质

Info

Publication number: WO2024055530A1
Application number: PCT/CN2023/078490
Authority: WO
Inventors: 赵冰; 李军; 朱红
Original assignee: 苏州元脑智能科技有限公司
Priority date: 2022-09-15
Filing date: 2023-02-27
Publication date: 2024-03-21
Also published as: CN115205636B; CN115205636A

Abstract

本申请公开了一种图像的目标检测方法、系统、设备及存储介质，应用于机器学习技术领域，包括：选取出预训练数据集中的任意1张预训练图像之后，从中确定出搜索框；将搜索框中的图像裁剪，并按照预设规则粘贴至n张不同的背景图像上后进行边框移动；任意1张背景图像均来源于目标检测数据集；将边框移动后的各张图像输入至对比学习模型中，通过对比学习的方式训练对比学习模型；将待测图像输入至训练完成的目标检测模型，得到目标检测结果；对比学习模型与目标检测模型采用同一特征图像表征算法以及同一特征向量表征算法。应用本申请的方案，可以有效进行图像的目标检测，提高了目标检测模型的检测性能，也即提高了目标检测模型的检测准确率。

Description

一种图像的目标检测方法、系统、设备及存储介质

相关申请的交叉引用

本申请要求于2022年09月15日提交中国专利局，申请号为202211118927.6，申请名称为“一种图像的目标检测方法、系统、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及机器学习技术领域，特别是涉及一种图像的目标检测方法、系统、设备及存储介质。

背景技术

目前，在计算机视觉中，自监督学习是关注度非常高的一个方向。区别于传统的需要对数据进行人工标注的监督型学习方法，自监督学习希望通过设计代理任务，对无标注的数据自动生成标签，由此完成对数据的学习。

自监督学习中的代理任务主要分为两类：图像变换式与对比学习式。图像变换式的代理任务包括图像降噪、修复、颜色转换等，根据这些与图像变换相关的任务，构造监督信息指导模型学习。而对比学习式指对比任务，对比任务指的是将样本进行裁剪，颜色调整等数据增强策略，将同一张图片生成的两个数据增强样本视作正样本，将不同样本生成的增强样本之间看作负样本。通过自动编码器对增强后的样本进行特征提取，将特征向量进一步进行降维得到低维向量，通过损失函数拉近正样本间的相似度，拉远负样本间的相似度。

图1为对比学习的原理示意图，对比学习的核心是通过学习不同图像间的相似度，从而更好地学习到图像的表征。当模型能够学习到正负样本间的相似度差异时，说明模型提取到的特征较好。目前，自监督领域性能最优的方法均基于对比任务。

上游预训练+下游调参，是机器学习的经典范式。在监督型学习中，该范式指的是在图像分类大规模数据集上进行带标签图像的分类预训练，而在下游任务中，如进行图像的目标检测、语义分割等，训练完的模型会冻结参数，在下游任务上使用少量带有标签的数据进行调参训练。自监督学习也遵循此范式，区别在于，自监督学习在上游预训练中不依赖数据标签。

目前，将对比式自监督学习应用于下游的目标检测任务的研究较少，且存在上下游割裂的情况。例如目前的一种对比式自监督学习方法，完成图像分类数据集的对比学习预训练，使用训练完的CNN(Convolutional Neural Network，卷积神经网络)权重，在下游输电线路场景下的目标检测任务中，以上述权重作为特征提取网络，单独训练一个cascade r-cnn目标检测网络。

该方法代表目前将对比学习应用于下游任务如目标检测任务的主流方法，其上游预训练与下游调参是完全割裂开的。在上游预训练时，所采用的代理任务是区分图像相似度，该任务与图像分类任务的关联度比较大，而与下游的目标检测任务关联度较小，在预训练过程中仅仅完成特征提取网络的训练，目标检测网络中的其余组件仍需要在目标检测任务中从头训练，导致这样的方法在目标检测任务中性能偏低，检测的准确率不足。

综上所述，如何有效地进行图像的目标检测，提高检测的准确率，是目前本领域技术人员急需解决的技术问题。

发明内容

本申请的目的是提供一种图像的目标检测方法、系统、设备及存储介质，以有效地进行图像的目标检测，提高检测的准确率。

为解决上述技术问题，本申请提供如下技术方案：

一种图像的目标检测方法，包括：

确定出预训练数据集，并将预训练数据集中的图像依次作为预训练图像；

选取出任意1张预训练图像之后，从预训练图像中确定出搜索框；

将搜索框中的图像裁剪，并按照预设规则粘贴至n张不同的背景图像上，且粘贴之后对粘贴图像的边框进行移动；其中，n为不小于2的正整数，任意1张背景图像均来源于目标检测数据集；

将进行了边框移动的各张图像输入至对比学习模型中，通过对比学习的方式训练对比学习模型；

将目标检测数据集中的图像依次作为训练图像输入至目标检测模型中进行训练，得到训练完成的目标检测模型；

将待测图像输入至训练完成的目标检测模型，得到由目标检测模型输出的针对待测图像的目标检测结果；

其中，对比学习模型设置了用于进行目标在特征级别的表征的特征图像表征算法，且与目标检测模型所采用的特征图像表征算法为同一算法；对比学习模型设置了用于进行目标在向量级别的表征的特征向量表征算法，且与目标检测模型所采用的特征向量表征算法为同一算法。

在本申请的一些实施例中，从预训练图像中确定出搜索框，包括：

在预训练图像上自动生成多个矩形框，并从各个矩形框中随机选取1个作为确定出的搜索框。

在本申请的一些实施例中，在预训练图像上自动生成多个矩形框，包括：

通过随机搜索算法在预训练图像上自动生成多个矩形框。

在本申请的一些实施例中，在预训练图像上自动生成多个矩形框之后，还包括：

将长宽比超出预设范围的各个矩形框进行过滤；

相应的，从各个矩形框中随机选取1个作为确定出的搜索框，包括：

从经过过滤之后剩余的各个矩形框中随机选取1个作为确定出的搜索框。

在本申请的一些实施例中，将搜索框中的图像裁剪，并按照预设规则粘贴至n张不同的背景图像上，包括：

将搜索框中的图像裁剪，并将裁剪出的图像分别进行n次随机调整，得到n张调整之后的图像；

将n张调整之后的图像分别粘贴至n张不同的背景图像上。

在本申请的一些实施例中，将裁剪出的图像分别进行n次随机调整，包括：

将裁剪出的图像分别进行n次随机调整，并且，在将裁剪出的图像进行任意1次调整时，通过调整长度和/或宽度的方式进行图像尺寸的调整。

在本申请的一些实施例中，粘贴之后对粘贴图像的边框进行移动，包括：

粘贴之后，通过边框位置扰动的方式，对粘贴图像的边框进行移动，且移动之后的边框与移动之前的边框的面积交并比大于预设的面积交并比阈值。

在本申请的一些实施例中，目标检测模型与对比学习模型所采用的特征图像表征算法均为ROI Align算法，其中，对比学习模型通过ROI Align算法对输入图像中的目标进行特征级别的表征；

目标检测模型与对比学习模型所采用的特征向量表征算法均为R-CNN head算法，其中，对比学习模型通过R-CNN head算法对输入图像中的目标进行向量级别的表征。

在本申请的一些实施例中，目标检测模型与对比学习模型均采用相同结构的卷积神经网络。

在本申请的一些实施例中，目标检测模型与对比学习模型均采用具有多层输出的卷积神经网络，且对比学习模型的对比损失函数为基于卷积神经网络的多层输出所计算的对比损失函数。

在本申请的一些实施例中，目标检测模型与对比学习模型均采用FPN结构的卷积神经网络。

在本申请的一些实施例中，在通过对比学习的方式训练对比学习模型之后，还包括：

将目标检测数据集中的图像依次作为训练图像输入至语义分割模型中进行训练，得到训练完成的语义分割模型；

将待测图像输入至训练完成的语义分割模型，得到由语义分割模型输出的针对待测图像的语义分割结果。

一种图像的目标检测系统，包括：

预训练数据集确定模块，用于确定出预训练数据集，并将预训练数据集中的图像依次作为预训练图像；

搜索框选择模块，用于选取出任意1张预训练图像之后，从预训练图像中确定出搜索框；

裁剪粘贴扰动模块，用于将搜索框中的图像裁剪，并按照预设规则粘贴至n张不同的背景图像上，且粘贴之后对粘贴图像的边框进行移动；其中，n为不小于2的正整数，任意1张背景图像均来源于目标检测数据集；

对比学习模型训练模块，用于将进行了边框移动的各张图像输入至对比学习模型中，通过对比学习的方式训练对比学习模型；

目标检测模型训练模块，用于将目标检测数据集中的图像依次作为训练图像输入至目标检测模型中进行训练，得到训练完成的目标检测模型；

目标检测结果确定模块，用于将待测图像输入至训练完成的目标检测模型，得到由目标检测模型输出的针对待测图像的目标检测结果；

一种图像的目标检测设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序以实现如上述的图像的目标检测方法的步骤。

一种非易失性计算机可读存储介质，非易失性计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述的图像的目标检测方法的步骤。

应用本申请实施例所提供的技术方案，考虑到在对比式自监督学习的预训练阶段，可以与下游的目标检测任务实现更多的对齐，从而提高下游的目标检测性能。而本申请的方案中，一方面是在预训练阶段引入更多的目标检测组件，这样预训练完成后，这些目标检测的组件能够复用到目标检测模型的调参训练中，能够为目标检测模型的调参训练提供更合适的初始权重，也就有助于提升目标检测模型的调参训练性能。具体的，在本申请的方案中，对比学习模型设置了用于进行目标在特征级别的表征的特征图像表征算法，且与目标检测模型所采用的特征图像表征算法为同一算法，同时，对比学习模型设置了用于进行目标在向量级别的表征的特征向量表征算法，且与目标检测模型所采用的特征向量表征算法为同一算法，也就是说，对比学习模型中设置的特征图像表征算法和特征向量表征算法会被复用至目标检测模型，从而有效地提高目标检测模型的调参训练性能。

另一方面，本申请考虑到可以在预训练阶段，提升目标检测模型所需要的对于位置建模的能力，具体的，本申请是从背景不变性入手，背景不变性指的是目标在不同的背景图像上，模型均能够较为准确地识别出目标。当模型具备背景不变性时，说明模型学习到了“目标”这一概念，具备了对目标进行定位的能力。

本申请的方案中，选取出任意1张预训练图像之后，会从预训练图像中确定出搜索框，进而将搜索框中的图像裁剪，并按照预设规则粘贴至n张不同的背景图像上，且粘贴之后对粘贴图像的边框进行移动。任意1张背景图像均来源于目标检测数据集，因此移动后的边框可以既包括预训练图像中裁剪下的目标，又包括目标检测数据集中的背景图像，据此训练对比学习模型之后，可以使得与对比学习模型复用了特征图像表征算法和特征向量表征算法的目标检测模型，能够学习到目标在不同背景上的位置建模能力，即有利于目标检测模型能够更为准确地识别出目标，提高了目标检测模型的背景不变性的能力。

综上所述，本申请的方案可以有效地进行图像的目标检测，提高了目标检测模型的检测性能，也即提高了目标检测模型的检测准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为对比学习的原理示意图；

图2为本申请中一种图像的目标检测方法的实施流程图；

图3为本申请一些实施例中的图像的目标检测方法的原理框图；

图4为本申请中一种图像的目标检测系统的结构示意图；

图5为本申请中一种图像的目标检测设备的结构示意图。

具体实施方式

本申请的核心是提供一种图像的目标检测方法，可以有效地进行图像的目标检测，提高了目标检测模型的检测性能，也即提高了目标检测模型的检测准确率。

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图2，图2为本申请中一种图像的目标检测方法的实施流程图，该图像的目标检测方法可以包括以下步骤：

步骤S201：确定出预训练数据集，并将预训练数据集中的图像依次作为预训练图像。

在本申请的一些实施例中，预训练数据集中可以包括大量的用于进行预训练的图像，在实际应用中，通常可以包含千万张甚至更多数量的图像。由于本申请的方案是基于对比式自监督学习实现预训练，因此并不需要为这些图像设置标签。并且，由于预训练数据集中包括的图像较多，因此通常可以分批次进行训练，例如一种场合中，每50张图片作为1个训练批次。

步骤S202：选取出任意1张预训练图像之后，从预训练图像中确定出搜索框。

在本申请的一些实施例中，可以将预训练数据集中的图像依次作为预训练图像，在选取出任意1张预训练图像之后，便可以从预训练图像中确定出搜索框。

例如图3为一些实施例中的图像的目标检测方法的原理框图，图3中的大熊猫图像便是从预训练数据集中选取出的1张预训练图像，用于进行对比学习模型的训练。

从预训练图像中确定出搜索框的方式可以有多种，考虑到由于预训练数据集中的图像通常为单个目标，且该目标可能位于图像的任意位置，因此可以通过随机选择的方式从预训练图像中确定出搜索框。搜索框的形状通常设置为矩形，使得在图像中，通过两个点的坐标便可以确定出搜索框的范围。

即在本申请的一些实施例中，步骤S202中描述的从预训练图像中确定出搜索框，可以具体包括：在预训练图像上自动生成多个矩形框，并从各个矩形框中随机选取1个作为确定出的搜索框。

在预训练图像上自动生成多个矩形框时，具体方式也可以根据实际需要进行设定和选取，例如可以在多个指定位置自动生成矩形框，从而得到自动生成的多个矩形框。又如，考虑到目标可能位于图像的任意位置，生成多个矩形框之后，也是从中随机选取1个作为确定出的搜索框，因此，上述的在预训练图像上自动生成多个矩形框，可以具体包括：通过随机搜索算法在预训练图像上自动生成多个矩形框。通过随机搜索算法自动生成多个矩形框的方式较为简单方便。

此外可以理解的是，从预训练图像中确定出搜索框之后，搜索框中可能包含目标，也可能不包含目标。

进一步的，在本申请的一些实施例中，在预训练图像上自动生成多个矩形框之后，还可以包括：

将长宽比超出预设范围的各个矩形框进行过滤；

相应的，上面描述的从各个矩形框中随机选取1个作为确定出的搜索框，可以具体包括：

该种实施方式中，考虑到为了方便地生成多个矩形框，通常采用的是随机生成的方式，例如上述实施例中通过随机搜索算法自动生成多个矩形框，因此，对于随机生成的部分矩形框，便可能出现长宽比过大或过小的情况，这样的不符合期望的矩形框不利于后续的训练，因此，该种实施方式中，会将长宽比超出预设范围的各个矩形框进行过滤，例如一种场合中，当矩形框的长宽比＞3或者＜1/3时会被过滤。相应的，在确定搜索框时，便是从经过过滤之后剩余的各个矩形框中随机选取1个作为确定出的搜索框。

步骤S203：将搜索框中的图像裁剪，并按照预设规则粘贴至n张不同的背景图像上，且粘贴之后对粘贴图像的边框进行移动；其中，n为不小于2的正整数，任意1张背景图像均来源于目标检测数据集。

从预训练图像中确定出搜索框之后，便可以将搜索框中的图像裁剪，并按照预设规则粘贴至n张不同的背景图像上，例如一种简单的方式便是直接将搜索框中的图像粘贴至n张不同的背景图像。

在本申请的一些实施例中，为了提高模型的识别能力，即提高训练效果，可以将裁剪下的搜索框中的图像进行调整，再分别粘贴至n张不同的背景图像上。即在本申请的一些实施例中，步骤S203中描述的将搜索框中的图像裁剪，并按照预设规则粘贴至n张不同的背景图像上，可以具体包括：

步骤一：将搜索框中的图像裁剪，并将裁剪出的图像分别进行n次随机调整，得到n张调整之后的图像；

步骤二：将n张调整之后的图像分别粘贴至n张不同的背景图像上。

该种具体实施方式中，为了提高模型的识别能力，即提高训练效果，会将将裁剪出的图像分别进行n次随机调整，从而得到n张调整之后的图像。当然，在本申请的一些实施例中调整方式可以有多种，例如图像旋转，分辨率的调整，长度调整，宽度调整等等。

在本申请的一些实施例中，考虑到进行长度和/或宽度的调整时，操作较为简单，也不容易破坏搜索框中的图像信息，因此，上述步骤一中描述的将裁剪出的图像分别进行n次随机调整，可以具体包括：

将裁剪出的图像分别进行n次随机调整，并且，在将裁剪出的图像进行任意1次调整时，通过调整长度和/或宽度的方式进行图像尺寸的调整，当然，这样也会改变图像的分辨率。

例如一些实施例中，调整的策略可以表示为：
(w，h)＝λ₃*(λ₁*w₁，λ₂*h₁)。

其中，w表示的是新分辨率中的长，h表示的是新分辨率中的宽，w₁表示的是原始分辨率中的长，h₁表示的是原始分辨率中的宽，λ₁与λ₂是为长度和宽度分别设置的变化系数，λ₃则是整体变化系数。

此外可以理解的是，以该种实施方式的调整策略为例，本申请的方案中，需要将裁剪出的图像分别进行n次随机调整，则该种实施方式中，进行n次调整中的每次调整时，所采用的λ₁，λ₂以及λ₃均可以是随机选择的，当然，可以设置好λ₁，λ₂以及λ₃各自可允许的取值范围。

例如在图3的例子中，n＝2，来源于目标检测数据集的2张背景图像中的一张是街景，另一张则是体育场的图像。将搜索框中的图像裁剪之后，粘贴在街景图像中时，可以看出，是将搜索框中的图像的长度和宽度均进行了降低，而将裁剪出的搜索框中的图像粘贴在体育场的图像中时，可以看出，是将搜索框中的图像的长度进行了提高，而宽度则进行了降低。

将裁剪出的搜索框中的图像按照预设规则粘贴至n张不同的背景图像上之后，需要对粘贴图像的边框进行移动。

可以理解的是，如果直接将裁剪出的搜索框中的图像粘贴至n张不同的背景图像上，则粘贴图像的边框与搜索框的尺寸是一致的。而如果是上述的实施方式中，例如对长度和/或宽度进行了调整，则粘贴图像的边框与搜索框的尺寸便不一致。

对粘贴图像的边框进行移动时，在本申请的一些实施例中移动方式可以根据需要进行选取，例如可以随机移动。此外需要说明的是，本申请的方案中，任意1张背景图像均来源于目标检测数据集，即本申请在预训练的过程中引入了目标检测数据集作为背景，目的是希望在对比学习的过程中，目标检测模型的相关组件能够学习到目标在不同背景上的位置建模能力，即具体为背景不变性的能力。因此，如果不进行粘贴图像的边框的移动，会使得训练效果较差。而在本申请的一些实施方式，是移动之后的边框能够包括部分原粘贴图像，又涵盖了部分背景图片的信息。

在本申请的一些实施例中，步骤S203中描述的粘贴之后对粘贴图像的边框进行移动，可以具体包括：

该种实施方式中，是对粘贴图像的边框进行位置扰动，从而实现边框的移动。而且，要求移动之后的边框与移动之前的边框的面积交并比大于面积交并比阈值，例如面积交并比阈值设置为0.6。

IoU(Intersection over Union，交并比)也称为面积交并比，反映的是两个矩形框的面积重合情况，即二者的交集和并集的比值。当完全重叠时，IoU为最大值1。

采用该种实施方式的设置，可以使得移动之后的边框位置与移动之前的边框位置差距不会过大，即不会出现完全偏离原边框的情况，为了便于理解，本申请的图3中也标示出了原边框以及移动后的边框。

步骤S204：将进行了边框移动的各张图像输入至对比学习模型中，通过对比学习的方式训练对比学习模型。

本申请考虑到，在对比式自监督学习的预训练阶段，可以与下游的目标检测任务实现更多的对齐，从而提高下游的目标检测性能。也就是说，在预训练阶段可以引入更多的目标检测模型的组件，这样预训练完成后，这些组件能够复用到目标检测模型的调参训练中，能够为目标检测模型的调参训练提供更合适的初始权重，也就有助于提升目标检测模型的调参训练性能。

因此，本申请在设置对比式自监督学习的对比学习模型时，对比学习模型设置了用于进行目标在特征级别的表征的特征图像表征算法，且与目标检测模型所采用的特征图像表征算法为同一算法。同时，对比学习模型设置了用于进行目标在向量级别的表征的特征向量表征算法，且与目标检测模型所采用的特征向量表征算法为同一算法。

也就是说，对比学习模型中设置的特征图像表征算法和特征向量表征算法会被复用至目标检测模型，从而有效地提高目标检测模型的调参训练性能。

对比学习模型通常会采用查询网络和答案网络的结构，即query network和key network的结构，例如图3中便是采用了这样的结构，且图3中的n＝2，因此答案网络key network的数量为1，当n选取为更多的数值时，key network的数量便会相应增多。

对比学习模型所采用的卷积神经网络的具体类型可以有多种，例如图3的实施方式中可以采用FPN结构的卷积神经网络。

特征图像表征算法用于进行目标在特征级别的表征，特征向量表征算法用于进行目标在向量级别的表征，特征图像表征算法以及特征向量表征算法的具体类型可以根据需要进行选取，例如考虑到ROI Align以及R-CNN head是目标检测模型中的常用组件，因此，在本申请的一些实施例中，目标检测模型与对比学习模型所采用的特征图像表征算法均为ROI Align算法，其中，对比学习模型通过ROI Align算法对输入图像中的目标进行特征级别的表征；

对输入图像中的目标进行特征级别的表征，可以表示为：
v_q＝RoI Align(f_q(I_q)，bb_q)；
v_ki＝RoI Align(f_k(I_ki)，bb_ki)。

其中，函数f_q和函数f_k分别指代query network和key network。query network和key network是对比式自监督学习的两个学习支路，二者模型结构完全相同，具体参数不同，一般可以为编码器结构。

I_q表示的是输入至query network的边框图像，可以理解的是，此处描述的边框图像的边框应当是步骤S203中对粘贴图像的边框进行移动之后的边框，bb_q则表示的是该边框图像在背景图像中的位置，图3的例子中便是边框图像在街景图像中的位置，例如可以由左上和右下两个坐标点来进行位置体现。

相应的，I_ki表示的是输入至key network的边框图像，其中的i表示的是n-1个key network中的第i个key network，当然，图3的例子中n＝2，则只有1个key network。bb_ki则表示的是该边框图像在背景图像中的位置，图3的例子中便是边框图像在体育场图像中的位置。

ROI Align的功能是将目标在原图的位置与不同特征图的位置进行对应。上式中的v_q表示的是对应于query network的ROI Align的输出，v_ki表示的是对应于n-1个key network中的第i个key network的ROI Align的输出，ROI Align的输出可以在二维层面上反映出上述的边框图像在不同特征图中的信息。

而对输入图像中的目标进行向量级别的表征，可以表示为：
e_q＝f_R-H(v_q)
e_ki＝f_R-H(v_ki)

其中的f_R-H指代R-CNN head算法，R-CNN head算法的功能是让模型经过分析后，输出可能含有目标的边界框。上式中的e_q表示的是对应于query network的R-CNN head算法的输出，e_ki表示的是对应于n-1个key network中的第i个key network的R-CNN head算法的输出，R-CNN head算法的输出可以在向量层面上反映出上述的边框图像的特征信息。

该种实施方式考虑到，目标检测模型中通常会采用卷积神经网络的结构，因此，为了进一步地提高组件的复用率，该种实施方式中，设置对比学习模型采用卷积神经网络，且结构与目标检测模型相同，也就有利于进一步地提高训练出的目标检测模型的性能。

进一步的，在本申请的一些实施例中，目标检测模型与对比学习模型均采用具有多层输出的卷积神经网络，且对比学习模型的对比损失函数为基于卷积神经网络的多层输出所计算的对比损失函数。

该种实施方式考虑到，传统的对比学习通常是仅利用query network和key network的输出计算对比损失，而卷积神经网络的中间层也具有信息，且目标检测模型中通常也可以采用具有多层输出的卷积神经网络，因此，该种实施方式中，设置对比学习模型采用具有多层输出的卷积神经网络，使得对比学习模型可以进行层次化的对比学习，提高学习效果，即对比学习模型的对比损失函数为基于卷积神经网络的多层输出所计算的对比损失函数。当然，为了提高组件的复用率，目标检测模型也需要采用该卷积神经网络。

具有多层输出的卷积神经网络的具体结构有多种，例如考虑到FPN是目标检测模型中的常用组件，因此，在本申请的一些实施例中，目标检测模型与对比学习模型均采用FPN结构的卷积神经网络。

本申请的图3中，对比学习模型采用的便是FPN结构的卷积神经网络，例如可以具体选取其多层输出中的P2，P3，P4，P5进行对比损失函数的计算。P2，P3，P4以及P5中的单个层次的对比学习损失函数计算式可以表示为：

其中的L_q-ki即表示单个层次的对比学习损失函数，式子中的N表示的是单个训练批次的图像数量，例如上文例子中单个训练批次的图像数量为50。对于P2，P3，P4，P5中的不同层次，R-CNN head算法输出的e_q和e_ki的取值不同。式中的v_ei为正样本的向量表征，一张图像的2个增强样本相互之间称为正样本。τ为超参数。

对比学习模型可以进行层次化的对比学习时，对比损失函数为基于卷积神经网络的多层输出所计算的对比损失函数，即，将各层次的对比学习损失函数求和，作为最终得到的对比损失函数。即最终的损失函数可以表示为L＝∑L_q-ki。此外可以理解的是，n＝2时，最终的损失函数是将4个层次的对比学习损失函数求和。例如n＝3时，最终的损失函数则是将8个层次的对比学习损失函数求和，即各个key network可以分别与query network进行对比学习。

步骤S205：将目标检测数据集中的图像依次作为训练图像输入至目标检测模型中进行训练，得到训练完成的目标检测模型。

利用预训练数据集的图像，可以进行预训练，即通过对比学习的方式训练对比学习模型，当对比学习模型训练完毕时，便可以开始训练目标检测模型。

并且如前文的描述，为了使得目标检测模型有良好的性能，目标检测模型应当与对比学习模型进行组件的复用，且可以让复用率尽量地高，例如前文的实施方式中，对比学习模型设置了FPN结构的卷积神经网络，且采用了ROI Align以及R-CNN head，则本申请选择的目标检测模型，也可以采用FPN结构的卷积神经网络，且采用ROI Align以及R-CNN head作为目标检测模型的组件。

将目标检测数据集中的图像依次作为训练图像输入至目标检测模型中进行训练，当目标检测模型的识别率达到要求时，说明训练完成，可以得到训练完成的目标检测模型。

本申请的目标检测模型可以进行图像识别，具体的识别对象可以有多种，例如一种场合中，本申请的目标检测模型应用在高速公路场景中，对采集到的图片进行车辆，障碍物，路标，人等目标的识别检测。

步骤S206：将待测图像输入至训练完成的目标检测模型，得到由目标检测模型输出的针对待测图像的目标检测结果。

得到训练完成的目标检测模型之后，便可以将待测图像输入至训练完成的目标检测模型，从而得到由目标检测模型输出的针对待测图像的目标检测结果。例如将待测图像输入至训练完成的目标检测模型之后，目标检测模型确定出该待测图片中的各个“人”的位置，并标记为人，确定出待测图片中的各个“车”的位置，并标记为车。

进一步的，在本申请的一些实施例中，在步骤S204之后，还可以包括：

该种实施方式中考虑到，除了目标检测之外，语义分割模型也是常用的下游模型，且语义分割模型在训练时，也需要输入目标的位置和标签，即语义分割模型对于目标的位置也较为关注，因此，采用了本申请的方案进行了上游的预训练之后，可以将目标检测数据集中的图像依次作为训练图像输入至语义分割模型中，完成对于语义分割模型的训练。此外可以理解的是，语义分割模型中的相关组件，也应当尽量与对比学习模型的相关组件相同，即尽量提高组件的复用率，以提高训练出的语义分割模型的性能。

应用本申请实施例所提供的技术方案，考虑到在对比式自监督学习的预训练阶段，可以与下游的目标检测任务实现更多的对齐，从而提高下游的目标检测性能。而本申请的方案中，一方面是在预训练阶段引入更多的目标检测组件，这样预训练完成后，这些目标检测的组件能够复用到目标检测模型的调参训练中，能够为目标检测模型的调参训练提供更合适的初始权重，也就有助于提升目标检测模型的调参训练性能。在本申请的一些实施例中，在本申请的方案中，对比学习模型设置了用于进行目标在特征级别的表征的特征图像表征算法，且与目标检测模型所采用的特征图像表征算法为同一算法，同时，对比学习模型设置了用于进行目标在向量级别的表征的特征向量表征算法，且与目标检测模型所采用的特征向量表征算法为同一算法，也就是说，对比学习模型中设置的特征图像表征算法和特征向量表征算法会被复用至目标检测模型，从而有效地提高目标检测模型的调参训练性能。

另一方面，本申请考虑到可以在预训练阶段，提升目标检测模型所需要的对于位置建模的能力，在本申请的一些实施例中，本申请是从背景不变性入手，背景不变性指的是目标在不同的背景图像上，模型均能够较为准确地识别出目标。当模型具备背景不变性时，说明模型学习到了“目标”这一概念，具备了对目标进行定位的能力。

相应于上面的方法实施例，本申请实施例还提供了一种图像的目标检测系统，可与上文相互对应参照。

参见图4所示，为本申请中一种图像的目标检测系统的结构示意图，包括：

预训练数据集确定模块401，用于确定出预训练数据集，并将预训练数据集中的图像依次作为预训练图像；

搜索框选择模块402，用于选取出任意1张预训练图像之后，从预训练图像中确定出搜索框；

裁剪粘贴扰动模块403，用于将搜索框中的图像裁剪，并按照预设规则粘贴至n张不同的背景图像上，且粘贴之后对粘贴图像的边框进行移动；其中，n为不小于2的正整数，任意1张背景图像均来源于目标检测数据集；

对比学习模型训练模块404，用于将进行了边框移动的各张图像输入至对比学习模型中，通过对比学习的方式训练对比学习模型；

目标检测模型训练模块405，用于将目标检测数据集中的图像依次作为训练图像输入至目标检测模型中进行训练，得到训练完成的目标检测模型；

目标检测结果确定模块406，用于将待测图像输入至训练完成的目标检测模型，得到由目标检测模型输出的针对待测图像的目标检测结果；

在本申请的一些实施例中，搜索框选择模块402具体用于：

选取出任意1张预训练图像之后，在预训练图像上自动生成多个矩形框，并从各个矩形框中随机选取1个作为确定出的搜索框。

在本申请的一些实施例中，搜索框选择模块402在预训练图像上自动生成多个矩形框，包括：

通过随机搜索算法在预训练图像上自动生成多个矩形框。

在本申请的一些实施例中，搜索框选择模块402还用于：

在预训练图像上自动生成多个矩形框之后，将长宽比超出预设范围的各个矩形框进行过滤；

在本申请的一些实施例中，裁剪粘贴扰动模块403将搜索框中的图像裁剪，并按照预设规则粘贴至n张不同的背景图像上，具体用于：

将n张调整之后的图像分别粘贴至n张不同的背景图像上。

在本申请的一些实施例中，裁剪粘贴扰动模块403将裁剪出的图像分别进行n次随机调整，具体用于：

在本申请的一些实施例中，还包括：

语义分割模型训练模块，用于将目标检测数据集中的图像依次作为训练图像输入至语义分割模型中进行训练，得到训练完成的语义分割模型；

语义分割结果确定模块，用于将待测图像输入至训练完成的语义分割模型，得到由语义分割模型输出的针对待测图像的语义分割结果。

相应于上面的方法和系统实施例，本申请实施例还提供了一种图像的目标检测设备以及一种非易失性计算机可读存储介质，可与上文相互对应参照。非易失性计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述任一实施例中的图像的目标检测方法的步骤。这里所说的非易失性计算机可读存储介质包括随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

可参阅图5，该图像的目标检测设备可以包括：

存储器501，用于存储计算机程序；

处理器501，用于执行计算机程序以实现如上述任一实施例中的图像的目标检测方法的步骤。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的技术方案及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请的保护范围内。

Claims

一种图像的目标检测方法，其特征在于，包括：

确定出预训练数据集，并将所述预训练数据集中的图像依次作为预训练图像；

选取出任意1张预训练图像之后，从所述预训练图像中确定出搜索框；

将所述搜索框中的图像裁剪，并按照预设规则粘贴至n张不同的背景图像上，且粘贴之后对粘贴图像的边框进行移动；其中，n为不小于2的正整数，任意1张所述背景图像均来源于目标检测数据集；

将进行了边框移动的各张图像输入至对比学习模型中，通过对比学习的方式训练所述对比学习模型；

将所述目标检测数据集中的图像依次作为训练图像输入至目标检测模型中进行训练，得到训练完成的所述目标检测模型；

将待测图像输入至训练完成的所述目标检测模型，得到由所述目标检测模型输出的针对所述待测图像的目标检测结果；

其中，所述对比学习模型设置了用于进行目标在特征级别的表征的特征图像表征算法，且与所述目标检测模型所采用的特征图像表征算法为同一算法；所述对比学习模型设置了用于进行目标在向量级别的表征的特征向量表征算法，且与所述目标检测模型所采用的特征向量表征算法为同一算法。
根据权利要求1所述的图像的目标检测方法，其特征在于，所述从所述预训练图像中确定出搜索框，包括：

在所述预训练图像上自动生成多个矩形框，并从各个矩形框中随机选取1个作为确定出的搜索框。
根据权利要求2所述的图像的目标检测方法，其特征在于，所述在所述预训练图像上自动生成多个矩形框，包括：

通过随机搜索算法在所述预训练图像上自动生成多个矩形框。
根据权利要求2所述的图像的目标检测方法，其特征在于，在所述预训练图像上自动生成多个矩形框之后，还包括：

将长宽比超出预设范围的各个矩形框进行过滤；

相应的，所述从各个矩形框中随机选取1个作为确定出的搜索框，包括：

从经过过滤之后剩余的各个矩形框中随机选取1个作为确定出的搜索框。
根据权利要求1所述的图像的目标检测方法，其特征在于，所述将所述搜索框中的图像裁剪，并按照预设规则粘贴至n张不同的背景图像上，包括：

将所述搜索框中的图像裁剪，并将裁剪出的图像分别进行n次随机调整，得到n张调整之后的图像；

将n张调整之后的图像分别粘贴至n张不同的背景图像上。
根据权利要求5所述的图像的目标检测方法，其特征在于，所述将裁剪出的图像分别进行n次随机调整，包括：

将裁剪出的图像分别进行n次随机调整，并且，在将裁剪出的图像进行任意1次调整时，通过调整长度和/或宽度的方式进行图像尺寸的调整。
根据权利要求1所述的图像的目标检测方法，其特征在于，所述粘贴之后对粘贴图像的边框进行移动，包括：

粘贴之后，通过边框位置扰动的方式，对粘贴图像的边框进行移动，且移动之后的边框与移动之前的边框的面积交并比大于预设的面积交并比阈值。
根据权利要求1所述的图像的目标检测方法，其特征在于，所述目标检测模型与所述对比学习模型所采用的特征图像表征算法均为ROI Align算法，其中，所述对比学习模型通过所述ROI Align算法对输入图像中的目标进行特征级别的表征；

所述目标检测模型与所述对比学习模型所采用的特征向量表征算法均为R-CNN head算法，其中，所述对比学习模型通过所述R-CNN head算法对输入图像中的目标进行向量级别的表征。
根据权利要求1所述的图像的目标检测方法，其特征在于，所述目标检测模型与所述对比学习模型均采用相同结构的卷积神经网络。
根据权利要求9所述的图像的目标检测方法，其特征在于，所述目标检测模型与所述对比学习模型均采用具有多层输出的卷积神经网络，且所述对比学习模型的对比损失函数为基于所述卷积神经网络的多层输出所计算的对比损失函数。
根据权利要求9所述的图像的目标检测方法，其特征在于，所述目标检测模型与所述对比学习模型均采用FPN结构的卷积神经网络。
根据权利要求1至11任一项所述的图像的目标检测方法，其特征在于，在通过对比学习的方式训练所述对比学习模型之后，还包括：

将所述目标检测数据集中的图像依次作为训练图像输入至语义分割模型中进行训练，得到训练完成的所述语义分割模型；

将待测图像输入至训练完成的所述语义分割模型，得到由所述语义分割模型输出的针对所述待测图像的语义分割结果。
根据权利要求2所述的图像的目标检测方法，其特征在于，所述从在所述预训练图像上自动生成多个矩形框，包括：

在多个指定位置自动生成矩形框。
根据权利要求5所述的图像的目标检测方法，其特征在于，所述调整的方式包括如下的一项或多项：

图像旋转、分辨率的调整、长度调整、宽度调整。
根据权利要求5所述的图像的目标检测方法，其特征在于，所述调整的策略表示为：

(w，h)＝λ₃*(λ₁*w₁，λ₂*h₁)；

其中，w表示的是新分辨率中的长，h表示的是新分辨率中的宽，w₁表示的是原始分辨率中的长，h₁表示的是原始分辨率中的宽，λ₁与λ₂是为长度和宽度分别设置的变化系数，λ₃则是整体变化系数。
根据权利要求8所述的图像的目标检测方法，其特征在于，所述对比学习模型采用query network和key network的结构。
根据权利要求16所述的图像的目标检测方法，其特征在于，所述对输入图像中的目标进行特征级别的表征表示为：

v_q＝RoI Align(f_q(I_q)，bb_q)；

v_ki＝RoI Align(f_k(I_ki)，bb_ki)；

其中，函数f_q和函数f_k分别指代query network和key network。
一种图像的目标检测系统，其特征在于，包括：

预训练数据集确定模块，用于确定出预训练数据集，并将所述预训练数据集中的图像依次作为预训练图像；

搜索框选择模块，用于选取出任意1张预训练图像之后，从所述预训练图像中确定出搜索框；

裁剪粘贴扰动模块，用于将所述搜索框中的图像裁剪，并按照预设规则粘贴至n张不同的背景图像上，且粘贴之后对粘贴图像的边框进行移动；其中，n为不小于2的正整数，任意1张所述背景图像均来源于目标检测数据集；

对比学习模型训练模块，用于将进行了边框移动的各张图像输入至对比学习模型中，通过对比学习的方式训练所述对比学习模型；

目标检测模型训练模块，用于将所述目标检测数据集中的图像依次作为训练图像输入至目标检测模型中进行训练，得到训练完成的所述目标检测模型；

目标检测结果确定模块，用于将待测图像输入至训练完成的所述目标检测模型，得到由所述目标检测模型输出的针对所述待测图像的目标检测结果；

其中，所述对比学习模型设置了用于进行目标在特征级别的表征的特征图像表征算法，且与所述目标检测模型所采用的特征图像表征算法为同一算法；所述对比学习模型设置了用于进行目标在向量级别的表征的特征向量表征算法，且与所述目标检测模型所采用的特征向量表征算法为同一算法。
一种图像的目标检测设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如权利要求1至17任一项所述的图像的目标检测方法的步骤。
一种非易失性计算机可读存储介质，其特征在于，所述非易失性计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至17任一项所述的图像的目标检测方法的步骤。