WO2023000764A1

WO2023000764A1 - 目标检索方法、装置、设备及存储介质

Info

Publication number: WO2023000764A1
Application number: PCT/CN2022/091495
Authority: WO
Inventors: 邱熙
Original assignee: 北京迈格威科技有限公司
Priority date: 2021-07-23
Filing date: 2022-05-07
Publication date: 2023-01-26
Also published as: CN113743455A

Abstract

本申请提供了一种目标检索方法、装置、电子设备及存储介质，该方法包括：通过待检索目标对应的检测模型对待检索图像进行目标检测，得到置信度大于或等于置信度阈值的至少一个检测框，置信度阈值低于常规的检测网络用的阈值，待检索目标对应的检测模型是基于待检索目标的模板图像进行参数更新后的模型；通过后处理模型对至少一个检测框进行过滤，得到对应于待检索目标的检测框。本申请由于检测模型是基于待检索目标的模板图像进行参数更新得到的模型，可以使用少量的模板图像对预训练的检测模型进行更新，而且置信度阈值较低，可以保证召回足够的检测框，并通过后处理模型进行过滤后，得到对应于待检索目标的检测框，实现了对小样本目标的检索。

Description

目标检索方法、装置、设备及存储介质

本申请要求在2021年7月23日提交中国专利局、申请号为202110837127.9、发明名称为“目标检索方法、装置、电子设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及图像处理技术领域，特别是涉及一种目标检索方法、装置、设备及存储介质。

背景技术

图像目标检索技术的核心任务是找出图像中所感兴趣的目标，是计算机视觉领域的重要研究课题之一。近年来，在深度学习技术和卷积神经网络的发展推动下，目标检索技术已经取得了长足的发展。给定一幅图像，图像目标检索的目标就是要从图像库中检索出那些包含有目标的图片，在经过相似性度量排序后这些包含有目标的图片尽可能的排在检索结果的前面。相似物体检索在英文文献中一般称为物体检索(Object Retrieval)，近似样本搜索或检测(Duplicate Search or Detection)也可以归类于相同物体的检索，并且相同物体检索方法可以直接应用到近似样本搜索或检测上。相同物体检索不论是在研究还是在商业图像搜索产业中都具有重大的价值，比如购物应用中搜索衣服鞋子、人脸检索等。

目前的图像目标检索方案都是基于大量的数据训练对应的深度学习模型，这些模型会从大量的数据中学到这些类别的特征表示，比如人脸特征，人体特征，然后在测试阶段会抽取不同图片的特征进行相似度度量来判断两张图片的相似性。在人脸，人体等任务上应用效果很好落地也很广泛，除此之外也有汽车、衣服、鞋子等其他目标的检索模型也有很多应用。

现有的图像目标检索技术对训练数据的依赖很强，像百万数据级别的人脸、人体任务能实现业务落地的精度，几万几千数据级别的帽子鞋子也能在一些特殊的场景下有效。但是，在现实生活中像衣服帽子等视觉显著的目标有千千万，还有很多目标是缺少训练数据的，并且还有很多新出现的物体比如某品牌的潮流衣服、新的饮料等等，这些目标都无法采集足够的数据来支持训练；即使好不容易收集到了足够的训练数据，但是训练过程是漫长的，短则几天长则几个月。可见，对于小样本的目标检索而言需要消耗较长的训练时间，而且在无法收集到足够的训练数据时则无法完成目标检索。

发明内容

鉴于上述问题，提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种目标检索方法、装置、设备及存储介质。

依据本申请实施例的第一方面，提供了一种目标检索方法，包括：

通过待检索目标对应的检测模型对待检索图像进行目标检测，得到置信度大于或等于置信度阈值的至少一个检测框，其中，所述置信度阈值低于常规的检测网络用的阈值，所述待检索目标对应的检测模型是基于待检索目标的模板图像对预训练的检测模型进行参数更新后的模型；

通过后处理模型对所述至少一个检测框进行过滤，得到对应于所述待检索目标的检测框。

依据本申请实施例的第二方面，提供了一种目标检索装置，包括：

目标检测模块，用于通过待检索目标对应的检测模型对待检索图像进行目标检测，得到置信度大于或等于置信度阈值的至少一个检测框，其中，所述置信度阈值低于常规的检测网络用的阈值，所述待检索目标对应的检测模型是基于待检索目标的模板图像对预训练的检测模型进行参数更新后的模型；

检测框过滤模块，用于通过后处理模型对所述至少一个检测框进行过滤，得到对应于所述待检索目标的检测框。

依据本申请实施例的第三方面，提供了一种计算处理设备，包括：

存储器，其中存储有计算机可读代码；

一个或多个处理器，当所述计算机可读代码被所述一个或多个处理器执行时，所述计算处理设备执行如第一方面所述的目标检索方法。

依据本申请实施例的第四方面，提供了一种计算机程序，包括计算机可读代码，当所述计算机可读代码在计算处理设备上运行时，导致所述计算处理设备执行根据第一方面所述的目标检索方法。

依据本申请实施例的第五方面，提供了一种计算机可读存储介质，其中存储了如第四方面所述的计算机程序。

本申请实施例提供的目标检索方法、装置、设备及存储介质，通过待检索目标对应的检测模型对待检索图像进行目标检测，得到置信度大于或等于置信度阈值的至少一个检测框，通过后处理模型对至少一个检测框进行过滤，得到对应于待检索目标的检测框，由于待检索目标对应的检测模型是基于待检索目标的模板图像对预训练的检测模型进行参数更新得到的模型，可以使用少量的模板图像对预训练的检测模型进行更新，而且置信度阈值较低，可以保证召回足够的检测框，并通过后处理模型进行过滤后，得到对应于待检索目标的检测框，实现了对小样本目标的检索。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。

图1是本申请实施例提供的一种目标检索方法的步骤流程图；

图2是本申请实施例中的检测模型和后处理模型组成的目标检索系统的示意图；

图3是本申请实施例提供的一种目标检索装置的结构框图；

图4示意性地示出了用于执行根据本申请的方法的计算处理设备的框图；以及

图5示意性地示出了用于保持或者携带实现根据本申请的方法的程序代码的存储单元。

具体实施例

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

图1是本申请实施例提供的一种目标检索方法的步骤流程图，如图1所示，该方法可以包括：

步骤101，通过待检索目标对应的检测模型对待检索图像进行目标检测，得到置信度大于或等于置信度阈值的至少一个检测框，其中，所述置信度阈值低于常规的检测网络用的阈值，所述待检索目标对应的检测模型是基于待检索目标的模板图像对预训练的检测模型进行参数更新后的模型。

待检索目标的类型是与预训练检测模型时使用的数据集有关的，预训练的检测模型在进行预训练时使用的数据集是包括待检索目标的，同时还可以包括其他目标。也就是说，如果预训练的检测模型是通用目标检测模型，待检索目标可以是具有显著特征的人或物体，比如张三、书包、帽子、红色帽子等等，如果检测模型是特定类型目标的检测模型，待检索目标只能是某个类型的目标。例如，如果预训练检测模型时使用的数据集是A类型的数据集，待检索目标与A类型较为接近时会更准确，比如A类型是车辆，待检索目标是人体，基于包含人体的模板图像对预训练的检测模型进行参数更新后，对人体进行检索时，检索结果可能不太准确；如果A类型是车辆(包括a、b、c、d、e等品牌)，待检索目标为车辆，品牌为w(预训练时用的数据集中不包括的品牌)，基于包含品牌w车辆的模板图像对预训练的检测模型进行参数更新后，对品牌w车辆进行检索时，由于品牌w车辆为车辆的类型，与预训练数据集的类型相同，这时检索结果会更加准确。

待检索目标的模板图像是包括待检索目标的图像，对预训练的检测模型进行参数更新时使用的待检索目标的模板图像数量可以为5-10张。

模板图像的作用：一方面让检测模型“认识”待检索目标，针对待检索目标进行优化，一方面让后处理模型把待检索目标的特征提取出来并保存起来。后面才能够用待检索目标对应的检测模型从待检索图像中检测出待检索目标并用后处理模型识别出目标。

待检索目标的模板图像常常由用户提供，算法厂商直接将预训练的检测模型提供给用户，用户使用待检索目标的模板图像对预训练的检测模型进行参数更新，得到待检索目标对应的检测模型，从而算法厂商不接触敏感数据，提高了对客户数据的保护。

待检索目标对应的检测模型对待检索图像进行目标检测，会得到多个检测框，每个检测框都对应有其在待检索图像中的位置和置信度(表明它认为框内物体是待检索目标的概率)，待检索目标对应的检测模型给出的检测框表明它认为检测框框起来的局部图可能是待检索目标。

通过基于待检索目标的模板图像对预训练的检测模型进行参数更新，得到待检索目标对应的检测模型，在使用待检索目标对应的检测模型进行目标检测时，将置信度阈值设置的低于常规的检测网络用的阈值，使得待检索目标对应的检测模型可以召回较多的检测框，保证较高的召回率，由于置信度阈值较低，所以召回的至少一个检测框中有的包含待检索目标，有的可能不包含待检索目标，可以通过后处理模型对召回的至少一个检测框进行过滤，以获得较为准确的对应于待检索目标的检测框。

所述置信度阈值一般要比常规的检测网络用的阈值低10％～20％，所述置信度阈值例如可以设置为0.4～0.6之间的值，常规的检测网络用的阈值一般为0.5～0.8。

步骤102，通过后处理模型对所述至少一个检测框进行过滤，得到对应于所述待检索目标的检测框。

由于通过待检索目标对应的检测模型对待检索图像进行目标检测得到的检测框中可能有检测框存在误报的情况(检测框框起来的局部图并不是待检索目标)，即有的检测框是存在待检索目标的，而有的检测框可能不存在待检索目标，所以需要通过后处理模型来对至少一个检测框进行过滤，以将不存在待检索目标的检测框过滤掉，保留存在待检索目标的检测框，即得到对应于待检索目标的检测框。

如果待检索图像中实质上不包括待检索目标，通过待检索目标对应的检测模型进行检测后，可能会得到至少一个检测框，也可能不会得到检测框，但是通过后处理模型进行过滤后，理论上应该没有检测框保留下来。

本实施例提供的目标检索方法，通过待检索目标对应的检测模型对待检索图像进行目标检测，得到置信度大于或等于置信度阈值的至少一个检测框，通过后处理模型对至少一个检测框进行过滤，得到对应于待检索目标的检测框，由于待检索目标对应的检测模型是基于待检索目标的模板图像对预训练的检测模型进行参数更新得到的模型，可以使用少量的模板图像对预训练的检测模型进行更新，而且置信度阈值较低，可以保证召回足够的检测框，并通过后处理模型进行过滤后，得到对应于待检索目标的检测框，实现了对小样本目标的检索。

在本申请的一个实施例中，通过后处理模型对至少一个检测框进行过滤，得到对应于待检索目标的检测框，包括：

通过后处理模型分别对所述至少一个检测框进行特征提取，得到每个检测框对应的特征向量，作为待检索特征向量；

分别将所述至少一个检测框对应的待检索特征向量与模板特征向量进行匹配，根据匹配结果对所述至少一个检测框进行过滤，得到对应于所述待检索目标的检测框，所述模板特征向量是通过所述后处理模型对所述待检索目标的模板图像中待检索目标所在区域进行特征提取得到的。

其中，所述后处理模型是通用的提取图像特征的模型，不需要依据待检索目标的模板图像进行网络参数更新，对于任何的待检索目标均可以提取特征。网络参数更新是指针对待检索目标对预训练的模型进行网络参数的更新，使其与待检索目标更加匹配，提高处理效果。

待检索目标的模板图像一方面用于更新检测模型，一方面用于生成模板特征向量。通过后处理模型对待检索目标的模板图像进行特征提取，得到模板特征向量。在通过待检索目标对应的检测模型得到至少一个检测框后，通过后处理模型分别对每个检测框对应的待检索图像中的局部图进行特征提取，或者通过后处理模型分别对每个检测框对应的特征图进行特征提取，得到每个检测框对应的特征向量，即得到每个检测框对应的待检索特征向量。其中，检测框对应的特征图是待检索图像的特征图中检测框框起来的局部特征图，待检索图像的特征图可以是检测模型对待检索图像进行目标检测的过程中提取得到的。

分别将每个检测框对应的待检索特征向量与模板特征向量进行匹配，可以将待检索特征向量与模板特征向量的相似度作为匹配结果，从而根据匹配结果对至少一个检测框进行过滤，如可以筛选相似度大于或等于相似度阈值的检测框，作为待检索目标的检测框，通过基于模板特征向量对应的目标可以确定最终的检测框对应的具体待检索目标，例如，待检索目标对应的检测模型可以检测5个目标：A、B、C、D、E，一个待检索图像中包括其中一个目标，经过待检索目标对应的检测模型进行检测后输出2个检测框，将这2个检测框框起来的局部图分别通过后处理模型提取待检索特征向量，并与模板特征向量进行匹配后，其中一个检测框与目标B的相似度大于相似度阈值，则可以确定该检测框框起来的局部图中的待检索目标为目标B。其中，待检索特征向量与模板特征向量匹配的过程，可以是计算待检索特征向量与模板特征向量的距离，并基于距离确定待检索特征向量与模板特征向量的相似度；或者，也可以直接计算待检索特征向量与模板特征向量的相似度。

上述分别将至少一个检测框对应的待检索特征向量与模板特征向量进行匹配和/或根据匹配结果对至少一个检测框进行过滤的操作可以由后处理模型直接执行，也可以不由后处理模型执行，而是获取后处理模型输出的待检索特征向量以实现对检测框的过滤。

根据模板特征向量对至少一个检测框过滤，可以得到较为准确的对应于待检索目标的检测框，提高目标检索的准确性。

在本申请的一个实施例中，通过后处理模型分别对所述至少一个检测框进行特征提取，得到每个检测框对应的特征向量，作为待检索特征向量，包括：

通过后处理模型中的第一主干网络分别对所述至少一个检测框进行特征提取，得到每个检测框对应的特征图；

通过后处理模型中的度量学习模块的第一分支对每个检测框对应的特征图进行全局特征提取，得到检测框对应的全局特征向量；通过后处理模型中的度量学习模块的第二分支对每个检测框对应的特征图进行局部特征提取，得到检测框对应的局部特征向量；所述第一分支和第二分支为参数不同的孪生网络；

根据每个检测框对应的全局特征向量和局部特征向量，确定每个检测框对应的待检索特征向量。

其中，所述后处理模型包括第一主干网络和度量学习模块，第一主干网络为特征提取器(Feature Extractor)，其输入可以为待检索图像中检测框框起来的局部图，即RGB图像，也可以是检测框对应的特征图，输出为对应的深度特征,通常被配置为常见的卷积神经网络，用于提取高维特征，度量学习(metric learning)模块主要用于学习一个更有判别性的特征，从而可以实现在给定待检索目标的模板图像时，能够通过提取特征实现对检测框的过滤，即基于提取到的特征与模板特征向量的相似度实现对检测框的分类，以得到待检索目标的检测框。对检测框进行分类是基于模板特征向量进行分类的，例如，有5个模板特征向量，通过对待检索图像进行目标检测，得到4个检测框，对于每个检测框，会得到分别与5个模板特征向量对应的相似度，即得到5个相似度，根据这5个相似度可以确定检测框的类别，即可以确定检测框属于5个模板特征向量所对应的目标类别之一，还是5个目标类别均不属于，如果一个相似度大于相似度阈值，则确定该检测框的类别为该相似度所对应的模板特征向量所属的目标类别。

在通过待检索目标对应的检测模型得到待检索图像中的至少一个检测框后，将每个检测框分别输入后处理模型，后处理模型中的第一主干网络首先对输入的检测框进行特征提取，得到检测框对应的特征图，第一主干网络输出的特征图输入度量学习模块，度量学习模块包括第一分支和第二分支，第一分支和第二分支为参数不同的孪生网络，分别对特征图进行处理，第一分支提取所述特征图的全局特征，得到检测框对应的全局特征向量，第二分支提取所述特征图的局部特征，得到检测框对应的局部特征向量，综合检测框对应的全局特征向量和局部特征向量，得到每个检测框对应的待检索特征向量。通过第一主干网络和度量学习模块，可以提取到足够区分不同检索目标的特征向量，提高目标检索的准确性，而且通过度量学习模块中的第一分支和第二分支能够提取不同视角的特征，可以实现比一般网络更好的精度，提高检测框过滤的准确性。

后处理模型也是预训练的。在对后处理模型进行训练时，可以结合分类学习和样本对学习两种模式进行学习，即在训练的过程中，目标损失函数包括分类损失和样本对损失(如Triplet损失)，这样可以进一步提高对待检索图像进行处理时的效果。其中，样本对学习是指将相同类型的待检索目标样本以及不同类型的待检索目标样本分别组成样本对。

后处理模型预训练完成后，可以使用后处理模型对待检索目标的模板图像进行特征提取并保存模板特征向量，这个过程可以快速完成，大概需要3秒的时间即可完成。当然，后处理模板预训练完成后，也可以基于待检索目标对后处理模型进行参数更新，但是经过实践表明，后处理模型不更新的处理效果逼近更新的精度，而且不更新时只需要提取模板图像的特征进行保存即可，速度比更新会更快。

在上述技术方案的基础上，在所述通过待检索目标对应的检测模型对待检索图像进行目标检测之前，还包括：

获取待检索目标的模板图像和/或所述模板图像对应的标注信息；

根据所述待检索目标的模板图像和/或所述模板图像对应的标注信息，对预训练的检测模型的在线更新网络进行参数更新，得到所述待检索目标对应的检测模型；所述预训练的检测模型包括第二主干网络和至少一个在线更新网络。

第二主干网络即特征提取器，其输入为RGB图像，输出为对应的深度特征，通常被配置为常见的卷积神经网络，用于提取高维特征。

至少一个在线更新网络中的每个在线更新网络分别与第二主干网络直接或间接连接，如果在线更新网络有多个，每个都和第二主干网络连接。

其中，所述待检索目标的模板图像可以是仅包括待检索目标所在区域的局部图，也可以是既包含待检索目标所在区域又包含其他区域的全景图。

检测模型中包括的各在线更新网络可以使用不同的待检索目标的模板图像进行在线更新，使得不同在线更新网络可以用于检测不同的待检索目标。同时，每个在线更新网络可以检测一定数量个(例如3-5个)不同的待检索目标。

在通过待检索目标对应的检测模型对待检索图像进行目标检测之前，需要对预训练的检测模型进行参数更新，以得到待检索目标对应的检测模型，使得该检测模型能够准确从待检索图像中检测出待检索目标。在对预训练的检测模型进行参数更新时，首先获取待检索目标的模板图像和/或模板图像对应的标注信息，将待检索目标的模板图像输入预训练的检测模型，通过检测模型进行处理后，得到模板图像中的至少一个检测框，基于得到的至少一个检测框，以及模板图像和/或模板图像对应的标注信息，对预训练的检测模型中的在线更新网络进行参数更新，得到待检索目标对应的检测模型。

在待检索目标的模板图像是仅包括待检索目标所在区域的局部图时，这时无需获取模板图像对应的标注信息。所述待检索目标的模板图像是既包含待检索目标所在区域又包含其他区域的全景图时，获取待检索目标的模板图像时，需要同时获取模板图像对应的标注信息，标注信息用于指示模板图像中待检索目标的位置。

通过使用待检索目标的模板图像对预训练的检测模型中的在线更新网络进行参数更新，对于每个待检索目标，可以使用待检索目标的少量(通常5-10个)的模板图像来对预训练的检测模型进行参数更新，更新后的模型更加适应待检索目标，而且只需要对在线更新网络进行参数更新，能够快速的完成检测模型的参数更新，更新过程所需的时间大概在1分钟之内。

在上述技术方案的基础上，根据所述待检索目标的模板图像和/或所述模板图像对应的标注信息，对预训练的检测模型的在线更新网络进行参数更新，得到所述待检索目标对应的检测模型，包括：

预测检测框确定步骤：通过预训练的检测模型中的第二主干网络和在线更新网络，确定模板图像对应的预测检测框；

网络更新步骤：根据所述预测检测框和模板图像对应的标注信息，确定损失值；根据所述损失值，对在线更新网络的网络参数进行更新，得到更新后的预训练的检测模型；

重复执行所述预测检测框确定步骤和所述网络更新步骤，直到损失值小于损失值阈值或重复执行次数达到重复执行次数阈值；

将更新后的预训练的检测模型作为待检索目标对应的检测模型。

其中，所述在线更新网络为所述待检索目标对应的检测模型的最后P层，P小于或等于5，例如，P可以为3等。

预测检测框确定步骤用于确定模板图像中的预测检测框，即将模板图像输入预训练的检测模型，预训练的检测模型中的第二主干网络和在线更新网络依次对模板图像进行处理，即第二主干网络首先提取模板图像中的高维特征，之后在线更新网络对高维特征进行处理，得到模板图像对应的预测检测框。网络更新步骤基于确定的预测检测框和模板图像对应的标注信息，确定损失值，并基于损失值，进行反向传播，对在线更新网络的网络参数进行更新，第二主干网络的网络参数无需更新，得到更新后的预训练的检测模型。迭代执行预测检测框确定步骤和网络更新步骤，直至达到结束条件(例如损失值收敛，损失值小于损失值阈值或重复执行次数达到重复执行次数阈值)，结束训练，将更新后的预训练的检测模型作为待检索目标对应的检测模型。其中，所述损失值可以包括定位损失和分类损失。在模板图像为既包含待检索目标所在区域又包含其他区域的全景图时，根据预测检测框的位置和模板图像中的标注信息之间的差异来计算定位损失；在模板图像为仅包括待检索目标所在区域的局部图时，由于该模板图像没有标注信息，可以对该局部图进行变换，在该局部图的周围进行填充(padding)处理等操作，得到一张包括模板图像的大图，并将模板图像在大图中的位置作为标注信息，从而可以基于预测检测框的位置与得到的标注信息来计算定位损失。

对于检测模型中的至少一个在线更新网络经过上述的参数更新处理，得到对应于待检索目标的检测模型。

在上述技术方案的基础上，所述至少一个在线更新网络为多个并行的在线更新网络，所述待检索目标为多个，以至多N个待检索目标分为一组，得到M个待检索目标组，每个待检索目标组对应一在线更新网络；

根据所述待检索目标的模板图像和/或所述模板图像对应的标注信息，对预训练的检测模型的在线更新网络进行参数更新，得到所述待检索目标对应的检测模型，包括：

根据第i个待检索目标组的模板图像，对预训练的检测模型中与第i个待检索目标组对应的在线更新网络进行参数更新，得到所述待检索目标对应的检测模型；i＝1-M。

在检测模型中，至少一个在线更新网络是并行的，即M个在线更新网络是并行的，不同的在线更新网络用于检测不同的待检索目标，一个在线更新网络可以检测至多N个不同的待检索目标，如N可以为5等。在对在线更新网络进行参数更新时，分别基于每个在线更新网络对应的待检索目标组对该待检索目标组对应的在线更新网络进行参数更新，即使用第i个待检索目标组的模板图像对预训练的检测模型中与第i个待检索目标组对应的在线更新网络进行参数更新，i＝1-M，得到待检索目标对应的检测模型。通过至少一个在线更新网络并行，可以同时检测更多的待检索目标，同时，至少一个在线更新网络并行还可以解决增量学习，比如第一次进行参数更新时，3个目标对应一个在线更新网络，第二次进行参数更新时，又要多检测2个目标，并且不想丢失前面3个目标，这时可以增加一个在线更新网络，并基于要多检测的2个目标的模板图像进行参数更新，这样新增加的在线更新网络便可以对这2个目标进行检测。

在本申请的一个实施例中，在所述通过待检索目标对应的检测模型对待检索图像进行目标检测之前，所述方法还包括：通过后处理模型对待检索目标的模板图像中待检索目标所在区域进行特征提取，得到模板特征向量。

在使用检测模型和后处理模型进行目标检索之前，可以先使用后处理模型对待检索目标的模板图像进行特征提取，得到待检索目标的模板特征向量，并保存待检索目标的模板特征向量，后续对待检索图像进行目标检索时，可以直接获取保存的模板特征向量，提高目标检索的效率。

在本申请的一个实施例中，所述预训练的检测模型为通用目标检测模型。通用目标检测模型是在海量数据(如obj365，coco，openimage数据)上预训练得到的模型，可以检测任意的目标，不论目标是什么类型都可以进行检测，通用目标检测模型可以是SOTA模型，性能较好。

图2是本申请实施例中的检测模型和后处理模型组成的目标检索系统的示意图，如图2所示，检测模型包括第二主干网络、区域生成网络(RegionProposal Network，RPN)和RCNN(Region with CNN feature)，其中，所述RCNN的最后P层为在线更新网络，后处理模型包括第一主干网络和度量学习模块，度量学习模板包括第一分支和第二分支，检测模型对待检索图像进行目标检测，得到置信度大于或等于置信度阈值的至少一个检测框，将每个检测框分别输入后处理模型，后处理模型中的第一主干网络对检测框进行特征提取，将提取到的特征图输入度量学习模块，度量学习模块中的第一分支对特征图进行全局特征提取，得到全局特征向量，度量学习模块中的第二分支对特征图进行局部特征提取，得到局部特征向量，根据每个检测框对应的全局特征向量和局部特征向量，确定每个检测框对应的待检索特征向量，将每个检测框对应的待检索特征向量和模板特征向量进行匹配，即确定每个检测框对应的待检索特征向量与模板特征向量的相似度，将相似度作为匹配结果，并根据匹配结果对至少一个检测框进行过滤，得到对应于待检索目标的检测框。

检测模型对待检索图像进行目标检测时，检测模型中的第二主干网络对待检索图像进行特征提取，得到待检索图像的特征图，特征图分别输入RPN和RCNN，RPN生成特征图对应的候选检测框，候选检测框输入RCNN，RCNN对特征图和候选检测框进行处理，得到待检索图像对应的至少一个检测框。RCNN中的在线更新网络基于待检索目标的模板图像进行在线更新，使得检测模型能够更准确地检测到待检索目标。

所述检测模型中还可以包括梯度解耦层(Gradient Decouple Layer,GDL)，位于第二主干网络和RPN之间，以及第二主干网络和RCNN之间，用于在对在线更新网络进行参数更新时调节不同层的学习率，提高参数更新的效率，使得参数更新后的检测模型更加适应于小样本的目标检测。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

图3是本申请实施例提供的一种目标检索装置的结构框图，如图2所示，该目标检索装置可以包括：

目标检测模块301，用于通过待检索目标对应的检测模型对待检索图像进行目标检测，得到置信度大于或等于置信度阈值的至少一个检测框，其中，所述置信度阈值低于常规的检测网络用的阈值，所述待检索目标对应的检测模型是基于待检索目标的模板图像对预训练的检测模型进行参数更新后的模型；

检测框过滤模块302，用于通过后处理模型对所述至少一个检测框进行过滤，得到对应于所述待检索目标的检测框。

可选的，所述检测框过滤模块包括：

特征提取单元，用于通过后处理模型分别对所述至少一个检测框进行特征提取，得到每个检测框对应的特征向量，作为待检索特征向量；

检测框过滤单元，用于分别将所述至少一个检测框对应的待检索特征向量与模板特征向量进行匹配，根据匹配结果对所述至少一个检测框进行过滤，得到对应于所述待检索目标的检测框，所述模板特征向量是通过所述后处理模型对所述待检索目标的模板图像中待检索目标所在区域进行特征提取得到的。

可选的，所述特征提取单元具体用于：

可选的，所述装置还包括：

模板图像获取模块，用于获取待检索目标的模板图像和/或所述模板图像对应的标注信息；

参数更新模块，用于根据所述待检索目标的模板图像和/或所述模板图像对应的标注信息，对预训练的检测模型的在线更新网络进行参数更新，得到所述待检索目标对应的检测模型；所述预训练的检测模型包括第二主干网络和至少一个在线更新网络。

可选的，所述参数更新模块具体用于：

网络更新步骤：根据所述预测检测框和模板图像对应的标注信息，确定损失值；根据所述损失值，对所述在线更新网络的网络参数进行更新，得到更新后的预训练的检测模型；

可选的，所述在线更新网络为所述待检索目标对应的检测模型的最后P层，P小于或等于5。

可选的，所述装置还包括：

模板特征提取模块，用于通过后处理模型对待检索目标的模板图像中待检索目标所在区域进行特征提取，得到模板特征向量。

可选的，所述至少一个在线更新网络为多个并行的在线更新网络，所述待检索目标为多个，以至多N个待检索目标分为一组，得到M个待检索目标组，每个待检索目标组对应一在线更新网络；

所述参数更新模块具体用于：

可选的，所述预训练的检测模型为通用目标检测模型。

本实施例提供的目标检索装置，通过待检索目标对应的检测模型对待检索图像进行目标检测，得到置信度大于或等于置信度阈值的至少一个检测框，通过后处理模型对至少一个检测框进行过滤，得到对应于待检索目标的检测框，由于检测模型是基于待检索目标的模板图像对预训练的检测模型进行参数更新得到的模型，可以使用少量的模板图像对预训练的检测模型进行更新，而且置信度阈值较低，可以保证召回足够的检测框，并通过后处理模型进行过滤后，得到对应于待检索目标的检测框，实现了对小样本目标的检索。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的计算处理设备中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读存储介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图4示出了可以实现根据本申请的方法的计算处理设备。该计算处理设备传统上包括处理器410和以存储器420形式的计算机程序产品或者计算机可读介质。存储器420可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器420具有用于执行上述方法中的任何方法步骤的程序代码431的存储空间430。例如，用于程序代码的存储空间430可以包括分别用于实现上面的方法中的各种步骤的各个程序代码431。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为如参考图5所述的便携式或者固定存储单元。该存储单元可以具有与图4的计算处理设备中的存储器420类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常，存储单元包括计算机可读代码431’，即可以由例如诸如410之类的处理器读取的代码，这些代码当由计算处理设备运行时，导致该计算处理设备执行上面所描述的方法中的各个步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种目标检索方法、装置、设备及存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种目标检索方法，其特征在于，包括：

通过待检索目标对应的检测模型对待检索图像进行目标检测，得到置信度大于或等于置信度阈值的至少一个检测框，其中，所述置信度阈值低于常规的检测网络用的阈值，所述待检索目标对应的检测模型是基于待检索目标的模板图像对预训练的检测模型进行参数更新后的模型；

通过后处理模型对所述至少一个检测框进行过滤，得到对应于所述待检索目标的检测框。
根据权利要求1所述的方法，其特征在于，通过后处理模型对至少一个检测框进行过滤，得到对应于待检索目标的检测框，包括：

通过后处理模型分别对所述至少一个检测框进行特征提取，得到每个检测框对应的特征向量，作为待检索特征向量；

分别将所述至少一个检测框对应的待检索特征向量与模板特征向量进行匹配，根据匹配结果对所述至少一个检测框进行过滤，得到对应于所述待检索目标的检测框，所述模板特征向量是通过所述后处理模型对所述待检索目标的模板图像中待检索目标所在区域进行特征提取得到的。
根据权利要求2所述的方法，其特征在于，通过后处理模型分别对所述至少一个检测框进行特征提取，得到每个检测框对应的特征向量，作为待检索特征向量，包括：

通过后处理模型中的第一主干网络分别对所述至少一个检测框进行特征提取，得到每个检测框对应的特征图；

通过后处理模型中的度量学习模块的第一分支对每个检测框对应的特征图进行全局特征提取，得到检测框对应的全局特征向量；通过后处理模型中的度量学习模块的第二分支对每个检测框对应的特征图进行局部特征提取，得到检测框对应的局部特征向量；所述第一分支和第二分支为参数不同的孪生网络；

根据每个检测框对应的全局特征向量和局部特征向量，确定每个检测框对应的待检索特征向量。
根据权利要求1-3任一项所述的方法，其特征在于，在所述通过待检索目标对应的检测模型对待检索图像进行目标检测之前，还包括：

获取待检索目标的模板图像和/或所述模板图像对应的标注信息；

根据所述待检索目标的模板图像和/或所述模板图像对应的标注信息，对预训练的检测模型的在线更新网络进行参数更新，得到所述待检索目标对应的检测模型；所述预训练的检测模型包括第二主干网络和至少一个在线更新网络。
根据权利要求4所述的方法，其特征在于，根据所述待检索目标的模板图像和/或所述模板图像对应的标注信息，对预训练的检测模型的在线更新网络进行参数更新，得到所述待检索目标对应的检测模型，包括：

预测检测框确定步骤：通过预训练的检测模型中的第二主干网络和在线更新网络，确定模板图像对应的预测检测框；

网络更新步骤：根据所述预测检测框和模板图像对应的标注信息，确定损失值；根据所述损失值，对所述在线更新网络的网络参数进行更新，得到更新后的预训练的检测模型；

重复执行所述预测检测框确定步骤和所述网络更新步骤，直到损失值小于损失值阈值或重复执行次数达到重复执行次数阈值；

将更新后的预训练的检测模型作为待检索目标对应的检测模型。
根据权利要求4或5所述的方法，所述在线更新网络为所述待检索目标对应的检测模型的最后P层，P小于或等于5。
根据权利要求4-6任一项所述的方法，在所述通过待检索目标对应的检测模型对待检索图像进行目标检测之前，所述方法还包括：

通过后处理模型对待检索目标的模板图像中待检索目标所在区域进行特征提取，得到模板特征向量。
根据权利要求4-7任一项所述的方法，其特征在于，所述至少一个在线更新网络为多个并行的在线更新网络，所述待检索目标为多个，以至多N个待检索目标分为一组，得到M个待检索目标组，每个待检索目标组对应一在线更新网络；

根据所述待检索目标的模板图像和/或所述模板图像对应的标注信息，对预训练的检测模型的在线更新网络进行参数更新，得到所述待检索目标对应的检测模型，包括：

根据第i个待检索目标组的模板图像，对预训练的检测模型中与第i个待检索目标组对应的在线更新网络进行参数更新，得到所述待检索目标对应的检测模型；i＝1-M。
根据权利要求4-7任一项所述的方法，其特征在于，所述预训练的检测模型为通用目标检测模型。
一种目标检索装置，其特征在于，包括：

目标检测模块，用于通过待检索目标对应的检测模型对待检索图像进行目标检测，得到置信度大于或等于置信度阈值的至少一个检测框，其中，所述置信度阈值低于常规的检测网络用的阈值，所述待检索目标对应的检测模型是基于待检索目标的模板图像对预训练的检测模型进行参数更新后的模型；

检测框过滤模块，用于通过后处理模型对所述至少一个检测框进行过滤，得到对应于所述待检索目标的检测框。
一种计算处理设备，其特征在于，包括：

存储器，其中存储有计算机可读代码；

一个或多个处理器，当所述计算机可读代码被所述一个或多个处理器执行时，所述计算处理设备执行如权利要求1-9中任一项所述的目标检索方法。
一种计算机程序，包括计算机可读代码，当所述计算机可读代码在计算处理设备上运行时，导致所述计算处理设备执行根据权利要求1-9中任一项所述的目标检索方法。
一种计算机可读存储介质，其中存储了如权利要求12所述的计算机程序。