WO2023160666A1

WO2023160666A1 - 一种目标检测方法、目标检测模型训练方法及装置

Info

Publication number: WO2023160666A1
Application number: PCT/CN2023/078250
Authority: WO
Inventors: 唐小军; 郑瑞; 石瑞姣
Original assignee: 京东方科技集团股份有限公司
Priority date: 2022-02-25
Filing date: 2023-02-24
Publication date: 2023-08-31
Also published as: CN117083621A; WO2023159527A1; CN116964588A

Abstract

一种目标检测方法、目标检测模型训练方法及装置，包括：获取待检测图像；采用目标检测模型对待检测图像进行处理，得到待检测图像中待检测目标对应的目标检测结果；其中，目标检测模型包括特征提取网络和目标预测网络；特征提取网络用于对待检测图像进行特征提取得到多种目标对象相关的图像特征；目标检测网络用于对图像特征进行处理得到目标检测结果；目标检测网络包括类别通道层、多个目标通道层和多个坐标通道层。

Description

一种目标检测方法、目标检测模型训练方法及装置

本申请要求于2022年02月25日提交国际局、国际申请号为PCT/CN2022/078114、申请名称为“检测器训练方法、装置及存储介质”的专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本公开涉及图像检测领域，尤其涉及一种目标检测方法、目标检测模型训练方法及装置。

背景技术

多数据集融合检测训练是指利用多个不同类别标注的数据集，对一个单检测器模型进行训练，进而实现全类别的目标检测。与并行使用多个单检测器相比，多数据集融合检测训练可以实现单个检测器同时检测全部类别目标，计算量要小得多，因此具备有很高的实际应用价值。

发明内容

一方面，提供一种目标检测方法，该方法包括：获取待检测图像；采用目标检测模型对待检测图像进行处理，得到待检测图像中待检测目标对应的目标检测结果；其中，目标检测模型包括特征提取网络和目标预测网络；特征提取网络用于对待检测图像进行特征提取得到多种目标对象相关的图像特征；目标检测网络用于对图像特征进行处理得到目标检测结果；目标检测网络包括类别通道层、多个目标通道层和多个坐标通道层；目标通道层用于输出表征是否存在目标对象的检测预测值，每个目标通道层用于检测多种目标对象中的至少一种，多个目标通道层用于检测的目标对象的类别不同；类别通道层用于输出多种目标对象对应的类别预测值；坐标通道层用于输出目标对象对应的坐标预测值；目标检测结果是基于检测预测值、类别预测值和坐标预测值计算得到的。

在一些实施例中，多个坐标通道层和多个目标通道层一一对应，每个坐标通道层和与其对应的目标通道层检测的目标对象的类别相同；坐标通道层用于在对应的目标通道层检测到目标对象时获取目标对象的坐标预测值。

在一些实施例中，目标检测结果包括检测结果和坐标结果；检测结果为根据目标通道层的检测预测值和对应的类别预测值融合计算得到；坐标通道层用于在对应的目标通道层检测到目标对象时确定目标对象的坐标预测值，包括：在与坐标通道层对应的目标通道层计算得到的检测结果大于或等于阈值的情况下，获取坐标通道层的坐标预测值；在与坐标通道层对应的目标通道层计算得到的检测结果小于阈值的情况下，不获取坐标通道层的坐标预测值。

在一些实施例中，坐标通道层、多个目标通道层和多个坐标通道层的结构为卷积结构；卷积结构的卷积核大小为一乘一。

在一些实施例中，特征提取网络包括主干网络和过渡网络，主干网络用于根据待检测图像确定通用类别的图像特征，过渡网络用于根据通用类别的图像特征确定与多种目标对象相关的图像特征。

另一方面，提供一种目标检测模型训练方法，包括：获取训练集；训练集包括多个训练数据集，每个训练数据集包括一种或多种类别的目标对象的标注数据，多个训练数据集中的至少两个数据集标注目标对象的类别不同；根据训练集对检测模型进行迭代训练，得到目标检测模型；其中，目标检测模型包括特征提取网络和目标预测网络；特征提取网络用于对待检测图像进行特征提取得到多种目标对象相关的图像特征；目标检测网络用于对图像特征进行处理得到目标检测结果；目标检测网络包括类别通道层、多个目标通道层和多个坐标通道层；目标通道层用于输出表征是否存在目标对象的检测预测值，每个目标通道层用于检测多种目标对象中的至少一种，多个目标通道层用于检测的目标对象的类别不同；类别通道层用于输出多种目标对象对应的类别预测值；坐标通道层用于输出目标对象对应的坐标预测值；目标检测结果是基于检测预测值、类别预测值和坐标预测值计算得到的。

在一些实施例中，根据训练集对检测模型进行迭代训练，得到目标检测模型，包括：针对每一次迭代，将训练集输入检测模型，确定多种目标对象的检测结果；根据多种目标对象的检测结果和第一损失函数计算第一损失值，并调整检测模型的参数；第一损失函数包括目标损失函数、坐标损失函数、以及类别损失函数；将第一损失函数收敛时的检测模型确定为目标检测模型。

在一些实施例中，目标损失函数满足以下公式：

其中，L_obj+表示训练集中正样本的目标损失值，NP表示目标通道层的总数量，b表示目标通道层的编号，Target(b)表示第b个目标通道层对应的正样本的Anchor集合，BCELoss表示BCE损失函数，s表示正样本的编号，P_obj(s，b)表示第b个目标通道层与第s个正样本的Anchor对应的目标预测值，GT_obj(s)表示第s个正样本的Anchor对应的目标真值；L_obj-表示训练集中负样本的目标损失值，L_obj(b)表示第b个目标通道层对应的目标对象的类别子集，1(……)为取值函数，当输入为True时取值为1，否则取值为0，L_data表示当前训练数据所标注的目标对象的类别集合，H表示目标通道层输出的数据矩阵的行数，W表示目标通道层输出的数据矩阵的列数，p表示像素点的编号，Anchor表示全部的Anchor集合，a表示像素点p的Anchor，Mask(p，a)表示像素点p对应的位置是否有标注框，P_obj(p，a，b)表示第b个目标通道层输出的像素点p的第a个Anchor的目标预测值，GT_obj(p，a)表示像素点p的第a个Anchor的目标真值。

在一些实施例中，坐标损失函数满足以下公式：

其中，L_box表示坐标损失值，NP表示目标通道层的总数量，b表示目标通道层的编号，Target(b)表示第b个目标通道层对应的正样本的Anchor集合，IOU表示重叠度(intersection over union，IOU)计算函数，s表示正样本的编号，P_hox(s，b)表示第b个目标通道层输出的第s个正样本的坐标预测值，GT_box(s)表示第s个正样本的坐标真值。

在一些实施例中，类别损失函数满足以下公式：

其中，L_cls表示类别损失值，Class表示目标对象的类别总数，1[……]为取值函数，当输入为True时取值为1，否则取值为0，b表示目标通道层的编号，B_cls(b)表示第b个目标通道层对应的第二类别的集合，Len(B_cls(b))表示第b个目标通道层对应的目标对象的类别子集，H表示目标通道层输出的数据矩阵的行数，W表示目标通道层输出的数据矩阵的列数，Anchor表示全部的Anchor集合，Mask(p，a)表示像素点p对应的位置是否有标注框，BCELos表示BCE损失函数，P_cls(p，a，c)表示类别预测值，GT_cls(p，a，c)表示类别真值。

在一些实施例中，还包括：获取验证集；验证集包括与多个训练数据集一一对应的多个验证数据集，每个验证数据集包括一种或多种目标对象的标注数据；将多个验证数据集分别输入目标检测模型，得到多个验证数据集下的准确率；将多个验证数据集下的准确率进行加和计算，作为训练后的目标检测模型的总准确率；或，将多个验证数据集的准确率，共同作为训练后的目标检测模型的总准确率。

再一方面，提供一种目标检测模型训练方法，包括：获取训练集；训练集包括多个训练数据集，每个训练数据集包括一种或多种类别的目标对象的标注数据，多个数据集中的至少两个数据集标注目标对象的类别不同；确定最优检测模型；最优检测模型为历史训练检测模型中准确率最高的检测模型，历史训练检测模型包括每一次迭代训练后更新过参数的检测模型；根据训练集，对检测模型进行迭代训练，并根据最优检测模型对训练集进行伪标签标注，继续训练检测模型得到目标检测模型。

在一些实施例中，根据最优检测模型对进行迭代训练的检测模型进行伪标签标注，得到目标检测模型，包括：根据最优检测模型，对训练集中每个训练数据集的缺失目标对象进行伪标签标注，得到正样本标签数据和负样本标签数据；其中，缺失目标对象为训练数据集未标注类别的目标对象；根据正样本标签数据和正样本损失函数，确定正样本损失值；根据负样本标签数据和负样本损失函数，确定负样本损失值；根据总损失值，调整检测模型的参数；总损失值根据第一损失值、正样本损失值和负样本损失值确定；将总损失函数收敛时的检测模型确定为目标检测模型；总损失函数包括第一损失函数、正样本损失函数、负样本损失函数。

在一些实施例中，根据最优检测模型，对训练集中的缺失目标对象进行标注，得到正样本标签数据和负样本标签数据，包括：将训练集输入最优检测模型，确定最优检测模型对于每个缺失目标对象的检测得分；对于每个缺失目标对象，若最优检测模型对于缺失目标对象的检测得分大于或等于正样本得分阈值，则确定缺失目标对象对应的标注数据为正样本标签数据；对于每个缺失目标对象，若最优检测模型对于缺失目标对象的检测得分小于或等于负样本得分阈值，则确定缺失目标对象对应的标注数据为负样本标签数据。

在一些实施例中，正样本得分阈值和负样本得分阈值根据以下步骤确定：获取验证集；所述验证集包括与所述多个训练数据集一一对应的多个验证数据集，每个所述验证数据集包括一种或多种目标对象的标注数据，所述检测模型的准确率根据所述验证集确定；确定最优检测模型对于验证集中每个目标对象的检测得分；根据每个目标对象的检测得分和预设召回率，确定负样本得分阈值；根据每个目标对象的检测得分和预设精度，确定正样本得分阈值。

在一些实施例中，还包括：确定第一权值、第二权值和第三权值；根据第一权值与第一损失值的乘积、第二权值和正样本损失值的乘积、以及第三权值和负样本损失值的乘积，确定总损失值。

又一方面，提供一种目标检测装置，包括：获取单元和处理单元；获取单元，被配置为获取待检测图像；处理单元，被配置为采用目标检测模型对待检测图像进行处理，得到待检测图像中待检测目标对应的目标检测结果；其中，目标检测模型包括特征提取网络和目标预测网络；特征提取网络用于对待检测图像进行特征提取得到多种目标对象相关的图像特征；目标检测网络用于对图像特征进行处理得到目标检测结果；目标检测网络包括类别通道层、多个目标通道层和多个坐标通道层；目标通道层用于输出表征是否存在目标对象的检测预测值，每个目标通道层用于检测多种目标对象中的至少一种，多个目标通道层用于检测的目标对象的类别不同；类别通道层用于输出多种目标对象对应的类别预测值；坐标通道层用于输出目标对象对应的坐标预测值；目标检测结果是基于检测预测值、类别预测值和坐标预测值计算得到的。

在一些实施例中，处理单元，还被配置为：在与坐标通道层对应的目标通道层计算得到的检测结果大于或等于阈值的情况下，获取坐标通道层的坐标预测值。

在一些实施例中，处理单元，还被配置为：在与坐标通道层对应的目标通道层计算得到的检测结果小于阈值的情况下，不获取坐标通道层的坐标预测值。

又一方面，提供一种目标检测模型训练装置，包括：获取单元和处理单元。获取单元，被配置为：获取训练集。训练集包括多个训练数据集，每个训练数据集包括一种或多种类别的目标对象的标注数据，多个训练数据集中的至少两个数据集标注目标对象的类别不同。处理单元，被配置为：根据训练集对检测器模型进行迭代训练，得到目标检测器模型。其中，目标检测模型包括特征提取网络和目标预测网络；特征提取网络用于对待检测图像进行特征提取得到多种目标对象相关的图像特征；目标检测网络用于对图像特征进行处理得到目标检测结果；目标检测网络包括类别通道层、多个目标通道层和多个坐标通道层；目标通道层用于输出表征是否存在目标对象的检测预测值，每个目标通道层用于检测多种目标对象中的至少一种，多个目标通道层用于检测的目标对象的类别不同；类别通道层用于输出多种目标对象对应的类别预测值；坐标通道层用于输出目标对象对应的坐标预测值；目标检测结果是基于检测预测值、类别预测值和坐标预测值计算得到的。

在一些实施例中，处理单元，还被配置为：针对每一次迭代，将训练集输入检测器模型，确定多种目标对象的检测结果。

在一些实施例中，处理单元，还被配置为：根据多种目标对象的检测结果和第一损失函数计算第一损失值，并调整检测器模型的参数。第一损失函数包括目标损失函数、坐标损失函数、以及类别损失函数。

在一些实施例中，处理单元，还被配置为：将第一损失函数收敛时的检测器模型确定为训练后的目标检测器模型。

在一些实施例中，获取单元，还被配置为：获取验证集。验证集包括与多个训练数据集一一对应的多个验证数据集，每个验证数据集包括一种或多种目标对象的标注数据。

在一些实施例中，处理单元，还被配置为：将多个验证数据集分别输入目标检测模型，得到多个验证数据集下的准确率。

在一些实施例中，处理单元，还被配置为：将多个验证数据集下的准确率进行加和计算，作为训练后的目标检测模型的总准确率。或，将多个验证数据集的准确率，共同作为训练后的目标检测模型的总准确率。

又一方面，提供一种目标检测模型训练装置，包括：获取单元和处理单元。

其中，获取单元，被配置为：获取训练集。训练集包括多个训练数据集，每个训练数据集包括一种或多种类别的目标对象的标注数据，多个数据集中的至少两个数据集标注目标对象的类别不同。

处理单元，被配置为：确定最优检测模型。最优检测模型为历史训练检测模型中准确率最高的检测模型，历史训练检测模型包括每一次迭代训练后更新过参数的检测模型。

处理单元，还被配置为：根据训练集，对检测模型进行迭代训练，并根据最优检测模型对训练集进行伪标签标注，继续训练检测模型得到目标检测模型。

在一些实施例中，处理单元，还被配置为：根据最优检测模型，对训练集中每个训练数据集的缺失目标对象进行伪标签标注，得到正样本标签数据和负样本标签数据；其中，缺失目标对象为训练数据集未标注类别的目标对象。

在一些实施例中，处理单元，还被配置为：根据正样本标签数据和正样本损失函数，确定正样本损失值。

在一些实施例中，处理单元，还被配置为：根据负样本标签数据和负样本损失函数，确定负样本损失值。

在一些实施例中，处理单元，还被配置为：根据总损失值，调整检测模型的参数。总损失值根据第一损失值、正样本损失值和负样本损失值确定。

在一些实施例中，处理单元，还被配置为：将总损失函数收敛时的检测模型确定为目标检测模型。总损失函数包括第一损失函数、正样本损失函数、负样本损失函数。

在一些实施例中，处理单元，还被配置为：将进行标注后的训练集输入检测模型，确定检测模型对于每个缺失目标对象的检测得分。

在一些实施例中，处理单元，还被配置为：对于伪标签数据中对应的每个缺失目标对象，若检测模型对于缺失目标对象的检测得分大于或等于正样本得分阈值，则确定缺失目标对象对应的标注数据为正样本标签数据。

在一些实施例中，处理单元，还被配置为：对于伪标签数据中对应的每个缺失目标对象，若检测模型对于缺失目标对象的检测得分小于或等于负样本得分阈值，则确定缺失目标对象对应的标注数据为负样本标签数据。

在一些实施例中，获取单元，还被配置为：获取验证集；验证集包括与多个训练数据集一一对应的多个验证数据集，每个验证数据集包括一种或多种目标对象的标注数据，检测模型的准确率根据验证集确定。

在一些实施例中，处理单元，还被配置为：确定最优检测模型对于所述验证集中每个目标对象的检测得分。

在一些实施例中，处理单元，还被配置为：根据每个目标对象的检测得分和预设召回率，确定负样本得分阈值。

在一些实施例中，处理单元，还被配置为：根据每个目标对象的检测得分和预设精度，确定正样本得分阈值。

在一些实施例中，处理单元，还被配置为：确定第一权值、第二权值和第三权值。

在一些实施例中，处理单元，还被配置为：根据第一权值与第一损失值的乘积、第二权值和正样本损失值的乘积、以及第三权值和负样本损失值的乘积，确定总损失值。

又一方面，提供一种目标检测装置，包括：处理器和通信接口；所述通信接口和所述处理器耦合，所述处理器用于运行计算机程序或指令，以实现如上述任一实施例所述的目标检测方法。

又一方面，提供一种目标检测装置，包括：处理器和通信接口；所述通信接口和所述处理器耦合，所述处理器用于运行计算机程序或指令，以实现如上述任一实施例所述的目标检测模型训练方法。

又一方面，提供一种非暂态计算机可读存储介质。所述非暂态计算机可读存储介质存储有计算机程序指令，所述计算机程序指令在计算机(例如，目标检测装置)上运行时，使得所述计算机执行如上述任一实施例所述的目标检测方法。

又一方面，提供一种非暂态计算机可读存储介质。所述非暂态计算机可读存储介质存储有计算机程序指令，所述计算机程序指令在计算机(例如，目标检测模型训练装置)上运行时，使得所述计算机执行如上述任一实施例所述的目标检测模型训练方法。

又一方面，提供一种计算机程序产品。所述计算机程序产品包括计算机程序指令，在计算机(例如，检测器训练装置)上执行所述计算机程序指令时，所述计算机程序指令使计算机执行如上述任一实施例所述的目标检测、目标检测模型训练方法。

又一方面，提供一种计算机程序。当所述计算机程序在计算机(例如，检测器训练装置)上执行时，所述计算机程序使计算机执行如上述任一实施例所述的目标检测、目标检测模型训练方法。

又一方面，提供一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行计算机程序或指令，以实现如上述任一实施例所述的目标检测、目标检测模型训练方法。

在一些实施例中，本公开中提供的芯片还包括存储器，用于存储计算机程序或指令。

需要说明的是，上述计算机指令可以全部或者部分存储在计算机可读存储介质上。其中，计算机可读存储介质可以与装置的处理器封装在一起的，也可以与装置的处理器单独封装，本公开对此不作限定。

又一方面，提供一种目检测系统，包括：目标检测装置和目标检测模型训练装置，其中检测器训练装置用于执行如上述任一实施例所述的目标检测方法，目标检测模型训练装置用于执行如上述任一实施例所述的目标检测模型训练方法。

在本公开中，上述目标检测装置、目标检测模型训练装置的名字对设备或功能模块本身不构成限定，在实际实现中，这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本公开类似，属于本公开权利要求及其等同技术的范围之内。

附图说明

为了更清楚地说明本公开中的技术方案，下面将对本公开一些实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例的附图，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。此外，以下描述中的附图可以视作示意图，并非对本公开实施例所涉及的产品的实际尺寸、方法的实际流程、信号的实际时序等的限制。

图1为根据一些实施例提供的一种多数据集融合检测的流程图；

图2为根据一些实施例提供的一种检测器模型的架构图；

图3为根据一些实施例提供的一种检测器模型的架构图；

图4为根据一些实施例提供的一种目标检测系统的架构图；

图5为根据一些实施例提供的一种目标检测方法的流程图；

图6为根据一些实施例提供的一种目标检测模型训练方法的流程图；

图7为根据一些实施例提供的另一种目标检测模型训练方法的流程图；

图8为根据一些实施例提供的另一种目标检测模型训练方法的流程图；

图9为根据一些实施例提供的另一种目标检测模型训练方法的流程图；

图10为根据一些实施例提供的另一种目标检测模型训练方法的流程图；

图11为根据一些实施例提供的另一种目标检测模型训练方法的流程图；

图12为根据一些实施例提供的另一种目标检测模型训练方法的流程图；

图13为根据一些实施例提供的另一种目标检测模型训练方法的流程图；

图14为根据一些实施例提供的一种目标检测装置的结构图；

图15为根据一些实施例提供的一种目标检测模型训练装置的结构图；

图16为根据一些实施例提供的另一种目标检测模型训练装置的结构图；

图17为根据一些实施例提供的另一种目标检测装置的结构图；

图18为根据一些实施例提供的另一种目标检测模型训练装置的结构图。

具体实施方式

下面将结合附图，对本公开一些实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开所提供的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本公开保护的范围。

除非上下文另有要求，否则，在整个说明书和权利要求书中，术语“包括(comprise)”及其其他形式例如第三人称单数形式“包括(comprises)”和现在分词形式“包括(comprising)”被解释为开放、包含的意思，即为“包含，但不限于”。在说明书的描述中，术语“一个实施例(one embodiment)”、“一些实施例(some embodiments)”、“示例性实施例(exemplary embodiments)”、“示例(example)”、“特定示例(specific example)”或“一些示例(some examples)”等旨在表明与该实施例或示例相关的特定特征、结构、材料或特性包括在本公开的至少一个实施例或示例中。上述术语的示意性表示不一定是指同一实施例或示例。此外，所述的特定特征、结构、材料或特点可以以任何适当方式包括在任何一个或多个实施例或示例中。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在描述一些实施例时，可能使用了“耦接”和“连接”及其衍伸的表达。例如，描述一些实施例时可能使用了术语“连接”以表明两个或两个以上部件彼此间有直接物理接触或电接触。又如，描述一些实施例时可能使用了术语“耦接”以表明两个或两个以上部件有直接物理接触或电接触。然而，术语“耦接”或“通信耦合(communicatively coupled)”也可能指两个或两个以上部件彼此间并无直接接触，但仍彼此协作或相互作用。这里所公开的实施例并不必然限制于本文内容。

“A、B和C中的至少一个”与“A、B或C中的至少一个”具有相同含义，均包括以下A、B和C的组合：仅A，仅B，仅C，A和B的组合，A和C的组合，B和C的组合，及A、B和C的组合。

“A和/或B”，包括以下三种组合：仅A，仅B，及A和B的组合。

如本文中所使用，根据上下文，术语“如果”任选地被解释为意思是“当……时”或“在……时”或“响应于确定”或“响应于检测到”。类似地，根据上下文，短语“如果确定……”或“如果检测到[所陈述的条件或事件]”任选地被解释为是指“在确定……时”或“响应于确定……”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。

本文中“适用于”或“被配置为”的使用意味着开放和包容性的语言，其不排除适用于或被配置为执行额外任务或步骤的设备。

另外，“基于”的使用意味着开放和包容性，因为“基于”一个或多个所述条件或值的过程、步骤、计算或其他动作在实践中可以基于额外条件或超出所述的值。

如本文所使用的那样，“约”、“大致”或“近似”包括所阐述的值以及处于特定值的可接受偏差范围内的平均值，其中所述可接受偏差范围如由本领域普通技术人员考虑到正在讨论的测量以及与特定量的测量相关的误差(即，测量系统的局限性)所确定。

以下，对本公开实施例涉及的名词进行解释，以方便读者理解。

(1)目标检测

目标检测是指在给定的图像中检测出设定类别的目标对象，例如人脸、人体、车辆或建筑物体等。目标检测所检测的结果通常会给出目标对象的区域检测框、区域坐标及所属类别，该区域检测框即为目标检测输出的检测结果中检测目标的外接矩形框。

(2)多数据集融合检测

多数据融合检测是指根据多个具有不同类别标注的数据集，对一个单检测模型进行训练，以实现全类别的目标检测。其中，数据集包括图像数据和标注数据，图像数据用于表征目标对象的图像，相应的，标注数据为对图像数据中存在的目标对象进行标注的数据。

如图1所示，多数据融合检测可在多个数据集上训练检测器(图中以数据集的数量为三个进行举例)，将多个数据集输入检测模型并进行训练，并在训练完成后使用每个数据集的验证集计算检测器的全类平均正确率(mean average precision，mAP)。

然而，由于一个数据集的标注数据只针对一种类别的目标对象，每个数据集所标注的目标对象的类别又不尽相同，因此会出现对于数据集中存在的部分对象，数据集会缺失对这部分对象的标注的情况。此类情况的存在，会严重影响融合检测器的训练。

(3)神经网络

神经网络(neural networks，NNs)也称作人工神经网络(artificial neural networks，ANNs)，是一种模仿动物神经网络行为特征，进行分布式并行信息处理的数学模型算法。神经网络包括深度学习网络，例如卷积神经网络(convolutional neural networks，CNN)、长短期记忆网络(long short-term memory，LSTM)等。

在本公开中，进行检测器训练时采用的Yolov5(you only look once Version 5)算法也为神经网络的一种。

(4)损失函数

损失函数是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在应用中，损失函数通常作为学习准则与优化问题相联系，即通过最小化损失函数求解和评估模型。例如在统计学和机器学习中被用于模型的参数估计。

在本公开中，损失函数用于评估检测模型对目标对象进行检测的准确度。当检测模型输出的检测结果的损失函数满足一定预设条件时，则确定此时的检测模型已训练完成，将训练完成的检测模型确定为最终的检测模型。

一般来说，在传统的单检测模型中，只设置有一个目标通道，也即一个目标通道负责检测全部类别的目标对象。而由于现阶段的数据集一般只标注一个类别，且不同数据集标注的类别也不尽相同，因此会出现对于数据集中存在的部分对象，数据集会缺失对这部分对象的标注的情况。针对此类情况，传统的单检测模型由于只设置有一个目标通道，会导致目标通道检测出数据集未标注的对象后，被数据集中针对其他类别对象的标注数据进行错误干预的后果，严重影响检测器的训练精度。而如果通过人工对已有数据集中缺失的对象进行重新标注，则标注的工作量会很大，耗费人力成本过高，难以大规模应用。

鉴于上述现阶段方案存在的缺陷，本公开的一些实施例提供了一种目标检测方法、以及目标检测模型训练方法。概括的说，本公开在模型训练过程中，会在检测模型中设置多个目标通道层，分类别的对目标对象进行检测。由此针对某一类别的目标对象，在对应类别的目标通道层检测出该类目标对象后，若当前数据集未标注的该类别的目标对象，则在根据当前数据集对检测模型进行训练时，不会将该类别的目标对象对应的目标通道层的输出结果代入后续的训练过程中。这样一来，避免了上述传统单检测模型中，存在的目标通道层检测出数据集未标注的对象后，被数据集中针对其他类别对象的标注数据进行错误干预的问题，进而提高了检测模型的训练精度。

以及，本公开在模型训练过程中，还可以在每一次检测模型的迭代训练过程中，确定出历史准确率最高的最优检测模型，并由最优检测模型对训练过程进行伪标签标注，由此将伪标签的标注数据和真实训练集的标注数据进行融合，对检测模型进行训练，提高了最终得出的目标检测模型在跨场景下的检测召回率，实现比传统单检测模型训练更好的训练效果。

由此，经过上述训练过程训练得出的目标检测模型在具体的目标检测应用中能够分类别的对目标对象进行检测，检测准确度较高，能够实现更好的检测效果。

下面将结合说明书附图，对本公开实施例的实施方式进行详细描述。

图2为根据一些实施例提供的一种检测模型20的架构示意图，该检测模型20为一种单检测模型，并且采用Yolov5算法为基础架构。如图2所示，该检测模型20包括：输入模块21、目标检测模块22。其中，输入模块21用于将数据集输入至检测模型20中。输入模块21与目标检测模块22之间能够进行数据传输。

目标检测模块22用于对数据集进行处理，以获取目标对象的训练检测结果。如图2所示，目标检测模块22包括主干(Backbone)网络221、过渡(Neck)网络222和检测(Detection)网络223。

其中，Backbone网络221用于对数据集中的图像数据执行提取操作，以获取通用的图像特征并将其传输至Neck网络222。相应的，Neck网络222接收Backbone网络221发送的通用的图像特征。可以理解的是，通用的图像特征即图像检测领域中，在进行初步的图像提取时，Backbone网络221对原图像数据进行提取后获取的通用类别的对象的图像特征。需要说明的是，Backbone网络221如何获取通用的图像特征，本公开在此不再赘述。示例性地，Backbone网络221的架构可以采用CSPDarkner。

Neck网络222用于从通用的图像特征中提取出与目标对象的类别强相关的图像特征，并将强相关的图像特征发送至Detection网络223。相应的，Detection网络223接收Neck网络222发送的强相关的图像特征。可以理解的是，强相关的图像特征，即为通用的图像特征经过Neck网络222进行提取操作后，获取的与目标对象的类别相近的对象的图像特征。

应理解，此处的目标对象的类别即为检测模型20设定的检测类别。需要说明的是，Neck网络222如何获取与目标对象的类别强相关的图像特征本公开在此不再赘述。示例性地，Neck网络222的架构可以采用PANet。

Detection网络223用于根据强相关的图像特征，来计算最终的目标检测结果。目标检测结果包括目标对象的区域检测框、区域坐标及所属类别。可选地，如图3所示，检测(Detection)网络223中设置有三种数据输出通道层，分别为目标(Object)通道层31、坐标(Box)通道层32、类别(Class)通道层33。其中，Object通道层31、Box通道层32的数量皆为多个，Class通道层33的数量为1个。

其中，Object通道层31用于判断强相关的图像特征中，对应位置是否存在目标对象。若Object通道层31确定存在目标对象，则会在对应位置输出目标对象的区域检测框。

相应的，Box通道层32用于在Object通道层31确定存在目标对象的情况下，计算目标对象的具体坐标，以对目标对象的区域检测框进行微调，使得区域检测框的位置更加准确。

相应的，Class通道层33用于对目标对象的类别进行识别。

在一种可能的实现方式中，Object通道层31、Box通道层32、Class通道层33的结构为卷积结构，并且卷积结构的卷积核大小为一乘一。

以上对根据一些实施例提供的一种检测器模型检测模型的架构进行了介绍。

图4为根据一些实施例提供的一种目标检测系统40的架构图，该目标检测系统40包括：图像获取装置41、检测处理装置42、交互装置43。

其中，图像获取装置41，用于获取待检测图像。以及，将待检测图像向检测处理装置42发送。

可选地，图像获取装置41可实现为监控摄像头、相机，或其它具备图像获取功能的设备。可以理解的是，图像获取装置41可设置于待检测区域的出入口处，或设置于待检测区域内的一定垂直高度上，以便于获取检测目标的待检测图像。

检测处理装置42，用于在接收到待检测图像后，采用目标检测模型对待检测图像进行处理，得到待检测图像中待检测目标对应的目标检测结果。需要说明的是，具体检测处理装置42采用目标检测模型对待检测图像进行处理，得到待检测图像中待检测目标对应的目标检测结果的过程，参见下文步骤501-步骤503的叙述，此处不再赘述。

检测处理装置42在得到待检测图像中待检测目标对应的目标检测结果后，将该目标检测结果发送至交互装置43。

交互装置43，用于实现目标检测结果输出、以及与工作人员的人机交互。

可选地，交互装置43可包括显示终端、人机交互设备。其中，显示终端可实现为显示器、或其他具备可视化显示功能的设备，人机交互设备可实现为触摸屏、键盘鼠标、或其它具备人家交互功能的设备。

需要指出的是，在本公开提供的目标检测方法中，执行主体是目标检测系统；在本公开提供的目标检测模型训练方法中，执行主体为目标检测模型训练装置。该目标检测系统、目标检测模型训练装置分别可以为服务器，包括：

处理器，处理器可以是一个通用中央处理器(central processing unit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本公开方案程序执行的集成电路。

收发器，收发器可以是使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local area networks，WLAN)等。

存储器，存储器可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过通信线路与处理器相连接。存储器也可以和处理器集成在一起。

本公开实施例中的目标检测系统，目标检测模型训练装置也分别可以是耦合在服务器的一部分系统，例如服务器中的芯片系统。

需要指出的是，本公开各实施例之间可以相互借鉴或参考，例如，相同或相似的步骤，方法实施例、系统实施例和装置实施例之间，均可以相互参考，不予限制。

如图5所示，图5为根据一些实施例提供的一种目标检测方法，该方法包括以下步骤501-步骤503：

步骤501、目标检测系统获取待检测图像。

其中，待检测图像即为可能包括待检测目标的图像数据。

在一种可能的实现方式中，步骤501具体可由如前文所描述的目标检测系统中包括的图像获取装置来执行，以使得目标检测系统获取待检测图像。

步骤502、目标检测系统采用目标检测模型对待检测图像进行处理，得到待检测图像中待检测目标对应的目标检测结果。

其中，目标检测模型包括特征提取网络和目标预测网络。下面分别对特征提取网络和目标预测网络进行介绍：

(1)特征提取网络，用于对待检测图像进行特征提取得到多种目标对象相关的图像特征。

需要指出的是，此处的特征提取网络基于对前文所述的检测模型20中的主干网络221、过渡网络222来构建。

也即，特征提取网络包括主干网络和过渡网络。其中，主干网络用于根据待检测图像确定通用类别的图像特征，过渡网络用于根据通用类别的图像特征确定与多种目标对象相关的图像特征。

(2)目标检测网络用于对图像特征进行处理得到目标检测结果。

需要指出的是，此处的目标检测网络基于前文所述的检测模型20中的检测网络223来构建。

也即，目标检测网络包括类别通道层、多个目标通道层和多个坐标通道层。并且坐标通道层、多个目标通道层和多个坐标通道层的结构为卷积结构，并且卷积结构的卷积核大小为一乘一。

其中，目标通道层用于输出表征是否存在目标对象的检测预测值，每个目标通道层用于检测多种目标对象中的至少一种，多个目标通道层用于检测的目标对象的类别不同。以及，类别通道层用于输出多种目标对象对应的类别预测值，坐标通道层用于输出其所检测的目标对象对应的坐标预测值。

需要说明的是，多个坐标通道层和多个目标通道层，是一一对应的。也就是说，每个坐标通道层和与其对应的目标通道层检测的目标对象类别是相同的，可以检测一个或多个目标对象。当在对应的目标通道层检测到存在目标对象时，坐标通道层用于同时获取目标对象的坐标预测值。

应理解，由于本实施例设置多个一一对应的目标通道层和坐标通道层，每个坐标通道层和与其对应的目标通道层检测的目标对象类别一致，因此能够使不同目标对象之间的预测不相互影响，实现检测多种类别目标，对于目标通道层检测到存在的目标对象，获取对应坐标通道层的坐标预测值，对于不存在的目标对象，丢弃对应坐标通道层的坐标预测值。这样一来，通过设置一一对应的坐标通道层和目标通道层，能够同时高效检测出不同类别目标的位置，大幅节省了算力，检测速度快。

在一种可能的实现方式中，在目标检测模型的训练过程中，同样在检测模型中设置了多个目标通道层，且这些目标通道层会分类别的对目标对象进行检测。由此针对某一类别的目标对象，在对应类别的目标通道层检测出该类目标对象后，若当前数据集未标注的该类别的目标对象，则在根据当前数据集对检测模型进行训练时，不会将该类别的目标对象对应的目标通道层的输出结果代入后续的训练过程中。这样一来，避免了目标通道层检测出数据集未标注的对象后，被数据集中针对其他类别对象的标注数据进行错误干预的情况发生，提高了检测模型的训练精度。

可选地，在目标检测模型的训练过程中，判断目标通道层是否检测到存在目标对象，可通过如下方式实现：将每一目标通道层输出的检测预测值和类别通道层中与该目标通道层所检测类别的类别预测值进行融合计算，获得检测结果，根据该检测结果和阈值进行比较，进而判断是否存在目标通道层所检测类别的目标对象。也就是说，通过将目标通道层输出的检测预测值，与类别通道层中对应该目标通道层所检测类别的类别预测值进行融合计算，能够结合位置和类别这两个维度的信息来预测是否检测到目标对象，进而使得对是否存在目标对象的预测结果更加准确。

在另一种可能的实现方式中，本公开在目标检测模型训练时，在每一次检测模型的迭代训练过程中，确定出历史准确率最高的最优检测模型，并由最优检测模型对训练集进行伪标签标注，由此结合对训练集进行伪标签标注后得到的标注数据和真实训练集的标注数据，对检测模型进行融合训练，能够将伪标签标注应用于目标检测模型的训练过程中，提高了最终得出的目标检测模型在跨场景下的检测召回率，实现了更好的目标检测模型训练效果。

可以理解的是，上述两种可能的目标检测模型的训练方法，在单独应用与本实施例中目标检测方法的同时，也能够结合应用共同对本实施例中的目标检测模型进行训练。也就是说，本实施例提供的目标检测方法中的目标检测模型，可以分别通过上述两种可能的目标检测模型训练方法，单独训练得到；亦或者，可以结合上述两种可能的目标检测模型训练方法，共同训练得到。

以上对特征提取网络和目标预测网络进行了说明。

下面对目标检测结果进行介绍：

可以理解的是，目标检测结果是基于检测预测值、类别预测值和坐标预测值计算得到的。

示例性地，目标检测结果包括检测结果和坐标结果。其中，检测结果为根据目标通道层的检测预测值和对应的类别预测值融合计算得到。具体地，可通过如下方式实施，将每一目标通道层输出的检测预测值与和对应类别的类别预测值进行相乘，得到对应的检测结果，当检测结果高于阈值时，认为该目标通道层检测到存在所检测类别的目标对象，此时获取坐标通道层输出的坐标预测值作为坐标结果；当检测结果较低时，认为该目标通道层没有检测到对应类别的目标，此时将与该目标通道层对应的坐标通道层输出的坐标预测值直接丢弃不用。

进一步地，坐标通道层用于确定目标对象的坐标预测值时，遵循以下规则：在与坐标通道层对应的目标通道层计算得到的检测结果大于或等于阈值的情况下，获取坐标通道层的坐标预测值；在与坐标通道层对应的目标通道层计算得到的检测结果小于阈值的情况下，不获取坐标通道层的坐标预测值。

在一种可能的实现方式中，步骤502具体可由如前文所描述的目标检测系统中包括的检测处理装置来执行，以使得目标检测系统采用目标检测模型对待检测图像进行处理，得到待检测图像中待检测目标对应的目标检测结果。

步骤503、目标检测系统输出目标检测结果。

可选地，目标检测系统将目标检测结果以可视化的方式，向工作人员展示。例如，目标检测系统将目标检测结果以目标对象的区域检测框、区域坐标及所属类别的方式，展现在显示屏幕上，使得工作人员获知目标检测系统对检测目标的检测结果。

在一种可能的实现方式中，步骤503具体可由如前文所描述的目标检测系统中包括的交互装置来执行，以使得目标检测系统输出目标检测结果。

基于上述技术方案，本公开提供的目标检测系统能够对待检测图像中的目标对象进行检测，并且由于目标检测系统中的目标检测模型中设置了多个目标通道层，且这些目标通道层会分类别的对目标对象进行检测，目标检测模型的检测准确度较高，因此，本公开提供的目标检测系统针对目标对象，能够实现更好的检测效果。

如图6所示，图6为根据一些实施例提供的一种目标检测模型训练方法，该方法包括以下步骤601-步骤602：

步骤601、目标检测模型训练装置获取训练集。

其中，训练集包括多种目标对象的标注数据。示例性地，训练集包括多个训练数据集，每个训练数据集包括图像数据和对一种或多种类别的目标对象标注的数据。示例性地，训练集包括三个数据集，三个数据集对应标注的目标对象的类别分别是人、机动车和非机动车。再例如，训练集包括二个数据集，一个数据集对应标注的目标对象的类别是人，另一个数据集对应标注的目标对象的类别是机动车和非机动车。

需要说明的是，在训练集中，数据集的数量和目标对象的类别的数量，可以不相等。例如，训练集包括的多个数据集中包括标注相同目标对象类别的数据集。此处针对同一类别的目标对象，获取多个数据集是为了扩大样本数据收集范围，以提高最终训练出的检测模型的准确率。示例性地，在训练集中，存在多个数据集对应标注的目标对象的类别都是人物，这些数据集的区别在于部分数据集是日间收集的数据，部分数据集时夜间收集的数据；或者，部分数据集是在人群密集的路口收集的数据，部分数据集是在人群稀疏的路口收集的数据。

步骤602、目标检测模型训练装置根据训练集对检测模型进行迭代训练，得到目标检测模型。

其中，目标检测模型即为经过迭代训练后，满足预设要求能够用于实际应用的检测模型。示例性地，满足预设要求可以是检测模型的检测结果的损失函数达到收敛。或者，检测模型的检测结果的准确率达到预设要求百分比，此处的准确率可采用mAP值。

可选地，检测模型是基于如图2所示的Yolov5架构检测模型来构建的。相应的，进行迭代训练后得到的目标检测模型也是基于如图2所示的Yolov5架构检测模型来构建的。

需要指出的是，此处根据训练集进行迭代训练后的目标检测模型，即为前述步骤502中的目标检测模型。具体对于目标检测模型的介绍参见前述步骤502，本实施例在此不再赘述。

需要说明的是，在迭代训练过程中，目标通道层所针对检测的目标对象的类别，与训练集中包括的所有数据集标注的目标对象的类别可以相同也可以不同。

示例性地，结合前述步骤601中的举例，所有数据集标注的目标对象的类别包括人、机动车、非机动车，则目标通道层检测的目标对象的类别可以包括人、机动车、非机动车。

亦或者，目标通道层检测的目标对象的类别也可以包括数据集标注目标对象的类别的子类别，例如目标通道层检测的目标对象的类别包括人、公交车、轿车、自行车、三轮车。其中的公交车和轿车即为第一类别中机动车的子类别，自行车和三轮车即为第一类别中非机动车的子类别。

在一种可能的实现方式中，目标检测模型训练装置根据训练集对检测模型进行迭代训练，包括：在检测模型确定出多种目标对象的检测结果后，根据多种目标对象的检测结果和第一损失函数，计算第一损失值，并据此调整检测模型的参数。需要说明的是，目标检测模型训练装置根据训练集对检测模型进行迭代训练的详细流程参见下述步骤701-步骤704，此处不再赘述。

示例性地，结合前述步骤601中的举例，假设当前用于训练的数据集标注的对象是人物。若针对类别为机动车的目标对象，多个目标通道层中用于检测机动车的目标通道层在数据集对应的图像数据中检测到了机动车的存在，但是由于当前的数据集标注的对象是人物，因此目标检测模型训练装置不会将检测类别为机动车的目标通道层输出的检测结果代入后续的训练过程中。同理，除人物以外其他类型的目标通道层输出的检测结果也不会代入后续的训练过程中，只有类别为人物的目标通道层输出的检测结果会代入后续的训练过程中。

由此，标注类别为人物的数据集，其标注数据只会对检测类别为人物的目标通道层输出的检测结果产生影响，其他标注类别的数据集也是如此。这样一来，在训练过程中，就避免了某一类别的标注数据对其他类别的目标对象的检测结果产生负面影响，从而提高了目标检测模型训练的精准度。

基于上述技术方案，本公开在检测模型中设置了多个目标通道层，且这些目标通道层会分类别的对目标对象进行检测。由此针对某一类别的目标对象，在对应类别的目标通道层检测出该类目标对象后，若当前数据集未标注的该类别的目标对象，则在根据当前数据集对检测模型进行训练时，不会将该类别的目标对象对应的目标通道层的输出结果代入后续的训练过程中。这样一来，避免了目标通道层检测出数据集未标注的对象后，被数据集中针对其他类别对象的标注数据进行错误干预的情况发生，提高了检测模型的训练精度。

以下，结合上述步骤602，对检测器训练装置确定根据训练集对检测模型进行训练，得到目标检测模型的过程进行具体介绍。

作为本公开的一种可能的实施例，结合图6，如图7所示，上述步骤602具体包括以下步骤701-步骤704：

步骤701、目标检测模型训练装置将训练集输入检测模型，确定多种目标对象的检测结果。

示例性地，结合前文步骤602中的内容，由于检测模型是基于如图2所示的Yolov5架构检测模型来构建的，因此目标检测模型训练装置可以通过检测模型20中的输入模块21，将训练集输入至检测模型中。

可选地，多种目标对象的检测结果也是由检测预测值、类别预测值和坐标预测值进行得到的。也即，检测预测值、类别预测值和坐标预测值分别由检测模型的类别通道层、目标通道层和坐标通道层确定得出。

步骤702、目标检测模型训练装置根据多种目标对象的检测结果和第一损失函数计算第一损失值。

可选地，第一损失计算函数包括目标损失函数、坐标损失函数、以及类别损失函数。

在一些实施例中，第一损失函数由目标损失函数、坐标损失函数、以及类别损失函数相加获得。

需要说明的是，具体目标检测模型训练装置根据多种目标对象的检测结果和第一损失函数计算第一损失值的流程，以及目标损失函数、坐标损失函数、类别损失函数的公式内容参见下述步骤901-步骤904，此处不再赘述。

步骤703、目标检测模型训练装置根据第一损失值调整检测模型的参数。

示例性地，在检测模型进行一次迭代检测后，目标检测模型训练装置判断此次检测结果的第一损失函数是否收敛。

若第一损失函数收敛，则目标检测模型训练装置确定检测模型训练完成，将此时的检测模型确定为目标检测模型。

若第一损失函数不收敛，则目标检测模型训练装置更新检测模型中的参数，进行下次迭代检测。若下次迭代中检测模型的第一损失函数收敛，则目标检测模型训练装置将此时的检测模型确定为目标检测模型；若下次迭代中检测模型的第一损失函数不收敛，则目标检测模型训练装置继续更新检测模型中的参数，直至检测模型的第一损失函数收敛。

步骤704、目标检测模型训练装置将第一损失函数收敛时的检测模型确定为目标检测模型。

可以理解的是，目标检测模型即为能够用于实际应用的检测模型。

基于上述技术方案，本公开根据第一损失函数对检测模型做多次训练，在训练过程中，通过不断更新检测模型中的参数，使得每次输出的检测结果更加接近训练集中对目标对象的标注数据所反映的正确结果。当第一损失函数的值逐步减小，直到第一损失函数的值不再减小，即损失函数收敛时，将此时的检测模型确定为目标检测模型。这样检测模型即可在后续实际应用中良好地完成对目标对象的检测。

以下结合步骤701，对目标检测模型训练装置将训练集输入检测模型，确定多种目标对象的检测结果的过程进行具体介绍。

作为本公开的一种可能的实施例，结合图5和图7，如图8所示，上述步骤701具体包括以下步骤801-步骤803：

步骤801、目标检测模型训练装置根据训练集确定通用类别的图像特征。

在一种可能的实现方式中，目标检测模型训练装置通过主干网络来确定通用类别的图像特征。

示例性地，检测模型中可包括主干网络，该主干网络可以是如图2所示的Backbone网络。通过该Backbone网络，目标检测模型训练装置可以对训练集包括的图像数据中通用类别的图像特征进行提取。在此说明，通过Backbone网络对训练集包括的图像数据中通用类别的图像特征进行提取的方法，本公开在此不再赘述。

可以理解的是，通过主干网络确定的通用类别的图像特征后，由于通用类别即包括了目标对象的类别，因此后续步骤802中过渡网络能够据此提取出与多种目标对象的图像特征。

步骤802、目标检测模型训练装置根据通用类别的图像特征，确定与多种目标对象相关的图像特征。

在一种可能的实现方式中，目标检测模型训练装置通过过渡网络来确定与多种目标对象相关的图像特征。

示例性地，检测模型中可包括过渡网络，该过渡网络可以是如图2所示的Neck网络。通过该Neck网络，目标检测模型训练装置可以对通用类别的图像特征进行提取，以确定与多种目标对象相关的图像特征。在此说明，通过Neck网络对通用类别的图像特征进行提取，以确定与多种目标对象相关的图像特征的方法，本公开在此不再赘述。

步骤803、目标检测模型训练装置根据与多种目标对象相关的图像特征，确定多种目标对象的检测结果。

在一种可能的实现方式中，目标检测模型训练装置通过检测网络来确定多种目标对象的检测结果。

示例性地，检测模型中可包括检测网络，该检测网络可以是如图2所示的Detection网络。通过该Detection网络，目标检测模型训练装置可以基于与多种目标对象相关的图像特征，来确定出多种目标对象的检测结果。

可选地，检测网络设有多个目标通道层、多个坐标通道层和多个类别通道层。下面对这三种通道层的作用进行介绍：

(1)目标通道层。

一个目标通道层用于检测多种目标对象中的至少一种目标对象在当前检测区域内是否存在。示例性地，此处目标通道层输出的结果为“存在”和“不存在”，例如，可输出为检测预测值yes或者no的形式。

可选地，目标检测模型训练装置预先设定判断阈值，之后，目标通道层确定目标对象在当前检测区域内存在的概率值，当目标通道层确定的概率大于或等于该判断阈值时，则目标检测模型训练装置确定当前检测区域内存在目标对象，目标通道层输出的结果为“存在”；同理，若目标通道层确定的概率小于该判断阈值时，则目标检测模型训练装置确定当前检测区域内不存在目标对象，目标通道层输出的结果为“不存在”。

示例性地，若针对某一类目标对象，目标通道层在当前检测区域确定该类目标对象存在的概率0.98。假设目标检测模型训练装置预先设定的判断阈值为0.9，由于0.98大于0.9，因此目标检测模型训练装置确定当前检测区域内存在目标对象。

在一种可能的实现方式中，目标通道层可以是如图3所示的Object通道层。

(2)坐标通道层。

在前述目标通道层确定当前检测区域内存在目标对象时，坐标通道层用于确定该目标对象存在的区域的坐标并输出，例如，可输出为坐标预测值(X,Y)的形式。

在一种可能的实现方式中，坐标通道层可以是如图3所示的Box通道层。

需要说明的是，对于每一个检测区域，当目标检测模型训练装置根据目标通道层确定该检测区域内存在目标对象，坐标通道层都会输出此检测区域的坐标。因此，在本公开中，由于目标通道层的数量由原来的一个变为多个(假设目标通道层有N个)，相应的坐标通道层的数量也会变为原来的多倍(即坐标通道层的数量会变为原来的N倍)。

(3)类别通道层。

在前述目标通道层判断确定当前检测区域内存在目标对象时，类别通道层用于确定该目标对象存在的区域的类别并输出，例如，可输出为检测预测值person或car的形式。

在一种可能的实现方式中，类别通道层可以是如图3所示的Class通道层。

需要说明的是，类别通道层的数量与训练集中标注的目标对象的类别数量相同。

示例性地，目标通道层、坐标通道层以及类别通道层的输出结果，其形式可以是数学矩阵。目标通道层检测的当前图像区域，可以是与多种目标对象相关的图像特征中的一个像素点。

在一种可能的实现方式中，目标检测模型训练装置将多个目标通道层、多个坐标通道层和多个类别通道层输出的结果合并，确定为多种目标对象的检测结果。

基于上述技术方案，本公开通过检测模型中设置的主干网络、过渡网络、检测网络，以及检测网络中设置的多个目标通道层、坐标通道层和类别通道层，能够根据训练集中包括的图像数据，来确定出多种目标对象的检测结果，以便于后续目标检测模型训练过程的进行。

以下结合步骤702，对目标检测模型训练装置根据训练集和多种目标对象的检测结果，确定第一损失函数的过程进行具体介绍。

作为本公开的一种可能的实施例，结合图7，如图9所示，上述步骤702具体包括以下步骤901-步骤904：

步骤901、目标检测模型训练装置根据多个目标通道层输出的结果、多种目标对象的标注数据和目标损失函数，确定目标损失值。

其中，目标损失值包括正样本的目标损失值和负样本的目标损失值。

在一种可能的实现方式中，目标(Object)损失函数满足以下公式1：

其中，L_obj+表示训练集中正样本的目标损失值，NP表示目标通道层的总数量，b表示目标通道层的编号，Target(b)表示第b个目标通道层对应的正样本的Anchor集合，BCELoss表示BCE损失函数，s表示正样本的编号，P_obj(s，b)表示第b个目标通道层与第s个正样本的Anchor对应的目标预测值，GT_obj(s)表示第s个正样本的Anchor对应的目标真值；L_obj-表示训练集中负样本的目标损失值，L_obj(b)表示第b个目标通道层对应的第二类别子集，1(……)为取值函数，当输入为True时取值为1，否则取值为0，L_data表示当前训练数据所标注的第一类别子集，H表示目标通道层数据矩阵的行数，W表示目标通道层数据矩阵的列数，p表示像素点的编号，Anchor表示全部的Anchor集合，a表示像素点p的Anchor，Mask(p，a)表示训练集数据对应的当前位置是否有标注框(根据是否有标注框，取值对应为0或1)，P_obj(p，a，b)表示第b个目标通道层输出的像素点p的第a个Anchor的目标预测值，GT_obj(p，a)表示像素点p的第a个Anchor的目标真值。应理解，前述目标真值根据训练集包括的多种目标对象的标注数据确定。

需要说明的是，上述正样本是指在目标通道层进行目标对象的检测时，针对于一个像素点，若该像素点有对应的标注数据，则确定该像素点为正样本；反之同理，若一个像素点没有对应的标注数据，则确定该像素点为负样本。应理解，若像素点为正样本，则代入正样本公式计算其L_obj+，若像素点为负样本，则代入负样本公式计算其L_obj-。

步骤902、目标检测模型训练装置根据多个坐标通道层输出的结果、多种目标对象的标注数据和坐标损失函数，确定坐标损失值。

在一种可能的实现方式中，Box损失函数满足以下公式2：

其中，L_box表示坐标损失值，NP表示目标通道层的总数量，b表示目标通道层的编号，Target(b)表示第b个目标通道层对应的正样本的Anchor集合，IOU表示重叠度(intersection over union，IOU)计算函数，s表示正样本的编号，P_box(s，b)表示第b个目标通道层输出的第s个正样本的Box坐标预测值，GT_box(s)表示第s个正样本的Box坐标真值。应理解，前述目标真值根据训练集包括的多种目标对象的标注数据确定。

步骤903、目标检测模型训练装置根据多个类别通道层输出的结果、多种目标对象的标注数据和类别损失函数，确定类别损失值。

在一种可能的实现方式中，Class函数满足以下公式3：

其中，L_cls表示类别损失值，Class表示目标对象的类别总数，b表示目标通道层的编号，B_cls(b)表示第b个目标通道层对应的第二类别的集合，Len(B_cls(b))表示第b个目标通道层对应的第二类别的总数量，H表示目标通道层数据矩阵的行数，W表示目标通道层数据矩阵的列数，Anchor是指全部的Anchor集合，Mask(p，a)表示训练集数据对应的当前位置是否有标注框，BCELoss是指BCE损失函数，P_cls(p，a，c)是指类别预测值，GT_cls(p，a，c)是指类别真值。

应理解，前述目标真值根据训练集包括的多个标注数据确定。需要说明的是，1[......]为取值函数(当输入为True时取值为1，否则取值为0)。

步骤904、目标检测模型训练装置将目标损失值、坐标损失值、以及类别损失函数值，得到第一损失值。

相对应的，在一种可能的实现方式中，目标检测模型训练装置将目标损失函数、坐标损失函数、以及类别损失函数相加，将相加后的公式结果作为第一损失函数。

基于上述技术方案，本公开通过检测模型中三种通道层输出的结果以及训练集，来确定出检测模型针对多种目标对象的检测结果的第一损失函数，该第一损失函数能够反映检测模型的检测结果与标注数据中的正确结果之间的差距，以便于后续流程中对检测模型中的参数进行调整，使得检测模型的检测结果逐步接近标注数据中的正确结果。

以下对目标检测模型训练装置对目标检测模型进行准确率的验证的过程进行具体介绍。

作为本公开的一种可能的实施例，结合图6，如图10所示，在步骤602之后还包括步骤1001-步骤1002：

步骤1001、目标检测模型训练装置获取验证集。

其中，验证集包括多种目标对象的标注数据。示例性地，验证集包括多个验证数据集，每个验证数据集包括图像数据和对一种或多种类别的目标对象标注的数据。可以理解的是，验证集所标注目标对象的类别，与步骤401中训练集所标注目标对象的类别是相同的。

示例性地，用于训练检测模型的训练集，对应标注的目标对象的类别分别是人、机动车和非机动车。则用于验证目标检测模型的验证集，对应标注的目标对象的类别也分别是人、机动车和非机动车。

步骤1002、目标检测模型训练装置将多个验证数据集分别输入目标检测模型，得到多个验证数据集下的准确率。

可选地，目标检测模型训练装置根据验证集确定目标检测模型的验证检测结果。可以理解的是，目标检测模型训练装置根据验证集确定验证检测结果的方式，与目标检测模型训练装置根据训练集确定多种目标对象的检测结果的方式是相同的。具体可参考前述步骤1101-步骤1103中的叙述。

可选地，目标检测模型训练装置根据检测器的验证检测结果，确定检测模型的准确率。此处准确率的表现形式可以为mAP。基于上述技术方案，本公开还能在检测模型训练完成后，根据验证集进一步地验证检测器的准确率，使得检测模型在投入实际应用时能够有更好的检测效果。

作为本公开的一种可能的实施例，结合图6，如图11所示，本公开还提供的一种目标检测模型训练方法，包括以下步骤1101-步骤1103：

步骤1101、目标检测模型训练装置获取训练集。

其中，训练集包括多个训练数据集，每个训练数据集包括一种或多种类别的目标对象的标注数据，多个数据集中的至少两个数据集标注目标对象的类别不同。

应理解，此处的训练集与前文步骤601所描述的训练集相同，本实施例不再赘述。

步骤1102、目标检测模型训练装置确定最优检测模型。

其中，最优检测模型为历史训练检测模型中准确率最高的检测模型，历史训练检测模型包括每一次迭代训练后更新过参数的检测模型。

可选地，此处的准确率采用mAP值来评估，也即每一次迭代训练后更新过参数的检测模型中，mAP至最高的检测模型为最优检测模型。

需要说明的是，本实施例中的检测模型的结构可采用如前述实施例中相同的结构，也即与前文步骤502中所描述的相同。或者，实施例中的检测模型的结构也可采用其他卷积结构的模型。为了便于说明，下文以本实施例中的检测模型的结构采用如前述实施例中相同的结构为例，对本实施例的方案进行介绍。

步骤1103、目标检测模型训练装置根据训练集，对检测模型进行迭代训练，并根据最优检测模型对训练集进行伪标签标注，继续训练检测模型得到目标检测模型。

其中，目标检测模型训练装置根据训练集，对检测模型进行迭代训练的过程参见前文步骤701-步骤704，此处不再赘述。

在一种可能的实现方式中，目标检测模型训练装置根据最优检测模型对训练集进行伪标签标注，继续训练检测模型得到目标检测模型，可包括：根据最优检测模型，对训练集中每个训练数据集的缺失目标对象进行伪标签标注，得到正样本标签数据和负样本标签数据；其中，缺失目标对象为训练数据集未标注类别的目标对象；进而，目标检测模型训练装置根据所述正样本标签数据和正样本损失函数确定正样本损失值，根据所述负样本标签数据和负样本损失函数确定负样本损失值；最终，目标检测模型训练装置根据总损失值，调整所述检测模型的参数。

需要说明的是，目标检测模型训练装置根据最优检测模型对训练集进行伪标签标注，继续训练检测模型得到目标检测模型的具体流程可参见下述步骤1201-步骤1205，此处不再赘述。

其中，目标检测模型即为经过迭代训练后，满足预设要求能够用于实际应用的检测模型。示例性地，满足预设要求可以是检测模型的检测结果的总损失函数达到收敛。或者，检测模型的检测结果的准确率达到预设要求百分比，此处的准确率可采用mAP值。

应理解，总损失值可由第一损失值、正样本损失值和负样本损失值确定。对应的，所述总损失函数包括第一损失函数、正样本损失函数、负样本损失函数。

基于上述技术方案，本公开实施例在每一次检测模型的迭代训练过程中，确定出历史准确率最高的最优检测模型，并由最优检测模型对训练集进行伪标签标注，由此结合对训练集进行伪标签标注后得到的标注数据和真实训练集的标注数据，对检测模型进行融合训练，提高了最终得出的目标检测模型在跨场景下的检测召回率。并且，在目标检测模型的实际应用过程中，能够实现更高的检测准确率。

以下，结合上述步骤1103，对目标检测模型训练装置根据最优检测模型对进行迭代训练的检测模型进行伪标签标注，进行具体介绍：

作为本公开的一种可能的实施例，结合图11，如图12所示，上述步骤1103具体包括以下步骤1201-步骤1205：

步骤1201、目标检测模型训练装置根据最优检测模型，对训练集中每个训练数据集的缺失目标对象进行伪标签标注，得到正样本标签数据和负样本标签数据。

可选地，目标检测模型训练装置将训练集输入最优检测模型，确定最优检测模型对于每个目标对象的检测得分。

可选地，检测得分可实现为最优检测模型对于目标对象的置信度得分。

进一步地，正样本标签数据的判断方法为：对于每个目标对象，若最优检测模型对于目标对象的检测得分大于或等于正样本得分阈值，则确定该目标对象对应的标注数据为正样本标签数据。

以及，负样本标签数据的判断方法为：对于每个目标对象，若最优检测模型对于目标对象的检测得分小于或等于负样本得分阈值，则确定该目标对象对应的标注数据为负样本标签数据。

需要说明的是，正样本得分阈值和负样本得分阈值的确定过程参见下述步骤1301-步骤1303，此处不再赘述。

步骤1202、目标检测模型训练装置根据正样本标签数据和正样本损失函数，确定正样本损失值。

在一种可能的实现方式中，正样本损失函数满足以下公式4：

其中，Loss_pos表示所述正样本损失值，score(s)表示所述每个缺失目标对象的检测得分，TH_pos表示所述正样本得分阈值，BCELoss表示BCE损失函数,P_pos(s)表示第s个所述正样本标签数据的Anchor对应的预测值。

步骤1203、目标检测模型训练装置根据负样本标签数据和负样本损失函数，确定负样本损失值。

在一种可能的实现方式中，负样本损失函数满足以下公式5：

其中，Loss_neg表示所述负样本损失函数，score(s)表示所述每个缺失目标对象的检测得分，TH_neg表示所述负样本得分阈值，BCELoss表示BCE损失函数,P_neg(s)表示第s个所述负样本标签数据的Anchor对应的预测值。

步骤1204、目标检测模型训练装置根据总损失值，调整检测模型的参数。

其中，总损失值根据第一损失值、正样本损失值和负样本损失值确定。

可以理解的是，若本实施例中的检测模型的结构与前述步骤502中所描述的相同，则本实施例中的总损失值由第一损失值、正样本损失值和负样本损失值，进行加权求和确定。其中，第一损失值的计算方式参见前文。

示例性地，目标检测模型训练装置预先确定第一权值、第二权值和第三权值，进而将第一权值与第一损失值的乘积、第二权值和正样本损失值的乘积、以及第三权值和负样本损失值的乘积，相加计算得出总损失值。

步骤1205、目标检测模型训练装置将总损失函数收敛时的检测模型确定为目标检测模型。

其中，总损失函数包括第一损失函数、正样本损失函数、负样本损失函数。对应前述步骤1204的说明，总损失函数的公式即为第一损失函数与第一损失值相乘、正样本损失函数与第二权值相乘、负样本损失函数与第三权值相乘后，三者的乘积相加得出。

基于上述技术方案，本公开实施例能够在检测模型的迭代训练过程中，通过最优检测模型对训练集进行伪标签标注，确定训练集中的正样本标签数据和负样本标签数据，进而求得相应的损失值，并据此不断更新检测模型中的参数，使得每次输出的检测结果更加接近训练集中对目标对象的标注数据所反映的正确结果。由此得出的目标检测模型即可在后续实际应用中良好地完成对目标对象的检测。

以下，结合步骤1201，对正样本得分阈值和负样本得分阈值的确定流程进行说明：

作为本公开的一种可能的实施例，结合图12，如图13所示，上述步骤1201具体包括以下步骤1301-步骤1304：

步骤1301、目标检测模型训练装置获取验证集。

其中，验证集包括与多个训练数据集一一对应的多个验证数据集，每个验证数据集包括一种或多种目标对象的标注数据，检测模型的准确率根据验证集确定。

应理解，此处的验证集与前文描述的验证集相同，此处不再做过多说明。

步骤1302、目标检测模型训练装置确定最优检测模型对于验证集中每个目标对象的检测得分。

需要说明的是，检测得分是对最优检测模型一次检测结果的量化参数。具体对于一个目标对象，通过检测模型确定检测得分的过程，本实施例在此不再叙述。

步骤1303、目标检测模型训练装置根据每个目标对象的检测得分和预设召回率，确定负样本得分阈值。

示例性地，目标检测模型训练装置将预设召回率设置为0.95。此时，目标检测模型训练装置设置初始的负样本得分阈值并不断调整，直至最优检测器对于全部目标对象的检测得分的召回率满足预设召回率0.95，则将此时的负样本得分阈值输出，作为最终的负样本得分阈值。

步骤1304、目标检测模型训练装置根据每个目标对象的检测得分和预设精度，确定正样本得分阈值。

示例性地，目标检测模型训练装置将预设精度设置为0.95。此时，目标检测模型训练装置设置初始的正样本得分阈值并不断调整，直至最优检测器对于全部目标对象的检测得分的精度满足预设精度0.95，则将此时的正样本得分阈值输出，作为最终的正样本得分阈值。

基于上述技术方案，本公开实施例能够基于验证集和从历史检测模型中确定出的最优检测模型，确定出用于确定正样本标签数据、负样本标签数据的正样本得分阈值和负样本得分阈值，以便于后续训练过程的顺利进行。

本公开实施例可以根据上述方法示例对目标检测系统、目标检测模型训练装置进行功能模块或者功能单元的划分，例如，可以对应各个功能划分各个功能模块或者功能单元，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块或者功能单元的形式实现。其中，本公开实施例中对模块或者单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

如图14所示，为根据一些实施例提供的一种目标检测装置1400的结构示意图，该装置包括：获取单元1401和处理单元1402。

其中，获取单元1401，被配置为获取待检测图像。

所述处理单元1402，被配置为采用目标检测模型对所述待检测图像进行处理，得到所述待检测图像中待检测目标对应的目标检测结果。

在一些实施例中，处理单元1402，还被配置为：在与坐标通道层对应的目标通道层计算得到的检测结果大于或等于阈值的情况下，获取坐标通道层的坐标预测值。

在一些实施例中，处理单元1402，还被配置为：在与坐标通道层对应的目标通道层计算得到的检测结果小于阈值的情况下，不获取坐标通道层的坐标预测值。

可选地，目标检测装置1400还可以包括存储单元(图14中以虚线框示出)，该存储单元存储有程序或指令。当处理单元1402执行该程序或指令时，使得目标检测装置1400可以执行上述方法实施例所述的检测器训练方法。

此外，图14所述的目标检测装置1400的技术效果可以参考上述实施例所述的目标检测方法的技术效果，此处不再赘述。

如图15所示，为根据一些实施例提供的一种目标检测模型训练装置1500的结构示意图，该装置包括：获取单元1501和处理单元1502。

其中，获取单元1501，被配置为：获取训练集。训练集包括多个训练数据集，每个训练数据集包括一种或多种类别的目标对象的标注数据，多个训练数据集中的至少两个数据集标注目标对象的类别不同。

处理单元1502，被配置为：根据训练集对检测器模型进行迭代训练，得到训练后的目标检测器模型。

在一些实施例中，处理单元1502，还被配置为：针对每一次迭代，将训练集输入检测器模型，确定多种目标对象的检测结果。

在一些实施例中，处理单元1502，还被配置为：根据多种目标对象的检测结果和第一损失函数计算第一损失值，并调整检测器模型的参数。第一损失函数包括目标损失函数、坐标损失函数、以及类别损失函数。

在一些实施例中，处理单元1502，还被配置为：将第一损失函数收敛时的检测器模型确定为训练后的目标检测器模型。

在一些实施例中，获取单元1501，还被配置为：获取验证集。验证集包括与多个训练数据集一一对应的多个验证数据集，每个验证数据集包括一种或多种目标对象的标注数据。

在一些实施例中，处理单元1502，还被配置为：将多个验证数据集分别输入目标检测模型，得到多个验证数据集下的准确率。

在一些实施例中，处理单元1502，还被配置为：将多个验证数据集下的准确率进行加和计算，作为训练后的目标检测模型的总准确率。或，将多个验证数据集的准确率，共同作为训练后的目标检测模型的总准确率。

可选地，目标检测模型训练装置1500还可以包括存储单元(图14中以虚线框示出)，该存储单元存储有程序或指令。当处理单元1502执行该程序或指令时，使得目标检测模型训练装置1500可以执行上述方法实施例所述的检测器训练方法。

此外，图15所述的目标检测模型训练装置1500的技术效果可以参考上述实施例所述的目标检测模型训练装置1500的技术效果，此处不再赘述。

如图16所示，为根据一些实施例提供的一种目标检测模型训练装置1600的结构示意图，该装置包括：获取单元1601和处理单元1602。

处理单元1602，被配置为：确定最优检测模型。最优检测模型为历史训练检测模型中准确率最高的检测模型，历史训练检测模型包括每一次迭代训练后更新过参数的检测模型。

处理单元1602，还被配置为：根据训练集，对检测模型进行迭代训练，并根据最优检测模型对训练集进行伪标签标注，继续训练检测模型得到目标检测模型。

在一些实施例中，处理单元1602，还被配置为：根据最优检测模型，确定伪标签数据。其中，伪标签数据包括多种缺失目标对象的标注数据，并且缺失目标对象的类别，与训练集包括的标注数据对应的目标对象的类别不同。

在一些实施例中，处理单元1602，还被配置为：根据伪标签数据，对训练集中缺失的目标对象进行标注，得到正样本标签数据和负样本标签数据。

在一些实施例中，处理单元1602，还被配置为：根据正样本标签数据和正样本损失函数，确定正样本损失值。

在一些实施例中，处理单元1602，还被配置为：根据负样本标签数据和负样本损失函数，确定负样本损失值。

在一些实施例中，处理单元1602，还被配置为：根据总损失值，调整检测模型的参数。总损失值根据第一损失值、正样本损失值和负样本损失值确定。

在一些实施例中，处理单元1602，还被配置为：将总损失函数收敛时的检测模型确定为目标检测模型。总损失函数包括第一损失函数、正样本损失函数、负样本损失函数。

在一些实施例中，处理单元1602，还被配置为：将训练集输入最优检测模型，确定最优检测模型对于每个缺失目标对象的检测得分。

在一些实施例中，处理单元1602，还被配置为：对于每个目标对象，若最优检测模型对于缺失目标对象的检测得分大于或等于正样本得分阈值，则确定缺失目标对象对应的标注数据为正样本标签数据。

在一些实施例中，处理单元1602，还被配置为：对于每个目标对象，若最优检测模型对于缺失目标对象的检测得分小于或等于负样本得分阈值，则确定缺失目标对象对应的标注数据为负样本标签数据。

在一些实施例中，获取单元1601，还被配置为：获取验证集；验证集包括与多个训练数据集一一对应的多个验证数据集，每个验证数据集包括一种或多种目标对象的标注数据，检测模型的准确率根据验证集确定。

在一些实施例中，处理单元1602，还被配置为：确定最优检测模型对于验证集中每个目标对象的检测得分。

在一些实施例中，处理单元1602，还被配置为：根据每个目标对象的检测得分和预设召回率，确定负样本得分阈值。

在一些实施例中，处理单元1602，还被配置为：根据每个目标对象的检测得分和预设精度，确定正样本得分阈值。

在一些实施例中，处理单元1602，还被配置为：确定第一权值、第二权值和第三权值。

在一些实施例中，处理单元1602，还被配置为：根据第一权值与第一损失值的乘积、第二权值和正样本损失值的乘积、以及第三权值和负样本损失值的乘积，确定总损失值。

可选地，目标检测模型训练装置1600还可以包括存储单元(图14中以虚线框示出)，该存储单元存储有程序或指令。当处理单元1602执行该程序或指令时，使得目标检测模型训练装置1600可以执行上述方法实施例所述的检测器训练方法。

此外，图16所述的目标检测模型训练装置1600的技术效果可以参考上述实施例所述的目标检测模型训练装置1600的技术效果，此处不再赘述。

图17示出了上述实施例中所涉及的目标检测装置的又一种可能的结构示意图。该目标检测装置1700包括：处理器1702和通信接口1703。处理器1702被配置为对目标检测装置1700的动作进行控制管理，例如，执行上述获取单元1401、处理单元1402执行的步骤，和/或被配置为执行本文所描述的技术的其它过程。通信接口1703被配置为支持目标检测装置1700与其他网络实体的通信。目标检测装置1700还可以包括存储器1701和总线1704，存储器1701被配置为存储目标检测装置1700的程序代码和数据。

其中，存储器1701可以是目标检测装置1700中的存储器等，该存储器可以包括易失性存储器，例如随机存取存储器；该存储器也可以包括非易失性存储器，例如只读存储器，快闪存储器，硬盘或固态硬盘；该存储器还可以包括上述种类的存储器的组合。

上述处理器1702可以是实现或执行结合本公开的公开内容所描述的各种示例性地逻辑方框，模块和电路。该处理器可以是中央处理器，通用处理器，数字信号处理器，专用集成电路，现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本公开的公开内容所描述的各种示例性地逻辑方框，模块和电路。该处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线1704可以是扩展工业标准结构(Extended Industry Standard Architecture，EISA)总线等。总线1704可以分为地址总线、数据总线、控制总线等。为便于表示，图17中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

图17中的目标检测装置1700还可以为芯片。该芯片包括一个或两个以上(包括两个)处理器1702和通信接口1703。

可选地，该芯片还包括存储器1701，存储器1701可以包括只读存储器和随机存取存储器，并向处理器1702提供操作指令和数据。存储器1701的一部分还可以包括非易失性随机存取存储器(non-volatile random access memory，NVRAM)。

在一些实施方式中，存储器1701存储了如下的元素，执行模块或者数据结构，或者他们的子集，或者他们的扩展集。

在本公开实施例中，通过调用存储器1701存储的操作指令(该操作指令可存储在操作系统中)，执行相应的操作。

图18示出了上述实施例中所涉及的目标检测模型训练装置的又一种可能的结构示意图。该目标检测模型训练装置1800包括：处理器1802和通信接口1803。处理器1802被配置为对目标检测模型训练装置1800的动作进行控制管理，例如，执行上述获取单元1501、处理单元1502、获取单元1601、处理单元1602执行的步骤，和/或被配置为执行本文所描述的技术的其它过程。通信接口1803被配置为支持目标检测模型训练装置1800与其他网络实体的通信。目标检测模型训练装置1800还可以包括存储器1801和总线1804，存储器1801被配置为存储目标检测模型训练装置1800的程序代码和数据。

其中，存储器1801可以是目标检测模型训练装置1800中的存储器等，该存储器可以包括易失性存储器，例如随机存取存储器；该存储器也可以包括非易失性存储器，例如只读存储器，快闪存储器，硬盘或固态硬盘；该存储器还可以包括上述种类的存储器的组合。

上述处理器1802可以是实现或执行结合本公开的公开内容所描述的各种示例性地逻辑方框，模块和电路。该处理器可以是中央处理器，通用处理器，数字信号处理器，专用集成电路，现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本公开的公开内容所描述的各种示例性地逻辑方框，模块和电路。该处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线1804可以是扩展工业标准结构(Extended Industry Standard Architecture，EISA)总线等。总线1804可以分为地址总线、数据总线、控制总线等。为便于表示，图18中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

图18中的目标检测模型训练装置1800还可以为芯片。该芯片包括一个或两个以上(包括两个)处理器1802和通信接口1803。

可选地，该芯片还包括存储器1801，存储器1801可以包括只读存储器和随机存取存储器，并向处理器1802提供操作指令和数据。存储器1801的一部分还可以包括非易失性随机存取存储器(non-volatile random access memory，NVRAM)。

在一些实施方式中，存储器1801存储了如下的元素，执行模块或者数据结构，或者他们的子集，或者他们的扩展集。

在本公开实施例中，通过调用存储器1801存储的操作指令(该操作指令可存储在操作系统中)，执行相应的操作。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本公开的一些实施例提供了一种计算机可读存储介质(例如，非暂态计算机可读存储介质)，该计算机可读存储介质中存储有计算机程序指令，计算机程序指令在计算机(例如，检测器训练装置)上运行时，使得计算机执行如上述实施例中任一实施例所述的目标检测方法及目标检测器模型训练方法。

示例性地，上述计算机可读存储介质可以包括，但不限于：磁存储器件(例如，硬盘、软盘或磁带等)，光盘(例如，CD(Compact Disk，压缩盘)、DVD(Digital Versatile Disk，数字通用盘)等)，智能卡和闪存器件(例如，EPROM(Erasable Programmable Read-Only Memory，可擦写可编程只读存储器)、卡、棒或钥匙驱动器等)。本公开描述的各种计算机可读存储介质可代表用于存储信息的一个或多个设备和/或其它机器可读存储介质。术语“机器可读存储介质”可包括但不限于，无线信道和能够存储、包含和/或承载指令和/或数据的各种其它介质。

本公开的一些实施例还提供了一种计算机程序产品，例如该计算机程序产品存储在非瞬时性的计算机可读存储介质上。该计算机程序产品包括计算机程序指令，在计算机(例如，检测器训练装置)上执行该计算机程序指令时，该计算机程序指令使计算机执行如上述实施例所述的目标检测方法及目标检测器模型训练方法。

本公开的一些实施例还提供了一种计算机程序。当该计算机程序在计算机(例如，检测器训练装置)上执行时，该计算机程序使计算机执行如上述实施例所述的目标检测方法及目标检测器模型训练方法。

上述计算机可读存储介质、计算机程序产品及计算机程序的有益效果和上述一些实施例所述的目标检测方法及目标检测器模型训练方法的有益效果相同，此处不再赘述。

在本公开所提供的几个实施例中，应该理解到，所揭露的系统、设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

一种目标检测方法，包括：

获取待检测图像；

采用目标检测模型对所述待检测图像进行处理，得到所述待检测图像中待检测目标对应的目标检测结果；

其中，所述目标检测模型包括特征提取网络和目标预测网络；

所述特征提取网络用于对所述待检测图像进行特征提取得到多种目标对象相关的图像特征；

所述目标检测网络用于对所述图像特征进行处理得到所述目标检测结果；

所述目标检测网络包括类别通道层、多个目标通道层和多个坐标通道层；所述目标通道层用于输出表征是否存在目标对象的检测预测值，每个所述目标通道层用于检测所述多种目标对象中的至少一种，多个所述目标通道层用于检测的目标对象的类别不同；所述类别通道层用于输出所述多种目标对象对应的类别预测值；所述坐标通道层用于输出目标对象对应的坐标预测值；所述目标检测结果是基于所述检测预测值、所述类别预测值和所述坐标预测值计算得到的。
根据权利要求1所述的方法，其中，所述多个所述坐标通道层和多个所述目标通道层一一对应，每个坐标通道层和与其对应的目标通道层检测的目标对象的类别相同；所述坐标通道层用于在对应的目标通道层检测到所述目标对象时获取所述目标对象的坐标预测值。
根据权利要求2所述的方法，其中，所述目标检测结果包括检测结果和坐标结果；所述检测结果为根据所述目标通道层的检测预测值和对应的类别预测值融合计算得到；

所述坐标通道层用于在对应的所述目标通道层检测到所述目标对象时确定所述目标对象的坐标预测值，包括：在与所述坐标通道层对应的目标通道层计算得到的所述检测结果大于或等于阈值的情况下，获取所述坐标通道层的坐标预测值；在与所述坐标通道层对应的目标通道层计算得到的所述检测结果小于阈值的情况下，不获取所述坐标通道层的坐标预测值。
根据权利要求3所述的方法，其中，所述坐标通道层、所述多个目标通道层和所述多个坐标通道层的结构为卷积结构；所述卷积结构的卷积核大小为一乘一。
根据权利要求4所述的方法，其中，所述特征提取网络包括主干网络和过渡网络，所述主干网络用于根据所述待检测图像确定通用类别的图像特征，所述过渡网络用于根据所述通用类别的图像特征确定与所述多种目标对象相关的图像特征。
一种目标检测模型训练方法，包括：

获取训练集；所述训练集包括多个训练数据集，每个所述训练数据集包括一种或多种类别的目标对象的标注数据，多个所述训练数据集中的至少两个数据集标注目标对象的类别不同；

根据所述训练集对检测模型进行迭代训练，得到目标检测模型；

其中，所述目标检测模型包括特征提取网络和目标预测网络；

所述特征提取网络用于对所述待检测图像进行特征提取得到多种目标对象相关的图像特征；

所述目标检测网络用于对所述图像特征进行处理得到所述目标检测结果；

所述目标检测网络包括类别通道层、多个目标通道层和多个坐标通道层；所述目标通道层用于输出表征是否存在目标对象的检测预测值，每个所述目标通道层用于检测所述多种目标对象中的至少一种，多个所述目标通道层用于检测的目标对象的类别不同；所述类别通道层用于输出所述多种目标对象对应的类别预测值；所述坐标通道层用于输出目标对象对应的坐标预测值；所述目标检测结果是基于所述检测预测值、所述类别预测值和所述坐标预测值计算得到的。
根据权利要求6所述的方法，其中，所述根据所述训练集对检测模型进行迭代训练，得到目标检测模型，包括：

针对每一次迭代，将所述训练集输入所述检测模型，确定所述多种目标对象的检测结果；

根据所述多种目标对象的检测结果和第一损失函数计算第一损失值，并调整所述检测模型的参数；所述第一损失函数包括目标损失函数、坐标损失函数、以及类别损失函数；

将所述第一损失函数收敛时的检测模型确定为所述目标检测模型。
根据权利要求7所述的方法，其中，所述目标损失函数满足以下公式：

其中，L_obj+表示所述训练集中正样本的目标损失值，NP表示所述目标通道层的总数量，b表示所述目标通道层的编号，Target(b)表示第b个所述目标通道层对应的所述正样本的Anchor集合，BCELoss表示BCE损失函数，s表示所述正样本的编号，P_obj(s，b)表示第b个所述目标通道层与第s个所述正样本的Anchor对应的目标预测值，GT_obj(s)表示第s个正样本的Anchor对应的目标真值；L_obj-表示所述训练集中负样本的目标损失值，1(……)为取值函数，当输入为True时取值为1，否则取值为0，L_obj(b)表示第b个所述目标通道层对应的所述目标对象的类别子集，L_data表示当前训练数据所标注的目标对象的类别集合，H表示目标通道层输出的数据矩阵的行数，W表示目标通道层输出的数据矩阵的列数，p表示像素点的编号，Anchor表示全部的Anchor集合，a表示像素点p的Anchor，Mask(p，a)表示所述像素点p对应的位置是否有标注框，P_obj(p，a，b)表示第b个所述目标通道层输出的所述像素点p的第a个Anchor的目标预测值，GT_obj(p，a)表示所述像素点p的第a个Anchor的目标真值。
根据权利要求7所述的方法，其中，所述坐标损失函数满足以下公式：

其中，L_box表示坐标损失值，NP表示所述目标通道层的总数量，b表示所述目标通道层的编号，Target(b)表示第b个所述目标通道层对应的正样本的Anchor集合，IOU表示重叠度(intersection over union，IOU)计算函数，s表示所述正样本的编号，P_box(s，b)表示第b个所述目标通道层输出的第s个所述正样本的坐标预测值，GT_box(s)表示第s个所述正样本的坐标真值。
根据权利要求7所述的方法，其中，所述类别损失函数满足以下公式：

其中，L_cls表示类别损失值，Class表示所述目标对象的类别总数，1[……]为取值函数，当输入为True时取值为1，否则取值为0，b表示所述目标通道层的编号，B_cls(b)表示第b个所述目标通道层对应的第二类别的集合，Len(B_cls(b))表示第b个目标通道层对应的所述目标对象的类别子集，H表示所述目标通道层输出的数据矩阵的行数，W表示所述目标通道层输出的数据矩阵的列数，Anchor表示全部的Anchor集合，Mask(p，a)表示像素点p对应的位置是否有标注框，BCELoss表示BCE损失函数，P_cls(p，a，c)表示类别预测值，GT_cls(p，a，c)表示类别真值。
根据权利要求6-10任一项所述的方法，其中，还包括：

获取验证集；所述验证集包括与所述多个训练数据集一一对应的多个验证数据集，每个所述验证数据集包括一种或多种目标对象的标注数据；

将多个所述验证数据集分别输入所述目标检测模型，得到多个所述验证数据集下的准确率；

将多个所述验证数据集下的准确率进行加和计算，作为所述训练后的目标检测模型的总准确率；或，将多个所述验证数据集的准确率，共同作为训练后的目标检测模型的总准确率。
一种目标检测模型训练方法，包括：

获取训练集；所述训练集包括多个训练数据集，每个所述训练数据集包括一种或多种类别的目标对象的标注数据，多个所述数据集中的至少两个数据集标注目标对象的类别不同；

确定最优检测模型；所述最优检测模型为历史训练检测模型中准确率最高的检测模型，所述历史训练检测模型包括每一次迭代训练后更新过参数的所述检测模型；

根据所述训练集，对所述检测模型进行迭代训练，并根据所述最优检测模型对所述训练集进行伪标签标注，继续训练所述检测模型得到所述目标检测模型。
根据权利要求12所述的方法，其中，所述根据所述最优检测模型对所述训练集进行伪标签标注，得到所述目标检测模型，包括：

根据所述最优检测模型，对所述训练集中每个所述训练数据集的缺失目标对象进行伪标签标注，得到正样本标签数据和负样本标签数据；其中，所述缺失目标对象为所述训练数据集未标注类别的目标对象；

根据所述正样本标签数据和正样本损失函数，确定正样本损失值；

根据所述负样本标签数据和负样本损失函数，确定负样本损失值；

根据总损失值，调整所述检测模型的参数；所述总损失值根据第一损失值、所述正样本损失值和所述负样本损失值确定；

将总损失函数收敛时的检测模型确定为所述目标检测模型；所述总损失函数包括第一损失函数、正样本损失函数、负样本损失函数。
根据权利要求13所述的方法，其中，所述根据所述最优检测模型，对所述训练集中的缺失目标对象进行标注，得到正样本标签数据和负样本标签数据，包括：

将所述训练集输入所述最优检测模型，确定所述最优检测模型对于每个缺失目标对象的检测得分；

对于每个缺失目标对象，若所述最优检测模型对于所述缺失目标对象的检测得分大于或等于正样本得分阈值，则确定所述缺失目标对象对应的标注数据为所述正样本标签数据；

对于每个缺失目标对象，若所述最优检测模型对于所述缺失目标对象的检测得分小于或等于负样本得分阈值，则确定所述缺失目标对象对应的标注数据为所述负样本标签数据。
根据权利要求14所述的方法，其中，所述正样本得分阈值和所述负样本得分阈值根据以下步骤确定：

获取验证集；所述验证集包括与所述多个训练数据集一一对应的多个验证数据集，每个所述验证数据集包括一种或多种目标对象的标注数据，所述检测模型的准确率根据所述验证集确定；

确定所述最优检测模型对于所述验证集中每个目标对象的检测得分；

根据所述每个目标对象的检测得分和预设召回率，确定负样本得分阈值；

根据所述每个目标对象的检测得分和预设精度，确定正样本得分阈值。
根据权利要求12-15中任一项所述的方法，其中，还包括：

确定第一权值、第二权值和第三权值；

根据所述第一权值与所述第一损失值的乘积、所述第二权值和所述正样本损失值的乘积、以及所述第三权值和所述负样本损失值的乘积，确定所述总损失值。
一种目标检测装置，包括：获取单元和处理单元；

所述获取单元，被配置为获取待检测图像；

所述处理单元，被配置为采用目标检测模型对所述待检测图像进行处理，得到所述待检测图像中待检测目标对应的目标检测结果；

其中，所述目标检测模型包括特征提取网络和目标预测网络；

所述特征提取网络用于对所述待检测图像进行特征提取得到多种目标对象相关的图像特征；

所述目标检测网络用于对所述图像特征进行处理得到所述目标检测结果；

所述目标检测网络包括类别通道层、多个目标通道层和多个坐标通道层；所述目标通道层用于输出表征是否存在目标对象的检测预测值，每个所述目标通道层用于检测所述多种目标对象中的至少一种，多个所述目标通道层用于检测的目标对象的类别不同；所述类别通道层用于输出所述多种目标对象对应的类别预测值；所述坐标通道层用于输出目标对象对应的坐标预测值；所述目标检测结果是基于所述检测预测值、类别预测值和坐标预测值计算得到的。
一种目标检测模型训练装置，包括：获取单元和处理单元；

所述获取单元，被配置为获取训练集；所述训练集包括多个训练数据集，每个所述训练数据集包括一种或多种类别的目标对象的标注数据，多个所述训练数据集中的至少两个数据集标注目标对象的类别不同；

所述处理单元，被配置为根据所述训练集对检测模型进行迭代训练，得到目标检测模型；

其中，所述目标检测模型包括特征提取网络和目标预测网络；

所述特征提取网络用于对所述待检测图像进行特征提取得到多种目标对象相关的图像特征；

所述目标检测网络用于对所述图像特征进行处理得到所述目标检测结果；

所述目标检测网络包括类别通道层、多个目标通道层和多个坐标通道层；所述目标通道层用于输出表征是否存在目标对象的检测预测值，每个所述目标通道层用于检测所述多种目标对象中的至少一种，多个所述目标通道层用于检测的目标对象的类别不同；所述类别通道层用于输出所述多种目标对象对应的类别预测值；所述坐标通道层用于输出目标对象对应的坐标预测值；所述目标检测结果是基于所述检测预测值、类别预测值和坐标预测值计算得到的。
一种目标检测模型训练装置，包括：获取单元和处理单元；

获取单元，被配置为获取训练集；所述训练集包括多个训练数据集，每个所述训练数据集包括一种或多种类别的目标对象的标注数据，多个所述数据集中的至少两个数据集标注目标对象的类别不同；

所述处理单元，被配置为确定最优检测模型；所述最优检测模型为历史训练检测模型中准确率最高的检测模型，所述历史训练检测模型包括每一次迭代训练后更新过参数的所述检测模型；

所述处理单元，还被配置为根据所述训练集，对所述检测模型进行迭代训练，并根据所述最优检测模型对所述训练集进行伪标签标注，继续训练所述检测模型得到所述目标检测模型。
一种非暂态计算机可读存储介质，其中，所述非暂态计算机可读存储介质中存储有指令，当计算机执行所述指令时，所述计算机执行上述权利要求1-5中任一项所述的目标检测方法，和/或执行上述权利要求6-11或如权利要求12-16中任一项所述的目标检测模型训练方法。
一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储计算机程序指令，所述处理器执行所述计算机程序指令时，实现上述权利要求1-5中任一项所述的目标检测方法，和/或执行上述权利要求6-11或如权利要求12-16中任一项所述的目标检测模型训练方法。