WO2021227645A1

WO2021227645A1 - 目标检测方法和装置

Info

Publication number: WO2021227645A1
Application number: PCT/CN2021/081090
Authority: WO
Inventors: 尹晓萌; 苏惠荞
Original assignee: 华为技术有限公司
Priority date: 2020-05-14
Filing date: 2021-03-16
Publication date: 2021-11-18
Also published as: US20230072730A1; EP4141737A4; CN113673282A; EP4141737A1

Abstract

本申请实施例提供了一种目标检测方法和装置，该目标检测方法包括：利用摄像装置获取图像；基于摄像装置的参数和预设行驶路径，标定出图像中的感兴趣区域；利用目标检测算法对图像进行检测，得到图像中的目标对象所属的类别、所述目标对象在图像中的第一位置区域和目标对象所属的类别的置信度；基于第一位置区域与感兴趣区域之间的相对位置关系，修正目标对象所属的类别的置信度，得到第一置信度，从而使得所检测出的目标对象更加准确。

Description

目标检测方法和装置

本申请要求于2020年5月14日提交中国专利局、申请号为202010408685.9、申请名称为“目标检测方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种目标检测方法和装置。

背景技术

随着科学技术的发展，人工智能(AI，Artificial Intelligence)技术得到突飞猛进的提升。在一些人工智能技术中，通常采用机器学习的方法，构建各种结构的初始模型，例如神经网络模型、支持向量机模型、决策树模型等。然后，通过对各种初始模型进行训练，以实现诸如图像识别、自然语言处理等目的。其中，图像识别还包括对图像中呈现的文字识别和对图像中呈现的各个对象进行目标检测。

相关目标检测技术中，在诸如需要进行小目标检测的场景中，例如自动驾驶场景，对道路上较远处或者较小的目标检测时，通常无法进行有效的识别。例如，将远处指示牌上的行人标识识别成道路上的行人。

由此，如何对图像中的小目标进行有效的识别成为需要解决的问题。

发明内容

通过采用本申请所示的目标检测方法和装置，可以降低对图像中的小目标识别错误的概率，有利于提高目标检测的检测精度。

为达到上述目的，本申请采用如下技术方案：

第一方面，本申请实施例提供一种目标检测方法，该目标检测方法应用于电子设备，该目标检测方法包括：利用摄像装置获取图像；基于所述摄像装置的参数和预设行驶路径，标定出所述图像中的感兴趣区域；利用目标检测算法对所述图像进行检测，得到所述图像中的目标对象所属的类别、所述目标对象在所述图像中的第一位置区域和所述目标对象所属的类别的置信度；基于所述第一位置区域与所述感兴趣区域之间的相对位置关系，修正所述目标对象所属的类别的置信度，得到第一置信度。

通过利用所检测出的目标对象所在的位置区域和感兴趣区域之间的位置关系确定所属的类别的第一置信度，可以进一步验证所检测出的目标对象所属的类别是否正确，过滤出一些不符合逻辑或者不符合常理的类别检测结果，从而提高目标检测的准确性。

基于第一方面，当第一置信度小于预设阈值时，可以直接输出该第一置信度；当第一置信度小于预设阈值时，目标检测方法还包括：基于所述摄像装置的参数、所述第一位置区域在图像中的边界坐标、预先设置的所述类别对应的对象在现实世界中的大小，确定所述图像中的第二位置区域；检测所述第一位置区域和所述第二位置区域之间的误差；基于所述误差，修正所述第一置信度，得到所述目标所属的类别的第二置信度。

通过利用第二位置区域和第一位置区域之间的误差修正第一置信度，可以进一步降低对道路上的目标对象误判的情况(例如将道路远处的树木误判为行人)，从而可以进一步提高目标对象检测的准确性。

在一种可能的实现方式中，所述摄像装置的参数包括以下至少一项：所述摄像装置的焦距、所述摄像装置与参考面的距离、由所述摄像装置坐标系转换为图像坐标系的转换矩阵和感光元件中的感光单元的尺寸。

在一种可能的实现方式中，所述基于所述摄像装置的参数、所述第一位置区域在图像中的边界坐标、所述类别对应的对象在现实世界中的大小，确定所述图像中的第二位置区域，包括：基于所述摄像装置的焦距、所述摄像装置与参考面的距离、由所述摄像装置坐标系转换为图像坐标系的转换矩阵、感光元件中的感光单元的尺寸和所述第一位置区域在图像中的边界坐标，确定所述摄像装置与所述目标对象之间的距离；基于所述摄像装置与目标对象之间的距离、所检测出的类别对应的对象在现实世界中的大小、所述摄像装置与参考面的距离、以及所述第一位置区域的边界坐标，确定所述图像中的第二位置区域。

在一种可能的实现方式中，所述目标对象所属的类别是将所述目标对象的特征与多个预设候选类别对应的对象的特征进行匹配，基于匹配结果，从所述预设候选类别中选择出的。

基于第一方面，在一种可能的实现方式中，上述目标检测算法可以是预先训练的目标检测模型。其中，所述利用目标检测算法对所述图像进行检测，得到所述图像中的目标对象所属的类别、所述目标对象在所述图像中的第一位置区域和所述目标对象所属的类别的置信度，包括：在预先训练的目标检测模型中设置标定参数，所述标定参数用于指示所述目标检测模型在所述图像中标定出多个候选区域；将所述图像输入至所述目标检测模型，得到所述目标检测模型的输出结果，所述输出结果用于指示各所述候选区域中是否呈现有预设候选类别的对象和所述目标对象所属的类别的置信度，其中，所述目标检测模型是基于训练样本和用于进行候选区域标定的标定参数，对神经网络训练得到的。

基于第一方面，在一种可能的实现方式中，所述图像中的多个候选区域是基于约束条件预先确定的；所述约束条件包括：各所述预设候选类别对应的对象呈现在所述图像中的区域范围、以及各所述预设候选类别对应的对象在所述图像中的成像大小范围。

通过采用约束条件对标定的位置区域进行筛选，可以过滤掉一些不必要进行检测的位置区域，降低了图像中待检测的位置区域的数目，从而提高目标检测模型的检测速度和检测准确度。

在一种可能的实现方式中，所述确定所述图像中的多个候选区域，包括：在所述图像中标定出初始候选区域；利用所述约束条件对所述初始候选区域进行筛选，基于筛选结果，得到所述多个候选区域。

在一种可能的实现方式中，所述方法还包括对所述目标检测模型的优化步骤，所述优化步骤包括：获取训练样本集，所述训练样本集包括多个样本图像，各所述样本图像中呈现有目标对象；将样本图像输入至所述目标检测模型，得各样本图像中的目标对象所属的类别和目标对象在样本图像中的第一位置区域，基于样本图像中的目标对象所属的类别、第一置区域的边界坐标以及用于拍摄样本图像的拍摄设备的参数，确定各样本图像中的第二位置区；利用预设损失函数确定各训练样本中第一位置区域和第二位置区域之间的偏差，基于所述偏差，迭代调整所述目标检测模型，得到优化后的目标检测模型。

通过对目标检测模型进行优化，可以进一步提高目标检测模型的检测准确度，也即提高道路目标检测的准确性，为后续自动驾驶车辆进行障碍物检测与躲避等提供保障。

第二方面，本申请实施例提供一种目标检测装置，该目标检测装置包括：获取模块，用于利用摄像装置获取图像；标定模块，用于基于所述摄像装置的参数和预设行驶路径，标定出所述图像中的感兴趣区域；第一检测模块，用于利用目标检测算法对所述图像进行检测，得到所述图像中的目标对象所属的类别、所述目标对象在所述图像中的第一位置区域和所述目标对象所属的类别的置信度；第一修正模块，用于基于所述第一位置区域与所述感兴趣区域之间的相对位置关系，修正所述目标对象所属的类别的置信度，得到第一置信度。

基于第二方面，在一种可能的实现方式中，所述目标检测装置还包括：确定模块，用于响应于所述第一置信度大于预设阈值，基于所述摄像装置的参数、所述第一位置区域在图像中的边界坐标、预先设置的所述类别对应的对象在现实世界中的大小，确定所述图像中的第二位置区域；第二检测模块，用于检测所述第一位置区域和所述第二位置区域之间的误差；第二修正模块，用于基于所述误差，修正所述第一置信度，得到所述目标所属的类别的第二置信度。

基于第二方面，在一种可能的实现方式中，所述摄像装置的参数包括以下至少一项：所述摄像装置的焦距、所述摄像装置与参考面的距离、由所述摄像装置坐标系转换为图像坐标系的转换矩阵和感光元件中的感光单元的尺寸。

基于第二方面，在一种可能的实现方式中，所述确定模块包括：第一确定子模块，用于基于所述摄像装置的焦距、所述摄像装置与参考面的距离、由所述摄像装置坐标系转换为图像坐标系的转换矩阵、感光元件中的感光单元的尺寸和所述第一位置区域在图像中的边界坐标，确定所述摄像装置与所述目标对象之间的距离；第二确定子模块，用于基于所述摄像装置与目标对象之间的距离、所检测出的类别对应的对象在现实世界中的大小、所述摄像装置与参考面的距离、以及所述第一位置区域的边界坐标，确定所述图像中的第二位置区域。

基于第二方面，在一种可能的实现方式中，所述目标对象所属的类别是将所述目标对象的特征与多个预设候选类别对应的对象的特征进行匹配，基于匹配结果，从所述预设候选类别中选择出的。

基于第二方面，在一种可能的实现方式中，所述第一检测模块包括：设置子模块，用于在预先训练的目标检测模型中设置标定参数，所述标定参数用于指示所述目标检测模型在所述图像中标定出多个候选区域；检测子模块，用于将所述图像输入至所述目标检测模型，得到所述目标检测模型的输出结果，所述输出结果用于指示各所述候选区域中是否呈现有预设候选类别的对象和所述目标对象所属的类别的置信度，其中，所述目标检测模型是基于训练样本和用于进行候选区域标定的标定参数，对神经网络训练得到的。

基于第二方面，在一种可能的实现方式中，所述图像中的多个候选区域是基于约束条件预先确定的；所述约束条件包括：各所述预设候选类别对应的对象呈现在所述图像中的区域范围、以及各所述预设候选类别对应的对象在所述图像中的成像大小范围。

基于第二方面，在一种可能的实现方式中，所述设置子模块具体用于：在所述图像中标定出初始候选区域；利用所述约束条件对所述初始候选区域进行筛选，基于筛选结果，得到所述多个候选区域。

基于第二方面，在一种可能的实现方式中，所述目标检测装置还包括模型优化模块，所述模型优化模块具体用于：获取训练样本集，所述训练样本集包括多个样本图像，各所述样本图像中呈现有目标对象；将样本图像输入至所述目标检测模型，得各样本图像中的目标对象所属的类别和目标对象在样本图像中的第一位置区域，基于样本图像中的目标对象所属的类别、第一置区域的边界坐标以及用于拍摄样本图像的拍摄设备的参数，确定各样本图像中的第二位置区；利用预设损失函数确定各训练样本中第一位置区域和第二位置区域之间的偏差，基于所述偏差，迭代调整所述目标检测模型，得到优化后的目标检测模型。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，使得电子设备实现如第一方面所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质存储有指令，当指令在计算机上运行时，用于执行上述第一方面所述的方法。

第五方面，本申请实施例提供一种计算机程序或计算机程序产品，当计算机程序或计算机程序产品在计算机上被执行时，使得计算机执行如第一方面所述的方法。

应当理解的是，本申请的第二至五方面与本申请的第一方面的技术方案一致，各方面及对应的可行实施方式所取得的有益效果相似，不再赘述。

附图说明

图1是本申请实施例提供的应用于本申请实施例的一种应用场景的硬件结构示意图；

图2是本申请实施例提供的现有技术中对于图象呈现的对象误判的示意图；

图3是本申请实施例提供的一个目标检测方法的示意性流程图；

图4是本申请实施例提供的目标检测模型训练过程中提供的负样本的一个示意图；

图5a-图5e是本申请实施例提供的目标检测方法的一个应用场景示意图；

图6是本申请实施例提供的又一个目标检测方法的示意性流程图；

图7是本申请实施例提供的目标检测方法的又一个应用场景示意图；

图8a-图8b是本申请实施例提供的在图7所示的应用场景下第二位置区域的确定方法的示意图；

图9是本申请实施例提供的目标检测装置的一个示意图。

具体实施方式

下面结合本申请实施例中的附图对本申请实施例进行描述。以下描述中，参考形成本申请一部分并以说明之方式示出本申请实施例的具体方面或可使用本申请实施例的具体方面的附图。应理解，本申请实施例可在其它方面中使用，并可包括附图中未描绘的结构或逻辑变化。因此，以下详细描述不应以限制性的意义来理解，且本申请的范围由所附权利要求书界定。例如，应理解，结合所描述方法的揭示内容可以同样适用于用于执行所述方法的对应设备或系统，且反之亦然。例如，如果描述一个或多个具体方法步骤，则对应的设备可以包含如功能单元等一个或多个单元，来执行所描述的一个或多个方法步骤(例如，一个单元执行一个或多个步骤，或多个单元，其中每个都执行多个步骤中的一个或多个)，即使附图中未明确描述或说明这种一个或多个单元。另一方面，例如，如果基于如功能单元等一个或多个单元描述具体装置，则对应的方法可以包含一个步骤来执行一个或多个单元的功能性(例如，一个步骤执行一个或多个单元的功能性，或多个步骤，其中每个执行多个单元中一个或多个单元的功能性)，即使附图中未明确描述或说明这种一个或多个步骤。进一步，应理解的是，除非另外明确提出，本文中所描述的各示例性实施例和/或方面的特征可以相互组合。

本申请所述的目标检测方法，可以应用于图像识别领域、需要对图像中的小目标进行检测和识别的各种场景中。下面以自动驾驶场景中、对道路上的小目标检测为例，对本申请进行详细说明。

请参考图1，图1为本申请实施例中的车辆的结构示意图。

耦合到车辆100或包括在车辆100中的组件可以包括推进系统110、传感器系统120、控制系统130、外围设备140、电源101、计算装置107以及用户接口108。计算装置107包括处理器102、收发器103和存储器104。计算装置107以是车辆100的控制器或控制器的一部分。存储器104包括处理器102可以运行的指令106，并且还可以存储地图数据105。车辆100的组件可以被配置为以与彼此互连和/或与耦合到各系统的其它组件互连的方式工作。例如，电源101可以向车辆100的所有组件提供电力。计算装置107可以被配置为从推进系统110、传感器系统120、控制系统130和外围设备140接收数据并对它们进行控制。计算装置107可以被配置为在用户接口108上生成图像的显示并从用户接口108接收输入。

在一些可能的实施方式中，车辆100还可以包括更多、更少或不同的系统，并且每个系统可以包括更多、更少或不同的组件。此外，示出的系统和组件可以按任意种的方式进行组合或划分，本申请实施例对此不做具体限定。

下面，对上述各个系统进行说明。

上述推进系统102可以用于车辆100提供动力运动。仍参见图1所示，推进系统102可以包括引擎/发动机114、能量源113、传动装置(transmission)112和车轮/轮胎111。当然，推进系统102还可以额外地或可替换地包括除了图1所示出组件外的其它组件，本申请实施例对此不做具体限定。

传感器系统104可以包括用于感测关于车辆100所位于的环境的信息的若干个传感器。如图所示，传感器系统的传感器包括全球定位系统GPS126、惯性测量单元(inertial measurement unit，IMU)125、激光雷达传感器124、视觉传感器123、毫米波雷达传感器122以及用于为修改传感器的位置和/或朝向的致动器121中的至少一个。传感器系统120也可以包括额外的传感器，包括例如监视车辆100的内部系统的传感器(例如，O2监视器、燃油量表、机油温度，等中的至少一个)。传感器系统120也可以包括其它传感器。

全球定位系统(global positioning system，GPS)模块126可以为用于估计车辆100的地理位置的任何传感器。为此，GPS模块126可能包括收发器，基于卫星定位数据，估计车辆100相对于地球的位置。在示例中，计算装置107可以用于结合地图数据105使用GPS模块126来估计车辆100可以在其上行驶的道路上的车道边界的位置。GPS模块126 也可以采取其它形式。

IMU 125可以是用于基于惯性加速度及其任意组合来感测车辆100的位置和朝向变化。在一些示例中，传感器的组合可以包括例如加速度计和陀螺仪。传感器的其它组合也是可能的。

激光雷达传感器(light detection and ranging，LiDAR)124可以被看作物体检测系统，该传感器使用光感测或检测车辆100所位于的环境中的物体。通常，LIDAR 124是可以通过利用光照射目标来测量到目标的距离或目标的其它属性的光学遥感技术。作为示例，LIDAR 124可以包括被配置为发射激光脉冲的激光源和/或激光扫描仪，和用于为接收激光脉冲的反射的检测器。例如，LIDAR 124可以包括由转镜反射的激光测距仪，并且以一维或二维围绕数字化场景扫描激光，从而以指定角度间隔采集距离测量值。在示例中，LIDAR 124可以包括诸如光源(例如，激光)、扫描仪和光学系统、光检测器和接收器电子器件之类的组件，以及位置和导航系统。LIDAR 124通过扫描一个物体上反射回来的激光确定物体的距离，可以形成精度高达厘米级的三维(3 dimensions，3D)环境图。

视觉传感器(visual sensor)123可以用于获取车辆100所位于的环境的图像的任何摄像头(例如，静态摄像头、视频摄像头等)。为此，视觉传感器123可以被配置为检测可见光，或可以被配置为检测来自光谱的其它部分(如红外光或紫外光)的光。其它类型的视觉传感器也是可能的。视觉传感器123可以是二维检测器，或可具有三维空间范围的检测器。在一些可能的实施方式中，视觉传感器123例如可以是距离检测器，其被配置为生成指示从视觉传感器123到环境中的若干点的距离的二维图像。为此，视觉传感器123可使用一种或多种距离检测技术。例如，视觉传感器123可被配置为使用结构光技术，其中车辆100利用预定光图案，诸如栅格或棋盘格图案，对环境中的物体进行照射，并且使用视觉传感器123检测从物体的预定光图案的反射。基于反射的光图案中的畸变，车辆100可被配置为检测到物体上的点的距离。预定光图案可包括红外光或其它波长的光。

毫米波雷达传感器(millimeter-wave radar)122通常指波长为1～10mm的物体检测传感器，频率大致范围是10GHz～200GHz。毫米波雷达测量值具备深度信息，可以提供目标的距离；其次，由于毫米波雷达有明显的多普勒效应，对速度非常敏感，可以直接获得目标的速度，通过检测其多普勒频移可将目标的速度提取出来。目前主流的两种车载毫米波雷达应用频段分别为24GHz和77GHz，前者波长约为1.25cm，主要用于短距离感知，如车身周围环境、盲点、泊车辅助、变道辅助等；后者波长约为4mm，用于中长距离测量，如自动跟车、自适应巡航(adaptive cruise control，ACC)、紧急制动(autonomous emergency braking，AEB)等。

控制系统130可被配置为控制车辆100及其组件的操作。为此，控制系统130可包括转向单元136、油门135、制动单元134、传感器融合单元133、计算机视觉系统132、导航或路线控制(pathing)系统131。当然，控制系统130还可以额外地或可替换地包括除了图1所示出组件外的其它组件，本申请实施例对此不做具体限定。

外围设备140可被配置为允许车辆100与外部传感器、其它车辆和/或用户交互。为此，外围设备140可以包括例如无线通信系统144、触摸屏143、麦克风142和/或扬声器141。当然，外围设备140可以额外地或可替换地包括除了图1所示出组件外的其它组件，本申请实施例对此不做具体限定。

电源101可以被配置为向车辆100的一些或全部组件提供电力。为此，电源110可以包括例如可再充电锂离子或铅酸电池。在一些示例中，一个或多个电池组可被配置为提供电力。其它电源材料和配置也是可能的。在一些可能的实现方式中，电源110和能量源113可以一起实现。

包括在计算装置107中的处理器102可包括一个或多个通用处理器和/或一个或多个专用处理器(例如，图像处理器、数字信号处理器等)。就处理器102包括多于一个处理器而言，此时处理器可单独工作或组合工作。计算装置107可以实现基于通过用户接口108接收的输入控制车辆100的功能。

收发器103用于计算装置107与各个系统间的通信。

存储器104进一步可以包括一个或多个易失性存储组件和/或一个或多个非易失性存储组件，诸如光、磁和/或有机存储装置，并且存储器104可全部或部分与处理器102集成。存储器104可以包含可由处理器102运行的指令106(例如，程序逻辑)，以运行各种车辆功能，包括本申请实施例中描述的功能或方法中的任何一个。

车辆100的组件可以被配置为以与在其各自的系统内部和/或外部的其它组件互连的方式工作。为此，车辆100的组件和系统可通过系统总线、网络和/或其它连接机制连接在一起。

在本申请实施例中，结合上述车辆100的结构，上述车辆在自动驾驶模式的过程中，通常采用目标检测算法对道路上的目标实时检测，以确保车辆行驶的安全性。例如，通过目标检测，可以告知车辆可行驶区域并标记出障碍物的位置，进而辅助车辆避障。

当采用目标检测算法进行目标检测时，首先，计算装置通过深度学习训练一个可以识别特定类别物体的神经网络，这里，特定类别物体可以为行人、车辆、树木、房屋、道路设施等常见目标物体。在进行目标检测时，计算装置通过该神经网络可以识别出上述特定类别物体。由于神经网络学习到的是上述各特定类别物体的特征，当图像中有些相似的特征出现时，通常无法进行有效的识别，容易产生误判。

例如图2所示，在图2中，指示牌上呈现有行人标识，该行人并非实际的行人对象。但是，该指示牌上呈现的行人标识所具有的特征通常与道路远处行人的特征较为相似，导致神经网络将指示牌上呈现的行人标识误判为道路小目标行人，例如图2所示的，神经网络判断图2所示的指示牌上的行人标识为行人的概率是0.85，降低了目标检测的准确性。

为了解决上述问题，本申请实施例提供一种目标检测方法，该方法可以应用于目标检测装置。该目标检测装置可以为上述实施例中所述的计算装置或者计算装置中的一部分。

请参考图3，图3为本申请实施例所示的目标检测方法的示意性流程图。参见图3所示，该方法包括：

S301，利用摄像装置获取图像。

这里的摄像装置即为上述传感器系统中的视觉传感器，用于采集车体前方道路的图像。该图像中可以包括行人、车辆、路面、隔离栏等物体，当然，还可以包括人行道、行道树、交通信号灯等，本申请实施例不做具体限定。

在实际应用中，摄像装置可以为单目摄像头，由单目摄像头在一个时刻拍摄一张待处理的图像。或者，摄像装置还可以包括多目摄像头，这些摄像头可以在物理上合设于一个摄像装置中，还可以在物理上分设于多个摄像装置中。通过多目摄像头在同一时刻拍摄多张图像，并可以根据这些图像进行处理，得到一张待识别的图像。当然，摄像装置还可以为其他情况，本申请实施例不做具体限定。

具体实现中，摄像装置可以实时地采集图像，或者可以周期性地采集图像。该周期如3s、5s、10s等。摄像装置还可以通过其他方式采集图像，本申请实施例不做具体限定。摄像装置采集到图像后，可以将图像传递给上述目标检测装置，此时，目标检测装置可以获得该图像。这里需要说明的是，S301可以是在车辆启动后，或者车辆启动自动驾驶功能之后执行。

步骤S302，基于摄像装置的参数和预设行驶路径，标定出图像中的感兴趣区域(region of interest，ROI)。

上述摄像装置所获取的图像通常为路况图像。该图像中通常呈现道路前方以及两侧的物体。例如，道路前方或侧方的车辆、行人、道路两侧的树木、位于车道内的轮胎、木箱等。由此，图像中的感兴趣区域可以为前方道路和两侧道路。在图像中，ROI可以是方框、圆、椭圆或者不规则多边形等方式勾勒出的区域。如图5b所示，其示意性的示出了图像中的ROI。

在具体实施过程中，ROI可以通过摄像装置的参数和预设行驶路径确定出来。摄像装置的参数例如包括但限于：摄像摄装置与参考平面之间的高度，摄像装置安装于车辆的位置；预设行驶路径例如包括但不限于：车辆所处的车道、车辆行驶规则(例如靠左行驶或靠右行驶)。上述目标检测装置在获取到图像后，可以基于摄像装置的参数和预设行驶路径，标定出图像中的感兴趣区域。

步骤S303，利用目标检测算法对所获取的图像进行检测，得到图像中的目标对象所属的类别、目标对象在图像中的位置区域和目标对象所属的类别的置信度。

步骤S303具体可以通过如下步骤实现：

第一步：在目标检测模型中设置标定参数，该标定参数用于指示目标检测模型在图像中标定出多个候选区域。

这里，标定参数为多个候选区域中的每个候选区域在图像中的位置参数(例如在图像中的位置坐标)。候选区域在图像中的位置为预先确定的。这里确定候选区域也可以称为设置先验框(priors anchor)。

实践中，可以采用诸如人工设置，K-means聚类，RPN(region proposal network)算法或者选择搜索(selective search)算法等现有的各种方法，来确定出多个候选区域。然后，将所确定出的各候选区域在图像中的位置参数设置于目标检测模型中。其中，确定候选区域的方法可以通过如下两种方式实现：

作为一种可能的实现方式，针对图像的尺寸，将图像等分为多个单元。然后，对于图像中每个等分的单元，设置长宽比不同的多个先验框，该多个先验框的长宽比的差异可以呈等差数列。所设置的多个先验证框也即多个候选区域。

作为另一种可能的实现方式，利用切分方法对图像进行切分，得到将上述图像切分后的多个图像块的候选区域图像集合。计算候选区域图像集合中每相邻两个区域的相似度(例如可以从诸如颜色相似度、纹理相似度等多个维度确定)，最后对相似度高于预设阈值的区域进行合并，确定出最终的候选区域。

第二步：将图像输入至预先训练的、已进行标定参数设置的目标检测模型，以使目标检测模型检测各个候选区域中呈现预设候选类别的目标对象的置信度以及候选区域的定位偏差。当检测出某一个或某几个候选区域呈现预设候选类别中的某一类或某几类对象的置信度较高，该置信度超过阈值时，则预测该一个或几个区域呈现有预设候选类别的对象。该候选区域的定位偏差是目标检测模型对候选区域进行边缘检测以及对多个候选区域的全连接层(或全卷积层)检测确定的。目标检测模型通过上述候选区域的定位偏差可以调整候选区域在图像中的位置。然后，目标检测模型输出呈现有目标对象的候选区域在图像中的位置信息、候选区域呈现的目标对象所属的类别以及目标对象所属的类别的置信度。预设候选类别可以为道路上的障碍物，包括但不限于行人、车辆、树木、轮胎、箱体、施工牌等。目标检测模型输出的呈现有目标对象的候选区域在图像中的位置信息，是基于候选区域的定位偏差、重新调整在图像中的位置后的位置信息。

在一种可能的实现方式中，第一步中所述的候选区域也可以是基于约束条件确定的。

具体实现中，可以利用上述selective search算法、人工设置、RPN或者K-means聚类等方法在图像中标定出初始候选区域；然后利用约束条件对初始候选区域进行筛选，从而得到最终的候选区域。

约束条件具体是指：预设候选类别中的各对象呈现在图像中的区域范围、预设候选类别中的各对象在图像中的成像大小范围。

这里的预设候选类别中的各对象呈现在图像中的区域范围，是基于各对象在现实世界中可能出现的位置区域确定的。实践中，可以基于摄像装置的焦距、感光元件中的感光单元的尺寸、摄像装置的光心参数、路面在世界坐标系中的位置坐标和摄像装置与参考面之间的高度，将各对象在现实世界中可能出现的位置区域映射至图像中，该图像中的映射区域即为对象呈现在图像中的区域范围。

这里的预设候选类别中的各对象在图像中的成像大小范围，是基于目标对象与摄像装置之间的距离、各对象在现实世界中高度和宽度决定的。在不同的距离下，同一类别的物体在同一拍摄装置所拍摄的图像中的成像大小均不相同。实践中，可以基于摄像装置的焦距、感光元件中的感光单元的尺寸、摄像装置的光心参数、路面在世界坐标系中的位置坐标、摄像装置与参考面之间的高度、和各对象在现实世界中的高度和宽度，确定出在不同距离下各对象呈现在图像中的大小，然后确定出各对象在图像中的成像大小范围。

作为示例，假设候选目标类别中仅包括行人，上述约束条件包括：行人可能出现的位置为路面区域，行人在图像中的成像大小范围为在a-b，a小于b。其中，行人距离摄像装置为50米时，在图像中的成像大小为a，行人距离摄像装置为300米时，在图像中的成像大小为b，50米-300米可以认为摄像装置所能拍摄的距离范围。行人在图像中的成像大小，是基于行人在现实世界中的高度、宽度、行人距离摄像装置的距离、摄像装置的焦距、感光元件中的感光单元的尺寸、摄像装置的光心参数、摄像装置与参考面之间的高度而确定的。基于摄像装置的焦距、摄像装置的光心参数、路面在世界坐标系中的位置坐标和摄像装置与参考面之间的高度，可以标定出图像中呈现的路面的区域范围，记为路面范围。然后，从初始候选区域中筛选出位于路面范围内、且大小在a-b之间的候选区域。从而将筛选出的区域作为最终的候选区域。

上述所述的参考面可以为水平面。

第二步中所述的目标检测模型，是基于训练样本集和预设损失函数，对神经网络训练得到的。

具体的，训练样本集包括样本图像和对样本图像的标注信息。这里的样本图像中的目标对象为道路小目标对象，也即是说，目标对象在图像中所占的位置较小(例如小于某一预设面积阈值)。

样本图像包括正样本图像和负样本图像，负样本图像包括：所呈现的对象具有其中一种预设候选类别的形状或轮廓、但属于其他类别的图像，该其他类别可能属于预设候选类别的另外一种，也可能不属于预设候选类别的任意一种。例如，局部位置具有行人轮廓的树木的图像、具有小狗轮廓的垃圾桶的图像、或者图4所示的显示有行人的指示牌的图像。标注信息用于指示正样本图像中的对象所属的类别和该对象在样本图像中的位置。标注信息还用于指示负样本图像呈现的对象所属的类别或者不属于任意一种预设候选类别，以及图像呈现的对象在样本图像中的位置。作为示例，假设预设候选类别包括二类：行人和树木。其中，行人用1表示、树木用2表示，不属于任意一类用0表示。对如图4所示的负样本的标注信息为0，位置区域(a，b，c，d)。a，b，c，d分别为图4所示的矩形框的四个顶点在图4中的图像坐标。

基于样本图像的尺寸和待检测目标的尺寸，结合上述约束条件和候选区域确定方法，得到候选区域，然后将候选区域在图像中的位置参数设置于神经网络中。

将样本图像输入至已经进行参数设置的神经网络，得到随机输出信息，该随机输出信息包括样本图像中呈现的对象对应的类别、在图像中的位置区域以及呈现的对象对应的类别的置信度。

然后，利用预设损失函数计算输出信息与标注信息之间的偏差，基于该偏差，迭代调整神经网络的权重参数，从而得到上述目标检测模型。这里的预设损失函数可以包括但不限于：均方差函数等。上述标注信息可以包括标注的置信度，这里的计算输出信息与标注信息之间的偏差，可以是指呈现的对象对应的类别的置信度与标注的置信度之间的偏差。

需要说明的是，上述神经网络可以包括卷积层、池化层、隐藏层、全连接层等。各层的数目可以根据所要识别的类别的数目、每一张图像中呈现的目标类别的数目以及图像的像素数目确定。

步骤S304，基于所确定出的位置区域与感兴趣区域之间的相对位置关系，修正目标对象所属的类别的置信度，得到第一置信度。

根据步骤S303所确定出的感兴趣区域的边界坐标以及步骤S302中所确定出的位置区域的边界坐标，确定位置区域的下边界坐标是否在ROI范围内。当第一位置的下边界不位于ROI范围内时，可以将第一置信度设置较低的置信度值，例如0、0.1等。也即是说，目标对象属于该类别的概率非常低。当第一位置的下边界位于ROI范围内时，可以将第一置信度设置较高的置信度值，例如0.8、0.9、1等。

作为示例，当所检测出的目标对象为行人时，行人通常与地面有接触，无论是脚与地面接触，还是利用诸如摩托或者自行车等交通工具在地面上行驶。这时，图像中的ROI为地面。然后，判断人像所在的位置区域的下边界是否位于地面范围内，从而判断图像中呈现的人与地面是否有接触。当检测出人像所在的位置区域的下边界位于地面范围内时，说明人与地面有接触，也即目标对象属于人的置信度较高，则将第一置信度设置较高的置信度值；当检测出人像所在的位置区域的下边界没有位于地面范围内时，说明人与地面没有接触，此时人相当于悬浮在半空中，此时目标对象属于人的置信度较低，则将第一置信度设置较低的置信度值。

从图3所示的实施例可以看出，通过利用所检测出的目标对象所在的位置区域和ROI之间的位置关系确定所属的类别的第一置信度，可以进一步验证所检测出的目标对象所属的类别是否正确，过滤出一些不符合逻辑或者不符合常理的类别检测结果，从而提高目标检测的准确性。

结合图5a-图5e所示的应用场景，对图3所述的目标检测方法的实现进行具体描述。

首先，通过摄像装置获取到如图5a所示的图像A。

接着，目标检测装置可以确定图像A中的感兴趣区域。图像A中的感兴趣区域可以为地面范围的区域，如图5b所示。此时，设置于自动驾驶车辆中的目标检测装置中可以记录图像A中感兴趣区域的边界坐标。

然后，利用上述第一步所述的候选区域标定方法，在图像中标定出多个候选区域图像，得到图像B，如图5c所示。从图5c中可以看出，在图像B上分布有大量矩形框，其中，每一个矩形框即为一个候选区域。需要说明的是，图5c所示的矩形框为示意性的，实际应用中，会包括更多或更少的矩形框，并且每一个矩形框的大小也可以根据应用场景的需要来确定。

再次，将图像B输入至预先训练的目标检测模型，从而确定出各候选区域中是否呈现有预设候选类别的目标对象，如图5d所示。图5d示出了目标检测模型输出的检测结果。从图5d中可以看出，目标检测模型检测出候选区域a呈现的目标对象为行人，且概率为0.85；候选区域b呈现的目标对象为树木，且概率为0.9，候选区域c呈现的目标对象为行人，且概率为0.7。该候选区域a、候选区域b和候选区域c即为目标检测模型检测出的位置区域。

最后，目标检测装置可以将各个候选区域图像的图像坐标与感兴趣区域的边界坐标进行比较，确定各个候选区域图像的图像坐标是否在感兴趣区域范围内。如图5e所示，候选区域c并没有位于图像的感兴趣区域范围内。对于路上的行人来说，其脚应该与地面接触，而候选区域c中的行人的脚未与底面接触到。由此，目标检测装置可以判断候选区域图像c呈现的对象是行人的置信度为0.1。

请继续参考图6，其示出了本申请提供的目标检测方法又一个实施例的流程图，该目标检测方法包括：

S601，利用摄像装置获取图像。

S602，基于摄像装置的参数和预设行驶路径，标定出图像中的感兴趣区域。

S603，利用目标检测算法对所获取的图像进行检测，得到图像中的目标对象所属的类别、目标对象在图像中的位置区域和目标对象所属的类别的置信度。

S604，基于所确定出的位置区域与感兴趣区域之间的相对位置关系，修正目标对象所属的类别的置信度，得到第一置信度。

其中，步骤S601-步骤S604的具体实现以及所带来的有益效果参考图3所示的实施例中的步骤S301-步骤S304的相关描述，在此不再赘述。

S605，检测步骤S604所确定出的目标对象所述的类别的第一置信度是否大于预设阈值。大于预设阈值时，执行步骤S606-步骤S608。小于等于预设阈值时，输出第一置信度的值。

S606，基于摄像装置的参数、第一位置区域在图像中的边界坐标、预先设置的类别对应的对象在现实世界中的大小，确定图像中的第二位置区域。

这里的摄像装置的参数具体包括但不限于：摄像装置的焦距、感光元件中的感光单元的尺寸、摄像装置的转换矩阵、摄像装置与参考面的距离和摄像装置的光心参数。

这里的参考面可以为地面。

步骤S606具体可以通过如下步骤实现。

第一步：基于摄像装置的焦距、摄像装置与参考面的距离、由摄像装置坐标系转换为图像坐标系的转换矩阵、感光元件中的感光单元的尺寸和第一位置区域在图像中的边界坐标，确定摄像装置与目标对象之间的距离。

具体来说，假设步骤S604中所检测出的目标对象所属的类别是正确的，查询该类别对应的物体在现实世界中的大小。例如，路上行人的身高通常在130cm-190cm之间，横向宽度通常在43cm-55cm之间。通过公式(1)，也即世界坐标系到图像平面坐标系之间的转换公式，可以确定出摄像装置与目标物体之间的距离。

Z _wp＝KR[I|-T]P _w (1)

其中，P _w＝[X _w Y _w Z _w 1] ^T为目标在世界坐标系中的坐标，p＝[u v 1] ^T为目标在图像中的成像坐标，K为摄像装置的转换矩阵，R为从世界坐标系到摄像装置坐标系的旋转矩阵，T为从世界坐标系到摄像装置坐标系的平移矩阵，其中摄像装置的高度设置于该矩阵中，I为单位对角阵，Z _w代表摄像装置与目标物体之间的距离。

此外，公式(2)为应用于本申请实施例中的、对公式(1)细化和推导后得到的确定摄像装置与目标物体之间的距离的公式。其中，通过公式(2)，也即根据目标在真实世界中的大小和目标在成像平面中的大小，确定摄像装置与目标物体之间的距离Zw。

Z _w＝h ^wf _y/(hd _y)

或者Z _w＝w ^wf _x/(wd _x) (2)

其中，f _x,f _y分别是摄像装置在x、y轴方向的焦距，d _x,d _y分别是感光元件上x、y轴方向感光单元的尺寸，w ^w,h ^w分别为目标在真实世界中的宽度、高度，w,h为成像的宽度与高度，Z _w是目标对象与摄像装置之间的距离。

第二步：基于摄像装置与目标对象之间的距离、所检测出的类别对应的对象在现实世界中的大小、摄像装置与参考面的距离、以及第一位置区域的边界坐标，基于道路小目标在道路平面的假设约束，确定图像中的第二位置区域。

具体的，该第一位置区域的边界坐标可以是第一区域的下边界坐标。其可以包括多个坐标点，也可以包括一个坐标点。其中，当第一位置区域的下边界坐标包括一个坐标点时，该坐标点可以为下边界的中点，也可以为下边界与其他边界(例如左边界或右边界)交汇的顶点。

这里，通过所确定出的摄像装置与目标对象之间的距离、所检测出的类别对应的对象在现实世界中的大小、摄像装置与参考面的距离、以及第一位置区域的边界坐标，基于道路小目标处于地面的前提假设，采用公式(3)可以反推出步骤S603中所确定出的类别的对象呈现在图像中的位置，该位置也即是第二位置区域。其中，公式(3)中可以确定出该类别的对象呈现在图像中的高度，该高度是沿重力方向的高度；然后，基于现实世界中该类别的对象的宽度-高度比例，可以确定出该类别的对象呈现在图像中的宽度。该第二位置区域即是以第一位置区域的下边界作为底边(例如以第一位置区域的下边界的中点作为底边的中点，或者以第一位置区域的下边界的其中一个顶点作为底边的第一个起始点)，以公式(3)确定出的宽度作为第二位置区域左边界和右边界的宽度，以所确定出的高度作为第二位置区域下边界和上边界的宽度，从而可以确定出第二位置区域在图像中的具体坐标范围。

这里，(u、v)为图像中的第一位置区域中的某一固定点(例如下边界的中点、下边界的顶点)在图像坐标系中的坐标，(X _w Y _w Z _w)为现实中目标对象的某一点(如行人脚部与地面接触点、汽车车轮与地面接触点)在世界坐标系中的坐标；f _x,f _y分别是在摄像装置坐标系下、摄像装置x轴、y轴方向的焦距，d _x,d _y分别是在摄像装置坐标系下、感光元件上x轴、y轴方向感光单元的尺寸。u ₀,v ₀是图像平面中心(图像中心像素点坐标)，h ^w为目标在真实世界中的高度，h _com是摄像平面与参考面之间的距离，

为根据参考距离和目标高度推导的成像的高度。需要说明的是，采用公式(3)确定第二位置区域时，通常图像中的第一位置区域中的某一固定点(u、v)与现实中目标对象的某一点(X _w Y _w Z _w)具有映射关系。也即是说，图像中的点(u、v)与现实中的点(X _w Y _w Z _w)例如均用于指示目标对象的脚部，或者对于车辆来说同一轮胎的位置。

S607，检测第一位置区域和第二位置区域之间的误差。

这里的检测第一位置区域和第二位置区域之间的误差，可以检测第一位置区域的高度和第二位置区域的高度之间的误差，或者第一位置区域的宽度和第二位置区域的宽度之间的误差，或者检测第一位置区域的宽度与高度的比值和第二位置区域的宽度与高度之间的比值的误差。

通过确定第一位置区域和第二位置区域之间的误差，可以反推出步骤S603中所检测出的目标对象所属的类别是否准确。当第一位置区域和第二位置区域之间的误差大于预设阈值时，可以认为步骤S603所检测出的目标对象所属的类别不可信；例如，当步骤S603判断出第一位置区域的目标对象为人，而第一位置区域的上下边界(也即人的高度)为200px，基于步骤S605确定出的第二位置区域的上下边界(也即人的高度)为400px。或者，第一位置区域的左右边界(也即人的宽度)为80px，基于步骤S605确定出的第二位置区域的左右边界(也即人的宽度)为200px。此时第一位置区域和第二位置区域之间的误差较大，由此可以认为步骤S603所检测出的目标对象所属的类别不可信。当第一位置区域和第二位置区域之间的误差小于预设阈值时，也即第一位置区域和第二位置区域之间的误差较小，此时可以认为步骤S603所检测出的目标对象所属的类别可信。

S608，基于第一位置区域和第二位置区域之间的误差，修正第一置信度，得到目标所属的类别的第二置信度。

这里的第二置信度用于指示目标对象所述的类别是否可信。当上述误差较大时，可以将第二该置信度设置较低的值；当上述误差较小时，可以将第二置信度设置较高的值。

当第二置信度高于预设阈值(例如0.7)时，可以认为步骤S603所检测出的目标对象所属的类别可信；当第二置信度小于等于预设阈值(例如0.7)时，可以认为步骤S603所检测出的目标对象所属的类别不可信。

结合图7、图8a、图8b所示的应用场景，对图6所述的目标检测方法中步骤S606-步骤S608的实现进行具体描述。

图7为拍摄装置获取到的图像C。假设采用步骤S601-步骤S605的步骤，已经检测出图像C中候选图像区域d呈现有行人，且概率为0.6。从图7中可以看出，候选区域d实际呈现的对象为树木，由于候选区域d距离摄像装置较远，其为道路上的小目标，因此容易引起误判。这里的候选区域d也即为上述第一位置区域。接着，目标检测装置可以确定候选区域d中呈现的对象沿方向U的长度。由于通过步骤S603检测出候选区域d中呈现的对象为行人，此时目标检测装置可以确定出假设候选区域d中呈现的对象为行人时，行人与拍摄装置之间的距离。然后，反推出行人呈现在图像中的第二位置区域。

其中第二位置区域的确定方式参考图8a-图8b。假设摄像装置的焦距为fx、fy，世界坐标系、相机坐标系和图像坐标系如图8a所示，其中，世界坐标系中，Y轴沿重力方向，Z轴沿车行进的方向，X轴沿与Y轴和Z轴垂直的方向。世界坐标系中的Y轴映射至图像坐标系中为V轴，世界坐标系中的X轴映射至图像坐标系中为U轴。世界坐标系中的X轴映射至摄像装置坐标系中为x轴，世界坐标系中的Y轴映射至摄像装置坐标系中为y轴，世界坐标系中的Z轴映射至摄像装置坐标系中为z轴。在进行计算过程中，由于图像为二维坐标，在进行映射过程中不考虑世界坐标系中的Z轴。摄像装置与地面的距离为h _com。

假设候选区域c呈现的目标对象是行人为正确的，此时，通过上述公式(1)或者公式(2)可以反推出目标对象与摄像装置之间的距离。假设目标对象在图8a所示的位置F处。这里需要说明的是，位置F处的目标对象是假设的，不一定是真实存在的。其作用是用于验证步骤S603对候选区域d呈现的对象推理的正确性。然后，通过查询预先设置的表格，可以确定出在F位置处的行人的高度为h ^w。然后，通过选定图8b中所示的现实世界中，行人与地面接触的点(Xw，Yw，0)的坐标，将该坐标映射至图像C中为点(u，v)，然后通过上述公式(3)确定出行人呈现在图像C中的高度为h’，其在图像中的第二位置区域为如图8b所示。

接着，目标检测装置可以对比图8a所示的第一位置区域和图8b所示的第二位置区域之间的坐标差异。从图8a-图8b中可以看出第一位置区域和第二位置区域之间的差值较大。从而，目标检测装置可以基于所确定出的第一位置区域和第二位置区域之间的差值，确定目标检测模型所检测出的第一位置区域呈现的目标对象为行人的第二置信度。例如，该第二置信度可以为0.1。

从图6所述的目标检测方法中可以看出，与图3所示的目标检测方法不同的是，本实施例在第一置信度大于预设阈值时，通过确定第二位置区域，然后基于第一位置区域和第二位置区域之间的误差检测出误判的目标对象(例如将树木误判成行人)，从而可以进一步提高道路上的小目标检测的准确性。

基于上述各实施例，在一些可能的实现方式中，还可以包括对目标检测模型进行优化的步骤。具体的，随机选取训练样本集，该训练样本集中包括多个训练样本图像。将训练样本图像输入至目标检测模型，得到训练样本图像中的对象所属的类别和第一位置区域。然后，采用步骤S604所示的第二位置区域的确定方法，确定各样本图像中的第二位置区域，最后，采用第二预设损失函数和反向传播算法，迭代调整目标检测模型各层的权重，以对目标检测模型进行优化。其中，第二预设损失函数用于指示第一位置区域和第二位置区域之间的差异。

请继续参考图9，其示出了本申请实施例提供的目标检测装置900。

如图9所示，目标检测装置900包括：获取模块901，用于利用摄像装置获取图像；标定模块902，用于基于所述摄像装置的参数和预设行驶路径，标定出所述图像中的感兴趣区域；第一检测模块903，用于利用目标检测算法对所述图像进行检测，得到所述图像中的目标对象所属的类别、所述目标对象在所述图像中的第一位置区域和所述目标对象所属的类别的置信度；第一修正模块904，用于基于所述第一位置区域与所述感兴趣区域之间的相对位置关系，修正所述目标对象所属的类别的置信度，得到第一置信度。

此外，目标检测装置900还包括：确定模块905，用于响应于所述第一置信度大于预设阈值，基于所述摄像装置的参数、所述第一位置区域在图像中的边界坐标、预先设置的所述类别对应的对象在现实世界中的大小，确定所述图像中的第二位置区域；第二检测模块906，用于检测所述第一位置区域和所述第二位置区域之间的误差；第二修正模块907，用于基于所述误差，修正所述第一置信度，得到所述目标所属的类别的第二置信度。

进一步的，所述摄像装置的参数包括以下至少一项：所述摄像装置的焦距、所述摄像装置与参考面的距离、由所述摄像装置坐标系转换为图像坐标系的转换矩阵和感光元件中的感光单元的尺寸。

进一步的，所述确定模块，包括：第一确定子模块，用于基于所述摄像装置的焦距、所述摄像装置与参考面的距离、由所述摄像装置坐标系转换为图像坐标系的转换矩阵、感光元件中的感光单元的尺寸和所述第一位置区域在图像中的边界坐标，确定所述摄像装置与所述目标对象之间的距离；第二确定子模块，用于基于所述摄像装置与目标对象之间的距离、所检测出的类别对应的对象在现实世界中的大小、所述摄像装置与参考面的距离、以及所述第一位置区域的边界坐标，确定所述图像中的第二位置区域。

进一步的，所述目标对象所属的类别是将所述目标对象的特征与多个预设候选类别对应的对象的特征进行匹配，基于匹配结果，从所述预设候选类别中选择出的。

进一步的，第一检测模块包括：设置子模块，用于在预先训练的目标检测模型中设置标定参数，所述标定参数用于指示所述目标检测模型在所述图像中标定出多个候选区域；检测子模块，用于将所述图像输入至所述目标检测模型，得到所述目标检测模型的输出结果，所述输出结果用于指示各所述候选区域中是否呈现有预设候选类别的对象和所述目标对象所属的类别的置信度，其中，所述目标检测模型是基于训练样本和用于进行候选区域标定的标定参数，对神经网络训练得到的。

进一步的，所述图像中的多个候选区域是基于约束条件预先确定的；所述约束条件包括：各所述预设候选类别对应的对象呈现在所述图像中的区域范围、以及各所述预设候选类别对应的对象在所述图像中的成像大小范围。

进一步的，所述设置子模块具体用于：在所述图像中标定出初始候选区域；利用所述约束条件对所述初始候选区域进行筛选，基于筛选结果，得到所述多个候选区域。

进一步的，所述目标检测装置还包括模型优化模块，所述模型优化模块具体用于：获取训练样本集，所述训练样本集包括多个样本图像，各所述样本图像中呈现有目标对象；将样本图像输入至所述目标检测模型，得各样本图像中的目标对象所属的类别和目标对象在样本图像中的第一位置区域，基于样本图像中的目标对象所属的类别、第一置区域的边界坐标以及用于拍摄样本图像的拍摄设备的参数，确定各样本图像中的第二位置区；利用预设损失函数确定各训练样本中第一位置区域和第二位置区域之间的偏差，基于所述偏差，迭代调整所述目标检测模型，得到优化后的目标检测模型。

需要说明的是，上述装置之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

在采用集成的模块的情况下，目标检测装置900可以包括处理器、存储器和通信模块。其中，处理器可以对目标检测装置900的动作进行控制管理，例如，可以用于支持目标检测装置900执行上述各个模块执行的步骤。存储器可以用于支持目标检测装置900执行存储程序代码和数据等。通信模块，可以用于目标检测装置900与其他设备的通信。

其中，处理器可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑模块。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，例如包括中央处理单元(Central Processing Unit，CPU)，还可以包括其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、或分立硬件组件等。通用处理器可以是微处理器、微控制器或者是任何常规的处理器等。

还应理解，本申请实施例中提及的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)。

通信模块具体可以为射频电路、蓝牙芯片、Wi-Fi芯片等与其他电子设备交互的设备。

本实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，当该计算机指令在计算机上运行时，使得计算机执行上述相关方法步骤实现上述实施例中的温度测量方法。

本实施例还提供了一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例中的温度测量方法。

另外，本申请的实施例还提供一种装置，这个装置具体可以是芯片，组件或模块，该装置可包括耦合的处理器和存储器；其中，存储器用于存储计算机执行指令，当装置运行时，处理器可执行存储器存储的计算机执行指令，以使芯片执行上述温度测量方法。

其中，本实施例提供的处理器、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

通过以上实施方式的描述，所属领域的技术人员可以了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的可读存储介质包括：U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种目标检测方法，其特征在于，所述方法包括：

利用摄像装置获取图像；

基于所述摄像装置的参数和预设行驶路径，标定出所述图像中的感兴趣区域；

利用目标检测算法对所述图像进行检测，得到所述图像中的目标对象所属的类别、所述目标对象在所述图像中的第一位置区域和所述目标对象所属的类别的置信度；

基于所述第一位置区域与所述感兴趣区域之间的相对位置关系，修正所述目标对象所属的类别的置信度，得到第一置信度。
根据权利要求1所述的目标检测方法，其特征在于，所述方法还包括：

响应于所述第一置信度大于预设阈值，基于所述摄像装置的参数、所述第一位置区域在图像中的边界坐标、预先设置的所述类别对应的对象在现实世界中的大小，确定所述图像中的第二位置区域；

检测所述第一位置区域和所述第二位置区域之间的误差；

基于所述误差，修正所述第一置信度，得到所述目标对象所属的类别的第二置信度。
根据权利要求2所述的目标检测方法，其特征在于，所述摄像装置的参数包括以下至少一项：所述摄像装置的焦距、所述摄像装置与参考面的距离、由所述摄像装置坐标系转换为图像坐标系的转换矩阵和感光元件中的感光单元的尺寸。
根据权利要求3所述的目标检测方法，其特征在于，所述基于所述摄像装置的参数、所述第一位置区域在图像中的边界坐标、预先设置的所述类别对应的对象在现实世界中的大小，确定所述图像中的第二位置区域，包括：

基于所述摄像装置的焦距、所述摄像装置与参考面的距离、由所述摄像装置坐标系转换为图像坐标系的转换矩阵、感光元件中的感光单元的尺寸和所述第一位置区域在所述图像中的边界坐标，确定所述摄像装置与目标对象之间的距离；

基于所述摄像装置与目标对象之间的距离、所检测出的类别对应的对象在现实世界中的大小、所述摄像装置与参考面的距离、以及所述第一位置区域的边界坐标，确定所述图像中的第二位置区域。
根据权利要求1至4任一项所述的目标检测方法，其特征在于，所述目标对象所属的类别是将所述目标对象的特征与多个预设候选类别对应的对象的特征进行匹配，基于匹配结果，从预设候选类别中选择出的。
根据权利要求5所述的目标检测方法，其特征在于，所述利用目标检测算法对所述图像进行检测，得到所述图像中的目标对象所属的类别、所述目标对象在所述图像中的第一位置区域和所述目标对象所属的类别的置信度，包括：

在预先训练的目标检测模型中设置标定参数，所述标定参数用于指示所述目标检测模型在所述图像中标定出多个候选区域；

将所述图像输入至所述目标检测模型，得到所述目标检测模型的输出结果，所述输出结果用于指示各所述候选区域中是否呈现有所述预设候选类别的对象和所述目标对象所属的类别的置信度，其中，所述目标检测模型是基于训练样本和用于进行候选区域标定的标定参数，对神经网络训练得到的。
根据权利要求6所述的目标检测方法，其特征在于，所述图像中的多个候选区域是基于约束条件预先确定的；

所述约束条件包括：各所述预设候选类别对应的对象呈现在所述图像中的区域范围、以及各所述预设候选类别对应的对象在所述图像中的成像大小范围。
根据权利要求7所述的目标检测方法，其特征在于，所述确定所述图像中的多个候选区域，包括：

在所述图像中标定出初始候选区域；

利用所述约束条件对所述初始候选区域进行筛选，基于筛选结果，得到所述多个候选区域。
根据权利要求6至8任一项所述的目标检方法，其特征在于，所述方法还包括对所述目标检测模型的优化步骤，所述优化步骤包括：

获取训练样本集，所述训练样本集包括多个样本图像，各所述样本图像中呈现有目标对象；

将样本图像输入至所述目标检测模型，得到各样本图像中的目标对象所属的类别和目标对象在样本图像中的第一位置区域，基于样本图像中的目标对象所属的类别、第一置区域的边界坐标以及用于拍摄样本图像的拍摄设备的参数，确定各样本图像中的第二位置区；

利用预设损失函数确定各训练样本中第一位置区域和第二位置区域之间的偏差，基于所述偏差，迭代调整所述目标检测模型，得到优化后的目标检测模型。
一种目标检测装置，其特征在于，包括：

获取模块，用于利用摄像装置获取图像；

标定模块，用于基于所述摄像装置的参数和预设行驶路径，标定出所述图像中的感兴趣区域；

第一检测模块，用于利用目标检测算法对所述图像进行检测，得到所述图像中的目标对象所属的类别、所述目标对象在所述图像中的第一位置区域和所述目标对象所属的类别的置信度；

第一修正模块，用于基于所述第一位置区域与所述感兴趣区域之间的相对位置关系，修正所述目标对象所属的类别的置信度，得到第一置信度。
根据权利要求10所述的目标检测装置，其特征在于，所述装置还包括：

确定模块，用于响应于所述第一置信度大于预设阈值，基于所述摄像装置的参数、所述第一位置区域在图像中的边界坐标、预先设置的所述类别对应的对象在现实世界中的大小，确定所述图像中的第二位置区域；

第二检测模块，用于检测所述第一位置区域和所述第二位置区域之间的误差；

第二修正模块，用于基于所述误差，修正所述第一置信度，得到所述目标所属的类别的第二置信度。
根据权利要求11所述的目标检测装置，其特征在于，所述摄像装置的参数包括以下至少一项：所述摄像装置的焦距、所述摄像装置与参考面的距离、由所述摄像装置坐标系转换为图像坐标系的转换矩阵和感光元件中的感光单元的尺寸。
根据权利要求12所述的目标检测装置，其特征在于，所述确定模块，包括：

第一确定子模块，用于基于所述摄像装置的焦距、所述摄像装置与参考面的距离、由所述摄像装置坐标系转换为图像坐标系的转换矩阵、感光元件中的感光单元的尺寸和所述第一位置区域在图像中的边界坐标，确定所述摄像装置与所述目标对象之间的距离；

第二确定子模块，用于基于所述摄像装置与目标对象之间的距离、所检测出的类别对应的对象在现实世界中的大小、所述摄像装置与参考面的距离、以及所述第一位置区域的边界坐标，确定所述图像中的第二位置区域。
根据权利要求10至13任一项所述的目标检测装置，其特征在于，所述目标对象所属的类别是将所述目标对象的特征与多个预设候选类别对应的对象的特征进行匹配，基于匹配结果，从所述预设候选类别中选择出的。
根据权利要求14所述的目标检测装置，其特征在于，所述第一检测模块，包括：

设置子模块，用于在预先训练的目标检测模型中设置标定参数，所述标定参数用于指示所述目标检测模型在所述图像中标定出多个候选区域；

检测子模块，用于将所述图像输入至所述目标检测模型，得到所述目标检测模型的输出结果，所述输出结果用于指示各所述候选区域中是否呈现有预设候选类别的对象和所述目标对象所属的类别的置信度，其中，所述目标检测模型是基于训练样本和用于进行候选区域标定的标定参数，对神经网络训练得到的。
根据权利要求15所述的目标检测装置，其特征在于，所述图像中的多个候选区域是基于约束条件预先确定的；

所述约束条件包括：各所述预设候选类别对应的对象呈现在所述图像中的区域范围、以及各所述预设候选类别对应的对象在所述图像中的成像大小范围。
根据权利要求16所述的目标检测装置，其特征在于，所述设置子模块具体用于：

在所述图像中标定出初始候选区域；

利用所述约束条件对所述初始候选区域进行筛选，基于筛选结果，得到所述多个候选区域。
根据权利要求15至17任一项所述的目标检测装置，其特征在于，所述目标检测装置还包括模型优化模块，所述模型优化模块具体用于：

获取训练样本集，所述训练样本集包括多个样本图像，各所述样本图像中呈现有目标对象；

将样本图像输入至所述目标检测模型，得到各样本图像中的目标对象所属的类别和目标对象在样本图像中的第一位置区域，基于样本图像中的目标对象所属的类别、第一置区域的边界坐标以及用于拍摄样本图像的拍摄设备的参数，确定各样本图像中的第二位置区；

利用预设损失函数确定各训练样本中第一位置区域和第二位置区域之间的偏差，基于所述偏差，迭代调整所述目标检测模型，得到优化后的目标检测模型。
一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，使得电子设备实现如权利要求1至9任一项所述的方法。
一种可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在计算机上运行时，使得所述计算机执行如权利要求1至9中任一项所述的方法。
一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1至9中任一项所述的方法。