WO2023001059A1 - 检测方法、装置、电子设备及存储介质 - Google Patents
检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- WO2023001059A1 WO2023001059A1 PCT/CN2022/105757 CN2022105757W WO2023001059A1 WO 2023001059 A1 WO2023001059 A1 WO 2023001059A1 CN 2022105757 W CN2022105757 W CN 2022105757W WO 2023001059 A1 WO2023001059 A1 WO 2023001059A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- feature map
- enhanced
- feature
- image
- training set
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 126
- 238000000034 method Methods 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims description 100
- 230000008569 process Effects 0.000 claims description 28
- 230000009466 transformation Effects 0.000 claims description 16
- 238000005457 optimization Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 9
- 230000015654 memory Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
Abstract
本申请实施例公开了一种检测方法、装置、电子设备及存储介质。所述方法包括:获取待检测图像;将所述待检测图像输入至训练好的检测模型中,得到所述检测模型的输出结果;其中,所述检测模型包括设置为提取所述待检测图像的特征的基础网络、设置为对所述待检测图像的特征进行增强的特征增强模块、设置为对特征图像进行拼接的拼接模块以及设置为确定输出结果的预测模块;根据所述输出结果确定检测结果。
Description
本申请要求在2021年07月19日提交中国专利局、申请号为202110811721.0的中国专利申请的优先权,以上申请的全部内容通过引用结合在本申请中。
本申请实施例涉及图像处理技术领域,例如涉及一种检测方法、装置、电子设备及存储介质。
随着人工智能近些年的迅猛发展,其应用领域也在不断扩展。基于深度学习的交通元素识别因其识别速度快,准确度高而受到人们的重视和推广,已经成为车辆、行人、交通灯识别的主要研究方向。
然而交通灯相比于车辆和行人,存在其自身的特点,即交通灯在图像中通常占据极小的比例,这使得深度学习算法在提取其特征时存在局限性。
相关技术中的交通灯检测技术多数是用传统特征提取的方法来进行检测和识别。近年来,深度学习识别交通灯的方式也越来越多,但无论单独的应用传统方法或者深度学习来检测交通灯,都存在一定的局限性和不确定性,因此会导致出现漏检或者误检的行为。
发明内容
本申请实施例提供了一种检测方法、装置、电子设备及存储介质。
第一方面,本申请实施例提供了一种检测方法,包括:
获取待检测图像;
将所述待检测图像输入至训练好的检测模型中,得到所述检测模型的输出结果;其中,所述检测模型包括设置为提取所述待检测图像的特征的基础网络、设置为对所述待检测图像的特征进行增强的特征增强模块、设置为对特征图像进行拼接的拼接模块以及设置为确定输出结果的预测模块;
根据所述输出结果确定检测结果。
第二方面,本申请实施例还提供了一种检测装置,包括:
获取模块,设置为获取待检测图像;
检测模块,设置为将所述待检测图像输入至训练好的检测模型中,得到所述检测模型的输出结果;其中,所述检测模型包括设置为提取所述待检测图像 的特征的基础网络、设置为对所述待检测图像的特征进行增强的特征增强模块、设置为对特征图像进行拼接的拼接模块以及设置为确定输出结果的预测模块;
确定模块,设置为根据所述输出结果确定检测结果。
第三方面,本申请实施例还提供了一种电子设备,包括:
一个或多个处理器;
存储装置,设置为存储一个或多个程序;
所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器用于实现本申请任意实施例中所述的检测方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如本申请任意实施例所提供的检测方法。
图1为本申请实施例一所提供的一种检测方法的流程示意图;
图2为本申请实施例二所提供的一种检测方法的流程示例图;
图3为本申请实施例二所提供的一种检测方法的特征增强模块处理过程示意图;
图4为本申请实施例三所提供的一种检测装置的结构示意图;
图5为本申请实施例四所提供的一种电子设备的结构示意图。
如何提高交通灯的检测准确率是一类可被关注的技术需求。
下面将参照附图描述本申请的实施例。虽然附图中显示了本申请的某些实施例,然而应当理解的是,本申请可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是,本申请的附图及实施例仅用于示例性作用,并非用于限制本申请的保护范围。
应当理解,本申请的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本申请的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一 实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本申请中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本申请中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本申请实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
实施例一
图1为本申请实施例一所提供的一种检测方法的流程示意图,该方法可对待检测图像中的目标物进行检测,该方法可以由检测装置来执行,其中该装置可由软件和/或硬件实现,并一般集成在电子设备上,在本实施例中电子设备包括但不限于:工控机设备或计算机设备中的至少一个。
如图1所示,本申请实施例一提供的一种检测方法,包括如下步骤:
S110、获取待检测图像。
在本实施例中,待检测图像为需要检测是否包括交通灯的图像,待检测图像中可以包括交通灯也可以不包括交通灯,此处,对待检测图像中包括的交通灯的个数不作限制,可以是一个也可以是多个。
其中,对待检测图像的张数也不作具体限制,示例性,待检测图像可以为1000张。
其中,获取待检测图像的方式此处不作限制,示例性的,获取待检测图像的方式可以为电子设备直接获取人工输入的待检测图像。
示例性的,电子设备可以为NVIDIA DGX-1型号的超级计算机,但不限于此。
S120、将所述待检测图像输入至训练好的检测模型中,得到所述检测模型的输出结果;其中,所述检测模型包括设置为提取所述待检测图像的特征的基础网络、设置为对所述待检测图像的特征进行增强的特征增强模块、设置为对特征图像进行拼接的拼接模块以及设置为确定输出结果的预测模块。
在一实施例中,训练好的检测模型可以为一种基于卷积神经网络的深度学 习模型。输出结果可以为检测模型输出的待检测图像对应的特征图上的输出值。将待检测的图像输入训练好的检测模型后即可以得到检测模型的输出结果。
在一实施例中,检测模型可以包括基础网络、特征增强模块、拼接模块以及预测模块。其中,基础网络可以为任意一种能够对图像进行特征提取的网络,示例性的,基础网络可以为DetNet(Deterministic Networking)网络,DetNet网络可以在充分提取待检测图像特征的同时保持特征图的高分辨率和高语义性,更适合小目标检测。特征增强模块可以为一种能够对图像特征进行增强的网络。预测模块可以为一种具有高效目标检测性能的模型。
例如,所述将所述待检测图像输入至训练好的检测模型中,得到所述检测模型的输出结果,包括:通过基础网络对所述待检测图像进行特征提取得到金字塔特征图像;所述金字塔特征图像包括三层待增强特征图,每层待增强特征图具有不同的语义特征;通过特征增强模块分别对底层待增强特征图和中间层待增强特征图进行处理得到底层增强特征图和中间层增强特征图;通过所述拼接模块将所述底层增强特征图和所述中间层增强特征图进行拼接得到第一拼接特征图,将所述中间层增强特征图与顶层待增强特征图进行拼接得到第二拼接特征图;将所述第一拼接特征图、所述第二拼接特征图以及所述顶层待增强特征图输入预测模块后得到输出结果。
其中,金字塔特征图像可以为利用特征金字塔得到的三层具有不同尺寸的特征图,三层特征图分别可以为底层待增强特征图、中间层待增强特征图以及顶层待增强特征图。需要说明的是,一个图像金字塔存在特征化的多个层级的主要优点是它能产生多尺度特征表示,其中所有层级都具有很强的语义并且有很高的分辨率层级。在本实施例中,如何对图像进行特征提取得到金字塔特征图像此处不作详细说明。
其中,可以将底层待增强特征图和中间层待增强特征图作为特征增强模块的输入,经过特征增强模块的处理后可以输出底层增强特征图和中间层增强特征图。
在一实施例中,通过特征增强模块分别对底层待增强特征图和中间层待增强特征图进行处理得到底层增强特征图和中间层增强特征图,包括:从待增强特征图中选取一个目标待增强特征图,对所述目标待增强特征图进行卷积变换生成隐层特征图,所述待增强特征图包括底层待增强特征图和中间层待增强特征图;将所述隐层特征图进行变换得到具有掩码残差值的输出特征图;将所述输出特征图与所述目标待增强特征图进行张量元素相加操作得到增强特征图。
在一实施例中,特征增强模块可以分别对底层待增强特征图和中间层待增强特征图进行处理,当特征增强模块对底层待增强特征图进行处理时,目标待增强特征图可以为底层待增强特征图,当特征增强模块对中间层待增强特征图进行处理时,目标待增强特征图可以为中间层待增强特征图。其中,特征增强模块对底层增强特征图和中间层增强特征图进行处理的过程相同。
示例性的,特征增强模块对目标待增强特征图进行处理得到增强特征图的过程可以包括:对目标待增强特征图进行卷积变换得到隐层特征图;将隐层特征图进行变换可以得到掩码残差值,对具有掩码残差值的特征图进行卷积变换后可以得到具有掩码残差值的输出特征图;将具有掩码残差值的输出特征图与目标待增强特征图进行张量元素相加后可以得到增强特征图。
可以理解的是,通过张量元素相加操作可以使得增强的语义信息嵌入到目标待增强特征图中。
在一实施例中,将特征增强模块输出的底层增强特征图和中间层增强特征图进行拼接后可以得到第一拼接特征图,将特征增强模块输出的中间层增强特征图与未输入特征增强模块的顶层待增强特征图进行拼接可以得到第二拼接特征图。
在一实施例中,将所述第一拼接特征图、所述第二拼接特征图以及所述顶层待增强特征图输入预测模块后得到输出结果的过程包括:将特征图分别划分为多个具有相同尺寸的网格,所述特征图包括所述第一拼接特征图、第二拼接特征图以及顶层待增强特征图;基于特征图输出预测值,所述预测值基于特征图对应的网格的尺寸信息、特征图对应的边界框个数,以及特征图对应的边界框信息确定;根据所述预测值确定输出结果;其中,所述边界框信息包含边界框对应的位置信息、置信度以及类别信息。
在一实施例中,预测模块在第一拼接特征图、第二拼接特征图以及顶层待增强特征图上进行。其中,预测值可以包括第一拼接特征图上的输出值、第二拼接特征图上的输出值以及顶层待增强特征图上的输出值,每个图上可以包括S×S×B×(5+C)个输出值。
下面以预测模块对第一拼接特征图进行预测输出预测值为例进行说明,将第一拼接特征图分为S×S的网格,每个网格的尺寸相同,如果一个检测目标即交通灯的中心落入一个格子中,则该格子可以负责检测该目标,每个格子中可以预测B个边界框和置信度,置信度的数值可以表征模型对边界框是否包含检测目标的信心,如果边界框中没有目标,则置信度的数值为0。
其中,B可以表示边界框的数量,5+C可以表示边界框信息,5+C可以表示4个位置信息、一个置信度信息以及类别信息,边界框信息可以表示为(x,y,w,h,S),其中,x,y,w,h分别表示4个位置信息,S可以表示置信度,C可以表示类别信息即调节类别的概率。其中,(x,y)可以表示边界框在第一拼接特征图上的位置坐标,w和h可以表示第一拼接特征图的高度和宽度。其中,网格中边界框的比例可以通过设定算法得出,示例性的,设定算法可以为k均值聚类算法。示例性地,交通灯的类别可以包括7类,即红灯、红灯左转、绿灯、绿灯左转、黄灯、黄灯左转以及不输出类别的交通灯。
将第二拼接特征图以及顶层待增强特征图输入预测模块得到预测值的过程与第一拼接特征图得到预测值的过程相似,此处不作赘述。
在一实施例中,根据预测值确定输出结果可以为根据预测值中包括的置信度确定输出结果,示例性的,可以根据第一拼接特征图中的所有网格中的边界框对应的置信度确定预测模型的输出结果,针对一个网格而言,根据该网格中的所有边界框对应的置信度可以确定该网格中是否存在目标物即交通灯。在一实施例中,输出结果还可以包括目标物的个数以及目标物的类别。
S130、根据所述输出结果确定检测结果。
其中,检测结果可以为基于输出结果形成的检测报告,示例性的,检测结果可以为一个书面报告或表格,检测结果可以包括待检测图像中是否存在目标物、待检测图像中存在的目标物的个数以及待检测图像中存在的目标物的类别。
本申请实施例一提供的一种检测方法,首先获取待检测图像;然后将所述待检测图像输入至训练好的检测模型中,得到所述检测模型的输出结果;其中,所述检测模型包括设置为提取所述待检测图像的特征的基础网络、设置为对所述待检测图像的特征进行增强的特征增强模块、设置为对特征图像进行拼接的拼接模块以及设置为确定输出结果的预测模块;最终根据所述输出结果确定检测结果。利用上述方法,能够准确检测出待检测图像中是否包含交通灯,并且可以得到该交通灯的类别。
在一实施例中,所述检测模型的训练过程包括:获取训练集图像,所述训练集图像为具有目标物标记的图像;将所述训练集图像进行特征提取得到训练集待增强特征图;所述特征增强模块根据所述训练集待增强特征图确定弱监督损失函数,并根据所述训练集待增强特征图输出训练集增强特征图;所述拼接模块对所述训练集增强特征图、训练集待增强特征图进行拼接得到多个训练集特征图;通过所述预测模块对多个训练集特征图进行训练。
其中,训练集图像可以理解为用于对检测模型进行训练的图像,训练集图像可以来源于交通灯数据集和自采数据集,训练集图像也可以通过其他方式获取,此处不作具体限制。需要说明的是,训练集图像可以包括存在目标物的图像和不存在目标物的图像,且训练集图像中的目标物已进行标记。
其中,训练集待增强特征图可以理解为在模型训练过程中输入基础网络中进行特征提取后得到的特征图。训练集增强特征图可以为训练集待增强特征图输入特征增强模块后输出的特征图。
其中,根据训练集待增强特征图确定弱监督损失函数的方式可以为根据训练集待增强特征图和训练集图像上的二值标签确定弱监督损失函数。需要说明的是,一个训练集待增强特征图可以输出一个弱监督损失函数。
在一实施例中,所述特征增强模块根据所述训练集待增强特征图确定弱监督损失函数,包括:对所述训练集待增强特征图进行卷积变换生成训练集隐层特征图;对所述训练集隐层特征图进行卷积变换得到输出值;根据所述输出值和二值标签确定弱监督损失函数;其中,所述二值标签为基于训练集图像上的标签确定的表征当前位置是否存在目标物的标签。
在本实施例中,根据输出值和二值标签可以计算出输出值与二值标签的损失值,用作优化该部分的语义特征。
其中,二值标签可以为0或1的标签,一张训练集待增强特征图上可以包括多个二值标签,每个二值标签具有其对应的位置,若二值标签为1,则可以表示该二值标签所在的位置存在目标物,若二值标签为0,则可以表示该二值标签所在的位置不存在目标物。
在一实施例中,所述预测模块的训练过程包括:根据训练集特征图的目标检测损失函数、训练集特征图的弱监督损失函数以及训练集特征图的平衡参数确定模型优化指标,所述训练集特征图包括训练集第一拼接特征图、训练集第二拼接特征图以及训练集顶层待增强特征图;基于所述模型优化指标对所述预测模块进行优化,直到所述预测模块得到输出结果的准确率在预设范围内。
训练集第一拼接特征图、训练集第二拼接特征图以及训练集顶层待增强特征图可参考前述实施例中第一拼接特征图、第二拼接特征图以及顶层待增强特征图的含义,此处不再赘述。
在本实施例中,模型的优化指标可以表示为:
L
total=L
det+βL
seg
其中,L
det表示目标检测损失函数,L
seg表示弱监督损失函数,β表示平衡参 数。
其中,L
det的数学表达式可以为:
其中,c
ij可以表示在(i,j)位置处存在目标物的概率,F
ce(x)的表达式可以为:F
ce(x)=-α(y-x)
γy log(x)-(1-α)x
γ(1-y)log(1-x),t
x,t
y,t
w,t
h分别为计算位置损失使用的中间变量,t
x,t
y,t
w,t
h可以根据以下公式进行反变换得到。
其中,b
x,b
y,b
w,b
h可以表示边界框对应的位置信息,函数σ(x)=1/(1+e
-x)。
在本实施例中,L
seg的数学表达式如下:
其中,W表示训练集特征图的宽度,H表示训练集特征图的高度。
在本实施例中,训练集第一拼接特征图输入至预测模型可以得到其对应的优化指标,训练集第二拼接特征图输入至预测模型可以得到其对应的优化指标,训练集顶层待增强特征图输入预测模型可以得到其对应的优化指标,基于每个特征图对应的优化指标对预测模块的网络进行优化,直到预测模块得到输出结果的准确率在预设范围内,则可以停止对检测模型的训练即得到训练好的检测模型。
实施例二
图2为本申请实施例二所提供的一种检测方法的流程示例图,本申请实施例二是对实施例一提出的一种检测方法的示例性说明。如图2所示,检测模型包括基础网络、特征增强模块以及预测模块。检测模型对待检测图像进行目标检测的过程如下。
将待检测图像输入至基础网络后可以输出三张待增强特征图,分别为图A、图B和图C,其中,图A表示顶层待增强特征图,图B表示中间层待增强特征图,图C表示底层待增强特征图;将图B输入特征增强模块输出图D即中间层增强特征图,将图C输入特征增强模块输出图E即底层增强特征图;将图D和图E进行拼接可以得到图F即第一拼接特征图,将图D和图A进行拼接可以得到图G即第二拼接特征图,将图F、图G以及图A输入预测模块可以得到输出结果。
图3为本申请实施例二所提供的一种检测方法的特征增强模块处理过程示意图,该处理过程可以包括模型训练过程中得到弱监督损失函数的过程,还可以包括检测过程中得到增强特征图的过程。
如图3所示,模型训练过程中得到弱监督损失函数的过程可以包括将图a即目标待增强特征图输入特征增强模块后进行卷积变换得到图b即隐层特征图,将图b继续进行卷积变换可以得到输出值,将输出值与二值标签进行计算得到弱监督损失函数;检测过程中得到增强特征图的过程可以包括将图a输入特征增强模块后进行卷积变换得到图b,将图b进行变换得到图c即具有掩码残差值的特征图,将图c进行卷积变换可以得到图d即有掩码残差值的输出特征图,将图a与图d进行张量元素相加操作得到图e即增强特征图。
本申请实施例二所提供的一种检测方法,能够通过特征增强模块使增强的语义信息嵌入到待增强特征图中,基于弱监督损失函数和目标检测损失得到的优化指标对预测模块进行训练,能够极大的提高预测模块输出的输出结果的准确率。
实施例三
图4为本申请实施例三所提供的一种检测装置的结构示意图,该装置可对图片中的目标物进行检测,其中该装置可由软件和/或硬件实现,并一般集成在电子设备上。
如图4所示,该装置包括:获取模块410、检测模块420以及确定模块430。
获取模块410,设置为获取待检测图像,所述待检测图像中包括至少一个目标物;
检测模块420,设置为将所述待检测图像输入至训练好的检测模型中,得到所述检测模型的输出结果;其中,所述检测模型包括设置为提取所述待检测图像的特征的基础网络、设置为对所述待检测图像的特征进行增强的特征增强模 块、设置为对特征图像进行拼接的拼接模块以及设置为确定输出结果的预测模块;
确定模块430,设置为根据所述输出结果确定检测结果。
在本实施例中,该装置首先通过获取模块410获取待检测图像,所述待检测图像中包括至少一个目标物;然后通过检测模块420将所述待检测图像输入至训练好的检测模型中,得到所述检测模型的输出结果;其中,所述检测模型包括设置为提取所述待检测图像的特征的基础网络、设置为对所述待检测图像的特征进行增强的特征增强模块、设置为对特征图像进行拼接的拼接模块以及设置为确定输出结果的预测模块;最后通过确定模块430根据所述输出结果确定检测结果。
本实施例提供了一种检测装置,能够准确检测出待检测图像中是否包含交通灯。
在一实施例中,检测模块420设置为:通过基础网络对所述待检测图像进行特征提取得到金字塔特征图像;所述金字塔特征图像包括三层待增强特征图,每层待增强特征图具有不同的语义特征,其中,所述三层待增强特征图包括底层待增强特征图、中间层待增强特征图以及顶层待增强特征图;通过特征增强模块分别对底层待增强特征图和中间层待增强特征图进行处理得到底层增强特征图和中间层增强特征图;通过所述拼接模块将所述底层增强特征图和所述中间层增强特征图进行拼接得到第一拼接特征图,将所述中间层增强特征图与顶层待增强特征图进行拼接得到第二拼接特征图;将所述第一拼接特征图、所述第二拼接特征图以及所述顶层待增强特征图输入预测模块后得到输出结果。
在上述优化的基础上,在一实施例中,所述通过特征增强模块分别对底层待增强特征图和中间层待增强特征图进行处理得到底层增强特征图和中间层增强特征图,包括:从待增强特征图中选取一个目标待增强特征图,对所述目标待增强特征图进行卷积变换生成隐层特征图,所述待增强特征图包括底层待增强特征图和中间层待增强特征图;将所述隐层特征图进行变换得到具有掩码残差值的输出特征图;将所述输出特征图与所述目标待增强特征图进行张量元素相加操作得到增强特征图。
在一实施例中,所述检测模型的训练过程包括:获取训练集图像,所述训练集图像为具有目标物标记的图像;将所述训练集图像进行特征提取得到训练集待增强特征图;所述特征增强模块根据所述训练集待增强特征图确定弱监督损失函数,并根据所述训练集待增强特征图输出训练集增强特征图;所述拼接 模块对所述训练集增强特征图、训练集待增强特征图进行拼接得到训练集特征图;基于所述弱监督损失函数以及训练集特征图对所述预测模块进行训练。
在一实施例中,所述特征增强模块根据所述训练集待增强特征图确定弱监督损失函数,包括:对所述训练集待增强特征图进行卷积变换生成训练集隐层特征图;对所述训练集隐层特征图进行卷积变换得到输出值;根据所述输出值和二值标签确定弱监督损失函数;其中,所述二值标签为基于训练集图像上的标签确定的表征当前位置是否存在目标物的标签。
在一实施例中,所述预测模块的训练过程包括:根据训练集特征图的目标检测损失函数、训练集特征图的弱监督损失函数以及训练集特征图的平衡参数确定模型优化指标,所述训练集特征图包括训练集第一拼接特征图、训练集第二拼接特征图以及训练集顶层待增强特征图;基于所述模型优化指标对所述预测模块进行优化,直到所述预测模块得到输出结果的准确率在预设范围内。
在一实施例中,所述将所述第一拼接特征图、所述第二拼接特征图以及所述顶层待增强特征图输入预测模块后得到输出结果,包括:将多个特征图中的每个特征图分别划分为多个具有相同尺寸的网格,所述多个特征图包括所述第一拼接特征图、第二拼接特征图以及顶层待增强特征图;基于每个特征图输出预测值,所述预测值基于每个特征图对应的网格的尺寸信息、每个特征图对应的边界框个数,以及每个特征图对应的边界框信息确定;根据所述预测值确定输出结果;其中,所述边界框信息包含边界框对应的位置信息、置信度以及类别信息。
上述检测装置可执行本申请任意实施例所提供的检测方法,具备执行方法相应的功能模块和有益效果。
实施例四
图5为本申请实施例四所提供的一种电子设备的结构示意图。如图5所示,本申请实施例四提供的电子设备包括:一个或多个处理器51和存储装置52;该电子设备中的处理器51可以是一个或多个,图5中以一个处理器51为例;存储装置52用于存储一个或多个程序;所述一个或多个程序被所述一个或多个处理器51执行,使得所述一个或多个处理器51实现如本申请实施例中任一项所述的检测方法。
所述电子设备还可以包括:输入装置53和输出装置54。
电子设备中的处理器51、存储装置52、输入装置53和输出装置54可以通 过总线或其他方式连接,图5中以通过总线连接为例。
该电子设备中的存储装置52作为一种计算机可读存储介质,可用于存储一个或多个程序,所述程序可以是软件程序、计算机可执行程序以及模块,如本申请实施例一或二所提供的检测方法对应的程序指令/模块(例如,附图4所示的检测装置中的模块,包括:获取模块410、检测模块420以及确定模块430)。处理器51通过运行存储在存储装置52中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述方法实施例中的检测方法。
存储装置52可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储装置52可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置52可进一步包括相对于处理器51远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置53可设置为接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置54可包括显示屏等显示设备。
并且,当上述电子设备所包括一个或者多个程序被所述一个或者多个处理器51执行时,程序进行如下操作:
获取待检测图像;
将所述待检测图像输入至训练好的检测模型中,得到所述检测模型的输出结果;其中,所述检测模型包括设置为提取所述待检测图像的特征的基础网络、设置为对所述待检测图像的特征进行增强的特征增强模块、设置为对特征图像进行拼接的拼接模块以及设置为确定输出结果的预测模块;
根据所述输出结果确定检测结果。
实施例五
本申请实施例五提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时用于执行检测方法,该方法包括:
获取待检测图像;
将所述待检测图像输入至训练好的检测模型中,得到所述检测模型的输出 结果;其中,所述检测模型包括设置为提取所述待检测图像的特征的基础网络、设置为对所述待检测图像的特征进行增强的特征增强模块、设置为对特征图像进行拼接的拼接模块以及设置为确定输出结果的预测模块;
根据所述输出结果确定检测结果。
在一实施例中,该程序被处理器执行时还可以用于执行本申请任意实施例所提供的检测方法。
本申请实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是,但不限于,电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(Random Access Memory,RAM)、只读存储器(Read Only Memory,ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式CD-ROM(Compact Disc Read-Only Memory)、光存储器件、磁存储器件、或者上述的任意合适的组合。计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
存储介质可以是非暂态(non-transitory)存储介质。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于:电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、无线电频率(Radio Frequency,RF)等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机 上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN,Local Area Network)或广域网(WAN,Wide Area Network),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
上述仅为本申请的一些实施例。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了说明,但是本申请不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。
Claims (11)
- 一种检测方法,所述方法包括:获取待检测图像;将所述待检测图像输入至训练好的检测模型中,得到所述检测模型的输出结果;其中,所述检测模型包括设置为提取所述待检测图像的特征的基础网络、设置为对所述待检测图像的特征进行增强的特征增强模块、设置为对特征图像进行拼接的拼接模块以及设置为确定输出结果的预测模块;根据所述输出结果确定检测结果。
- 根据权利要求1所述的方法,其中,所述将所述待检测图像输入至训练好的检测模型中,得到所述检测模型的输出结果,包括:通过基础网络对所述待检测图像进行特征提取得到金字塔特征图像;所述金字塔特征图像包括三层待增强特征图,每层待增强特征图具有不同的语义特征,其中,所述三层待增强特征图包括底层待增强特征图、中间层待增强特征图以及顶层待增强特征图;通过特征增强模块分别对底层待增强特征图和中间层待增强特征图进行处理得到底层增强特征图和中间层增强特征图;通过所述拼接模块将所述底层增强特征图和所述中间层增强特征图进行拼接得到第一拼接特征图,将所述中间层增强特征图与顶层待增强特征图进行拼接得到第二拼接特征图;将所述第一拼接特征图、所述第二拼接特征图以及所述顶层待增强特征图输入预测模块后得到输出结果。
- 根据权利要求2所述的方法,其中,所述通过特征增强模块分别对底层待增强特征图和中间层待增强特征图进行处理得到底层增强特征图和中间层增强特征图,包括:从待增强特征图中选取一个目标待增强特征图,对所述目标待增强特征图进行卷积变换生成隐层特征图,所述待增强特征图包括底层待增强特征图和中间层待增强特征图;将所述隐层特征图进行变换得到具有掩码残差值的输出特征图;将所述输出特征图与所述目标待增强特征图进行张量元素相加操作得到增强特征图。
- 根据权利要求1所述的方法,其中,所述检测模型的训练过程包括:获取训练集图像,所述训练集图像为具有目标物标记的图像;将所述训练集图像进行特征提取得到训练集待增强特征图;所述特征增强模块根据所述训练集待增强特征图确定弱监督损失函数,并根据所述训练集待增强特征图输出训练集增强特征图;所述拼接模块对所述训练集增强特征图、训练集待增强特征图进行拼接得到训练集特征图;基于所述弱监督损失函数以及训练集特征图对所述预测模块进行训练。
- 根据权利要求4所述的方法,其中,所述特征增强模块根据所述训练集待增强特征图确定弱监督损失函数,包括:对所述训练集待增强特征图进行卷积变换生成训练集隐层特征图;对所述训练集隐层特征图进行卷积变换得到输出值;根据所述输出值和二值标签确定弱监督损失函数;其中,所述二值标签为基于训练集图像上的标签确定的表征当前位置是否存在目标物的标签。
- 根据权利要求4所述的方法,其中,所述预测模块的训练过程包括:根据训练集特征图的目标检测损失函数、训练集特征图的弱监督损失函数以及训练集特征图的平衡参数确定模型优化指标,所述训练集特征图包括训练集第一拼接特征图、训练集第二拼接特征图以及训练集顶层待增强特征图;基于所述模型优化指标对所述预测模块进行优化,直到所述预测模块得到输出结果的准确率在预设范围内。
- 根据权利要求2所述的方法,其中,所述将所述第一拼接特征图、所述第二拼接特征图以及所述顶层待增强特征图输入预测模块后得到输出结果,包括:将多个特征图中的每个特征图分别划分为多个具有相同尺寸的网格,所述多个特征图包括所述第一拼接特征图、第二拼接特征图以及顶层待增强特征图;基于每个特征图输出预测值,所述预测值基于每个特征图对应的网格的尺寸信息、每个特征图对应的边界框个数,以及每个特征图对应的边界框信息确定;根据所述预测值确定输出结果;其中,所述边界框信息包含边界框对应的位置信息、置信度以及类别信息。
- 一种检测装置,包括:获取模块,设置为获取待检测图像;检测模块,设置为将所述待检测图像输入至训练好的检测模型中,得到所述检测模型的输出结果;其中,所述检测模型包括设置为提取所述待检测图像的特征的基础网络、设置为对所述待检测图像的特征进行增强的特征增强模块、 设置为对特征图像进行拼接的拼接模块以及设置为确定输出结果的预测模块;确定模块,设置为根据所述输出结果确定检测结果。
- 一种检测方法,所述方法包括:获取待检测图像;将所述待检测图像输入至训练好的检测模型中,得到所述检测模型的输出结果;其中,所述检测模型包括设置为提取所述待检测图像的特征的基础网络、设置为对所述待检测图像的特征进行增强的特征增强模块、设置为对特征图像进行拼接的拼接模块以及设置为确定输出结果的预测模块。
- 一种电子设备,包括:一个或多个处理器;存储装置,设置为存储一个或多个程序;所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器用于执行权利要求1-7或9中任一项所述的检测方法。
- 一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7或9中任一项所述的检测方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110811721.0A CN113537070B (zh) | 2021-07-19 | 2021-07-19 | 一种检测方法、装置、电子设备及存储介质 |
CN202110811721.0 | 2021-07-19 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023001059A1 true WO2023001059A1 (zh) | 2023-01-26 |
Family
ID=78100103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2022/105757 WO2023001059A1 (zh) | 2021-07-19 | 2022-07-14 | 检测方法、装置、电子设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113537070B (zh) |
WO (1) | WO2023001059A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116109932A (zh) * | 2023-04-12 | 2023-05-12 | 深圳市明源云科技有限公司 | 房屋安全检测方法、装置、电子设备及可读存储介质 |
CN116346452A (zh) * | 2023-03-17 | 2023-06-27 | 中国电子产业工程有限公司 | 一种基于stacking的多特征融合恶意加密流量识别方法和装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113537070B (zh) * | 2021-07-19 | 2022-11-22 | 中国第一汽车股份有限公司 | 一种检测方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10140544B1 (en) * | 2018-04-02 | 2018-11-27 | 12 Sigma Technologies | Enhanced convolutional neural network for image segmentation |
CN112184687A (zh) * | 2020-10-10 | 2021-01-05 | 南京信息工程大学 | 基于胶囊特征金字塔的道路裂缝检测方法和存储介质 |
CN112541507A (zh) * | 2020-12-17 | 2021-03-23 | 中国海洋大学 | 多尺度卷积神经网络特征提取方法、系统、介质及应用 |
CN112651954A (zh) * | 2020-12-30 | 2021-04-13 | 广东电网有限责任公司电力科学研究院 | 一种绝缘子掉串区域的检测方法及装置 |
CN113033371A (zh) * | 2021-03-19 | 2021-06-25 | 浙江工业大学 | 基于csp模型的多级特征融合行人检测方法 |
CN113537070A (zh) * | 2021-07-19 | 2021-10-22 | 中国第一汽车股份有限公司 | 一种检测方法、装置、电子设备及存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107886474B (zh) * | 2017-11-22 | 2019-04-23 | 北京达佳互联信息技术有限公司 | 图像处理方法、装置及服务器 |
CN108764370B (zh) * | 2018-06-08 | 2021-03-12 | Oppo广东移动通信有限公司 | 图像处理方法、装置、计算机可读存储介质和计算机设备 |
CN109190537B (zh) * | 2018-08-23 | 2020-09-29 | 浙江工商大学 | 一种基于掩码感知深度强化学习的多人物姿态估计方法 |
CN112070040A (zh) * | 2020-09-11 | 2020-12-11 | 上海海事大学 | 一种用于视频字幕的文本行检测方法 |
CN112101221B (zh) * | 2020-09-15 | 2022-06-21 | 哈尔滨理工大学 | 一种用于交通信号灯实时检测与识别的方法 |
CN111932482B (zh) * | 2020-09-25 | 2021-05-18 | 平安科技(深圳)有限公司 | 图像中目标物的检测方法、装置、电子设备及存储介质 |
CN112633077A (zh) * | 2020-12-02 | 2021-04-09 | 特斯联科技集团有限公司 | 一种基于层内多尺度特征增强的人脸检测方法、系统、存储介质及终端 |
CN112818777B (zh) * | 2021-01-21 | 2022-10-18 | 上海电力大学 | 一种基于密集连接与特征增强的遥感图像目标检测方法 |
CN113111877A (zh) * | 2021-04-28 | 2021-07-13 | 奇瑞汽车股份有限公司 | 一种特征金字塔及其特征图像的提取方法 |
-
2021
- 2021-07-19 CN CN202110811721.0A patent/CN113537070B/zh active Active
-
2022
- 2022-07-14 WO PCT/CN2022/105757 patent/WO2023001059A1/zh unknown
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10140544B1 (en) * | 2018-04-02 | 2018-11-27 | 12 Sigma Technologies | Enhanced convolutional neural network for image segmentation |
CN112184687A (zh) * | 2020-10-10 | 2021-01-05 | 南京信息工程大学 | 基于胶囊特征金字塔的道路裂缝检测方法和存储介质 |
CN112541507A (zh) * | 2020-12-17 | 2021-03-23 | 中国海洋大学 | 多尺度卷积神经网络特征提取方法、系统、介质及应用 |
CN112651954A (zh) * | 2020-12-30 | 2021-04-13 | 广东电网有限责任公司电力科学研究院 | 一种绝缘子掉串区域的检测方法及装置 |
CN113033371A (zh) * | 2021-03-19 | 2021-06-25 | 浙江工业大学 | 基于csp模型的多级特征融合行人检测方法 |
CN113537070A (zh) * | 2021-07-19 | 2021-10-22 | 中国第一汽车股份有限公司 | 一种检测方法、装置、电子设备及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116346452A (zh) * | 2023-03-17 | 2023-06-27 | 中国电子产业工程有限公司 | 一种基于stacking的多特征融合恶意加密流量识别方法和装置 |
CN116346452B (zh) * | 2023-03-17 | 2023-12-01 | 中国电子产业工程有限公司 | 一种基于stacking的多特征融合恶意加密流量识别方法和装置 |
CN116109932A (zh) * | 2023-04-12 | 2023-05-12 | 深圳市明源云科技有限公司 | 房屋安全检测方法、装置、电子设备及可读存储介质 |
CN116109932B (zh) * | 2023-04-12 | 2023-08-04 | 深圳市明源云科技有限公司 | 房屋安全检测方法、装置、电子设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113537070A (zh) | 2021-10-22 |
CN113537070B (zh) | 2022-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023001059A1 (zh) | 检测方法、装置、电子设备及存储介质 | |
US10762376B2 (en) | Method and apparatus for detecting text | |
WO2022017245A1 (zh) | 一种文本识别网络、神经网络训练的方法以及相关设备 | |
US11410549B2 (en) | Method, device, readable medium and electronic device for identifying traffic light signal | |
JP5775225B2 (ja) | マルチレイヤ連結成分をヒストグラムと共に用いるテキスト検出 | |
US20210406592A1 (en) | Method and apparatus for visual question answering, computer device and medium | |
WO2017166586A1 (zh) | 基于卷积神经网络的图片鉴别方法、系统和电子设备 | |
WO2017020528A1 (zh) | 车道线的识别建模方法、装置、存储介质和设备及识别方法、装置、存储介质和设备 | |
CN111767882A (zh) | 一种基于改进yolo模型的多模态行人检测方法 | |
Li et al. | Coal gangue detection and recognition algorithm based on deformable convolution YOLOv3 | |
CN113822209B (zh) | 高光谱图像识别方法、装置、电子设备及可读存储介质 | |
Wang et al. | FE-YOLOv5: Feature enhancement network based on YOLOv5 for small object detection | |
WO2021104125A1 (zh) | 禽蛋异常的识别方法、装置及系统、存储介质、电子装置 | |
CN111008576B (zh) | 行人检测及其模型训练、更新方法、设备及可读存储介质 | |
CN109522807B (zh) | 基于自生成特征的卫星影像识别系统、方法及电子设备 | |
CN115861462B (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
WO2023102723A1 (zh) | 图像的处理方法和系统 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN116758360B (zh) | 土地空间用途管理方法及其系统 | |
WO2023246912A1 (zh) | 图像文字结构化输出方法、装置、电子设备和存储介质 | |
CN116205905B (zh) | 基于移动端的配电网施工安全及质量图像检测方法及系统 | |
CN110263779A (zh) | 文本区域检测方法及装置、文本检测方法、计算机可读介质 | |
CN115984633B (zh) | 门级电路组件识别方法、系统、存储介质及设备 | |
Vidhyalakshmi et al. | Text detection in natural images with hybrid stroke feature transform and high performance deep Convnet computing | |
CN115546569B (zh) | 一种基于注意力机制的数据分类优化方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
NENP | Non-entry into the national phase |
Ref country code: DE |