WO2023019875A1

WO2023019875A1 - 车辆损失检测方法、装置、电子设备及存储介质

Info

Publication number: WO2023019875A1
Application number: PCT/CN2022/070984
Authority: WO
Inventors: 康甲; 刘莉红; 刘玉宇
Original assignee: 平安科技（深圳）有限公司
Priority date: 2021-08-16
Filing date: 2022-01-10
Publication date: 2023-02-23
Also published as: CN113657409A

Abstract

一种车辆损失检测方法、装置、电子设备及存储介质。方法包括：获取目标图像；将目标图像输入至网络模型，网络模型的主干网络包括Swin Transformer网络，主干网络基于Swin Transformer网络，用于预测目标图像的损伤位置坐标及损伤类别；根据损伤位置坐标及损伤类别确定损伤检测结果。使用Swin Transformer网络作为主干网络，相对于CNN检测方式更加精确，能够更有效的定位和识别损伤部位。采用Swin Transformer作为主干网络提取特征能够探索图像各像素间的空间信息联系以及对特征的加权选择，从而实现更好的特征提取和利用。同时Swin Transformer具备CNN的局部性、平移不变性以及残差学习等特点，因此能够在性能超越CNN方法的同时又解决了其他视觉Transformer方案中计算量繁杂、内存消耗大的问题。

Description

车辆损失检测方法、装置、电子设备及存储介质

本申请要求于 2021年 08月 16日提交中国专利局、申请号为 202110937282.8，发明名称为“ 车辆损失检测方法、装置、电子设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明实施例涉及人工智能领域机器学习技术，尤其涉及一种车辆损失检测方法、装置、电子设备及存储介质。

背景技术

随着社会迅速发展，车辆已成为不可或缺的交通工具之一，而日益增加的车辆无疑提高了交通意外的发生率。交通意外发生后通常是保险公司到事故现场进行定损，即通过观察现场拍摄的照片确定车辆损伤，以此作为车险公司的理赔依据。由于定损环节耗费大量的人力资源，且得到的结果具有较强的主观性。故基于深度学习方法实现车辆损伤检测系统开始逐渐代替人工操作，其可以通过一张或多张图片准确地检测出车辆损伤类型。

发明人发现，现有的目标检测器主要是基于CNN实现。但基于CNN进行图像分析的过程存在不够精确的问题。

发明内容

本发明提供一种车辆损失检测方法、装置、电子设备及存储介质，以实现提高车辆损伤检测的精确度。

第一方面，本发明实施例提供了一种车辆损失检测方法，包括：

获取目标图像；

将所述目标图像输入至网络模型，所述网络模型的主干网络包括Swin Transformer网络(又称层次化视觉transformer网络)，所述主干网络用于基于Swin Transformer网络，预测目标图像的损伤位置坐标及损伤类别；

根据所述损伤位置坐标及损伤类别确定损伤检测结果。

第二方面，本发明实施例还提供了一种车辆损失检测装置，包括：

图像获取模块，用于获取目标图像；

检测模块，用于将所述目标图像输入至网络模型，所述网络模型的主干网络包括Swin Transformer网络所述主干网络用于基于Swin Transformer网络，预测目标图像的损伤位置坐标及损伤类别；

检测结果确定模块，用于根据所述损伤位置坐标及损伤类别确定损伤检测结果。

第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，当所述计算机程序时使得所述处理器执行以下操作：

获取目标图像；

将所述目标图像输入至网络模型，所述网络模型的主干网络包括Swin Transformer网络，所述主干网络用于基于Swin Transformer网络，预测目标图像的损伤位置坐标及损伤类别；

根据所述损伤位置坐标及损伤类别确定损伤检测结果。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如下步骤：

获取目标图像；

根据所述损伤位置坐标及损伤类别确定损伤检测结果。

本发明实施例提供的车辆损失检测方法，获取目标图像；将所述目标图像输入至网络模型，所述网络模型的主干网络包括Swin Transformer网络所述主干网络用于基于Swin Transformer网络，预测目标图像的损伤位置坐标及损伤类别；根据所述损伤位置坐标及损伤类别确定损伤检测结果。相对于目前使用CNN进行车损检测不够精确，本发明实施例使用Swin Transformer网络作为主干网络，相对于CNN检测方式更加精确，能够更有效的定位和识别损伤部位。采用Swin Transformer作为主干网络提取特征能够探索图像各像素间的空间信息联系以及对特征的加权选择，从而实现更好的特征提取和利用。同时Swin Transformer具备CNN的局部性、平移不变性以及残差学习等特点，因此能够在性能超越CNN方法的同时又解决了其他视觉Transformer方案中计算量繁杂、内存消耗大的问题。Swin Transformer中的Swin Transformer块基于自注意力机制的方法具有应用检测车型范围广，适用现场环境及拍照背景复杂的优点，能实现车辆损伤部位的高效定损，优化定损效率。

附图说明

图1是本发明实施例一中的车辆损失检测方法的流程图；

图2是本发明实施例一中的Swin Transformer网络的结构示意图；

图3是本发明实施例一中的Swin Transformer块的结构示意图；

图4是本发明实施例二中的车辆损失检测方法的流程图；

图5是本发明实施例三中车辆损失检测装置的结构示意图；

图6是本发明实施例四中的电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的车辆损失检测方法的流程图，本实施例可适用于车辆损失检测的情况，该方法可以由电子设备来执行，电子设备可以为计算机设备或终端，具体包括如下步骤：

步骤110、获取目标图像。

目标图像为进行车辆损失检测的图像。用户可以通过手持终端对受损车辆进行拍照，将拍照得到的照片作为目标图像。也可以将预先拍摄的图像导入到计算机设备，作为目标图像。

步骤120、将目标图像输入至网络模型，网络模型的主干网络包括Swin Transformer网络主干网络用于基于Swin Transformer网络，预测目标图像的损伤位置坐标及损伤类别。

Swin Transformer网络的结构图如图2所示，包括块分割层(patch partition)和四个阶段stage。每个阶段stage包括线性嵌入层(linear embedding)和Swin Transformer块(block)。每个阶段用于进行一次降采样。

示例性的，通过块分割层(patch partition)将输入的目标图像224*224，划分为不重合的块patch集合，其中每个块patch尺寸为4x4，目标图像具有3个颜色通道，每个patch的特征维度为4x4x3＝48，patch块的数量为H/4x W/4。

阶段1部分(stage1)，先通过一个线性嵌入层(linear embedding)将划分后的patch特征维度变成C，然后送入Swin Transformer Block；stage2-stage4操作相同，先通过一个patch merging，将输入按照2x2的相邻块patches合并，得到patch块的数量就变成了H/8x W/8，特征维度就变成了4C，以此类推，通过四个阶段对目标图像的特征向量进行处理，得到车损类别和损坏的位置信息。在Swin Transformer网络中，预先配置每个块patch的大小，根据确定的patch的大小确定块patch的数量。

分割层用于将图像分割为多个块patch，并得到每个块的特征向量。阶段1至阶段4用于根据特征向量进行图像识别，得到目标图像的损伤位置坐标及损伤类别。阶段1以块为单位，识别每个块中的目标图像的特征向量。阶段2对阶段1中的快进行合并，得到快patch的数量为H/8x W/8，根据合并后的块，识别每个块中的目标图像的特征向量。以此类推，后一个阶段对前一个阶段的块进行合并，根据合并得到的块patch识别目标图像的特征向量。阶段4得到目标图像的特征向量后，将特征向量映射到神经网络进行图像识别。

可选的，将目标图像输入至网络模型，包括：通过卷积层对图像进行卷积，得到卷积数据；将卷积数据作为Swin Transformer网络的输入。

可选的，在块分割层(patch partition)之前设置卷积层，通过卷积层对目标图像进行卷积操作。示例性的，配置两层3乘3的卷积层，使用两层3乘3的卷积层对目标图像进行卷积，将目标图像转换为卷积数据。将该卷积数据输入至块分割层(patch partition)。

使用卷积层对图像进行卷积，不仅能够降低后续计算复杂度，还能够提升模型精度。使用两层3乘3卷积层能够进一步提高卷积效率。

将卷积数据输入至块分割层(patch partition)后，通过块分割层(patch partition)将输入的卷积数据划分为不重合的块patch集合作为Swin Transformer网络的输入特征。

作为主干backbone的Swin Transformer网络，通过各阶段中的Swin Transformer block堆叠而成。输入特征通过线性嵌入层(linear embedding)进行特征维度的变换。Swin Transformer网络通过对输入按照相邻patches进行合并，实现特征的复用。

如图3所示，每个Swin Transformer块(Swin Transformer block)由一个带两层MLP(Muti-Layer Perception)的基于位移窗口的MSA(multi-head self attention)组成。在每个MSA模块和每个MLP之前使用LayerNorm(LN)层，并在每个MSA和MLP之后使用残差连接。MSA模块将输入图片划分为不重合的窗口，然后在不同的窗口内进行自注意力的计算，其计算复杂度和图像尺寸呈线性关系。

可选的，Swin Transformer网络包括多个Swin Transformer块，Swin Transformer块中包括多个MSA层；

MSA层的输入设有第一卷积层；MSA层的输出设有第二卷积层。

对于每个MSA层，在其输入设置第一卷积层，用于降维。在其输出设置第二卷积层，用于升维。示例性的，第一卷积层可以为1*1卷积层。第二卷积层可以为1*1卷积层。相应的，MSA层的输入设有1*1卷积层；MSA层的输出设有1*1卷积层。通过在每个MSA层的输入和输出设置卷积层，能够提高特征运算效率，提高运算速度。对于每个MSA层，在其输入设置1*1卷积层，用于降维。在其输出设置1*1卷积层，用于升维。

可选的，主干网络与颈部网络连接，颈部网络包括：

特征图金字塔网络(Feature Pyramid Networks，FPN)和平衡特征金字塔网络(Balanced Feature Pyramid，BFP)。

特征图金字塔网络用于对每一种尺度的图像进行特征提取，能够产生多尺度的特征表示，并且所有等级的特征图都具有较强的语义信息，甚至包括一些高分辨率的特征图。

阶段1至阶段4的图像有大小进行卷积，相当于特征金字塔网络底层至顶层，特征金字塔网络针对每层的图像进行特征提取，产生多尺度的特征表示，并对特征进行融合。各层的图像具有一定的语义信息。可以通过特征图金字塔网络进行特征融合。平衡特征金字塔网络用于增强多层特征层通过深度集成均衡语义特征。通过平衡特征金字塔网络对特征进行增强。

颈部网络用语连接主干网络backbone与头部网络head，使主干网络输出的特征能够更加高效的应用于头部网络，提高数据处理效率。

步骤130、根据损伤位置坐标及损伤类别确定损伤检测结果。

步骤120Swin Transformer网络通过前向传播输出损伤位置坐标及损伤类别后，可以通过soft-NMS(非极大值抑制)算法筛选出最终损伤检测结果。

本发明实施例提供的车辆损失检测方法，获取目标图像；将目标图像输入至网络模型，网络模型的主干网络包括Swin Transformer网络主干网络用于基于Swin Transformer网络，预测目标图像的损伤位置坐标及损伤类别；根据损伤位置坐标及损伤类别确定损伤检测结果。相对于目前使用CNN进行车损检测不够精确，本发明实施例使用Swin Transformer网络作为主干网络，相对于CNN检测方式更加精确，能够更有效的定位和识别损伤部位。采用Swin Transformer作为主干网络提取特征能够探索图像各像素间的空间信息联系以及对特征的加权选择，从而实现更好的特征提取和利用。同时Swin Transformer具备CNN的局部性、平移不变性以及残差学习等特点，因此能够在性能超越CNN方法的同时又解决了其他视觉Transformer方案中计算量繁杂、内存消耗大的问题。Swin Transformer中的Swin Transformer块基于自注意力机制的方法具有应用检测车型范围广，适用现场环境及拍照背景复杂的优点，能实现车辆损伤部位的高效定损，优化定损效率。

实施例二

图4为本发明实施例二提供的车辆损失检测方法的流程图，作为对上述实施例的进一步说明，在步骤110获取目标图像之前，还包括对Swin Transformer网络进行训练的步骤。实施例一提供了一种以Swin Transformer网络为主干网络进行车损检测的实施方式。实施例二用于提供上述网络的训练方式。该方法可通过下述方式实施：

步骤210、根据标注准则对车损历史图片进行标注，配置车损历史图片的损伤类别。

其中，损伤类别和标注准则可以由定损人员和算法工程师合议后确定。损伤类别包括需要赔偿的不同严重程度的车辆损伤。标注准则包括各种损伤重叠、不确定是否为损伤、不确定为何种损伤等特殊情况标注准则。损伤类别包括：划痕、刮擦、凹陷、褶皱、死折、撕裂、缺失等。

基于损伤类别对车身损伤的历史图片批量进行标注。可选的，可以进行人工标注。对每张图片里出现的损伤形态采用矩形框标注，并记录其所属损伤类型。进一步的，将难以区分损伤类别的图片剔除，构建车身损伤数据库。

步骤220、根据标注的车损历史图片对Swin Transformer网络进行训练。

可选的，从车身损伤数据库中将一部分图像作为训练集，另一部分图像作为测试集。

对训练集所有图片进行随机裁剪，随机旋转，随机改变饱和度，色调和对比度等数据增强操作，然后将图片缩放到896*896像素，再输入到Swin Transformer进行训练。训练过程包括将车损图像以及损伤类型的标注等参数作为输入，对Swin Transformer网络进行训练。每1个时期(epoch)在测试集上进行测试，分别保存检测模型map最高的一次模型参数。经过多次迭代对Swin Transformer网络进行优化。

可选的，根据标注的车损历史图片对Swin Transformer网络进行训练，包括：

训练过程中，根据距离惩罚损伤函数进行Swin Transformer网络的回归计算。

IOU又称交并比(Intersection over Union)，表示“预测的边框”和“真实的边框”的交集和并集的比值。通常对网络进行训练采用IOU计算公式以及bounding box定位损失函数。然而，使用上述计算方式得到的准确率较低。因此，本申请实施例根据距离惩罚损伤函数进行Swin Transformer网络的回归计算，从而提高预测矿的定位精度。DIOUloss损失函数在与目标框不重叠时，仍然可以为边界框提供移动方向。此外，相对于IOU loss，DIoU loss具有更快的收敛速度。同时，对于包含两个框在水平方向和垂直方向上这种情况，DIoU损失可以实现快速回归。

示例性的，距离惩罚损伤函数(DIoU Loss)用于进行Swin Transformer网络的边界框回归计算。距离惩罚损伤L _DIoU可以通过下述公式计算：

其中b和b ^gt分别表示预测框和真实框的中心点，ρ ²(b，b ^gt)表示计算两个中心点间的欧式距离。C表示能够同时包含预测框和真实框的最小闭包区域的对角线距离。IoU表示预测框和真实框的交并比。

训练过程中，根据车损历史图片进行数据增强；使用数据增强后的车损历史图片对Swin Transformer网络进行训练。

训练过程中，可以根据车损历史图片采用不同数据增强方法，包括通过尝试不同类型的优化器、采用学习率下降策略、正则化技术等方式。此外，采用多尺度训练方式训练足够多的时期epoch使模型在训练集和测试集的损失值收敛，保存网络在测试集上map最高的模型参数。其中，当一个完整的数据集通过了神经网络一次并且返回了一次，这个过程称为一次时期epoch。

此外，少量针对性数据增强包括马赛克和暗光会发生误检，因此在数据增强中随机加入马赛克和图像饱和度变化。

步骤230、获取目标图像。

步骤240、将目标图像输入至网络模型，网络模型的主干网络包括Swin Transformer网络主干网络用于基于Swin Transformer网络，预测目标图像的损伤位置坐标及损伤类别。

步骤250、根据损伤位置坐标及损伤类别确定损伤检测结果。

本申请实施例提供的车辆损失检测方法，能够更加高效的对网络进行训练，使训练出的网络更加精准。

实施例三

图5为本发明实施例三提供的车辆损失检测装置的结构示意图，本实施例可适用于车辆损失检测的情况，该方法可以由电子设备来执行，电子设备可以为计算机设备或终端，具体包括：图像获取模块310、检测模块320和检测结果确定模块330。

图像获取模块310，用于获取目标图像；

检测模块320，用于将所述目标图像输入至网络模型，所述网络模型的主干网络包括Swin Transformer网络所述主干网络用于基于Swin Transformer网络，预测目标图像的损伤位置坐标及损伤类别；

检测结果确定模块330，用于根据所述损伤位置坐标及损伤类别确定损伤检测结果。

在上述实施方式的基础上，检测模块320用于：

通过卷积层对图像进行卷积，得到卷积数据；

将所述卷积数据作为Swin Transformer网络的输入。

在上述实施方式的基础上，所述Swin Transformer网络包括多个Swin Transformer块，所述Swin Transformer块中包括多个MSA层；

所述MSA层的输入设有第一卷积层；

所述MSA层的输出设有第二卷积层。

具体的，所述MSA层的输入设有1*1卷积层，所述MSA层的输出设有1*1卷积层。

在上述实施方式的基础上，所述主干网络与颈部网络连接，所述颈部网络包括：

特征图金字塔网络和平衡特征金字塔网络。

在上述实施方式的基础上，还包括训练模块。训练模块用于：

根据标注准则对车损历史图片进行标注，配置所述车损历史图片的损伤类别；

根据标注的车损历史图片对所述Swin Transformer网络进行训练。

在上述实施方式的基础上，训练模块用于：

训练过程中，根据所述车损历史图片进行数据增强；

使用数据增强后的车损历史图片对Swin Transformer网络进行训练。

本发明实施例提供的车辆损失检测装置，图像获取模块310获取目标图像；检测模块320将所述目标图像输入至网络模型，所述网络模型的主干网络包括Swin Transformer网络所述主干网络用于基于Swin Transformer网络，预测目标图像的损伤位置坐标及损伤类别；检测结果确定模块330。根据所述损伤位置坐标及损伤类别确定损伤检测结果。相对于目前使用CNN进行车损检测不够精确，本发明实施例使用Swin Transformer网络作为主干网络，相对于CNN检测方式更加精确，能够更有效的定位和识别损伤部位。采用Swin Transformer作为主干网络提取特征能够探索图像各像素间的空间信息联系以及对特征的加权选择，从而实现更好的特征提取和利用。同时Swin Transformer具备CNN的局部性、平移不变性以及残差学习等特点，因此能够在性能超越CNN方法的同时又解决了其他视觉Transformer方案中计算量繁杂、内存消耗大的问题。Swin Transformer中的Swin Transformer块基于自注意力机制的方法具有应用检测车型范围广，适用现场环境及拍照背景复杂的优点，能实现车辆损伤部位的高效定损，优化定损效率。

本发明实施例所提供的车辆损失检测装置可执行本发明任意实施例所提供的车辆损失检测方法，具备执行方法相应的功能模块和有益效果。

实施例四

图6为本发明实施例四提供的一种电子设备的结构示意图，如图6所示，该电子设备包括处理器40、存储器41、输入装置42和输出装置43；电子设备中处理器40的数量可以是一个或多个，图6中以一个处理器40为例；电子设备中的处理器40、存储器41、输入装置 42和输出装置43可以通过总线或其他方式连接，图6中以通过总线连接为例。

存储器41作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的车辆损失检测方法对应的程序指令/模块(例如，车辆损失检测装置中的图像获取模块310、检测模块320、检测结果确定模块330和训练模块)。处理器40通过运行存储在存储器41中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述的车辆损失检测方法。

存储器41可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器41可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器41可进一步包括相对于处理器40远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置42可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置43可包括显示屏等显示设备。

当所述计算机程序时使得所述处理器执行以下操作：

获取目标图像；

根据所述损伤位置坐标及损伤类别确定损伤检测结果。

在上述实施方式的基础上，所述处理器被设置为通过下述方式将所述目标图像输入至网络模型：

通过卷积层对图像进行卷积，得到卷积数据；

将所述卷积数据作为Swin Transformer网络的输入。

在上述实施方式的基础上，所述处理器处理的Swin Transformer网络被设置为：所述Swin Transformer网络包括多个Swin Transformer块，所述Swin Transformer块中包括多个MSA层；

所述MSA层的输入设有第一卷积层；

所述MSA层的输出设有第二卷积层。

在上述实施方式的基础上，所述处理器处理的所述主干网络与颈部网络连接，所述颈部网络包括：

特征图金字塔网络和平衡特征金字塔网络。

在上述实施方式的基础上，所述处理器在获取目标图像之前，还被设置为：

根据标注的车损历史图片对所述Swin Transformer网络进行训练。

在上述实施方式的基础上，所述处理器被设置为通过下述方式根据标注的车损历史图片对所述Swin Transformer网络进行训练：

训练过程中，根据所述车损历史图片进行数据增强；

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质，存储介质可以为计算机可读存储介质，该计算机可读存储介质可以是非易失性，也可以是易失性。所述计算机可执行指令在由计算机处理器执行时用于执行如下步骤：

获取目标图像；

将所述目标图像输入至网络模型，所述网络模型的主干网络包括Swin Transformer网络所述主干网络用于基于Swin Transformer网络，预测目标图像的损伤位置坐标及损伤类别；

根据所述损伤位置坐标及损伤类别确定损伤检测结果。

在上述实施方式的基础上，所述将所述目标图像输入至网络模型，包括：

通过卷积层对图像进行卷积，得到卷积数据；

将所述卷积数据作为Swin Transformer网络的输入。

所述MSA层的输入设有第一卷积层；(所述MSA层的输入设有1*1卷积层)

所述MSA层的输出设有第二卷积层。

特征图金字塔网络和平衡特征金字塔网络。

在上述实施方式的基础上，在获取目标图像之前，还包括：

根据标注的车损历史图片对所述Swin Transformer网络进行训练。

在上述实施方式的基础上，所述根据标注的车损历史图片对所述Swin Transformer网络进行训练，包括：

训练过程中，根据所述车损历史图片进行数据增强；

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的车辆损失检测方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述车辆损失检测装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

一种车辆损失检测方法，其中，包括：

获取目标图像；

将所述目标图像输入至网络模型，所述网络模型的主干网络包括Swin Transformer网络，所述主干网络用于基于Swin Transformer网络，预测目标图像的损伤位置坐标及损伤类别；

根据所述损伤位置坐标及损伤类别确定损伤检测结果。
根据权利要求1所述的方法，其中，所述将所述目标图像输入至网络模型，包括：

通过卷积层对图像进行卷积，得到卷积数据；

将所述卷积数据作为Swin Transformer网络的输入。
根据权利要求1所述的方法，其中，所述Swin Transformer网络包括多个Swin Transformer块，所述Swin Transformer块中包括多个MSA层；

所述MSA层的输入设有第一卷积层；

所述MSA层的输出设有第二卷积层。
根据权利要求1所述的方法，其中，所述主干网络与颈部网络连接，所述颈部网络包括：

特征图金字塔网络和平衡特征金字塔网络。
根据权利要求1所述的方法，其中，在获取目标图像之前，还包括：

根据标注准则对车损历史图片进行标注，配置所述车损历史图片的损伤类别；

根据标注的车损历史图片对所述Swin Transformer网络进行训练。
根据权利要求5所述的方法，其中，所述根据标注的车损历史图片对所述Swin Transformer网络进行训练，包括：

训练过程中，根据距离惩罚损伤函数进行Swin Transformer网络的回归计算。
根据权利要求5所述的方法，其中，所述根据标注的车损历史图片对所述Swin Transformer网络进行训练，包括：

训练过程中，根据所述车损历史图片进行数据增强；

使用数据增强后的车损历史图片对Swin Transformer网络进行训练。
一种车辆损失检测装置，其中，包括：

图像获取模块，用于获取目标图像；

检测模块，用于将所述目标图像输入至网络模型，所述网络模型的主干网络包括Swin Transformer网络，所述主干网络用于基于Swin Transformer网络，预测目标图像的损伤位置坐标及损伤类别；

检测结果确定模块，用于根据所述损伤位置坐标及损伤类别确定损伤检测结果。
一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，当所述计算机程序时使得所述处理器执行以下操作：

获取目标图像；

将所述目标图像输入至网络模型，所述网络模型的主干网络包括Swin Transformer网络，所述主干网络用于基于Swin Transformer网络，预测目标图像的损伤位置坐标及损伤类别；

根据所述损伤位置坐标及损伤类别确定损伤检测结果。
根据权利要求9所述的电子设备，其中，所述处理器被设置为通过下述方式将所述目标图像输入至网络模型：

通过卷积层对图像进行卷积，得到卷积数据；

将所述卷积数据作为Swin Transformer网络的输入。
根据权利要求9所述的电子设备，其中，所述处理器处理的Swin Transformer网络被设置为：所述Swin Transformer网络包括多个Swin Transformer块，所述Swin Transformer块中包括多个MSA层；

所述MSA层的输入设有第一卷积层；

所述MSA层的输出设有第二卷积层。
根据权利要求9所述的电子设备，其中，所述处理器处理的所述主干网络与颈部网络连接，所述颈部网络包括：

特征图金字塔网络和平衡特征金字塔网络。
根据权利要求9所述的电子设备，其中，所述处理器在获取目标图像之前，还被设置为：

根据标注准则对车损历史图片进行标注，配置所述车损历史图片的损伤类别；

根据标注的车损历史图片对所述Swin Transformer网络进行训练。
根据权利要求13所述的电子设备，其中，所述处理器被设置为通过下述方式根据标注的车损历史图片对所述Swin Transformer网络进行训练：

训练过程中，根据距离惩罚损伤函数进行Swin Transformer网络的回归计算。
根据权利要求13所述的电子设备，其中，所述处理器被设置为通过下述方式根据标注的车损历史图片对所述Swin Transformer网络进行训练：

训练过程中，根据所述车损历史图片进行数据增强；

使用数据增强后的车损历史图片对Swin Transformer网络进行训练。
一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如下步骤：

获取目标图像；

将所述目标图像输入至网络模型，所述网络模型的主干网络包括Swin Transformer网络，所述主干网络用于基于Swin Transformer网络，预测目标图像的损伤位置坐标及损伤类别；

根据所述损伤位置坐标及损伤类别确定损伤检测结果。
根据权利要求16所述的存储介质，其中，所述计算机可执行指令在由计算机处理器执行时，所述将所述目标图像输入至网络模型，通过下述方式执行：

通过卷积层对图像进行卷积，得到卷积数据；

将所述卷积数据作为Swin Transformer网络的输入。
根据权利要求16所述的存储介质，其中，所述计算机可执行指令在由计算机处理器执行时，所述Swin Transformer网络包括多个Swin Transformer块，所述Swin Transformer块中包括多个MSA层；

所述MSA层的输入设有第一卷积层；

所述MSA层的输出设有第二卷积层。
根据权利要求16所述的存储介质，其中，所述计算机可执行指令在由计算机处理器执行时，所述主干网络与颈部网络连接，所述颈部网络包括：

特征图金字塔网络和平衡特征金字塔网络。
根据权利要求16所述的存储介质，其中，所述计算机可执行指令在由计算机处理器执行时，在获取目标图像之前执行：

根据标注准则对车损历史图片进行标注，配置所述车损历史图片的损伤类别；

根据标注的车损历史图片对所述Swin Transformer网络进行训练。
根据权利要求20所述的存储介质，其中，所述计算机可执行指令在由计算机处理器执行时，所述根据标注的车损历史图片对所述Swin Transformer网络进行训练，通过下述方式执行：

训练过程中，根据距离惩罚损伤函数进行Swin Transformer网络的回归计算。
根据权利要求20所述的存储介质，其中，所述计算机可执行指令在由计算机处理器执行时，所述根据标注的车损历史图片对所述Swin Transformer网络进行训练，通过下述方式执行：

训练过程中，根据所述车损历史图片进行数据增强；

使用数据增强后的车损历史图片对Swin Transformer网络进行训练。