WO2021189870A1

WO2021189870A1 - 违法建筑识别方法、装置、设备及存储介质

Info

Publication number: WO2021189870A1
Application number: PCT/CN2020/128257
Authority: WO
Inventors: 王冠皓; 叶芷
Original assignee: 北京百度网讯科技有限公司
Priority date: 2020-03-27
Filing date: 2020-11-12
Publication date: 2021-09-30
Also published as: US20230005257A1; JP2022529876A; KR20210116665A; EP3916629A1; EP3916629A4; CN111460967B; CN111460967A

Abstract

一种违法建筑识别方法、装置、设备及存储介质，涉及云计算领域。具体实现方案为：获取目标图像，以及所述目标图像关联的参考图像（S01）；分别提取所述目标图像的目标建筑特征，以及所述参考图像的参考建筑特征（S102）；根据所述目标建筑特征和所述参考建筑特征，确定所述目标图像的违建识别结果（S103）。该方案通过获取与目标图像关联的参考图像，进行目标图像和参考图像的绑定，并对绑定后的图像进行特征提取，从而基于参考图像的建筑特征对目标图像进行违建识别，实现了违法建筑的自动识别，并减少了违法建筑识别过程的数据处理量；同时，基于孪生思想对目标图像和参考图像进行建筑特征提取，进而根据提取的建筑特征进行违建识别，提高了识别结果的准确度。

Description

违法建筑识别方法、装置、设备及存储介质

本申请要求在2020年3月27日提交中国专利局、申请号为202010231088.3的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请涉及图像处理技术，例如涉及云计算领域，具体涉及一种违法建筑识别方法、装置、设备及存储介质。

背景技术

在城市建设中，违法建筑成为破坏城市容貌重点关注对象，同时，违法建筑也对人们的生命安全带来比较大的威胁。

目前，通常通过城管部门选件的方式进行违法建筑检测。然而，上述方式需要投入大量的人力成本，同时人为检查的方式效率较低，容易发生遗漏的情况。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本申请实施例提供了一种违法建筑识别方法、装置、设备及存储介质，以实现违法建筑的自动识别，降低识别成本，提高识别效率。

第一方面，本申请实施例提供了一种违法建筑识别方法，包括：

获取目标图像，以及所述目标图像关联的参考图像；

分别提取所述目标图像的目标建筑特征，以及所述参考图像的参考建筑特征；

根据所述目标建筑特征和所述参考建筑特征，确定所述目标图像的违建识别结果。

本申请通过获取目标图像以及目标图像关联的参考图像；分别提取目标图像的目标建筑特征以及参考图像的参考建筑特征；根据目标建筑特征和参考建筑特征，确定目标图像的违建识别结果。上述技术方案通过获取与目标图像关联的参考图像，进行目标图像和参考图像的绑定，并对绑定后的图像进行特征提取，从而基于参考图像的建筑特征对目标图像进行违建识别，实现了违法建筑的自动识别，并减少了违法建筑识别过程的数据处理量；同时，基于siamese(孪生)思想对目标图像和参考图像进行建筑特征提取，进而根据提取的建筑特征进行违建识别，提高了识别结果的准确度。

在一实施例中，所述目标图像和所述参考图像的采集位置的距离差值小于设定距离阈值、或所述目标图像和所述参考图像的采集角度的角度差值小于设定角度阈值、或所述目标图像和所述参考图像的采集位置的距离差值小于设定距离阈值且所述目标图像和所述参考图像的采集角度的角度差值小于设定角度阈值。

上述申请中的一个可选实施方式，通过将目标图像和参考图像的采集位置的距离差值、或采集角度的角度差值、或目标图像和参考图像的采集位置的距离差值和采集角度的角度差值进行限定，从而实现目标图像和参考图像的绑定，避免了基于多个参考图像对目标图像进行违建识别的情况，减少了数据运算量。

在一实施例中，分别提取目标图像的目标建筑特征，以及与所述目标图像关联的参考图像的参考建筑特征，包括：

分别提取所述目标图像的目标基础特征，以及与所述目标图像关联的所述参考图像的参考基础特征；

在设定的至少两个尺度下，分别对所述目标基础特征和所述参考基础特征进行特征提取，得到所述至少两个尺度下的所述目标建筑特征和所述参考建筑特征。

上述申请中的一个可选实施方式，通过将建筑特征提取过程细化为进行基础特征的提取，并对基础特征在至少两个尺度下进一步进行特征提取，从而能够得到图像在不同尺度下的细节特征，进而基于至少两个尺度下的建筑特征进行违法建筑识别，提高了识别结果的准确度。

在一实施例中，根据所述目标建筑特征和所述参考建筑特征，确定所述目标图像的违建识别结果，包括：

将每一尺度下的所述目标建筑特征和所述参考建筑特征，进行特征融合；

根据至少两个尺度下的特征融合结果，确定所述目标图像的违建识别结果。

上述申请中的一个可选实施方式，通过将违建识别结果确定过程，细化为将每个尺度下的建筑特征进行融合，并根据至少两个尺度下的特征内容和结果进行违建识别，从而完善了多尺度下的违法建制识别机制。

在一实施例中，将每一尺度下的所述目标建筑特征和所述参考建筑特征，进行特征融合，包括：

将每一尺度下的所述目标建筑特征和所述参考建筑特征做差，并将差值作为该尺度下的特征融合结果。

上述申请中的一个可选实施方式，通过将特征融合过程，细化为将每一尺度下的目标建筑特征和参考建筑特征的差值作为特征融合结果，完善了特征融合机制。

在一实施例中，分别提取所述目标图像的目标基础特征，以及与所述目标图像关联的所述参考图像的参考基础特征，包括：

基于深度残差网络，分别提取所述目标图像的目标基础特征，以及与所述目标图像关联的所述参考图像的参考基础特征。

上述申请中的一个可选实施方式，通过将基础特征提取过程，细化为基于深度残差网络进行基础特征提取，完善了特征提取方式，同时提高了特征提取结果的准确度。

在一实施例中，在提取所述参考图像的参考建筑特征之前，所述方法还包括：

根据所述目标图像，对所述参考图像进行坐标变换；

其中，所述坐标变换包括收缩变换、拉伸变换、旋转变换和平移变换中的至少一种。

上述申请中的一种可选实施方式，通过在对参考图像进行特征提取之前，根据目标图像对参考图像进行收缩、拉伸、旋转和平移变换中的至少一种，使得变换后的图像与目标图像坐标匹配，从而为违建识别结果的准确度提供了保障。

在一实施例中，根据所述目标图像，对所述参考图像进行坐标变换，包括：

分别提取所述目标图像的目标关键点和目标描述子，以及所述参考图像的参考关键点和参考描述子；

根据所述目标描述子和所述参考描述子，对所述目标关键点和所述参考关键点进行匹配操作；

根据匹配结果，确定变换矩阵，并根据所述变换矩阵对所述参考图像进行坐标变换。

上述申请中的一个可选实施方式，通过将对参考图像进行坐标变化的过程，细化为对目标图像和参考图像进行关键点和描述子的提取，并根据目标图像和参考图像的描述子的匹配情况进行关键点匹配，从而根据关键点匹配结果确定变换矩阵，进而根据确定的变换矩阵进行参考图像的坐标变化，完善了对参考图像进行坐标变换的处理机制，从而为违建识别结果的准确度提供了保障。

在一实施例中，确定所述目标图像的违建识别结果，包括：

确定所述目标图像中是否包括违建区域；

若所述目标图像中包括违建区域，则确定所述违建区域的位置坐标。

上述申请中的一个可选实施方式，通过将违建识别结果确定过程，细化为对目标图像中的建筑区域进行二分类，并在建筑区域包括违建区域时，对违建区域的位置坐标进行检测，丰富了违建识别结果的内容。

第二方面，本申请实施例还提供了一种违法建筑识别装置，包括：

图像获取模块，设置为获取目标图像，以及所述目标图像关联的参考图像；

建筑特征提取模块，设置为分别提取所述目标图像的目标建筑特征，以及所述参考图像的参考建筑特征；

识别结果确定模块，设置为根据所述目标建筑特征和所述参考建筑特征，确定所述目标图像的违建识别结果。

第三方面，本申请实施例还提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面实施例所提供的一种违法建筑识别方法。

第四方面，本申请实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令设置为使所述计算机执行第一方面实施例所提供的一种违法建筑识别方法。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

在阅读并理解了附图和详细描述后，可以明白其他方面。

附图说明

附图设置为更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请实施例一中的一种违法建筑识别方法的流程图；

图2是本申请实施例二中的一种违法建筑识别方法的流程图；

图3是本申请实施例三中的一种违法建筑识别方法的流程图；

图4A是本申请实施例四中的一种违法建筑识别方法的流程图；

图4B是本申请实施例四中的一种图像匹配过程结构框图；

图4C是本申请实施例四中的一种参考图像示意图；

图4D是本申请实施例四中的一种目标图像示意图；

图4E是本申请实施例四中的一种变换后的参考图像示意图；

图4F是本申请实施例四中的一种图像检测过程结构框图；

图4G是本申请实施例四中的一种目标图像标注结果示意图；

图5是本申请实施例五中的一种违法建筑识别装置的结构图；

图6是用来实现本申请实施例的数据访问方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的每种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出每种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

实施例一

图1是本申请实施例一中的一种违法建筑识别方法的流程图。本申请实施例适设置为对图像中的违法建筑进行识别的情况，该方法由违法建筑识别装置执行，该装置通过软件、硬件、或硬件和软件实现，并具体配置于电子设备中。

如图1所示的一种违法建筑识别方法，包括：

S101、获取目标图像，以及所述目标图像关联的参考图像。

其中，目标图像为需要进行违法建筑识别的图像；参考图像为默认的没有违法建筑的图像。其中，目标图像和参考图像可以理解为对相同区域或大致相同的区域，在不同时间所采集的图像，其中参考图像的采集时间早于目标图像。

可以理解的是，参考图像可以是距离当前采集时刻设定采集间隔所采集的图像，还可以在采用首次进行违法建筑识别时所采集的图像。当然，为了避免重复检测的情况，还可以实时或定时对参考图像进行更换，本申请对此不做任何限定。

为了保证目标图像和参考图像的一致性，进而提高后续所确定的违建识别结果的准确度，在一实施例中，获取的目标图像和参考图像的采集位置的距离差值小于设定距离阈值，以保证目标图像和参考图形的采集位置相同或相近。或者在一实施例中，获取的目标图像和参考图像的采集角度的角度差值小于设定角度阈值，以保证目标图像和参考图像的采集角度相同或近似。其中，设定距离阈值和设定角度阈值可以由技术人员根据需要或经验值进行确定。其中，采集角度可以是图像角度或者采集设备的俯仰角等。

为了保证图像中所包含建筑信息的全面性，通常会采用无人机按照设定巡查路线，依据设定采集频率进行图像拍摄。为了对不同采集区域的图像加以区分，可以根据图像采集顺序对所采集的图像顺序编号。相应的，在进行参考图像获取时，获取与目标图像的图像编号相同的参考图像。其中，采集频率可以由技术人员根据采集需求或无人机的镜头参数进行确定。

示例性地，目标图像以及与目标图像关联的参考图像可以预先存储在电子设备本地、与电子设备关联的其他存储设备或云端中，并在需要进行违法建筑识别时，从电子设备本地、与电子设备关联的其他存储设备或云端中进行目标图像以及参考图像的获取。为了保证目标图像和参考图像之间的关联关系，可以分别对目标图像和参考图像根据图像采集位置进行编号，使得相同采集位置的目标图像和参考图像编号一致。相应的，在进行目标图像和参考图像获取时，获取相同编号的目标图像和参考图像的获取。

示例性地，还可以在采集设备(如无人机)进行目标图像采集时，将目标图像实时传输至电子设备中；将参考图像存储在电子设备本地、与电子设备关联的其他存储设备或云端中。相应的，当电子设备接收到采集设备实时采集的目标图像时，从电子设备本地、与电子设备关联的其他存储设备或云端中进行与目标图像相关联的参考图像的获取。

S102、分别提取所述目标图像的目标建筑特征，以及所述参考图像的参考建筑特征。

由于目标图像中建筑群复杂多样，道路上的行人和车辆等也即对建筑区域存在很大的影响，为了能够提高所提取的建筑特征的准确度，在一实施例中，通过深度学习的方式对目标图像和参考图像中的建筑特征进行提取，使得所提取的特征中能够反映出图像中的语义信息，使得挖掘出的特征更加丰富全面。

可以理解的是，由于本申请将图像整体进行建筑特征提取，无需对图像中的单个建筑进行分割，基于单个建筑进行特征提取，减少了特征提取过程的运算量。同时，在图像中建筑物密集分布的情况下，针对单个建筑进行分割，然后对分割后的单个建筑进行特征提取，所提取特征的准确度也较低，将会对最终进行违法建筑识别的违建识别结果的精度带来影响。

需要说明的是，由于在对违法建筑进行识别时，通常会根据行政区域对待识别区域进行划分，例如乡、镇等。因此，在该待识别区域所采集的图像样本数量有限，由于不同图像之间的差异显著，因此采用将目标图像和参考图像进行绑定的方式，基于siamese思想对特征提取模型进行训练。相应的，在使用特征提取模型进行特征提取时，采用相同的特征提取模型和模型参数，分别对目标图像和与目标图像关联的参考图像，进行建筑特征提取，以保证提取的建筑特征的一致性。

S103、根据所述目标建筑特征和所述参考建筑特征，确定所述目标图像的违建识别结果。

示例性地，根据目标建筑特征和参考建筑特征，确定目标图像的违建识别结果，可以是：将目标建筑特征和参考建筑特征进行特征融合；根据融合后的特征，确定目标图像的违建识别结果。

在一实施例中，可以采用目标建筑特征和参考建筑特征做差的方式，将差值结果作为特征融合结果。可以理解的是，通过做差的方式进行特征融合，能够突出目标图像和参考图像两者不相似区域对应的融合建筑特征；相应的，通过融合建筑特征进行违法建筑识别时，能够显著提升识别结果的准确度。

在本申请实施例的一种可选实施方式中，确定目标图像的违建识别结果，可以是目标图像中的建筑区域进行存在违建和不存在违建的二分类。相应的，在进行目标图像的违建识别时，可以基于分类模型，根据目标建筑特征和参考建筑特征进行特征融合后的融合建筑特征，得到分类结果。

在本申请实施例的另一可选实施方式中，确定目标图像的违建识别结果，还可以是：确定目标图像中是否包括违建区域；若目标图像中包括违建区域，则确定违建区域的位置坐标。

示例性地，基于检测模型，根据目标建筑特征和参考建筑特征进行特征融合后的融合建筑特征，对目标图像中的违建区域进行检测，并确定违建区域的位置坐标。

在一实施例中，可以在检测模型训练过程中，引入识别损失函数和定位损失函数，基于识别损失函数和定位偏差损失函数，对检测模型中的网络参数进行优化调整。其中，识别损失函数设置为表征模型输出的分类结果与实际分类结果的偏差；定位损失函数设置为表征模型输出的违建区域的位置坐标与违建区域的实际位置坐标之间的偏差。

其中，违建区域可以采用圆形区域或矩形区域来表示。当采用圆形区域时，位置坐标可以包括圆心位置和圆形半径。当采用矩形区域时，位置坐标包括矩形区域的其中一个顶点坐标、矩形长度值和矩形宽度值；或者，位置坐标包括至少两个顶点坐标，如对角线对应的两顶点坐标。

可以理解的是，为了避免违建区域混乱，通常采用统一的位置坐标确定方式，例如位置坐标包括矩形区域的左上顶点坐标、矩形长度值和矩形宽度值。相应的，以左上顶点为起点，以与目标图像的长度方向平行方向、距离为矩形长度值确定矩形的一个边，以与目标图像的宽度方向平行方向、距离为矩形宽度值确定矩形的另一个边，进行违建区域的确定。

为了能够更加直观的表示违建区域，还可以根据违建区域的位置坐标，在目标图像或参考图像中对违建区域进行标注。为了避免由于目标图像和参考图像采集角度的不同，导致两者坐标之间存在差异，一般的，会在目标图像中对违建区域进行标注。

实施例二

图2是本申请实施例二中的一种违法建筑识别方法的流程图，本申请实施例在上述每个实施例的技术方案的基础上，进行了优化改进。

在一实施例中，将操作“分别提取目标图像的目标建筑特征，以及与所述目标图像关联的参考图像的参考建筑特征”细化为“分别提取所述目标图像的目标基础特征，以及与所述目标图像关联的所述参考图像的参考基础特征；在设定的至少两个尺度下，分别对所述目标基础特征和所述参考基础特征进行特征提取，得到所述至少两个尺度下的所述目标建筑特征和所述参考建筑特征”，以完善建筑特征的提取方式。

如图2所示的一种违法建筑识别方法，包括：

S201、获取目标图像，以及所述目标图像关联的参考图像。

S202、分别提取所述目标图像的目标基础特征，以及与所述目标图像关联的所述参考图像的参考基础特征。

示例性地，基于深度残差网络，分别提取所述目标图像的目标基础特征，以及与所述目标图像关联的所述参考图像的参考基础特征。其中，深度残差网络的网络深度可以根据经验值或大量试验加以确定。例如，可以设置网络深度为50。

S203、在设定的至少两个尺度下，分别对所述目标基础特征和所述参考基础特征进行特征提取，得到所述至少两个尺度下的所述目标建筑特征和所述参考建筑特征。

由于不同尺度下的特征所包含的细节信息维度不同，因此通过至少两个尺度对所提取的基础特征进行进一步特征挖掘，能够得到表征能力更强的特征图谱，进而为提升违建识别结果的识别准确度提供了保障。

其中，尺度数量可以由技术人员根据需要或经验值进行确定，还可以在模型训练的过程中，根据模型训练结果进行确定。示例性地，可以将尺度设置为5。

示例性地，可以采用特征金字塔模型在设定的至少两个尺度下，分别对目标基础特征和参考基础特征进行特征提取，得到至少两个尺度下的目标建筑特征和参考建筑特征。

S204、根据所述目标建筑特征和所述参考建筑特征，确定所述目标图像的违建识别结果。

由于目标建筑特征和参考建筑特征均包含有不同尺度的特征图谱，因此在根据目标建筑特征和参考建筑特征，进行目标图像的违建识别时，需要对不同尺度下的目标建筑特征和参考建筑特征进行特征融合。

在一实施例中，根据所述目标建筑特征和所述参考建筑特征，确定所述目标图像的违建识别结果，可以是：将每一尺度下的所述目标建筑特征和所述参考建筑特征，进行特征融合；根据至少两个尺度下的特征融合结果，确定所述目标图像的违建识别结果。

示例性地，将每一尺度下的所述目标建筑特征和所述参考建筑特征，进行特征融合，可以是：将每一尺度下的所述目标建筑特征和所述参考建筑特征做差，并将差值作为该尺度下的特征融合结果。

需要说明的是，通过将每一尺度下的目标建筑特征和参考建筑特征做差，将差值作为该尺度下的特征融合结果，能够将突出该尺度下目标图像和参考图像之间的差异，进而在根据至少两个尺度下的特征融合结果，确定目标图像的违建识别结果时，能够参考每个尺度下的目标图像和参考图像的差异性，使得参照信息更加丰富全面，进而提升了违建识别结果的准确度。

本申请实施例通过将对目标图像和参考图像的建筑特征提取过程，细化为分别提取目标图像和参考图像的基础特征，并将基础特征进行多尺度特征提取，得到建筑特征，从而基于多尺度的目标建筑特征和参考建筑特征确定目标图像的违建识别结果，提升了所提取的建筑特征的准确度和丰富性，提升了建筑特征的表征能力，进而提升了违建识别结果的准确度。

实施例三

图3是本申请实施例三中的一种违法建筑识别方法的流程图，本申请实施例在上述每个实施例的技术方案的基础上，进行了优化改进。

在一实施例中，将操作“提取所述参考图像的参考建筑特征”之前，追加“根据所述目标图像，对所述参考图像进行坐标变换；其中，所述坐标变换包括收缩变换、拉伸变换和旋转变换中的至少一种”，以是目标图像与参考图像的坐标匹配。

如图3所示的一种违法建筑识别方法，包括：

S301、获取目标图像，以及所述目标图像关联的参考图像。

S302、根据所述目标图像，对所述参考图像进行坐标变换。

在目标图像和参考图像的采集过程中，由于采集设备的采集位置、采集角度等采集参数的不同，可能会产生目标图像和参考图像的坐标不匹配的情况。当目标图像和参考图像的坐标不匹配时，将会对目标图像的违建识别结果的准确度带来一定的影响。

为了保证违建识别结果的准确度，在对参考图像进行特征提取之前，还需要根据目标图像，对参考图像进行坐标变换，以使参考图像和目标图像的坐标相匹配。

在一实施例中，可以采用机器学习模型分别提取目标图像的目标定向特征，和参考图像的参考定向特征；根据目标定向特征和参考定向特征的匹配情况，确定参考图像相对于目标图像的形变情况；根据形变情况，对参考图像进行调整，以使调整后的参考图像与目标图像的坐标相匹配。

示例性地，分别提取所述目标图像的目标关键点和目标描述子，以及所述参考图像的参考关键点和参考描述子；根据所述目标描述子和所述参考描述子，对所述目标关键点和所述参考关键点进行匹配操作；根据匹配结果，确定变换矩阵，并根据所述变换矩阵对所述参考图像进行坐标变换。

例如，采用尺度不变特征变换(Scale-invariant feature transform，SIFT)算法对目标图像进行关键点和描述子提取，得到目标关键点和目标描述子；采用SIFT算法对参考图像进行关键点和描述子提取，得到参考关键点和参考描述子。采用K维树(K dimensional tree，KD Tree)根据目标描述子和参考描述子的匹配情况，对目标关键点和参考关键点进行匹配操作，得到初始匹配关系；采用随机抽样一致(Random Sample Consensus，RANSAC)算法，去除无效的初始匹配关系，得到目标匹配关系；根据目标匹配关系，确定参考图像与目标图像之间的变换矩阵；根据变换矩阵对参考图像进行坐标变换，以使变换后的参考图像与目标图像的坐标相匹配。

S303、分别提取所述目标图像的目标建筑特征，以及提取变换后的参考图像的参考建筑特征。

需要说明的是，对目标图像进行目标建筑特征提取的操作，可以位于S302之前，也可以位于S303之后，还可以与S302同时进行，本申请实施例对两者执行的先后顺序不做任何限定。

S304、根据所述目标建筑特征和所述参考建筑特征，确定所述目标图像的违建识别结果。

本申请实施例通过在提取参考图像的参考建筑特征之前，根据目标图像，对参考图像进行坐标变换，以使参考图像与目标图像的坐标相匹配，从而为违建识别结果的准确度提供了保障。

在上述每个实施例的技术方案的基础上，为了消除图像大小、光照环境以及采集角度等采集参数对违建识别结果的影响，在获取到目标图像和参考图像之后，在对目标图像和参考图像进行处理之前，还可以对目标图像和参考图像进行预处理。

在本申请实施例的一种可选实施方式中，对目标图像、或参考图像、或目标图像和参考图像进行缩放处理，以使目标图像和参考图像的大小保持一致。

在本申请实施例的另一可选实施方式中，对目标图像和参考图像进行灰度变换(rgb2gray)，以消除图像色调和饱和度信息，同时保留亮度信息，实现将RGB图像或彩色图像转换为灰度图像。

在本申请实施例的又一可选实施方式中，对目标图像和参考图像进行直方图均衡化(Histogram Equalization)，以增强图像对比度，去除光照等因素的影响。

需要说明的是，当采用上述至少两种进行图像预处理时，可以对预处理操作的先后顺序不做任何限定。

实施例四

图4A是本申请实施例四中的一种违法建筑识别方法的流程图，本申请实施例在上述每个实施例的技术方案的基础上，提供了一种优选实施方式。

如图4A所示的一种违法建筑识别方法，包括：

S410、图像采集；

S420、图像匹配；

S430、图像检测。

其中，图像采集过程，包括：

S411、获取目标图像。

S412、获取与目标图像相同采集地点的参考图像。

其中，目标图像为当前时刻控制无人机按照设定路线，在设定频率下采集的包含建筑物的图像。其中，参考图像为无人机历史时刻控制无人机按照设定路线，在设定频率下采集的包含建筑物的图像。

其中，每次控制无人机进行图像采集时，图像采集参数保持一致。其中，图像采集参数包括采集频率和采集角度等。其中，无人机的采集路线、采集频率以及其他采集参数，可以有技术人员根据需要或经验值进行确定。

需要说明的是，由于无人机在采集过程中及时采集参数均设置一致，也存在由于外界环境或系统误差，导致图像采集地点、或采集角度等不一致的情况。因此，仅需保证新采集的目标图像与参考图像的采集地点之间的距离差值满足设定距离阈值，采集角度之间的角度差值满足设定角度阈值即可。其中，设定距离阈值和设定角度阈值由技术人员根据需要或经验值进行确定，或通过大量试验加以确定。

示例性地，无人机采集到的图像分辨率为4000*6000。其中，高4000，宽6000。

其中，图像匹配过程，包括：

S421、将对参考图像和目标图像进行图像预处理。

参见图4B所示的图像匹配过程结构框图，其中参考图像为Img1，目标图像为Img2。

其中，图像预处理操作，包括：缩放变换(resize)，设置为对参考图像和目标图像进行缩放处理，使得处理后的目标图像和参考图像的大小一致。如，大小统一为1000*1500。

其中，图像预处理操作，还包括：灰度变换(rgb2gray)，设置为将缩放后的参考图像和目标图像，由彩色图像变换为灰度图像。

其中，图像预处理操作，还包括直方图均衡化(EqualizeHist)，以消除目标图像和参考图像由于光照等采集环境的不同，对检测结果的影响。

S422、对参考图像和目标图像进行图像匹配操作，得到参考图像向目标图像进行变换时的变换矩阵。

其中，图像匹配操作，包括关键点和描述子提取，设置为通过SIFT算法，对参考图像进行特征提取操作，得到参考图像的参考关键点和参考描述子；通过相同的算法对目标图像进行特征提取操作，得到目标图像的目标关键点和目标描述子。

其中，图像匹配操作，还包括关键点匹配，设置为通过KD Tree算法，根据参考描述子和目标描述子的一致性，对目标关键点和参考关键点进行匹配，得到关键点匹配结果。

其中，目标匹配操作，还包括异常点剔除，设置为通过RANSAC算法，去除关键点匹配结果中的无效匹配关系，得到最后的精确匹配关系，并确定精确匹配关系所对应的变换矩阵。

S423、根据变换矩阵对参考图像进行坐标变换。

其中，坐标变换包括收缩、拉伸、旋转和平移变换等中的至少一个。坐标变换后的参考图像和目标图像的坐标相一致。

举例说明，图4C和图4D分别为参考图像Img1和目标图像Img2；图4E为变换后的参考图像Img1_trans。对照图4E和图4C，对图4C中的参考图像Img1进行了旋转变换，得到图4E。对照图4E和图4D可知，两者坐标相一致。

其中，图像检测过程，包括：

S431、采用第一特征提取模型，提取目标图像和变换后的参考图像的基础特征。

参见图4F所示的图像检测过程结构框图进行说明。

例如，采用深度残差网络分别提取目标图像和变换后的参考图像的基础特征。其中，对目标图像和变换后的参考图像进行基础特征提取所使用的深度残差网络的网络参数一致。其中，深度残差网络的网络深度可以由技术人员根据需要或经验值进行确定，还可以通过大量试验反复确定。例如，网络深度可以是50。

S432、采用第二特征提取模型，提取参考图像和目标图像的基础特征中不同尺度的建筑特征。

例如，采用特征金字塔网络FPN分别提取目标图像和参考图像的基础特征在不同尺度下的建筑特征，得到目标建筑特征Fea1和参考建筑特征Fea2。

可以理解的是，由于无人机图像分辨率较高，内容复杂，且建筑区域较小，建筑群复杂多样，容易受道路行人等其他因素的干扰，因此需要提取不同尺度下的建筑特征，作为后续图像检测的依据，提高了检测结果的准确度。

S433、将每一尺度的目标图像的建筑特征和参考图像的建筑特征做差，得到融合特征。

可以理解的是，采用特征相减的方式，对每一尺度下目标建筑特征和参考建筑特征进行融合，得到融合特征Feature，能够凸显相同尺度下目标图像和参考图像之间的差异，得到疑似违建区域。

需要说明的是，在进行做差运算时，无需关注参考图像和目标图像的先后顺序，提高了检测模型的泛化能力。

S434、基于检测模型，根据所有尺度下的融合特征，确定目标图像中是否包括违建区域。

S435、若目标图像中包括违建区域，则输出违建区域的坐标。

S436、在目标图像或变换后的参考图像中，根据违建区域的坐标，标注违建区域。

其中，违建区域中包括至少一个违法建筑。其中，违法建筑可以是在已有建筑的基础上添加彩钢板、脚手架以及屋顶修葺等，还可以是在不能进行房屋建设的区域修建房屋等。

其中，检测模型可以基于神经网络模型进行构建。在检测模型的模型训练阶段，可以引入识别损失函数Focal_loss和定位损失函数SmoothL1_loss，基于识别损失函数和定位偏差损失函数，对检测模型中的网络参数进行优化调整。其中，识别损失函数设置为表征模型输出的分类结果与实际分类结果的偏差；定位损失函数设置为表征模型输出的违建区域的位置坐标与违建区域的实际位置坐标之间的偏差。

参见图4G所示的标注结果示意图，采用矩形框将违建区域在目标图像中进行标注。

可以理解的是，通过将违建区域在目标图像中进行标注，能够直观的将违建区域所在位置加以展现，为线下执法人员基于所标注的违建区域有针对性的进行执法，提供了依据，减少了执法人员的工作量，提高了违建区域识别效率和识别结果的准确度。

实施例五

图5是本申请实施例五中的一种违法建筑识别装置的结构图。本申请实施例适设置为对图像中的违法建筑进行识别的情况，该装置通过软件、或硬件、或软件和硬件实现，并具体配置于电子设备中。

如图5所示的一种违法建筑识别装置500，包括：图像获取模块501、建筑特征提取模块502和识别结果确定模块503。其中，

图像获取模块501，设置为获取目标图像，以及所述目标图像关联的参考图像；

建筑特征提取模块502，设置为分别提取所述目标图像的目标建筑特征，以及所述参考图像的参考建筑特征；

识别结果确定模块503，设置为根据所述目标建筑特征和所述参考建筑特征，确定所述目标图像的违建识别结果。

本申请通过图像获取模块获取目标图像以及目标图像关联的参考图像；通过建筑特征提取模块分别提取目标图像的目标建筑特征以及参考图像的参考建筑特征；通过识别结果确定模块根据目标建筑特征和参考建筑特征，确定目标图像的违建识别结果。上述技术方案通过获取与目标图像关联的参考图像，进行目标图像和参考图像的绑定，并对绑定后的图像进行特征提取，从而基于参考图像的建筑特征对目标图像进行违建识别，实现了违法建筑的自动识别，并减少了违法建筑识别过程的数据处理量；同时，基于siamese(孪生)思想对目标图像和参考图像进行建筑特征提取，进而根据提取的建筑特征进行违建识别，提高了识别结果的准确度。

在一实施例中，建筑特征提取模块502，包括：

基础特征提取单元，设置为分别提取所述目标图像的目标基础特征，以及与所述目标图像关联的所述参考图像的参考基础特征；

建筑特征提取单元，设置为在设定的至少两个尺度下，分别对所述目标基础特征和所述参考基础特征进行特征提取，得到所述至少两个尺度下的所述目标建筑特征和所述参考建筑特征。

在一实施例中，识别结果确定模块503，包括：

特征融合单元，设置为将每一尺度下的所述目标建筑特征和所述参考建筑特征，进行特征融合；

识别结果确定单元，设置为根据至少两个尺度下的特征融合结果，确定所述目标图像的违建识别结果。

在一实施例中，特征融合单元，包括：

特征融合子单元，设置为将每一尺度下的所述目标建筑特征和所述参考建筑特征做差，并将差值作为该尺度下的特征融合结果。

在一实施例中，基础特征提取单元，包括：

基础特征提取子单元，设置为基于深度残差网络，分别提取所述目标图像的目标基础特征，以及与所述目标图像关联的所述参考图像的参考基础特征。

在一实施例中，该装置还包括，坐标变换模块，设置为：

在提取所述参考图像的参考建筑特征之前，根据所述目标图像，对所述参考图像进行坐标变换；

在一实施例中，坐标变换模块，包括：

关键点提取单元，设置为分别提取所述目标图像的目标关键点和目标描述子，以及所述参考图像的参考关键点和参考描述子；

关键点匹配单元，设置为根据所述目标描述子和所述参考描述子，对所述目标关键点和所述参考关键点进行匹配操作；

坐标变换单元，设置为根据匹配结果，确定变换矩阵，并根据所述变换矩阵对所述参考图像进行坐标变换。

在一实施例中，识别结果确定模块503，包括：

违建区域确定单元，设置为根据所述目标建筑特征和所述参考建筑特征，确定所述目标图像中是否包括违建区域；

位置坐标确定单元，设置为若所述目标图像中包括违建区域，则确定所述违建区域的位置坐标。

上述违法建筑识别装置可执行本申请任意实施例所提供的违法建筑识别方法，具备执行违法建筑识别方法相应的功能模块和有益效果。

实施例六

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图6所示，是实现本申请实施例的违法建筑识别方法的电子设备的框图。电子设备旨在表示每种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示每种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的、或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及设置为连接每个部件的接口，包括高速接口和低速接口。每个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器、或多条总线、或多个服务器和多条总线，与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，每个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的违法建筑识别方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令设置为使计算机执行本申请所提供的违法建筑识别方法。

存储器602作为一种非瞬时计算机可读存储介质，可设置为存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的违法建筑识别方法对应的程序指令/模块(例如，附图5所示的图像获取模块501、建筑特征提取模块502和识别结果确定模块503)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的每种功能应用以及数据处理，即实现上述方法实施例中的违法建筑识别方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储实现违法建筑识别方法的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至实现违法建筑识别方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现违法建筑识别方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与实现违法建筑识别方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的每种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、或它们的组合中实现。这些每种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行、或解释、或执行和解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程、或面向对象的编程语言、或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是设置为将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是设置为将机器指令或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：设置为向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以设置为提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的每种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的每个步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行每种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

一种违法建筑识别方法，包括：

获取目标图像，以及所述目标图像关联的参考图像；

分别提取所述目标图像的目标建筑特征，以及所述参考图像的参考建筑特征；

根据所述目标建筑特征和所述参考建筑特征，确定所述目标图像的违建识别结果。
根据权利要求1所述的方法，其中，所述目标图像和所述参考图像的采集位置的距离差值小于设定距离阈值、或所述目标图像和所述参考图像的采集角度的角度差值小于设定角度阈值、或所述目标图像和所述参考图像的采集位置的距离差值小于设定距离阈值且所述目标图像和所述参考图像的采集角度的角度差值小于设定角度阈值。
根据权利要求1所述的方法，其中，分别提取目标图像的目标建筑特征，以及与所述目标图像关联的参考图像的参考建筑特征，包括：

分别提取所述目标图像的目标基础特征，以及与所述目标图像关联的所述参考图像的参考基础特征；

在设定的至少两个尺度下，分别对所述目标基础特征和所述参考基础特征进行特征提取，得到所述至少两个尺度下的所述目标建筑特征和所述参考建筑特征。
根据权利要求3所述的方法，其中，根据所述目标建筑特征和所述参考建筑特征，确定所述目标图像的违建识别结果，包括：

将每一尺度下的所述目标建筑特征和所述参考建筑特征，进行特征融合；

根据至少两个尺度下的特征融合结果，确定所述目标图像的违建识别结果。
根据权利要求4所述的方法，其中，将每一尺度下的所述目标建筑特征和所述参考建筑特征，进行特征融合，包括：

将每一尺度下的所述目标建筑特征和所述参考建筑特征做差，并将差值作为该尺度下的特征融合结果。
根据权利要求3所述的方法，其中，分别提取所述目标图像的目标基础特征，以及与所述目标图像关联的所述参考图像的参考基础特征，包括：

基于深度残差网络，分别提取所述目标图像的目标基础特征，以及与所述目标图像关联的所述参考图像的参考基础特征。
根据权利要求1-6任一项所述的方法，其中，在提取所述参考图像的参考建筑特征之前，所述方法还包括：

根据所述目标图像，对所述参考图像进行坐标变换；

其中，所述坐标变换包括收缩变换、拉伸变换、旋转变换和平移变换中的至少一种。
根据权利要求7所述的方法，其中，根据所述目标图像，对所述参考图像进行坐标变换，包括：

分别提取所述目标图像的目标关键点和目标描述子，以及所述参考图像的参考关键点和参考描述子；

根据所述目标描述子和所述参考描述子，对所述目标关键点和所述参考关键点进行匹配操作；

根据匹配结果，确定变换矩阵，并根据所述变换矩阵对所述参考图像进行坐标变换。
根据权利要求1所述的方法，其中，确定所述目标图像的违建识别结果，包括：

确定所述目标图像中是否包括违建区域；

若所述目标图像中包括违建区域，则确定所述违建区域的位置坐标。
一种违法建筑识别装置，包括：

图像获取模块，设置为获取目标图像，以及所述目标图像关联的参考图像；

建筑特征提取模块，设置为分别提取所述目标图像的目标建筑特征，以及所述参考图像的参考建筑特征；

识别结果确定模块，设置为根据所述目标建筑特征和所述参考建筑特征，确定所述目标图像的违建识别结果。
根据权利要求10所述的装置，其中，所述目标图像和所述参考图像的采集位置的距离差值小于设定距离阈值、或所述目标图像和所述参考图像的采集角度的角度差值小于设定角度阈值、或所述目标图像和所述参考图像的采集位置的距离差值小于设定距离阈值且所述目标图像和所述参考图像的采集角度的角度差值小于设定角度阈值。
根据权利要求10所述的装置，其中，建筑特征提取模块，包括：

基础特征提取单元，设置为分别提取所述目标图像的目标基础特征，以及与所述目标图像关联的所述参考图像的参考基础特征；

建筑特征提取单元，设置为在设定的至少两个尺度下，分别对所述目标基础特征和所述参考基础特征进行特征提取，得到所述至少两个尺度下的所述目标建筑特征和所述参考建筑特征。
根据权利要求12所述的装置，其中，识别结果确定模块，包括：

特征融合单元，设置为将每一尺度下的所述目标建筑特征和所述参考建筑特征，进行特征融合；

识别结果确定单元，设置为根据至少两个尺度下的特征融合结果，确定所述目标图像的违建识别结果。
根据权利要求13所述的装置，其中，特征融合单元，包括：

特征融合子单元，设置为将每一尺度下的所述目标建筑特征和所述参考建筑特征做差，并将差值作为该尺度下的特征融合结果。
根据权利要求12所述的装置，其中，基础特征提取单元，包括：

基础特征提取子单元，设置为基于深度残差网络，分别提取所述目标图像的目标基础特征，以及与所述目标图像关联的所述参考图像的参考基础特征。
根据权利要求10-15任一项所述的装置，其中，所述装置还包括：

坐标变换模块，设置为在提取所述参考图像的参考建筑特征之前，根据所述目标图像，对所述参考图像进行坐标变换；

其中，所述坐标变换包括收缩变换、拉伸变换、旋转变换和平移变换中的至少一种。
根据权利要求16所述的装置，其中，坐标变换模块，包括：

关键点提取单元，设置为分别提取所述目标图像的目标关键点和目标描述子，以及所述参考图像的参考关键点和参考描述子；

关键点匹配单元，设置为根据所述目标描述子和所述参考描述子，对所述目标关键点和所述参考关键点进行匹配操作；

坐标变换单元，设置为根据匹配结果，确定变换矩阵，并根据所述变换矩阵对所述参考图像进行坐标变换。
根据权利要求10所述的装置，其中，识别结果确定模块，包括：

违建区域确定单元，设置为根据所述目标建筑特征和所述参考建筑特征，确定所述目标图像中是否包括违建区域；

位置坐标确定单元，设置为若所述目标图像中包括违建区域，则确定所述违建区域的位置坐标。
一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的一种违法建筑识别方法。
一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令设置为使所述计算机执行权利要求1-9中任一项所述的一种违法建筑识别方法。