WO2022062543A1

WO2022062543A1 - 一种图像处理方法、装置、设备和存储介质

Info

Publication number: WO2022062543A1
Application number: PCT/CN2021/103643
Authority: WO
Inventors: 王金旺
Original assignee: 上海商汤智能科技有限公司
Priority date: 2020-09-27
Filing date: 2021-06-30
Publication date: 2022-03-31
Also published as: CN112149585A

Abstract

一种图像处理方法、装置、设备和存储介质，该方法包括，获取包含至少一个建筑物的目标图像；对于每个建筑物，从上述目标图像中提取出所述建筑物的边界框和所述目标图像的目标特征图；基于上述目标图像的目标特征图和所述建筑物的边界框确定所述建筑物的屋顶区域和屋顶与底座之间的预测偏移量；根据上述预测偏移量，对上述屋顶区域进行变换得到所述建筑物的底座区域。

Description

一种图像处理方法、装置、设备和存储介质

相关公开的交叉引用

本公开基于申请号为202011035443.6、申请日为2020年9月27日、申请名称为“一种图像处理方法、装置、设备和存储介质”的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本公开作为参考。

技术领域

本申请涉及计算机技术领域，具体涉及一种图像处理方法、装置、设备和存储介质。

背景技术

目前，在图像处理领域中，通常需要将图像中的建筑物提取出来，用于进行诸如城市规划、地图绘制，建筑物变化检测等活动。而进行建筑物提取中重要任务之一为进行建筑物底座提取。

可是，由于包含建筑物的目标图像通常为通过卫星或飞机拍摄的遥感图像，因此，图像中建筑物底座可能被部分遮挡，导致建筑物底座的视觉特征并不明显，从而影响建筑物底座的提取精度。

发明内容

有鉴于此，本申请至少公开一种图像处理方法，上述方法包括：获取包含至少一个建筑物的目标图像；对于每个建筑物，从上述目标图像中提取出上述建筑物的边界框和上述目标图像的目标特征图，基于上述目标图像的目标特征图和上述建筑物的边界框确定上述建筑物的屋顶区域和屋顶与底座之间的预测偏移量；根据上述预测偏移量，对上述屋顶区域进行变换得到上述建筑物的底座区域。

在示出的一些例子中，上述从所述目标图像中提取出上述建筑物的边界框包括：

利用建筑物边界框预测子模型对上述目标图像进行目标检测，得到上述建筑物的边界框；上述确定上述建筑物的屋顶区域，包括：基于上述建筑物的边界框和上述目标图像的目标特征图，由屋顶区域预测子模型确定上述建筑物的屋顶区域；上述确定上述建筑物的屋顶与底座之间的预测偏移量，包括：基于上述建筑物的边界框和上述目标图像的目标特征图，由偏移量预测子模型确定上述建筑物的上述预测偏移量。

在示出的一些例子中，上述屋顶区域预测子模型与上述偏移量预测子模型共用同一区域特征提取单元，上述区域特征提取单元基于上述建筑物的边界框和所述目标图像的目标特征图确定上述建筑物的建筑物特征；上述确定上述建筑物的屋顶区域，包括：利用上述屋顶区域预测子模型包括的第一卷积处理单元对上述建筑物特征进行第一卷积处理，得到上述建筑物的屋顶区域；上述确定上述建筑物的上述预测偏移量，包括：利用上述偏移量预测子模型包括的第二卷积处理单元对上述建筑物特征进行第二卷积处理，得到上述建筑物的上述预测偏移量。

在示出的一些例子中，上述根据上述预测偏移量，对上述屋顶区域进行变换得到上述建筑物的底座区域，包括：基于上述预测偏移量和上述建筑物的上述建筑物特征，由底座区域预测子模型确定上述建筑物的底座区域。

在示出的一些例子中，上述基于上述预测偏移量和上述建筑物的建筑物特征，由底座区域预测子模型确定上述建筑物的底座区域，包括：利用上述底座区域预测子模型包括的空间变换网络，对上述屋顶区域对应的建筑物特征进行平移变换，得到上述建筑物的底座特征，其中，上述空间变换网络的空间变换参数包括基于上述预测偏移量确定的参数；利用上述底座区域预测子模型对上述底座特征进行第三卷积处理，得到上述建筑物的底座区域。

在示出的一些例子中，上述空间变换网络包括基于插值方式构建的采样器，其中，上述采样器包括基于上述预测偏移量构建的采样网格；上述利用上述底座区域预测子模型包括的空间变换网络，对上述屋顶区域对应的建筑物特征进行平移变换，得到上述建筑物的底座特征，包括：利用上述采样器，按照上述底座特征包括的多个像素点的各坐标信息，依次将底座特征包括的各像素点作为当前像素点，通过上述采样网格确定所述屋顶区域包括的各像素点中，与上述当前像素点对应的像素点，并基于插值方式对上述确定的像素点的值进行计算，得到上述当前像素点对应的像素值。

在示出的一些例子中，与上述屋顶区域预测子模型以及上述偏移量预测子模型共用同一区域特征提取单元的还包括屋顶轮廓预测子模型；上述方法还包括：利用上述屋顶轮廓预测子模型对上述建筑物特征进行轮廓回归，确定上述建筑物的屋顶轮廓；根据上述预测偏移量，对上述屋顶轮廓进行变换，得到上述建筑物的底座轮廓；基于上述底座轮廓对上述底座区域进行调整，得到上述建筑物的最终底座区域。

在示出的一些例子中，上述利用屋顶轮廓预测子模型对上述建筑物特征进行轮廓回归，确定上述建筑物的屋顶轮廓，包括：从上述建筑物特征中提取多个连接点；将上述多个连接点中的至少部分连接点进行组合，得到多个线段；对上述多个线段进行预测，得到各线段对应的预测分数，其中，上述预测分数用于指示与该分数对应的线段属于屋顶轮廓的概率；将上述多个线段中，对应的预测分数大于预设阈值的线段进行组合，得到上述建筑物的屋顶轮廓。

在示出的一些例子中，上述方法利用图像处理模型得到；其中，上述图像处理模型包括建筑物边界框预测子模型、屋顶区域预测子模型、偏移量预测子模型、屋顶轮廓预测子模型以及底座区域预测子模型。

在示出的一些例子中，上述图像处理模型的训练方法包括：获取多个包括标注信息的训练样本；其中，上述标注信息包括建筑物边界框，建筑物屋顶区域，建筑物屋顶轮廓，建筑物屋顶与底座之间的偏移量，建筑物底座区域；基于上述图像处理模型包括的各子模型分别对应的损失信息，构建联合学习损失信息；基于上述联合学习损失信息以及上述训练样本对上述图像处理模型包括的各子模型进行联合训练，直至上述各子模型收敛。

本申请还提出一种图像处理装置，上述装置包括：获取模块，用于获取包含至少一个建筑物的目标图像；提取模块，用于针对每个建筑物，从上述目标图像中提取出上述建筑物的边界框和上述目标图像的目标特征图，基于上述目标图像的目标特征图和上述建筑物的边界框确定上述建筑物的屋顶区域和屋顶与底座之间的预测偏移量；变换模块，用于根据上述预测偏移量，对上述屋顶区域进行变换得到上述建筑物的底座区域。

本申请还提出一种电子设备，上述设备包括：处理器；用于存储上述处理器可执行指令的存储器；其中，上述处理器被配置为调用上述存储器中存储的可执行指令，实现如上述任一实施例示出的图像处理方法。

本申请还提出一种计算机可读存储介质，上述存储介质存储有计算机程序，上述计算机程序用于执行如上述任一实施例示出的图像处理方法。

[17]本申请还提出一种计算机程序，包括计算机可读代码，当所述计算机可读代码在电子设备中运行时，所述电子设备中的处理器执行用于实现如上述任一实施例示出的图像处理方法。

在上述方案中，由于可以从获取的目标图像中提取出视觉特征较为明显的建筑物屋顶区域以及屋顶与底座之间的预测偏移量，然后再基于该预测偏移量，对精度较高的屋顶区域进行变换，因此可以得到精度较高的建筑物底座区域，从而在建筑物底座预测过程中，无需依赖目标图像中包括的底座特征，以使在目标图像中包括的建筑物底座特征被遮挡的情形下，也可以得到精度较高的建筑物底座。

应当理解的是，以上所述的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请一个或多个实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请示出的一种图像处理方法的方法流程图；

图2为本申请示出的一种通过图像处理模型进行底座提取的流程示意图；

图3为本申请示出的一种通过图像处理单元进行屋顶区域预测的方法流程示意图；

图4为本申请示出的一种通过图像处理单元进行偏移量预测的方法流程示意图；

图5为本申请示出的一种通过图像处理单元进行偏移量预测与屋顶区域预测的方法流程示意图；

图6为本申请示出的一种通过底座区域预测子模型进行底座预测的方法流程示意图；

图7为本申请示出的一种最终底座区域预测方法的流程图；

图8为本申请示出的一种通过边界框分析网络进行屋顶轮廓预测的方法流程示意图；

图9为本申请示出的一种底座区域预测流程示意图；

图10为本申请示出的一种任务与模型对应关系图；

图11为本申请示出的一种图像处理模型训练方法的方法流程图；

图12为本申请示出的一种图像处理装置的示意图；

图13为本申请示出的一种硬件结构图。

具体实施方式

下面将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的设备和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“上述”和“该”也旨在可以包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。还应当理解，本文中所使用的词语“如果”，取决于语境，可以被解释成为“在……时”或“当……时”或“响应于确定”。

本申请旨在提出一种图像处理方法。该方法充分利用目标图像中建筑物主体、屋顶、底座等的信息，通过从获取的目标图像中提取出视觉特征较为明显的建筑物屋顶区域以及屋顶与底座之间的预测偏移量，然后再基于该预测偏移量，对精度较高的屋顶区域进行变换，从而得到精度较高的建筑物底座区域。这样，即便在目标图像中包括的建筑物底座被遮挡的情形下，也可以得到精度较高的建筑物底座。

请参见图1，图1为本申请示出的一种图像处理方法的方法流程图。如图1所示，上述方法可以包括：

S102，获取包含至少一个建筑物的目标图像。

S104，对于每个建筑物，从上述目标图像中提取出上述建筑物的边界框和上述目标图像的目标特征图，以及，基于上述目标图像的目标特征图和上述建筑物的边界框确定上述建筑物的屋顶区域和屋顶与底座之间的预测偏移量。

S106，根据上述预测偏移量，对上述屋顶区域进行变换得到上述建筑物的底座区域。

其中，上述建筑物的屋顶区域由屋顶区域的属性信息进行表征，上述属性信息至少包括表示上述屋顶区域的坐标信息。在一些例子中，上述属性信息还包括上述屋顶区域的特征信息和/或上述屋顶区域的轮廓。上述建筑物的底座区域由底座区域的属性信息进行表征，上述属性信息至少包括表示上述底座区域的坐标信息。在一些例子中，上述属性信息还包括上述底座区域的特征信息和/或上述底座区域的轮廓。

上述图像处理方法可以应用于电子设备中。其中，上述电子设备可以通过搭载与图像处理方法对应的软件系统或者硬件结构执行上述图像处理方法。本申请实施例中，上述电子设备的类型可以是笔记本电脑，计算机，服务器，手机，PAD终端等，在本申请中不作特别限定。

可以理解的是，上述图像处理方法既可以仅通过终端设备或服务端设备单独执行，也可以通过终端设备与服务端设备配合执行。

例如，上述图像处理方法可以集成于客户端。搭载该客户端的终端设备在接收到图像处理请求后，可以通过自身硬件环境提供算力执行上述图像处理方法。

又例如，上述图像处理方法可以集成于系统平台。搭载该系统平台的服务端设备在接收到图像处理请求后，可以通过自身硬件环境提供算力执行上述图像处理方法。

还例如，上述图像处理方法可以分为获取目标图像与对目标图像进行处理两个任务。其中，获取任务可以集成于客户端并搭载于终端设备。处理任务可以集成于服务端并搭载于服务端设备。上述终端设备可以在获取到目标图像后向上述服务端设备发起图像处理请求。上述服务端设备在接收到上述图像处理请求后，可以响应于上述请求对上述目标图像执行上述方法。

以下以执行主体为电子设备(以下简称设备)为例进行说明。

上述目标图像是指图像中包括至少一个建筑物的图像。例如，上述目标图像可以是通过飞机、无人机、卫星等设备拍摄的遥感图像。

为了简单起见，后续主要以一个建筑物为例进行说明。目标图像中包括多个建筑物的图像的处理方法，与包括一个建筑物的图像的处理方法类似。

在一种情形中，在获取目标图像时，上述设备可以通过与用户进行交互，完成目标图像的输入。例如，上述设备可以通过其搭载的界面为用户提供输入待处理目标图像的窗口，供用户输入图像。用户可以基于该窗口完成目标图像的输入。上述设备在获取到目标图像后，可以将该图像输入图像处理模型中进行计算。

在另一种情形中，上述设备可以直接获取遥感图像采集系统输出的遥感图像。例如，上述设备可以与遥感图像采集系统预先建立某种协议。当遥感图像采集系统生成遥感图像后可以发送至上述设备进行图像处理。

在一些例子中，上述设备可以搭载图像处理模型以进行上述图像处理。

具体地，上述设备可以利用图像处理模型对上述目标图像中的每个建筑物进行图像处理，以从上述目标图像中提取出建筑物的屋顶区域以及上述建筑物的屋顶与底座之间的预测偏移量，并根据上述预测偏移量，对上述屋顶区域进行变换得到上述建筑物对应的底座区域。

上述图像处理模型，可以是端到端的基于目标图像进行建筑物底座提取的图像处理模型。在一些例子中，该图像处理模型可以是预先训练完毕的神经网络模型。

请参见图2，图2为本申请示出的一种通过图像处理模型进行底座提取的流程示意图。如图2所示，上述图像处理模型可以包括图像处理单元和区域变换单元。其中，上述图像处理单元的输入为上述目标图像。上述图像处理单元的输出为每个建筑物的屋顶区域以及屋顶与底座之间的预测偏移量。上述区域变换单元的输入为上述图像处理单元的输出。上述区域变换单元的输出为底座区域。

上述图像处理单元可以包括基于深度神经网络构建的、用于对屋顶区域和屋顶与底座之间的预测偏移量进行预测的子模型。

在一些例子中，上述图像处理单元还可以包括建筑物边界框预测子模型和屋顶区域预测子模型。

其中，上述建筑物边界框预测子模型，用于将目标图像中的建筑物边界框提取出来，为其他子模型提供输入，从而充分利用目标图像中建筑物的各种信息。上述建筑物边界框预测子模型，可以是基于多个标注了边界框的训练样本进行训练得到的神经网络模型。

上述屋顶区域预测子模型，基于输入的上述建筑物边界框以及目标图像中的区域特征，针对每一个建筑物进行屋顶区域预测。上述屋顶区域预测子模型，可以是基于多个标注了屋顶区域的训练样本进行训练得到的神经网络模型。

请参见图3，图3为本申请示出的一种通过图像处理单元进行屋顶区域预测的方法流程示意图。

如图3所示，图像处理单元可以包括屋顶区域预测子模型。屋顶区域预测子模型可以包括建筑物边界框预测子模型。上述建筑物边界框预测子模型可以是基于RPN(Region Proposal Network，候选框生成网络)构建的回归模型。上述屋顶区域预测子模型可以是基于RoI Align(Region of interest Align，感兴趣区域特征对齐)网络或RoI pooling(Region of interest pooling，感兴趣区域特征池化)网络等区域特征提取单元构建的回归模型。上述屋顶区域预测子模型包括了上述建筑物边界框预测子模型，上述建筑物边界框预测子模型包括骨干网络、候选框生成网络和区域特征提取单元。本申请实施例中，图3仅为示意性说明，可根据实际情形增加一些诸如卷积层，空间金字塔层，全连接层等中间层。

在预测建筑物屋顶时，可以先利用建筑物边界框预测子模型对上述目标图像进行目标检测，得到上述建筑物的边界框。将目标图像输入骨干网络后，可以得到该目标图像的目标特征图。本申请不限制骨干网络的架构，可以为常见的卷积神经网络(Convolutional Neural Networks，CNN)网络，如VGGNet、ResNet、HRNet等。该目标图像的目标特征图的信息和所应用的骨干网络的具体架构相关。然后基于RPN对目标特征图进行计算，得到多个大小不同的候选框。通过区域特征提取单元1，可以从这些候选框得到固定大小的相应的特征，再通过后续的全连接层分别生成一个或多个建筑物的边界框。其中，区域特征提取单元1可以使用RoI Align网络或RoI pooling网络。

例如，在一些例子中可以将上述目标图像输入上述建筑物边界框预测子模型进行目标检测，得到建筑物的边界框。

在得到上述目标图像中包括的各建筑物的边界框后，可以基于上述边界框和上述目标图像的目标特征图，由屋顶区域预测子模型确定上述边界框内包括的建筑物的屋顶区域。上述屋顶区域的属性信息包括上述屋顶区域的坐标信息。

例如，在一些例子中可以将上述边界框以及上述目标图像的目标特征图输入上述屋顶区域预测子模型的区域特征提取单元2，得到上述边界框内包括的建筑物对应的屋顶区域。

在一个例子中，在训练骨干网络时可以增加屋顶区域预测子模型的损失值来进行监督训练，从而提升骨干网络特征提取的准确度。

在上述方案中，上述屋顶区域预测子模型利用了上述建筑物边界框预测子模型的输出。因此在训练上述建筑物边界框预测子模型时，可以使用屋顶区域进行有监督训练，在训练样本中，样本图片的屋顶区域部分进行了真实值的标注，作为监督信息，使建筑物边界框预测子模型能够学习到预测屋顶区域需要的相关特征，从而提升建筑物边界框预测精准度，进一步提升屋顶提取精准度。

上述图像处理单元还可以包括屋顶与底座之间的偏移量预测子模型(以下简称“偏移量预测子模型”)，用于从目标图像中提取该图像中包括的建筑物的屋顶与底座之间的预测偏移量(以下简称“预测偏移量”)。在进行偏移量预测时，可以将目标图像输入上述偏移量预测子模型，预测出上述预测偏移量。

在一些例子中，由于上述偏移量预测子模型与上述屋顶区域预测子模型均是针对目标图像中包括的建筑物进行特征提取，因此，为了减小模型运算量，可以使上述偏移量预测子模型与上述屋顶区域预测子模型共用上述建筑物边界框预测子模型。

请参见图4，图4为本申请示出的一种通过图像处理单元进行偏移量预测的方法流程示意图。

如图4所示，图像处理单元可以包括建筑物边界框预测子模型，偏移量预测子模型。其中，上述建筑物边界框预测子模型可以是基于RPN构建的回归模型。上述偏移量预测子模型可以是基于RoI Align网络或RoI pooling网络等区域特征提取单元构建的回归模型。上述偏移量预测子模型与上述屋顶区域预测子模型共用上述建筑物边界框预测子模型。本申请实施例中，图4仅为示意性说明，可根据实际情形增加一些诸如卷积层，空间金字塔层，全连接层等中间层。

在预测偏移量时，可以基于上述边界框和上述目标图像的目标特征图，由偏移量预测子模型确定上述边界框内包括的建筑物的屋顶与底座之间的预测偏移量。

例如，在一些例子中可以将建筑物边界框预测子模型输出的建筑物的边界框以及上述目标图像的目标特征图输入偏移量预测子模型的区域特征提取单元2，得到上述预测偏移量。

在一个例子中，在训练骨干网络时可以增加偏移量预测子模型的损失值来进行监督训练，从而提升骨干网络特征提取的准确度。

在上述方案中，一方面，上述偏移量预测子模型与上述屋顶区域预测子模型共用上述建筑物边界框预测子模型，上述偏移量预测子模型的输入为上述建筑物边界框预测子模型的输出，可以理解的是，可以认为上述偏移量预测子模型包括了上述建筑物边界框预测子模型。因此在训练上述建筑物边界框预测子模型时，可以使用预测偏移量进行有监督训练，在训练样本中，样本图片的偏移量部分进行了真实值的标注，作为监督信息，使建筑物边界框预测子模型能够学习到预测偏移量需要的相关特征，从而提升建筑物边界框预测精准度，进一步提升变换得到底座区域的精准度。

另一方面，上述偏移量预测子模型与上述屋顶区域预测子模型共用上述建筑物边界框预测子模型可以减少模型运算量。

在一些实施例中，上述屋顶区域预测子模型与上述屋顶与底座之间的偏移量预测子模型可以共用同一区域特征提取单元。

其中，上述区域特征提取单元，可以是基于RoI Align单元或RoI pooling单元构建的区域特征提取单元。

请参见图5，图5为本申请示出的一种通过图像处理单元进行偏移量预测与屋顶区域预测的方法流程示意图。

如图5所示，上述处理流程包括两个子分支。其中，第一子分支为屋顶区域预测子分支；另一子分支为偏移量预测子分支。

上述两个子分支可以共用区域特征提取单元。在进行偏移量预测与屋顶区域预测时可以先基于上述边界框，上述目标图像(可以是目标图像经过骨干网络处理后得到的目标特征图)以及上述区域特征提取单元，确定上述边界框内包括的建筑物对应的建筑物特征。

本申请实施例中，上述目标图像中可能包括多个建筑物。可以理解的是，在上述情形下，本申请记载的方案可以将多个建筑物的边界框分别提取出来，并针对每一建筑物边界框执行上述确定建筑物特征的步骤。在本申请中不对目标图像包括的建筑物数量进行限定。

在得到边界框内建筑物对应的建筑物特征后，在屋顶区域预测子分支中，可以利用屋顶区域预测子模型包括的第一卷积处理单元对上述建筑物特征进行第一卷积处理，得到上述建筑物的屋顶区域。上述屋顶区域的属性信息不但包括上述屋顶区域的坐标信息，还包括上述屋顶区域的特征信息。

在执行上述第一卷积处理时，可以是将建筑物特征输入图5示出的第一卷积处理单元中进行计算得到屋顶区域的属性信息。

在得到边界框内建筑物对应的建筑物特征后，在偏移量预测子分支中，还可以利用上述偏移量预测子模型包括的第二卷积处理单元对上述建筑物特征进行第二卷积处理，得到上述边界框内包括的建筑物的屋顶与底座之间的预测偏移量。

在执行上述第二卷积处理时，可以是将建筑物特征输入图5示出的第二卷积处理单元中进行计算得到预测偏移量。

本申请实施例中，一方面，本申请不对上述第一卷积单元与上述第二卷积单元的结构进行限定。上述第一卷积单元与上述第二卷积单元的结构可以根据实际需求进行设定。另一方面，上述图5示出的模型结构仅为示意性图示。在图5中并未示出诸如上采样、下采样，池化操作等常规结构。上述常规结构可以根据实际情形进行设定。

在上述方案中，上述屋顶区域预测子模型与上述屋顶与底座之间的偏移量预测子模型可以共用同一区域特征提取单元。因此，一方面，在训练上述区域特征提取单元时，可以使用预测偏移量与屋顶区域进行有监督训练，引入偏移量、屋顶区域等真实值的标注信息作为监督信息，使区域特征提取单元能够学习到预测偏移量以及屋顶区域需要的相关特征，从而提升建筑物特征提取精准度，进一步提升底座提取精准度。另一方面，精简模型结构，减少模型运算量。

请继续参见图2，当通过图像处理单元得到屋顶区域与预测偏移量之后，可以将得到的屋顶区域与预测偏移量输入区域变换单元，得到底座区域。

其中，区域变换单元可以是一种映射单元。例如，可以构造一个映射函数y＝f(x1，x2)。其中，x1表示屋顶区域与底座区域之间的预测偏移量，x2表示屋顶区域。y表示底座区域。f为由预测偏移量与屋顶区域得到底座区域的映射函数。通过构造的上述映射函数，可以基于预测偏移量与屋顶区域得到底座区域。

本申请实施例中，上述预测偏移量可以包括旋转预测偏移量，与平移预测偏移量。在本申请中不对预测偏移量的具体含义进行限定。以下以仅经过平移屋顶即可得到底座为例进行说明。

在一些实施例中，为了提升底座提取精度，在根据上述预测偏移量，对上述屋顶区域进行变换，得到上述建筑物对应的底座区域时，可以根据上述预测偏移量，以及上述屋顶区域的屋顶特征进行变换，得到底座区域的底座特征。在得到底座特征后，再对底座特征进行精细化处理，得到底座区域。

在上述实施例中，在进行平移变换时，是针对屋顶区域的特征进行平移变换，在平移变换时，区域变换单元可以利用双线性插值的方式对原始特征和变换后的特征进行选择和映射，而由于屋顶区域是基于屋顶特征经过卷积和/或上采样而得到，因此，上述操作可以避免在平移变换过程中，引入从屋顶特征卷积和/或上采样至屋顶区域这一过程产生的其它误差，从而提升底座提取精度。

本申请实施例中，请参见图5，屋顶区域是基于建筑物特征得到，而建筑物特征是从区域特征提取单元中得到。由于在训练该区域特征提取单元时是以屋顶区域为真值进行有监督训练的，因此，上述建筑物特征中对应于屋顶区域的特征响应会非常高。

在一些实施例中，上述区域变换单元可以是基于神经网络构建的单元。该单元可以作为用于预测底座区域的底座区域预测子模型，即，上述图像处理模型还包括基于神经网络构建的底座区域预测子模型。

在根据上述预测偏移量，对上述屋顶区域进行变换，得到上述建筑物对应的底座区域时，可以基于上述预测偏移量，上述建筑物对应的建筑物特征以及底座区域预测子模型，确定上述建筑物对应的底座区域。

例如，在一些例子中可以将上述预测偏移量以及上述建筑物对应的建筑物特征，输入上述底座区域预测子模型，得到上述建筑物对应的底座区域。

在一些实施例中，上述底座区域预测子模型可以包括空间变换网络。其中，上述空间变换网络对应的空间变换参数包括基于上述预测偏移量确定的参数。

请参见图6，图6为本申请示出的一种通过底座区域预测子模型进行底座预测的方法流程示意图。

如图6所示，在得到屋顶区域对应的建筑物特征后，可以利用上述底座区域预测子模型包括的空间变换网络，对上述屋顶区域对应的建筑物特征进行空间变换，得到上述建筑物对应的底座特征。

在得到上述底座特征后，可以将上述底座特征输入上述底座区域预测子模型包括的多个卷积层(图6中示出的第三卷积单元)进行第三卷积处理，得到上述建筑物对应的底座区域。上述底座区域的属性信息不但包括上述底座区域的坐标信息，还包括上述底座区域的特征信息。

本申请实施例中，一方面，本申请不对上述第三卷积单元的结构进行限定。上述第三卷积单元的结构可以根据实际需求进行设定。另一方面，上述图6示出的模型结构仅为示意性图示。在图6中并未示出诸如上采样，下采样，池化操作等常规结构。上述常规结构可以根据实际情形进行设定。

上述空间变换网络可以包括基于插值方式构建的采样器(Sampler)，其中，上述采样器包括基于上述预测偏移量构建的采样网格(Grid generator)。

上述采样网格，具体是基于上述预测偏移量构建的变换函数。上述采样网格可以指示屋顶特征包括的各像素点，与底座特征包括的各像素点之间的映射关系。例如，根据上述采样网格，可以确定底座特征对应的某一像素点是由屋顶特征包括的哪些像素点映射而成的。

上述采样器，具体是基于插值方式构建的映射单元。上述采样器可以基于插值方式对原始特征(建筑物特征)和平移变换后的特征(底座特征)进行特征位置(feature position)与特征值(feature score)的映射，从而得到底座特征。其中，上述插值方式可以是，双线性插值，线性差值，抛物线插值等。在本申请中可以采用双线性插值的方式。

此时，在将上述屋顶区域对应的建筑物特征以及上述预测偏移量输入空间变换网络进行平移变换，得到上述建筑物对应的底座特征时，可以利用上述采样器，按照底座特征包括的多个像素点的各坐标信息，依次将底座特征包括的各像素点作为当前像素点，通过上述采样网格确定所述屋顶区域包括的各像素点中，与上述当前像素点对应的像素点，并基于插值方式对确定的像素点的值进行计算，得到上述当前像素点对应的像素值。

在上述实施例中，一方面，由于上述底座区域预测子模型包括可反向传播的空间变换网络以及第三卷积单元，因此，与通过诸如RT变换(旋转、平移变换)等非神经网络的形式将建筑物特征映射为底座特征的方式相比，可以将底座区域(底座特征)作为真值对底座区域预测子模型(包括空间变换网络以及第三卷积层)进行有监督训练，从而引入基于屋顶区域预测出的底座区域与底座区域真值之间的预测误差作为监督信息，使得能够基于上述预测误差对底座区域预测子模型与偏移量预测子模型之间的共享网络进行训练，从而提升偏移量预测精准度，进一步提升底座区域预测精准度。

另一方面，由于底座区域预测子模型，屋顶区域预测子模型，偏移量预测子模型共享经过区域特征提取单元输出的建筑物特征，因此，可以在各子模型训练时共享监督信息，从而加速模型收敛，同时提高各子模型的性能。另外，由于根据屋顶区域包括的各像素点在目标图像上的坐标信息可以还原出建筑物的地理坐标，因此，上述实施例提供的技术方案不仅能够准确的还原出建筑物底座的形状，还能够还原出建筑物底座的地理位置。

在一些实施例中，为了进一步提升底座区域预测精准度，可以从目标图像中，提取出比通过屋顶区域预测子模型提取的屋顶区域所包括的边缘更贴合实际的屋顶轮廓，并基于上述屋顶轮廓对屋顶区域预测子模型得到的屋顶区域进行修正，得到最终底座区域。

请参见图7，图7为本申请示出的一种最终底座区域预测方法的流程图。

如图7所示，在得到上述建筑物特征之后，可以执行S702，利用屋顶轮廓预测子模型对上述建筑物特征进行轮廓回归，确定上述建筑物的屋顶轮廓。

在一些例子中，可以将上述建筑物特征输入上述屋顶轮廓预测子模型，得到上述建筑物的屋顶轮廓。

上述屋顶轮廓预测子模型，可以是基于边界框分析(Wireframe Parsing)网络构建的模型。通过该边界框分析网络可以从目标图像中提取出较为精确的屋顶轮廓。

请参见图8，图8为本申请示出的一种通过边界框分析网络进行屋顶轮廓预测的方法流程示意图。

如图8所示，在得到建筑物特征后，可以从上述建筑物特征中提取多个连接点。

其中在提取多个连接点时，可以将建筑物特征输入第四卷积单元(图中未示出)进行多次卷积操作以及平滑处理，得到包括多个连接点的热图。其中，在对上述第四卷积单元进行训练时，可以通过为热图中的每个像素块(例如，热图的分辨率为14*14，则该热图包括196个像素块)标注真值(即当某一像素块内包括连接点时标记为1，否则标记为0)得到多个训练样本，然后可以基于该多个训练样本，以交叉熵损失信息作为目标函数对上述第四卷积单元进行训练，以使上述第四卷积单元可以对该热图中的每个像素块进行连接点预测。

在得到多个连接点后，可以进行线段采样。即，将上述多个连接点中的至少部分连接点进行两两组合，得到多个线段。

在得到多个线段后，可以进行线段验证。即，对上述多个线段进行预测，得到各线段对应的预测分数；并筛选出预测分数大于预设阈值的线段；其中，上述预测分数用于指示与该分数对应的线段属于屋顶轮廓的概率。

上述预设阈值，可以是根据经验设定的阈值。

在进行线段验证时，可以将上述多个线段输入线段验证网络，得到各线段对应的预测分数，然后可以筛选出预测分数大于上述预设阈值的线段。

上述线段验证网络，可以包括线段特征提取网络，以及分类分数预测网络。其中上述线段特征提取网络用于从建筑物特征中提取与构建的线段对应的线段特征。在得到线段特征后，可以基于上述分类分数预测网络、该线段特征，预测该线段对应的分类分数。

本申请实施例中，为了提升线段验证网络的预测精准度，在构建训练样本时可以设置数量相同的正样本与负样本，以使上述线段验证网络可以学习到正样本与负样本分别对应的线段特征，以实现线段分类分数的精准预测。其中，正样本是指图像中相似度较高的线段对。负样本是指相似度较低的线段对。

在筛选出分类分数大于上述预设阈值的线段后，可以将上述多个线段中，对应的预测分数大于预设阈值的线段进行组合，得到上述建筑物的屋顶轮廓。

在得到上述屋顶轮廓之后，可以执行S704，根据上述预测偏移量，对上述屋顶轮廓进行平移变换，得到上述建筑物的底座轮廓。

在一些实施例中，上述平移变换可以是通过预设的变换函数(例如RT转换)将屋顶轮廓映射为底座轮廓。

在一些实施例中，为了提升变换精准度，可以通过空间变换网络对屋顶轮廓进行平移变换得到底座轮廓。

请参见图9，图9为本申请示出的一种底座区域预测流程示意图。

如图9所示，在得到屋顶轮廓后，可以将上述屋顶轮廓以及上述预测偏移量输入上述空间变换网络进行平移变换，得到底座轮廓。其中，该空间变换网络的相关介绍可以参见前述内容，在此不作详述。

本申请实施例中，预测底座轮廓与预测底座区域所使用的空间变换网络可以是同一网络或不同的网络。当然，可以理解的是，为了减少运算量，预测底座轮廓与预测底座区域所使用的空间变换网络可以是同一网络。

在得到底座轮廓后，可以执行S706，基于上述底座轮廓对上述底座区域进行调整，得到上述建筑物对应的最终底座区域。最终底座区域的属性信息包括表示上述底座区域的坐标信息、上述底座区域的特征信息以及上述底座区域的轮廓。

在本步骤中，可以将底座轮廓与初步预测的底座区域相融合，通过融合技术对上述初步预测的底座区域对应的边缘进行修正，以得到更贴合实际的底座轮廓。之后可以将底座轮廓与原目标图像融合，得到最终底座区域。其中，图像融合的过程可以参见相关技术，在此不作详述。

在上述方案中，先采用边界框分析网络从目标图像中得到了屋顶轮廓。然后在基于屋顶轮廓得到精确的底座轮廓。最后基于底座轮廓对初步预测出的底座区域进行修正得到最终的底座区域。而由于上述屋顶轮廓相较于基于屋顶区域预测子模型预测出的屋顶区域来讲，精准度更高，更加贴合真实的建筑物屋顶轮廓，因此，基于上述底座轮廓修正后预测得到的最终底座区域将更加精准。

以上是对本申请示出的建筑物底座预测方案的介绍，以下介绍图像处理模型的训练方法。

在本申请中，建筑物底座预测方案使用的图像处理模型可以包括建筑物边界框预测子模型、屋顶区域预测子模型、偏移量预测子模型、屋顶轮廓预测子模型以及底座区域预测子模型。

为了提升图像处理模型对底座区域的预测精确度以及模型的泛化能力，在对图像处理模型进行训练时采用多任务联合训练方式。

请参见图10，图10为本申请示出的一种任务与模型对应关系图。

如图10所示，对图9示出的底座区域预测流程进行分解，可以得到进行底座预测需要至少包括建筑物边界框预测子任务，屋顶区域预测子任务，屋顶与底座之间的偏移量预测子任务(以下简称“偏移量预测子任务”)，屋顶轮廓预测子任务，以及底座区域预测子任务。其中上述建筑物边界框预测子任务对应建筑物边界框预测子模型。上述屋顶区域预测子任务对应屋顶区域预测子模型。上述偏移量预测子任务对应偏移量预测子模型。上述屋顶轮廓预测子任务对应屋顶轮廓预测子模型。上述底座区域预测子任务对应底座区域预测子模型。

以下介绍图10示出的图像处理模型的训练过程。请参见图11，图11为本申请示出的一种图像处理模型训练方法的方法流程图。

其中，上述图像处理模型包括建筑物边界框预测子模型、屋顶区域预测子模型、偏移量预测子模型、屋顶轮廓预测子模型以及底座区域预测子模型。

如图11所示，该方法包括：

S1102，获取多个包括标注信息的训练样本；其中，上述标注信息包括建筑物边界框，建筑物屋顶区域，建筑物屋顶轮廓，建筑物屋顶与底座之间的偏移量，建筑物底座区域。

在执行本步骤时，可以采用人工标注或机器辅助标注的方式对原始图像进行真值标注。例如，在获取到原始图像后，可以使用图像标注软件对原始图像中包括的建筑物边界框，建筑物屋顶区域，建筑物屋顶轮廓，建筑物屋顶与底座之间的偏移量，建筑物底座区域进行标注，以得到多个训练样本。本申请实施例中，在编码训练样本时可以采用one-hot编码等方式进行编码，本申请不对编码的具体方式进行限定。

S1104，基于上述图像处理模型包括的各子模型分别对应的损失信息，构建联合学习损失信息。

在执行本步骤时，可以先确定各子模型各自对应的损失信息。为了提升子模型预测精准度，在本申请中，上述建筑物边界框预测子模型对应的损失信息为Smooth L1；上述屋顶区域预测子模型，上述屋顶轮廓预测子模型，以及上述底座区域预测子模型对应的损失信息为交叉熵损失信息；上述屋顶与底座之间的偏移量预测子模型对应的损失信息为MSE(Mean Squared Error，均方误差)损失信息。由此，提供了五种不同层次的监督信息。

在确定各子模型各自对应的损失信息后，可以基于上述图像处理模型包括的各子模型分别对应的损失信息，构建联合学习损失信息。例如，可以将各子模型各自对应的损失信息相加得到上述联合学习损失信息。

本申请实施例中，在本申请中还可以为上述联合学习损失信息增加正则化项，在此不作特别限定。

在确定联合学习损失信息，以及训练样本后，可以执行S1106，基于上述联合学习损失信息以及上述训练样本对上述图像处理模型包括的各子模型进行联合训练，直至上述各子模型收敛。

在进行模型训练时，可以先指定诸如学习率、训练循环次数等超参数。在确定上述超参数之后，可以基于标注了真值的上述训练样本对上述图像处理模型进行有监督训练。

在有监督训练过程中，可以在针对图像处理模型进行前向传播得到计算结果后，基于构建的联合学习损失信息评价真值与上述计算结果之间的误差。在得到误差之后，可以采用随机梯度下降法确定下降梯度。在确定下降梯度后，可以基于反向传播更新上述图像处理模型对应的模型参数。重复上述过程，直至上述各子模型模型收敛。本申请实施例中，本申请不对模型收敛的条件进行特别限定。

在对图像处理模型进行训练时，使用共享特征的方式进行多任务联合训练，保证训练阶段各个任务之间的耦合性。同时，由于采用了有监督式的联合训练方法，因此，可以对该图像处理包括的五个子模型进行同时训练，使得各子模型之间在训练过程中既可以相互约束，又可以相互促进，从而一方面提高图像处理模型收敛效率；另一方面促进各子模型共用的骨干网络提取到对底座区域预测更有益的特征，从而提升模型预测精准度。

与上述任一实施例相对应的，本申请还提出一种图像处理装置。

请参见图12，图12为本申请示出的一种图像处理装置的示意图。

如图12所示，上述装置1200包括：

获取模块1210，用于获取包含至少一个建筑物的目标图像；提取模块1220，用于针对每个建筑物，从上述目标图像中提取出上述建筑物的边界框和上述目标图像的目标特征图，基于上述目标图像的目标特征图和上述建筑物的边界框确定上述建筑物的屋顶区域和屋顶与底座之间的预测偏移量；变换模块1230，用于根据上述预测偏移量，对上述屋顶区域进行变换得到上述建筑物的底座区域。

在示出的一些例子中，边界框确定模块，用于利用建筑物边界框预测子模型对上述目标图像进行目标检测，得到上述建筑物的边界框；上述提取模块1220，包括：屋顶区域确定模块，用于基于上述边界框和上述目标图像的目标特征图，通过屋顶区域预测子模型确定上述建筑物的屋顶区域；偏移量确定模块，用于基于上述边界框和上述目标图像的目标特征图，通过偏移量预测子模型确定上述建筑物的上述预测偏移量。

在示出的一些例子中，上述屋顶区域预测子模型与上述偏移量预测子模型共用同一区域特征提取单元，上述区域特征提取单元基于上述建筑物的边界框和所述目标图像的目标特征图确定上述建筑物的建筑物特征；上述屋顶区域确定模块，包括：第一卷积处理模块，用于利用上述屋顶区域预测子模型包括的第一卷积处理单元对上述建筑物特征进行第一卷积处理，得到上述建筑物的屋顶区域；上述偏移量确定模块，包括：第二卷积处理模块，用于利用上述偏移量预测子模型包括的第二卷积处理单元对上述建筑物特征进行第二卷积处理，得到上述建筑物的上述预测偏移量。在示出的一些例子中，上述变换模块1230，具体用于：基于上述预测偏移量和上述建筑物的上述建筑物特征，通过底座区域预测子模型确定上述建筑物的底座区域。

在示出的一些例子中，上述变换模块1230，包括：第一平移变换模块，用于利用上述底座区域预测子模型包括的空间变换网络，对上述屋顶区域对应的建筑物特征进行平移变换，得到上述建筑物的底座特征，其中，上述空间变换网络对应的空间变换参数包括基于上述预测偏移量确定的参数；第三卷积处理模块，用于利用上述底座区域预测子模型对上述底座特征进行第三卷积处理，得到上述建筑物的底座区域。

在示出的一些例子中，上述空间变换网络包括基于插值方式构建的采样器，其中，上述采样器包括基于上述预测偏移量构建的采样网格；上述第一平移变换模块，具体用于：利用上述采样器，按照上述底座特征包括的多个像素点的各坐标信息，依次将底座特征包括的各像素点作为当前像素点，通过上述采样网格确定所述屋顶区域包括的各像素点中，与上述当前像素点对应的像素点，并基于插值方式对上述确定的像素点的值进行计算，得到上述当前像素点对应的像素值。

在示出的一些例子中，与上述屋顶区域预测子模型以及上述偏移量预测子模型共用同一区域特征提取单元的还包括屋顶轮廓预测子模型；上述装置还包括：轮廓回归模块，用于利用上述屋顶轮廓预测子模型对上述建筑物特征进行轮廓回归，确定上述建筑物的屋顶轮廓；第二平移变换模块，用于根据上述预测偏移量，对上述屋顶轮廓进行变换，得到上述建筑物的底座轮廓；最终底座区域确定模块，用于基于上述底座轮廓对上述底座区域进行调整，得到上述建筑物的最终底座区域。

在示出的一些例子中，上述轮廓回归模块，具体用于：从上述建筑物特征中提取多个连接点；将上述多个连接点中的至少部分连接点两两进行组合，得到多个线段；对上述多个线段进行预测，得到各线段对应的预测分数，其中，上述预测分数用于指示与该分数对应的线段属于屋顶轮廓的概率；将上述多个线段中，对应的预测分数大于预设阈值的线段进行组合，得到上述建筑物的屋顶轮廓。

在示出的一些例子中，上述提取模块1220，具体用于：利用图像处理模型对所述目标图像进行图像处理；其中，所述图像处理模型包括建筑物边界框预测子模型、屋顶区域预测子模型、偏移量预测子模型、屋顶轮廓预测子模型以及底座区域预测子模型。

在示出的一些例子中，上述图像处理模型的训练方法对应的训练装置包括：

训练样本获取模块，用于获取多个包括标注信息的训练样本；其中，上述标注信息包括建筑物边界框，建筑物屋顶区域，建筑物屋顶轮廓，建筑物屋顶与底座之间的偏移量，建筑物底座区域；

损失信息确定模块，用于基于上述图像处理模型包括的各子模型分别对应的损失信息，构建联合学习损失信息；

联合训练模块，用于基于上述联合学习损失信息以及上述训练样本对上述图像处理模型包括的各子模型进行联合训练，直至上述各子模型收敛。

本申请示出的图像处理装置的实施例可以应用于电子设备上。相应地，本申请公开了一种电子设备，该设备可以包括：处理器。

用于存储处理器可执行指令的存储器。

其中，上述处理器被配置为调用上述存储器中存储的可执行指令，实现如上述任一实施例示出的图像处理方法。

请参见图13，图13为本申请示出的一种电子设备的硬件结构图。

如图13所示，该电子设备可以包括用于执行指令的处理器，用于进行网络连接的网络接口，用于为处理器存储运行数据的内存，以及用于存储图像处理装置对应指令的非易失性存储器。

其中，图像处理装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，除了图13所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的电子设备通常根据该电子设备的实际功能，还可以包括其他硬件，对此不再赘述。

可以理解的是，为了提升处理速度，图像处理装置对应指令也可以直接存储于内存中，在此不作限定。本申请提出一种计算机可读存储介质，上述存储介质存储有计算机程序，上述计算机程序用于执行如上述任一实施例示出的图像处理方法。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本申请实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的数据集生成方法或伪造检测方法，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

本领域技术人员应明白，本申请一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本申请一个或多实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(可以包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请中的“和/或”表示至少具有两者中的其中一个，例如，“A和/或B”可以包括三种方案：A、B、以及“A和B”。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、可以包括本申请中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本申请中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本申请中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。上述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机可以包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件可以包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将可以包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质可以包括所有形式的非易失性存储器、媒介和存储器设备，例如可以包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本申请包含许多具体实施细节，但是这些不应被解释为限制任何公开的范围或所要求保护的范围，而是主要用于描述特定公开的具体实施例的特征。本申请内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上仅为本申请一个或多个实施例的较佳实施例而已，并不用以限制本申请一个或多个实施例，凡在本申请一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请一个或多个实施例保护的范围之内。

Claims

一种图像处理方法，其特征在于，所述方法包括：

获取包含至少一个建筑物的目标图像；

对于每个建筑物，

从所述目标图像中提取出所述建筑物的边界框和所述目标图像的目标特征图；

基于所述目标图像的目标特征图和所述建筑物的边界框确定所述建筑物的屋顶区域和屋顶与底座之间的预测偏移量；

根据所述预测偏移量，对所述屋顶区域进行变换得到所述建筑物的底座区域。
根据权利要求1所述的方法，其特征在于，

所述从所述目标图像中提取出所述建筑物的边界框包括：

利用建筑物边界框预测子模型对所述目标图像进行目标检测，得到所述建筑物的边界框；

所述确定所述建筑物的屋顶区域，包括：

基于所述建筑物的边界框和所述目标图像的目标特征图，由屋顶区域预测子模型确定所述建筑物的屋顶区域；

所述确定所述建筑物的屋顶与底座之间的预测偏移量，包括：

基于所述建筑物的边界框和所述目标图像的目标特征图，由偏移量预测子模型确定所述建筑物的所述预测偏移量。
根据权利要求2所述的方法，其特征在于，所述屋顶区域预测子模型与所述偏移量预测子模型共用同一区域特征提取单元，所述区域特征提取单元基于所述建筑物的边界框和所述目标图像的目标特征图确定所述建筑物的建筑物特征；

所述确定所述建筑物的屋顶区域，包括：利用所述屋顶区域预测子模型包括的第一卷积处理单元对所述建筑物特征进行第一卷积处理，得到所述建筑物的屋顶区域；

所述确定所述建筑物的所述预测偏移量，包括：利用所述偏移量预测子模型包括的第二卷积处理单元对所述建筑物特征进行第二卷积处理，得到所述建筑物的所述预测偏移量。
根据权利要求3所述的方法，其特征在于，所述根据所述预测偏移量，对所述屋顶区域进行变换得到所述建筑物的底座区域，包括：

基于所述预测偏移量和所述建筑物的所述建筑物特征，由底座区域预测子模型确定所述建筑物的底座区域。
根据权利要求4所述的方法，其特征在于，所述基于所述预测偏移量和所述建筑物的所述建筑物特征，由底座区域预测子模型确定所述建筑物的底座区域，包括：

利用所述底座区域预测子模型包括的空间变换网络，对所述屋顶区域对应的建筑物特征进行平移变换，得到所述建筑物的底座特征，其中，所述空间变换网络的空间变换参数包括基于所述预测偏移量确定的参数；

利用所述底座区域预测子模型对所述底座特征进行第三卷积处理，得到所述建筑物的底座区域。
根据权利要求5所述的方法，其特征在于，所述空间变换网络包括基于插值方式构建的采样器，其中，所述采样器包括基于所述预测偏移量构建的采样网格；

所述利用所述底座区域预测子模型包括的空间变换网络，对所述屋顶区域对应的建筑物特征进行平移变换，得到所述建筑物的底座特征，包括：

利用所述采样器，按照所述底座特征包括的多个像素点的各坐标信息，依次将底座特征包括的各像素点作为当前像素点，通过所述采样网格确定所述屋顶区域包括的各像素点中，与所述当前像素点对应的像素点，并基于插值方式对所述确定的像素点的值进行计算，得到所述当前像素点对应的像素值。
根据权利要求3-6任一所述的方法，其特征在于，与所述屋顶区域预测子模型以及所述偏移量预测子模型共用同一区域特征提取单元的还包括屋顶轮廓预测子模型；所述方法还包括：

利用所述屋顶轮廓预测子模型对所述建筑物特征进行轮廓回归，确定所述建筑物的屋顶轮廓；

根据所述预测偏移量，对所述屋顶轮廓进行变换，得到所述建筑物的底座轮廓；

基于所述底座轮廓对所述底座区域进行调整，得到所述建筑物的最终底座区域。
根据权利要求7所述的方法，其特征在于，所述利用所述屋顶轮廓预测子模型对所述建筑物特征进行轮廓回归，确定所述建筑物的屋顶轮廓，包括：

从所述建筑物特征中提取多个连接点；

将所述多个连接点中的至少部分连接点进行组合，得到多个线段；

对所述多个线段进行预测，得到各线段对应的预测分数，其中，所述预测分数用于指示与该分数对应的线段属于屋顶轮廓的概率；

将所述多个线段中，对应的预测分数大于预设阈值的线段进行组合，得到所述建筑物的屋顶轮廓。
根据权利要求1-8任一所述的方法，其特征在于，所述方法利用图像处理模型实现；其中，所述图像处理模型包括建筑物边界框预测子模型、屋顶区域预测子模型、偏移量预测子模型、屋顶轮廓预测子模型以及底座区域预测子模型。
根据权利要求9所述的方法，其特征在于，所述图像处理模型的训练方法包括：

获取多个包括标注信息的训练样本；其中，所述标注信息包括建筑物边界框，建筑物屋顶区域，建筑物屋顶轮廓，建筑物屋顶与底座之间的偏移量，建筑物底座区域；

基于所述图像处理模型包括的各子模型分别对应的损失信息，构建联合学习损失信息；

基于所述联合学习损失信息以及所述训练样本对所述图像处理模型包括的各子模型进行联合训练，直至所述各子模型收敛。
一种图像处理装置，其特征在于，所述装置包括：

获取模块，用于获取包含至少一个建筑物的目标图像；

提取模块，用于对每个建筑物，从所述目标图像中提取出所述建筑物的边界框和所述目标图像的目标特征图，基于所述目标图像的目标特征图和所述建筑物的边界框确定所述建筑物的屋顶区域和屋顶与底座之间的预测偏移量；

变换模块，用于根据所述预测偏移量，对所述屋顶区域进行变换得到所述建筑物的底座区域。
一种电子设备，其特征在于，所述设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器中存储的可执行指令，实现权利要求1至10中任一项所述的图像处理方法。
一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行权利要求1至10中任一项所述的图像处理方法。
一种计算机程序，包括计算机可读代码，当所述计算机可读代码在电子设备中运行时，所述电子设备中的处理器执行用于实现权利要求1至10任一项所述的图像处理方法。