WO2023142602A1

WO2023142602A1 - 图像处理方法、装置和计算机可读存储介质

Info

Publication number: WO2023142602A1
Application number: PCT/CN2022/131464
Authority: WO
Inventors: 陈颖; 徐尚; 黄迪和; 刘建林; 刘永; 汪铖杰
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2022-01-25
Filing date: 2022-11-11
Publication date: 2023-08-03
Also published as: CN114445633A; US20230326173A1

Abstract

本申请实施例公开了一种图像处理方法、装置和计算机可读存储介质，应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景；通过获取待处理图像对，并对待处理图像对中的待处理图像进行图像特征提取，得到待处理图像的图像特征(101)；在图像特征中提取出待处理图像对的关联特征(102)；根据关联特征，在待处理图像中识别出共视区域的共视图像，并计算共视图像之间的尺度差值(013)；基于尺度差值，对共视图像的尺寸进行调整(014)；在每一调整后共视图像中提取出至少一个共视特征点，并基于共视特征点，对待处理图像对进行处理(105)。

Description

图像处理方法、装置和计算机可读存储介质

相关申请

本申请要求2022年01月25日申请的，申请号为2022100889886，名称为“图像处理方法、装置和计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及互联网技术领域，具体涉及一种图像处理方法、装置和计算机可读存储介质。

背景技术

随着互联网技术的快速发展，对图像的处理也越来越多样化，例如，在大规模场景重建(Structure from Motion，简称SFM)的应用场景中，将同一场景中以不同视角成像的两张图像之间的两个对应的局部特征点进行匹配。在现有的图像处理方法中，通过对两张图像中特征点尺度一致的区域进行估计，来对两张图像中的每一特征点进行逐步的提取和匹配。

在对现有技术的研究和实践过程中，本申请的发明人发现，现有图像处理方法中通过对图像中的特征点进行单点逐步的匹配来对图像进行处理，这种方法对图像中特征点的处理速率较慢，使得图像处理的速率较低，进行导致图像处理的效率较低。

发明内容

根据本申请提供的各种实施例，提供一种图像处理方法、装置和计算机可读存储介质。

本申请实施例提供一种图像处理方法，由计算机设备执行，包括：

获取待处理图像对，并对所述待处理图像对中的待处理图像进行图像特征提取，得到所述待处理图像的图像特征；

在所述图像特征中提取出所述待处理图像对的关联特征，所述关联特征用于表征所述待处理图像对中的待处理图像之间的相互信息；

根据所述关联特征，在所述待处理图像中识别出共视区域的共视图像，并计算所述共视图像之间的尺度差值；

基于所述尺度差值，对所述共视图像的尺寸进行调整，得到调整后共视图像；及

在每一所述调整后共视图像中提取出至少一个共视特征点，并基于所述共视特征点，对所述待处理图像对进行处理。

相应的，本申请实施例提供一种图像处理装置，包括：

获取单元，用于获取待处理图像对，并对所述待处理图像对中的待处理图像进行图像特征提取，得到所述待处理图像的图像特征；

提取单元，用于在所述图像特征中提取出所述待处理图像对的关联特征，所述关联特征用于表征所述待处理图像对中的待处理图像之间的相互信息；

识别单元，用于根据所述关联特征，在所述待处理图像中识别出共视区域的共视图像，并计算所述共视图像之间的尺度差值；

调整单元，用于基于所述尺度差值，对所述共视图像的尺寸进行调整，得到调整后共视图像；及

处理单元，用于在每一所述调整后共视图像中提取出至少一个共视特征点，并基于所述共视特征点，对所述待处理图像对进行处理。

另一方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现上述图像处理方法所述的步骤。

另一方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现上述图像处理方法所述的步骤。

另一方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机可读指令，该计算机可读指令被处理器执行时实现上述图像处理方法所述的步骤。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例或传统技术中的技术方案，下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据公开的附图获得其他的附图。

图1是本申请实施例提供的一种图像处理方法实施场景示意图；

图2是本申请实施例提供的一种图像处理方法的流程示意图；

图3a是本申请实施例提供的一种图像处理方法的多尺度特征提取示意图；

图3b是本申请实施例提供的一种图像处理方法的具体流程示意图；

图4a是本申请实施例提供的一种图像处理方法的图像处理模型结构示意图；

图4b是本申请实施例提供的一种图像处理方法的关注中心坐标和相对中心点偏移示意图；

图5是本申请实施例提供的一种图像处理方法的整体流程示意图；

图6是本申请实施例提供的一种图像处理方法的另一流程示意图；

图7是本申请实施例提供的图像处理装置的结构示意图；

图8是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种图像处理方法、装置和计算机可读存储介质。其中，该图像处理装置可以集成在计算机设备中，该计算机设备可以是服务器，也可以是终端等设备。

其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

请参阅图1，以图像处理装置集成在计算机设备中为例，图1为本申请实施例所提供的图像处理方法的实施场景示意图，其中，该计算机设备可以为服务器，也可以为终端，该计算机设备可以获取待处理图像对，并对待处理图像对中的待处理图像进行图像特征提取，得到待处理图像的图像特征；在图像特征中提取出待处理图像对的关联特征；根据关联特征，在待处理图像中识别出共视区域的共视图像，并计算共视图像之间的尺度差值；基于尺度差值，对共视图像的尺寸进行调整，得到调整后共视图像；在每一调整后共视图像中提取出至少一个共视特征点，并基于共视特征点，对待处理图像对进行处理。

需要说明的是，本申请实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。图1所示的图像处理方法的实施环境场景示意图仅仅是一个示例，本申请实施例描述的图像处理方法的实施环境场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定。本领域普通技术人员可知，随着图像处理的演变和新业务场景的出现，本申请提供的技术方案对于类似的技术问题，同样适用。

为了更好的说明本申请实施例，请参照以下名词进行参考：

共视区域：针对同一场景或者同一目标对象在不同拍摄条件下成像的多个图像上，该场景或者该目标对象所在的图像区域，其中目标对象可以是生物或者非生物，生物指的是独立的生命体，例如可以是自然人、动物、植物等中的任意一种，非生物指的是各种物体，例如车辆、大楼、桌子、椅子等中任意一种，不同拍摄条件例如可以是不同的视角、不同距离或者不同时间中的任意一种。多个指的是至少两个。举例说明，当采用双目摄像头对一只猫从左右两个视角拍摄得到图像A和图像B，则图像A和图像B中猫所在区域可以为共视区域。再比如，在道路重建任务中，针对某一个路面场景在不同时间点的拍摄得到图像A和图像B，则图像A和图像B中路面场景所在图像区域可以为共视区域。。共视区域的区域形状根据需要可以是各种形状，例如可以是矩形、正方形或圆形。

特征点：图像处理中，特征点指的是图像灰度值发生剧烈变化的点或者在图像边缘上曲率较大的点(即两个边缘的交点)。图像特征点在基于特征点的图像匹配算法中有着十分重要的作用。图像特征点能够反映图像本质特征，能够标识图像中目标物体。通过特征点的匹配能够完成图像的匹配。

特征匹配：得到同一物体在两个不同视角成像的图像的像素级或亚像素级对应关系。

尺度：描述物体在相机平面的成像大小，尺度越小表示物体在相机平面成像越小，尺度越大表示物体在相机平面成像越大。

本申请实施例提供的方案涉及人工智能的计算机视觉等技术，具体通过如下实施例进行说明。需要说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

在一个实施例中，请参阅图2，图2是本申请实施例提供的图像处理方法的流程示意图，在本实施例中，该图像处理方法由计算机设备执行，该计算机设备可以是服务器，也可以是终端。具体地，该图像处理方法包括：

101、获取待处理图像对，并对待处理图像对中的待处理图像进行图像特征提取，得到待处理图像的图像特征。

其中，该待处理图像对可以为多张待处理图像组成的整体，例如，可以为两张待处理图像组成的整体。该待处理图像对中的待处理图像可以为存在共视区域的图像，即可以为同一场景或者同一对象在不同视角、不同距离或者不同时间拍摄的两张图像。该图像特征可以为表征该待处理图像的特征信息。

其中，获取待处理图像对的方式可以有多种，例如，可以从与图像处理装置连接的存储器中获取，也可以从其他数据存储终端获取。还可以从实体终端的存储器中获取，也可以从虚拟的存储空间如数据集或者语料库中获取，在此不做限定。

在获取待处理图像对之后，便可以对待处理图像对中的待处理图像进行图像特征提取。其中，对待处理图像对中的待处理图像进行图像特征提取的方式可以用多种，比如，可以对该待处理图像对中的待处理图像进行特征映射，得到该待处理图像对应的特征图；对该待处理图像对应的特征图进行降维处理，得到降维后特征图；对降维后特征图进行多尺度的特征提取，得到该待处理图像在每一尺度对应的尺度图像特征；将该待处理图像在每一尺度对应的尺度图像特征进行融合，得到该待处理图像的图像特征。

其中，该特征图(Feature map)可以为表征待处理图像在每一通道(Channel)中的特征信息，在卷积神经网络的每个卷积层中，数据是以三维形式存在的，可以视为许多个二维图片叠加在一起，其中每一二维图片可以称为一个特征图。该降维后特征图可以为对待处理图像进行降维之后得到的特征图，该尺度图像特征可以为对待处理图像进行多尺度的特征提取之后得到的每一尺度对应的图像特征。

其中，对该待处理图像对中的待处理图像进行特征映射的方式可以有多种，例如，可以采用卷积核(Kernel)来对待处理图像进行卷积处理，以将待处理图像的特征映射到特征映射层中，来得到该待处理图像对应的特征图。

为了可以降低模型的计算量，同时控制模型的大小，在对该待处理图像对中的待处理图像进行特征映射之后，便可以对该待处理图像对应的特征图进行降维处理。其中，对该待处理图像对应的特征图进行降维处理的方式可以有多种，比如，可以在通道层面上，对待处理图像对应的特征图进行卷积处理，得到降维后特征图，例如，请参考图3a，图3a是本申请实施例提供的一种图像处理方法的多尺度特征提取示意图，假设待处理图像对应的特征图维度为w×h×1024，其中，w表示待处理图像对应的宽度，h表示待处理图像对应的长度，1024表示特征图对应的通道数，可以对待处理图像对应的特征图进行卷积处理，将通道数1024降维到256个通道数，得到降维后特征图对应的维度为w×h×256。

在对该待处理图像对应的特征图进行降维处理之后，便可以对降维后特征图进行多尺度的特征提取。其中，对降维后特征图进行多尺度的特征提取的方式可以有多种，比如，可以采用不同大小的卷积核分别对降维后特征图进行卷积，来得到多个尺度的尺度图像特征，即可以得到该待处理图像在每一尺度对应的尺度图像特征，例如，请继续参考图3a，k表示卷积核尺寸(Kernel size)，s表示卷积的步长(Stride，也称步幅)，以此，可以采用卷积核大小为4×4、步长为2×2对降维后特征图进行卷积，得到该尺度对应的维度为w/2×h/2×256的尺度图像特征，同时可以采用卷积核大小为8×8、步长为2×2对降维后特征图进行卷积，得到该尺度对应的维度为w/2×h/2×128的尺度图像特征，还可以采用卷积核大小为16×16、步长为2×2对降维后特征图进行卷积，得到该尺度对应的维度为w/2×h/2×128的尺度图像特征，可以对这三个尺度对应的尺度图像特征进行拼接，得到维度为w/2×h/2×512的多尺度图像特征。

在对降维后特征图进行多尺度的特征提取之后，便可以将该待处理图像在每一尺度对应的尺度图像特征进行融合。其中，将该待处理图像在每一尺度对应的尺度图像特征进行融合的方式可以有多种，例如，请继续参考图3a，可以在通道层面中对每一尺度对应的尺度图像特征进行融合，得到该待处理图像对应的维度为w/2×h/2×256的图像特征。

在一个实施例中，请参考图3b，图3b是本申请实施例提供的一种图像处理方法的具体流程示意图，其中，实线箭头指示的步骤表示属于模型训练与应用阶段中的步骤，虚线箭头指示的步骤表示只属于模型训练阶段中的步骤，可以假设待处理图像对中包括待处理图像Ia和Ib，长为H、宽为W(即H×W)，将待处理Ia和Ib经过残差网络(Resnet50)进行下采样，例如，可以采用Resnet50-Layer3(Shared Layer3，即Resnet50中的第三层结构)对待处理图像Ia和Ib下采样8倍特征图，其通道数可以为1024个，从而可以得到降维后特征图对应的维度为W/16×H/16×256，从而可以将待处理图像Ia和Ib对应的降维后特征图分别输入到多尺度特征提取模块(Multi-Scale Feature Extractor)中进行多尺度的特征提取以及融合，得到待处理图像Ia和Ib对应的维度为W/32×H/32×256的图像特征。

102、在图像特征中提取出待处理图像对的关联特征。

其中，该关联特征可以用于表征待处理图像对中的待处理图像之间的相互信息，该相互信息可以为表征该待处理图像之间的关联关系的信息，例如可以表征待处理图像之间存在的相同场景或者对象的信息，该关联特征可以为特征图，特征图的维度例如可以是256维，可以表示为F∈R ^h×w×256。

其中，在图像特征中提取出待处理图像对的关联特征的方式可以有多种，例如，可以对该图像特征进行扁平化处理，得到该待处理图像的扁平图像特征，对该扁平图像特征进行特征提取，得到该待处理图像对应的初始注意力特征，对该初始注意力特征进行交叉特征提取，得到该待处理图像对中每一该待处理图像的关联特征。

其中，该扁平图像特征可以为将待处理图像对应的图像特征进行展平之后得到的特征，该初始注意力特征可以理解为在待处理图像对应的图像特征中用于表征图像特征中每一特征与其他特征之间的关联关系的特征。

其中，对该图像特征进行扁平化处理的方式可以有多种，例如，可以采用展平层(Flatten Layer)对该图像特征进行扁平化处理，来将维度为w/2×h/2×256的图像特征进行展平，得到该待处理图像对应的一维的扁平图像特征。

在对该图像特征进行扁平化处理之后，便可以对该扁平图像特征进行特征提取，来得到该待处理图像对应的初始注意力特征。其中，对该扁平图像特征进行特征提取的方式可以有多种，例如，该扁平图像特征可以包含多个子扁平图像特征，可以对该扁平图像特征进行特征提取，得到该扁平图像特征中的每一子扁平图像特征对应的初始关联特征，基于该初始关联特征，确定该扁平图像特征中的每一子扁平图像特征对应的初始关联权重，根据该初始关联权重对该扁平图像特征中的每一子扁平图像特征进行融合，得到该待处理图像对应的初始注意力特征。

其中，该子扁平图像特征可以为扁平图像特征中的至少一个特征，例如，可以将扁平图像特征划分为多个区域，每一区域对应的特征则为子扁平图像特征。对扁平图像特征进行特征提取即对扁平图像特征中的子扁平图像特征进行特征映射的过程，映射得到的特征即为子扁平图像特征对应的初始关联特征，该初始关联特征可以为该子扁平图像特征中用于确定与其他子扁平图像特征之间的关联关系的特征信息。该初始关联权重可以为表征扁平图像特征中每一子扁平图像特征在扁平图像特征中的重要程度。

其中，对该扁平图像特征进行特征提取，得到该扁平图像特征中的每一子扁平图像特征对应的初始关联特征的方式可以有多种，比如，可以采用注意力网络(Attention)对扁平图像特征进行特征提取，来得到扁平图像特征中的每一子扁平图像特征对应的初始关联特征，例如，可以将每一扁平图像特征转换为三个维度的空间向量，包括查询向量(Query，简称Q)、键向量(Key，简称K)和值向量(Value，简称V)，具体的转换方式可以理解为对每一扁平图像特征与三个维度的转换参数进行融合而得到的，将查询向量、键向量和值向量作为每一扁平图像特征对应的初始关联特征。

在对该扁平图像特征进行特征提取，得到该扁平图像特征中的每一子扁平图像特征对应的初始关联特征之后，便可以基于该初始关联特征，确定该扁平图像特征中的每一子扁平图像特征对应的初始关联权重，其中，基于该初始关联特征，确定该扁平图像特征中的每一子扁平图像特征对应的初始关联权重的方式可以有多种，例如，可以采用注意力网络将扁平图像特征中的每一子扁平图像特征对应的查询向量与其他子扁平图像特征的键向量进行点积，可以得到每一子扁平图像特征对应的注意力得分(Score)，再基于每一子扁平图像特征对应的注意力得分，来计算每一子扁平图像特征对应的初始关联权重。

其中，除了可以采用注意力网络对该扁平图像特征进行特征提取，得到该扁平图像特征中的每一子扁平图像特征对应的初始关联特征之后，基于该初始关联特征，确定该扁平图像特征中的每一子扁平图像特征对应的初始关联权重以外，还可以采用其他可以捕捉每一子扁平图像特征与其他子扁平图像特征之间的关联关系，进而确定每一子扁平图像特征在扁平图像特征中所占的权重的网络。

在基于该初始关联特征，确定该扁平图像特征中的每一子扁平图像特征对应的初始关联权重之后，便可以根据该初始关联权重对该扁平图像特征中的每一子扁平图像特征进行融合。其中，根据该初始关联权重对该扁平图像特征中的每一子扁平图像特征进行融合的方式可以有多种，比如，可以基于初始关联权重对该扁平图像特征中的每一子扁平图像特征进行加权，并将加权后的子扁平图像特征进行累加，根据累加结果可以得到该待处理图像对应的初始注意力特征。例如，假设待处理图像对中包括待处理图像甲和待处理图像乙，其中，待处理图像甲对应的扁平图像特征中包括4个子扁平图像特征，分别为G、B、C和D，并确定了每一子扁平图像特征对应的初始关联权重，分别为g、b、c和d，进而可以基于初始关联权重对该扁平图像特征中的每一子扁平图像特征进行加权，得到Gg、Bb、Cc和Dd，从而可以将加权后的子扁平图像特征进行累加，得到累加结果为Gg+Bb+Cc+Dd，根据累加结果可以得到该待处理图像对应的初始注意力特征为Gg+Bb+Cc+Dd。

在一个实施例中，请参考图3b，可以将扁平图像特征输入到编码模块(Transformer Encoder)中，来得到待处理图像对应的初始注意力特征。可选的，请参考图4a，图4a是本申请实施例提供的一种图像处理方法的图像处理模型结构示意图，其中，假设待处理图像对中包括待处理图像Ia和Ib，以获取待处理图像Ia对应的初始注意力特征为例，可以将待处理图像Ia对应的扁平图像特征

输入到图中左侧的Transformer Encoder模块的自注意力子模块中，来得到待处理图像对应的初始注意力特征。具体的，可以将待处理图像Ia对应的扁平图像特征

转换为K、Q以及V三个维度的空间向量，并输入到Transformer Encoder模块的自注意力子模块中，在该自注意力子模块中，通过多头注意力单元(Multi-head Attention)对该扁平图像特征进行特征提取，来得到该扁平图像特征中的每一子扁平图像特征对应的初始关联权重，根据该初始关联权重对该扁平图像特征中的每一子扁平图像特征进行加权以及合并，来得到多头注意力单元的输出，进而可以通过合并单元(Concat)对多头注意力单元的输出以及扁平图像特征

进行合并，进而可以将合并的结果通过归一化单元(Layer Normalization)进行归一化处理，从而可以通过前馈网络和残差连接单元(FeedForward&Add)中的前馈网络子单元(Feed Forward)将归一化处理的结果进行全连接处理，并通过前馈网络和残差连接单元中的残差连接子单元(Add)将全连接处理的结果与合并的结果进行残差连接处理，得到待处理图像Ia对应的初始注意力特征。

在对该扁平图像特征进行特征提取，得到该待处理图像对应的初始注意力特征之后，便可以对该初始注意力特征进行交叉特征提取，得到该待处理图像对中每一该待处理图像的关联特征。其中，对该初始注意力特征进行交叉特征提取的方式可以有多种，比如，可以对该图像特征以及该初始注意力特征进行交叉特征提取，得到每一该待处理图像对应的交叉关联特征，根据该交叉关联特征，确定该待处理图像对应的交叉关联权重，基于该交叉关联权重，对每一该待处理图像对应的初始注意力特征进行加权，以得到该待处理图像对应的关联特征。

其中，该交叉关联特征可以为用于确定待处理图像对中的待处理图像之间的关联关系的特征，该交叉关联权重可以为表征待处理图像对中的待处理图像之间的关联程度，该图像特征可以为扁平化处理后的图像特征，也即扁平图像特征。

其中，对该图像特征以及该初始注意力特征进行交叉特征提取，得到每一该待处理图像对应的交叉关联特征的方式可以有多种，比如，可以采用注意力网络来对该图像特征以及该初始注意力特征进行交叉特征提取，例如，可以将某一待处理图像对应的初始注意力特征转换为查询向量，并将另一待处理图像的图像特征(可以将该图像特征转化为扁平图像特征)转换为键向量和值向量，具体的转换方式可以理解为对图像特征以及该初始注意力特征与对应维度的转换参数进行融合而得到的，将对应的查询向量、键向量和值向量作为每一图像特征对应的交叉关联特征。

在对该图像特征以及该初始注意力特征进行交叉特征提取，得到每一该待处理图像对应的交叉关联特征之后，便可以根据该交叉关联特征，确定该待处理图像对应的交叉关联权重，其中，根据该交叉关联特征，确定该待处理图像对应的交叉关联权重的方式可以有多种，例如，可以采用注意力网络将待处理图像对中某一待处理图像对应的初始注意力特征对应的查询向量与其他待处理图像对应的图像特征的键向量进行点积，可以分别得到待处理图像对中某一待处理图像对应的该图像特征和对应的初始注意力特征的注意力得分，再基于该注意力得分，来计算每一图像特征和对应的初始注意力特征的交叉关联权重。

在根据该交叉关联特征，确定该待处理图像对应的交叉关联权重之后，便可以基于该交叉关联权重，对每一该待处理图像对应的初始注意力特征进行加权，以得到该待处理图像对应的关联特征。其中，基于该交叉关联权重，对每一该待处理图像对应的初始注意力特征进行加权的方式可以有多种，例如，假设待处理图像对中包括待处理图像甲和待处理图像乙，其中，以获取待处理图像甲对应的关联特征为例，假设待处理图像甲对应的初始注意力特征为E，待处理图像乙对应的图像特征为

并确定了初始注意力特征E对应的交叉关联权重为e，图像特征

对应的交叉关联权重为f，进而可以基于交叉关联权重对初始注意力特征E和图像特征为

进行融合，来得到关联特征，例如，可以基于交叉关联权重对初始注意力特征E和图像特征为

进行加权并求和，得到关联特征为

在一个实施例中，请参考图4a，其中，假设待处理图像对中包括待处理图像Ia和Ib，以获取待处理图像Ia对应的关联特征为例，可以将待处理图像Ia对应的扁平图像特征

输入到图中左侧的Transformer Encoder模块的自注意力子模块中，来得到待处理图像对应的初始注意力特征，并将初始注意力特征输入到Transformer Encoder模块的交叉注意力子模块中，具体的，可以将待处理图像Ia对应的初始注意力特征转换为查询向量Q，将待处理图像Ib对应的扁平图像特征

转换为键向量K和值向量V，进而可以输入到交叉注意力子模块的多头注意力单元中，通过该多头注意力单元对该图像特征以及该初始注意力特征进行交叉特征提取，得到每一该待处理图像对应的交叉关联特征，根据该交叉关联特征，确定该待处理图像对应的交叉关联权重，基于该交叉关联权重，对待处理图像Ia对应的初始注意力特征以及待处理图像Ib对应的扁平图像特征

进行加权以及合并处理，来得到多头注意力单元的输出，进而可以通过合并单元对多头注意力单元的输出以及待处理图像Ia对应的初始注意力特征进行合并，并将合并的结果通过归一化单元进行归一化处理，从而可以通过前馈网络和残差连接单元中的前馈网络子单元将归一化处理的结果进行全连接处理，并通过前馈网络和残差连接单元中的残差连接子单元将全连接处理的结果与合并的结果进行残差连接处理，得到待处理图像Ia对应的关联特征。

同理，可以采用获取待处理图像Ia对应的关联特征的方法，对待处理图像Ib对应的关联特征进行获取，在此不进行赘述。

103、根据关联特征，在待处理图像中识别出共视区域的共视图像，并计算共视图像之间的尺度差值。

其中，该共视图像可以为每一待处理图像中共视区域所在的区域图像，该尺度差值可以为表征待处理图像对中共视图像之间的尺度差距的数值。

其中，根据关联特征，在待处理图像中识别出共视区域的共视图像的方式可以有多种，比如，可以获取预设区域特征，并采用训练后图像处理模型对该预设区域特征进行特征提取，得到初始区域特征，对该初始区域特征以及该关联特征进行交叉特征提取，得到该初始区域特征对应的共视区域特征，基于该共视区域特征以及该关联特征，在该待处理图像中识别出该共视区域中的共视图像。

其中，该预设区域特征可以为预先设定的一个用来表征共视区域的边界框的特征信息，可以理解为预先学习到的检测共视区域边界框的信息抽象表达，该预设区域特征可以为256维的特征向量(Q∈R ^1×256)。该初始区域特征可以为基于预设区域特征中每一特征之间的关联关系进行融合得到的特征信息，该共视区域特征可以为表征待处理图像中共视区域对应的边界框的特征信息。该训练后图像处理模型可以为训练好的用于对待处理图像对中的待处理图像进行处理的模型，可以为Transformer模型，该训练后图像处理模型的具体结构可以参考图4a中提供的图像处理模型的结构示意图。

其中，获取预设区域特征的方式可以有多种，例如，可以由开发人员预先进行设计并输入，也可以直接根据预先获取到的区域特征模板进行自动的生成等，在此不做限定。

在获取预设区域特征之后，便可以采用训练后图像处理模型对该预设区域特征进行特征提取，得到初始区域特征。其中，采用训练后图像处理模型对该预设区域特征进行特征提取的方式可以有多种，比如，该预设区域特征可以包括多个区域子特征，可以采用训练后图像处理模型对该预设区域特征进行特征提取，得到该预设区域特征中每一区域子特征对应的区域关联特征，基于该区域关联特征，确定该预设区域特征中每一区域子特征对应的区域关联权重，根据该区域关联权重，对该预设区域特征中每一区域子特征进行融合，得到初始区域特征。

其中，该区域子特征可以为预设区域特征中的至少一个特征，例如，可以将预设区域特征划分为多个区域，每一区域对应的特征则为区域子特征。对预设区域特征进行特征提取即对预设区域特征中的区域子特征进行特征映射，映射得到的特征即为该区域子特征对应的区域关联特征，该区域关联特征可以为用于确定预设区域特征中该区域子特征与其他区域子特征之间的关联关系的特征信息。该区域关联权重可以为表征预设区域特征中每一区域子特征在预设区域特征中的重要程度。

其中，采用训练后图像处理模型对该预设区域特征进行特征提取，得到该预设区域特征中每一区域子特征对应的区域关联特征的方式可以有多种，比如，可以采用注意力网络对预设区域特征进行特征提取，来得到预设区域特征中的每一区域子特征对应的区域关联特征，例如，可以将每一区域子特征转换为三个维度的空间向量，包括查询向量、键向量和值向量，具体的转换方式可以理解为对每一区域子特征与三个维度的转换参数进行融合而得到的，将查询向量、键向量和值向量作为每一区域子特征对应的区域关联特征。

在采用训练后图像处理模型对该预设区域特征进行特征提取，得到该预设区域特征中每一区域子特征对应的区域关联特征之后，便可以基于该区域关联特征，确定该预设区域特征中每一区域子特征对应的区域关联权重，其中，基于该区域关联特征，确定该预设区域特征中每一区域子特征对应的区域关联权重的方式可以有多种，例如，可以采用注意力网络将预设区域特征中的每一区域子特征对应的查询向量与其他区域子特征的键向量进行点积，可以得到每一区域子特征对应的注意力得分，再基于每一区域子特征对应的注意力得分，来计算每一区域子特征对应的区域关联权重。

在基于该区域关联特征，确定该预设区域特征中每一区域子特征对应的区域关联权重之后，便可以根据该区域关联权重，对该预设区域特征中每一区域子特征进行融合。其中，根据该区域关联权重，对该预设区域特征中每一区域子特征进行融合的方式可以有多种，比如，可以基于区域关联权重对该预设区域特征中的每一区域子特征进行加权，并将加权后的区域子特征进行累加，根据累加结果可以得到该预设区域特征对应的初始区域特征。

在一个实施例中，请继续参考图4a，可以通过图中右侧的训练后图像处理模型中的解码模块(Transformer Decoder)来对该预设区域特征进行特征提取，得到该预设区域特征中每一区域子特征对应的区域关联特征。具体的，假设待处理图像对中包括待处理图像Ia和Ib，以获取待处理图像Ia对应的区域关联特征为例，可以将预设区域特征(Single Query)转换为K、Q以及V三个维度的空间向量，并输入到Transformer Decoder模块的归一化单元中进行归一化处理，并将归一化处理后的K、Q、V三个空间向量输入到多头自注意力单元(Multi-head Self-Attention)中，通过该多头自注意力单元对该预设区域特征进行特征提取，得到该预设区域特征中每一区域子特征对应的区域关联特征，基于该区域关联特征，确定该预设区域特征中每一区域子特征对应的区域关联权重，进而根据该区域关联权重，对该预设区域特征中每一区域子特征进行加权，从而将加权后的结果输入到正则化和残差连接单元(Dropout&Add)中进行特征融合，来得到待处理图像Ia对应的初始区域特征。

在采用训练后图像处理模型对该预设区域特征进行特征提取，得到初始区域特征之后，便可以对该初始区域特征以及该关联特征进行交叉特征提取。其中，对该初始区域特征以及该关联特征进行交叉特征提取的方式可以有多种，例如，可以对该初始区域特征和该关联特征进行特征提取，得到该关联特征对应的图像关联特征，以及该初始区域特征对应的初始区域关联特征，根据该图像关联特征和初始区域关联特征确定该关联特征对应的图像关联权重，基于该图像关联权重，对该关联特征进行加权，得到共视图像特征，并将共视图像特征和该初始区域特征进行融合，得到共视区域特征。

其中，对关联特征进行特征提取即对该关联特征进行特征映射，映射得到的特征即为该关联特征对应的图像关联特征，该图像关联特征可以为用于确定该关联特征与初始区域特征之间的关联关系的特征信息；对初始区域特征进行特征提取即对该初始区域特征进行特征映射，映射得到的特征即为该初始区域特征对应的初始区域关联特征，该初始区域关联特征可以为用于确定该初始区域特征与关联特征之间的关联关系的特征信息，该图像关联权重可以为表征关联特征与初始区域特征之间的关联程度，该共视图像特征可以为表征关联特征与初始区域特征之间的关联关系的特征信息。

其中，对该初始区域特征和该关联特征进行特征提取，得到该关联特征对应的图像关联特征，以及该初始区域特征对应的初始区域关联特征的方式可以有多种，比如，可以采用注意力网络来对该初始区域特征和该关联特征进行特征提取，例如，可以将某一待处理图像对应的初始区域特征转换为查询向量，并将对应的关联特征转换为键向量和值向量，具体的转换方式可以理解为对初始区域特征和该关联特征与对应维度的转换参数进行融合而得到的，将对应的查询向量作为初始区域特征对应的初始区域关联特征，将对应的键向量和值向量作为该关联特征对应的图像关联特征。

在对该初始区域特征和该关联特征进行特征提取，得到该关联特征对应的图像关联特征，以及该初始区域特征对应的初始区域关联特征之后，便可以根据该图像关联特征和初始区域关联特征确定该关联特征对应的图像关联权重，其中，根据该图像关联特征和初始区域关联特征确定该关联特征对应的图像关联权重的方式可以有多种，例如，可以采用注意力网络将关联特征对应的图像关联特征的查询向量与初始区域特征对应的初始区域关联特征的键向量进行点积，可以分别得到关联特征中每一特征的注意力得分，再基于该注意力得分，来计算待处理图像对应的关联特征的图像关联权重。

在根据该图像关联特征和初始区域关联特征确定该关联特征对应的图像关联权重之后，便可以基于该图像关联权重，对该关联特征进行加权。其中，基于该图像关联权重，对该关联特征进行加权的方式可以有多种，例如，可以根据图像关联权重对关联特征对应的图像关联特征中的值向量进行加权，并将加权后的值向量进行融合，得到共视图像特征。

在基于该图像关联权重，对该关联特征进行加权之后，便可以将共视图像特征和该初始区域特征进行融合，得到共视区域特征。其中，将共视图像特征和该初始区域特征进行融合的方式可以有多种，例如，请参考图4a，其中，假设待处理图像对中包括待处理图像Ia和Ib，以获取待处理图像Ia对应的共视区域特征为例，可以将待处理图像Ia对应的关联特征fa输入到图中右侧的Transformer Decoder模块中，来得到待处理图像Ia对应的共视区域特征，具体的，可以对该初始区域特征和该关联特征进行特征提取，例如，可以将待处理图像Ia对应的初始区域特征与对应的预设区域特征进行加权，并将加权结果转换为查询向量Q，也即初始区域关联特征，将待处理图像Ia对应的关联特征fa转换为值向量V，并将关联特征fa通过位置编码模块(Positional Encoding)进行位置编码，并将fa对应的位置编码结果转换为键向量K，基于值向量V以及键向量K可以得到关联特征对应的图像关联特征，进而可以通过归一化单元对图像关联特征和初始区域关联特征进行归一化处理，并将归一化处理结果输入到多头注意力单元中，通过该多头注意力单元来根据该图像关联特征和初始区域关联特征确定该关联特征对应的图像关联权重，基于该图像关联权重，对该关联特征进行加权，得到共视图像特征，来得到多头注意力单元的输出，进而可以通过正则化和残差连接单元来对多头注意力单元的输出进行正则化处理，进而可以对正则化处理结果和该初始区域特征进行残差连接处理，接着可以通过归一化单元对残差连接处理结果进行归一化处理，再接着可以通过前馈网络和残差连接单元中的前馈网络子单元对归一化处理结果进行全连接处理，并通过前馈网络和残差连接单元中的残差连接子单元对全连接处理结果以及正则化和残差连接单元中的残差连接处理结果进行残差连接处理，以得到待处理图像Ia对应的共视区域特征qa。

同理，可以采用获取待处理图像Ia对应的共视区域特征的方法，对待处理图像Ib对应的共视区域特征进行获取，在此不进行赘述。

在对该初始区域特征以及该关联特征进行交叉特征提取之后，便可以基于该共视区域特征以及该关联特征，在该待处理图像中识别出该共视区域中的共视图像。其中，基于该共视区域特征以及该关联特征，在该待处理图像中识别出该共视区域中的共视图像的方式可以有多种，例如，可以基于该共视区域特征和关联特征，计算该关联特征对应的共视权重，根据该共视权重以及该关联特征，在该待处理图像中确定关注中心坐标，对该共视区域特征进行回归处理，得到该共视区域对应的相对中心点偏移，根据该关注中心坐标以及该相对中心点偏移，在该待处理图像中识别出该共视区域中的共视图像。

其中，该共视权重(Attention Map)可以表示关联特征中每一位置的特征在关联特征中的重要程度，该关注中心坐标(Centerness)可以为基于共视权重确定的在共视区域中重要程度较高的中心的坐标，可以理解为共视区域的关注中心，该相对中心点偏移可以为关注中心坐标相对于共视区域的边界框的偏移距离，根据关注中心坐标以及对应的相对中心点偏移可以确定一个矩形框，也即可以确定共视区域。

其中，基于该共视区域特征和关联特征，计算该关联特征对应的共视权重的方式可以有多种，例如，可以待处理图像对应的共视区域特征和关联特征进行点积运算(dot product，又称数量积)，来根据运算结果得到共视权重，可选的，该共视权重可以表示为

A dot(Q,F)∈R ^h×w

其中，A表示待处理图像对应的共视权重，dot()表示点积运算函数，Q表示关联特征，F表示共视区域特征，R表示维度，h表示共视权重分布的长度，w表示共视权重分布的宽度。

在基于该共视区域特征和关联特征，计算该关联特征对应的共视权重之后，便可以根据该共视权重以及该关联特征，在该待处理图像中确定关注中心坐标。其中，根据该共视权重以及该关联特征，在该待处理图像中确定关注中心坐标的方式可以有多种，比如，可以根据该共视权重以及该关联特征，计算该共视区域中每一预设坐标点的关注权重，基于该关注权重对该预设坐标点进行加权，得到加权后坐标点，对该加权后坐标点进行累加，得到该待处理图像中的关注中心坐标。

其中，该关注权重可以表征共视区域中每一预设坐标点的关注程度，可以理解为表征共视区域中每一预设坐标点为共视区域的几何中心点的概率大小，该预设坐标点可以为预设的相对坐标图中的坐标点，例如，可以将大小为w*h的图像划分为多个1*1的坐标方格(Grid)，则可以得到相对坐标图，相对坐标图中每一Grid的坐标为预设坐标点的坐标，该加权后坐标点可以为基于关注权重进行加权后的坐标点。

其中，根据该共视权重以及该关联特征，计算该共视区域中每一预设坐标点的关注权重的方式可以有多种，例如，请继续参考图3b，可以通过特征融合模块以及加权求和关注中心模块(WS-Centerness)计算该共视区域中每一预设坐标点的关注权重，以得到共视区域的关注中心坐标，具体的，可以将关联特征转换为特征图的形式，从而可以对共视权重以及该关联特征进行叉乘运算，即A×F，并将叉乘运算的结果与关联特征进行残差连接处理，得到残差连接处理结果A×F+F，进而将残差连接处理结果A×F+F通过全卷积网络(Fully Convolution Network,FCN)进行卷积，来生成共视区域概率图P，也即共视区域中的中心坐标概率分布Pc(x、y)，可以用于表征共视区域中每一预设坐标点对应的关注权重，其中，共视区域概率图P可以表示为

P＝softmax(conv _3×3(A×F+F))

其中，×表示叉乘运算，+表示残差连接处理，softmax()表示逻辑回归函数，conv _3×3可以表示卷积核大小为3×3的卷积处理。

在根据该共视权重以及该关联特征，计算该共视区域中每一预设坐标点的关注权重之后，便可以基于该关注权重对该预设坐标点进行加权，得到加权后坐标点，对该加权后坐标点进行累加，得到该待处理图像中的关注中心坐标。其中，基于该关注权重对该预设坐标点进行加权求和的方式可以有多种，例如，可以将共视区域中的中心坐标概率分布Pc(x、y)与相对坐标图中对应的预设坐标点进行加权以及求和，得到共视区域的关注中心坐标，可以表示为

其中，

表示关注中心坐标中的横坐标，

表示关注中心坐标中的纵坐标，H表示待处理图像的长度，W表示待处理图像的宽度，x表示相对坐标图中的横坐标，y表示相对坐标图中的纵坐标，∑表示求和符号。

在根据该共视权重以及该关联特征，在该待处理图像中确定关注中心坐标之后，便可以对该共视区域特征进行回归处理，得到该共视区域对应的相对中心点偏移。其中，对该共视区域特征进行回归处理的方式可以有多种，例如，请继续参考图3b，可以通过共视框回归模块(Box Regression)对该共视区域特征进行回归处理，具体的，可以假设共视区域特征可以为256维的向量，则可以通过全连接层对共视区域特征进行全连接处理，进而可以将全连接处理的结果通过激活函数(线性整流函数，ReLU函数)进行激活，从而可以将激活结果再通过全连接层进行全连接处理，来得到共视区域特征对应的4维向量，接着可以经过激活函数(Sigmoid)得到归一化后的4维的中心点偏移(L,T,M,J)，最后L和M乘以待处理图像的宽度W，T和J乘以图像长度H，得到相对中心点偏移(l,t,m,j)，例如，请参考图4b，图4b是本申请实施例提供的一种图像处理方法的关注中心坐标和相对中心点偏移示意图。

在对该共视区域特征进行回归处理之后，便可以根据该关注中心坐标以及该相对中心点偏移，在该待处理图像中识别出该共视区域中的共视图像。其中，根据该关注中心坐标以及该相对中心点偏移，在该待处理图像中识别出该共视区域中的共视图像的方式可以有多种，例如，可以根据该关注中心坐标以及该相对中心点偏移，计算该共视区域在该待处理图像中的几何中心坐标以及边界尺寸信息，基于该几何中心坐标以及该边界尺寸信息，在该待处理图像中确定出该待处理图像的共视区域，在该待处理图像中将该共视区域进行分割，得到该共视区域中的共视图像。

其中，该几何中心坐标可以为共视区域对应的矩形框的几何中心的坐标，该边界尺寸信息可以为包括共视区域对应的矩形框的边长的尺寸的信息。

其中，根据该关注中心坐标以及该相对中心点偏移，计算该共视区域在该待处理图像中的几何中心坐标以及边界尺寸信息的方式可以有多种，例如，请继续参考图4b，假设关注中心坐标为(x _c，y _c)，相对中心点偏移(l，t，m，j)，同时假设j大于t，m大于l，且共视区域位于相对坐标图中的第一象限，则可以计算几何中心坐标的横坐标为[(l+m)/2]-l+x _c，可以计算几何中心坐标的纵坐标为[(t+j)/2]+y _c-j，即几何中心坐标为([(l+m)/2]-l+x _c，[(t+j)/2]+y _c-j)，可以计算共视区域对应的矩形框的边界尺寸信息为长度为t+j，宽度为l+m。

在一个实施例中，可以对图像处理模型进行训练，来得到训练后图像处理模型，其中，对图像处理模型进行训练的方式可以有多种，例如，请继续参考图3b，可以通过对称中心一致性损失来对图像处理模型进行训练，具体的，可以获取图像样本对，采用预设图像处理模型预测该图像样本对中每一图像样本的共视区域，得到预测共视区域，根据该标注共视区域和预测共视区域对该预设图像处理模型进行训练，得到该训练后图像处理模型。

其中，该图像样本对可以为用于对预设图像处理模型进行训练的图像对样本，该图像样本对中的图像样本中包括标注共视区域，该预设图像处理模型可以为预先设计的还未训练好的图像处理模型，该预测共视区域可以为由预设图像处理模型基于输入的图像样本对预测得到的图像样本对应的共视区域，该标注共视区域可以为图像样本中预先标注好的共视区域。对预设图像处理模型进行训练即对预设图像处理模型的参数进行调整，在对预设图像处理模型进行训练的过程中，当满足训练停止条件时，得到训练后图像处理模型，其中，训练停止条件可以是训练时长达到预设时长、训练次数达到预设次数或者损失信息收敛中的任意一种。

其中，根据该标注共视区域和预测共视区域对该预设图像处理模型进行训练的方式可以有多种，例如，可以在该预测共视区域中，提取出该预测共视区域对应的预测几何中心坐标和预测边界尺寸信息，在该标注共视区域中，提取出该标注共视区域对应的标注几何中心坐标和标注边界尺寸信息，根据该预测几何中心坐标、预测边界尺寸信息、标注几何中心坐标以及标注边界尺寸信息，对该预设图像处理模型进行训练，得到训练后图像处理模型。

其中，该预测几何中心坐标可以为预测共视区域对应的矩形框的几何中心的坐标，该预测边界尺寸信息可以为包括预测共视区域对应的矩形框的边长的尺寸的信息，该标注几何中心坐标可以为标注共视区域对应的矩形框的几何中心的坐标，该标注边界尺寸信息可以为包括标注共视区域对应的矩形框的边长的尺寸的信息。

其中，在该预测共视区域中，提取出该预测共视区域对应的预测几何中心坐标和预测边界尺寸信息的方式可以有多种，例如，可以在该预测共视区域中，提取出该预测共视区域对应的预测关注中心坐标和该预测中心点偏移，根据该预测关注中心坐标以及该预测中心点偏移，确定该预测共视区域对应的预测几何中心坐标和预测边界尺寸信息。

其中，该预测关注中心坐标可以为预测共视区域中重要程度较高的中心的坐标，可以理解为预测共视区域的关注中心，该预测中心点偏移可以为预测关注中心坐标相对于预测共视区域的边界框的偏移距离。

在该预测共视区域中，提取出该预测共视区域对应的预测几何中心坐标和预测边界尺寸信息之后，便可以根据该预测几何中心坐标、预测边界尺寸信息、标注几何中心坐标以及标注边界尺寸信息，对该预设图像处理模型进行训练，得到训练后图像处理模型。其中，根据该预测几何中心坐标、预测边界尺寸信息、标注几何中心坐标以及标注边界尺寸信息，对该预设图像处理模型进行训练的方式可以有多种，例如，可以基于该预测几何中心坐标和标注几何中心坐标，计算该预设图像处理模型对应的循环一致性损失信息，基于该预测几何中心坐标和预测边界尺寸信息，以及该标注几何中心坐标和标注边界尺寸信息，分别计算该预设图像处理模型对应的边界损失信息以及平均绝对误差损失信息，将该循环一致性损失信息、该平均绝对误差损失信息以及该边界损失信息，作为该预设图像处理模型对应的损失信息，并根据该损失信息对该预设图像处理模型进行训练，得到训练后图像处理模型。

其中，该循环一致性损失信息可以为基于循环一致性损失函数(cycle consistency loss)确定的预设图像处理模型的损失信息，用于让两个生成器生成的样本之间不要相互矛盾。该平均绝对误差损失信息可以为基于回归损失函数(L1Loss)确定的损失信息，用于衡量的是一组预测值中的平均误差大小。该边界损失信息可以为基于边界损失函数(Generalized Intersection over Union)确定的损失信息，用于确定预测共视区域的边界框与的标注共视区域的边界框之间的差距的损失函数。

其中，基于该预测几何中心坐标和标注几何中心坐标，计算该预设图像处理模型对应的循环一致性损失信息的方式可以有多种，例如，该循环一致性损失信息可以表示为

其中，L _loc表示循环一致性损失信息，∥∥表示范数符号，其中，范数，是具有“长度”概念的函数。在线性代数、泛函分析及相关的数学领域，范数是一个函数，是矢量空间内的所有矢量赋予非零的正长度或大小。∥∥ ₁表示1-范数，c _i表示标注几何中心坐标，

为预设图像处理模型中交换输入的待处理图像对之间的关联特征后得到的中心点坐标。

其中，基于该预测几何中心坐标和预测边界尺寸信息，以及该标注几何中心坐标和标注边界尺寸信息，分别计算该预设图像处理模型对应的边界损失信息以及平均绝对误差损失信息的方式可以有多种，例如，该平均绝对误差损失信息可以表示为

其中，L _L1表示平均绝对误差损失信息，b _i表示经过归一化后的标注共视区域对应的标注几何中心坐标以及标注边界尺寸信息，

表示经过归一化后的预测共视区域对应的预测几何中心坐标以及预测边界尺寸信息，b _i∈[0,1] ⁴。

该边界损失信息可以表示为

其中，L _giou表示边界损失信息，

表示边界损失函数，b _i表示经过归一化后的标注共视区域对应的标注几何中心坐标以及标注边界尺寸信息，

表示经过归一化后的预测共视区域对应的预测几何中心坐标以及预测边界尺寸信息。

以此，将该循环一致性损失信息、该平均绝对误差损失信息以及该边界损失信息，作为该预设图像处理模型对应的损失信息，可选的，预设图像处理模型对应的损失信息可以表示为

其中，

表示预设图像处理模型对应的损失信息，

表示预测几何中心坐标与标注几何中心坐标之间的损失信息，λ _con为其对应的超参数，λ _loc,λ _iou和λ _L1分别为循环一致性损失信息、边界损失信息和平均绝对误差损失信息对应的超参数。

可选的，可以采用2张V100显卡在数据集(Megadepth)上35代训练(即35个epoch)复现，来对预设图像处理模型进行训练，例如，可以训练48小时。

以此，可以基于该预设图像处理模型对应的损失信息对预设图像处理模型进行训练，当该损失信息收敛时，该预设图像处理模型满足训练条件，可以将满足训练条件的预设图像处理模型作为训练后图像处理模型。

在根据关联特征，在待处理图像中识别出共视区域的共视图像之后，便可以计算该共视图像之间的尺度差值。其中，计算该共视图像之间的尺度差值的方式可以有多种，例如，可以获取每一该待处理图像对应的共视图像的尺寸信息，基于该尺寸信息计算该待处理图像之间的至少一个尺寸差值，在该尺寸差值中筛选出满足预设条件的目标尺寸差值，并将该目标尺寸差值作为该共视图像之间的尺度差值。

其中，该尺寸信息可以为包含每一待处理图像对应的共视图像的尺寸的信息，例如，可以包括共视图像的长度以及宽度等尺寸信息。该尺寸差值可以为表征待处理图像的尺寸信息之间的差距的数值，该目标尺寸差值可以为在尺寸差值中筛选出来作为尺度差值的尺寸差值。

其中，基于该尺寸信息计算该待处理图像之间的至少一个尺寸差值的方式可以有多种，比如，可以计算每一共视图像的宽度以及长度之间的比值，来得到共视图像之间的至少一个尺寸差值，例如，假设待处理图像对中包括待处理图像Ia和Ib，待处理图像Ia对应的共视图像为Ia＇，共视图像Ia＇对应的尺寸信息为长度为ha、宽度为wa，待处理图像Ib对应的共视图像为Ib＇，共视图像Ib＇对应的尺寸信息为长度为hb、宽度为wb，则可以得到四个尺寸差值分别为ha/hb、hb/ha、wa/wb、wb/wa。

在基于该尺寸信息计算该待处理图像之间的至少一个尺寸差值之后，便可以在该尺寸差值中筛选出满足预设条件的目标尺寸差值。其中，在该尺寸差值中筛选出满足预设条件的目标尺寸差值的方式可以有多种，比如，可以在尺寸差值中筛选出数值最大的尺寸差值，来作为目标尺寸差值，例如，假设待处理图像对中包括待处理图像Ia和Ib，待处理图像Ia对应的共视图像为Ia＇，共视图像Ia＇对应的尺寸信息为长度为ha、宽度为wa，待处理图像Ib对应的共视图像为Ib＇，共视图像Ib＇对应的尺寸信息为长度为hb、宽度为wb，则可以得到四个尺寸差值分别为(ha/hb，hb/ha,wa/wb,wb/wa)，则目标尺寸差值可以为S(Ia＇，Ib＇) ＝max(ha/hb，hb/ha,wa/wb,wb/wa)，其中，max()可以表示为取最大值的函数，从而可以将最大的尺寸差值作为该共视图像之间的尺度差值。

104、基于尺度差值，对共视图像的尺寸进行调整，得到调整后共视图像。

其中，调整后共视图像可以为根据共视图像之间的尺度差值进行调整后得到的共视图像。

为了提高共视图像之间特征点提取与匹配的准确性，可以对基于尺度差值对每一共视图像的尺寸进行调整，以可以在同一尺度的共视图像中进行特征点的提取与匹配等处理，其中，基于尺度差值，对共视图像的尺寸进行调整的方式可以有多种，例如，可以获取共视图像的原始长度与原始宽度，并将共视图像的原始长度与原始宽度与该尺度差值分别进行相乘，来得到调整后尺度以及调整后宽度，从而可以基于调整后尺度以及调整后宽度，来对共视图像进行缩放，以对共视图像的尺寸进行调整，来得到调整后共视图像。

105、在每一调整后共视图像中提取出至少一个共视特征点，并基于共视特征点，对待处理图像对进行处理。

其中，该共视特征点可以为在调整后共视图像中提取出来的特征点。

其中，在每一调整后共视图像中提取出至少一个共视特征点的方式可以有多种，例如，可以采用角点检测算法(FAST算法)、尺度不变特征变换(Scale-Invariant Feature Transform，简称SIFT)、加速稳健特征算法(Speeded Up Robust Features，简称SURF)等特征点提取方法，来在每一调整后共视图像中提取出至少一个共视特征点。

在每一调整后共视图像中提取出至少一个共视特征点之后，便可以基于共视特征点，对待处理图像对进行处理。其中，基于共视特征点，对待处理图像对进行处理的方式可以有多种，例如，可以对该待处理图像对中每一该待处理图像在该调整后共视图像中的共视特征点进行特征点匹配，得到匹配后共视特征点，基于该尺度差值以及该调整后共视图像的尺寸信息，在该待处理图像中确定该匹配后共视特征点对应的源特征点，基于该源特征点，对该待处理图像对进行处理。

其中，该匹配后共视特征点可以为在某一待处理图像的调整后共视图像中与其他调整后共视图像中的共视特征点匹配的共视特征点，该源特征点可以为匹配后共视特征点对应的待处理图像中对应的特征点。

其中，对该待处理图像对中每一该待处理图像在该调整后共视图像中的共视特征点进行特征点匹配的方式可以有多种，例如，可以采用距离匹配方法(Brute-Froce Matcher)来计算某一个共视特征点描述子与其他调整后共视图像中所有共视特征点描述子之间的距离，然后将得到的距离进行排序，取距离最近的一个共视特征点作为匹配点，来得到匹配后共视特征点。

在对该待处理图像对中每一该待处理图像在该调整后共视图像中的共视特征点进行特征点匹配之后，便可以基于该尺度差值以及该调整后共视图像的尺寸信息，在该待处理图像中确定该匹配后共视特征点对应的源特征点，其中，基于该尺度差值以及该调整后共视图像的尺寸信息，在该待处理图像中确定该匹配后共视特征点对应的源特征点的方式可以有多种，例如，可以根据调整后共视图像中的匹配后共视特征点进行调整后共视图像的位姿估计(Pose Estimation)，来得到调整后共视图像对应的调整后位姿信息，从而可以基于调整后位姿信息、该尺度差值以及该调整后共视图像的尺寸信息，来计算待处理图像对应的原始位姿信息，从而可以根据原始位姿信息，将匹配后共视特征点在调整后共视图像中的位置进行逆变换到待处理图像上，从而可以在该待处理图像中确定该匹配后共视特征点对应的源特征点。

可选的，可以采用随机抽样一致算法(RANdom SAmple Consensus，简称RANSAC)来根据调整后共视图像中的匹配后共视特征点进行调整后共视图像的位姿估计，RANSAC算法是一种在包含离群点在内的数据集里，通过迭代的方式估计模型的参数。

在基于该尺度差值以及该共视图像的尺寸信息，在该待处理图像中确定该匹配后共视特征点对应的源特征点之后，便可以基于该源特征点，对该待处理图像对进行处理，其中，基于该源特征点，对该待处理图像对进行处理的方式可以有多种，例如，可以对待处理图像中的特征点进行提取、匹配以及定位等处理，还可以在此基础上对待处理图像进行进一步的应用，例如，可以在虚拟地图应用中进行数据定位等，在此不做限定。

本申请实施例还提供了一种图像处理方法，请参考图5，图5是本申请实施例提供的一种图像处理方法的整体流程示意图，在第一阶段中，通过本申请实施例提供的图像处理模型对输入的两张待处理图像的共视区域进行回归获取对应区域所在位置，并分割出共视图像，在第二阶段中，再在图像层面对共视图像进行尺度对齐，在尺度对齐的调整后共视图像上进行特征点提取和匹配，一方面可以保证特征点在一个尺度的图像上进行提取，可以降低特征点提取与匹配的难度，提高特征点提取与匹配的效率，另一方面，在共视区域中进行特征点的匹配，可以有效提高外点过滤作用，提高特征点匹配的准确性，同时可以提高特征点匹配的速率，在第三阶段中，通过计算待处理图像对应的原始位姿信息，从而可以根据原始位姿信息，将匹配后共视特征点在调整后共视图像中的位置进行逆变换到待处理图像上，从而可以在该待处理图像中确定该匹配后共视特征点对应的源特征点。以此，本申请实施例提供的图像处理方法可以有效处理尺度差异大的情况下的特征提取、匹配与定位，比现有特征提取匹配算法更为稠密，适用于图像配准、大规模场景重建、同时定位与建图(SLAM)以及视觉定位等任务，可以提高图像处理的准确性以及速率，从而提升了图像处理效率。

由以上可知，本申请实施例通过获取待处理图像对，并对待处理图像对中的待处理图像进行图像特征提取，得到待处理图像的图像特征；在图像特征中提取出待处理图像对的关联特征；根据关联特征，在待处理图像中识别出共视区域的共视图像，并计算共视图像之间的尺度差值；基于尺度差值，对共视图像的尺寸进行调整，得到调整后共视图像；在每一调整后共视图像中提取出至少一个共视特征点，并基于共视特征点，对待处理图像对进行处理。以此，通过在图像特征中提取出表征待处理图像之间的相互信息的关联特征，并根据该关联特征在待处理图像中识别出两张待处理图像之间的共视区域的共视图像，以基于共视图像来对共视区域中的共视特征点进行快速提取以及匹配，提高了特征点匹配的速率以及准确性，进而提高了图像处理的准确性以及速度，从而提升了图像处理效率。

根据上面实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该图像处理装置具体集成在计算机设备为例进行说明。其中，该图像处理方法以服务器为执行主体进行具体的描述。需要说明的是，该实施例中所包括的与上文实施例中相同的部分，可以参考上文实施例中的相关解释。为了更好的描述本申请实施例，请参阅图6。如图6所示，图6为本申请实施例提供的图像处理方法的另一流程示意图。具体流程如下：

在步骤201中，服务器获取图像样本对，采用预设图像处理模型预测该图像样本对中每一图像样本的共视区域，得到预测共视区域，在该预测共视区域中，提取出该预测共视区域对应的预测关注中心坐标和该预测中心点偏移，根据该预测关注中心坐标以及该预测中心点偏移，确定该预测共视区域对应的预测几何中心坐标和预测边界尺寸信息。

在步骤202中，服务器在该图像样本的标注共视区域中，提取出该标注共视区域对应的标注几何中心坐标和标注边界尺寸信息，基于该预测几何中心坐标和标注几何中心坐标，计算该预设图像处理模型对应的循环一致性损失信息，基于该预测几何中心坐标和预测边界尺寸信息，以及该标注几何中心坐标和标注边界尺寸信息，分别计算该预设图像处理模型对应的边界损失信息以及平均绝对误差损失信息。

在步骤203中，服务器将该循环一致性损失信息、该平均绝对误差损失信息以及该边界损失信息，作为该预设图像处理模型对应的损失信息，并根据该损失信息对该预设图像处理模型进行训练，得到训练后图像处理模型。

在步骤204中，服务器获取待处理图像对，对该待处理图像对中的待处理图像进行特征映射，得到该待处理图像对应的特征图，对该待处理图像对应的特征图进行降维处理，得到降维后特征图，对降维后特征图进行多尺度的特征提取，得到该待处理图像在每一尺度对应的尺度图像特征，将该待处理图像在每一尺度对应的尺度图像特征进行融合，得到该待处理图像的图像特征。

在步骤205中，服务器对该图像特征进行扁平化处理，得到该待处理图像的扁平图像特征，对该扁平图像特征进行特征提取，得到该扁平图像特征中的每一子扁平图像特征对应的初始关联特征，基于该初始关联特征，确定该扁平图像特征中的每一子扁平图像特征对应的初始关联权重，根据该初始关联权重对该扁平图像特征中的每一子扁平图像特征进行融合，得到该待处理图像对应的初始注意力特征。

在步骤206中，服务器对该图像特征以及该初始注意力特征进行交叉特征提取，得到每一该待处理图像对应的交叉关联特征，根据该交叉关联特征，确定该待处理图像对应的交叉关联权重，基于该交叉关联权重，对每一该待处理图像对应的初始注意力特征进行加权，以得到该待处理图像对应的关联特征。

在步骤207中，服务器获取预设区域特征，采用训练后图像处理模型对该预设区域特征进行特征提取，得到该预设区域特征中每一区域子特征对应的区域关联特征，基于该区域关联特征，确定该预设区域特征中每一区域子特征对应的区域关联权重，根据该区域关联权重，对该预设区域特征中每一区域子特征进行融合，得到初始区域特征。

在步骤208中，服务器对该初始区域特征和该关联特征进行特征提取，得到该关联特征对应的图像关联特征，以及该初始区域特征对应的初始区域关联特征，根据该图像关联特征和该初始区域关联特征确定该关联特征对应的图像关联权重，基于该图像关联权重，对该关联特征进行加权，得到共视图像特征，并将该共视图像特征和该初始区域特征进行融合，得到共视区域特征。

在步骤209中，服务器基于该共视区域特征和关联特征，计算该关联特征对应的共视权重，根据该共视权重以及该共视图像特征，计算该共视区域中每一预设坐标点的关注权重，基于该关注权重对该预设坐标点进行加权，得到加权后坐标点，对该加权后坐标点进行累加，得到该待处理图像中的关注中心坐标。

在步骤210中，服务器对该共视区域特征进行回归处理，得到该共视区域对应的相对中心点偏移，根据该关注中心坐标以及该相对中心点偏移，计算该共视区域在该待处理图像中的几何中心坐标以及边界尺寸信息，基于该几何中心坐标以及该边界尺寸信息，在该待处理图像中确定出该待处理图像的共视区域，在该待处理图像中将该共视区域进行分割，得到该共视区域中的共视图像。

在步骤211中，服务器获取每一该待处理图像对应的共视图像的尺寸信息，基于该尺寸信息计算该待处理图像之间的至少一个尺寸差值，在该尺寸差值中筛选出满足预设条件的目标尺寸差值，并将该目标尺寸差值作为该共视图像之间的尺度差值，基于该尺度差值，对该共视图像的尺寸进行调整，得到调整后共视图像。

在步骤212中，服务器在每一该调整后共视图像中提取出至少一个共视特征点，对该待处理图像对中每一该待处理图像在该调整后共视图像中的共视特征点进行特征点匹配，得到匹配后共视特征点，基于该尺度差值以及该调整后共视图像的尺寸信息，在该待处理图像中确定该匹配后共视特征点对应的源特征点，基于该源特征点，对该待处理图像对进行处理。

由以上可知，本申请实施例训练通过在图像特征中提取出表征待处理图像之间的相互信息的关联特征，并根据该关联特征在待处理图像中识别出两张待处理图像之间的共视区域的共视图像，以基于共视图像来对共视区域中的共视特征点进行快速提取以及匹配，提高了特征点匹配的速率以及准确性，可以有效处理尺度差异大的情况下的特征点的提取、匹配与定位，进而提高了图像处理的准确性以及速度，从而提升了图像处理效率。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

为了更好地实施以上方法，本申请实施例还提供一种图像处理装置，该图像处理装置可以集成在计算机设备中，该计算机设备可以为服务器。

例如，如图7所示，为本申请实施例提供的图像处理装置的结构示意图，该图像处理装置可以包括获取单元301、提取单元302、识别单元303、调整单元304和处理单元305，如下：

获取单元301，用于获取待处理图像对，并对该待处理图像对中的待处理图像进行图像特征提取，得到该待处理图像的图像特征；

提取单元302，用于在该图像特征中提取出该待处理图像对的关联特征，该关联特征用于表征该待处理图像对中的待处理图像之间的相互信息；

识别单元303，用于根据该关联特征，在该待处理图像中识别出共视区域的共视图像，并计算该共视图像之间的尺度差值；

调整单元304，用于基于该尺度差值，对该共视图像的尺寸进行调整，得到调整后共视图像；

处理单元305，用于在每一该调整后共视图像中提取出至少一个共视特征点，并基于该共视特征点，对该待处理图像对进行处理。

在一个实施例中，该识别单元303，包括：初始区域特征提取子单元，用于获取预设区域特征，并采用训练后图像处理模型对该预设区域特征进行特征提取，得到初始区域特征；交叉特征提取子单元，用于对该初始区域特征以及该关联特征进行交叉特征提取，得到该初始区域特征对应的共视区域特征；共视图像识别子单元，用于基于该共视区域特征以及该关联特征，在该待处理图像中识别出该共视区域中的共视图像。

在一个实施例中，该初始区域特征提取子单元，包括：区域关联特征提取模块，用于采用训练后图像处理模型对该预设区域特征进行特征提取，得到该预设区域特征中每一区域子特征对应的区域关联特征；区域关联权重确定模块，用于基于该区域关联特征，确定该预设区域特征中每一区域子特征对应的区域关联权重；初始区域特征融合模块，用于根据该区域关联权重，对该预设区域特征中每一区域子特征进行融合，得到初始区域特征。

在一个实施例中，该交叉特征提取子单元，包括：交叉特征提取模块，用于对该初始区域特征和该关联特征进行特征提取，得到该关联特征对应的图像关联特征，以及该初始区域特征对应的初始区域关联特征；关联权重确定模块，用于根据该图像关联特征和该初始区域关联特征确定该关联特征对应的图像关联权重；共视加权模块，用于基于该图像关联权重，对该关联特征进行加权，得到共视图像特征，并将该共视图像特征和该初始区域特征进行融合，得到共视区域特征。

在一个实施例中，该共视图像识别子单元，包括：共视权重计算模块，用于基于该共视区域特征和关联特征，计算该关联特征对应的共视权重；关注中心坐标确定模块，用于根据该共视权重以及该关联特征，在该待处理图像中确定关注中心坐标；相对中心点偏移回归模块，用于对该共视区域特征进行回归处理，得到该共视区域对应的相对中心点偏移；共视图像识别模块，用于根据该关注中心坐标以及该相对中心点偏移，在该待处理图像中识别出该共视区域中的共视图像。

在一个实施例中，该共视图像识别模块，包括：几何中心坐标以及边界尺寸信息计算子模块，用于根据该关注中心坐标以及该相对中心点偏移，计算该共视区域在该待处理图像中的几何中心坐标以及边界尺寸信息；共视区域确定子模块，用于基于该几何中心坐标以及该边界尺寸信息，在该待处理图像中确定出该待处理图像的共视区域；共视图像分割子模块，用于在该待处理图像中将该共视区域进行分割，得到该共视区域中的共视图像。

在一个实施例中，该关注中心坐标确定模块，包括：关注权重计算子模块，用于根据该共视权重以及该共视图像特征，计算该共视区域中每一预设坐标点的关注权重；坐标点加权子模块，用于基于该关注权重对该预设坐标点进行加权，得到加权后坐标点；坐标点累加子模块，用于对该加权后坐标点进行累加，得到该待处理图像中的关注中心坐标。

在一个实施例中，该图像处理装置，还包括：图像样本对获取单元，用于获取图像样本对，该图像样本对的图像样本中包括标注共视区域；预测共视区域预测单元，用于采用预设图像处理模型预测该图像样本对中每一图像样本的共视区域，得到预测共视区域；训练单元，用于根据该标注共视区域和预测共视区域对该预设图像处理模型进行训练，得到该训练后图像处理模型。

在一个实施例中，该训练单元，包括：预测几何中心坐标和预测边界尺寸信息提取子单元，用于在该预测共视区域中，提取出该预测共视区域对应的预测几何中心坐标和预测边界尺寸信息；标注几何中心坐标和标注边界尺寸信息提取子单元，用于在该标注共视区域中，提取出该标注共视区域对应的标注几何中心坐标和标注边界尺寸信息；训练子单元，用于根据该预测几何中心坐标、预测边界尺寸信息、标注几何中心坐标以及标注边界尺寸信息，对该预设图像处理模型进行训练，得到训练后图像处理模型。

在一个实施例中，该预测几何中心坐标和预测边界尺寸信息提取子单元，用于：在该预测共视区域中，提取出该预测共视区域对应的预测关注中心坐标和该预测中心点偏移；根据该预测关注中心坐标以及该预测中心点偏移，确定该预测共视区域对应的预测几何中心坐标和预测边界尺寸信息。

在一个实施例中，该训练子单元，包括：第一损失信息计算模块，用于基于该预测几何中心坐标和标注几何中心坐标，计算该预设图像处理模型对应的循环一致性损失信息；第二损失信息计算模块，用于基于该预测几何中心坐标和预测边界尺寸信息，以及该标注几何中心坐标和标注边界尺寸信息，分别计算该预设图像处理模型对应的边界损失信息以及平均绝对误差损失信息；训练模块，用于将该循环一致性损失信息、该平均绝对误差损失信息以及该边界损失信息，作为该预设图像处理模型对应的损失信息，并根据该损失信息对该预设图像处理模型进行训练，得到训练后图像处理模型。

在一个实施例中，该提取单元302，包括：扁平化处理子单元，用于对该图像特征进行扁平化处理，得到该待处理图像的扁平图像特征；初始注意力特征提取子单元，用于对该扁平图像特征进行特征提取，得到该待处理图像对应的初始注意力特征；关联特征交叉提取子单元，用于对该初始注意力特征进行交叉特征提取，得到该待处理图像对中每一该待处理图像的关联特征。

在一个实施例中，该初始注意力特征提取子单元，包括：初始关联特征提取模块，用于对该扁平图像特征进行特征提取，得到该扁平图像特征中的每一子扁平图像特征对应的初始关联特征；初始关联权重确定模块，用于基于该初始关联特征，确定该扁平图像特征中的每一子扁平图像特征对应的初始关联权重；初始注意力特征融合模块，用于根据该初始关联权重对该扁平图像特征中的每一子扁平图像特征进行融合，得到该待处理图像对应的初始注意力特征。

在一个实施例中，该关联特征交叉提取子单元，包括：交叉关联特征提取模块，用于对该图像特征以及该初始注意力特征进行交叉特征提取，得到每一该待处理图像对应的交叉关联特征；交叉关联权重确定模块，用于根据该交叉关联特征，确定该待处理图像对应的交叉关联权重；交叉关联权重加权模块，用于基于该交叉关联权重，对每一该待处理图像对应的初始注意力特征进行加权，以得到该待处理图像对应的关联特征。

在一个实施例中，该获取单元301，包括：特征映射子单元，用于对该待处理图像对中的待处理图像进行特征映射，得到该待处理图像对应的特征图；降维处理子单元，用于对该待处理图像对应的特征图进行降维处理，得到降维后特征图；尺度图像特征提取子单元，用于对降维后特征图进行多尺度的特征提取，得到该待处理图像在每一尺度对应的尺度图像特征；图像特征融合子单元，用于将该待处理图像在每一尺度对应的尺度图像特征进行融合，得到该待处理图像的图像特征。

在一个实施例中，该识别单元303，包括：尺寸信息获取子单元，用于获取每一该待处理图像对应的共视图像的尺寸信息；尺寸差值计算子单元，用于基于该尺寸信息计算该待处理图像之间的至少一个尺寸差值；尺度差值筛选子单元，用于在该尺寸差值中筛选出满足预设条件的目标尺寸差值，并将该目标尺寸差值作为该共视图像之间的尺度差值。

在一个实施例中，该处理单元305，包括：共视特征点匹配子单元，用于对该待处理图像对中每一该待处理图像在该调整后共视图像中的共视特征点进行特征点匹配，得到匹配后共视特征点；源特征点确定子单元，用于基于该尺度差值以及该调整后共视图像的尺寸信息，在该待处理图像中确定该匹配后共视特征点对应的源特征点；处理子单元，用于基于该源特征点，对该待处理图像对进行处理。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由以上可知，本申请实施例通过获取单元301获取待处理图像对，并对待处理图像对中的待处理图像进行图像特征提取，得到待处理图像的图像特征；提取单元302在图像特征中提取出待处理图像对的关联特征；识别单元303根据关联特征，在待处理图像中识别出共视区域的共视图像，并计算共视图像之间的尺度差值；调整单元304基于尺度差值，对共视图像的尺寸进行调整，得到调整后共视图像；处理单元305在每一调整后共视图像中提取出至少一个共视特征点，并基于共视特征点，对待处理图像对进行处理。以此，通过在图像特征中提取出表征待处理图像之间的相互信息的关联特征，并根据该关联特征在待处理图像中识别出两张待处理图像之间的共视区域的共视图像，以基于共视图像来对共视区域中的共视特征点进行快速提取以及匹配，提高了特征点匹配的速率以及准确性，进而提高了图像处理的准确性以及速度，从而提升了图像处理效率。

本申请实施例还提供一种计算机设备，如图8所示，其示出了本申请实施例所涉及的计算机设备的结构示意图，该计算机设备可以是服务器，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图8中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备的各种功能和处理数据。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及图像处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

计算机设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现一种图像处理方法，该图像处理方法与上文实施例中的图像处理方法属于同一构思，其具体实现过程详见上文方法实施例。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机可读指令，该处理器执行计算机可读指令时实现上述图像处理方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机可读指令，计算机可读指令被处理器执行时实现上述图像处理方法的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机可读指令，该计算机可读指令被处理器执行时实现上述图像处理方法的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种图像处理方法，由计算机设备执行，包括：

获取待处理图像对，并对所述待处理图像对中的待处理图像进行图像特征提取，得到所述待处理图像的图像特征；

在所述图像特征中提取出所述待处理图像对的关联特征，所述关联特征用于表征所述待处理图像对中的待处理图像之间的相互信息；

根据所述关联特征，在所述待处理图像中识别出共视区域的共视图像，并计算所述共视图像之间的尺度差值；

基于所述尺度差值，对所述共视图像的尺寸进行调整，得到调整后共视图像；及

在每一所述调整后共视图像中提取出至少一个共视特征点，并基于所述共视特征点，对所述待处理图像对进行处理。
根据权利要求1所述的方法，其特征在于，所述根据所述关联特征，在所述待处理图像中识别出共视区域的共视图像，包括：

获取预设区域特征，并采用训练后图像处理模型对所述预设区域特征进行特征提取，得到初始区域特征；

对所述初始区域特征以及所述关联特征进行交叉特征提取，得到所述初始区域特征对应的共视区域特征；及

基于所述共视区域特征以及所述关联特征，在所述待处理图像中识别出所述共视区域中的共视图像。
根据权利要求2所述的方法，其特征在于，所述预设区域特征包括多个区域子特征，所述采用训练后图像处理模型对所述预设区域特征进行特征提取，得到初始区域特征，包括：

采用训练后图像处理模型对所述预设区域特征进行特征提取，得到所述预设区域特征中每一区域子特征对应的区域关联特征；

基于所述区域关联特征，确定所述预设区域特征中每一区域子特征对应的区域关联权重；及

根据所述区域关联权重，对所述预设区域特征中每一区域子特征进行融合，得到初始区域特征。
根据权利要求2所述的方法，其特征在于，所述对所述初始区域特征以及所述关联特征进行交叉特征提取，得到所述初始区域特征对应的共视区域特征，包括：

对所述初始区域特征和所述关联特征进行特征提取，得到所述关联特征对应的图像关联特征，以及所述初始区域特征对应的初始区域关联特征；

根据所述图像关联特征和所述初始区域关联特征确定所述关联特征对应的图像关联权重；及

基于所述图像关联权重，对所述关联特征进行加权，得到共视图像特征，并将所述共视图像特征和所述初始区域特征进行融合，得到共视区域特征。
根据权利要求2所述的方法，其特征在于，所述基于所述共视区域特征以及所述关联特征，在所述待处理图像中识别出所述共视区域中的共视图像，包括：

基于所述共视区域特征和关联特征，计算所述关联特征对应的共视权重；

根据所述共视权重以及所述关联特征，在所述待处理图像中确定关注中心坐标；

对所述共视区域特征进行回归处理，得到所述共视区域对应的相对中心点偏移；及

根据所述关注中心坐标以及所述相对中心点偏移，在所述待处理图像中识别出所述共视区域中的共视图像。
根据权利要求5所述的方法，其特征在于，所述根据所述关注中心坐标以及所述相对中心点偏移，在所述待处理图像中识别出所述共视区域中的共视图像，包括：

根据所述关注中心坐标以及所述相对中心点偏移，计算所述共视区域在所述待处理图像中的几何中心坐标以及边界尺寸信息；

基于所述几何中心坐标以及所述边界尺寸信息，在所述待处理图像中确定出所述待处理图像的共视区域；及

在所述待处理图像中将所述共视区域进行分割，得到所述共视区域中的共视图像。
根据权利要求5所述的方法，其特征在于，所述根据所述共视权重以及所述关联特征，在所述待处理图像中确定关注中心坐标，包括：

根据所述共视权重以及所述关联特征，计算所述共视区域中每一预设坐标点的关注权重；

基于所述关注权重对所述预设坐标点进行加权，得到加权后坐标点；及

对所述加权后坐标点进行累加，得到所述待处理图像中的关注中心坐标。
根据权利要求2所述的方法，其特征在于，所述采用训练后图像模型对所述预设区域特征进行特征提取，得到初始区域特征之前，还包括：

获取图像样本对，所述图像样本对中的图像样本中包括标注共视区域；

采用预设图像处理模型预测所述图像样本对中每一图像样本的共视区域，得到预测共视区域；及

根据所述标注共视区域和预测共视区域对所述预设图像处理模型进行训练，得到所述训练后图像处理模型。
根据权利要求8所述的方法，其特征在于，所述根据所述标注共视区域和预测共视区域对所述预设图像处理模型进行训练，得到所述训练后图像处理模型，包括：

在所述预测共视区域中，提取出所述预测共视区域对应的预测几何中心坐标和预测边界尺寸信息；

在所述标注共视区域中，提取出所述标注共视区域对应的标注几何中心坐标和标注边界尺寸信息；及

根据所述预测几何中心坐标、预测边界尺寸信息、标注几何中心坐标以及标注边界尺寸信息，对所述预设图像处理模型进行训练，得到训练后图像处理模型。
根据权利要求9所述的方法，其特征在于，所述在所述预测共视区域中，提取出所述预测共视区域对应的预测几何中心坐标和预测边界尺寸信息，包括：

在所述预测共视区域中，提取出所述预测共视区域对应的预测关注中心坐标和所述预测中心点偏移；及

根据所述预测关注中心坐标以及所述预测中心点偏移，确定所述预测共视区域对应的预测几何中心坐标和预测边界尺寸信息。
根据权利要求10所述的方法，其特征在于，所述根据所述预测几何中心坐标、预测边界尺寸信息、标注几何中心坐标以及标注边界尺寸信息，对所述预设图像处理模型进行训练，得到训练后图像处理模型，包括：

基于所述预测几何中心坐标和标注几何中心坐标，计算所述预设图像处理模型对应的循环一致性损失信息；

基于所述预测几何中心坐标和预测边界尺寸信息，以及所述标注几何中心坐标和标注边界尺寸信息，分别计算所述预设图像处理模型对应的边界损失信息以及平均绝对误差损失信息；及

将所述循环一致性损失信息、所述平均绝对误差损失信息以及所述边界损失信息，作为所述预设图像处理模型对应的损失信息，并根据所述损失信息对所述预设图像处理模型进行训练，得到训练后图像处理模型。
根据权利要求1所述的方法，其特征在于，所述在所述图像特征中提取出所述待处理图像对的关联特征，包括：

对所述图像特征进行扁平化处理，得到所述待处理图像的扁平图像特征；

对所述扁平图像特征进行特征提取，得到所述待处理图像对应的初始注意力特征；及

对所述初始注意力特征进行交叉特征提取，得到所述待处理图像对中每一所述待处理图像的关联特征。
根据权利要求12所述的方法，其特征在于，所述扁平图像特征包含多个子扁平图像特征，所述对所述扁平图像特征进行特征提取，得到所述待处理图像对应的初始注意力特征，包括：

对所述扁平图像特征进行特征提取，得到所述扁平图像特征中的每一子扁平图像特征对应的初始关联特征；

基于所述初始关联特征，确定所述扁平图像特征中的每一子扁平图像特征对应的初始关联权重；及

根据所述初始关联权重对所述扁平图像特征中的每一子扁平图像特征进行融合，得到所述待处理图像对应的初始注意力特征。
根据权利要求12所述的方法，其特征在于，所述对所述初始注意力特征进行交叉特征提取，得到所述待处理图像对中每一所述待处理图像的关联特征，包括：

对所述图像特征以及所述初始注意力特征进行交叉特征提取，得到每一所述待处理图像对应的交叉关联特征；

根据所述交叉关联特征，确定所述待处理图像对应的交叉关联权重；及

基于所述交叉关联权重，对每一所述待处理图像对应的初始注意力特征进行加权，以得到所述待处理图像对应的关联特征。
根据权利要求1所述的方法，其特征在于，所述对所述待处理图像对中的待处理图像进行图像特征提取，得到所述待处理图像的图像特征，包括：

对所述待处理图像对中的待处理图像进行特征映射，得到所述待处理图像对应的特征图；

对所述待处理图像对应的特征图进行降维处理，得到降维后特征图；

对降维后特征图进行多尺度的特征提取，得到所述待处理图像在每一尺度对应的尺度图像特征；及

将所述待处理图像在每一尺度对应的尺度图像特征进行融合，得到所述待处理图像的图像特征。
根据权利要求1所述的方法，其特征在于，所述计算所述共视图像之间的尺度差值，包括：

获取每一所述待处理图像对应的共视图像的尺寸信息；

基于所述尺寸信息计算所述待处理图像之间的至少一个尺寸差值；及

在所述尺寸差值中筛选出满足预设条件的目标尺寸差值，并将所述目标尺寸差值作为所述共视图像之间的尺度差值。
根据权利要求1所述的方法，其特征在于，所述基于所述共视特征点，对所述待处理图像对进行处理，包括：

对所述待处理图像对中每一所述待处理图像在所述调整后共视图像中的共视特征点进行特征点匹配，得到匹配后共视特征点；

基于所述尺度差值以及所述调整后共视图像的尺寸信息，在所述待处理图像中确定所述匹配后共视特征点对应的源特征点；及

基于所述源特征点，对所述待处理图像对进行处理。
一种图像处理装置，其特征在于，包括：

获取单元，用于获取待处理图像对，并对所述待处理图像对中的待处理图像进行图像特征提取，得到所述待处理图像的图像特征；

提取单元，用于在所述图像特征中提取出所述待处理图像对的关联特征，所述关联特征用于表征所述待处理图像对中的待处理图像之间的相互信息；

识别单元，用于根据所述关联特征，在所述待处理图像中识别出共视区域的共视图像，并计算所述共视图像之间的尺度差值；

调整单元，用于基于所述尺度差值，对所述共视图像的尺寸进行调整，得到调整后共视图像；

处理单元，用于在每一所述调整后共视图像中提取出至少一个共视特征点，并基于所述共视特征点，对所述待处理图像对进行处理。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现权利要求1至17中任一项所述的方法的步骤。
一种计算机可读存储介质，其上存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现权利要求1至17中任一项所述的方法的步骤。

所述的方法所述的方法21、一种计算机程序产品，包括计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现权利要求1至17中任一项所述的方法的步骤。