WO2021169404A1

WO2021169404A1 - 深度图像生成方法、装置及存储介质

Info

Publication number: WO2021169404A1
Application number: PCT/CN2020/127891
Authority: WO
Inventors: 张润泽; 易鸿伟; 陈颖; 徐尚; 戴宇荣
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2020-02-26
Filing date: 2020-11-10
Publication date: 2021-09-02
Also published as: US20220230338A1; CN111340866A; CN111340866B

Abstract

一种深度图像生成方法、装置及存储介质，属于计算机技术领域。该方法包括：获取多张目标图像（201），通过卷积模型中的多个卷积层，对所述多张目标图像进行多级卷积处理，得到所述多个卷积层分别输出的特征图集合（202），分别将所述每个特征图集合中的多个特征图进行视角聚合，得到每个特征图集合对应的聚合特征（203），将得到的多个聚合特征进行融合处理，得到深度图像（204）。获取的多张目标图像是按照不同视角拍摄目标物体分别得到的，使得到的多张目标图像中不同角度的信息，丰富了获取到的目标图像的信息量，且通过多个卷积层的多级卷积处理，得到多个不同的特征图集合，丰富了特征图的信息量，从而提高了得到的深度图像的准确性。

Description

深度图像生成方法、装置及存储介质

本申请要求于2020年2月26日提交的申请号为2020101197135、发明名称为“深度图像生成方法、装置及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种深度图像生成方法、装置及存储介质。

背景技术

随着计算机技术的发展，三维模型的应用越来越广泛。三维模型可以应用于多种场景下，如建筑物的三维模型构建场景、人体的三维模型构建场景等。在生成物体的三维模型时，需要先生成物体的深度图像，因此如何生成深度图像成为亟待解决的问题。

发明内容

本申请实施例提供了一种深度图像生成方法、装置及存储介质，能够提高深度图像的准确性。所述技术方案如下：

一方面，提供了一种深度图像生成方法，所述方法包括：

获取多张目标图像，所述多张目标图像是按照不同视角拍摄目标物体分别得到的；

通过卷积模型中的多个卷积层，对所述多张目标图像进行多级卷积处理，得到所述多个卷积层分别输出的特征图集合，每个特征图集合包括所述多张目标图像对应的特征图；

分别将所述每个特征图集合中的多个特征图进行视角聚合，得到所述每个特征图集合对应的聚合特征；

将得到的多个聚合特征进行融合处理，得到深度图像。

另一方面，提供了一种深度图像生成装置，所述装置包括：

图像获取模块，用于获取多张目标图像，所述多张目标图像是按照不同视角拍摄目标物体分别得到的；

卷积处理模块，用于通过卷积模型中的多个卷积层，对所述多张目标图像进行多级卷积处理，得到所述多个卷积层分别输出的特征图集合，每个特征图集合包括所述多张目标图像对应的特征图；

视角聚合模块，用于分别将所述每个特征图集合中的多个特征图进行视角聚合，得到所述每个特征图集合对应的聚合特征；

特征融合模块，用于将得到的多个聚合特征进行融合处理，得到深度图像。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如上述方面所述的深度图像生成方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如上述方面所述的深度图像生成方法。

本申请实施例提供的方法、装置及存储介质，获取多张目标图像，该多张目标图像是按照不同视角拍摄目标物体分别得到的，通过卷积模型中的多个卷积层，对多张目标图像进行多级卷积处理，得到多个卷积层分别输出的特征图集合，分别将每个特征图集合中的多个特征图进行视角聚合，得到每个特征图集合对应的聚合特征，将得到的多个聚合特征进行融合处理，得到深度图像。获取的多张目标图像是按照不同视角拍摄目标物体分别得到的，使得到的多张目标图像中包括目标物体不同角度的信息，丰富了获取到的目标图像的信息量，且通过多个卷积层的多级卷积处理，得到多个不同的特征图集合，丰富了特征图的信息量，将多个卷积层输出的特征图进行融合处理，丰富了得到的深度图像中包含的信息量，从而提高了得到的深度图像的准确性。

并且，通过多张目标图像之间的拍摄视角差异，对每个特征图集合中的多个特征图进行视角聚合，以使后续能够将属于相同视角的特征图进行融合处理，提高了得到的聚合特征的准确性，从而提高了得到的深度图像的准确性。

并且，在将多个卷积层输出的特征图进行融合处理的过程中，将每个卷积层对应的聚合特征进行融合时，将每个聚合特征对应的概率图进行融合处理，使得多个聚合特征进行融合时考虑到了概率对各个像素位置的影响，提高了得到的第四聚合特征的准确性，从而提高了得到的深度图像的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的结构示意图；

图2是本申请实施例提供的一种深度图像生成方法的流程图；

图3是本申请实施例提供的一种深度图像生成方法的流程图；

图4是本申请实施例提供的一种第二特征卷进行融合处理的流程图；

图5是本申请实施例提供的一种第二特征卷进行融合处理的流程图；

图6是本申请实施例提供的一种深度图像生成方法的流程图；

图7是本申请实施例提供的一种深度图像生成模型的结构示意图；

图8是本申请实施例提供的一种深度图像生成方法的流程图；

图9是本申请实施例提供的一种深度图像融合的流程图；

图10是本申请实施例提供的一种生成三维模型的流程图；

图11是本申请实施例提供的一种生成三维模型的流程图；

图12是本申请实施例提供的一种深度图像生成装置的结构示意图；

图13是本申请实施例提供的一种深度图像生成装置的结构示意图；

图14是本申请实施例提供的一种终端的结构示意图；

图15是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说，在不脱离本申请的范围的情况下，可以将第一人特征图称为第二特征图，且类似地，可将第二特征图称为第一特征图。

本申请所使用的术语“多个”、“每个”、“任一”，多个包括两个或两个以上，而每个是指对应的多个中的每一个，任一是指多个中的任意一个。举例来说，多个元素包括3个元素，而每个是指这3个元素中的每一个元素，任一是指这3个元素中的任意一个，可以是第一个，可以是第二个、也可以是第三个。

本申请实施例提供的深度图像生成方法，可以用于计算机设备中。在一种可能实现方式中，该计算机设备为终端，该终端为手机、计算机、平板电脑等多种类型的终端。终端通过摄像机拍摄目标物体，获取多张目标图像，通过卷积模型中的多个卷积层，对多张目标图像进行多级卷积处理，得到该多个卷积层分别输出的特征图集合，分别将每个特征图集合中的多个特征图进行视角聚合，得到每个特征图集合对应的聚合特征，将得到的多个聚合特征进行融合处理，得到深度图像。

在另一种可能实现方式中，该计算机设备包括服务器和终端。图1是本申请实施例提供的一种实施环境的结构示意图，如图1所示，该实施环境包括终端101和服务器102。终端101与服务器102建立通信连接，通过建立的通信连接进行交互。其中，该终端101为手机、计算机、平板电脑等多种类型的终端101。服务器102为一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务器中心。终端101通过摄像机拍摄目标物体，获取到多张目标图像，将获取到的多张目标图像发送至服务器102，该服务器102通过卷积模型中的多个卷积层，对多张目标图像进行多级卷积处理，得到该多个卷积层分别输出的特征图集合，分别将每个特征图集合中的多个特征图进行视角聚合，得到每个特征图集合对应的聚合特征，将得到的多个聚合特征进行融合处理，得到深度图像。后续该服务器102还能够将该深度图像发送给该终端101。

本申请实施例提供的方法，可用于构建三维模型的各种场景下。

例如，建筑物测绘的场景下：

用户通过终端的摄像头拍摄建筑物，则终端采用本申请实施例提供的深度图像生成方法，按照不同视角拍摄建筑物，对获取到的多张目标图像进行处理，得到深度图像，通过对该深度图像进行处理，得到该建筑物的三维模型，以使后续能够对建筑物三维模型进行测绘。

再例如，室内布置场景下：

用户通过终端的摄像头拍摄房屋室内，终端采用本申请实施例提供的深度图像生成方法，按照不同视角拍摄房屋室内，对获取到的多张目标图像进行处理，得到深度图像，通过对该深度图像进行处理，得到该房屋室内的三维模型，用户能够在该房屋的三维模型中模拟家居布置，以实现家居设计的动态展示，使用户能够直观的查看家居设计展现的状态。

图2是本申请实施例提供的一种深度图像生成方法的流程图，应用于计算机设备中，如图2所示，该方法包括：

201、计算机设备获取多张目标图像。

其中，该多张目标图像是按照不同视角拍摄目标物体分别得到的。

在本申请实施例中，通过不同视角拍摄同一个目标物体，则获取到的多张目标图像中目标物体的显示状态不同，因此可以根据多张目标图像之间的差异，对多张目标图像进行处理，可以生成目标物体的深度图像，以便后续通过深度图像获取到目标物体的三维模型。

其中，该视角是由摄像头的拍摄参数及摄像头与目标物体之间的相对位置共同决定的。该拍摄参数可以包括焦距、像素等。例如，保持摄像头与物体之间的相对位置不变，通过不同的拍摄参数对物体进行拍摄，可以得到不同视角的图像；或者，保持拍摄参数不变，通过不同的相对位置对物体进行拍摄，也可以得到不同视角的图像；或者，通过不同的相对位置及不同的拍摄参数对物体进行拍摄，也可以得到不同视角的图像。

按照不同视角拍摄得到的多个图像中，目标物体的显示状态不同，该显示状态可以包括显示目标物体的大小、目标物体在图像中的显示位置及显示目标物体的角度。例如，按照不同视角拍摄目标物体得到三张图像，在第一张图像中的左上角区域显示该目标物体，且显示目标物体的左侧面图像；第二张图像中的中间区域显示该目标物体，且显示目标物体的正面图像；第三张图像中的右下角区域显示该目标物体，且显示该目标物体的右侧面图像；并且，在三张图像中显示的目标物体的尺寸依次减小。

在该多张目标图像中，不同的目标图像对应的视角不同，因此，在不同的目标图像中包括同一个目标物体，该目标物体的显示状态不同。该多张目标图像可以是按照不同视角拍摄目标物体直接得到的，也可以是对拍摄得到的图像进行处理后得到的。

对于该多张目标图像的获取方式，在一种可能实现方式中，按照多个不同的视角拍摄目标物体，得到多张目标图像；或者，按照多个不同的视角拍摄目标物体，得到多张原始图像，对多张原始图像进行尺度调整，得到多张原始图像调整后的多张目标图像，多张目标图像的尺度相等。

其中，对多张原始图像进行尺度调整可以为：将多张原始图像进行缩小，得到更小尺度的多张目标图像；或者多张原始图像进行放大，得到更大尺度的多张目标图像。由于通过拍摄得到的多张原始图像的尺度相等，则在对多张原始图像进行尺度调整后，得到的多张目标图像的尺度也相等。

202、计算机设备通过卷积模型中的多个卷积层，对多张目标图像进行多级卷积处理，得到多个卷积层分别输出的特征图集合。

其中，卷积模型用于获取图像的特征图，该卷积模型为二维卷积网络模型，可以为VGG(Visual Geometry Group Network，视觉几何组网络模型)、Restnet(一种卷积网络模型)等。该卷积模型中包括多个卷积层，每个卷积层均用于对输入的图像进行卷积处理，输出该图像的特征图。

特征图集合包括多张目标图像对应的特征图，特征图用于表示对应的目标图像中包括的特征，如颜色特征、纹理特征、形状特征或空间特征等。计算机设备通过多个卷积层对该多张目标图像进行多级卷积处理时，每个卷积层均可以输出特征图集合，每个特征图集合中包括的特征图与该多张目标图像一一对应，每个特征图集合中包括的特征图的个数，均与该多张目标图像的个数相等。由于多个卷积层均对该多张目标图像进行卷积处理，因此可以得到多个特征图集合，该多个特征图集合的个数与该多个卷积层的个数相等。

在多个卷积层中，对于同一张目标图像，不同的卷积层输出的特征图不同，则得到的特征图集合也不同。在卷积模型中，该多个卷积层是按照预设顺序排列的，除第一个卷积层外，其他的卷积层均是将上一个卷积层的输出作为当前卷积层的输入，相应地，在一种可能实现方式中，该步骤202可以包括：

通过卷积模型中的第一个卷积层，对多张目标图像进行卷积处理，得到第一个卷积层输出的特征图集合，通过卷积模型中的下一个卷积层，对上一个卷积层输出的特征图集合中的每个特征图进行卷积处理，得到下一个卷积层输出的特征图集合，直至得到多个卷积层分别输出的特征图集合。

例如，该卷积模型包括4个卷积层，将该多张目标图像输入至该卷积模型中的第一个卷积层，通过该第一个卷积层，对多张目标图像进行卷积处理，得到第一个卷积层输出的第一特征图集合，第一特征图集合包括多张目标图像对应的第一特征图；将第一特征图集合输入至第二个卷积层，通过该第二个卷积层，对第一特征图集合中的每个第一特征图进行卷积处理，得到第二个卷积层输出的第二特征图集合，第二特征图集合包括多张目标图像对应的第二特征图；将第二特征图集合输入至第三个卷积层，通过该第三个卷积层，对第二特征图集合中的每个第二特征图进行卷积处理，得到第三个卷积层输出的第三特征图集合，第三特征图集合包括多张目标图像对应的第三特征图；将第三特征图集合输入至第四个卷积层，通过该第四个卷积层，对第三特征图集合中的每个第三特征图进行卷积处理，得到第四个卷积层输出的第四特征图集合，第四特征图集合包括多张目标图像对应的第四特征图，从而得到4个卷积层分别输出的特征图集合。

另外，对于多个卷积层分别输出的特征图集合，每个特征图可以表示为

其中，i表示目标图像的序号，i为大于0、且不大于N的整数；N表示多张目标图像的个数，N为大于1的整数；l为多个卷积层中任一个卷积层，该l为大于0、且不大于L的整数；L表示多个卷积层的个数，L为大于1的整数。

203、计算机设备分别将每个特征图集合中的多个特征图进行视角聚合，得到每个特征图集合对应的聚合特征。

在本申请实施例中，每个特征图集合中包括多个特征图，该多个特征图与该多张目标图像一一对应。由于不同的目标图像对应的视角不同，因此，通过对多个特征图进行视角聚合，将多个特征图转换成相同的视角，而后将具有相同的视角的多个特征图进行聚合，从而得到聚合特征，可以消除不同目标图像之间的视角差异。其中，在获取每个特征图集合对应的聚合特征时，采用Self-adaptive View Aggregation(自适应视角聚合)的方式，将多个特征图转换为相同视角下的特征图后进行融合。

在一种可能实现方式中，如图3所示，该步骤203可以包括以下步骤2031-2034：

2031、将多张目标图像中的任一张目标图像作为参考图像，将多张目标图像中的其他目标图像作为第一图像。

在本申请实施例中，参考图像可以为多张目标图像中的任一张图像。在获取多个特征图集合对应的聚合特征时，对于该多个特征图集合，将同一张目标图像作为参考图像，以保证获取到的多个特征图集合对应的聚合特征的一致性，从而提高了后续得到的深度图像的准确性。

其中，第一图像可以包括一个或者多个，如，目标图像的个数为2时，则第一图像的个数为一个；目标图像的个数为5时，则第一图像的个数为4个。

2032、确定特征图集合中，参考图像对应的参考特征图及第一图像对应的第一特征图。

由于该特征图集合中的多个特征图与多张目标图像一一对应，则可以从该多个特征图中确定出参考图像对应的参考特征图，及第一图像对应的第一特征图。

2033、按照第一图像与参考图像的拍摄视角的差异，将第一特征图进行视角转换，得到第二特征图。

其中，第二特征图对应的图像的视角与参考图像的视角相同。

由于该多张目标图像对应的视角不同，为了便于后续将多个特征图进行融合，需要按照第一图像与参考图像的拍摄视角的差异，对第一特征图进行转换，使转换后的特征图对应的视角与参考图像的视角相同，以消除图像拍摄视角的差异。

在一种可能实现方式中，该特征图集合中包括多个第一特征图，则对于该多个第一特征图中的任一第一特征图，按照该第一特征图对应的第一图像与参考图像的拍摄视角的差异，将该第一特征图进行视角转换，得到转换后的第二特征图。相应地，对于其他的第一特征图也可以采用类似的方式进行视角转换，因此可以得到多个第一特征图对应的第二特征图。

在一种可能实现方式中，该步骤2033可以包括以下步骤1-4：

步骤1：获取第一图像对应的第一拍摄参数及参考图像对应的参考拍摄参数。

其中，拍摄参数可以包括焦距、像素等。由于不同的目标图像对应的视角不同，视角是由摄像头的拍摄参数及摄像头与目标物体之间的相对位置共同决定的，因此，获取第一图像及参考图像对应的拍摄参数，以便后续通过拍摄参数对特征图像进行视角转换。

另外，拍摄参数可以是在拍摄目标物体时获取到的。例如，用户通过手机拍摄目标物体，手机传感器会记录下拍摄目标物体的拍摄参数，则获取到多张目标图像及每张目标图像对应的拍摄参数。

步骤2：确定输出特征图集合的卷积层对应的多个深度值。

其中，深度值用于表示拍摄目标物体时摄像头与目标物体之间的距离，例如，该多个深度值可以为0.1米、0.2米、0.3米和0.4米等。卷积层对应的多个深度值可以是预先设置的，也可以是根据深度范围及预设的深度值个数确定的，在该卷积模型中的多个卷积层中，不同卷积层对应的多个深度值不同。例如，在多个卷积层中，第一个卷积层对应的多个深度值为0.1米、0.2米、0.3米；第二个卷积层对应的多个深度值为0.1米、0.3米、0.5米。

对于确定多个深度值的方式，在一种可能实现方式中，确定输出该特征图集合的卷积层对应的深度层数，按照深度层数将预设深度范围进行划分，得到多个深度值。其中，深度层数可以由开发人员预先设置的，该深度层数可以是任意数值，如100、80等。预设深度范围用于表示拍摄得到多张目标图像时目标物体与摄像头之间的距离所属的范围，可以是预先设置的，也可以是根据多张目标图像进行预测得到的。如，该预设深度范围为(0，1)米，或者(1，2)米等。

通过深度层数及预设深度范围，对该预设深度范围进行划分，从预设深度范围中提取多个深度值。可选地，在该多个深度值中，任两个相邻的深度值之间差值相等，该多个深度值的个数与深度层数对应的数值相等。

对于确定深度层数的方式，可选地，多个卷积层按照预设顺序排列，确定输出该特征图集合的卷积层的排列顺序L，则该排列顺序L及深度层数D ^L满足以下关系：

其中，D ^L表示多个卷积层中排列顺序L的卷积层的深度层数。

对于将预设深度范围进行划分的方式，可选地，确定预设深度范围中最大深度值和最小深度值，将最大深度值与最小深度值之间的差值作为深度跨度，将深度层数减去1之后的数值作为第一数值，将深度跨度与该第一数值之间的比值作为深度间隔，在该预设深度范围中，从最小深度值开始，每相隔一个深度间隔确定一个深度值，则得到与深度层数相等个数的多个深度值。例如，预设深度范围为[1，9]米，深度层数为5，最大深度值为9米，最小深度值为1米，则深度跨度为8，第一数值为4，通过该深度跨度和第一数值，确定深度间隔为2，从最小深度值1开始，每相隔一个深度间隔2，确定一个深度值，则将该预设深度范围中的1、3、5、7、9均确定为深度值。

步骤3：根据第一拍摄参数与第二拍摄参数之间的差异，及多个深度值，确定与多个深度值对应的多个视角转换矩阵。

其中，视角转换矩阵用于对图像进行视角变换，可以将不同角度拍摄的图像都转换成同样的视角。该视角转换矩阵可以为HomographyMatrix(单应矩阵)，或者其他矩阵等。由于视角转换矩阵是通过两个图像的拍摄参数及深度值确定的，则根据第一拍摄参数、第二拍摄参数及多个深度值，可以确定多个视角转换矩阵，在该多个视角转换矩阵中，每个视角转换矩阵与一个深度值对应。

步骤4：根据多个视角转换矩阵，分别对第一特征图进行视角转换，得到转换后的多个第二特征图。

其中，第二特征图对应的视角与参考图像的视角相同。对于该第一特征图，利用每一个视角转换矩阵进行视角转换，则可以得到转换后的多个第二特征图。

在一种可能实现方式中，该特征图集合中包括多个第一特征图，对于每个第一特征图，确定每个第一特征图对应的多个视角转换矩阵，根据每个第一特征图对应的多个视角转换矩阵，分别对每个第一特征图进行视角转换，得到每个第一特征图更换后的多个第二特征图。

由于不同的目标图像的视角不同，视角是由摄像头的拍摄参数及摄像头与目标物体之间的相对位置共同决定的，且不同的第一特征图对应的多个深度值均为卷积层对应的多个深度值，则不同的第一特征图对应的第一拍摄参数不同，因此，不同的第一特征图对应的视角转换矩阵不同。通过获取每个第一特征图对应的多个视角转换矩阵，从而可以获取到每个第一特征图转换后的多个第二特征图。

例如，该特征图集合中包括3个第一特征图，输出该特征图集合的卷积层具有20个深度值，则可以为每个第一特征图确定20个视角转换矩阵，通过获取每个第一特征图对应的20视角转换矩阵，获取到每个第一特征图对应的转换后的20个第二特征图，因此，通过对3个第一特征图分别进行视角转换，可以得到60个第二特征图。

另外，本申请实施例中在对第一特征图进行视角转换时，可以通过Coarse-To-fine Depth Estimator(由稀疏到稠密的深度预测器)对第一特征图进行处理，该Coarse-To-fine Depth Estimator输出多个第二特征图。

2034、将参考特征图与第二特征图进行融合处理，得到聚合特征。

其中，该聚合特征用于表示多张目标图像对应的特征图集合的多维特征，如参考特征图与第二特征图均为一维的特征图，则将参考特征图与第二特征图进行融合得到二维特征图。由于得到的第二特征图对应的拍摄视角，与参考特征图对应的拍摄视角相同，则可以直接将参考特征图与第二特征图进行融合处理，从而得到聚合特征。

在一种可能实现方式中，第一图像包括多个，步骤2034可以包括以下步骤5-7：

步骤5：将第一数量的参考特征图进行融合处理，得到参考图像对应的参考特征卷。

其中，第一数量等于多个深度值的数量，参考特征卷用于表示参考图像对应的多维特征。

在本申请实施例中，为输出特征图集合的卷积层确定了多个深度值，则在对该特征图集合中的每个第一图像进行视角转换时，可以获取到每个第一图像对应的转换后的多个第二特征图，为了保证参考特征与每个第一特征图对应的多个第二特征图在数量上的一致性，便于后续对参考特征和第二特征进行融合处理，因此需要将第一数量的参考特征进行融合，得到参考特征卷。

对于融合处理的方式，在一种可能实现方式中，将第一数量的参考特征图进行堆叠，得到该参考特征卷。由于每个参考特征图属于一维的特征图，将第一数量的参考特征图进行堆叠，得到多维的参考特征卷。

步骤6：对于每个第一图像，将第一图像对应的第一特征图转换后的多个第二特征图进行融合处理，得到第一特征卷，将该第一特征卷与该参考特征卷之间的差值，确定为第二特征卷。

其中，第一特征卷用于表示第一图像对应的多维特征，第二特征卷用于表示第一图像与参考图像之间的差异对应的多维特征

对于任一第一图像，将该第一图像对应的第一特征图转换后的多个第二特征图进行融合处理，得到该第一图像对应的第一特征卷，相应地，对其他的第一图像对应的第一特征图转换后的多个第二特征图进行融合处理，从而得到多个第一图像中对应的第一特征卷。在该多个第一特征卷中，不同的第一图像对应的第一特征卷不同。

由于第一特征卷与参考特征卷均属于相同维度的多维特征，因此可以直接确定每个第一特征卷与参考特征卷之间的差值，从而得到多个第二特征卷。在该多个第二特征卷中，不同的第一图像对应的第二特征卷不同。

对于融合处理的方式，在一种可能实现方式中，对于任一第一图像，将该第一图像对应的多个第二特征图进行堆叠，得到该第一图像的第一特征卷。由于每个第二特征图属于一维的特征图，将多个第二特征图进行堆叠，得到多维的第二特征卷。

步骤7：将确定的多个第二特征卷进行融合处理，得到聚合特征。

其中，聚合特征用于表示多张目标图像对应的多维特征，该聚合特征为输出该特征图集合的卷积层对应的聚合特征。通过将多个第二特征卷进行融合处理，使得到的聚合特征消除了多张目标图像之间的视角的差异，融合了不同视角所拍摄到的物体，丰富了多个视角的物体的特征，从而构成了能全面表现物体的聚合特征。

对于多个第二特征卷进行融合处理的方式，在一种可能实现方式中，该步骤7可以包括：获取输出特征图集合的卷积层对应的权重矩阵，按照该权重矩阵，将多个第二特征卷进行加权融合处理，得到聚合特征。

其中，权重矩阵中包括卷积层输出的特征图中每个像素位置对应的权重。通过该权重矩阵，确定每个第二特征卷与该权重矩阵之间的乘积，将多个第二特征卷对应的乘积之和，与该多个第二特征卷的个数之间的比值，作为该聚合特征，使得在将多个第二特征卷进行融合处理时，融入了权重的影响，从而提高了得到的聚合特征的准确性。

该权重矩阵可以通过WeightNet(权重矩阵获取模型)训练得到，该WeightNet可以由多个卷积层和一个ResNet(Residual Network，深度残差网络)块组成。获取多个第二特征卷V′ _i,d,h,w中的最大尺度的第二特征卷max_pooling(||V′ _i,d,h,w|| ₁)，及多个第二特征卷V′ _i,d,h,w的平均特征卷avg_pooling(||V′ _i,d,h,w|| ₁)，将该最大尺度的第二特征卷max_pooling(||V′ _i,d,h,w|| ₁)与该平均特征卷avg_pooling(||V′ _i,d,h,w|| ₁)进行连接，得到连接数组f _h,w，通过该WeightNet对连接数据进行卷积处理，得到该权重矩阵U _h,w，则最大尺度的第二特征卷max_pooling(||V′ _i,d,h,w|| ₁)、该平均特征卷avg_pooling(||V′ _i,d,h,w|| ₁)、连接数组f _h,w及权重矩阵U _h,w满足以下关系：

U _h,w＝WeightNet(f _h,w)

f _h,w＝CONCAT[max_pooling(||V′ _i,d,h,w|| ₁),avg_pooling(||V′ _i,d,h,w|| ₁)]

其中，i表示多个第一图像中的任一第一图像，i为大于0、且小于等于N-1的正整数；N表示多张目标图像的个数，N为大于等于2的正整数；d表示多个深度值中的任一深度值，h表示特征图集合中的特征图的高度；w表示特征图集合中的特征图的宽度。

根据上述步骤5-7中的内容，可以采用Pixel-Wise View Aggregation(像素级视角聚合)的方式，将参考特征图与第二特征图进行融合处理，即在一种可能实现方式中，聚合特征、参考特征卷、第一特征卷、第二特征卷及权重矩阵，满足以下关系：

V′ _i,d,h,w＝V _i,d,h,w-V _0,d,h,w

其中，i表示第一图像的序号，i为大于0、且不大于N-1的正整数；N表示多张目标图像的个数，N为大于1的整数；d表示多个深度值中的任一深度值，h表示特征图集合中的特征图的高度，w表示特征图集合中的特征图的宽度；V′ _i,d,h,w表示第二特征卷，V _i,d,h,w表示第一特征卷，V _0,d,h,w表示参考特征卷，C _d,h,w表示聚合特征，U _h,w表示权重矩阵；⊙用于表示元素级乘法。

如图4所示，在获取到多个第二特征卷401后，确定最大尺度的第二特征卷402，及多个第二特征卷401的平均特征卷403，通过权重矩阵获取模型404，获取权重矩阵405，根据该权重矩阵405，对多个第二特征卷401进行卷积处理，得到聚合特征406。

根据上述步骤5-7中的内容，可以采用Voxel-Wise View Aggregation(体素级视角聚合)的方式，将参考特征图与第二特征图进行融合处理，即在一种可能实现方式中，聚合特征、参考特征卷、第一特征卷、第二特征卷及权重矩阵，满足以下关系：

V′ _i,d,h,w＝V _i,d,h,w-V _0,d,h,w

其中，i表示第一图像的序号，i为大于0、且小于等于N-1的正整数；N表示多张目标图像的个数，N为大于1的整数；d表示多个深度值中的任一深度值，h表示特征图集合中的特征图的高度；w表示特征图集合中的特征图的宽度；V′ _i,d,h,w表示第二特征卷，V _i,d,h,w表示第一特征卷，V _0,d,h,w表示参考特征卷，C _d,h,w表示聚合特征，U _d,h,w表示与深度值d对应的权重矩阵；⊙用于表示元素级乘法。

如图5所示，在获取到多个第二特征卷501后，将该多个第二特征卷501，输入至与深度值d对应的权重矩阵获取模型502，得到权重矩阵503，根据该权重矩阵503，对多个第二特征卷501进行卷积处理，得到聚合特征504。

需要说明的是，本申请实施例是以在获取到多个卷积层分别输出的特征图集合后，直接将每个特征图集合中的多个特征图进行视角聚合进行说明的，而在另一实施例中，在执行步骤203之前，需要对获取到的多个卷积层分别输出的特征图集合中的特征图进行采样，使每个特征图的维度为一维，以便后续将每个特征图集合中的特征图进行融合。

204、计算机设备将得到的多个聚合特征进行融合处理，得到深度图像。

其中，深度图像中包括目标物体的深度值。由于每个卷积层输出的特征图不同，不同的特征图包含的信息量不同，则通过多个卷积层，得到的多个聚合特征中不同的聚合特征包含不同的信息，因此，将多个聚合特征进行融合处理，丰富了特征图的信息量，从而提高了得到的深度图像的准确性。

由于每个聚合特征中包括多维特征，在对多个聚合特征进行融合处理时，将每个聚合特征的多维特征进行融合，可以得到深度图像。

205、计算机设备对深度图像进行转化处理，得到点云数据。

其中，点云数据为由三维坐标系下的多个点构成的数据。对深度图像进行转化处理时，根据深度图像中任一像素对应的深度值，在三维坐标系中创建一个点，则通过深度图像中多个像素的深度值，可以得到多个点，从而构成点云数据。

206、计算机设备对点云数据进行聚合处理，得到目标物体的三维模型。

由于点云数据中的多个点是处于离散状态的，通过对点云数据进行聚合处理，将点云数据中的多个点进行连接，从而得到该目标物体的三维模型。

在一种可能实现方式中，该步骤206可以包括：对点云数据进行过滤处理，得到过滤后的点云数据，对过滤后的点云数据进行聚合处理，得到目标物体的三维模型。

由于生成的点云数据中会存在噪声的影响，通过对点云数据中的噪声进行过滤处理，提高了过滤后的点云数据的准确性，从而提高了得到的三维模型的准确性。

需要说明的是，本申请实施例以使生成三维模型进行说明的，而在另一实施例中，无需执行步骤205-206，得到深度图像即可。

相关技术中提供了一种深度图像生成方法，通过卷积模型中的多个卷积层，对拍摄的物体图像进行多级卷积处理，得到最后一个卷积层输出的特征图，对该特征图进行卷积处理，得到物体的深度图像。由于上述方法在获取深度图像的过程中，仅是使用了最后一个卷积层输出的特征图，该特征图的信息量较少，导致深度图像的准确性差。

本申请实施例提供的方法，获取多张目标图像，该多张目标图像是按照不同视角拍摄目标物体分别得到的，通过卷积模型中的多个卷积层，对多张目标图像进行多级卷积处理，得到多个卷积层分别输出的特征图集合，分别将每个特征图集合中的多个特征图进行视角聚合，得到每个特征图集合对应的聚合特征，将得到的多个聚合特征进行融合处理，得到深度图像。获取的多张目标图像是按照不同视角拍摄目标物体分别得到的，使得到的多张目标图像中包括目标物体不同角度的信息，丰富了获取到的目标图像的信息量，且通过多个卷积层的多级卷积处理，得到多个不同的特征图集合，丰富了特征图的信息量，将多个卷积层输出的特征图进行融合处理，丰富了得到的深度图像中包含的信息量，从而提高了得到的深度图像的准确性。

在上述实施例的基础上，在一种可能实现方式中，参见图6，上述步骤204可以包括以下步骤2041-2046：

2041、计算机设备将多个聚合特征中最大尺度的聚合特征作为第一聚合特征，将多个聚合特征中其他的多个聚合特征作为第二聚合特征。

在本申请实施例中，该卷积模型中的多个卷积层输出的特征图的尺度依次减小，由于聚合特征是由特征图融合处理得到的，则多个卷积层对应的聚合特征的尺度依次减小，因此，通过该多个卷积层可以获取到多个尺度的聚合特征。

其中，特征图的尺度包括特征图的高度和特征图的宽度，尺度越大，高度和宽度越大；尺度越小，高度和宽度越小。由于每个特征图的维度为1，将多个特征图融合处理后得到的聚合特征为多维特征，该聚合特征的尺度包括特征图的高度、特征图的宽度及维度数，该维度数与该聚合特征对应的特征图集合中的特征图的个数相等。由于在多个卷积层中，多个卷积层输出的特征图的尺度依次减小，则多个卷积层对应的多个聚合特征的尺度依次减小。

2042、计算机设备将第一聚合特征进行多级卷积处理，得到多个第三聚合特征。

其中，多个第三聚合特征的尺度与多个第二聚合特征的尺度一一对应。通过将第一聚合特征进行多次卷积处理，使得第一聚合特征的尺度缩小，得到多个第三聚合特征。

在一种可能实现方式中，通过多个卷积层对第一聚合特征进行多级卷积处理，通过第一个卷积层对第一聚合特征进行卷积处理，得到第一个第三聚合特征，通过下一个卷积层对上一个卷积层输出的第三聚合特征进行卷积处理，得到下一个卷积层输出的第三聚合特征，直至最后一个卷积层输出最后一个第三聚合特征。

2043、计算机设备将第一尺度的第二聚合特征与第一尺度的第三聚合特征进行融合处理，将融合后的特征进行反卷积处理，得到第二尺度的第四聚合特征。

其中，第一尺度为多个第二聚合特征的最小尺度，第二尺度为第一尺度的上一级尺度。

由于第二聚合特征的尺度与第三聚合特征的尺度相等，则将第一尺度的第二聚合特征与第一尺度的第三聚合特征进行融合处理，得到的融合后的特征的尺度为第一尺度，将融合后的特征进行反卷积处理，使得融合后的特征的尺度增大，从而得到第二尺度的第四聚合特征。

2044、计算机设备继续将当前得到的第四聚合特征、与第四聚合特征尺度相等的第二聚合特征和第三聚合特征进行融合处理，将融合后的特征进行反卷积处理，得到上一级尺度的第四聚合特征，直至得到与第一聚合特征尺度相等的第四聚合特征。其中，融合后的特征与当前得到的第四聚合特征的尺度相等。

在多个第三聚合特征中，除第一尺度的第三聚合特征外，还包括多个第三聚合特征时，按照尺度由小到大的顺序，则多次执行步骤2044，多次执行步骤2044后得到的第四聚合特征的尺度依次增大，从而能够得到最大尺度的第四聚合特征，也即是得到与第一聚合特征尺度相等的第四聚合特征。

例如，多个第三聚合特征的个数为4，通过第一尺度的第二聚合特征和第一尺度的第三聚合特征，得到第二尺度的第四聚合特征后；将第二尺度的第四聚合特征、第二尺度的第二聚合特征及第二尺度的第三聚合特征进行融合处理，将融合后的特征进行反卷积处理，得到第三尺度的第四聚合特征；将第三尺度的第四聚合特征、第三尺度的第二聚合特征及第三尺度的第三聚合特征进行融合处理，将融合后的特征进行反卷积处理，得到第四尺度的第四聚合特征；将第四尺度的第四聚合特征、第四尺度的第二聚合特征及第四尺度的第三聚合特征进行融合处理，将融合后的特征进行反卷积处理，得到第五尺度的第四聚合特征，该第五尺度与第一聚合特征的尺度相等。

在一种可能实现方式中，该步骤2044可以包括：继续将当前得到的第四聚合特征、与第四聚合特征尺度相等的第二聚合特征和第三聚合特征、及第二聚合特征的概率图进行融合处理，将融合后的特征进行反卷积处理，得到上一级尺度的第四聚合特征。

按照尺度由小到大的顺序，将相同尺度的第二聚合特征、第三聚合特征、第四聚合特征及该第二聚合特征对应的概率图进行融合处理，对融合后的特征进行反卷积处理，重复执行上述步骤，从而能够最大尺度的第四聚合特征，该最大尺度与第一聚合特征的尺度相等。

由于概率图中包括第二聚合特征中的每个像素位置对应的概率，则在获取多个第四聚合特征时，通过融入第二聚合特征的概率图，使得多个聚合特征进行融合时考虑到了概率对各个像素位置的影响，从而提高了得到的第四聚合特征的准确性，以使后续能够提高得到的深度图像的准确性。

2045、计算机设备将当前得到的第四聚合特征与第一聚合特征进行融合处理，得到第五聚合特征。

由于第四聚合特征的尺度与第一聚合特征的尺度相等，则将第四聚合特征与第一聚合特征进行融合处理，使融合后的第五聚合特征与第一聚合特征的尺度相等。且通过每个卷积层输出的特征图集合对应有聚合特征，则将多个卷积层对应的聚合特征进行融合，使得到的第五聚合特征中包括多个卷积层输出的特征图的特征，增加了第五聚合特征包括的信息量，从而提高了获取到的第五聚合特征的准确性。

2046、计算机设备根据第五聚合特征与第一聚合特征对应的概率图进行卷积处理，得到深度图像。

其中，概率图用于表示第一聚合特征中每个像素位置对应的概率，每个概率用于表示每个像素位置对应的深度值正确的概率。该概率图可以由概率图获取模型对该第一聚合特征进行卷积处理得到的，该概率图获取模型可以包括一个编码器和一个解码器，通过编码器对第一聚合特征进行编码，而后通过解码器进行解码得到该概率图，该概率图获取模型可以为3D CNN(3Dimension Convolutional Neural Networks，三维卷积神经网络)模型，或者其他神经网络模型。

由于第五聚合特征的尺度与该第一聚合特征的尺度相等，则第五聚合特征中每个像素位置与第一聚合特征中的每个像素位置一一对应，则第五聚合特征中的每个像素位置，与该概率图中的概率一一对应，因此将该第五聚合特征与该概率图进行卷积处理，从而得到深度图像，通过在聚合特征中融入对应的概率，以提高得到的深度图的准确性。

对于将第五聚合特征与该概率图进行卷积处理的方式，在一种可能实现方式中，与该第一聚合特征对应的卷积层对应多个深度值，该第一聚合特征是由多个第二特征图与参考特征图融合处理得到的，且每个第二特征图对应一个深度值，则该第五聚合特征中包括多个特征图，该多个特征图的个数与多个深度值的个数相等；则该步骤2046可以包括：确定该第五聚合特征中每个特征图对应的深度值，根据第一聚合特征对应的概率图，确定该每个特征图对应的概率，将多个特征图对应的深度值及多个特征图对应的概率进行加权处理，得到预测深度，通过该预测深度构成深度图像。

对于上述加权处理的方式，每个特征图对应的深度值d、每个特征图对应的概率P及预测深度E，满足以下关系：

其中，d _min表示多个深度值中的最小值；d _max表示多个深度值中的最大值；P(d)表示深度值d对应的概率。

需要说明的是，上述实施例中通过多张目标图像获取深度图像的过程，可以通过深度图像生成模型来实现，通过将多张目标图像输入至该深度图像生成模型中，该深度图像生成模型对多张目标图像进行处理，输出深度图像。其中，该深度图像生成模型可以为VA-MVSNet(View Aggregation Mult-view StereoNetwork，一种网络模型)或者其他网络模型。

在对该深度图像生成模型进行训练时，获取多个样本图像及对应的深度图像，将样本图像作为深度图像生成模型的输入，将该深度图像作为该深度图像生成模型的输出，对该深度图像获取模型进行迭代训练。

例如，通过DTU(Technical University of Denmark，丹麦技术大学)数据集对深度图像获取模型进行训练，样本图像的数目为3，每个样本图像的分辨率为640x512，预设深度范围从425毫米到935毫米，深度层数为192层。该深度图像生成模型采用初始学习率为0.1，衰减参数为0.9的Adam(一种优化算法)训练深度图像生成模型，对该深度图像生成模型中的权重矩阵w和偏置参数b进行调整，在每次迭代过程中，将输出的深度图像与真实的深度图像进行对比，得到预测结果误差，根据该预测结果误差对深度图像生成模型的参数进行调整，以使该深度图像生成模型的损失函数之和可以减小。在通过多个尺度的样本图像对该深度图像生成模型进行训练时，每个尺度损失函数参数λ分别为{0.32，0.16，0.04，0.01}，多个尺度的数目为4，以及DTU数据集中GPU(Graphics Processing Unit，图形处理器)数目也为4。

另外，在对深度图像生成模型进行训练的过程中，需要对该深度图像生成模型进行测试。例如，在测试时，输入图片数目为5，深度层数为192，金字塔层数为3，降采样参数为0.5。在DTU数据集上对深度图像生成模型进行测试时，输入图片尺度为1600x1184；在Tanks and Tempers(一种数据集)上对深度图像生成模型进行测试时，输入图片尺度为1920x1056。

在对该深度图像获取模型进行训练的过程中，可以根据该深度图像获取模型的损失函数之和，对该深度图像获取模型进行训练，当该损失函数之和达到预设阈值时，完成对该深度图像获取模型的训练。该损失函数之和可以表示为E，满足以下关系：

其中，l为多个卷积层中任一个卷积层，该l为大于0、且不大于L的整数；l ₁为多个卷积层中第一个卷积层；L用于表示获取特征图的多个卷积层的个数；λ _l为卷积层l对应的损失函数参数；x为深度图像中每个像素，X _valid为每个深度图像中包含的所有像素；d ^l(x)表示像素x的真实深度，

表示像素x的预设深度。

如图7所示，该深度图像生成模型包括第一卷积模型701、第二卷积模型702、第三卷积模型703和第四卷积模型704。第一卷积模型701与上述步骤202中的卷积模型相同，用于获取目标图像的特征图，将每个第一卷积层7011输出的特征图集合输入至第二卷积模型702；第二卷积模型702对每个特征图集合进行视角聚合，输出第一聚合特征705和第二聚合特征706；第三卷积模型703通过多个第二卷积层7031对第一聚合特征705进行多级卷积处理，得到多个第三聚合特征707；第四卷积模型704通过多个第三卷积层7041，执行上述步骤2043-2046，输出深度图像708。

图8是本申请实施例提供的一种深度图像生成方法的流程图，如图8所示，该方法包括：

801、计算机设备按照多个不同的视角拍摄目标物体，得到多张原始图像，将多张原始图像确定为目标图像集合。

该步骤与上述步骤201中获取原始图像的方式类似，在此不再赘述。

802、计算机设备对多张原始图像进行多轮尺度调整，得到多组目标图像集合。

其中，每组目标图像集合包括同一尺度的多张目标图像，不同目标图像集合中的目标图像的尺度不同。

对多张原始图像进行尺度调整可以为：将多张原始图像进行缩小，得到更小尺度的多张目标图像；或者多张原始图像进行放大，得到更大尺度的多张目标图像。由于多张原始图像的尺度相等，则在每轮对多张原始图像进行尺度调整后，得到的多张目标图像的尺度相等，不同轮尺度调整得到的目标图像的尺度不同。

对于多轮尺度调整，在一种可能实现方式中，对多张原始图像进行第一轮尺度调整，得到第一组目标图像集合，对上一轮得到的目标图像集合的多张目标图像进行下一轮尺度调整，得到下一组目标图像集合，直至得到多组目标图像集合。

例如，该多轮包括3轮，对多张原始图像进行第一轮尺度调整，得到第一组目标图像集合，对第一组目标图像集合中的多张目标图像进行第二轮尺度调整，得到第二组目标图像集合，对第二组目标图像集合中的多张目标图像进行第三轮尺度调整，得到第三组目标图像集合。

另外，通过步骤801-802得到的多组目标图像集合，可以构成图像金字塔。在图像金字塔中，最底层的图像的尺度最大，随着图像金字塔中层级的增加，相应的层级中的图像的尺度减小。多张原始图像对应的目标图像集合即为该图像金字塔的最底层，对该多张原始图像进行第一轮尺度调整，得到该最底层的上一层的目标图像集合，对上一层的目标图像集合进行一轮尺度调整，得到更上一层的目标图像集合，重复多轮尺度调整，即可构成包含预设数量层目标图像集合的图像金字塔。

803、计算机设备对于多组目标图像集合，分别执行上述步骤201-208，得到每组目标图像集合对应的深度图像。

由于多组目标图像集合中，每组目标图像集合包括多张目标图像，则分别将每组目标图像集合中的多张目标图像，作为上述步骤201中的多张目标图像，对该多张目标图像进行处理，得到每组目标图像集合对应的深度图像，即得到多个深度图像。

由于不同目标图像集合中的图像的尺度不同，则不同组的目标图像集合对应的深度图像的尺度不同，即对于多组目标图像集合，得到多个尺度的深度图像。

804、计算机设备将多组目标图像集合对应的深度图像进行融合处理，得到融合后的深度图像。

由于多组目标图像集合对应的深度图像的尺度不同，不同尺度的深度图像中包含的深度值不同，尺度越大的深度图像包含的深度值越多，因此，在将多个尺度的深度图像进行融合处理时，可以按照尺度由小到大的顺序，依次将多个尺度的深度图像进行融合。通过将多个尺度的深度图像进行融合，丰富了融合后的深度图像的深度值，从而提高了融合后的深度图像的准确性。

对于将多组目标图像集合对应的深度图像进行融合处理的方式，在一种可能实现方式中，该步骤804可以包括：由最小尺度的深度图像开始，将当前深度图像中满足预设条件的第一像素的深度值，替换上一尺度的深度图像中与第一像素对应的第二像素的深度值，直至替换最大尺度的深度图像中的深度值后，得到最大尺度的深度图像替换深度值后的深度图像。其中，深度图像中包括多个像素，每个像素对应有深度值。

在相邻的两个尺度的深度图像中，第一像素与第二像素对应，表示第一像素与第二像素对应的位置相同，满足预设条件是指第一像素的深度值比第二像素的深度值更准确。因此，将小尺度的深度图像中准确率高的第一像素的深度值，替换上一尺度的深度图像中第二像素的深度值，从而使得替换后的上一尺度的深度图像中的各个像素的深度值更准确。按照深度图像的尺度由小到大的顺序，依次以小尺度的深度图像中的第一像素替换上一尺度的第二像素的深度值，多次替换处理后，使得到的最大尺度的深度图像中的各个像素的深度值更准确，从而提高了获取到的深度图像的准确性。

通过获取到多组图像集合对应的深度图像，即得到的多个尺度深度图像构成深度图的图像金字塔，通过Multi-metric Pyramid Depth Map Aggregation(多尺度度量金字塔深度图聚合)，将多个尺度的深度图像进行融合，得到融合后的深度图像。

对于确定相邻尺度的深度图像中对应的像素的方式，在一种可能实现方式中，可以包括以下步骤：

步骤1：对于相邻尺度的第一深度图像和第二深度图像，根据第一深度图像与第二深度图像之间的像素映射关系，将第二深度图像中任一第二像素映射到第一深度图像中，得到第一像素。其中，第二深度图像的尺度大于第一深度图像的尺度。

其中，像素映射关系中包括第一深度图像中多个像素与第二深度图像中多个像素之间的对应关系。由于第一深度图像和第二深度图像均是通过多张目标图像得到的，不同的深度图像对应的目标图像的尺度不同，而不同尺度的目标图像中均是通过对原始图像进行尺度调整得到的，因此可以确定第一深度图像与第二深度图像中多个像素之间的对应关系，从而可以获取到第一深度图像与第二深度图像之间的像素映射关系。

由于第一深度图像的尺度小于第二深度图像的尺度，在确定第一深度图像与第二深度图像中多个像素之间的像素映射关系时，第一深度图像中包含的像素个数与第二深度图像中包含的像素个数相同，则第一深度图像中每个第一像素的尺寸小于第二深度图像中每个第二像素的尺寸。第一深度图像中包含的像素的尺寸与第二深度图像中包含的像素的尺寸相等，则第一深度图像中第一像素的个数小于第二深度图像中第二像素的个数，每个第一像素对应多个第二像素。

步骤2：根据像素映射关系，将第一像素反映射到第二深度图像中，得到第三像素。

在本申请实施例中，通过大尺度的深度图像中的像素，确定小尺度的深度图像中对应的像素的过程为映射过程；通过小尺度的深度图像中的像素，确定大尺度的深度图像中对应的像素的过程称为反映射过程。由于第一深度图像与第二深度图像的尺度不同，无法保证第一深度图像中与第二深度图像中的像素一一对应，因此通过第二深度图像中的第二像素映射到第一深度图像时，得到第一像素，则再将第一像素反映射到第二深度图像时，得到的第三像素与第二像素之间会产生差异，使得到的第三像素与第二像素不同。

步骤3：响应于第一像素与第三像素之间的距离小于第一预设阈值，确定第一像素与第二像素对应。

其中，第一预设阈值可以为预设的任意数值，如1、2等。第一像素与第三像素之间的距离小于第一预设距离，表示第一像素与第二像素之间满足图像一致性，因此可以确定第一像素与第二像素对应。

在确定第一像素与第三像素之间的距离时，可以在第一深度图像中，根据第一像素的坐标值与第三像素的坐标值，确定第一像素与第三像素之间的距离。在确定第一像素与第二像素对应时，该第一像素的坐标值P ₁、第三像素的坐标值P ₃满足以下关系：

||P ₁-P ₃|| ₂＜M

其中，M为任意的常数，如M为1。

对于确定第一像素与第二像素对应的方式，在一种可能实现方式中，该步骤3可以包括：响应于距离小于第一预设阈值，且第一像素与第三像素对应的深度值之间的差异数值小于第二预设阈值，确定第一像素与第二像素对应。

其中，第二预设阈值可以为预设的任意数值。第一像素与第三像素之间的距离小于第一预设距离，表示第一像素与第二像素之间满足图像一致性，第一像素与第三像素对应的深度值之间的差异数值小于第二预设阈值，表示第一像素与第二像素之间满足几何一致性，因此可以确定第一像素与第二像素对应。

在第一深度图像及第二深度图像中，每个像素均具有对应的深度值。第一像素与第三像素对应的深度值之间的差异数值小于第二预设阈值时，则第一像素对应的深度值D(P ₁)、第三像素对应的深度值d ₃满足以下关系：

||D(P ₁)-d ₃|| ₂＜0.01·D(P ₁)

对于确定第一像素满足预设条件的方式，在一种可能实现方式中，响应于第一像素的深度值对应的概率大于第二预设阈值，且第二像素的深度值对应的概率小于第三预设阈值，确定第一像素满足预设条件。

其中，第二预设阈值和第三预设阈值均可以是预设的任意数值，如第二预设阈值为0.9，第三预设阈值为0.5。第一像素的深度值对应的概率大于第二预设阈值，且第二像素的深度值对应的概率小于第三预设阈值，表示第一像素的深度值比第二像素的深度值的准确性高，因此，确定第一像素满足预设条件，后续可以将第一像素的深度值替换第二像素的深度值。

在第一像素满足预设条件时，第一像素的深度值对应的概率P(P ₁)、第二像素的深度值对应的概率P(P ₂)，满足以下关系：

P(P ₁)＞Y，P(P ₂)＜Z

其中，Y为第二预设阈值、Z为第三预设阈值，Y、Z均为任意的常数，且Z小于Y，如Y为0.9，Z为0.5。

另外，在确定深度图像中每个像素对应的概率时，通过上述步骤2046可知，根据第五聚合特征中每个特征图对应的深度值，及第一聚合特征对应的概率图，

第五聚合特征中的每个像素位置，与该概率图中的概率一一对应，则可以确定该每个特征图对应的概率，即可确定每个深度值对应的概率；对于深度图像中的任一像素，根据该任一像素在该深度图像中的预测深度，及第五聚合特征中的特征图对应的多个深度值，从该多个深度值中确定的预设数目的深度值，将该预设数目的深度值对应的概率之和，确定为该深度图像中该像素的概率。其中，预设数目的深度值，为该多个深度值中，与该预测深度值最相近的预设数目的深度值。该预设数目可以为预设的任意数值，如4或5等。

例如，对于深度图像中的任一像素，在深度图像中的预设深度为1，预设数目为4，多个深度值为0.2,、0.4、0.6、0.8、1.2、1.4、1.6、1.8，则根据该预设深度1，确定相邻的预设数目的深度值为0.6、0.8、1.2、1.4，则将该预设数目分别对应的概率相加之和，作为该深度图像中该像素的概率。

如图9所示，对于相邻的两个尺度的深度图像，第一深度图像901的尺度小于第二深度图像902的尺度，该第一深度图像901是通过其他多个尺度的深度图像融合后得到的，确定第一深度图像901对应的第一概率图903，及第二深度图像902对应的第二概率图904，根据第一概率图903及第二概率图904，将第一深度图像901和第二深度图像902进行融合，将第一深度图像901中满足预设条件的第一像素的深度值，替换第二深度图像902中与第一像素对应的第二像素的深度值，得到第三深度图像905，该第三深度图像903的尺度与第二深度图像902的尺度相等，且，将第一概率图903中与第一像素对应的概率，替换第二概率图像904与第二像素对应的概率，生成第三深度图像905对应的第三概率图906。

805、计算机设备对深度图像进行转化处理，得到点云数据。

该步骤与上述步骤205类似，在此不再赘述。

806、计算机设备对点云数据进行聚合处理，得到目标物体的三维模型。

该步骤与上述步骤206类似，在此不再赘述。

需要说明的是，本申请实施例仅是以多张目标图像中任一目标图像作为参考图像进行说明的，而在另一实施例中，分别将多张目标图像中每一张目标图像分别作为参考图像，重复执行步骤801-805，从而得到多个点云数据，则在执行步骤806时，将多个点云数据进行聚合处理，得到目标物体的三维模型。

并且，通过将多个尺度的深度图像进行融合处理，将低尺度的深度图像中的准确性高的深度值替换到高尺度的深度图像中，提高了深度图像的准确性，从而提高了获取到的三维模型的准确性。

并且，将多张目标图像中每张目标图像均作为参考图像，获取到多个点云数据，将多个点云数据进行聚合处理，丰富了点云数据包含的信息，从而提高了获取到的三维模型的准确性。

如图10所示，获取多张原始图像，将多张原始图像确定为第一目标图像集合1001，对第一目标图像集合进行两轮尺度调整，分别得到第二目标图像集合1002和第三目标图像集合1003，将每个目标图像集合分别输入至深度图像生成模型1004，得到多个尺度的深度图像1005，将多个深度图像进行融合，得到融合后的深度图像1006，对融合后的深度图像1006进行转化处理，对得到的点云数据进行聚合处理，得到目标物体的三维模型1007。

需要说明的是，本申请实施例中步骤801-804可以通过网络模型来实现，通过将多张原始图像输入至该网络模型中，该网络模型对多张原始图像进行处理，得到多组目标图像集合，获取每组目标图像集合对应的深度图像，将多个深度图像进行融合，输出融合后的深度图像。其中，该网络模型可以为PVA-MVSNet(PyramidView AggregationMulti-view Stereo Network，金字塔多视角立体几何神经网络模型)，或者其他网络模型。

图11是本申请实施例提供的一种生成三维模型的流程图，如图11所示，该方法包括：

1、用户通过终端的摄像头，按照不同视角对目标物体进行拍摄，得到多张原始图像。

2、终端通过传感器，确定每张原始图像对应的拍摄参数。

3、终端将多张原始图像及对应的拍摄参数输入至深度图像生成模型中，该深度图像生成模型输出目标物体的深度图像。

4、终端将深度图像进转换成点云数据，对点云数据进行过滤处理，将过滤后的点云数据进行融合，得到目标物体的三维模型。

5、终端显示该目标物体的三维模型。

图12是本申请实施例提供的一种深度图像生成装置的结构示意图，如图12所示，该装置包括：

图像获取模块1201，用于获取多张目标图像，多张目标图像是按照不同视角拍摄目标物体分别得到的，；

卷积处理模块1202，用于通过卷积模型中的多个卷积层，对多张目标图像进行多级卷积处理，得到多个卷积层分别输出的特征图集合；

视角聚合模块1203，用于分别将每个特征图集合中的多个特征图进行视角聚合，得到每个特征图集合对应的聚合特征；

特征融合模块1204，用于将得到的多个聚合特征进行融合处理，得到深度图像。

本申请实施例提供的装置，获取多张目标图像，该多张目标图像是按照不同视角拍摄目标物体分别得到的，通过卷积模型中的多个卷积层，对多张目标图像进行多级卷积处理，得到多个卷积层分别输出的特征图集合，分别将每个特征图集合中的多个特征图进行视角聚合，得到每个特征图集合对应的聚合特征，将得到的多个聚合特征进行融合处理，得到深度图像。获取的多张目标图像是按照不同视角拍摄目标物体分别得到的，使得到的多张目标图像中包括目标物体不同角度的信息，丰富了获取到的目标图像的信息量，且通过多个卷积层的多级卷积处理，得到多个不同的特征图集合，丰富了特征图的信息量，将多个卷积层输出的特征图进行融合处理，丰富了得到的深度图像中包含的信息量，从而提高了得到的深度图像的准确性。

可选地，如图13所示，卷积处理模块1202，包括：

卷积处理单元1221，用于通过卷积模型中的第一个卷积层，对多张目标图像进行卷积处理，得到第一个卷积层输出的特征图集合，特征图集合包括多张目标图像对应的特征图；

卷积处理单元1221，还用于通过卷积模型中的下一个卷积层，对上一个卷积层输出的特征图集合中的每个特征图进行卷积处理，得到下一个卷积层输出的特征图集合，直至得到多个卷积层分别输出的特征图集合。

可选地，如图13所示，视角聚合模块1203，包括：

图像确定单元1231，用于将多张目标图像中的任一张目标图像作为参考图像，将多张目标图像中的其他目标图像作为第一图像；

对于任一特征图集合进行如下处理：

特征图确定单元1232，用于确定特征图集合中，参考图像对应的参考特征图及第一图像对应的第一特征图；

视角转换单元1233，用于按照第一图像与参考图像的拍摄视角的差异，将第一特征图进行视角转换，得到转换后的第二特征图；

第一融合处理单元1234，用于将参考特征图与第二特征图进行融合处理，得到聚合特征。

可选地，视角转换单元1233，还用于获取第一图像对应的第一拍摄参数及参考图像对应的参考拍摄参数；确定输出特征图集合的卷积层对应的多个深度值；根据第一拍摄参数与第二拍摄参数之间的差异，及多个深度值，确定与多个深度值对应的多个视角转换矩阵；根据多个视角转换矩阵，分别对第一特征图进行视角转换，得到转换后的多个第二特征图。

可选地，视角转换单元1233，还用于确定输出特征图集合的卷积层对应的深度层数；按照深度层数将预设深度范围进行划分，得到多个深度值。

可选地，视角转换单元1233，还用于将第一数量的参考特征图进行融合处理，得到参考图像对应的参考特征卷，第一数量等于多个深度值的数量；对于每个第一图像，将第一图像对应的第一特征图转换后的多个第二特征图进行融合处理，得到第一特征卷，将第一特征卷与参考特征卷之间的差值确定为第二特征卷；将确定的多个第二特征卷进行融合处理，得到聚合特征。

可选地，视角转换单元1233，还用于获取输出特征图集合的卷积层对应的权重矩阵，权重矩阵中包括卷积层输出的特征图中每个像素位置对应的权重；按照权重矩阵，将多个第二特征卷进行加权融合处理，得到聚合特征。

可选地，聚合特征、参考特征卷、第一特征卷、第二特征卷及权重矩阵，满足以下关系：

V′ _i,d,h,w＝V _i,d,h,w-V _0,d,h,w

其中，i表示第一图像的序号，i为大于0、且小于等于N-1的正整数；N表示多张目标图像的个数，N为大于1的整数；d表示多个深度值中的任一深度值，h表示特征图集合中的特征图的高度；w表示特征图集合中的特征图的的宽度；V′ _i,d,h,w表示第二特征卷，V _i,d,h,w表示第一特征卷，V _0,d,h,w表示参考特征卷，C _d,h,w表示聚合特征，U _d,h,w表示与深度值d对应的权重矩阵；⊙用于表示元素级乘法。

可选地，多个卷积层输出的特征图的尺度依次减小；如图13所示，特征融合模块1204，包括：

聚合特征确定单元1241，用于将多个聚合特征中最大尺度的聚合特征作为第一聚合特征，将多个聚合特征中其他的多个聚合特征作为第二聚合特征；

卷积处理单元1242，用于将第一聚合特征进行多级卷积处理，得到多个第三聚合特征，多个第三聚合特征的尺度与多个第二聚合特征的尺度一一对应；

反卷积处理单元1243，用于将第一尺度的第二聚合特征与第一尺度的第三聚合特征进行融合处理，将融合后的特征进行反卷积处理，得到第二尺度的第四聚合特征，第一尺度为多个第二聚合特征的最小尺度，第二尺度为第一尺度的上一级尺度；

反卷积处理单元1243，还用于继续将当前得到的第四聚合特征、与第四聚合特征尺度相等的第二聚合特征和第三聚合特征进行融合处理，将融合后的特征进行反卷积处理，得到上一级尺度的第四聚合特征，直至得到与第一聚合特征尺度相等的第四聚合特征；

第二融合处理单元1244，用于将当与第一聚合特征尺度相等的第四聚合特征与第一聚合特征进行融合处理，得到第五聚合特征；

卷积处理单元1242，还用于根据第一聚合特征对应的概率图，将第五聚合特征进行卷积处理，得到深度图像。

可选地，反卷积处理单元1243，还用于继续将当前得到的第四聚合特征、与第四聚合特征尺度相等的第二聚合特征、第三聚合特征、及第二聚合特征的概率图进行融合处理，将融合后的特征进行反卷积处理，得到上一级尺度的第四聚合特征。

可选地，如图13所示，图像获取模块1201，包括：

第一图像获取单元12011，用于按照多个不同的视角拍摄目标物体，得到多张目标图像；或者，

第二图像获取单元12012，用于按照多个不同的视角拍摄目标物体，得到多张原始图像；

尺度调整单元12013，用于对多张原始图像进行尺度调整，得到多张原始图像调整后的多张目标图像，多张目标图像的尺度相等。

可选地，尺度调整单元12013，还用于对多张原始图像进行多轮尺度调整，得到多组目标图像集合，每组目标图像集合包括同一尺度的多张目标图像，不同目标图像集合中的目标图像的尺度不同；

装置还包括：融合处理模块1205，用于将多组目标图像集合对应的深度图像进行融合处理，得到融合后的深度图像。

可选地，如图13所示，融合处理模块1205，包括：

第三融合处理单元1251，用于由最小尺度的深度图像开始，将当前深度图像中满足预设条件的第一像素的深度值，替换上一尺度的深度图像中与第一像素对应的第二像素的深度值，直至替换最大尺度的深度图像中的深度值后，得到最大尺度的深度图像替换深度值后的深度图像。

可选地，如图13所示，装置包括：

像素映射模块1206，用于对于相邻尺度的第一深度图像和第二深度图像，根据第一深度图像与第二深度图像之间的像素映射关系，将第二深度图像中任一第二像素映射到第一深度图像中，得到第一像素，第二深度图像的尺度大于第一深度图像的尺度；

像素反映射模块1207，用于根据像素映射关系，将第一像素反映射到第二深度图像中，得到第三像素；

第一像素确定模块1208，用于响应于第一像素与第三像素之间的距离小于第一预设阈值，确定第一像素与第二像素对应。

可选地，如图13所示，第一像素确定模块1208，包括：

像素确定单元1281，用于响应于距离小于第一预设阈值，且第一像素与第三像素对应的深度值之间的差异数值小于第二预设阈值，确定第一像素与第二像素对应。

可选地，如图13所示，装置包括：

第二像素确定模块1209，用于响应于第一像素的深度值对应的概率大于第二预设阈值，且第二像素的深度值对应的概率小于第三预设阈值，确定第一像素满足预设条件。

可选地，如图13所示，装置还包括：

转化处理模块1210，用于对深度图像进行转化处理，得到点云数据；

聚合处理模块1211，用于对点云数据进行聚合处理，得到目标物体的三维模型。

图14是本申请实施例提供的一种终端的结构示意图，可以实现上述实施例中第一终端、第二终端及第三终端执行的操作。该终端1400可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑、台式电脑、头戴式设备、智能电视、智能音箱、智能遥控器、智能话筒，或其他任意智能终端。终端1400还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1400包括有：处理器1401和存储器1402。

处理器1401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。存储器1402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的，用于存储至少一个指令，该至少一个指令用于被处理器1401所具有以实现本申请中方法实施例提供的深度图像生成方法。

在一些实施例中，终端1400还可选包括有：外围设备接口1403和至少一个外围设备。处理器1401、存储器1402和外围设备接口1403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1403相连。具体地，外围设备包括：射频电路1404、显示屏1405和音频电路1406中的至少一种。

射频电路1404用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1404通过电磁信号与通信网络及其他通信设备进行通信。

显示屏1405用于显示UI(UserInterface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。该显示屏1405可以是触摸显示屏，还可以用于提供虚拟按钮和/或虚拟键盘。

音频电路1406可以包括麦克风和扬声器。麦克风用于采集用户及环境的音频信号，并将音频信号转换为电信号输入至处理器1401进行处理，或者输入至射频电路1404以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1401或射频电路1404的电信号转换为音频信号。

本领域技术人员可以理解，图14中示出的结构并不构成对终端1400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图15是本申请实施例提供的一种服务器的结构示意图，该服务器1500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)1501和一个或一个以上的存储器1502，其中，存储器1502中存储有至少一条指令，至少一条指令由处理器1501加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

服务器1500可以用于执行上述深度图像生成方法。

本申请实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现上述实施例的深度图像生成方法。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现上述实施例的深度图像生成方法。

本申请实施例还提供了一种计算机程序，该计算机程序中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现上述实施例的深度图像生成方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请实施例的可选实施例，并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种深度图像生成方法，所述方法包括：

获取多张目标图像，所述多张目标图像是按照不同视角拍摄目标物体分别得到的；

通过卷积模型中的多个卷积层，对所述多张目标图像进行多级卷积处理，得到所述多个卷积层分别输出的特征图集合，每个特征图集合包括所述多张目标图像对应的特征图；

分别将所述每个特征图集合中的多个特征图进行视角聚合，得到所述每个特征图集合对应的聚合特征；

将得到的多个聚合特征进行融合处理，得到深度图像。
根据权利要求1所述的方法，所述通过卷积模型中的多个卷积层，对所述多张目标图像进行多级卷积处理，得到所述多个卷积层分别输出的特征图集合，包括：

通过所述卷积模型中的第一个卷积层，对所述多张目标图像进行卷积处理，得到所述第一个卷积层输出的特征图集合；

通过所述卷积模型中的下一个卷积层，对上一个卷积层输出的特征图集合中的每个特征图进行卷积处理，得到所述下一个卷积层输出的特征图集合，直至得到所述多个卷积层分别输出的特征图集合。
根据权利要求1所述的方法，所述分别将所述每个特征图集合中的多个特征图进行视角聚合，得到所述每个特征图集合对应的聚合特征，包括：

将所述多张目标图像中的任一张目标图像作为参考图像，将所述多张目标图像中的其他目标图像作为第一图像；

对于任一特征图集合进行如下处理：

确定所述特征图集合中，所述参考图像对应的参考特征图及所述第一图像对应的第一特征图；

按照所述第一图像与所述参考图像的拍摄视角的差异，将所述第一特征图进行视角转换，得到转换后的第二特征图；

将所述参考特征图与所述第二特征图进行融合处理，得到所述聚合特征。
根据权利要求3所述的方法，所述按照所述第一图像与所述参考图像的拍摄视角的差异，将所述第一特征图进行视角转换，得到转换后的第二特征图，包括：

获取所述第一图像对应的第一拍摄参数及所述参考图像对应的参考拍摄参数；

确定输出所述特征图集合的卷积层对应的多个深度值；

根据所述第一拍摄参数与所述第二拍摄参数之间的差异，及所述多个深度值，确定与所述多个深度值对应的多个视角转换矩阵；

根据所述多个视角转换矩阵，分别对所述第一特征图进行视角转换，得到转换后的多个第二特征图。
根据权利要求4所述的方法，所述确定输出所述特征图集合的卷积层对应的多个深度值，包括：

确定输出所述特征图集合的卷积层对应的深度层数；

按照所述深度层数将预设深度范围进行划分，得到所述多个深度值。
根据权利要求4所述的方法，所述第一图像包括多个，所述将所述参考特征图与所述第二特征图进行融合处理，得到所述聚合特征，包括：

将第一数量的所述参考特征图进行融合处理，得到所述参考图像对应的参考特征卷，所述第一数量等于所述多个深度值的数量；

对于每个第一图像，将所述第一图像对应的第一特征图转换后的多个第二特征图进行融合处理，得到第一特征卷，将所述第一特征卷与所述参考特征卷之间的差值确定为第二特征卷；

将确定的多个第二特征卷进行融合处理，得到所述聚合特征。
根据权利要求6所述的方法，所述将确定的多个第二特征卷进行融合处理，得到所述聚合特征，包括：

获取所述输出所述特征图集合的卷积层对应的权重矩阵，所述权重矩阵中包括所述卷积层输出的特征图中每个像素位置对应的权重；

按照所述权重矩阵，将所述多个第二特征卷进行加权融合处理，得到所述聚合特征。
根据权利要求1所述的方法，所述多个卷积层输出的特征图的尺度依次减小；所述将得到的多个聚合特征进行融合处理，得到深度图像，包括：

将所述多个聚合特征中最大尺度的聚合特征作为第一聚合特征，将所述多个聚合特征中其他的多个聚合特征作为第二聚合特征；

将所述第一聚合特征进行多级卷积处理，得到多个第三聚合特征，所述多个第三聚合特征的尺度与所述多个第二聚合特征的尺度一一对应；

将第一尺度的第二聚合特征与所述第一尺度的第三聚合特征进行融合处理，将融合后的特征进行反卷积处理，得到第二尺度的第四聚合特征，所述第一尺度为多个第二聚合特征的最小尺度，所述第二尺度为所述第一尺度的上一级尺度；

继续将当前得到的第四聚合特征、与所述第四聚合特征尺度相等的第二聚合特征和第三聚合特征进行融合处理，将融合后的特征进行反卷积处理，得到上一级尺度的第四聚合特征，直至得到与所述第一聚合特征尺度相等的第四聚合特征；

将与所述第一聚合特征尺度相等的第四聚合特征与所述第一聚合特征进行融合处理，得到第五聚合特征；

根据所述第一聚合特征对应的概率图，将所述第五聚合特征进行卷积处理，得到所述深度图像。
根据权利要求8所述的方法，所述继续将当前得到的第四聚合特征、与所述第四聚合特征尺度相等的第二聚合特征和第三聚合特征进行融合处理，将融合后的特征进行反卷积处理，得到上一级尺度的第四聚合特征，包括：

继续将当前得到的第四聚合特征、与所述第四聚合特征尺度相等的第二聚合特征、第三聚合特征、及所述第二聚合特征的概率图进行融合处理，将融合后的特征进行反卷积处理，得到上一级尺度的第四聚合特征。
根据权利要求1所述的方法，所述获取多张目标图像，包括：

按照多个不同的视角拍摄所述目标物体，得到所述多张目标图像；或者，

按照多个不同的视角拍摄所述目标物体，得到多张原始图像；

对所述多张原始图像进行尺度调整，得到所述多张原始图像调整后的所述多张目标图像，所述多张目标图像的尺度相等。
根据权利要求10所述的方法，所述对所述多张原始图像进行尺度调整，得到所述多张原始图像调整后的所述多张目标图像，包括：

对所述多张原始图像进行多轮尺度调整，得到多组目标图像集合，每组目标图像集合包括同一尺度的多张目标图像，不同目标图像集合中的目标图像的尺度不同；

所述方法还包括：将所述多组目标图像集合对应的深度图像进行融合处理，得到融合后的深度图像。
根据权利要求11所述的方法，所述将所述多组目标图像集合对应的深度图像进行融合处理，得到融合后的深度图像，包括：

由最小尺度的深度图像开始，将当前深度图像中满足预设条件的第一像素的深度值，替换上一尺度的深度图像中与所述第一像素对应的第二像素的深度值，直至替换最大尺度的深度图像中的深度值后，得到所述最大尺度的深度图像替换深度值后的深度图像。
根据权利要求12所述的方法，所述方法还包括：

对于相邻尺度的第一深度图像和第二深度图像，根据所述第一深度图像与所述第二深度图像之间的像素映射关系，将所述第二深度图像中任一第二像素映射到所述第一深度图像中，得到所述第一像素，所述第二深度图像的尺度大于所述第一深度图像的尺度；

根据所述像素映射关系，将所述第一像素反映射到所述第二深度图像中，得到第三像素；

响应于所述第一像素与所述第三像素之间的距离小于第一预设阈值，确定所述第一像素与所述第二像素对应。
一种深度图像生成装置，所述装置包括：

图像获取模块，用于获取多张目标图像，所述多张目标图像是按照不同视角拍摄目标物体分别得到的；

卷积处理模块，用于通过卷积模型中的多个卷积层，对所述多张目标图像进行多级卷积处理，得到所述多个卷积层分别输出的特征图集合，每个特征图集合包括所述多张目标图像对应的特征图；

视角聚合模块，用于分别将所述每个特征图集合中的多个特征图进行视角聚合，得到所述每个特征图集合对应的聚合特征；

特征融合模块，用于将得到的多个聚合特征进行融合处理，得到深度图像。
一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1至13任一权利要求所述的深度图像生成方法。
一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现如权利要求1至13任一权利要求所述的深度图像生成方法。