WO2022001222A1

WO2022001222A1 - 三维模型生成方法、神经网络生成方法及装置

Info

Publication number: WO2022001222A1
Application number: PCT/CN2021/082485
Authority: WO
Inventors: 汪旻; 邱丰; 刘文韬; 钱晨; 马利庄
Original assignee: 上海商汤智能科技有限公司
Priority date: 2020-06-29
Filing date: 2021-03-23
Publication date: 2022-01-06
Also published as: EP3971840A4; KR20220013403A; CN111739159A; JP2022542758A; EP3971840A1; US20220114799A1

Abstract

一种三维模型生成方法、神经网络生成方法及装置，三维模型生成方法包括：基于包含第一对象的第一图像，获取多个第一球体中每个第一球体在相机坐标系中的第一球体位置信息，多个第一球体分别表示第一对象不同部位（S101）；基于多个第一球体的第一球体位置信息，生成第一渲染图像（S102）；基于第一渲染图像与第一图像的语义分割图像，得到第一渲染图像的梯度信息（S103）；基于第一渲染图像的梯度信息，调整多个第一球体的第一球体位置信息，并利用调整后的多个第一球体的第一球体位置信息，生成第一对象的三维模型（S104）。

Description

三维模型生成方法、神经网络生成方法及装置

相关申请的交叉引用

本申请基于申请号为202010607430.5、申请日为2020年06月29日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本公开涉及图像处理技术领域，具体而言，涉及一种三维模型生成方法、神经网络生成方法、装置、设备及计算机可读存储介质。

背景技术

基于二维图像的三维模型重建过程中，需要通过深度神经网络获取图像的特征，然后利用图像特征回归得到三维模型的参数，并基于获得的三维模型参数来实现三维模型重建。

当前的三维模型生成方法存在精度低的问题。

发明内容

本公开实施例至少提供一种三维模型生成方法、神经网络生成方法、装置、设备及计算机可读存储介质。

第一方面，本公开实施例提供了一种三维模型生成方法，包括：基于包含第一对象的第一图像，获取多个第一球体中每个第一球体在相机坐标系中的第一球体位置信息，所述多个第一球体分别表示所述第一对象不同部位；基于所述多个第一球体的所述第一球体位置信息，生成第一渲染图像；基于所述第一渲染图像以及所述第一图像的语义分割图像，得到所述第一渲染图像的梯度信息；基于所述第一渲染图像的梯度信息，调整所述多个第一球体的所述第一球体位置信息，并利用调整后的所述多个第一球体的所述第一球体位置信息，生成所述第一对象的三维模型。

这样，通过对表征三维模型的多个第一球体的第一球体位置信息进行图像渲染，并基于第一图像渲染的结果，确定能够表征多个第一球体的第一球体位置信息的正确性程度的梯度信息，并基于该梯度信息对多个第一球体分别对应的第一球体位置信息进行重新调整，从而使得调整后的多个第一球体位置信息具有更高的精度，也即，基于多个第一球体分别对应的第一球体位置信息恢复的三维模型也具有更高的精度。

一种可选的实施方式中，所述基于所述多个第一球体的所述第一球体位置信息，生成第一渲染图像，包括：基于所述第一球体位置信息，确定构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息；基于构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息，生成所述第一渲染图像。

这样，能够通过将第一对象分为多个部位分别表示为不同的第一球体，并基于构成不同球体的多个面片的各个顶点分别在相机坐标系中的第一三维位置信息，生成第一渲染图像，在第一渲染图像中，包含了不同第一对象的部位的三维关系信息，进而能够基于第一渲染图像确定的梯度信息来约束第一对象的三维模型，使得第一对象的三维模型具有更高的精度。

一种可选的实施方式中，所述基于所述第一球体位置信息，确定构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息，包括：基于构成模板球体的多个模板面片的模板顶点与所述模板球体的中心点之间的第一位置关系、以及所述每个第一球体的所述第一球体位置信息，确定构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息。

这样，通过多个模板面片变形得到多个第一球体，通过面片来表征球体的表面，降低渲染生成第一渲染图像时的复杂度。

一种可选的实施方式中，所述每个第一球体的所述第一球体位置信息包括：所述每个第一球体的中心点在所述相机坐标系中的第二三维位置信息、所述每个第一球体的三个坐标轴分别对应的长度、以及所述每个第一球体相对于所述相机坐标系的旋转角度。

这样，通过上述三个参数，能够清晰的将各个第一球体在相机坐标系中的位姿表示出来。

一种可选的实施方式中，所述基于构成模板球体的多个模板面片的模板顶点与所述模板球体的中心点之间的第一位置关系、以及所述每个第一球体的第一球体位置信息，确定构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息，包括：基于所述每个第一球体的三个坐标轴分别对应的长度以及所述每个第一球体相对于所述相机坐标系的旋转角度，对所述模板球体进行形状及旋转角度变换；基于对所述模板球体进行形状及旋转角度变换的结果以及所述第一位置关系，确定各个模板顶点与变换后的模板球体的中心点之间的第二位置关系；基于所述每个第一球体的中心点在所述相机坐标系中的第二三维位置信息以及所述第二位置关系，确定构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息。

这样，可以快速获得第一三维位置信息。

一种可选的实施方式中，所述方法还包括：获取所述第一图像的相机的投影矩阵；所述基于构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息，生成第一渲染图像，包括：基于所述第一三维位置信息以及所述投影矩阵，确定第一渲染图像中每个像素点的部位索引以及面片索引；基于确定的第一渲染图像中每个像素点的部位索引以及面片索引，生成所述第一渲染图像；其中，任一像素点的部位索引标识所述任一像素点对应的所述第一对象上的部位；任一像素点的面片索引标识所述任一像素点对应的面片。

一种可选的实施方式中，所述基于构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息，生成第一渲染图像，包括：

针对所述每个第一球体，根据构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息，生成与所述每个第一球体对应的第一渲染图像；

所述基于所述第一渲染图像以及所述第一图像的语义分割图像，得到所述第一渲染图像的梯度信息，包括：

针对所述每个第一球体，根据所述每个第一球体对应的第一渲染图像和语义分割图像，得到与所述每个第一球体对应的第一渲染图像的梯度信息。

这样，有利于简化不同部位对应的分类值的表达，简化在梯度计算过程中的运算复杂度。

一种可选的实施方式中，所述第一渲染图像的梯度信息包括：所述第一渲染图像中每个像素点的梯度值；所述基于所述第一渲染图像以及所述第一图像的语义分割图像，得到所述第一渲染图像的梯度信息，包括：遍历所述第一渲染图像中的各个像素点，针对遍历到的像素点在所述第一渲染图像中的第一像素值，以及所述遍历到的像素点在所述语义分割图像中的第二像素值，确定所述遍历到的像素点的梯度值。

这样，可以通过对第一渲染图像和第一图像的语义分割图像，得到第一渲染图像的梯度信息。

一种可选的实施方式中，所述针对遍历到的像素点在所述第一渲染图像中的第一像素值，以及所述遍历到的像素点在所述语义分割图像中的第二像素值，确定所述遍历到的像素点的梯度值，包括：根据所述遍历到的像素点的所述第一像素值，以及所述遍历到的像素点的所述第二像素值，确定所述遍历到的像素点的残差；在所述遍历到的像素点的残差为第一数值的情况下，将所述遍历到的像素点的梯度值确定为所述第一数值；在所述遍历到的像素点的残差不为所述第一数值的情况下，基于所述遍历到的像素点的所述第二像素值，从所述多个第一球体中确定所述遍历到的像素点对应的目标第一球体，并从构成所述目标第一球体的多个面片中确定目标面片；确定所述目标面片上的至少一个目标顶点在所述相机坐标系中的目标三维位置信息，其中，在所述至少一个目标顶点位于所述目标三维位置信息所标识的位置的情况下，将所述遍历到的像素点进行重新渲染得到的新的第一像素值，和所述遍历到的像素点对应的第二像素值之间的残差确定为所述第一数值；基于所述目标顶点在所述相机坐标系中的第一三维位置信息和所述目标三维位置信息，得到所述遍历到的像素点的梯度值。

这样，可以得到第一渲染图像中每个像素点的梯度值。

一种可选的实施方式中，所述基于包含第一对象的第一图像，获取多个第一球体中每个第一球体在相机坐标系中的第一球体位置信息，包括：利用预先训练的位置信息预测网络，对所述第一图像进行位置信息预测处理，得到所述多个第一球体中每个第一球体在所述相机坐标系中的第一球体位置信息。

第二方面，本公开实施例还提供一种神经网络生成方法，包括：利用待训练的神经网络，对第二图像中的第二对象进行三维位置信息预测处理，得到表征所述第二对象不同部位的多个第二球体中每个第二球体在相机坐标系中的第二球体位置信息；基于多个第二球体分别对应的第二球体位置信息，生成第二渲染图像；基于所述第二渲染图像、以及所述第二图像的语义标注图像，得到所述第二渲染图像梯度信息；基于所述第二渲染图像的梯度信息，更新所述待训练的神经网络，得到更新后的神经网络。

这样，在利用待优化的神经网络对第二图像中的第二对象进行三维位置信息预测处理，得到表征第二图像中第二对象的三维模型的多个第二球体的第二球体位置信息后，基于第二球体位置信息进行图像渲染，并基于图像渲染的结果，确定多个第二球体的第二球体位置信息正确性程度的梯度信息，并基于该梯度信息更新待优化的神经网络的，得到优化后的神经网络，使得优化后的神经网络具有更高的三维位置信息预测精度。

第三方面，本公开实施例还提供一种三维模型生成装置，包括：第一获取部分，被配置为基于包含第一对象的第一图像，获取多个第一球体中每个第一球体在相机坐标系中的第一球体位置信息，所述多个第一球体分别表示所述第一对象不同部位；第一生成部分，被配置为基于所述多个第一球体的所述第一球体位置信息，生成第一渲染图像；第一梯度确定部分，被配置为基于所述第一渲染图像、以及所述第一图像的语义分割图像，得到所述第一渲染图像的梯度信息；调整部分，被配置为基于所述第一渲染图像的梯度信息，调整所述多个第一球体的所述第一球体位置信息；模型生成部分，被配置为利用调整后的所述多个第一球体的所述第一球体位置信息，生成所述第一对象的三维模型。

一种可能的实施方式中，所述第一生成部分，在基于所述多个第一球体的所述第一球体位置信息，生成第一渲染图像的情况下，被配置为：基于所述第一球体位置信息，确定构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息；基于构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息，生成所述第一渲染图像。

一种可能的实施方式中，所述第一生成部分，在基于所述第一球体位置信息，确定构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息的情况下，被配置为：基于构成模板球体的多个模板面片的模板顶点与所述模板球体的中心点之间的第一位置关系、以及所述每个第一球体的所述第一球体位置信息，确定构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息。

一种可能的实施方式中，所述每个第一球体的所述第一球体位置信息包括：所述每个第一球体的中心点在所述相机坐标系中的第二三维位置信息、所述每个第一球体的三个坐标轴分别对应的长度、以及所述每个第一球体相对于所述相机坐标系的旋转角度。

一种可能的实施方式中，所述第一生成部分，在基于构成模板球体的多个模板面片的模板顶点与所述模板球体的中心点之间的第一位置关系、以及所述每个第一球体的第一球体位置信息，确定构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息的情况下，被配置为：基于所述每个第一球体的三个坐标轴分别对应的长度以及所述每个第一球体相对于所述相机坐标系的旋转角度，对所述模板球体进行形状及旋转角度变换；基于对所述模板球体进行形状及旋转角度变换的结果以及所述第一位置关系，确定各个模板顶点与变换后的模板球体的中心点之间的第二位置关系；基于所述每个第一球体的中心点在所述相机坐标系中的第二三维位置信息以及所述第二位置关系，确定构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息。

一种可能的实施方式中，所述第一获取部分，还被配置为：获取所述第一图像的相机的投影矩阵；所述第一生成部分，在基于构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息，生成第一渲染图像的情况下，被配置为：基于所述第一三维位置信息以及所述投影矩阵，确定第一渲染图像中每个像素点的部位索引以及面片索引；基于确定的第一渲染图像中每个像素点的部位索引以及面片索引，生成所述第一渲染图像；其中，任一像素点的部位索引标识所述任一像素点对应的所述第一对象上的部位；任一像素点的面片索引标识所述任一像素点对应的面片。

一种可选的实施方式中，所述第一生成部分，在基于构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息，生成第一渲染图像的情况下，被配置为：针对所述每个第一球体，根据构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息，生成与所述每个第一球体对应的第一渲染图像；

所述第一梯度确定部分，在基于所述第一渲染图像以及所述第一图像的语义分割图像，得到所述第一渲染图像的梯度信息的情况下，被配置为：针对所述每个第一球体，根据所述每个第一球体对应的第一渲染图像和语义分割图像，得到与所述每个第一球体对应的第一渲染图像的梯度信息。

一种可能的实施方式中，所述第一渲染图像的梯度信息包括：所述第一渲染图像中每个像素点的梯度值；所述第一梯度确定部分，在基于所述第一渲染图像以及所述第一图像的语义分割图像，得到所述第一渲染图像的梯度信息的情况下，被配置为：遍历所述第一渲染图像中的各个像素点，针对遍历到的像素点在所述第一渲染图像中的第一像素值，以及所述遍历到的像素点在所述语义分割图像中的第二像素值，确定所述遍历到的像素点的梯度值。

一种可能的实施方式中，所述第一梯度确定部分，在针对遍历到的像素点在所述第一渲染图像中的第一像素值，以及所述遍历到的像素点在所述语义分割图像中的第二像素值，确定所述遍历到的像素点的梯度值的情况下，被配置为：根据所述遍历到的像素点的所述第一像素值，以及所述遍历到的像素点的所述第二像素值，确定所述遍历到的像素点的残差；在所述遍历到的像素点的残差为第一数值的情况下，将所述遍历到的像素点的梯度值确定为所述第一数值；在所述遍历到的像素点的残差不为所述第一数值的情况下，基于所述遍历到的像素点的所述第二像素值，从所述多个第一球体中确定所述遍历到的像素点对应的目标第一球体，并从构成所述目标第一球体的多个面片中确定目标面片；确定所述目标面片上的至少一个目标顶点在所述相机坐标系中的目标三维位置信息，其中，在所述至少一个目标顶点位于所述目标三维位置信息所标识的位置的情况下，将所述遍历到的像素点进行重新渲染得到的新的第一像素值，和所述遍历到的像素点对应的第二像素值之间的残差确定为所述第一数值；基于所述目标顶点在所述相机坐标系中的第一三维位置信息和所述目标三维位置信息，得到所述遍历到的像素点的梯度值。

一种可能的实施方式中，所述第一获取部分，在基于包含第一对象的第一图像，获取多个第一球体中每个第一球体在相机坐标系中的第一球体位置信息的情况下，被配置为：利用预先训练的位置信息预测网络，对所述第一图像进行位置信息预测处理，得到所述多个第一球体中每个第一球体在所述相机坐标系中的第一球体位置信息。

第四方面，本公开实施例还提共一种神经网络的生成装置，包括：第二获取部分，被配置为利用待训练的神经网络，对第二图像中的第二对象进行三维位置信息预测处理，得到表征所述第二对象不同部位的多个第二球体中每个第二球体在相机坐标系中的第二球体位置信息；第二生成部分，被配置为基于多个第二球体分别对应的第二球体位置信息，生成第二渲染图像；第二梯度确定部分，被配置为基于所述第二渲染图像、以及所述第二图像的语义标注图像，得到所述第二渲染图像梯度信息；更新部分，被配置为基于所述第二渲染图像的梯度信息，更新所述待训练的神经网络，得到更新后的神经网络。

第五方面，本公开可选实现方式还提供一种电子设备，处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述处理器被配置为执行所述存储器中存储的机器可读指令，所述机器可读指令被所述处理器执行时，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤；或执行上述第二方面，或第二方面中任一种可能的实施方式中的步骤。

第六方面，本公开可选实现方式还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤；或执行上述第二方面，或第二方面中任一种可能的实施方式中的步骤。

第六方面，本公开可选实现方式还提供一种计算机程序，包括计算机可读代码，在所述计算机可读代码在电子设备中运行的情况下，所述电子设备中的处理器执行时实现上述第一方面，或第一方面中任一种可能的实施方式中的步骤；或实现上述第二方面，或第二方面中任一种可能的实施方式中的步骤。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种三维模型生成方法的流程图；

图2示出了本公开实施例所提供的通过多个第一球体表征人体的示例的示意图；

图3示出了本公开实施例所提供的一种位置信息预测网络的结构的示例的示意图；

图4示出了本公开实施例所提供的一种将模板球体变换为第一球体的示例的示意图；

图5示出了本公开实施例所提供的确定遍历到的像素点的梯度值的方法的流程图；

图6示出了本公开实施例所提供的在遍历到的像素点的残差并非第一数值的情况下，确定目标三维位置信息的多种示例；

图7示出了本公开实施例所提供的一种神经网络生成方法的流程图；

图8示出了本公开实施例所提供的一种三维模型生成装置的示意图；

图9示出了本公开实施例所提供的一种神经网络生成装置的流程图；

图10示出了本公开实施例所提供的一种计算机设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开实施例的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开实施例保护的范围。

在基于二维图像的三维模型生成过程中，一般采用神经网络预测二维图像中生成对象的三维模型参数，并基于三维模型参数来进行三维模型生成。在神经网络训练过程中，需要利用样本图像的监督数据监督训练过程；也即预先将训练过程中用到的各样本图像中的对象的三维模型参数标注出来，并用作对神经网络训练的监督。由于监督数据获取困难，因此很多情况下采用仿真系统获得二维图像、以及二维图像的监督数据；但由于仿真系统得到的二维图像和真实二维图像之间具有一定的差异，这导致了神经网络在基于真实的二维图像进行三维模型生成时精度下降的问题。

另外，当前的三维模型生成方法，无法处理由于三维模型重建对象的部分部位被遮挡所造成的歧义性问题，造成无法准确还原三维模型重建对象在深度上的姿态，进而导致生成的三维模型的精度较低。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案，都应是发明人对本公开实施例做出的贡献。

基于上述研究，本公开实施例提供了一种三维模型生成方法，通过对表征三维模型的多个第一球体的第一球体位置信息进行图像渲染，并基于第一图像渲染的结果，确定能够表征多个第一球体的第一球体位置信息的正确性程度的梯度信息，并基于该梯度信息对多个第一球体分别对应的第一球体位置信息进行重新调整，从而使得调整后的多个第一球体位置信息具有更高的精度，也即，基于多个第一球体分别对应的第一球体位置信息恢复的三维模型也具有更高的精度。

另外，本公开实施例提供的三维模型生成方法中，由于是采用表征多个第一球体的第一球体位置信息的正确性程度的梯度信息，来对多个第一球体分别对应的第一球体位置信息进行重新调整，从而能够以更高的精度还原第一对象在深度上的信息，具有更高的精度。

本公开实施例还提供一种神经网络的生成方法，在利用待优化的神经网络对第二图像中的第二对象进行三维位置信息预测处理，得到表征第二图像中第二对象的三维模型的多个第二球体的第二球体位置信息的基础上，基于第二球体位置信息进行图像渲染，并基于图像渲染的结果，确定多个第二球体的第二球体位置信息正确性程度的梯度信息，并基于该梯度信息更新待优化的神经网络的，得到优化后的神经网络，使得优化后的神经网络具有更高的三维位置信息预测精度。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种三维模型生成方法进行详细介绍，本公开实施例所提供的三维模型生成方法的执行主体一般为具有一定计算能力的计算机设备，所述计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，所述三维模型生成方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

下面首先对本公开实施例提供的三维模型生成方法加以说明。

参见图1所示，为本公开实施例提供的三维模型生成方法的流程图，所述方法包括步骤S101～S104，其中：

S101：基于包含第一对象的第一图像，获取多个第一球体中每个第一球体在相机坐标系中的第一球体位置信息，所述多个第一球体分别表示所述第一对象不同部位；

S102：基于所述多个第一球体的所述第一球体位置信息，生成第一渲染图像；

S103：基于所述第一渲染图像以及所述第一图像的语义分割图像，得到所述第一渲染图像的梯度信息；

S104：基于所述第一渲染图像的梯度信息，调整所述多个第一球体的所述第一球体位置信息，并利用调整后的所述多个第一球体的所述第一球体位置信息，生成所述第一对象的三维模型。

本公开实施例通过在得到表征第一对象不同部位的多个第一球体中每个第一球体在相机坐标系中的第一球体位置信息的基础上，根据该第一球体位置信息，对第一对象重新渲染，得到第一渲染图像；然后基于第一渲染图像和第一图像的语义分割图像，得到第一渲染图像的梯度信息，该梯度信息表征了基于第一球体位置信息对第一对象进行重新渲染得到的第一渲染图像的正确程度，从而在基于该梯度信息调整每个第一球体的第一球体位置信息的过程中，对第一球体位置信息预测错误的部分进行调整，使得调整后的第一球体位置信息能够更准确的表征第一对象的不同部位在相机坐标系中的位置，进而基于调整后的各个第一球体的第一球体位置信息得到生成第一对象的三维模型，具有更高的精度。

另外，本公开实施例由于是采用表征多个第一球体的第一球体位置信息的正确性程度的梯度信息，来对多个第一球体分别对应的第一球体位置信息进行重新调整，从而能够以更高的精度还原第一对象在深度上的信息，因而得到的三维模型具有更高的精度。

下面分别对上述S101～S104加以详细描述。

在上述S101中，本公开实施例在基于第一对象的二维图像，生成第一对象的三维模型的情况下，是将第一对象分为多个部位，并对第一对象的不同部位分别进行三维位置信息的预测。

示例性的，第一对象的不同部位分别对应的三维位置信息通过第一球体在相机坐标系中的第一球体位置信息来表征；第一球体在相机坐标系中的第一球体位置信息，包括该第一球体的中心点在相机坐标系中的三维位置信息(也即第二三维位置信息)、该第一球体的三个坐标轴分别对应的长度、以及每个该第一球体相对于相机坐标系的旋转角度。

以将人体作为第一对象为例，可以按照人体的肢体和躯干将身体分为多个部位，每个部位采用一个第一球体表示；每个第一球体包括三个坐标轴，分别表示骨骼长度、以及该部位在不同方向的厚度。

示例性的，参见图2所示，本公开实施例提供一种通过多个第一球体表征人体的示例，在该示例中，将人体划分为20个部位，20个部位通过20个第一球体表示，人体M表示为：M＝{ε _i|i＝1,...,20}；

其中，ε _i＝E(R _i,C _i,X _i)；

其中，ε _i表示第i个第一球体在相机坐标系下的第一球体位置信息，也即第一球体对应的部位在相机坐标系下的位姿数据；其中，X _i表示第i个第一球体的尺寸数据，其参数包括：骨骼长度l _i，以及在不同方向的部位厚度

和

C _i表示第i个第一球体的中心点在相机坐标系下的三维坐标值；R _i表示第i个第一球体在相机坐标系中的旋转信息。

第i个第一球体的位姿数据S _i满足下述公式(1)：

S _i＝R _parent(i)·(l _iO _i)+S _parent(i) (1)

其中，O _i为偏移向量，该偏移向量表征从第i个第一球体对应的父部位到当前部位的偏移方向；l _iO _i表示人体的第i个部位在关键点布局中的局部位置。S _parent(i)表示父部位的位姿数据。R _parent(i)表示第i个第一球体对应的父部位在相机坐标系中的旋转信息。上述公式(1)约束了不同第一球体之间的相互连接关系。

在获取多个第一球体中每个球体在相机坐标系中的第一球体位置信息的情况下，例如可以利用预先训练的位置信息预测网络，对所述第一图像进行位置信息预测处理，得到所述多个第一球体中每个第一球体在所述相机坐标系中的第一球体位置信息。

示例性的，参见图3所示，本公开实施例还提供一种位置信息预测网络的结构的示例，包括：特征提取子网络、关键点预测子网络、以及三维位置信息预测子网络。

这里，特征提取子网络，用于对第一图像进行特征提取处理，得到第一图像的特征图。

此处，特征提取子网络例如包括：卷积神经网络(convolutional neural networks，CNN)，CNN能够对第一图像进行至少一级特征提取处理，得到第一图像的特征图。CNN对第一图像进行至少一级特征提取处理的过程，又可以看作利用CNN编码器对第一图像进行编码的过程。

关键点预测子网络，用于基于第一图像的特征图，确定第一对象的多个关键点在第一图像中的二维坐标值。

此处，关键点预测子网络，例如可以基于第一图像的特征图进行至少一级反卷积处理，得到第一图像的热图，其中，热图的尺寸例如与第一图像的尺寸相同；热图中任一第一像素点的像素值，表征第一图像中与该任一第一像素点位置对应的第二像素点为第一对象关键点的概率。进而用该热图，能够得到第一对象的多个关键点分别在第一图像中的二维坐标值。

三维位置信息预测子网络，用于基于第一对象的多个关键点分别根据第一图像中的二维坐标值、以及第一图像的特征图，得到构成第一对象的多个第一球体分别在相机坐标系下的第一球体位置信息。

在上述S102中，在得到多个第一球体分别对应的第一球体位置信息后，例如可以采用下述方式生成第一渲染图像：

基于所述第一球体位置信息，确定构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息；基于构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息，生成所述第一渲染图像。

这里，面片是三维计算机图形学中表示多面体形状的顶点与多边形的集合，又称为非结构网格。在确定构成第一对象的多个第一球体分别对应的第一球体位置信息的基础上，能够基于第一球体位置信息，确定构成第一球体的多个面片分别在相机坐标系中的第一三维位置信息。

这里，可以基于构成模板球体的多个模板面片的模板顶点与所述模板球体的中心点之间的第一位置关系、以及所述每个第一球体的所述第一球体位置信息，确定构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息。

此处，模板球体例如为图4中41所示，模板球体包括多个模板面片，每个模板面片的模板顶点与模板球体的中心点之间具有一定的位置关系。第一球体能够基于模板球体变形得到，在对第一模板球体进行变形的情况下，例如可以基于所述每个第一球体的三个坐标轴分别对应的长度以及所述每个第一球体相对于所述相机坐标系的旋转角度，对所述模板球体进行形状及旋转角度变换；基于对所述模板球体进行形状及旋转角度变换的结果，以及所述第一位置关系，确定各个模板顶点与变换后的模板球体的中心点之间的第二位置关系；基于所述每个第一球体的中心点在所述相机坐标系中的第二三维位置信息以及所述第二位置关系，确定构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息。

此处，在对模板球体进行形状及旋转角度变换的情况下，可以先对模板球体进行形状变换，使得模板球体的三个坐标轴，分别与第一球体的三个坐标轴的长度相等，然后基于对模板球体进行形状变换的结果进行旋转角度变换，使得模板球体的三个坐标轴在相机坐标系中的方向，与第一球体的三个坐标轴的方向一一对应，完成对模板球体的形状及旋转角度变换。

另外，也可以先对模板球体进行旋转角度变换，使得模板球体的三个轴在相机坐标系中的方向，与第一球体的三个坐标轴的方向一一对应；然后基于对模板球体进行旋转角度变换的结果进行形状变换，使得模板球体的三个坐标轴的长度分别与第一球体的三个坐标轴的长度相等，完成对模板球体的形状及旋转角度变换。

在完成对模板球体的形状及旋转角度变换后，也即确定了模板球体中三个坐标轴的长度、以及在相机坐标系中的旋转角度。此时，能够基于坐标轴的长度以及在相机坐标系中的旋转角度、以及构成模板球体的多个模板面片的模板顶点与所述模板球体的中心点之间的第一位置关系，确定多个模板面片的模板顶点与变换后的模板球体的中心点之间的第二位置关系。基于该第二位置关系、以及第一球体的中心点在相机坐标系中的第二三维位置信息，确多个构成多个模板面片的模板顶点在相机坐标系中的三维位置信息。此时，多个模板面片的模板顶点在相机坐标系中的三维位置信息，也即构成第一球体的多个面片的多个顶点分别在相机坐标系中的第一三维位置信息。

示例性的，参见图4所示，本公开实施例还提供一种将模板球体变换为第一球体的示例，在该示例中，模板球体如图4中41所示；将模板球体进行形状和旋转角度变换的结果如42所示；43和44表示由第一球体构成的人体；其中，43为第一球体构成的人体的透视图。

在得到第一球体的多个面片的多个顶点分别在相机坐标系中的第一三维位置信息后，基于构成第一球体的多个面片的多个顶点分别在相机坐标系中的第一三维位置信息，对构成第一对象的多个球体进行图像渲染处理，生成第一渲染图像。

这里，例如可以采用下述方式对构成第一对象的多个第一球体进行图像渲染处理：

基于所述第一三维位置信息以及相机的投影矩阵，确定第一渲染图像中每个像素点的部位索引以及面片索引；

基于确定的第一渲染图像中每个像素点的部位索引以及面片索引，生成所述第一渲染图像；

其中，任一像素点的部位索引标识所述任一像素点对应的所述第一对象上的部位；任一像素点的面片索引标识所述任一像素点对应的面片。

这里，相机为获取第一图像的相机；相机的投影矩阵可以基于相机在相机坐标系中的位置、以及构成第一球体的多个面片的多个顶点分别在相机坐标系中的第一三维位置信息求得。在得到第一相机的投影矩阵后，能够基于该投影矩阵，将多个第一球体映射到相机坐标系中，得到第一渲染图像。

在一种可能的实施方式中，在对构成第一对象的多个球体进行图像渲染处理的情况下，基于多个球体分别对应的第一球体位置信息，将多个第一球体进行集体渲染，得到包括所有第一球体的第一渲染图像。在该种情况下，是得到所有第一球体对应的第一渲染图像的梯度信息，基于该梯度信息，调整多个第一球体的第一球体位置信息。

在另一种可能的实施方式中，在对构成第一对象的多个第一球体进行图像渲染处理的情况下，针对多个第一球体中的每个第一球体分别进行渲染，得到与多个第一球体分别对应的第一渲染图像。在该种情况下，是得到多个第一球体分别对应的第一渲染图像的梯度信息，并基于多个第一球体分别对应的第一渲染图像的梯度信息，调整每个第一球体的第一球体位置。

在上述S103中，例如可以使用预先训练的语义分割网络对第一图像进行语义分割处理，得到第一图像的语义分割图像。

(1)：针对对多个第一球体进行集体渲染的情况，不同第一球体在被渲染至第一渲染图像的情况下对应的像素点的像素值不同；同时，在对第一图像进行语义分割处理，得到第一图像的语义分割图像的情况下，语义分割图像中任一像素点对应的像素值，表征第一图像中对应位置的像素点的所属部位的分类值。其中，第一对象的不同部位在语义分割图像中对应的分类值也不同。

示例性的，针对同一部位，与该部位对应的第一球体在被渲染至第一渲染图像的情况下对应的像素点的像素值，与该部位在语义分割图像中对应的分类值相同。

(2)针对对多个第一球体分别进行渲染的情况，在对第一图像进行语义分割处理的情况下，得到与表征第一对象不同部位的第一球体分别对应的语义分割图像。

在该种情况下，基于所述第一渲染图像以及所述第一图像的语义分割图像，得到所述第一渲染图像的梯度信息，例如可以采用下述方式：

针对每个第一球体，根据所述每个第一球体对应的第一渲染图像和语义分割图像，得到与所述每个第一球体对应的第一渲染图像的梯度信息；

基于与多个第一球体分别对应的第一渲染图像的梯度信息，得到多个第一球体对应的总的梯度信息。

在理论上，在获得的多个第一球体分别对应的第一球体位置信息完全正确的情况下，生成的第一渲染图像和第一语义分割图像中对应位置的像素点的像素值相同。在预测得到的任一第一球体的第一球体位置信息出现错误的情况下，则可能会导致第一渲染图像和第一语义分割图像中至少部分位置对应的像素点的像素值不相同。

基于上述原理，能够通过第一渲染图像和第一图像的语义分割图像，确定第一渲染图像的梯度信息，该梯度信息即表征了多个第一球体中每个第一球体在相机坐标系中的第一球体位置信息的正确性程度。一般地，梯度越大，则表征第一球体位置信息的正确性程度越低；相应的，梯度越小，则表征第一球体位置信息的正确性程度越高；因此可以第一渲染图像的梯度信息，指导第一球体分别对应的第一球体位置信息的调整，使得第一球体位置信息在不断调整的过程中，所得到的第一渲染图像能够逐渐向着正确的方向不断优化，从而使得最终生成的第一对象的三维模型具有更高的精度。

这里，第一渲染图像的梯度信息包括：第一渲染图像中每个像素点的梯度值。

在确定第一渲染图像的梯度信息的情况下，例如可以遍历所述第一渲染图像中的各个像素点，针对遍历到的像素点在所述第一渲染图像中的第一像素值，以及所述遍历到的像素点在所述语义分割图像中的第二像素值，确定所述遍历到的像素点的梯度值。

参见图5所示，本公开实施例还提供一种确定遍历到的像素点的梯度值的方法，包括：

S501：根据所述遍历到的像素点的所述第一像素值以及所述遍历到的像素点的所述第二像素值，确定所述遍历到的像素点的残差。

S502：在所述遍历到的像素点的残差为第一数值的情况下，将所述遍历到的像素点的梯度值确定为所述第一数值。

此处，针对遍历到的像素点，在该遍历到的像素点的第一像素值和第二像素值相等的情况下，则认为以该遍历到的像素点为投影点的位置点所属的第一球体的第一球体位置信息预测正确。此处，该位置点为表征第一对象任一部位的第一球体上任一面片上的位置点。在该遍历到的像素点的第一像素值和第二像素值不相等的情况下，则认为以该遍历到的像素点为投影点的位置点所属的第一球体的第一球体位置信息预测错误。

在一种可能的实施方式中，第一数值例如为0。

S503：在所述遍历到的像素点的残差不为所述第一数值的情况下，基于所述遍历到的像素点的所述第二像素值，从所述多个第一球体中确定所述遍历到的像素点对应的目标第一球体，并从构成所述目标第一球体的多个面片中确定目标面片；

S504：确定所述目标面片上的至少一个目标顶点在所述相机坐标系中的目标三维位置信息，其中，在所述至少一个目标顶点位于所述目标三维位置信息所标识的位置的情况下，将所述遍历到的像素点进行重新渲染得到的新的第一像素值，和所述遍历到的像素点对应的第二像素值之间的残差确定为所述第一数值；

S505：基于所述目标顶点在所述相机坐标系中的第一三维位置信息和所述目标三维位置信息，得到所述遍历到的像素点的梯度值。

在本公开的一些实施例中，参见图6所示，提供了在遍历到的像素点的残差并非第一数值的情况下，确定目标三维位置信息的多种示例。在该示例中，面片为三角面片，也即构成第一球体的任一面片包括三条边以及三个顶点。

在该示例中，像素点P为遍历到的像素点，且P在图像坐标系中的坐标值表示为：P＝(u _P,v _P)。I _P(x)∈0,1表示像素点P的渲染函数。

在图6中，61表示目标面片；该目标面片为表征第一对象中第i个部位的第一球体中第j个面片。

表示目标面片中的第k个顶点，也即本公开实施例中的目标顶点。

62表示在相机所在方向将目标面片遮挡住的遮挡面片，将目标面片遮挡住的面片与目标面片属于不同的第一球体。

在图6中的a中，要将像素点P的第一像素值，渲染为与目标面片对应的第一像素值；在该示例中，在像素点P被遮挡面片62所遮挡，且目标面片61在图像坐标系中进行投影的情况下，都不会覆盖像素点P；因此，在相机坐标系中x轴方向、和y轴方向中任一方向调整目标顶点

的位置，都不会使得像素点P重新渲染后得到的新的第一像素值与目标面片对应的第一像素值相同，因此，在该种情况下，如图6中a和图6中e所示，可以首先在相机坐标系中x轴方向移动目标顶点

使得目标面片在在图像坐标系中投影的情况下，能够覆盖到像素点P，然后再在z轴方向调整目标顶点

的位置，使得目标面片中投影至像素点P的位置点Q，能够位于遮挡面片的前方(相对于相机所在位置而言)，进而得到目标顶点

在所述相机坐标系中的目标三维位置信息。

此处，像素点P的梯度值满足下述公式(2)和公式(3)：

其中，

表示像素点P在x轴方向的梯度值，

表示像素点P在z轴方向的梯度值。像素点P在y轴方向的梯度值为0。

在上述公式(2)和公式(3)中，δI _P表示像素点P的残差。

x ₀表示将目标顶点

沿着x轴方向进行移动前，目标顶点

在x轴上的坐标值；x ₁表示将目标顶点

沿着x轴方向进行移动后，目标顶点

在x轴上的坐标值。

Δz＝z ₀-z ₁表示目标面片中投影至像素点P的位置点Q与遮挡面片中投影至像素点P的位置点Q’之间的深度差，z ₀表示Q的深度值，z ₁表示Q’的深度值；

和Q之间的连线，与

和

之间的连线在M ₀处相交。λ表示超参数。Δ(·，·)表示两点之间的距离。

其中，在图6中的e中，

分别表示

和

在图像坐标系中的投影点。

在图6中的b中，要将像素点P的第一像素值，渲染为与目标面片对应的第一像素值；在该示例中，像素点P未被遮挡面片62所遮挡，因此，只需要沿着相机坐标系的x轴方向移动目标顶点

的位置，就会使得像素点P重新渲染后得到的新的第一像素值与目标面片对应的第一像素值相同，因此，在该种情况下，可以如图6中的b所示，可以在相机坐标系中x轴方向移动目标顶点

使得目标面片在在图像坐标系中投影的情况下，能够覆盖到像素点P，得到目标顶点

在所述相机坐标系中的目标三维位置信息。

在该种情况下，像素点P的梯度值满足上述公式(2)，像素点P在z轴方向和y轴方向的梯度值均为0。

在图6中的c中，要将像素点P的第一像素值，渲染为与目标面片对应的第一像素值；在该示例中，在像素点P被遮挡面片62所遮挡，且目标面片61在图像坐标系中进行投影的情况下，会覆盖像素点P，因此不需要在相机坐标系的x轴方向和y轴方向调整目标顶点

的位置，只需要根据图6中的e所示，在z轴方向调整目标顶点

在所述相机坐标系中的目标三维位置信息。

在该种情况下，像素点P的梯度值满足上述公式(3)，像素点P在x轴方向和y轴方向的梯度值均为0。

如图6中d所示，要将像素点P的第一像素值，渲染为与目标面片不同的第一像素值；在该示例中，在像素点P未被遮挡面片62所遮挡，目标面片61在图像坐标系中进行投影的情况下，会覆盖像素点P；此时，需要沿着相机坐标系的x轴方向移动目标顶点

的位置，就会使得像素点P重新渲染后得到的新的第一像素值与目标面片对应的第一像素值不相同，因此，在该种情况下，可以如图6中的d所示，可以在相机坐标系中x轴方向移动目标顶点

使得目标面片在在图像坐标系中投影的情况下，不会覆盖到像素点P，得到目标顶点

在所述相机坐标系中的目标三维位置信息。

在该种情况下，像素点P的梯度值满足上述公式(2)，像素点P在y轴方向和z轴方向的梯度值均为0。

采用上述方式，即能够得到第一渲染图像中每一个像素点的梯度值；第一渲染图像中所有像素点的梯度值，构成了第一渲染图像的梯度信息。

在上述S104中，在基于第一渲染图像的梯度信息，调整第一球体的第一球体位置信息的情况下，例如可以对第一球体的第一球体位置信息中至少一项进行调整，也可以对所述每个第一球体的中心点在所述相机坐标系中的第二三维位置信息、所述每个第一球体的三个坐标轴分别对应的长度、以及所述每个第一球体相对于所述相机坐标系的旋转角度中的至少一项进行调整，使得基于调整后的第一球体位置信息生成的新的第一渲染图像中，各个像素点的梯度值均向着趋向于第一数值的方向发生变化，进而能够通过多次迭代过程，使得第一球体位置信息逐渐逼近于真实值，提升第一球体位置信息的精度，进而最终提升第一对象的三维模型的精度。

参见图7所示，本公开实施例还提供一种神经网络生成方法，包括：

S701：利用待训练的神经网络，对第二图像中的第二对象进行三维位置信息预测处理，得到表征所述第二对象不同部位的多个第二球体中每个第二球体在相机坐标系中的第二球体位置信息；

S702：基于多个第二球体分别对应的第二球体位置信息，生成第二渲染图像；

S703：基于所述第二渲染图像、以及所述第二图像的语义标注图像，得到所述第二渲染图像梯度信息；

S704：基于所述第二渲染图像的梯度信息，更新所述待训练的神经网络，得到更新后的神经网络。

本公开实施例提供的神经网络的结构例如图3所示，此处不再赘述。

本公开实施例在利用待优化的神经网络对第二图像中的第二对象进行三维位置信息预测处理，得到表征第二图像中第二对象的三维模型的多个第二球体的第二球体位置信息的基础上，基于第二球体位置信息进行图像渲染，并基于图像渲染的结果，确定表征多个第二球体的第二球体位置信息正确性程度的梯度信息，并基于该梯度信息更新待优化的神经网络的，得到优化后的神经网络，使得优化后的神经网络具有更高的三维位置信息预测精度。

上述S702的实现过程与上述S102的实现过程类似；上述S703的实现过程与上述S103的实现过程类似，在此均不再赘述。

上述S704中，在基于第二渲染图像的梯度信息，更新待训练的神经网络的情况下，利用更新后的神经网络获得新的第二球体位置信息的基础上，基于新的第二球体位置信息所获取的新的第二渲染图像中，各个像素点的梯度值均向着趋向于第一数值的方向发生变化，进而能够通过多次对神经网络的优化，逐步提升神经网络对第二球体位置信息的预测精度。

基于上述内容可知，本公开实施例可以把某个像素上的梯度，传递给3D网格上的节点的欧式坐标，即可以使用物体轮廓、部件语义分割等图像信息，纠正3D物体模型的形状。以下提供一种本公开实施例的应用场景：

1、前项传播：对于从3D模型网格到图像像素；

根据给定的相机参数，利用小孔相机成像原理，计算每一个三角面片(上述的面片)在图像平面上的投影；对于图像平面上的每一个像素，计算这个像素所在的区域，距离相机距离最近的三角面片的索引(即在完整渲染时，这个像素是被哪一个三角面片渲染得到的)；一张每个像素保存着三角面片索引的图像为三角面索引(Face Index)(上述的面片索引)。此处，用

表示像素点(u，v)是否属于第i个部件，并称之为部件索引(Part Index)(上述的部位索引)；生成一张渲染图像，然后针对每一个部件(上述的部位)，单独从完整的渲染图像中提取一部分像素值，其中，提取的该部分的像素坐标在部件索引中属于当前部件。

2、反向传播：将像素的梯度回传给3D网格的节点；

1)由于x，y方向的情况相同，此处以x方向上的梯度回传为例进行说明。像素的值可以是RGB值，可以是灰度值，也可以是亮度值和二值，此处以二值的情况为例，即可见的为1，不可见的为0。一个像素上的梯度，要么是正方向(0到1)，要么是负方向(1到0)。为了将节点(上述的顶点)的欧式坐标和像素点的梯度联系起来，此处认为，在移动某个节点时，像素的值是线性变化的，而不是突变的。在没有遮挡出现的情况下：比如图6中的图a，

(表示目标面片中的第k个顶点)向右移动时，三角形(上述的目标面片)的一边覆盖了点P，I _P从0变为1，所以I _P随x的变化量如图6中的图a下方第一个折线图中的黑实线所示，那么节点的梯度

就是这个变化的斜率，如图6中的图a下方第二个折线图所画的黑实线所示。当像素点在某个三角面片的内部时，

在x上移动，I _P的变化是从1到0，如图6中的图c所示，此时，节点

的梯度向左，向右均不相同。综上，在

表示节点k的梯度的情况下，该节点属于第i个部件的第j个三角面片，那么存在上述公式(2)。而在遮挡的情况下，因为是部件级渲染，所以当前部件由于被其他部件遮挡，值不会被渲染，所以不管这个部件是否覆盖了这个像素点，该像素点在该部件的渲染图中的值为0，参考附图6，面片62不属于当前部件的三角面片，但面片62是最靠近相机平面的三角面片，所以x位于面片62内时，梯度不会发生变化，即恒等于0，如图6中的所有折线图中的虚线所示。

3、根据上述1和2部分，遍历所有像素，计算遍历得到的像素的梯度回传到3D模型的节点上的值；在多个像素对一个节点都有梯度回传的情况下，将所有的梯度进行累加；为了加速，此处可以使用并行加速的方法，可以使用cuda，也可以是CPU并行，独立计算每一个像素；最终通过此方式，得到了给定监督信息下3D模型节点的梯度。

采用上述方法，使用的监督信息不再局限于完整的渲染图片，可以利用物体的语义分割作为监督信息；在多个物体一起渲染的情况下，不同的物体也可以被视为部件，独立渲染，从而可以得知不同物体之间的位置关系。

本领域技术人员可以理解，在上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与三维模型生成方法对应的三维模型生成装置，由于本公开实施例中的装置与本公开实施例上述三维模型生成方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图8所示，为本公开实施例提供的一种三维模型生成装置的示意图，所述装置包括：第一获取部分81、第一生成部分82、第一梯度确定部分83、调整部分84、以及模型生成部分85；其中，

第一获取部分81，被配置为基于包含第一对象的第一图像，获取多个第一球体中每个第一球体在相机坐标系中的第一球体位置信息，所述多个第一球体分别表示所述第一对象不同部位；

第一生成部分82，被配置为基于所述多个第一球体的所述第一球体位置信息，生成第一渲染图像；

第一梯度确定部分83，被配置为基于所述第一渲染图像以及所述第一图像的语义分割图像，得到所述第一渲染图像的梯度信息；

调整部分84，被配置为基于所述第一渲染图像的梯度信息，调整所述多个第一球体的所述第一球体位置信息；

模型生成部分85，被配置为利用调整后的所述多个第一球体的所述第一球体位置信息，生成所述第一对象的三维模型。

在本公开的一些实施例中，所述第一生成部分82，在基于所述多个第一球体的所述第一球体位置信息，生成第一渲染图像的情况下，被配置为：

基于所述第一球体位置信息，确定构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息；

基于构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息，生成所述第一渲染图像。

在本公开的一些实施例中，所述第一生成部分82，在基于所述第一球体位置信息，确定构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息的情况下，被配置为：

基于构成模板球体的多个模板面片的模板顶点与所述模板球体的中心点之间的第一位置关系、以及所述每个第一球体的所述第一球体位置信息，确定构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息。

在本公开的一些实施例中，所述每个第一球体的所述第一球体位置信息包括：所述每个第一球体的中心点在所述相机坐标系中的第二三维位置信息、所述每个第一球体的三个坐标轴分别对应的长度、以及所述每个第一球体相对于所述相机坐标系的旋转角度。

在本公开的一些实施例中，所述第一生成部分82，在基于构成模板球体的多个模板面片的模板顶点与所述模板球体的中心点之间的第一位置关系、以及所述每个第一球体的第一球体位置信息，确定构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息的情况下，被配置为：

基于所述每个第一球体的三个坐标轴分别对应的长度以及所述每个第一球体相对于所述相机坐标系的旋转角度，对所述模板球体进行形状及旋转角度变换；

基于对所述模板球体进行形状及旋转角度变换的结果以及所述第一位置关系，确定各个模板顶点与变换后的模板球体的中心点之间的第二位置关系；

基于所述每个第一球体的中心点在所述相机坐标系中的第二三维位置信息以及所述第二位置关系，确定构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息。

在本公开的一些实施例中，所述第一获取部分81，还被配置为：获取所述第一图像的相机的投影矩阵；

所述第一生成部分82，在基于构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息，生成第一渲染图像的情况下，被配置为：

基于所述第一三维位置信息以及所述投影矩阵，确定第一渲染图像中每个像素点的部位索引以及面片索引；

在本公开的一些实施例中，所述第一生成部分82，在基于构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息，生成第一渲染图像的情况下，被配置为：

所述第一梯度确定部分83，在基于所述第一渲染图像以及所述第一图像的语义分割图像，得到所述第一渲染图像的梯度信息的情况下，被配置为：

在本公开的一些实施例中，所述第一渲染图像的梯度信息包括：所述第一渲染图像中每个像素点的梯度值；

遍历所述第一渲染图像中的各个像素点，针对遍历到的像素点在所述第一渲染图像中的第一像素值，以及所述遍历到的像素点在所述语义分割图像中的第二像素值，确定所述遍历到的像素点的梯度值。

在本公开的一些实施例中，所述第一梯度确定部分83，在针对遍历到的像素点在所述第一渲染图像中的第一像素值以及所述遍历到的像素点在所述语义分割图像中的第二像素值，确定所述遍历到的像素点的梯度值的情况下，被配置为：

根据所述遍历到的像素点的所述第一像素值，以及所述遍历到的像素点的所述第二像素值，确定所述遍历到的像素点的残差；

在所述遍历到的像素点的残差为第一数值的情况下，将所述遍历到的像素点的梯度值确定为所述第一数值；

在所述遍历到的像素点的残差不为所述第一数值的情况下，基于所述遍历到的像素点的所述第二像素值，从所述多个第一球体中确定所述遍历到的像素点对应的目标第一球体，并从构成所述目标第一球体的多个面片中确定目标面片；

确定所述目标面片上的至少一个目标顶点在所述相机坐标系中的目标三维位置信息，其中，在所述至少一个目标顶点位于所述目标三维位置信息所标识的位置的情况下，将所述遍历到的像素点进行重新渲染得到的新的第一像素值，和所述遍历到的像素点对应的第二像素值之间的残差确定为所述第一数值；

基于所述目标顶点在所述相机坐标系中的第一三维位置信息和所述目标三维位置信息，得到所述遍历到的像素点的梯度值。

在本公开的一些实施例中，所述第一获取部分81，在基于包含第一对象的第一图像，获取多个第一球体中每个第一球体在相机坐标系中的第一球体位置信息的情况下，被配置为：

利用预先训练的位置信息预测网络，对所述第一图像进行位置信息预测处理，得到所述多个第一球体中每个第一球体在所述相机坐标系中的第一球体位置信息。

参见图9所示，本公开实施例还提供一种神经网络生成装置，包括：

第二获取部分91，被配置为利用待训练的神经网络，对第二图像中的第二对象进行三维位置信息预测处理，得到表征所述第二对象不同部位的多个第二球体中每个第二球体在相机坐标系中的第二球体位置信息；

第二生成部分92，被配置为基于多个第二球体分别对应的第二球体位置信息，生成第二渲染图像；

第二梯度确定部分93，被配置为基于所述第二渲染图像、以及所述第二图像的语义标注图像，得到所述第二渲染图像梯度信息；

更新部分94，被配置为基于所述第二渲染图像的梯度信息，更新所述待训练的神经网络，得到更新后的神经网络。

关于装置中的各部分的处理流程、以及各部分之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

在本公开实施例以及其他的实施例中，“部分”可以是部分电路、部分处理器、部分程序或软件等等，当然也可以是单元，还可以是模块也可以是非模块化的。

本公开实施例还提供了一种计算机设备，如图10所示，为本公开实施例提供的计算机设备结构示意图，包括：

处理器11和存储器12；所述存储器12存储有所述处理器11可执行的机器可读指令，当计算机设备运行时，所述机器可读指令被所述处理器执行以实现下述步骤：

基于包含第一对象的第一图像，获取多个第一球体中每个第一球体在相机坐标系中的第一球体位置信息，所述多个第一球体分别表示所述第一对象不同部位；

基于所述多个第一球体的所述第一球体位置信息，生成第一渲染图像；

基于所述第一渲染图像以及所述第一图像的语义分割图像，得到所述第一渲染图像的梯度信息；

基于所述第一渲染图像的梯度信息，调整所述多个第一球体的所述第一球体位置信息，并利用调整后的所述多个第一球体的所述第一球体位置信息，生成所述第一对象的三维模型；

或者，所述机器可读指令被所述处理器执行以实现下述步骤：

利用待训练的神经网络，对第二图像中的第二对象进行三维位置信息预测处理，得到表征所述第二对象不同部位的多个第二球体中每个第二球体在相机坐标系中的第二球体位置信息；

基于多个第二球体分别对应的第二球体位置信息，生成第二渲染图像；

基于所述第二渲染图像、以及所述第二图像的语义标注图像，得到所述第二渲染图像梯度信息；

基于所述第二渲染图像的梯度信息，更新所述待训练的神经网络，得到更新后的神经网络。

上述指令的执行过程可以参考本公开实施例中所述的三维模型生成方法、及神经网络生成方法的步骤，此处不再赘述。

本公开实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述方法实施例中所述的三维模型生成方法或神经网络生成方法的步骤。其中，所述存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例所提供的三维模型生成方法或神经网络生成方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可被配置为执行上述方法实施例中所述的三维模型生成方法或神经网络生成方法的步骤，可参见上述方法实施例，在此不再赘述。

本公开实施例还提供一种计算机程序，所述计算机程序被处理器执行时实现前述实施例的任意一种方法。所述计算机程序产品可以通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品体现为计算机存储介质，在另一个可选实施例中，计算机程序产品体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

本公开实施例还提供了一种计算机程序，包括计算机可读代码，在所述计算机可读代码在电子设备中运行的情况下，所述电子设备中的处理器执行时实现如上述的三维模型生成方法，或上述的神经网络生成方法。

通过本公开实施例，在三维重建的任务中，可以优化重建模型的精准度，降低了高自由度模型的自遮挡产生的歧义性；并且，在深度学习中，通过本公开实施例，可以将图像和三维空间联系起来；从而提升了语义分割，三维重建等任务的准确性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应所述理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以以软件产品的形式体现出来，所述计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

工业实用性

本公开实施例提供了一种三维模型生成方法、神经网络生成方法及装置，其中，所述三维模型生成方法包括：基于包含第一对象的第一图像，获取多个第一球体中每个第一球体在相机坐标系中的第一球体位置信息，所述多个第一球体分别被配置为表示所述第一对象不同部位；基于所述多个第一球体的所述第一球体位置信息，生成第一渲染图像；基于所述第一渲染图像以及所述第一图像的语义分割图像，得到所述第一渲染图像的梯度信息；基于所述第一渲染图像的梯度信息，调整所述多个第一球体的所述第一球体位置信息，并利用调整后的所述多个第一球体的所述第一球体位置信息，生成所述第一对象的三维模型。本公开实施例生成的三维模型具有更高的精度。

Claims

一种三维模型生成方法，包括：

基于包含第一对象的第一图像，获取多个第一球体中每个第一球体在相机坐标系中的第一球体位置信息，所述多个第一球体分别表示所述第一对象不同部位；

基于所述多个第一球体的所述第一球体位置信息，生成第一渲染图像；

基于所述第一渲染图像以及所述第一图像的语义分割图像，得到所述第一渲染图像的梯度信息；

基于所述第一渲染图像的梯度信息，调整所述多个第一球体的所述第一球体位置信息，并利用调整后的所述多个第一球体的所述第一球体位置信息，生成所述第一对象的三维模型。
根据权利要求1所述三维模型生成方法，其中，所述基于所述多个第一球体的所述第一球体位置信息，生成第一渲染图像，包括：

基于所述第一球体位置信息，确定构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息；

基于构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息，生成所述第一渲染图像。
根据权利要求2所述的三维模型生成方法，其中，所述基于所述第一球体位置信息，确定构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息，包括：

基于构成模板球体的多个模板面片的模板顶点与所述模板球体的中心点之间的第一位置关系、以及所述每个第一球体的所述第一球体位置信息，确定构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息。
根据权利要求3所述的三维模型生成方法，其中，所述每个第一球体的所述第一球体位置信息包括：所述每个第一球体的中心点在所述相机坐标系中的第二三维位置信息、所述每个第一球体的三个坐标轴分别对应的长度、以及所述每个第一球体相对于所述相机坐标系的旋转角度。
根据权利要求4所述的三维模型生成方法，其中，所述基于构成模板球体的多个模板面片的模板顶点与所述模板球体的中心点之间的第一位置关系、以及所述每个第一球体的第一球体位置信息，确定构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息，包括：

基于所述每个第一球体的三个坐标轴分别对应的长度以及所述每个第一球体相对于所述相机坐标系的旋转角度，对所述模板球体进行形状及旋转角度变换；

基于对所述模板球体进行形状及旋转角度变换的结果以及所述第一位置关系，确定各个模板顶点与变换后的模板球体的中心点之间的第二位置关系；

基于所述每个第一球体的中心点在所述相机坐标系中的第二三维位置信息以及所述第二位置关系，确定构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息。
根据权利要求2-5任一项所述的三维模型生成方法，其中，

所述方法还包括：获取所述第一图像的相机的投影矩阵；

所述基于构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息，生成第一渲染图像，包括：

基于所述第一三维位置信息以及所述投影矩阵，确定第一渲染图像中每个像素点的部位索引以及面片索引；

基于确定的第一渲染图像中每个像素点的部位索引以及面片索引，生成所述第一渲染图像；

其中，任一像素点的部位索引标识所述任一像素点对应的所述第一对象上的部位；任一像素点的面片索引标识所述任一像素点对应的面片。
根据权利要求2-6任一项所述的三维模型生成方法，其中，所述基于构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息，生成第一渲染图像，包括：

针对所述每个第一球体，根据构成所述每个第一球体的多个面片的各个顶点分别在所述相机坐标系中的第一三维位置信息，生成与所述每个第一球体对应的第一渲染图像；

所述基于所述第一渲染图像以及所述第一图像的语义分割图像，得到所述第一渲染图像的梯度信息，包括：

针对所述每个第一球体，根据所述每个第一球体对应的第一渲染图像和语义分割图像，得到与所述每个第一球体对应的第一渲染图像的梯度信息。
根据权利要求1-7任一项所述的三维模型生成方法，其中，所述第一渲染图像的梯度信息包括：所述第一渲染图像中每个像素点的梯度值；

所述基于所述第一渲染图像以及所述第一图像的语义分割图像，得到所述第一渲染图像的梯度信息，包括：

遍历所述第一渲染图像中的各个像素点，针对遍历到的像素点在所述第一渲染图像中的第一像素值，以及所述遍历到的像素点在所述语义分割图像中的第二像素值，确定所述遍历到的像素点的梯度值。
根据权利要求8所述的三维模型生成方法，其中，所述针对遍历到的像素点在所述第一渲染图像中的第一像素值，以及所述遍历到的像素点在所述语义分割图像中的第二像素值，确定所述遍历到的像素点的梯度值，包括：

根据所述遍历到的像素点的所述第一像素值，以及所述遍历到的像素点的所述第二像素值，确定所述遍历到的像素点的残差；

在所述遍历到的像素点的残差为第一数值的情况下，将所述遍历到的像素点的梯度值确定为所述第一数值；

在所述遍历到的像素点的残差不为所述第一数值的情况下，基于所述遍历到的像素点的所述第二像素值，从所述多个第一球体中确定所述遍历到的像素点对应的目标第一球体，并从构成所述目标第一球体的多个面片中确定目标面片；

确定所述目标面片上的至少一个目标顶点在所述相机坐标系中的目标三维位置信息，其中，在所述至少一个目标顶点位于所述目标三维位置信息所标识的位置的情况下，将所述遍历到的像素点进行重新渲染得到的新的第一像素值，和所述遍历到的像素点对应的第二像素值之间的残差确定为所述第一数值；

基于所述目标顶点在所述相机坐标系中的第一三维位置信息和所述目标三维位置信息，得到所述遍历到的像素点的梯度值。
根据权利要求1-9任一项所述的三维模型生成方法，其中，所述基于包含第一对象的第一图像，获取多个第一球体中每个第一球体在相机坐标系中的第一球体位置信息，包括：

利用预先训练的位置信息预测网络，对所述第一图像进行位置信息预测处理，得到所述多个第一球体中每个第一球体在所述相机坐标系中的第一球体位置信息。
一种神经网络生成方法，包括：

利用待训练的神经网络，对第二图像中的第二对象进行三维位置信息预测处理，得到表征所述第二对象不同部位的多个第二球体中每个第二球体在相机坐标系中的第二球体位置信息；

基于多个第二球体分别对应的第二球体位置信息，生成第二渲染图像；

基于所述第二渲染图像、以及所述第二图像的语义标注图像，得到所述第二渲染图像梯度信息；

基于所述第二渲染图像的梯度信息，更新所述待训练的神经网络，得到更新后的神经网络。
一种三维模型生成装置，包括：

第一获取部分，被配置为基于包含第一对象的第一图像，获取多个第一球体中每个第一球体在相机坐标系中的第一球体位置信息，所述多个第一球体分别表示所述第一对象不同部位；

第一生成部分，被配置为基于所述多个第一球体的所述第一球体位置信息，生成第一渲染图像；

第一梯度确定部分，被配置为基于所述第一渲染图像以及所述第一图像的语义分割图像，得到所述第一渲染图像的梯度信息；

调整部分，被配置为基于所述第一渲染图像的梯度信息，调整所述多个第一球体的所述第一球体位置信息；

模型生成部分，被配置为利用调整后的所述多个第一球体的所述第一球体位置信息，生成所述第一对象的三维模型。
一种神经网络生成装置，包括：

第二获取部分，被配置为利用待训练的神经网络，对第二图像中的第二对象进行三维位置信息预测处理，得到表征所述第二对象不同部位的多个第二球体中每个第二球体在相机坐标系中的第二球体位置信息；

第二生成部分，被配置为基于多个第二球体分别对应的第二球体位置信息，生成第二渲染图像；

第二梯度确定部分，被配置为基于所述第二渲染图像、以及所述第二图像的语义标注图像，得到所述第二渲染图像梯度信息；

更新部分，被配置为基于所述第二渲染图像的梯度信息，更新所述待训练的神经网络，得到更新后的神经网络。
一种电子设备，包括：处理器、以及存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述处理器被配置为执行所述存储器中存储的机器可读指令，所述机器可读指令被所述处理器执行时，所述处理器执行如权利要求1至11任一项所述的方法的步骤。
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被电子设备运行时，所述电子设备执行如权利要求1至11任意一项所述的方法的步骤。
一种计算机程序，包括计算机可读代码，在所述计算机可读代码在电子设备中运行的情况下，所述电子设备中的处理器执行时实现权利要求1至11中任意一项所述的方法。