WO2022233137A1

WO2022233137A1 - 三维网格重建方法、装置、设备及存储介质

Info

Publication number: WO2022233137A1
Application number: PCT/CN2021/137703
Authority: WO
Inventors: 乔宇; 栾天宇; 王亚立; 张钧皓; 王喆; 周志鹏
Original assignee: 中国科学院深圳先进技术研究院
Priority date: 2021-05-07
Filing date: 2021-12-14
Publication date: 2022-11-10
Also published as: CN113298948A; CN113298948B

Abstract

本申请适用于三维重建技术领域，提供了一种三维网格重建方法、装置、设备及存储介质。方法包括：根据至少一个第一目标图像的全局图像特征，生成目标的第一三维网格；提取第一三维网格的骨架，得到第一骨架；根据至少一个第二目标图像的局部图像特征，生成第二骨架；根据第二骨架与第一骨架之间的骨架误差，对第一三维网格进行调整，得到第二骨架对应的第二三维网格。如此，可以结合图像的全局图像特征和局部图像特征，对在整体上的准确性和鲁棒性较高的第一三维网格进行调优，使得调优后得到的第二三维网格即具有整体上的准确性和鲁棒性，也具有局部细节和深度上的准确度，提高了三维网格重建效果。

Description

三维网格重建方法、装置、设备及存储介质

技术领域

本申请属于三维重建技术领域，尤其涉及一种三维网格重建方法、装置、设备及存储介质。

背景技术

三维重建是指对三维物体建立适合计算机表示和处理的三维模型。三维模型是一种物体的多边形表示，通常用计算机或者其它视频设备进行显示。三维模型也称三维网格模型，三维模型表面用三维网格来表示，三维网格及其内部区域为对应的三维模型。因此在对三维模型进行重建的过程中，对三维模型表面的三维网格进行重建是关键。

目前的三维网格重建方法通常分为两种思路：第一种思路是提取图像的局部图像特征，基于图像的局部图像特征生成三维网格。这种思路可以使得生成的三维网格在局部细节和深度上的准确度较高。第二种思路是提取图像的全局图像特征，基于图像的全局图像特征生成三维网格。这种思路可以使得生成的三维网格在整体上的准确性和鲁棒性较高。

但是，上述第一种思路忽略了图像的整体特征，导致生成的三维网格在整体的准确性和鲁棒性不高。上述第二种思路忽略了图像的局部特征，导致生成的三维网格在局部细节和深度上不够准确。因此，这两种思路的三维网格重建效果都较低。

发明内容

本申请实施例提供了一种三维网格重建方法、装置、设备及存储介质，可以解决相关技术中三维网格重建效果较低的问题。

第一方面，本申请实施例提供了一种三维网格重建方法，包括：

根据至少一个第一目标图像的全局图像特征，生成目标的第一三维网格，所述第一目标图像为包含所述目标的图像；

提取所述第一三维网格的骨架，得到第一骨架，所述第一骨架用于表征所述第一三维网格的内部结构；

根据至少一个第二目标图像的局部图像特征，生成第二骨架，所述第二目标图像为包含所述目标的图像，所述第二骨架用于表征所述目标的内部结构；

根据所述第二骨架与所述第一骨架之间的骨架误差，对所述第一三维网格进行调整，得到所述第二骨架对应的第二三维网格。

可选地，所述根据至少一个第一目标图像的全局图像特征，生成目标的第一三维网格，包括：

根据所述至少一个第一目标图像的全局图像特征，确定所述目标的空间占用信息，所述空间占用信息用于指示空间中每个点被所述目标占用的概率；

根据所述空间占用信息，生成所述目标的三维网格，将生成的三维网格作为所述第一三维网格。

可选地，所述根据至少一个第二目标图像的局部图像特征，生成所述目标的第二骨架，包括：

根据所述至少一个第二目标图像中每个第二目标图像的局部图像特征，生成每个第二目标图像对应的骨架节点热图，所述骨架节点热图用于指示所述目标的骨架中每个节点在对应第二目标热图中不同位置出现的概率；

根据每个第二目标图像对应的骨架节点热图，生成每个第二目标图像对应的二维骨架；

根据所述至少一个第二目标图像对应的二维骨架，生成所述目标的三维骨架，将生成的三维骨架作为所述第二骨架。

可选地，所述根据每个第二目标图像对应的骨架节点热图，生成每个第二目标图像对应的二维骨架，包括：

根据每个第二目标图像对应的骨架节点热图，确定每个第二目标图像对应的骨架节点；

根据每个第二目标图像对应的骨架节点以及所述目标的预设拓扑结构，生成每个第二目标图像对应的二维骨架。

可选地，所述第二骨架与所述第一骨架之间的骨架误差包括所述第一骨架和所述第二骨架中对应的多对骨骼中每对骨骼之间的角度误差、平移误差和非线性延展误差，所述非线性延展误差是指每对骨骼的长度不同引起的误差。

可选地，所述根据所述第二骨架与所述第一骨架之间的骨架误差，对所述第一三维网格进行调整，得到所述第二骨架对应的第二三维网格之前，还包括：

对于所述第一骨架和所述第二骨架中对应的多对骨骼中的每对骨骼，确定所述每对骨骼之间的角度误差；

根据所述每对骨骼之间的角度误差，确定所述每对骨骼之间的平移误差；

根据所述每对骨骼之间的角度误差和平移误差，确定所述每对骨骼之间的非线性延展误差。

可选地，所述根据所述第二骨架与所述第一骨架之间的骨架误差，对所述第一三维网格进行调整，得到所述第二骨架对应的第二三维网格，包括：

根据所述第二骨架与所述第一骨架之间的骨架误差，确定所述第二骨架对应的第二三维网格与所述第一三维网格之间的空间映射关系；

根据所述第二三维网格与所述第一三维网格之间的空间映射关系，对所述第一三维网格进行空间变换，得到所述第二三维网格。

可选地，所述第二骨架与所述第一骨架之间的骨架误差包括所述第一骨架和所述第二骨架中对应的多对骨骼中每对骨骼之间的角度误差、平移误差和非线性延展误差；

所述根据所述第二骨架与所述第一骨架之间的骨架误差，确定所述第二骨架对应的第二三维网格与所述第一三维网格之间的空间映射关系，包括：

根据所述第一骨架与所述第二骨架中对应的多对骨骼中每对骨骼之间的角度误差、平移误差和非线性延展误差，确定所述第二三维网格上的网格顶点在所述多对骨骼中每对骨骼上的分量与所述第一三维网格上的网格顶点之间的空间映射关系；

根据所述第二三维网格上的网格顶点在所述多对骨骼中每对骨骼上的分量与所述第一三维网格上的网格顶点之间的空间映射关系，对所述第二三维网格上的网格顶点在所述多对骨骼上的分量进行加和处理，得到所述第二三维网格上的网格顶点与所述第一三维网格上的网格顶点之间的空间映射关系。

可选地，所述根据所述第一骨架与所述第二骨架中对应的多对骨骼中每对骨骼之间的角度误差、平移误差和非线性延展误差，确定所述第二三维网格上的网格顶点在所述多对骨骼中每对骨骼上的分量与所述第一三维网格上的网格顶点之间的空间映射关系，包括：

根据所述第一骨架与所述第二骨架中对应的多对骨骼中每对骨骼之间的角度误差、平移误差和非线性延展误差，通过以下公式，确定所述第二三维网格上的网格顶点在所述多对骨骼中每对骨骼上的分量与所述第一三维网格上的网格顶点之间的空间映射关系：

其中，

为所述第二三维网格上的第j个网格顶点在所述多对骨骼中第i对骨骼上的分量，

为所述第一三维网格上的第j个网格顶点，Ψ ⁽ⁱ⁾为所述第i对骨骼之间的角度误差，T ⁽ⁱ⁾为所述第i对骨骼之间的平移误差，Δ ⁽ⁱ⁾为所述第i对骨骼之间的非线性延展误差，W _j,i为所述第一三维网格上的第j个网格顶点和所述第i对骨骼对应的权重，i和j均为正整数。

可选地，所述根据所述第二三维网格上的网格顶点在所述多对骨骼中每对骨骼上的分量与所述第一三维网格上的网格顶点之间的空间映射关系，对所述第二三维网格上的网格顶点在所述多对骨骼上的分量进行加和处理，得到所述第二三维网格上的网格顶点与所述第一三维网格上的网格顶点之间的空间映射关系，包括：

根据所述第二三维网格上的网格顶点在所述多对骨骼中每对骨骼上的分量与所述第一三维网格上的网格顶点之间的空间映射关系，通过以下公式，对所述第二三维网格上的网格顶点在所述多对骨骼上的分量进行加和处理，得到所述第二三维网格上的网格顶点与所述第一三维网格上的网格顶点之间的空间映射关系：

其中，

为所述第二三维网格上的第j个网格顶点，

为所述第二三维网格上的第j个网格顶点在所述多对骨骼中第i对骨骼上的分量，所述A _j,i为所述第二三维网格上的第j个网格顶点在所述多对骨骼中第i对骨骼上的分量对应的权重。

可选地，所述第二三维网格与所述第一三维网格之间的空间映射关系包括所述第二三维网格上的网格顶点与所述第一三维网格上的网格顶点之间的空间映射关系；

所述根据所述第二三维网格与所述第一三维网格之间的空间映射关系，对所述第一三维网格进行空间变换，得到所述第二三维网格，包括：

根据所述第二三维网格上的网格顶点与所述第一三维网格上的网格顶点之间的空间映射关系，对所述第一三维网格的网格顶点的空间位置进行变换，得到所述第二三维网格。

第二方面，提供了一种三维网格重建装置，该装置包括：

第一生成模块，用于根据至少一个第一目标图像的全局图像特征，生成目标的第一三维网格，所述第一目标图像为包含所述目标的图像；

提取模块，用于提取所述第一三维网格的骨架，得到第一骨架，所述第一骨架用于表征所述第一三维网格的内部结构；

第二生成模块，用于根据至少一个第二目标图像的局部图像特征，生成第二骨架，所述第二目标图像为包含所述目标的图像，所述第二骨架用于表征所述目标的内部结构；

调整模块，用于根据所述第二骨架与所述第一骨架之间的骨架误差，对所述第一三维网格进行调整，得到所述第二骨架对应的第二三维网格。

可选地，第一生成模块用于：

可选地，第二生成模块用于：

可选地，第二生成模块用于用于：

可选地，所述装置还包括确定模块，确定模块用于：

可选地，所述调整模块包括：

确定单元，用于根据所述第二骨架与所述第一骨架之间的骨架误差，确定所述第二骨架对应的第二三维网格与所述第一三维网格之间的空间映射关系；

变换单元，用于根据所述第二三维网格与所述第一三维网格之间的空间映射关系，对所述第一三维网格进行空间变换，得到所述第二三维网格。

可选地，所述第二骨架与所述第一骨架之间的骨架误差包括所述第一骨架和所述第二骨架中对应的多对骨骼中每对骨骼之间的角度误差、平移误差和非线性延展误差；确定单元用于：

可选地，所述确定单元用于：

其中，

可选地，所述确定单元用于：

其中，

为所述第二三维网格上的第j个网格顶点，

可选地，所述第二三维网格与所述第一三维网格之间的空间映射关系包括所述第二三维网格上的网格顶点与所述第一三维网格上的网格顶点之间的空间映射关系；所述调整模块用于：

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一项所述的方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在计算机设备上运行时，使得计算机设备执行上述第一方面中任一项所述的方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

本申请实施例与现有技术相比存在的有益效果是：

本申请实施例中，一方面可以根据至少一个第一目标图像的全局图像特征，生成目标的第一三维网格，以及提取第一三维网格的第一骨架，所生成的第一三维网格和第一骨架在整体上的准确性和鲁棒性较高。另一方面可以根据至少一个第二目标图像的局部图像特征，生成第二骨架，所生成的第二骨架在局部细节和深度上的准确度较高。之后，通过根据第二骨架与第一骨架之间的骨架误差，对第一三维网格进行调整，可以结合目标图像的全局图像特征和局部图像特征，对在整体上的准确性和鲁棒性较高的第一三维网格进行调优，使得调优后的得到的第二三维网格即具有一定的整体上的准确性和鲁棒性，也具有一定的局部细节和深度上的准确度，在整体上的准确性和鲁棒性、以及局部细节和深度上的准确度之间取得了一定的平衡，进一步完善了三维网格重建结果，提高了三维网格重建效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种三维网格重建方法的流程图；

图2是本申请实施例提供的一种三维网格重建系统的逻辑结构示意图；

图3是本申请实施例提供的一种人体三维模型重建方法的流程图；

图4是本申请实施例提供的一种三维网格重建装置的结构框图；

图5是本申请实施例提供的一种计算机设备的结构框图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。另外，在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

为了便于理解，首先对本申请实施例涉及的应用场景进行说明。

本申请实施例提供的三维网格重建方法应用于对目标的三维网格进行重建。其中，目标为待重建的对象，目标可以预习设置或人为指定。比如，目标可以包括生物、非生物或场景等。示例地，生物可以为人体或动物等，或者为生物中的组织或器官等；非生物可以为车辆、障碍物等。另外，目标可以是显示世界中的实体，也可以为虚构的物体。本申请实施例对待重建目标的具体类型不做限定。

另外，本申请实施例提供的三维网格重建方法还可以应用于任何需要更高精度的三维网格的应用领域，比如虚拟现实游戏、智能城市、导航或自动驾驶等领域。

另外，本申请实施例提供的三维网格重建方法可以基于至少一个目标图像来对目标的三维网格进行重建。比如，至少一个目标图像可以为视频中的至少一个视频帧，本申请实施例可以基于视频来对目标的三维网格进行重建。

接下来，对本申请实施例涉及的实施环境进行说明。

本申请实施例提供的三维网格重建方法可以应用于计算机设备中。比如，该计算机设备安装有图像处理软件，该图像处理软件可以实现本申请实施例提供的三维网格重建方法。比如，该图像处理软件可以对视频中的至少一个视频帧进行处理，得到准确度较高的三维网格。其中，计算机设备可以为终端设备或服务器，终端设备可以为手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等，本申请实施例对该计算机设备的具体类型不作任何限制。

接下来，对本申请实施例提供的三维网格重建方法进行详细说明。

图1是本申请实施例提供的一种三维网格重建方法的流程图，该方法应用于计算机设备中，如图1所示，该方法包括如下步骤：

步骤101：根据至少一个第一目标图像的全局图像特征，生成目标的第一三维模型，第一目标图像为包含目标的图像。

其中，目标为待重建的对象。其中，至少一个第一目标图像包括一个或多个第一目标图像。这至少一个第一目标图像可以从本地存储的数据中获取得到，可以为其他设备发送得到，也可以从网络中下载得到，本申请实施例对这至少一个第一目标图像的获取方式不做限定。

另外，这至少一个第一目标图像还可以为第一视频中的至少一个视频帧，比如，可以从第一视频中获取至少一个视频帧，将这至少一个视频帧作为至少一个第一目标图像。这至少一个视频帧可以为连续的视频帧，也可以为非连续的视频帧。当然，这至少一个第一目标图像也可以为其他类型的包含目标的图像，本申请实施例对此不做限定。

其中，全局图像特征也称整体特征。第一目标图像的全局图像特征是指能表征第一目标图像的整幅图像上的特征，用于描述第一目标图像或第一目标图像中目标的整体特性。比如，全局图像特征可以包括颜色、形状、纹理和结构等特征中的一种或多种。

本申请实施例中，可以先获取至少一个第一目标图像，对这至少一个第一目标图像中的每个第一目标图像进行特征提取，得到每个第一目标图像的全局图像特征。然后，根据至少一个第一目标图像的全局图像特征，对目标的三维网格进行重建，得到第一三维网格。

作为一个示例，可以通过第一特征提取模型，对第一目标图像进行特征提取，得到第一目标图像的全局图像特征。其中，第一特征提取模型用于提取图像的全局图像特征。第一特征提取模型可以为神经网络模型，比如CNN(Convolutional Neural Networks，卷积神经网络)模型或ResNet(残差卷积神经网络)模型等。

作为一个示例，根据至少一个第一目标图像的全局图像特征，生成目标的第一三维模型的操作可以包括如下步骤：

1)根据至少一个第一目标图像的全局图像特征，确定目标的空间占用信息。

其中，该空间占用信息用于指示空间中每个点被目标占用的概率。空间中每个点被目标占用的概率在0-1之间。比如，空间中的某个点被目标的占用的概率可以为0、0.3、0.5、0.8或1等。

作为一个示例，可以通过分类网络模型，对至少一个第一目标图像的全局图像特征进行处理，得到目标的空间占用信息。其中，分类网络模型用于根据至少一个图像的全局图像特征生成待重建物体的空间占用信息。该分类网络模型可以为神经网络模型，比如CNN模型或密集网络模型等。

另外，在确定目标的空间占用信息的过程中，还可以通过密集采样来实现空间有效范围内所有点的占用概率的估计。

2)根据目标的空间占用信息，生成目标的三维网格，将生成的三维网格作为第一三维网格。

根据目标的空间占用信息，可以确定空间中哪些点被目标占用，哪些点未被目标占用。因此，根据目标的空间占用信息可以确定出空间中被目标占用的点，进而根据空间中被目标占用的点生成目标的三维模型表面的三维网格(第一三维网格)。

作为一个示例，可以根据目标的空间占用信息确定空间中被目标占用的概率为指定概率的点，然后根据空间中被目标占用的概率为指定概率的点，生成第一三维网格。其中，指定概率可以预先设置，比如指定概率为0.5。

作为另一个示例，可以根据目标的空间占用信息确定空间中被目标占用的点，根据空间中被目标占用的点生成目标的第一三维模型，将第一三维模型表面的三维网格确定为第一三维网格。

作为一个示例，可以根据目标的空间占用信息，通过网格化算法生成第一三维网格。其中，该网格化算法可以为立方体行军算法等。

比如，可以通过网格化算法，确定目标的空间占用信息与第一三维网格中各个顶点的映射关系，然后根据目标的空间占用信息与第一三维网格中各个顶点的映射关系，生成第一三维网格。

另外，还可以根据至少一个第一目标图像的全局图像特征，确定目标的颜色空间信息，颜色空间信息用于指示目标表面的颜色。然后根据目标的颜色空间信息，生成第一三维网格表面的颜色。比如，可以根据目标的颜色空间信息，通过网格化算法生成第一三维网格表面的颜色。其中，颜色空间可以为RGB颜色空间。

也即是，网格化算法不仅局限于位置的占用，对于颜色空间也可以做同样的推广，因此可以通过估计空间占用信息相似的算法来估计颜色空间信息，再根据颜色空间信息采用网格化算法生成第一三维网格表面的颜色。

在一个实施例中，可以根据至少一个第一目标图像，通过初始三维重建模型生成目标的第一三维网格。其中，初始三维重建模型包括第一特征提取网络和第一全连接网络，第一特征提取网络用于提取图像的全局图像特征，第一全连接网络用于根据提取的全局图像特征生成三维网格。

比如，可以将至少一个第一目标图像作为初始三维重建模型的输入，通过第一特征提取网络提取网络提取至少一个第一目标图像的全局图像特征，将提取的全局图像特征作为第一全连接网络的输入。通过第一全连接网络，根据至少一个第一目标图像的全局图像特征生成第一三维网格。

其中，初始三维重建模型可以预先根据第一样本数据训练得到。其中，第一样本数据可以包括样本目标图像以及样本目标图像对应的三维网格。

步骤102：提取第一三维网格的骨架，得到第一骨架，第一骨架用于表征第一三维网格的内部结构。

其中，第一骨架在第一三维网格对应的第一三维模型内部生成的、可以表征整个第一三维模型的结构信息的树状结构。

作为一个示例，提取第一三维网格的骨架可以包括以下几种实现方式：

第一种实现方式，根据第一三维网格上的网格顶点，以及三维网格上的网格顶点与三维网格的骨架之间的映射关系，来确定第一三维网格的骨架，将确定的骨架作为第一骨架。

也即是，可以根据三维模型表面的三维网格的网格顶点与三维模型的骨架之间的映射关系，确定第一三维网格上的网格顶点对应的骨架，将确定的骨架作为第一骨架。

其中，该映射关系可以预先获取得到，也可以根据第二样本数据进行学习得到。其中，第二样本数据可以包括多个样本三维网格以及每个样本三维网格对应的样本骨架。每个样本三维网格对应的样本骨架可以由人工标注得到。

第二种实现方式，通过骨架提取模型提取第一三维网格的骨架，得到第一骨架。

比如，可以将第一三维网格数据作为该骨架提取模型的输入，通过该骨架提取模型确定第一骨架。

其中，骨架提取模型用于提取三维网格的骨架。该骨架提取模型可以根据第三样本数据进行训练得到。第三样本数据可以包括多个样本三维网格以及每个样本三维网格对应的样本骨架。每个样本三维网格对应的样本骨架可以由人工标注得到。

第三种实现方式，采用骨架估计算法，确定第一三维网格的骨架，得到第一骨架。其中，骨架估计算法用于确定三维网格的骨架，具体可以为中轴面提取算法等。

比如，可以根据预设拓扑结构，采用骨架估计算法，确定第一三维网格的骨架，得到第一骨架。其中，预设拓扑结构可以预先设置，可以根据待重建的目标的拓扑结构进行设置，目标的拓扑结构可以根据目标的结构特性确定得到。

第三种实现方式中直接采用骨架估计算法来确定第一三维网格的骨架，算法较为简单，骨架提取效率较高。

步骤103：根据至少一个第二目标图像的局部图像特征，生成第二骨架，第二目标图像为包含目标的图像，第二骨架用于表征目标的内部结构。

其中，至少一个第二目标图像包括一个或多个第二目标图像。这至少一个第二目标图像可以从本地存储的数据中获取得到，可以为其他设备发送得到，也可以从网络中下载得到，本申请实施例对这至少一个第二目标图像的获取方式不做限定。

另外，这至少一个第二目标图像还可以为第二视频中的至少一个视频帧，比如，可以从第二视频中获取至少一个视频帧，将这至少一个视频帧作为至少一个第二目标图像。这至少一个视频帧可以为连续的视频帧，也可以为非连续的视频帧。当然，这至少一个第二目标图像也可以为其他类型的包含目标的图像，本申请实施例对此不做限定。

需要说明的是，本申请实施例所述的至少一个第二目标图像与上述至少一个第一目标图像可以为相同，也可以为不同，本申请实施例对此不做限定。另外，上述第一视频与第二视频可以为相同视频，也可以为不同视频，本申请实施例对此也不做限定。

其中，局部图像特征也称局部特征。第二目标图像的局部图像特征是第二目标图像的图像特征的局部表达，用于描述第二目标图像具有的局部特性。与全局图像特征相比，局部图像特征具有在图像中蕴含数量丰富、特征间相关度小、遮挡情况下不会因为部分特征的消失而影响其他特征的检测和匹配等特点。

本申请实施例中，可以先获取至少一个第二目标图像的局部图像特征，对这至少一个第二目标图像中的每个第二目标图像进行特征提取，得到每个第二目标图像的局部图像特征。然后，根据至少一个第二目标图像的局部图像特征，生成第二骨架。

作为一个示例，可以通过第二特征提取模型，对第二目标图像进行特征提取，得到第二目标图像的局部图像特征。其中，第二特征提取模型用于提取图像的局部图像特征。第二特征提取模型可以为神经网络模型，比如CNN模型或HRNet(高分辨率神经网络)模型等。

在一种可能的实现方式中，本申请实施例中，还可以根据至少一个第二目标图像，通过第一骨架模型生成目标的三维骨架。其中，第一骨架模型可以包括第二特征提取网络和骨架生成网络，第二特征提取网络用于提取图像的局部图像特征，骨架生成网络用于根据提取的局部图像特征生成骨架。

比如，可以将至少一个第二目标图像作为第一骨架模型的输入，通过第二特征提取网络提取至少一个第二目标图像的局部图像特征，将提取的局部图像特征作为骨架生成网络的输入。通过骨架生成网络，根据至少一个第二目标图像的局部图像特征生成目标的第二骨架。

作为一个示例，骨架生成网络还可以包括二维骨架生成网络和三维骨架生成网络，二维骨架生成网络用于根据至少一个第二目标图像的局部图像特征生成目标的至少一个二维骨架，将至少一个二维骨架作为三维骨架生成网络的输入。三维骨架生成网络用于根据至少一个二维骨架生成目标的三维骨架。

其中，第一骨架模型可以预先根据第四样本数据训练得到。第四样本数据可以包括样本目标图像以及样本目标图像对应的样本骨架。

作为一个示例，根据至少一个第二目标图像的局部图像特征，生成第二骨架的操作包括如下步骤：

1)根据至少一个第二目标图像中每个第二目标图像的局部图像特征，生成每个第二目标图像对应的骨架节点热图。

其中，每个第二目标图像对应的骨架节点热图用于指示目标的骨架中每个节点在每个第二目标热图中不同位置出现的概率。骨架中的节点是指骨架树状结构的节点，包括骨架树状结构的根节点、子节点和叶子节点。

其中，骨架节点热图包括骨架中多个节点的热图，每个节点的热图用于指示每个节点在对应第二目标热图中不同位置出现的概率，某个位置的概率越大，表示该节点在该位置出现的可能性越高。

需要说明的是，骨架节点热图可以用于表征第二骨架。通过骨架节点热图来表征骨架具有以下优点：1)骨架节点热图是连续的函数，可以很好地适配深度学习网络模型的学习，使得生成第二骨架的鲁棒性和稳定性更高。2)骨架节点热图可以很好地标记骨架节点的位置。3)骨架节点热图不仅可以表征骨架节点的位置，还可以表征骨架节点估计的误差，便于生成较为准确的骨架。

2)根据每个第二目标图像对应的骨架节点热图，生成每个第二目标图像对应的二维骨架。

可以先根据每个第二目标图像对应的骨架节点热图，确定每个第二目标图像对应的骨架节点。然后，根据每个第二目标图像对应的骨架节点以及预设拓扑结构，生成每个第二目标图像对应的二维骨架。

其中，预设拓扑结构可以预先设置，可以根据待重建的目标的拓扑结构进行设置，目标的拓扑结构可以根据目标的结构特性确定得到。

作为一个示例，可以根据每个第二目标图像对应的骨架节点热图，可以确定骨架节点在每个第二目标图像中出现概率最大的位置，将骨架节点出现概率最大的位置确定为骨架节点的位置。然后，根据预设拓扑结构，对每个第二目标图像对应的骨架节点的位置进行连接，以生成每个第二目标图像对应的二维骨架。

3)根据至少一个第二目标图像对应的二维骨架，生成目标的三维骨架，将生成的三维骨架作为第二骨架。

其中，三维骨架包括骨架的二维位置信息和深度信息。也即是，目标的三维骨架包括不同深度的二维骨架。

作为一个示例，可以根据一个第二目标图像对应的二维骨架以及目标的先验信息，生成目标的三维骨架。其中，目标的先验信息包括目标的深度信息，当然，还可以包括其他信息。示例地，目标的先验信息可以预先根据目标的多个样本三维骨架的深度信息进行学习得到。示例地，目标的深度信息可以包括目标在不同角度的空间几何测量信息。

作为另一个示例，可以将多个第二目标图像对应的二维骨架进行融合处理，以获得包括丰富的二维位置信息和深度信息的三维骨架。

在一种可能的实现方式中，可以根据至少一个第二目标图像对应的二维骨架，通过第二骨架模型，生成目标的三维骨架。其中，第二骨架模型用于根据至少一个二维骨架生成三维骨架。该第二骨架模型可以预先根据第五样本数据进行训练得到，第五样本数据可以包括至少一个样本二维骨架以及对应的样本三维骨架。示例地，第二骨架模型中的网络可以为上述三维骨架生成网络。

另外，本申请实施例中待重建的目标可以为刚体，也可以为非刚体。若待重建的目标为非刚体，还可以根据多个第二目标图像对应的二维骨架、多个第二目标图像的连续信息、以及目标的先验信息，来生成非刚体的目标得到三维骨架以及生成的三维骨架在每个第二目标图像中的变化信息。比如，多个第二目标图像可以为连续的多个视频帧。

另外，在根据至少一个第二目标图像的局部图像特征，生成目标的第二骨架之后，还可以确定第二骨架与第一骨架之间的骨架误差，以便根据第二骨架与第一骨架之间的骨架误差，以及第一三维网格，来生成目标的第二三维网格。

其中，第二骨架与第一骨架之间的骨架误差可以包括角度误差、平移误差和非线性延展误差中的一种或多种，非线性延展误差是指骨架中的对应骨骼长度不同引起的误差。

其中，骨架中的骨骼是指骨架中相互连接的两个节点之间的连接部分。比如，骨骼包括父节点和子节点，是骨骼中的父节点和子节点之间连接的部分。第一骨架和第二骨架中的对应骨骼是指第一骨架和第二骨架中拓扑结构相同的一对骨骼。

作为一个示例，第二骨架与第一骨架之间的骨架误差可以包括第一骨架和第二骨架中对应骨骼之间的角度误差、平移误差和非线性延展误差，比如，包括第一骨架和第二骨架中对应的多对骨骼中每对骨骼之间的角度误差、平移误差和非线性延展误差。

作为一个示例，确定第二骨架与第一骨架之间的骨架误差的操作可以包括如下步骤：

1)对于第一骨架和第二骨架中对应的多对骨骼中的每对骨骼，确定每对骨骼之间的角度误差。

其中，每对骨骼之间角度误差可以用旋转矩阵表示。也即是，根据该旋转矩阵对第一骨骼进行旋转，可以使得旋转后的第一骨骼与第二骨骼之间的角度误差较小。其中，第一骨骼为第一骨架中的任一骨骼，第二骨骼为第二骨架中与第一骨骼对应的骨骼。

作为一个示例，对于第一骨架和第二骨架中对应的多对骨骼中的每对骨骼，可以先确定每对骨骼之间的旋转角，然后根据每对骨骼之间的旋转角确定每对骨骼之间的旋转矩阵。比如，可以根据每对骨骼之间的旋转角，通过罗德里格斯公式，确定每对骨骼之间的旋转矩阵。

比如，可以先通过以下公式1)确定每对骨骼之间的旋转角：

其中，ψ是指第一骨骼与第二骨骼之间的旋转角，b ^ori是指第一骨骼的方向向量，b ^target是指第二骨骼的方向向量。

其中，

是指第一骨骼中的父节点的位置，

是指第一骨骼的子节点的位置，b ^ori是第一骨骼中的父节点与子节点的位置差。

是指第二骨骼中的父节点的位置，

是指第二骨骼的子节点的位置，b ^target是第二骨骼中的父节点与子节点的位置差。

然后，可以根据每对骨骼之间的旋转角，通过以下公式2)确定每对骨骼之间的旋转矩阵：

Ψ＝cos|ψ|I+(1-cos|ψ|)φφ ^T+sin|ψ|φ ^∧ (2)其中，Ψ是指第一骨骼与第二骨骼之间的旋转矩阵；ψ是指第一骨骼与第二骨骼之间的旋转角；

用于表征第一骨骼与第二骨骼之间的方向向量，φ ^T是φ的转置；

是φ对应的反对称矩阵。

2)根据每对骨骼之间的角度误差，确定每对骨骼之间的平移误差。

其中，每对骨骼之间的平移误差可以用平移向量表示。也即是，根据该平移向量对第一骨骼进行平移，可以使得平移后的第一骨骼与第二骨骼之间的位置误差较小。

作为一个示例，可以根据每对骨骼之间的角度误差，通过以下公式3)，确定每对骨骼之间的平移误差：

其中，T是指第一骨骼与第二骨骼之间平移误差，Ψ是指第一骨骼与第二骨骼之间的旋转矩阵，

是指第二骨骼中的父节点的位置，

是指第一骨骼中的父节点的位置。

3)根据每对骨骼之间的角度误差和平移误差，确定每对骨骼之间的非线性延展误差。

其中，每对骨骼之间的非线性延展误差可以用非线性变换来表示。也即是，对第一骨骼进行非线性变换，可以使得变换后的第一骨骼与第二骨骼之间位置误差较小。

每对骨骼之间的骨骼长度不同将会引起非线性延展误差。比如，在根据确定的旋转矩阵对第一骨骼进行旋转，以及根据确定的平移向量对旋转后的第一骨骼进行平移之后，由于第一骨骼与第二骨骼之间的骨骼长度不同，因此平移后的第一骨骼与第二骨骼之间的位置还将存在一定的误差，本申请实施例中，将骨骼长度不同引起的误差称之为非线性延展误差。为了弥补非线性延展误差，本申请实施例中设计了一种非线性变换对其进行弥补。

作为一个示例，可以先根据上述确定的旋转矩阵和平移向量对第一骨骼进行刚体变换，再根据刚体变换后的第一骨骼与第二骨骼之间的位置误差，确定第一骨骼与第二骨骼之间的非线性延展误差。

比如，可以根据上述确定的旋转矩阵和平移向量对第一骨骼中的子节点的位置进行刚体变换，得到变换后的位置，再确定变换后的位置与第二骨骼中的字节点的位置之间的位置误差，将该位置误差确定为第一骨骼与第二骨骼之间的非线性延展误差。

比如，可以先根据上述确定的旋转矩阵和平移向量，通过以下公式(4)对第一骨骼中的子节点的位置进行刚体变换，得到变换后的位置：

其中，

是指第一骨骼中的子节点的位置，Ψ是指第一骨骼与第二骨骼之间的旋转矩阵，T是指第一骨骼与第二骨骼之间平移误差，

是指根据旋转矩阵和平移误差对

进行刚体变换后得到的位置，这个位置与第二骨骼中的子节点的位置可能因对应骨骼长度不同还存在一定的差异。

然后，根据变换后的位置与第二骨骼中的字节点的位置，通过以下公式5)，确定第一骨骼与第二骨骼之间的非线性延展误差：

其中，Δ是指第一骨骼与第二骨骼之间的非线性延展误差，

是指第二骨骼中的子节点的位置，

是指根据旋转矩阵和平移误差对

进行刚体变换后得到的位置。

需要说明的是，根据Δ可以建立对应骨骼中子节点之间的映射关系，将子节点之间的映射关系扩展至骨骼上的任意点，即可得到对应骨骼中任意点之间的映射关系。

另外，根据第一骨架和第二骨架之间骨架误差，还可以确定第一骨架与第二骨架之间的空间映射关系。之后，可以根据第一骨架与第二骨架之间的空间映射关系，对第一骨架进行空间变换，然后确定变换后的第一骨架和第二骨架之间的空间误差，以根据确定的空间误差对第一骨架与第二骨架之间的空间映射关系进行验证。

作为一个示例，可以根据第一骨架和第二骨架之间骨架误差，通过以下公式(6)确定第一骨架与第二骨架之间的空间映射关系：

其中，

为第一骨骼中b点的位置，

为第二骨骼中与b点对应的点的位置，Ψ是指第一骨骼与第二骨骼之间的旋转矩阵，T是指第一骨骼与第二骨骼之间平移误差，Δ是指第一骨骼与第二骨骼之间的非线性延展误差，W为权重参数。其中，W可以预先设置得到，也可以通过学习得到。

作为一个示例，在确定变换后的第一骨架和第二骨架之间的空间误差之后，可以判断空间误差是否小于误差阈值，若小于，则确定验证通过，若不小于，则确定验证不通过。

在一个实施例中，若验证通过，则执行下述步骤104。若验证未通过，则对第一骨架与第二骨架之间的空间映射关系进行调整，以使变换后的第一骨架和第二骨架之间的空间误差小于误差阈值。再根据调整后的空间映射关系，确定调整后的第一骨架和第二骨架之间骨架误差，以便根据调整后的第一骨架和第二骨架之间骨架误差，以及第一三维模型，生成第二骨架对应的第二三维模型。

步骤104：根据第二骨架与第一骨架之间的骨架误差，对第一三维网格进行调整，得到第二骨架对应的第二三维模型。

其中，第一三维网格是根据目标图像的全局图像特征生成的，在整体上的准确性和鲁棒性较高，而第一骨架是第一三维模型的骨架，因此同样在整体上的准确性和鲁棒性较高。第二骨架是根据目标图像的局部图像特征生成的，在局部细节和深度上的准确度较高。

本申请实施例中，通过根据第二骨架与第一骨架之间的骨架误差，对第一三维网格进行调整，可以结合目标图像的全局图像特征和局部图像特征，对在整体上的准确性和鲁棒性较高的第一三维模型进行调优，使得调优后的得到的第二三维网格既具有一定的整体上的准确性和鲁棒性，也具有一定的局部细节和深度上的准确度，在整体上的准确性和鲁棒性、以及局部细节和深度上的准确度取得了一定的平衡，进一步完善了三维模型重建结果，提高了三维模型重建效果。

作为一个示例，可以先根据第二骨架与第一骨架之间的骨架误差，确定第二三维网格与第一三维网格之间的空间映射关系。然后，根据第二三维网格与第一三维网格之间的空间映射关系，对第一三维模型进行空间变换，得到第二三维模型。

在一个实施例中，第二三维网格与第一三维网格之间的空间映射关系可以包括第二三维网格上的网格顶点与第一三维网格上的网格顶点之间的空间映射关系。相应地，根据第二三维网格与第一三维网格之间的空间映射关系，对第一三维网格进行空间变换的操作可以包括：根据第二三维网格上的网格顶点与第一三维网格上的网格顶点之间的空间映射关系，对第一三维网格的网格顶点的空间位置进行变换，得到第二三维网格。

在一个实施例中，可以根据第二骨架与第一骨架之间的骨架误差，确定第二骨架与第一骨架之间的空间映射关系，然后基于线性混合蒙皮的扩展，将第二骨架与第一骨架之间的空间映射关系扩展为第二三维网格与第一三维网格之间的空间映射关系。

作为一个示例，根据第二骨架与第一骨架之间的骨架误差，确定第二三维网格与第一三维网格之间的空间映射关系的操作可以包括如下步骤：

1)根据第一骨架与第二骨架中对应的多对骨骼中每对骨骼之间的角度误差、平移误差和非线性延展误差，确定第二三维网格上的网格顶点在多对骨骼中每对骨骼上的分量与第一三维网格上的网格顶点之间的空间映射关系。

比如，可以根据第一骨架与第二骨架中对应的多对骨骼中每对骨骼之间的角度误差、平移误差和非线性延展误差，通过以下公式(7)，确定第二三维网格上的网格顶点在多对骨骼中每对骨骼上的分量与第一三维网格上的网格顶点之间的空间映射关系：

其中，

为第二三维网格上的第j个网格顶点在多对骨骼中第i对骨骼上的分量，

为第一三维网格上的第j个网格顶点，Ψ ⁽ⁱ⁾为第i对骨骼之间的角度误差，T ⁽ⁱ⁾为第i对骨骼之间的平移误差，Δ ⁽ⁱ⁾为第i对骨骼之间的非线性延展误差，W _j,i为第一三维网格上的第j个网格顶点和第i对骨骼对应的权重，i和j均为正整数。

2)根据第二三维网格上的网格顶点在多对骨骼中每对骨骼上的分量与第一三维网格上的网格顶点之间的空间映射关系，对第二三维网格上的网格顶点在所述多对骨骼上的分量进行加和处理，得到第二三维网格上的网格顶点与第一三维网格上的网格顶点之间的空间映射关系。

例如，可以根据第二三维网格上的网格顶点在多对骨骼中每对骨骼上的分量与第一三维网格上的网格顶点之间的空间映射关系，对第二三维网格上的网格顶点在多对骨骼上的分量进行相加，得到第二三维网格上的网格顶点与第一三维网格上的网格顶点之间的空间映射关系。

或者，也可以根据第二三维网格中的每个顶点在多对骨骼中每对骨骼上的分量与第一三维网格中的每个顶点之间的空间映射关系，以及第二三维网格中的每个顶点在多对骨骼中每对骨骼上的分量对应的权重，对第二三维网格中的每个顶点在多对骨骼上的分量进行加权求和，得到第二三维网格中的每个顶点与第一三维网格中的每个顶点之间的空间映射关系。

比如，可以根据第二三维网格上的网格顶点在多对骨骼中每对骨骼上的分量与第一三维网格上的网格顶点之间的空间映射关系，通过以下公式(8)，对第二三维网格上的网格顶点在多对骨骼上的分量进行加和处理，得到第二三维网格上的网格顶点与所述第一三维网格上的网格顶点之间的空间映射关系：

其中，

为第二三维网格上的第j个网格顶点，

为第二三维网格上的第j个网格顶点在多对骨骼中第i对骨骼上的分量，A _j,i为第二三维网格上的第j个网格顶点在多对骨骼中第i对骨骼上的分量对应的权重。A _j,i可以为预设参数，也可以为可学习参数，本申请实施例对此不做限定。

作为一个实施例，可以根据第一骨架、第二骨架以及第一三维网格，通过调优模型，生成第二骨架对应的第二三维网格。其中，该调优模型用于确定第二骨架与第一骨架之间的骨架误差，根据第二骨架与第一骨架之间的骨架误差，对第一三维网格进行调整，得到第二骨架对应的第二三维网格。

其中，该调优模型可以预先根据第六样本数据进行训练得到。第六样本数据可以包括样本目标图像以及样本目标图像对应的样本三维网格。

需要说明的是，在一个实施例中，上述步骤101-步骤104中的每个步骤均可以通过对应的深度学习模型来实现，另外，各个步骤对应的深度学习模型中的部分或全部模型还可以集成在一个模型中，本申请实施例中对此不做限定。

作为一个示例，图2是本申请实施例提供的一种三维网格重建系统的逻辑结构示意图，如图2所示，该系统包括初始三维重建模型21、第一骨架模型22和调优模型23。三维网格重建过程中，可以先获取视频中的至少一个视频帧，然后将这至少一个视频帧分别作为初始三维重建模型21和第一骨架模型22的输入，通过初始三维重建模型22输出目标的第一三维网格以及第一三维网格的第一骨架，通过第一骨架模型22输出目标的第二骨架。然后，将第一三维网格、第一骨架以及第二骨架作为调优模型23的输入，通过调优模型23输出第二骨架对应的第二网格。

本申请实施例中，一方面可以根据至少一个第一目标图像的全局图像特征，生成目标的第一三维网格，以及提取第一三维网格的第一骨架。由于第一三维网格是根据目标图像的全局图像特征生成的，因此在整体上的准确性和鲁棒性较高，而第一骨架是第一三维网格的骨架，因此同样在整体上的准确性和鲁棒性较高。另一方面可以根据至少一个第二目标图像的局部图像特征，生成第二骨架。由于第二骨架是根据目标图像的局部图像特征生成的，因此在局部细节和深度上的准确度较高。之后，通过根据第二骨架与第一骨架之间的骨架误差，对第一三维网格进行调整，可以结合目标图像的全局图像特征和局部图像特征，对在整体上的准确性和鲁棒性较高的第一三维网格进行调优，使得调优后的得到的第二三维网格即具有一定的整体上的准确性和鲁棒性，也具有一定的局部细节和深度上的准确度，在整体上的准确性和鲁棒性、以及局部细节和深度上的准确度取得了一定的平衡，进一步完善了三维网格重建结果，提高了三维网格重建效果。

为了便于理解，接下来将以基于视频进行人体三维模型重建的场景为例，对人体三维模型重建中需要的网络模型的训练过程以及人体三维模型重建过程进行举例说明。

图3是本申请实施例提供的一种人体三维模型重建方法的流程图，如图3所示，该方法包括如下步骤：

步骤301：从人体视频中采集人体的运动捕捉(Motion Capture，MoCap)数据。

其中，人体的运动捕捉数据是指通过一定的技术手段的获取运动中的人体的位姿数据和外形信息。人体的位姿数据可以包括关节的角度、肢体的位置、肢体的宽度等。在本实施例中，采集的运动捕捉数据可以为下述模型信息提供人体位姿和三维网格的标定。

作为一个示例，可以采用深度图法、标记点法等算法中的一种或多种，来采集人体视频的运动捕捉数据。比如，采用深度图和标记点相结合的方法，来采集人体视频的运动捕捉数据。

例如，预先在采集空间中布置多个普通视频相机和多个深度相机。然后，选取人体特征不同的多个志愿者到采集空间中接受采集。在采集过程开始之前，为每个采集者穿戴上多个用作标记的标记球。这些标记球被固定在被采集者的多个不同的重要节点的内外侧。其中，人体特征可以包括性别、身高、体型等特征。重要节点可以包括人体的膝盖、髋、脚踝、脊柱、骨盆、头等节点。

比如，在采集空间中布置4个普通视频相机和4个深度相机，然后选取50个不同性别、身高、体型的志愿者到采集空间接受采集。在采集过程开始之前，为每个采集者穿戴上34个用作标记的标记球，这些标记球被固定在被采集者的重要节点(如如膝盖，髋，脚踝，脊柱，骨盆，头等)的内外侧。

开始采集以后，让每个志愿者做出不同的动作，与此同时，采集空间中的相机捕捉受试者身上的标记球的位置。这样，也就可以得到和视频中的每个视频帧对应的人体的运动捕捉数据。可以采集与视频中的多个视频帧对应的人体的运动捕捉数据作为训练数据，用于进行模型训练。比如，采集1280组数据用于模型训练。

步骤302：根据采集的人体的运动捕捉数据，对人体的三维网格和位姿进行标注，得到标注数据。

基于人体的运动捕捉数据，我们希望得到人体的位姿和三维网格的标注数据，用于后面的训练。本申请实施例中，可以将人体的位姿可以作为对应三维网格的骨架，用于训练以下涉及骨架的网络模型。

作为一个示例，可以基于稀疏标记的形状位姿估计算法(Motion and Shape from Sparse Marker,MoSh)来估计人体的位姿和三维网格，以得到标注数据。这种方法可以估计得到准确的位姿和三维网格，估计的结果误差在毫米级。

步骤303：根据人体视频中的视频帧以及对应的标注数据，训练初始三维重建模型。

其中，初始三维重建模型用于根据视频中的视频帧生成人体的三维网格。可以根据视频中的视频帧以及对应的标注数据中的三维网格，对初始三维重建模型进行训练。

比如，初始三维重建模型可以包括第一特征提取网络和第一全连接网络。第一特征提取网络用于提取视频帧的全局图像特征，将提取的全局图像特征输入至第一全连接网络。第一全连接网络用于根据全局图像特征生成人体的三维网格。比如，第一特征提取网络可以为ResNet模型。

另外，还可以建立一个线性的、由三维网格到其骨架(位姿)的映射关系，该初始三维重建模型还可以包括该映射关系。始三维重建模型用于根据视频中的视频帧生成人体的三维网格，以及从生成的三维网格中提取三维网格的骨架。

相应地，可以根据据人体视频中的视频帧以及对应的标注数据中的人体的三维网格和位姿，对该初始三维重建模型进行训练。值得注意的是，这里得到的三维网格只考虑了图像的整体特征，对骨架结构的信息把握不够，在本实施例中，通过对局部人体关节信息的提取，可以对人体的三维网格的准确性有较大提升。

步骤304：根据人体视频中的视频帧以及对应的标注数据中的位姿，训练人体骨架模型。

其中，人体骨架模型用于根据视频中的视频帧，生成人体的三维骨架。比如，人体骨架模型可以包括第二特征提取网络和骨架生成网络，第二特征提取网络用于提取视频帧的局部图像特征，骨架生成网络用于根据提取的局部图像特征生成人体的骨架(位姿)。

进一步地，骨架生成网络还可以包括二维骨架生成网络和三维骨架生成网络，二维骨架生成网络用于根据每个视频帧的局部图像特征生成每个视频帧中人体的二维骨架。三维骨架生成网络用于根据一个或多个视频帧中人体的二维骨架生成人体的三维骨架。比如，三维骨架生成网络可以对视频中每个视频帧中人体的二维骨架进行多视角融合，通过互补信息来生成每一个视频帧中人体的三维骨架。

值得注意的是，人体是一个非刚体结构，每一个视频帧的人体外形都是有差异的。在这个网络中，网络本身通过学习人体的不变量和每一个视频帧的差异来实现非刚体的多视角融合问题。尽管如此，由于刚体问题相比于非刚体是一个退化的问题，因此这个网络对于刚体也同样适用。在训练时，可以使用步骤302中得到的人体位姿作为标注数据，做端到端的全监督训练。

步骤305：根据标注数据训练调优模型。

完成人体骨架模型和初始三维重建模型的训练后，可以训练生成三维网络的调优模型。调优模型用于根据初始三维重建模型生成的骨架以及人体骨架模型生成的骨架之间的骨架误差，对初始三维重建模型生成的三维网格进行调整，得到调优后的三维网格。

其中，可以根据步骤302得到的标注数据来训练该调优模型。

在训练好初始三维重建模型、人体骨架模型和调优模型之后，即可获取人体视频中的至少一个视频帧，根据至少一个视频帧，通过这三个模型生成准确度较高的人体的三维网格。

步骤306：将人体视频中的至少一个视频帧作为训练好的初始三维重建模型的输入，输出人体的第一三维网格和第一骨架。

步骤307：将人体视频中的至少一个视频帧作为人体骨架模型的输入，输出人体的第二骨架。

步骤308：将人体的第一三维网格和第一骨架，以及人体的第二骨架作为调优模型的输入，输出第二骨架对应的第二三维网格。

需要说明的是，本申请实施例提供的方法可以应用于多种三维重建场景中。例如，在对普通物体的三维重建中，可以用中轴面提取算法提取物体的第一三维网格的第一骨架，然后通过图像的局部图像特征提取物体的骨架中关键点的位置，根据提取的关键点的位置，生成物体的第二骨架，再根据第一骨架和第二骨架，对第一三维网格进行调整，得到物体的三维网格重建结果。又例如，在场景的三维重建中，我可以使用三维角点检测算法生成场景的第一三维网格的第一骨架，然后根据视频中视频帧的局部图像特征生成场景的第二骨架，再根据第一骨架和第二骨架，对第一三维网格进行调整，得到场景的三维网格重建结果。

图4是本申请实施例提供的一种三维网格重建装置的结构框图，该装置可以集中于计算机设备中，如图4所示，该装置包括：

第一生成模块401，用于根据至少一个第一目标图像的全局图像特征，生成目标的第一三维网格，所述第一目标图像为包含所述目标的图像；

提取模块402，用于提取所述第一三维网格的骨架，得到第一骨架，所述第一骨架用于表征所述第一三维网格的内部结构；

第二生成模块403，用于根据至少一个第二目标图像的局部图像特征，生成第二骨架，所述第二目标图像为包含所述目标的图像，所述第二骨架用于表征所述目标的内部结构；

调整模块404，用于根据所述第二骨架与所述第一骨架之间的骨架误差，对所述第一三维网格进行调整，得到所述第二骨架对应的第二三维网格。

可选地，第一生成模块401用于：

可选地，第二生成模块403用于：

可选地，第二生成模块403用于用于：

可选地，所述装置还包括确定模块，确定模块用于：

可选地，所述调整模块404包括：

可选地，所述确定单元用于：

其中，

可选地，所述确定单元用于：

其中，

为所述第二三维网格上的第j个网格顶点，

可选地，所述第二三维网格与所述第一三维网格之间的空间映射关系包括所述第二三维网格上的网格顶点与所述第一三维网格上的网格顶点之间的空间映射关系；所述调整模块404用于：

图5是本申请实施例提供的一种计算机设备500的结构框图。该计算机设备500可以是手机、平板电脑、台式计算机、服务器等电子设备。该计算机设备500可用于实施上述实施例中提供的血管中心线提取方法。

通常，计算机设备500包括有：处理器501和存储器502。

处理器501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器501可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器501所执行以实现本申请中方法实施例提供的血管中心线提取方法。

在一些实施例中，计算机设备500还可选包括有：外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地，外围设备可以包括：显示屏504、音频电路505、通信接口506和电源507中的至少一种。

本领域技术人员可以理解，图5中示出的结构并不构成对计算机设备500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性的实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，所述指令被处理器执行时实现上述血管中心线提取方法。

在示例性实施例中，还提供了一种计算机程序产品，当该计算机程序产品被执行时，其用于实现上述血管中心线提取方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种三维网格重建方法，其特征在于，所述方法包括：

根据至少一个第一目标图像的全局图像特征，生成目标的第一三维网格，所述第一目标图像为包含所述目标的图像；

提取所述第一三维网格的骨架，得到第一骨架，所述第一骨架用于表征所述第一三维网格的内部结构；

根据至少一个第二目标图像的局部图像特征，生成第二骨架，所述第二目标图像为包含所述目标的图像，所述第二骨架用于表征所述目标的内部结构；

根据所述第二骨架与所述第一骨架之间的骨架误差，对所述第一三维网格进行调整，得到所述第二骨架对应的第二三维网格。
如权利要求1所述的方法，其特征在于，所述根据至少一个第一目标图像的全局图像特征，生成目标的第一三维网格，包括：

根据所述至少一个第一目标图像的全局图像特征，确定所述目标的空间占用信息，所述空间占用信息用于指示空间中每个点被所述目标占用的概率；

根据所述空间占用信息，生成所述目标的三维网格，将生成的三维网格作为所述第一三维网格。
如权利要求1所述的方法，其特征在于，所述根据至少一个第二目标图像的局部图像特征，生成第二骨架，包括：

根据所述至少一个第二目标图像中每个第二目标图像的局部图像特征，生成每个第二目标图像对应的骨架节点热图，所述骨架节点热图用于指示所述目标的骨架中每个节点在对应第二目标热图中不同位置出现的概率；

根据每个第二目标图像对应的骨架节点热图，生成每个第二目标图像对应的二维骨架；

根据所述至少一个第二目标图像对应的二维骨架，生成所述目标的三维骨架，将生成的三维骨架作为所述第二骨架。
如权利要求3所述的方法，其特征在于，所述根据每个第二目标图像对应的骨架节点热图，生成每个第二目标图像对应的二维骨架，包括：

根据每个第二目标图像对应的骨架节点热图，确定每个第二目标图像对应的骨架节点；

根据每个第二目标图像对应的骨架节点以及所述目标的预设拓扑结构，生成每个第二目标图像对应的二维骨架。
如权利要求1所述的方法，其特征在于，所述第二骨架与所述第一骨架之间的骨架误差包括所述第一骨架和所述第二骨架中对应骨骼之间的角度误差、平移误差和非线性延展误差，所述非线性延展误差是指对应骨骼的长度不同引起的误差。
如权利要求5所述的方法，其特征在于，所述根据所述第二骨架与所述第一骨架之间的骨架误差，对所述第一三维网格进行调整，得到所述第二骨架对应的第二三维网格之前，还包括：

对于所述第一骨架和所述第二骨架中对应的多对骨骼中的每对骨骼，确定所述每对骨骼之间的角度误差；

根据所述每对骨骼之间的角度误差，确定所述每对骨骼之间的平移误差；

根据所述每对骨骼之间的角度误差和平移误差，确定所述每对骨骼之间的非线性延展误差。
如权利要求1-6任一所述的方法，其特征在于，所述根据所述第二骨架与所述第一骨架之间的骨架误差，对所述第一三维网格进行调整，得到所述第二骨架对应的第二三维网格，包括：

根据所述第二骨架与所述第一骨架之间的骨架误差，确定所述第二骨架对应的第二三维网格与所述第一三维网格之间的空间映射关系；

根据所述第二三维网格与所述第一三维网格之间的空间映射关系，对所述第一三维网格进行空间变换，得到所述第二三维网格。
如权利要求7所述的方法，其特征在于，所述第二骨架与所述第一骨架之间的骨架误差包括所述第一骨架和所述第二骨架中对应的多对骨骼中每对骨骼之间的角度误差、平移误差和非线性延展误差；

所述根据所述第二骨架与所述第一骨架之间的骨架误差，确定所述第二骨架对应的第二三维网格与所述第一三维网格之间的空间映射关系，包括：

根据所述第一骨架与所述第二骨架中对应的多对骨骼中每对骨骼之间的角度误差、平移误差和非线性延展误差，确定所述第二三维网格上的网格顶点在所述多对骨骼中每对骨骼上的分量与所述第一三维网格上的网格顶点之间的空间映射关系；

根据所述第二三维网格上的网格顶点在所述多对骨骼中每对骨骼上的分量与所述第一三维网格上的网格顶点之间的空间映射关系，对所述第二三维网格上的网格顶点在所述多对骨骼上的分量进行加和处理，得到所述第二三维网格上的网格顶点与所述第一三维网格上的网格顶点之间的空间映射关系。
如权利要求8所述的方法，其特征在于，所述根据所述第一骨架与所述第二骨架中对应的多对骨骼中每对骨骼之间的角度误差、平移误差和非线性延展误差，确定所述第二三维网格上的网格顶点在所述多对骨骼中每对骨骼上的分量与所述第一三维网格上的网格顶点之间的空间映射关系，包括：

根据所述第一骨架与所述第二骨架中对应的多对骨骼中每对骨骼之间的角度误差、平移误差和非线性延展误差，通过以下公式，确定所述第二三维网格上的网格顶点在所述多对骨骼中每对骨骼上的分量与所述第一三维网格上的网格顶点之间的空间映射关系：

其中，
为所述第二三维网格上的第j个网格顶点在所述多对骨骼中第i对骨骼上的分量，
为所述第一三维网格上的第j个网格顶点，Ψ ⁽ⁱ⁾为所述第i对骨骼之间的角度误差，T ⁽ⁱ⁾为所述第i对骨骼之间的平移误差，Δ ⁽ⁱ⁾为所述第i对骨骼之间的非线性延展误差，W _j,i为所述第一三维网格上的第j个网格顶点和所述第i对骨骼对应的权重，i和j均为正整数。
如权利要求8所述的方法，其特征在于，所述根据所述第二三维网格上的网格顶点在所述多对骨骼中每对骨骼上的分量与所述第一三维网格上的网格顶点之间的空间映射关系，对所述第二三维网格上的网格顶点在所述多对骨骼上的分量进行加和处理，得到所述第二三维网格上的网格顶点与所述第一三维网格上的网格顶点之间的空间映射关系，包括：

根据所述第二三维网格上的网格顶点在所述多对骨骼中每对骨骼上的分量与所述第一三维网格上的网格顶点之间的空间映射关系，通过以下公式，对所述第二三维网格上的网格顶点在所述多对骨骼上的分量进行加和处理，得到所述第二三维网格上的网格顶点与所述第一三维网格上的网格顶点之间的空间映射关系：

其中，
为所述第二三维网格上的第j个网格顶点，
为所述第二三维网格上的第j个网格顶点在所述多对骨骼中第i对骨骼上的分量，所述A _j,i为所述第二三维网格上的第j个网格顶点在所述多对骨骼中第i对骨骼上的分量对应的权重。
如权利要求7所述的方法，其特征在于，所述第二三维网格与所述第一三维网格之间的空间映射关系包括所述第二三维网格上的网格顶点与所述第一三维网格上的网格顶点之间的空间映射关系；

所述根据所述第二三维网格与所述第一三维网格之间的空间映射关系，对所述第一三维网格进行空间变换，得到所述第二三维网格，包括：

根据所述第二三维网格上的网格顶点与所述第一三维网格上的网格顶点之间的空间映射关系，对所述第一三维网格的网格顶点的空间位置进行变换，得到所述第二三维网格。
一种三维网格重建装置，其特征在于，所述装置包括：

第一生成模块，用于根据至少一个第一目标图像的全局图像特征，生成目标的第一三维网格，所述第一目标图像为包含所述目标的图像；

提取模块，用于提取所述第一三维网格的骨架，得到第一骨架，所述第一骨架用于表征所述第一三维网格的内部结构；

第二生成模块，用于根据至少一个第二目标图像的局部图像特征，生成第二骨架，所述第二目标图像为包含所述目标的图像，所述第二骨架用于表征所述目标的内部结构；

调整模块，用于根据所述第二骨架与所述第一骨架之间的骨架误差，对所述第一三维网格进行调整，得到所述第二骨架对应的第二三维网格。
一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至11任一项所述的方法。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至11任一项所述的方法。