WO2021097843A1

WO2021097843A1 - 三维重建方法、装置、系统和存储介质

Info

Publication number: WO2021097843A1
Application number: PCT/CN2019/120394
Authority: WO
Inventors: 于立冬
Original assignee: 驭势科技(南京)有限公司
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2021-05-27
Also published as: CN110998671A; CN110998671B

Abstract

本发明实施例提供了一种三维重建方法、装置、计算机系统及计算机可读存储介质，所述方法包括：从目标物体的原始二维图像中提取原始图像特征；基于所述原始图像特征确定原始三维物体；确定所述目标物体的补充视角的相机位姿，其中所述补充视角与生成所述原始二维图像的第一视角不同；基于所述补充视角的相机位姿，生成所述目标物体在所述补充视角下的补充二维图像；对所述补充二维图像进行三维重建，以生成与所述补充二维图像相对应的补充三维物体；以及对所述原始三维物体和所述补充三维物体进行融合，以获得所述目标物体的三维重建结果。上述方案能够获取目标物体的更多可信信息，提高三维物体的重建质量。

Description

三维重建方法、装置、系统和存储介质

技术领域

本发明涉及计算机视觉技术领域，更具体地涉及一种三维重建方法、装置、系统和存储介质。

背景技术

三维重建是基于已知的二维图像还原对应的三维物体的过程。由于二维图像仅包括在特定相机视角下采集的目标物体的信息，因此只能反映出目标物体在该特定相机视角下的可见部分。基于不同相机视角的二维图像越多，重建生成的三维物体相对于目标物体的还原度越高，重建质量就越好。

然而在实际情况下，基于有限视角的二维图像进行三维重建会由于不可避免的遮挡等问题使得重建具有多异性。期望使用更多视角的二维图像，以得到更好的重建效果。但由于目标物体所处的地理位置、周边环境遮挡等原因可能无法获取到期望视角下的二维图像。因此，难以获得满意的三维重建结果。

发明内容

考虑到上述问题而提出了本发明。

根据本发明一个方面，提供了一种三维重建方法。所述方法包括：

从目标物体的原始二维图像中提取原始图像特征；

基于所述原始图像特征确定原始三维物体；

确定所述目标物体的补充视角的相机位姿，其中所述补充视角与生成所述原始二维图像的第一视角不同；

基于所述补充视角的相机位姿，生成所述目标物体在所述补充视角下的补充二维图像；

对所述补充二维图像进行三维重建，以生成与所述补充二维图像相对应的补充三维物体；以及

对所述原始三维物体和所述补充三维物体进行融合，以获得所述目标物体的三维重建结果。

示例性地，所述基于所述原始图像特征确定原始三维物体包括：

对所述原始图像特征通过深度神经网络进行解码，以获得所述目标物体的深度图；

对所述原始图像特征通过体素神经网络进行解码，以获得所述目标物体的体素立方体；

基于所述深度图和所述体素立方体确定所述原始三维物体。

示例性地，所述基于所述深度图和所述体素立方体确定所述原始三维物体包括：

根据所述深度图确定所述原始三维物体中可见的体素；以及

根据所述体素立方体确定所述原始三维物体中的其他体素。

示例性地，所述目标物体的深度图包括所述目标物体的主视角的深度图和后视角的深度图。

示例性地，所述原始二维图像包含多张不同视角的图像，所述基于所述原始图像特征确定原始三维物体包括：

分别基于从每个视角的原始二维图像提取的对应的原始图像特征确定对应的分视角三维物体；以及

对所有的分视角三维物体进行融合，以获得所述原始三维物体。

示例性地，所述对所有的分视角三维物体进行融合以获得所述原始三维物体包括：

将每个分视角三维物体旋转到标准姿态，以获得对应的标准视角三维物体；以及

根据所有标准视角三维物体的体素，确定所述原始三维物体的体素。

示例性地，所述根据所有标准视角三维物体的体素，确定所述原始三维物体的体素包括：

对于所有标准视角三维物体所涉及的每个位置，当所有标准视角三维物体中在对应位置上存在体素的标准视角三维物体超过第一比例时，确定所述原始三维物体在该位置上存在体素。

示例性地，所述确定所述目标物体的补充视角的相机位姿包括：

获取预设的至少一个候选视角的相机位姿；

对于每个候选视角，

将所述原始三维物体旋转到该候选视角下，以获得对应的候选视角三维物体；

确定所述候选视角三维物体的可见体素的原始可见比例；

当所述原始可见比例在第一范围内时，确定该候选视角的相机位姿为所述补充视角的相机位姿。

示例性地，所述确定所述候选视角三维物体的可见体素的原始可见比例包括：

基于该候选视角，将所述候选视角三维物体进行投影，以获得投影图；

统计所述投影图中的所述候选视角三维物体的、在所述第一视角下可见的像素数；以及

根据所统计的像素数和所述投影图中的所述候选视角三维物体的总像素数，确定所述原始可见比例。

示例性地，所述基于所述补充视角的相机位姿，生成所述目标物体在所述补充视角下的补充二维图像包括：

计算所述第一视角的相机位姿与所述补充视角的相机位姿之间的横向转角和纵向转角；

将所述横向转角和所述纵向转角组成的向量与所述原始图像特征中的每个向量拼接，以由拼接后的所有向量为补充图像特征；

基于所述补充图像特征生成所述补充二维图像。

根据所述原始三维物体在所述补充视角下的投影图以及所述原始图像特征，提取目标特征；以及

根据所述目标特征生成所述补充二维图像。

示例性地，所述根据所述原始三维物体在所述补充视角下的投影图以及所述原始图像特征提取目标特征包括：

对于所述投影图中的、与所述原始三维物体在所述第一视角下可见的体素对应的像素，根据所述原始图像特征确定所述目标特征中对应特征向量；

对于所述投影图中其他像素，基于随机噪声确定所述目标特征中对应特征向量。

示例性地，所述原始二维图像包含多张不同视角的图像，所述原始图像特征包含与每张不同视角的图像相对应的多个特征，所述根据所述原始图像特征确定所述目标特征中对应特征向量包括：

对于所述投影图中的、与所述原始三维物体在所述第一视角下可见的体素对应的像素，将多个原始图像特征中的对应特征向量进行平均，以将平均值作为目标特征中的对应特征向量。

示例性地，所述根据所述原始三维物体在所述补充视角下的投影图以及所述原始图像特征提取目标特征还包括：

将所述投影图与所确定的特征向量进行拼接，以生成所述目标特征。

示例性地，在所述对所述原始三维物体和所述补充三维物体进行融合，以获得所述目标物体的三维重建结果后，还包括：

判断所述三维重建结果中可见的体素占比是否大于第二比例；

对于不大于第二比例的情况，将所述补充二维图像作为原始二维图像，并再次基于新的补充视角的相机位姿进行三维重建，直至所述三维重建结果中可见的体素占比大于第二比例。

根据本发明的另一方面，还提供了一种三维重建装置，包括：

特征提取模块，用于从目标物体的原始二维图像中提取原始图像特征；

第一重建模块，用于基于所述原始图像特征确定原始三维物体；

补充视角模块，用于确定所述目标物体的补充视角的相机位姿，其中所述补充视角与生成所述原始二维图像的第一视角不同；

补充图像模块，用于基于所述补充视角的相机位姿，生成所述目标物体在所述补充视角下的补充二维图像；

第二重建模块，用于对所述补充二维图像进行三维重建，以生成与所述补充二维图像相对应的补充三维物体；以及

融合模块，用于对所述原始三维物体和所述补充三维物体进行融合，以获得所述目标物体的三维重建结果。

根据本发明再一方面，还提供了一种三维重建系统，包括：处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行上述的三维重建方法。

根据本发明又一方面，还提供了一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行上述的三维重建方法。

根据本发明实施例的技术方案，通过基于原始二维图像增加目标物体在补充视角下的二维图像，并基于该补充视角下的二维图像和原始二维图像进行三维重建，能够获取目标物体的更多可信信息，提高三维物体的重建质量。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出了根据本发明一个实施例的三维重建方法的示意性流程图；

图2示出了根据本发明一个实施例的世界坐标系和球面坐标系的转换关系；

图3示出了根据本发明一个实施例确定原始三维物体的示意性流程图；

图4A示出了根据本发明一个实施例通过多张原始二维图像确定原始三维物体的示意性流程图；

图4B示出了不同视角下的相机拍摄得到不同的原始二维图像的示意图；

图5A示出了根据本发明一个实施例对多个分视角三维物体进行融合的示意性流程图；

图5B示出了根据本发明一个实施例通过多张原始二维图像得到原始三维物体的示意性框图；

图6示出了根据本发明一个实施例确定补充视角的相机位姿的示意性流程图；

图7示出了根据本发明一个实施例确定原始可见比例的示意性流程图；

图8示出了根据本发明一个实施例确定原始可见比例的示意图；

图9示出了根据本发明一个实施例生成补充二维图像的示意性流程图；

图10示出了根据本发明另一个实施例生成补充二维图像的示意性流程图；

图11示出了根据本发明一个实施例生成补充二维图像的示意性框图；

图12示出了根据本发明一个实施例进行迭代重建的示意性流程图；

图13示出了根据本发明一个实施例的三维重建装置的示意性框图；

图14示出了根据本发明一个实施例的用于三维重建系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

在本文描述的三维重建方案中，在原始二维图像的基础上，生成与原有视角不同的补充视角下的二维图像，从而基于原有视角的二维图像和补充视角的二维图像共同进行三维重建，以得到还原度更高、重建质量更好的三维重建结果。

图1示出了根据本发明一个实施例的三维重建方法100的示意性流程图。如图1所示，所述方法100包括以下步骤。

S110：从目标物体的原始二维图像中提取原始图像特征。

原始二维图像可以是利用照相机或摄像机等成像设备直接采集的目标物体的图像。原始二维图像还可以是经预处理操作的图像。示例性地，可以对所采集的图像执行滤波等预处理操作，以获取质量更佳的原始二维图像。原始二维图像可以是在单一视角下得到的单张图像，也可以是在多个不同的视角下得到的多张图像。

示例性地，利用卷积神经网络(CNN)组成的编码器从目标物体的原始二维图像中提取原始图像特征。本领域普通技术人员可以理解，可以基于任何现有的或未来研发的提取图像特征的方法完成步骤S110，例如Harris角点检测算法、SIFT算法等。本申请对此不做限制。

原始图像特征可以包括多个特征向量。其中每个特征向量对应于原始二维图像中的相应像素点。以单张原始二维图像为例，可以自该原始二维图像中提取H×W个特征向量(H代表原始二维图像的高度，W代表原始二维图像的宽度)。每个特征向量的维度都为C。

S120：基于所述原始图像特征确定原始三维物体。

示例性地，利用卷积神经网络组成的解码器，基于原始图像特征生成原始三维物体。

可以理解，该原始三维物体与原始二维图像呈对应关系。该原始三维物体可以用以下方式来表示：点云(Point Cloud)、网格(Mesh)、体素(Voxel)、或深度图(Depth map)等。

在本发明一个具体示例中，通过体素表示原始三维物体。体素的表示方式是将目标物体所在空间看作是由多个立体方格组成的体素立方体，每个立体方格的取值表示物体在该方格所在的空间位置是否存在体素。例如取值为0代表物体在对应方格所在的空间位置上不存在体素，取值为1代表存在体素。

通过上述步骤S110和步骤S120，实现了基于目标物体的原始二维图像的三维重建。本领域普通技术人员可以理解，上述步骤S110和步骤S120中所述编码器和解码器仅用于示例，而不构成对本发明的限制。本领域普通技术人员可以利用任何现有的或未来研发的、基于已知二维图像进行三维重建的算法实现上述两个步骤。

S130：确定所述目标物体的补充视角的相机位姿，其中所述补充视角与生成所述原始二维图像的第一视角不同。

可以理解，每个二维图像都存在一个对应的相机视角，该相机视角是相机采集该二维图像时的视角。相机视角由相机位姿来决定，可以通过相机位姿来表征相机视角。相机位姿是相机采集二维图像时的位置和姿态。可以基于各种坐标系来表示相机位姿。下面以球面坐标系为例来说明相机位姿。示例性地，可以将物体所在位置作为球面坐标系的原点，相机位姿可以用向量R和T表示。R＝[α,β]，其中α表示相机的方位角、β表示相机的仰角；T表示相机与物体之间的距离ρ。

本领域普通技术人员理解，世界坐标系和上述球面坐标系之间存在对应的转换关系。如已知某相机在世界坐标系中的坐标(x,y,z)，其中x表示相机在X轴的坐标，y表示相机在Y轴的坐标，z表示相机在Z轴的坐标，可以对应地确定该相机在球面坐标系中的方位角α，仰角β和距离ρ。图2示出了世界坐标系和球面坐标系的转换关系。

可以将α＝0，β＝0，且ρ＝1的相机位姿称为相机的标准位姿。可以将相机在该标准位姿下的视角称为标准视角。可以将三维物体对应于相机的标准位姿的姿态称为其标准姿态。可以在步骤S120确定原始三维物体时，将原始三维物体变换到该标准姿态下。由此，不同的相机位姿可以表示为不同的方位角和仰角，即不同的向量[α,β]。

本领域普通技术人员理解，对于给定的原始二维图像，可以根据原始二维图像对应的相机参数确定生成该图像时的相机位姿。为描述简单，将原始二维图像的相机位姿对应的视角称为第一视角。在已知原始二维图像的第一视角的基础上，本步骤用于确定一个新的补充视角。该补充视角与第一视角不同。换言之，补充视角的相机位姿与第一视角的相机位姿不同。

示例性地，可以基于预设规则根据第一视角确定补充视角的相机位姿。例如，在第一视角的相机位姿基础上，以预设规则改变方位角和/或仰角。具体地，将第一视角的方位角加上预设度数，以获得补充视角。

S140：基于所述补充视角的相机位姿，生成所述目标物体在所述补充视角下的补充二维图像。

在确定了补充视角的相机位姿的基础上，可以根据来自原始二维图像的原始图像信息生成目标物体在补充视角下的补充二维图像。该原始图像信息例如来自原始图像特征或者原始三维物体，甚至还可以来自原始二维图像本身。

生成补充二维图像的补充视角与生成原始二维图像的第一视角不同，使得补充二维图像与原始二维图像之间存在区别。因为目标物体表面一般是连续变化的，所以基于原始图像信息预测目标物体在第一视角下不可见的部分是存在可信度的。补充二维图像中包含了原始二维图像中不存在的信息，且该信息在一定程度上是可靠的。补充二维图像可以对原始图像信息起到补充丰富的作用。

S150：对所述补充二维图像进行三维重建，以生成与所述补充二维图像相对应的补充三维物体。

本步骤与步骤S110和步骤S120执行的操作相似，只是步骤S110与步骤S120针对原始二维图像进行操作，而本步骤S150针对补充二维图像进行操作。示例性地，步骤S150可以包括：首先，利用卷积神经网络组成的编码器从补充二维图像中提取补充图像特征；然后，再利用卷积神经网络组成的解码器基于补充图像特征确定对应的补充三维物体。

在一个示例中，该补充三维物体通过体素的形式进行表示。可以理解，由于补充二维图像中包含了原始图像信息中不存在的信息，因此生成的补充三维物体中在补充视角下可见体素必然与原始三维物体中在第一视角下可见体素不同。

S160：对所述原始三维物体和所述补充三维物体进行融合，以获得所述目标物体的三维重建结果。

示例性地，可以通过对原始三维物体和补充三维物体的体素取并集的方式确定目标物体的最终的三维重建结果。对于空间中任意位置，只要原始三维物体或者补充三维物体中的任一个在该位置存在体素，那么就确定三维重建结果在该位置存在体素。

替代地，还可以通过对原始三维物体和补充三维物体的体素取交集的方式确定目标物体的最终的三维重建结果。对于空间中任意位置，只有原始三维物体和补充三维物体二者在该位置都存在体素，那么才确定三维重建结果在该位置存在体素。

通过生成与原始二维图像的相机视角不同的补充二维图像，可以增加更多信息用于三维重建。从而，能够获得更理想的三维重建结果。

图3示出了根据本发明一个实施例的步骤S120确定原始三维物体的示意性流程图。如前所述，可以利用神经网络组成的解码器，基于原始图像特征生成原始三维物体。在本实施例中，卷积神经网络组成的解码器可以利用深度神经网络和体素神经网络实现。如图3所示，步骤S120包括以下步骤。

S121:对原始图像特征通过深度神经网络进行解码，以获得目标物体的深度图。

在一个示例中，深度神经网络可以包括多个2维(2D)卷积层。深度图中每个像素表示目标物体对应位置的深度。该深度可以是目标物体对应位置与相机之间的距离。

对于原始图像特征中的每一个特征向量，可以通过以下公式计算原始二维图像中的、与该特征向量对应的像素的深度d：

其中i表示该特征向量中的元素，σ(F,dim＝1)表示对该特征向量F沿着深度的方向进行softmax函数运算获得的i的概率值，C表示最大深度。例如假设特征向量F为8维向量[0,0,0,1,1,0,0,0]，其中C＝8，i＝4和5。此时，d＝σ(F,dim＝1)×4+σ(F,dim＝1)×5，若σ(F,dim＝1)＝0.5，那么d＝0.5×4+0.5×5＝4.5，即原始二维图像中与该特征向量对应的像素的深度为4.5。

可以称相机采集原始二维图像时的视角为主视角，即前述第一视角。可以基于原始图像特征生成主视角的深度图。

另外，基于原始图像特征生成的深度图还可以包含后视角的深度图。后视角是与主视角成180度的视角。示例性地，可以认为目标物体关于垂直于主视角方向的平面对称。据此，虽然实际上目标物体自后视角可见的部分在主视角下是不可见的，但是可以根据原始图像特征获得后视角的深度图。

S122:对所述原始图像特征通过体素神经网络进行解码，以获得所述目标物体的体素立方体。

体素神经网络也可以包括多个2D卷积层，其用于根据原始图像特征输出由多个立体方格组成的体素立方体。在体素立方体中，如果立体方格的取值为1，则目标物体在该方格所在的空间位置存在体素。如果立体方格的取值为0，则目标物体在该方格所在的空间位置不存在体素。

S123:基于所述深度图和所述体素立方体确定所述原始三维物体。

根据前文所述，深度图可以包含主视角的深度图和后视角的深度图。其中，主视角的深度图包括目标物体的前表面的三维信息，后视角的深度图包括目标物体的后表面的三维信息。可以根据前表面的三维信息和后表面的三维信息确定目标物体的三维信息。示例性地，可以认为前表面和后表面之间的部分为根据深度图重建的目标物体。可以将根据主视角的深度图获得的前表面的各个点与其根据后视角的深度图获得的后表面的对应点相连接，则前表面、后表面以及所有连接线所封闭的空间即为根据深度图重建的目标物体所占用的空间。

可以融合基于根据深度图重建的目标物体与根据原始图像特征获得的体素立方体，以确定原始三维物体。在一个示例中，对于上述二者都认为某特定位置是目标物体的情况，将确定该位置存在目标物体。

通过深度图和体素立方体确定原始三维物体，可以有效地利用原始二维图像中的信息，使得生成的原始三维物体更加接近目标物体。

在一个具体示例中，上述步骤S123可以包括：首先，根据深度图确定原始三维物体中可见的体素；然后，根据体素立方体确定原始三维物体中的其他体素。

如前所述，深度图可以包括主视角的深度图。由于主视角的深度图是直接基于原始二维图像获取的，因此根据主视角的深度图确定的体素可以认为是可见体素。这些体素的可信度较高，更能反映目标物体的实际形状。示例性地，深度图还可以包括后视角的深度图。鉴于大部分物体都是前后对称关系，可以认为根据后视角的深度图确定的体素也是可见的。可以根据主视角的深度图和后视角的深度图确定所述原始三维物体在主视角下可见的体素和在后视角下可见的体素。可以理解，虽然体素立方体中也包含前表面和后表面上的体素，但是根据深度图确定这些可见体素比根据体素立方体确定这些体素准确性更高。

然而，主视角地深度图和后视角地深度图无法体现出目标物体的其它空间特征。原始三维物体中的其它体素是原始二维图像中不可见的。可以基于体素神经网络生成的体素立方体来确定这些体素。体素立方体中包含了除前表面(主视角下可见)和后表面(后视角下可见)之外的其他表面上的体素，这些体素可以用于确定原始三维物体除前表面和后表面之外的其它表面的体素。

根据深度图确定原始三维物体中可见的体素并根据体素立方体确定其他体素，可以得到可信度更高、准确性更强的原始三维物体。如前文所述，原始二维图像可以包括多个不同的视角下得到的多张图像。图4A示出了根据本发明一个实施例通过多张原始二维图像确定原始三维物体的示意性流程图。如图4A所示，当原始二维图像包含多张不同视角的图像时，步骤S120确定原始三维物体可以包括以下步骤。

首先，分别基于从每个视角的原始二维图像提取的对应的原始图像特征确定对应的分视角三维物体。

如前文所述，目标物体的每张原始二维图像都分别与相机在拍摄该原始二维图像时的视角相对应。图4B示出了根据本发明一个实施例的不同视角下的相机拍摄得到不同的原始二维图像的示意图。如图4B所示，C1、C2、C3表示处于不同位姿的相机。分别利用C1、C2、C3对处于标准姿态的目标物体进行拍摄，可以得到各自视角对应的原始二维图像I1、I2和I3。

对于每个视角下的原始二维图像I1、I2和I3，都可以通过三维重建获得与原始二维图像的视角对应的三维物体，在此称之为分视角三维物体。可以理解，每个分视角三维物体对应的原始二维图像不同，因此其包含的体素也可能不同。

然后，对所有的分视角三维物体进行融合，以获得所述原始三维物体。示例性地，本步骤中根据多个分视角三维物体中包含的体素确定原始三维物体。可以利用任何现有技术或未来研发的算法对各个分视角三维物体进行融合，本申请对此不做限制。

上述实施例中，基于多张不同视角的图像确定原始三维物体。这些图像含有更多可信的目标物体的信息。由此，能够使得本申请的三维重建结果更准确。

图5A示出了根据本发明一个实施例对所有的分视角三维物体进行融合的示意性流程图，如图5A所示，对多个分视角三维物体进行融合包括以下步骤。

S510:将每个分视角三维物体旋转到标准姿态，以获得对应的标准视角三维物体。

每个分视角三维物体都是基于各自对应的原始二维图像生成的，其分别对应于各自的视角。为了方便对多个分视角三维物体进行融合，可以先将每个分视角三维物体旋转到统一的标准姿态下。由此，可以得到每个分视角三维物体在同样的标准视角下的空间形状，即标准视角三维物体。

S520:根据所有标准视角三维物体的体素，确定所述原始三维物体的体素。

对于所有标准视角三维物体所涉及的每个位置，根据所有标准视角三维物体在对应位置上是否存在体素，确定所述原始三维物体在该位置上是否存在体素。示例性地，可以根据所有标准视角三维物体的体素的并集或交集确定原始三维物体的体素。

图5B示出了根据本发明一个实施例通过多张原始二维图像确定原始三维物体的示意性框图。通过分别对不同视角下的原始二维图像I1、I2和I3进行三维重建，得到各自对应的分视角三维物体V1、V2和V3。分别将V1、V2和V3旋转到标准姿态，以得到各自对应的标准视角三维物体V1’、V2’和V3’。最后，对标准视角三维物体V1’、V2’和V3’进行融合，得到原始三维物体V0。可以理解，在图5所示的确定原始三维物体的过程中，忽略了从原始二维图像提取原始图像特征的过程，但本领域普通技术人员通过上面描述，能够理解该过程。

在上述技术方案中，首先将每个分视角三维物体旋转到标准姿态，然后对旋转后的标准视角三维物体进行融合，不仅实现容易，而且还保证了结果准确性。

在一个具体实施例中，标准视角三维物体是以体素的方式表示的。根据立体方格的取值是1或0，可以确定在该立体方格的对应位置是否存在体素。当所有标准视角三维物体中在某位置上存在体素的标准视角三维物体超过第一比例时，确定所述原始三维物体在该位置上存在体素。

例如，假设有k个标准视角三维物体，对于空间的某位置，其中有m个标准视角三维物体存在体素(该位置的立体方格的取值为1)，那么当m/k超过第一比例时，确定原始三维物体在该位置处存在体素。在一个示例中，该第一比例为0.5。

上述过程可以用投票函数实现，具体公式如下。

如果

则O(x,y,z)＝1，

否则O(x,y,z)＝0。

其中，(x,y,z)表示空间中的某位置的坐标，k表示标准视角三维物体的个数，Pi(x,y,z)表示第i个标准视角三维物体在该位置处的立体方格的取值，O(x,y,z)表示原始三维物体在该位置处的立体方格的取值。

上述技术方案中，根据所有标准视角三维物体中在某位置处存在体素的个数来确定原始三维物体。该原始三维物体更接近于真实的目标物体。由此，该技术方案获得的三维重建结果更理想。

根据前文所述，在步骤S120确定原始三维物体之后，需要步骤S130进一步确定目标物体的补充视角的相机位姿。图6示出了根据本发明一个实施例确定补充视角的相机位姿的示意性流程图。如图6所示，步骤S130确定补充视角的相机位姿包括以下步骤。

S131:获取预设的至少一个候选视角的相机位姿。

每个候选视角的相机位姿可以表示为球面坐标系中的方位角和仰角，用向量(α，β)表示。示例性地，在将目标物体的中心点作为坐标系原点的基础上，选取方位角α为集合[0,45,90,135,180,225,270,315]中的元素，仰角β为集合[-60,-30,0,30,60]中的元素，距离为1的相机位姿。可以理解，在该示例中，共选取40个相机位姿。

S132:对于每个候选视角的相机位姿，将所述原始三维物体旋转到该候选视角下，以获得对应的候选视角三维物体。

具体地，可以将原始三维物体从当前视角下旋转到候选视角下。可以理解，原始三维物体的当前视角可以是原始二维图像所对应的第一视角。特别是对于原始二维图像只有单张的情况，可以直接基于第一视角确定原始三维物体，运算更简单。替代地，原始三维物体的当前视角还可以是标准视角。根据前述示例，对于原始二维图像存在多张不同视角的图像的情况，所获得的原始三维物体可能是处于标准视角的。

例如，假设当前视角的相机位姿为(α1，β1)，候选视角的相机位姿为(α2，β2)，那么可以将原始三维物体旋转(α2-α1，β2-β1)的角度，以得到候选视角三维物体。

S133:对于每个候选视角的相机位姿，确定候选视角三维物体的可见体素的原始可见比例。

候选视角三维物体的可见体素是指在候选视角三维物体在候选视角下的可见体素。在不同的视角下，三维物体的可见体素是不同的。以汽车为例，假设原始二维图像对应的第一视角(0，0)是正对车头的视角，那么构成车头部分的体素在第一视角下是可见体素，例如构成前车灯的体素、构成雨刷器的体素、构成引擎盖的体素等是可见体素。当将该汽车旋转到候选视角下时，例如左视角(90，0)下，那么构成左车门的体素是可见体素，而构成雨刷器的体素则不是可见体素。

原始可见比例是候选视角三维物体的可见体素中在第一视角下可见的体素的个数占比。可以理解，如果原始二维图像包括多张不同视角的图像，那么第一视角包括多个视角。可以理解，三维物体在候选视角下可见的体素，在第一视角下可能是可见的，也可能是不可见的。在前述汽车的示例中，汽车在左视角下的可见体素中，靠近车头的部分的体素在车头视角下是可见的，而靠近车尾的部分的体素在车头视角下是不可见的。由此，该示例中，左视角下汽车的可见体素的原始可见比例是左视角下可见体素中在第一视角下可见的像素的比例。

S134:对于每个候选视角的相机位姿，当原始可见比例在第一范围内时，确定该候选视角的相机位姿为补充视角的相机位姿。

原始可见比例可以反映出候选视角三维物体的可信程度。原始三维物体是基于原始二维图像生成的。原始二维图像中可见的像素能够真实反映目标物体的形状，因此是可信的像素。基于原始二维图像中的像素确定的原始三维物体中第一视角下可见的体素也是可信的。原始三维物体中除了第一视角下可见的体素之外的其余体素的可信程度比第一视角下可见的体素的可信程度低。基于上述原因，本领域普通技术人员可以理解，候选视角三维物体的可见体素的原始可见比例越高，说明候选视角三维物体的可信程度越高；否则，说明候选视角三维物体的可信程度越低。

本步骤的目的在于，选择原始可见比例在合适范围内的候选视角作为三维重建时的补充视角。补充视角下的三维物体的可信程度不宜过低，否则在该视角下进行三维重建没有意义；同时补充视角下的三维物体的可信程度也不宜过高，否则会与第一视角太接近而起不到补充信息的作用。在本发明一个示例中，第一范围是50％-85％，原始可见比例在该范围内的候选视角作为三维重建的补充视角，该候选视角下的相机位姿为补充视角的相机位姿。该范围即保证了补充视角下的三维物体的可信度足够高，而且还保证了补充信息的有效量。

在上述实施例中，根据候选视角三维物体的可见体素的原始可见比例来确定补充视角的相机位姿，基于该补充视角的相机位姿获得的三维重建结果更准确。

根据前文所述，原始可见比例是确定补充视角的重点考虑因素。图7示出了根据本发明一个具体实施例的确定原始可见比例的示意性流程图。如图7所示，确定候选视角三维物体的可见体素的原始可见比例包括以下步骤。

S710:基于该候选视角，将候选视角三维物体进行投影，以获得投影图。

由于候选视角三维物体已经旋转到正对候选视角的位置，因此对候选视角三维物体进行候选视角方向的投影即可获得候选视角三维物体在候选视角下可见的体素。投影图中的候选视角三维物体的像素分别对应于其在候选视角下可见的体素。

在一个示例中，可以基于候选视角三维物体在候选视角下距离投影平面最近的体素来确定投影图。其中投影平面可以是相机所在的垂直于候选视角的平面。假设候选视角是X轴的方向，可以通过以下公式确定候选视角三维物体在候选视角下距离投影平面最近的体素：

d(y,z)＝argmin(P(:,y,z)),其中P(:,y,z)>0

其中P(：，y，z)表示候选视角三维物体的Y轴坐标为y，Z轴坐标为z的平行于X轴的直线上的所有体素。当候选视角三维物体在某位置(x，y，z)存在体素时，P(x，y，z)＝1；否则，P(x，y，z)＝0。在限制了 P(:,y,z)>0的情况下，argmin(P(：，y，z))表示候选视角三维物体的、在前述直线上的体素与投影平面距离的最小值。根据上式，假设存在P(:,y,z)>0的m个体素，且中m个体素的X轴坐标分别为{x1,x2,…,xm}，则d(y，z)取这些X轴坐标的最小值，即等于min{x1,x2,…,xm}。由此，该直线上存在候选视角三维物体的投影。否则，假设不存在P(:,y,z)>0的体素，则d(y，z)＝0。由此，该直线上不存在候选视角三维物体的投影。综上，可以获得候选视角三维物体在候选视角下的投影图。

S720:统计投影图中的候选视角三维物体的、在第一视角下可见的像素数。

可以理解，投影图中的像素对应于候选视角三维物体中在候选视角下可见的体素。如前所述，候选视角三维物体在候选视角下可见的体素在原始二维图像的第一视角下可能是可见的，也可能是不可见的。本步骤S720用于确定投影图中的、与在第一视角下可见，同时也在候选视角下可见的体素对应的像素的个数。

具体地，可以对第一视角下可见的体素进行标记。在一个示例中，第一视角下可见的体素可以是原始三维物体中由主视角深度图确定的体素。在对原始三维物体中的体素进行标记的基础上，经过旋转后得到的候选视角三维物体中仍然保留这些标记。然而在第一视角下被标记为可见的体素，在候选视角下未必可见。本步骤S720中要统计的就是在候选视角下仍然可见的、被标记过的体素。

在另一个示例中，还可以对第一视角下不可见的体素进行标记。例如，将原始三维物体中由后视角的深度图和体素立方体确定的体素作为第一视角下不可见的体素进行标记。

根据投影图中的、与所标记的体素对应的像素数即可获得投影图中的候选视角三维物体的在第一视角下可见的像素数。

S730:根据所统计的像素数和投影图中的候选视角三维物体的总像素数，确定所述原始可见比例。计算步骤S720中所统计的像素数占投影图中的候选视角三维物体的总像素数的比例，即可确定原始可见比例。

图8示出了上述确定原始可见比例的示意图。V0为基于步骤S110和步骤S120的三维重建生成的原始三维物体。原始三维物体主要包括三部分：根据主视图的深度图确定的体素，根据后视角的深度图确定的体素和根据体素立方体确定的体素。其中，认为根据主视图的深度图确定的体素是在第一视角下可见的，认为其余体素是在第一视角下不可见的。V0’是原始三维物体基于候选视角旋转后得到的候选视角三维物体。P0是候选视角三维物体在候选视角下的投影图。P0中包含与候选视角三维物体中在第一视角下可见的体素相对应的像素和与其中在第一视角下不可见的体素相对应的像素。这二者分别用不同灰度的方格进行标识。可以根据前者与前者加后者的和之间的比值，确定原始可见比例。

上述技术方案中，利用投影图来确定原始可见比例，易于实现，而且最终的三维重建结果更准确。

根据前文所述，在确定补充视角的相机位姿之后，生成目标物体在所述补充视角下的补充二维图像。图9示出了根据本发明一个具体实施例步骤S140生成补充二维图像的示意性流程图，该步骤S140包括以下步骤：

S141:计算第一视角的相机位姿与补充视角的相机位姿之间的横向转角和纵向转角。

如前所述，在将目标物体的中心点作为世界坐标系的原点的基础上，不同视角的相机位姿可以等效为球面坐标系中的横向转角(在XOY平面上相对于X轴的转角)和纵向转角(在垂直于XOY的平面上相对于Z轴的转角)，用(α，β)表示。假设第一视角的相机位姿为(α1，β1)，补充视角的相机位姿为(α2，β2)，那么第一视角的相机位姿与补充视角的相机位姿之间的横向转角和纵向转角可以表示为(α2-α1，β2-β1)。

S142:将所述横向转角和所述纵向转角组成的向量与所述原始图像特征中的每个向量拼接，将拼接后的所有向量作为补充图像特征。

如前所述，可以从每张原始二维图像中提取到H×W个特征向量，这H×W个特征向量构成了原始图像特征。

假设特征向量的维度为n。可以将步骤S610计算得到横向转角和纵向转角(α2-α1，β2-β1)，拼接到每个特征向量后，使得每个拼接后的特征向量包含n+2个向量。例如，原始图像特征中的其中一个特征向量表示为(P1，P2，……Pn)，那么拼接后的特征向量则表示为(P1，P2，……Pn，α2-α1，β2-β1)。将原始图像特征中的每个特征向量都进行拼接，将拼接后得到的所有特征向量作为补充图像特征。

S143:基于所述补充图像特征生成所述补充二维图像。

可以基于该补充图像特征，利用卷积神经网络组成的解码器生成与补充图像特征对应的补充二维图像。可以理解该解码器可以通过利用样本特征和对应的样本图像训练获得。

通过原始图像特征中的特征向量与相机位姿之间的转角进行拼接的方式得到补充图像特征，并基于补充图像特征生成补充二维图像，操作简便，易于实现。

图10示出了根据本发明另一个具体实施例生成补充二维图像的示意性流程图。具体步骤如下：

S141’:根据原始三维物体在补充视角下的投影图以及原始图像特征，提取目标特征。

可以与前文步骤S710所述获取候选视角三维物体在候选视角下的投影图类似地，获取原始三维物体在补充视角下的投影图。

可以理解，在前述基于候选视角选择补充视角的示例中，此处可以直接基于步骤S710的结果获得原始三维物体在补充视角下的投影图。

原始三维物体在补充视角下的投影图中包含与原始三维物体在第一视角下可见的体素对应的像素和与其在第一视角下不可见的体素对应的像素。可以理解，前者的信息来自于原始二维图像，因此在自原始二维图像提取的原始图像特征中存在与其对应的特征向量。因此，此步骤S141’可以包括以下步骤：a)对于投影图中的、与原始三维物体在第一视角下可见的体素对应的像素，可以根据原始图像特征确定目标特征中的对应特征向量。具体地，可以将原始图像特征中对应的特征向量作为前者的目标特征中的特征向量。b)对于投影图中的、与原始三维物体在第一视角下不可见的体素对应的像素，可以基于随机噪声确定目标特征中对应特征向量。例如，将随机噪声作为目标特征中对应特征向量。可选地，该随机噪声可以取区间[0,1]范围内的任意值。

进一步，在原始二维图像中包含多张不同视角的图像的情况中，原始图像特征对应地包含与每张不同视角的图像对应的多个特征。对于投影图中的、与原始三维物体在第一视角下可见的体素对应的像素，可以将所有原始图像特征中的对应的特征向量求和后再平均，以将得到的平均值作为该像素的目标特征。

S142’:根据所述目标特征生成所述补充二维图像。

示例性地，可以利用卷积神经网络组成的解码器，基于步骤S141’提取的目标特征生成与目标特征相对应的补充二维图像。本领域普通技术人员可以理解该具体操作，为了简洁，在此不再赘述。

图11示出了根据本发明一个具体实施例生成补充二维图像的示意性框图。如图11所示，V0为三维重建生成的原始三维物体，V0”是原始三维物体基于补充视角旋转后得到的补充视角三维物体，P0’是补充视角三维物体在所述补充视角下的投影图。P0’中可以包含与原始三维物体在第一视角下可见的体素对应的像素和与在第一视角下不可见的体素对应的像素。

在一个示例中，在P0’的基础上，分别提取与原始三维物体在第一视角下可见的体素对应的像素的特征向量和与原始三维物体在第一视角下不可见的体素对应的像素的特征向量，以生成目标特征。其中对于前者，其对应的特征向量可以来自从原始二维图像中提取到的原始图像特征；对于后者，其对应的特征向量可以是基于随机噪声确定的。

在另一个示例中，步骤S141’还包括：将P0’与步骤a)和步骤b)确定的特征向量进行拼接，以生成目标特征。具体的，P0’为1×H×W(H代表原始二维图像的高度，W代表原始二维图像的宽度)的矩阵。原始图像特征如前所述为C×H×W的张量，则步骤a)和步骤b)确定的特征向量也构成一个C×H×W的特征张量。将P0’与特征张量合并以生成(C+1)×H×W的张量。该(C+1)×H×W的张量即为所生成的目标特征。

在此示例中，P0’作为目标特征中的掩码，将进一步提高三维重建结果的准确性。

在获得目标特征的基础上，可以通过例如卷积神经网络组成的解码器对目标特征解码，从而得到对应的补充二维图像。

在上述技术方案中生成的补充二维图像即包含原始二维图像中的较多信息，又包含足够的补充信息，从而基于其获得的三维重建结果具有较高的可信度。

可以理解，选择的补充视角越多，生成的补充三维物体就越多，从而三维重建结果越接近目标物体的真实形状。因此，可以对步骤S130至步骤S160的过程进行多次迭代，并根据是否满足迭代终止条件来确定最终三维重建结果。

图12示出了根据本发明另一个实施例三维重建方法的示意性流程图。如图12所示，该三维重建方法包括以下步骤：

S1210:从目标物体的原始二维图像中提取原始图像特征。

S1220:基于所述原始图像特征确定原始三维物体。

S1230:确定所述目标物体的补充视角的相机位姿，其中所述补充视角与生成所述原始二维图像的第一视角不同。

S1240:基于所述补充视角的相机位姿，生成所述目标物体在所述补充视角下的补充二维图像。

S1250:对所述补充二维图像进行三维重建，以生成与所述补充二维图像相对应的补充三维物体。

S1260:对所述原始三维物体和所述补充三维物体进行融合，以获得所述目标物体的三维重建结果。以上步骤与步骤S110-S160类似，本文不再赘述。

S1270:判断所述三维重建结果中可见的体素占比是否大于第二比例。

三维重建结果中可见的体素占比是三维重建结果在补充视角下的可见体素中在第一视角下可见的体素的个数占比。例如三维重建结果在补充视角下可见的体素共有m个，其中这些体素中同时在第一视角下可见的个数为M个，则可见的体素占比为M/m。可以理解，可见的体素占比能够反映三维重建结果的可信程度。第二比例可以是70％至90％之间的任意值。在一个示例中，上述第二比例为85％。该数值兼顾了计算资源的消耗和计算结果的准确性。

对于不大于第二比例的情况，将所述补充二维图像作为原始二维图像，并转步骤S1230。由此，再次基于新的补充视角的相机位姿进行三维重建。若可见的体素占比不大于第二比例，说明当前的三维重建结果与真实的目标物体还存在一定差距，因此需要再次基于新的补充视角的相机位姿进行三维重建。

对于大于所述第二比例的情况，执行步骤S1280。

S1280:将所述三维重建结果作为最终结果。三维重建方法结束。

若可见的体素占比大于第二比例，说明当前视角下生成的三维物体与真实的三维物体已经比较接近，因此可以将三维重建结果作为最终结果。

通过上述步骤，可以保证通过有限次的迭代之后，得到的三维重建结果是符合预期的结果，保证重建三维物体的质量。

根据本发明另一方面，还提供了一种三维重建装置。图13示出了根据本发明一个实施例的三维重建装置的示意性框图。

如图13所示，装置1300包括特征提取模块1310、第一重建模块1320、补充视角模块1330、补充图像模块1340、第二重建模块1350和融合模块 1360。

所述各个模块可分别执行上文中所述的三维重建方法的各个步骤/功能。以下仅对该装置1300的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

特征提取模块1310，用于从目标物体的原始二维图像中提取原始图像特征；

第一重建模块1320，用于基于所述原始图像特征确定原始三维物体；

补充视角模块1330，用于确定所述目标物体的补充视角的相机位姿，其中所述补充视角与生成所述原始二维图像的第一视角不同；

补充图像模块1340，用于基于所述补充视角的相机位姿，生成所述目标物体在所述补充视角下的补充二维图像；

第二重建模块1350，用于对所述补充二维图像进行三维重建，以生成与所述补充二维图像相对应的补充三维物体；以及

融合模块1360，用于对所述原始三维物体和所述补充三维物体进行融合，以获得所述目标物体的三维重建结果。

图14示出了根据本发明一个实施例的用于三维重建系统的示意性框图。如图14所示，系统1400包括输入装置1410、存储装置1420、处理器1430以及输出装置1440。

所述输入装置1410用于接收用户所输入的操作指令以及采集数据。输入装置1410可以包括键盘、鼠标、麦克风、触摸屏和图像采集装置等中的一个或多个。

所述存储装置1420存储用于实现根据本发明实施例的三维重建方法中的相应步骤的计算机程序指令。

所述处理器1430用于运行所述存储装置1420中存储的计算机程序指令，以执行根据本发明实施例的三维重建方法的相应步骤，并且用于实现根据本发明实施例的用于三维重建装置中的特征提取模块1310、第一重建模块1320、补充视角模块1330、补充图像模块1340、第二重建模块1350和融合模块1360。

所述输出装置1440用于向外部(例如用户)输出各种信息(例如图像和/或声音)，并且可以包括显示器、扬声器等中的一个或多个。

在一个实施例中，在所述计算机程序指令被所述处理器1430运行时使所述系统1400执行以下步骤：

从目标物体的原始二维图像中提取原始图像特征；

基于所述原始图像特征确定原始三维物体；

此外，根据本发明又一方面，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时使得所述计算机或处理器执行本发明实施例的上述三维重建方法的相应步骤，并且用于实现根据本发明实施例的上述三维重建装置中的相应模块或上述用于三维重建系统中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

在一个实施例中，所述计算机程序指令被计算机或处理器运行时，使得所述计算机或处理器执行以下步骤：

从目标物体的原始二维图像中提取原始图像特征；

基于所述原始图像特征确定原始三维物体；

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的三维重建装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

一种三维重建方法，其特征在于，包括：

从目标物体的原始二维图像中提取原始图像特征；

基于所述原始图像特征确定原始三维物体；

确定所述目标物体的补充视角的相机位姿，其中所述补充视角与生成所述原始二维图像的第一视角不同；

基于所述补充视角的相机位姿，生成所述目标物体在所述补充视角下的补充二维图像；

对所述补充二维图像进行三维重建，以生成与所述补充二维图像相对应的补充三维物体；以及

对所述原始三维物体和所述补充三维物体进行融合，以获得所述目标物体的三维重建结果。
根据权利要求1所述的三维重建方法，其特征在于，所述基于所述原始图像特征确定原始三维物体包括：

对所述原始图像特征通过深度神经网络进行解码，以获得所述目标物体的深度图；

对所述原始图像特征通过体素神经网络进行解码，以获得所述目标物体的体素立方体；

基于所述深度图和所述体素立方体确定所述原始三维物体。
根据权利要求2所述的三维重建方法，其特征在于，所述基于所述深度图和所述体素立方体确定所述原始三维物体包括：

根据所述深度图确定所述原始三维物体中可见的体素；以及

根据所述体素立方体确定所述原始三维物体中的其他体素。
根据权利要求3所述的三维重建方法，其特征在于，所述目标物体的深度图包括所述目标物体的主视角的深度图和后视角的深度图。
根据权利要求1所述的三维重建方法，其特征在于，所述原始二维图像包含多张不同视角的图像，所述基于所述原始图像特征确定原始三维物体包括：

分别基于从每个视角的原始二维图像提取的对应的原始图像特征确定对应的分视角三维物体；以及

对所有的分视角三维物体进行融合，以获得所述原始三维物体。
根据权利要求5所述的三维重建方法，其特征在于，所述对所有的分视角三维物体进行融合以获得所述原始三维物体包括：

将每个分视角三维物体旋转到标准姿态，以获得对应的标准视角三维物体；以及

根据所有标准视角三维物体的体素，确定所述原始三维物体的体素。
根据权利要求6所述的三维重建方法，其特征在于，所述根据所有标准视角三维物体的体素，确定所述原始三维物体的体素包括：

对于所有标准视角三维物体所涉及的每个位置，当所有标准视角三维物体中在对应位置上存在体素的标准视角三维物体超过第一比例时，确定所述原始三维物体在该位置上存在体素。
根据权利要求1所述的三维重建方法，其特征在于，所述确定所述目标物体的补充视角的相机位姿包括：

获取预设的至少一个候选视角的相机位姿；

对于每个候选视角的相机位姿，

将所述原始三维物体旋转到该候选视角下，以获得对应的候选视角三维物体；

确定所述候选视角三维物体的可见体素的原始可见比例；

当所述原始可见比例在第一范围内时，确定该候选视角的相机位姿为所述补充视角的相机位姿。
根据权利要求8所述的三维重建方法，其特征在于，所述确定所述候选视角三维物体的可见体素的原始可见比例包括：

基于该候选视角，将所述候选视角三维物体进行投影，以获得投影图；

统计所述投影图中的所述候选视角三维物体的、在所述第一视角下可见的像素数；以及

根据所统计的像素数和所述投影图中的所述候选视角三维物体的总像素数，确定所述原始可见比例。
根据权利要求1所述的三维重建方法，其特征在于，所述基于所述补充视角的相机位姿，生成所述目标物体在所述补充视角下的补充二维图像包括：

计算所述第一视角的相机位姿与所述补充视角的相机位姿之间的横向转角和纵向转角；

将所述横向转角和所述纵向转角组成的向量与所述原始图像特征中的每个向量拼接，以由拼接后的所有向量构成补充图像特征；

基于所述补充图像特征生成所述补充二维图像。
根据权利要求1所述的三维重建方法，其特征在于，所述基于所述补充视角的相机位姿，生成所述目标物体在所述补充视角下的补充二维图像包括：

根据所述原始三维物体在所述补充视角下的投影图以及所述原始图像特征，提取目标特征；以及

根据所述目标特征生成所述补充二维图像。
根据权利要求11所述的三维重建方法，其特征在于，所述根据所述原始三维物体在所述补充视角下的投影图以及所述原始图像特征提取目标特征包括：

对于所述投影图中的、与所述原始三维物体在所述第一视角下可见的体素对应的像素，根据所述原始图像特征确定所述目标特征中对应特征向量；

对于所述投影图中其他像素，基于随机噪声确定所述目标特征中对应特征向量。
根据权利要求12所述的三维重建方法，其特征在于，

所述原始二维图像包含多张不同视角的图像，

所述原始图像特征包含与每张不同视角的图像相对应的多个特征，

所述根据所述原始图像特征确定所述目标特征中对应特征向量包括：

对于所述投影图中的、与所述原始三维物体在所述第一视角下可见的体素对应的像素，将多个原始图像特征中的对应特征向量进行平均，以将平均值作为目标特征中的对应特征向量。
根据权利要求12所述的三维重建方法，其特征在于，所述根据所述原始三维物体在所述补充视角下的投影图以及所述原始图像特征提取目标特征还包括：

将所述投影图与所确定的特征向量进行拼接，以生成所述目标特征。
根据权利要求1所述的三维重建方法，其特征在于，在所述对所述原始三维物体和所述补充三维物体进行融合，以获得所述目标物体的三维重建结果后，还包括：

判断所述三维重建结果中可见的体素占比是否大于第二比例；

对于不大于第二比例的情况，将所述补充二维图像作为原始二维图像，并再次基于新的补充视角的相机位姿进行三维重建，直至三维重建结果中可见的体素占比大于第二比例。
一种三维重建装置，其特征在于，包括：

特征提取模块，用于从目标物体的原始二维图像中提取原始图像特征；

第一重建模块，用于基于所述原始图像特征确定原始三维物体；

补充视角模块，用于确定所述目标物体的补充视角的相机位姿，其中所述补充视角与生成所述原始二维图像的第一视角不同；

补充图像模块，用于基于所述补充视角的相机位姿，生成所述目标物体在所述补充视角下的补充二维图像；

第二重建模块，用于对所述补充二维图像进行三维重建，以生成与所述补充二维图像相对应的补充三维物体；以及

融合模块，用于对所述原始三维物体和所述补充三维物体进行融合，以获得所述目标物体的三维重建结果。
一种三维重建系统，包括：处理器和存储器，其中，所述存储器中存储有计算机程序指令，其特征在于，所述计算机程序指令被所述处理器运行时用于执行如权利要求1至15任一项所述的三维重建方法。
一种存储介质，在所述存储介质上存储了程序指令，其特征在于，所述程序指令在运行时用于执行如权利要求1至15任一项所述的三维重建方法。