WO2023142781A1

WO2023142781A1 - 图像三维重建方法、装置、电子设备及存储介质

Info

Publication number: WO2023142781A1
Application number: PCT/CN2022/140102
Authority: WO
Inventors: 胡颖; 谭志强; 李世博; 张立海
Original assignee: 中国科学院深圳先进技术研究院
Priority date: 2022-01-28
Filing date: 2022-12-19
Publication date: 2023-08-03
Also published as: CN114548238A

Abstract

本申请适用于图像处理技术领域，提供了图像三维重建方法、装置、电子设备及存储介质，包括：获取二维图像；将所述二维图像输入已训练的特征提取网络进行处理，得到所述二维图像对应的二维特征信息；将所述二维特征信息输入已训练的维度变换网络进行处理，得到三维特征信息；将所述三维特征信息输入已训练的图像生成网络进行处理，得到目标三维重建图像；其中，所述图像生成网络依次包括三维逐点卷积层和三维反卷积层。本申请实施例能够高效准确地实现图像的三维重建。

Description

图像三维重建方法、装置、电子设备及存储介质

技术领域

本申请属于图像处理技术领域，尤其涉及一种图像三维重建方法、装置、电子设备及存储介质。

背景技术

图像三维重建，指的是从单个或者多个二维图像中推断出图像中物体的三维形状，以重建得到包含物体三维信息的图像。随着计算机视觉的发展，图像三维重建算法已被广泛应用于许多领域，例如机器人导航、三维建模、物体识别、场景识别、医学诊断等。然而，目前缺乏一种能够保证效率和准确性的图像三维重建方法。

技术问题

有鉴于此，本申请实施例提供了图像三维重建方法、装置、电子设备及存储介质，以解决现有技术中如何高效准确地实现图像的三维重建的问题。

技术解决方案

本申请实施例的第一方面提供了一种图像三维重建方法，包括：

获取二维图像；

将所述二维图像输入已训练的特征提取网络进行处理，得到所述二维图像对应的二维特征信息；

将所述二维特征信息输入已训练的维度变换网络进行处理，得到三维特征信息；

将所述三维特征信息输入已训练的图像生成网络进行处理，得到目标三维重建图像；其中，所述图像生成网络依次包括三维逐点卷积层和三维反卷积层。

可选地，所述图像生成网络的所述三维反卷积层中包含了第一预设数目的不同尺度的三维卷积核。

可选地，所述将所述二维图像输入已训练的特征提取网络进行处理，得到所述二维图像对应的二维特征信息，包括：

将所述二维图像输入已训练的特征提取网络进行处理，得到至少两个不同尺度的二维特征信息；其中，所述特征提取网络包括依次连接的至少两个网络层，不同尺度的所述二维特征信息分别对应为不同的所述网络层输出的特征信息；

对应地，所述将所述二维特征信息输入已训练的维度变换网络进行处理，得到三维特征信息，包括：

将各个所述二维特征信息输入已训练的维度变换网络进行处理，得到与各个所述二维特征信息分别对应的各个三维特征信息。

可选地，所述特征提取网络包括依次连接的第一CBAM网络层、N个ECA网络层、第二CBAM网络层，所述ECA网络层包含残差块；

所述不同尺度的二维特征信息包括所述N个ECA网络层输出的N个二维特征信息以及所述第二CBAM网络层输出的二维特征信息；其中，所述第一CBAM网络层的输入为所述二维图像，第一个所述ECA网络层的输入为所述第一CBAM网络层的输出，第i个所述ECA网络层的输入为第i-1个所述ECA网络层的输出，所述第二CBAM网络层的输入为最后一个所述ECA网络层的输出；N为大于1的正整数，i为大于1且小于或者等于N的任一正整数。

可选地，所述维度变换网络包括N+1个变换子网络，第j个所述变换子网络的输入为第j个所述ECA网络层的输出，第j个所述变换子网络的输出为第j个所述ECA网络层输出的二维特征信息转换成的三维特征信息；最后一个所述变换子网络的输入为所述第二CBAM网络层的输出，最后一个所述变换子网络的输出为所述第二CBAM网络层输出的二维特征信息转换成的三维特征信息；其中，j为小于或者等于N的正整数。

可选地，所述图像生成网络包括N+1个特征生成网络层和目标卷积网络层；第一个所述特征生成网络层的输入为第一个所述变换子网络的输出，第m个所述特征生成网络层的输入包括第m个所述变换子网络的输出以及第m-1个所述变换子网络的输出；所述目标卷积网络层的输入为最后一个所述变换子网络的输出，所述目标卷积网络层的输出为所述目标三维重建图像；其中，m为大于1，并且小于或者等于N+1的任一正整数。

可选地，所述图像三维重建方法应用于X光图像的三维重建，在所述获取二维图像之前，还包括：

从预设的CT图像数据集中获取预设数量的CT样本图像；

根据所述预设数量的CT样本图像和DDR投影算法，得到预设数量的二维投影图像；

根据所述预设数量的二维投影图像和预设的风格迁移算法，生成预设数量的X光样本图像；

基于所述预设数量的X光样本图像对特征提取网络、维度变换网络和图像生成网络进行训练，得到所述已训练的特征提取网络、所述已训练的维度变换网络和所述已训练的图像生成网络。

本申请实施例的第二方面提供了一种图像三维重建装置，包括：

获取单元，用于获取二维图像；

特征提取单元，用于将所述二维图像输入已训练的特征提取网络进行处理，得到所述二维图像对应的二维特征信息；

维度变换单元，用于将所述二维特征信息输入已训练的维度变换网络进行处理，得到三维特征信息；

重建单元，用于将所述三维特征信息输入已训练的图像生成网络进行处理，得到目标三维重建图像；其中，所述图像生成网络依次包括三维逐点卷积层和三维反卷积层。

本申请实施例的第三方面提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，当所述处理器执行所述计算机程序时，使得电子设备实现如所述图像三维重建方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，使得电子设备实现如所述图像三维重建方法的步骤。

本申请实施例的第五方面提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行上述第一方面中任一项所述的图像三维重建方法。

有益效果

本申请实施例与现有技术相比存在的有益效果是：本申请实施例中，在获取二维图像后，将该二维图像输入已训练的特征提取网络进行处理，得到二维图像对应该二维特征信息；再将该二维特征信息输入已训练的维度变换网络进行处理，得到三维特征信息；之后，将该三维特征信息输入已训练的图像生成网络进行处理，可以得到目标三维重建图像。由于该图像生成网络包括了三维反卷积层，通过该三维反卷积层可以实现准确的上采样，弥补原来在特征提取网络中由于卷积操作下采样过程造成的图像分辨率损失，提升图像重建效果；并且，由于该图像生成网络在该三维反卷积层之前，还包括了三维逐点卷积层，通过添加该三维逐点卷积层，能够在生成的图像中获得更多的细节，同时可以有效地减少输入后续三维反卷积层的冗余特征数量，减少后续三维反卷积过程的计算量，提高计算效率，进而提高图像重建效率。因此，本申请实施例的图像三维重建方法能够在保证图像重建效果的同时，提高图像重建效率，高效准确地实现图像三维重建。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1是本申请实施例提供的一种图像三维重建方法的实现流程示意图；

图2是本申请实施例提供的一种特征生成网络层的结构示意图；

图3是本申请实施例提供的一种CBAM网络层的结构示意图；

图4是本申请实施例提供的一种ECA网络层的结构示意图；

图5是本申请实施例提供的图像三维重建网络的示例图；

图6是本申请实施例提供的一种图像三维重建装置的示意图；

图7是本申请实施例提供的电子设备的示意图。

本发明的实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

目前，图像三维重建通常是基于卷积神经网络（Convolutional Neural Networks, CNN）实现的。然而，由于卷积神经网络在网络采样过程会造成一定的分辨率损失，并且图像重建任务计算量较大，导致目前图像三维重建的准确性和效率较低。

为了解决上述的技术问题，本申请实施例提供了一种图像三维重建方法、装置、电子设备及存储介质，在获取二维图像后，将该二维图像输入已训练的特征提取网络进行处理，得到二维图像对应该二维特征信息；再将该二维特征信息输入已训练的维度变换网络进行处理，得到三维特征信息；之后，将该三维特征信息输入图像生成网络依次进行三维逐点卷积处理和三维反卷积处理，可以得到目标三维重建图像。

由于该图像生成网络包括了三维反卷积层，通过该三维反卷积层可以实现准确的上采样，弥补原来在特征提取网络中由于卷积操作下采样过程造成的图像分辨率损失，提升图像重建效果；并且，由于该图像生成网络在该三维反卷积层之前，还包括了三维逐点卷积层，通过添加该三维逐点卷积层，能够在生成的图像中获得更多的细节，同时可以有效地减少输入后续三维反卷积层的冗余特征数量，减少后续三维反卷积过程的计算量，提高计算效率，进而提高图像重建效率。因此，本申请实施例的图像三维重建方法能够在保证图像重建效果的同时，提高图像重建效率，高效准确地实现图像三维重建。

示例性地，本申请实施例的图像三维重建方法可以应用于医疗场景中。

在临床上，通过电子计算机断层扫描（Computed Tomography，CT）技术，能够获取患者组织的三维体积信息，然而这种方式在实践中，需要从大量不同角度位置进行投影，以保持可接受的分辨率并减轻断层扫描仪基于物理的伪影，可见，CT扫描技术具有高辐射、重建时间长且存在伪影的缺陷。除了CT扫描技术，新型的电子光学系统（Electro Optical System，EOS）为全身双平面X射线扫描和整个骨骼的三维重建提供了更好的选择，然而EOS成像的重建过程是基于统计形状模型（statistical shape model,SSM）实现的，因此获得的模型不是患者组织的完全反映，而是语义相似的虚拟模型。可见，通过CT技术或者EOS技术实现三维重建仍存在一定的缺陷。

为了解决该技术问题，可以通过拍摄患者的X光图像，基于该二维的X光图像，采用本申请实施例的图像三维重建方法重建得到目标三维重建图像，该目标三维重建图像可以为包含人体组织的空间信息的CT序列图像。其中，X光图像指的是通过X射线（也称为伦琴射线）照射人体部位，利用人体不同组织对X射线的吸收程度不同的原理，生成的能够呈现人体不同组织部位的影像；X光图像的采集过程相对于CT扫描过程，对患者的辐射较少，并且二维的X光图像实际包含了隐藏的空间信息，因此通过本申请实施例的图像三维重建方法对X光图像进行三维重建，能够在对人体影响较小的情况下，高效准确地重建得到包含人体组织三维空间信息的目标三维重建图像。该方法可以应用于人体脊柱、牙齿、肺部、胸部多种人体组织的X光图像的三维重建任务中，为医生的工作提供极大的便利。

实施例一：

图1示出了本申请实施例提供的一种图像三维重建方法的流程示意图，该图像三维重建方法应用于电子设备，该电子设备包括但不限于电脑、平板电脑、图像拍摄设备等。如图1所示的图像三维重建方法详述如下：

在S101中，获取二维图像。

本申请实施例中的二维图像能够通过二维的像素表现阴影、遮挡、相对大小等信息，体现被拍摄物体的相对空间。在一个实施例中，该二维图像为通过投影射线照相得到的图像，该二维图像中的像素隐含了对不透明表面以外的透明体积结构的信息。示例性地，该二维图像可以为X光图像。

在一个实施例中，本申请实施例的电子设备能够与图像拍摄设备进行通信，在图像拍摄设备拍摄物体生成二维图像后，接收该图像拍摄设备传输的二维图像。在另一个实施例中，本申请实施例的电子设备可以直接为图像拍摄设备，在接收到拍摄指令后，开始对指定拍摄区域的物体进行拍摄，生成该二维图像。示例性地，该图像拍摄设备可以为X光机。

在S102中，将所述二维图像输入已训练的特征提取网络进行处理，得到所述二维图像对应的二维特征信息。

本申请实施例中，电子设备包含了已训练的图像三维重建网络，该图像三维重建网络为神经网络，已训练的图像三维重建网络中，具体包含已训练的特征提取网络、已训练的维度变换网络和已训练的图像生成网络这三部分。

在获取到二维图像后，将该二维图像输入上述的已训练的特征提取网络进行特征提取处理，得到该二维图像对应的二维特征信息。该特征提取网络具体为包含卷积层的深度卷积网络，通过该卷积层的卷积操作，能够提取二维图像的特征信息。该特征提取网络通常包含多个网络层的卷积处理，在特征提取中包含了下采样过程，使得最终提取到的二维特征信息包含尺度小于输入尺度的深层特征信息。

在S103中，将所述二维特征信息输入已训练的维度变换网络进行处理，得到三维特征信息。

本申请实施例中，维度变换网络具体为包含维度转换函数和激活函数的神经网络。示例性地，设经过特征提取网络提取得到的二维特征信息包含尺寸为（C,H,W）的二维特征信息（其中C代表通道信息，H代表图像高度信息，W代表图像宽度信息），将该二维特征信息通过维度转换函数的处理，可以得到尺寸为（C,1,H,W）的初始三维特征信息。该初始三维特征信息（C,1,H,W）进一步可以依次通过内核大小为D×1×1的反卷积层、激活函数、归一化函数（例如batch normalization函数）的处理，得到该二维特征信息对应的三维特征信息。其中，D为预设的深度信息，在一些实施例中，D的大小可以等于当前的通道数，或者可以根据当前的网络层数而确定。前述的激活函数可以为线性整流函数（Linear rectification function，ReLU）。

在S104中，将所述三维特征信息输入已训练的图像生成网络进行处理，得到目标三维重建图像；其中，所述图像生成网络依次包括三维逐点卷积层和三维反卷积层。

本申请实施例中，图像生成网络为能够基于图像的三维特征信息重建得到包含图像三维信息的目标图三维重建图像的深度卷积网络。该图像生成网络具体包括三维逐点卷积层和三维反卷积层。

在基于二维图像的二维特征信息得到对应的三维特征信息后，将该三维特征信息输入已训练的图像生成网络，先经过三维逐点卷积层进行单点的特征提取，在获取更多细节特征信息的同时，降低卷积维度；之后，再将三维逐点卷积层输出的特征信息输入三维反卷积层进行处理，该三维反卷积层能够实现上采样效果，将低尺度特征信息转换为高尺度特征信息进行输出。在得到高尺度特征信息后，再基于该高尺度特征信息和卷积操作，生成包含三维特征信息的目标三维重建图像。在一个实施例中，该目标三维重建图像为一张三维图像，在另一个实施例中，目标三维重建图像为多张包含物体的三维体积信息的图像序列。例如，设二维图像为X光图像，则该目标三维重建图像可以为包含人体组织体积信息的CT序列图像。

本申请实施例中，在获取二维图像后，将该二维图像输入已训练的特征提取网络进行处理，得到二维图像对应该二维特征信息；再将该二维特征信息输入已训练的维度变换网络进行处理，得到三维特征信息；之后，将该三维特征信息输入已训练的图像生成网络进行处理，可以得到目标三维重建图像。由于该图像生成网络包括了三维反卷积层，通过该三维反卷积层可以实现准确的上采样，弥补原来在特征提取网络中由于卷积操作下采样过程造成的图像分辨率损失，提升图像重建效果；并且，由于该图像生成网络在该三维反卷积层之前，还包括了三维逐点卷积层，通过添加该三维逐点卷积层，能够在生成的图像中获得更多的细节，同时可以有效地减少输入后续三维反卷积层的冗余特征数量，减少后续三维反卷积过程的计算量，提高计算效率，进而提高图像重建效率。因此，本申请实施例的图像三维重建方法能够在保证图像重建效果的同时，提高图像重建效率，高效准确地实现图像三维重建。

可选地，所述特征提取网络包含了残差块和/或注意力模块。

在一个实施例中，上述的特征提取网络可以包含残差块。示例性地，该特征提取网络的网络结构可以为ResNet结构（一种残差网络Residual Network结构），例如ResNet34结构。此时的特征提取网络的输入可以为大小为128×128的二维图像，网络的第一层由内核大小为7×7、步长为2的卷积层组成，第二层到第五层由4个残差块组成，并且其中包含两个卷积核为3×3的卷积层。在该网络结构中，每个残差块中卷积层的通道数保持相同，以确保快捷路径和残差路径在逐元素相加操作期间可以保持相同的大小。通过残差块的设置，使得中间特征信息能够通过长连接直接连接到最后的残差块，使得后面的网络层可以学习前面的中间特征信息，减少特征信息在经过各层卷积层时的信息丢失、损耗问题，提高特征提取的准确性，也解决了训练过程中的梯度消失问题。

在另一个实施例中，上述的特征提取网络还包含注意力模块。在将二维图像输入特征提取网络后，先通过注意力模块对该二维图像进行处理，得到该二维图像的注意力特征信息；之后基于该注意力特征信息对该二维图像进行卷积处理，得到该二维图像对应的二维特征信息。通过该注意力模块，能够强化二维图像中的有效特征的提取，减少冗余的无用信息的提取，提高图像重建效率，减少最终重建得到的图像的冗余特征。

本申请实施例中，图像生成网络具体包含至少一个特征生成网络层，该特征生成网络依次包括一个三维逐点卷积层和一个三维反卷积层，该三维反卷积层包含了第一预设数目的不同尺度的三维卷积核。该第一预设数目大于1，可以为2、3、4等，根据实际需要而设定。示例性地，该特征生成网络层如图2所示。基于维度变换网络生成的三维特征信息输入尺寸为1×1×1的三维逐点卷积层、激活层ReLu、归一化层Batch Normalization的处理后，输入三维反卷积层，该三维反卷积层包含两个分支，其中，上面一个分支包含卷积核为5×5×5的反卷积，下面一个分支包含卷积核为3×3×3反卷积，这两个反卷积层后面也同样连接了激活层ReLu和归一化层Batch Normalization。

本申请实施例中，由于三维反卷积层包含了不同的分支结构，每个分支包含不同尺度大小的卷积核，从而能够在反卷积时生成不同尺度的信息，生成更丰富更准确的细节特征信息，提高三维图像重建的准确性。

本申请实施例中，特征提取网络具体包含了至少两个网络层，每个网络层均存在卷积操作。二维图像在输入已训练的特征提取网络后，依次经过不同网络层的卷积操作及下采样操作，得到由大到小的不同尺度的二维特征信息，即，不同尺度的二维特征信息分别为不同的网络层输出的特征信息。在特征提取网络的网络层中，浅层网络输入出的二维特征信息尺度较大，语义信息表示能力较强，但缺乏空间几何细节信息；深度网络输出的二维特征信息尺度较小，具有较强的几何细节信息表示能力，但语义表示能力较弱。

在得到各个不同尺度的二维特征信息后，将各个二维特征信息输入已训练的维度变换网络分别进行维度转换处理，得到各个所述二维特征信息分别对应的各个三维特征信息。

本申请实施例中，由于能够通过获取特征提取网络不同网络层输出的特征信息，得到不同尺度的二维特征信息，并通过维度变换网络生成与这些二维特征信息分别对应的三维特征信息，使得之后将这些三维特征信息输入图像生成网络进行处理，能够融合图像不同尺度的三维特征，使得图像的语义信息和深层几何细节信息都能够准确地进行重构，因此能够使得最终得到的重构图像更加清晰准确。

本申请实施例中的特征提取网络具体包含了卷积块注意力模块（Convolutional Block Attention module，CBAM）网络层和高效通道注意力模块（Efficient channel Attention module）网络层，这两种注意力模块均为轻量级的注意力模块，使得在不增加网络复杂度的情况下，高效准确地实现二维图像的特征提取。

示例性地，本申请实施例的CBAM网络层的结构如图3所示，包含通道注意力模块和空间注意力模块，从而能够基于通道注意力和空间注意力更加准确有效地提取二维图像的特征信息。

示例性地，本申请实施例的ECA网络层的结构如图4所示，首尾为两个残差块，中间为两个卷积核为1×1×C的卷积层（其中C为通道数）。该ECA为一个不降低特征维数的局部跨通道交互模块，通过将每个通道与其相邻的K个通道结合，获得局部跨通道交互信息。其中K为正整数，具体可以通过关于通道的预设函数

自适应确定。

本申请实施例中的特征提取网络的具体在ResNet34网络结构的基础上进行改进，该特征提取网络的第一层和最后一层均为CBAM网络层（为了以示区别，将其分别成为第一CBAM网络层和第二CBAM网络层）其能够在保证整体网络结构不受影响，输入特征和输出特征的尺度与原来的ResNet34网络的尺度保持一致的前提下，提高特征自适应提取能力。而中间的网络层可以包括第二预设数目个ECA网络层，在不降低特征维数和网络复杂度的前提下高效地获得局部跨通道交互信息。

本申请实施例的特征提取网络具体依次包含第一CBAM网络层、N个ECA网络层和第二CBAM网络层。其中，N为大于1的正整数，例如可以为2、3、4等。

在该特征提取网络中，输入特征提取网络的二维图像作为第一CBAM网络层的输入，该第一CBAM网络层的输出作为初始特征信息X0。由于该第一CBAM网络层为首层网络层，因此该第一CBAM网络层输出的特征信息为较为浅层的不足以有效表示二维图像特征的信息，此时不将其作为二维特征信息，而是将其继续传入下一网络层进行处理，即将其输入第一个ECA网络层（例如图5所示的ECA网络层1）进行处理。

对于N个ECA网络层来说，第一个ECA网络层的输入即为连接在该第一个ECA网络层之前的第一CBAM网络层的输出。而对于第一个ECA网络层之后的ECA网络层，即第i个ECA网络层，其输入为第i-1个ECA网络层的输出。对于N个ECA网络层中的每一个ECA网络层，其输出的一个分支输入至下一个网络层（即下一个ECA网络或者第二CBAM网络层），其输出的另一个分支的信息分别为一个二维特征信息。即，N个ECA网络层分别对应输出N各二维特征信息。

对于特征提取网络的最后一个网络层，即第二CBAM网络层，其输入为N个ECA网络层中的最后一个ECA网络层输出的特征信息，其输出为最后一个尺度最小的二维特征信息。

该特征提取网络最终输出的各个不同尺度的二维特征信息包括每个ECA网络层分别输出的二维特征信息，以及第二CBAM网络输出的二维特征信息，一共为N+1个二维特征信息。

本申请实施例中，特征提取网络由CBAM网络层和ECA网络层有序地组成，通过CBAM网络层和ECA网络层的处理，能够在轻量化网络，减少计算量的同时，基于注意力机制准确有效地实现二维图像的特征提取，从而提高图像三维重建的效率和准确性。

本申请实施例中，与特征提取网络输出的N+1个二维特征信息相对应，维度变换网络包括N+1个变换子网络，每个变换子网络分别对应对一个二维特征信息进行维度转换处理。示例性地，每个变换子网络均包含上述步骤S103所述的维度转换函数、内核大小为D×1×1的反卷积层、激活函数和归一化函数。

具体地，前N个变换子网络中的任意一个，即第j个变换子网络，其输入为第j个ECA网络层的输出，其输出为将其对应的第j个ECA网络层输出的二维特征信息进行维度转换得到的三维特征信息。而对于最后一个变换子网络，即第N+1个变换子网络，其输入为第二CBAM网络层的输出，其输出为将其对应的第二CBAM网络层输出的二维特征信息进行维度转换得到的三维特征信息。

本申请实施例中，通过维度变换网络中的各个变换子网络分别对各个二维特征信息进行处理，能够准确地生成与各个二维特征信息一一对应的各个三维特征信息，从而提高图像三维重建的准确性。

可选地，所述图像生成网络包括N+1个特征生成网络层和目标卷积网络层；第一个所述特征生成网络层的输入为最后一个所述变换子网络的输出，第m个所述特征生成网络层的输入包括倒数第m个所述变换子网络的输出以及第m-1个所述变换子网络的输出；所述目标卷积网络层的输入为最后一个所述变换子网络的输出，所述目标卷积网络层的输出为所述目标三维重建图像；其中，m为大于1，并且小于或者等于N+1的任一正整数。

本申请实施例中图像生成网络具体包含用于上采样和融合图像的三维特征信息的特征生成网络层，以及用于最终的目标三维特征信息重建得到目标三维重建图像的目标卷积网络层。其中，特征生成网络层的数量与三维特征信息的数量一致，为N+1个。

具体地，由于特征提取网络卷积过程中出现的下采样，特征提取网络输出的N+1个二维特征信息中，其尺度依次从到变小，对应地，变换子网络1~变换子网络N+1分别输出的N+1个三维特征信息Y ₁~Y _N+1中，其尺度大小的排列顺序为从大到小。在N+1个特征生成网络层中，第一个特征生成网络层的输入直接为尺度最小的三维特征信息Y _N+1，其对应为最后一个变换子网络（即变换子网络N+1）的输出。而在对于第一个特征生成网络层后的每个特征生成网络层，即第m个特征生成网络层，其输入包含两个分支，一个输入为倒数第m个变换子网络（即正数第N+1-m个变换子网络）的输出，另一个输入为第m-1个特征生成网络层的输出。通过该网络结构，每次将上一尺度的三维特征信息上采样得到的三维特征信息与当前尺度的三维特征信息一同输入特征生成网络层进行三维逐点卷积和三维反卷积处理，实现两个尺度的三维特征信息的融合，最终得到目标三维特征信息。该目标三维特征信息即融合了各个不同尺度的所述三维特征信息。该目标三维特征信息能够融合图像的浅层语义信息和深层几何细节信息。

在生成目标三维特征信息后，将该目标三维特征信息输入目标卷积网络层进行处理，即可得到与原来的二维图像的尺度大小一致，并且细节清晰、边界清晰的目标三维重构图像。

本申请实施例中，由于能够基于包含三维逐点卷积层和三维反卷积层的特征生成网络，实现对不同尺度的三维特征信息的上采样和融合处理，因此能够准确地生成目标三维特征信息，使得基于该目标三维特征信息能够准确地得到清晰的目标三维重构图像。

从预设的CT图像数据集中获取预设数量的CT样本图像；

本申请实施例中，可以将由特征提取网络、维度变换网络和图像生成网络组合而成的神经网络称为图像三维重建网络。当本申请实施例的图像三维重建方法具体应用于X光图像的三维重建，即本申请实施例的二维图像为X光图像时，则对应地，该图像三维重建网络需要基于X光样本图像训练得到。然而，目前基本没有公开的数据量较大的X光图像数据集，并且人工构建X光图像数据集较为较为费力且成本较高，而现有公开的数据集中存在数据量足够的CT图像数据集，因此本申请实施例中，可以基于该CT图像数据集以及风格迁移算法，构建得到X光样本图像，再基于构建得到的X光样本图像准确地实现对图像三维重建网络的训练。

首先，可以从预设的CT图像数据集中获取预设数量的CT样本图像，该预设数量可以根据实际的训练需要而确定，例如可以为1000张。

在获取到预设数量的CT样本图像后，对于每张CT样本图像，均通过数字重建放射影像（Digitally Reconstructured Radiograph，DRR）投影算法进行处理，最终可以生成预设数量的二维投影图像。

在生成二维投影图像后，可以基于一张实际拍摄的原始X光图像，采用预设的风格迁移算法（例如通过提前训练得到的风格迁移神经网络），对每张二维投影图像分别进行风格迁移处理，从而使得每张二维投影图像都能够模仿该原始X光图像的特征，生成预设数量的X光样本图像。

在生成预设数量的X光样本图像之后，可以将这预设数量的X光样本图像输入图像三维重建网络中，对其中的特征提取网络、维度变换网络和图像生成网络进行端到端的训练，最终得到已训练的图像三维重建网络，即得到已训练的特征提取网络、已训练的维度变换网络和已训练的图像生成网络。

本申请实施例中，由于能够基于CT图像数据集、DRR投影算法和风格迁移算法，便捷有效地生成预设数量的X光样本图像，基于这些X光样本图像准确地对特征提取网络、维度变换网络和图像生成网络进行训练，最终准确地生成已训练的网络，使得后续可以基于这些网络高效准确地实现图像三维重建。

示例性地，设上述的N=3，本申请实施例的图像三维重建网络可以如图5所示，详述如下：

特征提取网络包含依次连接的第一CBAM网络层、3层ECA网络层和第二CBAM网络层。二维图像输入第一CBAM网络层进行处理后，得到初始特征信息X0。该初始特征信息X0作为第一个ECA网络层，即ECA网络层1的输入。该ECA网络层1对该初始特征信息X0进行处理后得到的二维特征信息X1分为两个分支，一个分支输入至维度变换网络中对应的变换子网络1进行维度变换处理，另一个分支输入至下一个ECA网络层，即ECA网络层2进行处理。同样地，ECA网络层2处理ECA网络层1输入的二维特征信息后，得到的二维特征信息X2分为两个分支，一个分支输入至维度变换网络中对应的变换子网络2进行维度变换处理，另一个分支输入至下一个ECA网络层，即ECA网络层3进行处理；ECA网络层3处理ECA网络层2输入的二维特征信息后，得到的二维特征信息X3分为两个分支，一个分支输入至维度变换网络中对应的变换子网络3进行维度变换处理，另一个分支输入至下一个网络层，即第二CBAM网络层进行处理；第二CBAM网络层对ECA网络层3输入的二维特征信息进行处理，得到二维特征信息X4，将其直接输入至维度变换网络中的变换子网络4进行处理。

在特征提取网络层输出的X1~X4四个二维特征信息中，尺度依次从大变小；对应地，维度变换网络输出的Y1~Y4四个三维特征信息的尺度也依次从大变小。

三维特征信息Y1~Y4输入图像生成网络后，最后一个变换子网络，即变换子网络4输出的尺度最小的三维特征信息Y4先输入第一个特征生成网络层，即特征生成网络层1进行三维逐点卷积处理及反卷积处理，得到尺度扩增三维特征信息Y4’；将该Y4’与三维特征信息Y3一同输入特征生成网络层2进行处理，得到尺度扩增三维特征信息Y3’；将该Y3’与三维特征信息Y2一同输入特征生成网络层3进行处理，得到尺度扩增三维特征信息Y2’；将该Y2’与三维特征信息Y1一同输入特征生成网络层4进行处理，即可得到尺度大小与第一CBAM网络层输出的二维特征信息X0的尺度大小相匹配（即长宽一致）的目标三维特征信息。将该目标三维特征信息输入目标卷积网络层进行处理，即可得到最终的目标三维重建图像。

通过图像三维重建网络，基于轻量化的注意力模块、残差块和多尺度特征融合，在大大减少所需的计算资源的同时，保证重构图像的精度，同时能够基于特征生成网络的三维逐点卷积层和三维反卷积层，准确高效地改善重建过程中的像素损失，从而能够高效准确地实现图像三维重建，得到清晰准确地目标三维重建图像。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

实施例二：

图3示出了本申请实施例提供的一种图像三维重建装置的结构示意图，为了便于说明，仅示出了与本申请实施例相关的部分：

该图像三维重建装置包括：获取单元61、特征提取单元62、维度变换单元63、重建单元64。其中：

获取单元61，用于获取二维图像。

特征提取单元62，用于将所述二维图像输入已训练的特征提取网络进行处理，得到所述二维图像对应的二维特征信息；所述特征提取网络包含卷积层。

维度变换单元63，用于将所述二维特征信息输入已训练的维度变换网络进行处理，得到三维特征信息。

重建单元64，用于将所述三维特征信息输入已训练的图像生成网络进行处理，得到目标三维重建图像；其中，所述图像生成网络依次包括三维逐点卷积层和三维反卷积层。

可选地，所述特征提取单元62，具体用于将所述二维图像输入已训练的特征提取网络进行处理，得到至少两个不同尺度的二维特征信息；其中，所述特征提取网络包括依次连接的至少两个网络层，不同尺度的所述二维特征信息分别对应为不同的所述网络层输出的特征信息；

对应地，所述维度变换单元63，具体用于将各个所述二维特征信息输入已训练的维度变换网络进行处理，得到与各个所述二维特征信息分别对应的各个三维特征信息。

可选地，所述图像三维重建方法应用于X光图像的三维重建，所述图像三维重建装置，还包括：

训练单元，用于从预设的CT图像数据集中获取预设数量的CT样本图像；根据所述预设数量的CT样本图像和DDR投影算法，得到预设数量的二维投影图像；根据所述预设数量的二维投影图像和预设的风格迁移算法，生成预设数量的X光样本图像；基于所述预设数量的X光样本图像对特征提取网络、维度变换网络和图像生成网络进行训练，得到所述已训练的特征提取网络、所述已训练的维度变换网络和所述已训练的图像生成网络。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

实施例三：

图7是本申请一实施例提供的电子设备的示意图。如图7所示，该实施例的电子设备7包括：处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72，例如图像三维重建程序。所述处理器70执行所述计算机程序72时实现上述各个图像三维重建方法实施例中的步骤，例如图1所示的步骤S101至S104。或者，所述处理器70执行所述计算机程序72时实现上述各装置实施例中各模块/单元的功能，例如图6所示获取单元61至重建单元64的功能。

示例性的，所述计算机程序72可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器71中，并由所述处理器70执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序72在所述电子设备7中的执行过程。

所述电子设备7可以是桌上型计算机、笔记本、掌上电脑、X光机等计算设备。所述电子设备可包括，但不仅限于，处理器70、存储器71。本领域技术人员可以理解，图7仅仅是电子设备7的示例，并不构成对电子设备7的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器70可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器71可以是所述电子设备7的内部存储单元，例如电子设备7的硬盘或内存。所述存储器71也可以是所述电子设备7的外部存储设备，例如所述电子设备7上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。进一步地，所述存储器71还可以既包括所述电子设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述电子设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/电子设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/电子设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种图像三维重建方法，其特征在于，包括：

获取二维图像；

将所述二维图像输入已训练的特征提取网络进行处理，得到所述二维图像对应的二维特征信息；

将所述二维特征信息输入已训练的维度变换网络进行处理，得到三维特征信息；

将所述三维特征信息输入已训练的图像生成网络进行处理，得到目标三维重建图像；其中，所述图像生成网络依次包括三维逐点卷积层和三维反卷积层。
如权利要求1所述的图像三维重建方法，其特征在于，所述图像生成网络的所述三维反卷积层中包含了第一预设数目的不同尺度的三维卷积核。
如权利要求1所述的图像三维重建方法，其特征在于，所述将所述二维图像输入已训练的特征提取网络进行处理，得到所述二维图像对应的二维特征信息，包括：

将所述二维图像输入已训练的特征提取网络进行处理，得到至少两个不同尺度的二维特征信息；其中，所述特征提取网络包括依次连接的至少两个网络层，不同尺度的所述二维特征信息分别对应为不同的所述网络层输出的特征信息；

对应地，所述将所述二维特征信息输入已训练的维度变换网络进行处理，得到三维特征信息，包括：

将各个所述二维特征信息输入已训练的维度变换网络进行处理，得到与各个所述二维特征信息分别对应的各个三维特征信息。
如权利要求3所述的图像三维重建方法，其特征在于，所述特征提取网络包括依次连接的第一CBAM网络层、N个ECA网络层、第二CBAM网络层，所述ECA网络层包含残差块；

所述不同尺度的二维特征信息包括所述N个ECA网络层输出的N个二维特征信息以及所述第二CBAM网络层输出的二维特征信息；其中，所述第一CBAM网络层的输入为所述二维图像，第一个所述ECA网络层的输入为所述第一CBAM网络层的输出，第i个所述ECA网络层的输入为第i-1个所述ECA网络层的输出，所述第二CBAM网络层的输入为最后一个所述ECA网络层的输出；N为大于1的正整数，i为大于1且小于或者等于N的任一正整数。
如权利要求4所述的图像三维重建方法，其特征在于，所述维度变换网络包括N+1个变换子网络，第j个所述变换子网络的输入为第j个所述ECA网络层的输出，第j个所述变换子网络的输出为第j个所述ECA网络层输出的二维特征信息转换成的三维特征信息；最后一个所述变换子网络的输入为所述第二CBAM网络层的输出，最后一个所述变换子网络的输出为所述第二CBAM网络层输出的二维特征信息转换成的三维特征信息；其中，j为小于或者等于N的正整数。
如权利要求5所述的图像三维重建方法，其特征在于，所述图像生成网络包括N+1个特征生成网络层和目标卷积网络层；第一个所述特征生成网络层的输入为最后一个所述变换子网络的输出，第m个所述特征生成网络层的输入包括倒数第m个所述变换子网络的输出以及第m-1个所述变换子网络的输出；所述目标卷积网络层的输入为最后一个所述变换子网络的输出，所述目标卷积网络层的输出为所述目标三维重建图像；其中，m为大于1，并且小于或者等于N+1的任一正整数。
如权利要求1至6任意一项所述的图像三维重建方法，其特征在于，所述图像三维重建方法应用于X光图像的三维重建，在所述获取二维图像之前，还包括：

从预设的CT图像数据集中获取预设数量的CT样本图像；

根据所述预设数量的CT样本图像和DDR投影算法，得到预设数量的二维投影图像；

根据所述预设数量的二维投影图像和预设的风格迁移算法，生成预设数量的X光样本图像；

基于所述预设数量的X光样本图像对特征提取网络、维度变换网络和图像生成网络进行训练，得到所述已训练的特征提取网络、所述已训练的维度变换网络和所述已训练的图像生成网络。
一种图像三维重建装置，其特征在于，包括：

获取单元，用于获取二维图像；

特征提取单元，用于将所述二维图像输入已训练的特征提取网络进行处理，得到所述二维图像对应的二维特征信息；

维度变换单元，用于将所述二维特征信息输入已训练的维度变换网络进行处理，得到三维特征信息；

重建单元，用于将所述三维特征信息输入已训练的图像生成网络进行处理，得到目标三维重建图像；其中，所述图像生成网络依次包括三维逐点卷积层和三维反卷积层。
一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，当所述处理器执行所述计算机程序时，使得电子设备实现如权利要求1至7任一项所述方法的步骤。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，当所述计算机程序被处理器执行时，使得电子设备实现如权利要求1至7任一项所述方法的步骤。