WO2020119620A1 - 具有自我提升能力的金字塔双目深度估计模型 - Google Patents

具有自我提升能力的金字塔双目深度估计模型 Download PDF

Info

Publication number
WO2020119620A1
WO2020119620A1 PCT/CN2019/123949 CN2019123949W WO2020119620A1 WO 2020119620 A1 WO2020119620 A1 WO 2020119620A1 CN 2019123949 W CN2019123949 W CN 2019123949W WO 2020119620 A1 WO2020119620 A1 WO 2020119620A1
Authority
WO
WIPO (PCT)
Prior art keywords
pyramid
model
self
loss
parallax
Prior art date
Application number
PCT/CN2019/123949
Other languages
English (en)
French (fr)
Inventor
程俊
杜聿博
张锲石
Original Assignee
中国科学院深圳先进技术研究院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中国科学院深圳先进技术研究院 filed Critical 中国科学院深圳先进技术研究院
Publication of WO2020119620A1 publication Critical patent/WO2020119620A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images

Definitions

  • the invention relates to the field of deep learning and two-dimensional image depth reconstruction, and in particular to a pyramid binocular depth estimation model with self-improvement capability.
  • the pyramid binocular depth model uses SPP-Module (spatial pyramid module) (that is, instead of using a single fixed-size pooling, but using four sizes of pooling kernels to extract features from the image, and the four Group features are up-sampled into fixed-size features and combined together) to replace the traditional GC-NET (Geometry and Structure Relation Network) feature extraction part.
  • SPP-Module spatial pyramid module
  • GC-NET Geometry and Structure Relation Network
  • the existing scheme applies the model trained in a specific scene to a new scene, for example, the model obtained after training in an urban street environment is applied to a rural street environment, the performance of the model will deteriorate. , The error of the parallax calculation becomes larger; the existing model can only carry out supervised learning under the condition that there is a parallax map generated according to the radar scan result in advance, but the working cost of the radar is very large, and the number of pre-calculated parallax maps is limited The depth computing power of the model is limited.
  • the present invention proposes a pyramid binocular depth estimation model with self-improvement capability. Based on the feature that binocular images can perform mutual image reconstruction based on parallax results, that is, the left image can be based on the right
  • the disparity picture generated by the image is calculated and synthesized.
  • the right picture is calculated by calculating the loss between the left and right new synthesized image and the original left and right image.
  • the model can be learned without relying on radar data and can be learned online when the model is applied to a new scene. Improve the accuracy of its depth calculation.
  • the technical solution for solving the above problems of the present invention is: a pyramid binocular depth estimation model with self-improving ability, which is special in that it includes the following steps:
  • step 1) the building of the spatial pyramid module in step 1) above is specifically:
  • the spatial pyramid module uses four sizes: 8*8, 16*16, 32*32, 64*64 pooling layers, each pooling layer is followed by a convolutional layer and an activation layer; all features are upsampled to the same
  • the size is w/4*h/4, and these features are fused together in the dimension of the channel, and the fused features are used as the input of the next layer; where w is the width of the input image and h is the height of the input image.
  • the features generated by the left and right images are slidingly fused on each parallax value to obtain a three-dimensional feature module with a feature number of w/4*h/4*d/4*.
  • the convolution operation with steps of 1, 2, and 1 is performed in the encoding stage, and the deconvolution operation with steps of 2 is performed twice in the decoding stage; the output of each group of encoding and decoding modules is upsampled to w*h*d, and the One operation and use
  • the three-dimensional layer is converted into a two-dimensional disparity map as each stage output D p is the predicted disparity image P d is the normalized three-dimensional probability.
  • the calculation of the loss function includes two cases:
  • the supervised partial loss is defined as the smooth absolute error between the predicted parallax and the actual measured parallax, as follows:
  • D g actually measures parallax
  • D p model predicts parallax
  • ⁇ x and ⁇ y are the mean values of the images X and Y
  • ⁇ x and ⁇ y are the variances of the images X and Y
  • ⁇ xy represents the covariance of X and Y
  • the calculation method of smooth absolute error is the same as that of supervised loss.
  • the present invention uses SPN (spatial transformation network) to reconstruct the binocular image according to the disparity map generated by the model, and trains the model according to the loss between the reconstructed image and the original image so that the model can Training without any pre-processed radar data.
  • SPN spatial transformation network
  • the model after supervised training can be trained online by using binocular reconstruction loss during testing to improve its performance.
  • FIG. 1 is a structural diagram of a pyramid binocular depth estimation model with self-improving ability of the present invention.
  • FIG. 1 is a structural diagram of a pyramid binocular depth estimation model with self-improving ability of the present invention.
  • the partA part is a cost integration module.
  • the cost integration method shown in partA2 is used to fuse all features on each disparity value.
  • the larger square represents the right feature
  • the smaller square represents the left feature.
  • PartB shows the multi-layer regression output.
  • Input image, width: w, height: h, number of channels: c, predefined maximum parallax d 160.
  • a pyramid binocular depth estimation model with self-improvement ability includes the following steps:
  • the cost integration module in the present invention performs sliding fusion on each disparity value of the generated features of the left and right images, for example, the left image feature (x, when sliding on the kth disparity value)
  • the multi-layer regression output module as shown in Part B in FIG. 1, the thick arrow indicates the flow direction, and the thin arrow indicates that the current 3D layer is connected to the specified 3D layer.
  • the encoding stage performs convolution operations with step sizes of 1, 2, and 1, and the decoding stage performs two deconvolution operations with step sizes of 2.
  • the output of each group of codec modules is upsampled to w*h*d, and normalized and Convert the three-dimensional layer into a two-dimensional parallax map as each level output D p is the predicted parallax image P d is the normalized three-dimensional probability;
  • the supervised partial loss is defined as the smooth absolute error between the predicted parallax and the actual measured parallax, as follows:
  • ⁇ x and ⁇ y are the mean values of images X and Y; ⁇ x and ⁇ y are the variances of images X and Y; ⁇ xy represents the covariance of X and Y, To input the left image, Is the synthesized right image;
  • the calculation method of smooth absolute error is the same as that of supervised loss.
  • the loss part of the right picture is calculated in the same way as the left picture, and will not be repeated here.
  • the model of the present invention can be learned without radar data, and when the model is transferred to other scenes, the performance can be improved in a short time through online learning.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

一种具有自我提升能力的金字塔双目深度估计模型,涉及深度学习、二维图像深度重建领域,包括以下步骤:1)搭建空间金字塔模块;2)进行代价整合;3)多层回归输出;4)计算损失函数。上述模型在金子塔双目模型的基础上,利用SPN(空间转换网络)根据模型生成的视差图对双目图像进行重建,并根据重建图像与原图像之间的损失对模型进行训练从而模型可以在没有任何预处理雷达数据的情况下进行训练,在有预处理的雷达数据的情况下,经过监督训练之后的模型在测试时可以通过利用双目重建损失进行在线训练以提升其表现。

Description

具有自我提升能力的金字塔双目深度估计模型 技术领域
本发明涉及深度学习、二维图像深度重建领域,具体涉及一种具有自我提升能力的金字塔双目深度估计模型。
背景技术
对于经过矫正的双目图片,如果左图中坐标点为(x,y)的像素点a与右图中坐标点为(x-d,y)的a`点匹配,d我们称为视差,则a点和a`点到摄像头的距离(即深度)=相机焦距*两相机中心距离÷视差。因为视差d和深度成反比,所以我们可以将求解深度的问题转化为求解双目图像的视差。
现有的技术方案中,金字塔双目深度模型用SPP-Module(空间金字塔模块)(即不采用单一固定尺寸的池化,而是用四种大小的池化核对图像进行特征提取,并将四组特征上采样为固定尺寸特征并结合在一起)取代传统的GC-NET(几何与结构关系网络)的特征提取部分。在GC-NET的损失匹配之后建立三组编码-解码三维卷积模块,每一模块会生成一组视差图,在训练阶段利用这三组视差图进行逐级训练,在测试阶段以最后一级卷积模块的视差图为最终结果。
现有的方案如果将其在某一特定场景下训练所得的模型应用到新场景时,例如将在城市街道环境下训练后所得的模型应用到乡村街道的环境下,模型的表现将会变差,视差计算的误差变大;现有的模型只可以在有预先根据雷达扫描结果生成的视差图的条件下进行有监督学习,但是雷达的工作成本十分大,并且预先计算好的视差图数量有限造成模型的深度计算能力有限。
发明内容
为解决上述背景技术中存在的问题,本发明提出一种具有自我提升能力的金字塔双目深度估计模型,基于双目图像可以根据视差结果进行相互的图像重建这一特点,即左图可以根据右图生成的视差图片计算合成的右图,通过计算 左右新合成图像与原始左右图像之间的损失进行训练使得模型可以不用依赖雷达数据进行学习以及当模型被应用到新场景中时可以通过在线学习的方式提高其深度计算的准确率。
本发明解决上述问题的技术方案是:一种具有自我提升能力的金字塔双目深度估计模型,其特殊之处在于,包括以下步骤:
1)搭建空间金字塔模块;
2)进行代价整合;
3)多层回归输出;
4)计算损失函数。
进一步地,上述步骤1)中搭建空间金字塔模块,具体为:
空间金字塔模块采用四种尺寸:8*8、16*16、32*32、64*64池化层,每个池化层后紧随卷积层和激活层;将所有特征都上采样为同一尺寸w/4*h/4,并将这些特征在通道的维度上融合在一起,融合后的特征作为下一层的输入;其中,w为输入图像的宽,h为输入图像的高。
进一步地,上述步骤2)中进行代价整合,具体为:
将左右图像各生成的特征在每个视差值上进行滑动融合,得到特征数为w/4*h/4*d/4*的三维特征模块。
进一步地,上述步骤3)中,
编码阶段进行步长为1、2、1的卷积操作,解码阶段进行2次步长为2的反卷积操作;每组编码解码模块的输出上采样为w*h*d,并进行归一化操作,并利用
Figure PCTCN2019123949-appb-000001
将三维层转化为二维视差图作为每级输出D p为预测的视差图像P d为归一化之后的三维概率。
进一步地,上述步骤4)中,计算损失函数包括两种情况:
4.1)有监督损失;
4.2)无监督损失。
进一步地,上述步骤4.1)中,
有监督部分损失被定义为预测视差与实际测量视差的光滑绝对误差,具体如下:
Figure PCTCN2019123949-appb-000002
其中:D g实际测量视差,D p模型预测视差,
Figure PCTCN2019123949-appb-000003
进一步地,上述步骤4.2)中,
无监督部分的损失:
Figure PCTCN2019123949-appb-000004
其中
Figure PCTCN2019123949-appb-000005
Figure PCTCN2019123949-appb-000006
为结构相似损失,
Figure PCTCN2019123949-appb-000007
Figure PCTCN2019123949-appb-000008
为光滑绝对误差;
4.2.1)结构相似损失:
Figure PCTCN2019123949-appb-000009
其中,
Figure PCTCN2019123949-appb-000010
μ x和μ y为图像X和Y的均值,σ x和σ y为图像X和Y的方差,σ xy表示X和Y的协方差,
Figure PCTCN2019123949-appb-000011
为输入左图像,
Figure PCTCN2019123949-appb-000012
为合成的右图像;
4.2.2)光滑绝对误差:
Figure PCTCN2019123949-appb-000013
光滑绝对误差的计算方式同有监督损失部分。
本发明的优点:
本发明在金子塔双目模型的基础上,利用SPN(空间转换网络)根据模型生成 的视差图对双目图像进行重建,并根据重建图像与原图像之间的损失对模型进行训练从而模型可以在没有任何预处理雷达数据的情况下进行训练,在有预处理的雷达数据的情况下,经过监督训练之后的模型在测试时可以通过利用双目重建损失进行在线训练以提升其表现。
附图说明
图1是本发明一种具有自我提升能力的金字塔双目深度估计模型结构图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
图1是本发明一种具有自我提升能力的金字塔双目深度估计模型结构图。首先将双目图像输入SPP模块提取特征,然后在每个视差级别对它们进行累加,并且在残差模块之后将它们放入多级编码-解码输出结构中。partA部分是代价整合模块,本发明采用partA2所示的代价整合方式,将所有特征在每个视差值上进行融合。在partA部分中,较大的方块表示右侧特征,较小的方块表示左侧特征。partB部分显示了多层回归输出。输入图像,宽:w,高:h,通道数:c,预定义最大视差d=160。
一种具有自我提升能力的金字塔双目深度估计模型,包括以下步骤:
1)搭建空间金字塔模块
空间金字塔模块是为了扩大模型的视野范围而设计的,它不采用固定尺寸 的池化核,而是采用四种尺寸:8*8,16*16,32*32,64*64池化层,每个池化层后紧随卷积层和激活层。因为四种尺寸的池化层提取出的特征尺寸不一,故将所有特征都上采样为同一尺寸w/4*h/4,并将这些特征在通道的维度上融合在一起,融合后的特征作为下一层的输入;
2)代价整合Cost-volume
本发明中的代价整合模块如图1中partA2的过程,将左右图像各生成的特征在每个视差值上进行滑动融合,例如在第k个视差值上滑动时左图特征(x,y)处的元素与右图特征(x-k,y)处的元素融合,其中:k<=x<w/4,0<=y<h/4。我们可以得到一个w/4*h/4*d/4*特征数的三维特征模块,此处我们采用d/4而不是d是因为GPU的存储能力有限,采用d时无法一次训练多张图片,训练的效率会降低;
3)多层回归输出
多层回归输出模块如图1中PartB所示粗箭头表示流程的走向,细箭头表示将当前三维层连接到指定三维层上。
编码阶段进行步长为1、2、1的卷积操作,解码阶段进行2次步长为2的反卷积操作。每组编码解码模块的输出上采样为w*h*d,并进行归一化操作,并利用
Figure PCTCN2019123949-appb-000014
将三维层转化为二维视差图作为每级输出D p为预测的视差图像P d为归一化之后的三维概率;
4)损失函数
4.1)有监督损失:
有监督部分损失被定义为预测视差与实际测量视差的光滑绝对误差,具体如下:
Figure PCTCN2019123949-appb-000015
其中:
D g实际测量视差 D p模型预测视差
Figure PCTCN2019123949-appb-000016
4.2)无监督损失:
无监督部分的损失:
Figure PCTCN2019123949-appb-000017
其中
Figure PCTCN2019123949-appb-000018
Figure PCTCN2019123949-appb-000019
为结构相似损失,
Figure PCTCN2019123949-appb-000020
Figure PCTCN2019123949-appb-000021
为光滑绝对误差;
4.2.1)结构相似损失:
Figure PCTCN2019123949-appb-000022
其中,
Figure PCTCN2019123949-appb-000023
μ x和μ y为图像X和Y的均值;σ x和σ y为图像X和Y的方差;σ xy表示X和Y的协方差,
Figure PCTCN2019123949-appb-000024
为输入左图像,
Figure PCTCN2019123949-appb-000025
为合成的右图像;
4.2.2)光滑绝对误差:
Figure PCTCN2019123949-appb-000026
光滑绝对误差的计算方式同有监督损失部分。
右图的损失部分与左图的计算方式一样,这里就不再赘述。
当不存在事先测量的视差数据时:无监督的方式训练模型。
当存在事先测量好的视差数据时:利用有监督的方式训练模型,在测试的时候,模型用无监督的方式进行10次在线训练如果训练和测试是在不同场景中则将在线训练的次数增加到30次。本发明模型可以在没有雷达数据的情况下进行学习,并且当模型迁移到其它场景中时可以通过在线学习的方式在短时间内提高表现。
以上所述仅为本发明的实施例,并非以此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间 接运用在其他相关的系统领域,均同理包括在本发明的专利保护范围内。

Claims (7)

  1. 一种具有自我提升能力的金字塔双目深度估计模型,其特征在于,包括以下步骤:
    1)搭建空间金字塔模块;
    2)进行代价整合;
    3)多层回归输出;
    4)计算损失函数。
  2. 根据权利要求1所述的一种具有自我提升能力的金字塔双目深度估计模型,其特征在于:步骤1)中搭建空间金字塔模块,具体为:
    空间金字塔模块采用四种尺寸:8*8、16*16、32*32、64*64池化层,每个池化层后紧随卷积层和激活层;将所有特征都上采样为同一尺寸w/4*h/4,并将这些特征在通道的维度上融合在一起,融合后的特征作为下一层的输入;其中,w为输入图像的宽,h为输入图像的高。
  3. 根据权利要求2所述的一种具有自我提升能力的金字塔双目深度估计模型,其特征在于:步骤2)中进行代价整合,具体为:
    将左右图像各生成的特征在每个视差值上进行滑动融合,得到特征数为w/4*h/4*d/4*的三维特征模块。
  4. 根据权利要求3所述的一种具有自我提升能力的金字塔双目深度估计模型,其特征在于:步骤3)中,
    编码阶段进行步长为1、2、1的卷积操作,解码阶段进行2次步长为2的反卷积操作;每组编码解码模块的输出上采样为w*h*d,并进行归一化操作,并利用
    Figure PCTCN2019123949-appb-100001
    将三维层转化为二维视差图作为每级输出D p为预测的视差图像P d为归一化之后的三维概率。
  5. 根据权利要求4所述的一种具有自我提升能力的金字塔双目深度估计模型,其特征在于:步骤4)中,计算损失函数包括两种情况:
    4.1)有监督损失;
    4.2)无监督损失。
  6. 根据权利要求5所述的一种具有自我提升能力的金字塔双目深度估计模型,其特征在于:步骤4.1)中,
    有监督部分损失被定义为预测视差与实际测量视差的光滑绝对误差,具体如下:
    Figure PCTCN2019123949-appb-100002
    其中:D g实际测量视差,D p模型预测视差,
    Figure PCTCN2019123949-appb-100003
  7. 根据权利要求6所述的一种具有自我提升能力的金字塔双目深度估计模型,其特征在于:步骤4.2)中,
    无监督部分的损失:
    Figure PCTCN2019123949-appb-100004
    其中
    Figure PCTCN2019123949-appb-100005
    Figure PCTCN2019123949-appb-100006
    为结构相似损失,
    Figure PCTCN2019123949-appb-100007
    Figure PCTCN2019123949-appb-100008
    为光滑绝对误差;
    4.2.1)结构相似损失:
    Figure PCTCN2019123949-appb-100009
    其中,
    Figure PCTCN2019123949-appb-100010
    μ x和μ y为图像X和Y的均值,σ x和σ y为图像X和Y的方差,σ xy表示X和Y的协方差,
    Figure PCTCN2019123949-appb-100011
    为输入左图像,
    Figure PCTCN2019123949-appb-100012
    为合成的右图像;
    4.2.2)光滑绝对误差:
    Figure PCTCN2019123949-appb-100013
    光滑绝对误差的计算方式同有监督损失部分。
PCT/CN2019/123949 2018-12-14 2019-12-09 具有自我提升能力的金字塔双目深度估计模型 WO2020119620A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811531857.0A CN109801323A (zh) 2018-12-14 2018-12-14 具有自我提升能力的金字塔双目深度估计模型
CN201811531857.0 2018-12-14

Publications (1)

Publication Number Publication Date
WO2020119620A1 true WO2020119620A1 (zh) 2020-06-18

Family

ID=66556741

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/123949 WO2020119620A1 (zh) 2018-12-14 2019-12-09 具有自我提升能力的金字塔双目深度估计模型

Country Status (2)

Country Link
CN (1) CN109801323A (zh)
WO (1) WO2020119620A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516698A (zh) * 2021-07-23 2021-10-19 香港中文大学(深圳) 一种室内空间深度估计方法、装置、设备及存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109801323A (zh) * 2018-12-14 2019-05-24 中国科学院深圳先进技术研究院 具有自我提升能力的金字塔双目深度估计模型
CN113393510B (zh) * 2020-03-12 2023-05-12 武汉Tcl集团工业研究院有限公司 一种图像处理方法、智能终端及存储介质
CN112396645B (zh) * 2020-11-06 2022-05-31 华中科技大学 一种基于卷积残差学习的单目图像深度估计方法和系统
CN117523024B (zh) * 2024-01-02 2024-03-26 贵州大学 一种基于潜在扩散模型的双目图像生成方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160078600A1 (en) * 2013-04-25 2016-03-17 Thomson Licensing Method and device for performing super-resolution on an input image
CN107590831A (zh) * 2017-08-30 2018-01-16 电子科技大学 一种基于深度学习的立体匹配方法
CN108510535A (zh) * 2018-03-14 2018-09-07 大连理工大学 一种基于深度预测和增强子网络的高质量深度估计方法
CN109801323A (zh) * 2018-12-14 2019-05-24 中国科学院深圳先进技术研究院 具有自我提升能力的金字塔双目深度估计模型

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105809717B (zh) * 2016-03-10 2019-01-11 上海玮舟微电子科技有限公司 一种深度估计方法、系统及电子设备
CN106157307B (zh) * 2016-06-27 2018-09-11 浙江工商大学 一种基于多尺度cnn和连续crf的单目图像深度估计方法
CN106934765A (zh) * 2017-03-14 2017-07-07 长沙全度影像科技有限公司 基于深度卷积神经网络与深度信息的全景图像融合方法
CN107767413B (zh) * 2017-09-20 2020-02-18 华南理工大学 一种基于卷积神经网络的图像深度估计方法
CN108389226A (zh) * 2018-02-12 2018-08-10 北京工业大学 一种基于卷积神经网络和双目视差的无监督深度预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160078600A1 (en) * 2013-04-25 2016-03-17 Thomson Licensing Method and device for performing super-resolution on an input image
CN107590831A (zh) * 2017-08-30 2018-01-16 电子科技大学 一种基于深度学习的立体匹配方法
CN108510535A (zh) * 2018-03-14 2018-09-07 大连理工大学 一种基于深度预测和增强子网络的高质量深度估计方法
CN109801323A (zh) * 2018-12-14 2019-05-24 中国科学院深圳先进技术研究院 具有自我提升能力的金字塔双目深度估计模型

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516698A (zh) * 2021-07-23 2021-10-19 香港中文大学(深圳) 一种室内空间深度估计方法、装置、设备及存储介质
CN113516698B (zh) * 2021-07-23 2023-11-17 香港中文大学(深圳) 一种室内空间深度估计方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN109801323A (zh) 2019-05-24

Similar Documents

Publication Publication Date Title
WO2020119620A1 (zh) 具有自我提升能力的金字塔双目深度估计模型
CN108510535B (zh) 一种基于深度预测和增强子网络的高质量深度估计方法
CN110415170B (zh) 一种基于多尺度注意力卷积神经网络的图像超分辨率方法
TWI709107B (zh) 影像特徵提取方法及包含其顯著物體預測方法
CN110427968B (zh) 一种基于细节增强的双目立体匹配方法
WO2018000752A1 (zh) 一种基于多尺度cnn和连续crf的单目图像深度估计方法
CN106462724B (zh) 基于规范化图像校验面部图像的方法和系统
CN112150521B (zh) 一种基于PSMNet优化的图像立体匹配方法
CN105956597A (zh) 一种基于卷积神经网络的双目立体匹配方法
CN113888744A (zh) 一种基于Transformer视觉上采样模块的图像语义分割方法
US11200644B2 (en) Video super resolution method
CN110689599A (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
CN110930342A (zh) 一种基于彩色图引导的深度图超分辨率重建网络构建方法
CN111127522B (zh) 基于单目相机的深度光流预测方法、装置、设备及介质
CN110930306B (zh) 一种基于非局部感知的深度图超分辨率重建网络构建方法
CN110021043A (zh) 一种基于立体匹配和置信度传播的场景深度获取方法
KR20230117034A (ko) 깊이 이미지 완성 방법 및 장치
Jeong et al. Visual comfort assessment of stereoscopic images using deep visual and disparity features based on human attention
CN112116646B (zh) 一种基于深度卷积神经网络的光场图像深度估计方法
CN111368882B (zh) 一种基于简化独立成分分析和局部相似性的立体匹配方法
CN115908992B (zh) 双目立体匹配的方法、装置、设备以及存储介质
CN117315336A (zh) 花粉颗粒识别方法、装置、电子设备及存储介质
CN116523757A (zh) 基于生成对抗网络的光场图像超分辨率模型及其训练方法
WO2023240764A1 (zh) 混合代价体的双目立体匹配方法、设备及存储介质
CN115375746A (zh) 基于双重空间池化金字塔的立体匹配方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19894913

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 03.11.2021)

122 Ep: pct application non-entry in european phase

Ref document number: 19894913

Country of ref document: EP

Kind code of ref document: A1