WO2020182117A1 - 视差图获取方法、装置和设备及控制系统和存储介质 - Google Patents

视差图获取方法、装置和设备及控制系统和存储介质 Download PDF

Info

Publication number
WO2020182117A1
WO2020182117A1 PCT/CN2020/078564 CN2020078564W WO2020182117A1 WO 2020182117 A1 WO2020182117 A1 WO 2020182117A1 CN 2020078564 W CN2020078564 W CN 2020078564W WO 2020182117 A1 WO2020182117 A1 WO 2020182117A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature map
map set
eye
disparity
layer
Prior art date
Application number
PCT/CN2020/078564
Other languages
English (en)
French (fr)
Inventor
揭泽群
Original Assignee
腾讯科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 腾讯科技(深圳)有限公司 filed Critical 腾讯科技(深圳)有限公司
Priority to EP20770825.6A priority Critical patent/EP3940641A4/en
Publication of WO2020182117A1 publication Critical patent/WO2020182117A1/zh
Priority to US17/237,183 priority patent/US11830211B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Abstract

一种视差图获取方法、装置和设备及控制系统和存储介质,属于图像处理技术领域。该方法包括:通过M个级联的特征提取层分别逐层对被拍摄对象的左目图像和右目图像进行特征提取,以得到每一层的左目特征图集合和右目特征图集合(601);其中,M为大于或者等于2的正整数;基于第M层特征提取层提取的左目特征图集合和右目特征图集合构建初始视差图(602);从第M-1层开始,依次通过各特征提取层提取的左目特征图集合和右目特征图集合对视差图进行迭代更新,直到基于第一层迭代更新后的视差图获得最终视差图(603)。

Description

视差图获取方法、装置和设备及控制系统和存储介质
本申请要求于2019年3月12日提交国家知识产权局、申请号为201910186202.2,申请名称为“视差图获取方法、装置和设备及控制系统”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及图像处理技术领域,特别涉及一种视差图获取方法、装置和设备及控制系统和存储介质。
背景技术
双目立体视觉是人工智能(Artificial Intelligence,AI)的一个分支,是一种基于视差原理并由多幅图像获取物体三维几何信息,以模拟人眼的视觉感知的方法,是机器视觉的一种重要形式。双目立体视觉系统一般由双目摄像机从不同角度同时获得被测物的两幅图像,或者也可以通过单目摄像机在不同角度拍摄被测物的两幅图像,即左目图像和右目图像,并基于视差原理恢复出物体的三维几何信息,重建物体三维轮廓及位置,双目立体视觉技术对于机器视觉领域有着广泛的应用前景。一般而言,视差预测都是基于图像进行的,因而视差预测的结果一般为视差图,视差图中的每一个像素点则表示原始图像中的该位置的像素点之间的视差。在实际场景中,视差值的大小与深度成负相关,即视差值越大表明所拍摄的图像中物体距离摄像机越近,相反地,视差值越小表明所拍摄的图像中物体距离摄像机越近,因而根据距离的远近则可以恢复出物体的三维几何信息,因而可以通过视差值计算深度。
发明内容
本申请实施例提供一种视差图获取方法、装置和设备及控制系统和 存储介质,用于提升视差预测的准确度。
一方面,提供一种视差图获取方法,由计算机设备执行,所述方法包括:
通过M个级联的特征提取层分别逐层对被拍摄对象的左目图像和右目图像进行特征提取,以得到每一层的左目特征图集合和右目特征图集合;其中,M为大于或者等于2的正整数;
基于第M层特征提取层提取的左目特征图集合和右目特征图集合构建初始视差图;
从第M-1层开始,依次通过各特征提取层提取的左目特征图集合和右目特征图集合对视差图进行迭代更新,直到基于第一层迭代更新后的视差图获得最终视差图,其中,第i层迭代更新的视差图,是使用第i层提取的左目特征图集合和右目特征图集合进行匹配而获得的匹配损失的残差,对第i+1层迭代更新后的匹配损失进行更新得到的,第M-1层使用的视差图为所述初始视差图,i为大于零且小于M的正整数。
一方面,提供一种视差图获取装置,所述装置包括:
特征提取单元,用于通过M个级联的特征提取层分别逐层对被拍摄对象的左目图像和右目图像进行特征提取,以得到每一层的左目特征图集合和右目特征图集合;其中,M为大于或者等于2的正整数;
初始视差图构建单元,用于基于第M层特征提取层提取的左目特征图集合和右目特征图集合构建初始视差图;
视差图更新单元,用于从第M-1层开始,依次通过各特征提取层提取的左目特征图集合和右目特征图集合对视差图进行迭代更新,直到基于第一层迭代更新后的视差图获得最终视差图,其中,第i层迭代更新的视差图,是使用第i层提取的左目特征图集合和右目特征图集合进行匹配而获得的匹配损失的残差,对第i+1层迭代更新后的匹配损失进行 更新得到的,第M-1层使用的视差图为所述初始视差图,i为大于零且小于M的正整数。
一方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,
所述处理器执行所述计算机程序时实现上述方面所述的方法步骤。
一方面,提供一种控制系统,包括双目摄像机,以及计算机设备;
所述双目摄像机,包括左目摄像头和右目摄像头,所述左目摄像头用于拍摄左目图像,以及所述右目摄像头用于拍摄右目图像;
所述计算机设备,用于采用上述方面所述的方法,获取所述左目图像和所述右目图像之间的视差图,根据所述视差图预测所述左目图像和所述右目图像中拍摄对象与所述双目摄像机之间的距离,并根据预测的距离实现对被控系统的控制。
一方面,提供一种计算机可读存储介质,
所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机设备上运行时,使得计算机设备能够执行上述方面所述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其它的附图。
图1为本申请实施例提供的图像A和图像B的视差示意图;
图2为本申请实施例提供的双目摄像机拍摄的图像之间的视差示意图;
图3为本申请实施例提供的一种应用场景示意图;
图4为本申请实施例提供的另一种应用场景示意图;
图5为本申请实施例提供的视差图获取模型的架构示意图;
图6A为本申请实施例提供的视差图获取方法的实施环境示意图;
图6B为本申请实施例提供的视差图获取方法的流程示意图;
图7为本申请实施例提供的特征提取模块的网络结构示意图;
图8为本申请实施例提供的特征图集合的示意图;
图9为本申请实施例提供的特征图集合叠加的示意图;
图10为本申请实施例提供的基于左目图像和右目图像得到视差图的示意图;
图11为本申请实施例提供的中间特征图的示意图;
图12为本申请实施例提供的视差图获取装置的一种结构示意图;
图13为本申请实施例提供的计算机设备的一种结构示意图;
图14为本申请实施例提供的控制系统的一种结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
为便于理解本申请实施例提供的技术方案,这里先对本申请实施例 使用的一些关键名词进行解释:
双目摄像机:或称双目视觉测量探头,一般包括两个距离已知的摄像头,并可分别通过这两个摄像头分别拍摄得到两张双目图像,位于左侧的摄像头为左目摄像头,相应的左目摄像头拍摄的图像为左目图像,位于右侧的摄像头为右目摄像头,相应的右目摄像头拍摄的图像为右目图像。
视差(disparity):左右双目图像中,两个匹配块的中心像素之间的水平距离。如图1所示,图A和图B分别为左目图像和右目图像,匹配块大小为3*3,图A和图B中的匹配块分别如图1中灰度区域所示,则这两个匹配块的中心像素分别为像素点6和像素点7,则这两个匹配块之间的视差为1个像素。当然,在实际应用,匹配块的大小可以根据实际情况进行设定,例如可以设置为1*1,那么视差则为匹配的两个像素点之间的水平距离。
又例如图2所示,在同一场景中,分别通过摄像头103和摄像头104在不同角度对该场景的物体101和物体102进行拍摄,分别得到左目图像和右目图像,可以明显的看到左目图像和右目图像存在明显的差别,即左目图像中物体101位于物体102左侧,在右目图像中物体101却位于物体102右侧,将左目图像和右目图像重叠后各物体之间的距离则为左目图像和右目图像在该物体位置的视差。
视差图:通过各匹配块的视差表示各匹配块所形成的图像,在视差图中,视差相同即表明各物体与摄像头之间的距离相同,且视差越大,表明物体与摄像头之间的距离更近。一般而言,为了更为直观的表达视差图,可以通过将相同视差值通过相同颜色进行表示,并且还可以使得视差值按照特定规律变化时,颜色也随之变化,例如视差值越小时,通过更深的颜色进行表示,视差值越大时,通过更浅的颜色进行表示。
卷积神经网络(Convolutional Neural Networks,CNN):是一类包含卷积计算且具有深度结构的前馈神经网络(Feed forward Neural Networks),卷积神经网络能够以较小的计算量对格点化(grid-like topology)特征,例如像素进行学习,效果稳定且对数据没有额外的特征工程(feature engineering)要求。一般而言,卷积神经网络可以为残差神经网络(Residual Neural Network,ResNet)以及GoogleNet等网络结构。
卷积层:对于设备而言,图像实质上是由像素矩阵的形式进行存储的,因此对图像进行的处理实质上也是基于该像素矩阵进行的,则在卷积层中是将像素矩阵按照预设步长以及预设大小的卷积核进行卷积运算的。一般而言,预设步长可以设置为1,也就是说,针对一个卷积核计算完成后,下一个卷积核即是上一个卷积核向右移动一个像素。当然,预设步长也可以设置为其它的值,例如预设步长可以设置为2或者3,本申请实施例对此不做限制。
卷积核:是像素矩阵中的局部区域。对于图像来说,局部区域的像素在空间上的联系较为紧密,例如距离较近的像素通常具有相同的颜色纹理,从而距离较近的像素之间的相关性较强,反之距离较远的像素相关性则较弱,因而,可以通过对图像的局部区域进行感知,并将这些局部区域的信息进行组合,就可以得到整个图像的全局信息。
卷积运算:是将一个预设大小的卷积核与该卷积核的权重的各个值相乘后求和,然后再按照预设步长移动到下一个卷积核,并将下一个卷积核与该卷积核的权重的各个值相乘后求和的过程。其中,卷积核的大小越小,相当于查看图像越仔细,从该图像中获取的信息量也就越大,相对应的,整个卷积运算的计算量也就越大,因而在选取卷积核的大小时可以根据实际情况进行衡量,例如,预设大小可以是3*3,当然,卷 积核的大小还可以是其它可能的值。
特征图(feature map):是通过上述卷积神经网络的卷积层提取的,其实质上也是像素矩阵,像素矩阵中每一个元素可认为是特征图上的一个像素点,该像素点所在位置的值即为该原始图像中一个区域或者一个像素点的特征值。
注意力(Attention)机制:注意力机制实质上是从大量信息中筛选出高价值信息的手段。注意力机制实现了从query和一系列键值对(key-value pair)到输出结果(output)的映射,其中,在本申请实施例中,query、key和value为特征图或者叠加的特征图。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,在不做特别说明的情况下,一般表示前后关联对象是一种“或”的关系。
视差预测技术,需要应用到利用视差预测结果的控制系统中,例如机器人控制系统或则无人驾驶车辆等,因此在实际应用中,视差预测的准确性直接影响到物体距离的判断,从而对物体三维几何信息的恢复产生影响,进一步会影响到控制系统的控制精度,甚至造成安全隐患。
目前视差预测的方法主要包括以下两种:
第一种方法是单纯的预测左目图像到右目图像在不同视差时匹配的相似度,换句话说,在视差预测时仅仅利用了左目图像到右目图像匹配的信息,对左目图像进行视差预测,因此,预测方法较为简陋,对于在双目难匹配区域,如重复性区域、纹理缺失区域以及复杂物体边缘等区域,视差预测的准确性则大大的降低。
第二种方法是利用递归神经网络进行视差预测的方法,但是该种方法通过初次运行整个神经网络后得到初始视差图,并通过再次运行整个 神经网络对初始视差图进行修正,因此,这种方法每一次更新过程都要重新运行一遍该神经网络,运行时间正比于更新次数,计算量较大,且耗时较长。
有鉴于此,本申请实施例提供了一种视差图获取方法,在该方法中,通过末端特征提取层提取的左目特征图集合和右目特征图集合来构建初始视差图,再通过靠前的(M-1)个特征提取层提取的左目特征图集合和右目特征图集合逐层对初始视差图进行更新,以通过每一层提取的特征图集合对上一层更新后的视差图进行修正,从而逐步减少视差图的误差值,提高最终得到的最终视差图的准确性。并且,本申请实施例在每个层进行视差图更新时,通过每一层提取的特征图集合对上一层输出的视差图进行验证并得出残差,进而通过残差对匹配损失进行修正,进而得到更新的视差图,因此,相较于采用递归神经网络的方法,本申请实施例的迭代更新不会明显增加视差图预测的计算量,进而得到最终视差图所需时间与不进行迭代更新几乎相同,更加省时。
此外,本申请实施例中,在迭代更新的过程中,由于不同层描述的图像特征位于不同尺度,即各层从浅层局部特征逐渐变成深层全局语义特征,换言之,相当于对视差图进行反向修正,即能够使得视差图从最初的较小分辨率逐步恢复至与原始图像分辨率接近,并利用上一层预测得到的视差图指导下一层的视差图估计,达到不断修正优化视差图的目的。
本申请实施例中,在迭代更新时采用了注意力机制,其参数规模相比递归神经网络要少很多,因此计算开销大幅下降,节约了时间成本。
在介绍完本申请实施例的设计思想之后,下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施过程中,可 以根据实际需要灵活地应用本申请实施例提供的技术方案。
请参见图3所示,以本申请实施例中的技术方案在无人驾驶车辆中的应用为例,在该场景中,选择第一车辆201和第二车辆202为例进行说明。
其中,第一车辆201可以为无人驾驶车辆,第一车辆201上设置有双目摄像机2011,双目摄像机2011包括左目摄像头和右目摄像头,左目摄像头用于拍摄左目图像,右目摄像头用于拍摄右目图像。
第二车辆202可以为行驶在第一车辆201前方的车辆,第二车辆202可以为无人驾驶车辆,也可以为正常人工驾驶的车辆。
在实际应用中,可以通过双目摄像机2011包括的左目摄像头和右目摄像头可以实时拍摄左目图像和右目图像,例如该摄像头的拍摄区域为车辆前方区域,则如图3所示的场景中第一车辆201拍摄的左目图像和右目图像则可以包括第二车辆202,并用本申请实施例提供的视差图获取方法对左目图像和右目图像进行视差预测,获取左目图像和右目图像之间的视差图,从而根据视差图进行深度预测,预测出左目图像和右目图像中各拍摄对象与双目摄像机2011之间的距离,例如第二车辆202与双目摄像机2011之间的距离,从而辅助第一车辆201实现无人驾驶作业。例如预测第二车辆202与双目摄像机2011之间的距离较近时,控制第一车辆201减速,以避免发生事故。
当然,在该场景中,除第一车辆201和第二车辆202之外,还可以包括车辆行驶途中可能遇见的所有物体,例如路障、路侧围栏、红绿灯以及行人等,本申请实施例对此不做限制。
通过本申请实施例的视差图获取方法,可以对双目摄像机2011拍摄区域内各物体的距离远近进行分析,这样,便通过本申请实施例提供的方法来模拟人眼的视觉感知,进而辅助实现车辆的自动化驾驶。
请参见图4所示,为本申请实施例中的技术方案控制机器人的应用场景,在该应用场景中,可以包括机器人301和物体302。
其中,机器人301上设置有双目摄像机3011,双目摄像机3011可以包括左目摄像头和右目摄像头,左目摄像头用于拍摄左目图像,右目摄像头用于拍摄右目图像。
物体302例如可以为货物,也可以为人。在实际应用中,双目摄像机3011可以实时拍摄摄像区域内的物体302,例如物体302为人时,远方的人向机器人301迎面走来,则双目摄像机3011可以拍摄下包括人像的左目图像和右目图像,并可采用本申请实施例提供的视差图获取方法对左目图像和右目图像进行视差预测,获取左目图像和右目图像之间的视差图,从而根据视差图进行深度预测,进而预测出左目图像和右目图像中各拍摄对象与双目摄像机3011之间的距离,例如确定人与双目摄像机3011之间的距离,从而调整双目摄像机3011的焦距,以实现对图像中的人的视线追踪,模拟在有人迎面走来时真人的视线变化。
又或者,当机器人前方的人希望与机器人击掌时,当人举起手掌时,双目摄像机3011可以拍摄下包括手掌的左目图像和右目图像,并可通过机器人301包括的处理器,采用本申请实施例提供的视差图获取方法对左目图像和右目图像进行视差预测,从而确定手掌与双目摄像机3011之间的距离,进而控制机器人的机械手臂移动到相应距离位置,完成与人的击掌动作。
通过本申请实施例的视差图获取方法,可以对双目摄像机3011拍摄区域内各物体的距离远近进行分析,从而使得机器人能够拥有类似于人眼的视觉感知功能,使得机器人更加智能化,以辅助机器人完成相应的工作。
当然,本申请实施例提供的方法并不限用于图3和图4所示的应用 场景,还可以用于其它可能的控制系统中,本申请实施例并不进行限制。
请参见图5,为本申请实施例提供的视差图获取模型的架构示意图,视差图获取模型包括输入模块501、特征提取(Feature Extraction)模块502、初始视差图构建(Initial disparity estimation)模块503、视差图更新(Disparity refinement)模块504以及输出模块505,由于各模块所能实现的功能将在后续的方法实施例中一并进行描述,在此先不过多赘述。
图6A为本申请实施例提供的视差图获取方法的实施环境示意图。其中,终端设备61与服务器设备62之间通过网络63通信连接,所述网络63可以是有线网络,也可以是无线网络。在终端设备61与服务器设备62上集成有本申请任一实施例提供的视差图获取装置,用于实现本申请任一实施例提供的视差图获取方法。具体地,终端设备61可直接执行本申请任一实施例提供的视差图获取方法;或者,终端设备61可将左目图像和右目图像发送给服务器设备62,由服务器设备62执行本申请任一实施例提供的视差图获取方法,并将结果返回给终端设备61。
请参见图6B,为本申请实施例提供的视差图获取方法的流程示意图,该方法例如可以由本申请实施例提供的视差图获取装置来执行,该装置例如可以通过图3中所示的第一车辆201或者图4中所示的机器人301来实现,当然,在实际应用过程中,该装置还可通过具备相应计算能力的计算机设备来实现,例如可以通过个人计算机(Personal Computer,PC)、服务器或者计算机集群来实现。该方法的流程描述如下。
步骤601:通过M个级联的特征提取层分别逐层对被拍摄对象的左目图像和右目图像进行特征提取,以得到每一层的左目图像的特征图集合和右目图像的特征图集合。
在本申请实施例中,左目图像的特征图集合也称为左目特征图集合,右目图像的特征图集合也称为右目特征图集合。
本申请实施例中,可以通过输入模块获取被拍摄对象的左目图像f L和右目图像f R。其中,被拍摄对象是指拍摄区域的物体,例如当拍摄区域中仅包括一个物体时,则该物体即为唯一的被拍摄对象,而若是被拍摄区域中包括多个物体时,则这些物体均为被拍摄对象。
具体的,左目图像f L和右目图像f R可以是设置在设备上的双目摄像机拍摄的图像,或者是设置在设备上的单目摄像机分别在同一场景的不同角度拍摄得到的图像,那么当双目摄像机或者单目摄像机拍摄得到左目图像f L和右目图像f R时,则可以将拍摄的左目图像f L和右目图像f R输入至输入模块,以进行后续的视差预测。或者,左目图像f L和右目图像f R还可以是存储在存储器中的图像,那么在需要进行视差预测时,可以直接从存储器中读取所需的左目图像f L和右目图像f R输入至输入模块。当然,获取左目图像f L和右目图像f R还可以包括其它可能的获取方式,例如从互联网下载等,本申请实施例对此不做限制。
本申请实施例中,左目图像f L和右目图像f R输入至输入模块之后,则可以通过特征提取模块对左目图像f L和右目图像f R进行特征提取。其中,特征提取模块可以采用深度卷积神经网络对左目图像f L和右目图像f R进行特征提取,深度卷积神经网络的结构例如可以为ResNet或者GoogleNet等网络结构,当然,也可以采用其它可能的网络结构,本申请实施例对此不做限制。后续将具体以通过深度卷积神经网络为例进行介绍。
具体的,特征提取模块可以包括M个级联的特征提取层,每一特征提取层均可提取得到左目图像的特征图集合f Li和右目图像的特征图集合f Ri。其中,M为大于或者等于2的正整数,M的取值可根据实际情况而定,例如M可以为5,当然,也可以为其它可能的值,本申请实施例对此不做限制,i表示特征提取层的标识,i∈[1,M],则f Li∈(f L1,f L2…f LM), f Ri∈(f R1,f R2…f RM)。
请参见图7,为特征提取模块的网络结构示意图。其中,图7中所示的特征提取模块具体以M为5进行示出,即该特征提取模块包括5个特征提取层conv1~conv5,每一层的特性如下表1所示:
Figure PCTCN2020078564-appb-000001
表1
如表1所示,层参数为各层的组件数量、通道(channel)数量c以及卷积核大小,分辨率为提取的特征图的分辨率。如conv1层的层参数[3x3,32]x3则表示该层的组件数量为3,每个组件包括1个子层,则conv1层总共包括3个子层,通道数量c为32,也就是从32个特征维度上进行特征提取,得到32个特征图,每一个特征图用于表征从原始图像中提取的一种特征的数据,以及卷积运算的卷积核大小为3x3,conv1层提取的特征图的分辨率为H/2 x W/2,H和W分别为原始图像的高度和宽度,也就是说,conv1层提取的特征图的大小为原始图像的一半;或者,如conv2层的层参数
Figure PCTCN2020078564-appb-000002
则表示该层的组件数量为3,每个组件包括2个子层,则conv1层总共包括6个子层,通道数量为32,以及各组件的卷积核大小均为3x3。
在实际应用中,各层的层参数以及分辨率均可以进行调整,并不限 于表1中所示的参数。此外,为提升特征提取效果,还可以在conv1层增加一个或者多个特征提取层,这些特征提取层的层参数可以与conv1层相同或者不相同,以及分辨率也可以与conv1层相同或者不相同,且这些层用于增加神经网络的复杂程度,提升特征提取效果,但是这些层输出的特征图集合可以不用于后续的视差预测过程。
本申请实施例中,如图7所示,特征提取的过程是逐层进行的,也就是说,上一层所提取的特征图集合可以用于作为下一层的输入,例如对于左目图像而言,conv1层提取的左目特征图集合可以作为conv2层的输入。并且,结合表1可以看到,各个特征提取层提取的特征图的分辨率逐层降低,即从低层次的特征逐渐提取至高层次的特征。
如图8所示,为conv1层提取的左目特征图集合的示意图,其中,左目特征图集合的通道数量c为32,也就是说左目特征图集合包括32个特征图,每一个特征图表示左目图像在一个特征维度上的特征数据,且,conv1层提取的左目特征图集合的分辨率为H/2 x W/2,也就是说每一个特征图的分辨率也为H/2 x W/2,对于左目特征图集合中的各个特征图而言,其相同位置的像素点本质上是同一像素点,区别在于各个特征图中相同位置的像素点的数据表示该像素点在相应特征维度上的特征数据。但特征图中的像素点并不等同于左目图像中的像素点。对于右目特征图集合以及其它层的特征图集合,其与conv1层提取的左目特征图集合类似,则可以参考conv1层提取的左目特征图集合的结构以及描述,因而不再过多赘述。
步骤602:基于第M层特征提取层提取的左目特征图集合和右目特征图集合构建初始视差图。
本申请实施例中,在通过特征提取模块提取得到各层的左目特征图集合和右目特征图集合之后,则可以通过初始视差图构建模块进行初始 视差图的构建。具体的,由于本申请实施例的各个特征提取层提取的特征图的分辨率逐层降低,因此可以通过分辨率最小的特征图来构建初始视差图,这样,后续在更新视差图中则可以反向进行调整,从而最终将视差图恢复至与原始图像一样的大小,换句话说,在构建初始视差图时可采用第M层特征提取层提取的左目特征图集合和右目特征图集合进行构建。
在实际应用时,考虑到左目到右目的匹配信息,与右目到左目的匹配信息,实质上可能并不能完全相同,若是单独引用左目到右目的匹配信息或者右目到左目的匹配信息,就无法充分利用双目视觉的互补信息进行双目对比,因此本申请实施例中,可以在构建初始视差图时,同时构建两个初始视差图,即左目初始视差图和右目初始视差图。当然,在一些情况下,可以根据实际情况对模型进行调整,即仅构建一个初始视差图,对此本申请实施例并不进行限制。
其中,左目初始视差图是通过从左目特征图集合到右目特征图集合的匹配信息构建的,即左目初始视差图是基于左目特征图集合中的每一个像素点,与右目特征图集合中对应的匹配像素点之间的视差值获得的。右目初始视差图则是通过从右目特征图集合到左目特征图集合的匹配信息构建的,即右目初始视差图是基于右目特征图集合中的每一个像素点,与左目特征图集合中对应的匹配像素点之间的视差值获得的。其中,对于左目特征图集合中的一个像素点而言,其在右目特征图集合中对应的匹配像素点,是指右目特征图集合中与该像素点之间的相似度大于预设相似度阈值的像素点,或者为右目特征图集合中与该像素点之间的相似度最大的像素点。
本申请实施例中,由于左目初始视差图和右目初始视差图的构建过程类似,因此下面具体以构建一个初始视差图的过程为例进行介绍,下 述描述中,第一特征图集合为第M层提取的左目特征图集合和右目特征图集合中的任意一个,第二特征图集合为第M层提取的左目特征图集合和右目特征图集合中除第一特征图集合之外的另一特征图集合。也就是说,第一特征图集合可以为第M层提取的左目特征图集合,那么第二特征图集合即为第M层提取的右目特征图集合,相应的,其构建得到的为左目初始视差图;或者,第一特征图集合可以为第M层提取的右目特征图集合,那么第二特征图集合即为第M层提取的左目特征图集合,相应的,其构建得到的为右目初始视差图。
本申请实施例中,在构建初始视差图时,可以针对第一特征图集合中的每一个像素点,获取其与第二特征图集合中对应的匹配像素点之间的视差值,进而将每一个像素点对应的视差值映射至第一特征图集合中,以得到初始视差图。
为了确定第一特征图集合中的每一个像素点,与第二特征图集合中对应的匹配像素点之间的视差值,那么首先需要确定第二特征图集合中对应的匹配像素点。具体的,可以预先设置多个视差值,再根据该视差值将左右目特征图集合的像素点进行尝试匹配,然后从中选择匹配损失(matching cost)最小的像素点作为匹配像素点。
在实际应用时,由于通常双目摄像机的两个摄像头被设置于同一水平面上,因此,仅需要考虑图像中水平方向上的视差,可以通过将第M层提取的左目特征图集合和右目特征图集合在水平方向上逐像素错位相连,得到一个4D张量,即,分别根据预设视差范围内的各个预设视差值,将第二特征图集合在特征维度上叠加至第一特征图集合中,得到对应于各个预设视差值的重叠特征图集合,4D张量即由各个预设视差值的重叠特征图集合构成。其中,水平方向是指图像的宽度方向。
具体而言,逐像素错位相连是指在预设视差范围内的所有预设视差 值依次选择其中一个,然后基于选定的预设视差值,将第二特征图集合在特征维度上叠加至第一特征图集合中,得到对应于选定的预设视差值的重叠特征图集合。相应的,当预设视差范围内包括N个预设视差值时,那么则会进行N次叠加。如图9所示,为其中一次叠加的示意图,其中,图9所示的预设视差值为d,相当于将第一特征图集合和第二特征图集合错位d个像素点后进行叠加,叠加前第一特征图集合和第二特征图集合的特征维度为C,则叠加之后重叠特征图集合的特征维度为2C。
以上述f L5,f R5相连为例,f L5,f R5的分辨率均为(H/16)*(W/16),则f L5,f R5在水平方向上逐像素错位相连则可得到一个维度为2c*(d max/16)*(H/16)*(W/16)的4维(4D)张量,其中c为conv5层的通道数量,H和W分别为原始图像(左目图像和右目图像)的高度和宽度,d max为预设的视差值上限。其中,d max可以是根据经验设置的原始图像的最大视差值,例如设置的d max为160时,c为64时,则对应到conv5层时,则视差上限为10,那么相应的预设视差范围则为[1,10],因此所得到的4D张量的维度为128*10*(H/16)*(W/16)。
本申请实施例中,在得到各个预设视差值的重叠特征图集合之后,则可获取各个重叠特征图集合中重叠像素点对的匹配损失值,并将每一个像素点所在的所有重叠像素点对中,匹配损失值最小的重叠像素点对所对应的预设视差值,确定为每一个像素点与对应的匹配像素点之间的视差值。其中,一个重叠像素点对,包括第一特征图集合中的第一像素点,以及第一特征图集合中与第一像素点之间的视差值为其中一个预设视差值的第二像素点。匹配损失值与第一像素点和第二像素点之间的相似度呈负相关,即重叠像素点对的匹配损失值越大,则这两个像素点之间的相似度越低。
具体的,可以将各个预设视差值的重叠特征图集合,也就是上述得 到的4D张量输入至3D(3维)卷积层中,以计算各个重叠特征图集合中重叠像素点对的匹配损失值,各个重叠特征图集合中重叠像素点对的匹配损失值所构成的3D张量C m是一个维度为(d max/16)*(H/16)*(W/16)的张量,再3D张量输入至2D(2维)卷积层中,进而得到初始视差图d m。对于重叠特征图集合中的每一个重叠像素点对而言,3D卷积层的处理相当于计算组成重叠像素点对的两个像素点之间的匹配损失值,2D卷积层相当于从各像素点对应的匹配损失值中选择最小的匹配损失值。
针对第一特征图集合中的第一像素点而言,通过逐像素错位相连,可组成与预设视差范围内预设视差值数量相同的重叠像素点对,组成匹配损失值最小的重叠像素点对的两个像素点则为相互匹配的像素点,相应的,相互匹配的像素点所对应的预设视差值则为第一特征图集合与第二特征图集合第一像素点所在位置的视差值。例如,预设视差值数量为10时,则第一像素点则可以与第二特征图集合中视差在10以内的10个像素点组成10个重叠像素点对,那么通过3D卷积层的处理之后,则可以确定这10个重叠像素点对的匹配损失值,进而通过2D卷积层的处理之后,则可以确定出匹配损失值最小的重叠像素点对,且该重叠像素点对中除第一像素点之外的另一像素点,则为第一像素点在第二特征图集合中对应的匹配像素点。
本申请实施例中,通过上述方式同理可得到第一特征图集合中每一个像素点所对应的视差值,每一个像素点所对应的视差值则可构成初始视差图d m
步骤603:从第(M-1)层开始,依次通过各特征提取层提取的左目特征图集合和右目特征图集合对视差图进行迭代更新,直到基于第一层迭代更新后的视差图获得最终视差图。
本申请实施例中,在通过初始视差图构建模块获取初始视差图之后, 则可以通过视差图更新模块对初始视差图进行迭代更新,以逐步提升视差图的精度。其中,由于初始视差图构建模块获取的初始视差图可以包括左目初始视差图和右目初始视差图,在实际应用时,只需要分别通过视差图更新模块对左目初始视差图和右目初始视差图进行迭代更新即可,但是其迭代更新过程均是相同的,因此,后续的描述均以一个初始视差图为例进行描述。
具体的,由于每一层迭代更新的过程是相同的,因此下面将以第i层迭代更新的过程对本申请实施例的技术方案进行描述。在第i层迭代更新时,输入为第i+1层迭代更新后的视差图,当然,当i=M-1时,由于是初次迭代更新,则输入的视差图为初始视差图。需要声明的是,由于第M层无需迭代更新,因此在迭代更新过程中,i的取值为大于零且小于M的正整数。
本申请实施例中,在进行特征提取时所得到的特征图集合的分辨率可以是依次递减的,那么在进行迭代更新时,也可以按照特征提取层的反向顺序逐层进行迭代更新,这样最终得到的视差图的分辨率即为最接近原始图像的分辨率的,即i的取值为从1到M-1的正整数。例如,特征提取层的数量为5个,在进行特征提取时按照从1→2→3→4→5的顺序进行特征提取,则基于第5层的特征图集合得到初始视差图之后,则可以利用第4层的特征图集合对初始视差图进行更新,后续则按照3→2→1的顺序依次更新上一层输出的视差图。
在下述描述中,第三特征图集合为第i层提取的左目特征图集合和右目特征图集合中的任意一个,第四特征图集合为第i层提取的左目特征图集合和右目特征图集合中除第三特征图集合之外的另一特征图集合。也就是说,第三特征图集合可以为第i层提取的左目特征图集合,那么第四特征图集合则为第i层提取的右目特征图集合;或者,第三特 征图集合可以为第i层提取的右目特征图集合,那么第四特征图集合则为第i层提取的左目特征图集合。
第i层迭代更新的过程具体如下:
如表1所示,各特征提取层的分辨率可以是依次递减的,因此第i+1层迭代更新后的视差图的分辨率仅为第i层提取的左目特征图集合和右目特征图集合的分辨率的二分之一,而分辨率不同显然无法直接进行处理,因此在每一次迭代更新之前,需要对第i+1层迭代更新后的视差图进行上采样处理,以使得上采样得到的视差图与第i层提取的左目特征图集合和右目特征图集合的分辨率相同。例如,基于表1中conv5层得到的初始视差图d 5,则可以先将d 5上采样得到尺寸为(H/8)*(W/8)的
Figure PCTCN2020078564-appb-000003
当然,若是第i层提取的特征图的分辨率与第i+1层提取的特征图的分辨率相同,则无需进行上采样过程,且将后续过程中所利用的上采样后的视差图替换为第i+1层迭代更新后的视差图即可,后续具体以需要上采样为例。
在具体实施过程中,对于视差图的上采样处理可以是通过在视差图中进行插值来完成,插值的方法例如可以是双线性插值(Bilinear Interpolation)方法或者双三次插值(Bicubic Interpolation)方法等,当然,也可以是其它可能的插值方法,本申请实施例对此不做限制。
在得到上采样后的视差图之后,则上可以根据采样得到的视差图,将第三特征图集合映射至第四特征图集合中,得到第三特征图集合对应的映射特征图集合。
具体的,根据视差图将第三特征图集合映射至第四特征图集合中,是指针对第三特征图集合中的每一个像素点,从视差图中查找到对应的视差值,在根据视差值将该像素点映射到第四特征图集合中,这样,相 当于基于已有的视差将第三特征图集合转换到与第四特征图集合相同的坐标系下。例如,对于右目特征图集合中的第一像素点,且该像素点在右目特征图集合中的坐标为(5,5),其对应的视差值为5,则映射至左目特征图集合中之后,其坐标应为(0,5),即沿水平方向向左平移5个像素。
沿用上述
Figure PCTCN2020078564-appb-000004
的例子,则可以将右图特征conv4层提取的右目特征图集合
Figure PCTCN2020078564-appb-000005
根据
Figure PCTCN2020078564-appb-000006
映射至左图,得到映射特征图集合
Figure PCTCN2020078564-appb-000007
。其中,特征图集合在映射时,是分别将每一个特征图根据
Figure PCTCN2020078564-appb-000008
映射至左图。
在得到第三特征图集合对应的映射特征图集合之后,则可以将映射特征图集合以及第i+1层迭代更新后的视差图,在特征维度上叠加至第四特征图集合中,得到重叠特征图集合。其中,这里的叠加过程与步骤602中的叠加过程类似,因此可以参见步骤602中的叠加过程的描述,在此不过多赘述。
沿用上述
Figure PCTCN2020078564-appb-000009
的例子,则可以将f L4
Figure PCTCN2020078564-appb-000010
Figure PCTCN2020078564-appb-000011
在特征维度进行叠加后则可得到维度为129*(H/8)*(W/8)的3维张量
Figure PCTCN2020078564-appb-000012
其中,为了后续计算的方便性,可以对
Figure PCTCN2020078564-appb-000013
进行降维处理,使之成为维度为128*(H/8)*(W/8)的3维张量。
本申请实施例中,若是由于
Figure PCTCN2020078564-appb-000014
是上采样得到的,因而难免会存在一些误差,因此在将映射特征图集合与第四特征图集合叠加之后,重叠特征图集合中的重叠像素点对可能存在不匹配的情况,因此可以通过重叠特征图集合对
Figure PCTCN2020078564-appb-000015
进行修正。
具体的,可以将重叠特征图集合输入至注意力(attention)模型中,得到注意力特征图集合
Figure PCTCN2020078564-appb-000016
注意力特征图集合用于表征映射特征图集合与第四特征图集合之间的差异度,
Figure PCTCN2020078564-appb-000017
的维度为128*(H/8)*(W/8)维 度的张量。
注意力模型可由简单的多层卷积神经网络组成,例如可以基于重叠像素点对之间的相似度作为权重的注意力模型,也可以是基于重叠像素点对各通道之间的似度作为权重的注意力模型。
本申请实施例中,在得到
Figure PCTCN2020078564-appb-000018
之后,则可以基于
Figure PCTCN2020078564-appb-000019
计算映射特征图集合与第四特征图集合之间的匹配损失的残差
Figure PCTCN2020078564-appb-000020
例如,可以将
Figure PCTCN2020078564-appb-000021
输入至2D卷积网络,得到匹配损失的残差
Figure PCTCN2020078564-appb-000022
例如对于上述的conv4层而言,残差
Figure PCTCN2020078564-appb-000023
的维度为(d max/8)*(H/8)*(W/8)。
其中,这里的残差
Figure PCTCN2020078564-appb-000024
实质上也是一种匹配损失,其表达的是第四特征图集合与映射特征图集合基于预设视差范围内的多个预设视差值的匹配损失,但是由于这里的映射特征图集合是经过上采样后的视差图映射得到的,因此这里的残差
Figure PCTCN2020078564-appb-000025
站在原始图像的角度来看,则仅为左目图像与右目图像匹配损失的一部分,因而可以将残差
Figure PCTCN2020078564-appb-000026
与C i-1相加则可得到更新的匹配损失C i,继而可根据C i得到第i层迭代更新的视差图d i。其中,由于C i-1的维度与
Figure PCTCN2020078564-appb-000027
不同,则可以通过卷积网络对C i-1进行处理,以使得C i-1的维度与
Figure PCTCN2020078564-appb-000028
相同。如图5所示,将残差
Figure PCTCN2020078564-appb-000029
与C 5得到更新的匹配损失C 4,进而根据C 4得到迭代更新后的视差图d 4
其中,这里根据C i得到第i层迭代更新的视差图d i的过程与上述C m得到初始视差图d m的过程相同,因此在此不再过多赘述。
本申请实施例中,上述的迭代更新过程直至得到第一层迭代更新后输出的视差图后结束,且第一层迭代更新后输出的视差图则为最终视差图。
本申请实施例中,以上述表1的特征提取层为例,其得到的d 1的分辨率为(H/2)*(W/2),因此可以将对d 1上采样的结果作为最终视差图。当然,是否上采样需要视最终得到的视差图与原始图像的分辨率而定。
步骤604:基于最终视差图,以及拍摄所述左目图像和所述右目图像的摄像头之间的距离和焦距得到深度图。
本申请实施例中,可以最终视差图,以及拍摄所述左目图像和所述右目图像的摄像头之间的距离和焦距计算得到深度图,深度图用于表征被拍摄对象与所述摄像头之间的距离。深度图的应用在前述的应用场景中已经介绍过,因此在此不再过多赘述。
如图10所示,为基于左目图像和右目图像得到视差图的示意图,这里的视差图具体为左目视差图,可以看到,视差图中像素的灰度值的大小能够反映物体的远近。
在实际应用时,本申请实施例上述的视差图获取模型需要预先进行训练,即在初始模型建立完成后,可以通过多个训练样本对初始模型进行训练学习,每一个训练样本包括一个左目图像和一个右目图像,以及左目图像和右目图像的真实视差图,并通过初始模型对多个训练样本进行视差图预测,并通过损失函数计算预测视差图与真实视差图的损失误差,进而根据损失值对模型参数进行调整,并再次进行训练,直至损失误差满足要求。
如图11所示,为基于本申请实施例的视差图获取方法得到的多个中间特征图,其中,图11中的a图为输入的左目图像,b图为得到的初始视差图,c图为初始视差图与真实视差图之间的误差,d图为学习得到注意力图,即
Figure PCTCN2020078564-appb-000030
e图为更新后的视差图,f图为初始视差图与真实视差图之间的误差。
综上所述,本申请实施例中,通过末端特征提取层提取的左目特征图集合和右目特征图集合来构建初始视差图,再通过靠前的(M-1)个特征提取层提取的左目特征图集合和右目特征图集合逐层对初始视差图进行更新,以通过每一层提取的特征图集合对上一层更新后的视差图 进行修正,从而逐步减少视差图的误差值,提高最终得到的最终视差图的准确性。并且,本申请实施例在每个层进行视差图更新时,通过每一层提取的特征图集合对上一层输出的视差图进行验证并得出残差,进而通过残差对匹配损失进行修正,进而得到更新的视差图,因此,相较于采用递归神经网络的方法,本申请实施例的迭代更新不会明显增加视差图预测的计算量,进而得到最终视差图所需时间与不进行迭代更新几乎相同,更加省时。
此外,本申请实施例中,M个特征提取层的提取粒度逐层递增,因而在迭代更新的过程中,由于不同层描述的图像特征位于不同尺度,即各层从浅层局部特征逐渐变成深层全局语义特征,换言之,相当于对视差图进行反向修正,即能够使得视差图从最初的较小分辨率逐步恢复至与原始图像分辨率接近,并利用上一层预测得到的视差图指导下一层的视差图估计,达到不断修正优化视差图的目的。
请参见图12,基于同一发明构思,本申请实施例还提供了一种视差图获取装置120,包括:
特征提取单元1201,用于通过M个级联的特征提取层分别逐层对被拍摄对象的左目图像和右目图像进行特征提取,以得到每一层的左目图像的特征图集合和右目图像的特征图集合;其中,M为大于或者等于2的正整数;
初始视差图构建单元1202,用于基于第M层特征提取层提取的左目特征图集合和右目特征图集合构建初始视差图;
视差图更新单元1203,用于从第M-1层开始,依次通过各特征提取层提取的左目特征图集合和右目特征图集合对视差图进行迭代更新,直到基于第一层迭代更新后的视差图获得最终视差图,其中,第i层迭代更新的视差图,是使用第i层提取的左目特征图集合和右目特征图集 合进行匹配而获得的匹配损失的残差,对第i+1层迭代更新后的匹配损失进行更新得到的,第M-1层使用的视差图为初始视差图,i为大于零,且小于M的正整数。
在本申请实施例中,初始视差图包括左目初始视差图和右目初始视差图,其中,左目初始视差图是基于左目特征图集合中的每一个像素点,与右目特征图集合中对应的匹配像素点之间的视差值获得的;右目初始视差图是基于右目特征图集合中的每一个像素点,与左目特征图集合中对应的匹配像素点之间的视差值获得的;
则视差图更新单元1203,具体用于:
从第M-1层开始,依次通过各特征提取层提取的左目特征图集合和右目特征图集合,分别对左目视差图和右目视差图进行迭代更新。
在本申请实施例中,初始视差图构建单元1202,具体用于:
针对第一特征图集合中的每一个像素点,获取每一个像素点与第二特征图集合中对应的匹配像素点之间的视差值;第一特征图集合为第M层提取的左目特征图集合和右目特征图集合中的任意一个,第二特征图集合为第M层提取的左目特征图集合和右目特征图集合中除第一特征图集合之外的另一特征图集合;
将每一个像素点对应的视差值映射至第一特征图集合中,以得到初始视差图。
在本申请实施例中,初始视差图构建单元1202,具体用于:
分别根据预设视差范围内的各个预设视差值,将第二特征图集合在特征维度上叠加至第一特征图集合中,得到对应于各个预设视差值的重叠特征图集合;
获取各个重叠特征图集合中重叠像素点对的匹配损失值;其中,一个重叠像素点对,包括第一特征图集合中的第一像素点,以及第一特征 图集合中与第一像素点之间的视差值为其中一个预设视差值的第二像素点,匹配损失值与第一像素点和第二像素点之间的相似度呈负相关;
将每一个像素点所在的所有重叠像素点对中,匹配损失值最小的重叠像素点对所对应的预设视差值,确定为每一个像素点与对应的匹配像素点之间的视差值。
在本申请实施例中,视差图更新单元1203,具体用于:
根据第i+1层迭代更新后的视差图,将第三特征图集合映射至第四特征图集合中,得到第三特征图集合对应的映射特征图集合;其中,第三特征图集合为第i层提取的左目特征图集合和右目特征图集合中的任意一个,第四特征图集合为第i层提取的左目特征图集合和右目特征图集合中除第三特征图集合之外的另一特征图集合;
将映射特征图集合以及第i+1层迭代更新后的视差图在特征维度上叠加至第四特征图集合中,得到重叠特征图集合;
根据重叠特征图集合获得第i层提取的左目特征图集合和右目特征图集合进行匹配的匹配损失的残差。
在本申请实施例中,视差图更新单元1203,具体用于:
对第i+1层迭代更新后的视差图进行上采样,以使得上采样得到的视差图与第i层提取的左目特征图集合和右目特征图集合的分辨率相同;
则根据第i+1层迭代更新后的视差图,将第三特征图集合映射至第四特征图集合中,得到第三特征图集合对应的映射特征图集合,包括:
根据上采样得到的视差图,将第三特征图集合映射至第四特征图集合中,得到第三特征图集合对应的映射特征图集合。
在本申请实施例中,视差图更新单元1203,具体用于:
通过注意力机制以及重叠特征图集合得到注意力特征图集合;
根据注意力特征图集合获得第i层提取的左目特征图集合和右目特 征图集合进行匹配的匹配损失的残差。
在本申请实施例中,该装置还包括深度预测单元1204,用于:
基于最终视差图,以及拍摄左目图像和右目图像的摄像头之间的距离和焦距得到深度图,深度图用于表征被拍摄对象与摄像头之间的距离。
该装置可以用于执行图6B~图9所示的实施例中所示的方法,因此,对于该装置的各功能模块所能够实现的功能等可参考图6B~图9所示的实施例的描述,在此不多赘述。其中,深度预测单元1204虽然在图12中一并示出,但需要知道的是,深度预测单元1204并不是必选的功能单元,因此在图12中以虚线示出。
请参见图13,基于同一技术构思,本申请实施例还提供了一种计算机设备130,可以包括存储器1301和处理器1302。
所述存储器1301,用于存储处理器1302执行的计算机程序。存储器1301可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据计算机设备的使用所创建的数据等。处理器1302,可以是一个中央处理单元(central processing unit,CPU),或者为数字处理单元等等。本申请实施例中不限定上述存储器1301和处理器1302之间的具体连接介质。本申请实施例在图13中以存储器1301和处理器1302之间通过总线1303连接,总线1303在图13中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线1303可以分为地址总线、数据总线、控制总线等。为便于表示,图13中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器1301可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器1301也可以是非易失性存储器(non-volatile memory),例如只读存储器,快闪存储器(flash  memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器1301是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质,但不限于此。存储器1301可以是上述存储器的组合。
处理器1302,用于调用所述存储器1301中存储的计算机程序时执行如图6B~图9中所示的实施例中设备所执行的方法。
请参见图14,基于同一技术构思,本申请实施例还提供了一种控制系统140,包括双目摄像机1401以及计算机设备1402;
双目摄像机1401,包括左目摄像头和右目摄像头,左目摄像头用于拍摄左目图像,以及右目摄像头用于拍摄右目图像;
计算机设备1402,用于采用如图6B~图9中所示的实施例中介绍的方法,获取左目图像和右目图像之间的视差图,根据视差图预测左目图像和右目图像中拍摄对象与双目摄像机之间的距离,并根据预测的距离实现对被控系统的控制。
控制系统140例如可以为控制无人驾驶车辆的无人驾驶控制系统,相应的,被控系统则可以为无人驾驶车辆,双目摄像机1401可以设置在无人驾驶车辆的车身上,计算机设备1402则可以设置于无人驾驶车辆的车身上,或者计算机设备1402可以为与无人驾驶车辆分离且与无人驾驶车辆通信连接的设备。无人驾驶车辆除可以设置双目摄像机1401之外,还可以包括能够实现车辆功能的其它功能部件,例如车身、车辆传动装置、车辆制动装置以及车轮装置等部件,控制系统140能够基于本申请实施例的方法得到的视差图对各部件进行控制,以协同实现无人驾驶车辆的功能。
控制系统140还可以为控制机器人的机器人控制系统,相应的,被控系统则可以为机器人。双目摄像机1401可以设置在机器人上,以便 随着机器人的移动相应的移动,计算机设备1402则可以设置于机器人上,或者计算机设备1402可以为与机器人分离且与机器人通信连接的设备。除双目摄像机1401之外,机器人还包括为机器人工作所需设置的其它可能的部件,例如机器臂以及移动装置等部件,控制系统140能够基于本申请实施例的方法得到的视差图对机器人的各部件进行控制,以协同实现机器人与拍摄区域内物体的交互功能。
其中,计算机设备1402例如可以为如图13所示的计算机设备。
在一实施例中,本申请提供的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的方法中的步骤,例如,所述计算机设备可以执行如图6B~图9中所示的实施例中设备所执行的方法。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
尽管已描述了本申请的示例性实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括示例性实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱 离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (16)

  1. 一种视差图获取方法,由计算机设备执行,所述方法包括:
    通过M个级联的特征提取层分别逐层对被拍摄对象的左目图像和右目图像进行特征提取,以得到每一层的左目特征图集合和右目特征图集合;其中,M为大于或者等于2的正整数;
    基于第M层特征提取层提取的左目特征图集合和右目特征图集合构建初始视差图;
    从第M-1层开始,依次通过各特征提取层提取的左目特征图集合和右目特征图集合对视差图进行迭代更新,直到基于第一层迭代更新后的视差图获得最终视差图,其中,第i层迭代更新的视差图,是使用第i层提取的左目特征图集合和右目特征图集合进行匹配而获得的匹配损失的残差,对第i+1层迭代更新后的匹配损失进行更新得到的,第M-1层使用的视差图为所述初始视差图,i为大于零且小于M的正整数。
  2. 如权利要求1所述的方法,所述初始视差图包括左目初始视差图和右目初始视差图,其中,所述左目初始视差图是基于左目特征图集合中的每一个像素点,与右目特征图集合中对应的匹配像素点之间的视差值获得的;所述右目初始视差图是基于右目特征图集合中的每一个像素点,与左目特征图集合中对应的匹配像素点之间的视差值获得的;
    所述从第M-1层开始,依次通过各特征提取层提取的左目特征图集合和右目特征图集合对视差图进行迭代更新,包括:
    从第M-1层开始,依次通过各特征提取层提取的左目特征图集合和右目特征图集合,分别对左目视差图和右目视差图进行迭代更新。
  3. 如权利要求1所述的方法,所述基于第M层特征提取层提取的左目特征图集合和右目特征图集合构建初始视差图,包括:
    针对第一特征图集合中的每一个像素点,获取所述每一个像素点与第二特征图集合中对应的匹配像素点之间的视差值;所述第一特征图集合为第M层提取的左目特征图集合和右目特征图集合中的任意一个,所述第二特征图集合为第M层提取的左目特征图集合和右目特征图集合中除所述第一特征图集合之外的另一特征图集合;
    将所述每一个像素点对应的视差值映射至所述第一特征图集合中,以得到所述初始视差图。
  4. 如权利要求3所述的方法,所述针对第一特征图集合中的每一个像素点,获取所述每一个像素点与所述第二特征图集合中对应的匹配像素点之间的视差值,包括:
    分别根据预设视差范围内的各个预设视差值,将所述第二特征图集合在特征维度上叠加至所述第一特征图集合中,得到对应于各个预设视差值的重叠特征图集合;
    获取各个重叠特征图集合中重叠像素点对的匹配损失值;其中,一个重叠像素点对,包括所述第一特征图集合中的第一像素点,以及所述第一特征图集合中与所述第一像素点之间的视差值为其中一个预设视差值的第二像素点,所述匹配损失值与所述第一像素点和所述第二像素点之间的相似度呈负相关;
    将所述每一个像素点所在的所有重叠像素点对中,匹配损失值最小的重叠像素点对所对应的预设视差值,确定为所述每一个像素点与对应的匹配像素点之间的视差值。
  5. 如权利要求1所述的方法,进一步包括:
    根据所述第i+1层迭代更新后的视差图,将第三特征图集合映射至第四特征图集合中,得到第三特征图集合对应的映射特征图集合;其中,所述第三特征图集合为第i层提取的左目特征图集合和右目特征图集合 中的任意一个,所述第四特征图集合为第i层提取的左目特征图集合和右目特征图集合中除所述第三特征图集合之外的另一特征图集合;
    将所述映射特征图集合以及所述第i+1层迭代更新后的视差图在特征维度上叠加至所述第四特征图集合中,得到重叠特征图集合;
    根据所述重叠特征图集合获得第i层提取的左目特征图集合和右目特征图集合进行匹配的匹配损失的残差。
  6. 如权利要求5所述的方法,在根据所述第i+1层迭代更新后的视差图,将第三特征图集合映射至第四特征图集合中,得到第三特征图集合对应的映射特征图集合之前,所述方法还包括:
    对所述第i+1层迭代更新后的视差图进行上采样,以使得上采样得到的视差图与第i层提取的左目特征图集合和右目特征图集合的分辨率相同;
    所述根据所述第i+1层迭代更新后的视差图,将第三特征图集合映射至第四特征图集合中,得到第三特征图集合对应的映射特征图集合,包括:
    根据上采样得到的视差图,将第三特征图集合映射至第四特征图集合中,得到第三特征图集合对应的映射特征图集合。
  7. 如权利要求5所述的方法,所述根据所述重叠特征图集合获得第i层提取的左目特征图集合和右目特征图集合进行匹配的匹配损失的残差包括:
    通过注意力机制以及所述重叠特征图集合得到注意力特征图集合;
    根据所述注意力特征图集合获得第i层提取的左目特征图集合和右目特征图集合进行匹配的匹配损失的残差。
  8. 如权利要求1~7任一所述的方法,在从第M-1层开始,依次通过各特征提取层提取的左目特征图集合和右目特征图集合对视差图进 行迭代更新,直到基于第一层迭代更新后的视差图获得最终视差图之后,所述方法还包括:
    基于所述最终视差图,以及拍摄所述左目图像和所述右目图像的摄像头之间的距离和焦距得到深度图,所述深度图用于表征所述被拍摄对象与所述摄像头之间的距离。
  9. 一种视差图获取装置,包括:
    特征提取单元,用于通过M个级联的特征提取层分别逐层对被拍摄对象的左目图像和右目图像进行特征提取,以得到每一层的左目特征图集合和右目特征图集合;其中,M为大于或者等于2的正整数;
    初始视差图构建单元,用于基于第M层特征提取层提取的左目特征图集合和右目特征图集合构建初始视差图;
    视差图更新单元,用于从第M-1层开始,依次通过各特征提取层提取的左目特征图集合和右目特征图集合对视差图进行迭代更新,直到基于第一层迭代更新后的视差图获得最终视差图,其中,第i层迭代更新的视差图,是使用第i层提取的左目特征图集合和右目特征图集合进行匹配而获得的匹配损失的残差,对第i+1层迭代更新后的匹配损失进行更新得到的,第M-1层使用的视差图为所述初始视差图,i为大于零且小于M的正整数。
  10. 如权利要求9所述的装置,所述初始视差图构建单元用于:
    针对第一特征图集合中的每一个像素点,获取所述每一个像素点与第二特征图集合中对应的匹配像素点之间的视差值;所述第一特征图集合为第M层提取的左目特征图集合和右目特征图集合中的任意一个,所述第二特征图集合为第M层提取的左目特征图集合和右目特征图集合中除所述第一特征图集合之外的另一特征图集合;
    将所述每一个像素点对应的视差值映射至所述第一特征图集合中, 以得到所述初始视差图。
  11. 如权利要求10所述的装置,所述初始视差图构建单元用于:
    分别根据预设视差范围内的各个预设视差值,将所述第二特征图集合在特征维度上叠加至所述第一特征图集合中,得到对应于各个预设视差值的重叠特征图集合;
    获取各个重叠特征图集合中重叠像素点对的匹配损失值;其中,一个重叠像素点对,包括所述第一特征图集合中的第一像素点,以及所述第一特征图集合中与所述第一像素点之间的视差值为其中一个预设视差值的第二像素点,所述匹配损失值与所述第一像素点和所述第二像素点之间的相似度呈负相关;
    将所述每一个像素点所在的所有重叠像素点对中,匹配损失值最小的重叠像素点对所对应的预设视差值,确定为所述每一个像素点与对应的匹配像素点之间的视差值。
  12. 如权利要求9所述的装置,所述视差图更新单元用于:
    根据所述第i+1层迭代更新后的视差图,将第三特征图集合映射至第四特征图集合中,得到第三特征图集合对应的映射特征图集合;其中,所述第三特征图集合为第i层提取的左目特征图集合和右目特征图集合中的任意一个,所述第四特征图集合为第i层提取的左目特征图集合和右目特征图集合中除所述第三特征图集合之外的另一特征图集合;
    将所述映射特征图集合以及所述第i+1层迭代更新后的视差图在特征维度上叠加至所述第四特征图集合中,得到重叠特征图集合;
    根据所述重叠特征图集合获得第i层提取的左目特征图集合和右目特征图集合进行匹配的匹配损失的残差。
  13. 一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,
    所述处理器执行所述计算机程序时实现权利要求1至8任一权利要求所述的方法步骤。
  14. 一种控制系统,包括双目摄像机,以及计算机设备;
    所述双目摄像机,包括左目摄像头和右目摄像头,所述左目摄像头用于拍摄左目图像,以及所述右目摄像头用于拍摄右目图像;
    所述计算机设备,用于采用权利要求1~8任一所述的方法,获取所述左目图像和所述右目图像之间的视差图,根据所述视差图预测所述左目图像和所述右目图像中拍摄对象与所述双目摄像机之间的距离,并根据预测的距离实现对被控系统的控制。
  15. 如权利要求14所述的控制系统,所述控制系统包括:控制无人驾驶车辆的无人驾驶控制系统或者控制机器人的机器人控制系统。
  16. 一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机设备上运行时,使所述计算机设备执行权利要求1至8任一权利要求所述的方法步骤。
PCT/CN2020/078564 2019-03-12 2020-03-10 视差图获取方法、装置和设备及控制系统和存储介质 WO2020182117A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP20770825.6A EP3940641A4 (en) 2019-03-12 2020-03-10 METHOD, APPARATUS AND DEVICE FOR OBTAINING A DISPARITY MAP, CONTROL SYSTEM AND INFORMATION MEDIA
US17/237,183 US11830211B2 (en) 2019-03-12 2021-04-22 Disparity map acquisition method and apparatus, device, control system and storage medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910186202.2 2019-03-12
CN201910186202.2A CN109919993B (zh) 2019-03-12 2019-03-12 视差图获取方法、装置和设备及控制系统

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/237,183 Continuation US11830211B2 (en) 2019-03-12 2021-04-22 Disparity map acquisition method and apparatus, device, control system and storage medium

Publications (1)

Publication Number Publication Date
WO2020182117A1 true WO2020182117A1 (zh) 2020-09-17

Family

ID=66964481

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/078564 WO2020182117A1 (zh) 2019-03-12 2020-03-10 视差图获取方法、装置和设备及控制系统和存储介质

Country Status (4)

Country Link
US (1) US11830211B2 (zh)
EP (1) EP3940641A4 (zh)
CN (1) CN109919993B (zh)
WO (1) WO2020182117A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112907645A (zh) * 2021-03-05 2021-06-04 重庆紫光华山智安科技有限公司 视差图获取方法、装置、训练方法、电子设备和介质

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919993B (zh) * 2019-03-12 2023-11-07 腾讯科技(深圳)有限公司 视差图获取方法、装置和设备及控制系统
CN111898440B (zh) * 2020-06-30 2023-12-01 成都思晗科技股份有限公司 一种基于三维卷积神经网络的山火检测方法
CN112149493B (zh) * 2020-07-31 2022-10-11 上海大学 基于双目立体视觉的道路高程测量方法
CN112489186B (zh) * 2020-10-28 2023-06-27 中汽数据(天津)有限公司 一种自动驾驶双目数据感知方法
CN112819777B (zh) * 2021-01-28 2022-12-27 重庆西山科技股份有限公司 一种双目内窥镜辅助显示方法、系统、装置和存储介质
CN112581372B (zh) * 2021-02-26 2021-05-28 杭州海康威视数字技术股份有限公司 一种跨时空映射超分辨光场成像方法、装置及设备
CN112991419B (zh) * 2021-03-09 2023-11-14 Oppo广东移动通信有限公司 视差数据生成方法、装置、计算机设备及存储介质
CN113762267B (zh) * 2021-09-02 2024-03-12 北京易航远智科技有限公司 一种基于语义关联的多尺度双目立体匹配方法及装置
CN114022914B (zh) * 2021-11-11 2023-06-20 江苏理工学院 基于融合深度网络的掌纹识别方法
CN114782290B (zh) * 2022-06-23 2022-11-08 北京航空航天大学杭州创新研究院 视差图修正方法、装置、设备和计算机可读介质
CN117367544A (zh) * 2023-09-05 2024-01-09 广东省水利水电科学研究院 一种水位监测方法、系统、设备及介质
CN117765499A (zh) * 2023-12-30 2024-03-26 武汉奥思工业设计有限公司 一种车辆辅助驾驶智能决策方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160150210A1 (en) * 2014-11-20 2016-05-26 Samsung Electronics Co., Ltd. Method and apparatus for matching stereo images
EP3070671A1 (en) * 2015-03-18 2016-09-21 Politechnika Poznanska A system and a method for generating a depth map
CN106355570A (zh) * 2016-10-21 2017-01-25 昆明理工大学 一种结合深度特征的双目立体视觉匹配方法
CN108537837A (zh) * 2018-04-04 2018-09-14 腾讯科技(深圳)有限公司 一种深度信息确定的方法及相关装置
CN108681753A (zh) * 2018-05-29 2018-10-19 武汉环宇智行科技有限公司 一种基于语义分割及神经网络的图像立体匹配方法及系统
CN108986136A (zh) * 2018-07-23 2018-12-11 南昌航空大学 一种基于语义分割的双目场景流确定方法及系统
CN109919993A (zh) * 2019-03-12 2019-06-21 腾讯科技(深圳)有限公司 视差图获取方法、装置和设备及控制系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8447098B1 (en) * 2010-08-20 2013-05-21 Adobe Systems Incorporated Model-based stereo matching
WO2012177166A1 (en) * 2011-06-24 2012-12-27 Intel Corporation An efficient approach to estimate disparity map
EP2860975A1 (en) * 2013-10-09 2015-04-15 Thomson Licensing Method for processing at least one disparity map, corresponding electronic device and computer program product
US9807313B2 (en) * 2015-01-02 2017-10-31 Intel Corporation Method and system of increasing integer disparity accuracy for camera images with a diagonal layout
US10764561B1 (en) * 2016-04-04 2020-09-01 Compound Eye Inc Passive stereo depth sensing
GB2553782B (en) * 2016-09-12 2021-10-20 Niantic Inc Predicting depth from image data using a statistical model

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160150210A1 (en) * 2014-11-20 2016-05-26 Samsung Electronics Co., Ltd. Method and apparatus for matching stereo images
EP3070671A1 (en) * 2015-03-18 2016-09-21 Politechnika Poznanska A system and a method for generating a depth map
CN106355570A (zh) * 2016-10-21 2017-01-25 昆明理工大学 一种结合深度特征的双目立体视觉匹配方法
CN108537837A (zh) * 2018-04-04 2018-09-14 腾讯科技(深圳)有限公司 一种深度信息确定的方法及相关装置
CN108681753A (zh) * 2018-05-29 2018-10-19 武汉环宇智行科技有限公司 一种基于语义分割及神经网络的图像立体匹配方法及系统
CN108986136A (zh) * 2018-07-23 2018-12-11 南昌航空大学 一种基于语义分割的双目场景流确定方法及系统
CN109919993A (zh) * 2019-03-12 2019-06-21 腾讯科技(深圳)有限公司 视差图获取方法、装置和设备及控制系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112907645A (zh) * 2021-03-05 2021-06-04 重庆紫光华山智安科技有限公司 视差图获取方法、装置、训练方法、电子设备和介质
CN112907645B (zh) * 2021-03-05 2022-08-26 重庆紫光华山智安科技有限公司 视差图获取方法、装置、训练方法、电子设备和介质

Also Published As

Publication number Publication date
CN109919993B (zh) 2023-11-07
CN109919993A (zh) 2019-06-21
US20210241479A1 (en) 2021-08-05
EP3940641A4 (en) 2022-05-04
EP3940641A1 (en) 2022-01-19
US11830211B2 (en) 2023-11-28

Similar Documents

Publication Publication Date Title
WO2020182117A1 (zh) 视差图获取方法、装置和设备及控制系统和存储介质
US11145078B2 (en) Depth information determining method and related apparatus
CN110176032B (zh) 一种三维重建方法及装置
CN111386550A (zh) 图像深度和自我运动预测神经网络的无监督学习
WO2019230339A1 (ja) 物体識別装置、移動体用システム、物体識別方法、物体識別モデルの学習方法及び物体識別モデルの学習装置
CN109215067A (zh) 基于cnn和crf模型生成高分辨率3-d点云
JP2016071846A (ja) 単眼カメラに基づく障害物検知方法及び装置
CN111127522B (zh) 基于单目相机的深度光流预测方法、装置、设备及介质
CN111539983B (zh) 基于深度图像的运动物体分割方法及系统
CN109584299B (zh) 一种定位方法、定位装置、终端及存储介质
EP3847619A1 (en) Unsupervised depth prediction neural networks
US11948310B2 (en) Systems and methods for jointly training a machine-learning-based monocular optical flow, depth, and scene flow estimator
CN112907620A (zh) 相机位姿的估计方法、装置、可读存储介质及电子设备
WO2022052782A1 (zh) 图像的处理方法及相关设备
CN111753739A (zh) 物体检测方法、装置、设备以及存储介质
CN114677422A (zh) 深度信息生成方法、图像虚化方法和视频虚化方法
CN116194951A (zh) 用于基于立体视觉的3d对象检测与分割的方法和装置
WO2023164845A1 (zh) 三维重建方法、装置、系统及存储介质
CN116469079A (zh) 一种自动驾驶bev任务学习方法及相关装置
CN112668596B (zh) 三维物体识别方法及装置、识别模型训练方法及装置
US20230145498A1 (en) Image reprojection and multi-image inpainting based on geometric depth parameters
CN110766732A (zh) 一种鲁棒的单相机深度图估计方法
US11625846B2 (en) Systems and methods for training a machine-learning-based monocular depth estimator
CN114119999B (zh) 基于深度学习的迭代6d位姿估计方法及装置
US11127112B1 (en) Warping augmented reality environments and viewpoints for enhanced robotic teleoperation

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20770825

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020770825

Country of ref document: EP

Effective date: 20211012