KR20220079125A - System and method for semi-supervised single image depth estimation and computer program for the same - Google Patents
System and method for semi-supervised single image depth estimation and computer program for the same Download PDFInfo
- Publication number
- KR20220079125A KR20220079125A KR1020200168582A KR20200168582A KR20220079125A KR 20220079125 A KR20220079125 A KR 20220079125A KR 1020200168582 A KR1020200168582 A KR 1020200168582A KR 20200168582 A KR20200168582 A KR 20200168582A KR 20220079125 A KR20220079125 A KR 20220079125A
- Authority
- KR
- South Korea
- Prior art keywords
- depth
- depth estimation
- information
- pseudo
- threshold value
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/271—Image signal generators wherein the generated image signals comprise depth maps or disparity maps
Abstract
단일 영상 깊이 추정 시스템은, 입력 이미지에 대한 의사 깊이(pseudo depth) 정보를 산출하도록 구성된 깊이 추정부; 상기 의사 깊이 정보에 대한 신뢰도(confidence) 정보를 산출하도록 구성된 신뢰도 산출부; 및 상기 신뢰도 정보를 이용한 학습을 통하여 상기 의사 깊이 정보의 일부를 필터링하기 위한 신뢰도의 임계값을 결정하도록 구성된 임계값 결정부를 포함한다. 상기 깊이 추정부는, 상기 임계값에 의해 필터링된 상기 의사 깊이 정보를 이용하여 단일 영상에 대한 깊이 추정 모델을 생성하도록 더 구성된다. 상기 단일 영상 깊이 추정 시스템은 공지된 단일 영상 깊이 추정 방법들을 이용하는 시스템에 비해 우수한 성능을 나타내며, 임계값 네트워크를 사용함으로써 의사 정답 깊이 영상에 존재하는 오차에 의한 성능 저하를 막고 기존 신뢰도 추정 방식을 이용한 방법의 성능을 개선할 수 있는 이점이 있다. A single image depth estimation system includes: a depth estimation unit configured to calculate pseudo depth information for an input image; a confidence calculation unit configured to calculate confidence information for the pseudo depth information; and a threshold value determining unit configured to determine a threshold of reliability for filtering a part of the pseudo-depth information through learning using the reliability information. The depth estimation unit is further configured to generate a depth estimation model for a single image by using the pseudo-depth information filtered by the threshold value. The single-image depth estimation system exhibits superior performance compared to systems using known single-image depth estimation methods, and by using a threshold network, it prevents performance degradation due to errors existing in the pseudo-correction depth image and uses the existing reliability estimation method. There is an advantage that the performance of the method can be improved.
Description
실시예들은 단일 영상 깊이 추정 시스템 및 방법과 이를 위한 컴퓨터 프로그램에 관한 것이다. 보다 상세하게는, 실시예들은 스테레오 매칭(stereo matching)을 통해 생성된 의사 정답(pseudo ground truth)을 사용한 준지도(semi-supervised) 학습 방식에 기반하여 단안 깊이 추정(monocular depth estimation)을 위한 새로운 프레임워크을 제공하는 기술에 대한 것이다. Embodiments relate to a single image depth estimation system and method and a computer program therefor. More specifically, the embodiments provide a novel method for monocular depth estimation based on a semi-supervised learning method using a pseudo ground truth generated through stereo matching. It is about the technology that provides the framework.
하나의 RGB 이미지와 같은 단일 영상에서 각각의 픽셀에 대하여 깊이 정보를 예측하는 단안 깊이 추정(monocular depth estimation) 또는 단일 영상 깊이 추정 기술은, 로봇공학, 자율주행 등 다양한 분야에서 중요한 역할을 한다. 단일 영상 깊이 추정에 대한 초기 연구는 주로 정답에 해당하는 깊이 영상이 있는 훈련 데이터를 이용하는 지도 학습에 기반한다. 그러나, 이를 위해서는 엄청난 양의 학습 데이터를 구축하여야 하므로 비용이 많이 들고 노동 집약적인 문제가 있다. Monocular depth estimation or single-image depth estimation technology that predicts depth information for each pixel in a single image such as one RGB image plays an important role in various fields such as robotics and autonomous driving. Early research on single-image depth estimation is mainly based on supervised learning using training data with depth images corresponding to the correct answers. However, for this, a huge amount of training data must be built, which is expensive and labor-intensive.
이러한 문제로 인하여, 최근의 연구들은 대부분 이미지의 픽셀별 유사도를 이용하여 재구성 손실(reconstruction loss)을 구하는 자가지도(self-supervised) 학습 방식에 기반하고 있다. 자가지도 학습 방식은 정답이 있는 학습 데이터의 부재에 대한 대안이 될 수 있는 것처럼 보이나, 깊이 맵(depth map)의 결과를 사물의 경계 측면에서 흐리게 하거나, 스테레오 이미지의 폐색 영역 픽셀들을 고려하지 않으므로 가려진 영역을 처리하지 못해 추정된 깊이 정보의 성능이 저하되는 문제를 갖는다. Due to this problem, most recent studies are based on a self-supervised learning method that calculates the reconstruction loss using the pixel-by-pixel similarity of the image. The self-supervised learning method seems to be an alternative to the absence of training data with correct answers, but it blurs the result of the depth map at the boundary side of the object, or does not consider the pixels of the occluded area of the stereo image. There is a problem in that the performance of the estimated depth information is deteriorated because the region cannot be processed.
본 발명의 일 측면에 따르면, 스테레오 매칭(stereo matching)을 통해 생성된 깊이 맵(depth map)을 의사 정답(pseudo ground truth)으로 활용하는 새로운 접근 방식에 의한 것으로, 의사 정답의 깊이 정보를 임계화된 신뢰도 맵에 의하여 필터링하고 이를 통해 깊이 추정 네트워크를 학습시킴으로써 의사 정답에 존재하는 오차로 인한 성능 저하를 막을 수 있는 단일 영상 깊이 추정 시스템 및 방법과 이를 위한 컴퓨터 프로그램을 제공할 수 있다. According to an aspect of the present invention, it is by a new approach that utilizes a depth map generated through stereo matching as a pseudo ground truth, and thresholding depth information of a pseudo correct answer It is possible to provide a single image depth estimation system and method, and a computer program for the same, that can prevent performance degradation due to errors existing in pseudo-answers by filtering by the obtained confidence map and learning the depth estimation network through this.
본 발명의 일 측면에 따른 단일 영상 깊이 추정 시스템은, 입력 이미지에 대한 의사 깊이(pseudo depth) 정보를 산출하도록 구성된 깊이 추정부; 상기 의사 깊이 정보에 대한 신뢰도(confidence) 정보를 산출하도록 구성된 신뢰도 산출부; 및 상기 신뢰도 정보를 이용한 학습을 통하여 상기 의사 깊이 정보의 일부를 필터링하기 위한 신뢰도의 임계값을 결정하도록 구성된 임계값 결정부를 포함한다.A single image depth estimation system according to an aspect of the present invention includes: a depth estimation unit configured to calculate pseudo depth information for an input image; a confidence calculation unit configured to calculate confidence information for the pseudo depth information; and a threshold value determining unit configured to determine a threshold of reliability for filtering a part of the pseudo-depth information through learning using the reliability information.
이때, 상기 깊이 추정부는, 상기 임계값에 의해 필터링된 상기 의사 깊이 정보를 이용하여 단일 영상에 대한 깊이 추정 모델을 생성하도록 더 구성된다. In this case, the depth estimator is further configured to generate a depth estimation model for a single image by using the pseudo-depth information filtered by the threshold value.
일 실시예에서, 상기 깊이 추정부는, 미리 저장된 스테레오 매칭 모델을 이용하여 상기 입력 이미지로부터 상기 의사 깊이 정보를 산출하도록 구성된 스테레오 매칭부; 및 상기 임계값에 의해 필터링된 상기 의사 깊이 정보를 이용하여 깊이 추정 네트워크를 학습시키도록 구성된 깊이 학습부를 포함한다.In an embodiment, the depth estimator may include: a stereo matching unit configured to calculate the pseudo-depth information from the input image using a pre-stored stereo matching model; and a depth learning unit configured to train a depth estimation network using the pseudo-depth information filtered by the threshold value.
일 실시예에서, 상기 깊이 추정 네트워크는, 이미지로부터 특징값을 추출하기 위한 하나 이상의 인코더 레이어 및 상기 특징값을 깊이 정보로 변환하도록 구성된 하나 이상의 디코더 레이어를 포함한다. 이때, 상기 임계값 결정부는, 상기 하나 이상의 인코더 레이어에 의해 추출된 상기 특징값을 이용한 적응적 학습을 통해 상기 임계값을 결정하도록 더 구성된다.In an embodiment, the depth estimation network includes one or more encoder layers for extracting feature values from an image and one or more decoder layers configured to convert the feature values into depth information. In this case, the threshold value determining unit is further configured to determine the threshold value through adaptive learning using the feature values extracted by the one or more encoder layers.
일 실시예에서, 상기 임계값 결정부는, 상기 신뢰도 정보 및 상기 임계값을 이용하여 정의되는 차등 소프트-임계화 함수에 의하여 임계화된 신뢰도 정보를 생성하도록 더 구성된다. In an embodiment, the threshold value determining unit is further configured to generate the reliability information thresholded by a differential soft-thresholding function defined using the reliability information and the threshold value.
일 실시예에서, 상기 임계값 결정부는, 상기 임계화된 신뢰도 정보 및 기준 신뢰도 정보에 의해 정의되는 손실 함수를 이용하여 임계값 네트워크를 학습시킴으로써 상기 임계값을 결정하도록 더 구성된다. In an embodiment, the threshold determining unit is further configured to determine the threshold by learning a threshold network using a loss function defined by the thresholded reliability information and the reference reliability information.
일 실시예에서, 상기 깊이 추정부는, 상기 임계화된 신뢰도 정보 및 상기 의사 깊이 정보를 이용하여 정의되는 회귀 손실 함수에 의하여 깊이 추정 네트워크를 학습시키도록 더 구성된다. In an embodiment, the depth estimator is further configured to train the depth estimation network by a regression loss function defined using the thresholded reliability information and the pseudo depth information.
본 발명의 일 측면에 따른 단일 영상 깊이 추정 방법은, 단일 영상 깊이 추정 시스템이 입력 이미지에 대한 의사 깊이 정보를 산출하는 단계; 상기 단일 영상 깊이 추정 시스템이 상기 의사 깊이 정보에 대한 신뢰도 정보를 산출하는 단계; 상기 단일 영상 깊이 추정 시스템이 상기 신뢰도 정보를 이용한 학습을 통하여 상기 의사 깊이 정보의 일부를 필터링하기 위한 신뢰도의 임계값을 결정하는 단계; 및 단일 영상 깊이 추정 시스템이, 상기 임계값에 의해 필터링된 상기 의사 깊이 정보를 이용하여 단일 영상에 대한 깊이 추정 모델을 생성하는 단계를 포함한다.A single image depth estimation method according to an aspect of the present invention comprises: calculating, by a single image depth estimation system, pseudo depth information for an input image; calculating, by the single image depth estimation system, reliability information for the pseudo depth information; determining, by the single image depth estimation system, a threshold of reliability for filtering a part of the pseudo depth information through learning using the reliability information; and generating, by the single image depth estimation system, a depth estimation model for a single image by using the pseudo-depth information filtered by the threshold value.
일 실시예에서, 상기 의사 깊이 정보를 산출하는 단계는, 상기 단일 영상 깊이 추정 시스템이, 미리 저장된 스테레오 매칭 모델을 이용하여 상기 입력 이미지로부터 상기 의사 깊이 정보를 산출하는 단계를 포함한다.In an embodiment, the calculating of the pseudo-depth information includes calculating, by the single image depth estimation system, the pseudo-depth information from the input image using a pre-stored stereo matching model.
일 실시예에서, 상기 깊이 추정 모델을 생성하는 단계는, 상기 단일 영상 깊이 추정 시스템이, 상기 임계값에 의해 필터링된 상기 의사 깊이 정보를 이용하여 깊이 추정 네트워크를 학습시키는 단계를 포함한다.In an embodiment, generating the depth estimation model includes training, by the single image depth estimation system, a depth estimation network using the pseudo-depth information filtered by the threshold value.
일 실시예에서, 상기 깊이 추정 네트워크는, 이미지로부터 특징값을 추출하기 위한 하나 이상의 인코더 레이어 및 상기 특징값을 깊이 정보로 변환하도록 구성된 하나 이상의 디코더 레이어를 포함한다. 이때, 상기 임계값을 산출하는 단계는, 상기 단일 영상 깊이 추정 시스템이, 상기 하나 이상의 인코더 레이어에 의해 추출된 상기 특징값을 이용한 적응적 학습을 통해 상기 임계값을 결정하는 단계를 포함한다.In an embodiment, the depth estimation network includes one or more encoder layers for extracting feature values from an image and one or more decoder layers configured to convert the feature values into depth information. In this case, the calculating of the threshold includes, by the single image depth estimation system, determining the threshold through adaptive learning using the feature values extracted by the one or more encoder layers.
일 실시예에서, 상기 임계값을 산출하는 단계는, 상기 단일 영상 깊이 추정 시스템이, 상기 신뢰도 정보 및 상기 임계값을 이용하여 정의되는 차등 소프트-임계화 함수에 의하여 임계화된 신뢰도 정보를 생성하는 단계를 포함한다.In an embodiment, the calculating of the threshold value comprises: generating, by the single image depth estimation system, reliability information thresholded by a differential soft-thresholding function defined using the reliability information and the threshold value includes steps.
일 실시예에서, 상기 임계값을 산출하는 단계는, 상기 단일 영상 깊이 추정 시스템이, 상기 임계화된 신뢰도 정보 및 기준 신뢰도 정보에 의해 정의되는 손실 함수를 이용하여 임계값 네트워크를 학습시키는 단계를 더 포함한다.In an embodiment, the calculating of the threshold may further include, by the single image depth estimation system, learning the threshold network using a loss function defined by the thresholded reliability information and the reference reliability information. include
일 실시예에서, 상기 깊이 추정 모델을 생성하는 단계는, 상기 단일 영상 깊이 추정 시스템이, 상기 임계화된 신뢰도 정보 및 상기 의사 깊이 정보를 이용하여 정의되는 회귀 손실 함수에 의하여 깊이 추정 네트워크를 학습시키는 단계를 포함한다. In an embodiment, the generating of the depth estimation model comprises: training, by the single image depth estimation system, a depth estimation network using a regression loss function defined using the thresholded reliability information and the pseudo depth information. includes steps.
본 발명의 일 측면에 컴퓨터 프로그램은, 하드웨어와 결합되어 전술한 실시예들에 따른 단일 영상 깊이 추정 방법을 실행하기 위한 것으로서 컴퓨터로 판독 가능한 기록매체에 저장될 수 있다. In one aspect of the present invention, the computer program is combined with hardware to execute the single image depth estimation method according to the above-described embodiments, and may be stored in a computer-readable recording medium.
본 발명의 일 측면에 따른 단일 영상 깊이 추정 시스템 및 방법은, 단안(monocular) 깊이 네트워크, 신뢰도(confidence) 네트워크 및 임계값 네트워크의 세 가지 하위 네트워크를 이용하며, 단안 깊이 네트워크에 의한 의사 정답(pseudo ground truth)을 이용한 준지도(semi-supervised) 학습 방식으로 깊이 추정 네트워크를 학습시키도록 구성된다. A single image depth estimation system and method according to an aspect of the present invention uses three sub-networks: a monocular depth network, a confidence network, and a threshold network, and a pseudo correct answer by the monocular depth network. It is configured to train the depth estimation network in a semi-supervised learning method using ground truth.
본 발명의 일 측면에 따른 단일 영상 깊이 추정 시스템 및 방법은 공지된 단일 영상 깊이 추정 방법에 비해 우수한 성능을 나타내며, 또한 임계값 네트워크를 사용함으로써 의사 정답 깊이 영상에 존재하는 오차에 의한 성능 저하를 막고 기존 신뢰도 추정 방식을 이용한 방법의 성능을 개선할 수 있어, 자율주행차, 가상현실 등 다양한 분야에 활용될 수 있는 기반 기술을 제공하는 이점이 있다. The single-image depth estimation system and method according to an aspect of the present invention exhibit superior performance compared to known single-image depth estimation methods, and use a threshold network to prevent performance degradation due to errors existing in the pseudo correct depth image, and The performance of the method using the existing reliability estimation method can be improved, which has the advantage of providing a base technology that can be used in various fields such as autonomous vehicles and virtual reality.
도 1은 일 실시예에 따른 단일 영상 깊이 추정 시스템의 개략적인 블록도이다.
도 2는 일 실시예에 따른 단일 영상 깊이 추정 방법의 각 단계를 나타내는 순서도이다.
도 3은 일 실시예에 따른 단일 영상 깊이 추정 시스템에 포함된 하위 네트워크들을 나타내는 개념도이다.
도 4는 일 실시예에 따른 단일 영상 깊이 추정 방법에 의해 임계화된 신뢰도 값을 나타내는 그래프이다.
도 5는 원본 이미지에 일 실시예에 따른 단일 영상 깊이 추정 방법을 단계별로 적용하여 얻어진 깊이 정보를 나타내는 이미지이다.
도 6 및 도 7은 일 실시예에 따른 단일 영상 깊이 추정 방법의 성능을 종래 기술과 비교하여 나타내는 이미지이다. 1 is a schematic block diagram of a single image depth estimation system according to an embodiment.
2 is a flowchart illustrating each step of a method for estimating depth of a single image according to an exemplary embodiment.
3 is a conceptual diagram illustrating sub-networks included in a single image depth estimation system according to an embodiment.
4 is a graph illustrating a reliability value thresholded by a single image depth estimation method according to an exemplary embodiment.
5 is an image illustrating depth information obtained by step-by-step application of the single image depth estimation method according to an embodiment to an original image.
6 and 7 are images illustrating the performance of a single image depth estimation method according to an exemplary embodiment in comparison with the related art.
이하에서, 도면을 참조하여 본 발명의 실시예들에 대하여 상세히 살펴본다.Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
도 1은 일 실시예에 따른 단일 영상 깊이 추정 시스템의 개략적인 블록도이다. 1 is a schematic block diagram of a single image depth estimation system according to an embodiment.
도 1을 참조하면, 본 실시예에 따른 단일 영상 깊이 추정 시스템(1)은 깊이 추정부(10), 신뢰도 산출부(20) 및 임계값 결정부(30)를 포함한다. 일 실시예에서, 단일 영상 깊이 추정 시스템(3)은 깊이 추정 모델 및/또는 입력 이미지 등이 저장되는 데이터베이스(database; DB)(40)를 더 포함한다. 또한 일 실시예에서, 단일 영상 깊이 추정 시스템(3)은 입력 이미지로부터 생성된 깊이 정보를 사용자에게 제공하기 위한 출력부(50)를 더 포함한다. 나아가 일 실시예에서, 깊이 추정부(10)는 스테레오 매칭(stereo matching)부(11) 및 깊이 학습부(12)를 포함한다. Referring to FIG. 1 , the single image
본 명세서에 기재된 장치들은 전적으로 하드웨어이거나, 또는 부분적으로 하드웨어이고 부분적으로 소프트웨어인 측면을 가질 수 있다. 예컨대, 단일 영상 깊이 추정 시스템(1)에 포함된 각 부(unit)(10, 20, 30, 40, 50) 및 이들의 하위 부는, 특정 형식 및 내용의 데이터를 전자통신 방식으로 주고받기 위한 장치 및 이에 관련된 소프트웨어를 통칭할 수 있다. 본 명세서에서 "부", "모듈", "서버", "시스템", "플랫폼", "장치" 또는 "단말" 등의 용어는 하드웨어 및 해당 하드웨어에 의해 구동되는 소프트웨어의 조합을 지칭하는 것으로 의도된다. 예를 들어, 여기서 하드웨어는 CPU 또는 다른 프로세서(processor)를 포함하는 데이터 처리 기기일 수 있다. 또한, 하드웨어에 의해 구동되는 소프트웨어는 실행중인 프로세스, 객체(object), 실행파일(executable), 실행 스레드(thread of execution), 프로그램(program) 등을 지칭할 수 있다.The devices described herein may be wholly hardware, or may have aspects that are partly hardware and partly software. For example, each unit ( 10 , 20 , 30 , 40 , 50 ) and its sub-units included in the single image
또한, 본 명세서에서 단일 영상 깊이 추정 시스템(1)을 구성하는 각각의 부는 반드시 물리적으로 구분되는 별개의 구성요소를 지칭하는 것으로 의도되지 않는다. 즉, 도 1에서 단일 영상 깊이 추정 시스템(1)의 각 부(10, 20, 30, 40, 50)는 서로 구분되는 별개의 블록으로 도시되었으나, 이는 단일 영상 깊이 추정 시스템(1)을 이에 의해 실행되는 동작에 의해 기능적으로 구분한 것이다. 실시예에 따라서는 전술한 각 부(10, 20, 30, 40, 50) 중 일부 또는 전부가 동일한 하나의 장치 내에 집적화될 수 있으며, 또는 하나 이상의 부가 다른 부와 물리적으로 구분되는 별개의 장치로 구현될 수도 있다. 예컨대, 단일 영상 깊이 추정 시스템(1)의 각 부는 분산 컴퓨팅 환경 하에서 서로 통신 가능하게 연결된 컴포넌트들일 수도 있다.In addition, in this specification, each part constituting the single image
깊이 추정부(10)는 입력된 입력 이미지에 대한 의사 정답(pseudo ground trugh) 깊이 정보(또는, 본 명세서에서 의사 깊이(pseudo depth) 정보로도 지칭됨)를 산출하도록 구성된다. 또한 깊이 추정부(10)는 깊이 추정 네트워크에 대한 학습을 수행함으로써 단일 영상으로부터 깊이 정보를 추정할 수 있는 깊이 추정 모델을 생성하도록 구성된다. The
본 명세서에서 네트워크란, 하나 이상의 레이어(layer)를 통하여 입력 이미지로부터 특징값을 추출하거나 또는/또한 다른 하나 이상의 레이어를 통하여 특징값을 이미지로 복원하면서 그 추출 또는 복원 과정에 관련된 파라미터들을 학습 데이터를 이용하여 갱신해나가도록 구성된 머신러닝(machine learning) 모델을 지칭한다. In the present specification, the network refers to extracting a feature value from an input image through one or more layers and/or restoring a feature value to an image through one or more other layers while learning parameters related to the extraction or restoration process. It refers to a machine learning model configured to be updated using
신뢰도 산출부(20)는, 신뢰도 네트워크에 대한 학습을 통하여 의사 깊이 정보로부터 신뢰도 정보를 산출하도록 구성된다. 이때 신뢰도란 이미지의 확률 밀도 함수로서, 본 명세서에서 신뢰도 정보는 이미지의 각 단위 영역(예컨대, 픽셀)에 전체 객체에서 해당 영역의 값이 발생할 확률을 할당한 것을 의미한다. 예를 들어, 의사 깊이 정보와 신뢰도 정보는 각각 맵(map)의 형태를 가질 수 있다. The
임계값 결정부(30)는 의사 깊이 정보의 일부를 필터링하기 위한 임계값을 결정하는 부분으로서, 신뢰도 정보를 이용한 학습에 의해 임계화된 신뢰도 맵을 생성하는 역할을 한다. 이때 깊이 추정부(10)는, 임계화된 신뢰도 맵에 의해 필터링된 의사 깊이 정보를 이용하여 단일 영상에 대한 깊이 추정 모델을 생성할 수 있다. The threshold
또한, 깊이 추정부(10)는 이와 같이 학습을 통해 생성된 깊이 추정 모델을 이용하여 미지의 단일 영상에 대해 깊이 정보를 생성할 수 있다. 출력부(50)는 이와 같이 생성된 깊이 정보를 사용자가 볼 수 있는 형태로 가공하여 네트워크를 통한 통신 방식으로 사용자 장치(미도시)에 전송하거나 또는 단일 영상 깊이 추정 시스템(1)의 출력수단(미도시)을 통하여 제공할 수 있다. Also, the
도 2는 일 실시예에 따른 단일 영상 깊이 추정 방법의 각 단계를 나타내는 순서도이며, 도 3은 일 실시예에 따른 단일 영상 깊이 추정 시스템에 포함된 하위 네트워크들을 나타내는 개념도이다. 이하에서는, 설명의 편의를 위하여 도 1 내지 도 3을 참조하여 본 실시예에 따른 단일 영상 깊이 추정 방법에 대하여 설명한다. 2 is a flowchart illustrating each step of a method for estimating depth of a single image according to an embodiment, and FIG. 3 is a conceptual diagram illustrating sub-networks included in the system for estimating depth of a single image according to an embodiment. Hereinafter, for convenience of description, a single image depth estimation method according to the present embodiment will be described with reference to FIGS. 1 to 3 .
먼저, 단일 영상 깊이 추정 시스템(1)은 깊이 추정 모델의 생성을 위한 학습 데이터를 입력받을 수 있다(S1). 학습 데이터는 좌안 이미지와 우안 이미지를 포함하는 스테레오 이미지일 수 있으며, 학습 데이터에는 이미지의 각 영역(예컨대, 픽셀)에 상응하는 깊이 정보가 미리 라벨링(labeling)되어 있을 수 있다. First, the single image
다음으로, 깊이 추정부(10)의 스테레오 매칭부(11)는 스테레오 매칭 방식으로 스테레오 이미지 중 어느 하나, 예컨대, 좌안에 해당하는 단안 이미지(301) Il 에 대한 의사 깊이 정보(302) dPgt를 생성할 수 있다(S2). 스테레오 매칭을 통한 의사 깊이 정보(302)의 생성은 사전에 훈련된 스테레오 매칭 네트워크를 이용한 공지된 방법, 예컨대, Poggi, M. 및 Mattoccia, S.의 "Learning from scratch a confidence measure" (BMVC, 2016)에 개시된 방법에 의하여 수행될 수 있으므로, 발명의 요지를 명확히 하기 위하여 이에 대한 자세한 설명은 생략한다. Next, the stereo matching unit 11 of the
깊이 추정부(10)의 깊이 학습부(12)는 단안 이미지(301) Il 를 하나 이상의 인코딩(encoding) 레이어(351) 및 하나 이상의 디코딩(decoding) 레이어(352)를 포함하는 깊이 추정 네트워크(305)에 대한 입력 이미지로 이용하여 깊이 정보에 대한 학습을 수행할 수 있다. 예를 들어, 깊이 추정 네트워크(305)는 Ronneberger, O. 외 공저 "U-net: Convolutional networks for biomedical image segmentation" (International Conference on Medical image computing and computer-assisted intervention, 234-241, 2015)에 개시되어 유넷(U-net)으로 알려진 인코더-디코더 아키텍처를 가질 수 있으며, 13개의 컨볼루션(convolution) 레이어에 해당하는 인코더 네트워크 및 이에 대칭적인 디코더 네트워크를 가질 수 있다. 그러나, 깊이 추정 네트워크(305)의 형태는 이에 한정되는 것은 아니다. The
한편, 일 실시예에서는 이때 단안 이미지(301) Il 로부터 인코딩 레이어(351)를 통해 추출된 특징값이 후술하는 임계값 네트워크(306) MT의 적응적 학습에 이용될 수 있다.Meanwhile, in an embodiment, at this time, the feature value extracted from the monocular image 301 I 1 through the
신뢰도 산출부(20)는 의사 깊이 정보(302) dPgt를 신뢰도 네트워크(303) Mc에 대한 입력 이미지로 이용한 학습을 통하여 신뢰도 정보(304) c를 생성할 수 있다(S4). 신뢰도 네트워크(303) Mc는 공지된 또는 향후 개발될 임의의 신뢰도 추정 방법에 의하여 구성될 수 있다. 예를 들어, 신뢰도 네트워크(303) Mc는 M. Poggi 및 S. Mattoccia 에 의해 제안된 CCNN 방법에 의하여 구성될 수 있으나, 이에 한정되는 것은 아니다. The
다음으로, 임계값 결정부(30)는 신뢰도 정보(304) c를 임계값 네트워크(306) MT에 대한 입력 이미지로 이용한 학습을 통하여, 임계값 T를 넘는 신뢰도를 가진 깊이값만을 신뢰할 수 있는 것으로 결정하도록 임계값 T를 결정할 수 있다(S5). 임계값 네트워크(306) MT는 깊이 추정 네트워크(305)의 하나 이상의 인코딩 레이어(351)와 동일하거나 유사하게 구성될 수 있다. 이때, 임계값 T를 어떻게 설정할 것인지는 이미지의 특성에 따라 달라지며, 예컨대, 스테레오 매칭을 통해 의사 깊이 정보를 얻기 힘든 이미지에서는 임계값 T이 높아야 할 것이고, 스테레오 매칭을 통해 의사 깊이 정보를 얻기 쉬운 이미지에서는 임계값 T가 낮아도 될 것이다. Next, the threshold
일 실시예에서, 이미지의 특성을 반영하여 임계값 T을 적응적으로 학습할 수 있다. 이를 위하여, 임계값 결정부(30)는 단안 이미지(301) Il 로부터 인코딩 레이어(351)를 통해 추출된 특징값(예컨대, 컨볼루션 특징값)을 이용하여 임계값 네트워크(306) MT에 대한 학습을 수행할 수 있다(S3, S5). In an embodiment, the threshold value T may be adaptively learned by reflecting the characteristics of the image. To this end, the threshold
일 실시예에서, 임계값 결정부(30)는 차등 소프트-임계화(differentiable soft-thresholding) 함수를 이용하여 임계값이 적용되어 임계화된 신뢰도 정보를 생성할 수 있다(S6). 예를 들어, 일 실시예에서 임계화된 신뢰도 정보에 해당하는 신뢰도 맵(307) CT는 하기 수학식 1과 같이 산출될 수 있다. In an embodiment, the
상기 수학식 1에서 p는 이미지의 픽셀을 나타내며, cp는 픽셀의 신뢰도를 나타낸다. 이때, 임계화된 신뢰도 맵(307) CT의 기울기는 사용자에 의해 설정되는 하이퍼 파라미터 ε의 값에 의하여 제어된다. ε는 예컨대 양의 값을 갖는 상수일 수 있다. In
도 4는 일 실시예에 따른 단일 영상 깊이 추정 방법에 의해 임계화된 신뢰도 값을 나타내는 그래프로서, 도 4에 도시된 4개의 그래프(401-404)는 각각 수학식 1의 파라미터 ε의 값이 5, 10, 25 및 90일 경우 신뢰도 c의 값에 따른 임계화된 신뢰도 CT의 값을 나타낸다. 도시되는 바와 같이, 파라미터 ε의 값이 클수록 임계화된 신뢰도 CT의 값이 0 또는 1에 급격하게 매핑된다. 본 명세서에 기재된 시험예들에서 파라미터 ε의 값은 10으로 설정되었으나, 이에 한정되는 것은 아니다. 4 is a graph illustrating a reliability value thresholded by a method for estimating a single image depth according to an embodiment. In each of the four
다시 도 1 내지 도 3을 참조하면, 임계값 결정부(30)는 임계화된 신뢰도 맵(307) CT와 미리 설정된 기준(ground truth) 신뢰도 정보(308) Cgt에 의해 정의되는 손실 함수 LT를 이용하여 임계값 네트워크(306) MT에 대한 학습을 실시할 수 있다. 이때 기준 신뢰도 정보(308) Cgt는 Tonioni, A. 외 공저 "Unsupervised domain adaptation for depth prediction from images" (EEE transactions on pattern analysis and machine intelligence, 2019) 및 Kim, S. 외 공저 "Laf-net: Locally adaptive fusion networks for stereo confidence estimation" (Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 205-214, 2019) 등에 개시된 공지된 방법으로부터 희소 기준 깊이 데이터(sparse ground truth depth data)를 이용하여 얻을 수 있다. Referring back to FIGS. 1 to 3 , the
또한, 이 과정에서 신뢰도 산출부(20) 역시 상기 손실 함수 LT를 이용하여 신뢰도 네트워크(303) MC에 대한 학습을 실시할 수 있다. 예를 들어, 일 실시예에서 손실 함수 LT는 하기 수학식 2와 같이 정의될 수 있다. In addition, in this process, the
상기 수학식 2에 의하여 학습된 임계값 네트워크(306) MT 및 신뢰도 네트워크(303) MC를 통하여 임계화된 신뢰도 정보가 결정되면, 깊이 추정부(10)의 깊이 학습부(12)는 임계화된 신뢰도 정보(307) CT를 이용하여 필터링된 의사 깊이 정보(309) dPgt를 이용하여 깊이 추정 네트워크(305) MD를 학습시킴으로써 단안 이미지(301) Il 에 대한 깊이 정보(310) d를 생성할 수 있다(S8). When the thresholded reliability information is determined through the threshold network 306 M T and the reliability network 303 M C learned according to Equation 2, the
예를 들어, 일 실시예에서 깊이 추정 네트워크(305) MD는 신뢰도에 의하여 유도된 회귀 손실 함수 LD의 값을 산출함으로써 학습될 수 있고, 이때 회귀 손실 함수 LD는 하기 수학식 3과 같이 정의될 수 있다. For example, in one embodiment, the depth estimation network 305 M D may be learned by calculating a value of a regression loss function L D induced by reliability, in which case the regression loss function L D is expressed as in Equation 3 below. can be defined.
상기 수학식 3에서 dp는 추정되는 깊이 정보(310)를 나타내며, dPgt는 의사 깊이 정보(309)를 나타내고, Ω는 단안 이미지(301) Il 에 포함된 모든 픽셀들의 집합을 의미한다. 또한, 일 실시예에서 상기 수학식 3에 의해 산출된 손실은 아래의 수학식 4에 의하여 정규화(normalize)될 수 있다. In Equation 3, d p denotes the estimated
이상에 기재한 학습 과정을 통하여, 단일 영상으로부터 깊이 정보를 추정하기 위한 깊이 추정 모델이 생성될 수 있다. 그 결과, 깊이 정보를 알지 못하는 미지의 입력 영상에 대하여 상기 깊이 추정 모델을 적용함으로써 깊이 정보를 추정하고 이를 사용자에게 제공할 수 있다(S9). Through the learning process described above, a depth estimation model for estimating depth information from a single image may be generated. As a result, it is possible to estimate depth information by applying the depth estimation model to an unknown input image of which depth information is not known, and provide it to the user (S9).
본 발명자들은, 임계값 네트워크(306) MT 및 신뢰도 네트워크(303) MC를 학습시키기 위하여 KITTI 데이터셋에 의하여 제공되는 스테레오 이미지 셋 및 희소 깊이 맵(sparse depth map)을 이용하였으며, 라이다(LiDAR) 깊이 맵이 사용되었다. The present inventors used a stereo image set and sparse depth map provided by the KITTI dataset to train the threshold network 306 M T and the reliability network 303 M C , and LIDAR ( LiDAR) depth maps were used.
도 5는 그 결과를 나타내는 이미지로서, 도 5의 (a)는 원본 이미지를 나타내며, 도 5의 (b)는 본 발명의 실시예에서 임계값 네트워크 MT 및 신뢰도 네트워크 MC가 없는 단안 깊이 추정을 통해 얻은 깊이 정보를 나타낸다. 또한, 도 5의 (c)는 임계값 T를 0.3으로 고정한 채 신뢰도 네트워크 MC만을 학습시켜 추정된 깊이 정보를 나타내고, 도 5의 (d)는 본 발명의 실시예에 따라 임계값 네트워크 MT 및 신뢰도 네트워크 MC를 모두 학습시키면서 깊이 추정 네트워크 MD에 의하여 얻어진 깊이 정보를 나타낸다. Figure 5 is an image showing the result, Figure 5 (a) shows the original image, Figure 5 (b) is monocular depth estimation without the threshold network M T and the reliability network M C in the embodiment of the present invention. Depth information obtained through In addition, Fig. 5 (c) shows depth information estimated by learning only the reliability network M C while fixing the threshold value T to 0.3, and Fig. 5 (d) is the threshold value network M T according to an embodiment of the present invention. and depth information obtained by the depth estimation network M D while learning all of the reliability networks M C .
도시되는 바와 같이, 도 5의 (a)로부터 (d)까지 변화하면서 이미지으 깊이 추정 결과가 점차 개선되는 것을 확인할 수 있다. 특히, 도 5의 (b)에 도시된 의사 깊이 정보가 부정확한 점으로부터 의사 깊이 정보만을 통해 깊이 추정 네트워크 MD를 학습시키기에는 한계가 있음을 알 수 있으며, 본 발명의 실시예에 의해 임계화된 신뢰도 정보를 이용함으로써 도 5의 (b)에서 신뢰도가 낮은 픽셀들을 제외하고 깊이 추정 성능을 개선할 수 있음을 알 수 있다. As shown, it can be seen that the depth estimation result of the image is gradually improved while changing from (a) to (d) of FIG. 5 . In particular, it can be seen that there is a limit to learning the depth estimation network MD through only the pseudo-depth information from the point that the pseudo-depth information shown in FIG. 5B is inaccurate . It can be seen that depth estimation performance can be improved except for pixels with low reliability in FIG. 5B by using the obtained reliability information.
도 6은 일 실시예에 따른 단일 영상 깊이 추정 방법의 성능을 종래 기술과 비교하여 나타내는 이미지로서, 도 6의 (a)는 원본 이미지를 나타내며, 도 6의 (f)는 본 발명의 실시예에 의해 추정된 깊이 정보를 나타낸다. 한편, 도 6의 (b) 내지 (e)는 종래 기술에 의하여 추정된 깊이 정보를 나타내는 것으로, 도 6의 (b)는 Kuznietsov, Y. 외 공저 "Semisupervised deep learning for monocular depth map prediction" (Proceedings of the IEEE conference on computer vision and pattern recognition, 6647-6655, 2017)에 개시된 방법에 의해 추정된 깊이 정보를 나타내고, 도 6의 (c)는 Godard, C. 외 공저 "Unsupervised monocular depth estimation with left-right consistency" (Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 270-279, 2017)에 개시된 방법에 의해 추정된 깊이 정보를 나타내며, 도 6의 (d)는 Godard, C. 외 공저 "Digging into self-supervised monocular depth estimation" (Proceedings of the IEEE international conference on computer vision, 3828-3838, 2019)에 개시된 방법에 의해 추정된 깊이 정보를 나타내고, 도 6의 (e)는 Watson, J. 외 공저 "Self-supervised monocular depth hints", Proceedings of the IEEE International Conference on Computer Vision, 2162-2171, 2019)에 개시된 방법에 의해 추정된 깊이 정보를 나타낸다. 6 is an image showing the performance of a single image depth estimation method according to an embodiment in comparison with the prior art. FIG. 6 (a) is an original image, and FIG. 6 (f) is an embodiment of the present invention. Depth information estimated by On the other hand, FIGS. 6 (b) to (e) show depth information estimated by the prior art, and FIG. 6 (b) is "Semisupervised deep learning for monocular depth map prediction" (Proceedings) by Kuznietsov, Y. et al. of the IEEE conference on computer vision and pattern recognition, 6647-6655, 2017) represents depth information estimated by the method disclosed, and Figure 6 (c) is a co-author of Godard, C. et al. "Unsupervised monocular depth estimation with left- right consistency" (Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 270-279, 2017) represents depth information estimated by the method disclosed, (d) of FIG. 6 is Godard, C. et al. co-author "Digging into Self-supervised monocular depth estimation" (Proceedings of the IEEE international conference on computer vision, 3828-3838, 2019) represents depth information estimated by the method disclosed, (e) of FIG. 6 is a co-author of Watson, J. et al. Self-supervised monocular depth hints", it represents depth information estimated by the method disclosed in Proceedings of the IEEE International Conference on Computer Vision, 2162-2171, 2019).
도시되는 바와 같이, 본 발명의 실시예에 의해 깊이 정보를 추정함으로써 종래 기술과 같이 사물의 경계가 흐려지는 현상이 없이 미세한 경계까지 사물을 온전히 탐지하는 것이 가능함을 알 수 있다. As shown, it can be seen that by estimating depth information according to an embodiment of the present invention, it is possible to completely detect an object up to a fine boundary without blurring the boundary of the object as in the prior art.
또한, 본 발명자들은 KITTI 아이젠 스플릿(eigen split) 데이터 셋을 대상으로 본 발명의 실시예들에 의한 탐지 정확도를 알려진 종래 기술과 비교하였으며, 그 결과를 표 1에 나타내였다. 데이터 열의 S와 L은 각각 스테레오 이미지 및 좌안 이미지를 나타내며, Sem은 시맨틱 세그멘테이션(semantic segmentation) 네트워크를 통해 훈련된 지도 모델을 나타내고, PGT는 본 발명의 실시예에 따른 의사 정답 깊이 정보를 이용한 모델을 나타낸다. In addition, the present inventors compared the detection accuracy according to the embodiments of the present invention for the KITTI eigen split data set with the known prior art, and the results are shown in Table 1. S and L of the data column represent a stereo image and a left-eye image, respectively, Sem represents a map model trained through a semantic segmentation network, and PGT represents a model using pseudo correct depth information according to an embodiment of the present invention. indicates.
방식map
method
RelSqr
Rel
SERM
SE
로그RMSE
Log
1.25δ<
1.25
1.252 δ<
1.25 2
1.253 δ<
1.25 3
SemS+
Sem
PGTL+
PGT
PGTL+
PGT
또한, 표 1의 실시예 1은 (i) 미리 훈련된 신뢰도 네트워크에 의해 신뢰도 네트워크 MC를 고정한 상태에서 (ii) 손실함수 LD 및 LT를 이용하여 깊이 추정 네트워크 MD와 임계값 네트워크 MT의 파라미터를 학습시킨 결과에 해당한다. 또한, 실시예 2는 실시예 1의 방법 (i), (ii)에 더하여 (iii) 깊이 추정 네트워크 MD를 고정한 상태에서 (iv) 손실함수 LT를 이용하여 신뢰도 네트워크 MC와 임계값 네트워크 MT를 학습시키는 과정, 및 (v) 신뢰도 네트워크 MC와 임계값 네트워크 MT를 고정시킨 상태에서 손실함수 LD를 이용하여 깊이 추정 네트워크 MD를 학습시키는 과정을 더 실시한 실시예를 나타낸다. In addition, Example 1 of Table 1 shows the depth estimation network M D and the threshold network M using (ii) loss functions L D and L T in a state where (i) the reliability network M C is fixed by the pre-trained reliability network. It corresponds to the result of learning the parameters of T. In addition, in Example 2, in addition to the methods (i) and (ii) of Example 1, (iii) a reliability network M C and a threshold network using (iv) a loss function L T in a state where the depth estimation network M D is fixed. An embodiment in which the process of learning M T and (v ) the process of learning the depth estimation network MD by using the loss function L D in a state where the reliability network MC and the threshold network MT are fixed is further shown.
표 1에서 정확도는 값이 높을수록 성능이 우수한 것을 나타내며, 그 외의 평가수치는 값이 낮을수록 성능이 우수한 것을 나타낸다. 표 1의 성능 평가수치 중 Abs Rel 및 Sqr Rel은 각각 예측값과 정답 사이의 절대 관계 오차 및 제곱 관계 오차를 나타낸다. 또한 표 1에서, RMSE 및 RMSE 로그(log)는 각각 평균 제곱근 오차 및 로그 평균 제곱근 오차를 나타낸다. 나아가, 표 1에서 δ<1.25n 은 예측값과 정답의 비율이 1.25의 n제곱보다 작은 픽셀의 비율값을 의미한다. 또한, 표 1에서 굵게 표시된 수치 및 밑줄 표시된 수치는 각 평가수치에서 성능이 우수한 순서로 1순위와 2순위를 나타낸다. 도시되는 바와 같이 본 발명의 실시예들이 최소한 종래 기술과 동등한 성능을 가지면서 대부분의 항목에서 더 우수한 성능을 갖는다는 것을 알 수 있다. In Table 1, the higher the accuracy value, the better the performance. Other evaluation values indicate that the lower the value, the better the performance. Among the performance evaluation values in Table 1, Abs Rel and Sqr Rel represent the absolute relationship error and the square relationship error between the predicted value and the correct answer, respectively. Also in Table 1, RMSE and RMSE log (log) represent root mean square error and log root mean square error, respectively. Furthermore, in Table 1, δ<1.25 n means a ratio value of pixels in which the ratio between the predicted value and the correct answer is less than 1.25 to the nth power. In addition, in Table 1, the bold and underlined figures indicate the 1st and 2nd ranks in the order of superior performance in each evaluation value. As can be seen, it can be seen that the embodiments of the present invention have better performance in most items while having at least the same performance as the prior art.
도 7은 일 실시예에 따른 단일 영상 깊이 추정 방법의 성능을 종래 기술과 비교하여 나타내는 또 다른 이미지로서, 도 7의 (a)는 원본 이미지를 나타내며, 도 7의 (e)는 본 발명의 실시예에 의해 추정된 깊이 정보를 나타낸다. 한편, 도 7의 (b) 내지 (d)는 종래 기술에 의하여 추정된 깊이 정보를 나타내는 것으로, 도 7의 (b)는 전술한 Godard, C. 외 공저 "Unsupervised monocular depth estimation with left-right consistency"에 개시된 방법에 의해 추정된 깊이 정보를 나타내고, 도 7의 (c)는 Tosi, F., Aleotti, F., Poggi, M. 및 Mattoccia, S. 공저 "Learning monocular depth estimation infusing traditional stereo knowledge" (Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 9799-9809, 2019)에 개시된 방법에 의해 추정된 깊이 정보를 나타내며, 도 7의 (d)는 전술한 Watson, J. 외 공저 "Self-supervised monocular depth hints"에 개시된 방법에 의해 추정된 깊이 정보를 나타낸다.7 is another image showing the performance of a method for estimating a single image depth according to an embodiment in comparison with the prior art. Depth information estimated by example is shown. Meanwhile, FIGS. 7(b) to 7(d) show depth information estimated according to the prior art, and FIG. 7(b) is a co-author of Godard, C. et al., "Unsupervised monocular depth estimation with left-right consistency." "Shows depth information estimated by the method disclosed in ", (c) of FIG. 7 is a co-author of Tosi, F., Aleotti, F., Poggi, M., and Mattoccia, S. "Learning monocular depth estimation infusing traditional stereo knowledge" (Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 9799-9809, 2019) indicates the depth information estimated by the method disclosed, (d) of FIG. It represents depth information estimated by the method disclosed in "monocular depth hints".
도 7에 도시된 결과는 공개된 Cityscapes 데이터셋을 이용하여 획득된 깊이 추정 결과를 나타내는 것으로, 500 검증셋(validation set)에 대한 정성 분석 결과를 나타낸다. 도시되는 바와 같이 본 발명의 실시예들이 최근 공개된 기술과 비교하더라도 우수한 성능을 갖는 것을 알 수 있다. The results shown in FIG. 7 represent depth estimation results obtained using the published Cityscapes dataset, and represent qualitative analysis results for 500 validation sets. As shown, it can be seen that the embodiments of the present invention have superior performance even when compared with the recently disclosed technology.
이상에서 설명한 실시예들에 따른 단일 영상 깊이 추정 방법에 의한 동작은 적어도 부분적으로 컴퓨터 프로그램으로 구현되고 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다. 실시예들에 따른 방법에 의한 동작을 구현하기 위한 프로그램이 기록되고 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다. 또한, 본 실시예를 구현하기 위한 기능적인 프로그램, 코드 및 코드 세그먼트(segment)들은 본 실시예가 속하는 기술 분야의 통상의 기술자에 의해 용이하게 이해될 수 있을 것이다.The operation by the single image depth estimation method according to the embodiments described above may be implemented at least partially as a computer program and recorded in a computer-readable recording medium. A computer-readable recording medium in which a program for implementing the operation according to the method according to the embodiments is recorded includes all types of recording devices in which computer-readable data is stored. Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disk, and optical data storage device. In addition, the computer-readable recording medium may be distributed in a network-connected computer system, and the computer-readable code may be stored and executed in a distributed manner. In addition, functional programs, codes, and code segments for implementing the present embodiment may be easily understood by those skilled in the art to which the present embodiment belongs.
이상에서 살펴본 본 발명은 도면에 도시된 실시예들을 참고로 하여 설명하였으나 이는 예시적인 것에 불과하며 당해 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 실시예의 변형이 가능하다는 점을 이해할 것이다. 그러나, 이와 같은 변형은 본 발명의 기술적 보호범위 내에 있다고 보아야 한다. Although the present invention as described above has been described with reference to the embodiments shown in the drawings, it will be understood that these are merely exemplary, and that various modifications and variations of the embodiments are possible therefrom by those of ordinary skill in the art. However, such modifications should be considered to be within the technical protection scope of the present invention.
Claims (14)
상기 의사 깊이 정보에 대한 신뢰도 정보를 산출하도록 구성된 신뢰도 산출부; 및
상기 신뢰도 정보를 이용한 학습을 통하여 상기 의사 깊이 정보의 일부를 필터링하기 위한 신뢰도의 임계값을 결정하도록 구성된 임계값 결정부를 포함하되,
상기 깊이 추정부는, 상기 임계값에 의해 필터링된 상기 의사 깊이 정보를 이용하여 단일 영상에 대한 깊이 추정 모델을 생성하도록 더 구성된 단일 영상 깊이 추정 시스템.
a depth estimator configured to calculate pseudo-depth information for the input image;
a reliability calculation unit configured to calculate reliability information for the pseudo depth information; and
A threshold value determining unit configured to determine a threshold value of reliability for filtering a part of the pseudo depth information through learning using the reliability information,
The depth estimation unit is further configured to generate a depth estimation model for a single image by using the pseudo-depth information filtered by the threshold value.
상기 깊이 추정부는,
미리 저장된 스테레오 매칭 모델을 이용하여 상기 입력 이미지로부터 상기 의사 깊이 정보를 산출하도록 구성된 스테레오 매칭부; 및
상기 임계값에 의해 필터링된 상기 의사 깊이 정보를 이용하여 깊이 추정 네트워크를 학습시키도록 구성된 깊이 학습부를 포함하는 단일 영상 깊이 추정 시스템.
The method of claim 1,
The depth estimation unit,
a stereo matching unit configured to calculate the pseudo-depth information from the input image using a pre-stored stereo matching model; and
and a depth learning unit configured to train a depth estimation network using the pseudo-depth information filtered by the threshold value.
상기 깊이 추정 네트워크는, 이미지로부터 특징값을 추출하기 위한 하나 이상의 인코더 레이어 및 상기 특징값을 깊이 정보로 변환하도록 구성된 하나 이상의 디코더 레이어를 포함하며,
상기 임계값 결정부는, 상기 하나 이상의 인코더 레이어에 의해 추출된 상기 특징값을 이용한 적응적 학습을 통해 상기 임계값을 결정하도록 더 구성된 단일 영상 깊이 추정 시스템.
3. The method of claim 2,
The depth estimation network includes one or more encoder layers for extracting feature values from an image and one or more decoder layers configured to convert the feature values into depth information,
The single image depth estimation system further configured to determine the threshold value through adaptive learning using the feature value extracted by the one or more encoder layers, wherein the threshold value determination unit is configured to determine the threshold value.
상기 임계값 결정부는, 상기 신뢰도 정보 및 상기 임계값을 이용하여 정의되는 차등 소프트-임계화 함수에 의하여 임계화된 신뢰도 정보를 생성하도록 더 구성된 단일 영상 깊이 추정 시스템.
According to claim 1,
The threshold value determining unit is further configured to generate the reliability information thresholded by a differential soft-thresholding function defined using the reliability information and the threshold value.
상기 임계값 결정부는, 상기 임계화된 신뢰도 정보 및 기준 신뢰도 정보에 의해 정의되는 손실 함수를 이용하여 임계값 네트워크를 학습시킴으로써 상기 임계값을 결정하도록 더 구성된 단일 영상 깊이 추정 시스템.
5. The method of claim 4,
The threshold value determining unit is further configured to determine the threshold value by learning a threshold value network using a loss function defined by the thresholded reliability information and the reference reliability information.
상기 깊이 추정부는, 상기 임계화된 신뢰도 정보 및 상기 의사 깊이 정보를 이용하여 정의되는 회귀 손실 함수에 의하여 깊이 추정 네트워크를 학습시키도록 더 구성된 단일 영상 깊이 추정 시스템.
6. The method of claim 5,
The depth estimation unit is further configured to train the depth estimation network using a regression loss function defined using the thresholded reliability information and the pseudo depth information.
상기 단일 영상 깊이 추정 시스템이 상기 의사 깊이 정보에 대한 신뢰도 정보를 산출하는 단계;
상기 단일 영상 깊이 추정 시스템이 상기 신뢰도 정보를 이용한 학습을 통하여 상기 의사 깊이 정보의 일부를 필터링하기 위한 신뢰도의 임계값을 결정하는 단계; 및
단일 영상 깊이 추정 시스템이, 상기 임계값에 의해 필터링된 상기 의사 깊이 정보를 이용하여 단일 영상에 대한 깊이 추정 모델을 생성하는 단계를 포함하는 단일 영상 깊이 추정 방법.
calculating, by a single image depth estimation system, pseudo-depth information for an input image;
calculating, by the single image depth estimation system, reliability information for the pseudo depth information;
determining, by the single image depth estimation system, a threshold of reliability for filtering a part of the pseudo depth information through learning using the reliability information; and
and generating, by a single image depth estimation system, a depth estimation model for a single image by using the pseudo-depth information filtered by the threshold value.
상기 의사 깊이 정보를 산출하는 단계는, 상기 단일 영상 깊이 추정 시스템이, 미리 저장된 스테레오 매칭 모델을 이용하여 상기 입력 이미지로부터 상기 의사 깊이 정보를 산출하는 단계를 포함하는 단일 영상 깊이 추정 방법.
8. The method of claim 7,
The calculating of the pseudo-depth information includes calculating, by the single-image depth estimation system, the pseudo-depth information from the input image using a pre-stored stereo matching model.
상기 깊이 추정 모델을 생성하는 단계는, 상기 단일 영상 깊이 추정 시스템이, 상기 임계값에 의해 필터링된 상기 의사 깊이 정보를 이용하여 깊이 추정 네트워크를 학습시키는 단계를 포함하는 단일 영상 깊이 추정 방법.
8. The method of claim 7,
The generating of the depth estimation model includes, by the single-image depth estimation system, training a depth estimation network using the pseudo-depth information filtered by the threshold value.
상기 깊이 추정 네트워크는, 이미지로부터 특징값을 추출하기 위한 하나 이상의 인코더 레이어 및 상기 특징값을 깊이 정보로 변환하도록 구성된 하나 이상의 디코더 레이어를 포함하며,
상기 임계값을 산출하는 단계는, 상기 단일 영상 깊이 추정 시스템이, 상기 하나 이상의 인코더 레이어에 의해 추출된 상기 특징값을 이용한 적응적 학습을 통해 상기 임계값을 결정하는 단계를 포함하는 단일 영상 깊이 추정 방법.
10. The method of claim 9,
The depth estimation network includes one or more encoder layers for extracting feature values from an image and one or more decoder layers configured to convert the feature values into depth information,
The calculating of the threshold value includes determining, by the single image depth estimation system, the threshold value through adaptive learning using the feature values extracted by the one or more encoder layers. Way.
상기 임계값을 산출하는 단계는, 상기 단일 영상 깊이 추정 시스템이, 상기 신뢰도 정보 및 상기 임계값을 이용하여 정의되는 차등 소프트-임계화 함수에 의하여 임계화된 신뢰도 정보를 생성하는 단계를 포함하는 단일 영상 깊이 추정 방법.
8. The method of claim 7,
The step of calculating the threshold value includes, by the single image depth estimation system, generating reliability information thresholded by a differential soft-thresholding function defined using the reliability information and the threshold value. Image depth estimation method.
상기 임계값을 산출하는 단계는, 상기 단일 영상 깊이 추정 시스템이, 상기 임계화된 신뢰도 정보 및 기준 신뢰도 정보에 의해 정의되는 손실 함수를 이용하여 임계값 네트워크를 학습시키는 단계를 더 포함하는 단일 영상 깊이 추정 방법.
12. The method of claim 11,
Calculating the threshold may include, by the single image depth estimation system, learning a threshold network using a loss function defined by the thresholded reliability information and the reference reliability information. Estimation method.
상기 깊이 추정 모델을 생성하는 단계는, 상기 단일 영상 깊이 추정 시스템이, 상기 임계화된 신뢰도 정보 및 상기 의사 깊이 정보를 이용하여 정의되는 회귀 손실 함수에 의하여 깊이 추정 네트워크를 학습시키는 단계를 포함하는 단일 영상 깊이 추정 방법.
13. The method of claim 12,
The generating of the depth estimation model may include training, by the single image depth estimation system, a depth estimation network using a regression loss function defined using the thresholded reliability information and the pseudo depth information. Image depth estimation method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200168582A KR102526415B1 (en) | 2020-12-04 | 2020-12-04 | System and method for semi-supervised single image depth estimation and computer program for the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200168582A KR102526415B1 (en) | 2020-12-04 | 2020-12-04 | System and method for semi-supervised single image depth estimation and computer program for the same |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220079125A true KR20220079125A (en) | 2022-06-13 |
KR102526415B1 KR102526415B1 (en) | 2023-04-28 |
Family
ID=81983879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200168582A KR102526415B1 (en) | 2020-12-04 | 2020-12-04 | System and method for semi-supervised single image depth estimation and computer program for the same |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102526415B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102607748B1 (en) * | 2022-07-19 | 2023-11-29 | 중앙대학교 산학협력단 | Apparatus and method for image analysis applying multi-task adaptation |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160071547A (en) * | 2014-12-11 | 2016-06-22 | 주식회사 탑 엔지니어링 | System and method for detecting dynamic object |
KR20170082794A (en) | 2016-01-07 | 2017-07-17 | 삼성전자주식회사 | Method and apparatus for estimating depth, and method and apparatus for learning distance estimator |
KR101795952B1 (en) * | 2016-07-20 | 2017-11-09 | 연세대학교 산학협력단 | Method and device for generating depth image of 2d image |
KR102089720B1 (en) * | 2018-10-16 | 2020-03-16 | 주식회사 파코웨어 | Method and system for generating play block depth map using single image and deep neural network |
-
2020
- 2020-12-04 KR KR1020200168582A patent/KR102526415B1/en active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160071547A (en) * | 2014-12-11 | 2016-06-22 | 주식회사 탑 엔지니어링 | System and method for detecting dynamic object |
KR20170082794A (en) | 2016-01-07 | 2017-07-17 | 삼성전자주식회사 | Method and apparatus for estimating depth, and method and apparatus for learning distance estimator |
KR101795952B1 (en) * | 2016-07-20 | 2017-11-09 | 연세대학교 산학협력단 | Method and device for generating depth image of 2d image |
KR102089720B1 (en) * | 2018-10-16 | 2020-03-16 | 주식회사 파코웨어 | Method and system for generating play block depth map using single image and deep neural network |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102607748B1 (en) * | 2022-07-19 | 2023-11-29 | 중앙대학교 산학협력단 | Apparatus and method for image analysis applying multi-task adaptation |
Also Published As
Publication number | Publication date |
---|---|
KR102526415B1 (en) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220254146A1 (en) | Method for filtering image feature points and terminal | |
US20220261659A1 (en) | Method and Apparatus for Determining Neural Network | |
WO2022105125A1 (en) | Image segmentation method and apparatus, computer device, and storage medium | |
EP3872760A2 (en) | Method and apparatus of training depth estimation network, and method and apparatus of estimating depth of image | |
JP2008542911A (en) | Image comparison by metric embedding | |
CN113221925B (en) | Target detection method and device based on multi-scale image | |
CN111696196B (en) | Three-dimensional face model reconstruction method and device | |
CN110674673A (en) | Key video frame extraction method, device and storage medium | |
CN114820871B (en) | Font generation method, model training method, device, equipment and medium | |
CN114998595B (en) | Weak supervision semantic segmentation method, semantic segmentation method and readable storage medium | |
US20230104262A1 (en) | Panoptic segmentation refinement network | |
CN116363261A (en) | Training method of image editing model, image editing method and device | |
CN115115829A (en) | Medical image segmentation method, device, equipment, storage medium and program product | |
CN116403083A (en) | Image processing method and device, electronic equipment and storage medium | |
CN112668608A (en) | Image identification method and device, electronic equipment and storage medium | |
CN116452810A (en) | Multi-level semantic segmentation method and device, electronic equipment and storage medium | |
KR102526415B1 (en) | System and method for semi-supervised single image depth estimation and computer program for the same | |
CN108734718B (en) | Processing method, device, storage medium and equipment for image segmentation | |
JP7294275B2 (en) | Image processing device, image processing program and image processing method | |
CN116363429A (en) | Training method of image recognition model, image recognition method, device and equipment | |
Chen et al. | Image denoising via generative adversarial networks with detail loss | |
CN113537359A (en) | Training data generation method and device, computer readable medium and electronic equipment | |
CN113963166A (en) | Training method and device of feature extraction model and electronic equipment | |
CN113744158A (en) | Image generation method and device, electronic equipment and storage medium | |
CN114708471B (en) | Cross-modal image generation method and device, electronic equipment and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |