KR102653972B1 - 그래디언트 부스팅 네트워크를 이용한 단안 영상 기반 깊이 추정 방법 및 장치 - Google Patents

그래디언트 부스팅 네트워크를 이용한 단안 영상 기반 깊이 추정 방법 및 장치 Download PDF

Info

Publication number
KR102653972B1
KR102653972B1 KR1020210132328A KR20210132328A KR102653972B1 KR 102653972 B1 KR102653972 B1 KR 102653972B1 KR 1020210132328 A KR1020210132328 A KR 1020210132328A KR 20210132328 A KR20210132328 A KR 20210132328A KR 102653972 B1 KR102653972 B1 KR 102653972B1
Authority
KR
South Korea
Prior art keywords
target image
depth
depth map
image
estimation
Prior art date
Application number
KR1020210132328A
Other languages
English (en)
Other versions
KR20230049328A (ko
Inventor
최유경
한대찬
Original Assignee
세종대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 세종대학교산학협력단 filed Critical 세종대학교산학협력단
Priority to KR1020210132328A priority Critical patent/KR102653972B1/ko
Publication of KR20230049328A publication Critical patent/KR20230049328A/ko
Application granted granted Critical
Publication of KR102653972B1 publication Critical patent/KR102653972B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/89Lidar systems specially adapted for specific applications for mapping or imaging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Electromagnetism (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 그래디언트 부스팅 네트워크를 이용한 단안 영상 기반 깊이 추정 방법 및 장치를 개시한다. 본 발명에 따르면, 프로세서 및 상기 프로세서에 연결되는 메모리를 포함하되, 상기 메모리는, 깊이 맵 추정을 위해 순차적으로 연결되는 n개의 단일 네트워크를 포함하는 단안 영상 기반 깊이 추정 모델에 제1 시점의 제1 타겟 영상을 입력하여 상기 n개의 단일 네트워크 각각이 상기 제1 타겟 영상으로부터 순차적으로 출력하는 깊이 맵을 통해 최종 깊이 맵을 획득하고, 에고 모션 추정기를 통해 상기 제1 타겟 영상, 상기 제1 시점에 인접한 제2 시점의 제2 타겟 영상 및 상기 최종 깊이 맵을 이용하여 상기 제1 타겟 영상에 대응하는 합성 타겟 영상을 생성하고, 상기 합성 타겟 영상과 상기 제1 타겟 영상 간의 차이를 계산하여 상기 최종 깊이 맵의 추정을 반복적으로 수행하도록, 상기 프로세서에 의해 실행되는 프로그램 명령어들을 저장하는 단안 영상 기반 깊이 추정 장치가 제공된다.

Description

그래디언트 부스팅 네트워크를 이용한 단안 영상 기반 깊이 추정 방법 및 장치{Method and apparatus for monocular image-based depth estimation using gradient boosting network}
본 발명은 그래디언트 부스팅 네트워크를 이용한 단안 영상 기반 깊이 추정 방법 및 장치에 관한 것이다.
단일 영상에서의 깊이 추정(단안 영상 깊이 추정)은 주어진 시점에서 하나의 카메라를 통해 촬영된 2차원 영상으로부터 객체까지의 3차원 거리 정보를 추정하는 것이다.
즉, 단안 영상 깊이 추정의 목표는 각 장면 요소가 카메라에서 얼마나 멀리 떨어져 있는지에 대한 픽셀 단위 추정을 위한 깊이 맵을 생성하는 것이다.
LiDAR) 또는 스테레오 카메라 시스템을 통해 직간접적으로 깊이를 추정할 수 있지만 단안 카메라는 저렴하고 많이 사용되고 있기 때문에 단안 영상 기반 깊이 추정에 대한 다양한 연구가 진행되고 있다.
최근 딥러닝 기반으로 단안 RGB 영상에서 깊이 정보 추정에 유용한 특징 맵을 추출하고 이를 이용해서 깊이를 추정하는 모델들이 기존 방법들의 성능을 넘어서면서 관련된 연구가 활발히 진행되고 있다.
그러나, 기존 자가 지도 학습 및 준 지도 학습기반 단안 영상 깊이 추정의 경우 단일 딥러닝 네트워크만을 사용해 예측을 하고 있다.
따라서 하나의 딥러닝 네트워크에 의존해서 보정되지 못한 깊이 정보만을 이용해야 한다는 문제를 가지고 있다.
대한민국공개특허공보 10-2021-0084365
상기한 종래기술의 문제점을 해결하기 위해, 본 발명은 단일 딥러닝 네트워크에서 추정된 깊이 영상을 보완하고 보정하여 더욱 정교한 깊이 추정을 할 수 있는 그래디언트 부스팅 네트워크를 이용한 단안 영상 기반 깊이 추정 방법 및 장치를 제안하고자 한다.
상기한 바와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따르면, 그래디언트 부스팅 네트워크를 이용한 단안 영상 기반 깊이 추정 장치로서, 프로세서; 및 상기 프로세서에 연결되는 메모리를 포함하되, 상기 메모리는, 깊이 맵 추정을 위해 순차적으로 연결되는 n개의 단일 네트워크를 포함하는 단안 영상 기반 깊이 추정 모델에 제1 시점의 제1 타겟 영상을 입력하여 상기 n개의 단일 네트워크 각각이 상기 제1 타겟 영상으로부터 순차적으로 출력하는 깊이 맵을 통해 최종 깊이 맵을 획득하고, 에고 모션 추정기를 통해 상기 제1 타겟 영상, 상기 제1 시점에 인접한 제2 시점의 제2 타겟 영상 및 상기 최종 깊이 맵을 이용하여 상기 제1 타겟 영상에 대응하는 합성 타겟 영상을 생성하고, 상기 합성 타겟 영상과 상기 제1 타겟 영상 간의 차이를 계산하여 상기 최종 깊이 맵의 추정을 반복적으로 수행하도록, 상기 프로세서에 의해 실행되는 프로그램 명령어들을 저장하는 단안 영상 기반 깊이 추정 장치가 제공된다.
상기 n개의 단일 네트워크는 인코더-디코더 신경망으로 구성되는 PackNet일 수 있다.
상기 프로그램 명령어들은, 상기 n개의 단일 네트워크 중 첫 번째 단일 네트워크는 상기 제1 타겟 영상을 입력으로 하여 제1 깊이 맵을 추정하고, 나머지 n-1개의 단일 네트워크 각각은 이전 단일 네트워크에서 추정된 깊이 맵을 입력으로 하여 깊이 맵을 추정하고, 상기 n개의 단일 네트워크가 출력하는 n개의 깊이 맵에 서로 다른 가중치를 적용하여 최종 깊이 맵을 추정할 수 있다.
상기 제1 깊이 맵에 가장 큰 가중치가 부여되고, 상기 나머지 n-1개의 단일 네트워크 각각이 추정하는 깊이 맵에 대해 순차적으로 작은 가중치가 부여될 수 있다.
상기 합성 타겟 영상과 상기 제1 타겟 영상 간의 차이는 상기 합성 타겟 영상 및 상기 제1 타겟 영상의 픽셀 수준의 유사도를 높이기 위한 L1 거리 및 구조적 유사성(Structural Similarity, SSIM)의 조합으로 구성되는 외관 일치 손실로 정의될 수 있다.
상기 최종 깊이 맵에 대해 상기 제1 타겟 영상에 대한 LiDAR 데이터를 이용하여 준 지도 학습이 수행될 수 있다.
본 발명의 다른 측면에 따르면, 프로세서 및 메모리를 포함하는 장치에서 단안 영상 기반으로 깊이를 추정하는 방법으로서, 깊이 맵 추정을 위해 순차적으로 연결되는 n개의 단일 네트워크를 포함하는 단안 영상 기반 깊이 추정 모델에 제1 시점의 제1 타겟 영상을 입력하여 상기 n개의 단일 네트워크 각각이 상기 제1 타겟 영상으로부터 순차적으로 출력하는 깊이 맵을 통해 최종 깊이 맵을 획득하는 단계; 에고 모션 추정기를 통해 상기 제1 타겟 영상, 상기 제1 시점에 인접한 제2 시점의 제2 타겟 영상 및 상기 최종 깊이 맵을 이용하여 상기 제1 타겟 영상에 대응하는 합성 타겟 영상을 생성하는 단계; 및 상기 합성 타겟 영상과 상기 제1 타겟 영상 간의 차이를 계산하여 상기 최종 깊이 맵의 추정을 반복적으로 수행하는 단계를 포함하는 단안 영상 기반 깊이 추정 방법이 제공된다.
본 발명의 또 다른 측면에 따르면, 상기한 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체가 제공된다.
본 발명에 따르면, 개별적으로 깊이를 추정하는 n개의 단일 네트워크를 통과할때마다 점진적으로 깊이 오차를 감소시켜 정확한 깊이 추정이 가능한 장점이 있다.
도 1은 본 발명의 바람직한 일 실시예에 따른 단안 영상 기반 깊이 추정을 위한 전체 네트워크를 도시한 도면이다.
도 2는 본 실시예에 따른 GBNet의 상세 구성을 도시한 도면이다.
도 3은 본 발명의 바람직한 일 실시예에 따른 단안 영상 기반 깊이 추정 장치를 도시한 도면이다.
도 4는 DDAD 데이터셋에 대한 자가 및 준 지도 학습을 통한 감독 단안 영상 기반 깊이 추정의 성능을 나타낸 것이다.
도 5는 본 실시예에 따른 깊이 추정을 위한 단일 네트워크의 효과를 나타낸 것이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 실시예에서는 단일 딥러닝 네트워크에 예측된 깊이 맵을 점진적으로 보완하여 정확한 깊이 추정이 가능한 아키텍쳐를 제안한다.
본 실시예에 따른 네트워크는 PackNet을 기반으로 하며, 그래디언트 부스팅(Gradient Boosting) 기법을 적용하여 단일 네트워크인 PackNet를 반복적으로 사용하여 각 PackNet의 출력을 보정하여 노이즈를 제거하고 더욱 선명하게 깊이 맵을 추정한다.
도 1은 본 발명의 바람직한 일 실시예에 따른 단안 영상 기반 깊이 추정을 위한 전체 네트워크를 도시한 도면이다.
도 1에 도시된 바와 같이, 본 실시예에 따른 단안 영상 기반 깊이 추정을 위한 네트워크는 타겟 영상(It)으로부터 깊이를 추정하는 단안 깊이 추정 모델(100) 및 It의 포즈에 대해, 각 소스 영상 It+1 ∈ [It; It+1]의 개별 포즈 et→t'를 추정하는 에고 모션(ego motion) 추정기(PoseNet, 102)를 포함할 수 있다.
단안 깊이 추정 모델(100)은 순차적으로 연결되는 n개의 단일 네트워크를 포함하며, 제1 시점의 제1 타겟 영상(It)으로부터 n개의 단일 네트워크가 순차적으로 출력하는 깊이 맵을 통해 최종 깊이 맵 를 출력한다.
본 실시예에 따른 단안 영상 기반 깊이 추정은 조밀한 깊이 맵을 사용하지 않는 자가/준(self-/semi-) 지도 학습 방법을 이용한다.
본 실시예에 따른 단안 깊이 추정 모델(100)은 깊이 추정을 위해 순차적으로 연결되는 n개의 단일 네트워크를 포함하는 깊이 맵의 오차를 순차적으로 감소시킨다는 점에서 그래디언트 부스팅 네트워크(GBNet)으로 정의된다.
도 2는 본 실시예에 따른 GBNet의 상세 구성을 도시한 도면이다.
도 2를 참조하면, 본 실시예에 따른 GBNet은 n개의 단일 네트워크 Pi를 통과할때마다 점진적으로 깊이 오차가 감소하는 구조를 가진다.
본 실시예에 따른 단일 네트워크는 PackNet일 수 있다.
PackNet은 새로운 패킹(packing) 및 언패킹 블록을 활용하여 중요한 공간 세부 정보를 보존하는 방법을 학습하여 고품질 깊이 예측으로 이어지는 인코더-디코더 신경망이다.
도 2를 참조하면, 첫 번째 제1 단일 네트워크 P1(200-1)는 제1 시점(t)의 타겟 영상 It를 입력으로 하고, 나머지 n-1개의 단일 네트워크 Pi(200-2 내지 200-n)는 이전 단일 네트워크의 출력 를 입력으로 한다.
모든 영상의 풍부한 정보를 활용하고 상호 보완적인 관계를 만들기 위해 최종 깊이 맵 를 다음과 같이 추정한다.
여기서,
Figure 112021114545311-pat00005
는 각 단일 네트워크의 영향을 조정하여 보다 정교한 깊이 맵의 효과를 증가시키기 위한 가중치이며, i가 작을수록 큰 값을 가질 수 있다.
이하에서는 본 실시예에 따른 단안 영상 깊이 추정 네트워크의 자가 지도 학습 과정을 설명한다.
상기한 바와 같이, GBNet(100)을 통해 단안 영상 기반 깊이 추정이 얻어진 후 깊이 및 포즈 모델(에고 모션 추정기)의 동시 학습이 수행된다.
본 실시예에 따르면, 제1 시점(t)의 제1 타겟 영상, 제1 시점에 인접한 제2 시점(t+1)의 제2 타겟 영상 및 상기한 최종 깊이 맵을 이용하여 제1 타겟 영상에 대응되는 합성 타겟 영상()을 생성하고, 합성 타겟 영상과 상기 제1 타겟 영상의 차이가 최소가 되도록 최종 깊이 맵의 추정을 반복적으로 수행된다.
이와 같은 과정이 자가 지도 학습으로 정의될 수 있다.
합성 타겟 영상과 제1 타겟 영상 간의 차이는 합성 타겟 영상 및 제1 타겟 영상의 픽셀 수준의 유사도를 높이기 위한 L1 거리 및 구조적 유사성(Structural Similarity, SSIM)의 조합으로 구성되는 외관 일치 손실(appearance matching loss)로 정의될 수 있다.
수학식 2는 일반적으로 자가 지도를 위한 강건한 학습 방법이다.
본 실시예에 따른 자가 지도 학습 제약 조건은 합성 타겟 영상 과 타겟 영상 및 깊이 평활도 손실(Depth Smoothness Loss) 항 가 추정된 깊이 를 국소적으로 부드러워지도록 하기 위한 외관 일치 손실(appearance matching loss) 항 로 구성된다.
그러나 장면에서의 시차 오차로 인해 시야를 벗어나고 가려진 픽셀이 생성되며, 이는 학습에 바람직하지 않은 영향을 미친다.
픽셀당 최소 재투사 손실을 이용하여 시야를 벗어난 픽셀 및 가려진 픽셀 문제를 완화할 수 있다. 이는 각 소스 영상 에 대한 픽셀당 최소 손실을 계산하여 바람직하지 않은 문제를 완화한다.
이는 동일한 픽셀이 시야를 벗어나 합성 타겟 영상 에 가려지지 않음을 의미한다.
또한, 본 실시예에서는 자동 마스킹 정적 픽셀 기법(auto-masking static pixels method)을 적용한다.
정적 픽셀로 인해 약간의 일치 손실이 있고 프레임 사이에 에고 모션이 없다고 가정할 때 무한한 깊이 홀을 만들 수 있으므로 자동 마스킹을 사용하여 정적 픽셀을 무시한다.
본 실시예에서는 마스크를 생성하기 위해 보다 더 높은 를 갖는 픽셀을 탐색한다.
깊이 평활도 손실(Depth Smoothness Loss)은 텍스처가 없는 낮은 영상 그래디언트 영역에서 깊이 불연속성에 패널티를 부여하고, 제약 조건에 깊이 평활도를 적용한다.
프로세스 전반에 걸친 자가 지도 손실은 다음과 같다.
여기서, 는 요소별 곱을 나타낸다.
도 1에 도시된 바와 같이, 본 실시예에서는 네트워크에 정확한 깊이 정보를 제공하기 위해 LiDAR 데이터 Z를 이용한 준 지도 학습을 사용한다.
자가 지도 목표보다 더 자세한 추정을 유도하기 위해 희소 깊이 정보를 포함하는 LiDAR 데이터 Z는 지도 손실의 정답(ground truth)이다. 지도 학습의 제약 조건은 픽셀에서 사용 가능한 정답으로부터 추론된 깊이 맵의 편차를 측정한다.
지도 및 준 지도 목표를 포함하는 전체 준 지도 손실 함수는 다음과 같다.
도 3은 본 발명의 바람직한 일 실시예에 따른 단안 영상 기반 깊이 추정 장치를 도시한 도면이다.
도 3에 도시된 바와 같이, 본 실시예에 따른 장치는 프로세서(300) 및 메모리(302)를 포함할 수 있다.
프로세서(300)는 컴퓨터 프로그램을 실행할 수 있는 CPU(central processing unit)나 그 밖에 가상 머신 등을 포함할 수 있다.
메모리(302)는 고정식 하드 드라이브나 착탈식 저장 장치와 같은 불휘발성 저장 장치를 포함할 수 있다. 착탈식 저장 장치는 콤팩트 플래시 유닛, USB 메모리 스틱 등을 포함할 수 있다. 메모리(302)는 각종 랜덤 액세스 메모리와 같은 휘발성 메모리도 포함할 수 있다.
본 발명의 일 실시예에 따르면, 메모리(302)에는 복수의 단일 네트워크를 이용하여 단안 영상 기반 깊이 추정을 위한 프로그램 명령어들이 저장된다.
본 실시예에 따른 프로그램 명령어들은, 깊이 맵 추정을 위해 순차적으로 연결되는 n개의 단일 네트워크를 포함하는 단안 영상 기반 깊이 추정 모델에 제1 시점의 제1 타겟 영상을 입력하여 상기 n개의 단일 네트워크 각각이 상기 제1 타겟 영상으로부터 순차적으로 출력하는 깊이 맵을 통해 최종 깊이 맵을 획득하고, 에고 모션 추정기를 통해 상기 제1 타겟 영상, 상기 제1 시점에 인접한 제2 시점의 제2 타겟 영상 및 상기 최종 깊이 맵을 이용하여 상기 제1 타겟 영상에 대응하는 합성 타겟 영상을 생성하고, 상기 합성 타겟 영상과 상기 제1 타겟 영상 간의 차이를 계산하여 상기 최종 깊이 맵의 추정을 반복적으로 수행한다.
여기서, n개의 단일 네트워크의 깊이 맵 추정 과정 및 가중치에 설정에 대한 내용은 이미 상술하였으므로 이에 대한 상세한 설명은 생략한다.
도 4는 DDAD 데이터셋에 대한 자가 및 준 지도 학습을 통한 감독 단안 영상 기반 깊이 추정의 성능을 나타낸 것이다.
도 4에 나타난 바와 같이, 기존 PackNet에 비해 본 실시예에 따른 GBNet을 이용하는 경우 깊이 추정의 정확도가 높아지는 것을 확인할 수 있다.
도 5는 본 실시예에 따른 깊이 추정을 위한 단일 네트워크의 효과를 나타낸 것이다.
도 5는 깊이 추정을 위한 3개의 단일 네트워크를 순차적으로 연결한 경우를 나타낸 것으로, 여러 개의 단일 네트워크를 순차적으로 연결하여 깊이 추정의 정확도가 높아지는 것을 확인할 수 있다.
상기한 본 발명의 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대한 통상의 지식을 가지는 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.

Claims (8)

  1. 그래디언트 부스팅 네트워크를 이용한 단안 영상 기반 깊이 추정 장치로서,
    프로세서; 및
    상기 프로세서에 연결되는 메모리를 포함하되,
    상기 메모리는,
    깊이 맵 추정을 위해 순차적으로 연결되는 n개의 단일 네트워크를 포함하는 단안 영상 기반 깊이 추정 모델에 제1 시점의 제1 타겟 영상을 입력하여 상기 n개의 단일 네트워크 각각이 상기 제1 타겟 영상으로부터 순차적으로 출력하는 깊이 맵을 통해 최종 깊이 맵을 획득하고,
    에고 모션 추정기를 통해 상기 제1 타겟 영상, 상기 제1 시점에 인접한 제2 시점의 제2 타겟 영상 및 상기 최종 깊이 맵을 이용하여 상기 제1 타겟 영상에 대응하는 합성 타겟 영상을 생성하고,
    상기 합성 타겟 영상과 상기 제1 타겟 영상 간의 차이를 계산하여 상기 최종 깊이 맵의 추정을 반복적으로 수행하도록,
    상기 프로세서에 의해 실행되는 프로그램 명령어들을 저장하되,
    상기 n개의 단일 네트워크 중 첫 번째 단일 네트워크는 상기 제1 타겟 영상을 입력으로 하여 제1 깊이 맵을 추정하고, 나머지 n-1개의 단일 네트워크 각각은 이전 단일 네트워크에서 추정된 깊이 맵을 입력으로 하여 깊이 맵을 추정하고, 상기 n개의 단일 네트워크가 출력하는 n개의 깊이 맵에 서로 다른 가중치를 적용하여 최종 깊이 맵을 추정하고,
    상기 제1 깊이 맵에 가장 큰 가중치가 부여되고, 상기 나머지 n-1개의 단일 네트워크 각각이 추정하는 깊이 맵에 대해 순차적으로 작은 가중치가 부여되는 단안 영상 기반 깊이 추정 장치.
  2. 제1항에 있어서,
    상기 n개의 단일 네트워크는 인코더-디코더 신경망으로 구성되는 PackNet인 단안 영상 기반 깊이 추정 장치.
  3. 삭제
  4. 삭제
  5. 제1항에 있어서,
    상기 합성 타겟 영상과 상기 제1 타겟 영상 간의 차이는 상기 합성 타겟 영상 및 상기 제1 타겟 영상의 픽셀 수준의 유사도를 높이기 위한 L1 거리 및 구조적 유사성(Structural Similarity, SSIM)의 조합으로 구성되는 외관 일치 손실로 정의되는 단안 영상 기반 깊이 추정 장치.
  6. 제1항에 있어서,
    상기 최종 깊이 맵에 대해 상기 제1 타겟 영상에 대한 LiDAR 데이터를 이용하여 준 지도 학습이 수행되는 단안 영상 기반 깊이 추정 장치.
  7. 프로세서 및 메모리를 포함하는 장치에서 단안 영상 기반으로 깊이를 추정하는 방법으로서,
    깊이 맵 추정을 위해 순차적으로 연결되는 n개의 단일 네트워크를 포함하는 단안 영상 기반 깊이 추정 모델에 제1 시점의 제1 타겟 영상을 입력하여 상기 n개의 단일 네트워크 각각이 상기 제1 타겟 영상으로부터 순차적으로 출력하는 깊이 맵을 통해 최종 깊이 맵을 획득하는 단계;
    에고 모션 추정기를 통해 상기 제1 타겟 영상, 상기 제1 시점에 인접한 제2 시점의 제2 타겟 영상 및 상기 최종 깊이 맵을 이용하여 상기 제1 타겟 영상에 대응하는 합성 타겟 영상을 생성하는 단계; 및
    상기 합성 타겟 영상과 상기 제1 타겟 영상 간의 차이를 계산하여 상기 최종 깊이 맵의 추정을 반복적으로 수행하는 단계를 포함하되,
    상기 n개의 단일 네트워크 중 첫 번째 단일 네트워크는 상기 제1 타겟 영상을 입력으로 하여 제1 깊이 맵을 추정하고, 나머지 n-1개의 단일 네트워크 각각은 이전 단일 네트워크에서 추정된 깊이 맵을 입력으로 하여 깊이 맵을 추정하고, 상기 n개의 단일 네트워크가 출력하는 n개의 깊이 맵에 서로 다른 가중치를 적용하여 최종 깊이 맵을 추정하고,
    상기 제1 깊이 맵에 가장 큰 가중치가 부여되고, 상기 나머지 n-1개의 단일 네트워크 각각이 추정하는 깊이 맵에 대해 순차적으로 작은 가중치가 부여되는 단안 영상 기반 깊이 추정 방법.
  8. 제7항에 따른 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체.
KR1020210132328A 2021-10-06 2021-10-06 그래디언트 부스팅 네트워크를 이용한 단안 영상 기반 깊이 추정 방법 및 장치 KR102653972B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210132328A KR102653972B1 (ko) 2021-10-06 2021-10-06 그래디언트 부스팅 네트워크를 이용한 단안 영상 기반 깊이 추정 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210132328A KR102653972B1 (ko) 2021-10-06 2021-10-06 그래디언트 부스팅 네트워크를 이용한 단안 영상 기반 깊이 추정 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20230049328A KR20230049328A (ko) 2023-04-13
KR102653972B1 true KR102653972B1 (ko) 2024-04-02

Family

ID=85978749

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210132328A KR102653972B1 (ko) 2021-10-06 2021-10-06 그래디언트 부스팅 네트워크를 이용한 단안 영상 기반 깊이 추정 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102653972B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200272838A1 (en) 2019-02-27 2020-08-27 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for determining a lane change of a preceding vehicle
US20210237764A1 (en) 2020-01-31 2021-08-05 Toyota Research Institute, Inc. Self-supervised 3d keypoint learning for ego-motion estimation

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111566441B (zh) * 2018-04-18 2022-08-09 移动眼视力科技有限公司 利用相机进行车辆环境建模
CN112752148A (zh) 2020-12-28 2021-05-04 北京百度网讯科技有限公司 视频起播的优化方法、装置、设备以及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200272838A1 (en) 2019-02-27 2020-08-27 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for determining a lane change of a preceding vehicle
US20210237764A1 (en) 2020-01-31 2021-08-05 Toyota Research Institute, Inc. Self-supervised 3d keypoint learning for ego-motion estimation

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Guizilini, Vitor, et al. (2020). "3d packing for self-supervised monocular depth estimation." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition.*
Han, Daechan, and Yukyung Choi. (2021.10.12). "GBNet: Gradient Boosting Network for Monocular Depth Estimation." 2021 21st International Conference on Control, Automation and Systems (ICCAS). IEEE.

Also Published As

Publication number Publication date
KR20230049328A (ko) 2023-04-13

Similar Documents

Publication Publication Date Title
KR102302725B1 (ko) 룸 레이아웃 추정 방법들 및 기술들
CN108335322B (zh) 深度估计方法和装置、电子设备、程序和介质
JP7403528B2 (ja) シーンの色及び深度の情報を再構成するための方法及びシステム
JP6393058B2 (ja) 情報処理装置、情報処理方法
EP3465611B1 (en) Apparatus and method for performing 3d estimation based on locally determined 3d information hypotheses
CN111696196B (zh) 一种三维人脸模型重建方法及装置
JP6946255B2 (ja) 学習装置、推定装置、学習方法およびプログラム
CN110610486A (zh) 单目图像深度估计方法及装置
JP7452698B2 (ja) 画像間の空間的関係をラベリングする強化学習モデル
CN114556422A (zh) 来自双相机与双像素的联合深度预测
US11875490B2 (en) Method and apparatus for stitching images
BR102020027013A2 (pt) Método para gerar uma imagem multiplano adaptativa a partir de uma única imagem de alta resolução
Lu et al. Deep unsupervised learning for simultaneous visual odometry and depth estimation
CN112648994A (zh) 基于深度视觉里程计和imu的相机位姿估计方法及装置
KR102013649B1 (ko) 스테레오 정합을 위한 영상처리 방법 및 이를 이용하는 프로그램
US20140161347A1 (en) Method and apparatus for color transfer between images
Wei et al. A data-driven regularization model for stereo and flow
KR102653972B1 (ko) 그래디언트 부스팅 네트워크를 이용한 단안 영상 기반 깊이 추정 방법 및 장치
GB2572435A (en) Manipulating a face in an image
Chen et al. Consistency guided scene flow estimation
US20230145498A1 (en) Image reprojection and multi-image inpainting based on geometric depth parameters
US11908070B2 (en) Dynamic three-dimensional imaging method
JP2014149788A (ja) 物体領域境界推定装置、物体領域境界推定方法及び物体領域境界推定プログラム
US10803606B2 (en) Temporally consistent belief propagation system and method
US11809997B2 (en) Action recognition apparatus, action recognition method, and computer-readable recording medium

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant