KR20230038120A - 단일 카메라를 사용하는 깊이 추정 장치 및 깊이 추정 방법 - Google Patents

단일 카메라를 사용하는 깊이 추정 장치 및 깊이 추정 방법 Download PDF

Info

Publication number
KR20230038120A
KR20230038120A KR1020220114235A KR20220114235A KR20230038120A KR 20230038120 A KR20230038120 A KR 20230038120A KR 1020220114235 A KR1020220114235 A KR 1020220114235A KR 20220114235 A KR20220114235 A KR 20220114235A KR 20230038120 A KR20230038120 A KR 20230038120A
Authority
KR
South Korea
Prior art keywords
difference map
image
generating
difference
neural network
Prior art date
Application number
KR1020220114235A
Other languages
English (en)
Inventor
임란 사드
우마르 카림 칸 무하마드
빈 무카람 시칸데르
경종민
Original Assignee
에스케이하이닉스 주식회사
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이하이닉스 주식회사, 한국과학기술원 filed Critical 에스케이하이닉스 주식회사
Publication of KR20230038120A publication Critical patent/KR20230038120A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • G06T7/596Depth or shape recovery from multiple images from stereo images from three or more stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06T5/004
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • G06T5/75Unsharp masking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

본 기술에 의한 깊이 추정 장치는 하나의 입력 이미지로부터 복수의 베이스라인에 대응하는 복수의 차이맵과 마스크 영역을 표시하는 마스크를 생성하는 차이맵 생성 네트워크; 및 복수의 차이맵 중 하나를 이용하여 깊이맵을 생성하는 깊이 변환 회로를 포함하되, 복수의 차이맵은 제 1 베이스라인에 대응하는 제 1 차이맵과 제 1 베이스라인보다 긴 제 2 베이스라인에 대응하는 제 2 차이맵을 포함한다.

Description

단일 카메라를 사용하는 깊이 추정 장치 및 깊이 추정 방법{MONOCULAR DEPTH ESTIMATION DEVICE AND DEPTH ESTIMATION METHOD}
본 기술은 단일 카메라를 사용하는 깊이 추정 장치 및 깊이 추정 방법에 관한 것이다.
이미지의 깊이 추정 기술은 다양한 활용 가능성 때문에 컴퓨터 비전 분야에서 널리 연구되고 있으며 특히 자율 주행을 위한 핵심적인 기술이다.
최근에는 비용 절감을 위해 지도식 학습보다 자기 지도식 딥러닝 기술을 통해 깊이 추정 성능이 향상되고 있다. 예를 들어, CNN을 학습시켜 기준 이미지로부터 목표 이미지를 재구성하는데 사용하는 차이맵(disparity map)을 생성하고 이를 이용하여 깊이를 추정하고 있다.
이를 위해 단일 카메라에서 취득한 비디오 스트림을 이용하거나 두 개의 카메라에서 취득한 스테레오 이미지를 이용하고 있다.
단일 카메라를 이용한 깊이 추정 기술에서는 단일 카메라에서 취득한 비디오 스트림을 이용하여 신경망을 학습시키고 이를 이용하여 깊이를 추정한다.
그러나 이러한 방식에서는 인접한 프레임 사이의 상대 포즈 정보를 취득하기 위한 신경망과 이에 대한 학습을 추가로 수행해야 하는 문제가 있다.
두 개의 카메라에서 취득한 스테레오 이미지를 이용하여 깊이 추정을 수행할 수 있는데 이 경우 포즈 추정을 위한 학습이 필요하지 않아 비디오 스트림을 이용하는 경우에 비하여 효율적이다.
그러나 베이스라인이 고정된 카메라에서 취득한 스테레오 이미지를 사용하는 경우 차단(occlusion) 영역으로 인한 문제와 함께 깊이 추정 성능이 제한되는 문제가 있다.
예를 들어 베이스라인이 짧은 경우 차단 영역이 작아 이로 인한 오류는 덜 발생하지만 추정 가능한 깊이의 범위가 작아지는 문제가 있다.
또한 베이스라인이 긴 경우 추정 가능한 깊이의 범위는 넓으나 차단 영역이 증가하여 오류가 증가하는 문제가 있다.
이를 해소하기 위하여 다수의 카메라를 사용하여 다양한 베이스라인을 가진 멀티 베이스라인 카메라 시스템을 구축할 수 있으나 이 경우 시스템 구축에 비용이 과도하게 증가하는 문제가 있다.
KR 10-2020-0049502 A US 2021/0326694 A1
D. Gallup, J. Frahm, P. Mordohai and M. Pollefeys, "Variable baseline/resolution stereo," 2008 IEEE Conference on Computer Vision and Pattern Recognition, 2008, pp. 1-8, doi: 10.1109/CVPR.2008.4587671. Saad Imran, Sikander Bin Mukarram, Muhammad Umar Karim Khan, and Chong-Min Kyung, "Unsupervised deep learning for depth estimation with offset pixels," Opt. Express 28, 8619-8639 (2020) M. Jaderberg, K. Simonyan, A. Zisserman, and K. Kavukcuoglu, "Spatial transformer networks," in Advances in neural information processing systems, (2015), pp. 2017-2025 Zhou Wang, Alan C Bovik, Hamid R Sheikh, and Eero P Simoncelli. Image quality assessment: from error visibility to structural similarity. IEEE transactions on image processing, 13(4):600?612, 2004. Godard, Clιment et al. "Unsupervised Monocular Depth Estimation with Left-Right Consistency." 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2017): 6602-6611
본 기술은 추론 시 단일 카메라에서 취득한 하나의 이미지를 사용하여 깊이를 추정하는 장치를 제공한다.
본 기술은 두 개의 상이한 베이스라인 이미지를 사용하여 비지도식 학습을 수행하는 깊이 추정 장치를 제공한다.
본 발명의 일 실시예에 의한 깊이 추정 장치는 하나의 입력 이미지로부터 복수의 베이스라인에 대응하는 복수의 차이맵과 마스크 영역을 표시하는 마스크를 생성하는 차이맵 생성 네트워크; 및 복수의 차이맵 중 하나를 이용하여 깊이맵을 생성하는 깊이 변환 회로를 포함하되, 복수의 차이맵은 제 1 베이스라인에 대응하는 제 1 차이맵과 제 1 베이스라인보다 긴 제 2 베이스라인에 대응하는 제 2 차이맵을 포함한다.
본 발명의 일 실시예에 의한 깊이 추정 방법은 단일 카메라 이미지에 대응하는 입력 이미지를 수신하는 단계; 입력 이미지로부터 제 1 베이스라인에 대응하는 제 1 차이맵과 제 2 베이스라인에 대응하는 제 2 차이맵을 포함하는 다수의 차이맵을 생성하는 단계; 및 다수의 차이맵 중 하나를 이용하여 깊이맵을 생성하는 단계를 포함한다.
본 기술에 의한 깊이 추정 장치 및 방법은 추론 동작 시 계산 복잡도를 높이지 않으면서 멀티 베이스라인 시스템의 장점을 얻을 수 있다.
본 기술에 의한 깊이 추정 장치 및 방법은 근거리 영역 및 원거리 영역 모두에서 향상된 차이맵을 얻을 수 있다.
도 1은 본 발명의 일 실시예에 의한 깊이 추정 장치를 나타내는 블록도.
도 2는 멀티 베이스라인 이미지를 설명하는 도면.
도 3은 본 발명의 일 실시예에 의한 깊이 추정 장치를 나타내는 상세 블록도.
이하에서는 첨부한 도면을 참조하여 본 발명의 실시예를 개시한다.
도 1은 추론 동작을 수행하는 본 발명의 일 실시예에 의한 깊이 추정 장치(1)를 나타내는 블록도이다.
깊이 추정 장치(1)는 차이맵 생성 네트워크(100), 합성 회로(210), 깊이 변환 회로(220)를 포함한다.
추론 동작 시 차이맵 생성 네트워크(100)는 하나의 입력 이미지를 입력받는다. 하나의 입력 이미지는 단일 카메라에서 촬영된 이미지에 대응할 수 있다.
그러나 차이맵 생성 네트워크(100)의 학습 동작 시 멀티 베이스라인을 생성하는 다수의 입력 이미지를 이용한다. 학습 동작에 대해서는 아래에서 다시 구체적으로 개시한다.
학습 과정에서 차이맵 생성 네트워크(100)는 다수의 입력 이미지로부터 제 1 차이맵(ds), 제 2 차이맵(dm) 및 마스크(M)를 생성한다. 추론 과정에서 차이맵 생성 네트워크(100)는 하나의 입력 이미지로부터 제 2 차이맵(dm)을 생성할 수 있다.
일반적으로 스몰 베이스라인 스테레오 시스템은 상대적으로 근거리에서 정확한 깊이 정보를 생성한다. 베이스라인이 작은 경우 두 카메라 중 하나의 카메라에만 보이는 차단 영역(occulsion)이 상대적으로 작다.
이에 비하여 라지 베이스라인 스테레오 시스템은 원거리에서 정확한 깊이 정보를 생성한다. 베이스라인이 큰 경우 차단 영역이 상대적으로 크다.
제 1 차이맵(ds)은 스몰 베이스라인 이미지 사이의 차이를 나타내는 맵이고, 제 2 차이맵(dm)은 라지 베이스라인 이미지 사이의 차이를 나타내는 맵이다.
차이(disparity)는 두 개의 이미지에 있는 두 개의 대응하는 포인트 사이의 거리를 나타내고, 차이맵은 전체 이미지에 대해서 차이를 구한 결과이다.
베이스라인, 초점 거리, 차이 값을 이용하여 포인트의 깊이를 계산하는 기술은 비특허문헌 1을 통해 잘 알려진 것이므로 이에 대해서는 구체적인 설명을 생략한다.
차이맵 생성 네트워크(100)는 마스크(M)를 추가로 생성하는데 마스크(M)는 제 2 차이맵(dm)에서 제 1 차이맵(ds)의 데이터로 대체할 마스킹 영역을 나타낸다.
마스크(M) 생성 방법에 대해서는 아래에서 구체적으로 개시한다.
본 실시예에서 합성 회로(210)는 학습 동작 시 사용되고 깊이 변환 회로(220)는 추론 동작시 사용된다.
합성 회로(210)는 제 2 차이맵(ds)에 마스크(M)를 적용하고 이에 따라 제 2 차이맵(dm)에서 마스킹 영역의 데이터를 제거한다.
합성 회로(210)는 제 1 차이맵(ds)과 마스크(M)을 이용하여 합성 차이맵을 생성한다.
이때 합성 회로(210)는 제 1 차이맵(ds)의 데이터를 이용하여 제 2 차이맵(dm)에서 마스킹 영역의 데이터를 대체한다.
깊이 변환 회로(220)는 합성 차이맵과 마스크(M)로부터 깊이맵을 생성한다.
깊이(depth)는 베이스라인, 초점거리 및 차이(disparity)로부터 계산할 수 있으며 이는 잘 알려진 것이다.
본 실시예에서는 마스킹된 영역에서 제 1 베이스라인에 대응하는 제 1 차이맵(ds)을 사용하고, 마스킹된 영역 밖에서는 제 2 베이스라인에 대응하는 제 2 차이맵(dm)을 사용한다.
도 3은 본 발명의 일 실시예에 의한 차이맵 생성 네트워크(100)를 나타내는 상세 블록도이다.
차이맵 생성 네트워크(100)는 인코더(110), 제 1 디코더(121), 제 2 디코더(122), 제 3 디코더(123), 및 마스크 생성 회로(130)를 포함한다.
인코더(110)는 입력 이미지(IL)를 인코딩하여 특징 데이터를 생성한다. 본 실시예에서 인코더(110)는 특징 데이터를 생성하기 위하여 학습되는 신경망을 사용할 수 있다.
인코더(110)에서 사용하는 신경망을 제 1 신경망으로 지칭할 수 있다.
제 1 디코더(121)는 특징 데이터를 디코딩하여 제 1 차이맵(ds)을 생성하고, 제 2 디코더(122)는 특징 데이터를 디코딩하여 왼쪽 차이맵(dl)과 오른쪽 차이맵(dr)을 생성하며, 제 3 디코더(123)는 특징 데이터를 디코딩하여 제 2 차이맵(dm)을 생성한다. 본 실시예에서 제 1 디코더(121), 제 2 디코더(122), 및 제 3 디코더(123)는 각각 특징 데이터를 디코딩하기 위하여 학습되는 신경망을 사용할 수 있다.
제 1 디코더(121)에서 사용하는 신경망을 제 2 신경망으로 지칭하고, 제 2 디코더(122)에서 사용하는 신경망을 제 3 신경망으로 지칭하고, 제 3 디코더(123)에서 사용하는 신경망을 제 4 신경망으로 지칭할 수 있다.
마스크 생성 회로(130)는 왼쪽 차이맵(dl)과 오른쪽 차이맵(dr)으로부터 마스크(M)를 생성한다.
마스크 생성 회로(130)는 왼쪽 차이맵(dl)에 따라 오른쪽 차이맵(dr)을 변환하여 재구성된 왼쪽 차이맵(dl')을 생성하는 변환 회로(131)를 포함한다.
본 실시예에서 변환 동작은 워프 동작을 나타내는데, 워프 동작 자체는 이미지의 기하학적 형태를 변형하는 변환 동작의 일종으로서 비특허문헌 2와 같이 종래에 알려진 것이다.
본 실시예에서 변환 회로(131)는 수학식 1과 같이 변환 동작을 수행한다. 수학식 1은 워프 함수 fw에 따라 차이맵 d을 이용하여 이미지 I에 대해서 변환 동작을 수행하는 것을 나타낸다. 보다 구체적으로 워프 동작은 특정 장면에 대한 두 시점의 이미지와 차이맵을 이용하여 시점을 변경하는 기술이다. 예를 들어, 왼쪽 이미지를 IL, 오른쪽 이미지를 IR, 두 이미지 사이의 차이를 dR이라고 하면 차단이 없는 경우 fw(IL:dR)은 오른쪽 이미지 IR과 동일하게 된다.
Figure pat00001
변환 회로(131)는 수학식 1의 연산 결과에 대하여 바이리니어 샘플링 동작을 추가로 수행할 수 있다. 바이리니어 동작은 비특허문헌 3과 같이 종래에 알려진 기술이므로 구체적인 설명을 생략한다.
마스크 생성 회로(130)는 재구성된 왼쪽 차이맵(dl')과 왼쪽 차이맵(dl)을 비교하여 마스크(M)를 생성하는 비교 회로(132)를 포함한다.
차단 영역에서는 재구성된 왼쪽 차이맵(dl')과 왼쪽 차이맵(dl)이 서로 다른 값을 가질 확률이 높다.
이에 따라 본 실시예에서는 임계점을 1로 설정하여 재구성된 왼쪽 차이맵(dl')과 왼쪽 차이맵(dl)의 각 픽셀 차이가 임계점보다 크면 차단 영역으로 보아 마스크 데이터를 1로 설정하고, 임계점 이하이면 마스크 데이터를 0으로 설정한다. 이하에서는 차단 영역을 마스크 영역으로 지칭할 수 있다.
추론 동작 시 입력 이미지(IL)는 하나의 카메라에서 취득한 하나의 이미지이다. 추론 동작 시 인코더(110)는 하나의 입력 이미지로부터 특징 데이터를 생성하고, 제 3 디코더(123)는 특징 데이터로부터 제 2 차이맵(dm)을 생성한다.
학습 동작은 미리 준비된 학습 데이터를 사용하여 수행되는데 학습 데이터는 도 2와 같이 3 개의 이미지를 하나의 단위로 한다.
3개의 이미지는 제 1 이미지(IL), 제 2 이미지(IR1), 제 3 이미지(IR2)를 포함한다.
제 1 이미지(IL)는 맨 왼쪽의 이미지에 대응하고, 제 2 이미지(IR1)는 중간 이미지에 대응하며, 제 3 이미지(IR2)는 맨 오른쪽 이미지에 대응한다.
즉, 제 1 이미지(IL)와 제 2 이미지(IR1)는 스몰 베이스라인(BS) 이미지 쌍에 대응하고, 제 1 이미지(IL)와 제 3 이미지(IR2)는 라지 베이스라인(BL) 이미지 쌍에 대응한다.
학습 동작에서는 전체 손실 함수를 계산하고 이를 이용하여 도 3에 도시된 인코더(110), 제 1 디코더(121), 및 제 2 디코더(122)의 신경망에 포함된 가중치를 조절한다.
이때, 제 3 디코더(123)의 가중치는 별도로 조절하는데 이에 대해서는 아래에서 다시 구체적으로 개시한다.
본 실시예에서 전체 손실 함수(Ltotal)는 수학식 2와 같이 이미지 재구성 손실 성분(Lrecon), 매끄러움 손실(smoothness loss) 성분(Lsmooth), 디코더 손실 성분(Ldec3)의 조합에 대응한다.
Figure pat00002
수학식 2에서 λ는 매끄러움 가중치로서 0.1로 설정된다.
수학식 2에서 이미지 재구성 손실 성분은 수학식 3과 같이 정의된다.
Figure pat00003
수학식 3에서 재구성 손실 성분은 제 1 이미지(IL)와 제 1 재구성 이미지(IL1') 사이의 제 1 이미지 재구성 손실 함수(La), 제 1 이미지(IL)와 제 2 재구성 이미지(IL2') 사이의 이미지 제 2 재구성 손실 함수(La), 제 3 이미지(IR2)와 제 3 재구성 이미지(IR2') 사이의 제 3 이미지 재구성 손실 함수(La)의 합으로 표현된다.
도 3에서 제 1 손실 연산 회로(151)는 제 1 이미지 재구성 손실 함수를 연산하고, 제 2 손실 연산 회로(152)는 제 2 이미지 재구성 손실 함수를 연산하며, 제 3 손실 연산 회로(153)는 제 3 이미지 재구성 손실 함수를 연산한다.
변환 회로(141)는 제 2 이미지(IR1)를 제 1 차이맵(ds)에 따라 변환하여 제 1 재구성 이미지(IL1')를 생성한다.
변환 회로(142)는 제 3 이미지(IR2)를 왼쪽 차이맵(dl)에 따라 변환하여 제 2 재구성 이미지(IL2')를 생성한다.
변환 회로(143)는 제 1 이미지(IL)를 오른쪽 차이맵(dr)에 따라 변환하여 제 3 재구성 이미지(IR2')를 생성한다.
이미지 재구성 손실 함수(La)는 수학식 4와 같다. 이미지 재구성 손실 함수(La)는 본래의 이미지(I)와 재구성된 이미지(I') 사이의 광도 에러(photometric error)를 나타낸다.
Figure pat00004
수학식 4에서 SSIM(Structural Similarity Index) 연산은 이미지의 유사성을 비교하는 연산 중 하나로서 비특허문헌 4를 통해 잘 알려진 것이다.
수학식 4에서 N은 픽셀 개수, I는 본래 이미지, I'은 재구성된 이미지를 나타낸다. 본 실시예에서 SSIM 연산을 위하여 가우시안 대신 3x3 크기의 블록 필터를 사용하였다.
본 실시예에서 알파의 값은 0.85로 설정하여 SSIM 연산 결과에 가중치를 더 부여하였다. SSIM 연산 결과는 대비, 조도, 및 구조에 기초한 값을 생성한다.
두 이미지 사이에 조도 차이가 큰 경우 SSIM 연산 결과를 이용하는 것이 더욱 효과적일 수 있다.
수학식 2에서 매끄러움 손실 성분(Lsmooth)은 수학식 5와 같이 정의된다.
Figure pat00005
수학식 5에서 매끄러움 손실 성분은 제 1 차이맵(ds)과 제 1 이미지(IL) 사이의 제 1 매끄러움 손실 함수(Ls), 왼쪽 차이맵(dl)과 제 1 이미지(IL) 사이의 제 1 매끄러움 손실 함수(Ls), 오른쪽 차이맵(dr)과 제 3 이미지(IR2) 사이의 제 3 매끄러움 손실 함수(Ls) 합으로 표현된다.
도 3에서 제 1 손실 연산 회로(151)는 제 1 매끄러움 손실 함수를 연산하고, 제 2 손실 연산 회로(152)는 제 2 매끄러움 손실 함수를 연산하며, 제 3 손실 연산 회로(153)는 제 3 매끄러움 손실 함수를 연산한다.
매끄러움 손실 함수(Ls)는 수학식 6과 같이 표현된다. 수학식 6에서 d는 차이맵, I는 이미지, ∂x는 이미지의 수평 그래디언트, ∂y는 이미지의 수직 그래디언트를 나타낸다. 수학식 6을 통해 이미지 그래디언트가 작은 경우 매끄러움 손실 성분이 작아짐을 알 수 있다. 매끄러움 손실 성분을 사용하는 기술은 비특허문헌 5와 같이 종래에도 잘 알려진 것이므로 더 이상의 구체적인 개시는 생략한다.
Figure pat00006
수학식 2에서 디코더 손실 성분(Ldec3)은 수학식 7과 같이 정의된다. 이때 디코더 손실 성분은 제 3 디코더(123)와 연관된다.
Figure pat00007
수학식 7에서 디코더 손실 성분은 제 1 이미지(IL)와 제 4 재구성 이미지(IL3') 사이의 제 4 이미지 재구성 손실 함수(La), 제 2 차이맵(dm)과 제 1 이미지(IL) 사이의 제 4 매끄러움 손실 함수(Ls), 제 1 차이맵(ds)과 제 2 차이맵(dm) 사이의 차이 할당 손실 함수(Lda) 합으로 표현된다.
도 3에서 제 4 손실 연산 회로(154)는 제 4 이미지 재구성 손실 함수(La), 제 4 매끄러움 손실 함수(Ls), 및 차이 할당 손실 함수(Lda)를 연산하는 것으로 도시되었다.
제 4 이미지 재구성 손실 함수와 제 4 매끄러움 손실 함수의 연산 방식은 전술한 바와 같다.
변환 회로(144)는 제 3 이미지(IR2)를 제 2 차이맵(dm)에 따라 변환하여 제 4 재구성 이미지(IL3')를 생성한다.
수학식 7에서 (1-M)은 차단 영역의 픽셀이 이미지 재구성 손실에 영향을 미치지 않음을 나타낸다. 차단 영역에서는 차이 할당 손실(Lda)이 고려된다.
차단 영역에서 제 2 차이맵(dm)이 제 1 차이맵(ds)을 추종하도록 하기 위해 즉, 차이 할당 손실 함수(Lda)의 값을 최소가 되도록 하기 위해 제 3 디코더(123)의 계수만을 조절한다. 이에 따라 차이 할당 손실 함수(Lda)로 인하여 제 1 차이맵(ds)은 영향을 받지 않는다.
수학식 7에서 차이 할당 손실 함수는 수학식 8과 같이 정의된다.
Figure pat00008
본 실시예에서 베타는 0.85로 설정되며, r은 라지 베이스라인과 스몰 베이스라인의 비이다.
r을 이용하여 제 1 차이맵(ds)의 스케일을 제 2 차이맵(dm)의 스케일로 조정할 수 있다. 예를 들어 스몰 베이스라인이 1mm이고 라지 베이스라인이 5mm인 경우 제 2 차이맵(dm)의 차이 범위는 제 1 차이맵(ds)의 차이 범위의 5배가 된다.
본 발명의 권리범위는 이상의 개시로 한정되는 것은 아니다. 본 발명의 권리범위는 청구범위에 문언적으로 기재된 범위와 그 균등범위를 기준으로 해석되어야 한다.
100: 차이맵 생성 네트워크
210: 합성 회로
220: 깊이 변환 회로
110: 인코더
121: 제 1 디코더
122: 제 2 디코더
123: 제 3 디코더
130: 마스크 생성 회로
131, 141, 142, 143, 144: 변환 회로
132: 비교 회로
151: 제 1 손실 연산 회로
152: 제 2 손실 연산 회로
153: 제 3 손실 연산 회로
154: 제 4 손실 연산 회로

Claims (17)

  1. 하나의 입력 이미지로부터 복수의 베이스라인에 대응하는 복수의 차이맵과 마스크 영역을 표시하는 마스크를 생성하는 차이맵 생성 네트워크; 및
    상기 복수의 차이맵 중 하나를 이용하여 깊이맵을 생성하는 깊이 변환 회로
    를 포함하되, 상기 복수의 차이맵은 제 1 베이스라인에 대응하는 제 1 차이맵과 상기 제 1 베이스라인보다 긴 제 2 베이스라인에 대응하는 제 2 차이맵을 포함하는 깊이 추정 장치.
  2. 청구항 1에 있어서, 상기 제 1 차이맵, 상기 제 2 차이맵, 및 상기 마스크를 조합하여 합성 차이맵을 생성하는 합성 회로를 더 포함하는 깊이 추정 장치.
  3. 청구항 2에 있어서, 상기 합성 회로는 상기 제 1 차이맵에서 마스킹 영역의 데이터를 상기 제 2 차이맵의 데이터와 합성하여 상기 합성 차이맵을 생성하는 깊이 추정 장치.
  4. 청구항 1에 있어서, 상기 차이맵 생성 네트워크는
    제 1 신경망을 이용하여 상기 입력 이미지를 인코딩하여 특징 데이터를 생성하는 인코더;
    제 2 신경망을 이용하여 상기 특징 데이터로부터 상기 제 1 차이맵을 생성하는 제 1 디코더;
    제 3 신경망을 이용하여 상기 특징 데이터로부터 왼쪽 차이맵과 오른쪽 차이맵을 생성하는 제 2 디코더;
    제 4 신경망을 이용하여 상기 특징 데이터로부터 상기 제 2 차이맵을 생성하는 제 3 디코더; 및
    상기 왼쪽 차이맵과 상기 오른쪽 차이맵으로부터 상기 마스크를 생성하는 마스크 생성 회로
    를 포함하는 깊이 추정 장치.
  5. 청구항 4에 있어서, 상기 마스크 생성 회로는
    상기 오른쪽 차이맵을 상기 왼쪽 차이맵에 따라 변환하여 재구성된 왼쪽 차이맵을 생성하는 변환회로; 및
    상기 왼쪽 차이맵과 상기 재구성된 왼쪽 차이맵으로부터 상기 마스크를 생성하는 비교 회로
    를 포함하는 깊이 추정 장치.
  6. 청구항 5에 있어서, 상기 비교 회로는 상기 왼쪽 차이맵과 상기 재구성된 왼쪽 차이맵의 차이를 임계점과 비교하여 상기 마스크의 데이터를 결정하는 깊이 추정 장치.
  7. 청구항 4에 있어서, 상기 제 1 신경망, 상기 제 2 신경망, 상기 제 3 신경망, 및 상기 제 4 신경망에 대한 학습 동작은 제 1 이미지, 상기 제 1 이미지와 상기 제 1 베이스라인 이미지 쌍을 이루는 제 2 이미지, 및 상기 제 1 이미지와 상기 제 2 베이스라인 이미지 쌍을 이루는 제 3 이미지를 이용하는 깊이 추정 장치.
  8. 청구항 7에 있어서, 학습 과정에서 상기 제 1 디코더의 출력에 따라 제 1 손실 함수를 연산하는 제 1 손실 연산 회로를 더 포함하되,
    상기 제 1 손실 연산 회로는 제 1 차이맵에 따라 상기 제 2 이미지를 변환하여 생성된 제 1 재구성 이미지와 상기 제 1 이미지를 이용하여 이미지 재구성 손실 함수를 연산하는 깊이 추정 장치.
  9. 청구항 7에 있어서,
    상기 왼쪽 차이맵에 따라 상기 제 3 이미지를 변환하여 생성된 제 2 재구성 이미지와 상기 제 1 이미지를 이용한 재구성 손실 함수를 연산하는 제 2 손실 연산 회로; 및
    상기 오른쪽 차이맵에 따라 상기 제 1 이미지를 변환하여 생성된 제 3 재구성 이미지와 상기 제 3 이미지를 이용하여 이미지 재구성 손실 함수를 연산하는 제 3 손실 연산 회로
    를 더 포함하는 깊이 추정 장치.
  10. 청구항 7에 있어서, 상기 제 3 이미지 상기 제 2 차이맵에 따라 변환하여 생성된 제 4 재구성 이미지와 상기 제 1 이미지를 이용하여 손실 함수를 연산하고, 상기 제 2 차이맵과 상기 제 1 이미지를 이용하여 손실 함수를 연산하고, 상기 제 1 차이맵과 상기 제 2 차이맵을 이용하여 손실 함수를 연산하는 제 4 손실 연산 회로를 더 포함하는 깊이 추정 장치.
  11. 단일 카메라 이미지에 대응하는 입력 이미지를 수신하는 단계;
    상기 입력 이미지로부터 제 1 베이스라인에 대응하는 제 1 차이맵과 제 2 베이스라인에 대응하는 제 2 차이맵을 포함하는 다수의 차이맵을 생성하는 단계; 및
    상기 다수의 차이맵 중 하나를 이용하여 깊이맵을 생성하는 단계
    를 포함하는 깊이 추정 방법.
  12. 청구항 11에 있어서,
    상기 입력 이미지로부터 마스크 영역을 나타내는 마스크를 생성하는 단계; 및
    상기 제 1 차이맵, 상기 제 2 차이맵, 및 상기 마스크를 이용하여 합성 차이맵을 생성하는 단계
    를 더 포함하는 깊이 추정 방법.
  13. 청구항 12에 있어서, 상기 합성 차이맵을 생성하는 단계는 상기 마스크 영역에 대응하는 상기 제 1 차이맵의 데이터와 상기 제 2 차이맵을 합성하는 단계를 포함하는 깊이 추정 방법.
  14. 청구항 12에 있어서,
    제 1 신경망을 이용하여 상기 입력 이미지를 인코딩하여 특징 데이터를 생성하는 단계를 더 포함하고,
    상기 다수의 차이맵을 생성하는 단계는 제 2 신경망을 이용하여 상기 특징 데이터를 디코딩하여 상기 제 1 차이맵을 생성하는 단계; 및 상기 제 4 신경망을 이용하여 상기 특징 데이터를 디코딩하여 상기 제 2 차이맵을 생성하는 단계를 포함하고,
    상기 마스크를 생성하는 단계는 제 3 신경망을 이용하여 상기 특징 데이터를 디코딩하여 왼쪽 차이맵과 오른쪽 차이맵을 생성하는 단계; 및 상기 왼쪽 차이맵과 상기 오른쪽 차이맵에 따라 상기 마스크를 생성하는 단계를 포함하는 깊이 추정 방법.
  15. 청구항 14에 있어서, 상기 마스크를 생성하는 단계는
    상기 오른쪽 차이맵을 상기 왼쪽 차이맵에 따라 변환하여 재구성된 왼쪽 차이맵을 생성하는 단계; 및
    상기 왼쪽 차이맵과 상기 재구성된 왼쪽 차이맵의 차이와 임계점을 비교하여 상기 마스크를 생성하는 단계
    를 포함하는 깊이 추정 방법.
  16. 청구항 14에 있어서, 상기 제 1 신경망, 상기 제 2 신경망, 상기 제 3 신경망, 및 상기 제 4 신경망에 대한 학습 동작은 제 1 이미지, 상기 제 1 이미지와 제 1 베이스라인 이미지 쌍을 이루는 제 2 이미지, 및 상기 제 1 이미지와 제 2 베이스라인 이미지 쌍을 이루는 제 3 이미지를 이용하는 깊이 추정 방법.
  17. 청구항 16에 있어서, 상기 학습 동작은
    제 1 차이맵에 따라 상기 제 2 이미지를 변환하여 생성된 제 1 재구성 이미지와 상기 제 1 이미지를 이용하여 제 1 손실 함수를 연산하는 단계;
    상기 왼쪽 차이맵에 따라 상기 제 3 이미지를 변환하여 생성된 제 2 재구성 이미지와 상기 제 1 이미지를 이용하여 제 2 손실 함수를 연산하는 단계;
    상기 오른쪽 차이맵에 따라 상기 제 1 이미지를 변환하여 생성된 제 3 재구성 이미지와 상기 제 3 이미지를 이용하여 제 3 손실 함수를 연산하는 단계;
    상기 제 1 손실 함수, 상기 제 2 손실 함수, 및 상기 제 3 손실 함수에 따라 상기 제 1 신경망, 상기 제 2 신경망, 및 상기 제 3 신경망을 학습시키는 단계;
    상기 제 3 이미지 상기 제 2 차이맵에 따라 변환하여 생성된 제 4 재구성 이미지와 상기 제 1 이미지를 이용하여 손실 함수를 연산하고, 상기 제 2 차이맵과 상기 제 1 이미지를 이용하여 손실 함수를 연산하고, 상기 제 1 차이맵과 상기 제 2 차이맵을 이용하여 손실 함수를 연산하여 제 4 손실 함수를 연산하는 단계; 및
    상기 제 4 손실 함수에 따라 상기 제 4 신경망을 학습시키는 단계
    를 포함하는 깊이 추정 방법.
KR1020220114235A 2021-09-10 2022-09-08 단일 카메라를 사용하는 깊이 추정 장치 및 깊이 추정 방법 KR20230038120A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210120798 2021-09-10
KR20210120798 2021-09-10

Publications (1)

Publication Number Publication Date
KR20230038120A true KR20230038120A (ko) 2023-03-17

Family

ID=85478066

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220114235A KR20230038120A (ko) 2021-09-10 2022-09-08 단일 카메라를 사용하는 깊이 추정 장치 및 깊이 추정 방법

Country Status (2)

Country Link
US (1) US20230080120A1 (ko)
KR (1) KR20230038120A (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117437272B (zh) * 2023-12-21 2024-03-08 齐鲁工业大学(山东省科学院) 一种基于自适应令牌聚合的单目深度估计方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200049502A (ko) 2018-10-29 2020-05-08 삼성전자주식회사 상이한 fov를 갖는 카메라들을 이용한 시차 추정 시스템 및 방법
US20210326694A1 (en) 2020-04-20 2021-10-21 Nvidia Corporation Distance determinations using one or more neural networks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200049502A (ko) 2018-10-29 2020-05-08 삼성전자주식회사 상이한 fov를 갖는 카메라들을 이용한 시차 추정 시스템 및 방법
US20210326694A1 (en) 2020-04-20 2021-10-21 Nvidia Corporation Distance determinations using one or more neural networks

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
D. Gallup, J. Frahm, P. Mordohai and M. Pollefeys, "Variable baseline/resolution stereo," 2008 IEEE Conference on Computer Vision and Pattern Recognition, 2008, pp. 1-8, doi: 10.1109/CVPR.2008.4587671.
Godard, Clιment et al. "Unsupervised Monocular Depth Estimation with Left-Right Consistency." 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2017): 6602-6611
M. Jaderberg, K. Simonyan, A. Zisserman, and K. Kavukcuoglu, "Spatial transformer networks," in Advances in neural information processing systems, (2015), pp. 2017-2025
Saad Imran, Sikander Bin Mukarram, Muhammad Umar Karim Khan, and Chong-Min Kyung, "Unsupervised deep learning for depth estimation with offset pixels," Opt. Express 28, 8619-8639 (2020)
Zhou Wang, Alan C Bovik, Hamid R Sheikh, and Eero P Simoncelli. Image quality assessment: from error visibility to structural similarity. IEEE transactions on image processing, 13(4):600?612, 2004.

Also Published As

Publication number Publication date
US20230080120A1 (en) 2023-03-16

Similar Documents

Publication Publication Date Title
Yuan et al. Plug-and-play algorithms for large-scale snapshot compressive imaging
JP7177062B2 (ja) 統計モデルを用いた画像データからの深度予測
JP3621152B2 (ja) 特徴点の特定装置及びその方法
US10977765B2 (en) Hierarchical neural network image registration
EP3769265A1 (en) Localisation, mapping and network training
Qu et al. Depth completion via deep basis fitting
CN111105432A (zh) 基于深度学习的无监督端到端的驾驶环境感知方法
WO2011090789A1 (en) Method and apparatus for video object segmentation
US20180189979A1 (en) Method for reducing matching error in disparity image by information in zoom image
CN115187638B (zh) 一种基于光流遮罩的无监督单目深度估计方法
Hyder et al. Generative models for low-dimensional video representation and reconstruction
CN111861880A (zh) 基于区域信息增强与块自注意力的图像超分与融合方法
CN112085717B (zh) 一种用于腹腔镜手术的视频预测方法及其系统
KR20230038120A (ko) 단일 카메라를 사용하는 깊이 추정 장치 및 깊이 추정 방법
CN115546505A (zh) 一种基于深度学习的无监督单目图像深度估计方法
CN114898355A (zh) 用于自动驾驶的体住运动的自监督学习的方法和系统
CN113643220B (zh) 一种物理信息驱动的红外图像湍流效应抑制方法及系统
CN116703752A (zh) 融合近红外的Transformer结构的图像去雾方法及装置
CN115994865A (zh) 一种颤振模糊图像的复原方法、采集复原装置及监控系统
Ebrahim et al. Multiview image block compressive sensing with joint multiphase decoding for visual sensor network
Grammalidis et al. Disparity and occlusion estimation for multiview image sequences using dynamic programming
Wang Computational models for multiview dense depth maps of dynamic scene
CN114972517B (zh) 一种基于raft的自监督深度估计方法
CN111539988B (zh) 一种视觉里程计实现方法、装置和电子设备
CN111667502B (zh) 根据单张运动模糊图像生成高速视频的方法与装置