KR20200063368A - 대응점 일관성에 기반한 비지도 학습 방식의 스테레오 매칭 장치 및 방법 - Google Patents

대응점 일관성에 기반한 비지도 학습 방식의 스테레오 매칭 장치 및 방법 Download PDF

Info

Publication number
KR20200063368A
KR20200063368A KR1020180146709A KR20180146709A KR20200063368A KR 20200063368 A KR20200063368 A KR 20200063368A KR 1020180146709 A KR1020180146709 A KR 1020180146709A KR 20180146709 A KR20180146709 A KR 20180146709A KR 20200063368 A KR20200063368 A KR 20200063368A
Authority
KR
South Korea
Prior art keywords
map
disparity
learning
positive sample
stereo
Prior art date
Application number
KR1020180146709A
Other languages
English (en)
Other versions
KR102219561B1 (ko
Inventor
손광훈
정성훈
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020180146709A priority Critical patent/KR102219561B1/ko
Publication of KR20200063368A publication Critical patent/KR20200063368A/ko
Application granted granted Critical
Publication of KR102219561B1 publication Critical patent/KR102219561B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/97Determining parameters from multiple pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 동일 구조와 동일한 가중치를 가지며 비지도 학습 방식으로 미리 학습된 2개의 컨볼루션 신경망(Convolutional Neural Networks: CNN)을 포함하여, 입력되는 스테레오 영상으로부터 특징 맵들을 추출하는 인코더, 특징 맵 사이의 매칭 비용 볼륨을 계산하는 매칭 비용 계산부 및 기지정된 최대 디스패리티 범위를 갖는 디스패리티 후보들 중 매칭 비용 볼륨을 최소화하는 디스패리티를 각 픽셀 별로 획득하고, 획득된 디스패리티로부터 디스패리티 맵을 생성하는 디스패리티 맵 획득부를 포함하고, 2개의 CNN은 학습 시에 입력된 스테레오 영상으로부터 획득된 디스패리티 맵에 대해 에피폴라 제약에 따른 대응점 일관성에 기반하여 양성 샘플을 추정하고, 추정된 양성 샘플을 인접 픽셀로 전파하여 생성되는 학습 맵들과 디스패리티 맵 사이의 오차를 역전파하여 학습되는 스테레오 매칭 장치 및 방법을 제공할 수 있다.

Description

대응점 일관성에 기반한 비지도 학습 방식의 스테레오 매칭 장치 및 방법{UNSUPERVISED STEREO MATCHING APPARATUS AND METHOD USING CONFIDENTIAL CORRESPONDENCE CONSISTENCY}
본 발명은 스테레오 매칭 장치 및 방법에 관한 것으로, 대응점 일관성에 기반한 비지도 학습 방식의 스테레오 매칭 장치 및 방법에 관한 것이다.
스테레오 매칭은 영상으로부터 3차원 기하학적 구성을 인식하기 위한 방법으로, 컴퓨터 비전 시스템의 스테레오 영상 재구성, 자율 주행, 운전자 보조 시스템(Advanced Driver Assistance System: 이하 ADAS), 로봇 공학 등을 포함하는 다양한 분야에 이용되고 있다.
스테레오 매칭은 서로 다른 2개의 시점 영상을 갖는 스테레오 영상에서 3차원 위치 정보(깊이 정보)를 추정하는 기법으로, 스테레오 영상에서 대응점(correspondence) 사이의 비유사성을 측정하는 매칭 비용(matching cost) 계산은 스테레오 매칭 기법의 핵심 과정이다.
그러나 매칭 비용 계산은 스테레오 영상의 폐색(occlusion) 영역, 질감없는(textureless) 영역 또는 조명의 변화 등과 같은 영상 자체의 모호성(inherent matching ambiguity)으로 인해 작업에 어려움이 있다.
이러한 매칭 비용 계산의 어려움을 극복하기 위하여 다양한 기법이 제안되었으며, 최근에는 딥 러닝(Deep learning) 기법으로 학습된 인공 신경망(Artificial Neural Network)을 이용하여 영상으로부터 매칭 비용을 계산하는 방법이 제안되었다. 특히 인공 신경망 중 영상 처리 분야에서 탁월한 성능을 나타내는 컨볼루션 신경망(Convolution Neural Network)이 매칭 비용 계산에 주로 이용되고 있다.
매칭 비용 계산에 인공 신경망을 이용하는 경우, 인공 신경망은 스테레오 영상에서 대응점 간의 매칭 비용을 최소화할 수 있도록 미리 학습되어야 한다. 그러나 인공 신경망이 신뢰성 있게 매칭 비용을 계산할 수 있도록 학습되기 위해서는 학습 레이블이 포함된 대량의 학습 영상을 요구하는 지도 학습(supervised learning)이 수행되어야 한다.
학습 레이블은 구조형 조명(structured light)이나 라이다(Light Detection And Ranging) 및 레이저 스캐너 등과 같은 3D 센서를 이용하여 직접 검증(ground truth)된 깊이 값을 측정함으로써 획득될 수 있다. 그러나 3D 센서를 이용한 측정은 고비용을 요구될 뿐만 아니라, 사용 조건에 따라 다양한 오류가 존재하여 수작업에 의한 오류 보정이 추가로 요구되는 문제가 있다.
이에 학습을 위해 학습 레이블이 포함되어 제공되는 학습 영상의 개수가 부족하여, 인공 신경망이 정상적으로 학습되지 않아 매칭 비용을 정상적으로 추정할 수 없는 문제가 있다.
한국 등록 특허 제10-1354387호 (2014.01.15 등록)
본 발명의 목적은 학습 레이블을 필요로 하지 않는 비지도 학습 방식으로 학습된 인공 신경망을 이용하는 스테레오 매칭 장치 및 방법을 제공하는데 있다.
본 발명의 다른 목적은 입력된 스테레오 영상 사이의 에피폴라 제약과 대응 일관성을 이용하여 매칭 비용을 최소화하도록 학습된 인공 신경망을 이용하는 스테레오 매칭 장치 및 방법을 제공하는데 있다.
본 발명의 또 다른 목적은 조명 변화 및 야외 환경과 같은 다양한 환경에서 신뢰성 있는 스테레오 매칭을 수행할 수 있는 스테레오 매칭 장치 및 방법을 제공하는데 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 스테레오 매칭 장치는 동일 구조와 동일한 가중치를 가지며 비지도 학습 방식으로 미리 학습된 2개의 컨볼루션 신경망(Convolutional Neural Networks: CNN)을 포함하여, 입력되는 스테레오 영상으로부터 특징 맵들을 추출하는 인코더; 상기 특징 맵 사이의 매칭 비용 볼륨을 계산하는 매칭 비용 계산부; 및 기지정된 최대 디스패리티 범위를 갖는 디스패리티 후보들 중 매칭 비용 볼륨을 최소화하는 디스패리티를 각 픽셀 별로 획득하고, 획득된 디스패리티로부터 디스패리티 맵을 생성하는 상기 디스패리티 맵 획득부; 를 포함하고, 상기 2개의 CNN은 학습 시에 입력된 스테레오 영상으로부터 획득된 디스패리티 맵에 대해 에피폴라 제약에 따른 대응점 일관성에 기반하여 양성 샘플을 추정하고, 추정된 양성 샘플을 인접 픽셀로 전파하여 생성되는 학습 맵들과 디스패리티 맵 사이의 오차를 역전파하여 학습된다.
상기 2개의 CNN은 디스패리티 맵에 대해 에피폴라 제약에 따른 대응점 일관성에 기반하여, 대응점 사이의 거리가 기지정된 임계감 미만인 픽셀을 희소 양성 샘플로 추정하여 희소 양성 샘플 맵을 획득하고, 상기 희소 양성 샘플 맵에서 상기 희소 양성 샘플을 보간 기법으로 인접 픽셀로 전파하여 보간 맵을 생성하며, 상기 보간 맵에 대해 다시 대응점 일관성따라 학습 샘플을 추정하며, 추정된 상기 학습 샘플로부터 상기 학습 맵을 생성하여 학습될 수 있다.
상기 보간 맵은 상기 희소 양성 샘플 맵에서 색상 유사성 제약 조건에 따라 입력 스테레오 영상의 컬러를 가이드로 이용하여, 상기 희소 양성 샘플을 인접 픽셀로 전파하여 생성될 수 있다.
상기 2개의 CNN은 학습 시에 입력된 디스패리티 맵과 상기 학습 맵 사이의 오차를 역전파하여 가중치를 업데이트 함으로써 학습되며, 상기 오차가 기지정된 기준 오차 이내가 되도록 반복적으로 학습 레이블을 생성하여 반복 학습될 수 있다.
상기 목적을 달성하기 위한 본 발명의 다른 실시예에 따른 스테레오 매칭 방법은 동일 구조와 동일한 가중치를 가지며 비지도 학습 방식으로 미리 학습된 2개의 컨볼루션 신경망(Convolutional Neural Networks: CNN)을 이용하여 입력되는 스테레오 영상으로부터 특징 맵들을 추출하는 단계; 상기 특징 맵 사이의 매칭 비용 볼륨을 계산하는 단계; 및 기지정된 최대 디스패리티 범위를 갖는 디스패리티 후보들 중 매칭 비용 볼륨을 최소화하는 디스패리티를 각 픽셀 별로 획득하고, 획득된 디스패리티로부터 디스패리티 맵을 생성하는 단계; 를 포함하고, 상기 2개의 컨볼루션 신경망은 입력된 스테레오 영상으로부터 획득된 디스패리티 맵에 대해 에피폴라 제약에 따른 대응점 일관성에 기반하여 양성 샘플을 추정하고, 추정된 양성 샘플을 인접 픽셀로 전파하여 생성되는 학습 맵들과 디스패리티 맵 사이의 오차를 역전파하여 학습된다.
따라서, 본 발명의 실시예에 따른 스테레오 매칭 장치 및 방법은 입력된 스테레오 영상 사이의 에피폴라 제약과 대응점 일관성을 이용하여 양성 샘플을 추정하고, 추정된 양성 샘플을 전파하여 학습 샘플 맵을 획득함으로써, 비지도 학습 방법으로 학습될 수 있다. 또한 조명 변화나 야외 환경과 같은 다양한 환경에서도 신뢰성 있는 스테레오 매칭을 수행할 수 있다.
도1 은 본 발명의 일 실시예에 따른 스테레오 매칭 장치의 개략적 구성을 나타낸다.
도2 는 도1 의 학습 맵 생성부의 상세 구성을 나타낸다.
도3 은 도1 의 스테레오 매칭 장치의 각 구성별 동작을 설명하기 위한 도면이다.
도4 는 본 발명의 실시예에 따라 생성된 학습 맵의 예를 나타낸다.
도5 는 본 발명의 일 실시예에 따른 스테레오 매칭 방법 및 이의 학습 방법에 대한 개략적 구성을 나타낸다.
도6 는 도5 의 학습 맵 생성 및 학습 단계를 상세하게 나타낸다.
도7 은 도6 의 학습 맵 생성 및 학습 단계의 알고리즘을 나타낸다.
도8 은 본 발명의 실시예에 따른 학습 맵의 생성 과정에서 생성되는 맵의 예를 나타낸다.
도9 는 본 발명의 실시예에 따른 학습 샘플과 다른 비지도 학습 방식으로 획득되는 샘플을 비교한 도면이다.
도10 내지 도12 는 본 발명의 실시예에 따른 CNN의 구조에 따른 학습 샘플을 비교한 도면이다.
도13 및 도14 는 본 발명의 실시예에 따른 CNN의 구조에 따른 스테레오 매칭 결과를 비교한 도면이다.
도15 및 도16 은 본 실시예에 따른 비지도 학습 방법의 조명에 대한 강건성을 시뮬레이션한 결과를 나타낸다.
도17 및 도18 은 야외 운전 환경에서의 스테레오 매칭 성능을 시뮬레이션한 결과를 나타낸다.
본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부", "...기", "모듈", "블록" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도1 은 본 발명의 일 실시예에 따른 스테레오 매칭 장치의 개략적 구성을 나타내고, 도2 는 도1 의 학습 맵 생성부의 상세 구성을 나타내며, 도3 은 도1 의 스테레오 매칭 장치의 각 구성별 동작을 설명하기 위한 도면이다.
도1 을 참조하면, 본 실시예에 다른 스테레오 매칭 장치(100)는 스테레오 영상 입력부(110), 인코더(120), 매칭 비용 계산부(130), 디스패리티 맵 획득부(140) 및 학습 맵 생성부(150)를 포함한다.
스테레오 영상 입력부(110)는 스테레오 매칭을 수행해야할 스테레오 영상을 획득한다. 여기서 스테레오 영상은 스테레오 카메라에서 획득될 수 있는 영상으로 서로 다른 시점을 갖는 2개의 영상으로 구성될 수 있다. 스테레오 영상은 스테레오 카메라의 구조에 따라 상하 영상 좌우 영상 등으로 획득될 수 있으나, 여기서는 일예로 도3 에 도시된 바와 같이 좌영상(Left image)(Il)과 우영상(Right image)(Ir)을 획득하는 것으로 가정한다.
이에 인코더(120)는 스테레오 영상 입력부(110)에서 획득된 좌영상(Il)과 우영상(Ir)을 인코딩하여 매칭 비용을 최소화하도록 하는 2개의 특징 맵(Al, Ar)을 획득한다.
인코더(120)는 도3 에 도시된 바와 같이 미리 학습된 2개의 컨볼루션 신경망(Convolution neural network: 이하 CNN)을 포함하며, 인코더(120)에 포함된 2개의 CNN은 동일한 구조를 갖고, 동일한 가중치(w)가 적용되어 피드 포워드 프로세스를 수행하는 샴(siamese) CNN으로 구현된다. 인코더(120)의 2개의 CNN은 지정된 패턴 인식 기법에 따라 미리 학습됨으로써, 입력 영상인 좌영상(Il)과 우영상(Ir) 각각으로부터 좌 특징 맵(Al)과 우 특징 맵(Ar)을 획득한다.
인코더(120)에 포함된 2개의 CNN이 동일한 가중치(w)가 적용되어 피드 포워드 프로세스(Fw)를 수행하므로, 2개의 특징 맵(Al, Ar)의 각 픽셀(i)은 수학식 1과 같이 획득된다.
Figure pat00001
매칭 비용 계산부(130)는 인코더(120)에서 출력된 특징 맵(Al, Ar)을 인가받아 특징 맵(Al, Ar)들 사이의 매칭 비용 볼륨(matching cost volume)(Cl, Cr)을 수학식 2와 같이 계산한다.
Figure pat00002
(여기서, ∥·∥1은 l1-norm 함수를 나타낸다.)
수학식 2는 좌 특징 맵(Al)에 대한 좌 매칭 비용 볼륨(Cl)을 계산하는 수학식을 나타내었으나, 좌 특징 맵(Ar)에 대한 좌 매칭 비용 볼륨(Cr)도 유사하게 계산될 수 있다.
디스패리티 맵 획득부(140)는 매칭 비용 계산부(130)에서 매칭 비용 볼륨(Cl, Cr)이 계산되면, 모든 픽셀(i)에 대해 최대 디스패리티 범위(maximum disparity range)(dmax)를 갖는 디스패리티 후보들(d={1, ..., dmax}) 중 매칭 비용 볼륨(Cl, Cr)이 최소화되는 디스패리티(d)를 수학식 3에 따라 탐색하여 획득함으로써, 디스패리티 맵을 생성한다.
Figure pat00003
수학식 3에서도 예시로서 좌 디스패리티(dl)를 계산하는 수학식만을 개시하였으나, 우 디스패리티(dr)에 대해서도 유사하게 계산할 수 있다.
수학식 3에 따르면, 디스패리티 맵 획득부(140)는 WTA(winner-takes-all) 방식으로 디스패리티 검색 범위에서 최소 매칭 비용을 갖는 디스패리티(d)를 획득한다.
즉 본 실시예에 따른 스테레오 매칭 장치(100)는 동일한 구조와 동일한 가중치(w)를 갖는 샴 CNN을 이용함으로써, 입력된 스테레오 영상(Il, Ir)으로부터 Il(ix, iy) = Ir(ix-dl(i), iy)를 만족하는 밀집 대응점(dense correspondence)을 확인하여, 각 픽셀(i)에 대한 좌 디스패리디(dl(i))를 추정한다.
이때 스테레오 매칭 장치(100)는 최대 디스패리티 범위(dmax)를 갖는 디스패리티 후보(d = {1, ..., dmax}) 중에서 적합한 좌 디스패리티(dl(i))를 추정하기 위해, Il(ix, iy)과 Ir(ix-d, iy) 사이의 매칭 비용(Cl(i))을 계산한다. 여기서 좌 디스패리티(dl(i))는 WTA 기법에 따라 매칭 비용(Cl(i))을 최소화하도록 결정될 수 있다. 그리고 획득된 좌 디스패리티(dl(i))로부터 좌 디스패리티 맵(dl)을 획득할 수 있다.
우 디스패리티 맵(dr) 또한 유사한 방식으로 획득될 수 있다.
상기에서는 스테레오 매칭 장치(100)가 좌 디스패리티 맵(dl)과 우 디스패리티 맵(dr)을 모두 획득하는 것으로 설명하였으나, 노이즈가 포함되지 않은 스테레오 영상에 대해 정확하게 좌 디스패리티 맵(dl)과 우 디스패리티 맵(dr)이 획득된다면, 좌 디스패리티 맵(dl)과 우 디스패리티 맵(dr)은 상호 대칭 구조를 갖게 된다. 따라서 스테레오 매칭 장치(100)는 좌 디스패리티 맵(dl)과 우 디스패리티 맵(dr) 중 적어도 하나를 스테레오 매칭 결과인 디스패리티 맵(d)으로서 출력할 수도 있다.
한편, CNN을 이용하여 매칭 비용을 계산하기 위해서는 상기한 바와 같이, CNN이 미리 학습되어야 하며, 이에 학습 레이블이 포함된 대량의 학습 영상이 요구된다. 그러나 학습 레이블이 포함된 대량의 학습 영상은 획득하기 어려우며, 따라서 CNN을 학습시키는 것이 용이하지 않다.
이에 본 실시예에서는 인코더(120)의 CNN 학습 시에 학습 레이블이 포함된 학습 영상을 요구하지 않고, 학습 레이블이 포함되지 않은 스테레오 영상을 이용하여 학습 레이블을 생성할 수 있도록 학습 맵 생성부(150)를 추가로 제안한다.
학습 맵 생성부(150)는 인코더(120)의 샴 CNN을 학습시키기 위해 추가되는 학습 레이블(또는 학습 레이블이 포함된 학습 영상)을 생성하는 구성이다. 즉 본 실시예에 따른 스테레오 매칭 장치(100)를 학습 시키기 위한 학습 장치에 포함되는 구성으로, 인코더(120)의 샴 CNN이 이미 학습된 경우, 제외될 수 있다.
학습 시에 스테레오 영상 입력부(110)는 인코더(120)의 샴 CNN을 학습시키기 위해 다수개의 스테레오 영상을 획득할 수 있다. 여기서는 일예로 스테레오 영상 입력부(110)가 T(여기서 T는 자연수)개 스테레오 영상을 획득하는 것으로 가정한다.
그리고 학습시에 인코더(120)의 샴 CNN에 대한 가중치(w)의 초기값은 기지정된 범위(예를 들면, 0 < w ≤ 1)에서 랜덤하게 선택된다.
학습 시에는 인코더(120)의 샴 CNN이 정상적으로 기능하지 않으므로, 인코더(120)에서 출력되는 특징 맵(Al, Ar)으로부터 획득되는 매칭 비용 볼륨(C)과 디스패리티 맵(dl, dr) 또한 신뢰할 수 없다.
그러나 본 발명의 학습 맵 생성부(150)는 학습되지 않은 인코더(120)에서 출력된 특징 맵(Al, Ar)으로부터 획득된 디스패리티 맵(dl, dr)에 대해 에피폴라 제약(epipolar constraint)에 따른 대응점 일관성(Correspondence Consistency)에 기반하여 신뢰할 수 있는 양성 샘플을 추정하고, 추정된 양성 샘플을 전파함으로써, 인코더(120)의 샴 CNN을 학습 시킬 수 있는 학습 맵을 생성한다.
학습 맵 생성부(150)는 동일한 입력 스테레오 영상에 대해 반복적으로 학습 맵을 생성하여, 학습 맵의 신뢰도를 점차로 증가시킨다. 그리고 다수개 스테레오 영상 각각에 대한 학습 맵을 생성함으로써, 샴 CNN이 다양한 스테레오 영상에 대해 매칭 비용을 최소화하기 위한 특징 맵(Al, Ar)을 신뢰성 있게 추출할 수 있도록 한다.
도3 을 참조하면, 학습 맵 생성부(150)는 양성 샘플 추출부(151), 보간 맵 생성부(153) 및 학습 맵 획득부(155)를 포함할 수 있다.
양성 샘플 추출부(151)는 디스패리티 맵 획득부(140)에서 획득된 좌 디스패리티 맵(dl) 및 우 디스패리티 맵(dr)을 인가받고, 좌 디스패리티 맵(dl) 및 우 디스패리티 맵(dr)의 각 디스패리티(dl(i), dr(i))에 대해 에피폴라 제약에 따른 대응점 일관성에 기반하여 양성 샘플을 탐색하여 추출한다.
스테레오 매칭에서 좌 영상의 픽셀들은 에피폴라 라인(epipolar line)을 가로질러 우 영상에 최대 하나의 매칭 픽셀을 가지며, 반대의 경우도 동일하다. 즉 좌 영상에서 우 영상으로의 픽셀 일치는 우 영상의 대응점(픽셀)이 좌영상에도 일치해야 한다.
이러한 에피폴라 제약에 따른 대응점 일관성을 이용하면, 수학식 4와 같이 좌 디스패리티 맵(dl) 및 우 디스패리티 맵(dr)에서 신뢰할 수 있는 양성 샘플을 추출할 수 있다.
Figure pat00004
여기서 t는 기지정된 임계값이다.
즉 수학식 4 에 따르면, 좌 디스패리티 맵(dl)과 우 디스패리티 맵(dr)에서 대응점 사이의 거리가 임계값(t) 미만인 픽셀이 희소 양성 샘플(sparse positive sample)(
Figure pat00005
)로 추정된다.
그리고 양성 샘플 추출부(151)는 추정된 희소 양성 샘플(
Figure pat00006
) 이외의 나머지 픽셀은 일관성이 없는 불량 픽셀로 판단하여 제거한다.
이때 추정된 희소 양성 샘플(
Figure pat00007
)은 모든 영상 도메인에 분포될 수 있으나, 객체의 경계와 질감없는(textureless) 영역의 모호함으로 인해 오류 샘플이 포함될 수 있으며, 이로 인해 학습 성능 저하를 유발할 수 있다.
이에 양성 샘플 추출부(151)는 대응점 일관성에 의해 좌 디스패리티 맵(dl)과 우 디스패리티 맵(dr) 각각 에서 추정된 양성 샘플은 유사한 색상값을 갖는다는 색상 유사성 제약 조건을 추가로 적용할 수 있다. 이 경우, 추정된 양성 샘플에서 색상 차가 기지정된 기준값 미만인 양성 샘플 만을 희소 양성 샘플(
Figure pat00008
)로 추정할 수 있다.
그리고 보간 맵 생성부(153)는 희소 양성 샘플(
Figure pat00009
)을 주변 픽셀로 전파하여 보간 맵(p)을 생성한다. 보간 맵 생성부(153)는 입력 컬러 영상을 가이드로 이용하여 희소 양성 샘플(
Figure pat00010
)을 인접 픽셀로 전파하는 보간 기법을 적용한다.
보간 맵 생성부(153)는 반복되는 학습 과정에서 수학식 5에 따른 전체 에너지 함수(J(p))가 최소화되도록 보간을 수행하여 보간 픽셀(pi)을 획득한다.
Figure pat00011
여기서 λ는 두 디스패리티 맵(dl, dr)에서 추정된 희소 양성 샘플(
Figure pat00012
) 사이의 밸런스를 제어하기 위한 상수이며, hi는 유효 픽셀인 경우 1이고 아니면 0을 나타내는 색인 함수이며, N4(i)는 보간 픽셀(pi)에 대한 인접 픽셀의 집합을 나타낸다. 그리고 범위 파라미터(σc)와 함께
Figure pat00013
로 정의되는 공간 변이 가중치 함수(wi,j(I))를 이용하여 평활도 제약이 적응적으로 강제된다.
그리고 보간 픽셀(pi)로 획득된 보간된 디스패리티 맵인 보간 맵(p)은 수학식 6에 의해 계산될 수 있다.
Figure pat00014
여기서
Figure pat00015
Figure pat00016
은 픽셀 수 S를 갖는 보간 맵(p)과 희소 양성 샘플 맵(
Figure pat00017
)의 S X 1 열 벡터를 나타내고, h는 희소 학습 샘플의 인덱스 벡터를 나타내며, m(m ∈ {0, ..., S-1})은 각 픽셀(i)에 대응하는 스칼라 인덱스(scalar index)를 나타낸다. 그리고 I는 항등 행렬, L은 수학식 7에 의해 정의되는 공간 변이 라플라시안 행렬을 나타낸다.
Figure pat00018
여기서 m 및 n은 픽셀에 대응하는 스칼라 인덱스를 나타내고, N4(m)은 픽셀 m에 대한 인접 픽셀의 집합을 나타낸다.
보간 맵 생성부(153)는 획득된 보간 맵(p)을 양성 샘플 추출부(151)로 전달하고, 양성 샘플 추출부(151)는 보간 맵 생성부(153)에서 전달된 보간 맵(p)에 대해 다시 대응점 일관성을 이용하여 양성 샘플을 학습 샘플(
Figure pat00019
)로서 획득한다. 이때 양성 샘플 추출부(151)는 학습 샘플(
Figure pat00020
)의 공간적 위치(Ω)를 함께 획득하여 학습 맵 획득부(155)로 전달한다.
학습 맵 획득부(155)는 양성 샘플 추출부(151)에서 전달되는 학습 샘플(
Figure pat00021
)과 위치(Ω)에 따라 학습 맵(
Figure pat00022
)을 획득하고, 획득된 학습 맵(
Figure pat00023
)을 디스패리티 맵 획득부(140)로 전달한다.
이에 디스패리티 맵 획득부(140)는 현재 인코더(120)의 샴 CNN에서 획득한 특징 맵(Al, Ar)으로부터 획득된 디스패리티 맵(d)과 학습 맵(
Figure pat00024
) 사이의 오차를 매칭 비용 계산부(130)를 통해 역전파함으로써, 샴 CNN의 가중치(w)가 학습 레이블(또는 학습 레이블이 포함된 학습 영상)을 기반으로 추정되는 오차에 따라 업데이트 되도록 한다. 즉 샴 CNN을 학습시킨다. 이러한 학습은 오차가 기지정된 기준 오차 이내로 감소될 때까지 반복적으로 수행될 수 있으며, 다수의 입력 스테레오 영상에 대해 각각 수행된다.
도3 에서 학습 맵 생성부(150)의 상세 동작을 살펴보면, 우선 양성 샘플 추출부(151)가 디스패리티 맵(d)에서 희소 양성 샘플(
Figure pat00025
)을 추출하고, 이후 보간 맵 생성부(153)가 보간 맵(p)을 생성하여 다시 양성 샘플 추출부(151)로 전달한다. 이에 양성 샘플 추출부(151)는 보간 맵(p)으로부터 학습 샘플(
Figure pat00026
)과 위치(Ω)를 추출하여 학습 맵 획득부(155)로 전달하고, 학습 맵 획득부(155)는 학습 샘플(
Figure pat00027
)과 위치(Ω)를 이용하여 학습 맵(
Figure pat00028
)을 획득한다.
상기한 바와 같이 학습 맵 생성부(150)가 입력된 스테레오 영상으로부터 에피폴라 제약에 따른 대응점 일관성을 이용하여 양성 샘플을 추출하고, 추출된 양성 샘플을 전파하여 학습 레이블을 획득하는 경우, 학습 레이블이 포함된 별도의 학습 영상을 획득할 필요가 없다는 장점이 있다.
또한 야외와 같이 조명의 변화가 강하게 나타나는 환경에서 획득된 스테레오 영상에 대해서도 신뢰성 있게 스테레오 매칭을 수행하도록 학습시킬 수 있으며, 폐색이나 질감없는 영역의 모호함에도 불구하고 높은 스테레오 매칭 성능을 나타내도록 학습 시킬 수 있다.
도3 에서 우측의 이미지(
Figure pat00029
,
Figure pat00030
,
Figure pat00031
)은 각각 좌 디스패리티 맵, 좌 희소 양성 샘플 맵 및 좌 학습 맵을 나타낸다. 도3 도시된 바와 같이, 초기 디스패리티 맵(
Figure pat00032
)에 비해 희소 양성 샘플 맵(
Figure pat00033
)에서 더욱 정확하게 객체가 표현됨을 알 수 있다. 그리고 학습 맵(
Figure pat00034
)은 희소 양성 샘플 맵(
Figure pat00035
)에서 누락된 픽셀이 보완됨으로써 영상 품질이 개선되었음을 알 수 있다.
여기서는 간단한 예시로서 좌 디스패리티 맵(
Figure pat00036
), 좌 희소 양성 샘플 맵(
Figure pat00037
) 및 좌 학습 맵(
Figure pat00038
)을 도시하였으나, 학습 맵 생성부(150)에서는 우 디스패리티 맵(
Figure pat00039
), 우 희소 양성 샘플 맵(
Figure pat00040
) 및 우 학습 맵(
Figure pat00041
) 또한 유사하게 획득된다.
도4 는 본 발명의 실시예에 따라 생성된 학습 맵의 예를 나타낸다.
도4 에서 (a)는 입력 스테레오 영상의 좌 영상을 나타내고, (b)는 본 실시예에 따라 생성된 학습 맵을 나타내고, (c)는 KITTI 벤치 마크에서 제공된 검증 자료(ground trouth)를 이용하여 생성된 디스패리티 맵을 나타낸다.
도4 에 도시된 바와 같이, 본 실시예에 따라 검증 자료가 포함되지 않은 스테레오 영상에서 획득된 학습 맵이 검증 자료가 포함된 디스패리티 맵에 비해 매우 양호한 수준의 학습용 디스패리티 맵을 제공함을 알 수 있다.
한편, 도3 에서 스테레오 영상의 좌 영상 및 우 영상 중 대응하는 영상을 각각 인가받아 특징 맵(Al, Ar)을 생성하는 샴 CNN의 구조는 다양하게 설계될 수 있다.
본 실시예에서는 일예로 샴 CNN의 구조를 심플 CNN 구조와 정밀 CNN 구조로 2가지 구조를 제안한다.
우선 심플 CNN 구조가 표1 에 나타나 있다. 심플 CNN은 빠른 동작이 3 X 3 크기의 컨볼루션 커널(convolution kernel)로 구성되는 4개의 컨볼루션 레이어(convolution layer)(conv1 ~ conv4)를 포함한다. 그리고 3개의 컨볼루션 레이어(conv1 ~ conv3)에는 활성 함수(activation function)로서 ReLU(Rectifier Linear Unit)가 적용된다. ReLU는 각 컨볼루션 레이어(conv1 ~ conv3)의 인코딩 결과에서 양수 부분만 다음 레이어로 전달되도록 한다.
그리고 마지막 컨볼루션 레이어(conv4)에는 ReLU 대신 L2 정규화 레이어(l2-norm)를 추가하여 음수의 인코딩 결과가 유지되도록 한다.
표1 에서 Correlation은 도1 의 매칭 비용 계산부(130)의 구성으로, 매칭 비용 계산부(130)는 매칭 비용 볼륨(C)을 획득하기 위해 입력되는 스테레오 이미지의 크기가 h x w일때, 디스패리티 후보(d={1, ..., dmax})에 대해 h x w x dmax 횟수의 연산을 필요로 한다.
Figure pat00042
표1 의 심플 CNN으로도 일정 수준 이상의 성능을 나타낼 수 있으나, 각 컨볼루션 레이어(conv1 ~ conv4)에서 출력되는 특징 맵의 크기를 조절하지 않는 단일 스케일(single scale) 구조로 식별력(discriminative power)과 수용 영역(receptive field)에 한계가 있다.
표2 에 나타난 정밀 CNN 구조에서는 서브 샘플링 레이어와 스킵 커넥션을 포함하는 U-net 구조를 이용한다. 이는 피드 포워드 프로스를 통해 다중 스케일(multi scale) 정보를 증가시킨다.
정밀 CNN 구조에서는 수렴 경로(contracting path)와 확장 경로(expansive path)가 포함되며, 수렴 경로에서는 일반적인 CNN과 마찬가지로 2개의 3 x 3 컨볼루션 커널을 연속하여 적용하고, 각각 배치 정규화(batch normalization) 및 ReLU를 수행한 후, 다운 샘플링을 위해 맥스 풀링(max pooling)을 수행할 수 있다. 이때 스트라이드(stride)는 2로 설정될 수 있다. 각 다운 샘플링 단계에서 채널의 수는 2배로 증가된다.
반면 확장 경로에서는 각 단계별로 특징 맵의 업 샘플링과 업 컨볼루션 및 채널의 수를 반으로 줄이고, 2개의 3 x 3 컨볼루션 커널과 배치 정규화 및 ReLU가 적용된다. 그리고 마지막 레이어에서 배치 정규화 및 ReLU 대신 L2 정규화 레이어(l2-norm)를 추가하여 음수의 인코딩 결과가 유지되도록 한다.
표2 에서도 Correlation은 도1 의 매칭 비용 계산부(130)의 구성으로, 매칭 비용 볼륨(C)을 계산한다.
Figure pat00043
상기에서는 샴 CNN의 구조의 일예로 심플 CNN 구조와 정밀 CNN 구조로 2가지 구조를 제안하였으나, 본 발명은 이에 한정되지 않는다.
도5 는 본 발명의 일 실시예에 따른 스테레오 매칭 방법 및 이의 학습 방법에 대한 개략적 구성을 나타내고, 도6 은 도5 의 학습 맵 생성 및 학습 단계를 상세하게 나타내며, 도7 은 도4 의 학습 맵 생성 및 학습 단계의 알고리즘을 나타낸다.
도5 내지 도7 을 참조하여 본 실시예에 따른 스테레오 매칭 방법 및 이의 학습 방법을 설명하면, 우선 스테레오 매칭 장치를 학습 시키기 위해, 다수의 학습 스테레오 영상이 스테레오 영상 입력부(110)로 입력된다(S10). 여기서 다수의 학습 스테레오 영상은 단순히 학습을 위해 이용되는 스테레오 영상을 의미하는 것으로, 학습 레이블이 포함되지 않은 일반의 스테레오 영상이다. 즉 본 실시예에서는 스테레오 매칭 장치의 학습을 위해 학습 레이블이 포함된 별도로 제작된 학습용 스테레오 영상을 요구하지 않는다.
그리고 다수의 학습 스테레오 영상 각각에 대해 스테레오 매칭 방식과 동일한 방식으로 학습 디스패리티 맵(d)을 획득한 후, 획득된 디스패리티 맵(d)로부터 학습 맵을 생성하고 학습한다(S20).
도6 및 도7 을 참조하여, 학습 맵 생성 및 학습 단계를 상세하게 설명하면, 인코더(120)에서 학습이 완료되지 않은 동일한 구조와 동일한 가중치(w)를 갖는 2개의 샴 CNN이 학습 스테레오 영상으로부터 학습 특징 맵(Al, Ar)을 추출한다(S21). 그리고 매칭 비용 계산부(130)는 특징 맵(Al, Ar)으로부터 학습 매칭 비용 볼륨(Cl, Cr)을 계산한다(S22).
디스패리티 맵 획득부(140)는 획득된 매칭 비용 볼륨(Cl, Cr)의 모든 픽셀(i)에 대해 디스패리티 후보들(d={1, ..., dmax}) 중 매칭 비용 볼륨(Cl, Cr)이 최소화되는 디스패리티(d)를 수학식 3에 따라 획득하여 학습 디스패리티 맵(d)을 생성한다(S23).
학습 특징 맵 추출 단계(S21)부터 디스패리티 맵 생성 단계(S23)까지는 스테레오 매칭 장치가 스테레오 매칭을 수행하는 방법과 동일하다. 다만 상기한 바와 같이 학습 시에는 인코더(120)의 샴 CNN이 학습 완료되지 않은 상태라는 스테레오 매칭 동작과 상이하다.
학습 디스패리티 맵(d)이 획득되면, 학습 맵 생성부(150)의 양성 샘플 추출부(151)가 학습 디스패리티 맵(d)에 대해 에피폴라 제약에 따른 대응점 일관성에 기반하여 희소 양성 샘플(
Figure pat00044
)을 추정한다(S24). 이때 양성 샘플 추출부(151)는 추정된 희소 양성 샘플(
Figure pat00045
) 이외의 나머지 픽셀은 제거한다.
한편, 보간 맵 생성부(153)는 입력 컬러 영상을 가이드로 이용하여 희소 양성 샘플(
Figure pat00046
)을 인접 픽셀로 전파하는 보간 기법에 따라 보간 픽셀(pi)을 획득함으로써, 보간 맵(p)을 생성한다(S25).
양성 샘플 추출부(151)는 보간 맵(p)에 대해 다시 대응점 일관성에 기반하여 학습 샘플(
Figure pat00047
)의 공간적 위치(Ω)를 추정한다(S26). 그리고 학습 맵 획득부(155)는 양성 샘플 추출부(151)에서 전달되는 학습 샘플(
Figure pat00048
)과 위치(Ω)에 따라 학습 맵(
Figure pat00049
)을 획득한다(S27).
획득된 학습 맵(
Figure pat00050
)은 디스패리티 맵 획득부(140)로 전달되고, 디스패리티 맵 획득부(140)는 디스패리티 맵(d)과 학습 맵(
Figure pat00051
) 사이의 오차를 매칭 비용 계산부(130)를 통해 역전파함으로써, 샴 CNN의 가중치(w)가 업데이트 되도록 한다(S28). 즉 샴 CNN을 학습시킨다.
상기한 학습은 오차가 기지정된 기준 오차 이내로 감소될 때까지 반복적으로 수행될 수 있으며, 다수의 입력 스테레오 영상에 대해 각각 반복적으로 수행된다.
다시 도5 를 참조하면, 인코더(120)의 샴 CNN에 대한 학습이 완료된 이후, 스테레오 매칭을 수행할 스테레오 영상이 스테레오 영상 입력부(110)로 입력된다.
그리고 인코더(120)에서 학습이 완료된 2개의 샴 CNN이 특징 맵(Al, Ar)을 추출한다(S40). 매칭 비용 계산부(130)는 추출된 특징 맵(Al, Ar)으로부터 매칭 비용 볼륨(Cl, Cr)을 계산한다(S50).
디스패리티 맵 획득부(140)는 매칭 비용 볼륨(Cl, Cr)이 최소화되는 디스패리티(d)를 수학식 3에 따라 획득하여 디스패리티 맵(d)을 생성함으로써, 스테레오 매칭을 수행한다(S60).
한편, 본 발명의 실시예에 따른 학습 맵 생성부(150)는 대응점 일관성을 이용하여 불일치 픽셀을 제거하며 오차 역전파 과정이 포함됨으로써, 손실이 발생될 수 있다. 이는 모든 가능한 디스패리티 후보들에 대한 각 픽셀의 소프트 맥스 손실(softmax loss)을 허용한다.
본 실시예에서는 각 픽셀 및 디스패리티 후보들에 대해 엔트로피 손실을 계산하며, 엔트로피 손실은 수학식 8로 정의된다.
Figure pat00052
여기서 s는 sx = {ix - 1, ..., ix - dmax}로 모든 디스패리티에 대해 정의되는 값이며, PT(s;i)는 샘플링 된 학습 집합에 대해 1이고, 이외에는 0으로 정의되는 레이블이고, P(s;i)는 수학식 9와 같이 정의되는 소프트 맥스 확률이다.
Figure pat00053
여기서 v는 s와 마찬가지로, vx = {ix - 1, ..., ix - dmax}로 모든 디스패리티에 대해 정의되는 값이다. 수학식 9에서는 음의 부호를 적용함으로써, 유사성 스코어를 매칭 비용으로 변환한다.
학습된 CNN을 이용하더라도, 원본 매칭 비용 볼륨으로는 정확한 디스패리티 맵을 생성하기에 충분하지 않을 수가 있다. 특히 질감 없는 영역과 폐색 영역에서 오류가 발생할 수 있다. 이에 기존의 스테레오 매칭 기법과 마찬가지로 후처리 작업이 더 추가될 수 있다.
후처리 작업은 글로벌 매칭과 이후 일관성 검사, 서브 픽셀 강조, 중간값 및 양방향 필터링 작업이 포함될 수 있다.
반 전역 매칭(Semi-Global Matching)은 디스패리티 맵에 대해 평활 제약(smoothness constraint) 조건을 적용하여 매칭 비용을 저감 시킨다.
디스패리티 맵(d)의 에너지 함수(E(d))를 수학식 10과 같이 정의할 수 있다.
Figure pat00054
수학식 10에서
Figure pat00055
는 매칭 비용이 높은 디스패리티에 패널티를 부가하고,
Figure pat00056
Figure pat00057
는 각각 불연속적인 디스패리티와 P1 < P2의 조건에 대해 패널티를 부가한다.
반 전역 매칭 기법에서는 여러 방향에 따라 동적 프로그래밍 스타일로 1차원 비용 업데이트를 수행하여 근사값을 획득하며, 일반적으로 두개의 수평 방향과 2개의 수직 방향에 따라 최적화 한다. 이에 방향 r에서의 수학식 10의 에너지 함수(E(d))를 최소화하기 위해 방향 r을 따른 매칭 비용(Lr(i,d(i)))을 수학식 11과 같이 정의한다.
Figure pat00058
수학식 11을 이용하여 4개의 방향에 대한 비용을 평균한 후, 좌측 및 우측 방향에 대한 초기 디스패리티 맵을 계산할 수 있다.
이후 보간, 서브 픽셀 강조 및 순화와 같은 후처리를 통해 초기 디스패리티 맵을 개선할 수 있다. 보간은 좌우 일관성 검사를 수행하여 좌 디스패리티 매과 우 디스패리티 맵 사이의 충돌을 해소하며, 서브 픽셀 강조는 이차 함수를 인접한 픽셀에 적용하여 서브 픽셀이 강조된 디스패리티 맵을 획득한다.
이후, 에지를 흐리게 하지 않고 디스패리티 맵을 평활화하기 위해, 5 x 5 중간값 필터 및 양측 필터를 순차적으로 적용할 수 있다.
이하에서는 본 실시예에 따른 스테레오 매칭 장치 및 방법의 성능을 시뮬레이션한 결과를 나타낸다.
VLFeat MatConNet Toolbox를 사용하여 시뮬레이션 환경을 구성하였으며, 학습을 위한 스테레오 영상은 알려진 KITTI, Middlebury, HCI 및 Yonsei 벤치 마크 스테레오 영상에서 임의의 256 X 512 크기로 잘라낸 패치를 이용하였으며, 최대 디스패리티 범위(dmax)는 228, 116, 140, 80으로 설정되었다.
KITTI 2012와 KITTI 2015에서 각각 194와 200 쌍의 스테레오 영상과 2005년과 2006년 사이의 Middlebury의 27 쌍의 스테레오 영상을 비지도 방식으로 학습하였으며, 특히 조명의 변화에 대한 신뢰성을 평가히기 위해, Middlebury에서 3가지 다른 조건을 갖는 스테레오 영상을 이용하였다. 또한, 다양한 야외 운전 조건을 평가하기 위해, 11개의 도전 시나리오가 포함된 HCI 벤치 마크와 시간 및 계절의 조건이 상이한 53개의 Yonsei 벤치 마크 스테레오 영상을 이용하였다.
그리고 임계값(t)은 1, 밸런스 상수(λ)는 202, 범위 파라미터(σc)는 0.015로 설정되었다. 또한 학습 최적화를 위해 초기 학습율(initial learning rate)과 모멘텀(momentum) 및 가중치 감쇄(weight decay)는 각각 0.001, 0.9 및 0.005로 설정되었다.
표3 은 본 실시예에 따라 생성된 학습 맵(
Figure pat00059
)을 이용한 비지도 학습 방법을 다른 비지도 학습 방법과 비교하여 시뮬레이션 한 결과로 MIDDLEBURY, KITTI 2012, 및 KITTI 2015 학습 데이터에 대한 비지도 학습 방법에서의 오차율의 정량적 비교 결과를 나타낸다.
Figure pat00060
표3 에서는 본 실시예에서 대응점 일관성 및 양성 샘플 전파를 수행하는 경우와 수행하지 않는 경우(w/o PP)도 함께 비교하여 시뮬레이션하였으며, 심플 CNN을 이용하였다. 그리고 최종 매칭 비용 볼륨에서 spatial transformer network(STN)의 영상 샘플링과 soft-argmin을 적용하였으며, 색상 일관성(Col. consistency) 또는 색상 및 디스패리티 일관성(Col. Disp. Consistency)를 이용하여 학습 맵을 생성하는 경우를 비교하였다.
표3 에 나타난 바와 같이, 본 실시예에 따른 비지도 학습 방법을 이용하는 경우, 다른 비지도 학습 방법에 비해, 대응점 일관성 및 양성 샘플 전파를 수행하지 않는 경우에도 더 나은 성능을 나타내지만, 수행하는 경우 더 향상된 성능을 나타냄을 알 수 있다.
표4 는 본 실시예의 인코더(120)에서 CNN의 구조에 따른 성능 비교 결과를 나타낸다. 표4 에서는 Census와 MC-CNN fast, Content-CNN, MC-CNN-WS와 표1 및 표2 의 심플 CNN 및 정밀 CNN을 비교한 결과를 나타내며, 표3 에서와 마찬가지로 MIDDLEBURY, KITTI 2012, 및 KITTI 2015 학습 데이터에 대한 비지도 학습 방법에서의 오차율의 정량적 비교 결과를 나타낸다.
Figure pat00061
표4 에 나타난 바와 같이 본 실시예에 따른 CNN의 구조를 이용하는 경우, 심플 CNN을 이용하더라도 다른 CNN 구조에 비해 양호한 성능을 나타내며, 정밀 CNN을 이용하는 경우 매우 우수한 성능을 나타냄을 알 수 있다.
도8 은 본 발명의 실시예에 따른 학습 맵의 생성 과정에서 생성되는 맵의 예를 나타낸다.
도8 에서 (a)는 스테레오 영상 입력부(110)에 입력된 입력 스테레오 영상의 좌 영상을 나타내고, (b)는 디스패리티 맵 획득부(140)에서 WTA 기법에 따라 획득된 좌 영상의 디스패리티 맵을 나타내며, (c)는 학습 맵 생성부(150)의 양성 샘플 추출부(151)에서 대응점 일관성을 이용하여 획득된 희소 양성 샘플 맵(
Figure pat00062
)을 나타낸다.
그리고 (d)는 보간 맵 생성부(153)에서 보간된 보간 맵(p)을 나타내고, (e)는 양성 샘플 추출부(151)에서 보간 맵(p)에 대해 다시 대응점 일관성을 이용하여 획득된 학습 맵(
Figure pat00063
)을 나타내며, (f)는 검증 자료 디스패리티 맵을 나타낸다.
도9 는 본 발명의 실시예에 따른 학습 샘플과 다른 비지도 학습 방식으로 획득되는 샘플을 비교한 도면이다.
도9 에서 (a)는 입력 스테레오 영상의 좌 영상을 나타내고, (b)는 대응점 일관성 및 총 변동 임계값을 적용한 희소 양성 샘플 맵(
Figure pat00064
)을 나타내며, (c)는 MC-CNN 스테레오 알고리즘과 신뢰도 임계값을 적용한 방법을 나타낸다.
(d) 내지 (h)는 본 실시예에서 초기 랜덤 가중치와 반복 횟수를 1, 3, 5, 7로 설정한 경우에 반복 횟수에 따라 획득되는 학습 맵(
Figure pat00065
)을 나타내고, (i)는 검증 자료 디스패리티 맵을 나타낸다.
도8 및 도9 에서 본 실시예에 따라 생성된 학습 맵(
Figure pat00066
)은 검증 자료 디스패리티 맵에 비교하여도 양호한 품질의 학습용 맵을 제공할 수 있음을 알 수 있다. 또한 학습 맵(
Figure pat00067
)을 획득하기 위한 과정을 반복함으로써, 더욱 우수한 학습 맵(
Figure pat00068
)을 획득할 수 있음을 알 수 있다.
도10 내지 도12 는 본 발명의 실시예에 따른 CNN의 구조에 따른 학습 샘플을 비교한 도면이다.
도10 내지 도12 는 각각 Middlebury, KITTI 2012 및 KITTI 2015 데이터 집합에 대해 디스패리티 맵을 획득한 결과를 나타낸다.
도10 내지 도12 각각에서 에서 왼쪽 영상은 입력 스테레오 영상의 좌 영상을 나타내고, 가운데 영상은 표1 의 심플 CNN 구조를 이용하여 획득된 디스패리티 맵을 나타내고, 우측 영상은 표2 의 정밀 CNN 구조를 이용하여 획득된 디스패리티 맵을 나타낸다.
도10 및 도12 를 참조하면, 비록 심플 CNN 구조보다 정밀 CNN 구조에서 더욱 정확한 디스패리티 맵이 획득됨을 알 수 있으나, 심플 CNN 구조 및 정밀 CNN 구조 모두에서 학습 맵으로 이용하기에 양호한 디스패리티 맵을 획득할 수 있음을 알 수 있다.
도13 및 도14 는 본 발명의 실시예에 따른 CNN의 구조에 따른 스테레오 매칭 결과를 비교한 도면이다.
도13 및 도14 는 각각 KITTI 2012 및 KITTI 2015 데이터 집합에 대해 스테레오 매칭 결과로 획득한 디스패리티 맵을 나타내었으며, 왼쪽 영상은 입력 스테레오 영상의 좌 영상을 나타내고, 가운데 영상은 표1 의 심플 CNN 구조를 이용하여 획득된 디스패리티 맵을 나타내고, 우측 영상은 표2 의 정밀 CNN 구조를 이용하여 획득된 디스패리티 맵을 나타낸다.
도13 및 도14 에서도 심플 CNN 구조보다 정밀 CNN 구조에서 더욱 정확한 디스패리티 맵이 획득됨을 알 수 있으나, 심플 CNN 구조 및 정밀 CNN 구조 모두에서 모두 양호한 스테레오 매칭 결과로서의 디스패리티 맵을 획득할 수 있음을 알 수 있다.
표5 는 본 실시예의 인코더(120)에서 CNN의 구조에 따른 스테레오 매칭 성능 비교 결과를 나타낸다. 표4 에서는 기존의 Guided Filter, Census + SGM, DLP, MC-CNN fast, MC-CNN acrt, Content-CNN, MC-CNN-WS와 표1 및 표2 의 심플 CNN 및 정밀 CNN을 비교한 결과를 나타내며, KITTI 2012 및 KITTI 2015 학습 데이터에 대한 비지도 학습 방법에서의 오차율의 정량적 비교 결과를 나타낸다.
Figure pat00069
도15 및 도16 은 본 실시예에 따른 비지도 학습 방법의 조명에 대한 강건성을 시뮬레이션한 결과를 나타낸다.
조명의 변화에 따른 효과를 분석하기 위해 모든 영상에 대한 노출 지수를 1로 설정하고, 조명 지수를 1에서 3으로 변경하였다. 즉 좌측 및 추측 조명이 1/3인 경우에 대한 시뮬레이션 결과를 나타낸다.
그리고 도15 에서는 Middlebury 데이터 집합을 이용하였으며, 왼쪽 2개의 영상은 입력되는 스테레오 영상의 좌영상 및 우영상을 나타내고, 이후 우측 방향으로 특징 기반의 DASC (Dense Adaptive Self-Correlation)와 색상 및 디스패리티 일관성(Col. Disp. Consistency), 본 실시예 및 검증 자료 디스패리티 맵을 나타낸다.
도15 에서 확인할 수 있듯이 본 실시예에 따른 비지도 학습 방법에 따라 학습된 스테레오 매칭 장치는 조명의 변화에도 다른 학습 방식에 비해 매우 우수한 성능을 나타냄을 알 수 있다.
그리고 도16 에 도시된 바와 같이 본 실시예에 따른 비지도 학습 방법은 조명의 변화에 대해 심플 CNN을 이용하는 경우에도 다른 학습 방식과 유사한 매칭 비용을 갖지만, 정밀 CNN을 이용하는 경우, 매우 낮은 오차율을 나타냄을 알 수 있다.
도17 및 도18 은 야외 운전 환경에서의 스테레오 매칭 성능을 시뮬레이션한 결과를 나타낸다.
도17 은 HCI 데이터 집합에 대해 시뮬레이션한 결과를 나타내고, 도18 은 Yonsei 데이터 집합에 대한 시뮬레이션한 결과를 나타낸다.
도17 및 도18 에서 왼쪽 영상은 입력 스테레오 영상의 좌 영상을 나타내고, 가운데 영상은 표1 의 심플 CNN 구조를 이용하여 획득된 디스패리티 맵을 나타내고, 우측 영상은 표2 의 정밀 CNN 구조를 이용하여 획득된 디스패리티 맵을 나타낸다.
도17 및 도18 로부터 본 실시예에 따른 비지도 학습 방법으로 학습된 스테레오 매칭 장치 및 방법은 야외의 실제 운전 환경에서도 우수한 스테레오 매칭 성능을 나타냄을 알 수 있다.
표 6 은 본 실시예에 따른 스테레오 매칭 장치 및 방법의 스테레오 매칭 속도를 시뮬레이션한 결과를 나타낸다.
표6 에서는 DLP 기법과 본 실시예에 따른 심플 CNN 구조 및 정밀 CNN 구조의 인코더를 이용한 경우를 비교한 결과를 나타내며, KITTI 2012, KITTI 2015 및 MIDDLEBURY에 대해 시뮬레이션한 결과를 나타낸다. 또한 KITTI와 MIDDLEBURY에 대해 서로 다른 해상도의 패치를 이용하여 시뮬레이션한 결과를 나타낸다.
Figure pat00070
표6 에 나타난 바와 같이 본 실시예에 따른 심플 CNN 구조를 갖는 스테레오 매칭 방법은 DLP에 비해 조금 느리게 동작하지만 스테레오 매칭 성능에 있어서는 상기한 바와 같이 DLP에 비해 월등하다. 그리고 정밀 CNN 구조를 갖는 경우 처리 속도가 느린 반면 매우 우수한 스테레오 매칭 성능을 나타내므로, 효율성과 정확성 사이의 균형을 고려하여 필요한 CNN 구조를 선택적으로 이용할 수 있다.
본 발명에 따른 방법은 컴퓨터에서 실행 시키기 위한 매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다. 여기서 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스 될 수 있는 임의의 가용 매체일 수 있고, 또한 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함하며, ROM(판독 전용 메모리), RAM(랜덤 액세스 메모리), CD(컴팩트 디스크)-ROM, DVD(디지털 비디오 디스크)-ROM, 자기 테이프, 플로피 디스크, 조명데이터 저장장치 등을 포함할 수 있다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.
따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (10)

  1. 동일 구조와 동일한 가중치를 가지며 비지도 학습 방식으로 미리 학습된 2개의 컨볼루션 신경망(Convolutional Neural Networks: CNN)을 포함하여, 입력되는 스테레오 영상으로부터 특징 맵들을 추출하는 인코더;
    상기 특징 맵 사이의 매칭 비용 볼륨을 계산하는 매칭 비용 계산부; 및
    기지정된 최대 디스패리티 범위를 갖는 디스패리티 후보들 중 매칭 비용 볼륨을 최소화하는 디스패리티를 각 픽셀 별로 획득하고, 획득된 디스패리티로부터 디스패리티 맵을 생성하는 디스패리티 맵 획득부; 를 포함하고,
    상기 2개의 CNN은
    학습 시에 입력된 스테레오 영상으로부터 획득된 디스패리티 맵에 대해 에피폴라 제약에 따른 대응점 일관성에 기반하여 양성 샘플을 추정하고, 추정된 양성 샘플을 인접 픽셀로 전파하여 생성되는 학습 맵들과 디스패리티 맵 사이의 오차를 역전파하여 학습되는 스테레오 매칭 장치.
  2. 제1 항에 있어서, 상기 2개의 CNN은
    디스패리티 맵에 대해 에피폴라 제약에 따른 대응점 일관성에 기반하여, 대응점 사이의 거리가 기지정된 임계감 미만인 픽셀을 희소 양성 샘플로 추정하여 희소 양성 샘플 맵을 획득하고,
    상기 희소 양성 샘플 맵에서 상기 희소 양성 샘플을 보간 기법으로 인접 픽셀로 전파하여 보간 맵을 생성하며,
    상기 보간 맵에 대해 다시 대응점 일관성따라 학습 샘플을 추정하며, 추정된 상기 학습 샘플로부터 상기 학습 맵을 생성하여 학습되는 스테레오 매칭 장치.
  3. 제2 항에 있어서, 상기 보간 맵은
    상기 희소 양성 샘플 맵에서 색상 유사성 제약 조건에 따라 입력 스테레오 영상의 컬러를 가이드로 이용하여, 상기 희소 양성 샘플을 인접 픽셀로 전파하여 생성되는 스테레오 매칭 장치.
  4. 제3 항에 있어서, 상기 보간 맵은
    희소 양성 샘플의 색상과 인접한 픽셀들 사이의 색상 평활도 제약에 따라 기지정된 에너지 함수가 최소화되는 보간 픽셀이 획득되고, 획득된 보간 픽셀로부터 생성되는 스테레오 매칭 장치.
  5. 제1 항에 있어서, 상기 2개의 CNN은
    학습 시에 입력된 디스패리티 맵과 상기 학습 맵 사이의 오차를 역전파하여 가중치를 업데이트 함으로써 학습되며, 상기 오차가 기지정된 기준 오차 이내가 되도록 반복적으로 학습 레이블을 생성하여 반복 학습되는 스테레오 매칭 장치.
  6. 동일 구조와 동일한 가중치를 가지며 비지도 학습 방식으로 미리 학습된 2개의 컨볼루션 신경망(Convolutional Neural Networks: CNN)을 이용하여 입력되는 스테레오 영상으로부터 특징 맵들을 추출하는 단계;
    상기 특징 맵 사이의 매칭 비용 볼륨을 계산하는 단계; 및
    기지정된 최대 디스패리티 범위를 갖는 디스패리티 후보들 중 매칭 비용 볼륨을 최소화하는 디스패리티를 각 픽셀 별로 획득하고, 획득된 디스패리티로부터 디스패리티 맵을 생성하는 단계; 를 포함하고,
    상기 2개의 컨볼루션 신경망은
    입력된 스테레오 영상으로부터 획득된 디스패리티 맵에 대해 에피폴라 제약에 따른 대응점 일관성에 기반하여 양성 샘플을 추정하고, 추정된 양성 샘플을 인접 픽셀로 전파하여 생성되는 학습 맵들과 디스패리티 맵 사이의 오차를 역전파하여 학습되는 스테레오 매칭 방법.
  7. 제6 항에 있어서, 상기 특징 맵들을 추출하는 단계는
    디스패리티 맵에 대해 에피폴라 제약에 따른 대응점 일관성에 기반하여, 대응점 사이의 거리가 기지정된 임계감 미만인 픽셀을 희소 양성 샘플로 추정하여 희소 양성 샘플 맵을 획득하는 단계;
    상기 희소 양성 샘플 맵에서 상기 희소 양성 샘플을 보간 기법으로 인접 픽셀로 전파하여 보간 맵을 생성하는 단계; 및
    상기 보간 맵에 대해 다시 대응점 일관성따라 학습 샘플을 추정하며, 추정된 상기 학습 샘플로부터 상기 학습 맵을 생성하는 단계; 를 포함하는 학습 방법에 따라 미리 학습되는 스테레오 매칭 방법.
  8. 제7 항에 있어서, 상기 보간 맵을 생성하는 단계는
    상기 희소 양성 샘플 맵에서 색상 유사성 제약 조건에 따라 입력 스테레오 영상의 컬러를 가이드로 이용하여, 상기 희소 양성 샘플을 인접 픽셀로 전파하여 생성되는 스테레오 매칭 방법.
  9. 제8 항에 있어서, 상기 보간 맵을 생성하는 단계는
    희소 양성 샘플의 색상과 인접한 픽셀들 사이의 색상 평활도 제약에 따라 기지정된 에너지 함수가 최소화되는 보간 픽셀이 획득하는 단계; 및
    획득된 보간 픽셀을 이용하여 상기 보간 맵을 생성하는 단계; 를 포함하는 스테레오 매칭 방법.
  10. 제6 항에 있어서, 상기 특징 맵들을 추출하는 단계는
    학습 시에 입력된 디스패리티 맵과 상기 학습 맵 사이의 오차를 역전파하여 가중치를 업데이트 함으로써 학습되며, 상기 오차가 기지정된 기준 오차 이내가 되도록 반복적으로 학습 레이블을 생성하여 반복 학습되는 스테레오 매칭 방법.
KR1020180146709A 2018-11-23 2018-11-23 대응점 일관성에 기반한 비지도 학습 방식의 스테레오 매칭 장치 및 방법 KR102219561B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180146709A KR102219561B1 (ko) 2018-11-23 2018-11-23 대응점 일관성에 기반한 비지도 학습 방식의 스테레오 매칭 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180146709A KR102219561B1 (ko) 2018-11-23 2018-11-23 대응점 일관성에 기반한 비지도 학습 방식의 스테레오 매칭 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20200063368A true KR20200063368A (ko) 2020-06-05
KR102219561B1 KR102219561B1 (ko) 2021-02-23

Family

ID=71089322

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180146709A KR102219561B1 (ko) 2018-11-23 2018-11-23 대응점 일관성에 기반한 비지도 학습 방식의 스테레오 매칭 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102219561B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112132201A (zh) * 2020-09-17 2020-12-25 长春理工大学 一种基于卷积神经网络的非端到端立体匹配方法
KR102259877B1 (ko) * 2020-12-22 2021-06-07 주식회사 딥노이드 심층신경망을 기초로 다중 방향 영상에서 객체를 검출하기 위한 장치 및 이를 위한 방법
KR20220021174A (ko) 2020-08-13 2022-02-22 연세대학교 산학협력단 다중 스펙트럼 영상 매칭 장치 및 방법
US20220270354A1 (en) * 2019-08-15 2022-08-25 Guangzhou Huya Technology Co., Ltd. Monocular image-based model training method and apparatus, and data processing device
CN115546521A (zh) * 2022-11-07 2022-12-30 佳木斯大学 基于关键点响应约束的点匹配方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102375541B1 (ko) 2021-11-02 2022-03-17 주식회사 스누아이랩 구조적 일관성 손실을 갖는 인공지능서비스장치 및 그 장치의 구동방법
KR20230088941A (ko) 2021-12-13 2023-06-20 연세대학교 산학협력단 도메인에 강건한 깊이 추정 장치 및 방법

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110110583A1 (en) * 2008-06-24 2011-05-12 Dong-Qing Zhang System and method for depth extraction of images with motion compensation
KR101354387B1 (ko) 2009-10-23 2014-01-22 퀄컴 인코포레이티드 2d 비디오 데이터의 3d 비디오 데이터로의 컨버전을 위한 깊이 맵 생성 기술들
US20170124711A1 (en) * 2015-11-04 2017-05-04 Nec Laboratories America, Inc. Universal correspondence network
US20180217600A1 (en) * 2015-02-10 2018-08-02 Mobileye Vision Technologies Ltd. Sparse map autonomous vehicle navigation
KR20180087994A (ko) * 2017-01-26 2018-08-03 삼성전자주식회사 스테레오 매칭 방법 및 영상 처리 장치
WO2018208791A1 (en) * 2017-05-08 2018-11-15 Aquifi, Inc. Systems and methods for inspection and defect detection using 3-d scanning
KR20200020705A (ko) * 2017-05-19 2020-02-26 모비디어스 리미티드 파이프라인 실행을 최적화하기 위한 방법들, 시스템들 및 장치

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110110583A1 (en) * 2008-06-24 2011-05-12 Dong-Qing Zhang System and method for depth extraction of images with motion compensation
KR101354387B1 (ko) 2009-10-23 2014-01-22 퀄컴 인코포레이티드 2d 비디오 데이터의 3d 비디오 데이터로의 컨버전을 위한 깊이 맵 생성 기술들
US20180217600A1 (en) * 2015-02-10 2018-08-02 Mobileye Vision Technologies Ltd. Sparse map autonomous vehicle navigation
US20170124711A1 (en) * 2015-11-04 2017-05-04 Nec Laboratories America, Inc. Universal correspondence network
KR20180087994A (ko) * 2017-01-26 2018-08-03 삼성전자주식회사 스테레오 매칭 방법 및 영상 처리 장치
WO2018208791A1 (en) * 2017-05-08 2018-11-15 Aquifi, Inc. Systems and methods for inspection and defect detection using 3-d scanning
KR20200020705A (ko) * 2017-05-19 2020-02-26 모비디어스 리미티드 파이프라인 실행을 최적화하기 위한 방법들, 시스템들 및 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Evaluation of Cost Functions for Stereo Matching. Heiko Hirschmuller, Daniel Scharstein. 2007 IEEE Conference on Computer Vision and Pattern Recognition.* *
UNSUPERVISED STEREO MATCHING USING CORRESPONDENCE CONSISTENCY. Sunghun Joung, Seungryong Kim, Bumsub Ham, Kwanghoon Sohn. IEEE(2017). Date of Conference : 17-20 Sept. 2017.* *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220270354A1 (en) * 2019-08-15 2022-08-25 Guangzhou Huya Technology Co., Ltd. Monocular image-based model training method and apparatus, and data processing device
KR20220021174A (ko) 2020-08-13 2022-02-22 연세대학교 산학협력단 다중 스펙트럼 영상 매칭 장치 및 방법
CN112132201A (zh) * 2020-09-17 2020-12-25 长春理工大学 一种基于卷积神经网络的非端到端立体匹配方法
CN112132201B (zh) * 2020-09-17 2023-04-28 长春理工大学 一种基于卷积神经网络的非端到端立体匹配方法
KR102259877B1 (ko) * 2020-12-22 2021-06-07 주식회사 딥노이드 심층신경망을 기초로 다중 방향 영상에서 객체를 검출하기 위한 장치 및 이를 위한 방법
CN115546521A (zh) * 2022-11-07 2022-12-30 佳木斯大学 基于关键点响应约束的点匹配方法
CN115546521B (zh) * 2022-11-07 2024-05-07 佳木斯大学 基于关键点响应约束的点匹配方法

Also Published As

Publication number Publication date
KR102219561B1 (ko) 2021-02-23

Similar Documents

Publication Publication Date Title
KR102219561B1 (ko) 대응점 일관성에 기반한 비지도 학습 방식의 스테레오 매칭 장치 및 방법
US11763433B2 (en) Depth image generation method and device
US20210142095A1 (en) Image disparity estimation
CN111050219B (zh) 用于利用空间-时间记忆网络处理视频内容的方法和系统
CN114782691B (zh) 基于深度学习的机器人目标识别与运动检测方法、存储介质及设备
US20200273192A1 (en) Systems and methods for depth estimation using convolutional spatial propagation networks
CN110084304B (zh) 一种基于合成数据集的目标检测方法
KR20210058683A (ko) 깊이 맵 생성 방법 및 장치
CN112464912B (zh) 基于YOLO-RGGNet的机器人端人脸检测方法
Liu et al. 3D Point cloud analysis
CN113838005B (zh) 基于维度转换的岩体裂隙智能识别与三维重构方法及系统
KR20190124113A (ko) 자가 지도 학습을 이용한 딥러닝 기반 도로 영역 추정 장치 및 방법
Shi et al. An improved lightweight deep neural network with knowledge distillation for local feature extraction and visual localization using images and LiDAR point clouds
CN116402851A (zh) 一种复杂背景下的红外弱小目标跟踪方法
Qiao et al. SF-Net: Learning scene flow from RGB-D images with CNNs
KR102166117B1 (ko) 시멘틱 매칭 장치 및 방법
CN117370498B (zh) 一种3d开放词汇检测与密集字幕生成统一的建模方法
Zhang et al. Improved feature point extraction method of ORB-SLAM2 dense map
CN113112547A (zh) 机器人及其重定位方法、定位装置及存储介质
Lyu et al. Learning a room with the occ-sdf hybrid: Signed distance function mingled with occupancy aids scene representation
CN116703996A (zh) 基于实例级自适应深度估计的单目三维目标检测算法
CN116246119A (zh) 3d目标检测方法、电子设备及存储介质
CN113570713B (zh) 一种面向动态环境的语义地图构建方法及装置
CN115937520A (zh) 基于语义信息引导的点云运动目标分割方法
KR20200095251A (ko) 사이클 일관성 기반 옵티컬플로우 및 디스패리티 추정 장치 및 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant