KR20220074044A - 생성적 적대 신경망을 이용한 스테레오 매칭 신뢰도 추정 장치 및 방법 - Google Patents

생성적 적대 신경망을 이용한 스테레오 매칭 신뢰도 추정 장치 및 방법 Download PDF

Info

Publication number
KR20220074044A
KR20220074044A KR1020200162095A KR20200162095A KR20220074044A KR 20220074044 A KR20220074044 A KR 20220074044A KR 1020200162095 A KR1020200162095 A KR 1020200162095A KR 20200162095 A KR20200162095 A KR 20200162095A KR 20220074044 A KR20220074044 A KR 20220074044A
Authority
KR
South Korea
Prior art keywords
reliability
map
disparity
cost
cost volume
Prior art date
Application number
KR1020200162095A
Other languages
English (en)
Other versions
KR102609829B1 (ko
Inventor
손광훈
김선옥
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020200162095A priority Critical patent/KR102609829B1/ko
Publication of KR20220074044A publication Critical patent/KR20220074044A/ko
Application granted granted Critical
Publication of KR102609829B1 publication Critical patent/KR102609829B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

본 발명은 스테레오 영상의 2개의 영상을 인가받아, 2개의 영상 사이에서 기지정된 방식에 따른 픽셀 비교를 통해 각 픽셀별 매칭 코스트를 계산하여 코스트 볼륨을 획득하는 코스트 볼륨 획득부, 미리 학습된 인공 신경망으로 구현되어, 코스트 볼륨으로부터 학습된 방식에 따라 2개의 시점 영상에서 대응하는 픽셀 사이의 거리를 추정하여 디스패리티 맵을 생성하고, 코스트 볼륨의 다수의 매칭 코스트를 학습된 방식에 따라 정제하여 정제 코스트 볼륨을 획득하는 디스패리티 맵 획득부 및 미리 학습된 인공 신경망으로 구현되어, 2개의 영상 중 하나의 영상과 디스패리티 맵 및 정제 코스트 볼륨 각각의 특징을 학습된 방식에 따라 추출하고 추출된 특징을 결합하며, 결합된 특징으로부터 학습된 방식에 따라 디스패리티 맵의 각 픽셀별 신뢰 여부를 판정하여 신뢰도 맵을 획득하는 신뢰도 판정부를 포함하여, 획득된 매칭 코스트에 대한 코스트 집계를 생성하고, 생성된 코스트 집계와 디스패리티 및 원본 스테레오 영상을 기반으로 디스패리티 맵의 신뢰도를 적대적으로 판별하도록 하여, 학습 시에 상호 상승 효과를 유발함으로써, 신뢰도 추정 정확도를 크게 향상시킬 수 있는 스테레오 매칭 신뢰도 추정 장치 및 방법을 제공할 수 있다.

Description

생성적 적대 신경망을 이용한 스테레오 매칭 신뢰도 추정 장치 및 방법{Stereo Matching Confidence Estimation Apparatus And Method Using Generative Adversarial Network}
본 발명은 스테레오 매칭 신뢰도 추정 장치 및 방법에 관한 것으로, 생성적 적대 신경망을 이용한 스테레오 매칭 신뢰도 추정 장치 및 방법에 관한 것이다.
스테레오 매칭(stereo matching)은 영상으로부터 3차원 기하학적 구성을 인식하기 위한 방법으로, 컴퓨터 비전 시스템의 스테레오 영상 재구성, 자율 주행, 운전자 보조 시스템(Advanced Driver Assistance System: 이하 ADAS), 로봇 공학 등을 포함하는 다양한 분야에 이용되고 있다.
스테레오 매칭은 서로 다른 2개의 시점 영상을 갖는 스테레오 영상에서 3차원 위치 정보(깊이 정보)를 추정하는 기법으로, 정확한 깊이 영상을 획득하기 위하여 다양한 스테레오 매칭 방법이 연구되어 왔다.
도 1은 기존의 스테레오 매칭 신뢰도 추정 장치의 개략적 구성을 나타내고, 도 2는 도 1의 진리 신뢰도 맵을 획득하는 동작을 설명하기 위한 도면이다.
도 1에서 영상 입력부(100)는 서로 다른 2개의 시점 영상(Il, Ir)을 갖는 스테레오 영상을 획득한다. 그리고 스테레오 매칭부(20)는 기지정된 방식에 따라 입력된 스테레오 영상의 깊이 영상에 해당하는 디스패리티 맵(disparity map)을 획득한다.
스테레오 매칭부(20)는 스테레오 영상의 2개의 시점 영상(Il, Ir)에서 각 픽셀 사이의 비유사성을 측정하는 매칭 코스트(matching cost)를 계산하여 코스트 볼륨(C)을 획득하는 코스트 볼륨 획득부(21)와 획득된 코스트 볼륨(C)을 기반으로 스테레오 영상의 2개의 시점 영상에서 서로 대응하는 픽셀을 탐색하여 깊이 영상에 해당하는 디스패리티 맵(disparity map)(D)을 획득한다.
그러나 스테레오 매칭은 도 1에 도시된 바와 같이, 스테레오 영상의 폐색 영역(occluded regions), 질감없는 영역(Texture-less regions), 조명의 변화(illumination variations) 또는 빛의 반사 영역(reflected regions) 등과 같은 영상 자체의 모호성(inherent matching ambiguity)으로 인해 정확한 대응 픽셀을 검출할 수 없어 정확한 디스패리티 맵(D)을 획득하기 어렵다는 한계가 있다.
이에 부정확하게 획득되는 디스패리티 맵(D)에 대한 신뢰도를 향상시키기 위해, 신뢰도 추정부(30)는 기지정된 방식으로 디스패리티 맵의 각 픽셀별 신뢰도를 계산하여 신뢰도 맵(confidence map)을 획득한다. 여기서 신뢰도 맵은 획득된 디스패리티 맵(D)의 각 픽셀에 대해 계산된 신뢰도를 기반으로 부정확한 픽셀을 필터링할 수 있도록 함으로써 더 정확한 디스패리티 맵(D)을 획득할 수 있도록 하기 위해 이용될 수 있다.
한편, 최근에는 딥 러닝(Deep learning) 기법의 발전에 따라 디스패리티 맵과 신뢰도 맵을 인공 신경망(Artificial Neural Network)을 이용하여 획득하는 연구가 활발하게 수행되었다. 이에 최근에는 스테레오 매칭부(20)의 디스패리티 맵 획득부(22)와 신뢰도 추정부(30)를 인공 신경망으로 구현하는 경우가 많다.
도 2는 기존에 인공 신경망으로 구성된 스테레오 매칭 신뢰도 추정 장치의 개략적 구성을 나타낸다.
도 1을 참조하면, 인공 신경망으로 구현되는 스테레오 매칭부(20)의 디스패리티 맵 획득부(22)는 코스트 볼륨 획득부(21)에서 획득된 코스트 볼륨(C)을 인가받아 기지정된 방식으로 코스트 볼륨(C)의 매칭 코스트를 집계하여 집계 코스트 볼륨(G(C))과 추정 디스패리티 맵(GD(C))을 추정하여 획득하는 코스트 집계 네트워크(Cost Aggregation Network)라 할 수 있으며, 인공 신경망으로 구현되는 신뢰도 추정부(30)는 디스패리티 맵 획득부(22)에서 추정된 집계 코스트 볼륨(G(C))으로부터 신뢰도 맵(F(G(C))을 추정하는 신뢰도 추정 네트워크(Confidence Estimation Network)라 할 수 있다.
다만, 이와 같이 디스패리티 맵 획득부(22)와 신뢰도 추정부(30)가 인공 신경망으로 구현되는 경우, 스테레오 매칭 신뢰도 추정 장치는 미리 학습되어야만 이용 가능하다.
도 3은 도 2의 스테레오 매칭 신뢰도 추정 장치의 학습을 설명하기 위한 도면이다.
현재 디스패리티 맵 획득부(22)와 신뢰도 추정부(30)를 학습시키는 방식으로는 학습을 위해 미리 준비된 스테레오 영상(Il, Ir)과 이에 대응하는 진리 디스패리티 맵(Ground-truth disparity map)(D*)을 포함하는 학습 데이터 셋을 이용한 지도 학습(supervised learning) 방식이 일반적이다.
도 2를 참조하면, 기존의 지도 학습 방식에서는 (a)와 같은 스테레오 매칭부(20)에서 획득된 추정 디스패리티 맵(GD(C))과 (b)의 진리 디스패리티 맵(D*) 사이의 차이를 디스패리티 손실(Ldisp(G))로서 기지정된 방식으로 계산하여 역전파함으로써 스테레오 매칭부(20)를 학습시킬 수 있다. 또한 추정 디스패리티 맵(GD(C))과 진리 디스패리티 맵(D*) 사이의 차이에 따른 진리 신뢰도 맵(Ground-truth confidence map)을 (c)와 같이 획득하고, 획득된 진리 신뢰도 맵과 신뢰도 추정부(30)에서 추정된 추정 신뢰도 맵(F(G(C))) 사이의 차이를 기반으로 신뢰도 손실(Lconf(G,F))을 계산하여 역전파함으로써 신뢰도 추정부(30)를 학습시킬 수 있다.
이와 같은 기존의 학습 방식의 경우, 비록 집계 코스트 볼륨(G(C))을 매개로 하는 점에서는 상호 연관성이 있음에도, 스테레오 매칭부(20)와 신뢰도 추정부(30)가 실질적으로 단순 동시 학습 수준으로 학습이 수행되어, 스테레오 매칭부(20)와 신뢰도 추정부(30)의 상호 보완 학습이 잘 이루어지지 않는다는 한계가 있다. 결과적으로 스테레오 매칭부(20)와 신뢰도 추정부(30)의 학습 성능 향상에 한계가 있다.
한국 등록 특허 제10-1941994호(2019.01.18 등록)
본 발명의 목적은 생성적 적대 신경망 구조의 생성 네트워크를 기반으로 매칭 코스트를 정제하고, 적대적 네트워크를 기반으로 정제된 매칭 코스트를 기반으로 추정된 신뢰도의 정상 여부를 판별하도록 하여 학습 시에 상호 상승 효과를 유발함으로써, 신뢰도 추정 정확도를 크게 향상시킬 수 있는 스테레오 매칭 신뢰도 추정 장치 및 방법을 제공하는데 있다.
본 발명의 다른 목적은 향상된 신뢰도 추정 정확도에 기반하여 정확한 디스패리티 맵을 획득할 수 있도록 하는 스테레오 매칭 신뢰도 추정 장치 및 방법을 제공하는데 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 스테레오 매칭 신뢰도 추정 장치는 스테레오 영상의 2개의 영상을 인가받아, 2개의 영상 사이에서 기지정된 방식에 따른 픽셀 비교를 통해 각 픽셀별 매칭 코스트를 계산하여 코스트 볼륨을 획득하는 코스트 볼륨 획득부; 미리 학습된 인공 신경망으로 구현되어, 상기 코스트 볼륨으로부터 학습된 방식에 따라 2개의 시점 영상에서 대응하는 픽셀 사이의 거리를 추정하여 디스패리티 맵을 생성하고, 상기 코스트 볼륨의 다수의 매칭 코스트를 학습된 방식에 따라 정제하여 정제 코스트 볼륨을 획득하는 디스패리티 맵 획득부; 및 미리 학습된 인공 신경망으로 구현되어, 상기 2개의 영상 중 하나의 영상과 상기 디스패리티 맵 및 상기 정제 코스트 볼륨 각각의 특징을 학습된 방식에 따라 추출하고 추출된 특징을 결합하며, 결합된 특징으로부터 학습된 방식에 따라 상기 디스패리티 맵의 각 픽셀별 신뢰 여부를 판정하여 신뢰도 맵을 획득하는 신뢰도 판정부를 포함한다.
상기 스테레오 매칭 신뢰도 추정 장치는 학습 시에 결합되어, 학습 스테레오 영상이 상기 코스트 볼륨 획득부에 인가되어 상기 디스패리티 맵 획득부가 상기 디스패리티 맵을 생성하는 과정에서 발생한 디스패리티 손실과 상기 신뢰도 판정부가 디스패리티 맵의 각 픽셀별 신뢰도를 적대적으로 판정하는 과정에서 발생한 신뢰도 손실을 계산하고, 계산된 디스패리티 손실과 신뢰도 손실을 이용하여 계산되는 총 손실을 역전파하여, 인공 신경망으로 구현되는 상기 디스패리티 맵 획득부와 상기 신뢰도 판정부를 학습시키는 학습부를 더 포함할 수 있다.
상기 학습부는 학습 스테레오 영상과 함께 제공된 진리 디스패리티 맵과 상기 디스패리티 맵 획득부가 학습 스테레오 영상으로부터 획득한 디스패리티 맵을 기반으로 진리 신뢰도 맵을 획득하고, 진리 신뢰도 맵과 상기 신뢰도 판정부에서 획득된 신뢰도 맵의 픽셀별 신뢰도를 비교하여 신뢰도 맵의 각 픽셀별 신뢰 여부를 양성 또는 음성으로 판별하며, 상기 신뢰도 손실을 판별된 양성 및 음성에 따라 구분하여 계산할 수 있다.
상기 학습부는 상기 디스패리티 손실과 양성 및 음성에 따라 구분하여 계산되는 상기 신뢰도 손실 중 음성으로 구분된 신뢰도 손실을 이용하여 상기 총 손실을 계산할 수 있다.
상기 디스패리티 맵 획득부는 인코더 및 디코더를 구비하는 오토인코더 형식의 인공 신경망으로 구현되어 상기 코스트 볼륨의 매칭 코스트를 학습된 방식에 따라 집계하고, 집계된 코스트 볼륨의 픽셀 각각에 대해 학습된 방식에 따라 디코딩하여 픽셀별 확률 밀도를 추출하는 코스트 볼륨 변환부; 코스트 볼륨의 픽셀별 확률 밀도를 정규화 레이어로 정규화하여 정규 코스트 볼륨을 획득하는 정규화부; 상기 정규 코스트 볼륨의 픽셀별로 정규화된 다수의 매칭 코스트 중 최대가 되는 코스트를 나타내는 디스패리티를 추출하여 상기 디스패리티 맵을 획득하는 디스패리티 추출부; 및 정규 코스트 볼륨에서 학습된 방식에 따라 기설정된 K개의 코스트를 추출 및 풀링하여 상기 정제 코스트 볼륨을 획득하는 코스트 정제부를 포함할 수 있다.
상기 신뢰도 판정부는 상기 정제 코스트 볼륨을 인가받아 미리 학습된 방식에 따라 특징을 추출하여 코스트 특징맵을 획득하는 매칭 코스트 특징 추출부; 상기 디스패리티 맵을 인가받아 미리 학습된 방식에 따라 특징을 추출하여 디스패리티 특징맵을 획득하는 디스패리티 특징 추출부; 상기 스테레오 영상의 2개의 영상 중 매칭 코스트 획득 시 기준이 되는 기준 영상을 인가받아 미리 학습된 방식에 따라 특징을 추출하여 컬러 특징맵을 획득하는 컬러 특징 추출부; 상기 코스트 특징맵과 상기 디스패리티 특징맵 및 상기 컬러 특징맵을 인가받아 기지정된 방식으로 결합하여 결합 특징맵을 획득하는 특징 결합부; 및 상기 결합 특징맵을 인가받아 미리 학습된 방식으로 상기 디스패리티 맵의 각 픽셀별 신뢰도를 판정하여 신뢰도 맵을 획득하는 신뢰도 추출부를 포함할 수 있다.
상기 목적을 달성하기 위한 본 발명의 다른 실시예에 따른 스테레오 매칭 신뢰도 추정 방법은 스테레오 영상의 2개의 영상을 인가받아, 2개의 영상 사이에서 기지정된 방식에 따른 픽셀 비교를 통해 각 픽셀별 매칭 코스트를 계산하여 코스트 볼륨을 획득하는 단계; 미리 학습된 인공 신경망을 이용하여, 상기 코스트 볼륨의 다수의 매칭 코스트를 학습된 방식에 따라 정제하여 정제 코스트 볼륨을 획득하고, 상기 코스트 볼륨으로부터 학습된 방식에 따라 2개의 시점 영상에서 대응하는 픽셀 사이의 거리를 추정하여 디스패리티 맵을 생성하는 단계; 및 미리 학습된 인공 신경망을 이용하여, 상기 2개의 영상 중 하나의 영상과 상기 디스패리티 맵 및 상기 정제 코스트 볼륨 각각의 특징을 학습된 방식에 따라 추출하고 추출된 특징을 결합하고, 결합된 특징으로부터 학습된 방식에 따라 상기 디스패리티 맵의 각 픽셀별 신뢰 여부를 판정하여 신뢰도 맵을 획득하는 단계를 포함한다.
따라서, 본 발명의 실시예에 따른 스테레오 매칭 신뢰도 추정 장치 및 방법은 스테레오 매칭부에서 획득된 매칭 코스트에 대한 코스트 집계를 생성하고, 생성된 코스트 집계와 디스패리티 및 원본 스테레오 영상을 기반으로 디스패리티 맵의 신뢰도를 적대적으로 판별하도록 하여, 학습 시에 상호 상승 효과를 유발함으로써, 신뢰도 추정 정확도를 크게 향상시킬 수 있다. 또한 향상된 신뢰도 추정 정확도에 기반하여 정확한 디스패리티 맵을 획득할 수 있도록 한다.
도 1은 기존의 스테레오 매칭 신뢰도 추정 장치의 개략적 구성을 나타낸다.
도 2는 기존에 인공 신경망으로 구성된 스테레오 매칭 신뢰도 추정 장치의 개략적 구성을 나타낸다.
도 3은 도 2의 스테레오 매칭 신뢰도 추정 장치의 학습을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 스테레오 매칭 신뢰도 추정 장치의 개략적 구성을 나타낸다.
도 5는 도 4의 코스트 집계 생성부의 상세 구현 예를 나타낸다.
도 6은 도 4의 신뢰도 추정 판별부의 상세 구현 예를 나타낸다.
도 7은 인공 신경망으로 구성된 도 4의 스테레오 매칭 신뢰도 추정 장치의 개략적 구성을 나타낸다.
도 8은 본 실시예에 따른 스테레오 매칭 신뢰도 추정 장치의 성능을 비교한 결과를 나타낸다.
도 9는 본 발명의 일 실시예에 따른 스테레오 매칭 신뢰도 추정 방법을 나타낸다.
본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부", "...기", "모듈", "블록" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 4는 본 발명의 일 실시예에 따른 스테레오 매칭 신뢰도 추정 장치의 개략적 구성을 나타내고, 도 5는 도 4의 코스트 집계 생성부의 상세 구현 예를 나타내며, 도 6은 도 4의 신뢰도 추정 판별부의 상세 구현 예를 나타낸다. 그리고 도 7은 인공 신경망으로 구성된 도 4의 스테레오 매칭 신뢰도 추정 장치의 개략적 구성을 나타낸다.
도 4를 참조하면, 본 실시예에 따른 스테레오 매칭 신뢰도 추정 장치는 영상 입력부(100), 스테레오 매칭부(200), 신뢰도 판정부(300) 및 학습부(400)를 포함할 수 있다. 즉 본 실시예에 따른 스테레오 매칭 신뢰도 추정 장치 또한 기본적으로, 도 1에 도시된 기존의 스테레오 매칭 추정 장치와 유사한 구성을 갖는다.
영상 입력부(100)는 스테레오 매칭을 수행해야할 스테레오 영상을 획득한다. 여기서 스테레오 영상은 스테레오 카메라에서 획득될 수 있는 영상으로 서로 다른 시점을 갖는 2개의 시점 영상으로 구성될 수 있다. 스테레오 영상은 스테레오 카메라의 구조에 따라 상하 영상 좌우 영상 등으로 획득될 수 있으나, 여기서는 일 예로 도 1에 도시된 바와 같이, 좌 영상(Left image)(Il)과 우 영상(Right image)(Ir)으로 구성되는 스테레오 영상을 획득하는 것으로 가정한다.
스테레오 매칭부(200)는 영상 입력부(100)에서 획득된 스테레오 영상의 2개의 시점 영상 사이의 차이를 기반으로 디스패리티 맵(D)을 획득한다.
스테레오 매칭부(200)는 코스트 볼륨 획득부(210) 및 디스패리티 맵 획득부(220)를 포함할 수 있다.
코스트 볼륨 획득부(210)는 영상 입력부(100)에서 획득된 스테레오 영상인 좌 영상(Il)과 우 영상(Ir)을 인가받고, 인가된 좌 영상(Il)과 우 영상(Ir) 중 하나를 기준(여기서는 일 예로 좌 영상(Il))으로 각 픽셀별로 나머지 영상(여기서는 우 영상(Ir))의 픽셀들과의 매칭 코스트(matching cost)를 기지정된 방식으로 획득하여, 매칭 코스트의 집합인 코스트 볼륨(cost volume)(C)을 획득한다.
이때 코스트 볼륨 획득부(210)는 스테레오 영상이 좌우 영상으로 구성된 경우, 기준이 되는 좌 영상(Il)의 특정 위치(x, y)에 기지정된 크기의 윈도우를 설정하고, 나머지 영상인 우 영상(Ir)에도 동일한 위치에 동일한 크기의 윈도우를 설정한 후, 윈도우를 행 방향(x축 방향)으로 이동시키면서, 윈도우의 이동 거리(d)별로 좌 영상(Il) 및 우 영상(Ir)의 윈도우에 포함된 각 픽셀 값을 비교하여 매칭 코스트를 계산할 수 있다.
코스트 볼륨 획득부(210)는 기준이 되는 영상(Il)의 각 픽셀(il x,y)과 비교되는 영상(Ir)의 각 거리(d)에서의 비교 대상 픽셀(ir (x-d),y) 사이의 차이로 매칭 코스트(Ci,d)를 계산할 수 있으며, 각 픽셀에서 가능한 모든 거리(d)에 대해 획득된 매칭 코스트(Ci,d)의 집합을 코스트 볼륨(C)으로 획득할 수 있다.
디스패리티 맵 획득부(220)는 인공 신경망으로 구현되어 매칭 비용 계산부(130)에서 코스트 볼륨(C)이 인가되면, 미리 학습된 방식에 따라 코스트 볼륨(C)으로부터 디스패리티 맵(D)을 추정하여 획득한다. 이때, 도 5에 도시된 바와 같은 인공 신경망으로 구현되는 디스패리티 맵 획득부(220)는 코스트 볼륨 변환부(221), 정규화부(222), 디스패리티 추출부(223) 및 코스트 정제부(224)로 구성될 수 있다.
코스트 볼륨 변환부(221)는 학습에 의해 업데이트되는 가중치(WG)를 갖는 인코더 및 디코더를 구비하는 오토인코더(auto-encode) 형식의 잔차 컨볼루션 모듈(Residual Convolutional Module)을 이용하여, 코스트 볼륨(C)의 매칭 코스트를 학습된 방식에 따라 집계하고, 집계된 코스트 볼륨(C)의 모든 픽셀(i = [ix, iy]T) 각각에 대해 학습된 방식에 따라 디코딩하여 각 픽셀별 코스트 볼륨(Ci)에 대한 확률 밀도를 추출한다.
그리고 정규화부(222)는 코스트 볼륨 변환부(221)에서 추출된 각 픽셀별 코스트 볼륨(Ci)에 대한 확률 밀도를 정규화 레이어로 정규화하여 정규 코스트 볼륨(Cn)을 획득한다. 여기서 정규 코스트 볼륨(Cn)은 매칭 확률 볼륨(Matching Probability Volume: MPV)이라고도 할 수 있다.
디스패리티 추출부(223)는 획득된 정규 코스트 볼륨(Cn)을 기반으로 디스패리티 맵(D)을 추정하여 생성한다. 디스패리티 추출부(223)는 소프트 아그맥스 레이어(Soft-Argmax Layer)를 포함하여 정규 코스트 볼륨(Cn)의 각 픽셀별로 정규화된 다수의 매칭 코스트 중 최대가 되는 코스트를 나타내는 디스패리티(d)를 추출함으로써 디스패리티 맵(D)을 획득한다.
한편, 본 실시예에서 코스트 정제부(224)는 정규 코스트 볼륨(Cn)에서 학습된 방식에 따라 기설정된 K개의 코스트를 추출 및 풀링하여 정제 코스트 볼륨(Cr)을 더 획득할 수 있다. 여기서 정제 코스트 볼륨(Cr)은 신뢰도 판정부(300)가 획득된 디스패리티 맵(D)의 신뢰도를 판정할 수 있도록 하기 위해 획득되는 코스트 볼륨이다.
신뢰도 판정부(300)는 스테레오 매칭부(200)에서 획득된 디스패리티 맵(D)의 각 픽셀별 신뢰도를 판정하여 신뢰도 맵(Q)을 획득한다. 신뢰도 판정부(300)는 스테레오 매칭부(200)의 디스패리티 맵 획득부(220)에서 획득된 디스패리티 맵(D)과 정제 코스트 볼륨(Cr) 및 스테레오 영상의 2개의 영상(Il, Ir) 중 매칭 코스트 계산 신에 기준이 되는 하나의 영상(Il)을 인가받고, 인가된 디스패리티 맵(D)과 정제 코스트 볼륨(Cr) 및 기준 영상(Il)을 기반으로 디스패리티 맵(D)의 각 픽셀에 대한 신뢰도를 판정하여 신뢰도 맵(Q)을 획득한다.
도 6을 참조하면, 신뢰도 판정부(300)는 매칭 코스트 특징 추출부(310), 디스패리티 특징 추출부(320), 컬러 특징 추출부(330), 특징 결합부(340) 및 신뢰도 추출부(350)를 포함할 수 있다.
매칭 코스트 특징 추출부(310)는 디스패리티 맵 획득부(220)에서 획득된 정제 코스트 볼륨(Cr)을 인가받고 미리 학습된 방식에 따라 정제 코스트 볼륨(Cr)의 특징을 추출하여 코스트 특징맵을 획득한다.
디스패리티 특징 추출부(320)는 디스패리티 맵 획득부(220)에서 획득된 디스패리티 맵(D)을 인가받아 미리 학습된 방식에 따라 특징을 추출하여 디스패리티 특징맵을 획득한다.
한편, 컬러 특징 추출부(330)는 스테레오 영상의 2개의 시점 영상 중 매칭 코스트 획득 시 기준이 되는 기준 영상(Il)을 인가받는다. 여기서 스테레오 영상의 2개의 시점 영상은 컬러 영상이므로, 컬러 특징 추출부(330)는 컬러 영상인 기준 영상(Il)을 인가받아 미리 학습된 방식에 따라 특징을 추출하여 컬러 특징맵을 획득한다.
본 실시예에서 신뢰도 판정부(300)가 디스패리티 맵 획득부(220)에서 획득된 정제 코스트 볼륨(Cr)과 디스패리티 맵(D) 뿐만 아니라, 기준 영상(Il)을 함께 인가받아 특징을 추출하는 것은 스테레오 매칭의 대상이 되는 원본 영상을 신뢰도 판별 시에 함께 이용하여 더욱 정확하게 디스패리티 맵(D)의 신뢰도를 판별할 수 있도록 하기 위함이다.
여기서 매칭 코스트 특징 추출부(310), 디스패리티 특징 추출부(320) 및 컬러 특징 추출부(330)를 통합하여 특징 추출부라 할 수 있다.
특징 결합부(340)는 매칭 코스트 특징 추출부(310)와 디스패리티 특징 추출부(320) 및 컬러 특징 추출부(330) 각각에서 획득된 코스트 특징맵과 디스패리티 특징맵 및 컬러 특징맵을 인가받아 결합(Concatenation)하여 결합 특징맵을 획득한다. 특징 결합부(340)는 코스트 특징맵과 디스패리티 특징맵 및 컬러 특징맵을 결합하는 맵 결합부(341)와 코스트 특징맵과 디스패리티 특징맵 및 컬러 특징맵의 가중치를 설정하는 가중치 설정부(342) 및 가중치 설정부(342)에서 설정된 가중치를 결합된 코스트 특징맵과 디스패리티 특징맵 및 컬러 특징맵 각각에 적용하는 가중치 적용부(343)를 포함할 수 있다.
신뢰도 추출부(350)는 코스트 특징맵과 디스패리티 특징맵 및 컬러 특징맵에 가중치가 적용되어 결합된 결합 특징맵을 인가받고, 미리 학습된 방식에 따라 디스패리티 맵(D)의 각 픽셀별 신뢰도를 판정하여 신뢰도 맵(Q)을 획득한다.
한편, 도 5 및 도 6에 도시된 바와 같이, 본 실시예에서 디스패리티 맵 획득부(220)와 신뢰도 판정부(300)는 인공 신경망으로 구현될 수 있으며, 특히 디스패리티 맵 획득부(220)와 신뢰도 판정부(300)가 생성적 적대 신경망 구조로 학습될 수 있다. 이에 도 7에 도시된 바와 같이, 디스패리티 맵 획득부(220)는 디스패리티 맵(D)을 생성하는 생성자(Generator)로서 생성적 코스트 집계 네트워크(Generative Cost Aggregation Network)라 할 수 있으며, 신뢰도 판정부(300)는 생성자인 디스패리티 맵 획득부(220)에서 생성된 디스패리티 맵(D)의 신뢰 여부를 판정하여 신뢰도 맵(Q)을 획득하는 판정자(Discriminator)로서 적대적 신뢰도 추정 네트워크(Adversarial Confidence Estimation Network)라 할 수 있다.
생성적 적대 신경망으로 이루어지는 디스패리티 맵 획득부(220)와 신뢰도 판정부(300)의 학습 과정 동안 디스패리티 맵 획득부(220)는 학습되는 네트워크 함수(G)에 따라 인가된 코스트 볼륨(C)으로부터 추정 디스패리티 맵(GD(C))과 추정 정제 코스트 볼륨(GC(C))을 추정하여 생성한다. 여기서 추정 디스패리티 맵(GD(C))과 추정 정제 코스트 볼륨(GC(C))을 디스패리티 맵(D)과 정제 코스트 볼륨(Cr)과 구분하여 표시한 것은 학습 과정에서 생성자인 디스패리티 맵 획득부(220)에서 생성되는 추정 디스패리티 맵(GD(C))과 추정 정제 코스트 볼륨(GC(C))은 부정확하게 생성된 결과이기 때문이다. 그리고 생성적 코스트 집계 네트워크 인 디스패리티 맵 획득부(220)에서 생성되는 추정 디스패리티 맵(GD(C))과 추정 정제 코스트 볼륨(GC(C))을 통합하여 생성 네트워크 출력(G(C) = {GD(C), GC(C)})이라 할 수 있다.
한편, 학습 과정 동안 신뢰도 판정부(300)는 학습되는 네트워크 함수(F)에 따라 기준 영상(Il)을 참조하여, 생성 네트워크 출력(G(C))의 추정 디스패리티 맵(GD(C))의 각 픽셀에 대한 신뢰 여부를 판정하여 신뢰도 맵(F(G(C),Il)을 획득한다. 신뢰도 판정부(300)는 추정 디스패리티 맵(GD(C))에 대한 각 픽셀별 판정 결과를 기존의 신뢰도 맵과 마찬가지로 참 또는 거짓의 1과 0으로 표현하여 신뢰도 맵(F(G(C),Il)을 획득할 수 있다. 즉 추정 디스패리티 맵(GD(C))의 픽셀 값이 신뢰할 수 있는 것으로 판정되면 1의 값을 갖고, 신뢰할 수 없는 것으로 판정되면 0을 값을 갖도록 각 픽셀값을 설정하여 신뢰도 맵(F(G(C),Il)을 획득할 수 있다. 다만 신뢰도 판정부(300) 또한 디스패리티 맵 획득부(220)와 마찬가지로 학습 과정에 있으므로, 획득되는 신뢰도 맵(F(G(C),Il)은 학습 완료 이후의 신뢰도 맵(Q)과 구분되어 추정 신뢰도 맵이라 할 수 있다.
학습부(400)는 디스패리티 맵 획득부(220)에서 생성되는 추정 디스패리티 맵(GD(C))과 도 3의 (b)와 같이 미리 획득된 진리 디스패리티 맵(D*) 사이의 차이를 디스패리티 손실(Ldisp(G))로서 계산한다.
여기서 디스패리티 손실(Ldisp(G))은 수학식 1과 같이 계산될 수 있다.
Figure pat00001
여기서
Figure pat00002
는 코스트 볼륨(C)에서 크로스 엔트로피(cross entropy)를 나타내는 에너지 함수이고, C' 은 스테레오 영상에서 설정된 기준 영상(Il)이 아닌 나머지 영상(Ir)을 기준으로 하는 경우 획득되는 와핑 코스트 볼륨을 나타내며, GD(C')은 와핑 코스트 볼륨으로부터 추정되는 와핑 추정 디스패리티 맵을 나타내며, IrGD(C')은 와핑 추정 디스패리티 맵(GD(C'))에 따라 와핑된 나머지 영상(Ir)을 나타낸다. 그리고
Figure pat00003
는 와핑 코스트 볼륨(C')에서의 크로스 엔트로피를 나타내는 에너지 함수이다.
즉 수학식 1에 따르면, 디스패리티 손실(Ldisp(G))은 추정 디스패리티 맵(GD(C))과 진리 디스패리티 맵(D*) 사이의 차이에 따른 크로스 엔트로피와 와핑된 나머지 영상(IrGD(C'))과 기준 영상 사이의 차이에 따른 크로스 엔트로피의 합으로 계산될 수 있다.
또한 학습부(400)는 신뢰도 판정부(300)에서 추정된 추정 신뢰도 맵(F(G(C),Il)을 인가받아 도 3의 (c)와 같이 미리 획득된 진리 신뢰도 맵(Q*)과 비교하여, 신뢰도 손실(Lconf(G,F))을 계산한다. 이때, 학습부(400)는 추정 신뢰도 맵(F(G(C),Il)의 각 픽셀값과 진리 신뢰도 맵(Q*)의 대응하는 픽셀값을 비교하여, 추정 신뢰도 맵(F(G(C),Il)의 각 픽셀값과 진리 신뢰도 맵의 대응하는 픽셀값이 동일하면 양성(positive)으로 판별하고, 서로 상이하면 음성(negative)로 판별하여 판별 결과에 따라 신뢰도 손실(Lconf(G,F))을 구분하여 계산할 수 있다.
이에 신뢰도 손실(Lconf(G,F))은 수학식 2와 같이 계산될 수 있다.
Figure pat00004
여기서
Figure pat00005
Figure pat00006
는 각각 t번째 반복 학습에서 양성으로 판별된 코스트 볼륨과 디스패리티 맵을 나타내고,
Figure pat00007
는 t번째 반복 학습에서 코스트 볼륨(Ct)과 디스패리티 맵(Dt) 및 컬러 영상(Il) 각각의 양성으로 판별된 코스트 볼륨(
Figure pat00008
)과 디스패리티 맵(
Figure pat00009
) 및 컬러 영상(Il) 픽셀의 크로스 엔트로피를 나타내는 에너지 함수이며,
Figure pat00010
는 코스트 볼륨(C)과 컬러 영상(Il)에서 음성으로 판별된 코스트 볼륨(C)과 컬러 영상(Il) 픽셀의 크로스 엔트로피를 나타내는 에너지 함수이다.
수학식 2에서 음성으로 판별된 디스패리티 맵(D)에 대한 크로스 엔트로피를 계산하지 않는 것은 판별자인 신뢰도 판정부(300)가 이미 신뢰도가 없다고 판정한 결과이기 때문이다.
수학식 2에서는 신뢰도 손실(Lconf(G,F))을 양성과 음성으로 구분하여 계산하였으나, 여기서 양성으로 판정된 결과는 디스패리티 맵 획득부(220)가 정상적으로 디스패리티 맵(G(C))을 추정하고, 신뢰도 판정부(300)가 정상적으로 신뢰도가 있는 것으로 판정한 결과로 볼 수 있다. 양성 판별 결과는 신뢰도 손실(Lconf(G,F))로 보기 어려우며, 따라서 본 실시예에서 학습부(400)는 양성과 음성으로 구분하여 계산된 신뢰도 손실(Lconf(G,F)) 중 음성으로 계산된 신뢰도 손실만을 수학식 3과 같이 획득할 수 있다.
Figure pat00011
학습부(400)는 수학식 1에 따라 디스패리티 손실(Ldisp(G))이 계산되고 수학식 3에 따라 신뢰도 손실(Lconf(G,F))이 계산되면, 수학식 4와 같이 총 손실(Ltotal(G,F))을 계산하여 역전파하여 인공 신경망으로 구성되는 디스패리티 맵 획득부(220)와 신뢰도 판정부(300)를 학습시킬 수 있다.
Figure pat00012
이때, 디스패리티 맵 획득부(220)와 신뢰도 판정부(300)는 생성적 적대 신경망 구조로 구성되어 학습되므로, 디스패리티 맵 획득부(220)와 신뢰도 판정부(300)의 네트워크 함수(G, F)는 수학식 5로 최적화될 수 있다.
Figure pat00013
상기에서 학습부(400)는 디스패리티 맵 획득부(220)와 신뢰도 판정부(300)를 학습시키기 위한 구성으로 학습이 완료된 이후에는 생략될 수 있다. 경우에 따라서는 신뢰도 판정부(300) 또한 학습이 완료된 이후에는 제외되어 디스패리티 맵만을 획득하도록 구성될 수도 있다.
도 8은 본 실시예에 따른 스테레오 매칭 신뢰도 추정 장치의 성능을 비교한 결과를 나타낸다.
도 8에서 (a)는 스테레오 영상의 좌 영상(Il)을 나타내고, (b)는 기존의 인공 신경망을 이용하여 추정된 초기 디스패리티 맵이며, (c) 및 (d)는 일반 학습 방식으로 학습되어 획득된 디스패리티 맵 및 신뢰도 맵을 나타내며, (e) 및 (f)는 본 실시예에 따른 생성적 적대 방식으로 학습되어 획득된 디스패리티 맵 및 신뢰도 맵을 나타낸다.
도 8의 (c)와 (d)를 (e)와 (f)를 비교하면, 본 실시예의 생성적 적대 방식으로 학습된 스테레오 매칭 신뢰도 추정 장치가 더 정확한 디스패리티 맵과 신뢰도 맵을 획득할 수 있음을 알 수 있다.
도 9는 본 발명의 일 실시예에 따른 스테레오 매칭 신뢰도 추정 방법을 나타낸다.
도 4 내지 도 7을 참조하여, 도 9의 스테레오 매칭 신뢰도 추정 방법을 설명하면, 스테레오 매칭 신뢰도 추정 방법은 크게 학습 단계(S10)와 신뢰도 추정 단계(S20)로 구분될 수 있다.
학습 단계(S10)에서는 우선 학습 스테레오 영상이 입력된다(S11). 여기서 학습 스테레오 영상은 진리 디스패리티 맵(D*)이 함께 획득된 스테레오 영상을 의미한다.
학습 스테레오 영상이 입력되면, 학습 스테레오 영상의 2개의 영상(Il, Ir) 중 하나를 기준 영상(Il)으로 하여, 기준 영상의 각 픽셀에 대한 나머지 영상의 픽셀들과의 매칭 코스트를 기지정된 방식으로 계산하여 코스트 볼륨(C)을 획득한다(S12).
그리고 인공 신경망을 이용하여 코스트 볼륨(C)로부터 현재까지 학습된 방식에 따라 추정 디스패리티 맵(G(C))을 추정한다(S13). 이때 추정 디스패리티 맵(G(C))은 코스트 볼륨(C)을 학습된 방식에 따라 인코딩 및 디코딩하여, 각 픽셀별 매칭 코스트의 확률 밀도를 추출하고, 추출된 확률 밀도를 정규화하여 정규 코스트 볼륨(Cn)을 획득하며, 획득된 정규 코스트 볼륨(Cn)의 각 픽셀별로 정규화된 다수의 매칭 코스트 중 최대가 되는 매칭 코스트를 나타내는 디스패리티(d)를 추출함으로써 추정 디스패리티 맵(G(C))을 추정할 수 있다.
한편, 정규 코스트 볼륨(Cn)에 대해 학습되는 방식에 따라 기설정된 K개의 코스트를 추출 및 풀링하여 정제 코스트 볼륨(Cr)을 획득한다(S14).
추정 디스패리티 맵(G(C))과 정제 코스트 볼륨(Cr)이 획득되면, 인공 신경망을 이용하여 디스패리티 맵(G(C))과 정제 코스트 볼륨(Cr) 및 기준 영상(Il) 각각에 대해 학습되는 방식에 따라 특징을 추출하여 코스트 특징맵과 디스패리티 특징맵 및 컬러 특징맵을 획득한다(S15). 그리고 획득된 코스트 특징맵과 디스패리티 특징맵 및 컬러 특징맵을 기지정된 방식으로 결합하여 결합 특징맵을 획득한다(S16). 결합 특징맵이 획득되면, 학습되는 방식에 따라 획득된 결합 특징맵의 특징을 추출하여 추정 신뢰도 맵(F(G(C)))을 획득한다(S17).
추정 신뢰도 맵(F(G(C)))이 획득되면, 추정 디스패리티 맵(G(C))과 진리 디스패리티 맵(D*) 및 추정 신뢰도 맵(F(G(C)))을 기반으로 추정 신뢰도 맵(F(G(C)))의 각 픽셀별 추정 신뢰도가 정상적으로 추정 디스패리티 맵(G(C))의 신뢰도를 정상적으로 판정한 결과인지 여부에 따라 양성 또는 음성을 판별한다(S18).
이후, 추정 디스패리티 맵(G(C))의 생성 과정에서 발생한 디스패리티 손실(Ldisp(G))을 수학식 1에 따라 계산하여 획득하고, 추정 디스패리티 맵(G(C))의 각 픽셀별 신뢰도를 적대적으로 판정하는 과정에서 발생한 신뢰도 손실(Lconf(G,F)) 중 음성으로 판별된 손실을 수학식 3에 따라 계산하고, 계산된 디스패리티 손실(Ldisp(G))과 손실(Lconf(G,F))을 결합하여 수학식 4로 계산되는 총 손실(Ltotal(G,F))을 역전파하여 인공 신경망을 학습시킨다(S19). 여기서는 설명의 편의를 위하여 생략하였으나, 학습 단계(S10)는 인공 신경망의 네트워크 함수(G,F)가 수학식 5에 대응하여 최적화되도록 반복 수행될 수 있다.
한편, 학습이 완료된 이후, 신뢰도 추정 단계(S20)에서도 우선 스테레오 영상이 입력된다(S21). 여기서 스테레오 영상은 학습 스테레오 영상과 달리 진리 디스패리티 맵(D*)이 획득되지 않은 스테레오 영상을 나타낸다.
이후, 코스트 볼륨(C)을 획득하는 단계(S22)로부터 신뢰도 맵을 획득하는 단계(S27)의 과정은 실질적으로 인공 신경망이 미리 학습된 상태인 점을 제외하면 학습 단계에서와 동일하다. 따라서 여기서는 상세하게 설명하지 않는다.
상기한 본 실시예의 스테레오 매칭 신뢰도 추정 방법은 학습 시에 디스패리티 맵과 정제 코스트 볼륨을 생성하는 인공 신경망과 생성된 디스패리티 맵과 정제 코스트 볼륨 및 기준 영상을 기반으로 생성된 디스패리티 맵의 신뢰도를 판정하는 인공 신경망을 생성적 적대 방식으로 함께 학습시키므로, 상호 보완적으로 학습이 수행되어 더욱 정확하게 디스패리티 맵과 신뢰도 맵을 획득하도록 학습 될 수 있다.
본 발명에 따른 방법은 컴퓨터에서 실행시키기 위한 매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다. 여기서 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스 될 수 있는 임의의 가용 매체일 수 있고, 또한 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함하며, ROM(판독 전용 메모리), RAM(랜덤 액세스 메모리), CD(컴팩트 디스크)-ROM, DVD(디지털 비디오 디스크)-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등을 포함할 수 있다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.
따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 청구범위의 기술적 사상에 의해 정해져야 할 것이다.
100: 영상 입력부 200: 스테레오 매칭부
210: 코스트 볼륨 획득부 220: 디스패리티 맵 획득부
221: 코스트 볼륨 변환부 222: 정규화부
223: 디스패리티 추출부 224: 코스트 정제부
300: 신뢰도 판정부 310: 매칭 코스트 특징 추출부
320: 디스패리티 특징 추출부 330: 컬러 특징 추출부
340: 특징 결합부 341: 맵 결합부
342: 가중치 설정부 342: 가중치 적용부
350: 신뢰도 추출부 400: 학습부

Claims (18)

  1. 스테레오 영상의 2개의 영상을 인가받아, 2개의 영상 사이에서 기지정된 방식에 따른 픽셀 비교를 통해 각 픽셀별 매칭 코스트를 계산하여 코스트 볼륨을 획득하는 코스트 볼륨 획득부;
    미리 학습된 인공 신경망으로 구현되어, 상기 코스트 볼륨으로부터 학습된 방식에 따라 2개의 시점 영상에서 대응하는 픽셀 사이의 거리를 추정하여 디스패리티 맵을 생성하고, 상기 코스트 볼륨의 다수의 매칭 코스트를 학습된 방식에 따라 정제하여 정제 코스트 볼륨을 획득하는 디스패리티 맵 획득부; 및
    미리 학습된 인공 신경망으로 구현되어, 상기 2개의 영상 중 하나의 영상과 상기 디스패리티 맵 및 상기 정제 코스트 볼륨 각각의 특징을 학습된 방식에 따라 추출하고 추출된 특징을 결합하며, 결합된 특징으로부터 학습된 방식에 따라 상기 디스패리티 맵의 각 픽셀별 신뢰 여부를 판정하여 신뢰도 맵을 획득하는 신뢰도 판정부를 포함하는 스테레오 매칭 신뢰도 추정 장치.
  2. 제1항에 있어서, 상기 스테레오 매칭 신뢰도 추정 장치는
    학습 시에 결합되어, 학습 스테레오 영상이 상기 코스트 볼륨 획득부에 인가되어 상기 디스패리티 맵 획득부가 상기 디스패리티 맵을 생성하는 과정에서 발생한 디스패리티 손실과 상기 신뢰도 판정부가 디스패리티 맵의 각 픽셀별 신뢰도를 적대적으로 판정하는 과정에서 발생한 신뢰도 손실을 계산하고, 계산된 디스패리티 손실과 신뢰도 손실을 이용하여 계산되는 총 손실을 역전파하여, 인공 신경망으로 구현되는 상기 디스패리티 맵 획득부와 상기 신뢰도 판정부를 학습시키는 학습부를 더 포함하는 스테레오 매칭 신뢰도 추정 장치.
  3. 제2항에 있어서, 상기 학습부는
    학습 스테레오 영상과 함께 제공된 진리 디스패리티 맵과 상기 디스패리티 맵 획득부가 학습 스테레오 영상으로부터 획득한 디스패리티 맵을 기반으로 진리 신뢰도 맵을 획득하고, 진리 신뢰도 맵과 상기 신뢰도 판정부에서 획득된 신뢰도 맵의 픽셀별 신뢰도를 비교하여 신뢰도 맵의 각 픽셀별 신뢰 여부를 양성 또는 음성으로 판별하며, 상기 신뢰도 손실을 판별된 양성 및 음성에 따라 구분하여 계산하는 스테레오 매칭 신뢰도 추정 장치.
  4. 제3항에 있어서, 상기 학습부는
    상기 디스패리티 손실과 양성 및 음성에 따라 구분하여 계산되는 상기 신뢰도 손실 중 음성으로 구분된 신뢰도 손실을 이용하여 상기 총 손실을 계산하는 스테레오 매칭 신뢰도 추정 장치.
  5. 제4항에 있어서, 상기 학습부는
    상기 디스패리티 손실(Ldisp(G))을 수학식
    Figure pat00014

    (여기서
    Figure pat00015
    는 스테레오 영상의 2개의 영상 중 하나를 기준 영상(Il)으로 하여 계산된 코스트 볼륨(C)에서 크로스 엔트로피를 나타내는 에너지 함수이고, GD(C)는 코스트 볼륨(C)에서 추정된 디스패리티 맵이며, D*은 진리 디스패리티 맵이다. 그리고
    C' 은 기준 영상(Il)이 아닌 나머지 영상(Ir)을 기준으로 하는 경우 획득되는 와핑 코스트 볼륨을 나타내고, GD(C')은 와핑 코스트 볼륨으로부터 추정되는 와핑 추정 디스패리티 맵을 나타내며, IrGD(C')은 와핑 추정 디스패리티 맵(GD(C'))에 따라 와핑된 나머지 영상(Ir)을 나타낸다.
    Figure pat00016
    는 와핑 코스트 볼륨(C')에서의 크로스 엔트로피를 나타내는 에너지 함수이다.)
    에 따라 계산하는 스테레오 매칭 신뢰도 추정 장치.
  6. 제5항에 있어서, 상기 학습부는
    판별된 양성 및 음성에 따른 상기 신뢰도 손실을 구분하여 수학식
    Figure pat00017

    (여기서
    Figure pat00018
    Figure pat00019
    는 각각 t번째 반복 학습에서 양성으로 판별된 코스트 볼륨과 디스패리티 맵을 나타내고,
    Figure pat00020
    는 t번째 반복 학습에서 코스트 볼륨(Ct)과 디스패리티 맵(Dt) 및 컬러 영상(Il) 각각의 양성으로 판별된 코스트 볼륨(
    Figure pat00021
    )과 디스패리티 맵(
    Figure pat00022
    ) 및 컬러 영상(Il) 픽셀의 크로스 엔트로피를 나타내는 에너지 함수이다. 또한
    Figure pat00023
    는 코스트 볼륨(C)과 컬러 영상(Il)에서 음성으로 판별된 코스트 볼륨(C)과 컬러 영상(Il) 픽셀의 크로스 엔트로피를 나타내는 에너지 함수이고, F(G(C))는 학습 과정에서 코스트 볼륨(C)으로부터 추정된 디스패리티 맵(G(C))에 대해 판정된 신뢰도 맵을 나타낸다.)
    에 따라 계산하는 스테레오 매칭 신뢰도 추정 장치.
  7. 제6항에 있어서, 상기 학습부는
    판별된 양성 및 음성에 따라 구분되어 계산되는 상기 신뢰도 손실 중 음성으로 판별된 신뢰도 손실을
    Figure pat00024

    에 따라 획득하고, 상기 디스패리티 손실(Ldisp(G))과 상기 음성으로 판별된 신뢰도 손실로부터 상기 총 손실(Ltotal(G,F))을 수학식
    Figure pat00025

    에 따라 계산하여 역전파하는 스테레오 매칭 신뢰도 추정 장치.
  8. 제1항에 있어서, 상기 디스패리티 맵 획득부는
    인코더 및 디코더를 구비하는 오토인코더 형식의 인공 신경망으로 구현되어 상기 코스트 볼륨의 매칭 코스트를 학습된 방식에 따라 집계하고, 집계된 코스트 볼륨의 픽셀 각각에 대해 학습된 방식에 따라 디코딩하여 픽셀별 확률 밀도를 추출하는 코스트 볼륨 변환부;
    코스트 볼륨의 픽셀별 확률 밀도를 정규화 레이어로 정규화하여 정규 코스트 볼륨을 획득하는 정규화부;
    상기 정규 코스트 볼륨의 픽셀별로 정규화된 다수의 매칭 코스트 중 최대가 되는 코스트를 나타내는 디스패리티를 추출하여 상기 디스패리티 맵을 획득하는 디스패리티 추출부; 및
    정규 코스트 볼륨에서 학습된 방식에 따라 기설정된 K개의 코스트를 추출 및 풀링하여 상기 정제 코스트 볼륨을 획득하는 코스트 정제부를 포함하는 스테레오 매칭 신뢰도 추정 장치.
  9. 제8항에 있어서, 상기 신뢰도 판정부는
    상기 정제 코스트 볼륨을 인가받아 미리 학습된 방식에 따라 특징을 추출하여 코스트 특징맵을 획득하는 매칭 코스트 특징 추출부;
    상기 디스패리티 맵을 인가받아 미리 학습된 방식에 따라 특징을 추출하여 디스패리티 특징맵을 획득하는 디스패리티 특징 추출부;
    상기 스테레오 영상의 2개의 영상 중 매칭 코스트 획득 시 기준이 되는 기준 영상을 인가받아 미리 학습된 방식에 따라 특징을 추출하여 컬러 특징맵을 획득하는 컬러 특징 추출부;
    상기 코스트 특징맵과 상기 디스패리티 특징맵 및 상기 컬러 특징맵을 인가받아 기지정된 방식으로 결합하여 결합 특징맵을 획득하는 특징 결합부; 및
    상기 결합 특징맵을 인가받아 미리 학습된 방식으로 상기 디스패리티 맵의 각 픽셀별 신뢰도를 판정하여 신뢰도 맵을 획득하는 신뢰도 추출부를 포함하는 스테레오 매칭 신뢰도 추정 장치.
  10. 스테레오 영상의 2개의 영상을 인가받아, 2개의 영상 사이에서 기지정된 방식에 따른 픽셀 비교를 통해 각 픽셀별 매칭 코스트를 계산하여 코스트 볼륨을 획득하는 단계;
    미리 학습된 인공 신경망을 이용하여, 상기 코스트 볼륨의 다수의 매칭 코스트를 학습된 방식에 따라 정제하여 정제 코스트 볼륨을 획득하고, 상기 코스트 볼륨으로부터 학습된 방식에 따라 2개의 시점 영상에서 대응하는 픽셀 사이의 거리를 추정하여 디스패리티 맵을 생성하는 단계; 및
    미리 학습된 인공 신경망을 이용하여, 상기 2개의 영상 중 하나의 영상과 상기 디스패리티 맵 및 상기 정제 코스트 볼륨 각각의 특징을 학습된 방식에 따라 추출하고 추출된 특징을 결합하고, 결합된 특징으로부터 학습된 방식에 따라 상기 디스패리티 맵의 각 픽셀별 신뢰 여부를 판정하여 신뢰도 맵을 획득하는 단계를 포함하는 스테레오 매칭 신뢰도 추정 방법.
  11. 제10항에 있어서, 상기 스테레오 매칭 신뢰도 추정 방법은
    상기 인공 신경망을 학습시키기 위한 학습 단계를 더 포함하고,
    상기 학습 단계는 학습 스테레오 영상으로부터 상기 디스패리티 맵을 생성하는 과정에서 발생한 디스패리티 손실을 계산하는 단계;
    상기 디스패리티 맵의 각 픽셀별 신뢰도를 적대적으로 판정하는 과정에서 발생한 신뢰도 손실을 계산하는 단계; 및
    계산된 디스패리티 손실과 신뢰도 손실을 이용하여 계산되는 총 손실을 역전파하여 상기 인공 신경망을 학습시키는 단계를 포함하는 스테레오 매칭 신뢰도 추정 방법.
  12. 제11항에 있어서, 상기 디스패리티 손실을 계산하는 단계는
    상기 디스패리티 손실(Ldisp(G))을 수학식
    Figure pat00026

    (여기서
    Figure pat00027
    는 스테레오 영상의 2개의 영상 중 하나를 기준 영상(Il)으로 하여 계산된 코스트 볼륨(C)에서 크로스 엔트로피를 나타내는 에너지 함수이고, GD(C)는 코스트 볼륨(C)에서 추정된 디스패리티 맵이며, D*은 진리 디스패리티 맵이다. 그리고
    C' 은 기준 영상(Il)이 아닌 나머지 영상(Ir)을 기준으로 하는 경우 획득되는 와핑 코스트 볼륨을 나타내고, GD(C')은 와핑 코스트 볼륨으로부터 추정되는 와핑 추정 디스패리티 맵을 나타내며, IrGD(C')은 와핑 추정 디스패리티 맵(GD(C'))에 따라 와핑된 나머지 영상(Ir)을 나타낸다.
    Figure pat00028
    는 와핑 코스트 볼륨(C')에서의 크로스 엔트로피를 나타내는 에너지 함수이다.)
    에 따라 계산하는 스테레오 매칭 신뢰도 추정 방법.
  13. 제12항에 있어서, 상기 신뢰도 손실을 계산하는 단계는
    학습 스테레오 영상과 함께 제공된 진리 디스패리티 맵과 학습 스테레오 영상으로부터 생성된 디스패리티 맵을 기반으로 진리 신뢰도 맵을 획득하는 단계;
    진리 신뢰도 맵과 획득된 상기 신뢰도 맵의 픽셀별 신뢰도를 비교하여 신뢰도 맵의 각 픽셀별 신뢰 여부를 양성 또는 음성으로 판별하는 단계; 및
    상기 신뢰도 손실을 판별된 양성 및 음성에 따라 구분하여 계산하는 단계를 포함하는 스테레오 매칭 신뢰도 추정 방법.
  14. 제13항에 있어서, 상기 양성 및 음성에 따라 구분하여 계산하는 단계는
    판별된 양성 및 음성에 따른 상기 신뢰도 손실을 구분하여 수학식
    Figure pat00029

    (여기서
    Figure pat00030
    Figure pat00031
    는 각각 t번째 반복 학습에서 양성으로 판별된 코스트 볼륨과 디스패리티 맵을 나타내고,
    Figure pat00032
    는 t번째 반복 학습에서 코스트 볼륨(Ct)과 디스패리티 맵(Dt) 및 컬러 영상(Il) 각각의 양성으로 판별된 코스트 볼륨(
    Figure pat00033
    )과 디스패리티 맵(
    Figure pat00034
    ) 및 컬러 영상(Il) 픽셀의 크로스 엔트로피를 나타내는 에너지 함수이다. 또한
    Figure pat00035
    는 코스트 볼륨(C)과 컬러 영상(Il)에서 음성으로 판별된 코스트 볼륨(C)과 컬러 영상(Il) 픽셀의 크로스 엔트로피를 나타내는 에너지 함수이고, F(G(C))는 학습 과정에서 코스트 볼륨(C)으로부터 추정된 디스패리티 맵(G(C))에 대해 판정된 신뢰도 맵을 나타낸다.)
    에 따라 계산하는 스테레오 매칭 신뢰도 추정 방법.
  15. 제14항에 있어서, 상기 학습시키는 단계는
    상기 디스패리티 손실과 양성 및 음성에 따라 구분하여 계산되는 상기 신뢰도 손실 중 음성으로 구분된 신뢰도 손실을 이용하여 상기 총 손실을 계산하는 스테레오 매칭 신뢰도 추정 방법.
  16. 제15항에 있어서, 상기 총 손실을 계산하는 단계는
    판별된 양성 및 음성에 따라 구분되어 계산되는 상기 신뢰도 손실 중 음성으로 판별된 신뢰도 손실을
    Figure pat00036

    에 따라 획득하는 단계; 및
    상기 총 손실(Ltotal(G,F))을 상기 디스패리티 손실(Ldisp(G))과 상기 음성으로 판별된 신뢰도 손실로부터 수학식
    Figure pat00037

    에 따라 계산하여 역전파하는 단계를 포함하는 스테레오 매칭 신뢰도 추정 방법.
  17. 제10항에 있어서, 상기 디스패리티 맵을 생성하는 단계는
    인코더 및 디코더를 구비하는 오토인코더 형식의 인공 신경망을 이용하여 상기 코스트 볼륨의 매칭 코스트를 학습된 방식에 따라 집계하고, 집계된 코스트 볼륨의 픽셀 각각에 대해 학습된 방식에 따라 디코딩하여 픽셀별 확률 밀도를 추출하는 단계;
    코스트 볼륨의 픽셀별 확률 밀도를 정규화 레이어로 정규화하여 정규 코스트 볼륨을 획득하는 단계;
    상기 정규 코스트 볼륨의 픽셀별로 정규화된 다수의 매칭 코스트 중 최대가 되는 코스트를 나타내는 디스패리티를 추출하여 상기 디스패리티 맵을 획득하는 단계; 및
    정규 코스트 볼륨에서 학습된 방식에 따라 기설정된 K개의 코스트를 추출 및 풀링하여 상기 정제 코스트 볼륨을 획득하는 단계를 포함하는 스테레오 매칭 신뢰도 추정 방법.
  18. 제17항에 있어서, 상기 신뢰도 맵을 획득하는 단계는
    상기 정제 코스트 볼륨을 인가받아 미리 학습된 방식에 따라 특징을 추출하여 코스트 특징맵을 획득하는 단계;
    상기 디스패리티 맵을 인가받아 미리 학습된 방식에 따라 특징을 추출하여 디스패리티 특징맵을 획득하는 단계;
    상기 스테레오 영상의 2개의 영상 중 매칭 코스트 획득 시 기준이 되는 기준 영상을 인가받아 미리 학습된 방식에 따라 특징을 추출하여 컬러 특징맵을 획득하는 단계;
    상기 코스트 특징맵과 상기 디스패리티 특징맵 및 상기 컬러 특징맵을 인가받아 기지정된 방식으로 결합하여 결합 특징맵을 획득하는 단계; 및
    상기 결합 특징맵을 인가받아 미리 학습된 방식으로 상기 디스패리티 맵의 각 픽셀별 신뢰도를 판정하여 신뢰도 맵을 획득하는 단계를 포함하는 스테레오 매칭 신뢰도 추정 방법.
KR1020200162095A 2020-11-27 2020-11-27 생성적 적대 신경망을 이용한 스테레오 매칭 신뢰도 추정 장치 및 방법 KR102609829B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200162095A KR102609829B1 (ko) 2020-11-27 2020-11-27 생성적 적대 신경망을 이용한 스테레오 매칭 신뢰도 추정 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200162095A KR102609829B1 (ko) 2020-11-27 2020-11-27 생성적 적대 신경망을 이용한 스테레오 매칭 신뢰도 추정 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20220074044A true KR20220074044A (ko) 2022-06-03
KR102609829B1 KR102609829B1 (ko) 2023-12-04

Family

ID=81983280

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200162095A KR102609829B1 (ko) 2020-11-27 2020-11-27 생성적 적대 신경망을 이용한 스테레오 매칭 신뢰도 추정 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102609829B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116320358A (zh) * 2023-05-19 2023-06-23 成都工业学院 一种视差图像预测装置及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160010120A (ko) * 2014-07-18 2016-01-27 삼성전자주식회사 단항 신뢰도 및 쌍별 신뢰도 학습을 통한 스테레오 매칭 장치 및 방법
KR20170106325A (ko) * 2015-01-20 2017-09-20 퀄컴 인코포레이티드 다중 기술 심도 맵 취득 및 융합을 위한 방법 및 장치
KR20180087944A (ko) * 2017-01-26 2018-08-03 삼성전자주식회사 스테레오 매칭 방법 및 장치
KR101941994B1 (ko) 2018-08-24 2019-01-24 전북대학교산학협력단 결합심층네트워크에 기반한 보행자 인식 및 속성 추출 시스템

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160010120A (ko) * 2014-07-18 2016-01-27 삼성전자주식회사 단항 신뢰도 및 쌍별 신뢰도 학습을 통한 스테레오 매칭 장치 및 방법
KR20170106325A (ko) * 2015-01-20 2017-09-20 퀄컴 인코포레이티드 다중 기술 심도 맵 취득 및 융합을 위한 방법 및 장치
KR20180087944A (ko) * 2017-01-26 2018-08-03 삼성전자주식회사 스테레오 매칭 방법 및 장치
KR101941994B1 (ko) 2018-08-24 2019-01-24 전북대학교산학협력단 결합심층네트워크에 기반한 보행자 인식 및 속성 추출 시스템

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116320358A (zh) * 2023-05-19 2023-06-23 成都工业学院 一种视差图像预测装置及方法
CN116320358B (zh) * 2023-05-19 2023-12-01 成都工业学院 一种视差图像预测装置及方法

Also Published As

Publication number Publication date
KR102609829B1 (ko) 2023-12-04

Similar Documents

Publication Publication Date Title
US11393256B2 (en) Method and device for liveness detection, and storage medium
US9916667B2 (en) Stereo matching apparatus and method through learning of unary confidence and pairwise confidence
KR102459853B1 (ko) 디스패리티 추정 장치 및 방법
US11348270B2 (en) Method for stereo matching using end-to-end convolutional neural network
US7489812B2 (en) Conversion and encoding techniques
WO2019169884A1 (zh) 基于深度信息的图像显著性检测方法和装置
CN109117691A (zh) 可行驶区域检测方法、装置、设备及存储介质
US9323989B2 (en) Tracking device
EP4348579A1 (en) Occlusion-aware multi-object tracking
WO2023015938A1 (zh) 三维点检测的方法、装置、电子设备及存储介质
CN112926557B (zh) 一种训练多模态人脸识别模型的方法以及多模态人脸识别方法
KR20220074044A (ko) 생성적 적대 신경망을 이용한 스테레오 매칭 신뢰도 추정 장치 및 방법
CN111008294B (zh) 交通图像处理、图像检索方法及装置
US9208402B2 (en) Face matching for mobile devices
KR101437228B1 (ko) 입체영상에서의 외곽선 가중치 기반 장애물 영역 검출 장치 및 방법
CN113763468A (zh) 一种定位方法、装置、系统及存储介质
EP2146319A1 (en) Filling of sparse depth maps of an image sequence
CN105100768A (zh) 用于立体匹配的方法和用于上采样的方法
CN105323460A (zh) 图像处理设备及其控制方法
US20230386063A1 (en) Method for generating depth in images, electronic device, and non-transitory storage medium
CN115063594B (zh) 一种基于自动驾驶的特征提取方法及装置
US20230386189A1 (en) Method for sensing object
KR101437431B1 (ko) Seh 알고리즘을 이용한 차량 인식 방법 및 장치
WO2021114871A1 (zh) 视差确定方法、电子设备及计算机可读存储介质
CN115994951A (zh) 一种双目视觉深度图计算方法及系统

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant