KR101961687B1 - 장면 흐름 추정을 위한 장면 흐름 학습 방법 및 장면 흐름 추정 방법 - Google Patents
장면 흐름 추정을 위한 장면 흐름 학습 방법 및 장면 흐름 추정 방법 Download PDFInfo
- Publication number
- KR101961687B1 KR101961687B1 KR1020170136308A KR20170136308A KR101961687B1 KR 101961687 B1 KR101961687 B1 KR 101961687B1 KR 1020170136308 A KR1020170136308 A KR 1020170136308A KR 20170136308 A KR20170136308 A KR 20170136308A KR 101961687 B1 KR101961687 B1 KR 101961687B1
- Authority
- KR
- South Korea
- Prior art keywords
- flow
- probability information
- disparity
- layer
- presenter
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
-
- G06K9/20—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G06K9/6277—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
딥 뉴럴 네트워크 구조 기반의 장면 흐름(scene flow) 추정 방법에 관한 것이며, 장면 흐름 추정 방법은, (a) t 시간에서의 제1 시점 이미지 및 제2 시점 이미지를 입력으로 시각적 장면흐름 표현자를 순차적으로 다운 샘플링하면서 목표 해상도에서의 시각적 장면흐름 표현자를 추출하는 단계; 및 (b) 추출된 상기 시각적 장면흐름 표현자를 고려하여 산출된 상기 목표 해상도에서의 디스패리티 대응점 후보군에 대한 정합도를 이용하여 상기 목표 해상도에서의 디스패리티 확률정보를 추정하고, 추출된 상기 시각적 장면흐름 표현자를 고려하여 산출된 상기 목표 해상도에서의 광학흐름 대응점 후보군에 대한 정합도를 이용하여 상기 목표 해상도에서의 광학흐름 확률정보를 추정하는 단계를 포함할 수 있다.
Description
본원은 장면 흐름 추정을 위한 장면 흐름 학습 방법 및 장면 흐름 추정 방법에 관한 것으로서, 특히 실시간 장면 흐름(scene flow) 정밀 추정을 위한 딥 뉴럴 네트워크 구조 및 학습 방법에 관한 것이다.
장면 흐름(scene flow) 추정 기술은 무인기 자율비행, 자율주행 차 등 이동 로봇에 필요한 핵심 기술 중 하나이다. 여기서, 장면 흐름은 디스패리티(disparity)와 광학흐름(optical flow)을 의미하며, 디스패리티는 스테레오 이미지의 시점(view point) 차이로 인하여 발생하는 두 대응 픽셀 간의 수평 변위로 카메라와 물체간의 거리 정보를 나타내고, 광학흐름은 연속 이미지의 시차(time difference)로 발생하는 두 대응 픽셀 간의 수평, 수직 변위로 카메라와 물체의 움직임 정보를 나타낸다.
스테레오 카메라(stereo camera) 센서의 경우 가격이 싸고 장면 흐름 정보뿐만 아니라 다양한 시각 정보를 추출할 수 있기 때문에, 관련 분야에서 스테레오 영상을 이용한 장면 흐름 추정 기술이 많이 이용되고 있다.
스테레오 카메라를 이용한 장면 흐름(scene flow) 추정시, 주로 두 이미지 간 대응 픽셀(corresponding pixel)을 탐색하는 대응점 정합(correspondence matching) 기술이 사용된다. 이때, 두 픽셀 간의 정합도(matching degree)를 나타내는 연산으로서 구현이 쉽고 계산량이 적은 SAD(Sum of Absolute Difference)가 일반적으로 사용되고 있다. 그러나, SAD 방식만으로는 정확한 대응점을 찾기가 어려워 SAD를 적용한 이후에 다양한 후 처리를 추가로 시행해야 하기 때문에, 이는 장면 흐름에 대한 실시간 추정을 어렵게 하는 측면에 있다.
최근에는 인공지능 분야에서 획기적인 성과를 내고 있는 딥 러닝을 사용하여 장면 흐름을 측정하는 방법들이 제안되고 있다. 딥 러닝 방식 중에서 기존의 방법에 필적하거나 더 나은 성과를 내고 있는 딥 러닝 정합 방식이 많은 주목을 받고 있다. 딥 러닝 정합 방식은 이미지 패치 간의 정합도를 콘벌루션 뉴럴 네트워크(Convolutional Neural Network, CNN)로 학습한 후에 픽셀의 대응점을 탐색한다. 그러나 종래의 딥 러닝 정합 방식은 주어진 해상도의 이미지에서 픽셀의 대응점을 탐색하기 때문에, 계산량이 적은 SAD와 달리, 수행 속도가 너무 느려져서 실시간으로 장면 흐름을 추정하는 데에 어려움이 있다.
본원의 배경이 되는 기술은 논문 [Jure Zbontar, Yann LeCun, "Stereo Matching by Training a Convolutional Neural Network to Compare Image Patches", Journal of Machine Learning Research 17 (2016) 1-32]에 개시되어 있다.
상기 논문은 CNN 신경망을 이용하여 스테레오 이미지의 특징을 추출하고, 두 이미지 간의 유사도(similarity) 측정을 위한 신경망 구조 및 학습 방법에 대해 제안한다. 그러나, 상기 논문에서 제안하는 신경망 구조 및 학습 방법은 깊이 실측치가 필요하고 유사도 측정 속도가 느리며 여러 단계의 후처리가 필요함에 따라 수행 시간이 오래 걸려, 실시간 장면 흐름 추정에 적용하는데에 한계가 있다.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 딥 러닝 정합 방식에 있어서 대응점 탐색 속도를 효과적으로 개선함과 동시에 딥 러닝 방식의 장점인 대응점 측정 정확도를 향상시킬 수 있는 장면 흐름 추정을 위한 딥 뉴럴 네트워크 구조 및 그에 기반한 장면 흐름 학습 방법과 장면 흐름 추정 방법을 제공하려는 것을 목적으로 한다.
다만, 본원의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 제 1측면에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름(scene flow) 추정 방법은, (a) t 시간에서의 제1 시점 이미지 및 제2 시점 이미지를 입력으로 시각적 장면흐름 표현자를 순차적으로 다운 샘플링하면서 목표 해상도에서의 시각적 장면흐름 표현자를 추출하는 단계; 및 (b) 추출된 상기 시각적 장면흐름 표현자를 고려하여 산출된 상기 목표 해상도에서의 디스패리티 대응점 후보군에 대한 정합도를 이용하여 상기 목표 해상도에서의 디스패리티 확률정보를 추정하고, 추출된 상기 시각적 장면흐름 표현자를 고려하여 산출된 상기 목표 해상도에서의 광학흐름 대응점 후보군에 대한 정합도를 이용하여 상기 목표 해상도에서의 광학흐름 확률정보를 추정하는 단계를 포함할 수 있다.
상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 제2 측면에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름 추정을 위한 장면 흐름 학습 방법은, (a) 복수의 계층 중 어느 하나인 다운 샘플링 계층에 대하여 t 시간에서의 제1 시점 이미지 및 제2 시점 이미지에 대응하는 타깃 디스패리티 확률정보를 학습대상으로서 산출하고, 상기 다운 샘플링 계층에 대하여 상기 t 시간에서의 제1 시점 이미지 및 상기 t 시간보다 이전인 (t-1) 시간에서의 제1 시점 이미지에 대응하는 타깃 광학흐름 확률정보를 학습대상으로서 산출하는 단계; (b) 상기 다운 샘플링 계층에 포함된 다층 CNN의 적용을 통해 시각적 장면흐름 표현자를 추출하는 단계; 및 (c) 추출된 상기 시각적 장면흐름 표현자를 고려하여 산출된 상기 다운 샘플링 계층에서의 디스패리티 대응점 후보군에 대한 정합도를 이용하여 상기 다운 샘플링 계층에서의 디스패리티 확률정보를 추정한 다음, 상기 다운 샘플링 계층에 대한 타깃 디스패리티 확률정보와의 차이가 최소화되도록 학습하고, 추출된 상기 시각적 장면흐름 표현자를 고려하여 산출된 상기 다운 샘플링 계층에서의 광학흐름 대응점 후보군에 대한 정합도를 이용하여 상기 다운 샘플링 계층에서의 광학흐름 확률정보를 추정한 다음, 상기 다운 샘플링 계층에 대한 타깃 광학흐름 확률정보와의 차이가 최소화되도록 학습하는 단계를 포함하고, 상기 (a) 단계 내지 상기 (c) 단계는, t 시간에서의 제1 시점 이미지 및 제2 시점 이미지를 입력으로 시각적 장면흐름 표현자가 목표 해상도까지 순차적으로 다운 샘플링되고 상기 t 시간에서의 제1 시점 이미지 및 상기 (t-1) 시간에서의 제1 시점 이미지를 입력으로 시각적 장면흐름 표현자가 목표 해상도까지 순차적으로 다운 샘플링되는 복수의 계층에 대하여 각각 수행될 수 있다.
상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 제3 측면에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름(scene flow) 추정 장치는, t 시간에서의 제1 시점 이미지 및 제2 시점 이미지를 입력으로 시각적 장면흐름 표현자를 순차적으로 다운 샘플링하면서 목표 해상도에서의 시각적 장면흐름 표현자를 추출하는 시각적 장면흐름 표현자 추출부; 및 추출된 상기 시각적 장면흐름 표현자를 고려하여 산출된 상기 목표 해상도에서의 디스패리티 대응점 후보군에 대한 정합도를 이용하여 상기 목표 해상도에서의 디스패리티 확률정보를 추정하고, 추출된 상기 시각적 장면흐름 표현자를 고려하여 산출된 상기 목표 해상도에서의 광학흐름 대응점 후보군에 대한 정합도를 이용하여 상기 목표 해상도에서의 광학흐름 확률정보를 추정하는 확률정보 추정부를 포함할 수 있다.
상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 제4 측면에 따른 장면 흐름 학습을 위한 장면 흐름 학습 장치는, 복수의 계층 중 어느 하나인 다운 샘플링 계층에 대하여 t 시간에서의 제1 시점 이미지 및 제2 시점 이미지에 대응하는 타깃 디스패리티 확률정보를 학습대상으로서 산출하고, 상기 다운 샘플링 계층에 대하여 상기 t 시간에서의 제1 시점 이미지 및 상기 t 시간보다 이전인 (t-1) 시간에서의 제1 시점 이미지에 대응하는 타깃 광학흐름 확률정보를 산출하고, 상기 다운 샘플링 계층에 포함된 다층 CNN의 적용을 통해 시각적 장면흐름 표현자를 추출하고, 추출된 상기 시각적 장면흐름 표현자를 고려하여 산출된 상기 다운 샘플링 계층에서의 디스패리티 대응점 후보군에 대한 정합도를 이용하여 상기 다운 샘플링 계층에서의 디스패리티 확률정보를 추정한 다음, 상기 다운 샘플링 계층에 대한 타깃 디스패리티 확률정보와의 차이가 최소화되도록 학습하고, 추출된 상기 시각적 장면흐름 표현자를 고려하여 산출된 상기 목표 해상도에서의 광학흐름 대응점 후보군에 대한 정합도를 이용하여 상기 목표 해상도에서의 광학흐름 확률정보를 추정한 다음, 상기 다운 샘플링 계층에 대한 타깃 광학흐름 확률정보와의 차이가 최소화되도록 학습하는 장면흐름 학습부를 포함하고, 상기 장면흐름 학습부는, 학습대상인 t 시간에서의 제1 시점 이미지 및 제2 시점 이미지를 입력으로 시각적 장면흐름 표현자가 목표 해상도까지 순차적으로 다운 샘플링되고 상기 t 시간에서의 제1 시점 이미지 및 상기 (t-1) 시간에서의 제1 시점 이미지를 입력으로 시각적 장면흐름 표현자가 목표 해상도까지 순차적으로 다운 샘플링되는 복수의 계층 각각에 대하여 차례로 학습을 수행할 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본원을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 추가적인 실시예가 존재할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 딥 러닝 정합 방식에 있어서 대응점 탐색 속도를 효과적으로 개선함과 동시에 딥 러닝 방식의 장점인 대응점 측정 정확도를 향상시킬 수 있는 장면 흐름 추정을 위한 딥 뉴럴 네트워크 구조 및 그에 기반한 장면 흐름 학습 방법과 장면 흐름 추정 방법을 제공할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 시각적 디스패리티 표현자 및 시각적 광학흐름 표현자를 포함하는 시각적 장면흐름 표현자에 대하여 수행된 학습에 기초하여 장면흐름 추정을 수행함으로써, 보다 빠르게 장면흐름을 추정할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 다운 샘플링을 복수회 수행하여 최저해상도인 목표해상도에서의 대응점 정합을 수행함으로써, 대응점 간의 정합 연산량을 효과적으로 줄일 수 있어 실시간으로 장면 흐름을 추정할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 원본 해상도보다 해상도가 낮은 목표 해상도(최저 해상도)에서 대응점 후보군에 대한 정합도를 연산함으로써 종래에 원본 해상도에서 정합도 연산을 수행하는 것 대비 연산량을 효과적으로 줄일 수 있다. 이에 더하여, 본원은 각 다운 샘플링 계층마다 그 해상도에 대응하는 이미지 상의 대응 후보점 사이의 거리에 반비례하도록 산출되는 타깃 확률정보와 추정된 확률정보 간의 차이가 최소화되도록 학습을 수행함으로써 장면 흐름 추정의 정확도 내지 신뢰성을 소정 이상 확보할 수 있는 효과적인 학습이 수행될 수 있다.
다만, 본원에서 얻을 수 있는 효과는 상기된 바와 같은 효과들로 한정되지 않으며, 또 다른 효과들이 존재할 수 있다.
도 1은 본원의 일 실시예에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름 추정 장치의 개략적인 구성을 나타낸 도면이다.
도 2는 본원의 일 실시예에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름 추정 장치에서 시각적 장면흐름 표현자 추출을 위한 시각적 장면흐름 표현자 추출 구조를 나타낸 도면이다.
도 3은 본원의 일 실시예에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름 추정 장치에서 원본 이미지에서의 디스패리티의 추정을 위한 디스패리티 추정 구조를 나타낸 도면이다.
도 4는 본원의 일 실시예에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름 추정 장치에서 원본 이미지에서의 광학흐름의 추정을 위한 광학흐름 추정 구조를 나타낸 도면이다.
도 5는 본원의 일 실시예에 따른 장면 흐름 추정을 위한 장면 흐름 학습시 고려되는 타깃 디스패리티 확률정보(확률분포)의 예를 나타낸 도면이다.
도 6은 본원의 일 실시예에 따른 장면 흐름 추정을 위한 장면 흐름 학습시 고려되는 타깃 광학흐름 확률정보(확률분포)의 예를 나타낸 도면이다.
도 7은 본원의 일 실시예에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름 추정 방법에 대한 동작 흐름도이다.
도 2는 본원의 일 실시예에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름 추정 장치에서 시각적 장면흐름 표현자 추출을 위한 시각적 장면흐름 표현자 추출 구조를 나타낸 도면이다.
도 3은 본원의 일 실시예에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름 추정 장치에서 원본 이미지에서의 디스패리티의 추정을 위한 디스패리티 추정 구조를 나타낸 도면이다.
도 4는 본원의 일 실시예에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름 추정 장치에서 원본 이미지에서의 광학흐름의 추정을 위한 광학흐름 추정 구조를 나타낸 도면이다.
도 5는 본원의 일 실시예에 따른 장면 흐름 추정을 위한 장면 흐름 학습시 고려되는 타깃 디스패리티 확률정보(확률분포)의 예를 나타낸 도면이다.
도 6은 본원의 일 실시예에 따른 장면 흐름 추정을 위한 장면 흐름 학습시 고려되는 타깃 광학흐름 확률정보(확률분포)의 예를 나타낸 도면이다.
도 7은 본원의 일 실시예에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름 추정 방법에 대한 동작 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결" 또는 "간접적으로 연결"되어 있는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에", "상부에", "상단에", "하에", "하부에", "하단에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
도 1은 본원의 일 실시예에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름 추정 장치(100)의 개략적인 구성을 나타낸 도면이다. 이하에서는 본원의 설명의 편의상 본원의 일 실시예에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름 추정 장치(100)를 본 장면 흐름 추정 장치(100)라 하기로 한다.
도 1을 참조하면, 본 장면 흐름 추정 장치(100)는 시각적 장면흐름 표현자 추출부(110) 및 확률정보 추정부(120)를 포함할 수 있다. 확률정보 추정부(120)는 디스패리티 확률정보 추정부(121) 및 광학흐름 확률정보 추정부(122)를 포함할 수 있다. 또한, 본 장면 흐름 추정 장치(100)는 추정부(130)를 포함할 수 있으며, 추정부(130)는 디스패리티 추정부(131) 및 광학흐름 추정부(132)를 포함할 수 있다.
본 장면 흐름 추정 장치(100)는 스테레오 카메라(1)로부터 획득된 이미지(영상)을 이용하여 디스패리티와 광학흐름을 포함하는 장면 흐름(scene flow)을 추정할 수 있다.
장면 흐름(scene flow)은 디스패리티(disparity)와 광학흐름(optical flow)을 의미한다. 여기서, 디스패리티는 스테레오 카메라(1)로부터 획득된 이미지에 있어서 스테레오 이미지의 시점(view point) 차이로 인하여 발생하는 두 대응 픽셀 간의 수평 변위로서, 카메라와 물체 간의 거리 정보를 나타낸다. 광학흐름은 스테레오 카메라(1)로부터 획득된 이미지에 있어서 연속된 이미지의 시차(time difference)로 발생하는 두 대응 픽셀 간의 수평, 수직 변위로서, 카메라와 물체의 움직임 정보를 나타낸다.
장면 흐름의 추정을 위해, 시각적 장면흐름 표현자 추출부(110)는 t 시간에서의 제1 시점 이미지 및 제2 시점 이미지 각각을 순차적으로 다운 샘플링하면서 목표 해상도에서의 시각적 장면흐름 표현자를 추출할 수 있다.
시각적 장면흐름 표현자 추출부(110)는 시각적 디스패리티 표현자 및 시각적 광학흐름 표현자를 포함하는 시각적 장면흐름 표현자를 추출할 수 있다. 달리 표현하여, 시각적 장면흐름 표현자 추출부(110)는 시각적 디스패리티 표현자 및 시각적 광학흐름 표현자를 하나의 시각적 장면흐름 표현자로서 추출할 수 있다.
여기서, 일예로 t 시간에서의 제1 시점 이미지는 스테레오 카메라(1)를 통해 t 시간에 획득된 좌측 이미지()를 의미하고, t 시간에서의 제2 시점 이미지는 스테레오 카메라(1)를 통해 t 시간에 획득된 우측 이미지()를 의미할 수 있다.
또한, 목표 해상도에서의 시각적 장면흐름 표현자(, )는 t 시간에서의 제1 시점 이미지에 대한 목표 해상도에서의 시각적 장면흐름 표현자() 및 t 시간에서의 제2 시점 이미지에 대한 목표 해상도에서의 시각적 장면흐름 표현자()를 포함할 수 있다. 즉, 목표 해상도라 함은 t 시간에서의 제1 시점 이미지와 t 시간에서의 제2 시점 이미지 각각의 목표 해상도를 의미할 수 있다. 목표 해상도는 최저해상도를 의미할 수 있다.
시각적 장면흐름 표현자의 추출 과정은 도 2를 참조하여 보다 쉽게 이해될 수 있다.
도 2는 본원의 일 실시예에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름 추정 장치(100)에서 시각적 장면흐름 표현자 추출을 위한 시각적 장면흐름 표현자 추출 구조를 나타낸 도면이다.
도 2를 참조하면, 본 장면 흐름 추정 장치(100)는 시각적 장면흐름 표현자를 추출하기 위해 복수의 레이어(10)를 계층적으로 구비할 수 있다. 여기서, 복수의 레이어(10)는 복수 레이어(계층)(10) 또는 다운 샘플링 계층(레이어)(10)이라 표현할 수 있으며, 복수 레이어(10)는 제1 레이어(11, 레이어 #1), 제2 레이어(12, 레이어 #2), 제3 레이어(13, 레이어 #3) 등을 포함할 수 있다. 또한, 후술할 본원에서 제1 레이어(11)는 제1 계층, 제1 다운 샘플링 계층 등으로 달리 표현될 수 있으며, 제2 레이어(12)는 제2 계층, 제2 다운 샘플링 계층 등으로 달리 표현될 수 있다.
복수 레이어(10) 각각은 다층 콘벌루션 뉴럴 네트워크(Convolutional Neural Network, CNN)(즉, 다층 CNN) 및 다운 샘플링부(down sampling)를 포함할 수 있다. 구체적인 일예로, 제1 레이어(11)는 제1 다층 CNN(11a, 다층 콘벌루션 뉴럴 네트워크 #1) 및 제1 다운 샘플링부(11b, 다운 샘플링 #1)를 포함할 수 있다. 제2 레이어(12)는 제2 다층 CNN(12a, 다층 콘벌루션 뉴럴 네트워크 #2) 및 제2 다운 샘플링부(12b, 다운 샘플링 #2)를 포함할 수 있다.
시각적 장면흐름 표현자 추출부(110)는 도 2에 도시된 바와 같은 시각적 장면흐름 표현자 추출 구조에 기초하여 순차적으로 다운 샘플링하면서 목표 해상도에서의 시각적 장면흐름 표현자를 추출할 수 있다. 특히, 장면흐름의 추정시, 시각적 장면흐름 표현자 추출부(110)는 스테레오 카메라(1)로부터 획득되는 이미지에 대하여, 입력 이미지 패치 P에 후술할 장면흐름 추정을 위한 장면 흐름 학습 장치에 의하여 학습된 CNN을 적용함으로써 시각적 디스패리티 표현자 및 시각적 광학흐름 표현자를 포함하는 시각적 장면흐름 표현자를 추출할 수 있다.
구체적으로, 시각적 장면흐름 표현자 추출부(110)는 순차적으로 다운 샘플링 수행시 계층적으로 구비된 복수 레이어(10) 각각에 포함된 다층 CNN의 적용을 통해 복수 레이어(10) 각각에 대응하는 해상도별 시각적 장면흐름 표현자를 추출하고, 해상도별 시각적 장면흐름 표현자에 대하여 다운 샘플링을 수행할 수 있다.
일예로, t 시간에서의 제1 시점 이미지가 제1 레이어(11) 내의 제1 다층 CNN(11a)의 입력값으로 적용될 수 있다. 시각적 장면흐름 표현자 추출부(110)는 제t 시간에서의 제1 시점 이미지에 제1 레이어(11) 내의 제1 다층 CNN(11a)을 적용함으로써, t 시간에서의 제1 시점 이미지의 원본 해상도에서의 제1 시각적 디스패리티 표현자(11c, 시각적 디스패리티 표현자 #1) 및 제1 시각적 광학흐름 표현자(11d, 시각적 광학흐름 표현자 #1)를 포함하는 제1 시각적 장면흐름 표현자(h1)를 추출할 수 있다. 이후 시각적 장면흐름 표현자 추출부(110)는 제1 시각적 장면흐름 표현자(h1)에 대하여 제1 다운 샘플링부(11b)의 적용을 통해 다운 샘플링을 수행할 수 있다. 제1 다운 샘플링부(11b)의 출력값은 제2 레이어(12) 내의 제2 다층 CNN(12a)의 입력값으로 적용될 수 있다. 한편, t 시간에서의 제1 시점 이미지에 대하여 설명한 내용은 t시간에서의 제2 시점 이미지에 대한 설명에도 동일 또는 유사하게 적용 가능하며, 이하 중복되는 설명은 생략하기로 한다. 이와 같은 과정이 복수 레이어(10) 각각에 대하여 순차적으로 반복하여 수행됨으로써, 시각적 광학흐름 표현자 추출부(110)는 최저해상도인 목표 해상도에서의 시각적 장면흐름 표현자를 추출할 수 있다.
달리 표현하면, 시각적 장면흐름 표현자 추출부(110)는 입력 이미지 패치 P에 제1 레이어(11) 내의 제1 다층 CNN(11a)을 적용함으로써 장면흐름 추정을 위한 시각적 장면흐름 표현자로서 제1 레이어(11)에 대응하는 제1 시각적 장면흐름 표현자(h1)를 추출할 수 있다. 이후, 시각적 장면흐름 표현자 추출부(110)는 제1 시각적 디스패리티 표현자(11c) 및 제1 시각적 광학흐름 표현자(11d)를 포함하는 제1 시각적 장면흐름 표현자(h1)를 제1 다운 샘플링부(11b)를 통해 다운 샘플링함으로써 를 추출할 수 있다. 여기서, 는 제1 시각적 장면흐름 표현자(h1)가 다운 샘플링된 시각적 장면흐름 표현자를 의미할 수 있다. 이후, 시각적 디스패리티 표현자 추출부(110)는 제1 다운 샘플링부(11b)의 출력값 을 입력으로 하여 제2 레이어(12) 내의 제2 다층 CNN(12a)를 적용함으로써 제1 레이어(11)로부터 출력된 이미지의 해상도에서의 시각적 장면흐름 표현자 h2(즉, 제2 레이어(12)에 대응하는 제2 시각적 장면흐름 표현자)를 추출할 수 있다. 이러한 과정은 복수 레이어(10) 각각에 대하여 순차적으로 진행될 수 있으며, 이를 통해 시각적 장면흐름 표현자 추출부(110)는 목표 해상도에서의 시각적 장면흐름 표현자를 추출할 수 있다.
시각적 장면흐름 표현자 추출부(110)는 목표 해상도에서의 시각적 장면흐름 표현자를 추출함에 있어서, 복수 레이어(10) 각각에 대응하는 계층별로, 다운 샘플링을 통해 점차 줄어든 각 해상도에 대응하는 시각적 장면흐름 표현자를 순차적으로 추출할 수 있다. 달리 표현하여, 시각적 장면흐름 표현자 추출부(110)는 순차적으로 다운 샘플링을 수행함으로써 해상도 별로 시각적 장면흐름 표현자를 추출할 수 있다. 시각적 장면흐름 표현자 추출부(110)는 계층별(레이어별) 장면흐름 측정을 가능하게 하는 시각적 장면흐름 표현자를 추출할 수 있다.
시각적 장면흐름 표현자 추출부(110)를 통해 목표 해상도에서의 시각적 장면흐름 표현자가 추출된 이후에, 확률정보 추정부(120)의 디스패리티 확률정보 추정부(121)는 추출된 시각적 장면흐름 표현자를 고려하여 산출된 목표 해상도에서의 디스패리티 대응점 후보군에 대한 정합도를 이용하여 목표 해상도에서의 디스패리티 확률정보를 추정할 수 있다. 또한, 확률정보 추정부(120)의 광학흐름 확률정보 추정부(122)는 추출된 시각적 장면흐름 표현자를 고려하여 산출된 목표 해상도에서의 광학흐름 대응점 후보군에 대한 정합도를 이용하여 목표 해상도에서의 광학흐름 확률정보를 추정할 수 있다.
확률정보 추정부(120)는 추정된 목표 해상도에서의 디스패리티 확률정보 및 광학흐름 확률정보를 기반으로 하여 장면 흐름을 추정할 수 있다. 특히, 확률정보 추정부(120)는 추정된 목표 해상도에서의 디스패리티 확률정보를 기반으로 디스패리티 측면에서의 장면 흐름을 추정하고, 추정된 목표 해상도에서의 광학흐름 확률정보를 기반으로 광학흐름 측면에서의 장면 흐름을 추정할 수 있으며, 이를 통해 장면 흐름을 추정할 수 있다. 여기서, 디스패리티가 수평 변위만 고려되는 깊이 맵 개념임에 따라 디스패리티 확률정보는 2차원 형태로 나타날 수 있다. 또한, 광학흐름이 수평 변위 및 수직 변위가 모두 고려된 개념임에 따라 광학흐름 확률정보는 3차원 형태로 나타날 수 있다.
또한, 디스패리티 확률정보 추정부(121)에서 산출되는 디스패리티 대응점 후보군에 대한 정합도는 t 시간에서의 제1 시점 이미지 및 제2 시점 이미지 각각에 대응하는 시각적 장면흐름 표현자 간의 정합도를 의미할 수 있다. 또한, 광학흐름 확률정보 추정부(122)에서 산출되는 광학흐름 대응점 후보군에 대한 정합도는 t 시간에서의 제1 시점 이미지 및 (t-1) 시간에서의 제1 시점 이미지 각각에 대응하는 시각적 장면흐름 표현자 간의 정합도를 의미할 수 있다.
구체적으로, 디스패리티 대응점 후보군에 대한 정합도는 t 시간에서의 제1 시점 이미지에 대응하는 시각적 장면흐름 표현자()와 t 시간에서의 제2 시점 이미지에 대응하는 시각적 장면흐름 표현자() 간의 정합도를 의미할 수 있다. 또한, 광학흐름 대응점 후보군에 대한 정합도는 t 시간에서의 제1 시점 이미지에 대응하는 시각적 장면흐름 표현자() 및 t 시간보다 이전인 (t-1) 시간에서의 제1 시점 이미지에 대응하는 시각적 장면흐름 표현자() 간의 정합도를 의미할 수 있다. 이때, 본원에서는 광학흐름 대응점 후보군에 대한 정합도가 일예로 제1 시점 이미지(좌측 이미지)에 대한 시각적 장면흐름 표현자를 이용하여 산출되는 것으로만 예시하였으나, 이에만 한정되는 것은 아니고, 제2 시점 이미지(우측 이미지)에 대한 시각적 장면흐름 표현자를 이용하여 산출될 수도 있다.
즉, 광학흐름 확률정보 추정부(122)는 장면흐름 추정을 위한 광학흐름 대응점 후보군에 대한 정합도 산출시, 스테레오 카메라(1)로부터 t 시간에 입력된 이미지에 기반하여 추출된 시각적 장면흐름 표현자와 스테레오 카메라(1)로부터 (t-1) 시간에 입력된 이미지에 기반하여 추출된 시각적 장면흐름 표현자를 이용할 수 있다.
이를 위해, 본 장면 흐름 추정 장치(100)는 메모리(115)를 포함할 수 있다. 메모리(115)는 시각적 장면흐름 표현자 추출부(110)를 통해 추출된 시각적 장면흐름 표현자를 저장할 수 있다. 메모리(115)는 일예로, HDD(Hard Disk Drive), SSD(Solid State Disk or Solid State Drive), USB 메모리 등의 저장장치일 수 있으며, 이에만 한정되는 것은 아니고 다양한 저장장치가 적용될 수 있다.
메모리(115)에는 (t+1) 시간에 대응하는 광학흐름 확률정보를 추정하기 위해 t 시간에서의 시각적 장면흐름 표현자가 저장될 수 있으며, 메모리(115)에 미리 저장된 (t-1) 시간에서의 시각적 장면흐름 표현자는 광학흐름 확률정보 추정부(122)에서 t시간에 대응하는 광학흐름 확률정보 추정시 이용될 수 있다. 즉, 광학흐름 확률정보 추정부(122)는 t 시간에 대응하는 광학흐름 확률정보 추정시 메모리(115)에 기 저장된 (t-1) 시간에서의 시각적 장면흐름 표현자를 메모리(115)로부터 인출(추출)하여 이용할 수 있다.
도 1의 도면상에서는 일예로 t 시간에서의 시각적 장면흐름 표현자로서 t시간에서의 제1 시점 이미지에 대응하는 시각적 장면흐름 표현자()가 메모리(115)에 저장되고, (t-1) 시간에서의 제1 시점 이미지에 대응하는 시각적 장면흐름 표현자()가 메모리(115)로부터 인출되는 것으로 예시하였으나, 이에만 한정되는 것은 아니고, 다른 일예로, t시간에서의 제2 시점 이미지에 대응하는 시각적 장면흐름 표현자가 메모리(115)에 저장되고, (t-1) 시간에서의 제2 시점 이미지에 대응하는 시각적 장면흐름 표현자가 메모리(115)로부터 인출될 수 있다.
달리 표현하여, 장면흐름을 추정함에 있어서, 확률정보 추정부(120)는 t 시간에 디스패리티 확률정보 및 광학흐름 확률정보를 추정할 수 있으며, 이때, 광학흐름 확률정보 추정시 고려되는 (t-1) 시간에서의 제1 시점 이미지에 대응하는 시각적 장면흐름 표현자는 t 시간에 광학흐름 확률정보를 추정하기 이전의 (t-1) 시간에 추출되어 메모리(115)에 백업되어 있을 수 있다.
또한, 디스패리티 대응점 후보군은 목표 해상도에서의 제1 시점 이미지의 어느 한 픽셀과 디스패리티 측면에서 대응 가능성이 있는 목표 해상도에서의 제2 시점 이미지의 모든 픽셀일 수 있다. 예를 들면, 픽셀 관점에서 목표 해상도에서 제1 시점 이미지의 3번째 행에 해당하는 어느 한 픽셀은 디스패리티 측면에서 목표 해상도에서 제2 시점 이미지의 3번째 행에 해당하는 모든 픽셀과 대응될 가능성이 있으므로, 목표 해상도에서 제2 시점 이미지의 3번째 행에 해당하는 모든 픽셀과 조합되는 것을 대응점 후보군으로 볼 수 있을 것이다.
또한, 광학흐름 대응점 후보군은 목표 해상도에서의 t 시간의 제1 시점 이미지의 어느 한 픽셀과 광학흐름 측면에서 대응 가능성이 있는 목표 해상도에서의 (t-1) 시간의 제1 시점 이미지의 모든 픽셀일 수 있다. 예를 들면, 픽셀 관점에서 목표 해상도에서 제1 시점 이미지의 3번째 행에 해당하는 어느 한 픽셀은, 광학흐름 측면에서 목표 해상도에서 제2 시점 이미지의 3번째 행에 해당하는 모든 픽셀 및 상기 어느 한 픽셀이 포함된 열에 해당하는 모든 픽셀과 대응될 가능성이 있으므로, 목표 해상도에서 제2 시점 이미지의 3번째 행에 해당하는 모든 픽셀 및 상기 어느 한 픽셀이 포함된 열에 해당하는 모든 픽셀과 조합되는 것을 대응점 후보군으로 볼 수 있을 것이다.
한편, 종래에는 장면 흐름 추정을 위한 이미지 간의 정합도 계산시 처음에 주어진 원본 해상도에서의 이미지에서 픽셀의 대응점을 탐색하기 때문에, 많은 양의 픽셀에 대한 탐색으로 인해 정합도 계산시(즉, 대응점 간의 접합 연산시) 많은 시간이 소요되는 문제가 있었다.
이러한 문제를 해소하고자, 디스패리티 확률정보 추정부(121)는 디스패리티 대응점 탐색시 탐색 범위를 효과적으로 줄이기 위해 최저해상도인 목표 해상도에 대하여 디스패리티 대응점 후보군에 대한 정합도(유사도) 계산을 수행할 수 있다. 즉, 본원은 시각적 장면흐름 표현자 추출부(110)에 의하여 다운 샘플링을 통해 최저해상도인 목표 해상도에서의 시각적 장면흐름 표현자를 추출한 이후에, t 시간에서의 시각적 장면흐름 표현자를 이용하여 디스패리티 대응점 후보군에 대한 정합도를 디스패리티 확률정보 추정부(121)에 의하여 계산할 수 있다. 또한 디스패리티 확률정보 추정부(121)는 계산된 정합도에 따른 목표 해상도에서의 디스패리티 확률정보를 추정할 수 있으며, 달리 말해 계산된 정합도에 기초하여 디스패리티 대응점 위치에 대한 디스패리티 확률정보를 추정할 수 있다.
또한, 광학흐름 확률정보 추정부(122)는 광학흐름 대응점 탐색시 탐색 범위를 효과적으로 줄이기 위해 최저해상도인 목표 해상도에 대하여 광학흐름 대응점 후보군에 대한 정합도(유사도) 계산을 수행할 수 있다. 즉, 본원은 시각적 장면흐름 표현자 추출부(110)에 의하여 다운 샘플링을 통해 최저해상도인 목표 해상도에서의 시각적 장면흐름 표현자를 추출한 이후에, t 시간에서의 시각적 장면흐름 표현자와 (t-1) 시간에서의 시각적 장면흐름 표현자를 이용하여 광학흐름 대응점 후보군에 대한 정합도를 광학흐름 확률정보 추정부(122)에 의하여 계산할 수 있다. 또한 광학흐름 확률정보 추정부(122)는 계산된 정합도에 따른 목표 해상도에서의 광학흐름 확률정보를 추정할 수 있으며, 달리 말해 계산된 정합도에 기초하여 광학흐름 대응점 위치에 대한 광학흐름 확률정보를 추정할 수 있다.
이러한 본원은 정합도 계산시의 계산량을, 종래에 원본 해상도에 대한 정합도 계산시 요구되는 계산량 대비 다운 샘플링 횟수에 비례하여 기하급수적으로 줄일 수 있다. 즉, 본원은 다운 샘플링으로 인해 줄어든 목표 해상도에서의 대응점 후보군에 대하여 정합도 계산을 수행함으로써, 디스패리티 대응점 및 광학흐름 대응점의 탐색 범위를 효과적으로 줄여 정합도 계산시 요구되는 계산량을 줄이고, 이로 인해 장면 흐름 추정시 소요되는 시간을 효과적으로 줄일 수 있다.
디스패리티 대응점 후보군에 대한 정합도 및 광학흐름 대응점 후보군에 대한 정합도는 내적 연산에 의해 산출될 수 있다. 또한, 산출된 정합도를 이용하여 추정된 대스패리티 확률정보 및 광학흐름 확률정보는 정규화된 확률정보(확률분포)일 수 있다. 보다 구체적인 설명은 다음과 같다.
디스패리티 확률정보 추정부(121)는 목표 해상도에 대응하는 t 시간에서의 제1 시점 이미지와 목표 해상도에 대응하는 t 시간에서의 제2 시점 이미지 각각으로부터 추출된 시각적 장면흐름 표현자 간의 내적 연산을 수행함으로써, 디스패리티 대응점 후보군에 대한 정합도를 계산할 수 있다. 이때, 본원에서는 정합도(유사도) 산출시 일예로 내적 연산을 이용할 수 있으며, 이에만 한정되는 것은 아니고, 정합도(유사도) 산출을 위한 다양한 방법이 이용될 수 있다. 일예로, 디스패리티 확률정보 추정부(121)는 픽셀 좌표 p1, p2에서 시각적 장면흐름 표현자 f(p1), f(p2)의 내적(dot-product) 연산 s(p1, p2) = < f(p1), f(p2) > 를 적용함으로써 정합도(유사도)를 계산(측정, 연산)할 수 있다.
디스패리티 확률정보 추정부(121)는 계산(측정, 연산)된 정합도를 이용하여 목표 해상도에서의 디스패리티 확률정보를 추정할 수 있으며, 이때 추정되는 디스패리티 확률정보는 정규화된 확률정보(확률분포)일 수 있다.
구체적으로, 디스패리티 확률정보 추정부(121)는 계산된 대응점들과의 정합도에 대하여 정규화를 위해 소프트맥스 함수(softmax function)를 적용함으로써 목표 해상도에서의 디스패리티 대응점 위치에 대한 확률분포(즉, 디스패리티 확률분포)를 추정할 수 있다. 달리 말해, 디스패리티 확률분포는 목표 해상도에서의 디스패리티 대응점 후보군에 대한 정합도에 소프트맥스 함수를 적용함으로써 추정될 수 있다. 디스패리티 확률정보 추정부(121)는 하기 수학식 1을 이용하여 디스패리티 확률분포를 추정할 수 있다.
여기서, 는 다운 샘플링된 목표 해상도의 픽셀 좌표 에서 수평 변위가 일 확률을 의미한다. 여기서, 는 디스패리티를 나타내는 것으로서, 최저 디스패리티는 0이고 최대 디스패리티는 일 수 있다. 는 각각 제1 시점 이미지 및 제2 시점 이미지의 다운 샘플링 픽셀 좌표를 나타낸다. 달리 표현하여, 는 각각 t시간에서의 제1 시점 이미지에 대응하는 목표 해상도에서의 픽셀 좌표 및 t시간에서의 제2 시점 이미지에 대응하는 목표 해상도에서의 픽셀 좌표를 나타낸다.
상기 수학식 1을 통해, 디스패리티 확률정보 추정부(121)는 목표 해상도에서의 디스패리티 확률정보()를 추정할 수 있으며, 이를 기반으로 디스패리티 측면에서의 장면 흐름을 추정할 수 있다.
광학흐름 확률정보 추정부(122)는 t 시간에서의 제1 시점 이미지와 (t-1) 시간에서의 제1 시점 이미지 각각을 입력으로 목표 해상도에 대응하여 추출된 시각적 장면흐름 표현자 간의 내적 연산을 수행함으로써, 광학흐름 대응점 후보군에 대한 정합도를 계산할 수 있다. 이때, 본원에서는 정합도(유사도) 산출시 일예로 내적 연산을 이용할 수 있으며, 이에만 한정되는 것은 아니고, 정합도(유사도) 산출을 위한 다양한 방법이 이용될 수 있다. 일예로, 광학흐름 확률정보 추정부(122)는 픽셀 좌표 p1, p2에서 시각적 장면흐름 표현자 g(p1), g(p2)의 내적(dot-product) 연산 s(p1, p2) = < g(p1), g(p2) > 를 적용함으로써 정합도(유사도)를 계산(측정, 연산)할 수 있다.
광학흐름 확률정보 추정부(122)는 계산(측정, 연산)된 정합도를 이용하여 목표 해상도에서의 광학흐름 확률정보를 추정할 수 있으며, 이때 추정되는 광학흐름 확률정보는 정규화된 확률정보(확률분포)일 수 있다.
구체적으로, 광학흐름 확률정보 추정부(122)는 계산된 대응점들과의 정합도에 대하여 정규화를 위해 소프트맥스 함수(softmax function)를 적용함으로써 목표 해상도에서의 광학흐름 대응점 위치에 대한 확률분포(즉, 광학흐름 확률분포)를 추정할 수 있다. 달리 말해, 확률흐름 확률분포는 목표 해상도에서의 광학흐름 대응점 후보군에 대한 정합도에 소프트맥스 함수를 적용함으로써 추정될 수 있다. 광학흐름 확률정보 추정부(122)는 하기 수학식 2를 이용하여 광학흐름 확률분포를 추정할 수 있다.
여기서, 는 다운 샘플링된 목표 해상도의 픽셀 좌표 에서 수평 변위가 , 수직 변위가 일 확률을 의미한다. 최저 광학흐름은 이고 최대 광학흐름은 일 수 있다. 는 각각 t 시간에서의 제1 시점 이미지 및 (t-1) 시간에서의 제2 시점 이미지의 다운 샘플링 픽셀 좌표를 나타낸다. 달리 표현하여, 는 각각 t시간에서의 제1 시점 이미지에 대응하는 목표 해상도에서의 픽셀 좌표 및 t-1시간에서의 제1 시점 이미지에 대응하는 목표 해상도에서의 픽셀 좌표를 나타낸다.
상기 수학식 2를 통해, 광학흐름 확률정보 추정부(122)는 목표 해상도에서의 광학흐름 확률정보()를 추정할 수 있으며, 이를 기반으로 광학흐름 측면에서의 장면 흐름을 추정할 수 있다.
한편, 추정부(130)의 디스패리티 추정부(131)는, 디스패리티 확률정보 추정부(121)를 통해 추정된 디스패리티 확률정보에 목표 해상도로부터의 순차적인 업 샘플링을 적용하여 획득된 디스패리티 확률정보에 기초하여 t 시간에서의 제1 시점 이미지 및 제2 시점 이미지에서의 디스패리티(디스패리티 대응점)를 추정할 수 있다. 또한, 추정부(130)의 광학흐름 추정부(132)는, 광학흐름 확률정보 추정부(122)를 통해 추정된 광학흐름 확률정보에 목표 해상도로부터의 순차적인 업 샘플링을 적용하여 획득된 광학흐름 확률정보에 기초하여 t 시간에서의 제1 시점 이미지와 t 시간보다 이전인 (t-1) 시간에서의 제1 시점 이미지에서의 광학흐름(광학흐름 대응점)을 추정할 수 있다.
다시 말해, 추정부(130)는 추정된 디스패리티 확률정보에 목표 해상도로부터의 순차적인 업 샘플링을 적용함으로써 t 시간에 스테레오 카메라(1)로부터 입력된 이미지에 대한 디스패리티 확률정보를 획득하고, 이에 기초하여 원본 해상도에서의 디스패리티를 추정할 수 있다. 또한, 추정부(130)는 추정된 광학흐름 확률정보에 목표 해상도로부터의 순차적인 업 샘플링을 적용함으로써 t시간에 스테레오 카메라(1)로부터 입력된 이미지에 대한 광학흐름 확률정보를 획득하고, 이에 기초하여 원본 해상도에서의 광학흐름을 추정할 수 있다. 원본 해상도에서의 디스패리티의 추정 과정은 도 3을 참조하여 보다 쉽게 이해될 수 있고, 원본 해상도에서의 광학흐름의 추정 과정은 도 4를 참조하여 보다 쉽게 이해될 수 있다.
도 3은 본원의 일 실시예에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름 추정 장치(100)에서 원본 이미지에서의 디스패리티의 추정을 위한 디스패리티 추정 구조를 나타낸 도면이다.
도 3을 참조하면, 본 장면 흐름 추정 장치(100)는 원본 해상도에서의 디스패리티를 추정하기 위해, 복수의 레이어(20)를 계층적으로 구비할 수 있다. 여기서, 복수의 레이어(20)는 디스패리티 대응 복수 레이어(계층)(20) 또는 디스패리티 대응 업 샘플링 계층(20)이라 표현할 수 있다. 디스패리티 대응 복수 레이어(20)는 제1 레이어(21, 레이어 #1), …, 제n 레이어(29, 레이어 #n)를 포함할 수 있다.
디스패리티 대응 복수 레이어(20) 각각(즉, 디스패리티 대응 복수 레이어에 포함된 레이어들 각각)은 2개의 다층 CNN을 포함할 수 있다. 또한, 디스패리티 대응 복수 레이어(20) 중 마지막 레이어(29)를 제외한 레이어들 각각은 업 샘플링부(up sampling)를 포함할 수 있다. 구체적인 일예로, 제1 레이어(21)는 제1a 다층 CNN(21a, 다층 콘벌루션 뉴럴 네트워크 #1-1), 제1b 다층 CNN(21b, 다층 콘벌루션 뉴럴 네트워크 #1-2) 및 제1 다운 샘플링부(21c, 업 샘플링 #1)를 포함할 수 있다. 디스패리티 대응 복수 레이어(20) 중 마지막에 위치한 레이어(29)는 제1a 다층 CNN(29a, 다층 콘벌루션 뉴럴 네트워크 #n-1) 및 제1b 다층 CNN(29b, 다층 콘벌루션 뉴럴 네트워크 #n-2)를 포함할 수 있다.
디스패리티 추정부(131)는 도 3에 도시된 바와 같은 원본 해상도에서의 디스패리티 추정 구조에 기반하여 디스패리티 확률정보를 순차적으로 업 샘플링하면서 원본 해상도에서의 디스패리티를 추정할 수 있다.
구체적으로, 디스패리티 추정부(131)는 순차적으로 업 샘플링 수행시 계층적으로 구비된 디스패리티 대응 복수 레이어(20) 각각에 대응하는 디스패리티 확률정보에 다층 CNN을 적용하여 업 샘플링을 수행할 수 있으며, 디스패리티 대응 복수 레이어(20) 각각에 대응하여 출력된 CNN 출력값에 다른 다층 CNN을 적용함으로써 디스패리티 대응 복수 레이어(20) 각각에 대응하는 해상도별 디스패리티를 추정할 수 있다.
디스패리티 추정부(131)는 디스패리티 확률정보 추정부(121)를 통해 추정된 목표 해상도(최저해상도)에서의 디스패리티 대응점 위치에 대한 디스패리티 확률정보를 입력값으로 하여, 원본 해상도까지 순차적으로 업 샘플링을 수행하면서 이전 레이어에서의 디스패리티 확률정보를 상기 이전 레이어의 다음에 구비된 레이어로 전달하는 과정을 통해, 디스패리티 대응 복수 레이어(20) 내 마지막에 위치한 레이어(29)에 의하여 원본 해상도에서의 디스패리티 확률정보를 획득(추정)하고, 이에 기초하여 원본 해상도에서의 디스패리티를 추정할 수 있다.
다시 말해, 디스패리티 추정부(131)는 디스패리티 확률정보 추정부(121)로부터, 추정된 최저 해상도인 목표 해상도에서의 디스패리티 확률정보를 전달받을 수 있다. 이후, 디스패리티 추정부(131)는 목표 해상도에서의 디스패리티 확률정보에 제1 레이어(21) 내의 제1a 다층 CNN(21a)과 제1 업 샘플링부(21c)를 적용함으로써 추정된 디스패리티 확률정보를, 제1 레이어(21)보다 상위 단계의 계층인 제2 레이어(미도시) 내의 제1a 다층 CNN으로 전달할 수 있다. 이때, 제1 레이어(21)에서는 제1a 다층 CNN(21a)를 통한 CNN 출력값에 다른 다층 CNN인 제1b 다층 CNN(21c)를 적용함으로써 제1 레이어(21)에 대응하는 해상도에서의 디스패리티(디스패리티 #1)를 추정할 수 있다. 이와 같은 과정을 디스패리티 대응 복수 레이어(20)에 포함된 레이어(계층) 각각에 대하여 순차적으로 진행함에 따라, 디스패리티 추정부(131)는 목표 해상도에 대응하는 원본 해상도에서의 디스패리티(디스패리티 #n)를 추정할 수 있다. 여기서, 원본 해상도는 t 시간에서의 제1 시점 이미지의 원본 해상도와 t 시간에서의 제2 시점 이미지의 원본 해상도를 포함할 수 있다. 즉, 디스패리티 추정부(131)는 t 시간에서의 제1 시점 이미지와 제2 시점 이미지에 대응하는 원본 해상도에서의 디스패리티를 추정할 수 있다.
달리 표현하면, 디스패리티 추정부(131)는 입력된 목표 해상도(최저 해상도)에서의 디스패리티 대응점 위치에 대한 확률정보 P1에 제1 레이어(21) 내의 다층 CNN(21a)을 적용하여 디스패리티 확률정보 를 계산할 수 있으며, 이를 업 샘플링함에 따른 제1 업 샘플링부(21c)의 출력값 을 제1 레이어(21)보다 상위 계층인 제2 레이어(미도시)로 전달할 수 있다. 제1 업 샘플링부(21c)의 출력값은 제2 레이어(미도시) 내의 제1a 다층 CNN의 입력값으로 적용될 수 있다. 이후 디스패리티 추정부(131)는 제1 업 샘플링부(21c)의 출력값에 제2 레이어(미도시) 내의 다층 CNN을 적용하여 제2 레이어에 대응하는 해상도에서의 디스패리티 확률정보를 계산할 수 있으며, 이를 업 샘플링함에 따른 제2 레이어 내의 제2 업 샘플링부의 출력값을 제2 레이어보다 상위 계층인 제3 레이어(미도시)로 전달할 수 있다. 디스패리티 추정부(131)는 이와 같은 과정을 원본 해상도까지 반복함으로써, 원본 해상도에서의 디스패리티 확률정보를 추정(획득)하고, 이에 기초하여 원본 해상도에서의 디스패리티를 추정할 수 있다.
디스패리티 추정부(131)는 원본 해상도에서의 디스패리티를 추정함에 있어서, 업 샘플링에 따른 각 해상도 별로 디스패리티를 추정할 수 있다. 달리 표현하여, 디스패리티 추정부(131)는 디스패리티 대응 복수 레이어(20) 각각에 대응하는 계층별로, 업 샘플링을 통해 점차 높아지는 해상도 각각에서의 디스패리티를 순차적으로 추정할 수 있다. 즉 디스패리티 추정부(131)는 디스패리티 대응 복수 레이어(20) 내의 각 레이어(계층)별로 디스패리티 확률정보를 전달함과 더불어 각각의 레이어에 대응하는 해상도에서의 디스패리티를 추정할 수 있다.
또한, 목표 해상도로부터의 순차적 업 샘플링에 따른 각 해상도(레이어)의 순서는, 목표 해상도로의 순차적 다운 샘플링에 따른 각 해상도(레이어)의 역순에 대응(매칭)할 수 있다. 다시 말해, 목표 해상도에서 시작되는 순차적인 업 샘플링시(도 3 참조)의 레이어 #1, 레이어 #2, … , 레이어 #n은, 목표 해상도를 향하여 시작되는 순차적인 다운 샘플링시(도 2 참조)의 레이어 #1, 레이어 #2, … , 레이어 #n의 역순에 대응(매칭)할 수 있다. 또한, 다운 샘플링시 각 레이어마다 추출된 시각적 장면흐름 표현자는 업 샘플링시 상기 대응하는 레이어에 대하여 적용(활용)될 수 있다.
도 4는 본원의 일 실시예에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름 추정 장치(100)에서 원본 이미지에서의 광학흐름의 추정을 위한 광학흐름 추정 구조를 나타낸 도면이다.
도 4를 참조하면, 본 장면 흐름 추정 장치(100)는 원본 해상도에서의 광학흐름을 추정하기 위해, 복수의 레이어(30)를 계층적으로 구비할 수 있다. 여기서, 복수의 레이어(30)는 광학흐름 대응 복수 레이어(계층)(30) 또는 광학흐름 대응 업 샘플링 계층(30)이라 표현할 수 있다. 광학흐름 대응 복수 레이어(30)는 제1 레이어(31, 레이어 #1), …, 제n 레이어(39, 레이어 #n)를 포함할 수 있다.
광학흐름 대응 복수 레이어(30) 각각(즉, 광학흐름 대응 복수 레이어에 포함된 레이어들 각각)은 2개의 다층 CNN을 포함할 수 있다. 또한, 광학흐름 대응 복수 레이어(30) 중 마지막 레이어(39)를 제외한 레이어들 각각은 업 샘플링부(up sampling)를 포함할 수 있다. 구체적인 일예로, 제1 레이어(31)는 제1a 다층 CNN(31a, 다층 콘벌루션 뉴럴 네트워크 #1-1), 제1b 다층 CNN(31b, 다층 콘벌루션 뉴럴 네트워크 #1-2) 및 제1 업 샘플링부(31c, 업 샘플링 #1)를 포함할 수 있다. 광학흐름 대응 복수 레이어(30) 중 마지막에 위치한 레이어(39)는 제1a 다층 CNN(39a, 다층 콘벌루션 뉴럴 네트워크 #n-1) 및 제1b 다층 CNN(39b, 다층 콘벌루션 뉴럴 네트워크 #n-2)를 포함할 수 있다.
광학흐름 추정부(132)는 도 4에 도시된 바와 같은 원본 해상도에서의 광학흐름 추정 구조에 기반하여 순차적으로 업 샘플링하면서 원본 해상도에서의 광학흐름을 추정할 수 있다.
구체적으로, 광학흐름 추정부(132)는 순차적으로 업 샘플링 수행시 계층적으로 구비된 광학흐름 대응 복수 레이어(30) 각각에 대응하는 광학흐름 확률정보에 다층 CNN을 적용하여 업 샘플링을 수행할 수 있으며, 광학흐름 대응 복수 레이어(30) 각각에 대응하여 출력된 CNN 출력값에 다른 다층 CNN을 적용하여 광학흐름 대응 복수 레이어(30) 각각에 대응하는 해상도별 광학흐름을 추정할 수 있다.
광학흐름 추정부(132)는 광학흐름 확률정보 추정부(122)를 통해 추정된 목표 해상도(최저해상도)에서의 광학흐름 대응점 위치에 대한 광학흐름 확률정보를 입력값으로 하여, 원본 해상도까지 순차적으로 업 샘플링을 수행하면서 이전 레이어에서의 광학흐름 확률정보를 상기 이전 레이어의 다음에 구비된 레이어로 전달하는 과정을 통해, 광학흐름 대응 복수 레이어(30) 내 마지막에 위치한 레이어(39)에 의하여 원본 해상도에서의 광학흐름 확률정보를 획득(추정)하고, 이에 기초하여 원본 해상도에서의 광학흐름을 추정할 수 있다.
다시 말해, 광학흐름 추정부(132)는 광학흐름 확률정보 추정부(122)로부터, 추정된 최저 해상도인 목표 해상도에서의 광학흐름 확률정보를 전달받을 수 있다. 이후, 광학흐름 추정부(132)는 목표 해상도에서의 광학흐름 확률정보에 제1 레이어(31) 내의 제1a 다층 CNN(31a)과 제1 업 샘플링부(31c)를 적용함으로써 추정된 광학흐름 확률정보를, 제1 레이어(31)보다 상위 단계의 계층인 제2 레이어(미도시) 내의 제1a 다층 CNN으로 전달할 수 있다. 이때, 제1 레이어(31)에서는 제1a 다층 CNN(31a)를 통한 CNN 출력값에 다른 다층 CNN인 제1b 다층 CNN(31c)를 적용함으로써 제1 레이어(31)에 대응하는 해상도에서의 광학흐름(광학흐름 #1)을 추정할 수 있다. 이와 같은 과정을 광학흐름 대응 복수 레이어(30)에 포함된 레이어(계층) 각각에 대하여 순차적으로 진행함에 따라, 광학흐름 추정부(132)는 목표 해상도에 대응하는 원본 해상도에서의 광학흐름(광학흐름 #n)을 추정할 수 있다. 여기서, 원본 해상도는 t 시간에서의 제1 시점 이미지의 원본 해상도와 (t-1) 시간에서의 제1 시점 이미지의 원본 해상도를 포함할 수 있다. 즉, 광학흐름 추정부(132)는 t 시간에서의 제1 시점 이미지와 (t-1) 시간에서의 제1 시점 이미지에 대응하는 원본 해상도에서의 광학흐름을 추정할 수 있다.
달리 표현하면, 광학흐름 추정부(132)는 입력된 목표 해상도(최저 해상도)에서의 광학흐름 대응점 위치에 대한 확률정보 P1에 제1 레이어(31) 내의 다층 CNN(31a)을 적용하여 광학흐름 확률정보 를 계산할 수 있으며, 이를 업 샘플링함에 따른 제1 업 샘플링부(31c)의 출력값 을 제1 레이어(31)보다 상위 계층인 제2 레이어(미도시)로 전달할 수 있다. 제1 업 샘플링부(31c)의 출력값은 제2 레이어(미도시) 내의 제1a 다층 CNN의 입력값으로 적용될 수 있다. 이후 광학흐름 추정부(132)는 제1 업 샘플링부(31c)의 출력값에 제2 레이어(미도시) 내의 다층 CNN을 적용하여 제2 레이어에 대응하는 해상도에서의 광학흐름 확률정보를 계산할 수 있으며, 이를 업 샘플링함에 따른 제2 레이어 내의 제2 업 샘플링부의 출력값을 제2 레이어보다 상위 계층인 제3 레이어(미도시)로 전달할 수 있다. 광학흐름 추정부(132)는 이와 같은 과정을 원본 해상도까지 반복함으로써, 원본 해상도에서의 광학흐름 확률정보를 추정(획득)하고, 이에 기초하여 원본 해상도에서의 광학흐름을 추정할 수 있다.
광학흐름 추정부(132)는 원본 해상도에서의 광학흐름을 추정함에 있어서, 업 샘플링에 따른 각 해상도 별로 광학흐름을 추정할 수 있다. 달리 표현하여, 광학흐름 추정부(132)는 광학흐름 대응 복수 레이어(30) 각각에 대응하는 계층별로, 업 샘플링을 통해 점차 높아지는 해상도 각각에서의 광학흐름을 순차적으로 추정할 수 있다. 즉 광학흐름 추정부(132)는 광학흐름 대응 복수 레이어(30) 내의 각 레이어(계층)별로 광학흐름 확률정보를 전달함과 더불어 각각의 레이어에 대응하는 해상도에서의 광학흐름을 추정할 수 있다.
또한, 목표 해상도로부터의 순차적 업 샘플링에 따른 각 해상도(레이어)의 순서는, 목표 해상도로의 순차적 다운 샘플링에 따른 각 해상도(레이어)의 역순에 대응(매칭)할 수 있다. 다시 말해, 목표 해상도에서 시작되는 순차적인 업 샘플링시(도 4 참조)의 레이어 #1, 레이어 #2, … , 레이어 #n은, 목표 해상도를 향하여 시작되는 순차적인 다운 샘플링시(도 2 참조)의 레이어 #1, 레이어 #2, … , 레이어 #n의 역순에 대응(매칭)할 수 있다. 또한, 다운 샘플링시 각 레이어마다 추출된 시각적 장면흐름 표현자는 업 샘플링시 상기 대응하는 레이어에 대하여 적용(활용)될 수 있다.
한편, 시각적 장면흐름 표현자 추출부(110)를 통해 추출된 계층별(해상도별) 시각적 장면흐름 표현자, 확률정보 추정부(120)를 통해 추정된 디스패리티 확률정보 및 광학흐름 확률정보, 추정부(130)를 통해 추정된 계층별(해상도별) 디스패리티 확률정보 및 광학흐름 확률정보는 후술할 장면 흐름 추정을 위한 장면 흐름 학습 장치에 의하여 학습될 수 있으며, 학습에 관한 설명은 후술하여 자세히 설명하기로 한다.
이하에서는 본원의 제2 실시예에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름 학습을 위한 장면 흐름 학습 장치 및 그를 이용한 장면 흐름 학습 방법에 대하여 설명하기로 한다. 본원의 제2 실시예에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름 학습을 위한 장면 흐름 학습 장치는 앞서 설명한 본원의 일 실시예에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름 추정 장치와 동일하거나 상응하는 기술적 특징을 공유하는 동일한 구조(구성)를 갖는 장치일 수 있다. 따라서, 본원의 제2 실시예에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름 학습을 위한 장면 흐름 학습 장치도 도 1의 도면부호 100을 부여하여 설명하며, 이하 생략된 내용이라 하더라도 본원의 일 실시예에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름 추정 장치의 구조 및 해당 장치에 대하여 설명된 내용은 본원의 제2 실시예에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름 학습을 위한 장면 흐름 학습 장치에 대한 설명에도 동일하게 적용될 수 있다.
본원의 제2 실시예에 따른 장면 흐름 학습 장치는 시각적 장면흐름 표현자 추출부, 확률정보 추정부, 추정부 및 장면흐름 학습부를 포함할 수 있다. 여기서, 시각적 장면흐름 표현자 추출부, 확률정보 추정부, 추정부에 대한 설명은 앞서 자세히 설명했으므로, 이하 생략하기로 한다.
장면흐름 학습부는, 복수의 계층 중 어느 하나인 다운 샘플링 계층에 대하여 t 시간에서의 제1 시점 이미지 및 제2 시점 이미지에 대응하는 타깃 디스패리티 확률정보를 학습대상으로서 산출할 수 있다(step 1). 또한 장면흐름 학습부는 step 1에서, 상기 다운 샘플링 계층에 대하여 t 시간에서의 제1 시점 이미지 및 t 시간보다 이전인 (t-1) 시간에서의 제1 시점 이미지에 대응하는 타깃 광학흐름 확률정보를 학습대상으로서 산출할 수 있다. 여기서, 확률정보라 함은 정규화된 확률정보, 즉 확률분포일 수 있으며, 이에 대해서는 전술한 바 있으므로 보다 구체적인 설명은 생략하기로 한다.
다음으로, 장면흐름 학습부는, 다운 샘플링 계층에 포함된 다층 CNN의 적용을 통해 시각적 장면흐름 표현자를 추출할 수 있다(step 2).
다음으로, 장면흐름 학습부는, 추출된 시각적 장면흐름 표현자를 고려하여 산출된 상기 다운 샘플링 계층에서의 디스패리티 대응점 후보군에 대한 정합도를 이용하여 상기 다운 샘플링 계층에서의 디스패리티 확률정보를 추정한 다음, 상기 다운 샘플링 계층에 대한 타깃 디스패리티 확률정보와의 차이가 최소화되도록 학습할 수 있다(step 3). 또한, 장면흐름 학습부는 step 3에서, 추출된 시각적 장면흐름 표현자를 고려하여 산출된 상기 다운 샘플링 계층에서의 광학흐름 대응점 후보군에 대한 정합도를 이용하여 상기 다운 샘플링 계층에서의 광학흐름 확률정보를 추정한 다음, 상기 다운 샘플링 계층에 대한 타깃 광학흐름 확률정보와의 차이가 최소화되도록 학습할 수 있다.
이때, 장면흐름 학습부는 학습대상인 t 시간에서의 제1 시점 이미지 및 제2 시점 이미지를 입력으로 시각적 장면흐름 표현자가 목표 해상도(최저 해상도)까지 순차적으로 다운 샘플링되는 복수의 계층에 대하여 각각 학습을 수행할 수 있다. 또한, 장면흐름 학습부는 학습대상인 t 시간에서의 제1 시점 이미지 및 (t-1) 시간에서의 제1 시점 이미지를 입력으로 시각적 장면흐름 표현자가 목표 해상도까지 순차적으로 다운 샘플링되는 복수의 계층에 대하여 각각 학습을 수행할 수 있다.
달리 말해, step 1 내지 step 3의 과정은, t 시간에서의 제1 시점 이미지 및 제2 시점 이미지를 입력으로 시각적 장면흐름 표현자가 목표 해상도까지 순차적으로 다운 샘플링되고, t 시간에서의 제1 시점 이미지 및 (t-1) 시점에서의 제1 시점 이미지를 입력으로 시각적 장면흐름 표현자가 목표 해상도까지 순차적으로 다운 샘플링되는 복수의 계층 각각에 대하여 차례로 수행될 수 있다.
또한, 장면흐름 학습부를 통해 산출되는 타깃 디스패리티 확률정보는, 제1 시점 이미지의 다운 샘플링 계층의 해상도에 대응하는 이미지(제1 시점 이미지 대응 이미지) 및 제2 시점 이미지의 다운 샘플링 계층의 해상도에 대응하는 이미지(제2 시점 이미지 대응 이미지) 상의 대응 후보점 사이의 거리 관계에 기반하여 거리에 반비례하도록 산출될 수 있다. 또한, 장면흐름 학습부를 통해 산출되는 타깃 광학흐름 확률정보는, 제1 시점 이미지의 다운 샘플링 계층의 해상도에 대응하는 이미지(t 시간 이미지 대응 이미지) 및 (t-1) 시간에서의 제1 시점 이미지의 다운 샘플링 계층의 해상도에 대응하는 이미지((t-1) 시간 대응 이미지) 상의 대응 후보점 사이의 거리 관계에 기반하여 거리에 반비례하도록 산출될 수 있다. 예를 들어 거리에 반비례한다는 것은, 양 대응 후보점이 실제 대응하는 대응 관계에 있는 양 대응점으로부터 거리가 멀어질수록 낮은 확률을 갖는 것을 의미할 수 있다. 일예로, 거리에 반비례하는 것은 선형적인 반비례를 의미할 수 있으나, 이에만 한정되는 것은 아니다.
구체적으로, 장면흐름 학습부는, step2에서 추출되는 시각적 장면흐름 표현자를 디스패리티 측면에서 학습하기 위하여, 타깃 디스패리티 확률정보를 표현(생성, 산출)할 수 있다. 이때, 타깃 디스패리티 확률정보는 제1 시점 이미지 대응 이미지 상에서의 픽셀 위치에 대응하는 제2 시점 이미지 대응 이미지 상에서의 픽셀 위치를, 일예로 도 5와 같이, 제1 시점 이미지 대응 이미지 상에서의 픽셀 위치에 실제로 대응하는 제2 시점 이미지 대응 이미지 상에서의 픽셀 위치와의 거리에 반비례하도록 표현할 수 있다.
도 5는 본원의 일 실시예(제2 실시예)에 따른 장면 흐름 추정을 위한 장면 흐름 학습시 고려되는 타깃 디스패리티 확률정보의 예를 나타낸 도면이다. 달리 말해, 도 5는 일예로 디스패리티 대응점과 이웃 픽셀 간 거리에 따른 디스패리티 대응점 위치에 대한 타깃 디스패리티 확률정보의 예를 나타낸다.
도 5를 참조하면, 타깃 디스패리티 확률정보는 상호 대응하는 픽셀의 위치가 실제 대응점의 픽셀 위치로부터 멀리 떨어질수록(즉, 이웃한 픽셀 간의 거리가 멀수록) 정합 확률이 낮아지는 반비례 관계로 나타나도록 표현(생성)될 수 있다.
장면흐름 학습부는, step3에서 추정된 디스패리티 확률정보와 타깃 디스패리티 확률정보와의 차이가 최소화되도록 학습을 수행할 수 있다. 여기서, 학습은 디스패리티 확률정보의 학습을 의미할 수 있으나, 이에만 한정되는 것은 아니고, 시각적 장면흐름 표현자의 학습을 의미할 수 있다. 또한, 장면흐름 학습부는 해상도별(계층별)로 디스패리티 확률정보를 학습할 수 있으며, 해상도별(계층별)로 시각적 장면흐름 표현자를 디스패리티 측면에서 학습할 수 있다.
step3에서 시각적 디스패리티 표현자 간의 정합도 계산은 내적 연산에 의하여 계산될 수 있으며, 이에 대한 설명은 앞서 설명했으므로, 중복되는 설명은 이하 생략하기로 한다.
또한, step3에서 디스패리티 확률정보의 추정은 대응점들과의 정합도에 소프트맥스 함수를 적용함으로써 디스패리티 위치에 대한 확률분포(특히, 다운 샘플링 계층에 대한 디스패리티 확률분포)를 추정함으로써 이루어질 수 있다. 디스패리티 대응점 위치에 대한 확률분포는 하기 수학식 3에 기초하여 추정될 수 있다.
여기서, 는 디스패리티 대응점 위치에 대한 확률변수로서, 범위가 인 정수로 나타날 수 있다. pL은 t 시간에서의 제1 시점 이미지 상의 픽셀 좌표를 나타내고, pR은 t 시간에서의 제2 시점 이미지 상의 픽셀 좌표를 나타낸다.
또한, 장면흐름 학습부는, step2에서 추출되는 시각적 장면흐름 표현자를 디스패리티 측면에서 학습하기 위하여, 타깃 광학흐름 확률정보를 표현(생성, 산출)할 수 있다. 이때, 타깃 광학흐름 확률정보는 t 시간 이미지 대응 이미지 상에서의 픽셀 위치에 대응하는 (t-1) 시간 이미지 대응 이미지 상에서의 픽셀 위치를, 일예로 도 6과 같이, t 시간 이미지 대응 이미지 상에서의 픽셀 위치에 실제로 대응하는 (t-1) 시간 이미지 대응 이미지 상에서의 픽셀 위치와의 거리에 반비례하도록 산출될 수 있다.
도 6은 본원의 일 실시예(제2 실시예)에 따른 장면 흐름 추정을 위한 장면 흐름 학습시 고려되는 타깃 광학흐름 확률정보(확률분포)의 예를 나타낸 도면이다. 달리 말해, 도 6은 일예로 광학흐름 대응점과 이웃 픽셀 간 거리에 따른 광학흐름 대응점 위치에 대한 타깃 광학흐름 확률정보(확률분포)의 예를 나타낸다.
도 6을 참조하면, 타깃 광학흐름 확률정보는 상호 대응하는 픽셀의 위치가 실제 대응점의 픽셀 위치로부터 멀리 떨어질수록(즉, 이웃한 픽셀 간의 거리가 멀수록) 정합 확률이 낮아지는 반비례 관계로 나타나도록 표현(생성)될 수 있다.
장면흐름 학습부는 step3에서 추정된 광학흐름 확률정보와 타깃 광학흐름 확률정보와의 차이가 최소화되도록 학습을 수행할 수 있다. 여기서, 학습은 광학흐름 확률정보의 학습을 의미할 수 있으나, 이에만 한정되는 것은 아니고, 시각적 장면흐름 표현자의 학습을 의미할 수 있다. 또한, 장면흐름 학습부는 해상도별(계층별)로 광학흐름 확률정보를 학습할 수 있으며, 해상도별(계층별)로 시각적 장면흐름 표현자를 광학흐름 측면에서 학습할 수 있다.
step3에서 시각적 광학흐름 표현자 간의 정합도 계산은 내적 연산에 의하여 계산될 수 있으며, 이에 대한 설명은 앞서 설명했으므로, 중복되는 설명은 이하 생략하기로 한다.
또한, step3에서 광학흐름 확률정보의 추정은 대응점들과의 정합도에 소프트맥스 함수를 적용함으로써 광학흐름 위치에 대한 확률분포(특히, 다운 샘플링 계층에 대한 광학흐름 확률분포)를 추정함으로써 이루어질 수 있다. 광학흐름 대응점 위치에 대한 확률분포는 하기 수학식 4에 기초하여 추정될 수 있다.
여기서, 는 광학흐름 대응점 위치에 대한 수평 변위 확률변수로서, 범위가 인 정수로 나타날 수 있다. 또한, 는 광학흐름 대응점 위치에 대한 수직 변위 확률변수로서, 범위가 인 정수로 나타날 수 있다. pt-1는 (t-1) 시간에서의 제1 시점 이미지 상의 픽셀 좌표를 나타내고, pt는 t 시간에서의 제1 시점 이미지 상의 픽셀 좌표를 나타낸다.
장면흐름 학습부는, 디스패리티 대응점 위치에 대한 확률정보 추정치(달리 말해, 추정된 디스패리티 확률정보)와 타깃 디스패리티 확률정보 간의 차이, 및 광학흐름 대응점 위치에 대한 광학흐름 추정치(달리 말해, 추정된 광학흐름 확률정보)와 타깃 광학흐름 확률정보 간의 차이를 동시에 최소화시키기 위해, 일예로 하기 수학식 5를 만족하는 크로스 엔트로피(cross entropy)를 비용 함수로 하여 각각의 확률정보 간의 차이가 최소화(minimize)되도록 학습할 수 있다.
여기서, 는 디스패리티 대응점 위치에 대한 확률정보 추정치, 즉 추정된 디스패리티 확률정보를 나타낸다. 는 타깃 디스패리티 확률정보를 나타낸다. 는 광학흐름 대응점 위치에 대한 확률정보 추정치, 즉 추정된 광학흐름 확률정보를 나타낸다. 는 타깃 광학흐름 확률정보를 나타낸다.
상기의 수학식 5에 기초하여, 장면흐름 학습부는 계층별로 디스패리티 대응점 위치에 대한 확률정보(디스패리티 확률정보) 및 광학흐름 대응점 위치에 대한 확률정보(광학흐름 확률정보)를 학습할 수 있다.
이처럼, 장면흐름 학습부는 각 해상도별 t 시간에서의 제1 시점 이미지와 제2 시점 이미지에서 디스패리티 대응점 간의 시각적 표현자의 차이가 최소화되도록 추정된 디스패리티 확률정보를 학습할 수 있다. 장면흐름 학습부는 하기 수학식 6를 이용하여 학습을 수행할 수 있다.
상기 수학식 6는 일예로 t 시간에서의 제1 시점 이미지의 디스패리티를 추정하기 위한 비용 함수(cost function)의 예를 나타낸다. 여기서, 는 각각 t 시간에서의 제1 시점 이미지의 픽셀 좌표 및 t 시간에서의 제2 시점 이미지의 픽셀 좌표를 나타낸다. 또한, 는 t 시간에서의 제1 시점 이미지의 픽셀 좌표 에 대하여 추정된 디스패리티, 즉 제1 시점 이미지의 픽셀 좌표에서의 디스패리티 추정값을 나타낸다.
또한, 장면흐름 학습부는 추정된 광학흐름 확률정보(즉, 광학흐름 추정 값)를 이용하여 t 시간에서의 제1 시점 이미지 및 (t-1) 시간에서의 제1 시점 이미지 상에서의 두 대응점을 찾고, 시각적 장면흐름 표현자 추출부(110)를 통해 추출된 시각적 장면흐름 표현자를 이용하여 대응점의 시각적 광학흐름 표현자의 정합도 차이가 최소화되도록 학습할 수 있다.
장면흐름 학습부는 각 해상도별 t 시간에서의 제1 시점 이미지와 제2 시점 이미지에서(달리 말해, 연속된 이미지 시퀀스의 해상도별 이미지에서) 광학흐름 대응점 간의 시각적 표현자의 차이가 최소화되도록 추정된 광학흐름을 학습할 수 있다. 장면흐름 학습부는 하기 수학식 7을 이용하여 학습을 수행할 수 있다.
상기 수학식 7은 일예로 (t-1) 시간에서의 제1 시점 이미지의 광학흐름을 추정하기 위한 비용 함수(cost function)의 예를 나타낸다. 여기서, 는 각각 (t-1) 시간에서의 제1 시점 이미지의 픽셀 좌표 및 t 시간에서의 제1 시점 이미지의 픽셀 좌표를 나타낸다. 또한, 는 (t-1) 시간에서의 제1 시점 이미지의 픽셀 좌표 에서 수평 광학흐름 추정 값, 즉 (t-1) 시간에서의 제1 시점 이미지의 픽셀 좌표에서 추정된 수평 광학흐름을 나타낸다. 는 t 시간에서의 제1 시점 이미지의 픽셀 좌표 에서 수직 광학흐름 추정 값, 즉 t 시간에서의 제1 시점 이미지의 픽셀 좌표에서 추정된 수직 광학흐름을 나타낸다.
또한, 장면흐름 학습부는, 복수의 계층 중 어느 하나인 업 샘플링 계층에 포함된 다층 CNN을 상기 업 샘플링 계층의 하위 계층에서 전달된 디스패리티 확률정보에 적용함으로써 상기 업 샘플링 계층에 대하여 t 시간에서의 제1 시점 이미지 및 제2 시점 이미지에 대응하는 디스패리티를 추정할 수 있다(step 4). 또한, step 4에서 장면흐름 학습부는, 상기 업 샘플링 계층에 포함된 다층 CNN을 상기 업 샘플링 계층의 하위 계층에서 전달된 광학흐름 확률정보에 적용함으로써 상기 업 샘플링 계층에 대하여 t 시간에서의 제1 시점 이미지 및 (t-1) 시간에서의 제1 시점 이미지에 대응하는 광학흐름을 추정할 수 있다.
다음으로, 장면흐름 학습부는, 상기 업 샘플링 계층에서의 타깃 디스패리티와 상기 step 4에서 추정된 디스패리티에 관한 정합도 차이 및 상기 업 샘플링 계층에서의 타킷 광학흐름과 상기 step 4에서 추정된 광학흐름에 관한 정합도 차이가 최소화되도록 학습할 수 있다(step 5). 이때, 상기 타깃 디스패리티와 상기 타깃 광학흐름은, step 3의 수행을 통해 상기 업 샘플링 계층에 대응하는 다운 샘플링 계층에 대하여 학습된 시각적 장면흐름 표현자를 이용하여 산출될 수 있다. 즉, 업 샘플링시에는 계층별로 재차 시각적 표현자를 추출하는 것이 아니라, 다운 샘플링시의 다운 샘플링 계층에 대응하는 업 샘플링이 이루어지도록 함으로써, 다운 샘플링시 추출된 시각적 장면흐름 표현자를 업 샘플링 계층에서도 활용(이용)할 수 있다.
이때, step 4 및 5는, 상기 step 3를 통해 목표 해상도에서 학습된 디스패리티 확률정보 및 광학흐름 확률정보를 입력으로 각 업 샘플링 계층마다 포함된 다층 CNN 및 업 샘플링의 적용을 통해 디스패티리 확률정보 및 광학흐름 확률정보가 원본 해상도까지 순차적으로 전달 되는 상기 복수의 계층 각각에 대하여 차례로 수행될 수 있다.
전술한 바와 같이, 이러한 본 장면 흐름 학습 장치(100)는 본 장면 흐름 추정 장치와 동일한 장치일 수 있다. 즉, 하나의 장치가 장면 흐름에 대한 추정 및 학습을 병행하여 수행할 수 있으므로, 이 같이 추정/학습을 모두 수행하는 장치를 본 장면 흐름 추정/학습 장치라 칭하고, 이에 도 1의 도면부호 100을 동일하게 부여할 수 있다. 또한, 본 장면 흐름 추정/학습 장치는 동일한 딥 러닝 네트워크 구조를 이용하여 추정 및 학습을 수행하는 장치를 의미할 수 있다. 이러한 딥 러닝 네트워크 구조는 도 1 내지 도 3에 도시된 사항을 참조하여 이해될 수 있다.
이에 따르면, 본 장면 흐름 추정/학습 장치(100)는 입력된 이미지를 복수의 단계로 다운 샘플링하여 계층별로 정합도 측정을 가능하게 하는 계층적 시각적 장면흐름 표현자 추출 구조를 제공하며, 이에 기초하여 해상도별 시각적 장면흐름 표현자를 추출하고, 이를 학습할 수 있다. 또한, 본 장면 흐름 추정/학습 장치(100)는 계층적(해상도별, 레이어별)으로 추출된 시각적 장면흐름 표현자를 이용하여 목표 해상도(최저해상도)에서의 두 이미지에서의 디스패리티 정합도 및 광학흐름 정합도를 측정할 수 있으며, 측정된 정합도를 대응점의 위치에 대한 확률정보로 추정할 수 있다. 추정된 확률정보로부터 장면 흐름을 추정할 수 있다.
또한, 본 장면 흐름 추정/학습 장치(100)는 학습된 목표 해상도(최저해상도)에서의 디스패리티 대응점 위치에 대한 확률정보(목표 해상도에서의 디스패리티 확률정보)와 학습된 목표 해상도(최저해상도)에서의 광학흐름 대응점 위치에 대한 확률정보(목표 해상도에서의 광학흐름 확률정보)를 입력으로 단계별로 업 샘플링하여 확률정보를 상위 단계로 전달하고, 최종적으로 원본 해상도에서의 디스패리티 및 광학흐름을 포함하는 장면흐름을 추정할 수 있는 장면흐름 추정 구조를 제공할 수 있다. 또한, 본 장면 흐름 추정/학습 장치(100)는 상기와 같이 마련된 장면흐름 추정 구조에 기초하여 원본 해상도에서의 디스패리티 및 광학흐름을 추정하고, 이를 학습할 수 있다.
또한, 다운 샘플링시 추정(획득)되는 '확률정보'는 정규화된 확률정보, 즉 '확률분포'일 수 있고, 반면 업 샘플링시 추정(획득)되는 확률정보는 정규화가 이루어지지 않은 확률정보일 수 있다.
이러한 본원은 실시간으로 장면 흐름을 추정할 수 있으며, 자율 이동 로봇, 자율 주행 차량 등의 기술에 활용될 수 있다.
이러한 본 장면흐름 추정/학습 장치(100)는 하나의 장면흐름 시각적 표현자 추출 구조에 기반하여 계층별로 시각적 장면흐름 표현자를 추출하고 이를 학습할 수 있어 보다 정확도 높은 학습이 가능하다.
앞서 설명된 내용에 기초하여, 도 1의 블록도에 기반한 장면흐름 추정 방법을 간단히 설명하면 다음과 같다.
스테레오 카메라(1)로부터 획득된 영상인 t 시간에서의 제1 시점 이미지() 및 t 시간에서의 제2 시점 이미지()를 장면흐름 시각적 표현자 추출부(110)의 입력값으로 적용할 수 있다. 이때, 장면흐름 시각적 표현자 추출부(110)는 시각적 장면흐름 표현자를 각 계층마다 순차적으로 다운 샘플링하면서 입력된 이미지에 대응하는 목표 해상도(최저 해상도)에서의 시각적 장면흐름 표현자()를 추출할 수 있다.
이후 디스패리티 확률정보 추정부(121)는, 시각적 장면흐름 표현자 추출부를 통해 추출된 목표 해상도(최저해상도)에서의 시각적 장면흐름 표현자를 이용하여 디스패리티 대응점 위치에 대한 확률정보(즉, 디스패리티 확률정보[확률분포], )를 추정할 수 있다.
한편, 본 장면흐름 추정 장치(100)는 시각적 장면흐름 표현자 추출부(110)와 확률정보 추정부(120) 사이에 메모리(115)를 포함할 수 있으며, t 시간에서의 제1 시점 이미지에 대응하는 최저해상도에서의 시각적 장면흐름 표현자()는, 향후 (t+1) 시간에서의 광학흐름 대응점 위치에 대한 확률정보(즉, (t+1) 시간의 광학흐름에 대응하는 광학흐름 확률정보)를 추정하기 위해 메모리(115)에 저장될 수 있다.
광학흐름 확률정보 추정부(122)는, 장면흐름 시각적 표현자 추출부로부터 전달된 t 시간에서의 제1 시점 이미지에 대응하는 목표 해상도(최저해상도)에서의 시각적 장면흐름 표현자() 및 메모리(115)에 기저장되어 있는 (t-1) 시간에서의 제1 시점 이미지에 대응하는 목표 해상도(최저해상도)에서의 시각적 장면흐름 표현자()를 이용하여, 광학흐름 대응점 위치에 대한 확률정보(즉, 광학흐름 확률정보[확률분포], )를 추정할 수 있다.
이로부터 본 장면흐름 추정 장치(100)는 장면 흐름을 추정할 수 있다.
또한, 본 장면흐름 추정 장치(100)에서 디스패리티 추정부(131)와 광학흐름 추정부(132)를 포함하는 추정부(130)는, 디스패리티 확률정보 추정부(121) 및 광학흐름 확률정보 추정부(122) 각각으로부터 추정되어 추출된 두 확률정보[확률분포]()를 입력값으로 입력받고, 이후 앞서 도 3과 같은 디스패리티 추정 구조 및 도 4와 같은 광학흐름 추정 구조에 기반하여 원본해상도에서의 디스패리티와 광학흐름을 추정할 수 있다.
이러한 본 장면흐름 추정 장치(100)는 시각적 장면흐름 표현자를 이용하여 장면흐름의 추정 속도를 효과적으로 향상시킬 수 있다.
이하에서는 상기에 자세히 설명된 내용을 기반으로, 본원의 동작 흐름을 간단히 살펴보기로 한다.
도 7은 본원의 일 실시예에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름 추정 방법에 대한 동작 흐름도이다.
도 7에 도시된 장면 흐름 추정 방법은 앞서 설명된 본원의 일 실시예에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름 추정 장치(100)에 의하여 수행될 수 있다. 따라서, 이하 생략된 내용이라고 하더라도 본원의 일 실시예에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름 추정 장치(100)에 대하여 설명된 내용은 본원의 일 실시예에 따른 장면 흐름 추정 방법에 대한 설명에도 동일하게 적용될 수 있다.
도 7을 참조하면, 단계S11에서는, t 시간에서의 제1 시점 이미지 및 제2 시점 이미지를 입력으로 시각적 장면흐름 표현자를 순차적으로 다운 샘플링하면서 목표 해상도에서의 시각적 장면흐름 표현자를 추출할 수 있다.
또한, 단계S11에서는, 순차적으로 다운 샘플링 수행시 계층적으로 구비된 복수 레이어 각각에 포함된 다층 CNN의 적용을 통해 복수 레이어 각각에 대응하는 해상도별 시각적 장면흐름 표현자를 추출하고, 해상도별 시각적 장면흐름 표현자에 대하여 다운 샘플링을 수행할 수 있다.
다음으로, 단계S12에서는, 단계S11에서 추출된 시각적 장면흐름 표현자를 고려하여 산출된 목표 해상도에서의 디스패리티 대응점 후보군에 대한 정합도를 이용하여 목표 해상도에서의 디스패리티 확률정보를 추정하고, 단계S11에서 추출된 시각적 장면흐름 표현자를 고려하여 산출된 목표 해상도에서의 광학흐름 대응점 후보군에 대한 정합도를 이용하여 목표 해상도에서의 광학흐름 확률정보를 추정할 수 있다.
또한, 단계S12에서, 디스패리티 대응점 후보군에 대한 정합도는 t 시간에서의 제1 시점 이미지 및 제2 시점 이미지 각각에 대응하는 시각적 장면흐름 표현자 간의 정합도를 의미하고, 광학흐름 대응점 후보군에 대한 정합도는 t 시간에서의 제1 시점 이미지 및 (t-1) 시간에서의 제1 시점 이미지 각각에 대응하는 시각적 장면흐름 표현자 간의 정합도를 의미할 수 있다.
또한, 단계S12는 t 시간에 대응하는 단계, 즉, t 시간에서 수행되는 단계일 수 있다. 또한, (t-1) 시간에서의 제1 시점 이미지에 대응하는 시각적 장면흐름 표현자는 단계S12 이전의 (t-1) 시간에 대응하는 단계에서 백업될 수 있다.
또한, 단계S12에서 정합도는 내적 연산에 의해 산출될 수 있다. 또한, 단계S12에서 디스패리티 확률정보 및 광학흐름 확률정보는 정규화된 확률정보, 즉 확률분포일 수 있다.
또한, 도면에 도시되지는 않았으나, 본원의 일 실시예에 따른 장면 흐름 추정 방법은, 단계S12 이후에, 목표 해상도에서의 디스패리티 확률정보를 입력으로 디스패리티 확률정보에 목표 해상도로부터의 순차적인 업 샘플링을 적용하여 t 시간에서의 제1 시점 이미지 및 제2 시점 이미지에 대응하는 디스패리티 확률정보를 추정하고, 목표 해상도에서의 광학흐름 확률정보를 입력으로 광학흐름 확률정보에 목표 해상도로부터의 순차적인 업 샘플링을 적용하여 t 시간에서의 제1 시점 이미지와 t 시간보다 이전인 (t-1) 시간에서의 제1 시점 이미지에 대응하는 광학흐름 확률정보를 추정하는 단계(미도시)를 포함할 수 있다.
이때, 단계S12 이후에 수행되는 단계(미도시)는, 순차적으로 업 샘플링 수행시 계층적으로 구비된 디스패리티 대응 복수 레이어 각각에 대응하는 디스패리티 확률정보에 다층 CNN을 적용하여 업 샘플링을 수행하고, 디스패리티 대응 복수 레이어 각각에 대응하여 출력된 CNN 출력값에 다른 다층 CNN을 적용하여 디스패리티 대응 복수 레이어 각각에 대응하는 해상도별 디스패리티를 추정할 수 있다.
또한, 단계S12 이후에 수행되는 단계(미도시)는, 순차적으로 업 샘플링 수행시 계층적으로 구비된 광학흐름 대응 복수 레이어 각각에 대응하는 광학흐름 확률정보에 다층 CNN을 적용하여 업 샘플링을 수행하고, 광학흐름 대응 복수 레이어 각각에 대응하여 출력된 CNN 출력값에 다른 다층 CNN을 적용하여 광학흐름 대응 복수 레이어 각각에 대응하는 해상도별 광학흐름을 추정할 수 있다.
상술한 설명에서, 단계S11 내지 S12는 본원의 구현예에 따라 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
한편, 본원의 일 실시예에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름 학습 방법은 앞서 설명된 본원의 일 실시예에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름 학습을 위한 장면 흐름 학습 장치에 의하여 수행될 수 있다. 따라서, 이하 생략된 내용이라고 하더라도 본원의 일 실시예에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름 학습을 위한 장면 흐름 학습 장치에 대하여 설명된 내용은 본원의 일 실시예에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름 학습 방법에 대한 설명에도 동일하게 적용될 수 있다.
간단히 살펴보면, 본원의 일 실시예에 따른 딥 뉴럴 네트워크 구조 기반의 장면 흐름 학습 방법은, 장면흐름 학습부에 의하여, 복수의 계층 중 어느 하나인 다운 샘플링 계층에 대하여 t 시간에서의 제1 시점 이미지 및 제2 시점 이미지에 대응하는 타깃 디스패리티 확률정보를 학습대상으로서 산출하고, 상기 다운 샘플링 계층에 대하여 t 시간에서의 제1 시점 이미지 및 t 시간보다 이전인 (t-1) 시간에서의 제1 시점 이미지에 대응하는 타깃 광학흐름 확률정보를 산출하는 단계(step 1)를 포함할 수 있다.
여기서, 타깃 디스패리티 확률정보는, 제1 시점 이미지의 상기 다운 샘플링 계층의 해상도에 대응하는 이미지 및 제2 시점 이미지의 상기 다운 샘플링 계층의 해상도에 대응하는 이미지 상의 대응 후보점 사이의 거리 관계에 기반하여 거리에 반비례하도록 산출될 수 있다. 또한, 타깃 광학흐름 확률정보는, 제1 시점 이미지의 상기 다운 샘플링 계층의 해상도에 대응하는 이미지 및 (t-1) 시간에서의 제1 시점 이미지의 상기 다운 샘플링 계층의 해상도에 대응하는 이미지 상의 대응 후보점 사이의 거리 관계에 기반하여 거리에 반비례하도록 산출될 수 있다.
다음으로, 장면 흐름 학습 방법은 장면흐름 학습부에 의하여, 다운 샘플링 계층에 포함된 다층 CNN의 적용을 통해 시각적 장면흐름 표현자를 추출하는 단계(step 2)를 포함할 수 있다.
다음으로, 장면 흐름 학습 방법은 장면흐름 학습부에 의하여, 추출된 시각적 장면흐름 표현자를 고려하여 산출된 상기 다운 샘플링 계층에서의 디스패리티 대응점 후보군에 대한 정합도를 이용하여 상기 다운 샘플링 계층에서의 디스패리티 확률정보를 추정한 다음, 다운 샘플링 계층에 대한 타깃 디스패리티 확률정보와의 차이가 최소화되도록 학습하고, 추출된 시각적 장면흐름 표현자를 고려하여 산출된 상기 다운 샘플링 계층에서의 광학흐름 대응점 후보군에 대한 정합도를 이용하여 상기 다운 샘플링 계층에서의 광학흐름 확률정보를 추정한 다음, 다운 샘플링 계층에 대한 타깃 광학흐름 확률정보와의 차이가 최소화되도록 학습하는 단계(step 3)를 포함할 수 있다..
이때, step 1 내지 step 3는 t 시간에서의 제1 시점 이미지 및 제2 시점 이미지를 입력으로 시각적 장면흐름 표현자가 목표 해상도까지 순차적으로 다운 샘플링되고 t 시간에서의 제1 시점 이미지 및 (t-1) 시간에서의 제1 시점 이미지를 입력으로 시각적 장면흐름 표현자가 목표 해상도까지 순차적으로 다운 샘플링되는 복수의 계층 각각에 대하여 차례로 수행될 수 있다.
또한, step 3 이후에, 장면 흐름 학습 방법은 장면흐름 학습부에 의하여, 상기 복수의 계층 중 어느 하나인 업 샘플링 계층에 포함된 다층 CNN을 상기 업 샘플링 계층의 하위 계층에서 전달된 디스패리티 확률정보에 적용함으로써 상기 업 샘플링 계층에 대하여 t 시간에서의 제1 시점 이미지 및 제2 시점 이미지에 대응하는 디스패리티를 추정하고, 상기 업 샘플링 계층에 포함된 다층 CNN을 상기 업 샘플링 계층의 하위 계층에서 전달된 광학흐름 확률정보에 적용함으로써 상기 업 샘플링 계층에 대하여 t 시간에서의 제1 시점 이미지 및 (t-1) 시간에서의 제1 시점 이미지에 대응하는 광학흐름을 추정하는 단계(step 4)를 포함할 수 있다.
다음으로, 장면 흐름 학습 방법은 장면흐름 학습부에 의하여, 상기 업 샘플링 계층에서의 타깃 디스패리티와 step 4에서 추정된 디스패리티에 관한 정합도 차이 및 상기 업 샘플링 계층에서의 타깃 광학흐름과 step 4에서 추정된 광학흐름에 관한 정합도 차이가 최소화되도록 학습하는 단계(step 5)를 포함할 수 있다. 이때, 상기 타깃 디스패리티와 상기 타깃 광학흐름은, step 3의 수행을 통해 상기 업 샘플링 계층에 대응하는 다운 샘플링 계층에 대하여 학습된 시각적 장면흐름 표현자를 이용하여 산출될 수 있다.
또한, step 4 및 5는, step 3를 통해 상기 목표 해상도에서 학습된 디스패리티 확률정보 및 광학흐름 확률정보를 입력으로 각 업 샘플링 계층마다 포함된 다층 CNN 및 업 샘플링의 적용을 통해 디스패티리 확률정보 및 광학흐름 확률정보가 원본 해상도까지 순차적으로 전달 되는 복수의 계층 각각에 대하여 차례로 수행될 수 있다.
본원의 일 실시 예에 따른 장면 흐름 추정 방법 및 장면 흐름 추정을 위한 장면 흐름 학습 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.
100: 장면 흐름 추정 장치
110: 시각적 장면흐름 표현자 추출부
115: 메모리
120: 확률정보 추정부
130: 추정부
110: 시각적 장면흐름 표현자 추출부
115: 메모리
120: 확률정보 추정부
130: 추정부
Claims (14)
- 딥 뉴럴 네트워크 구조 기반의 장면 흐름(scene flow) 추정 방법에 있어서,
(a) t 시간에서의 제1 시점 이미지 및 제2 시점 이미지를 입력으로 시각적 장면흐름 표현자를 순차적으로 다운 샘플링하면서 목표 해상도에서의 시각적 장면흐름 표현자를 추출하는 단계; 및
(b) 추출된 상기 시각적 장면흐름 표현자를 고려하여 산출된 상기 목표 해상도에서의 디스패리티 대응점 후보군에 대한 정합도를 이용하여 상기 목표 해상도에서의 디스패리티 확률정보를 추정하고, 추출된 상기 시각적 장면흐름 표현자를 고려하여 산출된 상기 목표 해상도에서의 광학흐름 대응점 후보군에 대한 정합도를 이용하여 상기 목표 해상도에서의 광학흐름 확률정보를 추정하는 단계를 포함하고,
상기 (b) 단계에서,
상기 디스패리티 대응점 후보군에 대한 정합도는 상기 t 시간에서의 제1 시점 이미지 및 제2 시점 이미지 각각에 대응하는 시각적 장면흐름 표현자 간의 정합도이고,
상기 광학흐름 대응점 후보군에 대한 정합도는 상기 t 시간에서의 제1 시점 이미지 및 (t-1) 시간에서의 제1 시점 이미지 각각에 대응하는 시각적 장면흐름 표현자 간의 정합도인 것인, 장면 흐름 추정 방법. - 제1항에 있어서,
상기 (a) 단계는,
순차적으로 상기 다운 샘플링 수행시 계층적으로 구비된 복수 레이어 각각에 포함된 다층 CNN의 적용을 통해 상기 복수 레이어 각각에 대응하는 해상도별 시각적 장면흐름 표현자를 추출하고, 상기 해상도별 시각적 장면흐름 표현자에 대하여 다운 샘플링을 수행하는 것인, 장면 흐름 추정 방법. - 삭제
- 제1항에 있어서,
상기 (b) 단계는 t 시간에 대응하는 단계이고,
상기 (t-1) 시간에서의 제1 시점 이미지에 대응하는 시각적 장면흐름 표현자는 상기 (b) 단계 이전의 (t-1) 시간에 대응하는 단계에서 백업되는 것인, 장면 흐름 추정 방법. - 제1항에 있어서,
상기 정합도는 내적 연산에 의해 산출되는 것인, 장면 흐름 추정 방법. - 제1항에 있어서,
상기 디스패리티 확률정보 및 상기 광학흐름 확률정보는 정규화된 확률정보인 확률분포인 것인, 장면 흐름 추정 방법. - 제1항에 있어서,
(c) 상기 목표 해상도에서의 디스패리티 확률정보를 입력으로 상기 디스패리티 확률정보에 상기 목표 해상도로부터의 순차적인 업 샘플링을 적용하여 상기 t 시간에서의 제1 시점 이미지 및 제2 시점 이미지에 대응하는 디스패리티를 추정하고, 상기 목표 해상도에서의 광학흐름 확률정보를 입력으로 상기 광학흐름 확률정보에 상기 목표 해상도로부터의 순차적인 업 샘플링을 적용하여 상기 t 시간에서의 제1 시점 이미지와 상기 t 시간보다 이전인 (t-1) 시간에서의 제1 시점 이미지에 대응하는 광학흐름을 추정하는 단계를 더 포함하는 장면 흐름 추정 방법. - 제7항에 있어서,
상기 (c) 단계는,
순차적으로 상기 업 샘플링 수행시 계층적으로 구비된 디스패리티 대응 복수 레이어 각각에 대응하는 디스패리티 확률정보에 다층 CNN을 적용하여 업 샘플링을 수행하고, 상기 디스패리티 대응 복수 레이어 각각에 대응하여 출력된 CNN 출력값에 다른 다층 CNN을 적용하여 상기 디스패리티 대응 복수 레이어 각각에 대응하는 해상도별 디스패리티를 추정하고,
순차적으로 상기 업 샘플링 수행시 계층적으로 구비된 광학흐름 대응 복수 레이어 각각에 대응하는 광학흐름 확률정보에 다층 CNN을 적용하여 업 샘플링을 수행하고, 상기 광학흐름 대응 복수 레이어 각각에 대응하여 출력된 CNN 출력값에 다른 다층 CNN을 적용하여 상기 광학흐름 대응 복수 레이어 각각에 대응하는 해상도별 광학흐름을 추정하는 것인, 장면 흐름 추정 방법. - 딥 뉴럴 네트워크 구조 기반의 장면 흐름 추정을 위한 장면 흐름 학습 방법에 있어서,
(a) 복수의 계층 중 어느 하나인 다운 샘플링 계층에 대하여 t 시간에서의 제1 시점 이미지 및 제2 시점 이미지에 대응하는 타깃 디스패리티 확률정보를 학습대상으로서 산출하고, 상기 다운 샘플링 계층에 대하여 상기 t 시간에서의 제1 시점 이미지 및 상기 t 시간보다 이전인 (t-1) 시간에서의 제1 시점 이미지에 대응하는 타깃 광학흐름 확률정보를 학습대상으로서 산출하는 단계;
(b) 상기 다운 샘플링 계층에 포함된 다층 CNN의 적용을 통해 시각적 장면흐름 표현자를 추출하는 단계; 및
(c) 추출된 상기 시각적 장면흐름 표현자를 고려하여 산출된 상기 다운 샘플링 계층에서의 디스패리티 대응점 후보군에 대한 정합도를 이용하여 상기 다운 샘플링 계층에서의 디스패리티 확률정보를 추정한 다음, 상기 다운 샘플링 계층에 대한 타깃 디스패리티 확률정보와의 차이가 최소화되도록 학습하고, 추출된 상기 시각적 장면흐름 표현자를 고려하여 산출된 상기 다운 샘플링 계층에서의 광학흐름 대응점 후보군에 대한 정합도를 이용하여 상기 다운 샘플링 계층에서의 광학흐름 확률정보를 추정한 다음, 상기 다운 샘플링 계층에 대한 타깃 광학흐름 확률정보와의 차이가 최소화되도록 학습하는 단계를 포함하고,
상기 (a) 단계 내지 상기 (c) 단계는, t 시간에서의 제1 시점 이미지 및 제2 시점 이미지를 입력으로 시각적 장면흐름 표현자가 목표 해상도까지 순차적으로 다운 샘플링되고 상기 t 시간에서의 제1 시점 이미지 및 상기 (t-1) 시간에서의 제1 시점 이미지를 입력으로 시각적 장면흐름 표현자가 목표 해상도까지 순차적으로 다운 샘플링되는 상기 복수의 계층 각각에 대하여 차례로 수행되는 것인, 장면 흐름 추정을 위한 장면 흐름 학습 방법. - 제9항에 있어서,
상기 타깃 디스패리티 확률정보는, 상기 제1 시점 이미지의 상기 다운 샘플링 계층의 해상도에 대응하는 이미지 및 상기 제2 시점 이미지의 상기 다운 샘플링 계층의 해상도에 대응하는 이미지 상의 대응 후보점 사이의 거리 관계에 기반하여 거리에 반비례하도록 산출되고,
상기 타깃 광학흐름 확률정보는, 상기 제1 시점 이미지의 상기 다운 샘플링 계층의 해상도에 대응하는 이미지 및 상기 (t-1) 시간에서의 제1 시점 이미지의 상기 다운 샘플링 계층의 해상도에 대응하는 이미지 상의 대응 후보점 사이의 거리 관계에 기반하여 거리에 반비례하도록 산출되는 것인, 장면 흐름 추정을 위한 장면 흐름 학습 방법. - 제9항에 있어서,
(d) 상기 복수의 계층 중 어느 하나인 업 샘플링 계층에 포함된 다층 CNN을 상기 업 샘플링 계층의 하위 계층에서 전달된 디스패리티 확률정보에 적용함으로써 상기 업 샘플링 계층에 대하여 상기 t 시간에서의 제1 시점 이미지 및 제2 시점 이미지에 대응하는 디스패리티를 추정하고, 상기 업 샘플링 계층에 포함된 다층 CNN을 상기 업 샘플링 계층의 하위 계층에서 전달된 광학흐름 확률정보에 적용함으로써 상기 업 샘플링 계층에 대하여 상기 t 시간에서의 제1 시점 이미지 및 상기 (t-1) 시간에서의 제1 시점 이미지에 대응하는 광학흐름을 추정하는 단계; 및
(e) 상기 업 샘플링 계층에서의 타깃 디스패리티와 상기 (d) 단계에서 추정된 디스패리티에 관한 정합도 차이 및 상기 업 샘플링 계층에서의 타깃 광학흐름과 상기 (d) 단계에서 추정된 광학흐름에 관한 정합도 차이가 최소화되도록 학습하는 단계,
를 더 포함하되,
상기 타깃 디스패리티와 상기 타깃 광학흐름은, 상기 (c) 단계의 수행을 통해 상기 업 샘플링 계층에 대응하는 다운 샘플링 계층에 대하여 학습된 시각적 장면흐름 표현자를 이용하여 산출되고,
상기 (d) 단계 및 상기 (e) 단계는, 상기 (c) 단계를 통해 상기 목표 해상도에서 학습된 디스패리티 확률정보 및 광학흐름 확률정보를 입력으로 각 업 샘플링 계층마다 포함된 다층 CNN 및 업 샘플링의 적용을 통해 디스패티리 확률정보 및 광학흐름 확률정보가 원본 해상도까지 순차적으로 전달되는 상기 복수의 계층 각각에 대하여 차례로 수행되는 것인, 장면 흐름 추정을 위한 장면 흐름 학습 방법. - 딥 뉴럴 네트워크 구조 기반의 장면 흐름(scene flow) 추정 장치에 있어서,
t 시간에서의 제1 시점 이미지 및 제2 시점 이미지를 입력으로 시각적 장면흐름 표현자를 순차적으로 다운 샘플링하면서 목표 해상도에서의 시각적 장면흐름 표현자를 추출하는 시각적 장면흐름 표현자 추출부; 및
추출된 상기 시각적 장면흐름 표현자를 고려하여 산출된 상기 목표 해상도에서의 디스패리티 대응점 후보군에 대한 정합도를 이용하여 상기 목표 해상도에서의 디스패리티 확률정보를 추정하고, 추출된 상기 시각적 장면흐름 표현자를 고려하여 산출된 상기 목표 해상도에서의 광학흐름 대응점 후보군에 대한 정합도를 이용하여 상기 목표 해상도에서의 광학흐름 확률정보를 추정하는 확률정보 추정부를 포함하고,
상기 디스패리티 대응점 후보군에 대한 정합도는 상기 t 시간에서의 제1 시점 이미지 및 제2 시점 이미지 각각에 대응하는 시각적 장면흐름 표현자 간의 정합도이고,
상기 광학흐름 대응점 후보군에 대한 정합도는 상기 t 시간에서의 제1 시점 이미지 및 (t-1) 시간에서의 제1 시점 이미지 각각에 대응하는 시각적 장면흐름 표현자 간의 정합도인 것인, 장면 흐름 추정 장치. - 장면 흐름 학습을 위한 장면 흐름 학습 장치에 있어서,
복수의 계층 중 어느 하나인 다운 샘플링 계층에 대하여 t 시간에서의 제1 시점 이미지 및 제2 시점 이미지에 대응하는 타깃 디스패리티 확률정보를 학습대상으로서 산출하고, 상기 다운 샘플링 계층에 대하여 상기 t 시간에서의 제1 시점 이미지 및 상기 t 시간보다 이전인 (t-1) 시간에서의 제1 시점 이미지에 대응하는 타깃 광학흐름 확률정보를 산출하고,
상기 다운 샘플링 계층에 포함된 다층 CNN의 적용을 통해 시각적 장면흐름 표현자를 추출하고,
추출된 상기 시각적 장면흐름 표현자를 고려하여 산출된 상기 다운 샘플링 계층에서의 디스패리티 대응점 후보군에 대한 정합도를 이용하여 상기 다운 샘플링 계층에서의 디스패리티 확률정보를 추정한 다음, 상기 다운 샘플링 계층에 대한 타깃 디스패리티 확률정보와의 차이가 최소화되도록 학습하고, 추출된 상기 시각적 장면흐름 표현자를 고려하여 산출된 상기 다운 샘플링 계층에서의 광학흐름 대응점 후보군에 대한 정합도를 이용하여 목표 해상도에서의 광학흐름 확률정보를 추정한 다음, 상기 다운 샘플링 계층에 대한 타깃 광학흐름 확률정보와의 차이가 최소화되도록 학습하는 장면흐름 학습부를 포함하고,
상기 장면흐름 학습부는, t 시간에서의 제1 시점 이미지 및 제2 시점 이미지를 입력으로 시각적 장면흐름 표현자가 목표 해상도까지 순차적으로 다운 샘플링되고 상기 t 시간에서의 제1 시점 이미지 및 상기 (t-1) 시간에서의 제1 시점 이미지를 입력으로 시각적 장면흐름 표현자가 목표 해상도까지 순차적으로 다운 샘플링되는 상기 복수의 계층 각각에 대하여 차례로 학습을 수행하는 것인, 장면 흐름 추정을 위한 장면 흐름 학습 장치. - 제1항, 제2항 및 제4항 내지 제11항 중 어느 한 항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록한 컴퓨터에서 판독 가능한 기록매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170136308A KR101961687B1 (ko) | 2017-10-20 | 2017-10-20 | 장면 흐름 추정을 위한 장면 흐름 학습 방법 및 장면 흐름 추정 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170136308A KR101961687B1 (ko) | 2017-10-20 | 2017-10-20 | 장면 흐름 추정을 위한 장면 흐름 학습 방법 및 장면 흐름 추정 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101961687B1 true KR101961687B1 (ko) | 2019-03-25 |
Family
ID=65907839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170136308A KR101961687B1 (ko) | 2017-10-20 | 2017-10-20 | 장면 흐름 추정을 위한 장면 흐름 학습 방법 및 장면 흐름 추정 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101961687B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652900A (zh) * | 2020-05-29 | 2020-09-11 | 浙江大华技术股份有限公司 | 基于场景流的客流量的计数方法、系统及设备、存储装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100901904B1 (ko) * | 2004-10-25 | 2009-06-10 | 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘.피. | 카메라 움직임 추정 방법 및 비디오 움직임 식별 장치 |
KR101088144B1 (ko) * | 2009-08-07 | 2011-12-02 | 한국외국어대학교 연구산학협력단 | 스테레오 카메라를 이용한물체의 거리 측정 방법 |
KR20170034226A (ko) * | 2015-09-18 | 2017-03-28 | 삼성전자주식회사 | 객체 인식 장치 및 방법, 객체 인식 모델 학습 장치 및 방법 |
-
2017
- 2017-10-20 KR KR1020170136308A patent/KR101961687B1/ko active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100901904B1 (ko) * | 2004-10-25 | 2009-06-10 | 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘.피. | 카메라 움직임 추정 방법 및 비디오 움직임 식별 장치 |
KR101088144B1 (ko) * | 2009-08-07 | 2011-12-02 | 한국외국어대학교 연구산학협력단 | 스테레오 카메라를 이용한물체의 거리 측정 방법 |
KR20170034226A (ko) * | 2015-09-18 | 2017-03-28 | 삼성전자주식회사 | 객체 인식 장치 및 방법, 객체 인식 모델 학습 장치 및 방법 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652900A (zh) * | 2020-05-29 | 2020-09-11 | 浙江大华技术股份有限公司 | 基于场景流的客流量的计数方法、系统及设备、存储装置 |
CN111652900B (zh) * | 2020-05-29 | 2023-09-29 | 浙江大华技术股份有限公司 | 基于场景流的客流量的计数方法、系统及设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10839543B2 (en) | Systems and methods for depth estimation using convolutional spatial propagation networks | |
US11200424B2 (en) | Space-time memory network for locating target object in video content | |
US20210142095A1 (en) | Image disparity estimation | |
EP4181079A1 (en) | Method and apparatus with multi-modal feature fusion | |
Yin et al. | Scale recovery for monocular visual odometry using depth estimated with deep convolutional neural fields | |
US11274922B2 (en) | Method and apparatus for binocular ranging | |
WO2020000390A1 (en) | Systems and methods for depth estimation via affinity learned with convolutional spatial propagation networks | |
CN112639878B (zh) | 无监督深度预测神经网络 | |
KR102219561B1 (ko) | 대응점 일관성에 기반한 비지도 학습 방식의 스테레오 매칭 장치 및 방법 | |
US20220051425A1 (en) | Scale-aware monocular localization and mapping | |
JP2024513596A (ja) | 画像処理方法および装置、ならびにコンピュータ可読ストレージ媒体 | |
CN113963117A (zh) | 一种基于可变卷积深度网络的多视图三维重建方法及装置 | |
Hwang et al. | Self-supervised monocular depth estimation using hybrid transformer encoder | |
CN110717917B (zh) | 基于cnn语义分割深度预测方法和装置 | |
Ke et al. | Deep multi-view depth estimation with predicted uncertainty | |
Qiao et al. | SF-Net: Learning scene flow from RGB-D images with CNNs | |
KR101961687B1 (ko) | 장면 흐름 추정을 위한 장면 흐름 학습 방법 및 장면 흐름 추정 방법 | |
CN110751722A (zh) | 同时定位建图方法及装置 | |
Yasarla et al. | Futuredepth: Learning to predict the future improves video depth estimation | |
Long et al. | Detail preserving residual feature pyramid modules for optical flow | |
CN115482252A (zh) | 基于运动约束的slam闭环检测和位姿图优化方法 | |
CN110532868B (zh) | 一种预测自由空间语义边界的方法 | |
CN117367404A (zh) | 基于动态场景下slam的视觉定位建图方法及系统 | |
KR102034024B1 (ko) | 장면 흐름 추정을 위한 장면 흐름 학습 방법 및 장면 흐름 추정 방법 | |
Harisankar et al. | Unsupervised depth estimation from monocular images for autonomous vehicles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |