KR102013649B1 - 스테레오 정합을 위한 영상처리 방법 및 이를 이용하는 프로그램 - Google Patents

스테레오 정합을 위한 영상처리 방법 및 이를 이용하는 프로그램 Download PDF

Info

Publication number
KR102013649B1
KR102013649B1 KR1020190055238A KR20190055238A KR102013649B1 KR 102013649 B1 KR102013649 B1 KR 102013649B1 KR 1020190055238 A KR1020190055238 A KR 1020190055238A KR 20190055238 A KR20190055238 A KR 20190055238A KR 102013649 B1 KR102013649 B1 KR 102013649B1
Authority
KR
South Korea
Prior art keywords
map
concentration
maps
channel
feature map
Prior art date
Application number
KR1020190055238A
Other languages
English (en)
Inventor
허용석
정재철
Original Assignee
아주대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아주대학교산학협력단 filed Critical 아주대학교산학협력단
Application granted granted Critical
Publication of KR102013649B1 publication Critical patent/KR102013649B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

본 발명의 실시 예에 따른 스테레오 정합을 위한 영상처리 방법은, 제1이미지와 제2이미지 각각으로부터 제1이미지 특징맵과 제2이미지 특징맵 각각을 추출하는 단계, 상기 제1이미지 특징맵과 상기 제2이미지 특징맵을 결합하여 결합특징맵을 생성하는 단계, 생성된 상기 결합특징맵에 집중 알고리즘을 누적적으로 적용하여 복수의 출력 특징맵들과 복수의 채널공간집중맵들을 생성하는 단계, 상기 복수의 출력 특징맵들 각각에 대하여 회귀 알고리즘을 적용하여 복수의 최대시차값들을 생성하는 단계, 상기 복수의 최대시차값들의 평균값에 기초하여, 평균 최대시차값을 생성하는 단계, 상기 복수의 채널공간집중맵들의 평균값에 기초하여, 평균 채널공간집중맵을 생성하는 단계, 상기 평균 최대시차값과 참값 최대시차값의 비교결과에 따라 최대시차값 손실함수(loss function)를 학습시키는 단계 및 상기 평균 채널공간집중맵과 참값 집중맵의 비교결과에 따라 집중맵 손실함수를 학습시키는 단계를 포함할 수 있다.

Description

스테레오 정합을 위한 영상처리 방법 및 이를 이용하는 프로그램{IMAGE PROCESSING METHOD FOR STEREO MATCHING AND PROGRAM USING THE SAME}
본 발명의 기술적 사상은 스테레오 정합을 위한 영상처리 방법 및 이를 이용하는 프로그램에 관한 것으로, 보다 상세하게는 스테레오 정합을 위한 최대시차값을 예측하고, 예측된 최대시차값을 이용하여 손실함수를 학습시킬 수 있는 스테레오 정합을 위한 영상처리 방법 및 이를 이용하는 프로그램에 관한 것이다.
스테레오 정합이란 촬영된 장면의 3차원 기하 정보를 얻는데 매우 유용한 스테레오 비전 기술 중 하나로써, 3차원 정보를 계산하기 전에 선행되어야 할 작업으로 좌우 영상에서 대응점을 찾아내는 것을 말한다. 스테레오 비전 기술에서 가장 중요한 부분이 서로 다른 시점에서 취득된 두 영상에서 대응점을 찾는 즉, 스테레오 정합을 이루는 것이다.
스테레오 정합은 3차원상의 공간에 배치된 복수의 카메라들로부터 하나의 장면에 대해 획득한 좌측 영상과 우측 영상의 동일점을 찾아 3차원 깊이 정보를 찾는 과정이다. 좌측 영상에서의 동일점과 우측 영상에서의 동일점의 x축의 위치 차이를 시차(disparity)라고 하며, 스테레오 정합은 이러한 시차를 계산하는 과정이라고 할 수 있다.
본 발명의 기술적 사상에 따른 스테레오 정합을 위한 영상처리 방법 및 이를 이용하는 프로그램이 이루고자 하는 기술적 과제는 스테레오 정합을 위한 최대시차값을 예측하고, 예측된 최대시차값을 이용하여 손실함수를 학습시킬 수 있는 스테레오 정합을 위한 영상처리 방법 및 이를 이용하는 영상처리 장치를 제공하는 것이다.
본 발명의 기술적 사상에 의한 일 양태에 따른 스테레오 정합을 위한 영상처리 방법에 있어서, 제1이미지와 제2이미지 각각으로부터 제1이미지 특징맵과 제2이미지 특징맵 각각을 추출하는 단계, 상기 제1이미지 특징맵과 상기 제2이미지 특징맵을 결합하여 결합특징맵을 생성하는 단계, 생성된 상기 결합특징맵에 집중 알고리즘을 누적적으로 적용하여 복수의 출력 특징맵들과 복수의 채널공간집중맵들을 생성하는 단계, 상기 복수의 출력 특징맵들 각각에 대하여 회귀 알고리즘을 적용하여 복수의 최대시차값들을 생성하는 단계; 상기 복수의 최대시차값들의 평균값에 기초하여, 평균 최대시차값을 생성하는 단계, 상기 복수의 채널공간집중맵들의 평균값에 기초하여, 평균 채널공간집중맵을 생성하는 단계, 상기 평균 최대시차값과 참값 최대시차값의 비교결과에 따라 최대시차값 손실함수(loss function)를 학습시키는 단계 및 상기 평균 채널공간집중맵과 참값 집중맵의 비교결과에 따라 집중맵 손실함수를 학습시키는 단계를 포함할 수 있다.
예시적인 실시 예에 따르면, 집중 알고리즘은, 채널 집중 알고리즘 및 공간 집중 알고리즘을 포함할 수 있다.
예시적인 실시 예에 따르면, 상기 결합특징맵에 집중 알고리즘을 누적적으로 적용하여 복수의 출력 특징맵들과 복수의 채널공간집중맵들을 생성하는 단계는, 상기 복수의 출력특징맵들 중에서 제(n-1)출력특징맵(상기 n은 2이상의 자연수)에 상기 채널집중 알고리즘을 적용하여 제n채널집중맵을 생성하는 단계, 상기 제(n-1)출력특징맵에 상기 공간집중 알고리즘을 적용하여 제n공간집중맵을 생성하는 단계, 상기 제n채널집중맵과 상기 제n공간집중맵을 결합하여 상기 복수의 채널공간집중맵들 중에서 제n채널공간집중맵을 생성하는 단계를 포함할 수 있다.
예시적인 실시 예에 따르면, 상기 결합특징맵에 집중 알고리즘을 누적적으로 적용하여 복수의 출력 특징맵들과 복수의 채널공간집중맵들을 생성하는 단계는, 상기 제(n-1)출력특징맵에 CNN(Convoluton Neural Network)을 적용하여 제n컨볼루션특징맵을 생성하는 단계를 포함할 수 있다.
예시적인 실시 예에 따르면, 상기 결합특징맵에 집중 알고리즘을 누적적으로 적용하여 복수의 출력 특징맵들과 복수의 채널공간집중맵들을 생성하는 단계는, 상기 제n채널공간집중맵과 상기 제n컨볼루션특징맵을 결합하여 상기 복수의 출력특징맵들 중에서 제n출력특징맵을 생성하는 단계를 포함할 수 있다.
예시적인 실시 예에 따르면, 상기 결합특징맵에 집중 알고리즘을 누적적으로 적용하여 복수의 출력 특징맵들과 복수의 채널공간집중맵들을 생성하는 단계는, 상기 결합특징맵에 채널집중 알고리즘을 적용하여 상기 복수의 채널집중맵들 중에서 제1채널집중맵을 생성하는 단계, 상기 결합특징맵에 공간집중 알고리즘을 적용하여 상기 복수의 공간집중맵들 중에서 제1공간집중맵을 생성하는 단계, 상기 제1채널집중맵과 상기 제1공간집중맵을 결합하여 상기 복수의 채널공간집중맵들 중에서 제1채널공간집중맵을 생성하는 단계를 포함할 수 있다.
예시적인 실시 예에 따르면, 상기 결합특징맵에 집중 알고리즘을 누적적으로 적용하여 복수의 출력 특징맵들과 복수의 채널공간집중맵들을 생성하는 단계는, 상기 결합특징맵에 CNN(Convolution Neural Network)을 적용하여 상기 복수의 컨볼루션특징맵들 중에서 제1컨볼루션특징맵을 생성하는 단계를 포함할 수 있다.
예시적인 실시 예에 따르면, 상기 결합특징맵에 집중 알고리즘을 누적적으로 적용하여 복수의 출력 특징맵들과 복수의 채널공간집중맵들을 생성하는 단계는, 상기 제1채널공간집중맵과 상기 제1컨볼루션특징맵을 결합하여 상기 복수의 출력특징맵들 중에서 제1출력특징맵을 생성하는 단계를 포함할 수 있다.
예시적인 실시 예에 따르면, 상기 영상처리 방법은, 상기 제1이미지와 상기 제2이미지에 기초하여 기준시차맵을 생성하는 단계를 포함할 수 있다.
예시적인 실시 예에 따르면, 상기 최대시차값 손실함수를 학습시키는 단계는, 상기 기준시차맵에 기초하여 상기 참값 최대시차값을 생성하는 단계를 포함할 수 있다.
예시적인 실시 예에 따르면, 상기 집중맵 손실함수를 학습시키는 단계는, 상기 기준시차맵에 포함된 픽셀들 중에서 상기 참값 최대시차값을 갖는 픽셀과 인접한 픽셀을 포함할 수 있다.
본 발명의 기술적 사상에 의한 일 양태에 따른 프로세서(processor)와 결합되어 스테레오 정합을 위한 영상처리 방법을 수행하기 위한 매체에 저장된 프로그램은 제1이미지와 제2이미지 각각으로부터 제1이미지 특징맵과 제2이미지 특징맵 각각을 추출하는 단계, 상기 제1이미지 특징맵과 상기 제2이미지 특징맵을 결합하여 결합특징맵을 생성하는 단계, 생성된 상기 결합특징맵에 집중 알고리즘을 누적적으로 적용하여 복수의 출력 특징맵들과 복수의 채널공간집중맵들을 생성하는 단계, 상기 복수의 출력 특징맵들 각각에 대하여 회귀 알고리즘을 적용하여 복수의 최대시차값들을 생성하는 단계, 상기 복수의 최대시차값들의 평균값에 기초하여, 평균 최대시차값을 생성하는 단계, 상기 복수의 채널공간집중맵들의 평균값에 기초하여, 평균 채널공간집중맵을 생성하는 단계, 상기 평균 최대시차값과 참값 최대시차값의 비교결과에 따라 최대시차값 손실함수를 학습시키는 단계 및 상기 평균 채널공간집중맵과 참값 집중맵의 비교결과에 따라 집중맵 손실함수를 학습시키는 단계를 수행할 수 있다.
본 발명의 기술적 사상에 의한 실시 예들에 따른 방법과 장치들은 스테레오 이미지들만을 입력으로 받아서 처리함으로써 스테레오 이미지들 사이의 시차 범위를 효과적으로 예측하고, 학습시킬 수 있다.
본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 본 발명의 기술적 사상에 의한 일 실시 예에 따른 스테레오 정합을 위한 영상처리장치의 블록도다.
도 2는 본 발명의 기술적 사상에 의한 일 실시 예에 따른 스테레오 정합을 위한 영상처리 방법을 수행하는 단계를 나타내는 도면이다.
도 3은 본 발명의 기술적 사상에 의한 일 실시 예에 따른 영상처리방법에서 출력특징맵을 생성하는 단계를 도시한 도면이다.
본 발명의 기술적 사상에 따른 예시적인 실시예들은 당해 기술 분야에서 통상의 지식을 가진 자에게 본 발명의 기술적 사상을 더욱 완전하게 설명하기 위하여 제공되는 것으로, 아래의 실시예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 기술적 사상의 범위가 아래의 실시예들로 한정되는 것은 아니다. 오히려, 이들 실시예들은 본 개시를 더욱 충실하고 완전하게 하며 당업자에게 본 발명의 기술적 사상을 완전하게 전달하기 위하여 제공되는 것이다.
본 명세서에서 제1, 제2 등의 용어가 다양한 부재, 영역, 층들, 부위 및/또는 구성 요소들을 설명하기 위하여 사용되지만, 이들 부재, 부품, 영역, 층들, 부위 및/또는 구성 요소들은 이들 용어에 의해 한정되어서는 안 됨은 자명하다. 이들 용어는 특정 순서나 상하, 또는 우열을 의미하지 않으며, 하나의 부재, 영역, 부위, 또는 구성 요소를 다른 부재, 영역, 부위 또는 구성 요소와 구별하기 위하여만 사용된다. 따라서, 이하 상술할 제1 부재, 영역, 부위 또는 구성 요소는 본 발명의 기술적 사상의 가르침으로부터 벗어나지 않고서도 제2 부재, 영역, 부위 또는 구성 요소를 지칭할 수 있다. 예를 들면, 본 발명의 권리 범위로부터 이탈되지 않은 채 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.
달리 정의되지 않는 한, 여기에 사용되는 모든 용어들은 기술 용어와 과학 용어를 포함하여 본 발명의 개념이 속하는 기술 분야에서 통상의 지식을 가진 자가 공통적으로 이해하고 있는 바와 동일한 의미를 지닌다. 또한, 통상적으로 사용되는, 사전에 정의된 바와 같은 용어들은 관련되는 기술의 맥락에서 이들이 의미하는 바와 일관되는 의미를 갖는 것으로 해석되어야 하며, 여기에 명시적으로 정의하지 않는 한 과도하게 형식적인 의미로 해석되어서는 아니 될 것이다.
여기에서 사용된 '및/또는' 용어는 언급된 부재들의 각각 및 하나 이상의 모든 조합을 포함한다.
이하에서는 첨부한 도면들을 참조하여 본 발명의 기술적 사상에 의한 실시예들에 대해 상세히 설명한다.
실시 예에 따라, 본 발명이 기술적 사상에 의한 일 실시 예에 따른 스테레오 정합을 위한 영상처리 방법은 뉴럴 네트워크(Neural Network)를 활용하여 수행될 수 있다.
실시 예에 따라 본 발명의 스테레오 정합을 위한 영상처리 방법에서 사용되는 뉴럴 네트워크는 CNN (Convolution Neural Network)일 수 있다.
실시 예에 따라 CNN은, ResNet, DenseNet, VGGNet, GoogleNet, AlexNet, R-CNN, 및 Fast R-CNN, Faster R-CNN 중 어느 하나일 수 있다.
다른 실시 예에 따라, 뉴럴 네트워크는, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network), 또는 MLP(Multilayer Perceptron)와 같은 방식의 네트워크 모델들을 중 어느 하나일 수 있고, 이에 한정되지 않는다.
도 1은 본 발명의 기술적 사상에 의한 일 실시 예에 따른 스테레오 정합을 위한 영상처리장치의 블록도다.
도 1을 참조하면, 본 발명의 실시 예에 따른 영상처리장치(100)는 복수의 스테레오 영상들을 입력받고, 입력된 스테레오 영상들에 기초하여 스테레오 영상들 간의 시차 범위를 예측하고, 예측된 시차 범위를 손실함수(loss function)를 통하여 학습시킬 수 있다.
실시 예에 따라, 영상처리장치(100)는 스테레오 정합을 위한 영상처리를 수행하기 위한 다양한 형태의 컴퓨팅 장치로 구현될 수 있으며, 프로세서(processor) 및 상기 프로세서와 결합된 매체(예컨대, 메모리(memory))를 포함할 수 있다. 상기 매체에는 본 발명의 실시 예에 따른 스테레오 정합을 위한 영상처리 방법을 수행하기 위한 프로그램이 저장될 수 있다.
영상처리장치(100)는 특징맵 추출기(110), 특징맵 결합기(120), 누적 집중알고리즘 처리기(125), 최대시차값 생성기(170), 최대시차값 손실함수 생성기(180), 및 집중맵 손실함수 생성기(190)를 포함할 수 있다.
특징맵 추출기(110)는 입력되는 복수의 스테레오 영상들 각각에 대한 특징맵(feature map)을 추출할 수 있다.
특징맵은 일정한 크기의 필터가 특징맵 추출기(110)에서 입력되는 복수의 스테레오 영상들을 지정된 간격으로 순회하며 컨볼루션 연산을 수행하여 생성되는 "특징(feature)"에 관한 정보를 포함하는 출력 데이터일 수 있다. 실시 예에 따라, “특징"은 모양, 히스토그램, 색, 스펙트럼, 또는 질감 등을 포함할 수 있으며 구체적으로는 영역, 영역 중심, 오일러 수, 객체 둘레의 길이, 평균, 표준 편차, 왜도, 에너지, RGB, HIS, 박스, 링, 섹터, 부드러움, 조도, 거칠기, 규칙적인 패턴, 점, 선, 에지, 또는 코너 등을 포함할 수 있다.
특징맵 결합기(120)는 특징맵 추출기(110)에 의해 생성된 특징맵들을 하나의 특징맵으로 결합하여 결합특징맵을 생성할 수 있다. 실시 예에 따라, 상기 결합은 연접(concatenation) 연산으로 수행될 수 있다. 특징맵 결합기(120)는 복수의 특징맵들을 채널 차원으로 결합하여 1개의 특징맵으로 생성할 수 있다. 특징맵들은 적어도 하나 이상의 채널로 구성될 수 있다. 상기 연접 연산은 복수의 특징맵들의 채널들 각각 에 대하여 수행될 수 있다.
누적 집중알고리즘 처리기(125)는 특징맵 결합기(120)에 의해 생성된 결합 특징맵에 집중(attention) 알고리즘을 누적적으로 적용하여 복수의 출력 특징맵들과 복수의 채널공간집중맵들을 생성할 수 있다.
실시 예에 따라, 집중 알고리즘은 RAN(Residual Attention Network), SAE(Squeeze-and-Excitation), NNN(Non-local Neural Network) 등 일반적인 네트워크 구성요소로서의 집중 알고리즘을 포함하는 의미를 가질 수 있다.
실시 예에 따라, 누적 집중알고리즘 처리기(125)는 결합특징맵에 집중 알고리즘을 원소별 곱(element-wise) 연산을 수행하여 복수의 특징맵들과 복수의 집중맵(attention map)들을 생성할 수 있다. 실시 예에 따라 상기 집중 알고리즘은 채널 집중 알고리즘 및 공간 집중 알고리즘을 포함할 수 있다. 채널 집중 알고리즘은, 입력 데이터인 특징맵이 포함하는 각각의 채널별(channel-wise)로 집중 알고리즘을 연산하는 알고리즘일 수 있다. 공간 집중 알고리즘은, 입력 데이터인 특징맵이 포함하는 각각의 공간별(spatial-wise)로 집중 알고리즘을 연산하는 알고리즘일 수 있다.
누적 집중알고리즘 처리기(125)는 채널집중맵 생성기(130), 공간집중맵 생성기(140), 컨볼루션 특징맵 생성기(150), 및 출력특징맵 생성기(160)를 포함할 수 있다.
채널집중맵 생성기(130)는 특징맵 결합기(120)에서 생성된 결합특징맵에 채널 집중 알고리즘을 누적적으로 적용하여 채널집중맵(channel attention map)을 생성할 수 있다.
채널집중맵은 채널집중맵 생성기(130)에서 결합특징맵을 입력 데이터로 받아, 결합특징맵이 포함하는 각각의 채널별로 채널 집중 알고리즘과 컨볼루션 연산을 수행하여 생성된 집중맵일 수 있다.
공간집중맵 생성기(140)는 특징맵 결합기(120)에서 생성된 결합특징맵에 공간 집중 알고리즘을 누적적으로 적용하여 공간집중맵(spatial attention map)을 생성할 수 있다.
공간집중맵은 공간집중맵 생성기(140)에서 결합특징맵을 입력 데이터로 받아, 결합특징맵이 포함하는 각각의 공간별로 공간 집중 알고리즘과 컨볼루션 연산을 수행하여 생성된 집중맵일 수 있다.
컨볼루션 특징맵 생성기(150)는 특징맵 결합기(120)에서 생성된 결합특징맵에 CNN을 누적적으로 적용하여 컨볼루션 특징맵(convolution feature map)을 생성할 수 있다.
컨볼루션 특징맵은, 컨볼루션 특징맵 생성기(150)에서 결합특징맵을 입력 데이터로 받아, CNN을 수행하여 출력된 특징맵일 수 있다. 실시 예에 따라, 상기 CNN은 ResNet, DenseNet, VGGNet, GoogleNet, AlexNet, R-CNN, Fast R-CNN, Faster R-CNN 중 어느 하나일 수 있다.
출력특징맵 생성기(160)는 누적 집중알고리즘 처리기(125)에서 생성된 채널공간집중맵(channel-spatial attention map)과 컨볼루션 특징맵을 결합하여 출력특징맵을 생성할 수 있다. 실시 예에 따라, 상기 결합은 연접(concatenation) 연산으로 수행될 수 있다. 출력특징맵 생성기(160)는 복수의 채널공간집중맵들과 평균 채널공간집중맵을 생성할 수 있다.
복수의 채널공간집중맵들은 채널집중맵 생성기(130)에서 생성된 복수의 채널집중맵들 각각과 공간집중맵 생성기(140)에서 생성된 복수의 공간집중맵들을 각각을 결합하여 생성된 집중맵들일 수 있다. 상기 결합은 연접(concatenation) 연산으로 수행될 수 있다.
평균 채널공간집중맵은 출력특징맵 생성기(160)에서 생성된 복수의 채널공간집중맵들의 평균값에 기초하여 생성될 수 있다.
최대시차값 생성기(170)는 복수의 출력특징맵들 각각에 대하여 회귀 알고리즘을 적용하여 복수의 최대시차값들과 복수의 최대시차값들에 대한 평균 최대시차값을 생성할 수 있다. 실시 예에 따라, 회귀 알고리즘은 선형 모델 또는 비선형 모델일 수 있다. 예컨대, 선형 모델은 GAM(Generalized Addictive Model), GLM(Generalized Linear Model), ARMAM(Auto-Regressive Moving Average Model), ARCHM((Auto-Regressive Conditionally Heteroscedastic Model), Robust regression, Quantile regression, Ridge, Lasso, Elastic net regression, PCR(Principal Component Regression), PLS(Principal Least Regression), Survival regression 등 중 어느 하나일 수 있다.
복수의 최대시차값들 각각은 최대시차값 생성기(170)가 입력 데이터로 출력특징맵을 입력 받아 회귀 알고리즘을 적용하여 입력된 복수의 출력특징맵들 각각의 최대시차값들일 수 있다. 상기 최대시차값은 출력특징맵의 시차값들 중 최대값일 수 있다.
평균 최대시차값은 최대시차값 생성기(170)에서 생성된 복수의 최대시차값들의 평균값일 수 있다.
최대시차값 손실함수 생성기(180)는 특징맵 추출기(110)에서 입력되는 입력 데이터에서 추출한 실제 최대시차값인 참값 최대시차값과 최대시차값 생성기(170)에서 생성된 평균 최대시차값의 비교 결과에 따라 최대시차값 손실함수를 학습시킬 수 있다.
참값 최대시차값은 기준시차맵(ground-truth disparity map)의 각각의 픽셀에 대하여 추출된 시차값들 중 최대값일 수 있다.
기준시차맵은 특징맵 추출기(110)에서 입력되는 입력 데이터에 기초하여 생성될 수 있다.
집중맵 손실함수 생성기(190)는 참값 집중맵을 생성하고, 생성된 참값 집중맵과 출력특징맵 생성기(160)에서 생성된 평균 채널공간집중맵에 기초하여 집중맵 손실함수를 학습시킬 수 있다.
참값 집중맵은 최대시차값 손실함수 생성기(180)에서 생성된 기준시차맵에 포함된 픽셀들 중에서 참값 최대시차값을 갖는 픽셀과 인접한 픽셀을 포함하여 생성된 집중맵일 수 있다.
도 2는 본 발명의 기술적 사상에 의한 일 실시 예에 따른 스테레오 정합을 위한 영상처리 방법을 수행하는 단계를 나타내는 도면이다.
도 1과 도 2를 참조하면, 실시 예에 따라, 특징맵 추출기(110)의 출력 데이터는 입력된 복수의 스테레오 영상들인 제1이미지(IMG1) 및 제2이미지(IMG2)를 필터와 컨볼루션 연산하여 생성한 특징맵들(fIMG1, fIMG2)일 수 있다. 특징맵 추출기(110)는 입력된 제1이미지(IMG1)를 필터와 컨볼루션 연산하여 제1이미지 특징맵(fIMG1)을 추출할 수 있다(S211). 또한 특징맵 추출기(110)는 입력된 제2이미지(IMG2)를 필터와 컨볼루션 연산하여 제2이미지 특징맵(fIMG2)을 추출할 수 있다(S212).
실시 예에 따라, 입력데이터인 제1이미지(IMG1), 제2이미지(IMG2)에는 한 개 이상의 필터가 적용될 수 있다. 1개의 필터는 이미지 특징맵들(fIMG1, fIMG2) 각각의 채널이 될 수 있다. 즉, n개의 필터가 적용된다면 출력 데이터는 n개의 채널을 가질 수 있다.
특징맵 결합기(120)는 특징맵 추출기(110)에서 생성된 제1이미지 특징맵(fIMG1)과 제2이미지 특징맵(fIMG2)을 결합하여 결합특징맵(f0)을 생성할 수 있다(S220). 실시 예에 따라, 특징맵 결합기(120)는 생성된 제1이미지 특징맵(fIMG1)과 제2이미지 특징맵(fIMG2)을 채널 차원으로 결합하여 1개의 결합특징맵(f0)으로 생성할 수 있다.
누적 집중알고리즘 처리기(125)는 특징맵 결합기(120)에서 생성된 결합특징맵(f0)에 집중 알고리즘을 누적적으로 적용하여 복수의 출력특징맵들(f1, f2, ..., fn-1, fn)과 복수의 채널공간집중맵(A1, A2 A3, ..., A(n-1), An)들을 생성할 수 있다(S230).
누적 집중알고리즘 처리기(125)는 특징맵 결합기(120)에서 생성된 결합특징맵(f0)에 집중 알고리즘을 적용하여 제1출력특징맵(f1)을 생성할 수 있다(S230-1). 출력특징맵 생성기(160)는 제(n-1)출력특징맵(fn-1)에 집중 알고리즘을 적용하여 제n출력특징맵을 생성하는 동작을 누적적으로 수행할 수 있다(S230-2 ~ S230-n).
누적 집중알고리즘 처리기(125)에 대한 설명은 도 3을 참조하여 자세히 서술한다.
최대시차값 생성기(170)는 복수의 출력특징맵들(f1, f2, ..., fn -1, fn)을 각각에 대하여 회귀 알고리즘을 적용하여 복수의 최대시차값들(D1, D2, Dn-1, Dn)을 생성할 수 있다(S241).
실시 예에 따라, 최대 시차값 생성기(170)는 제1출력특징맵(f1)에 회귀알고리즘을 적용하여 제1최대시차값(D1)을 생성할 수 있다(S241-1). 최대시차값 생성기(170)는 제2출력특징맵(f2)에 회귀알고리즘을 적용하여 제2최대시차값(D2)을 생성할 수 있고, 제n출력특징맵(fn)에 회귀알고리즘을 적용하여 제n최대시차값(Dn)을 생성할 수 있다(S241-n). 최대시차값 생성기(170)는 복수의 출력특징맵들(f1, f2, ..., fn -1, fn)을 각각에 대하여 회귀알고리즘을 적용하여 복수의 최대시차값들(D1, D2, ..., Dn-1, Dn) 각각을 생성할 수 있다.
최대시차값 생성기(170)는 생성된 복수의 최대시차값들(D1, D2, ..., Dn -1, Dn)에 대한 평균 최대시차값(D)을 생성할 수 있다(S242). 실시 예에 따라, 평균 최대시차값(D)은 복수의 최대시차값들(D1, D2, ..., Dn -1, Dn)의 평균값에 기초하여 생성될 수 있다. 평균 최대시차값(D)을 연산하는 수식은 수학식1과 같이 나타낼 수 있다.
Figure 112019048129659-pat00001
출력특징맵 생성기(160)는 실시 예에 따라 생성된 복수의 채널공간집중맵들(Acs1, Acs2 Acs3, ..., Acs(n-1), Acsn)에 대한 평균 채널공간집중맵(A)을 생성할 수 있다(S250).
실시 예에 따라, 평균 채널공간집중맵(A)은 복수의 채널공간집중맵들(Acs1, Acs2 Acs3, ..., Acs(n-1), Acsn)의 평균값에 기초하여 생성될 수 있다. 평균 채널공간집중맵(A)을 연산하는 수식은 수학식2와 같이 나타낼 수 있다.
Figure 112019048129659-pat00002
최대시차값 손실함수 생성기(180)는 생성된 평균 최대시차값(D)과 참값 최대시차값(D′)에 기초하여 최대시차값 손실함수(Loss(D′, D))를 생성할 수 있다(S270).
최대시차값 손실함수 생성기(180)는 제1이미지(IMG1) 또는 제2이미지(IMG2)에 기초하여 기준시차맵(GTM)을 생성할 수 있다(S260).
실시 예에 따라 기준시차맵(GTM)은 최대시차값 손실함수 생성기(180)에서 생성되지 않고 미리 설정된 정보일 수 있다.
참값 최대시차값(D′)은 생성된 기준시차맵(GTM)에 기초하여 생성될 수 있다(S262).
실시 예에 따라, 참값 최대시차값(D′)은 기준시차맵(GTM)의 각각의 픽셀에 있어서의 추출된 시차값 중 최대값 일 수 있다.
최대시차값 손실함수 생성기(180)는 생성된 평균 최대시차값(D)과 참값 최대시차값(D′)의 비교 결과에 기초하여 최대시차값 손실함수(Loss(D′, D))를 생성할 수 있다. 최대시차값 손실함수(Loss(D′, D))는 평균 최대시차값(D)과 참값 최대시차값(D′)의 차이값을 나타내는 함수일 수 있다.
실시 예에 따라 생성된 최대시차값 손실함수(Loss(D′, D))는 제1이미지(IMG1)와 제2이미지(IMG2) 이후에 획득된 스테레오 이미지들의 정합에 사용될 수 있다.
집중맵 손실함수 생성기(190)는 생성된 평균 채널공간집중맵(A)과 참값 집중맵(A′)에 기초하여 집중맵 손실함수(Loss(A′, A))를 생성할 수 있다(S280).
집중맵 손실함수 생성기(190)는 기준시차맵(GTM)에 포함된 픽셀들 중에서 참값 최대시차값(D′)을 갖는 픽셀과 인접한 픽셀을 포함하여 참값 집중맵(A′)을 생성할 수 있다(S261).
집중맵 손실함수 생성기(190)는 생성된 평균 채널공간집중맵(A)과 참값 집중맵(A′)을 비교하고 비교한 결과에 기초하여 집중맵 손실함수(Loss(A′, A))를 학습시킬 수 있다.
실시 예에 따라, 본 발명의 스테레오 정합을 위한 영상처리 방법은, 평균 채널공간집중맵(A)과 참값 집중맵의 비교결과에 따라 집중맵 손실함수를 학습시킬 수 있다.
도 3은 본 발명이 기술적 사상에 의한 일 실시 예에 따른 영상처리방법에서 출력특징맵을 생성하는 단계를 도시한 도면이다.
도 3을 참조하면, 채널집중맵 생성기(130)는 특징맵 결합기(120)에서 생성된 결합특징맵(f0)에 채널 집중 알고리즘을 누적적으로 적용하여 복수의 채널집중맵들(Ac1, Ac2, Ac3, ..., Ac(n-1), Acn)을 생성할 수 있다(S331).
실시 예에 따라, 채널집중맵 생성기(130)는 제1출력특징맵(f1)을 채널 집중 알고리즘을 적용하여 제2채널집중맵(Ac2)을 생성할 수 있다. 채널집중맵 생성기(130)는 제2출력특징맵(f2)을 채널 집중 알고리즘을 적용하여 제3채널집중맵(Ac3)을 생성할 수 있고, 제n-1출력특징맵(fn-1)을 채널 집중 알고리즘을 적용하여 제n채널집중맵(Acn)을 생성할 수 있다(이때 n은 2이상의 자연수이다). 채널집중맵 생성기(130)는 이와 같은 단계를 누적적으로 적용하여 복수의 채널집중맵들(Ac1, Ac2, Ac3, ..., Ac(n-1), Acn)을 생성할 수 있다.
공간집중 생성기(140)는 특징맵 결합기(120)에서 생성된 결합특징맵(f0)에 공간 집중 알고리즘을 누적적으로 적용하여 복수의 공간집중맵들(As1, As2, As3, ..., As(n-1), Asn)을 생성할 수 있다(S332).
실시 예에 따라, 공간집중맵 생성기(140)는 제1출력특징맵(f1)을 공간 집중 알고리즘을 적용하여 제2공간집중맵(As2)을 생성할 수 있다. 공간집중맵 생성기(140)는 제2공간특징맵을 공간 집중 알고리즘을 적용하여 제3공간집중맵(As3)을 생성할 수 있고, 제(n-1)출력특징맵(fn-1)을 공간 집중 알고리즘을 적용하여 제n공간집중맵(Asn)을 생성할 수 있다. 공간집중맵 생성기(140)는 이와 같은 단계를 누적적으로 적용하여 복수의 공간집중맵들(As1, As2, As3, ..., As(n-1), Asn)을 생성할 수 있다.
출력특징맵 생성기(160)는 복수의 채널집중맵들(Ac1, Ac2, Ac3, .., Ac(n-1), Acn) 중에서 제n채널집중맵(Acn)과 복수의 공간집중맵들(As1, As2, As3, .., As(n-1), Asn) 중에서 제n공간집중맵(Asn)을 결합하여 제n채널공간집중맵(Acsn)을 생성할 수 있다(S333).
실시 예에 따라, 출력특징맵 생성기(160)는 생성된 제2채널집중맵(Ac2)과 제2공간집중맵(As2)을 결합하여 제2채널공간집중맵(Acs2)을 생성할 수 있다. 출력특징맵 생성기(160)는 생성된 제3채널집중맵(Ac3)과 제3공간집중맵(As3)을 결합하여 제3채널공간집중맵(Acs3)을 생성할 수 있고, 제(n-1)채널집중맵(Ac(n-1))과 제(n-1)공간집중맵(As(n-1)을 결합하여 제n채널공간집중맵(Acsn)을 생성할 수 있다. 출력특징맵 생성기(160)는 이와 같은 단계를 누적적으로 적용하여 복수의 채널공간집중맵들(Acs1, Acs2 Acs3, ..., Acs(n-1), Acsn)을 생성할 수 있다.
컨볼루션 특징맵 생성기(150)는 생성된 결합특징맵(f0)에 CNN을 누적적으로 적용하여 복수의 컨볼루션 특징맵들(fc1, fc2, ..., fc (n-1), fcn)을 생성할 수 있다(S334).
실시 예에 따라, 컨볼루션 특징맵 생성기(150)는 제1출력특징맵(f1)에 CNN을 적용하여 제2컨볼루션 특징맵을 생성할 수 있다. 컨볼루션 특징맵 생성기(150)는 생성된 제2출력특징맵(f2)에 CNN을 적용하여 제3컨볼루션 특징맵을 생성할 수 있고, 제(n-1)출력특징맵(fn-1)에 CNN을 적용하여 제n컨볼루션 특징맵을 생성할 수 있다. 컨볼루션 특징맵 생성기(150)는 이와 같은 단계를 누적적으로 적용하여 복수의 컨볼루션 특징맵들(fc1, fc2, ..., fc(n-1), fcn)을 생성할 수 있다.
출력특징맵 생성기(160)는 생성된 복수의 채널공간집중맵들(A1, A2 A3, ..., A(n-1), An)과 컨볼루션 특징맵 생성기(150)에서 생성된 복수의 컨볼루션 특징맵들(fc1, fc2, ..., fc(n-1), fcn)을 각각 결합하여 복수의 출력특징맵들(f1, f2, ..., fn -1, fn)을 생성할 수 있다(S335).
실시 예에 따라, 출력특징맵 생성기(160)는 제1채널공간집중맵(Acs1)과 제1컨볼루션특징맵(fc1)을 결합하여 제2출력특징맵(f2)을 생성할 수 있다. 출력특징맵 생성기(160)는 제2채널공간집중맵(Acs2)과 제2컨볼루션특징맵(fc2)을 결합하여 제3출력특징맵(f3)을 생성할 수 있고, 제(n-1)채널공간집중맵(Acs(n-1))과 제(n-1)컨볼루션특징맵(fc(n-1))을 결합하여 제n출력특징맵(fn)을 생성할 수 있다. 출력특징맵 생성기(160)는 이와 같은 단계를 누적적으로 적용하여 복수의 출력특징맵들(f1, f2, ..., fn -1, fn)을 생성할 수 있다.
실시 예에 따라, 스테레오 정합을 위한 영상처리 방법은, 프로세서(processor)와 결합되어 스테레오 정합을 위한 영상처리 방법을 수행하기 위한 매체에 저장된 프로그램으로 구현될 수 있다.
이상, 본 발명의 기술적 사상을 바람직한 실시 예를 들어 상세하게 설명하였으나, 본 발명의 기술적 사상은 상기 실시 예에 한정되지 않고, 본 발명의 기술적 사상의 범위 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러가지 변형 및 변경이 가능하다.
100: 영상처리장치
110: 특징맵 추출기
120: 특징맵 결합기
125: 누적 집중알고리즘 처리기
130: 채널집중맵 생성기
140: 공간집중맵 생성기
150: 컨볼루션 특징맵 생성기
160: 출력특징맵 생성기
170: 최대시차값 생성기
180: 최대시차값 손실함수 생성기
190: 집중맵 손실함수 생성기

Claims (12)

  1. 제1이미지와 제2이미지 각각으로부터 제1이미지 특징맵과 제2이미지 특징맵 각각을 추출하는 단계;
    상기 제1이미지 특징맵과 상기 제2이미지 특징맵을 결합하여 결합특징맵을 생성하는 단계;
    생성된 상기 결합특징맵에 집중 알고리즘을 누적적으로 적용하여 복수의 출력 특징맵들과 복수의 채널공간집중맵들을 생성하는 단계;
    상기 복수의 출력 특징맵들 각각에 대하여 회귀 알고리즘을 적용하여 복수의 최대시차값들을 생성하는 단계;
    상기 복수의 최대시차값들의 평균값에 기초하여, 평균 최대시차값을 생성하는 단계;
    상기 복수의 채널공간집중맵들의 평균값에 기초하여, 평균 채널공간집중맵을 생성하는 단계;
    상기 평균 최대시차값과 참값 최대시차값의 비교결과에 따라 최대시차값 손실함수(loss function)를 학습시키는 단계; 및
    상기 평균 채널공간집중맵과 참값 집중맵의 비교결과에 따라 집중맵 손실함수를 학습시키는 단계를 포함하는, 스테레오 정합을 위한 영상처리 방법.
  2. 제1항에 있어서,
    집중 알고리즘은,
    채널 집중 알고리즘 및 공간 집중 알고리즘을 포함하는, 스테레오 정합을 위한 영상처리 방법.
  3. 제2항에 있어서,
    상기 결합특징맵에 집중 알고리즘을 누적적으로 적용하여 복수의 출력 특징맵들과 복수의 채널공간집중맵들을 생성하는 단계는,
    상기 복수의 출력특징맵들 중에서 제(n-1)출력특징맵(상기 n은 2이상의 자연수)에 상기 채널집중 알고리즘을 적용하여 제n채널집중맵을 생성하는 단계;
    상기 제(n-1)출력특징맵에 상기 공간집중 알고리즘을 적용하여 제n공간집중맵을 생성하는 단계;
    상기 제n채널집중맵과 상기 제n공간집중맵을 결합하여 상기 복수의 채널공간집중맵들 중에서 제n채널공간집중맵을 생성하는 단계;
    를 포함하는, 스테레오 정합을 위한 영상처리 방법.
  4. 제3항에 있어서,
    상기 결합특징맵에 집중 알고리즘을 누적적으로 적용하여 복수의 출력 특징맵들과 복수의 채널공간집중맵들을 생성하는 단계는,
    상기 제(n-1)출력특징맵에 CNN(Convolution Neural Network)을 적용하여 제n컨볼루션특징맵을 생성하는 단계;
    를 포함하는, 스테레오 정합을 위한 영상처리 방법.
  5. 제4항에 있어서,
    상기 결합특징맵에 집중 알고리즘을 누적적으로 적용하여 복수의 출력 특징맵들과 복수의 채널공간집중맵들을 생성하는 단계는,
    상기 제n채널공간집중맵과 상기 제n컨볼루션특징맵을 결합하여 상기 복수의 출력특징맵들 중에서 제n출력특징맵을 생성하는 단계;
    를 포함하는, 스테레오 정합을 위한 영상처리 방법.
  6. 제3항에 있어서,
    상기 결합특징맵에 집중 알고리즘을 누적적으로 적용하여 복수의 출력 특징맵들과 복수의 채널공간집중맵들을 생성하는 단계는,
    상기 결합특징맵에 채널집중 알고리즘을 적용하여 상기 복수의 채널집중맵들 중에서 제1채널집중맵을 생성하는 단계;
    상기 결합특징맵에 공간집중 알고리즘을 적용하여 상기 복수의 공간집중맵들 중에서 제1공간집중맵을 생성하는 단계;
    상기 제1채널집중맵과 상기 제1공간집중맵을 결합하여 상기 복수의 채널공간집중맵들 중에서 제1채널공간집중맵을 생성하는 단계;
    를 포함하는, 스테레오 정합을 위한 영상처리 방법.
  7. 제6항에 있어서,
    상기 결합특징맵에 집중 알고리즘을 누적적으로 적용하여 복수의 출력 특징맵들과 복수의 채널공간집중맵들을 생성하는 단계는,
    상기 결합특징맵에 CNN(Convolution Neural Network)을 적용하여 상기 복수의 컨볼루션특징맵들 중에서 제1컨볼루션특징맵을 생성하는 단계를 포함하는, 스테레오 정합을 위한 영상처리 방법.
  8. 제7항에 있어서,
    상기 결합특징맵에 집중 알고리즘을 누적적으로 적용하여 복수의 출력 특징맵들과 복수의 채널공간집중맵들을 생성하는 단계는,
    상기 제1채널공간집중맵과 상기 제1컨볼루션특징맵을 결합하여 상기 복수의 출력특징맵들 중에서 제1출력특징맵을 생성하는 단계를 포함하는, 스테레오 정합을 위한 영상처리 방법.
  9. 제1항에 있어서,
    상기 영상처리 방법은,
    상기 제1이미지와 상기 제2이미지에 기초하여 기준시차맵을 생성하는 단계를 포함하는, 스테레오 정합을 위한 영상처리 방법.
  10. 제9항에 있어서,
    상기 최대시차값 손실함수를 학습시키는 단계는,
    상기 기준시차맵에 기초하여 상기 참값 최대시차값을 생성하는 단계를 포함하는, 스테레오 정합을 위한 영상처리 방법.
  11. 제9항에 있어서,
    상기 집중맵 손실함수를 학습시키는 단계는,
    상기 기준시차맵에 포함된 픽셀들 중에서 상기 참값 최대시차값을 갖는 픽셀과 인접한 픽셀을 포함하여 상기 참값 집중맵을 생성하는 단계를 포함하는, 영상처리 방법.
  12. 프로세서(processor)와 결합되어 스테레오 정합을 위한 영상처리 방법을 수행하기 위한 매체에 저장된 프로그램으로서,
    제1이미지와 제2이미지 각각으로부터 제1이미지 특징맵과 제2이미지 특징맵 각각을 추출하는 단계;
    상기 제1이미지 특징맵과 상기 제2이미지 특징맵을 결합하여 결합특징맵을 생성하는 단계;
    생성된 상기 결합특징맵에 집중 알고리즘을 누적적으로 적용하여 복수의 출력 특징맵들과 복수의 채널공간집중맵들을 생성하는 단계;
    상기 복수의 출력 특징맵들 각각에 대하여 회귀 알고리즘을 적용하여 복수의 최대시차값들을 생성하는 단계;
    상기 복수의 최대시차값들의 평균값에 기초하여, 평균 최대시차값을 생성하는 단계;
    상기 복수의 채널공간집중맵들의 평균값에 기초하여, 평균 채널공간집중맵을 생성하는 단계;
    상기 평균 최대시차값과 참값 최대시차값의 비교결과에 따라 최대시차값 손실함수를 학습시키는 단계; 및
    상기 평균 채널공간집중맵과 참값 집중맵의 비교결과에 따라 집중맵 손실함수를 학습시키는 단계를 수행하는, 프로그램
KR1020190055238A 2018-12-20 2019-05-10 스테레오 정합을 위한 영상처리 방법 및 이를 이용하는 프로그램 KR102013649B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180166115 2018-12-20
KR20180166115 2018-12-20

Publications (1)

Publication Number Publication Date
KR102013649B1 true KR102013649B1 (ko) 2019-08-23

Family

ID=67763892

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190055238A KR102013649B1 (ko) 2018-12-20 2019-05-10 스테레오 정합을 위한 영상처리 방법 및 이를 이용하는 프로그램

Country Status (1)

Country Link
KR (1) KR102013649B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340077A (zh) * 2020-02-18 2020-06-26 平安科技(深圳)有限公司 基于注意力机制的视差图获取方法和装置
CN111783951A (zh) * 2020-06-29 2020-10-16 北京百度网讯科技有限公司 基于超网络的模型获取方法、装置、设备及存储介质
KR102278756B1 (ko) * 2020-03-11 2021-07-16 연세대학교 산학협력단 일관성을 고려한 스테레오 영상의 업스케일 장치 및 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150121179A (ko) * 2013-02-23 2015-10-28 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 실시간 스테레오 정합
KR20180087994A (ko) * 2017-01-26 2018-08-03 삼성전자주식회사 스테레오 매칭 방법 및 영상 처리 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150121179A (ko) * 2013-02-23 2015-10-28 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 실시간 스테레오 정합
KR20180087994A (ko) * 2017-01-26 2018-08-03 삼성전자주식회사 스테레오 매칭 방법 및 영상 처리 장치

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Chang, Jia-Ren, and Yong-Sheng Chen. Pyramid stereo matching network. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.6. *
Zbontar, Jure, and Yann LeCun. Stereo Matching by Training a Convolutional Neural Network to Compare Image Patches. Journal of Machine Learning Research 17.1-32. 2016. *
Zhong, Yiran, Hongdong Li, and Yuchao Dai. Open-world stereo video matching with deep rnn. Proceedings of the European Conference on Computer Vision (ECCV). 2018.9. *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340077A (zh) * 2020-02-18 2020-06-26 平安科技(深圳)有限公司 基于注意力机制的视差图获取方法和装置
CN111340077B (zh) * 2020-02-18 2024-04-12 平安科技(深圳)有限公司 基于注意力机制的视差图获取方法和装置
KR102278756B1 (ko) * 2020-03-11 2021-07-16 연세대학교 산학협력단 일관성을 고려한 스테레오 영상의 업스케일 장치 및 방법
CN111783951A (zh) * 2020-06-29 2020-10-16 北京百度网讯科技有限公司 基于超网络的模型获取方法、装置、设备及存储介质
CN111783951B (zh) * 2020-06-29 2024-02-20 北京百度网讯科技有限公司 基于超网络的模型获取方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109410242B (zh) 基于双流卷积神经网络的目标跟踪方法、系统、设备及介质
CN111192292B (zh) 基于注意力机制与孪生网络的目标跟踪方法及相关设备
WO2021093468A1 (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
CN108985259B (zh) 人体动作识别方法和装置
CN109271933B (zh) 基于视频流进行三维人体姿态估计的方法
US9418458B2 (en) Graph image representation from convolutional neural networks
CN110059598B (zh) 基于姿态关节点的长时程快慢网络融合的行为识别方法
KR102013649B1 (ko) 스테레오 정합을 위한 영상처리 방법 및 이를 이용하는 프로그램
US20150248765A1 (en) Depth sensing using an rgb camera
JP7286013B2 (ja) ビデオコンテンツ認識方法、装置、プログラム及びコンピュータデバイス
CN110473137A (zh) 图像处理方法和装置
CN110176024B (zh) 在视频中对目标进行检测的方法、装置、设备和存储介质
CN110807757B (zh) 基于人工智能的图像质量评估方法、装置及计算机设备
CN106599863A (zh) 一种基于迁移学习技术的深度人脸识别方法
CN111695421B (zh) 图像识别方法、装置及电子设备
JP2015197702A (ja) 情報処理装置、情報処理方法
WO2021184754A1 (zh) 视频对比方法、装置、计算机设备和存储介质
CN115018039A (zh) 一种神经网络蒸馏方法、目标检测方法以及装置
Ahmadi et al. Efficient and fast objects detection technique for intelligent video surveillance using transfer learning and fine-tuning
Zhenhua et al. FTCF: Full temporal cross fusion network for violence detection in videos
CN114519863A (zh) 人体重识别方法、人体重识别装置、计算机设备及介质
Weilharter et al. Atlas-mvsnet: Attention layers for feature extraction and cost volume regularization in multi-view stereo
CN116189281B (zh) 基于时空自适应融合的端到端人体行为分类方法及系统
CN110163049B (zh) 一种人脸属性预测方法、装置及存储介质
Shamsi et al. Group affect prediction using emotion heatmaps and scene information

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant