KR102052564B1 - 라이트 필드 이미지의 깊이 추정 방법 및 장치 - Google Patents

라이트 필드 이미지의 깊이 추정 방법 및 장치 Download PDF

Info

Publication number
KR102052564B1
KR102052564B1 KR1020180028242A KR20180028242A KR102052564B1 KR 102052564 B1 KR102052564 B1 KR 102052564B1 KR 1020180028242 A KR1020180028242 A KR 1020180028242A KR 20180028242 A KR20180028242 A KR 20180028242A KR 102052564 B1 KR102052564 B1 KR 102052564B1
Authority
KR
South Korea
Prior art keywords
depth
image
pixel
cost functions
random forest
Prior art date
Application number
KR1020180028242A
Other languages
English (en)
Other versions
KR20190106570A (ko
Inventor
권인소
전해곤
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020180028242A priority Critical patent/KR102052564B1/ko
Publication of KR20190106570A publication Critical patent/KR20190106570A/ko
Application granted granted Critical
Publication of KR102052564B1 publication Critical patent/KR102052564B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/557Depth or shape recovery from multiple images from light fields, e.g. from plenoptic cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • G06T5/006
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

적어도 하나의 프로세서에 의해 동작하는 장치가 깊이 추정하는 방법으로서, 학습용 멀티뷰 이미지에서, 스테레오 매칭을 위한 복수의 비용 함수들 각각으로 임의 픽셀의 깊이 라벨을 계산하고, 계산한 깊이 라벨들을 포함하는 초기 비용 특징 벡터를 생성하는 단계, 상기 초기 비용 특징 벡터와 상기 임의 픽셀의 검증용 깊이 라벨(ground truth)로 구성된 픽셀별 학습 데이터를 기초로 제1 랜덤 포레스트 모델을 분류 학습시키는 단계, 분류 학습된 상기 제1 랜덤 포레스트 모델을 통해 상기 초기 비용 특징 벡터를 구성하는 상기 복수의 비용 함수들의 중요도를 계산하고, 중요도를 기초로 상기 복수의 비용 함수들 중에서 선택된 일정 수의 중요 비용 함수들을 이용하여 중요 비용 특징 벡터를 생성하는 단계, 그리고 상기 중요 비용 특징 벡터를 기초로 해당 임의 픽셀의 검증용 깊이 라벨을 예측하도록 제2 랜덤 포레스트 모델을 회귀 학습시키는 단계를 포함한다.

Description

라이트 필드 이미지의 깊이 추정 방법 및 장치{METHOD AND APPARATUS FOR ESTIMATING DEPTH FROM LIGHT FIELD IMAGE}
본 발명은 라이트 필드 이미지의 깊이 추정에 관한 것이다.
라이트 필드(Light Field) 카메라는 공간상에서 여러 방향에서 오는 빛을 수집하여 기록하고, 촬영 후 시점이나 초점 평면을 변경할 수 있다. 소형 라이트 필드 카메라로서 이미징 센서 앞에 마이크로렌즈 어레이를 배치한 렌즈릿(lenslet) 기반 카메라가 있다. 라이트 필드 카메라는 메인 렌즈에 의해 모아진 빛을 마이크로렌즈 어레이를 이용하여 방향에 따라 분리하여 기록한다. 이 디자인은 대량 생산이 가능하기 때문에 휴대용 라이트 필드 카메라에 이용되고, 대표적으로 Lytro, Lytroillum, Raytrix 등이 있다.
렌즈릿 라이트 필드 이미지는 좁은 베이스라인의 다수의 스테레오 이미지쌍과 같다. 따라서, 스테레오 매칭을 통한 깊이 추정 방법이 렌즈릿 라이트 필드 이미지에 적용될 수 있다. 스테레오 매칭은 스테레오 이미지쌍에서 추출한 두 패치 간의 유사도(비용)를 측정하는 방법으로서, 다양한 스테레오 매칭 기술이 존재한다.
마이크로렌즈 어레이로 인한 광학 한계로 인해, 촬영된 라이트 필드 이미지는 이미지 비네팅(vignetting), 색수차(chromatic aberrations), 그리고 센서 노이즈를 포함하는 불균일한 라이트 필드 저하 문제가 발생한다. 이러한 특성은 라이트 필드 이미지의 각도 및 공간 도메인에서 모두 다를 수 있다. 따라서, 전역(global) 비용 함수를 사용하는 종래의 스테레오 매칭 기술을 그대로 사용할 수 없고, 라이트 필드 이미지의 깊이 추정을 위한 새로운 스테레오 매칭 방법이 요구된다.
본 발명이 해결하고자 하는 과제는 실제 라이트 필드 카메라의 이미징 프로세스를 모사한 학습용 이미지셋을 생성하고, 학습용 이미지셋을 기초로 복수의 비용 함수들 중에서 중요 비용 함수들을 분류하도록 제1 랜덤 포레스트 모델을 분류 학습시키고, 중요 매칭 함수들로 깊이 라벨을 예측하도록 제2 랜덤 포레스트 모델을 회귀 학습시키는 장치 및 방법을 제공하는 것이다. 본 발명이 해결하고자 하는 과제는 학습된 랜덤 포레스트 모델을 이용해 복수의 비용 함수들로부터 라이트 필드 이미지의 가장 신뢰할만한 깊이값을 추출하는 방법 및 장치를 제공하는 것이다.
한 실시예에 따른 적어도 하나의 프로세서에 의해 동작하는 장치가 깊이 추정하는 방법으로서, 학습용 멀티뷰 이미지에서, 스테레오 매칭을 위한 복수의 비용 함수들 각각으로 임의 픽셀의 깊이 라벨을 계산하고, 계산한 깊이 라벨들을 포함하는 초기 비용 특징 벡터를 생성하는 단계, 상기 초기 비용 특징 벡터와 상기 임의 픽셀의 검증용 깊이 라벨(ground truth)로 구성된 픽셀별 학습 데이터를 기초로 제1 랜덤 포레스트 모델을 분류 학습시키는 단계, 분류 학습된 상기 제1 랜덤 포레스트 모델을 통해 상기 초기 비용 특징 벡터를 구성하는 상기 복수의 비용 함수들의 중요도를 계산하고, 중요도를 기초로 상기 복수의 비용 함수들 중에서 선택된 일정 수의 중요 비용 함수들을 이용하여 중요 비용 특징 벡터를 생성하는 단계, 그리고 상기 중요 비용 특징 벡터를 기초로 해당 임의 픽셀의 검증용 깊이 라벨을 예측하도록 제2 랜덤 포레스트 모델을 회귀 학습시키는 단계를 포함한다.
상기 깊이 추정 방법은 깊이 추정용 이미지를 입력받는 단계, 상기 중요 비용 함수들로 상기 깊이 추정용 이미지의 픽셀별 깊이 라벨들을 계산하여 픽셀별 중요 비용 특징 벡터를 생성하는 단계, 그리고 상기 픽셀별 중요 비용 특징 벡터를 상기 제2 랜덤 포레스트 모델에 입력하여 추정된 픽셀별 깊이값을 획득하는 단계를 더 포함할 수 있다.
상기 깊이 추정 방법은 상기 학습용 멀티뷰 이미지를 생성하는 단계를 더 포함할 수 있다. 상기 학습용 멀티뷰 이미지를 생성하는 단계는 라이트 필드 카메라로 촬영한 백색 평면 이미지로부터 비네팅 맵을 획득하는 단계, 그리고 가상 환경에서 만들어진(synthetic) 라이트 필드 이미지에 상기 비네팅 맵을 적용하여 비네팅 적용된 이미지를 생성하는 단계를 포함할 수 있다.
상기 학습용 멀티뷰 이미지를 생성하는 단계는 상기 비네팅 적용된 이미지를 구성하는 서브 어퍼처 이미지들 각각에서 같은 위치의 픽셀을 하나의 렌즈릿으로 수집하여 렌즈릿 이미지를 생성하는 단계, 상기 렌즈릿 이미지를 그레이 스케일 이미지로 변환하고, 상기 라이트 필드 카메라의 노이즈를 모사한 노이즈 맵을 적용한 후, 컬러 이미지로 복원하는 단계, 그리고 상기 컬러 이미지의 픽셀들을 서브 어퍼처 이미지들로 재배치하여 학습용 라이트 필드 이미지를 생성하는 단계를 더 포함할 수 있다.
상기 초기 비용 특징 벡터는 복수의 매칭 그룹들에서 상기 복수의 비용 함수들로 계산된 깊이 라벨들의 집합이고, 각 매칭 그룹은 기준 뷰(Reference view) 이미지로부터 같은 거리에 있는 타겟 뷰(Target view) 이미지들로 구성될 수 있다.
상기 복수의 비용 함수들은 SAD(Sum of Absolute Difference) 함수, ZNCC(Zero-mean Normalized Cross correlation) 함수, Census(Census Transform) 함수, 그리고 GRAD(Sum of Gradient Difference) 함수 중 적어도 두 함수의 결합 함수들을 포함할 수 있다.
다른 실시예에 따라 적어도 하나의 프로세서에 의해 동작하는 장치가 깊이 추정하는 방법으로서, 가상 환경에서 만들어진(synthetic) 라이트 필드 이미지들에 라이트 필드 카메라의 비네팅 맵 및 노이즈 맵을 적용하여 학습용 이미지셋을 생성하는 단계, 상기 학습용 이미지셋에 포함된 각 학습용 이미지의 임의 픽셀에 대해, 스테레오 매칭을 위한 복수의 비용 함수들 각각으로 해당 픽셀의 깊이 라벨들을 계산하는 단계, 임의 픽셀에 대해 계산한 깊이 라벨들과 해당 임의 픽셀의 검증용 깊이 라벨(ground truth)을 이용하여 랜덤 포레스트 분류 모델 및 랜덤 포레스트 회귀 모델을 단계적으로 학습시키는 단계, 상기 랜덤 포레스트 회귀 모델의 회귀 학습에 사용된 중요 비용 함수들을 기초로 깊이 추정용 이미지의 픽셀별 깊이 라벨들을 계산하는 단계, 그리고 상기 깊이 추정용 이미지의 픽셀별 깊이 라벨들을 상기 랜덤 포레스트 회귀 모델에 입력하여 추정된 픽셀별 깊이값을 획득하는 단계를 포함한다. 상기 랜덤 포레스트 회귀 모델은 중요 비용 함수들로부터 해당 임의 픽셀의 깊이 라벨을 예측하도록 학습되고, 상기 중요 비용 함수들은 상기 랜덤 포레스트 분류 모델의 분류 학습을 통해 획득한 중요도를 기초로 상기 복수의 비용 함수들 중에서 선택된다.
상기 학습시키는 단계는 상기 복수의 비용 함수들 각각으로 계산한 깊이 라벨들과 해당 임의 픽셀의 검증용 깊이 라벨로 상기 랜덤 포레스트 분류 모델을 학습시키는 단계, 상기 랜덤 포레스트 분류 모델의 분류에 영향을 미친 정도를 기초로 상기 복수의 비용 함수들의 중요도를 계산하고, 중요도를 기초로 상기 복수의 비용 함수들 중에서 상기 중요 비용 함수들을 선택하는 단계, 그리고 상기 중요 비용 함수들로 계산된 깊이 라벨들을 기초로 해당 임의 픽셀의 깊이 라벨을 예측하도록 상기 랜덤 포레스트 회귀 모델을 학습시키는 단계를 포함할 수 있다.
상기 학습용 이미지셋을 생성하는 단계는 각 가상 환경에서 만들어진 라이트 필드 이미지에, 상기 라이트 필드 카메라로 촬영한 백색 평면 이미지로부터 획득한 비네팅 맵을 적용하여 비네팅 적용된 이미지를 생성하는 단계, 상기 비네팅 적용된 이미지를 구성하는 서브 어퍼처 이미지들 각각에서 같은 위치의 픽셀을 하나의 렌즈릿으로 수집하여 렌즈릿 이미지를 생성하는 단계, 상기 렌즈릿 이미지를 그레이 스케일 이미지로 변환하고, 상기 라이트 필드 카메라의 노이즈를 모사한 노이즈 맵을 적용한 후, 컬러 이미지로 복원하는 단계, 그리고 상기 컬러 이미지의 픽셀들을 서브 어퍼처 이미지들로 재배치하여 학습용 라이트 필드 이미지를 생성하는 단계를 포함할 수 있다.
상기 해당 픽셀의 깊이 라벨들을 계산하는 단계는 복수의 매칭 그룹들에서 상기 복수의 비용 함수들로 계산된 깊이 라벨들의 집합이고, 각 매칭 그룹은 기준 뷰(Reference view) 이미지로부터 같은 거리에 있는 타겟 뷰(Target view) 이미지들로 구성될 수 있다.
또 다른 실시예에 따라 적어도 하나의 프로세서에 의해 동작하는 장치가 깊이 추정하는 방법으로서, 깊이 추정용 멀티뷰 이미지를 입력받는 단계, 복수의 중요 비용 함수들로 상기 깊이 추정용 멀티뷰 이미지의 픽셀별 깊이 라벨들을 계산하는 단계, 그리고 상기 픽셀별 깊이 라벨들을 학습된 랜덤 포레스트 회귀 모델에 입력하여 추정된 픽셀별 깊이값을 획득하는 단계를 포함한다. 상기 랜덤 포레스트 회귀 모델은 상기 복수의 중요 비용 함수들로 계산된 깊이 라벨들로부터 해당 픽셀의 깊이 라벨을 예측하도록 학습된 모델이다. 상기 복수의 중요 비용 함수들은 랜덤 포레스트 분류 모델의 분류 학습을 통해 획득한 중요도를 기초로 복수의 초기 비용 함수들 중에서 선택된 함수들이다.
상기 깊이 추정 방법은 학습용 멀티뷰 이미지에서, 스테레오 매칭을 위한 상기 복수의 초기 비용 함수들 각각으로 임의 픽셀의 깊이 라벨들을 계산하고, 임의 픽셀에 대해 계산한 깊이 라벨들과 해당 임의 픽셀의 검증용 깊이 라벨(ground truth)을 이용하여 상기 랜덤 포레스트 분류 모델 및 상기 랜덤 포레스트 회귀 모델을 단계적으로 학습시키는 단계를 더 포함할 수 있다.
상기 학습시키는 단계는 상기 복수의 초기 비용 함수들 각각으로 계산한 깊이 라벨들과 해당 임의 픽셀의 검증용 깊이 라벨로 상기 랜덤 포레스트 분류 모델을 학습시키는 단계, 상기 랜덤 포레스트 분류 모델의 분류에 영향을 미친 정도를 기초로 상기 복수의 초기 비용 함수들의 중요도를 계산하고, 중요도를 기초로 상기 복수의 초기 비용 함수들 중에서 상기 중요 비용 함수들을 선택하는 단계, 그리고 상기 중요 비용 함수들로 계산된 깊이 라벨들을 기초로 해당 임의 픽셀의 깊이 라벨을 예측하도록 상기 랜덤 포레스트 회귀 모델을 학습시키는 단계를 포함할 수 있다.
상기 학습용 멀티뷰 이미지는 가상 환경에서 만들어진(synthetic) 라이트 필드 이미지에 라이트 필드 카메라를 모사한 비네팅 맵과 노이즈 맵을 적용한 이미지일 수 있다.
상기 복수의 초기 비용 함수들은 SAD(Sum of Absolute Difference) 함수, ZNCC(Zero-mean Normalized Cross correlation) 함수, Census(Census Transform) 함수, 그리고 GRAD(Sum of Gradient Difference) 함수 중 적어도 두 함수의 결합 함수들을 포함할 수 있다.
본 발명의 실시예에 따르면 마이크로렌즈 어레이로 인해 야기되는 실제 라이트 필드 이미지의 비네팅 효과와 심각한 노이즈를 모사한 이미지셋을 생성하고, 이를 통해 랜덤 포레스트 학습시키므로, 실제 라이트 필드 이미지에 최적화된 스테레오 매칭 비용 함수로 깊이를 구할 수 있다.
본 발명의 실시예에 따르면 라이트 필드 카메라의 하드웨어 디자인에 의해 근본적으로 야기되는 문제를 해결하고, 전역 비용 함수를 사용하는 종래의 스테레오 매칭 방법을 개선하여 라이트 필드 이미지로부터 정확한 깊이를 추정할 수 있다.
도 1은 라이트 필드 카메라의 렌즈 구성을 설명하는 도면이다.
도 2는 에피폴라 평면에서의 라인 기울기를 이용한 깊이 추정을 설명하는 도면이다.
도 3은 라이트 필드 이미지의 비네팅과 노이즈를 설명하는 도면이다.
도 4는 한 실시예에 따른 깊이 추정 장치의 구성도이다.
도 5는 한 실시예에 따른 학습용 이미지셋 생성 방법을 설명하는 도면이다.
도 6은 가상 환경에서 만들어진 라이트 필드 이미지들의 예시이다.
도 7은 한 실시예에 따른 렌즈릿 이미지 생성 방법을 설명하는 도면이다.
도 8은 한 실시예에 따른 노이즈 모델에 사용되는 컬러 채널별 인텐시티에 따른 표준 편차 그래프이다.
도 9는 한 실시예에 따른 복수의 비용 함수들을 이용한 특징 벡터 생성 방법을 도식적으로 설명하는 도면이다.
도 10은 한 실시예에 따른 매칭 그룹을 설명하는 도면이다.
도 11는 한 실시예에 따른 학습용 비용 볼륨 생성 방법을 도식적으로 설명하는 도면이다.
도 12는 한 실시예에 따른 중요 매칭 함수 분류를 위한 랜덤 포레스트 분류 학습을 설명하는 도면이다.
도 13은 한 실시예에 따른 깊이 라벨 예측을 위한 랜덤 포레스트 회귀 학습을 설명하는 도면이다.
도 14는 한 실시예에 따라 추정된 깊이 지도의 성능을 비교한 도면이다.
도 15는 한 실시예에 따른 라이트 필드 이미지의 깊이 추정을 위한 랜덤 포레스트 학습 방법의 흐름도이다.
도 16은 한 실시예에 따른 학습된 랜덤 포레스트 기반 깊이 추정 방법의 흐름도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "?기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 라이트 필드 카메라의 렌즈 구성을 설명하는 도면이고, 도 2는 에피폴라 평면에서의 라인 기울기를 이용한 깊이 추정을 설명하는 도면이며, 도 3은 라이트 필드 이미지의 비네팅과 노이즈를 설명하는 도면이다.
도 1을 참고하면, 라이트 필드(Light Field) 카메라(100)는 메인 렌즈와 이미징 센서 사이에 마이크로렌즈 어레이를 배치한 렌즈릿(lenslet) 기반 카메라로서, 대표적으로 Lytro, Lytroillum, Raytrix 등이 있다. 메인 렌즈에 의해 모아진 빛이 마이크로렌즈 어레이를 거치면서 방향에 따라 분리되어 센서에서 캡쳐된다. 라이트 필드 이미지는 촬영 후에 시점이나 초점 평면을 변경할 수 있어서, 후처리를 통해 좁은 피사계 심도(Depth of field, DOF) 이미지를 만들 수 있다.
도 2를 참고하면, 라이트 필드 카메라(100)는 마이크로렌즈 어레이에 의해 한번 촬영으로 멀티뷰(multi-view) 이미지들(10)을 한꺼번에 획득할 수 있다. 이렇게 라이트 필드 카메라(100)로부터 획득된 이미지(앞으로, '라이트 필드 이미지'라고 함)(10)는 복수의 서브 어퍼처 이미지들(sub-aperture images)로 구성된다.
서브 어퍼처 이미지들을 적층(stacking)한 후 절단한 단면을 에피폴라 평면 이미지(Epipola plane image, EPI)라고 하는데, 도 2의 (a)와 같이 이상적인 에피폴라 평면 이미지에 나타나는 라인 기울기로부터 깊이를 추정할 수 있다. 즉, 라인 기울기가 가파를수록 카메라로부터 물체가 가까이 있는 것이고, 라인 기울기가 완만할수록 물체가 멀리 있는 것이다..
하지만, 도 2의 (b)는 실제로 라이트 필드 카메라로 촬영한 라이트 필드 이미지의 에피폴라 평면 이미지인데, 실제 에피폴라 평면 이미지는 라인이 불분명하여 라인 기울기를 알기 어렵고 노이즈가 심하다. 이는 라이트 필드 카메라를 손에 들 수 있는 정도의 소형으로 제작하기 위해 고안된 마이크로렌즈 어레이 때문이다. 결국, 마이크로렌즈 어레이를 포함하는 라이트 필드 카메라는 에피폴라 평면 이미지로 깊이를 추정할 수 없으므로, 새로운 깊이 추정 방법이 필요하다.
도 3을 참고하면, 라이트 필드 카메라(100)의 메인 렌즈와 마이크로렌즈 어레이로 인해 라이트 필드 이미지는 가장자리로 갈수록 어두워지는 비네팅(vignetting)이 발생한다. 그리고, 마이크로렌즈 어레이는 한 센서가 멀티뷰를 공유하게 만들어서 단일 이미지의 해상도를 낮추고, 센서에 도달하는 빛을 가로막아 노이즈 라벨을 올리는 문제를 야기한다.
이처럼 마이크로렌즈 어레이로 인한 광학 한계로 인해, 실제 라이트 필드 이미지는 비네팅, 색수차, 그리고 노이즈와 같은 불균일한 라이트 필드 저하(non-uniform light field degradations)가 문제된다. 또한 라이트 필드 이미지는 근본적으로 좁은 베이스라인 문제를 내포한다.
다음에서 라이트 필드 카메라의 하드웨어 디자인에 의해 근본적으로 야기되는 문제를 해결하고, 전역(global) 비용 함수를 사용하는 종래의 스테레오 매칭 방법을 개선한 랜덤 포레스트 학습(random forest learning) 기반 멀티뷰 스테레오 매칭(multi-view stereo matching) 방법을 설명한다.
본 발명의 깊이 추정 방법은 멀티뷰 이미지들로 구성된 라이트 필드 이미지에 사용될 수 있고, 설명에서는 Lytro 카메라에 의해 촬영된 라이트 필드 이미지를 예로 들어 설명한다. 본 발명에 따르면, 라이트 필드 이미지 이외에도 휴대 단말에 탑재된 카메라들과 같이, 다양한 종류의 카메라에 의해 촬영된 멀티뷰 이미지들로부터 깊이 추정할 수 있다.
도 4는 한 실시예에 따른 깊이 추정 장치의 구성도이다.
도 4를 참고하면, 깊이 추정 장치(200)는 랜덤 포레스트 분류 및 회귀 학습을 통해, 스테레오 매칭을 위한 복수의 비용 함수들 중에서 가장 신뢰할만한 비용 함수들의 조합으로 깊이 라벨을 결정한다. 이를 위해, 적어도 하나의 프로세서에 의해 동작하는 깊이 추정 장치(200)는 학습용 이미지셋 생성부(210), 학습용 비용 특징 벡터 생성부(230), 그리고 랜덤 포레스트 학습부(250)를 포함한다. 깊이 추정 장치(200)는 학습된 랜덤 포레스트 모델들을 기초로 입력 이미지의 픽셀별 깊이 라벨을 추정하는 깊이 지도 생성부(270)를 포함한다.
학습용 이미지셋 생성부(210)는 실제 라이트 필드 카메라의 이미징 프로세스를 모사한 이미지셋을 생성한다. 학습용 이미지셋 생성부(210)는 가상 환경에서 만들어진(synthetic) 라이트 필드 이미지를 증강시켜 실제 라이트 필드 이미지를 모사한 이미지셋을 생성한다. 학습용 이미지셋 생성부(210)는 가상 환경에서 만들어진 라이트 필드 이미지에 실제 라이트 필드 카메라의 비네팅 효과 및 노이즈 등을 적용하여 실제 라이트 필드 카메라의 이미징 프로세스를 모사한다.
학습용 비용 특징 벡터 생성부(230)는 학습용 이미지셋을 기초로 랜덤 포레스트 학습부(250)에서 이용되는 각 픽셀의 비용 특징 벡터(Feature Vector)를 생성한다. 비용 특징 벡터는 스테레오 매칭을 위한 복수의 비용 함수들로 계산된 깊이 라벨들로 구성된다. 복수의 비용 함수들은 SAD(Sum of Absolute Difference) 함수, ZNCC(Zero-mean Normalized Cross correlation) 함수, Census(Census Transform) 함수, GRAD(Sum of Gradient Difference) 함수, 그리고 이들의 조합 함수들로 구성될 수 있다. SAD 함수는 평균 필터 효과로 노이즈에 강인한 성능을 보인다. ZNCC 함수 Census 함수는 방사 왜곡(radiometric distortion)에서 좋은 성능을 보인다. GRAD 함수는 다른 매칭 함수들에 시너지를 주는 효과가 있고, 엣지에 가중치를 높이는 효과가 있다.
학습용 비용 특징 벡터 생성부(230)는 매칭 그룹별로 비용 특징 벡터를 생성할 수 있다. 매칭 그룹은 기준 뷰(Reference view) 이미지로부터 같은 거리에 있는 타겟 뷰(Target view) 이미지들로 구성되고, 기준 뷰 이미지와 타겟 뷰 이미지들의 매칭 비용을 계산하여 해당 매칭 그룹의 비용 특징 벡터가 구해진다. 만약, 학습용 비용 특징 벡터 생성부(230)가 31개의 비용 함수를 이용하고, 4개 매칭 그룹에 대해 계산하는 경우, 픽셀의 특징 벡터는 124(=31x4) 차원 벡터로 구성될 수 있다.
학습용 비용 특징 벡터 생성부(230)는 픽셀의 비용 특징 벡터와 검증용 깊이 라벨(ground truth)를 포함하는 학습 데이터를 생성한다. 본 발명에서, 학습 데이터는 픽셀의 비용 함수들로 계산된 깊이 라벨들로 표현된 비용 특징 벡터와 검증용 깊이 라벨로 구성된 학습용 비용 볼륨이라고 부를 수 있다.
랜덤 포레스트 학습부(250)는 비용 특징 벡터와 검증용 깊이 라벨을 포함하는 비용 볼륨을 이용하여 복수의 비용 함수들 중에서 중요 매칭 함수들을 분류하도록 랜덤 포레스트 분류 모델을 분류 학습시킨다. 랜덤 포레스트 학습부(250)는 학습된 랜덤 포레스트 분류 모델에서, 특징 벡터를 구성하는 각 비용 함수의 중요도를 계산하고, 중요도가 높은 순서대로 일정 수의 비용 함수들을 선택한다.
랜덤 포레스트 학습부(250)는 랜덤 포레스트 분류 모델에서 선택된 중요 비용 함수들로 깊이 라벨을 예측하도록 랜덤 포레스트 회귀 모델을 회귀 학습시킨다.
깊이 지도 생성부(270)는 라이트 필드 이미지와 같은 멀티뷰 이미지를 깊이 추정을 위해 입력받는다. 깊이 지도 생성부(270)는 학습된 랜덤 포레스트 회귀 모델에 사용된 중요 비용 함수들로 픽셀의 깊이 라벨들을 계산하여 중요 비용 특징 벡터를 생성한다. 그리고, 깊이 지도 생성부(270)는 학습된 랜덤 포레스트 회귀 모델로 픽셀의 중요 비용 특징 벡터를 입력하여, 복수의 중요 비용 함수들로 계산된 픽셀의 깊이 라벨들이 조합된 깊이 값을 출력한다.
입력된 깊이 라벨들이 학습된 랜덤 포레스트 회귀 모델의 중요 비용 함수 가중치로 가중 합산되어, 해당 픽셀의 깊이값으로 추정된다.
다음에서, 깊이 추정 장치(200)의 각 구성에 대해서 다음에서 자세히 설명한다.
도 5는 한 실시예에 따른 학습용 이미지셋 생성 방법을 설명하는 도면이고, 도 6은 가상 환경에서 만들어진 라이트 필드 이미지들의 예시이고, 도 7은 한 실시예에 따른 렌즈릿 이미지 생성 방법을 설명하는 도면이며, 도 8은 한 실시예에 따른 노이즈 모델에 사용되는 컬러 채널별 인텐시티에 따른 표준 편차 그래프이다.
도 5를 참고하면, 학습용 이미지셋 생성부(210)는 가상 환경에서 만들어진 라이트 필드 이미지(20)를 증강시켜 실제 라이트 필드 이미지를 모사한 라이트 필드 이미지(90)를 학습용 이미지셋을 생성한다. 가상 환경에서 만들어진 라이트 필드 이미지(20)는 예를 들면, 도 6과 같이 제공되는 라이트 필드 이미지들이고, 물질, 베이스라인, 질감, 컬러 분포가 다양한 가상 환경에서 만들어진 라이트 필드 이미지를 이용할 수 있다.
먼저, 학습용 이미지셋 생성부(210)는 라이트 필드 카메라로부터 획득한 백색 평면 이미지(white plane image)로부터 비네팅 맵(30)을 획득한다. 여러 번 촬영한 백색 평면 이미지들의 평균으로 비네팅 맵(30)을 획득할 수 있다. 학습용 이미지셋 생성부(210)는 가상 환경에서 만들어진 라이트 필드 이미지(20)에 비네팅 맵(30)를 적용하여 비네팅 적용된 이미지(40)를 생성한다.
학습용 이미지셋 생성부(210)는 비네팅 적용된 이미지(40)로부터 렌즈릿 이미지(50)를 생성한다. 도 7을 참고하면, 학습용 이미지셋 생성부(210)는 이미지(40)를 구성하는 서브 어퍼처 이미지들 각각에서 같은 위치의 픽셀을 하나의 렌즈릿으로 수집하여 렌즈릿 이미지(50)를 생성한다.
도 5를 참고하면, 학습용 이미지셋 생성부(210)는 렌즈릿 이미지(50)를 그레이 스케일의 RAW 이미지(60)로 변환한다.
도 5를 참고하면, 학습용 이미지셋 생성부(210)는 RAW 이미지(60)에 라이트 필드 카메라의 노이즈를 모사한 노이즈 맵(70)을 적용한다. 노이즈 모델은 도 8과 같이 컬러 채널별 인텐시티(intensity)에 따른 표준 편차(standard deviation)를 기초로 추정된다. 도 8의 그래프에서 기울기는 신호 종속적인 가우시안 노이즈를 가지는 이미지를 생성하는 표준 편차로 이용된다. 이러한, 신호 종속적인 가우시안 노이즈 모델은 신호 독립적인 표준 편차로 표현되는 종래의 가우시안 노이즈 모델보다 실제 카메라 노이즈처럼 모사할 수 있다. 적절한 노이즈 모델을 결정하기 위해 균일한 조명 아래에서 흰색 평면 장면의 15개 이미지를 촬영하고, 촬영된 시퀀스를 기반으로 각 픽셀의 인텐시티 통계를 추출한다.
도 5를 참고하면, 학습용 이미지셋 생성부(210)는 노이즈 맵(70)이 적용된 RAW 이미지를 컬러 이미지(80)로 복원한다. 학습용 이미지셋 생성부(210)는 RAW 이미지로부터 픽셀별 컬러를 보간하여 컬러 이미지(80)를 생성한다. 예를 들면, 디모자익((Demosaic) 방법으로 컬러를 보간할 수 있다.
학습용 이미지셋 생성부(210)는 컬러 이미지(80)의 픽셀들을 서브 어퍼처 이미지들로 재배치하여, 비네팅 효과 및 노이즈 등을 모사한 라이트 필드 이미지(90)를 생성한다.
도 9는 한 실시예에 따른 복수의 비용 함수들을 이용한 특징 벡터 생성 방법을 도식적으로 설명하는 도면이고, 도 10은 한 실시예에 따른 매칭 그룹을 설명하는 도면이며, 도 11는 한 실시예에 따른 학습용 비용 볼륨 생성 방법을 도식적으로 설명하는 도면이다.
도 9를 참고하면, 학습용 비용 특징 벡터 생성부(230)는 학습용 이미지셋 생성부(210)에서 생성된 데이터셋을 기초로 랜덤 포레스트 학습부(250)에서 이용되는 픽셀의 비용 볼륨(Q)를 생성한다. 픽셀은 랜덤으로 선택될 수 있다. 비용 볼륨(Q)는 각 픽셀(x)의 비용 특징 벡터(q)와 검증용 깊이 라벨(lgt)를 포함한다. 검증용 깊이 라벨(lgt)은 도 6과 같은 가상 환경에서 만들어진 라이트 필드 이미지에서 제공된다.
비용 특징 벡터는 스테레오 매칭을 위한 복수의 비용 함수들로 계산된 깊이 라벨들로 구성된다. 복수의 비용 함수들은 SAD(Sum of Absolute Difference) 함수, ZNCC(Zero-mean Normalized Cross correlation) 함수, Census(Census Transform) 함수, GRAD(Sum of Gradient Difference) 함수, 그리고 이들의 조합 함수들로 구성될 수 있다.
또한, 특징 벡터는 기준 뷰 이미지로부터 같은 거리에 있는 타겟 뷰 이미지들로 구성된 매칭 그룹별로 비용 함수들의 특징 벡터를 구한다. 매칭 그룹은 복수일 수 있다. 도 10의 (a)를 참고하면, 매칭 그룹 1은 중앙의 기준 뷰 이미지에 인접한 타겟 뷰 이미지들로 구성된 매칭 그룹이다. 도 10의 (b)를 참고하면, 매칭 그룹 2는 중앙의 기준 뷰 이미지로부터 한 뷰 떨어진 타겟 뷰 이미지들로 구성된 매칭 그룹이다.
예를 들어, 매칭 그룹이 4개인 경우, 비용 특징 벡터(q)는 수학식 1과 같이 표현되고, 31개의 비용 함수들로 획득되는 각 매칭 그룹의 비용 특징 벡터(q g)는 수학식 2와 같이 표현된다. 31개의 비용 함수들을 이용하고, 4개 매칭 그룹에 대해 깊이 라벨을 계산하는 경우, 수학식 1의 비용 특징 벡터는 124 차원 벡터로 구성된다.
Figure 112018024180985-pat00001
Figure 112018024180985-pat00002
예를 들면, 수학식 2에서, D1에서 D4 각각은 SAD 함수(CA), ZNCC 함수(CZ), Census 함수(CC), GRAD 함수(CG)로부터 획득된 깊이 라벨일 수 있다. D5에서 D13 각각은 SAD 함수(CA)와 ZNCC 함수(CZ)의 결합 함수(CA-G)로부터 획득된 깊이 라벨일 수 있다. D14에서 D22 각각은 Census 함수(CC)와 GRAD 함수(CG)의 결합 함수(Cc-G)로부터 획득된 깊이 라벨일 수 있다. D23에서 D31 각각은 SAD 함수(CA)와 Census 함수(CC)의 결합 함수(CA-C)로부터 획득된 깊이 라벨일 수 있다.
각 비용 함수는 알려진 스테레오 매칭 함수이므로 자세한 설명은 생략한다. 예를 들면, SAD 함수(CA)는 수학식 3과 같이 표현되고, ZNCC 함수(CZ)는 수학식 4와 같이 표현되고, Census 함수(CC)는 수학식 5와 같이 표현되고, GRAD 함수(CG)는 수학식 6과 같이 표현될 수 있다. SAD 함수(CA)와 GRAD 함수(CG)의 결합 함수(CA-G)는 수학식 7과 같이 표현된다. Census 함수(CC)와 GRAD 함수(CG)의 결합 함수(Cc-G) 수학식 8과 같이 표현된다. SAD 함수(CA)와 Census 함수(CC)의 결합 함수(CA-C)는 수학식 9와 같이 표현된다.
Figure 112018024180985-pat00003
Figure 112018024180985-pat00004
Figure 112018024180985-pat00005
Figure 112018024180985-pat00006
Figure 112018024180985-pat00007
Figure 112018024180985-pat00008
Figure 112018024180985-pat00009
Figure 112018024180985-pat00010
수학식 3에서 수학식 9의 각 비용 함수는 서브 픽셀(x)에서의 깊이 라벨(l)을 구한다.
Figure 112018024180985-pat00011
는 기준이 되는 중앙(center)의 서브 어퍼처 이미지(기준 뷰)에서의 픽셀값이고,
Figure 112018024180985-pat00012
은 기준 서브 어퍼처 이미지에서 일정 거리 떨어진 다른 서브 어퍼쳐 이미지(타겟 뷰)에서의 픽셀값이다.
수학식 7부터 수학식 9를 참고하면, 각 결합 함수에서 9개의 깊이 라벨을 추출하기 위해
Figure 112018024180985-pat00013
는 0.1 단위로 0.1부터 0.9에서 추출된 값이다. 비용 함수의 수를 늘리거나 줄이기 위해
Figure 112018024180985-pat00014
가 가변될 수 있음은 당연하다.
도 11을 참고하면, 학습용 비용 특징 벡터 생성부(230)는 매칭 그룹별로 복수의 비용 함수들로부터 계산된 임의 픽셀의 깊이 라벨들을 포함하는 비용 특징 벡터(
Figure 112018024180985-pat00015
)를 구하고, 비용 특징 벡터와 이의 검증용 깊이 라벨(lgt)로 임의 픽셀의 비용 볼륨을 생성한다.
도 12는 한 실시예에 따른 중요 매칭 함수 분류를 위한 랜덤 포레스트 분류 학습을 설명하는 도면이고, 도 13은 한 실시예에 따른 깊이 라벨 예측을 위한 랜덤 포레스트 회귀 학습을 설명하는 도면이며, 도 14는 한 실시예에 따라 추정된 깊이 지도의 성능을 비교한 도면이다.
도 12를 참고하면, 랜덤 포레스트 학습부(250)는 학습용 비용 특징 벡터 생성부(230)로부터 픽셀의 비용 특징 벡터(q)와 검증용 깊이 라벨(lgt)을 포함하는 비용 볼륨(Q)을 입력받는다.
랜덤 포레스트 학습부(250)는 비용 함수들로부터 계산된 깊이 라벨들로 구성된 비용 특징 벡터(q)와 검증용 깊이 라벨을 이용하여, 수학식 10과 같이 분류 학습용 랜덤 포레스트의 크로스 엔트로피
Figure 112018024180985-pat00016
를 최소화하는 분할 함수 파라미터들(split functionparameters)(
Figure 112018024180985-pat00017
)을 구하도록 학습한다.
크로스 엔트로피는 수학식 11과 같이 정의될 수 있다.
Figure 112018024180985-pat00018
는 수학식 12와 같이 검증용 깊이 라벨로부터 최대 2 라벨 차이까지의 페널티로 정의될 수 있다.
Figure 112018024180985-pat00019
는 이진 분할 함수 파라미터들의 셋이다. Q는 특징 벡터(q)와 검증용 깊이 라벨(lgt)의 셋이다. L은 깊이 라벨들의 집합이고, ㅣ은 L에 속한 깊이 라벨이다.
Figure 112018024180985-pat00020
Figure 112018024180985-pat00021
Figure 112018024180985-pat00022
도 13을 참고하면, 분류 학습된 랜덤 포레스트는 비용 특징 벡터(q)에 포함된 각 비용 함수(예를 들면, 124개의 비용 함수들)의 중요도를 출력한다. 중요도는 비용 특징 벡터(q)의 k번째 원소(element)에 대한 순열 중요도 측정 방법(permutation importance measure)으로 계산될 수 있고, out-of-bagerror 차이를 통해 k번째 원소의 중요도가 결정될 수 있다.
랜덤 포레스트 학습부(250)는 각 비용 함수의 중요도를 기초로 중요도가 높은 순서대로 일정 수(N)의 비용 함수들을 선택한다. 랜덤 포레스트 학습부(250)는 각 매칭 그룹에서 선택된 비용 함수들을 이용하여 회귀 학습을 위한 저차원의 중요 비용 특징 벡터
Figure 112018024180985-pat00023
를 생성한다. 회귀 학습을 위한 중요 비용 특징 벡터
Figure 112018024180985-pat00024
는 수학식 13과 같이, 중요도가 높은 순서대로 일정 수(예를 들면, 11개)의 비용 함수들로 계산된 깊이 라벨들로 구성된다.
Figure 112018024180985-pat00025
랜덤 포레스트 학습부(250)는 랜덤 포레스트 회귀 모델에 픽셀의 중요 비용 특징 벡터
Figure 112018024180985-pat00026
를 입력하고 정확한 깊이 라벨을 예측하도록 학습시킨다. 랜덤 포레스트 학습부(250)는 회귀 학습을 통해 중요 비용 특징 벡터
Figure 112018024180985-pat00027
를 구성하는 비용 함수들 각각의 가중치가 결정된다.
이후, 깊이 지도 생성부(270)는 중요 비용 함수들 각각으로 계산된 픽셀의 깊이 라벨을 계산하고, 중요 비용 함수들의 깊이 라벨들로 구성된 중요 비용 특징 벡터를 랜덤 포레스트 회귀 모델로 입력한다. 그러면, 깊이 지도 생성부(270)는 학습된 랜덤 포레스트 회귀 모델로부터, 입력된 깊이 라벨들의 가중 합(weighted sum)으로 표현되는 깊이 라벨을 획득한다. 각 중요 비용 함수의 가중치는 랜덤 포레스트 회귀 학습으로 계산된다.
이처럼, 학습된 랜덤 포레스트 모델을 이용해 중요 비용 함수들을 추출하고 또한 각 비용 함수의 중요도(가중치)를 반영하여 최종적으로 깊이 라벨을 결정하므로, 본 발명에 따르면 각 매칭 함수의 장점이 복합된 스테레오 매칭 결과를 얻을 수 있다.
도 14를 참고하면, 본 발명의 비용 함수를 통해 추정된 깊이 지도(a)는 종래 비용 함수(SAD와 GRAD의 결합 비용)로 추정된 깊이 지도(b)에 비해 신뢰할만한 깊이값을 추출하는 것을 확인할 수 있다.
도 15는 한 실시예에 따른 라이트 필드 이미지의 깊이 추정을 위한 랜덤 포레스트 학습 방법의 흐름도이고, 도 16은 한 실시예에 따른 학습된 랜덤 포레스트 기반 깊이 추정 방법의 흐름도이다.
도 15를 참고하면, 깊이 추정 장치(200)는 가상 환경에서 만들어진 라이트 필드 이미지들에 실제 라이트 필드 이미지의 비네팅 및 노이즈를 적용하여 학습용 이미지셋을 생성한다(S110).
깊이 추정 장치(200)는 학습용 이미지셋을 기초로 픽셀의 초기 비용 특징 벡터와 검증용 깊이 라벨을 포함하는 비용 볼륨을 생성한다(S120). 초기 비용 특징 벡터는 스테레오 매칭을 위한 복수의 비용 함수들로 계산된 깊이 라벨들로 구성되고, 매칭 그룹별로 초기 비용 특징 벡터가 생성될 수 있다. 한편 본 발명은 라이트 필드 이미지 이외에도 동일 장면을 촬영한 멀티뷰 이미지들로부터 깊이 추정하는데 사용될 수 있으므로, 학습용 이미지셋은 동일 장면을 활영한 멀티뷰 이미지들일 수 있다.
깊이 추정 장치(200)는 비용 볼륨을 기초로 제1 랜덤 포레스트 모델을 분류 학습시킨다(S130). 제1 랜덤 포레스트 모델은 수학식 10의 크로스 엔트로피를 최소화하는 분할 함수 파라미터들(
Figure 112018024180985-pat00028
)을 구하도록 학습될 수 있다.
깊이 추정 장치(200)는 분류 학습된 제1 랜덤 포레스트로부터 초기 비용 특징 벡터를 구성하는 각 비용 함수(예를 들면, 124개의 비용 함수들)의 중요도를 측정한다(S140). 깊이 추정 장치(200)는 초기 비용 특징 벡터를 구성하는 비용 함수들이 분류에 영향을 미치는 정도를 기초로 각 비용 함수들의 중요도를 측정할 수 있고, 예를 들면, 순열 중요도 측정을 이용할 수 있다.
깊이 추정 장치(200)는 초기 비용 특징 벡터를 구성하는 비용 함수들 중에서 중요도가 높은 일정 수의 비용 함수들을 선택하여 저차원의 중요 비용 특징 벡터(
Figure 112018024180985-pat00029
)를 생성한다(S150).
깊이 추정 장치(200)는 중요 비용 특징 벡터를 기초로 정확한 깊이 라벨을 예측하도록 제2 랜덤 포레스트 모델을 회귀 학습시킨다(S160).
도 16을 참고하면, 깊이 추정 장치(200)는 깊이 추정용 멀티뷰 이미지를 입력받는다(S210). 깊이 추정용 이미지는 라이트 필드 이미지와 같은 멀티뷰 이미지이다.
깊이 추정 장치(200)는 랜덤 포레스트 회귀 모델의 학습 사용된 중요 비용 함수들로 입력 이미지의 픽셀별 깊이 라벨들을 계산하여 픽셀별 중요 비용 특징 벡터를 생성한다(S220).
깊이 추정 장치(200)는 픽셀별 중요 비용 특징 벡터를 학습된 랜덤 포레스트 회귀 모델에 입력하여 픽셀별로 추정된 깊이값을 획득한다(S230). 픽셀별 추정된 깊이값은 복수의 중요 비용 함수의 가중치로 복수의 중요 비용 함수의 깊이 라벨을 가중 합산한 결과이다. 깊이 추정 장치(200)는 결과적으로 복수의 중요 비용 함수들을 가중 합산한 새로운 비용 함수로 스테레오 매칭한 깊이값을 획득할 수 있다.
깊이 추정 장치(200)는 픽셀별로 추정된 깊이값을 기초로 입력 이미지의 깊이 지도를 생성한다(S240).
이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (15)

  1. 적어도 하나의 프로세서에 의해 동작하는 장치가 깊이 추정하는 방법으로서,
    학습용 멀티뷰 이미지에서, 스테레오 매칭을 위한 복수의 비용 함수들 각각으로 임의 픽셀의 깊이 라벨을 계산하고, 계산한 깊이 라벨들을 포함하는 초기 비용 특징 벡터를 생성하는 단계,
    상기 초기 비용 특징 벡터와 상기 임의 픽셀의 검증용 깊이 라벨(ground truth)로 구성된 픽셀별 학습 데이터를 기초로 제1 랜덤 포레스트 모델을 분류 학습시키는 단계,
    분류 학습된 상기 제1 랜덤 포레스트 모델을 통해 상기 초기 비용 특징 벡터를 구성하는 상기 복수의 비용 함수들의 중요도를 계산하고, 중요도를 기초로 상기 복수의 비용 함수들 중에서 선택된 일정 수의 중요 비용 함수들을 이용하여 중요 비용 특징 벡터를 생성하는 단계, 그리고
    상기 중요 비용 특징 벡터를 기초로 해당 임의 픽셀의 검증용 깊이 라벨을 예측하도록 제2 랜덤 포레스트 모델을 회귀 학습시키는 단계
    를 포함하는 깊이 추정 방법.
  2. 제1항에서,
    깊이 추정용 이미지를 입력받는 단계,
    상기 중요 비용 함수들로 상기 깊이 추정용 이미지의 픽셀별 깊이 라벨들을 계산하여 픽셀별 중요 비용 특징 벡터를 생성하는 단계, 그리고
    상기 픽셀별 중요 비용 특징 벡터를 상기 제2 랜덤 포레스트 모델에 입력하여 추정된 픽셀별 깊이값을 획득하는 단계
    를 더 포함하는 깊이 추정 방법.
  3. 제1항에서,
    상기 학습용 멀티뷰 이미지를 생성하는 단계를 더 포함하고,
    상기 학습용 멀티뷰 이미지를 생성하는 단계는
    라이트 필드 카메라로 촬영한 백색 평면 이미지로부터 비네팅 맵을 획득하는 단계, 그리고
    가상 환경에서 만들어진(synthetic) 라이트 필드 이미지에 상기 비네팅 맵을 적용하여 비네팅 적용된 이미지를 생성하는 단계
    를 포함하는, 깊이 추정 방법.
  4. 제3항에서,
    상기 학습용 멀티뷰 이미지를 생성하는 단계는
    상기 비네팅 적용된 이미지를 구성하는 서브 어퍼처 이미지들 각각에서 같은 위치의 픽셀을 하나의 렌즈릿으로 수집하여 렌즈릿 이미지를 생성하는 단계,
    상기 렌즈릿 이미지를 그레이 스케일 이미지로 변환하고, 상기 라이트 필드 카메라의 노이즈를 모사한 노이즈 맵을 적용한 후, 컬러 이미지로 복원하는 단계, 그리고
    상기 컬러 이미지의 픽셀들을 서브 어퍼처 이미지들로 재배치하여 학습용 라이트 필드 이미지를 생성하는 단계
    를 더 포함하는, 깊이 추정 방법.
  5. 제1항에서,
    상기 초기 비용 특징 벡터는 복수의 매칭 그룹들에서 상기 복수의 비용 함수들로 계산된 깊이 라벨들의 집합이고,
    각 매칭 그룹은 기준 뷰(Reference view) 이미지로부터 같은 거리에 있는 타겟 뷰(Target view) 이미지들로 구성되는, 깊이 추정 방법.
  6. 제1항에서,
    상기 복수의 비용 함수들은
    SAD(Sum of Absolute Difference) 함수, ZNCC(Zero-mean Normalized Cross correlation) 함수, Census(Census Transform) 함수, 그리고 GRAD(Sum of Gradient Difference) 함수 중 적어도 두 함수의 결합 함수들을 포함하는, 깊이 추정 방법.
  7. 적어도 하나의 프로세서에 의해 동작하는 장치가 깊이 추정하는 방법으로서,
    가상 환경에서 만들어진(synthetic) 라이트 필드 이미지들에 라이트 필드 카메라의 비네팅 맵 및 노이즈 맵을 적용하여 학습용 이미지셋을 생성하는 단계,
    상기 학습용 이미지셋에 포함된 각 학습용 이미지의 임의 픽셀에 대해, 스테레오 매칭을 위한 복수의 비용 함수들 각각으로 해당 픽셀의 깊이 라벨들을 계산하는 단계,
    임의 픽셀에 대해 계산한 깊이 라벨들과 해당 임의 픽셀의 검증용 깊이 라벨(ground truth)을 이용하여 랜덤 포레스트 분류 모델 및 랜덤 포레스트 회귀 모델을 단계적으로 학습시키는 단계,
    상기 랜덤 포레스트 회귀 모델의 회귀 학습에 사용된 중요 비용 함수들을 기초로 깊이 추정용 이미지의 픽셀별 깊이 라벨들을 계산하는 단계, 그리고
    상기 깊이 추정용 이미지의 픽셀별 깊이 라벨들을 상기 랜덤 포레스트 회귀 모델에 입력하여 추정된 픽셀별 깊이값을 획득하는 단계를 포함하고,
    상기 랜덤 포레스트 회귀 모델은 중요 비용 함수들로부터 해당 임의 픽셀의 깊이 라벨을 예측하도록 학습되고,
    상기 중요 비용 함수들은 상기 랜덤 포레스트 분류 모델의 분류 학습을 통해 획득한 중요도를 기초로 상기 복수의 비용 함수들 중에서 선택되는, 깊이 추정 방법.
  8. 제7항에서,
    상기 학습시키는 단계는
    상기 복수의 비용 함수들 각각으로 계산한 깊이 라벨들과 해당 임의 픽셀의 검증용 깊이 라벨로 상기 랜덤 포레스트 분류 모델을 학습시키는 단계,
    상기 랜덤 포레스트 분류 모델의 분류에 영향을 미친 정도를 기초로 상기 복수의 비용 함수들의 중요도를 계산하고, 중요도를 기초로 상기 복수의 비용 함수들 중에서 상기 중요 비용 함수들을 선택하는 단계, 그리고
    상기 중요 비용 함수들로 계산된 깊이 라벨들을 기초로 해당 임의 픽셀의 깊이 라벨을 예측하도록 상기 랜덤 포레스트 회귀 모델을 학습시키는 단계
    를 포함하는, 깊이 추정 방법.
  9. 제7항에서,
    상기 학습용 이미지셋을 생성하는 단계는
    각 가상 환경에서 만들어진 라이트 필드 이미지에, 상기 라이트 필드 카메라로 촬영한 백색 평면 이미지로부터 획득한 비네팅 맵을 적용하여 비네팅 적용된 이미지를 생성하는 단계,
    상기 비네팅 적용된 이미지를 구성하는 서브 어퍼처 이미지들 각각에서 같은 위치의 픽셀을 하나의 렌즈릿으로 수집하여 렌즈릿 이미지를 생성하는 단계,
    상기 렌즈릿 이미지를 그레이 스케일 이미지로 변환하고, 상기 라이트 필드 카메라의 노이즈를 모사한 노이즈 맵을 적용한 후, 컬러 이미지로 복원하는 단계, 그리고
    상기 컬러 이미지의 픽셀들을 서브 어퍼처 이미지들로 재배치하여 학습용 라이트 필드 이미지를 생성하는 단계
    를 포함하는, 깊이 추정 방법.
  10. 제7항에서,
    상기 해당 픽셀의 깊이 라벨들을 계산하는 단계는
    복수의 매칭 그룹들에서 상기 복수의 비용 함수들로 계산된 깊이 라벨들의 집합이고,
    각 매칭 그룹은 기준 뷰(Reference view) 이미지로부터 같은 거리에 있는 타겟 뷰(Target view) 이미지들로 구성되는, 깊이 추정 방법.
  11. 적어도 하나의 프로세서에 의해 동작하는 장치가 깊이 추정하는 방법으로서,
    깊이 추정용 멀티뷰 이미지를 입력받는 단계,
    복수의 중요 비용 함수들로 상기 깊이 추정용 멀티뷰 이미지의 픽셀별 깊이 라벨들을 계산하는 단계, 그리고
    상기 픽셀별 깊이 라벨들을 학습된 랜덤 포레스트 회귀 모델에 입력하여 추정된 픽셀별 깊이값을 획득하는 단계를 포함하고,
    상기 랜덤 포레스트 회귀 모델은 상기 복수의 중요 비용 함수들로 계산된 깊이 라벨들로부터 해당 픽셀의 깊이 라벨을 예측하도록 학습된 모델이고,
    상기 복수의 중요 비용 함수들은 랜덤 포레스트 분류 모델의 분류 학습을 통해 획득한 중요도를 기초로 복수의 초기 비용 함수들 중에서 선택된 함수들인, 깊이 추정 방법.
  12. 제11항에서,
    학습용 멀티뷰 이미지에서, 스테레오 매칭을 위한 상기 복수의 초기 비용 함수들 각각으로 임의 픽셀의 깊이 라벨들을 계산하고, 임의 픽셀에 대해 계산한 깊이 라벨들과 해당 임의 픽셀의 검증용 깊이 라벨(ground truth)을 이용하여 상기 랜덤 포레스트 분류 모델 및 상기 랜덤 포레스트 회귀 모델을 단계적으로 학습시키는 단계를 더 포함하는, 깊이 추정 방법.
  13. 제12항에서,
    상기 학습시키는 단계는
    상기 복수의 초기 비용 함수들 각각으로 계산한 깊이 라벨들과 해당 임의 픽셀의 검증용 깊이 라벨로 상기 랜덤 포레스트 분류 모델을 학습시키는 단계,
    상기 랜덤 포레스트 분류 모델의 분류에 영향을 미친 정도를 기초로 상기 복수의 초기 비용 함수들의 중요도를 계산하고, 중요도를 기초로 상기 복수의 초기 비용 함수들 중에서 상기 중요 비용 함수들을 선택하는 단계, 그리고
    상기 중요 비용 함수들로 계산된 깊이 라벨들을 기초로 해당 임의 픽셀의 깊이 라벨을 예측하도록 상기 랜덤 포레스트 회귀 모델을 학습시키는 단계
    를 포함하는, 깊이 추정 방법.
  14. 제12항에서,
    상기 학습용 멀티뷰 이미지는 가상 환경에서 만들어진(synthetic) 라이트 필드 이미지에 라이트 필드 카메라를 모사한 비네팅 맵과 노이즈 맵을 적용한 이미지인, 깊이 추정 방법.
  15. 제11항에서,
    상기 복수의 초기 비용 함수들은 SAD(Sum of Absolute Difference) 함수, ZNCC(Zero-mean Normalized Cross correlation) 함수, Census(Census Transform) 함수, 그리고 GRAD(Sum of Gradient Difference) 함수 중 적어도 두 함수의 결합 함수들을 포함하는, 깊이 추정 방법.
KR1020180028242A 2018-03-09 2018-03-09 라이트 필드 이미지의 깊이 추정 방법 및 장치 KR102052564B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180028242A KR102052564B1 (ko) 2018-03-09 2018-03-09 라이트 필드 이미지의 깊이 추정 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180028242A KR102052564B1 (ko) 2018-03-09 2018-03-09 라이트 필드 이미지의 깊이 추정 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20190106570A KR20190106570A (ko) 2019-09-18
KR102052564B1 true KR102052564B1 (ko) 2019-12-05

Family

ID=68070844

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180028242A KR102052564B1 (ko) 2018-03-09 2018-03-09 라이트 필드 이미지의 깊이 추정 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102052564B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111586299B (zh) * 2020-05-09 2021-10-19 北京华捷艾米科技有限公司 一种图像处理方法和相关设备
KR102380563B1 (ko) * 2020-06-02 2022-03-31 인하대학교 산학협력단 단안 비디오로부터의 5차원 라이트필드 비디오 합성 방법 및 장치
KR102536096B1 (ko) * 2021-06-23 2023-05-26 주식회사 쓰리아이 학습 데이터 생성 방법 및 그를 위한 컴퓨팅 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101784620B1 (ko) 2016-07-26 2017-11-06 연세대학교 산학협력단 스테레오 매칭을 통한 깊이값의 신뢰도 측정 방법 및 장치

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101758064B1 (ko) * 2013-06-05 2017-07-14 삼성전자주식회사 깊이 영상을 이용하는 추정기 학습 방법 및 자세 추정 방법
EP3026628A1 (en) * 2014-11-26 2016-06-01 Thomson Licensing Method and apparatus for estimating depth of unfocused plenoptic data

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101784620B1 (ko) 2016-07-26 2017-11-06 연세대학교 산학협력단 스테레오 매칭을 통한 깊이값의 신뢰도 측정 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Sven W. et al. Globally Consistent Multi-Label Assignment on the Ray Space of 4D Light Fields, 2013 IEEE Conference on Computer Vision and Pattern Recognition, 23-28 June 2013.*

Also Published As

Publication number Publication date
KR20190106570A (ko) 2019-09-18

Similar Documents

Publication Publication Date Title
CN110036410B (zh) 用于从视图中获得距离信息的设备和方法
JP5206853B2 (ja) 補間画像生成装置、再構成画像生成装置、補間画像生成方法及びプログラム
US8754963B2 (en) Processing images having different focus
RU2668404C2 (ru) Устройство для записи изображения в трехмерном масштабе, способ создания 3D-изображения и способ формирования устройства для записи изображения в трехмерном масштабе
Zhang et al. Multiple view image denoising
US11651581B2 (en) System and method for correspondence map determination
KR102052564B1 (ko) 라이트 필드 이미지의 깊이 추정 방법 및 장치
CN111028273B (zh) 一种基于多流卷积神经网络的光场深度估计方法及其实现系统
Blasinski et al. Optimizing image acquisition systems for autonomous driving
CN111080774B (zh) 一种应用深度采样进行光场重构的方法及系统
CN103986854A (zh) 图像处理设备、摄像设备和控制方法
US12100105B2 (en) Method for performing volumetric reconstruction
CN115311186A (zh) 一种红外与可见光图像跨尺度注意力对抗融合方法及终端
US11967096B2 (en) Methods and apparatuses of depth estimation from focus information
Cheng et al. Semantic single-image dehazing
Chen et al. Focus manipulation detection via photometric histogram analysis
CN113191962B (zh) 基于环境背景光的水下图像颜色恢复方法、装置及存储介质
Li et al. Deep hyperspectral-depth reconstruction using single color-dot projection
JP5900017B2 (ja) 奥行き推定装置、再構成画像生成装置、奥行き推定方法、再構成画像生成方法及びプログラム
CN116704111B (zh) 图像处理方法和设备
Lin et al. Transformer-Based Light Field Geometry Learning for No-Reference Light Field Image Quality Assessment
Bisagno et al. Virtual camera modeling for multi-view simulation of surveillance scenes
Zizien et al. Regarding the quality of disparity estimation from distorted light fields
JPWO2020075237A1 (ja) 画像処理装置および画像処理方法
JP2018081378A (ja) 画像処理装置、撮像装置、画像処理方法および画像処理プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right