KR102052564B1 - 라이트 필드 이미지의 깊이 추정 방법 및 장치 - Google Patents
라이트 필드 이미지의 깊이 추정 방법 및 장치 Download PDFInfo
- Publication number
- KR102052564B1 KR102052564B1 KR1020180028242A KR20180028242A KR102052564B1 KR 102052564 B1 KR102052564 B1 KR 102052564B1 KR 1020180028242 A KR1020180028242 A KR 1020180028242A KR 20180028242 A KR20180028242 A KR 20180028242A KR 102052564 B1 KR102052564 B1 KR 102052564B1
- Authority
- KR
- South Korea
- Prior art keywords
- depth
- image
- pixel
- cost functions
- random forest
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000006870 function Effects 0.000 claims abstract description 188
- 238000007637 random forest analysis Methods 0.000 claims abstract description 92
- 239000013598 vector Substances 0.000 claims abstract description 72
- 238000012549 training Methods 0.000 claims abstract description 55
- 238000012795 verification Methods 0.000 claims abstract description 25
- 238000010586 diagram Methods 0.000 description 21
- 230000000694 effects Effects 0.000 description 5
- 238000003384 imaging method Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/557—Depth or shape recovery from multiple images from light fields, e.g. from plenoptic cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G06T5/006—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/80—Geometric correction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Operations Research (AREA)
- Algebra (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
적어도 하나의 프로세서에 의해 동작하는 장치가 깊이 추정하는 방법으로서, 학습용 멀티뷰 이미지에서, 스테레오 매칭을 위한 복수의 비용 함수들 각각으로 임의 픽셀의 깊이 라벨을 계산하고, 계산한 깊이 라벨들을 포함하는 초기 비용 특징 벡터를 생성하는 단계, 상기 초기 비용 특징 벡터와 상기 임의 픽셀의 검증용 깊이 라벨(ground truth)로 구성된 픽셀별 학습 데이터를 기초로 제1 랜덤 포레스트 모델을 분류 학습시키는 단계, 분류 학습된 상기 제1 랜덤 포레스트 모델을 통해 상기 초기 비용 특징 벡터를 구성하는 상기 복수의 비용 함수들의 중요도를 계산하고, 중요도를 기초로 상기 복수의 비용 함수들 중에서 선택된 일정 수의 중요 비용 함수들을 이용하여 중요 비용 특징 벡터를 생성하는 단계, 그리고 상기 중요 비용 특징 벡터를 기초로 해당 임의 픽셀의 검증용 깊이 라벨을 예측하도록 제2 랜덤 포레스트 모델을 회귀 학습시키는 단계를 포함한다.
Description
본 발명은 라이트 필드 이미지의 깊이 추정에 관한 것이다.
라이트 필드(Light Field) 카메라는 공간상에서 여러 방향에서 오는 빛을 수집하여 기록하고, 촬영 후 시점이나 초점 평면을 변경할 수 있다. 소형 라이트 필드 카메라로서 이미징 센서 앞에 마이크로렌즈 어레이를 배치한 렌즈릿(lenslet) 기반 카메라가 있다. 라이트 필드 카메라는 메인 렌즈에 의해 모아진 빛을 마이크로렌즈 어레이를 이용하여 방향에 따라 분리하여 기록한다. 이 디자인은 대량 생산이 가능하기 때문에 휴대용 라이트 필드 카메라에 이용되고, 대표적으로 Lytro, Lytroillum, Raytrix 등이 있다.
렌즈릿 라이트 필드 이미지는 좁은 베이스라인의 다수의 스테레오 이미지쌍과 같다. 따라서, 스테레오 매칭을 통한 깊이 추정 방법이 렌즈릿 라이트 필드 이미지에 적용될 수 있다. 스테레오 매칭은 스테레오 이미지쌍에서 추출한 두 패치 간의 유사도(비용)를 측정하는 방법으로서, 다양한 스테레오 매칭 기술이 존재한다.
마이크로렌즈 어레이로 인한 광학 한계로 인해, 촬영된 라이트 필드 이미지는 이미지 비네팅(vignetting), 색수차(chromatic aberrations), 그리고 센서 노이즈를 포함하는 불균일한 라이트 필드 저하 문제가 발생한다. 이러한 특성은 라이트 필드 이미지의 각도 및 공간 도메인에서 모두 다를 수 있다. 따라서, 전역(global) 비용 함수를 사용하는 종래의 스테레오 매칭 기술을 그대로 사용할 수 없고, 라이트 필드 이미지의 깊이 추정을 위한 새로운 스테레오 매칭 방법이 요구된다.
본 발명이 해결하고자 하는 과제는 실제 라이트 필드 카메라의 이미징 프로세스를 모사한 학습용 이미지셋을 생성하고, 학습용 이미지셋을 기초로 복수의 비용 함수들 중에서 중요 비용 함수들을 분류하도록 제1 랜덤 포레스트 모델을 분류 학습시키고, 중요 매칭 함수들로 깊이 라벨을 예측하도록 제2 랜덤 포레스트 모델을 회귀 학습시키는 장치 및 방법을 제공하는 것이다. 본 발명이 해결하고자 하는 과제는 학습된 랜덤 포레스트 모델을 이용해 복수의 비용 함수들로부터 라이트 필드 이미지의 가장 신뢰할만한 깊이값을 추출하는 방법 및 장치를 제공하는 것이다.
한 실시예에 따른 적어도 하나의 프로세서에 의해 동작하는 장치가 깊이 추정하는 방법으로서, 학습용 멀티뷰 이미지에서, 스테레오 매칭을 위한 복수의 비용 함수들 각각으로 임의 픽셀의 깊이 라벨을 계산하고, 계산한 깊이 라벨들을 포함하는 초기 비용 특징 벡터를 생성하는 단계, 상기 초기 비용 특징 벡터와 상기 임의 픽셀의 검증용 깊이 라벨(ground truth)로 구성된 픽셀별 학습 데이터를 기초로 제1 랜덤 포레스트 모델을 분류 학습시키는 단계, 분류 학습된 상기 제1 랜덤 포레스트 모델을 통해 상기 초기 비용 특징 벡터를 구성하는 상기 복수의 비용 함수들의 중요도를 계산하고, 중요도를 기초로 상기 복수의 비용 함수들 중에서 선택된 일정 수의 중요 비용 함수들을 이용하여 중요 비용 특징 벡터를 생성하는 단계, 그리고 상기 중요 비용 특징 벡터를 기초로 해당 임의 픽셀의 검증용 깊이 라벨을 예측하도록 제2 랜덤 포레스트 모델을 회귀 학습시키는 단계를 포함한다.
상기 깊이 추정 방법은 깊이 추정용 이미지를 입력받는 단계, 상기 중요 비용 함수들로 상기 깊이 추정용 이미지의 픽셀별 깊이 라벨들을 계산하여 픽셀별 중요 비용 특징 벡터를 생성하는 단계, 그리고 상기 픽셀별 중요 비용 특징 벡터를 상기 제2 랜덤 포레스트 모델에 입력하여 추정된 픽셀별 깊이값을 획득하는 단계를 더 포함할 수 있다.
상기 깊이 추정 방법은 상기 학습용 멀티뷰 이미지를 생성하는 단계를 더 포함할 수 있다. 상기 학습용 멀티뷰 이미지를 생성하는 단계는 라이트 필드 카메라로 촬영한 백색 평면 이미지로부터 비네팅 맵을 획득하는 단계, 그리고 가상 환경에서 만들어진(synthetic) 라이트 필드 이미지에 상기 비네팅 맵을 적용하여 비네팅 적용된 이미지를 생성하는 단계를 포함할 수 있다.
상기 학습용 멀티뷰 이미지를 생성하는 단계는 상기 비네팅 적용된 이미지를 구성하는 서브 어퍼처 이미지들 각각에서 같은 위치의 픽셀을 하나의 렌즈릿으로 수집하여 렌즈릿 이미지를 생성하는 단계, 상기 렌즈릿 이미지를 그레이 스케일 이미지로 변환하고, 상기 라이트 필드 카메라의 노이즈를 모사한 노이즈 맵을 적용한 후, 컬러 이미지로 복원하는 단계, 그리고 상기 컬러 이미지의 픽셀들을 서브 어퍼처 이미지들로 재배치하여 학습용 라이트 필드 이미지를 생성하는 단계를 더 포함할 수 있다.
상기 초기 비용 특징 벡터는 복수의 매칭 그룹들에서 상기 복수의 비용 함수들로 계산된 깊이 라벨들의 집합이고, 각 매칭 그룹은 기준 뷰(Reference view) 이미지로부터 같은 거리에 있는 타겟 뷰(Target view) 이미지들로 구성될 수 있다.
상기 복수의 비용 함수들은 SAD(Sum of Absolute Difference) 함수, ZNCC(Zero-mean Normalized Cross correlation) 함수, Census(Census Transform) 함수, 그리고 GRAD(Sum of Gradient Difference) 함수 중 적어도 두 함수의 결합 함수들을 포함할 수 있다.
다른 실시예에 따라 적어도 하나의 프로세서에 의해 동작하는 장치가 깊이 추정하는 방법으로서, 가상 환경에서 만들어진(synthetic) 라이트 필드 이미지들에 라이트 필드 카메라의 비네팅 맵 및 노이즈 맵을 적용하여 학습용 이미지셋을 생성하는 단계, 상기 학습용 이미지셋에 포함된 각 학습용 이미지의 임의 픽셀에 대해, 스테레오 매칭을 위한 복수의 비용 함수들 각각으로 해당 픽셀의 깊이 라벨들을 계산하는 단계, 임의 픽셀에 대해 계산한 깊이 라벨들과 해당 임의 픽셀의 검증용 깊이 라벨(ground truth)을 이용하여 랜덤 포레스트 분류 모델 및 랜덤 포레스트 회귀 모델을 단계적으로 학습시키는 단계, 상기 랜덤 포레스트 회귀 모델의 회귀 학습에 사용된 중요 비용 함수들을 기초로 깊이 추정용 이미지의 픽셀별 깊이 라벨들을 계산하는 단계, 그리고 상기 깊이 추정용 이미지의 픽셀별 깊이 라벨들을 상기 랜덤 포레스트 회귀 모델에 입력하여 추정된 픽셀별 깊이값을 획득하는 단계를 포함한다. 상기 랜덤 포레스트 회귀 모델은 중요 비용 함수들로부터 해당 임의 픽셀의 깊이 라벨을 예측하도록 학습되고, 상기 중요 비용 함수들은 상기 랜덤 포레스트 분류 모델의 분류 학습을 통해 획득한 중요도를 기초로 상기 복수의 비용 함수들 중에서 선택된다.
상기 학습시키는 단계는 상기 복수의 비용 함수들 각각으로 계산한 깊이 라벨들과 해당 임의 픽셀의 검증용 깊이 라벨로 상기 랜덤 포레스트 분류 모델을 학습시키는 단계, 상기 랜덤 포레스트 분류 모델의 분류에 영향을 미친 정도를 기초로 상기 복수의 비용 함수들의 중요도를 계산하고, 중요도를 기초로 상기 복수의 비용 함수들 중에서 상기 중요 비용 함수들을 선택하는 단계, 그리고 상기 중요 비용 함수들로 계산된 깊이 라벨들을 기초로 해당 임의 픽셀의 깊이 라벨을 예측하도록 상기 랜덤 포레스트 회귀 모델을 학습시키는 단계를 포함할 수 있다.
상기 학습용 이미지셋을 생성하는 단계는 각 가상 환경에서 만들어진 라이트 필드 이미지에, 상기 라이트 필드 카메라로 촬영한 백색 평면 이미지로부터 획득한 비네팅 맵을 적용하여 비네팅 적용된 이미지를 생성하는 단계, 상기 비네팅 적용된 이미지를 구성하는 서브 어퍼처 이미지들 각각에서 같은 위치의 픽셀을 하나의 렌즈릿으로 수집하여 렌즈릿 이미지를 생성하는 단계, 상기 렌즈릿 이미지를 그레이 스케일 이미지로 변환하고, 상기 라이트 필드 카메라의 노이즈를 모사한 노이즈 맵을 적용한 후, 컬러 이미지로 복원하는 단계, 그리고 상기 컬러 이미지의 픽셀들을 서브 어퍼처 이미지들로 재배치하여 학습용 라이트 필드 이미지를 생성하는 단계를 포함할 수 있다.
상기 해당 픽셀의 깊이 라벨들을 계산하는 단계는 복수의 매칭 그룹들에서 상기 복수의 비용 함수들로 계산된 깊이 라벨들의 집합이고, 각 매칭 그룹은 기준 뷰(Reference view) 이미지로부터 같은 거리에 있는 타겟 뷰(Target view) 이미지들로 구성될 수 있다.
또 다른 실시예에 따라 적어도 하나의 프로세서에 의해 동작하는 장치가 깊이 추정하는 방법으로서, 깊이 추정용 멀티뷰 이미지를 입력받는 단계, 복수의 중요 비용 함수들로 상기 깊이 추정용 멀티뷰 이미지의 픽셀별 깊이 라벨들을 계산하는 단계, 그리고 상기 픽셀별 깊이 라벨들을 학습된 랜덤 포레스트 회귀 모델에 입력하여 추정된 픽셀별 깊이값을 획득하는 단계를 포함한다. 상기 랜덤 포레스트 회귀 모델은 상기 복수의 중요 비용 함수들로 계산된 깊이 라벨들로부터 해당 픽셀의 깊이 라벨을 예측하도록 학습된 모델이다. 상기 복수의 중요 비용 함수들은 랜덤 포레스트 분류 모델의 분류 학습을 통해 획득한 중요도를 기초로 복수의 초기 비용 함수들 중에서 선택된 함수들이다.
상기 깊이 추정 방법은 학습용 멀티뷰 이미지에서, 스테레오 매칭을 위한 상기 복수의 초기 비용 함수들 각각으로 임의 픽셀의 깊이 라벨들을 계산하고, 임의 픽셀에 대해 계산한 깊이 라벨들과 해당 임의 픽셀의 검증용 깊이 라벨(ground truth)을 이용하여 상기 랜덤 포레스트 분류 모델 및 상기 랜덤 포레스트 회귀 모델을 단계적으로 학습시키는 단계를 더 포함할 수 있다.
상기 학습시키는 단계는 상기 복수의 초기 비용 함수들 각각으로 계산한 깊이 라벨들과 해당 임의 픽셀의 검증용 깊이 라벨로 상기 랜덤 포레스트 분류 모델을 학습시키는 단계, 상기 랜덤 포레스트 분류 모델의 분류에 영향을 미친 정도를 기초로 상기 복수의 초기 비용 함수들의 중요도를 계산하고, 중요도를 기초로 상기 복수의 초기 비용 함수들 중에서 상기 중요 비용 함수들을 선택하는 단계, 그리고 상기 중요 비용 함수들로 계산된 깊이 라벨들을 기초로 해당 임의 픽셀의 깊이 라벨을 예측하도록 상기 랜덤 포레스트 회귀 모델을 학습시키는 단계를 포함할 수 있다.
상기 학습용 멀티뷰 이미지는 가상 환경에서 만들어진(synthetic) 라이트 필드 이미지에 라이트 필드 카메라를 모사한 비네팅 맵과 노이즈 맵을 적용한 이미지일 수 있다.
상기 복수의 초기 비용 함수들은 SAD(Sum of Absolute Difference) 함수, ZNCC(Zero-mean Normalized Cross correlation) 함수, Census(Census Transform) 함수, 그리고 GRAD(Sum of Gradient Difference) 함수 중 적어도 두 함수의 결합 함수들을 포함할 수 있다.
본 발명의 실시예에 따르면 마이크로렌즈 어레이로 인해 야기되는 실제 라이트 필드 이미지의 비네팅 효과와 심각한 노이즈를 모사한 이미지셋을 생성하고, 이를 통해 랜덤 포레스트 학습시키므로, 실제 라이트 필드 이미지에 최적화된 스테레오 매칭 비용 함수로 깊이를 구할 수 있다.
본 발명의 실시예에 따르면 라이트 필드 카메라의 하드웨어 디자인에 의해 근본적으로 야기되는 문제를 해결하고, 전역 비용 함수를 사용하는 종래의 스테레오 매칭 방법을 개선하여 라이트 필드 이미지로부터 정확한 깊이를 추정할 수 있다.
도 1은 라이트 필드 카메라의 렌즈 구성을 설명하는 도면이다.
도 2는 에피폴라 평면에서의 라인 기울기를 이용한 깊이 추정을 설명하는 도면이다.
도 3은 라이트 필드 이미지의 비네팅과 노이즈를 설명하는 도면이다.
도 4는 한 실시예에 따른 깊이 추정 장치의 구성도이다.
도 5는 한 실시예에 따른 학습용 이미지셋 생성 방법을 설명하는 도면이다.
도 6은 가상 환경에서 만들어진 라이트 필드 이미지들의 예시이다.
도 7은 한 실시예에 따른 렌즈릿 이미지 생성 방법을 설명하는 도면이다.
도 8은 한 실시예에 따른 노이즈 모델에 사용되는 컬러 채널별 인텐시티에 따른 표준 편차 그래프이다.
도 9는 한 실시예에 따른 복수의 비용 함수들을 이용한 특징 벡터 생성 방법을 도식적으로 설명하는 도면이다.
도 10은 한 실시예에 따른 매칭 그룹을 설명하는 도면이다.
도 11는 한 실시예에 따른 학습용 비용 볼륨 생성 방법을 도식적으로 설명하는 도면이다.
도 12는 한 실시예에 따른 중요 매칭 함수 분류를 위한 랜덤 포레스트 분류 학습을 설명하는 도면이다.
도 13은 한 실시예에 따른 깊이 라벨 예측을 위한 랜덤 포레스트 회귀 학습을 설명하는 도면이다.
도 14는 한 실시예에 따라 추정된 깊이 지도의 성능을 비교한 도면이다.
도 15는 한 실시예에 따른 라이트 필드 이미지의 깊이 추정을 위한 랜덤 포레스트 학습 방법의 흐름도이다.
도 16은 한 실시예에 따른 학습된 랜덤 포레스트 기반 깊이 추정 방법의 흐름도이다.
도 2는 에피폴라 평면에서의 라인 기울기를 이용한 깊이 추정을 설명하는 도면이다.
도 3은 라이트 필드 이미지의 비네팅과 노이즈를 설명하는 도면이다.
도 4는 한 실시예에 따른 깊이 추정 장치의 구성도이다.
도 5는 한 실시예에 따른 학습용 이미지셋 생성 방법을 설명하는 도면이다.
도 6은 가상 환경에서 만들어진 라이트 필드 이미지들의 예시이다.
도 7은 한 실시예에 따른 렌즈릿 이미지 생성 방법을 설명하는 도면이다.
도 8은 한 실시예에 따른 노이즈 모델에 사용되는 컬러 채널별 인텐시티에 따른 표준 편차 그래프이다.
도 9는 한 실시예에 따른 복수의 비용 함수들을 이용한 특징 벡터 생성 방법을 도식적으로 설명하는 도면이다.
도 10은 한 실시예에 따른 매칭 그룹을 설명하는 도면이다.
도 11는 한 실시예에 따른 학습용 비용 볼륨 생성 방법을 도식적으로 설명하는 도면이다.
도 12는 한 실시예에 따른 중요 매칭 함수 분류를 위한 랜덤 포레스트 분류 학습을 설명하는 도면이다.
도 13은 한 실시예에 따른 깊이 라벨 예측을 위한 랜덤 포레스트 회귀 학습을 설명하는 도면이다.
도 14는 한 실시예에 따라 추정된 깊이 지도의 성능을 비교한 도면이다.
도 15는 한 실시예에 따른 라이트 필드 이미지의 깊이 추정을 위한 랜덤 포레스트 학습 방법의 흐름도이다.
도 16은 한 실시예에 따른 학습된 랜덤 포레스트 기반 깊이 추정 방법의 흐름도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "?기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 라이트 필드 카메라의 렌즈 구성을 설명하는 도면이고, 도 2는 에피폴라 평면에서의 라인 기울기를 이용한 깊이 추정을 설명하는 도면이며, 도 3은 라이트 필드 이미지의 비네팅과 노이즈를 설명하는 도면이다.
도 1을 참고하면, 라이트 필드(Light Field) 카메라(100)는 메인 렌즈와 이미징 센서 사이에 마이크로렌즈 어레이를 배치한 렌즈릿(lenslet) 기반 카메라로서, 대표적으로 Lytro, Lytroillum, Raytrix 등이 있다. 메인 렌즈에 의해 모아진 빛이 마이크로렌즈 어레이를 거치면서 방향에 따라 분리되어 센서에서 캡쳐된다. 라이트 필드 이미지는 촬영 후에 시점이나 초점 평면을 변경할 수 있어서, 후처리를 통해 좁은 피사계 심도(Depth of field, DOF) 이미지를 만들 수 있다.
도 2를 참고하면, 라이트 필드 카메라(100)는 마이크로렌즈 어레이에 의해 한번 촬영으로 멀티뷰(multi-view) 이미지들(10)을 한꺼번에 획득할 수 있다. 이렇게 라이트 필드 카메라(100)로부터 획득된 이미지(앞으로, '라이트 필드 이미지'라고 함)(10)는 복수의 서브 어퍼처 이미지들(sub-aperture images)로 구성된다.
서브 어퍼처 이미지들을 적층(stacking)한 후 절단한 단면을 에피폴라 평면 이미지(Epipola plane image, EPI)라고 하는데, 도 2의 (a)와 같이 이상적인 에피폴라 평면 이미지에 나타나는 라인 기울기로부터 깊이를 추정할 수 있다. 즉, 라인 기울기가 가파를수록 카메라로부터 물체가 가까이 있는 것이고, 라인 기울기가 완만할수록 물체가 멀리 있는 것이다..
하지만, 도 2의 (b)는 실제로 라이트 필드 카메라로 촬영한 라이트 필드 이미지의 에피폴라 평면 이미지인데, 실제 에피폴라 평면 이미지는 라인이 불분명하여 라인 기울기를 알기 어렵고 노이즈가 심하다. 이는 라이트 필드 카메라를 손에 들 수 있는 정도의 소형으로 제작하기 위해 고안된 마이크로렌즈 어레이 때문이다. 결국, 마이크로렌즈 어레이를 포함하는 라이트 필드 카메라는 에피폴라 평면 이미지로 깊이를 추정할 수 없으므로, 새로운 깊이 추정 방법이 필요하다.
도 3을 참고하면, 라이트 필드 카메라(100)의 메인 렌즈와 마이크로렌즈 어레이로 인해 라이트 필드 이미지는 가장자리로 갈수록 어두워지는 비네팅(vignetting)이 발생한다. 그리고, 마이크로렌즈 어레이는 한 센서가 멀티뷰를 공유하게 만들어서 단일 이미지의 해상도를 낮추고, 센서에 도달하는 빛을 가로막아 노이즈 라벨을 올리는 문제를 야기한다.
이처럼 마이크로렌즈 어레이로 인한 광학 한계로 인해, 실제 라이트 필드 이미지는 비네팅, 색수차, 그리고 노이즈와 같은 불균일한 라이트 필드 저하(non-uniform light field degradations)가 문제된다. 또한 라이트 필드 이미지는 근본적으로 좁은 베이스라인 문제를 내포한다.
다음에서 라이트 필드 카메라의 하드웨어 디자인에 의해 근본적으로 야기되는 문제를 해결하고, 전역(global) 비용 함수를 사용하는 종래의 스테레오 매칭 방법을 개선한 랜덤 포레스트 학습(random forest learning) 기반 멀티뷰 스테레오 매칭(multi-view stereo matching) 방법을 설명한다.
본 발명의 깊이 추정 방법은 멀티뷰 이미지들로 구성된 라이트 필드 이미지에 사용될 수 있고, 설명에서는 Lytro 카메라에 의해 촬영된 라이트 필드 이미지를 예로 들어 설명한다. 본 발명에 따르면, 라이트 필드 이미지 이외에도 휴대 단말에 탑재된 카메라들과 같이, 다양한 종류의 카메라에 의해 촬영된 멀티뷰 이미지들로부터 깊이 추정할 수 있다.
도 4는 한 실시예에 따른 깊이 추정 장치의 구성도이다.
도 4를 참고하면, 깊이 추정 장치(200)는 랜덤 포레스트 분류 및 회귀 학습을 통해, 스테레오 매칭을 위한 복수의 비용 함수들 중에서 가장 신뢰할만한 비용 함수들의 조합으로 깊이 라벨을 결정한다. 이를 위해, 적어도 하나의 프로세서에 의해 동작하는 깊이 추정 장치(200)는 학습용 이미지셋 생성부(210), 학습용 비용 특징 벡터 생성부(230), 그리고 랜덤 포레스트 학습부(250)를 포함한다. 깊이 추정 장치(200)는 학습된 랜덤 포레스트 모델들을 기초로 입력 이미지의 픽셀별 깊이 라벨을 추정하는 깊이 지도 생성부(270)를 포함한다.
학습용 이미지셋 생성부(210)는 실제 라이트 필드 카메라의 이미징 프로세스를 모사한 이미지셋을 생성한다. 학습용 이미지셋 생성부(210)는 가상 환경에서 만들어진(synthetic) 라이트 필드 이미지를 증강시켜 실제 라이트 필드 이미지를 모사한 이미지셋을 생성한다. 학습용 이미지셋 생성부(210)는 가상 환경에서 만들어진 라이트 필드 이미지에 실제 라이트 필드 카메라의 비네팅 효과 및 노이즈 등을 적용하여 실제 라이트 필드 카메라의 이미징 프로세스를 모사한다.
학습용 비용 특징 벡터 생성부(230)는 학습용 이미지셋을 기초로 랜덤 포레스트 학습부(250)에서 이용되는 각 픽셀의 비용 특징 벡터(Feature Vector)를 생성한다. 비용 특징 벡터는 스테레오 매칭을 위한 복수의 비용 함수들로 계산된 깊이 라벨들로 구성된다. 복수의 비용 함수들은 SAD(Sum of Absolute Difference) 함수, ZNCC(Zero-mean Normalized Cross correlation) 함수, Census(Census Transform) 함수, GRAD(Sum of Gradient Difference) 함수, 그리고 이들의 조합 함수들로 구성될 수 있다. SAD 함수는 평균 필터 효과로 노이즈에 강인한 성능을 보인다. ZNCC 함수 Census 함수는 방사 왜곡(radiometric distortion)에서 좋은 성능을 보인다. GRAD 함수는 다른 매칭 함수들에 시너지를 주는 효과가 있고, 엣지에 가중치를 높이는 효과가 있다.
학습용 비용 특징 벡터 생성부(230)는 매칭 그룹별로 비용 특징 벡터를 생성할 수 있다. 매칭 그룹은 기준 뷰(Reference view) 이미지로부터 같은 거리에 있는 타겟 뷰(Target view) 이미지들로 구성되고, 기준 뷰 이미지와 타겟 뷰 이미지들의 매칭 비용을 계산하여 해당 매칭 그룹의 비용 특징 벡터가 구해진다. 만약, 학습용 비용 특징 벡터 생성부(230)가 31개의 비용 함수를 이용하고, 4개 매칭 그룹에 대해 계산하는 경우, 픽셀의 특징 벡터는 124(=31x4) 차원 벡터로 구성될 수 있다.
학습용 비용 특징 벡터 생성부(230)는 픽셀의 비용 특징 벡터와 검증용 깊이 라벨(ground truth)를 포함하는 학습 데이터를 생성한다. 본 발명에서, 학습 데이터는 픽셀의 비용 함수들로 계산된 깊이 라벨들로 표현된 비용 특징 벡터와 검증용 깊이 라벨로 구성된 학습용 비용 볼륨이라고 부를 수 있다.
랜덤 포레스트 학습부(250)는 비용 특징 벡터와 검증용 깊이 라벨을 포함하는 비용 볼륨을 이용하여 복수의 비용 함수들 중에서 중요 매칭 함수들을 분류하도록 랜덤 포레스트 분류 모델을 분류 학습시킨다. 랜덤 포레스트 학습부(250)는 학습된 랜덤 포레스트 분류 모델에서, 특징 벡터를 구성하는 각 비용 함수의 중요도를 계산하고, 중요도가 높은 순서대로 일정 수의 비용 함수들을 선택한다.
랜덤 포레스트 학습부(250)는 랜덤 포레스트 분류 모델에서 선택된 중요 비용 함수들로 깊이 라벨을 예측하도록 랜덤 포레스트 회귀 모델을 회귀 학습시킨다.
깊이 지도 생성부(270)는 라이트 필드 이미지와 같은 멀티뷰 이미지를 깊이 추정을 위해 입력받는다. 깊이 지도 생성부(270)는 학습된 랜덤 포레스트 회귀 모델에 사용된 중요 비용 함수들로 픽셀의 깊이 라벨들을 계산하여 중요 비용 특징 벡터를 생성한다. 그리고, 깊이 지도 생성부(270)는 학습된 랜덤 포레스트 회귀 모델로 픽셀의 중요 비용 특징 벡터를 입력하여, 복수의 중요 비용 함수들로 계산된 픽셀의 깊이 라벨들이 조합된 깊이 값을 출력한다.
입력된 깊이 라벨들이 학습된 랜덤 포레스트 회귀 모델의 중요 비용 함수 가중치로 가중 합산되어, 해당 픽셀의 깊이값으로 추정된다.
다음에서, 깊이 추정 장치(200)의 각 구성에 대해서 다음에서 자세히 설명한다.
도 5는 한 실시예에 따른 학습용 이미지셋 생성 방법을 설명하는 도면이고, 도 6은 가상 환경에서 만들어진 라이트 필드 이미지들의 예시이고, 도 7은 한 실시예에 따른 렌즈릿 이미지 생성 방법을 설명하는 도면이며, 도 8은 한 실시예에 따른 노이즈 모델에 사용되는 컬러 채널별 인텐시티에 따른 표준 편차 그래프이다.
도 5를 참고하면, 학습용 이미지셋 생성부(210)는 가상 환경에서 만들어진 라이트 필드 이미지(20)를 증강시켜 실제 라이트 필드 이미지를 모사한 라이트 필드 이미지(90)를 학습용 이미지셋을 생성한다. 가상 환경에서 만들어진 라이트 필드 이미지(20)는 예를 들면, 도 6과 같이 제공되는 라이트 필드 이미지들이고, 물질, 베이스라인, 질감, 컬러 분포가 다양한 가상 환경에서 만들어진 라이트 필드 이미지를 이용할 수 있다.
먼저, 학습용 이미지셋 생성부(210)는 라이트 필드 카메라로부터 획득한 백색 평면 이미지(white plane image)로부터 비네팅 맵(30)을 획득한다. 여러 번 촬영한 백색 평면 이미지들의 평균으로 비네팅 맵(30)을 획득할 수 있다. 학습용 이미지셋 생성부(210)는 가상 환경에서 만들어진 라이트 필드 이미지(20)에 비네팅 맵(30)를 적용하여 비네팅 적용된 이미지(40)를 생성한다.
학습용 이미지셋 생성부(210)는 비네팅 적용된 이미지(40)로부터 렌즈릿 이미지(50)를 생성한다. 도 7을 참고하면, 학습용 이미지셋 생성부(210)는 이미지(40)를 구성하는 서브 어퍼처 이미지들 각각에서 같은 위치의 픽셀을 하나의 렌즈릿으로 수집하여 렌즈릿 이미지(50)를 생성한다.
도 5를 참고하면, 학습용 이미지셋 생성부(210)는 렌즈릿 이미지(50)를 그레이 스케일의 RAW 이미지(60)로 변환한다.
도 5를 참고하면, 학습용 이미지셋 생성부(210)는 RAW 이미지(60)에 라이트 필드 카메라의 노이즈를 모사한 노이즈 맵(70)을 적용한다. 노이즈 모델은 도 8과 같이 컬러 채널별 인텐시티(intensity)에 따른 표준 편차(standard deviation)를 기초로 추정된다. 도 8의 그래프에서 기울기는 신호 종속적인 가우시안 노이즈를 가지는 이미지를 생성하는 표준 편차로 이용된다. 이러한, 신호 종속적인 가우시안 노이즈 모델은 신호 독립적인 표준 편차로 표현되는 종래의 가우시안 노이즈 모델보다 실제 카메라 노이즈처럼 모사할 수 있다. 적절한 노이즈 모델을 결정하기 위해 균일한 조명 아래에서 흰색 평면 장면의 15개 이미지를 촬영하고, 촬영된 시퀀스를 기반으로 각 픽셀의 인텐시티 통계를 추출한다.
도 5를 참고하면, 학습용 이미지셋 생성부(210)는 노이즈 맵(70)이 적용된 RAW 이미지를 컬러 이미지(80)로 복원한다. 학습용 이미지셋 생성부(210)는 RAW 이미지로부터 픽셀별 컬러를 보간하여 컬러 이미지(80)를 생성한다. 예를 들면, 디모자익((Demosaic) 방법으로 컬러를 보간할 수 있다.
학습용 이미지셋 생성부(210)는 컬러 이미지(80)의 픽셀들을 서브 어퍼처 이미지들로 재배치하여, 비네팅 효과 및 노이즈 등을 모사한 라이트 필드 이미지(90)를 생성한다.
도 9는 한 실시예에 따른 복수의 비용 함수들을 이용한 특징 벡터 생성 방법을 도식적으로 설명하는 도면이고, 도 10은 한 실시예에 따른 매칭 그룹을 설명하는 도면이며, 도 11는 한 실시예에 따른 학습용 비용 볼륨 생성 방법을 도식적으로 설명하는 도면이다.
도 9를 참고하면, 학습용 비용 특징 벡터 생성부(230)는 학습용 이미지셋 생성부(210)에서 생성된 데이터셋을 기초로 랜덤 포레스트 학습부(250)에서 이용되는 픽셀의 비용 볼륨(Q)를 생성한다. 픽셀은 랜덤으로 선택될 수 있다. 비용 볼륨(Q)는 각 픽셀(x)의 비용 특징 벡터(q)와 검증용 깊이 라벨(lgt)를 포함한다. 검증용 깊이 라벨(lgt)은 도 6과 같은 가상 환경에서 만들어진 라이트 필드 이미지에서 제공된다.
비용 특징 벡터는 스테레오 매칭을 위한 복수의 비용 함수들로 계산된 깊이 라벨들로 구성된다. 복수의 비용 함수들은 SAD(Sum of Absolute Difference) 함수, ZNCC(Zero-mean Normalized Cross correlation) 함수, Census(Census Transform) 함수, GRAD(Sum of Gradient Difference) 함수, 그리고 이들의 조합 함수들로 구성될 수 있다.
또한, 특징 벡터는 기준 뷰 이미지로부터 같은 거리에 있는 타겟 뷰 이미지들로 구성된 매칭 그룹별로 비용 함수들의 특징 벡터를 구한다. 매칭 그룹은 복수일 수 있다. 도 10의 (a)를 참고하면, 매칭 그룹 1은 중앙의 기준 뷰 이미지에 인접한 타겟 뷰 이미지들로 구성된 매칭 그룹이다. 도 10의 (b)를 참고하면, 매칭 그룹 2는 중앙의 기준 뷰 이미지로부터 한 뷰 떨어진 타겟 뷰 이미지들로 구성된 매칭 그룹이다.
예를 들어, 매칭 그룹이 4개인 경우, 비용 특징 벡터(q)는 수학식 1과 같이 표현되고, 31개의 비용 함수들로 획득되는 각 매칭 그룹의 비용 특징 벡터(q g)는 수학식 2와 같이 표현된다. 31개의 비용 함수들을 이용하고, 4개 매칭 그룹에 대해 깊이 라벨을 계산하는 경우, 수학식 1의 비용 특징 벡터는 124 차원 벡터로 구성된다.
예를 들면, 수학식 2에서, D1에서 D4 각각은 SAD 함수(CA), ZNCC 함수(CZ), Census 함수(CC), GRAD 함수(CG)로부터 획득된 깊이 라벨일 수 있다. D5에서 D13 각각은 SAD 함수(CA)와 ZNCC 함수(CZ)의 결합 함수(CA-G)로부터 획득된 깊이 라벨일 수 있다. D14에서 D22 각각은 Census 함수(CC)와 GRAD 함수(CG)의 결합 함수(Cc-G)로부터 획득된 깊이 라벨일 수 있다. D23에서 D31 각각은 SAD 함수(CA)와 Census 함수(CC)의 결합 함수(CA-C)로부터 획득된 깊이 라벨일 수 있다.
각 비용 함수는 알려진 스테레오 매칭 함수이므로 자세한 설명은 생략한다. 예를 들면, SAD 함수(CA)는 수학식 3과 같이 표현되고, ZNCC 함수(CZ)는 수학식 4와 같이 표현되고, Census 함수(CC)는 수학식 5와 같이 표현되고, GRAD 함수(CG)는 수학식 6과 같이 표현될 수 있다. SAD 함수(CA)와 GRAD 함수(CG)의 결합 함수(CA-G)는 수학식 7과 같이 표현된다. Census 함수(CC)와 GRAD 함수(CG)의 결합 함수(Cc-G) 수학식 8과 같이 표현된다. SAD 함수(CA)와 Census 함수(CC)의 결합 함수(CA-C)는 수학식 9와 같이 표현된다.
수학식 3에서 수학식 9의 각 비용 함수는 서브 픽셀(x)에서의 깊이 라벨(l)을 구한다. 는 기준이 되는 중앙(center)의 서브 어퍼처 이미지(기준 뷰)에서의 픽셀값이고, 은 기준 서브 어퍼처 이미지에서 일정 거리 떨어진 다른 서브 어퍼쳐 이미지(타겟 뷰)에서의 픽셀값이다.
수학식 7부터 수학식 9를 참고하면, 각 결합 함수에서 9개의 깊이 라벨을 추출하기 위해 는 0.1 단위로 0.1부터 0.9에서 추출된 값이다. 비용 함수의 수를 늘리거나 줄이기 위해 가 가변될 수 있음은 당연하다.
도 11을 참고하면, 학습용 비용 특징 벡터 생성부(230)는 매칭 그룹별로 복수의 비용 함수들로부터 계산된 임의 픽셀의 깊이 라벨들을 포함하는 비용 특징 벡터()를 구하고, 비용 특징 벡터와 이의 검증용 깊이 라벨(lgt)로 임의 픽셀의 비용 볼륨을 생성한다.
도 12는 한 실시예에 따른 중요 매칭 함수 분류를 위한 랜덤 포레스트 분류 학습을 설명하는 도면이고, 도 13은 한 실시예에 따른 깊이 라벨 예측을 위한 랜덤 포레스트 회귀 학습을 설명하는 도면이며, 도 14는 한 실시예에 따라 추정된 깊이 지도의 성능을 비교한 도면이다.
도 12를 참고하면, 랜덤 포레스트 학습부(250)는 학습용 비용 특징 벡터 생성부(230)로부터 픽셀의 비용 특징 벡터(q)와 검증용 깊이 라벨(lgt)을 포함하는 비용 볼륨(Q)을 입력받는다.
랜덤 포레스트 학습부(250)는 비용 함수들로부터 계산된 깊이 라벨들로 구성된 비용 특징 벡터(q)와 검증용 깊이 라벨을 이용하여, 수학식 10과 같이 분류 학습용 랜덤 포레스트의 크로스 엔트로피 를 최소화하는 분할 함수 파라미터들(split functionparameters)()을 구하도록 학습한다.
크로스 엔트로피는 수학식 11과 같이 정의될 수 있다. 는 수학식 12와 같이 검증용 깊이 라벨로부터 최대 2 라벨 차이까지의 페널티로 정의될 수 있다. 는 이진 분할 함수 파라미터들의 셋이다. Q는 특징 벡터(q)와 검증용 깊이 라벨(lgt)의 셋이다. L은 깊이 라벨들의 집합이고, ㅣ은 L에 속한 깊이 라벨이다.
도 13을 참고하면, 분류 학습된 랜덤 포레스트는 비용 특징 벡터(q)에 포함된 각 비용 함수(예를 들면, 124개의 비용 함수들)의 중요도를 출력한다. 중요도는 비용 특징 벡터(q)의 k번째 원소(element)에 대한 순열 중요도 측정 방법(permutation importance measure)으로 계산될 수 있고, out-of-bagerror 차이를 통해 k번째 원소의 중요도가 결정될 수 있다.
랜덤 포레스트 학습부(250)는 각 비용 함수의 중요도를 기초로 중요도가 높은 순서대로 일정 수(N)의 비용 함수들을 선택한다. 랜덤 포레스트 학습부(250)는 각 매칭 그룹에서 선택된 비용 함수들을 이용하여 회귀 학습을 위한 저차원의 중요 비용 특징 벡터 를 생성한다. 회귀 학습을 위한 중요 비용 특징 벡터 는 수학식 13과 같이, 중요도가 높은 순서대로 일정 수(예를 들면, 11개)의 비용 함수들로 계산된 깊이 라벨들로 구성된다.
랜덤 포레스트 학습부(250)는 랜덤 포레스트 회귀 모델에 픽셀의 중요 비용 특징 벡터 를 입력하고 정확한 깊이 라벨을 예측하도록 학습시킨다. 랜덤 포레스트 학습부(250)는 회귀 학습을 통해 중요 비용 특징 벡터를 구성하는 비용 함수들 각각의 가중치가 결정된다.
이후, 깊이 지도 생성부(270)는 중요 비용 함수들 각각으로 계산된 픽셀의 깊이 라벨을 계산하고, 중요 비용 함수들의 깊이 라벨들로 구성된 중요 비용 특징 벡터를 랜덤 포레스트 회귀 모델로 입력한다. 그러면, 깊이 지도 생성부(270)는 학습된 랜덤 포레스트 회귀 모델로부터, 입력된 깊이 라벨들의 가중 합(weighted sum)으로 표현되는 깊이 라벨을 획득한다. 각 중요 비용 함수의 가중치는 랜덤 포레스트 회귀 학습으로 계산된다.
이처럼, 학습된 랜덤 포레스트 모델을 이용해 중요 비용 함수들을 추출하고 또한 각 비용 함수의 중요도(가중치)를 반영하여 최종적으로 깊이 라벨을 결정하므로, 본 발명에 따르면 각 매칭 함수의 장점이 복합된 스테레오 매칭 결과를 얻을 수 있다.
도 14를 참고하면, 본 발명의 비용 함수를 통해 추정된 깊이 지도(a)는 종래 비용 함수(SAD와 GRAD의 결합 비용)로 추정된 깊이 지도(b)에 비해 신뢰할만한 깊이값을 추출하는 것을 확인할 수 있다.
도 15는 한 실시예에 따른 라이트 필드 이미지의 깊이 추정을 위한 랜덤 포레스트 학습 방법의 흐름도이고, 도 16은 한 실시예에 따른 학습된 랜덤 포레스트 기반 깊이 추정 방법의 흐름도이다.
도 15를 참고하면, 깊이 추정 장치(200)는 가상 환경에서 만들어진 라이트 필드 이미지들에 실제 라이트 필드 이미지의 비네팅 및 노이즈를 적용하여 학습용 이미지셋을 생성한다(S110).
깊이 추정 장치(200)는 학습용 이미지셋을 기초로 픽셀의 초기 비용 특징 벡터와 검증용 깊이 라벨을 포함하는 비용 볼륨을 생성한다(S120). 초기 비용 특징 벡터는 스테레오 매칭을 위한 복수의 비용 함수들로 계산된 깊이 라벨들로 구성되고, 매칭 그룹별로 초기 비용 특징 벡터가 생성될 수 있다. 한편 본 발명은 라이트 필드 이미지 이외에도 동일 장면을 촬영한 멀티뷰 이미지들로부터 깊이 추정하는데 사용될 수 있으므로, 학습용 이미지셋은 동일 장면을 활영한 멀티뷰 이미지들일 수 있다.
깊이 추정 장치(200)는 비용 볼륨을 기초로 제1 랜덤 포레스트 모델을 분류 학습시킨다(S130). 제1 랜덤 포레스트 모델은 수학식 10의 크로스 엔트로피를 최소화하는 분할 함수 파라미터들()을 구하도록 학습될 수 있다.
깊이 추정 장치(200)는 분류 학습된 제1 랜덤 포레스트로부터 초기 비용 특징 벡터를 구성하는 각 비용 함수(예를 들면, 124개의 비용 함수들)의 중요도를 측정한다(S140). 깊이 추정 장치(200)는 초기 비용 특징 벡터를 구성하는 비용 함수들이 분류에 영향을 미치는 정도를 기초로 각 비용 함수들의 중요도를 측정할 수 있고, 예를 들면, 순열 중요도 측정을 이용할 수 있다.
깊이 추정 장치(200)는 초기 비용 특징 벡터를 구성하는 비용 함수들 중에서 중요도가 높은 일정 수의 비용 함수들을 선택하여 저차원의 중요 비용 특징 벡터()를 생성한다(S150).
깊이 추정 장치(200)는 중요 비용 특징 벡터를 기초로 정확한 깊이 라벨을 예측하도록 제2 랜덤 포레스트 모델을 회귀 학습시킨다(S160).
도 16을 참고하면, 깊이 추정 장치(200)는 깊이 추정용 멀티뷰 이미지를 입력받는다(S210). 깊이 추정용 이미지는 라이트 필드 이미지와 같은 멀티뷰 이미지이다.
깊이 추정 장치(200)는 랜덤 포레스트 회귀 모델의 학습 사용된 중요 비용 함수들로 입력 이미지의 픽셀별 깊이 라벨들을 계산하여 픽셀별 중요 비용 특징 벡터를 생성한다(S220).
깊이 추정 장치(200)는 픽셀별 중요 비용 특징 벡터를 학습된 랜덤 포레스트 회귀 모델에 입력하여 픽셀별로 추정된 깊이값을 획득한다(S230). 픽셀별 추정된 깊이값은 복수의 중요 비용 함수의 가중치로 복수의 중요 비용 함수의 깊이 라벨을 가중 합산한 결과이다. 깊이 추정 장치(200)는 결과적으로 복수의 중요 비용 함수들을 가중 합산한 새로운 비용 함수로 스테레오 매칭한 깊이값을 획득할 수 있다.
깊이 추정 장치(200)는 픽셀별로 추정된 깊이값을 기초로 입력 이미지의 깊이 지도를 생성한다(S240).
이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
Claims (15)
- 적어도 하나의 프로세서에 의해 동작하는 장치가 깊이 추정하는 방법으로서,
학습용 멀티뷰 이미지에서, 스테레오 매칭을 위한 복수의 비용 함수들 각각으로 임의 픽셀의 깊이 라벨을 계산하고, 계산한 깊이 라벨들을 포함하는 초기 비용 특징 벡터를 생성하는 단계,
상기 초기 비용 특징 벡터와 상기 임의 픽셀의 검증용 깊이 라벨(ground truth)로 구성된 픽셀별 학습 데이터를 기초로 제1 랜덤 포레스트 모델을 분류 학습시키는 단계,
분류 학습된 상기 제1 랜덤 포레스트 모델을 통해 상기 초기 비용 특징 벡터를 구성하는 상기 복수의 비용 함수들의 중요도를 계산하고, 중요도를 기초로 상기 복수의 비용 함수들 중에서 선택된 일정 수의 중요 비용 함수들을 이용하여 중요 비용 특징 벡터를 생성하는 단계, 그리고
상기 중요 비용 특징 벡터를 기초로 해당 임의 픽셀의 검증용 깊이 라벨을 예측하도록 제2 랜덤 포레스트 모델을 회귀 학습시키는 단계
를 포함하는 깊이 추정 방법. - 제1항에서,
깊이 추정용 이미지를 입력받는 단계,
상기 중요 비용 함수들로 상기 깊이 추정용 이미지의 픽셀별 깊이 라벨들을 계산하여 픽셀별 중요 비용 특징 벡터를 생성하는 단계, 그리고
상기 픽셀별 중요 비용 특징 벡터를 상기 제2 랜덤 포레스트 모델에 입력하여 추정된 픽셀별 깊이값을 획득하는 단계
를 더 포함하는 깊이 추정 방법. - 제1항에서,
상기 학습용 멀티뷰 이미지를 생성하는 단계를 더 포함하고,
상기 학습용 멀티뷰 이미지를 생성하는 단계는
라이트 필드 카메라로 촬영한 백색 평면 이미지로부터 비네팅 맵을 획득하는 단계, 그리고
가상 환경에서 만들어진(synthetic) 라이트 필드 이미지에 상기 비네팅 맵을 적용하여 비네팅 적용된 이미지를 생성하는 단계
를 포함하는, 깊이 추정 방법. - 제3항에서,
상기 학습용 멀티뷰 이미지를 생성하는 단계는
상기 비네팅 적용된 이미지를 구성하는 서브 어퍼처 이미지들 각각에서 같은 위치의 픽셀을 하나의 렌즈릿으로 수집하여 렌즈릿 이미지를 생성하는 단계,
상기 렌즈릿 이미지를 그레이 스케일 이미지로 변환하고, 상기 라이트 필드 카메라의 노이즈를 모사한 노이즈 맵을 적용한 후, 컬러 이미지로 복원하는 단계, 그리고
상기 컬러 이미지의 픽셀들을 서브 어퍼처 이미지들로 재배치하여 학습용 라이트 필드 이미지를 생성하는 단계
를 더 포함하는, 깊이 추정 방법. - 제1항에서,
상기 초기 비용 특징 벡터는 복수의 매칭 그룹들에서 상기 복수의 비용 함수들로 계산된 깊이 라벨들의 집합이고,
각 매칭 그룹은 기준 뷰(Reference view) 이미지로부터 같은 거리에 있는 타겟 뷰(Target view) 이미지들로 구성되는, 깊이 추정 방법. - 제1항에서,
상기 복수의 비용 함수들은
SAD(Sum of Absolute Difference) 함수, ZNCC(Zero-mean Normalized Cross correlation) 함수, Census(Census Transform) 함수, 그리고 GRAD(Sum of Gradient Difference) 함수 중 적어도 두 함수의 결합 함수들을 포함하는, 깊이 추정 방법. - 적어도 하나의 프로세서에 의해 동작하는 장치가 깊이 추정하는 방법으로서,
가상 환경에서 만들어진(synthetic) 라이트 필드 이미지들에 라이트 필드 카메라의 비네팅 맵 및 노이즈 맵을 적용하여 학습용 이미지셋을 생성하는 단계,
상기 학습용 이미지셋에 포함된 각 학습용 이미지의 임의 픽셀에 대해, 스테레오 매칭을 위한 복수의 비용 함수들 각각으로 해당 픽셀의 깊이 라벨들을 계산하는 단계,
임의 픽셀에 대해 계산한 깊이 라벨들과 해당 임의 픽셀의 검증용 깊이 라벨(ground truth)을 이용하여 랜덤 포레스트 분류 모델 및 랜덤 포레스트 회귀 모델을 단계적으로 학습시키는 단계,
상기 랜덤 포레스트 회귀 모델의 회귀 학습에 사용된 중요 비용 함수들을 기초로 깊이 추정용 이미지의 픽셀별 깊이 라벨들을 계산하는 단계, 그리고
상기 깊이 추정용 이미지의 픽셀별 깊이 라벨들을 상기 랜덤 포레스트 회귀 모델에 입력하여 추정된 픽셀별 깊이값을 획득하는 단계를 포함하고,
상기 랜덤 포레스트 회귀 모델은 중요 비용 함수들로부터 해당 임의 픽셀의 깊이 라벨을 예측하도록 학습되고,
상기 중요 비용 함수들은 상기 랜덤 포레스트 분류 모델의 분류 학습을 통해 획득한 중요도를 기초로 상기 복수의 비용 함수들 중에서 선택되는, 깊이 추정 방법. - 제7항에서,
상기 학습시키는 단계는
상기 복수의 비용 함수들 각각으로 계산한 깊이 라벨들과 해당 임의 픽셀의 검증용 깊이 라벨로 상기 랜덤 포레스트 분류 모델을 학습시키는 단계,
상기 랜덤 포레스트 분류 모델의 분류에 영향을 미친 정도를 기초로 상기 복수의 비용 함수들의 중요도를 계산하고, 중요도를 기초로 상기 복수의 비용 함수들 중에서 상기 중요 비용 함수들을 선택하는 단계, 그리고
상기 중요 비용 함수들로 계산된 깊이 라벨들을 기초로 해당 임의 픽셀의 깊이 라벨을 예측하도록 상기 랜덤 포레스트 회귀 모델을 학습시키는 단계
를 포함하는, 깊이 추정 방법. - 제7항에서,
상기 학습용 이미지셋을 생성하는 단계는
각 가상 환경에서 만들어진 라이트 필드 이미지에, 상기 라이트 필드 카메라로 촬영한 백색 평면 이미지로부터 획득한 비네팅 맵을 적용하여 비네팅 적용된 이미지를 생성하는 단계,
상기 비네팅 적용된 이미지를 구성하는 서브 어퍼처 이미지들 각각에서 같은 위치의 픽셀을 하나의 렌즈릿으로 수집하여 렌즈릿 이미지를 생성하는 단계,
상기 렌즈릿 이미지를 그레이 스케일 이미지로 변환하고, 상기 라이트 필드 카메라의 노이즈를 모사한 노이즈 맵을 적용한 후, 컬러 이미지로 복원하는 단계, 그리고
상기 컬러 이미지의 픽셀들을 서브 어퍼처 이미지들로 재배치하여 학습용 라이트 필드 이미지를 생성하는 단계
를 포함하는, 깊이 추정 방법. - 제7항에서,
상기 해당 픽셀의 깊이 라벨들을 계산하는 단계는
복수의 매칭 그룹들에서 상기 복수의 비용 함수들로 계산된 깊이 라벨들의 집합이고,
각 매칭 그룹은 기준 뷰(Reference view) 이미지로부터 같은 거리에 있는 타겟 뷰(Target view) 이미지들로 구성되는, 깊이 추정 방법. - 적어도 하나의 프로세서에 의해 동작하는 장치가 깊이 추정하는 방법으로서,
깊이 추정용 멀티뷰 이미지를 입력받는 단계,
복수의 중요 비용 함수들로 상기 깊이 추정용 멀티뷰 이미지의 픽셀별 깊이 라벨들을 계산하는 단계, 그리고
상기 픽셀별 깊이 라벨들을 학습된 랜덤 포레스트 회귀 모델에 입력하여 추정된 픽셀별 깊이값을 획득하는 단계를 포함하고,
상기 랜덤 포레스트 회귀 모델은 상기 복수의 중요 비용 함수들로 계산된 깊이 라벨들로부터 해당 픽셀의 깊이 라벨을 예측하도록 학습된 모델이고,
상기 복수의 중요 비용 함수들은 랜덤 포레스트 분류 모델의 분류 학습을 통해 획득한 중요도를 기초로 복수의 초기 비용 함수들 중에서 선택된 함수들인, 깊이 추정 방법. - 제11항에서,
학습용 멀티뷰 이미지에서, 스테레오 매칭을 위한 상기 복수의 초기 비용 함수들 각각으로 임의 픽셀의 깊이 라벨들을 계산하고, 임의 픽셀에 대해 계산한 깊이 라벨들과 해당 임의 픽셀의 검증용 깊이 라벨(ground truth)을 이용하여 상기 랜덤 포레스트 분류 모델 및 상기 랜덤 포레스트 회귀 모델을 단계적으로 학습시키는 단계를 더 포함하는, 깊이 추정 방법. - 제12항에서,
상기 학습시키는 단계는
상기 복수의 초기 비용 함수들 각각으로 계산한 깊이 라벨들과 해당 임의 픽셀의 검증용 깊이 라벨로 상기 랜덤 포레스트 분류 모델을 학습시키는 단계,
상기 랜덤 포레스트 분류 모델의 분류에 영향을 미친 정도를 기초로 상기 복수의 초기 비용 함수들의 중요도를 계산하고, 중요도를 기초로 상기 복수의 초기 비용 함수들 중에서 상기 중요 비용 함수들을 선택하는 단계, 그리고
상기 중요 비용 함수들로 계산된 깊이 라벨들을 기초로 해당 임의 픽셀의 깊이 라벨을 예측하도록 상기 랜덤 포레스트 회귀 모델을 학습시키는 단계
를 포함하는, 깊이 추정 방법. - 제12항에서,
상기 학습용 멀티뷰 이미지는 가상 환경에서 만들어진(synthetic) 라이트 필드 이미지에 라이트 필드 카메라를 모사한 비네팅 맵과 노이즈 맵을 적용한 이미지인, 깊이 추정 방법. - 제11항에서,
상기 복수의 초기 비용 함수들은 SAD(Sum of Absolute Difference) 함수, ZNCC(Zero-mean Normalized Cross correlation) 함수, Census(Census Transform) 함수, 그리고 GRAD(Sum of Gradient Difference) 함수 중 적어도 두 함수의 결합 함수들을 포함하는, 깊이 추정 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180028242A KR102052564B1 (ko) | 2018-03-09 | 2018-03-09 | 라이트 필드 이미지의 깊이 추정 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180028242A KR102052564B1 (ko) | 2018-03-09 | 2018-03-09 | 라이트 필드 이미지의 깊이 추정 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190106570A KR20190106570A (ko) | 2019-09-18 |
KR102052564B1 true KR102052564B1 (ko) | 2019-12-05 |
Family
ID=68070844
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180028242A KR102052564B1 (ko) | 2018-03-09 | 2018-03-09 | 라이트 필드 이미지의 깊이 추정 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102052564B1 (ko) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111586299B (zh) * | 2020-05-09 | 2021-10-19 | 北京华捷艾米科技有限公司 | 一种图像处理方法和相关设备 |
KR102380563B1 (ko) * | 2020-06-02 | 2022-03-31 | 인하대학교 산학협력단 | 단안 비디오로부터의 5차원 라이트필드 비디오 합성 방법 및 장치 |
KR102536096B1 (ko) * | 2021-06-23 | 2023-05-26 | 주식회사 쓰리아이 | 학습 데이터 생성 방법 및 그를 위한 컴퓨팅 장치 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101784620B1 (ko) | 2016-07-26 | 2017-11-06 | 연세대학교 산학협력단 | 스테레오 매칭을 통한 깊이값의 신뢰도 측정 방법 및 장치 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101758064B1 (ko) * | 2013-06-05 | 2017-07-14 | 삼성전자주식회사 | 깊이 영상을 이용하는 추정기 학습 방법 및 자세 추정 방법 |
EP3026628A1 (en) * | 2014-11-26 | 2016-06-01 | Thomson Licensing | Method and apparatus for estimating depth of unfocused plenoptic data |
-
2018
- 2018-03-09 KR KR1020180028242A patent/KR102052564B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101784620B1 (ko) | 2016-07-26 | 2017-11-06 | 연세대학교 산학협력단 | 스테레오 매칭을 통한 깊이값의 신뢰도 측정 방법 및 장치 |
Non-Patent Citations (1)
Title |
---|
Sven W. et al. Globally Consistent Multi-Label Assignment on the Ray Space of 4D Light Fields, 2013 IEEE Conference on Computer Vision and Pattern Recognition, 23-28 June 2013.* |
Also Published As
Publication number | Publication date |
---|---|
KR20190106570A (ko) | 2019-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110036410B (zh) | 用于从视图中获得距离信息的设备和方法 | |
JP5206853B2 (ja) | 補間画像生成装置、再構成画像生成装置、補間画像生成方法及びプログラム | |
US8754963B2 (en) | Processing images having different focus | |
RU2668404C2 (ru) | Устройство для записи изображения в трехмерном масштабе, способ создания 3D-изображения и способ формирования устройства для записи изображения в трехмерном масштабе | |
Zhang et al. | Multiple view image denoising | |
US11651581B2 (en) | System and method for correspondence map determination | |
KR102052564B1 (ko) | 라이트 필드 이미지의 깊이 추정 방법 및 장치 | |
CN111028273B (zh) | 一种基于多流卷积神经网络的光场深度估计方法及其实现系统 | |
Blasinski et al. | Optimizing image acquisition systems for autonomous driving | |
CN111080774B (zh) | 一种应用深度采样进行光场重构的方法及系统 | |
CN103986854A (zh) | 图像处理设备、摄像设备和控制方法 | |
US12100105B2 (en) | Method for performing volumetric reconstruction | |
CN115311186A (zh) | 一种红外与可见光图像跨尺度注意力对抗融合方法及终端 | |
US11967096B2 (en) | Methods and apparatuses of depth estimation from focus information | |
Cheng et al. | Semantic single-image dehazing | |
Chen et al. | Focus manipulation detection via photometric histogram analysis | |
CN113191962B (zh) | 基于环境背景光的水下图像颜色恢复方法、装置及存储介质 | |
Li et al. | Deep hyperspectral-depth reconstruction using single color-dot projection | |
JP5900017B2 (ja) | 奥行き推定装置、再構成画像生成装置、奥行き推定方法、再構成画像生成方法及びプログラム | |
CN116704111B (zh) | 图像处理方法和设备 | |
Lin et al. | Transformer-Based Light Field Geometry Learning for No-Reference Light Field Image Quality Assessment | |
Bisagno et al. | Virtual camera modeling for multi-view simulation of surveillance scenes | |
Zizien et al. | Regarding the quality of disparity estimation from distorted light fields | |
JPWO2020075237A1 (ja) | 画像処理装置および画像処理方法 | |
JP2018081378A (ja) | 画像処理装置、撮像装置、画像処理方法および画像処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |