KR20090080556A

KR20090080556A - 복잡성-적응형 2차원-대-3차원 비디오 시퀀스 변환

Info

Publication number: KR20090080556A
Application number: KR1020097012261A
Authority: KR
Inventors: 하오홍 왕; 시앙-춘 리; 사라스 만주나스
Original assignee: 퀄컴 인코포레이티드
Priority date: 2006-12-22
Filing date: 2007-12-22
Publication date: 2009-07-24
Also published as: TW200843479A; KR101096468B1; US8330801B2; EP2119247A1; CN101563933A; WO2008080156A1; JP4938861B2; JP2010515303A; CN101563933B; US20080150945A1

Abstract

2-차원 (2D) 입력의 프레임을 평면 이미지 클래스 및 비-평면 이미지 클래스중의 하나로 분류하는 복잡성-적응형 및 자동 2D 대 3-차원 (3D) 이미지 및 비디오 변환이 설명된다. 평면 이미지 클래스 프레임은 디스플레이를 위해 바로 3D 입체 로 변환된다. 비-평면 이미지로 분류되는 프레임은 깊이 맵 추정을 형성하기 위해 복잡성에 기초하여 자동적 및 적응적으로 더 프로세싱된다. 그 후에, 비-평면 이미지 클래스 프레임은 깊이 맵 추정 또는 조정된 깊이 맵을 사용하여 3D 입체 이미지로 변환된다. 조정된 깊이 맵은 복잡성에 기초하여 프로세싱된다

3차원 비디오 변환, 복잡성 적응, 깊이 맵, 평면 이미지

Description

복잡성-적응형 2차원-대-3차원 비디오 시퀀스 변환{COMPLEXITY-ADAPTIVE 2D-TO-3D VIDEO SEQUENCE CONVERSION}

Ⅰ.분야

본 개시는 일반적으로 입체 영상 비디오 기술에 관한 것이며, 더 상세하게는 복잡성-적응형 2차원-대-3차원 이미지 및 비디오 변환에 관한 것이다.

Ⅱ.배경기술

입체 영상 비디오 기술의 발달은 좌측 뷰 (view) 및 우측 뷰 사이의 양안 시차 (binocular disparity) 를 통해 실제 씬 (scene) 의 3-차원 인식을 가능하게 한다. 이것은 우리의 좌측 및 우측 눈을 통해 보이는 두 개의 분리된 뷰를 획득할 수 있는 인간 시각 시스템을 흉내낸다. 입체 영상 비디오 기술은 인간 뇌의 많은 부분이 오로지 양안 정보의 프로세싱에 헌신한다는 가정에 기초한다. 다시 말하면, 이 입체 영상 시스템은 뷰의 시차를 측정하고 관찰자로부터 씬 내의 객체의 상대적 거리를 잴 수 있는 우리 뇌의 능력을 이용한다.

현재, 입체 비디오의 캡쳐, 프로세싱, 압축, 전송 및 디스플레이를 위한 접근법 개발에 굉장한 노력이 이뤄졌다. 어떤 다른 노력은 이 기술을 표준화하는데 행해졌다. 그러나, 현재 배치된 멀티미디어 디바이스의 대부분은 모노스코픽 (monoscopic) 기반내에서 구현되며, 시장에서 생성 및 판매되는 비디오의 대부분은 2-차원 (2D) 영화이다. 따라서, 2D-대-3D 비디오변환 기술이 3D 매체 소 비자 마켓을 확장시키도록 기대된다.

최근에, 2D 이미지를 3D 이미지로 변환키려는 몇몇 시도가 있었다. 한 가지 접근에서, 실시간 방법은 다수의 2D 이미지의 분리된 영역의 깊이를 그들의 콘트라스트, 선명도 및 크로미넌스 (chrominance) 로부터 및 모션 정보로부터 계산한다. 그 후에, 변환은 획득한 깊이 정보에 기초하여 수행될 수 있다. 또 다른 접근에서, 얼굴 특징 기반 파라메트릭 깊이 맵 생성 방식은 2D 머리-및-어깨 이미지를 3D로 변환한다. 더 나아가 유사한 방식으로, 운동학 및 3D 휴먼 워킹 모션 모델 (human walking motion model) 은 단안 이미지 시퀀스의 3D 보조를 추정하기 위한 선행 지식의 소스로 사용된다.

이미지를 2D 에서 3D로 변환하기 위한 또 다른 시도에서, 깊이 맵은 자동 데이터 상관 해석이 실패하는 경우 수동 프로세싱이 호출되는, 자동 및 수동 기술의 혼합된 세트에 기초하여 추출된다. 또 다른 시도에서, 깊이 맵을 생성하는 감독되지 않은 방법이 제안되었으나, 이 접근의 일부 단계, 예를 들어 프리프로세싱에서의 이미지 분류는 사소하지 않고 구현하기에 매우 복잡할 수 있다. 따라서, 구현은 실용적이지 않을 수 있다. 또 다른 시도에서, 실시간 2D-대-3D 이미지 변환 알고리즘은 모션 검출 및 영역 세그멘테이션 (segmentation) 을 사용할 수 있으나, 객체 세그멘테이션 및 객체 깊이 추정의 부정확성으로 인해 아티팩트 (artifact) 는 피할 수 없다. 세그멘팅된 객체는 객체 세그멘테이션 아티팩트를 피하기 위해 사용된다.

나아가 이미지를 2D 에서 3D로 변환하기 위한 또 다른 시도에서, 카메라 모 션 분석은 비디오 객체 평면 (VOP : Video Object Plane) 의 모션 벡터 데이터상에 수행되고, 객체는 카메라 모션 유형에 따라 수평으로 상이하게 이동된다. 또 다른 접근에서, 통상의 SfM (Structure from Motion) 방법, 예를 들어, 확장된 Kalman 필터는 객체-레벨 프로세싱으로 확장된다. 더 나아가 시도에서, 새로운 온-라인 ICA 혼합 모델은 이미지 세그멘테이션에 사용되고, 그 후 시스템은 3D-효과 이미지를 생성하기 위해 깊이 추정 및 픽셀 쉬프팅 알고리즘을 통과한다.

쉽게 알 수 있듯이, 2D 에서 3D 로의 이미지 및/또는 비디오 변환을 위한 현존하는 접근법은 복잡성-적응형이 아니다. 또한, 2D 대 3D 이미지 및/또는 비디오 변환을 위한 주지의 접근법은 실시간 및 오프라인 2D 대 3D 비디오 변환 모두에 대해 일반적이지 않거나 일부 이전의 레코딩된 2D 영화의 3D 효과를 강화하기 위해 사용된다.

따라서, 복잡성-적응형 2D-대-3D 이미지 및 비디오 변환기술이 당업계에서 요구된다.

개요

복잡성-적응형 2D-대-3D 이미지 및 비디오 변환기술이 여기에 기재된다. 일 실시형태에서, 장치는 2-차원 (2D) 입력의 프레임을 제 1 이미지 클래스 또는 제 2 이미지 클래스로 분류하도록 동작하는 이미지 분류 모듈을 포함한다. 이 장치는 또한 깊이 맵 추정을 생성하기 위해, 복잡성에 기초하여 제 2 이미지 클래스로 분류된 프레임들을 자동적으로 및 적응적으로 프로세싱하도록 동작하는 이미지 깊이-맵 추정 모듈을 포함한다. 제 1 이미지 클래스로 분류된 프레임을 바 로, 제 2 이미지 클래스로 분류된 프레임을 깊이 맵 추정을 사용하여 3D 입체 이미지로 변환하도록 동작하는 3D 이미지 쌍 생성모듈이 제공된다.

또 다른 양태에서, 방법은 2D 입력을 분석하는 단계, 2D 입력의 프레임을 평면 이미지 클래스 및 비-평면 이미지 클래스로부터 선택된 클래스로 분류하는 단계를 포함한다. 비-평면 이미지로 분류된 프레임은 깊이 맵 추정을 생성하기 위해 복잡성에 기초하여 자동적 및 적응적으로 프로세싱된다. 평면 이미지 클래스로 분류된 프레임은 3D 입체 이미지로 바로 변환된다. 프로세싱 단계 이후, 비-평면 이미지 클래스로 분류된 프레임은 3D 입체 이미지로 변환된다.

본 개시의 다양한 양태 및 실시형태는 이하에서 더 자세히 설명된다.

도면의 간단한 설명

본 개시의 양태 및 실시형태가 동일한 참조 문자는 처음부터 끝까지 동일하다고 간주하는 도면과 함께 고려되는 경우 이하에서 기술되는 상세한 설명으로부터 더 명백해질것이다.

도 1 은 3D 입체 영상 이미징 장치의 블록도를 도시한다.

도 2 는 이미지 깊이 추정 모듈의 블록도를 도시한다.

도 3 은 입체 이미지 쌍 생성 모듈의 블록도를 도시한다.

도 4 는 복잡성-적응형 및 자동 2D-대-3D 이미지 및 비디오 변환 방법의 흐름도를 도시한다.

도 5 는 프레임을 분류 (주밍된 이미지를 결정) 하는 방법의 흐름도를 도시한다.

도 6 은 평가 하에서 평가 중의 선택된 세그멘테이션 영역을 도시한다.

도 7 은 객체 세그멘테이션에 대한 복잡성 적응형 프로세스의 흐름도를 도시한다.

도 8 은 복잡성 적응형 세그멘테이션 및 이미지 깊이-맵 조정 프로세스의 블록도를 도시한다.

도 9 는 입체 이미지 쌍 생성 프로세스의 흐름도를 도시한다.

도 10a 는 양안 시각의 좌측 및 우측 뷰를 도시한다.

도 10b 는 시차 맵을 계산하기 위한 파라미터를 구비한 양안 시각의 지오메트리 모델을 도시한다.

도 11a 내지 도 11b 는 Z-버퍼 기반 3D 보간 프로세스의 흐름도이다.

발명의 상세한 설명

3D 입체 이미징 장치의 실시형태가 비디오 시퀀스의 2-차원 (2D) 이미지의 3D 입체영상 비디오 시퀀스로의 변환에 대한 특정 어플리케이션과 함께 이하에서 기술된다. 그러나, 본 발명은 3D 로의 변환을 요구하는 실 시간 및 오프라인 모두에서의 다른 유형의 2D 이미지를 위해 적응된다는 것이 당업자에게 인식될 것이다. 실시형태는 YUV 또는 적색, 녹색, 청색 (RGB) 포맷에서 프로세싱된 이미지를 위할 뿐만 아니라 일부 이전에 레코딩된 2D 영화의 3D 효과를 향상시키기 위해 적응된다. 2D 이미지는 싱글-센서 카메라 센서에 의해 캡쳐된 모노스코픽 이미지를 포함할 수 있다.

도 1 을 참조하여, 일반적으로 10 으로 지정된, 3D 입체영상 이미징 장치가 도시된다. 일반적으로, 3D 입체영상 이미징 장치 (10) 는 여기 기재된 장치 (10) 의 동작을 제어하는 프로세서 (24), 렌즈 (12), 2 차원 (2D) 이미지 캡쳐 유닛 (14) 및 2D-대-3D 비디오 시퀀스 변환기 (30) 를 포함한다. 프로세서 (24) 는 여기 기재된 동작을 수행하기 위해 메모리 (26) 에 저장된 프로그램 명령 및 프로그래밍 코드를 실행한다. 2D 이미지 캡쳐 유닛 (14) 은 카메라 센서 모듈 (16), 줌 모듈 (18) 및 자동 초점 모듈 (20) 을 포함한다. 카메라, 캠코더 및 다른 비디오 이미징 디바이스 (예를 들어, 비디오 능력을 구비한 모바일 폰) 의 줌 기능 및 자동 초점 기능은 잘 확립되었으며 더 이상의 설명을 요하지 않는다. 장치 (10) 는 유선 또는 무선 통신 네트워크 또는 디바이스와 통신하는 통신 유닛 (25) 을 더 포함한다. 따라서, 장치 (10) 는 모바일, 셀룰러, 위성, 무선 통신 디바이스 또는 비디오 능력을 구비한 다른 전화기에 적합하다. 장치 (10) 는 비디오 능력을 구비한 랩탑, 태블릿 PC, 노트 북 등과 같은 다른 휴대용 또는 포터블 디바이스 (portable device) 를 포함할 수 있다.

카메라 센서 모듈 (16) 은 줌 모듈 (18) 및/또는 자동 초점 모듈 (20) 을 사용하여 모노스코픽 이미지 또는 비디오 시퀀스를 캡쳐 하는 싱글-센서 카메라 센서 모듈이다. 설명을 위해, 오직 한 개의 이미지만 캡쳐되기 때문에 그러한 이미지는 입체 이미징 및 디스플레이 (22) 상의 디스플레이를 하기 위해 좌측 (L) 뷰를 표현하기 위해 사용된다. 입체 이미지 쌍 생성 모듈 (50) 이 좌측 뷰 (원래의 캡쳐된 이미지) 및 이미지 깊이 맵으로부터 그 입체 이미지 쌍 생성 모듈 (50) 에서 제 2 또는 미싱한 (missing) 우측 (R) 뷰를 생성하기 위해 2D-대-3D 비디오 시 퀀스 변환기 (30) 에 포함된다. 도 3 에서 가장 잘 도시되어 있듯이, 일반적으로 입체 이미지 쌍 생성 모듈 (50) 은 시차 맵 서브-모듈 (52), Z-버퍼 3D 표면 복원 서브-모듈 (52) 및 입체 뷰 생성 서브-모듈 (56) 을 포함한다.

2D-대-3D 비디오 시퀀스 변환기 (30) 는 이미지 깊이 추정 모듈 (40) 및 3D 효과 생성 모듈 (60) 을 더 포함한다. 입체 이미지 쌍 생성 모듈 (50) 의 출력은 3D 효과 생성 모듈 (60) 에 의해 더 프로세싱되는 좌측 및 우측 뷰를 출력한다. 예시적인 실시형태에서, 3D 효과 생성 모듈 (60) 은 결과로서 생기는 3D 효과를 표시하는 비싸지 않은 적색-청색 입체 사진 (anaglyph) 이다. 생성된 입체 뷰는 홀로그래픽 (holographic) 및 입체영상 디바이스와 같은 다른 메커니즘에 의해 적합하게 디스플레이된다.

도 2 를 참조하면, 이미지 깊이 추정 모듈 (40) 의 블록도가 도시된다. 이미지 깊이 추정 모듈 (40) 은 이미지 분류 서브-모듈 (42) 및 이미지 깊이-맵 추정 서브-모듈 (46) 을 포함한다. 이미지 분류 서브-모듈 (42) 은 평면 이미지를 프로세싱하는 계산 복잡성을 감소시키고 이미지 깊이-맵 추정 서브-모듈 (46) 에 의해 수행되는 이미지 깊이-맵 생성에서의 가능한 아웃라이어 (outlier) 를 감소시키기 위해 이미지를 평면 또는 비-평면 유형으로 분류하는 평면 이미지 검출기 (44A) 를 가진다. 이미지 분류 서브-모듈 (42) 은 적합한 경우 추정 정확도를 적응적으로 조정하는 복잡성 평가장치 (44B) 를 더 포함한다. 복잡성은 변환 프로세스가 추정 정확성을 프로세싱 스피드와 트레이드하기 위해 간략화될 수 있는 의미에서 적응적이된다.

이미지 깊이-맵 추정 서브-모듈 (46) 은 동일한 객체에 속하는 픽셀의 깊이를 조정하는데 도움되는 객체 세그멘테이션에 대한 규칙-기반 접근법을 사용하는 객체 세그멘터 (object segmenter) (48A) 를 포함한다. 이미지 깊이-맵 추정 서브-모듈 (46) 은 또한 깊이-맵 조정장치 (48B) 에 의한 세그멘테에션 에러에 의해 야기된 시각적인 불편함을 피하기 위해 시간 깊이 평활화 (depth smoothing) 를 사용한다.

도 4 를 참조하여, 2D-대-3D 비디오 시퀀스 변환기 (30) 의 동작이 기술된다. 이 동작은 복잡성-적응형 및 자동 2D-대-3D 이미지 및 비디오 변환 방법으로 지칭되며, 일반적으로 100 으로 지정된다. 설명을 위해, 프로세싱을 위한 이미지는 YUV 또는 RGB 형식을 가지며 출력은 좌측 및 우측 뷰라고 가정된다.

복잡성-적응형 및 자동 2D-대-3D 이미지 및 비디오 변환 방법 (100) 은 단계 S102 에서 입력 이미지를 분석하며, 입력 이미지는 2D 이미지 캡쳐 유닛 (14) 에 의해 캡쳐된다. 다른 방법으로, 입력 이미지는 오래되거나 이전에 레코딩된 2D 영화로부터 온 것일 수 있다. 단계 S102 이후에, 발견적 로직 (heuristic logic) 의 세트로 입력 이미지를 평면 또는 비-평면 프레임 (씬) 으로 분류하도록이미지 분석이 일어나는 단계 S104 이 이어진다. 방법 (100) 에서, 비-평면 프레임 (씬) 만이 그들의 복잡성에 기초하여 더욱 세그멘팅되고 프로세싱된다. 따라서, 단계 104 이후에 입력 이미지가 평면 씬인지 여부의 결정이 평면 이미지 검출기 (44A) 에 의해 이루어지는 단계 S108이 이어진다. 평면 이미지 검출기 (44A) 의 동작이 도 5 와 관련하여 상세히 기술된다. 단계 S108 에서 결정이 " 예" 인 경우 (씬이 평면 씬임을 의미), 단계 S108 이후에 단계 S118 이 이어진다. 평면 이미지의 경우, 결과로서 생기는 좌측 및 우측 뷰는 원래의 이미지와 동일하다. 따라서, 깊이 추정/세그멘테이션과 같은 계속되는 프로세싱이 필요하지 않다. 디폴트 (default) 에 의해, 입체 이미지 쌍 생성 단계 S118 은 좌측 및 우측 뷰에 대해 단계 S108로부터 원래의 이미지를 사용한다.

그러나, 단계 S108 에서의 결정이 "아니오" 인 경우 (씬이 비-평면 씬임을 의미), 단계 S108 이후에 추가 세그멘테이션 및 프로세싱이 뒤이어 일어날 수 있도록 단계 S110 이 이어진다. 일반적으로, 프레임의 깊이 정보는 객체 세그멘테에션에 의해 추정되며 깊이는 관찰에 의해 추출된 다수의 사전-정의된 규칙에 의해 조정된다. 복잡성 적응을 향상시키기 위해, 관련된 깊이 맵을 생성하는 프로세스는 낮은-복잡성 어플리케이션에 대한 세그멘테이션 동작을 제거함으로써 간소화될 수 있다. 따라서, 단계 S110 에서 픽셀 깊이 추정이 일어난다. 단계 S110 이후에 방법 (100) 및 장치 (10) 가 적절한 복잡성 솔루션 (예를 들어, 낮은 복잡성 솔루션, 중간의 복잡성 솔루션 및 높은 복잡성 솔루션) 을 현명하게 선택할 수 있도록 계산 자원 유용성 및 계산 복잡성 요건이 결정되거나 평가되는 단계 S112 가 이어진다. 따라서, 그 평가에 기초하여 프로세싱이 실시간으로 진행되는 경우 낮은 복잡성 솔루션이 요구되는지 여부가 결정된다. 단계 S112 에서 결정이 "아니오" 인 경우, 세그멘테이션 동작 (도 8) 을 갖는 복잡성 적응이 단계 S114 에서 일어난다. 그렇지 않고, 단계 S112에서 결정이 "예" 인 경우, 객체 세그멘터 (48A) 에 의한 객체 세그멘테이션이 생략되고 단계 S112 이후에 단계 S118 이 이어진다. 단계 S118 에서 입체 이미지 쌍 생성이 입체 이미지 쌍 생성 모듈 (50) 에 의해 일어난다.

단계 S114로 돌아와서, 단계 S104에서 이미지 분석 중 통계 데이터는 단계 S106에 의해 생성된다. 그러한 통계 데이터는 단계 S114 의 객체 세그멘테이션을 수행하는 객체 세그멘터 (48A) 에 의해 사용된다. 단계 S114 이후에, 도 8 과 관련하여 더 상세하게 기술되듯이, 픽셀 깊이 조정이 일어나는 단계 S116 이 이어진다. 또한 단계 S116 이후에는, 도 9 와 관련하여 더 상세하게 기술되듯이 입체 이미지 쌍 생성이 발생하는 S118 이 이어진다. 단계 S118 이후에, 프레임이 더 있는지 여부의 결정이 이루어지는 단계 S120이 이어진다. 프레임이 마지막 프레임이 아닌 경우, 단계 S120 은 단계 S102 로 돌아간다. 그렇지 않으면, 방법 (100) 은 마지막 프레임이 도달되는 경우 종료한다.

이미지가 단계 S102 에서 입력되고 단계 S104 에서 분석되는 경우, 컬러-기반 이미지 분석이 입력 이미지가 평면 이미지를 나타내는지 검출하는 평면 이미지 검출 장치 (44A) 에 의해 사용된다. 입력 이미지가 평면 씬인 경우, 양쪽 (좌측 및 우측) 뷰 모두 동일하며 따라서 단계 S118 에서 원래의 이미지가 (우측) 뷰에 대해 사용될 수 있다.

이미지가 비-평면 씬인 경우, 단계 S110 에서 규칙-기반 이미지 픽셀 깊이 추정 프로세스가 입력 이미지의 각 픽셀에 대한 근사화된 깊이를 할당하는데 사용된다. 단계 S112 에서 결정된 낮은-복잡성 제약이 없거나 어플리케이션이 실시간으로 행해지는 경우, 깊이는 동일한 객체를 나타내는 픽셀이 유사한 깊이 값을 갖 도록 단계 S114 에서의 객체 세그멘테이션 및 단계 S116 에서의 픽셀 깊이 조정을 사용하여 조정된다. 복잡성 평가장치 (44B) 에 의해 결정되는 바와 같이 낮은-복잡성 제약이 존재하는 경우, 정확성을 스피드와 트레이드하기 위해서 단계 S114 (객체 세그멘테이션) 및 단계 S116 (픽셀 깊이 조정) 이 스킵되거나 부분적으로 스킵된다. 부분적으로 스킵된다는 용어는 객체 세그멘테이션 중 일부 단계 (예를 들어 모션 추정) 가 낮은/중간의 복잡성 요건을 만족하기 위해 스킵될 수 있다는 의미이다. 이미지 깊이-맵 추정 서브-모듈 (46) 로부터 생성된 깊이 맵은 입체 이미지 쌍 생성 모듈 (50) 에 의해 좌측 및 우측 뷰를 나타내는 입체 이미지 쌍을 자동적으로 생성하도록 프로세싱된다.

이미지 깊이 추정

이미지 깊이 추정 모듈 (40) 은 단계 S110 에서 이미지 내의 각 픽셀에 대한 깊이를 추정한다. 입체 뷰는 모노스코픽 이미지 및 이와 연관된 깊이 맵으로부터 생성된다. 일반적으로, 이미지 깊이 추정 프로세스는 관찰로부터 얻은 규칙의 세트에 기초한다. 예를 들어, 야외 이미지 (outdoor image) 의 경우, 상부는 하늘을 표현하는 경우가 많고 땅은 통상 이미지의 하부에 위치한다. 이것은 이미지의 중앙 및 하부가 일반적인 이미지의 상부보다 더 가까운 경향이 있다는 관찰과 일치한다. 가장 중요한 부분은 객체의 정확한 깊이를 획득하는 대신 객체 사이의 상대적인 위치를 찾는 것이다. 상술한 바와 같은 규칙은 객체 사이의 상대적인 위치를 검출하는 기본 가이드라인 (예를 들어, 상부는 중앙 및 하부보다 멀다는) 을 제공한다. 객체 사이의 관계가 추정되면 (예를 들어, 어떤 것이 어 떤 것보다 멀다), 객체의 깊이는 깊이의 선형 또는 비-선형 보간을 사용하여 추정될 수 있다.

이미지 분류

이미지 분류 서브-모듈 (42) 은 처음에 이미지를 "평면 이미지" 와 "비-평면이미지 " 클래스로 분류한다 (단계 S108). 평면 이미지 클래스는 깊이 정보를 거의 담고 있지 않으며, 따라서 깊이 추정이 요구되지 않는다. 일반적으로, 잠재적인 평면 이미지인 두 종류의 이미지가 존재한다. 평면 씬 이미지의 제 1 유형은 주밍된 이미지 (zoomed image) 이다. 주밍된 이미지에서 이미지 내의 픽셀 깊이 차이는 줌 모듈 (18) 에 의한 주밍 효과로 인해 시각적으로 무시할 수 있다. 평면 씬 이미지의 제 2 유형은 90도의 카메라 앙각을 갖는 위에서 본 풍경 (또는 아래에서 본 풍경) 에 대응하는 이미지를 포함한다. 위에서 본 풍경 (view-from-above) 이미지는 사용자가 평면에 서 있거나 소정의 다른 위치에서 대지, 땅 등을 아래로 내려다보면서 있는 동안 캡쳐된 이미지이다. 아래에서 본 풍경 이미지는 사용자가 서있거나 소정의 다른 위치에서 이미지를 캡쳐하기 위해 올려다보면서 캡쳐된 이미지이다.

90 도보다 작은 앙각을 갖는 뷰는 충분한 깊이 정보를 담고 있다. 또한, 뷰 각도가 깊이 인식력을 증가시키기 때문에, 이들 뷰로부터의 깊이 정보는 0 도 (0°) 의 앙각을 갖는 뷰로부터보다 추출하기 쉽다.

설명을 위해, 프로세싱을 위한 비디오가 사용자에 의해 조심스럽게 생산되고 따라서 시각적 불편은 낮은 확률로 제한되었다고 가정된다. 따라서, 비디오 내 의 뒤집힌 이미지의 발생 및 90 도의 카메라 앙각을 가지는 위에서 본 풍경 (또는 아래에서 본 풍경) 을 무시할 수 있다고 결론짓는 (가정하는) 것이 유효하다. 따라서, 렌즈 (12) 의 배향은 통상의 인식으로써 통상적으로 정렬된다 (수평 면을 따라 정렬된다) 고 가정된다.

줌 모듈 (18) 에 의한 줌-인 및 줌-아웃 동작은 2D 이미지 캡쳐 유닛 (14) 에 의해 비디오 또는 이미지를 캡쳐하는 경우 통상적으로 카메라 동작에서 사용된다. 따라서, 평면 이미지를 검출하기 위해서, 2D-대-3D 비디오 시퀀스 변환기 (30) 가 자동적으로 주밍된 프레임을 검출할 수 있는 것이 요구된다. 이상적으로 줌-인 프레임의 경우, "블로우 아웃 (blow out)" 모션 패턴이 모션 추정에서 발생한다. 바꾸어 말하면, 매크로블록의 모션 벡터는 줌 동작의 중심으로부터 외부로 향할 것이며, 벡터 길이는 줌 동작의 중심으로부터의 거리에 비례한다. 그러나, 프레임 내의 노이즈가 부정확한 모션 추정 및 나아가 잘못된 검출을 야기할 수 있다. 또한, 모션 추정은 낮은-복잡성 어플리케이션의 경우 꽤 계산 집약적이다.

프레임의 분류를 위해 주밍된 프레임을 자동적으로 검출하기 위해, 컬러-기반의 주밍된 이미지 검출 알고리즘이 사용된다. 대부분의 비디오 시퀀스에서, 주밍된 캡쳐 이미지가 컬러-히스토그램 변화에 의해 검출될 수 있도록 카메라 줌 동작이 줌-인-> 중지->줌-아웃 또는 줌-인->중지->씬 변경의 시퀀스를 따른다.

도 5 는 프레임을 분류 (주밍된 이미지를 결정) 하는 단계 S108 에 대한 방법의 흐름도이다. 도 5 의 로직에 대응하는 의사-코드 (pseudo-code) 가 설명 된다:

If T_n _-1 = 1 then // 주밍된 이미지

If S(f_n _-1,f_n) = 1 // 씬 변경

then T_n = 0;

Else // 줌 아웃 여부 확인

If (V_n > V_n _-k> V_n _-2k & H_n(C_n _-2k,0)<H_n _-k(C_n _-2k,0)< H_n _-2k(C_n _-2k,0)

then T_n = 0;

else T_n = 1

else// 통상 이미지, 제 1 주밍된 이미지 발견 시도

If (V_n < V_n _-k <V_n _-2k & H_n(C_n _,0)>H_n _-k(C_n _,0)> H_n _-2k(C_n _,0)

then T_n = 1;

else T_n = 0

우선, n 은 현재 프레임 f_n의 인덱스를 나타내며, T_n은 현재 이미지의 주밍 유형을 나타내며 (T_n=1 은 주밍된 이미지를 나타내고, 그렇지 않은 경우에 T_n=0), V_n 은 현재 이미지의 변동 (variance) 을 나타내며, H_n(C_n _,m) 은 32-빈 컬러 히스토그램을 나타내며, C_n _,m은 정렬된 히스토그램 (즉, C_n _,0 은 가장 높은 히스토그램을 가지는 컬 러) 을 가지는 컬러를 나타내며, S(f_n _-1,f_n) 은 두 프레임 f_n _-1및 f_n 사이의 씬 유사성을 나타낸다 (S(f_n _-1,f_n)=1은 씬 변경이 있음을 의미). S(f_n _-1,f_n) 은 하기의 식 (1) 및 식 (2) 로써 정의된다.

여기서,

Th 는 이미지 유사성을 검출하기 위한 임계치이다.

단계 S108 에 대한 방법은 T_n _-1=1 인지 (이전의 프레임 (n-1) 이 주밍된 프레임이었음을 의미) 여부의 결정이 행해지는 단계 S152 로 시작된다. 단계 S152 에서의 결정이 "예" 인 경우 단계 S152 에 후속하여 상기의 식 1 및 식 2 에 기초하여 S(f_n _-1,f_n)=1 (씬 변경을 의미) 인지 여부의 또 다른 결정이 이루어지는 단계 S154 가 이어진다. 단계 S154 에서 결정이 "예" 인 경우 (씬 변경을 의미), 단계 S154 에 후속하여 T_n 이 0 으로 셋팅 (현재 프레임이 주밍된 이미지가 아님을 의미) 되는 단계 S162 가 이어진다. 따라서, 현재 프레임은 비-평면 이미지이다.

단계 S152 에서 이전의 프레임이 주밍된 이미지이며 (T_n _-1=1), 단계 S154 에 서 현재 프레임이 씬 변경이 아닌 경우 (S(f_n _-1,f_n)≠1 임을 의미), 단계 S108 의 방법은 2D 이미지 캡쳐 유닛 (14) 의 줌 모듈 (18) 이 단계 S158 에서 줌 아웃하고 있는지 여부를 결정한다. 한 예로, 줌 아웃 상태는 최근 프레임 내의 V_n으로 나타내어진 이미지 변동의 점진적인 증가 및 소정 컬러 (이전의 프레임의 원색 성분) 의 비율의 점진적인 감소에 의해 결정될 수 있다. 유사하게, 이전의 프레임 f_n _-1이 주밍된 이미지가 아닌 경우 (T_n _-1=0 임을 의미), 단계 S108 의 방법은 또한 단계 S156 에서 카메라가 줌인 하고 있는지 검출하는 것이 요구된다. 따라서, 단계 S152 이후에 단계 S156 이 온다.

값 k 는 프레임-레이트 및 통상의 주밍 스피드에 의해 결정되는 상수이다. 비디오 클립 당 30 프레임 초의 경우, k=10 은 합리적인 셋팅이 될 수 있다.

단계 S154 로 돌아와서, 결정이 "아니오" 인 경우 (현재 프레임이 씬 변경이 아님을 의미), 단계 S154 에 후속하여 식 3 이 만족되는지 여부의 결정이 이루어지는 단계 S158 이 이어진다.

단계 S158 에서의 결정이 "아니오" 인 경우, 단계 S158 에 후속하여 T_n 이 1 로 셋팅 (현재 프레임이 주밍된 이미지임을 의미) 되는 단계 S160 이 이어진다. 그러나, 단계 S158에서 결정이 "예" 인 경우, 단계 S158 이후에 T_n 이 0 으로 셋팅 (현재 프레임이 주밍된 이미지가 아님을 의미) 되는 단계 S162 가 이어진다. 따라서, 현재 프레임은 비-평면 이미지이다.

단계 S152 에서의 결정이 "아니오" 인 경우 (이전의 프레임 f_n _-1이 주밍된 이미지가 아님을 의미), 단계 S152 이후에 단계 S156 이 이어진다. 단계 S156 에서, 식 4 를 만족시키는지 여부가 결정된다.

단계 S156 에서의 결정이 "예" 인 경우, 단계 S156 이후에 T_n 이 1로 셋팅 (현재 프레임이 주밍된 이미지임을 의미) 되는 단계 S160 이 이어진다. 그러나, 단계 S156에서의 결정이 "아니오" 인 경우, 단계 S156 이후에 T_n 이 0으로 셋팅 (현재 프레임이 주밍된 이미지가 아님을 의미) 되는 단계 S162 가 이어진다. 따라서, 현재 프레임은 비-평면 이미지이다.

이미지 깊이-맵 추정

평면 이미지는 깊이 정보를 거의 포함하지 않기 때문에 (단계 S108 에서) 평면 이미지로 결정된 이미지는 깊이 추정을 요하지 않는다. 따라서, 이하의 기술은 단계 S110 에서 수행되는 비-평면 이미지에 대한 이미지 깊이-맵 추정에 관련된다. 예시적인 실시형태는 이미지 픽셀의 실제 깊이를 복원하지 않는다. 대신에, 원래의 이미지의 3D 효과를 향상시키기 위해 예시적인 실시형태는 이미지 깊이 맵을 생성하거나 추정한다. 단계 S110 의 이미지 깊이-맵 추정 프로세스는 두 개의 기본적인 가정에 기초한다. 제 1 가정은 씬이 다수의 객체로 구성되고, 동일한 객체에 대응하는 픽셀은 더 가까운 깊이 값을 가지고 그 차이는 무시 할 수 있다는 것이다. 제 2 가정은 대부분의 비-평면 이미지의 경우, 객체의 깊이가 상부에서 하부로 감소된다는 것이다. 가정에 대한 소정의 반증 예들, 예를 들어 어클루션 (occlusion) 이 일어나는 경우 및 실내 씬들이 있다. 그러나, 그러한 씬의 검출은 매우 어렵고 시간-낭비적이며, 낮은 복잡성이 이용가능하지 않다. 일반적으로, 상술된 두 가정들은 대부분의 비디오 클립에 대해 유효하며, 반증예들은 생성된 3D 이미지의 시각효과에 큰 영향을 주지 않는다.

도 4 를 참조하면, 단계 S110 의 이미지 깊이-맵 추정 프로세스는 초기에 각각에 픽셀에 그의 수직 좌표 값에 비례하는 깊이 값을 할당한다. 그 후에, 깊이 맵은 도 7 에 도시된 단계 S114에서의 객체 세그멘테이션의 결과에 기초하여 조정된다. 도 6 및 도 7 에 대하여, 계산적 복잡성을 감소시키기 위해 필요한 경우 이미지의 일부만이 세그멘테이션을 위해 선택된다. 그러나, 단계 S112 에서 낮은 복잡성이 요구되는 경우, 객체 세그멘테이션 단계 S114 및 픽셀 깊이 조정 단계 S116 은 스킵될 수 있다.

중앙 및 하부 영역은 통상 시각적으로 더 민감한 더 가까운 객체에 대응하기 때문에, 이 영역은 도 6 에서 가장 잘 도시된 바와 같이, 세그멘테이션을 위한 영역으로 선택된다. 세그멘테이션 영역은 원래의 이미지의 하부 중앙 부분으로 선택된다. 예시적인 실시형태에서, 하부 중앙 부분의 상부 경계는 원래의 이미지의 상부 경계의 아래에서 1/3 또는 원래의 이미지의 수직 높이 (y) 의 2/3 이다. 세그멘테이션 영역의 하부 경계는 원래의 이미지의 하부 경계와 정렬된다. 그러나, 세그멘테이션 영역의 좌측 및 우측 경계는 좌측 경계로부터 수평 길이 (x) 의 1/10 및 우측 경계로부터 수평 길이 (x) 의 1/10 인 거리에서 시작한다. 세그멘테이션 영역에서, 객체 세그멘테이션이 수행되어, 영역을 다수의 서브-영역 (또는 객체) 로 분리한다. 그러나, 수직 높이 (y) 의 1/3 및 수평 길이 (x) 의 1/10 이외의 다른 비율이 세그멘테이션 영역을 위해 대체될 수 있다.

도 7 을 다시 참조하면, 복잡성-적응형 특징은 또한 객체 세그멘터 (48A) 에 의해 요구되는 경우 더 높은 복잡성 솔루션을 사용한다. 따라서, 단계 S114는 계산적 자원과 계산적 복잡성 요건에 기초하여 높은 복잡성 솔루션이 요구되는지 여부의 결정이 이루어지는 단계 S163으로 시작한다. 단계 S163 에서의 결정이 "예" 인 경우, 단계 S163 에 후속하여, 예를 들어 높은 복잡성 솔루션이 사용되는 경우 컬러 정보뿐만 아니라 모션 추정으로부터의 모션 정보가 획득되는 단계 S164가 이어진다. 단계 S164 이후에 객체가 예를 들어 컬러 및 모션 정보를 이용하여 세그멘팅되는 단계 S165가 이어진다.

그러나, 단계 S163 에서의 결정이 "아니오" 인 경우, 단계 S163 이후에 중간의 복잡성 솔루션이 요구되는지의 결정이 이루어지는 단계 S166 이 이어진다. 단계 S166 에서의 결정이 "예" 인 경우 (객체 세그멘테이션에 대한 중간의 복잡성이 사용되는 것을 의미), 단계 S166 이후에 단계 S167 이 이어진다. 단계 S167 에서 중간의 복잡성 절차는 오직 컬러 정보만을 사용한다. 그러나 다른 복잡성 절차가 대체될 수 있다. 단계 S167 이후에 중간의 복잡성 절차를 사용하여 객체가 컬러 정보로 세그멘팅되는 단계 S168 이 이어진다. 단계 S165 및 단계 S168 은 단계 S114 에 대한 프로세스를 종료시킨다. 또한 단계 S166 에서의 결정이 "아니오" 인 경우, 단계 S114 의 프로세스가 또한 종료된다.

인식할 수 있듯이, 결정 단계 S163 및 단계 S166 의 배열은 중간의 복잡성 솔루션이 더 높은 우선순위를 갖는지 여부에 따라 쉬프팅될 수 있다. 일반적으로, 높은 복잡성 솔루션이 더 정확하다. 모션 추정 및 컬러 정보가 객체 세그멘테이션 단계 S114 의 일부가 될 수 있거나 이미지 분석 단계 S104 에 의해 제공되는 단계 S106 에서의 통계 데이터의 일부가 될 수 있다. 일반적으로 모션 추정 프로세스는 상당히 시간-낭비적이다. 따라서, 모션 추정 프로세스는 단계 S104 에서 수행이 불필요할 수 있으며 복잡성 요건에 따라 단계 S114 에서 수행될 수 있다. 그러나, 소정의 어플리케이션에 대해 사용가능한 경우, 객체 세그멘테이션 (단계 S114) 은 노력을 절약할 수 있다.

중간의 복잡성 솔루션이 요구되는 경우, 컬러 정보는 오직 세그멘테이션을 위해 사용될 수 있다. 실시간 어플리케이션 또는 낮은 복잡성 솔루션이 요구되는 경우, 세그멘테이션 동작은 번거로운 계산을 피하기 위해 스킵될 수 있다. 3D 입체영상 이미징 장치 (10) 에 현재 상태 (예를 들어, 자원 할당 및 CPU 사용) 의 프로그램 코드를 알리기 위한 프로세서 (24) 로 부터의 피드백 채널이 존재하는 것이 또한 가정된다. 복잡성 요건은 예를 들어 모바일 폰 내의 어플리케이션-레벨 소프트웨어에 의해 기본적으로 조정된다. 전력 소비를 제어하는 소프트웨어는 컴퓨팅 전력을 각각의 실행중인 태스크에 동적으로 할당하며, 이는 계산 복잡성 요건에 직접적으로 영향을 미친다.

도 8 에서, 객체 세그멘테이션 및 깊이-맵 (픽셀 깊이) 조정 양자의 복잡성- 적응형 프로세스가 도시된다. 프로세스는 일반적으로 단계 S114 및 단계 S116 에 대한 것이며 세그멘테이션 영역 (도 6) 이 페칭된 이미지 (fetched image) 에서 선택되는 단계 S172 로 시작한다. 단계 S172 이후에 연결된 컴포넌트 레이블링 (labeling) 접근법이 이미지를 동일한 영역 내의 픽셀이 유사한 컬러 강도를 가지는 다수의 작은 연결된 영역으로 분할하는데 사용되는 단계 S174가 이어진다. 단계 S174 이후에 컬러-기반 영역 머징 (merging) 알고리즘이 임의의 인접 서브-영역이 비슷한 평균 컬러 강도를 가지는 경우 작은 영역을 큰 영역으로 융합하는데 사용되는 단계 S176이 이어진다. 단계 S176 이후에 모션 정보 (사용가능한 경우) 가 모션-기반 영역 머징 알고리즘을 통해 유사한 방향으로 이동하는 영역을 더 큰 객체로 더욱 융합하는데 사용되는 단계 S178 이 이어진다.

단계 S172, S174, S176 및 S178 은 세그멘테이션 단계이다. 단계 S176 및 S178 은 선택적으로 사용될 수 있으며, 높은-복잡성 솔루션인 경우 단계 S178만이 사용된다. 세그멘테이션 단계이 완성된 이후, 단계 S178 이후에 픽셀 깊이가 각각의 객체에 대해 조정되며 객체 내의 각 픽셀의 깊이가 객체 내의 픽셀의 최소 깊이로 할당되는 단계 S180 이 이어진다. 최종적으로, 단계 S180 이후에 인접한 프레임간의 일시적인 급한 변화를 피하기 위해 깊이 평활화 프로세스가 사용되는 단계 S182가 이어진다. 일반적으로, 시간 깊이 평활화 프로세스에 대한 동기부여는 일부 어클루션 경우를 제외하고 씬 내의 객체가 깊이에 있어서 매우 빠르게 움직이지 않도록 비디오 클립의 프레임 레이트가 충분히 높은 것이다. (n-1) 번째 및 n 번째 프레임 내의 픽셀 (i,j) 의 깊이를 d_n _-1(i,j) 및 d_n(i,j) 으로 표시하면, d_n(i,j) 가 하기의 식 (5) 에 따라 조정된다.

원래의 이미지에 대응하는 추정된 깊이 맵은 멀리 있는 객체에 대응하는 더 밝은 영역을 가지며, 가까운 객체에 대응하는 더 어두운 영역을 가진다. 예시적인 실시형태에서, 더 나은 세그멘테이션을 위한 의미 정보 (semantic information) 의 부족으로 인해 약간의 잘못 분류된 객체가 존재하지만, 도 8 에 도시된 조정을 갖는 이미지 깊이-맵 추정 프로세스는 가까운 객체들로부터 멀리 있는 객체들을 분류할 수 있다.

도 1, 도 3 및 도 9 를 참조하여, 장치 (10) 는 이제까지 이미지 또는 좌측 뷰를 캡쳐하고 이미지 깊이-맵 추정 서브-모듈 (46) 의 출력에서 대응하는 이미지 깊이 맵을 획득했다. 입체 영상 이미지 쌍 생성 모듈 (50) 은 지금 기술될 단계 S118 에서의 이미지 쌍 생성 프로세스를 사용한다. 단계 S206 에서 좌측 뷰가 획득되고, 단계 S204 에서 좌측 뷰의 대응하는 이미지 깊이 맵이 획득된다.

단계 S118 의 이미지 쌍 생성 프로세스가 처음에 획득 또는 캡쳐된 이미지가 3D 입체 영상 이미징 장치 (10) 의 단계 S206 에서의 좌측 뷰라고 가정한 반면, 다 른 방법으로, 획득 또는 캡쳐된 이미지가 우측 뷰라고 가정될 수 있다. 따라서, 단계 S204에서 획득된 이미지 깊이 맵 (이미지 깊이 추정 모듈 (40) 의 출력) 에 기초하여, 이미지에 대한 시차 맵 (양 뷰의 이미지 포인트 사이의 픽셀의 거리) 이 시차 맵 서브-모듈 (52) 의 단계 S202 에서 계산된다. 시차 맵 서브-모듈 (52) 에 의한 시차 맵 계산은 도 11a 및 도 11b 를 참조하여 이하 상술될 것이다. 좌측 뷰와 깊이 맵 모두는 또한 시차맵을 계산하기 위한 입력이지만, 3D 뷰 생성의 경우, 단계 S206 의 좌측 뷰 및 단계 S204의 깊이 맵은 Z-버퍼 기반 표면 복원 프로세스에 직접 기여한다. 단계 S202 이후에, Z-버퍼 3D 표면 복원 서브-모듈 (54) 에 의한 Z-버퍼 기반 3D 보간 프로세스가 우측 눈으로 부터의 씬에 대한 3D 가시성 표면을 구성하기 위해 호출되는 단계 S208 이 이어진다. 단계 S208 이후에 도 10b 에 잘 도시되어 있듯이, 3D 표면을 투영면에 투영함으로써 우측 뷰가 획득되는 단계 S210이 이어진다.

도 10a 에서, 양안 시각의 지오메트리 모델은 멀리 있는 객체에 대한 투영면 상에 좌측 (L) 및 우측(R) 뷰를 이용하여 도시된다. 도 10b 에서, F 는 초점 길이, L(x_L,y_L,0) 은 좌측 눈, R(x_R,y_R,0) 은 우측 눈, T(x_T,y_T,z) 는 씬 내의 3D 포인트이며, P(x_P,y_P,F) 및 Q(x_Q,y_Q,F) 는 좌측 및 우측 투영 면에 대한 T 의 투영 포인트이다. 명백하게, 투영 면상의 P 및 Q 의 수평 위치는 (x_P-x_L) 및 (x_Q-x_R) 이며, 따라서 시차는 d=[(x_Q-x_R)-(x_P-x_L)] 이다.

도 10b 에 도시된 바와 같이, F 및 z 의 비율은 식 (6) 에서 정의되며

z 는 깊이이며 따라서 식 (7) 및 식 (8) 은 다음과 같으며,

따라서 시차 d 는 식 (9) 에 의해 획득될 수 있다.

따라서, 좌측 뷰의 모든 픽셀에 대해, 우측 뷰의 대응물은 식 (9) 에 획득된 시차 값의 거리만큼 좌측 또는 우측으로 쉬프팅된다. 그러나, 좌측-뷰로부터 우측-뷰로의 매핑 (mapping) 은 가능한 어클루션으로 인해 1-대-1 매핑이 아니며, 따라서 우측-뷰 이미지를 획득하기 위한 프로세스싱이 더 요구된다.

따라서, 우측-뷰 생성을 위해 단계 S210의 Z-버퍼 기반 3D 보간 프로세스가 Z-버퍼 3D 표면 복원 서브-모듈 (54) 에 의해 수행된다. 눈으로부터 객체까지의 거리에 비해서 두 눈간의 거리 (도 10a 에 도시된 바와 같이) 는 매우 작다. 따라서, 객체로부터 좌측 눈까지의 거리가 객체로부터 우측까지의 거리와 근사적으로 같다고 가정되며, 이는 계산을 단순화한다. 따라서, 깊이 맵 Z(x,y) (Z(x,y) 는 실제로 이미지 깊이 맵이지만 검출될 알려지지 않은 맵임) 은 우측 (R) 뷰에 대해 유지되며 x,y 는 뷰내의 픽셀 위치이다.

도 11a 및 도 11b 를 참조하여 우측-뷰에 대해 3D 가시성 표면을 재구성하는 단계 S210 의 프로세스가 설명된다. 처음에 (단계 S222), 깊이 맵은 무한대로 초기화된다. 단계 S222 이후에 좌측 뷰 내의 픽셀 (x₀,y₀) 이 획득되는 단계 S224 가 이어진다. 그 후, 깊이 z₀ 및 시차 값 d₀ 을 가지는 좌측 뷰 내의 모든 픽셀 (x₀,y₀) 에 대해, 깊이 맵은 다음과 같이 정의되는 식 (10) 에 의해 단계 S226 에서 우측 뷰의 대응하는 픽셀에 대해 업데이트 된다.

단계 S226 이후에 픽셀이 더 있는지 결정하는 결정 단계인 단계 S228 이 이어진다. 결정이 "예" 인 경우, 다음 픽셀을 얻기 위해 단계 S228 에서 단계 S224로 돌아온다. 그러나, 좌측-뷰의 모든 픽셀이 프로세싱된 이후 (따라서, 단계 S228에서의 결정이 "아니오" 임) 에, 단계 S228 이후에 재구성된 깊이 맵이 무한대과 같은 값을 가지는 픽셀 (좌측-뷰 상의 유효한 맵이 없는 픽셀) 을 위해 확인되거나 검색되는 단계 S230 이 이어진다. 단계 S230 이후에 픽셀 값 (PV) 이 무한대와 같은지 여부의 결정이 이루어지는 단계 S232 가 이어진다. 단계 S232 에서의 결정이 "아니오" 인 경우, 픽셀 값 (PV) 은 유효하며 도 11b 의 단계 S244 에서 강도 값으로 바로 사용될 수 있다.

그러한 픽셀에 대해 단계 S232 에서의 결정이 "예" 인 경우, 이용가능한 깊 이 값을 가지는 인접 픽셀에 기초하여 2D 보간에 의해 대응하는 픽셀에 대한 깊이를 처음으로 계산하는 단계 S234 가 이어진다. 단계 S234 이후에 상기의 식 (9) 를 이용하여 시차 값이 계산되는 단계 S236이 이어진다. 단계 S236 이후에 프로세스가 좌측 뷰 내의 대응하는 픽셀을 역으로 찾아내는 단계 S238 이 이어진다. 단계 S238 이후에 픽셀이 발견되는지 여부를 결정하는 단계 S240이 이어진다. 대응하는 픽셀이 이용가능한 경우, 단계 S240 이후에 대응하는 강도 값이 우측-뷰 픽셀 상에 이용될 수 있는 단계 S244 가 이어진다. 그렇지 않고, 단계 S240 에서의 결정이 "아니오" 인 경우, 단계 S240 이후에, 이용가능한 강도 값을 가지는 우측-뷰 내의 인접 픽셀에 기초하여 강도 값을 계산하기 위해 보간을 사용하는 단계 S242 가 이어진다.

직접 강도 보간 방법에 비해 제안된 알고리즘을 사용하는 이점은 입체 효과에 대한 더 나은 사실성을 발생시키는 객체 형상의 3D 연속성을 고려하는 점이다. 좌측 뷰의 비가시성 영역을 복원하는 문제점은 정립되지 않은 문제 (ill-posed problwm) 이다. 하나의 알려진 솔루션에서, 다른 가시성 뒷 표면이 씬 내에 있지 않다는 가정하에, 또 다른 표면에 대응하는 수평 방향에서의 인접 픽셀을 이용하여 미싱 픽셀의 깊이가 복원된다. 몇몇의 경우에, 그 가정은 유효하지 않을 수 있다. 더 가능한 경우들을 고려하기 위해, 제안된 솔루션에서, 표면 복구는 모든 방향의 모든 인접 픽셀의 깊이를 고려하며, 이는 유효하지 않은 가정의 확률을 감소시키며 복구된 표면의 더 양호한 3D 연속성을 발생시킨다.

실험적 결과

방법 (100) 은 다수의 비디오 클립에 대해 테스팅되었다. 비록 생성된 입체 뷰가 홀로그래픽 또는 입체영상 디바이스와 같은 메커니즘에 의해 디스플레이 가능하여도, 저렴한 적색-청색 입체사진이 결과로서 생기는 3D 효과를 설명하기 위해 사용되었다. 일반적으로 입체 사진 결과는 원래의 이미지의 객체에 바로 인접한 원래 이미지의 객체의 반투명의 섀도우 또는 고스트 (ghost) 를 도시한다. 적색-청색 입체 사진은 반투명의 섀도우 또는 고스트를 청색 및/또는 적색으로 채색한다. 적색-청색 3D 안경을 사용하여, 상당히 개선된 3D 효과가 관찰될 수 있다. 실험적 결과는 변환된 비디오의 3D 효과가 상당히 분명하다는 것을 나타낸다.

알 수 있는 바와 같이, 장치 (10) 및 방법 (100) 은 복잡성-적응형이며 자동인 2D-대-3D 이미지 및/또는 비디오 변환을 제공한다. 또한, 장치 (10) 및 방법 (100) 은 실시간 및 오프라인 2D-대-3D 비디오 변환에 대해 일반적이며 이전에 레코딩된 2D 영화의 3D 효과를 개선하는데 사용되는 2D-대-3D 이미지 및/또는 비디오 변환을 제공한다.

입력 이미지 (압축된 또는 원래의 데이터) 의 비트스트림 (bitstream) 형식 및 출력 비디오를 위한 디스플레이 방법과 같은 다른 이슈는 여기 기재된 범위 내에 있지않다는 것이 인식되어야 한다.

개시된 실시형태의 이전의 설명은 당업자가 본 발명을 제조 또는 사용가능하기 위해 제공된다. 본 개시에 대한 다양한 수정은 당업자에게는 쉽게 명백할 것이며, 여기에 정의된 일반적인 원리는 본 개시의 사상 또는 범위를 벗어남이 없이 다른 실시형태들에 적용가능할 것이다. 따라서, 본 개시는 여기 기재된 예로 한정되는 것이 아니라 여기에 기재된 원리 및 개선된 특징에 일치하는 가장 넓은 범위에 적용된다.

Claims

2D 입력을 분석하는 단계;

상기 2D 입력의 프레임을 평면 이미지 클래스 (flat image class) 및 비-평면 이미지 클래스에서 선택된 클래스로 분류하는 단계;

깊이 맵 추정을 생성하기 위해 상기 비-평면 이미지 클래스로 분류된 프레임들을 복잡성에 기초하여 자동적 및 적응적으로 프로세싱하는 단계; 및

상기 평면 이미지 클래스로 분류된 프레임들을 바로, 상기 비-평면 이미지 클래스로 분류된 프레임들을 상기 프로세싱 단계 이후에 3D 입체 이미지 (stereo image) 로 변환하는 단계를 포함하는, 방법.
제 1 항에 있어서,

상기 프로세싱하는 단계는 상기 깊이 맵 추정을 추정하는 단계, 현재 어플리케이션이 상기 비-평면 이미지 클래스로 분류된 프레임에 대해 낮은 복잡성 솔루션을 요구하는지 여부를 결정하는 단계 및 상기 낮은 복잡성 솔루션이 요구되는 경우 상기 깊이 맵 추정을 사용하여 상기 비-평면 이미지 클래스로 분류된 프레임들을 바로 변환하는 단계를 포함하는, 방법.
제 2 항에 있어서,

상기 프로세싱하는 단계는 상기 비-평면 이미지 클래스로 분류된 상기 프레 임을 다수의 세그멘팅된 영역으로 객체 세그멘팅하는 단계 및 상기 세그멘팅된 영역들의 픽셀 깊이를 조정하는 단계를 더 포함하는, 방법.
제 3 항에 있어서,

상기 프로세싱하는 단계는 이용가능한 계산 자원 및 계산 복잡성 요건을 결정하는 단계 및 상기 계산 복잡성 요건을 만족하기 위해 상기 낮은 복잡성 솔루션, 중간의 복잡성 솔루션 또는 높은 복잡성 솔루션을 선택하는 단계를 더 포함하고;

상기 높은 복잡성 솔루션 또는 상기 중간의 복잡성 솔루션이 요구되는 경우, 상기 객체 세그멘팅하는 단계는 컬러 정보를 사용하고, 상기 높은 복잡성 솔루션이 요구되는 경우, 컬러 정보 및 모션 추정 정보가 상기 세그멘팅하는 단계를 위해 사용되는, 방법.
제 3 항에 있어서,

상기 프로세싱하는 단계는 제 1 출력을 형성하기 위해 연결된 컴포넌트 레이블링 (labeling) 프로세스로 세그멘테이션 영역을 프로세싱하는 단계, 제 2 출력을 형성하기 위해 컬러-기반 영역 머징 (merging) 프로세스로 상기 제 1 출력을 프로세싱하는 단계, 제 3 출력을 형성하기 위해 모션-기반 영역 머징 프로세스로 상기 제 2 출력을 프로세싱하는 단계, 제 4 출력을 형성하기 위해 상기 제 3 출력의 픽셀 깊이를 조정하는 단계 및 상기 제 4 출력을 시간 깊이 평활화 (smoothing) 하는 단계를 더 포함하는, 방법.
제 1 항에 있어서,

상기 분류하는 단계는 상기 프레임이 주밍된 (zoomed) 씬에 대한 것인지 여부를 결정하는 단계를 포함하며; 상기 프레임이 주밍된 씬에 대한 것인 경우, 상기 프레임이 상기 평면 이미지 클래스로 분류되며, 상기 프레임이 주밍된 씬에 대한 것이 아닌 경우 상기 프레임은 상기 비-평면 이미지 클래스로 분류되는, 방법.
제 1 항에 있어서,

상기 2D 입력은 오프라인 2D 이미지, 모노스코픽 이미지 (monoscopic image) 및 이전에 레코딩된 2D 영화 중 하나를 포함하는, 방법.
제 1 항에 있어서,

상기 변환하는 단계는 상기 평면 이미지 클래스로 분류된 상기 프레임을 좌측 뷰 및 우측 뷰 모두로서 할당하는 단계를 포함하는, 방법.
제 1 항에 있어서,

상기 변환하는 단계는 상기 비-평면 이미지 클래스로 분류된 상기 프레임을 좌측 뷰로 사용하는 단계, 상기 비-평면 이미지 클래스로 분류된 상기 프레임의 상기 좌측 뷰에 대한 양안 시각 지오메트리의 좌측 및 우측 뷰 내의 이미지 포인트들사이의 픽셀들에서의 거리에 기초하여 시차 맵을 계산하는 단계, 구성된 3D 표면을 형성하기 위해 미싱한 우측 뷰포인트로부터 3D 가시성 표면을 구성하는 단계 및 상기 구성된 3D 표면을 투영 면에 투영함으로써 입체 뷰를 생성하는 단계를 포함하는, 방법.
2-차원 (2D) 입력을 해석하는 해석 수단;

상기 2D 입력의 프레임을 평면 이미지 클래스 및 비-평면 이미지 클래스에서 선택된 클래스로 분류하는 분류 수단;

깊이 맵 추정을 생성하기 위해 상기 비-평면 이미지 클래스로 분류된 프레임들을 복잡성에 기초하여 자동적 및 적응적으로 프로세싱하는 프로세싱 수단; 및

상기 평면 이미지 클래스로 분류된 프레임들을 바로, 상기 비-평면 이미지 클래스로 분류된 프레임들을 상기 깊이 맵 추정을 사용하여 3D 입체 이미지로 변환하는 변환 수단을 포함하는, 장치.
제 10 항에 있어서,

상기 프로세싱 수단은 상기 깊이 맵 추정을 추정하는 추정 수단 및 현재 어플리케이션이 상기 비-평면 이미지 클래스로 분류된 상기 프레임에 대해 낮은 복잡성 솔루션을 요구하는지 여부를 결정하는 결정 수단을 포함하고, 상기 낮은 복잡성 솔루션이 요구되는 경우 상기 변환 수단은 상기 깊이 맵 추정을 이용하여 상기 비-평면 이미지 클래스로 분류된 프레임들을 바로 변환하는, 장치.
제 11 항에 있어서,

상기 프로세싱 수단은 상기 낮은 복잡성 솔루션이 요구되지 않는 경우 상기 비-평면 이미지 클래스로 분류된 상기 프레임을 다수의 세그멘팅된 영역으로 객체 세그멘팅하는 세그멘팅 수단 및 상기 세그멘팅된 영역들의 픽셀 깊이를 조정하는 조정 수단을 더 포함하는, 장치.
제 12 항에 있어서,

상기 프로세싱 수단은 상기 비-평면 이미지 클래스로 분류된 상기 프레임을 프로세싱하기 위해 상기 현재 어플리케이션에 의해 높은 복잡성 솔루션 또는 중간의 복잡성 솔루션이 요구되는지를 결정하는 결정 수단을 더 포함하고, 상기 세그멘팅 수단은 상기 중간의 복잡성 솔루션이 요구되는 경우 오직 컬러 정보만을 사용하며, 상기 세그멘팅 수단은 상기 높은 복잡성 솔루션이 요구되는 경우 모션 추정 정보 및 컬러 정보를 사용하는, 장치.
제 13 항에 있어서,

상기 프로세싱 수단은 제 1 출력을 형성하기 위해 상기 세그멘테이션 영역을 레이블링하는 연결된 컴포넌트 레이블링 수단; 제 2 출력을 형성하기 위해 상기 제 1 출력을 머징하는 컬러-기반 영역 머징 수단; 제 3 출력을 형성하기 위해 제 2 출력을 머징하는 모션-기반 영역 머징 수단; 제 4 출력을 형성하기 위해 상기 제 3 출력의 픽셀 깊이를 조정하는 픽셀 깊이 조정 수단 및 상기 제 4 출력을 시간 깊이 평활화하는 시간 깊이 평활화 수단을 더 포함하는, 장치.
제 10 항에 있어서,

상기 분류 수단은 상기 프레임이 주밍된 씬에 대한 것인지 여부를 결정하는 결정 수단, 상기 프레임이 주밍된 씬에 대한 경우 상기 프레임을 상기 평면 이미지 클래스로 분류하는 수단 및 상기 프레임이 주밍된 씬에 대한 것이 아닌 경우 상기 프레임을 상기 비-평면 이미지 클래스로 분류하는 수단을 포함하는, 장치.
제 10 항에 있어서,

상기 2D 입력은 오프라인 2D 이미지, 모노스코픽 이미지 및 이전에 레코딩된 2D 영화 중 하나를 포함하는 실 시간 2D 이미지인, 장치
제 10 항에 있어서,

상기 변환 수단은 상기 평면 이미지 클래스로 분류된 상기 프레임을 좌측 뷰 및 우측 뷰 모두로서 할당하는 할당 수단을 포함하는, 장치.
제 10 항에 있어서,

상기 변환 수단은 상기 비-평면 이미지 클래스로 분류된 상기 프레임을 좌측 뷰로 사용하는 수단, 상기 프레임의 상기 좌측 뷰에 대한 양안 시각 지오메트리의 좌측 및 우측 뷰 내의 이미지 포인트들 사이의 픽셀들에서의 거리에 기초하여 시차 맵을 계산하는 계산 수단, 구성된 3D 표면을 형성하기 위해 미싱한 우측 뷰 포인트로부터 3D 가시성 표면을 구성하는 구성 수단 및 상기 구성된 3D 표면을 투영 면에 투영함으로써 입체 뷰를 생성하는 생성 수단을 포함하는, 장치.
명령들을 구비한 컴퓨터 판독 가능 매체를 포함하는 컴퓨터 프로그램 제품으로서,

상기 명령들은 컴퓨터로 하여금,

2-차원 (2D) 입력을 해석하고,

상기 2D 입력의 프레임을 평면 이미지 클래스 및 비-평면 이미지 클래스에서 선택된 클래스로 분류하고,

깊이 맵 추정을 생성하기 위해 상기 비-평면 이미지 클래스로 분류된 프레임을 복잡성에 기초하여 자동적 및 적응적으로 프로세싱하고,

상기 평면 이미지 클래스로 분류된 프레임들을 바로, 상기 비-평면 이미지 클래스로 분류된 프레임들을 상기 프로세싱 단계 이후에, 3D 입체 이미지로 변환하게 하는, 컴퓨터 판독 가능 매체를 포함하는 컴퓨터 프로그램 제품.
2-차원 (2D) 입력의 프레임을 제 1 이미지 클래스 또는 제 2 이미지 클래스로 분류하도록 동작가능한 이미지 분류 모듈;

깊이 맵 추정을 생성하기 위해 상기 제 2 이미지 클래스로 분류된 프레임을 복잡성에 기초하여 자동적 및 적응적으로 프로세싱하도록 동작가능한 이미지 깊이- 맵 추정 모듈; 및

상기 제 1 이미지 클래스로 분류된 프레임들을 바로, 상기 제 2 이미지 클래스로 분류된 프레임들을 상기 깊이 맵 추정을 사용하여 3D 입체 이미지로 변환하도록 동작가능한 3D 이미지 쌍 생성 모듈을 포함하는, 장치.
제 20 항에 있어서,

상기 제 1 이미지 클래스는 평면 이미지를 포함하며 상기 제 2 이미지 클래스는 비-평면 이미지 클래스를 포함하는, 장치.
제 21 항에 있어서,

상기 이미지 깊이-맵 추정 모듈은 상기 깊이 맵 추정을 추정하고, 현재 어플리케이션에 대해 낮은 복잡성 솔루션이 요구되는지 여부를 결정하고, 상기 낮은 복잡성 솔루션이 요구되는 경우 상기 깊이 맵 추정을 사용하여 상기 제 2 이미지 클래스로 분류된 프레임들을 바로 변환하도록 더 동작가능한, 장치.
제 22 항에 있어서,

상기 이미지 깊이-맵 추정 모듈은 상기 낮은 복잡성 솔루션이 요구되지 않는 경우, 상기 제 2 이미지 클래스로 분류된 상기 프레임을 다수의 세그멘팅된 영역으로 객체 세그멘팅하고, 상기 세그멘팅된 영역의 픽셀 깊이를 조정하도록 더 동작가능한, 장치.
제 23 항에 있어서,

상기 이미지 깊이-맵 추정 모듈은 상기 제 2 이미지 클래스로 분류된 상기 프레임을 프로세싱하기 위해 현재 어플리케이션에 의해 높은 복잡성 솔루션이 요구되는지 또는 중간의 복잡성 솔루션이 요구되는지를 결정하도록 동작가능하며, 상기 중간의 복잡성 솔루션이 요구되는 경우 상기 제 2 이미지 클래스가 오직 컬러 정보만을 사용하여 세그멘팅되며, 상기 높은 복잡성 솔루션이 요구되는 경우 모션 추정 정보 및 컬러 정보가 사용되는, 장치.
제 23 항에 있어서,

상기 이미지 깊이-맵 추정 모듈은 제 1 출력을 형성하기 위해 세그멘테이션 영역을 연결된 컴포넌트 레이블링 (labeling) 하고, 제 2 출력을 형성하기 위해 상기 제 1 출력을 컬러-기반 영역 머징하고, 제 3 출력을 형성하기 위해 상기 제 2 출력을 모션-기반 영역 머징하고, 제 4 출력을 형성하기 위해 상기 제 3 출력의 픽셀 깊이를 조정하고, 상기 제 4 출력을 시간 깊이 평활화하도록 더 동작가능한, 장치.
제 21 항에 있어서,

상기 이미지 분류 모듈은 상기 프레임이 주밍된 씬에 대한 것인지 여부를 결정하고, 상기 프레임이 주밍된 씬에 대한 경우 상기 프레임을 상기 평면 이미지로 분류하고, 상기 프레임이 주밍된 씬에 대한 것이 아닌 경우 상기 프레임을 상기 비-평면 이미지로 분류하도록 더 동작가능한, 장치.
제 20 항에 있어서,

상기 2D 입력은 오프라인 2D 이미지, 모노스코픽 이미지 및 이전에 레코딩된 2D 영화 중 하나를 포함하는 실 시간 2D 이미지인, 장치.
제 20 항에 있어서,

상기 3D 이미지 쌍 생성 모듈은 상기 제 1 이미지 클래스로 분류된 상기 프레임을 좌측 뷰 및 우측 뷰 모두로서 할당하도록 더 동작가능한, 장치.
제 20 항에 있어서,

상기 3D 이미지 쌍 생성 모듈은 상기 제 2 이미지 클래스로 분류된 상기 프레임을 좌측 뷰로 사용하고, 상기 프레임의 상기 좌측 뷰에 대한 양안 시각 지오메트리의 좌측 및 우측 뷰 내의 이미지 포인트 사이의 픽셀에서의 거리에 기초하여 시차 맵을 계산하고, 구성된 3D 표면을 형성하기 위해 미싱한 우측 뷰포인트로부터 3D 가시성 표면을 구성하고, 상기 구성된 3D 표면을 투영 면에 투영함으로써 입체 뷰를 생성하도록 더 동작가능한, 장치.
제 20 항에 있어서,

상기 장치는 비디오 기능을 구비한 모바일, 셀룰러 또는 위성 전화기, 모노스코픽 카메라, 비디오 디바이스, 랩탑, 태블릿 PC 또는 비디오 기능을 갖춘 다른 컴퓨팅 디바이스 중 하나를 포함하는, 장치.