KR101825761B1

KR101825761B1 - 3d 디스패리티 맵들

Info

Publication number: KR101825761B1
Application number: KR1020127028237A
Authority: KR
Inventors: 티에리 보렐; 랄프 오스터만; 볼프람 푸츠케-로에밍
Original assignee: 톰슨 라이센싱
Priority date: 2010-03-31
Filing date: 2011-03-31
Publication date: 2018-03-22
Also published as: CN102934451A; BR112012024955A2; HK1182245A1; CN106131531B; EP2553933A1; WO2011121437A1; CN106131531A; JP6073214B2; CA2795021A1; AU2011234163B2; MX2012011134A; US20130010057A1; MX340111B; EP2553933B1; CN102934451B; US10791314B2; JP2013524608A; AU2011234163A1; CA2795021C; KR20130088012A

Abstract

특정 구현은 하나의 픽쳐에서 특정 로케이션에 대한 디스패리티 값에 액세스하고, 디스패리티 값은 특정 해상도에 대한 디스패리티를 나타낸다. 특정 구현은 변형된 디스패리티 값을 생성하도록 복수의 해상도들에 기초하여 액세스된 디스패리티 값을 변형한다. 또 하나의 구현은 하나의 픽쳐에서 특정 로케이션에 대한 디스패리티 값에 액세스하고, 픽쳐는 특정 해상도를 가지고 있으며, 디스패리티 값은 특정 해상도와 상이하고 복수의 해상도들에 기초한 또 하나의 해상도에 대한 디스패리티를 나타낸다. 추가 구현은 특정 해상도에 대한 디스패리티를 나타내는 변형된 디스패리티 값을 생성하도록 액세스된 디스패리티 값을 변형한다.

Description

3D 디스패리티 맵들{3D DISPARITY MAPS}

관련 출원서들에 대한 교차-참조

본 출원서는 모든 목적을 위해 그 전체가 참고로 여기에 포함되어 있는 이하의 미국 예비출원서들의 출원일의 이익을 청구한다.

(i) 발명의 명칭이 "3D Disparity Maps"이고 2010년 6월 11일에 출원된 일련번호 61/397,418, 및 (ii) 발명의 명칭이 "Dense Disparity Maps"이고 2010년 3월 31일에 출원된 일련번호 61/319,566.

3D에 관한 구현들이 기재된다. 다양한 특정 구현들은 비디오 이미지들에 대한 디스패리티 맵들에 관한 것이다.

스테레오스코픽 비디오는 좌측 비디오 이미지 및 우측 비디오 이미지를 포함하여 2개의 비디오 이미지들을 제공한다. 깊이 및/또는 디스패리티 정보가 또한 이들 2개의 비디오 이미지들에 대해 제공될 수 있다. 깊이 및/또는 디스패리티 정보는 2개의 비디오 이미지들에 대한 다양한 처리 오퍼레이션들에 이용될 수 있다.

하나의 일반적인 양태에 따르면, 하나의 픽쳐에서 특정 로케이션에 대한 디스패리티 값이 액세스된다. 디스패리티 값은 특정 해상도에 대한 디스패리티를 나타낸다. 액세스된 디스패리티 값은 복수의 해상도들에 기초하여 변형되어 변형된 디스패리티 값을 생성한다.

또 하나의 일반적인 양태에 따르면, 신호 또는 구조는 하나의 픽쳐에서 특정 로케이션에 대한 디스패리티 값을 포함하는 디스패리티 부를 포함한다. 그 픽쳐는 특정 해상도를 가지고 있다. 디스패리티 값은 특정 해상도와 상이하고 복수의 해상도들에 기초하고 있는 또 하나의 해상도에 대한 디스패리티를 나타낸다.

또 하나의 일반적인 양태에 따르면, 하나의 픽쳐에서 특정 로케이션에 대한 디스패리티 값이 액세스된다. 그 픽쳐는 특정 해상도를 가지고 있다. 디스패리티 값은 특정 해상도와 상이하고 복수의 해상도들에 기초하고 있는 또 하나의 해상도에 대한 디스패리티를 나타낸다. 액세스된 디스패리티 값이 변형되어, 특정 해상도에 대한 디스패리티를 나타내는 변형된 디스패리티 값을 생성한다.

하나 이상의 구현들의 세부사항들이 첨부된 도면들 및 이하의 상세한 설명에 제시된다. 하나의 특정 방식으로 기재되어 있지만, 구현들은 다양한 방식들로 구성되거나 실시될 수 있다는 것은 자명하다. 예를 들면, 하나의 구현은 하나의 방법으로 수행되거나 예를 들면 오퍼레이션들의 세트를 수행하도록 구성된 장치, 오퍼레이션들의 세트를 수행하기 위한 명령들을 저장하는 장치와 같은 장치로 실시되거나, 신호로 실시될 수 있다. 다른 양태들 및 특징들은 첨부된 도면들 및 청구항들과 함께 고려되는 이하의 상세한 설명으로부터 명백하게 될 것이다.

도 1은 평행한 카메라들에 대한 실제 깊이 값의 그림 표현이다.
도 2는 디스패리티 값의 그림 표현이다.
도 3은 겉보기 깊이와 디스패리티 사이의 관계의 그림 표현이다.
도 4는 수렴형 카메라들의 그림 표현이다.
도 5는 스테레오스코픽 비디오 이미지 쌍들에서 가림(occlusion)의 그림 표현이다.
도 6은 상이한 네이티브 포맷 및 송신 포맷을 가지는 구현을 도시하는 블록/플로우 다이어그램도이다.
도 7은 디스패리티 값들의 공배수 표현의 예의 테이블 표현이다.
도 8은 디스패리티 값들의 공배수 표현의 송신 및 이용을 위한 프로세스의 예를 도시하는 블록/플로우 다이어그램이다.
도 9는 하나 이상의 구현들과 이용될 수 있는 송신 시스템의 예를 도시하는 블록/플로우 다이어그램이다.
도 10은 하나 이상의 구현들과 이용될 수 있는 수신 시스템의 예를 도시하는 블록/플로우 다이어그램이다.

본 출원서에 제시된 일부 특징들의 개요로서, 적어도 하나의 구현은 임의의 표준 디스플레이의 최대 해상도보다 상당히 큰 해상도에 기초한 디스패리티 값들의 이용을 기재한다. 본 출원서에서, 용어 "해상도"는 일반적으로 수평 해상도를 지칭하고, 예를 들면 디스플레이의 픽셀들의 개수, 또는 디스플레이의 픽셀들의 블록들의 개수, 또는 디지털 이미지의 요소들의 개수로 측정된다. 비-표준 해상도는 수 개의 표준 디스플레이 해상도들 중 하나 이상으로 용이하게 변환되는 정수이다. 이러한 특정 구현에서, 유효 디스플레이 해상도는 수개의 표준 디스플레이 해상도들의 최소 공배수이다. 유효 디스플레이 해상도에 대한 디스패리티 값은 정수 포맷으로 표현된다. 디스패리티 값들은 큰 비-디스플레이 해상도에 기초한 결과로서 잠재적으로 크다. 그러나, 정수 표현들은 디스패리티 값들이 표준 디스플레이 해상도로 변환되는 경우에 서브-픽셀 정확도를 제공한다.

상기 개요에서 되돌아가서, 도 1은 비디오 이미지에서 깊이의 개념을 예시하고 있다. 도 1은 센서(107)를 가지는 우측 카메라(105), 및 센서(112)를 가지는 좌측 카메라(110)를 도시하고 있다. 양쪽 카메라들(105, 110)은 오브젝트(115)의 이미지들을 캡쳐링하고 있다. 예시의 목적상, 오브젝트(115)는 크로스의 우측에 위치한 임의의 디테일(116)을 가지는 물리적 크로스이다(도 2 참조). 우측 카메라(105)는 캡쳐각(120)을 가지고 있고, 좌측 카메라(110)는 캡쳐각(125)을 가지고 있다. 2개의 캡쳐각들(120, 125)은 3D 스테레오 영역(130)에서 중첩된다.

오브젝트(115)가 3D 스테레오 영역(130) 내에 있으므로, 오브젝트(115)는 양쪽 카메라들(105, 110)에 가시적이고, 따라서 오브젝트(115)는 깊이를 가지고 있는 것으로 인지될 수 있다. 오브젝트(115)는 실제 깊이(135)를 가지고 있다. 실제 깊이(135)는 일반적으로 오브젝트(115)로부터 카메라들(105, 110)까지의 거리로 지칭된다. 더 구체적으로는, 실제 깊이(135)는 오브젝트(115)로부터, 양쪽 카메라들(105, 110)의 입사동 면에 의해 정의된 면인 스테레오 카메라 베이스라인(140)까지의 거리로 지칭될 수 있다. 카메라의 입사동 면은 통상적으로 줌 렌즈 내부에 있고, 따라서 통상적으로는 물리적으로 액세스 불가능하다.

카메라들(105, 110)은 또한 초점 거리(145)를 가지고 있는 것으로 도시되어 있다. 초점 거리(145)는 출사동 면으로부터 센서들(107, 112)까지의 거리이다. 예시의 목적 상, 입사동 면 및 출사동 면은 대부분의 예들에서 약간 분리되어 있는 경우라도 일치하는 것으로 도시되어 있다. 추가적으로, 카메라들(105, 110)은 베이스라인 길이(150)를 가지고 있는 것으로 도시되어 있다. 베이스라인 길이(150)는 카메라들(105, 110)의 입사동들의 중앙들 사이의 거리이고, 따라서 스테레오 카메라 베이스라인(140)에서 측정된다.

오브젝트(115)는 각 센서들(107 및 112) 상에서 각 카메라들(105 및 110)에 의해 실제 이미지들로서 촬상된다. 이들 실제 이미지들은 센서(107) 상에서의 디테일(116)의 실제 이미지(117), 및 센서(112) 상에서의 디테일(116)의 실제 이미지(118)를 포함한다. 도 1에 도시된 바와 같이, 실제 이미지들은 본 기술분야에 주지된 바와 같이, 뒤집어진다.

깊이는 디스패리티와 밀접하게 관련된다. 도 2는 카메라(110)로부터 캡쳐된 좌측 이미지(205) 및 카메라(105)로부터 캡쳐된 우측 이미지(210)를 도시하고 있다. 양쪽 이미지들(205, 210)은 디테일(116)을 가지는 오브젝트(115)의 표현을 포함한다. 이미지(210)는 디테일(116)의 디테일 이미지(217)를 포함하고, 이미지(205)는 디테일(116)의 디테일 이미지(218)를 포함한다. 디테일(116)의 맨 우측 포인트는 좌측 이미지(205)에서 디테일 이미지(218)의 픽셀(220)에서 캡쳐되고 우측 이미지(210)에서 디테일 이미지(217)의 픽셀(225)에서 캡쳐된다. 픽셀(220)과 픽셀(225)의 로케이션들 사이의 수평 차이가 디스패리티(230)이다. 오브젝트 이미지들(217, 218)은 디테일(116)의 이미지들이 양쪽 이미지들(205, 210)에서 동일한 수직 포지셔닝을 가지도록 수직으로 정렬(register)되어 있는 것으로 가정된다. 디스패리티(230)는, 좌측 및 우측 이미지들(205, 210)이 뷰어의 좌측 및 우측 눈들에 의해 각각 뷰잉되는 경우에 오브젝트(215)까지의 깊이의 인지를 제공한다.

도 3은 디스패리티와 인지된 깊이 사이의 관계를 도시하고 있다. 각각의 스크린들(310, 320, 330) 상에서 오브젝트에 대한 스테레오스코픽 이미지 쌍을 뷰잉하는 3명의 관찰자들(305, 307, 309)이 도시되어 있다.

제1 관찰자(305)는 양의 디스패리티를 가지는 오브젝트의 좌측 뷰(315) 및 오브젝트의 우측 뷰(317)를 뷰잉한다. 양의 디스패리티는 오브젝트의 좌측 뷰(315)가 스크린(310) 상의 오브젝트의 우측 뷰(317)의 좌측에 있다는 사실을 반영한다. 양의 디스패리티는, 결과적으로 인지되거나 가상적인 오브젝트(319)가 스크린(310)의 면 뒤쪽에 있게 보이는 것으로 나타난다.

제2 관찰자(307)는 제로 디스패리티를 가지고 있는 오브젝트의 좌측 뷰(325) 및 오브젝트의 우측 뷰(327)를 뷰잉한다. 제로 디스패리티는 오브젝트의 좌측 뷰(325)가 스크린(320) 상에서 오브젝트의 우측 뷰(327)와 동일한 수평 위치에 있다는 사실을 반영한다. 제로 디스패리티는 결과적으로 인지되거나 가상적인 오브젝트(329)가 스크린(320)과 동일한 깊이에 있게 보이는 것으로 나타난다.

제3 관찰자(309)는 음의 디스패리티를 가지고 있는 오브젝트의 좌측 뷰(335) 및 오브젝트의 우측 뷰(337)을 뷰잉한다. 음의 디스패리티는 오브젝트의 좌측 뷰(335)가 스크린(330) 상에서 오브젝트의 우측 뷰(337)의 우측에 있다는 사실을 반영한다. 음의 디스패리티는 결과적으로 인지되거나 가상적인 오브젝트(339)가 스크린(330)의 면 전방에 있게 보이는 것으로 나타난다.

이 시점에서, 디스패리티 및 깊이는 달리 표시되거나 컨텍스트에 의해 요구되지 않는다면, 구현들에서 상호교환가능하게 이용될 수 있다는 것은 유의할 만하다. 수학식 1을 이용하면, 디스패리티가 장면 깊이에 반비례한다는 것을 알 수 있다.

여기에서, "D"는 깊이(도 1에서 135)를 기술하고, "b"는 2개의 스테레오-이미지 카메라들 사이의 베이스라인 길이(도 1에서 150)를 나타내며, "f"는 각 카메라에 대한 초점 거리(도 1에서 145)이고, "d"는 2개의 대응하는 특징 포인트들에 대한 디스패리티(도 2에서 230)이다.

상기 수학식 1은 동일한 초점 거리를 가지는 수평 카메라들에 유효하다. 더 복잡한 공식들이 다른 시나리오들에 대해 정의될 수 있지만, 대부분의 경우들에서 수학식 1은 근사화로서 이용될 수 있다. 그러나, 또한 이하의 수학식 2는 본 기술분야의 통상의 기술자들에게 주지된 바와 같이, 적어도 수렴형(converging) 카메라들의 다양한 배열들에 유효하다.

d_∞는 무한대에 있는 오브젝트에 대한 디스패리티의 값이다. d_∞는 수렴각 및 초점 거리에 좌우되고, 픽셀들의 개수보다는 미터(예를 들면)로 나타낸다. 초점 거리는 도 1 및 초점 거리(145)와 관련하여 이미 설명되었다. 수렴각은 도 4에 도시되어 있다.

도 4는 도 1의 평행한 구성보다 수렴하는 구성으로 배치된 카메라(105) 및 카메라(110)를 포함한다. 각도(410)는 카메라들(105, 110)의 시선들이 수렴하는 것을 도시하고 있고, 각도(410)는 수렴각으로 지칭될 수 있다.

디스패리티 맵들은 비디오 이미지에 대한 디스패리티 정보를 제공하는데 이용된다. 디스패리티 맵은 일반적으로 연관된 비디오 이미지의 픽셀들에 대응하는 기하학적구조를 가지는 디스패리티 값들의 세트를 지칭한다.

밀집된 디스패리티 맵은 일반적으로 연관된 비디오 이미지의 해상도와 통상적으로 동일한 공간적 및 시간적 해상도를 가지는 디스패리티 맵을 지칭한다. 시간적 해상도는 예를 들면 프레임 레이트를 지칭하고, 예를 들면 50Hz 또는 60Hz 중 어느 하나일 수 있다. 그러므로, 밀집된 디스패리티 맵은 일반적으로 픽셀 로케이션 당 하나의 디스패리티 샘플을 가질 것이다. 밀집된 디스패리티 맵의 기하학적구조는 통상적으로 대응하는 비디오 이미지의 것과 동일할 수 있고, 예를 들면 이하의 픽셀들로 된 수평 및 수직 크기를 가지는 직사각형일 것이다.

(i) 1920 x 1080(또는 1920 x 1200),

(ii) 1440 x 1080(또는 1440 x 900),

(iii) 1280 x 720(또는 1280 x 1024, 1280 x 960, 1280 x 900, 1280 x 800),

(iv) 960 x 640(또는 960 x 600, 960 x 576, 960 x 540),

(v) 2048 x 1536(또는 2048 x 1152),

(vi) 4096 x 3072(또는 4096 x 3112, 4096 x 2304, 4096 x 2400, 4096 x 2160, 4096 x 768), 또는

(vii) 8192 x 4302(또는 8192 x 8192, 8192 x 4096, 7680 x 4320).

밀집된 디스패리티 맵의 해상도는 연관된 이미지의 해상도와 거의 동일하지만 상이한 것도 가능하다. 하나의 구현에서, 이미지 경계들에서의 디스패리티 정보는 얻기가 힘들다. 그러므로, 그 구현에서, 경계 픽셀들에서의 디스패리티 값들은 디스패리티 맵에 포함되지 않고, 디스패리티 맵은 연관된 이미지보다 더 작다.

다운-샘플링된 디스패리티 맵은 일반적으로 네이티브 비디오 해상도보다 작은 해상도를 가지는 디스패리티 맵(예를 들면, 4의 인자에 의해 나누어짐)을 지칭할 수 있다. 다운-샘플링된 디스패리티 맵은 예를 들면 픽셀들의 블록 당 하나의 디스패리티 값을 가질 것이다.

산재된(sparse) 디스패리티 맵은 일반적으로 대응하는 비디오 이미지에서 용이하게 추적될 수 있는 것으로 간주되는 제한된 개수의 픽셀들(예를 들면, 1000개)과 대응하는 디스패리티들의 세트를 지칭한다. 선택되는 제한된 개수의 픽셀들은 일반적으로 컨텐트 자체에 좌우될 것이다. 하나의 이미지(1280 x 720, 또는 1920 x 1080)에서 빈번하게 백만 또는 이백만 픽셀들 이상이 존재한다. 픽셀 서브세트 선택은 일반적으로 특징 포인트들을 검출할 수 있는 추적기 도구(tracker tool)에 의해 자동으로 또는 반자동으로 수행된다. 추적기 도구들은 용이하게 구할 수 있다. 특징 포인트들은 예를 들면, 다른 이미지들에서 용이하게 추적될 수 있는 픽쳐에서의 에지 또는 코너 포인트들일 수 있다. 픽셀 서브세트에 대해, 오브젝트의 높은 콘트라스트 에지들을 표현하는 특징들이 일반적으로 선호된다.

디스패리티 맵들, 또는 더 일반적으로는 디스패리티 정보는 다양한 처리 오퍼레이션들에 이용될 수 있다. 그러한 오퍼레이션들은 예를 들면 소비자 디바이스 상에서 3D 효과를 조절하기 위한 뷰 보간(렌더링), 지능형 자막 배치(placement)의 제공, 비주얼 효과들, 및 그래픽 삽입을 포함한다.

하나의 특정 구현에서, 그래픽들은 이미지의 배경에 삽입된다. 이러한 구현에서, 3D 프리젠테이션은 스포츠캐스터와 축구 선수 사이의 스테레오스코픽 비디오 인터뷰를 포함하고, 이들 둘 다가 전경(foreground)에 있다. 배경은 스타디움의 뷰를 포함한다. 이러한 예에서, 디스패리티 맵은 대응하는 디스패리티 값들이 소정값보다 작은(즉, 더 가까운) 경우에, 스테레오스코픽 비디오 인터뷰로부터 픽셀들을 선택하는데 이용된다. 이에 비해, 디스패리티 값들이 소정값보다 큰(즉, 더 먼) 경우에 픽셀들이 그래픽으로부터 선택된다. 이것은 예를 들면 디렉터가 실제 스타디움 배경의 전방이라기보다는, 그래픽 이미지의 전방에 인터뷰 참여자들을 보여줄 수 있게 한다. 다른 변동들에서, 배경은 예를 들면, 선수의 가장 최근의 득점 플레이의 리플레이 동안의 운동장과 같은 또 하나의 환경으로 대체된다.

하나의 구현에서, 3D 효과는 사용자 선호도에 기초하여 연화된다(감소된다). 3D 효과를 줄이기 위해(디스패리티의 절대값을 줄이기 위해), 디스패리티 및 비디오 이미지들을 이용하여 새로운 뷰가 보간된다. 예를 들면, 새로운 뷰는 현재의 좌측 뷰와 우측 뷰 사이의 로케이션에 배치되고, 새로운 뷰는 좌측 뷰 및 우측 뷰 중 하나를 대체한다. 그러므로, 새로운 스테레오스코픽 이미지 쌍은 더 작은 베이스라인 길이를 가지고 있고 감소된 디스패리티, 및 따라서 감소된 3D 효과를 가질 것이다.

또 하나의 구현에서, 보간보다는 보외가 수행되어, 겉보기 깊이를 과장시키고, 그럼으로써 3D 효과를 증가시킨다. 이러한 구현에서, 원래의 좌측 및 우측 뷰들 중 하나에 비해 증가된 베이스라인 길이를 가지는 가상 카메라에 대응하는 새로운 뷰가 보외된다.

또 하나의 예에서, 디스패리티 맵들은 뷰어 불편을 감소시키거나 피하기 위해 비디오 이미지에서 자막들을 지능형으로 배치하는데 이용된다. 예를 들면, 자막은 자막이 가리고 있는 임의의 오브젝트 전방에 있는 인지된 깊이를 일반적으로 가질 것이다. 그러나, 인지된 깊이는 일반적으로 관심사가 되는 영역에 있는 오브젝트들의 전방에서 너무 멀지 않게, 관심사가 되는 영역에 필적하는 깊이를 일반적으로 가져야 한다.

다수의 3D 처리 오퍼레이션들에 대해, 다운-샘플링된 디스패리티 맵 또는 산재된 디스패리티 맵보다는 밀집된 디스패리티 맵이 선호된다. 예를 들면, 디스패리티 맵이 사용자-제어가능한 3D-효과들을 가능하게 하는데 이용되는 경우에, 픽셀당 기반의 디스패리티 정보가 일반적으로 선호된다. 산재된 또는 다운-샘플링된 디스패리티 맵을 이용하는 것은 합성된 뷰들의 품질을 저하시킬 수 있기 때문에, 픽셀당 기반 디스패리티 정보는 일반적으로 더 나은 결과들이 달성될 수 있도록 허용한다.

디스패리티 값은 다양한 포맷들로 표현될 수 있다. 수 개의 구현들은 이하의 포맷을 이용하여 저장 또는 송신을 위해 디스패리티 값을 표현한다.

(i) 부호있는 정수: 2의 보수

(a) 음의 디스패리티 값은 스크린 전방에 있는 깊이를 나타낸다.

(b) 제로는 스크린 면의 오브젝트들에 대한 디스패리티 값에 이용된다.

(ii) 1/8 픽셀의 단위

(iii) 디스패리티 값을 표현하는 16 비트들

(a) 전형적인 디스패리티 범위는 +80 내지 -150 픽셀들에서 가변된다. 이것은 1920 또는 2048의 해상도를 가지는 40인치 디스플레이 상에서 일반적으로 충분하다.

(b) 1/8 픽셀 정확도에 있어서, 범위는 +640 내지 -1200 유닛들이고, 이는 11비트들 + 부호에 대한 1 비트 = 12 비트에 의해 표현될 수 있다.

(c) 8k 디스플레이(폭이 1920 또는 2048 픽셀인 디스플레이의 수평 해상도의 대략 4배를 가질 수 있음) 상에서 동일한 3D 효과를 유지하기 위해, 우리는 통상적으로 디스패리티를 코딩하는데 2개의 추가 비트들을 필요로 한다: 12+2=14비트.

(d) 이것은 장래 이용을 위해 2 비트를 제공한다.

추가적으로, 상기 포맷을 이용하는 다양한 구현들은 또한 밀집된 디스패리티 맵을 제공한다. 그러므로, 그러한 구현들에 대한 밀집된 디스패리티 맵을 완성하기 위해, 대응하는 비디오 이미지의 매 픽셀 로케이션에 대해 상기 16-비트 포맷이 제공된다.

디스패리티, 및 관련된 깊이 변동들은 하나의 장면의 상이한 뷰들 사이에서 가림을 생성한다. 도 5는 뷰어의 뇌에서 조합되어 3D 장면(530)을 생성하는 좌측 뷰(510) 및 우측 뷰(520)를 도시하고 있다. 좌측 뷰(510), 우측 뷰(520), 및 3D 장면(530) 각각은 3개의 오브젝트들을 포함하고, 이들은 넓은 원기둥(532), 타원(534) 및 좁은 원기둥(536)를 포함한다. 그러나, 도 5에 도시된 바와 같이, 3개의 오브젝트들(532, 534, 536) 중 2개는 뷰들(510, 520) 및 3D 장면(530)의 각각에서 상이한 상대 로케이션들에 있다. 이들 2개의 오브젝트들은 넓은 원기둥(532) 및 좁은 원기둥(536)이다. 타원(534)은 뷰들(510, 520) 및 3D 장면(530)의 각각에서 동일한 상대 로케이션에 있다.

상이한 상대 로케이션들은 이하의 단순화된 기재에 의해 설명되는 바와 같이, 가림을 발생시킨다. 좌측 뷰(510)는 가려진 영역들(545 및 548)을 또한 드러내는 좌측 이미지(540)에서 도시되어 있다. 가려진 영역들(545 및 548)은 단지 좌측 뷰(510)에서만 가시적이고 우측 뷰(520)에서는 그렇지 않다. 이것은 (i) 가려진 영역(545)에 대응하는 우측 뷰(520)의 영역이 넓은 원기둥(532)에 의해 덮여지고, (ii) 가려진 영역(548)에 대응하는 우측 뷰(520)의 영역이 좁은 원기둥(536)에 의해 덮여지기 때문이다.

유사하게, 우측 뷰(520)는 2개의 가려진 영역들(555 및 558)을 또한 드러내는 우측 이미지(550)에서 도시되어 있다. 가려진 영역들(555, 558)은 우측 뷰(520)에서만 가시적이고 좌측 뷰(510)에서는 그렇지 않다. 이것은 (i) 가려진 영역(555)에 대응하는 좌측 뷰(510)의 영역이 넓은 원기둥(532)에 의해 덮여지고, (ii) 가려진 영역(558)에 대응하는 좌측 뷰(510)의 영역이 좁은 원기둥(536)에 의해 덮여지기 때문이다.

스테레오스코픽 이미지 쌍에 가림들이 존재할 수 있다고 한다면, 스테레오스코픽 이미지 쌍에 대해 2개의 디스패리티 맵들을 제공하는 것이 유용하다. 하나의 그러한 구현에서, 좌측 디스패리티 맵이 좌측 비디오 이미지에 대해 제공되고, 우측 디스패리티 맵이 우측 비디오 이미지에 대해 제공된다. 주지된 알고리즘들은 표준 디스패리티 벡터 접근법을 이용하여 디스패리티 값들이 결정될 수 없는 각 미이지의 픽셀 로케이션들에 디스패리티 값들을 할당하는데 이용될 수 있다. 그리고나서, 가림 영역들은 좌측 및 우측 디스패리티 값들을 비교함으로써 결정될 수 있다.

좌측 및 우측 디스패리티 값들을 비교하는 하나의 예로서, 좌측-눈 이미지 및 대응하는 우측-눈 이미지를 고려하자. 픽셀 L은 로우(row) N에 위치하고 좌측-눈 이미지에서 수평 좌표 x_L을 가지고 있다. 픽셀 L은 디스패리티 값 d_L을 가지는 것으로 결정된다. 픽셀 R은 대응하는 우측-눈 이미지의 로우 N에 위치하고 가장 근접한 수평 좌표 x_L + d_L을 가지고 있다. 픽셀 R은 약 "-d_L"의 디스패리티 값 d_R을 가지고 있는 것으로 결정된다. 그리고나서, 높은 신뢰 수준으로, 디스패리티들이 서로에 대응하기 때문에 L 또는 R에서 가림이 존재하지 않는다. 즉, 픽셀 L 및 R은 양쪽 모두 일반적으로 그들 결정된 디스패리티들을 가지고서 서로를 가리킨다.

그러나, dR이 -dL과 거의 동일하지 않다면, 가림이 존재할 수 있다. 예를 들면, 2개의 디스패리티 값들이 실질적으로 상이하다면, 부호를 고려한 후에, 일반적으로 가림이 있다는 높은 신뢰 수준이 존재한다. 실질적인 차이는 하나의 구현에서 ｜dL-dR｜>1에 의해 나타난다. 추가적으로, 디스패리티 값들 중 하나(d_R 또는 d_L)가 가용하지 않다면, 일반적으로 가림이 있다는 높은 신뢰 수준이 존재한다. 예를 들면 디스패리티 값이 결정될 수 없기 때문에 디스패리티 값이 가용하지 않을 수 있다. 가림은 일반적으로 2개의 이미지들 중 하나와 관련된다. 예를 들면, 더 작은 크기를 가지는 디스패리티와 연관된 픽셀에 의해 보여지거나, 가용하지 않은 디스패리티 값에 대응하는 픽셀에 의해 보여지는 장면의 일부는 일반적으로 다른 이미지에서 가려지는 것으로 간주된다.

디스패리티 값들을 표현하기 위한 하나의 가능성은 비디오 이미지에서 주어진 픽셀 로케이션에 대한 디스패리티의 픽셀들의 개수를 표현하는데 정수를 이용하는 것이다. 디스패리티 값은 비디오 이미지의 특정 수평 해상도에 대한 디스패리티의 픽셀들의 개수를 표현한다. 그러므로, 디스패리티 값은 특정 수평 해상도에 좌우된다. 그러한 구현들은 유용하고 효율적일 수 있다.

그러나, 다른 구현들은 디스패리티 값들에서 서브-픽셀 정확도를 요구한다. 그러한 구현들은 일반적으로 디스패리티 값들에 소수들이 포함될 수 있도록 디스패리티 값들을 표현하는데 부동 소수점 수들을 이용한다. 이들 구현들 중 수 개는 주어진 수평 해상도에 특정된 디스패리티 값들을 제공한다. 이들 구현들은 또한 유용하고 효율적일 수 있다.

일부 다른 구현들은 디스패리티 값들을 백분율 값으로 표현한다. 그러므로, 디스패리티를 픽셀들의 개수로서 표현하는 대신에, 디스패리티는 수평 해상도의 백분율로서 표현된다. 예를 들면, 주어진 픽셀 로케이션에 대한 디스패리티가 10 픽셀들이고 수평 해상도가 1920이라면, 백분율 디스패리티 값은 (10/1920)*100이다. 그러한 구현들은 또한 디스패리티에서 서브-픽셀 정확도를 제공할 수 있다. 백분율 값 표현은 통상적으로 정수 표현이라기보다는 부동소수점 표현이다. 예를 들면, 1920의 수평 해상도를 가지는 디스플레이에서 하나의 픽셀의 디스패리티는 1/1920이고, 이는 0.0005208 또는 .05208%이다.

추가적으로, 그러한 백분율 디스패리티 값들은 다른 수평 해상도들에 직접 적용될 수 있다. 예를 들면, (i) 비디오 이미지가 1920의 수평 해상도를 가지고 있고 (ii) 비디오 이미지가 사용자의 집에 송신되며, (iii) 사용자의 표시 디바이스가 1440의 수평 해상도를 가지고 있다고 가정하자. 이러한 시나리오에서, 사용자의 표시 디바이스(또는 셋-탑 박스 또는 일부 다른 프로세서 또는 처리 디바이스)는 통상적으로 비디오 이미지의 수평 해상도를 1920에서 1440으로 변환하고, 또한 디스패리티 값들이 1440의 수평 해상도에 대응하도록 디스패리티 값들을 변환한다. 변환은 예를 들면 백분율 디스패리티 값을 수평 해상도에 의해 승산함으로써 수행될 수 있다. 예를 들면, 주어진 픽셀 로케이션에 대한 백분율 디스패리티가 ½%이고 수평 해상도가 1920이라면, 절대 디스패리티 값은 ½*1920/100이다. 이들 구현들 중 수 개의 것들은 비디오 이미지의 수평 해상도 및 디스패리티 맵에 관계없이, 디스패리티 값들의 송신 및 저장 시에 백분율 디스패리티 값인 단일 디스패리티 값을 이용한다. 그러한 구현들은 또한 유용하고 효율적일 수 있다.

상기 언급된 바와 같이, 송신 시스템은 비디오 이미지의 수평 해상도와 상이한 수평 해상도를 송신 포맷에서 이용할 수 있다. 추가적으로 수신 시스템은 상이한 수평 해상도를 이용하여 비디오 이미지를 표시할 수 있다. 그러므로, 하나의 수평 해상도로부터 또 하나의 수평 해상도로의 변환이 요구될 수 있다. 그러한 변환은 비디오 이미지의 해상도를 변경할 뿐만 아니라, 디스패리티 값들이 조정되어야 된다는 것을 요구한다. 그러한 변환은 일반적으로 절대 디스패리티 값들에 대해서는 요구되지만, 백분율 디스패리티 값들에 대해서는 그렇지 않다.

이하의 예는 다양한 구현들 사이의 트레이드-오프들의 일부에 관한 더 많은 세부사항들을 제공한다.

(i) 하나의 구현은 주어진 비디오 해상도에 대한 절대값(픽셀들의 개수)으로서 하나의 픽셀의 1/8 정확도로 디스패리티 값을 포맷팅한다(예를 들면, 오브젝트는 1920개의 수평 픽셀들을 가지는 비디오 컨텐트 상에서 10 픽셀의 디스패리티를 가질 수 있다).

(ii) 단순성 및 조작의 용이함을 포함하여, 그러한 시스템의 다수의 장점들이 존재한다.

(iii) 하나의 그러한 시스템에서, 11 비트들, 최대 255 픽셀의 디스패리티를 제공하기 위한 정수 부분에 대한 8 비트들, 및 소수 부분에 대한 3 비트들(1/8 정밀도 또는 정확도를 얻기 위함)이 이용된다. 유의할 점은, 부호 비트가 또한 이용되거나, 시스템은 +/- 127 픽셀의 디스패리티 값들을 제공할 수 있다는 점이다.

(iv) 비디오 이미지가 송신 동안에 재포맷팅될 필요가 있다면, 디스패리티 맵도 재포맷팅되고, 이는 정보 손실을 유도할 수 있다. 예를 들어, 도 6을 참조하면, 구현은 1920의 수평 해상도를 가지는 네이티브 포맷(610) 및 1280(또는 또 하나의 구현에서 1440)의 수평 해상도를 가지도록 다운-샘플링되는 송신 포맷(620)을 이용한다. 비디오 이미지에서와 같이, 깊이 또는 디스패리티 맵은 통상적으로 깊이 디테일들의 손실로 유도하는 서브-샘플링 이전에 필터링된다. 필터링은 필터링 및 서브-샘플링 오퍼레이션(630)에서 발생한다. 필터링 및 서브-샘플링 오퍼레이션은 비디오 이미지들 및 디스패리티 이미지들에 적용된다.

(v) 또한, 새로운 디스패리티 값이 변환되고, 통상적으로 변질(corrupt)된다. 예를 들면, 디스패리티 맵의 해상도를 감소시키도록(즉, 디스패리티 값들의 개수를 감소시키도록) 다운 샘플링 이후에, 디스패리티 값들은 송신 포맷의 해상도로 변환된다. 1920에서 1280으로 변화하는 경우에 10 픽셀의 디스패리티 값은 6.6666이 된다. 이것은 예를 들면, 결과적으로 소수 부분은 단지 0.125(1/8)의 배수만 될 수 있으므로 값을 6.625로 반올림하는 것으로 나타난다.

(vi) 송신 이후에, 디스플레이가 폭이 1920 픽셀이라면, 최종 디스패리티 값은 6.625 x 1920/1280 = 9.9375일 것이다. 9.9375의 값은 10의 원래 값에 비해 일부 왜곡을 표현한다. 9.9375의 값은 가장 근접한 정수, 또는 가장 근접한 1/8로 올림, 잘라버림, 반올림될 수 있고, 예를 들면 정보 손실을 생성할 수 있다. 값이 잘라버림된다면, 손실은 상당할 것이다.

하나의 솔루션은 모든 수평 해상도들에 공통일 수 있는 백분율 디스패리티를 이용하는 것이다. 그러한 구현은 상기 설명된 바와 같이, 장점들 및 단점들을 가지고 있다. 백분율 디스패리티 값들의 이용은 송신 이전의 변환 오퍼레이션이 생략될 수 있게 한다.

또 하나의 솔루션은 임의의 하나의 공통 해상도에 특정되지 않은 정수 값을 이용하는 것이다. (유의할 점은, 픽쳐들은 통상적으로 다른 처리를 수신할 뿐만 아니라 수직으로 교정되었던 것으로 가정된다는 점이다. 따라서, 통상적으로 수평 변위(displacement)의 측면에서 디스패리티를 기술하는 것으로 충분하다.) 이러한 솔루션은 11,520 픽셀의 기준 해상도(또는 가상 해상도)를 정의하는 것을 제안하고, 이는 본 출원서에서 수개의 표준 TV 수평 해상도들(720, 960, 1280, 1440, 1920)의 최소 공배수("SCM")로서 지칭된다. 유의할 점은, SCM은 또한 다양한 참조문헌들에서 "최저 공배수" 또는 "최소 공배수"로 지칭된다는 점이다.

이러한 SCM 솔루션의 적어도 하나의 구현은 이하를 포함하여 다수의 장점들을 가지고 있다(다른 구현들이 이들 장점들 모두를 가질 필요는 없다).

(i) 디스패리티 값은 정수이므로, 디스패리티 값을 결정하고 저장하는 것이 간단하고, 디스패리티 값은 조작하고 처리하기 용이하다.

(ii) 디스패리티 값은 더 이상 엄격하게 절대적이지 않고 상대적인 양태를 가지고 있고, 따라서 네이티브 비디오 해상도와 독립적이다.

(iii) 소수 부분이 요구되지 않는다.

(iv) 디스패리티 값은 상대적이고, 네이티브 비디오 해상도와 독립적이므로 백분율과 유사하다. 그러나, 디스패리티 값은 정수이고, 따라서 최소 디스패리티 값을 기술하는데 0.00868%와 같은 복잡한 숫자들을 코딩할 어떠한 명백한 필요성도 없다. 최소 디스패리티 값은 1 픽셀이고, 1/11,520은 0.00868%이다.

(v) 디스패리티 값은 11,520을 지칭하므로, 트랜스포트 동안에 디스패리티 값을 트랜스코딩할 어떠한 명백한 필요성도 전혀 없다.

(vi) SCM-기반 디스패리티 값이 예를 들면, 셋탑 박스("STB")에 도달하는 경우에, STB는 예를 들면 이하와 같은 매우 간단한 오퍼레이션을 수행함으로써 주어진 비디오 해상도에 대한 실제의 절대 디스패리티를 계산한다.

(a) 1920 해상도에 대해 디스패리티/6

(b) 1440 해상도에 대해 디스패리티/8

(c) 1280 해상도에 대해 디스패리티/9

(d) 960 해상도에 대해 디스패리티/12

(vii) 디스패리티 정보는 어느 채널들이 이용되는지 여부에 관계없이, 어떠한 트랜스코딩도 없는 한, 트랜스포트 동안에 저하되지 않는다.

(viii) 2k, 4k, 8k와 같은 더 새로운 소비자 해상도들에 대한 것에서도, 오퍼레이션은 구현하기 간단하고, STB 처리 유닛에서 용이하게 구현가능하다. 유의할 점은, 2k는 일반적으로 2048의 수평 픽셀 해상도를 가지고 있는 이미지들을 지칭하고, 4k는 일반적으로 4096을 지칭하며, 8k는 일반적으로 8192를 지칭한다는 점이다. 오퍼레이션들은 예를 들면 이하와 같다.

(a) 2048 해상도에 대해 디스패리티 x 8/45

(b) 4096 해상도에 대해 디스패리티 x 16/45

(c) 8192 해상도에 대해 디스패리티 x 32/45.

실제로, 하나 이상의 SCM 구현들은 (1) 대응하는 비디오 컨텐트의 현재의 수평 해상도에 대한 디스패리티 값들을 결정하고, (2) 이들 디스패리티 값들을 간단한 승산 및/또는 제산으로 11,520의 스케일로 변환하여 SCM 디스패리티 값을 생성하며, (3) 트랜스코딩 없이 SCM 디스패리티 값들을 저장 및 송신하고, (4) 간단한 승산 및/또는 제산을 이용하여 수신된 SCM 디스패리티 값들을 출력 디스플레이의 해상도로 변환한다. 어떠한 트랜스코딩도 없으므로, 이러한 솔루션은 일반적으로 트랜스코딩으로 인한 정보의 손실(예를 들면, 반올림 손실들)을 겪지 않을 것이다. 유의할 점은, 디스패리티 맵의 해상도는 상기 프로세스에 의해 변경되지 않는다는 점이다. 오히려, 현재의 디스패리티 값들(현재의 해상도에 대한 것)은 실제 해상도와 상이한 기준 해상도(또는 가상 해상도)에 기초하거나, 이를 반영하도록 스케일링된다.

다양한 구현들은 상기 설명된 것의 반대인 간단한 수학적 오퍼레이션을 수행함으로써 디스패리티 값들을 생성한다. 예를 들면, SCM 디스패리티 값을 생성하기 위해, 수신된 절대 디스패리티 값은 이하와 같이 하나 또는 2개의 정수들에 의해 승산되거나 제산된다.

(i) 1920 디스패리티 * 6 = SCM 디스패리티

(ii) 1440 디스패리티 * 8 = SCM 디스패리티

(iii) 1280 디스패리티 * 9 = SCM 디스패리티

(iv) 960 디스패리티 * 12 = SCM 디스패리티

(v) 2048 디스패리티 * 45/8 = SCM 디스패리티

(vi) 4096 디스패리티 * 45/16 = SCM 디스패리티

(vii) 8192 디스패리티 * 45/32 = SCM 디스패리티

도 7은 다양한 상이한 수평 해상도들에 대해 최소 공배수를 결정하는 프로세스의 추가적인 세부사항을 제공한다. 칼럼(710)은 상이한 수평 해상도들을 리스팅하고 있다. 칼럼(720)은 수평 해상도들의 최소 인수들을 리스팅하고 있다. 예를 들면, 960은 2⁶*3*5로 인수분해되고, 여기에서 2⁶은 2의 6제곱이다. 그러므로, 960=64*3*5이다. 또한, 유의될 점은, 1280의 수평 해상도에 대해, 3⁰은 1과 동일하다는 점이다.

960, 1280, 1440 및 1920의 처음 4개 해상도들의 최소 공배수는 2⁸*3²*5로서 11,520이다. 11,520 해상도는 적절한 2의 거듭제곱에 의해 승산한 후 2k, 4k 및 8k에 존재하지 않은 인수들 3² 및 5에 의해 제산함으로써, 2k, 4k 및 8k의 해상도와 함께 이용된다. 유의할 점은, 2의 거듭제곱에 의해 승산하는 것은 다양한 구현들에서, 실제 승산 오퍼레이션보다는 비트별 좌측-시프트 오퍼레이션을 이용하여 수행된다는 점이다. 도 7은 11,520과 칼럼(610)에 도시된 다양한 해상도들 사이에서 변환하는 변환 수학식을 제공하는 칼럼(730)을 포함한다.

칼럼(730)의 변환 수학식들은 복수 공통 디스플레이 크기들(예를 들면, 인치 또는 센티미터로 측정된 디스플레이의 물리적 크기를 지칭하는 디스플레이 크기)에 의해 지원되는 해상도들에 기초하여 디스패리티 값들을 스케일링하는데 이용될 수 있다. 도 7의 예에서, 예를 들면 1920의 수평 해상도에 기초하는 입력 디스패리티 값들은 6의 인자에 의해 스케일링되어, 디스패리티 값을 11,520의 수평 해상도에 기초하는 새로운 디스패리티 값으로 변환한다. 새로운 디스패리티 값은 또한 960, 1280 및 1440의 수평 해상도들에 기초하는데, 이들 해상도들은 11,520의 해상도에 의해 수용되고 이를 결정할 때 이용되기 때문이다.

대안 구현은 11,520 * 2⁵ = 368,640의 디스패리티 해상도를 단순히 이용한다. 이러한 대안 구현에서, 368,640을 다시 원래의 해상도로 변환하는데 어떠한 승산도 요구되지 않는다.

11,520의 값은 다양한 구현들에 이용된다. 그러나, 다른 값들이 다른 구현들에서 이용된다. 하나의 구현에서, 11,520 값은 23,040으로 두 배로 된다. 제2 구현에서, 368,640 값은 737,280으로 두 배로 된다.

대안적으로, 다양한 구현들에서 상이한 세트의 수평 해상도들이 이용되고, 결과적으로 상이한 SCM으로 나타난다. 예를 들면, 또 하나의 구현에서, 단지 1920 및 1440 출력 해상도들만이 관심사가 되고, 따라서 구현은 5,760의 SCM을 이용한다. 그리고나서, SCM 디스패리티 값들을 생성하기 위해, 1920 해상도로부터의 디스패리티 값들은 3의 인자에 의해 승산되고, 1440 해상도로부터의 디스패리티 값들은 4의 인자에 의해 승산된다.

다양한 구현들은 SCM 구현들이 아니라는 것은 자명하다 할 것이다. 예를 들면, 심지어 11,520 값은 칼럼(710)에 리스팅된 모든 7개의 해상도들의 SCM이 아니다. 오히려, 368,840 값이 SCM이다. 그럼에도 불구하고, 디스패리티 값이 모든 수평 해상도들의 최소 공배수가 아니더라도, 본 출원서에 기재된 구현들은 일반적으로 SCM 구현들로 지칭된다.

유의할 점은, SCM 구현들이 서브-픽셀 정확도를 제공한다는 점이다. 예를 들면, 1920 해상도에 대해, 디스패리티 값들은 6의 인자를 이용하여, 11,520 해상도로/로부터 변환하고, 이는 1/6 픽셀 정확도를 제공한다. 더 구체적으로는, 11,520-기반 디스패리티 값이 83이라면, 1920-기반 디스패리티 값은 13 5/6이다. 이것은 명백하게 1/6 픽셀 정확도를 제공한다. 이것은 장래 수요들에 대한 여유(margin)뿐만 아니라 품질 측면에서 다양한 장점들을 제공한다. 예를 들면, 1920 해상도가 2k 해상도에 의해 대체된다면, 11,520-기반 디스패리티 값들은 여전히 8/45 픽셀 정확도의 서브-픽셀 정확도를 제공하고, 이는 1/6(7.5/45) 픽셀보다 약간 덜 정확하지만 여전히 1/5(9/45) 픽셀보다 더 정확하다.

11,520의 SCM 해상도를 이용하는 적어도 하나의 구현은 2 바이트(16 비트) 포맷으로 동작한다. 전형적인 디스패리티 범위는 1920 x 1080 디스플레이(해상도) 상에서 대개는 +80 내지 -150 픽셀들에서 가변된다. 이들 숫자들을 6으로 승산하는 것은 11,520 기준 해상도 상에서 +480 내지 -900의 범위를 생성한다. 1380의 이러한 범위는 11 비트(2¹¹= 2048)에 의해 표현될 수 있다. 대안 구현은 10 비트를 이용하여 디스패리티의 절대값(디스패리티 최대 절대값은 900이다)을 표현하고, 추가 비트를 이용하여 부호를 표현한다.

또 다른 하나의 구현은 디스패리티의 부호를 내재적인 것으로 간주함으로써 하나의 비트를 절감한다. 예를 들면, 좌측 뷰의 픽셀들의 디스패리티는 디스패리티의 부호와 함께 코딩된다. 그러나, 대응하는 우측 뷰의 대응하는 픽셀들의 디스패리티는 반대 부호를 가지는 것으로 가정된다.

또 하나의 구현은, 뷰(양쪽 좌측 뷰 및 우측 뷰 모두) 당 하나의 밀집된 디스패리티 맵을 제공할 수 있고 따라서 가림들에 의해 야기된 문제들을 감소시키기 위해, 밀집된 디스패리티 맵에 대응하는 뷰를 나타내는 하나의 비트를 할당한다. 또 하나의 구현은 이미지(좌측 이미지 또는 우측 이미지 중 어느 하나)와 대응하는 밀집된 디스패리티 맵 사이의 내재적 연관을 제공하고, 따라서 하나의 비트를 이러한 정보에 바칠 필요가 없다. 이들 구현들에 대한 변동들은 하나 이상의 추가적인 비트들을 이용하여 다른 타입들의 맵들 또는 이미지들을 도입한다. 하나의 그러한 구현은 맵이 (i) 좌측 이미지 디스패리티 맵인지, (ii) 우측 이미지 디스패리티 맵인지, (iii) 가림 맵인지, 또는 (iv) 투명도 맵인지를 나타내는데 2개의 비트들을 이용한다. 하나의 구현은 16 비트 포맷을 가지고 있고, -900 내지 +480의 범위를 나타내는데 11 비트를 이용하며, 맵의 타입을 나타내는데 2 비트를 이용하고, 미사용된 3 비트를 가지고 있다.

도 8은 하나 이상의 구현들의 동작을 예시하는 블록/플로우 다이어그램을 제공한다. 도 8은 또한 상이한 구현들 사이의 일부 트레이드-오프들을 예시하고 있다.

도 8은 비디오를 처리하는 처리 체인(810)을 포함한다. 비디오 이미지(811)는 1920의 수평 해상도를 가지고 있다. 그러나, 처리 체인(810)의 송신 포맷은 1280의 수평 해상도를 가지고 있다. 따라서, 비디오 이미지(811)는 오퍼레이션(812)에서 필터링되고 다운-샘플링되어, 1280의 수평 해상도를 가지는 비디오 이미지(813)를 생성한다. 필터링 및 다운-샘플링은 처리 체인(810)에서 함께 수행된다. 그러나, 다른 구현들은 필터링 및 다운-샘플링을 분리하여 수행한다. 필터링은 예를 들면 비디오 이미지(811)가 다운-샘플링되는 경우에 에일리어싱을 방지할 목적으로 비디오 이미지(811)를 저대역 통과 필터링하는데 이용된다. 비디오 이미지(813)는 송신 및/또는 저장 오퍼레이션(814)에서 운반된다.

체인(810)의 수신 측은 비디오 이미지(813)와 동일하거나, 유사하거나, 상이할 수 있는 수신된 비디오 이미지(815)에 액세스한다. 예를 들면, 하나의 구현에서, 비디오 이미지(815)는 비디오 이미지(813)의 저장된 버전이다. 추가적으로, 또 하나의 구현에서, 비디오 이미지(815)는 소스 인코딩 및 디코딩 오퍼레이션(도시되지 않음) 이후의 비디오 이미지(813)의 재구성된 버전을 표현한다. 또한, 또 하나의 구현에서, 비디오 이미지(815)는 채널 인코딩 및 디코딩(에러 정정을 포함함) 오퍼레이션들(도시되지 않음) 이후의 비디오 이미지(813)의 에러-정정된 버전을 표현한다. 비디오 이미지(815)는 업샘플링 오퍼레이션(816)에서 처리되어, 원래 비디오 이미지(811)에서와 같이, 1920 수평 해상도를 가지는 비디오 이미지(817)를 생성한다.

도 8은 또한 체인(810)에서 처리된 비디오 이미지들에 대응하는 디스패리티 이미지들을 처리하는 처리 체인(820)을 포함한다. 디스패리티 이미지(821)는 1920의 수평 해상도를 가지고 있고, 11,520의 해상도에 기초한 정수-값으로 된 디스패리티 값들을 포함한다. 유의할 점은, 디스패리티 이미지는 일반적으로 예를 들면 밀집된 디스패리티 맵, 다운-샘플링된 디스패리티 맵, 또는 산재된 디스패리티 맵과 같은 디스패리티 정보의 임의의 누적을 지칭한다는 점이다. 또한, 디스패리티 맵은 예를 들면 픽쳐, 프레임, 필드, 슬라이스, 매크로블록, 파티션, 또는 디스패리티 정보의 일부 다른 집합에 대응할 수 있다.

그러나, 처리 체인(820)의 송신 포맷은 1280의 수평 해상도를 가지고 있다. 따라서, 디스패리티 이미지(821)는 오퍼레이션(822)에서 필터링되고 다운-샘플링되어, 1280의 수평 해상도를 가지는 디스패리티 이미지(823)를 생성한다. 필터링 및 다운-샘플링은 처리 체인(820)에서 함께 수행된다. 그러나, 다른 구현들은 필터링 및 다운-샘플링을 분리하여 수행한다. 필터링은 예를 들면 디스패리티 이미지(821)가 다운-샘플링되는 경우에 에일리어싱을 방지할 목적으로 디스패리티 이미지(821)의 디스패리티 값들을 저대역통과 필터링하는데 이용된다.

디스패리티 이미지(823)의 디스패리티 값들은 정수 값들이다. 이것은 다양한 방식들로 달성될 수 있다. 하나의 구현에서, 필터링 및 다운-샘플링 오퍼레이션들의 결과는 가장 근접한 정수로 반올림된다. 또 하나의 구현에서는, 임의의 소수 부분은 단순히 폐기된다. 또 다른 하나의 구현은 디스패리티 이미지(823)의 디스패리티 값들에 대한 부동소수점 표현을 이용한다. 유의할 점은, 필터링 및 다운-샘플링이 1280의 디스패리티 이미지(823)에 대한 해상도를 생성한 이후라도, 디스패리티 값들은 여전히 11,520의 해상도에 기초한다는 점이다.

디스패리티 이미지(823)는 송신 및/또는 저장 오퍼레이션(824)에서 운반된다. 체인(820)의 수신 측은 수신된 디스패리티 이미지(825)에 액세스한다. 디스패리티 이미지(825)는 디스패리티 이미지(823)와 동일하거나, 유사하거나, 상이할 수 있다. 예를 들면, 하나의 구현에서, 디스패리티 이미지(825)는 디스패리티 이미지(823)의 저장된 버전이다. 추가적으로, 또 하나의 구현에서, 디스패리티 이미지(825)는 소스 인코딩 및 디코딩 오퍼레이션들(도시되지 않음) 이후의 디스패리티 이미지(823)의 재구성된 버전을 표현한다. 또한, 또 다른 하나의 구현에서, 디스패리티 이미지(825)는 채널 인코딩 및 디코딩(에러 정정을 포함함) 오퍼레이션들(도시되지 않음) 이후의 디스패리티 이미지(823)의 에러-정정된 버전을 표현한다. 그러나, 디스패리티 이미지(825)의 디스패리티 값들은 예를 들면 필요한 경우에 반올림을 이용함으로써 정수들로서 유지된다.

디스패리티 이미지(825)는 업샘플링 오퍼레이션(826)에서 처리되어, 원래의 디스패리티 이미지(821)에서와 같이, 1920 수평 해상도를 가지는 디스패리티 이미지(827)를 생성한다. 오퍼레이션(826)은 예를 들면 반올림 또는 잘라버림을 이용하여 디스패리티 이미지(827)에 대한 정수 값들을 생성한다.

디스패리티 이미지(827)의 디스패리티 값들은 변환 오퍼레이션(828)에서, 11,520의 해상도에 기초한 것으로부터 1920의 해상도에 기초한 것으로 변환된다. 변환 오퍼레이션(828)은 상기 설명된 바와 같이, 각 디스패리티 값을 6으로 나눈다. 변환 오퍼레이션(828)은 디스패리티 이미지(829)를 생성한다. 디스패리티 이미지(829)의 디스패리티 값들은 서브-픽셀 정확도를 보존하기 위해 부동소수점 수로 표현된다.

처리 체인(820)은 적어도 중요한 장점들을 포함한다는 것은 자명하다. 첫째로, 디스패리티 값들은 최종 디스패리티 이미지(829)가 제공될 때까지 체인(820) 전체에 걸쳐 정수들이다. 두 번째, 송신 포맷의 수평 해상도가 네이티브 디스패리티 맵(821)의 수평 해상도와 상이한 사실에도 불구하고, 실제 디스패리티 값들은 트랜스코딩되지 않는다. 그러므로, 디스패리티 값들은 다양한 상이한 수평 해상도들에 적용가능하다.

그리고나서, 수신 시스템은 디스패리티 이미지(829)를 이용하여 비디오 이미지(817)를 처리한다. 처리는 앞서 설명된 바와 같이, 3D 효과들을 조정하고, 자막들을 포지셔닝하며, 그래픽을 삽입하거나, 비주얼 효과들을 수행하는 것을 포함할 수 있다.

도 8은 비교 목적을 위해 처리 체인(830)을 또한 도시하고 있다. 처리 체인(830)은 또한 체인(810)에서 처리된 비디오 이미지에 대응하는 디스패리티 이미지들을 처리한다. 처리 체인(830)은 처리 체인(820)에 대한 하나의 대안이다. 전체 체인(830)은 이하에 설명되는 바와 같이, 도 8을 단순화시키기 위해 도시되지 않는다는 것은 자명하다.

디스패리티 이미지(831)는 1920의 수평 해상도를 가지고 있고, 부동소수점 표현을 가지는 백분율-기반 디스패리티 값들을 포함한다. 그러나, 처리 체인(830)의 송신 포맷은 1280의 수평 해상도를 가지고 있다. 따라서, 디스패리티 이미지(831)는 오퍼레이션(832)에서 필터링되고 다운샘플링되어 1280의 수평 해상도를 가지는 디스패리티 이미지(833)를 생성한다. 오퍼레이션(832)은 예를 들면 필터링 및 다운-샘플링 오퍼레이션(812 또는 822)과 유사할 수 있다. 디스패리티 이미지(833)의 백분율-기반 디스패리티 값들은 계속해서 부동소수점 포맷으로 표현된다.

처리 체인(830)의 나머지(도시되지 않음)는 처리 체인(820)의 것과 흡사하다(mirror). 디스패리티 이미지(833)는 송신 및/또는 저장 오퍼레이션에서 운반된다.

체인(830)의 수신 측은 수신된 디스패리티 이미지에 액세스한다. 수신된 디스패리티 이미지는 1920의 수평 해상도로 업샘플링되고, 그리고나서 디스패리티 값들은 백분율-기반으로 된 것으로부터 1920의 해상도에 기초한 것으로 변환된다. 변환 오퍼레이션은 상기 설명된 바와 같이, 백분율 × 1920의 승산이다. 그러나, 처리 체인(820)과 비교하여, 처리 체인(830)의 디스패리티 이미지들의 디스패리티 값들은 항상 부동소수점 포맷으로 표현된다.

도 8은 또한 비교 목적을 위해 처리 체인(840)을 도시하고 있다. 처리 체인(840)은 또한 체인(810)에서 처리된 비디오 이미지들에 대응하는 디스패리티 이미지들을 처리한다. 처리 체인(840)은 처리 체인(820)에 대한 하나의 대안이다. 전체 체인(840)은 이하에 설명되는 바와 같이, 도 8을 단순화하기 위해 도시되어 있지 않다는 것은 자명하다.

디스패리티 이미지(841)는 1920의 수평 해상도를 가지고 있고, 1920 해상도에 기초하고 부동소수점 표현을 가지는 디스패리티 값들을 포함한다. 그러나, 처리 체인(840)의 송신 포맷은 1280의 수평 해상도를 가지고 있다. 따라서, 디스패리티 이미지(841)는 오퍼레이션(842)에서 필터링되고 다운-샘플링되어 1280의 수평 해상도를 가지는 디스패리티 이미지(843)를 생성한다. 오퍼레이션(842)은 예를 들면 필터링 및 다운-샘플링 오퍼레이션(812, 822 또는 823)과 유사할 수 있다. 디스패리티 이미지(843)의 디스패리티 값들은 계속해서 부동소수점 포맷으로 표현된다.

그리고나서, 디스패리티 이미지(843)의 디스패리티 값들은 변환 오퍼레이션(850)에서, 변환되어 디스패리티 이미지(860)를 생성한다. 변환 오퍼레이션(850)은 디스패리티 값들을 1920의 수평 해상도에 기초한 것으로부터 1280의 수평 해상도에 기초한 것으로 변환한다. 디스패리티 이미지(860)의 디스패리티 값들은 계속해서 부동소수점 포맷으로 표현된다.

처리 체인(840)의 나머지(도시되지 않음)는 처리 체인(820)의 것과 흡사하다. 디스패리티 이미지(860)는 송신 및/또는 저장 오퍼레이션에서 운반된다. 체인(840)의 수신 측은 수신된 디스패리티 이미지에 액세스한다. 수신된 디스패리티 이미지는 1920의 수평 해상도로 업샘플링되고, 그리고나서 디스패리티 값들은 1280의 해상도에 기초한 것으로부터 1920의 해상도에 기초한 것으로 변환된다. 변환 오퍼레이션은 디스패리티 값들을 1920/1280에 의해 승산하는 것과 관련된다. 처리 체인(830)에서와 같이, 그리고 처리 체인(820)과 대조적으로, 처리 체인(840)의 디스패리티 이미지들의 디스패리티 값들은 항상 부동소수점 포맷으로 표현된다.

처리 체인(840)의 또 하나의 구현에서, 변환 오퍼레이션(850)이 수행되지 않는다. 그러므로, 디스패리티 이미지(843)의 디스패리티 값들은 1920의 수평 해상도에 기초하고 있는 디스패리티 값들로 유지된다. 그러나, 디스패리티 이미지(843)의 수평 해상도는 1280으로 유지된다. 그러므로, 이러한 구현은 송신 이전의 변환을 피하고, 가능하게는 수신 또는 검색 이후의 재-변환도 피한다. 변환 및 재-변환을 피하는 것은 또한 적어도 일부 구현들에서 반올림 에러들을 피한다. 본 출원서의 모든 다른 구현들에서와 같이, 이러한 구현은 장점들을 가지고 있고 유용할 수 있다. 그러나, 디스패리티 값들은 전체 구현에 걸쳐 부동 소수점 수들로 표현된다.

이제, 도 9를 참조하면, 상기 설명된 특징들 및 원리들이 적용될 수 있는 비디오 송신 시스템 또는 장치(900)가 도시되어 있다. 비디오 송신 시스템 또는 장치(900)는 예를 들면 위성, 케이블, 전화선 또는 지상 방송과 같은 다양한 미디어들 중 임의의 하나를 이용하여 신호를 송신하기 위한 헤드-엔드 또는 송신 시스템일 수 있다. 비디오 송신 시스템 또는 장치(900)는 또한 또는 대안적으로, 예를 들면 저장을 위해 신호를 제공하는데 이용될 수 있다. 송신은 인터넷 또는 일부 다른 네트워크를 통해 제공될 수 있다. 비디오 송신 시스템 또는 장치(900)는 예를 들면, 비디오 컨텐트, 및 예를 들면 깊이 및/또는 디스패리티 값들을 포함하여 깊이의 표시자들과 같은 다른 컨텐트를 생성하고 전달할 수 있다. 또한, 도 9의 블록들은 비디오 송신 시스템 또는 장치의 블록 다이어그램을 제공할 뿐만 아니라, 비디오 송신 프로세스의 플로우 다이어그램을 제공한다는 것은 자명하다.

비디오 송신 시스템 또는 장치(900)는 프로세서(901)로부터 입력 비디오를 수신한다. 하나의 구현에서, 프로세서(901)는 디스패리티 이미지들(821, 831, 841) 및/또는 비디오 이미지(811)와 같은 원래-해상도 이미지들을 비디오 송신 시스템 또는 장치(900)에 단순히 제공한다. 그러나, 또 하나의 구현에서, 프로세서(901)는 예를 들면 오퍼레이션들(812, 822, 832, 842)에 대해 상기 설명된 바와 같이, 비디오 이미지(813) 및/또는 디스패리티 이미지들(823, 833, 843)과 같은 이미지들을 생성하도록 필터링 및 다운-샘플링을 수행하기 위해 구성된 프로세서이다. 또 하나의 다른 구현에서, 프로세서(901)는 예를 들면 디스패리티 이미지(860)와 같은 변환된 디스패리티 값들을 가지는 디스패리티 이미지를 생성하기 위해, 예를 들면 오퍼레이션(850)과 같은 디스패리티 변환을 수행하도록 구성된다. 프로세서(901)는 또한 예를 들면 입력 이미지의 수평 해상도, 디스패리티 값들이 기초하고 있는 수평 해상도, 디스패리티 값들이 백분율에 기초하고 있는지 공배수에 기초하고 있는지, 및 입력 이미지들의 하나 이상을 기술하는 다른 정보를 나타내는 메타데이터를 비디오 송신 시스템 또는 장치(900)에게 제공할 수 있다.

비디오 송신 시스템 또는 장치(900)는 인코더(902), 및 인코딩된 신호를 송신할 수 있는 송신기(904)를 포함한다. 인코더(902)는 프로세서(901)로부터 비디오 정보를 수신한다. 비디오 정보는 예를 들면 비디오 이미지들 및/또는 디스패리티(또는 깊이) 이미지들을 포함할 수 있다. 인코더(902)는 비디오 및/또는 디스패리티 정보에 기초하여 인코딩된 신호(들)를 생성한다. 인코더(902)는 예를 들면 AVC 인코더일 수 있다. AVC 인코더는 양쪽 비디오 및 디스패리티 정보 모두에 적용될 수 있다. AVC는 표준화/국제 전기기술 협회에 대한 현재의 국제 기구(ISO/IEC) 동화상 전문가 그룹-4(MPEG-4) 파트 10 진보된 비디오 코딩(AVC) 표준/국제 통신 유니온, 통신 섹터(ITU-T) H.264 추천(이하에서는, "H.264/MPEG-4 AVC 표준" 또는 그 변형 표현, 예를 들어, "AVC 표준", "H.264 표준" 또는 간단히 "AVC" 또는 "H.264"라 함)을 지칭한다.

인코더(902)는 예를 들면 다양한 정보들을 수신하고 이들을 저장 및 송신을 위해 구조화된 포맷으로 조립하기 위한 어셈블리 유닛을 포함하여, 서브-모듈들을 포함할 수 있다. 이 다양한 정보들은 예를 들면 코딩되거나 코딩되지 않은 비디오, 코딩되거나 코딩되지 않은 디스패리티(또는 깊이) 값들, 및 예를 들면 모션 벡터들, 코딩 모드 표시자들 및 구문 요소들과 같은 코딩되거나 코딩되지 않은 요소들을 포함할 수 있다. 일부 구현들에서, 인코더(902)는 프로세서(901)를 포함하고, 따라서 프로세서(901)의 오퍼레이션들을 수행한다.

송신기(904)는 인코더(902)로부터 인코딩된 신호(들)를 수신하고 인코딩된 신호(들)를 하나 이상의 출력 신호들로 송신한다. 송신기(904)는 예를 들면 인코딩된 픽쳐들 및/또는 거기에 관련된 정보를 표현하는 하나 이상의 비트스트림들을 가지는 프로그램 신호를 송신하도록 적응될 수 있다. 전형적인 송신기들은 예를 들면 에러-정정 코딩을 제공하고, 신호에서 데이터를 인터리빙하며, 신호에서 에너지를 랜덤화하고, 변조기(906)를 이용하여 신호를 하나 이상의 캐리어들로 변조하는 것 중 하나 이상과 같은 기능들을 수행한다. 송신기(904)는 안테나(도시되지 않음)를 포함하거나 이것과 인터페이싱할 수 있다. 또한, 송신기(904)의 구현들은 변조기(906)로 제한될 수 있다.

비디오 송신 시스템 또는 장치(900)는 또한 저장 유닛(908)에 통신가능하게 결합된다. 하나의 구현에서, 저장 유닛(908)은 인코더(902)에 결합되고, 저장 유닛(908)은 인코더(902)로부터의 인코딩된 비트스트림을 저장한다. 또 하나의 구현에서, 저장 유닛(908)은 송신기(904)에 결합되고, 송신기(904)로부터의 비트스트림을 저장한다. 송신기(904)로부터의 비트스트림은 예를 들면, 송신기(904)에 의해 추가 처리된 하나 이상의 인코딩된 비트스트림들을 포함할 수 있다. 저장 유닛(908)은 상이한 구현들에서, 표준 DVD, 블루-레이 디스크, 하드 드라이브, 또는 일부 다른 저장 디바이스 중 하나 이상이다.

이제, 도 10을 참조하면, 상기 설명된 특징들 및 원리들이 적용될 수 있는 비디오 수신 시스템 또는 장치(1000)가 도시되어 있다. 비디오 수신 시스템 또는 장치(1000)는 예를 들면, 위성, 케이블, 전화선, 또는 지상 방송과 같은 다양한 매체를 통해 신호를 수신하도록 구성될 수 있다. 신호들은 인터넷 또는 일부 다른 네트워크를 통해 수신될 수 있다. 또한, 도 10의 블록들은 비디오 수신 시스템 또는 장치의 블록 다이어그램을 제공할 뿐만 아니라 비디오 수신 프로세스의 플로우 다이어그램을 제공한다는 것은 자명하다.

비디오 수신 시스템 또는 장치(1000)는 예를 들면 셀-전화기, 컴퓨터, 셋탑 박스, 텔레비전, 또는 인코딩된 비디오를 수신하고 예를 들면 표시(예를 들면, 사용자로의 표시), 처리 또는 저장을 위해 디코딩된 비디오 신호를 제공하는 다른 디바이스일 수 있다. 그러므로, 비디오 수신 시스템 또는 장치(1000)는 그 출력을 예를 들면, 텔레비전의 스크린, 컴퓨터 모니터, 컴퓨터(저장, 처리 또는 표시를 위함), 또는 일부 다른 저장, 처리 또는 표시 디바이스에 제공할 수 있다.

비디오 수신 시스템 또는 장치(1000)는 비디오 정보를 수신 및 처리할 수 있고, 비디오 정보는 예를 들면 비디오 이미지들 및/또는 디스패리티(또는 깊이) 이미지들을 포함할 수 있다. 비디오 수신 시스템 또는 장치(1000)는 예를 들면 본 출원서의 구현들에서 기재된 신호들과 같은 인코딩된 신호를 수신하기 위한 수신기(1002)를 포함한다. 수신기(1002)는 예를 들면 비디오 이미지(815) 및/또는 디스패리티 이미지(825) 중 하나 이상을 제공하는 신호, 또는 도 9의 비디오 송신 시스템(900)으로부터 출력된 신호를 수신할 수 있다.

수신기(1002)는 예를 들면, 인코딩된 픽쳐들을 표현하는 복수의 비트스트림들을 가지는 프로그램 신호를 수신하도록 적응될 수 있다. 전형적인 수신기들은 예를 들면 변조되고 인코딩된 데이터 신호를 수신하고, 하나 이상의 캐리어들로부터 복조기(1004)를 이용하여 데이터 신호를 복조하며, 신호에서 에너지를 랜덤화 해제(de-randomize)하고, 신호에서 데이터를 디-인터리빙하며, 신호를 에러 정정 디코딩하는 것 중 하나 이상과 같은 기능들을 수행한다. 수신기(1002)는 안테나(도시되지 않음)를 포함하거나 이와 인터페이싱할 수 있다. 수신기(1002)의 구현들은 복조기(1004)로 제한될 수 있다.

비디오 수신 시스템 또는 장치(1000)는 디코더(1006)를 포함한다. 수신기(1002)는 수신된 신호를 디코더(1006)에 제공한다. 수신기(1002)에 의해 디코더(1006)에 제공된 신호는 하나 이상의 인코딩된 비트스트림들을 포함할 수 있다. 디코더(1006)는 예를 들면 비디오 정보를 포함하는 디코딩된 비디오 신호들과 같은 디코딩된 신호를 출력한다. 디코더(1006)는 예를 들면 AVC 디코더일 수 있다.

비디오 수신 시스템 또는 장치(1000)는 또한 저장 유닛(1007)에 통신가능하게 결합된다. 하나의 구현에서, 저장 유닛(1007)은 수신기(1002)에 결합되고, 수신기(1002)는 저장 유닛(1007)으로부터의 비트스트림에 액세스한다. 또 하나의 구현에서, 저장 유닛(1007)은 디코더(1006)에 결합되고, 디코더(1006)는 저장 유닛(1007)으로부터의 비트스트림에 액세스한다. 저장 유닛(1007)으로부터 액세스된 비트스트림은 상이한 구현들에서, 하나 이상의 인코딩된 비트스트림들을 포함한다. 저장 유닛(1007)은 상이한 구현들에서, 표준 DVD, 블루-레이 디스크, 하드 디스크, 또는 일부 다른 저장 디바이스 중 하나 이상이다.

디코더(1006)로부터의 출력 비디오는 하나의 구현에서, 프로세서(1008)에 제공된다. 프로세서(1008)는 하나의 구현에서, 예를 들면 업샘플링 오퍼레이션들(816 및/또는 826)에 대해 설명된 것과 같은 업샘플링을 수행하도록 구성된 프로세서이다. 일부 구현들에서, 디코더(1006)는 프로세서(1008)를 포함하고, 따라서 프로세서(1008)의 오퍼레이션들을 수행한다. 다른 구현들에서, 프로세서(1008)는 예를 들면 셋탑 박스 또는 텔레비전과 같은 다운스트림 디바이스의 일부이다.

유의할 점은, 적어도 하나의 구현이 여분 비트를 이용하여 2개의 디스패리티 맵들이 생성되는 것을 허용한다는 점이다. 제1 디스패리티 맵은 "좌측" 뷰에 대해 계산되고, 제2 디스패리티 맵은 "우측" 뷰에 대해 계산된다. 오브젝트들이 가려질 수 있다면, 2개의 디스패리티 맵들을 가지는 것은 가림들의 개선된 핸들링을 허용한다. 예를 들면, 대응하는 디스패리티 값들을 비교함으로써, 시스템은 가림이 존재하는지 여부를 결정할 수 있고, 그렇다면 결과적인 구멍을 채우는 단계들을 취한다. 추가적인 구현들은 더 많은 디스패리티 맵들을 제공하고, 그 개수의 디스패리티 맵들을 수용하도록 적절한 개수의 비트들을 할당한다. 예를 들면, MVC(MVC 확장(부록 G)을 가지는 AVC를 참조하라)와 같은 멀티-뷰 컨텍스트에서, 모든 뷰로부터 모든 다른 뷰로의 계산된 디스패리티를 보여주는 디스패리티 맵들의 세트를 송신하는 것이 바람직할 수 있다. 대안적으로, 구현은 뷰들의 서브세트에 대한 디스패리티 맵들만을 송신할 수도 있다.

디스패리티는 예를 들면 모션 벡터를 계산하는 것과 유사한 방식으로 계산될 수 있다. 대안적으로, 디스패리티는 주지되어 있고 상기 설명된 바와 같이, 깊이 값들로부터 계산될 수 있다.

다양한 구현들은 또한 깊이 값들 대신에 디스패리티 값들의 이용으로부터 기인하는 장점들을 가지고 있다. 그러한 장점들은 (1) 디스패리티 값들은 한계가 정해져 있는데 반해, 깊이 값들은 무한대까지 진행할 수 있고 따라서 깊이 값들은 표현/인코딩하기 더 어렵다는 점, 및 (2) 디스패리티 값들은 직접적으로 표현될 수 있는데 반해, 잠재적으로 매우 큰 깊이 값들을 표현하는데 로그 스케일링이 자주 필요로 된다는 점을 포함할 수 있다. 추가적으로, 일반적으로 디스패리티로부터 깊이를 결정하는 것은 간단하다. 다양한 구현들에서 초점 거리, 베이스라인 거리(길이), 및 수렴 면 거리와 같은 정보를 제공하는 메타데이터가 포함된다. 수렴 면 거리는 카메라들이 수렴하는 경우에 카메라 축들이 교차하는 거리이다. 카메라 축들이 교차하는 포인트는 도 4에서 각도(410)의 정점으로 보여질 수 있다. 카메라들이 평행한 경우에, 수렴 면 거리는 무한대 거리에 있다.

그러므로, 우리는 특정 특징들 및 양태들을 가지는 하나 이상의 구현들을 제공한다. 특히, 우리는 밀집된 디스패리티 맵들과 관련된 수 개의 구현들을 제공한다. 밀집된 디스패리티 맵들은 예를 들면 소비자 디바이스 상에서의 비교적 복잡한 3D 효과 조정, 및 제조 이후의 비교적 간단한 자막 배치와 같이, 다양한 어플리케이션들을 허용할 수 있다. 그러나, 이들 구현들의 변동들 및 추가적인 어플리케이션들이 본 개시 내에서 예상되고, 기재된 구현들의 특징들 및 양태들은 다른 구현들에 적응될 수 있다.

유의할 점은, +80 내지 -150 픽셀들의 범위는 하나 이상의 특정 디스플레이 크기들에 대해, 상기 구현들 중 적어도 하나에서 이용된다는 점이다. 그러나, 다른 구현들에서, 이들 특정 디스플레이 크기들에 대해서도, 범위의 엔드 값들 및/또는 그 범위 자체의 크기를 변동시키는 상이한 디스패리티 범위가 이용된다. 하나의 구현에서, 테마 파크의 프리젠테이션은 더 드라마틱한 효과들을 위해 더 극심한 음의 디스패리티(예를 들면, 스크린으로부터 중간보다 더 가까이 나오는 오브젝트들을 묘사하기 위해)를 이용한다. 또 하나의 구현에서, 전문가 디바이스는 소비자 디바이스보다 더 넓은 범위의 디스패리티를 지원한다.

본 출원서에 기재된 수 개의 구현들 및 특징들은 AVC 표준, 및/또는 MVC 확장(부록 H)을 가지는 AVC, 및/또는 SVC 확장(부록 G)을 가지는 AVC의 컨텍스트에서 이용될 수 있다. 추가적으로, 이들 구현들 및 특징들은 또 하나의 표준(현재 또는 미래)의 컨텍스트에서, 또는 표준과 관련되지 않는 컨텍스트에서 이용될 수 있다.

본 원리들의 "하나의 실시예" 또는 "실시예" 또는 "하나의 구현" 또는 "구현" 및 그 다른 변형 표현들에 대한 언급은, 그 실시예와 관련하여 기재된 특정 특징, 구조, 특성, 등이 본 원리들의 적어도 하나의 실시예에 포함되어 있다는 것을 의미한다. 그러므로, 명세서 전체에 걸쳐 다양한 곳에서 나타나는, 구문 "하나의 실시예에서" 또는 "실시예에서" 또는 "하나의 구현에서" 또는 "구현에서"뿐만 아니라 그 임의의 다른 변형 표현들의 출현은 반드시 모두가 동일한 실시예를 지칭하는 것은 아니다.

추가적으로, 본 출원서 또는 청구항들은 다양한 정보들을 "결정하는" 것을 언급할 수 있다. 정보를 결정하는 것은 예를 들면, 정보를 추정하고, 정보를 계산하며, 정보를 예측하거나, 메모리로부터 정보를 검색하는 것 중 하나 이상을 포함할 수 있다.

주어진 디스플레이가 복수의 상이한 해상도를 지원할 수 있다는 것은 자명하다. 그러므로, 주어진 디스플레이는 예를 들면 1280, 1440 또는 1920 중 어느 하나의 해상도를 가지는 비디오 컨텐트를 표시할 수 있다. 그럼에도 불구하고, 최고 지원되는 해상도가 1920이므로, 주어진 디스플레이는 1920 디스플레이로 자주 지칭된다. 큰 디스플레이가 작은 해상도 이미지를 표시하고 있는 경우에, 이미지의 개별적인 요소들은 복수의 픽셀들을 포함할 수 있다. 예를 들면, 디스플레이가 800 및 1920의 수평 해상도를 지원할 수 있다면, 디스플레이는 통상적으로 폭이 적어도 1920 픽셀들이다. 디스플레이가 800 해상도 이미지를 표시하고 있는 경우에, 디스플레이는 3개 이상의 픽셀들의 적어도 일부를 이미지의 각 요소에 할당하는 것이 가능하다.

다양한 구현들은 디스패리티 값들의 부동소수점 표현들을 이용한다. 그러한 구현들의 특정 변동들은 부동소수점 표현들 대신에 디스패리티 값들의 고정소수점 표현들을 이용한다.

이하 "/", " 및/또는", 및 "중 적어도 하나" 중 임의의 하나의 이용은, 예를 들면 "A/B", "A 및/또는 B", 및 "A 및 B 중 적어도 하나"의 경우에, 제1 리스팅된 옵션 (A)만의 선택, 또는 제2 리스트된 옵션 (B)만의 선택, 또는 양쪽 옵션들(A 및 B)의 선택을 포함하려는 것은 자명하다. 하나의 추가 예로서, "A, B 및/또는 C" 및 "A, B 및 C 중의 적어도 하나", 및 "A, B, 또는 C 중 적어도 하나"의 경우들에서, 그러한 문구들은 제1 리스팅된 옵션(A)만의 선택, 또는 제2 리스팅된 옵션(B)만의 선택, 또는 제3 리스팅된 옵션(C)만의 선택, 또는 제1 및 제2 리스팅된 옵션들(A 및 B)만의 선택, 또는 제1 및 제3 리스팅된 옵션들(A 및 C)만의 선택, 또는 제2 및 제3 리스팅된 옵션들(B 및 C)만의 선택, 또는 모두 3개의 옵션들(A 및 B 및 C)의 선택을 포함하려는 것이다. 이것은 본 및 관련 기술분야의 통상의 기술자들에게 용이하게 명백한 바와 같이, 리스팅되는 다수의 아이템들에 대해 확장될 수 있다.

추가적으로, 다수의 구현들은 인코더(예를 들면, 인코더(902)), 디코더(예를 들면, 디코더(1006)), 디코더로부터의 출력을 처리하는 포스트-프로세서(예를 들면, 프로세서(1008)), 또는 인코더에 입력을 제공하는 프리-프로세서(예를 들면, 프로세서(901)) 중 하나 이상에서 구현될 수 있다. 또한, 본 개시에 의해 다른 구현들이 예상된다.

여기에 기재된 구현들은 예를 들면, 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림, 또는 신호로 구현될 수 있다. 단일 형태의 구현(예를 들면, 방법으로서만 기재됨)의 컨텍스트에서만 기재되어 있지만, 기재된 특징들의 구현은 다른 형태들(예를 들면, 장치 또는 프로그램)로 구현될 수도 있다. 장치는 예를 들면 적절한 하드웨어, 소프트웨어, 및 펌웨어로 구현될 수 있다. 방법들은 예를 들면, 일반적으로 컴퓨터, 마이크로프로세서, 집적 회로, 또는 프로그램가능한 논리 디바이스를 포함하는 처리 디바이스를 지칭하는 예를 들면 프로세서와 같은 장치에서 구현될 수 있다. 프로세서들은 예를 들면, 컴퓨터, 셀 전화기, 휴대용/개인휴대단말기("PDA"), 및 엔드-사용자들 사이의 정보 통신을 용이하게 하는 다른 디바이스들과 같은 통신 디바이스들을 포함한다.

여기에 기재된 다양한 프로세스들 및 특징들의 구현들은 다양한 상이한 장비 또는 어플리케이션들, 특히 예를 들면 데이터 인코딩, 데이터 디코딩, 뷰 생성, 깊이 또는 디스패리티 처리 및 이미지들 및 관련된 깊이 및/또는 디스패리티 맵들의 다른 처리와 연관된 장비 또는 어플리케이션들에서 실시될 수 있다. 그러한 장비의 예들은 인코더, 디코더, 디코더로부터의 출력을 처리하는 포스트-프로세서, 인코더에 입력을 제공하는 프리-프로세서, 비디오 코더, 비디오 디코더, 비디오 코덱, 웹 서버, 셋탑 박스, 랩탑, 퍼스널 컴퓨터, 셀 전화기, PDA, 및 다른 통신 디바이스들을 포함한다. 명백한 바와 같이, 장비는 이동형일 수 있고 심지어 모바일 차량에 설치될 수도 있다.

추가적으로, 방법들은 프로세서에 의해 수행되는 명령들에 의해 구현될 수 있고, 그러한 명령들(및/또는 구현에 의해 생성된 데이터 값들)은 예를 들면 집적 회로, 소프트웨어 캐리어, 또는 예를 들면 하드디스크, 컴팩트 디스켓("CD"), 광 디스크(예를 들면, 종종 디지털 다기능 디스크 또는 디지털 비디오 디스크로 지칭되는 DVD), 랜덤 액세스 메모리("RAM"), 또는 판독전용 메모리("ROM")와 같은 다른 저장 디바이스와 같은 프로세서-판독가능한 매체 상에 저장될 수 있다. 명령들은 프로세서-판독가능한 매체 상에 실체적으로 구현되는 어플리케이션 프로그램을 형성할 수 있다. 명령들은 예를 들면 하드웨어, 펌웨어, 소프트웨어, 또는 조합으로 되어 있을 수 있다. 명령들은 예를 들면 운영체제, 개별 어플리케이션, 또는 2개의 조합에서 발견될 수 있다. 그러므로, 프로세서는 예를 들면 프로세스를 수행하도록 구성된 디바이스, 및 프로세스를 수행하기 위한 명령들을 가지는 프로세서-판독가능한 매체(예를 들면, 저장 디바이스)를 포함하는 디바이스 양쪽 모두로서 특징지어질 수 있다. 또한, 프로세서-판독가능한 매체는 명령들뿐만 아니라, 또는 그 대신에, 구현에 의해 생성된 데이터 값들을 저장할 수 있다.

본 기술분야의 숙련자에게 명백한 바와 같이, 구현들은 예를 들면 저장되거나 송신될 수 있는 정보를 운반하도록 포맷팅된 다양한 신호들을 생성할 수 있다. 정보는 예를 들면 방법을 수행하기 위한 명령들, 또는 기재된 구현들 중 하나에 의해 생성된 데이터를 포함할 수 있다. 예를 들면, 신호는 기재된 실시예의 구문을 기록하거나 판독하기 위한 규칙들을 데이터로서 운반하거나, 기재된 실시예에 의해 기록된 실제 구문-값들을 데이터로서 운반하도록 포맷팅될 수 있다. 그러한 신호는 예를 들면, 전자기파(예를 들면, 스펙트럼의 무선주파수 부분을 이용함)로서, 또는 베이스대역 신호로서 포맷팅될 수 있다. 포맷팅은 예를 들면 데이터 스트림을 인코딩하고 인코딩된 데이터 스트림으로 캐리어를 변조하는 것을 포함할 수 있다. 신호가 운반하는 정보는 예를 들면 아날로그 또는 디지털 정보일 수 있다. 신호는 주지된 바와 같이, 다양한 상이한 유선 또는 무선 링크들을 통해 송신될 수 있다. 신호는 프로세서-판독가능한 매체 상에 저장될 수 있다.

다수의 구현들이 설명되었다. 그럼에도 불구하고, 다양한 변형들이 만들어질 수 있다는 것은 이해될 것이다. 예를 들면, 상이한 구현들의 요소들이 조합되고, 부가되며, 변형되거나 제거되어 다른 구현들을 생성할 수 있다. 추가적으로, 본 기술분야의 통상의 기술자라면, 다른 구조들 및 프로세스들이 개시된 것들에 대해 대체될 수 있고 결과적인 구현들은 개시된 구현들과 적어도 실질적으로 동일한 기능(들)을 적어도 실질적으로 동일한 방식(들)으로 수행하여, 적어도 실질적으로 동일한 결과(들)를 달성할 것이라는 것을 이해할 것이다. 따라서, 이들 및 다른 구현들은 본 출원서에 의해 예상된다.

Claims

픽쳐에서의 특정 로케이션에 대한 디스패리티(disparity) 값에 액세스하는 단계 - 상기 디스패리티 값은 상기 픽쳐의 수평 해상도에 대한 디스패리티를 나타냄 -; 및
상기 픽쳐의 수평 해상도에 대한 기준 해상도의 비율에 의해, 상기 액세스된 디스패리티 값을 스케일링하여 변형된 디스패리티 값을 생성하는 단계 - 상기 변형된 디스패리티 값은 상기 기준 해상도에 대한 디스패리티를 나타내고, 상기 기준 해상도는 상기 픽쳐의 수평 해상도 및 상기 픽쳐가 디스플레이되는 해상도보다 더 높음 -
를 포함하고, 상기 기준 해상도는 복수의 해상도들의 최소 공배수에 해당하는, 방법.
제1항에 있어서, 상기 기준 해상도는 상기 복수의 해상도들의 각각보다 더 높은 방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
하나 이상의 프로세서들을 포함하는 장치로서,
상기 프로세서들은 집합적으로,
픽쳐에서의 특정 로케이션에 대한 디스패리티 값에 액세스하는 것 - 상기 디스패리티 값은 상기 픽쳐의 수평 해상도에 대한 디스패리티를 나타냄 -; 및
상기 픽쳐의 수평 해상도에 대한 기준 해상도의 비율에 의해, 상기 액세스된 디스패리티 값을 스케일링하여 변형된 디스패리티 값을 생성하는 것 - 상기 변형된 디스패리티 값은 상기 기준 해상도에 대한 디스패리티를 나타내고, 상기 기준 해상도는 상기 픽쳐의 수평 해상도 및 상기 픽쳐가 디스플레이되는 해상도보다 더 높음 -
을 수행하도록 구성되고, 상기 기준 해상도는 복수의 해상도들의 최소 공배수에 해당하는, 장치.
제13항에 있어서, 상기 변형된 디스패리티 값을 저장하기 위한 메모리를 더 포함하는 장치.
픽쳐에서의 특정 로케이션에 대한 디스패리티 값에 액세스하기 위한 수단 - 상기 디스패리티 값은 상기 픽쳐의 수평 해상도에 대한 디스패리티를 나타냄 -; 및
상기 픽쳐의 수평 해상도에 대한 기준 해상도의 비율에 의해, 상기 액세스된 디스패리티 값을 스케일링하여 변형된 디스패리티 값을 생성하기 위한 수단 - 상기 변형된 디스패리티 값은 상기 기준 해상도에 대한 디스패리티를 나타내고, 상기 기준 해상도는 상기 픽쳐의 수평 해상도 및 상기 픽쳐가 디스플레이되는 해상도보다 더 높음 -
을 포함하고, 상기 기준 해상도는 복수의 해상도들의 최소 공배수에 해당하는, 장치.
명령어들이 저장된 프로세서 판독가능한 매체로서,
상기 명령어들은 하나 이상의 프로세서들로 하여금,
픽쳐에서의 특정 로케이션에 대한 디스패리티 값에 액세스하는 것 - 상기 디스패리티 값은 상기 픽쳐의 수평 해상도에 대한 디스패리티를 나타냄 -; 및
상기 픽쳐의 수평 해상도에 대한 기준 해상도의 비율에 의해, 상기 액세스된 디스패리티 값을 스케일링하여 변형된 디스패리티 값을 생성하는 것 - 상기 변형된 디스패리티 값은 상기 기준 해상도에 대한 디스패리티를 나타내고, 상기 기준 해상도는 상기 픽쳐의 수평 해상도 및 상기 픽쳐가 디스플레이되는 해상도보다 더 높음 -
을 집합적으로 수행하게 하고, 상기 기준 해상도는 복수의 해상도들의 최소 공배수에 해당하는, 프로세서 판독 가능한 저장 매체.
프로세서 - 상기 프로세서는,
픽쳐에서의 특정 로케이션에 대한 디스패리티 값에 액세스하고 - 상기 디스패리티 값은 상기 픽쳐의 수평 해상도에 대한 디스패리티를 나타냄 -;
상기 픽쳐의 수평 해상도에 대한 기준 해상도의 비율에 의해, 상기 액세스된 디스패리티 값을 스케일링하여 변형된 디스패리티 값을 생성하도록 - 상기 변형된 디스패리티 값은 상기 기준 해상도에 대한 디스패리티를 나타내고, 상기 기준 해상도는 상기 픽쳐의 수평 해상도 및 상기 픽쳐가 디스플레이되는 해상도보다 더 높고, 상기 기준 해상도는 복수의 해상도들의 최소 공배수에 해당함 -
구성됨 -; 및
상기 변형된 디스패리티 값을 나타내는 데이터로 신호를 변조하도록 구성된 변조기
를 포함하는 장치.
삭제
삭제
삭제
픽쳐에서의 특정 로케이션에 대한 디스패리티 값에 액세스하는 단계 - 상기 픽쳐는 제1 해상도를 가지고 있고, 상기 디스패리티 값은 상기 제1 해상도보다 더 높은 기준 해상도에 대한 디스패리티를 나타냄 -; 및
상기 기준 해상도에 대한 상기 제1 해상도의 비율에 의해, 상기 액세스된 디스패리티 값을 스케일링하여 변형된 디스패리티 값을 생성하는 단계 - 상기 변형된 디스패리티 값은 상기 제1 해상도에 대한 디스패리티를 나타내고, 상기 기준 해상도는 복수의 해상도들의 최소 공배수에 해당함 -
를 포함하는 방법.
제21항에 있어서, 상기 기준 해상도는 상기 복수의 해상도들의 각각보다 더 높은 방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제