KR20150017354A

KR20150017354A - 입체 및 무안경 입체 디스플레이들을 위한 프레임 호환가능한 깊이 맵 전달 포맷들

Info

Publication number: KR20150017354A
Application number: KR1020147034963A
Authority: KR
Inventors: 고피 락슈미나라야난; 사미르 훌얄카; 타오 첸; 클라스 하인리히 쉬르; 아밋 굴라티; 하리하란 가나파시; 필립 크래처
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션; 돌비 인터네셔널 에이비
Priority date: 2012-06-14
Filing date: 2013-06-12
Publication date: 2015-02-16
Also published as: US10165251B2; JP2016174364A; EP2862357B1; TW201731289A; KR20160087931A; WO2013188552A3; TW201613348A; JP2015525028A; CN104380743B; EP3399755A1; TWI630815B; JP2016167823A; JP5973067B2; KR101939971B1; KR101675780B1; JP6309993B2; JP6248133B2; TW201412093A; TWI521940B; KR101939969B1

Abstract

입체 및 무안경 입체 디스플레이들을 위한 입체 비디오 데이터 및 대응하는 깊이 맵 데이터가 코딩된 기저층 및 하나 이상의 코딩된 강화층들을 이용하여 코딩된다. 3D 입력 픽처와 대응하는 입력 깊이 맵 데이터를 가정하면, 입력 픽처에 기초하여, 나란한 및 상하의 픽처가 생성된다. 인코더를 이용하여, 코딩된 기저층을 생성하도록 나란한 픽처가 코딩된다. 인코더와 텍스처 기준 프로세싱 유닛(RPU)을 사용하여, 제 1 강화층을 생성하도록 상하의 픽처가 인코딩되며, 제 1 강화층은 기저층 스트림에 기초하여 코딩되고, 인코더와 깊이 맵 RPU를 사용하여, 제 2 강화층을 생성하도록 나란한 픽처에 대한 깊이 데이터가 인코딩되며, 제 2 강화층은 기저층에 기초하여 코딩된다. 대안의 단일, 이중, 및 다중층 깊이 맵 전달 시스템들이 또한 제공된다.

Description

입체 및 무안경 입체 디스플레이들을 위한 프레임 호환가능한 깊이 맵 전달 포맷들{FRAME COMPATIBLE DEPTH MAP DELIVERY FORMATS FOR STEREOSCOPIC AND AUTO-STEREOSCOPIC DISPLAYS}

본 출원은 2012년 6월 14일 출원된 미국 임시 특허 출원 번호 61/659,588; 2012년 10월 10일 출원된 미국 임시 특허 출원 번호 61/712,131; 2012년 12월 20일 출원된 미국 임시 특허 출원 번호 61/739,886; 2013년 2월 21일 출원된 미국 임시 특허 출원 번호 61/767,416; 2013년 4월 1일 출원된 미국 임시 특허 출원 번호 61/807,013; 2013년 4월 2일 출원된 미국 임시 특허 출원 번호 61/807,668; 및 2013년 5월 10일 출원된 미국 임시 특허 출원 번호 61/822,060에 우선권을 청구하며, 이들의 내용들은 모두 본 문서에 참조로 포함된다.

본 출원은 일반적으로 이미지들에 관한 것이다. 특히, 본 발명의 실시예는 입체 및 무안경 입체 디스플레이들을 위한 깊이 맵들의 전달을 위한 포맷들에 관한 것이다.

3D 비디오 시스템들은 극장이나 집에서 소비자의 경험을 강화시키는데 대단한 흥미를 모은다. 이러한 시스템들은 다음을 포함하는, 표현의 입체 또는 무안경 입체 방법들을 사용한다:

(i) 애너글리프(anaglyph) - 일반적으로 한쪽 눈에 대해 적색, 그리고 다른 눈에 대해 시안색(cyan)의 두 개의 색상 필터를 통해 광을 필터링하는 것에 의해 좌안/우안 구분을 제공한다;

(ii) 선형 편광(linear polarization) - (일반적으로) 수직으로 배향된 선형 편광기를 통해 좌안을 필터링하고, 수평으로 배향된 선형 편광기를 통해 우안 이미지를 필터링하는 것에 의해 프로젝터에 구분을 제공한다;

(iii) 원형 편광(circular polarization) - (일반적으로) 좌향 원형 편광기를 통해 좌안 이미지를 필터링하고, 우향 원형 편광기를 통해 우안 이미지를 필터링하는 것에 의해 프로젝터에 구분을 제공한다;

(iv) 셔터 글래스(shutter glasses) - 좌측 및 우측 이미지들을 적절히 다중화하는 것에 의해 구분을 제공한다,

(v) 스펙트럼 구분(spectral separation) - 좌안 및 우안이 각각 적색, 녹색 및 청색 스펙트럼들의 보색 부분을 수신하도록 좌안 및 우안을 스펙트럼으로 필터링하는 것에 의해 프로젝터에 구분을 제공한다.

오늘날 시장에서 사용가능한 3D 디스플레이들의 대부분은 입체 TV들이며, 이들은 사용자에게 3D 효과를 경험하기 위해 특별한 3D 안경을 쓸 것을 요구한다. 이러한 디스플레이들로의 3D 콘텐트의 전달은 두개의 개별적인 뷰들: 좌측 뷰와 우측 뷰를 전송하는 것을 요구할 뿐이다. 무안경 입체(안경이 필요없는) 디스플레이들이 임박하고 있다. 이러한 디스플레이들은 일정한 양의 움직임 시차를 제공하는데; 시청자는 그들이 움직이면서 마치 상이한 각도들에서 객체들을 보는 것처럼 시청자의 머리를 움직일 수 있다.

종래의 입체 디스플레이들은 단일 3D 뷰를 제공하였으나; 무안경 입체 디스플레이들은 디스플레이의 설계에 기초하여 5개의 뷰들, 9개의 뷰들, 28개의 뷰들, 등과 같은 다중 뷰들을 제공할 것을 요구한다. 지속적인 입체 콘텐트가 무안경 입체 디스플레이들에 제공될 때, 디스플레이들은 깊이 맵들을 추출하고 이러한 깊이 맵에 기초하여 다중 뷰들을 생성 또는 랜더링한다. 여기서 사용되는 것과 같은 "깊이 맵(depth map)"이라는 용어는 뷰포인트(viewpoint)로부터 장면 객체들의 표면들의 거리에 관한 정보를 포함하는 이미지 또는 다른 비트스트림을 나타낸다. 깊이 맵은 디스패리티 맵으로 쉽게 변환될 수 있으며, 본 문서의 문맥에서 깊이 맵과 디스패리티 맵이라는 용어들은 동일하고 상호교환가능하다.

깊이 맵은 또한 상이한 해상도들을 갖는 상이한 디스플레이들의 타입들(예를 들면, 1080p의 디스플레이들 또는 2K의 디스플레이들)에 대해 3D 경험을 다시 목표설정하기 위해 사용될 수 있다. 3D 영화를 위해 설계된 깊이의 양은 더 작은 이동식 디바이스들을 위해 적절하지 않으며 그 반대도 같다는 것을 보여주는 많은 연구들이 있어 왔다. 또한, 3D 깊이의 양에 대한 시청자 선호가 존재하며, 이는 나이에 의존적일 수 있고(젊은 사람들이 나이든 사람보다 더 큰 깊이 경험을 선호한다), 문화에 의존적일 수 있으며(아시아 문화가 서구 문화보다 더 높은 깊이를 선호한다), 또는 간단히 시청자 의존적일 수 있다. 깊이 맵 정보는 인지된 깊이와 다른 조절들을 증가시키거나 또는 감소시키도록 입체 시청자들을 재랜더링(re-render)하는데 사용될 수 있다. 여기서 발명자들에 의해 이해된 것과 같이, 콘텐트와 함께 깊이 맵 정보를 전달하기 위한 개선된 기술들은 무안경 입체 및 입체 디스플레이들에 의한 사용자 경험을 개선시키는 데 바람직하다. 이러한 개선된 기술들은 현존하는 단일 뷰 및 3D 시스템들과도 바람직하게 역호환가능하다는 것이 또한 이해된다.

본 섹션에서 설명된 접근들은 추구될 수 있는 접근들이며, 이전에 상상되었거나 추구되었던 접근들일 필요는 없다. 따라서, 다르게 지시되지 않는 한, 본 섹션에서 설명된 어떠한 접근들도 본 섹션에 그들이 포함되었다는 것만으로 종래 기술이라고 자격을 주도록 가정되어서는 안된다. 유사하게, 다르게 지시되지 않는 한, 하나 또는 그 이상의 접근들에 대하여 식별된 이슈들이 본 섹션에 기초하여 임의의 종래 기술에서 이해된 것으로 가정되어서는 안된다.

입체 및 무안경 입체 디스플레이들을 위한 깊이 맵들에 대한 전달 포맷들이 여기서 설명된다. 포맷들은 종래의 케이블, 위성, 또는 무선 방송과 오버-더-탑(over-the-top) 전달을 포함하여, 여러 가지의 비디오 전달 시나리오들을 지원한다. 일부 실시예들에서, 더욱 새로운 디코더들은 입체 또는 무안경 입체 디스플레이들을 위해 많은 뷰들 및 연관된 깊이 맵 데이터를 랜더링할 수 있는 동안, 포맷들은 레거시 디코더들이 역호환가능한(backwards-compatible) 2D 또는 3D 스트림을 추출하는 것을 허용한다. 다음 설명에서, 설명의 목적을 위해, 본 발명의 완전한 이해를 제공하도록 다양한 특정의 상세한 설명들이 개시된다. 그러나, 본 발명은 이러한 특정의 상세한 설명들이 없더라도 실행될 수 있다는 것이 명백할 것이다. 다른 예들에서, 공지된 구조들과 디바이스들은 본 발명을 불필요하게 모호하게 만드는 것을 피하기 위하여 철저한 상세에서 설명되지 않는다.

본 발명은 입체 및 무안경 입체 디스플레이들을 위한 프레임 호환가능한 깊이 맵 전달 방법 및 장치를 제공한다.

도 1a와 도 1b는 3D 비디오를 위한 예시적인 프레임 호환가능한 풀 해상도(Frame-Compatible-Full-Resolution;FCFR) 인코더들과 디코더들을 도시한 도면들.
도 1c는 깊이 데이터(depth data)를 갖지 않는 3D FCFR 포맷의 단순화된 표현을 도시하는 도면; 도 1d는 대응하는 디코더의 단순화된 표현을 도시한 도면.
도 2a는 기저층이 나란한(side-by-side) 3D 신호를 포함하는, 본 발명의 실시예에 따른 예시적인 3층 깊이 맵 전달 포맷을 도시하는 도면; 도 2b는 적절한 디코더들에 의해 추출될 수 있는 대응하는 비트스트림들의 예들을 도시하는 도면.
도 2c는 기저층이 상하의(top-and-bottom) 3D 신호를 포함하는, 본 발명의 일 실시예에 따른 예시적인 3층 깊이 맵 전달 포맷을 도시하는 도면.
도 3a는 본 발명의 실시예에 따른 예시적인 3층 깊이 맵 전달 포맷을 도시하는 도면; 도 3b는 적절한 디코더들에 의해 추출될 수 있는 대응하는 비트스트림들의 예들을 도시하는 도면.
도 4a는 본 발명의 실시예에 따른 예시적인 3층 깊이 맵 전달 포맷을 도시하는 도면; 도 4b는 적절한 디코더들에 의해 추출될 수 있는 대응하는 비트스트림들의 예들을 도시하는 도면.
도 5는 본 발명의 일 실시예에 따른 예시적인 단일층 깊이 맵 전달 포맷을 도시하는 도면.
도 6은 본 발명의 일 실시예에 따른 예시적인 이중층 깊이 맵 전달 포맷을 도시하는 도면.
도 7a는 본 발명의 일 실시예에 따른 예시적인 2층 깊이 맵 전달 포맷을 도시하는 도면; 도 7b는 적절한 디코더들에 의해 추출될 수 있는 대응하는 비트스트림들의 예들을 도시하는 도면.
도 8a는 본 발명의 일 실시예에 따른 예시적인 3층 깊이 맵 전달 포맷을 도시하는 도면; 도 8b는 적절한 디코더들에 의해 추출될 수 있는 대응하는 비트스트림들의 예들을 도시하는 도면.
도 9a는 본 발명의 일 실시예에 따른 예시적인 3층 깊이 맵 전달 포맷을 도시하는 도면; 도 9b는 적절한 디코더들에 의해 추출될 수 있는 대응하는 비트스트림들의 예들을 도시하는 도면.
도 10a는 본 발명의 일 실시예에 따른 예시적인 2층 깊이 맵 전달 포맷을 도시하는 도면; 도 10b는 적절한 디코더들에 의해 추출될 수 있는 대응하는 비트스트림들의 예들을 도시하는 도면.
도 11a는 본 발명의 일 실시예에 따른 예시적인 2층 깊이 맵 전달 포맷을 도시하는 도면; 도 11b는 적절한 디코더들에 의해 추출될 수 있는 대응하는 비트스트림들의 예들을 도시하는 도면.
도 12a와 도 12b는 본 발명의 일 실시예들에 따른 단일층 깊이 맵 전달 포맷들의 예들을 도시하는 도면들.
도 13a는 본 발명의 일 실시예에 따른 예시적인 2층 깊이 맵 전달 포맷을 도시하는 도면; 도 13b는 적절한 디코더들에 의해 추출될 수 있는 대응하는 비트스트림들의 예들을 도시하는 도면.
도 14는 본 발명의 일 실시예에 따른 예시적인 단일층 깊이 맵 전달 포맷을 도시하는 도면.
도 15a 및 도 15b는 본 발명의 실시예들에 따른 예시적인 단일층 깊이 맵 전달 포맷들을 도시하는 도면들.
도 15c는 본 발명의 일 실시예에 따른 세그먼트된 깊이 맵 다중화의 예를 도시하는 도면.
도 16a 내지 도 16e은 본 발명의 실시예들에 따른 예시적인 3층 깊이 맵 전달 포맷들을 도시하는 도면들.
도 17a 내지 도 17b는 본 발명의 실시예들에 따른 예시적인 2층 깊이 맵 전달 포맷들을 도시하는 도면들.

본 발명의 실시예가 첨부 도면들의 도들에서 제한이 아닌 예로써 설명되며, 여기서 동일 참조 숫자들은 유사한 소자들을 나타낸다:

개관

여기서 설명된 예시적인 실시예들은 입체 및 무안경 입체 디스플레이들을 위한 깊이 맵 정보에 대한 전달 포맷들에 관한 것이다. 3D 입력 픽처와 대응하는 입력 깊이 맵 데이터를 가정하면, 나란한(side-by-side) 그리고 상하의(top-and-bottom) 픽처가 입력 픽처에 기초하여 생성된다. 인코더를 이용하여, 나란한 픽처가 코딩된 기저층을 생성하도록 코딩된다. 인코더와 텍스처 참조 프로세싱 유닛(reference processing unit;RPU)를 이용하여, 상하의 픽처가 제 1 강화층을 생성하도록 인코딩되는데, 제 1 강화층은 부분적으로 기저층 스트림에 기초하여 코딩된다. 인코더와 깊이 맵 RPU(다음에서는 Z-RPU 또는 RPU_Z라고 표시함)을 이용하여, 나란한 픽처를 위한 깊이 데이터가 제 2 강화층을 생성하도록 인코딩되는데, 제 2 강화층은 부분적으로 기저층에 기초하여 코딩된다.

일부 실시예들에서, 깊이 맵 데이터를 기저 및 강화층들로 직접 코딩하는 대신, 인코더는 잔류 깊이 맵 데이터를 인코딩할 수 있는데, 잔류 깊이 데이터는 입력 깊이 맵 데이터와 Z-RPU에 의해 생성된 추정된 깊이 맵 데이터 사이의 차이들을 포함한다.

일부 실시예들에서, 깊이 맵 데이터와 비디오 데이터는 단일층으로 인코딩되고, 단일층은 제 1 뷰의 절반 해상도(half-resolution) 데이터와, 제 2 뷰의 절반 해상도 데이터 또는 제 1 뷰의 절반 해상도 데이터에 대한 깊이 맵 데이터를 포함한다;

일부 실시예들에서, 깊이 맵 데이터와 비디오 데이터는 두 개의 기저층들로 인코딩된다. 제 1 기저층은 제 1 뷰의 풀 해상도 데이터를 포함하는데 반해, 제 2 기저층은 제 2 뷰의 풀 해상도 데이터 또는 제 1 뷰의 풀 해상도 깊이 데이터를 포함한다.

일부 실시예들에서, 깊이 맵 데이터와 비디오 데이터는 세 개의 층들로 인코딩된다. 기저층은 제 1 뷰의 절반 해상도 데이터와 그의 대응하는 깊이 맵 데이터를 포함한다. 제 1 강화층은 상하의 픽처를 포함하고, 제 2 강화층은 제 2 뷰의 절반 해상도 데이터와 그의 대응하는 깊이 맵 데이터를 포함한다.

일부 실시예들에서, 깊이 맵 데이터와 비디오 데이터는 두 개의 층들로 인코딩된다. 기저층은 나란한 픽처의 루미넌스(luminance)와 크로마(chroma) 구성성분들을 포함한다. 강화층의 루마(luma) 구성성분은 상하의 픽처의 루마 구성성분들을 포함하고, 강화층의 크로마 구성성분은 상하의 픽처에 대한 깊이 맵 데이터를 포함한다.

일부 실시예들에서, 나란한 픽처와 상하의 픽처들이 패딩되어(padded) 그들의 수평 및 수직의 공간 차원들이 미리 정해진 매크로블록 크기(예를 들면, 16)의 정수배가 된다. 이후, 패딩된 데이터는 원래의 깊이 맵 데이터의 서브샘플링된(sub-sampled) 버전들을 포함한다.

일부 실시예들에서, 강화층의 크로마 픽셀 값들이 또한 깊이 맵 데이터 또는 잔류 깊이 맵 데이터로 대체될 수 있다.

3D를 위한 예시적인 FCFR 포맷

도 1a는 어떠한 깊이 정보도 없는 3D 비디오 데이터의 프레임 호환가능한 풀 해상도(Frame Compatible Full-Resolution;FCFR) 인코더의 예를 도시한다. 인코더는, 그 전체가 본 문서에 참조로 포함되는, 2011년 9월 29일 출원된 T. Chen 등에 의한 미국 임시 특허 출원 61/541,005이고, 또한 2012년 9월 26일에 제 PCT/US2012/057302 호의 PCT 출원으로서 출원된, "Dual-Layer frame-compatible full-resolution stereoscopic 3D delivery"에서 설명된 방법들에 따라 동작한다.

도 1a에 도시된 바와 같이, 나란한 뷰(112)와 상하의 뷰(117)를 생성하기 위해 입력 3D 신호(105)의 풀 해상도(예를 들면, 1920x1080)의 좌측 및 우측 뷰들(105-1, 105-2)이 필터링되며, 서브샘플링되고(수평으로 또는 수직으로), 또한 다중화된다. 나란한 및 상하의 픽처들은 입력의 두 개의 뷰들을 포함하지만; 각 뷰는 더 낮은 해상도에 있다. 예를 들어, 1920x1080 입력에 대하여, 나란한 서브픽처들(L,R)은 각각 960x1080일 수 있으며, 상하의 서브픽처들(L', R')은 각각 1920x540일 수 있다. 나란한 신호(112)는 코딩된 기저층(BL) 비트 스트림(122)을 생성하도록 BL 인코더(120)에 의해 인코딩된다. BL 인코더(120)는 ISO/IEC MPEG-2, MPEG-4 파트 2, 또는 H.264(AVC) 표준들에 의해 규정된 것들과 같은 공지된 비디오 인코더들, 또는 구글(Google)의 VP8, 마이크로소프트(Microsoft)의 VC-1, HEVC, 등과 같은 다른 인코더들 중 임의의 것일 수 있다.

상하의 신호(117)는 코딩된 강화층(EL) 스트림(132)을 생성하도록, 제 2 인코더인 강화층(EL) 인코더(130)에 의해 인코딩될 수 있다. EL 인코더는 BL 인코더(120)와 동일한 포맷(예를 들면, H.264)으로, 또는 개별적인 포맷으로 인코딩할 수 있다. 일부 실시예들에서, EL 인코더(130)는 상하의 신호(117)와 나란한 신호(112) 모두로부터의 기준 프레임들을 이용하는 것에 의해 신호(117)를 인코딩할 수 있다. 예를 들어, BL 인코더(120), EL 인코더(130), 및 연관된 저장장치(도시되지 않음)는 다중 뷰 코덱(multi-view codec;MVC)에 대한 ISO/IEC H.264 규정에 의해 규정된 것과 같은 다중 뷰 코덱을 포함할 수 있다.

일부 실시예들에서, 도 1a의 인코더는 또한 기준 프로세서 유닛(Reference Processor Unit; RPU)(125)을 포함할 수 있다. RPU와 관련하여 여기서 사용되는 것과 같이, "기준(Reference)"이라는 용어는, (예를 들면, "기준 픽처"의 의미로) 이러한 픽처가 완전한 코딩 프로세스 내에서 기준으로 명백하게 사용된다는 것을 암시하거나 표현하는 것을 의미하지 않으며, 이러한 의미로 해석되어서도 안된다. RPU는 특허 협력 조약(Patent Cooperation Treaty;PCT)에 따라 출원되고, 본 문서에서 전체적으로 개시되는 것처럼 모든 목적들에 대하여 참조로 여기에 포함되는, 다음의 두 개의 특허 출원 공보들에서 설명된 기술을 따를 수 있다: (1)Tourapis, A. 등에 의한 "Directed Interpolation/Post-processing Methods for Video Encoded Data"인 WO 2010/123909 A1; 및 (2)Tourapis, A. 등에 의한 "Encoding and Decoding Architecture for Frame Compatible 3D Video Delivery"인 WO 2011/005624 A1. RPU의 다음 설명들은 그에 반대가 되도록 달리 설명되지 않는 한, 인코더의 RPU와 디코더의 RPU에 모두 적용한다. 비디오 코딩과 관련된 분야들의 기술자들은 본 명세서의 판독시 인코더에 특정된, 디코더에 특정된, 및 일반적인 RPU에 대한 설명들, 기능들과 프로세스들 사이의 차이점들을 이해할 것이며, 이들을 구분할 수 있을 것이다. 도 1a에 도시된 것과 같은 3D 비디오 코딩 시스템의 문맥내에서, 상이한 RPU 필터들과 프로세스들을 선택하는 규칙들의 세트에 따라, RPU(125)는 BL 인코더(120)로부터 디코딩된 이미지들을 액세스하고 보간(interpolate)한다.

RPU(125)는 보간 프로세스가 영역 레벨에서 적응되도록 할 수 있는데, 픽처/시퀀스의 각 영역은 그러한 영역의 특징들에 따라 보간된다. RPU(125)는 수평, 수직, 또는 2차원(2D)의 필터들, 에지 적응형 또는 주파수 기반 영역-의존 필터들, 및/또는 픽셀 복제 필터들 또는 보간과 이미지 처리를 위한 다른 방법들 또는 수단들을 사용할 수 있다.

예를 들어, 하나의 픽셀 복제 필터는 영차 홀드(zero-order-hold)를 간단하게 수행할 수 있는데, 예를 들어, 보간된 이미지의 각 샘플이 낮은 해상도 이미지에서 이웃하는 샘플의 값과 같아질 것이다. 다른 픽셀 복제 필터가 크로스 뷰(cross-view) 복사 동작을 수행할 수 있는데, 예를 들면, 하나의 뷰의 각 보간된 샘플이 반대의 뷰로부터의 보간되지 않은 동일한 위치의 샘플과 동일해질 것이다.

부가적으로 또는 대안적으로, 디스패리티 보정된(disparity-compensated) 복사 방식이 또한 RPU에 사용될 수 있다. 예를 들어, 필터는 또한 상이한 뷰로부터의 영역일 수 있는, 복사될 영역의 위치가 디스패리티 벡터를 이용하여 특정될 수 있는 샘플들의 비동위 영역(non-collocated region)을 복사할 수 있다. 디스패리티 벡터는 정수 또는 서브-픽셀 정밀도를 사용하여 특정될 수 있으며, 간단한, 예를 들면 병진 운동 파라미터, 또는 아핀(affine)이나 원근 움직임 정보와 같은 더욱 복잡한 운동 모델들 등을 포함할 수 있다.

인코더는 RPU 필터들을 선택할 수 있으며, 디코더 RPU(예를 들면, 140)로의 입력 데이터로 제공되는 영역 처리 신호들을 출력한다. 시그널링(예를 들면, RPUL(127))은 영역별 기반으로 필터링 방법을 특정한다. 예를 들어, 개수, 크기, 모양과 같은 영역 속성들 및 다른 특성들에 관한 파라미터들이 RPUL 관련 데이터 헤더에 특정될 수 있다. 필터들의 일부는 고정 필터 계수들을 포함할 수 있는데, 이러한 경우에 필터 계수들은 RPU에 의해 명시적으로 시그널링될 필요가 없다. 다른 필터 모드들은 계수 값들과 수평/수직 탭들의 수와 같은 필터 파라미터들이 명시적으로 시그널링되는 명시적인 모드들을 포함할 수 있다.

필터들은 또한 각 색상 구성성분마다 특정될 수 있다. RPU는 선형 필터들을 특정할 수 있다. 에지 적응형 필터들, 쌍방(bi-lateral) 필터들, 등과 같은 비선형 필터들이 또한 RPU에서 특정될 수 있다. 더욱이, 아핀이나 원근 움직임 모델들과 같은 개선된 움직임 보상 방법들을 특정하는 예측 모델들이 또한 시그널링될 수 있다.

RPU 데이터 시그널링(127)은 인코딩된 비트스트림에 내장될 수 있거나, 또는 디코더로 개별적으로 송신될 수 있다. RPU 데이터는 RPU 처리가 수행되는 층을 따라 시그널링될 수 있다. 부가적으로 또는 대안적으로, 모든 층들의 RPU 데이터는 하나의 RPU 데이터 패킷 내에서 시그널링될 수 있으며, 이는 인코딩된 데이터를 두번째 층으로 임베딩하기 전 또는 그 후에 비트스트림으로 임베딩된다. RPU 데이터의 제공은 주어진 층에 대하여 선택적일 수 있다. RPU 데이터가 사용가능하지 않은 경우에, 디폴트 방식(default scheme)은 따라서 그 층의 업-변환(up-conversion)을 위해 사용될 수 있다. 유사하게, 강화층의 인코딩된 비트스트림의 제공이 또한 선택적이다.

실시예는 각각의 RPU에 필터들과 필터링된 영역들을 최적으로 선택하는 많은 가능한 방법들을 허용한다. 최적의 RPU 선택 결정에서 다수의 기준들이 개별적으로 또는 함께 사용될 수 있다. 최적의 RPU 선택 기준들은 기저층 비트스트림의 디코딩된 품질, 강화층 비트스트림들의 디코딩된 품질, RPU 데이터를 포함하는 각 층의 인코딩을 위해 필요한 비트 레이트, 및/또는 데이터의 디코딩과 PRU 처리의 복잡성을 포함할 수 있다.

RPU는 강화층의 다음 처리에 독립적으로 최적화될 수 있다. 따라서, RPU에 대한 최적 필터 선택이 결정될 수 있으므로, 비트레이트와 필터 복잡성과 같은 다른 제약들을 겪는, 보간된 기저층 이미지들과 원래의 좌안 및 우안 이미지들 사이의 예측 에러가 최소화된다.

RPU(125)는 정보를 EL 인코더(130)의 강화층에 대한 잠재적 예측기로서 사용하기 전에, BL 인코더(120)로부터의 이러한 정보를 처리하는 전처리 스테이지의 역할을 할 수 있다. RPU 처리에 대한 정보는 RPU 층(RPUL) 스트림(127)을 이용하여 도 1b에 도시된 것과 같이 디코더와 통신될 수 있다(예를 들면, 메타데이터로서). RPU 처리는: 색상 공간 변환들, 비선형 양자화, 루마 및 크로마 업-샘플링, 및 필터링과 같은 여러 가지의 이미지 처리 동작들을 포함할 수 있다. 전형적인 수행에서, EL(132), BL(122), 및 RPUL(127) 신호들이 단일의 코딩된 비트스트림(도시되지 않음)으로 다중화된다.

도 1b는 도 1a에 도시된 인코더에 의해 인코딩된 비트스트림을 디코딩하는 일 예시적인 디코더를 도시한다. 디코더는 BL 스트림(122), EL 스트림(132), 및 RPUL 스트림(127)을 생성하기 위해 수신된 비트스트림을 역다중화할 것이다. 단일의 BL 디코더(135)를 갖는 디코더들은 디코딩된 나란한 비트스트림(137)을 생성하기 위해 BL 스트림(122)을 스스로 디코딩할 수 있다. 디코더는 단일의 2D 스트림을 생성하기 위해(신호(137)의 좌측 또는 우측 뷰를 선택하는 것에 의해) 또는 이전 기종과 호환가능한 3D 스트림을 생성하기 위해 신호(137)를 사용할 수 있다. 부가적인 EL 디코더(145)를 지원하는 디코더들은 또한 풀 해상도의 3D 스트림(152)을 생성하기 위해 상하의 스트림(147)을 디코딩하고 이를 BL 스트림(137)과 조합할 수 있다. 풀 해상도의 3D 비디오 스트림을 생성하기 위한 상하의 및 나란한 스트림들의 역다중화와 조합은 앞서 참조된 미국 임시 특허 출원 61/541,005에서 설명된 방법들에 따라 수행될 수 있다.

BL 디코더(135)(예를 들면, MPEG-2 또는 H.264 디코더)는 BL 인코더(120)에 대응한다. EL 디코더(145)(예를 들면, MPEG-2 또는 H.264 디코더)는 EL 인코더(130)에 대응한다. 디코더 RPU(140)는 인코더 RPU(125)에 대응하고, RPUL 입력(127)으로부터의 안내를 받아, 인코더 RPU(125)에 의해 수행된 동작들에 대응하는 동작들을 수행하는 것에 의해 EL 층(132)의 디코딩을 도울 수 있다.

도 1c는 도 1a에 도시된 이중층 인코더에 의해 인코딩된 3D FCFR 코딩된 포맷의 단순화된 표현을 도시한다. 도 1c의 표시에 따라, 코딩된 BL 신호는 나란한 신호(112)를 포함하며, 이는 루미넌스 또는 루마 구성성분(112-Y)과 대응하는 크로마 구성성분(112-UV)을 포함한다. 예를 들어, 일부 실시예들에서, BL 신호(112)는 4:2:0 YUV 포맷으로 인코딩될 수 있다. 일부 실시예들에서 이는 4:2:0 YCbCr 포맷으로 인코딩될 수 있다. 도 1c에 도시된 것과 같이, 입력 신호의 크로마 구성성분들이 루마 구성성분들보다 더 낮은 픽셀 해상도를 가질 수 있다; 그러나, 여기에서 설명된 모든 방법들을 크로마가 루마 구성성분과 동일한 해상도일 수 있는 색상 포맷들에 적용한다(예를 들면, 4:4:4 YCbCr 또는 4:4:4 YUV). BL 신호(112)는 도 1a에 도시된 것과 같은 인코더를 이용하여 스스로 인코딩될 수 있다. EL 상하의 스트림(117)은 BL 스트림(112)으로부터의 기준 데이터에 기초하여 RPU_T(125)를 이용하여 부분적으로 인코딩될 수 있다. EL 스트림(117)은 그 자신의 루마(117-Y)와 크로마(117-UV) 구성성분들을 포함한다.

도 1c에 도시된 인코더 표현에 의해 생성된 코딩된 비트스트림을 가정하면, 도 1d는 대응하는 수신기 실시예들에 대한 단순화된 표현을 도시한다. 도 1d는 또한 도 1b의 단순화된 버전으로 보여질 수 있다. 이전에 설명된 바와 같이, 더욱 새로운 디코더(예를 들면, H.264 MVC 디코더, 또는 EL 디코더(145)와 RPU(140)를 갖는 디코더)가 또한 강화층을 추출할 수 있고 따라서 더 높은 해상도와 품질 FCFR 3D 스트림을 재구축할 수 있는 동안, 단일의 BL 디코더(135)를 갖는 레거시 디코더는 이러한 스트림으로부터 레거시(예를 들면, 절반 해상도) 프레임 호환가능한(FC) 3D 스트림을 추출할 수 있다. 표시를 위하여, BL 디코더(135)와 EL 디코더(145) 사이와 같은 두 디코더들 사이의 연결(예를 들면, 137)은, EL 디코더가 기준 프레임들로서, 예를 들면 디코더 RPU(140)(도시되지 않음)를 통해 기저층으로부터 추출되고 후처리된 프레임들을 사용할 수 있다는 것을 나타낸다. 다시 말하면, 코딩된 EL 스트림은 BL 스트림으로부터의 데이터에 기초하여 부분적으로 디코딩된다.

이전 기종과 호환가능한 층을 갖는 3D를 위한 예시적인 깊이 포맷들

도 2a는 FCFR 3D 데이터에 부가하여 깊이 맵 데이터를 전달하는 예시적인 3층 전달 포맷을 도시한다. 도 2a에서 설명된 바와 같이, 제 1의 두 개의 층들인 BL(212)과 EL-1(217)은 종래의 3D FCFR 층들(BL(112) 및 EL(117))에 대응한다. 3D FCFR 인코딩과 유사하게, EL-1 층(217)은 RPU_T(225)를 이용하여 BL 층(212)을 참조하여 코딩될 수 있다. EL-2 층(219S)은 1차 채널(219S-A)로서 및 2차 채널들(219S-B)로서 인코딩된 깊이 맵 정보를 나타낸다. 깊이 맵 데이터는 전형적으로 8비트 그레이스케일(grayscale) 데이터로서 인코딩되며; 즉, 그들은 임의의 크로마 정보를 포함하지 않는다. EL-2(219S)에서, Z_L은 좌측 뷰(예를 들면, 105-1)에 대하여 수평으로 서브샘플링된 깊이 데이터를 나타내고, Z_R은 우측 뷰(예를 들면, 105-2)에 대하여 수평으로 서브샘플링된 깊이 데이터를 나타낸다. 이러한 실시예에서 깊이 데이터가 서브샘플링되기 때문에, 손실 깊이 정보는 또한 2차 깊이 채널들(219S-B)로 통합될 수 있다. 예를 들어, 일 실시예에서, 좌측 뷰에 대하여 원래의 w x h 깊이 맵을 가정하면, 수직의 서브샘플링 후에, 결과적인 w x h/2 깊이 맵이 두개의 w/2 x h/2 깊이 맵들로 분할될 수 있고, 이들은 Z_L'과 Z_L"로 표시된다.

EL-2 층(219S)은 제 2의 EL 인코더를 이용하여 스스로 인코딩될 수 있거나, 또는 도 2a에 도시된 바와 같이, BL 스트림(212)으로부터 추출된 깊이 데이터를 참조하여 RPU_Z(230)를 이용하여 인코딩될 수 있다.

깊이 맵 RPU(230)(또한 깊이 또는 Z-버퍼 데이터 상에서 동작하기 때문에, RPU_Z 또는 Z-RPU라고도 불림)는 기저라인 입력(예를 들면, BL(212))으로부터 추정 깊이 맵 데이터를 추출(또는 예측)하기 위한 부가된 기능성을 갖는다는 것을 제외하고는, 텍스처 RPU(225)(또는 RPU(125))(또한 텍스처 데이터 상에서 동작하기 때문에 RPU_T라고도 불림)와 동작과 기능성에서 매우 유사하다. 깊이 맵 정보는 그 전체가 본 문서에 참조로 포함되는, 2003년 6월 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, vol. 1, pp. 195-202에서 발표된, Daniel Scharstein과 Richard Szeliski에 의한 "High-Accuracy Stereo Depth Maps Using Structured Light"와 같은, 본 기술의 공지된 기술들 중 임의의 것을 이용하여 2D 또는 3D 데이터로부터 추출될 수 있다.

일부 실시예들에서, EL-2 층(219S)은 다음 데이터를 전송할 수 있다: 임의의 변경이 없는 원래의 깊이 맵(예를 들면, 카메라에 의해 포착된 깊이 맵), 또는 원래의 깊이 맵과 RPU_Z에 의해 예측된 깊이 맵 사이의 차이, 또는 원래의 깊이 맵으로부터의 특정 영역들. RPU_T 비트 스트림(예를 들면, 127)과 유사한, 깊이 데이터의 일부로서 또는 개별적인 RPU_Z 비트 스트림의 일부로서, RPU_Z 처리를 정의하는데 필요한 다양한 파라미터들을 전송하는데 동일한 포맷이 또한 사용될 수 있다.

도 2a의 깊이 맵 코딩 포맷을 가정하면, 수신기의 용량들에 의존하여, 도 2b는 다수의 대안의 디코딩된 비트 스트림들을 도시한다. 예를 들어, 단일의 디코더인 BL 디코더(250)를 갖는 수신기는 단지 프레임 호환가능한(FC) 3D 스트림만을 추출할 수 있다. BL 디코더(250)와 EL 디코더-1(255)(예를 들면, MVC 디코더) 모두를 갖는 수신기는 FCFR 3D 스트림을 또한 디코딩할 수 있다. 제 2의 EL 디코더(265)와 디코더 RPU_Z(도시되지 않음)를 갖는 수신기는 또한 깊이 맵들(Z_L 및 Z_R)을 디코딩할 수 있다. BL 디코더(250)와 EL 디코더 2(265) 만을 갖는 수신기는 FC 3D 스트림과 깊이 맵들(Z_L 및 Z_R)을 디코딩할 수 있다.

도 2a에 도시된 것과 같이, 기저층(212)은 나란한 다중화된 L/R 코딩된 데이터(예를 들면, 112)를 포함하고 EL-1 층은 상하의 L'/R' 다중화된 데이터(예를 들면, 117)를 포함한다; 그러나, 여기서 논의된 깊이 맵들을 위한 모든 전달 포맷들에서는 기저층의 나란한 3D 데이터를 이용하는 것이 상하의 3D 데이터를 이용하는 것과 상호교환가능하다. 따라서, 도 2c에 도시된 것과 같은, 대안의 실시예에서, BL은 상하의 L'/R' 신호(217)(예를 들면, 117)를 포함할 수 있고, EL-1은 나란한 L/R 신호(212)(예를 들면, 112)를 포함할 수 있으며, EL-2는 상하의 깊이 맵 데이터(Z_L'/Z_R'(219T))를 포함할 수 있다. 유사한 실시예들이 본 명세서에서 설명된 다른 예시적인 실시예들을 위해 파생될 수 있다.

도 3a는 도 2a에 도시된 깊이 맵 전달 포맷의 변형을 도시한다. 도 3a에 도시된 것과 같이, 깊이 맵 데이터는 제 2 기저층인 BL-2(319)을 사용하여 코딩된다. 코딩 효율성을 개선하기 위하여, 원래의 깊이 데이터(Z_L 및 Z_R)를 코딩하는 대신, 인코더는 추정 깊이 맵 데이터를 생성하기 위해 선택적 RPU_Z(330)를 이용할 수 있다.

일 실시예에서, RPU_Z(330)는 예측된 깊이 데이터(ZE_L, ZE_R)를 도출하기 위해 기저층(312)으로부터의 정보를 이용할 수 있다. 이후, BL-2에 대한 인코더는 Z_L과 Z_R을 직접 코딩하는 대신, 깊이 잔류들(RZ_L=Z_L-ZE_L과 RZ_R=Z_R-ZE_R)을 인코딩할 수 있다. 유사한 깊이 맵 잔류 코딩이 본 명세서에서 설명된 모든 예시적인 실시예들로 적용가능하다.

도 3a에 따라 인코딩된 깊이 맵 데이터를 가정하면, 수신기의 용량들에 의존하여, 도 3b는 대안의 디코딩 시나리오들을 도시한다. 예를 들어, 단일의 BL 디코더인 BL 디코더-1(350)을 갖는 수신기는 FC 3D 스트림을 디코딩할 수 있다. 제 2의 BL 디코더(BL-디코더-2(360))를 갖는 수신기는 깊이 데이터(Z_L, Z_R) 또는 잔류 깊이 데이터(RZ_L, RZ_R)를 디코딩할 수 있다. 제 2의 BL-디코더(360)와 디코더 RPU_Z를 갖는 수신기는 추정 깊이 데이터(ZE_L, ZE_R)를 재구축하기 위해 BL 스트림을 사용할 수 있으며, 이는 출력 깊이 데이터(Z_L, Z_R)를 생성하도록 디코딩된 잔류 깊이 데이터(RZ_L, RZ_R)로 부가될 수 있다(예를 들면, 가산기(365)를 통해). 부가적인 기능(365)은 디코더의 RPU_Z에 의해 또는 개별적인 처리 회로에 의해 실행될 수 있다는 것을 주의하라. 마지막으로 BL-디코더-1(350)와 EL-디코더(355)를 갖는 수신기는 FCFR 3D 스트림을 재구축하기 위해 비트 스트림(EL-1)과 BL 비트 스트림으로부터의 기준 데이터를 사용할 수 있다.

도 4a는 다중화된 절반 해상도 3D 데이터의 기저층과 두 개의 강화층들을 사용한 좌측 뷰 및 우측 뷰 깊이 데이터에 대한 깊이 맵 전달 포맷을 도시한다. 일 예시적인 실시예에서, EL-1(417)은 L'과 R'의 상하의 신호(117)의 "상부(top)" 절반(L')과 Z_L 데이터를 전송한다. EL-2(419)는 L'과 R'의 상하의 신호(117)의 "하부(bottom)" 절반과 Z_R 데이터를 전송한다. 강화층들의 코딩 효율성은 텍스처와 Z-버퍼 RPU(425, 430)를 사용하는 것에 의해 개선될 수 있다. RPU_T(425)는 L'과 R' 데이터의 코딩을 위해 사용되고, RPU_Z(430)는 Z_L과 Z_R 데이터의 코딩을 위해 사용된다. 이전에서와 같이, EL-1과 EL-2 크로마 채널들(417-UV 및 419-UV)은 대응하는 L' 또는 R' 데이터를 위한 크로마 데이터(예를 들면, L'u 및 L'v), 또는 부가적인 깊이 데이터(Z_L' 및 Z_L")를 전송하도록 사용될 수 있다.

도 4a에 따라 인코딩된 깊이 맵 데이터를 가정하면, 도 4b는 대안의 디코딩 시나리오들을 도시한다. 단일의 BL 디코더(450)를 갖는 수신기들은 FC 3D 스트림을 디코딩할 수 있다. 부가적인 EL 디코더(455 또는 460)와 RPU_T 및 RPU_Z(또는 유사한) 기능성을 갖는 수신기들은 또한 풀 해상도(FR)의 좌측 뷰 스트림, 절반 해상도(HR)의 우측 뷰 스트림, 및 좌측 뷰 깊이 데이터(Z_L)를 디코딩할 수 있거나, 또는 그들은 FR 우측 뷰, HR 좌측 뷰, 그리고 우측 뷰 깊이 데이터(Z_R)를 디코딩할 수 있다. 두 개의 부가적인 EL 디코더들(455, 460)을 갖는 수신기들은 또한 두 개의 뷰들로부터 FCFR 3D 스트림과 깊이 데이터를 디코딩할 수 있다.

도 7a는 기저층(712)과 강화층(717)을 사용하여 깊이 맵 정보를 전달하기 위한 이중층 접근의 일 예시적인 실시예를 도시한다. BL 층(712)은 양측 뷰들(예를 들면, 나란한 픽처)의 절반 해상도를 전달한다. EL 층(717)은 그들의 대응하는 깊이 맵들을 전달한다. 인코더는 RPU_Z(730)를 사용하여 BL(712)로부터 추출된 깊이 맵 데이터가 EL 데이터(717)를 인코딩하는데 참조로서 사용될 수 있게 한다.

일부 실시예들에서, RPU_Z(730)는 모두 함께 스킵(skip)될 수 있으며, EL 층(717)은 기저층을 참조하지 않고 제 2의 기저층으로서 스스로 인코딩될 수 있다.

일부 실시예들에서, RPU_Z(730)는 추정 깊이 데이터(ZE_L, ZE_R)를 추출하기 위해 기저층(712)으로부터 정보를 이용할 수 있다. 이후, 강화층(717)은 원래의 Z_L 및 Z_R 깊이 데이터를 포함하는 대신, RZ_L=Z_L-ZE_L과 RZ_R=Z_R-ZE_R과 같은 깊이 맵 잔류 값들을 대신 포함할 수 있다.

도 7a에 도시된 인코더 포맷을 가정하면, 도 7b는 대안의 디코딩 실시예들을 도시한다. 단일의 BL 디코더(735)를 갖는 수신기들은 FC 3D 스트림을 디코딩할 수 있다. 부가적인 EL 디코더(745)를 갖는 수신기들은 또한 대응하는 Z_L 및 Z_R 깊이 맵 데이터를 디코딩할 수 있다.

다른 실시예에서, BL 층(712)으로서 나란한 L/R 데이터(예를 들면, 112)를 이용하는 대신, 상하의 L'/R' 데이터(예를 들면, 117)를 사용할 수 있다. 이러한 일 실시예에서, EL 스트림(717)은 대응하는 상하의 깊이 맵 데이터를 또한 전송할 것이다.

이전 기종과 호환가능하지 않은 층을 갖는 3D를 위한 예시적인 깊이 포맷들

지금까지 설명된 깊이 맵 데이터 전달 포맷들의 대부분은 레거시 수신기들이 적어도 이전 기종과 호환가능한, 절반 해상도(FC)의 3D 스트림을 디코딩하는 것을 허용한다. 단일 디코더에 대한 이전 기종과의 호환가능성이 필요 조건이 아니라면, 대안의 실시예들이 도출될 수 있다.

도 5는 깊이 맵을 전달하기 위한 단일층 접근의 일 예를 도시한다. 신호 BL(512)은 절반 해상도 좌측 뷰(L)와 그의 연관된 깊이 맵(Z_L)을 포함한다. Z_L과 연관된 크로마 채널들(512-UV)은 Z_L에 대한 부가적인 해상도 데이터를 송신하는 데 사용될 수 있다. 인코더는 또한 좌측 뷰 깊이 데이터(Z_L) 대신 절반 해상도 우측 뷰 데이터(R)로 교체하고 이를 송신할 수 있다. 디코더 측에서, 단일의 BL 디코더를 갖는 비디오 디코더는 FC 3D 비디오 스트림을 생성하기 위하여 절반 해상도 좌측 뷰와 그의 깊이 맵 또는 나란한 픽처를 추출할 수 있다. 픽처별 기반으로 픽처 배열들에 대한 정보를 포함하는 보조 데이터(또는 메타데이터)가 또한 송신될 수 있다.

동일한 전달 포맷이, BL(512)에서, 절반 해상도 좌측 뷰(L)가 절반 해상도 우측 뷰(R), 또는 상하의 L'/R' 신호(147)의 상부(L'), 또는 상하의 L'/R' 신호(147)의 하부(R')에 의해 대체될 수 있거나, 좌측 뷰 깊이 맵이 대응하는 깊이 맵에 의해 대체되는 대안의 실시예들에서 또한 사용될 수 있다.

도 6은 깊이 맵 정보를 전달하기 위한 이중층 접근의 일 예시적인 실시예를 도시한다. 도 6에 도시된 것과 같이, BL-1(612)과 BL-2(617) 층들은 모두 서로에 대해 독립적으로 코딩된다. BL-1 층(612)은 좌측 뷰(L)의 풀 해상도를 포함한다. BL-2 층(617)은 좌측 뷰 깊이 맵의 풀 해상도 또는 우측 뷰(R)의 풀 해상도를 포함한다. 층(BL-2)이 깊이 맵 데이터(Z_L)를 전송할 때, 대응하는 크로마 데이터(617-UV)는 빈곳으로 남아있거나 또는 다른 메타데이터를 전송할 수 있다.

이러한 포맷의 디코딩은 적어도 두 개의 BL 디코더들을 필요로 하는데; 하나는 좌측 뷰 데이터(L)를 디코딩하기 위한 것이고, 하나는 좌측 뷰 깊이 맵 데이터 또는 우측 뷰 데이터를 디코딩하기 위한 것이다. 픽처별 기반으로 픽처 배열들에 대한 정보를 포함하는 보조 데이터(또는 메타데이터)가 또한 송신될 수 있다. 이러한 포맷은 하나의 디코더를 갖는 수신기가 2D 비디오를 재구축하는 것과 두 개의 디코더들을 갖는 수신기가 FCFR 3D 또는 FC 3D 비디오를 재구축하는 것을 허용한다.

일부 실시예들에서, BL-1(612)은 우측 뷰 데이터(R)를 전송할 수 있으며 BL-2(617)은 우측 뷰 깊이 데이터(Z_R) 또는 좌측 뷰 데이터(L)를 전송할 수 있다.

도 8a는 기저층(BL)과 두 개의 강화층들(EL-1 및 EL-2)을 사용하는 깊이 맵 전달 포맷을 도시한다. 기저층(812)은 풀 해상도 좌측 뷰를 포함한다. EL-1 층은 풀 해상도 우측 뷰를 포함한다. 층들(BL 및 EL-1)은 종래의 MVC 인코더를 사용하여 인코딩될 수 있거나 또는 이들은 텍스처 RPU(도시되지 않았으나, 예를 들면 RPU(125))를 또한 사용할 수 있다. 제 2 강화층(EL-2(819))은 좌측 및 우측 뷰들 모두에 대한 절반 해상도 깊이 맵 데이터를 포함한다. EL-2 층의 크로마 구성성분(819-B)은 또한 코어(core) 깊이 데이터(819-A)의 해상도를 강화하기 위한 부가적인 깊이 맵 데이터를 포함할 수 있다. RPU_Z(830)는 입력된 풀 해상도의 L 및 R 픽처들로부터 추출된 깊이 맵 예측 데이터를 제공할 수 있으며, 이는 EL-2 스트림의 코딩 효율성을 강화시키도록 사용될 수 있다.

도 8a에 도시된 전달 포맷을 가정하면, 도 8b는 레거시 및 호환가능한 디코더들을 이용하는 대안의 디코딩 시나리오들을 도시한다. 단일의 BL 디코더(850)를 갖는 수신기는 2D 스트림을 추출할 수 있다. MVC 디코더를 갖는 또는 EL-디코더(855)를 갖는 디코더는 FCFR 3D 스트림을 추출할 수 있다. 부가적인 EL 디코더(860)(또는 3층 MVC 디코더)를 갖는 디코더는 또한 좌측 뷰와 우측 뷰 깊이 맵 데이터를 추출할 수 있다. 단일의 BL 디코더(850)와 EL 디코더-2를 갖는 디코더는 2D 스트림 더하기 대응하는 깊이 데이터를 추출할 수 있다.

도 9a는 기저층(912)과 두 개의 강화층들(917, 919)을 사용하는 깊이 맵 전달을 위한 일 실시예를 도시한다. 기저층(912)은 절반 해상도 좌측 뷰(L)와 그의 대응하는 깊이 맵(Z_L)을 포함한다. 층(EL-1)은 L'/R'의 상하의 픽처(예를 들면, 147 이미지)를 포함한다. EL-1(917)의 L'을 코딩할 때, BL(912)의 L 구성성분에 기초하여 적절한 참조 프레임들을 생성하는 것에 의해 RPU_T(925)가 코딩 효율성을 개선시키도록 사용될 수 있다. EL-2 층(919)은 또한 절반 해상도의 우측 뷰(R)와 그의 대응하는 깊이 맵 데이터(Z_R)를 포함한다. EL-2(919)의 R 구성성분을 코딩할 때, RPU_T(925)가 EL-1(917)의 R' 구성성분에 기초하여 적절한 기준 프레임들을 생성하도록 사용될 수 있다. RPU_T들(925A 및 925B)의 동작들은 동일한 RPU(925)에 의해 또는 개별적인 RPU들에 의해 수행될 수 있다. 이전의 실시예들에서 논의된 바와 같이, RPU_Z(930)는 EL-2(919)의 Z_R 데이터의 코딩 효율성을 개선하기 위해 BL(912)과 EL-1(917) 스트림들의 L, L', 및 R' 구성성분들로부터 깊이 맵 데이터를 추출할 수 있다. 일 실시예에서, BL과 EL-2 층들이 또한 스위치될 수 있다.

도 9a에 도시된 전달 포맷을 가정하면, 도 9b는 수신기의 디코딩 시나리오들의 예를 도시한다. 단일의 BL 디코더(950)를 갖는 수신기는 절반 해상도(HR) 좌측 뷰와 절반 해상도 Z_L을 디코딩할 수 있다. 부가적인 EL 디코더-1(955)를 갖는 수신기는 또한 L'/R'의 상하의 신호를 디코딩할 수 있으며, 따라서 풀 해상도 좌측 뷰(또는 FR 우측 뷰)와, 절반 해상도 우측 뷰(또는 HR 좌측 뷰)를 재구축할 수 있고; 이들 신호들은 둘 다 3D 뷰를 재생성하기 위해 사용될 수 있다. 제 2의 EL 디코더(예를 들면, 960)를 갖는 수신기는 또한 절반 해상도 우측 뷰(R)와 절반 해상도 Z_R을 디코딩할 수 있으며, 따라서 FCFR 3D 신호를 생성할 수 있게 된다. BL 디코더(950)와 제 2의 EL-디코더(960)만을 갖는 수신기는 프레임 호환가능한 3D 신호 더하기 깊이 데이터를 디코딩할 수 있다.

도 10a는 기저층(BL)(1012)이 절반 해상도 좌측 뷰와 절반 해상도 좌측 뷰 깊이 맵(Z_L)을 전송하고, 강화층(1017)이 절반 해상도 우측 뷰와 절반 해상도 우측 뷰 깊이 맵(Z_R)을 전송하는 깊이 맵 전달 포맷을 도시한다. 인코더는 두 개의 층들을 인코딩하기 위해 표준 MVC 인코더를 사용할 수 있거나, 또는 대안적으로 RPU_T(도시되지 않음)(예를 들면, RPU(125))를 사용할 수 있다.

수신기 상에서, 도 10b에 도시된 것과 같이, 단일의 BL 디코더(1035)를 갖는 수신기는 절반 해상도 좌측 뷰와 그의 깊이 맵을 디코딩할 수 있다. 부가적인 EL 디코더(1045)(예를 들면, 수신기 RPU(140)를 포함할 수 있거나 또는 포함하지 않을 수 있는 MVC 디코더)를 갖는 수신기는 또한 절반 해상도 우측 뷰와 그의 깊이 맵을 디코딩할 수 있다. 두 개의 뷰들을 조합하는 것에 의해, 수신기는 절반 해상도(또는 프레임 레이트(frame-rate) 호환가능한) 3D 신호를 랜더링할 수 있다.

일 대안의 실시예에서, 도 10a에서, EL 스트림(1017)에서, 수평의 절반 해상도(R) 신호와 수평의 절반 해상도 Z_R을 송신하는 대신, 수직의 절반 해상도 신호(R')(예를 들면, 상하의 신호(117)의 하부)와 수직의 절반 해상도(Z_R')를 송신할 수 있다. 디코더 동작은 동일하게 남는다.

도 11a는 두개의 층들: BL(1112)과 EL(1117)을 이용한 깊이 맵 데이터 전달을 위한 일 실시예를 도시한다. 기저층(1112)은 나란한 L/R 픽처(예를 들면, 112)의 루마와 크로마 구성성분들을 둘 다 포함한다. EL(1117) 층은 두개의 데이터 세트들을 포함하는데: (a)텍스처 RPU(1125)를 이용하여 기저층을 나란한 신호를 참조하여 코딩된 상하의 L'/R' 신호(예를 들면, 117)의 루마의 코딩된 표현(1117-Y)과 (b)깊이 맵 데이터로서, 이들은 상하의 신호(L'/R')의 크로마 구성성분들(1117-UV)에 대하여 역전된 공간에서 전송된다. Z_L과 Z_L'은 모두 원래의 좌측 뷰 깊이 맵에 대해 수직적으로는 1/4해상도이고 수평적으로는 절반 해상도이다. 조합하면, Z_L과 Z_L'는 원래의 좌측 뷰 깊이 맵의 1/4해상도, 예를 들면 수평과 수직 방향들 모두에서 절반 해상도를 표현한다. 디코더 상에서, 상하의 픽처와 연관된 크로마 데이터(1117-Y)는 나란한 픽처로부터의 크로마 데이터(예를 들면, 1112-UV)를 이용하여 보간될 수 있다.

도 11b에 도시된 것과 같이, 단일의 BL 디코더(1135)를 갖는 수신기는 FC 3D 신호를 디코딩할 수 있다. 이중층 디코더를 갖는 수신기는 또한 상하의 L'/R' 신호와 깊이 맵 데이터를 디코딩할 수 있고, 따라서 양측 뷰들에 대한 FCFR 3D 신호와 깊이 맵 데이터를 재구성할 수 있게 된다.

도 12a는 단일층을 이용한 깊이 맵 전달 포맷을 위한 일 예시적인 실시예를 도시한다. 층(1205A)은 풀 해상도, 좌측 및 우측 뷰들(L 및 R), 및 그들의 대응하는 풀 해상도 깊이 맵 데이터(Z_L, Z_R)를 포함한다. 일부 실시예에서, L과 R 뷰들은 레거시 디스플레이들을 수용하도록 더 낮은 해상도의 서브 픽처들로 서브분할될 수 있다. 예를 들어, 4K 해상도 픽처가 4개의 2K 서브픽처들을 포함할 수 있거나, 또는 2K의 서브픽처가 4개의 1/4 해상도 픽처들을 전송할 수 있다. 도 12a에 도시된 것과 같이, 크로마 채널(1205-UV)은 크로마 데이터와 부가적인 깊이 맵 데이터(예를 들면, Z'_L 및 Z'_R)를 모두 전송할 수 있다.

도 12a에 도시된 것과 같이, 이미지 데이터(예를 들면, L 또는 R)와 그들의 대응하는 깊이 데이터(예를 들면, Z_L 또는 Z_R)은 수직으로 정렬될 수 있다. 도 12b에 도시된 다른 실시예에서, 이미지 데이터와 그들의 대응하는 깊이 데이터는 또한 수평으로 정렬될 수 있다.

도 13a는 이중층 깊이 맵 전달 포맷에 대한 예시적인 실시예를 도시한다. 이러한 포맷은 도 7에 도시된 포맷과 유사하나, 절반 해상도 좌측 및 우측 뷰들을 전송하는 대신; 본 방법은 기저층(1305)과 강화층(1325) 모두에서 풀 해상도 데이터를 전송한다. L과 R 픽처들은 두 배의 프레임 레이트로 송신될 수 있다. RPU_Z(1330)가 기저층으로부터 깊이 맵 데이터를 예측하고 이들을 강화층을 인코딩하기 위한 대안의 기준 프레임들로 이용하는 것에 의해 강화층의 코딩 효율성을 개선시키는데 사용될 수 있다.

일부 실시예들은 RPU_Z(1330)를 스킵하고 다른 기저층으로서 스스로 깊이 맵 데이터(1325)를 인코딩할 수 있다.

일부 실시예들에서, RPU_Z(1330)는 추정 깊이 데이터(ZE_L 및 ZE_R)를 추출하도록 기저층(1305)으로부터의 정보를 사용할 수 있다. 이후, 강화층(1325)은 원래의 Z_L과 Z_R 깊이 데이터를 포함하는 대신 RZ_L=Z_L-ZE_L과 RZ_R=Z_R-ZE_R과 같은 깊이 맵 잔류 값들을 포함할 수 있다.

도 13a에 도시된 전달 포맷을 가정하면, 도 13b는 대안의 수신기 구성들을 도시한다. 단일의 BL 디코더(1335)를 갖는 수신기는 풀 해상도의 3D 스트림을 디코딩할 수 있다. 부가적인 EL 디코더(1345)를 갖는 수신기는 또한 대응하는 깊이 데이터를 디코딩할 수 있다.

도 14는 픽처 데이터와 깊이 맵 데이터를 둘 다 전송하기 위한 단일층 송신 포맷을 위한 일 예시적인 실시예를 도시한다. 픽처 데이터와 깊이 데이터는 예를 들면, 프레임 또는 장면 레벨에서 인터리브 방식(interleaved manner)으로 송신된다. 픽처들은 각 뷰의 프레임 레이트의 네 배의 속도 레이트로 송신될 수 있다. 기저층(1305)은 다음의 층 구성성분들을 포함할 수 있다: 풀 해상도 좌측 뷰(1305-L), 풀 해상도 좌측 깊이 맵(1305-ZL), 풀 해상도 우측 뷰(1305-R), 및 풀 해상도 우측 깊이 맵(1305-ZR). 일부 실시예들은 1305 층의 구성성분들을 선택적으로 스킵하도록 결정할 수 있다. 예를 들어, 인코더는 비디오 프레임들의 집합(예를 들면, 영화 장면)에 대한 모든 좌측 및 우측 뷰들(L+R)을 송신할 수 있지만, 장면의 시작에서는 단지 깊이 맵 데이터만을 송신할 수 있다. 대안적으로, 인코더는 L+Z_L 또는 R+Z_R 데이터만을 송신할 수 있다. 포맷의 부가적인 메타데이터는 층의 구성성분들의 시퀀스를 디코더에게 표시할 수 있다.

비대칭 공간 다중화

도 15a는 일 실시예에 따른 깊이 맵의 전달을 위한 단일층 접근의 일 예를 도시한다. 이러한 접근은 비대칭 공간 다중화를 이용한다는 것을 제외하고는 앞서 도시된 단일 또는 이중층 접근들(예를 들면, 도 5, 도 9a, 및 도 10a)과 유사한데; 즉, 픽처 뷰와 그의 연관된 깊이 맵(예를 들면, 1512)을 조합하는 다중화된 픽처에서, 픽처 뷰(예를 들면, 좌측 뷰(L))와 그의 연관된 깊이 맵(예를 들면, Z_L)의 해상도들은 동일하지 않은 크기들을 갖는다.

픽셀 해상도 h x w(예를 들면, h= 1080 이고 w= 1920)를 갖는 다중화된 입력 프레임(예를 들면, 1512)을 가정하면, 일 실시예에서 서브샘플링된 좌측 뷰(L)는 그의 연관된 깊이 맵보다 많은 픽셀들에 할당될 수 있다. 따라서, 1>a≥1/2인 스케일(a)을 가정하면, 원래의 좌측 뷰 픽처는 h x aw의 크기로 크기 조정(예를 들면, 서브샘플링)될 수 있고, 깊이 맵은 h x (1-a)w의 크기로 크기 조정될 수 있다. 이러한 접근은 대칭 좌측 및 우측 뷰 픽처들보다 보다 선명한 3D 픽처들이 되는 결과를 가져올 수 있다(예를 들면, a=1/2일 때).

앞서 논의된 것과 같이, 선택적으로, 부가적인 깊이 데이터(예를 들면, Z_L' 및 Z_L _")가 또한 코딩된 프레임의 대응하는 크로마 구성성분들(예를 들면, 1512-UV)에 임베딩될 수 있다.

실시예에서, AVC/H.264 또는 다음의 HEVC 비디오 코딩 표준에서 정의된 것과 유사한, 인코딩 비트스트림의 크로핑 사각형과 영상비(aspect ratio) 구문 파라미터들을 이용함으로써 픽처의 활성 지역(예를 들면, h x aw)을 정의함으로써, 이전 기종과의 호환가능성이 성취될 수 있다. 이러한 수행 하에서, 레거시 2D 수신기는 이러한 파라미터들에 의해 정의된 픽처 지역(예를 들면, L)만을 추출하고, 디코딩하고, 디스플레이할 수 있으며, 깊이 맵 정보(예를 들면, Z_L)는 무시할 수 있다. 3D 능력을 갖는 수신기들은 전체 픽처를 디코딩할 수 있고, 크로핑 파라미터들을 이용하여 픽처 지역들과 깊이 맵 지역들을 결정할 수 있으며, 이후 많은 뷰들을 랜더링하는 데 깊이 맵 정보를 이용할 수 있다. 3D 수신기는 수신된 크로핑 및 영상비 파라미터들을 사용하여 원하는 바대로 2D 픽처와 깊이를 크기 조정할 수 있다. 픽처별 기반으로 픽처 배열들에 대한 정보를 포함하는 보조 데이터(또는 메타데이터)가 또한 송신될 수 있다.

동일한 전달 포맷이 또한, BL(1512)에서 서브해상도 좌측 뷰(L)가 서브해상도 우측 뷰(R), 또는 상하의 L'/R' 신호(147)의 상부(L')의 크기 조정된 버전들, 또는 상하의 L'/R' 신호(147)의 하부(R')에 의해 대체될 수 있고, 좌측 뷰 깊이 맵이 대응하는 깊이 맵에 의해 대체되는 대안의 실시예들에서 사용될 수 있다. 일부 실시예들(예를 들면, 도 4a와 도 15b에 도시된 것과 같은)에서, 비대칭 공간 다중화가 또한 수직 방향으로 적용될 수 있다. 일부 실시예들(도시되지 않음)에서, 비대칭 공간 다중화는 수평 및 수직 방향들 모두에 적용될 수 있다.

일 실시예에서, 도 15c는 세분된(segmented) 깊이 맵들에 기초한 대안의 깊이 전달 포맷의 일 예를 도시한다. 이러한 실시예들은 송신된 깊이 맵들의 영상비들이 송신된 이미지 뷰들의 영상비들에 더욱 가까이 매칭하는 것을 허용한다. 일 예로써, 입력된 1080x1920 이미지와 도 15a에 도시된 것과 같은, 제한이 없는, a=2/3의 비대칭 다중화 포맷을 고려하자. 이후, 일 실시예에서, 루미넌스 신호(1512-Y)(또는 1512C-Y)는 1080 x 1280 해상도로 크기 조정된 하나의 뷰(예를 들면, 좌측 뷰(L))와, 1080 x 640 해상도로 스케일된 대응하는 깊이 맵(예를 들면, Z_L)을 포함할 수 있다. 일부 실시예들에서, 원래의 영상비와 더욱 잘 매치하는 540 x 960 깊이 맵을 송신하는 것이 더욱 이득일 수 있다. 이러한 깊이 맵은 두 개의 연속적인 부분들(예를 들면, Z_LA 및 Z_LB)로 수평으로 세분될 수 있고, 이는 도 15c에 도시된 것과 같이 이들을 다른 것의 상부에 적층하는 것에 의해 다중화될 수 있다. 따라서, 일 예시적인 실시예에서, 루미넌스 신호(1512C-YS)는 두 개의 다중화된 부분들을 포함할 수 있는데: 제 1 해상도(예를 들면, 1080 x 1440)로 크기 조정된 이미지 부분(예를 들면, 좌측 뷰(L))과 깊이 맵 부분을 형성하도록 함께 다중화된 둘 이상의 깊이 맵 세그먼트들이다. 일 예에서, 540 x 960의 입력 깊이 맵의 두 개의 깊이 맵 세그먼트들(예를 들면, 540 x 480 Z_LA 및 540 x 480 Z_LB)이 수직으로 적층될 수 있다.

일부 실시예들에서, 깊이 맵은 두 개 이상의 세그먼트들로 세분될 수 있다. 일부 실시예들에서, 깊이 맵은 수직 방향을 가로질러 세분될 수 있다. 일부 실시예들에서, 깊이 맵은 수직과 수평 방향들을 모두 가로질러 세분될 수 있다. 일부 실시예들에서, 깊이 맵은 동일하지 않은 세그먼트들로 세분될 수 있다. 일부 실시예들에서, 세그먼트들은 수평으로, 수직으로, 또는 수평과 수직 모두로 적층될 수 있다.

일부 실시예들에서, 세분된 깊이 맵들의 하나 이상이 다중화된 이미지의 일부로서 저장되기 전에 수평으로 또는 수직으로 플립핑(flip)될 수 있다. 경험들은 이러한 플리핑이 텍스처 부분과 코딩된 다중화 이미지의 깊이 부분들 사이의 경계들에서 코딩 결함들을 감소시킨다는 것을 보여줬다(예를 들면, 1512C-YS). 또한, 분할된 깊이 맵 이미지의 중심에는 코딩 결함들이 더욱 적다.

일 예시적인 실시예에서, d[i,j]를 깊이 맵(예를 들면, Z_LB)의 세그먼트의 픽셀 값들이라고 하자. D_W는 이러한 세그먼트의 폭이라고 하자. 이러한 세그먼트의 픽셀 값들이 좌측의 수직 축을 가로질러 플립핑되면, i번째 행에 대하여 수평으로 플립핑된 세그먼트의 픽셀 값들(d_hf[i,j])은 다음과 같이 결정될 수 있다:

for (j=0; j< Dw; j++)

d_hf[i,j] = d[i,Dw-j];

세분된 깊이 맵들(예를 들면, 1512C-YS)을 갖는 이미지를 수신하는 디코더는 원래의 깊이 맵(예를 들면, Z_L)을 재구축하고 따라서 적절한 3D 출력 이미지를 재생성하도록 모든 디코딩된 깊이 맵 세그먼트들을 적절하게 정렬시키기 위해 메타데이터를 사용할 수 있다. 임의의 플립핑된 깊이 맵 세그먼트들은 마지막 출력을 렌더링하기 위해 사용되기 전에 그들의 원래의 방향으로 다시 플립핑될 필요가 있을 것이다.

일부 실시예들에서, 비대칭 공간 다중화와 깊이 맵 세분화가 또한 입력 이미지의 이미지 뷰들을 모두 포함하는 깊이 전달 포맷들(예를 들면, 도 12a 및 도 12b)로 적용될 수 있다.

대안의 3층 전달 포맷들

도 16a는 3층 전달 포맷에 기초하여 실시예에 따라 3D 비디오와 깊이 데이터를 송신하기 위한 다른 예를 도시한다. 도 16a는 도 2a 및 도 2c에 도시된 실시예들의 변형으로 고려될 수 있다. 도 16a에 도시된 것과 같이, 제 1의 두개의 층들인 BL(212)과 EL-1(217)은 종래의 3D FCFR 층들인 BL(112)과 EL(117)에 대응한다. 층 EL-2(1610)은 RPU_T(225)와 RPU_Z(230)에 대응할 수 있는 RPU_T와 선택적 RPU_Z(1620)를 이용하여 BL(212)로부터의 예측 데이터에 기초하여 EL-1(217)로부터 독립적으로 코딩된다. 이러한 예에서, 동일한 L' 비디오 데이터(또는 대안적으로 R' 데이터)가 EL-1과 EL-2 층들 모두에서 코딩된다. 도 16b에 도시된 것과 같이, 두개의 디코더들(예를 들면, BL 디코더(250)와 EL 디코더-1(255))만을 갖는 수신기에서, 사용자들은 FCFR 3D 스트림을 생성하도록 BL과 EL-1 스트림들을, 또는 무안경 입체 디스플레이(예를 들면, FR L + Z_L)를 위해 적절한 FR 스트림과 깊이 데이터를 생성하도록 BL과 EL-2 스트림들을 선택적으로 디코딩할 수 있다. 모든 3개의 디코더들을 갖는 수신기는 FCFR 3D 데이터와 Z_L 데이터를 모두 생성할 수 있다.

일 실시예에서, 1620의 RPU_Z 프로세스가 제거될 수 있다. 인코더는 EL-2(1610) 층의 코딩 프로세스동안 Z_L 깊이 데이터를 예측하기 위하여 간단히 상수 플랫 그레이 값(constant flat gray value)을 사용할 수 있다(예를 들어, 예측기의 모든 픽셀 값들은 8비트 픽처들에 대하여 128과 동일하게 설정될 수 있다).

도 16c는 일 실시예에 따라 3D 비디오와 깊이 데이터를 전달하기 위한 다른 예를 도시한다. 이러한 실시예는 도 16a에 도시된 것과 유사하나; EL 스트림들 중 어느 것도 어떠한 크로마 데이터도 전송하지 않는다. 일 실시예에서, EL-1(1630)과 EL-2(1635)의 모든 크로마 정보가 고정된 값(예를 들면, 8비트 픽처들에 대하여 128)으로 설정된다. 경험들은 이것이 전체적인 비트 레이트에 상당한 절약을 제공하는 한편 시각적 품질에는 최소한의 영향을 갖는다는 것을 보여준다. 크로마 데이터는 또한 BL 스트림의 크로마 데이터(212-UV)에 기초하여 재구축될 수 있다. 적절한 디코딩을 위해, 인코더(RPU)는 EL-1 또는 EL-2 스트림들의 임의의 디코딩된 크로마 데이터를 무시하라고 (예를 들어, RPU 시그널링 또는 다른 메타데이터를 통해) 디코더에 알려줄 필요가 있다.

도 16d는 Z_L과 Z_R 데이터가 모두 EL-2 신호(1640)에서 전송되나, 각각이 감소된 수직 및 수평의 해상도들을 갖는, 도 16a의 다른 예시적인 변형을 도시한다. 도 16e에 도시된 것과 같이, 두개의 디코더들을 갖는 수신기는 이제 무안경 입체 3D 응용들을 위해 FCFR 3D 신호 또는 좌측 및 우측 깊이 데이터를 갖는 FC 3D 신호를 디코딩할 수 있다.

깊이 맵 데이터를 갖는 대안의 2층 FCFR 전달 포맷들

도 17a는 2층 전달 포맷에 기초한 일 실시예에 따른 3D 비디오 및 깊이 데이터를 송신하는 다른 예를 도시한다. H.264와 같은 많은 압축 표준들에서, 비디오 시퀀스의 인코딩된 픽처의 크기는 미리 정해진 매크로블록 크기의 정수배가 되어야 한다(예를 들면, 16x16). 그렇지 않다면, 이후 그에 따라 픽셀 크기를 조정하도록 여분의 픽셀들이 픽처의 하부 및/또는 측면들에 부가된다. 일 예로써, 1920x1080의 크기를 갖는 HD 신호들의 코딩을 고려하자. 1920은 16의 배수이지만; 1080은 그렇지 않다. 일 예시적인 실시예에서, 이러한 스트림의 각 픽처는 1920x1088의 픽처를 형성하도록 8개의 여분의 행들에 의해 패딩될 수 있다. 도 17a에 도시된 것과 같이, 일 실시예에서, 이러한 패딩(예를 들면, 1710 및 1715)은 깊이 데이터를 송신하는데 사용될 수 있다.

도 17a에 도시된 것과 같이, 일 실시예에서, 기저층(BL)은 두 부분들을 포함하는데: 나란히(예를 들면, 1920x1080) 다중화된 픽처(112)와 좌측 뷰 또는 우측 뷰 중 하나를 위한 깊이 데이터의 서브샘플링된 버전(예를 들면, 1920x8의 ZL'(1710))이 그것이다. 깊이 데이터는 크로마 정보를 갖지 않으므로, 일 실시예에서, BL 신호의 여분의 패딩 행들에 대한 크로마 관련 데이터(1735)는 상수 값(예를 들면, 128)으로 간단히 설정될 수 있다.

일 실시예에서, 신호 ZL'(1710)는 다음과 같이 생성될 수 있다. Z_L을 고해상도 좌측 뷰 깊이 데이터 신호(예를 들면, 960x540)라고 하자. 이러한 신호는 패딩 데이터의 해상도(예를 들면, 1920x8) 내에서 맞춰질 수 있는 서브샘플링된 버전을 생성하도록 수평으로 및 수직으로 필터링되고 서브샘플링될 수 있다. 예를 들어, 960x540의 신호를 가정하면 240x60의 신호(ZL')를 생성할 수 있다. 이후 임의의 적절한 팩킹 방식을 사용하여 240*60=14,400 ZL' 바이트를 1920*8=15,360 바이트의 사용가능한 공간으로 팩킹할 수 있다.

도 17a에 도시된 것과 같이, 일 실시예에서, 강화층(EL)은 상하의 데이터 루미넌스 데이터(117-Y), 더 낮은 해상도 좌측 뷰 또는 우측 뷰 깊이 데이터(예를 들면, ZR'(1715)), 및 고해상도 좌측 뷰 및 우측 뷰 깊이 데이터(1745-U 및 1745-V)를 포함한다. 예를 들어, 루미넌스 신호에서, ZR'(1715)는 1920x8의 패딩 지역으로 팩킹된, 원래의 Z_R 깊이 데이터의 240x60의 서브샘플링된 버전을 포함할 수 있다. 크로마(1745)에 대하여, 상하의 신호(117)의 크로마를 송신하는 대신, 고해상도 Z_R 및 Z_L 깊이 데이터를 송신할 수 있다. 일 실시예에서, U(또는 Cb) 크로마 데이터를 송신하는 대신, Z_R과 Z_L의 짝수 열들(Z_R-e, Z_L-e(1745-U))을 송신할 수 있고, 117의 V(또는 Cr) 데이터를 송신하는 대신, Z_R과 Z_L의 홀수 열들(Z_R-o, Z_L-o(1745-V))을 송신할 수 있다. BL에서와 같이, ZR' 데이터(1715)는 크로마 정보를 갖지 않으며 따라서 그들의 대응하는 크로마 데이터(1740)는 고정된 값(예를 들면, 128)으로 설정될 수 있다.

층간 예측의 필요조건들과 코딩 및 디코딩 매크로블록 데이터의 순차적인 특성 때문에, 실제로, 시간(t)에서 코딩된 프레임에 대한 적어도 깊이 데이터 ZR'(1715)는 실질적으로 이전에, 즉 시간(t-1)에서 또는 그보다 빨리 코딩된 프레임에 대한 깊이 데이터를 표현할 수 있다. 이러한 지연은 RPU_Z(1730)가 강화층(1765)의 Z_L과 Z_R을 코딩(또는 디코딩)하는데 필요한 모든 깊이 데이터(예를 들면, ZR')를 전체적으로 재구축하는 것을 허용하는데 필요할 수 있다. 예를 들어, 인코딩 동안, 시간(T ₀ )에서, EL(T ₀ ) 프레임은 더미 ZR' 데이터를 포함할 수 있다(예를 들면, 모든 값들이 128과 동일하게 설정된다). 이후, EL(T ₁ ) 프레임은 T ₀ 프레임의 깊이 데이터를 포함할 수 있고, EL(T ₂ ) 프레임은 T ₁ 프레임의 깊이 데이터를 포함할 수 있다. 디코딩 동안, 제 1 디코딩된 프레임의 더미 깊이 데이터는 무시될 것이며 깊이 데이터는 적어도 하나의 프레임 지연으로 복구될 것이다.

EL의 루미넌스는 제 2의 EL 인코더를 이용하여 스스로 인코딩될 수 있거나, 또는 도 17a에 도시된 것과 같이, 기저층을 참조하여 텍스처 RPU_T(1725)를 이용하여 인코딩될 수 있다. 깊이 맵 RPU_Z(1730)가 또한 사용되어 EL의 "크로마" 공간의 고해상도 깊이 데이터가 서브샘플링된 ZL'(1710)과 ZR' 데이터(1715)를 고려하여 코딩될 수 있다. 예를 들어, 일 실시예에서, RPU_Z(1730)는 단순한 업-샘플러(up-sampler)를 포함할 수 있다.

도 17a에 도시된 비트 스트림들을 가정하면, 단일 디코더는 BL 스트림을 디코딩하고 뷰들 중 하나에 대한 프레임 호환가능한(FC) 3D 스트림 더하기 서브샘플링된 깊이 데이터를 추출할 수 있다. 이중층(예를 들면, MVC) 디코더는 FCFR 3D 스트림 더하기 Z_L 및 Z_R 깊이 데이터를 디코딩할 수 있다.

도 17b는 도 17a에 도시된 깊이 맵 전달 포맷의 변형을 도시한다. 코딩 효율성을 개선하기 위하여, 원래의 깊이 데이터(Z_L과 Z_R)를 코딩하는 대신(1745-U 및 1745-V), 인코더는 깊이 잔류들(RZ_L=Z_L-ZP_L 및 RZ_R=Z_R-ZP_R)을 생성하고 코딩하기 위해 깊이 RPU_Z(1730)를 사용할 수 있고, ZP_L과 ZP_R은 ZL'(1710)과 ZR'(1715) 신호들에 기초하여 예측된 Z_L과 Z_R 데이터를 나타낸다. 이러한 깊이 잔류들은 이후 EL 스트림의 "크로마" 정보(1765-U 및 1765-V)의 일부로서 코딩된다. 일 실시예에서, 코딩 및 디코딩 프로세스들 동안, 잔류 깊이 맵 데이터(RZ_L 및 RZ_R 데이터(1765))는 종래의 코딩된 잔류 깊이 맵 데이터 또는 고정된 값, 즉 128을 참조하여 코딩(또는 디코딩)될 수 있고; 따라서, 그들은 코딩된 ZR'(1715)와 ZL'(1710) 데이터로의 의존성이 없으며, 앞서 논의된 것과 같이 앞서 코딩된 프레임으로부터 ZR' 깊이 데이터를 사용할 필요가 없다.

다른 실시예에서, 도 17a 또는 도 17b에 도시된 것과 같은 EL 스트림들은 EL-U(1745-U 또는 1765-U) 또는 EL-V(1745-V 또는 1765-V) 영역들의 부분들에서만 깊이 데이터를 포함할 수 있다. 예를 들어, Z_R-O, Z_L-O(1745-V) 스트림들 또는 RZ_R-O, RZ_L-O(1765-V) 스트림들은 상수 값(예를 들면, 128)에 의해 대체될 수 있다. 이러한 접근은 더 낮은 깊이 맵 해상도의 비용으로 비트 레이트 필요조건들을 감소시킨다.

비트 레이트 필요조건들을 감소시키기 위한 다른 접근은 단지 하나의 뷰(즉, Z_R)에 대해서만 깊이 맵 데이터를 송신하는 것을 포함한다. 이러한 시나리오에서, 다른 뷰 깊이 영역(즉, Z_L)에 대한 모든 데이터는 상수 값(예를 들면, 128)으로 채워질 수 있다. 대안적으로, 그 전보다 두배의 해상도로 단일 뷰(즉, Z_R)에 대한 깊이 맵 데이터를 송신할 수 있다. 예를 들어, 일 실시예에서 Z_L _-O와 Z_L-e 깊이 데이터는 부가적인 Z_R 데이터에 의해 대체될 수 있다.

도 17a와 도 17b는 모두 기저층이 나란한 스트림을 포함하고 강화층이 상하의 스트림을 포함하는 실시예들을 도시한다. 다른 실시예들에서, 동일한 프로세스가 BL이 상하의 스트림을 포함하고 EL이 나란한 스트림을 포함하는 시스템으로 적용될 수 있다.

예시적인 컴퓨터 시스템 수행

본 발명의 실시예들은 전자 회로와 구성성분들로 구성된 컴퓨터 시스템, 시스템들, 마이크로제어기와 같은 집적 회로(IC) 디바이스, 필드 프로그래머블 게이트 어레이(FPGA), 또는 다른 구성가능한 또는 프로그램가능한 논리 디바이스(PLD), 이산 시간 또는 디지털 신호 프로세서(DSP), 애플리케이션 특정 IC(ASIC), 및/또는 이러한 시스템들, 디바이스들 또는 구성성분들 중 하나 이상을 포함하는 장치로 수행될 수 있다. 컴퓨터 및/또는 IC는 여기서 설명된 것들과 같은, 깊이 맵 전달 포맷들의 인코딩 및 디코딩에 관한 명령들을 수행, 제어 또는 실행할 수 있다. 컴퓨터 및/또는 IC는 여기서 설명된 깊이 맵 전달 포맷들의 인코딩 및 디코딩에 관한 임의의 다양한 파라미터들 또는 값들을 계산할 수 있다. 이미지와 비디오 동적 범위 확장 실시예들이 하드웨어, 소프트웨어, 펌웨어 및 다양한 그의 조합들에서 수행될 수 있다.

본 발명의 일정한 수행들은 프로세서들이 본 발명의 방법을 수행하도록 하는 소프트웨어 명령들을 실행하는 컴퓨터 프로세서들을 포함한다. 예를 들어, 디스플레이, 인코더, 셋탑 박스, 트랜스코더 등의 하나 또는 그 이상의 프로세서들은 프로세서들에 액세스가능한 프로그램 메모리의 소프트웨어 명령들을 실행하는 것에 의해 위에서 설명된 것과 같은 깊이 맵 전달 포맷들의 인코딩 및 디코딩에 대한 방법들을 수행할 수 있다. 본 발명은 또한 프로그램 제품의 형태로 제공될 수 있다. 프로그램 제품은 데이터 프로세서에 의해 실행될 때 데이터 프로세서가 본 발명의 방법을 실행하도록 하는 명령들을 포함하는 컴퓨터 판독가능한 신호들의 세트를 전송하는 임의의 매체를 포함할 수 있다. 본 발명에 따른 프로그램 제품들은 임의의 매우 다양한 형태들일 수 있다. 프로그램 제품은 예를 들면, 플로피 디스켓들, 하드 디스크 드라이브들을 포함하는 자기 데이터 저장 매체들, CD ROM들, DVD들을 포함하는 광학적 데이터 저장 매체들, ROM들, 플래시 RAM을 포함하는 전자 데이터 저장 매체들 등과 같은 물리적 매체들을 포함할 수 있다. 프로그램 제품 상의 컴퓨터 판독가능한 신호들은 선택적으로 압축되거나 또는 암호화될 수 있다.

구성성분(예를 들면, 소프트웨어 모듈, 프로세서, 어셈블리, 디바이스, 회로, 등)이 위와 같이 나타내지는 경우에, 다르게 지시되지 않는 한, 그러한 구성성분으로의 참조("수단"에 대한 참조를 포함)는 그 구성성분의 동등물들로서 설명된 구성성분의 기능을 수행하는(예를 들면, 기능적으로 동등한) 임의의 구성성분을 포함하며, 본 발명의 도시된 예시적 실시예들의 기능을 수행하는 개시된 구조와 구조적으로 동등하지 않은 구성성분들을 포함하는 것으로 해석되어야 한다.

동등물들, 확장들, 대안들 및 기타

따라서 깊이 맵 전달 포맷들의 인코딩 및 디코딩에 관한 예시적인 실시예들이 설명된다. 앞의 명세서에서, 본 발명의 실시예들이 수행마다 변화할 수 있는 다양한 특정의 상세한 설명들을 참조하여 설명되었다. 따라서, 무엇이 발명인지, 그리고 무엇이 출원자들에 의해 발명으로 의도되는지에 대한 유일하고 배타적인 지시자는 본 출원으로부터 발생한 청구항들에 기재된 세트이며, 이러한 청구항들이 발표된 특정 형식에는 임의의 후속적인 보정을 포함한다. 이러한 청구항들에 포함된 용어들에 대하여 여기서 명백하게 개시되는 임의의 정의들은 청구항들에서 사용되는 이러한 용어들의 의미를 지배한다. 따라서, 청구항에 명백하게 표현되지 않은 제한, 소자, 특성, 특징, 장점 또는 속성은 이러한 청구항의 범주를 어떠한 식으로도 제한하지 않아야 한다. 따라서, 명세서와 도면들은 제한적인 의미보다는 예시적인 것으로 여겨진다.

112: 나란한 뷰 117: 상하의 뷰
217: EL-1 층 225: RPU_T
212: BL 층 219S: EL-2 층
219S-A: 1차 채널 219S-B: 2차 채널들

Claims

3D 깊이 맵 데이터를 전달하는 방법에 있어서,
제 1 뷰와 제 2 뷰를 포함하는 입력 픽처를 액세스하는 단계로서, 각 뷰는 수평 및 수직의 픽셀 해상도를 갖는, 상기 입력 픽처를 액세스 단계와;
상기 입력 픽처에 대한 입력 깊이 데이터를 액세스하는 단계와;
상기 입력 픽처에 기초하여 나란한(side-by-side) 픽처와 상하의(top-and-bottom) 픽처를 생성하는 단계와;
코딩된 기저층 스트림(212)을 생성하도록 인코더를 사용하여 상기 나란한 픽처를 인코딩하는 단계와;
코딩된 제 1 강화층(EL-1, 217)을 생성하도록 상기 인코더와 텍스처 RPU(225)를 이용하여 상기 상하의 픽처를 인코딩하는 단계로서, 상기 코딩된 제 1 강화층은 상기 기저층 스트림에 기초하여 부분적으로 코딩되는, 상기 상하의 픽처 인코딩 단계와;
코딩된 제 2 강화층(EL-2)을 생성하도록 상기 인코더와 Z-RPU(230)를 사용하여 상기 나란한 픽처에 대한 깊이 데이터를 인코딩하는 단계로서, 상기 코딩된 제 2 강화층은 상기 기저층에 기초하여 부분적으로 코딩되고, 상기 나란한 픽처에 대한 상기 깊이 데이터는 상기 입력 픽처의 상기 입력 깊이 데이터에 기초하여 생성되는, 상기 깊이 데이터 인코딩 단계를 포함하는, 3D 깊이 맵 데이터를 전달하는 방법.
제 1 항에 있어서,
상기 코딩된 기저층, 상기 코딩된 제 1 강화층, 및 상기 코딩된 제 2 강화층을 출력 코딩된 비트스트림으로 다중화하는 단계를 추가로 포함하는, 3D 깊이 맵 데이터를 전달하는 방법.
제 1 항에 있어서,
상기 Z-RPU는 상기 입력 픽처에 기초하여 제 1 뷰 깊이 맵의 추정과 제 2 뷰 깊이 맵의 추정을 생성하는, 3D 깊이 맵 데이터를 전달하는 방법.
출력 비디오를 생성하는 방법에 있어서,
프레임 호환가능한(frame compatible;FC) 3D 비디오 스트림을 생성하도록 BL 디코더(250)로, 코딩된 기저층(BL) 스트림(212)을 디코딩하는 단계와;
프레임 호환가능한 풀 해상도(FCFR) 3D 비디오 스트림을 생성하도록 제 1 EL 디코더(255)와 텍스처(texture) RPU로, 코딩된 제 1 강화층(EL) 스트림(217)을 디코딩하는 단계로서, 상기 기저층 스트림으로부터 생성된 데이터에 부분적으로 기초하는, 상기 코딩된 제 1 강화층 스트림 디코딩 단계와;
출력 깊이 맵 데이터를 생성하도록 제 2 EL 디코더(265)와 Z-RPU로, 코딩된 제 2 강화층 스트림(219S)을 디코딩하는 단계로서, 상기 기저층 스트림으로부터 생성된 데이터에 부분적으로 기초하는, 상기 코딩된 제 2 강화층 스트림 디코딩 단계를 포함하는, 출력 비디오를 생성하는 방법.
3D 깊이 맵 데이터를 전달하는 방법에 있어서,
제 1 뷰와 제 2 뷰를 포함하는 입력 픽처를 액세스하는 단계로서, 각 뷰는 수평 및 수직의 픽셀 해상도를 갖는, 상기 입력 픽처 액세스 단계와;
상기 입력 픽처에 대한 입력 깊이 데이터를 액세스하는 단계와;
상기 입력 픽처에 기초하여 나란한 픽처와 상하의 픽처를 생성하는 단계와;
코딩된 기저층 스트림(217)을 생성하도록 인코더를 이용하여 상기 상하의 픽처를 인코딩하는 단계와;
코딩된 제 1 강화층(EL-1, 212)을 생성하도록 상기 인코더와 텍스처 RPU(225)를 이용하여 상기 나란한 픽처를 인코딩하는 단계로서, 상기 코딩된 제 1 강화층은 상기 기저층 스트림에 기초하여 부분적으로 코딩되는, 상기 나란한 픽처 인코딩 단계와;
코딩된 제 2 강화층(EL-2)을 생성하도록 상기 인코더와 Z-RPU(230)를 이용하여 상기 상하의 픽처에 대한 깊이 데이터를 인코딩하는 단계로서, 상기 코딩된 제 2 강화층은 상기 기저층에 기초하여 부분적으로 코딩되고, 상기 상하의 픽처에 대한 상기 깊이 데이터는 상기 입력 픽처의 상기 입력 깊이 데이터에 기초하여 생성되는, 상기 깊이 데이터 인코딩 단계를 포함하는, 3D 깊이 맵 데이터를 전달하는 방법.
3D 깊이 맵 데이터를 전달하는 방법에 있어서,
제 1 뷰와 제 2 뷰를 포함하는 입력 픽처를 액세스하는 단계로서, 각 뷰는 수평 및 수직의 픽셀 해상도를 갖는, 상기 입력 픽처 액세스 단계와;
상기 입력 픽처에 대한 입력 깊이 맵 데이터를 액세스하는 단계와;
상기 입력 픽처에 기초하여 나란한 픽처와 상하의 픽처를 생성하는 단계와;
코딩된 기저층 스트림(312)을 생성하도록 인코더를 이용하여 상기 나란한 픽처를 인코딩하는 단계와;
코딩된 제 1 강화층(EL-1, 317)을 생성하도록 상기 인코더와 텍스처 RPU(325)를 이용하여 상기 상하의 픽처를 인코딩하는 단계로서, 상기 코딩된 제 1 강화층은 상기 기저층 스트림에 기초하여 부분적으로 코딩되는, 상기 상하의 픽처 인코딩 단계와;
코딩된 제 2 기저층(319)을 생성하도록 상기 인코더를 이용하여 나란한 깊이 맵 데이터를 인코딩하는 단계로서, 상기 나란한 깊이 맵 데이터는 상기 입력 픽처의 상기 입력 깊이 맵 데이터에 기초하는, 상기 나란한 깊이 맵 데이터 인코딩 단계를 포함하는, 3D 깊이 맵 데이터를 전달하는 방법.
제 6 항에 있어서,
상기 나란한 깊이 맵 데이터는 잔류(residual) 깊이 맵 데이터를 포함하고, 상기 방법은 상기 잔류 깊이 맵 데이터를 생성하고,
상기 입력 픽처에 기초하여 Z-RPU(330)로 추정 깊이 맵 데이터를 생성하는 단계와;
상기 입력 깊이 맵 데이터와 상기 추정 깊이 맵 데이터 사이의 차이에 기초하여 상기 잔류 깊이 맵 데이터를 생성하는 단계를 포함하는, 3D 깊이 맵 데이터를 전달하는 방법.
3D 깊이 맵 데이터를 전달하는 방법에 있어서,
제 1 뷰와 제 2 뷰를 포함하는 입력 픽처를 액세스하는 단계로서, 각 뷰는 수평 및 수직의 픽셀 해상도를 갖는, 상기 입력 픽처 액세스 단계와;
상기 입력 픽처에 대한 입력 깊이 데이터를 액세스하는 단계와;
상기 입력 픽처에 기초하여 나란한 픽처를 생성하는 단계와;
상기 입력 픽처의 상기 제 1 뷰에 대하여 절반의 상기 수직 픽셀 해상도 및 동일한 상기 수평 픽셀 해상도를 갖는 제 1 절반 픽처(L')를 생성하는 단계와;
상기 입력 픽처의 상기 제 2 뷰에 대하여 절반의 상기 수직 픽셀 해상도 및 동일한 상기 수평 픽셀 해상도를 갖는 제 2 절반 픽처(R')를 생성하는 단계와;
코딩된 기저층(412)을 생성하도록 인코더로 상기 나란한 픽처를 인코딩하는 단계와;
코딩된 제 1 강화층(417)을 생성하도록 상기 인코더, Z-RPU(430), 및 텍스처 RPU(425)로 상기 제 1 절반 픽처와 상기 제 1 절반 픽처에 대한 깊이 맵 데이터를 인코딩하는 단계로서, 상기 제 1 강화층의 인코딩은 상기 기저층으로부터의 데이터에 부분적으로 기초하는, 상기 제 1 절반 픽처 및 깊이 맵 데이터 인코딩 단계와;
코딩된 제 2 강화층(419)을 생성하도록 상기 인코더, 상기 Z-RPU(430), 및 상기 텍스처 RPU(425)로 상기 제 2 절반 픽처와 상기 제 2 절반 픽처에 대한 깊이 맵 데이터를 인코딩하는 단계로서, 상기 제 2 강화층의 인코딩은 상기 기저층으로부터의 데이터에 부분적으로 기초하는, 상기 제 2 절반 픽처 및 깊이 맵 데이터 인코딩 단계를 포함하는, 3D 깊이 맵 데이터를 전달하는 방법.
출력 비디오를 생성하는 방법에 있어서,
프레임 호환가능한 3D 비디오 스트림을 생성하도록 BL 디코더(450)로 코딩된 기저층(BL) 스트림을 디코딩하는 단계와;
제 1 뷰의 풀 해상도 비디오, 제 2 뷰의 절반 해상도, 및 상기 제 1 뷰에 대한 깊이 맵 데이터를 생성하도록 제 1 EL 디코더(455), 텍스처 RPU, 및 Z-RPU로, 코딩된 제 1 강화층(EL-1) 스트림을 디코딩하는 단계로서, 상기 기저층 스트림으로부터의 데이터에 부분적으로 기초하는, 상기 코딩된 제 1 강화층 스트림 디코딩 단계와;
FCFR 3D 비디오와 제 2 뷰에 대한 깊이 맵 데이터를 생성하도록 제 2 EL 디코더(460), 상기 텍스처 RPU, 그리고 상기 Z-RPU로, 코딩된 제 2 강화층 스트림(419)을 디코딩하는 단계로서, 상기 기저층 스트림으로부터의 데이터에 부분적으로 기초하는, 상기 코딩된 제 2 강화층 스트림 디코딩 단계를 포함하는, 출력 비디오를 생성하는 방법.
3D 깊이 맵 데이터를 전달하는 방법에 있어서,
제 1 뷰와 제 2 뷰를 포함하는 입력 픽처를 액세스하는 단계로서, 각 뷰는 수평 및 수직의 픽셀 해상도를 갖는, 상기 입력 픽처 액세스 단계와;
상기 입력 픽처에 대한 입력 깊이 데이터를 액세스하는 단계와;
상기 입력 픽처의 상기 제 1 뷰에 대하여 절반의 상기 수평 픽셀 해상도 및 동일한 상기 수직 픽셀 해상도를 갖는 제 1 절반 픽처를 생성하는 단계와;
상기 입력 픽처의 상기 제 2 뷰에 대하여 절반의 상기 수평 픽셀 해상도 및 동일한 상기 수직 픽셀 해상도를 갖는 제 2 절반 픽처를 생성하는 단계와;
코딩된 기저층(512)을 생성하도록 인코더를 사용하여, 다중화된 픽처를 인코딩하는 단계로서, 상기 다중화된 픽처는 상기 제 1 절반 픽처와 제 3 절반 픽처를 포함하고, 상기 제 3 절반 픽처는 상기 제 1 절반 픽처 또는 상기 제 2 절반 픽처의 깊이 맵 데이터(Z_L)를 포함하는, 상기 인코딩 단계를 포함하는, 3D 깊이 맵 데이터를 전달하는 방법.
3D 깊이 맵 데이터를 전달하는 방법에 있어서,
제 1 뷰와 제 2 뷰를 포함하는 입력 픽처를 액세스하는 단계와;
상기 입력 픽처에 대한 입력 깊이 맵 데이터를 액세스하는 단계와;
제 1 코딩된 기저층 스트림(612)을 생성하도록 인코더를 사용하여 상기 입력 픽처의 상기 제 1 뷰를 인코딩하는 단계와;
제 2 코딩된 기저층 스트림(617)을 생성하도록 상기 인코더를 사용하여 제 3 픽처를 인코딩하는 단계로서, 상기 제 3 픽처는 상기 입력 픽처의 상기 제 1 뷰 또는 상기 제 2 뷰의 깊이 맵 데이터를 포함하는, 상기 제 3 픽처 인코딩 단계를 포함하는, 3D 깊이 맵 데이터를 전달하는 방법.
3D 깊이 맵 데이터를 전달하는 방법에 있어서,
제 1 뷰와 제 2 뷰를 포함하는 입력 픽처를 액세스하는 단계로서, 각 뷰는 수평 및 수직의 픽셀 해상도를 갖는, 상기 입력 픽처 액세스 단계와;
상기 입력 픽처의 상기 제 1 뷰에 대하여 절반의 상기 수평 픽셀 해상도 및 동일한 상기 수직 픽셀 해상도를 갖는 제 1 절반 픽처를 생성하는 단계와;
상기 입력 픽처의 상기 제 2 뷰에 대하여 절반의 상기 수평 픽셀 해상도 및 동일한 상기 수직 픽셀 해상도를 갖는 제 2 절반 픽처를 생성하는 단계와;
상기 입력 픽처의 상기 제 1 뷰에 대하여 절반의 상기 수직 픽셀 해상도 및 동일한 상기 수평 픽셀 해상도를 갖는 제 3 절반 픽처를 생성하는 단계와;
상기 입력 픽처의 상기 제 2 뷰에 대하여 절반의 상기 수직 픽셀 해상도 및 동일한 상기 수평 픽셀 해상도를 갖는 제 4 절반 픽처를 생성하는 단계와;
코딩된 기저층 스트림(912)을 생성하도록 인코더를 이용하여 상기 제 1 절반 픽처와 상기 제 1 절반 픽처의 깊이 맵 데이터를 인코딩하는 단계와;
코딩된 제 1 강화층 스트림(EL-1, 917)을 생성하도록 상기 인코더와 텍스처 RPU(925)를 이용하여 상기 제 3 절반 픽처(L')와 상기 제 4 절반 픽처(R')를 인코딩하는 단계로서, 상기 코딩된 제 1 EL 스트림의 상기 제 3 절반 픽처의 상기 인코딩은 상기 제 1 절반 픽처에 부분적으로 기초하는, 상기 제 3 및 제 4 절반 픽처 인코딩 단계와;
코딩된 제 2 강화층(EL-2, 919)을 생성하도록 상기 인코더, 상기 텍스처 RPU(925), 및 Z-RPU(930)를 이용하여 상기 제 2 절반 픽처와 상기 제 2 절반 픽처에 대한 깊이 맵 데이터를 인코딩하는 단계로서, 상기 코딩된 제 2 EL의 상기 제 2 절반 픽처의 상기 인코딩은 상기 제 4 절반 픽처에 부분적으로 기초하고, 상기 제 2 절반 픽처의 상기 깊이 맵 데이터의 상기 코딩은 상기 Z-RPU를 통해 상기 입력 픽처로부터 생성된 데이터에 부분적으로 기초하는, 상기 제 2 절반 픽처 및 깊이 맵 데이터 인코딩 단계를 포함하는, 3D 깊이 맵 데이터를 전달하는 방법.
출력 비디오를 생성하는 방법에 있어서,
제 1 뷰의 절반 해상도 신호와 상기 제 1 뷰의 깊이 맵을 생성하도록 BL 디코더(950)로, 디코딩된 기저층(BL) 스트림(412)을 디코딩하는 단계와;
프레임 호환가능한 3D 비디오와 제 2 뷰의 절반 해상도 신호를 생성하도록 제 1 EL 디코더(955)와 텍스처 RPU로, 코딩된 제 1 강화층(EL-1) 스트림을 디코딩하는 단계로서, 상기 기저층으로부터 추출된 데이터에 부분적으로 기초하는, 상기 코딩된 제 1 강화층 스트림 디코딩 단계와;
FCFR 3D 비디오와 상기 제 2 뷰에 대한 깊이 맵 데이터를 생성하도록 제 2 EL 디코더(960), 상기 텍스처 RPU, 및 Z-RPU로, 코딩된 제 2 강화층 스트림(EL-2)을 디코딩하는 단계로서, 상기 기저층과 상기 제 1 강화층으로부터 추출된 데이터에 부분적으로 기초하는, 상기 코딩된 제 2 강화층 스트림 디코딩 단계를 포함하는, 출력 비디오를 생성하는 방법.
3D 깊이 맵 데이터를 전달하는 방법에 있어서,
제 1 뷰와 제 2 뷰를 포함하는 입력 픽처를 액세스하는 단계로서, 각 뷰는 수평 및 수직의 픽셀 해상도를 갖는, 상기 입력 픽처 액세스 단계와;
상기 입력 픽처에 대한 입력 깊이 데이터를 액세스하는 단계와;
상기 입력 픽처에 기초하여 나란한 픽처를 생성하는 단계와;
상기 입력 픽처에 기초하여 상하의 픽처를 생성하는 단계와;
코딩된 기저층 스트림(1112)을 생성하도록 인코더를 사용하여 상기 나란한 픽처를 인코딩하는 단계와;
상기 인코더, 텍스처 RPU(1125), 및 Z-RPU를 사용하여 제 1 부분(1117-Y)과 제 2 부분(1117-UV)을 포함하는 코딩된 강화층(EL) 스트림(1117)을 인코딩하는 단계로서, 상기 제 1 부분은 상기 상하의 픽처로부터의 루마(luma) 구성성분 데이터를 포함하고 상기 제 2 부분은 상기 입력 픽처의 상기 입력 깊이 데이터에 기초한 깊이 데이터를 포함하는, 상기 코딩된 강화층 스트림 인코딩 단계를 포함하는, 3D 깊이 맵 데이터를 전달하는 방법.
출력 비디오를 생성하는 방법에 있어서,
FC 3D 비디오 출력을 생성하도록 기저층 디코더(1135)로, 코딩된 기저층 스트림을 디코딩하는 단계와;
출력 루미넌스 데이터와 깊이 맵 데이터를 생성하도록 강화층 디코더(1145), 텍스처 RPU, 및 Z-RPU로, 코딩된 강화층 스트림을 디코딩하는 단계로서, 상기 기저층으로부터의 데이터에 부분적으로 기초하는, 상기 코딩된 강화층 스트림 디코딩 단계와;
상기 FC 3D 스트림과 상기 출력 루미넌스 데이터에 기초하여 FCFR 3D 스트림을 생성하는 단계를 포함하는, 출력 비디오를 생성하는 방법.
제 16 항에 있어서:
상기 BL 디코더로, 루마 나란한 데이터(luma side-by-side data)와 크로마 나란한 데이터(chroma side-by-side data)를 포함하는 나란한 픽처를 디코딩하는 단계와;
상기 출력 루미넌스 데이터에 기초하여 상하의 픽처에 대한 루마 데이터를 생성하는 단계와;
상기 나란한 픽처의 상기 크로마 나란한 데이터에 기초하여 상기 상하의 픽처에 대한 크로마 데이터를 보간하는 단계를 추가로 포함하는, 출력 비디오를 생성하는 방법.
제 1, 5, 6, 15 항 중 어느 한 항에 있어서:
상기 입력 픽처의 상기 제 1 뷰에 대하여 절반의 상기 수평 픽셀 해상도 및 동일한 상기 수직 픽셀 해상도를 갖는 제 1 절반 픽처를 생성하는 단계와;
상기 입력 픽처의 상기 제 2 뷰에 대하여 절반의 상기 수평 픽셀 해상도 및 동일한 상기 수직 픽셀 해상도를 갖는 제 2 절반 픽처를 생성하는 단계와;
상기 나란한 픽처를 생성하도록 상기 제 1 절반 픽처와 상기 제 2 절반 픽처를 다중화하는 단계를 추가로 포함하는, 방법.
제 1, 5, 6, 15 항 중 어느 한 항에 있어서:
상기 입력 픽처의 상기 제 1 뷰에 대하여 절반의 상기 수직 픽셀 해상도 및 동일한 상기 수평 픽셀 해상도를 갖는 제 3 절반 픽처를 생성하는 단계와;
상기 입력 픽처의 상기 제 2 뷰에 대하여 절반의 상기 수직 픽셀 해상도 및 동일한 상기 수평 픽셀 해상도를 갖는 제 4 절반 픽처를 생성하는 단계와;
상기 상하의 픽처를 생성하도록 상기 제 3 절반 픽처와 상기 제 4 절반 픽처를 다중화하는 단계를 추가로 포함하는, 방법.
3D 깊이 맵 데이터를 전달하는 방법에 있어서,
입력 입체 픽처와 입력 깊이 데이터를 액세스하는 단계와;
상기 입력 입체 픽처에 응답하여 제 1 공간 크기의 이미지 데이터 분할을 생성하는 단계와;
상기 입력 깊이 데이터에 응답하여 깊이 맵 데이터 분할을 생성하는 단계로서, 상기 깊이 맵 데이터 분할은 상기 제 1 크기와는 다른 제 2 공간 크기를 갖는, 상기 깊이 맵 데이터 분할 생성 단계와;
다중화된 출력 픽처를 형성하도록 상기 이미지 데이터 분할과 상기 깊이 맵 데이터 분할을 다중화하는 단계와;
코딩된 비트스트림을 생성하도록 인코더를 이용하여 상기 다중화된 출력 픽처를 인코딩하는 단계를 포함하는, 3D 깊이 맵 데이터를 전달하는 방법.
제 19 항에 있어서,
상기 이미지 데이터 분할과 상기 깊이 맵 데이터 분할은 동일한 수평 해상도들을 갖는, 3D 깊이 맵 데이터를 전달하는 방법.
제 19 항에 있어서,
상기 이미지 데이터 분할은 상기 깊이 맵 데이터 분할보다 더 높은 수평 해상도를 갖는, 3D 깊이 맵 데이터를 전달하는 방법.
제 19 항에 있어서,
상기 이미지 데이터 분할은 상기 입력 입체 픽처의 제 1 뷰 또는 제 2 뷰에 기초하고, 상기 깊이 맵 데이터 분할은 상기 입력 입체 픽처의 제 1 뷰 또는 제 2 뷰의 상기 깊이 데이터에 기초하는, 3D 깊이 맵 데이터를 전달하는 방법.
3D 깊이 맵 데이터를 전달하는 방법에 있어서,
제 1 뷰와 제 2 뷰를 포함하는 입력 픽처를 액세스하는 단계로서, 각 뷰는 수평 및 수직의 픽셀 해상도를 갖는, 상기 입력 픽처 액세스 단계와;
상기 입력 픽처에 대한 입력 깊이 데이터를 액세스하는 단계와;
상기 입력 픽처에 기초하여 나란한 픽처와 상하의 픽처를 생성하는 단계와;
코딩된 기저층 스트림(212)을 생성하도록 인코더를 사용하여 상기 나란한 픽처를 인코딩하는 단계와;
코딩된 제 1 강화층(EL-1, 217)을 생성하도록 상기 인코더와 텍스처 RPU(225)를 사용하여 상기 상하의 픽처를 인코딩하는 단계로서, 상기 코딩된 제 1 강화층은 상기 기저층 스트림에 기초하여 부분적으로 코딩되는, 상기 상하의 픽처 인코딩 단계와;
코딩된 제 2 강화층(EL-2)을 생성하도록 상기 인코더와 상기 텍스처 RPU를 사용하여 상기 상하의 픽처의 일부와 제 2 깊이 데이터를 인코딩하는 단계로서, 상기 코딩된 제 2 강화층은 상기 기저층에 기초하여 부분적으로 코딩되고, 상기 제 2 깊이 데이터는 상기 입력 픽처의 상기 입력 깊이 데이터에 기초하여 생성되는, 상기 상하의 픽처 및 깊이 데이터 인코딩 단계를 포함하는, 3D 깊이 맵 데이터를 전달하는 방법.
제 23 항에 있어서,
상기 제 1 강화층과 상기 제 2 강화층을 인코딩하기 전에, 상기 상하의 픽처의 크로마 픽셀들의 값들이 고정된 픽셀 값으로 설정되는, 3D 깊이 맵 데이터를 전달하는 방법.
제 23 항에 있어서,
상기 제 2 깊이 데이터는 상기 입력 픽처의 단지 하나의 뷰로부터 수평으로 서브샘플링된 깊이 데이터를 포함하는, 3D 깊이 맵 데이터를 전달하는 방법.
제 23 항에 있어서,
상기 제 2 깊이 데이터는 상기 입력 픽처의 상기 좌측 뷰와 상기 우측 뷰 둘 다로부터 수평으로 서브샘플링되고 수직으로 서브샘플링된 깊이 데이터를 포함하는, 3D 깊이 맵 데이터를 전달하는 방법.
3D 깊이 맵 데이터를 전달하는 방법에 있어서,
제 1 뷰와 제 2 뷰를 포함하는 입력 픽처를 액세스하는 단계로서, 각 뷰는 제 1 수평 및 제 1 수직의 픽셀 해상도를 갖는, 상기 입력 픽처 액세스 단계와;
상기 입력 픽처에 대한 제 1 입력 깊이 데이터와, 이전에 인코딩된 픽처로부터의 제 2 입력 깊이 데이터를 액세스하는 단계와;
상기 입력 픽처(117)에 기초하여 나란한 픽처(112)와 상하의 픽처를 생성하는 단계와;
패딩된(padded) 나란한 픽처와 패딩된 상하의 픽처를 생성하도록 상기 나란한 픽처와 상기 상하의 픽처를 패딩된 데이터(1710, 1715)로 패딩하는 단계로서, 상기 패딩된 데이터는 상기 제 1 입력 깊이 데이터, 상기 제 2 입력 깊이 데이터, 또는 상기 제 1 및 제 2 입력 깊이 데이터의 조합에 기초한 제 1 코딩된 깊이 데이터를 포함하는, 상기 패딩 단계와;
코딩된 기저층 스트림을 생성하도록 인코더를 이용하여 상기 패딩된 나란한 픽처를 인코딩하는 단계와;
제 2 패딩된 상하의 픽처를 생성하도록, 상기 패딩된 상하의 픽처의 크로마 픽셀 값들을 상기 제 2 입력 깊이 데이터에 기초하여 제 2 코딩된 깊이 데이터로 대체하는 단계와;
코딩된 강화층 스트림을 생성하도록 상기 인코더와 텍스처 RPU(1725)를 이용하여 상기 제 2의 패딩된 상하의 픽처를 인코딩하는 단계로서, 상기 코딩된 강화층 스트림은 상기 기저층 스트림에 기초하여 부분적으로 코딩되는, 상기 제 2 패딩된 상하의 픽처 인코딩 단계를 포함하는, 3D 깊이 맵 데이터를 전달하는 방법.
제 27 항에 있어서,
상기 패딩된 나란한 픽처와 상기 패딩된 상하의 픽처들의 각각은 미리 정해진 매크로블록 크기의 정수배인 수직 및 수평의 공간 픽셀 해상도들을 갖는, 3D 깊이 맵 데이터를 전달하는 방법.
제 27 항에 있어서,
상기 제 1 수평 해상도 또는 상기 제 1 수직 해상도 중 적어도 하나는 미리 정해진 매크로블록 크기의 정수배가 아닌, 3D 깊이 맵 데이터를 전달하는 방법.
제 27 항에 있어서,
상기 제 1 코딩된 깊이 데이터는 상기 제 1 입력 깊이 데이터 또는 상기 제 2 입력 깊이 데이터 중 하나로부터 도출된 서브샘플링된 깊이 데이터를 포함하는, 3D 깊이 맵 데이터를 전달하는 방법.
제 27 항에 있어서,
상기 제 2 코딩된 깊이 데이터는 상기 제 1 코딩된 깊이 데이터보다 높은 공간 해상도에서 상기 제 2 입력 깊이 데이터로부터 도출된 깊이 데이터를 포함하는, 3D 깊이 맵 데이터를 전달하는 방법.
제 27 항에 있어서,
상기 제 2 코딩된 깊이 데이터는 상기 제 1 입력 깊이 데이터와 예측된 깊이 데이터에 기초하여 생성된 잔류 깊이 데이터를 포함하며, 상기 예측된 깊이 데이터는 상기 제 1 코딩된 깊이 데이터에 기초하는, 3D 깊이 맵 데이터를 전달하는 방법.
제 27 항에 있어서,
Z-RPU(1730)를 사용하여 상기 EL 스트림의 상기 제 2 코딩된 깊이 데이터를 압축하는 단계를 추가로 포함하며, 상기 강화층 스트림의 압축된 제 2 코딩된 깊이 데이터는 상기 제 1 코딩된 깊이 데이터를 참조하여 부분적으로 코딩되는, 3D 깊이 맵 데이터를 전달하는 방법.
3D 깊이 맵 데이터를 전달하는 방법에 있어서,
입력 입체 픽처와 입력 깊이 데이터를 액세스하는 단계와;
상기 입력 입체 픽처에 응답하여 제 1 공간 크기의 이미지 데이터 분할을 생성하는 단계와;
상기 입력 깊이 데이터에 응답하여 크기 조정된 깊이 맵을 생성하는 단계와;
상기 크기 조정된 깊이 맵을 둘 이상의 깊이 맵 세그먼트들로 세분하는 단계와;
상기 깊이 맵 세그먼트들 중 둘 이상을 포함하는 깊이 맵 분할을 생성하는 단계로서, 상기 깊이 맵 데이터 분할은 상기 제 1 크기와는 다른 제 2 공간 크기를 갖는, 상기 깊이 맵 분할 생성 단계와;
다중화된 출력 픽처를 형성하도록 상기 이미지 데이터 분할과 상기 깊이 맵 데이터 분할을 다중화하는 단계로서, 상기 깊이 맵 분할의 적어도 하나의 깊이 맵 세그먼트의 위치는 상기 크기 조정된 깊이 맵에 있는 그의 원래 위치에 상대적으로 시프트되는, 상기 다중화 단계와;
코딩된 비트스트림을 생성하도록 인코더를 이용하여 상기 다중화된 출력 픽처를 인코딩하는 단계를 포함하는, 3D 깊이 맵 데이터를 전달하는 방법.
제 34 항에 있어서,
상기 크기 조정된 깊이 이미지는 수평 방향 또는 수직 방향을 가로질러 세분되는, 3D 깊이 맵 데이터를 전달하는 방법.
제 34 항에 있어서,
상기 깊이 맵 데이터 분할을 생성하는 단계는 상기 깊이 맵 세그먼트들 중 적어도 두 개를 수직으로 위치시키는 단계를 포함하며, 상기 깊이 맵 세그먼트들 중 상기 적어도 두 개는 상기 크기 조정된 깊이 맵에 수평으로 위치된, 3D 깊이 맵 데이터를 전달하는 방법.
제 34 항에 있어서,
상기 깊이 맵 데이터 분할을 생성하는 단계는 상기 깊이 맵 세그먼트들 중 적어도 두 개를 수평으로 위치시키는 단계를 포함하며, 상기 깊이 맵 세그먼트들 중 상기 적어도 두 개는 상기 크기 조정된 깊이 맵에 수직으로 위치된, 3D 깊이 맵 데이터를 전달하는 방법.
3D 깊이 맵 데이터를 디코딩하는 방법에 있어서,
이미지 데이터 분할과 깊이 맵 데이터 분할을 생성하도록, 코딩된 비트스트림을 디코딩하는 단계로서, 상기 깊이 맵 데이터 분할은 제 1 공간 위치에 위치된 시프트된 깊이 맵 세그먼트를 포함하는, 상기 디코딩 단계와;
상기 제 1 공간 위치와 다른 제 2 공간 위치에 깊이 맵 세그먼트를 생성하도록, 상기 제 1 공간 위치로부터 제 2 공간 위치로 상기 시프트된 깊이 맵 세그먼트를 시프트하는 단계와;
적어도 상기 이미지 데이터 분할과 상기 제 2 공간 위치의 상기 깊이 맵 세그먼트에 응답하여, 디코딩된 출력 신호를 생성하는 단계를 포함하는, 3D 깊이 맵 데이터를 디코딩하는 방법.
제 34 항에 있어서,
상기 인코딩 단계 전에 상기 깊이 맵 분할의 적어도 하나의 깊이 맵 세그먼트를 수평으로 또는 수직으로 플립핑하는(flipping) 단계를 추가로 포함하는, 3D 깊이 맵 데이터를 전달하는 방법.
제 38 항에 있어서,
상기 디코딩된 출력 신호를 생성하기 전에 상기 시프트된 깊이 맵 세그먼트를 수평으로 또는 수직으로 플립핑하는 단계를 추가로 포함하는, 3D 깊이 맵 데이터를 디코딩하는 방법.
프로세서를 포함하고, 제 1 항 내지 제 4 항 중 어느 한 항의 방법들 중 어느 하나를 수행하도록 구성된, 장치.
제 1 항 내지 제 4 항 중 어느 한 항의 방법을 실행하기 위하여 컴퓨터 수행가능한 명령들을 저장한, 비-일시적 컴퓨터 판독가능한 저장 매체.