KR101912249B1

KR101912249B1 - 계층적 vdr 코딩에서의 층 분해

Info

Publication number: KR101912249B1
Application number: KR1020147012319A
Authority: KR
Inventors: 구안-밍 수; 솅 쿠; 사미르 엔. 훌리얄카르; 타오 첸; 월터 씨. 기쉬; 후버트 코엡퍼
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date: 2011-11-04
Filing date: 2012-11-01
Publication date: 2018-10-29
Also published as: WO2013067101A1; JP5959607B2; RU2014117573A; TWI575933B; US20140247869A1; CN104322072B; RU2644065C9; JP5970501B2; TW201332363A; JP2014534743A; RU2586572C2; BR112014010311B1; US9924171B2; KR20140098072A; CN105657425A; JP2016213849A; US20170019670A1; CN105744277A; JP5666756B2; JP6182644B2

Abstract

기술들은 더 높은 비트 깊이와 높은 동적 범위의 이미지들을 업스트립 디바이스로부터 다운스트림 디바이스로 제공하기 위해 많은 더 낮은 비트 깊이 코덱들을 사용한다. 비디오 신호들을 운반하기 위하여 기본층과 하나 또는 그 이상의 강화층들이 사용될 수 있으며, 기본층은 코딩될 수 없고, 자체적으로 보여질 수 없다. 기본층 프로세싱으로의 더 낮은 비트 깊이의 입력 이미지 데이터는 강화층 비디오 신호들에 의해 운반될 이미지 데이터의 양을 최소화시키기 위한 개선된 양자화롤 통해 더 높은 비트 깊이의 높은 동적 범위 입력 이미지 데이터로부터 생성될 수 있다. 강화층 비디오 신호들의 이미지 데이터는 개선된 양자화에서 사용된 특정 방법에 대응하는 예측 방법에 일부 기초하여 잔류값들, 양자화 파라미터들, 그리고 매핑 파라미터들을 포함할 수 있다. 적응형 동적 범위 적응 기술들은 개선된 코딩 성능을 위해 페이드-인과 페이드-아웃과 같은 특별한 전환 효과들을 고려한다.

Description

계층적 VDR 코딩에서의 층 분해{LAYER DECOMPOSITION IN HIERARCHICAL VDR CODING}

본 출원은 2011년 11월 4일 출원된 미국 임시 특허 출원 번호 61/555,978과 2012년 2월 8일 출원된 미국 임시 출원 번호 61/596,600에 우선권을 청구하며, 두 건은 모두 본 명세서에 그들의 전체가 참조로 포함된다.

본 발명은 일반적으로 이미지 프로세싱에 관한 것이며, 특히 계층적 VDR 코덱을 이용하여 가변 동적 범위(variable dynamic range) 이미지들을 인코딩하고, 디코딩하며, 표현하는 것에 관한 것이다.

돌비 레버러토리즈 사(Dolby Laboratories,Inc.) 등에 의해 발달되고 있는 디스플레이 기술들은 높은 동적 범위(high dynamic range;HDR)를 갖는 이미지들을 재생하는 것이 가능하다. 이러한 디스플레이들은 종래의 디스플레이들보다 더욱 충실하게 현실의 화면들을 표현하는 이미지들을 재생할 수 있다.

새로운 HDR 디스플레이 기술들 뿐만 아니라 이전 기종과의 호환성을 지원하기 위하여, 다중층 비디오 인코더와 같은 업스트림 디바이스로부터 다운스트림 디바이스들로 비디오 데이터를 운반하기 위해 많은 층들이 사용될 수 있다. 많은 층들 중 기본층(base layer;BL)에서 운반된 표준 동적 범위(standard dynamic range;SDR) 비디오 데이터는 SDR 디스플레이들 상에서의 시청(viewing) 경험을 위해 최적화되는 반면, 많은 층들 중 기본층과 강화층(enhancement layer;EL)의 조합에서 운반된 시각적 동적 범위(visual dynamic range;VDR) 비디오 데이터는 SDR 디스플레이들의 것보다 더 높은 동적 범위들을 갖는 VDR 디스플레이들의 시청 경험을 지원한다. 여기서 사용되는 것과 같이, 이미지 데이터와 같은 인코딩과 디코딩에 관한 코덱들은 SDR 디스플레이들을 위해 최적화된 VDR 코덱들로 표시된다.

BL 이미지 데이터는 이미지 데이터 입력으로부터의 더 높은 비트 깊이(예를 들면, 색상 구성성분 당 12 또는 그 이상의 비트)의 HDR 소스 이미지들로부터 얻어진 더 낮은 비트 깊이(예를 들면, 색상 구성성분 당 8비트)의 SDR 이미지들을 포함할 수 있다. BL 이미지 데이터에서 인코딩된 SDR 이미지들은 전형적으로 SDR 이미지들이 상대적으로 좁은 또는 표준의 동적 범위 내에서 가능한한 현실과 같이 보이도록 하는, 컬러리스트들에 의한 색상 보정들(color-corrections)을 포함한다. 예를 들어, 입력 HDR 이미지의 픽셀들의 일부 또는 전부와 관련된 색조(hue) 정보는 표준 동적 범위 내에서 실제처럼 보이는 이미지를 생성하기 위하여 SDR 이미지에서 변화되거나 보정될 수 있다. 이러한 색상 보정들은 다양한 색상 채널들에서 비대칭적인 클리핑(clipping)들을 야기하고, 특히 HDR 소스 이미지들 중 상대적으로 적게 노출되거나 또는 많이 노출된 영역들에서 수동의 색상 변경들을 도입한다. 색상 보정된 SDR 이미지는 SDR 디스플레이들이 HDR 소스 이미지의 어두운 부분들과 가장 밝은 부분들에서 이미지 디테일들을 보여줄 수 있게 한다.

클리핑은 색상 채널들의 범위 밖의 픽셀 값들을 변경/수정시키는 색상 교체의 한 형태로서, 이로써 결과적인 픽셀 값들이 타겟으로 표현된 범위 내에 있게 된다(이는 SDR 디스플레이들 중 특정 타입에 의해 지원된 범위 내, 또는 SDR 디스플레이들의 범위에 의해 지원되는 범위 내, 또는 VDR 디스플레이들의 범위에 의해 지원된 범위 내, 등에 있는 것일 수 있다.) 클리핑은 0, 하나 또는 그 이상의 색상 채널들에서 발생할 수 있다(예를 들면, HDR 이미지의 일정한 부분에서 RGB 색상 공간의 R, G, 및 B 픽셀값들이 톤-매핑된(tone-mapped) 이미지로 클리핑될 수 있다.). 클리핑의 양은 색상 채널들에 따라 변화하거나 변화하지 않을 수 있다(예를 들면, 녹색에 대해서는 많은 클리핑, 청색에 대해서는 적은 클리핑, 등.).

SDR 이미지들에 도입된 클리핑과 같은 색상 보정들은 SDR 이미지들이 그들의 카운터파트(countpart) VDR 이미지들과 상이하면서 그로부터 독립적으로 소스된 이미지 콘텐트들을 포함하도록 하는데, 이들은 복잡한 처리와 충분히 큰 비트레이트 없이 높은 동적 범위의 이미지들을 재구성하기 위하여 다운스트림 디바이스에 의해 제거하는 것이 어렵거나 심지어 불가능하다. 이미지 데이터를 다운스트림 디바이스로 송신하기 위해 많은 층들이 사용될 때, 색상 보정들을 역으로 하는 것(reversing)은 예를 들면, 강화층에서 대량의 부가적인 이미지 데이터가 다운스트림 디바이스로 송신되는 것을 필요로 할 수 있다.

본 세션에서 설명된 접근법들은 추구될 수 있는 접근법들이지만, 이전에 반드시 구상되었거나 추구되었던 접근법들일 필요는 없다. 따라서, 다르게 지시되지 않는 한, 본 세션에서 설명된 임의의 접근법들은 본 세션에 그들이 포함되었다는 것만으로 종래 기술과 같은 자격을 얻는 것으로 가정되지 않아야 한다. 유사하게, 하나 또는 그 이상의 접근법들에 대하여 인정된 주제들은 다르게 지시되지 않는 한, 본 세션에 기초하여 일정한 종래 기술에서 인식되었던 것으로 가정되지 않아야 한다.

본 발명은 첨부 도면들의 형태로 제한이 아닌 예시로써 설명되며, 도면들에서 동일한 참조 숫자들은 유사한 소자들을 나타낸다:
도 1은 예시적인 실시예에 따른, 베이스라인 프로파일의 시각적 동적 범위의 코덱 아키텍처를 도시한다;
도 2는 예시적인 실시예에 따른, 메인 프로파일의 시각적 동적 범위의 코덱 아키텍처를 도시한다;
도 3은 예시적인 실시예에 따른, YCbCr 색상 공간에 적용된 화면 적응형(scene-adaptive) 동적 범위 조절 양자화를 도시한다;
도 4a 및 도 4b는 본 발명의 예시적인 실시예에 따른, 예시적인 프로세스 흐름들을 도시한다;
도 5는 본 발명의 실시예에 따른, 여기서 설명된 것과 같은 컴퓨터 또는 컴퓨팅 디바이스가 수행될 수 있는 예시적인 하드웨어 플랫폼을 도시한다;
도 6은 본 발명의 실시예에 따른, 전환 시퀀스들을 검출하고 두개의 양자화 스킴들 중 선택하기 위한 예시적인 흐름을 도시한다.

여기서는 계층적 VDR 코덱을 이용하여 가변 동적 범위 이미지들을 인코딩하고, 디코딩하며, 표현하는 것에 대한 예시적인 실시예들이 설명된다. 다음 명세서에서, 설명을 위하여 다양한 특정의 상세한 설명들이 본 발명의 완전한 이해를 제공하기 위하여 제시될 것이다. 그러나, 본 발명은 이러한 특정의 상세한 설명들 없이도 실행될 수 있다는 것이 명백할 것이다. 다른 예들에서, 공지된 구조들 및 디바이스들은 본 발명을 불필요하게 가리거나, 애매하게 하거나, 또는 혼란스럽게 하는 것을 피하기 위하여 상세한 부분까지 완전하게 설명되지는 않는다.

여기서 예시적인 실시예들은 다음 개괄에 따라 설명된다:

1. 일반적 개요

2. 계층적 비디오 운반

2.1 베이스라인 프로파일

2.2 메인 프로파일

3. 개선된 양자화

4. 선형 스트레칭

5. 예시적인 프로세스 흐름들

6. 적응형 동적 범위 조절

7. 수행 매카니즘들-하드웨어 개요

8. 동등물들, 확장들, 대안들 및 기타

1. 일반적 개요

본 개요는 본 발명의 예시적인 실시예의 일부 양상들의 기본적인 설명을 제공한다. 본 개요는 예시적인 실시예의 양상들의 광범위한 또는 완전한 요약은 아님이 주의되어야 한다. 또한, 본 개요는 예시적인 실시예의 임의의 특별하게 중요한 양상들 또는 소자들을 식별하거나, 예시적인 실시예의 임의의 범주를 특별하게 기술하거나, 본 발명을 일반적으로 기술하는 것으로 이해되도록 의도되는 것은 아님에 주의되어야 한다. 본 개요는 간결하고 단순화된 포맷으로 예시적인 실시예에 관한 일부 개념들을 제공할 뿐이며, 이하로 이어지는 예시적인 실시예들의 보다 상세한 설명에 대한 개념적인 서론으로만 이해되어야 한다.

일부 실시예들에서, 압축된 VDR 이미지들(예를 들면, 비디오 이미지들)을 VDR 이미지 프로세싱 디바이스들(예를 들면, VDR 디스플레이들)로 제공하기 위해 계층적 VDR 코덱들이 사용될 수 있다. 여기서 사용된 것과 같은, "계층적 VDR 코덱(hierarchical VDR codec)"이라는 용어는 기본층이 SDR 디스플레이들 상에서 단독으로 보여지지 않는 VDR 코덱을 말한다. 여기서 사용된 것과 같은, "VDR" 또는 "시각적 동적 범위(visual dynamic range)"는 표준 동적 범위보다 넓은 동적 범위를 말하며, 순간적으로 인식할 수 있는 동적 범위까지 넓어진 동적 범위와 사람의 시력이 순간적으로 인지할 수 있는 색상 영역을 포함할 수 있으나 이에 제한되지는 않는다.

더 높은 비트 깊이(higher bit depth)(예를 들면, 12+ 비트) VDR 이미지들을 지원하는, 여기서 설명된 것과 같은 계층적 VDR 코덱은 많은 층들에서 둘 또는 그 이상의 더 낮은 비트 깊이(lower bit depth)(예를 들면, 8비트) 코덱들로 수행될 수 있다. 많은 층들이 기본층과 하나 또는 그 이상의 강화층들을 포함할 수 있다.

다른 기술들과 뚜렷하게 대조적으로, 여기서 설명된 것과 같은 기술들 하의 기본층 이미지 데이터는 사람의 인지를 표준 동적 범위와 매치하여 SDR 디스플레이들 상의 최적화된 시청을 지원하기 위한 것, 또는 SDR 이미지들을 가능한한 좋게 보이게 하는 것이 아니다. 대신, 여기서 설명된 것과 같은 기술들 하의 기본층 이미지 데이터는 VDR 디스플레이들 상의 최적화된 시청을 지원하는 것이다. 예시적인 실시예에서, 여기서 설명된 것과 같은 기술들 하의 기본층 이미지 데이터는 VDR 이미지 데이터의 더 낮은 비트의 깊이 버전의 특정 구조를 포함하며, 기본층과 원래의 VDR 이미지 사이의 남아있는 차이는 강화층으로 운반된다.

또한, 다른 기술들 하에서, 동일한 소스 이미지들에 대한 VDR 이미지 데이터와 SDR 이미지 데이터는 상이한 이미지 콘텐트들을 포함한다. 예를 들어, 인코더로의 입력 SDR 이미지 데이터는 공지되지 않거나 또는 인코더로의 입력 VDR 이미지 데이터로부터 결정할 수 있는 애드 혹(ad hoc) 독립 변경들을 포함한다. 종종, 컬러리스트에 의한 색상 보정들 또는 색상 그레이딩(grading)의 결과들은, 예를 들면, 컬러리스트에 의해 SDR 이미지 데이터가 이미 변경된 후의 VDR 이미지와 SDR 이미지 데이터를 비교하는 것에 의해 법의학적으로(forensically) 분석되어야 한다.

뚜렷하게 대조적으로, 여기서 설명된 것과 같은 기술들 하에서, VDR 이미지 데이터는 계층적 분해, 예를 들면, 개선된 양자화 후의 층화 코딩(layered coding)을 통해 기본층(BL) 이미지 데이터를 얻도록 사용될 수 있다. 개선된 양자화에 적용된 특정 방법들이 공지되어 있으며 계층적 VDR 인코더에 의해 의도적으로 선택되기도 한다. 개선된 양자화를 수행하기 위한 특별한 개선된 양자화기의 선택/결정은 예를 들면, 재구성된 VDR 이미지들의 이미지 품질이 어떻게 VDR 디코더 측 상에 있을 수 있는지에 기초될 수 있다. 이러한 이유로, 여기서 설명되는 것과 같은 기술들 하의 개선된 양자화는 여기서 설명된 것과 같은 계층적 VDR 코덱에 의해 제어되고 수행되는 (예를 들면, 기본층 프로세싱으로의 입력 비압축 기본층 데이터가 생성되기 전에) 선험적으로 알려진 하나 또는 그 이상의 동작들이다. 따라서, 다른 기술들 하에서 독립적으로 변경되거나 또는 생성되는 VDR 이미지 데이터와 SDR 이미지 데이터 사이의 차이들을 결정하기 위한 복잡한 분석은 여기서 설명되는 것과 같은 기술들 하에서는 회피되거나 쓰이지 않을 수 있다.

여기서 설명되는 것과 같은 코덱들을 수행하는 기술들은 기본층(BL) 이미지 데이터와 원래의 입력 VDR 이미지 데이터 사이의 통계적인 리던던시(redundancy)를 전체적으로 이용하기 위한 층간 예측 역량들을 포함하도록 구성될 수 있다. EL 이미지 데이터는 상이한 층들의 이미지 데이터의 통계적인 리던던시를 이용하지 않고 대량의 VDR 이미지 데이터를 운반하는 대신, (가능하게는 오직) 잔류(또는 차분) 이미지 데이터를 운반한다.

일부 실시예들에서, 강화층들에서 운반될 VDR 이미지 데이터의 양을 더욱 최소화하기 위하여 예측이 사용될 수 있다. 개선된 계층적 VDR 인코더의 특정 응용으로서, 개선된 양자화와 예측 사이에 계층적 VDR 인코더에 의해 대응하는 관계가 수립될 수 있다. 기본층 프로세싱으로의 입력 비압축 기본층 데이터를 도출하는데 사용된 개선된 양자화의 특정 응용에 기초하여, 계층적 VDR 인코더는 복수의 사용가능한 예측 방법들 중에서 특정의 대응하는 예측 방법을 선택할 수 있다. 예에서, 선형 양자화가 개선된 양자화에서 사용되면, 1차 다항식 기반 예측 방법이 예측을 위해 사용될 수 있다. 다른 예에서, 양자화 곡선(예를 들면, 사인 곡선, 뮤-법칙(mu-law), 사람 인지 기반 곡선, 등)이 개선된 양자화에서 사용되면, 양자화 곡선에 대응하는 더 높은 차수(2차 또는 그 이상)의 다항식 기반 예측 방법이 예측을 위해 사용될 수 있다. 다른 예에서, 교차-색상(벡터) 채널 양자화(예를 들면, 최초의 색상 그레이딩 동작에서 사용된 기울기/오프셋/전력/색조/포화도)가 개선된 양자화에서 사용되면, 대응하는 교차-색상 채널 예측이 예측을 위해 사용될 수 있다. 또 다른 예에서, 구간적(piecewise) 양자화가 개선된 양자화에서 사용되면, 구간적 양자화에 대응하는 예측 방법이 예측을 위해 사용될 수 있다. 계층적 VDR 인코더가 예를 들면, 선형 양자화, 곡선형 양자화, 교차-색상 채널 양자화, 구분적 양자화, 룩업 테이블(LUT) 기반 양자화, 상이한 타입들의 양자화들의 특정 조합, 등 중에서 어떤 특정 타입이 개선된 양자화에서 사용되는지 아닌지를 (예를 들면, 개선된 양자화의 결과를 분석하지 않고도) 미리 알기 때문에, 대응하는 예측 방법은 계층적 VDR 인코더에 의해 미리 구성되거나 또는 동적으로 선택될 수 있다.

뚜렷하게 대조적으로, 다른 기술들 하에서, 컬러리스트에 의해 만들어진 것과 같은 기본층의 입력 SDR 이미지 데이터로의 색상 보정들이 독립적으로 수행되므로, 기본층의 입력 SDR 이미지 데이터와 입력 VDR 이미지 데이터 모두의 이미지 콘텐트들을 독립적으로 다르게 하는데에 어떠한 방법이 값비싼 비교와 분석 프로세싱 없이 예측을 위해 적용되어야 하는지를 결정하는 것은 어렵다.

따라서, 일부 실시예들에서, VDR과 독립적으로 변경된 입력 기본층 콘텐트들의 차이들을 결정하기 위한 복잡하고 값비싼 분석(예를 들면, 예측 동작들의)이 여기서 설명되는 것과 같은 기술들 하에서 쓰이지 않거나 회피될 수 있다. 계층적 VDR 코덱은 개선된 양자화와, 개선된 양자화를 예측으로 보정하기 위한 프로세싱 논리를 수행할 수 있다.

일부 실시예들에서, SDR 디스플레이들에서의 시청을 위해 최적화된 기본층 이미지 데이터를 제공하도록 계층적 VDR 코덱이 설계되지 않는다고 하더라도, 계층적 VDR 코덱은 기본층 최적화를 갖는 VDR 코덱의 구성성분들을 광범위하게 재사용한다. 실시예에서, 계층적 VDR 인코더는 입력 VDR 이미지 데이터로부터 기본층 프로세싱으로 개선된 양자화를 통해 입력 기본층 이미지를 생성하기 위하여 SDR 디스플레이들에 대해 최적화된 VDR 코덱 기반시설로 하나 또는 그 이상의 모듈들을 부가할 수 있거나, 또는 그의 하나 또는 그 이상의 모듈들을 수정할 수 있다. 따라서, 계층적 VDR 인코더는 VDR에 대한 이미지 콘텐트의 하나의 입력 및 SDR을 위한 상이한 이미지 콘텐트의 다른 입력보다는 입력 VDR 이미지 데이터로부터의 이미지 콘텐트의 단일 입력만을 필요로 할 수 있다. 예를 들어, 계층적 VDR 인코더의 변환 모듈은 입력 16 비트 RGB VDR 데이터를 기본층 프로세싱으로의 입력 기본층 이미지 데이터인 8 비트 YCbCr로 변환하기 위한 개선된 양자화를 수행할 수 있다.

예시적인 실시예에서, 예를 들면, 산업 표준, 등록 규정, 산업 표준으로부터의 확장, 또는 상기의 조합에서 정의된 것과 같은, VDR 기준 프로세싱 신텍스, 규정, 및 코딩 아키텍처를 광범위하게 지원하기 위해 계층적 VDR 코덱이 구성될 수 있다. 예시적인 실시예에서, 계층적 VDR 코덱(인코더 및/또는 디코더)의 입력들 및 출력들의 하나 또는 그 이상이 SDR 디스플레이들에 대해 최적화된 VDR 코덱에 대한 VDR 규정 또는 프로파일들에 의해 규정된 것과 동일하거나 또는 실질적으로 유사하다. 계층적 VDR 코덱은 두개의 (비싸지 않은) 8비트 디코더들을 통해 12+ 비트 VDR 이미지들을 처리하고 랜더링하는 운반체일 수 있으며, VDR 이미지들에 대해 인지적으로 유사한 이미지 품질을 제공하기 위해 비싼 12+ 비트 디코더를 사용해야 할 필요를 제거한다. 여기서 사용되는 것과 같은, "N+ 비트 이미지(N+ bit image)"라는 용어는 색상 구성성분 당 N 비트 또는 그 이상을 이용하여 표현되고 적어도 하나의 색상 구성성분을 갖는 이미지들을 말한다. 일부 실시예들에서, 코덱의 하나보다 많은 더 낮은 비트의 깊이 디코더 및/또는 하나보다 많은 더 낮은 비트 깊이의 인코더가 적어도 일부 동작들에 대하여 병렬적으로 작업하여 디바이스의 VDR 이미지 데이터의 인코딩과 디코딩을 함께 수행할 수 있다.

여기서 설명된 실시예들의 실질적인 이득들은 마지막 VDR 품질에 대해서만 관심을 가지며 기본층 이미지 데이터로부터 구성되는 SDR 버전은 관심이 없는 최종 소비자들에게 고품질 VDR 이미지 데이터를 제공하는 것을 포함하지만 이로만 제한되지는 않는다.

일부 실시예들에서, (VDR 인코더 또는 VDR 디코더일 수 있는) 조합된 코덱이 많은 모드들에서 동작하도록 사용될 수 있다. 조합된 코덱에 대한 동작적 모드들 중 하나가 조합된 코덱을 계층적 VDR 코덱으로서 동작하도록 할 수 있으며, 조합된 코덱에 대한 동작적 모드들 중 다른 하나는 또한 SDR 디스플레이들 상에서 시청되기에 적절한 기본층을 인코딩하는 것을 허용할 수 있다. 결과적으로, 일부 예시적인 실시예들에서, VDR 규정들 중 하나를 따르는 코딩된 비트스트림들은 조합된 VDR 디코더에 의해 적절하게 디코딩될 수 있다. 결과적으로, 일부 예시적인 실시예들에서, VDR 규정들 중 하나를 따르는 코딩된 비트스트림들은 조합된 VDR 인코더에 의해 적절하게 생성될 수 있다.

일부 예시적인 실시예들에서, 다른 응용들을 위해 필요한 데이터가 또한 업스트림 디바이스로부터 다운스트림 디바이스로 배달될 기본층과 강화층 이미지 데이터에 포함될 수 있다. 일부 예시적인 실시예들에서, 부가적인 특성들 및/또는 직교 특성들이 여기서 설명되는 것과 같은 기본 및 강화층들에 의해 지원될 수 있다.

일부 예시적인 실시예들에서, 여기서 설명된 것과 같은 매카니즘들은 다음 중 임의의 것을 포함하지만 이에 제한되지는 않는 매체 프로세싱 시스템의 일부를 형성한다: 핸드헬드(handheld) 디바이스, 게임 머신, 텔레비전, 랩탑 컴퓨터, 넷북 컴퓨터, 태블릿 컴퓨터, 휴대용 무선전화, 전자책 리더, 판매 단말의 지점, 데스크탑 컴퓨터, 컴퓨터 워크스테이션, 컴퓨터 키오스크, 또는 다양한 다른 종류들의 단말들 및 매체 프로세싱 유닛들.

여기서 설명된 바람직한 실시예들에 대한 다양한 수정들과 일반적인 원리들 및 특성들은 당업자에게 쉽게 이해될 것이다. 따라서, 명세서는 도시된 실시예들로 제한되는 것으로 의도되지 않으며, 여기서 설명된 원리들 및 특성들과 함께 가장 넓은 범주로 부합되는 것으로 의도된다.

2. 계층적 비디오 운반

일부 실시예들에서, 예를 들면, 하나 또는 그 이상의 비디오 신호들의 이미지 데이터(또는 코딩된 비트스트림들)을 다운스트림 디바이스(예를 들면, 도 1의 VDR 이미지 디코더(150))로 운반하기 위해 업스트림 디바이스(예를 들면, 도 1의 VDR 이미지 인코더(102) 또는 도 2의 VDR 이미지 인코더(202))에 의해 기본층과 하나 또는 그 이상의 강화층들이 사용될 수 있다. 이미지 데이터는 더 높은 비트 깊이(예를 들면, 12+ 비트) VDR 이미지로부터 양자화되고 기본층 이미지 컨테이너(YCbCr 4:2:0 이미지 컨테이너)에서 운반된 더 낮은 비트 깊이의 기본층 이미지 데이터와, VDR 이미지와 기본층 이미지 데이터로부터 생성된 예측 프레임 사이의 잔류값들을 포함하는 강화층 이미지 데이터를 포함할 수 있다. 기본층 이미지 데이터와 강화층 이미지 데이터는 VDR 이미지의 더 높은 비트 깊이(12+ 비트) 버전을 재구성하기 위해 다운스트림 디바이스에 의해 수신되고 사용될 수 있다.

일부 실시예들에서, 기본층 이미지 데이터는 SDR 디스플레이들 상의 시청을 위해 최적화된 SDR 이미지를 생성하기 위한 것이 아니라; 대신, 강화층 이미지 데이터와 함께 기본층 이미지 데이터는 VDR 디스플레이들 상의 시청을 위한 고품질 VDR 이미지들을 재구성하기 위해 최적화된다.

2.1 베이스라인 프로파일

도 1은 예시적인 실시예에 따른, 베이스라인 프로파일의 VDR 코덱 아키텍처를 도시한다. 여기서 사용된 것과 같은 베이스라인 프로파일이라는 용어는 VDR 코딩 시스템에서 가장 간단한 인코더 프로파일을 나타낸다. 실시예에서, 베이스라인 프로파일은 YCbCr 4:2:0 색상 공간의 기본 및 강화 코딩층들의 모든 비디오 프로세싱을 제한한다. 예시적인 실시예에서, 4:2:0 샘플링 스킴 하에서 YCbCr 공간으로 예측이 생성될 수 있는데; 예를 들면, 다항식/1D LUT 예측 방법이 예측을 위해 사용될 수 있다. 일부 실시예들에서, 다운스트림 디바이스들로 VDR 이미지 데이터를 운반하는 업스트림 디바이스는 여기서 설명된 것과 같은 하나 또는 그 이상의 기술들을 수행하는 VDR 이미지 인코더(102)를 포함할 수 있으며, VDR 이미지 인코더(102)로부터 비디오 신호들을 수신하고 처리하는 다운스트림 디바이스는 여기서 설명된 것과 같은 하나 또는 그 이상의 기술들을 수행하는 VDR 이미지 디코더(150)를 포함할 수 있다. VDR 이미지 인코더(102)와 VDR 이미지 디코더(150)의 각각은 하나 또는 그 이상의 컴퓨팅 디바이스들에 의해 수행될 수 있다.

예시적인 실시예에서, 입력 VDR 이미지(106)를 수신하도록 VDR 이미지 인코더(102)가 구성된다. 여기서 사용된 것과 같은 "입력 VDR 이미지(input VDR image)"는 입력 VDR 이미지가 생기게 하는 소스 이미지(예를 들면, 최신 이미지 획득 디바이스에 의해 포착된 가공되지 않은 이미지, 등)의 VDR 버전을 얻기 위해 사용될 수 있는 넓은 또는 높은 동적 범위 이미지 데이터를 나타낸다. 입력 VDR 이미지는 높은 동적 범위의 색상 영역을 지원하는 임의의 색상 공간에 있을 수 있다. 일부 실시예들에서, 입력 VDR 이미지(106)는 소스 이미지와 관련한, 인코딩을 위해 VDR 이미지 인코더(102)에 대한 이미지 데이터를 제공하는 입력일 뿐이며; 소스 이미지와 관련한, 여기서 설명된 것과 같은 기술들 하의 기본층 프로세싱을 위한 입력 이미지 데이터는 개선된 양자화를 이용하여 입력 VDR 이미지(106)에 기초하여 생성될 수 있다.

예시적인 실시예에서, 입력 VDR 이미지는 도 1에 도시된 것과 같이, RGB 색상 공간의 12+ 비트 RGB 이미지이다. 예에서, 입력 VDR 이미지에 표현된 각 픽셀은 색상 공간(예를 들면, RGB 색상 공간)에 대해 정의된 모든 채널들(예를 들면, 적색, 녹색 및 청색 색상 채널들)에 대한 픽섹값들을 포함한다. 각 픽셀은 선택적으로 및/또는 대안적으로 색상 공간의 채널들의 하나 또는 그 이상에 대한 업샘플링된 또는 다운샘플링된 픽셀값들을 포함할 수 있다. 일부 실시예들에서, 예를 들면, 넓은 색상 영역을 지원하기 위하여, 적색, 녹색 및 청색과 같은 삼원색상들에 부가적으로, 다른 원색상들이 여기서 설명된 것과 같은 색상 공간에서 함께 사용될 수 있으며; 이러한 실시예들에서, 여기서 설명된 것과 같은 이미지 데이터는 이러한 다른 원색상들에 대한 부가적인 픽셀값들을 포함하고, 여기서 설명된 것과 같은 기술들에 의해 함께 처리될 수 있다는 것이 주의되어야 한다.

예시적인 실시예에서, 제 1 색상 공간(예를 들면, RGB 색상 공간)으로부터 제 2 색상 공간(예를 들면, YCbCr 색상 공간)으로 입력 VDR 이미지의 픽셀 값들을 변환시키기 위하여 VDR 이미지 인코더(102)가 구성된다. 색상 공간 변환은 예를 들면, VDR 이미지 인코더(102)의 RGB-2-YCbCr 유닛(108)에 의해 실행될 수 있다.

예시적인 실시예에서, YCbCr 색상 공간의 VDR 이미지(예를 들면, 4:4:4 샘플링 포맷의)를 12+ 비트의 다운샘플링된 VDR 이미지(112)(예를 들면, 4:2:0의 샘플링 포맷의)로 다운샘플링하도록 VDR 이미지 인코더(102), 또는 그 안의 다운샘플러(예를 들면, 444-420 다운샘플러(110))가 구성된다. 압축의 효과들을 고려하지 않으면, 12비트+의 다운샘플링된 VDR 이미지(112)의 채도(chroma) 채널의 이미지 데이터의 총량은 12비트+의 다운샘플링된 VDR 이미지(112)의 휘도(luminance) 채널의 이미지 데이터의 총량의 크기의 1/4이 된다.

예시적인 실시예에서, YCbCr 색상 공간에 8비트 BL 이미지(114)를 생성하기 위해, VDR 이미지(4:4:4의 샘플링 포맷의)로부터 다운샘플링된 것과 같은 YCbCr 이미지 데이터 상에 개선된 양자화를 실행하도록(본 예에서는 4:2:0의 샘플링 포맷의) VDR 이미지 인코더(102)가 구성된다. 도 1에 도시된 것과 같이, 12+ 비트 VDR 이미지(112)와 8비트 BL 이미지(114)는 모두 동일한 채도 다운샘플링 후 생성되며, 따라서 동일한 이미지 콘텐트를 포함한다(예를 들면 8비트 BL 이미지(114)는 12+ 비트 VDR 이미지(112)보다 더욱 조악하게 양자화된다).

예시적인 실시예에서, YCbCr 색상 공간의 8비트 BL 이미지(214)를 4:2:0 샘플링 포맷의 기본층 이미지 컨테이너의 이미지 데이터로 인코딩/포맷하도록 VDR 이미지 인코더(102), 또는 그 안의 제 1 인코더(116-1)가 구성된다. 일부 실시예들에서, 기본층 이미지 컨테이너의 이미지 데이터는 SDR 디스플레이들 상의 시청을 위해 최적화된 SDR 이미지들을 생성하기 위한 것이 아니며; 그보다는, 기본층 이미지 컨테이너의 이미지 데이터는 VDR 디스플레이들을 위해 최적화된 VDR 이미지로 재구성될, 많은 층에서 운반될 VDR 이미지 데이터를 위한 전체적인 비트 요구량을 최소화하기 위하여 더 낮은 비트 깊이의 이미지 컨테이너의 기본층 이미지 데이터의 최적의 양을 포함하도록 최적화된다. 여기서 사용되는 것과 같은, "더 낮은 비트 깊이"라는 용어는 더 낮은 비트 깊이를 갖는 코딩 공간에서 양자화된 이미지 데이터를 나타내며; 더 낮은 비트 깊이의 예는 8 비트를 포함하고, "더 높은 비트 깊이"라는 용어는 더 높은 비트 깊이를 갖는 코딩 공간에서 양자화된 이미지 데이터를 나타내며; 더 높은 깊이의 예는 12비트 또는 그 이상이다. 특히, "더 낮은 비트 깊이" 또는 "더 높은 비트 깊이"라는 용어는 픽셀값의 최하위 비트 또는 최상위 비트를 나타내는 것은 아니다.

예시적인 실시예에서, VDR 이미지 인코더(102)는 기본층 이미지 컨테이너의 이미지 데이터에 기초하여 기본층 비디오 신호를 생성하며, 이는 다운스트림 디바이스의 비디오 디코더(예를 들면, VDR 이미지 디코더(150), 또는 그 안의 제 1 디코더(152-1))로 출력될 수 있다.

예시적인 실시예에서, VDR 이미지 인코더(102)의 디코더(120)는 기본층 이미지 컨테이너의 이미지 데이터를 본 예에서는 4:2:0 샘플링 포맷으로 디코딩된 기본층 이미지로 디코딩한다. 디코딩된 기본층 이미지는 제 1 인코더(116-1)와 디코더(120)에 의해 실행된 인코딩 및 디코딩 동작들에서 도입된 코딩 변화들, 라운딩 에러들(rounding errors) 및 근사치들을 포함하기 때문에, 디코딩된 기본층 이미지는 8 비트 BL 이미지(114)와는 상이하다.

기본층 비디오 신호에 무엇이 포함되는지에 부가적으로, VDR 이미지 재구성 데이터가 VDR 이미지 인코더에 의해 기본층과 떨어진 하나 또는 그 이상의 강화층들의 다운스트림 디바이스로 운반될 수 있다. 일부 실시예들에서, YCbCr 색상 공간의 더 높은 비트 깊이의 VDR 이미지(112)는 동일한 이미지 프레임의 이웃하는 샘플들로부터(내부 예측을 이용하여) 예측될 수 있으며, 또는 동일한 층에 속하고 예측 이미지 프레임 버퍼 내의 움직임 보상된 예측 기준들로서 버퍼링되는 앞서 디코딩된 이미지 프레임들로부터의 샘플들로부터(상호(inter) 예측) 예측될 수 있다. 층간(inter-layer) 예측은 또한 다른 층들(예를 들면, 기본층)로부터 디코딩된 정보에 적어도 일부 기초될 수 있다.

예시적인 실시예에서, VDR 이미지 인코더(102)는 예측과 관련된 하나 또는 그 이상의 동작들을 실행하는 예측 프로세싱 유닛(122)을 포함한다. 예측 프로세싱 유닛(예를 들면, 122)에 의해 수행되는 예측은 VDR 비디오 디코더(예를 들면, 도 1의 150)에 의한 VDR 이미지의 재구성시 오버헤드를 감소시킬 수 있다. 예시적인 실시예에서, 12+ 비트 VDR 이미지(112)와 디코딩된 기본층 이미지에 적어도 일부 기초하여, 내부 또는 상호 예측(또는 추정, 또는 다른 방법들)을 통하여, 예측을 위한 매핑 파라미터들(134)의 세트를 결정하도록 VDR 이미지 인코더(102)가 구성된다. 예측 프로세싱 유닛(122)은 매핑 파라미터들(134)의 세트와 디코딩된 기본층 이미지에 기초하여 YCbCr 색상 공간에 12+ 비트 예측 이미지를 생성할 수 있다. 여기서 사용되는 것과 같은 매핑 파라미터들의 예들은 예측을 위해 사용된 다항식 파라미터들을 포함할 수 있지만 이것으로만 제한되지는 않는다.

예시적인 실시예에서, 12+ 비트 VDR 이미지(112)와 예측 프로세싱 유닛(122)에 의해 생성된 예측 이미지 사이의 잔류값들(130)을 생성하도록 VDR 이미지 인코더(102)가 구성된다. 색상 채널(예를 들면, 휘도 채널)의 잔류값들은 선형 또는 대수 영역의 빼기 연산들(예를 들면, 126)에 의해 생성된 차이들일 수 있다. 대안적으로 및/또는 선택적으로, 색상 채널(예를 들면, 휘도 채널)의 잔류값들은 선형 또는 대수 영역의 나누기 연산들에 의해 생성된 비율들일 수 있다. 다양한 예시적인 실시예들에서, 하나 또는 그 이상의 다른 수학적 표현들과 대응하는 연산들이 12+ 비트 VDR 이미지(112)와 예측 이미지 사이의 잔류값들(130)을 생성하기 위하여 사용될 수 있다.

실시예에서, 개선된 양자화(또는 의사(pseudo) 색상 그레이딩 프로세스)에 의해 도입된 차이들과 달리, 12+ 비트 VDR 이미지(112)와 8비트 BL 이미지(114)는 동일한 이미지 콘텐트를 포함한다. 실시예에서, 개선된 양자화(또는 의사 색상 그레이딩 프로세스)에 의해 도입된 양자화 노이즈들 또는 차이들과 달리, 12+ 비트 VDR 이미지(112)는 8비트 BL 이미지(114)와 동일한 채도 정보를 포함한다. 실시예에서, 12+ 비트 이미지(112)의 중간톤과 어두운 영역들은 개선된 양자화 하의 기본층에서 인코딩될 수 있고, 12+ 비트 이미지(112)의 밝은 영역들은 동일한 개선된 양자화 하의 강화층들에서 인코딩될 수 있다.

부가적으로 및/또는 선택적으로, 8비트 BL 이미지(114)로부터 예측 이미지로의 프로세싱 경로에서 제 1 인코딩 유닛(116-1), 디코딩 유닛(120), 또는 예측 프로세싱 유닛(122)에 의해 기본층 프로세싱으로만 유입되는 색상 보정/변경들/왜곡(예를 들면, 클리핑(clipping))은 없다. 예시적인 실시예에서, 프로세싱 경로에 본래 존재할 수 있는 가능한 왜곡들(예를 들면, 기본층 코덱에 의해 유발된 기본층 왜곡들)을 제외하고, 예측 이미지는 8비트 BL 이미지(114)와 동일한 채도 정보를 포함한다.

예시적인 실시예에서, 하나 또는 그 이상의 NLQ 파라미터들을 이용하여 12+ 비트 디지털 표현의 잔류값들(130)을 8비트 디지털 표현(또는 YCbCr 색상 공간의 8비트 잔류값들)으로 양자화하도록 VDR 이미지 인코더(102)의 비선형 양자화기(non-linear quantizer;NLQ)(128)가 구성된다.

예시적인 실시예에서, 강화층 이미지 컨테이너의 8비트 잔류값들을 예를 들면, 4:2:0의 샘플링 포맷으로 인코딩하도록 VDR 이미지 인코더(102) 또는 그 안의 제 2 인코더(116-2)가 구성된다. 강화층 이미지 컨테이너는 기본층의 기본층 이미지 컨테이너와 논리적으로 떨어져 있다.

예시적인 실시예에서, VDR 이미지 인코더(102)는 강화층 이미지 컨테이너의 8비트 잔류값들에 기초하여 강화층 비디오 신호를 생성하며, 이는 비디오 디코더(예를 들면, VDR 이미지 디코더(150), 또는 그 안의 제 2 디코더(152-2))로 출력될 수 있다.

예시적인 실시예에서, 매핑 파라미터들(134)의 세트와 NLQ 파라미터들(132)은 보충 강화 정보(supplemental enhancement information;SEI)의 일부 또는 비디오 비트스트림들에서(예를 들면, 강화층들에서) 사용가능한 다른 유사한 메타데이터 운반체들로서 다운스트림 디바이스(예를 들면, VDR 이미지 디코더(150))로 전송될 수 있다.

제 1 인코더(116-1), 제 2 인코더(116-2), 및 디코더(120)(및 152-1, 152-2)의 하나 또는 그 이상이 H.264/AVC/HEVC, MPEG-2, VP8, VC-1, 및/또는 기타와 같은 복수의 코덱들 중 하나 또는 그 이상을 이용하여 수행될 수 있다.

예시적인 실시예에서, 기본층과 하나 또는 그 이상의 강화층들을 포함하는 많은 층들(또는 많은 비트스트림들)에서 입력 비디오 신호들을 수신하도록 VDR 이미지 디코더(150)가 구성된다. 여기서 사용되는 것과 같은, "다중층(multi-layer)" 또는 "많은 층들(multiple layers)"이라는 용어는 (비디오 신호들의) 서로 사이에 하나 또는 그 이상의 논리적 의존성 관계들을 갖는 비디오 또는 이미지 신호들을 운반하는 둘 또는 그 이상의 비트스트림들을 말한다.

예시적인 실시예에서, 기본층 비디오 신호에 기초하여, 디코딩된 기본층 이미지를 생성하기 위해 VDR 이미지 디코더(150)의 제 1 디코더(152-1)가 구성된다. 일부 실시예들에서, VDR 이미지 디코더(150)의 제 1 디코더(152-1)는 VDR 이미지 디코더(102)의 디코더(120)와 동일하거나, 또는 실질적으로 유사할 수 있다. 유사하게, 디코딩된 기본층 이미지들이 동일한 VDR 이미지(예를 들면, 106)로부터 소스된 것이라면, VDR 이미지 디코더(150)의 디코딩된 기본층 이미지와 디코딩된 기본층 이미지는 동일하거나, 또는 실질적으로 유사할 수 있다.

예시적인 실시예에서, VDR 비디오 디코더(150)는 예측과 관련한 하나 또는 그 이상의 동작들을 실행하는 예측 프로세싱 유닛(158)을 포함한다. 예측 프로세싱 유닛에 의해 수행된 예측은 VDR 비디오 디코더(예를 들면, 도 1의 150)의 VDR 이미지들을 효율적으로 재구성하도록 사용될 수 있다. 매핑 파라미터들(134)의 세트를 수신하고, 매핑 파라미터들(134)의 세트와 디코딩된 기본층 이미지에 적어도 일부 기초하여 12+ 비트 예측 이미지를 생성하도록 예측 프로세싱 유닛(158)이 구성된다.

예시적인 실시예에서, 하나 또는 그 이상의 강화 비디오 신호들에 기초하여, 강화층 이미지 컨테이너의 8비트 잔류값들을 검색하도록 VDR 이미지 디코더(150)의 제 2 디코더(152-2)가 구성된다.

예시적인 실시예에서, 강화층들을 통해 하나 또는 그 이상의 NLQ 파라미터들을 수신하고 하나 또는 그 이상의 NLQ 파라미터들을 이용하여 8비트 잔류값들을 12+ 비트 디지털 표현으로(또는 YCbCr 색상 공간의 12+ 비트 잔류값들로) 역양자화(dequantize)하기 위하여 VDR 이미지 디코더(150)의 비선형 역양자화기(NLdQ;154)가 구성된다.

예시적인 실시예에서, 12+ 비트 잔류값들(130)과 예측 프로세싱 유닛(158)에 의해 생성된 12+ 비트 예측 이미지에 기초하여 재구성된 VDR 이미지(160)를 생성하도록 VDR 이미지 디코더(150)가 구성된다. 색상 채널(예를 들면, 휘도 채널)의 재구성된 픽셀값들은 선형 또는 대수 영역의 더하기 연산들(예를 들면, 162)에 의해 생성된 합들일 수 있다. 대안적으로 및/또는 선택적으로, 색상 채널(예를 들면, 휘도 채널)의 재구성된 값들은 선형 또는 대수 영역의 곱하기 연산들에 의해 생성된 값들일 수 있다. 다양한 예시적인 실시예들에서, 하나 또는 그 이상의 다른 수학적 표현들과 대응하는 연산들이 잔류값들과 예측 이미지로부터 재구성된 픽셀값들(160)을 생성하기 위하여 사용될 수 있다.

2.2 메인 프로파일

도 2는 예시적인 실시예에 따른, 메인 프로파일의 VDR 코덱 아키텍처를 도시한다. 여기서 사용된 것과 같은 메인 프로파일이라는 용어는 VDR 코딩 시스템의 베이스라인 프로파일보다 큰 복잡성을 허용하는 프로파일을 말한다. 예를 들어, 메인 프로파일은 YCbCr 또는 RGB 색상 공간들 모두에서 동작들을 허용할 수 있으며, 이는 또한 4:2:0, 4:2:2, 4:4:4를 포함하는 다양한 서브샘플링 포맷들에서 동작들을 허용할 수 있다. 예시적인 실시예에서, 4:4:4 샘플링 스킴 하의 RGB 색상 공간에서 예측들이 생성될 수 있고; 예를 들면, 다항식/1D LUT 예측 방법이 예측을 위해 사용될 수 있다. 일부 실시예들에서, VDR 이미지 데이터를 다운스트림 디바이스들로 운반하는 업스트림 디바이스는 도 2에 도시된 것과 같은 VDR 이미지 인코더(202)를 포함할 수 있으며, VDR 이미지 데이터를 수신하고 처리하는 다운스트림 디바이스는 VDR 이미지 디코더(250)를 포함할 수 있다. VDR 이미지 인코더(202)와 VDR 이미지 디코더(250)의 각각은 하나 또는 그 이상의 컴퓨팅 디바이스들에 의해 수행될 수 있다.

예시적인 실시예에서, 입력 VDR 이미지(206)를 수신하도록 VDR 이미지 인코더(202)가 구성된다. 입력 VDR 이미지(206)는 높은 동적 범위의 색상 영역을 지원하는 임의의 색상 공간에 있을 수 있다.

예시적인 실시예에서, 입력 VDR 이미지는 도 2에 도시된 것과 같이, RGB 색상 공간의 12+ 비트 RGB 이미지이다. 예에서, 입력 VDR 이미지의 각 픽셀은 RGB 색상 공간에서 정의된 적색, 녹색 및 청색 색상 채널들에 대한 픽섹값들을 포함한다. 각 픽셀은 선택적으로 및/또는 대안적으로 색상 공간의 채널들의 하나 또는 그 이상에 대한 업샘플링된 또는 다운샘플링된 픽셀값들을 포함할 수 있다.

예시적인 실시예에서, 8비트 RGB VDR 데이터를 생성하기 위하여 VDR 이미지(206)의 12+ 비트 RGB 이미지 데이터 상에서(본 예에서는 4:4:4 샘플링 포맷으로) 개선된 양자화를 수행하도록 VDR 이미지 인코더(202)가 구성된다.

예시적인 실시예에서, 제 1 색상 공간(본 예에서는 RGB 색상 공간)으로부터 제 2 색상 공간(예를 들면, YCbCr 색상 공간)으로 8비트 RGB VDR 데이터를 변환시키기 위하여 VDR 이미지 인코더(202)가 구성된다. 색상 공간 변환은 예를 들면, VDR 이미지 인코더(202)의 RGB-2-YCbCr 유닛(208)에 의해 실행될 수 있다.

예시적인 실시예에서, YCbCr 색상 공간의 8비트 VDR 데이터를 8 비트의 다운샘플링된 BL 이미지(214)로(예를 들면, 4:2:0의 샘플링 포맷으로) 다운샘플링하도록 VDR 이미지 인코더(202), 또는 그 안의 다운샘플러(예를 들면, 444-420 다운샘플러(210))가 구성된다.

예시적인 실시예에서, 8비트의 다운샘플링된 BL 이미지(214)를 기본층 이미지 컨테이너의 이미지 데이터로 인코딩하도록 VDR 이미지 인코더(202), 또는 그 안의 제 1 인코더(216-1)가 구성된다. 예시적인 실시예에서, 기본층 이미지 컨테이너의 이미지 데이터는 SDR 디스플레이들 상의 시청을 위해 최적화되지 않으며; 그보다는, 기본층 이미지 컨테이너의 이미지 데이터는 더 낮은 비트 깊이의 이미지 컨테이너에 더 높은 비트 깊이의 VDR 이미지 데이터를 표현하고, 강화층들에서 운반될 필요가 있는 VDR 이미지 재구성 데이터(예를 들면, 잔류값들(230))의 양을 최소화하도록, 재구성가능한 정보의 최대양을 포함하기 위하여 최적화된다.

예시적인 실시예에서, VDR 이미지 인코더(202)는 기본층 이미지 컨테이너의 이미지 데이터에 기초하여 기본층 비디오 신호를 생성하며, 이는 다운스트림 디바이스의 비디오 디코더(예를 들면, VDR 이미지 디코더(250), 또는 그 안의 제 1 디코더(252-1))로 출력될 수 있다.

예시적인 실시예에서, VDR 이미지 인코더(202)의 디코더(220)는 기본층 이미지 컨테이너의 이미지 데이터를 본 예에서는 4:2:0 샘플링 포맷으로 디코딩된 기본층 이미지로 디코딩한다. 디코딩된 기본층 이미지는 제 1 인코더(216-1)와 디코더(220)에 의해 실행된 인코딩 및 디코딩 동작들에서 도입된 변화들과, 라운딩 에러들과 같은 에러들 및 근사치들을 포함하기 때문에, 디코딩된 기본층 이미지는 8 비트 BL 이미지(214)와는 상이하다.

기본층 비디오 신호에 부가하여 VDR 이미지 재구성 데이터가 VDR 이미지 인코더에 의해 기본층과 떨어진 하나 또는 그 이상의 강화층들의 다운스트림 디바이스로 운반될 수 있다. RGB 색상 공간의 VDR 이미지(206)는 동일한 이미지 프레임의 이웃하는 샘플들로부터(내부 예측을 이용하여)예측될 수 있으며, 또는 동일한 층에 속하고 예측 이미지 프레임 버퍼 내의 움직임 보상된 예측 기준들로서 버퍼링되는 앞서 디코딩된 이미지 프레임들로부터의 샘플들로부터(상호 예측) 예측될 수 있다. 층간 예측은 또한 다른 층들(예를 들면, 기본층)로부터 디코딩된 정보에 적어도 일부 기초될 수 있다.

예시적인 실시예에서, 4:2:0 샘플링 포맷의 디코딩된 기본층 이미지를 8비트의 업샘플링된 이미지 데이터로 (본 예에서는 4:4:4 샘플링 포맷으로) 업샘플링하도록 VDR 이미지 인코더(202), 또는 그 안의 업샘플러(예를 들면, 420-444 업샘플러(212))가 구성된다.

예시적인 실시예에서, 비예측 색상 공간(본 예에서는 YCbCr 색상 공간)으로부터 예측 색상 공간(예를 들면, RGB 색상 공간)으로 8비트 업샘플링된 이미지 데이터를 변환하도록 VDR 이미지 인코더(202), 또는 그 안의 YCbCr-2-RGB 유닛(예를 들면, 236)이 구성된다.

예시적인 실시예에서, VDR 이미지 인코더(202)는 예측과 관련된 하나 또는 그 이상의 동작들을 실행하는 예측 프로세싱 유닛(222)을 포함한다. 예측 프로세싱 유닛(예를 들면, 222)에 의해 수행되는 예측은 VDR 비디오 디코더(예를 들면, 도 2의 250)에 의한 VDR 이미지의 재구성시 오버헤드를 감소시킬 수 있다.

예시적인 실시예에서, 12+ 비트 VDR 이미지(206)와 예측 색상 공간으로 변환된 업샘플링된 이미지 데이터에 적어도 일부 기초하여, 내부 또는 상호 예측(또는 추정, 또는 다른 방법들)을 통하여, 예측을 위한 매핑 파라미터들(234)의 세트를 결정하도록 VDR 이미지 인코더(202)가 구성된다. 예측 프로세싱 유닛(222)은 매핑 파라미터들(234)의 세트와 예측 색상 공간으로 변환된 업샘플링된 이미지 데이터에 기초하여 RGB 색상 공간에 12+ 비트 예측 이미지를 생성할 수 있다.

예시적인 실시예에서, 12+ 비트 VDR 이미지(206)와 예측 이미지 사이에 (RGB) 잔류값들(230)을 생성하도록 VDR 이미지 인코더(202)가 구성된다. 색상 채널(예를 들면, G 채널)의 잔류값들은 선형 또는 대수 영역의 빼기 연산들(예를 들면, 126)에 의해 생성된 차이들일 수 있다. 대안적으로 및/또는 선택적으로, 색상 채널(예를 들면, G 채널)의 잔류값들은 선형 또는 대수 영역의 나누기 연산들에 의해 생성된 비율들일 수 있다. 다양한 예시적인 실시예들에서, 다른 수학적 표현들과 대응하는 연산들/매핑들/함수들이 12+ 비트 VDR 이미지(206)와 예측 이미지 사이의 잔류값들(230)을 생성하기 위하여 사용될 수 있다.

실시예에서, 개선된 양자화(또는 의사 색상 그레이딩 프로세스)에 의해 도입된 양자화 차이들 또는 노이즈들을 제외하고, 12+ 비트 VDR 이미지(206)는 8비트 RGB VDR 데이터와 동일한 채도 정보를 포함한다. 실시예에서, 12+ 비트 VDR 이미지(206)의 중간톤과 어두운 영역들은 개선된 양자화 하의 기본층에서 인코딩될 수 있고, 12+ 비트 이미지(206)의 밝은 영역들은 동일한 개선된 양자화 하의 강화층들에서 인코딩될 수 있다.

예시적인 실시예에서, 8비트 RGB VDR 데이터로부터 예측 이미지로의 프로세싱 경로에서 RGB-2-YCbCr 유닛(208), 다운샘플러(210), 제 1 인코딩 유닛(216-1), 디코딩 유닛(220), 업샘플러(212), YCbCr-2-RGB 유닛(236), 또는 예측 프로세싱 유닛(222)에 의해 여분의 유입되는 색상 보정/변경들/왜곡들(예를 들면, 클리핑)은 없다. 예시적인 실시예에서, 프로세싱 경로에 본래 존재할 수 있는 가능한 왜곡들(예를 들면, 기본층 코덱에 의해 유발된 기본층 왜곡들 또는 다운샘플링과 업샘플링의 채도 재포맷으로부터의 에러들)을 제외하고, 예측 이미지는 8비트 RGB VDR 데이터와 동일한 채도 정보를 포함한다.

예시적인 실시예에서, 하나 또는 그 이상의 NLQ 파라미터들을 이용하여 잔류값들(230)을 4:4:4 샘플링 포맷의 12+ 비트 디지털 표현으로부터 4:2:0 샘플링 포맷의 8비트 디지털 표현(또는 8비트 RGB 잔류값들)으로 다운샘플링하고 양자화하도록 VDR 이미지 인코더(202)의 444-420 다운샘플링 및 비선형 양자화 유닛(444-420& NLQ)(228)이 구성된다.

예시적인 실시예에서, 강화층 이미지 컨테이너의 8비트 잔류값들을 인코딩하도록 VDR 이미지 인코더(202) 또는 그 안의 제 2 인코더(216-2)가 구성된다. 강화층 이미지 컨테이너는 기본층 이미지 컨테이너로부터 논리적으로 떨어져 있다.

예시적인 실시예에서, VDR 이미지 인코더(202)는 강화층 이미지 컨테이너의 8비트 잔류값들에 기초하여 강화층 비디오 신호를 생성하며, 이는 비디오 디코더(예를 들면, VDR 이미지 디코더(250), 또는 그 안의 제 2 디코더(252-2))로 출력될 수 있다.

예시적인 실시예에서, 매핑 파라미터들(234)의 세트와 NLQ 파라미터들(232)은 보충 강화 정보(SEI)의 일부 또는 비디오 비트스트림들에서(예를 들면, 강화층들에서) 사용가능한 다른 유사한 메타데이터 운반체들로서 다운스트림 디바이스(예를 들면, VDR 이미지 디코더(250))로 전송될 수 있다.

제 1 인코더(216-1), 제 2 인코더(216-2), 및 디코더(220)(252-1 및 252-2)의 하나 또는 그 이상이 H.264/AVC/HEVC, MPEG2, VP8, VC-1, 및/또는 기타와 같은 복수의 코덱들 중 하나 또는 그 이상을 이용하여 수행될 수 있다.

예시적인 실시예에서, 기본층과 하나 또는 그 이상의 강화층들을 포함하는 많은 층들(또는 많은 비트스트림들)에서 입력 비디오 신호들을 수신하도록 VDR 이미지 디코더(250)가 구성된다.

예시적인 실시예에서, 기본층 비디오 신호에 기초하여, 디코딩된 (YCbCr) 기본층 이미지를 생성하기 위해 VDR 이미지 디코더(250)의 제 1 디코더(252-1)가 구성된다. 일부 실시예들에서, VDR 이미지 디코더(250)의 제 1 디코더(252-1)는 VDR 이미지 디코더(202)의 디코더(220)와 동일하거나, 또는 실질적으로 유사할 수 있다. 유사하게, 디코딩된 기본층 이미지들이 동일한 VDR 이미지(예를 들면, 206)로부터 소스된 것이라면, VDR 이미지 디코더(250)의 디코딩된 기본층 이미지와 디코딩된 기본층 이미지는 동일하거나, 또는 실질적으로 유사할 수 있다.

예시적인 실시예에서, 4:2:0 샘플링 포맷의 디코딩된 기본층 이미지를 본 예에서는 4:4:4 샘플링 포맷의 8비트 업샘플링된 이미지 데이터로 업샘플링하기 위해 VDR 이미지 디코더(250), 또는 그 안의 업샘플러(예를 들면, 444-420 다운샘플러(266))가 구성된다.

예시적인 실시예에서, 비예측 색상 공간(본 예에서는 YCbCr 색상 공간)으로부터 예측 색상 공간(예를 들면, RGB 색상 공간)으로 8비트 업샘플링된 이미지 데이터를 변환하도록 VDR 이미지 디코더(250), 또는 그 안의 RGB-2-YCbCr 유닛(예를 들면, 264)이 구성된다.

예시적인 실시예에서, VDR 비디오 디코더(250)는 예측에 관한 하나 또는 그 이상의 동작들을 실행하는 예측 프로세싱 유닛(258)을 포함한다. 예측 프로세싱 유닛에 의해 수행된 예측은 VDR 비디오 디코더(예를 들면, 도 2의 250)에서 VDR 이미지들을 효율적으로 재구성하는데 사용될 수 있다. 매핑 파라미터들(234)의 세트를 수신하고, 매핑 파라미터들(234)의 세트와 예측 색상 공간의 8비트 업샘플링된 이미지 데이터에 적어도 부분적으로 기초하여 12+ 비트 예측 이미지를 생성하도록 예측 프로세싱 유닛(258)이 구성된다.

예시적인 실시예에서, 하나 또는 그 이상의 강화 비디오 신호들에 기초하여 강화층 이미지 컨테이너의 8 비트(RGB) 잔류값들을 검색하도록 VDR 이미지 디코더(250)의 제 2 디코더(252-2)가 구성된다.

예시적인 실시예에서, 강화층들을 통해 하나 또는 그 이상의 NLQ 파라미터들을 수신하고, 하나 또는 그 이상의 NLQ 파라미터들을 이용하여 4:2:0 샘플링 포맷의 8 비트 잔류값들을 4:4:4 샘플링 포맷의 12+ 비트 디지털 표현(또는 RGB 색상 공간의 12+ 비트 잔류 값들)으로 역양자화하고 업샘플링하도록 VDR 이미지 디코더(250)의 비선형 역양자화기(NLdQ;254)와 420-444 업샘플러(268)가 구성된다.

예시적인 실시예에서, 12+ 비트 잔류값들(230)과 예측 프로세싱 유닛(258)에 의해 생성된 12+ 비트 예측 이미지에 기초하여 재구성된 VDR 이미지(260)를 생성하도록 VDR 이미지 디코더(250)가 구성된다. 색상 채널(예를 들면, G 채널)의 재구성된 픽셀 값들은 선형 또는 대수 영역의 더하기 연산들(예를 들면, 262)에 의해 생성된 합들 일 수 있다. 대안적으로 및/또는 선택적으로, 색상 채널(예를 들면, G 채널)의 재구성된 값들은 선형 또는 대수 영역의 곱하기 연산들에 의해 생성된 값들일 수 있다. 다양한 예시적인 실시예들에서, 다른 수학적 표현들과 대응하는 연산들/함수들/매핑들이 잔류값들과 예측 이미지로부터 재구성된 픽셀 값들(260)을 생성하기 위하여 사용될 수 있다.

부가적으로 및/또는 선택적으로, 변환, 양자화, 엔트로피 코딩, 이미지 버퍼링, 샘플 필터링, 다운샘플링, 업샘플링, 보간, 멀티플렉싱, 디멀티플렉싱, 인터리빙, 업스케일링, 다운스케일링, 움직임 보상, 변이 추정, 변이 보상, 깊이 추정, 깊이 보상, 인코딩, 디코딩, 등의 하나 또는 그 이상이 여기서 설명된 것과 같은 비디오 인코더 또는 디코더에 의해 실행될 수 있다.

3. 개선된 양자화

일부 실시예들에서, 기본층에서 가능한 많은 이미지 디테일들을 포착/보존하기 위하여 VDR 이미지 인코더(도 1의 102 또는 도 2의 202)에 의해 실행되는 것과 같은 개선된 양자화가 설계되고 수행된다. 이는 강화층 비디오 신호로 인코딩될 필요가 있는 잔류값들의 양(예를 들면, 도 1의 130 또는 도 2의 230)을 최소화한다. 또한, 기본층에서 포착된/보존된 이미지 디테일들은 VDR 이미지 디코더(예를 들면, 150)와 같은 다운스트림 디바이스에 의해 VDR 이미지들을 효율적으로 재구성하는데 도움을 줄 수 있다. 정밀한 이미지 디테일들의 존재는 그렇지 않다면 손실성 압축 동작들동안 생성될/증폭될 수 있는 시각적 아티펙트들을 경감/감소/제거시킨다.

논의된 것과 같이, SDR 디스플레이들을 위해 최적화되고 다른 기술들에 의해 생성된 기본층 SDR 이미지와는 달리, 여기서 설명된 것과 같은 기술들 하에서 디코딩된 기본층 이미지는 SDR 디스플레이들 상에서의 시청을 위한 것이 아니다. 그보다는, 여기서 설명된 것과 같은 기술들 하에서 디코딩된 기본층 이미지는 VDR 이미지 인코더의 잔류값들을 또한 생성하고 VDR 이미지 디코더의 더 높은 비트 깊이 VDR 이미지들을 또한 재구성하기 위한 중간 이미지 데이터로 작용한다.

여기서 설명된 것과 같은 기술들 하에서, SDR 디스플레이들 상의 최고의 시청 경험을 생성하기 위해 설계된 색상 그레이딩 프로세스는 필요하지 않고, 쓰이지 않거나 또는 회피될 수 있다. 강화층 프로세싱 경로와 기본층 프로세싱 경로에서 비대칭(또는 상이한) 클리핑을 유발하는 외부적으로 또는 사용자에 의해 제어된 색상 보정들은 회피되거나 쓰이지 않는다. 강화층과 기본층 프로세싱 경로들 모두에서의 클리핑 레벨들은 여기서 설명된 것과 같은 기술들 하에서는 VDR 이미지 인코더에 의해 전체적으로 제어된다. 기본층 이미지 데이터에서 색상 클리핑된 픽셀들은 또한 강화층 이미지 데이터에서 색상 클리핑될 수 있다.

여기서 설명된 것과 같은 기술들은 기본층의 SDR 이미지 데이터와 강화층들의 VDR 이미지 데이터를 포함하는 층간 예측을 포함하는 예측을 위한 계산 복잡도를 감소시키도록 사용될 수 있으며, 친근하게는 시스템-온-칩(System-on-Chip;SoC)이다. 예를 들어, 여기서 설명된 것과 같은 예측 프로세스는 여기서 설명된 것과 같은 개선된 양자화(또는 의사 색상 그레이딩)의 역으로서 수행될 수 있다. 개선된 양자화가 여기서 설명된 것과 같은 VDR 이미지 인코더에 의해 전체적으로 제어될 수 있으므로, 예측 프로세스가 또한 전체적으로 제어될 수 있다. 일부 실시예들에서, 클리핑 레벨들과 색상 클리핑들을 갖는 픽셀들이 강화층 프로세싱 경로와 기본층 프로세싱 경로에서 전체적으로 제어될 수 있고 따라서 1차 다항식 매핑과 같은 계산적으로 효율적인 예측 방법이 예측 이미지들을 생성하고 재구성하는데 충분할 수 있다.

예시적인 실시예에서, 더 높은 비트 깊이들(예를 들면, 16비트)의 VDR 데이터가 개선된 양자화에서(예를 들면, 도 1 및 도 2에서) 선형 양자화기를 통해 더 낮은 비트 깊이들(8비트)의 기본층 이미지 데이터로 직접적으로 양자화된다.

일부 예시적인 실시예들에서, 선형 또는 비선형 양자화기들의 하나 또는 그 이상이 더 높은 비트 깊이(예를 들면, 12+ 비트)의 이미지 데이터를 더 낮은 비트 기이(예를 들면, 8비트)의 이미지 데이터로 양자화하는데 사용될 수 있다. 상이한 색상 공간들 및/또는 상이한 색상 채널들의 상이한 양자화기들이 선택될 수 있다. 예를 들어, 컨투어링 아티펙트들(contouring artifacts)(예를 들면, 부드러운 영역들에서) 및 다른 아티펙트들을 경감/감소/제거시키기 위하여, 비디오 신호들이 상이한 색상 공간들에서 및/또는 상이한 개선된 양자화 방법들로 양자화될 수 있다. 일부 실시예들에서, 여기서 설명된 것과 같은 개선된 양자화는 선형 양자화; 선형 스트레칭, 곡선 기반/비균일 양자화; 프레임, 많은 프레임들, 화면, 많은 화면들, 또는 프레임 내의 하나 또는 그 이상의 부분들, 등에 대한 히스토그램들에 기초한 확률 밀도 함수(Pdf) 최적화된 양자화(예를 들어, 로이드-맥스(LLoyd-Max) 양자화); 인지 양자화; 벡터 양자화; 상기의 임의의 조합(예를 들면, 인지 공간에서 Pdf 최적화된 양자화 후 인지 양자화)의 하나 또는 그 이상을 포함할 수 있다. 일부 실시예들에서, 특정 타입의 개선된 양자화는 예측 방법들의 하나 또는 그 이상의 타입들과 대응 관계를 가질 수 있다. 예를 들어, 균일한 양자화가 개선된 양자화로서 적용될 때, 예측에 사용된 예측 방법의 대응 타입은 1차 다항식에 기초할 수 있다.

양자화는 개별적인 채널 기반 상에서 또는 둘 또는 그 이상의 채널들 상에서 동시에 실행될 수 있다. 예시적인 실시예에서, 둘 또는 그 이상의 색상 채널들에 걸쳐 벡터 양자화가 실행될 수 있다. 예를 들어, 좌표 시스템(예를 들면, 3D 카테시안)이 축들로서 색상 공간에 색상 채널들을 이용하여 셋업될 수 있다. 색상 공간의 둘 또는 그 이상의 색상 채널들의 조합들(또는 투사(projection)들의 합들)로서 정의되는 새로운 축들을 생성하기 위해 회전과 같은 공간적인 변환이 좌표 시스템에서 실행될 수 있다. 새로운 축들 중 하나를 형성하기 위해 투사되는 둘 또는 그 이상의 색상 채널들의 픽셀 값들은 새로운 축들 중 하나 위에서 양자화기에 의해 함께 양자화될 수 있다.

일부 실시예들에서, VDR 디코더 측 상에서 압축된 출력 VDR 이미지 데이터로 높은 인지적 품질을 계속 유지하면서, 출력된 다중층 VDR 이미지 데이터를 얼마나 잘 압축할 수 있는지에 기초하여 특정의 개선된 양자화 방법이 선택될 수 있다.

일부 실시예들에서, 코덱들의 약점들을 보상하기 위하여 특정의 개선된 양자화 방법이 선택될 수 있다. 예를 들어, 흑색 영역들을 압축할 때는 코덱이 잘 작동하지 않을 수 있고, 심지어 재구성된 VDR 이미지에서 컨투어링 아티펙트들을 출력할 수도 있다. 여기서 설명된 것과 같은 개선된 양자화는 재구성된 VDR 이미지에서 볼 수 있는 적은 컨투어링 아티펙트들을 갖는 이미지 데이터를 생성하기 위하여 특정의 곡선(예를 들면, 사인 곡선, 뮤-법칙, 사람 인지 기반 곡선, 등)을 사용할 수 있다.

여기서 설명된 것과 같은 기술들 하의 VDR 인코더는 VDR 인코더에 의해 처리될 이미지 콘텐트에 대한 유일한 입력으로서 입력 VDR 이미지 데이터를 가질 수 있다. 입력 VDR 이미지 데이터가 강화층 데이터 프로세싱에 제공되는 동안, 즉시 수행될 수 있는(예를 들면, 입력 VDR이 VDR 인코더로 입력되는 동일한 배선 속도로) 개선된 양자화가 여기서 설명된 것과 같은 기본층 데이터 프로세싱으로 입력 이미지 데이터를 생성하도록 사용될 수 있다.

일부 실시예들에서, 현존하는 H.264와 같은 인코더 들이 SDR 신호를 처리하기 위해 적응되었으므로, SDR 신호같이 보이는 비디오(예를 들면, VDR) 신호를 만들기 위한 변환 후에 여기서 설명된 것과 같은 8비트 양자화 단계(예를 들면, 도 1의 128 또는 도 2의 228)가 수행될 수 있다. SDR 신호같이 보이도록 VDR 신호의 동적 범위를 움직이는 다양한 개선된 양자화 기술들이 사용될 수 있다. 예시적인 실시예에서, 가역의(invertible) 색상 그레이딩 방법(예를 들면, 기울기(Slope)+오프셋(Offset)+전력(Power)+색조(Hue)+포화도(Saturation) 또는 SOP+HS)이 희박한 데이터를 집중된 범위들로 변환시키는데 사용될 수 있다. 다른 예시적인 실시예에서, 디스플레이 관리에 사용된 톤 매핑 곡선이 VDR 신호를 SDR 신호같이 보이도록 변환시키는데 사용될 수 있다. 여기서, "디스플레이 관리(display management)"라는 용어는 VDR 비디오 신호를 특정 디스플레이 또는 특정 범위의 디스플레이들에 의해 지원되는 것과 같은 동적 범위로 적응시키도록 실행되는 하나 또는 그 이상의 동작들을 말한다.

여기서 설명되는 것과 같은 개선된 양자화는 하나 또는 그 이상의 상이한 방법들로 실행될 수 있다. 개선된 양자화는 전체적인 프레임 또는 전체적인 화면이 단일의 세팅을 이용하여 양자화되는 글로벌(global) 양자화를 실행할 수 있다. 개선된 양자화는 또한 각 프레임이 복수의 오버랩되지 않는 영역들로 나뉘어지고 각각의 오버랩되지 않는 영역이 그 자신의 세팅을 이용하여 양자화되는 부분 기반(지역적) 양자화를 수행할 수 있다. 개선된 양자화는 각 프레임이 복수의 오버랩되지 않는 영역들로 나뉘어지고 각각의 오버랩되지 않는 영역이 그 자신의 세팅을 이용하여 양자화되지만, 특정의 오버랩되지 않는 영역을 위한 양자화기 세팅들이 하나 또는 그 이상의 오버랩된 영역들로부터 얻어진 분석 데이터에 기초하여 결정되는, 부분 기반(지역적) 양자화를 수행할 수 있다. 개선된 양자화는 하나 또는 그 이상의 상이한 색상 공간들 중 임의의 것에 적용될 수 있다. 개선된 양자화가 적용될 수 있는 색상 공간들의 예들은: RGB 색상 공간들, YCbCr 색상 공간들, YCoCg 색상 공간들, ACES 색상 공간들, 또는 다른 색상 공간들 중 임의의 것을 포함하지만, 이들로만 제한되는 것은 아니다.

일부 실시예들에서, 양자화가 적용되는 색상 공간은 예측이 실행되는 색상 공간과 동일하게 유지된다. 이는 또한 VDR 이미지 인코딩 프로세스와 VDR 이미지 디코딩 프로세스에서도 마찬가지이다. 이미지 랜더링이 발생하는 색상 공간이 양자화가 일어나는 색상 공간과 상이하다면 색상 공간 변환이 적절하게 실행될 수 있다.

4. 선형 스트레칭

예시적인 실시예에서, 화면 적응형 동적 범위 조절 양자화 방법(scene-adaptive dynamic range adjustment quantization method)이 도 1과 도2에서 도시된 것과 같은 개선된 양자화에, 도 3에서 도시된 것과 같은 YCbCr 색상 공간에, 또는 RGB 색상 공간에 적용될 수 있다. 하나의 고려된 화면 내의 색상 채널(i)의 최대값은 v_i,max로 표시될 수 있다. 하나의 고려된 화면 내의 색상 채널(i)의 최소값은 v_i,min로 표시될 수 있다. 최소와 최대에 의해 정의된 것과 같은 범위 및/또는 범위 내의 데이터 포인트들의 분포는 프레임마다, 많은 프레임들마다, 화면마다, 많은 화면들마다, 프로그램마다, 등의 이미지 콘텐트에 기초하여 변화될 수 있다.

색상 채널(i)에서 처리될 픽셀값은 v_i로 표시될 수 있다. 다음 표현은 VDR(예를 들면, 휘도) 코딩 공간이 16비트(또는 도 1 및 도 2의 12+ 비트)에 있을 때 참(true)을 유지할 수 있다:

(1)

화면 적응형 동적 범위 조절 양자화 방법은 전체적인 범위[v_i,min,v_i,max]를 8비트 YCbCr 709 표준 범위[s_i,min,s_i,max]로 매핑하고, 이는 다음과 같다:

(2)

여기서, s_i는 도 1 및 도 2에서 도시된 것과 같은 개선된 양자화에 의해 생성된 이미지 데이터의 변환된 픽셀값을 나타낸다. 표현(2)에서 round() 연산은 출력이 정수일 것임을 보장한다. 라운딩(rounding) 후에 또한 클리핑 함수가 따라올 수 있다. 예를 들어, 음의 값들이 0으로 클리핑될 수 있고 255보다 큰 양의 값들이 255로 클리핑될 수 있다.

도 3에 도시된 것과 같이, 화면 적응형 동적 범위 조절 양자화는 전체적인 8비트 동적 범위를 모두 활용하도록 사용될 수 있다. 도 3의 양자화 범위 대 프레임 인덱스 도표의 수평축은 프레임 인덱스 변수를 나타낸다. 각 프레임에서 플롯(302)에 의해 표시된 것과 같은 선형 스트레칭에 대한 최소값(s_i,min)은 프레임의 플롯(304)에 의해 표시된 것과 같은 최소값(v_i,min)과 동일하게 설정될 수 있다. 그러나, 각 프레임에서 플롯(306)에 의해 표시된 것과 같은 선형 스트레칭에 대한 최대값(s_i,max)은 프레임의 플롯(308)에 의해 표시된 것과 같은 최대값(v_i,max)보다 작지않게 설정될 수 있다. 도 3에 표시된 것과 같이, 프레임(2200)에서, 다른 코딩 기술들(예를 들면, 선형 스트레칭 코딩 기술들과는 다른)하에서는 최대값이 약 140이다. 그와 대조적으로, 여기서 설명된 것과 같은 선형 스트레칭 기술들을 사용하면, 프레임(2200)에 대한 최대값은 약 225로 확장된다. 따라서, 여기서 설명된 것과 같은 선형 스트레칭은 다른 코딩 기술들에 비하여 나은 양자화 단계들을 제공하며 따라서 더 나은 해상도 디테일들을 제공한다. 도시된 것과 같이, 클리핑은 프레임(2400) 근처의 프레임에서 발생하기 시작하여 선형 스트레칭과 다른 기술들 모두에 대해 프레임(2600)까지 지속한다.

5. 예시적인 프로세스 흐름들

도 4a는 본 발명의 예시적인 실시예에 따른 예시적인 프로세스 흐름을 도시한다. 일부 예시적인 실시예들에서, 하나 또는 그 이상의 컴퓨팅 디바이스들 또는 구성성분들이 이러한 프로세스 흐름을 실행할 수 있다. 블록(402)에서, 다중층 VDR 비디오 인코더(예를 들면, 도 1의 102)는 입력 시각적 동적 범위(VDR) 이미지를 일련의 입력 이미지들로 수신한다.

블록(404)에서, 다중층 VDR 비디오 인코더(102)는 하나 또는 그 이상의 사용가능한 개선된 양자화 방법들로부터 특정의 개선된 양자화 방법을 선택한다.

블록(406)에서, 다중층 VDR 비디오 인코더(102)는 입력 기본층 이미지를 생성하기 위해 특정의 개선된 양자화 방법을 입력 VDR 이미지에 적용한다. 예시적인 실시예에서, 입력 VDR 이미지는 더 높은 비트 깊이 VDR 이미지 데이터를 포함하고, 여기서 입력 기본층 이미지는 더 낮은 비트 깊이 VDR 이미지 데이터를 포함한다.

블록(408)에서, 다중층 VDR 비디오 인코더(102)는 입력 기본층 이미지로부터 얻어진 이미지 데이터를 기본층(BL) 비디오 신호로 압축한다.

블록(410)에서, 다중층 VDR 비디오 인코더(102)는 입력 VDR 이미지로부터 얻어진 이미지 데이터의 적어도 일부를 하나 또는 그 이상의 강화층(EL) 비디오 신호들로 압축한다.

예시적인 실시예에서, 다중층 VDR 비디오 인코더(102)는 BL 비디오 신호로부터 기본층 이미지를 디코딩하고, 기본층 이미지는 입력 기본층 이미지에 대응하고; 하나 또는 그 이상의 예측 방법들로부터 예측 방법을 선택하고; 예측 방법을 이용하여 기본층 이미지에 적어도 일부 기초하여 예측 이미지를 생성하고; 예측 이미지와 입력 VDR 이미지에 기초하여 잔류값들을 생성하고; 출력 EL 이미지 데이터를 생성하기 위하여 비선형 양자화를 잔류값들에 적용하고, 잔류값들은 더 높은 비트 깊이 값들을 포함하고, 출력 EL 이미지 데이터는 더 낮은 비트 깊이 값들을 포함하고; 출력 EL 이미지 데이터를 하나 또는 그 이상의 EL 비디오 신호들로 압축한다.

예시적인 실시예에서, 개선된 양자화 방법과 예측 방법 사이의 대응 관계에 기초하여 예측 방법이 선택된다.

예시적인 실시예에서, 개선된 양자화 방법은 글로벌 양자화, 선형 양자화, 선형 스트레칭, 곡선 기반 양자화, 확률 밀도 함수(Pdf) 최적화된 양자화, 로이드-맥스 양자화, 부분 기반 양자화, 인지적 양자화, 벡터 양자화, 또는 다른 타입들의 양자화 중 하나 또는 그 이상을 포함한다.

예시적인 실시예에서, 일련의 입력 이미지들은 제 2의 상이한 VDR 입력 이미지를 포함하고; 다중층 비디오 인코더(102)는 하나 또는 그 이상의 사용가능한 개선된 양자화 방법들로부터 제 2의 상이한 특정의 개선된 양자화 방법을 선택하며; 제 2의 입력 기본층 이미지를 생성하기 위하여 제 2의 특정한 개선된 양자화 방법을 제 2의 입력 VDR 이미지로 적용하고; 제 2의 입력 기본층 이미지로부터 얻어진 제 2의 이미지 데이터를 기본층(BL) 비디오 신호로 압축하고; 제 2의 입력 VDR 이미지로부터 얻어진 이미지 데이터의 적어도 일부를 하나 또는 그 이상의 강화층(EL) 비디오 신호들로 압축한다.

예시적인 실시예에서, 다중층 비디오 인코더(102)는 기본층 비디오 신호로부터 제 2의 상이한 BL 이미지를 디코딩하고, 제 2의 BL 이미지는 제 2의 입력 BL 이미지에 대응하며; 하나 또는 그 이상의 예측 방법들로부터 제 2의 상이한 예측 방법을 선택하고; 제 2의 예측 방법을 이용하여 제 2의 BL 이미지의 적어도 일부에 기초하여 제 2의 예측 이미지를 생성하고; 제 2의 예측 이미지와 제 2의 입력 VDR 이미지에 기초하여 제 2의 상이한 잔류값들을 계산하며; 제 2의 출력 EL 이미지 데이터를 생성하기 위하여 비선형 양자화를 제 2의 잔류 값들로 적용하고, 제 2의 잔류 값들은 더 높은 비트 깊이 값들을 포함하고, 제 2의 출력 EL 이미지 데이터는 더 낮은 비트 깊이 값들을 포함하고; 출력 EL 이미지 데이터를 하나 또는 그 이상의 EL 비디오 신호들로 압축한다.

예시적인 실시예에서, 입력 기본층 이미지의 이미지 데이터가 VDR 인코더의 제 1의 8비트 인코더에 의해 BL 비디오 신호로 압축되며, 입력 VDR 이미지의 이미지 데이터의 적어도 일부가 VDR 인코더의 제 2의 8비트 인코더에 의해 하나 또는 그 이상의 강화층(EL) 비디오 신호들로 압축된다.

예시적인 실시예에서, 입력 VDR 이미지와 관련된 하나 또는 그 이상의 EL 비디오 신호들로 인코딩될 이미지 데이터의 양을 최소화하는 것을 포함하나 그에 제한되지는 않는 하나 또는 그 이상의 펙터들에 기초하여 개선된 양자화 방법이 선택된다.

예시적인 실시예에서, 입력 VDR 이미지로부터 결정된 하나 또는 그 이상의 특징들 중 임의의 것을 포함하나 그에 제한되지는 않는 하나 또는 그 이상의 펙터들에 기초하여 개선된 양자화 방법이 선택된다.

예시적인 실시예에서, 입력 VDR 이미지가 다중층 비디오 인코더(102)에 의해 수신된 후에 컬러리스트에 의한 색상 그레이딩이 쓰이지 않는다(disabled).

예시적인 실시예에서, 입력 기본층 이미지로부터 얻어진 이미지 데이터를 유지하기 위해 제 1의 이미지 컨테이너가 사용되며, 입력 VDR 이미지의 이미지 데이터의 적어도 일부를 유지하기 위해 제 2의 상이한 이미지 컨테이너가 사용된다. 예시적인 실시예에서, 제 1 이미지 컨테이너와 제 2 이미지 컨테이너 중 적어도 하나는 색상 공간의 하나 또는 그 이상의 채널들의 픽셀 값들을 포함한다. 예시적인 실시예에서, 제 1 이미지 컨테이너와 제 2 이미지 컨테이너 중 적어도 하나는 복수의 샘플링 스킴들과 연관된 복수의 이미지 컨테이너들로부터 선택되며, 복수의 샘플링 스킴들은 4:4:4 샘플링 스킴, 4:2:2 샘플링 스킴, 4:2:0 샘플링 스킴, 또는 다른 샘플링 스킴들 중 임의의 것을 포함한다.

예시적인 실시예에서, 다중층 비디오 인코더(102)는 하나 또는 그 이상의 입력 비디오 신호들로 표현되고, 수신되고, 송신되고, 또는 저장된 하나 또는 그 이상의 입력 VDR 이미지들을 하나 또는 그 이상의 출력 비디오 신호들로 표현되고, 수신되고, 송신되고, 또는 저장된 하나 또는 그 이상의 출력 VDR 이미지로 변환한다.

예시적인 실시예에서, 입력 VDR 이미지의 적어도 하나와 하나 또는 그 이상의 EL 비디오 신호들은 높은 동적 범위(HDR) 이미지 포맷, AMPAS(the Academy of Motion Picture Arts and Sciences)의 ACES(the Academy Color Encoding Specification) 표준과 연관된 RGB 색상 공간, 디지털 시네마 이니시에이티브(Digital Cinema Initiative)의 P3 색상 공간 표준, RIMM/ROMM(a Reference Input Medium Metric/Reference Output Medium Metric) 표준, sRGB 색상 공간, 또는 ITU(International Telecommunications Union)의 BT.709 레커멘데이션(Recommendation) 표준과 연관된 RGB 색상 공간 중 하나에서 인코딩된 이미지 데이터를 포함한다.

도 4b는 본 발명의 예시적인 실시예에 따른 예시적인 프로세스 흐름을 도시한다. 일부 예시적인 실시예들에서, 하나 또는 그 이상의 컴퓨팅 디바이스들 또는 구성성분들이 이러한 프로세스 흐름을 실행할 수 있다. 블록(452)에서, 다중층 비디오 디코더(예를 들면, 도 1의 150)는 하나 또는 그 이상의 강화층(EL) 비디오 신호들에 기초하여, VDR 이미지의 이미지 데이터의 적어도 일부를 일련의 입력 이미지들로 생성한다.

블록(454)에서, 다중층 비디오 디코더(150)는 기본층(BL) 비디오 신호에 기초하여 기본층 이미지를 생성하고, 기본층 이미지는 하나 또는 그 이상의 사용가능한 개선된 양자화 방법들로부터 선택된 특정의 개선된 양자화 방법에 의해 생성된, VDR 이미지의, 더 낮은 비트 깊이 VDR 이미지 데이터를 포함한다.

블록(456)에서, 다중층 비디오 디코더(150)는 이미지 데이터의 적어도 일부와 기본층 이미지에 기초하여 VDR 이미지의 더 높은 비트 깊이 버전을 재구성한다.

예시적인 실시예에서, 다중층 비디오 디코더(150)는 매핑 파라미터들의 세트를 포함하지만 이로만 제한되지는 않는 예측 메타데이터를 수신하고; 예측 메타데이터에 기초하여 예측 방법을 결정하고; 예측 방법을 이용하여 기본층 이미지의 적어도 일부에 기초하여 예측 이미지를 생성하며; 예측 이미지를 하나 또는 그 이상의 EL 비디오 신호들로부터 얻어진 이미지 데이터의 적어도 일부와 결합시키는 것에 의해 VDR 이미지의 더 높은 비트 깊이 버전을 재구성한다.

예시적인 실시예에서, 예측 방법은 개선된 양자화 방법에 대응한다.

예시적인 실시예에서, 기본층 이미지는 BL 비디오 신호로부터 VDR 디코더의 제 1의 8비트 디코더에 의해 얻어지며, VDR 이미지의 이미지 데이터의 적어도 일부는 하나 또는 그 이상의 강화층(EL) 비디오 신호들로부터 VDR 디코더의 제 2의 8비트 디코더에 의해 얻어진다.

예시적인 실시예에서, 소스 VDR 이미지와 관련된 하나 또는 그 이상의 EL 비디오 신호들로부터 얻어질 이미지 데이터의 양을 최소화하는 것을 포함하지만 이에 제한되지는 않는 하나 또는 그 이상의 펙터들에 기초하여 개선된 양자화 방법이 선택되었다.

예시적인 실시예에서, 기본층 이미지의 이미지 데이터를 유지하기 위해 제 1 이미지 컨테이너가 사용되며, VDR 이미지의 이미지 데이터의 적어도 일부를 유지하기 위해 제 2의 상이한 이미지 컨테이너가 사용된다. 예시적인 실시예에서, 제 1 이미지 컨테이너와 제 2 이미지 컨테이너 중 적어도 하나는 색상 공간의 하나 또는 그 이상의 채널들의 픽셀 값들을 포함한다. 예시적인 실시예에서, 제 1 이미지 컨테이너와 제 2 이미지 컨테이너 중 적어도 하나는 복수의 샘플링 스킴들과 연관된 복수의 이미지 컨테이너들로부터 선택되며, 복수의 샘플링 스킴들은 4:4:4 샘플링 스킴, 4:2:2 샘플링 스킴, 4:2:0 샘플링 스킴, 또는 다른 샘플링 스킴들 중 임의의 것을 포함한다.

예시적인 실시예에서, 다중층 비디오 디코더(150)는 하나 또는 그 이상의 입력 비디오 신호들로 표현되고, 수신되고, 송신되고, 또는 저장된 하나 또는 그 이상의 VDR 이미지들을 처리한다.

예시적인 실시예에서, VDR 이미지의 더 높은 비트 깊이의 버전의 적어도 일부는 높은 동적 범위(HDR) 이미지 포맷, AMPAS(the Academy of Motion Picture Arts and Sciences)의 ACES(the Academy Color Encoding Specification) 표준과 연관된 RGB 색상 공간들, 디지털 시네마 이니시에이티브(Digital Cinema Initiative)의 P3 색상 공간 표준, RIMM/ROMM(a Reference Input Medium Metric/Reference Output Medium Metric) 표준, sRGB 색상 공간, 또는 ITU(International Telecommunications Union)의 BT.709 레커멘데이션 표준과 연관된 RGB 색상 공간 중 하나에서 인코딩된 이미지 데이터를 포함한다.

다양한 예시적 실시예들에서, 인코더, 디코더, 시스템, 장치, 또는 하나 또는 그 이상의 다른 컴퓨팅 디바이스들이 설명된 것과 같은 상기 방법들 중 임의의 것 또는 그 일부를 실행한다.

6. 적응형 동적 범위 조절

페이드-인(fade-in)과 페이드-아웃(fade-out)은 비디오 제품에서 흔히 사용되는 특별한 화면 전환 효과들이다. 페이드-인에서, 화면이 완전히 밝아질 때까지 밝기가 점차적으로 증가한다. 페이드-아웃동안, 화면은 완전히 밝음에서 시작해서 점차적으로 사라진다. 이러한 전환들 동안 휘도의 변화 때문에, 움직임 추정 기술들이 최적의 움직임 벡터들을 정확하게 결정하는 것이 힘들고, 결국 더 큰 잔류들 및 더욱 비효율적인 비디오 코딩을 결과하게 된다.

선형 스트레칭 양자화기가 적용되는 일정한 실시예들에서(예를 들면, 식(2)), 상대적으로 일정한 VDR을 기본층(BL) 양자화 단계로 화면 내에서 유지하는 것이 바람직하다. 여기서 "화면 기반 적응(scene-based adaptation)"이라고 표시된, 이러한 접근은 인코더로부터 디코더로 송신될 필요가 있는 양자화 관련 메타데이터의 양을 감소시키며, 또한 화면에서 상대적으로 일정한 밝기를 유지하고, 이는 다음에 이어지는 압축 프로세스를 돕는다. 그러나, 이러한 접근은 페이드-인 또는 페이드-아웃 동안에는 적절하지 않을 수 있다. 여기서 설명된 것과 같이, "프레임 단위 기반 적응(frame-by-frame based adaptation)"이 이러한 전환들을 위해서는 더욱 적절할 수 있다.

페이드-인 또는 페이드-아웃 전환동안 F개의 프레임들이 있다고 가정하자. 일정한 색상 구성성분(예를 들면, 휘도 Y)에서, 원래의 VDR 시퀀스의 i번째 프레임에 대하여, 각각 그러한 색상 구성성분에 대하여 최대 및 최소값들을 v_H,i 와 v_L,i(i=0,...,F-1)로 표시한다. 유사하게, i번째 BL 프레임의 대응하는 색상 구성성분에 대하여 최대 및 최소값을 각각 c_H,i 와 c_L,i(i=0,...,F-1)로 표시한다. 선형 스트레칭 양자화 방법을 이용하면, 식(2)로부터, 양자화된 기본층 스트림의 j번째 픽셀과 i번째 프레임의 값이 다음과 같이 표현될 수 있고:

(3)

여기서, v_ji는 i번째 VDR 프레임의 j번째 픽셀의 값을 나타내며, O는 라운딩 오프셋이다(예를 들어, O=0.5 또는 O=0). 여기서 적용된 것과 같이, 바닥 함수_└x_┘는 x보다 작거나 같은 수 중 가장 큰 정수를 계산한다.

페이드-아웃 화면에 대하여, 제 1 프레임은 최대의 동적 범위, 즉, 0<i<F에 대하여 v_H,0≥ v_H,i 를 가져야 한다.

페이드-인 화면에 대하여, 마지막 프레임은 최대의 동적 범위, 즉, 0≤i<F-1에 대하여 v_H,F-1≥ v_H,i 를 가져야 한다.

상기 공식을 고려하면, 발생하는 문제는 이어지는 코딩 성능을 최적화하기 위하여 {c_H,i｜i=0,...,F-1} 및 {c_L,i｜i=0,...,F-1} 파라미터들을 식(3)에서 어떻게 적응적으로 조절할 수 있는가 이다.

전체 검색 방법(Full-search Method)

한 실시예에서 {c_H,i｜i=0,...,F-1}와 {c_L,i｜i=0,...,F-1}의 모든 가능한 조합들을 시도하여 가장 종합적인 압축을 제공하는 이러한 변수들을 선택할 수 있다. 그러나, 8비트 데이터에 대하여 c_L,i=0을 설정하더라도, c_H,i에 대하여 255^F의 가능한 조합들이 있으며, 이는 실시간 인코딩에서 시도하고 시험하는 것이 불가능할 수 있다.

동일 최대값 방법(The Equal Max-value Method)

다른 실시예에서, 모든 c_H,i 값들(i=0,...,F-1)을 화면 종속적 최대값인 c_H,max 로 설정할 수 있다. 실시예에서, c_H,max는 일정한 밝기를 갖는 앞의 또는 다음의 화면, 즉, 페이드-인 또는 페이드-아웃이 없는 화면에서 사용되는 값을 나타낼 수 있다(예를 들면, _└0,F-1_┘의 모든 i에 대하여 c_H,i=c_H,max=255). 유사하게, c_L,i는 최소값인 c_L,min으로 설정될 수 있고, 이는 페이드 인/페이드 아웃이 없는 이전 또는 다음 화면에서 사용되었다(예를 들면, [0,F-1]의 모든 i에 대하여 c_L,I=c_L,min=0). 이러한 실시예에서, 페이드-인 또는 페이드-아웃 화면 내의 모든 BL 프레임들은 동일한 동적 범위[c_L,min c_H,max]를 가질 것이지만; 그러나, 프레임마다의 VDR 내지 BL 양자화 단계는 상이할 수 있다. 식(3)으로부터, 페이드-인 및 페이드-아웃 전환들에 대한 이러한 적응형 양자화 접근(또한 프레임 단위 적응(frame-by-frame-adaptation)이라고도 불림)은 다음과 같이 표현될 수 있다:

(4)

화면 기반 적응을 적용하여야 하는지(예를 들면, 전체 화면에 대하여 일정한 양자화를 갖는 식들(2) 또는 (3)을 적용하여야 하는지) 또는 프레임 단위 적응을 적용하여야 하는지(예를 들면, 식(4)를 적용하여야 하는지)를 검출하기 위한 결정 알고리즘이 다음에 설명된다.

결정 알고리즘(Decision Algorithm)

실시예에서, 두개의 연속적인 VDR 프레임들, 즉 v_i-1과 v_i를 고려한다. 이후, 결정 알고리즘이 대응하는 양자화된 BL 프레임들(s_i-1과 s_i)의 히스토그램들을 비교하는 것에 의해 얻어질 수 있다. 알고리즘은 단일의 색상 구성성분(예를 들면, 휘도)에 대하여 설명되나, 동작들은 모든 색상 구성성분에 대하여 반복될 수 있다.

단계 1: 프레임 단위(frame-by-frame;fbf)의 적응형 양자화를 가정하고 BL 픽셀값들을 계산한다. 프레임들(v_i-1과 v_i)을 고려하면, 식(4)를 적용하여 대응하는 BL 프레임들의 픽셀값들을 다음과 같이 계산한다:

(a) 프레임 i-1에 대해서는

(5)

(b) 프레임 i에 대해서는

(6)

일반성을 손실하지 않으며, BL 스트림의 색상 구성성분 당 8비트를 가정하면, 프레임들(s_i-1, s_i)에 대하여, n=0,1,...,255에 대한 H_i-1 ^fbf(n) 및 H_i ^fbf(n)로서, 각각이 256 빈(bin)들을 갖는, 대응하는 히스토그램들을 계산하는데 식들(5)와 (6)의 출력을 이용할 수 있다. 여기서 사용된 것과 같이, 히스토그램이라는 용어는 가능한 이격된 픽셀 값들의 각각으로 떨어지는 관찰된 픽셀들의 수를 세는 함수를 나타낸다. 예를 들어, H_i-1 ^fbf(20)=10은 프레임(i-1)의 10개의 픽셀들이 20이라는 값을 갖는다는 것을 나타낸다.

단계 2: H_i-1 ^fbf(n)과 H_i ^fbf(n) 사이의 평균 제곱 차이를 계산한다

단계 1에서 계산된 히스토그램들을 고려하면, 그들의 평균 제곱 차이를 다음과 같이 계산할 수 있다.

(7)

프로세스는 이제 화면 기반 적응형 (sb) 양자화를 이용하는 가정 하에서 반복될 수 있다.

단계 3: 프레임(i-1)과 프레임(i) 중에서 최소와 최대 픽셀값들인

v_{L min} = min{v_L,i-1, v_L,i} 와,

v_{L max} = max{v_H,i-1, v_H,i}을 계산한다.

이후, 프레임들(v_i-1과 v_i)을 고려하면, 이 값들과 식(3)을 적용하여 다음과 같은 대응하는 BL 픽셀 값들을 계산한다.

(8)

(9)

식들(8)과 (9)의 출력을 이용하여, n=0,1,...,255에 대한 프레임 히스토그램들(H_i ^sb(n) 및 H_i-1 ^sb(n))을 계산할 수 있다.

단계 4: H_i-1 ^sb(n)와 H_i ^sb(n) 사이의 평균 제곱 차이를 계산한다.

(10)

단계 5: 프레임 단위 또는 화면 기반 적응을 적용하기 위한 적응형 결정은 다음 두개의 평균 제곱 차이들 사이의 차이에 기초할 수 있는데;

만일 D_i ^fbf < D_i ^sb 이면 프레임 단위 조절을 사용하고

그렇지 않다면 화면 기반 조절을 사용한다.

도 6은 여기서 설명된 것과 같은 결정 알고리즘의 실시예를 요약한다. 단계(610)에서, 프로세스는 두개의 연속적인 이미지들(또는 프레임들)을 일련의 입력 VDR 이미지들로 액세스한다. 여기서 설명된 방법들을 이용하여, 단계들(625 및 630)은 대응하는 BL 이미지들의 두개의 대안적인 표현들을 계산한다. 단계(625)는 프레임 단위 적응을 이용하여(예를 들면, 식들(5)와 (6)을 이용하여) BL 프레임들을 계산한다. 단계(630)는 화면 기반 적응을 이용하여(예를 들면, 식들(8)과 (9)를 이용하여) BL 이미지들을 계산한다. 이렇게 계산된 BL 이미지들에 기초하여, 단계들(625 및 630)은 대응하는 히스토그램들(예를 들면, H_i-1 ^fbf(n), H_i ^fbf(n), H_i ^sb(n), 및 H_i-1 ^sb(n))을 계산할 수 있다. 이러한 히스토그램들을 고려하면, 히스토그램들의 각 세트에 대해 단계들(635 및 640)은 제 1 및 제 2 평균 제곱 차이(예를 들면, 식(7)의 D_i ^fbf 및 식(10)의 D_i ^sb)를 계산할 수 있다. 마지막으로, 단계(650)에서, 두개의 평균 제곱 차이들을 비교하고, 가장 작은 평균 제곱 차이를 갖는 히스토그램들을 산출하는 방법을 양자화 방법으로 선택할 수 있다.

7. 수행 매카니즘들-하드웨어 개요

한 실시예에 따라, 여기서 설명된 기술들이 하나 또는 그 이상의 특수 목적 컴퓨팅 디바이스들에 의해 수행된다. 특수 목적 컴퓨팅 디바이스들은 기술들을 실행하도록 배선에 연결될 수 있고, 또는 하나 또는 그 이상의 애플리케이션 특정 집적 회로들(ASIC들) 또는 기술들을 실행하도록 끊임없이 프로그램되는 필드 프로그래머블 게이트 어레이들(FPGA들)과 같은 디지털 전자 디바이스들을 포함할 수 있으며, 또는 펌웨어, 메모리, 다른 저장 장치, 또는 조합의 프로그램 명령들에 따라 기술들을 실행하도록 프로그램된 하나 또는 그 이상의 범용 하드웨어 프로세서들을 포함할 수 있다. 이러한 특수 목적 컴퓨팅 디바이스들은 또한 기술들을 성취하기 위하여 사용자 프로그래밍된 사용자 배선 연결된 논리, ASIC들, 또는 FPGA들을 조합할 수 있다. 특수 목적 컴퓨팅 디바이스들은 데스크탑 컴퓨터 시스템들, 휴대용 컴퓨터 시스템들, 핸드헬드 디바이스들, 네트워킹 디바이스들 또는 기술들을 수행하기 위한 배선 연결 및/또는 프로그램 논리를 포함하는 임의의 다른 디바이스일 수 있다.

예를 들어, 도 5는 본 발명의 예시적인 실시예가 수행될 수 있는 컴퓨터 시스템(500)을 도시하는 블록도이다. 컴퓨터 시스템(500)은 정보를 통신하기 위한 버스(502) 또는 다른 통신 매카니즘과, 정보를 처리하기 위해 버스(502)에 결합된 하드웨어 프로세서(504)을 포함한다. 하드웨어 프로세서(504)는 예를 들면 범용 마이크로프로세서일 수 있다.

컴퓨터 시스템(500)은 또한 프로세서(504)에 의해 수행될 정보와 명령들을 저장하기 위해 버스(502)에 결합된, 랜덤 액세스 메모리(RAM)와 같은 메인 메모리(506) 또는 다른 동적 저장 디바이스를 포함한다. 메인 메모리(506)는 또한 프로세서(504)에 의해 수행될 명령들의 수행동안 시간 변수들 또는 다른 중간 정보를 저장하기 위해 사용될 수 있다. 이러한 명령들은 프로세서(504)에 액세스가능한 일시적이지 않은 저장 매체에 저장될 때 컴퓨터 시스템(500)을 특별한 목적의 머신으로 랜더링하여 명령들에서 규정된 동작들을 수행하도록 개별화된다.

컴퓨터 시스템(500)은 또한 프로세서(504)를 위한 정적인 정보 및 명령들을 저장하기 위해 버스(502)에 결합된 판독 전용 메모리(ROM)(508) 또는 다른 정적 저장 디바이스를 포함한다. 자기 디스크 또는 광 디스크와 같은 저장 디바이스(510)가 제공되며 정보와 명령들을 저장하기 위해 버스(502)에 결합된다.

컴퓨터 시스템(500)은 컴퓨터 사용자에게 정보를 디스플레이하기 위한 액정 디스플레이와 같은 디스플레이(512)로 버스(502)를 통해 결합될 수 있다. 알파벳 및 다른 키들을 포함하는 입력 디바이스(514)는 정보와 명령 선택들을 프로세서(504)로 통신하기 위해 버스(502)에 결합된다. 사용자 입력 디바이스의 다른 타입은 명령 정보와 명령 선택들을 프로세서(504)로 통신하고 디스플레이(512) 상에서 커서의 움직임을 제어하기 위한 마우스, 트랙볼, 또는 커서 방향 키들과 같은 커서 제어(516)이다. 이러한 입력 디바이스는 전형적으로 디바이스가 평면에서 위치들을 규정할 수 있도록 제 1 축(예를 들면, x)과 제 2 축(예를 들면, y)의 두개의 축들에 2 자유도들을 갖는다.

컴퓨터 시스템(500)은 컴퓨터 시스템(500)이 특별한 목적의 머신이 되도록 하거나 또는 그렇게 되도록 프로그램하는, 개인화된 배선 연결 논리, 하나 또는 그 이상의 ASIC들 또는 FPGA들, 펌웨어 및/또는 프로그램 논리를 컴퓨터 시스템과 함께 이용하여, 여기서 설명된 기술들을 수행할 수 있다. 한 실시예에 따라, 본문의 기술들은 메인 메모리(506)에 포함된 하나 또는 그 이상의 명령들의 하나 또는 그 이상의 시퀀스들을 수행하는 프로세서(504)에 응답하여 컴퓨터 시스템(500)에 의해 실행된다. 이러한 명령들은 저장 디바이스(510)와 같은 다른 저장 매체들로부터 메인 메모리(506)로 판독될 수 있다. 메인 메모리(506)에 포함된 일련의 명령들의 수행은 프로세서(504)가 여기서 설명된 프로세스 단계들을 실행하도록 한다. 대안의 실시예들에서, 배선 연결 회로들이 소프트웨어 명령들 대신 또는 함께 사용될 수 있다.

여기서 사용되는 것과 같은 "저장 매체(storage media)"라는 용어는 머신이 특정 방식으로 동작하도록 하는 데이터 및/또는 명령들을 저장하는 임의의 일시적이지 않은 매체를 나타낸다. 이러한 저장 매체는 비휘발성 매체 및/또는 휘발성 매체를 포함할 수 있다. 비휘발성 매체는 예를 들면, 저장 디바이스(510)와 같은 광학적 또는 자기적 디스크들을 포함한다. 휘발성 매체는 메인 메모리(506)와 같은 동적 메모리를 포함한다. 저장 매체의 일반적인 형태들은 예를 들면, 플로피 디스크, 플렉시블(flexible) 디스크, 하드 디스크, 고체 상태의 드라이브, 자기 테이프, 또는 임의의 다른 자기 데이터 저장 매체들, CD-ROM, 임의의 다른 광학적 데이터 저장 매체들, 구멍들의 패턴들을 갖는 임의의 물리적 매체들, RAM, PROM, EPROM, FLASH-EPROM, NVRAM, 임의의 다른 메모리 칩 또는 카트리지를 포함한다.

저장 매체는 전송 매체와는 구분되지만 함께 사용될 수 있다. 전송 매체는 저장 매체 사이의 정보 전달에 참여한다. 예를 들어, 전송 매체는 버스(502)를 포함하는 배선들을 포함하여, 동축 케이블들, 구리 배선 및 광섬유들을 포함한다. 전송 매체는 무선파 및 적외선 데이터 통신들 동안 생성되는 것과 같은 음파 또는 광파의 형태를 또한 가질 수 있다.

다양한 형태들의 매체가 수행을 위해 하나 또는 그 이상의 명령들의 하나 또는 그 이상의 시퀀스들을 프로세서(504)에 운반하는데 포함될 수 있다. 예를 들어, 명령들은 자기 디스크 또는 원격 컴퓨터의 고체 상태 드라이브 상에서 처음으로 운반될 수 있다. 원격 컴퓨터는 명령들을 그의 동적 메모리로 로드할 수 있고 명령들을 모뎀을 이용하여 전화선을 통해 보낼 수 있다. 컴퓨터 시스템(500)에 대한 지역적 모뎀은 전화선 상에서 데이터를 수신하고 데이터를 적외선 신호로 변환하기 위해 적외선 전송기를 이용할 수 있다. 적외선 검출기는 적외선 신호로 운반된 데이터를 수신할 수 있고 적절한 회로가 데이터를 버스(502) 상에 위치시킬 수 있다. 버스(502)는 데이터를 프로세서(504)가 명령들을 그로부터 검색하고 수행하는 메인 메모리(506)로 운반한다. 메인 메모리(506)에 의해 수신된 명령들은 선택적으로 프로세서(504)에 의한 수행 전 또는 후에 저장 디바이스(510) 상에 저장될 수 있다.

컴퓨터 시스템(500)은 또한 버스(502)에 결합된 통신 인터페이스(518)를 포함한다. 통신 인터페이스(518)는 로컬 네트워크(522)에 연결되는 네트워크 링크(520)에 결합하는 양방향 데이터 통신을 제공한다. 예를 들어, 통신 인터페이스(518)는 통합형 서비스 디지털 네트워크(ISDN) 카드, 케이블 모뎀, 위성 모뎀, 또는 대응하는 타입이 전화선으로 데이터 통신 연결을 제공하기 위한 모뎀일 수 있다. 다른 예로써, 통신 인터페이스(518)는 호환 LAN에 데이터 통신 연결을 제공하기 위한 로컬 영역 네트워크(LAN) 카드일 수 있다. 무선 링크들이 또한 수행될 수 있다. 임의의 이러한 수행에서, 통신 인터페이스(518)는 다양한 타입들의 정보를 표현하는 디지털 데이터 스트림들을 운반하는 전기적, 전자기적 또는 광학적 신호들을 송신하고 수신한다.

네트워크 링크(520)는 전형적으로 하나 또는 그 이상의 네트워크들을 통해 다른 데이터 디바이스들로 데이터 통신을 제공한다. 예를 들면, 네트워크 링크(520)는 로컬 네트워크(522)를 통해 호스트 컴퓨터(524) 또는 인터넷 서비스 제공자(ISP)(526)에 의해 운영된 데이터 장비로 연결을 제공할 수 있다. ISP(526)는 차례로 현재는 일반적으로 "인터넷"(528)이라고 불리는 월드 와이드 패킷 데이터 통신 네트워크를 통해 데이터 통신 서비스들을 제공한다. 로컬 네트워크(522)와 인터넷(528)은 모두 디지털 데이터 스트림들을 운반하는 전기적, 전자기적 또는 광학적 신호들을 사용한다. 컴퓨터 시스템(500)으로 또는 그로부터 디지털 데이터를 운반하는, 다양한 네트워크들을 통한 신호들과 네트워크 링크(520) 상의 및 통신 인터페이스(518)를 통하는 신호들은 전송 매체들의 예시적인 형태들이다.

컴퓨터 시스템(500)은 네트워크(들), 네트워크 링크(520) 및 통신 인터페이스(518)를 통하여 메시지들을 보낼 수 있고 프로그램 코드를 포함하는 데이터를 수신할 수 있다. 인터넷의 예에서, 서버(530)는 인터넷(528), ISP(526), 로컬 네트워크(522) 및 통신 인터페이스(518)를 통해 애플리케이션 프로그램에 대해 필요한 코드를 전송할 수 있다.

수신된 코드는 그것이 수신되는 프로세서(504)에 의해 수행되거나, 및/또는 저장 디바이스(510), 또는 나중 수행을 위해 다른 비휘발성 저장 매체에 저장될 수 있다.

8. 동등물들, 확장들, 대안들 및 기타

상기 명세서에서, 본 발명의 예시적인 실시예들이 수행들마다 변화할 수 있는 다양한 특정의 디테일들을 참조하여 설명되었다. 따라서, 본 발명이 무엇인지, 출원인들에 의해 발명이 되도록 의도된 것은 무엇인지에 대한 유일하고 배타적인 지시자는, 임의의 후속하는 보정을 포함하여, 이러한 청구항들이 지니는 특정 형태의, 본 출원으로부터 생성된 청구항들의 세트이다. 이러한 청구항들에 포함된 항들에 대해 여기서 설명된 임의의 정의들은 청구항들에서 사용된 것과 같은 이러한 용어들의 의미를 지배할 것이다. 이러한 이유로, 청구항들에서 표현적으로 기재되지 않은 어떠한 제한, 소자, 특성, 특징, 장점 또는 속성이라도 어떠한 방식으로도 이러한 청구항의 범주를 제한하지 않아야 한다. 따라서, 명세서 및 도면들은 제한적이기보다는 설명적으로 인식된다.

102,202: VDR 이미지 인코더 130,230: 잔류값들
150,250: VDR 이미지 디코더 122,222: 예측 프로세싱 유닛
500: 컴퓨터 시스템 502: 버스

Claims

층 분해를 이용한 계층적 인코딩 방법에 있어서,
입력 이미지를 일련의 입력 이미지들로 수신하는 단계로서, 상기 입력 이미지는 제 1 비트 깊이를 포함하는, 상기 입력 이미지를 수신하는 단계;
개선된 양자화 함수를 결정하는 단계;
입력 기본층 이미지를 생성하기 위하여 상기 입력 이미지에 상기 개선된 양자화 함수를 적용하는 단계로서, 상기 입력 기본층 이미지는 제 2 비트 깊이를 포함하고, 상기 제 2 비트 깊이는 상기 제 1 비트 깊이보다 낮은, 상기 개선된 양자화 함수를 적용하는 단계;
상기 입력 기본층 이미지로부터 얻어진 이미지 데이터를 기본층(BL) 비디오 신호로 압축하는 단계; 및
상기 입력 이미지로부터 얻어진 이미지 데이터의 적어도 일부를 하나 이상의 강화층(EL) 비디오 신호들로 압축하는 단계를 포함하고,
하나 이상의 이용가능한 개선된 양자화 함수들로부터 상기 개선된 양자화 함수를 결정하는 단계는,
상기 일련의 입력 이미지들 내에서 두 개의 연속적인 입력 이미지들을 선택하는 단계;
두 개의 대응하는 기본층(BL) 이미지들의 제 1 세트를 계산하기 위하여 제 1 적응 함수를 적용하는 단계;
두 개의 대응하는 기본층(BL) 이미지들의 제 2 세트를 계산하기 위하여 제 2 적응 함수를 적용하는 단계;
상기 기본층(BL) 이미지들의 제 1 세트에 기초하여 히스토그램들의 제 1 세트를 계산하는 단계;
상기 기본층(BL) 이미지들의 제 2 세트에 기초하여 히스토그램들의 제 2 세트를 계산하는 단계;
상기 히스토그램들의 제 1 세트에 기초하여 제 1 평균 제곱 차이를 계산하는 단계;
상기 히스토그램들의 제 2 세트에 기초하여 제 2 평균 제곱 차이를 계산하는 단계;
상기 제 1 평균 제곱 차이를 상기 제 2 평균 제곱 차이와 비교하는 단계; 및
상기 제 1 평균 제곱 차이가 상기 제 2 평균 제곱 차이보다 작으면 상기 제 1 적응 함수를 선택하는 단계를 포함하는, 층 분해를 이용한 계층적 인코딩 방법.
제 1 항에 있어서, 상기 입력 이미지로부터 얻어진 이미지 데이터의 적어도 일부를 하나 이상의 강화층(EL) 비디오 신호들로 압축하는 단계는,
상기 기본층(BL) 비디오 신호로부터 기본층(BL) 이미지를 디코딩하는 단계로서, 상기 기본층(BL) 이미지는 상기 입력 기본층 이미지에 대응하는, 상기 기본층(BL) 이미지를 디코딩하는 단계;
하나 이상의 예측 방법들로부터 예측 방법을 선택하는 단계;
상기 예측 방법을 이용하여 상기 기본층(BL) 이미지의 적어도 일부에 기초하여 예측 이미지를 생성하는 단계;
상기 예측 이미지와 상기 입력 이미지에 기초하여 잔류값들을 생성하는 단계;
상기 잔류값들보다 낮은 비트 깊이를 갖는 출력 강화층(EL) 이미지 데이터를 생성하기 위하여 상기 잔류값들에 비선형 양자화를 적용하는 단계; 및
상기 출력 강화층(EL) 이미지 데이터를 상기 하나 이상의 강화층(EL) 비디오 신호들로 압축하는 단계를 포함하는, 층 분해를 이용한 계층적 인코딩 방법.
제 2 항에 있어서, 상기 예측 방법은 상기 개선된 양자화 함수와 상기 예측 방법 사이의 대응 관계에 기초하여 선택되는, 층 분해를 이용한 계층적 인코딩 방법.
제 1 항에 있어서, 상기 개선된 양자화 함수의 양자화는 글로벌 양자화, 선형 양자화, 선형 스트레칭, 곡선 기반 양자화, 확률 밀도 함수(Pdf) 최적화된 양자화, 로이드-맥스(LLoyd-Max) 양자화, 부분 기반 양자화, 인지적 양자화, 또는 교차 색상 채널/벡터 양자화 중 하나 이상을 포함하는, 층 분해를 이용한 계층적 인코딩 방법.
제 1 항에 있어서, 상기 입력 이미지의 동적 범위는 고동적 범위이고, 상기 기본층(BL) 비디오 신호의 동적 범위는 표준 동적 범위(SDR)인, 층 분해를 이용한 계층적 인코딩 방법.
제 1 항에 있어서, 상기 입력 기본층 이미지의 이미지 데이터는 인코더의 제 1의 8비트 인코더에 의해 상기 기본층(BL) 비디오 신호로 압축되고, 상기 입력 이미지의 이미지 데이터의 적어도 일부는 상기 인코더의 제 2의 8비트 인코더에 의해 상기 하나 이상의 강화층(EL) 비디오 신호들로 압축되는, 층 분해를 이용한 계층적 인코딩 방법.
제 6 항에 있어서, 상기 제 1의 8비트 인코더와 상기 제 2의 8비트 인코더 중 적어도 하나는 개선된 비디오 코딩(AVC) 인코더, 동영상 전문가 그룹(MPEG)-2 인코더, 또는 고효율 비디오 코딩(HEVC) 인코더 중 하나를 포함하는, 층 분해를 이용한 계층적 인코딩 방법.
제 1 항에 있어서, 상기 입력 기본층 이미지로부터 얻어진 이미지 데이터를 유지하기 위해 제 1의 이미지 컨테이너가 사용되고, 상기 입력 이미지의 이미지 데이터의 적어도 일부를 유지하기 위해 제 2의 이미지 컨테이너가 사용되는, 층 분해를 이용한 계층적 인코딩 방법.
제 8 항에 있어서, 상기 제 1의 이미지 컨테이너와 상기 제 2의 이미지 컨테이너 중 적어도 하나는 색상 공간의 하나 이상의 채널들의 픽셀 값들을 포함하는, 층 분해를 이용한 계층적 인코딩 방법.
제 8 항에 있어서, 상기 제 1의 이미지 컨테이너와 상기 제 2의 이미지 컨테이너 중 적어도 하나는 복수의 샘플링 스킴들과 연관된 복수의 이미지 컨테이너들로부터 선택되며, 상기 복수의 샘플링 스킴들은 4:4:4 샘플링 스킴, 4:2:2 샘플링 스킴, 또는 4:2:0 샘플링 스킴 중 하나를 포함하는, 층 분해를 이용한 계층적 인코딩 방법.
제 1 항 내지 제 10 항 중 어느 한 항의 층 분해를 이용한 계층적 인코딩 방법을 실행하는, 인코더.
제 1 항 내지 제 10 항 중 어느 한 항의 층 분해를 이용한 계층적 인코딩 방법을 실행하는, 시스템.
제 1 항에 있어서, 상기 개선된 양자화 함수를 결정하는 단계는, 상기 개선된 양자화 함수로서 다음의 선형 스트레칭 함수의 파라미터들을 결정하는 단계를 포함하고,

여기서 v_ji는 상기 일련의 입력 이미지들의 i번째 입력 VDR 이미지의 j번째 픽셀을 나타내며, s_ji는 생성된 i번째 입력 기본층 이미지의 j번째 픽셀을 나타내며, v_L,i와 v_H,i는 i번째 입력 VDR 이미지의 픽셀들 중 최소 및 최대 픽셀값을 나타내며, c_L,i와 c_H,i는 상기 생성된 i번째 입력 기본층 이미지의 픽셀들 중 최소 및 최대 픽셀값을 나타내며, O는 라운드 오프 상수를 나타내는, 층 분해를 이용한 계층적 인코딩 방법.
제 1 항에 있어서, 상기 개선된 양자화 함수를 결정하는 단계는, 상기 개선된 양자화 함수로서 다음의 화면 기반 적응 함수의 파라미터들을 결정하는 단계를 포함하고,

여기서 v_ji는 상기 일련의 입력 이미지들의 화면의 i번째 입력 VDR 이미지의 j번째 픽셀을 나타내며, s_ji는 상기 화면의 생성된 i번째 입력 기본층 이미지의 j번째 픽셀을 나타내며, v_L,min와 v_H,max는 상기 화면의 상기 입력 VDR 이미지들의 픽셀값들 중 최소 및 최대값을 나타내며, c_L,min와 c_H,max는 상기 화면의 상기 생성된 입력 기본층 이미지들의 픽셀들 중 최소 및 최대 픽셀값을 나타내며, O는 라운드 오프 상수를 나타내는, 층 분해를 이용한 계층적 인코딩 방법.
제 1 항에 있어서, 상기 개선된 양자화 함수를 결정하는 단계는, 상기 개선된 양자화 함수로서 다음의 프레임 단위 기반 적응 함수의 파라미터들을 결정하는 단계를 포함하고,

여기서 v_ji는 상기 일련의 입력 이미지들의 전환 화면의 i번째 입력 VDR 이미지의 j번째 픽셀을 나타내며, s_ji는 상기 전환 화면의 생성된 i번째 입력 기본층 이미지의 j번째 픽셀을 나타내며, v_L,i와 v_H,i는 상기 전환 화면의 상기 i번째 입력 VDR 이미지의 픽셀값들 중 최소 및 최대값을 나타내며, c_L,min와 c_H,max는 상기 전환 화면의 상기 생성된 입력 기본층 이미지들의 픽셀들 중 최소 및 최대 픽셀값을 나타내며, O는 라운드 오프 상수를 나타내는, 층 분해를 이용한 계층적 인코딩 방법.
제 15 항에 있어서, 상기 전환 화면은 페이드-인 화면 또는 페이드-아웃 화면을 포함하는, 층 분해를 이용한 계층적 인코딩 방법.
제 1 항에 있어서, 상기 제 1 적응 함수는 프레임 단위 기반 적응 함수이고, 상기 제 2 적응 함수는 화면 기반 적응 함수인, 층 분해를 이용한 계층적 인코딩 방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제