KR101641523B1 - 다층 vdr 코딩에서의 지각적으로-양자화된 비디오 콘텐트의 인코딩 - Google Patents

다층 vdr 코딩에서의 지각적으로-양자화된 비디오 콘텐트의 인코딩 Download PDF

Info

Publication number
KR101641523B1
KR101641523B1 KR1020157026684A KR20157026684A KR101641523B1 KR 101641523 B1 KR101641523 B1 KR 101641523B1 KR 1020157026684 A KR1020157026684 A KR 1020157026684A KR 20157026684 A KR20157026684 A KR 20157026684A KR 101641523 B1 KR101641523 B1 KR 101641523B1
Authority
KR
South Korea
Prior art keywords
values
image
vdr
image data
function
Prior art date
Application number
KR1020157026684A
Other languages
English (en)
Other versions
KR20150119463A (ko
Inventor
구안-밍 수
키안 첸
후베르트 코에퍼
셩 쿠
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Publication of KR20150119463A publication Critical patent/KR20150119463A/ko
Application granted granted Critical
Publication of KR101641523B1 publication Critical patent/KR101641523B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Control Of Indicators Other Than Cathode Ray Tubes (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)

Abstract

입력 VDR 이미지들이 수신된다. 매핑 함수를 위한 함수 파라미터 값들의 후보 세트가 다수의 후보 세트들로부터 선택된다. 적어도 하나의 입력 VDR 이미지에서의 VDR 코드 워드들에서 비-제로 표준 편차들의 이미지 블록들의 세트가 구성된다. 매핑된 코드 값들은 적어도 하나의 입력 VDR 이미지에서의 이미지 블록들의 세트에서의 VDR 코드 워드들에 함수 파라미터 값들의 후보 세트와의 매핑 함수를 적용함으로써 생성된다. 상기 매핑된 코드 값들에 기초하여, 매핑된 코드 워드들에서의 임계 값 아래의 표준 편차들의 이미지 블록들의 서브세트가 이미지 블록들의 세트의 서브세트로서 결정된다. 이미지 블록들의 서브세트에 적어도 부분적으로 기초하여, 함수 파라미터 값들의 후보 세트가 적어도 하나의 입력 VDR 이미지를 매핑시키기 위해 매핑 함수에 최적인지의 여부가 결정된다.

Description

다층 VDR 코딩에서의 지각적으로-양자화된 비디오 콘텐트의 인코딩{ENCODING PERCEPTUALLY-QUANTIZED VIDEO CONTENT IN MULTI-LAYER VDR CODING}
관련 출원들에 대한 상호 참조
본 출원은 2013년 3월 26일에 출원된 미국 가 특허 출원 번호 제61/805,388호, 및 2013년 8월 2일에 출원된, 미국 가 특허 출원 번호 제61/861,555호로부터의 우선권을 주장하며, 그 각각은 여기에 전체적으로 참조로서 통합된다.
본 발명은 일반적으로 이미지 프로세싱에 관한 것이며, 특히 지각적으로-양자화된 비디오를 인코딩하고, 디코딩하며, 표현하는 것에 관한 것이다.
다수의 층들이 다-층 비디오 인코더와 같은 업스트림 디바이스로부터 다운스트림 디바이스들로 비디오 데이터를 전달하기 위해 사용될 수 있다. 예를 들면, 시각적 동적 범위(visual dynamic range; VDR) 비디오 데이터는 VDR 디스플레이들의 경험을 보기 위해 다수의 층들의 기본 층 및 강화 층(EL)의 조합으로 운반된다.
BL 이미지 데이터는 VDR 이미지들로부터 도출된 낮은 또는 부분 동적 범위 이미지 데이터를 갖고 인코딩될 수 있다. 낮은 또는 부분 동적 범위 이미지 데이터에서, VDR 이미지들로부터 매핑된 경계 외 코드 워드들이 타겟 표현 범위로 클리핑(clipping)될 수 있다. VDR 이미지들에 표현된 문자 변화들 및 이미지 상세들은 낮은 또는 부분 동적 범위 이미지 데이터에서 손실될 수 있다.
본 섹션에 설명된 접근법들은 추구될 수 있는 접근법들이지만, 반드시 이전에 상상되거나 추구된 접근법들인 것은 아니다. 그러므로, 달리 표시되지 않는다면, 본 섹션에 설명된 접근법들 중 임의의 것은 단지 이 섹션에서 그것들의 포함에 의해서만 종래 기술로서 자격을 얻는다고 가정되지 않아야 한다. 유사하게, 하나 이상의 접근법들에 대해 식별된 이슈들은 달리 표시되지 않는다면, 이 섹션에 기초하여 임의의 종래 기술에서 인식된 것으로 가정되지 않아야 한다.
본 발명은 지각적으로-양자화된 비디오를 인코딩하고, 디코딩하며, 표현하는 것에 관한 것이다.
입력 VDR 이미지들이 수신된다. 매핑 함수를 위한 함수 파라미터 값들의 후보 세트가 다수의 후보 세트들로부터 선택된다. 적어도 하나의 입력 VDR 이미지에서의 VDR 코드 워드들에서 비-제로 표준 편차들의 이미지 블록들의 세트가 구성된다. 매핑된 코드 값들은 적어도 하나의 입력 VDR 이미지에서의 이미지 블록들의 세트에서의 VDR 코드 워드들에 함수 파라미터 값들의 후보 세트와의 매핑 함수를 적용함으로써 생성된다. 매핑된 코드 값들에 기초하여, 매핑된 코드 워드들에서의 임계 값 아래의 표준 편차들의 이미지 블록들의 서브세트가 이미지 블록들의 세트의 서브세트로서 결정된다. 이미지 블록들의 서브세트에 적어도 부분적으로 기초하여, 함수 파라미터 값들의 후보 세트가 적어도 하나의 입력 VDR 이미지를 매핑시키기 위해 매핑 함수에 최적인지의 여부가 결정된다.
본 발명은 제한에 의해서가 아닌, 단지 예로서 첨부한 도면들의 도들에서 예시되며, 여기에서 유사한 참조 부호들은 유사한 요소들을 나타낸다.
도 1a는 본 발명의 일 실시예에 따른, 다-층 비디오 인코더를 도시한 도면.
도 1b는 본 발명의 일 실시예에 따른, 다-층 비디오 디코더를 도시한 도면.
도 1c 및 도 1d는 본 발명의 실시예들에 따라 구현된 디코더에서 구성기 유닛의 고정-포인트 구현들을 도시한 도면들.
도 2a 및 도 2b는 본 발명의 일 실시예에 따른, 최적의 매핑 파라미터 값들을 찾기 위한 예시적인 알고리즘들을 도시한 도면들.
도 3a 및 도 3b는 본 발명의 일 실시예에 따른, 예시적인 프로세스 흐름들을 도시한 도면들.
도 4는 본 명세서에 설명된 바와 같은 컴퓨터 또는 컴퓨팅 디바이스가 구현될 수 있는 예시적인 하드웨어 플랫폼을 도시한 도면.
다-층 코덱을 사용하여 지각적으로 양자화된 기본 층 이미지 데이터를 포함한 가변적인 동적 범위 이미지들을 인코딩하고, 디코딩하며, 표현하는 것과 관련된 예시적인 실시예들이 본 명세서에서 설명된다. 다음의 설명에서, 설명의 목적들을 위해, 다수의 특정 상세들이 본 발명의 철저한 이해를 제공하기 위해 제시된다. 그러나, 본 발명은 이들 특정 상세들 없이 실시될 수 있다는 것이 분명할 것이다. 다른 인스턴스들에서, 잘-알려진 구조들 및 디바이스들은 본 발명을 불필요하게 가리고, 모호하게 하거나 애매하게 만드는 것을 회피하기 위해, 철저하게 상세히 설명되지 않는다.
예시적인 실시예들이 다음의 개요에 따라 본 명세서에서 설명된다:
1. 일반적인 개요
2. 비디오 콘텐트를 인코딩 및 디코딩하는 것
3. 이미지 콘텐트에 기초하여 이용가능한 코드 워드들을 할당하는 것
4. 다-층 비디오 인코딩
5. 다-층 비디오 디코딩
6. BL 이미지 데이터에서의 시각적 상세들의 보존
7. 멱 함수에서 지수 값의 예시적인 결정
8. 구간 선형 양자화를 포함한 선형 양자화에서 파라미터 값들의 예시적인 결정
9. 예시적인 프로세스 흐름들
10. 구현 메커니즘들 - 하드웨어 개요
11. 등가물들, 확장들, 변경들 및 기타
1. 일반적인 개요
본 개요는 본 발명의 예시적인 실시예의 몇몇 양태들의 기본 설명을 제공한다. 이러한 개요는 예시적인 실시예의 양태들의 광대한 또는 철저한 요약은 아니라는 것이 주의되어야 한다. 게다가, 이러한 개요는 예시적인 실시예의 임의의 특히 중요한 양태들 또는 요소들을 식별하는 것으로서, 특히 예시적인 실시예, 또는 일반적으로 본 발명의 임의의 범위를 기술하는 것으로서 이해되도록 의도되지 않는다는 것이 주의되어야 한다. 이러한 개요는 단지 간결한 및 간소화된 포맷으로 예시적인 실시예와 관련된 몇몇 개념들을 제공하며, 단지 이하에 이어지는 예시적인 실시예들의 보다 상세한 설명에 대한 개념적 서론으로서 이해되어야 한다.
일부 실시예들에서, 다층 코덱들은 매우 다양한 디스플레이들(예로서, VDR 디스플레이들 등)을 위한 압축 이미지들(예로서, 비디오 이미지들)을 포함한 매체 신호를 생성하거나 프로세싱하기 위해 사용될 수 있다. 매우 다양한 넓은 및 좁은 동적 범위 디스플레이들에 대한 우수한 시각적 품질을 제공하기 위해, 다운스트림 디바이스들에 공개될 비디오 콘텐트는 본 명세서에서 설명된 바와 같이 지각적 양자화(perceptual quantization; PQ) 기술들을 구현한 다층화된 코덱에 의해 양자화되며 인코딩될 수 있다. 다운스트림 디바이스들에 의해 렌더링된 바와 같이 이러한 비디오 콘텐트는 다른 기술들에 의해 보여진 것들과 극적으로 상이한 시각적 특성들을 보인다.
본 명세서에서 사용된 바와 같이, 용어("다층 코덱")는 오디오 시각적 신호(예로서, 비트스트림, 방송 신호, 미디어 파일 등)에서 다수의 층들의 구조를 구현하는 다층 인코더 또는 디코더를 나타낼 수 있다. 다수의 층들은 기본 층 및 하나 이상의 강화 층들을 포함한다. 기본 및 강화 층들은 동일한(예로서, 지각적으로 인코딩된, 등) 소스 이미지들로부터 도출된 이미지 데이터를 포함한다. 기본 층에서의 이미지 데이터는 낮은 또는 부분 동적 범위의 압축된 이미지 데이터를 포함하며, 이것은 표준 동적 범위 또는 SDR과 같은 비교적 좁은 동적 범위의 디스플레이들 상에서의 렌더링을 위해 최적화되지 않을 수 있다. 조합하여 다수의 층들에서의 이미지 데이터는 넓은 동적 범위의 압축된 이미지들을 포함하며, 이것은 시각적 동적 범위 또는 VDR과 같은 비교적 넓은 동적 범위의 디스플레이들 상에서 디코딩되며 보여질 수 있다. 본 명세서에서 사용된 바와 같이 용어("VDR" 또는 "시각적 동적 범위")는 표준 동적 범위보다 넓은 동적 범위를 나타낼 수 있으며, 이에 제한되지 않지만 휴먼 비전이 동시에 지각할 수 있는 순시적으로 지각가능한 동적 범위 및 색 영역까지의 넓은 동적 범위를 포함할 수 있다.
본 명세서에서 설명된 바와 같이 다층 코덱은 전체로서 다수의 층들에서 보다 높은 비트 깊이(예로서, 12+ 비트들 등) 이미지들을 지원하기 위해 및 기본 층에서 보다 낮은 비트 깊이(예로서, 8 비트들 등) 이미지들을 지원하기 위해 다수의 층들에서 둘 이상의 하위 비트 깊이(예로서, 8 비트들 등) 코덱들(예로서, 감마-도메인 코덱들 등)을 갖고 구현될 수 있다. 예를 들면, 하나 이상의 감마-도메인 인코더들은 BL 신호 프로세싱 경로에 및/또는 본 명세서에서 설명된 바와 같이 다층 인코더의 하나 이상의 EL 신호 프로세싱 경로들에 배치될 수 있다. 일부 실시예들에서, 적어도 하나의 감마-도메인 디코더는 기본-층 전용 디코더인 다운스트림 디바이스의 BL 신호 프로세싱 경로에 배치될 수 있다.
본 명세서에서 설명된 바와 같이 PQ 기술들은 감마-도메인 코덱들로 하여금 원래 지각적으로-인코딩된 비디오 콘텐트의 시각적 상세들을 보존할 수 있게 하기 위해 사용될 수 있다. 비디오 인코더 측에서 PQ-대-감마 포맷 변환기 및 디코더 측에서 감마-대-PQ 포맷 변환기를 요구하는 대신에, 본 명세서에서 설명된 바와 같은 기술들이 다층 인코더, 다층 디코더, 기본-층 디코더 등에서의 감마-도메인 코덱들로 하여금 이들 포맷 변환기들 없이 지각적으로 인코딩된 비디오 콘텐트의 시각적 상세들을 직접 보존할 수 있게 한다. 넓은 및 좁은 동적 범위들 양쪽 모두에서 이들 시각적 상세들을 보존하는 지각적으로 양자화된 비디오 신호들은 다층 인코더에 의해 PQ-대-감마 포맷 변환을 이용하지 않고 직접 다운스트림 디바이스들에 제공될 수 있다. 유사하게, 다운스트림 디바이스에 의해 수신된 바와 같이 지각적으로 양자화된 비디오 신호들은 감마-대-PQ 포맷 변환을 이용하지 않고 직접 다운스트림 디바이스에 의해 보존된 시각적 상세들을 갖고 디코딩되고/되거나 렌더링될 수 있다. 결과적으로, 계산 복잡도, 코딩 효율성, 및 지각적 품질 모두가 본 명세서에서 설명된 바와 같이 기술들 하에서 상당히 개선될 수 있다.
본 명세서에서 설명된 바와 같이 기술들을 구현한 코덱들은 또한 기본 층(BL) 이미지 데이터 및 원래 입력 이미지 데이터 사이에서 통계적 중복성을 완전히 이용하기 위해 층-간 예측 능력들을 포함하도록 구성될 수 있다. EL 이미지 데이터는, 상이한 층들의 이미지 데이터에서 상관 관계들 및 통계적 중복성을 이용하지 않고 다량의 넓은 동적 범위 이미지 데이터를 운반하는 대신에, (가능하게는 단지) 잔여(또는 상이한) 이미지 데이터를 운반할 수 있다.
일부 예시적인 실시예들에서, 다른 애플리케이션들을 위해 요구된 데이터(이에 제한되지 않지만 지각적 인코딩 동작들과 관련되지 않은 것들 등을 포함한)는 또한 업스트림 디바이스로부터 다운스트림 디바이스로 전달될 기본 층 및 강화 층 이미지 데이터와 함께 포함될 수 있다. 일부 예시적인 실시예들에서, 부가적인 특징들 및/또는 직교 특징들이 본 명세서에서 설명된 바와 같이 기본 및 강화 층들에 의해 지원될 수 있다.
일부 예시적인 실시예들에서, 본 명세서에서 설명된 바와 같은 메커니즘들은, 이에 제한되지 않지만: 핸드헬드 디바이스, 게임 기계, 텔레비전, 랩탑 컴퓨터, 넷북 컴퓨터, 태블릿 컴퓨터, 셀룰러 무선 전화기, 전자 책 판독기, 판매 시점 단말기, 데스크탑 컴퓨터, 컴퓨터 워크스테이션, 컴퓨터 키오스크, 또는 다양한 다른 종류들의 단말기들 및 매체 프로세싱 유닛들 중 임의의 것을 포함한, 매체 프로세싱 시스템의 부분을 형성한다.
바람직한 실시예들 및 본 명세서에서 설명된 일반적인 원리들 및 특징들에 대한 다양한 변경들이 당업자들에게 쉽게 명백할 것이다. 따라서, 개시는 도시된 실시예들에 제한되도록 의도되지 않지만, 본 명세서에서 설명된 원리들 및 특징들과 일치하는 가장 넓은 범위에 부합되도록 의도된다.
2. 비디오 콘텐트를 인코딩 및 디코딩하는 것
휴먼 비전은 두 개의 휘도 레벨들이 서로로부터 충분히 상이하지 않다면 두 개의 휘도 레벨들 사이에서의 차이를 지각하지 않을 수 있다. 대신에, 휴먼 비전은 단지 휘도 레벨들이 최소 가지 차이(just noticeable difference; JND)만큼 상이한 경우에만 차이를 지각한다. 휴먼 비전의 지각적 비선형성으로 인해, 개개의 JND들의 양들은 휘도 레벨들의 범위에 걸쳐 균일하게 사이징되거나 스케일링되지 않으며 오히려 상이한 개개의 휘도 레벨들에 따라 달라진다.
본 명세서에서 설명된 바와 같은 기술들(예로서, 알고리즘들 등)은 BL 및 EL 이미지 데이터의 조합으로 뿐만 아니라, BL 이미지 데이터에서의 소스 비디오 콘텐트의 시각적 상세들을 보존하는 다층 비디오 신호로 소스 비디오 콘텐트를 인코딩하기 위해 다층 인코더에 의해 사용될 수 있다. 일부 실시예들에서, 소스 비디오 콘텐트는 원래 지각적 인코딩 기술들(예로서, 캘리포니아, 샌프란시스코, 돌비 래버러토리즈, 인크.(Dolby Laboratories, Inc.)에 의해 개발된 VDR 인코딩 기술들 등)에 기초하여 소스 인코딩 포맷(예로서, VDR 규격에 의해 정의된 바와 같이 등)에서의 소스 코드 워드들을 갖고 인코딩된다. 일부 실시예들에서, 소스 인코딩 포맷에서의 소스 코드 워드들은 휘도 레벨들이 휴먼 비전의 지각적 비선형성에 매칭시키기 위해 최적으로 이격되거나 양자화되도록 하는 방식으로 분포된 휘도 레벨들을 나타낸다.
본 명세서에서 설명된 바와 같이 다층 인코더에 의해 생성된 다층 비디오 신호는 이에 제한되지 않지만: 다층 디코더들을 가진 디스플레이 시스템들, 기본-층 디코더들을 가진 디스플레이 시스템들 등 중 임의의 것을 포함한 매우 다양한 다운스트림 디바이스들로 직접 또는 간접적으로 송신되거나 그것에 의해 수신될 수 있다.
비교적 넓은 동적 범위 디스플레이 동작들을 지원하는 다운스트림 디바이스(예로서, 다층 디코더 등)는 수신된 다층 비디오 신호에 기초하여 소스 비디오 콘텐트의 넓은 동적 범위 버전을 도출하고/하거나 렌더링할 수 있다. 소스 비디오 콘텐트의 디코딩된 넓은 동적 범위 버전은 소스 비디오 콘텐트에서 소스 코드 워드들에 의해 표현된 휘도 레벨들을 근사하는 타겟팅(targeting)된 휘도 레벨들(예로서, 디바이스-특정 휘도 레벨들 등)을 나타낸다.
비교적 좁은 동적 범위 디스플레이 동작들을 지원하는 다운스트림 디바이스(예로서, BL 디코더 등)는 수신된 다층 비디오 신호의 BL 이미지 데이터에 기초하여 소스 비디오 콘텐트의 시각적 상세들을 갖고 디코딩된 좁은 동적 범위 버전을 도출하고/하거나 렌더링할 수 있다. 소스 비디오 콘텐트의 디코딩된 좁은 동적 범위 버전은, 다운스트림 디바이스에 의해 지원된 비교적 좁은 동적 범위 내에 있을지라도, 소스 비디오 콘텐트에서의 소스 코드 워드들에 의해 표현된 휘도 레벨들로부터 매핑되는 타겟팅된 휘도 레벨들(예로서, 디바이스-특정 휘도 레벨들 등)을 나타낸다.
소스 비디오 콘텐트의 디코딩된 좁은 동적 범위 버전 및 디코딩된 넓은 동적 범위 버전 양쪽 모두가 소스 비디오 콘텐트에서의 소스 코드 워드들에 의해 표현된 휘도 레벨들로부터 매핑되는 타겟팅된 휘도 레벨들(예로서, 디바이스-특정 휘도 레벨들 등)을 나타내지만, 소스 비디오 콘텐트의 디코딩된 좁은 동적 범위 버전은 소스 비디오 콘텐트에서의 소스 코드 워드들에 의해 표현된 휘도 레벨들과 비교하여, 소스 비디오 콘텐트의 디코딩된 넓은 동적 범위 버전보다 많은 에러들(예로서, 비교적 낮은 비트 깊이로 인한 양자화 에러들, 낮은 또는 높은 휘도 레벨들에서의 클리핑 등)을 포함할 수 있다.
3. 이미지 콘텐트에 기초하여 이용가능한 코드 워드들을 할당하는 것
본 명세서에서 설명된 바와 같은 기술들을 사용하지 않는 비디오 코덱은 원래 지각적으로 인코딩된 소스 비디오 콘텐트의 시각적 상세들을 보존하지 않는 방식으로 특정한 비트 깊이(예로서, 8 비트들 등)에서 이용가능한 코드 워드들을 할당한다. 예를 들면, 본 명세서에서 설명된 바와 같은 기술들을 사용하지 않고 감마-도메인 코덱을 포함한 매체 디바이스는 디바이스-특정 동적 범위에서 높은 휘도 서브-범위들(예로서, 밝은 부분들, 하이라이트들 등)에 코드 워드들을 과대-할당하며 디바이스-특정 동적 범위에서 낮은 휘도 서브-범위(예로서, 어두운 부분들, 어두운 영역들 등)에 코드 워드들을 과소-할당할 수 있다. 그 결과, 지각적으로 인코딩된 소스 비디오 콘텐트의 시각적 상세들은 이들 다른 기술들 하에서 불필요하게 손실된다.
본 명세서에서 설명된 바와 같은 기술들 하에서 다층 코덱에서의 비디오 코덱은 이들 기술들을 사용하지 않는 비디오 코덱과 비교하여, 지각적으로 인코딩된 소스 비디오 콘텐트의 시각적 상세들을 보존하는 방식으로 특정한 비트 깊이(예로서, 8 비트들 등)에서 이용가능한 코드 워드들을 할당한다. 그 결과, 소스 비디오 콘텐트에서의 지각적 상세들은 이들 기술들을 사용하지 않고 다른 비디오 코덱들보다 더 양호하게 본 명세서에서 설명된 바와 같이 다층 코덱에 보존된다.
본 명세서에서 설명된 바와 같은 기술들 하에서, 다층 코덱은 소스 비디오 콘텐트에서 이미지 프레임들(예로서, 장면에서 등)에 의해 운반된 이미지 콘텐트에 기초하여 특정 파라미터 값들(예로서, 멱 함수들에서의 지수 값들, 선형 양자화에서의 기울기들, 구간 선형 양자화에서의 피봇(pivot)들 등)을 선택/결정한다. 이미지 콘텐트가 보다 많은 하이라이트 부분들 또는 보다 많은 휘도 레벨들을 포함한다면, 파라미터 값들은 높은 휘도 서브-범위에서 보다 많은 표현된 휘도 레벨들로 하여금 인코딩 또는 디코딩 동작들을 위해 이용가능하게 하도록 선택/결정될 수 있다. 이미지 콘텐트가 보다 적은 하이라이트 부분들 또는 보다 적은 휘도 레벨들을 포함한다면, 파라미터 값들은 높은 휘도 서브-범위에서의 보다 적은 표현된 휘도 레벨들로 하여금 인코딩 또는 디코딩 동작 동안 이용가능하게 하도록 선택/결정될 수 있다. 유사하게, 이미지 콘텐트가 보다 많은 어두운 부분들 또는 보다 많은 휘도 레벨들을 포함한다면, 파라미터는 낮은 휘도 서브-범위에서의 보다 많은 표현된 휘도 레벨들로 하여금 인코딩 또는 디코딩 동작들을 위해 이용가능하게 하도록 선택/결정될 수 있다. 이미지 콘텐트가 보다 적은 어두운 부분들 또는 보다 적은 휘도 레벨들을 포함한다면, 파라미터 값들은 낮은 휘도 서브-범위에서의 보다 적은 표현된 휘도 레벨들로 하여금 인코딩 또는 디코딩 동작들을 위해 이용가능하게 하도록 선택/결정될 수 있다.
4. 다층 비디오 인코딩
이전에 주지된 바와 같이, 기본 층 및 하나 이상의 강화 층들을 포함한 다층 비디오 신호(예로서, 코딩된 비트스트림 등)는 인코딩된 비디오 콘텐트를 다운스트림 디바이스들(그 중 하나는 예를 들면, 도 1b의 다층 디코더(152) 등일 수 있다)로 전달하기 위해 업스트림 디바이스(예로서, 도 1a의 다층 인코더(102))에 의해 사용될 수 있다. 일부 실시예들에서, 다수의 층들에 의해 전달된 비디오 콘텐트는 비교적 낮은 비트 깊이의 BL 이미지 데이터(예로서, 도 1a, 도 1b 등의 106) 및 BL 이미지 데이터를 보완하는 EL 이미지 데이터(예로서, 도 1a, 도 1b 등의 108)를 포함한다. BL 이미지 데이터(106) 및 EL 이미지 데이터(108) 양쪽 모두는 비교적 높은 비트 깊이(예로서, 12+ 비트 VDR 등) 소스 비디오 콘텐트(104)로부터 도출/양자화될 수 있다.
일부 실시예들에서, BL 이미지 데이터(106)는 기본 층 컨테이너(예로서, 8-비트 YCbCr 4:2:0 컨테이너 등)에 위치된다. 일부 실시예들에서, EL 이미지 데이터(108)는 BL 이미지 데이터(106)로부터 생성된 예측된 이미지 데이터에 대한 (예로서, VDR 등) 소스 비디오 콘텐트(104)의 잔여 이미지 데이터를 포함한다. 일부 실시예들에서, EL 이미지 데이터(108)는 하나 이상의 강화 층 컨테이너들(예로서, 하나 이상의 8-비트 잔여 데이터 컨테이너들 등)에 위치된다. BL 이미지 데이터(106) 및 EL 이미지 데이터(108)는 다운스트림 디바이스들(예로서, 도 1b의 152 등)에 의해 (예로서, VDR 등) 소스 비디오 콘텐트(104)의 비교적 높은 비트 깊이(예로서, 12+ 비트들 등) 디코딩된 버전(예로서, 지각적으로 디코딩된 VDR 버전 등)을 재구성하기 위해 수신되며 사용될 수 있다.
본 명세서에서 사용된 바와 같이, 용어("비트 깊이")는 이미지 데이터를 인코딩하거나 양자화하기 위해 이용가능한 코드 워드들을 제공하는 코딩 공간에 제공된 비트들의 수를 나타내고; 낮은 비트 깊이의 예는 8비트들이고; 높은 비트 깊이의 예는 12비트들 이상이다. 특히, 용어("낮은 비트 깊이" 또는 "높은 비트 깊이")는 코드 워드의 최하위 비트들 또는 최상위 비트들을 나타내지 않는다.
일 예시적인 실시예에서, 다층 인코더(102)는 입력 VDR 이미지들의 시퀀스를 포함한 (예로서, VDR 등) 소스 비디오 콘텐트(104)를 수신하도록 구성된다. 입력 VDR 이미지들의 시퀀스는 그 각각이 VDR 이미지들의 시퀀스에서 복수의 입력 이미지들을 포함하는 하나 이상의 장면들을 나타낸다. 본 명세서에서 사용된 바와 같이, "입력 VDR 이미지"는 일반적으로 소스 이미지(예로서, 하이-엔드 이미지 획득 디바이스에 의해 캡처된 장면-참조 이미지 등)의 VDR 버전을 도출하기 위해 사용될 수 있는 넓은 또는 높은 동적 범위 이미지 데이터를 나타낸다. 입력 VDR 이미지는 높은 동적 범위 색 영역을 지원하는 임의의 컬러 공간에 있을 수 있다. 일부 실시예들에서, 입력 VDR 이미지는, 소스 이미지에 대하여, 인코딩하기 위해 VDR 이미지 인코더(102)에 대한 이미지 데이터를 제공하는 유일한 입력이며, 소스 이미지에 대하여, 본 명세서에서 설명된 바와 같은 기술들 하에서 프로세싱하는 기본 층을 위한, 입력 이미지 데이터는 지각적 양자화 기술들을 사용하여 입력 VDR 이미지에 기초하여 생성될 수 있다.
일 예시적인 실시예에서, (예로서, VDR 등) 소스 비디오 콘텐트(104)로부터 디코딩된 입력 VDR 이미지는 YCbCr 컬러 공간에서의 12+ 비트 YCbCr 이미지이다. 일례에서, 입력 VDR 이미지에서 표현된 각각의 픽셀은 컬러 공간(예로서, YCbCr 컬러 공간)에 대해 정의된 모든 채널들(예로서, 휘도 채널(Y), 채도 채널들(Cb 및 Cr) 등)에 대한 코드 워드들을 포함한다. 각각의 코드 워드는 컬러 공간에서 채널들 중 하나 이상에 대한 업샘플링된 또는 다운샘플링된 코드 워드들을 포함한다.
일 예시적인 실시예에서, 다층 인코더(102)는 제 1 컬러 공간(예로서, RGB 컬러 공간 등)에서 제 2 상이한 컬러 공간(예로서, YCbCr 컬러 공간 등)으로 입력 VDR 이미지의 코드 워드들을 변환하도록 구성된다.
일 예시적인 실시예에서, 다층 인코더(102)는 제 1 샘플링 포맷에서(예로서, 4:4:4 샘플링 포맷 등에서)의 입력 VDR 이미지를 제 2 상이한 샘플링 포맷(예로서, 4:2:0 샘플링 포맷 등에서)으로 다운샘플링 또는 업샘플링하도록 구성된다.
일 예시적인 실시예에서, 다층 인코더(102)는 (예로서, 8-비트 등) BL 이미지 데이터(106)를 생성하기 위해 소스 비디오 콘텐트(104)에 대한 지각적 양자화에 관련된 동작들을 수행하도록 구성된다. 지각적 양자화에 관련된 동작들은 이에 제한되지 않지만 매핑 동작들(114), 클리핑 동작들(116), BL 인코딩 동작들(118) 등 중 하나 이상을 포함한다.
매핑 동작들(114)에서, 다층 인코더(102)는 (예로서, VDR 등) 소스 비디오 콘텐트(104)에서 하나 이상의 입력 VDR 이미지들에서의 (예로서, 12 비트+ 등) 입력 VDR 코드 워드들(예로서, VDR 휘도 코드 워드들(vY), VDR 채도 코드 워드들(vC) 등)을 하나 이상의 VDR 이미지들에 대응하는 하나 이상의 매핑된 이미지들에서의 매핑된 코드 워드들(예로서, 매핑된 휘도 코드 워드들(cY), 매핑된 채도 코드 워드들(cC) 등)로 매핑시키기 위해 매핑 함수를 사용하도록 구성된다.
클리핑 동작들(116)에서, 다층 인코더(102)는 최소 값 아래에 있거나 최대 값 위에 있는 매핑된 코드 워드들을 클리핑하도록 구성된다. BL 이미지 데이터(106)의 비트 깊이에서 이용가능한 코드 워드들의 수(예로서, 8비트들의 비트 깊이에서 <= 256 등)는 클리핑되지 않은 매핑된 코드 워드들의 전체 수치 범위를 수용하기에 충분히 크지 않을 수 있다. 따라서, 하나 이상의 매핑된 이미지들에서의 최고 매핑된 코드 워드들 및/또는 최저 매핑된 코드 워드들 중 일부는 클리핑 동작(116)에서 최대 값 및/또는 최소 값으로 클리핑될 수 있다. 다층 인코더(102)는 하나 이상의 매핑된 이미지들 및 하나 이상의 인자들에 기초하여, 최적의 최소 및 최대 값들을 결정/선택하도록 구성된다. 하나 이상의 인자들은 이에 제한되지 않지만: 클리핑될 필요가 있는 매핑된 코드 워드들의 수를 최소화하는 것, 클리핑 동작들 후 하나 이상의 매핑된 이미지들의 하나 이상의(예로서, 핵심적, 중심 등) 부분들의 표현된/지각적 상세들을 최대화하는 것 등을 포함한다.
BL 인코딩 동작들(118)에서, 다층 인코더(102)는 컬러 공간(예로서, YCbCr 컬러 공간 등)의 특정 채널(예로서, 휘도 채널 또는 Y 채널 등)에서의 대응하는 매핑된 코드 워드들(예로서, cY 등)에 소스 코드 워드들(예로서, vY 등)을 매핑시키기 위해 다층 인코더(102)에서 BL 코덱에 의해 사용된 멱 함수의 최적의 지수 값을 결정하도록 구성된다. 일부 실시예들에서, 다층 인코더(102)는 컬러 공간(예로서, YCbCr 컬러 공간 등)의 특정 채널(예로서, 채도 채널 또는 Cb/Cr 채널 등)에서의 대응하는 매핑된 코드 워드들(예로서, cC 등)에 소스 코드 워드들(예로서, vC 등)을 매핑시키기 위해 BL 코덱에 의해 사용된 구간-선형(PWL) 매핑 함수들의 파라미터 값들을 결정하도록 구성된다.
BL 인코딩 동작들(118)에서, 다층 인코더(102)는 멱 함수의 지수 값 및/또는 PWL 매핑 함수들의 파라미터 값들에 기초하여, 소스 비디오 콘텐트(104)로부터 디코딩된 소스 코드 워드들을 매핑된 코드 워드들에 매핑/압축하며 매핑된 코드 워드들을 포맷팅하도록 구성된다. 매핑된 코드 워드들의 일부가 클리핑된다. 매핑된 코드 워드들 중 일부 또는 모두는 낮은 비트 깊이 매핑된 코드 워드들에 높은 비트 깊이 VDR 코드 워드들을 매핑시킴으로써 야기된 양자화 에러들을 포함한다. 다층 인코더(102)는 또한 (예로서, 4:2:0 등) 샘플링 포맷에서 하나 이상의 (예로서, 8-비트 등) BL 이미지 컨테이너들로 (예로서, 8비트 등) BL 이미지 데이터(106)를 포맷팅하도록 구성된다.
일 예시적인 실시예에서, 다층 인코더(102)는 다층 비디오 신호의 부분으로서 BL 이미지 컨테이너들에서의 BL 이미지 데이터(106)를 다운스트림 디바이스(예로서, 도 1b의 다층 디코더(152) 등)에 출력한다.
일 예시적인 실시예에서, 다층 인코더(102)는 하나 이상의 EL 동작들을 수행하도록 구성된다. 하나 이상의 EL 동작들은 이에 제한되지 않지만, BL 디코딩 동작들(120), 역 매핑 동작들(122), 감산 동작들(124), 비선형 양자화 연산자들(126), EL 인코딩 연산들(128) 등 중 임의의 것을 포함한다.
BL 디코딩 동작들(120)에서, 다층 인코더(102)는 (예로서, 8-비트 등) BL 이미지 컨테이너들에서의 (예로서, 8-비트 등) BL 이미지 데이터(106)를 다시 하나 이상의 입력 VDR 이미지들에 대응하는 하나 이상의 매핑된 이미지들에서의 매핑된 코드 워드들로 디코딩하도록 구성된다.
역 매핑 동작들(122)에서, 다층 인코더(102)는 하나 이상의 룩업 테이블들(LUTs)에 기초하여, 매핑된 코드 워드들을 VDR 코드 워드들로 역 매핑시키도록 구성된다. 역 매핑을 위해 사용된 LUT들은 이전 결정된 지수 값들을 가진 멱 함수 및/또는 이전 결정된 파라미터 값들을 가진 PWL 매핑 함수들로부터 분해적으로 또는 수치상으로 도출될 수 있다.
일부 실시예들에서, 이들 LUT들 중 일부 또는 모두는 룩업 키들(예로서, 매핑된 코드 워드들 등) 및 상기 룩업 키들에 대응하는 룩업 값들(예로서, VDR 코드 워드들 등)을 포함한다. 예를 들면, 단지 예시의 목적을 위해, 매핑된 코드 워드들을 VDR 코드 워드들로 역 매핑시키기 위해 사용될 수 있는 역 1D LUT는 si=[0, 1, 2, ... 255]를 다음의 표현으로 치환함으로써 구성될 수 있다:
Figure 112015093722799-pct00001
(1)
여기에서 cL 및 cH는 각각, 매핑 동작들 및/또는 클리핑 동작들에서 결정된 바와 같이 휘도 채널에서 매핑된 코드 워드들의 최소 및 최대 값들이고; vL 및 vH는 각각, 매핑 동작들 및/또는 클리핑 동작들에서 결정된 바와 같이 휘도 채널에서의 VDR 코드 워드들의 최소 및 최대 값들이며; clip(...)은 손실 압축(예를 들면, BL 인코딩 동작들 등에서 발생할 수 있는) 후 임의의 범위-외(예로서, 범위([cL, cH]) 외 등) 코드 워드가 여전히 가장 가까운 유효 VDR 코드 워드로 역 매핑될 수 있음을 보장하기 위한 클리핑 함수이다.
다른 유형들의 LUT들(예로서, PWL-기반 등)이 또한 유사한 방식으로 수치상으로 구성될 수 있다. 본 명세서에서 설명된 바와 같이 LUT들의 각각은 BL 이미지 데이터(106)로부터 디코딩된 매핑된 코드 워드들을 적용가능한 컬러 공간의 하나 이상의 특정 채널들에서 대응하는 VDR 코드 워드들로 역으로 매핑시키기 위해 사용될 수 있다.
일부 실시예들에서, 다층 인코더(102)는 다운스트림 디바이스(예로서, 도 1b의 다층 디코더(152) 등)에 의해 VDR 이미지들을 재구성하기 위해 EL 층들에서 운반될 필요가 있는 EL 이미지 데이터의 양을 감소시키기 위해 BL-대-EL 예측(예로서, 인트라 및/또는 인터 예측 등)을 구현하도록 구성된다. 다층 인코더(102)는 역 매핑 동작들(122)을 통해 획득된 VDR 코드 워드들에 적어도 부분적으로 기초하여, 예측 이미지 데이터를 생성할 수 있다.
감산 동작들(124)에서, 다층 인코더(102)는 소스 비디오 콘텐트(104)로부터 디코딩된 VDR 코드 워드들 및 예측 이미지 데이터에서 표현된 VDR 코드 워드들 사이에서의 잔여 값들을 생성하도록 구성된다. 특정 채널(예로서, 휘도 채널, Y 채널 등)에서의 잔여 값들은 대수 도메인에서 또는 선형 도메인에서 감산 동작들(124)에 의해 생성된 차이들일 수 있다.
비-선형 양자화 동작들(126)에서, 다층 인코더(102)는 하나 이상의 NLQ 파라미터들을 사용하여 컬러 공간(예로서, YCbCr 등)에서 제 2 디지털 표현(예로서, 8-비트 등)으로 제 1 디지털 표현(예로서, 12+ 비트 등)에서의 잔여 값들을 양자화하도록 구성된다.
EL 인코딩 동작들(128)에서, 다층 인코더(102)는 비-선형 양자화 동작들에 의해 생성된 바와 같이 (예로서, 8-비트 등) 잔여 값들을, (예로서, 4:2:0 등) 샘플링 포맷에서 (예로서, 8-비트 등) EL 이미지 컨테이너에서의 EL 이미지 데이터(108)로 인코딩하도록 구성된다. 강화 층에서 EL 이미지 컨테이너는, 이미지 컨테이너들 양쪽 모두가 동시에 단일 디지털 비디오 신호(예로서, 단일 코딩된 비트스트림, 단일 매체 파일, 단일 방송 등)에 포함될 수 있을지라도, 기본 층에서의 BL 이미지 컨테이너로부터 논리적으로 분리될 수 있다.
일 예시적인 실시예에서, 다층 인코더(102)는 다층 비디오 신호의 일부로서 EL 이미지 컨테이너들에서의 EL 이미지 데이터(108)를 다운스트림 디바이스(예로서, 도 1b의 다층 디코더(152) 등)로 출력한다.
일 예시적인 실시예에서, 다층 인코더(102)는 다층 비디오 신호의 일부로서 다층 인코더(102)의 동작들에서 사용된 동작 파라미터들의 일부 또는 모두를 포함한 메타데이터(130)를 다운스트림 디바이스(예로서, 도 1b의 다층 디코더(152) 등)로 출력한다. 다운스트림 디바이스들로 송신된 메타데이터(130)에서의 동작 파라미터들은 이에 제한되지 않지만: 매핑 파라미터들, 클리핑 파라미터들, 감마 압축을 위한 멱 함수들에서 사용된 지수 값들, 역 매핑 파라미터들, LUT들, PWL 함수들에서의 피봇 값들, 비-선형 양자화 파라미터들 등 중 하나 이상의 임의의 것을, 매핑 파라미터들(134) 및 NLQ 파라미터들(132) 등에 의해 포함한다. 메타데이터(130)는, EL 층들 및/또는 BL 층에서, 또는 예를 들면, 비디오 비트 스트림에서 이용가능한 보완 강화 정보(supplemental enhancement information; SEI) 또는 다른 유사한 메타데이터 캐리지들의 일부로서, 전체 비디오 비트스트림의 별개의 서브-비트스트림에서 운반된 데이터의 일부일 수 있다. 일 예시적인 서브-비트스트림은 돌비 래버러토리즈, 인크에 의해 개발된 기준 프로세싱 유닛(RPU) 스트림일 수 있다.
예를 들면, 역 매핑 동작들(122)에서 사용된 LUT들은 메타데이터(130)의 일부로서 다운스트림 디바이스들로 송신될 수 있다. 일부 실시예들에서, LUT에서 룩업 키들 및 상기 룩업 키들에 대응하는 값들은 메타데이터(130)의 일부로서 다운스트림 디바이스들로 송신된다. 일부 실시예들에서, 적어도 하나의 LUT는 분석 함수 또는 다중-세그먼트 분석 함수에 의해 표현 가능할 수 있다. LUT에서 룩업 키들 및 상기 룩업 키들에 대응하는 값들을 다운스트림 디바이스들로 송신하는 대신에, 분석 함수를 정의한 파라미터들이, 송신 시 메타데이터(130)의 양을 감소시키기 위해, 메타데이터(130)의 일부로서 다운스트림 디바이스들에 전송된다. 일부 실시예들에서, 숫자상으로 LUT를 도출하기 위해 사용된 매핑 함수에서의 파라미터들은 LUT에서 룩업 키들 및 상기 룩업 키들에 대응하는 값들을 송신하는 대신에, 메타데이터(130)의 일부로서 다운스트림 디바이스들로 송신된다. 다운스트림 디바이스는 표현(1)을 갖고 예시된 바와 같이 LUT를 도출하기 위해 파라미터들을 사용할 수 있다. 인코딩 및 디코딩 동작들을 통제하는 비디오 코덱 규격은 본 명세서에서 설명된 바와 같이 파라미터들 중 하나 이상을 업스트림 디바이스(예로서, 다층 인코더(102) 등)로부터 다운스트림 디바이스들(예로서, 다층 디코더(152) 등)로 전달하기 위해 구문 요소들을 포함할 수 있다.
EL 이미지 데이터(108), BL 이미지 데이터(106) 및 메타데이터는 소스 비디오 콘텐트(104)에서 비교적 넓은 동적 범위 입력 이미지들을 표현하는 비교적 넓은 동적 범위(예로서, VDR, HDR 등) 이미지들의 디코딩된 버전을 생성하기 위해 다운스트림 디바이스에 의해 사용될 수 있다.
BL 인코딩 동작들(118), BL 디코딩 동작들(120), EL 인코딩 동작들(128) 등과 같은 동작들 중 하나 이상은 이에 제한되지 않지만, H.264/AVC/HEVC, MPEG-2, VP8, VC-1, 및/또는 기타의 임의의 조합을 포함하여, 복수의 코덱들 중 하나 이상을 사용하여 구현될 수 있다.
5. 다층 비디오 디코딩
비디오 콘텐트를 포함한 다층 비디오 신호(예로서, 코딩된 비트스트림 등)는 다층 디코더(예로서, 도 1b의 152 등)에 의해 수신될 수 있다. 일부 실시예들에서, 다층 디코더(152)에 의해 수신된 비디오 콘텐트는 비교적 낮은 비트 깊이의 BL 이미지 데이터(예로서, 도 1a, 도 1b 등의 106) 및 EL 이미지 데이터(예로서, 도 1a 및 도 1b의 108 등)를 포함한다. 일부 실시예들에서, BL 이미지 데이터(106) 및 EL 이미지 데이터(108) 양쪽 모두는 비교적 높은 비트 깊이(예로서, 12+ 비트 VDR 등) 소스 비디오 콘텐트(예로서, 도 1a의 104 등)로부터 도출/양자화된다. 일부 실시예들에서, 다층 디코더(152)는 다층 비디오 신호의 일부로서 BL 이미지 데이터(106) 및 EL 이미지 데이터(108)를 생성하는 동작들에서 사용된 동작 파라미터들의 일부 또는 모두를 포함한 메타데이터(130)를 수신하도록 구성된다.
일부 실시예들에서, BL 이미지 데이터(106)는 기본 층 컨테이너(예로서, 8-비트 YCbCr 4:2:0 컨테이너 등)에 위치된다. 일부 실시예들에서, EL 이미지 데이터(108)는 BL 이미지 데이터(106)로부터 생성된 예측된 이미지 데이터에 대한 (예로서, VDR 등) 소스 비디오 콘텐트(104)의 잔여 이미지 데이터를 포함한다. 일부 실시예들에서, EL 이미지 데이터(108)는 하나 이상의 강화 층 컨테이너들(예로서, 하나 이상의 8-비트 잔여 데이터 컨테이너들 등)에 위치된다.
일 예시적인 실시예에서, 다층 디코더(152)는 다층 비디오 신호를 생성하기 위해 사용된 소스 비디오 콘텐트에서 소스 이미지들의 재구성된 버전(예로서, 재구성된 BL+EL 비디오 콘텐트(166) 등)을 표현하는 하나 이상의 넓은 동적 범위(예로서, VDR 등) 이미지들을 생성하기 위해 BL 이미지 데이터(106) 및 EL 이미지 데이터(108)에 대한 PQ-기반 디코딩 동작들을 수행하도록 구성된다. PQ-기반 디코딩 동작들은 이에 제한되지 않지만: BL 디코딩 동작(160), 역 매핑 동작들(162), EL 디코딩 동작들(154), 비-선형 역-양자화 동작들(156), 추가 동작들(158) 등 중 하나 이상을 포함한다.
BL 디코딩 동작들(160)에서, 다층 디코더(152)는 하나 이상의 매핑된 이미지들(예로서, 톤-매핑 이미지들)에서 매핑된 코드 워드들로 (예로서, 8-비트 등) BL 이미지 컨테이너들에서의 (예로서, 8비트 등) BL 이미지 데이터(106)를 디코딩하도록 구성된다.
역 매핑 동작들(162)에서, 다층 디코더(152)는 - 예를 들면, 메타데이터(130)로부터 디코딩된 하나 이상의 룩업 테이블들(LUTs)에 기초하여 - 매핑된 코드 워드들을 VDR 코드 워드들로 역 매핑하도록 구성된다. 일부 실시예들에서, 다층 디코더(152)는 룩업 키들 및 상기 룩업 키들에 대응하는 값들에 대하여 메타데이터(130)에서 LUT들을 직접 수신하도록 구성된다. 일부 실시예들에서, 다층 디코더(152)는 하나 이상의 함수들에 관련된 하나 이상의 지수 값들, 피봇-관련 값들 등과 같은 파라미터 값들을 수신하도록 및 역 매핑 동작들(162)에서 적용하기 위해 하나 이상의 LUT들(예로서, 룩업 키들 및 룩업 키들에 대응하는 값들 등)을 생성하기 위해 (예로서, 숫자상으로 등) 파라미터 값들 및 하나 이상의 함수들을 사용하도록 구성된다.
EL 디코딩 동작들(154)에서, 다층 인코더(152)는 (예로서, 4:2:0 등) 샘플링 포맷에서의 (예로서, 8-비트 등) EL 이미지 컨테이너에 있을 수 있는, EL 이미지 데이터(108)를 디코딩함으로써 (예로서, 8-비트 등) 잔여 값들을 생성하도록 구성된다.
비-선형 역-양자화 동작들(156)에서, 다층 디코더(152)는 메타데이터(130)로부터 디코딩된 하나 이상의 NLQ 파라미터들을 사용하여 (예로서, YCbCr 등) 컬러 공간에서 비교적 높은 비트 깊이 디지털 표현(예로서, 12+ 비트 등)으로 디코딩된 바와 같이 비교적 낮은 비트 깊이 디지털 표현(예로서, 8-비트 등)에서 잔여 값들을 역-양자화하도록 구성된다.
부가 동작들(158)에서, 다층 디코더(152)는 EL 디코딩 동작들(154)에서 생성된 잔여 값들 및 역 매핑 동작들(162)에서 생성된 VDR 코드 워드들에 기초하여 하나 이상의 넓은 동적 범위 이미지들의 재구성된 버전을 생성하도록 구성된다. 하나 이상의 넓은 동적 범위 이미지들의 재구성된 버전은 예를 들면, 다층 디코더(152)와 함께 동작하거나 그것을 포함하는 (예로서, HDR, VDR 등) 디스플레이 시스템에 의해, 디스플레이 패널로 출력되고/되거나 그것 상에서 렌더링될 수 있다.
일부 실시예들에서, 다층 디코더(152)는 다층 디코더(152)에 의해 VDR 이미지들을 재구성하기 위해 EL 층들에서 운반될 필요가 있는 EL 이미지 데이터의 양을 감소시키기 위해 BL-대-EL 예측(예로서, 인트라 및/또는 인터 예측 등)을 구현하도록 구성된다. 다층 디코더(152)는 역 매핑 동작들(122)을 통해 획득된 VDR 코드 워드들에 적어도 부분적으로 기초하여, 부가 동작들(158)에 사용될 VDR 코드 워드들을 포함하는 예측 이미지 데이터를 생성할 수 있다.
일부 실시예들에서, 다층 디코더(152)의 역 매핑(162) 또는 BL 디코딩 동작들(160)에서 사용된 구성요소들 또는 모듈들은 다층 인코더(102)의 역 매핑(120) 또는 BL 디코딩 동작들(118)에서 사용된 것들과 동일하거나 대체로 동일할 수 있다.
다층 디코더(152)에 의해 수행된 동작들 중 하나 이상은 이에 제한되지 않지만, H.264/AVC/HEVC, MPEG-2, VP8, VC-1, 및/또는 기타의 임의의 조합을 포함한, 복수의 코덱들 중 하나 이상을 사용하여 구현될 수 있다.
일부 실시예들에서, 비-선형 역-양자화기(156), 역 매핑(162), 및 가산기(158)는 구성기 유닛(163)의 일부일 수 있다. 제한 없이, 일 실시예에서, 구성기 유닛(163)은 프로세서 상에서 실행하는 프로세서-판독가능한 지시들을 사용하여, 또는 FPGA 등과 같은 전용 하드웨어를 사용하여, 또는 범용 및 전용 프로세서들의 조합을 사용하여 구현될 수 있다.
도 1c는 본 발명의 일 실시예에 따른 고정-포인트 산술을 사용하여 구현된 "기본 프로파일" 구성기(163)에 대한 데이터 흐름을 묘사한다. 예측 계수들(ai, bi, 및 ci), 역 양자화기 파라미터들(s, m, rmax 및 t), 다른 메타데이터 파라미터들(피봇 값들(xi)과 같은), 및 입력 데이터(xBL 및 xEL)를 고려해볼 때, 구성기 동작들은 다음과 같이 표현될 수 있다:
Figure 112015093722799-pct00002
도 1d는 본 발명의 또 다른 실시예에 따른 고정-포인트 산술을 사용하여 구현된 "메인 프로파일" 구성기(163)에 대한 데이터 흐름을 묘사한다. 도 1d에서, xBL[0]은 루마 채널 샘플을 나타내는 반면, xBL [1] 및 xBL [2]는 채도 채널 샘플들을 나타낸다. xBL [0]에 대해, 예측은 도 1c에 묘사된 바와 같이, 계수들(ai, bi, 및 ci)을 가진 2차 다항식들을 사용하여 수행될 수 있다. 채도 샘플들에 대해, 예측은, 2012년 4월 13일에 출원되고 본 명세서에 전체적으로 참조로서 통합된, 일련 번호 PCT/US2012/033605를 가진 PCT 출원에 설명된 바와 같이, 2차 다항식에 기초할 수 있거나 그것은 다중-컬러 채널 다중 회귀 예측기(MMR)에 기초할 수 있다.
도 1d에 묘사된 EL 역 양자화 단계는 파라미터들(s, m, t, rmax)을 사용하여, 도 1c에서 보다 상세히 묘사된 것과 동일할 수 있다. 고정 계수 공간 업-샘플링은 대응하는 플래그(예로서, el_spatial_resampling_filter_flag)가 1로 설정된다면 사용 중이다. 일 실시예에서, 2×2 업-샘플링 필터는 8-탭 수평 필터 및 6-탭 수직 필터와 함께 사용된다. 또한 EL 공간 업-샘플링 및 BL 공간 업-샘플링이 상호 배타적임을 주의하자.
6. BL 이미지 데이터에서 시각적 상세들의 보존
예시의 목적을 위해, 매핑 동작들(114), 클리핑 동작들(116), 또는 BL 인코딩 동작(118) 등 중 하나 이상에서, 다층 인코더(102)는 양자화되며 BL 이미지 데이터(106)로 인코딩될 수 있는, 매핑된 휘도 코드 워드들에 소스 비디오 콘텐트(104)로부터 디코딩된 VDR 휘도 코드 워드들을 매핑시키기 위해 매핑 함수로서 지수 값(α)을 갖고 멱 함수를 사용하도록 구성된다. 멱 함수는 다음의 표현에서 나타내어질 수 있다:
Figure 112015093722799-pct00003
(2)
지수 값(α, 표현(1)에서의 것과 동일할 수 있는)이 일(1)일 때, 상기 멱 함수는 선형 양자화 매핑으로 감소된다. 이용가능한 비트 레이트가 높을 때, 지수 값은 가능하게는 블로키(blocky) 아티팩트들이 높은 비트 레이트들을 갖고 발생할 가능성이 적기 때문에 비교적 높은 범위 내에서 설정될 수 있다. 이용가능한 비트 레이트가 낮을 때, 지수 값은 가능하게는 블로키 아티팩트들이 낮은 비트 레이트들을 갖고 발생할 가능성이 높기 때문에 비교적 작은 범위 내에서 설정될 수 있다. 높은 지수 값은 매핑 함수가 낮은 휘도 레벨들보다 높은 휘도 레벨들에 비교적 더 많은 코딩된 워드들을 할당하게 하며 BL 이미지 데이터(106)가 보다 적은 압축 아티팩트들을 가진 재구성된 이미지들의 하이라이트 부분들에서 보다 많은 상세들을 포함할 수 있게 할 수 있다. 그러나, 높은 지수 값은 또한 상이한(예로서, VDR 등) 소스 코드 워드들을 재구성된 이미지들의 어두운 부분들에서 동일한 또는 매우 가까운 압축된 코드 워드들로 병합하려는 경향이 있다. 최악의 경우에, 소스 비디오 콘텐트에서 비-평면 어두운 부분(예로서, 지각가능한 휘도 분산들 등을 가진)은 재구성된 이미지들에서 완전히 평면(예로서, 0에 가까운 또는 휴먼 비전에서 최소 가지 차이 아래 등의 휘도 분산들을 가진)이 될 수 있어서, 매우 현저한 블로키 아티팩트들을 야기한다.
블로키 아티팩트들을 방지하도록 돕기 위해, 본 명세서에서 설명된 바와 같이 다층 인코더(예로서, 102)는 지수 값이 초과하지 않아야 하는 상한(MAX_α)을 갖고 구성될 수 있다. 일부 실시예들에서, 이러한 상한은 어떤 비트 레이트들이 본 명세서에서 설명된 바와 같이 다층 비디오 신호를 수신하기 위해 이용가능한지에 의존하여 구성/설정/결정될 수 있다. 다층 인코더(예로서, 102)는 소스 비디오 콘텐트에 기초하여, 상한에 의해 제한된 바와 같이, 최적의 지수 값을 결정하도록 구성된다.
일부 실시예들에서, 전체 최적의 지수 값은 전체 장면에 대해, 복수의 입력 VDR 이미지들 등에 대해 선택될 수 있다. 각각의 입력 VDR 이미지에 대해, 이미지-특정 최적의 지수 값이 먼저 상기 입력 VDR 이미지에 기초하여 결정될 수 있다. 장면에 대한 전체 최적의 지수 값은 그 후 장면에서 하나 이상의 입력 VDR 이미지들에 대한 하나 이상의 이미지-특정 최적의 지수 값들로부터 선택될 수 있다(예로서, 최소 지수 값 등).
일부 실시예들에서, 입력 VDR 이미지는 복수의 VDR 이미지 블록들로 분할될 수 있다. 이미지 블록들의 코드 워드들 중에서 표준 편차들은 이미지 블록들에서의 텍스처의 각각의 양들에 대한 표시들이다. 본 명세서에서 설명된 바와 같이 비-제로 표준 편차는 대안적으로 비-제로 최대-최소 차들(예로서, 이미지 블록에서 최대 및 최소 값들 사이에서의 차이 등), 비-제로 분산들, 그 각각이 비-제로 표준 편차 또는 비-제로 분산에 대응하는 평활도 측정 값들 등 중 하나를 갖고 표현되거나 결정될 수 있다. 반대로, 본 명세서에서 설명된 바와 같이 제로 표준 편차는 대안적으로 제로 최대-최소 차들, 제로 분산들, 그 각각이 제로 표준 편차 또는 제로 분산에 대응하는 평활도 측정 값들 등 중 하나를 갖고 표현되거나 결정될 수 있다. 매핑-유도 블로키 아티팩트는 비-제로 표준 편차를 가진 VDR 이미지 블록이 제로 또는 매우 작은 표준 편차(예로서, JND의 작은 부분 등)의 매핑된 코딩된 워드들을 포함한 대응하는 매핑된 이미지 블록에 매핑될 때 발생한다. 일부 실시예들에서, 이미지 블록(예로서, VDR 이미지 블록, 매핑된 이미지 블록 등)에서 비-제로 표준 편차의 결정은 상기 이미지 블록에서 최대 및 최소 값들 사이에서의 비-제로 차이의 결정과 같거나 그것으로 감소된다. 마찬가지로, 이미지 블록(예로서, VDR 이미지 블록, 매핑된 이미지 블록 등)에서의 제로 표준 편차의 결정은 최대 및 최소 값들 사이에서의 제로 차이의 결정과 같거나 그것으로 감소된다. 여기에서, 매핑된 이미지 블록은 SDR 디스플레이 상에서 보기 위해 최적화되지 않을 수 있는 압축된 이미지 데이터를 캡처한다.
7. 멱 함수에서 지수 값의 예시적인 결정
일부 실시예들에서, 매핑 동작들(114), 클리핑 동작들(116), 또는 BL 디코딩 동작(118) 등 중 하나 이상에서, 다층 인코더(102)는 소스 비디오 콘텐트(104)로부터 디코딩된 VDR 코드 워드들(예로서, VDR 휘도 코드 워드들 등)을 매핑된 코드 워드들(예로서, 매핑된 휘도 코드 워드들 등)에 매핑하기 위해 멱 함수를 사용하도록 구성되며, 이것은 BL 이미지 데이터(106)의 일부로서 양자화되고 인코딩될 수 있다. 일부 실시예들에서, 다층 인코더(예로서, 102)는 도 2a에 예시된 바와 같이, 멱 매핑 함수의 최적의 지수 값(α)을 찾기 위해 고속 탐색 알고리즘 또는 프로세스 흐름을 구현한다.
블록(202)에서, 다층 인코더(102)는 다음과 같이 초기화 동작들을 수행한다. 장면에서 F 입력 VDR 이미지들의 세트에서의 각각의 입력 VDR 이미지(j)에 대해, 다층 인코더(102)는 최적의 지수 값(αopt[j])을 1.0으로 초기화한다. 다층 인코더(102)는 또한 장면에서 F 입력 VDR 이미지들의 세트에서의 각각의 입력 VDR 이미지를 N개의 이미지 블록들로 분할한다. 다층 인코더(102)는 또한 j를 시작 값, 예로서 0으로 설정한다.
블록(204)에서, 다층 인코더(102)는 j가 F보다 작은지를 결정한다. 참이면, 프로세스 흐름은 블록(206)으로 간다. 거짓이면, 프로세스 흐름은 블록(220)으로 간다.
블록(206)에서, 입력 VDR 이미지(j)에서의 각각의 이미지 블록(n)에 대해, 다층 인코더(102)는 상기 이미지 블록에서 최대 및 최소 휘도 값들(B(j,n) 및 A(j,n))을 계산한다. 입력 VDR 이미지(j)에서 비-제로 표준 편차들을 가진 이미지 블록들의 세트(Φj)는 다음의 표현에 기초하여 구성된다:
Figure 112015093722799-pct00004
(3)
부가적으로, 다층 인코더(102)는 로컬 변수(αj)를 초기 값, 예를 들면, 1.0으로 초기화한다.
블록(208)에서, 다층 인코더(102)는 αj가 MAX_α보다 작은지를 결정한다. 참이면, 프로세스 흐름은 블록(210)으로 간다. 거짓이면, 프로세스 흐름은 블록(218)으로 간다.
블록(210)에서, 세트(Φj)에서 각각의 이미지 블록(n)에 대해, 다층 인코더(102)는 αj로서 지수 값을 가진 멱 함수에 기초하여, 상기 블록에서의 VDR 코드 워드들(예로서, VDR 휘도 코드 워드들 등)을 대응하는 매핑된 이미지 블록에서의 매핑된 코드 워드들(예로서, 매핑된 휘도 코드 워드들 등)로 매핑하며, 다음의 표현들에 도시된 바와 같이, 세트(Φj)로부터 도출된 매핑된 이미지 블록들의 세트에서의 매핑된 이미지 블록에서 최대 및 최소 값들(b(j,n) 및 a(j,n))을 계산한다:
Figure 112015093722799-pct00005
(4)
Figure 112015093722799-pct00006
(5)
그 다음에, 다층 인코더(102)는 다음의 표현에 도시된 바와 같이, 임계치(Tσ)보다 큰 표준 편차들을 가진 매핑된 이미지 블록들의 총 수를 결정한다:
Figure 112015093722799-pct00007
(6)
여기에서 Tσ는 제로(0), 제로에 가까운 값, JND의 부분, 매핑 동작들에서 양자화 에러들에 대한 상한 등 중 하나로 설정될 수 있다.
블록(212)에서, 다층 인코더(102)는 비-제로 표준 편차들을 가진 매핑된 이미지 블록들의 총 수가 세트(Φj)에서 요소들의 총 수와 같은지를 결정한다. 참이면, 프로세스 흐름은 블록(214)으로 간다. 거짓이면, 프로세스는 블록(218)으로 간다.
블록(214)에서, 다층 인코더(102)는 αopt[j]를 αj로 설정한다.
블록(216)에서, 다층 인코더(102)는 양의 증분, 예로서 0.1만큼 αj를 증가시킨다. 프로세스 흐름은 블록(208)으로 간다.
블록(218)에서, 다층 인코더(102)는 1만큼 j를 증가시킨다. 프로세스 흐름은 블록(204)으로 간다.
블록(220)에서, 다층 인코더(102)는, 장면에서 F 입력 VDR 이미지들의 세트에 대한 전체 최적의 지수 값으로서, αopt[j] 중 하나를 선택하며, 여기에서 j는 0에서 (F-1)까지이다.
일부 실시예들에서, 전체 최적의 지수 값은, 다음의 표현에 도시된 바와 같이, αopt[j] 중에서 최소 값으로서 선택되며, 여기에서 j는 0에서 (F-1)까지이다:
Figure 112015093722799-pct00008
(7)
표현(7)에 예시된 바와 같이 전체 최적의 지수 값을 가진 멱 매핑 함수를 사용하는 것은 매핑-유도 완전 평면 이미지 블록들이 F 입력 VDR 이미지들의 세트로부터 매핑된 모든 이미지들에서 발생하는 것을 방지하며, 그에 대한 가능성을 감소시킨다.
일부 다른 실시예들에서, 전체 최적의 지수 값은 반드시 그런 것은 아니지만 αopt[j] 중에서 최소 값에 가까운 값일 수 있으며, 여기에서 j는 0에서 (F-1)까지이다. 최소가 아닌 전체 최적의 지수 값을 가진 멱 매핑 함수를 사용하는 것은 여전히 하나 이상의 매핑-유도 완전 평면 이미지 블록들이 F 입력 VDR 이미지들의 세트로부터 매핑된 이미지들 중 하나 이상에서 발생하게 할 수 있다.
도 2a에 예시된 동작들에 대한 예시적인 알고리즘 목록이 다음의 표에 도시된다:
Figure 112015093722799-pct00009
8. 구간 선형 양자화를 포함한 선형 양자화에서 파라미터 값들의 예시적인 결정
일부 실시예들에서, 매핑 동작들(114), 클리핑 동작들(116), 또는 BL 디코딩 동작(118) 등 중 하나 이상에서, 다층 인코더(102)는 소스 비디오 콘텐트(104)로부터 디코딩된 VDR 코드 워드들(예로서, VDR 채도 코드 워드들 등)을 매핑된 코드 워드들(예로서, 매핑된 채도 코드 워드들 등)에 매핑하기 위해 PWL 매핑 함수(또는 PWL 양자화기)를 사용하도록 구성되며, 이것은 BL 이미지 데이터(106)의 일부로서 양자화되며 인코딩될 수 있다. PWL 매핑 함수는 각각이 파라미터들(m 및 b)에 대한 상이한 값들을 가진 다음의 표현(여기에서 반올림을 무시함)에 의해 표현될 수 있는 하나 이상의 세그먼트들을 포함할 수 있다:
Figure 112015093722799-pct00010
(8)
여기에서 m 및 b는 기울기 및 절편 파라미터들이며, i는 입력 변수(vi)(예로서, 제 i VDR 채도 코드 워드 등) 및 매핑된 코드 워드(si)(예로서, 대응하는 제 i 매핑된 채도 코드 워드 등)와 연관된 인덱스이다.
PWL 매핑 함수는 PWL 매핑 함수에서의 세그먼트들의 총 수가 일(1)일 때 선형 매핑 함수(예로서, 선형 양자화, 선형 양자화기 등)로 감소될 수 있다.
표현(8)에서 보다 높은 m은 표현(8)의 좌변 상에서의 매핑된 코드 워드들에서 보다 많은 압축을 생성하여, 블로키 아티팩트들이 발생할 가능성을 더 높게 만든다. 코딩 효율성을 개선하기 위해, 최종 선택된 m 및 b는 전체 장면 내에서 동일할 수 있다. 일부 실시예들에서, 단일 세그먼트 또는 3-세그먼트 PWL 매핑 함수는 장면에서 매핑된 코드 워드들(예로서, 매핑된 채도 코드 워드들 등)에 VDR 코드 워드들(예로서, VDR 채도 코드 워드들 등)을 매핑하기 위해 사용될 수 있다.
다중-세그먼트 PWL 매핑 함수(예로서, 3 세그먼트 PWL 매핑 함수 등)의 사용은 상이한 선형 양자화기(예로서, m에 대한 상이한 값들 등)가 입력 VDR 데이터(예로서, 입력 VDR 채도 코드 워드들 등)의 상이한 범위에 적용되도록 허용한다. 입력 VDR 데이터의 제 1 채도 범위는 PWL 매핑 함수의 제 1 세그먼트와 매핑될 수 있다. 입력 VDR 데이터의 제 2 채도 범위는 PWL 매핑 함수의 제 2 세그먼트와 매핑될 수 있다. 입력 VDR 데이터의 제 3 채도 범위는 PWL 매핑 함수의 제 3 세그먼트와 매핑될 수 있다. 최상의 선형 양자화기는 다수의 세그먼트들의 각각에 대해 탐색되며 결정될 수 있다. 알고리즘은 장면에서 입력 VDR 이미지들의 세트에서의 각각의 입력 VDR 이미지에 대한 이미지-특정 최적의 파라미터 값들을 탐색하기 위해 구현될 수 있으며, 그 후 합의 또는 전체 최적의 파라미터 값들은 동일한 장면 내에서 입력 VDR 이미지들의 이미지-특정 최적의 파라미터 값들 모두 가운데 발견될 수 있다.
본 명세서에서 설명된 바와 같이 PWL 매핑 함수는 피봇 포인트들을 갖고 특정될 수 있다. 일부 실시예들에서, 다층 인코더(예로서, 102)는 도 2b에 예시된 바와 같이, 피봇 포인트들의 최적의 세트를 찾기 위해 고속 탐색 알고리즘 또는 프로세스 흐름을 구현한다.
블록(252)에서, 다층 인코더(102)는 이어지는 바와 같이 초기화 동작들을 수행한다. 장면에서 F 입력 VDR 이미지들의 세트에서의 각각의 입력 VDR 이미지(j)에 대해, 다층 인코더(102)는 기울기 스케일링 인자(wopt[j])를 1.0으로 초기화한다. 다층 인코더(102)는 F 입력 VDR 이미지들의 세트에서의 각각의 입력 VDR 이미지를 N개의 이미지 블록들로 분할하거나 최적의 α를 찾기 위해 사용되어 온 프로세스 흐름에서의 장면에서 F 입력 VDR 이미지들의 세트에서의 각각의 입력 VDR 이미지에서 분할된 바와 같이 N개의 이미지 블록들을 재사용하도록 구성될 수 있다. 다층 인코더(102)는 또한 j를 시작 값, 예로서 0으로 설정한다.
블록(254)에서, 다층 인코더(102)는 j가 F보다 작은지를 결정한다. 참이면, 프로세스 흐름은 블록(256)으로 간다. 거짓이면, 프로세스 흐름은 블록(270)으로 간다.
블록(256)에서, 입력 VDR 이미지(j)에서의 각각의 이미지 블록(n)에 대해, 다층 인코더(102)는 상기 이미지 블록에서 최대, 최소 및 평균 값들(D(j,n), E(j,n), μ(j,n))(예로서, VDR 채도 코드 워드들 등에서)을 계산한다. 다층 인코더(102)는 또한 다음의 표현들(여기에서 8-비트 기본 층에 대해 예시됨, 그것이 10-비트 기본 층이면, 예시적인 클리핑 함수는 clip(x, 0, 1023)일 수 있다)에 기초하여 상기 이미지 블록에서 최대 및 최소 값들(D(j,n) 및 E(j,n))에 대응하는 매핑된 값들(djn(wj), ejn(wj))(예로서, 매핑된 채도 코드 워드들 등)을 계산한다:
Figure 112015093722799-pct00011
(10)
Figure 112015093722799-pct00012
(11)
여기에서
Figure 112015093722799-pct00013
는 최대 매핑된 휘도 코드 워드 값, 최소 매핑된 휘도 코드 워드 값, 최대 입력 VDR 휘도 코드 워드 값, 최소 입력 VDR 휘도 코드 워드 값, 최대 입력 VDR 채도 코드 워드 값, 최소 입력 VDR 채도 코드 워드 값, 및 상기 표현들(10 및 11)에 의해 표현된 선형 관계들에서의 파라미터이다. 다층 인코더(102)는 입력 VDR 이미지(j)에서의 비-제로 표준 편차들을 갖지만 다음의 표현에 기초하여 대응하는 매핑된 채도 코드 워드 값들에서의 제로 표준 편차들을 가진 이미지 블록들의 세트(Kj)를 구성한다:
Figure 112015093722799-pct00014
(12)
블록(258)에서, 다층 인코더(102)는 세트(Kj)가 비어 있는지를 결정한다. 참이면, 프로세스 흐름은 블록(276)으로 간다. 거짓이면, 프로세스 흐름은 블록(260)으로 간다.
블록(276)에서, 다층 인코더(102)는 입력 VDR 이미지(j)에 대한 단일-세그먼트 선형 양자화기를 사용하며, 다음의 표현들을 갖고 파라미터들을 설정하도록 구성된다:
Figure 112015093722799-pct00015
(13)
Figure 112015093722799-pct00016
(14)
Figure 112015093722799-pct00017
(15)
Figure 112015093722799-pct00018
(16)
Figure 112015093722799-pct00019
(17)
블록(260)에서, 다층 인코더(102)는 다음의 표현들에서 세트(Kj)로부터 평균 값들의 최소 및 최대 값들을 찾는다:
Figure 112015093722799-pct00020
(18)
Figure 112015093722799-pct00021
(19)
평균 값들의 최소 및 최대 값들(μmin(j) 및 μmax(j))은
Figure 112015093722799-pct00022
Figure 112015093722799-pct00023
사이에서의 입력 VDR 채도 코드 워드 값들의 전체 범위를 3개의 세그먼트들(
Figure 112015093722799-pct00024
)로 분할하기 위해 사용될 수 있다.
입력 VDR 채도 코드 워드 값들을 위한 파티션들을 생성하기 위해 표현들(18, 19)을 사용하는 것은 단지 예시 목적들을 위한 것임이 주의되어야 한다. 다른 실시예들에서, 보다 많거나 보다 적은 값들(예로서, 이들 값들 중 임의의 두 개 사이에서의 중간 포인트들 및/또는 부분 포인트들 등) 또는 세그먼트들이 예를 들면, 장면에서의 입력 이미지들의 세트의 평균, 최대 또는 최소 입력 채도 코드 워드 값들로부터 보다 많거나 보다 적은 파티션들을 생성함으로써 사용될 수 있다.
본 발명의 목적을 위해, 입력 이미지들의 세트가 가변적인 수의 입력 이미지들을 포함할 수 있고/있거나, 장면과 관련되거나 관련되지 않을 수 있다는 것이 주의되어야 한다. 예를 들면, 도 2a 및 도 2b의 프로세스 흐름들은 장면의 서브세트에 속하는 입력 이미지들의 세트를 갖고 수행될 수 있다. 또한 도 2a 및 도 2b의 프로세스 흐름들은 다른 실시예들에서 단일 장면에 속하지 않는 입력 이미지들의 세트를 갖고 수행될 수 있다.
블록(260)에서, 다층 인코더(102)는 또한 다음의 표현들에 기초하여 이미지 블록들의 3개의 세트들(
Figure 112015093722799-pct00025
)을 구성하도록 구성될 수 있다:
Figure 112015093722799-pct00026
(20)
Figure 112015093722799-pct00027
(21)
Figure 112015093722799-pct00028
(22)
예시된 바와 같이,
Figure 112015093722799-pct00029
은 VDR 채도 값들에서 비-제로 표준 편차를 갖지만 1.0으로 설정된 기울기 스케일링 인자(wj)를 가진 매핑된 채도 값들에서 제로 표준 편차들을 갖는 PWL 매핑 함수의 중간 세그먼트에서의, VDR 이미지 블록들을 나타낸다.
Figure 112015093722799-pct00030
은 PWL 매핑 함수의 낮은 세그먼트에서, VDR 채도 값들에서 비-제로 표준 편차를 갖는, VDR 이미지 블록들을 나타낸다.
Figure 112015093722799-pct00031
는 PWL 매핑 함수의 높은 세그먼트에서, VDR 채도 값들에서 비-제로 표준 편차를 갖는, VDR 이미지 블록들을 나타낸다.
블록(262)에서, 다층 인코더(102)는 다음의 표현에 도시된 바와 같이, 세트(
Figure 112015093722799-pct00032
)를 위해 사용될 기울기 스케일링 인자(wj)를 위한 후보 값들의 어레이(ΩL)를 셋 업하도록 구성된다:
Figure 112015093722799-pct00033
(23)
여기에서 △w는 구성가능한 또는 고정된 감소 값이며 SL은 ΩL에서 구성가능한 또는 고정된 수의 어레이 요소들이다.
0 및 SL 사이에서의 각각의 정수 값에서의 로컬 변수(s)에 대해, 다층 인코더(102)는
Figure 112015093722799-pct00034
에서 n을 가진 각각의 이미지 블록에 대해 최대 및 최소 채도 값들(D(j,n) 및 E(j,n))에 대응하는 매핑된 채도 값들(djn(wj) 및 ejn(wj))을 계산하거나 재-계산하기 위해 표현들(10 및 11)을 사용하며, 여기에서 세트(
Figure 112015093722799-pct00035
)를 위해 사용될, 기울기 스케일링 인자(wj)는 다음의 표현에 도시된 바와 같이, ΩL에서의 후보 값으로 설정된다:
Figure 112015093722799-pct00036
(24)
부가적으로, 0 및 SL 사이에서의 각각의 정수 값에서의 s에 대해, 다층 인코더(102)는 다음의 표현에 도시된 바와 같이, 임계 값(T) 이상의 매핑된 채도 값들에서의 표준 편차들과 이미지 블록들의 수를 가진
Figure 112015093722799-pct00037
에서의 요소들의 수(|
Figure 112015093722799-pct00038
|로서 나타내어지는)를 비교하는 양(πL(s))을 계산한다:
Figure 112015093722799-pct00039
(25)
πL(s)에 기초하여, PWL 매핑 함수의 낮은 세그먼트에 대한 기울기의 최적화된 스케일링 인자(
Figure 112015093722799-pct00040
)는 다음의 표현들을 갖고 도출될 수 있다:
Figure 112015093722799-pct00041
(26)
여기에서
Figure 112015093722799-pct00042
는 다음과 같이 주어진다:
Figure 112015093722799-pct00043
(27)
상기 논의된 바와 같은 프로세싱은 PWL 매핑 함수의 0, 1, 2, 또는 보다 많은 다른 세그먼트들에 대한 0, 1, 2, 또는 보다 많은 다른 최적화된 스케일링 인자들을 도출하기 위해 사용될 수 있다. 예를 들면, 블록(264)에서, 다층 인코더(102)는 다음의 표현에 도시된 바와 같이, 세트(
Figure 112015093722799-pct00044
)에 대해 사용될, 기울기 스케일링 인자(wj)에 대한 후보 값들의 어레이(ΩM)를 셋 업하도록 구성된다:
Figure 112015093722799-pct00045
(28)
여기에서 △w는 구성가능한 또는 고정된 감소 값이며 SM은 ΩM에서 구성가능한 또는 고정된 수의 어레이 요소들이다.
0 및 SM 사이에서의 각각의 정수 값에서의 로컬 변수(s)에 대해, 다층 인코더(102)는
Figure 112015093722799-pct00046
에서 n을 가진 각각의 이미지 블록에 대한 최대 및 최소 채도 값들(D(j,n) 및 E(j,n))에 대응하는 매핑된 채도 값들(djn(wj) 및 ejn(wj))을 계산하거나 재-계산하기 위해 표현들(10 및 11)을 사용하며, 여기에서 세트(
Figure 112015093722799-pct00047
)를 위해 사용될, 기울기 스케일링 인자(wj)는 다음의 표현에 도시된 바와 같이, ΩM에서의 후보 값으로 설정된다:
Figure 112015093722799-pct00048
(29)
부가적으로, 0 및 SM 사이에서의 각각의 정수 값에서의 s에 대해, 다층 인코더(102)는 다음의 표현에 도시된 바와 같이, 임계 값(T) 이상의 매핑된 채도 값들에서의 표준 편차들과 이미지 블록들의 수를 가진
Figure 112015093722799-pct00049
에서의 요소들의 수(|
Figure 112015093722799-pct00050
│로서 나타내어진)를 비교하는 양(πM(s))을 계산한다:
Figure 112015093722799-pct00051
(30)
πM(s)에 기초하여, PWL 매핑 함수의 중간 세그먼트에 대한 기울기의 최적화된 스케일링 인자(
Figure 112015093722799-pct00052
)는 다음의 표현들을 갖고 도출될 수 있다:
Figure 112015093722799-pct00053
(31)
여기에서
Figure 112015093722799-pct00054
는 다음과 같이 주어진다:
Figure 112015093722799-pct00055
(32)
블록(266)에서, 다층 인코더(102)는 다음의 표현에 도시된 바와 같이, 세트(
Figure 112015093722799-pct00056
)에 대해 사용될, 기울기 스케일링 인자(wj)에 대한 후보 값들의 어레이(ΩH)를 셋 업하도록 구성된다:
Figure 112015093722799-pct00057
(33)
여기에서 △w는 구성가능한 또는 고정된 감소 값이며 SH는 ΩH에서 구성가능하거나 고정된 수의 어레이 요소들이다.
0 및 SH 사이에서의 각각의 정수 값에서의 로컬 변수(s)에 대해, 다층 인코더(102)는
Figure 112015093722799-pct00058
에서 n을 가진 각각의 이미지 블록에 대한 최대 및 최소 채도 값들(D(j,n) 및 E(j,n))에 대응하는 매핑된 채도 값들(djn(wj) 및 ejn(wj))을 계산하거나 재-계산하기 위해 표현들(10 및 11)을 사용하며, 여기에서 세트(
Figure 112015093722799-pct00059
)를 위해 사용될, 기울기 스케일링 인자(wj)는 다음의 표현에 도시된 바와 같이, ΩH에서의 후보 값으로 설정된다:
Figure 112015093722799-pct00060
(34)
부가적으로, 0 및 SH 사이에서의 각각의 정수 값에서의 s에 대해, 다층 인코더(102)는 다음의 표현에 도시된 바와 같이, 임계 값(T) 이상의 매핑된 채도 값들에서의 표준 편차들과 이미지 블록들의 수를 가진
Figure 112015093722799-pct00061
에서의 요소들의 수(|
Figure 112015093722799-pct00062
|로서 나타내어진)를 비교하는 양(πH(s))을 계산한다:
Figure 112015093722799-pct00063
(35)
πH(s)에 기초하여, PWL 매핑 함수의 높은 세그먼트에 대한 기울기의 최적화된 스케일링 인자(
Figure 112015093722799-pct00064
)는 다음의 표현들을 갖고 도출될 수 있다:
Figure 112015093722799-pct00065
(36)
여기에서
Figure 112015093722799-pct00066
는 다음과 같이 주어진다:
Figure 112015093722799-pct00067
(37)
블록(268)에서, 다층 인코더(102)는 1만큼 j를 증가시킨다. 프로세스 흐름은 블록(254)으로 간다.
블록(270)에서, 다층 인코더(102)는 다음의 표현들에 도시된 바와 같이, PWL 매핑 함수의 피봇들의 후보들을 정의하기 위해 사용될 최적화된 파라미터들의 세트를 생성한다:
Figure 112015093722799-pct00068
(38)
Figure 112015093722799-pct00069
(39)
Figure 112015093722799-pct00070
(40)
Figure 112015093722799-pct00071
(41)
Figure 112015093722799-pct00072
(42)
블록(272)에서, 최적화된 파라미터들의 세트에 기초하여, 다층 인코더(102)는 다음의 표현들에 도시된 바와 같이, PWL 매핑 함수에 대한 모든 피봇들(예로서, 4개의 피봇들)의 좌표들을 생성한다:
Figure 112015093722799-pct00073
(43)
Figure 112015093722799-pct00074
(44)
Figure 112015093722799-pct00075
(45)
Figure 112015093722799-pct00076
(46)
Figure 112015093722799-pct00077
(47)
여기에서 pivot_x[] 및 pivot_y[]는 각각 4개의 피봇들의 x 좌표들 및 y 좌표들을 나타내는 두 개의 어레이들이다.
블록(274)에서, 다층 인코더(102)는 PWL 매핑 함수의 y-좌표 값들을 수용하기 위해 요구된 코드 워드들의 총 수가 BL 이미지 데이터를 인코딩하기 위해 사용된 코드 공간에서 이용가능한 코드 워드들의 총 수(예로서, 255 등)를 초과하는지의 여부를 결정하도록 구성된다. 예를 들면, 다층 인코더(102)는 pivot_y[3]이 이용가능한 코드 워드들의 총 수(예로서, 255 등)보다 큰지의 여부를 결정하도록 구성된다. 이것이 그 경우라면, 0 및 3 사이에서의 각각의 값에서의 로컬 변수(n)에 대해, 다층 인코더(102)는 다음의 표현을 갖고 PWL 매핑 함수의 y-좌표들을 압축하도록 구성될 수 있다:
Figure 112015093722799-pct00078
(48)
도 2b에 예시된 동작들에 대한 예시적인 알고리즘 목록이 다음의 표에 도시된다:
Figure 112015093722799-pct00079
Figure 112015093722799-pct00080
Figure 112015093722799-pct00081
Figure 112015093722799-pct00082
일부 예시적인 실시예들에서, 선형 또는 비-선형 양자화기들 중 하나 이상은 보다 높은 비트 깊이(예로서, 12+ 비트들 등) 이미지 데이터를 보다 낮은 비트 깊이(예로서, 8비트들 등) 이미지 데이터로 양자화하기 위해 사용될 수 있다. 상이한 컬러 공간들에서 및/또는 상이한 컬러 채널들에서 상이한 양자화기들이 선택될 수 있다. 예를 들면, 컨투어링 아티팩트들(예로서, 평활한 영역들에서 등) 및 다른 아티팩트들을 완화시키고/감소시키고/제거하기 위해, 비디오 신호들은 상이한 컬러 공간들에서 및/또는 상이한 양자화 방법들을 갖고 양자화될 수 있다. 일부 실시예들에서, 본 명세서에서 설명된 바와 같은 양자화는 선형 양자화, 선형 스트레칭, 곡선-기반/비-균일 양자화 확률-밀도-함수(Pdf) 최적화된 양자화, 벡터 양자화 등 중 하나 이상을 포함할 수 있다. 전체 최적화된 파라미터 값들은: 프레임, 다수의 프레임들, 장면, 다수의 장면들 중 임의의 것에 기초하여 선택될 수 있다. 일부 실시예들에서, 특정 유형의 양자화가 하나 이상의 유형들의 예측 방법들 및/또는 역 매핑과 대응하는 관계를 가질 수 있다.
양자화는 개개의 채널 기반으로 또는 동시에 둘 이상의 채널들에 대해 수행될 수 있다. 일 예시적인 실시예에서, 벡터 양자화는 둘 이상의 컬러 채널들에 걸쳐 수행될 수 있다. 예를 들면, 좌표 시스템(예로서, 3D 데카르트 등)은 축들로서 컬러 공간에서의 컬러 채널들을 사용하여 셋업될 수 있다. 회전과 같은 공간 변환은 컬러 공간에서 둘 이상의 컬러 채널들의 조합들(또는 투사들의 합들)로서 정의되는 새로운 축들을 생성하기 위해 좌표 시스템에서 수행될 수 있다. 새로운 축들 중 하나를 형성하기 위해 투사되는 바와 같이 둘 이상의 컬러 채널들에서의 코드 워드들은 새로운 축들 중 하나를 통해 양자화기에 의해 함께 양자화될 수 있다.
일부 실시예들에서, 특정 양자화 방법은 그것이 얼마나 잘 VDR 디코더 측 상에서 압축된 출력 VDR 이미지 데이터를 갖고 높은 지각된 품질을 유지하면서 출력된 다층 VDR 이미지 데이터를 압축할 수 있는지에 기초하여 선택될 수 있다.
일부 실시예들에서, 특정 양자화 방법 및/또는 최적의 파라미터 값들은 코덱들의 약점들을 보상하기 위해 선택될 수 있다. 예를 들면, 코덱은 블랙 영역들을 압축할 때 잘 수행하지 않을 수 있으며, 심지어 재구성된 VDR 이미지에서 컨투어링 아티팩트들을 출력할 수 있다. 본 명세서에서 설명된 바와 같은 양자화는 재구성된 VDR 이미지에서 가시적인 보다 적은 컨투어링 아티팩트들을 가진 이미지 데이터를 생성하기 위해 특정 곡선(예로서, 시그모이드 곡선, 무-법칙(mu-law), 인간-지각 기반 곡선 등)을 사용할 수 있다.
본 명세서에서 사용된 바와 같은 기술들 하에서 다층 인코더는 다층 인코더에 의해 프로세싱될 이미지 콘텐트에 대한 유일한 입력으로서 입력 VDR 이미지 데이터를 취할 수 있다. 입력 VDR 이미지 데이터는 강화 층 데이터 프로세싱에 제공될 수 있지만, 즉석으로(on-the-fly) 수행될 수 있는(예로서, 입력 VDR이 VDR 인코더로 입력되는 동일한 유선 속도에서 등), 지각적 양자화는 본 명세서에서 설명된 바와 같이 기본 층 데이터 프로세싱에 대한 입력 이미지 데이터를 생성하기 위해 사용될 수 있다.
본 명세서에서 설명된 바와 같은 양자화는 하나 이상의 상이한 방식들로 수행될 수 있다. 양자화는 전체 프레임 또는 전체 장면이 단일 설정을 사용하여 양자화되는 전역적 양자화를 수행할 수 있다. 양자화는 또한 각각의 프레임이 복수의 비-중첩 영역들로 분할되며 각각의 비-중첩 영역이 그 자신의 설정을 사용하여 양자화되는 파티션-기반(로컬) 양자화를 수행할 수 있다. 양자화는 각각의 프레임이 복수의 비-중첩 영역들로 분할되며 각각의 비-중첩 영역이 그 자신의 설정을 사용하여 양자화되지만, 특정 비-중첩 영역에 대한 양자화기 설정들이 하나 이상의 중첩된 영역들로부터 도출된 분석 데이터에 기초하여 결정되는 파티션-기반(로컬) 양자화를 수행할 수 있다. 개선된 양자화는 하나 이상의 상이한 컬러 공간들 중 임의의 것에 적용될 수 있다. 개선된 양자화가 적용될 수 있는 컬러 공간들의 예들은, 이에 제한되지 않지만: RGB 컬러 공간들, YCbCr 컬러 공간들, YCoCg 컬러 공간들, ACES 컬러 공간들, 또는 다른 컬러 공간들 중 임의의 것을 포함한다.
일부 실시예들에서, 양자화가 적용되는 컬러 공간은 예측이 수행되는 컬러 공간과 동일하게 유지된다. 이것은 VDR 이미지 인코딩 프로세스 및 VDR 이미지 디코딩 프로세스 양쪽 모두에서 그럴 수 있다. 컬러 공간 변환은 이미지 렌더링이 발생하는 컬러 공간이 양자화가 발생하는 컬러 공간과 상이하다면 적절하게 수행될 수 있다.
9. 예시적인 프로세스 흐름들
도 3a는 본 발명의 일 예시적인 실시예에 따른 일 예시적인 프로세스 흐름을 도시한다. 일부 예시적인 실시예들에서, 하나 이상의 컴퓨팅 디바이스들 또는 구성요소들은 이러한 프로세스 흐름을 수행할 수 있다. 블록(302)에서, 다층 VDR 비디오 인코더(예로서, 도 1a의 102)는 입력 시각적 동적 범위(VDR) 이미지들의 시퀀스를 수신한다.
블록(304)에서, 다층 VDR 비디오 인코더(102)는 매핑 함수에 대한 함수 파라미터 값들의 복수의 후보 세트들로부터 매핑 함수에 대한 함수 파라미터 값들의 후보 세트를 선택한다.
블록(306)에서, 다층 VDR 비디오 인코더(102)는 입력 VDR 이미지들의 시퀀스에서의 적어도 하나의 입력 VDR 이미지에서 VDR 코드 워드들에서의 비-제로 표준 편차들의 이미지 블록들의 세트를 구성한다.
블록(308)에서, 다층 VDR 비디오 인코더(102)는 적어도 하나의 입력 VDR 이미지에서의 이미지 블록들의 세트에서 VDR 코드 워드들에 함수 파라미터 값들의 후보 세트를 가진 매핑 함수를 적용함으로써 매핑된 코드 값들을 생성한다.
블록(310)에서, 다층 VDR 비디오 인코더(102)는, 매핑된 코드 값들에 기초하여, 매핑된 코드 워드들에서의 임계 값 아래의 표준 편차들의 이미지 블록들의 서브세트를 결정한다. 여기에서 이미지 블록들의 서브세트는 이미지 블록들의 세트에서의 서브세트이다.
블록(312)에서, 다층 VDR 비디오 인코더(102)는, 이미지 블록들의 서브세트에 적어도 부분적으로 기초하여, 함수 파라미터 값들의 후보 세트가 적어도 하나의 입력 VDR 이미지를 매핑시키기 위해 매핑 함수에 최적인지의 여부를 결정한다.
일 실시예에서, 함수 파라미터 값들의 후보 세트가 적어도 하나의 입력 VDR 이미지를 매핑시키기 위한 매핑 함수에 최적이라고 결정하는 것에 응답하여, 다층 VDR 비디오 인코더(102)는 함수 파라미터 값들의 후보 세트가 적어도 하나의 입력 VDR 이미지를 포함하는 복수의 입력 VDR 이미지들을 매핑시키기 위해 매핑 함수에 의해 함수 파라미터 값들의 전체 최적의 세트로서 사용되어야 하는지의 여부를 결정하도록 구성된다.
일 실시예에서, 함수 파라미터 값들의 후보 세트가 적어도 하나의 입력 VDR 이미지를 포함하는 복수의 입력 VDR 이미지들을 매핑시키기 위해 매핑 함수에 의해 함수 파라미터 값들의 전체 최적의 세트로서 사용되어야 한다고 결정하는 것에 응답하여, 다층 VDR 비디오 인코더(102)는: 복수의 VDR 이미지들에 함수 파라미터 값들의 전체 최적의 세트를 갖고 매핑 함수를 적용함으로써 복수의 입력 VDR 이미지들에 대응하는 복수의 매핑된 이미지들을 생성하는 것; 기본-층(BL) 이미지 데이터로서 복수의 매핑된 이미지들을 출력 다층 비디오 신호로 압축하는 것을 추가로 수행하도록 구성된다.
일 실시예에서, 다층 VDR 비디오 인코더(102)는 BL 이미지 데이터를 디코딩하는 것; BL 이미지 데이터의 역 매핑에 적어도 부분적으로 기초하여 예측 이미지 데이터를 생성하는 것; 예측 이미지 데이터 및 적어도 하나의 입력 VDR 이미지에 적어도 부분적으로 기초하여 잔여 값들을 생성하는 것; EL 이미지 데이터를 생성하기 위해 잔여 값들에 비-선형 양자화를 적용하는 것으로서, 상기 잔여 값들은 높은 비트 깊이 값들을 포함하며, 상기 EL 이미지 데이터는 낮은 비트 깊이 값들을 포함하는, 상기 비-선형 양자화를 적용하고; 상기 EL 이미지 데이터를 상기 출력 다층 비디오 신호로 압축하는 것을 추가로 수행하도록 구성된다.
일 실시예에서, 비-제로 표준 편차들의 이미지 블록들의 세트는 복수의 VDR 값 범위들에서의 특정 VDR 값 범위 내에서 VDR 코드 워드들을 갖고 계산된다. 복수의 VDR 값 범위들은 높은 값 범위들, 중간 값 범위들, 또는 낮은 값 범위들 중 하나 이상을 포함한다. 일 실시예에서, 다층 VDR 비디오 인코더(102)는: 비-제로 표준 편차들의 이미지 블록들의 세트에 대한 VDR 통계 값들의 세트를 계산하는 것으로서, 여기에서 VDR 통계 값들의 세트에서의 개개의 VDR 통계 값은 비-제로 표준 편차들의 이미지 블록들의 세트에서의 개개의 이미지 블록의 VDR 코드 워드들에서의 산술 평균, 산술 매체, 기하학적 평균, 기하학적 매체, 최대값 또는 최소값 중 하나를 표현하는, 상기 VDR 통계 값들의 세트를 계산하고; 상기 VDR 통계 값들의 세트에 기초하여, 복수의 VDR 값 범위들을 생성하는 것을 추가로 수행하도록 구성된다.
일 실시예에서, 입력 VDR 이미지들의 시퀀스로부터 도출된 BL 이미지 데이터는 제 1 8-비트 인코더에 의해 다층 비디오 신호로 압축되며, 입력 VDR 이미지들의 시퀀스로부터 도출된 EL 이미지 데이터는 다층 인코더에서의 제 2 8-비트 인코더에 의해 다층 비디오 신호로 압축된다.
도 3b는 본 발명의 일 예시적인 실시예에 따른 일 예시적인 프로세스 흐름을 도시한다. 일부 예시적인 실시예들에서, 하나 이상의 컴퓨팅 디바이스들 또는 구성요소들은 이러한 프로세스 흐름을 수행할 수 있다. 블록(352)에서, 다층 VDR 비디오 디코더(예로서, 도 1b의 152)는 다층 비디오 신호의 적어도 일 부분으로부터 기본-층(BL) 이미지 데이터를 수신한다.
블록(354)에서, 다층 VDR 비디오 디코더(152) 또는 기본-층 비디오 디코더(172)는 복수의 매핑된 이미지들을 생성하기 위해 BL 이미지 데이터를 디코딩한다.
여기에서, 복수의 매핑된 이미지들은 함수 파라미터 값들의 전체 최적의 세트를 가진 매핑 함수를 복수의 가시적 동적 범위(VDR) 이미지들에 적용함으로써 도출되었다. 함수 파라미터 값들의 전체 최적의 세트는 매핑 함수에 대한 함수 파라미터 값들의 복수의 개개의 최적의 세트들로부터 선택될 수 있다. 함수 파라미터 값들의 각각의 개개의 최적의 세트는 함수 파라미터들의 복수의 후보 세트들을 가진 매핑 함수를 복수의 VDR 이미지들에서의 적어도 하나의 VDR 이미지에 적용하는 것에 적어도 부분적으로 기초하여 결정된다.
일 실시예에서, 다층 VDR 비디오 디코더(152) 또는 기본-층 비디오 디코더(172)는 디스플레이 시스템에서 복수의 매핑된 이미지들을 렌더링하도록 구성된다.
일 실시예에서, 다층 VDR 비디오 디코더(152)는 복수의 매핑된 이미지들의 역 매핑에 적어도 부분적으로 기초하여 예측 이미지 데이터를 생성하는 것; 다층 비디오 신호로부터 EL 이미지 데이터를 디코딩하는 것; 잔여 값들을 생성하기 위해 비-선형 역-양자화를 EL 이미지 데이터에 적용하는 것으로서, 상기 잔여 값들은 높은 비트 깊이 값들을 포함하며, EL 이미지 데이터는 낮은 비트 깊이 값들을 포함하는, 상기 비-선형 역-양자화를 적용하고; 예측 이미지 데이터 및 잔여 값들에 적어도 부분적으로 기초하여 적어도 하나의 VDR 이미지를 생성하는 것을 추가로 수행하도록 구성된다. 일 실시예에서, 다층 VDR 비디오 디코더(152)는 VDR 디스플레이 시스템에서 적어도 하나의 VDR 이미지를 렌더링하도록 구성된다.
일 실시예에서, 복수의 입력 VDR 이미지들 또는 복수의 매핑된 이미지들은 장면을 형성한다.
일 실시예에서, 본 명세서에서 설명된 바와 같은 역 매핑은 함수 파라미터 값들의 전체 최적의 세트를 가진 매핑 함수로부터 생성된 하나 이상의 룩업 테이블들에 기초한다.
일 실시예에서, 본 명세서에서 설명된 바와 같은 매핑 함수는 멱 함수들, 선형 양자화 함수들, 또는 구간 선형 양자화 함수들 중 적어도 하나를 나타낸다.
일 실시예에서, 본 명세서에서 설명된 바와 같은 매핑 함수에 대한 함수 파라미터 값들의 후보 세트는 멱 함수에 대한 후보 지수 값을 나타낸다.
일 실시예에서, 본 명세서에서 설명된 바와 같은 매핑 함수에 대한 함수 파라미터 값들의 후보 세트는 구간 선형 양자화 함수에 대한 하나 이상의 피봇들을 나타낸다.
일 실시예에서, 본 명세서에서 설명된 바와 같은 비-제로 표준 편차들의 이미지 블록들의 세트는 컬러 공간의 복수의 채널들에서의 특정 채널에 대한 VDR 코드 워드들을 갖고 계산된다. 복수의 채널들은 휘도 채널, 채도 채널, 적색 컬러 채널, 청색 컬러 채널, 녹색 컬러 채널, 또는 다른 원색 채널들 중 하나 이상을 포함할 수 있다. 일 실시예에서, 상이한 매핑 함수는 복수의 채널들에서의 상이한 채널에 대한 상이한 VDR 코드 워드들을 매핑시키기 위해 사용된다.
일 실시예에서, 본 명세서에서 설명된 바와 같이 비디오 인코더에서의 하나 이상의 인코더들 중 적어도 하나는: 상이한 비트 깊이들 중 하나의 인코더들(예로서, 8-비트 인코더, 10-비트 인코더, 12-비트 인코더 등), 개선된 비디오 코딩(AVC) 인코더, 동화상 전문가 그룹(MPEG)-2 인코더, 고효율 비디오 코딩(HEVC) 인코더 등 중 임의의 것을 포함한다.
일 실시예에서, 본 명세서에서 설명된 바와 같은 비디오 디코더에서의 하나 이상의 디코더들 중 적어도 하나는 상이한 비트 깊이들 중 하나의 디코더들(예로서, 8-비트 디코더, 10-비트 디코더, 12-비트 디코더 등), 개선된 비디오 코딩(AVC) 디코더, 동화상 전문가 그룹(MPEG)-2 디코더, 고효율 비디오 코딩(HEVC) 디코더 등 중 임의의 것을 포함한다.
일 실시예에서, 본 명세서에서 설명된 바와 같은 입력 VDR 이미지들 또는 매핑된 이미지들은 지각적으로 인코딩된다.
다양한 예시적인 실시예들에서, 인코더, 디코더, 시스템, 장치, 또는 하나 이상의 다른 컴퓨팅 디바이스들이 설명된 바와 같이 앞서 말한 방법들 중 임의의 것 또는 일부를 수행한다.
10. 구현 메커니즘들 - 하드웨어 개요
일 실시예에 따르면, 본 명세서에서 설명된 기술들은 하나 이상의 특수-목적 컴퓨팅 디바이스들에 의해 구현된다. 특수-목적 컴퓨팅 디바이스들은 기술들을 수행하기 위해 하드-와이어드될 수 있거나 기술들을 수행하기 위해 영구적으로 프로그램되는 하나 이상의 주문형 반도체들(ASICs) 또는 필드 프로그래밍가능한 게이트 어레이들(FPGAs)과 같은 디지털 전자 디바이스들을 포함할 수 있거나 펌웨어, 메모리, 다른 저장 장치, 또는 조합에서의 프로그램 지시들에 따라 기술들을 수행하도록 프로그래밍된 하나 이상의 범용 하드웨어 프로세서들을 포함할 수 있다. 이러한 특수-목적 컴퓨팅 디바이스들은 또한 기술들을 성취하기 위해 맞춤 프로그래밍을 가진 맞춤 하드-와이어드 로직, ASIC들, 또는 FPGA들을 조합할 수 있다. 특수-목적 컴퓨팅 디바이스들은 데스크탑 컴퓨터 시스템들, 휴대용 컴퓨터 시스템들, 핸드헬드 디바이스들, 네트워킹 디바이스들 또는 기술들을 구현하기 위해 하드-와이어드된 및/또는 프로그램 로직을 통합하는 임의의 다른 디바이스일 수 있다.
예를 들면, 도 4는 본 발명의 일 예시적인 실시예가 구현될 수 있는 컴퓨터 시스템(400)을 예시하는 블록도이다. 컴퓨터 시스템(400)은 정보를 통신하기 위한 버스(402) 또는 다른 통신 메커니즘, 및 정보를 프로세싱하기 위해 버스(402)와 결합된 하드웨어 프로세서(404)를 포함한다. 하드웨어 프로세서(404)는 예를 들면, 범용 마이크로프로세서일 수 있다.
컴퓨터 시스템(400)은 또한 프로세서(404)에 의해 실행될 정보 및 지시들을 저장하기 위해 버스(402)에 결합된, 랜덤 액세스 메모리(RAM) 또는 다른 동적 저장 디바이스와 같은, 메인 메모리(406)를 포함한다. 메인 메모리(406)는 또한 프로세서(404)에 의해 실행될 지시들의 실행 동안 임시 변수들 또는 다른 중간 정보를 저장하기 위해 사용될 수 있다. 이러한 지시들은, 프로세서(404)에 액세스가능한 비-일시적 저장 매체에 저장될 때, 지시들에서 특정된 동작들을 수행하도록 맞춤화된 특수-목적 기계로 컴퓨터 시스템(400)을 렌더링한다.
컴퓨터 시스템(400)은 프로세서(404)를 위한 정적 정보 및 지시들을 저장하기 위해 버스(402)에 결합된 판독 전용 메모리(ROM)(408) 또는 다른 정적 저장 디바이스를 더 포함한다. 자기 디스크 또는 광 디스크와 같은, 저장 디바이스(410)가 정보 및 지시들을 저장하기 위해 제공되며 버스(402)에 결합된다.
컴퓨터 시스템(400)은 컴퓨터 사용자에 정보를 디스플레이하기 위해, 버스(402)를 통해 액정 디스플레이와 같은, 디스플레이(412)에 결합될 수 있다. 영숫자 및 다른 키들을 포함한 입력 디바이스(414)는 정보 및 명령어 선택들을 프로세서(404)에 전달하기 위해 버스(402)에 결합된다. 또 다른 유형의 사용자 입력 디바이스는, 방향 정보 및 명령어 선택들을 프로세서(404)에 전달하기 위해 및 디스플레이(412) 상에서 커서 움직임을 제어하기 위해 마우스, 트랙볼, 또는 커서 방향 키들과 같은, 커서 제어(416)이다. 이러한 입력 디바이스는 통상적으로, 디바이스가 평면에서의 위치들을 특정하도록 허용하는, 두 개의 축들, 즉 제 1 축(예로서, x) 및 제 2 축(예로서, y)에서 2의 자유도들을 가진다.
컴퓨터 시스템(400)은 컴퓨터 시스템과 조합하여 컴퓨터 시스템(400)이 특수-목적 기계가 되게 하거나 프로그래밍하는 맞춤화된 하드-와이어드 로직, 하나 이상의 ASIC들 또는 FPGA들, 펌웨어 및/또는 프로그램 로직을 사용하여 본 명세서에서 설명된 기술들을 구현할 수 있다. 일 실시예에 따르면, 본 명세서에서의 기술들은 프로세서(404)가 메인 메모리(406)에 포함된 하나 이상의 지시들의 하나 이상의 시퀀스들을 실행하는 것에 응답하여 컴퓨터 시스템(400)에 의해 수행된다. 이러한 지시들은 저장 디바이스(410)와 같은, 또 다른 저장 매체로부터 메인 메모리(406)로 판독될 수 있다. 메인 메모리(406)에 포함된 지시들의 시퀀스들의 실행은 프로세서(404)가 본 명세서에서 설명된 프로세스 단계들을 수행하게 한다. 대안적인 실시예들에서, 하드-와이어드 회로는 소프트웨어 지시들을 대신하여 또는 그것과 조합하여 사용될 수 있다.
본 명세서에서 사용된 바와 같이 용어("저장 매체")는 기계가 특정 방식으로 동작하게 하는 데이터 및/또는 지시들을 저장하는 임의의 비-일시적 매체를 나타낸다. 이러한 저장 매체는 비-휘발성 매체 및/또는 휘발성 매체를 포함할 수 있다. 비-휘발성 매체는 예를 들면, 저장 디바이스(410)와 같은, 광 또는 자기 디스크들을 포함한다. 휘발성 매체는 메인 메모리(406)와 같은, 동적 메모리를 포함한다. 저장 매체의 공통 형태들은 예를 들면, 플로피 디스크, 플렉시블 디스크, 하드 디스크, 고체 상태 드라이브, 자기 테이프, 또는 임의의 다른 자기 데이터 저장 매체, CD-ROM, 임의의 다른 광 데이터 저장 매체, 홀들의 패턴들을 가진 임의의 물리적 매체, RAM, PROM, 및 EPROM, 플래시 EPROM, NVRAM, 임의의 다른 메모리 칩 또는 카트리지를 포함한다.
저장 매체는 송신 매체로부터 개별적이지만 그것과 함께 사용될 수 있다. 송신 매체는 저장 매체 사이에서 정보를 전송하는데 참여한다. 예를 들면, 송신 매체는 버스(402)를 포함하는 와이어들을 포함하여, 동축 케이블들, 구리 와이어 및 광 섬유들을 포함한다. 송신 매체는 또한 라디오-파 및 적외선 데이터 통신들 동안 생성된 것들과 같은, 음향 또는 광 파들의 형태를 취할 수 있다.
다양한 형태들의 매체는 실행을 위해 프로세서(404)에 하나 이상의 지시들의 하나 이상의 시퀀스들을 운반하는데 수반될 수 있다. 예를 들면, 지시들은 처음에 원격 컴퓨터의 자기 디스크 또는 고체 상태 드라이브 상에서 운반될 수 있다. 원격 컴퓨터는 그것의 동적 메모리로 지시들을 로딩하며 모뎀을 사용하여 전화 라인을 통해 지시들을 전송할 수 있다. 컴퓨터 시스템(400)에 국소적인 모뎀은 전화 라인 상에서 데이터를 수신하며 데이터를 적외선 신호로 변환하기 위해 적외선 송신기를 사용할 수 있다. 적외선 검출기는 적외선 신호에서 운반된 데이터를 수신할 수 있으며 적절한 회로가 버스(402) 상에 데이터를 위치시킬 수 있다. 버스(402)는 데이터를 메인 메모리(406)로 운반하며, 그로부터 프로세서(404)는 지시들을 검색하며 실행한다. 메인 메모리(406)에 의해 수신된 지시들은 선택적으로 프로세서(404)에 의한 실행 전 또는 후에 저장 디바이스(410) 상에 저장될 수 있다.
컴퓨터 시스템(400)은 또한 버스(402)에 결합된 통신 인터페이스(418)를 포함한다. 통신 인터페이스(418)는 로컬 네트워크(422)에 연결되는 네트워크 라인(420)에 2-방향 데이터 통신 결합을 제공한다. 예를 들면, 통신 인터페이스(418)는 대응하는 유형의 전화 라인에 대한 데이터 통신 연결을 제공하기 위해 통합 서비스 디지털 네트워크(ISDN) 카드, 케이블 모뎀, 위성 모뎀, 또는 모뎀일 수 있다. 또 다른 예로서, 통신 인터페이스(418)는 호환가능한 LAN으로의 통신 연결을 제공하기 위해 근거리 네트워크(LAN) 카드일 수 있다. 무선 링크들이 또한 구현될 수 있다. 임의의 이러한 구현에서, 통신 인터페이스(418)는 다양한 유형들의 정보를 표현한 디지털 데이터 스트림들을 운반하는 전기, 전자기, 또는 광학 신호들을 전송 및 수신한다.
네트워크 링크(420)는 통상적으로 하나 이상의 네트워크들을 통한 데이터 통신을 다른 데이터 디바이스들에 제공한다. 예를 들면, 네트워크 링크(420)는 로컬 네트워크(422)를 통한 연결을 호스트 컴퓨터(424)에 또는 인터넷 서비스 제공자(ISP)(426)에 의해 동작된 데이터 장비에 제공할 수 있다. ISP(426)는 결과적으로 이제 흔히 "인터넷"(428)으로 불리우는 월드 와이드 패킷 데이터 통신 네트워크를 통해 데이터 통신 서비스들을 제공한다. 로컬 네트워크(422) 및 인터넷(428) 양쪽 모두는 디지털 데이터 스트림들을 운반하는 전기, 전자기 또는 광학 신호들을 사용한다. 컴퓨터 시스템(400)으로 및 그로부터 디지털 데이터를 운반하는, 네트워크 링크(420) 상에서의 다양한 네트워크들 및 신호들을 통한 및 통신 인터페이스(418)를 통한 신호들은 예시적인 형태들의 송신 매체이다.
컴퓨터 시스템(400)은 네트워크(들), 네트워크 링크(420) 및 통신 인터페이스(418)를 통해, 프로그램 코드를 포함하여, 메시지들을 전송하며 데이터를 수신할 수 있다. 인터넷 예에서, 서버(430)는 인터넷(428), ISP(426), 로컬 네트워크(422) 및 통신 인터페이스(418)를 통해 애플리케이션 프로그램을 위한 요청 코드를 송신할 수 있다.
수신된 코드는 그것이 수신될 때 프로세서(404)에 의해 실행될 수 있으며, 및/또는 나중 실행을 위해 저장 디바이스(410), 또는 다른 비-휘발성 저장 장치에 저장될 수 있다.
11. 등가물들, 확장들, 변경들 및 기타
앞서 말한 명세서에서, 본 발명의 예시적인 실시예들은 구현에서 구현으로 달라질 수 있는 다수의 특정 상세들을 참조하여 설명되었다. 따라서, 무엇이 발명인지, 및 출원인들에 의해 발명이도록 의도되는지에 대한 유일한 및 배타적인 표시자는 임의의 후속 정정을 포함하여, 이러한 청구항들이 발행하는 특정 형태로, 본 출원으로부터 발행한 청구항들의 세트이다. 이러한 청구항들에 포함된 용어들에 대해 본 명세서에서 명확하게 제시된 임의의 정의들은 청구항들에 사용된 바와 같이 이러한 용어들의 의미를 통제할 것이다. 그러므로, 청구항에 명확히 나열되지 않은 어떤 제한, 요소, 특성, 특징, 이점 또는 속성도 임의의 방식으로 이러한 청구항의 범위를 제한하지 않아야 한다. 명세서 및 도면들은 따라서 제한적인 의미보다는 예시적인 의미로 간주된다.
102: 다층 인코더 104: 소스 비디오 콘텐트
106: BL 이미지 데이터 108: EL 이미지 데이터
130: 메타데이터 152: 다층 디코더
156: 비-선형 역-양자화기 158: 가산기
162: 역 매핑 163: 구성기 유닛
400: 컴퓨터 시스템 402: 버스
404: 하드웨어 프로세서 406: 메인 메모리
408: ROM 410: 저장 디바이스
412: 디스플레이 414: 입력 디바이스
416: 커서 제어 418: 통신 인터페이스
420: 네트워크 라인 422: 로컬 네트워크
424: 호스트 컴퓨터 426: 인터넷 서비스 제공자
428: 인터넷

Claims (29)

  1. 비디오 인코딩 방법에 있어서,
    입력 이미지들의 시퀀스를 수신하는 단계;
    매핑 함수에 대한 함수 파라미터 값들의 복수의 후보 세트들로부터 상기 매핑 함수에 대한 함수 파라미터 값들의 후보 세트를 선택하는 단계;
    각각의 입력 이미지를 이미지 블록들로 분할하는 단계;
    각각의 이미지 블록에 대해, 상기 블록에서의 픽셀 값들의 표준 편차를 결정하는 단계;
    상기 이미지 블록들 중에서, 상기 입력 이미지들의 시퀀스에서의 적어도 하나의 입력 이미지에 대한 픽셀 값들에서의 비-제로 표준 편차들을 가지는 이미지 블록들의 세트를 구성하는 단계;
    상기 적어도 하나의 입력 이미지에서 상기 이미지 블록들의 세트에서의 픽셀 값들에 상기 함수 파라미터 값들의 후보 세트를 가진 상기 매핑 함수를 적용함으로써 매핑된 이미지 블록들을 생성하는 단계;
    각각의 매핑된 이미지 블록에 대해, 상기 블록에서의 상기 픽셀 값들의 표준 편차를 결정하는 단계;
    상기 매핑된 이미지 블록들 중에서 매핑된 이미지 블록들의 서브세트를 구성하는 단계로서, 상기 서브세트의 각각의 매핑된 이미지 블록은 미리 정의된 임계 값보다 큰 표준 편차를 가지는, 상기 매핑된 이미지 블록들의 서브세트를 구성하는 단계; 및
    상기 서브세트에서의 비-제로 표준 편차들을 갖는 매핑된 이미지 블록들의 수와 상기 세트에서의 이미지 블록들의 수 사이의 비교에 기초하여, 상기 함수 파라미터 값들의 후보 세트가 적어도 하나의 입력 이미지를 매핑시키기 위해 상기 매핑 함수에 최적인지의 여부를 결정하는 단계를 포함하는, 비디오 인코딩 방법.
  2. 제 1 항에 있어서,
    상기 입력 이미지들의 비트 깊이는 12 비트 이상인, 비디오 인코딩 방법.
  3. 제 1 항에 있어서,
    상기 함수 파라미터 값들의 후보 세트가 상기 적어도 하나의 입력 이미지를 매핑시키기 위해 상기 매핑 함수에 최적인지의 여부를 결정하는 상기 단계는, 상기 서브세트에서의 상기 매핑된 이미지 블록들의 수가 상기 세트에서의 상기 이미지 블록들의 수와 같은지의 여부에 기초하는, 비디오 인코딩 방법.
  4. 제 1 항에 있어서,
    상기 함수 파라미터 값들의 후보 세트가 상기 적어도 하나의 입력 VDR 이미지를 매핑시키기 위해 상기 매핑 함수에 최적이라고 결정하는 것에 응답하여, 상기 함수 파라미터 값들의 후보 세트가 상기 적어도 하나의 입력 이미지를 포함하는 복수의 입력 이미지들을 매핑시키기 위해 상기 매핑 함수에 의해 함수 파라미터 값들의 전체 최적의 세트로서 사용되어야 하는지의 여부를 결정하는 단계를 더 포함하는, 비디오 인코딩 방법.
  5. 제 4 항에 있어서,
    상기 함수 파라미터 값들의 후보 세트가 상기 적어도 하나의 입력 이미지를 포함하는 상기 복수의 입력 이미지들을 매핑시키기 위해 상기 매핑 함수에 의해 함수 파라미터 값들의 전체 최적의 세트로서 사용되어야 한다고 결정하는 것에 응답하여:
    상기 복수의 이미지들에 상기 함수 파라미터 값들의 전체 최적의 세트를 가진 상기 매핑 함수를 적용함으로써 상기 복수의 입력 이미지들에 대응하는 복수의 매핑된 이미지들을 생성하는 단계; 및
    기본-층(BL) 이미지 데이터로서 상기 복수의 매핑된 이미지들을 출력 다층 비디오 신호로 압축하는 단계를 더 포함하는, 비디오 인코딩 방법.
  6. 제 5 항에 있어서,
    상기 BL 이미지 데이터를 디코딩하는 단계;
    상기 BL 이미지 데이터의 역 매핑에 적어도 부분적으로 기초하여 예측 이미지 데이터를 생성하는 단계;
    상기 예측 이미지 데이터 및 상기 적어도 하나의 입력 이미지에 적어도 부분적으로 기초하여 잔여 값들을 생성하는 단계;
    강화 층(EL) 이미지 데이터를 생성하기 위해 상기 잔여 값들에 비-선형 양자화를 적용하는 단계로서, 상기 잔여 값들은 높은 비트 깊이 값들을 포함하며, 상기 EL 이미지 데이터는 낮은 비트 깊이 값들을 포함하는, 상기 비-선형 양자화 적용 단계; 및
    상기 EL 이미지 데이터를 상기 출력 다층 비디오 신호로 압축하는 단계를 더 포함하는, 비디오 인코딩 방법.
  7. 제 6 항에 있어서,
    상기 함수 파라미터 값들의 결정된 전체 최적의 세트를 포함하는 메타데이터를 상기 출력 다층 비디오 신호의 부분으로서 다운스트림 디바이스에 출력하는 단계를 더 포함하는, 비디오 인코딩 방법.
  8. 제 6 항에 있어서,
    상기 BL 이미지 데이터의 역 매핑은 상기 함수 파라미터 값들의 전체 최적의 세트를 가진 상기 매핑 함수로부터 생성된 하나 이상의 룩업 테이블들에 기초하는, 비디오 인코딩 방법.
  9. 제 1 항에 있어서,
    상기 매핑 함수는 멱 함수들, 선형 양자화 함수들, 또는 구간 선형 양자화 함수들 중 적어도 하나를 나타내는, 비디오 인코딩 방법.
  10. 제 1 항에 있어서,
    상기 매핑 함수에 대한 상기 함수 파라미터 값들의 후보 세트는 멱 함수에 대한 후보 지수 값을 나타내는, 비디오 인코딩 방법.
  11. 제 1 항에 있어서,
    상기 매핑 함수에 대한 상기 함수 파라미터 값들의 후보 세트는 구간 선형 양자화 함수에 대한 하나 이상의 피봇(pivot)들을 나타내는, 비디오 인코딩 방법.
  12. 제 1 항에 있어서,
    상기 비-제로 표준 편차들의 이미지 블록들의 세트는 복수의 값 범위들에서의 특정 값 범위 내에 있는 코드 워드들을 갖고 계산되는, 비디오 인코딩 방법.
  13. 제 12 항에 있어서,
    상기 복수의 값 범위들은 높은 값 범위들, 중간 값 범위들, 또는 낮은 값 범위들 중 하나 이상을 포함하고,
    상기 높은 값 범위들에서의 상기 픽셀 값들은 상기 중간 값 범위들 및 낮은 값 범위들에서의 상기 픽셀 값들보다 높은 값들을 갖고 상기 중간 값 범위들에서의 상기 픽셀 값들은 상기 낮은 값 범위들에서의 상기 픽셀 값들보다 높고 상기 높은 값 범위들에서의 상기 픽셀 값들보다 낮은 값들을 갖는, 비디오 인코딩 방법.
  14. 제 13 항에 있어서,
    상기 비-제로 표준 편차들의 이미지 블록들의 세트에 대한 통계 값들의 세트를 계산하는 단계로서, 상기 통계 값들의 세트에서의 개개의 통계 값은: 상기 비-제로 표준 편차들의 이미지 블록들의 세트에서의 개개의 이미지 블록의 픽셀 값들에서의 산술 평균, 산술 매체, 기하학적 평균, 기하학적 매체, 최대치, 또는 최소치 중 적어도 하나를 나타내는, 상기 통계 값들의 세트를 계산하는 단계; 및
    상기 통계 값들의 세트에 기초하여, 상기 복수의 픽셀 값 범위들을 생성하는 단계를 더 포함하는, 비디오 인코딩 방법.
  15. 제 1 항에 있어서,
    상기 비-제로 표준 편차들의 이미지 블록들의 세트는 컬러 공간의 복수의 채널들에서의 특정 채널에 대한 상기 픽셀 값들을 갖고 계산되는, 비디오 인코딩 방법.
  16. 제 15 항에 있어서,
    상기 복수의 채널들은 휘도 채널, 채도 채널, 적색 컬러 채널, 청색 컬러 채널, 녹색 컬러 채널, 또는 다른 원색 채널들 중 하나 이상을 포함하는, 비디오 인코딩 방법.
  17. 제 15 항에 있어서,
    상이한 매핑 함수는 상기 복수의 채널들에서의 상이한 채널에 대한 상이한 픽셀 값들을 매핑시키기 위해 사용되는, 비디오 인코딩 방법.
  18. 제 1 항에 있어서,
    상기 입력 이미지들의 시퀀스로부터 도출된 기본 층(BL) 이미지 데이터는 다층 인코더 내의 제 1 8 비트 인코더에 의해 다층 비디오 신호로 압축되며, 상기 입력 이미지들의 시퀀스로부터 도출된 강화 층(EL) 이미지 데이터는 상기 다층 인코더 내의 제 2 8 비트 인코더에 의해 상기 다층 비디오 신호로 압축되는, 비디오 인코딩 방법.
  19. 제 18 항에 있어서,
    상기 제 1 8 비트 인코더 및 상기 제 2 8 비트 인코더 중 적어도 하나는: 개선된 비디오 코딩(AVC) 인코더, 동화상 전문가 그룹(MPEG)-2 인코더, 또는 고효율 비디오 코딩(HEVC) 인코더 중 적어도 하나를 포함하는, 비디오 인코딩 방법.
  20. 제 1 항에 있어서,
    상기 입력 이미지들의 시퀀스는 지각적으로 인코딩된, 비디오 인코딩 방법.
  21. 제 1 항에 있어서,
    상기 비-제로 표준 편차들 중 적어도 하나는 비-제로 최대-최소 차이들, 비-제로 분산들, 또는 그 각각이 비-제로 표준 편차에 대응하는 평활도 측정 값들 중 하나를 갖고 표현되는, 비디오 인코딩 방법.
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
KR1020157026684A 2013-03-26 2014-03-25 다층 vdr 코딩에서의 지각적으로-양자화된 비디오 콘텐트의 인코딩 KR101641523B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361805388P 2013-03-26 2013-03-26
US61/805,388 2013-03-26
US201361861555P 2013-08-02 2013-08-02
US61/861,555 2013-08-02
PCT/US2014/031716 WO2014160705A1 (en) 2013-03-26 2014-03-25 Encoding perceptually-quantized video content in multi-layer vdr coding

Publications (2)

Publication Number Publication Date
KR20150119463A KR20150119463A (ko) 2015-10-23
KR101641523B1 true KR101641523B1 (ko) 2016-07-21

Family

ID=50680185

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157026684A KR101641523B1 (ko) 2013-03-26 2014-03-25 다층 vdr 코딩에서의 지각적으로-양자화된 비디오 콘텐트의 인코딩

Country Status (10)

Country Link
US (1) US9628808B2 (ko)
EP (1) EP2936814B1 (ko)
JP (2) JP5989934B2 (ko)
KR (1) KR101641523B1 (ko)
CN (1) CN105052143B (ko)
BR (1) BR112015024172B1 (ko)
ES (1) ES2666899T3 (ko)
PL (1) PL2936814T3 (ko)
RU (1) RU2619886C2 (ko)
WO (1) WO2014160705A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020231139A1 (ko) * 2019-05-16 2020-11-19 엘지전자 주식회사 루마 맵핑 및 크로마 스케일링 기반 비디오 또는 영상 코딩

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6038360B2 (ja) 2013-06-17 2016-12-07 ドルビー ラボラトリーズ ライセンシング コーポレイション エンハンストダイナミックレンジ信号の階層符号化のための適応的再構成
US9712834B2 (en) * 2013-10-01 2017-07-18 Dolby Laboratories Licensing Corporation Hardware efficient sparse FIR filtering in video codec
EP4087247A1 (en) 2014-02-26 2022-11-09 Dolby Laboratories Licensing Corp. Luminance based coding tools for video compression
US10136147B2 (en) 2014-06-11 2018-11-20 Dolby Laboratories Licensing Corporation Efficient transcoding for backward-compatible wide dynamic range codec
JP6302600B2 (ja) 2014-09-26 2018-03-28 ドルビー ラボラトリーズ ライセンシング コーポレイション 知覚的量子化されたビデオコンテンツの符号化および復号化
US10419762B2 (en) 2015-03-02 2019-09-17 Dolby Laboratories Licensing Corporation Content-adaptive perceptual quantizer for high dynamic range images
KR101844732B1 (ko) 2015-03-20 2018-04-02 돌비 레버러토리즈 라이쎈싱 코오포레이션 신호 재정형 근사화
WO2016164235A1 (en) * 2015-04-06 2016-10-13 Dolby Laboratories Licensing Corporation In-loop block-based image reshaping in high dynamic range video coding
WO2016172394A1 (en) * 2015-04-21 2016-10-27 Arris Enterprises Llc Adaptive perceptual mapping and signaling for video coding
WO2016172091A1 (en) 2015-04-22 2016-10-27 Dolby Laboratories Licensing Corporation Signal reshaping and coding in the ipt-pq color space
US20180167615A1 (en) * 2015-06-07 2018-06-14 Sharp Kabushiki Kaisha Systems and methods for optimizing video coding based on a luminance transfer function or video color component values
KR20180015248A (ko) * 2015-06-09 2018-02-12 후아웨이 테크놀러지 컴퍼니 리미티드 비디오 인코딩 방법, 비디오 디코딩 방법, 비디오 인코더 및 비디오 디코더
US10863202B2 (en) * 2015-06-12 2020-12-08 Shaoher Pan Encoding data in a source image with watermark image codes
CN107771392B (zh) * 2015-06-30 2021-08-31 杜比实验室特许公司 用于高动态范围图像的实时内容自适应感知量化器
WO2017015397A1 (en) 2015-07-22 2017-01-26 Dolby Laboratories Licensing Corporation Video coding and delivery with both spatial and dynamic range scalability
CN107852502B (zh) 2015-07-28 2021-07-20 杜比实验室特许公司 用于增强视频信号的位深的方法、编码器、解码器和系统
JP6320440B2 (ja) 2015-08-04 2018-05-09 ドルビー ラボラトリーズ ライセンシング コーポレイション ハイダイナミックレンジ信号のための信号再構成
EP3354021B1 (en) * 2015-09-23 2023-09-20 Dolby Laboratories Licensing Corporation Preserving texture/noise consistency in video codecs
EP3151562B1 (en) 2015-09-29 2020-06-17 Dolby Laboratories Licensing Corporation Feature based bitrate allocation in non-backward compatible multi-layer codec via machine learning
US10311558B2 (en) 2015-11-16 2019-06-04 Dolby Laboratories Licensing Corporation Efficient image processing on content-adaptive PQ signal domain
US10165275B2 (en) 2016-01-26 2018-12-25 Dolby Laboratories Licensing Corporation Content-adaptive reshaping for high dynamic range images
WO2017165494A2 (en) 2016-03-23 2017-09-28 Dolby Laboratories Licensing Corporation Encoding and decoding reversible production-quality single-layer video signals
US10397586B2 (en) 2016-03-30 2019-08-27 Dolby Laboratories Licensing Corporation Chroma reshaping
KR102385726B1 (ko) * 2016-05-04 2022-04-12 인터디지털 브이씨 홀딩스 인코포레이티드 하이 다이내믹 레인지 화상을 코딩된 비트스트림으로 인코딩/디코딩하기 위한 방법 및 장치
US10542296B2 (en) * 2016-05-10 2020-01-21 Dolby Laboratories Licensing Corporation Chroma reshaping of HDR video signals
EP3456047B1 (en) 2016-05-10 2020-02-26 Dolby Laboratories Licensing Corporation Chroma reshaping of hdr video signals
WO2018049335A1 (en) * 2016-09-09 2018-03-15 Dolby Laboratories Licensing Corporation Coding of high dynamic range video using segment-based reshaping
EP3510772B1 (en) 2016-09-09 2020-12-09 Dolby Laboratories Licensing Corporation Coding of high dynamic range video using segment-based reshaping
US10075671B2 (en) 2016-09-26 2018-09-11 Samsung Display Co., Ltd. System and method for electronic data communication
US10469857B2 (en) 2016-09-26 2019-11-05 Samsung Display Co., Ltd. System and method for electronic data communication
US10523895B2 (en) 2016-09-26 2019-12-31 Samsung Display Co., Ltd. System and method for electronic data communication
US10616383B2 (en) 2016-09-26 2020-04-07 Samsung Display Co., Ltd. System and method for electronic data communication
CA3112712C (en) * 2016-10-05 2023-09-12 Dolby Laboratories Licensing Corporation Source color volume information messaging
JP7037584B2 (ja) 2017-06-16 2022-03-16 ドルビー ラボラトリーズ ライセンシング コーポレイション 効率的なエンド・ツー・エンドシングルレイヤー逆ディスプレイマネジメント符号化
US11252401B2 (en) 2017-08-07 2022-02-15 Dolby Laboratories Licensing Corporation Optically communicating display metadata
UY38111A (es) 2018-02-28 2019-10-01 Dolby Laboratories Licensing Corp Codificador lineal para el procesamiento de imágenes o video
KR102618692B1 (ko) 2018-06-15 2024-01-02 삼성전자주식회사 노이즈 또는 디서의 영향을 감소시키기 위한 디스플레이 구동 회로 및 방법
EP3595308A1 (en) * 2018-07-12 2020-01-15 THOMSON Licensing Method and apparatus for encoding an image
WO2020180044A1 (ko) * 2019-03-01 2020-09-10 엘지전자 주식회사 Lmcs에 기반한 영상 코딩 방법 및 그 장치
GB2607692B (en) * 2019-08-23 2023-08-02 Imagination Tech Ltd Random accessible image data compression
IL291768A (en) 2019-10-03 2022-06-01 Huawei Tech Co Ltd Encoding process for geometric division mode
CN116456094B (zh) * 2023-06-15 2023-09-05 中南大学 一种分布式视频混合数字模拟传输方法及相关设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011517245A (ja) * 2008-04-16 2011-05-26 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン ビット深度スケーラビリティ
WO2012004709A1 (en) * 2010-07-06 2012-01-12 Koninklijke Philips Electronics N.V. Generation of high dynamic range images from low dynamic range images

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3277418B2 (ja) * 1993-09-09 2002-04-22 ソニー株式会社 動きベクトル検出装置および方法
JP3774954B2 (ja) * 1996-10-30 2006-05-17 株式会社日立製作所 動画像の符号化方法
IL122361A0 (en) * 1997-11-29 1998-04-05 Algotec Systems Ltd Image compression method
US6385345B1 (en) * 1998-03-31 2002-05-07 Sharp Laboratories Of America, Inc. Method and apparatus for selecting image data to skip when encoding digital video
US6233283B1 (en) * 1998-06-23 2001-05-15 Lucent Technologies Inc. Layered video coding using perceptual coding criteria for error resilience in packet networks
US7010737B2 (en) * 1999-02-12 2006-03-07 Sony Corporation Method and apparatus for error data recovery
JP4849466B2 (ja) 2003-10-10 2012-01-11 エージェンシー フォー サイエンス, テクノロジー アンド リサーチ デジタル信号をスケーラブルビットストリームにエンコードする方法、及びスケーラブルビットストリームをデコードする方法
JP2006191253A (ja) * 2005-01-05 2006-07-20 Matsushita Electric Ind Co Ltd レート変換方法及びレート変換装置
JP4737711B2 (ja) * 2005-03-23 2011-08-03 富士ゼロックス株式会社 復号化装置、逆量子化方法、分布決定方法及びこのプログラム
WO2007044556A2 (en) * 2005-10-07 2007-04-19 Innovation Management Sciences, L.L.C. Method and apparatus for scalable video decoder using an enhancement stream
WO2007082562A2 (en) * 2006-01-23 2007-07-26 MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. High dynamic range codecs
US8014445B2 (en) 2006-02-24 2011-09-06 Sharp Laboratories Of America, Inc. Methods and systems for high dynamic range video coding
US7639893B2 (en) * 2006-05-17 2009-12-29 Xerox Corporation Histogram adjustment for high dynamic range image mapping
WO2008049446A1 (en) * 2006-10-25 2008-05-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Quality scalable coding
CA2570090C (en) * 2006-12-06 2014-08-19 Brightside Technologies Inc. Representing and reconstructing high dynamic range images
US8237865B2 (en) * 2006-12-18 2012-08-07 Emanuele Salvucci Multi-compatible low and high dynamic range and high bit-depth texture and video encoding system
US8527265B2 (en) 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
US8175158B2 (en) * 2008-01-04 2012-05-08 Sharp Laboratories Of America, Inc. Methods and systems for inter-layer image prediction parameter determination
JP4697557B2 (ja) * 2009-01-07 2011-06-08 ソニー株式会社 符号化装置、符号化方法、記録媒体及び画像処理装置
BRPI1008372A2 (pt) * 2009-02-11 2018-03-06 Thomson Licensing métodos e aparelho para codificação e decodificação de vídeo escalável com profundidade de bit utilizando mapeamento de tons e mapeamento inverso de tons
JP5589006B2 (ja) * 2009-03-13 2014-09-10 ドルビー ラボラトリーズ ライセンシング コーポレイション 高ダイナミックレンジ、視覚ダイナミックレンジ及び広色域のビデオの階層化圧縮
US10178396B2 (en) 2009-09-04 2019-01-08 Stmicroelectronics International N.V. Object tracking
TWI559779B (zh) 2010-08-25 2016-11-21 杜比實驗室特許公司 擴展影像動態範圍
JP5513333B2 (ja) * 2010-09-22 2014-06-04 Kddi株式会社 動画像符号化装置、動画像符号化方法、およびプログラム
US8538193B2 (en) * 2010-09-28 2013-09-17 Sharp Laboratories Of America, Inc. Methods and systems for image enhancement and estimation of compression noise
JP5590133B2 (ja) * 2010-09-30 2014-09-17 富士通株式会社 動画像符号化装置、動画像符号化方法、動画像符号化用コンピュータプログラム、動画像復号装置及び動画像復号方法ならびに動画像復号用コンピュータプログラム
CN107105229B9 (zh) 2011-04-14 2020-03-31 杜比实验室特许公司 图像解码方法、视频解码器和非暂态计算机可读存储介质
JP5988696B2 (ja) * 2011-06-17 2016-09-07 ローム株式会社 画像圧縮回路、画像圧縮方法、半導体装置、およびスマートフォン
US10237565B2 (en) * 2011-08-01 2019-03-19 Qualcomm Incorporated Coding parameter sets for various dimensions in video coding
US20160029024A1 (en) * 2011-08-10 2016-01-28 Zoran (France) S.A. Frame buffer compression for video processing devices
TWI575933B (zh) 2011-11-04 2017-03-21 杜比實驗室特許公司 階層式視覺動態範圍編碼中之層分解技術
GB2504068B (en) * 2012-07-11 2015-03-11 Canon Kk Methods and devices for controlling spatial access granularity in compressed video streams
WO2014058110A1 (ko) * 2012-10-09 2014-04-17 광운대학교 산학협력단 다중 계층 비디오를 위한 계층 간 예측 방법 및 그 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011517245A (ja) * 2008-04-16 2011-05-26 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン ビット深度スケーラビリティ
WO2012004709A1 (en) * 2010-07-06 2012-01-12 Koninklijke Philips Electronics N.V. Generation of high dynamic range images from low dynamic range images

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020231139A1 (ko) * 2019-05-16 2020-11-19 엘지전자 주식회사 루마 맵핑 및 크로마 스케일링 기반 비디오 또는 영상 코딩
US11930191B2 (en) 2019-05-16 2024-03-12 Lg Electronics Inc. Luma mapping—and chroma scaling-based video or image coding

Also Published As

Publication number Publication date
ES2666899T3 (es) 2018-05-08
CN105052143B (zh) 2018-04-20
RU2619886C2 (ru) 2017-05-19
KR20150119463A (ko) 2015-10-23
JP2016519494A (ja) 2016-06-30
BR112015024172A2 (pt) 2017-07-18
RU2015140601A (ru) 2017-03-29
CN105052143A (zh) 2015-11-11
JP5989934B2 (ja) 2016-09-07
PL2936814T3 (pl) 2018-07-31
EP2936814A1 (en) 2015-10-28
EP2936814B1 (en) 2018-03-14
WO2014160705A1 (en) 2014-10-02
JP6310017B2 (ja) 2018-04-11
JP2016208541A (ja) 2016-12-08
US20160014420A1 (en) 2016-01-14
BR112015024172B1 (pt) 2023-01-31
US9628808B2 (en) 2017-04-18

Similar Documents

Publication Publication Date Title
KR101641523B1 (ko) 다층 vdr 코딩에서의 지각적으로-양자화된 비디오 콘텐트의 인코딩
US11729400B2 (en) Luminance based coding tools for video compression
US9924171B2 (en) Layer decomposition in hierarchical VDR coding
JP6219464B2 (ja) 高ダイナミックレンジ画像を生成するデコーダ及びその方法
US9911179B2 (en) Image decontouring in high dynamic range video processing
US9712834B2 (en) Hardware efficient sparse FIR filtering in video codec
US10542265B2 (en) Self-adaptive prediction method for multi-layer codec
JP2021515494A (ja) 適応乗算係数を用いた画像フィルタリングのための方法および装置
KR20240056752A (ko) 모바일 애플리케이션들에서의 hdr 비디오를 위한 텐서-곱 b-스플라인 예측

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right