KR20220053657A - 텐서-곱 b-스플라인 예측 변수 - Google Patents

텐서-곱 b-스플라인 예측 변수 Download PDF

Info

Publication number
KR20220053657A
KR20220053657A KR1020227010706A KR20227010706A KR20220053657A KR 20220053657 A KR20220053657 A KR 20220053657A KR 1020227010706 A KR1020227010706 A KR 1020227010706A KR 20227010706 A KR20227010706 A KR 20227010706A KR 20220053657 A KR20220053657 A KR 20220053657A
Authority
KR
South Korea
Prior art keywords
tpb
image
spline
images
basis function
Prior art date
Application number
KR1020227010706A
Other languages
English (en)
Inventor
구안-밍 수
하샤드 카두
칭 송
니라즈 제이. 가드길
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Publication of KR20220053657A publication Critical patent/KR20220053657A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/98Adaptive-dynamic-range coding [ADRC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/436Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation using parallelised computational arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • H04N19/463Embedding additional information in the video signal during the compression process by compressing encoding parameters before transmission

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Color Television Systems (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)
  • Prostheses (AREA)

Abstract

텐서 곱 B-스플라인(TPB) 기저 함수 집합이 결정된다. 소스 색상 등급의 소스 이미지의 소스 이미지 데이터로부터 맵핑된 이미지의 예측된 이미지 데이터를 생성하기 위한 TPB 기저 함수의 집합과 함께 사용될 선택된 TPB 예측 매개변수의 집합이 생성된다. 선택된 TPB 예측 매개변수의 집합은 맵핑된 이미지의 예측된 이미지 데이터와 참조 색상 등급의 참조 이미지의 참조 이미지 데이터 간의 차이를 최소화하여 생성된다. 참조 이미지는 소스 이미지에 대응하며 소스 이미지에 표시된 것과 동일한 시각적 콘텐츠를 나타낸다. 선택된 TPB 예측 매개변수 집합은 소스 이미지의 소스 이미지 데이터와 함께 이미지 메타데이터의 일부로서 비디오 신호에 인코딩된다. 맵핑된 이미지는 비디오 신호의 수신자 디바이스로 재구성 및 렌더링된다.

Description

텐서-곱 B-스플라인 예측 변수
관련 출원에 대한 상호 참조
본 출원은 각각 전체적으로 본 명세서에 참고로 포함되는, 2019년 10월 1일자로 출원된 미국 가특허출원 제62/908,770호 및 2019년 10월 1일자로 출원된 유럽 특허출원 제19200793.8호에 대한 우선권을 주장한다.
기술
본 개시는 일반적으로 이미지에 관한 것이다. 보다 구체적으로, 본 개시의 실시예는 텐서-곱 B-스플라인 예측 변수(tensor-product B-spline predictor)에 관한 것이다.
본 명세서에 사용된 바와 같이, 용어 "다이내믹 레인지"(dynamic range; DR)는 예를 들어 가장 어두운 검정색(어둠)에서부터 가장 밝은 흰색(밝음)까지 이미지의 강도(예를 들어, 휘도, 루마)의 범위를 인지하는 인간 시각 시스템(HVS)의 능력과 관련될 수 있다. 이러한 의미에서 DR은 "장면-참조형(scene-referred)" 강도와 관련이 있다. DR은 또한 특정 폭의 강도 범위를 적절하게 또는 대략적으로 렌더링하는 디스플레이 디바이스의 능력과 관련될 수 있다. 이러한 의미에서 DR은 "디스플레이-참조형(display-referred)" 강도와 관련이 있다. 특정 의미가 본 명세서의 설명에 있어서의 임의의 지점에서 특정한 의의를 갖는 것으로 명시적으로 지정되지 않는 한, 그 용어는 어느 의미로도 사용될 수 있다는 것, 예를 들어 교환 가능하게 사용될 수 있다는 것을 의미한다.
본 명세서에서 사용된 바와 같이, 용어 하이 다이내믹 레인지(High Dynamic Range; HDR)는 인간 시각 시스템(HVS)의 약 14-15 이상의 자릿수에 걸쳐 있는 DR 폭에 관한 것이다. 실제로, 인간이 동시에 인지할 수 있는 강도 범위에 있어서의 넓은 폭을 초과하는 DR은 HDR과 비교하여 다소 잘릴 수 있다. 본 명세서에 사용된 바와 같이, 향상된 다이내믹 레인지(EDR) 또는 시각적 다이내믹 레인지(VDR)라는 용어는 안구 움직임을 포함한 인간 시각 시스템(HVS)에 의해 장면 또는 이미지 내에서 인지할 수 있는 DR과 개별적으로 또는 상호 교환 가능하게 관련될 수 있으며, 장면이나 이미지 전반에 걸쳐 일부 명순응 변경을 허용한다. 본 명세서에서 사용된 바와 같이, EDR은 5 내지 6 자릿수에 걸쳐 있는 DR에 관련될 수 있다. 따라서 실제 장면 참조 HDR과 비교하여 어느 정도 더 좁을 수 있지만, 그럼에도 EDR은 넓은 DR 폭을 나타내며, HDR로 언급될 수도 있다.
실제로, 이미지는 색상 공간의 하나 이상의 색상 성분(예를 들어, 루마 Y 및 크로마 Cb 및 Cr)를 포함하며, 여기서 각 색상 성분은 픽셀당 n-비트의 정밀도(예를 들어, n=8)로 표시된다. 비선형 휘도 코딩(예를 들어, 감마 인코딩)을 사용하여, n≤8인 이미지(예를 들어, 색상 24비트 JPEG 이미지)는 표준 다이내믹 레인지의 이미지로 간주되는 반면, n>8인 이미지는 향상된 다이내믹 레인지의 이미지로 간주될 수 있다.
주어진 디스플레이에 대한 참조 전기 광학 전달 함수(EOTF)는 디스플레이에 의해 생성된 출력 화면 색상 값(예를 들어, 화면 휘도)에 대한 입력 비디오 신호의 색상 값(예를 들어, 휘도) 사이의 관계를 특성화한다. 예를 들어, ITU Rec.ITU-R BT.1886, "HDTV 스튜디오 제작에 사용되는 평판 디스플레이용 참조 전기 광학 전달 함수"(2011년 3월)는 전체적으로 본 명세서에 참고로 포함되어 평판 디스플레이용 참조 EOTF를 정의한다. 비디오 스트림이 주어지면, EOTF에 대한 정보가 (이미지) 메타데이터로서 비트스트림에 임베딩될 수 있다. 본 명세서에서 용어 "메타데이터"는 코딩된 비트스트림의 일부로서 전송된 임의의 보조 정보에 관한 것이며, 디코더가 디코딩된 이미지를 렌더링하도록 지원한다. 이러한 메타데이터에는 본 명세서에 설명된 것과 같은 색상 공간 또는 색역 정보(gamut information), 참조 디스플레이 매개변수 및 보조 신호 매개변수가 포함될 수 있지만, 이로 한정되지 않는다.
본 명세서에 사용된 것과 같은 용어 "PQ"는 지각 휘도 진폭 양자화를 지칭한다. 인간 시각 시스템은 증가하는 조명 레벨에 매우 비선형적인 방식으로 반응한다. 자극을 보는 인간의 능력은 그 자극의 휘도, 자극의 크기, 자극을 구성하는 공간 주파수 및 눈이 자극을 보는 특정 순간에 적응한 휘도 레벨에 영향을 받는다. 일부 실시예에서, 지각 양자화기 함수는 선형 입력 그레이 레벨을 인간 시각 시스템의 콘트라스트 감도 임계값과 더 잘 일치하는 출력 그레이 레벨로 맵핑한다. PQ 맵핑 함수의 예는 전체적으로 본 명세서에 참고로 포함되는, SMPTE ST 2084:2014 "참조 디스플레이를 마스터링하는 하이 다이내믹 레인지 EOTF(High Dynamic Range EOTF of Mastering Reference Displays)"(이하 "SMPTE")에 설명되어 있으며, 여기서 모든 휘도 레벨(예를 들어, 자극 레벨 등)에 대해 고정된 자극 크기가 주어지면, 가장 민감한 적응 레벨과 가장 민감한 공간 주파수에 따라(HVS 모델에 따라) 해당 휘도 레벨에서 가시적인 최소 콘트라스트 단계가 선택된다.
200 내지 1,000cd/m2 또는 니트의 휘도를 지원하는 디스플레이는 EDR(또는 HDR)과 비교하여 표준 다이내믹 레인지(SDR)로도 언급되는 낮은 다이내믹 레인지(LDR)를 대표한다. EDR 콘텐츠는 더 하이 다이내믹 레인지(예를 들어, 1,000 니트에서 5,000 니트 이상)를 지원하는 EDR 디스플레이에 표시될 수 있다. 이러한 디스플레이는 높은 휘도 역량(예를 들어, 0에서 10,000 이상의 니트)을 지원하는 대체 EOTF를 사용하여 정의될 수 있다. 이러한 EOTF의 예가 SMPTE 2084 및 Rec.ITU-R BT.2100, "제작 및 국제 프로그램 교환에 사용하기 위한 하이 다이내믹 레인지 텔레비전용 이미지 매개변수 값"(2017년 6월)에 규정된다. 본 명세서에서 본 발명자들이 인식한 바와 같이, 광범위한 SDR 및 HDR 디스플레이 디바이스의 디스플레이 역량을 지원하는 데 사용될 수 있는 비디오 콘텐츠 데이터를 구성하기 위한 개선된 기술이 요망된다.
본 섹션에서 설명된 접근 방식은 추구될 수 있는 접근 방식이지만, 반드시 이전에 구상되거나 추구된 접근 방식은 아니다. 따라서, 달리 표시되지 않는 한 본 섹션에 설명된 접근 방식 중 어느 것도 본 섹션에 포함된 것만으로 선행 기술로 간주되어서는 안 된다. 마찬가지로, 하나 이상의 접근 방식과 관련하여 확인된 문제는 달리 표시되지 않는 한, 본 섹션을 기반으로 하는 모든 선행 기술에서 인식된 것으로 가정해서는 안 된다.
본 발명의 실시예는 첨부 도면의 도식에서 한정이 아니라 예로서 예시되고, 도면에서 유사한 참조 번호는 유사한 요소를 가리킨다.
도 1a는 비디오 전송 파이프라인의 예시적인 프로세스를 도시하고; 도 1b는 TPB 크로스 채널 예측을 위한 예시적인 처리 블록을 예시하고; 도 1c 및 도 1d는 TPB 기반 생성 연산의 예시적인 구현을 예시하고; 도 1e 및 도 1f는 TPB 외적 연산의 예시적인 구현을 예시하고; 도 1g 및 도 1h는 TPB 예측을 적용하기 위한 예시적인 흐름도를 예시한다;
도 2a 내지 도 2c는 예시적인 코덱 프레임워크를 예시한다;
도 3a 내지 도 3d는 균일하게 분포된 노트(knot)에 대한 B-스플라인 기저 함수의 완전 집합(complete set)의 예를 예시한다;
도 4a 및 도 4b는 예시적인 프로세스 흐름을 예시한다;
도 5는 본 명세서에 설명된 것과 같은 컴퓨터 또는 컴퓨팅 디바이스가 구현될 수 있는 예시적인 하드웨어 플랫폼의 단순화된 블록도를 예시한다.
이하의 설명에 있어서, 설명의 목적으로, 본 발명의 완전한 이해를 제공하기 위해 많은 특정 상세가 개시된다. 그러나, 본 발명은 이러한 특정 상세 없이 실시될 수 있음이 명백할 것이다. 다른 예에서, 본 발명을 불필요하게 차단하거나, 모호하게 하거나, 혼란스럽게 하는 것을 피하기 위해, 잘 알려진 구조 및 디바이스는 속속들이 상세하게 설명되지는 않는다.
요약
텐서-곱 B-스플라인(TPB) 예측 변수가 본 명세서에 설명된다. 본 명세서에 설명된 것과 같은 기술은 비디오 콘텐츠 처리 파이프라인에서 예측 연산을 수행하고, 다운스트림 비디오 콘텐츠 프로세서가 제1 다이내믹 레인지(예를 들어, HDR, SDR 등)의 비디오 콘텐츠를 비디오 신호에서 운반되는 제2의 상이한 다이내믹 레인지(예를 들어, SDR, HDR 등)의 디코딩된 비디오 콘텐츠로부터 재구성할 수 있도록 업스트림 비디오 콘텐츠 프로세서로 컴포저 메타데이터(composer metadata)를 생성하는 데 사용될 수 있다. 일부 동작 시나리오에서, 컴포저 메타데이터는 단일 채널 루마 예측 변수 및 단일 피스(예를 들어, 가능한 입력 휘도 및 색차 코드워드 등의 일부 또는 전체에 적용 가능함) 다중 채널 다중 회귀(MMR) 크로마 예측 변수로 생성될 수 있다. 단일 채널 루마 예측 변수는 동일한 휘도를 갖는 픽셀에 대한 색 포화도(color saturation)를 한정할 수 있다. 단일 피스 MMR은 전역 맵핑을 부과함으로써 로컬 색상 예측을 한정한다. 이러한 한정으로 인해 재구성되거나 맵핑된 이미지의 정확도가 떨어지고, 색상이 더 부정확해질 수 있으며, 색상 차트(예를 들어, 표현되거나 측정될 가능한 색상의 일부 또는 전부를 포함하는 등)의 일부(예를 들어, 강렬한 색상, 포화도가 높은 색상 등)에 대해 상대적으로 더 큰 색상 차이가 발생할 수 있다. 단일 채널 루마 예측 및 MMR 크로마 예측 연산의 예는, 전체 내용이 본 명세서에 완전히 개시된 것처럼 본 명세서에 참고로 포함되는, 2018년 12월 18일자로 출원된 미국 가특허출원 제62/781,185호에 설명된다.
일부 동작 시나리오에서, 본 명세서에 설명된 것과 같은 TPB 예측 변수는 다운스트림 비디오 콘텐츠 프로세서가 더 우수한 화질 및 비교적 높은 색상 정밀도를 갖는 이미지를 재구성할 수 있도록 하기 위해, 상위 비디오 콘텐츠 프로세서에 의해 컴포저 메타데이터를 생성하도록 비디오 콘텐츠 처리 파이프라인에 사용될 수 있다.
B-스플라인은 특정 차수의 연속성 제약을 갖는 다항식을 이용하여 주어진 곡선 또는 그 선분을 근사화하는 속성을 갖는다. B-스플라인은 단순히 B-스플라인 모델 위에 데이터 피팅을 수행함으로써 회귀 프로세스에서 사용될 수 있다. 비디오 처리에서 상대적으로 높은 차원의 다수의 입력 변수를 캡처하기 위해, 텐서 곱 B-스플라인(또는 TPB)은 맵핑, 곡선 등의 상대적으로 높은 차원 근사를 달성하기 위해 다수의 B-스플라인 함수를 함께 곱하여 지정될 수 있으며, 다수의 입력 변수를 대상 값(또는 출력 변수)과 상호 연관시킬 수 있다. 컴포저 메타데이터를 생성하기 위한 단일 채널 휘도 예측 변수와 단일 피스 MMR의 조합과 비교할 때, 컴포저 메타데이터를 생성하기 위해 TPB를 사용하는 것은 상이할 수 있는 다이내믹 레인지의 상이한 색상 등급 간의 변환을 모델링하는 훨씬 더 나은 도구를 제공한다. 추가적으로, 선택적으로 또는 대안적으로, TPB는 본질적으로 연속적인 곡선을 제공하는 데 사용될 수 있으며(특정 차수까지 연속성을 보장하는 고유한 능력을 가짐), 이에 따라 예측, 변환 및/또는 맵핑의 초기 생성 후 곡선 피팅 작업을 피하거나 크게 감소시킬 수 있다. 예를 들어, 단일 채널 휘도 예측 변수에 적용되는 것과 같은 다중 다항식 피스에서 연속성을 보장하기 위한 연산 집약적 다항식 근사 알고리즘은 본 명세서에 설명된 것과 같은 기술 하에서 회피될 수 있다.
TPB 예측은 장면 기반 및 선형 기반의 경우와 같은 상이한 인코딩 시나리오에서 사용될 수 있다. 3차원 맵핑 테이블(3DMT) 기술은 TPB 예측과 함께 사용하여 시각적으로 인지할 수 있는 색상 아티팩트(color artifact)를 감소시킬 수 있다. 실험 결과에 따르면, 루마의 경우 10~40x 및 크로마의 경우 1~4x에서 예측 정확도가 개선될 수 있다.
본 명세서에 설명된 예시적인 실시예는 이미지 재구성을 위한 TPB 예측 매개변수를 생성 및 인코딩하는 것에 관한 것이다. 텐서 곱 B-스플라인(TPB) 기저 함수의 집합이 결정된다. 소스 색상 등급의 하나 이상의 소스 이미지의 소스 이미지 데이터로부터 하나 이상의 맵핑된 이미지의 예측된 이미지 데이터를 생성하기 위해 TPB 기저 함수의 집합과 함께 사용될 선택된 TPB 예측 매개변수의 집합이 생성된다. 선택된 TPB 예측 매개변수의 집합은 하나 이상의 맵핑된 이미지들에 있어서의 예측된 이미지 데이터와 참조 색상 등급의 하나 이상의 참조 이미지들에 있어서의 참조 이미지 데이터 사이의 차이를 최소화함으로써 생성된다. 하나 이상의 참조 이미지는 하나 이상의 소스 이미지에 대응하고 하나 이상의 소스 이미지에 의해 묘사된 것과 동일한 시각적 콘텐츠를 묘사한다. 선택된 TPB 예측 매개변수의 집합은 하나 이상의 소스 이미지의 소스 이미지 데이터와 함께 이미지 메타데이터의 일부로서 비디오 신호에 인코딩된다. 하나 이상의 맵핑된 이미지는 비디오 신호의 수신자 디바이스로 재구성 및 렌더링되게 된다.
본 명세서에 설명된 예시적인 실시예는 이미지 재구성 및 렌더링을 위해 TPB 예측 매개변수를 디코딩하는 것에 관한 것이다. 제1 색상 등급의 하나 이상의 제1 이미지가 비디오 신호로부터 디코딩된다. 텐서-곱 B-스플라인(TPB) 기저 함수의 집합과 곱하기 위한 선택된 TPB 예측 매개변수의 집합을 포함하는 이미지 메타데이터가 비디오 신호로부터 디코딩된다. 선택된 TPB 예측 매개변수 집합은 업스트림 비디오 콘텐츠 프로세서에 의해 생성되었다. 선택된 TPB 예측 매개변수의 집합은 제1 색상 등급의 하나 이상의 제1 이미지의 제1 이미지 데이터로부터 하나 이상의 맵핑된 이미지의 예측된 이미지 데이터를 생성하기 위한 TPB 기저 함수의 집합과 함께 사용된다. 업스트림 비디오 콘텐츠 프로세서는 하나 이상의 맵핑된 이미지에 있어서의 예측된 이미지 데이터와 참조 색상 등급의 하나 이상의 참조 이미지에 있어서의 참조 이미지 데이터 사이의 차이를 최소화함으로써 선택된 TPB 예측 매개변수의 집합을 생성하였다. 하나 이상의 참조 이미지는 하나 이상의 제1 이미지에 대응하고 하나 이상의 제1 이미지에 의해 묘사된 것과 동일한 시각적 콘텐츠를 묘사한다. TPB 예측 매개변수의 집합은 하나 이상의 제1 이미지들로부터 하나 이상의 맵핑된 이미지들을 생성하기 위해 TPB 기저 함수들의 집합과 함께 사용된다. 하나 이상의 맵핑된 이미지로부터 유도된 하나 이상의 디스플레이 이미지는 디스플레이 디바이스로 렌더링되게 된다.
예시적인 비디오 전송 처리 파이프라인
도 1a는 비디오 캡처/생성으로부터 HDR 또는 SDR 디스플레이까지 여러 단계를 보여주는 비디오 전송 파이프라인(100)의 예시적인 프로세스를 묘사한다. 예시적인 HDR 디스플레이에는 TV, 모바일 디바이스, 홈 씨어터 등과 함께 작동하는 이미지 디스플레이가 포함될 수 있지만, 이로 한정되지 않는다. 예시적인 SDR 디스플레이에는 SDR TV, 모바일 디바이스, 홈 씨어터 디스플레이, 헤드마운트형 디스플레이 디바이스, 웨어러블 디스플레이 디바이스 등이 포함될 수 있지만, 이로 한정되지 않는다.
비디오 프레임(102)은 이미지 생성 블록(105)을 사용하여 캡처되거나 생성된다. 비디오 프레임(102)은 비디오 데이터(107)를 제공하기 위해 (예를 들어, 디지털 카메라에 의해) 디지털 방식으로 캡처되거나, (예를 들어, 컴퓨터 애니메이션을 사용하는 등의 방식으로) 컴퓨터에 의해 생성될 수 있다. 추가적으로, 선택적으로 또는 대안적으로, 비디오 프레임(102)은 필름 카메라에 의해 필름 상에 캡처될 수 있다. 필름은 비디오 데이터(107)를 제공하기 위해 디지털 포맷으로 변환된다. 일부 실시예에서, 비디오 데이터(107)는 비디오 전송 파이프라인(100)에서 (예를 들어, 사람의 입력 없이 자동으로, 수동으로, 사람의 입력에 의해 자동으로 등의 방식으로) 편집되거나, 다음 처리 단계/위상으로 이동되기 전에 이미지 시퀀스로 변환될 수 있다.
그 후, 비디오 데이터(107)는 후반 제작 편집(115)을 위해 프로세서에 제공된다. 후반 제작 편집(115)은 비디오 제작자의 창의적 의도에 따라 이미지 품질을 향상시키거나 이미지에 대한 특정 외관을 달성하기 위해 이미지의 특정 영역에서 색상 또는 밝기를 조정 또는 수정하는 것을 포함할 수 있다. 때때로, 이것을 "색상 타이밍" 또는 "색상 그레이딩"이라고 한다. 다른 편집(예를 들어, 장면 선택 및 시퀀싱, 수동 및/또는 자동 장면 컷 정보 생성, 이미지 자르기, 컴퓨터 생성 시각 특수 효과의 추가 등)을 후반 제작 편집(115)에서 수행하여, HDR 이미지(117-1) 또는 SDR(또는 상대적으로 좁은 다이내믹 레인지) 이미지(117)(예를 들어, SDR 등)의 릴리스 버전을 생성할 수 있다.
일부 실시예에서, 후반 제작 편집(115) 동안, HDR 이미지(117-1)는 HDR 이미지(117-1) 상에서 후반 제작 편집 작업을 수행하고 있는 컬러리스트에 의해 하이 다이내믹 레인지를 지원하는 참조 HDR 디스플레이에서 보여진다.
일부 다른 실시예에서, 후반 제작 편집(115) 동안, SDR 이미지(117)는 SDR 이미지(117)에 대해 후반 제작 편집 작업을 수행하고 있는 컬러리스트에 의해 표준 다이내믹 레인지(또는 상대적으로 좁은 다이내믹 레인지)를 지원하는 참조 디스플레이(125)에서 보여진다.
일부 실시예에서, 코딩 블록(120)은 도 2a 또는 도 2b에 예시된 것과 같은 코덱 프레임워크를 구현할 수 있다. 코딩 블록(120)이 후반 제작 편집(115)으로부터 HDR 이미지(117-1)를 수신하는 동작 시나리오에서, HDR 이미지(117-1)는 코딩 블록(120)에 의해 SDR 이미지(예를 들어, 117)로 순방향 재형성될 수 있다.
SDR 이미지(117)는 예를 들어 단일 레이어에서 코딩 블록(120)에 의해 코딩된 비트스트림(122)으로 압축된다. 일부 실시예에서, 코딩 블록(120)은 코딩된 비트스트림(122)을 생성하기 위해, ATSC, DVB, DVD, Blu-Ray 및 다른 전달 포맷에 의해 규정된 것과 같은 오디오 및 비디오 인코더를 포함할 수 있다.
일부 실시예에서, 코딩된 비트스트림(122)은 SDR 이미지(117)가 후반 제작 편집(115)에서 생성되는 예술적 의도를 보존하는 SDR 이미지(117)로 인코딩된다. 추가적으로, 선택적으로 또는 대안적으로, 일부 실시예에서 코딩된 비트스트림(122)은 HDR 이미지(117-1)―SDR 이미지(117)로 순방향 재형성됨―가 후반 제작 편집(115)에서 생성되는 예술적 의도를 보존하는 SDR 이미지(117)로 인코딩된다.
코딩 블록(120)은 광범위한 SDR 디스플레이 디바이스(예를 들어, SDR 디스플레이 등)와 역호환 가능한(또는 대안적으로 역호환 불가한) 비디오 신호(예를 들어, 8비트 SDR 비디오 신호, 10비트 SDR 비디오 신호 등)의 비디오 데이터로 SDR 이미지(117)를 인코딩할 수 있다. 비한정적인 예에서, SDR 이미지(117)로 인코딩된 비디오 신호는 단일 레이어 역호환 가능한(또는 대안적으로 역호환 불가한) 비디오 신호일 수 있다.
일부 실시예에서, 코딩된 비트스트림(122)은 코딩 블록(120)에 의해 수신된 입력 SDR YCbCr 비디오 신호와 동일한 비디오 신호 포맷을 따르는 비디오 신호이다. 예를 들어, 코딩 블록(120)에 의해 수신된 입력 SDR YCbCr 비디오 신호가 8비트 SDR YCbCr 비디오 신호인 경우, 코딩 블록(120)에 의해 출력되는 코딩된 비트스트림(122)은 출력 8-비트 SDR YCbCr 비디오 신호를 코딩 블록(120) 및/또는 후반 제작 블록(115)에 의해 생성되는 것과 같은 컴포저 메타데이터를 포함하지만 이로 한정되지 않는 이미지 메타데이터로 표현할 수 있다. 컴포저 메타데이터(또는 역방향 재형성 맵핑)는 (예를 들어, 다중 대상 등) HDR 참조 디스플레이 상에서의 렌더링을 위해 상대적으로 정확할 수 있는 역방향 재형성된 이미지를 생성하기 위해, SDR 이미지(117) 상에서 역방향 재구성(예를 들어, 역 톤 맵핑 등)을 수행하도록 다운스트림 디코더에 의해 사용될 수 있다.
일부 실시예에서, 역방향 재형성된 이미지는 적어도 부분적으로 컴포저 메타데이터에 기초하여 역 톤 맵핑을 구현하는 하나 이상의 SDR로부터 HDR로의 변환 도구를 사용하여 SDR 이미지(117)(또는 이의 디코딩된 버전)로부터 생성될 수 있다. 본 명세서에 사용된 역방향 재형성은 디스플레이 관리와 같은 추가 다운스트림 처리를 위해 재양자화된 이미지를 원래의 EOTF 영역(예를 들어, 감마 또는 PQ) 또는 상이한 EOTF 영역으로 다시 변환하는 이미지 처리 작업을 지칭한다. 추가적으로, 선택적으로 또는 대안적으로, 본 명세서에 설명된 것과 같은 재형성(예를 들어, 순방향 재형성, 역방향 재형성 등)은 예를 들어 상이한 EOTF, 상이한 색상 공간, 상이한 다이내믹 레인지 등의 사이에서 변환하는 이미지 처리 동작을 지칭할 수 있다.
코딩된 비트 스트림(122)은 (예를 들어, 다중 등) 디바이스 특정 HDR 디스플레이에서 렌더링하기 위한 디스플레이 이미지를 생성하기 위해, HDR 참조 디스플레이에 대한 역방향 재형성된 이미지 상에서 디스플레이 관리 작업을 수행하도록 다운스트림 디코더에 의해 사용될 수 있는 디스플레이 관리(DM) 메타데이터를 포함하지만, 이로 한정되지 않는 이미지 메타데이터로 추가로 인코딩된다.
그 후, 코딩된 비트스트림(122)은 디코딩 및 재생 디바이스, 미디어 소스 디바이스, 미디어 스트리밍 클라이언트 디바이스, 텔레비전 집합(예를 들어, 스마트 TV 등), 셋톱 박스, 영화관 등과 같은 수신기로 다운스트림으로 전송된다. 수신기(또는 다운스트림 디바이스)에서, 코딩된 비트스트림(122)은 디코딩 블록(130)에 의해 디코딩되어 디코딩된 이미지(182)를 생성하며, 디코딩된 이미지는 코딩 블록(120)에 의해 수행되는 압축 및 디코딩 블록(130)에 의해 수행되는 압축해제 시에 생성되는 양자화 오류에 종속하는 SDR 이미지(117)와 동일할 수 있다.
SDR 이미지(117) 또는 그 디코딩된 버전에 의해 표현되는 것과 같은 예시적인 SDR 비디오 콘텐츠는 SDR+ 비디오 콘텐츠, SDR 이미지, SDR 무비 릴리스, SDR+ 이미지, SDR 미디어 프로그램 등일 수 있지만 반드시 이로만 한정되는 것은 아니다. 본 명세서에 사용된 바와 같이, 용어 "SDR+"는 SDR 이미지 데이터와 메타데이터의 조합을 나타내며, 이들이 함께 조합될 때 대응하는 하이 다이내믹 레인지(HDR) 이미지 데이터를 생성할 수 있다. SDR+ 이미지 메타데이터는 입력 SDR 이미지에 적용될 때 대응하는 HDR 이미지를 생성하는 역방향 재형성 맵핑(예를 들어, TPB 역방향 재형성 맵핑 등)을 생성하기 위한 컴포저 데이터를 포함할 수 있다. SDR+ 이미지는 SDR+ 이미지 메타데이터를 무시하고 단순히 SDR 이미지를 표시할 수 있는 레거시 SDR 디스플레이와의 역호환성을 허용한다.
SDR 비디오 콘텐츠와 함께 수신자 디바이스로 전송된 이미지 메타데이터는 본 명세서에 설명된 기술에 따라 (예를 들어, 자동으로, 실시간으로, 오프라인 처리에서 등) 생성된 컴포저 메타데이터를 포함할 수 있다. 일부 실시예에서, 비디오 데이터(107)는 컴포저 메타데이터 생성(115)을 위해 프로세서에 제공된다. 컴포저 메타데이터 생성(115)은 인간과의 상호작용이 없거나 거의 없이 컴포저 메타데이터를 자동으로 생성할 수 있다. 자동으로 생성된 컴포저 메타데이터는 비디오 데이터(107)의 SDR 이미지로부터 대응하는 하이 다이내믹 레인지(HDR) 이미지를 생성하기 위해 역방향 재형성 작업을 수행하도록 수신자 디바이스(들)에 의해 사용될 수 있다.
컴포저 메타데이터 생성(115)은 비디오 콘텐츠를 광범위한 디스플레이 디바이스에서 이용 가능하게 하기 위해 하나 이상의 유용한 서비스를 제공하는 데 사용될 수 있다. 컴포저 메타데이터 생성(115)에 의해 제공되는 유용한 서비스 중 하나는 SDR 이미지에 묘사된 비디오 콘텐츠에 대한 HDR 이미지는 사용할 수 없지만 비디오 콘텐츠를 묘사하는 SDR 이미지는 사용할 수 있는 동작 시나리오에서 전술한 것과 같은 SDR 이미지로부터 HDR 이미지를 생성하는 것이다. 따라서, 본 명세서에 설명된 기술은 SDR 이미지가 이용 가능한 이러한 동작 시나리오에서 HDR 디스플레이를 위한 HDR 비디오 콘텐츠를 생성하거나 구성하는 데 사용될 수 있다.
컴포저 메타데이터 생성(115)에 의해 제공되는 다른 유용한 서비스는 "색상 타이밍" 또는 "색상 그레이딩"으로 알려진 컬러리스트의 수동 작업의 일부 또는 전부에 의존함이 없이 HDR 디스플레이(예를 들어, 전체적으로, 부분적으로 등)를 위한 HDR 비디오 콘텐츠를 생성하는 것이다.
추가적으로, 선택적으로 또는 대안적으로, 이미지 메타데이터의 DM 메타데이터는 HDR 참조 디스플레이 디바이스 또는 비참조 HDR 디스플레이 디바이스 등과 같은 다른 디스플레이 디바이스 상에서의 렌더링을 위해 디스플레이 이미지(예를 들어, HDR 디스플레이 이미지 등)를 생성하도록, 역방향 재형성된 이미지에 대한 디스플레이 관리 작업을 수행하기 위해 다운스트림 디코더에 의해 사용될 수 있다.
수신기가 표준 다이내믹 레인지 또는 상대적으로 좁은 다이내믹 레인지를 지원하는 SDR 디스플레이(140)와 함께 작동하는(또는 이에 부착되는) 동작 시나리오에서, 수신기는 디코딩된 SDR 이미지를 대상 디스플레이(140) 상에 직접 또는 간접적으로 렌더링할 수 있다.
수신기가 하이 다이내믹 레인지(예를 들어, 400 니트, 1000 니트, 4000 니트, 10000 니트 이상 등)를 지원하는 HDR 디스플레이(140-1)와 함께 작동하는(또는 그에 부착되는) 동작 시나리오에서, 수신기는 코딩된 비트스트림(122)으로부터(예를 들어, 메타데이터 컨테이너 등의) 컴포저 메타데이터(예를 들어, TPB 컴포저 메타데이터 등)를 추출하고, 컴포저 메타데이터에 기초하여 SDR 이미지를 역방향 재형성하여 생성된 역방향 재형성 이미지일 수 있는 HDR 이미지(132)를 작성하기 위해 컴포저 메타데이터를 사용할 수 있다. 또한, 수신기는 코딩된 비트스트림(122)으로부터 DM 메타데이터를 추출하고, HDR(예를 들어, 비참조 등) 디스플레이 디바이스(140-1) 상에서 렌더링하기 위한 디스플레이 이미지(137)를 생성하고 디스플레이 이미지(137)를 HDR 디스플레이 디바이스(140-1) 상에서 렌더링하기 위해, DM 메타데이터에 기초하여 HDR 이미지(132) 상에 DM 동작(135)을 적용할 수 있다.
코덱 프레임워크
일부 동작 시나리오에서, SDR+는 HDR 디스플레이 디바이스에서의 렌더링을 위해 SDR 콘텐츠를 향상시키는 데 사용될 수 있다. SDR 이미지의 루마 및 크로마 채널(또는 색상 공간 성분)은 컴포저 메타데이터와 같은 이미지 메타데이터를 사용하여 별도로 맵핑되어 (맵핑된) HDR 이미지의 대응하는 루마 및 크로마 채널을 생성할 수 있다.
그러나, 다양한 실시예에서, 본 명세서에 설명된 것과 같은 기술이 단일 레이어 역 디스플레이 관리(SLiDM) 또는 비-SLiDM 코덱 프레임워크에 대해 사용될 수 있다는 점에 유의해야 한다. 예를 들어, 본 명세서에 설명된 것과 같은 TPB 메타데이터 생성, 전송 및 소비는 SDR 또는 HDR 콘텐츠를 포함하는 2개 이상의 코딩 레이어를 포함하는 다중 레이어 비디오 신호와 함께 사용될 수도 있다.
추가적으로, 선택적으로 또는 대안적으로, 본 명세서에 설명된 것과 같은 TPB 메타데이터 생성, 전송 및 소비는 HDR 신호와 같은 비-SDR(또는 비-SDR+) 비디오 신호와 함께 사용될 수 있다. 예를 들어, 재구성된 HDR 콘텐츠를 생성하기 위해 디코딩된 SDR 콘텐츠를 역방향으로 재형성하도록 수신자 디바이스에 의해 사용되는 TPB 역방향 재형성 메타데이터를 포함하는 대신, HDR 신호는 재구성된 SDR 콘텐츠를 생성하기 위해 디코딩된 HDR 콘텐츠를 순방향으로 재형성하도록 수신자 디바이스에 의해 사용되는 TPB 순방향 재형성 메타데이터를 포함할 수 있다.
따라서, 본 명세서에 설명된 것과 같은 기술은 예시 목적으로만 예시적인 코덱 프레임워크 또는 비디오 신호로 설명될 수 있지만, 이러한 기술은 예시적인 코덱 프레임워크 또는 비디오 신호로 한정되지 않고, 다른 코덱 프레임워크 또는 비디오 신호로 구현될 수 있다.
도 2a 내지 도 2c는 예시적인 코덱 프레임워크를 예시한다. 보다 구체적으로, 도 2a는 업스트림 비디오 인코더 등에서 하나 이상의 컴퓨팅 프로세서로 구현될 수 있는 제1 인코더 측 코덱 아키텍처의 일 예를 예시한다. 도 2b는 업스트림 비디오 인코더 등에서 하나 이상의 컴퓨팅 프로세서로 구현될 수 있는 제2 인코더 측 코덱 아키텍처의 일 예를 예시한다. 도 2c는 또한 다운스트림 비디오 디코더(예를 들어, 수신기 등) 등에서 하나 이상의 컴퓨팅 프로세서로 구현될 수도 있는 디코더 측 코덱 아키텍처의 일 예를 예시한다.
제1 프레임워크에서, 도 2a에 예시된 바와 같이, SDR 이미지(117) 등과 같은 역호환 가능한 SDR 이미지는 코덱 프레임워크의 인코더 측에서 입력으로서 수신된다.
한정이 아닌 예시로서, 역 다이내믹 레인지 맵핑(dynamic-range mapping)(DM) 모듈(162)―SDR로부터 HDR로의 변환 도구 등을 나타낼 수 있음―은 SDR 이미지(117)를 참조 HDR 디스플레이에서 보기 위한 HDR 이미지(148)로 변환하는 데 사용된다. 일부 실시예에서, 역-DM 모듈은 역 톤 맵핑 도구로도 지칭될 수 있다.
도 2b에 예시된 바와 같은 제2 프레임워크에서, 참조 HDR 디스플레이 등을 위한 HDR 이미지(148)는 코덱 프레임워크의 인코더 측에서 입력으로서 수신된다. 여기서 "참조 HDR 디스플레이를 위한 HDR 이미지"는 HDR(참조) 디스플레이를 위해 특별히 색상 등급이 지정된 HDR 이미지를 지칭할 수 있다.
한정이 아닌 예시로서, 순방향 재형성 모듈(164)―HDR로부터 SDR로의 변환 도구 등을 나타낼 수 있음―은 HDR 이미지(148)를 SDR 디스플레이에서 보기 위한 SDR 이미지(117)로 변환하는 데 사용된다. 일부 실시예에서, 순방향 재형성 모듈은 톤 맵핑 도구로도 지칭될 수 있다.
제1 및 제2 인코더 측 코덱 아키텍처 둘 모두에서, 이미지 메타데이터 생성기(150)(예를 들어, 코딩 블록(120)의 일부 등)는 SDR 이미지(117) 및 HDR 이미지(148) 둘 모두를 입력으로서 수신하고, TPB 컴포저 메타데이터, DM 메타데이터 등과 같은 이미지 메타데이터(152)를 생성한다. HDR(예를 들어, 참조, 대상 등) 디스플레이를 위한 역방향 재형성된 이미지(132)는 TPB 컴포저 메타데이터에 지정된 것과 같은 역방향 재형성 함수/곡선으로 SDR 이미지(117)를 역방향 재형성함으로써 생성될 수 있다.
일부 실시예에서, 역방향 재형성된 이미지(132)는 HDR 디스플레이에 대한 생산 품질 또는 거의 생산 품질의 HDR 이미지를 나타낸다. 역방향 재형성된 이미지(132)는 출력 HDR 비디오 신호(160)로 HDR 디스플레이 디바이스로 출력되고(예를 들어, HDMI 인터페이스를 통하거나 비디오 링크를 통하거나 하는 등) 렌더링될 수 있다. 이들 실시예에서, 수신기는 TPB 컴포저 메타데이터를 검색하고, TPB 컴포저 메타데이터에 기초하여 SDR 이미지(117)를 역방향 재형성함으로써 재구성된 HDR 이미지를 재구성 및 렌더링할 수 있다.
제1 및 제2 인코더 측 아키텍처 둘 모두에서, 압축 블록(142)(예를 들어, 도 1a의 코딩 블록(120)의 일부 등)은 비디오 신호의 단일 레이어(144)에서 SDR 이미지(117)를 압축/인코딩한다. 예시적인 비디오 신호는 도 1a의 코딩된 비트스트림(122)일 수 있지만, 반드시 이것만으로 한정되는 것은 아니다. 이미지 메타데이터 생성기(150)에 의해 생성된 것과 같은 이미지 메타데이터(152)("rpu"로 표시됨)는 비디오 신호(예를 들어, 코딩된 비트스트림 등)로 (예를 들어, 도 1a의 코딩 블록(120)에 의하는 등으로) 인코딩될 수 있다.
제1 및 제2 인코더 측 아키텍처 둘 모두에서, 이미지 메타데이터(152)는 SDR 이미지가 비디오 신호에서 인코딩되는 단일 레이어로부터 비디오 신호로 별도로 운반될 수 있다. 예를 들어, 이미지 메타데이터(152)는 코딩된 비트스트림의 성분 스트림으로 인코딩될 수 있으며, 성분 스트림은 SDR 이미지(117)가 인코딩되는 (코딩된 비트스트림의) 단일 레이어와 분리되거나 분리되지 않을 수 있다.
제1 및 제2 인코더 측 아키텍처 둘 모두에서, 비디오 신호의 이미지 메타데이터(152)의 TPB 컴포저 메타데이터는 다운스트림 수신기가 (비디오 신호에서 인코딩되는) SDR 이미지(117)를 HDR 대상 디스플레이용으로 재구성된 이미지(또는 역방향 재형성된 이미지)로 역방향 재형성할 수 있게 하는 데 사용될 수 있다. HDR 대상 디스플레이의 예에는, HDR 참조 디스플레이의 것과 유사한 디스플레이 능력을 갖는 HDR 대상 디스플레이, HDR 참조 디스플레이의 것과 상이한 디스플레이 능력을 갖는 HDR 대상 디스플레이, HDR 대상 디스플레이용 비디오 콘텐츠를 표시하기 위해 HDR 참조 디스플레이용으로 재구성된 비디오 콘텐츠를 맵핑하기 위한 추가 DM 작업을 갖는 HDR 대상 디스플레이 등 중에서 임의의 것이 포함될 수 있지만, 반드시 이것만으로 한정되지 않는다.
일부 동작 시나리오에서, 제1 및 제2 인코더 측 아키텍처 둘 모두에서, SDR 콘텐츠는 인코더 측 코덱 아키텍처를 구현하는 업스트림 인코딩 디바이스에 의해 코드 비트 스트림(122) 등과 같은 비디오 신호의 단일 레이어에서 인코딩되고 전송된다. SDR 콘텐츠는 디코더 측 코덱 아키텍처를 구현하는 다운스트림 디코딩 디바이스(또는 수신기)에 의해 비디오 신호의 단일 레이어에서 수신 및 디코딩된다. TPB 컴포저 메타데이터도 수신자 디바이스가 SDR 콘텐츠 및 TPB 컴포저 메타데이터에 기초하여 HDR 콘텐츠를 재구성할 수 있도록 SDR 콘텐츠와 함께 비디오 신호에서 인코딩 및 전송된다.
일부 실시예에서, 도 2c에 예시된 바와 같이, 단일 레이어(144)의 SDR 이미지(117) 및 전체 이미지 메타데이터의 일부로서의 TPB 역방향 재형성 메타데이터(152)로 인코딩된 비디오 신호는 제1 및 제2 인코더 측 아키텍처의 디코더 측에서 입력으로서 수신된다.
압축해제 블록(154)(예를 들어, 도 1a의 디코딩 블록(130)의 일부 등)은 비디오 신호의 단일 레이어(144)에 있어서의 압축된 비디오 데이터를 디코딩된 SDR 이미지(182)로 압축해제/디코딩한다. 디코딩된 SDR 이미지(182)는 압축 블록(142) 및 압축해제 블록(154)에서 양자화 오류가 발생하는 SDR 이미지(117)와 동일할 수 있다. 디코딩된 SDR 이미지(182)는 출력 SDR 비디오 신호(156)로 (예를 들어, HDMI 인터페이스를 통하거나 비디오 링크를 통하거나 하는 등) SDR 디스플레이 디바이스로 출력되고 렌더링될 수 있다.
또한, 역방향 재형성 블록(158)은 입력 비디오 신호로부터 TPB 컴포저 메타데이터(또는 역방향 재형성 메타데이터)와 같은 이미지 메타데이터(152)를 추출하고, 이미지 메타데이터의 추출된 TPB 컴포저 메타데이터에 기초하여 역방향 재형성 함수를 구성하고, 특정 HDR 대상 디스플레이를 위한 역방향 재형성된 이미지(132)(또는 재구성된 HDR 이미지)를 생성하기 위해 역방향 재형성 함수에 기초하여 디코딩된 SDR 이미지(117)에 대한 역방향 재형성 작업을 수행한다.
일부 실시예에서, 역방향 재형성된 이미지는 HDR 참조 디스플레이를 위한 생산 품질 또는 거의 생산 품질의 HDR 이미지를 나타낸다. 역방향 재형성된 이미지(132)는 출력 HDR 비디오 신호(160)에서 HDR 참조 디스플레이의 것과 유사한 디스플레이 능력을 갖는 HDR 디스플레이로 (예를 들어, HDMI 인터페이스를 통하거나 비디오 링크를 통하거나 하는 등에 의해) 출력되고 렌더링될 수 있다. 따라서, 이들 실시예에서, 디바이스 작동을 단순화하고 디바이스 비용을 줄이기 위해, DM 기능이 수신기에 의해 구현되지 않을 수 있다.
추가적으로, 선택적으로 또는 대안적으로, 일부 실시예에서, DM 메타데이터는 TPB 컴포저 메타데이터 및 SDR 이미지(117)와 함께 수신기로 전송될 수 있다. HDR 참조 디스플레이의 것과 상이한 디스플레이 능력을 갖는 HDR 대상 디스플레이에 특정한 디스플레이 관리 작업은 예를 들어, HDR 대상 디스플레이 상에 렌더링될 디스플레이 HDR 이미지를 생성하기 위해, 적어도 부분적으로 이미지 메타데이터(152)의 DM 메타데이터에 기초하여 역방향 재형성된 이미지(132)에 대해 수행될 수 있다.
B-스플라인 기반 예측
TPB (기반) 예측은 동일한 시각적 의미 콘텐츠를 묘사하는 상이한 색상 등급 사이에서 맵핑 또는 변환의 선택된 작동 매개변수를 유도하는 데 사용될 수 있다. 본 명세서에서 사용된 바와 같이, 색상 등급은 비디오 이미지의 (예를 들어, 릴리스, 전문적으로 색상 등급이 매겨진, 사용자 또는 비디오 전문가에 의해 색상 등급이 매겨진, 재구성된, 예측될 등의) 버전을 지칭할 수 있다.
동일한 시각적 의미 콘텐츠를 묘사하는 2개의 색상 등급 간의 맵핑 또는 변환은 순방향 재형성 맵핑 또는 변환, 역방향 재형성 맵핑 또는 변환 등을 지칭할 수 있다. 재형성 작업의 예는 2015년 3월 20일자로 출원된 미국 가특허출원 제62/136,402호(또한, 2018년 1월 18일자로 미국 특허출원 공개 제2018/0020224호로 공개됨); 2018년 5월 11일자로 출원된 미국 가특허출원 제62/670,086호에 설명되며, 이들의 전체 내용은 본 명세서에 완전히 설명된 것처럼 본 명세서에 참고로 포함된다.
일부 동작 시나리오에서, 순방향 재형성은 더 높은 다이내믹 레인지의 비디오 이미지(동일한 시각적 의미 콘텐츠를 묘사함)로부터 동일하거나 더 낮은 다이내믹 레인지의 비디오 이미지를 생성하는 것을 의미한다.
일부 동작 시나리오에서, 순방향 재형성은 동일하거나 상이한 다이내믹 레인지의 입력 또는 소스 비디오 이미지(동일한 시각적 의미 콘텐츠를 묘사함)로부터 다이내믹 레인지의 (예를 들어, 업스트림 비디오 콘텐츠 프로세서로부터 다운스트림 비디오 콘텐츠 프로세서(들)로 전송되는 아웃 비디오 신호에서 등) 인코딩될 비디오 이미지를 생성하는 것을 의미한다.
일부 동작 시나리오에서, 역방향 재형성은 상대적으로 낮은 다이내믹 레인지의 비디오 이미지(동일한 시각적 의미 콘텐츠를 묘사함)로부터 더 높은 다이내믹 레인지의 비디오 이미지를 생성하는 것을 의미한다.
일부 동작 시나리오에서, 역방향 재형성은 동일하거나 상이한 다이내믹 레인지의 수신된 비디오 이미지(동일한 시각적 의미 콘텐츠를 묘사함)―예를 들어, 업스트림 비디오 콘텐츠 프로세서로부터 다운스트림 비디오 콘텐츠 프로세서(들)로 전송되는 수신된 비디오 신호에서 인코딩되는 등―로부터 다이내믹 레인지의 비디오 이미지를 생성하는 것을 의미한다.
본 명세서에 설명된 것과 같은 TPB 예측 기술은 순방향 재형성 맵핑/변환 및/또는 역방향 재형성 맵핑/변환을 나타내는 이미지 메타데이터 또는 컴포저 메타데이터를 생성하는 데 사용될 수 있다. B-스플라인 기반 예측은 텐서 곱 B-스플라인을 통해, 다중 변수(예를 들어, 색상 공간의 2개 이상의 색상 채널, 색상 공간의 2개 이상의 색상 성분, R, G, B 채널 중 2개 이상의 채널, Y, Cb, Cr 채널 중 2개 이상의 채널 등) 뿐 아니라, 단일 변수(예를 들어, 색상 공간의 단일 색상 채널, 색상 공간의 단일 색상 성분, R, G, B 채널 중 하나의 채널, Y, Cb, Cr 채널 중 하나의 채널 등)에 대해 수행될 수 있다. 일부 동작 시나리오에서, TPB 예측은 SDR로부터 HDR로 또는 HDR로부터 SDR로의 예측 프로세스에서 구현될 수 있다.
아래의 표 1은 예시적인 다항식 스플라인을 예시한다.
표 1
Figure pct00001
B-스플라인 기저 함수는 원하는 평활도 또는 연속성 제약을 달성하기 위해 노트(예를 들어, 인접한 조각별 다항식(piecewise polynomial)을 연결하는 중단점 등)에서 매끄럽게 융합되는 조각별 다항식으로부터 구성될 수 있다. B-스플라인 기저 함수는 차수(degree 또는 order) n의 (n+1) 다항식 조각으로 구성되며, 연속성 또는 미분 가능성의 (n-1) 차수를 포함하여 거기까지 노트로 결합된다. B-스플라인 기저(또는 기저 함수)의 완전 집합(complete set)을 사용하여, 주어진 함수 f(z)(예를 들어, 맵핑, 곡선 등)는 아래와 같이 완전 집합의 D=T+n-1 B-스플라인 기저 함수(T는 노트의 수를 나타냄)의 선형 조합을 통해 표현될 수 있다:
Figure pct00002
B-스플라인 기저 함수는 (예를 들어, T, n+2 등) 노트들 중 인접한 2개의 노트에 기초한 간격에 대해 지원되거나 오직 양수라는 점에 유의해야 한다.
B-스플라인 기저 함수의 0차(영차)는 아래와 같이 지정될 수 있다:
Figure pct00003
B-스플라인 기저 함수의 고차(n차)는 아래와 같이 재귀적으로 지정될 수 있다:
Figure pct00004
2n개의 바깥쪽 노트와 같은 외부 노트는 내부 노트 k0, k1,…, k T-1 에 추가하여―내부 노트가 분포되는 레인지인―외측 [a, b]에 위치될 수 있다.
도 3a 내지 도 3d는 균일하게 분포된 노트(또는 노트 포인트)의 집합에 대한 0차(영차) 내지 3차 B-스플라인 기저 함수의 4개의 예시적인 완전 집합을 예시한다. 상이한 차수의 B-스플라인 기저 함수의 추가적인 완전 집합은 위의 식 (3)을 사용하여 재귀적으로 구성될 수 있다.
내부 노트의 수 T=8노트이고, 2차 B-스플라인 기저 함수의 완전 집합이 사용되는 동작 시나리오에서, 집합의 기저 함수의 총 수 D는 9이다. 9개의 계수의 대응하는 집합
Figure pct00005
은, 예를 들어 비디오 콘텐츠를 나타내는 데 사용되는 색상 공간의 휘도 채널의 단일 채널 예측을 위해 1차원(1D) 맵핑 또는 곡선을 예측하거나 근사하는 데 사용될 수 있다.
설명의 목적으로만, 9개의 2차 B-스플라인 기저 함수의 완전 집합이 HDR과 SDR 간의 1D 맵핑 또는 곡선을 예측하거나 근사화하는 데 적용된다.
SDR 이미지(예를 들어, j번째 SDR 이미지 등) 및 대응하는 HDR 이미지(예를 들어, SDR 이미지와 동일한 시각적 의미 콘텐츠를 묘사하지만 상대적으로 하이 다이내믹 레인지를 갖는 j번째 HDR 이미지 등) 각각이 P 픽셀을 포함하는 것으로 가정한다. 트리플렛(
Figure pct00006
)을 j번째 SDR 및 HDR 이미지의 i번째 픽셀에 대해 각각 정규화된 Y, C0(예를 들어, Cb 등) 및 C1(예를 들어, Cr 등) 값을 나타내도록 한다. 단일 채널 B-스플라인 예측 변수는 루마 또는 휘도 채널에 대해
Figure pct00007
로부터
Figure pct00008
를 예측하는 데 사용될 수 있다.
특정 노트 또는 노트 포인트의 집합을 선택하여
Figure pct00009
로 표시된 Dy(=T+n-1) B-스플라인 기저 함수의 완전 집합을 구성하는 데 사용할 수 있다. HDR 휘도 코드워드 값
Figure pct00010
로부터 SDR 휘도 코드워드 값의 단일 채널 예측
Figure pct00011
은 아래와 같이 대응하는 계수
Figure pct00012
의 집합을 사용하여 수행될 수 있다:
Figure pct00013
SDR 및 HDR 이미지 각각에 P 픽셀이 주어지면, 모든 P 예측(또는 대상) SDR 휘도 코드워드 값, 대응하는 계수
Figure pct00014
및 B-스플라인 기저 함수
Figure pct00015
는 아래와 같이 대응하는 (입력) HDR 휘도 코드워드 값
Figure pct00016
으로부터 (대상) SDR 휘도 코드워드 값
Figure pct00017
을 예측하기 위한 행렬 형태로 수집될 수 있다:
Figure pct00018
여기서,
Figure pct00019
식(8)에서 좌변(LHS)은 설계 행렬을 나타낸다.
모든 P 실제(예를 들어, 대상, 참조 등) SDR 코드워드 값을 포함하는 그라운드 실제 벡터를 아래와 같이 표시한다:
Figure pct00020
계수의 해(
Figure pct00021
)는 아래와 같이 닫힌 형태의 최소 제곱 해를 통해 얻을 수 있다:
Figure pct00022
이 최소 제곱 문제를 해결하기 위해, 예를 들어 B-스플라인 행렬(
Figure pct00023
)이 상대적으로 희소한 시나리오를 고려하기 위해 특별한 주의가 수행될 수 있다. 신호 또는 픽셀 데이터 분포의 종류에 관계없이 노트 포인트가 미리 선택되거나 고정될 수 있는 동작 시나리오에서는 인접한 노트 사이의 노트 간격이 비어 있거나 픽셀이 존재하지 않을 수 있다. B-스플라인 기저 함수는 오직 양수이거나 비교적 작은 간격 동안 지원되고 간격 외측에서는 0이므로, 픽셀이 존재하지 않을 수 있는 빈 간격은
Figure pct00024
의 일부 또는 모든 0 열(각각 모두 0을 포함함)에 기여할 수 있다. 이러한 0 열은 행렬(
Figure pct00025
)의 연산을 잘못 정의하게 하거나 특이점을 만나게 할 수 있다. 일부 동작 시나리오에서, 이 문제를 해결하거나 개선하기 위해,
Figure pct00026
의 모든 0 또는 (예를 들어, 프로그래밍 방식으로, 경험적으로 또는 사용자에 의해 설정된 수치적 임계값과 비교하여) 모든 상대적으로 작은 값을 갖는 열의 경우, 대응하는 계수
Figure pct00027
가 0으로 설정될 수 있다.
Figure pct00028
의 각각의 요소를
Figure pct00029
로 표시하고, α번째 열을
Figure pct00030
로 표시한다. 모든 0 값 또는 모든 비교적 작은 값(예를 들어, 수치적 임계값 아래 열의 합, 수치적 임계값 아래 열의 각 행렬 요소 등)의 열을 제외하고 설계 행렬을 재구성하는 절차의 예가 아래 표 2에 예시된다.
표 2
Figure pct00031
일부 동작 시나리오에서, 위의 식 (10)을 사용하는 대신, 아래와 같이 위의 표 2에서 얻은 것과 같은
Figure pct00032
을 사용하여 최소 제곱 문제를 해결할 수 있다:
Figure pct00033
열의 총 수 Dy가 c로 감소됨에 따라―여기서, c는 각각이 모두 0 또는 상대적으로 작은 모든 숫자를 포함하는 (Dy-c) 열(들)을 제외한 새로운 총 열 수를 나타냄―, 식(11)의 해는 제외된 열(들)에 대응하는 계수 또는 매개변수가 부족할 수 있다. 아래 표 3에 예시된 예시적인 절차를 사용하여, 모든 열들에 대한 매개변수/계수를 포함하는 매개변수/계수 벡터가 아래와 같이 제거된 (Dy-c) 열에 대응하는 매개변수/계수를 0(영)으로 채움으로써 구성될 수 있다:
Figure pct00034
표 3
Figure pct00035
일부 동작 시나리오에서, 노트 또는 노트 포인트의 위치는 미리 선택되거나 고정된다. 그러나, 다양한 실시예에서 노트 또는 노트 포인트의 위치(및/또는 총 수)는 미리 선택되거나 고정될 수도 있고, 그렇지 않을 수도 있다는 점에 유의해야 한다. 예를 들어, 일부 동작 시나리오에서, 노트 또는 노트 포인트의 위치(및/또는 총 수)가 해의 최적성에 영향을 미칠 수 있으므로, 매개변수/계수
Figure pct00036
와 함께 노트 또는 노트 포인트의 위치(및/또는 총 수)
Figure pct00037
는 전체 최소화(또는 최적화) 문제 또는 해의 일부로서 적응적으로 결정될 수 있다.
노트 포인트를 적응적으로 선택하면, 비디오 콘텐츠의 상이한 색상 등급 사이에서 맵핑 또는 변환의 성능과 정확성을 추가로 개선할 수 있지만, 균일하게 분포된 노트 포인트를 미리 설정하거나 미리 선택하는 것은 이하의 내용을 포함하지만, 이로 한정되지 않는 예시적인 이점을 제공한다: (1) 업스트림 비디오 콘텐츠 프로세서에 의해 이미지 메타데이터에서 B-스플라인 기저 함수의 다운스트림 비디오 콘텐츠 프로세서 노트 위치로 신호를 보내거나 전송될 필요가 없어 이미지 메타데이터를 운반하고 인코딩하기 위한 비트스트림 오버헤드를 감소시키는 것, (2) 그렇지 않으면 프레임별로 적응적으로 변경될 수 있는 상이한 노트 포인트에 응답하여 디코더 측에서 기저 함수를 다시 연산할 필요가 없는 것 등. 다시 말해, 노트 포인트가 미리 설정되거나 고정된 B-스플라인 기저 함수는 로직에 배선되거나 디코더 측의 데이터 저장소에 저장되어 런타임 연산 부하 및/또는 하드웨어 복잡성을 감소시킬 수 있다.
TPB 크로스 색상 채널 예측 변수
일부 동작 시나리오에서, 단일 채널(또는 1D) B-스플라인 예측 변수와 같은 단일 채널 예측 변수를 사용하여 HDR과 SDR 간(역으로도)의 맵핑을 생성하는 데 상대적으로 큰 제한이 있을 수 있다. 1D B-스플라인 예측 변수는 다른 접근 방식(예를 들어, 누적 밀도 함수 또는 CDF 기반 접근 방식, 최소 평균 제곱 오차 또는 MMSE 기반 접근 방식 등)과 비교할 수 있는 예측 성능 및 정확도를 제공할 수 있으며, 추가 연산 복잡성이 있을 수 있다. 비디오 콘텐츠의 상이한 색상 등급에 대한 맵핑 문제는 일부 동작 시나리오에서 1D 함수 또는 예측이 한정될 수 있는 다차원 색상 공간(예를 들어, RGB, IPT, YDzDx 및 YCbCr과 같은 3D 색상 공간, 색상 공간에서 3개 이상의 채널 등)에 놓여 있다. 예를 들어, HDR과 SDR(후방 및 전방) 간의 상대적으로 정확한 맵핑에는 색상 변환 및 포화도 제어와 같은 크로스 색상 작업(예를 들어, 색상 그레이딩 전문가에 의해 수동으로 수행되는 작업과 유사한 작업 등)이 수반될 수 있다. 따라서 1-D 예측 변수를 사용하여 상이한 휘도 레벨의 색상, 색조 및 포화도에 대한 인간의 인식을 수반하는 다차원 색상 공간에서 이 맵핑 문제를 해결하는 것은 최적이 아닐 수 있다.
예측 성능 및 정확도를 개선하기 위해, 비디오 콘텐츠의 상이한 색상 등급들 사이의 국부적 및/또는 전역적 크로스-색상 채널 관계를 탐색할 수 있는 TPB 예측이 본 명세서에 설명된 것과 같은 기술 하에 채용될 수 있다.
크로스 채널 예측이 전역적 맵핑 연산자를 나타내는 일부 접근 방식과 대조적으로, TPB 크로스 채널 예측은 색상 공간 또는 색 영역의 각각의 로컬 파티션의 맵핑을 유연하게 모델링할 수 있으며(예를 들어, 모든 코드워드 또는 색상에 전역 맵핑을 적용하는 대신 영역-특정 맵핑을 많은 로컬 단일- 또는 다차원 코드워드 영역 각각에까지 적용하는 것 등), 이는 본 명세서에 설명된 기술을 구현하지 않는 다른 접근 방식을 능가한다.
TPB 크로스 채널 예측은 HDR로부터 SDR로(또는 그 반대로) 휘도 또는 루마 채널의 코드워드를 예측하기 위해 적용될 수 있다. 색상 공간 Y, C0(또는 Cb) 및 C1(또는 Cr)의 이전 예에서, 각각의 색상 채널 또는 차원에서, B-스플라인 기저 함수의 완전 집합이 독립적으로 제공된다. 따라서 Y, C0 및 C1 색상 채널 또는 차원에 대해 각각 B-스플라인 기저 함수의 3개의 집합(
Figure pct00038
)이 있다. 여기서, j는 j번째 SDR 및 HDR 이미지를 나타내고, ty 루마 또는 휘도 Y 차원에 대한 B-스플라인 기저 함수 인덱스(Y 차원을 따라 노트 포인트의 집합이 제공됨)를 나타내고; tc0는 크로마 또는 색차 C0 차원에 대한 B-스플라인 기저 함수 인덱스(C0 차원을 따라 노트 포인트의 집합이 제공됨)를 나타내고; tc1은 크로마 또는 색차 C1 차원에 대한 B-스플라인 기저 함수 인덱스(C1 차원을 따라 노트 포인트의 집합이 제공됨)를 나타내며, i는 SDR 및 HDR 이미지 각각에서 P 픽셀 사이의 픽셀 인덱스를 나타낸다.
이들 B-스플라인 기저 함수의 3개의 완전 집합(
Figure pct00039
)에서 B-스플라인 기저 함수의 총 수를 각각
Figure pct00040
로 표시한다. 3차원 각각의 노트 포인트의 집합 각각이 주어지면, B-스플라인 기저 함수의 3개의 완전 집합(
Figure pct00041
)의 각각의 집합은 위의 식 (3)을 사용하여 구성될 수 있다.
휘도 및 루마 채널에서 코드워드를 예측하기 위한 TPB 기저 함수는 3개의 색상 채널 또는 차원 모두에 대해 B-스플라인 기저 함수의 3개의 완전 집합(
Figure pct00042
)의 벡터 곱을 취함으로써 구성될 수 있다. ty, tc0 및 tc1의 고유한 조합을 나타내는 (3D) TPB 인덱스를 갖는 TPB 기저 함수는 아래와 같이 주어지거나 연산될 수 있다.
Figure pct00043
HDR 휘도 및 색차 코드워드 값 (
Figure pct00044
)으로부터의 SDR 휘도 코드워드 값의 크로스 채널 예측
Figure pct00045
은 아래와 같이, 대응하는 계수(
Figure pct00046
)의 집합을 사용하여 수행될 수 있다:
Figure pct00047
3D TPB 인덱스(ty, tc0 및 tc1)는 여기서 표현을 단순화하기 위해 1D 인덱스(t로 표시됨)로 벡터화될 수 있다. 앞서 3D TPB 인덱스(ty, tc0 및 tc1)를 갖는 TPB 기저 함수는 아래와 같이 재작성할 수 있다:
Figure pct00048
Figure pct00049
이라 한다. 위의 식 (14)에서 TPB 크로스 채널 예측은 아래와 같이 재작성할 수 있다:
Figure pct00050
SDR 및 HDR 이미지 각각에 P 픽셀이 주어지면, 모든 P 예측(또는 대상) SDR 휘도 코드워드 값, 대응하는 계수
Figure pct00051
및 크로스 채널 TPB 함수
Figure pct00052
는 아래와 같이, (대상) SDR 휘도 코드워드 값
Figure pct00053
을 대응하는 (입력) HDR 휘도 및 색차 코드워드 값
Figure pct00054
으로부터 예측하기 위한 행렬 형태로 수집될 수 있다.
Figure pct00055
여기서,
Figure pct00056
식 (18)의 LHS는 설계 행렬을 나타낸다.
계수의 해(
Figure pct00057
)는 아래와 같이 닫힌 형태의 최소 제곱 해를 통해 얻을 수 있다:
Figure pct00058
여기서
Figure pct00059
는 위의 식 (9)에서 그라운드 실제 벡터를 나타낸다.
논의를 용이하게 하기 위해, 식 (20)은 아래와 같이 행렬 및 벡터를 사용하여 재작성될 수 있다:
Figure pct00060
따라서,
Figure pct00061
유사하게, TPB 크로스 채널 예측 변수는 2개의 크로마 채널 또는 차원에 대해 구축될 수 있다. 예시적으로, 크로마 채널 C0 및 C1 중 임의의 하나를 C로 표시한다. Y, C0 및 C1 차원의 3개의 알려진 포인트의 집합이 주어지면, B-스플라인 기저 함수의 3개의 완전 집합(
Figure pct00062
)은 크로마 채널 C(여기서 C는 C0 또는 C1일 수 있음)에서 코드워드의 TPB 예측을 위해 Y, C0 및 C1차원에 대해 구축될 수 있다. B-스플라인 기저 함수의 3개의 완전 집합의 총 수는 각각
Figure pct00063
일 수 있다. 3차원의 노트 포인트의 집합이 주어졌을 때, 우리는 3개의 개별적인 기저 함수의 집합(
Figure pct00064
)을 갖게 된다.
Y 채널에서 코드워드의 TPB 크로스 채널 예측과 유사하게, 크로마 채널 C에 대해, TPB 크로스 채널 기저 함수는 아래와 같이 인덱싱된 텐서 요소로 구축될 수 있다:
Figure pct00065
유사하게, 3D TPB 인덱스
Figure pct00066
는 여기서 표현을 단순화하기 위해 1D 인덱스(t로 표시됨)로 벡터화될 수 있다.
Figure pct00067
이라 한다. 크로마 채널 C의 코드워드에 대한 TPB 크로스 채널 예측은 아래와 같이 주어질 수 있다:
Figure pct00068
SDR 및 HDR 이미지 각각에 P 픽셀이 주어지면, 모든 P 예측(또는 대상) SDR 색차 코드워드 값, 대응하는 계수
Figure pct00069
및 크로스 채널 TPB 함수
Figure pct00070
는 아래와 같이, 대응하는 (입력) HDR 휘도 및 색차 코드워드 값
Figure pct00071
으로부터 (대상) SDR 휘도 코드워드 값
Figure pct00072
을 예측하기 위한 행렬 형태로 수집될 수 있다:
Figure pct00073
여기서,
Figure pct00074
식 (27)의 LHS는 TPB 기반 행렬을 나타낸다.
계수의 해(
Figure pct00075
)는 아래와 같이 닫힌 형태의 최소 제곱 해를 통해 얻을 수 있다:
Figure pct00076
논의를 용이하게 하기 위해, 식 (29)는 아래와 같이 행렬 및 벡터를 사용하여 재작성될 수 있다:
Figure pct00077
따라서,
Figure pct00078
일부 동작 시나리오에서, 노트 또는 노트 포인트의 위치는 미리 선택되거나 고정된다. 그러나, 다양한 실시예에서, 노트 또는 노트 포인트의 위치(및/또는 총 수)는 미리 선택되거나 고정될 수도 있고, 그렇지 않을 수도 있다는 점에 유의해야 한다. 예를 들어, 일부 동작 시나리오에서, 노트 또는 노트 포인트의 위치(및/또는 총 수)가 해의 최적성에 영향을 미칠 수 있으므로, 매개변수/계수
Figure pct00079
와 함께 노트 또는 노트 포인트의 위치(및/또는 총 수)
Figure pct00080
는 TPB 크로스 채널 예측을 위한 전체 최소화(또는 최적화) 문제 또는 해의 일부로서 적응적으로 결정될 수 있다.
노트 포인트를 적응적으로 선택하면, 비디오 콘텐츠의 상이한 색상 등급 사이에서 맵핑 또는 변환의 성능과 정확도를 추가로 개선할 수 있지만, 다차원 TPB 텐서에 사용되는 균일하게 분포된 노트 포인트를 미리 설정하거나 미리 선택하면 이하의 내용을 포함하지만, 이로 한정되지 않는 예시적인 이점을 제공한다: (1) 업스트림 비디오 콘텐츠 프로세서에 의해 이미지 메타데이터에서 다차원 TPB 기저 함수에 사용되는 다운스트림 비디오 콘텐츠 프로세서 노트 위치로 신호를 보내거나 전송될 필요가 없어 이미지 메타데이터를 운반하고 인코딩하기 위한 비트스트림 오버헤드를 감소시키는 것, (2) 그렇지 않으면 프레임별로 적응적으로 변경될 수 있는 상이한 노트 포인트에 응답하여 디코더 측에서 B 스플라인 또는 TPB 기저 함수를 다시 연산할 필요가 없는 것 등. 다시 말해, 노트 포인트가 미리 설정되거나 고정된 TPB 기저 함수는 로직에 배선되거나 디코더 측의 데이터 저장소에 저장되어 런타임 연산 부하 및/또는 하드웨어 복잡성을 감소시킬 수 있다.
3개의 모든 채널 또는 차원이 각각 동일한 TPB 기저 함수를 갖는 동작 시나리오에서, 상이한 채널에 대한 S 행렬은 아래와 같이 동일하다.
Figure pct00081
디코더 측에서, 상이한 채널 또는 차원에 대해 상이한 S 행렬을 연산할 필요 없이 동일한
Figure pct00082
행렬이 계산된다. 그 후, 각각의 채널에 대한 크로스 채널 예측된 코드워드 값은 아래와 같이 동일한 S 행렬에 대응하는 예측 매개변수/계수를 곱하여 얻을 수 있다:
Figure pct00083
다른 예에서, 2개의 크로마 채널은 동일한 S 행렬을 사용하는 반면, 루마 채널에 대해서는 상이한 S 행렬이 사용된다. 예를 들어, 루마 채널에 대한 S 행렬은 크로마 채널에 대한 S 행렬보다 더 큰 차원을 갖는다. 그러한 경우에 루마 채널에 대한 예측 변수 계수의 수는 각 루마 채널에 대한 예측 변수 계수의 수보다 클 것이다.
효율적인 디코더 아키텍처
노트 또는 노트 포인트가 외부 노트 포인트를 포함하여 균일하게 분포되는 경우, B-스플라인 기저 함수는 잘린(truncated) 다항식의 선형 조합으로 표현될 수 있다. n차 잘린 다항식은 아래와 같이 정의될 수 있다:
Figure pct00084
채널 Y, C0 및 C1에 대해 노트 포인트를
Figure pct00085
로 표시한다. 노트 포인트
Figure pct00086
이 균일하게 분포되어 있을 때, 연속하는(또는 인접한) 2개의 노트 포인트들의 사이마다의 거리는 각각
Figure pct00087
로 나타낼 수 있다. 편의상 각각의 채널에 대한 노트 포인트는 각각
Figure pct00088
및 h로 표시할 수 있다.
t번째 B-스플라인 기저 함수의 1차 차수는 아래와 같이 잘린 다항식의 선형 조합으로 구성될 수 있다:
Figure pct00089
여기서
Figure pct00090
은 오직 양수이거나
Figure pct00091
의 범위 사이 또는 2h 간격에 걸쳐 지원되며, 그렇지 않고 이 범위 밖에서는 영(0)이다. 식 (36)에서 볼 수 있듯이, 1차 B-스플라인 기저 함수는 3개의 항을 포함하며, 이들 3개의 항의 각각은 입력값(예를 들어, 참조 코드워드에 근사하는 대상 코드워드를 예측하는 데 사용되는 입력 또는 소스 코드워드 등)과 각각의 노트 포인트 간의 차이를 곱한 각각의 노트 곱셈 인자(ci로 표시되며, 여기서 i는 0과 2 사이의 정수를 나타냄)를 포함한다. 예를 들어, 식 (36)의 첫 번째 항에 대한 첫 번째 노트 곱셈 인자는
Figure pct00092
이고; 식 (36)의 두 번째 항에 대한 두 번째 노트 곱셈 인자는
Figure pct00093
이고; 식 (36)의 세 번째 항에 대한 세 번째 노트 곱셈 인자는
Figure pct00094
이다.
t번째 B-스플라인 기저 함수의 2차 차수는 아래와 같이 잘린 다항식의 선형 조합으로 구성될 수 있다:
Figure pct00095
여기서
Figure pct00096
는 오직 양수이거나,
Figure pct00097
범위 사이 또는 3h 간격에 걸쳐 지원되며, 그렇지 않고 이 범위 밖에서는 영(0)이다. 식 (37)에서 볼 수 있듯이, 2차 B-스플라인 기저 함수는 4개의 항을 포함하며, 이들 4개의 항의 각각은 입력값(예를 들어, 참조 코드워드에 근사하는 대상 코드워드를 예측하는 데 사용되는 입력 또는 소스 코드워드 등)과 각각의 노트 포인트 간의 차이를 곱한 각각의 노트 곱셈 인자(ci로 표시되며, 여기서 i는 0과 3 사이의 정수를 나타냄)를 포함한다. 예를 들어, 식 (37)에서 첫 번째 항에 대한 첫 번째 노트 곱셈 인자는
Figure pct00098
이고; 식 (37)에서 두 번째 항에 대한 두 번째 노트 곱셈 인자는
Figure pct00099
이고; 식 (37)의 세 번째 항에 대한 세 번째 노트 곱셈 인자는
Figure pct00100
이고; 식 (37)에서 네 번째 항에 대한 네 번째 노트 곱셈 인자는
Figure pct00101
이다.
t번째 B-스플라인 기저 함수의 3차 차수는 아래와 같이 잘린 다항식의 선형 조합으로 구성할 수 있다:
Figure pct00102
여기서
Figure pct00103
은 오직 양수이거나,
Figure pct00104
범위 사이 또는 4h 간격에 걸쳐 지원되며, 그렇지 않고 이 범위 밖에서는 영(0)이다. 식 (38)에 나타난 바와 같이, 3차 B-스플라인 기저 함수는 5개의 항을 포함하며, 이들 5개의 항의 각각은 입력값(예를 들어, 참조 코드워드에 근사하는 대상 코드워드를 예측하는 데 사용되는 입력 또는 소스 코드워드 등)과 각각의 노트 포인트 간의 차이를 곱한 각각의 노트 곱셈 인자(ci로 표시되며, 여기서 i는 0과 4 사이의 정수를 나타냄)를 포함한다. 예를 들어, 식 (38)의 첫 번째 항에 대한 첫 번째 노트 곱셈 인자는
Figure pct00105
이고; 식 (38)의 두 번째 항에 대한 두 번째 노트 곱셈 인자는
Figure pct00106
이고; 식 (38)에서 세 번째 항에 대한 세 번째 노트 곱셈 인자는
Figure pct00107
이고; 식 (38)의 네 번째 항에 대한 네 번째 노트 곱셈 인자는
Figure pct00108
이고; 식 (38)에서 다섯 번째 항에 대한 다섯 번째 노트 곱셈 인자는
Figure pct00109
이다.
B-스플라인 기저 함수에 대한 이러한 다항식 표현을 사용하면, 인코더, 디코더, 트랜스코더 등과 같은 비디오 콘텐츠 프로세서가 B-스플라인 기저 함수에 대해 다항식을 사용하고, B-스플라인 기저 함수를 재귀적으로 얻는 것을 피할 수 있다. 이는 재귀적 B-스플라인 식을 구현하는 것이 상대적으로 복잡할 수 있으므로 하드웨어 구현을 단순화한다. 재귀 표현식은 또한 연산 및 저장에 상대적으로 긴 시간과 상대적으로 큰 메모리 공간이 필요할 수 있을 것이다. 잘린 다항식의 식은 균일하지 않은(예를 들어, 적응형 등) 노트 포인트를 갖는 유연성을 교환함으로써 연산을 절약하는 데 사용될 수 있다.
추가적으로, 선택적으로 또는 대안적으로, n차 B-스플라인 기저 함수
Figure pct00110
는 (n+1)h 간격 크로싱에 의해 양수이다. 포인트 x가 주어지면, (n+1) 기저 함수만이 포인트 x를 포함하는 범위에 대한 지원 또는 가능한 양수 값을 포함한다. 결과적으로 이러한 (n+1) 기저 함수만이 주어진 포인트 x에 대해 활성화된다. 나머지 기저 함수는 주어진 포인트 x에서 영(0)이 되는데, 이는 주어진 포인트 x는 나머지 기저 함수가 0이 아닌 범위 밖에 있기 때문이다. 3가지 색상 채널 또는 차원에 대한 TPB 기저 함수를 구성하려면, 모든 B-스플라인 기저 함수가 아니라, (n+1)3 B-스플라인 기저 함수만 활성화된다. 이는 B-스플라인 기저 함수의 (원래) 총 수
Figure pct00111
로부터 잠재적으로 수 많은 곱셈을 현저히 감소시킨다.
디코더 구현
도 1b는 하나 이상의 컴퓨터 프로세서를 갖는 비디오 콘텐츠 프로세서(예를 들어, 디코더, 인코더, 트랜스코더 등)에서 구현될 수 있는 TPB 크로스 채널 예측을 위한 예시적인 처리 블록을 예시한다. 이러한 처리 블록의 일부 또는 전부는 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 조합으로 구현될 수 있다.
블록(192)은 각각의 채널 또는 차원에서 B-스플라인 기저 함수(
Figure pct00112
)를 준비하고, Y 채널 또는 차원에서 각각의 기저 함수로부터 Dy 상이 값을 출력하고, Cb 채널 또는 차원의 각각의 기저 함수로부터 DCb 상이 값을 출력하고, Cr 채널 또는 차원에서 각각의 기저 함수로부터 DCr 상이 값을 출력하는 등의 TPB 기반 생성 연산을 포함한다. 각각의 채널이나 차원에는 0이 아닌 값이 (n+1)개 뿐이므로 0이 아닌 신호 또는 값만 외부로 출력하면, 3 채널 또는 차원으로부터의 3*(n+1)개의 0이 아닌 신호 또는 값만이 있다. 이 블록의 작업은 B-스플라인 기저 함수에 대한 노트 포인트가 사전 구성되거나, 고정되거나 또는 달리 이용 가능한 한, 비디오 콘텐츠 또는 이미지 메타데이터가 수신될 때까지 기다리지 않고 사전 구성되거나, 고정되거나 그리고/또는 사전 실행될 수 있다.
블록(194)은 아래와 같이 고차원 TPB 기저 함수를 구성하기 위해 1차원 B-스플라인 기저 함수로부터 외적 곱셈을 수행하는 TPB 외적 연산을 포함한다:
Figure pct00113
각각의 채널 또는 차원에는 0이 아닌 값이 (n+1)개 있으므로, 블록(194)으로부터 (n+1)3개의 곱셈과 (n+1)3개의 출력이 있다. 이 블록의 연산은 고정될 수 있지만, TPB 예측에 사용할 인덱스는 추적될 필요가 있을 수 있다.
블록(196)은 블록(194)으로부터 출력된 0이 아닌 값에 수신된 비디오 신호의 비디오 콘텐츠와 함께 전달된 이미지 메타데이터(예를 들어, 컴포저 메타데이터)로부터 판독된 예측 매개변수/계수
Figure pct00114
를 곱하는 TPB 계수 곱셈 연산을 포함한다. 아래와 같이 최종 예측된 값
Figure pct00115
을 생성하기 위해, 각각의 고차원 기저 함수에 가중치를 부여하는 (n+1)3개의 곱셈과 모든 값을 합산하는 덧셈이 있다.
Figure pct00116
여기서 C는 C0 또는 C1을 나타낸다.
블록(196)에서의 동작은 기초 인덱스 및 매개변수 인덱스를 동적으로 식별 및/또는 할당할 수 있다.
도 1c 및 도 1d는 도 1b의 블록(192)에서 TPB 기반 생성 연산의 예시적인 구현예를 예시한다.
도 1c는 B-스플라인 기저 함수 출력의 생성의 예시적인 방정식 기반 구현을 예시하며, 이는 그 후 TPB 기저 함수 출력을 나타내는 텐서 곱을 생성하는 데 사용될 수 있다. 일부 동작 시나리오에서, 도 1c의 방정식 기반 구현은 1차 내지 3차 B-스플라인 기저 함수에 대해 식 (36) 내지 (38) 중 어느 하나에 기초할 수 있다. 일부 동작 시나리오에서, 도 1c의 방정식 기반 구현은 1차 내지 3차 이외의 차수의 B-스플라인 기저 함수에 대해 식 (36) 내지 (38)과 유사한 잘린 다항식에 기초할 수 있다.
도 1c에 예시된 바와 같이, (위의 식 (24)로 TPB 기저 함수를 형성하는 데 사용될 수 있는) t번째 B-스플라인 기저 함수의 출력 값은 입력 x(예를 들어, 색상 공간의 채널 또는 차원에서 참조 코드워드를 근사화하는 대상 코드워드가 예측될 때 적어도 부분적으로 기초로 하는 입력 또는 소스 코드워드 등) 및 (예를 들어, 고정되는 등의) 노트 포인트(
Figure pct00117
) 및 노트 곱셈 매개변수(
Figure pct00118
)와 같은 B-스플라인 기저 함수 매개변수를 사용하여 연산될 수 있다. 그 후, 대응하는 TPB 기저 함수의 출력 값이 B 스플라인 기저 함수의 출력 값의 텐서 곱으로서 생성될 수 있다.
일부 동작 시나리오에서, 도 1c의 방정식 기반 구현은 병렬로 실행되는 비교적 많은 수의 예 또는 스레드로 예시될 수 있다. 일부 동작 시나리오에서, 도 1c의 방정식 기반 구현은 하드웨어(예를 들어, 처리 로직 또는 이 방정식 기반 접근 방식을 구현하는 프로세서 등)가 비교적 높은 주파수에서 작동하는 경우, 상이한 기저 함수 매개변수를 로딩함으로써, 예를 들어 단일 스레드 또는 비교적 적은 수의 스레드를 위해 재사용될 수 있다.
도 1d에 예시된 바와 같이, 각각의 B-스플라인 기저 함수에 대한 출력은 로컬 레지스터에 저장될 수 있다. 앞서 언급했듯이, B-스플라인 기저 함수의 대응하는 수로부터 0이 아닌 출력은 (n+1)개만 있다. 따라서 주어진 입력 값 x에 대해, (n+1)개의 기저 함수 출력만 완료하면 된다.
선택된 (n+1)개의 0이 아닌 출력은 내부 노트 포인트의 수가 2의 거듭제곱 더하기 1인 경우, 최상위 비트 또는 MSB를 사용하여 빠르게 인덱싱될 수 있다. 그 후, 2개(예를 들어, 연속, 인접 등)의 내부 노트 포인트
Figure pct00119
사이의 간격은 단순히 2의 거듭제곱이다. 특정 출력과 0이 아닌 출력의 수는 MSB 비트를 사용하여 간단히 식별할 수 있다.
추가적으로, 선택적으로 또는 대안적으로, B-스플라인 기저 함수의 출력은 방정식 기반 구현에 추가로 또는 이를 대신하여 룩업 테이블(LUT) 기반일 수 있다. 예를 들어, 일부 동작 시나리오에서, 각각의 1D B-스플라인 기저 함수에 대해 1D-LUT를 구축할 수 있다. 예를 들어, 다수의 LUT 항목(예를 들어,
Figure pct00120
으로의 합산 등)이 각각의 채널 또는 차원에 대해 각각 저장될 수 있다. 캐시 또는 메모리 공간이 비교적 충분히 큰 경우, 모든 Dy 기저 함수에 대한 모든 항목이 동시에 저장될 수 있다. 균일하게 분포된 노트 포인트의 경우, 각각의 채널 또는 차원에 따른 B-스플라인 기저 함수는 도 3a 내지 도 3d에 예시된 바와 같이 B-스플라인 기저 함수 중 하나의 단순 시프트 버전이라는 점에도 유의해야 한다. 이 속성은 하드웨어 및 소프트웨어 설계 둘 모두와 메모리 공간 및 연산 둘 모두에서 비교적 효율적인 솔루션을 가능하게 하도록 이용될 수 있다. B-스플라인 함수의 출력은 복수의 오프셋에 기초하여 입력에 시프트 연산을 적용하는 것으로 생성될 수 있다. 결과적으로 1D-LUT는 전체 입력 값(예를 들어, 신호, 코드워드 등) 범위 대신 (n+1)h 간격만 커버하면 되므로, 필요한 LUT 항목의 수를 크게 줄일 수 있다. 추가하거나 구현할 유일한 추가 로직은 오프셋의 시프트 연산일 수 있다. 하드웨어 또는 프로세서가 비교적 높은 주파수에서 작동할 수 있는 경우, 동일한 채널 또는 차원에서 상이한 B-스플라인 기저 함수의 출력 생성은 예를 들어 상이한 오프셋으로 동일한 처리 로직을 공유할 수 있다.
도 1e 및 도 1f는 도 1b의 블록(194)에서 TPB 외적 연산의 예시적인 구현을 예시한다.
도 1e는 병렬 모드에서 예시적인 TPB 외적 연산을 예시한다. 도 1e에 예시된 바와 같이, 각각의 채널 또는 차원에 대해, 각각의 채널의 B-스플라인 기저 함수로부터 (n+1)개의 출력이 생성된다. 각각의 채널 또는 차원에 대해, 블록(194)의 TPB 외적 연산은 (n+1)개의 출력 각각에 대해 (n+1)3의 곱셈을 수행하고, 곱셈(또는 텐서 곱) 결과를 TPB 외적 출력(예를 들어, 식 (24)에서 볼 수 있는 바와 같은 것 등)으로서 예를 들어, 출력 레지스터에 저장한다. 그 후, TPB 외적 출력은 예를 들어, 식 (34)를 사용하여 비디오 신호로부터 수신되거나 디코딩된 이미지 메타데이터로부터 예측 계수(예를 들어,
Figure pct00121
등)와 곱해질(예를 들어, 인코더 생성되거나, 업스트림 비디오 콘텐츠 프로세서에 의해 생성되는 등의) 블록(196)에 제공된다.
도 1f는 직렬 또는 순차 모드에서 예시적인 TPB 외적 연산을 예시한다. 도 1f에 예시된 바와 같이, TPB 외적 연산이 비교적 높은 주파수의 처리 로직으로 비교적 고속으로 수행될 수 있다면, 블록(194)의 TPB 외적 연산과 블록(196)의 TPB 계수 곱셈 연산은 함께 병합될 수 있다. 하드웨어 능력 및 풋프린트에 따라, (n+1)3 항은 N 그룹으로 분할될 수 있으며, 여기서 N은 양의 정수이고; N개의 그룹 각각은 예를 들어 "for" 루프에서 (n+1)3/N회 반복함으로써, TPB 외적 연산 및 대응하는 TPB 계수 곱셈을 완료하기 위한 자체 승수를 갖는다. N은 속도, 다이 크기, 클록 주파수 등을 포함하지만, 이로 한정되지 않는 특정 설계 성능 목표를 달성하기 위한 하드웨어 설계 매개변수를 나타낸다.
도 1g 및 도 1h는 비디오 콘텐츠의 참조 코드 등급(160)의 참조 코드워드에 근사하는 TPB 예측된(예를 들어, 대상, 맵핑된 등) 코드워드를 포함하는 대상 또는 맵핑된 색상 등급을 생성하기 위해 비디오 콘텐츠의 입력 또는 소스 색상 등급(158)에 TPB 예측을 적용하기 위한 예시적인 흐름도를 예시한다. 도 1g 및 도 1h의 것과 유사한 흐름도는 비디오 콘텐츠의 참조 코드 등급(160)에 근사하는 입력 또는 소스 색상 등급(158)으로부터 예측된 것과 같은 대상 또는 맵핑된 색상 등급을 생성하기 위해 인코더 측에서 구현될 수 있다. 이러한 흐름도의 일부 또는 전부는 소프트웨어, 하드웨어, 소프트웨어와 하드웨어의 조합 등으로 구현될 수 있으며, 하나 이상의 컴퓨터 프로세서에 의해 수행될 수 있다.
단지 예시로서, 색상 등급(158 및 160)은 YCbCr 색상 공간에서 4:2:0과 같은 서브샘플링 포맷으로 코딩될 수 있다. 4:2:0 서브샘플링 포맷에서, 크로마 또는 색차 코드워드(Cb 및 Cr)는 루마 또는 휘도 코드워드의 1/4 크기이다. TPB 크로스 채널 예측과 같은 크로스 색상 채널 예측을 수행하기 위해, 모든 입력 또는 소스 색상 채널에 대해 코드워드의 크기(또는 차원)가 정렬(예를 들어, 적절한 경우 업샘플링, 적절한 경우 다운샘플링 등)될 수 있다.
도 1g에 예시된 바와 같이, TPB 루마 예측을 위해, 소스 색상 등급(158)의 크로마 또는 색차 코드워드(Cb/Cr)는 처리 블록(164)에 의해 업샘플링될 수 있다. 업샘플링된 크로마 코드워드는 처리 블록(164)에 의해 TPB 휘도 예측 블록(166)으로 출력된다. 동일한 크기(또는 차원)의 소스 코드 등급(158)의 루마 또는 휘도 코드워드(Y)의 조합에서 업샘플링된 크로마 코드워드는 참조 색상 등급(160)의 루마 또는 휘도 코드워드를 근사화하는 맵핑되거나 재형성된 루마 또는 휘도 코드워드를 예측하기 위해 TPB 휘도 예측 블록(166)에 의해 사용될 수 있다.
도 1g에 예시된 바와 같이, TPB 크로마 Cb 예측을 위해, 소스 색상 등급(158)의 루마 코드워드(Y)는 처리 블록(162)에 의해 다운샘플링될 수 있다. 다운샘플링된 루마 코드워드는 처리 블록(162)에 의해 TPB 크로마 Cb 예측 블록(168)으로 출력된다. 동일한 크기(또는 차원)의 소스 코드 등급(158)의 크로마 코드워드의 조합에서 다운샘플링된 루마 코드워드는 참조 색상 등급(160)의 크로마 Cb 코드워드를 근사하는 맵핑되거나 재형성된 크로마 Cb 코드워드를 예측하기 위해 TPB 크로마 Cb 예측 블록(168)에 의해 사용될 수 있다.
도 1g에 예시된 바와 같이, TPB 크로마 Cr 예측을 위해, 다운샘플링된 루마 코드워드는 처리 블록(162)에 의해 TPB 크로마 Cr 예측 블록(170)으로 출력된다. 동일한 크기(또는 차원)의 소스 코드 등급(158)의 크로마 코드워드의 조합에서 다운샘플링된 루마 코드워드는 참조 색상 등급(160)의 크로마 Cb 코드워드를 근사하는 맵핑되거나 재형성된 크로마 Cb 코드워드를 예측하기 위해 TPB 크로마 Cb 예측 블록(170)에 의해 사용될 수 있다.
일부 동작 시나리오에서, 도 1h에 예시된 바와 같이, 소스 색상 등급(158)의 루마 코드워드의 (예를 들어, 처리 블록(162-1 및 162-2) 등에 의한) 다운샘플링으로부터 파생된 다운샘플링된 루마 코드워드만이 전체 TPB 예측 블록(172)에 의해 사용되어 모든 채널에 대한 TPB 예측 매개변수 또는 계수 및 TPB 예측을 얻는다. 이는 휘도 다운샘플링만 사용되기 때문에 메모리 소비를 크게 감소시킨다.
일부 동작 시나리오에서, 인코더 측에서, TPB 예측 매개변수 또는 계수는 참조 색상 등급(160)의 정렬된(예를 들어, 적절하게 업샘플링되거나, 적절하게 다운샘플링되는 등의) 루마/크로마 코드워드로 맵핑되거나 재형성된 루마/크로마 크로스워드 간의 차이를 최소화하는 솔루션으로서 TPB 예측 블록(예를 들어, 166, 168, 170, 172 등)에 의해 생성될 수 있다. TPB 예측 매개변수 또는 계수는 이미지 메타데이터의 일부(예를 들어, 컴포저 메타데이터)로서 다운스트림 비디오 콘텐츠 프로세서에 대한 비디오 신호에서 인코딩될 수 있다.
일부 동작 시나리오에서, 디코더 측에서, TPB 예측 매개변수 또는 계수는 이미지 메타데이터의 일부로서 비디오 신호로부터 다운스트림 수신자 디바이스에 의해 디코딩될 수 있다. 소스 색상 등급(158)의 디코딩된 버전은 비디오 신호로부터 디바이스에 의해 디코딩될 수도 있다. TPB 예측 매개변수 또는 계수는 참조 색상 등급(160)에 근접하게 근사하는 재구성된 색상 등급을 나타내는 맵핑되거나 재형성된 이미지를 생성하기 위해 디바이스에 의해 사용될 수 있다. 맵핑되거나 재형성된 이미지는 소스 색상 등급(158)의 디코딩된 버전과는 상이한 색상 등급으로서 디스플레이 디바이스에 렌더링될 수 있다.
추가적으로, 선택적으로 또는 대안적으로, 일부 동작 시나리오에서, 노트 포인트의 총 수 및 B-스플라인 차수는 루마 및 크로마 채널 둘 모두에 대해 동일하고, 연산은 훨씬 더 감소될 수 있다. 예를 들어, 도 1b에 예시된 바와 같이, 3단계 구현에서, 2개의 단계, 즉 TPB 기반 생성 및 TPB 외적은 3개의 채널 또는 차원 모두에 대해 동일하다. 따라서, 채널 간의 유일한 차이점은 단일 단계에서 TPB 계수 곱셈에 사용되는 상이한 TPB 예측 매개변수/계수이다. 일부 다른 실시예 또는 구현에서, 노트의 수는 성능 및/또는 정확성을 달성하는데 있어 추가적인 유연성 또는 트레이드오프를 제공할 목적으로 상이한 색상 채널에 대해 상이할 수 있다는 점에 유의해야 한다.
3DMT 기반 TPB 예측
일부 동작 시나리오에서, TPB 예측은 3-D 맵핑 테이블(3DMT) 기술에 기초하여 생성된 코드워드 히스토그램 또는 분포를 사용하여 구현될 수 있다.
Figure pct00122
를 비디오 콘텐츠의 제1 색상 등급의 HDR 이미지와 같은 제1 이미지(예를 들어, 입력 또는 소스 이미지 등)로부터 i번째 픽셀의 제1 루마 및 크로마 코드워드를 포함하는 제1 3D 배열이라고 한다.
Figure pct00123
를 비디오 콘텐츠의 제2 색상 등급의 SDR 이미지와 같은 (제1 이미지 예를 들어, 참조 이미지와 동일한 시각적 콘텐츠에 대응하거나 이를 묘사하는 등의) 제2 이미지로부터 i 번째 픽셀의 제2 루마 및 크로마 코드워드를 포함하는 제2 3D 배열이라고 한다.
제1 색상 등급의 이미지 콘텐츠를 표현하는 데 사용되는 3개의 채널 루마 및 크로마 코드워드 값(Y, C0 및 C1)은 각각의 채널 또는 성분에 대해 각각 고정된 수의 1D 빈(예를 들어, 루마 빈의 제1 고정된 수 Qy, 크로마 Cb 빈의 제2 고정된 수 QC0, 크로마 Cb 빈의 제3 고정된 수QC1 등)으로 양자화되거나 카운트될 수 있다. 고정된 수의
Figure pct00124
) 3D 빈을 갖는,
Figure pct00125
(여기서,
Figure pct00126
)로 표시된 3D 히스토그램은 제1 색상 등급에 대한 1D 빈을 사용하여 구성할 수 있다. 일부 동작 시나리오에서, 제1 색상 등급을 인코딩하기 위한 모든 가능한 루마 및 크로마 코드워드 값을 포함하는 제1 3-채널 루마 및 코드워드 크로마 공간은 고정된 수의
Figure pct00127
3D 빈으로 균일하게 분할될 수 있으며, 각각의 채널은 고정된 수의 1D 빈(예를 들어, 루마 빈의 제1 고정된 수 Qy, 크로마 Cb 빈의 제2 고정된 수 QC0, 크로마 Cb 빈의 제3 고정된 수 QC1 등)으로 균일하게 분할된다.
따라서, 3D 히스토그램
Figure pct00128
은 각각의 3D 빈이 각각의 빈 인덱스
Figure pct00129
에 의해 지정될 수 있도록 총(
Figure pct00130
) 개의 빈을 포함하며; 빈은 3D 빈의 경계 내에 속하는 3채널 양자화된 값을 갖는 (제1 색상 등급의) 제1 이미지의 픽셀 수의 수치를 나타내거나 이를 유지한다.
또한, 제2 이미지(제2 색상 등급의, 예를 들어, 제1 이미지의 맵핑된 이미지에 의해 근사화될 참조 이미지 등)의 각각의 색상 성분의 합은 3D 히스토그램
Figure pct00131
의 각각의 3D 빈에 유지되거나 이를 위해 유지될 수 있다. 각각의 3D 빈이 제2 이미지에 있는 픽셀의 루마 및 크로마(C0 및 C1) 코드워드 값의 합을 포함하도록,
Figure pct00132
를 제2 이미지 영역의 (참조) 루마 및 크로마 코드워드 값 각각의 합이라 하며, 제2 이미지의 픽셀은 그 수치가 동일한 3D 빈에 저장되는 제1 이미지의 픽셀에 대응한다.
제1 및 제2 이미지 각각이 P 픽셀을 갖는 것으로 가정한다. 제1 색상 등급의 제1 이미지의 픽셀의 수치와 제2 색상 등급의 제2 이미지의 픽셀―제1 이미지의 픽셀에 대응함―의 코드워드 값의 합으로 3D 빈을 생성하는 절차의 예가 아래 표 4에 예시된다.
표 4
Figure pct00133
Figure pct00134
이 3D 히스토그램
Figure pct00135
의 q번째 SDR 빈의 중심을 나타내는 것으로 한다. 이들 중심 값은 제1 색상 등급의 모든 이미지에 대해 고정되어 있으며 미리 연산할 수 있다. 중심 값이 근사화된 대응하는 참조 또는 대상 HDR 값은 아래 표 5에 예시된 예시적인 절차를 사용하여 얻을 수 있다.
표 5
Figure pct00136
일부 동작 시나리오에서, 3D 히스토그램
Figure pct00137
에서, 제1 색상 등급의 제1 이미지의 픽셀에 대해 각각 0이 아닌 픽셀 수치를 갖는 3D 빈이 식별되고 유지되는 반면, 제1 색상 등급의 제1 이미지에 있는 픽셀에 대해 각각 0 픽셀 수치(또는 주어진 픽셀 수치 임계값 미만의 상대적으로 작은 픽셀 수치)를 갖는 다른 모든 3D 빈은 폐기된다.
Figure pct00138
Figure pct00139
인 경우에 대해 k개의 빈이라고 한다.
Figure pct00140
의 평균은 아래 표 6에 예시된 예시적인 절차로 연산할 수 있다.
표 6
Figure pct00141
주어진 유효한 빈 인덱스(예를 들어, 0이 아닌 픽셀 수치를 갖는 빈 인덱스 등)에 대해, 제1 색상 등급의 제1 이미지의 맵핑될 (빈 인덱스를 갖는 3D 빈의 중심 값으로 표현된 것과 같은) 루마 및 크로마 코드워드 값 및 맵핑된 이미지에 의해 근사화되는 제2 색상 등급의 제2 이미지의 (대응하는 픽셀의 루마 및 크로마 코드워드 값의 합계의 평균으로 표시되는 것과 같은) 참조 루마 및 크로마 코드워드 값을 포함하는 맵핑 쌍을 아래와 같이 얻을 수 있다:
Figure pct00142
3DMT(또는 그 아래에 생성된 3D 빈)에 기초하여, 식 (41-2)로 표현된 것과 같은 참조 값을 근사화하기 위해 식 (41-1)로 표현된 것과 같은 3D 빈의 중심 값으로부터 맵핑된 값
Figure pct00143
의 TPB 크로스 채널 예측이 아래와 같이 수행될 수 있다:
Figure pct00144
TPB 예측 변수 매개변수 또는 계수
Figure pct00145
는 개별 픽셀 기반 솔루션에서와 유사한 처리를 통해 얻을 수 있다. 모든 유효한 3D 빈에 대한 모든 맵핑 쌍(예를 들어, 위의 식 41 등)을 포함하는 맵핑 테이블로부터 입력 값을 취하여 설계 행렬 및 대상 벡터를 구성할 수 있다.
TPB 루마 예측을 위해, 설계 행렬 및 대상 벡터는 아래와 같이 구성될 수 있다:
Figure pct00146
TPB 크로마 예측을 위해, 설계 행렬 및 대상 벡터는 아래와 같이 구성될 수 있다:
Figure pct00147
Figure pct00148
TPB 예측 매개변수 또는 계수에 대한 해는 아래와 같이 최소 제곱 솔루션을 통해 얻을 수 있다:
Figure pct00149
3DMT 기반 TPB 예측 기술은 비교적 빠른 연산 속도를 제공하는 데 사용될 수 있다. 각각의 이미지 쌍에 대한 모든 P개의 개별 픽셀로부터 Ba 행렬을 구성하는 대신에, 3D 빈에 기초한 맵핑 쌍을 포함하는 맵핑 테이블로부터 k 항목이 사용될 수 있다. 일부 동작 시나리오에서, k는 수백만 또는 그 이상의 범위에 있을 수 있는 P보다 훨씬 작은 수천의 범위 내에서 유지되거나 한정되거나 선택될 수 있다. 연산 절감을 위한 자릿수는 3일 수 있다.
추가적으로, 선택적으로 또는 대안적으로, 3DMT 기반 TPB 예측 기술은 동일한 이미지에서 상대적으로 작은 이미지 구역/영역을 희생하여 이미지에서 상대적으로 큰 이미지 구역/영역에 대해 선호하거나 과도하게 가중치를 줄 수 있는 다수 및 소수(majority-and-minority) 문제를 완화하거나 방지하는 데 사용될 수 있다. 3D 빈에 의해 표현되는 것과 같은 각각의 색상 큐브에 상대적으로 공평한 가중치를 갖는 것은 색상 부조화를 감소시키고 색상 정밀도를 높이는 데 도움이 될 수 있다.
장면/세그먼트/선형 기반 TPB 예측
본 명세서에 설명된 것과 같은 TPB 예측은 장면 기반, 세그먼트 기반 및/또는 선형 기반 인코딩 아키텍처를 사용하여 수행될 수 있다.
비디오 신호의 비디오 콘텐츠에 묘사된 하나의 장면에 F개의 이미지/프레임이 있다고 가정해, 장면 기반 아키텍처를 사용하여 이 장면 내의 모든 프레임으로부터의 모든 B a를 아래와 같이 합산할 수 있다:
Figure pct00150
다양한 실시예에서, 식(49) 또는 (50)에서, Ba는 비디오 콘텐츠의 상이한 색상 등급 사이의 픽셀 기반 또는 3DMT 기반 맵핑 데이터로부터 구성될 수 있음에 유의해야 한다.
B 행렬이 모든 0(또는 개별적으로 또는 집합적으로 임계값 미만인 비교적 작은 값)을 포함하는 열(및 행)로 잘못 정의된 조건에 있을 수 있으므로, 이러한 열(및 행)은 B 행렬에서 제거될 수 있다. 예를 들어 아래 표 7에 예시된 예시적인 절차를 사용한다.
표 7
Figure pct00151
유사하게, 행렬 a가 행렬 B로부터 식별되고 제외된 열(및 행)에 대응하는 행으로 잘못 정의된 조건에 있을 수 있으므로, 행렬 a 내 이들 항목이 제거될 수 있다. 행렬 a에서 이들 항목을 식별하는 절차의 예가 아래 표 8에 예시되어 있다.
표 8
Figure pct00152
장면 기반 TPB 예측을 위한 해는 아래와 같이 구할 수 있다:
Figure pct00153
모든 TPB 예측 매개변수 또는 계수(B 행렬로부터 식별되고 제외된 열/행에 대응하는 것을 포함)를 생성하기 위한 예시적인 절차가 아래의 표 9에 예시되어 있다.
표 9
Figure pct00154
일부 실시예에서, 이 장면 기반 TPB 예측 방법은 정적 TPB 맵핑을 결정하거나 유도하기 위해 트레이닝 이미지 쌍의 집단에 적용될 수 있다.
추가적으로, 선택적으로 또는 대안적으로, 세그먼트 기반 및/또는 선형 기반 인코딩 아키텍처가 TPB 예측을 수행하기 위해 사용될 수 있다. 예를 들어, 일부 동작 시나리오에서, 슬라이딩 윈도우 접근 방식은 전술된 장면 기반 TPB 예측 기술에서 사용된 것과 유사한 기술로 세그먼트/선형 기반 아키텍처에 사용된다. 장면 기반 TPB 예측 기술 등은 단순히 "장면"을 슬라이딩 윈도우로 취급하여 슬라이딩 윈도우에 적용할 수 있으며, 그 반대의 경우도 마찬가지이다.
이미지 메타데이터 인코딩/디코딩 구문 및 의미
TPB 예측 매개변수 또는 계수를 포함하는 이미지 메타데이터를 인코딩 및/또는 디코딩하기 위해 광범위한 구문 및 의미가 사용될 수 있다. TPB 매개변수 또는 계수를 포함하는 이미지 메타데이터를 인코딩/디코딩하기 위한 예시적인 구문 및 의미가 아래의 표 10에 예시되어 있다.
표 10
Figure pct00155
Figure pct00156
표 10에서 "x" 및 "y"는 이미지/프레임이 분할되는 이미지 블록(들)의 2차원 인덱스를 나타내고 "cmp"는 TPB 매개변수가 관련되는 색상 공간 성분 또는 채널의 수를 나타낸다.
표 10의 코딩 구문에 사용된 루핑 변수의 일부가 아래와 같이 정의된다.
Figure pct00157
표 10의 코딩 구문으로 인코딩/디코딩된 일부 요소(예를 들어, 차동 코딩에서 지수 골롬 코드로 표현되는 것 등)의 의미는 아래와 같이 정의된다:
- tpb_num_knot_minus1[ y ][ x ][ cmp ][ k ]는 k번째 채널에 있어서 노트의 수에서 1을 뺀 값을 지정
- tpb_order_minus1[ y ][ x ][ cmp ][ k ]는 TPB 차수에서 1을 뺀 값을 지정
- tpb_zero_coef[ y ][ x ][ cmp ][ i ][ j ][ k ]는 계수가 0인지 여부를 지정
- tpb_int[ y ][ x ][ cmp ][i][j][k]는 계수_데이터_타입이 0과 동일할 때, fp_tpb_coef[ y ][ x ][ cmp ][ i ][ j ][ k ]의 정수 부분을 지정. 계수_데이터_타입이 1과 동일한 경우, tpb_int [ y ][ x ][ cmp ] [ i ][ j ][ k ]는 존재하지 않음(예를 들어, 계수_데이터_타입이 0과 동일할 때 맵핑_idc[ y ][ x ][ cmp ]과 관련된 대응하는 TPB 기저 함수 i에 대해 가중치 계수(예를 들어,
Figure pct00158
등)를 도출하는데 사용됨).
- tpb_coef[ y ][ x ][ cmp ][ i ]는 계수_데이터_타입이 0과 동일할 때, fp_tpb_coef[ y ][ x ][ cmp ][ i ][ j ][ k ]의 분수 부분을 지정. 계수_데이터_타입이 1과 동일한 경우, tpb_coef [ y ][ x ][ cmp ][ i ][ j ][ k ]는 맵핑_idc[ y ][ x ][ cmp ]과 관련된 이득 계수 또는 가중치 계수의 값을 도출하는데 사용된다. 계수_데이터_타입이 0과 동일한 경우, tpb _coef [ y ][ x ][ cmp ][ i ][ j ][ k ] 구문 요소의 길이는 coefficient_log2_denom 비트이다. 계수_데이터_타입이 1과 동일한 경우, tpb_coef [ y ][ x ][ cmp ][ i ][ j ][ k ] 구문 요소의 길이는 32 비트이다. 맵핑_idc[ y ][ x ][ cmp ]과 관련된 정규화의 이득 계수 또는 가중치 계수의 값은 아래와 같이 도출된다.
o 계수_데이터_타입이 0과 동일한 경우, 가중치 계수 또는 이득 계수의 값은 fp_tpb_coef[ y ][ x ][ cmp ][ i ][ j ][ k ] = (tpb _int [ y ][ x ][ cmp ][ i ][ j ][ k ] << coefficient_log2_denom) + tpb _coef [ y ][ x ][ cmp ][ i ][ j ][ k ]과 동일하며, 여기서 "<<"은 시프트 동작을 나타낸다.
o 계수_데이터_타입이 1과 동일한 경우, 가중치 계수 또는 이득 계수의 값은 tpb _coef [ y ][ x ][ cmp ][ i ][ j ][ k ]와 동일하다.
예시적인 프로세스 흐름
도 4a는 본 발명의 일 실시예에 따른 예시적인 프로세스 흐름을 예시한다. 일부 실시예에서, 하나 이상의 컴퓨팅 디바이스들 또는 구성요소들(예를 들어, 인코딩 디바이스/모듈, 트랜스코딩 디바이스/모듈, 디코딩 디바이스/모듈, 역 톤 맵핑 디바이스/모듈, 톤 맵핑 디바이스/모듈, 미디어 디바이스/모듈, 역 맵핑 생성 및 응용 시스템 등)이 프로세스 흐름을 수행할 수 있다. 블록(402)에서, 이미지 처리 시스템은 텐서-곱 B-스플라인(TPB) 기저 함수의 집합을 결정한다.
블록(404)에서, 이미지 처리 시스템은 소스 색상 등급의 하나 이상의 소스 이미지의 소스 이미지 데이터로부터 하나 이상의 맵핑된 이미지의 예측된 이미지 데이터를 생성하기 위한 TPB 기저 함수의 집합과 함께 사용될 선택된 TPB 예측 매개변수의 집합을 생성한다. 선택된 TPB 예측 매개변수의 집합은 하나 이상의 맵핑된 이미지에서의 예측된 이미지 데이터와 참조 색상 등급의 하나 이상의 참조 이미지에서의 참조 이미지 데이터 사이의 차이를 최소화함으로써 생성된다. 하나 이상의 참조 이미지는 하나 이상의 소스 이미지에 대응하고, 하나 이상의 소스 이미지에 의해 묘사된 것과 동일한 시각적 콘텐츠를 묘사한다.
블록(406)에서, 이미지 처리 시스템은 하나 이상의 소스 이미지의 소스 이미지 데이터와 함께 이미지 메타데이터의 일부로서 선택된 TPB 예측 매개변수의 집합을 비디오 신호에서 인코딩한다.
블록(408)에서, 이미지 처리 시스템은 하나 이상의 맵핑된 이미지가 비디오 신호의 수신자 디바이스로 재구성되고 렌더링되게 한다.
일 실시예에서, 소스 이미지 데이터 또는 참조 이미지 데이터 중 적어도 하나는 색상 공간의 서브샘플링 포맷으로 표현된다.
일 실시예에서, 하나 이상의 소스 이미지는 미디어 프로그램에서 시각적 장면을 구성하는 이미지, 슬라이딩 윈도우 내에서 선택된 이미지, 선형 세그먼트 내에서 선택된 이미지 등에 있어서 이들 중 중 하나를 나타낸다.
일 실시예에서, TPB 기저 함수의 집합은 B-스플라인 기저 함수의 하나 이상의 집합의 텐서 곱에 의해 생성되고; B-스플라인 기저 함수의 하나 이상의 집합에서 각각의 B-스플라인 기저 함수의 집합은 색상 공간의 하나 이상의 색상 채널의 각각의 색상 채널에 대응한다.
일 실시예에서, B-스플라인 기저 함수의 하나 이상의 집합에서 B-스플라인 기저 함수의 적어도 하나의 집합은 특정 차수의 완전한 B-스플라인 기저 함수를 나타낸다.
일 실시예에서, B-스플라인 기저 함수의 하나 이상의 집합은 잘린 다항식으로 생성된 B-스플라인 기저 함수의 집합 및 균일하게 분포된 노트 포인트의 집합을 포함한다.
일 실시예에서, 선택된 TPB 예측 매개변수의 집합과 TPB 기저 함수의 집합의 조합은 하나 이상의 맵핑된 이미지들에서 예측된 이미지 데이터를 생성하기 위한 크로스-채널 예측 변수를 나타낸다.
일 실시예에서, TPB 예측 매개변수의 집합은 각각이 소스 이미지 데이터로부터 생성된 하나 이상의 소스 코드워드의 제1 배열 및 참조 이미지 데이터로부터 생성되는 하나 이상의 참조 코드워드의 제2 배열을 포함하는 복수의 맵핑 쌍을 사용하여 생성된다.
일 실시예에서, 복수의 맵핑 쌍은 3차원 맵핑 테이블(3DMT)에 기초하여 생성된다.
도 4b는 본 발명의 일 실시예에 따른 예시적인 프로세스 흐름을 예시한다. 일부 실시예에서, 하나 이상의 컴퓨팅 디바이스들 또는 구성요소들(예를 들어, 인코딩 디바이스/모듈, 트랜스코딩 디바이스/모듈, 디코딩 디바이스/모듈, 역 톤 맵핑 디바이스/모듈, 톤 맵핑 디바이스/모듈, 미디어 디바이스/모듈, 예측 모델 및 특징 선택 시스템, 역 맵핑 생성 및 적용 시스템 등)이 이 프로세스 흐름을 수행할 수 있다. 블록(452)에서, 비디오 디코딩 시스템은 비디오 신호로부터 제1 색상 등급의 하나 이상의 제1 이미지를 디코딩한다.
블록(454)에서, 비디오 디코딩 시스템은 비디오 신호로부터, 텐서-곱 B-스플라인(TPB) 기저 함수의 집합과 곱하기 위한 선택된 TPB 예측 매개변수의 집합을 포함하는 이미지 메타데이터를 디코딩한다.
선택된 TPB 예측 매개변수의 집합은 업스트림 비디오 콘텐츠 프로세서에 의해 생성되었으며, 선택된 TPB 예측 매개변수의 집합은 제1 색상 등급의 하나 이상의 제1 이미지의 제1 이미지 데이터로부터 하나 이상의 맵핑된 이미지에서 예측된 이미지 데이터를 생성하기 위해 TPB 기저 함수의 집합과 함께 사용된다. 업스트림 비디오 콘텐츠 프로세서는 하나 이상의 맵핑된 이미지의 예측된 이미지 데이터와 참조 색상 등급의 하나 이상의 참조 이미지의 참조 이미지 데이터 사이의 차이를 최소화함으로써 선택된 TPB 예측 매개변수의 집합을 생성하였다. 하나 이상의 참조 이미지는 하나 이상의 제1 이미지에 대응하고, 하나 이상의 제1 이미지에 의해 묘사된 것과 동일한 시각적 콘텐츠를 묘사한다.
블록(456)에서, 비디오 디코딩 시스템은 TPB 기저 함수의 집합과 함께 TPB 예측 매개변수의 집합을 사용하여 하나 이상의 제1 이미지로부터 하나 이상의 맵핑된 이미지를 생성한다.
블록(458)에서, 비디오 디코딩 시스템은 하나 이상의 맵핑된 이미지로부터 파생된 하나 이상의 디스플레이 이미지가 디스플레이 디바이스로 렌더링되게 한다.
일 실시예에서, 비디오 디코딩 시스템은 추가로, 복수의 B-스플라인 기저 함수 출력 값을 생성하는 단계; 복수의 B-스플라인 기저 함수 출력 값에 외적 연산을 적용하여 복수의 TPB 기저 함수 출력 값을 생성함으로써, 복수의 TPB 기저 함수 출력 값의 집합을 생성하는 단계; 비디오 신호로부터 디코딩된 TPB 예측 매개변수의 집합을 복수의 TPB 기저 함수 출력 값의 집합과 곱하여 예측된 코드워드들의 집합을 생성하는 단계를 수행하도록 구성된다.
일 실시예에서, 선택된 TPB 예측 매개변수의 집합은 TPB 기저 함수의 집합 내의 대응하는 TPB 기저 함수에 대해, 복수의 가중치 계수의 가중치 계수 각각을 운반하는 것을 지원하는 코딩 구문에서 복수의 가중치 계수들로서 인코딩된다.
일 실시예에서, 디스플레이 디바이스, 모바일 디바이스, 셋톱 박스, 멀티미디어 디바이스 등과 같은 컴퓨팅 디바이스는 전술한 방법들 중 임의의 것을 수행하도록 구성된다. 일 실시예에서, 장치는 프로세서를 포함하고, 전술한 방법들 중 임의의 것을 수행하도록 구성된다. 일 실시예에서, 하나 이상의 프로세서에 의해 실행될 때 전술한 방법들 중 임의의 방법을 실행시키는 소프트웨어 명령을 저장하는 비일시적 컴퓨터 판독 가능한 저장 매체.
일 실시예에서, 하나 이상의 프로세서 및 하나 이상의 프로세서에 의해 실행될 때 전술한 방법들 중 임의의 방법을 실행시키는 명령의 집합을 저장하는 하나 이상의 저장 매체를 포함하는 컴퓨팅 디바이스.
본 명세서에서 개별 실시예들이 논의되지만, 본 명세서에서 논의된 실시예들 및/또는 부분적인 실시예의 임의의 조합은 추가 실시예를 형성하기 위해 결합될 수 있음을 주목해야 한다.
예시적인 컴퓨터 시스템 구현
본 발명의 실시예는 컴퓨터 시스템, 전자 회로 및 구성요소들에 구성된 시스템, 마이크로컨트롤러와 같은 집적 회로(IC) 디바이스, 필드 프로그래머블 게이트 배열(field programmable gate array)(FPGA), 또는 다른 구성 가능한 또는 프로그래밍 가능한 로직 디바이스(PLD), 이산 시간 또는 디지털 신호 프로세서(DSP), 주문형 IC(ASIC), 및/또는 이러한 시스템, 디바이스 또는 구성요소 중 하나 이상을 포함하는 장치로 구현될 수 있다. 컴퓨터 및/또는 IC는 본 명세서에 설명된 것과 같은 향상된 다이내믹 레인지를 갖는 이미지의 적응적 지각 양자화에 관한 명령을 수행, 제어 또는 실행할 수 있다. 컴퓨터 및/또는 IC는 본 명세서에 설명된 적응 지각 양자화 프로세스와 관련된 다양한 매개변수 또는 값 중 임의의 것을 연산할 수 있다. 이미지 및 비디오 실시예는 하드웨어, 소프트웨어, 펌웨어 및 이들의 다양한 조합으로 구현될 수 있다.
본 발명의 소정의 구현은 프로세서가 본 발명의 방법을 수행할 수 있도록 하는 소프트웨어 명령을 실행하는 컴퓨터 프로세서를 포함한다. 예를 들어, 디스플레이, 인코더, 셋톱 박스, 트랜스코더 등의 하나 이상의 프로세서는 프로세서에 액세스할 수 있는 프로그램 메모리에서 소프트웨어 명령을 실행함으로써 전술한 HDR 이미지의 적응적 지각 양자화와 관련된 방법을 구현할 수 있다. 본 발명의 실시예는 프로그램 제품의 형태로도 제공될 수 있다. 프로그램 제품은 데이터 프로세서에 의해 실행될 때, 데이터 프로세서가 본 발명의 실시예의 방법을 실행시킬 수 있도록 하는 명령을 포함하는 컴퓨터 판독 가능한 신호의 집합을 담고 있는 임의의 비일시적 매체를 포함할 수 있다. 본 발명의 실시예에 따른 프로그램 제품은 임의의 광범위한 형태일 수 있다. 프로그램 제품은 예를 들어, 플로피 디스켓을 포함하는 자기 데이터 저장 매체, 하드 디스크 드라이브, CD ROM, DVD를 포함하는 광학 데이터 저장 매체, ROM을 포함하는 전자 데이터 저장 매체, 플래시 RAM 등과 같은 물리적 매체를 포함할 수 있다. 프로그램 제품 상의 컴퓨터 판독 가능한 신호는 선택적으로 압축되거나 암호화될 수 있다.
구성요소(예를 들어, 소프트웨어 모듈, 프로세서, 어셈블리, 디바이스, 회로 등)가 위에서 언급된 경우, 달리 표시되지 않는 한 해당 구성 요소에 대한 참조("수단"에 대한 참조 포함)는 본 발명의 예시된 예시적인 실시예에서 함수를 수행하는 개시된 구조와 구조적으로 동등하지 않은 구성요소를 포함하여, 개시된 구성요소의 함수를 수행하는 임의의 구성요소를 상기 구성요소의 등가물로서(예를 들어, 함수적으로 동등함) 포함하는 것으로 해석되어야 한다.
일 실시예에 따르면, 본 명세서에 설명된 기술은 하나 이상의 특수 목적 컴퓨팅 디바이스에 의해 구현된다. 특수 목적 컴퓨팅 디바이스는 기술을 수행하기 위해 유선으로 연결될 수 있거나, 기술을 수행하도록 지속적으로 프로그래밍된 하나 이상의 주문형 집적 회로(ASIC) 또는 필드 프로그래머블 게이트 배열(FPGA)과 같은 디지털 전자 디바이스를 포함할 수 있거나, 펌웨어, 메모리, 다른 저장소 또는 조합의 프로그램 명령에 따라 기술을 수행하도록 프로그래밍된 하나 이상의 범용 하드웨어 프로세서를 포함할 수 있다. 이러한 특수 목적 컴퓨팅 디바이스는 기술을 달성하기 위해 사용자 지정 유선 로직, ASIC 또는 FPGA를 사용자 지정 프로그래밍과 결합할 수도 있다. 특수 목적 컴퓨팅 디바이스는 데스크탑 컴퓨터 시스템, 휴대용 컴퓨터 시스템, 핸드헬드 디바이스, 네트워킹 디바이스 또는 기술을 구현하기 위해 유선 및/또는 프로그램 로직을 통합하는 임의의 다른 디바이스일 수 있다.
예를 들어, 도 5는 본 발명의 일 실시예가 구현될 수 있는 컴퓨터 시스템(500)을 예시하는 블록도이다. 컴퓨터 시스템(500)은 정보를 통신하기 위한 버스(502) 또는 다른 통신 메커니즘, 및 정보를 처리하기 위해 버스(502)와 결합된 하드웨어 프로세서(504)를 포함한다. 하드웨어 프로세서(504)는 예를 들어, 범용 마이크로프로세서일 수 있다.
컴퓨터 시스템(500)은 또한 프로세서(504)에 의해 실행될 정보 및 명령을 저장하기 위해 버스(502)에 결합된 랜덤 액세스 메모리(RAM) 또는 다른 동적 저장 디바이스와 같은 메인 메모리(506)를 포함한다. 메인 메모리(506)는 프로세서(504)에 의해 실행될 명령의 실행 동안, 임시 변수 또는 다른 중간 정보를 저장하는 데 사용될 수도 있다. 이러한 명령은 프로세서(504)에 액세스 가능한 비일시적 저장 매체에 저장될 때, 명령에서 지정된 작업을 수행하도록 제작되는 특수 목적 기계로 컴퓨터 시스템(500)을 렌더링한다.
컴퓨터 시스템(500)은 프로세서(504)에 대한 정적 정보 및 명령을 저장하기 위해 버스(502)에 결합된 리드 온리 메모리(ROM)(508) 또는 다른 정적 저장 디바이스를 더 포함한다. 자기 디스크 또는 광 디스크와 같은 저장 디바이스(510)가 제공되고 정보 및 명령을 저장하기 위해 버스(502)에 연결된다.
컴퓨터 시스템(500)은 버스(502)를 통해 컴퓨터 사용자에게 정보를 보여주기 위한 액정 디스플레이와 같은 디스플레이(512)에 연결될 수 있다. 영숫자 및 다른 키를 포함하는 입력 디바이스(514)는 정보 및 지시 선택을 프로세서(504)로 통신하기 위해 버스(502)에 결합된다. 다른 유형의 사용자 입력 디바이스는 방향 정보 및 지시 선택을 프로세서(504)로 통신하고 디스플레이(512) 상의 커서 이동을 제어하기 위한 마우스, 트랙볼 또는 커서 방향 키와 같은 커버 제어부(516)이다. 이러한 입력 디바이스는 전형적으로 2개의 축선, 즉 제1 축선(예를 들어, x) 및 제2 축선(예를 들어, y)에서 2인 자유도를 가지며, 이로 인해 디바이스가 평면의 위치를 지정할 수 있다.
컴퓨터 시스템(500)은 컴퓨터 시스템과 결합하여 컴퓨터 시스템(500)이 특수 목적 기계가 되도록 하거나 프로그래밍하는 맞춤형 유선 로직, 하나 이상의 ASIC 또는 FPGA, 펌웨어 및/또는 프로그램 로직을 사용하여 본 명세서에 설명된 기술을 구현할 수 있다. 일 실시예에 따르면, 본 명세서에 설명된 것과 같은 기술은 프로세서(504)가 메인 메모리(506)에 포함된 하나 이상의 명령의 하나 이상의 시퀀스를 실행하는 것에 응답하여 컴퓨터 시스템(500)에 의해 수행된다. 이러한 명령은 저장 디바이스(510)와 같은 다른 저장 매체로부터 메인 메모리(506)로 판독될 수 있다. 메인 메모리(506)에 포함된 명령의 시퀀스의 실행은 프로세서(504)가 본 명세서에 설명된 프로세스 단계를 수행하게 한다. 대안적인 실시예에서, 유선 회로가 소프트웨어 명령 대신에 또는 소프트웨어 명령과 결합하여 사용될 수 있다.
본 명세서에 사용된 것과 같은 용어 "저장 매체"는 기계가 특정 방식으로 작동하게 하는 데이터 및/또는 명령을 저장하는 임의의 비일시적 매체를 지칭한다. 이러한 저장 매체는 비휘발성 매체 및/또는 휘발성 매체를 포함할 수 있다. 비휘발성 매체는 예를 들어 저장 디바이스(510)와 같은 광학 또는 자기 디스크를 포함한다. 휘발성 매체는 메인 메모리(506)와 같은 동적 메모리를 포함한다. 저장 매체의 일반적인 형태에는, 예를 들어 플로피 디스크, 플렉서블 디스크, 하드 디스크, 솔리드 스테이트 드라이브, 자기 테이프 또는 임의의 다른 자기 데이터 저장 매체, CD-ROM, 임의의 다른 광학 데이터 저장 매체, 구멍 패턴을 갖는 임의의 물리적 매체, RAM, PROM 및 EPROM, FLASH-EPROM, NVRAM, 임의의 다른 메모리 칩 또는 카트리지가 포함된다.
저장 매체는 전송 매체와 구별되지만 전송 매체와 함께 사용될 수 있다. 전송 매체는 저장 매체 간의 정보 전송에 관여한다. 예를 들어, 전송 매체는 버스(502)를 포함하는 전선을 포함하여 동축 케이블, 구리선 및 광섬유를 포함한다. 전송 매체는 또한 전파 및 적외선 데이터 통신 중에 생성되는 것과 같은 음향 또는 광파의 형태를 취할 수 있다.
다양한 형태의 매체가 실행을 위해 프로세서(504)에 하나 이상의 명령의 하나 이상의 시퀀스를 수용하는 데 관련될 수 있다. 예를 들어, 명령은 처음에 원격 컴퓨터의 자기 디스크 또는 솔리드 스테이트 드라이브에서 수용될 수 있다. 원격 컴퓨터는 명령을 동적 메모리에 로드하고, 모뎀을 사용하여 전화선을 통해 명령을 보낼 수 있다. 컴퓨터 시스템(500)에 로컬인 모뎀은 전화선을 통해 데이터를 수신하고, 적외선 송신기를 사용하여 데이터를 적외선 신호로 변환할 수 있다. 적외선 검출기는 적외선 신호로 전달된 데이터를 수신할 수 있고, 적절한 회로는 데이터를 버스(502)에 배치할 수 있다. 버스(502)는 데이터를 메인 메모리(506)로 전달하고, 프로세서(504)는 메인 메모리로부터 명령을 검색하고 실행한다. 메인 메모리(506)에 의해 수신된 명령은 프로세서(504)에 의한 실행 전 또는 후에 저장 디바이스(510)에 선택적으로 저장될 수 있다.
컴퓨터 시스템(500)은 또한 버스(502)에 결합된 통신 인터페이스(518)를 포함한다. 통신 인터페이스(518)는 로컬 네트워크(522)에 연결된 네트워크 링크(520)에 양방향 데이터 통신 결합을 제공한다. 예를 들어, 통신 인터페이스(518)는 통합 서비스 디지털 네트워크(ISDN) 카드, 케이블 모뎀, 위성 모뎀 또는 대응하는 유형의 전화선에 데이터 통신 연결을 제공하는 모뎀일 수 있다. 다른 예로서, 통신 인터페이스(518)는 호환 가능한 LAN에 대한 데이터 통신 연결을 제공하기 위한 근거리 통신망(LAN) 카드일 수 있다. 무선 링크도 구현될 수 있다. 임의의 그러한 구현에서, 통신 인터페이스(518)는 다양한 유형의 정보를 나타내는 디지털 데이터 스트림을 운반하는 전기, 전자기 또는 광학 신호를 송수신한다.
네트워크 링크(520)는 전형적으로 하나 이상의 네트워크를 통해 다른 데이터 디바이스에 데이터 통신을 제공한다. 예를 들어, 네트워크 링크(520)는 로컬 네트워크(522)를 통해 호스트 컴퓨터(524)에 대한 또는 인터넷 서비스 제공자(ISP)(526)에 의해 운영되는 데이터 장비에 대한 연결을 제공할 수 있다. ISP(526)는 이제 통상 "인터넷"(528)으로 지칭되는 전세계 패킷 데이터 통신 네트워크를 통해 데이터 통신 서비스를 제공한다. 로컬 네트워크(522) 및 인터넷(528) 둘 모두는 디지털 데이터 스트림을 전달하는 전기, 전자기 또는 광학 신호를 사용한다. 컴퓨터 시스템(500)으로/으로부터 디지털 데이터를 운반하는 다양한 네트워크를 통한 신호 및 네트워크 링크(520) 상의 신호 및 통신 인터페이스(518)를 통한 신호는 전송 매체의 예시적인 형태이다.
컴퓨터 시스템(500)은 네트워크(들), 네트워크 링크(520) 및 통신 인터페이스(518)를 통해 메시지를 보내고 프로그램 코드를 포함하는 데이터를 수신할 수 있다. 인터넷 예에서, 서버(530)는 인터넷(528), ISP(526), 로컬 네트워크(522) 및 통신 인터페이스(518)를 통해 응용 프로그램에 대한 요청된 코드를 전송할 수 있다.
수신된 코드는 수신될 때 프로세서(504)에 의해 실행될 수 있고 그리고/또는 저장 디바이스(510), 또는 이후의 실행을 위한 다른 비휘발성 저장소에 저장될 수 있다.
등가물, 확장, 대안 및 기타
앞선 명세서에서, 본 발명의 실시예는 구현마다 다를 수 있는 많은 특정 상세를 참조하여 설명되었다. 따라서, 본 발명의 실시예로 청구되고 출원인이 본 발명의 실시예로 청구하고자 하는 것에 대한 임의의 배타적인 지표는 본 출원으로부터 게시하는 청구항의 집합이며, 이러한 청구항들은 임의의 후속하는 보정을 포함한 특정 형태로 발행된다. 이러한 청구범위에 포함된 용어에 대해 본 명세서에 명시적으로 개시된 임의의 정의는 청구범위에 사용된 것고 같은 용어의 의미를 규율한다. 따라서, 청구범위에 명시적으로 언급되지 않은 한정, 요소, 속성, 특징, 이점 또는 특성은 그러한 청구의 범위를 어떤 식으로든 한정해서는 안 된다. 따라서, 명세서 및 도면은 제한적인 의미가 아니라 예시적인 것으로 간주되어야 한다.
열거된 예시적인 실시예
본 발명은 본 발명의 실시예의 일부 부분의 구조, 특징 및 기능을 설명하는 아래 열거된 예시적인 실시예(EEE)를 포함하지만 이로 한정되지 않는 본 명세서에 설명된 형태들 중 임의의 형태로 구현될 수 있다.
EEE1. 방법에 있어서,
텐서-곱 B-스플라인(TPB) 기저 함수의 집합을 결정하는 단계;
소스 색상 등급의 하나 이상의 소스 이미지의 소스 이미지 데이터로부터 하나 이상의 맵핑된 이미지의 예측된 이미지 데이터를 생성하기 위한 TPB 기저 함수의 집합과 함께 사용될 선택된 TPB 예측 매개변수의 집합을 생성하는 단계 ― 선택된 TPB 예측 매개변수의 집합은 상기 하나 이상의 맵핑된 이미지의 상기 예측된 이미지 데이터와 참조 색상 등급의 하나 이상의 참조 이미지의 참조 이미지 데이터 사이의 차이를 최소화함으로써 생성되고, 상기 하나 이상의 참조 이미지는 상기 하나 이상의 소스 이미지에 대응하고, 상기 하나 이상의 소스 이미지에 의해 묘사된 것과 동일한 시각적 콘텐츠를 묘사함―;
비디오 신호에서, 하나 이상의 소스 이미지의 소스 이미지 데이터와 함께 이미지 메타데이터의 일부로서 선택된 TPB 예측 매개변수의 집합을 인코딩하는 단계;
하나 이상의 맵핑된 이미지가 비디오 신호의 수신자 디바이스로 재구성 및 렌더링되게 하는 단계를 포함하는 방법.
EEE2. EEE1에 있어서, 소스 이미지 데이터 또는 참조 이미지 데이터 중 적어도 하나는 색상 공간의 서브샘플링 포맷으로 표현되는 방법.
EEE3. EEE1 또는 2에 있어서, 하나 이상의 소스 이미지는 미디어 프로그램에서 시각적 장면을 구성하는 이미지, 슬라이딩 윈도우 내에서 선택된 이미지, 또는 선형 세그먼트 내에서 선택된 이미지 중 하나를 나타내는 방법.
EEE4. EEE1-3 중 어느 하나에 있어서, TPB 기저 함수의 집합은 B-스플라인 기저 함수의 하나 이상의 집합의 텐서 곱에 의해 생성되고, B-스플라인 기저 함수의 하나 이상의 집합의 B-스플라인 기저 함수의 집합 각각은 색상 공간의 하나 이상의 색상 채널에서 각각의 색상 채널에 대응하는 방법.
EEE5. EEE4에 있어서, B-스플라인 기저 함수의 하나 이상의 집합의 B-스플라인 기저 함수의 적어도 하나의 집합은 특정 차수의 B-스플라인 기저 함수의 완전 집합을 나타내는 방법.
EEE6. EEE4 또는 5에 있어서, B-스플라인 기저 함수의 하나 이상의 집합은 잘린 다항식으로 생성된 B-스플라인 기저 함수의 집합 및 균일하게 분포된 노트 포인트의 집합을 포함하는 방법.
EEE7. EEE1-6 중 어느 하나에 있어서, 선택된 TPB 예측 매개변수의 집합과 TPB 기저 함수의 집합의 조합은 하나 이상의 맵핑된 이미지의 예측된 이미지 데이터를 생성하기 위한 크로스 채널 예측 변수를 나타내는 방법.
EEE8. EEE1-7 중 어느 하나에 있어서, TPB 예측 매개변수의 집합은 각각이 소스 이미지 데이터로부터 생성된 하나 이상의 소스 코드워드의 제1 배열 및 참조 이미지 데이터로부터 생성된 하나 이상의 참조 코드워드의 제2 배열을 포함하는 복수의 맵핑 쌍을 사용하여 생성되는 방법.
EEE9. EEE8에 있어서, 복수의 맵핑 쌍은 3차원 맵핑 테이블(3DMT)에 기초하여 생성되는 방법.
EEE10. 방법에 있어서,
비디오 신호로부터, 제1 색상 등급의 하나 이상의 제1 이미지를 디코딩하는 단계;
상기 비디오 신호로부터, 텐서-곱 B-스플라인(TPB) 기저 함수의 집합과 곱하기 위해 선택된 TPB 예측 매개변수의 집합을 포함하는 이미지 메타데이터를 디코딩하는 단계;
하나 이상의 제1 이미지로부터 하나 이상의 맵핑된 이미지를 생성하기 위해 TPB 기저 함수의 집합과 함께 TPB 예측 매개변수의 집합을 사용하는 단계;
하나 이상의 맵핑된 이미지로부터 유도된 하나 이상의 디스플레이 이미지가 디스플레이 디바이스로 렌더링되게 하는 단계를 포함하는 방법.
EEE11. EEE10에 있어서, 선택된 TPB 예측 매개변수의 집합은 업스트림 비디오 콘텐츠 프로세서에 의해 생성되었으며, 선택된 TPB 예측 매개변수의 집합은 제1 색상 등급의 하나 이상의 제1 이미지의 제1 이미지 데이터로부터 하나 이상의 맵핑된 이미지의 예측된 이미지 데이터를 생성하기 위한 TPB 기저 함수의 집합과 함께 사용되며, 업스트림 비디오 콘텐츠 프로세서는 하나 이상의 맵핑된 이미지의 예측된 이미지 데이터와 참조 색상 등급의 하나 이상의 참조 이미지의 참조 이미지 데이터 사이의 차이를 최소화함으로써 선택된 TPB 예측 매개변수의 집합을 생성하였고, 하나 이상의 참조 이미지는 하나 이상의 제1 이미지에 대응하고, 하나 이상의 제1 이미지에 의해 묘사된 것과 동일한 시각적 콘텐츠를 묘사하는 방법.
EEE12. EEE10에 있어서,
복수의 B-스플라인 기저 함수 출력 값을 생성하는 단계;
복수의 TPB 기저 함수 출력 값의 집합을 생성하기 위해 복수의 B-스플라인 기저 함수 출력 값에 외적 연산을 적용하는 단계;
예측된 코드워드의 집합을 생성하기 위해 비디오 신호로부터 디코딩된 TPB 예측 매개변수의 집합을 복수의 TPB 기저 함수 출력 값의 집합과 곱하는 단계를 더 포함하는 방법.
EEE13. EEE 12에 있어서, 복수의 B-스플라인 기저 함수 출력 값을 생성하는 단계는:
복수의 B-스플라인 기저 함수의 각각의 B-스플라인 기저 함수에 대해, 노트 포인트 및 각각의 이러한 B-스플라인 기저 함수를 나타내기 위해 잘린 다항식에서 사용될 대응하는 곱셈 인자를 결정하는 단계;
각각의 이러한 B-스플라인 기저 함수에 대한 출력 값을 생성하기 위해, 잘린 다항식에 대한 입력으로서 하나 이상의 제1 이미지에서 디코딩된 코드워드를 사용하는 단계를 포함하는 방법.
EEE14. EEE 12에 있어서,
복수의 B-스플라인 기저 함수 출력 값을 로컬 레지스터에 저장하는 단계;
TPB 기저 함수의 각각의 TPB 기저 함수에 대해, 복수의 B-스플라인 기저 함수 출력 값 중 색상 공간의 각각의 채널에서 (n+1)개의 0이 아닌 B-스플라인 기저 함수 출력 값을 식별하는 단계 ―n은 복수의 B-스플라인 기저 함수의 차수를 나타냄―;
하나 이상의 제1 이미지의 디코딩된 코드워드로부터 각각의 이러한 TPB 기저 함수에 대한 출력 값을 생성하기 위해, (n+1)개의 0이 아닌 B-스플라인 기저 함수 출력 값을 입력의 일부로 사용하는 단계를 더 포함하는 방법.
EEE15. EEE12에 있어서,
하나 이상의 제1 이미지의 각각의 디코딩된 코드워드에 대해,
출력 코드워드를 0으로 초기화하는 단계;
TPB 기저 함수의 각각의 TPB 기저 함수에 대해,
색상 공간의 3개 채널의 각각의 채널에 대해 (n+1)개의 0이 아닌 B-스플라인 기저 함수 출력 값을 생성하여, (n+1)개의 0이 아닌 B-스플라인 기저 함수 출력 값의 3개의 집합을 생성하는 단계 ―n은 상기 복수의 B-스플라인 기저 함수의 차수를 나타냄―;
하나 이상의 제1 이미지의 디코딩된 코드워드로부터 TPB 기저 함수 출력 값을 생성하기 위해, (n+1)개의 0이 아닌 B-스플라인 기저 함수 출력 값의 3개의 집합에 외적 연산을 적용하는 단계;
TPB 예측 매개변수의 집합에서 대응하는 예측 매개변수와 TPB 기저 함수 출력 값을 곱함으로써 곱을 생성하는 단계;
상기 곱을 출력 코드워드에 추가하는 단계
를 수행하는 단계
를 수행함으로써 상기 하나 이상의 맵핑된 이미지에서 출력 코드워드를 생성하는 단계를 더 포함하는 방법.
EEE16. EEE10-15 중 어느 하나에 있어서, 선택된 TPB 예측 매개변수의 집합은 TPB 기저 함수의 집합의 대응하는 TPB 기저 함수에 대해 복수의 가중치 계수의 가중치 계수 각각의 운반을 지원하는 코딩 구문의 복수의 가중치 계수로서 인코딩되는 방법.
EEE17. EEE1-EEE16에 언급된 방법들 중 어느 하나의 방법을 수행하도록 구성된 컴퓨터 시스템.
EEE18. 프로세서를 포함하고, EEE1-EEE16에 언급된 방법들 중 어느 하나의 방법을 수행하도록 구성된 장치.
EEE19. EEE1-EEE16에 언급된 방법들 중 어느 하나에 따른 방법을 실행하기 위한 컴퓨터 실행 가능 명령이 저장된 비일시적 컴퓨터 판독 가능한 저장 매체.

Claims (20)

  1. 방법에 있어서,
    소스 색상 등급(color grade)의 하나 이상의 소스 이미지의 소스 이미지 데이터로부터, 하나 이상의 맵핑된 이미지의 적어도 하나의 색상 채널의 예측된 이미지 데이터를 생성하기 위한 예측 매개변수의 집합을 생성하는 단계 - 상기 하나 이상의 맵핑된 이미지는 M>1인 M개의 색상 채널을 포함하고,
    상기 적어도 하나의 색상 채널에 대한 상기 예측 매개변수의 집합을 생성하는 단계는,
    B-스플라인 기저 함수(basis function)의 M개의 집합의 텐서 곱(tensor product)에 대응하는, 텐서-곱 B-스플라인(TPB) 기저 함수의 집합을 결정하는 단계;
    상기 적어도 하나의 색상 채널에 대한 상기 예측 매개변수의 집합으로서, 상기 소스 색상 등급의 상기 하나 이상의 소스 이미지의 상기 소스 이미지 데이터로부터, 상기 하나 이상의 맵핑된 이미지의 상기 적어도 하나의 색상 채널의 예측된 이미지 데이터를 생성하기 위한 상기 TPB 기저 함수의 집합과 함께 사용될 선택된 TPB 예측 매개변수의 집합을 생성하는 단계 - 상기 선택된 TPB 예측 매개변수의 집합은 상기 하나 이상의 맵핑된 이미지의 상기 적어도 하나의 색상 채널의 상기 예측된 이미지 데이터와 참조 색상 등급의 하나 이상의 참조 이미지의 참조 이미지 데이터 사이의 차이를 최소화함으로써 생성되고, 상기 하나 이상의 참조 이미지는 상기 하나 이상의 소스 이미지에 대응하고 상기 하나 이상의 소스 이미지에 의해 묘사된 것과 동일한 시각적 콘텐츠를 묘사함 - 를 포함함 -;
    비디오 신호에서, 상기 비디오 신호의 수신자 디바이스로 상기 하나 이상의 맵핑된 이미지의 재구성 및 렌더링을 가능하게 하기 위해 상기 하나 이상의 소스 이미지의 상기 소스 이미지 데이터와 함께 이미지 메타데이터의 일부로서 상기 선택된 TPB 예측 매개변수의 집합을 인코딩하는 단계를 포함하는, 방법.
  2. 제1항에 있어서,
    상기 TPB 기저 함수의 집합을 결정하는 단계는,
    상기 M개의 색상 채널 각각에 대한 B-스플라인 기저 함수의 집합을 결정하는 단계; 및
    상기 B-스플라인 기저 함수의 집합 각각의 텐서 곱으로서 상기 TPB 기저 함수의 집합을 결정하는 단계를 포함하는, 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 소스 이미지 데이터 또는 상기 참조 이미지 데이터 중 적어도 하나는 색상 공간의 서브샘플링 포맷으로 표현되는, 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 하나 이상의 소스 이미지는 미디어 프로그램에서 시각적 장면을 구성하는 이미지, 슬라이딩 윈도우 내에서 선택된 이미지 또는 선형 세그먼트 내에서 선택된 이미지 중 하나를 나타내는, 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 B-스플라인 기저 함수의 집합 중 적어도 하나는 특정 차수의 B-스플라인 기저 함수의 완전 집합(complete set)을 나타내는, 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 B-스플라인 기저 함수의 집합 각각은 균일하게 분포된 노트 포인트(knot point)의 집합을 사용하여 생성되는, 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 B-스플라인 기저 함수의 집합 각각은 잘린(truncated) 다항식으로 생성되는, 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    선택된 TPB 예측 매개변수의 집합은 다중 색상 채널 각각에 대해 생성되고, 적어도 2개의 색상 채널의 상기 선택된 TPB 예측 매개변수의 집합은 TPB 기저 함수의 동일한 집합을 사용하여 생성되는, 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 선택된 TPB 예측 매개변수의 집합과 상기 TPB 기저 함수의 집합의 조합은 상기 하나 이상의 맵핑된 이미지에서 상기 예측된 이미지 데이터를 생성하기 위한 크로스-채널 예측 변수를 나타내는, 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서,
    상기 TPB 예측 매개변수의 집합은, 각각이 상기 소스 이미지 데이터로부터 생성된 하나 이상의 소스 코드워드의 제1 배열 및 상기 참조 이미지 데이터로부터 생성된 하나 이상의 참조 코드워드의 제2 배열을 포함하는 복수의 맵핑 쌍을 사용하여 생성되는, 방법.
  11. 제10항에 있어서,
    상기 복수의 맵핑 쌍은 3차원 맵핑 테이블(3DMT)에 기초하여 생성되는, 방법.
  12. 제10항 또는 제11항에 있어서,
    소스 이미지의 픽셀의 상기 소스 코드워드는 고정된 수의 빈(bin)으로 분할되고, 각각의 빈에 대해, 각각의 빈의 상기 소스 이미지의 픽셀에 대응하는 상기 참조 이미지의 픽셀의 참조 코드워드의 평균이 계산되고, 상기 제1 배열은 상기 소스 코드워드 빈의 중심 값을 포함하고, 상기 제2 배열은 상기 참조 코드워드 값의 대응하는 계산된 평균을 포함하는, 방법.
  13. 방법에 있어서,
    비디오 신호로부터, M>1인 M개의 색상 채널을 포함하고 제1 색상 등급인 하나 이상의 제1 이미지를 디코딩하는 단계;
    B-스플라인 기저 함수의 M개의 집합의 텐서 곱에 대응하는 TPB 기저 함수의 집합에 액세스하는 단계;
    상기 비디오 신호로부터, 텐서-곱 B-스플라인(TPB) 기저 함수의 집합과 곱하기 위해 선택된 텐서-곱 B-스플라인(TPB) 예측 매개변수의 집합을 포함하는 이미지 메타데이터를 디코딩하는 단계;
    상기 하나 이상의 제1 이미지로부터 하나 이상의 맵핑된 이미지를 생성하기 위해 상기 TPB 기저 함수의 집합과 함께 상기 TPB 예측 매개변수의 집합을 사용하는 단계; 및
    상기 하나 이상의 맵핑된 이미지로부터 유도된 하나 이상의 디스플레이 이미지가 디스플레이 디바이스로 렌더링되도록 하는 단계를 포함하는, 방법.
  14. 제13항에 있어서,
    복수의 B-스플라인 기저 함수 출력 값을 생성하는 단계;
    복수의 TPB 기저 함수 출력 값을 생성하기 위해 상기 복수의 B-스플라인 기저 함수 출력 값에 외적 연산(cross product operation)을 적용함으로써, 복수의 TPB 기저 함수 출력 값의 집합을 생성하는 단계;
    상기 예측된 코드워드의 집합을 생성하기 위해 상기 비디오 신호로부터 디코딩된 상기 TPB 예측 매개변수의 집합을 복수의 TPB 기저 함수 출력 값의 집합과 곱하는 단계를 더 포함하는, 방법.
  15. 제14항에 있어서,
    복수의 B-스플라인 기저 함수 출력 값을 생성하는 단계는:
    복수의 B-스플라인 기저 함수의 각각의 B-스플라인 기저 함수에 대해, 각각의 이러한 B-스플라인 기저 함수를 나타내기 위해 잘린 다항식에서 사용될 노트 포인트 및 대응하는 곱셈 인자(multiplicative factors)를 결정하는 단계;
    각각의 이러한 B-스플라인 기저 함수에 대한 출력 값을 생성하기 위해 상기 잘린 다항식에 대한 입력으로서 상기 하나 이상의 제1 이미지에서 디코딩된 코드워드를 사용하는 단계를 포함하는, 방법.
  16. 제14항에 있어서,
    상기 복수의 B-스플라인 기저 함수 출력 값을 로컬 레지스터에 저장하는 단계;
    상기 TPB 기저 함수의 각각의 TPB 기저 함수에 대해, 상기 복수의 B-스플라인 기저 함수 출력 값 중 색상 공간의 각각의 채널에서 (n+1)개의 0이 아닌 B-스플라인 기저 함수 출력 값을 식별하는 단계 - n은 상기 복수의 B-스플라인 기저 함수의 차수를 나타냄 -;
    상기 하나 이상의 제1 이미지의 디코딩된 코드워드로부터 각각의 이러한 TPB 기저 함수에 대한 출력 값을 생성하기 위해 상기 (n+1)개의 0이 아닌 B-스플라인 기저 함수 출력 값을 입력의 일부로서 사용하는 단계를 더 포함하는, 방법.
  17. 제14항에 있어서,
    상기 하나 이상의 제1 이미지에서 각각의 디코딩된 코드워드에 대해,
    출력 코드워드를 0으로 초기화하는 단계;
    상기 TPB 기저 함수의 각각의 TPB 기저 함수에 대해,
    색상 공간의 3개 채널의 각각의 채널에 대해 (n+1)개의 0이 아닌 B-스플라인 기저 함수 출력 값을 생성하여, (n+1)개의 0이 아닌 B-스플라인 기저 함수 출력 값의 3개의 집합을 생성하는 단계 - n은 상기 복수의 B-스플라인 기저 함수의 차수를 나타냄 -;
    상기 하나 이상의 제1 이미지의 상기 디코딩된 코드워드로부터 TPB 기저 함수 출력 값을 생성하기 위해, (n+1)개의 0이 아닌 B-스플라인 기저 함수 출력 값의 3개의 집합에 외적 연산을 적용하는 단계;
    상기 TPB 예측 매개변수의 집합에서 대응하는 예측 매개변수와 상기 TPB 기저 함수 출력 값을 곱함으로써 곱을 생성하는 단계;
    상기 곱을 출력 코드워드에 추가하는 단계
    를 수행하는 단계를 수행함으로써 상기 하나 이상의 맵핑된 이미지에서 상기 출력 코드워드를 생성하는 단계를 더 포함하는, 방법.
  18. 제13항 내지 제17항 중 어느 한 항에 있어서,
    상기 선택된 TPB 예측 매개변수의 집합은 상기 TPB 기저 함수의 집합에서 대응하는 TPB 기저 함수에 대해, 복수의 가중치 계수의 각각의 가중치 계수의 운반을 지원하는 코딩 구문에서 상기 복수의 가중치 계수로서 인코딩되는, 방법.
  19. 프로세서를 포함하고, 제1항 내지 제18항에 기재된 방법 중 어느 하나의 방법을 수행하도록 구성되는 장치.
  20. 제1항 내지 제18항에 기재된 방법 중 어느 하나에 따른 방법을 실행하기 위한 컴퓨터 실행 가능한 명령이 저장된 비일시적 컴퓨터 판독 가능한 저장 매체.
KR1020227010706A 2019-10-01 2020-09-29 텐서-곱 b-스플라인 예측 변수 KR20220053657A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962908770P 2019-10-01 2019-10-01
EP19200793.8 2019-10-01
EP19200793 2019-10-01
US62/908,770 2019-10-01
PCT/US2020/053172 WO2021067204A1 (en) 2019-10-01 2020-09-29 Tensor-product b-spline predictor

Publications (1)

Publication Number Publication Date
KR20220053657A true KR20220053657A (ko) 2022-04-29

Family

ID=72802182

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227010706A KR20220053657A (ko) 2019-10-01 2020-09-29 텐서-곱 b-스플라인 예측 변수

Country Status (8)

Country Link
US (1) US11962760B2 (ko)
EP (1) EP4038881A1 (ko)
JP (1) JP7386977B2 (ko)
KR (1) KR20220053657A (ko)
CN (1) CN114731426A (ko)
BR (1) BR112022006246A2 (ko)
TW (1) TWI812874B (ko)
WO (1) WO2021067204A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021113549A1 (en) 2019-12-06 2021-06-10 Dolby Laboratories Licensing Corporation Cascade prediction
CN113312821B (zh) * 2021-06-03 2023-01-24 西北工业大学 一种基于b样条密度法的三维自支撑结构拓扑优化设计方法
AU2022344154A1 (en) 2021-09-09 2024-03-28 Dolby Laboratories Licensing Corporation Tensor-product b-spline prediction for hdr video in mobile applications

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6847737B1 (en) 1998-03-13 2005-01-25 University Of Houston System Methods for performing DAF data filtering and padding
WO2003088085A1 (en) 2002-04-04 2003-10-23 Arizona Board Of Regents Three-dimensional digital library system
US20060013505A1 (en) 2002-11-06 2006-01-19 Shing-Tung Yau Analysis of geometric surfaces by comformal structure
EP1606692A4 (en) 2003-03-26 2011-05-04 Univ Brigham Young SYSTEM AND METHOD FOR DEFINING T-SPLINE AND T-NURCC SURFACES USING ADVANCED LOCAL METHODOLOGY
US7346736B1 (en) 2004-12-13 2008-03-18 Sun Microsystems, Inc. Selecting basis functions to form a regression model for cache performance
US20060274070A1 (en) 2005-04-19 2006-12-07 Herman Daniel L Techniques and workflows for computer graphics animation system
US8874477B2 (en) 2005-10-04 2014-10-28 Steven Mark Hoffberg Multifactorial optimization system and method
US8537893B2 (en) * 2006-01-23 2013-09-17 Max-Planck-Gesellschaft Zur Forderung Der Wissenschaften E.V. High dynamic range codecs
CA2677956A1 (en) 2006-02-28 2007-09-07 Ernest Daniel Miller Color management of digital files and images for printing
US9572494B2 (en) 2008-08-12 2017-02-21 New Jersy Institute of Technology Method and apparatus for multi-spectral imaging and analysis of skin lesions and biological tissues
JP5506272B2 (ja) 2009-07-31 2014-05-28 富士フイルム株式会社 画像処理装置及び方法、データ処理装置及び方法、並びにプログラム
JP5506273B2 (ja) 2009-07-31 2014-05-28 富士フイルム株式会社 画像処理装置及び方法、データ処理装置及び方法、並びにプログラム
TWI479898B (zh) 2010-08-25 2015-04-01 Dolby Lab Licensing Corp 擴展影像動態範圍
WO2012122426A1 (en) * 2011-03-10 2012-09-13 Dolby Laboratories Licensing Corporation Reference processing for bitdepth and color format scalable video coding
CN106878707B (zh) * 2011-04-14 2018-05-08 杜比实验室特许公司 多颜色通道多元回归预测算子
US8903169B1 (en) 2011-09-02 2014-12-02 Adobe Systems Incorporated Automatic adaptation to image processing pipeline
WO2013090120A1 (en) * 2011-12-15 2013-06-20 Dolby Laboratories Licensing Corporation Backwards-compatible delivery of digital cinema content with extended dynamic range
TWI556629B (zh) * 2012-01-03 2016-11-01 杜比實驗室特許公司 規定視覺動態範圍編碼操作及參數
CA2873496A1 (en) 2012-05-14 2013-11-21 Luca Rossato Encoding and decoding based on blending of sequences of samples along time
JP6060394B2 (ja) * 2012-06-27 2017-01-18 インテル・コーポレーション クロスレイヤー・クロスチャネル残差予測
US10080026B2 (en) 2015-03-20 2018-09-18 Dolby Laboratories Licensing Corporation Signal reshaping approximation
EP3341919A4 (en) 2015-09-07 2019-04-03 Sony Interactive Entertainment America LLC PICTURE REGULATORY AND RETARGETING SYSTEM
US10210430B2 (en) 2016-01-26 2019-02-19 Fabula Ai Limited System and a method for learning features on geometric domains
CN107182068A (zh) 2016-03-11 2017-09-19 索尼公司 用于无线通信的装置和方法、参数优化装置和方法
EP3437190B1 (en) 2016-03-31 2023-09-06 Cohere Technologies, Inc. Channel acquisition using orthogonal time frequency space modulated pilot signal
US10192353B1 (en) 2017-10-10 2019-01-29 8i Limited Multiresolution surface representation and compression
US11322164B2 (en) 2018-01-18 2022-05-03 Dolby Laboratories Licensing Corporation Methods and devices for coding soundfield representation signals
WO2020131731A1 (en) 2018-12-18 2020-06-25 Dolby Laboratories Licensing Corporation Machine learning based dynamic composing in enhanced standard dynamic range video (sdr+)

Also Published As

Publication number Publication date
US20220408081A1 (en) 2022-12-22
TWI812874B (zh) 2023-08-21
BR112022006246A2 (pt) 2022-06-21
TW202116072A (zh) 2021-04-16
CN114731426A (zh) 2022-07-08
EP4038881A1 (en) 2022-08-10
WO2021067204A1 (en) 2021-04-08
JP2022550206A (ja) 2022-11-30
JP7386977B2 (ja) 2023-11-27
US11962760B2 (en) 2024-04-16

Similar Documents

Publication Publication Date Title
CN109416832B (zh) 高效的基于直方图的亮度外观匹配
CN108885783B (zh) 编码和解码可逆制作质量单层视频信号
JP6609056B2 (ja) 高ダイナミックレンジおよび広色域シーケンスの再形成および符号化のためのシステム
KR102380164B1 (ko) 게이밍 및/또는 sdr+ 콘텐츠에 대한 자동 디스플레이 관리 메타데이터 생성
CN107995497B (zh) 高动态范围视频的屏幕自适应解码
EP3468203B1 (en) Layer decomposition in hierarchical vdr coding
CN105580369B (zh) 使用分层编码对多格式高动态范围视频进行编解码的方法、装置及系统
EP3776474A1 (en) Hdr image representations using neural network mappings
US10609424B2 (en) Single-layer progressive coding for supporting multi-capability HDR composition
KR20220053657A (ko) 텐서-곱 b-스플라인 예측 변수
CN105052143A (zh) 对多层vdr译码中的感知量化的视频内容进行编码
JP2020524446A (ja) 効率的なエンド・ツー・エンドシングルレイヤー逆ディスプレイマネジメント符号化
JP7443546B2 (ja) 画像処理方法、システム及びコンピュータ・プログラム
EP3306563B1 (en) Inverse luma/chroma mappings with histogram transfer and approximation
RU2794137C1 (ru) Предсказатель b-сплайна тензорного произведения