KR20180048654A

KR20180048654A - 비디오 인코딩 및 디코딩에서의 양자화를 위한 방법 및 장치

Info

Publication number: KR20180048654A
Application number: KR1020187005809A
Authority: KR
Inventors: 프랑크 갈팡; 아드리앙 귀흐넬; 에두아르 프랑스와
Original assignee: 톰슨 라이센싱
Priority date: 2015-09-02
Filing date: 2016-09-02
Publication date: 2018-05-10
Also published as: MX2018002646A; JP2018533860A; CA2996349A1; CN108141598A; WO2017037228A1; RU2018111430A3; EP3345395A1; TW201720157A; TWI727968B; RU2018111430A; CN108141598B; US20180255302A1; US10491899B2; JP6989491B2

Abstract

인간의 눈들은 비디오의 매우 밝은 영역들 주변의 어두운 영역들에는 덜 민감해질 수 있으므로(글레어 마스킹으로 알려짐), 이러한 어두운 영역들에서 더 거친 양자화를 사용할 수 있다. 글레어 마스킹을 갖는 블록에서 인간의 눈들이 허용할 수 있는 추가 왜곡을 고려하면, 블록에 대한 양자화 비율이 계산될 수 있다. 그 다음에, 블록에 대한 양자화 파라미터가 양자화 비율을 사용하여 스케일업되어, 조정된 양자화 파라미터를 형성할 수 있다. 일 실시예에서, 조정된 양자화 파라미터는 디코더 측에서 도출될 수 있고, 따라서 양자화 비율 정보의 송신은 필요하지 않다. 특히, 예측된 블록 및 역양자화된 DC 계수에 기초하여 현재 블록의 휘도를 추정하고, 인과적인 이웃 블록들의 휘도 및 현재 블록의 추정된 휘도를 사용하여, 조정된 양자화 파라미터를 추정할 수 있다.

Description

비디오 인코딩 및 디코딩에서의 양자화를 위한 방법 및 장치

본 발명은 비디오 인코딩 및 디코딩을 위한 방법 및 장치에 관한 것으로, 특히, 비디오들을 인코딩 및 디코딩할 때, 글레어 마스킹 효과(glare masking effect)들에 기초하여 양자화 파라미터를 조정하기 위한 방법 및 장치에 관한 것이다.

이 섹션은 이하에서 설명 및/또는 청구되는 본 발명의 다양한 양태들과 관련될 수 있는 기술의 다양한 양태들을 독자에게 소개하기 위해 의도된다. 이 논의는 독자에게 본 발명의 다양한 양태들의 더 나은 이해를 용이하게 하기 위해 배경 정보를 제공하는 데 도움이 될 것으로 생각된다. 따라서, 이러한 진술들은 종래 기술에 대한 인정이 아니라 이러한 관점에서 읽혀져야 한다는 것이 이해되어야 한다.

HDR(High Dynamic Range) 비디오들은 일반적으로 종래의 SDR(Standard Dynamic Range) 비디오들에 의해 달성될 수 있는 것보다 더 많은 범위의 휘도 레벨들을 표현하며, 대개 8비트 또는 10비트 동적 범위를 갖는다. HDR 비디오들을 압축하거나 표현하기 위해, 도 1에 도시된 바와 같이, 일부 기존의 방법들은 우선 순방향 변환(110)을 수행하며, 이 순방향 변환(110)은 HDR 선형 신호들로부터 비선형 신호들로의 변환, 색 공간 변환, 비트-깊이 감소/양자화 및 크로마 하향-변환을 포함할 수 있다. 순방향 변환 이후의 신호들은 그 후 비디오 인코더(120), 예를 들어, 8비트 및 10비트 비디오 포맷들을 지원하는 HEVC(High Efficiency Video Encoding) 인코더를 사용하여 압축될 수 있다. 디코더 측에서는, 비트스트림이 비디오 디코더(130), 예를 들어, HEVC 디코더를 사용하여 디코딩된 후, 역방향 변환(140)을 사용하여 HDR 비디오 신호들로 변환되며, 역방향 변환(140)은 색 공간 변환, 비트-깊이 역양자화(inverse quantization), 크로마 상향-변환, 및 비선형 신호들로부터 HDR 선형 신호들로의 변환을 포함할 수 있다.

SMPTE 2084는 휘도에 대한 HVS(Human Visual System)의 감도를 고려하는 전달 함수를 정의하며, 이는 OETF(Opto-Electronic Transfer Function) 커브를 각각의 픽셀에 독립적으로 적용한다. 순방향 변환 모듈(110)은 OETF 커브 및 비트-깊이 양자화를 사용하여 HDR 비디오들을 더 적은 비트로 표현되는 비디오 신호들로, 예를 들어, SMPTE 2084에 따라 10 또는 12비트 신호들로 변환할 수 있고, 역방향 변환 모듈(140)은 OETF 커브에 대응하는 역 OETF 곡선, 예를 들어, PQ(Perceptual Quantizer) EOTF 커브를 사용할 수 있다.

비디오를 인코딩하는 방법이 제시되며, 본 방법은, 상기 비디오의 이미지의 블록에 액세스하는 단계; 상기 블록에 대한 양자화 파라미터에 기초하여 상기 블록을 인코딩하는 단계 - 상기 양자화 파라미터는 상기 블록의 휘도 및 상기 블록의 이웃 블록들의 휘도에 기초하여 결정되고, 상기 블록의 상기 휘도는 상기 블록에서의 적어도 하나의 변환 계수를 사용하여 결정됨 -; 및 인코딩에 응답하여, 비트스트림을 생성하는 단계를 포함한다.

일 실시예에서, 상기 양자화 파라미터는 상기 블록의 상기 이웃 블록들의 하나 이상의 픽셀과 상기 블록의 하나 이상의 픽셀 사이의 글레어 마스킹 효과에 기초하여 결정된다. 일례에서, 글레어 마스킹 효과와 관련된 글레어 팩터는 상세한 설명의 수학식 (4) 및 (5)로서 계산될 수 있다.

다른 실시예에서, 본 방법은, 상기 글레어 마스킹 효과에 응답하여, 상기 블록의 픽셀에 대한 JND(Just Noticeable Difference)를 결정하는 단계를 추가로 포함하고, 상기 양자화 파라미터는 상기 결정된 JND 및 상기 블록의 상기 휘도에 기초하여 결정된다. 예를 들어, 상기 JND는 상세한 설명의 수학식 (2) 및 (3)을 사용하여 결정될 수 있다.

다른 실시예에서, 상기 블록의 상기 휘도는 상기 블록의 DC 변환 계수 및 상기 블록에 대한 예측된 블록을 사용하여 결정된다.

다른 실시예에서, 상기 블록의 AC 변환 계수들의 양자화는 상기 결정된 양자화 파라미터에 기초하고, 상기 DC 변환 계수의 양자화는 다른 양자화 파라미터에 기초한다.

다른 실시예에서, 본 방법은 상기 블록의 상기 휘도 및 상기 블록의 이웃 블록들의 상기 휘도에 기초하여 양자화 비율(quantization ratio)을 결정하는 단계를 추가로 포함하고, 상기 양자화 파라미터는 제2 양자화 파라미터 및 상기 양자화 비율에 기초하여 결정된다. 일례에서, 상기 양자화 비율은 상세한 설명의 수학식 (7) 내지 (9)에서 설명되는 바와 같이 결정될 수 있다.

본 실시예들은 또한 비디오를 인코딩하기 위한 장치를 제공하며, 본 장치는 위에서 설명된 방법들 중 임의의 방법을 수행하도록 구성되는 하나 이상의 프로세서 및 메모리를 포함한다.

본 실시예들은 또한 위에서 설명된 방법들 중 임의의 방법에 따라 생성되는 비트스트림이 저장되는 비일시적 컴퓨터 판독 가능 스토리지 매체를 제공한다.

비트스트림으로부터 비디오를 디코딩하는 방법이 제시되며, 본 방법은, 상기 비디오를 나타내는 상기 비트스트림에 액세스하는 단계; 상기 비디오의 이미지의 블록에 대한 양자화 파라미터에 기초하여 상기 블록을 디코딩하는 단계 - 상기 결정된 양자화 파라미터는 상기 블록의 휘도 및 상기 블록의 이웃 블록들의 휘도에 기초하여 결정되고, 상기 블록의 상기 휘도는 상기 블록에서의 적어도 하나의 변환 계수를 사용하여 결정됨 -; 및 디스플레이, 스토리지 및 통신 인터페이스 중 적어도 하나에 상기 비디오를 출력하는 단계를 포함한다.

일 실시예에 따르면, 상기 블록의 상기 휘도는 상기 블록의 DC 변환 계수 및 상기 블록에 대한 예측된 블록을 사용하여 결정된다.

다른 실시예에서, 상기 블록의 AC 변환 계수들의 역양자화는 상기 결정된 양자화 파라미터에 기초하고, 상기 DC 변환 계수의 역양자화는 다른 양자화 파라미터에 기초한다.

다른 실시예에서, 본 방법은 상기 블록의 상기 휘도 및 상기 블록의 이웃 블록들의 상기 휘도에 기초하여 양자화 비율을 결정하는 단계를 추가로 포함하고, 상기 양자화 파라미터는 제2 양자화 파라미터 및 상기 양자화 비율에 기초하여 결정된다. 일례에서, 상기 양자화 비율은 상세한 설명의 수학식 (7) 내지 (9)에서 설명되는 바와 같이 결정될 수 있다.

본 실시예들은 또한 비트스트림을 디코딩하기 위한 장치를 제공하며, 본 장치는 위에서 설명된 방법들 중 임의의 방법을 수행하도록 구성되는 하나 이상의 프로세서 및 메모리를 포함한다.

본 실시예들은 또한 위에서 설명된 방법들 중 임의의 방법을 수행하기 위한 명령어들이 저장되는 비일시적 컴퓨터 판독 가능 스토리지 매체를 제공한다.

비트스트림이 제공되며, 본 비트스트림은 양자화 파라미터에 기초하여 인코딩된 상기 비디오의 이미지의 블록을 포함하도록 포맷팅되고, 상기 양자화 파라미터는 상기 블록의 휘도 및 상기 블록의 이웃 블록들의 휘도에 기초하여 결정되고, 상기 블록의 상기 휘도는 상기 블록에서의 적어도 하나의 변환 계수를 사용하여 결정된다.

도 1은 HDR 신호들을 인코딩 및 디코딩하는 예시적인 프레임워크를 예시하는 블록도이다.
도 2a는 예시적인 HDR 이미지를 예시하는 도면 예이고, 도 2b는 예시적인 HDR 이미지에서의 글레어 마스킹 효과를 예시하는 도면 예이다.
도 3은, 본 원리들의 실시예에 따라, 양자화 비율을 계산하기 위해 글레어 마스킹 효과를 사용하기 위한 예시적인 프레임워크를 예시한다.
도 4는, 본 원리들의 실시예에 따라, 글레어 마스킹 효과를 고려하여 HDR 이미지를 인코딩하기 위한 예시적인 프레임워크를 예시한다.
도 5는, 본 원리들의 실시예에 따라, 글레어 마스킹 효과를 고려하여 HDR 이미지를 인코딩하기 위한 다른 예시적인 프레임워크를 예시한다.
도 6은 현재 블록의 예시적인 인과적인 영역(causal area)들을 예시하는 도면 예이다.
도 7은 예시적인 HEVC 인코더를 예시하는 도면 예이다.
도 8은, 본 원리들의 실시예에 따라, 비디오 인코더에서 양자화 파라미터를 조정하기 위한 예시적인 방법을 예시한다.
도 9는 예시적인 HEVC 디코더를 예시하는 도면 예이다.
도 10은, 본 원리들의 실시예에 따라, 비디오 디코더에서 양자화 파라미터를 조정하기 위한 예시적인 방법을 예시한다.
도 11은 본 원리들의 예시적인 실시예들의 다양한 양태들이 구현될 수 있는 예시적인 시스템을 도시하는 블록도를 예시한다.
도 12는 하나 이상의 구현에서 사용될 수 있는 비디오 프로세싱 시스템의 예를 도시하는 블록도를 예시한다.
도 13은 하나 이상의 구현에서 사용될 수 있는 비디오 프로세싱 시스템의 다른 예를 도시하는 블록도를 예시한다.

본 원리들은 비디오 인코딩 및 디코딩을 위한 HVS 특성들에 기초한 양자화 조정에 관한 것이다. 양자화는 비디오들을 표현함에 있어서 상이한 스테이지들에서 사용될 수 있다는 것에 유의하도록 한다. 도 1에 도시된 예를 다시 참조하면, 양자화는 비트-깊이를 감소시키기 위해 순방향 변환에서 사용되고, 또한 변환 계수들을 양자화하기 위해 비디오 인코더에서도 사용된다. 유사하게, 역양자화는 비트-깊이를 증가시키기 위해 역방향 변환에서, 또한 변환 계수들을 역양자화하기 위해 비디오 디코더에서 사용된다.

인간의 눈들은 비디오들의 매우 밝은 영역들 주변의 어두운 영역들에는 덜 민감해질 수 있으므로(글레어 마스킹 또는 휘도 마스킹으로 알려짐), 이러한 어두운 영역들에서 더 거친 양자화를 사용할 수 있다(즉, 더 적은 디테일을 유지하거나 또는 더 자세한 디테일을 제거함). 일 실시예에서는, 순방향 변환에서 추가적인 양자화 프로세스를 사용할 수도 있고, 순방향 변환 내의 비트-깊이 양자화를 조정할 수도 있다. 다른 실시예에서는, 비디오 인코더 및 디코더에서 사용되는 양자화 파라미터들을 조정한다.

글레어 마스킹은 HDR 비디오들에서 보다 일반적이며, 예를 들어, SDR 또는 LDR(Low Dynamic Range) 비디오가 백라이트가 강하고 콘트라스트가 높은 TV 세트에 의해 디스플레이되면, SDR 비디오들에서도 보일 수 있다. SDR 비디오들을 압축하기 위해, 도 1에 도시된 것과 유사한 프레임워크가 순방향 변환 및 역방향 변환에 수정들을 가하여 사용될 수 있다. 순방향 변환 모듈(110)은 예를 들어, SMPTE BT709에 설명된 바와 같은 감마 전달 함수를 사용한 입력 SDR 선형 신호들로부터 비선형 신호들로의 변환, 색 공간 변환, 비트-깊이 감소/양자화 및 크로마 하향-변환을 포함할 수 있다. 디코딩된 신호를 SDR 비디오 신호들로 변환하는 역방향 변환 모듈(140)은 색 공간 변환, 비트-깊이 역양자화, 크로마 상향-변환, 및 예를 들어, 역 감마 전달 함수를 사용한 비선형 신호들로부터 SDR 선형 신호들로의 변환을 포함할 수 있다. 대부분의 경우, 역 감마 프로세싱 전의 신호가 디스플레이에 전송될 수 있다는 것에 유의하도록 한다. 이하에서는, HDR 신호들을 사용하는 예시적인 실시예들을 논의할 수 있지만, 본 원리들은 또한 SDR 신호들에도 적용될 수 있다.

도 2a는 예시적인 HDR 이미지를 도시하고, 도 2b는 예시적인 HDR 이미지에서의 글레어 마스킹 효과를 도시한다. 도 2b에서, 검은 영역들은 마스킹이 낮은 영역들을 나타내고, 즉, 인간의 눈들은 이 영역에서의 왜곡에 보다 민감하며, 하얀 영역들은 마스킹이 높은 영역들을 나타낸다. 도 2b로부터, 밝은 창문들이 어두운 주변 영역들 상에 강한 마스킹을 유도하고, 창문까지의 거리가 증가함에 따라, 마스킹 효과가 약화된다는 것을 볼 수 있다.

글레어 마스킹 효과를 측정하기 위해 JND(Just Noticeable Difference)를 사용할 수 있다. JND는, 인간 관찰자에 의해 지각될 수 없기 때문에 이미지 또는 비디오에서 허용될 수 있는 왜곡의 레벨을 나타낸다. 감각과 지각에 초점을 맞춘 실험 심리학(정신 물리학)의 분야에서, JND는 적어도 절반 가까운 시간 동안에 차이가 눈에 띄고 감지될 수 있게 하기 위해 변화되어야 하는 어떤 양이다. 이것은 변별역(difference limen), 차등 임계치(differential threshold) 또는 최소 지각 차이(least perceptible difference)로도 알려져 있다. JND는 주관적이며, 많은 JND 모델들을 사용할 수 있다. 본 출원과 관련하여, 이하에서 더 상세히 설명되는 바와 같이, 2개의 상이한 JND, 즉, JND_L 및 JND_G가 정의된다. 보다 일반적으로, JND 측정 대신에, 다른 왜곡 또는 품질 메트릭, 예를 들어, 이웃 정보를 고려한 것이 사용될 수 있다.

JND _L

JND_L은 글레어 마스킹을 고려하지 않은 하나의 픽셀의 JND에 대응한다. JND_L은 현재 픽셀의 휘도에만 의존한다. 실제로, JND_L은, 인간의 눈이 글레어 마스킹을 고려하지 않고 현재 픽셀에서의 변화를 확인할 수 있도록 이미지의 현재 픽셀에 존재해야 하는 휘도의 변화를 설명한다.

JND_L은 실험적으로 결정될 수 있다. 예를 들어, 주어진 휘도 L에 대해, 인간 관찰자가 변화를 알 수 있는 휘도의 최소 델타를 나타내는 값 dL을 찾을 수 있다. 이러한 값들은 통상적으로 L과 dL 사이의 매핑 테이블로서 주어진다.

다른 실시예에서, JND_L은 HDR 신호들에 대해서는 PQ OETF 커브, 또는 SDR 신호들에 대해서는 BT709에서 정의된 OETF 및 타겟 피크 휘도로부터 결정될 수 있다. OETF 커브는 전달 함수 TF()를 사용하여 선형 신호(L)를 비선형 신호(Y)로 매핑하는 것을 목표로 한다.

HDR 신호의 경우, 전달 함수, 예를 들어, PQ 커브는

과 같이 설계될 수 있다(즉, 선형 신호(L)에서의 0.9*JND의 스텝(step)이 비선형 신호(Y)에 대한 1의 스텝 이하이다). 따라서, TF 커브로부터 JND_L을 다음과 같이 추론할 수 있다.

본 출원에서는, 선형 신호(L)가 배치되는 공간을 선형 공간으로 칭하고, 비선형 신호(Y)가 배치되는 공간을 지각 공간(perceptual space)으로 칭한다. 선형 공간에서는, 픽셀의 휘도 값이 실제 휘도에 정비례한다(예를 들어, nit 또는 제곱미터 당 칸델라(cd/m2)로 표현됨). 지각 공간에서는, 픽셀의 휘도가 인간 시각 시스템에 대해 선형이 되도록 하는 것이 목표이며, 즉, 픽셀 휘도(L)에 관계없이, 이 공간에서의 휘도(dL)의 동일한 양의 차이가 인간 눈들에 대한 휘도의 동일한 양의 차이로서 지각되어야 한다. 지각 공간은 실험적으로 정의되고, 주관적이다. 본 기술 분야의 통상의 기술자에게 공지된 바와 같이, 몇몇 지각 공간들이 사용 가능하다.

JND _G

JND_G는, 밝은 이웃 픽셀들로 인해, 글레어 마스킹을 고려한 하나의 픽셀의 JND에 대응한다. 이 상황에서 JND_G는 현재 픽셀의 휘도와 이웃 픽셀들의 휘도에 따라 달라진다. 실제로, 이것은, 인간의 눈이 글레어 마스킹의 효과들을 고려하여 현재 픽셀에서의 휘도의 차이를 인지할 수 있도록 현재 픽셀에 존재해야 하는 휘도의 최소 변화를 설명한다.

JND_G는 실험적으로 결정될 수 있는데, 예를 들어, 휘도, 밝은 지점 및 현재 픽셀까지의 거리가 주어지면, 매핑 테이블이 획득될 수 있다. 그런 다음, 매핑에 가장 잘 맞는 분석 함수를 획득하기 위해 모델링이 사용될 수 있다.

다른 실시예에서, JND_L 및 글레어 마스킹 효과를 고려하는 글레어 팩터(Gf)를 계산한다. 수학적으로, 밝은 영역들로부터 어두운 영역들로의 마스킹 효과에 기초한 JND_G의 계산은 다음과 같이 설명될 수 있다.

정의에 의해, Gf 팩터는 1보다 크다(즉, 픽셀은 JND_L보다 작은 JND_G를 가질 수 없다). Gf 팩터는 현재 픽셀의 휘도, 주변 픽셀들의 휘도, 및 현재 픽셀에 대한 주변 픽셀들의 포지션(거리)에 따라 달라진다.

이하에서는, 휘도 값들이 선형 공간에서 표현된다(예를 들어, nit 또는 cd/m2). 비디오 입력이 (예를 들어, OETF 함수 이후에) 지각 공간에서 표현되는 경우에는, 선형 휘도 값을 획득하기 위해, 픽셀의 강도 값에 역 함수가 적용될 수 있다.

글레어 팩터의 모델링은 글레어 마스킹을 고려하는 데 사용되는 HVS 모델에 따라 복잡할 수 있다. 여기서는, 주관적인 시각 심리 테스트(psycho-visual test)들 동안에 획득된 결과들의 모델링에 기초하여, 글레어 팩터를 모델링할 수 있는 다루기 쉽고 간단한 방법을 소개한다. 구체적으로, 픽셀 p₂에 의해 영향을 받는 픽셀 p₁의 글레어 팩터가 다음과 같이 계산될 수 있으며(L(p₂)>L(p₁)임),

여기서, L(p)는 픽셀 p의 휘도이고, d(p₁,p₂)는 픽셀 p₁과 p₂ 사이의 유클리드 거리이며, [a₀...a₃]은 주관적인 테스트들을 통해 경험적으로 결정되는 상수들이다. [a_o...a₃]에 대한 값들의 통상적인 세트는, 예를 들어, SMPTE 2084 OETF가 사용될 때, [6.75, 0.352, -3.74e-008, 3.360e-005]일 수 있다. 다른 OETF가 사용되는 경우, 예를 들어, SMPTE BT709에서 정의된 감마 전달 함수가 SDR 신호들에 사용되면, 값들은 적응될 수 있다.

상기 글레어 팩터 모델에 따르면, 글레어 마스킹 효과의 지각과 일치하여, 글레어 팩터는, a₂가 음수이기 때문에 거리에 따라 감소하고, 픽셀 p₂가 더 밝을 때 증가하고, p₁이 더 어두울 때 증가한다.

계산 복잡도를 줄이기 위해, 픽셀들에 대한 상기 계산이 단순화될 수 있다. 예를 들어, "어두운" 픽셀들, 즉, 어둡기가 임계치(통상적으로, 100nit) 아래인 픽셀들에 대해서만 글레어 팩터들을 계산할 수 있고, "밝은" 픽셀들, 즉, 밝기가 임계치(통상적으로, 1000nit)보다 큰 픽셀들에 대해서는 마스킹에 대한 기여도만을 계산할 수 있다. 계산이 스킵되는 픽셀들에 대해서는, Gf를 1로 설정한다(즉, JND_G=JND_L).

상기에서는, 입력 이미지의 개별 픽셀들에 대한 글레어 팩터를 계산하는 방법을 예시한다. 우리는 마스킹을 (특정 임계치까지) 가산적 현상으로 간주한다. 따라서, 주어진 픽셀에 대한 전체 글레어 팩터를 계산하기 위해, 모든 다른 픽셀들의 기여도가 다음에 따라 집계될 수 있으며,

여기서, P_i는 픽셀 p의 이웃들을 나타내고, M은 마스킹이 포화되는 경험적인 임계치이며, 일례에서는, M=20으로 설정한다. 프로세싱 시간의 제약 조건들이 없으면, 전체 이미지가 픽셀 p의 이웃들로서 간주될 수 있다. 계산을 줄이기 위해, 더 작은 세트의 픽셀들, 예를 들어, 밝기가 임계치보다 크고 충분히 근접한 픽셀들을 픽셀 p의 이웃들로서 간주할 수 있으며, 예를 들어, 수학식 (3)으로부터, 즉,

이 1보다 작을 때, 밝은 픽셀이 Gf 팩터에 더이상 기여하지 않을 거리의 임계치를 추론할 수 있다.

도 3은, 본 원리들의 실시예에 따라, 글레어 마스킹 효과에 기초하여 양자화 비율을 계산하기 위한 예시적인 방법(300)을 예시한다.

방법(300)은 입력으로서 선형 공간의 원본 비디오(예를 들어, SMPTE 2065-4:2013에 의해 정의된 바와 같은 OpenEXR 파일 포맷 사용)에 액세스한다. 원본 이미지는, 예를 들어, 4000nit를 피크 휘도로서 갖는 프라이머리들에 대해 BT2020 포맷을 사용하여 부동 소수점들로 표현되는 RGB 선형 포맷일 수 있다. 원본 이미지로부터, 글레어 마스킹을 고려하기 위해 휘도 값(L)이 계산될 수 있다(310). 예를 들어, 입력 RGB(선형 공간, 부동 값들(nit)) 이미지 I_rgb가 다음과 같이 RGB BT2020 색 공간으로부터 XYZ 색 공간으로 변환될 수 있다.

그 후, 개별 픽셀들에 대해, 예를 들어, 수학식 (3)을 사용하여, JND_G를 계산할 수 있다(320). 구체적으로, 수학식 (2)를 사용하여 L로부터 JND_L을 계산하고, 수학식 (4) 및 수학식 (5)를 사용하여 L로부터 글레어 팩터를 계산한 후, 수학식 (3)을 사용하여 JND_L 및 글레어 팩터로부터 JND_G를계산할 수 있다. 비디오 신호가 다른 포맷들로 표현되면, 예를 들어, SMPTE BT709에서 정의된 것을 사용하여 색 공간 변환이 적응될 수 있다.

인코딩 전에 입력 비디오를 지각 공간으로 변환하는 데 사용되는 전달 함수를 알면, 양자화 비율이 다음과 같이 픽셀에 대해 계산될 수 있다(330).

원래, OETF는 선형 공간에서의 JND의 스텝이 지각 공간에서의 1의 스텝 이상이 되도록 설계되었다. 여기서, 글레어 마스킹 효과를 고려할 때, 임의의 눈에 띄는 차이가 없는 픽셀을 얼마나 더 많이 양자화할 수 있는지를 계산한다. 특히, L값보다 JND_G만큼 위의 값(TF(L(p)+JND_G(p)) 및 L값보다 JND_G만큼 아래의 값(TF(L(p)-JND_G(p))을 취한다. 그 후, TF(L(p)+JND_G(p)) 및 TF(L(p)-JND_G(p))를 획득하기 위해 TF를 사용하여, 두 값을 지각 공간으로 전달한다. 지각 공간에서 허용될 수 있는 왜곡을 표현하기 위해 지각 공간에서의 두 값 사이의 차이가 평균화된다. 이어서, 양자화가 평균화된 차이

에 기초하여 스케일업(scale up))될 수 있다는 것을 고려한다. 즉, 평균화된 차이가 순방향 변환에서 또는 인코딩 동안에 양자화 파라미터를 조정하기 위한 양자화 비율로서 사용될 수 있다.

양자화 비율을 계산하는 다른 변형들은 다음과 같을 수 있다.

또는

JND_G가 JND_L과 동일한 경우, OETF 함수는 JND_L 아래에 있도록 설계되었으므로, 결과적인 Qr은 1과 같아야 한다. 글레어 마스킹에 의해 영향을 받는 픽셀들은 1보다 큰 글레어 팩터와 연관되며, 결과적인 결과 Qr도 1보다 크다.

도 4는, 본 원리들의 실시예에 따라, 글레어 마스킹 효과를 고려하여 HDR 이미지를 인코딩하기 위한 예시적인 방법(400)을 예시한다. 이 실시예에서, 글레어 마스킹 효과는 양자화 스텝 사이즈를 조정하는 데 사용된다. 구체적으로, 개별 픽셀들에 대한 양자화 비율들이 예를 들어, 방법(300)을 사용하여 계산될 수 있다(450). 입력 HDR 신호들은 순방향 변환(410)을 사용하여 비디오 인코더에 의해 수용될 수 있는 신호들로 변환된다. 인코딩(420) 동안에, 양자화 스텝 사이즈가 양자화 비율에 기초하여 조정된다. 비디오 인코딩은 대개 블록 단위로 진행되므로, 개별 픽셀들에 대해 계산된 양자화 비율들을 사용하여 블록에 대한 양자화 비율을 추가로 계산한다. 여기서, 블록의 사이즈는 양자화 비율을 적용하는 방법에 따라 달라진다. 예를 들어, 블록은 H.264/AVC의 하나 이상의 매크로 블록 또는 HEVC의 하나 이상의 변환 유닛(transform unit)(TU)에 대응할 수 있다.

일 실시예에서, 블록에 대한 양자화 비율은 블록 내의 픽셀들의 양자화 비율들의 최대 함수(max function)를 사용하여 계산될 수 있다. 즉, 블록 내의 픽셀들에 대한 최대 양자화 비율이 블록에 대한 양자화 비율로서 사용된다. 이 접근법은 시각 품질의 비용으로 압축 성능을 향상시킬 수 있다.

다른 실시예에서, 블록에 대한 양자화 비율은 최소 함수(minimum function)를 사용하여 계산될 수 있으며, 이는 블록의 시각 품질을 더 잘 보존할 수 있다. 또 다른 실시예에서는, 양자화 비율들의 중앙값 또는 평균이 블록에 대한 양자화 비율로서 사용될 수 있으며, 이는 압축 효율과 시각 품질 사이의 균형을 제공할 수 있다.

주어진 블록에 대해 글레어 마스킹을 고려하지 않고 인코더가 선택하는 원래의 양자화 스텝 사이즈가 Q₁이라고 가정하면, 제안된 양자화 조정을 갖는 양자화 스텝 사이즈는 다음과 같이 계산될 수 있으며,

여기서, Q_max는 양자화 스텝 사이즈의 상한이다. 개념적으로, 양자화 스텝 사이즈 Q₂가 주어지면, 변환 계수 T는

로서 양자화될 수 있으며, 여기서 0는 양자화 반올림 오프셋(quantization rounding offset)이다. 양자화 매트릭스와 같은 다른 양자화 파라미터들이 또한 양자화 동안에 사용될 수 있다.

코덱에 따라, Q₂의 값이 추가로 적응될 수 있다. 상이한 코덱들은 블록에 대해 설정될 수 있는 양자화 스텝 사이즈에 대해 상이한 제약 조건들을 갖는다. 예를 들어, VP9에서는, 제한된 수의 상이한 양자화 스텝 사이즈(Qp)들이 사용 가능하다. 이 경우, Qp 클러스터링의 추가 프로세스가 수행될 수 있다. HEVC에서는, 델타 Qp가 대신 인코딩되어, Q₂의 가능한 값을 제한한다.

양자화는 인코더 내에서 별도의 단계로서 독립적으로 수행될 수 없다는 것에 유의하도록 한다. 예를 들어, 양자화는 변환과 통합될 수 있다. 또한, 양자화 변동들의 범위를 제한하거나 또는 정수 구현들을 사용하기 위해 양자화 파라미터의 값에 다른 제약 조건들이 있을 수 있다. 따라서, 양자화 스텝 사이즈는 양자화에 사용되기 전에 프로세싱될 수 있다. 또한, 양자화 파라미터가 인코딩될 때, 이들은 인코딩되기 전에 양자화 인덱스에 매핑될 수 있다. 표기의 용이함을 위해, 양자화 스텝 사이즈에 대응하는 상이한 표현들을 양자화 스텝 사이즈로 지칭한다.

방법(400)에서의 양자화 비율 조정은 비디오 인코딩을 개선하기 위한 전처리 단계로 보일 수도 있다. 디코딩 측에서는, 비트스트림이 디코딩되고(430), 역방향 변환(440)을 통해 HDR 신호들로 변환된다.

도 5는, 본 원리들의 실시예에 따라, 글레어 마스킹 효과를 고려하여 HDR 이미지를 인코딩하기 위한 다른 예시적인 방법(500)을 예시한다. 이 실시예에서는, 글레어 마스킹 효과가 양자화 스텝 사이즈를 조정하는 데 사용되어, 양자화 비율의 송신을 필요로 하지 않게 되는데, 즉, 글레어 마스킹에 기초한 양자화 비율이 디코더 상에서 추론될 수 있다. 양자화 조정은 인코더 및 디코더 모두에서 수행되며, 양자화 비율을 도출하는 프로세스는 인코더 및 디코더에서 동일하다.

도 6은 현재 블록(610)의 예시적인 인과적인 영역(이미 인코딩 또는 디코딩된 영역이며, 픽셀들이 사용 가능함)을 예시한다. 이 예에서의 인과적인 영역은 현재 블록의 좌측 및 상부의 블록들을 포함한다.

인과적인 영역 내의 재구성된 픽셀들만이 디코더 측에서 사용 가능하기 때문에, 글레어 팩터의 계산을 조정하도록 한다. 따라서, 픽셀 또는 블록에 대한 이웃을 결정할 때, 인과적인 영역만이 고려될 것이다. 이전에 논의된 바와 같이, 이웃들은 또한 임계치보다 높은 밝기를 갖는 픽셀들 및 소정 거리 내의 픽셀들로 제한될 수 있다.

다시 도 5를 참조하면, 입력 HDR 신호들이 순방향 변환(510)을 사용하여 변환된 후, 비디오 인코더(520)는 변환된 신호들을 글레어 마스킹에 기초한 양자화 조정(550)을 사용하여 인코딩한다. 디코더 측에서, 비디오 디코더(530)는 글레어 마스킹에 기초한 양자화 조정(560)을 사용하여 비트스트림을 디코딩한다. 디코딩된 신호들은 역방향 변환(540)을 사용하여 HDR 신호들을 출력하도록 변환된다.

다음에서는, HEVC 인코더/디코더를 사용하여 비디오 인코더 및 디코더에서 적용되는 양자화 조정을 예시한다. 제안된 양자화 조정은 다른 비디오 압축 표준들과 함께 사용될 수 있다는 것에 유의하도록 한다.

도 7은 본 원리들이 적용될 수 있는 예시적인 HEVC 인코더(700)를 예시한다. 인코더(700)의 입력은 인코딩될 비디오를 포함한다. 예시적인 인코더(700)에서, 블록이 인트라 모드로 인코딩될 때, 이것은 인트라 예측(770)을 수행한다. 인터 모드에서, 블록은 모션 추정(760) 및 모션 보상(765)을 수행한다. 인코더는 블록을 인코딩하기 위해 인트라 모드 또는 인터 모드 중 어느 것을 사용할지를 결정하고(775), 예측된 블록을 원본 이미지 블록으로부터 감산함으로써(705) 예측 잔차들(prediction residuals)이 계산된다.

예측 잔차들은 변환되고(710), 양자화된다(720). 양자화된 변환 계수들뿐만 아니라, 모션 벡터들 및 다른 신택스(syntax) 엘리먼트들이 비트스트림을 생성하기 위해 엔트로피 코딩된다(730). 인코더는 향후 예측들에 대한 참조를 제공하기 위해 인코딩된 블록을 디코딩한다. 양자화된 변환 계수들은 예측 잔차들을 디코딩하기 위해 역양자화되고(740), 역변환된다(750). 디코딩된 예측 잔차들과 예측된 블록을 결합함으로써(755), 이미지 블록이 재구성된다. 디블록킹 필터(780) 및 SAO(Sample Adaptive Offset) 필터(785)가 재구성된 블록에 적용된다. 필터링된 이미지는 레퍼런스 메모리(790)에 저장된다.

도 8은, 본 원리들의 실시예에 따라, 비디오 인코더에서 양자화 파라미터를 조정하기 위한 예시적인 방법(800)을 예시한다. 방법(800)은 인코더(700)의 양자화 모듈(720)에서 사용될 수 있다. 이 실시예에서는, DC 계수 및 AC 계수들이 2개의 스테이지에서 양자화되는 것으로 가정하며, 여기서 DC 계수는 글레어 마스킹을 고려하지 않고 양자화 스텝 사이즈 Qp=Q₁을 사용하여 양자화된다. Q₁은 비트레이트 제약 조건을 충족시키기 위해 레이트 제어 알리고리즘에 의해 결정될 수 있고, 블록마다 및 화상마다 상이할 수 있다. 그 후, DC 계수는 휘도를 추정하고 현재 블록에 대한 글레어 팩터를 추정하기 위해 사용된다. 이어서, AC 계수들이 조정된 양자화 스텝 사이즈 Q₂에 기초하여 양자화된다.

방법(800)에 대한 입력은 원본 블록(B) 및 대응하는 예측된 블록(P)을 포함한다. 예측된 블록은, 예를 들어, 인트라 예측 또는 모션 보상으로부터 올 수 있다. 현재 블록의 잔차는 R=B-P와 같이 형성될 수 있다(810). 잔차 블록은 T=DCT(R)로서 변환된다(820).

DC 계수는 글레어 마스킹을 고려하지 않고 양자화 스텝 사이즈 Q₁을 사용하여 C(DC)=D(DC,Q₁)와 같이 양자화되며(830), 여기서 DC는 DC 계수이고, D(.)는 양자화를 나타내고, C는 양자화된 변환 계수이다. 양자화된 변환 계수는 그 후 다음과 같이 역양자화되며(840),

여기서

는 재구성된 DC 계수이다. 그 후, 예측된 블록의 평균(850) 및 재구성된 DC 계수를 사용하여 블록의 강도를 다음에 따라 추정하며,

여기서, P(i)는 예측된 블록으로부터의 각각의 픽셀의 강도이고, N은 블록 내의 픽셀들의 수이고, A는 블록의 추정된 평균 휘도이다.

추정된 휘도 값 A는 전체 블록에 대한 현재 값으로서 사용되며, 현재 블록에 대한 이미지의 인과적인 부분만을 사용하여, 글레어 팩터가 계산된다. 이 때, 인과적인 부분으로부터 재구성된 픽셀들의 휘도 값이 사용될 수 있다.

글레어 팩터는 선형 공간에서의 휘도를 사용하여 계산될 수 있기 때문에, 블록에 대한 추정된 휘도 및 이웃하는 인과적인 블록들의 휘도는 역 OETF(860, L=OETF^-1(A))를 사용하여 선형 공간으로 다시 변환될 수 있다. 그 후, 현재 블록에 대한 추정된 휘도 값(L) 및 인과적인 블록들에 대한 추정된 휘도 값({L_i})에 기초하여, 양자화 비율(Qr)이 추정될 수 있다(870). 특히, 블록에 대한 글레어 팩터는 다음과 같이 계산될 수 있으며,

여기서, {Bi}는 이웃하는 블록들이고, Gf(B,Bi)는 블록 B와 Bi 사이의 글레어 팩터이다. 글레어 팩터 계산은, 블록들 사이의 거리를 계산하기 위해 블록 중심들을 사용하고, 픽셀의 휘도 대신에 블록의 평균 휘도를 사용하는 것을 제외하고는, 픽셀들 사이에서의 것과 유사하다.

양자화 비율 및 양자화 스텝 사이즈 Qp=Q₁을 사용하여, AC 계수들에 대한 양자화 스텝 사이즈 Q₂가 Q₂=Qr*Q₁로서 계산될 수 있다(875). 이어서, AC 계수들은 양자화된다(880). 양자화 스텝 사이즈 Qp, 양자화된 DC 계수(DC_q) 및 AC 계수들(AC_q)은 그 후 엔트로피 인코딩되어(890), 비트스트림에 포함될 수 있다. 양자화 비율(Qr)은 비트스트림에서 송신되지 않으며, 오히려 디코더에서 도출된다는 것에 유의하도록 한다.

도 9는 본 원리들이 적용될 수 있는 예시적인 HEVC 비디오 디코더(900)의 블록도를 도시한다. 디코더(900)의 입력은 비디오 인코더(700)에 의해 생성될 수 있는 비디오 비트스트림을 포함한다. 비트스트림은 변환 계수들, 모션 벡터들 및 다른 코딩된 정보를 획득하기 위해 먼저 엔트로피 디코딩된다(945). 변환 계수들은 예측 잔차들을 디코딩하기 위해 역양자화(950) 및 역변환(955)된다. 디코딩된 예측 잔차들과 예측된 블록을 결합하여(925), 이미지 블록이 재구성된다. 예측된 블록은 인트라 예측(960) 또는 모션-보상된 예측(970)으로부터 획득될 수 있다. 디블록킹 필터(990) 및 SAO 필터(995)가 재구성된 블록 또는 재구성된 이미지에 적용된다. 필터링된 이미지는 레퍼런스 메모리(980)에 저장된다.

도 10은, 본 원리들의 실시예에 따라, 디코더에서 양자화 파라미터를 조정하기 위한 예시적인 방법(1000)을 예시한다. 방법(1000)은 디코더(900)의 역양자화 모듈(950)에서 사용될 수 있다. 방법(800)과 유사하게, DC 계수 및 AC 계수들은 2개의 스테이지에서 역양자화되며, 여기서 DC 계수는 비트스트림으로부터 디코딩된 양자화 스텝 사이즈 Qp=Q₁을 사용하여 역양자화된다. 그 후, DC 계수는 휘도를 추정하고 현재 블록에 대한 글레어 팩터를 추정하기 위해 사용된다. 이어서, AC 계수들은 조정된 양자화 스텝 사이즈 Q₂에 기초하여 역양자화된다.

예측된 블록(P)은, 예를 들어, 인트라 예측 또는 모션 보상으로부터 올 수 있다. DC 계수(DC_q), AC 계수들(AC_q) 및 블록에 대한 양자화 스텝 사이즈(Qp=Q₁)가 엔트로피 디코더(1010)로부터 획득될 수 있다. DC 계수는 다음과 같이 양자화 스텝 사이즈 Q₁을 사용하여 역양자화되며(1040),

여기서,

는 재구성된 DC 계수이다. 그 후, 예측된 블록의 평균(1050) 및 디코딩된 DC 계수를 사용하여 다음에 따라 블록의 강도를 추정하며,

추정된 휘도 값 A는 전체 블록에 대한 현재 값으로서 사용되고, 현재 블록에 대한 이미지의 인과적인 블록만을 사용하여, 글레어 팩터가 계산된다. 이 때, 인과적인 부분으로부터의 디코딩된 픽셀들의 휘도 값이 사용될 수 있다.

글레어 팩터는 선형 공간에서의 휘도를 사용하여 계산될 수 있기 때문에, 블록에 대한 추정된 휘도 및 이웃하는 인과적인 블록들의 휘도는 역 OETF(1060, L=OETF^-1(A))를 사용하여 선형 공간으로 다시 변환될 수 있다. 그 후, 현재 블록(L)에 대한 추정된 휘도 값 및 인과적인 블록들에 대한 추정된 휘도 값({L_i})에 기초하여, 양자화 비율(Qr)이 추정될 수 있다(1070).

양자화 비율 및 양자화 스텝 사이즈 Qp=Q₁을 사용하여, AC 계수들에 대한 양자화 스텝 사이즈 Q₂가 Q₂=Qr*Q₁로서 계산될 수 있다(1075). 이어서, AC 계수들이 역양자화된다(1080). 그 후, 역양자화된 DC 계수 및 AC 계수들은 역변환될 수 있다(1090). 양자화 비율(Qr)은 비트스트림에서 수신되지 않으며, 오히려 디코더에서 도출된다는 것에 유의하도록 한다.

인코더와 디코더에서 수행되는 양자화 비율의 계산은 서로 대응해야 한다는 것에 유의하도록 한다. 예를 들어, 방법(1000)에서 수행되는 1040-1075의 단계들은 각각 방법(800)의 840-875의 단계들에 대응한다.

적응형 양자화 비율들의 송신을 피하기 위해 디코더 측에서 적응형 양자화가 추론될 수 있기 때문에, 본 실시예들은 비디오 코딩 효율을 향상시킬 수 있다. 각각의 블록의 적응형 양자화는 또한 마스킹 효과를 고려하며, 또한 시각 품질을 향상시킬 수 있다.

상기에서, 우리는 양자화 스텝 사이즈가 글레어 마스킹 효과를 고려하여 조정될 수 있다는 것을 논의하였다. 양자화 반올림 오프셋 및 양자화 매트릭스와 같은 다른 양자화 파라미터들이 또한 본 원리들에 따라 조정될 수 있다. 예를 들어, 양자화 비율을 사용하여 양자화 매트릭스가 스케일링될 수도 있고, 또는 양자화 비율에 기초하여 양자화 반올림 오프셋이 시프트 또는 스케일링될 수도 있다.

양자화 파라미터들을 조정할 때 글레어 마스킹 효과가 논의되었지만, 본 원리들은 예를 들어, 색 지각 또는 텍스처 지각(이에 제한되지 않음)에서 블록 또는 영역의 지각이 주변 영역들 또는 블록들에 의해 영향을 받는 다른 시나리오들에도 적용될 수 있다는 것에 유의하도록 한다.

글레어 마스킹은 HDR 비디오들에서 보다 분명하기 때문에, 우리는 HDR 비디오들의 맥락에서 예들을 나타내었다. 그러나, 현재의 디스플레이들은 매우 높은 콘트라스트 비율을 가질 수 있고, HDR 비디오들과 유사한 문제점들을 나타낼 수 있다. 따라서, 글레어 마스킹 효과는 SDR 비디오들에서도 고려될 수 있으며, SDR 비디오들을 인코딩 및 디코딩할 때, 본 원리들이 적용될 수 있다. 특히, 글레어 마스킹이 디스플레이에 의해, 예를 들어, 디스플레이의 높은 콘트라스트 비율에 의해 야기되는 경우, 양자화 조정을 설계할 때, 디스플레이 특성들을 고려할 필요가 있을 수도 있다.

도 11은 본 원리들의 예시적인 실시예들의 다양한 양태들이 구현될수 있는 예시적인 시스템의 블록도를 예시한다. 시스템(1100)은 이하에 설명되는 다양한 컴포넌트들을 포함하는 디바이스로서 구현될 수 있으며, 위에서 설명된 프로세스들을 수행하도록 구성된다. 이러한 디바이스들의 예들로는 퍼스널 컴퓨터들, 랩톱 컴퓨터들, 스마트폰들, 태블릿 컴퓨터들, 디지털 멀티미디어 셋톱 박스들, 디지털 텔레비전 수신기들, 퍼스널 비디오 레코딩 시스템들, 연결된 가전 제품들 및 서버들이 있지만, 이에 제한되지 않는다. 시스템(1100)은 위에서 설명된 예시적인 비디오 시스템을 구현하기 위해 도 11에 도시된 바와 같이 또한 본 기술분야의 통상의 기술자에 의해 공지된 바와 같이 통신 채널을 통해 다른 유사한 시스템들 및 디스플레이에 통신 가능하게 연결될 수 있다.

시스템(1100)은 위에서 논의된 바와 같은 다양한 프로세스들을 구현하기 위해 그 안에 로딩되는 명령어들을 실행하도록 구성되는 적어도 하나의 프로세서(1110)를 포함할 수 있다. 프로세서(1110)는 본 기술분야에 공지된 바와 같이 내장 메모리, 입/출력 인터페이스 및 다양한 다른 회로들을 포함할 수 있다. 시스템(1100)은 또한 적어도 하나의 메모리(1120)(예를 들어, 휘발성 메모리 디바이스, 비휘발성 메모리 디바이스)를 포함할 수 있다. 시스템(1100)은 스토리지 디바이스(1140)를 추가로 포함할 수 있으며, 스토리지 디바이스(1140)는 EEPROM, ROM, PROM, RAM, DRAM, SRAM, 플래시, 자기 디스크 드라이브 및/또는 광 디스크 드라이브를 포함하되, 이에 제한되지 않는 비휘발성 메모리를 포함할 수 있다. 스토리지 디바이스(1140)는, 비제한적인 예들로서, 내부 스토리지 디바이스, 부착된 스토리지 디바이스 및/또는 네트워크 액세스 가능한 스토리지 디바이스를 포함할 수 있다. 시스템(1100)은 또한 인코딩된 비디오 또는 디코딩된 비디오를 제공하기 위해 데이터를 프로세싱하도록 구성되는 인코더/디코더 모듈(1130)을 포함할 수 있다.

인코더/디코더 모듈(1130)은 인코딩 기능 및/또는 디코딩 기능을 수행하기 위해 디바이스에 포함될 수 있는 모듈(들)을 나타낸다. 공지된 바와 같이, 디바이스는 인코딩 모듈 및 디코딩 모듈 중 하나 또는 둘 다를 포함할 수 있다. 또한, 인코더/디코더 모듈(1130)은 시스템(1100)의 별개의 엘리먼트로서 구현될 수도 있고, 본 기술분야의 통상의 기술자에게 공지된 바와 같이, 하드웨어와 소프트웨어의 결합으로서 프로세서들(1110) 내에 통합될 수도 있다.

위에서 설명된 다양한 프로세스들을 수행하기 위해 프로세서들(1110) 상에 로딩되는 프로그램 코드는 스토리지 디바이스(1140)에 저장되고, 이어서 프로세서들(1110)에 의한 실행을 위해 메모리(1120) 상에 로딩될 수 있다. 본 원리들의 예시적인 실시예들에 따르면, 프로세서(들)(1110), 메모리(1120), 스토리지 디바이스(1140) 및 인코더/디코더 모듈(1130) 중 하나 이상은, 위에서 논의된 프로세스들의 수행 동안에, HDR 비디오, 비트스트림, 수학식들, 공식, 매트릭스들, 변수들, 연산들 및 연산 로직을 포함하되, 이에 제한되지 않는 다양한 항목들 중 하나 이상을 저장할 수 있다.

시스템(1100)은 또한 통신 채널(1160)을 통해 다른 디바이스들과 통신할 수 있게 하는 통신 인터페이스(1150)를 포함할 수 있다. 통신 인터페이스(1150)는 통신 채널(1160)로부터 데이터를 송신 및 수신하도록 구성되는 트랜시버를 포함할 수 있지만, 이제 제한되지 않는다. 통신 인터페이스는 모뎀 또는 네트워크 카드를 포함할 수 있지만, 이에 제한되지 않으며, 통신 채널은 유선 및/또는 무선 매체 내에서 구현될 수 있다. 시스템(1100)의 다양한 컴포넌트들은, 내부 버스들, 와이어들 및 인쇄 회로 보드들을 포함하되, 이에 제한되지 않는 다양한 적절한 접속부들을 사용하여 함께 접속되거나 통신 가능하게 연결될 수 있다.

본 원리들에 따른 예시적인 실시예들은 프로세서(1110)에 의해 또는 하드웨어에 의해 구현되는 컴퓨터 소프트웨어에 의해, 또는 하드웨어와 소프트웨어의 결합에 의해 수행될 수 있다. 비제한적인 예로서, 본 원리들에 따른 예시적인 실시예들은 하나 이상의 집적 회로에 의해 구현될 수 있다. 메모리(1120)는 기술적인 환경에 적절한 임의의 타입의 것일 수 있으며, 비제한적인 예들로서, 광 메모리 디바이스들, 자기 메모리 디바이스들, 반도체 기반 메모리 디바이스들, 고정식 메모리 및 착탈식 메모리와 같이 임의의 적절한 데이터 스토리지 기술을 사용하여 구현될 수 있다. 프로세서(1110)는 기술적인 환경에 적절한 임의의 타입의 것일 수 있으며, 비제한적인 예들로서, 마이크로프로세서들, 범용 컴퓨터들, 특수 목적 컴퓨터들 및 멀티 코어 아키텍처에 기초한 프로세서들 중 하나 이상을 포함할 수 있다.

도 12를 참조하면, 위에서 설명된 피쳐들 및 원리들이 적용될 수 있는 데이터 송신 시스템(1200)이 도시되어 있다. 데이터 송신 시스템(1200)은 예를 들어, 위성, 케이블, 전화선 또는 지상파 방송과 같은 다양한 매체 중 임의의 것을 사용하여 신호를 송신하기 위한 헤드-엔드 또는 송신 시스템일 수 있다. 데이터 송신 시스템(1200)은 또한 스토리지를 위한 신호를 제공하는 데 사용될 수 있다. 송신은 인터넷 또는 일부 다른 네트워크를 통해 제공될 수 있다. 데이터 송신 시스템(1200)은 예를 들어, 비디오 컨텐츠 및 다른 컨텐츠를 생성 및 전달할 수 있다.

데이터 송신 시스템(1200)은 프로세서(1201)로부터 프로세싱된 데이터 및 다른 정보를 수신한다. 일 구현에서, 프로세서(1201)는 순방향 변환을 수행한다. 프로세서(1201)는 또한 예를 들어, 비디오의 포맷을 나타내는 메타데이터를 1200에 제공할 수 있다.

데이터 송신 시스템 또는 장치(1200)는 인코더(1202) 및 인코딩된 신호를 송신할 수 있는 송신기(1204)를 포함한다. 인코더(1202)는 프로세서(1201)로부터 데이터 정보를 수신한다. 인코더(1202)는 인코딩된 신호(들)를 생성한다.

인코더(1202)는 예를 들어, 다양한 정보 단편들을 스토리지 또는 송신을 위해 구조화된 포맷으로 수신 및 어셈블링하기 위한 어셈블리 유닛을 포함하는 서브-모듈들을 포함할 수 있다. 다양한 정보 단편들은 예를 들어, 코딩된 또는 코딩되지 않은 비디오 및 코딩된 또는 코딩되지 않은 엘리먼트들을 포함할 수 있다. 일부 구현들에서, 인코더(1202)는 프로세서(1201)를 포함하고, 따라서 프로세서(1201)의 동작들을 수행한다.

송신기(1204)는 인코더(1202)로부터 인코딩된 신호(들)를 수신하고, 인코딩된 신호(들)를 하나 이상의 출력 신호로 송신한다. 송신기(1204)는 예를 들어, 인코딩된 화상 및/또는 그것과 관련된 정보를 나타내는 하나 이상의 비트스트림을 갖는 프로그램 신호를 송신하도록 적응될 수 있다. 통상적인 송신기들은 예를 들어, 에러 정정 코딩 제공하기, 신호의 데이터를 인터리빙하기, 신호의 에너지를 랜덤화하기, 및 변조기(1206)를 사용하여, 신호를 하나 이상의 캐리어로 변조하기 중 하나 이상과 같은 기능들을 수행한다. 송신기(1204)는 안테나(도시 생략)를 포함할 수도 있고, 이와 인터페이스할 수도 있다. 또한, 송신기(1204)의 구현들은 변조기(1206)로 제한될 수도 있다.

데이터 송신 시스템(1200)은 또한 스토리지 유닛(1208)에 통신 가능하게 연결된다. 일 구현에서, 스토리지 유닛(1208)은 인코더(1202)에 연결되고, 인코더(1202)로부터의 인코딩된 비트스트림을 저장한다. 다른 구현에서, 스토리지 유닛(1208)은 송신기(1204)에 연결되고, 송신기(1204)로부터의 비트스트림을 저장한다. 송신기(1204)로부터의 비트스트림은 예를 들어, 송신기(1204)에 의해 추가로 프로세싱된 하나 이상의 인코딩된 비트스트림을 포함할 수 있다. 스토리지 유닛(1208)은, 상이한 구현들에서, 표준 DVD, 블루-레이 디스크, 하드 드라이브 또는 일부 다른 스토리지 디바이스 중 하나 이상이다.

도 13을 참조하면, 위에서 설명된 피쳐들 및 원리들이 적용될 수 있는 데이터 수신 시스템(1300)이 도시되어 있다. 데이터 수신 시스템(1300)은 스토리지 디바이스, 위성, 케이블, 전화선 또는 지상파 방송과 같은 다양한 매체를 통해 신호들을 수신하도록 구성될 수 있다. 신호들은 인터넷 또는 일부 다른 네트워크를 통해 수신될 수 있다.

데이터 수신 시스템(1300)은 예를 들어, 휴대 전화, 컴퓨터, 셋톱 박스, 텔레비전, 또는 인코딩된 비디오를 수신하고, 예를 들어, 디코딩된 비디오 신호를 프로세싱 또는 스토리지를 위해 디스플레이(예를 들어, 사용자에 대한 디스플레이)에 제공하는 다른 디바이스일 수 있다. 따라서, 데이터 수신 시스템(1300)은 예를 들어, 텔레비전의 스크린, 컴퓨터 모니터, (스토리지, 프로세싱 또는 디스플레이를 위한) 컴퓨터, 또는 일부 다른 스토리지, 프로세싱 또는 디스플레이 디바이스에 그 출력을 제공할 수 있다.

데이터 수신 시스템(1300)은 데이터 정보를 수신하고 프로세싱할 수 있다. 데이터 수신 시스템 또는 장치(1300)는 예를 들어, 본 출원의 구현들에서 설명된 신호들과 같은 인코딩된 신호를 수신하기 위한 수신기(1302)를 포함한다. 수신기(1302)는 예를 들어, 비트스트림을 제공하는 신호 또는 도 12의 데이터 송신 시스템(1200)으로부터 출력된 신호를 수신할 수 있다.

수신기(1302)는 예를 들어, 인코딩된 화상들을 나타내는 복수의 비트스트림을 갖는 프로그램 신호를 수신하도록 적응될 수 있다. 통상적인 수신기들은 예를 들어, 변조 및 인코딩된 데이터 신호 수신하기, 복조기(1304)를 사용하여, 하나 이상의 캐리어로부터 데이터 신호 복조하기, 신호의 에너지를 역랜덤화하기, 신호의 데이터를 디인터리빙하기 및 신호를 에러 정정 디코딩하기 중 하나 이상과 같은 기능을 수행한다. 수신기(1302)는 안테나(도시 생략)를 포함할 수도 있고, 또는 이와 인터페이스할 수도 있다. 수신기(1302)의 구현들은 복조기(1304)로 제한될 수 있다.

데이터 수신 시스템(1300)은 디코더(1306)를 포함한다. 수신기(1302)는 수신된 신호를 디코더(1306)에 제공한다. 수신기(1302)에 의해 디코더(1306)에 제공되는 신호는 하나 이상의 인코딩된 비트스트림을 포함할 수 있다. 디코더(1306)는 예를 들어, 비디오 정보를 포함하는 디코딩된 비디오 신호들과 같은 디코딩된 신호를 출력한다.

데이터 수신 시스템 또는 장치(1300)는 또한 스토리지 유닛(1307)에 통신 가능하게 연결된다. 일 구현에서, 스토리지 유닛(1307)은 수신기(1302)에 연결되고, 수신기(1302)는 스토리지 유닛(1307)으로부터의 비트스트림에 액세스한다. 다른 구현에서, 스토리지 유닛(1307)은 디코더(1306)에 연결되고, 디코더(1306)는 스토리지 유닛(1307)으로부터의 비트스트림에 액세스한다. 스토리지 유닛(1307)으로부터 액세스되는 비트스트림은, 상이한 구현들에서, 하나 이상의 인코딩된 비트스트림을 포함한다. 스토리지 유닛(1307)은, 상이한 구현들에서, 표준 DVD, 블루-레이 디스크, 하드 드라이브 또는 일부 다른 스토리지 디바이스 중 하나 이상이다.

일 구현에서, 디코더(1306)로부터의 출력 데이터는 프로세서(1308)에 제공된다. 일 구현에서, 프로세서(1308)는 후처리를 수행하도록 구성되는 프로세서이다. 일부 구현들에서는, 디코더(1306)가 프로세서(1308)를 포함하고, 따라서 프로세서(1308)의 동작들을 수행한다. 다른 구현들에서, 프로세서(1308)는 예를 들어, 셋톱 박스 또는 텔레비전과 같은 다운스트림 디바이스의 일부이다.

본 명세서에서 설명된 구현들은 예를 들어, 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림 또는 신호로 구현될 수 있다. 단일 형태의 구현의 맥락에서만 논의되었더라도(예를 들어, 방법으로서만 논의되었더라도), 논의된 특징들의 구현은 또한 다른 형태들(예를 들어, 장치 또는 프로그램)로 구현될 수도 있다. 장치는 예를 들어, 적절한 하드웨어, 소프트웨어 및 펌웨어로 구현될 수 있다. 방법들은, 예를 들어, 컴퓨터, 마이크로프로세서, 집적 회로 또는 프로그래머블 로직 디바이스를 포함하여, 예를 들어, 일반적으로 프로세싱 디바이스들을 지칭하는 프로세서와 같은 장치로 구현될 수 있다. 프로세서들은 또한 예를 들어, 컴퓨터들, 휴대 전화들, 휴대용/개인 휴대 정보 단말("PDA"), 및 최종 사용자들 간의 정보 통신을 용이하게 하는 다른 디바이스들과 같은 통신 디바이스들을 포함한다.

본 원리들의 "일 실시예" 또는 "실시예" 또는 "일 구현" 또는 "구현"뿐만 아니라, 그 다른 변형들에 대한 참조는 실시예와 관련하여 설명된 특정 피쳐, 구조 특성 등이 본 원리들의 적어도 하나의 실시예에 포함된다는 것을 의미한다. 따라서, "일 실시예에서" 또는 "실시예에서" 또는 "일 구현에서" 또는 "구현에서"라는 문구뿐만 아니라, 본 명세서 전반에 걸쳐 다양한 곳들에서 나타나는 임의의 다른 변형들의 출현들이 반드시 모두 동일한 실시예를 참조할 필요는 없다.

또한, 본 출원 또는 그 청구 범위는 다양한 정보 단편을 "결정"하는 것을 언급할 수 있다. 정보를 결정하는 것은 예를 들어, 정보를 추정하는 것, 정보를 계산하는 것, 정보를 예측하는 것 또는 메모리로부터 정보를 리트리브하는 것 중 하나 이상을 포함할 수 있다.

또한, 본 출원 또는 그 청구 범위는 다양한 정보 단편에 "액세스"하는 것을 언급할 수 있다. 정보에 액세스하는 것은 예를 들어, 정보를 수신하는 것, (예를 들어, 메모리로부터의) 정보를 리트리브하는 것, 정보를 저장하는 것, 정보를 프로세싱하는 것, 정보를 송신하는 것, 정보를 이동시키는 것, 정보를 복사하는 것, 정보를 소거하는 것, 정보를 계산하는 것, 정보를 결정하는 것, 정보를 예측하는 것 또는 정보를 추정하는 것 중 하나 이상을 포함할 수 있다.

또한, 본 출원 또는 그 청구 범위는 다양한 정보 단편을 "수신"하는 것을 언급할 수 있다. 수신은 "액세스"와 마찬가지로 광범위한 용어가 되도록 의도된다. 정보를 수신하는 것은 예를 들어, 정보에 액세스하는 것 또는 (예를 들어, 메모리로부터) 정보를 리트리브하는 것 중 하나 이상을 포함할 수 있다. 또한, "수신"하는 것은 통상적으로 예를 들어, 정보를 저장하는 것, 정보를 프로세싱하는 것, 정보를 송신하는 것, 정보를 이동시키는 것, 정보를 복사하는 것, 정보를 소거하는 것, 정보를 계산하는 것, 정보를 결정하는 것, 정보를 예측하는 것 또는 정보를 추정하는 것과 같은 동작들 동안에 하나의 방식으로 또는 다른 방식으로 포함된다.

본 기술분야의 통상의 기술자에게 명백한 바와 같이, 구현들은 예를 들어, 저장 또는 송신될 수 있는 정보를 운반하도록 포맷팅된 다양한 신호들을 생성할 수 있다. 정보는 예를 들어, 방법을 수행하기 위한 명령어들 또는 설명된 구현들 중 하나의 구현에 의해 생성되는 데이터를 포함할 수 있다. 예를 들어, 설명된 실시예의 비트스트림을 운반하도록 신호가 포맷팅될 수 있다. 이러한 신호는 예를 들어, 전자기파(예를 들어, 스펙트럼의 무선 주파수 부분 사용) 또는 기저 대역 신호로서 포맷팅될 수 있다. 포맷팅은 예를 들어, 데이터 스트림을 인코딩하고, 인코딩된 데이터 스트림으로 캐리어를 변조하는 것을 포함할 수 있다. 신호가 운반하는 정보는 예를 들어, 아날로그 또는 디지털 정보일 수 있다. 공지된 바와 같이, 신호는 다양한 상이한 유선 또는 무선 링크들을 통해 송신될 수 있다. 신호는 프로세서 판독 가능 매체에 저장될 수 있다.

Claims

비디오를 인코딩하는 방법으로서,
상기 비디오의 이미지의 블록에 액세스하는 단계;
상기 블록에 대한 양자화 파라미터에 기초하여 상기 블록을 인코딩하는 단계(880) - 상기 양자화 파라미터는 상기 블록의 휘도 및 상기 블록의 이웃 블록들의 휘도에 기초하여 결정되고, 상기 블록의 상기 휘도는 상기 블록에서의 적어도 하나의 변환 계수(transform coefficient)에 기초함 -; 및
상기 인코딩에 응답하여, 비트스트림을 생성하는 단계(890)
를 포함하는 방법.
제1항에 있어서, 상기 양자화 파라미터는 상기 블록의 상기 이웃 블록들의 하나 이상의 픽셀과 상기 블록의 하나 이상의 픽셀 사이의 글레어 마스킹 효과(glare masking effect)에 기초하여 결정되는 방법.
제2항에 있어서,
상기 글레어 마스킹 효과에 응답하여, 상기 블록의 픽셀에 대한 JND(Just Noticeable Difference)를 결정하는 단계를 추가로 포함하고, 상기 양자화 파라미터는 상기 결정된 JND 및 상기 블록의 상기 휘도에 기초하여 결정되는 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 블록의 상기 휘도는 상기 블록의 DC 변환 계수 및 상기 블록에 대한 예측된 블록에 기초하는 방법.
제4항에 있어서, 상기 블록의 AC 변환 계수들의 양자화는 상기 양자화 파라미터에 기초하고, 상기 DC 변환 계수의 양자화는 다른 양자화 파라미터에 기초하는 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 블록의 상기 휘도 및 상기 블록의 이웃 블록들의 상기 휘도에 기초하여 양자화 비율(quantization ratio)을 결정하는 단계(870)를 추가로 포함하고, 상기 양자화 파라미터는 제2 양자화 파라미터 및 상기 양자화 비율에 기초하여 결정되는 방법.
제1항 내지 제6항 중 어느 한 항에 따른 방법을 수행하도록 구성되는 하나 이상의 프로세서 및 메모리를 포함하는, 비디오를 인코딩하기 위한 장치.
비트스트림으로부터 비디오를 디코딩하는 방법으로서,
상기 비디오를 나타내는 상기 비트스트림에 액세스하는 단계(1010);
양자화 파라미터에 기초하여 이미지의 블록을 디코딩하는 단계(1080) - 상기 양자화 파라미터는 상기 블록의 휘도 및 상기 블록의 이웃 블록들의 휘도에 기초하여 결정되고, 상기 블록의 상기 휘도는 상기 블록에서의 적어도 하나의 변환 계수에 기초함 -; 및
디스플레이, 스토리지 및 통신 인터페이스 중 적어도 하나에 상기 비디오를 출력하는 단계
를 포함하는 방법.
제8항에 있어서, 상기 블록의 상기 휘도는 상기 블록의 DC 변환 계수 및 상기 블록에 대한 예측된 블록에 기초하는 방법.
제9항에 있어서, 상기 블록의 AC 변환 계수들의 역양자화(de-quantization)는 상기 양자화 파라미터에 기초하고, 상기 DC 변환 계수의 역양자화는 다른 양자화 파라미터에 기초하는 방법.
제8항 내지 제10항 중 어느 한 항에 있어서,
상기 블록의 상기 휘도 및 상기 블록의 이웃 블록들의 상기 휘도에 기초하여 양자화 비율을 결정하는 단계(1070)를 추가로 포함하고, 상기 양자화 파라미터는 제2 양자화 파라미터 및 상기 양자화 비율에 기초하여 결정되는 방법.
제8항 내지 제11항 중 어느 한 항에 따른 방법을 수행하도록 구성되는 하나 이상의 프로세서 및 메모리를 포함하는, 비트스트림을 디코딩하기 위한 장치.
제1항 내지 제6항 중 어느 한 항에 따라 생성되는 비트스트림이 저장되는 비일시적 컴퓨터 판독 가능 스토리지 매체.
제1항 내지 제6항 및 제8항 내지 제11항 중 어느 한 항에 따른 방법을 수행하기 위한 명령어들이 저장되는 비일시적 컴퓨터 판독 가능 스토리지 매체.
비트스트림으로서,
양자화 파라미터에 기초하여 인코딩된 상기 비디오의 이미지의 블록을 포함하도록 포맷팅되고, 상기 양자화 파라미터는 상기 블록의 휘도 및 상기 블록의 이웃 블록들의 휘도에 기초하여 결정되고, 상기 블록의 상기 휘도는 상기 블록에서의 적어도 하나의 변환 계수에 기초하는 비트스트림.