KR101939012B1

KR101939012B1 - 하이 다이내믹 레인지 이미지들을 위한 콘텐츠 적응적 지각 양자화기

Info

Publication number: KR101939012B1
Application number: KR1020177024378A
Authority: KR
Inventors: 얀 프뢰리히; 관-밍 쑤; 로빈 아트킨스; 스코트 데일리; 존 스코트 밀러
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션; 돌비 인터네셔널 에이비
Priority date: 2015-03-02
Filing date: 2016-03-01
Publication date: 2019-01-15
Also published as: EP3266208A1; US10419762B2; US20180041759A1; CN107409213B; JP6484347B2; EP3266208B1; JP2018509708A; CN107409213A; BR112017018893A2; KR20170113608A; WO2016140954A1; RU2678483C1; BR112017018893B1

Abstract

콘텐츠 적응적 양자화기 프로세서가 입력 비트 깊이로 입력 이미지를 수신한다. 노이즈 마스크 생성 프로세스가 양자화 노이즈를 마스킹함에 있어서 입력 이미지에서의 각각의 화소를 그 화소의 지각 관련성의 측면에서 특징화하는 노이즈 마스크 이미지를 생성하기 위해 입력 이미지에 적용된다. 노이즈 마스크 히스토그램이 입력 이미지 및 노이즈 마스크 이미지에 기초하여 생성된다. 마스킹 노이즈 레벨 대 비트 깊이 함수가 노이즈 마스크 히스토그램에서의 각각의 빈에 대한 최소 비트 깊이 값들을 생성하기 위해 노이즈 마스크 히스토그램에 적용된다. 코드워드 매핑 함수가 입력 비트 깊이, 타겟 비트 깊이, 및 최소 비트 깊이 값들에 기초하여 생성된다. 코드워드 매핑 함수는 타겟 비트 깊이에서 출력 이미지를 생성하기 위해 입력 이미지에 적용된다.

Description

하이 다이내믹 레인지 이미지들을 위한 콘텐츠 적응적 지각 양자화기

관련 출원들에 대한 상호 참조

본 출원은 2015년 3월 2일자로 출원된 미국 가출원 제62/126,925호에 대한 우선권의 이익을 주장하며, 본 명세서에 그 전부가 참조로 포함된다.

기술분야

본 발명은 대체로 이미지들에 관한 것이다. 더 상세하게는, 본 발명의 일 실시예는 하이 다이내믹 레인지(high dynamic range)를 갖는 이미지들의 콘텐츠 적응적 지각 양자화에 관한 것이다.

본 명세서에서 사용되는 바와 같이, '다이내믹 레인지'(DR)라는 용어는, 예컨대 가장 어두운 암흑들(흑색들)부터 가장 밝은 백색들(하이라이트들)까지의, 이미지에서의 어떤 범위의 세기(예컨대, 루미넌스, 루마)를 인지하는 인간 시각계(human visual system)(HVS)의 능력에 관련될 수 있다. 이런 의미에서, DR은 '장면-관련' 세기에 관련된다. DR은 특정 폭의 세기 범위를 적절히 또는 근사적으로 렌더링하는 디스플레이 디바이스의 능력에 또한 관련될 수 있다. 이런 의미에서, DR은 '디스플레이-관련' 세기에 관련된다. 특별한 의미가 본 명세서의 설명에서의 임의의 지점에서 특별한 중대성을 갖는 것으로 명시적으로 특정되지 않는 한, 그 용어는 양쪽 의미로, 예컨대, 교환적으로 사용될 수 있다는 것이 유추되어야 한다.

본 명세서에서 사용되는 바와 같이, 하이 다이내믹 레인지(HDR)라는 용어는 인간 시각계(HVS)의 일부의 14~15 자릿수들에 걸쳐 이어지는 DR 폭에 관련된다. 실제로, 인간이 세기 범위에서의 광범위한 폭을 동시에 인지할 수 있게 하는 DR는, HDR와 비교하여, 다소 절사(truncation)될 수 있다. 본 명세서에서 사용되는 바와 같이, 향상된 다이내믹 레인지(enhanced dynamic range)(EDR) 또는 시각적 다이내믹 레인지(VDR)라는 용어는, 안구의 움직임들을 포함하는 인간 시각계(HVS)에 의해 장면 또는 이미지 내에서 인지 가능하여, 장면 또는 이미지 전체에 걸쳐 일부 광 적응 변경들을 허용하는 DR에 개별적으로 또는 교환적으로 관련될 수 있다. 본 명세서에서 사용되는 바와 같이, EDR은 5 내지 6 자릿수들에 걸쳐 이어지는 DR에 관련될 수 있다. 따라서 진정한 장면 관련 HDR과 비교하여 아마도 다소 더 좁지만, EDR은 그럼에도 불구하고 넓은 DR 폭을 나타내고 HDR이라고 또한 지칭될 수 있다.

실제로, 이미지들이 하나 이상의 컬러 성분들(예컨대, 루마(Y)와 크로마(Cb 및 Cr)) - 각각의 컬러 성분은 화소 당 n-비트(예컨대, n=8)의 정밀도에 의해 표현됨 - 을 포함한다. 선형 루미넌스 코딩을 사용하여, n ≤ 8인 이미지들(예컨대, 컬러 24-비트 JPEG 이미지들)이 표준 다이내믹 레인지의 이미지들로 간주되는 한편, n > 8인 이미지들이 향상된 다이내믹 레인지의 이미지들로 간주될 수 있다. EDR 및 HDR 이미지들은 고-정밀도(예컨대, 16-비트) 부동소수점 포맷들, 이를테면 인더스트리얼 라이트 & 매직(Industrial Light and Magic)에 의해 개발된 OpenEXR 파일 포맷을 사용하여 또한 저장 및 배포될 수 있다.

주어진 디스플레이에 대한 참조 전기 광학 전달 함수(electro-optical transfer function)(EOTF)가 입력 비디오 신호의 컬러 값들(예컨대, 루미넌스)와 디스플레이에 의해 생성된 출력 스크린 컬러 값들(예컨대, 스크린 루미넌스) 사이의 관계를 특징화한다. 예를 들어, ITU Rec. ITU-R BT. 1886, "Reference electro-optical transfer function for flat panel displays used in HDTV studio production,"(03/2011)는, 그 전부가 참조로 본 명세서에 포함되는 것으로서, 음극선관(Cathode Ray Tube)(CRT)의 측정된 특성들에 기초하여 평판 디스플레이들에 대한 참조 EOTF를 정의한다. 비디오 스트림이 주어지면, 그것의 EOTF에 관한 정보는 비트 스트림에 메타데이터로서 통상적으로 삽입된다. 본 명세서에서 사용되는 바와 같이, "메타데이터"라는 용어는, 코딩된 비트스트림의 일부로서 송신되고 디코딩된 이미지를 렌더링하는 디코더를 지원하는 임의의 보조 정보에 관련된다. 이러한 메타데이터는, 본 명세서에서 설명되는 바와 같이, 컬러 공간 또는 개머트 정보, 참조 디스플레이 파라미터들, 및 보조 신호 파라미터들을 비제한적으로 포함할 수 있다.

대부분의 소비자 데스크톱 디스플레이들은 200 내지 300 cd/m² 또는 니트(nit)의 루미넌스를 현재 지원한다. 대부분의 소비자 HDTV들은 300 니트부터 500 니트까지의 범위에 이르며 새로운 모델들은 1000 니트(cd/m²)에 다다르고 있다. 이러한 기존의 디스플레이들은 따라서 HDR 또는 EDR과 비교하여 표준 다이내믹 레인지(SDR)라고 또한 지칭되는 더 낮은 다이내믹 레인지(LDR)를 또한 대표한다. 캡처 장비(예컨대, 카메라들) 및 HDR 디스플레이들(예컨대, 돌비 래버러토리스(Dolby Laboratories)로부터의 PRM-4200 전문가 참조 모니터) 둘 다에서 진전들로 인해 HDR 콘텐츠의 가용성이 늘어남에 따라, HDR 콘텐츠는 더 높은 다이내믹 레인지들(예컨대, 1,000 니트부터 5,000 니트 이상까지)를 지원하는 HDR 디스플레이들 상에 컬러 그레이딩되고 디스플레이될 수 있다. 이러한 디스플레이들은 높은 루미넌스 능력(예컨대, 0 내지 10,000 니트)을 지원하는 대체 EOTF들을 사용하여 정의될 수 있다. 이러한 EOTF의 일 예가 그 전부가 참조로 본 명세서에 포함되는 SMPTE ST 2084:2014 "High Dynamic Range EOTF of Mastering Reference Displays"에서 정의된다. 대체로, 제한 없이, 본 개시내용의 방법들은 SDR보다 더 높은 임의의 다이내믹 레인지에 관련된다. 여기서 본 발명자들에 의해 이해되는 바와 같이, 하이-다이내믹 레인지 이미지들의 지각 양자화를 위한 개선된 기법들이 원해진다.

이 섹션에서 설명되는 접근법들은 추구될 수 있는 접근법들이지만, 반드시 미리 구상되거나 또는 추구된 접근법들은 아니다. 그러므로, 달리 표시되지 않는 한, 이 섹션에서 설명되는 접근법들 중 임의의 접근법이 단지 이 섹션에서의 그것들의 포함 때문에 선행 기술로서 한정된다고는 가정되지 않아야 한다. 마찬가지로, 하나 이상의 접근법들에 관해 식별된 문제들이, 달리 표시되지 않는 한, 이 섹션에 기초하여 임의의 선행 기술로 인식되는 것으로 가정되지 않아야 한다.

본 발명의 일 실시예가 유사한 참조 번호들이 유사한 엘리먼트들을 지칭하는 첨부 도면들의 도해들에서 제한으로서는 아니고 예로서 예시되고 도면들 중:
도 1a는 비디오 전달 파이프라인을 위한 예시적인 프로세스를 묘사하며;
도 1b는 본 발명의 일 실시예에 따른 콘텐츠 적응적 양자화 또는 재성형(reshaping)을 사용하는 데이터 압축을 위한 예시적인 프로세스를 묘사하며;
도 2는 본 발명의 일 실시예에 따른 콘텐츠 적응적 지각 양자화를 위한 예시적인 프로세스를 묘사하며;
도 3은 본 발명의 일 실시예에 따른 노이즈 마스크 생성을 위한 예시적인 프로세스를 묘사하며;
도 4는 본 발명의 일 실시예에 따른 장면 기반 노이즈 마스킹 히스토그램을 묘사하며;
도 5는 본 발명의 일 실시예에 따른 노이즈 마스크 레벨들을 요구된 신호 비트 깊이에 매핑하는 매핑 함수의 일 예를 묘사하며;
도 6a 및 도 6b는 본 발명의 실시예들에 따른 컴퓨팅된 정규화된(normalized) 코드워드 할당들의 예들을 묘사하며;
도 6c는 본 발명의 일 실시예에 따른 적응적 지각 양자화 매핑의 일 예를 묘사하며;
도 7은 본 발명의 일 실시예에 따른 코드워드 매핑을 위한 예시적인 프로세스를 묘사한다.

하이 다이내믹 레인지(HDR) 이미지들의 지각 양자화를 위한 콘텐츠 적응적 기법들이 여기서 설명된다. 다음의 설명에서, 설명을 목적으로, 다수의 특정 세부사항들이 본 발명의 완전한 이해를 제공하기 위하여 언급된다. 그러나, 본 발명은 이들 특정 세부사항들 없이도 실시될 수 있다는 것이 명백할 것이다. 다른 경우들에서, 널리 공지된 구조들 및 디바이스들이 본 발명을 불필요하게 가리거나, 모호하게 하거나, 또는 혼란스럽게 하는 것을 피하기 위하여 철저히 상세히 설명되지는 않는다.

개요

본 명세서에서 설명되는 예시적인 실시예들은 이미지들의 적응적 지각 양자화에 관련된다. 콘텐츠 적응적 양자화기 프로세서가 입력 비트 깊이로 입력 이미지를 수신한다. 노이즈 마스크 생성 프로세스가 양자화 노이즈를 최소화함에 있어서 입력 이미지에서의 각각의 화소를 그 화소의 지각 관련성의 측면에서 특징화하는 노이즈 마스크 이미지를 생성하기 위해 입력 이미지에 적용된다. 노이즈 마스크 히스토그램이 입력 이미지 및 노이즈 마스크 이미지에 기초하여 생성된다. 마스킹 노이즈 레벨 대 비트 깊이 함수가 노이즈 마스크 히스토그램에서의 각각의 빈에 대한 최소 비트 깊이 값들을 생성하기 위해 노이즈 마스크 히스토그램에 적용된다. 코드워드 매핑 함수가 입력 비트 깊이, 타겟 비트 깊이, 및 최소 비트 깊이 값들에 기초하여 생성된다. 코드워드 매핑 함수는 입력 비트 깊이보다 더 낮은 타겟 비트 깊이에서 출력 이미지를 생성하기 위해 입력 이미지에 적용된다.

예시적인 비디오 전달 프로세싱 파이프라인

도 1a는 비디오 캡처로부터 비디오 콘텐츠 디스플레이까지의 다양한 스테이지들을 도시하는 기존의 비디오 전달 파이프라인(100)의 예시적인 프로세스를 묘사한다. 비디오 프레임들(102)의 시퀀스가 이미지 생성 블록(105)에 의해 캡처되거나 또는 생성된다. 비디오 프레임들(102)은 비디오 데이터(107)를 제공하기 위해 (예컨대, 디지털 카메라에 의해) 디지털적으로 캡처될 수 있거나 또는 컴퓨터에 의해 (예컨대, 컴퓨터 애니메이션을 사용하여) 생성될 수 있다. 대안적으로, 비디오 프레임들(102)은 필름 카메라에 의해 필름 상에 캡처될 수 있다. 그 필름은 비디오 데이터(107)를 제공하기 위해 디지털 포맷으로 변환된다. 프로덕션 단계 (110)에서, 비디오 데이터(107)는 비디오 프로덕션 스트림(112)을 제공하기 위해 편집된다.

프로덕션 스트림(112)의 비디오 데이터는 그 다음에 포스트-프로덕션 편집을 위해 블록(115)에서의 프로세서에 제공된다. 블록(115)의 포스트-프로덕션 편집은 비디오 제작자의 제작 의도에 따라 이미지 품질을 향상시키거나 또는 이미지에 대한 특정 외양을 성취하기 위해 이미지의 특정 영역들에서의 컬러들 또는 밝기를 조정하는 것 또는 수정하는 것을 포함할 수 있다. 이는 "컬러 타이밍" 또는 "컬러 그레이딩"이라 때때로 불린다. 다른 편집(예컨대, 장면 선택 및 시퀀싱, 이미지 크로핑, 컴퓨터 생성된 시각적 특수 효과의 추가 등)이 배포를 위한 프로덕션의 최종 버전(117)을 산출하기 위해 블록(115)에서 수행될 수 있다. 포스트-프로덕션 편집(115) 동안, 비디오 이미지들이 참조 디스플레이(125) 상에 보여진다.

포스트-프로덕션(115)에 뒤따라, 최종 프로덕션(117)의 비디오 데이터가 텔레비전 세트들, 셋톱 박스들, 영화관들 등과 같은 디코딩 및 플레이백 디바이스들의 하류로 전달하기 위해 인코딩 블록(120)에 전달될 수 있다. 일부 실시예들에서, 코딩 블록(120)은 코딩된 비트 스트림(122)을 생성하기 위해 ATSC, DVB, DVD, 블루-레이, 및 다른 전달 포맷들에 의해 정의된 것들과 같은 오디오 및 비디오 인코더들을 포함할 수 있다. 수신기에서, 코딩된 비트 스트림(122)은 신호(117)의 동일하거나 또는 가까운 근사물을 나타내는 디코딩된 신호(132)를 생성하기 위해 디코딩 유닛(130)에 의해 디코딩된다. 수신기는 참조 디스플레이(125)와는 완전히 상이한 특성들을 가질 수 있는 타겟 디스플레이(140)에 부속될 수 있다. 그 경우에, 디스플레이 관리 블록(135)이 디스플레이-매핑된 신호(137)를 생성함으로써 디코딩된 신호(132)의 다이내믹 레인지를 타겟 디스플레이(140)의 특성들에 매핑하는데 사용될 수 있다.

신호 양자화

현재, 비디오 전달을 위한 대부분의 디지털 인터페이스들, 이를테면 직렬 디지털 인터페이스(Serial Digital Interface)(SDI)가 성분 마다 화소 당 12 비트로 제한된다. 더욱이, 대부분의 압축 표준들, 이를테면 H.264(또는 AVC) 및 H.265(또는 HEVC)가, 성분 마다 화소 당 10-비트로 제한된다. 그러므로 현존 인프라들 및 압축 표준들 내에서 대략 0.001 cd/m²(또는 니트)부터 10,000 cd/m²(또는 니트)까지의 다이내믹 레인지를 갖는 HDR 콘텐츠를 지원하기 위해 효율적인 인코딩 및/또는 양자화가 요구된다.

본 명세서에서 사용되는 바와 같은 "PQ"라는 용어는 지각 루미넌스 진폭 양자화를 지칭한다. 인간 시각계는 매우 비선형적인 방식으로 광 레벨들을 증가시키는 것에 응답한다. 자극을 보는 인간의 능력이, 그 자극의 루미넌스, 자극의 사이즈, 그 자극을 만드는 공간 주파수들, 및 사람이 자극을 보고 있는 특정 순간에 눈이 적응하고 있는 루미넌스 레벨에 의해 영향을 받는다. 바람직한 실시예에서, 지각 양자화기 기능이 인간 시각계에서 콘트라스트 민감도 임계값들에 더 잘 매칭되는 출력 그레이 레벨들로 선형 입력 그레이 레벨들을 매핑시킨다. PQ 매핑 함수들(또는 EOTF들)의 예가, 그 전부가 참조로 본 명세서에 포함되는 SMPTE ST 2084:2014 "High Dynamic Range EOTF of Mastering Reference Displays"에서 설명되는데, 그 문헌에서는, 고정된 자극 사이즈가 주어지면, 모든 루미넌스 레벨(즉, 자극 레벨)에 대해, 그 루미넌스 레벨에서의 최소 가시 콘트라스트 단차가 (HVS 모델들에 따라) 가장 민감한 공간 주파수 및 가장 민감한 적응 레벨에 따라 선택된다. 물리적 음극선관(CRT) 디바이스의 응답 곡선을 나타내고 인간 시각계가 응답하는 방식에 몹시 대략적인 유사도를 우연히 가질 수 있는 전통적인 감마 곡선에 비해, PQ 곡선은 상대적으로 단순한 기능성 모델을 사용하여 인간 시각계의 진정한 시각적 응답을 제한한다.

예를 들어, SMPTE ST 2084 하에서는, 1 cd/m²에서, 하나의 12-비트 코드 값이 대략 0.0048 cd/m²의 상대적 변경에 대응하지만; 1,000 cd/m²에서, 하나의 12-비트 코드 값은 대략 2.24 cd/m²의 상대적 변경에 대응한다. 이 비선형 양자화는 인간 시각계(HVS)의 비선형 콘트라스트 민감도를 수용하기 위해 필요하다.

지각 양자화된 EOTF의 다른 예가 J. Stessen 등의 "Chromaticity based color signals for wide color gamut and high dynamic range", ISO/IEC JTC1/SC29/WG11 MPEG2014/M35065, Oct. 2014에서 제시되며, 이는 그 전부가 참조로 본 명세서에 포함된다.

HVS의 콘트라스트 민감도가 HVS의 적응 상태뿐만 아니라, 이미지 콘텐츠의 루미넌스에뿐 아니라 마스킹 특성들(특별히 노이즈 및 텍스처)에도 의존한다. 다르게 말하면, 이미지의 노이즈 레벨 또는 텍스처 특성들에 의존하여, 이미지 콘텐츠는 PQ 또는 감마 양자화기들에 의해 예측된 양자화 단계들보다 더 많은 양자화 단계들로 양자화될 수 있는데, 텍스처와 노이즈가 양자화 아티팩트들을 마스킹하기 때문이다. PQ 양자화는 HVS가 할 수 있는 최상의 것을 설명하는데, 이는 이미지에 잡음 또는 마스킹이 없을 때 일어난다. 그러나, 많은 이미지들(비디오의 프레임들)에 대해, 상당한 마스킹이 있다.

노이즈 및 텍스처 마스킹 외에도, 시각적 행동, 이를테면 광학적 플레어(flare)와 국부 적응의 다른 특성들이 양자화 레벨을 증가시키고 컬러 성분 당 10-비트 이하에서 HDR 이미지들을 표현하는 것을 허용하기 위해 또한 고려될 수 있다. 본 명세서에서 사용되는 바와 같이, "콘텐츠 적응적 PQ" 또는 줄여서 "적응적 PQ"라는 용어들은, 이미지들의 지각적 양자화를 그 이미지들의 콘텐츠에 기초하여 적응적으로 조정하는 방법들을 나타낸다.

도 1b는 일 실시예에 따른 적응적 PQ를 위한 예시적인 프로세스를 묘사한다. 입력 프레임들(117)이 주어지면, 순방향 재성형 블록(150)이 입력과 코딩 제약들을 분석하고 입력 프레임들(117)을 재-양자화된 출력 프레임들(152)에 매핑하는 코드워드 매핑 함수들을 생성한다. 예를 들어, 입력(117)은 특정 EOTF에 따라 감마-코딩 또는 PQ-코딩될 수 있다. 일부 실시예들에서, 재성형 프로세스에 관한 정보는 메타데이터를 사용하여 하류의 디바이스들(이를테면 디코더들)에 전달될 수 있다. 코딩(120) 및 디코딩(130)에 뒤따라, 디코딩된 프레임들(132)은 역방향 재성형 기능부(160)에 의해 프로세싱될 수 있으며, 재성형 기능부는, 앞에서 논의된 디스플레이 관리 프로세스(135)와 같은 추가의 하류의 프로세싱을 위해, 재-양자화된 프레임들(132)을 다시 원래의 EOTF 도메인(예컨대, 감마 또는 PQ)로 변환한다. 일부 실시예들에서, 역방향 재성형 기능부(160)는, 예컨대, AVC 또는 HEVC 비디오 디코더에서의 역양자화기의 일부로서, 디코더(130)에서의 역양자화기와 통합될 수 있다.

적응적 PQ

도 2는 본 발명의 일 실시예에 따른 콘텐츠 적응적 지각 양자화를 위한 예시적인 프로세스를 묘사한다. 도 2에 묘사된 바와 같이, 이미지들(예컨대, 비디오 프레임들)(117)의 시퀀스가 주어지면, 양자화 노이즈를 마스킹함에 있어서 입력 이미지에서의 각각의 화소를 그 화소의 지각 관련성의 측면에서 특징화하는 노이즈 마스크 이미지를 생성하기 위해 블록(205)이 사용된다. 노이즈 마스크 이미지는, 원래의 이미지 데이터와 조합하여, 노이즈 마스크 히스토그램을 생성하기 위해 단계 (210)에서 사용된다. 블록(215)은 단계 (210)에서 생성된 히스토그램의 각각의 빈에 대해 요구된 최소 비트들의 수를 추정하고, 마지막으로, 코드워드 매핑 블록(220)이 입력 신호(117)를 그것의 양자화된 출력으로 변환시키는 매핑 함수를 컴퓨팅한다. 이들 단계들의 각각은 다음에서 더 상세히 설명된다.

노이즈 마스크 생성

적응적 PQ의 기본 아이디어는 시끄럽거나 또는 높은 텍스처를 갖는 이미지의 영역들에 더 적은 비트들을 그리고 노이즈 없는 또는 더 평활화된 이미지의 영역들에 더 많은 비트들을 할당하는 것이다. 입력 이미지(117)가 주어지면, 노이즈 마스크 생성 블록(205)은 이미지에서의 각각의 화소에 대해 노이즈를 마스킹하는 추정값을 생성한다. 일부 실시예들에서, 입력(117)은 감마 또는 PQ 기반 양자화기를 사용하여 미리 코딩될 수 있다. 일부 다른 실시예들에서, 입력 이미지(117)는 선형 공간에 있을 수 있다. 도 3은 일 실시예에 따른 노이즈 마스크 생성의 예시적인 프로세스를 묘사한다. 일부 다른 실시예들이 이미지들에서 국부 엔트로피를 측정하는 본 기술분야에서 공지된 대체 방법들, 이를테면 가동 윈도우를 통한 엔트로피 필터링, 가동 윈도우를 통한 표준 편차 필터링, 또는 가동 윈도우를 통한 범위 필터링을 사용하여 노이즈 마스크들을 생성할 수 있다.

가 [0 1)로 정규화된 입력 시퀀스(117)의 j번째 프레임에서의 양자화 하의 컬러 성분(예컨대, 루미넌스)의 p번째 화소를 표시한다고 하자.

와

가 이 프레임에서의 최소 및 최대 화소 값들을 표시하거나, 또는 다음과 같다고 하자:

,

. (1)

도 3에 묘사된 바와 같이, 블록(305)에서 제1 저역 통과 필터가 이미지 프레임 I _j 에 적용된다. 일 실시예에서, 이 필터는 인간 시각계의 특성들을 흉내낸다. 가용 계산 능력에 의존하여, 이 필터는 박스 필터 또는 가우시안 필터 같은 매우 단순한 필터로부터, 코텍스(Cortex) 변환을 구현하는 것들 같은 더욱 복잡한 필터 뱅크들까지의 범위에 이를 수 있다. 일 실시예에서, 제1 필터는 지원 범위 r _L 및 분산

(예컨대, r _L = 9 및

= 3 또는 r _L = 33 및

= 4)을 갖는 2-차원 가우시안 필터

일 수 있다. 그러면, 그것의 출력(L)은 다음으로서 표현될 수 있으며

, (2)

여기서 심볼

는 콘볼루션을 표시한다. 제1 필터의 출력이 주어지면, 입력 프레임의 고 주파수들의 성분들은 다음과 같이 블록(310)에서 추출될 수 있다

. (3)

블록(310)의 출력은 그러면 노이즈 마스크(H)를 생성하기 위해 제2 저역 통과 필터(315)에 의해 다시 필터링될 수 있다. 이는 HVS 마스킹의 저-위상 정확도를 해결하는 것이다(다시 말하면, 마스킹 신호의 제로 크로싱들에는 마스킹이 여전히 있다). 일 실시예에서, 제2 LPF는 또한 지원 범위 r _H 및 분산

(예컨대, r _H = 9,

= 3)을 갖는 가우시안 필터일 수 있다. 그러면, 노이즈 마스크(H)는 다음과 같이 표현될 수 있다

. (4)

일 실시예에서, 제1 및 제2 저역 통과 필터들의 파라미터들은 동일할 수 있다. 바람직한 실시예에서, 제1 및 제2 저역 통과 필터들은 계산 효율을 개선하기 위한 분리가능 필터(separable filter)들이다. 일 실시예에서, 후속 프로세싱에서 무시될 수 있는 H _jp 화소들을 식별하기 위해 옵션적 블록(320)이 사용될 수 있는데, 그 화소들이 적응적 양자화 프로세스를 바이어싱시킬 수 있어서이다. 예를 들어, 그 이미지가 레터박스(letterbox) 프레임(다시 말하면, 원래의 이미지를 특정 프레임 사이즈 또는 애스팩트 비에 부합하도록 프레임화할 수 있는 흑색 화소들)을 포함하면, 레터박스 화소들에 관련된 값들은 무시될 수 있다. 이미지 경계들 또는 레터박스 경계들에 관련된 값들은 또한 무시될 수 있는데, 이들 경계들에서의 데이터가 더 낮은 노이즈 값들을 생성할 상수 값들로 패딩된다고 저역 통과 필터들의 출력이 가정되어서이다. Ω _j 가 고려 중의 모든 유효한 화소들의 세트를 표시한다고 하자, 그러면 최종 출력 노이즈 마스크(322)는 다음과 같이 표현될 수 있다:

. (5)

노이즈 마스크 히스토그램 생성

B _I 가 입력 이미지(117)의 비트 깊이(예컨대, B _I = 16)를 표시한다고 하자 그리고

라고 하자, 그러면 다이내믹 레인지(0 내지 K-1)는 동일한 화소 간격 값(W)의 M 개의 빈들로 파티셔닝될 수 있으며, 다시 말하면, W = K/M이다. 일 실시예에서, j번째 프레임에 대해, 잡음 히스토그램 b _j (m) - 여기서 m은 m번째 히스토그램 빈을 나타냄(m = 0, 1, 2, ..., M-1) - 은 다음과 같이 생성될 수 있다:

a) 범위

에서의 화소 값들을 갖는 원래의 이미지에서의 모든 화소들(

)을 식별함.

b) 미리 설명된 바와 같이 마스킹 입면도가 2D 맵이 아니므로, 그들 화소들 중에서, 최소 H _j (i)를 선택함.

또는, 다음이 주어진다:

,

. (6)

때때로 특정 빈들이 비어 있을 수 있으며, 이는 빈의 화소 범위 내에 임의의 이미지 화소들이 없을 수 있어서라는 것에 주의한다. 이들 빈들의 인덱스들은 저장될 수 있고 그것들의 상태들은 나중에 어드레싱될 것이다.

적응적 PQ 값들이 프레임 레벨에서 또는 장면 레벨에서 조정될 수 있다. 본 명세서에서 사용되는 바와 같이, 비디오 시퀀스에 대한 '장면' 또는 '샷'이란 용어들은 유사한 컬러 및 다이내믹 레인지 특성들을 공유하는 비디오 신호에서의 일련의 연속 프레임들에 관련될 수 있다. 대부분의 비디오 압축 포맷들에서의 비디오 예측의 연속적인 성질 때문에, 비디오 인코더의 전형적인 경계들, 이를테면 장면 변경들 또는 새로운 화상들의 그룹(GOP)에 일치하는 경계들에서만 양자화 파라미터들을 조정하는 것이 바람직할 수 있다. 따라서, F 개의 프레임들을 갖는 장면과, 프레임 기반 노이즈-마스킹 히스토그램들 b _j (m)이 주어지면, 장면 기반 노이즈-마스킹 히스토그램 b(m)이 다음과 같이 도출될 수 있다

. (7)

일 실시예에서, 1의 노이즈 상한을 가정하면, 전체 장면에 대한 화소 값들이 없는 노이즈 빈들에게는 최대 가능 노이즈 레벨 값 즉, 1이 할당될 수 있다. 일부 실시예들에서, 누락 빈들이 이웃 빈들로부터 또한 보간될 수 있다. j=1, 2, ..., F에 대해, 장면 기반 최소 및 최대 화소 값들이 또한 다음과 같이 생성될 수 있다

,

. (8)

도 4는 B _I = 16 및 M = 64 개 빈들을 위한 HDR 장면에 대한 장면 기반 노이즈 마스킹 히스토그램의 일 예를 묘사한다. 이 예에서, 어두운 지역들은 중간 톤들 및 하이라이트들보다 더 높은 마스킹 노이즈 레벨들을 포함한다.

히스토그램 빈 당 비트 깊이 계산

노이즈 마스크 히스토그램에 각각의 빈에 대한 노이즈 레벨 b _m 이 주어지면, 다음 단계가 각각의 빈에 할당될 것이 필요한 비트들의 수를 결정할 것이다. 일 실시예에서, 그런 매핑은 실험적 사용자 연구 결과들에 기초하여 결정될 수 있다. 예를 들어, 하나의 이러한 연구에서, 사용자들에게는, 가우시안 노이즈가 양자화 전에 이미지들에 추가되었던, 상이한 비트 깊이들로 양자화된 테스트 이미지들을 평가한 것이 보여졌다. 일 예로서, 도 5는 r _L = 9 및

= 3을 갖는 가우시안 필터들을 사용하여 사용자 연구의 결과들을 묘사한다. 예를 들어, 2^-10의 잡음 마스크 레벨에 대해, 요구된 비트 깊이는 8 비트이다. 예상된 바와 같이, 도 5는 마스크 노이즈의 더 높은 레벨들을 갖는 이미지 지역들이 더 작은 비트 깊이들에서 완전한(full) 시각적 투명도를 성취할 수 있다는 것을 나타낸다. 대안적으로, 이미지를 더 많이 평활화할수록, 더 큰 비트 깊이가 정확하고 인지적으로 무손실의 표현을 위해 필요하다.

한 쌍의 데이터 쌍들(

,

), i =1, 2, 3,..., N을 고려하면 i번째 입력 노이즈 레벨

에 대해, 대응하는 최소 비트 깊이가

라는 것이 (예컨대, 사용자 연구들 또는 다른 기법들을 통해) 결정되어 있다. 일 실시예에서, 이들 쌍들은 다음의 마스킹 노이즈 대 비트 깊이 함수로서 표현될 수 있다

. (9)

예를 들어, 제한 없이, 단순 선형 보간을 사용하면,

에 대해,

. (10)

일 실시예에서,

매핑은 룩업 테이블을 사용하여 컴퓨팅될 수 있다. 일 실시예에서, 비트 깊이 데이터를 직접적으로 사용하는 대신 히스토그램 빈 내의 요구된 코드워드들의 수에 기초하여 코드워드 매핑(220)을 수행하는 것이 더욱 편리할 수 있다. 이는 다음의 섹션에서 검사된다.

코드워드 매핑 생성

B _T 가 재-양자화된 신호(152)에 대한 타겟 비트 깊이(예컨대, 컬러 성분마다 B _T = 10 개 비트/화소)를 표시한다고 하자, 그러면 출력은

개 코드워드들을 사용하여 매핑될 것이다. 일 실시예에서, 코드워드들의 범위는 1로 정규화되며, 그래서

. (11)

가 빈 m 당 정규화된 코드워드들의 수라고 하자. 예를 들어, Q _m = 9, B _I = 16 및 B _T = 10이면, D _m = 2^-17이다.

(m - 1)W ≤ i ≤ mW에 대해, d _i = D _m (12)

이 입력

당 정규화된 코드워드들의 수라고 하자, 그러면 d _i 는 입력 코드워드 당 요구된 코드워드들의 수에 대한 하한이라고 간주될 수 있다. 모든 입력 코드워드들에 대한 정규화된 코드워드들의 총 수 D는 1에 의해 제한되거나, 또는

. (13)

도 6a는 B _I = 16에 대한 단일 비디오 프레임을 위해 컴퓨팅된 바와 같은 수의 정규화된 코드워드들(0부터 65535까지의 범위에 이르는 입력 코드워드들)의 예시적인 선도(d _i (605))를 묘사한다. 그 선도는 16 비트에서부터 9 개의 최대 유효 비트(610) 또는 10 개의 최대 유효 비트(615) 중 어느 하나로 단순 절사한 경우의 정규화된 코드워드들의 수를 또한 도시한다. 도 6a에 묘사된 바와 같이, 단순 10-비트 절사는 하이라이트 범위에서의 특정 입력 화소들에 대한 비트 깊이 요건들을 만족시키기에는 적합하지 않다.

U = 1- D가 미사용된 정규화된 코드워드들의 수를 표시한다고 하자. 이들 미사용된 코드워드들은 주어진 기준에 따라 입력 코드워드들에 재할당되는 것이 필요하다. 일 실시예에서, 제한 없이, 다음의 할당 스킴들 중 임의의 할당 스킴(또는 그러한 할당 스킴들의 조합)이 채용될 수 있다:

i) 비례 할당

이 기준 하에서, 입력 v _L ≤ i ≤ v _H 에 대해 추가적인 코드워드들이 현존 분포에 기초하여 할당되거나, 또는

(14)

이며, 여기서

는 정규화된 코드워드 값들의 업데이트된 수를 나타낸다.

ii) 상수 오프셋 할당

이 기준 하에서, 초과 코드워드들이 균일하게 배분되거나, 또는 입력 v _L ≤ i ≤ v _H 에 대해,

. (15)

iii) 히스토그램 기반 할당

h _i 가 원래의 입력 이미지의 히스토그램이라 하자, 다시 말하면 v _L ≤ i ≤ v _H 에 대해, h _i = k는 P 개 화소들 중에 값 i를 갖는 k 개 화소들이 있다고 하자. 그러면, 이 기준 하에서, 코드워드들은 히스토그램 값들에 따라 할당되거나, 또는 입력 v _L ≤ i ≤ v _H 에 대해

. (16a)

변형예에서, 입력 범위를 M 개의 서브범위들(예컨대, M=3인 경우, 흑색들, 중간 톤들, 및 하이라이트들)로 나누고 m번째 서브범위 내의 입력 화소들의 총 수를 나타내는 히스토그램 H _m (m = 1, 2, …, M)을 컴퓨팅할 수 있으며, 그러면, m번째 화소 서브범위에 속하는 i에 대해

. (16b)

iv) 스칼라 기반 할당

이는 히스토그램 기반 할당(예컨대, 단지 두 개의 빈들만을 갖는 히스토그램을 고려하면, 하나는 암흑들을 위한 것이고 하나는 하이라이트들을 위한 것임)과 상수 오프셋 할당의 조합으로 간주될 수 있다. α가 "암흑들" 대 "하이라이트들"의 상대적 중요도를 나타내는 0과 1 사이의 파라미터를 표시한다고 하자, 그러면, 입력 v _L ≤ i ≤ v _H 에 대해, 이 기준 하에서

. (17)

U = 0이면, 코드워드들의 재분배는 가능하지 않다. 그런 시나리오 하에서, 나중에 또한 논의될 바와 같이, 인코더가 타겟 비트 깊이를 증가시켜, 노이즈를 입력 이미지에 추가시켜 d _i 분포를 효과적으로 감소시키는 것, 또는 아무것도 하지 않고 디코더 및 포스트-프로세싱 필터링에 의존하여 관측가능 양자화 노이즈를 감소시키는 것 중 어느 하나를 할 것을 결정할 수 있다. 나머지 프로세싱 단계들은

데이터에 직접적으로 동작할 수 있지만; 일 실시예에서, 이들 데이터는 개선된 성능을 위해, 저역 통과 필터, 예컨대, 2N+1-탭 평균화 필터에 의해 평활화될 수 있다.

i < v _L 및 i > v _H 에 대해,

이고

그렇지 않으면,

, (18)

이며, 여기서 k = -N, -N+1,..., N인

는 평활화 필터의 필터 계수들(예컨대,

)이라고 하자. 일 실시예에서, 이 필터의 길이는 적어도 노이즈 마스크 히스토그램의 두 개의 연속적인 빈들의 사이즈에 걸쳐 이어질만큼 충분히 길다(예컨대, N = W). 더 긴 필터들이 더 나은 평활화를 제공할 것이지만, 더 많은 계산 능력을 요구할 것이다.

도 6b는 상수 오프셋 할당 스킴에 따라 컴퓨팅되는 평활화된

데이터를 나타내는

데이터의 예시적인 선도(620)를 묘사한다. 일부 경우들에서,

값들의 합은 1을 초과할 수 있으며, 그런고로, 이들 값들은 다음과 같이 다시 재정규화될 것이 필요하다

,

. (19)

s _i 의 값들은 다음의 하한 제약조건을 만족시켜야 하며, 즉

v _L ≤ i ≤ v _H 에 대해

. (20)

, (21)

가 주어지면, j번째 프레임에서, 주어진 입력 화소

(i ∈(0,

-1))에 대해 최종, 정규화된, 재양자화된 화소 값 s _jp 는 다음과 같이 표현될 수 있다:

. (22)

일 실시예에서, FL(i) 값들은 미리 컴퓨팅된 룩업 테이블(LUT)에 저장될 수 있다. 대안적으로, 정규화된 s _jp 값들이 범위 0 내지

- 1에서의 역정규화된(de-normalized) 값들로 또한 매핑될 수 있다. (620) 데이터에 기초한 FL(i) 매핑(630)의 일 예가 도 6c에 묘사된다.

도 7은 코드워드-매핑 프로세스(220)에서의 단계들의 예시적인 요약을 묘사한다. 입력으로서 노이즈-히스토그램 빈(Q _m ) 당 요구된 비트 깊이(217), 입력 비트 깊이(B _I ) 및 타겟 비트 깊이(B _T )가 주어지면, 단계 (705)는 수학식 (12)에 따라 입력 I _jp = i 당 요구된 코드워드들의 정규화된 수의 하한을 컴퓨팅한다. 단계 (710)에서, 임의의 미사용된 코드워드들이, 예를 들어, 수학식들(14~17)에 의해 설명된 바와 같이, 다수의 재분배 스킴들 중 어느 하나의 재분배 스킴에 따라 재배분된다. 옵션적으로, 단계 (715)에서, 재배분된 데이터

는 평활화된, 정규화된 수의 코드워드들을 생성하기 위해 필터링되어(예컨대, 수학식 (18)을 참조), 그런 코드워드들은 단계 (720)에서 누적 합 함수에 기초하여 최종 코드워드 매핑을 생성하는데 사용된다.

프레임 기반 적응적 양자화

앞서 논의된 바와 같이, 수학식 (7)에 따라, 일 실시예에서, 적응적 양자화가 장면에서의 다수의 프레임들 전체에 걸쳐 수집된 노이즈-마스킹 히스토그램 데이터에 기초할 수 있다. 다수의 프레임들 전체에 걸쳐 데이터를 수집하는 것은 적응적 양자화가 실시간으로 수행될 것이 필요한 환경에서 용인 불가능할 수 있는 상당한 지연을 도입할 수 있다. 다른 실시예에서, 코드워드 매핑(또는 재성형)은 장면에서의 첫 번째 프레임으로부터의 데이터를 사용하여 수행될 수 있지만; 매핑은 장면의 프레임들 내에서 작은 변동들을 수용하기 위해 주기적으로 조정될 수 있다. 그런 프로세스는 표 1에서의 의사-코드에서 설명된다.

[표 1] 프레임 기반 적응적 양자화

역방향 재성형

일부 실시예들에서, 역방향 재성형(160)이 순방향 재성형(150)의 효과들을 뒤집기 위해 적용될 수 있다. 일 실시예에서, 인버스 양자화를 위한 룩업 테이블이 다음과 같이 구축될 수 있다:

a) 양자화된 도메인(s _c )에서의 각각의 코드워드에 대해, FL(v _i ) = s _c 인 모든 입력 코드워드들(v _i )을 식별한다. 이 그룹이

로서 표시된다고 하자; 그러면

b) 역방향 재성형 함수(BL(s _c))를

의 함수로서 구축.

예를 들어, 일 실시예에서, 제한 없이, BL(s _c)은

에 속하는 모든 코드워드들의 평균으로서 구축될 수 있거나, 또는

> 0이면,

, (23)

여기서

는 세트

에서의 엘리먼트들의 수를 나타낸다. 임의의 s _c 값들에 대해

=0이면, 일 실시예에서, 이들 값들은 그것의 이웃하는 영이 아닌 값들로부터 보간될 수 있다.

대체 실시예들

미리 설명된 바와 같이, 하나의 실시예에서, 제안된 적응적 양자화는 현존 코덱들의 비트 깊이 관련 제한을 수용하기 위해 코딩(압축) 단계(120) 전에 수행될 수 있다. 양자화 후, 재성형 매핑 함수(630)(예컨대, 역 매핑 함수)에 관련된 데이터는 디코더가 역 매핑을 수행하는 것을 허용하기 위해 메타데이터로서 (예컨대, 멀티-세그먼트 선형 또는 2차 다항식의 계수들로서 또는 룩업 테이블로서) 삽입될 수 있다. 대안적으로, 타겟 비트 깊이 한계들 내에서 동작할 수 있는 만족스러운 재성형 함수가 없다면, 일 실시예에서, 본 기술분야에서 공지된 바와 같은 노이즈 또는 디더링이 양자화 에러들의 마스킹을 개선시키기 위해 이미지의 원래의 평활 영역들에 추가될 수 있다. 이러한 노이즈는 노이즈 마스크 히스토그램 생성 단계(210)의 출력에 따라 추가될 수 있다.

일부 실시예들에서, 콘텐츠 기반 지각 양자화 프로세스는 디코더에 의해 수신된 정보에 따라 추가로 적응되고 조정될 수 있다. 예를 들어, 하류의 디바이스가 주변 광의 세기 또는 가시 거리를 측정하는 센서들을 갖는 디스플레이에 부속된다면, 이러한 정보는 노이즈 마스크 생성(205)을 위한 필터들 또는 적응적 양자화 프로세스(예컨대, 재분배 단계)의 다른 파라미터들 중 어느 한쪽을 조정하기 위해 인코더의 상류로 전송될 수 있다. 예를 들어, 높은 주변 광에 대해, 더 작은 양자화 단계들이 암흑 영역들에서 필요하다.

일부 실시예들에서, 인코더 스테이지에서 노이즈 주입 또는 디더링을 수행하는 대신, 이 동작은 인코더에 의해 전송된 메타데이터 정보(예컨대, 노이즈 마스크 히스토그램)에 기초하여 디코더에서 수행될 수 있다.

이미지 프로세싱의 기술분야의 통상의 기술자에 의해 이해될 바와 같이, 제안된 콘텐츠 적응적 양자화 기법들은 부가적인 노이즈, 디더링, 또는 비트 절사를 적용함으로써 비트 깊이 요건들을 감소시키는 다양한 다른 이미지 프로세싱 애플리케이션들에 적용 가능할 수 있다.

예시적인 컴퓨터 시스템 구현

본 발명의 실시예들은 컴퓨터 시스템, 전자 회로 및 컴포넌트들로 구성되는 시스템들, 마이크로제어기와 같은 집적 회로(integrated circuit)(IC) 디바이스, 필드 프로그램가능 게이트 어레이(field programmable gate array)(FPGA), 또는 다른 구성가능 또는 프로그램가능 로직 디바이스(programmable logic device)(PLD), 이산 시간 또는 디지털 신호 프로세서(digital signal processor)(DSP), 애플리케이션 특화 IC(ASIC), 및/또는 이러한 시스템들, 디바이스들 또는 컴포넌트들 중 하나 이상을 포함하는 장치로 구현될 수 있다. 컴퓨터 및/또는 IC는 본 명세서에서 설명되는 것들과 같은 향상된 다이내믹 레인지를 갖는 이미지들의 적응적 지각 양자화에 관련된 명령어들을 수행, 제어, 또는 실행할 수 있다. 컴퓨터 및/또는 IC는 본 명세서에서 설명되는 적응적 지각 양자화 프로세스들에 관련한 다양한 파라미터들 또는 값들 중 임의의 것을 컴퓨팅할 수 있다. 이미지 및 비디오 실시예들은 하드웨어, 소프트웨어, 펌웨어, 또는 그것들의 다양한 조합들로 구현될 수 있다.

본 발명의 특정 구현예들은 프로세서들로 하여금 본 발명의 방법을 수행하게 하는 소프트웨어 명령어들을 실행하는 컴퓨터 프로세서들을 포함한다. 예를 들어, 디스플레이에서의 하나 이상의 프로세서들, 인코더, 셋톱 박스, 트랜스코더 등은 프로세서들에 액세스 가능한 프로그램 메모리에서 소프트웨어 명령어들을 실행함으로써 위에서 설명된 바와 같은 HDR 이미지들의 적응적 지각 양자화에 관련된 방법들을 구현할 수 있다. 본 발명은 프로그램 제품의 형태로 또한 제공될 수 있다. 프로그램 제품은, 데이터 프로세서에 의해 실행될 때, 데이터 프로세서로 하여금 본 발명의 방법을 실행하게 하는 명령어들을 포함하는 컴퓨터 판독가능 신호들의 세트를 운반하는 임의의 비-일시적 매체를 포함할 수 있다. 본 발명에 따른 프로그램 제품들은 매우 다양한 형태들 중 임의의 형태로 있을 수 있다. 프로그램 제품은, 예를 들어, 플로피 디스켓들, 하드 디스크 드라이브들을 포함하는 자기 데이터 저장 매체들, CD ROM들, DVD들을 포함하는 광 데이터 저장 매체들, 전자 ROM들, 플래시 RAM을 포함하는 데이터 저장 매체 등과 같은 물리적 매체들을 포함할 수 있다. 그 프로그램 제품 상의 컴퓨터 판독가능 신호들은 옵션적으로 압축되거나 또는 암호화될 수 있다.

컴포넌트(예컨대, 소프트웨어 모듈, 프로세서, 어셈블리, 디바이스, 회로 등)가 위에서 언급된 경우, 달리 표시되지 않는 한, 그 컴포넌트에 대한 언급("수단"에 대한 언급을 포함함)은, 본 발명의 도시된 예시적인 실시예들에서의 기능들을 수행하는 개시된 구조체와 구조적으로 동등하지는 않은 컴포넌트들을 포함하는, 설명된 컴포넌트의 기능을 수행하는 임의의 컴포넌트(예컨대, 기능적으로 동등한 것)를 그 컴포넌트의 동등물들로서 포함하는 것으로서 해석되어야 한다.

동등물들, 확장물들, 대체물들 및 기타

HDR 이미지들의 효율적인 적응적 지각 양자화에 관련한 예시적인 실시예들이 따라서 설명된다. 전술한 설명에서, 본 발명의 실시예들은 구현예마다 가변할 수 있는 수많은 특정 세부사항들을 참조하여 설명되어 있다. 따라서, 발명인 그리고 발명인 것으로 출원인들에 의해 의도된 것의 단독 및 배타적 표시자는, 임의의 후속하는 정정을 포함하는 그러한 청구항들이 공표한 특정 형태로, 본 출원으로부터 공표된 청구항들의 세트이다. 이러한 청구항들에 포함된 용어들에 대해 본 명세서에서 명시적으로 언급된 임의의 정의들은 청구항들에서 사용되는 바와 같은 용어들의 의미를 좌우한다. 그러므로, 청구항에서 명시적으로 언급되지 않은 제한, 엘리먼트, 특성, 특징, 장점 또는 속성은 이러한 청구항의 범위를 어떠한 방식으로도 제한하지 않는다. 명세서 및 도면들은, 따라서, 제한하는 의미보다는 예시적인 것으로 간주되는 것들이다.

Claims

프로세서를 이용하여 이미지들을 지각 양자화(perceptual quantization)하기 위한 방법으로서,
프로세서로 입력 비트 깊이에서 입력 이미지(117)에 액세스하는 단계;
노이즈 마스크 이미지를 생성하기 위해 상기 입력 이미지에 노이즈 마스크 생성 프로세스(205)를 적용하는 단계 - 상기 노이즈 마스크 이미지는 양자화 노이즈를 마스킹하기 위해 상기 입력 이미지에서의 화소들을 그들의 지각 관련성(perceptual relevance)의 측면에서 특징화함 -;
상기 입력 이미지 및 상기 노이즈 마스크 이미지에 기초하여 노이즈 마스크 히스토그램을 생성하는 단계(212);
상기 노이즈 마스크 히스토그램에서의 하나 이상의 빈들에 대해, 상기 하나 이상의 빈들에 대한 최소 비트 깊이 값들을 생성하기 위해 비트 깊이 함수에 마스킹 노이즈 레벨을 적용하는 단계(215);
상기 입력 비트 깊이, 상기 최소 비트 깊이 값들 및 타겟 비트 깊이에 기초하여 코드워드 매핑 함수(codeword mapping function)(220)를 생성하는 단계; 및
상기 입력 이미지에 상기 코드워드 매핑 함수를 적용하여, 상기 타겟 비트 깊이에서 출력 이미지를 생성하는 단계 - 상기 타겟 비트 깊이는 상기 입력 비트 깊이보다 더 작음 -
를 포함하고,
상기 노이즈 마스크 히스토그램을 생성하는 단계는,
상기 입력 비트 깊이에 기초하여 상기 입력 이미지의 다이내믹 레인지를 컴퓨팅하는 단계;
상기 다이내믹 레인지를 M개의 서브범위들로 나누는 단계 - M은 1보다 큰 정수임 -;
i번째 서브범위에 대해:
상기 i번째 서브범위 내의 화소 값들을 갖는 상기 입력 이미지에서의 모든 화소들을 식별하는 단계;
상기 i번째 서브범위에서의 각각의 화소에 대해,
상기 노이즈 마스크 이미지에서 대응하는 노이즈 마스크 값을 결정하는 단계;
상기 i번째 서브범위에서의 모든 화소들에 대한 상기 노이즈 마스크 값들 중 최소값을 결정하는 단계; 및
상기 i번째 서브범위에서의 화소들에 대한 상기 노이즈 마스크 값들 중 최소값을 상기 노이즈 마스크 히스토그램에서의 i번째 빈에 할당하는 단계
를 포함하는 방법.
제1항에 있어서,
상기 노이즈 마스크 생성 프로세스는,
제1 필터링된 이미지(L)를 생성하기 위해 상기 입력 이미지에 제1 필터(305)를 적용하는 것;
상기 입력 이미지와 상기 제1 필터링된 이미지 사이의 차이의 절대값을 컴퓨팅함으로써 제2 이미지를 생성하는 것; 및
상기 제2 이미지에 제2 필터를 적용함으로써 상기 노이즈 마스크 이미지(H)를 생성하는 것
을 포함하는 방법.
제2항에 있어서,
상기 제1 필터는 저역 통과 가우시안 필터인 방법.
제2항에 있어서,
상기 제2 필터는 저역 통과 가우시안 필터인 방법.
제2항에 있어서,
양자화 프로세스에서 필수적이지 않은 것으로 간주되는 화소들을 제거하기 위해 상기 노이즈 마스크 이미지에 화소 선택 프로세스를 적용하는 단계를 더 포함하는 방법.
삭제
제1항에 있어서,
상기 입력 이미지는 감마 인코딩 또는 SMPTE ST 2084에 따라 인코딩된 하이 다이내믹 레인지 이미지(high dynamic range image)인 방법.
제1항에 있어서,
상기 마스킹 노이즈 레벨 대 비트 깊이 함수는 지각 사용자 연구로부터의 결과들에 따라 생성되는 방법.
제1항에 있어서,
상기 코드워드 매핑 함수를 생성하는 단계는,
상기 최소 비트 깊이 값들, 상기 입력 비트 깊이 및 상기 타겟 비트 깊이에 기초하여 상기 타겟 비트 깊이에서 요구된 코드워드들의 정규화된 수의 하한을 생성하는 단계;
요구된 코드워드들의 업데이트되는 정규화된 수들을 생성하기 위해 할당 스킴에 따라 상기 입력 이미지의 전체 다이내믹 레인지에 대해 미사용된 정규화된 코드워드들을 할당하는 단계; 및
상기 요구된 코드워드들의 업데이트되는 정규화된 수들의 누적 합을 컴퓨팅함으로써 상기 코드워드 매핑 함수를 생성하는 단계
를 더 포함하는 방법.
제9항에 있어서,
상기 코드워드 매핑 함수를 생성하기 이전에 저역 통과 필터에 의해 상기 요구된 코드워드들의 업데이트되는 정규화된 수들을 필터링하는 단계를 더 포함하는 방법.
제10항에 있어서,
상기 저역 통과 필터는 (2N+1)-탭 평균화 필터를 포함하고, N은 양의 정수인 방법.
제9항에 있어서,
상기 할당 스킴은 비례 할당 스킴(proportional allocation scheme)을 포함하고,
여기서, i번째 입력 화소 값에 대해,

이고,
는 코드워드 값들의 업데이트되는 정규화된 수를 나타내고, d _i 는 상기 요구된 코드워드들의 정규화된 수를 나타내고, D는 d _i 값들의 합을 나타내고, U=1-D인 방법.
제9항에 있어서,
상기 할당 스킴은 상수 오프셋 할당 스킴(constant offset allocation scheme)을 포함하고,
여기서, i번째 입력 화소 값에 대해,

이고,
는 코드워드 값들의 업데이트되는 정규화된 수를 나타내고, d _i 는 상기 요구된 코드워드들의 정규화된 수를 나타내고, D가 d _i 값들의 합을 나타내는 경우, U=1-D 이고, v _H 는 최대 입력 화소 값을 나타내고, v _L 은 최소 입력 화소 값을 나타내는 방법.
제9항에 있어서,
상기 할당 스킴은 히스토그램 기반 할당 스킴을 포함하고,
여기서, i번째 입력 화소 값에 대해,

이고,
는 코드워드 값들의 업데이트되는 정규화된 수를 나타내고, d _i 는 상기 요구된 코드워드들의 정규화된 수를 나타내고, h _i 는 i와 동일한 값을 갖는 상기 입력 이미지에서의 화소들의 수를 나타내고, D가 d _i 값들의 합을 나타내는 경우, U=1-D이고, P는 상기 입력 이미지에서 고려 중인 화소들의 총 수를 나타내는 방법.
제9항에 있어서,
상기 할당 스킴은 스칼라 기반 할당 스킴을 포함하고,
여기서, i번째 입력 화소 값에 대해,

이고,
는 코드워드 값들의 업데이트되는 정규화된 수를 나타내고, d _i 는 상기 요구된 코드워드들의 정규화된 수를 나타내고, D가 d _i 값들의 합을 나타내는 경우, U=1-D이고, α는 0과 1 사이의 스칼라이고, v _H 는 최대 입력 화소 값을 나타내고, v _L 은 최소 입력 화소 값을 나타내는 방법.
제9항에 있어서,
입력 화소 값 i에 대해 상기 코드워드 매핑 함수를 생성하는 단계는,

를 컴퓨팅하는 단계를 포함하고,
s _k 값들은 코드워드 값들의 업데이트되는 정규화된 수에 기초하여 도출되는 방법.
제16항에 있어서,
출력 이미지를 생성하는 단계는,

를 컴퓨팅하는 단계를 포함하고,
상기 입력 이미지에서의 화소
에 대해, s _p 는 대응하는 정규화된 양자화된 출력 화소를 나타내고, v _H 는 최대 입력 화소 값을 나타내고, v _L 은 최소 입력 화소 값을 나타내는 방법.
제1항에 있어서,
상기 최소 비트 깊이 값들은, 상기 입력 이미지를 포함하는 비디오 장면에서의 다수의 연속 프레임들에 걸쳐 컴퓨팅된 최소 비트 깊이 값들에 기초하여 컴퓨팅되는 방법.
제9항에 있어서,
상기 타겟 비트 깊이가 상기 할당 단계로 만족될 수 없다는 결정 시에, 상기 노이즈 마스크 이미지에 따라 상기 입력 이미지에 노이즈 또는 디더링을 추가하고, 상기 요구된 코드워드들의 정규화된 수의 하한을 대체하기 위해 요구된 코드워드들의 정규화된 수의 더 새로운 하한을 생성하는 단계를 더 포함하는 방법.
적응적 양자화를 위한 시스템으로서,
입력 프레임들을 수신하고, 제1항의 방법에 따라 재양자화된 프레임들을 생성하기 위한 프로세서;
상기 재양자화된 프레임들을 코딩하여, 코딩된 프레임들을 생성하기 위한 프로세서;
상기 코딩된 프레임들을 디코딩하여, 디코딩된 프레임들을 생성하기 위한 프로세서; 및
상기 디코딩된 프레임들에 역방향 재성형 함수(backward reshaping function)를 적용함으로써 출력 프레임들을 생성하기 위한 프로세서
를 포함하는 시스템.
프로세서를 포함하고, 제1항 내지 제5항 및 제7항 내지 제19항 중 어느 한 항에 기재된 방법을 수행하도록 구성되는 장치.
제1항 내지 제5항 및 제7항 내지 제19항 중 어느 한 항에 따른 방법을 실행하기 위한 컴퓨터 실행가능 명령어가 저장되어 있는 비일시적인 컴퓨터 판독가능 저장 매체.