KR102361987B1

KR102361987B1 - 신경망 매핑을 사용하는 hdr 이미지 표현

Info

Publication number: KR102361987B1
Application number: KR1020207032222A
Authority: KR
Inventors: 구안-밍 수; 칭 송
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date: 2018-04-09
Filing date: 2019-04-08
Publication date: 2022-02-14
Also published as: TW201944357A; JP2021521517A; EP3776474A1; US11361506B2; KR20200142035A; TWI729377B; CN112204617B; US20210150812A1; JP7189230B2; WO2019199701A1; CN112204617A

Abstract

기준 색상 등급 이미지 세트 및 신경망을 사용하여 제1 동적 범위로부터 제2 동적 범위로 이미지를 매핑하는 방법 및 시스템이 기술된다. 상이한 동적 범위에서 동일한 장면을 나타내는 제1 및 제2 이미지가 주어지면, 제1 이미지와 제2 이미지를 기반으로 제2 이미지에 근사하는 출력 이미지를 결정하기 위하여 다양한 NN 모델로부터 신경망(NN) 모델을 선택한다. 최적화 기준, 제1 이미지 및 제2 이미지에 따라 선택된 NN 모델의 매개변수가 유도되며, 여기에서 매개변수는 선택된 NN 모델의 계층에 있는 노드에 대한 노드 가중치 및/또는 노드 편향을 포함한다. 전역적 매핑 및 지역적 매핑 표현을 사용하는 예시적인 HDR 대 SDR 매핑이 제공된다.

Description

신경망 매핑을 사용하는 HDR 이미지 표현

관련된 출원에 대한 상호참조

이 출원은 2018년 4월 9일에 출원된 미국 가출원 제62/654,614호 및 2018년 4월 9일에 출원된 유럽 특허출원 제18166320.4호의 우선권의 이익을 주장하며, 양자는 모두 그 전체로서 본원에 참조로 포함된다.

기술분야

본 발명은 일반적으로 이미지에 관한 것이다. 구체적으로, 본 발명의 실시예는 신경망 매핑을 사용하여 높은 동적 범위 이미지를 한 표현에서 다른 표현으로 매핑하는 것에 관한 것이다.

본원에서 사용되는 바에 따르면, 용어 '동적 범위(dynamic range)'(DR)는 이미지에서 강도(예를 들어, 휘도, 루마)의 범위, 예를 들어, 가장 어두운 회색(검정)으로부터 가장 밝은 흰색(하이라이트)까지를 인식하는 인간 시각 시스템(HVS)의 능력과 관련될 수 있다. 이러한 의미에서, DR은 '장면 참조(scene-referred)' 강도와 관련된다. DR은 또한 특정 폭의 강도 범위를 적절하게 또는 대략적으로 렌더링하는 디스플레이 장치의 능력과 관련될 수 있다. 이러한 의미에서 DR은 '디스플레이 참조(display-referred)' 강도와 관련된다. 특정 의미가 본원의 설명의 임의의 지점에서 특정한 중요성을 갖는 것으로 명시적으로 지정되지 않는 한, 용어는 어떤 의미로도, 예를 들어, 교환 가능한 방식으로 사용될 수 있다고 추론되어야 한다.

본원에서 사용되는 바에 따르면, 용어 HDR(high dynamic range)은 인간 시각 시스템(HVS)의 14-15 자릿수에 걸친 DR 폭과 관련된다. 실제로, 인간이 광범위한 강도 범위를 동시에 인식할 수 있는 DR은, HDR과 관련하여 다소 잘릴 수 있다. 본원에서 사용되는 바에 따르면, 용어 VDR(visual dynamic range)은 눈 움직임을 포함하는 인간 시각 시스템(HVS)에 의해 장면 또는 이미지 내에서 인식할 수 있는 DR과 개별적으로 또는 교환 가능한 방식으로 관련될 수 있으며, 장면 또는 이미지에 걸쳐 약간의 빛 적응 변화를 허용한다. 본원에서 사용되는 바에 따르면, VDR은 5 내지 6 자릿수에 걸친 DR과 관련될 수 있다. 따라서 HDR로 지칭되는 실제 장면과 관련해서는 다소 더 좁지만, 그럼에도 VDR은 넓은 DR 폭을 나타내며 또한 HDR로 지칭될 수 있다.

실제로, 이미지는 하나 이상의 색상 성분(예를 들어, 루마 Y 및 크로마 Cb 및 Cr)을 포함하며, 여기에서 각 색상 성분은 픽셀 당 n-비트의 정밀도(예를 들어, n = 8)로 표현된다. 선형 휘도 코딩을 사용하면, n ≤ 8 인 이미지(예를 들어, 24 비트 컬러 JPEG 이미지)는 표준 동적 범위의 이미지로 간주되고, n> 8 인 이미지는 향상된 동적 범위의 이미지로 간주될 수 있다. HDR 이미지는 또한 인더스트리얼 라이트 앤드 매직(Industrial Light and Magic)에서 개발한 OpenEXR 파일 형식과 같은 고정밀도(예를 들어, 16비트) 부동 소수점 형식을 사용하여 저장 및 유통될 수 있다.

대부분의 소비자 데스크탑 디스플레이는 현재 200 내지 300cd/m2 또는 니트(nit)의 휘도를 지원한다. 대부분의 소비자 HDTV는 300 내지 500 니트 범위이며 새로운 모델은 1000 니트(cd/m2)에 이른다. 따라서 이러한 기존 디스플레이는 HDR과 관련하여 표준 동적 범위(SDR)라고도 하는 낮은 동적 범위(LDR)를 나타낸다. 캡처 장비(예를 들어, 카메라) 및 HDR 디스플레이(예를 들어, 돌비 래버러토리스(Dolby Laboratories)의 PRM-4200 전문가용 레퍼런스 모니터) 양자의 발전으로 인하여 HDR 콘텐츠의 이용 가능성이 증가함에 따라, HDR 콘텐츠는 더 높은 동적 범위(예를 들어, 1,000 니트 내지 5,000 니트 또는 그 이상)를 지원하는 HDR 디스플레이에 대하여 색상 등급이 지정되고 표시될 수 있다.

G-M 수 등에 의한 미국 특허 제8,811,490호 "다중 색상 채널, 다중 회귀 예측기"에서 논의된 바와 같이, 이미지 예측 기술은 단일 계층 및 다중 계층 코딩 기술을 모두 사용하여 HDR 콘텐츠의 효율적인 코딩 및 유통에 중요한 역할을 한다. 이미지 예측은 이미지 매핑의 특수한 경우로 간주될 수 있으며, 여기에서 제1 표현(예를 들어, 동적 범위 및/또는 색 영역의 의미에서, 예를 들어, SDR 이미지)의 이미지가 제2 표현의 이미지(예를 들어, HDR 이미지)로 매핑된다.

인공 신경망에서, "유니버설 근사 정리"에 따라, 적절한 매개변수가 주어지면 다양한 기능이 다양한 단순 신경망(NN)으로 표현될 수 있다. 본원에서 발명자들에 의해 인식된 바와 같이, 단순 신경망을 사용하는 HDR 이미지 및/또는 파생 HDR 또는 SDR 이미지 사이의 이미지 매핑을 위한 개선된 기술이 요구된다.

US 2010246940 A1은 HDR 이미지 생성 방법 및 이를 이용하는 전자 디바이스를 기술한다. 이 방법은 신경망 알고리즘에 의해 생성된 밝기 조정 모델 로딩; 원본 이미지 획득; 원본 이미지의 픽셀 특성 값, 제1 방향의 제1 특성 값 및 제2 방향의 제2 특성 값 획득; 및 상기 원본 이미지의 상기 픽셀 특성 값, 제1 특성 값 및 제2 특성 값에 따라 상기 밝기 조정 모델을 통해 HDR 이미지 생성을 포함한다. 전자 디바이스는 밝기 조정 모델, 특성 값 획득 유닛 및 밝기 조정 절차를 포함한다. 전자 디바이스는 특성 값 획득 유닛을 통해 원본 이미지의 픽셀 특성 값, 제1 특성 값 및 제2 특성 값을 획득하고, 밝기 조정 모델을 통해 원본 이미지로부터 HDR 이미지를 생성한다.

WO2018064591(A1)은 신경망을 사용하여 비디오 프레임을 생성하는 방법을 기술한다. 방법 중 하나는 인코딩된 표현을 생성하기 위하여 인코더 신경망을 사용하여 비디오 프레임 시퀀스를 처리하는 것; 및 픽셀 순서 및 채널 순서에 따라 픽셀 단위로 예측된 다음 프레임을 생성하는 것을 포함하며, 이는 각 픽셀의 각 색상 채널에 대하여, (i) 인코딩된 표현, (ii) 픽셀 순서에서 픽셀 이전의 임의의 픽셀에 대한 색상 값, 및 (iii) 채널 순서에서 색상 채널 이전의 임의의 색상 채널에 대한 픽셀에 대한 색상 값을 디코더 신경망에 입력으로 제공하는 것-여기에서 디코더 신경망은 복수의 가능한 색상 값에 대한 점수 분포를 정의하는 출력을 생성하도록 구성됨, 및 점수 분포에서 샘플링하여 픽셀의 색상 채널에 대한 색상 값을 결정하는 것을 포함한다.

파드 부자라(Fahd Bouzaraa)의 "CNN 기반 비지역적 색상 매핑", 2016 멀티미디어 ISM IEEE 국제 심포지움, 2016년 12월 11일, 313-316 쪽에서는 이미지의 색상을 참조 분포(reference distribution)로 전송하기 위한 색상 매핑에 대해 논의하고 있다. 이러한 방식으로, 단일 이미지를 사용하여, 예를 들어, 어두운 이미지를 동일한 장면을 나타내는 더 밝은 이미지로 변환함에 의하여, 상이한 카메라 노출을 시뮬레이션할 수 있다. 색상 매핑에 대한 대부분의 접근법은 픽셀 단위(지역적) 매핑만을 적용하여 색상 매핑 이미지를 생성한다는 의미에서 지역적이다. 그러나 제시된 접근법에서는 컨볼루션 신경망을 사용하여 이미지 텍스처에서 직접 학습된 특징을 기반으로 하는 비지역적 매핑이 제안된다.

이 섹션에서 기술된 접근법은 추구될 수 있는 접근법이지만, 반드시 이전에 구상되거나 추구된 접근법은 아니다. 따라서, 달리 표시되지 않는 한, 이 섹션에 기술된 접근법이 단순히 이 섹션에 포함된 것으로 인해 선행 기술로서의 자격이 있다고 가정되지 않아야 한다. 유사하게, 하나 이상의 접근법과 관련하여 확인된 문제는, 달리 명시되지 않는 한, 이 섹션을 기반으로 한 선행 기술에서 인식되었다고 가정해서는 안된다.

본 발명의 실시예는 첨부 도면의 도에서, 제한이 아닌 예로서 도시되고, 유사한 참조 번호는 유사한 요소를 지칭한다.
도 1은 HDR 데이터를 코딩하고 전송하기 위한 예시적인 데이터 흐름을 도시한다.
도 2a는 예시적인 HDR 인코딩 시스템을 도시한다.
도 2b는 예시적인 HDR 디코딩 시스템을 도시한다.
도 3a는 본 발명의 일 실시예에 따라 신경망을 사용하여 전역적 매핑을 생성하는 예시적인 시스템을 도시한다.
도 3b는 본 발명의 일 실시예에 따라 신경망을 사용하여 지역적 매핑을 생성하는 예시적인 시스템을 도시한다.
도 3c는 본 발명의 일 실시예에 따라 신경망을 사용하여 다중 등급으로 글로벌 매핑을 생성하는 예시적인 시스템을 도시한다.
도 3d는 본 발명의 일 실시예에 따라 단일 YCbCr 망을 사용하여 전역적 매핑을 생성하는 예시적인 시스템을 도시한다.
도 3e는 본 발명의 실시예에 따른 단일 YCbCr 신경망 매핑을 사용하는 예측기를 위한 예시적인 시스템을 도시한다.
도 3f는 본 발명의 일 실시예에 따른 전역적 매핑 신경망을 사용하는 예측기를 위한 예시적인 시스템을 도시한다.
도 4는 본 발명의 일 실시예에 따라 신경망 및 3D 매핑 테이블을 사용하여 전역적 매핑을 생성하는 예시적인 시스템을 도시한다.
도 5는 본 발명의 일 실시예에 따른 신경망을 사용하여 이미지 매핑 함수를 유도하는 예시적인 프로세스를 도시한다.
도 6은 2 개의 은닉 계층을 갖는 예시적인 신경망을 도시한다.

신경망에 기반한 이미지 매핑 함수의 유도가 본원에서 기술된다. 이 섹션에서는, 대응하는 이미지 세트, 즉 상이한 동적 범위 수준에서 동일한 장면을 나타내는 이미지가 주어지면, 인코더가 신경망 기반 매핑을 사용하여 이미지 중 하나를 다른 하나와 근사하게(approximate) 만드는 방법을 기술한다. 다음의 설명에서, 본 발명에 대한 완전한 이해를 제공하기 위하여 다수의 특정 세부 사항이 설명의 목적으로 제시된다. 그러나, 본 발명은 이러한 특정 세부 사항 없이 실시될 수 있음이 명백할 것이다. 다른 경우에, 공지의 구조 및 디바이스는 본 발명을 불필요하게 가리거나, 불분명하게 하거나, 모호하게 하는 것을 피하기 위하여 철저한 상세 사항까지 설명하지 않는다.

개요

본원에 기술된 예시적인 실시예는 신경망을 사용하여 이미지 매핑 기능을 유도하는 것에 관한 것이다. 제1 실시예에서, 인코더는 각각 제2 동적 범위를 갖는 이미지에 기초하여 제1 동적 범위를 갖는 이미지를 근사하도록 적응되는 하나 이상의 신경망(NN) 모델에 액세스할 수 있다. 인코더는 제1 동적 범위의 제1 이미지와 제2 동적 범위의 제2 이미지를 수신하며, 여기에서 두 이미지는 동일한 장면을 나타낸다. 인코더는 다양한 NN 모델에서 신경망 모델을 선택하여 제1 이미지와 제2 이미지를 기반으로 제2 이미지에 근사하는 출력 이미지를 결정한다. 다음으로, 최적화 기준, 제1 이미지 및 제2 이미지에 따라 선택된 NN 모델의 매개변수의 적어도 일부 값을 결정하며, 여기에서 매개변수는 선택된 NN 모델의 적어도 하나의 계층에 있는 노드의 적어도 일부에 대한 활성화 함수와 함께 사용될 노드 가중치 및/또는 노드 편향을 포함한다. 이때, 일부 노드 가중치 및/또는 노드 편향이 미리 결정될 수 있으며, 따라서, 최적화 기준에 따라 선택된 NN 모델의 매개변수의 모든 값을 결정할 필요가 없을 수 있음을 언급하여야 한다. 생성된 출력 이미지는 압축될 수 있으며, 매핑을 특징짓는 NN 매개변수는 디코더로 전달될 메타데이터로 코딩될 수 있다.

제2 실시예에서, 디코더는 제1 동적 범위의 인코딩된 이미지 및 이미지 메타데이터를 포함하는 압축된 비트스트림을 수신하고, 여기에서 이미지 메타데이터는 인코딩된 이미지를 제2 동적 범위의 출력 이미지로 매핑하기 위한 신경망(NN) 모델에 대한 매개변수를 포함한다. 인코딩된 이미지의 하나 이상의 색상 성분에 대하여, 이미지 메타데이터는 NN의 신경망 계층의 수, 적어도 하나의 계층에 대한 신경 노드의 수, 적어도 하나의 계층의 일부 노드에서 활성화 함수와 함께 사용될 가중치 및 오프셋을 포함할 수 있다. 인코딩된 이미지를 디코딩한 후, 디코더는 인코딩된 이미지와 NN 모델의 매개변수에 기반하여 제2 동적 범위에서 출력 이미지를 생성한다.

예시적인 HDR-SDR 시스템

도 1은 본 발명의 일 실시예에 따른 HDR-SDR 시스템(100)에서의 예시적인 데이터 흐름을 도시한다. HDR 이미지 또는 비디오 시퀀스는 HDR 카메라(110)를 사용하여 캡처된다. 캡처 후, 캡처된 이미지 또는 비디오는 마스터링 프로세스(120)에 의해 처리되어 목표 HDR 이미지(125)를 생성한다. 마스터링 프로세스는 편집, 1차 및 2차 색상 보정, 색상 변환 및 노이즈 필터링과 같은 다양한 처리 단계를 포함할 수 있다. 이 프로세스의 HDR 출력(125)은 캡처된 이미지가 목표 HDR 디스플레이(예를 들어, HDR 디스플레이(160))에 표시되는 방식에 대한 감독의 의도를 나타낸다.

마스터링 프로세스는 캡처된 이미지가 기존의 SDR 디스플레이(165)에 표시되는 방식에 대한 감독의 의도를 나타내는 대응 SDR 이미지(145)를 또한 출력할 수 있다. SDR 출력(예를 들어, 145-1 또는 145-2)은 마스터링 회로(120)로부터 직접 제공될 수 있거나, 별도의 HDR 대 SDR 변환기(140)로 생성될 수 있거나, 컬러리스트의 도움으로 생성될 수 있다.

본원에서 사용되는 바에 따르면, 용어 "트림 패스(trim-pass)"는 제1 목표 디스플레이(예를 들어, 4,000 니트의 전문가용 모니터)에서 생성된 비디오 스트림이 상이한 동적 범위 및/또는 색재현율(color gamut)을 갖는 제2 목표 디스플레이를 위한(예를 들어, 300 니트의 SDR TV를 위한) 제2 스트림으로 재매핑되는 콘텐츠 제작 단계를 의미한다. 트림 패스는 컬러리스트에 의해 추가로 조정되어 원본 비디오 스트림의 "색상 등급"을 생성할 수 있다. 스튜디오는 SDR 영화관(예를 들어, 48 니트), HDR 영화관(예를 들어, 100 니트), SDR TV(예를 들어, 300 니트), HDR TV(예를 들어, 1,000 니트) 등에서의 출시를 위하여 여러 "트림" 및/또는 "색상 등급"을 생성할 수 있다. 두 개의 트림이 동일한 동적 범위를 가지면서 상이한 색재현율을 가질 수 있다. 본원에서 사용되는 바에 따르면, 용어 "파생 영상"은 마스터 HDR 또는 SDR 영상으로부터 파생된 이러한 트림된 또는 색상 등급화된 영상을 나타낸다.

이 예시적인 실시예에서, HDR(125) 및 SDR(145) 신호는 인코더(130)에 입력된다. 인코더(130)의 목적은 HDR 및 SDR 신호를 전송하는 데 필요한 대역폭을 감소시키지만 대응하는 디코더(150)가 SDR 또는 HDR 신호를 디코딩하고 렌더링할 수 있는 코딩된 비트스트림을 생성하는 것이다. 예시적인 구현에서, 인코더(130)는 MPEG-2 및 H.264 코딩 표준에 의해 정의된 것들 중 하나와 같은 단일 계층 또는 다중 계층 인코더일 수 있으며, 이는 그 출력을 기본 계층, 선택적인 하나 이상의 향상 계층 및 메타데이터로 나타낸다. 본원에서 사용되는 바에 따르면, 용어 "메타데이터"는 코딩된 비트스트림의 일부로서 전송되며 디코더가 디코딩된 이미지를 렌더링하도록 지원하는 임의의 보조 정보와 관련된다. 이러한 메타데이터는, 본원에서 기술된 것과 같은, 색 공간 또는 색재현율 정보, 동적 범위 정보, 톤 매핑 정보, 또는 NN 노드 매개변수와 같은 데이터를 포함할 수 있지만 이에 제한되지 않는다.

수신기에서, 디코더(150)는 수신된 코딩된 비트스트림 및 메타데이터를 사용하여 목표 디스플레이의 성능에 따라 SDR 이미지(157) 또는 HDR 이미지(155)를 렌더링한다. 예를 들어, SDR 디스플레이(165)는 SDR 이미지를 렌더링하기 위해 기본 계층과 메타데이터만을 사용할 수 있다. 대조적으로, HDR 디스플레이(160)는 HDR 신호를 렌더링하기 위해 모든 입력 계층 및 메타데이터로부터의 정보를 사용할 수 있다.

일부 실시예에서, 시스템(100)은 130에서 비디오 인코더의 능력과 더 잘 일치하도록 입력 비디오 콘텐츠(미도시)의 "재정형(reshaping)"을 적용할 수 있다. 본원에서 사용되는 바에 따르면, 용어 "순방향 재정형"은 디지털 이미지를 원본 비트 깊이 및 원본 코드워드 분포 또는 표현(예를 들어, 감마, PQ 또는 HLG 등)으로부터 동일하거나 상이한 비트 깊이 및 상이한 코드워드 분포 또는 표현의 이미지로 샘플 대 샘플 또는 코드워드 대 코드워드 매핑하는 프로세스를 나타낸다. 재정형은 압축률의 향상이나 고정 비트 전송률에서 이미지 품질의 향상을 허용한다. 예를 들어, 제한 없이, 10비트 또는 12비트 PQ 코딩된 HDR 비디오에 재정형을 적용하여 10비트 비디오 코딩 아키텍처에서 코딩 효율성을 향상시킬 수 있다. 수신기에서, 재정형된 신호를 압축 해제한 후, 수신기는 "역 재정형 함수"를 적용하여 신호를 원래 코드워드 분포로 복원할 수 있다. 이미지 재정형의 예는 2016년 3월 30일에 출원된 G-M 수의 PCT 출원 PCT/US2016/025082, "높은 동적 범위 비디오 코딩에서 루프 내 블록 기반 이미지 재정형"에서 찾을 수 있으며, 이는 WO 2016/164235로도 공개되어 있다.

도 2a는 본 발명의 방법을 포함하는 인코더(130)의 예시적인 구현을 더 상세히 도시한다. 도 2a에서 SDR'(207)은 향상된 SDR 신호를 나타낸다. 현재 SDR 비디오는 8-10비트, 4:2:0, ITU Rec. 709 데이터이다. SDR'은 SDR과 동일한 색 공간(원색 및 백색점)을 가질 수 있지만, 전체 공간 해상도(예를 들어, 4:4:4 RGB)에서 모든 색상 성분과 함께 픽셀 당 12비트와 같은 높은 정밀도를 사용할 수 있다. 도 2a에서, SDR은 예를 들어 픽셀 당 12비트에서 픽셀 당 10비트로의 양자화(또는 순방향 재정형), 예를 들어 RGB에서 YUV로의 색상 변환 및 예를 들어 4:4:4에서 4:2:0로의 색상 서브샘플링을 포함할 수 있는 순방향 변환 세트를 사용하여 SDR' 신호에서 쉽게 파생될 수 있다. 변환기(210)의 SDR 출력은 압축 시스템(220)으로 인가된다. 애플리케이션에 따라, 압축 시스템(220)은 H.264, MPEG-2 등과 같은 손실 또는 무손실일 수 있다. 압축 시스템(220)의 출력은 기본 계층(225)으로서 전송될 수 있다. 인코딩된 신호와 디코딩된 신호 사이의 드리프트(drift)를 줄이기 위하여, 인코더(130)가 210의 순방향 변환에 대응하는, 대응하는 압축 해제 프로세스(230) 및 역변환(240)으로 압축 프로세스(220)를 따르는 것은 드문 일이 아니다. 따라서, 예측기(250E)는 다음과 같은 입력을 가질 수 있다: HDR 입력(205) 및 SDR' 신호는 대응하는 디코더에 의해 수신될 것이므로 이에 대응하는 SDR 신호(245) 또는 입력 SDR'(207). 입력 HDR 및 SDR 데이터를 사용하여, 예측기(250E)는 입력 HDR(205)의 근사치 또는 추정치를 나타내는 신호(257)를 생성할 것이다. 계층화된 시스템에서, 가산기(260)는 원본 HDR(205)로부터 예측된 HDR(257)을 빼서 출력 잔차 신호(265)를 형성한다. 이어서(미도시), 잔차(265)는 또한 다른 손실 또는 무손실 인코더에 의해 코딩될 수 있고, 향상 계층으로서 디코더에 전송될 수 있다

예측기(250E)는 또한 예측 프로세스에서 사용되는 예측 매개변수를 메타데이터(255)로서 제공할 수 있다. 인코딩 프로세스 중에 예측 매개변수가, 예를 들어, 프레임 단위로 또는 장면 단위로 변경될 수 있으므로, 이러한 메타데이터는 기본 계층 및 향상 계층을 포함하는 데이터의 일부로 디코더에 전송될 수 있다.

HDR(125) 및 SDR(145)은 모두 동일한 장면을 나타내면서, 동적 범위 및 색재현율과 같은 상이한 특성을 갖는 상이한 디스플레이를 대상으로 하기 때문에, 이들 두 신호 사이에는 매우 밀접한 상관관계가 있을 것으로 예상된다. 본 발명의 예시적인 실시예에서, 신경망 매핑을 사용하여 입력 기준 신호가 근사 표현으로 매핑되도록 하는 새로운 매핑 함수가 개발된다. HDR 대 SDR 매핑에 대한 예가 제공되지만, 두 개의 상이한 HDR 등급, 두 개의 상이한 SDR 등급 또는 SDR과 HDR 등급 사이의 이미지 매핑에 동일한 기술을 사용할 수 있다.

본 발명의 실시예는 이미지 인코더 또는 이미지 디코더에서 구현될 수 있다. 도 2b는 본 발명의 실시예에 따른 디코더(150)의 예시적인 구현을 도시한다. 디코딩 시스템(150)은, 예를 들어, 인코더(200-E)로부터 생성된, 코딩된 비트스트림(270)을 수신하며, 이는 기본 계층(예를 들어, 245), 선택적 향상 계층(또는 잔차)(예를 들어, 265) 및 메타데이터(255)를 결합할 수 있고, 압축 해제(230) 및 기타 역변환(240) 후에 추출된다. 예를 들어, HDR-SDR 시스템에서, 기본 계층(245)은 코딩된 HDR 신호의 SDR 표현을 나타낼 수 있고 메타데이터(255)는 인코더 예측기(250E)에서 사용된 신경망 매핑(NNM) 및 대응하는 NNM 매개변수에 대한 정보를 포함할 수 있다. 하나의 예시적인 구현에서, 인코더가 본 발명의 방법에 따라 NN 매핑을 사용할 때, 메타데이터는 사용되는 모델의 식별(예를 들어, 전역적 매핑, 지역적 매핑 등) 및 그 특정 모델과 연관된 모든 매개변수를 포함할 수 있다. 기본 계층(245) 및 메타데이터(255)로부터 추출된 NNM 관련 매개변수가 주어지면, 예측기(250D)는 예측된 HDR(257)을 계산할 수 있다. 잔차가 없거나 잔차가 무시할 만한 경우, 예측 신호(257)를 최종 HDR 이미지로 직접 출력할 수 있다. 그렇지 않으면, 가산기(260)에서, 예측기(250D)의 출력(257)이 잔차(265)에 추가되어 HDR 신호(290)를 출력한다.

예시적인 신경망 매핑

배경

제한 없이,

가 HDR 이미지(125)와 같은 제1 이미지로부터의 i-번째 픽셀의 3색상 값(예를 들어, RGB 또는 YCbCr 등)을 표시한다고 하자. 제2 이미지(예를 들어, SDR 이미지(145)) 내의 대응하는 i-번째 픽셀을

로 표시한다. 각 이미지의 총 픽셀 수를 P로 표시하고 모든 픽셀 값이 [0 1] 사이에서 정규화된다고 가정한다. 제1 이미지의 픽셀 값을 제2 이미지의 해당 픽셀 값에 매핑(또는 그 반대)하는 매핑 함수, M()를 찾고자 한다. 즉:

(1a)

또는

. (1b)

일 실시예에서, 다층 신경망에서, j-번째 계층은 각각의 입력에 적용되는 가중치 및 편향의 비선형 함수로 표현될 수 있다.

(2)

여기에서, W _j 는 가중치 행렬이고, b _j 는 편향 벡터이고, f _j ()는 활성화 함수이고, x _j _- ₁ 는 (이전 계층의 출력으로부터의) 입력이며, x _j 는 현재 계층의 출력이다. 예를 들어, x _j 는 다음과 같이 표현될 수 있다.

여기에서 N _j 는 신경망의 j-번째 수준에서 노드의 수를 표시한다. j-번째 수준에서 노드의 수가 다른 수준의 노드의 수와 상이할 수 있음을 유의한다. L 계층을 갖는 NN이 주어지면, 이는 [N ₀ N ₁ ... N _L _-1] NN으로 표시할 수 있다. 예를 들어, [8 4 4] NN은 3개의 계층을 가지며, 제1 계층에 8개의 노드와 다른 두 계층에 각각 4개의 노드를 갖는 신경망을 표시한다.

일반적으로 사용되는 몇 가지 활성화 함수 f _j ()가 있다. 일 실시예에서, f _j ()는 시그모이드(sigmoid) 함수이다.

(3)

제1 계층(예를 들어, j =0)에 대하여, 입력은 원본 입력 픽셀 값이며, 즉 식 (1a)의 매핑을 가정하면, x _-l = v _i 이다.

참고: 이 명세서의 나머지 부분에서 NN의 입력 및 출력 매개변수는 식 (1a)의 매핑으로 표현될 수 있다. 그러나, 본원에 기술된 방법은 단순히 SDR 및 HDR 입력을 전환함으로써 식 (1b)의 매핑을 나타내도록 쉽게 확장될 수 있다.

L-은닉 계층 망은 다음을 가질 것이다.

또는

(4)

도 6은 입력 계층(605), 2개의 은닉 계층(610 및 615) 및 하나의 출력 계층(620)을 갖는 예시적인 신경망을 도시한다. 입력 노드(605-1 내지 605-N_-1)는 입력 픽셀(예를 들어,

)을 나타내고, 출력 노드(620-1 내지 620-N₂)는 매핑 값(예를 들어,

)을 나타내며, 제1 은닉 계층 내의 노드(610-1 내지 610-N₀) 및 제2 은닉 계층 내의 노드(615-1 내지 615-N₁)는 각각 x₀ =

및 x₁ =

를 나타낸다.

목표는 모든 P 픽셀에 대하여 총 최소 제곱 오차를 최소화하기 위하여 모든 (L+1) 계층 내의 매개변수

를 찾는 것이다.

(5)

문제는 공식적으로 다음과 같이 공식화될 수 있다.

(6)

일 실시예에서, 식 (6)에 대한 해는 "역전파"를 사용하여 찾을 수 있다. 단일 NN 대신, 입력 신호의 각 색상 성분에 대해 하나씩 3개 이상의 신경망을 사용할 수도 있음을 유의한다.

입력 정규화

일 실시예에서, 입력 신호를 [-1 1] 범위로 재정규화함으로써 성능이 향상될 수 있다. 이러한 구현에서 신경망은 다음을 포함해야 한다.

ㆍ입력 신호의 각 채널이 [-1 1]로 스케일링되는 사전 스케일링 단계(정규화)

ㆍ[-1 1]에 있는 출력 신호의 각 채널이 원래 범위로 다시 스케일링되는 사후 스케일링 단계(비정규화)

각 입력 색상 채널(y, c0 및 c1로 표시됨)에 대한 최소 및 최대값을 다음과 같이 표시한다.

새로운 동적 범위

(즉, 예에서 [-1 1]) 로 정규화를 수행하기 위한 이득은 다음과 같이 유도될 수 있다.

(7)

정규화는 다음과 같이 수행될 수 있다.

(8)

비정규화는 다음과 같이 계산될 수 있다.

(9)

L-계층 신경망 기반 매핑은 메타데이터로서 수신기에 전달될 수 있는 다음의 매개변수를 사용하여 표현될 수 있다:

ㆍ각 입력 성분에 대한 정규화 매개변수(예를 들어, 이득, 최소 및 최대)

ㆍL-계층 신경 매개변수; 예를 들어, j-번째 계층에서,

다음으로, 세 가지 다른 예시적인 실시예가 상세히 설명된다.

전역적 매핑 NN을 사용한 이미지 매핑

도 3a는 전역적 매핑의 실시예에 따라 HDR-대-SDR 매핑을 생성하기 위한 예시적인 시스템을 도시하며, 여기에서 픽셀의 위치에 관계없이 전체 이미지에 대해 동일한 픽셀 매핑이 수행된다. 예를 들어, 일반성을 잃지 않고, 입력이 YCbCr 4:2:0 형식이라고 가정한다. 그러나 사용되는 색상 형식(예를 들어, YCbCr 4:2:2 또는 4:4:4, RGB, ICtCp 등)에 관계없이 유사한 아키텍처를 적용할 수 있다. 기준 HDR(125) 및 SDR(145) 프레임이 주어지면, Y, Cb 및 Cr을 매핑하기 위하여 3개의 신경망(305)이 사용된다. 입력 4:2:0 형식 때문에, 일 실시예에서, NN 유닛(305)에 대한 모든 입력이 동일한 공간 해상도를 갖도록 다운-스케일러(310) 및 업-스케일러(315)가 사용될 수 있다. 입력이 4:4:4 형식이면 이러한 업 스케일링 및 다운 스케일링 기능을 제거할 수 있다. 도 3a에 도시된 바와 같이:

ㆍY-NNM(305-Y)은 입력 v ^Y , v ^Cb,Cr(업샘플링됨) 및 s ^Y 을 가지며, 매핑된 SDR

및 메타데이터를 출력한다.

ㆍCb-NNM(305-Cb)은 입력 v ^Y (다운샘플링됨), v ^Cb,Cr 및 s ^Cb 을 가지며, 매핑된 SDR

및 메타데이터를 출력한다.

ㆍCr-NNM(305-Cr) 은 입력 v ^Y (다운샘플링됨), v ^Cb,Cr 및 s ^Cr 을 가지며, 매핑된 SDR

및 메타데이터를 출력한다.

각 NNM(305)은 단일 계층(예를 들어, 16개의 노드를 갖는 하나의 계층이며, [16]로 표시함) 또는 다중 계층(예를 들어, [8 4 4] NN)을 포함한다. NNM에 대한 구현예는 M. T. 헤이건 외, "신경망 설계"(제2판), 2014 또는 S. O. 헤이킨, "신경망 및 학습 기계"(제3판), 피어슨, 2008에서 찾을 수 있다. Matlab의 신경망 툴박스의 MATLAB 함수 fitnet 및 train 을 또한 사용할 수 있다.

지역적 매핑 NN을 사용한 이미지 매핑

도 3b는 픽셀 매핑이 지역 수준에서 수행되는 실시예(지역적 매핑)에 따라 HDR-대-SDR 매핑을 생성하기 위한 예시적인 시스템을 도시한다. 이러한 공간 영역 분산을 모델링하기 위하여, 신경망 매핑(NNM) 유닛(305)은 픽셀 위치 정보를 표현하는 추가 입력(307)을 포함한다. (x _i , y _i )가 i-번째 픽셀에 대한 정규화된 좌표, 즉 x _i ∈[0,1] 및 y _i ∈[0,1]를 나타낸다고 하자. 이러한 정규화된 값은 원본 좌표를 이미지의 대응하는 치수(예를 들어, 폭 및 높이)로 나누어 계산할 수 있다. 그러면, 입력 HDR 벡터는 다음과 같이 표현될 수 있다.

(10)

도 3b에 나타난 바와 같이,

ㆍY-NNM(305-Y)은 입력 v ^Y , v ^Cb,Cr(업샘플링됨), s ^Y 및 (x ^Y , y ^Y )을 가지며, 매핑된 SDR

및 메타데이터를 출력한다.

ㆍCb-NNM(305-Cb)은 입력 v ^Y (다운샘플링됨), v ^Cb,Cr, s ^Cb 및 (x ^Cb , y ^Cb )을 가지며, 매핑된 SDR

및 메타데이터를 출력한다.

ㆍCb-NNM(305-Cb)은 입력 v ^Y (다운샘플링됨), v ^Cb,Cr, s ^Cr 및 (x ^Cr , y ^Cr ) 을 가지며, 매핑된 SDR

및 메타데이터를 출력한다.

입력이 YCbCr 4:2:0 형식이라는 점을 감안하면, 루마 및 크로마 성분은 다른 처리가 필요하다. 루마, Y-NNM(305-Y)의 경우, 입력(307-Y)에서, 전체 해상도(x _i , y _i )를 사용하지만, 크로마, Cb-NNM(305-Cb) 및 Cr-NNM(305 Cr)의 경우, 입력(307-Cb 및 307-Cr)에서, 원본 해상도(x _i , y _i )의 스케일링된 버전(예를 들어 x _i /2, y _i /2)을 사용한다. 두 좌표 모두 정규화된 [0,1] 영역에 있어야 함을 유의한다. 유일한 차이점은 위치가 상이한 이미지 크기로 정규화된다는 것이다.

다중 등급을 사용한 이미지 매핑

일 실시예에서, 앞서 논의된 바와 같이, 인코더가 다중 SDR 또는 HDR "등급" 또는 "트림"에 대한 액세스를 가질 수 있다. 그러면, 도 3c에 도시된 바와 같이, 신경망 매핑 망은 하나의 표현에서 다른 표현으로의 매핑을 더욱 향상시키기 위해 다중 트림을 이용할 수 있다.

k-번째 등급에 대하여 기준 이미지에서 i-번째 픽셀의 3 색상 값을

으로 표시한다. 일 실시예에서, 모든 등급은 벡터로 함께 연결될 수 있다.

(11)

그러면, 각 NNM에 대하여, 입력 벡터가 정규화된 대상 밝기 값(예를 들어, 니트 단위로), t _k ∈[0,1]을 포함하여야 하고, 4-입력 벡터가 된다.

(12a)

(13b)

예를 들어, 100 니트 트림에 대하여, t ₀ = 0.1이고, 600 니트에 대하여, t ₁ = 0.6이다. 이러한 등급 ID는 포트(307)를 사용하여 공급될 수 있다. 다시, 매핑 문제는 매핑 함수 M()의 해법으로 표현될 수 있으며, 여기에서,

(14)

이다.

도 3c에 나타난 바와 같이,

ㆍY-NNM(305-Y)은 입력 v ^Y , v ^Cb,Cr(업샘플링됨), s ^Y 및 사용 가능한 등급 ID(예를 들어, t ₀ , t ₁ 및 t ₂ )를 가지며, 매핑된 SDR

및 메타데이터를 출력한다.

ㆍCb-NNM(305-Cb)은 입력 v ^Y (다운샘플링됨), v ^Cb,Cr, s ^Cb 및 (x ^Cb , y ^Cb ) 및 사용 가능한 등급 ID(예를 들어, t ₀ , t ₁ 및 t ₂ )를 가지며, 매핑된 SDR

및 메타데이터를 출력한다.

ㆍCr-NNM(305-Cr)은 입력 v ^Y (다운샘플링됨), v ^Cb,Cr, s ^Cr 및 사용 가능한 등급 ID(예를 들어, t ₀ , t ₁ 및 t ₂ )를 가지며, 매핑된 SDR

및 메타데이터를 출력한다.

당업자는 HDR-대-SDR 또는 SDR-대-HDR 매핑 기능을 생성하기 위해 여러 다른 변형이 사용될 수 있음을 이해할 수 있다. 예를 들어, 도 3c의 NNM은 도 3b에서와 같이 픽셀 위치 정보를 사용할 수도 있다. 또는 모든 NNM이 여러 시간 인스턴스의 HDR 및 SDR 프레임을 고려할 수 있다. 신경망에서 고려할 수 있는 다른 이미지 속성에는 이미지 대비, 이미지 채도(saturation) 및 경계 강도가 포함될 수 있다. 예를 들어, 경계 검출은 지역적 톤 매핑을 개선하는 데 사용될 수 있다.

3D 매핑 테이블을 사용하여 계산 효율성 개선

본원에서 사용되는 바에 따르면, 용어 "3D 매핑 테이블(3D-MT 또는 3DMT)"은 입력 이미지 데이터를 나타내고 더 효율적인 이미지 처리를 위해 사용되는 3D 룩업 테이블을 지칭한다. 3D 매핑 테이블은 2017년 10월 4일에 출원된 B. Wen 등의 미국 특허출원 제15/725,101호, "히스토그램 전달 및 근사를 갖는 역 루마 / 크로마 매핑"에서 처음으로 소개되었으며, 이는 본원에 참조로 포함된다. 3D 매핑 테이블은 2D 매핑의 확장으로 유도되었으며, 여기에서 제1 동적 범위의 이미지가 두 이미지의 누적 밀도 함수(CDF)가 일치해야 한다는 제약 조건에 기반하여 다른 동적 범위로 매핑되었다.

3D-MT 테이블은 픽셀 기반 계산을 줄이고 색상 정확도가 개선된 출력 이미지를 생성하는 매핑을 산출할 수 있다. 일 실시예에서, 신경망 기반 매핑에 사용될 3D-MT는 다음과 같이 구성될 수 있다.

제1 이미지 및 제2 이미지를 기준으로 사용하는 매핑에서, 제1 이미지(예를 들어, HDR 이미지)의 i-번째 픽셀의 3 색상 값을

로 나타내고, 제2 이미지(예를 들어, SDR 이미지)의 대응하는 i-번째 픽셀을

로 나타낸다. 먼저, 각 성분에 대하여 고정된 수의 빈

을 사용하여 3개의 채널 값(예를 들어, Y, C₀ 및 C₁)으로 제1 이미지를 양자화한다. 한 색상 성분의 빈 수는 다른 색상 성분의 빈 수와 상이할 수 있음을 유의한다. 이들 빈은

3D 히스토그램을 계산하는 데 사용된다. 3D 히스토그램을

로 표시하고, 여기에서

이다. 따라서,

에는 총

빈이 포함되며, 빈 인덱스

로 지정된 각 3D 빈은 이러한 3채널 양자화된 값을 갖는 픽셀 수를 나타낸다. 각 3D 빈에 대하여, 제2 이미지의 각 색상 성분의 합계를 또한 계산한다.

및

를 제2 이미지 영역에서 매핑된 루마 및 크로마 값으로 지정하여 각 빈이 모든 HDR 루마 및 두 개의 크로마(각각 C₀ 및 C₁) 픽셀 값의 합계를 포함하도록 하며, 대응하는 픽셀 값은 그 빈에 있도록 한다. 이러한 연산은 표 1 내지 표 3에 기술된 바와 같이 의사 코드로 요약될 수 있다.

표 1. 3D 매핑 테이블 생성-파트 A

// 단계 1: 초기화

여기에서 각 ch = {Y, C ₀ , C ₁ }에 대하여

및 q _ch = 0, ..., Q _ch - 1

여기에서 각 ch = {Y, C ₀ , C ₁ }에 대하여

및 q _ch = 0, ..., Q _ch - 1

여기에서 각 ch = {Y, C ₀ , C ₁ }에 대하여

및 q _ch = 0, ..., Q _ch - 1

여기에서 각 ch = {Y, C ₀ , C ₁ }에 대하여

및 q _ch = 0, ..., Q _ch - 1

//단계2: 입력 이미지에서 각 픽셀 스캔; ( i = 0 ; i < P _C ; i ++ )에 대하여 히스토그램 및 합계 계산{ // P _C 는 모든 색상에 걸친 총 빈 수를 나타낸다

// 제1 이미지의 루마 양자화 값

// 제1 이미지의 크로마 0 양자화 값

// 제1 이미지의 크로마 1 양자화 값

// 제1 이미지의 3D 히스토그램

// 매핑된 제2 이미지의 y 값

// 매핑된 제2 이미지의 C₀ 값

// 매핑된 제2 이미지의 C₁ 값

}

이 제2 이미지의 q-번째 빈의 중심을 나타낸다고 하자. 이들 값은 모든 프레임에 대해 고정이며 사전 계산될 수 있다.

표 2. 3D 매핑 테이블 생성-파트 B

// 빈 인덱스

리콜

// 제1 이미지의 정규화된 빈 값 루마 성분

// 제1 이미지의 정규화된 빈 값 C0 성분

// 제1 이미지의 정규화된 빈 값 C1 성분
}

다음 단계는 0이 아닌 픽셀 수를 갖는 3D 히스토그램 빈을 식별하고 픽셀을 갖지 않는 빈을 폐기하는 것이다.

인 k개의 이러한 빈을

라고 한다.

및

의 평균을 계산한다.

표 3. 3D 매핑 테이블 생성-파트 C

// 0이 아닌 빈 인덱스

for (i=0; i < k; i++) {

// 평균 3D-매핑 제2 이미지 y 값

// 평균 3D-매핑 제2 이미지 C₀ 값

// 평균 3D-매핑 제2 이미지 C₁ 값
}

및 (15)

라고 한다.

그러면, v _i 및 s _i 값의 원본 세트가 유효한 q 값에 대하여 위에서 정의된 바와 같이

및

쌍으로 대체된다.

도 4는 실시예에 따라 3D 매핑 테이블 및 신경망을 사용하여 HDR 대 SDR 매핑을 생성하기 위한 예시적인 아키텍처(400)를 도시한다. 도 4에 도시된 바와 같이, 시스템은 루마 3D-MT(405)와 크로마 3D-MT(410)의 두 가지 3D-MT를 사용한다. 이러한 3D-MT를 생성하려면, 다음의 입력에 대해 표 1 내지 표 3의 단계를 적용할 수 있다.

ㆍ루마 3D-MT에 대하여: 입력은: 원본 해상도의 HDR Y, 업샘플링된 HDR Cb/Cr, 원본 해상도의 SDR Y 및 업샘플링된 SDR Cb/Cr이며; 출력은

(407)의

(409) 내로의 매핑으로 나타낼 수 있다.

ㆍ크로마 3DMT에 대하여: 입력은: 다운샘플링된 HDR Y, 원본 해상도의 HDR Cb/Cr, 다운샘플링된 SDR Y 및 원본 해상도의 SDR Cb/Cr 이며; 출력은

(412)의

(414) 내로의 매핑으로 나타낼 수 있다.

시스템(400)에서, (루마 및 크로마에 대한) 3개의 신경망 매핑(415)이 2개의 3D-MT의 출력에 기반하여 생성된다. 예를 들어, 일 실시예에서:

ㆍY NNM에 대하여, 입력은 제1 3DMT로부터

(407) 및

(409-Y)이고, 출력은 Y-NNM 망의 매개변수일 것이다.

ㆍCb NNM 에 대하여, 입력은 제2 3DMT로부터

(412) 및

(414-Cb)이고, 출력은 Cb-NNM 망의 매개변수일 것이다.

ㆍCr NNM 에 대하여, 입력은 제2 3DMT로부터

(412) 및

(414-Cr) 이고, 출력은 Cr-NNM 망의 매개변수일 것이다.

3DMT를 사용하면 다음과 같은 이점이 있다. a) 빈 수가 픽셀 수보다 훨씬 적기 때문에 훨씬 적은 포인트를 사용하여 신경망을 실행할 수 있다. 이는 실시간 애플리케이션에서 매우 중요한, 더욱 빠른 수렴을 가능하게 한다. b) 실제로 3D-MT를 생성하면 픽셀이 "중요 픽셀"의 빈으로 통합되므로, 이미지 품질 측면에서 더 낮은 값의 여러 픽셀에 의해 NN 결정을 편향하는 효과가 감소한다.

시스템(400)은 도 3a에 설명된 것과 동일하다. 이는 3D 매핑 테이블의 개념을 더 높은 차원으로 확장함으로써, 예를 들어 지역적 매핑을 위해 5D-MT를 사용함으로써(도 3b), 도 3b 및 도 3c의 아키텍처를 지원하도록 쉽게 확장될 수 있다.

다른 실시예에서, 3개의 신경망(415) Y-NNM, Cb-NNM 및 Cr-NNM은 단일 YCbCr-NNM으로 결합되어 루마 및 크로마 값을 직접 생성할 수 있다. 이러한 구현은 HDR 대 SDR 매핑을 나타내는 데에 더 적은 NN 매개변수를 요구할 것이다. 예를 들어, 도 3d는 단일 YCbCr NNM(350)을 사용하여 두 색상 등급 사이의 전역적 매핑을 생성하는 시스템을 나타낸다. 도 3d의 시스템에 의해 생성된 NNM 매개변수(372)가 주어지면, 도 3e는 YCbCr NNM(370)을 사용하여 원본 데이터를 재구성하기 위하여 (NN의 매개변수, 즉 메타데이터(372)에 의해 특징지어지는 바와 같이) 매핑 함수를 적용하는 예시적인 예측기(예를 들어, 250D)를 나타낸다. 예를 들어, 신호(360)(소스 등급)는 SDR 데이터를 나타내고, 매핑된 YCbCr 데이터는 예측된 HDR 데이터를 나타내며, 신호(360)가 입력 HDR 데이터를 나타내는 경우, 매핑된 YCbCr 데이터는 예측된 SDR 데이터를 나타낸다. 두 개의 YCbCr NN(370-1, 370-2)는 동일하지만, 각각 입력 데이터를 약간 다르게 처리한다. 루마(Y)의 경우, NNM(370-1)에서는 입력 크로마 데이터를 전체 해상도(Y의 해상도와 동일)로 업샘플링해야 한다. 370-1의 Cb/Cr 출력은 폐기된다. 크로마의 경우, NNM(370-2)은 크로마 성분의 해상도와 일치하도록 입력 루마 데이터를 다운샘플링해야 한다. NNM(370-2)의 루마 출력은 폐기될 수 있다. 다른 실시예에서, NNM(370)은 단일의 시간 공유 NN 망일 수 있다.

도 3e에 나타난 아키텍처는 도 3a 내지 도 3c에서 앞서 기술한 다른 신경망 매핑 설계에 쉽게 적용할 수 있다. 예를 들어, 도 3f는 도 3a의 전역적 매핑에 기반한 예측기를 도시한다. 도 3e의 NNM(370)은 이제 Y용(380-Y), Cb용(380-Cb) 및 Cr용(380-Cr)인 3개의 개별 NN으로 대체되며, 각각 고유한 메타데이터(382-Y/Cb/Cr)를 수신한다. 도 3e에서와 같이, 4:2:0 데이터의 경우, 이들 NN 각각에 대한 루마 및 크로마 입력은 적절하게 업샘플링되거나 다운샘플링된다. 도 3f에 나타난 바와 같이, v(360) 대

매핑을 가정하면:

ㆍY-NNM(380-Y)은 입력 v ^Y , v ^Cb,Cr(업샘플링됨) 및 메타데이터 382-Y를 가지며, 매핑된

를 출력한다

ㆍCb-NNM(380-Cb)은 입력 v ^Y (다운샘플링됨), v ^Cb,Cr 및 메타데이터 382-Cb를 가지며, 매핑된

를 출력한다

ㆍCr-NNM(380-Cr)은 입력 v ^Y (다운샘플링됨), v ^Cb,Cr 및 메타데이터 382-Cb 를 가지며, 매핑된

를 출력한다

다른 실시예에서, 모든 시스템에서의 계산 복잡도는 공간적으로 및 시간적으로 모두 픽셀 서브샘플링을 사용함으로써 감소될 수 있다. 예를 들어, 비디오 시퀀스에서, 신경망은 서브샘플링된 프레임을 사용하여 해결될 수 있고 및/또는 결과가 여러 연속 프레임에 사용될 수 있다. 또한, NN 수준에서, 각 프레임에 대해, 초기화 값은 이전 프레임의 해법의 간단한 복사본일 수 있다.

메타데이터 전송을 위한 비트스트림 구문

앞서 기술한 바와 같이, NNM 메타데이터는 입력 정규화 매개변수 및 신경망 매개변수를 포함한다. 이러한 값은 일반적으로 단 정밀도 또는 배 정밀도의 부동 소수점 숫자이다. 메타데이터 오버헤드는 매핑의 효율성에 영향을 주지 않고 메타데이터 오버헤드 데이터의 양을 줄이기 위하여 당업계에 알려진 손실 또는 무손실 데이터 압축 방식을 적용함으로써 감소될 수 있다.

표 4는 일 실시예에 따라 인코더(130)로부터 디코더(150)로 NNM 메타데이터를 통신하기 위한 비트스트림 구문의 예를 나타낸다.

표 4. NNM 메타데이터를 지원하는 예시적인 비트스트림 구문

else if( mapping_idc [ y ][ x ][ cmp ] == MAPPING_NNM ) {
// 정규화
nnm _norm_gain_ int[ y ][ x ][ cmp ]	0	se(v)
nnm _norm_gain_ coef[ y ][ x ][ cmp ]	0	u(v)
nnm _norm_ nmin _ int[ y ][ x ][ cmp ]	0	se(v)
nnm _norm_ nmin _ coef[ y ][ x ][ cmp ]	0	u(v)
nnm _norm_ vmin _ int[ y ][ x ][ cmp ]	0	se(v)
nnm _norm_ vmin _ coef[ y ][ x ][ cmp ]	0	u(v)
nnm _ num _layer[ y ][ x ][ cmp ]	0	ue(v)
// 신경 계층
for( i=0; i<nnm_num_layer[ y ][ x ][ cmp ]; i ++ ) { // 각 계층에 대하여
nnm _ num _neuron[ y ][ x ][ cmp ][i]	0	ue(v)
for( j = 0; j < ( nnm_num_neuron[ y ][ x ][ i -1 ] + 1 ) * nnm_num_neuron[ y ][ x ][ i ] ; j ++ ) { // 완전히 연결된 가중치; 가중치 내에 상수/편향 포함
nnm _weight_ int[ y ][ x ][ cmp ][i][j]	0	se(v)
nnm _weight_ coef[ y ][ x ][ cmp ][i][j]	0	u(v)
}
}
// 마지막 계층; 이전 계층에서의 모든 뉴런의 선형 결합
for( j=0; j<nnm_num_neuron[ y ][ x ][ nnm_num_layer[ y ][ x ][ cmp ]-1 ]; j ++ ) {
nnm _weight_ int[ y ][ x ][ cmp ][ nnm_num_layer[ y ][ x ][ cmp ]][j]	0	se(v)
nnm _weight_ coef[ y ][ x ][ cmp ][ nnm_num_layer[ y ][ x ][ cmp ]][j]	0	u(v)
}

표 4에서 설명자 se(v), u(v) 및 ue(v)는 ITU-T H.265, "고효율 코딩"과 같은 비디오 디코딩을 위한 당업계에서 공지된 사양에서와 같이 정의될 수 있다. "cmp" 값은 색상 성분을 나타내며, 예를 들어, Y는 0, Cb는 1, Cr은 2이다. 추가 변수는 다음과 같이 정의될 수 있다.

nnm _ num _neuron[ y ][ x ][ cmp ]는 매핑 유형을 지정한다. 예를 들어: 전역적 매핑의 경우 nnm_num_neuron[ y ][ x ][ -1 ] = 3, 지역적 매핑의 경우 nnm_num_neuron[ y ][ x ][ -1 ] = 5, 및 다중 등급 매핑의 경우 nnm_num_neuron[ y ][ x ][ -1 ] = 4이다.

nnm _norm_gain_ int[ y ][ x ][ cmp ]는 coefficient_data_type이 0일 때 fp_nnm_norm_gain_coef[ y ][ x ][ cmp ]의 정수 부분을 지정한다. coefficient_data_type이 1이면, nnm_norm_gain_int [ y ][ x ][ cmp ]은 존재하지 않는다.

참고-fp_nnm_norm_gain_coef[ y ][ x ][ cmp ]는 coefficient_data_type이 0일 때 mapping_idc[ y ][ x ][ cmp ]와 연관된 정규화 내의 이득 계수 값을 유도하기 위하여 사용된다.

nnm _norm_gain_ coef[ y ][ x ][ cmp ]는 coefficient_data_type 이 0일 때 fp_nnm_norm_gain_coef[ y ][ x ][ cmp ]의 분수 부분을 지정한다. coefficient_data_type이 1이면, nnm_norm_gain_coef [ y ][ x ][ cmp ]은 mapping_idc[ y ][ x ][ cmp ]와 연관된 이득 계수 값을 유도하는 데 사용된다. coefficient_data_type이 0이면, nnm_norm_gain_coef [ y ][ x ][ cmp ] 구문 요소의 길이는 coefficient_log2_denom 비트이다. coefficient_data_type 이 1이면, nnm_norm_gain_coef [ y ][ x ][ cmp ] 구문 요소의 길이는 32비트이다. mapping_idc[ y ][ x ][ cmp ]와 연관된 정규화 내의 이득 계수 값은 다음과 같이 유도된다.

- coefficient_data_type 이 0이면, 이득 계수 값은 fp_nnm_norm_gain_coef[ y ][ x ][ cmp ] = (nnm_norm_gain_int [ y ][ x ][ cmp ] << coefficient_log2_denom) + nnm_norm_gain_coef [ y ][ x ][ cmp ].

- coefficient_data_type이 1이면, 이득 계수 값은 nnm_norm_gain_coef [ y ][ x ][ cmp ].

nnm _norm_ nmin _ int[ y ][ x ][ cmp ]는 coefficient_data_type이 0일 때 fp_nnm_norm_nmin_coef[ y ][ x ][ cmp ]의 정수 부분을 지정한다. coefficient_data_type 이 1이면, nnm_norm_nmin_int [ y ][ x ][ cmp ]은 존재하지 않는다.

참고-fp_nnm_norm_nmin_coef[ y ][ x ][ cmp ]은 coefficient_data_type이 0일 때 mapping_idc[ y ][ x ][ cmp ]와 연관된 정규화 영역 내의 최소값의 값을 유도하기 위하여 사용된다.

nnm _norm_ nmin _ coef[ y ][ x ][ cmp ] 은 coefficient_data_type이 0일 때 fp_ nnm_norm_nmin _coef[ y ][ x ][ cmp ]의 분수 부분을 지정한다. coefficient_data_type이 1이면, nnm_norm_nmin_coef [ y ][ x ][ cmp ]은 mapping_idc[ y ][ x ][ cmp ] 와 연관된 이득 계수 값을 유도하는 데 사용된다. coefficient_data_type이 0이면, nnm_norm_nmin_coef [ y ][ x ][ cmp ] 구문 요소의 길이는 coefficient_log2_denom 비트이다. coefficient_data_type이 1이면, nnm_norm_nmin_coef [ y ][ x ][ cmp ] 구문 요소의 길이는 32비트이다. mapping_idc[ y ][ x ][ cmp ] 와 연관된 정규화 내의 연관된 이득 계수 값은 다음과 같이 유도된다.

- coefficient_data_type이 0이면, 이득 계수 값은 fp_nnm_norm_nmin_coef[ y ][ x ][ cmp ] = (nnm_norm_nmin_int [ y ][ x ][ cmp ] << coefficient_log2_denom) + nnm_norm_nmin_coef [ y ][ x ][ cmp ].

- coefficient_data_type이 1이면, 이득 계수 값은 nnm_norm_nmin_coef [ y ][ x ][ cmp ].

nnm _norm_ vmin _ int[ y ][ x ][ cmp ]은 coefficient_data_type이 0일 때 fp_nnm_norm_vmin_coef[ y ][ x ][ cmp ]의 정수 부분을 지정한다. coefficient_data_type이 1이면, nnm_norm_nmin_int [ y ][ x ][ cmp ]는 존재하지 않는다.

참고-fp_nnm_norm_vmin_coef[ y ][ x ][ cmp ]은 coefficient_data_type이 0일 때 mapping_idc[ y ][ x ][ cmp ]와 연관된 비정규화 영역 내의 최소값의 값을 유도하기 위하여 사용된다.

nnm _norm_ vmin _ coef[ y ][ x ][ cmp ]은 coefficient_data_type이 0일 때 fp_nnm_norm_vmin_coef[ y ][ x ][ cmp ]의 분수 부분을 지정한다. coefficient_data_type이 1이면, nnm_norm_vmin_coef [ y ][ x ][ cmp ]은 mapping_idc[ y ][ x ][ cmp ]와 연관된 이득 계수 값을 유도하는 데 사용된다. coefficient_data_type이 0이면, nnm_norm_vmin_coef [ y ][ x ][ cmp ] 구문 요소의 길이는 coefficient_log2_denom 비트이다. coefficient_data_type이 1이면, nnm_norm_vmin_coef [ y ][ x ][ cmp ] 구문 요소의 길이는 32비트이다. mapping_idc[ y ][ x ][ cmp ]와 연관된 정규화 내의 이득 계수 값은 다음과 같이 유도된다.

- coefficient_data_type이 0이면, 이득 계수 값은 fp_nnm_norm_vmin_coef[ y ][ x ][ cmp ] = (nnm_norm_vmin_int [ y ][ x ][ cmp ] << coefficient_log2_denom) + nnm_norm_vmin_coef [ y ][ x ][ cmp ].

- coefficient_data_type이 1이면, 이득 계수 값은 nnm_norm_vmin_coef [ y ][ x ][ cmp ].

nnm _ num _layer 는 mapping_idc[ y ][ x ][ cmp ]와 연관된 계층의 수를 시그널링한다.

nnm _weight _ int[ y ][ x ][ cmp ][ i ][ j ]는 coefficient_data_type이 0일 때 fp_nnm_weight_coef[ y ][ x ][ cmp ] [ i ][ j ]의 정수 부분을 지정한다. coefficient_data_type이 1이면, nnm_weight_int [ y ][ x ][ cmp ] [ i ][ j ]는 존재하지 않는다.

참고-fp_nnm_weight_coef[ y ][ x ][ cmp ][ i ][ j ]는 coefficient_data_type이 0일 때 mapping_idc[ y ][ x ][ cmp ][ i ]][ j ]와 연관된 계층 j 에서 노드 i 에 대한 가중치 계수를 유도하는 데 사용된다.

nnm _weight _ coef[ y ][ x ][ cmp ] [ i ][ j ]는 coefficient_data_type이 0일 때 fp_nnm_weight_coef[ y ][ x ][ cmp ] [ i ][ j ]의 분수 부분을 지정한다. coefficient_data_type이 1이면, nnm_weight_coef [ y ][ x ][ cmp ] [ i ][ j ]는 mapping_idc[ y ][ x ][ cmp ]와 연관된 이득 계수 값을 유도하는 데 사용된다. coefficient_data_type 이 0이면, nnm_weight_coef [ y ][ x ][ cmp ] [ i ][ j ] 구문 요소의 길이는 coefficient_log2_denom 비트이다. coefficient_data_type이 1이면, nnm_weight_coef [ y ][ x ][ cmp ] [ i ][ j ] 구문 요소의 길이는 32비트이다. mapping_idc[ y ][ x ][ cmp ]와 연관된 정규화 내의 이득 계수 값은 다음과 같이 유도된다.

- coefficient_data_type이 0이면, 이득 계수 값은 fp_nnm_weight_coef[ y ][ x ][ cmp ] [ i ][ j ] = (nnm_weight_int [ y ][ x ][ cmp ][ i ][ j ] << coefficient_log2_denom) + nnm_weight_coef [ y ][ x ][ cmp ] [ i ][ j ]

- coefficient_data_type이 1이면, 이득 계수 값은 nnm_weight_coef [ y ][ x ][ cmp ][ i ][ j ].

도 5는 동일한 장면을 나타내지만 상이한 동적 범위 및/또는 색재현율을 갖는 2개의 이미지 사이의 이미지 매핑 기능을 유도하기 위한 예시적인 프로세스(500)를 도시한다. 프로세스는 단계 505에서 시작되며, 여기서 예측기(250E)와 같은 매핑 프로세서가 상이한 동적 범위에서 동일한 장면을 나타내는 두 개 이상의 이미지, 예를 들어 기준 입력 HDR 이미지 및 SDR의 하나 이상의 파생 등급 또는 동일한 이미지의 대체 HDR 표현을 수신한다. 이러한 입력이 주어지면, 단계 510에서, 매핑 프로세서는 선택할 신경망(NN) 모델을 결정한다. 전술한 바와 같이, 매핑 프로세서는 전역적 매핑 모델, 지역적 매핑 모델, 다중 등급을 사용하는 매핑, 또는 이들의 조합을 포함하는(반드시 이에 제한되지는 않음) 다양한 NN 모델 중에서 선택할 수 있다. 또한, 이들 모델 각각은 상이한 수의 수준 및 각 수준 내의 노드로 특징지어질 수 있다.

NN 모델의 선택은 SDR 및 HDR 입력에 대한 사전 지식, 이용 가능한 계산 및 메모리 자원, 및 목표 코딩 효율성을 포함하여, 여러 기준을 고려하는 다양한 방법을 사용하여 수행될 수 있다. 예를 들어, 일 실시예에서, NN 모델은 목표 출력과 근사하고자 시도하는 기준 등급 사이의 잔차 MSE의 값(식 (6) 참조)이 미리 결정된 임계 값을 만족하는지 여부에 기반하여 선택될 수 있다. NN 모델과 2개 이상의 입력 이미지가 주어지면, NN 매개변수(예를 들어, 노드 가중치 및 편향)는 최적화 기준에 따라 단계 515에서 도출된다. 마지막으로, 단계 520에서, 매핑 프로세서는 NN 모델의 매개변수를 출력한다. 선택적으로, 매핑 프로세서는 생성된 매핑(출력) 이미지를 출력할 수도 있다.

이 매핑 프로세스(500)는 이용 가능한 컴퓨팅 자원을 사용하는 동안 코딩 효율을 유지하기 위해 필요하다고 간주되는 다양한 간격으로 반복될 수 있다. 예를 들어, 비디오 신호를 코딩할 때, 프로세스(500)는 미리 정의된 비디오 슬라이스 크기를 기준으로, 각 프레임, 프레임 그룹에 대해 또는 예측 잔차가 특정 임계 값을 초과할 때마다 반복될 수 있다.

매핑 프로세스(500)는 모든 이용 가능한 입력 픽셀 또는 이들 픽셀의 서브샘플을 사용할 수 있다. 하나의 예시적인 구현에서, 입력 데이터의 모든 k-번째 픽셀 행 및 모든 k-번째 픽셀 열로부터의 픽셀만을 사용할 수 있으며, 여기에서 k는 2 이상의 정수이다. 다른 예시적인 구현에서, 특정 클리핑 임계 값 미만인 입력 픽셀(예를 들어, 0에 매우 가까운) 또는 특정 포화 임계 값을 초과하는 픽셀(예를 들어, n-비트 데이터의 경우, 2ⁿ-1에 매우 가까운 픽셀 값)을 건너뛰기로 결정할 수 있다. 또 다른 구현에서, 픽셀 샘플 크기를 줄이고 특정 구현의 계산 제한을 수용하기 위해 이러한 서브샘플링 및 임계 값 기술의 조합을 사용할 수 있다.

예시적인 컴퓨터 시스템 구현

본 발명의 실시예는 컴퓨터 시스템, 전자 회로 및 구성요소로 구성된 시스템, 마이크로 컨트롤러와 같은 집적 회로(IC) 디바이스, 필드 프로그래머블 게이트 어레이(FPGA), 또는 다른 구성 가능하거나 프로그래밍 가능한 논리 디바이스(PLD), 이산 시간 또는 디지털 신호 프로세서(DSP), 주문형 IC(ASIC) 및/또는 이러한 시스템, 디바이스 또는 구성요소 중 하나 이상을 포함하는 장치로 구현될 수 있다. 컴퓨터 및/또는 IC는 본원에 기술된 것과 같은 NNM 기반 매핑과 관련된 명령을 수행, 제어 또는 실행할 수 있다. 컴퓨터 및/또는 IC는 본원에 기술된 것과 같은 NNM 기반 매핑과 관련된 임의의 다양한 매개변수 또는 값을 계산할 수 있다. 이미지 및 비디오 동적 범위 확장 실시예는 하드웨어, 소프트웨어, 펌웨어 및 이들의 다양한 조합으로 구현될 수 있다.

본 발명의 특정 구현은 프로세서가 본 발명의 방법을 수행하게 하는 소프트웨어 명령을 실행하는 컴퓨터 프로세서를 포함한다. 예를 들어, 디스플레이, 인코더, 셋톱 박스, 트랜스코더 등의 하나 이상의 프로세서는 프로세서가 액세스할 수 있는 프로그램 메모리에서 소프트웨어 명령을 실행함으로써 전술 한 NNM 기반 매핑 방법을 구현할 수 있다. 본 발명은 또한 프로그램 제품의 형태로 제공될 수 있다. 프로그램 제품은, 데이터 프로세서에 의해 실행될 때, 데이터 프로세서가 본 발명의 방법을 실행하게 하는 명령을 포함하는 컴퓨터 판독 가능 신호 세트를 갖는 임의의 매체를 포함할 수 있다. 본 발명에 따른 프로그램 제품은 다양한 형태로 존재할 수 있다. 프로그램 제품은 예를 들어 플로피 디스켓을 포함하는 자기 데이터 저장 매체, 하드 디스크 드라이브, CD ROM, DVD를 포함하는 광학 데이터 저장 매체, ROM, 플래시 RAM을 포함하는 전자 데이터 저장 매체 등과 같은 물리적 매체를 포함할 수 있다. 프로그램 제품의 컴퓨터 판독 가능 신호는 선택적으로 압축되거나 암호화될 수 있다.

구성요소(예를 들어, 소프트웨어 모듈, 프로세서, 어셈블리, 디바이스, 회로 등)가 위에서 언급된 경우, 달리 명시되지 않는 한, 해당 구성 요소에 대한 참조("수단"에 대한 참조 포함)는 본 발명에서 설명된 예시적인 실시예에서 기능을 수행하는 개시된 구조와 구조적으로 동등하지 않은 구성요소를 포함하여, 설명된 구성요소의 기능을 수행하는(예를 들어, 기능적으로 동등한) 임의의 구성요소인 그 구성요소의 등가물을 포함하는 것으로 해석되어야 한다.

등가, 확장, 대안 및 기타

HDR 및 SDR 이미지 매핑에서 신경망 적용과 관련된 예시적인 실시예가 설명된다. 전술한 명세서에서, 본 발명의 실시예는 구현에 따라 달라질 수 있는 수많은 특정 세부 사항을 참조하여 설명되었다. 따라서, 발명이 무엇인지 및 출원인이 발명이 되도록 의도한 것이 무엇인지에 대한 유일하고 배타적인 지표는 이 출원으로부터 발행되는 청구범위의 집합이며, 이는 후속의 정정을 포함하여 이러한 청구범위가 발행되는 특정 형태로서이다. 이러한 청구범위에 포함된 용어에 대해 본원에 명시적으로 제시된 모든 정의는 청구범위에서 사용되는 이러한 용어의 의미를 지배한다. 따라서, 청구범위에 명시적으로 언급되지 않은 제한, 요소, 특성, 특징, 이점 또는 속성은 어떠한 방식으로든 이러한 청구범위를 제한해서는 안된다. 따라서, 명세서 및 도면은 제한적인 의미가 아니라 예시적인 의미로 간주되어야 한다.

열거된 예시적 실시예

본 발명의 열거된 예시적 실시예(Enumerated Example Embodiment; EEE)가 원시 픽셀 데이터 내에서 포화(saturated) 픽셀 값을 복구하는 방법 및 디바이스와 관련하여 상술되었다. 따라서, 본 발명의 실시예는, 이하에 열거된 하나 이상의 예와 연관될 수 있다.

EEE 1. 인코더에서, 제1 동적 범위로부터 제2 동적 범위로 이미지를 매핑하는 방법에 있어서,

제2 동적 범위를 갖는 이미지의 관점에서 제1 동적 범위를 갖는 이미지를 근사하도록(approximate) 각각 적응된 하나 이상의 신경망(NN) 모델을 제공하는 것;

제1 동적 범위의 제1 이미지 및 제2 동적 범위의 제2 이미지를 수신하는 것-두 이미지는 동일한 장면을 나타냄;

제1 이미지 및 제2 이미지에 기반하여 제2 이미지에 근사하는 출력 이미지를 결정하기 위하여 다양한 NN 모델로부터 신경망 모델을 선택하는 것;

최적화 기준, 제1 이미지 및 제2 이미지에 따라 선택된 NN 모델의 매개변수 값을 결정하는 것-매개변수는 선택된 NN 모델의 각 계층 내의 각 노드에 대한 노드 가중치 및 노드 편향을 포함함; 및

선택된 NN 모델의 매개변수를 출력하는 것을 포함하는 방법.

EEE 2. 하나 이상의 NN 모델은 전역적 매핑 NN 모델, 지역적 매핑 NN 모델 및 다중 색상 등급 NN 모델을 사용한 전역적 매핑을 포함하는 EEE 1의 방법.

EEE 3. 하나 이상의 NN 모델은 전역적 매핑 NN 모델을 포함하고, 전역적 매핑 NN 모델은 제1 및 제2 이미지의 색상 성분 각각에 대해 1개씩 3개의 신경망을 포함하며, 3개의 신경망 각각은 제1 이미지 및 제2 이미지의 모든 3개의 색상 성분의 픽셀 값에 기반한 입력을 수신하는 임의의 선행하는 EEE 의 방법.

EEE 4. 하나 이상의 NN 모델은 지역적 매핑 NN 모델을 포함하고, 지역적 매핑 NN 모델은 제1 및 제2 이미지의 색상 성분 각각에 대해 1개씩 3개의 신경망을 포함하며, 3개의 신경망 각각은 제1 이미지 및 제2 이미지의 모든 3개의 색상 성분의 픽셀 값에 기반한 입력 및 입력 픽셀 값의 픽셀 좌표를 나타내는 입력을 수신하는 임의의 선행하는 EEE 의 방법.

EEE 5. 제3 동적 범위의 제3 이미지를 수신하는 것을 더 포함하며, 제3 이미지는 제1 및 제2 이미지와 동일한 장면을 나타내고,

하나 이상의 NN 모델은 3개의 이미지의 각 색상 성분에 대해 1개씩, 3개의 신경망을 포함하는 다중 색상 등급 모델을 사용하는 전역적 매핑을 포함하고, 3개의 신경망 각각은 3개의 이미지의 모든 3개의 색상 성분의 픽셀 값에 기반한 입력 및 입력 픽셀 값의 색상 등급을 나타내는 입력을 수신하는 임의의 선행하는 EEE 의 방법.

EEE 6. 입력 픽셀의 입력 등급의 색상 등급을 나타내는 입력은 각 색상 등급의 정규화된 피크 밝기의 정규화된 벡터를 포함하는 EEE 5의 방법.

EEE 7. 3개의 신경망 각각으로의 입력 픽셀 값은 -1과 1 사이로 정규화되는 EEE 3 내지 5 중 임의의 하나의 방법.

EEE 8. 선택된 NN 모델의 매개변수는 정규화된 입력 픽셀 값의 각 색상 성분에 대한 이득 계수, 최소값 및 최대값을 더 포함하는 EEE 7의 방법.

EEE 9. 모든 입력 이미지는 4:2:0 YCbCr 색상 형식이며,

제2(Cb) 및 제 3(Cr) 색상 성분의 신경망에 입력되기 전에 제1 이미지의 Y 성분을 제1 이미지의 Cb 또는 Cr 성분 해상도로 다운샘플링하는 이미지 다운샘플러;

제1(Y) 색상 성분의 신경망에 입력되기 전에 제2 이미지의 Cb 및 Cr 성분을 제1 이미지의 Y 성분 해상도로 업샘플링하는 이미지 업샘플러를 더 포함하는 EEE 3 내지 5 중 임의의 하나의 방법.

EEE 10. 픽셀 좌표는 (x, y) 위치 쌍을 포함하고, 위치 쌍의 값은 0과 1 사이로 정규화되는 EEE 4 또는 EEE 4에 의존할 때 임의의 선행하는 EEE의 방법.

EEE 11. 최적화 기준은 출력 이미지와 제2 입력 이미지 사이의 평균 제곱 오차를 최소화하는 것을 포함하는 임의의 선행하는 EEE 의 방법.

EEE 12. 모든 입력 이미지는 4:2:0 YCbCr 색상 형식이며,

제1 이미지 내의 제1 정규화된 루마 및 크로마 샘플링된 포인트의 제2 이미지 내로의 제1 평균 루마 및 크로마 3D 매핑으로서 제1 및 제2 이미지로부터 입력 루마(Y) 및 크로마(Cb 또는 Cr) 픽셀 값을 나타내는 제1 3D 매핑 테이블(3DMT)을 생성하는 것-입력 크로마 픽셀 값은 입력 루마 픽셀 값의 공간 해상도와 일치하도록 업샘플링됨;

제1 이미지 내의 제2 정규화된 루마 및 크로마 샘플 포인트의 제2 이미지 내로의 제2 평균 루마 및 크로마 3D 매핑으로의 매핑으로서 제1 및 제2 이미지로부터 입력 루마 픽셀 값 및 크로마 픽셀 값을 나타내는 제2 3DMT를 생성하는 것-입력 루마 픽셀 값은 입력 크로마 픽셀 값의 공간 해상도와 일치하도록 다운샘플링됨;

Y 출력 성분의 신경망의 매개변수를 제1 이미지의 제1 정규화된 루마 및 크로마 샘플 포인트 및 제2 이미지로의 제1 평균 루마 3D 매핑을 입력으로서 공급함으로써 생성하는 것;

Cb 출력 성분의 신경망의 매개변수를 제1 이미지의 제2 정규화된 루마 및 크로마 샘플 포인트 및 제2 이미지로의 제2 평균 Cb 3D 매핑을 입력으로서 공급함으로써 생성하는 것; 및

Cr 출력 성분의 신경망의 매개변수를 제1 이미지의 제2 정규화된 루마 및 크로마 샘플 포인트 및 제2 이미지로의 제2 평균 Cr 3D 매핑을 입력으로서 공급함으로써 생성하는 것을 더 포함하는 EEE 3 또는 EEE 3에 의존할 때 임의의 선행하는 EEE의 방법.

EEE 13. 제1 동적 범위는 제2 동적 범위와 동일하거나 제2 동적 범위보다 높은 임의의 선행하는 EEE의 방법.

EEE 14. 제1 동적 범위는 제1 동적 범위보다 낮은 임의의 선행하는 EEE의 방법.

EEE 15. 출력 이미지를 생성하는 것;

인코딩된 이미지를 생성하기 위하여 출력 이미지를 압축하는 것; 및

출력 비트스트림을 생성하기 위하여 인코딩된 이미지와 선택된 NN 모델의 매개변수를 결합하는 것을 더 포함하는 임의의 선행하는 EEE의 방법.

EEE 16. 디코더에서, 제1 동적 범위로부터 제2 동적 범위로 이미지를 매핑하는 방법에 있어서,

제1 동적 범위의 인코딩된 이미지 및 이미지 메타데이터를 포함하는 압축된 비트스트림을 수신하는 것-이미지 메타데이터는 인코딩된 이미지를 출력 이미지로 매핑하는 신경망(NN) 모델에 대한 매개변수를 포함하고, 이미지 메타데이터는 인코딩된 이미지의 하나 이상의 색상 성분에 대하여 NN 내의 신경망 계층의 수, 각 계층에 대한 신경 노드의 수 및 각 노드의 활성화 함수와 함께 사용될 가중치 및 오프셋을 포함함; 및

인코딩된 이미지 및 NN 모델의 매개변수에 기반하여 출력 이미지를 생성하는 것을 포함하는 방법.

EEE 17. 이미지 메타데이터는 스케일링 메타데이터를 더 포함하고, 인코딩된 이미지의 각 색상 성분에 대하여 스케일링 메타데이터는 이득, 최소값 및 최대값을 포함하며, 방법은 스케일링 메타데이터 및 출력 이미지에 기반하여 비정규화 출력 이미지를 생성하는 것을 더 포함하는 EEE 16의 방법.

EEE 18. 활성화 함수는 시그모이드 함수를 포함하는 EEE 16 또는 17의 방법.

EEE 19. EEE 1 내지18에 따른 방법을 하나 이상의 프로세서로 실행하는 컴퓨터 실행 가능한 명령을 저장하는 비일시적 컴퓨터 판독 가능 저장 매체.

EEE 20. 프로세서를 포함하며 EEE 1 내지 18에 인용된 방법 중 임의의 하나를 수행하도록 구성되는 장치.

Claims

제1 동적 범위로부터 제2 동적 범위로 이미지를 매핑하는 방법에 있어서, 상기 제1 동적 범위는 상기 제2 동적 범위와 상이하며, 상기 방법은:
제2 동적 범위를 갖는 이미지의 관점에서 제1 동적 범위를 갖는 이미지를 근사하도록(approximate) 각각 적응된 하나 이상의 신경망(NN) 모델을 제공하는 것;
상기 제1 동적 범위의 제1 이미지 및 상기 제2 동적 범위의 제2 이미지를 수신하는 것-상기 두 이미지는 동일한 장면을 나타냄;
상기 제1 이미지 및 상기 제2 이미지에 기반하여 상기 제2 이미지에 근사하는 출력 이미지를 결정하기 위하여 다양한 NN 모델로부터 신경망 모델을 선택하는 것;
최적화 기준, 상기 제1 이미지 및 상기 제2 이미지에 따라 상기 선택된 NN 모델의 매개변수 값을 결정하는 것-상기 매개변수는 상기 선택된 NN 모델의 계층의 노드에 대한 노드 가중치 및/또는 노드 편향을 포함함; 및
상기 선택된 NN 모델의 상기 매개변수를 출력하는 것을 포함하고,
상기 방법은 제3 동적 범위의 제3 이미지를 수신하는 것을 더 포함하며, 상기 제3 이미지는 상기 제1 및 제2 이미지와 동일한 장면을 나타내고,
상기 하나 이상의 NN 모델은 상기 3개의 이미지의 각 색상 성분에 대해 1개씩, 3개의 신경망을 포함하는 다중 색상 등급 모델을 사용하는 전역적 매핑을 포함하고, 상기 3개의 신경망 각각은 상기 3개의 이미지의 모든 3개의 색상 성분의 픽셀 값에 기반한 입력 및 상기 입력 픽셀 값의 상기 색상 등급을 나타내는 입력을 수신하는 방법.
제1항에 있어서, 상기 하나 이상의 NN 모델은 전역적 매핑 NN 모델을 포함하고, 상기 전역적 매핑 NN 모델은 상기 제1 및 제2 이미지의 색상 성분 각각에 대해 1개씩 3개의 신경망을 포함하며, 상기 3개의 신경망의 각각은 상기 제1 이미지 및 상기 제2 이미지의 모든 3개의 색상 성분의 픽셀 값에 기반한 입력을 수신하는 방법.
제1항 또는 제2항에 있어서, 상기 하나 이상의 NN 모델은 지역적 매핑 모델을 포함하고, 상기 지역적 매핑 NN 모델은 상기 제1 및 제2 이미지의 색상 성분 각각에 대해 1개씩 3개의 신경망을 포함하며, 상기 3개의 신경망 각각은 상기 제1 이미지 및 상기 제2 이미지의 모든 3개의 색상 성분의 픽셀 값에 기반한 입력 및 상기 입력 픽셀 값의 픽셀 좌표를 나타내는 입력을 수신하는 방법.
제1항에 있어서, 상기 입력 픽셀의 상기 입력 등급의 상기 색상 등급을 나타내는 상기 입력은 각 색상 등급의 정규화된 피크 밝기의 정규화된 벡터를 포함하는 방법.
제2항에 있어서, 상기 3개의 신경망 각각으로의 입력 픽셀 값은 -1과 1 사이로 정규화되는 방법.
제5항에 있어서, 상기 선택된 NN 모델의 상기 매개변수는 상기 정규화된 입력 픽셀 값의 각 색상 성분에 대한 이득 계수, 최소값 및 최대값을 더 포함하는 방법.
제2항에 있어서, 모든 입력 이미지는 4:2:0 YCbCr 색상 형식이며,
제2(Cb) 및 제 3(Cr) 색상 성분의 상기 신경망에 입력되기 전에 상기 제1 이미지의 Y 성분을 상기 제1 이미지의 Cb 또는 Cr 성분 해상도로 다운샘플링하는 것;
제1(Y) 색상 성분의 상기 신경망에 입력되기 전에 상기 제2 이미지의 Cb 및 Cr 성분을 상기 제1 이미지의 Y 성분 해상도로 업샘플링하는 것을 더 포함하는 방법.
제3항에 있어서, 상기 픽셀 좌표는 (x, y) 위치 쌍을 포함하고, 상기 위치 쌍의 값은 0과 1 사이로 정규화되는 방법.
제1항 또는 제2항에 있어서, 상기 최적화 기준은 상기 출력 이미지와 상기 제2 입력 이미지 사이의 평균 제곱 오차를 최소화하는 것을 포함하는 방법.
제1항 또는 제2항에 있어서, 모든 입력 이미지는 4:2:0 YCbCr 색상 형식이며,
상기 제1 이미지 내의 제1 정규화된 루마 및 크로마 샘플 포인트의 상기 제2 이미지 내로의 제1 평균 루마 및 크로마 3D 매핑으로의 매핑으로서 상기 제1 및 제2 이미지로부터 입력 루마(Y) 및 크로마(Cb 또는 Cr) 픽셀 값을 나타내는 제1 3D 매핑 테이블(3DMT)을 생성하는 것-상기 입력 크로마 픽셀 값은 상기 입력 루마 픽셀 값의 공간 해상도와 일치하도록 업샘플링됨;
상기 제1 이미지 내의 제2 정규화된 루마 및 크로마 샘플 포인트의 상기 제2 이미지 내로의 제2 평균 루마 및 크로마 3D 매핑으로의 매핑으로서 상기 제1 및 제2 이미지로부터 입력 루마 픽셀 값 및 크로마 픽셀 값을 나타내는 제2 3DMT를 생성하는 것-상기 입력 루마 픽셀 값은 상기 입력 크로마 픽셀 값의 공간 해상도와 일치하도록 다운샘플링됨;
Y 출력 성분의 상기 신경망의 매개변수를 상기 제1 이미지의 제1 정규화된 루마 및 크로마 샘플 포인트 및 상기 제2 이미지로의 제1 평균 루마 3D 매핑을 입력으로서 공급함으로써 생성하는 것;
Cb 출력 성분의 상기 신경망의 매개변수를 상기 제1 이미지의 제2 정규화된 루마 및 크로마 샘플 포인트 및 상기 제2 이미지로의 제2 평균 Cb 3D 매핑을 입력으로서 공급함으로써 생성하는 것; 및
Cr 출력 성분의 상기 신경망의 매개변수를 상기 제1 이미지의 제2 정규화된 루마 및 크로마 샘플 포인트 및 상기 제2 이미지로의 제2 평균 Cr 3D 매핑을 입력으로서 공급함으로써 생성하는 것을 더 포함하는 방법.
제1항 또는 제2항에 있어서, 상기 제1 동적 범위는 상기 제2 동적 범위보다 낮거나, 또는 그보다 높은 방법.
제1항 또는 제2항에 있어서,
상기 출력 이미지를 생성하는 것;
인코딩된 이미지를 생성하기 위하여 상기 출력 이미지를 압축하는 것; 및
출력 비트스트림을 생성하기 위하여 상기 인코딩된 이미지와 상기 선택된 NN 모델의 상기 매개변수를 결합하는 것을 더 포함하는 방법.
제1 동적 범위로부터 제2 동적 범위로 이미지를 매핑하는 방법에 있어서, 상기 제1 동적 범위는 상기 제2 동적 범위와 상이하며, 상기 방법은:
제1 동적 범위의 인코딩된 이미지 및 이미지 메타데이터를 포함하는 압축된 비트스트림을 수신하는 것- 상기 이미지 메타데이터는 상기 인코딩된 이미지를 출력 이미지로 매핑하는 신경망(NN) 모델에 대한 매개변수를 포함하고, 상기 이미지 메타데이터는 상기 인코딩된 이미지의 하나 이상의 색상 성분에 대하여 상기 NN 내의 신경망 계층의 수, 적어도 하나의 계층에 대한 신경 노드의 수 및 상기 적어도 하나의 계층의 노드의 활성화 함수와 함께 사용될 가중치 및 오프셋을 포함함; 및
상기 인코딩된 이미지 및 상기 NN 모델의 상기 매개변수에 기반하여 출력 이미지를 생성하는 것을 포함하며,
상기 NN 모델은 3개의 이미지의 각 색상 성분에 대해 1개씩, 3개의 신경망을 포함하는 다중 색상 등급 모델을 사용하는 전역적 매핑을 포함하고, 상기 3개의 이미지는 동일한 장면을 나타내며 각각의 동적 범위를 가지고, 상기 3개의 신경망 각각은 상기 3개의 이미지의 모든 3개의 색상 성분의 픽셀 값에 기반한 입력 및 상기 입력 픽셀 값의 상기 색상 등급을 나타내는 입력을 수신하는 방법.
제13항에 있어서, 상기 이미지 메타데이터는 스케일링 메타데이터를 더 포함하고, 상기 인코딩된 이미지의 각 색상 성분에 대하여 상기 스케일링 메타데이터는 이득, 최소값 및 최대값을 포함하며, 상기 방법은 상기 스케일링 메타데이터 및 상기 출력 이미지에 기반하여 비정규화 출력 이미지를 생성하는 것을 더 포함하는 방법.
제1 동적 범위로부터 제2 동적 범위로 이미지를 매핑하는 방법에 있어서, 상기 제1 동적 범위는 상기 제2 동적 범위와 동일하며, 상기 방법은:
제2 동적 범위를 갖는 이미지의 관점에서 제1 동적 범위를 갖는 이미지를 근사하도록(approximate) 각각 적응된 하나 이상의 신경망(NN) 모델을 제공하는 것;
상기 제1 동적 범위의 제1 이미지 및 상기 제2 동적 범위의 제2 이미지를 수신하는 것-상기 두 이미지는 동일한 장면을 나타냄;
상기 제1 이미지 및 상기 제2 이미지에 기반하여 상기 제2 이미지에 근사하는 출력 이미지를 결정하기 위하여 다양한 NN 모델로부터 신경망 모델을 선택하는 것;
최적화 기준, 상기 제1 이미지 및 상기 제2 이미지에 따라 상기 선택된 NN 모델의 매개변수 값을 결정하는 것-상기 매개변수는 상기 선택된 NN 모델의 계층의 노드에 대한 노드 가중치 및/또는 노드 편향을 포함함; 및
상기 선택된 NN 모델의 상기 매개변수를 출력하는 것을 포함하고,
상기 방법은 제3 동적 범위의 제3 이미지를 수신하는 것을 더 포함하며, 상기 제3 이미지는 상기 제1 및 제2 이미지와 동일한 장면을 나타내고,
상기 하나 이상의 NN 모델은 상기 3개의 이미지의 각 색상 성분에 대해 1개씩, 3개의 신경망을 포함하는 다중 색상 등급 모델을 사용하는 전역적 매핑을 포함하고, 상기 3개의 신경망 각각은 상기 3개의 이미지의 모든 3개의 색상 성분의 픽셀 값에 기반한 입력 및 상기 입력 픽셀 값의 상기 색상 등급을 나타내는 입력을 수신하는 방법.
삭제