KR20210059466A - 영상 제공 장치 및 이에 의한 영상 제공 방법, 및 디스플레이 장치 및 이에 의한 디스플레이 방법 - Google Patents

영상 제공 장치 및 이에 의한 영상 제공 방법, 및 디스플레이 장치 및 이에 의한 디스플레이 방법 Download PDF

Info

Publication number
KR20210059466A
KR20210059466A KR1020190146953A KR20190146953A KR20210059466A KR 20210059466 A KR20210059466 A KR 20210059466A KR 1020190146953 A KR1020190146953 A KR 1020190146953A KR 20190146953 A KR20190146953 A KR 20190146953A KR 20210059466 A KR20210059466 A KR 20210059466A
Authority
KR
South Korea
Prior art keywords
dnn
ootf
digital image
meta information
hdr
Prior art date
Application number
KR1020190146953A
Other languages
English (en)
Inventor
박필규
민정혜
최광표
김경아
테자스나이르
손유미
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020190146953A priority Critical patent/KR20210059466A/ko
Priority to PCT/KR2020/015896 priority patent/WO2021096252A1/en
Priority to EP20886674.9A priority patent/EP3997887A4/en
Priority to CN202080074016.0A priority patent/CN114641793A/zh
Priority to US17/097,320 priority patent/US11823362B2/en
Publication of KR20210059466A publication Critical patent/KR20210059466A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/92Dynamic range modification of images or parts thereof based on global image properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/003Details of a display terminal, the details relating to the control arrangement of the display terminal and to the interfaces thereto
    • G09G5/006Details of the interface to the display terminal
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/10Intensity circuits
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • H04N23/84Camera processing pipelines; Components thereof for processing colour signals
    • H04N23/88Camera processing pipelines; Components thereof for processing colour signals for colour balance, e.g. white-balance circuits or colour temperature control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/64Circuits for processing colour signals
    • H04N9/68Circuits for processing colour signals for controlling the amplitude of colour signals, e.g. automatic chroma control circuits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20208High dynamic range [HDR] image processing
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2320/00Control of display operating conditions
    • G09G2320/02Improving the quality of display appearance
    • G09G2320/0271Adjustment of the gradation levels within the range of the gradation scale, e.g. by redistribution or clipping
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2340/00Aspects of display data processing
    • G09G2340/12Overlay of images, i.e. displayed pixel being the result of switching between the corresponding input pixels
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2370/00Aspects of data communication
    • G09G2370/04Exchange of auxiliary data, i.e. other than image data, between monitor and graphics controller

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Image Processing (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)

Abstract

하나 이상의 인스트럭션들을 저장하는 메모리; 및 메모리에 저장된 하나 이상의 인스트럭션들을 실행하는 프로세서를 포함하고, 프로세서는, 제 1 디지털 영상의 부호화 데이터 및 DNN의 사양을 나타내는 AI 메타 정보를 획득하고, 부호화 데이터를 복호화하여 제 1 디지털 영상에 대응하는 제 2 디지털 영상을 획득하고, 미리 결정된 EOTF에 따라 제 2 디지털 영상으로부터 변환된 광 신호를 획득하고, OOTF, 및 AI 메타 정보에 따라 세팅되는 HDR DNN으로 광 신호를 처리하여 디스플레이 신호를 획득하는, 일 실시예에 따른 디스플레이 장치가 개시된다.

Description

영상 제공 장치 및 이에 의한 영상 제공 방법, 및 디스플레이 장치 및 이에 의한 디스플레이 방법{IMAGE PROVIDING APPARATUS AND METHOD, AND DISPLAY APPARATUS AND METHOD}
본 개시는 영상 처리 분야에 관한 것이다. 보다 구체적으로, 본 개시는 디스플레이되는 영상의 퀄리티를 향상시키기 위한 HDR(High Dynamic Range)에 관한 것이다.
인간이 볼 수 있는 밝기 영역은 대략 10-6nits 내지 108nits 인 반면, 실제 생활에서 접하는 밝기 영역은 그보다 상당히 넓다. 비디오의 사실감을 극대화하기 위하여 근래에 HDTV에서 지원하는 명암비(Dynamic Range)보다 넓은 고명암비(HDR, High Dynamic Range)를 제공하기 위한 다양한 연구 및 표준화가 진행되고 있다.
표현 가능한 최소 밝기가 0.0, 최대 밝기가 1.0이라 할 때, 기존 디스플레이 장치에서는 각 채널의 밝기 레벨을 표현하는데 8비트의 고정 소수점 값을 사용하였다. HDR에서는 밝기 레벨을 표현하는 데 있어, 내부적으로 16비트, 32비트 또는 64비트의 더 많은 단계를 갖는 부동 소수점 데이터를 사용하여 더 크거나 작은 밝기 값을 세밀하게 표현할 수 있다. HDR 영상에서는 밝은 사물들이 밝게 보이고, 어두운 사물들이 어둡게 보이고, 밝은 사물이거나 어두운 사물이거나 디테일하게 보인다는 장점이 있다.
리니어(linear)한 밝기 값을 갖는 광 신호(light signal)의 밝기 범위는 디스플레이 장치가 구현할 수 있는 밝기 범위보다 넓을 수 있으므로, 광 신호의 톤 매핑(tone mapping)을 위한 톤 매핑 커브(tone mapping curve)가 이용된다. 기존에는 광 신호의 컨텍스트(context)와 무관하게 일률적으로 톤 매핑 커브가 광 신호에 적용되었기 때문에 디스플레이 영상의 퀄리티를 향상시키는데 한계가 있었다.
일 실시예에 따른 영상 제공 장치 및 이에 의한 영상 제공 방법, 및 디스플레이 장치 및 이에 의한 디스플레이 방법은 AI 기반의 톤 매핑을 통해 디스플레이되는 영상의 퀄리티를 향상시키는 것을 기술적 과제로 한다.
일 실시예에 따른 디스플레이 장치는, 하나 이상의 인스트럭션들을 저장하는 메모리; 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션들을 실행하는 프로세서를 포함하고, 상기 프로세서는, 제 1 디지털 영상의 부호화 데이터 및 심층 신경망(deep neural network, 이하, DNN)의 사양(specification)을 나타내는 인공지능(artificial intelligence, 이하, AI) 메타 정보를 획득하고, 상기 부호화 데이터를 복호화하여 상기 제 1 디지털 영상에 대응하는 제 2 디지털 영상을 획득하고, 미리 결정된 EOTF(Electro-Optical Transfer Function)에 따라 상기 제 2 디지털 영상으로부터 변환된 광 신호를 획득하고, OOTF(Opto-Optical Transfer Function), 및 상기 AI 메타 정보에 따라 세팅되는 HDR DNN으로 상기 광 신호를 처리하여 디스플레이 신호를 획득할 수 있다.
상기 HDR DNN은 복수의 레이어들을 포함하며, 상기 AI 메타 정보는, 레이어들의 개수, 레이어들의 종류, 적어도 하나의 레이어에서 이용되는 필터 커널의 개수, 적어도 하나의 레이어에서 이용되는 필터 커널의 크기, 적어도 하나의 레이어에서 이용되는 필터 커널의 가중치 및 바이어스 값 중 적어도 하나의 정보를 포함할 수 있다.
상기 프로세서는, 상기 광 신호를 상기 OOTF에 따라 변환하고, 상기 광 신호를 상기 HDR DNN으로 입력하고, 상기 광 신호로부터 상기 OOTF에 따라 변환된 신호 및 상기 HDR DNN의 출력 신호를 합하여 상기 디스플레이 신호를 획득할 수 있다.
상기 프로세서는, 상기 광 신호를 상기 OOTF에 따라 변환하고, 상기 광 신호로부터 OETF에 따라 변환된 제 1 중간 영상을 상기 HDR DNN으로 입력하고, 상기 HDR DNN에서 출력되는 제 2 중간 영상을 상기 EOTF에 따라 변환하고, 상기 광 신호로부터 상기 OOTF에 따라 변환된 신호 및 상기 제 2 중간 영상으로부터 상기 EOTF에 따라 변환된 신호를 합하여 상기 디스플레이 신호를 획득할 수 있다.
상기 프로세서는, 상기 광 신호를 상기 OOTF 및 상기 HDR DNN 중 어느 하나로 처리하고, 상기 OOTF 및 상기 HDR DNN 중 어느 하나에 의한 처리 결과를 상기 OOTF 및 상기 HDR DNN 중 다른 하나로 처리하여 상기 디스플레이 신호를 획득할 수 있다.
상기 프로세서는, 상기 OOTF의 세팅에 이용되는 OOTF 메타 정보를 획득하고, 상기 획득한 OOTF 메타 정보를 상기 HDR DNN으로 입력할 수 있다.
상기 제 2 디지털 영상은 복수의 프레임을 포함하며, 상기 프로세서는, 상기 복수의 프레임 중 제 1 그룹의 프레임을 위한 제 1의 AI 메타 정보 및 제 2 그룹의 프레임을 위한 제 2의 AI 메타 정보를 획득하고, 상기 제 1의 AI 메타 정보 및 상기 제 2의 AI 메타 정보에 따라 상기 제 1 그룹의 프레임을 위한 HDR DNN과 상기 제 2 그룹의 프레임을 위한 HDR DNN을 독립적으로 세팅할 수 있다.
상기 제 1의 AI 메타 정보 및 상기 제 2의 AI 메타 정보는, 상기 제 1의 AI 메타 정보 및 상기 제 2의 AI 메타 정보가 적용되는 프레임의 식별 정보를 포함할 수 있다.
일 실시예에 따른 영상 제공 장치는, 하나 이상의 인스트럭션들을 저장하는 메모리; 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션들을 실행하는 프로세서를 포함하고, 상기 프로세서는, 제 1 디지털 영상에 대응하는 광 신호를 OOTF(Opto-Optical Transfer Function) 및 심층 신경망(deep neural network, 이하, DNN)으로 처리한 결과와 정답(ground truth) 신호 사이의 차이 정보에 기반하여 상기 DNN의 사양(specification)을 결정하고, 상기 제 1 디지털 영상을 부호화하고, 상기 제 1 디지털 영상의 부호화 데이터, 및 상기 DNN의 사양을 나타내는 인공지능(artificial intelligence, 이하, AI) 메타 정보를 디스플레이 장치로 전송할 수 있다.
상기 미리 결정된 정답 신호는, 상기 광 신호로부터 상기 OOTF에 따라 변환된 신호를 기반으로 미리 결정될 수 있다.
상기 제 1 디지털 영상은 복수의 프레임을 포함하되, 상기 프로세서는, 상기 복수의 프레임 중 제 1 그룹의 프레임을 위한 DNN의 사양과 제 2 그룹의 프레임을 위한 DNN의 사양을 독립적으로 결정할 수 있다.
상기 프로세서는, 상기 복수의 프레임 각각의 픽셀 값들의 히스토그램의 유사도 또는 분산에 기초하여 상기 복수의 프레임을 상기 제 1 그룹의 프레임들과 상기 제 2 그룹의 프레임들로 구분할 수 있다.
상기 프로세서는, 상기 복수의 프레임들 중 상기 제 1 그룹의 대표 프레임 및 상기 제 2 그룹의 대표 프레임을 결정하며, 상기 제 1 그룹의 대표 프레임에 대응하는 광 신호를 OOTF 및 DNN으로 처리한 결과와 정답 신호 사이의 차이 정보에 기반하여 상기 DNN의 사양을 결정하고, 상기 제 2 그룹의 대표 프레임에 대응하는 광 신호를 OOTF 및 DNN으로 처리한 결과와 정답 신호 사이의 차이 정보에 기반하여 상기 DNN의 사양을 결정할 수 있다.
상기 프로세서는, 상기 디스플레이 장치가 디스플레이할 수 있는 밝기 값에 따라 DNN 기반의 톤 매핑 처리가 필요한지 여부를 나타내는 정보를 상기 디스플레이 장치로 전송할 수 있다.
상기 프로세서는, 상기 디스플레이 장치가 디스플레이할 수 있는 최대 밝기 값과 임계 밝기 값의 차이가 소정 값 이하인 경우, 상기 DNN 기반 톤 매핑 처리가 필요하지 않다는 정보를 상기 디스플레이 장치로 전송할 수 있다.
상기 프로세서는, 상기 디스플레이 장치로부터 성능 정보를 수신하고, 상기 수신된 성능 정보에 기초하여, 상기 제 1 디지털 영상에 대응하는 광 신호의 톤 매핑에 이용 가능한 복수의 DNN의 사양 중 어느 하나를 결정하고, 상기 결정된 어느 하나의 DNN의 사양을 나타내는 AI 메타 정보를 상기 디스플레이 장치로 전송할 수 있다.
상기 프로세서는, 상기 제 1 디지털 영상의 픽셀 값들에 기초하여 상기 DNN의 제한 조건을 결정하되, 상기 제한 조건은, 상기 DNN에 포함되는 레이어들의 최소 개수, 적어도 하나의 레이어에서 이용되는 필터 커널의 최소 크기 및 상기 적어도 하나의 레이어에서 이용되는 필터 커널의 최소 개수 중 적어도 하나를 포함할 수 있다.
일 실시예에 따른 영상의 디스플레이 방법은, 제 1 디지털 영상의 부호화 데이터 및 심층 신경망(deep neural network, 이하, DNN)의 사양을 나타내는 인공지능(artificial intelligence, 이하, AI) 메타 정보를 획득하는 단계; 상기 부호화 데이터를 복호화하여 상기 제 1 디지털 영상에 대응하는 제 2 디지털 영상을 획득하는 단계; 미리 결정된 EOTF(Electro-Optical Transfer Function)에 따라 상기 제 2 디지털 영상으로부터 변환된 광 신호를 획득하는 단계; 및 OOTF(Opto-Optical Transfer Function), 및 상기 AI 메타 정보에 따라 세팅되는 HDR DNN으로 상기 광 신호를 처리하여 디스플레이 신호를 획득하는 단계를 포함할 수 있다.
일 실시예에 따른 영상 제공 방법은, 제 1 디지털 영상에 대응하는 광 신호를 OOTF(Opto-Optical Transfer Function) 및 심층 신경망(deep neural network, 이하, DNN)으로 처리한 결과와 정답(ground truth) 신호 사이의 차이 정보에 기반하여 상기 DNN의 사양을 결정하는 단계; 상기 제 1 디지털 영상을 부호화하는 단계; 및 상기 제 1 디지털 영상의 부호화 데이터, 및 상기 DNN의 사양을 나타내는 인공지능(artificial intelligence, 이하, AI) 메타 정보를 디스플레이 장치로 전송하는 단계를 포함할 수 있다.
일 실시예에 따른 영상 제공 장치 및 이에 의한 영상 제공 방법, 및 디스플레이 장치 및 이에 의한 디스플레이 방법은 AI 기반의 톤 매핑을 통해 디스플레이되는 영상의 퀄리티를 향상시킬 수 있다.
다만, 일 실시예에 따른 영상 제공 장치 및 이에 의한 영상 제공 방법, 및 디스플레이 장치 및 이에 의한 디스플레이 방법이 달성할 수 있는 효과는 이상에서 언급한 것들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 명세서에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 일 실시예에 따른 영상 제공 방법 및 디스플레이 방법을 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 영상 제공 장치의 구성을 도시하는 도면이다.
도 3은 OOTF를 도시하는 예시적인 도면이다.
도 4는 일 실시예에 따른 영상 제공 장치에 의한 DNN 사양의 결정 방법을 설명하기 위한 도면이다.
도 5는 다른 실시예에 따른 영상 제공 장치에 의한 DNN 사양의 결정 방법을 설명하기 위한 도면이다.
도 6은 또 다른 실시예에 따른 영상 제공 장치에 의한 DNN 사양의 결정 방법을 설명하기 위한 도면이다.
도 7은 또 다른 실시예에 따른 영상 제공 장치에 의한 DNN 사양의 결정 방법을 설명하기 위한 도면이다.
도 8은 영상 제공 장치에 의해 결정된 여러 사양의 DNN을 나타내는 표이다.
도 9는 제 1 디지털 영상을 이루는 프레임들을 도시하는 도면이다.
도 10은 일 실시예에 따른 AI 디스플레이 데이터를 나타내는 도면이다.
도 11은 도 10에 도시된 AI 디스플레이 데이터에 포함되는 AI 메타 정보의 구조를 나타내는 도면이다.
도 12는 다른 실시예에 따른 AI 디스플레이 데이터를 나타내는 도면이다.
도 13은 도 12에 도시된 AI 디스플레이 데이터에 포함되는 AI 메타 정보의 구조를 나타내는 도면이다.
도 14는 일 실시예에 따른 영상 제공 방법의 순서도이다.
도 15는 다른 실시예에 따른 영상 제공 방법의 순서도이다.
도 16은 일 실시예에 따른 디스플레이 장치의 구성을 도시하는 도면이다.
도 17은 일 실시예에 따른 디스플레이 장치에 의한 톤 매핑 과정을 설명하기 위한 도면이다.
도 18은 다른 실시예에 따른 디스플레이 장치에 의한 톤 매핑 과정을 설명하기 위한 도면이다.
도 19는 또 다른 실시예에 따른 디스플레이 장치에 의한 톤 매핑 과정을 설명하기 위한 도면이다.
도 20은 또 다른 실시예에 따른 디스플레이 장치에 의한 톤 매핑 과정을 설명하기 위한 도면이다.
도 21은 일 실시예에 따른 디스플레이 방법의 순서도이다.
도 22는 다른 실시예에 따른 디스플레이 방법의 순서도이다.
본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고, 이를 상세한 설명을 통해 설명하고자 한다. 그러나, 이는 본 개시를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
실시예를 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 실시예의 설명 과정에서 이용되는 숫자(예를 들어, 제 1, 제 2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.
또한, 본 명세서에서 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.
또한, 본 명세서에서 '~부(유닛)', '모듈' 등으로 표현되는 구성요소는 2개 이상의 구성요소가 하나의 구성요소로 합쳐지거나 또는 하나의 구성요소가 보다 세분화된 기능별로 2개 이상으로 분화될 수도 있다. 또한, 이하에서 설명할 구성요소 각각은 자신이 담당하는 주기능 이외에도 다른 구성요소가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성요소 각각이 담당하는 주기능 중 일부 기능이 다른 구성요소에 의해 전담되어 수행될 수도 있음은 물론이다.
또한, 본 명세서에서 '광 신호'는 선형(linear)의 밝기 값들을 갖는 신호를 나타낸다. 선형의 밝기 값들은 2차원, 즉, 가로 방향 및 세로 방향을 따라 존재할 수 있다. '광 신호'의 밝기 값은 부동소수점(floating point)으로 표현될 수 있다. '광 신호'는 카메라 센서에 의해 수집되는 씬 광(scene light) 또는 디스플레이에 의해 출력되는 디스플레이 광(display light)을 포함할 수 있다. '광 신호'는 자연 상태에 존재하는 광에 해당하기 때문에 선형의 밝기 값을 갖는다.
또한, 본 명세서에서 '디스플레이 신호'는 '광 신호'로부터 AI(artificial intelligence) 및/또는 OOTF(Opto-Optic Transfer Function) 기반으로 톤 매핑된, 디스플레이의 대상이 되는 신호를 나타낸다. '디스플레이 신호'는 디스플레이 광(display light)으로 지칭될 수도 있다. '디스플레이 신호'는 디스플레이를 통해 영상으로 표현된다.
또한, 본 명세서에서 '디지털 영상'은 비 선형(non-linear)의 밝기 값들을 갖는 데이터를 나타낸다. 비 선형의 밝기 값들은 2차원, 즉, 가로 방향 및 세로 방향을 따라 존재할 수 있다. '디지털 영상'의 밝기 값은 고정소수점(fixed point)으로 표현될 수 있다. 본 명세서에서 '디지털 영상'의 밝기 값은 픽셀 값으로 지칭될 수도 있다. '디지털 영상'은 인간의 시각 특성에 따라 광 신호로부터 변환된 것이므로, 자연 상태에 존재하는 광과 달리 비선형의 밝기 값을 갖는다.
또한, 상기 '광 신호', '디스플레이 신호' 및 '디지털 영상'은 적어도 하나의 프레임으로 이루어질 수 있다. 여기서, '프레임'은 시간을 따라 나열된 밝기 값들 중 어느 한 시점의 밝기 값들을 포함한다.
또한, '광 신호', '디스플레이 신호' 및 '디지털 영상'의 밝기 값은 RGB 값 또는 휘도(luminance) 값으로 표현될 수 있다.
또한, 본 명세서에서 'OETF (Opto-Electrical Transfer Function)'는 광 신호의 밝기 값들과 디지털 영상의 밝기 값들 사이의 관계를 정의하는 함수이다. 광 신호의 밝기 값들을 OETF에 따라 변환함으로써 디지털 영상이 획득될 수 있다. OETF는 광 신호의 밝기 값들 중 좁은 범위에 포함된, 상대적으로 작은 크기를 갖는 밝기 값들을 넓은 범위의 밝기 값들로 변환시키고, 광 신호의 밝기 값들 중 넓은 범위에 포함된, 상대적으로 큰 크기를 갖는 밝기 값들을 좁은 범위의 밝기 값들로 변환시킬 수 있다. OETF는 광 신호를 인간의 인지 시각 특성에 부합하는 디지털 영상으로 변환시켜 디지털 영상의 양자화시 최적의 비트 할당이 가능하게 할 수 있다. 즉, OETF에 따라 광 신호로부터 변환된 디지털 영상 중 광 신호의 어두운 영역에 대응하는 영역에 더 많은 비트가 할당되고 광 신호의 밝은 영역에 대응하는 영역에 적은 비트가 할당될 수 있다.
또한, 본 명세서에서, 'EOTF (Electro-Optical Transfer Function)'는 디지털 영상의 밝기 값들과 광 신호의 밝기 값들 사이의 관계를 정의하는 함수로서, OETF와 역의 관계를 가질 수 있다. 디지털 영상의 밝기 값들을 EOTF에 따라 변환함으로써 광 신호가 획득될 수 있다.
또한, 본 명세서에서, 'OOTF(Opto-Optic Transfer Function)'는 어느 하나의 광 신호의 밝기 값들과 다른 하나의 광 신호의 밝기 값들 사이의 관계를 정의하는 함수이다. 어느 하나의 광 신호의 밝기 값들을 OOTF에 따라 변환함으로써 다른 하나의 광 신호가 획득될 수 있다.
또한, 본 명세서에서, '톤 매핑'이란, OOTF 및/또는 AI에 따라 광 신호를 디스플레이 신호로 변환시키는 과정을 의미한다.
또한, 본 명세서에서 '심층 신경망(deep neural network, 이하, DNN)'은 뇌 신경을 모사한 인공신경망 모델의 대표적인 예시로써, 특정 알고리즘을 사용한 인공신경망 모델로 한정되지 않는다.
또한, 본 명세서에서 'DNN의 구조'는 DNN을 이루는 레이어들의 개수, 레이어들의 종류, 적어도 하나의 레이어에서 이용되는 필터 커널의 크기 및 적어도 하나의 레이어에서 이용되는 필터 커널의 개수 중 적어도 하나를 의미한다.
또한, 본 명세서에서 'DNN의 파라미터'는 DNN을 이루는 각 레이어의 연산 과정에서 이용되는 값으로서 예를 들어, 입력 값을 소정 연산식에 적용할 때 이용되는 가중치 및 소정 연산식의 결과 값에 더해지거나 빼지는 바이어스 값 중 적어도 하나를 포함할 수 있다. 파라미터는 매트릭스 형태로 표현될 수 있다. 파라미터는 훈련의 결과로 최적화되는 값으로서, 필요에 따라 별도의 훈련 데이터(training data)를 통해 갱신될 수 있다. 파라미터는 DNN의 구조가 결정된 뒤에 훈련 데이터를 이용한 DNN의 훈련 과정을 통해 결정될 수 있다.
또한, 본 명세서에서 'DNN의 사양(specification)'은 DNN의 구조 및 파라미터 중 적어도 하나를 나타낸다. 예를 들어, 본 명세서에서 'DNN의 사양을 결정한다'는 표현은, DNN의 구조를 결정하거나, DNN의 파라미터를 결정하거나, DNN의 구조와 파라미터를 결정한다는 것을 의미한다.
또한, 본 명세서에서, 'HDR DNN'은, 광 신호의 톤 매핑에 이용되는 DNN으로서, 후술하는 실시예들을 통해 결정된 DNN의 사양을 갖도록 세팅된다.
또한, 본 명세서에서, 'HDR DNN (또는 OOTF)을 세팅한다'는 것은, AI 메타 정보(또는 OOTF 메타 정보)가 가리키는 사양을 갖는 HDR DNN (또는 OOTF)을 저장하거나, 미리 저장된 임의의 사양을 갖는 HDR DNN (또는 OOTF)을 AI 메타 정보(또는 OOTF 메타 정보)가 가리키는 사양을 갖도록 변형하거나, AI 메타 정보(또는 OOTF 메타 정보)가 가리키는 사양을 갖는 HDR DNN(또는 OOTF)을 생성하는 것을 의미할 수 있다. 다시 말하면, 'HDR DNN(또는 OOTF)을 세팅한다'는 것은 AI 메타 정보(또는 OOTF 메타 정보)가 가리키는 사양을 갖는 HDR DNN(또는 OOTF)을, 디스플레이 장치가 이용할 수 있게 하는 다양한 종류의 동작을 의미할 수 있다.
이하, 본 개시의 기술적 사상에 의한 실시예들을 차례로 상세히 설명한다.
도 1은 일 실시예에 따른 영상 제공 방법 및 디스플레이 방법을 설명하기 위한 도면이다.
도 1을 참조하면, 선형의 밝기 값들을 갖는 제 1 광 신호에 대해 OETF(Opto-Electrical Transfer Function)(201)가 적용됨으로써 비 선형의 밝기 값들을 갖는 제 1 디지털 영상이 획득된다. 도 1은 영상 제공 장치(200)가 제 1 광 신호를 OETF(201)에 따라 변환하는 것으로 도시하고 있으나, OETF(201)의 적용은 카메라 센서에 의해 이루어질 수 있으며, 이 경우, 영상 제공 장치(200)는 OETF(201)의 적용 결과 생성된 제 1 디지털 영상을 획득한다.
영상 제공 장치(200)는 제 1 디지털 영상에 대해 부호화(202) 및 영상 분석(203)을 수행하고, 그 결과로서, 부호화 데이터와 메타 정보를 포함하는 AI 디스플레이 데이터를 디스플레이 장치(1600)로 전송한다. 메타 정보는 디스플레이 장치(1600)에 의한 톤 매핑(1603) 과정에서 이용되는 정보들을 포함한다.
일 실시예에서, 톤 매핑 과정(1603)에 OOTF(Opto-Optic Transfer Function) 및 HDR DNN이 이용되는데, 영상 제공 장치(200)는 디스플레이 장치(1600)가 OOTF를 세팅할 수 있게 하는 OOTF 메타 정보와, HDR DNN을 세팅할 수 있게 하는 AI 메타 정보를 디스플레이 장치(1600)로 전송한다. 메타 정보는 제 1 디지털 영상의 분석 결과로 도출되는 것이므로, 디스플레이 장치(1600)는 메타 정보에 기초한 톤 매핑(1603)을 통해 우수한 퀄리티의 영상을 디스플레이할 수 있다.
영상 제공 장치(200)의 부호화(202)에 대해 설명하면, 부호화(202)는 제 1 디지털 영상을 예측하여 예측 데이터를 생성하는 과정, 제 1 디지털 영상과 예측 데이터 사이의 차이에 해당하는 잔차 데이터를 생성하는 과정, 공간 영역 성분인 잔차 데이터를 주파수 영역 성분으로 변환(transformation)하는 과정, 주파수 영역 성분으로 변환된 잔차 데이터를 양자화(quantization)하는 과정 및 양자화된 잔차 데이터를 엔트로피 부호화하는 과정 등을 포함할 수 있다. 이와 같은 부호화(202)는 MPEG-2, H.264 AVC(Advanced Video Coding), MPEG-4, HEVC(High Efficiency Video Coding), VC-1, VP8, VP9 및 AV1(AOMedia Video 1) 등 주파수 변환을 이용한 영상 압축 방법 중의 하나를 통해 구현될 수 있다.
부호화 데이터는 비트스트림 형태로 전송될 수 있다. 부호화 데이터는 제 1 디지털 영상의 픽셀 값들에 기초하여 획득되는 데이터, 예를 들어, 제 1 디지털 영상과 예측 데이터 사이의 차이인 잔차 데이터를 포함할 수 있다. 또한, 부호화 데이터는 제 1 디지털 영상의 부호화 과정에서 이용된 정보들을 포함한다. 예를 들어, 부호화 데이터는 제 1 디지털 영상을 부호화하는데 이용된 예측 모드 정보, 움직임 정보, 및 양자화 파라미터 관련 정보 등을 포함할 수 있다. 부호화 데이터는 MPEG-2, H.264 AVC, MPEG-4, HEVC, VC-1, VP8, VP9 및 AV1 등 주파수 변환을 이용하는 영상 압축 방법 중 부호화(202) 과정에서 이용된 영상 압축 방법의 규칙, 예를 들어, 신택스(syntax)에 따라 생성될 수 있다.
메타 정보는 비트스트림의 형태로 부호화 데이터에 포함되어 전송될 수 있다. 구현예에 따라, 메타 정보는 프레임이나 패킷 형태로 부호화 데이터와 구분되어 전송될 수도 있다. 부호화 데이터와 메타 정보는 동일한 네트워크 또는 서로 상이한 네트워크를 통해 전송될 수 있다. 도 1은 메타 정보와 부호화 데이터가 모두 하나의 영상 제공 장치(200)로부터 디스플레이 장치(1600)로 전송되는 것으로 도시하고 있으나, 구현예에 따라, 메타 정보와 부호화 데이터는 서로 다른 장치로부터 디스플레이 장치(1600)로 각각 전송될 수도 있다.
AI 디스플레이 데이터를 수신한 디스플레이 장치(1600)는 부호화 데이터를 복호화(1601)하여 비 선형의 밝기 값들을 갖는 제 2 디지털 영상을 복원한다. 여기서, 복호화(1601)는 부호화 데이터를 엔트로피 복호화하여 양자화된 잔차 데이터를 생성하는 과정, 양자화된 잔차 데이터를 역양자화하는 과정, 주파수 영역 성분의 잔차 데이터를 공간 영역 성분으로 변환하는 과정, 예측 데이터를 생성하는 과정 및 예측 데이터와 잔차 데이터를 이용하여 제 2 디지털 영상을 획득하는 과정 등을 포함할 수 있다. 이와 같은 복호화(1601) 과정은 부호화(202) 과정에서 사용된 MPEG-2, H.264, MPEG-4, HEVC, VC-1, VP8, VP9 및 AV1 등의 주파수 변환을 이용한 영상 압축 방법 중의 하나에 대응되는 영상 복원 방법을 통해 구현될 수 있다.
디스플레이 장치(1600)는 미리 결정된 EOTF (Electro-Optical Transfer Function)(1602)에 따라 제 2 디지털 영상으로부터 변환된 제 2 광 신호를 획득한다. 제 2 광 신호는 선형의 밝기 값들을 포함한다. EOTF(1602)와 OETF(201)는 서로 역의 관계를 가질 수 있다.
디스플레이 장치(1600)는 메타 정보에 기반한 톤 매핑(1603)을 제 2 광 신호에 적용하여 선형의 밝기 값들을 갖는 디스플레이 신호를 획득한다. 디스플레이 신호는 디스플레이 장치(1600)의 화면에서 출력된다.
메타 정보는 제 1 디지털 영상의 분석 결과로 도출되는 것이므로, 디스플레이 장치(1600)는 메타 정보에 기초하여 제 1 디지털 영상에 최적화된 OOTF 및 HDR DNN을 세팅하고, 세팅된 OOTF 및 HDR DNN에 기초한 톤 매핑(1603)을 수행하여 우수한 퀄리티의 영상을 디스플레이할 수 있다.
본 개시에서는 제 2 광 신호에 대한 톤 매핑(1603)이 DNN 기반으로 수행된다. 영상 제공 장치(200)는 어떤 사양을 갖는 DNN으로 제 2 광 신호를 톤 매핑(1603)하여야 디스플레이되는 영상의 퀄리티가 가장 많이 향상되는지를 결정한다. 그리고, 디스플레이 장치(1600)가 DNN 기반의 톤 매핑(1603)을 수행할 수 있도록, DNN의 사양을 나타내는 메타 정보, 구체적으로, AI 메타 정보를 디스플레이 장치(1600)로 전송한다. 즉, 영상 제공 장치(200)로부터 디스플레이 장치(1600)로 AI 메타 정보가 제공됨으로써, 시청자는 넓은 밝기 범위를 가지면서, 컨텍스트(context)에 따라 밝기 값이 개선된 영상을 시청할 수 있다.
이하에서는, 도 2 내지 도 22를 참조하여, 영상 제공 장치(200)의 구성 및 동작, 디스플레이 장치(1600)의 구성 및 동작에 대해 상세히 설명한다.
도 2는 일 실시예에 따른 영상 제공 장치(200)의 구성을 도시하는 도면이다.
도 2를 참조하면, 일 실시예에 따른 영상 제공 장치(200)는 영상 처리부(210) 및 전송부(230)를 포함할 수 있다. 영상 처리부(210)는 부호화부(212) 및 영상 분석부(214)를 포함할 수 있다. 전송부(230)는 데이터 처리부(232) 및 통신부(234)를 포함할 수 있다.
도 2는 영상 처리부(210)와 전송부(230)를 분리하여 도시하고 있으나, 영상 처리부(210)와 전송부(230)는 하나의 프로세서를 통해 구현될 수 있다. 이 경우, 전용 프로세서로 구현될 수도 있고, AP, CPU, GPU와 같은 범용 프로세서와 S/W의 조합을 통해 구현될 수도 있다. 또한, 전용 프로세서의 경우, 본 개시의 실시예를 구현하기 위한 메모리를 포함하여 구현되거나, 외부 메모리를 이용하기 위한 메모리 처리부를 포함하여 구현될 수 있다.
또한, 영상 처리부(210)와 전송부(230)는 복수의 프로세서로 구현될 수도 있다. 이 경우, 전용 프로세서들의 조합으로 구현될 수도 있고, AP, CPU, GPU와 같은 다수의 범용 프로세서들과 S/W의 조합을 통해 구현될 수도 있다.
부호화부(212)는 주파수 변환 기반의 영상 압축 방법에 따라 제 1 디지털 영상을 부호화한다. 제 1 디지털 영상의 부호화 결과 부호화 데이터가 생성되고, 부호화 데이터는 데이터 처리부(232)로 전달된다.
부호화 데이터는 제 1 디지털 영상의 픽셀 값들에 기초하여 획득되는 데이터, 예를 들어, 제 1 디지털 영상과 예측 데이터 사이의 차이인 잔차 데이터를 포함할 수 있다. 또한, 부호화 데이터는 제 1 디지털 영상의 부호화 과정에서 이용된 정보들을 포함한다. 예를 들어, 부호화 데이터는 제 1 디지털 영상을 부호화하는데 이용된 예측 모드 정보, 움직임 정보 및 양자화 파라미터 관련 정보 등을 포함할 수 있다. 또한, 후술하는 바와 같이, 부호화 데이터는 OOTF 메타 정보 및 AI 메타 정보 중 적어도 하나를 포함할 수도 있다.
영상 분석부(214)는 제 1 디지털 영상을 분석하여 디스플레이 장치(1600)에서의 톤 매핑을 위한 메타 정보를 생성한다. 메타 정보는 데이터 처리부(232)로 전달될 수 있다.
구체적으로, 영상 분석부(214)는 OOTF 결정부(215) 및 DNN 결정부(216)를 포함한다. OOTF 결정부(215) 및 DNN 결정부(216)는 각각 톤 매핑을 위한 OOTF의 사양 및 DNN의 사양을 결정한다.
OOTF 결정부(215)는 다양한 방법으로 OOTF의 사양을 결정할 수 있다. 일 방법으로, OOTF 결정부(215)는 서로 다른 사양을 갖는 미리 저장된 OOTF들 중 제 1 디지털 영상의 특성에 대응하는 사양을 갖는 OOTF를 결정할 수 있다. 여기서, 디지털 영상의 특성은 제 1 디지털 영상의 픽셀 값들의 분포, 편차, 분산, 히스토그램 등을 포함할 수 있다. 다른 방법으로, OOTF 결정부(215)는 미리 훈련이 완료된 DNN으로 제 1 디지털 영상 또는 제 1 디지털 영상에 대응하는 제 1 광 신호를 처리하고, 처리 결과에 기반하여 특정의 사양을 갖는 OOTF를 획득할 수도 있다. 또 다른 방법으로, OOTF 결정부(215)는 관리자에 의해 결정된 사양을 갖는 OOTF를 획득할 수도 있다.
OOTF의 사양이 결정되면, OOTF 결정부(215)는 OOTF 메타 정보를 생성한다. OOTF 메타 정보는 디스플레이 장치(1600)가 OOTF를 세팅하는데 이용된다.
도 3은 OOTF를 도시하는 예시적인 도면이다.
도 3에서 가로축은 톤 매핑 전의 광 신호의 밝기 값을 나타내고, 세로축은 톤 매핑 후의 광 신호의 밝기 값을 나타낸다. OOTF는 넓은 밝기 값 범위를 갖는 광 신호를 상대적으로 좁은 밝기 값 범위를 갖는 광 신호로 변환하는데 이용된다.
OOTF는 베지어 커브(Bezier curve)(300)를 포함할 수 있다. 베지어 커브(300)는 니(Knee) 포인트(310) 및 하나 이상의 앵커(anchor) 포인트(330)를 포함하는데, 베지어 커브(300)에서 원점으로부터 니 포인트(310)까지 선형적으로 변환되고, 니 포인트(310) 이후부터는 비 선형적으로 변환된다. 즉, 베지어 커브(300)는, 원점으로부터 니 포인트(310)까지의 1차원 그래프 및 니 포인트(310) 이후부터의 다차원 그래프로 이루어질 수 있다.
앵커 포인트(330)는 커브의 변곡점(point of inflection)을 의미할 수 있는데, 베지어 커브(300)에서 앵커 포인트(330)의 개수는 하나 이상일 수 있다.
OOTF 메타 정보는 OOTF의 사양을 나타내는 정보로서, 니 포인트(310)의 위치를 나타내는 정보, 앵커 포인트(330)의 위치를 나타내는 정보 및 앵커 포인트(330)의 개수 정보 중 적어도 하나를 포함할 수 있다. 여기서, 니 포인트(310)의 위치를 나타내는 정보는, 니 포인트(310)의 x축 값(KS) 및 y축 값(KF)을 포함할 수 있다. 또한, 앵커 포인트(330)의 위치를 나타내는 정보는 앵커 포인트(330)의 위치를 나타내는 실수 값을 포함할 수 있다.
다시 도 2를 참조하면, OOTF 결정부(215)에 의해 결정된 사양을 갖는 OOTF는 DNN 결정부(216)로 제공될 수 있다. DNN 결정부(216)는 제 1 디지털 영상 및 OOTF에 기초하여, 제 2 광 신호의 톤 매핑에 이용될 DNN의 사양을 결정한다. DNN은 복수의 레이어들을 포함할 수 있는데, 각 레이어들은 컨볼루션(convolution) 레이어, 활성화(activation) 레이어, 노멀라이제이션(normalization) 레이어, 또는 풀링(pooling) 레이어일 수 있다.
DNN 결정부(216)가 DNN의 사양을 결정한다는 것은 DNN의 구조 및/또는 DNN의 파라미터를 결정한다는 것을 의미한다. DNN의 구조는, 레이어들의 개수, 레이어들의 종류, 적어도 하나의 레이어에서 이용되는 필터 커널의 크기 및 적어도 하나의 레이어에서 이용되는 필터 커널의 개수로 특정될 수 있다. 상기 필터 커널은 컨볼루션 레이어에서 입력 데이터를 컨볼루션 처리하는데 이용될 수 있다. 또한, DNN의 파라미터는 레이어에서 입력 데이터를 처리할 때 이용되는 가중치 및 바이어스 값 중 적어도 하나를 포함할 수 있다. 예를 들어, DNN의 파라미터는 컨볼루션 레이어에서 입력 데이터를 컨볼루션 처리할 때 이용되는 필터 커널의 가중치를 포함할 수 있다. 필터 커널의 가중치들과 입력 데이터의 샘플 값들 사이의 곱 연산 및 합 연산을 통해 출력 데이터가 결정될 수 있다. 컨볼루션 레이어에서의 컨볼루션 연산은 공지된 기술이므로 상세한 설명은 생략한다.
DNN 결정부(216)는 DNN 사양을 계속적으로 변경해가면서 제 2 광 신호를 효과적으로 톤 매핑할 수 있는 DNN의 사양을 결정한다.
이하에서는, DNN 결정부(216)가 톤 매핑에 이용될 DNN의 사양을 결정하는 구체적인 방법에 대해 도 4 내지 도 7을 참조하여 설명한다.
도 4는 일 실시예에 따른 영상 제공 장치(200)에 의한 DNN 사양의 결정 방법을 설명하기 위한 도면이다.
제 1 디지털 영상에 대응하는 제 1 광 신호(410)는 OOTF(415)에 따라 변환된다. 여기서, OOTF(415)는 OOTF 결정부(215)에 의해 결정된다.
제 1 디지털 영상에 대응하는 제 1 광 신호(410)가 영상 제공 장치(200)에 저장되어 있지 않으면, DNN 결정부(216)는 제 1 디지털 영상을 EOTF에 따라 제 1 광 신호(410)로 변환하고, 제 1 광 신호(410)를 OOTF(415)에 따라 변환한다.
제 1 광 신호(410)는 미리 결정된 사양의 DNN(420)에서 처리된다. OOTF(415)에 의해 처리된 결과와 DNN(420)의 출력 결과가 합해져 디스플레이 신호(430)가 획득된다.
디스플레이 신호(430)는 미리 생성된 정답(ground truth) 신호(440)와 비교되고, 디스플레이 신호(430)와 정답 신호(440) 사이의 차이에 따라 DNN(420)의 사양이 변경된다. 여기서, 디스플레이 신호(430)와 정답 신호(440) 사이의 차이는 L1-norm 값, L2-norm 값, SSIM(Structural Similarity) 값, PSNR-HVS(Peak Signal-To-Noise Ratio-Human Vision System) 값, MS-SSIM(Multiscale SSIM) 값, VIF(Variance Inflation Factor) 값 및 VMAF(Video Multimethod Assessment Fusion) 값 중 적어도 하나로 산출될 수 있다.
DNN 결정부(216)는 DNN(420)의 사양을 계속적으로 변경해가면서 디스플레이 신호(430)와 정답 신호(440) 사이의 차이를 결정하고, 해당 차이를 최소화할 수 있는 DNN(420)의 사양을 결정할 수 있다.
일 실시예에서, DNN 결정부(216)는 DNN(420)의 구조는 고정하고, DNN(420)의 파라미터를 계속적으로 변경해가면서 디스플레이 신호(430)와 정답 신호(440) 사이의 차이를 결정하고, 해당 차이를 최소화할 수 있는 DNN(420)의 파라미터를 결정할 수 있다. 이때, DNN 결정부(216)는 다양한 구조의 DNN(420)들을 대상으로 하여 서로 다른 파라미터들을 결정할 수 있다. 예를 들어, DNN 결정부(216)는 'a' 구조의 DNN(420)을 대상으로 하여 디스플레이 신호(430)와 정답 신호(440) 사이의 차이를 최소화하는 DNN(420)의 파라미터를 결정하고, 'a' 구조와는 상이한 'b' 구조의 DNN(420)을 대상으로 하여 디스플레이 신호(430)와 정답 신호(440) 사이의 차이를 최소화하는 DNN(420)의 파라미터를 결정할 수 있다. 다양한 구조의 DNN(420)을 대상으로 하여 여러 파라미터를 결정하는 이유는, 디스플레이 신호(430)를 출력할 디스플레이 장치(1600)의 성능을 고려하기 위함이다. 이에 대해서는 도 8을 참조하여 후술한다.
정답 신호(440)는 제 1 광 신호(410)를 OOTF(415)에 따라 처리한 결과에 기반하여 생성될 수 있는데, 일 예로, 관리자는 제 1 광 신호(410)로부터 OOTF(415)에 따라 변환된 광 신호를 디스플레이로 모니터링하면서, 변환된 광 신호의 밝기 값들을 변경할 수 있다. 밝기 값의 변경 결과로 정답 신호(440)가 획득될 수 있다. 구체적으로, OOTF(415)에 따라 변환된 광 신호를 디스플레이로 디스플레이하였을 때, 밝기 값이 작아 식별이 어려운 부분이 존재하는 경우, 해당 부분의 밝기 값을 증가시켜 전체적으로 식별이 용이한 정답 신호(440)를 생성할 수 있다.
정답 신호(440)의 결정 방법에 대해 상세히 설명하면, 정답 신호(440)는 여러 종류의 디스플레이를 기반으로 하여 결정될 수 있다. 디스플레이 장치(1600)의 성능은 다양할 수 있으므로, 다양한 종류의 디스플레이를 고려하여 정답 신호(440)를 결정하는 것이다. 이에 의하면, 디스플레이의 종류별로 정답 신호(440)가 결정될 수 있고, 그에 따라 정답 신호(440)별로 DNN(420)의 사양이 독립적으로 결정될 수 있다.
일 예로, 관리자는 제 1 광 신호(410)로부터 OOTF(415)에 따라 변환된 광 신호를 'A' 디스플레이로 모니터링하면서, 변환된 광 신호의 밝기 값들을 변경할 수 있다. 이에 따라, 'A' 디스플레이에 대응하는 정답 신호(440)가 결정된다. 그리고, 관리자는 제 1 광 신호(410)로부터 OOTF(415)에 따라 변환된 광 신호를 'B' 디스플레이로 모니터링하면서, 변환된 광 신호의 밝기 값들을 변경할 수 있다. 이에 따라, 'B' 디스플레이에 대응하는 정답 신호(440)가 결정된다.
DNN 결정부(216)는 DNN(420)의 사양을 변경해가면서 디스플레이 신호(430)와 'A' 디스플레이에 대응하는 정답 신호(440) 사이의 차이를 결정하고, 해당 차이를 최소화할 수 있는 DNN(420)의 사양을 결정할 수 있다. 또한, DNN 결정부(216)는 DNN(420)의 사양을 변경해가면서 디스플레이 신호(430)와 'B' 디스플레이에 대응하는 정답 신호(440) 사이의 차이를 결정하고, 해당 차이를 최소화할 수 있는 DNN(420)의 사양을 결정할 수 있다.
정답 신호를 결정하는데 이용되는 디스플레이들은 서로 상이한 밝기 값 범위를 표시할 수 있다. 예를 들어, 'A' 디스플레이는 0.001 nits 내지 800nits의 밝기 값 범위를 표시할 수 있고, 'B' 디스플레이는 0.001 nits ~ 1000nits의 밝기 값 범위를 표시할 수 있다.
도 8을 참조하여 후술하는 바와 같이, 여러 종류의 디스플레이를 대상으로 하여 DNN(420)의 사양들이 결정되면, DNN 결정부(216)는 디스플레이 신호를 출력할 디스플레이 장치(1600)의 성능을 파악하고, 파악된 성능과 유사한 성능을 갖는 디스플레이에 기반하여 결정된 DNN(420)의 사양을 나타내는 AI 메타 정보를 디스플레이 장치(1600)로 전송할 수 있다.
앞서 OOTF는 톤 매핑 전의 어느 하나의 밝기 값을 다른 하나의 밝기 값으로 1:1 변환시키는데 이용되는데, 이러한 1:1 변환에는 주변에 위치한 광 신호의 밝기 값들이 고려되지 않으므로, 영상의 퀄리티 향상에 한계가 존재한다. 따라서, 일 실시예에서는, 최적의 퀄리티를 발휘할 수 있는 정답 신호(440)를 결정한 후, 이러한 정답 신호(440)와 유사한 디스플레이 신호(430)를 생성할 수 있는 DNN(420)의 사양을 결정함으로써, 1:1 변환 방식의 톤 매핑 뿐만 아니라 주변에 위치한 광 신호의 밝기 값을 고려한 AI 기반의 톤 매핑이 수행될 수 있게 하는 것이다.
도 5는 다른 실시예에 따른 영상 제공 장치(200)에 의한 DNN(520) 사양의 결정 방법을 설명하기 위한 도면이다.
도 5를 참조하면, 제 1 디지털 영상에 대응하는 제 1 광 신호(510)는 OOTF(515)에 따라 변환된다. 여기서, OOTF(515)의 사양은 OOTF 결정부(215)에 의해 결정된다. 제 1 디지털 영상에 대응하는 제 1 광 신호(510)가 영상 제공 장치(200)에 저장되어 있지 않으면, DNN 결정부(216)는 제 1 디지털 영상을 EOTF에 따라 제 1 광 신호(510)로 변환한다.
또한, 제 1 광 신호(510)는 OETF(550)에 따라 제 1 중간 영상으로 변환된다. 제 1 중간 영상은 미리 결정된 사양의 DNN(520)에서 처리된다. DNN(520)의 처리 결과 제 2 중간 영상이 획득된다. 상기 제 1 중간 영상은 제 1 디지털 영상일 수 있으며, 구현예에 따라, OETF(550)에 의한 변환 과정이 생략되고, 제 1 디지털 영상이 DNN(520)으로 입력될 수도 있다.
제 2 중간 영상은 EOTF(560)에 따라 광 신호로 변환되고, EOTF에 따라 변환된 신호와 OOTF(515)에 따라 변환된 신호가 합해져 디스플레이 신호(530)가 획득된다. 디스플레이 신호(530)는 미리 생성된 정답 신호(540)와 비교되고, 디스플레이 신호(530)와 정답 신호(540) 사이의 차이에 따라 DNN(520)의 사양이 변경된다.
DNN 결정부(216)는 DNN(520)의 사양을 계속적으로 변경해가면서 디스플레이 신호(530)와 정답 신호(540) 사이의 차이를 결정하고, 해당 차이를 최소화할 수 있는 DNN(520)의 사양을 결정할 수 있다.
도 4 및 도 5에 도시된 DNN 사양의 결정 방법을 비교하면, 도 4에서는 선형의 밝기 값들을 갖는 제 1 광 신호(410)가 DNN(420)에 의해 처리되나, 도 5에서는 비 선형의 밝기 값들을 갖는 제 1 중간 영상이 DNN(520)에 의해 처리된다는 것을 알 수 있다.
전술한 바와 같이, 정답 신호(540)는 여러 종류의 디스플레이를 기반으로 하여 결정될 수 있고, 이 경우, 여러 종류의 디스플레이에 부합하는 여러 사양의 DNN(520)들이 결정될 수 있다. 또한, DNN(520)의 사양을 결정하는데 있어, DNN(520)의 구조는 고정되어 있는 상태에서 디스플레이 신호(530)와 정답 신호(540) 사이의 차이를 최소화하는 파라미터가 결정될 수 있다.
도 6은 또 다른 실시예에 따른 영상 제공 장치(200)에 의한 DNN(620)의 사양의 결정 방법을 설명하기 위한 도면이다.
도 6을 참조하면, 제 1 디지털 영상에 대응하는 제 1 광 신호(610)가 OOTF(615)에 따라 처리되고, 처리된 결과가 미리 결정된 사양의 DNN(620)에 의해 처리됨으로써 디스플레이 신호(630)가 획득된다. 제 1 디지털 영상에 대응하는 제 1 광 신호(610)가 영상 제공 장치(200)에 저장되어 있지 않으면, DNN 결정부(216)는 제 1 디지털 영상을 EOTF에 따라 제 1 광 신호(610)로 변환한다.
일 실시예에서, 제 1 광 신호(610)로부터 OOTF(615)에 따라 변환된 광 신호와 함께 OOTF 메타 정보도 DNN(620)으로 입력될 수 있다. OOTF 메타 정보는 제 1 디지털 영상의 특성에 따라 결정된 것이므로, DNN(620)은 광 신호를 처리하는데 있어, 입력 받은 OOTF 메타 정보를 함께 고려함으로써 제 1 디지털 영상의 특성에 맞춰 광 신호를 처리할 수 있다.
디스플레이 신호(630)는 정답 신호(640)와 비교되고, 디스플레이 신호(630)와 정답 신호(640) 사이의 차이에 따라 DNN(620)의 사양이 변경된다. DNN 결정부(216)는 DNN(620) 사양을 계속적으로 변경해가면서 디스플레이 신호(630)와 정답 신호(640) 사이의 차이를 결정하고, 해당 차이를 최소화할 수 있는 DNN(620)의 사양을 결정할 수 있다.
전술한 바와 같이, 정답 신호(640)는 여러 종류의 디스플레이를 기반으로 하여 결정될 수 있고, 이 경우, 여러 종류의 디스플레이에 부합하는 여러 사양의 DNN(620)들이 결정될 수 있다. 또한, DNN(620)의 사양을 결정하는데 있어, DNN(620)의 구조는 고정되어 있는 상태에서 디스플레이 신호(630)와 정답 신호(640) 사이의 차이를 최소화하는 파라미터가 결정될 수 있다.
도 7은 또 다른 실시예에 따른 영상 제공 장치(200)에 의한 DNN(720)의 사양의 결정 방법을 설명하기 위한 도면이다.
도 7을 참조하면, 제 1 디지털 영상에 대응하는 제 1 광 신호(710)가 미리 결정된 사양의 DNN(720)에 의해 처리된다. 제 1 광 신호(710)가 DNN(720)으로 입력되는 것과 함께 OOTF 메타 정보도 DNN(720)으로 입력될 수 있다. DNN(720)으로부터 출력된 신호는 OOTF(715)에 따라 처리되고, 그 결과 디스플레이 신호(730)가 획득된다. 제 1 디지털 영상에 대응하는 제 1 광 신호(710)가 영상 제공 장치(200)에 저장되어 있지 않으면, DNN 결정부(216)는 제 1 디지털 영상을 EOTF에 따라 제 1 광 신호(710)로 변환한다.
디스플레이 신호(730)는 정답 신호(740)와 비교되고, 디스플레이 신호(730)와 정답 신호(740) 사이의 차이에 따라 DNN(720)의 사양이 변경된다. DNN 결정부(216)는 DNN(720)의 사양을 계속적으로 변경해가면서 디스플레이 신호(730)와 정답 신호(740) 사이의 차이를 결정하고, 해당 차이를 최소화할 수 있는 DNN(720)의 사양을 결정할 수 있다.
전술한 바와 같이, 정답 신호(740)는 여러 종류의 디스플레이를 기반으로 하여 결정될 수 있고, 이 경우, 여러 종류의 디스플레이에 부합하는 여러 사양의 DNN(720)들이 결정될 수 있다. 또한, DNN(720)의 사양을 결정하는데 있어, DNN(720)의 구조는 고정되어 있는 상태에서 디스플레이 신호(730)와 정답 신호(740) 사이의 차이를 최소화하는 파라미터가 결정될 수 있다.
한편, DNN 결정부(216)는 DNN 사양을 결정하는데 있어, 제 1 디지털 영상의 픽셀 값들로부터 확인되는 제 1 디지털 영상의 특성에 따라 DNN의 제한 조건을 설정할 수 있다. DNN의 제한 조건은 DNN에 포함되는 레이어들의 최소 개수, DNN에 포함되는 레이어들의 최대 개수, 적어도 하나의 레이어에서 이용되는 필터 커널의 최소 크기, 적어도 하나의 레이어에서 이용되는 필터 커널의 최대 크기, 적어도 하나의 레이어에서 이용되는 필터 커널의 최소 개수 및 적어도 하나의 레이어에서 이용되는 필터 커널의 최대 개수 중 적어도 하나를 포함할 수 있다. 제 1 디지털 영상의 특성은 제 1 디지털 영상의 최대 밝기 값, 평균 밝기 값, 밝기 값들의 분산 및 소정 값의 퍼센타일(percentile)에 해당하는 밝기 값 중 적어도 하나로부터 결정될 수 있다.
제한 조건이 설정되면, DNN 결정부(216)는 제한 조건을 만족하는 범위 내에서 디스플레이 신호와 정답 신호 사이의 차이를 최소화하는 사양의 DNN을 결정할 수 있다. 다시 말하면, DNN에 포함되는 레이어들의 최소 개수가 3개로 결정되었다면, DNN 결정부(216)는 톤 매핑을 위한 DNN으로서, 3개 이상의 레이어들을 포함하도록 DNN의 사양을 결정할 수 있다.
제 1 디지털 영상의 밝기 값들의 범위가 크거나, 그 분포가 복잡할 경우, DNN 결정부(216)는 DNN에 포함되는 레이어들의 최소 개수, 적어도 하나의 레이어에서 이용되는 필터 커널의 최소 크기 및 적어도 하나의 레이어에서 이용되는 필터 커널의 최소 개수 중 적어도 하나를, 제 1 디지털 영상의 밝기 값들의 범위가 작거나, 그 분포가 단순한 경우에 비해 크게 결정할 수 있다.
일 예로, DNN 결정부(216)는 제 1 디지털 영상의 평균 밝기 값과 최대 밝기 값 사이의 차이가 미리 결정된 값 이상인 경우, 필터 커널의 최소 크기를 5 x 5로, 레이어들의 최소 개수를 5개로 결정하고, 제 1 디지털 영상의 평균 밝기 값과 최대 밝기 값 사이의 차이가 미리 결정된 값 미만인 경우, 필터 커널의 최소 크기를 3 x 3으로, 레이어들의 최소 개수를 3개로 결정할 수 있다.
다른 예로, DNN 결정부(216)는 제 1 디지털 영상의 밝기 값들의 분산이 미리 결정된 값 이상인 경우, 필터 커널의 최소 크기를 5 x 5로, 레이어들의 최소 개수를 5개로 결정할 수 있다. 반대로, DNN 결정부(216)는 제 1 디지털 영상의 밝기 값들의 분산이 미리 결정된 값 미만인 경우, 필터 커널의 최소 크기를 3 x 3으로, 레이어들의 최소 개수를 3개로 결정할 수 있다.
또 다른 예로, DNN 결정부(216)는 제 1 디지털 영상에서 a 퍼센타일(a는 유리수)에 해당하는 밝기 값과 평균 밝기 값 사이의 차이가 미리 결정된 값 이상인 경우, 필터 커널의 최소 크기를 5 x 5로, 레이어들의 최소 개수를 5개로 결정할 수 있다. 반대로, DNN 결정부(216)는 제 1 디지털 영상의 a 퍼센타일에 해당하는 밝기 값과 평균 밝기 값 사이의 차이가 미리 결정된 값 미만인 경우, 필터 커널의 최소 크기를 3 x 3으로, 레이어들의 최소 개수를 3개로 결정할 수 있다. a 퍼센타일에 해당하는 밝기 값이란, 전체 밝기 값들 중 자신보다 작은 밝기 값들의 개수가 a%만큼 존재하는 밝기 값을 나타낸다.
다시 도 2를 참조하면, DNN 결정부(216)는 톤 매핑을 위한 DNN의 사양이 결정되면, 결정된 DNN의 사양을 나타내는 AI 메타 정보를 생성한다. 예를 들어, AI 메타 정보는 DNN에 포함되는 레이어들의 개수, 레이어들의 종류, 적어도 하나의 레이어에서 이용되는 필터 커널의 개수, 적어도 하나의 레이어에서 이용되는 필터 커널의 크기, 적어도 하나의 레이어에서 이용되는 필터 커널의 가중치 및 바이어스 값 중 적어도 하나에 대한 정보를 포함할 수 있다.
DNN 결정부(216)는 전송부(230)를 통해 디스플레이 장치(1600)로부터 제 1 디지털 영상의 전송 요청이 수신되면, 제 1 디지털 영상에 대응하여 결정된 DNN 사양을 나타내는 AI 메타 정보를 전송부(230)를 통해 디스플레이 장치(1600)로 전송한다.
전술한 바와 같이, DNN 결정부(216)는 제 1 디지털 영상에 대응하는 광 신호의 톤 매핑을 위한 DNN 사양을 복수 개로 결정할 수 있다. 이 경우, DNN 결정부(216)는 제 1 디지털 영상의 전송 요청에 따라, 복수의 DNN 사양 중 어느 하나의 DNN 사양을 선택하고, 선택된 DNN 사양을 나타내는 AI 메타 정보를 전송부(230)로 전달할 수 있다. 여기서, 복수의 DNN 사양 각각은 서로 상이할 수 있다. 복수의 DNN 사양 중 어느 하나의 DNN 사양을 선택하는데 있어, DNN 결정부(216)는 제 1 디지털 영상을 요청한 디스플레이 장치(1600)의 성능을 고려할 수 있다.
도 8은 DNN 결정부(216)에 의해 결정된 여러 사양의 DNN을 나타내는 표이다.
도 8에 도시된 바와 같이, DNN 결정부(216)에 의해 결정된 여러 사양의 DNN들은 DNN의 사양을 결정하는데 이용된 디스플레이의 종류에 따라 분류될 수 있다. 예를 들어, K1 DNN의 사양과 K2 DNN의 사양은 'A' 디스플레이를 기준으로 하여 결정된 것인데, K1 DNN의 구조는 4개의 레이어와 20개의 필터 커널을 포함하며, K2 DNN의 구조는 2개의 레이어와 6개의 필터 커널을 포함한다는 것을 알 수 있다. 즉, K1 DNN 및 K2 DNN은 동일 종류의 디스플레이를 기반으로 하여 결정된 것이지만, 그 구조는 서로 상이하다.
디스플레이 장치(1600)는 영상 제공 장치(200)로 제 1 디지털 영상의 전송을 요청할 때, 디스플레이 장치(1600)의 성능 정보를 영상 제공 장치(200)로 전송할 수 있다. 디스플레이 장치(1600)의 성능 정보는 디스플레이 장치(1600)의 성능을 확인할 수 있는 정보로서, 예를 들어, 디스플레이 장치(1600)의 제조사, 기종 등에 대한 정보를 포함할 수 있다.
DNN 결정부(216)는 디스플레이 장치(1600)의 성능이 확인되면, 복수의 DNN 사양 중 해당 디스플레이 장치(1600)와 유사한 성능의 디스플레이를 기반으로 하여 결정된 DNN 사양을 선택하고, 선택된 DNN 사양을 나타내는 AI 메타 정보를 데이터 처리부(232)로 전달할 수 있다. 구체적으로, DNN 결정부(216)는 디스플레이 장치(1600)의 성능이 'A' 디스플레이에 대응하는 경우, K1 DNN 또는 K2 DNN의 사양을 나타내는 AI 메타 정보를 데이터 처리부(232)로 전달할 수 있다. 여기서, 디스플레이 장치(1600)의 성능이 'A' 디스플레이에 대응한다는 것은, 디스플레이 장치(1600)가 표현할 수 있는 밝기 값의 범위가 'A' 디스플레이가 표현할 수 있는 밝기 값의 범위와 동일하거나, 그보다 크다는 것을 의미할 수 있다.
또한, DNN 결정부(216)는 K1 DNN 및 K2 DNN 중 디스플레이 장치(1600)가 구현할 수 있는 구조를 갖는 DNN의 사양을 나타내는 AI 메타 정보를 데이터 처리부(232)로 전달할 수 있다. 많은 수의 레이어를 포함하거나, 많은 수의 필터 커널을 이용하는 DNN은, 그 계산의 부하로 인해 낮은 성능의 디스플레이 장치(1600)에서 동작하지 못할 수 있다. 이 경우, 많은 수의 레이어를 포함하거나, 많은 수의 필터 커널을 이용하는 DNN의 AI 메타 정보를 디스플레이 장치(1600)로 전송하더라도, 디스플레이 장치(1600)는 AI 메타 정보로부터 확인되는 DNN을 구현할 수 없으므로 AI 기반의 톤 매핑을 수행할 수 없다. 따라서, DNN 결정부(216)는 디스플레이 장치(1600)의 성능을 확인하고, 해당 디스플레이 장치(1600)의 성능으로 동작시킬 수 있는 DNN 사양을 선택하고, 선택된 DNN 사양을 나타내는 AI 메타 정보를 데이터 처리부(232)로 제공하는 것이다. 여기서, DNN 결정부(216)가 확인하는 디스플레이 장치(1600)의 성능은, CPU의 처리 속도, 메모리의 크기 등 디스플레이 장치(1660)의 연산 속도 및 연산량과 관련된 성능을 포함할 수 있다. 예를 들어, 'A' 디스플레이에 대응하는 디스플레이 장치(1600)가 2개보다 많은 레이어를 포함하는 DNN을 동작시킬 수 없을 때, DNN 결정부(216)는 K2 DNN의 사양을 나타내는 AI 메타 정보를 데이터 처리부(232)로 전송한다.
일 실시예에서, AI 메타 정보는 DNN 기반 톤 매핑 처리가 필요한지 여부를 나타내는 정보를 포함할 수 있다. DNN 기반 톤 매핑 처리가 필요한지 여부를 나타내는 정보는 플래그를 포함할 수 있다. DNN 결정부(216)는 디스플레이 장치(1600)의 성능을 고려하여, 디스플레이 장치(1600)가 DNN 기반의 톤 매핑을 수행할 필요가 있는지를 결정할 수 있다.
일 예로, DNN 결정부(216)는 디스플레이 장치(1600)가 표현할 수 있는 최대 밝기 값과 임계 값의 차이가 소정 값 이상인 경우, DNN 기반 톤 매핑 처리가 필요하다고 결정할 수 있다. 반대로, DNN 결정부(216)는 디스플레이 장치(1600)가 표현할 수 있는 최대 밝기 값과 임계 값의 차이가 소정 값 미만인 경우, DNN 기반 톤 매핑 처리가 필요하지 않다고 결정할 수 있다. 여기서, 임계 값은 영상 분석에 이용되는 마스터 디스플레이가 표현할 수 있는 최대 밝기 값일 수 있다.
마스터 디스플레이의 최대 밝기 값과 디스플레이 장치(1600)의 최대 밝기 값 사이의 차이가 크지 않은 경우, DNN 결정부(216)는 DNN 기반 톤 매핑 처리가 필요없다고 결정하고, 디스플레이 장치(1600)는 DNN 기반 톤 매핑 처리가 필요없다는 정보를 포함하는 AI 메타 정보에 따라 OOTF 기반의 톤 매핑 처리만 수행할 수 있다.
마스터 디스플레이가 표현할 수 있는 최대 밝기 값과 디스플레이 장치(1600)가 표현할 수 있는 최대 밝기 값을 비교하는 이유는, 관리자가 기 설정된 OOTF에 따라 톤 매핑된 광 신호를 마스터 디스플레이로 보면서 최적의 사양을 갖는 OOTF를 결정한 경우, OOTF 기반의 톤 매핑으로도 마스터 디스플레이와 유사한 성능의 디스플레이 장치(1600)에서 우수한 퀄리티의 영상 재생이 가능하기 때문이다.
다시 도 2를 참조하면, 데이터 처리부(232)는 부호화 데이터 및 메타 정보 중 적어도 하나를 처리하여 소정의 형태를 갖는 AI 디스플레이 데이터를 획득한다. 데이터 처리부(232)에 의해 획득되는 AI 디스플레이 데이터에 대해서는 도 10 및 도 12를 참조하여 후술한다.
통신부(234)는 네트워크를 통해 AI 디스플레이 데이터를 디스플레이 장치(1600)로 전송한다. 여기서, 네트워크는 유선 네트워크 및/또는 무선 네트워크를 포함할 수 있다.
일 실시예에서, 데이터 처리부(232)의 처리 결과 획득된 AI 디스플레이 데이터는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium) 등을 포함하는 데이터 저장 매체에 저장될 수도 있다.
일 실시예에서, 영상 제공 장치(200)는 메타 정보(예를 들어, AI 메타 정보, 또는 AI 메타 정보와 OOTF 메타 정보)만을 디스플레이 장치(1600)로 전송할 수도 있다. 이 경우, 도 2에 도시된 부호화부(212)는 영상 제공 장치(200)로부터 생략될 수 있다. 디스플레이 장치(1600)는 영상 제공 장치(200)로부터 AI 메타 정보를 수신하고, 다른 장치, 예를 들어, 서버로부터 제 1 디지털 영상의 부호화 데이터를 수신할 수 있다. 그리고, 디스플레이 장치(1600)는 제 2 디지털 영상에 대응하는 제 2 광 신호를 AI 및 OOTF 기반으로 톤 매핑하여 디스플레이 신호를 획득할 수 있다.
도 9는 제 1 디지털 영상(900)을 이루는 프레임들을 도시하는 도면이다.
전술한 바와 같이, DNN 결정부(216)는 제 1 디지털 영상(900)에 기초하여 톤 매핑을 위한 DNN 사양을 결정하는데, 도 9와 같이, 제 1 디지털 영상(900)이 복수의 프레임들로 이루어진 경우, DNN 결정부(216)는 각 프레임별로 DNN 사양을 결정할 수 있다. 이에 따라, 첫 번째 프레임을 위한 DNN 사양과 두 번째 프레임을 위한 DNN 사양은 서로 상이할 수 있다. DNN 결정부(216)는 첫 번째 프레임에 대응하는 제 1 광 신호를 OOTF 및 DNN에 따라 처리하고, 처리 결과 획득되는 디스플레이 신호와 정답 신호 차이에 따라 DNN 사양을 결정할 수 있다. 그리고, DNN 결정부(216)는 두 번째 프레임에 대응하는 제 1 광 신호를 OOTF 및 DNN에 따라 처리하고, 처리 결과 획득되는 디스플레이 신호와 정답 신호 차이에 따라 DNN 사양을 결정할 수 있다.
일 실시예에서, DNN 결정부(216)는 제 1 디지털 영상(900)을 구성하는 프레임들을 복수의 그룹으로 구분하고, 각 그룹에 대응하는 DNN 사양을 결정할 수도 있다. DNN 결정부(216)는 제 1 디지털 영상(900)을 구성하는 프레임들을 프레임들의 특성에 따라 t0 프레임 내지 ta-1 프레임을 포함하는 제 1 그룹(901), ta 프레임 내지 tb-1 프레임을 포함하는 제 2 그룹(902) 및 tb 내지 tn 프레임을 포함하는 제 3 그룹(903)으로 구분할 수 있다. 그리고, DNN 결정부(216)는 제 1 그룹(901), 제 2 그룹(902) 및 제 3 그룹(903) 각각에서 대표 프레임을 선택하고, 선택된 대표 프레임을 대상으로 하여 각 그룹에 대응하는 DNN 사양을 결정할 수 있다. 즉, DNN 결정부(216)는 제 1 그룹(901)의 대표 프레임에 대응하는 제 1 광 신호를 OOTF 및 DNN에 따라 처리하고, 처리 결과 획득되는 디스플레이 신호와 정답 신호 사이의 차이에 따라 제 1 그룹(901)을 위한 DNN 사양을 결정할 수 있다. 또한, DNN 결정부(216)는 제 2 그룹(902)의 대표 프레임에 대응하는 제 1 광 신호를 OOTF 및 DNN에 따라 처리하고, 처리 결과 획득되는 디스플레이 신호와 정답 신호 사이의 차이에 따라 제 2 그룹(902)을 위한 DNN 사양을 결정할 수 있다. 또한, DNN 결정부(216)는 제 3 그룹(903)의 대표 프레임에 대응하는 제 1 광 신호를 OOTF 및 DNN에 따라 처리하고, 처리 결과 획득되는 디스플레이 신호와 정답 신호 사이의 차이에 따라 제 3 그룹(903)을 위한 DNN 사양을 결정할 수 있다.
DNN 결정부(216)는 서로 유사한 특성을 갖는 프레임들을 동일 그룹으로 구분할 수 있다. 서로 유사한 특성을 갖는 프레임들인지 여부는 프레임들의 밝기 값들의 분산 및/또는 밝기 값의 히스토그램의 유사도에 기반하여 결정될 수 있다. 일 예로, 밝기 값의 분산 또는 히스토그램의 유사도가 소정 범위에 속하는 프레임들이 동일 그룹으로 결정될 수 있다.
DNN 결정부(216)는 씬 체인지(scene change)가 발생한 프레임 또는 최초 프레임부터 다음 씬 체인지가 발생한 프레임의 이전 프레임까지를 동일 그룹으로 구분할 수도 있다.
또한, DNN 결정부(216)는 시간적으로 연속하는 미리 결정된 개수의 프레임들을 각각 포함하는 복수의 그룹을 결정할 수도 있다.
도 9를 참조하면, 제 1 그룹(901), 제 2 그룹(902) 및 제 3 그룹(903)에 포함된 프레임들이 시간적으로 연속한 것으로 도시되어 있으나, 각 그룹에 포함된 프레임들은 시간적으로 불연속할 수도 있다. 예를 들어, 첫 번째 프레임, 세 번째 프레임 등이 제 1 그룹으로, 두 번째 프레임, 다섯 번째 프레임 등이 제 2 그룹으로, 네 번째 프레임, 여섯 번째 프레임 등이 제 3 그룹으로 결정될 수도 있다.
DNN 사양이 제 1 디지털 영상의 프레임 단위로 결정되거나, 그룹 단위로 결정된 경우, 결정된 DNN 사양들 각각을 나타내는 AI 메타 정보가 전송부(230)를 통해 디스플레이 장치(1600)로 전송된다.
DNN 사양이 제 1 디지털 영상의 프레임 단위로 결정되거나, 그룹 단위로 결정됨으로써, 여러 사양을 나타내는 AI 메타 정보들이 전송되어야 하는 경우, DNN 결정부(216)는 톤 매핑에 필요한 첫 번째 DNN의 사양을 나타내는 AI 메타 정보를 생성한다. 그리고, 첫 번째 DNN 이후의 DNN의 사양을 나타내는 AI 메타 정보를 생성할 때, 이전 DNN의 사양과의 차이 정보를 포함하는 AI 메타 정보를 생성할 수 있다. 일 예로, 첫 번째 DNN이 3개의 컨볼루션 레이어로 이루어지고, 두 번째 DNN이 2개의 컨볼루션 레이어로 이루어진 경우, 첫 번째 DNN의 사양을 나타내는 AI 메타 정보는 첫 번째 DNN이 3개의 컨볼루션 레이어로 이루어진다는 정보를 포함하고, 두 번째 DNN의 사양을 나타내는 AI 메타 정보는 첫 번째 DNN으로부터 1개의 레이어가 생략되어야 한다는 정보를 포함할 수 있다.
이하에서는, 부호화 데이터 및 메타 정보를 포함하는 AI 디스플레이 데이터에 대해 상세히 설명한다.
도 10은 일 실시예에 따른 AI 디스플레이 데이터(1000)를 나타내는 도면이다.
단일 파일로 이루어진 AI 디스플레이 데이터(1000) 내에 AI 메타 정보(1012)와 부호화 데이터(1032)가 포함될 수 있다. 여기서, AI 디스플레이 데이터(1000)는 소정 컨테이너 포맷의 비디오 파일에 포함될 수 있다. 상기 소정 컨테이너 포맷은 MP4, AVI, MKV, FLV 등일 수 있다. 비디오 파일은 메타데이터 박스(1010)와 미디어데이터 박스(1030)로 구성될 수 있다.
메타데이터 박스(1010)에는 미디어데이터 박스(1030)에 포함된 부호화 데이터(1032)에 관한 정보가 포함된다. 예를 들어, 메타데이터 박스(1010)에는 제 1 디지털 영상의 종류, 제 1 디지털 영상의 부호화에 사용된 코덱의 종류 및 제 1 디지털 영상의 재생 시간 등에 관한 정보가 포함될 수 있다. 또한, 메타데이터 박스(1010)에는 AI 메타 정보(1012)가 포함될 수 있다. AI 메타 정보(1012)는 소정 컨테이너 포맷에서 제공하는 부호화 방식에 따라 부호화되어, 메타데이터 박스(1010)에 저장될 수 있다. 미디어데이터 박스(1030)는 소정의 영상 압축 방식의 신택스에 따라 생성된 부호화 데이터(1032)가 포함될 수 있다. OOTF 메타 정보는 AI 메타 정보(1012)와 같이 메타데이터 박스(1010)에 포함되거나, 또는 미디어데이터 박스(1030)에 포함될 수 있다.
AI 메타 정보(1012)는 제 1 디지털 영상을 위한 AI 메타 정보, 프레임 그룹을 위한 AI 메타 정보 및 개별 프레임을 위한 AI 메타 정보를 포함할 수 있다. 제 1 디지털 영상을 구성하는 모든 프레임들에서 동일 사양의 DNN이 결정된 경우, 프레임 그룹을 위한 AI 메타 정보와 개별 프레임을 위한 AI 메타 정보는 메타데이터 박스(1010)로부터 생략될 수 있다. 또는 DNN의 사양이 제 1 디지털 영상의 프레임 그룹 단위마다 결정되는 경우, 메타데이터 박스(1010)에서 제 1 디지털 영상을 위한 AI 메타 정보 및 개별 프레임을 위한 AI 메타 정보는 생략될 수 있다.
도 11은 도 10에 도시된 AI 디스플레이 데이터(1000)에 포함되는 AI 메타 정보(1012)의 구조를 나타내는 도면이다.
도 11에서 AI_HDR_DNN_flag(1100)는 DNN 기반 톤 매핑 처리가 필요한지 여부를 나타낸다. AI_HDR_DNN_flag(1100)가 DNN 기반의 톤 매핑 처리가 필요함을 나타낼 때, AI_HDR_num_layers(1105), AI_HDR_out_channel(1111), AI_HDR_in_channel(1112), AI_HDR_filter_size(1113) 등의 정보가 AI 메타 정보(1012)에 포함될 수 있다. 반대로, AI_HDR_DNN_flag(1100)가 DNN 기반의 톤 매핑 처리가 필요하지 않음을 나타낼 때, AI_HDR_num_layers(1105), AI_HDR_out_channel(1111), AI_HDR_in_channel(1112), AI_HDR_filter_size(1113) 등의 정보가 AI 메타 정보(1012)에 포함되지 않을 수 있다.
AI_HDR_num_layers(1105)는 톤 매핑을 위한 DNN에 포함되는 레이어의 개수를 나타낸다.
또한, AI_HDR_out_channel(1111), AI_HDR_in_channel(1112), AI_HDR_filter_size(1113), AI_HDR_weights(1114) 및 AI_HDR_bias(1115)는 DNN에 포함되는 첫 번째 레이어의 사양을 나타낸다. 구체적으로, AI_HDR_out_channel(1111)은 첫 번째 레이어에서 출력되는 데이터의 채널 수를 나타내고, AI_HDR_in_channel(1112)은 첫 번째 레이어로 입력되는 데이터의 채널 수를 나타낸다. 또한, AI_HDR_filter_size(1113)는 첫 번째 레이어에서 이용되는 필터 커널의 크기를 나타내고, AI_HDR_weights(1114)는 첫 번째 레이어에서 이용되는 필터 커널의 가중치를 나타내고, AI_HDR_bias(1115)는 첫 번째 레이어에서의 소정 연산식의 결과 값에 더해지거나 빼지는 바이어스 값을 나타낸다.
또한, AI_HDR_out_channel(1121), AI_HDR_in_channel(1122), AI_HDR_filter_size(1123), AI_HDR_weights(1124) 및 AI_HDR_bias(1125)는 DNN에 포함되는 두 번째 레이어의 사양을 나타낸다. 구체적으로, AI_HDR_out_channel(1121)은 두 번째 레이어에서 출력되는 데이터의 채널 수를 나타내고, AI_HDR_in_channel(1122)은 두 번째 레이어로 입력되는 데이터의 채널 수를 나타낸다. 또한, AI_HDR_filter_size(1123)는 두 번째 레이어에서 이용되는 필터 커널의 크기를 나타내고, AI_HDR_weights(1124)는 두 번째 레이어에서 이용되는 필터 커널의 가중치를 나타내고, AI_HDR_bias(1125)는 두 번째 레이어에서의 소정 연산식의 결과 값에 더해지거나 빼지는 바이어스 값을 나타낸다.
도 11에서 AI_HDR_num_layers(1105), AI_HDR_out_channel(1111, 1121), AI_HDR_in_channel(1112, 1122) 및 AI_HDR_filter_size(1113, 1123)에 따라 DNN의 구조가 결정되고, AI_HDR_weights(1114, 1124) 및 AI_HDR_bias(1115, 1125)에 따라 DNN의 파라미터가 결정될 수 있다.
각 레이어의 사양을 나타내는 AI_HDR_out_channel, AI_HDR_in_channel, AI_HDR_filter_size, AI_HDR_weights 및 AI_HDR_bias는 AI_HDR_num_layers로부터 확인되는 레이어 개수만큼 존재할 수 있다.
도 12는 다른 실시예에 따른 AI 디스플레이 데이터(1200)를 나타내는 도면이다.
도 12를 참조하면, AI 메타 정보(1234)는 부호화 데이터(1232)에 포함될 수도 있다. 비디오 파일은 메타데이터 박스(1210)와 미디어데이터 박스(1230)를 포함할 수 있는데, AI 메타 정보(1234)가 부호화 데이터(1232)에 포함된 경우, 메타데이터 박스(1210)에는 AI 메타 정보(1234)가 포함되지 않을 수 있다. OOTF 메타 정보는 AI 메타 정보(1234)와 마찬가지로 부호화 데이터(1232)에 포함될 수 있고, 또는 메타데이터 박스(1210)에 포함될 수도 있다.
미디어데이터 박스(1230)에는 AI 메타 정보(1234)를 포함하는 부호화 데이터(1232)가 포함된다. AI 메타 정보(1234)는 제 1 디지털 영상의 부호화에 이용되는 비디오 코덱에 따라 부호화될 수 있다.
AI 메타 정보(1234)는 부호화 데이터(1232)에 포함되어 있으므로, 부호화 데이터(1232)의 복호화 순서에 따라 AI 메타 정보(1234)가 복호화될 수 있다.
부호화 데이터(1232)는, 제 1 디지털 영상을 구성하는 모든 프레임들과 관련된 정보를 포함하는 비디오 단위의 데이터(예를 들어, video parameter set), 그룹에 포함된 프레임들과 관련된 정보를 포함하는 프레임 그룹 단위의 데이터(예를 들어, sequence parameter set) 및 개별 프레임과 관련된 정보를 포함하는 프레임 단위의 데이터(예를 들어, picture parameter set) 등을 포함한다. 제 1 디지털 영상의 모든 프레임에 대해 동일 사양의 DNN이 결정된 경우, 비디오 단위의 데이터에 AI 메타 정보가 포함될 수 있다. 또한, 그룹 단위로 DNN의 사양들이 결정되는 경우, 프레임 그룹 단위의 데이터들에, 각 그룹에 대응하는 DNN의 사양을 나타내는 AI 메타 정보가 포함되거나, 각 그룹의 첫 번째 프레임에 대응하는 프레임 단위의 데이터에, 각 그룹에 대응하는 DNN의 사양을 나타내는 AI 메타 정보가 포함될 수 있다. DNN의 사양들이 그룹 단위로 결정되는 경우, 각 그룹에 대응하는 AI 메타 정보는, 해당 AI 메타 정보가 이용되는 프레임들의 식별 정보(예를 들어, Picture Order Count)를 포함할 수 있다. 이는 특히 각 그룹에 포함되는 프레임들이 시간적으로 연속하지 않을 때 유용할 수 있다.
프레임 단위로 DNN의 사양들이 결정되는 경우, 프레임 단위의 데이터들에, 각 프레임에 대응하는 DNN의 사양을 나타내는 AI 메타 정보가 포함될 수 있다.
도 13은 도 12에 도시된 AI 디스플레이 데이터(1200)에 포함되는 AI 메타 정보(1234)의 구조를 나타내는 도면이다.
전술한 바와 같이, 부호화 데이터(1232)는 주파수 변환을 이용하는 영상 압축 방법의 규칙, 예를 들어, 신택스에 따라 생성되므로, AI 메타 정보(1234) 역시 신택스에 따라 부호화 데이터(1232)에 포함될 수 있다.
AI 메타 정보(1234)는 비디오 파라미터 세트, 시퀀스 파라미터 세트 또는 픽처 파라미터 세트에 포함될 수 있다. 또는 AI 메타 정보는 SEI(Supplemental enhancement information) 메시지에 포함될 수도 있다. SEI 메시지는 제 2 디지털 영상을 복원하는데 필요로 하는 정보들(예를 들어, 예측 모드 정보, 움직임 벡터 정보 등) 이외의 부가적인 정보를 포함한다. SEI 메시지는 하나의 NAL Unit으로 구성되고, 프레임 그룹 단위 또는 프레임 단위로 전송될 수 있다.
도 13을 참조하면, AI_HDR_DNN_flag(1301)가 AI 메타 정보(1234)에 포함된다. AI_HDR_DNN_flag(1301)는 DNN 기반 톤 매핑 처리가 필요한지 여부를 나타낸다. AI_HDR_DNN_flag(1301)가 DNN 기반의 톤 매핑 처리가 필요함을 나타낼 때, AI_HDR_num_layers(1303), AI_HDR_in_channel[i](1304), AI_HDR_out_channel[i](1305), AI_HDR_filter_width[i](1306), AI_HDR_filter_height[i](1307), AI_HDR_bias[i][j](1308), AI_HDR_weight[i][j][k][l](1309)가 AI 메타 정보(1234)에 포함된다.
반대로, AI_HDR_DNN_flag(1301)가 DNN 기반의 톤 매핑 처리가 필요하지 않음을 나타낼 때, AI_HDR_num_layers(1303), AI_HDR_in_channel[i](1304), AI_HDR_out_channel[i](1305), AI_HDR_filter_width[i](1306), AI_HDR_filter_height[i](1307), AI_HDR_bias[i][j](1308), AI_HDR_weight[i][j][k][l](1309)는 AI 메타 정보(1234)에 포함되지 않는다.
AI_HDR_num_layers(1303)는 톤 매핑을 위한 DNN에 포함되는 레이어의 개수를 나타낸다. 또한, AI_HDR_out_channel[i](1305)은 i 레이어에서 출력되는 데이터의 채널 수를 나타내고, AI_HDR_in_channel[i](1304)은 i 레이어로 입력되는 데이터의 채널 수를 나타낸다. 또한, AI_HDR_filter_width[i](1306) 및 AI_HDR_filter_height[i](1307)는 각각 i 레이어에서 이용되는 필터 커널의 폭 크기 및 높이 크기를 나타낸다.
또한, AI_HDR_bias[i][j](1308)는 i 레이어의 j 채널의 출력 데이터를 위해 소정 연산식의 결과 값에 더해지거나 빼지는 바이어스 값을 나타내고, AI_HDR_weights[i][j][k][l](1309)는 i 레이어의 j 채널의 출력 데이터 및 k 채널의 입력 데이터와 관련된 필터 커널 내 l 샘플의 가중치를 나타낸다.
도 13에 도시된 AI 메타 정보를 디스플레이 장치(1600)가 파싱하는 방법에 대해서는 후술한다.
도 14는 일 실시예에 따른 영상 제공 방법의 순서도이다.
S1410 단계에서, 영상 제공 장치(200)는 제 1 디지털 영상에 대응하는 DNN의 사양을 결정한다. 구체적으로, 영상 제공 장치(200)는 제 1 디지털 영상에 대응하는 제 1 광 신호에 기초하여 톤 매핑에 이용되는 DNN 사양을 결정한다. 전술한 바와 같이, 영상 제공 장치(200)는 제 1 디지털 영상이 복수의 프레임들로 이루어져 있는 경우, 프레임 단위로, 또는 그룹 단위로 DNN 사양을 결정할 수 있다.
영상 제공 장치(200)는 제 1 디지털 영상에 대응하는 OOTF의 사양을 결정할 수 있다. 제 1 디지털 영상이 복수의 프레임들로 이루어져 있는 경우, 영상 제공 장치(200)는 프레임 단위, 프레임으로부터 분할되는 블록 단위, 또는 프레임들의 그룹 단위로 OOTF의 사양을 결정할 수 있다. 제 1 디지털 영상을 구성하는 모든 프레임들에 대해 동일한 사양의 OOTF가 결정될 수도 있다.
S1420 단계에서, 영상 제공 장치(200)는 디스플레이 장치(1600)로부터 제 1 디지털 영상의 전송 요청을 수신한다. 영상 제공 장치(200)는 디스플레이 장치(1600)와 유무선 네트워크, 예를 들어, 인터넷을 통해 통신할 수 있다.
S1430 단계에서, 영상 제공 장치(200)는 제 1 디지털 영상을 부호화한다. 영상 제공 장치(200)는 주파수 변환 기반의 영상 압축 방법으로 제 1 디지털 영상을 부호화할 수 있다.
S1440 단계에서, 영상 제공 장치(200)는 제 1 디지털 영상의 부호화 데이터와, S1410 단계에서 결정된 DNN의 사양을 나타내는 AI 메타 정보를 디스플레이 장치(1600)로 전송한다. 영상 제공 장치(200)는 부호화 데이터 및 AI 메타 정보와 함께 OOTF 메타 정보도 디스플레이 장치(1600)로 전송할 수 있다.
전술한 바와 같이, AI 메타 정보는 DNN 기반의 톤 매핑이 필요한지 여부를 나타내는 정보를 포함할 수 있다. 영상 제공 장치(200)는 DNN 기반의 톤 매핑이 불필요하다고 결정하면, DNN 기반의 톤 매핑이 불필요하다는 정보를 포함하는 AI 메타 정보를 생성하고, 반대로, DNN 기반의 톤 매핑이 필요하다고 결정하면, DNN 기반의 톤 매핑이 필요하다는 정보를 포함하는 AI 메타 정보를 생성한다. AI 메타 정보가 DNN 기반의 톤 매핑이 불필요하다는 정보를 포함하는 경우, S1410 단계에서 결정된 DNN의 사양을 나타내는 정보는 AI 메타 정보에 포함되지 않을 수 있다.
도 15는 다른 실시예에 따른 영상 제공 방법의 순서도이다.
S1510 단계에서, 영상 제공 장치(200)는 제 1 디지털 영상에 대응하는 복수의 DNN 사양을 결정한다. 여러 사양을 갖는 복수의 DNN은 서로 다른 구조 및/또는 서로 다른 파라미터를 가질 수 있다. 일 예로, 어느 하나의 DNN은 4개의 레이어를 포함하고, 다른 하나의 DNN은 3개의 레이어를 포함할 수 있다. 다른 예로, 어느 하나의 DNN과 다른 하나의 DNN은 모두 4개의 컨볼루션 레이어를 포함하되, 상기 어느 하나의 DNN의 컨볼루션 레이어에서 이용되는 필터 커널의 개수는 3개이고, 다른 하나의 DNN의 컨볼루션 레이어에서 이용되는 필터 커널의 개수는 4개일 수 있다. 복수의 DNN 사양 각각은 서로 상이한 종류의 디스플레이들에 기반하여 결정될 수 있다. 즉, 서로 상이한 종류의 디스플레이 각각을 대상으로 정답 신호가 결정되면, 정답 신호와 차이가 가장 적은 디스플레이 신호를 생성할 수 있는 여러 사양의 DNN들이 결정될 수 있다. 또한, 어느 한 종류의 디스플레이를 기준으로 서로 상이한 구조를 갖는 여러 사양의 DNN들이 결정될 수도 있다.
제 1 디지털 영상이 복수의 프레임들로 이루어져 있는 경우, 영상 제공 장치(200)는 프레임마다 또는 그룹마다 여러 사양의 DNN들을 결정할 수도 있다.
영상 제공 장치(200)는 제 1 디지털 영상에 대응하는 OOTF의 사양을 결정할 수 있다. 제 1 디지털 영상이 복수의 프레임들로 이루어져 있는 경우, 영상 제공 장치(200)는 프레임 단위, 프레임으로부터 분할된 블록 단위 또는 그룹 단위로 OOTF의 사양을 결정할 수 있다. 제 1 디지털 영상을 구성하는 모든 프레임들에 대해 동일한 사양의 OOTF가 결정될 수도 있다.
S1520 단계에서, 영상 제공 장치(200)는 디스플레이 장치(1600)로부터 제 1 디지털 영상의 전송 요청 및 디스플레이 장치(1600)의 성능 정보를 수신한다. 영상 제공 장치(200)는 디스플레이 장치(1600)와 유무선 네트워크, 예를 들어, 인터넷을 통해 통신할 수 있다. 디스플레이 장치(1600)의 성능 정보는 디스플레이의 성능을 확인할 수 있는 정보로서, 예를 들어, 디스플레이 장치(1600)의 제조사 정보, 기종 정보를 포함할 수 있다.
S1530 단계에서, 영상 제공 장치(200)는 디스플레이 장치(1600)의 성능을 고려하여 복수의 DNN 사양 중 디스플레이 장치(1600)와 유사한 성능의 디스플레이를 기반으로 하여 결정된 DNN 사양을 선택한다. 디스플레이 장치(1600)와 유사한 성능의 디스플레이를 기반으로 하여 결정된 DNN 사양의 개수가 복수인 경우, 영상 제공 장치(200)는 복수의 DNN 사양 중 디스플레이 장치(1600)가 구현할 수 있는 구조를 갖는 DNN 사양을 선택한다.
S1540 단계에서, 영상 제공 장치(200)는 제 1 디지털 영상을 부호화한다. 영상 제공 장치(200)는 주파수 변환 기반의 영상 압축 방법으로 제 1 디지털 영상을 부호화할 수 있다.
S1550 단계에서, 영상 제공 장치(200)는 제 1 디지털 영상의 부호화 데이터와, S1530 단계에서 선택된 DNN의 사양을 나타내는 AI 메타 정보를 디스플레이 장치(1600)로 전송한다. 영상 제공 장치(200)는 부호화 데이터 및 AI 메타 정보와 함께 OOTF 메타 정보도 디스플레이 장치(1600)로 전송할 수 있다.
도 16은 일 실시예에 따른 디스플레이 장치(1600)의 구성을 도시하는 도면이다.
도 16을 참조하면, 일 실시예에 따른 디스플레이 장치(1600)는 수신부(1610), 영상 처리부(1630) 및 디스플레이(1650)를 포함할 수 있다. 수신부(1610)는 통신부(1612), 파싱부(1614) 및 출력부(1616)를 포함할 수 있고, 영상 처리부(1630)는 복호화부(1632) 및 변환부(1634)를 포함할 수 있다.
도 16은 수신부(1610)와 영상 처리부(1630)를 분리하여 도시하고 있으나, 수신부(1610)와 영상 처리부(1630)는 하나의 프로세서를 통해 구현될 수 있다. 이 경우, 전용 프로세서로 구현될 수도 있고, AP, CPU, GPU와 같은 범용 프로세서와 S/W의 조합을 통해 구현될 수도 있다. 또한, 전용 프로세서의 경우, 본 개시의 실시예를 구현하기 위한 메모리를 포함하여 구현되거나, 외부 메모리를 이용하기 위한 메모리 처리부를 포함하여 구현될 수 있다.
또한, 수신부(1610)와 영상 처리부(1630)는 복수의 프로세서로 구현될 수도 있다. 이 경우, 전용 프로세서들의 조합으로 구현될 수도 있고, AP, CPU, GPU와 같은 다수의 범용 프로세서들과 S/W의 조합을 통해 구현될 수도 있다.
디스플레이(1650)는 LCD(liquid crystal display), LED(light emitting diode) 디스플레이, OLED(organic light emitting diode) 디스플레이, QLED (quantum dot light emitting diode) 디스플레이 등 디스플레이 신호를 출력할 수 있는 다양한 종류의 디스플레이를 포함할 수 있다.
도 16은 디스플레이 장치(1600)가 수신부(1610), 영상 처리부(1630) 및 디스플레이(1650)를 모두 포함하는 것으로 도시하고 있으나, 구현예에 따라서는, 디스플레이 장치(1600)는 수신부(1610)와 영상 처리부(1630)만을 포함할 수 있고, 디스플레이 장치(1600)는 톤 매핑된 디스플레이 신호를 별도의 디스플레이로 전달할 수도 있다.
수신부(1610)는 AI 디스플레이 데이터를 수신 및 파싱하고, 부호화 데이터와 메타 정보를 구분하여 영상 처리부(1630)로 전달한다.
구체적으로, 통신부(1612)는 네트워크를 통해 AI 디스플레이 데이터를 수신한다. AI 디스플레이 데이터는 부호화 데이터와 메타 정보를 포함한다. 메타 정보는 OOTF 메타 정보와 AI 메타 정보를 포함한다. 부호화 데이터와 메타 정보는 동종 네트워크 또는 이종 네트워크를 통해 수신될 수 있다. AI 메타 정보와 OOTF 메타 정보 중 적어도 하나는 부호화 데이터에 포함될 수도 있다. 구현예에 따라서, 통신부(1612)는 영상 제공 장치(200)로부터 메타 정보를 수신하고, 다른 장치, 예를 들어, 서버로부터 부호화 데이터를 수신할 수도 있다. 또는, 통신부(1612)는 영상 제공 장치(200)로부터 AI 메타 정보를 수신하고, 다른 장치, 예를 들어, 서버로부터 부호화 데이터와 OOTF 메타 정보를 수신할 수도 있다.
일 실시예에서, 통신부(1612)는 AI 디스플레이 데이터의 수신을 위해, 제 1 디지털 영상의 전송 요청 메시지를 영상 제공 장치(200)로 전송할 수 있다. 이 경우, 통신부(1612)는 디스플레이 장치(1600)의 성능 정보도 영상 제공 장치(200)로 전송할 수 있다. 디스플레이 장치(1600)의 성능 정보는 디스플레이 장치(1600)의 제조사 정보, 기종 정보를 포함할 수 있다.
파싱부(1614)는 통신부(1612)를 통해 수신된 AI 디스플레이 데이터를 전달받고, 이를 파싱(parsing)하여 부호화 데이터와 메타 정보로 구분한다. 예를 들어, 통신부(1612)로부터 획득된 데이터의 헤더를 읽어, 해당 데이터가 부호화 데이터인지 또는 메타 정보인지를 구분할 수 있다. 일 예에서, 파싱부(1614)는 통신부(1612)를 통해 수신된 데이터의 헤더를 통해 부호화 데이터와 메타 정보를 구분하여 출력부(1616)로 전달하고, 출력부(1616)는 각각의 구분된 데이터를 복호화부(1632) 및 변환부(1634)로 전달한다. 이 때, 파싱부(1614)는 부호화 데이터가 어떤 코덱(예를 들어, MPEG-2, H.264, MPEG-4, HEVC, VC-1, VP8, VP9 또는 AV1)을 통해 생성된 것인지를 확인할 수도 있다. 파싱부(1614)는 부호화 데이터가 상기 확인된 코덱으로 처리될 수 있도록, 출력부(1616)를 통해 해당 정보를 복호화부(1632)로 전달할 수 있다.
AI 메타 정보와 OOTF 메타 정보가 모두 부호화 데이터에 포함된 경우, 파싱부(1614)는 출력부(1616)를 통해 AI 메타 정보와 OOTF 메타 정보를 포함하는 부호화 데이터를 복호화부(1632)로 전달할 수 있다.
도 10 및 도 11에 도시된 바와 같이, AI 메타 정보(1012)가 메타데이터 박스(1010)에 포함되고, 부호화 데이터(1032)가 미디어 데이터 박스(1030)에 포함된 경우, 파싱부(1614)는 메타데이터 박스(1010)에 포함된 AI 메타 정보(1012)를 추출하여 변환부(1634)로 전달하고, 미디어 데이터 박스(1030)에 포함된 부호화 데이터(1032)를 추출하여 복호화부(1632)로 전달할 수 있다. 구체적으로, 파싱부(1614)는 메타데이터 박스(1010)에서 AI_HDR_DNN_flag(1100), AI_HDR_num_layers(1105), AI_HDR_in_channel(1112, 1122), AI_HDR_out_channel(1111, 1121), AI_HDR_filter_size(1113, 1123), AI_HDR_bias(1115, 1125) 및 AI_HDR_weights(1114, 1124)를 추출하여 변환부(1634)로 제공한다.
또한, 도 12에 도시된 바와 같이, AI 메타 정보(1234)가 부호화 데이터(1232)에 포함된 경우, 파싱부(1614)는 미디어 데이터 박스(1230)에 포함된 부호화 데이터(1232)를 추출하여 복호화부(1632)로 전달할 수 있다.
일 실시예에서, 파싱부(1614)가 파싱하는 AI 디스플레이 데이터는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium) 등을 포함하는 데이터 저장 매체로부터 획득된 것일 수도 있다.
복호화부(1632)는 부호화 데이터에 기초하여 제 1 디지털 영상에 대응하는 제 2 디지털 영상을 복원한다. 복호화부(1632)는 주파수 변환 기반의 영상 복원 방법에 따라 제 2 디지털 영상을 복원한다. 복호화부(1632)에 의해 획득된 제 2 디지털 영상은 변환부(1634)로 제공된다.
부호화 데이터에 AI 메타 정보 및/또는 OOTF 메타 정보가 포함되어 있는 경우, 복호화부(1632)는 부호화 데이터에 포함된 AI 메타 정보 및/또는 OOTF 메타 정보를 복원하고, 복원된 AI 메타 정보 및/또는 OOTF 메타 정보를 변환부(1634)로 제공한다.
부호화 데이터에 AI 메타 정보가 포함된 경우, 복호화부(1632)가 AI 메타 정보를 파싱하는 방법에 대해 도 13을 참조하여 설명한다.
복호화부(1632)는 부호화 데이터에 포함된 AI_HDR_DNN_flag(1301)를 추출한다. AI_HDR_DNN_flag(1301)는 DNN 기반의 톤 매핑이 필요한지 여부를 나타낸다. AI_HDR_DNN_flag(1301)가 DNN 기반의 톤 매핑이 필요 없음을 나타낼 때, 복호화부(1632)는 AI 메타 정보의 파싱 과정을 중단하고, DNN 기반의 톤 매핑이 필요 없다는 정보를 변환부(1634)로 제공한다.
AI_HDR_DNN_flag(1301)가 DNN 기반의 톤 매핑이 필요함을 나타낼 때, 복호화부(1632)는 부호화 데이터에서 AI_HDR_num_layers(1303)를 추출한다. AI_HDR_num_layers(1303)는 톤 매핑을 위한 DNN에 포함된 레이어의 개수를 나타낸다.
복호화부(1632)는 DNN에 포함된 레이어의 개수만큼, AI_HDR_in_channel[i](1304), AI_HDR_out_channel[i](1305), AI_HDR_filter_width[i](1306), AI_HDR_filter_height[i](1307)를 추출한다. AI_HDR_out_channel[i](1305)은 i 레이어에서 출력되는 데이터의 채널 수를 나타내고, AI_HDR_in_channel[i](1304)은 i 레이어로 입력되는 데이터의 채널 수를 나타낸다. 또한, AI_HDR_filter_width[i](1306) 및 AI_HDR_filter_height[i](1307)는 각각 i 레이어에서 이용되는 필터 커널의 폭 크기 및 높이 크기를 나타낸다.
그리고, 복호화부(1632)는 DNN에 포함된 i 레이어의 출력 채널의 개수만큼 AI_HDR_bias[i][j](1308)를 추출한다. AI_HDR_bias[i][j](1308)는 i 레이어의 j 채널의 출력 데이터를 위해 소정 연산식의 결과 값에 더해지거나 빼지는 바이어스 값을 나타낸다.
복호화부(1632)는 i 레이어의 입력 채널의 개수 x i 레이어의 출력 채널의 개수 x i 레이어에서 이용되는 필터 커널의 폭 크기 x i 레이어에서 이용되는 필터 커널의 높이 크기에 해당하는 횟수만큼 AI_HDR_weight[i][j][k][l](1309)를 추출한다. AI_HDR_weight[i][j][k][l](1309)는 i 레이어의 j 채널의 출력 데이터 및 k 채널의 입력 데이터와 관련된 필터 커널 내 l 샘플의 가중치를 나타낸다.
복호화부(1632)는 부호화 데이터에서 추출된 AI_HDR_num_layers(1303), AI_HDR_in_channel[i](1304), AI_HDR_out_channel[i](1305), AI_HDR_filter_width[i](1306), AI_HDR_filter_height[i](1307), AI_HDR_bias[i][j](1308) 및 AI_HDR_weight[i][j][k][l](1309)를 AI 메타 정보로서 변환부(1634)로 제공한다.
전술한 바와 같이, AI 메타 정보 및/또는 OOTF 메타 정보가 부호화 데이터 중 SEI(Supplemental enhancement information) 메시지에 포함되어 있는 경우, 복호화부(1632)는 SEI 메시지를 변환부(1634)로 전달하고, 변환부(1634)가 SEI 메시지로부터 AI 메타 정보 및/또는 OOTF 메타 정보를 획득할 수도 있다. 일 예로, 부호화 데이터의 헤더에는 SEI 메시지의 크기 정보가 저장되어 있을 수 있으며, 복호화부(1632)는 헤더로부터 SEI 메시지의 크기를 확인하고, 확인된 크기의 SEI 메시지를 부호화 데이터로부터 추출하여 변환부(1634)로 전달할 수 있다.
변환부(1634)가 SEI 메시지에서 AI 메타 정보를 파싱하는 동작은, 도 13과 관련하여 설명한, 복호화부(1632)가 부호화 데이터에서 AI 메타 정보를 파싱하는 동작과 동일하므로 상세한 설명은 생략한다.
변환부(1634)는 메타 정보, 구체적으로, OOTF 메타 정보에 기초하여 OOTF를 세팅하고, AI 메타 정보에 기초하여 HDR DNN을 세팅한다. OOTF는 OOTF 메타 정보가 가리키는 사양을 가지며, HDR DNN은 AI 메타 정보가 가리키는 사양을 가질 수 있다. 그리고, 변환부(1634)는 OOTF 및 HDR DNN을 이용하여 제 2 디지털 영상에 대응하는 제 2 광 신호를 톤 매핑하여 디스플레이 신호를 획득한다.
제 2 디지털 영상이 복수 개의 프레임으로 이루어진 경우, 변환부(1634)는 각 프레임에 대응하는 AI 메타 정보들을 획득할 수 있다. 그리고, 변환부(1634)는 AI 메타 정보들에 기초하여 프레임별로 HDR DNN들을 독립적으로 세팅할 수 있다. 이 때, 어느 하나의 프레임을 위해 세팅되는 HDR DNN의 사양과 다른 하나의 프레임을 위해 세팅되는 HDR DNN의 사양은 서로 상이할 수 있다.
또한, 제 2 디지털 영상이 복수 개의 프레임으로 이루어진 경우, 변환부(1634)는 각 프레임 그룹에 대응하는 AI 메타 정보들을 획득할 수 있다. 그리고, 변환부(1634)는 AI 메타 정보들에 기초하여 프레임 그룹별로 HDR DNN들을 독립적으로 세팅할 수 있다. 이 때, 어느 하나의 그룹을 위해 세팅되는 HDR DNN의 사양과 다른 하나의 그룹을 위해 세팅되는 HDR DNN의 사양은 서로 상이할 수 있다. 각 프레임 그룹에 대응하는 AI 메타 정보들은 AI 메타 정보가 적용되는 프레임의 식별 정보(예를 들어, Picture Order Count)를 포함할 수 있다. 이는 각 그룹에 포함되는 프레임들이 시간적으로 연속하지 않을 때 유용할 수 있다.
구현예에 따라, 변환부(1634)는 제 2 디지털 영상을 구성하는 프레임들을 프레임들의 특성에 따라 복수의 그룹으로 구분하고, 영상 제공 장치(200)로부터 순차적으로 제공되는 AI 메타 정보를 이용하여 각 그룹을 위한 HDR DNN을 세팅할 수 있다. 이 경우, AI 메타 정보에는 AI 메타 정보가 적용되는 프레임의 식별 정보가 포함되지 않을 수 있으나, 변환부(1634)는 영상 제공 장치(200)와 동일한 기준으로 프레임들을 그룹으로 구분하여야 한다.
제 2 디지털 영상이 복수 개의 프레임으로 이루어진 경우, 변환부(1634)는 전체 프레임에 대응하는 AI 메타 정보를 획득할 수도 있다. 그리고, 변환부(1634)는 AI 메타 정보에 기초하여 전체 프레임을 위한 HDR DNN을 세팅할 수 있다.
OOTF 메타 정보 및 AI 메타 정보에 기초하여 OOTF 및 HDR DNN이 세팅된 후의 변환부(1634)의 톤 매핑 과정에 대해서는 도 17 내지 도 20을 참조하여 설명한다.
도 17은 일 실시예에 따른 디스플레이 장치(1600)에 의한 톤 매핑 과정을 설명하기 위한 도면이다.
제 2 디지털 영상에 대응하는 제 2 광 신호(1710)는 OOTF(1715)에 따라 변환된다. 여기서, OOTF(1715)는 OOTF 메타 정보에 기초하여 세팅된다. 제 2 디지털 영상은 EOTF에 따라 제 2 광 신호(1710)로 변환된다.
제 2 광 신호(1710)는 AI 메타 정보에 기초하여 세팅된 HDR DNN(1720)에서 처리된다. OOTF(1715)에 의해 처리된 결과와 HDR DNN(1720)의 출력 결과가 합해져 디스플레이 신호(1730)가 획득된다.
도 18은 다른 실시예에 따른 디스플레이 장치(1600)에 의한 톤 매핑 과정을 설명하기 위한 도면이다.
도 18을 참조하면, 제 2 디지털 영상에 대응하는 제 2 광 신호(1810)는 OOTF(1815)에 따라 변환된다. OOTF(1815)는 OOTF 메타 정보에 기초하여 세팅된다.
또한, 제 2 광 신호(1810)는 OETF(1850)에 따라 제 1 중간 영상으로 변환된다. 제 1 중간 영상은 AI 메타 정보에 기초하여 세팅된 HDR DNN(1820)에서 처리된다. HDR DNN(1820)의 처리 결과 제 2 중간 영상이 획득된다. 상기 제 1 중간 영상은 제 2 디지털 영상일 수 있고, 이 경우, OETF(1850)에 의한 변환 과정이 생략되고, 복호화 과정을 통해 획득된 제 2 디지털 영상이 HDR DNN(1820)에서 처리될 수 있다.
제 2 중간 영상은 EOTF(1860)에 따라 광 신호로 변환되고, EOTF(1860)에 따라 변환된 신호와 OOTF(1815)에 따라 변환된 신호가 합해져 디스플레이 신호(1830)가 획득된다.
도 19는 또 다른 실시예에 따른 디스플레이 장치(1600)에 의한 톤 매핑 과정을 설명하기 위한 도면이다.
도 19를 참조하면, 제 2 디지털 영상에 대응하는 제 2 광 신호(1910)가 OOTF(1915)에 따라 처리되고, 제 2 광 신호(1910)로부터 OOTF(1915)에 따라 변환된 광 신호는 AI 메타 정보에 기초하여 세팅된 HDR DNN(1920)에 의해 처리됨으로써 디스플레이 신호(1930)가 획득된다.
일 실시예에서, OOTF 메타 정보도 HDR DNN(1920)으로 입력될 수 있다. OOTF 메타 정보는 제 2 디지털 영상에 대응하는 제 1 디지털 영상의 특성에 따라 결정된 것이므로, HDR DNN(1920)은 광 신호를 처리하는데 있어, 입력받은 OOTF 메타 정보를 함께 고려할 수 있다.
도 20은 또 다른 실시예에 따른 디스플레이 장치(1600)에 의한 톤 매핑 과정을 설명하기 위한 도면이다.
도 20을 참조하면, 제 2 디지털 영상에 대응하는 제 2 광 신호(2010)가 AI 메타 정보에 기초하여 세팅된 HDR DNN(2020)에 의해 처리된다. 제 2 광 신호(2010)가 HDR DNN(2020)으로 입력되는 것과 함께 OOTF 메타 정보도 HDR DNN(2020)으로 입력될 수 있다. HDR DNN(2020)으로부터 출력된 신호는 OOTF(2015)에 따라 처리되고, 그 결과 디스플레이 신호(2030)가 획득된다.
도 21은 일 실시예에 따른 디스플레이 방법의 순서도이다.
S2110 단계에서, 디스플레이 장치(1600)는 제 1 디지털 영상의 부호화 데이터, 및 AI 메타 정보를 획득한다. 디스플레이 장치(1600)는 OOTF 메타 정보를 더 획득할 수 있다.
S2120 단계에서, 디스플레이 장치(1600)는 부호화 데이터를 복호화하여 제 2 디지털 영상을 획득한다. 부호화 데이터에 AI 메타 정보가 포함된 경우, 디스플레이 장치(1600)는 부호화 데이터를 복호화하여 AI 메타 정보를 획득할 수도 있다.
S2130 단계에서, 디스플레이 장치(1600)는 EOTF에 따라 제 2 디지털 영상으로부터 변환된 제 2 광 신호를 획득한다.
S2140 단계에서, 디스플레이 장치(1600)는 AI 메타 정보로부터 DNN 기반의 톤 매핑 처리가 필요한지 여부를 확인한다.
S2150 단계에서, DNN 기반의 톤 매핑 처리가 필요한 것으로 확인되면, 디스플레이 장치(1600)는 AI 메타 정보에 기초하여 톤 매핑을 위한 HDR DNN을 세팅한다. 일 실시예에서, AI 메타 정보가 제 2 디지털 영상을 구성하는 개별 프레임 단위로 획득된 경우, 디스플레이 장치(1600)는 톤 매핑을 위한 HDR DNN을 프레임 별로 세팅할 수 있다. 또한, AI 메타 정보가 제 2 디지털 영상을 구성하는 프레임 그룹 단위로 획득된 경우, 디스플레이 장치(1600)는 톤 매핑을 위한 HDR DNN을 그룹 별로 세팅할 수 있다. 또한, AI 메타 정보가 제 2 디지털 영상을 구성하는 전체 프레임 단위로 획득된 경우, 디스플레이 장치(1600)는 톤 매핑을 위한 단일의 HDR DNN을 세팅할 수 있다.
S2160 단계에서, 디스플레이 장치(1600)는 OOTF 메타 정보에 기초하여 세팅된 OOTF, 및 AI 메타 정보에 기초하여 세팅된 HDR DNN으로 S2130 단계에서 획득한 제 2 광 신호를 처리하여 디스플레이 신호를 획득한다. 디스플레이 신호는 디스플레이(1650)에서 영상으로 출력된다.
S2170 단계에서, DNN 기반의 톤 매핑 처리가 필요하지 않은 것으로 확인되면, 디스플레이 장치(1600)는 OOTF 메타 정보에 기초하여 세팅된 OOTF로 제 2 광 신호를 처리하여 디스플레이 신호를 획득한다. 디스플레이 신호는 디스플레이(1650)에서 영상으로 출력된다.
도 22는 다른 실시예에 따른 디스플레이 방법의 순서도이다.
S2210 단계에서, 디스플레이 장치(1600)는 제 1 디지털 영상의 프레임들의 부호화 데이터, 제 1 AI 메타 정보 및 제 2 AI 메타 정보를 획득한다.
SS220 단계에서, 디스플레이 장치(1600)는 부호화 데이터를 복호화하여 제 2 디지털 영상의 프레임들을 획득한다.
S2230 단계에서, 디스플레이 장치(1600)는 제 1 AI 메타 정보에 기초하여 제 1 HDR DNN을 세팅하고, 제 2 AI 메타 정보에 기초하여 제 2 HDR DNN을 세팅한다.
S2240 단계에서, 디스플레이 장치(1600)는 제 2 디지털 영상의 프레임들 중 제 1 그룹의 프레임들에 대응하는 제 2 광 신호를 제 1 HDR DNN 및 OOTF로 처리하여 디스플레이 신호를 획득하고, S2250 단계에서, 디스플레이 장치(1600)는 제 2 디지털 영상의 프레임들 중 제 2 그룹의 프레임들에 대응하는 제 2 광 신호를 제 2 HDR DNN 및 OOTF로 처리하여 디스플레이 신호를 획득한다.
제 1 AI 메타 정보 및 제 2 AI 메타 정보는 각각 제 1 AI 메타 정보와 제 2 AI 메타 정보가 적용되는 프레임들의 식별 번호를 포함할 수 있다. 각 그룹에 포함되는 프레임들이 시간적으로 연속하는 경우, 제 1 AI 메타 정보 및 제 2 AI 메타 정보는 각각 제 1 AI 메타 정보와 제 2 AI 메타 정보가 적용되는 첫 번째 프레임 및 마지막 프레임의 식별 번호를 포함할 수도 있다
제 1 그룹의 프레임들에 대응하는 디스플레이 신호와 제 2 그룹의 프레임들에 대응하는 디스플레이 신호는 디스플레이(1650)를 통해 영상으로 표시된다.
도 22에 도시된 과정은 제 1 AI 메타 정보와 제 2 AI 메타 정보가 도 10과 같이 부호화 데이터(1032)와 구분되어 메타데이터 박스(1010)에 포함된 경우를 고려한 것이며, 제 1 AI 메타 정보와 제 2 AI 메타 정보가 도 12와 같이 부호화 데이터(1232)에 포함된 경우에는, S2220 단계에서의 복호화를 통해 제 1 AI 메타 정보와 제 2 AI 메타 정보가 획득된다.
한편, 상술한 본 개시의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 작성된 프로그램은 매체에 저장될 수 있다.
매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수개 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 애플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.
이상, 본 개시의 기술적 사상을 바람직한 실시예를 들어 상세하게 설명하였으나, 본 개시의 기술적 사상은 상기 실시예들에 한정되지 않고, 본 개시의 기술적 사상의 범위 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러 가지 변형 및 변경이 가능하다.
200: 영상 제공 장치
1600: 디스플레이 장치

Claims (20)

  1. 하나 이상의 인스트럭션들을 저장하는 메모리; 및
    상기 메모리에 저장된 상기 하나 이상의 인스트럭션들을 실행하는 프로세서를 포함하고,
    상기 프로세서는,
    제 1 디지털 영상의 부호화 데이터 및 심층 신경망(deep neural network, 이하, DNN)의 사양(specification)을 나타내는 인공지능(artificial intelligence, 이하, AI) 메타 정보를 획득하고,
    상기 부호화 데이터를 복호화하여 상기 제 1 디지털 영상에 대응하는 제 2 디지털 영상을 획득하고,
    미리 결정된 EOTF(Electro-Optical Transfer Function)에 따라 상기 제 2 디지털 영상으로부터 변환된 광 신호를 획득하고,
    OOTF(Opto-Optical Transfer Function), 및 상기 AI 메타 정보에 따라 세팅되는 HDR DNN으로 상기 광 신호를 처리하여 디스플레이 신호를 획득하는, 디스플레이 장치.
  2. 제1항에 있어서,
    상기 HDR DNN은 복수의 레이어들을 포함하며,
    상기 AI 메타 정보는,
    레이어들의 개수, 레이어들의 종류, 적어도 하나의 레이어에서 이용되는 필터 커널의 개수, 적어도 하나의 레이어에서 이용되는 필터 커널의 크기, 적어도 하나의 레이어에서 이용되는 필터 커널의 가중치 및 바이어스 값 중 적어도 하나의 정보를 포함하는, 디스플레이 장치.
  3. 제1항에 있어서,
    상기 프로세서는,
    상기 광 신호를 상기 OOTF에 따라 변환하고,
    상기 광 신호를 상기 HDR DNN으로 입력하고,
    상기 광 신호로부터 상기 OOTF에 따라 변환된 신호 및 상기 HDR DNN의 출력 신호를 합하여 상기 디스플레이 신호를 획득하는, 디스플레이 장치.
  4. 제1항에 있어서,
    상기 프로세서는,
    상기 광 신호를 상기 OOTF에 따라 변환하고,
    상기 광 신호로부터 OETF에 따라 변환된 제 1 중간 영상을 상기 HDR DNN으로 입력하고,
    상기 HDR DNN에서 출력되는 제 2 중간 영상을 상기 EOTF에 따라 변환하고,
    상기 광 신호로부터 상기 OOTF에 따라 변환된 신호 및 상기 제 2 중간 영상으로부터 상기 EOTF에 따라 변환된 신호를 합하여 상기 디스플레이 신호를 획득하는, 디스플레이 장치.
  5. 제1항에 있어서,
    상기 프로세서는,
    상기 광 신호를 상기 OOTF 및 상기 HDR DNN 중 어느 하나로 처리하고, 상기 OOTF 및 상기 HDR DNN 중 어느 하나에 의한 처리 결과를 상기 OOTF 및 상기 HDR DNN 중 다른 하나로 처리하여 상기 디스플레이 신호를 획득하는, 디스플레이 장치.
  6. 제5항에 있어서,
    상기 프로세서는,
    상기 OOTF의 세팅에 이용되는 OOTF 메타 정보를 획득하고,
    상기 획득한 OOTF 메타 정보를 상기 HDR DNN으로 입력하는, 디스플레이 장치.
  7. 제1항에 있어서,
    상기 제 2 디지털 영상은 복수의 프레임을 포함하며,
    상기 프로세서는,
    상기 복수의 프레임 중 제 1 그룹의 프레임을 위한 제 1의 AI 메타 정보 및 제 2 그룹의 프레임을 위한 제 2의 AI 메타 정보를 획득하고,
    상기 제 1의 AI 메타 정보 및 상기 제 2의 AI 메타 정보에 따라 상기 제 1 그룹의 프레임을 위한 HDR DNN과 상기 제 2 그룹의 프레임을 위한 HDR DNN을 독립적으로 세팅하는, 디스플레이 장치.
  8. 제7항에 있어서,
    상기 제 1의 AI 메타 정보 및 상기 제 2의 AI 메타 정보는,
    상기 제 1의 AI 메타 정보 및 상기 제 2의 AI 메타 정보가 적용되는 프레임의 식별 정보를 포함하는, 디스플레이 장치.
  9. 하나 이상의 인스트럭션들을 저장하는 메모리; 및
    상기 메모리에 저장된 상기 하나 이상의 인스트럭션들을 실행하는 프로세서를 포함하고,
    상기 프로세서는,
    제 1 디지털 영상에 대응하는 광 신호를 OOTF(Opto-Optical Transfer Function) 및 심층 신경망(deep neural network, 이하, DNN)으로 처리한 결과와 정답(ground truth) 신호 사이의 차이 정보에 기반하여 상기 DNN의 사양(specification)을 결정하고,
    상기 제 1 디지털 영상을 부호화하고,
    상기 제 1 디지털 영상의 부호화 데이터, 및 상기 DNN의 사양을 나타내는 인공지능(artificial intelligence, 이하, AI) 메타 정보를 디스플레이 장치로 전송하는, 영상 제공 장치.
  10. 제9항에 있어서,
    상기 미리 결정된 정답 신호는,
    상기 광 신호로부터 상기 OOTF에 따라 변환된 신호를 기반으로 미리 결정된, 영상 제공 장치.
  11. 제9항에 있어서,
    상기 제 1 디지털 영상은 복수의 프레임을 포함하되,
    상기 프로세서는,
    상기 복수의 프레임 중 제 1 그룹의 프레임을 위한 DNN의 사양과 제 2 그룹의 프레임을 위한 DNN의 사양을 독립적으로 결정하는, 영상 제공 장치.
  12. 제11항에 있어서,
    상기 프로세서는,
    상기 복수의 프레임 각각의 픽셀 값들의 히스토그램의 유사도 또는 분산에 기초하여 상기 복수의 프레임을 상기 제 1 그룹의 프레임들과 상기 제 2 그룹의 프레임들로 구분하는, 영상 제공 장치.
  13. 제11항에 있어서,
    상기 프로세서는,
    상기 복수의 프레임들 중 상기 제 1 그룹의 대표 프레임 및 상기 제 2 그룹의 대표 프레임을 결정하며,
    상기 제 1 그룹의 대표 프레임에 대응하는 광 신호를 OOTF 및 DNN으로 처리한 결과와 정답 신호 사이의 차이 정보에 기반하여 상기 DNN의 사양을 결정하고,
    상기 제 2 그룹의 대표 프레임에 대응하는 광 신호를 OOTF 및 DNN으로 처리한 결과와 정답 신호 사이의 차이 정보에 기반하여 상기 DNN의 사양을 결정하는, 영상 제공 장치.
  14. 제9항에 있어서,
    상기 프로세서는,
    상기 디스플레이 장치가 디스플레이할 수 있는 밝기 값에 따라 DNN 기반의 톤 매핑 처리가 필요한지 여부를 나타내는 정보를 상기 디스플레이 장치로 전송하는, 영상 제공 장치.
  15. 제14항에 있어서,
    상기 프로세서는,
    상기 디스플레이 장치가 디스플레이할 수 있는 최대 밝기 값과 임계 밝기 값의 차이가 소정 값 이하인 경우, 상기 DNN 기반 톤 매핑 처리가 필요하지 않다는 정보를 상기 디스플레이 장치로 전송하는, 영상 제공 장치.
  16. 제9항에 있어서,
    상기 프로세서는,
    상기 디스플레이 장치로부터 성능 정보를 수신하고,
    상기 수신된 성능 정보에 기초하여, 상기 제 1 디지털 영상에 대응하는 광 신호의 톤 매핑에 이용 가능한 복수의 DNN의 사양 중 어느 하나를 결정하고,
    상기 결정된 어느 하나의 DNN의 사양을 나타내는 AI 메타 정보를 상기 디스플레이 장치로 전송하는, 영상 제공 장치.
  17. 제9항에 있어서,
    상기 프로세서는,
    상기 제 1 디지털 영상의 픽셀 값들에 기초하여 상기 DNN의 제한 조건을 결정하되,
    상기 제한 조건은, 상기 DNN에 포함되는 레이어들의 최소 개수, 적어도 하나의 레이어에서 이용되는 필터 커널의 최소 크기 및 상기 적어도 하나의 레이어에서 이용되는 필터 커널의 최소 개수 중 적어도 하나를 포함하는, 영상 제공 장치.
  18. 디스플레이 장치에 의한 영상의 디스플레이 방법에 있어서,
    제 1 디지털 영상의 부호화 데이터 및 심층 신경망(deep neural network, 이하, DNN)의 사양을 나타내는 인공지능(artificial intelligence, 이하, AI) 메타 정보를 획득하는 단계;
    상기 부호화 데이터를 복호화하여 상기 제 1 디지털 영상에 대응하는 제 2 디지털 영상을 획득하는 단계;
    미리 결정된 EOTF(Electro-Optical Transfer Function)에 따라 상기 제 2 디지털 영상으로부터 변환된 광 신호를 획득하는 단계; 및
    OOTF(Opto-Optical Transfer Function), 및 상기 AI 메타 정보에 따라 세팅되는 HDR DNN으로 상기 광 신호를 처리하여 디스플레이 신호를 획득하는 단계를 포함하는, 영상의 디스플레이 방법.
  19. 영상 제공 장치에 의한 영상 제공 방법에 있어서,
    제 1 디지털 영상에 대응하는 광 신호를 OOTF(Opto-Optical Transfer Function) 및 심층 신경망(deep neural network, 이하, DNN)으로 처리한 결과와 정답(ground truth) 신호 사이의 차이 정보에 기반하여 상기 DNN의 사양을 결정하는 단계;
    상기 제 1 디지털 영상을 부호화하는 단계; 및
    상기 제 1 디지털 영상의 부호화 데이터, 및 상기 DNN의 사양을 나타내는 인공지능(artificial intelligence, 이하, AI) 메타 정보를 디스플레이 장치로 전송하는 단계를 포함하는, 영상 제공 방법.
  20. 제18항의 영상의 디스플레이 방법을 실행하기 위한 프로그램을 저장한 컴퓨터로 읽을 수 있는 기록매체.
KR1020190146953A 2019-11-15 2019-11-15 영상 제공 장치 및 이에 의한 영상 제공 방법, 및 디스플레이 장치 및 이에 의한 디스플레이 방법 KR20210059466A (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020190146953A KR20210059466A (ko) 2019-11-15 2019-11-15 영상 제공 장치 및 이에 의한 영상 제공 방법, 및 디스플레이 장치 및 이에 의한 디스플레이 방법
PCT/KR2020/015896 WO2021096252A1 (en) 2019-11-15 2020-11-12 Image providing apparatus and image providing method thereof, and display apparatus and display method thereof
EP20886674.9A EP3997887A4 (en) 2019-11-15 2020-11-12 IMAGE PROVIDING APPARATUS AND IMAGE PROVIDING METHOD THEREOF, AND DISPLAY APPARATUS AND DISPLAY METHOD THEREOF
CN202080074016.0A CN114641793A (zh) 2019-11-15 2020-11-12 图像提供设备及其图像提供方法和显示设备及其显示方法
US17/097,320 US11823362B2 (en) 2019-11-15 2020-11-13 Image providing apparatus and image providing method thereof, and display apparatus and display method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190146953A KR20210059466A (ko) 2019-11-15 2019-11-15 영상 제공 장치 및 이에 의한 영상 제공 방법, 및 디스플레이 장치 및 이에 의한 디스플레이 방법

Publications (1)

Publication Number Publication Date
KR20210059466A true KR20210059466A (ko) 2021-05-25

Family

ID=75909376

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190146953A KR20210059466A (ko) 2019-11-15 2019-11-15 영상 제공 장치 및 이에 의한 영상 제공 방법, 및 디스플레이 장치 및 이에 의한 디스플레이 방법

Country Status (5)

Country Link
US (1) US11823362B2 (ko)
EP (1) EP3997887A4 (ko)
KR (1) KR20210059466A (ko)
CN (1) CN114641793A (ko)
WO (1) WO2021096252A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116897537A (zh) * 2022-02-08 2023-10-17 辉达公司 使用神经网络的图像生成

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2537138B1 (en) 2010-02-19 2014-04-02 Thomson Licensing Parameters interpolation for high dynamic range video tone mapping
WO2015007510A1 (en) * 2013-07-16 2015-01-22 Koninklijke Philips N.V. Method and apparatus to create an eotf function for a universal code mapping for an hdr image, method and process to use these images
EP3051823A1 (en) 2015-01-27 2016-08-03 Thomson Licensing Methods, systems and aparatus for electro-optical and opto-electrical conversion of images and video
EP3251366B1 (en) * 2015-01-27 2024-01-10 InterDigital Madison Patent Holdings, SAS Methods and apparatus for electro-optical and opto-electrical conversion of images and video
KR101954851B1 (ko) 2015-02-16 2019-03-06 삼성전자주식회사 메타데이터 기반 영상 처리 방법 및 장치
US10515304B2 (en) * 2015-04-28 2019-12-24 Qualcomm Incorporated Filter specificity as training criterion for neural networks
US10460231B2 (en) 2015-12-29 2019-10-29 Samsung Electronics Co., Ltd. Method and apparatus of neural network based image signal processor
KR102340082B1 (ko) 2016-09-20 2021-12-15 소니그룹주식회사 영상 신호 처리 장치, 영상 신호 처리 방법 및 영상 신호 처리 시스템
US10979718B2 (en) * 2017-09-01 2021-04-13 Apple Inc. Machine learning video processing systems and methods
US10803565B2 (en) * 2018-07-10 2020-10-13 Intel Corporation Low-light imaging using trained convolutional neural networks
US10936909B2 (en) * 2018-11-12 2021-03-02 Adobe Inc. Learning to estimate high-dynamic range outdoor lighting parameters

Also Published As

Publication number Publication date
US20210152799A1 (en) 2021-05-20
WO2021096252A1 (en) 2021-05-20
US11823362B2 (en) 2023-11-21
EP3997887A1 (en) 2022-05-18
EP3997887A4 (en) 2022-10-19
CN114641793A (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
CN109068139B (zh) 用于环内再成形的方法、设备和计算机可读存储介质
US11232598B2 (en) Distinct encoding and decoding of stable information and transient/stochastic information
KR20210050186A (ko) 영상의 ai 부호화 및 ai 복호화 방법, 및 장치
JP6846442B2 (ja) ハイダイナミックレンジ画像のためのクロマ再構成
Banterle et al. High dynamic range imaging and low dynamic range expansion for generating HDR content
KR20200044665A (ko) 부호화 방법 및 그 장치, 복호화 방법 및 그 장치
US20180041759A1 (en) Content-adaptive perceptual quantizer for high dynamic range images
JP2016220216A (ja) エンコーダおよび符号化方法
US10244266B1 (en) Noisy media content encoding
Mukherjee et al. Objective and subjective evaluation of high dynamic range video compression
JP2022529580A (ja) ビデオ符号化における残差の処理
US11881003B2 (en) Image compression and decoding, video compression and decoding: training methods and training systems
US20240048738A1 (en) Methods, apparatuses, computer programs and computer-readable media for processing configuration data
Zhang et al. High dynamic range image & video compression a review
TWI735193B (zh) 用於在視訊編碼中的順延後處理的系統及方法
KR20210059466A (ko) 영상 제공 장치 및 이에 의한 영상 제공 방법, 및 디스플레이 장치 및 이에 의한 디스플레이 방법
US11816872B2 (en) Method and apparatus for performing artificial intelligence encoding and artificial intelligence decoding
KR20170042235A (ko) 화질에 기반한 적응적 부호화 및 복호화를 위한 방법 및 장치
Willème et al. Overview of the JPEG XS objective evaluation procedures
EP2958327A1 (en) Method and device for encoding a sequence of pictures
US20230196505A1 (en) Artificial intelligence-based image providing apparatus and method, and artificial intelligence-based display apparatus and method
Zhang et al. Image and video compression for HDR content
Qin et al. Content adaptive downsampling for low bitrate video coding
KR102589858B1 (ko) 복호화 장치 및 그 동작방법, 및 ai 업 스케일 장치 및 그 동작방법
KR102421718B1 (ko) 인공지능 부호화 및 인공지능 복호화를 수행하기 위한 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination