KR20180077209A - 비디오 인코딩 방법, 비디오 인코딩 디바이스, 비디오 디코딩 방법, 비디오 디코딩 디바이스, 프로그램, 및 비디오 시스템 - Google Patents

비디오 인코딩 방법, 비디오 인코딩 디바이스, 비디오 디코딩 방법, 비디오 디코딩 디바이스, 프로그램, 및 비디오 시스템 Download PDF

Info

Publication number
KR20180077209A
KR20180077209A KR1020187014826A KR20187014826A KR20180077209A KR 20180077209 A KR20180077209 A KR 20180077209A KR 1020187014826 A KR1020187014826 A KR 1020187014826A KR 20187014826 A KR20187014826 A KR 20187014826A KR 20180077209 A KR20180077209 A KR 20180077209A
Authority
KR
South Korea
Prior art keywords
pictures
video
time
dynamic range
encoding
Prior art date
Application number
KR1020187014826A
Other languages
English (en)
Other versions
KR102198120B1 (ko
Inventor
다까유끼 이시다
게이이찌 조노
Original Assignee
닛본 덴끼 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 닛본 덴끼 가부시끼가이샤 filed Critical 닛본 덴끼 가부시끼가이샤
Publication of KR20180077209A publication Critical patent/KR20180077209A/ko
Application granted granted Critical
Publication of KR102198120B1 publication Critical patent/KR102198120B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/114Adapting the group of pictures [GOP] structure, e.g. number of B-frames between two anchor frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/174Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a slice, e.g. a line of blocks or a group of blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Abstract

비디오 인코딩 장치는 동적 범위 관련 비디오 신호 정보를 이용하여, 복수의 계층적 인코딩 구조들로부터 계층적 인코딩 구조를 적절히 선택함으로써 비트스트림을 생성하기 위한 비디오 인코딩 장치이고, 인코딩될 비디오 신호가 시간 방향에서 SDR(standard dynamic range)로부터 HDR(high dynamic range)로, 또는 HDR로부터 SDR로 변할 때, 동적 범위를 변경하기 위해 이용되는 동적 범위 관련 비디오 신호 정보를 전송할 수 있는 계층적 인코딩 구조를 선택하기 위한 인코딩 유닛을 포함한다.

Description

비디오 인코딩 방법, 비디오 인코딩 장치, 비디오 디코딩 방법, 비디오 디코딩 장치, 프로그램, 및 비디오 시스템
본 발명은 비디오 인코딩 방법, 비디오 인코딩 디바이스, 비디오 디코딩 방법, 비디오 디코딩 디바이스, 프로그램, 및 비디오 시스템에 관한 것이다.
더 높은 해상도의 비디오에 대한 요구에 응답하여, 가로 1920 × 세로 1080(픽셀)의 풀HD(고선명도) 비디오 콘텐츠가 제공되었다. 또한, 가로 3840 × 세로 2160(픽셀)(이하, "4K"로 지칭됨)의 고해상도 비디오의 시험 방송 및 상업 방송이 시작되었다. 더욱이, 가로 7680 × 세로 4320(픽셀)(이하, "8K"로 지칭됨)의 고선명도 비디오의 상업 방송이 계획되었다.
비디오 콘텐츠 분배 시스템에서, 일반적으로, 송신기는 H.264/AVC(Advanced Video Coding) 표준 또는 HEVC(High Efficiency Video Coding) 표준에 기초하여 비디오 신호를 인코딩하고, 수신기는 비디오 신호를 재생하기 위해 디코딩 프로세스를 수행한다. 8K에서는, 큰 수의 픽셀들로 인해 인코딩 프로세스 및 디코딩 프로세스에서의 처리 부하(processing load)가 크다.
예를 들어, 8K에서 처리 부하를 감소시키기 위한 방법으로서, 비특허문헌(NPL) 1은 슬라이스들을 사용한 화면 4분할 인코딩을 기술한다(도 11 참조). 도 12에 도시된 바와 같이, NPL 1에 따르면, 화면 4분할 인코딩이 사용되는 경우에서, 2개의 슬라이스들 사이의 경계(슬라이스 경계) 부근의 블록에서의 모션 보상(motion compensation)(MC)에 대한 모션 벡터는 인터 예측을 수행할 때 슬라이스 수직(세로) 방향으로의 컴포넌트가 128픽셀보다 작거나 이와 동일하다는 제약을 갖는다. 한편, 슬라이스 경계 부근에 속하지 않는 블록은 슬라이스 경계를 가로질러 수직 방향으로의 모션 벡터 범위의 어떠한 제약(이하, "모션 벡터 제한"으로 지칭됨)에도 종속되지 않는다.
4K 또는 8K에 대해, 표준 동적 범위(standard dynamic range)(이하, "SDR"로 지칭됨)의 비디오 신호뿐만 아니라 ARIB STD-B67 표준의 높은 동적 범위(high dynamic range)(이하, "HDR"로 지칭됨) 표준인 하이브리드 로그 감마(Hybrid Log Gamma)(이하, "HLG"로 지칭됨), SMPTE(미국 영화ㆍ텔레비전 기술자 협회)(Society of Motion Picture and Television Engineers) ST. 2084 표준의 HDR 표준인 지각 양자화기(Perceptual Quantizer)(이하, "PQ"로 지칭됨), 및 기타 등등의 비디오 신호의 사용이 연구 중에 있다. 이는 SDR/HDR 스위칭을 고려해야할 필요가 있게 만든다.
NPL 1: ARIB (Association of Radio Industries and Businesses) standard STD-B32 3.0 edition, 2014년 7월 31일, Association of Radio Industries and Businesses
모션 벡터 제한이 있는 경우, 화면 내의 대상 또는 전체 화면이 세로 방향으로 빠르게 움직이는 장면을 인코딩할 때, 슬라이스 경계에서 최적 모션 벡터가 선택되지 못할 수 있다. 이는 로컬 이미지 품질 저하를 초래할 수 있다. 빠른 움직임에 대해 M 값이 클수록, 저하의 정도가 높다. M 값은 레퍼런스 화상 간격(reference picture interval)이다. 여기서, "최적 모션 벡터"는 비디오 인코딩 디바이스에서 인터 예측(inter prediction)(인터-화면 예측(inter-screen prediction)) 프로세스를 수행하는 예측기에서 선택되는 주요(primary)(정상) 모션 벡터를 의미한다.
도 14는 M = 4인 경우 및 M = 8 인 경우의 각각에서 레퍼런스 화상 간격을 도시한다. 일반적으로, M 값이 작은 경우, 인터-프레임 거리는 짧기 때문에, 모션 벡터 값이 작아지는 경향이 있다. 그러나, 특히 움직임이 없는 장면에서, 시간 방향(temporal direction)에서의 층들(layers)의 수가 감소하는 경향이 있다. 결과적으로, 층들에 대한 코드 양 할당이 제약되기 때문에, 코딩 효율이 감소한다. 한편, M 값이 큰 경우, 인터-프레임 거리가 길기 때문에, 모션 벡터 값이 커지는 경향이 있다. 그러나, 특히 움직임이 없는 장면에서, 시간 방향에서의 층들의 수가 증가하는 경향이 있다. 결과적으로, 계층(hierarchy)(층)에 따른 코드 양 할당의 제약이 완화되고, 이는 코딩 효율에서의 증가를 초래한다. 예시로서, M 값이 8에서 4로 변경될 때, 모션 벡터 값은 반으로 감소된다. M 값이 4에서 8로 변경될 때, 모션 벡터 값은 두배가 된다.
NPL 1은 SOP(Set of Pictures)의 개념을 도입한다. SOP는 시간 스케일러블 인코딩(스케일러블 인코딩)을 수행하는 경우에 각각의 AU(Access Unit)의 인코딩 순서 및 레퍼런스 관계를 기술하는 단위이다. 시간 스케일러블 인코딩은 프레임이 복수의 프레임들의 비디오로부터 부분적으로 추출될 수 있게 하는 인코딩이다.
SOP 구조로서, L = 0의 구조, L = 1의 구조, L = 2의 구조, 및 L = 3의 구조가 있다. 도 15에 도시된 바와 같이, Lx (x = 0, 1, 2, 3)는 다음의 구조이다:
- L = 0의 구조: 시간 ID가 0인 화상 또는 화상들만으로 구성된 SOP 구조(즉, SOP 내에 포함된 화상의 행들(rows)의 수가 1이다. 다시 말하면, 최대 시간 ID를 나타내는 L이 0이다.)
- L = 1의 구조: 시간 ID가 0인 화상 또는 화상들, 및 시간 ID가 1인 화상 또는 화상들로 구성된 SOP 구조(즉, SOP 내에 포함된 화상의 행들의 수가 2이다. 다시 말하면, 최대 시간 ID를 나타내는 L이 1이다.)
- L = 2의 구조: 시간 ID가 0인 화상 또는 화상들, 시간 ID가 1인 화상 또는 화상들, 및 시간 ID가 2인 화상 또는 화상들로 구성된 SOP 구조(즉, SOP 내에 포함된 화상의 행들의 수가 3이다. 다시 말하면, 최대 시간 ID를 나타내는 L이 2이다.)
- L = 3의 구조: 시간 ID가 0인 화상 또는 화상들, 시간 ID가 1인 화상 또는 화상들, 시간 ID가 2인 화상 또는 화상들, 및 시간 ID가 3인 화상 또는 화상들로 구성된 SOP 구조(즉, SOP 내에 포함된 화상의 행들의 수가 4이다. 다시 말하면, 최대 시간 ID를 나타내는 L이 3이다.)
이 설명에서, M = 1은 L = 0의 SOP 구조에 대응하고, M = 2는 N = 1인 경우의 L = 1의 SOP 구조(도 15 참조)에 대응하고, M = 3은 N = 2인 경우의 L = 1의 SOP 구조(도 15 참조)에 대응하고, M = 4는 L = 2의 SOP 구조에 대응하고, M = 8은 L = 3의 SOP 구조에 대응한다.
움직임이 없는 장면(예를 들어, 화면 내의 대상 또는 전체 화면이 빠르게 움직이지 않는 장면)에 대해, 상기 언급한 바와 같이, 코딩 효율은 레퍼런스 화상 간격(M 값)이 클수록 높다. 따라서, 8K와 같은 고선명도 비디오를 낮은 비율로 인코딩하기 위해, 비디오 인코딩 디바이스는 기본적으로 M = 8로 바람직하게 동작한다.
그러나, 상기 언급한 바와 같이, M 값이 증가되면 모션 벡터 값이 증가하는 경향이 있다. 따라서, 특히 화면 내의 대상 또는 전체 화면이 세로 방향으로 빠르게 움직이는 장면에서, 모션 벡터 제한으로 인해 이미지 품질이 저하된다. 이는 모션 벡터 제한으로 인해 최적 모션 벡터가 슬라이스 경계에서 선택되지 못할 수 있기 때문이다.
본 발명은 비디오 화면을 분할한 후 압축을 수행하고 슬라이스 경계 부근에서의 모션 벡터 선택이 제약되는 인코딩 방법을 이용하는 경우에 이미지 품질 저하를 방지하는 것을 목적으로 한다. 또한, 전술한 바와 같이 4K 또는 8K에서 SDR/HDR 스위칭이 고려될 필요가 있기 때문에, 본 발명은 SDR/HDR 스위칭도 고려하면서 이미지 품질 저하를 방지하는 것을 목적으로 한다.
본 발명에 따른 비디오 인코딩 방법은 동적 범위 관련 비디오 신호 정보를 이용하여, 비트스트림을 생성하기 위해 복수의 스케일러블 인코딩 구조들로부터 스케일러블 인코딩 구조를 적절히 선택하기 위한 비디오 인코딩 방법이며, 비디오 인코딩 방법은 인코딩될 비디오 신호가 시간 방향에서 SDR(표준 동적 범위) 신호로부터 HDR(높은 동적 범위) 신호로 스위칭되거나, 또는 HDR 신호로부터 SDR 신호로 스위칭될 때, 동적 범위를 스위칭하기 위해 동적 범위 관련 비디오 신호 정보를 전송할 수 있는 스케일러블 인코딩 구조를 이용하는 단계를 포함한다.
본 발명에 따른 비디오 인코딩 디바이스는 동적 범위 관련 비디오 신호 정보를 이용하여, 비트스트림을 생성하기 위해 복수의 스케일러블 인코딩 구조들로부터 스케일러블 인코딩 구조를 적절히 선택하기 위한 비디오 인코딩 디바이스이며, 비디오 인코딩 디바이스는 인코딩될 비디오 신호가 시간 방향에서 SDR(표준 동적 범위) 신호로부터 HDR(높은 동적 범위) 신호로 스위칭되거나, 또는 HDR 신호로부터 SDR 신호로 스위칭될 때, 동적 범위를 스위칭하기 위해 동적 범위 관련 비디오 신호 정보를 전송할 수 있는 스케일러블 인코딩 구조를 선택하기 위한 인코딩 섹션을 포함한다.
본 발명에 따른 비디오 인코딩 프로그램은 동적 범위 관련 비디오 신호 정보를 이용하여 비트스트림을 생성하기 위해 복수의 스케일러블 인코딩 구조들로부터 스케일러블 인코딩 구조를 적절히 선택하기 위한 비디오 인코딩 디바이스 내의 컴퓨터로 하여금 인코딩될 비디오 신호가 시간 방향에서 SDR(표준 동적 범위)로부터 HDR(높은 동적 범위)로 스위칭되거나, 또는 HDR로부터 SDR로 스위칭될 때, 동적 범위를 스위칭하기 위해 동적 범위 관련 비디오 신호 정보를 전송할 수 있는 스케일러블 인코딩 구조를 이용하는 프로세스를 실행하게 하기 위한 비디오 인코딩 프로그램이다.
본 발명에 따른 비디오 디코딩 방법은 동적 범위 관련 비디오 신호 정보를 이용하여 복수의 스케일러블 인코딩 구조들로부터 스케일러블 인코딩 구조를 적절히 선택함으로써 생성되는 비트스트림을 디코딩함으로써 비디오를 획득하기 위한 비디오 디코딩 방법이며, 비디오 디코딩 방법은 인코딩될 비디오 신호가 시간 방향에서 SDR(표준 동적 범위)로부터 HDR(높은 동적 범위)로 스위칭되거나, 또는 HDR로부터 SDR로 스위칭될 때, 동적 범위를 스위칭하기 위한 동적 범위 관련 비디오 신호 정보를 전송할 수 있는 스케일러블 인코딩 구조를 사용하여 생성되는 비트스트림으로부터 비디오를 획득하는 단계를 포함한다.
본 발명에 따른 비디오 디코딩 디바이스는 동적 범위 관련 비디오 신호 정보를 이용하여 복수의 스케일러블 인코딩 구조들로부터 스케일러블 인코딩 구조를 적절히 선택함으로써 생성되는 비트스트림을 디코딩함으로써 비디오를 획득하기 위한 비디오 디코딩 디바이스이며, 비디오 디코딩 디바이스는 인코딩될 비디오 신호가 시간 방향에서 SDR(표준 동적 범위)로부터 HDR(높은 동적 범위)로 스위칭되거나, 또는 HDR로부터 SDR로 스위칭될 때, 동적 범위를 스위칭하기 위한 동적 범위 관련 비디오 신호 정보를 전송할 수 있는 스케일러블 인코딩 구조를 이용하여 생성되는 비트스트림으로부터 비디오를 획득하기 위한 디코딩 섹션을 포함한다.
본 발명에 따른 비디오 디코딩 프로그램은 동적 범위 관련 비디오 신호 정보를 이용하여 복수의 스케일러블 인코딩 구조들로부터 스케일러블 인코딩 구조를 적절히 선택함으로써 생성되는 비트스트림을 디코딩함으로써 비디오를 획득하기 위한 비디오 디코딩 디바이스 내의 컴퓨터로 하여금, 인코딩될 비디오 신호가 시간 방향에서 SDR(표준 동적 범위)로부터 HDR(높은 동적 범위)로 스위칭되거나, 또는 HDR로부터 SDR로 스위칭될 때, 동적 범위를 스위칭하기 위해 동적 범위 관련 비디오 신호 정보를 전송할 수 있는 스케일러블 인코딩 구조를 이용하여 생성되는 비트스트림으로부터 비디오를 획득하는 프로세스를 실행하게 하기 위한 비디오 디코딩 프로그램이다.
본 발명에 따른 비디오 시스템은: 상기 언급된 비디오 인코딩 디바이스; 오디오 신호를 인코딩하기 위한 오디오 인코딩 섹션; 및 비디오 인코딩 디바이스로부터의 비트스트림 및 오디오 인코딩 섹션으로부터의 비트스트림을 다중화하고, 결과로 나온 다중화된 비트스트림을 출력하기 위한 다중화 섹션을 포함하는 비디오 시스템이다.
본 발명에 따르면, SDR/HDR 스위칭에 응답하면서 이미지 품질 저하가 방지될 수 있다.
도 1은 비디오 인코딩 디바이스의 예시적인 실시예의 구조적인 예시를 도시하는 블록도이다.
도 2는 비디오 디코딩 디바이스의 예시적인 실시예의 구조적인 예시를 도시하는 블록도이다.
도 3은 비디오 인코딩 디바이스의 예시적인 실시예 1에서의 동작을 도시하는 흐름도이다.
도 4는 비디오 인코딩 디바이스의 예시적인 실시예 2에서의 동작을 도시하는 흐름도이다.
도 5는 비디오 인코딩 디바이스의 예시적인 실시예 3에서의 동작을 도시하는 흐름도이다.
도 6은 비디오 시스템의 예시를 도시하는 블록도이다.
도 7은 비디오 시스템의 또 다른 예시를 도시하는 블록도이다.
도 8은 비디오 인코딩 디바이스 및 비디오 디코딩 디바이스의 기능들을 실현할 수 있는 정보 처리 시스템의 구조적인 예시를 도시하는 블록도이다.
도 9는 비디오 인코딩 디바이스의 주요부들을 도시하는 블록도이다.
도 10은 비디오 디코딩 디바이스의 주요부들을 도시하는 블록도이다.
도 11은 화면 분할의 예시를 도시하는 설명도이다.
도 12는 모션 벡터 제한(motion vector restriction)을 도시하는 설명도이다.
도 13은 SOP 구조들을 도시하는 설명도이다.
도 14는 레퍼런스 화상 간격(reference picture interval)의 예시를 도시하는 설명도이다.
도 15는 SOP 구조들을 도시하는 설명도이다.
본 발명의 예시적인 실시예들이 도면들을 참조하여 아래에 기술된다.
도 1은 비디오 인코딩 디바이스의 예시적인 실시예의 구조적인 예시를 도시하는 블록도이다. 도 1에 도시된 비디오 인코딩 디바이스(100)는 인코딩 섹션(101), 분석 섹션(111), 판정 섹션(112), 및 M 값 결정 섹션(113)을 포함한다. 비디오 인코딩 디바이스(100)가 HEVC 표준에 기초하여 인코딩 프로세스를 수행하지만, 인코딩 프로세스는 H.264/AVC 표준과 같은 또 다른 표준에 기초하여 수행될 수 있다. 다음은 8K 비디오가 입력되는 예시를 기술한다.
인코딩 섹션(101)은 입력 이미지를 복수의 화면들로 분할하기 위한 화면 분할기(102), 주파수 변환기/양자화기(103), 역 양자화기/역 주파수 변환기(104), 버퍼(105), 예측기(106), 및 엔트로피 인코더(107)를 포함한다.
화면 분할기(102)는 입력 비디오 화면을 4개의 화면들로 분할한다(도 11 참조). 주파수 변환기/양자화기(103)는 입력 비디오 신호에서 예측 신호를 감산(subtract)으로써 획득된 예측 에러 이미지(prediction error image)를 주파수 변환한다. 또한, 주파수 변환기/양자화기(103)는 주파수 변환된 예측 에러 이미지(주파수 변환 계수)를 양자화한다. 양자화된 주파수 변환 계수는 이하에서 "변환 양자화 값(transform quantization value)"으로 지칭된다.
엔트로피 인코더(107)는 예측 파라미터들 및 변환 양자화 값을 엔트로피 인코딩(entropy-encode)하고, 비트스트림을 출력한다. 예측 파라미터들은 예측 모드(인트라 예측(intra prediction), 인터 예측(inter prediction)), 인트라 예측 블록 사이즈, 인트라 예측 방향, 인터 예측 블록 사이즈, 및 모션 벡터와 같은, CTU(코딩 트리 유닛)(Coding Tree Unit) 및 블록 예측과 관련된 정보이다.
예측기(106)는 입력 비디오 신호에 대한 예측 신호를 생성한다. 예측 신호는 인트라 예측 또는 인터프레임 예측에 기초하여 생성된다.
역 양자화기/역 주파수 변환기(104)는 변환 양자화 값을 역 양자화한다. 또한, 역 양자화기/역 변환기(104)는 역 양자화에 의해 획득된 주파수 변환 계수를 역 주파수 변환한다. 예측 신호가 역 주파수 변환에 의해 획득된 재구성된 예측 에러 이미지에 부가되고, 결과는 버퍼(105)로 공급된다. 버퍼(105)는 재구성된 이미지를 저장한다.
분석 섹션(111)은 인코딩 통계 정보를 분석한다. 판정 섹션(112)은 분석 섹션(111)에 의한 분석의 결과에 기초하여, 최적 모션 벡터(optimum motion vector)가 상기 언급된 모션 벡터 제한과 함께 슬라이스 경계 부근에서 선택가능한지 여부를 판정한다. 인코딩 통계 정보는 지난 프레임(past frame)(예를 들어, 인코딩될 현재 프레임 바로 앞의 프레임)의 인코딩 결과의 정보이다. 인코딩 통계 정보의 특정 예시가 나중에 기술될 것이다.
여기서, "슬라이스 경계 부근"은 최적 모션 벡터가 선택될 수 없는 영역이다. 예를 들어, 후술하는 제어를 실현할 때, "슬라이스 경계 부근"은 편의상 슬라이스 경계로부터 ±128 픽셀들의 범위 또는 슬라이스 경계로부터 ±256 픽셀들의 범위로 설정될 수 있다. 더욱이, 후술하는 제어를 실현할 때, "슬라이스 경계 부근"의 범위는 비디오의 상태(예를 들어, 큰/작은 움직임)에 따라 적절한 대로 변경될 수 있다. 예시로서, "슬라이스 경계 부근"의 범위는 값이 큰 모션 벡터들의 생성 비율이 높은 경우 넓게 설정될 수 있다.
M 값 결정 섹션(113)은 판정 섹션(112)에 의한 판정의 결과에 기초하여, 적응적으로 M 값을 결정한다. 앞서 언급한 바와 같이, M 값을 결정하는 것은 SOP 구조에서 Lx (x = 0, 1, 2, 3) 구조를 결정하는 것과 동일하다. 인코딩 통계 정보는 나중에 기술될 것이다.
도 2는 비디오 디코딩 디바이스의 예시적인 실시예의 구조적인 예시를 도시하는 블록도이다. 도 2에 도시된 비디오 디코딩 디바이스(200)는 엔트로피 디코더(202), 역 양자화기/역 주파수 변환기(203), 예측기(204), 및 버퍼(205)를 포함한다.
엔트로피 디코더(202)는 비디오의 비트스트림을 엔트로피 디코딩한다. 엔트로피 디코더(202)는 엔트로피 디코딩된 변환 양자화 값을 역 양자화기/역 주파수 변환기(203)에 공급한다.
역 양자화기/역 주파수 변환기(203)는 주파수 변환 계수를 획득하기 위해, 양자화 스텝 사이즈(quantization step size)로 휘도(luminance) 및 색 차이의 변환 양자화 값을 역 양자화한다. 또한, 역 양자화기/역 주파수 변환기(203)는 역 양자화에 의해 획득된 주파수 변환 계수를 역 주파수 변환한다.
역 주파수 변환 후에, 예측기(204)는 버퍼(205) 내에 저장되는 재구성된 화상의 이미지를 이용하여 예측 신호를 생성한다(예측은 "모션 보상 예측(motion compensation prediction)" 또는 "MC 레퍼런스"라고도 지칭된다). 예측기(204)로부터 공급되는 예측 신호는 역 양자화기/역 주파수 변환기(203)에 의한 역 주파수 변환에 의해 획득된 재구성된 예측 에러 이미지에 부가되고, 결과는 재구성된 화상으로서 버퍼(205)에 공급된다. 버퍼(205)에 저장되는 재구성된 화상은 이후 디코딩된 비디오로서 출력된다.
비디오 인코딩 디바이스(100) 내의 분석 섹션(111), 판정 섹션(112), 및 M 값 결정 섹션(113)의 동작들은 아래에 기술된다.
예시적인 실시예 1
도 3은 도 1에 도시된 비디오 인코딩 디바이스(100)의 예시적인 실시예 1에서의 동작을 도시하는 흐름도이다. 예시적인 실시예 1에서, 8K 비디오는 4개로 분할되고(도 11 참조), 슬라이스 경계 부근에 모션 벡터 제한이 있다고 가정한다. 모션 벡터 제한으로서, ±128이 예시로서 이용된다. 8K 비디오가 4개로 분할되고 모션 벡터 제한이 있는 경우는 또한 다른 예시적인 실시예들에 적용된다. M 값의 초기 값은 8이다(M = 8).
분석 섹션(111)은 버퍼(105)에 저장된 지난 인코딩 결과(예를 들어, 바로 앞의 프레임의 인코딩 결과)를 분석한다. 구체적으로, 분석 섹션(111)은 슬라이스 경계 외의 블록들 내의 모션 벡터들의 평균값 또는 중앙값을 계산한다(이하, 평균값 또는 중앙값은 Mavg로 표시된다)(단계 S101). 예시적인 실시예 1에서, 인코딩 통계 정보는 모션 벡터 값들이고, 분석 결과는 모션 벡터들의 평균값 또는 중앙값이다.
판정 섹션(112)은 모션 벡터 제한으로서의 ±128과 비교하여 Mavg가 얼마나 큰지를 판정한다(단계 S102).
M 값 결정 섹션(113)은 Mavg의 크기의 판정의 결과에 기초하여, M 값을 결정한다(단계 S103).
예를 들어, M 값 결정 섹션(113)은 이하의 방식으로 판정 결과에 기초하여 M 값을 결정한다.
Figure pct00001
Figure pct00002
앞선 경우들 (1) 및 (2)에서와 같이, M 값이 임의의 다른 값인 경우에도, M 값을 8로 설정할 때, 모션 벡터 제한 하에서 슬라이스 경계 부근의 모션 벡터 값이 ±128 내에 있다고 추정될 수 있으면, M 값 결정 섹션(113)은 M 값을 8로 복귀시킨다. 다시 말해서, 모션 벡터 제한 하에서 슬라이스 경계 부근에서 최적 모션 벡터가 선택될 수 있다고 추정될 수 있는 경우에, M 값 결정 섹션(113)은 M 값을 8로 복귀시킨다. 다른 경우들에서도, M 값 결정 섹션(113)은 슬라이스 경계 부근의 모션 벡터 값이 Mavg에 따라 ±128 내에 있도록 M 값을 결정한다.
상기 언급된 경우 분석(case analysis)(임계값 설정)은 예시이고, 임계값들은 변경될 수 있으며 보다 세밀한 경우들이 설정될 수 있다.
예시적인 실시예 1에서의 비디오 인코딩 디바이스의 제어는 다음의 개념에 기초한다.
비디오가 전체 화면이 빠르게 움직이는 장면의 비디오인 경우, 슬라이스 경계 부근의 영역 및 슬라이스 경계 부근 외의 영역 모두에서, 생성된 모든 모션 벡터들에 대해 값이 큰 모션 벡터들의 수의 비율이 높다. 그러나, 모션 벡터 제한 때문에, 슬라이스 경계 부근에서 최적 모션 벡터가 선택되지 않을 가능성이 있다. 따라서, 판정 섹션(112)은 슬라이스 경계 외의 영역에서 생성된 인코딩 통계 정보로서 모션 벡터들(모션 벡터 제한이 없기 때문에 정상, 즉 최적 모션 벡터들)에 기초하여, 인코딩될 화면이 빠르게 움직이는 장면의 비디오 화면인지 여부를 추정한다. 판정 섹션(112)이 비디오가 빠르게 움직이는 장면의 비디오라고 추정하는 경우, M 값 결정 섹션(113)은 슬라이스 경계 부근에서 최적 모션 벡터가 선택될 수 있도록 M 값을 변경한다.
비디오가 빠르게 움직이는 장면의 비디오인 경우, 슬라이스 경계 부근에서 최적 모션 벡터가 선택되지 않을 가능성이 있다. 따라서, 비디오가 빠르게 움직이는 장면의 비디오인 것으로 추정하는 것은 모션 벡터 제한 하에서 슬라이스 경계 부근에서 최적 모션 벡터가 선택되지 않는 것으로 추정하는 것과 동일하다.
앞서 언급된 바와 같이, M 값 및 SOP 구조는 상호 관련이 있다. 따라서, M 값 결정 섹션(113)에 의해 M 값을 결정하는 것은 SOP 구조(즉, Lx(x = 0, 1, 2, 3) 구조)를 결정하는 것과 동일하다.
예시적인 실시예 2
도 4는 도 1에 도시된 비디오 인코딩 디바이스(100)의 예시적인 실시예 2에서의 동작을 도시하는 흐름도이다.
분석 섹션(111)은 버퍼(105)에 저장된 지난 인코딩 결과(예를 들어, 바로 앞의 프레임의 인코딩 결과)를 분석한다. 구체적으로, 분석 섹션(111)은 슬라이스 경계 이외의 범위 내의 모든 블록들(예를 들어, 예측 유닛들(PU))에 대한 인트라 예측(인트라 화면 예측)이 사용되는 블록들의 백분율 P1을 계산한다(단계 S201). 분석 섹션(111)은 또한 슬라이스 경계 부근의 모든 블록들에 대한 인트라 예측이 사용되는 블록들의 백분율 P2를 계산한다(단계 S202). 예시적인 실시예 2에서, 인코딩 통계 정보는 슬라이스 경계 부근의 블록들의 예측 모드들(구체적으로, 인트라 예측 블록들의 수)이고, 분석 결과는 백분율 P1 및 백분율 P2이다.
판정 섹션(112)은 백분율 P1과 백분율 P2를 비교하고, 그것들의 차이의 정도를 판정한다. 구체적으로, 판정 섹션(112)은 백분율 P2가 백분율 P1과 비교할 때 상당히 높은지 여부를 판정한다. 예를 들어, 판정 섹션(112)은 백분율 P2와 백분율 P1 간의 차이가 미리 결정된 값보다 큰지 여부를 판정한다(단계 S203).
백분율 P2와 백분율 P1 간의 차이가 미리 결정된 값보다 큰 경우, M 값 결정 섹션(113)은 M 값을 감소시킨다(단계 S204). 여기서, 복수의 미리 결정된 값들이 제공될 수 있다. 예를 들어, 이 경우에, 차이가 제1 미리 결정된 값보다 크다면, M 값은 복수의 레벨들만큼 감소될 수 있고, 차이가 제2 미리 결정된 값(<제1 미리 결정된 값)보다 크다면, M 값은 하나의 레벨만큼 감소될 수 있다.
백분율 P2와 백분율 P1 간의 차이가 미리 결정된 값보다 크지 않은 경우, M 값 결정 섹션(113)은 M 값을 유지하거나 증가시킨다(단계 S205). 예를 들어, 차이가 제3 미리 결정된 값(<제2 미리 결정된 값)보다 크지 않다면, M 값 결정 섹션(113)은 M 값을 증가시키고, 차이가 제3 미리 결정된 값보다 크다면, M 값을 유지시킨다.
예시적인 실시예 2에서의 비디오 인코딩 디바이스의 제어는 다음 개념에 기초한다.
화면 내의 각각의 블록을 인코딩할 때, 인코딩 섹션(101)은 예측 모드로서, 인트라 예측 및 인터 예측 중 임의의 것을 이용할 수 있다. 비디오가 전체 화면이 빠르게 움직이는 장면의 비디오일 때, 값이 큰 모션 벡터들의 수에서의 생성 비율은 인터 예측이 사용될 때(모션 벡터 제한이 없는 경우) 슬라이스 경계 부근에서도 높은 것으로 간주된다. 그러나, 모션 벡터 제한이 있기 때문에, 슬라이스 경계 부근에서 최적 모션 벡터(큰 모션 벡터)가 생성될 수 없으며, 그 결과 슬라이스 경계 부근에서는 인트라 예측이 빈번하게 사용된다. 반면에, 슬라이스 경계 부근 이외에서는, 모션 벡터 제한이 없기 때문에, 슬라이스 경계 부근에서와 비교할 때 인트라 예측이 빈번하게 사용되지 않는다.
따라서, 백분율 P1과 백분율 P2 간의 차이가 상당한 경우, 빠르게 움직이는 장면의 비디오 신호가 인코딩 섹션(101)에 입력되는 것으로 추정된다.
비디오가 빠르게 움직이는 장면의 비디오인 경우, 최적 모션 벡터가 슬라이스 경계 부근에서 선택되지 않을 가능성이 있다. 따라서, 비디오가 빠르게 움직이는 장면의 비디오라고 추정하는 것은 모션 벡터 제한 하에서 백분율 P1과 백분율 P2 간의 차이가 상당하다는 것과 동일하다.
예를 들어, 차이가 상당한지 여부를 판정하기 위한 미리 결정된 값으로서, 슬라이스 경계 부근에서 최적 모션 벡터가 선택되지 않을 가능성이 있는 것으로 추정하는 것을 가능하게 하는 그러한 값은, 임계값으로서 사용된다면, 경험적으로 또는 실험적으로 선택된다.
예시적인 실시예 3
도 5는 도 1에 도시된 비디오 인코딩 디바이스(100)의 예시적인 실시예 3에서의 동작을 도시하는 흐름도이다.
분석 섹션(111)은 버퍼(105)에 저장된 지난 인코딩 결과(예를 들어, 바로 앞의 프레임의 인코딩 결과)를 분석한다. 구체적으로, 분석 섹션(111)은 앞의 프레임(예를 들어, 인코딩될 현재 프레임보다 두 프레임 앞의 프레임)의 슬라이스 경계 부근의 블록들 내의 생성된 코드 양 C1을 계산한다(단계 S301). 분석 섹션(111)은 또한 바로 앞의 프레임의 슬라이스 경계 부근의 블록들 내에서 생성된 코드 양 C2를 계산한다(단계 S302). 예시적인 실시예 3에서, 인코딩 통계 정보는 슬라이스 경계 부근의 블록들 내에서 생성된 코드 양이고, 분석 결과는 생성된 코드 양 C1 및 생성된 코드 양 C2이다.
판정 섹션(112)은 생성된 코드 양 C1과 생성된 코드 양 C2를 비교하고, 그것들의 차이의 정도를 판정한다. 구체적으로, 판정 섹션(112)은 생성된 코드 양 C2가 생성된 코드 양 C1과 비교할 때 상당히 큰지 여부를 판정한다. 예를 들어, 판정 섹션(112)은 생성된 코드 양 C2와 생성된 코드 양 C1 간의 차이가 미리 결정된 양보다 큰지 여부를 판정한다(단계 S303).
M 값 결정 섹션(113)은 생성된 코드 양 C2와 생성된 코드 양 C1 간의 차이가 미리 결정된 양보다 큰 경우, M 값을 감소시킨다(단계 S304). 여기서, 복수의 미리 결정된 양들이 제공될 수 있다. 예를 들어, 이 경우에, M 값은 차이가 제1 미리 결정된 양보다 큰 경우에는 복수의 레벨들만큼 감소될 수 있고, 차이가 제2 미리 결정된 양(<제1 미리 결정된 양)보다 큰 경우에는 하나의 레벨만큼 감소될 수 있다.
생성된 코드 양 C2와 생성된 코드 양 C1 간의 차이가 미리 결정된 양보다 크지 않은 경우, M 값 결정 섹션(113)은 M 값을 유지시키거나 증가시킨다(단계 S305). 예를 들어, M 값 결정 섹션(113)은 차이가 제3 미리 결정된 양(<제2 미리 결정된 양)보다 크지 않은 경우에는 M 값을 증가시키고, 차이가 제3 미리 결정된 양보다 큰 경우에는 M 값을 유지시킨다.
예시적인 실시예 3에서의 비디오 인코딩 디바이스의 제어는 다음 개념에 기초한다.
앞서 언급된 바와 같이, 비디오가 전체 화면이 빠르게 움직이는 장면의 비디오일 때, 값이 큰 모션 벡터들의 수에서의 비율은 인터 예측이 사용될 때(모션 벡터 제한이 없는 경우) 슬라이스 경계 부근에서도 높은 것으로 간주된다. 그러나, 모션 벡터 제한이 있기 때문에, 슬라이스 경계 부근에서는 최적 모션 벡터(큰 모션 벡터)가 생성될 수 없고, 그 결과 슬라이스 경계 부근에서 인트라 예측이 빈번하게 사용된다. 일반적으로, 인터 예측이 사용될 때와 비교할 때, 인트라 예측이 사용될 때 큰 코드 양이 생성된다.
따라서, 생성된 코드 양 C2가 생성된 코드 양 C1과 비교하여 상당히 큰 경우, 상황이 빠르게 움직이는 장면의 비디오 신호가 인코딩 섹션(101)에 입력되는 그러한 상황으로 바뀐 것으로 추정된다.
비디오가 빠르게 움직이는 장면의 비디오가 된 경우, 슬라이스 경계 부근에서 최적 모션 벡터가 선택되지 않을 가능성이 있다. 따라서, 비디오가 빠르게 움직이는 장면의 비디오가 된 것으로 추정하는 것은 생성된 코드 양 C2가 모션 벡터 제한 하에서 상당히 증가했다는 것과 동일하다.
예를 들어, 생성된 코드 양이 상당히 증가했는지 여부를 판정하기 위한 미리 결정된 양으로서, 슬라이스 경계 부근에서 최적 모션 벡터가 선택되지 않을 가능성이 있다고 추정하는 것을 가능하게 하는 그러한 양은, 임계값으로서 사용되는 경우, 경험적으로 또는 실험적으로 선택된다.
상기 기술한 바와 같이, 전술한 예시적인 실시예들의 각각에서, M 값은 지난 인코딩 결과(인코딩 통계 정보)에 기초하여 적응적으로 변경된다. 모션 벡터 제한 하에서 슬라이스 경계 부근에서 최적 모션 벡터(즉, 모션 벡터 제한 내에 있지 않은 모션 벡터)가 선택가능한지 여부가 인코딩 통계 정보에 기초하여 추정된다. 최적 모션 벡터가 선택가능하지 않은 것으로 추정되는 경우, M 값은 더 작은 값으로 변경된다. 최적 모션 벡터가 선택가능한 것으로 추정되는 경우, 현재 M 값으로도 모션 벡터 제한 하에서 슬라이스 경계 부근에서 최적 모션 벡터가 선택가능하다는 이유로, M 값은 유지되거나 더 큰 값으로 변경된다.
따라서, 모션 벡터 제한으로 인해 슬라이스 경계 부근에서 최적 모션 벡터가 선택가능하지 않은 그러한 상태는 최대한 피할 수 있다. 이는 로컬 이미지 품질 저하의 가능성을 감소시킨다. M 값이 움직임의 속도에 따라 적응적으로 변경되기 때문에, 양호한 이미지 품질이 달성될 수 있다.
더욱이, M 값이 인코딩 결과(예를 들어, 바로 앞의 프레임의 인코딩 결과)에 기초하여 변경되기 때문에, 사전 분석(pre-analysis)(현재 프레임을 인코딩할 때 사전처리로서 수행되는 분석)의 필요가 없다. 이는 사전 분석이 수행된 경우와 비교할 때, 인코딩에 대한 처리 시간의 증가를 방지한다.
비디오 인코딩 디바이스(100)에서, 분석 섹션(111), 판정 섹션(112), 및 M 값 결정 섹션(113)은 예시적인 실시예들 1 내지 3 중 임의의 둘 또는 모두를 포함하도록 구성될 수 있다.
비디오 인코딩 디바이스(100)에서, M 값 결정 섹션(113)은 또한 외부로부터 설정되는 SDR/HDR 스위칭 정보를 이용하여 인코딩 구조를 결정할 수 있고, 엔트로피 인코더(107)는 SDR/HDR 스위칭 정보를 비디오 디코딩 디바이스에 전송할 수 있다.
구체적으로, M 값 결정 섹션(113)은 인코딩 시퀀스(encoding sequence)(CVS)가 외부로부터 설정된 SDR/HDR 스위칭의 위치(시간 위치)에서 종료되도록 M 값을 제어한다.
간단하게 하기 위해, fNumSwitch를 현재 시간 위치에서의 프레임으로부터 스위칭 시간 위치에서의 프레임까지의 프레임들의 수라고 하고, M을 임시로 결정된 M값으로 한다.
fNumSwitch가 1보다 크거나 같고 M이 fNumSwitch보다 클 때, M 값 결정 섹션(113)은 M을 fNumSwitch보다 크지 않은 값으로 업데이트한다.
다른 경우들에서 fNumSwitch가 0일 때, M 값 결정 섹션은 CVS가 이전에 인코딩된 프레임에서 종료되도록 M을 1로 설정한다. 다시 말해서, 비디오 인코딩 디바이스는 현재 프레임을 IDR 화상으로서 압축한다. 또한, 비디오 디코딩 디바이스에 SDR/HDR 스위칭 정보를 전송하기 위해, 엔트로피 인코더(107)는 스위칭된 SDR 또는 HDR의 정보를 IDR 화상의 SPS의 VUI의 transfer_characteristics 신택스(syntax)에 설정한다. 예를 들어, HLG의 HDR로 스위칭하는 경우, transfer_characteristics 신택스에 18이 설정된다. PQ의 HDR로 스위칭하는 경우, transfer_characteristics 신택스에 16이 설정된다. Rec. ITU-R BT.2020의 SDR로 스위칭하는 경우, transfer_characteristics 신택스에 14가 설정된다. IEC 61966-2-4의 SDR로 스위칭하는 경우, transfer_characteristics 신택스에 11이 설정된다. Rec. ITU-R BT.709의 SDR로 스위칭하는 경우, transfer_characteristics 신택스에 1이 설정된다. 여기서, 엔트로피 인코더(107)는 IDR 화상의 비트스트림 전에 EOS 비트스트림을 출력할 수 있다.
다른 경우들에서, M 값 결정 섹션(113)은 M을 그대로 출력한다.
상기 언급한 SDR 또는 HDR에 대응하는 transfer_characteristics 신택스의 값과 속성 사이의 관계가 다음 표에 도시된다.
Figure pct00003
도 2에 도시된 비디오 디코딩 디바이스는 예시적인 실시예 1 내지 3에 기술된 바와 같이 모션 벡터 제한을 만족하는 범위 내에 설정된 M 값을 이용하여 인코딩된 비트스트림을 디코딩한다.
도 2에 도시된 비디오 디코딩 디바이스는 또한 비트스트림을 디코딩함으로써, 비디오 인코딩 디바이스로부터 전송된 SDR/HDR 스위칭 정보를 수신할 수 있다.
구체적으로, 비디오 디코딩 디바이스 내의 엔트로피 디코더(202)는 SPS의 VUI의 transfer_characteristics 신택스의 값을 디코딩함으로써, SDR/HDR 스위칭 정보를 수신할 수 있다. 예를 들어, transfer_characteristics 신택스가 18인 경우, 엔트로피 디코더(202)는 HLG의 HDR로의 스위칭을 수신한다. transfer_characteristics 신택스가 16인 경우, 엔트로피 디코더(202)는 PQ의 HDR로의 스위칭을 수신한다. transfer_characteristics 신택스가 14인 경우, 엔트로피 디코더(202)는 Rec. ITU-R BT.2020의 SDR로의 스위칭을 수신한다. transfer_characteristics 신택스가 11인 경우, 엔트로피 디코더(202)는 IEC 61966-2-4의 SDR로의 스위칭을 수신한다. transfer_characteristics 신택스가 1인 경우, 엔트로피 디코더(202)는 Rec. ITU-R BT.709로의 스위칭을 수신한다. 여기서, SDR/HDR 스위칭은 단지 M = 1로 인코딩되는 IDR 화상의 SPS를 디코딩함으로써 수신(검출)된다. EOS 비트스트림은 IDR 비트스트림 전에 수신(검출)될 수 있다.
전술한 비디오 디코딩 디바이스를 이용하는 수신 단말(reception terminal)은 SDR/HDR 스위칭 정보를 획득할 수 있고, 비디오 신호의 속성에 따라 비디오 디스플레이를 조정할 수 있다. 따라서, SDR/HDR 스위칭 디스플레이를 지원하면서 이미지 품질 저하 없는 비디오 디스플레이가 실현될 수 있다.
도 6은 비디오 시스템의 예시를 도시하는 블록도이다. 도 6에 도시된 비디오 시스템은 전술한 예시적인 실시예들의 각각에서의 비디오 인코딩 디바이스(100), 및 도 2에 도시된 비디오 디코딩 디바이스(200)가 무선 전송 경로 또는 유선 전송 경로(300)에 의해 연결되는 시스템이다. 비디오 인코딩 디바이스(100)는 전술한 예시적인 실시예들 1 내지 3 중 임의의 하나에서의 비디오 인코딩 디바이스(100)이다. 비디오 인코딩 디바이스(100)에서, 분석 섹션(111), 판정 섹션(112), 및 M 값 결정 섹션(113)은 예시적인 실시예들 1 내지 3 중 임의의 둘 또는 전부에 따른 프로세스들을 수행하도록 구성될 수 있다.
상기 언급된 예시에서, 비디오 디코딩 측에 SDR/HDR 스위칭 정보를 전송하기 위한 전송 수단은 엔트로피 인코더(107)에 의해 실현되고, 비디오 인코딩 측으로부터 전송된 인코딩된 비디오 및 SDR/HDR 스위칭 정보를 디코딩하기 위한 디코딩 수단은 엔트로피 디코더(202)에 의해 실현된다. 그러나, 엔트로피 인코딩을 수행하기 위한 엔트로피 인코더가 엔트로피 인코더에 의해 생성된 인코딩된 데이터, 및 SDR/HDR 스위칭 정보를 다중화하기 위한 멀티플렉서(multiplexer)에서 분리되고, 엔트로피 디코딩을 수행하기 위한 엔트로피 디코더는 다중화된 비트스트림으로부터의 SDR/HDR 스위칭 정보 및 비디오를 역 다중화하기 위한 역-멀티플렉서에서 분리되는 경우, 비디오 시스템은 멀티플렉서를 포함하지 않은 부분들로 구성된 비디오 인코딩 디바이스, 및 역-멀티플렉서를 포함하지 않은 부분들로 구성된 비디오 디코딩 디바이스를 포함하는 시스템일 수 있다.
도 7은 비디오 시스템의 또 다른 예시를 도시하는 블록도이다. 도 7에 도시된 비디오 시스템은 오디오 인코딩 섹션(401), 비디오 인코딩 섹션(402), 및 다중화 섹션(403)을 포함한다.
오디오 인코딩 섹션(401)은 오디오 비트스트림을 생성 및 출력하기 위해, 예를 들어, ARIB STD-B32 표준에 정의된 MPEG-4 AAC(고급 오디오 코딩)(Advanced Audio Coding) 표준 또는 MPEG-4 ALS(오디오 무손실 코딩)(Audio Lossless Coding) 표준에 기초하여, 비디오 및 오디오를 포함하는 데이터(콘텐츠)의 가운데서 오디오 신호를 인코딩한다.
비디오 인코딩 섹션(402)은 비디오 비트스트림을 생성 및 출력하기 위해 예시로서 도 1에 도시된 바와 같이 구성된다.
다중화 섹션(403)은 비트스트림을 생성 및 출력하기 위해, 예를 들어, ARIB STD-B32 표준에 기초하여, 오디오 비트스트림, 비디오 비트스트림, 및 다른 정보를 다중화한다.
전술한 예시적인 실시예들의 각각은 하드웨어에 의해 실현되거나, 컴퓨터 프로그램에 의해 실현될 수 있다.
도 8에 도시된 정보 처리 시스템은 프로세서(1001), 프로그램 메모리(1002), 비디오 데이터를 저장하기 위한 저장 매체(1003), 및 비트스트림을 저장하기 위한 저장 매체(1004)를 포함한다. 저장 매체(1003) 및 저장 매체(1004)는 별개의 저장 매체들, 또는 동일한 저장 매체 내에 포함되는 저장 구역들일 수 있다. 하드 디스크와 같은 자기 저장 매체가 저장 매체로서 사용될 수 있다.
도 8에 도시된 정보 처리 시스템에서, 도 1 또는 도 2에 도시된 블록들(버퍼 블록 제외)의 기능들을 실현하기 위한 프로그램(비디오 인코딩 프로그램 또는 비디오 디코딩 프로그램)이 프로그램 메모리(1002) 내에 저장된다. 프로세서(1001)는 프로그램 메모리(1002) 내에 저장된 프로그램에 따른 프로세스들을 실행함으로써, 도 1에 도시된 비디오 인코딩 디바이스 또는 도 2에 도시된 비디오 디코딩 디바이스의 기능들을 실현한다.
도 9는 비디오 인코딩 디바이스의 주요부들을 도시하는 블록도이다. 도 9에 도시된 바와 같이, 비디오 인코딩 디바이스(10)는: 인코딩 통계 정보를 분석하기 위한 분석 섹션(11)(예시적인 실시예들에서의 분석 섹션(111)에 대응); 분석 섹션(11)의 분석 결과에 기초하여, 슬라이스 경계 부근에서 최적 모션 벡터가 선택가능한지 여부를 추정하기 위한 추정 섹션(12)(예시적인 실시예들에서의 판정 섹션(112)에 의해 실현됨); 추정 섹션(12)의 추정 결과 및 SDR/HDR 스위칭 정보에 기초하여, 시간 ID(Temporal ID)가 0인 화상 또는 화상들만으로 구성된 SOP 구조, 시간 ID가 0인 화상 또는 화상들, 및 시간 ID가 1인 화상 또는 화상들로 구성된 SOP 구조, 시간 ID가 0인 화상 또는 화상들, 시간 ID가 1인 화상 또는 화상들, 및 시간 ID가 2인 화상 또는 화상들로 구성된 SOP 구조, 및 시간 ID가 0인 화상 또는 화상들, 시간 ID가 1인 화상 또는 화상들, 시간 ID가 2인 화상 또는 화상들, 및 시간 ID가 3인 화상 또는 화상들로 구성된 SOP 구조 중 임의의 하나로서 인코딩 구조를 적응적으로 결정하기 위한 인코딩 구조 결정 섹션(13)(예시적인 실시예들에서의 M 값 결정 섹션(113)에 의해 실현됨); 및 비디오 디코딩 측에 SDR/HDR 스위칭 정보를 전송하기 위한 전송 섹션(14)(예시적인 실시예들에서의 엔트로피 인코더(107)에 의해 실현됨)을 포함한다.
도 10은 비디오 디코딩 디바이스의 주요부들을 도시하는 블록도이다. 도 10에 도시된 바와 같이, 비디오 디코딩 디바이스(20)는 비디오 인코딩 측으로부터 전송된 시간 ID가 0인 화상만으로 구성된 SOP 구조, 시간 ID가 0인 화상, 및 시간 ID가 1인 화상으로 구성된 SOP 구조, 시간 ID가 0인 화상, 시간 ID가 1인 화상, 및 시간 ID가 2인 화상으로 구성된 SOP 구조, 및 시간 ID가 0인 화상, 시간 ID가 1인 화상, 시간 ID가 2인 화상, 및 시간 ID가 3인 화상으로 구성된 SOP 구조 중 임의의 하나, 및 SDR/HDR 스위칭 정보로 인코딩된 비디오를 디코딩하기 위한 디코딩 섹션(21)(예시적인 실시예들에서의 엔트로피 디코더(202)에 의해 실현됨)을 포함한다.
디코딩 섹션(21)은 설정 인코딩 구조로서, 시간 ID가 0인 화상만으로 구성된 SOP 구조, 시간 ID가 0인 화상, 및 시간 ID가 1인 화상으로 구성된 SOP 구조, 시간 ID가 0인 화상, 시간 ID가 1인 화상, 및 시간 ID가 2인 화상으로 구성된 SOP 구조, 및 시간 ID가 0인 화상, 시간 ID가 1인 화상, 시간 ID가 2인 화상, 및 시간 ID가 3인 화상으로 구성된 SOP 구조 중 임의의 하나에 기초하여 인코딩된 비트스트림을 디코딩할 수 있다.
또한, 도 11에 도시된 바와 같이 화면이 4개의 슬라이스들로 분할되고, 도 12에 도시된 바와 같이 하나의 슬라이스 모션 보상(motion compensation)(MC)의 PU는 또 다른 슬라이스를 참조하는 경우, 디코딩 섹션(21)은 슬라이스 경계를 가로지르는 동일한 PU에 의한 MC 레퍼런스가 슬라이스 경계로부터 128라인 내의 픽셀만을 참조한다는 제한 하에서 인코딩된 비트스트림을 디코딩할 수 있다.
예시적인 실시예들에서, 120P 움직이는 이미지를 취급하는 경우에, 도 13에 도시된 바와 같은 다음의 SOP 구조들이 비디오 인코딩 및 디코딩 측들 상에서 사용될 수 있다.
- L = 0의 구조: 시간 ID가 0인 화상 또는 화상들만으로 구성된 SOP 구조(즉, 동일한 SOP 내에 포함된 화상의 행들의 수가 1이다. 다시 말하면, 최대 시간 ID를 나타내는 L이 0이다.)
- L = 1의 구조: 시간 ID가 0인 화상 또는 화상들, 및 시간 ID가 1(또는 M)인 화상 또는 화상들로 구성된 SOP 구조(즉, 동일한 SOP 내에 포함된 화상의 행들의 수가 2이다. 다시 말하면, 최대 시간 ID를 나타내는 L이 1(또는 M)이다.)
- L = 2의 구조: 시간 ID가 0인 화상 또는 화상들, 시간 ID가 1인 화상 또는 화상들, 및 시간 ID가 2(또는 M)인 화상 또는 화상들로 구성된 SOP 구조(즉, 동일한 SOP 내에 포함된 화상의 행들의 수가 3이다. 다시 말하면, 최대 시간 ID를 나타내는 L이 2(또는 M)이다.)
- L = 3의 구조: 시간 ID가 0인 화상 또는 화상들, 시간 ID가 1인 화상 또는 화상들, 시간 ID가 2인 화상 또는 화상들, 및 시간 ID가 3(또는 M)인 화상 또는 화상들로 구성된 SOP 구조(즉, 동일한 SOP 내에 포함된 화상의 행들의 수가 4이다. 다시 말하면, 최대 시간 ID를 나타내는 L이 3(또는 M)이다.)
- L = 4의 구조: 시간 ID가 0인 화상 또는 화상들, 시간 ID가 1인 화상 또는 화상들, 시간 ID가 2인 화상 또는 화상들, 시간 ID가 3인 화상 또는 화상들, 및 시간 ID가 4(또는 M)인 화상 또는 화상들로 구성된 SOP 구조(즉, 동일한 SOP 내에 포함된 화상의 행들의 수가 5이다. 다시 말하면, 최대 시간 ID를 나타내는 L이 5(또는 M)이다.)
본 발명이 예시적인 실시예들 및 예시들을 참조하여 기술되었지만, 본 발명은 전술한 예시적인 실시예들 및 예시들에 한정되지 않는다. 본 발명의 범주 내에서 본 기술분야의 통상의 기술자에 의해 이해할 수 있는 다양한 변경들이 본 발명의 구조들 및 상세들에 대해 이루어질 수 있다.
본 출원은 그 개시내용 전체가 본 명세서에 포함되는 2015년 12월 2일에 출원된 일본 특허 출원 제2015-235525호에 기초하여 우선권을 주장한다.
10 비디오 인코딩 디바이스
11 분석 섹션
12 추정 섹션
13 인코딩 구조 결정 섹션
14 전송 섹션
20 비디오 디코딩 디바이스
21 디코딩 섹션
100 비디오 인코딩 디바이스
101 인코딩 섹션
102 화면 분할기
103 주파수 변환기/양자화기
104 역 양자화기/역 주파수 변환기
105 버퍼
106 예측기
107 엔트로피 인코더
111 분석 섹션
112 판정 섹션
113 M 값 결정 섹션
200 비디오 디코딩 디바이스
202 엔트로피 디코더
203 역 양자화기/역 주파수 변환기
204 예측기
205 버퍼
401 오디오 인코딩 섹션
402 비디오 인코딩 섹션
403 다중화 섹션
1001 프로세서
1002 프로그램 메모리
1003, 1004 저장 매체

Claims (22)

  1. 동적 범위 관련 비디오 신호 정보(dynamic range-related video signal information)를 이용하여, 비트스트림을 생성하기 위해 복수의 스케일러블 인코딩 구조들(scalable encoding structures)로부터 스케일러블 인코딩 구조를 적절히 선택하기 위한 비디오 인코딩 방법으로서,
    인코딩될 비디오 신호가 시간 방향(temporal direction)에서 SDR(표준 동적 범위)(standard dynamic range) 신호로부터 HDR(높은 동적 범위)(high dynamic range) 신호로 스위칭되거나, 또는 HDR 신호로부터 SDR 신호로 스위칭될 때, 동적 범위를 스위칭하기 위해 상기 동적 범위 관련 비디오 신호 정보를 전송할 수 있는 상기 스케일러블 인코딩 구조를 이용하는 단계
    를 포함하는, 비디오 인코딩 방법.
  2. 제1항에 있어서, 상기 복수의 스케일러블 인코딩 구조들은 시간 ID(Temporal ID)가 0인 화상 또는 화상들만으로 구성된 스케일러블 인코딩 구조, 시간 ID가 0인 화상 또는 화상들, 또는 시간 ID가 1인 화상 또는 화상들로 구성된 스케일러블 인코딩 구조, 시간 ID가 0인 화상 또는 화상들, 시간 ID가 1인 화상 또는 화상들, 또는 시간 ID가 2인 화상 또는 화상들로 구성된 스케일러블 인코딩 구조, 및 시간 ID가 0인 화상 또는 화상들, 시간 ID가 1인 화상 또는 화상들, 시간 ID가 2인 화상 또는 화상들, 또는 시간 ID가 3인 화상 또는 화상들로 구성된 스케일러블 인코딩 구조를 포함하는, 비디오 인코딩 방법.
  3. 제1항 또는 제2항에 있어서, 상기 스위칭 후 설정되는 제1 화상의 스케일러블 인코딩 구조는 시간 ID가 0인 화상만으로 구성된 스케일러블 인코딩 구조로 설정되는, 비디오 인코딩 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 스위칭 후 설정되는 제1 화상 내에 포함되는 제1 화상은 IDR 화상으로서 인코딩되고,
    상기 동적 범위 관련 비디오 신호 정보는 상기 IDR 화상의 SPS의 VUI의 transfer_characteristics 신택스(syntax) 내에 설정되는, 비디오 인코딩 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, EOS 비트스트림은 상기 스위칭 후 설정되는 제1 화상 내의 제1 화상의 비트스트림 전에 출력되는, 비디오 인코딩 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, 상기 동적 범위 관련 비디오 신호 정보가 HDR로부터 SDR로 스위칭되는 경우, 적어도 이하의 속성:
    Figure pct00004

    이 이용되고,
    상기 동적 범위 관련 비디오 신호 정보가 SDR로부터 HDR로 스위칭되는 경우, 이하의 속성:
    Figure pct00005

    이 이용되거나 - 여기서, 피크 화이트(peak white)에 대해 1과 동일한 Lc는 일반적으로 제곱 미터당 10,000칸델라의 디스플레이 휘도 레벨에 대응하도록 의도됨 -,
    또는 이하의 속성:
    Figure pct00006

    이 이용되는, 비디오 인코딩 방법.
  7. 동적 범위 관련 비디오 신호 정보를 이용하여, 비트스트림을 생성하기 위해 복수의 스케일러블 인코딩 구조들로부터 스케일러블 인코딩 구조를 적절히 선택하기 위한 비디오 인코딩 디바이스로서,
    인코딩될 비디오 신호가 시간 방향에서 SDR(standard dynamic range) 신호로부터 HDR(high dynamic range) 신호로 스위칭되거나, 또는 HDR 신호로부터 SDR 신호로 스위칭될 때, 동적 범위를 스위칭하기 위해 상기 동적 범위 관련 비디오 신호 정보를 전송할 수 있는 상기 스케일러블 인코딩 구조를 선택하기 위한 인코딩 섹션
    을 포함하는, 비디오 인코딩 디바이스.
  8. 제7항에 있어서, 상기 복수의 스케일러블 인코딩 구조들은 시간 ID가 0인 화상 또는 화상들만으로 구성된 스케일러블 인코딩 구조, 시간 ID가 0인 화상 또는 화상들, 또는 시간 ID가 1인 화상 또는 화상들로 구성된 스케일러블 인코딩 구조, 시간 ID가 0인 화상 또는 화상들, 시간 ID가 1인 화상 또는 화상들, 또는 시간 ID가 2인 화상 또는 화상들로 구성된 스케일러블 인코딩 구조, 및 시간 ID가 0인 화상 또는 화상들, 시간 ID가 1인 화상 또는 화상들, 시간 ID가 2인 화상 또는 화상들, 또는 시간 ID가 3인 화상 또는 화상들로 구성된 스케일러블 인코딩 구조를 포함하는, 비디오 인코딩 디바이스.
  9. 제7항 또는 제8항에 있어서, 상기 인코딩 섹션은 상기 스위칭 후 설정되는 제1 화상의 스케일러블 인코딩 구조를 시간 ID가 0인 화상만으로 구성된 스케일러블 인코딩 구조로 설정하는, 비디오 인코딩 디바이스.
  10. 제7항 내지 제9항 중 어느 한 항에 있어서, 상기 인코딩 섹션은 상기 스위칭 후 설정되는 제1 화상 내에 포함되는 제1 화상을 IDR 화상으로서 인코딩하고, 상기 동적 범위 관련 비디오 신호 정보를 상기 IDR 화상의 SPS의 VUI의 transfer_characteristics 신택스 내에 설정하는, 비디오 인코딩 디바이스.
  11. 제7항 내지 제10항 중 어느 한 항에 있어서, 상기 인코딩 섹션은 상기 스위칭 후 설정되는 제1 화상 내의 제1 화상의 비트스트림 전에 EOS 비트스트림을 출력하는, 비디오 인코딩 디바이스.
  12. 제7항 내지 제11항 중 어느 한 항에 있어서, 상기 동적 범위 관련 비디오 신호 정보가 HDR로부터 SDR로 스위칭되는 경우, 상기 인코딩 섹션은 적어도 이하의 속성:
    Figure pct00007

    을 이용하고,
    상기 동적 범위 관련 비디오 신호 정보가 SDR로부터 HDR로 스위칭되는 경우, 상기 인코딩 섹션은 이하의 속성:
    Figure pct00008

    을 이용하거나 - 여기서, 피크 화이트에 대해 1과 동일한 Lc는 일반적으로 제곱 미터당 10,000칸델라의 디스플레이 휘도 레벨에 대응하도록 의도됨 -,
    또는 이하의 속성:
    Figure pct00009

    을 이용하는, 비디오 인코딩 디바이스.
  13. 비디오 인코딩 프로그램으로서, 동적 범위 관련 비디오 신호 정보를 이용하여, 비트스트림을 생성하기 위해 복수의 스케일러블 인코딩 구조들로부터 스케일러블 인코딩 구조를 적절히 선택하기 위한 비디오 인코딩 디바이스 내의 컴퓨터로 하여금
    인코딩될 비디오 신호가 시간 방향에서 SDR(standard dynamic range) 신호로부터 HDR(high dynamic range) 신호로 스위칭되거나, 또는 HDR 신호로부터 SDR 신호로 스위칭될 때, 동적 범위를 스위칭하기 위해 상기 동적 범위 관련 비디오 신호 정보를 전송할 수 있는 상기 스케일러블 인코딩 구조를 이용하는 프로세스
    를 실행하게 하기 위한, 비디오 인코딩 프로그램.
  14. 제13항에 있어서, 상기 복수의 스케일러블 인코딩 구조들은 시간 ID가 0인 화상 또는 화상들만으로 구성된 스케일러블 인코딩 구조, 시간 ID가 0인 화상 또는 화상들, 또는 시간 ID가 1인 화상 또는 화상들로 구성된 스케일러블 인코딩 구조, 시간 ID가 0인 화상 또는 화상들, 시간 ID가 1인 화상 또는 화상들, 또는 시간 ID가 2인 화상 또는 화상들로 구성된 스케일러블 인코딩 구조, 및 시간 ID가 0인 화상 또는 화상들, 시간 ID가 1인 화상 또는 화상들, 시간 ID가 2인 화상 또는 화상들, 또는 시간 ID가 3인 화상 또는 화상들로 구성된 스케일러블 인코딩 구조를 포함하는, 비디오 인코딩 프로그램.
  15. 제13항 또는 제14항에 있어서, 상기 컴퓨터는 상기 스위칭 후 설정되는 제1 화상의 스케일러블 인코딩 구조를 시간 ID가 0인 화상만으로 구성된 스케일러블 인코딩 구조로 설정하도록 야기되는, 비디오 인코딩 프로그램.
  16. 제13항 내지 제15항 중 어느 한 항에 있어서, 상기 컴퓨터는 상기 스위칭 후 설정되는 제1 화상 내에 포함되는 제1 화상을 IDR 화상으로서 인코딩하고, 상기 동적 범위 관련 비디오 신호 정보를 상기 IDR 화상의 SPS의 VUI의 transfer_characteristics 신택스 내에 설정하도록 야기되는, 비디오 인코딩 프로그램.
  17. 제13항 내지 제16항 중 어느 한 항에 있어서, 상기 컴퓨터는 상기 스위칭 후 설정되는 제1 화상 내의 제1 화상의 비트스트림 전에 EOS 비트스트림을 출력하도록 야기되는, 비디오 인코딩 프로그램.
  18. 제13항 내지 제17항 중 어느 한 항에 있어서, 상기 동적 범위 관련 비디오 신호 정보가 HDR로부터 SDR로 스위칭되는 경우, 상기 컴퓨터는 적어도 이하의 속성:
    Figure pct00010

    을 사용하도록 야기되고,
    상기 동적 범위 관련 비디오 신호 정보가 SDR로부터 HDR로 스위칭되는 경우, 상기 컴퓨터는 이하의 속성:
    Figure pct00011

    을 사용하도록 야기되거나 - 여기서, 피크 화이트에 대해 1과 동일한 Lc는 일반적으로 제곱 미터당 10,000칸델라의 디스플레이 휘도 레벨에 대응하도록 의도됨 -,
    또는 이하의 속성:
    Figure pct00012

    을 사용하도록 야기되는, 비디오 인코딩 프로그램.
  19. 동적 범위 관련 비디오 신호 정보를 이용하여 복수의 스케일러블 인코딩 구조들로부터 스케일러블 인코딩 구조를 적절히 선택함으로써 생성되는 비트스트림을 디코딩함으로써 비디오를 획득하기 위한 비디오 디코딩 방법으로서,
    인코딩될 비디오 신호가 시간 방향에서 SDR(standard dynamic range) 신호로부터 HDR(high dynamic range) 신호로 스위칭되거나, 또는 HDR 신호로부터 SDR 신호로 스위칭될 때, 동적 범위를 스위칭하기 위해 상기 동적 범위 관련 비디오 신호 정보를 전송할 수 있는 상기 스케일러블 인코딩 구조를 이용하여 생성되는 상기 비트스트림으로부터 상기 비디오를 획득하는 단계
    를 포함하는, 비디오 디코딩 방법.
  20. 동적 범위 관련 비디오 신호 정보를 이용하여 복수의 스케일러블 인코딩 구조들로부터 스케일러블 인코딩 구조를 적절히 선택함으로써 생성되는 비트스트림을 디코딩함으로써 비디오를 획득하기 위한 비디오 디코딩 디바이스로서,
    인코딩될 비디오 신호가 시간 방향에서 SDR(standard dynamic range) 신호로부터 HDR(high dynamic range) 신호로 스위칭되거나, 또는 HDR 신호로부터 SDR 신호로 스위칭될 때, 동적 범위를 스위칭하기 위해 상기 동적 범위 관련 비디오 신호 정보를 전송할 수 있는 상기 스케일러블 인코딩 구조를 이용하여 생성되는 상기 비트스트림으로부터 상기 비디오를 획득하기 위한 디코딩 섹션
    을 포함하는, 비디오 디코딩 디바이스.
  21. 비디오 디코딩 프로그램으로서, 동적 범위 관련 비디오 신호 정보를 이용하여, 복수의 스케일러블 인코딩 구조들로부터 스케일러블 인코딩 구조를 적절히 선택함으로써 생성되는 비트스트림을 디코딩함으로써 비디오를 획득하기 위한 비디오 디코딩 디바이스 내의 컴퓨터로 하여금
    인코딩될 비디오 신호가 시간 방향에서 SDR(standard dynamic range) 신호로부터 HDR(high dynamic range) 신호로 스위칭되거나, 또는 HDR 신호로부터 SDR 신호로 스위칭될 때, 동적 범위를 스위칭하기 위해 상기 동적 범위 관련 비디오 신호 정보를 전송할 수 있는 상기 스케일러블 인코딩 구조를 이용하여 생성되는 상기 비트스트림으로부터 상기 비디오를 획득하는 프로세스
    를 실행하게 하기 위한, 비디오 디코딩 프로그램.
  22. 비디오 시스템으로서,
    제7항 내지 제12항 중 어느 한 항에 따른 상기 비디오 인코딩 디바이스;
    오디오 신호를 인코딩하기 위한 오디오 인코딩 섹션; 및
    상기 비디오 인코딩 디바이스로부터의 비트스트림, 및 상기 오디오 인코딩 섹션으로부터의 비트스트림을 다중화하고, 결과로 초래된 다중화된 비트스트림을 출력하기 위한 다중화 섹션
    을 포함하는, 비디오 시스템.
KR1020187014826A 2015-12-02 2016-11-14 비디오 인코딩 방법, 비디오 인코딩 디바이스, 비디오 디코딩 방법, 비디오 디코딩 디바이스, 프로그램, 및 비디오 시스템 KR102198120B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2015235525A JP6132006B1 (ja) 2015-12-02 2015-12-02 映像符号化装置、映像システム、映像符号化方法、及び映像符号化プログラム
JPJP-P-2015-235525 2015-12-02
PCT/JP2016/083681 WO2017094482A1 (ja) 2015-12-02 2016-11-14 映像符号化方法、映像符号化装置、映像復号方法、映像復号装置、及びプログラム、並びに映像システム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020207037536A Division KR102242880B1 (ko) 2015-12-02 2016-11-14 비디오 인코딩 방법, 비디오 인코딩 디바이스, 비디오 디코딩 방법, 비디오 디코딩 디바이스, 및 컴퓨터 판독가능 정보 기록 매체

Publications (2)

Publication Number Publication Date
KR20180077209A true KR20180077209A (ko) 2018-07-06
KR102198120B1 KR102198120B1 (ko) 2021-01-04

Family

ID=58745672

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020207037536A KR102242880B1 (ko) 2015-12-02 2016-11-14 비디오 인코딩 방법, 비디오 인코딩 디바이스, 비디오 디코딩 방법, 비디오 디코딩 디바이스, 및 컴퓨터 판독가능 정보 기록 매체
KR1020187014826A KR102198120B1 (ko) 2015-12-02 2016-11-14 비디오 인코딩 방법, 비디오 인코딩 디바이스, 비디오 디코딩 방법, 비디오 디코딩 디바이스, 프로그램, 및 비디오 시스템

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020207037536A KR102242880B1 (ko) 2015-12-02 2016-11-14 비디오 인코딩 방법, 비디오 인코딩 디바이스, 비디오 디코딩 방법, 비디오 디코딩 디바이스, 및 컴퓨터 판독가능 정보 기록 매체

Country Status (7)

Country Link
US (2) US10645421B2 (ko)
EP (1) EP3386200A4 (ko)
JP (1) JP6132006B1 (ko)
KR (2) KR102242880B1 (ko)
BR (1) BR112018010465B1 (ko)
CA (3) CA3077470C (ko)
WO (1) WO2017094482A1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2017235369B2 (en) * 2016-03-18 2022-02-03 Koninklijke Philips N.V. Encoding and decoding HDR videos
US10812820B2 (en) 2016-11-30 2020-10-20 Qualcomm Incorporated Systems and methods for signaling and constraining a high dynamic range (HDR) video system with dynamic metadata
WO2018131986A1 (ko) * 2017-01-16 2018-07-19 세종대학교 산학협력단 영상의 부호화/복호화 방법 및 장치
EP3685587B1 (en) * 2017-09-22 2021-07-28 Dolby Laboratories Licensing Corporation Backward compatible display management metadata compression
US10917583B2 (en) * 2018-04-27 2021-02-09 Apple Inc. Standard and high dynamic range display systems and methods for high dynamic range displays
JP7098475B2 (ja) * 2018-08-07 2022-07-11 キヤノン株式会社 画像処理装置、画像処理方法、およびプログラム
JP7067367B2 (ja) * 2018-08-24 2022-05-16 日本電信電話株式会社 映像送信装置及び映像送信方法
CN111083480B (zh) * 2019-12-10 2022-11-04 四川新视创伟超高清科技有限公司 一种基于cpu的8k超高清视频高速编码方法
EP4319153A1 (en) * 2021-03-30 2024-02-07 NEC Corporation Video encoding device, video decoding device, video encoding method, video decoding method, and video system
CN113824914B (zh) * 2021-08-12 2022-06-28 荣耀终端有限公司 视频处理方法、装置、电子设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016152684A1 (ja) * 2015-03-24 2016-09-29 ソニー株式会社 送信装置、送信方法、受信装置および受信方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8014445B2 (en) * 2006-02-24 2011-09-06 Sharp Laboratories Of America, Inc. Methods and systems for high dynamic range video coding
US8194997B2 (en) * 2006-03-24 2012-06-05 Sharp Laboratories Of America, Inc. Methods and systems for tone mapping messaging
JP2008118221A (ja) * 2006-10-31 2008-05-22 Toshiba Corp 復号装置及び復号方法
KR101579831B1 (ko) * 2011-10-20 2015-12-23 돌비 레버러토리즈 라이쎈싱 코오포레이션 비디오 등화를 위한 방법 및 시스템
AR091515A1 (es) 2012-06-29 2015-02-11 Sony Corp Dispositivo y metodo para el procesamiento de imagenes
JP6279220B2 (ja) 2013-03-15 2018-02-14 宮川化成工業株式会社 蒸気量測定装置
WO2014178286A1 (ja) * 2013-04-30 2014-11-06 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
JP2015008361A (ja) * 2013-06-24 2015-01-15 ソニー株式会社 再生装置、再生方法、および記録媒体
MX367832B (es) * 2014-01-24 2019-09-09 Sony Corp Dispositivo de transmisión, método de transmisión, dispositivo de recepción y método de recepción.
KR102344096B1 (ko) * 2014-02-21 2021-12-29 소니그룹주식회사 송신 장치, 송신 방법, 수신 장치 및 수신 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016152684A1 (ja) * 2015-03-24 2016-09-29 ソニー株式会社 送信装置、送信方法、受信装置および受信方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ITU-T Recommendation H.265 (V2) High efficiency video coding. Oct. 2014, pp.1-518 *
NPL 1: ARIB (Association of Radio Industries and Businesses) standard STD-B32 3.0 edition, 2014년 7월 31일, Association of Radio Industries and Businesses
Qualcomm Inc. Dynamic Range Adjustment SEI to enable High Dynamic Range video coding with Backward-Compatible Capability. ITU-T COM 16-C1027. Sep. 29, 2015, pp.1-11 *

Also Published As

Publication number Publication date
WO2017094482A1 (ja) 2017-06-08
KR102242880B1 (ko) 2021-04-20
BR112018010465A2 (pt) 2018-08-28
EP3386200A4 (en) 2019-09-04
CA3006941A1 (en) 2017-06-08
CA3138227C (en) 2023-07-04
US10645421B2 (en) 2020-05-05
KR102198120B1 (ko) 2021-01-04
JP6132006B1 (ja) 2017-05-24
US20180352260A1 (en) 2018-12-06
EP3386200A1 (en) 2018-10-10
CA3077470A1 (en) 2017-06-08
CA3006941C (en) 2020-05-05
JP2017103622A (ja) 2017-06-08
CA3077470C (en) 2021-12-14
BR112018010465A8 (pt) 2019-02-26
US10827201B2 (en) 2020-11-03
US20200221132A1 (en) 2020-07-09
BR112018010465B1 (pt) 2020-03-03
KR20210002124A (ko) 2021-01-06
CA3138227A1 (en) 2017-06-08

Similar Documents

Publication Publication Date Title
US10827201B2 (en) Video encoding method, video encoding device, video decoding method, video decoding device, program, and video system
US11405636B2 (en) Conditional signalling of reference picture list modification information
US9774881B2 (en) Representing motion vectors in an encoded bitstream
KR101572535B1 (ko) 합성 비디오에서의 무손실 코딩 및 관련 시그널링 방법
US20190098310A1 (en) Adaptive skip or zero block detection combined with transform size decision
KR20160072181A (ko) 비디오 및 이미지 코딩 및 디코딩을 위한 인트라 블록 카피 예측 모드의 피쳐
US20150288965A1 (en) Adaptive quantization for video rate control
US9762912B2 (en) Gradual updating using transform coefficients for encoding and decoding
US20220337814A1 (en) Image encoding/decoding method and device using reference sample filtering, and method for transmitting bitstream
KR20220162739A (ko) Hls를 시그널링하는 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 컴퓨터 판독 가능한 기록 매체
JP6677230B2 (ja) 映像符号化装置、映像復号装置、映像システム、映像符号化方法、及び映像符号化プログラム
JP6241565B2 (ja) 映像符号化装置、映像システム、映像符号化方法、及び映像符号化プログラム
JP6241558B2 (ja) 映像符号化装置、映像システム、映像符号化方法、及び映像符号化プログラム
WO2021199374A1 (ja) 映像符号化装置、映像復号装置、映像符号化方法、映像復号方法、映像システムおよびプログラム
JP6489227B2 (ja) 映像符号化装置及び映像符号化方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant