KR20240035359A - Method, apparatus and recording medium for encoding/decoding image - Google Patents

Method, apparatus and recording medium for encoding/decoding image Download PDF

Info

Publication number
KR20240035359A
KR20240035359A KR1020230118490A KR20230118490A KR20240035359A KR 20240035359 A KR20240035359 A KR 20240035359A KR 1020230118490 A KR1020230118490 A KR 1020230118490A KR 20230118490 A KR20230118490 A KR 20230118490A KR 20240035359 A KR20240035359 A KR 20240035359A
Authority
KR
South Korea
Prior art keywords
elements
target quality
quality level
clause
hidden representation
Prior art date
Application number
KR1020230118490A
Other languages
Korean (ko)
Inventor
이주영
김연희
정세윤
최진수
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to US18/463,051 priority Critical patent/US20240095963A1/en
Publication of KR20240035359A publication Critical patent/KR20240035359A/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process

Abstract

영상 부호화/복호화를 위한 방법, 장치 및 기록 매체가 개시된다. 가변-레이트 영상 압축을 위한 은닉 표현들의 선택적 압축 학습이 방법, 장치 및 기록 매체에 대하여 사용된다. 실시예들에서는, 딥 러닝-기반 가변 레이트 이미지 압축을 위해 완전히 일반화된 방식으로 은닉 표현을 부분적으로 부호화하는 선택적 압축 방법이 개시된다. 실시예들의 방법들은 서로 다른 목표 품질 수준들의 압축을 위해 필수적인 표현 요소들을 적응적으로 결정한다.A method, device, and recording medium for video encoding/decoding are disclosed. Selective compression learning of hidden representations for variable-rate video compression is used for a method, apparatus, and recording medium. In embodiments, a selective compression method is disclosed that partially encodes a hidden representation in a fully generalized manner for deep learning-based variable rate image compression. The methods of the embodiments adaptively determine essential presentation elements for compression of different target quality levels.

Figure P1020230118490
Figure P1020230118490

Description

영상 부호화/복호화를 위한 방법, 장치 및 기록 매체{METHOD, APPARATUS AND RECORDING MEDIUM FOR ENCODING/DECODING IMAGE}Method, device, and recording medium for video encoding/decoding {METHOD, APPARATUS AND RECORDING MEDIUM FOR ENCODING/DECODING IMAGE}

본 발명은 영상 부호화/복호화를 위한 방법, 장치 및 기록 매체에 관한 것이다. 구체적으로, 본 발명은 가변-레이트(variable-rate) 영상 압축을 제공하는 영상 부호화/복호화를 위한 방법, 장치 및 기록 매체를 제공한다.The present invention relates to a method, device, and recording medium for video encoding/decoding. Specifically, the present invention provides a method, device, and recording medium for video encoding/decoding that provides variable-rate video compression.

정보 통신 산업의 지속적인 발달을 통해 HD(High Definition) 해상도를 가지는 방송 서비스가 세계적으로 확산되었다. 이러한 확산을 통해, 많은 사용자들이 고해상도이며 고화질인 영상(image) 및/또는 비디오(video)에 익숙해지게 되었다.Through the continued development of the information and communications industry, broadcasting services with HD (High Definition) resolution have spread globally. Through this proliferation, many users have become accustomed to high-resolution, high-definition images and/or videos.

높은 화질에 대한 사용자들의 수요를 만족시키기 위하여, 많은 기관들이 차세대 영상 기기에 대한 개발에 박차를 가하고 있다. 에이치디티브이(High Definition TV; HDTV) 및 풀에이치디(Full HD; FHD) TV뿐만 아니라, FHD TV에 비해 4배 이상의 해상도를 갖는 울트라에이치디(Ultra High Definition; UHD) TV에 대한 사용자들의 관심이 증대하였고, 이러한 관심의 증대에 따라, 더 높은 해상도 및 화질을 갖는 영상에 대한 영상 부호화(encoding)/복호화(decoding) 기술이 요구된다.In order to satisfy users' demand for high image quality, many organizations are accelerating the development of next-generation imaging devices. User interest in not only High Definition TV (HDTV) and Full HD (FHD) TV, but also Ultra High Definition (UHD) TV, which has a resolution more than four times that of FHD TV. has increased, and with this increase in interest, image encoding/decoding technology for images with higher resolution and image quality is required.

이러한 영상 압축 기술을 사용하여 영상에 대한 데이터가 효과적으로 압축, 전송 및 저장될 수 있다.Using this video compression technology, video data can be effectively compressed, transmitted, and stored.

일 실시예는 가변-레이트 영상 압축을 위한 장치, 방법 및 기록 매체를 제공할 수 있다.One embodiment may provide an apparatus, method, and recording medium for variable-rate video compression.

일 실시예는 은닉 표현들의 선택적 압축 학습을 사용하는 장치, 방법 및 기록 매체를 제공할 수 있다.One embodiment may provide an apparatus, method, and recording medium using selective compression learning of hidden representations.

일 측에 있어서, 입력 영상을 사용하여 은닉 표현을 생성하는 단계; 상기 은닉 표현에 대한 적응적 양자화를 수행함으로써 양자화된 은닉 표현을 생성하는 단계; 상기 양자화된 은닉 표현의 선택된 요소들의 집합을 유도하는 단계; 및 상기 선택된 요소들의 집합에 대한 엔트로피 부호화를 수행함으로써 상기 선택된 요소들의 부호화된 정보를 생성하는 단계를 포함하는 영상 부호화 방법이 제공된다.In one aspect, generating a hidden representation using an input image; generating a quantized hidden representation by performing adaptive quantization on the hidden representation; deriving a set of selected elements of the quantized hidden representation; and generating encoded information of the selected elements by performing entropy encoding on the set of selected elements.

상기 양자화된 은닉 표현은 특정 목표 품질 수준에 대하여 생성될 수 있다.The quantized hidden representation can be generated for a specific target quality level.

상기 선택된 요소들의 집합은 3차원 이진 마스크를 사용하여 결정될 수 있다.The set of selected elements can be determined using a three-dimensional binary mask.

상기 3차원 이진 마스크는 하이퍼 복호화기의 특정 레이어의 출력을 사용하여 생성될 수 있다.The 3D binary mask can be generated using the output of a specific layer of the hyper decoder.

상기 하이퍼 복호화기로 하이퍼프라이어가 입력될 수 있다.A hyperprior may be input into the hyper decoder.

상기 선택된 요소들의 상기 부호화된 정보는 특정 목표 품질 수준에 대한 파라미터를 사용하여 생성될 수 있다.The encoded information of the selected elements may be generated using parameters for a specific target quality level.

상기 파라미터는 상기 특정 목표 품질 수준에 대한 스케일 파라미터 또는 상기 특정 목표 품질 수준에 대한 중간 파라미터를 포함할 수 있다.The parameters may include scale parameters for the specific target quality level or intermediate parameters for the specific target quality level.

다른 일 측에 있어서, 양자화된 은닉 표현의 선택된 요소들의 부호화된 정보에 대한 복호화를 수행함으로써 상기 선택된 요소들의 집합을 생성하는 단계; 상기 선택된 요소들의 집합을 3차원-형태된 은닉 표현의 요소들로 변환하는 단계; 상기 3차원-형태된 은닉 표현의 요소들에 대한 역-양자화를 수행함으로써 역-양자화된 요소들을 생성하는 단계; 및 상기 역-양자화된 요소들에 대한 복호화를 수행함으로써 복원된 영상을 생성하는 단계를 포함하는 영상 복호화 방법이 제공된다.On the other hand, generating a set of selected elements by performing decoding on encoded information of selected elements of the quantized hidden representation; converting the selected set of elements into elements of a three-dimensional-shaped hidden representation; generating de-quantized elements by performing de-quantization on elements of the 3D-shaped hidden representation; and generating a restored image by performing decoding on the dequantized elements.

상기 역-양자화는 특정 목표 품질 수준에 대하여 수행될 수 있다.The de-quantization may be performed for a specific target quality level.

상기 3차원-형태된 은닉 표현의 요소들은 3차원 이진 마스크를 사용하여 결정될 수 있다.Elements of the 3D-shaped hidden representation may be determined using a 3D binary mask.

상기 3차원 이진 마스크는 하이퍼 복호화기의 특정 레이어의 출력을 사용하여 생성될 수 있다.The 3D binary mask can be generated using the output of a specific layer of the hyper decoder.

상기 하이퍼 복호화기로 하이퍼프라이어가 입력될 수 있다.A hyperprior may be input into the hyper decoder.

상기 선택된 요소들의 집합은 정보는 특정 목표 품질 수준에 대한 파라미터를 사용하여 생성될 수 있다.The selected set of elements can be used to generate information using parameters for a specific target quality level.

상기 파라미터는 상기 특정 목표 품질 수준에 대한 스케일 파라미터 또는 상기 특정 목표 품질 수준에 대한 중간 파라미터를 포함할 수 있다.The parameters may include scale parameters for the specific target quality level or intermediate parameters for the specific target quality level.

또 다른 일 측에 있어서, 영상 복호화를 위한 비트스트림을 저장하는 컴퓨터 판독 가능한 기록 매체에 있어서, 상기 비트스트림은, 양자화된 은닉 표현의 선택된 요소들의 부호화된 정보를 포함하고, 상기 부호화된 정보에 대한 복호화를 수행함으로써 상기 선택된 요소들의 집합이 생성되고, 상기 선택된 요소들의 집합을 3차원-형태된 은닉 표현의 요소들로 변환되고, 상기 3차원-형태된 은닉 표현의 요소들에 대한 역-양자화를 수행함으로써 역-양자화된 요소들이 생성되고, 상기 역-양자화된 요소들에 대한 복호화를 수행함으로써 복원된 영상이 생성되는 컴퓨터 판독 가능한 기록 매체가 제공된다.On another side, in a computer-readable recording medium storing a bitstream for video decoding, the bitstream includes encoded information of selected elements of a quantized hidden representation, and By performing decoding, a set of selected elements is created, the set of selected elements is converted into elements of a 3D-shaped hidden representation, and de-quantization of the elements of the 3D-shaped hidden representation is performed. A computer-readable recording medium is provided in which de-quantized elements are generated by performing decoding on the de-quantized elements, and a restored image is generated by decoding the de-quantized elements.

상기 역-양자화는 특정 목표 품질 수준에 대하여 수행될 수 있다.The de-quantization may be performed for a specific target quality level.

상기 3차원-형태된 은닉 표현의 요소들은 3차원 이진 마스크를 사용하여 결정될 수 있다.Elements of the 3D-shaped hidden representation may be determined using a 3D binary mask.

상기 3차원 이진 마스크는 하이퍼 복호화기의 특정 레이어의 출력을 사용하여 생성될 수 있다.The 3D binary mask can be generated using the output of a specific layer of the hyper decoder.

상기 선택된 요소들의 집합은 정보는 특정 목표 품질 수준에 대한 파라미터를 사용하여 생성될 수 있다.The selected set of elements can be used to generate information using parameters for a specific target quality level.

상기 파라미터는 상기 특정 목표 품질 수준에 대한 스케일 파라미터 또는 상기 특정 목표 품질 수준에 대한 중간 파라미터를 포함할 수 있다.The parameters may include scale parameters for the specific target quality level or intermediate parameters for the specific target quality level.

가변-레이트 영상 압축을 위한 장치, 방법 및 기록 매체가 제공된다.An apparatus, method, and recording medium for variable-rate video compression are provided.

은닉 표현들의 선택적 압축 학습을 사용하는 장치, 방법 및 기록 매체가 제공된다.An apparatus, method, and recording medium using selective compression learning of hidden representations are provided.

도 1은 실시예의 SCR 방법의 전반적인 아키텍처를 나타낸다.
도 2는 일 예에 따른 3D 이진 마스크 생성 프로세스를 나타낸다.
도 3은 일 예에 따른 8 개의 목표 품질 레벨들 내에서의 중요도 조정 곡선들을 나타낸다.
도 4는 일 예에 따른 서로 다른 목표 품질 수준들에 대한 생성된 마스크들을 나타낸다.
도 5는 일 예에 따른 선택된 표현 요소들의 평균 비율들 대 평균 BPP를 나타낸다.
도 6은 일 예에 따른 저 품질 수준으로부터 고 품질 수준으로의 재사용된 표현 요소들의 평균 비율들을 나타낸다.
도 7은 일 예에 따른 표현 선택 연산자 및 재형태 연산자의 코드를 나타낸다.
도 8은 일 실시예에 따른 부호화 장치의 구조를 나타낸다.
도 9는 일 실시예에 따른 부호화 방법의 신호 흐름도이다.
도 10은 일 실시예에 따른 복호화 장치의 구조도이다.
도 11는 일 실시예에 따른 복호화 방법의 흐름도이다.
1 shows the overall architecture of the SCR method of the embodiment.
Figure 2 shows a 3D binary mask generation process according to one example.
3 shows importance adjustment curves within eight target quality levels according to an example.
4 shows generated masks for different target quality levels according to an example.
Figure 5 shows average ratios of selected presentation elements versus average BPP according to an example.
Figure 6 shows the average percentages of reused presentation elements from a low quality level to a high quality level according to an example.
Figure 7 shows the code of an expression selection operator and a reformulation operator according to an example.
Figure 8 shows the structure of an encoding device according to an embodiment.
Figure 9 is a signal flow diagram of an encoding method according to an embodiment.
Figure 10 is a structural diagram of a decoding device according to an embodiment.
Figure 11 is a flowchart of a decryption method according to an embodiment.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.Since the present invention can make various changes and have various embodiments, specific embodiments will be illustrated in the drawings and described in detail in the detailed description. However, this is not intended to limit the present invention to specific embodiments, and should be understood to include all changes, equivalents, and substitutes included in the spirit and technical scope of the present invention.

후술하는 예시적 실시예들에 대한 상세한 설명은, 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 실시예를 실시할 수 있기에 충분하도록 상세히 설명된다. 다양한 실시예들은 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들면, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 실시예의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 예시적 실시예들의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다.For a detailed description of the exemplary embodiments described below, refer to the accompanying drawings, which illustrate specific embodiments by way of example. These embodiments are described in sufficient detail to enable those skilled in the art to practice the embodiments. It should be understood that the various embodiments are different from one another but are not necessarily mutually exclusive. For example, specific shapes, structures and characteristics described herein with respect to one embodiment may be implemented in other embodiments without departing from the spirit and scope of the invention. Additionally, it should be understood that the location or arrangement of individual components within each disclosed embodiment may be changed without departing from the spirit and scope of the embodiment. Accordingly, the detailed description that follows is not to be taken in a limiting sense, and the scope of the exemplary embodiments is limited only by the appended claims, together with all equivalents to what those claims assert if properly described.

도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다. 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.Similar reference numbers in the drawings refer to identical or similar functions across various aspects. The shapes and sizes of elements in the drawings may be exaggerated for clearer explanation.

본 발명에서 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들면, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. "및/또는"이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함할 수 있다.In the present invention, terms such as first and second may be used to describe various components, but the components should not be limited by the terms. The above terms are used only for the purpose of distinguishing one component from another. For example, a first component may be referred to as a second component, and similarly, the second component may also be referred to as a first component without departing from the scope of the present invention. The term “and/or” may include any of a plurality of related stated items or a combination of a plurality of related stated items.

어떤 구성요소(component)가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기의 2개의 구성요소들이 서로 간에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있으나, 상기의 2개의 구성요소들의 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(component)가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기의 2개의 구성요소들의 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.When a component is said to be “connected” or “connected” to another component, the two components may be directly connected or connected to each other, but It should be understood that other components may exist in the middle of the components. On the other hand, when a component is said to be “directly connected” or “directly connected” to another component, it should be understood that no other component exists in between the two components. something to do.

실시예들에서 나타나는 구성요소들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성요소들이 분리된 하드웨어나 하나의 소프트웨어 구성단위로 이루어짐을 의미하지 않는다. 즉, 각 구성요소는 설명의 편의상 각각의 구성요소로 나열하여 포함한 것으로 각 구성요소 중 적어도 두 개의 구성요소가 합쳐져 하나의 구성요소로 이루어지거나, 하나의 구성요소가 복수 개의 구성요소로 나뉘어져 기능을 수행할 수 있고 이러한 각 구성요소의 통합된 실시예 및 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리범위에 포함된다.Components appearing in the embodiments are shown independently to represent different characteristic functions, and do not mean that each component consists of separate hardware or a single software component. In other words, each component is listed and included as a separate component for convenience of explanation, and at least two of each component are combined to form one component, or one component is divided into multiple components to function. It can be performed, and integrated embodiments and separate embodiments of each of these components are included in the scope of the present invention as long as they do not deviate from the essence of the present invention.

실시예들에서 사용된 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 실시예들에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 즉, 실시예들에서 특정 구성을 "포함"한다고 기술하는 내용은 해당 구성 이외의 구성을 배제하는 것이 아니며, 추가적인 구성 또한 본 발명의 실시 또는 본 발명의 기술적 사상의 범위에 포함될 수 있음을 의미한다.The terms used in the examples are only used to describe specific examples and are not intended to limit the invention. Singular expressions include plural expressions unless the context clearly dictates otherwise. In embodiments, terms such as “comprise” or “have” are intended to designate the presence of features, numbers, steps, operations, components, parts, or combinations thereof described in the specification, but are intended to indicate the presence of one or more other features, numbers, steps, operations, components, parts, or combinations thereof. It should be understood that this does not exclude in advance the presence or addition of features, numbers, steps, operations, components, parts, or combinations thereof. In other words, the description of “including” a specific configuration in the embodiments does not exclude configurations other than the configuration, and means that additional configurations may also be included in the practice of the present invention or the scope of the technical idea of the present invention. .

실시예들에서 용어 "적어도 하나(at least one)"는 1, 2, 3 및 4와 같은 1 이상의 개수들 중 하나를 의미할 수 있다. 실시예들에서 용어 "복수(a plurality of)"는 2, 3 및 4와 같은 2 이상의 개수들 중 하나를 의미할 수 있다.In embodiments, the term “at least one” may mean one of one or more numbers, such as 1, 2, 3, and 4. In embodiments, the term “a plurality of” may mean one of two or more numbers, such as 2, 3, and 4.

실시예들의 일부의 구성요소는 본 발명에서 본질적인 기능을 수행하는 필수적인 구성요소는 아니고 단지 성능을 향상시키기 위한 선택적 구성요소일 수 있다. 실시예들은, 단지 성능 향상을 위해 사용되는 구성요소가 제외된, 실시예들의 본질을 구현함에 있어 필수적인 구성요소만을 포함하여 구현될 수 있다. 단지 성능 향상을 위해 사용되는 선택적인 구성요소가 제외된 필수적인 구성요소만을 포함하는 구조도 실시예들의 권리범위에 포함된다.Some of the components of the embodiments may not be essential components that perform essential functions in the present invention, but may simply be optional components to improve performance. Embodiments may be implemented by including only components essential for implementing the essence of the embodiments, excluding components used only to improve performance. Structures that include only essential components excluding optional components used to improve performance are also included in the scope of the embodiments.

이하에서는, 기술분야에서 통상의 지식을 가진 자가 실시예들을 용이하게 실시할 수 있도록 하기 위하여, 첨부된 도면을 참조하여 실시 형태에 대하여 구체적으로 설명한다. 실시예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 명세서의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 도면 상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고, 동일한 구성요소에 대한 중복된 설명은 생략한다.Hereinafter, embodiments will be described in detail with reference to the attached drawings so that those skilled in the art can easily implement the embodiments. In describing the embodiments, if it is determined that a detailed description of a related known configuration or function may obscure the gist of the present specification, the detailed description will be omitted. In addition, the same reference numerals are used for the same components in the drawings, and duplicate descriptions of the same components are omitted.

이하에서, 영상은 비디오(video)를 구성하는 하나의 픽처(picture)를 의미할 수 있으며, 비디오 자체를 나타낼 수도 있다. 예를 들면, "영상의 부호화 및/또는 복호화"는 "비디오의 부호화 및/또는 복호화"를 의미할 수 있으며, "비디오를 구성하는 영상들 중 하나의 영상의 부호화 및/또는 복호화"를 의미할 수도 있다.Hereinafter, an image may refer to a picture constituting a video, and may also represent the video itself. For example, “encoding and/or decoding of an image” may mean “encoding and/or decoding of a video,” and may mean “encoding and/or decoding of one of the images that constitute a video.” It may be possible.

실시예들에서, 특정된 정보, 데이터, 플래그(flag), 인덱스(index) 및 요소(element), 속성(attribute) 등의 각각은 값을 가질 수 있다. 정보, 데이터, 플래그, 인덱스, 요소 및 속성 등의 값 "0"은 거짓(false), 논리 거짓(logical false) 또는 제1 기정의된(predefined) 값을 나타낼 수 있다. 말하자면, 값 "0", 거짓, 논리 거짓 및 제1 기정의된 값은 서로 대체되어 사용될 수 있다. 정보, 데이터, 플래그, 인덱스, 요소 및 속성 등의 값 "1"은 참(true), 논리 참(logical true) 또는 제2 기정의된(predefined) 값을 나타낼 수 있다. 말하자면, 값 "1", 참, 논리 참 및 제2 기정의된 값은 서로 대체되어 사용될 수 있다.In embodiments, each of the specified information, data, flag, index, element, attribute, etc. may have a value. The value "0" of information, data, flags, indexes, elements, and attributes may represent false, logical false, or a first predefined value. That is, the values “0”, false, logical false and the first predefined value can be used interchangeably. The value "1" in information, data, flags, indexes, elements, and attributes may represent true, logical true, or a second predefined value. That is, the value “1”, true, logical true and the second predefined value can be used interchangeably.

행, 열 또는 인덱스를 나타내기 위해 i 또는 j 등의 변수가 사용될 때, i의 값은 0 이상의 정수일 수 있으며, 1 이상의 정수일 수도 있다. 말하자면, 실시예들에서 행, 열 및 인덱스 등은 0에서부터 카운트될 수 있으며, 1에서부터 카운트될 수 있다.When a variable such as i or j is used to represent a row, column, or index, the value of i may be an integer greater than or equal to 0, or an integer greater than or equal to 1. That is, in embodiments rows, columns, indices, etc. may be counted from 0, and may be counted from 1.

실시예들에서, 용어 "하나 이상" 또는 용어 "적어도 하나"는 용어 "복수"를 의미할 수 있다. "하나 이상" 또는 "적어도 하나"는 "복수"로 교체되어 사용될 수 있다.In embodiments, the term “one or more” or the term “at least one” may mean the term “plural.” “One or more” or “at least one” can be used interchangeably with “plural.”

최근 많은 신경망 기반 이미지 압축 방식들이 기-존재하는 도구-기반의 기존 코덱보다 우수한 결과를 보여주고 있다.Recently, many neural network-based image compression methods are showing superior results than existing tool-based codecs.

그러나, 신경망 기반 이미지 압축 방식들의 대부분은 종종 서로 다른 목표 비트 전송률들에 따라 별도의 모델로서 훈련(train)되며, 따라서 모델 복잡성이 증가할 수 있다.However, most of the neural network-based image compression methods are often trained as separate models according to different target bit rates, which may increase model complexity.

따라서, 단일 모델을 갖고 다양한 비트레이트들을 지원하는 학습된 압축에 대한 몇몇 연구들이 진행되었다. 그러나, 이러한 연구들은 추가적인 네트워크 모듈들, 레이어들 또는 입력들을 요구하며 종종 복잡성 오버헤드를 야기하거나, 충분한 부호화/복호화 효율성을 제공하지 못할 수 있다.Therefore, several studies have been conducted on learned compression that supports various bitrates with a single model. However, these studies require additional network modules, layers or inputs and often result in complexity overhead or may not provide sufficient encoding/decoding efficiency.

실시예들에서는, 먼저 딥 러닝-기반 가변 레이트 이미지 압축을 위해 완전히 일반화된 방식으로 은닉 표현(latent representation)을 부분적으로 부호화하는 선택적 압축 방법이 개시될 수 있다.In embodiments, a selective compression method may be disclosed that first partially encodes a latent representation in a fully generalized manner for deep learning-based variable rate image compression.

실시예들에서, "표현"은 "은닉 표현"을 나타낼 수 있다.In embodiments, “expression” may refer to “hidden expression.”

실시예들의 방법들은 서로 다른 목표 품질 수준들의 압축을 위해 필수적인 표현 요소들(representation elements)을 적응적으로 결정할 수 있다.The methods of embodiments may adaptively determine representation elements necessary for compression of different target quality levels.

이러한 결정을 위해, 먼저 표현 요소들의 기저를 이루는(underlying) 중요도를 나타내기 위해, 입력 콘텐츠의 특성(nature)으로서 3차원(3Dimension; 3D) 중요도 맵이 생성될 수 있다. 다음으로, 3D 중요도 맵은 중요도 조정(adjustment) 곡선을 사용하여 다양한 목표 품질 수준들에 맞게 조정될 수 있다. 최종적으로, 조정된 3D 중요도 맵은 압축에 필수적인(essential) 표현 요소를 결정하기 위해 3D 이진(binary) 마스크로 변환될 수 있다.For this determination, a 3Dimension (3D) importance map can first be created as a nature of the input content to indicate the underlying importance of the presentation elements. Next, the 3D importance map can be adjusted to various target quality levels using an importance adjustment curve. Finally, the adjusted 3D importance map can be converted to a 3D binary mask to determine the representation elements essential for compression.

실시예들의 방법들은 오버헤드 증가의 무시할만한 양을 갖은 채 기존의 압축 모델과 쉽게 통합될 수 있다. 또한, 실시예들의 방법들은 다양한 품질 수준들 간에서 중요도 조정 곡선의 간단한 보간을 통해 지속적으로 가변 레이트 압축을 가능하게 할 수 있다.The methods of the embodiments can be easily integrated with existing compression models with a negligible amount of increased overhead. Additionally, the methods of embodiments may enable continuously variable rate compression through simple interpolation of importance adjustment curves between various quality levels.

실시예들의 방법들은 개별적으로 훈련된 참조 압축 모델들의 압축 효율들과 같이 비교가능한(comparable) 압축 효율을 달성할 수 있으며, 선택적 압축에 기인하여 복호화(decoding) 시간을 단축시킬 수 있다.The methods of the embodiments can achieve compression efficiencies comparable to those of individually trained reference compression models and can shorten decoding time due to selective compression.

신경 망(Neural Network; NN)-기반 이미지 압축 방법들이 활발히 연구되고 있으며, 기존의 도구-기반 압축 방법들인 BPG 및 JPEG2000에 비해 최대 신호 대 잡음비(Peak Signal-to-Noise Ratio; PSNR) 비존테가드 델타(Bjontegaard Delta; BD)-레이트(rate)의 측면에서 우월한 성능을 보일 수 있다.Neural Network (NN)-based image compression methods are being actively researched, and compared to existing tool-based compression methods such as BPG and JPEG2000, Vizontegard has a higher Peak Signal-to-Noise Ratio (PSNR). Delta (Bjontegaard Delta; BD) can show superior performance in terms of rate.

몇몇 방법들은 H.266 인트라 코딩이라고 불리는 최첨단 코덱에 비해 필적할 만한 결과들을 달성할 수 있다.Some methods can achieve comparable results compared to a state-of-the-art codec called H.266 intra coding.

그러나, 기존의 딥러닝-기반 모델들의 대부분은 서로 다른 목표 압축 수준들에 따라서 개별적으로 훈련되기 때문에, 다양한 압축 수준들을 지원하기 위해서는 많은 개수의 파라미터들을 갖는 여러 모델들이 요구될 수 있다.However, because most of the existing deep learning-based models are individually trained according to different target compression levels, multiple models with a large number of parameters may be required to support various compression levels.

이러한 이슈를 다루기 위해, 조건부(conditional) 변환 또는 적응적 양자화를 사용하는 여러 방법들이 제안될 수 있다.To deal with this issue, several methods using conditional transformation or adaptive quantization can be proposed.

그러나, 이러한 방법의 대부분은 추가적인 네트워크 모듈들, 레이어들 또는 입력들을 요구할 수 있고, 따라서 복잡성 오버헤드를 야기할 수 있다.However, most of these methods may require additional network modules, layers or inputs, thus incurring complexity overhead.

실시예들에서는, 부분적으로 선택된 은닉 표현에 대해서만 엔트로피 부호화/복호화를 수행하는, 새로운 '선택적 표현 압축(Selective Compression of Representations; SCR)' 방법이 제시될 수 있다.In embodiments, a new 'Selective Compression of Representations (SCR)' method may be presented, which performs entropy encoding/decoding only on partially selected hidden representations.

표현의 선택은 목표 품질-적웅적(quality-adaptive) 방식으로의 3D 이진 마스크 생성 프로세스를 통해 결정될 수 있다.The choice of representation may be determined through a 3D binary mask generation process in a targeted quality-adaptive manner.

SCR 방법의 3D 이진 마스크 생성에서는, (i) 멀티-채널 피처 맵(3D 표현들)에 대한, 목표 품질 수준에 독립적인, 동일한 크기의 3D 중요도 맵이 생성될 수 있고, (ii) 주어진 목표 품질 수준에 대한 채널-별 중요도 조정 곡선을 통해 3D 중요도 맵이 조정될 수 있고, (iii) 조정된 3D 중요도 맵을 반올림(rounding-off)함으로써 3D 이진 마스크가 생성될 수 있다.In the 3D binary mask generation of the SCR method, (i) for multi-channel feature maps (3D representations), 3D importance maps of the same size can be generated, independent of the target quality level, and (ii) for a given target quality. A 3D importance map may be adjusted via a channel-specific importance adjustment curve for levels, and (iii) a 3D binary mask may be generated by rounding-off the adjusted 3D importance map.

목표-품질-독립적(target-quality-independent)인 3D 중요도 맵은 채널-별 중요도 조정 이후에는 목표-품질-의존적(target-quality-dependent)이 될 수 있다.A 3D importance map that is target-quality-independent can become target-quality-dependent after channel-specific importance adjustment.

실시예들의 방법들은 적응적 양자화 스킴과 통합될 수 있고, 여기에서 실시예의 은닉 표현의 선택적 압축 및 적응적 양자화와 함께 전체의 요소들이 엔드-투-엔드 방식으로 공동으로 최적화될 수 있다.The methods of the embodiments may be integrated with an adaptive quantization scheme, where the overall elements may be jointly optimized in an end-to-end manner with selective compression and adaptive quantization of the hidden representation of the embodiments.

아키텍처의 측면에서, 실시예들의 SCR 방법은 한정된 개수의 목표 품질 수준들에 대한 3D 중요도 맵 및 중요도 조정 곡선들을 생성하기 위해 오직 단일 1×1 컨볼루션 레이어만을 활용함으로써 오버헤드를 최소화할 수 있다.In terms of architecture, the SCR method of embodiments can minimize overhead by utilizing only a single 1×1 convolutional layer to generate 3D importance maps and importance adjustment curves for a limited number of target quality levels.

추가로, SCR 방법은 2 개의 이산(discrete) 목표 품질 수준들 간의 중요도 조정 곡선들의 단순한 비-선형 보간을 통해 가변-레이트 압축을 지속적으로 지원할 수 있다.Additionally, the SCR method can continuously support variable-rate compression through simple non-linear interpolation of importance scaling curves between two discrete target quality levels.

더 나아가, SCR 방법은 상당한 양의 비선택된 표현들에 대한 엔트로피 복호화 프로세스를 생략함으로써 참조 압축 모델 및 초 경량(very lightweight) 적응적 양자화-기반 가변-레이트 방법의 양자에 비해 복호화 시간을 단축할 수 있다.Furthermore, the SCR method can reduce decoding time compared to both the reference compression model and the very lightweight adaptive quantization-based variable-rate method by omitting the entropy decoding process for a significant amount of unselected representations. there is.

실시예들의 SCR 방법의 부호화/복호화 효율은 다양한 목표 품질 수준들에 대하여 개별적으로 훈련된 참조 압축 모델들의 부호화/복호화 효율들 보다 더 우월하거나 비슷할 수 있고, 적응적 양자화-기반 방법의 부호화/복호화 효율 보다 더 우수할 수 있다.The encoding/decoding efficiency of the SCR method of embodiments may be superior to or similar to the encoding/decoding efficiencies of reference compression models trained individually for various target quality levels, and the encoding/decoding efficiency of the adaptive quantization-based method It can be better than that.

실시예들의 방법들은 아래와 같은 특징들을 가질 수 있다:The methods of the embodiments may have the following features:

- 실시예들의 SCR 방법은 완전히 일반화된 방식 및 목표 품질-적응 방식으로 표현을 선택적으로 압축하는 최초의 NN-기반 가변 속도 이미지 압축 방법일 수 있다. 실시예들의 SCR 방법은 개별적으로 훈련된 참조 압축 모델들의 압축 효율들에 필적할 만한 압축 효율을 제공할 수 있다.- The SCR method of the embodiments may be the first NN-based variable rate image compression method that selectively compresses representations in a fully generalized and target quality-adaptive manner. The SCR method of embodiments can provide compression efficiencies comparable to those of individually trained reference compression models.

- 실시예들의 SCR 방식은 다른 이미지 압축 모델에, 이미지 압축 모델의 아키텍처를 수정하지 않은 채, 적용될 수 있다. 따라서, 실시예들의 SCR 방식은 높은 적용성을 가질 수 있다. 단 하나의 1×1 컨볼루션 레이어 및 소수의 중요도 조정 곡선들을 포함하는 초 경량 모듈들이 압축 모델에 통합될 수 있다. 실시예들의 SCR 방법은 선택적 압축에 기인하여 경량 가변-레이트 모델 및 참조 압축 모델의 복호화 시간에 비해 복호화 시간을 단축시킬 수 있다.- The SCR method of the embodiments can be applied to other image compression models without modifying the architecture of the image compression model. Therefore, the SCR method of the embodiments can have high applicability. Ultra-lightweight modules containing only one 1×1 convolutional layer and a few importance tuning curves can be integrated into the compression model. The SCR method of the embodiments can shorten the decoding time compared to the decoding time of the lightweight variable-rate model and the reference compression model due to selective compression.

- 실시예들의 SCR 방법은 선택적 압축이 훈련되는 이산 품질 수준들 간의 중요도 조정 곡선들의 단순한 보간에 의해 가변-레이트 압축을 지속적으로 가능하게 할 수 있다.- The SCR method of embodiments may continuously enable variable-rate compression by simple interpolation of importance tuning curves between discrete quality levels on which selective compression is trained.

전반적인 아키텍처overall architecture

도 1은 실시예의 SCR 방법의 전반적인 아키텍처를 나타낸다.1 shows the overall architecture of the SCR method of the embodiment.

도 1에서, SCR 방식은 하이퍼프라이어(hyperprior) 모델에 통합될 수 있다. In Figure 1, the SCR scheme can be integrated into a hyperprior model.

도 1에서, 가변-레이트 압축을 위한 요소들은 점선으로 된 박스들로서 표시될 수 있다.In Figure 1, elements for variable-rate compression can be indicated as dotted boxes.

특히, 선택적 압축을 위한 요소들은 굵은 선으로 강조 표시될 수 있다.In particular, elements for selective compression may be highlighted with a bold line.

도 1에서 도시던 것과 같이, 실시예들의 SCR 방법은 하이퍼-부호화기(encoder) 및 하이퍼-복호화기(decoder)를 갖는 압축 아키텍처들 상에서 적응적 양자화와 결합될 수 있다.As shown in Figure 1, the SCR method of embodiments can be combined with adaptive quantization on compression architectures with a hyper-encoder and hyper-decoder.

실시예들에서는, SCR 방법은, 범용성(generality)을 가지며 그 효율성을 보이기 위해, 하이퍼프라이어, 평균-스케일(mean-scale) 및 컨텍스트와 같은 참조 압축 모델들에 적용될 수 있다.In embodiments, the SCR method can be applied to reference compression models such as hyperprior, mean-scale, and context to have generality and demonstrate its effectiveness.

실시예들에서, 하이퍼프라이어는 모델의 이름을 나타낼 수 있고, 부수 정보를 나타낼 수 있다. 하이퍼프라이어 모델 등과 같은 모델들이 하이퍼프라이어 부수 정보를 사용할 수 있다.In embodiments, the hyperprior may indicate the name of the model and may indicate collateral information. Models such as the hyperprior model can use hyperprior side information.

하이퍼-부호화기 및 하이퍼-복호화기를 갖는 아키텍처에서는 부호화기 네트워크를 사용하여 입력 영상

Figure pat00001
가 표현
Figure pat00002
로 변환될 수 있다. 하이퍼 부호화기 및 하이퍼 복호화기는
Figure pat00003
의 양자화된 표현
Figure pat00004
에 대한 분포 파라미터를 하이퍼프라이어로 명명된 부수 정보로서 부호화/복호화하기 위해 사용될 수 있고, 이러한 분포 파라미터를 통해
Figure pat00005
가 엔트로피-부호화 및 엔트로피-복호화될 수 있다.In an architecture with a hyper-encoder and a hyper-decoder, the input image is encoded using an encoder network.
Figure pat00001
expression
Figure pat00002
can be converted to Hyper encoder and hyper decoder are
Figure pat00003
Quantized representation of
Figure pat00004
It can be used to encode/decode the distribution parameters for as side information named hyperprior, and through these distribution parameters,
Figure pat00005
can be entropy-encoded and entropy-decoded.

다음으로, 양자화된 표현

Figure pat00006
는 복호화기 네트워크를 통해 이미지
Figure pat00007
로 복원될 수 있다.Next, the quantized representation
Figure pat00006
image through a decryptor network
Figure pat00007
can be restored.

이러한 베이스 압축 아키텍처 상에, 적응형 양자화 및 선택적 압축이라는 2 개의 추가적인 요소들을 활용함으로써 가변 속도 압축이 가능하게 될 수 있다.On this base compression architecture, variable rate compression can be made possible by utilizing two additional elements: adaptive quantization and selective compression.

부호화기 측에서의 표현 요소들의 선택은 아래의 수학식 1과 같이 표현될 수 있다.Selection of expression elements on the encoder side can be expressed as Equation 1 below.

Figure pat00008
Figure pat00008

여기에서,

Figure pat00009
는 목적 품질 수준
Figure pat00010
에서의 양자화된 표현일 수 있다.From here,
Figure pat00009
is the objective quality level
Figure pat00010
It may be a quantized expression in .

여기에서,

Figure pat00011
에 대하서 아래의 수학식 2가 성립할 수 있다. 즉, 수학식 2의 조건/정의 하에서 수학식 1이 성립할 수 있다.From here,
Figure pat00011
For this reason, Equation 2 below can be established. In other words, Equation 1 can be established under the conditions/definition of Equation 2.

Figure pat00012
Figure pat00012

여기에서,

Figure pat00013
는 주어진 목표 품질 수준
Figure pat00014
에 대한
Figure pat00015
의 선택된 요소들의 집합일 수 있다.From here,
Figure pat00013
is the given target quality level
Figure pat00014
for
Figure pat00015
It may be a set of selected elements of .

Figure pat00016
는 타겟 품질-적응적 양자화 연산자일 수 있다. 여기에서,
Figure pat00017
에 대하여 양자화 벡터
Figure pat00018
를 갖고, 아래의 수학식 3이 성립할 수 있다.
Figure pat00016
may be a target quality-adaptive quantization operator. From here,
Figure pat00017
With respect to the quantization vector
Figure pat00018
With this, Equation 3 below can be established.

Figure pat00019
Figure pat00019

Figure pat00020
Figure pat00021
에 대한 요소 선택 연산자일 수 있다.
Figure pat00020
silver
Figure pat00021
It can be an element selection operator for .

Figure pat00022
Figure pat00023
및 하이퍼프라이어
Figure pat00024
에 대하여 생성된 3D 이진 마스크를 나타낼 수 있다.
Figure pat00022
silver
Figure pat00023
and hyperfryer
Figure pat00024
It can represent the 3D binary mask generated for .

표현

Figure pat00025
는 도 1에서 도시된 입력 영상
Figure pat00026
에 대한 부호화기 네트워크
Figure pat00027
의 출력
Figure pat00028
일 수 있다.expression
Figure pat00025
is the input image shown in Figure 1
Figure pat00026
Encoder network for
Figure pat00027
output of
Figure pat00028
It can be.

Figure pat00029
는 목표 품질 의존 분포
Figure pat00030
에 기반하는 엔트로피 모델을 사용하여 엔트로피-부호화 및 엔트로피-복호화될 수 있다.
Figure pat00029
is the target quality dependent distribution
Figure pat00030
It can be entropy-encoded and entropy-decoded using an entropy model based on .

복호화기 측의 복원된 영상(reconstructed image)

Figure pat00031
는 아래의 수식 4와 같을 수 있다.Reconstructed image on the decoder side
Figure pat00031
may be the same as Equation 4 below.

Figure pat00032
Figure pat00032

여기에서, 수학식 5 및 수학식 6이 성립할 수 있다. 즉, 수학식 5 및 수학식 6의 조건/정의 하에서 수학식 4이 성립할 수 있다.Here, Equation 5 and Equation 6 can be established. In other words, Equation 4 can be established under the conditions/definition of Equation 5 and Equation 6.

Figure pat00033
Figure pat00033

Figure pat00034
Figure pat00034

여기에서,

Figure pat00035
는, 복호화기 네트워크
Figure pat00036
의 출력으로서의, 주어진 타겟 품질 수준
Figure pat00037
에 대한 복원된 영상(reconstructed image)일 수 있다.From here,
Figure pat00035
, the decoder network
Figure pat00036
As the output of, given the target quality level
Figure pat00037
It may be a reconstructed image for .

Figure pat00038
는 역-양자화 벡터
Figure pat00039
를 입력
Figure pat00040
에 곱하는 적응적 역-양자화 연산자일 수 있다.
Figure pat00038
is the inverse-quantized vector
Figure pat00039
Enter
Figure pat00040
It may be an adaptive inverse-quantization operator that multiplies with .

Figure pat00041
는 3D 이진 마스크
Figure pat00042
를 사용함으로써 1D 형태를 갖는 선택된 요소들
Figure pat00043
을 3D-형태된(3D-shaped) 표현의 요소들로 변형(convert)하는 재형태(reshaping) 연산자일 수 있다. 이 때, 1D 형태의
Figure pat00044
을 구성하는 각각의 요소는 부호화기의
Figure pat00045
요소 선택 과정을 거치기 이전 위치에 재배치될 수 있다.
Figure pat00041
is a 3D binary mask
Figure pat00042
Selected elements have a 1D shape by using
Figure pat00043
It may be a reshaping operator that converts into elements of a 3D-shaped representation. At this time, 1D form
Figure pat00044
Each element that constitutes the encoder's
Figure pat00045
It can be relocated to the location before going through the element selection process.

비선택된 요소들에 대하여, 재형태 연산자

Figure pat00046
는 0들을 대응하는 위치들에 위치시킬 수 있다.For unselected elements, reformat operator
Figure pat00046
can place zeros in corresponding positions.

Figure pat00047
Figure pat00048
의 예시적인 코드들은 아래에서 개시된다.
Figure pat00047
and
Figure pat00048
Exemplary codes are disclosed below.

수학식 3 및 수학식 5에서,

Figure pat00049
Figure pat00050
의 벡터 차원수들(dimensionalities)은
Figure pat00051
일 수 있으며,
Figure pat00052
Figure pat00053
내의 채널들의 개수일 수 있다. 이로서,
Figure pat00054
의 양자화 및
Figure pat00055
의 역-양자화는 대응하는(respective) 요소들
Figure pat00056
Figure pat00057
에 의해 채널-별로 각각 수행될 수 있다.In Equation 3 and Equation 5,
Figure pat00049
and
Figure pat00050
The vector dimensionality of is
Figure pat00051
It can be,
Figure pat00052
Is
Figure pat00053
It may be the number of channels within. With this,
Figure pat00054
Quantization of and
Figure pat00055
The inverse quantization of the corresponding (respective) elements
Figure pat00056
and
Figure pat00057
It can be performed individually on a channel-by-channel basis.

3D 이진 마스크 생성Generate 3D binary mask

도 2는 일 예에 따른 3D 이진 마스크 생성 프로세스를 나타낸다.Figure 2 shows a 3D binary mask generation process according to one example.

3D 이진 마스크 생성 프로세스는 아래의 3 개의 단계들로 구성될 수 있다:The 3D binary mask creation process can consist of the following three steps:

(1) 3D 중요도 맵 생성,(1) Generating 3D importance maps;

(2) 중요도 조정(2) Importance adjustment

(3) 이진화(3) Binarization

3D 이진 마스크 생성 프로세스는 아래의 수학식 7과 같이 정의될 수 있다.The 3D binary mask creation process can be defined as Equation 7 below.

Figure pat00058
Figure pat00058

여기에서,

Figure pat00059
는 입력으로서 사용되는 하이퍼프라이어
Figure pat00060
에 대한 하이퍼-복호화기를 통해 생성된 3D 중요도 맵일 수 있다.From here,
Figure pat00059
is the hyperfryer used as input.
Figure pat00060
It may be a 3D importance map generated through a hyper-decoder for .

Figure pat00061
는 차원수
Figure pat00062
의 파라미터 벡터일 수 있다.
Figure pat00063
는 아래의 수식 8과 같이 정의될 수 있다.
Figure pat00061
is the number of dimensions
Figure pat00062
It may be a parameter vector of .
Figure pat00063
Can be defined as Equation 8 below.

Figure pat00064
Figure pat00064

Figure pat00065
Figure pat00066
와 같을 수 있다.
Figure pat00065
silver
Figure pat00066
It may be the same as

Figure pat00067
의 파라미터들은 주어진 목표 품질
Figure pat00068
에 대한 채널-별 중요도 조정 곡선들을 결정하기 위해 학습될 수 있다.
Figure pat00067
The parameters of are given the target quality
Figure pat00068
Can be learned to determine channel-specific importance adjustment curves for .

Figure pat00069
는 라운딩-오프(rounding-off)를 갖는 이진화(binarization) 연산자일 수 있다.
Figure pat00069
may be a binarization operator with rounding-off.

3D 중요도 맵 생성Create 3D importance map

3D 중요도 맵

Figure pat00070
Figure pat00071
내의 각 요소의 기저를 이루는(underlying) 중요도를 나타낼 수 있다.3D importance map
Figure pat00070
silver
Figure pat00071
It can indicate the underlying importance of each element within.

3D 중요도 맵

Figure pat00072
은 0 및 1의 사이의 범위 내의 값들을 가질 수 있다.3D importance map
Figure pat00072
can have values in the range between 0 and 1.

Figure pat00073
를 생성하는 전용의(dedicated) 복잡한(complex) 네트워크를 활용하지 않은 채, 하이퍼 복호화기 내의 (활성화 이후의) 끝에서 두 번째(penultimate) 컨볼루션 레이어의 출력이 마스크 생성 모듈 내의 단일한 1×1 컨볼루션 레이어로 입력될 수 있다. 그 뒤를 이어, 0 및 1의 사이의 중요도 값들을 획득하기 위해 클리핑 함수(function)가 적용될 수 있다. 즉, 1×1 컨볼루션 레이어의 출력에 대하여 클리핑 함수가 적용될 수 있다. 마스크 생성 모듈 내의 단일한 1×1 컨볼루션 레이어의 입력은 하이퍼복호화기 내의 다른 레이어의 출력일 수 있다. 일 예로, 마스크 생성 모듈 내의 단일한 1×1 컨볼루션 레이어의 입력은 하이퍼 복호화기의 최종 출력 또는 두 번째(penultimate) 레이어보다 더 이전 레이어의 출력일 수 있다.
Figure pat00073
Without utilizing a complex network dedicated to generating It can be input into a convolutional layer. Subsequently, a clipping function can be applied to obtain importance values between 0 and 1. That is, a clipping function can be applied to the output of the 1×1 convolution layer. The input of a single 1×1 convolutional layer in the mask generation module may be the output of another layer in the hyperdecoder. As an example, the input of a single 1×1 convolutional layer in the mask generation module may be the final output of a hyper decoder or the output of a layer earlier than the penultimate layer.

여기에서, 3D 중요도 맵은, 목표 품질 레벨들에 의존하지 않고, 입력 영상들에 의존하여, 생성될 수 있다. 따라서, 3D 중요도 맵은 요소-별 중요도의 관점에서

Figure pat00074
의 특성을 나타낼 수 있다.Here, the 3D importance map can be generated depending on the input images, without depending on the target quality levels. Therefore, the 3D importance map is
Figure pat00074
characteristics can be expressed.

중요도 조정Adjust importance

도 3은 일 예에 따른 8 개의 목표 품질 레벨들 내에서의 중요도 조정 곡선들을 나타낸다.3 shows importance adjustment curves within eight target quality levels according to an example.

SCR 방법은 하이퍼프라이어 모델 상에 구현될 수 있다.The SCR method can be implemented on the hyperprior model.

각 표현 요소의 실제의(actual) 중요도는 다양한 목표 품질 수준들에 따라서 변할 수 있다. 예를 들면, 영상들 내의 높은 복잡도(complexity)의 텍스처(texture)에 대응하는 몇몇 표현 요소들은 저-품질 압축에서는 필수적으로 요구되지 않을 수 있다.The actual importance of each presentation element may vary according to various target quality levels. For example, some presentation elements that correspond to high complexity textures in images may not be essential in low-quality compression.

따라서, 모든 품질 수준들에 대하여 공통적으로 사용되는, 3D 중요도 맵을 특정 목표 품질 수준에 따라서 조정하는 것은 자연스러울 수 있다.Therefore, it may be natural to adjust the 3D importance map, which is commonly used for all quality levels, according to the specific target quality level.

이러한 조정을 위해, 다양한 목표 품질 수준들에 대한 중요도 조정 곡선들을 사용하여 3D 중요도 맵

Figure pat00075
이 조정되는 방식이 제공될 수 있다.For this adjustment, a 3D importance map is created using importance adjustment curves for various target quality levels.
Figure pat00075
This coordinated method may be provided.

중요도 조정 곡선들은

Figure pat00076
의 요소 값들을 채널-별로 변경할 수 있다. The importance adjustment curves are
Figure pat00076
Element values can be changed on a channel-by-channel basis.

중요도 조정 곡선들의 곡률들(curvatures)은 파라미터 벡터

Figure pat00077
로서 학습될 수 있다. 여기에서,
Figure pat00078
는 1 보다 더 크고,
Figure pat00079
보다 더 작을 수 있다.
Figure pat00080
는 학습에 이용되는 목표 품질 수준들의 총 개수일 수 있다.The curvatures of the importance adjustment curves are parameter vectors.
Figure pat00077
It can be learned as. From here,
Figure pat00078
is greater than 1,
Figure pat00079
It can be smaller than
Figure pat00080
may be the total number of target quality levels used for learning.

목표 품질은

Figure pat00081
가 증가함에 따라 향상될 수 있다.The target quality is
Figure pat00081
It can be improved as .

도 3은 중요도 조정 곡선들의 몇몇 예들을 보일 수 있다.Figure 3 shows some examples of importance adjustment curves.

도 3에서, 수평 축은 조정되어야 할 입력

Figure pat00082
값을 나타낼 수 있다. 수직 축은 입력
Figure pat00083
값의 조정된 결과를 나타낼 수 있다.In Figure 3, the horizontal axis is the input to be adjusted
Figure pat00082
It can represent a value. The vertical axis is the input
Figure pat00083
The adjusted result of the value can be displayed.

또한, 중요도 조정 곡선들에 부착된 숫자들은

Figure pat00084
개의 목표 품질 레벨들에 대한 훈련된
Figure pat00085
벡터들의 평균 값들을 가리킬 수 있다.Additionally, the numbers attached to the importance adjustment curves are
Figure pat00084
Dogs trained to target quality levels
Figure pat00085
It can refer to the average values of vectors.

도 3에 따르면, 평균 측면에서, 6 보다 더 큰

Figure pat00086
에 대한 중요도 조정 곡선들은 입력
Figure pat00087
의 요소들을 증폭하는(amplify) 경향을 가질 수 있다. 반면, 6보다 더 작은
Figure pat00088
에 대한 중요도 조정 곡선들은 입력
Figure pat00089
의 요소들을 감쇠시킬(attenuating) 수 있다.
Figure pat00090
가 6인 경우에 대하여, 중요도 조정의 이전 및 이후에서 변동(variation)이 거의 없을 수 있다. 이 때, 평균
Figure pat00091
는 0.9897일 수 있다.According to Figure 3, in terms of average, greater than 6
Figure pat00086
The importance adjustment curves for the input
Figure pat00087
It may have a tendency to amplify elements of . On the other hand, smaller than 6
Figure pat00088
The importance adjustment curves for the input
Figure pat00089
It is possible to attenuate the elements of
Figure pat00090
For the case where is 6, there may be little variation before and after the importance adjustment. At this time, average
Figure pat00091
may be 0.9897.

결과적으로,

Figure pat00092
는 더 높은 목표 품질 수준들에 대하여 전반적으로(overall) 더 강하게 증폭될 수 있다.As a result,
Figure pat00092
can be amplified more strongly overall for higher target quality levels.

반면, 일반적으로, 더 낮은 목표 품질 수준들에 대하여,

Figure pat00093
는 크게 감쇄될 수 있다. 따라서,
Figure pat00094
요소들 중 1에 가까운 값을 갖는 소수의 일부만이
Figure pat00095
요소들의 중요도들을 유지할 수 있다.On the other hand, in general, for lower target quality levels,
Figure pat00093
can be greatly attenuated. thus,
Figure pat00094
Only a small fraction of the elements have values close to 1.
Figure pat00095
The importance of elements can be maintained.

Figure pat00096
벡터들의 총 개수는
Figure pat00097
일 수 있다. 따라서, 총
Figure pat00098
×
Figure pat00099
개의 파라미터들이 모든
Figure pat00100
벡터들에 대하여 학습될 수 있다.
Figure pat00096
The total number of vectors is
Figure pat00097
It can be. Therefore, total
Figure pat00098
×
Figure pat00099
All parameters are
Figure pat00100
Vectors can be learned.

실시예들에서,

Figure pat00101
는 8로 설정될 수 있다.
Figure pat00102
는 참조 모델에서의
Figure pat00103
로 설정될 수 있다.In embodiments,
Figure pat00101
can be set to 8.
Figure pat00102
is in the reference model
Figure pat00103
It can be set to .

이진화Binization

3D 이진 마스크는 라운딩 연산자에 의해 최종적으로 결정될 수 있다. 라운딩 연산자는

Figure pat00104
와 같이 표시될 수 있다.The 3D binary mask can be finally determined by the rounding operator. The rounding operator is
Figure pat00104
It can be displayed as follows.

여기에서 출력 3D 이진 마스크 내의 "1" 값들은

Figure pat00105
내 동일한 위치에서의 대응하는 요소들이 선택되었음을 나타낼 수 있다.Here, the "1" values in the output 3D binary mask are
Figure pat00105
It can indicate that the corresponding elements at the same location have been selected.

도 4는 일 예에 따른 서로 다른 목표 품질 수준들에 대한 생성된 마스크들을 나타낸다.4 shows generated masks for different target quality levels according to an example.

도 4의 상단에는, 8 개의 목표 품질 레벨들의 샘플 마스크들이 도시되었다. 샘플 마스크들의 진한 부분들은 3D 이진 마스크들에 의한 선택된 표현 요소들을 가리킨다.At the top of Figure 4, sample masks of eight target quality levels are shown. The dark parts of the sample masks indicate the representation elements selected by the 3D binary masks.

도 4의 하단에는, 채널 축을 따라서 평균화된 마스크들이 도시되었다.At the bottom of Figure 4, masks averaged along the channel axis are shown.

목표 품질이 더 높을수록, 특히 더 복잡한 영역들(regions)에서 더 많은 표현 요소들이 선택될 수 있다.The higher the target quality, the more presentation elements can be selected, especially in more complex regions.

예를 들면,

Figure pat00106
는 1.0 부터 8.0까지일 수 있다.For example,
Figure pat00106
can be from 1.0 to 8.0.

실시예들의 SCR 방법은 하이퍼프라이어 모델 상에 구현될 수 있고, Kodim12 영상 세트의 Kodim12 영상이 입력 샘플로서 사용될 수 있다. 입력 샘플에서, 진하게 마크된 구성요소들(components)은 "1" 값들을 가리킬 수 있다.The SCR method of the embodiments can be implemented on a hyperfryer model, and Kodim12 images from the Kodim12 image set can be used as input samples. In the input sample, components marked in bold may indicate “1” values.

예를 들면,

Figure pat00107
가 SCR 방법에서 가장 낮은 품질 수준인 1.0으로 설정되었을 때, 단지 총 요소들의 3.22% 만이 선택될 수 있다. 또한,
Figure pat00108
값이 증가함에 따라 선택 비율은 점진적으로(gradually) 증가할 수 있다.For example,
Figure pat00107
When is set to 1.0, which is the lowest quality level in the SCR method, only 3.22% of the total elements can be selected. also,
Figure pat00108
As the value increases, the selection ratio can increase gradually.

예를 들면,

Figure pat00109
가 8.0인 경우, 표현 요소들의 43.39%가 선택될 수 있다.For example,
Figure pat00109
When is 8.0, 43.39% of the expression elements can be selected.

추가로, 채널 축을 따른 평균된(averaged) 마스트들 내에서 보이는 것과 같이, 실시예들의 SCR 방법은 고-복잡도 영역 내에서 더 많은 표현들을 사용할 수 있다.Additionally, the SCR method of embodiments can use more representations within the high-complexity region, as shown in the averaged masts along the channel axis.

도 5는 일 예에 따른 선택된 표현 요소들의 평균 비율들 대 평균 BPP를 나타낸다.Figure 5 shows average ratios of selected presentation elements versus average BPP according to an example.

도 5를 참조하는 실시예에서, 테스트 세트는 코닥 이미지 세트일 수 있다. 베이스 모델은 하이퍼프라이어일 수 있다.In the embodiment referring to Figure 5, the test set may be a Kodak image set. The base model may be a hyperfryer.

예를 들면, 전체의 코닥(Kodak) 영상 세트에 대하여, 1.0 부터 8.0 까지의 목표 품질 수준들에 대한 선택된 요소들의 평균 비율들(average proportions)은 각각 6.41%, 9.66%, 14.17%, 19.90%, 27.00%, 35.68%, 46.20% 및 55.81%일 수 있다. 여기에서, 도 5에서 도시된 것과 같이, 평균 비율들은 평균 픽셀-당-비트들(Bits Per Pixel; BPP) 값들에 거의 선형적으로 비례할 수 있다.For example, for the entire Kodak image set, the average proportions of selected elements for target quality levels from 1.0 to 8.0 were 6.41%, 9.66%, 14.17%, 19.90%, respectively. It could be 27.00%, 35.68%, 46.20% and 55.81%. Here, as shown in Figure 5, the average ratios may be approximately linearly proportional to the average Bits Per Pixel (BPP) values.

도 6은 일 예에 따른 저 품질 수준으로부터 고 품질 수준으로의 재사용된 표현 요소들의 평균 비율들을 나타낸다.Figure 6 shows the average percentages of reused presentation elements from a low quality level to a high quality level according to an example.

도 6을 참조하는 실시예에서, 테스트 세트는 코닥 이미지 세트일 수 있다. 베이스 모델은 하이퍼프라이어일 수 있다.In the embodiment referring to Figure 6, the test set may be a Kodak image set. The base model may be a hyperfryer.

도 6은 낮은 목표 품질 레벨에서 얼마나 많은 표현들이 더 높은 목표 품질 수준들을 위해 일반적으로 사용(또는 선택)되는가를 나타낼 수 있다.Figure 6 may indicate how many representations at a lower target quality level are typically used (or selected) for higher target quality levels.

예를 들면, 도 6에서, 목표 품질 레벨

Figure pat00110
가 2일 때의 선은 표현 요소들의 100%, 99.8%, 99.6%, 99.0%, 98.3% 및 98.2%를 가리킬 수 있다. 목표 품질 레벨
Figure pat00111
가 2일 때 선택된 표현 요소들은 3.0에서 8.0까지의 목표 품질 레벨
Figure pat00112
들에 대해서도 각각 재사용될 수 있다.For example, in Figure 6, the target quality level
Figure pat00110
When is 2, the line can indicate 100%, 99.8%, 99.6%, 99.0%, 98.3%, and 98.2% of the expression elements. target quality level
Figure pat00111
When is 2, the selected expression elements have target quality levels from 3.0 to 8.0.
Figure pat00112
Each can also be reused.

도 6에 따르면, 가 8.0인 케이스는 가 1.0인 케이스에 대한 선택된 표현 요소들의 97.6%를 상당하게 재사용할 수 있다.According to Figure 6, The case where is 8.0 is For the case where is 1.0, 97.6% of the selected expression elements can be significantly reused.

이러한 재사용은 실시예들의 SCR 방법이 서로 다른 목표 품질 수준들에 대하여 표현 요소들을 별도로 선택하지 않고, 다양한 목표 품질 수준들에 대하여 공통 구성요소들로서 표현 요소들의 상당(large) 부분을 적극적으로 취한다는 것을 나타낼 수 있다.This reuse means that the SCR method of the embodiments does not select representation elements separately for different target quality levels, but actively takes a large portion of representation elements as common components for various target quality levels. It can be expressed.

훈련training

SCR 모델은 아래의 수학식 9에 따라 공식화된(formulated) 총 손실을 사용하는 엔드-투-엔드 방식으로 훈련될 수 있다.The SCR model can be trained in an end-to-end manner using the total loss formulated according to Equation 9 below.

Figure pat00115
Figure pat00115

여기에서,

Figure pat00116
에 대하서 아래의 수학식 10이 성립할 수 있다. 즉, 수학식 10의 조건/정의 하에서 수학식 9가 성립할 수 있다.From here,
Figure pat00116
For this reason, Equation 10 below can be established. In other words, Equation 9 can be established under the conditions/definition of Equation 10.

Figure pat00117
Figure pat00117

여기에서,

Figure pat00118
는 타겟 품질 수준
Figure pat00119
에 대한 레이트 항(term)을 나타낸다.
Figure pat00120
는 타겟 품질 수준
Figure pat00121
에 대한 왜곡(distortion) 항을 나타낸다.From here,
Figure pat00118
is the target quality level
Figure pat00119
Indicates the rate term for .
Figure pat00120
is the target quality level
Figure pat00121
It represents the distortion term for .

Figure pat00122
는 레이트 및 왜곡 간의 균형(balance)를 조정하기 위한 파라미터를 나타낸다.
Figure pat00123
는 아래의 수학식 11과 같이 정의될 수 있다.
Figure pat00122
represents a parameter for adjusting the balance between rate and distortion.
Figure pat00123
Can be defined as Equation 11 below.

Figure pat00124
Figure pat00124

Figure pat00125
는 입력 영상
Figure pat00126
및 복원된 영상
Figure pat00127
간의 중간 제곱된 오차(Mean Squared Error; MSE) 또는 멀티 스케일-구조적 유사성(Multi Scale-Structural SIMilarity; MS-SSIM)일 수 있다.
Figure pat00125
is the input image
Figure pat00126
and restored video
Figure pat00127
It may be Mean Squared Error (MSE) or Multi Scale-Structural SIMilarity (MS-SSIM).

MS-SSIM-기반 최적화에 있어서, 사용되는 왜곡 항

Figure pat00128
은 3000(1 - MS-SSIM(
Figure pat00129
,
Figure pat00130
))일 수 있다.In MS-SSIM-based optimization, distortion terms used
Figure pat00128
is 3000(1 - MS-SSIM (
Figure pat00129
,
Figure pat00130
)) can be.

Figure pat00131
Figure pat00132
Figure pat00133
의 양자화된 표현들에 대한 계산된 크로스-엔트로피일 수 있다.
Figure pat00131
Is
Figure pat00132
and
Figure pat00133
It may be the calculated cross-entropy for quantized representations of .

Figure pat00134
의 경우에서, 양자화 및 마스크 생성 프로세스들은 각 목표 품질 수준
Figure pat00135
에 대하여 다르기 때문에, 크로스 엔트로피
Figure pat00136
가 아래의 수학식 12와 같이 목적 품질 수준
Figure pat00137
에 대하여 사용될 수 있다.
Figure pat00134
In this case, the quantization and mask generation processes are performed at each target quality level.
Figure pat00135
Since it is different with respect to
Figure pat00136
The objective quality level is as shown in Equation 12 below:
Figure pat00137
It can be used against.

Figure pat00138
Figure pat00138

여기에서,

Figure pat00139
에 대하서 아래의 수학식 13이 성립할 수 있다. 즉, 수학식 13의 조건/정의 하에서 수학식 12가 성립할 수 있다.From here,
Figure pat00139
For this reason, Equation 13 below can be established. In other words, Equation 12 can be established under the conditions/definition of Equation 13.

Figure pat00140
Figure pat00140

Figure pat00141
는 입력 영상
Figure pat00142
내의 픽셀들의 개수일 수 있다.
Figure pat00141
is the input image
Figure pat00142
It may be the number of pixels within.

Figure pat00143
Figure pat00144
의 선택된 요소들
Figure pat00145
의 총 개수일 수 있다.
Figure pat00143
Is
Figure pat00144
selected elements of
Figure pat00145
It may be the total number of .

선택된 표현 요소들의 크로스 엔트로피

Figure pat00146
는, 서로 다른 목표 품질 수준들에 대하여 변하는
Figure pat00147
의 분포를 다루기 위하여, 근사 확률 질량 함수(Probability Mass Function; PMF)
Figure pat00148
에 기반하여 계산될 수 있다.Cross entropy of selected expression elements
Figure pat00146
varies for different target quality levels.
Figure pat00147
To deal with the distribution of , an approximate Probability Mass Function (PMF) is used.
Figure pat00148
It can be calculated based on .

특히,

Figure pat00149
의 추산된(estimated) 분포 파라미터들
Figure pat00150
Figure pat00151
Figure pat00152
Figure pat00153
로서 각각 결정될 수 있다.especially,
Figure pat00149
The estimated distribution parameters of
Figure pat00150
and
Figure pat00151
silver
Figure pat00152
and
Figure pat00153
Each can be determined as .

여기에서,

Figure pat00154
값 및
Figure pat00155
값은 베이스 압축 모델들로부터 획득될 수 있다.From here,
Figure pat00154
value and
Figure pat00155
Values can be obtained from base compression models.

Figure pat00156
는 중간(mean) 파라미터일 수 있다.
Figure pat00157
는 양자화된 표현
Figure pat00158
의 엔트로피 모델에 대한 중건 파라미터일 수 있다.
Figure pat00156
may be a mean parameter.
Figure pat00157
is a quantized representation
Figure pat00158
It may be a neutral parameter for the entropy model of .

Figure pat00159
는 스케일 파라미터일 수 있다.
Figure pat00160
는 양자화된 표현
Figure pat00161
의 엔트로피 모델에 대한 스케일 파라미터일 수 있다.
Figure pat00159
may be a scale parameter.
Figure pat00160
is a quantized representation
Figure pat00161
It may be a scale parameter for the entropy model of .

컨텍스트 기반 모델에 대하여, 위치-별(position-wise) 파라미터들

Figure pat00162
Figure pat00163
는 각 공간적(spatial) 좌표
Figure pat00164
에 대하여
Figure pat00165
Figure pat00166
를 통해 각각 획득될 수 있다. For context-based models, position-wise parameters
Figure pat00162
and
Figure pat00163
is each spatial coordinate
Figure pat00164
about
Figure pat00165
and
Figure pat00166
Each can be obtained through .

Figure pat00167
에 대하여 제로-평균(zero-mean) 가우시안-기반 모델이 사용될 때,
Figure pat00168
는 무시될 수 있다.
Figure pat00167
When a zero-mean Gaussian-based model is used,
Figure pat00168
can be ignored.

엔트로피 최소화-기반 압축 모델들에서와 같이, 근사 PMF

Figure pat00169
로서 균일(uniform) 분포를 가지고 컨볼루션된(convolved with) 가우시안 분포 모델이 채용될 수 있다.As in entropy minimization-based compression models, the approximate PMF
Figure pat00169
A Gaussian distribution model convolved with a uniform distribution can be adopted.

또한, 추론에 대해서는, 라운드된 표현

Figure pat00170
의 대신에, 추가적인 균일 노이즈
Figure pat00171
(-0.5, 0.5)가 더해진 표현이 훈련을 위해 사용될 수 있다. 추가적인 균일 노이즈
Figure pat00172
(-0.5, 0.5)가 더해진 표현은
Figure pat00173
로 표시될 수 있다.Also, for inference, the rounded expression
Figure pat00170
Instead of , additional uniform noise
Figure pat00171
Expressions with (-0.5, 0.5) added can be used for training. Additional uniform noise
Figure pat00172
The expression with (-0.5, 0.5) added is
Figure pat00173
It can be displayed as .

마스크의 이진 표현을 학습함에 기인하는 훈련 페이즈(phase) 내에서의 불안전성(instability)을 다루기 위해,

Figure pat00174
보다는 확률적으로(stochastically) 생성된 마스크
Figure pat00175
가 테스트 페이즈 내에서 사용될 수 있다.To deal with instability within the training phase due to learning the binary representation of the mask,
Figure pat00174
A mask generated stochastically rather than
Figure pat00175
Can be used within the test phase.

조정된 3D 중요도 맵은

Figure pat00176
에 대하여 단순한 라운드-오프(rounded-off)가 되지만, 조정된 3D 중요도 맵
Figure pat00177
의 각 요소 값을 출력 마스크의 대응하는 구성요소가 "1"일 확률로 간주함으로써 랜덤으로 샘플링된 이진 표현들을 가지고
Figure pat00178
가 구축될 수 있다.The adjusted 3D importance map is
Figure pat00176
is a simple rounded-off, but adjusted 3D importance map.
Figure pat00177
with randomly sampled binary representations by considering the value of each element of
Figure pat00178
can be built.

Figure pat00179
는 아래의 수학식 14와 같이 생성될 수 있다.
Figure pat00179
Can be generated as in Equation 14 below.

Figure pat00180
Figure pat00180

라운딩-오프 연산자

Figure pat00181
에 의해 야기되는 불연속성은 그래디언트들(gradients)을 역방향(backward)으로 바이패싱(bypassing)함으로써 다루어질 수 있다.Rounding-off operator
Figure pat00181
The discontinuity caused by can be handled by bypassing the gradients backward.

실제의 구현에서, 훈련은

Figure pat00182
Figure pat00183
를 사용하지 않고 수행될 수 있다. 왜냐하면, 비선택된 표현들은
Figure pat00184
를 계산하기 위한 아래의 수학식 15를 사용함으로써 제외될 수 있고,
Figure pat00185
를 계산하기 위해
Figure pat00186
를 통해
Figure pat00187
를 획득할 수 있기 때문이다.In practical implementation, training
Figure pat00182
and
Figure pat00183
It can be done without using . Because the non-selected expressions are
Figure pat00184
It can be excluded by using Equation 15 below to calculate
Figure pat00185
to calculate
Figure pat00186
Through the
Figure pat00187
This is because you can obtain .

Figure pat00188
Figure pat00188

여기에서,

Figure pat00189
에 대하서 아래의 수학식 16이 성립할 수 있다. 즉, 수학식 16의 조건/정의 하에서 수학식 15가 성립할 수 있다.From here,
Figure pat00189
For this reason, Equation 16 below can be established. In other words, Equation 15 can be established under the conditions/definition of Equation 16.

Figure pat00190
Figure pat00190

다른 훈련 세부사항들도 아래에서 기술된다.Other training details are also described below.

연속적인 가변-레이트 압축Continuous variable-rate compression

테스트 동안의 연속적인 가변-레이트 압축을 지원하기 위해, 보간에 의해 아래의 수학식 17에서 정의된 것과 같이

Figure pat00191
가 결정될 수 있다. 여기에서, q는 2 개의 이산 목표 품질 레벨들 사이의 값일 수 있다.To support continuous variable-rate compression during testing, by interpolation, as defined in Equation 17 below:
Figure pat00191
can be decided. Here, q can be a value between two discrete target quality levels.

Figure pat00192
Figure pat00192

예를 들면,

Figure pat00193
가 3.8일 때,
Figure pat00194
Figure pat00195
Figure pat00196
의 요소-별 곱(multiplication)에 의해 결정될 수 있다.For example,
Figure pat00193
When is 3.8,
Figure pat00194
Is
Figure pat00195
and
Figure pat00196
It can be determined by element-wise multiplication of .

Figure pat00197
Figure pat00198
벡터들 또한 상기에서 설명된 것과 동일한 방식으로 보간될 수 있다. 상기의 보간은 비-선형 보간일 수 있다.
Figure pat00197
and
Figure pat00198
Vectors can also be interpolated in the same way as described above. The above interpolation may be non-linear interpolation.

연산자의 코드operator's code

도 7은 일 예에 따른 표현 선택 연산자 및 재형태 연산자의 코드를 나타낸다.Figure 7 shows the code of an expression selection operator and a reformulation operator according to an example.

도 7에서는 선택 연산자

Figure pat00199
및 재형태 연산자
Figure pat00200
를 구현하기 위한 코드가 도시되었다.In Figure 7, the selection operator
Figure pat00199
and reshaping operators
Figure pat00200
The code to implement is shown.

이러한 2 개의 모듈들은 테스트 페이즈에서 사용될 수 있다. 이러한 2 개의 모듈들은 훈련을 위해서는 필수적으로 요구되지 않을 수 있다.These two modules can be used in the test phase. These two modules may not be required for training.

SCR 방법의 훈련 세부사항들Training details of the SCR method

더 안정적이고 더 빠른 훈련을 위해, 아래의 3 개의 단계들을 포함하는 단계-별 훈련이 채용될 수 있다:For more reliable and faster training, step-by-step training can be employed, including the three steps below:

(1) 첫 번째 단계에서, 고정된-레이트 압축 모델이 고 품질 압축을 위해 훈련될 수 있다. 예를 들면, 고 품질 압축에서, 가변-레이트 모델의 목표 품질 수준

Figure pat00201
는 8.0일 수 있다.(1) In the first step, a fixed-rate compression model can be trained for high quality compression. For example, in high-quality compression, the target quality level of a variable-rate model is
Figure pat00201
may be 8.0.

(2) 두 번째 단계에서, 훈련된 고정된-레이트 압축 모델이 기(pre)-훈련된 모델로서 사용될 수 있다. 두 번째 단계의 SCR 변형 모델은 엔드-투-엔드 방식 내의 선택적인 압축 없이 훈련될 수 있다.(2) In the second step, the trained fixed-rate compression model can be used as a pre-trained model. The second-stage SCR deformation model can be trained without selective compression in an end-to-end manner.

(3) 세 번째 단계에서, 두 번째 단계의 훈련된 선택적인 압축을 수행하지 않는 SCR 변형 모델이 선-훈련된 모델로 사용될 수 있다. 세 번째 단계의 SCR 풀 모델은 엔드-투-엔드 방식으로 훈련될 수 있다.(3) In the third step, the SCR variant model that does not perform the trained selective compression of the second step can be used as the pre-trained model. The SCR full model in the third stage can be trained in an end-to-end manner.

각 단계의 성능이 충분하게 수렴될 때까지 모든 훈련 단계들은 최적화기를 사용하여 진행될 수 있다.All training steps can be performed using an optimizer until the performance of each step sufficiently converges.

예를 들면, 이러한 3 개의 단계들의 훈련 반복(iteration) 횟수는 각각 700만, 120만, 120만 회일 수 있다.For example, the number of training iterations for these three stages may be 7 million, 1.2 million, and 1.2 million, respectively.

훈련 데이터 세트로서, 전체의 훈련 세트로부터, 겹치지 않는 방식으로, 잘려진 51,141개의 256×256 크기의 패치들이 사용될 수 있다. 배치 크기는 8로 설정될 수 있다.As a training data set, 51,141 patches of size 256×256 cut from the entire training set in a non-overlapping manner can be used. The batch size can be set to 8.

초기 학습률은 5×10-5로 설정될 수 있다. 최종의 10만 회의 반복들에서는 2×10-6의 학습률이 사용될 수 있다. 이러한 학습률 감쇠는 모든 훈련 페이즈들에 대해 수행될 수 있다.The initial learning rate can be set to 5×10 -5 . In the final 100,000 iterations a learning rate of 2×10 -6 can be used. This learning rate decay can be performed for all training phases.

도 8은 일 실시예에 따른 부호화 장치의 구조를 나타낸다.Figure 8 shows the structure of an encoding device according to an embodiment.

부호화 장치(800)는 부호화기(810), 적응적 양자화부(820), 하이퍼 부호화기(830), 양자화부(835), 제1 엔트로피 부호화기(840), 하이퍼 복호화기(845), 3D 마스크 생성부(850), 표현 선택부(855), 스케일링 및 선택부(860), 제2 엔트로피 부호화기(865) 및 통신부(870)를 포함할 수 있다.The encoding device 800 includes an encoder 810, an adaptive quantization unit 820, a hyper encoder 830, a quantization unit 835, a first entropy encoder 840, a hyper decoder 845, and a 3D mask generator. It may include (850), an expression selection unit (855), a scaling and selection unit (860), a second entropy encoder (865), and a communication unit (870).

부호화 장치(800)는 입력 영상

Figure pat00202
에 대한 부호화를 수행함으로써 생성된 정보를 포함하는 비트스트림을 생성할 수 있다.The encoding device 800 is an input video
Figure pat00202
A bitstream containing the generated information can be generated by performing encoding on .

부호화기(810), 적응적 양자화부(820), 하이퍼 부호화기(830), 양자화부(835), 제1 엔트로피 부호화기(840), 하이퍼 복호화기(845), 3D 마스크 생성부(850), 표현 선택부(855), 스케일링 및 선택부(860), 제2 엔트로피 부호화기(865) 및 통신부(870) 중 적어도 일부는 프로그램 모듈들일 수 있으며, 외부의 장치 또는 시스템과 통신할 수 있다. 프로그램 모듈들은 운영 체제, 응용 프로그램 모듈 및 기타 프로그램 모듈의 형태로 부호화 장치(800)에 포함될 수 있다.Encoder 810, adaptive quantization unit 820, hyper encoder 830, quantization unit 835, first entropy encoder 840, hyper decoder 845, 3D mask generator 850, representation selection At least some of the unit 855, the scaling and selection unit 860, the second entropy encoder 865, and the communication unit 870 may be program modules and may communicate with an external device or system. Program modules may be included in the encoding device 800 in the form of an operating system, application program module, and other program modules.

프로그램 모듈들은 물리적으로는 여러 가지 공지의 기억 장치 상에 저장될 수 있다. 또한, 이러한 프로그램 모듈 중 적어도 일부는 부호화 장치(800)와 통신 가능한 원격 기억 장치에 저장될 수도 있다.Program modules may be physically stored on various known storage devices. Additionally, at least some of these program modules may be stored in a remote memory device capable of communicating with the encoding device 800.

프로그램 모듈들은 일 실시예에 따른 기능 또는 동작을 수행하거나, 일 실시예에 따른 추상 데이터 유형을 구현하는 루틴(routine), 서브루틴(subroutine), 프로그램, 오브젝트(object), 컴포넌트(component) 및 데이터 구조(data structure) 등을 포괄할 수 있지만, 이에 제한되지는 않는다.Program modules are routines, subroutines, programs, objects, components, and data that perform a function or operation according to an embodiment or implement an abstract data type according to an embodiment. It may include data structures, etc., but is not limited thereto.

프로그램 모듈들은 부호화 장치(800)의 적어도 하나의 프로세서(processor)에 의해 수행되는 명령어(instruction) 또는 코드(code)로 구성될 수 있다.Program modules may be composed of instructions or codes that are executed by at least one processor of the encoding device 800.

부호화 장치(800)는 컴퓨터에 의해 독출(read)될 수 있는 기록 매체를 포함하는 컴퓨터 시스템에서 구현될 수 있다.The encoding device 800 may be implemented in a computer system that includes a recording medium that can be read by a computer.

기록 매체는 부호화 장치(800)가 동작하기 위해 요구되는 적어도 하나의 모듈을 저장할 수 있다.The recording medium may store at least one module required for the encoding device 800 to operate.

부호화 장치(800)의 데이터 또는 정보의 통신과 관련된 기능은 통신부(870)를 통해 수행될 수 있다.Functions related to communication of data or information of the encoding device 800 may be performed through the communication unit 870.

예를 들면, 통신부(870)는 비트스트림을 후술될 복호화 장치(1000)로 전송할 수 있다.For example, the communication unit 870 may transmit a bitstream to the decoding device 1000, which will be described later.

도 9는 일 실시예에 따른 부호화 방법의 신호 흐름도이다.Figure 9 is a signal flow diagram of an encoding method according to an embodiment.

단계(910)에서, 부호화기(810)는 입력 영상

Figure pat00203
을 사용하여 은닉 표현
Figure pat00204
를 생성할 수 있다.In step 910, the encoder 810 processes the input image
Figure pat00203
Hidden expression using
Figure pat00204
can be created.

부호화기(810)는 입력 영상

Figure pat00205
에 대한 부호화를 수행함으로써 은닉 표현
Figure pat00206
를 생성할 수 있다.The encoder 810 is an input video
Figure pat00205
Hidden representation by performing encoding on
Figure pat00206
can be created.

단계(920)에서, 목표 품질 수준

Figure pat00207
가 주어졌을 때, 적응적 양자화부(820)는 은닉 표현
Figure pat00208
에 대한 적응적 양자화를 수행함으로써 목표 품질 수준
Figure pat00209
에서의 양자화된 은닉 표현
Figure pat00210
을 생성할 수 있다.At step 920, target quality level
Figure pat00207
When given, the adaptive quantization unit 820 uses the hidden expression
Figure pat00208
Target quality level by performing adaptive quantization for
Figure pat00209
Quantized hidden representation in
Figure pat00210
can be created.

실시예들에서, 특정 구성요소에 목표 품질 수준

Figure pat00211
가 주어진다는 것은 목표 품질 수준
Figure pat00212
가 특정 구성요소에 입력된다는 것을 의미할 수 있다. 또는, 특정 구성요소에 목표 품질 수준
Figure pat00213
가 주어진다는 것은 특정 목표 품질 수준에 대하여 특정 구성요소가 생성된다는 것을 의미할 수 있다.In embodiments, a target quality level for a particular component.
Figure pat00211
Given a target quality level
Figure pat00212
This may mean that is input to a specific component. Or, a target quality level for a specific component.
Figure pat00213
Being given may mean that a specific component is created for a specific target quality level.

예를 들면, 말하자면, 양자화된 은닉 표현

Figure pat00214
은 특정 목표 품질 수준에 대하여 생성될 수 있다.For example, say, quantized hidden representation
Figure pat00214
can be generated for a specific target quality level.

단계(930)에서, 하이퍼 부호화기(830)는 은닉 표현

Figure pat00215
을 사용하여 하이퍼프라이어 은닉(hyperprior latent)
Figure pat00216
를 생성할 수 있다.At step 930, hyper-encoder 830 generates the hidden representation
Figure pat00215
Using hyperprior latent
Figure pat00216
can be created.

단계(935)에서, 양자화부(835)는 하이퍼프라이어 은닉

Figure pat00217
을 사용하여 양자화된 하이퍼프라이어 은닉
Figure pat00218
를 생성할 수 있다.In step 935, the quantization unit 835 performs hyperprior hiding.
Figure pat00217
Quantized hyperprior concealment using
Figure pat00218
can be created.

양자화부(835)는 하이퍼프라이어 은닉

Figure pat00219
에 대한 양자화를 수행함으로써 양자화된 하이퍼프라이어 은닉
Figure pat00220
를 생성할 수 있다.The quantization unit 835 hides the hyperfryer.
Figure pat00219
Concealing the quantized hyperprior by performing quantization on
Figure pat00220
can be created.

단계(940)에서, 제1 엔트로피 부호화기(840)는 양자화된 하이퍼프라이어 은닉

Figure pat00221
에 대한 엔트로피 부호화를 수행함으로써 하이퍼프라이어의 부호화된 정보를 생성할 수 있다.At step 940, the first entropy encoder 840 performs the quantized hyperprior concealment.
Figure pat00221
By performing entropy encoding on , the encoded information of the hyperprior can be generated.

비트스트림은 하이퍼프라이어의 부호화된 정보를 포함할 수 있다.The bitstream may include encoded information of the hyperprior.

단계(945)에서, 하이퍼 복호화기(845)는 양자화된 하이퍼프라이어 은닉

Figure pat00222
를 사용하여 끝에서 두 번째(penultimate) 레이어의 출력을 생성할 수 있다.At step 945, the hyper decoder 845 generates the quantized hyperprior concealment.
Figure pat00222
You can use to generate the output of the penultimate layer.

하이퍼 복호화기(845)는 양자화된 하이퍼프라이어 은닉

Figure pat00223
를 사용하여 파라미터를 생성할 수 있다. 파라미터는 스케일 파라미터
Figure pat00224
를 포함할 수 있다. 파라미터는 평균 파라미터
Figure pat00225
를 포함할 수 있다.The hyper decoder 845 hides the quantized hyperprior.
Figure pat00223
You can create parameters using . The parameter is a scale parameter
Figure pat00224
may include. The parameter is the average parameter
Figure pat00225
may include.

단계(950)에서, 3D 마스크 생성부(850)는 하이퍼 복호화기의 특정 레이어의 출력을 사용하여 3D 이진 마스크를 생성할 수 있다.In step 950, the 3D mask generator 850 may generate a 3D binary mask using the output of a specific layer of the hyper decoder.

특정 레이어는 끝에서 두 번째(penultimate)일 수 있다. 3D 마스크 생성부(850)는 하이퍼 복호화기의 끝에서 두 번째(penultimate) 레이어의 출력을 사용하여 3D 이진 마스크를 생성할 수 있다.Certain layers may be penultimate. The 3D mask generator 850 may generate a 3D binary mask using the output of the penultimate layer of the hyper decoder.

실시예들에서, 3D 마스크는 3D 이진 마스크를 의미할 수 있다.In embodiments, 3D mask may refer to a 3D binary mask.

하이퍼 복호화기로는 양자화된 하이퍼프라이어 은닉

Figure pat00226
가 입력될 수 있다. 하이퍼 복호화기는 양자화된 하이퍼프라이어 은닉
Figure pat00227
에 대한 복호화를 수행함으로써 끝에서 두 번째(penultimate) 레이어의 출력을 생성할 수 있다.Quantized hyperprior concealment with hyperdecoder
Figure pat00226
can be entered. The hyperdecoder hides the quantized hyperprior.
Figure pat00227
By performing decoding on , the output of the penultimate layer can be generated.

목표 품질 수준

Figure pat00228
가 주어졌을 때, 3D 마스크 생성부(850)는 끝에서 두 번째(penultimate) 레이어의 출력을 사용하여 목표 품질 수준
Figure pat00229
에 대한 3D 이진 마스크를 생성할 수 있다.target quality level
Figure pat00228
Given, the 3D mask generator 850 uses the output of the penultimate layer to achieve the target quality level.
Figure pat00229
A 3D binary mask can be created.

단계(955)에서, 표현 선택부(855)는 목표 품질 수준

Figure pat00230
에서의 양자화된 은닉 표현
Figure pat00231
및 3D 이진 마스크를 사용하여 목표 품질 수준
Figure pat00232
에 대한
Figure pat00233
의 선택된 요소들의 집합
Figure pat00234
를 유도할 수 있다.At step 955, the representation selection unit 855 selects a target quality level.
Figure pat00230
Quantized hidden representation in
Figure pat00231
and target quality level using a 3D binary mask.
Figure pat00232
for
Figure pat00233
A set of selected elements of
Figure pat00234
can be derived.

단계(960)에서, 목표 품질 수준

Figure pat00235
가 주어졌을 때, 스케일링 및 선택부(860)는 3D 이진 마스크 및 파라미터를 사용하여 목표 품질 수준
Figure pat00236
에 대한 파라미터를 생성할 수 있다.At step 960, target quality level
Figure pat00235
Given, the scaling and selection unit 860 uses the 3D binary mask and parameters to select the target quality level.
Figure pat00236
You can create parameters for .

파라미터는 스케일 파라미터

Figure pat00237
를 포함할 수 있다. 파라미터는 평균 파라미터
Figure pat00238
를 포함할 수 있다.The parameter is a scale parameter
Figure pat00237
may include. The parameter is the average parameter
Figure pat00238
may include.

목표 품질 수준

Figure pat00239
에 대한 파라미터는 목표 품질 수준
Figure pat00240
에 대한 스케일 파라미터
Figure pat00241
를 포함할 수 있다.
Figure pat00242
Figure pat00243
에 기반하여 생성될 수 있다.target quality level
Figure pat00239
The parameters for the target quality level are
Figure pat00240
scale parameter for
Figure pat00241
may include.
Figure pat00242
Is
Figure pat00243
It can be created based on .

목표 품질 수준

Figure pat00244
에 대한 파라미터는 목표 품질 수준
Figure pat00245
에 대한 평균 파라미터
Figure pat00246
를 포함할 수 있다.
Figure pat00247
Figure pat00248
에 기반하여 생성될 수 있다.target quality level
Figure pat00244
The parameters for the target quality level are
Figure pat00245
average parameter for
Figure pat00246
may include.
Figure pat00247
Is
Figure pat00248
It can be created based on .

단계(965)에서, 제2 엔트로피 부호화기(865)는 목표 품질 수준

Figure pat00249
에 대한 파라미터를 사용하여 목표 품질 수준
Figure pat00250
에서의 양자화된 은닉 표현
Figure pat00251
의 선택된 요소들의 집합
Figure pat00252
에 대한 엔트로피 부호화를 수행함으로써 목표 품질 수준
Figure pat00253
에서의 양자화된 은닉 표현
Figure pat00254
의 선택된 요소들의 부호화된 정보를 생성할 수 있다.At step 965, the second entropy encoder 865 sets the target quality level
Figure pat00249
Target quality level using parameters for
Figure pat00250
Quantized hidden representation in
Figure pat00251
A set of selected elements of
Figure pat00252
Target quality level by performing entropy encoding for
Figure pat00253
Quantized hidden representation in
Figure pat00254
Encoded information of selected elements can be generated.

비트스트림은 목표 품질 수준

Figure pat00255
에서의 양자화된 은닉 표현
Figure pat00256
의 선택된 요소들의 부호화된 정보를 포함할 수 있다.Bitstream is at target quality level
Figure pat00255
Quantized hidden representation in
Figure pat00256
It may contain encoded information of selected elements of .

단계(970)에서, 통신부(870)는 비트스트림을 복호화 장치(1000)로 전송할 수 있다.In step 970, the communication unit 870 may transmit a bitstream to the decoding device 1000.

실시예들에서 전술된 정보에 대한 설명 및 처리는 도 9를 참조하여 설명된 단계들의 정보에도 적용될 수 있다.The description and processing of information described above in the embodiments may also be applied to the information of the steps described with reference to FIG. 9 .

도 10은 일 실시예에 따른 복호화 장치의 구조도이다.Figure 10 is a structural diagram of a decoding device according to an embodiment.

복호화 장치(1000)는 통신부(1005), 제1 엔트로피 복호화기(1040), 하이퍼 복호화기(1045), 3D 마스크 생성부(1050), 스케일링 및 선택부(1060), 제2 엔트로피 복호화기(1065), 재형태부(1080), 적응적 역-양자화부(1085) 및 복호화기(1090)를 포함할 수 있다.The decoding device 1000 includes a communication unit 1005, a first entropy decoder 1040, a hyper decoder 1045, a 3D mask generator 1050, a scaling and selection unit 1060, and a second entropy decoder 1065. ), a reshaping unit 1080, an adaptive inverse-quantization unit 1085, and a decoder 1090.

복호화 장치(1000)는 비트스트림의 부호화된 정보에 대한 복호화를 수행함으로써 복원된 영상(reconstructed image)

Figure pat00257
를 생성할 수 있다.The decoding device 1000 produces a reconstructed image by performing decoding on the encoded information of the bitstream.
Figure pat00257
can be created.

통신부(1005), 제1 엔트로피 복호화기(1040), 하이퍼 복호화기(1045), 3D 마스크 생성부(0150), 스케일링 및 선택부(1060), 제2 엔트로피 복호화기(1065), 재형태부(1080), 적응적 역-양자화부(1085) 및 복호화기(1090) 중 적어도 일부는 프로그램 모듈들일 수 있으며, 외부의 장치 또는 시스템과 통신할 수 있다. 프로그램 모듈들은 운영 체제, 응용 프로그램 모듈 및 기타 프로그램 모듈의 형태로 복호화 장치(1000)에 포함될 수 있다.Communication unit 1005, first entropy decoder 1040, hyper decoder 1045, 3D mask generator 0150, scaling and selection unit 1060, second entropy decoder 1065, reshaping unit ( 1080), at least some of the adaptive dequantization unit 1085 and the decoder 1090 may be program modules and may communicate with an external device or system. Program modules may be included in the decryption device 1000 in the form of an operating system, application program module, and other program modules.

프로그램 모듈들은 물리적으로는 여러 가지 공지의 기억 장치 상에 저장될 수 있다. 또한, 이러한 프로그램 모듈 중 적어도 일부는 복호화 장치(1000)와 통신 가능한 원격 기억 장치에 저장될 수도 있다.Program modules may be physically stored on various known storage devices. Additionally, at least some of these program modules may be stored in a remote memory device capable of communicating with the decoding device 1000.

프로그램 모듈들은 일 실시예에 따른 기능 또는 동작을 수행하거나, 일 실시예에 따른 추상 데이터 유형을 구현하는 루틴(routine), 서브루틴(subroutine), 프로그램, 오브젝트(object), 컴포넌트(component) 및 데이터 구조(data structure) 등을 포괄할 수 있지만, 이에 제한되지는 않는다.Program modules are routines, subroutines, programs, objects, components, and data that perform a function or operation according to an embodiment or implement an abstract data type according to an embodiment. It may include data structures, etc., but is not limited thereto.

프로그램 모듈들은 복호화 장치(1000)의 적어도 하나의 프로세서(processor)에 의해 수행되는 명령어(instruction) 또는 코드(code)로 구성될 수 있다.Program modules may be composed of instructions or codes that are executed by at least one processor of the decoding device 1000.

복호화 장치(1000)는 컴퓨터에 의해 독출(read)될 수 있는 기록 매체를 포함하는 컴퓨터 시스템에서 구현될 수 있다.The decryption device 1000 may be implemented in a computer system that includes a recording medium that can be read by a computer.

기록 매체는 복호화 장치(1000)가 동작하기 위해 요구되는 적어도 하나의 모듈을 저장할 수 있다.The recording medium may store at least one module required for the decoding device 1000 to operate.

복호화 장치(1000)의 데이터 또는 정보의 통신과 관련된 기능은 통신부(1005)를 통해 수행될 수 있다.Functions related to communication of data or information of the decoding device 1000 may be performed through the communication unit 1005.

예를 들면, 통신부(1005)는 부호화 장치(800)로부터 비트스트림을 수신할 수 있다.For example, the communication unit 1005 may receive a bitstream from the encoding device 800.

도 11는 일 실시예에 따른 복호화 방법의 흐름도이다.Figure 11 is a flowchart of a decryption method according to an embodiment.

단계(1105)에서, 통신부(1005)는 부호화 장치(800)로부터 비트스트림을 수신할 수 있다.In step 1105, the communication unit 1005 may receive a bitstream from the encoding device 800.

비트스트림은 하이퍼프라이어의 부호화된 정보를 포함할 수 있다.The bitstream may contain encoded information of the hyperprior.

비트스트림은 목표 품질 수준

Figure pat00258
에서의 양자화된 은닉 표현
Figure pat00259
의 선택된 요소들의 부호화된 정보를 포함할 수 있다.Bitstream is at target quality level
Figure pat00258
Quantized hidden representation in
Figure pat00259
It may contain encoded information of selected elements of .

단계(1140)에서, 제1 엔트로피 복호화기(1040)는 하이퍼프라이어의 부호화된 정보에 대한 복호화를 수행함으로써 양자화된 하이퍼프라이어 은닉

Figure pat00260
를 생성할 수 있다.In step 1140, the first entropy decoder 1040 performs decoding on the encoded information of the hyperprior to hide the quantized hyperprior.
Figure pat00260
can be created.

단계(1145)에서, 하이퍼 복호화기(1045)는 양자화된 하이퍼프라이어 은닉

Figure pat00261
를 사용하여 끝에서 두 번째(penultimate) 레이어의 출력을 생성할 수 있다.At step 1145, the hyper decoder 1045 generates the quantized hyperprior concealment.
Figure pat00261
You can use to generate the output of the penultimate layer.

하이퍼 복호화기(1045)는 양자화된 하이퍼프라이어 은닉

Figure pat00262
를 사용하여 파라미터를 생성할 수 있다. 파라미터는 스케일 파라미터
Figure pat00263
를 포함할 수 있다. 파라미터는 중간 파라미터
Figure pat00264
를 포함할 수 있다.The hyper decoder 1045 hides the quantized hyperprior.
Figure pat00262
You can create parameters using . The parameter is a scale parameter
Figure pat00263
may include. Parameter is an intermediate parameter
Figure pat00264
may include.

단계(1150)에서, 3D 마스크 생성부(1050)는 하이퍼 복호화기의 특정 레이어의 출력을 사용하여 3D 이진 마스크를 생성할 수 있다.In step 1150, the 3D mask generator 1050 may generate a 3D binary mask using the output of a specific layer of the hyper decoder.

특정 레이어는 끝에서 두 번째(penultimate)일 수 있다. 3D 마스크 생성부(1050)는 하이퍼 복호화기의 끝에서 두 번째(penultimate) 레이어의 출력을 사용하여 3D 이진 마스크를 생성할 수 있다.Certain layers may be penultimate. The 3D mask generator 1050 may generate a 3D binary mask using the output of the penultimate layer of the hyper decoder.

실시예들에서, 3D 마스크는 3D 이진 마스크를 의미할 수 있다.In embodiments, 3D mask may refer to a 3D binary mask.

하이퍼 복호화기로는 양자화된 하이퍼프라이어 은닉

Figure pat00265
가 입력될 수 있다. 하이퍼 복호화기는 양자화된 하이퍼프라이어 은닉
Figure pat00266
에 대한 복호화를 수행함으로써 끝에서 두 번째(penultimate) 레이어의 출력을 생성할 수 있다.Quantized hyperprior concealment with hyperdecoder
Figure pat00265
can be entered. The hyperdecoder hides the quantized hyperprior.
Figure pat00266
By performing decoding on , the output of the penultimate layer can be generated.

목표 품질 수준

Figure pat00267
가 주어졌을 때, 3D 마스크 생성부(1050)는 끝에서 두 번째(penultimate) 레이어의 출력을 사용하여 목표 품질 수준
Figure pat00268
에 대한 3D 이진 마스크를 생성할 수 있다.target quality level
Figure pat00267
Given, the 3D mask generator 1050 uses the output of the penultimate layer to achieve the target quality level.
Figure pat00268
A 3D binary mask can be created.

단계(1160)에서, 목표 품질 수준

Figure pat00269
가 주어졌을 때, 스케일링 및 선택부(1060)는 3D 이진 마스크 및 파라미터를 사용하여 목표 품질 수준
Figure pat00270
에 대한 파라미터를 생성할 수 있다.At step 1160, target quality level
Figure pat00269
Given, the scaling and selection unit 1060 uses the 3D binary mask and parameters to select the target quality level.
Figure pat00270
You can create parameters for .

파라미터는 스케일 파라미터

Figure pat00271
를 포함할 수 있다. 파라미터는 중간 파라미터
Figure pat00272
를 포함할 수 있다.The parameter is a scale parameter
Figure pat00271
may include. Parameter is an intermediate parameter
Figure pat00272
may include.

목표 품질 수준

Figure pat00273
에 대한 파라미터는 목표 품질 수준
Figure pat00274
에 대한 스케일 파라미터
Figure pat00275
를 포함할 수 있다.
Figure pat00276
Figure pat00277
에 기반하여 생성될 수 있다.target quality level
Figure pat00273
The parameters for the target quality level are
Figure pat00274
scale parameter for
Figure pat00275
may include.
Figure pat00276
Is
Figure pat00277
It can be created based on .

목표 품질 수준

Figure pat00278
에 대한 파라미터는 목표 품질 수준
Figure pat00279
에 대한 중간 파라미터
Figure pat00280
를 포함할 수 있다.
Figure pat00281
Figure pat00282
에 기반하여 생성될 수 있다.target quality level
Figure pat00278
The parameters for the target quality level are
Figure pat00279
intermediate parameters for
Figure pat00280
may include.
Figure pat00281
Is
Figure pat00282
It can be created based on .

단계(1165)에서, 제2 엔트로피 복호화기(1065)는 목표 품질 수준

Figure pat00283
에 대한 파라미터를 사용하여 목표 품질 수준
Figure pat00284
에서의 양자화된 은닉 표현
Figure pat00285
의 선택된 요소들의 부호화된 정보에 대한 복호화를 수행함으로써 목표 품질 수준
Figure pat00286
에서의 양자화된 은닉 표현
Figure pat00287
의 선택된 요소들의 집합
Figure pat00288
을 생성할 수 있다.At step 1165, the second entropy decoder 1065 determines the target quality level.
Figure pat00283
Target quality level using parameters for
Figure pat00284
Quantized hidden representation in
Figure pat00285
Target quality level by performing decoding on the encoded information of the selected elements
Figure pat00286
Quantized hidden representation in
Figure pat00287
A set of selected elements of
Figure pat00288
can be created.

단계(1180)에서, 재형태부(1180)는 3D 이진 마스크를 사용하여 목표 품질 수준

Figure pat00289
에서의 양자화된 은닉 표현
Figure pat00290
의 선택된 요소들의 집합
Figure pat00291
을 목표 품질 수준
Figure pat00292
에서의 3D-형태된(3D-shaped) 은닉 표현의 요소들
Figure pat00293
로 변환할 수 있다.At step 1180, reshaping unit 1180 uses the 3D binary mask to determine the target quality level.
Figure pat00289
Quantized hidden representation in
Figure pat00290
A set of selected elements of
Figure pat00291
target quality level
Figure pat00292
Elements of a 3D-shaped hidden representation in
Figure pat00293
It can be converted to .

여기에서, 목표 품질 수준

Figure pat00294
에서의 양자화된 은닉 표현
Figure pat00295
의 선택된 요소들의 집합
Figure pat00296
은 1D 형태를 가질 수 있다.Here, the target quality level
Figure pat00294
Quantized hidden representation in
Figure pat00295
A set of selected elements of
Figure pat00296
may have a 1D shape.

단계(1185)에서, 적응적 역-양자화부(1085)는 목표 품질 수준

Figure pat00297
에서의 3D-형태된(3D-shaped) 은닉 표현의 요소들
Figure pat00298
에 대한 역-양자화를 수행함으로써 3D-형태된 은닉 표현의 역-양자화된 요소들을 생성할 수 있다.At step 1185, the adaptive dequantizer 1085 determines the target quality level.
Figure pat00297
Elements of a 3D-shaped hidden representation in
Figure pat00298
By performing de-quantization on , the de-quantized elements of the 3D-shaped hidden representation can be generated.

역-양자화는 목표 품질 수준

Figure pat00299
에 대하여 수행될 수 있다.Inverse-quantization is the target quality level
Figure pat00299
It can be performed for.

단계(1195)에서, 복호화기(1090)는 3D-형태된 은닉 표현의 역-양자화된 요소들에 대한 복호화를 수행함으로써 복원된 영상(reconstructed image)

Figure pat00300
를 생성할 수 있다.At step 1195, the decoder 1090 performs decoding on the de-quantized elements of the 3D-shaped hidden representation to produce a reconstructed image.
Figure pat00300
can be created.

실시예들에서 전술된 정보에 대한 설명 및 처리는 도 11을 참조하여 설명된 단계들의 정보에도 적용될 수 있다.The description and processing of information described above in the embodiments may also be applied to the information of the steps described with reference to FIG. 11 .

상기의 실시예들은 부호화 장치(800) 및 복호화 장치(1000)에서 동일한 방법 및/또는 상응하는 방법으로 수행될 수 있다. 또한, 영상의 부호화 및/또는 복호화에 있어서 상기의 실시예들 중 하나 이상의 조합이 사용될 수 있다.The above embodiments may be performed in the encoding device 800 and the decoding device 1000 using the same method and/or a corresponding method. Additionally, a combination of one or more of the above embodiments may be used in encoding and/or decoding an image.

상기의 실시예들이 적용되는 순서는 부호화 장치(800) 및 복호화 장치(1000)에서 서로 상이할 수 있다. 또는, 상기의 실시예들이 적용되는 순서는 부호화 장치(800) 및 복호화 장치(1000)에서 (적어도 부분적으로) 동일할 수 있다.The order in which the above embodiments are applied may be different in the encoding device 800 and the decoding device 1000. Alternatively, the order in which the above embodiments are applied may be (at least partially) the same in the encoding device 800 and the decoding device 1000.

상술된 실시예들에서, 방법들은 일련의 단계 또는 유닛으로서 순서도를 기초로 설명되고 있으나, 본 발명은 단계들의 순서에 한정되는 것은 아니며, 어떤 단계는 상술한 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다. 또한, 당해 기술 분야에서 통상의 지식을 가진 자라면 순서도에 나타난 단계들이 배타적이지 않고, 다른 단계가 포함되거나, 순서도의 하나 또는 그 이상의 단계가 본 발명의 범위에 영향을 미치지 않고 삭제될 수 있음을 이해할 수 있을 것이다.In the above-described embodiments, the methods are described based on flowcharts as a series of steps or units, but the present invention is not limited to the order of steps, and some steps may occur in a different order or simultaneously with other steps as described above. You can. Additionally, a person of ordinary skill in the art will recognize that the steps shown in the flowchart are not exclusive and that other steps may be included or one or more steps in the flowchart may be deleted without affecting the scope of the present invention. You will understand.

상술된 실시예들은 다양한 양태의 예시들을 포함한다. 다양한 양태들을 나타내기 위한 모든 가능한 조합이 기술될 수는 없지만, 해당 기술 분야의 통상의 지식을 가진 자는 명시적으로 기술된 조합 외에도 다른 조합이 가능함을 인식할 수 있을 것이다. 따라서, 본 발명은 이하의 특허청구범위 내에 속하는 모든 다른 교체, 수정 및 변경을 포함한다고 할 것이다.The above-described embodiments include examples of various aspects. Although not all possible combinations for representing the various aspects can be described, those skilled in the art will recognize that other combinations are possible in addition to those explicitly described. Accordingly, the present invention is intended to include all other substitutions, modifications and changes falling within the scope of the following claims.

이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.Embodiments according to the present invention described above may be implemented in the form of program instructions that can be executed through various computer components and recorded on a computer-readable recording medium. The computer-readable recording medium may include program instructions, data files, data structures, etc., singly or in combination. Program instructions recorded on the computer-readable recording medium may be specially designed and configured for the present invention, or may be known and usable by those skilled in the computer software field.

컴퓨터 판독 가능한 기록 매체는 본 발명에 따른 실시예들에서 사용되는 정보를 포함할 수 있다. 예를 들면, 컴퓨터 판독 가능한 기록 매체는 비트스트림을 포함할 수 있고, 비트스트림은 본 발명에 따른 실시예들에서 설명된 정보를 포함할 수 있다.A computer-readable recording medium may contain information used in embodiments according to the present invention. For example, a computer-readable recording medium may include a bitstream, and the bitstream may include information described in embodiments according to the present invention.

비트스트림은 컴퓨터 실행 가능한(computer-executable) 코드 및/또는 프로그램을 포함할 수 있다. 컴퓨터 실행 가능한(computer-executable) 코드 및/또는 프로그램은 실시예들에서 설명된 정보들을 포함할 수 있으며, 실시예들에서 설명된 구문 요소들(syntax elements)을 포함할 수 있다. 말하자면, 실사예에서 설명된 정보들 및 구문 요소들은 비트스트림 내의 컴퓨터 실행 가능한 코드로 간주될 수 있으며, 비트스트림으로 표현된 컴퓨터 실행 가능한 코드 및/또는 프로그램의 적어도 일부로 간주될 수 있다.A bitstream may contain computer-executable code and/or programs. Computer-executable code and/or program may include information described in the embodiments and may include syntax elements described in the embodiments. That is, the information and syntax elements described in the actual example may be considered computer-executable code within the bitstream, and may be considered at least part of the computer-executable code and/or program represented by the bitstream.

컴퓨터 판독 가능한 기록 매체는 비-일시적 컴퓨터 판독 가능한 매체(non-transitory computer-readable medium)를 포함할 수 있다.Computer-readable recording media may include non-transitory computer-readable medium.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기의 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical recording media such as CD-ROMs and DVDs, and magneto-optical media such as floptical disks. media), and hardware devices specifically configured to store and perform program instructions, such as ROM, RAM, flash memory, etc. Examples of program instructions include not only machine language code such as that created by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like. The above hardware devices may be configured to operate as one or more software modules to perform processing according to the invention and vice versa.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기의 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.In the above, the present invention has been described with specific details such as specific components and limited embodiments and drawings, but this is only provided to facilitate a more general understanding of the present invention, and the present invention is not limited to the above embodiments. No, those skilled in the art can make various modifications and changes based on this description.

따라서, 본 발명의 사상은 상기의 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.Accordingly, the spirit of the present invention should not be limited to the above-described embodiments, and the scope of the patent claims described below as well as all modifications equivalent to or equivalent to the scope of the claims shall fall within the scope of the spirit of the present invention. It will be said that it belongs.

Claims (20)

입력 영상을 사용하여 은닉 표현을 생성하는 단계;
상기 은닉 표현에 대한 적응적 양자화를 수행함으로써 양자화된 은닉 표현 을 생성하는 단계;
상기 양자화된 은닉 표현의 선택된 요소들의 집합을 유도하는 단계; 및
상기 선택된 요소들의 집합에 대한 엔트로피 부호화를 수행함으로써 상기 선택된 요소들의 부호화된 정보를 생성하는 단계
를 포함하는 영상 부호화 방법.
generating a hidden representation using the input image;
generating a quantized hidden representation by performing adaptive quantization on the hidden representation;
deriving a set of selected elements of the quantized hidden representation; and
Generating encoded information of the selected elements by performing entropy encoding on the set of selected elements
A video encoding method including.
제1항에 있어서,
상기 양자화된 은닉 표현은 특정 목표 품질 수준에 대하여 생성되는 영상 부호화 방법.
According to paragraph 1,
An image encoding method in which the quantized hidden representation is generated for a specific target quality level.
제1항에 있어서,
상기 선택된 요소들의 집합은 3차원 이진 마스크를 사용하여 결정되는 영상 부호화 방법.
According to paragraph 1,
An image encoding method in which the set of selected elements is determined using a 3D binary mask.
제3항에 있어서,
상기 3차원 이진 마스크는 하이퍼 복호화기의 특정 레이어의 출력을 사용하여 생성되는 영상 부호화 방법.
According to paragraph 3,
An image encoding method in which the 3D binary mask is generated using the output of a specific layer of a hyper decoder.
제4항에 있어서,
상기 하이퍼 복호화기로 하이퍼프라이어가 입력되는 영상 부호화 방법.
According to paragraph 4,
A video encoding method in which a hyperprior is input to the hyper decoder.
제1항에 있어서,
상기 선택된 요소들의 상기 부호화된 정보는 특정 목표 품질 수준에 대한 파라미터를 사용하여 생성되는 영상 부호화 방법.
According to paragraph 1,
A video encoding method in which the encoded information of the selected elements is generated using parameters for a specific target quality level.
제6항에 있어서,
상기 파라미터는 상기 특정 목표 품질 수준에 대한 스케일 파라미터 또는 상기 특정 목표 품질 수준에 대한 중간 파라미터를 포함하는 영상 부호화 방법.
According to clause 6,
The parameter is a video encoding method including a scale parameter for the specific target quality level or an intermediate parameter for the specific target quality level.
양자화된 은닉 표현의 선택된 요소들의 부호화된 정보에 대한 복호화를 수행함으로써 상기 선택된 요소들의 집합을 생성하는 단계;
상기 선택된 요소들의 집합을 3차원-형태된 은닉 표현의 요소들로 변환하는 단계;
상기 3차원-형태된 은닉 표현의 요소들에 대한 역-양자화를 수행함으로써 역-양자화된 요소들을 생성하는 단계; 및
상기 역-양자화된 요소들에 대한 복호화를 수행함으로써 복원된 영상을 생성하는 단계
를 포함하는 영상 복호화 방법.
generating a set of selected elements of the quantized hidden representation by performing decoding on encoded information of the selected elements;
converting the selected set of elements into elements of a three-dimensional-shaped hidden representation;
generating de-quantized elements by performing de-quantization on elements of the 3D-shaped hidden representation; and
Generating a restored image by performing decoding on the dequantized elements.
A video decoding method including.
제8항에 있어서,
상기 역-양자화는 특정 목표 품질 수준에 대하여 수행되는 영상 복호화 방법.
According to clause 8,
An image decoding method in which the inverse quantization is performed for a specific target quality level.
제8항에 있어서,
상기 3차원-형태된 은닉 표현의 요소들은 3차원 이진 마스크를 사용하여 결정되는 영상 복호화 방법.
According to clause 8,
An image decoding method wherein elements of the 3D-shaped hidden representation are determined using a 3D binary mask.
제10항에 있어서,
상기 3차원 이진 마스크는 하이퍼 복호화기의 특정 레이어의 출력을 사용하여 생성되는 영상 복호화 방법.
According to clause 10,
An image decoding method in which the 3D binary mask is generated using the output of a specific layer of a hyper decoder.
제11항에 있어서,
상기 하이퍼 복호화기로 하이퍼프라이어가 입력되는 영상 복호화 방법.
According to clause 11,
A video decoding method in which a hyper fryer is input to the hyper decoder.
제8항에 있어서,
상기 선택된 요소들의 집합은 정보는 특정 목표 품질 수준에 대한 파라미터를 사용하여 생성되는 영상 복호화 방법.
According to clause 8,
A video decoding method in which the set of selected elements is information generated using parameters for a specific target quality level.
제13항에 있어서,
상기 파라미터는 상기 특정 목표 품질 수준에 대한 스케일 파라미터 또는 상기 특정 목표 품질 수준에 대한 중간 파라미터를 포함하는 영상 복호화 방법.
According to clause 13,
The video decoding method wherein the parameters include a scale parameter for the specific target quality level or an intermediate parameter for the specific target quality level.
영상 복호화를 위한 비트스트림을 저장하는 컴퓨터 판독 가능한 기록 매체에 있어서, 상기 비트스트림은,
양자화된 은닉 표현의 선택된 요소들의 부호화된 정보
를 포함하고,
상기 부호화된 정보에 대한 복호화를 수행함으로써 상기 선택된 요소들의 집합이 생성되고,
상기 선택된 요소들의 집합을 3차원-형태된 은닉 표현의 요소들로 변환되고,
상기 3차원-형태된 은닉 표현의 요소들에 대한 역-양자화를 수행함으로써 역-양자화된 요소들이 생성되고,
상기 역-양자화된 요소들에 대한 복호화를 수행함으로써 복원된 영상이 생성되는 컴퓨터 판독 가능한 기록 매체.
In the computer-readable recording medium storing a bitstream for video decoding, the bitstream includes:
Encoded information of selected elements of the quantized hidden representation
Including,
A set of the selected elements is generated by performing decoding on the encoded information,
Converting the set of selected elements into elements of a 3D-shaped hidden representation,
Dequantized elements are generated by performing dequantization on elements of the three-dimensional hidden representation,
A computer-readable recording medium in which a restored image is generated by decoding the dequantized elements.
제15항에 있어서,
상기 역-양자화는 특정 목표 품질 수준에 대하여 수행되는 컴퓨터 판독 가능한 기록 매체.
According to clause 15,
A computer-readable recording medium wherein the de-quantization is performed for a specific target quality level.
제15항에 있어서,
상기 3차원-형태된 은닉 표현의 요소들은 3차원 이진 마스크를 사용하여 결정되는 컴퓨터 판독 가능한 기록 매체.
According to clause 15,
A computer-readable recording medium wherein elements of the three-dimensionally-shaped hidden representation are determined using a three-dimensional binary mask.
제17항에 있어서,
상기 3차원 이진 마스크는 하이퍼 복호화기의 특정 레이어의 출력을 사용하여 생성되는 컴퓨터 판독 가능한 기록 매체.
According to clause 17,
A computer-readable recording medium in which the 3D binary mask is generated using the output of a specific layer of a hyper decoder.
제15항에 있어서,
상기 선택된 요소들의 집합은 정보는 특정 목표 품질 수준에 대한 파라미터를 사용하여 생성되는 컴퓨터 판독 가능한 기록 매체.
According to clause 15,
The set of selected elements is a computer-readable recording medium on which information is generated using parameters for a specific target quality level.
제19항에 있어서,
상기 파라미터는 상기 특정 목표 품질 수준에 대한 스케일 파라미터 또는 상기 특정 목표 품질 수준에 대한 중간 파라미터를 포함하는 컴퓨터 판독 가능한 기록 매체.
According to clause 19,
The computer-readable recording medium wherein the parameter includes a scale parameter for the specific target quality level or an intermediate parameter for the specific target quality level.
KR1020230118490A 2022-09-08 2023-09-06 Method, apparatus and recording medium for encoding/decoding image KR20240035359A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/463,051 US20240095963A1 (en) 2022-09-08 2023-09-07 Method, apparatus and storage medium for image encoding/decoding

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020220114099 2022-09-08
KR20220114099 2022-09-08

Publications (1)

Publication Number Publication Date
KR20240035359A true KR20240035359A (en) 2024-03-15

Family

ID=90272988

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230118490A KR20240035359A (en) 2022-09-08 2023-09-06 Method, apparatus and recording medium for encoding/decoding image

Country Status (1)

Country Link
KR (1) KR20240035359A (en)

Similar Documents

Publication Publication Date Title
KR102287947B1 (en) Apparatus and method for performing artificial intelligence encoding and artificial intelligence decoding of image
US10834425B2 (en) Image compression/decompression method and device, and image processing system
US11610283B2 (en) Apparatus and method for performing scalable video decoding
KR102165155B1 (en) Adaptive interpolation for spatially scalable video coding
US11412225B2 (en) Method and apparatus for image processing using context-adaptive entropy model
CN109451308B (en) Video compression processing method and device, electronic equipment and storage medium
US11122267B2 (en) Method and apparatus for encoding image by using quantization table adaptive to image
KR20110135787A (en) Image/video coding and decoding system and method using edge-adaptive transform
US20200092553A1 (en) Device and method for performing transform by using singleton coefficient update
US10911783B2 (en) Method and apparatus for processing video signal using coefficient-induced reconstruction
CN108353175B (en) Method and apparatus for processing video signal using coefficient-induced prediction
EP3085089B1 (en) Optimised video coding involving transform and spatial domain weighting
KR102312337B1 (en) AI encoding apparatus and operating method for the same, and AI decoding apparatus and operating method for the same
US10832383B2 (en) Systems and methods for distortion removal at multiple quality levels
WO2023000179A1 (en) Video super-resolution network, and video super-resolution, encoding and decoding processing method and device
WO2021156587A1 (en) Chroma intra prediction in video coding and decoding
JP6065613B2 (en) Video encoding device
CN115880381A (en) Image processing method, image processing apparatus, and model training method
KR20210070944A (en) Method, apparatus and recording medium for end-to-end compression using pixel-space prediction
US8989278B2 (en) Method and device for coding a multi dimensional digital signal comprising original samples to form coded stream
CN107079171B (en) Method and apparatus for encoding and decoding video signal using improved prediction filter
KR20240035359A (en) Method, apparatus and recording medium for encoding/decoding image
CN112715029A (en) AI encoding apparatus and operating method thereof, and AI decoding apparatus and operating method thereof
KR20210152992A (en) Method, apparatus and recording medium for encoding/decoding image using binary mask
US20240095963A1 (en) Method, apparatus and storage medium for image encoding/decoding