KR20240035359A - Method, apparatus and recording medium for encoding/decoding image - Google Patents
Method, apparatus and recording medium for encoding/decoding image Download PDFInfo
- Publication number
- KR20240035359A KR20240035359A KR1020230118490A KR20230118490A KR20240035359A KR 20240035359 A KR20240035359 A KR 20240035359A KR 1020230118490 A KR1020230118490 A KR 1020230118490A KR 20230118490 A KR20230118490 A KR 20230118490A KR 20240035359 A KR20240035359 A KR 20240035359A
- Authority
- KR
- South Korea
- Prior art keywords
- elements
- target quality
- quality level
- clause
- hidden representation
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000013139 quantization Methods 0.000 claims description 34
- 230000003044 adaptive effect Effects 0.000 claims description 17
- 230000006835 compression Effects 0.000 abstract description 60
- 238000007906 compression Methods 0.000 abstract description 60
- 238000013135 deep learning Methods 0.000 abstract description 3
- 230000014509 gene expression Effects 0.000 description 22
- 238000012549 training Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 239000013598 vector Substances 0.000 description 9
- 238000009826 distribution Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 229910052709 silver Inorganic materials 0.000 description 5
- 239000004332 silver Substances 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/147—Data rate or code amount at the encoder output according to rate distortion criteria
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/13—Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/46—Embedding additional information in the video signal during the compression process
Abstract
영상 부호화/복호화를 위한 방법, 장치 및 기록 매체가 개시된다. 가변-레이트 영상 압축을 위한 은닉 표현들의 선택적 압축 학습이 방법, 장치 및 기록 매체에 대하여 사용된다. 실시예들에서는, 딥 러닝-기반 가변 레이트 이미지 압축을 위해 완전히 일반화된 방식으로 은닉 표현을 부분적으로 부호화하는 선택적 압축 방법이 개시된다. 실시예들의 방법들은 서로 다른 목표 품질 수준들의 압축을 위해 필수적인 표현 요소들을 적응적으로 결정한다.A method, device, and recording medium for video encoding/decoding are disclosed. Selective compression learning of hidden representations for variable-rate video compression is used for a method, apparatus, and recording medium. In embodiments, a selective compression method is disclosed that partially encodes a hidden representation in a fully generalized manner for deep learning-based variable rate image compression. The methods of the embodiments adaptively determine essential presentation elements for compression of different target quality levels.
Description
본 발명은 영상 부호화/복호화를 위한 방법, 장치 및 기록 매체에 관한 것이다. 구체적으로, 본 발명은 가변-레이트(variable-rate) 영상 압축을 제공하는 영상 부호화/복호화를 위한 방법, 장치 및 기록 매체를 제공한다.The present invention relates to a method, device, and recording medium for video encoding/decoding. Specifically, the present invention provides a method, device, and recording medium for video encoding/decoding that provides variable-rate video compression.
정보 통신 산업의 지속적인 발달을 통해 HD(High Definition) 해상도를 가지는 방송 서비스가 세계적으로 확산되었다. 이러한 확산을 통해, 많은 사용자들이 고해상도이며 고화질인 영상(image) 및/또는 비디오(video)에 익숙해지게 되었다.Through the continued development of the information and communications industry, broadcasting services with HD (High Definition) resolution have spread globally. Through this proliferation, many users have become accustomed to high-resolution, high-definition images and/or videos.
높은 화질에 대한 사용자들의 수요를 만족시키기 위하여, 많은 기관들이 차세대 영상 기기에 대한 개발에 박차를 가하고 있다. 에이치디티브이(High Definition TV; HDTV) 및 풀에이치디(Full HD; FHD) TV뿐만 아니라, FHD TV에 비해 4배 이상의 해상도를 갖는 울트라에이치디(Ultra High Definition; UHD) TV에 대한 사용자들의 관심이 증대하였고, 이러한 관심의 증대에 따라, 더 높은 해상도 및 화질을 갖는 영상에 대한 영상 부호화(encoding)/복호화(decoding) 기술이 요구된다.In order to satisfy users' demand for high image quality, many organizations are accelerating the development of next-generation imaging devices. User interest in not only High Definition TV (HDTV) and Full HD (FHD) TV, but also Ultra High Definition (UHD) TV, which has a resolution more than four times that of FHD TV. has increased, and with this increase in interest, image encoding/decoding technology for images with higher resolution and image quality is required.
이러한 영상 압축 기술을 사용하여 영상에 대한 데이터가 효과적으로 압축, 전송 및 저장될 수 있다.Using this video compression technology, video data can be effectively compressed, transmitted, and stored.
일 실시예는 가변-레이트 영상 압축을 위한 장치, 방법 및 기록 매체를 제공할 수 있다.One embodiment may provide an apparatus, method, and recording medium for variable-rate video compression.
일 실시예는 은닉 표현들의 선택적 압축 학습을 사용하는 장치, 방법 및 기록 매체를 제공할 수 있다.One embodiment may provide an apparatus, method, and recording medium using selective compression learning of hidden representations.
일 측에 있어서, 입력 영상을 사용하여 은닉 표현을 생성하는 단계; 상기 은닉 표현에 대한 적응적 양자화를 수행함으로써 양자화된 은닉 표현을 생성하는 단계; 상기 양자화된 은닉 표현의 선택된 요소들의 집합을 유도하는 단계; 및 상기 선택된 요소들의 집합에 대한 엔트로피 부호화를 수행함으로써 상기 선택된 요소들의 부호화된 정보를 생성하는 단계를 포함하는 영상 부호화 방법이 제공된다.In one aspect, generating a hidden representation using an input image; generating a quantized hidden representation by performing adaptive quantization on the hidden representation; deriving a set of selected elements of the quantized hidden representation; and generating encoded information of the selected elements by performing entropy encoding on the set of selected elements.
상기 양자화된 은닉 표현은 특정 목표 품질 수준에 대하여 생성될 수 있다.The quantized hidden representation can be generated for a specific target quality level.
상기 선택된 요소들의 집합은 3차원 이진 마스크를 사용하여 결정될 수 있다.The set of selected elements can be determined using a three-dimensional binary mask.
상기 3차원 이진 마스크는 하이퍼 복호화기의 특정 레이어의 출력을 사용하여 생성될 수 있다.The 3D binary mask can be generated using the output of a specific layer of the hyper decoder.
상기 하이퍼 복호화기로 하이퍼프라이어가 입력될 수 있다.A hyperprior may be input into the hyper decoder.
상기 선택된 요소들의 상기 부호화된 정보는 특정 목표 품질 수준에 대한 파라미터를 사용하여 생성될 수 있다.The encoded information of the selected elements may be generated using parameters for a specific target quality level.
상기 파라미터는 상기 특정 목표 품질 수준에 대한 스케일 파라미터 또는 상기 특정 목표 품질 수준에 대한 중간 파라미터를 포함할 수 있다.The parameters may include scale parameters for the specific target quality level or intermediate parameters for the specific target quality level.
다른 일 측에 있어서, 양자화된 은닉 표현의 선택된 요소들의 부호화된 정보에 대한 복호화를 수행함으로써 상기 선택된 요소들의 집합을 생성하는 단계; 상기 선택된 요소들의 집합을 3차원-형태된 은닉 표현의 요소들로 변환하는 단계; 상기 3차원-형태된 은닉 표현의 요소들에 대한 역-양자화를 수행함으로써 역-양자화된 요소들을 생성하는 단계; 및 상기 역-양자화된 요소들에 대한 복호화를 수행함으로써 복원된 영상을 생성하는 단계를 포함하는 영상 복호화 방법이 제공된다.On the other hand, generating a set of selected elements by performing decoding on encoded information of selected elements of the quantized hidden representation; converting the selected set of elements into elements of a three-dimensional-shaped hidden representation; generating de-quantized elements by performing de-quantization on elements of the 3D-shaped hidden representation; and generating a restored image by performing decoding on the dequantized elements.
상기 역-양자화는 특정 목표 품질 수준에 대하여 수행될 수 있다.The de-quantization may be performed for a specific target quality level.
상기 3차원-형태된 은닉 표현의 요소들은 3차원 이진 마스크를 사용하여 결정될 수 있다.Elements of the 3D-shaped hidden representation may be determined using a 3D binary mask.
상기 3차원 이진 마스크는 하이퍼 복호화기의 특정 레이어의 출력을 사용하여 생성될 수 있다.The 3D binary mask can be generated using the output of a specific layer of the hyper decoder.
상기 하이퍼 복호화기로 하이퍼프라이어가 입력될 수 있다.A hyperprior may be input into the hyper decoder.
상기 선택된 요소들의 집합은 정보는 특정 목표 품질 수준에 대한 파라미터를 사용하여 생성될 수 있다.The selected set of elements can be used to generate information using parameters for a specific target quality level.
상기 파라미터는 상기 특정 목표 품질 수준에 대한 스케일 파라미터 또는 상기 특정 목표 품질 수준에 대한 중간 파라미터를 포함할 수 있다.The parameters may include scale parameters for the specific target quality level or intermediate parameters for the specific target quality level.
또 다른 일 측에 있어서, 영상 복호화를 위한 비트스트림을 저장하는 컴퓨터 판독 가능한 기록 매체에 있어서, 상기 비트스트림은, 양자화된 은닉 표현의 선택된 요소들의 부호화된 정보를 포함하고, 상기 부호화된 정보에 대한 복호화를 수행함으로써 상기 선택된 요소들의 집합이 생성되고, 상기 선택된 요소들의 집합을 3차원-형태된 은닉 표현의 요소들로 변환되고, 상기 3차원-형태된 은닉 표현의 요소들에 대한 역-양자화를 수행함으로써 역-양자화된 요소들이 생성되고, 상기 역-양자화된 요소들에 대한 복호화를 수행함으로써 복원된 영상이 생성되는 컴퓨터 판독 가능한 기록 매체가 제공된다.On another side, in a computer-readable recording medium storing a bitstream for video decoding, the bitstream includes encoded information of selected elements of a quantized hidden representation, and By performing decoding, a set of selected elements is created, the set of selected elements is converted into elements of a 3D-shaped hidden representation, and de-quantization of the elements of the 3D-shaped hidden representation is performed. A computer-readable recording medium is provided in which de-quantized elements are generated by performing decoding on the de-quantized elements, and a restored image is generated by decoding the de-quantized elements.
상기 역-양자화는 특정 목표 품질 수준에 대하여 수행될 수 있다.The de-quantization may be performed for a specific target quality level.
상기 3차원-형태된 은닉 표현의 요소들은 3차원 이진 마스크를 사용하여 결정될 수 있다.Elements of the 3D-shaped hidden representation may be determined using a 3D binary mask.
상기 3차원 이진 마스크는 하이퍼 복호화기의 특정 레이어의 출력을 사용하여 생성될 수 있다.The 3D binary mask can be generated using the output of a specific layer of the hyper decoder.
상기 선택된 요소들의 집합은 정보는 특정 목표 품질 수준에 대한 파라미터를 사용하여 생성될 수 있다.The selected set of elements can be used to generate information using parameters for a specific target quality level.
상기 파라미터는 상기 특정 목표 품질 수준에 대한 스케일 파라미터 또는 상기 특정 목표 품질 수준에 대한 중간 파라미터를 포함할 수 있다.The parameters may include scale parameters for the specific target quality level or intermediate parameters for the specific target quality level.
가변-레이트 영상 압축을 위한 장치, 방법 및 기록 매체가 제공된다.An apparatus, method, and recording medium for variable-rate video compression are provided.
은닉 표현들의 선택적 압축 학습을 사용하는 장치, 방법 및 기록 매체가 제공된다.An apparatus, method, and recording medium using selective compression learning of hidden representations are provided.
도 1은 실시예의 SCR 방법의 전반적인 아키텍처를 나타낸다.
도 2는 일 예에 따른 3D 이진 마스크 생성 프로세스를 나타낸다.
도 3은 일 예에 따른 8 개의 목표 품질 레벨들 내에서의 중요도 조정 곡선들을 나타낸다.
도 4는 일 예에 따른 서로 다른 목표 품질 수준들에 대한 생성된 마스크들을 나타낸다.
도 5는 일 예에 따른 선택된 표현 요소들의 평균 비율들 대 평균 BPP를 나타낸다.
도 6은 일 예에 따른 저 품질 수준으로부터 고 품질 수준으로의 재사용된 표현 요소들의 평균 비율들을 나타낸다.
도 7은 일 예에 따른 표현 선택 연산자 및 재형태 연산자의 코드를 나타낸다.
도 8은 일 실시예에 따른 부호화 장치의 구조를 나타낸다.
도 9는 일 실시예에 따른 부호화 방법의 신호 흐름도이다.
도 10은 일 실시예에 따른 복호화 장치의 구조도이다.
도 11는 일 실시예에 따른 복호화 방법의 흐름도이다.1 shows the overall architecture of the SCR method of the embodiment.
Figure 2 shows a 3D binary mask generation process according to one example.
3 shows importance adjustment curves within eight target quality levels according to an example.
4 shows generated masks for different target quality levels according to an example.
Figure 5 shows average ratios of selected presentation elements versus average BPP according to an example.
Figure 6 shows the average percentages of reused presentation elements from a low quality level to a high quality level according to an example.
Figure 7 shows the code of an expression selection operator and a reformulation operator according to an example.
Figure 8 shows the structure of an encoding device according to an embodiment.
Figure 9 is a signal flow diagram of an encoding method according to an embodiment.
Figure 10 is a structural diagram of a decoding device according to an embodiment.
Figure 11 is a flowchart of a decryption method according to an embodiment.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.Since the present invention can make various changes and have various embodiments, specific embodiments will be illustrated in the drawings and described in detail in the detailed description. However, this is not intended to limit the present invention to specific embodiments, and should be understood to include all changes, equivalents, and substitutes included in the spirit and technical scope of the present invention.
후술하는 예시적 실시예들에 대한 상세한 설명은, 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 실시예를 실시할 수 있기에 충분하도록 상세히 설명된다. 다양한 실시예들은 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들면, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 실시예의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 예시적 실시예들의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다.For a detailed description of the exemplary embodiments described below, refer to the accompanying drawings, which illustrate specific embodiments by way of example. These embodiments are described in sufficient detail to enable those skilled in the art to practice the embodiments. It should be understood that the various embodiments are different from one another but are not necessarily mutually exclusive. For example, specific shapes, structures and characteristics described herein with respect to one embodiment may be implemented in other embodiments without departing from the spirit and scope of the invention. Additionally, it should be understood that the location or arrangement of individual components within each disclosed embodiment may be changed without departing from the spirit and scope of the embodiment. Accordingly, the detailed description that follows is not to be taken in a limiting sense, and the scope of the exemplary embodiments is limited only by the appended claims, together with all equivalents to what those claims assert if properly described.
도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다. 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.Similar reference numbers in the drawings refer to identical or similar functions across various aspects. The shapes and sizes of elements in the drawings may be exaggerated for clearer explanation.
본 발명에서 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들면, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. "및/또는"이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함할 수 있다.In the present invention, terms such as first and second may be used to describe various components, but the components should not be limited by the terms. The above terms are used only for the purpose of distinguishing one component from another. For example, a first component may be referred to as a second component, and similarly, the second component may also be referred to as a first component without departing from the scope of the present invention. The term “and/or” may include any of a plurality of related stated items or a combination of a plurality of related stated items.
어떤 구성요소(component)가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기의 2개의 구성요소들이 서로 간에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있으나, 상기의 2개의 구성요소들의 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(component)가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기의 2개의 구성요소들의 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.When a component is said to be “connected” or “connected” to another component, the two components may be directly connected or connected to each other, but It should be understood that other components may exist in the middle of the components. On the other hand, when a component is said to be “directly connected” or “directly connected” to another component, it should be understood that no other component exists in between the two components. something to do.
실시예들에서 나타나는 구성요소들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성요소들이 분리된 하드웨어나 하나의 소프트웨어 구성단위로 이루어짐을 의미하지 않는다. 즉, 각 구성요소는 설명의 편의상 각각의 구성요소로 나열하여 포함한 것으로 각 구성요소 중 적어도 두 개의 구성요소가 합쳐져 하나의 구성요소로 이루어지거나, 하나의 구성요소가 복수 개의 구성요소로 나뉘어져 기능을 수행할 수 있고 이러한 각 구성요소의 통합된 실시예 및 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리범위에 포함된다.Components appearing in the embodiments are shown independently to represent different characteristic functions, and do not mean that each component consists of separate hardware or a single software component. In other words, each component is listed and included as a separate component for convenience of explanation, and at least two of each component are combined to form one component, or one component is divided into multiple components to function. It can be performed, and integrated embodiments and separate embodiments of each of these components are included in the scope of the present invention as long as they do not deviate from the essence of the present invention.
실시예들에서 사용된 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 실시예들에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 즉, 실시예들에서 특정 구성을 "포함"한다고 기술하는 내용은 해당 구성 이외의 구성을 배제하는 것이 아니며, 추가적인 구성 또한 본 발명의 실시 또는 본 발명의 기술적 사상의 범위에 포함될 수 있음을 의미한다.The terms used in the examples are only used to describe specific examples and are not intended to limit the invention. Singular expressions include plural expressions unless the context clearly dictates otherwise. In embodiments, terms such as “comprise” or “have” are intended to designate the presence of features, numbers, steps, operations, components, parts, or combinations thereof described in the specification, but are intended to indicate the presence of one or more other features, numbers, steps, operations, components, parts, or combinations thereof. It should be understood that this does not exclude in advance the presence or addition of features, numbers, steps, operations, components, parts, or combinations thereof. In other words, the description of “including” a specific configuration in the embodiments does not exclude configurations other than the configuration, and means that additional configurations may also be included in the practice of the present invention or the scope of the technical idea of the present invention. .
실시예들에서 용어 "적어도 하나(at least one)"는 1, 2, 3 및 4와 같은 1 이상의 개수들 중 하나를 의미할 수 있다. 실시예들에서 용어 "복수(a plurality of)"는 2, 3 및 4와 같은 2 이상의 개수들 중 하나를 의미할 수 있다.In embodiments, the term “at least one” may mean one of one or more numbers, such as 1, 2, 3, and 4. In embodiments, the term “a plurality of” may mean one of two or more numbers, such as 2, 3, and 4.
실시예들의 일부의 구성요소는 본 발명에서 본질적인 기능을 수행하는 필수적인 구성요소는 아니고 단지 성능을 향상시키기 위한 선택적 구성요소일 수 있다. 실시예들은, 단지 성능 향상을 위해 사용되는 구성요소가 제외된, 실시예들의 본질을 구현함에 있어 필수적인 구성요소만을 포함하여 구현될 수 있다. 단지 성능 향상을 위해 사용되는 선택적인 구성요소가 제외된 필수적인 구성요소만을 포함하는 구조도 실시예들의 권리범위에 포함된다.Some of the components of the embodiments may not be essential components that perform essential functions in the present invention, but may simply be optional components to improve performance. Embodiments may be implemented by including only components essential for implementing the essence of the embodiments, excluding components used only to improve performance. Structures that include only essential components excluding optional components used to improve performance are also included in the scope of the embodiments.
이하에서는, 기술분야에서 통상의 지식을 가진 자가 실시예들을 용이하게 실시할 수 있도록 하기 위하여, 첨부된 도면을 참조하여 실시 형태에 대하여 구체적으로 설명한다. 실시예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 명세서의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 도면 상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고, 동일한 구성요소에 대한 중복된 설명은 생략한다.Hereinafter, embodiments will be described in detail with reference to the attached drawings so that those skilled in the art can easily implement the embodiments. In describing the embodiments, if it is determined that a detailed description of a related known configuration or function may obscure the gist of the present specification, the detailed description will be omitted. In addition, the same reference numerals are used for the same components in the drawings, and duplicate descriptions of the same components are omitted.
이하에서, 영상은 비디오(video)를 구성하는 하나의 픽처(picture)를 의미할 수 있으며, 비디오 자체를 나타낼 수도 있다. 예를 들면, "영상의 부호화 및/또는 복호화"는 "비디오의 부호화 및/또는 복호화"를 의미할 수 있으며, "비디오를 구성하는 영상들 중 하나의 영상의 부호화 및/또는 복호화"를 의미할 수도 있다.Hereinafter, an image may refer to a picture constituting a video, and may also represent the video itself. For example, “encoding and/or decoding of an image” may mean “encoding and/or decoding of a video,” and may mean “encoding and/or decoding of one of the images that constitute a video.” It may be possible.
실시예들에서, 특정된 정보, 데이터, 플래그(flag), 인덱스(index) 및 요소(element), 속성(attribute) 등의 각각은 값을 가질 수 있다. 정보, 데이터, 플래그, 인덱스, 요소 및 속성 등의 값 "0"은 거짓(false), 논리 거짓(logical false) 또는 제1 기정의된(predefined) 값을 나타낼 수 있다. 말하자면, 값 "0", 거짓, 논리 거짓 및 제1 기정의된 값은 서로 대체되어 사용될 수 있다. 정보, 데이터, 플래그, 인덱스, 요소 및 속성 등의 값 "1"은 참(true), 논리 참(logical true) 또는 제2 기정의된(predefined) 값을 나타낼 수 있다. 말하자면, 값 "1", 참, 논리 참 및 제2 기정의된 값은 서로 대체되어 사용될 수 있다.In embodiments, each of the specified information, data, flag, index, element, attribute, etc. may have a value. The value "0" of information, data, flags, indexes, elements, and attributes may represent false, logical false, or a first predefined value. That is, the values “0”, false, logical false and the first predefined value can be used interchangeably. The value "1" in information, data, flags, indexes, elements, and attributes may represent true, logical true, or a second predefined value. That is, the value “1”, true, logical true and the second predefined value can be used interchangeably.
행, 열 또는 인덱스를 나타내기 위해 i 또는 j 등의 변수가 사용될 때, i의 값은 0 이상의 정수일 수 있으며, 1 이상의 정수일 수도 있다. 말하자면, 실시예들에서 행, 열 및 인덱스 등은 0에서부터 카운트될 수 있으며, 1에서부터 카운트될 수 있다.When a variable such as i or j is used to represent a row, column, or index, the value of i may be an integer greater than or equal to 0, or an integer greater than or equal to 1. That is, in embodiments rows, columns, indices, etc. may be counted from 0, and may be counted from 1.
실시예들에서, 용어 "하나 이상" 또는 용어 "적어도 하나"는 용어 "복수"를 의미할 수 있다. "하나 이상" 또는 "적어도 하나"는 "복수"로 교체되어 사용될 수 있다.In embodiments, the term “one or more” or the term “at least one” may mean the term “plural.” “One or more” or “at least one” can be used interchangeably with “plural.”
최근 많은 신경망 기반 이미지 압축 방식들이 기-존재하는 도구-기반의 기존 코덱보다 우수한 결과를 보여주고 있다.Recently, many neural network-based image compression methods are showing superior results than existing tool-based codecs.
그러나, 신경망 기반 이미지 압축 방식들의 대부분은 종종 서로 다른 목표 비트 전송률들에 따라 별도의 모델로서 훈련(train)되며, 따라서 모델 복잡성이 증가할 수 있다.However, most of the neural network-based image compression methods are often trained as separate models according to different target bit rates, which may increase model complexity.
따라서, 단일 모델을 갖고 다양한 비트레이트들을 지원하는 학습된 압축에 대한 몇몇 연구들이 진행되었다. 그러나, 이러한 연구들은 추가적인 네트워크 모듈들, 레이어들 또는 입력들을 요구하며 종종 복잡성 오버헤드를 야기하거나, 충분한 부호화/복호화 효율성을 제공하지 못할 수 있다.Therefore, several studies have been conducted on learned compression that supports various bitrates with a single model. However, these studies require additional network modules, layers or inputs and often result in complexity overhead or may not provide sufficient encoding/decoding efficiency.
실시예들에서는, 먼저 딥 러닝-기반 가변 레이트 이미지 압축을 위해 완전히 일반화된 방식으로 은닉 표현(latent representation)을 부분적으로 부호화하는 선택적 압축 방법이 개시될 수 있다.In embodiments, a selective compression method may be disclosed that first partially encodes a latent representation in a fully generalized manner for deep learning-based variable rate image compression.
실시예들에서, "표현"은 "은닉 표현"을 나타낼 수 있다.In embodiments, “expression” may refer to “hidden expression.”
실시예들의 방법들은 서로 다른 목표 품질 수준들의 압축을 위해 필수적인 표현 요소들(representation elements)을 적응적으로 결정할 수 있다.The methods of embodiments may adaptively determine representation elements necessary for compression of different target quality levels.
이러한 결정을 위해, 먼저 표현 요소들의 기저를 이루는(underlying) 중요도를 나타내기 위해, 입력 콘텐츠의 특성(nature)으로서 3차원(3Dimension; 3D) 중요도 맵이 생성될 수 있다. 다음으로, 3D 중요도 맵은 중요도 조정(adjustment) 곡선을 사용하여 다양한 목표 품질 수준들에 맞게 조정될 수 있다. 최종적으로, 조정된 3D 중요도 맵은 압축에 필수적인(essential) 표현 요소를 결정하기 위해 3D 이진(binary) 마스크로 변환될 수 있다.For this determination, a 3Dimension (3D) importance map can first be created as a nature of the input content to indicate the underlying importance of the presentation elements. Next, the 3D importance map can be adjusted to various target quality levels using an importance adjustment curve. Finally, the adjusted 3D importance map can be converted to a 3D binary mask to determine the representation elements essential for compression.
실시예들의 방법들은 오버헤드 증가의 무시할만한 양을 갖은 채 기존의 압축 모델과 쉽게 통합될 수 있다. 또한, 실시예들의 방법들은 다양한 품질 수준들 간에서 중요도 조정 곡선의 간단한 보간을 통해 지속적으로 가변 레이트 압축을 가능하게 할 수 있다.The methods of the embodiments can be easily integrated with existing compression models with a negligible amount of increased overhead. Additionally, the methods of embodiments may enable continuously variable rate compression through simple interpolation of importance adjustment curves between various quality levels.
실시예들의 방법들은 개별적으로 훈련된 참조 압축 모델들의 압축 효율들과 같이 비교가능한(comparable) 압축 효율을 달성할 수 있으며, 선택적 압축에 기인하여 복호화(decoding) 시간을 단축시킬 수 있다.The methods of the embodiments can achieve compression efficiencies comparable to those of individually trained reference compression models and can shorten decoding time due to selective compression.
신경 망(Neural Network; NN)-기반 이미지 압축 방법들이 활발히 연구되고 있으며, 기존의 도구-기반 압축 방법들인 BPG 및 JPEG2000에 비해 최대 신호 대 잡음비(Peak Signal-to-Noise Ratio; PSNR) 비존테가드 델타(Bjontegaard Delta; BD)-레이트(rate)의 측면에서 우월한 성능을 보일 수 있다.Neural Network (NN)-based image compression methods are being actively researched, and compared to existing tool-based compression methods such as BPG and JPEG2000, Vizontegard has a higher Peak Signal-to-Noise Ratio (PSNR). Delta (Bjontegaard Delta; BD) can show superior performance in terms of rate.
몇몇 방법들은 H.266 인트라 코딩이라고 불리는 최첨단 코덱에 비해 필적할 만한 결과들을 달성할 수 있다.Some methods can achieve comparable results compared to a state-of-the-art codec called H.266 intra coding.
그러나, 기존의 딥러닝-기반 모델들의 대부분은 서로 다른 목표 압축 수준들에 따라서 개별적으로 훈련되기 때문에, 다양한 압축 수준들을 지원하기 위해서는 많은 개수의 파라미터들을 갖는 여러 모델들이 요구될 수 있다.However, because most of the existing deep learning-based models are individually trained according to different target compression levels, multiple models with a large number of parameters may be required to support various compression levels.
이러한 이슈를 다루기 위해, 조건부(conditional) 변환 또는 적응적 양자화를 사용하는 여러 방법들이 제안될 수 있다.To deal with this issue, several methods using conditional transformation or adaptive quantization can be proposed.
그러나, 이러한 방법의 대부분은 추가적인 네트워크 모듈들, 레이어들 또는 입력들을 요구할 수 있고, 따라서 복잡성 오버헤드를 야기할 수 있다.However, most of these methods may require additional network modules, layers or inputs, thus incurring complexity overhead.
실시예들에서는, 부분적으로 선택된 은닉 표현에 대해서만 엔트로피 부호화/복호화를 수행하는, 새로운 '선택적 표현 압축(Selective Compression of Representations; SCR)' 방법이 제시될 수 있다.In embodiments, a new 'Selective Compression of Representations (SCR)' method may be presented, which performs entropy encoding/decoding only on partially selected hidden representations.
표현의 선택은 목표 품질-적웅적(quality-adaptive) 방식으로의 3D 이진 마스크 생성 프로세스를 통해 결정될 수 있다.The choice of representation may be determined through a 3D binary mask generation process in a targeted quality-adaptive manner.
SCR 방법의 3D 이진 마스크 생성에서는, (i) 멀티-채널 피처 맵(3D 표현들)에 대한, 목표 품질 수준에 독립적인, 동일한 크기의 3D 중요도 맵이 생성될 수 있고, (ii) 주어진 목표 품질 수준에 대한 채널-별 중요도 조정 곡선을 통해 3D 중요도 맵이 조정될 수 있고, (iii) 조정된 3D 중요도 맵을 반올림(rounding-off)함으로써 3D 이진 마스크가 생성될 수 있다.In the 3D binary mask generation of the SCR method, (i) for multi-channel feature maps (3D representations), 3D importance maps of the same size can be generated, independent of the target quality level, and (ii) for a given target quality. A 3D importance map may be adjusted via a channel-specific importance adjustment curve for levels, and (iii) a 3D binary mask may be generated by rounding-off the adjusted 3D importance map.
목표-품질-독립적(target-quality-independent)인 3D 중요도 맵은 채널-별 중요도 조정 이후에는 목표-품질-의존적(target-quality-dependent)이 될 수 있다.A 3D importance map that is target-quality-independent can become target-quality-dependent after channel-specific importance adjustment.
실시예들의 방법들은 적응적 양자화 스킴과 통합될 수 있고, 여기에서 실시예의 은닉 표현의 선택적 압축 및 적응적 양자화와 함께 전체의 요소들이 엔드-투-엔드 방식으로 공동으로 최적화될 수 있다.The methods of the embodiments may be integrated with an adaptive quantization scheme, where the overall elements may be jointly optimized in an end-to-end manner with selective compression and adaptive quantization of the hidden representation of the embodiments.
아키텍처의 측면에서, 실시예들의 SCR 방법은 한정된 개수의 목표 품질 수준들에 대한 3D 중요도 맵 및 중요도 조정 곡선들을 생성하기 위해 오직 단일 1×1 컨볼루션 레이어만을 활용함으로써 오버헤드를 최소화할 수 있다.In terms of architecture, the SCR method of embodiments can minimize overhead by utilizing only a single 1×1 convolutional layer to generate 3D importance maps and importance adjustment curves for a limited number of target quality levels.
추가로, SCR 방법은 2 개의 이산(discrete) 목표 품질 수준들 간의 중요도 조정 곡선들의 단순한 비-선형 보간을 통해 가변-레이트 압축을 지속적으로 지원할 수 있다.Additionally, the SCR method can continuously support variable-rate compression through simple non-linear interpolation of importance scaling curves between two discrete target quality levels.
더 나아가, SCR 방법은 상당한 양의 비선택된 표현들에 대한 엔트로피 복호화 프로세스를 생략함으로써 참조 압축 모델 및 초 경량(very lightweight) 적응적 양자화-기반 가변-레이트 방법의 양자에 비해 복호화 시간을 단축할 수 있다.Furthermore, the SCR method can reduce decoding time compared to both the reference compression model and the very lightweight adaptive quantization-based variable-rate method by omitting the entropy decoding process for a significant amount of unselected representations. there is.
실시예들의 SCR 방법의 부호화/복호화 효율은 다양한 목표 품질 수준들에 대하여 개별적으로 훈련된 참조 압축 모델들의 부호화/복호화 효율들 보다 더 우월하거나 비슷할 수 있고, 적응적 양자화-기반 방법의 부호화/복호화 효율 보다 더 우수할 수 있다.The encoding/decoding efficiency of the SCR method of embodiments may be superior to or similar to the encoding/decoding efficiencies of reference compression models trained individually for various target quality levels, and the encoding/decoding efficiency of the adaptive quantization-based method It can be better than that.
실시예들의 방법들은 아래와 같은 특징들을 가질 수 있다:The methods of the embodiments may have the following features:
- 실시예들의 SCR 방법은 완전히 일반화된 방식 및 목표 품질-적응 방식으로 표현을 선택적으로 압축하는 최초의 NN-기반 가변 속도 이미지 압축 방법일 수 있다. 실시예들의 SCR 방법은 개별적으로 훈련된 참조 압축 모델들의 압축 효율들에 필적할 만한 압축 효율을 제공할 수 있다.- The SCR method of the embodiments may be the first NN-based variable rate image compression method that selectively compresses representations in a fully generalized and target quality-adaptive manner. The SCR method of embodiments can provide compression efficiencies comparable to those of individually trained reference compression models.
- 실시예들의 SCR 방식은 다른 이미지 압축 모델에, 이미지 압축 모델의 아키텍처를 수정하지 않은 채, 적용될 수 있다. 따라서, 실시예들의 SCR 방식은 높은 적용성을 가질 수 있다. 단 하나의 1×1 컨볼루션 레이어 및 소수의 중요도 조정 곡선들을 포함하는 초 경량 모듈들이 압축 모델에 통합될 수 있다. 실시예들의 SCR 방법은 선택적 압축에 기인하여 경량 가변-레이트 모델 및 참조 압축 모델의 복호화 시간에 비해 복호화 시간을 단축시킬 수 있다.- The SCR method of the embodiments can be applied to other image compression models without modifying the architecture of the image compression model. Therefore, the SCR method of the embodiments can have high applicability. Ultra-lightweight modules containing only one 1×1 convolutional layer and a few importance tuning curves can be integrated into the compression model. The SCR method of the embodiments can shorten the decoding time compared to the decoding time of the lightweight variable-rate model and the reference compression model due to selective compression.
- 실시예들의 SCR 방법은 선택적 압축이 훈련되는 이산 품질 수준들 간의 중요도 조정 곡선들의 단순한 보간에 의해 가변-레이트 압축을 지속적으로 가능하게 할 수 있다.- The SCR method of embodiments may continuously enable variable-rate compression by simple interpolation of importance tuning curves between discrete quality levels on which selective compression is trained.
전반적인 아키텍처overall architecture
도 1은 실시예의 SCR 방법의 전반적인 아키텍처를 나타낸다.1 shows the overall architecture of the SCR method of the embodiment.
도 1에서, SCR 방식은 하이퍼프라이어(hyperprior) 모델에 통합될 수 있다. In Figure 1, the SCR scheme can be integrated into a hyperprior model.
도 1에서, 가변-레이트 압축을 위한 요소들은 점선으로 된 박스들로서 표시될 수 있다.In Figure 1, elements for variable-rate compression can be indicated as dotted boxes.
특히, 선택적 압축을 위한 요소들은 굵은 선으로 강조 표시될 수 있다.In particular, elements for selective compression may be highlighted with a bold line.
도 1에서 도시던 것과 같이, 실시예들의 SCR 방법은 하이퍼-부호화기(encoder) 및 하이퍼-복호화기(decoder)를 갖는 압축 아키텍처들 상에서 적응적 양자화와 결합될 수 있다.As shown in Figure 1, the SCR method of embodiments can be combined with adaptive quantization on compression architectures with a hyper-encoder and hyper-decoder.
실시예들에서는, SCR 방법은, 범용성(generality)을 가지며 그 효율성을 보이기 위해, 하이퍼프라이어, 평균-스케일(mean-scale) 및 컨텍스트와 같은 참조 압축 모델들에 적용될 수 있다.In embodiments, the SCR method can be applied to reference compression models such as hyperprior, mean-scale, and context to have generality and demonstrate its effectiveness.
실시예들에서, 하이퍼프라이어는 모델의 이름을 나타낼 수 있고, 부수 정보를 나타낼 수 있다. 하이퍼프라이어 모델 등과 같은 모델들이 하이퍼프라이어 부수 정보를 사용할 수 있다.In embodiments, the hyperprior may indicate the name of the model and may indicate collateral information. Models such as the hyperprior model can use hyperprior side information.
하이퍼-부호화기 및 하이퍼-복호화기를 갖는 아키텍처에서는 부호화기 네트워크를 사용하여 입력 영상 가 표현 로 변환될 수 있다. 하이퍼 부호화기 및 하이퍼 복호화기는 의 양자화된 표현 에 대한 분포 파라미터를 하이퍼프라이어로 명명된 부수 정보로서 부호화/복호화하기 위해 사용될 수 있고, 이러한 분포 파라미터를 통해 가 엔트로피-부호화 및 엔트로피-복호화될 수 있다.In an architecture with a hyper-encoder and a hyper-decoder, the input image is encoded using an encoder network. expression can be converted to Hyper encoder and hyper decoder are Quantized representation of It can be used to encode/decode the distribution parameters for as side information named hyperprior, and through these distribution parameters, can be entropy-encoded and entropy-decoded.
다음으로, 양자화된 표현 는 복호화기 네트워크를 통해 이미지 로 복원될 수 있다.Next, the quantized representation image through a decryptor network can be restored.
이러한 베이스 압축 아키텍처 상에, 적응형 양자화 및 선택적 압축이라는 2 개의 추가적인 요소들을 활용함으로써 가변 속도 압축이 가능하게 될 수 있다.On this base compression architecture, variable rate compression can be made possible by utilizing two additional elements: adaptive quantization and selective compression.
부호화기 측에서의 표현 요소들의 선택은 아래의 수학식 1과 같이 표현될 수 있다.Selection of expression elements on the encoder side can be expressed as
여기에서, 는 목적 품질 수준 에서의 양자화된 표현일 수 있다.From here, is the objective quality level It may be a quantized expression in .
여기에서, 에 대하서 아래의 수학식 2가 성립할 수 있다. 즉, 수학식 2의 조건/정의 하에서 수학식 1이 성립할 수 있다.From here, For this reason,
여기에서, 는 주어진 목표 품질 수준 에 대한 의 선택된 요소들의 집합일 수 있다.From here, is the given target quality level for It may be a set of selected elements of .
는 타겟 품질-적응적 양자화 연산자일 수 있다. 여기에서, 에 대하여 양자화 벡터 를 갖고, 아래의 수학식 3이 성립할 수 있다. may be a target quality-adaptive quantization operator. From here, With respect to the quantization vector With this,
은 에 대한 요소 선택 연산자일 수 있다. silver It can be an element selection operator for .
은 및 하이퍼프라이어 에 대하여 생성된 3D 이진 마스크를 나타낼 수 있다. silver and hyperfryer It can represent the 3D binary mask generated for .
표현 는 도 1에서 도시된 입력 영상 에 대한 부호화기 네트워크 의 출력 일 수 있다.expression is the input image shown in Figure 1 Encoder network for output of It can be.
는 목표 품질 의존 분포 에 기반하는 엔트로피 모델을 사용하여 엔트로피-부호화 및 엔트로피-복호화될 수 있다. is the target quality dependent distribution It can be entropy-encoded and entropy-decoded using an entropy model based on .
복호화기 측의 복원된 영상(reconstructed image) 는 아래의 수식 4와 같을 수 있다.Reconstructed image on the decoder side may be the same as
여기에서, 수학식 5 및 수학식 6이 성립할 수 있다. 즉, 수학식 5 및 수학식 6의 조건/정의 하에서 수학식 4이 성립할 수 있다.Here,
여기에서, 는, 복호화기 네트워크 의 출력으로서의, 주어진 타겟 품질 수준 에 대한 복원된 영상(reconstructed image)일 수 있다.From here, , the decoder network As the output of, given the target quality level It may be a reconstructed image for .
는 역-양자화 벡터 를 입력 에 곱하는 적응적 역-양자화 연산자일 수 있다. is the inverse-quantized vector Enter It may be an adaptive inverse-quantization operator that multiplies with .
는 3D 이진 마스크 를 사용함으로써 1D 형태를 갖는 선택된 요소들 을 3D-형태된(3D-shaped) 표현의 요소들로 변형(convert)하는 재형태(reshaping) 연산자일 수 있다. 이 때, 1D 형태의 을 구성하는 각각의 요소는 부호화기의 요소 선택 과정을 거치기 이전 위치에 재배치될 수 있다. is a 3D binary mask Selected elements have a 1D shape by using It may be a reshaping operator that converts into elements of a 3D-shaped representation. At this time, 1D form Each element that constitutes the encoder's It can be relocated to the location before going through the element selection process.
비선택된 요소들에 대하여, 재형태 연산자 는 0들을 대응하는 위치들에 위치시킬 수 있다.For unselected elements, reformat operator can place zeros in corresponding positions.
및 의 예시적인 코드들은 아래에서 개시된다. and Exemplary codes are disclosed below.
수학식 3 및 수학식 5에서, 및 의 벡터 차원수들(dimensionalities)은 일 수 있으며, 는 내의 채널들의 개수일 수 있다. 이로서, 의 양자화 및 의 역-양자화는 대응하는(respective) 요소들 및 에 의해 채널-별로 각각 수행될 수 있다.In
3D 이진 마스크 생성Generate 3D binary mask
도 2는 일 예에 따른 3D 이진 마스크 생성 프로세스를 나타낸다.Figure 2 shows a 3D binary mask generation process according to one example.
3D 이진 마스크 생성 프로세스는 아래의 3 개의 단계들로 구성될 수 있다:The 3D binary mask creation process can consist of the following three steps:
(1) 3D 중요도 맵 생성,(1) Generating 3D importance maps;
(2) 중요도 조정(2) Importance adjustment
(3) 이진화(3) Binarization
3D 이진 마스크 생성 프로세스는 아래의 수학식 7과 같이 정의될 수 있다.The 3D binary mask creation process can be defined as
여기에서, 는 입력으로서 사용되는 하이퍼프라이어 에 대한 하이퍼-복호화기를 통해 생성된 3D 중요도 맵일 수 있다.From here, is the hyperfryer used as input. It may be a 3D importance map generated through a hyper-decoder for .
는 차원수 의 파라미터 벡터일 수 있다. 는 아래의 수식 8과 같이 정의될 수 있다. is the number of dimensions It may be a parameter vector of . Can be defined as
은 와 같을 수 있다. silver It may be the same as
의 파라미터들은 주어진 목표 품질 에 대한 채널-별 중요도 조정 곡선들을 결정하기 위해 학습될 수 있다. The parameters of are given the target quality Can be learned to determine channel-specific importance adjustment curves for .
는 라운딩-오프(rounding-off)를 갖는 이진화(binarization) 연산자일 수 있다. may be a binarization operator with rounding-off.
3D 중요도 맵 생성Create 3D importance map
3D 중요도 맵 은 내의 각 요소의 기저를 이루는(underlying) 중요도를 나타낼 수 있다.3D importance map silver It can indicate the underlying importance of each element within.
3D 중요도 맵 은 0 및 1의 사이의 범위 내의 값들을 가질 수 있다.3D importance map can have values in the range between 0 and 1.
를 생성하는 전용의(dedicated) 복잡한(complex) 네트워크를 활용하지 않은 채, 하이퍼 복호화기 내의 (활성화 이후의) 끝에서 두 번째(penultimate) 컨볼루션 레이어의 출력이 마스크 생성 모듈 내의 단일한 1×1 컨볼루션 레이어로 입력될 수 있다. 그 뒤를 이어, 0 및 1의 사이의 중요도 값들을 획득하기 위해 클리핑 함수(function)가 적용될 수 있다. 즉, 1×1 컨볼루션 레이어의 출력에 대하여 클리핑 함수가 적용될 수 있다. 마스크 생성 모듈 내의 단일한 1×1 컨볼루션 레이어의 입력은 하이퍼복호화기 내의 다른 레이어의 출력일 수 있다. 일 예로, 마스크 생성 모듈 내의 단일한 1×1 컨볼루션 레이어의 입력은 하이퍼 복호화기의 최종 출력 또는 두 번째(penultimate) 레이어보다 더 이전 레이어의 출력일 수 있다. Without utilizing a complex network dedicated to generating It can be input into a convolutional layer. Subsequently, a clipping function can be applied to obtain importance values between 0 and 1. That is, a clipping function can be applied to the output of the 1×1 convolution layer. The input of a single 1×1 convolutional layer in the mask generation module may be the output of another layer in the hyperdecoder. As an example, the input of a single 1×1 convolutional layer in the mask generation module may be the final output of a hyper decoder or the output of a layer earlier than the penultimate layer.
여기에서, 3D 중요도 맵은, 목표 품질 레벨들에 의존하지 않고, 입력 영상들에 의존하여, 생성될 수 있다. 따라서, 3D 중요도 맵은 요소-별 중요도의 관점에서 의 특성을 나타낼 수 있다.Here, the 3D importance map can be generated depending on the input images, without depending on the target quality levels. Therefore, the 3D importance map is characteristics can be expressed.
중요도 조정Adjust importance
도 3은 일 예에 따른 8 개의 목표 품질 레벨들 내에서의 중요도 조정 곡선들을 나타낸다.3 shows importance adjustment curves within eight target quality levels according to an example.
SCR 방법은 하이퍼프라이어 모델 상에 구현될 수 있다.The SCR method can be implemented on the hyperprior model.
각 표현 요소의 실제의(actual) 중요도는 다양한 목표 품질 수준들에 따라서 변할 수 있다. 예를 들면, 영상들 내의 높은 복잡도(complexity)의 텍스처(texture)에 대응하는 몇몇 표현 요소들은 저-품질 압축에서는 필수적으로 요구되지 않을 수 있다.The actual importance of each presentation element may vary according to various target quality levels. For example, some presentation elements that correspond to high complexity textures in images may not be essential in low-quality compression.
따라서, 모든 품질 수준들에 대하여 공통적으로 사용되는, 3D 중요도 맵을 특정 목표 품질 수준에 따라서 조정하는 것은 자연스러울 수 있다.Therefore, it may be natural to adjust the 3D importance map, which is commonly used for all quality levels, according to the specific target quality level.
이러한 조정을 위해, 다양한 목표 품질 수준들에 대한 중요도 조정 곡선들을 사용하여 3D 중요도 맵 이 조정되는 방식이 제공될 수 있다.For this adjustment, a 3D importance map is created using importance adjustment curves for various target quality levels. This coordinated method may be provided.
중요도 조정 곡선들은 의 요소 값들을 채널-별로 변경할 수 있다. The importance adjustment curves are Element values can be changed on a channel-by-channel basis.
중요도 조정 곡선들의 곡률들(curvatures)은 파라미터 벡터 로서 학습될 수 있다. 여기에서, 는 1 보다 더 크고, 보다 더 작을 수 있다. 는 학습에 이용되는 목표 품질 수준들의 총 개수일 수 있다.The curvatures of the importance adjustment curves are parameter vectors. It can be learned as. From here, is greater than 1, It can be smaller than may be the total number of target quality levels used for learning.
목표 품질은 가 증가함에 따라 향상될 수 있다.The target quality is It can be improved as .
도 3은 중요도 조정 곡선들의 몇몇 예들을 보일 수 있다.Figure 3 shows some examples of importance adjustment curves.
도 3에서, 수평 축은 조정되어야 할 입력 값을 나타낼 수 있다. 수직 축은 입력 값의 조정된 결과를 나타낼 수 있다.In Figure 3, the horizontal axis is the input to be adjusted It can represent a value. The vertical axis is the input The adjusted result of the value can be displayed.
또한, 중요도 조정 곡선들에 부착된 숫자들은 개의 목표 품질 레벨들에 대한 훈련된 벡터들의 평균 값들을 가리킬 수 있다.Additionally, the numbers attached to the importance adjustment curves are Dogs trained to target quality levels It can refer to the average values of vectors.
도 3에 따르면, 평균 측면에서, 6 보다 더 큰 에 대한 중요도 조정 곡선들은 입력 의 요소들을 증폭하는(amplify) 경향을 가질 수 있다. 반면, 6보다 더 작은 에 대한 중요도 조정 곡선들은 입력 의 요소들을 감쇠시킬(attenuating) 수 있다. 가 6인 경우에 대하여, 중요도 조정의 이전 및 이후에서 변동(variation)이 거의 없을 수 있다. 이 때, 평균 는 0.9897일 수 있다.According to Figure 3, in terms of average, greater than 6 The importance adjustment curves for the input It may have a tendency to amplify elements of . On the other hand, smaller than 6 The importance adjustment curves for the input It is possible to attenuate the elements of For the case where is 6, there may be little variation before and after the importance adjustment. At this time, average may be 0.9897.
결과적으로, 는 더 높은 목표 품질 수준들에 대하여 전반적으로(overall) 더 강하게 증폭될 수 있다.As a result, can be amplified more strongly overall for higher target quality levels.
반면, 일반적으로, 더 낮은 목표 품질 수준들에 대하여, 는 크게 감쇄될 수 있다. 따라서, 요소들 중 1에 가까운 값을 갖는 소수의 일부만이 요소들의 중요도들을 유지할 수 있다.On the other hand, in general, for lower target quality levels, can be greatly attenuated. thus, Only a small fraction of the elements have values close to 1. The importance of elements can be maintained.
벡터들의 총 개수는 일 수 있다. 따라서, 총 × 개의 파라미터들이 모든 벡터들에 대하여 학습될 수 있다. The total number of vectors is It can be. Therefore, total × All parameters are Vectors can be learned.
실시예들에서, 는 8로 설정될 수 있다. 는 참조 모델에서의 로 설정될 수 있다.In embodiments, can be set to 8. is in the reference model It can be set to .
이진화Binization
3D 이진 마스크는 라운딩 연산자에 의해 최종적으로 결정될 수 있다. 라운딩 연산자는 와 같이 표시될 수 있다.The 3D binary mask can be finally determined by the rounding operator. The rounding operator is It can be displayed as follows.
여기에서 출력 3D 이진 마스크 내의 "1" 값들은 내 동일한 위치에서의 대응하는 요소들이 선택되었음을 나타낼 수 있다.Here, the "1" values in the output 3D binary mask are It can indicate that the corresponding elements at the same location have been selected.
도 4는 일 예에 따른 서로 다른 목표 품질 수준들에 대한 생성된 마스크들을 나타낸다.4 shows generated masks for different target quality levels according to an example.
도 4의 상단에는, 8 개의 목표 품질 레벨들의 샘플 마스크들이 도시되었다. 샘플 마스크들의 진한 부분들은 3D 이진 마스크들에 의한 선택된 표현 요소들을 가리킨다.At the top of Figure 4, sample masks of eight target quality levels are shown. The dark parts of the sample masks indicate the representation elements selected by the 3D binary masks.
도 4의 하단에는, 채널 축을 따라서 평균화된 마스크들이 도시되었다.At the bottom of Figure 4, masks averaged along the channel axis are shown.
목표 품질이 더 높을수록, 특히 더 복잡한 영역들(regions)에서 더 많은 표현 요소들이 선택될 수 있다.The higher the target quality, the more presentation elements can be selected, especially in more complex regions.
예를 들면, 는 1.0 부터 8.0까지일 수 있다.For example, can be from 1.0 to 8.0.
실시예들의 SCR 방법은 하이퍼프라이어 모델 상에 구현될 수 있고, Kodim12 영상 세트의 Kodim12 영상이 입력 샘플로서 사용될 수 있다. 입력 샘플에서, 진하게 마크된 구성요소들(components)은 "1" 값들을 가리킬 수 있다.The SCR method of the embodiments can be implemented on a hyperfryer model, and Kodim12 images from the Kodim12 image set can be used as input samples. In the input sample, components marked in bold may indicate “1” values.
예를 들면, 가 SCR 방법에서 가장 낮은 품질 수준인 1.0으로 설정되었을 때, 단지 총 요소들의 3.22% 만이 선택될 수 있다. 또한, 값이 증가함에 따라 선택 비율은 점진적으로(gradually) 증가할 수 있다.For example, When is set to 1.0, which is the lowest quality level in the SCR method, only 3.22% of the total elements can be selected. also, As the value increases, the selection ratio can increase gradually.
예를 들면, 가 8.0인 경우, 표현 요소들의 43.39%가 선택될 수 있다.For example, When is 8.0, 43.39% of the expression elements can be selected.
추가로, 채널 축을 따른 평균된(averaged) 마스트들 내에서 보이는 것과 같이, 실시예들의 SCR 방법은 고-복잡도 영역 내에서 더 많은 표현들을 사용할 수 있다.Additionally, the SCR method of embodiments can use more representations within the high-complexity region, as shown in the averaged masts along the channel axis.
도 5는 일 예에 따른 선택된 표현 요소들의 평균 비율들 대 평균 BPP를 나타낸다.Figure 5 shows average ratios of selected presentation elements versus average BPP according to an example.
도 5를 참조하는 실시예에서, 테스트 세트는 코닥 이미지 세트일 수 있다. 베이스 모델은 하이퍼프라이어일 수 있다.In the embodiment referring to Figure 5, the test set may be a Kodak image set. The base model may be a hyperfryer.
예를 들면, 전체의 코닥(Kodak) 영상 세트에 대하여, 1.0 부터 8.0 까지의 목표 품질 수준들에 대한 선택된 요소들의 평균 비율들(average proportions)은 각각 6.41%, 9.66%, 14.17%, 19.90%, 27.00%, 35.68%, 46.20% 및 55.81%일 수 있다. 여기에서, 도 5에서 도시된 것과 같이, 평균 비율들은 평균 픽셀-당-비트들(Bits Per Pixel; BPP) 값들에 거의 선형적으로 비례할 수 있다.For example, for the entire Kodak image set, the average proportions of selected elements for target quality levels from 1.0 to 8.0 were 6.41%, 9.66%, 14.17%, 19.90%, respectively. It could be 27.00%, 35.68%, 46.20% and 55.81%. Here, as shown in Figure 5, the average ratios may be approximately linearly proportional to the average Bits Per Pixel (BPP) values.
도 6은 일 예에 따른 저 품질 수준으로부터 고 품질 수준으로의 재사용된 표현 요소들의 평균 비율들을 나타낸다.Figure 6 shows the average percentages of reused presentation elements from a low quality level to a high quality level according to an example.
도 6을 참조하는 실시예에서, 테스트 세트는 코닥 이미지 세트일 수 있다. 베이스 모델은 하이퍼프라이어일 수 있다.In the embodiment referring to Figure 6, the test set may be a Kodak image set. The base model may be a hyperfryer.
도 6은 낮은 목표 품질 레벨에서 얼마나 많은 표현들이 더 높은 목표 품질 수준들을 위해 일반적으로 사용(또는 선택)되는가를 나타낼 수 있다.Figure 6 may indicate how many representations at a lower target quality level are typically used (or selected) for higher target quality levels.
예를 들면, 도 6에서, 목표 품질 레벨 가 2일 때의 선은 표현 요소들의 100%, 99.8%, 99.6%, 99.0%, 98.3% 및 98.2%를 가리킬 수 있다. 목표 품질 레벨 가 2일 때 선택된 표현 요소들은 3.0에서 8.0까지의 목표 품질 레벨 들에 대해서도 각각 재사용될 수 있다.For example, in Figure 6, the target quality level When is 2, the line can indicate 100%, 99.8%, 99.6%, 99.0%, 98.3%, and 98.2% of the expression elements. target quality level When is 2, the selected expression elements have target quality levels from 3.0 to 8.0. Each can also be reused.
도 6에 따르면, 가 8.0인 케이스는 가 1.0인 케이스에 대한 선택된 표현 요소들의 97.6%를 상당하게 재사용할 수 있다.According to Figure 6, The case where is 8.0 is For the case where is 1.0, 97.6% of the selected expression elements can be significantly reused.
이러한 재사용은 실시예들의 SCR 방법이 서로 다른 목표 품질 수준들에 대하여 표현 요소들을 별도로 선택하지 않고, 다양한 목표 품질 수준들에 대하여 공통 구성요소들로서 표현 요소들의 상당(large) 부분을 적극적으로 취한다는 것을 나타낼 수 있다.This reuse means that the SCR method of the embodiments does not select representation elements separately for different target quality levels, but actively takes a large portion of representation elements as common components for various target quality levels. It can be expressed.
훈련training
SCR 모델은 아래의 수학식 9에 따라 공식화된(formulated) 총 손실을 사용하는 엔드-투-엔드 방식으로 훈련될 수 있다.The SCR model can be trained in an end-to-end manner using the total loss formulated according to Equation 9 below.
여기에서, 에 대하서 아래의 수학식 10이 성립할 수 있다. 즉, 수학식 10의 조건/정의 하에서 수학식 9가 성립할 수 있다.From here, For this reason,
여기에서, 는 타겟 품질 수준 에 대한 레이트 항(term)을 나타낸다. 는 타겟 품질 수준 에 대한 왜곡(distortion) 항을 나타낸다.From here, is the target quality level Indicates the rate term for . is the target quality level It represents the distortion term for .
는 레이트 및 왜곡 간의 균형(balance)를 조정하기 위한 파라미터를 나타낸다. 는 아래의 수학식 11과 같이 정의될 수 있다. represents a parameter for adjusting the balance between rate and distortion. Can be defined as Equation 11 below.
는 입력 영상 및 복원된 영상 간의 중간 제곱된 오차(Mean Squared Error; MSE) 또는 멀티 스케일-구조적 유사성(Multi Scale-Structural SIMilarity; MS-SSIM)일 수 있다. is the input image and restored video It may be Mean Squared Error (MSE) or Multi Scale-Structural SIMilarity (MS-SSIM).
MS-SSIM-기반 최적화에 있어서, 사용되는 왜곡 항 은 3000(1 - MS-SSIM(, ))일 수 있다.In MS-SSIM-based optimization, distortion terms used is 3000(1 - MS-SSIM ( , )) can be.
는 및 의 양자화된 표현들에 대한 계산된 크로스-엔트로피일 수 있다. Is and It may be the calculated cross-entropy for quantized representations of .
의 경우에서, 양자화 및 마스크 생성 프로세스들은 각 목표 품질 수준 에 대하여 다르기 때문에, 크로스 엔트로피 가 아래의 수학식 12와 같이 목적 품질 수준 에 대하여 사용될 수 있다. In this case, the quantization and mask generation processes are performed at each target quality level. Since it is different with respect to The objective quality level is as shown in Equation 12 below: It can be used against.
여기에서, 에 대하서 아래의 수학식 13이 성립할 수 있다. 즉, 수학식 13의 조건/정의 하에서 수학식 12가 성립할 수 있다.From here, For this reason, Equation 13 below can be established. In other words, Equation 12 can be established under the conditions/definition of Equation 13.
는 입력 영상 내의 픽셀들의 개수일 수 있다. is the input image It may be the number of pixels within.
는 의 선택된 요소들 의 총 개수일 수 있다. Is selected elements of It may be the total number of .
선택된 표현 요소들의 크로스 엔트로피 는, 서로 다른 목표 품질 수준들에 대하여 변하는 의 분포를 다루기 위하여, 근사 확률 질량 함수(Probability Mass Function; PMF) 에 기반하여 계산될 수 있다.Cross entropy of selected expression elements varies for different target quality levels. To deal with the distribution of , an approximate Probability Mass Function (PMF) is used. It can be calculated based on .
특히, 의 추산된(estimated) 분포 파라미터들 및 은 및 로서 각각 결정될 수 있다.especially, The estimated distribution parameters of and silver and Each can be determined as .
여기에서, 값 및 값은 베이스 압축 모델들로부터 획득될 수 있다.From here, value and Values can be obtained from base compression models.
는 중간(mean) 파라미터일 수 있다. 는 양자화된 표현 의 엔트로피 모델에 대한 중건 파라미터일 수 있다. may be a mean parameter. is a quantized representation It may be a neutral parameter for the entropy model of .
는 스케일 파라미터일 수 있다. 는 양자화된 표현 의 엔트로피 모델에 대한 스케일 파라미터일 수 있다. may be a scale parameter. is a quantized representation It may be a scale parameter for the entropy model of .
컨텍스트 기반 모델에 대하여, 위치-별(position-wise) 파라미터들 및 는 각 공간적(spatial) 좌표 에 대하여 및 를 통해 각각 획득될 수 있다. For context-based models, position-wise parameters and is each spatial coordinate about and Each can be obtained through .
에 대하여 제로-평균(zero-mean) 가우시안-기반 모델이 사용될 때, 는 무시될 수 있다. When a zero-mean Gaussian-based model is used, can be ignored.
엔트로피 최소화-기반 압축 모델들에서와 같이, 근사 PMF 로서 균일(uniform) 분포를 가지고 컨볼루션된(convolved with) 가우시안 분포 모델이 채용될 수 있다.As in entropy minimization-based compression models, the approximate PMF A Gaussian distribution model convolved with a uniform distribution can be adopted.
또한, 추론에 대해서는, 라운드된 표현 의 대신에, 추가적인 균일 노이즈 (-0.5, 0.5)가 더해진 표현이 훈련을 위해 사용될 수 있다. 추가적인 균일 노이즈 (-0.5, 0.5)가 더해진 표현은 로 표시될 수 있다.Also, for inference, the rounded expression Instead of , additional uniform noise Expressions with (-0.5, 0.5) added can be used for training. Additional uniform noise The expression with (-0.5, 0.5) added is It can be displayed as .
마스크의 이진 표현을 학습함에 기인하는 훈련 페이즈(phase) 내에서의 불안전성(instability)을 다루기 위해, 보다는 확률적으로(stochastically) 생성된 마스크 가 테스트 페이즈 내에서 사용될 수 있다.To deal with instability within the training phase due to learning the binary representation of the mask, A mask generated stochastically rather than Can be used within the test phase.
조정된 3D 중요도 맵은 에 대하여 단순한 라운드-오프(rounded-off)가 되지만, 조정된 3D 중요도 맵 의 각 요소 값을 출력 마스크의 대응하는 구성요소가 "1"일 확률로 간주함으로써 랜덤으로 샘플링된 이진 표현들을 가지고 가 구축될 수 있다.The adjusted 3D importance map is is a simple rounded-off, but adjusted 3D importance map. with randomly sampled binary representations by considering the value of each element of can be built.
는 아래의 수학식 14와 같이 생성될 수 있다. Can be generated as in Equation 14 below.
라운딩-오프 연산자 에 의해 야기되는 불연속성은 그래디언트들(gradients)을 역방향(backward)으로 바이패싱(bypassing)함으로써 다루어질 수 있다.Rounding-off operator The discontinuity caused by can be handled by bypassing the gradients backward.
실제의 구현에서, 훈련은 및 를 사용하지 않고 수행될 수 있다. 왜냐하면, 비선택된 표현들은 를 계산하기 위한 아래의 수학식 15를 사용함으로써 제외될 수 있고, 를 계산하기 위해 를 통해 를 획득할 수 있기 때문이다.In practical implementation, training and It can be done without using . Because the non-selected expressions are It can be excluded by using Equation 15 below to calculate to calculate Through the This is because you can obtain .
여기에서, 에 대하서 아래의 수학식 16이 성립할 수 있다. 즉, 수학식 16의 조건/정의 하에서 수학식 15가 성립할 수 있다.From here, For this reason, Equation 16 below can be established. In other words, Equation 15 can be established under the conditions/definition of Equation 16.
다른 훈련 세부사항들도 아래에서 기술된다.Other training details are also described below.
연속적인 가변-레이트 압축Continuous variable-rate compression
테스트 동안의 연속적인 가변-레이트 압축을 지원하기 위해, 보간에 의해 아래의 수학식 17에서 정의된 것과 같이 가 결정될 수 있다. 여기에서, q는 2 개의 이산 목표 품질 레벨들 사이의 값일 수 있다.To support continuous variable-rate compression during testing, by interpolation, as defined in Equation 17 below: can be decided. Here, q can be a value between two discrete target quality levels.
예를 들면, 가 3.8일 때, 는 및 의 요소-별 곱(multiplication)에 의해 결정될 수 있다.For example, When is 3.8, Is and It can be determined by element-wise multiplication of .
및 벡터들 또한 상기에서 설명된 것과 동일한 방식으로 보간될 수 있다. 상기의 보간은 비-선형 보간일 수 있다. and Vectors can also be interpolated in the same way as described above. The above interpolation may be non-linear interpolation.
연산자의 코드operator's code
도 7은 일 예에 따른 표현 선택 연산자 및 재형태 연산자의 코드를 나타낸다.Figure 7 shows the code of an expression selection operator and a reformulation operator according to an example.
도 7에서는 선택 연산자 및 재형태 연산자 를 구현하기 위한 코드가 도시되었다.In Figure 7, the selection operator and reshaping operators The code to implement is shown.
이러한 2 개의 모듈들은 테스트 페이즈에서 사용될 수 있다. 이러한 2 개의 모듈들은 훈련을 위해서는 필수적으로 요구되지 않을 수 있다.These two modules can be used in the test phase. These two modules may not be required for training.
SCR 방법의 훈련 세부사항들Training details of the SCR method
더 안정적이고 더 빠른 훈련을 위해, 아래의 3 개의 단계들을 포함하는 단계-별 훈련이 채용될 수 있다:For more reliable and faster training, step-by-step training can be employed, including the three steps below:
(1) 첫 번째 단계에서, 고정된-레이트 압축 모델이 고 품질 압축을 위해 훈련될 수 있다. 예를 들면, 고 품질 압축에서, 가변-레이트 모델의 목표 품질 수준 는 8.0일 수 있다.(1) In the first step, a fixed-rate compression model can be trained for high quality compression. For example, in high-quality compression, the target quality level of a variable-rate model is may be 8.0.
(2) 두 번째 단계에서, 훈련된 고정된-레이트 압축 모델이 기(pre)-훈련된 모델로서 사용될 수 있다. 두 번째 단계의 SCR 변형 모델은 엔드-투-엔드 방식 내의 선택적인 압축 없이 훈련될 수 있다.(2) In the second step, the trained fixed-rate compression model can be used as a pre-trained model. The second-stage SCR deformation model can be trained without selective compression in an end-to-end manner.
(3) 세 번째 단계에서, 두 번째 단계의 훈련된 선택적인 압축을 수행하지 않는 SCR 변형 모델이 선-훈련된 모델로 사용될 수 있다. 세 번째 단계의 SCR 풀 모델은 엔드-투-엔드 방식으로 훈련될 수 있다.(3) In the third step, the SCR variant model that does not perform the trained selective compression of the second step can be used as the pre-trained model. The SCR full model in the third stage can be trained in an end-to-end manner.
각 단계의 성능이 충분하게 수렴될 때까지 모든 훈련 단계들은 최적화기를 사용하여 진행될 수 있다.All training steps can be performed using an optimizer until the performance of each step sufficiently converges.
예를 들면, 이러한 3 개의 단계들의 훈련 반복(iteration) 횟수는 각각 700만, 120만, 120만 회일 수 있다.For example, the number of training iterations for these three stages may be 7 million, 1.2 million, and 1.2 million, respectively.
훈련 데이터 세트로서, 전체의 훈련 세트로부터, 겹치지 않는 방식으로, 잘려진 51,141개의 256×256 크기의 패치들이 사용될 수 있다. 배치 크기는 8로 설정될 수 있다.As a training data set, 51,141 patches of size 256×256 cut from the entire training set in a non-overlapping manner can be used. The batch size can be set to 8.
초기 학습률은 5×10-5로 설정될 수 있다. 최종의 10만 회의 반복들에서는 2×10-6의 학습률이 사용될 수 있다. 이러한 학습률 감쇠는 모든 훈련 페이즈들에 대해 수행될 수 있다.The initial learning rate can be set to 5×10 -5 . In the final 100,000 iterations a learning rate of 2×10 -6 can be used. This learning rate decay can be performed for all training phases.
도 8은 일 실시예에 따른 부호화 장치의 구조를 나타낸다.Figure 8 shows the structure of an encoding device according to an embodiment.
부호화 장치(800)는 부호화기(810), 적응적 양자화부(820), 하이퍼 부호화기(830), 양자화부(835), 제1 엔트로피 부호화기(840), 하이퍼 복호화기(845), 3D 마스크 생성부(850), 표현 선택부(855), 스케일링 및 선택부(860), 제2 엔트로피 부호화기(865) 및 통신부(870)를 포함할 수 있다.The
부호화 장치(800)는 입력 영상 에 대한 부호화를 수행함으로써 생성된 정보를 포함하는 비트스트림을 생성할 수 있다.The
부호화기(810), 적응적 양자화부(820), 하이퍼 부호화기(830), 양자화부(835), 제1 엔트로피 부호화기(840), 하이퍼 복호화기(845), 3D 마스크 생성부(850), 표현 선택부(855), 스케일링 및 선택부(860), 제2 엔트로피 부호화기(865) 및 통신부(870) 중 적어도 일부는 프로그램 모듈들일 수 있으며, 외부의 장치 또는 시스템과 통신할 수 있다. 프로그램 모듈들은 운영 체제, 응용 프로그램 모듈 및 기타 프로그램 모듈의 형태로 부호화 장치(800)에 포함될 수 있다.
프로그램 모듈들은 물리적으로는 여러 가지 공지의 기억 장치 상에 저장될 수 있다. 또한, 이러한 프로그램 모듈 중 적어도 일부는 부호화 장치(800)와 통신 가능한 원격 기억 장치에 저장될 수도 있다.Program modules may be physically stored on various known storage devices. Additionally, at least some of these program modules may be stored in a remote memory device capable of communicating with the
프로그램 모듈들은 일 실시예에 따른 기능 또는 동작을 수행하거나, 일 실시예에 따른 추상 데이터 유형을 구현하는 루틴(routine), 서브루틴(subroutine), 프로그램, 오브젝트(object), 컴포넌트(component) 및 데이터 구조(data structure) 등을 포괄할 수 있지만, 이에 제한되지는 않는다.Program modules are routines, subroutines, programs, objects, components, and data that perform a function or operation according to an embodiment or implement an abstract data type according to an embodiment. It may include data structures, etc., but is not limited thereto.
프로그램 모듈들은 부호화 장치(800)의 적어도 하나의 프로세서(processor)에 의해 수행되는 명령어(instruction) 또는 코드(code)로 구성될 수 있다.Program modules may be composed of instructions or codes that are executed by at least one processor of the
부호화 장치(800)는 컴퓨터에 의해 독출(read)될 수 있는 기록 매체를 포함하는 컴퓨터 시스템에서 구현될 수 있다.The
기록 매체는 부호화 장치(800)가 동작하기 위해 요구되는 적어도 하나의 모듈을 저장할 수 있다.The recording medium may store at least one module required for the
부호화 장치(800)의 데이터 또는 정보의 통신과 관련된 기능은 통신부(870)를 통해 수행될 수 있다.Functions related to communication of data or information of the
예를 들면, 통신부(870)는 비트스트림을 후술될 복호화 장치(1000)로 전송할 수 있다.For example, the
도 9는 일 실시예에 따른 부호화 방법의 신호 흐름도이다.Figure 9 is a signal flow diagram of an encoding method according to an embodiment.
단계(910)에서, 부호화기(810)는 입력 영상 을 사용하여 은닉 표현 를 생성할 수 있다.In
부호화기(810)는 입력 영상 에 대한 부호화를 수행함으로써 은닉 표현 를 생성할 수 있다.The
단계(920)에서, 목표 품질 수준 가 주어졌을 때, 적응적 양자화부(820)는 은닉 표현 에 대한 적응적 양자화를 수행함으로써 목표 품질 수준 에서의 양자화된 은닉 표현 을 생성할 수 있다.At
실시예들에서, 특정 구성요소에 목표 품질 수준 가 주어진다는 것은 목표 품질 수준 가 특정 구성요소에 입력된다는 것을 의미할 수 있다. 또는, 특정 구성요소에 목표 품질 수준 가 주어진다는 것은 특정 목표 품질 수준에 대하여 특정 구성요소가 생성된다는 것을 의미할 수 있다.In embodiments, a target quality level for a particular component. Given a target quality level This may mean that is input to a specific component. Or, a target quality level for a specific component. Being given may mean that a specific component is created for a specific target quality level.
예를 들면, 말하자면, 양자화된 은닉 표현 은 특정 목표 품질 수준에 대하여 생성될 수 있다.For example, say, quantized hidden representation can be generated for a specific target quality level.
단계(930)에서, 하이퍼 부호화기(830)는 은닉 표현 을 사용하여 하이퍼프라이어 은닉(hyperprior latent) 를 생성할 수 있다.At
단계(935)에서, 양자화부(835)는 하이퍼프라이어 은닉 을 사용하여 양자화된 하이퍼프라이어 은닉 를 생성할 수 있다.In
양자화부(835)는 하이퍼프라이어 은닉 에 대한 양자화를 수행함으로써 양자화된 하이퍼프라이어 은닉 를 생성할 수 있다.The
단계(940)에서, 제1 엔트로피 부호화기(840)는 양자화된 하이퍼프라이어 은닉 에 대한 엔트로피 부호화를 수행함으로써 하이퍼프라이어의 부호화된 정보를 생성할 수 있다.At
비트스트림은 하이퍼프라이어의 부호화된 정보를 포함할 수 있다.The bitstream may include encoded information of the hyperprior.
단계(945)에서, 하이퍼 복호화기(845)는 양자화된 하이퍼프라이어 은닉 를 사용하여 끝에서 두 번째(penultimate) 레이어의 출력을 생성할 수 있다.At
하이퍼 복호화기(845)는 양자화된 하이퍼프라이어 은닉 를 사용하여 파라미터를 생성할 수 있다. 파라미터는 스케일 파라미터 를 포함할 수 있다. 파라미터는 평균 파라미터 를 포함할 수 있다.The
단계(950)에서, 3D 마스크 생성부(850)는 하이퍼 복호화기의 특정 레이어의 출력을 사용하여 3D 이진 마스크를 생성할 수 있다.In
특정 레이어는 끝에서 두 번째(penultimate)일 수 있다. 3D 마스크 생성부(850)는 하이퍼 복호화기의 끝에서 두 번째(penultimate) 레이어의 출력을 사용하여 3D 이진 마스크를 생성할 수 있다.Certain layers may be penultimate. The
실시예들에서, 3D 마스크는 3D 이진 마스크를 의미할 수 있다.In embodiments, 3D mask may refer to a 3D binary mask.
하이퍼 복호화기로는 양자화된 하이퍼프라이어 은닉 가 입력될 수 있다. 하이퍼 복호화기는 양자화된 하이퍼프라이어 은닉 에 대한 복호화를 수행함으로써 끝에서 두 번째(penultimate) 레이어의 출력을 생성할 수 있다.Quantized hyperprior concealment with hyperdecoder can be entered. The hyperdecoder hides the quantized hyperprior. By performing decoding on , the output of the penultimate layer can be generated.
목표 품질 수준 가 주어졌을 때, 3D 마스크 생성부(850)는 끝에서 두 번째(penultimate) 레이어의 출력을 사용하여 목표 품질 수준 에 대한 3D 이진 마스크를 생성할 수 있다.target quality level Given, the
단계(955)에서, 표현 선택부(855)는 목표 품질 수준 에서의 양자화된 은닉 표현 및 3D 이진 마스크를 사용하여 목표 품질 수준 에 대한 의 선택된 요소들의 집합 를 유도할 수 있다.At
단계(960)에서, 목표 품질 수준 가 주어졌을 때, 스케일링 및 선택부(860)는 3D 이진 마스크 및 파라미터를 사용하여 목표 품질 수준 에 대한 파라미터를 생성할 수 있다.At
파라미터는 스케일 파라미터 를 포함할 수 있다. 파라미터는 평균 파라미터 를 포함할 수 있다.The parameter is a scale parameter may include. The parameter is the average parameter may include.
목표 품질 수준 에 대한 파라미터는 목표 품질 수준 에 대한 스케일 파라미터 를 포함할 수 있다. 는 에 기반하여 생성될 수 있다.target quality level The parameters for the target quality level are scale parameter for may include. Is It can be created based on .
목표 품질 수준 에 대한 파라미터는 목표 품질 수준 에 대한 평균 파라미터 를 포함할 수 있다. 는 에 기반하여 생성될 수 있다.target quality level The parameters for the target quality level are average parameter for may include. Is It can be created based on .
단계(965)에서, 제2 엔트로피 부호화기(865)는 목표 품질 수준 에 대한 파라미터를 사용하여 목표 품질 수준 에서의 양자화된 은닉 표현 의 선택된 요소들의 집합 에 대한 엔트로피 부호화를 수행함으로써 목표 품질 수준 에서의 양자화된 은닉 표현 의 선택된 요소들의 부호화된 정보를 생성할 수 있다.At
비트스트림은 목표 품질 수준 에서의 양자화된 은닉 표현 의 선택된 요소들의 부호화된 정보를 포함할 수 있다.Bitstream is at target quality level Quantized hidden representation in It may contain encoded information of selected elements of .
단계(970)에서, 통신부(870)는 비트스트림을 복호화 장치(1000)로 전송할 수 있다.In
실시예들에서 전술된 정보에 대한 설명 및 처리는 도 9를 참조하여 설명된 단계들의 정보에도 적용될 수 있다.The description and processing of information described above in the embodiments may also be applied to the information of the steps described with reference to FIG. 9 .
도 10은 일 실시예에 따른 복호화 장치의 구조도이다.Figure 10 is a structural diagram of a decoding device according to an embodiment.
복호화 장치(1000)는 통신부(1005), 제1 엔트로피 복호화기(1040), 하이퍼 복호화기(1045), 3D 마스크 생성부(1050), 스케일링 및 선택부(1060), 제2 엔트로피 복호화기(1065), 재형태부(1080), 적응적 역-양자화부(1085) 및 복호화기(1090)를 포함할 수 있다.The
복호화 장치(1000)는 비트스트림의 부호화된 정보에 대한 복호화를 수행함으로써 복원된 영상(reconstructed image) 를 생성할 수 있다.The
통신부(1005), 제1 엔트로피 복호화기(1040), 하이퍼 복호화기(1045), 3D 마스크 생성부(0150), 스케일링 및 선택부(1060), 제2 엔트로피 복호화기(1065), 재형태부(1080), 적응적 역-양자화부(1085) 및 복호화기(1090) 중 적어도 일부는 프로그램 모듈들일 수 있으며, 외부의 장치 또는 시스템과 통신할 수 있다. 프로그램 모듈들은 운영 체제, 응용 프로그램 모듈 및 기타 프로그램 모듈의 형태로 복호화 장치(1000)에 포함될 수 있다.
프로그램 모듈들은 물리적으로는 여러 가지 공지의 기억 장치 상에 저장될 수 있다. 또한, 이러한 프로그램 모듈 중 적어도 일부는 복호화 장치(1000)와 통신 가능한 원격 기억 장치에 저장될 수도 있다.Program modules may be physically stored on various known storage devices. Additionally, at least some of these program modules may be stored in a remote memory device capable of communicating with the
프로그램 모듈들은 일 실시예에 따른 기능 또는 동작을 수행하거나, 일 실시예에 따른 추상 데이터 유형을 구현하는 루틴(routine), 서브루틴(subroutine), 프로그램, 오브젝트(object), 컴포넌트(component) 및 데이터 구조(data structure) 등을 포괄할 수 있지만, 이에 제한되지는 않는다.Program modules are routines, subroutines, programs, objects, components, and data that perform a function or operation according to an embodiment or implement an abstract data type according to an embodiment. It may include data structures, etc., but is not limited thereto.
프로그램 모듈들은 복호화 장치(1000)의 적어도 하나의 프로세서(processor)에 의해 수행되는 명령어(instruction) 또는 코드(code)로 구성될 수 있다.Program modules may be composed of instructions or codes that are executed by at least one processor of the
복호화 장치(1000)는 컴퓨터에 의해 독출(read)될 수 있는 기록 매체를 포함하는 컴퓨터 시스템에서 구현될 수 있다.The
기록 매체는 복호화 장치(1000)가 동작하기 위해 요구되는 적어도 하나의 모듈을 저장할 수 있다.The recording medium may store at least one module required for the
복호화 장치(1000)의 데이터 또는 정보의 통신과 관련된 기능은 통신부(1005)를 통해 수행될 수 있다.Functions related to communication of data or information of the
예를 들면, 통신부(1005)는 부호화 장치(800)로부터 비트스트림을 수신할 수 있다.For example, the
도 11는 일 실시예에 따른 복호화 방법의 흐름도이다.Figure 11 is a flowchart of a decryption method according to an embodiment.
단계(1105)에서, 통신부(1005)는 부호화 장치(800)로부터 비트스트림을 수신할 수 있다.In
비트스트림은 하이퍼프라이어의 부호화된 정보를 포함할 수 있다.The bitstream may contain encoded information of the hyperprior.
비트스트림은 목표 품질 수준 에서의 양자화된 은닉 표현 의 선택된 요소들의 부호화된 정보를 포함할 수 있다.Bitstream is at target quality level Quantized hidden representation in It may contain encoded information of selected elements of .
단계(1140)에서, 제1 엔트로피 복호화기(1040)는 하이퍼프라이어의 부호화된 정보에 대한 복호화를 수행함으로써 양자화된 하이퍼프라이어 은닉 를 생성할 수 있다.In
단계(1145)에서, 하이퍼 복호화기(1045)는 양자화된 하이퍼프라이어 은닉 를 사용하여 끝에서 두 번째(penultimate) 레이어의 출력을 생성할 수 있다.At
하이퍼 복호화기(1045)는 양자화된 하이퍼프라이어 은닉 를 사용하여 파라미터를 생성할 수 있다. 파라미터는 스케일 파라미터 를 포함할 수 있다. 파라미터는 중간 파라미터 를 포함할 수 있다.The
단계(1150)에서, 3D 마스크 생성부(1050)는 하이퍼 복호화기의 특정 레이어의 출력을 사용하여 3D 이진 마스크를 생성할 수 있다.In
특정 레이어는 끝에서 두 번째(penultimate)일 수 있다. 3D 마스크 생성부(1050)는 하이퍼 복호화기의 끝에서 두 번째(penultimate) 레이어의 출력을 사용하여 3D 이진 마스크를 생성할 수 있다.Certain layers may be penultimate. The
실시예들에서, 3D 마스크는 3D 이진 마스크를 의미할 수 있다.In embodiments, 3D mask may refer to a 3D binary mask.
하이퍼 복호화기로는 양자화된 하이퍼프라이어 은닉 가 입력될 수 있다. 하이퍼 복호화기는 양자화된 하이퍼프라이어 은닉 에 대한 복호화를 수행함으로써 끝에서 두 번째(penultimate) 레이어의 출력을 생성할 수 있다.Quantized hyperprior concealment with hyperdecoder can be entered. The hyperdecoder hides the quantized hyperprior. By performing decoding on , the output of the penultimate layer can be generated.
목표 품질 수준 가 주어졌을 때, 3D 마스크 생성부(1050)는 끝에서 두 번째(penultimate) 레이어의 출력을 사용하여 목표 품질 수준 에 대한 3D 이진 마스크를 생성할 수 있다.target quality level Given, the
단계(1160)에서, 목표 품질 수준 가 주어졌을 때, 스케일링 및 선택부(1060)는 3D 이진 마스크 및 파라미터를 사용하여 목표 품질 수준 에 대한 파라미터를 생성할 수 있다.At
파라미터는 스케일 파라미터 를 포함할 수 있다. 파라미터는 중간 파라미터 를 포함할 수 있다.The parameter is a scale parameter may include. Parameter is an intermediate parameter may include.
목표 품질 수준 에 대한 파라미터는 목표 품질 수준 에 대한 스케일 파라미터 를 포함할 수 있다. 는 에 기반하여 생성될 수 있다.target quality level The parameters for the target quality level are scale parameter for may include. Is It can be created based on .
목표 품질 수준 에 대한 파라미터는 목표 품질 수준 에 대한 중간 파라미터 를 포함할 수 있다. 는 에 기반하여 생성될 수 있다.target quality level The parameters for the target quality level are intermediate parameters for may include. Is It can be created based on .
단계(1165)에서, 제2 엔트로피 복호화기(1065)는 목표 품질 수준 에 대한 파라미터를 사용하여 목표 품질 수준 에서의 양자화된 은닉 표현 의 선택된 요소들의 부호화된 정보에 대한 복호화를 수행함으로써 목표 품질 수준 에서의 양자화된 은닉 표현 의 선택된 요소들의 집합 을 생성할 수 있다.At
단계(1180)에서, 재형태부(1180)는 3D 이진 마스크를 사용하여 목표 품질 수준 에서의 양자화된 은닉 표현 의 선택된 요소들의 집합 을 목표 품질 수준 에서의 3D-형태된(3D-shaped) 은닉 표현의 요소들 로 변환할 수 있다.At
여기에서, 목표 품질 수준 에서의 양자화된 은닉 표현 의 선택된 요소들의 집합 은 1D 형태를 가질 수 있다.Here, the target quality level Quantized hidden representation in A set of selected elements of may have a 1D shape.
단계(1185)에서, 적응적 역-양자화부(1085)는 목표 품질 수준 에서의 3D-형태된(3D-shaped) 은닉 표현의 요소들 에 대한 역-양자화를 수행함으로써 3D-형태된 은닉 표현의 역-양자화된 요소들을 생성할 수 있다.At
역-양자화는 목표 품질 수준 에 대하여 수행될 수 있다.Inverse-quantization is the target quality level It can be performed for.
단계(1195)에서, 복호화기(1090)는 3D-형태된 은닉 표현의 역-양자화된 요소들에 대한 복호화를 수행함으로써 복원된 영상(reconstructed image) 를 생성할 수 있다.At
실시예들에서 전술된 정보에 대한 설명 및 처리는 도 11을 참조하여 설명된 단계들의 정보에도 적용될 수 있다.The description and processing of information described above in the embodiments may also be applied to the information of the steps described with reference to FIG. 11 .
상기의 실시예들은 부호화 장치(800) 및 복호화 장치(1000)에서 동일한 방법 및/또는 상응하는 방법으로 수행될 수 있다. 또한, 영상의 부호화 및/또는 복호화에 있어서 상기의 실시예들 중 하나 이상의 조합이 사용될 수 있다.The above embodiments may be performed in the
상기의 실시예들이 적용되는 순서는 부호화 장치(800) 및 복호화 장치(1000)에서 서로 상이할 수 있다. 또는, 상기의 실시예들이 적용되는 순서는 부호화 장치(800) 및 복호화 장치(1000)에서 (적어도 부분적으로) 동일할 수 있다.The order in which the above embodiments are applied may be different in the
상술된 실시예들에서, 방법들은 일련의 단계 또는 유닛으로서 순서도를 기초로 설명되고 있으나, 본 발명은 단계들의 순서에 한정되는 것은 아니며, 어떤 단계는 상술한 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다. 또한, 당해 기술 분야에서 통상의 지식을 가진 자라면 순서도에 나타난 단계들이 배타적이지 않고, 다른 단계가 포함되거나, 순서도의 하나 또는 그 이상의 단계가 본 발명의 범위에 영향을 미치지 않고 삭제될 수 있음을 이해할 수 있을 것이다.In the above-described embodiments, the methods are described based on flowcharts as a series of steps or units, but the present invention is not limited to the order of steps, and some steps may occur in a different order or simultaneously with other steps as described above. You can. Additionally, a person of ordinary skill in the art will recognize that the steps shown in the flowchart are not exclusive and that other steps may be included or one or more steps in the flowchart may be deleted without affecting the scope of the present invention. You will understand.
상술된 실시예들은 다양한 양태의 예시들을 포함한다. 다양한 양태들을 나타내기 위한 모든 가능한 조합이 기술될 수는 없지만, 해당 기술 분야의 통상의 지식을 가진 자는 명시적으로 기술된 조합 외에도 다른 조합이 가능함을 인식할 수 있을 것이다. 따라서, 본 발명은 이하의 특허청구범위 내에 속하는 모든 다른 교체, 수정 및 변경을 포함한다고 할 것이다.The above-described embodiments include examples of various aspects. Although not all possible combinations for representing the various aspects can be described, those skilled in the art will recognize that other combinations are possible in addition to those explicitly described. Accordingly, the present invention is intended to include all other substitutions, modifications and changes falling within the scope of the following claims.
이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.Embodiments according to the present invention described above may be implemented in the form of program instructions that can be executed through various computer components and recorded on a computer-readable recording medium. The computer-readable recording medium may include program instructions, data files, data structures, etc., singly or in combination. Program instructions recorded on the computer-readable recording medium may be specially designed and configured for the present invention, or may be known and usable by those skilled in the computer software field.
컴퓨터 판독 가능한 기록 매체는 본 발명에 따른 실시예들에서 사용되는 정보를 포함할 수 있다. 예를 들면, 컴퓨터 판독 가능한 기록 매체는 비트스트림을 포함할 수 있고, 비트스트림은 본 발명에 따른 실시예들에서 설명된 정보를 포함할 수 있다.A computer-readable recording medium may contain information used in embodiments according to the present invention. For example, a computer-readable recording medium may include a bitstream, and the bitstream may include information described in embodiments according to the present invention.
비트스트림은 컴퓨터 실행 가능한(computer-executable) 코드 및/또는 프로그램을 포함할 수 있다. 컴퓨터 실행 가능한(computer-executable) 코드 및/또는 프로그램은 실시예들에서 설명된 정보들을 포함할 수 있으며, 실시예들에서 설명된 구문 요소들(syntax elements)을 포함할 수 있다. 말하자면, 실사예에서 설명된 정보들 및 구문 요소들은 비트스트림 내의 컴퓨터 실행 가능한 코드로 간주될 수 있으며, 비트스트림으로 표현된 컴퓨터 실행 가능한 코드 및/또는 프로그램의 적어도 일부로 간주될 수 있다.A bitstream may contain computer-executable code and/or programs. Computer-executable code and/or program may include information described in the embodiments and may include syntax elements described in the embodiments. That is, the information and syntax elements described in the actual example may be considered computer-executable code within the bitstream, and may be considered at least part of the computer-executable code and/or program represented by the bitstream.
컴퓨터 판독 가능한 기록 매체는 비-일시적 컴퓨터 판독 가능한 매체(non-transitory computer-readable medium)를 포함할 수 있다.Computer-readable recording media may include non-transitory computer-readable medium.
컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기의 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical recording media such as CD-ROMs and DVDs, and magneto-optical media such as floptical disks. media), and hardware devices specifically configured to store and perform program instructions, such as ROM, RAM, flash memory, etc. Examples of program instructions include not only machine language code such as that created by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like. The above hardware devices may be configured to operate as one or more software modules to perform processing according to the invention and vice versa.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기의 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.In the above, the present invention has been described with specific details such as specific components and limited embodiments and drawings, but this is only provided to facilitate a more general understanding of the present invention, and the present invention is not limited to the above embodiments. No, those skilled in the art can make various modifications and changes based on this description.
따라서, 본 발명의 사상은 상기의 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.Accordingly, the spirit of the present invention should not be limited to the above-described embodiments, and the scope of the patent claims described below as well as all modifications equivalent to or equivalent to the scope of the claims shall fall within the scope of the spirit of the present invention. It will be said that it belongs.
Claims (20)
상기 은닉 표현에 대한 적응적 양자화를 수행함으로써 양자화된 은닉 표현 을 생성하는 단계;
상기 양자화된 은닉 표현의 선택된 요소들의 집합을 유도하는 단계; 및
상기 선택된 요소들의 집합에 대한 엔트로피 부호화를 수행함으로써 상기 선택된 요소들의 부호화된 정보를 생성하는 단계
를 포함하는 영상 부호화 방법.generating a hidden representation using the input image;
generating a quantized hidden representation by performing adaptive quantization on the hidden representation;
deriving a set of selected elements of the quantized hidden representation; and
Generating encoded information of the selected elements by performing entropy encoding on the set of selected elements
A video encoding method including.
상기 양자화된 은닉 표현은 특정 목표 품질 수준에 대하여 생성되는 영상 부호화 방법.According to paragraph 1,
An image encoding method in which the quantized hidden representation is generated for a specific target quality level.
상기 선택된 요소들의 집합은 3차원 이진 마스크를 사용하여 결정되는 영상 부호화 방법.According to paragraph 1,
An image encoding method in which the set of selected elements is determined using a 3D binary mask.
상기 3차원 이진 마스크는 하이퍼 복호화기의 특정 레이어의 출력을 사용하여 생성되는 영상 부호화 방법.According to paragraph 3,
An image encoding method in which the 3D binary mask is generated using the output of a specific layer of a hyper decoder.
상기 하이퍼 복호화기로 하이퍼프라이어가 입력되는 영상 부호화 방법.According to paragraph 4,
A video encoding method in which a hyperprior is input to the hyper decoder.
상기 선택된 요소들의 상기 부호화된 정보는 특정 목표 품질 수준에 대한 파라미터를 사용하여 생성되는 영상 부호화 방법.According to paragraph 1,
A video encoding method in which the encoded information of the selected elements is generated using parameters for a specific target quality level.
상기 파라미터는 상기 특정 목표 품질 수준에 대한 스케일 파라미터 또는 상기 특정 목표 품질 수준에 대한 중간 파라미터를 포함하는 영상 부호화 방법.According to clause 6,
The parameter is a video encoding method including a scale parameter for the specific target quality level or an intermediate parameter for the specific target quality level.
상기 선택된 요소들의 집합을 3차원-형태된 은닉 표현의 요소들로 변환하는 단계;
상기 3차원-형태된 은닉 표현의 요소들에 대한 역-양자화를 수행함으로써 역-양자화된 요소들을 생성하는 단계; 및
상기 역-양자화된 요소들에 대한 복호화를 수행함으로써 복원된 영상을 생성하는 단계
를 포함하는 영상 복호화 방법.generating a set of selected elements of the quantized hidden representation by performing decoding on encoded information of the selected elements;
converting the selected set of elements into elements of a three-dimensional-shaped hidden representation;
generating de-quantized elements by performing de-quantization on elements of the 3D-shaped hidden representation; and
Generating a restored image by performing decoding on the dequantized elements.
A video decoding method including.
상기 역-양자화는 특정 목표 품질 수준에 대하여 수행되는 영상 복호화 방법.According to clause 8,
An image decoding method in which the inverse quantization is performed for a specific target quality level.
상기 3차원-형태된 은닉 표현의 요소들은 3차원 이진 마스크를 사용하여 결정되는 영상 복호화 방법.According to clause 8,
An image decoding method wherein elements of the 3D-shaped hidden representation are determined using a 3D binary mask.
상기 3차원 이진 마스크는 하이퍼 복호화기의 특정 레이어의 출력을 사용하여 생성되는 영상 복호화 방법.According to clause 10,
An image decoding method in which the 3D binary mask is generated using the output of a specific layer of a hyper decoder.
상기 하이퍼 복호화기로 하이퍼프라이어가 입력되는 영상 복호화 방법.According to clause 11,
A video decoding method in which a hyper fryer is input to the hyper decoder.
상기 선택된 요소들의 집합은 정보는 특정 목표 품질 수준에 대한 파라미터를 사용하여 생성되는 영상 복호화 방법.According to clause 8,
A video decoding method in which the set of selected elements is information generated using parameters for a specific target quality level.
상기 파라미터는 상기 특정 목표 품질 수준에 대한 스케일 파라미터 또는 상기 특정 목표 품질 수준에 대한 중간 파라미터를 포함하는 영상 복호화 방법.According to clause 13,
The video decoding method wherein the parameters include a scale parameter for the specific target quality level or an intermediate parameter for the specific target quality level.
양자화된 은닉 표현의 선택된 요소들의 부호화된 정보
를 포함하고,
상기 부호화된 정보에 대한 복호화를 수행함으로써 상기 선택된 요소들의 집합이 생성되고,
상기 선택된 요소들의 집합을 3차원-형태된 은닉 표현의 요소들로 변환되고,
상기 3차원-형태된 은닉 표현의 요소들에 대한 역-양자화를 수행함으로써 역-양자화된 요소들이 생성되고,
상기 역-양자화된 요소들에 대한 복호화를 수행함으로써 복원된 영상이 생성되는 컴퓨터 판독 가능한 기록 매체.In the computer-readable recording medium storing a bitstream for video decoding, the bitstream includes:
Encoded information of selected elements of the quantized hidden representation
Including,
A set of the selected elements is generated by performing decoding on the encoded information,
Converting the set of selected elements into elements of a 3D-shaped hidden representation,
Dequantized elements are generated by performing dequantization on elements of the three-dimensional hidden representation,
A computer-readable recording medium in which a restored image is generated by decoding the dequantized elements.
상기 역-양자화는 특정 목표 품질 수준에 대하여 수행되는 컴퓨터 판독 가능한 기록 매체.According to clause 15,
A computer-readable recording medium wherein the de-quantization is performed for a specific target quality level.
상기 3차원-형태된 은닉 표현의 요소들은 3차원 이진 마스크를 사용하여 결정되는 컴퓨터 판독 가능한 기록 매체.According to clause 15,
A computer-readable recording medium wherein elements of the three-dimensionally-shaped hidden representation are determined using a three-dimensional binary mask.
상기 3차원 이진 마스크는 하이퍼 복호화기의 특정 레이어의 출력을 사용하여 생성되는 컴퓨터 판독 가능한 기록 매체.According to clause 17,
A computer-readable recording medium in which the 3D binary mask is generated using the output of a specific layer of a hyper decoder.
상기 선택된 요소들의 집합은 정보는 특정 목표 품질 수준에 대한 파라미터를 사용하여 생성되는 컴퓨터 판독 가능한 기록 매체.According to clause 15,
The set of selected elements is a computer-readable recording medium on which information is generated using parameters for a specific target quality level.
상기 파라미터는 상기 특정 목표 품질 수준에 대한 스케일 파라미터 또는 상기 특정 목표 품질 수준에 대한 중간 파라미터를 포함하는 컴퓨터 판독 가능한 기록 매체.According to clause 19,
The computer-readable recording medium wherein the parameter includes a scale parameter for the specific target quality level or an intermediate parameter for the specific target quality level.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US18/463,051 US20240095963A1 (en) | 2022-09-08 | 2023-09-07 | Method, apparatus and storage medium for image encoding/decoding |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220114099 | 2022-09-08 | ||
KR20220114099 | 2022-09-08 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20240035359A true KR20240035359A (en) | 2024-03-15 |
Family
ID=90272988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020230118490A KR20240035359A (en) | 2022-09-08 | 2023-09-06 | Method, apparatus and recording medium for encoding/decoding image |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20240035359A (en) |
-
2023
- 2023-09-06 KR KR1020230118490A patent/KR20240035359A/en unknown
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102287947B1 (en) | Apparatus and method for performing artificial intelligence encoding and artificial intelligence decoding of image | |
US10834425B2 (en) | Image compression/decompression method and device, and image processing system | |
US11610283B2 (en) | Apparatus and method for performing scalable video decoding | |
KR102165155B1 (en) | Adaptive interpolation for spatially scalable video coding | |
US11412225B2 (en) | Method and apparatus for image processing using context-adaptive entropy model | |
CN109451308B (en) | Video compression processing method and device, electronic equipment and storage medium | |
US11122267B2 (en) | Method and apparatus for encoding image by using quantization table adaptive to image | |
KR20110135787A (en) | Image/video coding and decoding system and method using edge-adaptive transform | |
US20200092553A1 (en) | Device and method for performing transform by using singleton coefficient update | |
US10911783B2 (en) | Method and apparatus for processing video signal using coefficient-induced reconstruction | |
CN108353175B (en) | Method and apparatus for processing video signal using coefficient-induced prediction | |
EP3085089B1 (en) | Optimised video coding involving transform and spatial domain weighting | |
KR102312337B1 (en) | AI encoding apparatus and operating method for the same, and AI decoding apparatus and operating method for the same | |
US10832383B2 (en) | Systems and methods for distortion removal at multiple quality levels | |
WO2023000179A1 (en) | Video super-resolution network, and video super-resolution, encoding and decoding processing method and device | |
WO2021156587A1 (en) | Chroma intra prediction in video coding and decoding | |
JP6065613B2 (en) | Video encoding device | |
CN115880381A (en) | Image processing method, image processing apparatus, and model training method | |
KR20210070944A (en) | Method, apparatus and recording medium for end-to-end compression using pixel-space prediction | |
US8989278B2 (en) | Method and device for coding a multi dimensional digital signal comprising original samples to form coded stream | |
CN107079171B (en) | Method and apparatus for encoding and decoding video signal using improved prediction filter | |
KR20240035359A (en) | Method, apparatus and recording medium for encoding/decoding image | |
CN112715029A (en) | AI encoding apparatus and operating method thereof, and AI decoding apparatus and operating method thereof | |
KR20210152992A (en) | Method, apparatus and recording medium for encoding/decoding image using binary mask | |
US20240095963A1 (en) | Method, apparatus and storage medium for image encoding/decoding |