WO2023163356A1 - 딥러닝 기반 피쳐 맵 압축 효율 향상을 위한 방법 - Google Patents

딥러닝 기반 피쳐 맵 압축 효율 향상을 위한 방법 Download PDF

Info

Publication number
WO2023163356A1
WO2023163356A1 PCT/KR2022/021454 KR2022021454W WO2023163356A1 WO 2023163356 A1 WO2023163356 A1 WO 2023163356A1 KR 2022021454 W KR2022021454 W KR 2022021454W WO 2023163356 A1 WO2023163356 A1 WO 2023163356A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature map
feature
maps
skipped
remaining
Prior art date
Application number
PCT/KR2022/021454
Other languages
English (en)
French (fr)
Inventor
심동규
권나성
Original Assignee
광운대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020220108356A external-priority patent/KR20230127851A/ko
Application filed by 광운대학교 산학협력단 filed Critical 광운대학교 산학협력단
Publication of WO2023163356A1 publication Critical patent/WO2023163356A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Definitions

  • the present invention relates to a method for encoding/decoding a feature map extracted from an image, which includes a neural network that reduces compression damage generated in the encoding process and a neural network that predicts/generates a feature map that is not transmitted at a transmission edge. suggest a structure.
  • a Feature Pyramid Network (FPN) structure serves as a feature extractor of the network and outputs feature maps of various resolutions.
  • the amount of data to be transmitted to the receiving edge may increase because multi-resolution feature maps are output for each layer for one image.
  • Data may be damaged by increasing the compression rate in the encoder to reduce the amount of data. This may degrade the performance of machine tasks performed at the receiving edge. Therefore, a technique for selectively transmitting a small amount of data and a technique for reducing compression damage of simultaneously transmitted feature maps are required.
  • An object according to embodiments of the present invention proposes a system and method for solving the above problems.
  • an object according to embodiments of the present invention proposes a method for effective transmission of a feature pyramid.
  • the present invention may be a method for improving feature map compression efficiency based on deep learning.
  • the feature map may be selectively transmitted from the encoder, and after restoring the image quality of the transmitted feature map using a deep neural network, a non-transmitted feature map may be predicted and generated.
  • a neural network-based feature map decoding method and apparatus decodes a feature map group from a bitstream and performs inverse packing on the decoded feature map group to obtain the remaining feature maps, ,
  • the skipped feature map may be generated based on at least one feature map among the remaining feature maps, and a final feature map may be reconstructed based on the remaining feature maps and the skipped feature map.
  • the feature map group may include feature maps other than feature maps whose signaling is skipped.
  • the skipped feature map and the remaining feature maps may have different resolutions within one hierarchical structure.
  • decoding the feature map group may include decoding feature map group header information from the bitstream.
  • the feature map group header information is used for index information indicating each of the remaining feature maps, channel size information of the remaining feature maps, or encoding of the remaining feature maps. At least one of used encoder type information may be included.
  • the feature map group header information may further include at least one of channel number information and data alignment method information of the remaining feature maps.
  • the obtaining of the remaining feature maps comprises arranging feature map indexes in a predefined order within the feature map group to obtain two-dimensionally packed data, Inverse packing may be performed on the decoded feature map group by separating the feature maps into a plurality of feature maps and performing reverse sorting based on at least one of the number of channels or the data alignment method information.
  • the skipped feature map may be generated by performing upsampling on a feature map of a lower layer adjacent to the skipped feature map among the obtained remaining feature maps. there is.
  • the generating of the skipped feature map includes performing upsampling on a feature map of a lower layer adjacent to the skipped feature map among the remaining feature maps.
  • the step of generating the skipped feature map may be performed using a feature map prediction network including a convolution layer and a generalized divide normalization (GDN) layer. there is.
  • GDN generalized divide normalization
  • the reconstructing of the final feature map may include upsampling each of the remaining feature maps and the skipped feature map to have the same resolution as the final feature map. and performing a concatenation operation on the upsampled remaining feature maps and the upsampled skipped feature map.
  • the neural network-based feature map decoding method and apparatus further include performing image quality improvement on at least one feature map among the remaining feature maps, wherein the skipped feature map has the image quality improvement performed. It can be created using a feature map.
  • the performing of the image quality improvement may be performed using a feature map quality improvement network including a convolution layer and a GDN (Generalized Divisive Normalization) layer. .
  • a feature map quality improvement network including a convolution layer and a GDN (Generalized Divisive Normalization) layer.
  • compression damage of a feature map may be reduced.
  • FIG. 1 is a diagram illustrating a feature map extraction and encoding process according to an embodiment of the present invention.
  • FIG. 2 is a diagram illustrating a structure diagram of a feature pyramid network according to an embodiment of the present invention.
  • FIG. 3 is a diagram illustrating a process of restoring a feature map according to an embodiment of the present invention.
  • FIG. 4 is a block diagram illustrating a pyramid feature map quality improvement network according to an embodiment of the present invention.
  • FIG. 5 is a block diagram illustrating a pyramid feature map prediction network according to an embodiment of the present invention.
  • FIG. 6 is a diagram illustrating a pyramid feature map prediction process according to an embodiment of the present invention.
  • the neural network-based feature map decoding method of the present disclosure decoding a feature map group from a bitstream, the feature map group including feature maps other than a feature map in which signaling is skipped, and , the skipped feature map and the remaining feature maps have different resolutions within one hierarchical structure, obtaining the remaining feature maps by performing inverse packing on the decoded feature map group, the remaining feature
  • the method may include generating the skipped feature map based on at least one feature map among the maps, and restoring a final feature map based on the remaining feature maps and the skipped feature map.
  • first and second may be used to describe various components, but the components should not be limited by the terms. These terms are only used for the purpose of distinguishing one component from another. For example, a first element may be termed a second element, and similarly, a second element may be termed a first element, without departing from the scope of the present invention.
  • the term 'and/or' includes a combination of a plurality of related recited items or any one of a plurality of related recited items.
  • FIG. 1 is a diagram illustrating a feature map extraction and encoding process according to an embodiment of the present invention.
  • FIG. 1 a process of generating one or a plurality of bitstreams by extracting a feature map from an image, packing the feature map information, and encoding the feature map information will be described with reference to FIG. 1 .
  • the process shown in FIG. 1 may be performed by an image encoding device, a feature map encoding device, an image transmission device, or the like. In describing the present embodiment, it is assumed that it is performed by an image encoding device for convenience of explanation.
  • an image encoding apparatus may include an image preprocessor, a feature map extractor, a feature map information packing performer, and a feature map information encoder.
  • an image preprocessor may include an image preprocessor, a feature map extractor, a feature map information packing performer, and a feature map information encoder.
  • Each of the above-described components included in the image encoding apparatus may be implemented as an independent separate component or may be implemented as a single component.
  • the image preprocessor may perform preprocessing such as color format conversion and resolution adjustment of the input image. For example, the image preprocessor may selectively convert the color format of an image into RGB, YUV, or the like.
  • the feature map extractor may receive an image and output a feature map of one or more feature pyramid networks.
  • the feature map extractor may extract a feature map from an input image based on a feature pyramid network structure.
  • a feature pyramid network represents a network that generates a plurality of feature maps having a multi-layer structure, and feature maps generated from the feature pyramid network may have different resolutions or scales for each layer.
  • a feature map generated from a feature pyramid network may be referred to as a pyramid feature map.
  • the feature map information packing performer may cluster feature maps (ie, pyramid feature maps) of a feature pyramid network extracted from an image into one or a plurality of feature map groups. And, the feature map information packing performer may perform sorting on the feature maps in the clustered feature map groups.
  • FIG. 2 is a diagram illustrating a structure diagram of a feature pyramid network according to an embodiment of the present invention.
  • a pyramid feature map may be generated through a feature pyramid network as shown in FIG. 2 .
  • the feature pyramid network structure may be composed of a plurality of convolutional layers (or layers) and may have a structure as illustrated in FIG. 2 .
  • the size of the input image is , and assuming that the layer of the pyramid feature map is n, the size of the nth pyramid feature map is can be In this case, the range of n is 0 ⁇ n ⁇ N, and N may mean the total number of layers of the feature pyramid network.
  • a sum operation with pyramid feature maps of lower layers may be performed to generate a pyramid feature map of an upper layer.
  • upsampling of the pyramid feature map of the lower layer may be performed.
  • the nth pyramid feature map may be referred to as a higher layer than the n+1th pyramid feature map.
  • the top layer may be the 0 th pyramid feature map in FIG. 2 .
  • a top layer feature map may be a feature map having a relatively highest resolution or scale.
  • the amount of data to be transmitted to the receiving edge may increase because a multi-resolution feature map is output for each layer of one image due to the nature of the feature pyramid network.
  • a method for improving the above problem is proposed by selectively transmitting a pyramid feature map and performing prediction on a pyramid feature map that is not transmitted. Due to the sum operation in the feature pyramid network described above, redundancy between layers of the pyramid feature map may exist. It is possible to selectively transmit pyramid feature maps and effectively perform prediction on pyramid feature maps that are not transmitted based on this redundancy.
  • index information on a feature map to be transmitted to a receiving edge may be transmitted in a feature map group header.
  • An index assigned to a pyramid feature map to indicate a feature map to be transmitted may be configured as shown in Table 1.
  • index information on a feature map that is not transmitted to the receiving edge may be transmitted through a feature map group header.
  • information on a feature map to be transmitted (or a feature map not to be transmitted) from a transmitting edge (or a transmitting end) may be transmitted in units of images or moving images.
  • an index of a feature map to be transmitted (or a feature map not to be transmitted), a channel size of the corresponding feature map, and a decoder type may be transmitted through a feature map group header.
  • the feature map to be transmitted may be packed in a two-dimensional form by arranging the feature maps in ascending or descending order of the feature map index and the channel index.
  • the feature map sorting method may be transmitted through a feature map group header.
  • the feature map information encoder may perform encoding by selecting a type of encoder to encode the feature map of the feature pyramid network.
  • the type of encoder that can be selected can be transmitted through a feature map group header.
  • the encoder may include a predictive and transform combined structure coder (eg, VVC, HEVC), a neural network-based coder, and the like.
  • the type of encoder may be directly determined by the user or may be selected in consideration of the performance and bit rate of the machine task.
  • FIG. 3 is a diagram illustrating a process of restoring a feature map according to an embodiment of the present invention.
  • restoration or decoding of feature maps may be performed as shown in FIG. 3 .
  • the process shown in FIG. 3 may be performed by an image decoding device, an image restoration device, a feature map decoding device, a feature map restoration device, an image display device, or the like.
  • an image decoding apparatus In describing the present embodiment, for convenience of description, it is assumed that it is performed by an image decoding apparatus.
  • the image decoding apparatus may include a feature map decoder, a feature map inverse packing performer, a pyramid feature map quality improvement network, and a pyramid feature map prediction network.
  • a feature map decoder may include a feature map decoder, a feature map inverse packing performer, a pyramid feature map quality improvement network, and a pyramid feature map prediction network.
  • Each of the above-described components included in the video decoding apparatus may be implemented as an independent separate component or may be implemented as a single component.
  • the image decoding apparatus may reduce compression damage of the feature maps through a pyramid feature map quality improvement network, and predict pyramid feature maps that are not transmitted. By generating through the network, the pyramid feature map can be finally restored.
  • the feature map information decoder may decode the transmitted bitstream and output one or a plurality of feature map groups.
  • a feature map group may include a plurality of pyramidal feature maps.
  • the feature map information decoder may parse the decoder type index in the feature map group header and then decode the bitstream using the corresponding decoder.
  • the feature map information decoder may obtain index information for a pyramid feature map transmitted (or not transmitted) from the feature map group header to the receiving edge from the bitstream.
  • a pyramid feature map that is not transmitted to the receiving edge may be referred to as a feature map in which signaling is skipped or a feature map in which signaling is skipped.
  • the feature map inverse packing performer may be a process of separating a feature map group packed in a feature map encoding process into feature maps of one or a plurality of feature pyramid networks. If the data type in the feature map group is a feature map of a feature pyramid network, the feature map group is separated into feature maps using the number of channels and data sorting method information of the feature map parsed from the feature map group header, and reverse sorting is performed. can be done
  • the pyramid feature map quality improvement network may be a network that reduces compression damage generated in the pyramid feature map during encoding/decoding.
  • the bitstream may be transmitted to the decoder by encoding the P1-ramid feature map extracted from the network having the feature pyramid network-based structure.
  • a picture quality improvement process may be performed (or applied) to the pyramid feature map received by the decoder.
  • the pyramid feature map may optionally be transmitted only for a particular layer of the pyramid feature map.
  • the video decoding apparatus may decode the received bitstream, parse a feature map index transmitted from a feature map group header, and then decode a pyramid feature map corresponding to the parsed index. And, the decoded pyramid feature map may be input to the pyramid feature map quality improvement network.
  • an index to a pyramid feature map that is not transmitted may be signaled.
  • the image decoding apparatus may decode the rest of the feature maps except for the pyramid feature map that is not transmitted, and input the result to the pyramid feature map quality improvement network. there is.
  • the pyramid feature map output from the picture quality enhancement network may be input to the pyramid feature map prediction network. A process related to this will be described later in FIG. 6 .
  • FIG. 4 is a block diagram illustrating a pyramid feature map quality improvement network according to an embodiment of the present invention.
  • one or more decoded pyramid feature maps may be reconstructed into pyramid feature maps with reduced compression damage through a pyramid feature map quality improvement network.
  • the pyramid feature map quality improvement network may be referred to as a feature map quality improvement network or a quality improvement network.
  • the pyramid feature maps received from the encoder may be input to a pyramid feature map quality improvement network by performing a concatenation operation.
  • a pyramid feature map quality improvement network When feature maps having different resolutions are input to the pyramid feature map quality improvement network, up-sampling or down-sampling is performed on the pyramid feature map to the same size, and then a joint operation may be performed.
  • a convolutional neural network can consist of convolutional layers consisting of two or more 9x9 kernels.
  • a GDN unit applying an activation function GDN may be inserted between convolutional layers.
  • GDN is a normalization technique that can transform or inversely transform data of various distributions into a normal distribution form. GDN may be performed based on Equation 1 below.
  • the value input to the k-th GDN activation function is 3-dimensional data output from the k-th convolutional layer, through m, n, and i in the order of width, height, and channel, respectively.
  • the value output from the kth activation function is It can be expressed as , and the output value can be input to the K+1th convolutional layer.
  • located at m,n in the output of each Kth activation function is the learning variable for channel i of the kth activation function. and learning variables for the i-channel and the j-channel of the K-th activation function. is working It may be a process that is output as .
  • the output of the feature map quality improvement network may be a feature map obtained by performing an element-wise summation operation between a feature map preprocessed by a feature map preprocessor and a final output of a convolutional neural network.
  • a process of training the pyramid feature map quality improvement network may be as follows.
  • the loss function of a neural network can be either the mean squared error or the cross-entropy error.
  • a feature map encoded/decoded by a prediction/transform combination structure-based encoder/decoder or a neural network-based encoder/decoder for a pyramid feature map may be used as an input (or input image, training image, training data), and compression damage may occur.
  • the quality improvement network may be trained by selecting the original pyramid feature map that is not included as the correct answer (or target or target output).
  • the above-described learning or training may include a process of updating weights of the picture quality improvement network until the input of the picture quality improvement network matches the correct answer or generates an output close to it by a predefined value.
  • the output from the pyramid feature map quality improvement network may be input to the pyramid feature map prediction network.
  • a pyramid feature map prediction network may be a network that utilizes redundancy between pyramid feature map layers to generate (or predict) a feature map that is not received from a transmitting edge using feature maps of adjacent layers. Description will be made with reference to the following drawings.
  • FIG. 5 is a block diagram illustrating a pyramid feature map prediction network according to an embodiment of the present invention.
  • a pyramid feature map not transmitted from a transmission edge may be generated (or predicted) through a pyramid feature map prediction network.
  • the pyramid feature map prediction network may be referred to as a feature map prediction network or a prediction network.
  • a pyramid feature map reconstructed through a pyramid feature map quality improvement network may be input to a pyramid feature map prediction network. Upsampling or downsampling may be performed so that the input pyramid feature map and the pyramid feature map to be created have the same resolution.
  • a convolutional neural network can be composed of convolutional layers composed of two or more 9x9 kernels, and can be created by inserting an activation function GDN (or GDN unit) between the convolutional layers.
  • GDN activation function
  • the output of the pyramid feature map prediction network may predict and output a pyramid feature map of an untransmitted resolution (or layer, scale).
  • a process of training a pyramid feature map prediction network may be as follows.
  • the loss function of a neural network can be either the mean squared error or the cross-entropy error.
  • a feature map encoded/decoded by a prediction/transform combination structure-based encoder/decoder or a neural network-based encoder/decoder for a pyramid feature map may be used as an input (or input image, training image, training data), and compression damage may occur.
  • the prediction network can be trained by selecting the original pyramid feature map that is not included as the correct answer (or target, target output).
  • the n+th pyramid feature map with compression loss exists.
  • the 1-th pyramid feature map, the n+2-th pyramid feature map, and the n+3-th pyramid feature map can be used as inputs to the network, and the network can be trained by selecting the n-th pyramid feature map without compression damage as the correct answer.
  • the above-described learning or training may include a process of updating weights of the prediction network until the input of the prediction network matches the correct answer or generates an output close to it by a predefined value.
  • the encoder may selectively transmit only feature maps of a specific layer to the decoder (or receiving edge) among the pyramid feature maps generated in the pyramid feature map network. That is, according to embodiments, only some of the feature maps of the pyramid feature maps may be selectively transmitted.
  • FIG. 6 is a diagram illustrating a pyramid feature map prediction process according to an embodiment of the present invention.
  • FIG. 6 is an example of a process of generating a feature map using a feature map prediction network when an encoder does not transmit some feature maps. For example, if the nth pyramid feature map and the n+2th pyramid feature map are not transmitted, but the n+1th pyramid feature map and the n+3th pyramid feature map are transmitted, the nth pyramid feature map and the nth pyramid feature map are transmitted. +2 Can generate pyramid feature maps.
  • the feature map may be generated by the method of FIG. 6-1 or FIG. 6-2 depending on which pyramid feature map is to be used. .
  • An n+2th pyramid feature map may be generated by using the n+3th pyramid feature map as an input of the pyramid feature map prediction network.
  • upsampling may be performed on the n+3 th pyramid feature map. Thereafter, upsampling may be performed so that the generated n+2th pyramid feature map, the reconstructed n+1th pyramid feature map, and the n+3th pyramid feature map have the same size as the nth pyramid feature map.
  • a joint operation may be performed on each of the up-sampled pyramid feature maps, and an nth pyramid feature map may be generated by inputting the result to a network.
  • the n-th pyramid feature map is a top layer feature map and may be a final feature map finally obtained.
  • 6-2 is an example of generating an n+2th pyramid feature map using an n+1th pyramid feature map and an n+3th pyramid feature map when generating an n+2th pyramid feature map.
  • An n+2 pyramid feature map is obtained by element-wise weighted-summation of a feature map obtained by downsampling the n+1 pyramid feature map and an upsampled feature map of the n+3 pyramid feature map.
  • Equation 2 below may be used to generate an n+2th pyramid feature map by performing an element-by-element weighted sum of the n+1th pyramid feature map and the n+3th pyramid feature map.
  • n+2th pyramidal feature map is a weight and can be set within the range of [0,1].
  • H is the height of the feature map, and W is the width of the feature map.
  • upsampling may be performed so that the generated n+2th pyramid feature map, the reconstructed n+1th pyramid feature map, and the reconstructed n+3th pyramid feature map have the same size as the nth pyramid feature map.
  • a joint operation may be performed on each of the up-sampled pyramid feature maps, and an nth pyramid feature map may be generated by inputting the result to a network.
  • the n-th pyramid feature map is a top layer feature map and may be a final feature map finally obtained.
  • the image analysis method according to the present embodiment may be implemented in the form of program instructions that can be executed by various computer means and recorded on a computer readable medium.
  • Computer readable media may include program instructions, data files, data structures, etc. alone or in combination.
  • Program instructions recorded on a computer readable medium may be specially designed and configured for the present invention, or may be known and usable to those skilled in the art of computer software.
  • Examples of computer readable media include hardware devices specially configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like.
  • Examples of program instructions include high-level language codes that can be executed by a computer using an interpreter or the like as well as machine language codes generated by a compiler.
  • the hardware device described above may be configured to operate with at least one software module to perform the operations of the present invention, and vice versa.
  • the present embodiment provides a method for constructing a structure of a deep neural network for analyzing 3D image data.
  • the virtual 3D deep neural network structure according to the present embodiment can be used for 3D image data analysis, such as diagnosing a disease in an input medical image, finding the location of a lesion, or recognizing human behavior in a video. .

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

본 발명은 딥러닝 기반 피쳐 맵 압축 효율 향상을 위한 방법일 수 있다. 선택적으로 부호화기에서 피쳐 맵을 전송할 수 있고, 심층 신경망 네트워크를 이용하여 전송된 피쳐 맵의 화질을 복원한 후, 전송하지 않은 피쳐 맵을 예측하여 생성할 수 있다.

Description

딥러닝 기반 피쳐 맵 압축 효율 향상을 위한 방법
본 발명은 영상에서 추출된 피쳐 맵을 부호화/복호화하는 방법에 관한 것으로, 부호화 과정에서 발생한 압축 손상을 감소시키는 뉴럴 네트워크 및 송신 엣지에서 전송하지 않은 피쳐 맵을 예측/생성하는 뉴럴 네트워크를 포함하는 복호화 구조를 제안한다.
딥러닝을 활용한 심층 신경망이 적용되는 산업 분야가 확장됨에 따라 심층 신경망을 산업 기계에 적용하는 경우가 증가하고 있다. 기계 간 통신을 활용한 응용에 사용하기 위해 인간의 시각적 특성뿐만 아니라 기계 내에 있는 심층 신경망에서 중요하게 작용하는 특성을 고려한 압축 방법이 활발히 연구되고 있다.
딥러닝 분야가 발전함에 따라 영상에서 객체 탐지를 위한 연구가 활발히 진행되고 있다. 객체 탐지를 수행할 때, 객체의 크기에 상관없이 동일한 탐지 결과를 요구하므로 영상 내에서 객체의 크기에 대한 강인성이 요구된다. 이에 따라 크기에 대한 강인성을 갖기 위해 피쳐 피라미드 네트워크(FPN; Feature Pyramid Network) 구조가 네트워크의 특징 추출기 역할을 수행하여 다양한 해상도의 피쳐 맵을 출력한다.
피쳐 피라미드 네트워크 특성상 하나의 영상에 대해 계층별로 다해상도의 피쳐 맵을 출력하기 때문에 수신 엣지로 전송해야 하는 데이터양이 증가할 수 있다. 데이터양을 감소시키기 위해 부호화기에서 압축률을 높임으로써 데이터의 손상을 야기시킬 수 있다. 이로 인해 수신 엣지에서 수행되는 머신 태스크의 성능이 저하될 수 있다. 따라서 적은 양의 데이터를 선택적으로 전송할 수 있는 기술과 동시에 전송된 피쳐 맵의 압축 손상을 감소시키는 기술이 요구된다.
본 발명의 실시예들에 따른 과제는 전술한 문제점을 해결하기 위한 시스템 및 방법을 제안한다.
또한, 본 발명의 실시예들에 따른 과제는 피쳐 피라미드의 효과적인 전송을 위한 방법을 제안한다.
본 발명은 딥러닝 기반 피쳐 맵 압축 효율 향상을 위한 방법일 수 있다. 선택적으로 부호화기에서 피쳐 맵을 전송할 수 있고, 심층 신경망 네트워크를 이용하여 전송된 피쳐 맵의 화질을 복원한 후, 전송되지 않은 피쳐 맵을 예측하여 생성할 수 있다.
구체적으로, 본 발명에 따른 신경망 기반 피쳐 맵(feature map) 복호화 방법 및 장치는 비트스트림으로부터 피쳐 맵 그룹을 복호화하고, 상기 복호화된 피쳐 맵 그룹에 대하여 역 패킹을 수행함으로써 상기 나머지 피쳐 맵들을 획득하고, 상기 나머지 피쳐 맵들 중 적어도 하나의 피쳐 맵에 기초하여 상기 스킵된 피쳐 맵을 생성하고, 상기 나머지 피쳐 맵들 및 상기 스킵된 피쳐 맵에 기초하여 최종 피쳐 맵을 복원할 수 있다.
본 발명에 따른 신경망 기반 피쳐 맵 복호화 방법 및 장치에 있어서, 상기 피쳐 맵 그룹은 시그널링이 스킵(skip)된 피쳐 맵을 제외한 나머지 피쳐 맵들을 포함할 수 있다.
본 발명에 따른 신경망 기반 피쳐 맵 복호화 방법 및 장치에 있어서, 상기 스킵된 피쳐 맵 및 상기 나머지 피쳐 맵들은 하나의 계층 구조 내에서 각각 서로 다른 해상도를 가질 수 있다.
본 발명에 따른 신경망 기반 피쳐 맵 복호화 방법 및 장치에 있어서, 상기 피쳐 맵 그룹을 복호화하는 단계는, 상기 비트스트림으로부터 피쳐 맵 그룹 헤더 정보를 복호화 하는 단계를 포함할 수 있다.
본 발명에 따른 신경망 기반 피쳐 맵 복호화 방법 및 장치에 있어서, 상기 피쳐 맵 그룹 헤더 정보는 상기 나머지 피쳐 맵들 각각을 지시하기 위한 인덱스 정보, 상기 나머지 피쳐 맵들의 채널 크기 정보 또는 상기 나머지 피쳐 맵들의 부호화에 이용된 부호화기 종류 정보 중 적어도 하나를 포함할 수 있다.
본 발명에 따른 신경망 기반 피쳐 맵 복호화 방법 및 장치에 있어서, 상기 피쳐 맵 그룹 헤더 정보는 상기 나머지 피쳐 맵들의 채널 개수 정보 또는 데이터 정렬 방식 정보 중 적어도 하나를 더 포함할 수 있다.
본 발명에 따른 신경망 기반 피쳐 맵 복호화 방법 및 장치에 있어서, 상기 나머지 피쳐 맵들을 획득하는 단계는, 상기 피쳐 맵 그룹 내에서 미리 정의된 순서에 따라 피쳐 맵 인덱스가 정렬되어 2차원 패킹된 데이터를, 상기 채널 개수 또는 상기 데이터 정렬 방식 정보 중 적어도 하나에 기초하여 복수의 피쳐 맵들로 분리하여 역 정렬을 수행함으로써 상기 복호화된 피쳐 맵 그룹에 대하여 역 패킹이 수행될 수 있다.
본 발명에 따른 신경망 기반 피쳐 맵 복호화 방법 및 장치에 있어서, 상기 스킵된 피쳐 맵은 상기 획득된 나머지 피쳐 맵들 중에서 상기 스킵된 피쳐 맵의 인접 하위 계층의 피쳐 맵에 대하여 업샘플링을 수행함으로써 생성될 수 있다.
본 발명에 따른 신경망 기반 피쳐 맵 복호화 방법 및 장치에 있어서, 상기 스킵된 피쳐 맵을 생성하는 단계는, 상기 나머지 피쳐 맵들 중에서 상기 스킵된 피쳐 맵에 인접한 하위 계층의 피쳐 맵에 대하여 업샘플링을 수행하는 단계, 상기 나머지 피쳐 맵들 중에서 상기 스킵된 피쳐 맵에 인접한 상위 계층의 피쳐 맵에 대하여 다운샘플링을 수행하는 단계, 상기 업샘플링된 인접한 하위 계층의 피쳐 맵 및 상기 다운샘플링된 인접한 하위 계층의 피쳐 맵에 대하여 요소별 가중 합(element-wise weighted-summation)을 수행하는 단계를 포함할 수 있다.
본 발명에 따른 신경망 기반 피쳐 맵 복호화 방법 및 장치에 있어서, 상기 스킵된 피쳐 맵을 생성하는 단계는, 컨볼루션 레이어 및 GDN(Generalized Divisive Normalization) 레이어를 포함하는 피쳐 맵 예측 네트워크를 이용하여 수행될 수 있다.
본 발명에 따른 신경망 기반 피쳐 맵 복호화 방법 및 장치에 있어서, 상기 최종 피쳐 맵을 복원하는 단계는, 상기 나머지 피쳐 맵들 및 상기 스킵된 피쳐 맵 각각에 대하여 상기 최종 피쳐 맵과 동일한 해상도를 갖도록 업샘플링을 수행하는 단계, 상기 업샘플링된 나머지 피쳐 맵들 및 상기 업샘플링된 스킵된 피쳐 맵에 대하여 접합(concatenation) 연산을 수행하는 단계를 포함할 수 있다.
본 발명에 따른 신경망 기반 피쳐 맵 복호화 방법 및 장치에 있어서, 상기 나머지 피쳐 맵들 중 적어도 하나의 피쳐 맵에 대하여 화질 개선을 수행하는 단계를 더 포함하고, 상기 스킵된 피쳐 맵은 상기 화질 개선이 수행된 피쳐 맵을 이용하여 생성될 수 있다.
본 발명에 따른 신경망 기반 피쳐 맵 복호화 방법 및 장치에 있어서, 상기 화질 개선을 수행하는 단계는, 컨볼루션 레이어 및 GDN(Generalized Divisive Normalization) 레이어를 포함하는 피쳐 맵 화질 개선 네트워크를 이용하여 수행할 수 있다.
본 발명의 일 실시예에 따르면, 데이터를 선택적으로 전송함으로써 전송되는 데이터의 양을 줄이고 전송 효율을 높일 수 있다.
또한, 본 발명의 일 실시예에 따르면, 피쳐 맵의 압축 손상을 감소시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 피쳐 맵 추출 및 부호화 과정을 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 피쳐 피라미드 네트워크 구조도를 예시하는 도면이다.
도 3은 본 발명의 일 실시예에 따른 피쳐 맵 복원 과정을 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따른 피라미드 피쳐 맵 화질 개선 네트워크를 설명하기 위한 블록도이다.
도 5는 본 발명의 일 실시예에 따른 피라미드 피쳐 맵 예측 네트워크를 설명하기 위한 블록도이다.
도 6은 본 발명의 실시예에 따른 피라미드 피쳐 맵 예측 과정을 예시하는 도면이다.
본 개시의 신경망 기반 피쳐 맵(feature map) 복호화 방법에 있어서, 비트스트림으로부터 피쳐 맵 그룹을 복호화하는 단계로서, 상기 피쳐 맵 그룹은 시그널링이 스킵(skip)된 피쳐 맵을 제외한 나머지 피쳐 맵들을 포함하고, 상기 스킵된 피쳐 맵 및 상기 나머지 피쳐 맵들은 하나의 계층 구조 내에서 각각 서로 다른 해상도를 가짐, 상기 복호화된 피쳐 맵 그룹에 대하여 역 패킹을 수행함으로써 상기 나머지 피쳐 맵들을 획득하는 단계, 상기 나머지 피쳐 맵들 중 적어도 하나의 피쳐 맵에 기초하여 상기 스킵된 피쳐 맵을 생성하는 단계, 및 상기 나머지 피쳐 맵들 및 상기 스킵된 피쳐 맵에 기초하여 최종 피쳐 맵을 복원하는 단계를 포함할 수 있다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. ‘및/또는’ 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함한다" 또는 "가진다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
도 1은 본 발명의 일 실시예에 따른 피쳐 맵 추출 및 부호화 과정을 나타내는 도면이다.
본 발명의 일 실시예에서, 영상으로부터 피쳐 맵을 추출하고, 피쳐 맵 정보를 패킹한 후, 부호화하여 하나 또는 복수의 비트스트림을 생성하는 과정을 도 1을 참조하여 설명한다. 도 1에 도시된 프로세스는 영상 부호화 장치, 피쳐 맵 부호화 장치, 영상 전송 장치 등에 의해 수행될 수 있다. 본 실시예를 설명함에 있어서, 설명의 편의를 위해 영상 부호화 장치에 의해 수행되는 경우를 전제로 한다.
도 1을 참조하면, 영상 부호화 장치는 영상 전처리기, 피쳐 맵 추출기, 피쳐 맵 정보 패킹 수행기, 피쳐 맵 정보 부호화기를 포함할 수 있다. 영상 부호화 장치에 포함된 상술한 구성들은 각각 독립적인 별개 구성으로 구현될 수도 있고, 단일 구성으로 구현될 수도 있다.
영상 전처리기는, 입력 영상의 컬러 포맷 변환, 해상도 조정 등의 전처리를 수행할 수 있다. 예를 들어, 영상 전처리기는 영상의 컬러 포맷을 RGB, YUV 등으로 선택적으로 변환할 수 있다.
피쳐 맵 추출기는, 영상을 입력 받아 하나 또는 복수의 피쳐 피라미드 네트워크의 피쳐 맵을 출력할 수 있다. 다시 말해, 피쳐 맵 추출기는 피쳐 피라미드 네트워크 구조를 기반으로 입력 영상으로부터 피쳐 맵을 추출할 수 있다. 피쳐 피라미드 네트워크는 다중 레이어(multi-layer) 구조를 가지는 복수의 피쳐 맵을 생성하는 네트워크를 나타내며, 피쳐 피라미드 네트워크로부터 생성되는 피쳐 맵은 각각의 레이어 별로 서로 다른 해상도 또는 스케일을 가질 수 있다. 피쳐 피라미드 네트워크로부터 생성되는 피쳐맵은 피라미드 피쳐 맵으로 지칭될 수 있다.
피쳐 맵 정보 패킹 수행기는 영상으로부터 추출된 피쳐 피라미드 네트워크의 피쳐 맵(즉, 피라미드 피쳐 맵)을 하나 또는 복수의 피쳐 맵 그룹으로 군집화를 수행할 수 있다. 그리고, 피쳐 맵 정보 패킹 수행기는 군집화된 피쳐 맵 그룹 내 피쳐 맵에 대한 정렬을 수행할 수 있다.
도 2는 본 발명의 일 실시예에 따른 피쳐 피라미드 네트워크 구조도를 예시하는 도면이다.
도 2를 참조하면, 피라미드 피쳐 맵은 도 2에 도시된 바와 같은 피쳐 피라미드 네트워크를 통해 생성될 수 있다. 피쳐 피라미드 네트워크 구조는 복수의 컨벌루션 층(또는 레이어)으로 구성되어 있을 수 있고, 도 2의 예시와 같은 구조를 가질 수 있다. 일 예로서, 입력 영상의 크기가
Figure PCTKR2022021454-appb-img-000001
이고, 피라미드 피쳐 맵의 층이 n이라고 할 때, 제n 피라미드 피쳐 맵의 크기는
Figure PCTKR2022021454-appb-img-000002
일 수 있다. 이때, n의 범위는 0≤n<N이고, N은 피쳐 피라미드 네트워크의 총 층의 개수를 의미할 수 있다.
도 2의 예시는 N=4인 피쳐 피라미드 네트워크의 구조도 예시이고, N은 컨벌루션 층 수에 따라 변경될 수 있다. 계층별(레이어별) 피라미드 피쳐 맵을 추출하는 과정에서, 상위 계층의 피라미드 피쳐 맵을 생성하기 위해 하위 계층의 피라미드 피쳐 맵과의 합 연산이 수행될 수 있다. 일 예로서, 상기 합 연산에 앞서 상기 하위 계층의 피라미드 피쳐 맵에 대한 업샘플링이 수행될 수 있다. 제n 피라미드 피쳐 맵은 제n+1 피라미드 피쳐 맵 대비 상위 계층으로 지칭될 수 있다. 최상위 계층은 도 2에서 제0 피라미드 피쳐 맵일 수 있다. 최상위 계층의 피쳐 맵은 상대적으로 가장 높은 해상도 또는 스케일을 가지는 피쳐 맵일 수 있다.
전술한 바와 같이, 피쳐 피라미드 네트워크 특성상 하나의 영상에 대해 계층별로 다해상도의 피쳐 맵을 출력하기 때문에 수신 엣지(또는 수신단)로 전송해야 하는 데이터양이 증가할 수 있다.
따라서, 본 발명의 실시예에서는, 피라미드 피쳐 맵을 선택적으로 전송하고, 전송되지 않은 피라미드 피쳐 맵에 대한 예측을 수행함으로써, 상술한 문제를 개선하기 위한 방법을 제안한다. 앞서 설명한 피쳐 피라미드 네트워크에서의 합 연산으로 인해 피라미드 피쳐 맵의 계층 간 중복성이 존재할 수 있다. 선별적으로 피라미드 피쳐 맵을 전송하고, 이러한 중복성을 기반으로 전송되지 않은 피라미드 피쳐 맵에 대한 예측을 효과적으로 수행할 수 있다.
일 실시예에서, 수신 엣지로 전송될 피쳐 맵에 대한 인덱스 정보가 피쳐 맵 그룹 헤더(feature map group header) 내에서 전송될 수 있다. 전송될 피쳐 맵을 지시하기 위하여 피라미드 피쳐 맵에 할당되는 인덱스는 표 1과 같이 구성될 수 있다. 또는, 수신 엣지로 전송되지 않는 피쳐 맵에 대한 인덱스 정보가 피쳐 맵 그룹 헤더를 통해 전송될 수 있다. 피쳐 맵 그룹 헤더에서는 송신 엣지(또는 송신단)에서 전송될 피쳐 맵(또는 전송되지 않는 피쳐 맵)에 대한 정보가 이미지 또는 동영상 단위로 전송될 수 있다. 또한, 전송될 피쳐 맵(또는 전송되지 않는 피쳐 맵)의 인덱스 및 해당 피쳐 맵의 채널 크기, 복호화기 종류 등이 피쳐 맵 그룹 헤더를 통해 전송될 수 있다.
인덱스 피쳐 맵
0 제0 피라미드 피쳐 맵
1 제1 피라미드 피쳐 맵
2 제2 피라미드 피쳐 맵
3 제3 피라미드 피쳐 맵
... ...
N-1 제N-1 피라미드 피쳐 맵
전송될 피쳐 맵은 피쳐 맵 인덱스 및 채널 인덱스의 오름차순 또는 내림차순 순서대로 피쳐맵을 정렬하여 2차원 형태로 패킹될 수 있다. 이때, 피쳐 맵 정렬 방식은 피쳐 맵 그룹 헤더를 통해 전송될 수 있다.
피쳐 맵 정보 부호화기는, 피쳐 피라미드 네트워크의 피쳐 맵을 부호화할 부호화기 종류를 선택하여 부호화를 수행할 수 있다. 선택할 수 있는 부호화기의 종류는 피쳐 맵 그룹 헤더를 통해 전송될 수 있다. 부호화기는 예측 및 변환 결합 구조 부호화기(예를 들어, VVC, HEVC), 뉴럴 네트워크 기반의 부호화기 등이 존재할 수 있다. 부호화기 종류는 사용자가 직접 결정하거나, 또는 머신 태스크의 성능과 비트율을 고려하여 선택될 수도 있다.
도 3은 본 발명의 일 실시예에 따른 피쳐 맵 복원 과정을 나타내는 도면이다.
본 발명의 일 실시예에서, 피쳐 맵의 복원 또는 복호화는 도 3에 도시된 바와 같이 수행될 수 있다. 도 3에 도시된 프로세스는 영상 복호화 장치, 영상 복원 장치, 피쳐 맵 복호화 장치, 피쳐 맵 복원 장치, 영상 디스플레이 장치 등에 의해 수행될 수 있다. 본 실시예를 설명함에 있어서, 설명의 편의를 위해 영상 복호화 장치에 의해 수행되는 경우를 전제로 한다.
도 3을 참조하면, 영상 복호화 장치는 피쳐 맵 복호화기, 피쳐 맵 역 패킹 수행기, 피라미드 피쳐 맵 화질 개선 네트워크, 피라미드 피쳐 맵 예측 네트워크를 포함할 수 있다. 영상 복호화 장치에 포함된 상술한 구성들은 각각 독립적인 별개 구성으로 구현될 수도 있고, 단일 구성으로 구현될 수도 있다.
영상 복호화 장치는 수신된 비트스트림을 하나 또는 복수의 피라미드 피쳐 맵으로 복호화를 수행한 후, 피라미드 피쳐 맵 화질 개선 네트워크를 통해 피쳐 맵의 압축 손상을 감소시킬 수 있고, 전송되지 않은 피라미드 피쳐 맵을 예측 네트워크를 통해 생성함으로써 피라미드 피쳐 맵을 최종적으로 복원할 수 있다.
피쳐 맵 정보 복호화기는, 전송받은 비트스트림을 복호화하여 하나 또는 복수의 피쳐 맵 그룹을 출력할 수 있다. 피쳐 맵 그룹은 복수의 피라미드 피쳐 맵을 포함할 수 있다. 일 예로서, 피쳐 맵 정보 복호화기는, 피쳐 맵 그룹 헤더에서 복호화기 종류의 인덱스를 파싱한 후, 해당 복호화기를 이용하여 비트스트림을 복호화할 수 있다. 또한, 피쳐 맵 정보 복호화기는 피쳐 맵 그룹 헤더에서 수신 엣지로 전송되는(또는 전송되지 않는) 피라미드 피쳐 맵에 대한 인덱스 정보를 상기 비트스트림으로부터 획득할 수 있다. 본 발명에서, 상기 수신 엣지로 전송되지 않는 피라미드 피쳐 맵은 시그널링이 스킵(skip)된 피쳐 맵, 스킵된 피쳐 맵으로 지칭될 수 있다.
피쳐 맵 역 패킹 수행기는, 피쳐 맵 부호화 과정에서 패킹된 피쳐 맵 그룹을 하나 또는 복수의 피쳐 피라미드 네트워크의 피쳐 맵으로 분리하는 과정일 수 있다. 피쳐 맵 그룹 내 데이터 종류가 피쳐 피라미드 네트워크의 피쳐 맵인 경우, 피쳐 맵 그룹 헤더에서 파싱한 해당 피쳐 맵의 채널 개수 및 데이터 정렬 방식 정보를 이용하여 피쳐 맵 그룹을 피쳐 맵으로 분리한 후, 역 정렬을 수행할 수 있다.
피라미드 피쳐 맵 화질 개선 네트워크는 부호화/복호화 과정에서 피라미드 피쳐 맵에 발생하는 압축 손상을 감소시키는 네트워크일 수 있다. 부호화기에서 피쳐 피라미드 네트워크 기반 구조를 가진 네트워크로부터 추출된 피1라미드 피쳐 맵의 부호화를 진행하여 비트스트림을 복호화기로 전송할 수 있다. 또는, 복호화기에서 수신된 피라미드 피쳐 맵에 대하여 화질 개선 프로세스를 수행(또는 적용)할 수 있다.
일 실시예에서, 피라미드 피쳐 맵은 선택적으로 특정 층의 피라미드 피쳐 맵만 전송될 수 있다. 영상 복호화 장치는 수신한 비트스트림을 복호화한 후, 피쳐 맵 그룹 헤더에서 전송되는 피쳐 맵의 인덱스를 파싱한 후, 파싱된 인덱스에 대응되는 피라미드 피쳐 맵에 대한 복호화를 수행할 수 있다. 그리고, 복호화된 피라미드 피쳐 맵을 피라미드 피쳐 맵 화질 개선 네트워크에 입력할 수 있다.
다른 실시예에서, 전송되지 않는 피라미드 피쳐 맵에 대한 인덱스가 시그널링 될 수 있다. 본 발명에서, 수신 엣지로 전송되지 않는 피쳐 맵(피라미드 피쳐 맵)은 영상 복호화 장치는 전송되지 않은 피라미드 피쳐 맵을 제외한 나머지 피쳐맵을 복호화하고, 그 결과물을 피라미드 피쳐 맵 화질 개선 네트워크에 입력할 수 있다.
또한, 화질 개선 네트워크로부터 출력된 피라미드 피쳐 맵은 피라미드 피쳐 맵 예측 네트워크에 입력될 수 있다. 이에 관한 프로세스는 도 6에서 후술한다.
도 4는 본 발명의 일 실시예에 따른 피라미드 피쳐 맵 화질 개선 네트워크를 설명하기 위한 블록도이다.
도 4를 참조하면, 하나 또는 복수의 복호화된 피라미드 피쳐 맵은 피라미드 피쳐 맵 화질 개선 네트워크를 통해 압축 손상이 감소된 피라미드 피쳐 맵으로 복원될 수 있다. 본 발명에서, 피라미드 피쳐 맵 화질 개선 네트워크는 피쳐 맵 화질 개선 네트워크, 화질 개선 네트워크로 지칭될 수 있다.
부호화기로부터 수신된 피라미드 피쳐 맵들은 접합(concatenation) 연산을 수행하여 피라미드 피쳐 맵 화질 개선 네트워크에 입력될 수 있다. 서로 다른 해상도를 갖는 피쳐 맵이 피라미드 피쳐 맵 화질 개선 네트워크에 입력되는 경우, 피라미드 피쳐 맵에 대하여 동일한 크기로 업 샘플링 또는 다운 샘플링이 수행된 후, 접합 연산이 수행될 수 있다.
컨벌루션 뉴럴 네트워크는 두 개 이상의 9x9 크기의 커널로 구성된 컨벌루션 층으로 구성될 수 있다. 도 4에 도시된 바와 같이, 컨벌루션 층 사이에 활성화 함수 GDN(Generalized Divisive Normalization)을 적용하는 GDN 유닛이 삽입될 수 있다. GDN은 다양한 분포의 데이터를 정규 분포 형태로 변환 또는 역변환을 수행할 수 있는 정규화 기술이다. GDN은 아래 수학식 1에 기초하여 수행될 수 있다.
Figure PCTKR2022021454-appb-img-000003
수학식 1을 참조하면, k번째 GDN 활성화 함수에 입력되는 값은 k번째 컨벌루션 층으로부터 출력된 3차원 데이터이고, 너비, 높이, 채널 순서로 각각 m, n, i을 통해
Figure PCTKR2022021454-appb-img-000004
로 표현할 수 있다. k번째 활성화 함수로부터 출력되는 값은
Figure PCTKR2022021454-appb-img-000005
로 표현할 수 있고, 출력 값은 K+1번째 컨벌루션 층으로 입력될 수 있다. 각각의 K번째 활성화 함수의 출력에서 m,n에 위치한
Figure PCTKR2022021454-appb-img-000006
은 k번째 활성화 함수의 i채널에 대한 학습 변수인
Figure PCTKR2022021454-appb-img-000007
와 K번째 활성화 함수의 i채널과 j채널에 대한 학습 변수인
Figure PCTKR2022021454-appb-img-000008
가 작용되어
Figure PCTKR2022021454-appb-img-000009
로 출력되는 과정일 수 있다.
일 실시예에서, 피쳐 맵 화질 개선 네트워크의 출력은 피쳐 맵 전처리기에 의해 전처리가 수행된 피쳐 맵과 컨벌루션 뉴럴 네트워크의 최종 출력을 요소별 합(element-wise summation) 연산을 수행한 피쳐 맵일 수 있다.
피라미드 피쳐 맵 화질 개선 네트워크를 훈련시키는 과정은 다음과 같을 수 있다. 뉴럴 네트워크의 손실 함수는 평균 제곱 오차이거나 또는 교차 엔트로피 오차일 수 있다. 피라미드 피쳐 맵에 대한 예측/변환 결합 구조 기반 부호화/복호화기 또는 뉴럴 네트워크 기반 부호화/복호화기로 부호화/복호화된 피쳐 맵이 입력(또는 입력 이미지, 훈련 영상, 훈련 데이터)으로 사용될 수 있고, 압축 손상이 포함되지 않은 원본 피라미드 피쳐 맵을 정답(또는 타겟, 타겟 출력)으로 선정하여 화질 개선 네트워크를 학습시킬 수 있다. 상술한 학습 또는 훈련은 화질 개선 네트워크의 입력이 정답과 정합하거나 기 정의된 수치만큼 이에 근사한 출력을 생성할 때까지 화질 개선 네트워크의 가중치들에 대한 업데이트를 수행하는 과정을 포함할 수 있다.
일 실시예에서, 피라미드 피쳐 맵 화질 개선 네트워크에서 출력은 피라미드 피쳐 맵 예측 네트워크에 입력될 수 있다. 피라미드 피쳐 맵 예측 네트워크는 피라미드 피쳐 맵 계층 간의 중복성을 활용하여 인접한 계층의 피쳐 맵을 사용하여 송신 엣지로부터 수신되지 않은 피쳐 맵을 생성(또는 예측)하는 네트워크일 수 있다. 이하의 도면을 참조하여 설명한다.
도 5은 본 발명의 일 실시예에 따른 피라미드 피쳐 맵 예측 네트워크를 설명하기 위한 블록도이다.
도 5를 참조하면, 송신 엣지로부터 전송되지 않은 피라미드 피쳐 맵은 피라미드 피쳐 맵 예측 네트워크를 통해 생성(또는 예측)될 수 있다. 본 발명에서, 피라미드 피쳐 맵 예측 네트워크는 피쳐 맵 예측 네트워크, 예측 네트워크로 지칭될 수 있다.
실시예로서, 피라미드 피쳐 맵 화질 개선 네트워크를 통해 복원된 피라미드 피쳐 맵은 피라미드 피쳐 맵 예측 네트워크에 입력될 수 있다. 입력한 피라미드 피쳐 맵과 생성할 피라미드 피쳐 맵이 동일한 해상도를 갖도록 업 샘플링 또는 다운 샘플링 연산을 수행할 수 있다. 컨벌루션 뉴럴 네트워크는 두 개 이상의 9x9 크기의 커널로 구성된 컨벌루션 층으로 구성할 수 있고, 컨벌루션 층 사이에 활성화 함수 GDN(또는 GDN 유닛)을 삽입하여 생성할 수 있다. 피라미드 피쳐 맵 예측 네트워크의 출력은 전송되지 않은 해상도(또는 레이어, 스케일)의 피라미드 피쳐 맵을 예측하고 출력할 수 있다.
피라미드 피쳐 맵 예측 네트워크를 훈련시키는 과정은 다음과 같을 수 있다. 뉴럴 네트워크의 손실 함수는 평균 제곱 오차이거나 또는 교차 엔트로피 오차일 수 있다. 피라미드 피쳐 맵에 대한 예측/변환 결합 구조 기반 부호화/복호화기 또는 뉴럴 네트워크 기반 부호화/복호화기로 부호화/복호화된 피쳐 맵이 입력(또는 입력 이미지, 훈련 영상, 훈련 데이터)으로 사용될 수 있고, 압축 손상이 포함되지 않은 원본 피라미드 피쳐 맵을 정답(또는 타겟, 타겟 출력)으로 선정하여 예측 네트워크를 학습시킬 수 있다.
예를 들어, 제n 피라미드 피쳐 맵을 전송하지 않고, 제n+1 피라미드 피쳐 맵, 제n+2 피라미드 피쳐 맵, 제n+3 피라미드 피쳐 맵을 전송한 경우, 압축 손상이 존재하는 제n+1 피라미드 피쳐 맵, 제n+2 피라미드 피쳐 맵, 제n+3 피라미드 피쳐 맵을 네트워크의 입력으로 사용할 수 있고, 압축 손상이 없는 제n 피라미드 피쳐 맵을 정답으로 선정하여 네트워크를 학습시킬 수 있다. 상술한 학습 또는 훈련은 예측 네트워크의 입력이 정답과 정합하거나 기 정의된 수치만큼 이에 근사한 출력을 생성할 때까지 예측 네트워크의 가중치들에 대한 업데이트를 수행하는 과정을 포함할 수 있다.
부호화기(또는 송신 엣지)에서는 피라미드 피쳐 맵 네트워크에서 생성된 피라미드 피쳐 맵 중 복호화기(또는 수신 엣지)에 선택적으로 특정 층의 피쳐 맵만 전송할 수 있다. 즉, 실시예에 따라 피라미드 피쳐 맵 중 일부의 피쳐 맵만 선택적으로 전송할 수 있다.
도 6은 본 발명의 실시예에 따른 피라미드 피쳐 맵 예측 과정을 예시하는 도면이다.
도 6은 부호화기에서 일부 피쳐 맵을 전송하지 않은 경우, 피쳐 맵 예측 네트워크를 사용하여 피쳐 맵을 생성하는 과정에 대한 예시이다. 예를 들어, 제n 피라미드 피쳐 맵과 제n+2 피라미드 피쳐 맵을 전송하지 않고, 제n+1 피라미드 피쳐 맵과 제n+3 피라미드 피쳐 맵을 전송한 경우, 제n 피라미드 피쳐 맵과 제n+2 피라미드 피쳐 맵을 생성할 수 있다.
제n 피라미드 피쳐 맵을 생성하기 위하여 필요한 제n+2 피라미드 피쳐 맵을 생성함에 있어서, 어떠한 피라미드 피쳐 맵을 사용할지 여부에 따라 도 6-1 또는 도 6-2 방법으로 피쳐 맵을 생성할 수 있다.
도 6-1은 제n+2 피라미드 피쳐 맵을 생성할 경우, 제n+3 피라미드 피쳐 맵만을 사용하여 제n+2 피라미드 피쳐 맵을 생성하는 예시이다. 제n+3 피라미드 피쳐 맵을 피라미드 피쳐 맵 예측 네트워크의 입력으로 하여 제n+2 피라미드 피쳐 맵을 생성할 수 있다. 이때, 제n+3 피라미드 피쳐 맵에 대한 업샘플링이 수행될 수 있다. 이 후, 생성한 제n+2 피라미드 피쳐 맵과 복원된 제n+1 피라미드 피쳐 맵, 제n+3 피라미드 피쳐 맵을 제n 피라미드 피쳐 맵과 동일한 크기를 갖도록 업 샘플링을 수행할 수 있다. 업 샘플링된 각각의 피라미드 피쳐 맵에 대하여 접합 연산을 수행하고, 이를 네트워크에 입력하여 제n 피라미드 피쳐 맵을 생성할 수 있다. 일 실시예에서, 상기 제n 피라미드 피쳐 맵은 최상위 계층의 피쳐 맵으로서, 최종적으로 획득되는 최종 피쳐 맵일 수 있다.
도 6-2는 제n+2 피라미드 피쳐 맵을 생성할 경우, 제n+1 피라미드 피쳐 맵과 제n+3 피라미드 피쳐 맵을 사용하여 제n+2 피라미드 피쳐 맵을 생성하는 예시이다. 제n+1 피라미드 피쳐 맵을 다운 샘플링한 피쳐 맵과 제n+3 피라미드 피쳐 맵을 업 샘플링한 피쳐 맵을 요소별 가중 합(element-wise weighted-summation)을 수행하여 제n+2 피라미드 피쳐 맵을 생성할 수 있다. 제n+1 피라미드 피쳐 맵과 제n+3 피라미드 피쳐 맵을 요소별 가중 합을 수행하여 제n+2 피라미드 피쳐 맵을 생성하기 위해 다음의 수학식2가 이용될 수 있다.
Figure PCTKR2022021454-appb-img-000010
( 0 ≤ H < Height, 0 ≤ W < WIDTH )
Figure PCTKR2022021454-appb-img-000011
은 제n+2 피라미드 피쳐 맵이고,
Figure PCTKR2022021454-appb-img-000012
는 가중치로 [0,1] 범위 내로 설정할 수 있다. H는 해당 피쳐 맵의 높이이고, W는 해당 피쳐 맵의 너비를 나타낸다.
이 후, 생성된 제n+2 피라미드 피쳐 맵, 복원된 제n+1 피라미드 피쳐 맵, 복원된 제n+3 피라미드 피쳐 맵을 제n 피라미드 피쳐 맵과 동일한 크기를 갖도록 업 샘플링을 수행할 수 있다. 업 샘플링된 각각의 피라미드 피쳐 맵에 대하여 접합 연산을 수행하고, 이를 네트워크에 입력하여 제n 피라미드 피쳐 맵을 생성할 수 있다. 일 실시예에서, 상기 제n 피라미드 피쳐 맵은 최상위 계층의 피쳐 맵으로서, 최종적으로 획득되는 최종 피쳐 맵일 수 있다.
한편, 본 실시예에 따른 영상 분석 방법은 다양한 컴퓨터 수단을 통해 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위해 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능 매체의 예에는 롬(rom), 램(ram), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 적어도 하나의 소프트웨어 모듈로 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이, 본 실시예에서는 3차원 영상 데이터를 분석하기 위한 심층 신경망의 구조를 구성하는 방법을 제공한다. 본 실시예에 따른 가상 3차원 심층 신경망 구조는 입력된 의료 영상에서 질병 진단을 내리거나 또는 병변의 위치를 찾아내거나 또는 비디오에서 사람의 행동을 인식하는 등의 3차원 영상 데이터 분석에 활용될 수 있다.
이상 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims (11)

  1. 신경망 기반 피쳐 맵(feature map) 복호화 방법에 있어서,
    비트스트림으로부터 피쳐 맵 그룹을 복호화하는 단계로서, 상기 피쳐 맵 그룹은 시그널링이 스킵(skip)된 피쳐 맵을 제외한 나머지 피쳐 맵들을 포함하고, 상기 스킵된 피쳐 맵 및 상기 나머지 피쳐 맵들은 하나의 계층 구조 내에서 각각 서로 다른 해상도를 가짐;
    상기 복호화된 피쳐 맵 그룹에 대하여 역 패킹을 수행함으로써 상기 나머지 피쳐 맵들을 획득하는 단계;
    상기 나머지 피쳐 맵들 중 적어도 하나의 피쳐 맵에 기초하여 상기 스킵된 피쳐 맵을 생성하는 단계; 및
    상기 나머지 피쳐 맵들 및 상기 스킵된 피쳐 맵에 기초하여 최종 피쳐 맵을 복원하는 단계를 포함하는, 피쳐 맵 복호화 방법.
  2. 제1항에 있어서,
    상기 피쳐 맵 그룹을 복호화하는 단계는,
    상기 비트스트림으로부터 피쳐 맵 그룹 헤더 정보를 복호화 하는 단계를 포함하고,
    상기 피쳐 맵 그룹 헤더 정보는 상기 나머지 피쳐 맵들 각각을 지시하기 위한 인덱스 정보, 상기 나머지 피쳐 맵들의 채널 크기 정보 또는 상기 나머지 피쳐 맵들의 부호화에 이용된 부호화기 종류 정보 중 적어도 하나를 포함하는, 피쳐 맵 복호화 방법.
  3. 제2항에 있어서,
    상기 피쳐 맵 그룹 헤더 정보는 상기 나머지 피쳐 맵들의 채널 개수 정보 또는 데이터 정렬 방식 정보 중 적어도 하나를 더 포함하는, 피쳐 맵 복호화 방법.
  4. 제3항에 있어서,
    상기 나머지 피쳐 맵들을 획득하는 단계는,
    상기 피쳐 맵 그룹 내에서 미리 정의된 순서에 따라 피쳐 맵 인덱스가 정렬되어 2차원 패킹된 데이터를, 상기 채널 개수 또는 상기 데이터 정렬 방식 정보 중 적어도 하나에 기초하여 복수의 피쳐 맵들로 분리하여 역 정렬을 수행함으로써 상기 복호화된 피쳐 맵 그룹에 대하여 역 패킹을 수행하는, 피쳐 맵 복호화 방법.
  5. 제1항에 있어서,
    상기 스킵된 피쳐 맵은 상기 획득된 나머지 피쳐 맵들 중에서 상기 스킵된 피쳐 맵의 인접 하위 계층의 피쳐 맵에 대하여 업샘플링을 수행함으로써 생성되는, 피쳐 맵 복호화 방법.
  6. 제1항에 있어서,
    상기 스킵된 피쳐 맵을 생성하는 단계는,
    상기 나머지 피쳐 맵들 중에서 상기 스킵된 피쳐 맵에 인접한 하위 계층의 피쳐 맵에 대하여 업샘플링을 수행하는 단계;
    상기 나머지 피쳐 맵들 중에서 상기 스킵된 피쳐 맵에 인접한 상위 계층의 피쳐 맵에 대하여 다운샘플링을 수행하는 단계; 및
    상기 업샘플링된 인접한 하위 계층의 피쳐 맵 및 상기 다운샘플링된 인접한 하위 계층의 피쳐 맵에 대하여 요소별 가중 합(element-wise weighted-summation)을 수행하는 단계를 포함하는, 피쳐 맵 복호화 방법.
  7. 제1항에 있어서,
    상기 스킵된 피쳐 맵을 생성하는 단계는,
    컨볼루션 레이어 및 GDN(Generalized Divisive Normalization) 레이어를 포함하는 피쳐 맵 예측 네트워크를 이용하여 수행되는, 피쳐 맵 복호화 방법.
  8. 제1항에 있어서,
    상기 최종 피쳐 맵을 복원하는 단계는,
    상기 나머지 피쳐 맵들 및 상기 스킵된 피쳐 맵 각각에 대하여 상기 최종 피쳐 맵과 동일한 해상도를 갖도록 업샘플링을 수행하는 단계; 및
    상기 업샘플링된 나머지 피쳐 맵들 및 상기 업샘플링된 스킵된 피쳐 맵에 대하여 접합(concatenation) 연산을 수행하는 단계를 포함하는, 피쳐 맵 복호화 방법.
  9. 제1항에 있어서,
    상기 나머지 피쳐 맵들 중 적어도 하나의 피쳐 맵에 대하여 화질 개선을 수행하는 단계를 더 포함하고,
    상기 스킵된 피쳐 맵은 상기 화질 개선이 수행된 피쳐 맵을 이용하여 생성되는, 피쳐 맵 복호화 방법.
  10. 제9항에 있어서,
    상기 화질 개선을 수행하는 단계는,
    컨볼루션 레이어 및 GDN(Generalized Divisive Normalization) 레이어를 포함하는 피쳐 맵 화질 개선 네트워크를 이용하여 수행되는, 피쳐 맵 복호화 방법.
  11. 신경망 기반의 신호 처리 장치에 있어서,
    상기 신호 처리 장치를 제어하는 프로세서; 및
    상기 프로세서와 결합되고, 데이터를 저장하는 메모리를 포함하되,
    상기 프로세서는,
    비트스트림으로부터 피쳐 맵 그룹을 복호화하되, 상기 피쳐 맵 그룹은 시그널링이 스킵(skip)된 피쳐 맵을 제외한 나머지 피쳐 맵들을 포함하고, 상기 스킵된 피쳐 맵 및 상기 나머지 피쳐 맵들은 하나의 계층 구조 내에서 각각 서로 다른 해상도를 가지며,
    상기 복호화된 피쳐 맵 그룹에 대하여 역 패킹을 수행함으로써 상기 나머지 피쳐 맵들을 획득하고,
    상기 나머지 피쳐 맵들 중 적어도 하나의 피쳐 맵에 기초하여 상기 스킵된 피쳐 맵을 생성하고,
    상기 나머지 피쳐 맵들 및 상기 스킵된 피쳐 맵에 기초하여 최종 피쳐 맵을 복원하는, 신경망 기반의 신호 처리 장치.
PCT/KR2022/021454 2022-02-25 2022-12-28 딥러닝 기반 피쳐 맵 압축 효율 향상을 위한 방법 WO2023163356A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20220025328 2022-02-25
KR10-2022-0025328 2022-02-25
KR1020220108356A KR20230127851A (ko) 2022-02-25 2022-08-29 딥러닝 기반 피쳐 맵 압축 효율 향상을 위한 방법
KR10-2022-0108356 2022-08-29

Publications (1)

Publication Number Publication Date
WO2023163356A1 true WO2023163356A1 (ko) 2023-08-31

Family

ID=87766188

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/021454 WO2023163356A1 (ko) 2022-02-25 2022-12-28 딥러닝 기반 피쳐 맵 압축 효율 향상을 위한 방법

Country Status (1)

Country Link
WO (1) WO2023163356A1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180131073A (ko) * 2017-05-31 2018-12-10 삼성전자주식회사 다채널 특징맵 영상을 처리하는 방법 및 장치
KR20200026026A (ko) * 2018-08-31 2020-03-10 삼성전자주식회사 Cnn 활용 시스템의 특징 맵을 고속으로 압축 처리하기 위한 전자장치 및 제어방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180131073A (ko) * 2017-05-31 2018-12-10 삼성전자주식회사 다채널 특징맵 영상을 처리하는 방법 및 장치
KR20200026026A (ko) * 2018-08-31 2020-03-10 삼성전자주식회사 Cnn 활용 시스템의 특징 맵을 고속으로 압축 처리하기 위한 전자장치 및 제어방법

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GUO ZONGYU; ZHANG ZHIZHENG; CHEN ZHIBO: "Deep Scalable Image Compression via Hierarchical Feature Decorrelation", 2019 PICTURE CODING SYMPOSIUM (PCS), IEEE, 12 November 2019 (2019-11-12), pages 1 - 5, XP033688165, DOI: 10.1109/PCS48520.2019.8954536 *
PARK SEUNGJIN, LEE, MINHUN; CHOI, HANSOL; KIM, MINSUB; OH, SEOUNG-JUN; KIM, YOUNHEE; DO, JIHOON; JEONG, SE YOON; SIM, DONGGYU: "A PCA-based feature map compression method applied to video coding for machines", 2021 KOREAN SOCIETY OF BROADCASTING AND MEDIA ENGINEERING FALL CONFERENCE, 27 November 2021 (2021-11-27), pages 27 - 29, XP093085750, [retrieved on 20230926] *
PARK SEUNGJIN, MINHUN LEE, HANSOL CHOI, MINSUB KIM, SEOUNG-JUN OH, YOUNHEE KIM, JIHOON DO, SE YOON JEONG, DONGGYU SI: "A Feature Map Compression Method for Multi-resolution Feature Map with PCA-based Transformation", JOURNAL OF BROADCAST ENGINEERING, KOREA, vol. 27, no. 1, 1 January 2022 (2022-01-01), Korea , pages 56 - 68, XP093085736, ISSN: 1226-7953, DOI: 10.5909/JBE.2022.27.1.56 *

Similar Documents

Publication Publication Date Title
WO2020238558A1 (zh) 一种图像超分辨方法和系统
US20190394477A1 (en) Devices for compression/decompression, system, chip, and electronic device
US20190139193A1 (en) Image processing apparatuses and methods, image processing systems and training methods
US20210211728A1 (en) Image Compression Method and Apparatus
BRPI0614759A2 (pt) codificação e decodificação eficiente de blocos de transformação
JPH02183684A (ja) 2次元情報の符号化システム
CN1497856A (zh) 编码方法及系统以及译码方法及系统
CN110909744A (zh) 结合语义分割的多描述编码方法及系统
CN113961736A (zh) 文本生成图像的方法、装置、计算机设备和存储介质
CN103179389A (zh) 图像处理设备和图像处理方法
WO2023163356A1 (ko) 딥러닝 기반 피쳐 맵 압축 효율 향상을 위한 방법
US8340446B2 (en) Apparatus and method for generating chain code
WO2022075754A1 (ko) 머신비전을 위한 영상의 처리 방법 및 장치
WO2022211409A1 (ko) 특징맵 축소를 이용하는 머신 비전 데이터 코딩 장치 및 방법
US6369848B1 (en) Picture data transmission device and picture signal coding method thereof
KR20230127851A (ko) 딥러닝 기반 피쳐 맵 압축 효율 향상을 위한 방법
SE0900522A1 (sv) Bildkodare och metod för kodning av bilder
US6697525B1 (en) System method and apparatus for performing a transform on a digital image
CN116502653A (zh) 翻译质量评估方法、电子设备、芯片及可读存储介质
CN116260983A (zh) 图像编解码方法和装置
WO2020091259A1 (ko) 비대칭 tanh 활성 함수를 이용한 예측 성능의 개선
WO2013028041A2 (en) Method and apparatus for encoding image, and method and apparatus for decoding image
Barannik et al. The justification of the direction for increasing the availability of the video information in objective control systems
CN113435578B (zh) 基于互注意力的特征图编码方法、装置及电子设备
WO2024043389A1 (ko) 설치환경에 최적화된 딥러닝 모델 생성 시스템 및 방법, 이의 학습 데이터 구성 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22929103

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18559334

Country of ref document: US