WO2014017809A1 - Method of decoding images and device using same - Google Patents

Method of decoding images and device using same Download PDF

Info

Publication number
WO2014017809A1
WO2014017809A1 PCT/KR2013/006596 KR2013006596W WO2014017809A1 WO 2014017809 A1 WO2014017809 A1 WO 2014017809A1 KR 2013006596 W KR2013006596 W KR 2013006596W WO 2014017809 A1 WO2014017809 A1 WO 2014017809A1
Authority
WO
WIPO (PCT)
Prior art keywords
prediction
prediction signal
block
target block
lower layer
Prior art date
Application number
PCT/KR2013/006596
Other languages
French (fr)
Korean (ko)
Inventor
이하현
강정원
이진호
최진수
김진웅
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to US14/402,268 priority Critical patent/US20150139323A1/en
Priority claimed from KR1020130086875A external-priority patent/KR20140016823A/en
Publication of WO2014017809A1 publication Critical patent/WO2014017809A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors

Definitions

  • the present invention relates to encoding and decoding processing of an image, and more particularly, to a method and apparatus for encoding and decoding an image that supports a plurality of layers in a bitstream.
  • an inter prediction technique for predicting pixel values included in a current picture from a previous and / or subsequent picture in time, and predicting pixel values included in a current picture using pixel information in the current picture.
  • An intra prediction technique an entropy encoding technique of allocating a short code to a symbol with a high frequency of appearance and a long code to a symbol with a low frequency of appearance may be used.
  • Video compression technology is a technology that provides a constant network bandwidth under a limited operating environment of hardware without considering a fluid network environment.
  • a new compression technique is required to compress image data applied to a network environment in which bandwidth changes frequently, and a scalable video encoding / decoding method may be used for this purpose.
  • the prediction signal of the current target block not only the reference layer block at the position corresponding to the current target block but also the block most similar to the sample of the current target block can be used as the prediction signal for the image of the reference layer. To make it possible.
  • a weighted sum of the prediction signal obtained from the intra-layer image to which the current target block belongs and the prediction signal obtained from the reference layer image is also used as the prediction signal.
  • the purpose of the present invention is to improve the accuracy of the prediction signal and to improve the encoding and decoding efficiency by minimizing the residual signal.
  • a method of decoding an image supporting a plurality of layers comprising: receiving prediction method information on a prediction method of a decoding target block; And generating a prediction signal of the target block based on the received information, wherein the prediction method information may include predicting the target block using a reconstructed lower layer.
  • the generating of the prediction signal may perform motion compensation in the lower layer direction.
  • the prediction method information may include a motion vector derived from motion prediction performed on a lower layer image decoded by an encoder.
  • the generating of the prediction signal may generate a reconstruction value of a reference block corresponding to the target block in the lower layer as the prediction signal.
  • the generating of the prediction signal may perform motion compensation and reconstruction of a reference picture in the same layer as the target block and a reconstructed image of the layer referenced by the current decoding target block.
  • the generating of the prediction signal may obtain a weighted sum of the prediction signal obtained from the forward reference picture and the prediction signal obtained from the lower layer reference picture.
  • the generating of the prediction signal may obtain a weighted sum of the prediction signal obtained from the backward reference picture and the prediction signal obtained from the lower layer reference picture.
  • the generating of the prediction signal may obtain a weighted sum of the prediction signal obtained from the forward reference picture, the prediction signal obtained from the backward reference picture, and the prediction signal obtained from the lower layer reference picture.
  • the generating of the prediction signal may obtain a weighted sum of the prediction signal obtained from the reference sample included in the reconstructed neighboring block adjacent to the target block and the prediction signal obtained from the lower layer reference picture.
  • the prediction method information is information indicating one of an intra prediction method, an inter prediction method, a lower layer direction prediction method, and a prediction method using reconstructed reference pictures of the same layer and a lower layer with respect to the prediction method of the target block. It may further include.
  • an image decoding apparatus supporting a plurality of layers includes: a receiving unit receiving prediction method information on a prediction method of a target block to be decoded;
  • the prediction unit may generate a prediction signal of the target block based on the received information, and the prediction method information may include predicting the target block using a reconstructed lower layer.
  • the prediction signal of the current target block not only the reference layer block at the position corresponding to the current target block, but also the block most similar to the sample of the current target block for the image of the reference layer.
  • an image decoding method and an apparatus using the same in which a weighted sum of a prediction signal obtained from an intra-layer image to which a current target block belongs and a prediction signal obtained from a reference layer image can also be used as a prediction signal.
  • the residual signal is minimized to improve the encoding and decoding efficiency.
  • FIG. 1 is a block diagram illustrating a configuration of an image encoding apparatus according to an embodiment.
  • FIG. 2 is a block diagram illustrating a configuration of an image decoding apparatus according to an embodiment.
  • FIG. 3 is a conceptual diagram schematically illustrating an embodiment of a scalable video coding structure using multiple layers to which the present invention can be applied.
  • FIG. 4 is a diagram illustrating an embodiment of an intra prediction mode.
  • FIG. 5 is a diagram illustrating an embodiment of neighboring blocks and neighboring samples used in an intra prediction mode.
  • FIG. 6 is a conceptual diagram illustrating generation of a prediction signal using a reference layer according to an embodiment of the present invention.
  • FIG. 7 is a conceptual diagram illustrating generation of a prediction signal using a reference layer according to another embodiment of the present invention.
  • FIG. 8 is a control flowchart illustrating a method of generating a prediction signal of a target block according to the present invention.
  • first and second may be used to describe various components, but the components should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another.
  • the first component may be referred to as the second component, and similarly, the second component may also be referred to as the first component.
  • each component shown in the embodiments of the present invention are shown independently to represent different characteristic functions, and do not mean that each component is made of separate hardware or one software component unit.
  • each component is included in each component for convenience of description, and at least two of the components may be combined into one component, or one component may be divided into a plurality of components to perform a function.
  • Integrated and separate embodiments of the components are also included within the scope of the present invention without departing from the spirit of the invention.
  • the components may not be essential components for performing essential functions in the present invention, but may be optional components for improving performance.
  • the present invention can be implemented including only the components essential for implementing the essentials of the present invention except for the components used for improving performance, and the structure including only the essential components except for the optional components used for improving performance. Also included in the scope of the present invention.
  • FIG. 1 is a block diagram illustrating a configuration of an image encoding apparatus according to an embodiment.
  • a scalable video encoding / decoding method or apparatus may be implemented by an extension of a general video encoding / decoding method or apparatus that does not provide scalability, and the block diagram of FIG. 1 is scalable.
  • An embodiment of an image encoding apparatus that may be the basis of a video encoding apparatus is illustrated.
  • the image encoding apparatus 100 may include a motion predictor 111, a motion compensator 112, an intra predictor 120, a switch 115, a subtractor 125, and a converter 130. And a quantization unit 140, an entropy encoding unit 150, an inverse quantization unit 160, an inverse transform unit 170, an adder 175, a filter unit 180, and a reference image buffer 190.
  • the image encoding apparatus 100 may perform encoding in an intra mode or an inter mode on an input image and output a bit stream.
  • Intra prediction means intra prediction and inter prediction means inter prediction.
  • the switch 115 is switched to intra, and in the inter mode, the switch 115 is switched to inter.
  • the image encoding apparatus 100 may generate a prediction block for an input block of an input image and then encode a difference between the input block and the prediction block.
  • the intra predictor 120 may generate a prediction block by performing spatial prediction using pixel values of blocks that are already encoded around the current block.
  • the motion predictor 111 may obtain a motion vector by searching for a region that best matches an input block in the reference image stored in the reference image buffer 190 during the motion prediction process.
  • the motion compensator 112 may generate a prediction block by performing motion compensation using the motion vector and the reference image stored in the reference image buffer 190.
  • the subtractor 125 may generate a residual block by the difference between the input block and the generated prediction block.
  • the transform unit 130 may output a transform coefficient by performing transform on the residual block.
  • the quantization unit 140 may output the quantized coefficient by quantizing the input transform coefficient according to the quantization parameter.
  • the entropy encoding unit 150 entropy encodes a symbol according to a probability distribution based on values calculated by the quantization unit 140 or encoding parameter values calculated in the encoding process, thereby generating a bit stream. You can print
  • the entropy encoding method is a method of receiving a symbol having various values and expressing it in a decodable column while removing statistical redundancy.
  • Encoding parameters are parameters necessary for encoding and decoding, and may include information that may be inferred during encoding or decoding, as well as information encoded by an encoder and transmitted to a decoder, such as syntax elements. Means necessary information. Coding parameters may be, for example, intra / inter prediction modes, moving / motion vectors, reference picture indexes, coding block patterns, presence or absence of residual signals, transform coefficients, quantized transform coefficients, quantization parameters, block sizes, block partitioning information, or the like. May include statistics.
  • the residual signal may mean a difference between the original signal and the prediction signal, and a signal in which the difference between the original signal and the prediction signal is transformed or a signal in which the difference between the original signal and the prediction signal is converted and quantized It may mean.
  • the residual signal may be referred to as a residual block in block units.
  • the entropy encoder 150 may store a table for performing entropy encoding, such as a variable length coding (VLC) table, and the entropy encoder 150 may store the stored variable length encoding. Entropy encoding may be performed using the (VLC) table. In addition, the entropy encoder 150 derives a binarization method of a target symbol and a probability model of a target symbol / bin, and then performs entropy encoding using the derived binarization method or a probability model. You may.
  • VLC variable length coding
  • CABAC context-adaptive binary arithmetic coding
  • the quantized coefficients may be inversely quantized by the inverse quantizer 160 and inversely transformed by the inverse transformer 170.
  • the inverse quantized and inverse transformed coefficients are added to the prediction block through the adder 175 and a reconstruction block can be generated.
  • the reconstruction block passes through the filter unit 180, and the filter unit 180 applies at least one or more of a deblocking filter, a sample adaptive offset (SAO), and an adaptive loop filter (ALF) to the reconstructed block or reconstructed picture. can do.
  • the reconstructed block that has passed through the filter unit 180 may be stored in the reference image buffer 190.
  • FIG. 2 is a block diagram illustrating a configuration of an image decoding apparatus according to an embodiment.
  • a scalable video encoding / decoding method or apparatus may be implemented by extension of a general video encoding / decoding method or apparatus that does not provide scalability
  • the block diagram of FIG. 2 is scalable video decoding.
  • An embodiment of an image decoding apparatus that may be the basis of an apparatus is shown.
  • the image decoding apparatus 200 may include an entropy decoder 210, an inverse quantizer 220, an inverse transformer 230, an intra predictor 240, a motion compensator 250, and a filter. 260 and a reference picture buffer 270.
  • the image decoding apparatus 200 may receive a bitstream output from the encoder and perform decoding in an intra mode or an inter mode, and output a reconstructed image, that is, a reconstructed image.
  • the switch In the intra mode, the switch may be switched to intra, and in the inter mode, the switch may be switched to inter.
  • the image decoding apparatus 200 may generate a reconstructed block, that is, a reconstructed block by obtaining a residual block reconstructed from the received bitstream, generating a prediction block, and adding the reconstructed residual block and the prediction block.
  • the entropy decoder 210 may entropy decode the input bitstream according to a probability distribution to generate symbols including symbols in the form of quantized coefficients.
  • the entropy decoding method is a method of generating each symbol by receiving a binary string.
  • the entropy decoding method is similar to the entropy coding method described above.
  • the quantized coefficients are inversely quantized by the inverse quantizer 220 and inversely transformed by the inverse transformer 230, and as a result of the inverse quantization / inverse transformation of the quantized coefficients, a reconstructed residual block may be generated.
  • the intra predictor 240 may generate a predictive block by performing spatial prediction using pixel values of an already encoded block around the current block.
  • the motion compensator 250 may generate a prediction block by performing motion compensation using the motion vector and the reference image stored in the reference image buffer 270.
  • the reconstructed residual block and the prediction block are added through the adder 255, and the added block passes through the filter unit 260.
  • the filter unit 260 may apply at least one or more of the deblocking filter, SAO, and ALF to the reconstructed block or the reconstructed picture.
  • the filter unit 260 outputs a reconstructed image, that is, a reconstructed image.
  • the reconstructed picture may be stored in the reference picture buffer 270 to be used for inter prediction.
  • components directly related to the decoding of an image in the reference image buffer 270 for example, an entropy decoder 210, an inverse quantizer 220, an inverse transformer 230, an intra predictor 240, and motion compensation.
  • the unit 250, the filter unit 260, and the like may be distinguished from other components and expressed as a decoder or a decoder.
  • the image decoding apparatus 200 may further include a parsing unit (not shown) which parses information related to an encoded image included in a bitstream.
  • the parser may include the entropy decoder 210 or may be included in the entropy decoder 210. Such a parser may also be implemented as one component of the decoder.
  • FIG. 3 is a conceptual diagram schematically illustrating an embodiment of a scalable video coding structure using multiple layers to which the present invention can be applied.
  • a GOP Group of Picture
  • FIG. 3 a GOP (Group of Picture) represents a picture group, that is, a group of pictures.
  • a transmission medium In order to transmit image data, a transmission medium is required, and its performance varies depending on the transmission medium according to various network environments.
  • a scalable video coding method may be provided for application to such various transmission media or network environments.
  • the scalable video coding method is a coding method that improves encoding / decoding performance by removing redundancy between layers by using texture information, motion information, and residual signals between layers.
  • the scalable video coding method may provide various scalability in terms of spatial, temporal, and image quality according to ambient conditions such as a transmission bit rate, a transmission error rate, and a system resource.
  • Scalable video coding may be performed using multiple layers structure to provide a bitstream applicable to various network situations.
  • the scalable video coding structure may include a base layer that compresses and processes image data by using a general image encoding method, and compresses the image data by using the encoding information of the base layer and a general image encoding method together. May include an enhancement layer for processing.
  • a layer is an image and a bit divided based on spatial (eg, image size), temporal (eg, coding order, image output order, frame rate), image quality, complexity, and the like.
  • the base layer may mean a lower layer, a reference layer or a base layer
  • the enhancement layer may mean an upper layer and an enhancement layer.
  • the plurality of layers may have a dependency between each other.
  • the base layer may be defined as a standard definition (SD), a frame rate of 15 Hz, and a 1 Mbps bit rate
  • the first enhancement layer may be a high definition (HD), a frame rate of 30 Hz, and a 3.9 Mbps bit rate
  • the second enhancement layer may be defined as an ultra high definition (4K-UHE), a frame rate of 60 Hz, and a bit rate of 27.2 Mbps.
  • 4K-UHE ultra high definition
  • the format, frame rate, bit rate, etc. are exemplary and may be determined differently as necessary.
  • the number of hierarchies used is not limited to this embodiment and may be determined differently according to a situation.
  • the frame rate of the first enhancement layer HD may be reduced and transmitted at 15 Hz or less.
  • the scalable video coding method can provide temporal, spatial and image quality scalability by the method described above in the embodiment of FIG. 3.
  • Scalable video coding has the same meaning as scalable video coding from a coding point of view and scalable video decoding from a decoding point of view.
  • a prediction block ie, a prediction signal, of a block that is to be encoded and decoded in a higher layer (hereinafter, referred to as a current block or a target block) of a scalable video, that is, an encoding and decoding method of an image using a multi-layer structure, is generated. See how to do it.
  • the lower layer referred to by the upper layer is expressed as a reference layer below.
  • a prediction signal of a target block may be generated through normal intra prediction.
  • a prediction mode may be largely classified into a directional mode and a non-directional mode according to the direction in which reference pixels used for pixel value prediction are located and a prediction method.
  • this prediction mode may be specified using a predetermined angle and mode number.
  • FIG. 4 is a diagram illustrating an example of an intra prediction mode.
  • the number of intra prediction modes may be fixed to a predetermined number regardless of the size of the prediction block, and may be fixed to 35 as shown in FIG. 4.
  • the intra prediction mode may include 33 directional prediction modes and two non-directional modes.
  • the directional mode includes the intra prediction mode 34 in the clockwise direction starting with the intra prediction mode 2 in the lower left direction.
  • the number of prediction modes may vary depending on whether the color component is a luma signal or a chroma signal.
  • “Intra_FromLuma” of FIG. 4 may refer to a specific mode for predicting a color difference signal from a luminance signal.
  • Planar mode Intra_Planar
  • DC mode Intra_DC
  • DC mode a single fixed value, for example, the average value of surrounding reconstructed pixel values is used as a prediction value, and in Planer mode, vertical interpolation and horizontal use are performed using vertically adjacent pixel values of the current block and horizontally adjacent pixel values. Directional interpolation is performed, and their average value is used as the predicted value.
  • the directional mode Intra_Angular refers to modes indicating a corresponding direction at an angle between a reference pixel located in a predetermined direction and a current pixel, and may include a horizontal mode and a vertical mode.
  • a horizontal mode vertically adjacent pixel values of the current block may be used as prediction values of the current block
  • horizontally adjacent pixel values may be used as prediction values of the current block.
  • the size of the prediction block composed of the prediction value or the prediction signal may be a square such as 4x4, 8x8, 16x16, 32x32, 64x64, or a rectangle of 2x8, 4x8, 2x16, 4x16, 8x16, or the like.
  • the size of the prediction block may be at least one of a coding block (CB), a prediction block (PB), and a transform block (TB).
  • Intra-decoding / decoding may use sample values or encoding parameters included in neighboring reconstructed blocks.
  • 5 is a diagram illustrating an embodiment of neighboring blocks and neighboring samples used in an intra prediction mode.
  • the neighboring reconstructed block may be, for example, a block EA, EB, EC, ED, or EG with reference to FIG. 5 according to the encoding / decoding order, and 'above', 'above_left', 'above_right', '
  • the sample values corresponding to 'left' and 'bottom_left' may be reference samples used for intra prediction of the target block.
  • the encoding parameter may be at least one of an encoding mode (intra picture or inter picture), an intra picture prediction mode, an inter picture prediction mode, a block size, a quantization parameter (QP), and a coded block flag (CBF).
  • each block may be divided into smaller blocks, and even in this case, inside / decoding may be performed using sample values or encoding parameters corresponding to each divided block.
  • the prediction signal of the target block may be generated through inter prediction.
  • the inter prediction may use at least one of a previous picture or a subsequent picture of the current picture as a reference picture and perform prediction on the current block based on the reference picture.
  • An image used for prediction of the current block is called a reference picture or a reference frame.
  • the region in the reference picture may be represented using a reference picture index refIdx, a motion vector, etc. indicating the reference picture.
  • the inter prediction may select a reference picture corresponding to the current block in the reference picture and the reference picture, and generate a prediction block for the current block.
  • the encoder and the decoder may derive the motion information of the current block and then perform the inter prediction and / or motion compensation based on the derived motion information.
  • the encoder and the decoder may extract motion information of a coll block corresponding to the current block in a neighboring block and / or a coll picture that has already been restored. By using this, the encoding / decoding efficiency can be improved.
  • the reconstructed neighboring block is a block in the current picture that is already encoded and / or decoded and reconstructed, and may include a block adjacent to the current block and / or a block located at an outer corner of the current block.
  • the encoder and the decoder may determine a predetermined relative position based on a block existing at a position spatially corresponding to the current block in the call picture, and determine the predetermined relative position (the position corresponding to the current block spatially).
  • the call block may be derived based on the location of the inside and / or outside of the block existing in the.
  • the call picture may correspond to one picture among the reference pictures included in the reference picture list.
  • a prediction block may be generated such that a residual signal with a current block is minimized and a motion vector size is also minimized.
  • the motion information derivation scheme may vary depending on the prediction mode of the current block.
  • Prediction modes applied for inter prediction may include Advanced Motion Vector Predictor (AMVP), merge, and the like.
  • AMVP Advanced Motion Vector Predictor
  • the encoder and the decoder may generate a predicted motion vector candidate list using the motion vector of the reconstructed neighboring block and / or the motion vector of the call block. That is, the motion vector of the reconstructed neighboring block and / or the motion vector of the call block may be used as the prediction motion vector candidate.
  • the encoder may transmit a predicted motion vector index indicating an optimal predicted motion vector selected from the predicted motion vector candidates included in the list to the decoder.
  • the decoder may select the predicted motion vector of the current block among the predicted motion vector candidates included in the predicted motion vector candidate list by using the predicted motion vector index.
  • the encoder can obtain a motion vector difference (MVD) between the motion vector of the current block and the predictive motion vector, and can encode the same and transmit the same to the decoder.
  • the decoder may decode the received motion vector difference and derive the motion vector of the current block through the sum of the decoded motion vector difference and the predicted motion vector.
  • the encoder may also transmit a reference picture index or the like indicating the reference picture to the decoder.
  • the decoder may predict the motion vector of the current block using the motion information of the neighboring block, and may derive the motion vector for the current block using the residual received from the encoder.
  • the decoder may generate a prediction block for the current block based on the derived motion vector and the reference picture index information received from the encoder.
  • the encoder and the decoder may generate the merge candidate list using the motion information of the reconstructed neighboring block and / or the motion information of the call block. That is, the encoder and the decoder may use the motion information of the reconstructed neighboring block and / or the call block as a merge candidate for the current block.
  • the motion information of the reconstructed neighboring block and / or the motion information of the call block may be used to derive the motion information of the current block.
  • the encoder does not transmit syntax information such as residual to the decoder other than information indicating which block motion information to use as the motion information of the current block.
  • the encoder and the decoder may generate the prediction block of the current block by performing motion compensation on the current block based on the derived motion information.
  • the prediction block may mean a motion compensated block generated as a result of performing motion compensation on the current block.
  • the plurality of motion compensated blocks may constitute one motion compensated image.
  • the decoder may check and derive motion information necessary for inter prediction of the current block, for example, a skip flag, a merge flag, and the like, received from the encoder and information corresponding to the motion vector, the reference picture index, and the like.
  • the processing unit in which the prediction is performed and the processing unit in which the prediction method and the details are determined may be different.
  • a prediction mode may be determined in units of PUs, and prediction may be performed in units of TUs, or a prediction mode may be determined in units of PUs, and intra prediction may be performed in units of TUs.
  • a prediction signal of a target block of a higher layer may use a reconstructed image of a lower layer, that is, a reference layer, to which the target block may refer, in addition to the above-described intra prediction method and inter screen prediction method.
  • FIG. 6 is a conceptual diagram illustrating generation of a prediction signal using a reference layer according to an embodiment of the present invention.
  • the prediction signal of the target block 601 to be currently encoded or decoded in the upper layer 600 that is, the sample value of the prediction block is referred to as Pc [x, y], and the reconstruction of the reference layer 610 is performed.
  • Pc [x, y] the restored value of the captured image is called P2 [x, y]
  • Pc [x, y] may be generated based on P2 [x, y].
  • the reference layer 610 may be upsampled according to the resolution of a higher layer after reconstruction, and P2 [x, y] may be an upsampled sample value.
  • P2 [x, y] may be a reconstructed sample value of the reference block 615.
  • a method of obtaining a prediction signal from the reconstructed reference layer 610 is to apply an inter prediction method with reference to the reconstructed reference layer 610 as shown in FIG. 6. That is, the encoder performs motion prediction and motion compensation on the reference layer 610, and uses the resulting prediction signal as the prediction signal of the current encoding target block.
  • the decoder may perform motion compensation using a motion vector derived from motion prediction performed on the lower layer image decoded by the encoder.
  • the encoder of the image may encode and transmit the obtained motion information, and the decoder may perform inter prediction by referring to the reference layer 610 by decoding the received motion information.
  • the motion information may be a reference picture index refIdx and a motion vector MV indicating the reference picture.
  • a reference picture index refIdx indicating a reference picture among motion information to be encoded may not be transmitted.
  • the encoder predicts the motion vector of the current target block by using the motion information of neighboring blocks adjacent to the target block 601, and then encodes a difference value between the motion vector of the target block and the predicted motion vector and then moves the motion vector MV_2 [x. , y]).
  • the neighboring blocks used for the motion prediction of the target block 601 may be blocks encoded with the reconstructed image of the reference layer. That is, the encoder can derive the motion vector of the target block 601 by using the motion information of the neighboring block encoded as the reconstructed image of the reference layer among the neighboring blocks. In this case, the encoder may encode information about which block motion information is used and transmit the encoded information to the decoder.
  • prediction when the prediction signal of the current target block is obtained through inter-layer prediction, prediction may be performed using only a reference layer block at a position corresponding to the current target block.
  • an upsampling process is performed on a reference layer.
  • the phases of pixels between layers may be different, and thus, when only the reference layer block corresponding to the current target block is used, the prediction error component due to the phase difference may not be reduced. have.
  • the present embodiment does not use only the corresponding block of the reference layer, but performs motion prediction on the reference layer, thereby obtaining a prediction value closer to the target block to be encoded and decoded.
  • the encoder may use the reconstructed sample value of the reference block 615 as the prediction signal of the target block 601 in addition to a method of obtaining a prediction signal through the motion prediction from the reconstructed image of the reference layer. If this is expressed as an expression, it is as follows.
  • the encoder may generate a prediction signal through motion prediction referring to the reconstructed reference layer 610, or may use the reconstructed sample value of the reference block 615 corresponding to the target block 601 as a prediction signal.
  • the coder may code information about which method is used and transmit the coded information to the decoder.
  • the prediction signal of the current encoding target block may be obtained by using not only an image in the layer to which the target block belongs but also a reconstructed image of the reference layer.
  • FIG. 7 is a conceptual diagram illustrating generation of a prediction signal using a reference layer according to another embodiment of the present invention.
  • a target block 701 to be encoded and decoded in the current picture 700 may refer to a forward reference picture 710 or a backward reference picture 720 belonging to the same layer, and belong to another layer. Reference may be made to the lower layer reference picture 730.
  • the forward reference picture 710, the backward reference picture 720, and the lower layer reference picture 730 may be reconstructed pictures.
  • Pc [x, y] When the prediction signal of the target block 701 is referred to as Pc [x, y], Pc [x, y] may be generated in various ways according to the picture to which the target block 701 may refer.
  • the prediction signal Pc [x, y] may be generated using an average value or weighted sum of the prediction values generated from the pictures to which the target block 701 may refer, that is, the weighted average.
  • Equation 2 (a) and (b) are parameters for weighted summation, and (a) and (b) may have the same value or may have different values. (a) may be larger than (b), and conversely, (b) may be larger than (a). (a) and (b) may be set to enable integer arithmetic, or may be set to a value independent of integer arithmetic. (a) and (b) may be integers or rational numbers.
  • the encoder may add a predetermined offset value such that the prediction signal Pc [x, y] may be an integer.
  • the encoder refers to the forward reference picture 710 and the motion vector MV_l0 [x, y] obtained through motion prediction and the motion vector MV_l2 [x, obtained through motion prediction with respect to the lower layer reference picture 730. y]) can be transmitted to the decoder.
  • the encoder transmits motion information about the image of the lower layer. Can be omitted.
  • (a) and (b) are parameters for weighted summation, and (a) and (b) may have the same value or may have different values from each other.
  • (a) may be larger than (b), and conversely, (b) may be larger than (a).
  • (a) and (b) may be set to enable integer arithmetic, or may be set to a value independent of integer arithmetic.
  • (a) and (b) may be integers or rational numbers.
  • the encoder may add a predetermined offset value such that the prediction signal Pc [x, y] may be an integer.
  • the encoder refers to the backward reference picture 720 and the motion vector MV_l1 [x, y] obtained through motion prediction and the motion vector MV_l2 [x, obtained through motion prediction with respect to the lower layer reference picture 730. y]) can be transmitted to the decoder.
  • the encoder is applied to the image of the lower layer.
  • the transmission of the motion information may be omitted.
  • Pc [x, y] is obtained from the prediction signal P0 [x, y] obtained from the forward reference picture 710 and the prediction signal P1 [x, y] obtained from the backward reference picture 720 and the lower layer reference picture 730. It can be derived from the weighted sum of the prediction signals P2 [x, y]. An example of the weighted sum is shown in Equation 4.
  • (a), (b) and (c) are parameters for weighted polymerization, and (a), (b) and (c) may have the same value or may have different values from each other.
  • (a), (b) and (c) may be set to enable integer arithmetic, or may be set to a value independent of integer arithmetic.
  • (a), (b) and (c) may be integers or rational numbers.
  • the encoder may add a predetermined offset value such that the prediction signal Pc [x, y] may be an integer.
  • the encoder refers to the forward reference picture 710 and the backward reference picture 720 to the motion vectors MV_l0 [x, y] and MV_11 [x, y] obtained through motion prediction and the lower layer reference picture 730.
  • the motion vector MV_l2 [x, y] obtained through motion prediction may be transmitted to the decoder.
  • the encoder may omit motion information transmission for an image of a lower layer.
  • Pc [x, y] is the prediction signal P0 [x, y] obtained from the reference samples included in the reconstructed neighboring block adjacent to the current encoding target block and the prediction signal P2 [x, y] obtained from the lower layer reference picture 730. It can be generated by the weighted sum of. An example of a weighted sum is shown in Equation 5.
  • (a) and (b) are parameters for weighted summation, and (a) and (b) may have the same value or may have different values from each other.
  • (a) may be larger than (b), and conversely, (b) may be larger than (a).
  • (a) and (b) may be set to enable integer arithmetic, or may be set to a value independent of integer arithmetic.
  • (a) and (b) may be integers or rational numbers.
  • the encoder may add a predetermined offset value such that the prediction signal Pc [x, y] may be an integer.
  • the encoder may encode and transmit motion information MV_l2 [x, y] obtained through motion prediction with respect to the intra prediction mode and the lower layer reference picture 730 obtained from the neighbor reconstruction reference sample.
  • Coefficients for weights (a), (b), and (c) used in Equations 2 to 5 may be signaled using encoding parameters.
  • the encoding parameter may include information that may be inferred in the encoding or decoding process as well as information encoded by the encoder and transmitted to the decoder, such as a syntax element, and refers to information necessary for encoding or decoding an image. do.
  • Coefficients for (a), (b), (c), etc. for weighted summation are VPS (Video Parameter Set), SPS (Sequence Parameter Set), PPS (Picture Parameter Set), APS (Adaptation Parameter Set), Slice header, etc. It can be included, encoded, and transmitted to the decoder.
  • the coefficients for (a), (b), (c), etc. for weighted sum may be set according to a convention that allows the encoder and the decoder to use the same coefficient value.
  • a reference picture index refIdx indicating a reference picture among motion information may be omitted.
  • the encoder predicts the motion vector of the current target block by using the motion information of the neighboring blocks adjacent to the target block, and then encodes a difference value between the motion vector of the target block and the predicted motion vector to obtain a motion vector (MV_2 [x, y]). Can be sent as).
  • the neighboring blocks used for the motion prediction of the target block may be blocks encoded with the reconstructed image of the lower layer. That is, the encoder may derive the motion vector of the target block by using the motion information of the neighboring block encoded as the reconstructed image of the lower layer among the neighboring blocks. In this case, the encoder may encode information about which block motion information is used and transmit the encoded information to the decoder.
  • the encoder may obtain a prediction signal of the current encoding target block by using at least one of the above-described methods of encoding the target block. That is, the encoder is an intra prediction method using a reference sample of the same picture as the target block from a rate-distortion point of view, an inter prediction method using a reference picture of the same layer, a method of performing inter prediction using a lower layer, and a lower one. After performing inter prediction on a plurality of reference pictures included in a layer and a higher layer, an optimal prediction method may be selected from among methods using a weighted sum of the prediction values, and information about the selected method may be encoded and transmitted. .
  • Information about the selection method may be encoded as shown in Table 1 for the target block in which the intra prediction is not selected as the prediction method.
  • Table 1 shows a syntax (inter_pred_idc) indicating a prediction direction between pictures according to slice types of a higher layer in order to signal a prediction method.
  • the number assigned for each prediction method can vary according to the probability of occurrence, can be assigned a small number for the most frequently occurring prediction method, and can be assigned a large number for the less frequently occurring prediction method. Can be.
  • the prediction signal generation method of the current decoding object block may be differently selected according to the information on the prediction method transmitted from the encoder.
  • the prediction signal may be generated by performing the intra prediction from the neighbor reconstructed sample values of the current target block.
  • a prediction signal may be generated by performing a decoding process in a conventional intra prediction method, that is, the current block may be reconstructed by adding a residual transmitted from an encoder to the prediction signal.
  • the prediction signal may be generated by performing motion compensation with reference to the previous or subsequent images based on the image including the current decoding target block. have.
  • the decoder may generate a prediction signal by performing a decoding process according to a conventional inter-screen prediction method.
  • the decoder may reconstruct the current block by adding a residual transmitted from the encoder to the prediction signal.
  • the prediction signal may be generated by performing motion compensation on the reconstructed image of the layer referred to by the current decoding object block.
  • the decoder may generate a prediction signal by performing motion compensation on the reconstructed image of the reference layer.
  • the decoder may configure a motion vector prediction candidate from neighboring blocks of the current decoding target block, similarly to the encoder when decoding the motion information.
  • the decoder may configure a motion vector prediction candidate from neighboring blocks of the current decoding target block, similarly to the encoder when decoding the motion information.
  • only the neighboring block decoded into the reconstructed picture of the reference layer may be used as the prediction candidate. If none of the neighboring blocks is decoded as a reconstructed picture of the reference layer, (0,0) may be used as a motion vector prediction candidate.
  • the decoder may parse the optimal prediction candidate information transmitted from the encoder and then add the selected motion vector prediction value and the decoded motion vector difference signal to obtain a motion vector value MV_l2 [x, y] used for motion compensation.
  • the decoder infers a motion vector of the reconstructed image of the reference layer as (0,0) and determines the position corresponding to the position of the current decoding object block.
  • a prediction signal may be generated from the reference layer reconstruction block.
  • the decoder may generate a prediction signal from a reference layer reconstruction block at a position corresponding to the position of the current decoding target block according to a predetermined protocol.
  • the decoder may reconstruct the current block by adding the residual transmitted from the encoder to the prediction signal generated as described above.
  • the decoder when the method for generating the prediction signal of the decoding object block uses the image of the same layer and the image of the reference layer as shown in FIG. 7, the decoder refers to the reference image and the current decoding object block in the same layer.
  • the prediction signal may be generated by performing motion compensation on the reconstructed image of the layer.
  • the decoder decodes the motion information for the reference picture of the same layer or the intra prediction mode and the motion information for the reference layer transmitted from the encoder, and then includes the reference sample included in the motion compensation or neighbor reconstructed block for the reference picture of the same layer.
  • the prediction signal may be generated in the same manner as the encoder by performing motion compensation on the intra prediction and the reference image of the reference layer.
  • the decoder decodes the motion information or the intra prediction mode for the reference picture of the same layer transmitted from the encoder, and then performs intra prediction and the current decoding target block from the reference samples included in the motion compensation or neighbor reconstructed block for the reference picture.
  • the prediction signal may be generated from the reconstructed block of the reference layer corresponding to the position of to generate the prediction signal in the same manner as the encoder.
  • the decoder uses the forward reference picture and the reconstructed picture of the reference layer to predict the prediction signal. Can be generated.
  • the motion information to be decoded may include a forward reference picture and motion information of a reference layer.
  • the prediction signal of the current decoding target block is Pc [x, y] for the prediction signal P0 [x, y] obtained through motion compensation from the forward reference image and the prediction signal P2 [x obtained for motion compensation from the reference layer image. , y] to obtain the weighted sum.
  • the decoder infers a motion vector of the reconstructed image of the reference layer as (0,0) and determines the position corresponding to the position of the current decoding target block.
  • a prediction signal may be generated from the reference layer block.
  • the decoder may generate a prediction signal from a reference layer block at a position corresponding to the position of the current decoding target block according to a predetermined protocol.
  • the decoder may reconstruct the current block by adding the residual transmitted from the encoder to the prediction signal generated as described above.
  • Table 2 is an embodiment of a syntax structure for a coding unit (CU) of a higher layer that can be applied to an image sub-decoding device that encodes / decodes a multi-layer structure according to the present invention.
  • CU coding unit
  • adaptive_base_mode_flag may be located in a video parameter set (VPS), a sequence parameter set (SPS), a picture parameter set (PPS), an adaptation parameter set (APS), and a slice header.
  • the base_mode_flag may have a value of "1" or "0".
  • the base_mode_flag value may be determined by the default_base_mode_flag value.
  • default_base_mode_flag can be located in VPS (Video Parameter Set), SPS (Sequence Parameter Set), PPS (Picture Parameter Set), APS (Adaptation Parameter Set), slice header. If the value is “1”, base_mode_flag is always “1”. Has the value of. When default_base_mode_flag has a value of "0”, base_mode_flag always has a value of "0".
  • the coding unit When base_mode_flag has a value of “1”, the coding unit may be encoded using a reference layer as illustrated in FIGS. 6 and 7. If the base_mode_flag has a value of "0", the coding unit may be encoded by a general intra picture prediction or inter picture prediction method using the current layer.
  • Table 3 is an embodiment of a syntax structure for a prediction unit (PU) of a higher layer that can be applied to an image sub-decoding device that encodes / decodes a multi-layer structure according to the present invention.
  • PU prediction unit
  • mv_l2_zero_flag may exist in a video parameter set (VPS), a sequence parameter set (SPS), a picture parameter set (PPS), an adaptation parameter set (APS), a slice header, and an encoding unit, and has a value of “1”.
  • the decoder may infer the motion information of the reconstructed picture of the reference layer as (0,0). In this case, no motion information may be transmitted for the reconstructed picture of the reference layer.
  • FIG. 8 is a control flowchart illustrating a method of generating a prediction signal of a target block according to the present invention. For convenience of description, referring to FIG. 8, an example of generating a prediction signal and reconstructing a target block by a decoder will be described.
  • the decoder receives prediction method information based on Tables 2 to 3 as to which of the prediction methods the target block is predicted using (S801).
  • the decoder may generate a prediction signal from the reconstructed sample values in the vicinity of the target block (S803).
  • the decoder may reconstruct the target block by adding the residual transmitted from the encoder to the generated prediction signal (S804).
  • the decoder may generate a prediction signal by performing motion compensation with reference to previous or subsequent images based on the image including the target block. (S806).
  • the decoder may reconstruct the target block by adding the residual transmitted from the encoder to the generated prediction signal (S804).
  • the decoder may generate the prediction signal by performing motion compensation toward the lower layer. (S808).
  • the motion vector of the motion information received from the encoder for motion estimation and compensation may be any one of motion vectors derived from the neighboring block of the current target block, and the neighboring block includes a block decoded into a reconstructed image of a lower layer. can do.
  • the decoder moves motion from the reference picture in the same layer and the reconstructed picture of the layer referenced by the current decoding target block.
  • the compensation may be performed to generate a prediction signal (S810).
  • the prediction signal is added to the residual received from the encoder, which becomes a reconstructed value of the target block (S804).

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

Scalable video encoding uses interlayer texture prediction, interlayer motion information prediction, and interlayer residual signal prediction in order to remove redundancy from interlayer images. In order to increase the accuracy in interlayer prediction, the present invention may find a reference layer block on a location corresponding to the current target block and a block that is most similar to a sample of the current target block from images of a reference layer and use them as a prediction signal. Also, in interlayer prediction, a prediction signal obtained from an intra-layer image to which the current target block belongs and a prediction signal obtained from a reference layer image may be weighted and then used as a prediction signal.

Description

영상의 복호화 방법 및 이를 이용하는 장치Image decoding method and apparatus using same
본 발명은 영상의 부호화 및 복호화 처리에 관한 것으로서, 보다 상세하게는 비트스트림 내 복수의 레이어를 지원하는 영상의 부호화 및 복호화 방법 및 장치에 관한 것이다.The present invention relates to encoding and decoding processing of an image, and more particularly, to a method and apparatus for encoding and decoding an image that supports a plurality of layers in a bitstream.
최근 HD(High Definition) 해상도를 가지는 방송 서비스가 국내뿐만 아니라 세계적으로 확대되면서, 많은 사용자들이 고해상도, 고화질의 영상에 익숙해지고 있으며 이에 따라 많은 기관들이 차세대 영상기기에 대한 개발에 박차를 가하고 있다. 또한 HDTV와 더불어 HDTV의 4배 이상의 해상도를 갖는 UHD(Ultra High Definition)에 대한 관심이 증대되면서 보다 높은 해상도, 고화질의 영상에 대한 압축기술이 요구되고 있다.Recently, as broadcasting services having high definition (HD) resolution have been expanded not only in Korea but also in the world, many users are accustomed to high resolution and high quality images, and many organizations are accelerating the development of next generation video equipment. In addition, as interest in Ultra High Definition (UHD), which has four times the resolution of HDTV, is increasing along with HDTV, a compression technology for higher resolution and higher quality images is required.
영상 압축을 위해, 시간적으로 이전 및/또는 이후의 픽쳐로부터 현재 픽쳐에 포함된 화소값을 예측하는 인터(inter) 예측 기술, 현재 픽쳐 내의 화소 정보를 이용하여 현재 픽쳐에 포함된 화소값을 예측하는 인트라(intra) 예측 기술, 출현 빈도가 높은 심볼(symbol)에 짧은 부호를 할당하고 출현 빈도가 낮은 심볼에 긴 부호를 할당하는 엔트로피 부호화 기술 등이 사용될 수 있다.For image compression, an inter prediction technique for predicting pixel values included in a current picture from a previous and / or subsequent picture in time, and predicting pixel values included in a current picture using pixel information in the current picture. An intra prediction technique, an entropy encoding technique of allocating a short code to a symbol with a high frequency of appearance and a long code to a symbol with a low frequency of appearance may be used.
영상 압축 기술에는 유동적인 네트워크 환경을 고려하지 않고 하드웨어의 제한적인 동작 환경하에서 일정한 네트워크 대역폭을 제공하는 기술이 있다. 그러나 수시로 대역폭이 변화하는 네트워크 환경에 적용되는 영상 데이터를 압축하기 위해서는 새로운 압축 기술이 요구되고, 이를 위해 스케일러블(scalable) 비디오 부호화/복호화 방법이 사용될 수 있다. Video compression technology is a technology that provides a constant network bandwidth under a limited operating environment of hardware without considering a fluid network environment. However, a new compression technique is required to compress image data applied to a network environment in which bandwidth changes frequently, and a scalable video encoding / decoding method may be used for this purpose.
본 발명은 현재 대상 블록의 예측 신호를 구함에 있어, 현재 대상 블록과 대응되는 위치의 참조 계층 블록뿐만 아니라, 참조 계층의 영상을 대상으로 현재 대상 블록의 샘플과 가장 유사한 블록을 찾아 예측 신호로 사용할 수 있도록 하였다. In the present invention, in order to obtain the prediction signal of the current target block, not only the reference layer block at the position corresponding to the current target block but also the block most similar to the sample of the current target block can be used as the prediction signal for the image of the reference layer. To make it possible.
또한 계층 간 예측에 있어, 현재 대상 블록이 속한 계층 내 영상으로부터 구한 예측 신호와 참조 계층 영상으로부터 구한 예측 신호를 가중 합 한 값 역시 예측 신호로 사용된다.In inter-layer prediction, a weighted sum of the prediction signal obtained from the intra-layer image to which the current target block belongs and the prediction signal obtained from the reference layer image is also used as the prediction signal.
이로써, 예측 신호의 정확도를 높임으로써, 잔차 신호를 최소화하여 부호화 및 복호화 효율을 향상시키는데 그 목적이 있다. Accordingly, the purpose of the present invention is to improve the accuracy of the prediction signal and to improve the encoding and decoding efficiency by minimizing the residual signal.
본 발명의 일 실시예인 복수의 계층을 지원하는 영상의 복호화 방법은 복호화 대상 블록의 예측 방법에 대한 예측 방법 정보를 수신하는 단계와; 수신된 정보에 기초하여 상기 대상 블록의 예측 신호를 생성하는 단계를 포함하고, 상기 예측 방법 정보는 복원된 하위 계층을 이용하여 상기 대상 블록을 예측할 수 있는 것을 포함할 수 있다.According to another aspect of the present invention, there is provided a method of decoding an image supporting a plurality of layers, the method comprising: receiving prediction method information on a prediction method of a decoding target block; And generating a prediction signal of the target block based on the received information, wherein the prediction method information may include predicting the target block using a reconstructed lower layer.
상기 예측 신호를 생성하는 단계는 상기 하위 계층 방향으로 움직임 보상을 수행할 수 있다. The generating of the prediction signal may perform motion compensation in the lower layer direction.
상기 예측 방법 정보는 부호화기에서 복호화된 하위 계층 영상을 대상으로 수행된 움직임 예측으로 도출된 움직임 벡터를 포함할 수 있다.The prediction method information may include a motion vector derived from motion prediction performed on a lower layer image decoded by an encoder.
상기 예측 신호를 생성하는 단계는 상기 하위 계층에서 상기 대상 블록에 대응되는 참조 블록의 복원값을 상기 예측 신호로 생성할 수 있다. The generating of the prediction signal may generate a reconstruction value of a reference block corresponding to the target block in the lower layer as the prediction signal.
상기 예측 신호를 생성하는 단계는, 상기 대상 블록과 동일 계층내의 참조 픽처 및 현재 복호화 대상 블록이 참조하고 있는 계층의 복원된 영상으로부터 및 움직임 보상을 수행할 수 있다.The generating of the prediction signal may perform motion compensation and reconstruction of a reference picture in the same layer as the target block and a reconstructed image of the layer referenced by the current decoding target block.
상기 예측 신호를 생성하는 단계는, 순방향 참조 픽처로부터 구한 예측 신호와, 하위 계층 참조 픽처로부터 구한 예측 신호의 가중합을 구할 수 있다. The generating of the prediction signal may obtain a weighted sum of the prediction signal obtained from the forward reference picture and the prediction signal obtained from the lower layer reference picture.
상기 예측 신호를 생성하는 단계는, 역방향 참조 픽처로부터 구한 예측 신호와, 하위 계층 참조 픽처로부터 구한 예측 신호의 가중합을 구할 수 있다. The generating of the prediction signal may obtain a weighted sum of the prediction signal obtained from the backward reference picture and the prediction signal obtained from the lower layer reference picture.
상기 예측 신호를 생성하는 단계는, 순방향 참조 픽처로부터 구한 예측 신호와, 역방향 참조 픽처로부터 구한 예측 신호와, 하위 계층 참조 픽처로부터 구한 예측 신호의 가중합을 구할 수 있다.The generating of the prediction signal may obtain a weighted sum of the prediction signal obtained from the forward reference picture, the prediction signal obtained from the backward reference picture, and the prediction signal obtained from the lower layer reference picture.
상기 예측 신호를 생성하는 단계는, 상기 대상 블록에 인접한 복원된 주변 블록에 포함된 참조 샘플로부터 구한 예측 신호와 하위 계층 참조 픽처로부터 구한 예측 신호의 가중합을 구할 수 있다.The generating of the prediction signal may obtain a weighted sum of the prediction signal obtained from the reference sample included in the reconstructed neighboring block adjacent to the target block and the prediction signal obtained from the lower layer reference picture.
상기 예측 방법 정보는 상기 대상 블록의 예측 방법에 대하여 화면 내 예측 방법, 화면 간 예측 방법, 하위 계층 방향 예측 방법 및 동일 계층 및 하위 계층의 복원된 참조 픽처를 이용하는 예측 방법 중 어느 하나를 지시하는 정보를 더 포함할 수 있다. The prediction method information is information indicating one of an intra prediction method, an inter prediction method, a lower layer direction prediction method, and a prediction method using reconstructed reference pictures of the same layer and a lower layer with respect to the prediction method of the target block. It may further include.
본 발명의 다른 실시예에 따른 복수의 계층을 지원하는 영상 복호화 장치는 복호화 대상이 되는 대상 블록의 예측 방법에 대한 예측 방법 정보를 수신하는 수신부와; 수신된 정보에 기초하여 상기 대상 블록의 예측 신호를 생성하는 예측부를 포함하고, 상기 예측 방법 정보는 복원된 하위 계층을 이용하여 상기 대상 블록을 예측할 수 있는 것을 포함할 수 있다.According to another embodiment of the present invention, an image decoding apparatus supporting a plurality of layers includes: a receiving unit receiving prediction method information on a prediction method of a target block to be decoded; The prediction unit may generate a prediction signal of the target block based on the received information, and the prediction method information may include predicting the target block using a reconstructed lower layer.
본 발명의 일 실시예에 따르면, 현재 대상 블록의 예측 신호를 구함에 있어, 현재 대상 블록과 대응되는 위치의 참조 계층 블록뿐만 아니라, 참조 계층의 영상을 대상으로 현재 대상 블록의 샘플과 가장 유사한 블록을 찾아 예측 신호로 사용할 수 있는 영상 복호화 방법 및 이를 이용하는 장치가 제공된다.According to an embodiment of the present invention, in obtaining the prediction signal of the current target block, not only the reference layer block at the position corresponding to the current target block, but also the block most similar to the sample of the current target block for the image of the reference layer. An image decoding method and apparatus using the same are provided that can find and use a prediction signal.
또한 계층 간 예측에 있어, 현재 대상 블록이 속한 계층 내 영상으로부터 구한 예측 신호와 참조 계층 영상으로부터 구한 예측 신호를 가중 합 한 값 역시 예측 신호로 사용할 수 있는 영상 복호화 방법 및 이를 이용하는 장치가 제공된다. In inter-layer prediction, there is provided an image decoding method and an apparatus using the same, in which a weighted sum of a prediction signal obtained from an intra-layer image to which a current target block belongs and a prediction signal obtained from a reference layer image can also be used as a prediction signal.
이로써, 예측 신호의 정확도를 높임으로써, 잔차 신호를 최소화하여 부호화 및 복호화 효율이 향상된다.As a result, by increasing the accuracy of the prediction signal, the residual signal is minimized to improve the encoding and decoding efficiency.
도 1은 영상 부호화 장치의 일 실시예에 따른 구성을 나타내는 블록도이다.1 is a block diagram illustrating a configuration of an image encoding apparatus according to an embodiment.
도 2는 영상 복호화 장치의 일 실시예에 따른 구성을 나타내는 블록도이다.2 is a block diagram illustrating a configuration of an image decoding apparatus according to an embodiment.
도 3은 본 발명이 적용될 수 있는, 복수 계층을 이용한 스케일러블 비디오 코딩 구조의 일 실시예를 개략적으로 나타내는 개념도이다.3 is a conceptual diagram schematically illustrating an embodiment of a scalable video coding structure using multiple layers to which the present invention can be applied.
도 4는 화면 내 예측 모드의 일 실시예를 나타낸 도면이다. 4 is a diagram illustrating an embodiment of an intra prediction mode.
도 5는 화면 내 예측 모드에 사용되는 주변 블록 및 주변 샘플들의 일 실시예를 나타낸 도면이다.5 is a diagram illustrating an embodiment of neighboring blocks and neighboring samples used in an intra prediction mode.
도 6은 본 발명의 일 실시예예 따라 참조 계층을 이용하여 예측 신호를 생성하는 것을 설명하기 위한 개념도이다.6 is a conceptual diagram illustrating generation of a prediction signal using a reference layer according to an embodiment of the present invention.
도 7은 본 발명의 다른 실시예예 따라 참조 계층을 이용하여 예측 신호를 생성하는 것을 설명하기 위한 개념도이다.7 is a conceptual diagram illustrating generation of a prediction signal using a reference layer according to another embodiment of the present invention.
도 8은 본 발명에 따라 대상 블록의 예측 신호를 생성하는 방법을 설명하기 위한 제어 흐름도이다.8 is a control flowchart illustrating a method of generating a prediction signal of a target block according to the present invention.
이하, 도면을 참조하여 본 발명의 실시 형태에 대하여 구체적으로 설명한다. 본 명세서의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 명세서의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.EMBODIMENT OF THE INVENTION Hereinafter, embodiment of this invention is described concretely with reference to drawings. In describing the embodiments of the present specification, when it is determined that a detailed description of a related well-known configuration or function may obscure the gist of the present specification, the detailed description thereof will be omitted.
어떤 구성 요소가 다른 구성 요소에 “연결되어” 있다거나 “접속되어” 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있으나, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 아울러, 본 발명에서 특정 구성을 “포함”한다고 기술하는 내용은 해당 구성 이외의 구성을 배제하는 것이 아니며, 추가적인 구성이 본 발명의 실시 또는 본 발명의 기술적 사상의 범위에 포함될 수 있음을 의미한다. When a component is said to be “connected” or “connected” to another component, it may be directly connected to or connected to that other component, but it may be understood that another component may exist in between. Should be. In addition, the description "include" a specific configuration in the present invention does not exclude a configuration other than the configuration, it means that additional configuration may be included in the scope of the technical spirit of the present invention or the present invention.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.Terms such as first and second may be used to describe various components, but the components should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the present invention, the first component may be referred to as the second component, and similarly, the second component may also be referred to as the first component.
또한 본 발명의 실시예에 나타나는 구성부들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성단위로 이루어짐을 의미하지 않는다. 즉, 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 포함한 것으로 각 구성부 중 적어도 두 개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수 개의 구성부로 나뉘어져 기능을 수행할 수 있고 이러한 각 구성부의 통합된 실시예 및 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리범위에 포함된다.In addition, the components shown in the embodiments of the present invention are shown independently to represent different characteristic functions, and do not mean that each component is made of separate hardware or one software component unit. In other words, each component is included in each component for convenience of description, and at least two of the components may be combined into one component, or one component may be divided into a plurality of components to perform a function. Integrated and separate embodiments of the components are also included within the scope of the present invention without departing from the spirit of the invention.
또한, 일부의 구성 요소는 본 발명에서 본질적인 기능을 수행하는 필수적인 구성 요소는 아니고 단지 성능을 향상시키기 위한 선택적 구성 요소일 수 있다. 본 발명은 단지 성능 향상을 위해 사용되는 구성 요소를 제외한 본 발명의 본질을 구현하는데 필수적인 구성부만을 포함하여 구현될 수 있고, 단지 성능 향상을 위해 사용되는 선택적 구성 요소를 제외한 필수 구성 요소만을 포함한 구조도 본 발명의 권리범위에 포함된다.In addition, some of the components may not be essential components for performing essential functions in the present invention, but may be optional components for improving performance. The present invention can be implemented including only the components essential for implementing the essentials of the present invention except for the components used for improving performance, and the structure including only the essential components except for the optional components used for improving performance. Also included in the scope of the present invention.
도 1은 영상 부호화 장치의 일 실시예에 따른 구성을 나타내는 블록도이다. 스케일러블(scalable) 비디오 부호화/복호화 방법 또는 장치는 스케일러빌리티(scalability)를 제공하지 않는 일반적인 영상 부호화/복호화 방법 또는 장치의 확장(extension)에 의해 구현될 수 있으며, 도 1의 블록도는 스케일러블 비디오 부호화 장치의 기초가 될 수 있는 영상 부호화 장치의 일 실시예를 나타낸다.1 is a block diagram illustrating a configuration of an image encoding apparatus according to an embodiment. A scalable video encoding / decoding method or apparatus may be implemented by an extension of a general video encoding / decoding method or apparatus that does not provide scalability, and the block diagram of FIG. 1 is scalable. An embodiment of an image encoding apparatus that may be the basis of a video encoding apparatus is illustrated.
도 1을 참조하면, 상기 영상 부호화 장치(100)는 움직임 예측부(111), 움직임 보상부(112), 인트라 예측부(120), 스위치(115), 감산기(125), 변환부(130), 양자화부(140), 엔트로피 부호화부(150), 역양자화부(160), 역변환부(170), 가산기(175), 필터부(180) 및 참조영상 버퍼(190)를 포함한다.Referring to FIG. 1, the image encoding apparatus 100 may include a motion predictor 111, a motion compensator 112, an intra predictor 120, a switch 115, a subtractor 125, and a converter 130. And a quantization unit 140, an entropy encoding unit 150, an inverse quantization unit 160, an inverse transform unit 170, an adder 175, a filter unit 180, and a reference image buffer 190.
영상 부호화 장치(100)는 입력 영상에 대해 인트라(intra) 모드 또는 인터(inter) 모드로 부호화를 수행하고 비트스트림(bit stream)을 출력할 수 있다. 인트라 예측은 화면 내 예측, 인터 예측은 화면 간 예측을 의미한다. 인트라 모드인 경우 스위치(115)가 인트라로 전환되고, 인터 모드인 경우 스위치(115)가 인터로 전환된다. 영상 부호화 장치(100)는 입력 영상의 입력 블록에 대한 예측 블록을 생성한 후, 입력 블록과 예측 블록의 차분을 부호화할 수 있다.The image encoding apparatus 100 may perform encoding in an intra mode or an inter mode on an input image and output a bit stream. Intra prediction means intra prediction and inter prediction means inter prediction. In the intra mode, the switch 115 is switched to intra, and in the inter mode, the switch 115 is switched to inter. The image encoding apparatus 100 may generate a prediction block for an input block of an input image and then encode a difference between the input block and the prediction block.
인트라 모드인 경우, 인트라 예측부(120)는 현재 블록 주변의 이미 부호화된 블록의 화소값을 이용하여 공간적 예측을 수행하여 예측 블록을 생성할 수 있다.In the intra mode, the intra predictor 120 may generate a prediction block by performing spatial prediction using pixel values of blocks that are already encoded around the current block.
인터 모드인 경우, 움직임 예측부(111)는, 움직임 예측 과정에서 참조 영상 버퍼(190)에 저장되어 있는 참조 영상에서 입력 블록과 가장 매치가 잘 되는 영역을 찾아 움직임 벡터를 구할 수 있다. 움직임 보상부(112)는 움직임 벡터와 참조 영상 버퍼(190)에 저장되어 있는 참조 영상을 이용하여 움직임 보상을 수행함으로써 예측 블록을 생성할 수 있다. In the inter mode, the motion predictor 111 may obtain a motion vector by searching for a region that best matches an input block in the reference image stored in the reference image buffer 190 during the motion prediction process. The motion compensator 112 may generate a prediction block by performing motion compensation using the motion vector and the reference image stored in the reference image buffer 190.
감산기(125)는 입력 블록과 생성된 예측 블록의 차분에 의해 잔여 블록(residual block)을 생성할 수 있다. 변환부(130)는 잔여 블록에 대해 변환(transform)을 수행하여 변환 계수(transform coefficient)를 출력할 수 있다. 그리고 양자화부(140)는 입력된 변환 계수를 양자화 파라미터에 따라 양자화하여 양자화된 계수(quantized coefficient)를 출력할 수 있다. The subtractor 125 may generate a residual block by the difference between the input block and the generated prediction block. The transform unit 130 may output a transform coefficient by performing transform on the residual block. The quantization unit 140 may output the quantized coefficient by quantizing the input transform coefficient according to the quantization parameter.
엔트로피 부호화부(150)는, 양자화부(140)에서 산출된 값들 또는 부호화 과정에서 산출된 부호화 파라미터 값 등을 기초로, 심볼(symbol)을 확률 분포에 따라 엔트로피 부호화하여 비트스트림(bit stream)을 출력할 수 있다. 엔트로피 부호화 방법은 다양한 값을 갖는 심볼을 입력 받아, 통계적 중복성을 제거하면서, 복호 가능한 2진수의 열로 표현하는 방법이다. The entropy encoding unit 150 entropy encodes a symbol according to a probability distribution based on values calculated by the quantization unit 140 or encoding parameter values calculated in the encoding process, thereby generating a bit stream. You can print The entropy encoding method is a method of receiving a symbol having various values and expressing it in a decodable column while removing statistical redundancy.
여기서, 심볼이란 부호화/복호화 대상 구문 요소(syntax element) 및 부호화 파라미터(coding parameter), 잔여 신호(residual signal)의 값 등을 의미한다. 부호화 파라미터는 부호화 및 복호화에 필요한 매개변수로서, 구문 요소와 같이 부호화기에서 부호화되어 복호화기로 전달되는 정보뿐만 아니라, 부호화 혹은 복호화 과정에서 유추될 수 있는 정보를 포함할 수 있으며 영상을 부호화하거나 복호화할 때 필요한 정보를 의미한다. 부호화 파라미터는 예를 들어 인트라/인터 예측모드, 이동/움직임 벡터, 참조 영상 색인, 부호화 블록 패턴, 잔여 신호 유무, 변환 계수, 양자화된 변환 계수, 양자화 파라미터, 블록 크기, 블록 분할 정보 등의 값 또는 통계를 포함할 수 있다. 또한 잔여 신호는 원신호와 예측 신호의 차이를 의미할 수 있고, 또한 원신호와 예측 신호의 차이가 변환(transform)된 형태의 신호 또는 원신호와 예측 신호의 차이가 변환되고 양자화된 형태의 신호를 의미할 수도 있다. 잔여 신호는 블록 단위에서는 잔여 블록이라 할 수 있다.Here, the symbol means a syntax element, a coding parameter, a residual signal value, or the like that is to be encoded / decoded. Encoding parameters are parameters necessary for encoding and decoding, and may include information that may be inferred during encoding or decoding, as well as information encoded by an encoder and transmitted to a decoder, such as syntax elements. Means necessary information. Coding parameters may be, for example, intra / inter prediction modes, moving / motion vectors, reference picture indexes, coding block patterns, presence or absence of residual signals, transform coefficients, quantized transform coefficients, quantization parameters, block sizes, block partitioning information, or the like. May include statistics. In addition, the residual signal may mean a difference between the original signal and the prediction signal, and a signal in which the difference between the original signal and the prediction signal is transformed or a signal in which the difference between the original signal and the prediction signal is converted and quantized It may mean. The residual signal may be referred to as a residual block in block units.
엔트로피 부호화가 적용되는 경우, 높은 발생 확률을 갖는 심볼에 적은 수의 비트가 할당되고 낮은 발생 확률을 갖는 심볼에 많은 수의 비트가 할당되어 심볼이 표현됨으로써, 부호화 대상 심볼들에 대한 비트열의 크기가 감소될 수 있다. 따라서 엔트로피 부호화를 통해서 영상 부호화의 압축 성능이 높아질 수 있다. When entropy encoding is applied, a small number of bits are allocated to a symbol having a high probability of occurrence and a large number of bits are allocated to a symbol having a low probability of occurrence, whereby the size of the bit string for the symbols to be encoded is increased. Can be reduced. Therefore, compression performance of image encoding may be increased through entropy encoding.
엔트로피 부호화를 위해 지수 골룸(exponential golomb), CAVLC(Context-Adaptive Variable Length Coding), CABAC(Context-Adaptive Binary Arithmetic Coding)과 같은 부호화 방법이 사용될 수 있다. 예를 들어, 엔트로피 부호화부(150)에는 가변 길이 부호화(VLC: Variable Lenghth Coding/Code) 테이블과 같은 엔트로피 부호화를 수행하기 위한 테이블이 저장될 수 있고, 엔트로피 부호화부(150)는 저장된 가변 길이 부호화(VLC) 테이블을 사용하여 엔트로피 부호화를 수행할 수 있다. 또한 엔트로피 부호화부(150)는 대상 심볼의 이진화(binarization) 방법 및 대상 심볼/빈(bin)의 확률 모델(probability model)을 도출한 후, 도출된 이진화 방법 또는 확률 모델을 사용하여 엔트로피 부호화를 수행할 수도 있다.For entropy coding, coding methods such as exponential golomb, context-adaptive variable length coding (CAVLC), and context-adaptive binary arithmetic coding (CABAC) may be used. For example, the entropy encoder 150 may store a table for performing entropy encoding, such as a variable length coding (VLC) table, and the entropy encoder 150 may store the stored variable length encoding. Entropy encoding may be performed using the (VLC) table. In addition, the entropy encoder 150 derives a binarization method of a target symbol and a probability model of a target symbol / bin, and then performs entropy encoding using the derived binarization method or a probability model. You may.
양자화된 계수는 역양자화부(160)에서 역양자화되고 역변환부(170)에서 역변환될 수 있다. 역양자화, 역변환된 계수는 가산기(175)를 통해 예측 블록과 더해지고 복원 블록이 생성될 수 있다. The quantized coefficients may be inversely quantized by the inverse quantizer 160 and inversely transformed by the inverse transformer 170. The inverse quantized and inverse transformed coefficients are added to the prediction block through the adder 175 and a reconstruction block can be generated.
복원 블록은 필터부(180)를 거치고, 필터부(180)는 디블록킹 필터(deblocking filter), SAO(Sample Adaptive Offset), ALF(Adaptive Loop Filter) 중 적어도 하나 이상을 복원 블록 또는 복원 픽처에 적용할 수 있다. 필터부(180)를 거친 복원 블록은 참조 영상 버퍼(190)에 저장될 수 있다.The reconstruction block passes through the filter unit 180, and the filter unit 180 applies at least one or more of a deblocking filter, a sample adaptive offset (SAO), and an adaptive loop filter (ALF) to the reconstructed block or reconstructed picture. can do. The reconstructed block that has passed through the filter unit 180 may be stored in the reference image buffer 190.
도 2는 영상 복호화 장치의 일 실시예에 따른 구성을 나타내는 블록도이다. 도 1에서 상술한 바와 같이 스케일러블 비디오 부호화/복호화 방법 또는 장치는 스케일러빌리티를 제공하지 않는 일반적인 영상 부호화/복호화 방법 또는 장치의 확장에 의해 구현될 수 있으며, 도 2의 블록도는 스케일러블 비디오 복호화 장치의 기초가 될 수 있는 영상 복호화 장치의 일 실시예를 나타낸다.2 is a block diagram illustrating a configuration of an image decoding apparatus according to an embodiment. As described above with reference to FIG. 1, a scalable video encoding / decoding method or apparatus may be implemented by extension of a general video encoding / decoding method or apparatus that does not provide scalability, and the block diagram of FIG. 2 is scalable video decoding. An embodiment of an image decoding apparatus that may be the basis of an apparatus is shown.
도 2를 참조하면, 상기 영상 복호화 장치(200)는 엔트로피 복호화부(210), 역양자화부(220), 역변환부(230), 인트라 예측부(240), 움직임 보상부(250), 필터부(260) 및 참조 영상 버퍼(270)를 포함한다.2, the image decoding apparatus 200 may include an entropy decoder 210, an inverse quantizer 220, an inverse transformer 230, an intra predictor 240, a motion compensator 250, and a filter. 260 and a reference picture buffer 270.
영상 복호화 장치(200)는 부호화기에서 출력된 비트스트림을 입력 받아 인트라 모드 또는 인터 모드로 복호화를 수행하고 재구성된 영상, 즉 복원 영상을 출력할 수 있다. 인트라 모드인 경우 스위치가 인트라로 전환되고, 인터 모드인 경우 스위치가 인터로 전환될 수 있다. 영상 복호화 장치(200)는 입력 받은 비트스트림으로부터 복원된 잔여 블록(residual block)을 얻고 예측 블록을 생성한 후 복원된 잔여 블록과 예측 블록을 더하여 재구성된 블록, 즉 복원 블록을 생성할 수 있다.The image decoding apparatus 200 may receive a bitstream output from the encoder and perform decoding in an intra mode or an inter mode, and output a reconstructed image, that is, a reconstructed image. In the intra mode, the switch may be switched to intra, and in the inter mode, the switch may be switched to inter. The image decoding apparatus 200 may generate a reconstructed block, that is, a reconstructed block by obtaining a residual block reconstructed from the received bitstream, generating a prediction block, and adding the reconstructed residual block and the prediction block.
엔트로피 복호화부(210)는, 입력된 비트스트림을 확률 분포에 따라 엔트로피 복호화하여, 양자화된 계수(quantized coefficient) 형태의 심볼을 포함한 심볼들을 생성할 수 있다. 엔트로피 복호화 방법은 2진수의 열을 입력 받아 각 심볼들을 생성하는 방법이다. 엔트로피 복호화 방법은 상술한 엔트로피 부호화 방법과 유사하다.The entropy decoder 210 may entropy decode the input bitstream according to a probability distribution to generate symbols including symbols in the form of quantized coefficients. The entropy decoding method is a method of generating each symbol by receiving a binary string. The entropy decoding method is similar to the entropy coding method described above.
양자화된 계수는 역양자화부(220)에서 역양자화되고 역변환부(230)에서 역변환되며, 양자화된 계수가 역양자화/역변환 된 결과, 복원된 잔여 블록(residual block)이 생성될 수 있다. The quantized coefficients are inversely quantized by the inverse quantizer 220 and inversely transformed by the inverse transformer 230, and as a result of the inverse quantization / inverse transformation of the quantized coefficients, a reconstructed residual block may be generated.
인트라 모드인 경우, 인트라 예측부(240)는 현재 블록 주변의 이미 부호화된 블록의 화소값을 이용하여 공간적 예측을 수행하여 예측 블록을 생성할 수 있다. 인터 모드인 경우, 움직임 보상부(250)는 움직임 벡터 및 참조 영상 버퍼(270)에 저장되어 있는 참조 영상을 이용하여 움직임 보상을 수행함으로써 예측 블록을 생성할 수 있다. In the intra mode, the intra predictor 240 may generate a predictive block by performing spatial prediction using pixel values of an already encoded block around the current block. In the inter mode, the motion compensator 250 may generate a prediction block by performing motion compensation using the motion vector and the reference image stored in the reference image buffer 270.
복원된 잔여 블록과 예측 블록은 가산기(255)를 통해 더해지고, 더해진 블록은 필터부(260)를 거친다. 필터부(260)는 디블록킹 필터, SAO, ALF 중 적어도 하나 이상을 복원 블록 또는 복원 픽처에 적용할 수 있다. 필터부(260)는 재구성된 영상, 즉 복원 영상을 출력한다. 복원 영상은 참조 영상 버퍼(270)에 저장되어 화면 간 예측에 사용될 수 있다.The reconstructed residual block and the prediction block are added through the adder 255, and the added block passes through the filter unit 260. The filter unit 260 may apply at least one or more of the deblocking filter, SAO, and ALF to the reconstructed block or the reconstructed picture. The filter unit 260 outputs a reconstructed image, that is, a reconstructed image. The reconstructed picture may be stored in the reference picture buffer 270 to be used for inter prediction.
상기 영상 복호화 장치(200)에 포함되어 있는 엔트로피 복호화부(210), 역양자화부(220), 역변환부(230), 인트라 예측부(240), 움직임 보상부(250), 필터부(260) 및 참조 영상 버퍼(270) 중 영상의 복호화에 직접적으로 관련된 구성요소들, 예컨대, 엔트로피 복호화부(210), 역양자화부(220), 역변환부(230), 인트라 예측부(240), 움직임 보상부(250), 필터부(260) 등을 다른 구성요소와 구분하여 복호화부 또는 디코딩부로 표현할 수 있다. The entropy decoder 210, the inverse quantizer 220, the inverse transformer 230, the intra predictor 240, the motion compensator 250, and the filter 260 included in the image decoding apparatus 200. And components directly related to the decoding of an image in the reference image buffer 270, for example, an entropy decoder 210, an inverse quantizer 220, an inverse transformer 230, an intra predictor 240, and motion compensation. The unit 250, the filter unit 260, and the like may be distinguished from other components and expressed as a decoder or a decoder.
또한, 영상 복호화 장치(200)는 비트스트림에 포함되어 있는 인코딩된 영상에 관련된 정보를 파싱하는 도시하지 않은 파싱부를 더 포함할 수 있다. 파싱부는 엔트로피 복호화부(210)를 포함할 수도 있고, 엔트로피 복호화부(210)에 포함될 수도 있다. 이러한 파싱부는 또한 디코딩부의 하나의 구성요소로 구현될 수도 있다.Also, the image decoding apparatus 200 may further include a parsing unit (not shown) which parses information related to an encoded image included in a bitstream. The parser may include the entropy decoder 210 or may be included in the entropy decoder 210. Such a parser may also be implemented as one component of the decoder.
도 3은 본 발명이 적용될 수 있는, 복수 계층을 이용한 스케일러블 비디오 코딩 구조의 일 실시예를 개략적으로 나타내는 개념도이다. 도 3에서 GOP(Group of Picture)는 픽처군 즉, 픽처의 그룹을 나타낸다.3 is a conceptual diagram schematically illustrating an embodiment of a scalable video coding structure using multiple layers to which the present invention can be applied. In FIG. 3, a GOP (Group of Picture) represents a picture group, that is, a group of pictures.
영상 데이터를 전송하기 위해서는 전송 매체가 필요하며, 그 성능은 다양한 네트워크 환경에 따라 전송 매체별로 차이가 있다. 이러한 다양한 전송 매체 또는 네트워크 환경에의 적용을 위해 스케일러블 비디오 코딩 방법이 제공될 수 있다.In order to transmit image data, a transmission medium is required, and its performance varies depending on the transmission medium according to various network environments. A scalable video coding method may be provided for application to such various transmission media or network environments.
스케일러블 비디오 코딩 방법은 계층(layer) 간의 텍스쳐 정보, 움직임 정보, 잔여 신호 등을 활용하여 계층 간 중복성을 제거하여 부호화/복호화 성능을 높이는 코딩 방법이다. 스케일러블 비디오 코딩 방법은, 전송 비트율, 전송 에러율, 시스템 자원 등의 주변 조건에 따라, 공간적, 시간적, 화질적 관점에서 다양한 스케일러빌리티를 제공할 수 있다.The scalable video coding method is a coding method that improves encoding / decoding performance by removing redundancy between layers by using texture information, motion information, and residual signals between layers. The scalable video coding method may provide various scalability in terms of spatial, temporal, and image quality according to ambient conditions such as a transmission bit rate, a transmission error rate, and a system resource.
스케일러블 비디오 코딩은, 다양한 네트워크 상황에 적용 가능한 비트스트림을 제공할 수 있도록, 복수 계층(multiple layers) 구조를 사용하여 수행될 수 있다. 예를 들어 스케일러블 비디오 코딩 구조는, 일반적인 영상 부호화 방법을 이용하여 영상 데이터를 압축하여 처리하는 기본 계층을 포함할 수 있고, 기본 계층의 부호화 정보 및 일반적인 영상 부호화 방법을 함께 사용하여 영상 데이터를 압축 처리하는 향상 계층을 포함할 수 있다.Scalable video coding may be performed using multiple layers structure to provide a bitstream applicable to various network situations. For example, the scalable video coding structure may include a base layer that compresses and processes image data by using a general image encoding method, and compresses the image data by using the encoding information of the base layer and a general image encoding method together. May include an enhancement layer for processing.
여기서, 계층(layer)은 공간(spatial, 예를 들어, 영상 크기), 시간(temporal, 예를 들어, 부호화 순서, 영상 출력 순서, 프레임 레이트), 화질, 복잡도 등을 기준으로 구분되는 영상 및 비트스트림(bitstream)의 집합을 의미한다. 또한 기본 계층은 하위 계층, 참조 계층 또는 Base layer, 향상 계층은 상위 계층, Enhancement layer를 의미할 수 있다. 또한 복수의 계층들은 서로 간에 종속성을 가질 수도 있다.In this case, a layer is an image and a bit divided based on spatial (eg, image size), temporal (eg, coding order, image output order, frame rate), image quality, complexity, and the like. Means a set of bitstreams. In addition, the base layer may mean a lower layer, a reference layer or a base layer, and the enhancement layer may mean an upper layer and an enhancement layer. In addition, the plurality of layers may have a dependency between each other.
도 3을 참조하면, 예를 들어 기본 계층은 SD(standard definition), 15Hz의 프레임율, 1Mbps 비트율로 정의될 수 있고, 제1 향상 계층은 HD(high definition), 30Hz의 프레임율, 3.9Mbps 비트율로 정의될 수 있으며, 제2 향상 계층은 4K-UHE(ultra high definition), 60Hz의 프레임율, 27.2Mbps 비트율로 정의될 수 있다. 상기 포맷(format), 프레임율, 비트율 등은 하나의 실시예로서, 필요에 따라 달리 정해질 수 있다. 또한 사용되는 계층의 수도 본 실시예에 한정되지 않고 상황에 따라 달리 정해질 수 있다. Referring to FIG. 3, for example, the base layer may be defined as a standard definition (SD), a frame rate of 15 Hz, and a 1 Mbps bit rate, and the first enhancement layer may be a high definition (HD), a frame rate of 30 Hz, and a 3.9 Mbps bit rate. The second enhancement layer may be defined as an ultra high definition (4K-UHE), a frame rate of 60 Hz, and a bit rate of 27.2 Mbps. The format, frame rate, bit rate, etc. are exemplary and may be determined differently as necessary. In addition, the number of hierarchies used is not limited to this embodiment and may be determined differently according to a situation.
예를 들어, 전송 대역폭이 4Mbps라면 상기 제1향상계층 HD의 프레임 레이트를 줄여서 15Hz이하로 전송할 수 있다. 스케일러블 비디오 코딩 방법은 상기 도 3의 실시예에서 상술한 방법에 의해 시간적, 공간적, 화질적 스케일러빌리티를 제공할 수 있다.For example, if the transmission bandwidth is 4 Mbps, the frame rate of the first enhancement layer HD may be reduced and transmitted at 15 Hz or less. The scalable video coding method can provide temporal, spatial and image quality scalability by the method described above in the embodiment of FIG. 3.
스케일러블 비디오 코딩은 이하 부호화 관점에서는 스케일러블 비디오 부호화, 복호화 관점에서는 스케일러블 비디오 복호화와 동일한 의미를 가진다.Scalable video coding has the same meaning as scalable video coding from a coding point of view and scalable video decoding from a decoding point of view.
이하에서, 스케일러블 비디오, 즉 다계층 구조를 사용하는 영상의 부호화 및 복호화 방법 중 상위 계층의 부호화 및 복호화 대상이 되는 블록(이하 현재 블록 또는 대상 블록이라고 칭함)의 예측 블록, 즉 예측 신호를 생성하는 방법에 대하여 살펴본다. 상위 계층이 참조하는 하위 계층은 이하 참조 계층으로 표현된다. Hereinafter, a prediction block, ie, a prediction signal, of a block that is to be encoded and decoded in a higher layer (hereinafter, referred to as a current block or a target block) of a scalable video, that is, an encoding and decoding method of an image using a multi-layer structure, is generated. See how to do it. The lower layer referred to by the upper layer is expressed as a reference layer below.
우선, 대상 블록의 예측 신호를 통상의 화면 내 예측을 통하여 생성할 수 있다.First, a prediction signal of a target block may be generated through normal intra prediction.
화면 내 예측에서 예측 모드는 픽셀값 예측에 사용되는 참조 픽셀들이 위치한 방향 및 예측 방식에 따라 크게 방향성 모드와 비방향성 모드로 구분할 수 있다. 설명의 편의를 위하여, 이러한 예측 모드는 정해진 각도 및 모드 번호를 사용하여 특정할 수 있다. In intra prediction, a prediction mode may be largely classified into a directional mode and a non-directional mode according to the direction in which reference pixels used for pixel value prediction are located and a prediction method. For convenience of description, this prediction mode may be specified using a predetermined angle and mode number.
도 4는 화면 내 예측 모드의 일 예를 도시한 도면이다.4 is a diagram illustrating an example of an intra prediction mode.
화면 내 예측 모드의 개수는 예측 블록의 크기와 관계 없이 기 설정된 개수로 고정될 수 있으며, 도 4와 같이 35개로 고정될 수 있다. The number of intra prediction modes may be fixed to a predetermined number regardless of the size of the prediction block, and may be fixed to 35 as shown in FIG. 4.
도 4를 참조하면, 화면 내 예측 모드는 33개의 방향성 예측 모드와 두 개의 비방향성 모드를 포함할 수 있다. 방향성 모드는 좌측 하단 방향의 2번 화면 내 예측 모드를 시작으로 시계 방향으로 34번 화면 내 예측 모드를 포함한다.Referring to FIG. 4, the intra prediction mode may include 33 directional prediction modes and two non-directional modes. The directional mode includes the intra prediction mode 34 in the clockwise direction starting with the intra prediction mode 2 in the lower left direction.
예측 모드의 개수는 색 성분(color component)이 휘도(luma) 신호 또는 색차(chroma) 신호임에 따라 다를 수 있다. 또한, 도 4의 ‘Intra_FromLuma’는 휘도 신호로부터 색차 신호를 예측하는 특정 모드를 의미할 수 있다.The number of prediction modes may vary depending on whether the color component is a luma signal or a chroma signal. In addition, “Intra_FromLuma” of FIG. 4 may refer to a specific mode for predicting a color difference signal from a luminance signal.
비방향성 모드인 Planer 모드(Intra_Planar)와 DC 모드(Intra_DC)는 각각 화면 내 예측 모드 0번와 1번에 할당 될 수 있다. Planar mode (Intra_Planar) and DC mode (Intra_DC), which are non-directional modes, may be allocated to intra prediction modes 0 and 1, respectively.
DC 모드에서는 고정된 하나의 값, 예를 들어 주위의 복원된 픽셀값의 평균값을 예측값으로 이용하고, Planer 모드에서는 현재 블록의 수직으로 인접한 픽셀값와 수평으로 인접한 픽셀값들을 이용하여 수직 방향 보간 및 수평 방향 보간을 수행하고, 이들의 평균값을 예측값으로 이용한다.In DC mode, a single fixed value, for example, the average value of surrounding reconstructed pixel values is used as a prediction value, and in Planer mode, vertical interpolation and horizontal use are performed using vertically adjacent pixel values of the current block and horizontally adjacent pixel values. Directional interpolation is performed, and their average value is used as the predicted value.
방향성 모드(Intra_Angular)는 기설정된 방향에 위치한 참조 픽셀과 현재 픽셀 간의 각도로 해당 방향을 나타내는 모드들을 의미하며, 수평 모드 및 수직 모드를 포함할 수 있다. 수직 모드는 현재 블록의 수직으로 인접한 픽셀값을 현재 블록의 예측값으로, 수평 모드는 수평으로 인접한 픽셀값을 현재 블록의 예측값으로 이용할 수 있다.The directional mode Intra_Angular refers to modes indicating a corresponding direction at an angle between a reference pixel located in a predetermined direction and a current pixel, and may include a horizontal mode and a vertical mode. In the vertical mode, vertically adjacent pixel values of the current block may be used as prediction values of the current block, and in the horizontal mode, horizontally adjacent pixel values may be used as prediction values of the current block.
예측값 또는 예측 신호로 구성되는 예측 블록의 크기는 4x4, 8x8, 16x16, 32x32, 64x64 등의 정사각형 또는 2x8, 4x8, 2x16, 4x16, 8x16 등의 직사각형이 될 수 있다. 또한 예측 블록의 크기는 부호화 블록(CB: Coding Block), 예측 블록(PB: Prediction Block), 변환 블록(TB: Transform Block) 중 적어도 하나의 크기가 될 수 있다.The size of the prediction block composed of the prediction value or the prediction signal may be a square such as 4x4, 8x8, 16x16, 32x32, 64x64, or a rectangle of 2x8, 4x8, 2x16, 4x16, 8x16, or the like. The size of the prediction block may be at least one of a coding block (CB), a prediction block (PB), and a transform block (TB).
화면내 부/복호화는 주변의 복원된 블록에 포함되는 샘플 값 또는 부호화 파라미터를 이용할 수 있다. 도 5는 화면 내 예측 모드에 사용되는 주변 블록 및 주변 샘플들의 일 실시예를 나타낸 도면이다. Intra-decoding / decoding may use sample values or encoding parameters included in neighboring reconstructed blocks. 5 is a diagram illustrating an embodiment of neighboring blocks and neighboring samples used in an intra prediction mode.
주변의 복원된 블록은 부/복호화 순서에 따라 도 5를 참조하여 예를 들면, 블록 EA, EB, EC, ED, 또는 EG가 될 수 있으며, ‘above’, ‘above_left’, ‘above_right’, ‘left’, ‘bottom_left’에 해당하는 샘플 값은 대상 블록의 화면내 예측에 사용되는 참조 샘플일 수 있다. 또한, 여기서 부호화 파라미터는 부호화 모드(화면내 또는 화면간), 화면내 예측 모드, 화면간 예측 모드, 블록 크기, 양자화 파라미터(QP), CBF(Coded Block Flag) 중에 적어도 하나 일 수 있다.The neighboring reconstructed block may be, for example, a block EA, EB, EC, ED, or EG with reference to FIG. 5 according to the encoding / decoding order, and 'above', 'above_left', 'above_right', ' The sample values corresponding to 'left' and 'bottom_left' may be reference samples used for intra prediction of the target block. The encoding parameter may be at least one of an encoding mode (intra picture or inter picture), an intra picture prediction mode, an inter picture prediction mode, a block size, a quantization parameter (QP), and a coded block flag (CBF).
도 5에서 각 블록은 보다 작은 블록으로 분할될 수 있으며, 이러한 경우에도 각 분할된 블록에 해당하는 샘플 값 또는 부호화 파라미터를 이용하여 화면 내 부/복화를 수행할 수 있다. In FIG. 5, each block may be divided into smaller blocks, and even in this case, inside / decoding may be performed using sample values or encoding parameters corresponding to each divided block.
또한, 대상 블록의 예측 신호는 화면 간 예측을 통하여 생성될 수 있다.In addition, the prediction signal of the target block may be generated through inter prediction.
화면간 예측은 현재 픽처의 이전 픽처 또는 이후 픽처 중 적어도 하나를 참조 픽처로 하고, 참조 픽처를 기반으로 현재 블록에 대한 예측을 수행할 수 있다. 현재 블록의 예측에 이용되는 영상을 참조 픽처(reference picture) 또는 참조 프레임(reference frame)이라고 한다. The inter prediction may use at least one of a previous picture or a subsequent picture of the current picture as a reference picture and perform prediction on the current block based on the reference picture. An image used for prediction of the current block is called a reference picture or a reference frame.
참조 픽처 내의 영역은 참조 픽처를 지시하는 참조 픽처 인덱스(refIdx) 및 움직임 벡터(motion vector) 등을 이용하여 나타낼 수 있다. The region in the reference picture may be represented using a reference picture index refIdx, a motion vector, etc. indicating the reference picture.
화면간 예측은 참조 픽처 및 참조 픽처 내에서 현재 블록에 대응하는 참조 블록을 선택해서, 현재 블록에 대한 예측 블록을 생성할 수 있다. The inter prediction may select a reference picture corresponding to the current block in the reference picture and the reference picture, and generate a prediction block for the current block.
화면 간 예측에서 부호화기 및 복호화기는 현재 블록의 움직임 정보를 도출한 후, 도출된 움직임 정보에 기반하여 화면 간 예측 및/또는 움직임 보상을 수행할 수 있다. 이 때, 부호화기 및 복호화기는 복원된 주변 블록(neighboring block) 및/또는 이미 복원된 콜(col) 픽쳐(collocated picture) 내에서 현재 블록에 대응되는 콜(col) 블록(collocated block)의 움직임 정보를 이용함으로써, 부호화/복호화 효율을 향상시킬 수 있다. In the inter prediction, the encoder and the decoder may derive the motion information of the current block and then perform the inter prediction and / or motion compensation based on the derived motion information. In this case, the encoder and the decoder may extract motion information of a coll block corresponding to the current block in a neighboring block and / or a coll picture that has already been restored. By using this, the encoding / decoding efficiency can be improved.
여기서, 복원된 주변 블록은 이미 부호화 및/또는 복호화되어 복원된 현재 픽쳐 내의 블록으로서, 현재 블록에 인접한 블록 및/또는 현재 블록의 외부 코너에 위치한 블록을 포함할 수 있다. 또한 부호화기 및 복호화기는, 콜 픽쳐 내에서 현재 블록과 공간적으로 대응되는 위치에 존재하는 블록을 기준으로 소정의 상대적인 위치를 결정할 수 있고, 상기 결정된 소정의 상대적인 위치(상기 현재 블록과 공간적으로 대응되는 위치에 존재하는 블록의 내부 및/또는 외부의 위치)를 기반으로 상기 콜 블록을 도출할 수 있다. 여기서, 일례로 콜 픽쳐는 참조 픽쳐 리스트에 포함된 참조 픽쳐 중에서 하나의 픽쳐에 해당될 수 있다.Here, the reconstructed neighboring block is a block in the current picture that is already encoded and / or decoded and reconstructed, and may include a block adjacent to the current block and / or a block located at an outer corner of the current block. In addition, the encoder and the decoder may determine a predetermined relative position based on a block existing at a position spatially corresponding to the current block in the call picture, and determine the predetermined relative position (the position corresponding to the current block spatially). The call block may be derived based on the location of the inside and / or outside of the block existing in the. Here, as an example, the call picture may correspond to one picture among the reference pictures included in the reference picture list.
화면간 예측은 현재 블록과의 레지듀얼(residual) 신호가 최소화되며 움직임 벡터 크기 역시 최소가 되도록 예측 블록을 생성할 수 있다.In inter prediction, a prediction block may be generated such that a residual signal with a current block is minimized and a motion vector size is also minimized.
한편, 움직임 정보 도출 방식은 현재 블록의 예측 모드에 따라 달라질 수 있다. 인터 예측을 위해 적용되는 예측 모드에는 AMVP(Advanced Motion Vector Predictor), 머지(merge) 등이 있을 수 있다.Meanwhile, the motion information derivation scheme may vary depending on the prediction mode of the current block. Prediction modes applied for inter prediction may include Advanced Motion Vector Predictor (AMVP), merge, and the like.
일례로, AMVP(Advanced Motion Vector Predictor)가 적용되는 경우, 부호화기 및 복호화기는 복원된 주변 블록의 움직임 벡터 및/또는 콜 블록의 움직임 벡터를 이용하여, 예측 움직임 벡터 후보 리스트를 생성할 수 있다. 즉, 복원된 주변 블록의 움직임 벡터 및/또는 콜 블록의 움직임 벡터는 예측 움직임 벡터 후보로 사용될 수 있다. 부호화기는 상기 리스트에 포함된 예측 움직임 벡터 후보 중에서 선택된 최적의 예측 움직임 벡터를 지시하는 예측 움직임 벡터 인덱스를 복호화기로 전송할 수 있다. 이 때, 복호화기는 상기 예측 움직임 벡터 인덱스를 이용하여, 예측 움직임 벡터 후보 리스트에 포함된 예측 움직임 벡터 후보 중에서, 현재 블록의 예측 움직임 벡터를 선택할 수 있다.For example, when an advanced motion vector predictor (AMVP) is applied, the encoder and the decoder may generate a predicted motion vector candidate list using the motion vector of the reconstructed neighboring block and / or the motion vector of the call block. That is, the motion vector of the reconstructed neighboring block and / or the motion vector of the call block may be used as the prediction motion vector candidate. The encoder may transmit a predicted motion vector index indicating an optimal predicted motion vector selected from the predicted motion vector candidates included in the list to the decoder. In this case, the decoder may select the predicted motion vector of the current block among the predicted motion vector candidates included in the predicted motion vector candidate list by using the predicted motion vector index.
부호화기는 현재 블록의 움직임 벡터와 예측 움직임 벡터 간의 움직임 벡터 차분(MVD: Motion Vector Difference)을 구할 수 있고, 이를 부호화하여 복호화기로 전송할 수 있다. 이 때, 복호화기는 수신된 움직임 벡터 차분을 복호화할 수 있고, 복호화된 움직임 벡터 차분과 예측 움직임 벡터의 합을 통해 현재 블록의 움직임 벡터를 도출할 수 있다.The encoder can obtain a motion vector difference (MVD) between the motion vector of the current block and the predictive motion vector, and can encode the same and transmit the same to the decoder. In this case, the decoder may decode the received motion vector difference and derive the motion vector of the current block through the sum of the decoded motion vector difference and the predicted motion vector.
부호화기는 또한 참조 픽처를 지시하는 참조 픽처 인덱스 등을 복호화기에 전송할 수 있다. The encoder may also transmit a reference picture index or the like indicating the reference picture to the decoder.
복호화기는 주변 블록의 움직임 정보들을 이용하여 현재 블록의 움직임 벡터를 예측하고, 부호화기로부터 수신한 레지듀얼을 이용하여 현재 블록에 대한 움직임 벡터를 유도할 수 있다. 복호화기는 유도한 움직임 벡터와 부호화기로부터 수신한 참조 픽처 인덱스 정보를 기반으로 현재 블록에 대한 예측 블록을 생성할 수 있다.The decoder may predict the motion vector of the current block using the motion information of the neighboring block, and may derive the motion vector for the current block using the residual received from the encoder. The decoder may generate a prediction block for the current block based on the derived motion vector and the reference picture index information received from the encoder.
다른 예로, 머지(merge)가 적용되는 경우, 부호화기 및 복호화기는 복원된 주변 블록의 움직임 정보 및/또는 콜 블록의 움직임 정보를 이용하여, 머지 후보 리스트를 생성할 수 있다. 즉, 부호화기 및 복호화기는 복원된 주변 블록 및/또는 콜 블록의 움직임 정보가 존재하는 경우, 이를 현재 블록에 대한 머지 후보로 사용할 수 있다. As another example, when merge is applied, the encoder and the decoder may generate the merge candidate list using the motion information of the reconstructed neighboring block and / or the motion information of the call block. That is, the encoder and the decoder may use the motion information of the reconstructed neighboring block and / or the call block as a merge candidate for the current block.
부호화기는 머지 후보 리스트에 포함된 머지 후보 중에서 최적의 부호화 효율을 제공할 수 있는 머지 후보를 현재 블록에 대한 움직임 정보로 선택할 수 있다. 이 때, 상기 선택된 머지 후보를 지시하는 머지 인덱스가 비트스트림에 포함되어 복호화기로 전송될 수 있다. 복호화기는 상기 전송된 머지 인덱스를 이용하여, 머지 후보 리스트에 포함된 머지 후보 중에서 하나를 선택할 수 있으며, 상기 선택된 머지 후보를 현재 블록의 움직임 정보로 결정할 수 있다. 따라서, 머지 모드가 적용되는 경우, 복원된 주변 블록 및/또는 콜 블록의 움직임 정보가 현재 블록의 움직임 정보로 그대로 사용될 수 있다. 복호화기는 예측 블록과 부호화기로부터 전송되는 레 지듀얼을 더하여 현재 블록을 복원할 수 있다.The encoder may select a merge candidate capable of providing an optimal encoding efficiency among the merge candidates included in the merge candidate list as motion information for the current block. In this case, a merge index indicating the selected merge candidate may be included in the bitstream and transmitted to the decoder. The decoder may select one of the merge candidates included in the merge candidate list using the transmitted merge index, and determine the selected merge candidate as motion information of the current block. Therefore, when the merge mode is applied, the motion information of the restored neighboring block and / or the call block may be used as the motion information of the current block. The decoder may reconstruct the current block by adding the prediction block and the residual transmitted from the encoder.
상술한 AMVP 및 머지 모드에서는, 현재 블록의 움직임 정보를 도출하기 위해, 복원된 주변 블록의 움직임 정보 및/또는 콜 블록의 움직임 정보가 사용될 수 있다.In the above-described AMVP and merge mode, the motion information of the reconstructed neighboring block and / or the motion information of the call block may be used to derive the motion information of the current block.
화면 간 예측에 이용되는 다른 모드 중 하나 인 스킵 모드의 경우에, 주변 블록의 정보를 그대로 현재 블록에 이용할 수 있다. 따라서 스킵 모드의 경우에, 부호화기는 현재 블록의 움직임 정보로서 어떤 블록의 움직임 정보를 이용할 것인지를 지시하는 정보 외에 레지듀얼 등과 같은 신택스 정보를 복호화기에 전송하지 않는다. In the case of a skip mode, which is one of other modes used for inter prediction, information of neighboring blocks may be used as is in the current block. Therefore, in the skip mode, the encoder does not transmit syntax information such as residual to the decoder other than information indicating which block motion information to use as the motion information of the current block.
부호화기 및 복호화기는 상기 도출된 움직임 정보에 기반하여 현재 블록에 대한 움직임 보상을 수행함으로써, 현재 블록의 예측 블록을 생성할 수 있다. 여기서, 예측 블록은 현재 블록에 대한 움직임 보상 수행 결과 생성된, 움직임 보상된 블록을 의미할 수 있다. 또한, 복수의 움직임 보상된 블록은 하나의 움직임 보상된 영상을 구성할 수 있다.The encoder and the decoder may generate the prediction block of the current block by performing motion compensation on the current block based on the derived motion information. Here, the prediction block may mean a motion compensated block generated as a result of performing motion compensation on the current block. Also, the plurality of motion compensated blocks may constitute one motion compensated image.
복호화기는 현재 블록의 인터 예측에 필요한 움직임 정보, 예컨대 움직임 벡터, 참조 픽처 인덱스 등에 관한 정보를 부호화기로부터 수신한 스킵 플래그, 머지 플래그 등을 확인하고 이에 대응하여 유도할 수 있다. The decoder may check and derive motion information necessary for inter prediction of the current block, for example, a skip flag, a merge flag, and the like, received from the encoder and information corresponding to the motion vector, the reference picture index, and the like.
예측이 수행되는 처리 단위와 예측 방법 및 구체적인 내용이 정해지는 처리 단위는 서로 다를 수 있다. 예컨대, PU단위로 예측모드가 정해져서 TU단위로 예측이 수행될 수도 있고, PU 단위로 예측 모드가 정해지고 TU 단위로 화면 내 예측이 수행될 수 도 있다. The processing unit in which the prediction is performed and the processing unit in which the prediction method and the details are determined may be different. For example, a prediction mode may be determined in units of PUs, and prediction may be performed in units of TUs, or a prediction mode may be determined in units of PUs, and intra prediction may be performed in units of TUs.
다계층을 지원하는 영상에서, 상위 계층의 대상 블록의 예측 신호는 상술한 화면 내 예측 방법 및 화면 간 예측 방법 이외에 대상 블록이 참조 가능한 하위 계층, 즉 참조 계층의 복원된 영상을 이용하는 방법이 있다. In an image supporting a multi-layer, a prediction signal of a target block of a higher layer may use a reconstructed image of a lower layer, that is, a reference layer, to which the target block may refer, in addition to the above-described intra prediction method and inter screen prediction method.
도 6은 본 발명의 일 실시예예 따라 참조 계층을 이용하여 예측 신호를 생성하는 것을 설명하기 위한 개념도이다. 6 is a conceptual diagram illustrating generation of a prediction signal using a reference layer according to an embodiment of the present invention.
도시된 바와 같이, 상위 계층(600)에서 현재 부호화 또는 복호화 대상이 되는 대상 블록(601)의 예측 신호, 즉 예측 블록의 샘플값을 Pc[x,y]라고 하고, 참조 계층(610)의 복원된 영상의 복원값을 P2[x,y]라고 할 경우, Pc[x,y]은 P2[x,y]에 기초하여 생성될 수 있다. As shown, the prediction signal of the target block 601 to be currently encoded or decoded in the upper layer 600, that is, the sample value of the prediction block is referred to as Pc [x, y], and the reconstruction of the reference layer 610 is performed. When the restored value of the captured image is called P2 [x, y], Pc [x, y] may be generated based on P2 [x, y].
참조 계층(610)은 복원된 후 상위 계층의 해상도에 따라 업샘플링 될 수 있으며, P2[x,y]는 업샘플링된 샘플값일 수 있다. The reference layer 610 may be upsampled according to the resolution of a higher layer after reconstruction, and P2 [x, y] may be an upsampled sample value.
참조 계층(610)에서 현재 대상 블록(601)의 위치와 대응되는 위치의 참조 블록(615)이라고 할 때, P2[x,y]은 참조 블록(615)의 복원 샘플값일 수 있다. When referring to the reference block 615 at a position corresponding to the position of the current target block 601 in the reference layer 610, P2 [x, y] may be a reconstructed sample value of the reference block 615.
복원된 참조 계층(610)으로부터 예측 신호를 구하는 방법은 도 6과 같이 복원된 참조 계층(610)을 참조하여 화면간 예측 방법을 적용하는 것이다. 즉, 부호화기는 참조 계층(610)을 대상으로 움직임 예측 및 움직임 보상을 수행하고, 그 결과 생성된 예측 신호를 현재 부호화 대상 블록의 예측 신호로 사용한다. 복호화기는 부호화기에서 복호화된 하위 계층 영상을 대상으로 수행된 움직임 예측으로 도출된 움직임 벡터를 이용하여 움직임 보상을 수행할 수 있다.A method of obtaining a prediction signal from the reconstructed reference layer 610 is to apply an inter prediction method with reference to the reconstructed reference layer 610 as shown in FIG. 6. That is, the encoder performs motion prediction and motion compensation on the reference layer 610, and uses the resulting prediction signal as the prediction signal of the current encoding target block. The decoder may perform motion compensation using a motion vector derived from motion prediction performed on the lower layer image decoded by the encoder.
영상의 부호화기는 획득한 움직임 정보를 부호화하여 전송하고, 복호화기는 수신한 움직임 정보를 복호화 하여 참조 계층(610)을 참조하여 화면 간 예측을 수행할 수 있다. 움직임 정보는 참조 영상을 지시하는 참조 픽처 인덱스(refIdx)와 움직임 벡터(MV) 일 수 있다. The encoder of the image may encode and transmit the obtained motion information, and the decoder may perform inter prediction by referring to the reference layer 610 by decoding the received motion information. The motion information may be a reference picture index refIdx and a motion vector MV indicating the reference picture.
한편, 참조 계층(610)이 화면 간 예측에 사용될 경우, 부호화 되는 움직임 정보 중 참조 영상을 지시하는 참조 픽처 인덱스(refIdx)는 전송되지 않을 수 있다. Meanwhile, when the reference layer 610 is used for inter prediction, a reference picture index refIdx indicating a reference picture among motion information to be encoded may not be transmitted.
부호화기는 대상 블록(601)과 인접한 주변 블록들의 움직임 정보를 이용하여 현재 대상 블록의 움직임 벡터를 예측한 후 대상 블록의 움직임 벡터와 예측된 움직임 벡터 사이의 차분값을 부호화하여 움직임 벡터(MV_2[x,y])로서 전송할 수 있다. 이 때, 대상 블록(601)의 움직임 예측을 위하여 사용되는 주변 블록들은 참조 계층의 복원된 영상으로 부호화된 블록일 수 있다. 즉, 부호화기는 주변 블록 중 참조 계층의 복원된 영상으로 부호화된 주변 블록의 움직임 정보를 이용하여 대상 블록(601)의 움직임 벡터를 유도할 수 있다. 이 경우, 부호화기는 어떤 블록의 움직임 정보를 이용하는지에 관한 정보를 부호화하여 복호화기로 전송할 수 있다.The encoder predicts the motion vector of the current target block by using the motion information of neighboring blocks adjacent to the target block 601, and then encodes a difference value between the motion vector of the target block and the predicted motion vector and then moves the motion vector MV_2 [x. , y]). In this case, the neighboring blocks used for the motion prediction of the target block 601 may be blocks encoded with the reconstructed image of the reference layer. That is, the encoder can derive the motion vector of the target block 601 by using the motion information of the neighboring block encoded as the reconstructed image of the reference layer among the neighboring blocks. In this case, the encoder may encode information about which block motion information is used and transmit the encoded information to the decoder.
만약 주변 블록들 중 참조 계층의 복원된 영상으로 부호화된 블록이 없을 경우, (0,0)을 움직임 벡터 예측 후보로 사용할 수 있다. If none of the neighboring blocks is encoded with the reconstructed picture of the reference layer, (0,0) may be used as a motion vector prediction candidate.
비트스트림 내에 복수의 계층을 지원하는 영상에서, 현재 대상 블록의 예측 신호를 계층 간 예측을 통해 구할 때, 현재 대상 블록과 대응되는 위치의 참조 계층 블록만을 이용하여 예측을 수행할 수 있다. 일반적으로, 계층간에는 영상의 크기가 서로 다를 수 있기 때문에 참조 계층에 대해 업샘플링 과정을 수행하게 된다. 업샘플링이 수행되면, 계층별 영상 간 화소들의 위상이 달라 질 수 있기 때문에 현재 대상 블록과 대응되는 위치의 참조 계층 블록만을 이용할 경우, 이러한 위상 차이에 의한 예측 오차 성분을 줄일 수 없는 문제가 발생할 수 있다. 이를 극복하기 위하여 본 일 실시예에서는 참조 계층의 대응 블록만을 사용하는 것이 아니라, 참조 계층을 대상으로 움직임 예측을 수행하므로 부호화 및 복호화 하고자 하는 대상 블록에 보다 가까운 예측 값을 얻을 수 있다. In an image supporting a plurality of layers in the bitstream, when the prediction signal of the current target block is obtained through inter-layer prediction, prediction may be performed using only a reference layer block at a position corresponding to the current target block. In general, since the size of an image may be different between layers, an upsampling process is performed on a reference layer. When upsampling is performed, the phases of pixels between layers may be different, and thus, when only the reference layer block corresponding to the current target block is used, the prediction error component due to the phase difference may not be reduced. have. In order to overcome this problem, the present embodiment does not use only the corresponding block of the reference layer, but performs motion prediction on the reference layer, thereby obtaining a prediction value closer to the target block to be encoded and decoded.
한편, 부호화기는 참조 계층의 복원된 영상으로부터 움직임 예측을 통하여 예측 신호를 구하는 방법 이외에 참조 블록(615)의 복원 샘플값을 대상 블록(601)의 예측 신호로 사용할 수 있다. 이를 수식으로 나타나면 다음과 같다. Meanwhile, the encoder may use the reconstructed sample value of the reference block 615 as the prediction signal of the target block 601 in addition to a method of obtaining a prediction signal through the motion prediction from the reconstructed image of the reference layer. If this is expressed as an expression, it is as follows.
<수식 1><Equation 1>
Pc[x,y] = P2[x,y]Pc [x, y] = P2 [x, y]
부호화기는 복원된 참조 계층(610)을 참조하는 움직임 예측을 통하여 예측 신호를 생성할 수도 있고, 대상 블록(601)에 대응하는 참조 블록(615)의 복원 샘플값을 그대로 예측 신호로 이용할 수도 있다. 부호화기는 참조 계층을 이용하여 예측 신호를 생성하는 경우, 어떤 방법을 이용하는지에 관한 정보를 부호화하여 복호화기에 전송할 수 있다.The encoder may generate a prediction signal through motion prediction referring to the reconstructed reference layer 610, or may use the reconstructed sample value of the reference block 615 corresponding to the target block 601 as a prediction signal. When the coder generates a prediction signal using the reference layer, the coder may code information about which method is used and transmit the coded information to the decoder.
또 다른 실시예에 따르면, 대상 블록의 부호화 및 복호화를 수행할 때, 대상 블록이 속해 있는 계층 내의 영상뿐만 아니라 참조 계층의 복원 영상을 함께 사용하여 현재 부호화 대상 블록의 예측 신호를 구할 수 있다.According to another embodiment, when encoding and decoding the target block, the prediction signal of the current encoding target block may be obtained by using not only an image in the layer to which the target block belongs but also a reconstructed image of the reference layer.
도 7은 본 발명의 다른 실시예예 따라 참조 계층을 이용하여 예측 신호를 생성하는 것을 설명하기 위한 개념도이다.7 is a conceptual diagram illustrating generation of a prediction signal using a reference layer according to another embodiment of the present invention.
도 7을 참조하면 현재 픽처(700)에서 부호화 및 복호화 대상이 되는 대상 블록(701)은 동일한 계층에 속하는 순방향 참조 픽처(710) 또는 역방향 참조 픽처(720)를 참조할 수 있고, 다른 계층에 속하는 하위 계층 참조 픽처(730)를 참조할 수도 있다. 순방향 참조 픽처(710), 역방향 참조 픽처(720) 및 하위 계층의 참조 픽처(730)는 복원된 픽처일 수 있다. Referring to FIG. 7, a target block 701 to be encoded and decoded in the current picture 700 may refer to a forward reference picture 710 or a backward reference picture 720 belonging to the same layer, and belong to another layer. Reference may be made to the lower layer reference picture 730. The forward reference picture 710, the backward reference picture 720, and the lower layer reference picture 730 may be reconstructed pictures.
대상 블록(701)의 예측 신호를 Pc[x,y]라고 하면, Pc[x,y]는 대상 블록(701)이 참조할 수 있는 픽처에 따라 다양한 방법으로 생성될 수 있다. 예측 신호 Pc[x,y]는 대상 블록(701)이 참조할 수 있는 픽처로부터 생성된 예측 값의 평균값 또는 가중 합, 즉 가중 평균등을 이용하여 생성될 수 있다.When the prediction signal of the target block 701 is referred to as Pc [x, y], Pc [x, y] may be generated in various ways according to the picture to which the target block 701 may refer. The prediction signal Pc [x, y] may be generated using an average value or weighted sum of the prediction values generated from the pictures to which the target block 701 may refer, that is, the weighted average.
(방법1) (Method 1)
순방향 참조 픽처(710)로부터 구한 예측 신호를 P0[x,y]라하고, 하위 계층 참조 픽처(730)로부터 구한 예측 신호를 P2[x,y]라고 할 경우, Pc[x,y]는 P0[x,y]와 P2[x,y]의 가중합으로 구할 수 있다. 가중합에 대한 일 예는 수식 2와 같다.When the prediction signal obtained from the forward reference picture 710 is called P0 [x, y] and the prediction signal obtained from the lower layer reference picture 730 is called P2 [x, y], Pc [x, y] is represented by P0. Can be obtained by weighted sum of [x, y] and P2 [x, y]. An example of the weighted sum is shown in Equation 2.
<수식 2> <Formula 2>
Pc[x,y] = { (a)P0[x,y] + (b)*P2[x,y] } / 2Pc [x, y] = {(a) P0 [x, y] + (b) * P2 [x, y]} / 2
수식 2에서 (a) 및 (b)는 가중합을 위한 파라미터이며, (a)와 (b)는 동일한 값을 가질 수도 있고, 서로 상이한 값을 가질 수도 있다. (a)가 (b)보다 클수도 있고, 반대로 (b)가 (a)보다 클 수도 있다. (a)와 (b)는 정수 연산이 가능하도록 설정될 수도 있고, 정수 연산과 무관한 값으로 설정될 수도 있다. (a) 및 (b)는 정수일 수도 있고 유리수일 수도 있다.In Equation 2, (a) and (b) are parameters for weighted summation, and (a) and (b) may have the same value or may have different values. (a) may be larger than (b), and conversely, (b) may be larger than (a). (a) and (b) may be set to enable integer arithmetic, or may be set to a value independent of integer arithmetic. (a) and (b) may be integers or rational numbers.
부호화기는 예측 신호 Pc[x,y]가 정수가 될 수 있도록 소정의 오프셋 값을 더할 수도 있다. The encoder may add a predetermined offset value such that the prediction signal Pc [x, y] may be an integer.
부호화기는 순방향 참조 픽처(710)를 참조하여 움직임 예측을 통해 획득한 움직임 벡터(MV_l0[x,y])와 하위 계층 참조 픽처(730)에 대해 움직임 예측을 통해 획득한 움직임 벡터(MV_l2[x,y])를 복호화기로 전송할 수 있다. The encoder refers to the forward reference picture 710 and the motion vector MV_l0 [x, y] obtained through motion prediction and the motion vector MV_l2 [x, obtained through motion prediction with respect to the lower layer reference picture 730. y]) can be transmitted to the decoder.
하위 계층의 복원된 영상으로부터 현재 대상 블록의 위치와 대응되는 위치의 참조 블록을 구한 후 해당 참조 블록의 복원 샘플값을 대상 블록의 예측 신호로 사용한 경우, 부호화기는 하위 계층의 영상에 대한 움직임 정보 전송을 생략할 수 있다. If the reference block of the position corresponding to the position of the current target block is obtained from the reconstructed image of the lower layer, and the reconstructed sample value of the reference block is used as the prediction signal of the target block, the encoder transmits motion information about the image of the lower layer. Can be omitted.
(방법 2) (Method 2)
역방향 참조 픽처(720)로부터 구한 예측 신호를 P1[x,y]라 하면, Pc[x,y]는 P1[x,y]와 하위 계층 참조 픽처(730)로부터 구한 예측 신호 P2[x,y]의 가중합으로 생성될 수 있다. 가중합에 대한 일 예는 수식 3과 같다.When the prediction signal obtained from the backward reference picture 720 is P1 [x, y], Pc [x, y] is the prediction signal P2 [x, y obtained from P1 [x, y] and the lower layer reference picture 730. ] Can be generated by weighted sum of An example of the weighted sum is shown in Equation 3.
<수식 3><Equation 3>
Pc[x,y] = { (a)*P1[x,y] + (b)*P2[x,y] } / 2Pc [x, y] = {(a) * P1 [x, y] + (b) * P2 [x, y]} / 2
(a) 및 (b)는 가중합을 위한 파라미터이며, (a)와 (b)는 동일한 값을 가질 수도 있고, 서로 상이한 값을 가질 수도 있다. (a)가 (b)보다 클수도 있고, 반대로 (b)가 (a)보다 클 수도 있다. (a)와 (b)는 정수 연산이 가능하도록 설정될 수도 있고, 정수 연산과 무관한 값으로 설정될 수도 있다. (a) 및 (b)는 정수 일 수도 있고 유리수 일 수도 있다.(a) and (b) are parameters for weighted summation, and (a) and (b) may have the same value or may have different values from each other. (a) may be larger than (b), and conversely, (b) may be larger than (a). (a) and (b) may be set to enable integer arithmetic, or may be set to a value independent of integer arithmetic. (a) and (b) may be integers or rational numbers.
부호화기는 예측 신호 Pc[x,y]가 정수가 될 수 있도록 소정의 오프셋 값을 더할 수도 있다. The encoder may add a predetermined offset value such that the prediction signal Pc [x, y] may be an integer.
부호화기는 역방향 참조 픽처(720)를 참조하여 움직임 예측을 통해 획득한 움직임 벡터(MV_l1[x,y])와 하위 계층 참조 픽처(730)에 대해 움직임 예측을 통해 획득한 움직임 벡터(MV_l2[x,y])를 복호화기로 전송할 수 있다. The encoder refers to the backward reference picture 720 and the motion vector MV_l1 [x, y] obtained through motion prediction and the motion vector MV_l2 [x, obtained through motion prediction with respect to the lower layer reference picture 730. y]) can be transmitted to the decoder.
이 경우에도, 하위 계층의 복원된 영상으로부터 현재 대상 블록의 위치와 대응되는 위치의 참조 블록을 구한 후 해당 참조 블록의 복원 샘플값을 대상 블록의 예측 신호로 사용한 경우, 부호화기는 하위 계층의 영상에 대한 움직임 정보 전송을 생략할 수 있다. Even in this case, when a reference block of a position corresponding to the position of the current target block is obtained from the reconstructed image of the lower layer, and the reconstructed sample value of the reference block is used as the prediction signal of the target block, the encoder is applied to the image of the lower layer. The transmission of the motion information may be omitted.
(방법 3) (Method 3)
Pc[x,y]는 순방향 참조 픽처(710)로부터 구한 예측 신호 P0[x,y]와 역방향 참조 픽처(720)으로부터 구한 예측 신호 P1[x,y]와 하위 계층 참조 픽처(730)로부터 구한 예측 신호 P2[x,y]의 가중합으로 유도될 수 있다. 가중합에 대한 일 예는 수식 4와 같다.Pc [x, y] is obtained from the prediction signal P0 [x, y] obtained from the forward reference picture 710 and the prediction signal P1 [x, y] obtained from the backward reference picture 720 and the lower layer reference picture 730. It can be derived from the weighted sum of the prediction signals P2 [x, y]. An example of the weighted sum is shown in Equation 4.
(수식 4)(Formula 4)
Pc(x,y) = { (a)*P0(x,y) + (b)*P1(x,y) + (c)*P2(x,y) } / 3Pc (x, y) = {(a) * P0 (x, y) + (b) * P1 (x, y) + (c) * P2 (x, y)} / 3
(a), (b)와 (c)는 가중합을 위한 파라미터이며, (a), (b)와 (c)는 동일한 값을 가질 수도 있고, 서로 상이한 값을 가질 수도 있다. (a), (b)와 (c)는 정수 연산이 가능하도록 설정될 수도 있고, 정수 연산과 무관한 값으로 설정될 수도 있다. (a), (b)와 (c)는 정수 일 수도 있고 유리수 일 수도 있다.(a), (b) and (c) are parameters for weighted polymerization, and (a), (b) and (c) may have the same value or may have different values from each other. (a), (b) and (c) may be set to enable integer arithmetic, or may be set to a value independent of integer arithmetic. (a), (b) and (c) may be integers or rational numbers.
부호화기는 예측 신호 Pc[x,y]가 정수가 될 수 있도록 소정의 오프셋 값을 더할 수도 있다. The encoder may add a predetermined offset value such that the prediction signal Pc [x, y] may be an integer.
부호화기는 순방향 참조 픽처(710), 역방향 참조 픽처(720)를 참조하여 움직임 예측을 통해 획득한 움직임 벡터(MV_l0[x,y], MV_11[x,y])와 하위 계층 참조 픽처(730)에 대해 움직임 예측을 통해 획득한 움직임 벡터(MV_l2[x,y])를 복호화기로 전송할 수 있다. The encoder refers to the forward reference picture 710 and the backward reference picture 720 to the motion vectors MV_l0 [x, y] and MV_11 [x, y] obtained through motion prediction and the lower layer reference picture 730. The motion vector MV_l2 [x, y] obtained through motion prediction may be transmitted to the decoder.
하위 계층의 복원된 영상으로부터 현재 대상 블록의 위치와 대응되는 위치의 참조 블록을 구한 후 해당 참조 블록의 복원 샘플값을 대상 블록의 예측 신호로 사용한 경우, 예를 들어 (a)와 (b)가 0이 경우, 부호화기는 하위 계층의 영상에 대한 움직임 정보 전송을 생략할 수 있다.If a reference block of a position corresponding to the position of the current target block is obtained from the reconstructed image of the lower layer and then the reconstructed sample value of the reference block is used as the prediction signal of the target block, for example, (a) and (b) In this case, the encoder may omit motion information transmission for an image of a lower layer.
(방법 4) (Method 4)
Pc[x,y]는 현재 부호화 대상 블록에 인접한 복원된 주변 블록에 포함된 참조 샘플로부터 구한 예측 신호 P0[x,y]와 하위 계층 참조 픽처(730)로부터 구한 예측 신호 P2[x,y]의 가중합으로 생성될 수 있다. 가중합에 대한 일 예는 수식 5와 같다Pc [x, y] is the prediction signal P0 [x, y] obtained from the reference samples included in the reconstructed neighboring block adjacent to the current encoding target block and the prediction signal P2 [x, y] obtained from the lower layer reference picture 730. It can be generated by the weighted sum of. An example of a weighted sum is shown in Equation 5.
<수식 5> <Equation 5>
Pc[x,y] = { (a)*P0[x,y] + (b)*P2[x,y] } / 2Pc [x, y] = {(a) * P0 [x, y] + (b) * P2 [x, y]} / 2
(a) 및 (b)는 가중합을 위한 파라미터이며, (a)와 (b)는 동일한 값을 가질 수도 있고, 서로 상이한 값을 가질 수도 있다. (a)가 (b)보다 클수도 있고, 반대로 (b)가 (a)보다 클 수도 있다. (a)와 (b)는 정수 연산이 가능하도록 설정될 수도 있고, 정수 연산과 무관한 값으로 설정될 수도 있다. (a) 및 (b)는 정수 일 수도 있고 유리수 일 수도 있다.(a) and (b) are parameters for weighted summation, and (a) and (b) may have the same value or may have different values from each other. (a) may be larger than (b), and conversely, (b) may be larger than (a). (a) and (b) may be set to enable integer arithmetic, or may be set to a value independent of integer arithmetic. (a) and (b) may be integers or rational numbers.
부호화기는 예측 신호 Pc[x,y]가 정수가 될 수 있도록 소정의 오프셋 값을 더할 수도 있다. The encoder may add a predetermined offset value such that the prediction signal Pc [x, y] may be an integer.
부호화기는 주변 복원 참조 샘플로부터 구한 화면내 예측 모드 및 하위 계층 참조 픽처(730)에 대해 움직임 예측을 통해 획득한 움직임 정보(MV_l2[x,y])를 부호화 하여 복호화기로 전송할 수 있다. The encoder may encode and transmit motion information MV_l2 [x, y] obtained through motion prediction with respect to the intra prediction mode and the lower layer reference picture 730 obtained from the neighbor reconstruction reference sample.
한편, 이 경우에도 주변 블록에 포함된 참조 샘플로부터 구한 예측 신호 P0[x,y]와 무관하게 하위 계층의 복원된 영상으로부터 현재 대상 블록의 위치와 대응되는 위치의 블록의 복원 샘플값을 예측 신호로 사용한 경우, 하위 계층 영상에 대한 움직임 정보 전송은 생략할 수 있다. Meanwhile, even in this case, regardless of the prediction signal P0 [x, y] obtained from the reference samples included in the neighboring block, the reconstructed sample value of the block corresponding to the position of the current target block from the reconstructed image of the lower layer is predicted. In this case, transmission of motion information on a lower layer image may be omitted.
수식 2 내지 5에 사용된 가중치 (a), (b), (c)등에 대한 계수는 부호화 파라메터 등을 이용하여 시그널링 될 수 있다. 부호화 파라메터는 구문요소(syntax element)와 같이 부호화기에서 부호화되어 복호화기로 전송되는 정보뿐만 아니라, 부호화 혹은 복호화 과정에서 유추될 수 있는 정보를 포함할 수 있으며, 영상을 부호화하거나 복호화할때 필요한 정보를 의미한다. Coefficients for weights (a), (b), and (c) used in Equations 2 to 5 may be signaled using encoding parameters. The encoding parameter may include information that may be inferred in the encoding or decoding process as well as information encoded by the encoder and transmitted to the decoder, such as a syntax element, and refers to information necessary for encoding or decoding an image. do.
가중합을 위한 (a), (b), (c) 등에 대한 계수는 VPS(Video Parameter Set), SPS(Sequence Parameter Set), PPS(Picture Parameter Set), APS(Adaptation Parameter Set), Slice header 등에 포함되어 부호화되고, 복호화기로 전송될 수 있다.Coefficients for (a), (b), (c), etc. for weighted summation are VPS (Video Parameter Set), SPS (Sequence Parameter Set), PPS (Picture Parameter Set), APS (Adaptation Parameter Set), Slice header, etc. It can be included, encoded, and transmitted to the decoder.
또는 가중합을 위한 (a), (b), (c) 등에 대한 계수는 부호화기와 복화기가 동일한 계수값을 사용할 수 있도록 정해진 규약에 의해 설정될 수도 있다.Alternatively, the coefficients for (a), (b), (c), etc. for weighted sum may be set according to a convention that allows the encoder and the decoder to use the same coefficient value.
하위 계층 영상에 대한 움직임 정보를 부호화함에 있어 움직임 정보 중 참조 픽처를 지시하는 참조 픽처 인덱스(refIdx)는 전송이 생략될 수 있다. In encoding motion information of a lower layer image, transmission of a reference picture index refIdx indicating a reference picture among motion information may be omitted.
부호화기는 대상 블록과 인접한 주변 블록들의 움직임 정보를 이용하여 현재 대상 블록의 움직임 벡터를 예측한 후 대상 블록의 움직임 벡터와 예측된 움직임 벡터 사이의 차분값을 부호화하여 움직임 벡터(MV_2[x,y])로서 전송할 수 있다. 이 때, 대상 블록의 움직임 예측을 위하여 사용되는 주변 블록들은 하위 계층의 복원된 영상으로 부호화된 블록일 수 있다. 즉, 부호화기는 주변 블록 중 하위 계층의 복원된 영상으로 부호화된 주변 블록의 움직임 정보를 이용하여 대상 블록의 움직임 벡터를 유도할 수 있다. 이 경우, 부호화기는 어떤 블록의 움직임 정보를 이용하는지에 관한 정보를 부호화하여 복호화기로 전송할 수 있다.The encoder predicts the motion vector of the current target block by using the motion information of the neighboring blocks adjacent to the target block, and then encodes a difference value between the motion vector of the target block and the predicted motion vector to obtain a motion vector (MV_2 [x, y]). Can be sent as). In this case, the neighboring blocks used for the motion prediction of the target block may be blocks encoded with the reconstructed image of the lower layer. That is, the encoder may derive the motion vector of the target block by using the motion information of the neighboring block encoded as the reconstructed image of the lower layer among the neighboring blocks. In this case, the encoder may encode information about which block motion information is used and transmit the encoded information to the decoder.
만약 주변 블록들 중 하위 계층의 복원된 영상으로 부호화된 블록이 없을 경우, (0,0)을 움직임 벡터 예측 후보로 사용할 수 있다.If none of the neighboring blocks is encoded with the reconstructed image of the lower layer, (0,0) may be used as the motion vector prediction candidate.
한편, 부호화기에서는 대상 블록을 부호화하는 상술된 방법 중 적어도 하나의 방법을 사용하여 현재 부호화 대상 블록의 예측 신호를 구할 수 있다. 즉, 부호화기는 율-왜곡 관점에서 대상 블록과 동일한 픽처의 참조 샘플을 이용하는 화면 내 예측 방법, 동일 계층의 참조 픽처를 이용하는 화면 간 예측 방법, 하위 계층을 이용하여 화면 간 예측을 수행하는 방법, 하위 계층 및 상위 계층의 포함되어 잇는 복수의 참조 픽처를 대상으로 화면 간 예측을 수행한 후 그 예측 값들의 가중합을 이용하는 방법 중 최적의 예측 방법을 선택한 후 선택된 방법에 대한 정보를 부호화하여 전송할 수 있다. Meanwhile, the encoder may obtain a prediction signal of the current encoding target block by using at least one of the above-described methods of encoding the target block. That is, the encoder is an intra prediction method using a reference sample of the same picture as the target block from a rate-distortion point of view, an inter prediction method using a reference picture of the same layer, a method of performing inter prediction using a lower layer, and a lower one. After performing inter prediction on a plurality of reference pictures included in a layer and a higher layer, an optimal prediction method may be selected from among methods using a weighted sum of the prediction values, and information about the selected method may be encoded and transmitted. .
예측 방법으로 화면 내 예측이 선택되지 않은 대상 블록에 대해서는 표 1과 같이 선택 방법에 대한 정보를 부호화할 수 있다. 표 1은 예측 방법을 시그널링 하기 위하여 상위 계층의 슬라이스 타입에 따른 화면 간 예측 방향을 알려주는 신택스(inter_pred_idc)를 나타낸 것이다. Information about the selection method may be encoded as shown in Table 1 for the target block in which the intra prediction is not selected as the prediction method. Table 1 shows a syntax (inter_pred_idc) indicating a prediction direction between pictures according to slice types of a higher layer in order to signal a prediction method.
표 1
Figure PCTKR2013006596-appb-T000001
Table 1
Figure PCTKR2013006596-appb-T000001
표 1에서, 각 예측 방법에 대해 할당된 번호는 발생 확률에 따라 가변적일 수 있으며, 많이 발생하는 예측 방법에 대해 작은 번호를 할당할 수 있으며, 적게 발생하는 예측 방법에 대해 큰 번호를 할당하여 사용할 수 있다. In Table 1, the number assigned for each prediction method can vary according to the probability of occurrence, can be assigned a small number for the most frequently occurring prediction method, and can be assigned a large number for the less frequently occurring prediction method. Can be.
이하에서는 복호화기에서 복호화 대상이 되는 대상 블록에 예측 신호를 생성하는 방법에 대하여 살펴 본다. Hereinafter, a method of generating a prediction signal in a target block to be decoded by the decoder will be described.
부호화기에서 전송된 예측 방법에 대한 정보에 따라 현재 복호화 대상 블록의 예측 신호 생성 방법을 달리 선택할 수 있다. The prediction signal generation method of the current decoding object block may be differently selected according to the information on the prediction method transmitted from the encoder.
현재 복호화 대상 블록의 예측 신호 생성 방법이 도 4 및 5를 참조하여 설명된 화면 내 예측인 경우, 현재 대상 블록의 주변 복원된 샘플 값으로부터 화면 내 예측을 수행하여 예측 신호를 생성할 수 있다. When the prediction signal generation method of the current decoding target block is the intra prediction described with reference to FIGS. 4 and 5, the prediction signal may be generated by performing the intra prediction from the neighbor reconstructed sample values of the current target block.
이 경우 통상의 화면 내 예측 방법에 있어서의 복호화 과정을 수행하여 예측 신호를 생성할 수 있으며, 즉, 부호화기로부터 전송된 레지듀얼을 예측 신호에 더하여 현재 블록을 복원할 수 있다. In this case, a prediction signal may be generated by performing a decoding process in a conventional intra prediction method, that is, the current block may be reconstructed by adding a residual transmitted from an encoder to the prediction signal.
또한, 현재 복호화 대상 블록의 예측 신호 생성 방법이 상술한 화면 간 예측인 경우, 현재 복호화 대상 블록을 포함하고 있는 영상을 기준으로 이전 또는 이후 영상들을 참조하여 움직임 보상을 수행하여 예측 신호를 생성할 수 있다. In addition, when the prediction signal generation method of the current decoding target block is the above-described inter prediction, the prediction signal may be generated by performing motion compensation with reference to the previous or subsequent images based on the image including the current decoding target block. have.
즉, 복호화기는 통상의 화면 간 예측 방법에 따른 복호화 과정을 수행하여 예측 신호를 생성 할 수 있다 복호화기는 부호화기로부터 전송된 레지듀얼을 예측 신호에 더하여 현재 블록을 복원할 수 있다. That is, the decoder may generate a prediction signal by performing a decoding process according to a conventional inter-screen prediction method. The decoder may reconstruct the current block by adding a residual transmitted from the encoder to the prediction signal.
현재 복호화 대상 블록의 예측 신호 생성 방법이 도 6과 같이 참조 계층을 이용한 경우, 현재 복호화 대상 블록이 참조하고 있는 계층의 복원된 영상을 대상으로 움직임 보상을 수행하여 예측 신호를 생성할 수 있다. When the prediction signal generation method of the current decoding object block uses the reference layer as shown in FIG. 6, the prediction signal may be generated by performing motion compensation on the reconstructed image of the layer referred to by the current decoding object block.
복호화기는 부호화기에서 전송된 움직임 정보를 복호화한 후 참조 계층의 복원 영상을 대상으로 움직임 보상을 수행하여 예측 신호를 생성할 수 있다.After decoding the motion information transmitted from the encoder, the decoder may generate a prediction signal by performing motion compensation on the reconstructed image of the reference layer.
이때, 복호화기는 움직임 정보를 복호화할 때 부호화기와 동일하게 현재 복호화 대상 블록의 주변 블록들로부터 움직임 벡터 예측 후보를 구성할 수 있다. 이 경우, 참조 계층의 복원된 영상으로 복호화된 주변 블록만을 예측 후보로 사용할 수도 있다. 만약 주변 블록들 중 참조 계층의 복원된 영상으로 복호화된 블록이 없을 경우, (0,0)을 움직임 벡터 예측 후보로 사용할 수 있다. In this case, the decoder may configure a motion vector prediction candidate from neighboring blocks of the current decoding target block, similarly to the encoder when decoding the motion information. In this case, only the neighboring block decoded into the reconstructed picture of the reference layer may be used as the prediction candidate. If none of the neighboring blocks is decoded as a reconstructed picture of the reference layer, (0,0) may be used as a motion vector prediction candidate.
복호화기는 부호화기로부터 전송된 최적 예측 후보 정보를 파싱한 후 선택된 움직임 벡터 예측값과 복호화된 움직임 벡터 차분 신호를 더하여 움직임 보상에 사용되는 움직임 벡터값(MV_l2[x,y])을 얻을 수 있다. The decoder may parse the optimal prediction candidate information transmitted from the encoder and then add the selected motion vector prediction value and the decoded motion vector difference signal to obtain a motion vector value MV_l2 [x, y] used for motion compensation.
부호화기로부터 현재 복호화 대상 블록의 위치와 동일 위치를 참조하라는 지시자가 있을 경우, 복호화기는 참조 계층의 복원 영상에 대한 움직임 벡터를 (0,0)로 유추 하고 현재 복호화 대상 블록의 위치와 대응되는 위치의 참조 계층 복원 블록으로부터 예측 신호를 생성할 수 있다. If there is an indicator to refer to the same position as the position of the current decoding object block from the encoder, the decoder infers a motion vector of the reconstructed image of the reference layer as (0,0) and determines the position corresponding to the position of the current decoding object block. A prediction signal may be generated from the reference layer reconstruction block.
또는, 복호화기는 정해진 규약에 따라 현재 복호화 대상 블록의 위치와 대응되는 위치의 참조 계층 복원 블록으로부터 예측 신호를 생성할 수 있다. Alternatively, the decoder may generate a prediction signal from a reference layer reconstruction block at a position corresponding to the position of the current decoding target block according to a predetermined protocol.
복호화기는 상기와 같이 생성된 예측 신호에 부호화기로부터 전송된 레지듀얼을 더하여 현재 블록을 복원할 수 있다. The decoder may reconstruct the current block by adding the residual transmitted from the encoder to the prediction signal generated as described above.
또 다른 실시예에 따르면, 복호화기는 복호화 대상 블록의 예측 신호 생성 방법이 도 7과 같이 동일 계층내의 영상 및 참조 계층의 영상을 함께 이용한 경우, 동일 계층내의 참조 영상 및 현재 복호화 대상 블록이 참조하고 있는 계층의 복원된 영상으로부터 움직임 보상을 수행하여 예측 신호를 생성할 수 있다. According to another embodiment, when the method for generating the prediction signal of the decoding object block uses the image of the same layer and the image of the reference layer as shown in FIG. 7, the decoder refers to the reference image and the current decoding object block in the same layer. The prediction signal may be generated by performing motion compensation on the reconstructed image of the layer.
복호화기는 부호화기에서 전송된 동일 계층의 참조 영상에 대한 움직임 정보 또는 화면내 예측 모드 및 참조 계층에 대한 움직임 정보를 복호화한 후 동일 계층의 참조 영상에 대한 움직임 보상 또는 주변 복원된 블록에 포함된 참조 샘플로부터 화면 내 예측 및 참조 계층의 참조 영상에 대해 움직임 보상을 수행하여 부호화기와 동일한 방식으로 예측 신호를 생성할 수 있다. The decoder decodes the motion information for the reference picture of the same layer or the intra prediction mode and the motion information for the reference layer transmitted from the encoder, and then includes the reference sample included in the motion compensation or neighbor reconstructed block for the reference picture of the same layer. The prediction signal may be generated in the same manner as the encoder by performing motion compensation on the intra prediction and the reference image of the reference layer.
복호화기는 부호화기에서 전송된 동일 계층의 참조 영상에 대한 움직임 정보 또는 화면내 예측 모드를 복호화한 후 참조 영상에 대한 움직임 보상 또는 주변 복원된 블록에 포함된 참조 샘플로부터 화면 내 예측 수행 및 현재 복호화 대상 블록의 위치와 대응되는 참조 계층의 복원 블록으로부터 예측 신호를 생성하여 부호화기와 동일한 방식으로 예측 신호를 생성할 수도 있다 The decoder decodes the motion information or the intra prediction mode for the reference picture of the same layer transmitted from the encoder, and then performs intra prediction and the current decoding target block from the reference samples included in the motion compensation or neighbor reconstructed block for the reference picture. The prediction signal may be generated from the reconstructed block of the reference layer corresponding to the position of to generate the prediction signal in the same manner as the encoder.
예를 들어, 현재 복호화 대상 블록의 슬라이스 타입이 표 1의 EP 슬라이스이며, 복호화된 정보(inter_pred_idc)의 값이 4인 경우, 복호화기에서는 순방향 참조 영상과 참조 계층의 복원 영상을 이용하여 예측 신호를 생성할 수 있다. For example, when the slice type of the current decoding target block is the EP slice of Table 1 and the value of the decoded information inter_pred_idc is 4, the decoder uses the forward reference picture and the reconstructed picture of the reference layer to predict the prediction signal. Can be generated.
이 때 복호화해야 할 움직임 정보로는 순방향 참조 영상 및 참조 계층의 움직임 정보가 있을 수 있다.At this time, the motion information to be decoded may include a forward reference picture and motion information of a reference layer.
이 때, 현재 복호화 대상 블록의 예측 신호는 Pc[x,y]는 순방향 참조 영상으로부터 움직임 보상을 통해 구한 예측 신호 P0[x,y]와 참조 계층 영상으로부터 움직임 보상을 통해 구한 예측 신호 P2[x,y]의 가중합으로 구할 수 있다. At this time, the prediction signal of the current decoding target block is Pc [x, y] for the prediction signal P0 [x, y] obtained through motion compensation from the forward reference image and the prediction signal P2 [x obtained for motion compensation from the reference layer image. , y] to obtain the weighted sum.
복호화기는 부호화기로부터 현재 복호화 대상 블록의 위치와 동일 위치를 참조하라는 지시자가 있을 경우, 참조 계층의 복원 영상에 대한 움직임 벡터를 (0,0)로 유추하고 현재 복호화 대상 블록의 위치와 대응되는 위치의 참조 계층 블록으로부터 예측 신호를 생성할 수 있다. If there is an indicator to refer to the same position as the position of the current decoding target block from the encoder, the decoder infers a motion vector of the reconstructed image of the reference layer as (0,0) and determines the position corresponding to the position of the current decoding target block. A prediction signal may be generated from the reference layer block.
또는 복호화기는 정해진 규약에 따라 현재 복호화 대상 블록의 위치와 대응되는 위치의 참조 계층 블록으로부터 예측 신호를 생성할 수 있다. Alternatively, the decoder may generate a prediction signal from a reference layer block at a position corresponding to the position of the current decoding target block according to a predetermined protocol.
복호화기는 상기와 같이 생성된 예측 신호에 부호화기로부터 전송된 레지듀얼을 더하여 현재 블록을 복원할 수 있다. The decoder may reconstruct the current block by adding the residual transmitted from the encoder to the prediction signal generated as described above.
표 2는 본 발명에 따라 다 계층 구조를 부/복호화하는 영상 부,복호화 장치에서 적용될 수 있는 상위 계층의 부호화 유닛(CU)에 대한 신택스 구조의 일 실시예이다.Table 2 is an embodiment of a syntax structure for a coding unit (CU) of a higher layer that can be applied to an image sub-decoding device that encodes / decodes a multi-layer structure according to the present invention.
표 2
Figure PCTKR2013006596-appb-T000002
TABLE 2
Figure PCTKR2013006596-appb-T000002
Figure PCTKR2013006596-appb-I000001
Figure PCTKR2013006596-appb-I000001
표 2를 참조하면, adaptive_base_mode_flag는 VPS(Video Parameter Set), SPS(Sequence Parameter Set), PPS(Picture Parameter Set), APS(Adaptation Parameter Set), slice header 에 위치할 수 있으며 그 값이 “1”이면 base_mode_flag는 “1” 또는 “0”의 값을 갖을 수 있다. Referring to Table 2, adaptive_base_mode_flag may be located in a video parameter set (VPS), a sequence parameter set (SPS), a picture parameter set (PPS), an adaptation parameter set (APS), and a slice header. The base_mode_flag may have a value of "1" or "0".
adaptive_base_mode_flag 가 “0”의 값을 가지는 경우, base_mode_flag값은 default_base_mode_flag값에 의해 결정될 수 있다. When adaptive_base_mode_flag has a value of "0", the base_mode_flag value may be determined by the default_base_mode_flag value.
default_base_mode_flag는 VPS(Video Parameter Set), SPS(Sequence Parameter Set), PPS(Picture Parameter Set), APS(Adaptation Parameter Set), slice header 에 위치할 수 있으며 그 값이 “1”이면 base_mode_flag는 항상 “1”의 값을 갖는다. default_base_mode_flag 가“0”의 값을 가지는 경우, base_mode_flag는 항상 “0”의 값을 갖는다. default_base_mode_flag can be located in VPS (Video Parameter Set), SPS (Sequence Parameter Set), PPS (Picture Parameter Set), APS (Adaptation Parameter Set), slice header. If the value is “1”, base_mode_flag is always “1”. Has the value of. When default_base_mode_flag has a value of "0", base_mode_flag always has a value of "0".
base_mode_flag는“1”값을 가지는 경우 부호화 유닛은 도 6 및 도 7에 도시되어 있는 바와 같이 참조 계층을 이용하여 부호화될 수 있다. base_mode_flag가“0”값을 가지는 경우 부호화 유닛은 현재 계층을 이용하는 통상적인 화면 내 예측, 화면 간 예측 방법으로 부호화 될 수 있다. When base_mode_flag has a value of “1”, the coding unit may be encoded using a reference layer as illustrated in FIGS. 6 and 7. If the base_mode_flag has a value of "0", the coding unit may be encoded by a general intra picture prediction or inter picture prediction method using the current layer.
표 3은 본 발명에 따라 다 계층 구조를 부/복호화하는 영상 부,복호화 장치에서 적용될 수 있는 상위 계층의 예측 유닛(PU)에 대한 신택스 구조의 일 실시예이다.Table 3 is an embodiment of a syntax structure for a prediction unit (PU) of a higher layer that can be applied to an image sub-decoding device that encodes / decodes a multi-layer structure according to the present invention.
표 3
Figure PCTKR2013006596-appb-T000003
TABLE 3
Figure PCTKR2013006596-appb-T000003
Figure PCTKR2013006596-appb-I000002
Figure PCTKR2013006596-appb-I000002
Figure PCTKR2013006596-appb-I000003
Figure PCTKR2013006596-appb-I000003
표 3을 참조하면, combined_pred_flag[x0][y0]는 부호화 유닛 내에서 base_mode_flag가 “1”의 값을 가질 경우, 그 값이“1”이면, 예측 유닛에 대한 예측 신호는 도 7과 같은 방법으로 생성될 수 있다. combined_pred_flag[x0][y0]가“0”의 값을 가질 경우, 예측 유닛에 대한 예측 신호는 도 6과 같은 방법으로 생성될 수 있다. Referring to Table 3, when combined_pred_flag [x0] [y0] has a value of “1” in base_mode_flag in a coding unit, if the value is “1”, the prediction signal for the prediction unit is the same as that of FIG. 7. Can be generated. When combined_pred_flag [x0] [y0] has a value of “0”, the prediction signal for the prediction unit may be generated as shown in FIG. 6.
mv_l2_zero_flag는 VPS(Video Parameter Set), SPS(Sequence parameter Set), PPS(Picture Parameter Set), APS(Adaptation Parameter Set), Slice header, 부호화 유닛에 존재할 수 있으며, 그 값이 “1”의 값을 가질 경우, 복호화기는 참조 계층의 복원 영상에 대한 움직임 정보를 (0,0)으로 유추하여 사용할 수 있다. 이 경우, 참조 계층의 복원 영상에 대해서는 어떠한 움직임 정보도 전송을 하지 않을 수 있다. mv_l2_zero_flag may exist in a video parameter set (VPS), a sequence parameter set (SPS), a picture parameter set (PPS), an adaptation parameter set (APS), a slice header, and an encoding unit, and has a value of “1”. In this case, the decoder may infer the motion information of the reconstructed picture of the reference layer as (0,0). In this case, no motion information may be transmitted for the reconstructed picture of the reference layer.
도 8은 본 발명에 따라 대상 블록의 예측 신호를 생성하는 방법을 설명하기 위한 제어 흐름도이다. 설명의 편의상 도 8을 참조로, 복호화기에서 예측 신호를 생성하고 대상 블록을 복원하는 것을 일 예로 하여 설명한다. 8 is a control flowchart illustrating a method of generating a prediction signal of a target block according to the present invention. For convenience of description, referring to FIG. 8, an example of generating a prediction signal and reconstructing a target block by a decoder will be described.
일단 복호화기는 대상 블록이 상술한 예측 방법 중 어느 것을 이용하여 예측되었는지에 대한 표 2 내지 표 3에 기초한 예측 방법 정보를 수신한다(S801).First, the decoder receives prediction method information based on Tables 2 to 3 as to which of the prediction methods the target block is predicted using (S801).
대상 블록에 대한 예측 방법이 화면 내 예측이면(S802), 복호화기는 대상 블록에 인접한 주변의 복원된 샘플값으로부터 예측 신호를 생성할 수 있다(S803). If the prediction method for the target block is intra prediction, the decoder may generate a prediction signal from the reconstructed sample values in the vicinity of the target block (S803).
복호화기는 부호화기로부터 전송된 레지듀얼을 생성된 예측 신호에 더하여 대상 블록을 복원할 수 있다(S804).The decoder may reconstruct the target block by adding the residual transmitted from the encoder to the generated prediction signal (S804).
한편, 대상 블록에 대한 예측 방법이 통상적인 화면 간 예측이면(S805), 복호화기는 대상 블록을 포함하고 있는 영상을 기준으로 이전 또는 이후 영상들을 참조하여 움직임 보상을 수행함으로써 예측 신호를 생성할 수 있다(S806).On the other hand, if the prediction method for the target block is a normal inter-screen prediction (S805), the decoder may generate a prediction signal by performing motion compensation with reference to previous or subsequent images based on the image including the target block. (S806).
이 경우에도, 복호화기는 부호화기로부터 전송된 레지듀얼을 생성된 예측 신호에 더하여 대상 블록을 복원할 수 있다(S804).Even in this case, the decoder may reconstruct the target block by adding the residual transmitted from the encoder to the generated prediction signal (S804).
만약, 대상 블록에 대한 예측 방법이 참조 계층 즉, 복원된 하위 계층을 대상으로 움직임 보상을 수행하는 방법인 경우(S807), 복호화기는 하위 계층 방향으로 움직임 보상을 수행하여 예측 신호를 생성할 수 있다(S808).If the prediction method for the target block is a method for performing motion compensation on the reference layer, that is, the restored lower layer (S807), the decoder may generate the prediction signal by performing motion compensation toward the lower layer. (S808).
움직임 예상 및 보상을 위하여 부호화기로부터 수신되는 움직임 정보 중 움직임 벡터는 현재 대상 블록의 주변 블록으로부터 유도된 움직임 벡터 중 어느 하나 일 수 있고 이 때 주변 블록은 하위 계층의 복원된 영상으로 복호화된 블록을 포함할 수 있다. The motion vector of the motion information received from the encoder for motion estimation and compensation may be any one of motion vectors derived from the neighboring block of the current target block, and the neighboring block includes a block decoded into a reconstructed image of a lower layer. can do.
만약, 대상 블록에 대한 예측 방법이 동일 계층내의 영상 및 하위 계층의 영상을 함께 이용하는 경우(S809), 복호화기는 동일 계층내의 참조 픽처 및 현재 복호화 대상 블록이 참조하고 있는 계층의 복원된 영상으로부터 움직임 움직임 보상을 수행하여 예측 신호를 생성할 수 있다(S810).If the prediction method for the target block uses a picture of the same layer and a picture of a lower layer together (S809), the decoder moves motion from the reference picture in the same layer and the reconstructed picture of the layer referenced by the current decoding target block. The compensation may be performed to generate a prediction signal (S810).
예측 신호는 부호화기로부터 수신된 레지듀얼과 가산되고, 이는 대상 블록의 복원값이 된다(S804).The prediction signal is added to the residual received from the encoder, which becomes a reconstructed value of the target block (S804).
상술한 실시예에서, 방법들은 일련의 단계 또는 블록으로서 순서도를 기초로 설명되고 있으나, 본 발명은 단계들의 순서에 한정되는 것은 아니며, 어떤 단계는 상술한 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다. 또한, 당해 기술 분야에서 통상의 지식을 가진 자라면 순서도에 나타난 단계들이 배타적이지 않고, 다른 단계가 포함되거나, 순서도의 하나 또는 그 이상의 단계가 본 발명의 범위에 영향을 미치지 않고 삭제될 수 있음을 이해할 수 있을 것이다.In the above-described embodiment, the methods are described based on a flowchart as a series of steps or blocks, but the present invention is not limited to the order of steps, and any steps may occur in a different order or at the same time than the other steps described above. have. Also, one of ordinary skill in the art appreciates that the steps shown in the flowcharts are not exclusive, that other steps may be included, or that one or more steps in the flowcharts may be deleted without affecting the scope of the present invention. I can understand.
상술한 실시예는 다양한 양태의 예시들을 포함한다. 다양한 양태들을 나타내기 위한 모든 가능한 조합을 기술할 수는 없지만, 해당 기술 분야의 통상의 지식을 가진 자는 다른 조합이 가능함을 인식할 수 있을 것이다. 따라서, 본 발명은 이하의 특허청구범위 내에 속하는 모든 다른 교체, 수정 및 변경을 포함한다고 할 것이다.The above-described embodiments include examples of various aspects. While not all possible combinations may be described to represent the various aspects, one of ordinary skill in the art will recognize that other combinations are possible. Accordingly, the invention is intended to embrace all other replacements, modifications and variations that fall within the scope of the following claims.

Claims (20)

  1. 복수의 계층을 지원하는 영상의 복호화 방법에 있어서,In the decoding method of an image supporting a plurality of layers,
    복호화 대상이 되는 대상 블록의 예측 방법에 대한 예측 방법 정보를 수신하는 단계와;Receiving prediction method information on a prediction method of a target block to be decoded;
    수신된 정보에 기초하여 상기 대상 블록의 예측 신호를 생성하는 단계를 포함하고, Generating a prediction signal of the target block based on the received information,
    상기 예측 방법 정보는 복원된 하위 계층을 이용하여 상기 대상 블록을 예측할 수 있는 것을 포함하는 영상 복호화 방법.The prediction method information may include predicting the target block using a reconstructed lower layer.
  2. 제1항에 있어서,The method of claim 1,
    상기 예측 신호를 생성하는 단계는Generating the prediction signal
    상기 하위 계층 방향으로 움직임 보상을 수행하는 것을 특징으로 하는 영상 복호화 방법.And image compensation is performed in the lower layer direction.
  3. 제2항에 있어서,The method of claim 2,
    상기 예측 방법 정보는 부호화기에서 복호화된 하위 계층 영상을 대상으로 수행된 움직임 예측으로 도출된 움직임 벡터를 포함하는 것을 특징으로 하는 영상 복호화 방법.The prediction method information includes a motion vector derived from motion prediction performed on a lower layer image decoded by an encoder.
  4. 제1항에 있어서,The method of claim 1,
    상기 예측 신호를 생성하는 단계는Generating the prediction signal
    상기 하위 계층에서 상기 대상 블록에 대응는 참조 블록의 복원값을 상기 예측 신호로 생성하는 것을 특징으로 하는 영상 복호화 방법.And a reconstruction value of a reference block corresponding to the target block in the lower layer is generated as the prediction signal.
  5. 제1항에 있어서,The method of claim 1,
    상기 예측 신호를 생성하는 단계는,Generating the prediction signal,
    상기 대상 블록과 동일 계층내의 참조 픽처 및 현재 복호화 대상 블록이 참조하고 있는 계층의 복원된 영상으로부터 움직임 보상을 수행하는 것을 특징으로 하는 영상 복호화 방법.And performing motion compensation on the reference picture in the same layer as the target block and the reconstructed image of the layer referenced by the current decoding target block.
  6. 제5항에 있어서,The method of claim 5,
    상기 예측 신호를 생성하는 단계는,Generating the prediction signal,
    순방향 참조 픽처로부터 구한 예측 신호와, 하위 계층 참조 픽처로부터 구한 예측 신호의 가중합을 구하는 것을 특징으로 하는 영상 복호화 방법.A weighted sum of a prediction signal obtained from a forward reference picture and a prediction signal obtained from a lower layer reference picture is obtained.
  7. 제5항에 있어서,The method of claim 5,
    상기 예측 신호를 생성하는 단계는,Generating the prediction signal,
    역방향 참조 픽처로부터 구한 예측 신호와, 하위 계층 참조 픽처로부터 구한 예측 신호의 가중합을 구하는 것을 특징으로 하는 영상 복호화 방법.A weighted sum of a prediction signal obtained from a backward reference picture and a prediction signal obtained from a lower layer reference picture is obtained.
  8. 제5항에 있어서,The method of claim 5,
    상기 예측 신호를 생성하는 단계는,Generating the prediction signal,
    순방향 참조 픽처로부터 구한 예측 신호와, 역방향 참조 픽처로부터 구한 예측 신호와, 하위 계층 참조 픽처로부터 구한 예측 신호의 가중합을 구하는 것을 특징으로 하는 영상 복호화 방법.A weighted sum of a prediction signal obtained from a forward reference picture, a prediction signal obtained from a backward reference picture, and a prediction signal obtained from a lower layer reference picture is obtained.
  9. 제5항에 있어서,The method of claim 5,
    상기 예측 신호를 생성하는 단계는,Generating the prediction signal,
    상기 대상 블록에 인접한 복원된 주변 블록에 포함된 참조 샘플로부터 구한 예측 신호와 하위 계층 참조 픽처로부터 구한 예측 신호의 가중합을 구하는 것을 특징으로 하는 영상 복호화 방법.And a weighted sum of a prediction signal obtained from a reference sample included in the reconstructed neighboring block adjacent to the target block and a prediction signal obtained from a lower layer reference picture.
  10. 제1항에 있어서,The method of claim 1,
    상기 예측 방법 정보는 상기 대상 블록의 예측 방법에 대하여 화면 내 예측 방법, 화면 간 예측 방법, 하위 계층 방향 예측 방법 및 동일 계층 및 하위 계층의 복원된 참조 픽처를 이용하는 예측 방법 중 어느 하나를 지시하는 정보를 더 포함하는 것을 특징으로 하는 영상 복호화 방법.The prediction method information is information indicating one of an intra prediction method, an inter prediction method, a lower layer direction prediction method, and a prediction method using reconstructed reference pictures of the same layer and a lower layer with respect to the prediction method of the target block. The video decoding method further comprising.
  11. 복수의 계층을 지원하는 영상의 복호화 장치에 있어서,In the video decoding apparatus supporting a plurality of layers,
    복호화 대상이 되는 대상 블록의 예측 방법에 대한 예측 방법 정보를 수신하는 수신부와;A receiving unit for receiving prediction method information on a prediction method of a target block to be decoded;
    수신된 정보에 기초하여 상기 대상 블록의 예측 신호를 생성하는 예측부를 포함하고, A prediction unit generating a prediction signal of the target block based on the received information;
    상기 예측 방법 정보는 복원된 하위 계층을 이용하여 상기 대상 블록을 예측할 수 있는 것을 포함하는 영상 복호화 장치.The prediction method information may include predicting the target block using a reconstructed lower layer.
  12. 제11항에 있어서,The method of claim 11,
    상기 예측부는 상기 하위 계층 방향으로 움직임 보상을 수행하는 것을 특징으로 하는 영상 복호화 장치.And the predictor performs motion compensation in the lower layer direction.
  13. 제12항에 있어서,The method of claim 12,
    상기 예측 방법 정보는 부호화기에서 복호화된 하위 계층 영상을 대상으로 수행된 움직임 예측으로 도출된 움직임 벡터를 포함하는 것을 특징으로 하는 영상 복호화 장치.The prediction method information includes a motion vector derived from motion prediction performed on a lower layer image decoded by an encoder.
  14. 제11항에 있어서,The method of claim 11,
    상기 예측부는 상기 하위 계층에서 상기 대상 블록에 대응는 참조 블록의 복원값을 상기 예측 신호로 생성하는 것을 특징으로 하는 영상 복호화 장치.And the predictor generates the reconstructed value of the reference block corresponding to the target block in the lower layer as the prediction signal.
  15. 제11항에 있어서,The method of claim 11,
    상기 예측부는 상기 대상 블록과 동일 계층내의 참조 픽처 및 현재 복호화 대상 블록이 참조하고 있는 계층의 복원된 영상으로부터 움직임 보상을 수행하는 것을 특징으로 하는 영상 복호화 장치.And the predictor performs motion compensation on the reference picture in the same layer as the target block and the reconstructed image of the layer referenced by the current decoding target block.
  16. 제15항에 있어서,The method of claim 15,
    상기 예측부는 순방향 참조 픽처로부터 구한 예측 신호와, 하위 계층 참조 픽처로부터 구한 예측 신호의 가중합을 구하는 것을 특징으로 하는 영상 복호화 장치.And the prediction unit obtains a weighted sum of a prediction signal obtained from a forward reference picture and a prediction signal obtained from a lower layer reference picture.
  17. 제15항에 있어서,The method of claim 15,
    상기 예측부는 역방향 참조 픽처로부터 구한 예측 신호와, 하위 계층 참조 픽처로부터 구한 예측 신호의 가중합을 구하는 것을 특징으로 하는 영상 복호화 장치.And the prediction unit obtains a weighted sum of a prediction signal obtained from a backward reference picture and a prediction signal obtained from a lower layer reference picture.
  18. 제5항에 있어서,The method of claim 5,
    상기 예측부는 순방향 참조 픽처로부터 구한 예측 신호와, 역방향 참조 픽처로부터 구한 예측 신호와, 하위 계층 참조 픽처로부터 구한 예측 신호의 가중합을 구하는 것을 특징으로 하는 영상 복호화 장치.And the prediction unit obtains a weighted sum of a prediction signal obtained from a forward reference picture, a prediction signal obtained from a backward reference picture, and a prediction signal obtained from a lower layer reference picture.
  19. 제15항에 있어서,The method of claim 15,
    상기 예측부는 상기 대상 블록에 인접한 복원된 주변 블록에 포함된 참조 샘플로부터 구한 예측 신호와 하위 계층 참조 픽처로부터 구한 예측 신호의 가중합을 구하는 것을 특징으로 하는 영상 복호화 장치.And the prediction unit obtains a weighted sum of a prediction signal obtained from a reference sample included in a reconstructed neighboring block adjacent to the target block and a prediction signal obtained from a lower layer reference picture.
  20. 제11항에 있어서,The method of claim 11,
    상기 예측 방법 정보는 상기 대상 블록의 예측 방법에 대하여 화면 내 예측 방법, 화면 간 예측 방법, 하위 계층 방향 예측 방법 및 동일 계층 및 하위 계층의 복원된 참조 픽처를 이용하는 예측 방법 중 어느 하나를 지시하는 정보를 더 포함하는 것을 특징으로 하는 영상 복호화 장치.The prediction method information is information indicating one of an intra prediction method, an inter prediction method, a lower layer direction prediction method, and a prediction method using reconstructed reference pictures of the same layer and a lower layer with respect to the prediction method of the target block. The video decoding apparatus further comprises.
PCT/KR2013/006596 2012-07-24 2013-07-23 Method of decoding images and device using same WO2014017809A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/402,268 US20150139323A1 (en) 2012-07-24 2013-07-23 Method of decoding images and device using same

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
KR20120080320 2012-07-24
KR10-2012-0080320 2012-07-24
KR20120111062 2012-10-08
KR10-2012-0111062 2012-10-08
KR10-2013-0086875 2013-07-23
KR1020130086875A KR20140016823A (en) 2012-07-24 2013-07-23 Video decoding method and apparatus using the same

Publications (1)

Publication Number Publication Date
WO2014017809A1 true WO2014017809A1 (en) 2014-01-30

Family

ID=49997557

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2013/006596 WO2014017809A1 (en) 2012-07-24 2013-07-23 Method of decoding images and device using same

Country Status (1)

Country Link
WO (1) WO2014017809A1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100878809B1 (en) * 2004-09-23 2009-01-14 엘지전자 주식회사 Method of decoding for a video signal and apparatus thereof
KR20090018019A (en) * 2005-01-21 2009-02-19 엘지전자 주식회사 Method and apparatus for encoding/decoding video signal using prediction information of intra-mode macro blocks of base layer
KR100891663B1 (en) * 2005-10-05 2009-04-02 엘지전자 주식회사 Method for decoding and encoding a video signal
US20090116759A1 (en) * 2005-07-05 2009-05-07 Ntt Docomo, Inc. Video encoding device, video encoding method, video encoding program, video decoding device, video decoding method, and video decoding program
KR20100103734A (en) * 2005-07-08 2010-09-27 엘지전자 주식회사 Method for modeling coding information of video signal for compressing/decompressing coding information

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100878809B1 (en) * 2004-09-23 2009-01-14 엘지전자 주식회사 Method of decoding for a video signal and apparatus thereof
KR20090018019A (en) * 2005-01-21 2009-02-19 엘지전자 주식회사 Method and apparatus for encoding/decoding video signal using prediction information of intra-mode macro blocks of base layer
US20090116759A1 (en) * 2005-07-05 2009-05-07 Ntt Docomo, Inc. Video encoding device, video encoding method, video encoding program, video decoding device, video decoding method, and video decoding program
KR20100103734A (en) * 2005-07-08 2010-09-27 엘지전자 주식회사 Method for modeling coding information of video signal for compressing/decompressing coding information
KR100891663B1 (en) * 2005-10-05 2009-04-02 엘지전자 주식회사 Method for decoding and encoding a video signal

Similar Documents

Publication Publication Date Title
WO2017052081A1 (en) Inter prediction method and apparatus in image coding system
WO2016143991A1 (en) Image encoding and decoding method based on low-complexity transformation, and apparatus using same
WO2013157826A1 (en) Image information decoding method, image decoding method, and device using same
WO2017082443A1 (en) Method and apparatus for adaptively predicting image using threshold value in image coding system
WO2013032073A1 (en) Method for generating prediction block in amvp mode
WO2015009036A1 (en) Method and apparatus for predicting inter-layer based on temporal sub-layer information
WO2015002460A1 (en) Method for encoding and decoding video including plurality of layers
WO2014084656A1 (en) Method and device for encoding/ decoding image supporting plurality of layers
WO2020130600A1 (en) Video signal processing method and device for signaling prediction mode
WO2020231139A1 (en) Luma mapping- and chroma scaling-based video or image coding
WO2020204419A1 (en) Adaptive loop filter-based video or image coding
WO2020167097A1 (en) Derivation of inter-prediction type for inter prediction in image coding system
WO2015056941A1 (en) Multilayer-based image encoding/decoding method and apparatus
WO2020180122A1 (en) Video or image coding on basis of conditionally parsed alf model and reshaping model
WO2014038905A2 (en) Image decoding method and apparatus using same
WO2014051372A1 (en) Image decoding method and apparatus using same
WO2021091214A1 (en) Video decoding method and device for coding chroma quantization parameter offset-related information
WO2021091256A1 (en) Image/video coding method and device
WO2020141833A1 (en) Image decoding method, image encoding method, image decoding device, image encoding device, and computer-readable recording medium
WO2021251744A1 (en) Image encoding/decoding method and device for signaling aps identifier, and computer-readable recording medium in which bitstream is stored
WO2021125701A1 (en) Image/video coding method and apparatus based on inter prediction
WO2020185036A1 (en) Method and apparatus for processing video signal
WO2020190085A1 (en) Video or image coding based on in-loop filtering
WO2013062175A1 (en) Method and device for the scalable coding of an enhancement layer
WO2014017809A1 (en) Method of decoding images and device using same

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13823834

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14402268

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13823834

Country of ref document: EP

Kind code of ref document: A1