WO2020055169A1 - 인터 예측을 이용한 영상 부호화/복호화 방법 및 장치 - Google Patents
인터 예측을 이용한 영상 부호화/복호화 방법 및 장치 Download PDFInfo
- Publication number
- WO2020055169A1 WO2020055169A1 PCT/KR2019/011837 KR2019011837W WO2020055169A1 WO 2020055169 A1 WO2020055169 A1 WO 2020055169A1 KR 2019011837 W KR2019011837 W KR 2019011837W WO 2020055169 A1 WO2020055169 A1 WO 2020055169A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- block
- prediction
- merge candidate
- current block
- motion vector
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/44—Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/523—Motion estimation or motion compensation with sub-pixel accuracy
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/105—Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/117—Filters, e.g. for pre-processing or post-processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/119—Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/13—Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
- H04N19/137—Motion inside a coding unit, e.g. average field, frame or block difference
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/157—Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
- H04N19/159—Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/513—Processing of motion vectors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/593—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/80—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/80—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
- H04N19/82—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop
Definitions
- the present invention relates to an image encoding / decoding method and apparatus.
- HD High Definition
- UHD Ultra High Definition
- Inter prediction technology that predicts pixel values included in the current picture from pictures before or after the current picture by image compression technology
- intra prediction technology that predicts pixel values included in the current picture using pixel information in the current picture
- frequency of appearance Various techniques exist, such as entropy encoding technique in which a short code is assigned to a high value and a long code is assigned to a value having a low frequency of occurrence, and image data can be effectively compressed and transmitted or stored using this image compression technique.
- An object of the present invention is to provide a method and apparatus for deriving motion information according to a predetermined inter mode.
- An object of the present invention is to provide a method and apparatus for adaptively adjusting the resolution or precision of a motion vector.
- An object of the present invention is to provide an interpolation-based motion compensation method and apparatus.
- the video encoding / decoding method and apparatus of the present invention may derive motion information of a current block and perform motion compensation on the current block based on the motion information.
- motion information of the current block is derived based on a pre-defined inter mode in a decoding apparatus, and the pre-defined inter mode is a merge mode, an AMVP mode , At least one of an affine mode or an IBC mode (intra block copy mode).
- the step of deriving the motion information includes: determining a resolution of a motion vector of the current block, and deriving a motion vector prediction value corresponding to the resolution. And rounding a motion vector difference value of the current block based on the resolution, and deriving a motion vector of the current block based on the derived motion vector prediction value and the rounded motion vector difference value. You can.
- the resolution may be determined as a resolution candidate specified by a predetermined index among a plurality of resolution candidates predefined in the decoding apparatus.
- the pre-defined plurality of resolution candidates are 1/16 pixel, 1/8 pixel, 1/4 pixel, 1/2 pixel, 1 pixel, 2 pixel or At least one of the 4 pixels may be included.
- the plurality of resolution candidates may be defined differently for each of the pre-defined inter modes.
- the motion information is derived from a merge candidate list of the current block, and the merge candidate list includes at least one of a spatial merge candidate, a temporal merge candidate, or a combination merge candidate. It can contain.
- the combined merge candidate may be derived by weighted average of motion information of a plurality of merge candidates pre-added to the merge candidate list.
- the combined merge candidate may be derived in consideration of prediction directions of the plurality of merge candidates.
- the step of performing motion compensation includes: determining an interpolation filter of the current block, determining a position of a reference integer pixel, and the interpolation filter on the reference integer pixel And applying, deriving a prediction pixel of the current block.
- any one of a plurality of interpolation filters pre-defined in the decoding apparatus may be selectively used.
- the interpolation filter of the current block may be determined by any one of the plurality of interpolation filters in consideration of the determined resolution.
- the position of the reference integer pixel may be determined in consideration of the position of the subpicture.
- motion information according to the inter mode can be efficiently derived.
- the present invention can adaptively adjust the resolution or precision of the motion vector.
- the present invention can improve the efficiency of motion compensation through selective use of an interpolation filter.
- the present invention can improve the efficiency of inter prediction encoding / decoding through adaptive block division.
- FIG. 1 is a block diagram showing an image encoding apparatus according to an embodiment of the present invention.
- FIG. 2 is a block diagram showing an image decoding apparatus according to an embodiment of the present invention.
- 3 is an embodiment to which the present invention is applied, and shows a block division type.
- FIG. 4 is an embodiment to which the present invention is applied, and shows a block division method based on a tree structure.
- FIG 5 illustrates an inter prediction method as an embodiment to which the present invention is applied.
- FIG. 6 is a view to illustrate a method for deriving motion information according to a merge mode as an embodiment to which the present invention is applied.
- FIG. 7 shows a method of deriving motion information based on an affine mode as an embodiment to which the present invention is applied.
- FIG. 8 is an embodiment to which the present invention is applied, and relates to a method of deriving an affine candidate from a control point vector of a spatial / temporal neighbor block.
- 9 is an embodiment to which the present invention is applied, and shows a method of adaptively adjusting the resolution of a motion vector.
- 10 is an embodiment to which the present invention is applied, and shows an inter prediction method based on interpolation.
- the video encoding / decoding method and apparatus of the present invention may derive motion information of a current block and perform motion compensation on the current block based on the motion information.
- motion information of the current block is derived based on a pre-defined inter mode in a decoding apparatus, and the pre-defined inter mode is a merge mode, an AMVP mode , At least one of an affine mode or an IBC mode (intra block copy mode).
- the step of deriving the motion information includes: determining a resolution of a motion vector of the current block, and deriving a motion vector prediction value corresponding to the resolution. And rounding a motion vector difference value of the current block based on the resolution, and deriving a motion vector of the current block based on the derived motion vector prediction value and the rounded motion vector difference value. You can.
- the resolution may be determined as a resolution candidate specified by a predetermined index among a plurality of resolution candidates predefined in the decoding apparatus.
- the pre-defined plurality of resolution candidates are 1/16 pixel, 1/8 pixel, 1/4 pixel, 1/2 pixel, 1 pixel, 2 pixel or At least one of the 4 pixels may be included.
- the plurality of resolution candidates may be defined differently for each of the pre-defined inter modes.
- the motion information is derived from a merge candidate list of the current block, and the merge candidate list includes at least one of a spatial merge candidate, a temporal merge candidate, or a combination merge candidate. It can contain.
- the combined merge candidate may be derived by weighted average of motion information of a plurality of merge candidates pre-added to the merge candidate list.
- the combined merge candidate may be derived in consideration of prediction directions of the plurality of merge candidates.
- the step of performing motion compensation includes: determining an interpolation filter of the current block, determining a position of a reference integer pixel, and the interpolation filter on the reference integer pixel And applying, deriving a prediction pixel of the current block.
- any one of a plurality of interpolation filters pre-defined in the decoding apparatus may be selectively used.
- the interpolation filter of the current block may be determined by any one of the plurality of interpolation filters in consideration of the determined resolution.
- the position of the reference integer pixel may be determined in consideration of the position of the subpicture.
- first and second may be used to describe various components, but the components should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from other components.
- first component may be referred to as a second component without departing from the scope of the present invention, and similarly, the second component may be referred to as a first component.
- FIG. 1 is a block diagram showing an image encoding apparatus according to an embodiment of the present invention.
- the image encoding apparatus 100 includes a picture splitter 110, a prediction unit 120, 125, a transform unit 130, a quantization unit 135, a reordering unit 160, and an entropy coding unit ( 165), an inverse quantization unit 140, an inverse conversion unit 145, a filter unit 150 and a memory 155.
- each component shown in FIG. 1 is independently illustrated to represent different characteristic functions in the image encoding apparatus, and does not mean that each component is composed of separate hardware or a single software component. That is, for convenience of description, each component is listed and included as each component, and at least two components of each component are combined to form one component, or one component is divided into a plurality of components to perform functions. The integrated and separated embodiments of the components are also included in the scope of the present invention without departing from the essence of the present invention.
- the components are not essential components for performing essential functions in the present invention, but may be optional components for improving performance.
- the present invention can be implemented by including only components essential for realizing the essence of the present invention, except components used for performance improvement, and structures including only essential components excluding optional components used for performance improvement. Also included in the scope of the present invention.
- the picture division unit 110 may divide the input picture into at least one processing unit.
- the processing unit may be a prediction unit (PU), a transformation unit (TU), or a coding unit (CU).
- the picture division unit 110 divides a single picture into a combination of a plurality of coding units, prediction units, and transformation units, and combines one coding unit, prediction unit, and transformation unit with a predetermined criterion (for example, a cost function). You can code a picture by selecting.
- a predetermined criterion for example, a cost function
- one picture may be divided into a plurality of coding units.
- a recursive tree structure such as a quad tree structure can be used.
- One image or a coding that is split into another coding unit using a largest coding unit as a root The unit may be divided into as many child nodes as the number of divided coding units.
- a coding unit that is no longer split is a leaf node. That is, when it is assumed that only square division is possible for one coding unit, one coding unit may be divided into up to four different coding units.
- a coding unit may be used as a meaning of a unit that performs coding or may be used as a meaning of a unit that performs decoding.
- the prediction unit may be divided into at least one square or rectangular shape having the same size within one coding unit, and one prediction unit among the prediction units split within one coding unit may be another prediction unit. It may be divided into units having different shapes and / or sizes.
- intra prediction may be performed without splitting into a plurality of prediction units NxN.
- the prediction units 120 and 125 may include an inter prediction unit 120 performing inter prediction and an intra prediction unit 125 performing intra prediction. It is determined whether to use inter prediction or intra prediction for a prediction unit, and specific information (eg, intra prediction mode, motion vector, reference picture, etc.) according to each prediction method may be determined. At this time, the processing unit for which prediction is performed and the processing unit for which the prediction method and specific content are determined may be different. For example, a method of prediction, a prediction mode, and the like are determined in a prediction unit, and prediction performance may be performed in a transformation unit. The residual value (residual block) between the generated prediction block and the original block may be input to the transform unit 130.
- specific information eg, intra prediction mode, motion vector, reference picture, etc.
- prediction mode information, motion vector information, and the like used for prediction may be encoded by the entropy encoding unit 165 together with the residual value and transmitted to the decoder.
- a specific coding mode it is also possible to encode the original block as it is and transmit it to the decoder without generating a prediction block through the prediction units 120 and 125.
- the inter-prediction unit 120 may predict a prediction unit based on information of at least one of a previous picture or a subsequent picture of the current picture, and in some cases, prediction based on information of some regions where encoding in the current picture is completed. Units can also be predicted.
- the inter prediction unit 120 may include a reference picture interpolation unit, a motion prediction unit, and a motion compensation unit.
- the reference picture interpolator may receive reference picture information from the memory 155 and generate pixel information of integer pixels or less in the reference picture.
- a DCT-based 8-tap interpolation filter (DCT-based interpolation filter) having different filter coefficients may be used to generate pixel information of integer pixels or less in units of 1/4 pixels.
- a DCT-based interpolation filter (DCT-based interpolation filter) having different filter coefficients may be used to generate pixel information of an integer pixel or less in units of 1/8 pixels.
- the motion prediction unit may perform motion prediction based on the reference picture interpolated by the reference picture interpolation unit.
- various methods such as Full Search-based Block Matching Algorithm (FBMA), Three Step Search (TSS), and New Three-Step Search Algorithm (NTS) can be used.
- the motion vector may have a motion vector value in units of 1/2 or 1/4 pixels based on the interpolated pixels.
- the motion prediction unit may predict a current prediction unit by differently using a motion prediction method.
- Various methods such as a skip method, a merge method, an advanced motion vector prediction (AMVP) method, and an intra block copy method may be used as a motion prediction method.
- AMVP advanced motion vector prediction
- the intra prediction unit 125 may generate a prediction unit based on reference pixel information around a current block, which is pixel information in a current picture. If the neighboring block of the current prediction unit is a block that has undergone inter prediction, and the reference pixel is a pixel that has undergone inter prediction, a reference pixel of a block that has performed intra prediction around the reference pixel included in the block that has undergone inter prediction It can be used as a substitute for information. That is, when the reference pixel is not available, the available reference pixel information may be replaced with at least one reference pixel among the available reference pixels.
- the prediction mode may have a directional prediction mode that uses reference pixel information according to a prediction direction and a non-directional mode that does not use directional information when performing prediction.
- a mode for predicting luminance information and a mode for predicting color difference information may be different, and intra prediction mode information or predicted luminance signal information used for predicting luminance information may be used to predict color difference information.
- intra prediction when performing the intra prediction, if the size of the prediction unit and the size of the transformation unit are the same, intra prediction for the prediction unit based on the pixel located on the left of the prediction unit, the pixel on the top left, and the pixel on the top of the prediction unit You can do
- intra prediction may be performed using a reference pixel based on the transformation unit.
- intra prediction using N x N splitting may be used only for a minimum coding unit.
- the intra prediction method may generate a prediction block after applying an adaptive intra smoothing (AIS) filter to the reference pixel according to the prediction mode.
- AIS adaptive intra smoothing
- the type of AIS filter applied to the reference pixel may be different.
- the intra prediction mode of the current prediction unit may be predicted from the intra prediction mode of the prediction unit existing around the current prediction unit.
- the prediction mode of the current prediction unit is predicted using the mode information predicted from the neighboring prediction unit, if the intra prediction mode of the current prediction unit and the neighboring prediction unit are the same, the current prediction unit and the neighboring prediction unit using predetermined flag information It is possible to transmit the information that the prediction mode of is the same, and if the prediction mode of the current prediction unit and the neighboring prediction unit are different, entropy encoding may be performed to encode the prediction mode information of the current block.
- a residual block including prediction unit performing prediction based on the prediction unit generated by the prediction units 120 and 125 and residual information that is a difference value from the original block of the prediction unit may be generated.
- the generated residual block may be input to the conversion unit 130.
- the transformation unit 130 includes a residual block including residual information of a prediction unit generated by the original block and the prediction units 120 and 125, DCT (Discrete Cosine Transform), DST (Discrete Sine Transform), and KLT. It can be converted using the same conversion method. Whether DCT, DST, or KLT is applied to transform the residual block may be determined based on intra prediction mode information of a prediction unit used to generate the residual block.
- DCT Discrete Cosine Transform
- DST Discrete Sine Transform
- KLT Discrete Sine Transform
- the quantization unit 135 may quantize the values converted from the conversion unit 130 to the frequency domain.
- the quantization coefficient may vary depending on the block or the importance of the image.
- the value calculated by the quantization unit 135 may be provided to the inverse quantization unit 140 and the rearrangement unit 160.
- the rearrangement unit 160 may rearrange the coefficient values with respect to the quantized residual value.
- the reordering unit 160 may change the block shape coefficient of the 2D into a vector form of the 1D through a coefficient scanning method.
- the rearrangement unit 160 may scan a DC coefficient to a coefficient in a high-frequency region using a Zig-Zag Scan method and change it into a one-dimensional vector form.
- a vertical scan in which two-dimensional block shape coefficients are scanned in a column direction and a horizontal scan in which two-dimensional block shape coefficients are scanned in a row direction may be used instead of a zig-zag scan. That is, depending on the size of the transform unit and the intra prediction mode, it is possible to determine whether a scan method is used among a zigzag scan, a vertical scan, and a horizontal scan.
- the entropy encoding unit 165 may perform entropy encoding based on values calculated by the reordering unit 160.
- various encoding methods such as exponential Golomb, CAVLC (Context-Adaptive Variable Length Coding), and CABAC (Context-Adaptive Binary Arithmetic Coding) can be used.
- the entropy encoding unit 165 includes residual value coefficient information and block type information, prediction mode information, split unit information, prediction unit information, and transmission unit information, motion of the coding unit from the reordering unit 160 and the prediction units 120 and 125.
- Various information such as vector information, reference frame information, block interpolation information, and filtering information can be encoded.
- the entropy encoding unit 165 may entropy encode the coefficient value of the coding unit input from the reordering unit 160.
- the inverse quantization unit 140 and the inverse transformation unit 145 inverse quantize the values quantized by the quantization unit 135 and inversely transform the values converted by the conversion unit 130.
- the residual values generated by the inverse quantization unit 140 and the inverse transformation unit 145 are restored by being combined with the prediction units predicted through the motion estimation unit, the motion compensation unit, and the intra prediction unit included in the prediction units 120 and 125 You can create a Reconstructed Block.
- the filter unit 150 may include at least one of a deblocking filter, an offset correction unit, and an adaptive loop filter (ALF).
- a deblocking filter may include at least one of a deblocking filter, an offset correction unit, and an adaptive loop filter (ALF).
- ALF adaptive loop filter
- the deblocking filter can remove block distortion caused by boundary between blocks in the reconstructed picture.
- it may be determined whether to apply a deblocking filter to a current block based on pixels included in a few columns or rows included in the block.
- a strong filter or a weak filter may be applied according to the required deblocking filtering strength.
- horizontal filtering and vertical filtering may be processed in parallel.
- the offset correction unit may correct an offset from the original image in units of pixels for the deblocking image.
- the offset correction unit may correct an offset from the original image in units of pixels for the deblocking image. In order to perform offset correction for a specific picture, after dividing the pixels included in the image into a certain number of regions, determining the region to perform the offset and applying the offset to the region or offset by considering the edge information of each pixel You can use the method of applying.
- ALF Adaptive Loop Filtering
- one filter to be applied to the group may be determined to perform filtering differently for each group.
- the luminance signal may be transmitted for each coding unit (CU), and the shape and filter coefficient of the ALF filter to be applied may be changed according to each block.
- the ALF filter of the same form may be applied regardless of the characteristics of the block to be applied.
- the memory 155 may store reconstructed blocks or pictures calculated through the filter unit 150, and the stored reconstructed blocks or pictures may be provided to the predictors 120 and 125 when performing inter prediction.
- FIG. 2 is a block diagram showing an image decoding apparatus according to an embodiment of the present invention.
- the image decoder 200 includes an entropy decoding unit 210, a reordering unit 215, an inverse quantization unit 220, an inverse transform unit 225, a prediction unit 230, 235, and a filter unit ( 240), a memory 245 may be included.
- the input bitstream may be decoded in a procedure opposite to that of the image encoder.
- the entropy decoding unit 210 may perform entropy decoding in a procedure opposite to that performed by entropy encoding in the entropy encoding unit of the image encoder. For example, various methods such as Exponential Golomb (CAVLC), Context-Adaptive Variable Length Coding (CAVLC), and Context-Adaptive Binary Arithmetic Coding (CABAC) may be applied to the method performed in the image encoder.
- CAVLC Exponential Golomb
- CAVLC Context-Adaptive Variable Length Coding
- CABAC Context-Adaptive Binary Arithmetic Coding
- the entropy decoding unit 210 may decode information related to intra prediction and inter prediction performed by the encoder.
- the rearrangement unit 215 may rearrange the bitstream entropy-decoded by the entropy decoding unit 210 based on a method of rearranging the bitstream.
- the coefficients expressed in the form of a one-dimensional vector can be reconstructed into coefficients in a two-dimensional block form and rearranged.
- the reordering unit 215 may receive information related to coefficient scanning performed by the encoding unit and perform reordering through a reverse scanning method based on a scanning order performed by the encoding unit.
- the inverse quantization unit 220 may perform inverse quantization based on the quantization parameter provided by the encoder and the coefficient values of the rearranged blocks.
- the inverse transform unit 225 may perform inverse transform, that is, inverse DCT, inverse DST, and inverse KLT, for transforms performed by the transform unit for the quantization results performed by the image encoder, that is, DCT, DST, and KLT.
- the inverse transform may be performed based on the transmission unit determined by the image encoder.
- a transform method for example, DCT, DST, KLT
- a plurality of information such as a prediction method, a current block size, and a prediction direction.
- the prediction units 230 and 235 may generate a prediction block based on prediction block generation related information provided by the entropy decoding unit 210 and previously decoded block or picture information provided by the memory 245.
- intra prediction when intra prediction is performed in the same manner as in the image encoder, when the size of the prediction unit and the size of the transformation unit are the same, the pixel located on the left side of the prediction unit, the pixel located on the top left, and the top level of the prediction unit Intra prediction of the prediction unit is performed based on the pixel to be performed.
- intra prediction is performed using the reference pixel based on the transformation unit. You can.
- intra prediction using N x N splitting may be used only for the smallest coding unit.
- the prediction units 230 and 235 may include a prediction unit determination unit, an inter prediction unit, and an intra prediction unit.
- the prediction unit discrimination unit receives various information such as prediction unit information input from the entropy decoding unit 210, prediction mode information of the intra prediction method, and motion prediction related information of the inter prediction method, classifies the prediction unit from the current coding unit, and predicts the prediction unit. It is possible to determine whether the unit performs inter prediction or intra prediction.
- the inter prediction unit 230 uses the information necessary for inter prediction of the current prediction unit provided by the image encoder to predict the current based on information included in at least one of a previous picture or a subsequent picture of the current picture including the current prediction unit. Inter prediction for a unit may be performed. Alternatively, inter-prediction may be performed based on information of some regions pre-restored in the current picture including the current prediction unit.
- a motion prediction method of a prediction unit included in a corresponding coding unit based on a coding unit is one of a skip mode, a merge mode, an AMVP mode, and an intra block copy mode. It can be judged how it is.
- the intra prediction unit 235 may generate a prediction block based on pixel information in the current picture.
- intra prediction may be performed based on intra prediction mode information of a prediction unit provided by an image encoder.
- the intra prediction unit 235 may include an adaptive intra smoothing (AIS) filter, a reference pixel interpolation unit, and a DC filter.
- the AIS filter is a part that performs filtering on the reference pixel of the current block and can be applied by determining whether to apply the filter according to the prediction mode of the current prediction unit.
- AIS filtering may be performed on a reference pixel of a current block by using prediction mode and AIS filter information of a prediction unit provided by an image encoder. When the prediction mode of the current block is a mode that does not perform AIS filtering, the AIS filter may not be applied.
- the reference pixel interpolation unit may interpolate the reference pixel to generate a pixel reference pixel in an integer value or less. If the prediction mode of the current prediction unit is a prediction mode that generates a prediction block without interpolating a reference pixel, the reference pixel may not be interpolated.
- the DC filter may generate a prediction block through filtering when the prediction mode of the current block is the DC mode.
- the reconstructed block or picture may be provided to the filter unit 240.
- the filter unit 240 may include a deblocking filter, an offset correction unit, and an ALF.
- Information about whether a deblocking filter is applied to a corresponding block or picture and information about whether a strong filter is applied or a weak filter is applied may be provided from a video encoder.
- information related to the deblocking filter provided by the video encoder may be provided, and the video decoder may perform deblocking filtering on the corresponding block.
- the offset correction unit may perform offset correction on the reconstructed image based on the type of offset correction and offset value information applied to the image during encoding.
- ALF may be applied to a coding unit based on ALF application information provided by an encoder, ALF coefficient information, and the like. Such ALF information may be provided by being included in a specific parameter set.
- the memory 245 may store the restored picture or block so that it can be used as a reference picture or a reference block, and may also provide the restored picture to an output unit.
- a coding unit is used as a coding unit for convenience of description, but it may be a unit for performing decoding as well as coding.
- 3 is an embodiment to which the present invention is applied, and shows a block division type.
- One block (hereinafter referred to as a first block) may be divided into a plurality of sub-blocks (hereinafter referred to as a second block) by at least one of a vertical line or a horizontal line.
- the vertical line and the horizontal line may be one, two or more.
- the first block may be a coding block (CU), which is a basic unit of image encoding / decoding, a prediction block (PU), which is a basic unit of predictive encoding / decoding, or a transform block (TU), which is a basic unit of transform encoding / decoding.
- the first block may be a square block or a non-square block.
- the division of the first block may be performed based on a quad tree, a binary tree, a triple tree, etc., and will be described in detail below with reference to FIG. 3.
- Figure 3 (a) shows a quad tree split (QT).
- QT is a division type that divides the first block into four second blocks. For example, when the first block of 2Nx2N is divided into QT, the first block may be divided into four second blocks having an NxN size.
- QT may be limited to be applied only to a square block, but it may also be applied to a non-square block.
- Horizontal BT is a division type in which a first block is divided into two second blocks by one horizontal line. The dividing may be performed symmetrically or asymmetrically. For example, when the first block of 2Nx2N is divided into horizontal BTs, the first block may be divided into two second blocks having a height ratio of (a: b).
- a and b may be the same value, or a may be greater or less than b.
- Figure 3 (c) shows a vertical binary tree (hereinafter referred to as Vertical BT) partition.
- Vertical BT is a division type in which a first block is divided into two second blocks by one vertical line. The dividing may be performed symmetrically or asymmetrically. For example, when the first block of 2Nx2N is divided into vertical BTs, the first block may be divided into two second blocks having a width ratio of (a: b).
- a and b may be the same value, or a may be greater or less than b.
- Horizontal TT is a split type in which a first block is divided into three second blocks by two horizontal lines.
- the first block may be divided into three second blocks having a height ratio of (a: b: c).
- a, b, and c may be the same value.
- a and c are the same, and b may be larger or smaller than a.
- Vertical TT is a division type in which a first block is divided into three second blocks by two vertical lines.
- the first block may be divided into three second blocks having a width ratio of (a: b: c).
- a, b, and c may be the same value or different values.
- a and c are the same, and b may be larger or smaller than a.
- a and b are the same, and c may be larger or smaller than a.
- b and c are the same, and a may be larger or smaller than b.
- the above-described division can be performed based on the division information signaled from the encoding device.
- the segmentation information may include at least one of segmentation type information, segmentation direction information, or segmentation ratio information.
- the segmentation type information may specify any one of predefined segmentation types in the encoding / decoding device.
- the pre-defined split type may include at least one of QT, Horizontal BT, Vertical BT, Horizontal TT, Vertical TT, or No split mode.
- the split type information may mean information about whether QT, BT, or TT is applied, which may be encoded in the form of a flag or index.
- the split direction information may indicate whether it is split in a horizontal direction or a vertical direction.
- the split ratio information may indicate a ratio of width and / or height of the second block.
- FIG. 4 is an embodiment to which the present invention is applied, and shows a block division method based on a tree structure.
- the block 400 illustrated in FIG. 4 is assumed to be a square block (hereinafter, referred to as a first block) having a size of 8Nx8N and a division depth k.
- the first block may be divided into four sub-blocks (hereinafter referred to as a second block).
- the second block is 4Nx4N in size and may have a split depth of (k + 1).
- the four second blocks may be divided again based on any one of QT, BT, TT, or non-split mode.
- the second block may include two sub-blocks (hereinafter, a third block) as in the second block 410 of FIG. 4. Block).
- the third block is 4Nx2N in size and may have a split depth of (k + 2).
- the third block may also be divided again based on any one of QT, BT, TT, or non-split mode.
- the division information of the third block represents a binary tree in the vertical direction (Vertical BT)
- the third block is divided into two sub-blocks 411 and 412 as shown in FIG. 4. Can be.
- the sub-blocks 411 and 412 may have a size of 2Nx2N and have a split depth of (k + 3).
- the split information of the third block represents a binary tree in the horizontal direction (Horizontal BT)
- the third block may be divided into two sub-blocks 413 and 414 as shown in FIG. 4. have.
- the sub-blocks 413 and 414 have a size of 4NxN and may have a split depth of (k + 3).
- the division may be performed independently or in parallel with neighboring blocks, or may be sequentially performed according to a predetermined priority.
- the splitting information of the current block which is the target of splitting, may be determined dependently based on at least one of splitting information of an upper block of a current block or splitting information of a neighboring block. For example, when the second block is divided into Horizontal BT and the upper third block is divided into Vertical BT, the lower third block need not be divided into Vertical BT. When the lower third block is divided into vertical BTs, this is because the same result as the second block is divided into QTs. Therefore, encoding of the lower third block (particularly, split direction information) may be omitted, and the decoding apparatus may set the lower third block to be split in the horizontal direction.
- the upper block may mean a block having a split depth smaller than the split depth of the current block.
- the split depth of the current block is (k + 2)
- the split depth of the upper block may be (k + 1).
- the neighboring block may be a block adjacent to the top or left side of the current block.
- the neighboring block may be a block having the same split depth as the current block.
- the above-described division can be repeatedly performed up to a minimum unit of encoding / decoding.
- the division information for the corresponding block is no longer signaled from the encoding device.
- the information on the minimum unit may include at least one of the size or shape of the minimum unit.
- the size of the minimum unit may be expressed as a minimum or maximum value of the width, height, width and height of the block, the sum of the width and height, the number of pixels, and the divided depth.
- the minimum unit information may be signaled in at least one of a video sequence, picture, slice, or block unit.
- the information on the minimum unit may be a value pre-promised by the encoding / decoding device.
- Information on the minimum unit may be signaled for CU, PU, and TU, respectively. Information about one minimum unit may be equally applied to CU, PU, and TU.
- FIG 5 illustrates an inter prediction method as an embodiment to which the present invention is applied.
- motion information of a current block may be derived (S500).
- the motion information may be derived based on an inter-mode pre-defined in the encoding / decoding device.
- the pre-defined inter mode may include at least one of a merge mode, an AMVP mode, an affine mode, or an intra block copy mode (IBC mode).
- the motion information may be variously interpreted as a motion vector prediction value, a motion vector, a control point vector prediction value, a control point vector, a block vector, etc., depending on the inter mode.
- motion information of a current block may be set to be the same as motion information of a merge candidate.
- motion information is derived through merging with merge candidates, and a separate motion vector difference value mvd is not signaled.
- the method for deriving motion information based on the merge mode will be described in detail with reference to FIG. 6.
- a motion vector of a neighboring block may be set as a motion vector prediction value of the current block.
- a candidate list consisting of motion vectors of spatial / temporal neighboring blocks is constructed, and an index specifying any one of a plurality of motion vectors of the candidate list may be signaled.
- the motion vector may be reconstructed by adding the motion vector prediction value and the signaled motion vector difference value.
- an additional motion model may be used in addition to a translation motion model that considers only parallel motion.
- a motion model that considers not only parallel movement but also movement such as rotation, perspective, and zoom-in / out can be used.
- affine mode motion information may be derived in units of a predetermined sub-block based on the control point vector of the current block. This will be described in detail with reference to FIGS. 7 and 8.
- the IBC mode is similar to the AMVP mode in that the motion vector of the neighboring block is set as the block vector prediction value (bvp) of the current block, and the block vector is restored using the signaled block vector difference value (bvd).
- the IBC mode performs motion compensation based on a pre-restored area in the same picture as the current block, while the AMVP mode performs motion compensation based on a pre-restored area in a different picture from the current block. There is a difference.
- the motion information derivation of S500 may further include a process of adjusting the resolution or precision of the motion information, which will be described in detail with reference to FIG. 9.
- motion compensation may be performed on the current block based on the derived motion information (S510).
- a reference block according to a motion vector of the current block may be determined, and a reconstructed pixel of the determined reference block may be set as a prediction pixel of the current block.
- the reference block may be determined by applying a predetermined interpolation filter to integer pixels and / or decimal pixels in the reference picture. A detailed interpolation method will be described with reference to FIG. 10.
- the reference blocks may be specified for each sub-block of the current block.
- the reference block of each sub-block may belong to one reference picture. That is, a sub-block belonging to the current block can share one reference picture.
- the reference picture index may be independently set for each sub-block of the current block.
- the derived motion vector may include at least one of an L0 motion vector or an L1 motion vector.
- the decoding apparatus may perform unidirectional prediction by setting any one of the L0 and L1 motion vectors to 0.
- the setting may be selectively performed in consideration of at least one of the size / shape of the block or the inter mode described above.
- the block may mean a current block or a sub-block of the current block.
- the threshold size may be defined as a block size in which at least one of width and height is 4, 8 or 16.
- one of L0 or L1 motion vectors is set to 0 to perform unidirectional prediction. Otherwise, bidirectional prediction is performed using L0 and L1 motion vectors. You can do
- one of LO or L1 motion vectors is set to 0 to perform unidirectional prediction, otherwise, bidirectional prediction is performed using L0 and L1 motion vectors. It can be done.
- FIG. 6 is a view to illustrate a method for deriving motion information according to a merge mode as an embodiment to which the present invention is applied.
- a merge candidate list of a current block may be configured (S600).
- the merge candidate list may include at least one of a spatial merge candidate or a temporal merge candidate of the current block.
- the motion information of the spatial merge candidate may be derived from motion information of the spatial neighboring block of the current block.
- the spatial neighboring block is a block belonging to the same picture as the current block, and may mean a block adjacent to the current block.
- the spatial neighboring block may include a block adjacent to at least one of the left, top, top right, bottom left, or top left of the current block.
- the upper left neighboring block may be used only when at least one of blocks adjacent to the left, upper, upper right, and lower left is not available.
- the motion information of the temporal merge candidate may be derived from motion information of the temporal neighboring block of the current block.
- the temporal neighboring block is a block belonging to a picture different from the current block, and may be defined as a block having the same position as the current block.
- the block of the same position is at least one of a block (BR) adjacent to the lower right corner of the current block, a block (CTR) including the position of the center sample of the current block, or a block (TL) including the position of the upper left sample of the current block. It can mean one.
- the block at the same position may mean a block including a position shifted by a predetermined disparity vector from the position of the upper left sample of the current block.
- the displacement vector may be determined based on any one of the motion vectors of the spatial neighboring blocks described above.
- the displacement vector may be determined based on a combination of at least two of the motion vectors of the spatial neighboring blocks described above.
- the above combination may mean calculations such as a maximum value, a minimum value, a median value, and a weighted average value.
- the shift vector may be set as a motion vector of a left neighboring block or a top neighboring block.
- the shift vector may be set as an intermediate value or an average value between the motion vector of the left neighboring block and the motion vector of the lower left neighboring block.
- the motion vector and the reference picture index of the temporal merge candidate may be derived from the motion vector and the reference picture index of the temporal neighboring block, respectively.
- the motion vector of the temporal merge candidate is derived as a motion vector of the temporal neighboring block, and the reference picture index of the temporal merge candidate is set to a default value (eg, 0) pre-promised in the decoding apparatus regardless of the temporal neighboring block. You can.
- the merge candidate list may further include a combination merge candidate.
- the combined merge candidate may be derived by combining n merge candidates belonging to the pre-generated merge candidate list.
- n may be an integer of 2, 3, 4 or more.
- the number (n) of merge candidates to be combined may be a fixed value pre-promised in the encoding / decoding device, or may be encoded and signaled in the encoding device. The signaling may be performed in at least one unit of a sequence, picture, slice, tile, sub-tile (brick, brick) or a predetermined block.
- the number (n) of merge candidates to be combined may be variably determined based on the number of remaining merge candidates.
- the number of remaining merge candidates may mean a difference between the maximum number of merge candidates that can be included in the merge candidate list and the current number of merge candidates in the merge candidate list.
- the maximum number may be a number pre-promised in the encoding / decoding device, or may be encoded and signaled in a coded device.
- the current number may mean the number of merge candidates configured before adding a combination merge candidate. For example, when the number of remaining merge candidates is 1, two merge candidates are used, and when the number of remaining merge candidates is greater than 1, three or more merge candidates may be used.
- the positions of the n merge candidates may be pre-determined positions in the merge candidate list. For example, an index (0 to (k-1)) may be allocated for each merge candidate belonging to the merge candidate list. Here, k may mean the total number of merge candidates belonging to the merge candidate list. At this time, the positions of the n merge candidates may correspond to indexes 0 to (n-1) in the merge candidate list. Alternatively, the n merge candidates may be determined in consideration of the prediction direction of each merge candidate belonging to the merge candidate list. For example, among merge candidates belonging to the merge candidate list, only merge candidates that are bidirectional predictions can be selectively used, or merge candidates that are unidirectional predictions can be selectively used.
- Combination merge candidates may be derived using both spatial merge candidates and temporal merge candidates, or may be derived using either spatial merge candidates or temporal merge candidates.
- a combination merge candidate may be restricted to be derived using only spatial merge candidates.
- the number of merge candidates to be combined may be limited to the number of spatial merge candidates belonging to the pre-generated merge candidate list.
- the combination merge candidate may be added after the spatial / temporal merge candidate in the merge candidate list. That is, the index of the combination merge candidate may be larger than the index of the spatial / temporal merge candidate.
- the combination merge candidate may be added between the spatial merge candidate and the temporal merge candidate in the merge candidate list. That is, the index of the combination merge candidate may be larger than the index of the spatial merge candidate and smaller than the index of the temporal merge candidate.
- the position of the combined merge candidate may be variably determined in consideration of the prediction direction of the combined merge candidate. Depending on whether the prediction direction of the combination merge candidate is bidirectional prediction, the position of the combination merge candidate in the merge candidate list may be rearranged. For example, if the combination merge candidate is bi-directional prediction, an index smaller than the spatial or temporal merge candidate may be allocated, otherwise, an index larger than the spatial or temporal merge candidate may be allocated.
- the motion information of the combined merge candidate may be derived by weighted average of motion information of the first merge candidate and the second merge candidate.
- the weighted average weight is [1: 1], [1: 2], [1: 3], [2: 3], and the like, but is not limited thereto.
- the weight may be pre-defined in the encoding / decoding device, or may be derived in the decoding device. At this time, the weight may be derived by considering at least one of a distance between a current picture and a reference picture of a merge candidate or a prediction direction of a merge candidate.
- the motion information of the combined merge candidate may be derived by obtaining motion information in the L0 direction from the first merge candidate and motion information in the L1 direction from the second merge candidate, respectively, and combining them.
- the motion information of the combination merge candidate may be derived based on at least one of the above-described derivation methods, and this may be performed in consideration of the prediction direction of the combination candidate merge candidate as described below.
- the motion information may include at least one of a prediction direction flag, a reference picture index, or a motion vector.
- the motion information may be defined for L0 prediction and L1 prediction, respectively.
- the L0 prediction may mean a prediction referring to the reference picture list L0
- the L1 prediction may mean a prediction referring to the reference picture list L1.
- the reference picture index in the L0 direction of the combined merge candidate may be derived as a reference picture index of the first merge candidate.
- the prediction direction flag in the L0 direction of the combination merge candidate may be derived as 1.
- the motion vector in the L0 direction of the combined merge candidate may be derived as a motion vector of the first merge candidate.
- the reference picture index in the L1 direction of the combined merge candidate may be derived as a reference picture index of the second merge candidate.
- the prediction direction flag in the L1 direction of the combination merge candidate may be derived as 1.
- the motion vector in the L1 direction of the combined merge candidate may be derived as a motion vector of the second merge candidate.
- the reference picture index in the L0 direction of the combined merge candidate may be derived as a reference picture index of the second merge candidate.
- the prediction direction flag in the L0 direction of the combination merge candidate may be derived as 1.
- the motion vector in the L0 direction of the combined merge candidate may be derived as a motion vector of the second merge candidate.
- the reference picture index in the L1 direction of the combination merge candidate may be derived as a reference picture index of the first merge candidate.
- the prediction direction flag in the L1 direction of the combination merge candidate may be derived as 1.
- the motion vector in the L1 direction of the combination merge candidate may be derived as a motion vector of the first merge candidate.
- the reference picture index in the L0 direction of the combination merge candidate is derived as a reference picture index of either the first merge candidate or the second merge candidate You can.
- a reference picture index of a merge candidate having the smallest index among the first merge candidate and the second merge candidate may be set as a reference picture index in the L0 direction of the combination merge candidate.
- the prediction direction flag in the L0 direction of the combination merge candidate may be derived as 1.
- the motion vector in the L0 direction of the combined merge candidate may be derived as a weighted average of the motion vector of the first merge candidate and the second merge candidate.
- the reference picture index in the L1 direction of the combination merge candidate may be derived as -1, the prediction direction flag in the L1 direction may be derived as 0, and motion information in the L1 direction may be derived as 0.
- the motion information of can be derived as 0.
- the reference picture index in the L1 direction of the combined merge candidate may be derived as a reference picture index of either the first merge candidate or the second merge candidate.
- a reference picture index of a merge candidate having the smallest index among the first merge candidate and the second merge candidate may be set as a reference picture index in the L1 direction of the combination merge candidate.
- the prediction direction flag in the L1 direction of the combination merge candidate may be derived as 1.
- the motion vector in the L1 direction of the combined merge candidate may be derived as a weighted average of the motion vector of the first merge candidate and the second merge candidate.
- the reference picture index in the L0 direction of the combination merge candidate may be derived as a reference picture index of either the first merge candidate or the second merge candidate.
- a reference picture index of a merge candidate having the smallest index among the first merge candidate and the second merge candidate may be set as a reference picture index in the L0 direction of the combination merge candidate.
- the prediction direction flag in the L0 direction of the combination merge candidate may be derived as 1.
- the motion vector in the L0 direction of the combined merge candidate may be derived as a weighted average of the motion vector of the first merge candidate and the second merge candidate.
- the reference picture index in the L1 direction of the combined merge candidate may be derived as a reference picture index of either the first merge candidate or the second merge candidate.
- a reference picture index of a merge candidate having the smallest index among the first merge candidate and the second merge candidate may be set as a reference picture index in the L1 direction of the combination merge candidate.
- the prediction direction flag in the L1 direction of the combination merge candidate may be derived as 1.
- the motion vector in the L1 direction of the combined merge candidate may be derived as a weighted average of the motion vector of the first merge candidate and the second merge candidate.
- the reference picture index in the L0 direction of the combined merge candidate may be derived as a reference picture index of either the first merge candidate or the second merge candidate.
- a reference picture index of a merge candidate having the smallest index among the first merge candidate and the second merge candidate may be set as a reference picture index in the L0 direction of the combination merge candidate.
- the prediction direction flag in the L0 direction of the combination merge candidate may be derived as 1.
- the motion vector in the L0 direction of the combined merge candidate may be derived as a weighted average of the motion vector of the first merge candidate and the second merge candidate.
- the reference picture index in the L1 direction of the combination merge candidate may be derived as a reference picture index of the first merge candidate.
- the prediction direction flag in the L1 direction of the combination merge candidate may be derived as 1.
- the motion vector in the L1 direction of the combination merge candidate may be derived as a motion vector of the first merge candidate.
- the reference picture index in the L0 direction of the combined merge candidate may be derived as a reference picture index of the first merge candidate.
- the prediction direction flag in the L0 direction of the combination merge candidate may be derived as 1.
- the motion vector in the L0 direction of the combined merge candidate may be derived as a motion vector of the first merge candidate.
- the reference picture index in the L1 direction of the combined merge candidate may be derived as a reference picture index of either the first merge candidate or the second merge candidate.
- a reference picture index of a merge candidate having the smallest index among the first merge candidate and the second merge candidate may be set as a reference picture index in the L1 direction of the combination merge candidate.
- the prediction direction flag in the L1 direction of the combination merge candidate may be derived as 1.
- the motion vector in the L1 direction of the combined merge candidate may be derived as a weighted average of the motion vector of the first merge candidate and the second merge candidate.
- motion information of a current block may be derived from a merge candidate list (S610).
- the merge index of the current block may be signaled.
- the merge index can specify any one of a plurality of merge candidates belonging to the merge candidate list.
- the merge candidate having the same index as the merge index may be extracted, and motion information of the current block may be derived using the extracted motion information of the merge candidate.
- the motion vector, reference picture index and prediction direction information of the current block may be set to be the same as the motion vector, reference picture index and prediction direction information of the extracted merge candidate, respectively.
- FIG. 7 shows a method of deriving motion information based on an affine mode as an embodiment to which the present invention is applied.
- a candidate list for predicting motion information of a current block may be generated (S700).
- the candidate list may include one or more affine model-based candidates (hereinafter referred to as affine candidates).
- affine candidates may refer to a candidate having a control point vector.
- the control point vector means a motion vector of a control point for an affine model, and may be defined with respect to a corner position of a block (eg, at least one of an upper left, upper right, lower left, or lower right corner).
- the affine candidate may include at least one of a spatial candidate, a temporal candidate, or a configured candidate.
- the spatial candidate may be derived from a vector of neighboring blocks spatially adjacent to the current block
- the temporal candidate may be derived from a vector of neighboring blocks temporally adjacent to the current block.
- the neighboring block may mean a block encoded with an affine model.
- the vector may mean a motion vector or a control point vector.
- the configured candidate may be derived based on a combination between motion vectors of spatial / temporal neighboring blocks in the current block.
- the plurality of affine candidates described above may be arranged in the candidate list based on a predetermined priority.
- a plurality of affine candidates may be arranged in a candidate list in the order of spatial candidates, temporal candidates, and composed candidates.
- the plurality of affine candidates may be arranged in the candidate list in the order of temporal candidates, spatial candidates, and composed candidates.
- the present invention is not limited thereto, and the temporal candidate may be arranged after the configured candidate.
- some of the configured candidates may be arranged before the spatial candidate and the others may be arranged after the spatial candidate.
- a control point vector of the current block may be derived based on the candidate list and candidate index (S710).
- the candidate index may mean an index coded to derive a control point vector of the current block.
- the candidate index may specify any one of a plurality of affine candidates belonging to the candidate list.
- the affine candidate may mean a position of a spatial / temporal candidate or a control point vector of the affine candidate.
- the control point vector of the current block may be derived using the affine candidate specified by the candidate index.
- the type of the affine model of the current block is 4-parameter (ie, when the current block is determined to use two control point vectors).
- three control point vectors of the specified affine candidate may be set as control point vectors of the current block.
- the type of the affine model of the current block may be updated with a 6-parameter.
- the type of the affine model of the current block is 6-parameter (ie, the current block is determined to use 3 control point vectors).
- the affine candidate specified by the candidate index has two control point vectors
- one additional control point vector is generated, and the two control point vectors and the additional control point vectors of the affine candidate are control point vectors of the current block.
- the additional control point vector may be derived based on at least one of two control point vectors of the candidate, the current / neighbor block size or location information.
- the two control point vectors of the specified affine candidate may be set as the control point vector of the current block.
- the type of the affine model of the current block may be updated with 4-parameter.
- control point vector of the specified affine candidate may be set as a control point vector prediction value (cpmvp) of the current block.
- the control point vector difference value cpmvd may be signaled for the current block.
- the number of control point vector difference values to be signaled may be determined according to the type of the affine model of the current block. That is, when the type of the affine model of the current block is 4-parameter, two control point vector difference values can be obtained by calling mvd_coding () twice. Similarly, when the type of the affine model of the current block is 6-parameter, three control point vector difference values may be obtained by calling mvd_coding () three times.
- the control point vector cpmv may be reconstructed using the control point vector prediction value cpmvp and the control point vector difference value cpmvd of the current block.
- a motion vector of the current block may be derived (S720).
- the motion vector may be derived in units of a current block or sub-block.
- the current block may be divided into a plurality of NxM sub-blocks.
- the N and M values may be 4, 8, 16, 32 or more.
- the size / shape of the sub-block may be a fixed size / shape predefined in the decoding apparatus.
- the size / shape of the sub-block may be square such as 4x4, 8x8, 16x16 or the like, or may be rectangular such as 2x4, 2x8, 4x8, 4x16, and the like.
- the sub-block may be defined as a block in which the sum of width and height is an integer of 8, 12, 16 or more.
- the sub-block may be defined as a block in which the product of width and height is an integer of 16, 32, 64 or more.
- the size / shape of the sub-block may be derived variably based on the properties of the above-described block. For example, if the size of the current block is greater than or equal to a predetermined threshold size, the current block is divided into units of the first sub-block (eg, 8x8, 16x16), otherwise, the current block is the second sub-block It can be divided into units (eg, 4x4).
- information regarding the size / shape of the sub-block may be encoded and signaled by an encoding device.
- the information indicates at least one of the size or shape of a sub-block, which may be signaled at at least one level of a sequence, picture, tile group, tile, or CTU.
- the control point representing the current block may include a top left position and a top right position.
- the present invention is not limited thereto, and the control point may include three points of the upper left position, the upper right position and the lower left position, or may further include a plurality of additional points.
- the first control point vector corresponding to the first control point the second control point vector corresponding to the second control point, the position (x, y) of the sub-block or the size (width or height) of the current block
- a motion vector for each sub-block of the current block can be derived.
- a motion vector for each sub-block of the current block may be derived using at least one of the size (width or height) of the current block.
- a difference vector between the second control point vector and the first control point vector may be used, and a difference vector between the third control point vector and the first control point vector may be used.
- the difference vector may be calculated for each of the horizontal direction (x-axis direction) and the vertical direction (y-axis direction).
- the motion vector derivation process may further include applying a predetermined offset to the motion vector derived based on the control point vector.
- the offset may mean a vector for improving a pre-induced motion vector.
- the offset may be determined based on information on at least one of the size or direction of the offset.
- the size (Absolute) may be an integer of 1, 2, 3, or more.
- the direction may include at least one of left, right, top or bottom.
- Information on the size and / or direction of the offset may be encoded and signaled by an encoding device. Alternatively, the size of the offset may be a fixed value preset in the decoding apparatus.
- FIG. 8 is an embodiment to which the present invention is applied, and relates to a method of deriving an affine candidate from a control point vector of a spatial / temporal neighbor block.
- the width and height of the current block 800 are cbW and cbH, respectively, and the position of the current block is (xCb, yCb).
- the width and height of the spatial neighboring blocks 810-850 are nbW and nbH, respectively, and the locations of the spatial neighboring blocks are (xNb, yNb).
- the spatial neighboring block may include at least one of a left block 810, a bottom left block 840, a top right block 830, a top block 820, or a top left block 850 of the current block.
- the spatial neighboring block may further include at least one of a block adjacent to the right or a block adjacent to the bottom of the upper left block 850.
- the spatial candidate may have n control point vectors (cpMV).
- n value may be an integer of 1, 2, 3, or more.
- the n value is based on at least one of information about whether to be decoded in units of sub-blocks, whether to be a block encoded by an affine model, or information about a type of affine model (4-parameter or 6-parameter). Can be determined.
- the corresponding block when a corresponding block is decoded in units of sub-blocks or a block encoded by an affine model, the corresponding block may have two control point vectors. On the other hand, if not, the corresponding block may not perform affine model-based prediction.
- the corresponding block when the corresponding block is a block encoded with an affine model and the type of the affine model is 6-parameter, the block may have three control point vectors. On the other hand, if not, the corresponding block may not perform affine model-based prediction.
- the above-described information may be encoded and signaled by an encoding device.
- all or part of the information may be derived from the decoding device based on the attribute of the block.
- the block may mean a current block or a spatial / temporal neighboring block of the current block.
- the attribute may mean size, shape, position, division type, inter mode, parameters related to residual coefficients, and the like.
- the inter mode is a pre-defined mode in the decoding apparatus, and may mean a merge mode, a skip mode, an AMVP mode, an affine model, an intra / inter combination mode, a current picture reference mode, and the like.
- the n value may be derived from the decoding apparatus based on the properties of the above-described block.
- n control point vectors are: first control point vector (cpMV [0]), second control point vector (cpMV [1]), third control point vector (cpMV [2]), ... nth control point It can be expressed as a vector (cpMV [n-1]).
- the first control point vector (cpMV [0]), the second control point vector (cpMV [1]), the third control point vector (cpMV [2]), and the fourth control point vector (cpMV [3]) are blocks of It may be a vector corresponding to the positions of the upper left sample, the upper right sample, the lower left sample, and the lower right sample, respectively.
- the spatial candidate is assumed to have three control point vectors, and the three control point vectors may be any control point vectors selected from first to nth control point vectors.
- the spatial candidate may have two control point vectors, and the two control point vectors may be arbitrary control point vectors selected from first to nth control point vectors.
- the first control point vector is derived based on at least one of a first control point vector of a spatial neighboring block, a predetermined difference value, location information (xCb, yCb) of a current block or location information (xNb, yNb) of a spatial neighboring block. Can be.
- the number of difference values may be 1, 2, 3, or more.
- the number of difference values may be variably determined in consideration of the properties of the above-described block, or may be a fixed value pre-promised in the decoding apparatus.
- the difference value may be defined as a difference value between any one of the plurality of control point vectors and the other.
- the difference value may include a first difference value between the second control point vector and the first control point vector, a second difference value between the third control point vector and the first control point vector, and a fourth difference between the fourth control point vector and the third control point vector. It may include at least one of a third difference value or a fourth difference value between the fourth control point vector and the second control point vector.
- the first control point vector may be derived as in Equation 1 below.
- cpMvLX [0] [0] (mvScaleHor + dHorX * (xCb-xNb) + dHorY * (yCb-yNb))
- cpMvLX [0] [1] (mvScaleVer + dVerX * (xCb-xNb) + dVerY * (yCb-yNb))
- the variables mvScaleHor and mvScaleVer may mean a first control point vector of a spatial neighboring block, or may mean a value derived by applying a shift operation by k to the first control point vector.
- k may be an integer of 1, 2, 3, 4, 5, 6, 7, 8, 9 or more.
- the variables dHorX and dVerX respectively correspond to the x component and the y component of the first difference value between the second control point vector and the first control point vector.
- the variables dHorY and dVerY respectively correspond to the x component and the y component of the second difference value between the third control point vector and the first control point vector.
- the above-described variable may be derived as in Equation 2 below.
- dHorX (CpMvLX [xNb + nNbW-1] [yNb] [1] [0]-CpMvLX [xNb] [yNb] [0] [0]) ⁇ (7-log2NbW)
- dHorY (CpMvLX [xNb] [yNb + nNbH-1] [2] [0]-CpMvLX [xNb] [yNb] [2] [0]) ⁇ (7-log2NbH)
- the second control point vector is a first control point vector of a spatial neighboring block, a predetermined difference value, position information (xCb, yCb) of the current block, block size (width or height), or position information of a spatial neighboring block (xNb, yNb) It may be derived based on at least one of.
- the block size may mean the size of the current block and / or spatial neighboring block.
- the difference value is as described in the first control point vector, and a detailed description thereof will be omitted. However, the range and / or number of difference values used in the derivation process of the second control point vector may be different from the first control point vector.
- the second control point vector may be derived as in Equation 3 below.
- cpMvLX [1] [0] (mvScaleHor + dHorX * (xCb + cbWidth-xNb) + dHorY * (yCb-yNb))
- cpMvLX [1] (mvScaleVer + dVerX * (xCb + cbWidth-xNb) + dVerY * (yCb-yNb))
- Equation 3 the variables mvScaleHor, mvScaleVer, dHorX, dVerX, dHorY, dVerY are as described in Equation 1, and a detailed description thereof will be omitted.
- the third control point vector is a first control point vector of a spatial neighboring block, a predetermined difference value, position information (xCb, yCb) of the current block, block size (width or height), or position information of a spatial neighboring block (xNb, yNb) It may be derived based on at least one of.
- the block size may mean the size of the current block and / or spatial neighboring block.
- the difference value is as described in the first control point vector, and a detailed description thereof will be omitted. However, the range and / or number of difference values used in the process of deriving the third control point vector may be different from the first control point vector or the second control point vector.
- the third control point vector may be derived as in Equation 4 below.
- cpMvLX [2] [0] (mvScaleHor + dHorX * (xCb-xNb) + dHorY * (yCb + cbHeight-yNb))
- cpMvLX [2] (mvScaleVer + dVerX * (xCb-xNb) + dVerY * (yCb + cbHeight-yNb))
- Equation 4 the variables mvScaleHor, mvScaleVer, dHorX, dVerX, dHorY, dVerY are as described in Equation 1, and a detailed description thereof will be omitted. Meanwhile, the n-th control point vector of the spatial candidate may be derived through the above-described process.
- the first control point vector is based on at least one of a motion vector (MV) of a spatial neighboring block, a predetermined difference value, location information (xCb, yCb) of a current block or location information (xNb, yNb) of a spatial neighboring block. Can be induced.
- MV motion vector
- xCb, yCb location information
- xNb, yNb location information
- the motion vector may be a motion vector of a sub-block located at the bottom of a spatial neighboring block.
- the sub-block may be located on the leftmost, center or rightmost of a plurality of sub-blocks located at the bottom of the spatial neighboring block.
- the motion vector may mean an average value, a maximum value, or a minimum value of a motion vector of a sub-block.
- the number of difference values may be 1, 2, 3, or more.
- the number of difference values may be variably determined in consideration of the properties of the above-described block, or may be a fixed value pre-promised in the decoding apparatus.
- the difference value may be defined as a difference value between any one of a plurality of motion vectors stored in units of sub-blocks in a spatial neighboring block and the other.
- the difference value may mean a difference value between the motion vector of the lower right sub-block of the spatial neighboring block and the motion vector of the lower left sub-block.
- the first control point vector may be derived as in Equation 5 below.
- cpMvLX [0] [0] (mvScaleHor + dHorX * (xCb-xNb) + dHorY * (yCb-yNb))
- cpMvLX [0] [1] (mvScaleVer + dVerX * (xCb-xNb) + dVerY * (yCb-yNb))
- the variables mvScaleHor and mvScaleVer may mean values derived by applying a shift operation by k to the motion vector (MV) of the above-described spatial neighboring block or the motion vector.
- k may be an integer of 1, 2, 3, 4, 5, 6, 7, 8, 9 or more.
- the variables dHorX and dVerX respectively correspond to the x component and the y component of a predetermined difference value.
- the difference value means a difference value between the motion vector of the lower right sub-block and the motion vector of the lower left sub-block in the spatial neighboring block.
- the variables dHorY and dVerY can be derived based on the variables dHorX and dVerX. The above-described variable may be derived as in Equation 6 below.
- dHorX (MvLX [xNb + nNbW-1] [yNb + nNbH-1] [0]-MvLX [xNb] [yNb + nNbH-1] [0]) ⁇ (7-log2NbW)
- the second control point vector is a motion vector (MV) of a spatial neighboring block, a predetermined difference value, position information (xCb, yCb) of the current block, block size (width or height), or position information of a spatial neighboring block (xNb, yNb) ).
- the block size may mean the size of the current block and / or spatial neighboring block.
- the motion vector and the difference value are as described in the first control point vector, and a detailed description thereof will be omitted. However, the position, range and / or number of motion vectors used in the derivation process of the second control point vector may be different from the first control point vector.
- the second control point vector may be derived as in Equation 7 below.
- cpMvLX [1] [0] (mvScaleHor + dHorX * (xCb + cbWidth-xNb) + dHorY * (yCb-yNb))
- cpMvLX [1] (mvScaleVer + dVerX * (xCb + cbWidth-xNb) + dVerY * (yCb-yNb))
- Equation 7 the variables mvScaleHor, mvScaleVer, dHorX, dVerX, dHorY, dVerY are as described in Equation 5, and a detailed description thereof will be omitted.
- the third control point vector is a motion vector (MV) of a spatial neighboring block, a predetermined difference value, position information (xCb, yCb) of the current block, block size (width or height), or position information of a spatial neighboring block (xNb, yNb) ).
- the block size may mean the size of the current block and / or spatial neighboring block.
- the motion vector and the difference value are as described in the first control point vector, and a detailed description thereof will be omitted. However, the position and difference range and / or number of motion vectors used in the process of deriving the third control point vector may be different from the first control point vector or the second control point vector.
- the third control point vector may be derived as in Equation 8 below.
- cpMvLX [2] [0] (mvScaleHor + dHorX * (xCb-xNb) + dHorY * (yCb + cbHeight-yNb))
- cpMvLX [2] (mvScaleVer + dVerX * (xCb-xNb) + dVerY * (yCb + cbHeight-yNb))
- Equation 8 the variables mvScaleHor, mvScaleVer, dHorX, dVerX, dHorY, dVerY are as described in Equation 5, and a detailed description thereof will be omitted. Meanwhile, the n-th control point vector of the spatial candidate may be derived through the above-described process.
- the above-described process of deriving an affine candidate may be performed for each of the pre-defined spatial neighboring blocks.
- the pre-defined spatial neighboring block may include at least one of a left block, a bottom left block, a top right block, a top block, or a top left block of the current block.
- the process of deriving the affine candidate may be performed for each group of the spatial neighboring blocks.
- the spatial neighboring block may be classified into a first group including a left block and a lower left block and a second group including a right upper block, an upper block, and a left upper block.
- one affine candidate may be derived from a spatial neighboring block belonging to the first group.
- the derivation may be performed until an available affine candidate is found based on a predetermined priority.
- the priority may be in the order of left block-> bottom left block or vice versa. According to the priority, it is determined whether the corresponding spatial neighboring block in the first group is a block decoded through affine model-based prediction, and a block decoded by the first affine model-based prediction can be selected as an affine candidate. have.
- one affine candidate may be derived from a spatial neighboring block belonging to the second group.
- the derivation may be performed until an available affine candidate is found based on a predetermined priority.
- the priority may be in the order of upper right block-> upper block-> upper left block, or vice versa. According to the priority, it is determined whether the corresponding spatial neighboring block in the second group is a block decoded through affine model-based prediction, and a block decoded by the first affine model-based prediction can be selected as an affine candidate. have.
- the temporal neighboring block belongs to a picture different from the current block, but may be a block at the same position as the current block.
- the block at the same position may be a block including a position of a sample at the top left of the current block, a center position or a sample adjacent to a sample at the bottom right of the current block.
- the temporal neighboring block may mean a block at a position shifted by a predetermined shift vector from the block at the same position.
- the variation vector may be determined based on any one of the spatial neighboring blocks of the current block described above.
- 9 is an embodiment to which the present invention is applied, and shows a method of adaptively adjusting the resolution of a motion vector.
- the resolution of the motion vector of the current block may be determined (S900).
- the motion vector means a pre-restored motion vector (mv), but may be replaced by a motion vector prediction value (mvp) or a motion vector difference value (mvd).
- the encoding / decoding apparatus may select any one of a plurality of pre-defined resolution candidates and determine this as a motion vector resolution.
- the plurality of resolution candidates may include at least one of 1/16 pixels, 1/8 pixels, 1/4 pixels, 1/2 pixels, 1 pixel, 2 pixels, or 4 pixels.
- the selection may be performed in a higher level unit such as a video parameter set (VPS), sequence parameter set (SPS), picture parameter set (PPS), slice header, or the like. That is, all blocks referring to the unit of the high level can perform motion compensation based on a motion vector having the same resolution. Meanwhile, the selection may be performed at a lower level unit such as a coding block, a prediction block, a transform block, and other sub-blocks. That is, motion compensation may be performed for each corresponding lower level based on motion vectors having different resolutions.
- a higher level unit such as a video parameter set (VPS), sequence parameter set (SPS), picture parameter set (PPS), slice header, or the like. That is, all blocks referring to the unit of the high level can perform motion compensation based on a motion vector having the same resolution.
- the selection may be performed at a lower level unit such as a coding block, a prediction block, a transform block, and other sub-blocks. That is, motion compensation may be performed for each
- the selection may be performed based on an index specifying any one of a plurality of resolution candidates (Example 1).
- a corresponding resolution candidate for each index is defined as shown in Table 1, and the index may be an integer in the range of 0 to (number of resolution candidates -1).
- Table 1 is only an example of an index allocated for each resolution candidate, and does not limit the priority order and number of resolution candidates.
- a 1/4 pixel may have a higher priority than 1/16 pixel, and an index smaller than 1/16 pixel may be allocated to the 1/4 pixel.
- the 1/4 pixel or 1/2 pixel may have an index smaller than 1/16 pixel.
- the maximum number of resolution candidates available for the current block is N, and N may be a natural number of 1, 2, 3, 4, 5 or more.
- the number may be a value that is pre-promised and fixed to the encoding / decoding device.
- it may be variably determined in consideration of encoding parameters of the current block.
- the encoding parameter may be variably determined in consideration of at least one of a block size / shape / position, bidirectional prediction, inter mode, or component type. For example, if the size of the current block is smaller than the threshold size, p resolution candidates are used, otherwise, q resolution candidates can be used.
- p may be a natural number less than q.
- the number of resolution candidates may be two or three.
- the number of resolution candidates may be 3, 4, or 5.
- the number of resolution candidates may be 1, 2, or 3.
- the same number of resolution candidates may be set regardless of the size or inter mode of the aforementioned block.
- two indexes may be used to specify any one of a plurality of resolution candidates (Example 2).
- the two indices are referred to as a first index and a second index.
- the first index is information encoded to specify the resolution of the motion vector. For example, if the first index is the first value, the resolution of the motion vector is determined to be 1/4 pixel, otherwise, the resolution of the motion vector can be determined based on the second index.
- the resolution of the motion vectors for the first and second indexes may be defined in consideration of inter mode as shown in Table 2 below.
- Table 2 is only an example of a resolution candidate for each second index, and does not limit the resolution candidate corresponding to each second index.
- 1/2 pixels, 1/8 pixels, etc. may correspond to the second index 0, and 2 pixels, 4 pixels, etc. may correspond to the second index 1.
- 2 pixels may correspond to the second index 0 or 1.
- the same resolution candidate may be configured regardless of inter mode, or the same resolution candidate may be configured for IBC mode and AMVP mode.
- the same resolution candidate may be composed of at least two of 1/4 pixels, 1/2 pixels, 1 pixel, or 4 pixels.
- the first index may be signaled when the inter mode of the current block is the AMVP mode or the affine mode (condition 1). Also, the first index may be signaled only when a non-zero motion vector difference value or a control point vector difference value is signaled for the current block (condition 2).
- the first index may be signaled based on a flag indicating whether adaptive motion vector resolution is used in motion vector encoding / decoding. That is, the first index may be signaled only when the flag is the first value (condition 3).
- the flag may be signaled at a higher level of at least one of a video parameter set (VPS), a sequence parameter set (SPS), and a picture parameter set (PPS).
- the first index may be signaled when all of the above conditions 1 to 3 are satisfied, or the first index may be signaled when at least one of the conditions 1 to 3 is satisfied.
- the second index may be signaled only when the resolution of the motion vector is not 1/4 pixel according to the first index.
- a motion vector prediction value corresponding to the determined resolution may be derived (S910).
- the motion vector prediction value is shifted by 2 to adjust the resolution to 1/4 pixel. You can.
- the motion vector prediction value may be shifted by 4 to adjust the resolution to 1 pixel. That is, by applying a predetermined shift value to the pre-derived vector component, the resolution or precision of the vector component can be adjusted, and this will be referred to as rounding.
- the shift value for rounding may be defined as shown in Table 2.
- the rounding may be performed after any one of a plurality of motion vectors belonging to the candidate list is specified. That is, rounding according to the determined resolution may not be performed for each of a plurality of motion vectors constituting a candidate list, and rounding may be performed only for one motion vector specified by an index.
- the rounding is performed for each motion vector of a spatial / temporal neighbor block, and a candidate list may be constructed based on the rounded motion vector.
- a candidate list may be constructed based on the rounded motion vector.
- one motion vector specified from the candidate list is set as the motion vector prediction value of the current block, and no additional rounding process is performed.
- the rounding may be performed after any one of a plurality of candidates belonging to the candidate list is specified. That is, rounding according to the determined resolution may not be performed for each of a plurality of candidates constituting the candidate list, and only one candidate specified by the index may be rounded.
- Some of the plurality of candidates may be configured as control point vectors and the rest may be motion vectors.
- the rounding is performed for each vector of spatial / temporal neighboring blocks, and a candidate list may be constructed based on the rounded vector.
- a candidate list may be constructed based on the rounded vector.
- one vector specified from the candidate list is set as the control point vector prediction value (cpmvp) of the current block, and additional rounding may not be performed on the control point vector prediction value.
- a motion vector difference value may be rounded (S920).
- the motion vector difference value can be restored based on predetermined encoding information.
- the encoding information may be signaled to decode a motion vector difference value.
- one motion vector difference value may be signaled by calling the mvd_coding () function once.
- the motion vector difference value of S920 may be understood as a control point vector difference value.
- two control point vector difference values may be obtained by calling mvd_coding () twice.
- three control point vector difference values may be obtained by calling mvd_coding () three times.
- the motion vector difference value may be rounded. That is, the motion vector difference value may be shifted by the shift value defined in Table 2 to adjust the resolution of the motion vector difference value.
- each of the plurality of control point vector difference values described above may be shifted by a shift value defined in Table 2 to adjust the resolution of the control point vector difference value.
- the motion vector of the current block may be reconstructed based on the rounded motion vector prediction value and the motion vector difference value (S930).
- control point vector of the current block may be restored based on the rounded control point vector prediction value and the control point vector difference value.
- rounding may be performed only on the finally reconstructed motion vector based on the resolution determined in S900. In this case, at least one of the above-mentioned rounding on the motion vector prediction value of S910 or rounding on the motion vector difference value of S920 may be omitted.
- the adaptive motion vector resolution may be limited to being applied only to the inter mode (eg, AMVP mode) in which the motion vector difference value is signaled, and the inter mode (eg, merge) in which the motion vector difference value is not signaled Mode).
- the inter mode eg, AMVP mode
- the inter mode eg, merge
- 10 is an embodiment to which the present invention is applied, and shows an inter prediction method based on interpolation.
- an interpolation filter of a current block may be determined (S1000).
- the encoding / decoding device may define one or more interpolation filter sets.
- any one of the plurality of interpolation filter sets may be selectively used in consideration of block attributes.
- the block attribute may include the size, shape, and inter mode of the current block or sub-block.
- the first interpolation filter set as shown in Table 3 below is selected, otherwise, the second as shown in Table 4 below.
- An interpolation filter set can be selected.
- the first and second interpolation filter sets define an interpolation filter for each fractional sample position.
- the decimal pixel position is based on the resolution or precision of 1/16 pixel.
- the position of a small number of pixels to be interpolated can be specified by the motion vector of the current block.
- the motion vector may be reconstructed through the above-described rounding process.
- the second interpolation filter set may define two interpolation filters for a resolution of 1/2 pixel.
- the specified interpolation target position is 8
- one of two interpolation filters may be selected according to the variable hpelIfIdx.
- the variable hpelIfIdx can be derived based on the shift value described above. For example, when the shift value is 3 (that is, when the resolution of the motion vector is determined to be 1/2 pixel), the variable hpelIfIdx may be derived as 1, otherwise, the variable hpelIfIdx may be derived as 0.
- the position of the reference integer pixel may be determined (S1010).
- the reference integer pixel may belong to a reference picture of the current block.
- the reference picture may be a picture in a time zone different from the current block, or may be a current picture to which the current block belongs.
- the position of the reference integer pixel is (xInti, yInti), and xInti and yInti may be determined as shown in Equation 9 below.
- (xIntL, yIntL) may indicate the position of a reference integer pixel for specifying the position of a small number of pixels (hereinafter referred to as interpolation target pixels) as interpolation targets.
- the position of the reference integer pixel may be determined according to whether a sub-picture is considered as one picture in the encoding / decoding process. To this end, a flag indicating whether a sub-picture is considered as one picture may be used. When the flag is the first value, the sub-picture may be considered as one picture, otherwise, the sub-picture may not be considered as one picture. The flag may be signaled for each sub-picture constituting one picture.
- xInti outside the left boundary of the current subpicture is replaced with the x-coordinate of the left boundary of the subpicture, and the right boundary of the current subpicture is replaced.
- the deviating xInti can be replaced with the x-coordinate of the right border of the subpicture.
- yInti calculated in Equation 9 yInti outside the upper boundary of the current subpicture is replaced with y-coordinate of the upper boundary of the subpicture, and yInti outside the lower boundary of the current subpicture is y of the lower boundary of the subpicture.
- -Coordinates can be substituted.
- One picture may be divided into one or more sub-pictures.
- the sub-picture may be composed of one or more slices, or one or more tiles.
- One slice may be restricted so that it does not span multiple subpictures.
- one tile may be restricted so as not to span multiple subpictures.
- one picture may be divided in k-grid intervals, in vertical and horizontal directions. Indexes can be assigned to each grid. Grouping can be performed for each grid having the same index. A group of grids having the same index can be defined as subpictures.
- an interpolation filter may be applied to the determined reference integer pixel to derive the prediction pixel of the current block (S1020).
- an interpolation filter is applied to 8 reference integer pixels located on the same horizontal line as the interpolation target pixel to derive a prediction pixel.
- a prediction pixel may be derived by applying an interpolation filter to 8 reference integer pixels located in the same vertical line as the interpolation target pixel. have.
- an interpolation filter may be applied to eight reference integer pixels positioned on a horizontal line to calculate a reference fractional pixel.
- the reference fractional pixels may be calculated for each of eight consecutive horizontal pixel lines.
- Prediction pixels can be derived by applying an interpolation filter to 8 reference fractional pixels located on a vertical line.
- an interpolation filter may be applied to eight reference integer pixels positioned on a vertical line to calculate a reference fractional pixel.
- the reference fractional pixels may be calculated for each of eight consecutive vertical pixel lines.
- a prediction pixel may be derived by applying an interpolation filter to eight reference decimal pixels located on a horizontal line.
- the above-described 8-tap interpolation filter is only an example, a k-tap interpolation filter may be used, and k may be 2, 3, 4, 5, 6, 7 or more natural numbers.
- the above-described interpolation method can be applied identically / similarly.
- the above example describes a case in which a plurality of interpolation filters are defined for a resolution of a specific pixel (1/2 pixel), but a plurality of resolutions of at least one of resolutions of a small number of pixels obtained based on a predetermined resolution or precision It may also be possible if an interpolation filter is applied.
- Exemplary methods of the present disclosure are expressed as a series of operations for clarity of description, but are not intended to limit the order in which the steps are performed, and each step may be performed simultaneously or in a different order if necessary.
- the steps illustrated may include other steps in addition, other steps may be included in addition to the remaining steps, or additional other steps may be included in addition to some steps.
- various embodiments of the present disclosure may be implemented by hardware, firmware, software, or a combination thereof.
- ASICs Application Specific Integrated Circuits
- DSPs Digital Signal Processors
- DSPDs Digital Signal Processing Devices
- PLDs Programmable Logic Devices
- FPGAs Field Programmable Gate Arrays
- ASICs Application Specific Integrated Circuits
- DSPs Digital Signal Processors
- DSPDs Digital Signal Processing Devices
- PLDs Programmable Logic Devices
- FPGAs Field Programmable Gate Arrays
- Universal It can be implemented by a processor (general processor), a controller, a microcontroller, a microprocessor.
- the scope of the present disclosure includes software or machine-executable instructions (eg, operating systems, applications, firmware, programs, etc.) that cause actions according to the methods of various embodiments to be executed on a device or computer, and such software or Instructions include a non-transitory computer-readable medium that is stored and executable on a device or computer.
- software or Instructions include a non-transitory computer-readable medium that is stored and executable on a device or computer.
- the present invention can be used to encode / decode video signals.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
본 발명의 영상 부호화/복호화 방법 및 장치는, 현재 블록의 움직임 정보를 유도하고, 상기 움직임 정보를 기반으로 상기 현재 블록에 대해 움직임 보상을 수행할 수 있다. 현재 블록의 움직임 정보는, 부호화/복호화 장치에 기-정의된 인터 모드에 기반하여 유도되고, 기-정의된 인터 모드는, 머지 모드, AMVP 모드, 어파인 모드 또는 IBC 모드(intra block copy mode) 중 적어도 하나를 포함할 수 있다.
Description
본 발명은 영상 부호화/복호화 방법 및 장치에 관한 것이다.
최근 HD(High Definition) 영상 및 UHD(Ultra High Definition) 영상과 같은 고해상도, 고품질의 영상에 대한 수요가 다양한 응용 분야에서 증가하고 있고, 이에 따라 고효율의 영상 압축 기술들이 논의되고 있다.
영상 압축 기술로 현재 픽쳐의 이전 또는 이후 픽쳐로부터 현재 픽쳐에 포함된 화소값을 예측하는 인터 예측 기술, 현재 픽쳐 내의 화소 정보를 이용하여 현재 픽쳐에 포함된 화소값을 예측하는 인트라 예측 기술, 출현 빈도가 높은 값에 짧은 부호를 할당하고 출현 빈도가 낮은 값에 긴 부호를 할당하는 엔트로피 부호화 기술 등 다양한 기술이 존재하고 이러한 영상 압축 기술을 이용해 영상 데이터를 효과적으로 압축하여 전송 또는 저장할 수 있다.
본 발명은, 소정의 인터 모드에 따른 움직임 정보 유도 방법 및 장치를 제공하는데 목적이 있다.
본 발명은, 움직임 벡터의 해상도 또는 정밀도를 적응적으로 조절하는 방법 및 장치를 제공하는데 목적이 있다.
본 발명은, 보간 기반의 움직임 보상 방법 및 장치를 제공하는데 목적이 있다.
본 발명의 영상 부호화/복호화 방법 및 장치는, 현재 블록의 움직임 정보를 유도하고, 상기 움직임 정보를 기반으로 상기 현재 블록에 대해 움직임 보상을 수행할 수 있다.
본 발명의 영상 부호화/복호화 방법 및 장치에 있어서, 상기 현재 블록의 움직임 정보는, 복호화 장치에 기-정의된 인터 모드에 기반하여 유도되고, 상기 기-정의된 인터 모드는, 머지 모드, AMVP 모드, 어파인 모드 또는 IBC 모드(intra block copy mode) 중 적어도 하나를 포함할 수 있다.
본 발명의 영상 부호화/복호화 방법 및 장치에 있어서, 상기 움직임 정보를 유도하는 단계는, 상기 현재 블록의 움직임 벡터의 해상도(resolution)를 결정하는 단계, 상기 해상도에 대응되는 움직임 벡터 예측값을 유도하는 단계, 상기 해상도에 기반하여 상기 현재 블록의 움직임 벡터 차분값을 라운딩하는 단계 및 상기 유도된 움직임 벡터 예측값과 상기 라운딩된 움직임 벡터 차분값을 기반으로, 상기 현재 블록의 움직임 벡터를 유도하는 단계를 포함할 수 있다.
본 발명의 영상 부호화/복호화 방법 및 장치에 있어서, 상기 해상도는, 복호화 장치에 기-정의된 복수의 해상도 후보 중에서, 소정의 인덱스에 의해 특정된 해상도 후보로 결정될 수 있다.
본 발명의 영상 부호화/복호화 방법 및 장치에 있어서, 상기 기-정의된 복수의 해상도 후보는, 1/16 화소, 1/8 화소, 1/4 화소, 1/2 화소, 1 화소, 2 화소 또는 4 화소 중 적어도 하나 이상을 포함할 수 있다.
본 발명의 영상 부호화/복호화 방법 및 장치에 있어서, 상기 복수의 해상도 후보는, 상기 기-정의된 인터 모드 별로 상이하게 정의될 수 있다.
본 발명의 영상 부호화/복호화 방법 및 장치에 있어서, 상기 움직임 정보는, 상기 현재 블록의 머지 후보 리스트로부터 유도되고, 상기 머지 후보 리스트는, 공간적 머지 후보, 시간적 머지 후보 또는 조합 머지 후보 중 적어도 하나를 포함할 수 있다.
본 발명의 영상 부호화/복호화 방법 및 장치에 있어서, 상기 조합 머지 후보는, 상기 머지 후보 리스트에 기-추가된 복수의 머지 후보의 움직임 정보를 가중 평균하여 유도될 수 있다.
본 발명의 영상 부호화/복호화 방법 및 장치에 있어서, 상기 조합 머지 후보는, 상기 복수의 머지 후보의 예측 방향을 고려하여 유도될 수 있다.
본 발명의 영상 부호화/복호화 방법 및 장치에 있어서, 움직임 보상을 수행하는 단계는, 상기 현재 블록의 보간 필터를 결정하는 단계, 참조 정수 화소의 위치를 결정하는 단계 및 상기 참조 정수 화소에 상기 보간 필터를 적용하여, 상기 현재 블록의 예측 화소를 유도하는 단계를 포함할 수 있다.
본 발명의 영상 부호화/복호화 방법 및 장치에 있어서, 보간 대상인 소수 화소가 1/2 화소에 대응되는 경우, 복호화 장치에 기-정의된 복수의 보간 필터 중 어느 하나가 선택적으로 이용될 수 있다.
본 발명의 영상 부호화/복호화 방법 및 장치에 있어서, 상기 현재 블록의 보간 필터는, 상기 결정된 해상도를 고려하여, 상기 복수의 보간 필터 중 어느 하나로 결정될 수 있다.
본 발명의 영상 부호화/복호화 방법 및 장치에 있어서, 상기 참조 정수 화소의 위치는, 서브 픽쳐의 위치를 고려하여 결정될 수 있다.
본 발명에 따르면, 인터 모드에 따른 움직임 정보를 효율적으로 유도할 수 있다.
본 발명은, 움직임 벡터의 해상도 또는 정밀도를 적응적으로 조절할 수 있다.
본 발명은, 보간 필터의 선택적 이용을 통해 움직임 보상의 효율을 향상시킬 수 있다.
본 발명은, 적응적인 블록 분할을 통해 인터 예측 부호화/복호화의 효율을 향상시킬 수 있다.
도 1은 본 발명의 일실시예에 따른 영상 부호화 장치를 나타낸 블록도이다.
도 2는 본 발명의 일실시예에 따른 영상 복호화 장치를 나타낸 블록도이다.
도 3은 본 발명이 적용되는 일실시예로서, 블록 분할 타입을 도시한 것이다.
도 4는 본 발명이 적용되는 일실시예로서, 트리 구조 기반의 블록 분할 방법을 도시한 것이다.
도 5는 본 발명이 적용되는 일실시예로서, 인터 예측 방법을 도시한 것이다.
도 6은 본 발명이 적용되는 일실시예로서, 머지 모드에 따라 움직임 정보를 유도하는 방법을 도시한 것이다.
도 7은 본 발명이 적용되는 일실시예로서, 어파인 모드에 기반하여 움직임 정보를 유도하는 방법을 도시한 것이다.
도 8은 본 발명이 적용되는 일실시예로서, 공간적/시간적 이웃 블록의 제어점 벡터로부터 어파인 후보를 유도하는 방법에 관한 것이다.
도 9는 본 발명이 적용되는 일실시예로서, 적응적으로 움직임 벡터의 해상도를 조절하는 방법을 도시한 것이다.
도 10은 본 발명이 적용되는 일실시예로서, 보간 기반의 인터 예측 방법을 도시한 것이다.
본 발명의 영상 부호화/복호화 방법 및 장치는, 현재 블록의 움직임 정보를 유도하고, 상기 움직임 정보를 기반으로 상기 현재 블록에 대해 움직임 보상을 수행할 수 있다.
본 발명의 영상 부호화/복호화 방법 및 장치에 있어서, 상기 현재 블록의 움직임 정보는, 복호화 장치에 기-정의된 인터 모드에 기반하여 유도되고, 상기 기-정의된 인터 모드는, 머지 모드, AMVP 모드, 어파인 모드 또는 IBC 모드(intra block copy mode) 중 적어도 하나를 포함할 수 있다.
본 발명의 영상 부호화/복호화 방법 및 장치에 있어서, 상기 움직임 정보를 유도하는 단계는, 상기 현재 블록의 움직임 벡터의 해상도(resolution)를 결정하는 단계, 상기 해상도에 대응되는 움직임 벡터 예측값을 유도하는 단계, 상기 해상도에 기반하여 상기 현재 블록의 움직임 벡터 차분값을 라운딩하는 단계 및 상기 유도된 움직임 벡터 예측값과 상기 라운딩된 움직임 벡터 차분값을 기반으로, 상기 현재 블록의 움직임 벡터를 유도하는 단계를 포함할 수 있다.
본 발명의 영상 부호화/복호화 방법 및 장치에 있어서, 상기 해상도는, 복호화 장치에 기-정의된 복수의 해상도 후보 중에서, 소정의 인덱스에 의해 특정된 해상도 후보로 결정될 수 있다.
본 발명의 영상 부호화/복호화 방법 및 장치에 있어서, 상기 기-정의된 복수의 해상도 후보는, 1/16 화소, 1/8 화소, 1/4 화소, 1/2 화소, 1 화소, 2 화소 또는 4 화소 중 적어도 하나 이상을 포함할 수 있다.
본 발명의 영상 부호화/복호화 방법 및 장치에 있어서, 상기 복수의 해상도 후보는, 상기 기-정의된 인터 모드 별로 상이하게 정의될 수 있다.
본 발명의 영상 부호화/복호화 방법 및 장치에 있어서, 상기 움직임 정보는, 상기 현재 블록의 머지 후보 리스트로부터 유도되고, 상기 머지 후보 리스트는, 공간적 머지 후보, 시간적 머지 후보 또는 조합 머지 후보 중 적어도 하나를 포함할 수 있다.
본 발명의 영상 부호화/복호화 방법 및 장치에 있어서, 상기 조합 머지 후보는, 상기 머지 후보 리스트에 기-추가된 복수의 머지 후보의 움직임 정보를 가중 평균하여 유도될 수 있다.
본 발명의 영상 부호화/복호화 방법 및 장치에 있어서, 상기 조합 머지 후보는, 상기 복수의 머지 후보의 예측 방향을 고려하여 유도될 수 있다.
본 발명의 영상 부호화/복호화 방법 및 장치에 있어서, 움직임 보상을 수행하는 단계는, 상기 현재 블록의 보간 필터를 결정하는 단계, 참조 정수 화소의 위치를 결정하는 단계 및 상기 참조 정수 화소에 상기 보간 필터를 적용하여, 상기 현재 블록의 예측 화소를 유도하는 단계를 포함할 수 있다.
본 발명의 영상 부호화/복호화 방법 및 장치에 있어서, 보간 대상인 소수 화소가 1/2 화소에 대응되는 경우, 복호화 장치에 기-정의된 복수의 보간 필터 중 어느 하나가 선택적으로 이용될 수 있다.
본 발명의 영상 부호화/복호화 방법 및 장치에 있어서, 상기 현재 블록의 보간 필터는, 상기 결정된 해상도를 고려하여, 상기 복수의 보간 필터 중 어느 하나로 결정될 수 있다.
본 발명의 영상 부호화/복호화 방법 및 장치에 있어서, 상기 참조 정수 화소의 위치는, 서브 픽쳐의 위치를 고려하여 결정될 수 있다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다거나 "직접 접속되어"있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 이하, 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
도 1은 본 발명의 일실시예에 따른 영상 부호화 장치를 나타낸 블록도이다.
도 1을 참조하면, 영상 부호화 장치(100)는 픽쳐 분할부(110), 예측부(120, 125), 변환부(130), 양자화부(135), 재정렬부(160), 엔트로피 부호화부(165), 역양자화부(140), 역변환부(145), 필터부(150) 및 메모리(155)를 포함할 수 있다.
도 1에 나타난 각 구성부들은 영상 부호화 장치에서 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시한 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성단위로 이루어짐을 의미하지 않는다. 즉, 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 포함한 것으로 각 구성부 중 적어도 두 개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수개의 구성부로 나뉘어져 기능을 수행할 수 있고 이러한 각 구성부의 통합된 실시예 및 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리범위에 포함된다.
또한, 일부의 구성 요소는 본 발명에서 본질적인 기능을 수행하는 필수적인 구성 요소는 아니고 단지 성능을 향상시키기 위한 선택적 구성 요소일 수 있다. 본 발명은 단지 성능 향상을 위해 사용되는 구성 요소를 제외한 본 발명의 본질을 구현하는데 필수적인 구성부만을 포함하여 구현될 수 있고, 단지 성능 향상을 위해 사용되는 선택적 구성 요소를 제외한 필수 구성 요소만을 포함한 구조도 본 발명의 권리범위에 포함된다.
픽쳐 분할부(110)는 입력된 픽쳐를 적어도 하나의 처리 단위로 분할할 수 있다. 이때, 처리 단위는 예측 단위(Prediction Unit: PU)일 수도 있고, 변환 단위(Transform Unit: TU)일 수도 있으며, 부호화 단위(Coding Unit: CU)일 수도 있다. 픽쳐 분할부(110)에서는 하나의 픽쳐에 대해 복수의 부호화 단위, 예측 단위 및 변환 단위의 조합으로 분할하고 소정의 기준(예를 들어, 비용 함수)으로 하나의 부호화 단위, 예측 단위 및 변환 단위 조합을 선택하여 픽쳐를 부호화 할 수 있다.
예를 들어, 하나의 픽쳐는 복수개의 부호화 단위로 분할될 수 있다. 픽쳐에서 부호화 단위를 분할하기 위해서는 쿼드 트리 구조(Quad Tree Structure)와 같은 재귀적인 트리 구조를 사용할 수 있는데 하나의 영상 또는 최대 크기 부호화 단위(largest coding unit)를 루트로 하여 다른 부호화 단위로 분할되는 부호화 유닛은 분할된 부호화 단위의 개수만큼의 자식 노드를 가지고 분할될 수 있다. 일정한 제한에 따라 더 이상 분할되지 않는 부호화 단위는 리프 노드가 된다. 즉, 하나의 코딩 유닛에 대하여 정방형 분할만이 가능하다고 가정하는 경우, 하나의 부호화 단위는 최대 4개의 다른 부호화 단위로 분할될 수 있다.
이하, 본 발명의 실시예에서는 부호화 단위는 부호화를 수행하는 단위의 의미로 사용할 수도 있고, 복호화를 수행하는 단위의 의미로 사용할 수도 있다.
예측 단위는 하나의 부호화 단위 내에서 동일한 크기의 적어도 하나의 정사각형 또는 직사각형 등의 형태를 가지고 분할된 것일 수도 있고, 하나의 부호화 단위 내에서 분할된 예측 단위 중 어느 하나의 예측 단위가 다른 하나의 예측 단위와 상이한 형태 및/또는 크기를 가지도록 분할된 것일 수도 있다.
부호화 단위를 기초로 인트라 예측을 수행하는 예측 단위를 생성시 최소 부호화 단위가 아닌 경우, 복수의 예측 단위 NxN 으로 분할하지 않고 인트라 예측을 수행할 수 있다.
예측부(120, 125)는 인터 예측을 수행하는 인터 예측부(120)와 인트라 예측을 수행하는 인트라 예측부(125)를 포함할 수 있다. 예측 단위에 대해 인터 예측을 사용할 것인지 또는 인트라 예측을 수행할 것인지를 결정하고, 각 예측 방법에 따른 구체적인 정보(예컨대, 인트라 예측 모드, 움직임 벡터, 참조 픽쳐 등)를 결정할 수 있다. 이때, 예측이 수행되는 처리 단위와 예측 방법 및 구체적인 내용이 정해지는 처리 단위는 다를 수 있다. 예컨대, 예측의 방법과 예측 모드 등은 예측 단위로 결정되고, 예측의 수행은 변환 단위로 수행될 수도 있다. 생성된 예측 블록과 원본 블록 사이의 잔차값(잔차 블록)은 변환부(130)로 입력될 수 있다. 또한, 예측을 위해 사용한 예측 모드 정보, 움직임 벡터 정보 등은 잔차값과 함께 엔트로피 부호화부(165)에서 부호화되어 복호화기에 전달될 수 있다. 특정한 부호화 모드를 사용할 경우, 예측부(120, 125)를 통해 예측 블록을 생성하지 않고, 원본 블록을 그대로 부호화하여 복호화부에 전송하는 것도 가능하다.
인터 예측부(120)는 현재 픽쳐의 이전 픽쳐 또는 이후 픽쳐 중 적어도 하나의 픽쳐의 정보를 기초로 예측 단위를 예측할 수도 있고, 경우에 따라서는 현재 픽쳐 내의 부호화가 완료된 일부 영역의 정보를 기초로 예측 단위를 예측할 수도 있다. 인터 예측부(120)는 참조 픽쳐 보간부, 움직임 예측부, 움직임 보상부를 포함할 수 있다.
참조 픽쳐 보간부에서는 메모리(155)로부터 참조 픽쳐 정보를 제공받고 참조 픽쳐에서 정수 화소 이하의 화소 정보를 생성할 수 있다. 휘도 화소의 경우, 1/4 화소 단위로 정수 화소 이하의 화소 정보를 생성하기 위해 필터 계수를 달리하는 DCT 기반의 8탭 보간 필터(DCT-based Interpolation Filter)가 사용될 수 있다. 색차 신호의 경우 1/8 화소 단위로 정수 화소 이하의 화소 정보를 생성하기 위해 필터 계수를 달리하는 DCT 기반의 4탭 보간 필터(DCT-based Interpolation Filter)가 사용될 수 있다.
움직임 예측부는 참조 픽쳐 보간부에 의해 보간된 참조 픽쳐를 기초로 움직임 예측을 수행할 수 있다. 움직임 벡터를 산출하기 위한 방법으로 FBMA(Full search-based Block Matching Algorithm), TSS(Three Step Search), NTS(New Three-Step Search Algorithm) 등 다양한 방법이 사용될 수 있다. 움직임 벡터는 보간된 화소를 기초로 1/2 또는 1/4 화소 단위의 움직임 벡터값을 가질 수 있다. 움직임 예측부에서는 움직임 예측 방법을 다르게 하여 현재 예측 단위를 예측할 수 있다. 움직임 예측 방법으로 스킵(Skip) 방법, 머지(Merge) 방법, AMVP(Advanced Motion Vector Prediction) 방법, 인트라 블록 카피(Intra Block Copy) 방법 등 다양한 방법이 사용될 수 있다.
인트라 예측부(125)는 현재 픽쳐 내의 화소 정보인 현재 블록 주변의 참조 화소 정보를 기초로 예측 단위를 생성할 수 있다. 현재 예측 단위의 이웃 블록이 인터 예측을 수행한 블록이어서, 참조 화소가 인터 예측을 수행한 화소일 경우, 인터 예측을 수행한 블록에 포함되는 참조 화소를 주변의 인트라 예측을 수행한 블록의 참조 화소 정보로 대체하여 사용할 수 있다. 즉, 참조 화소가 가용하지 않는 경우, 가용하지 않은 참조 화소 정보를 가용한 참조 화소 중 적어도 하나의 참조 화소로 대체하여 사용할 수 있다.
인트라 예측에서 예측 모드는 참조 화소 정보를 예측 방향에 따라 사용하는 방향성 예측 모드와 예측을 수행시 방향성 정보를 사용하지 않는 비방향성 모드를 가질 수 있다. 휘도 정보를 예측하기 위한 모드와 색차 정보를 예측하기 위한 모드가 상이할 수 있고, 색차 정보를 예측하기 위해 휘도 정보를 예측하기 위해 사용된 인트라 예측 모드 정보 또는 예측된 휘도 신호 정보를 활용할 수 있다.
인트라 예측을 수행할 때 예측 단위의 크기와 변환 단위의 크기가 동일할 경우, 예측 단위의 좌측에 존재하는 화소, 좌측 상단에 존재하는 화소, 상단에 존재하는 화소를 기초로 예측 단위에 대한 인트라 예측을 수행할 수 있다. 그러나 인트라 예측을 수행할 때 예측 단위의 크기와 변환 단위의 크기가 상이할 경우, 변환 단위를 기초로 한 참조 화소를 이용하여 인트라 예측을 수행할 수 있다. 또한, 최소 부호화 단위에 대해서만 N x N 분할을 사용하는 인트라 예측을 사용할 수 있다.
인트라 예측 방법은 예측 모드에 따라 참조 화소에 AIS(Adaptive Intra Smoothing) 필터를 적용한 후 예측 블록을 생성할 수 있다. 참조 화소에 적용되는 AIS 필터의 종류는 상이할 수 있다. 인트라 예측 방법을 수행하기 위해 현재 예측 단위의 인트라 예측 모드는 현재 예측 단위의 주변에 존재하는 예측 단위의 인트라 예측 모드로부터 예측할 수 있다. 주변 예측 단위로부터 예측된 모드 정보를 이용하여 현재 예측 단위의 예측 모드를 예측하는 경우, 현재 예측 단위와 주변 예측 단위의 인트라 예측 모드가 동일하면 소정의 플래그 정보를 이용하여 현재 예측 단위와 주변 예측 단위의 예측 모드가 동일하다는 정보를 전송할 수 있고, 만약 현재 예측 단위와 주변 예측 단위의 예측 모드가 상이하면 엔트로피 부호화를 수행하여 현재 블록의 예측 모드 정보를 부호화할 수 있다.
또한, 예측부(120, 125)에서 생성된 예측 단위를 기초로 예측을 수행한 예측 단위와 예측 단위의 원본 블록과 차이값인 잔차값(Residual) 정보를 포함하는 잔차 블록이 생성될 수 있다. 생성된 잔차 블록은 변환부(130)로 입력될 수 있다.
변환부(130)에서는 원본 블록과 예측부(120, 125)를 통해 생성된 예측 단위의 잔차값(residual)정보를 포함한 잔차 블록을 DCT(Discrete Cosine Transform), DST(Discrete Sine Transform), KLT와 같은 변환 방법을 사용하여 변환시킬 수 있다. 잔차 블록을 변환하기 위해 DCT를 적용할지, DST를 적용할지 또는 KLT를 적용할지는 잔차 블록을 생성하기 위해 사용된 예측 단위의 인트라 예측 모드 정보를 기초로 결정할 수 있다.
양자화부(135)는 변환부(130)에서 주파수 영역으로 변환된 값들을 양자화할 수 있다. 블록에 따라 또는 영상의 중요도에 따라 양자화 계수는 변할 수 있다. 양자화부(135)에서 산출된 값은 역양자화부(140)와 재정렬부(160)에 제공될 수 있다.
재정렬부(160)는 양자화된 잔차값에 대해 계수값의 재정렬을 수행할 수 있다.
재정렬부(160)는 계수 스캐닝(Coefficient Scanning) 방법을 통해 2차원의 블록 형태 계수를 1차원의 벡터 형태로 변경할 수 있다. 예를 들어, 재정렬부(160)에서는 지그-재그 스캔(Zig-Zag Scan)방법을 이용하여 DC 계수부터 고주파수 영역의 계수까지 스캔하여 1차원 벡터 형태로 변경시킬 수 있다. 변환 단위의 크기 및 인트라 예측 모드에 따라 지그-재그 스캔 대신 2차원의 블록 형태 계수를 열 방향으로 스캔하는 수직 스캔, 2차원의 블록 형태 계수를 행 방향으로 스캔하는 수평 스캔이 사용될 수도 있다. 즉, 변환 단위의 크기 및 인트라 예측 모드에 따라 지그-재그 스캔, 수직 방향 스캔 및 수평 방향 스캔 중 어떠한 스캔 방법이 사용될지 여부를 결정할 수 있다.
엔트로피 부호화부(165)는 재정렬부(160)에 의해 산출된 값들을 기초로 엔트로피 부호화를 수행할 수 있다. 엔트로피 부호화는 예를 들어, 지수 골롬(Exponential Golomb), CAVLC(Context-Adaptive Variable Length Coding), CABAC(Context-Adaptive Binary Arithmetic Coding)과 같은 다양한 부호화 방법을 사용할 수 있다.
엔트로피 부호화부(165)는 재정렬부(160) 및 예측부(120, 125)로부터 부호화 단위의 잔차값 계수 정보 및 블록 타입 정보, 예측 모드 정보, 분할 단위 정보, 예측 단위 정보 및 전송 단위 정보, 움직임 벡터 정보, 참조 프레임 정보, 블록의 보간 정보, 필터링 정보 등 다양한 정보를 부호화할 수 있다.
엔트로피 부호화부(165)에서는 재정렬부(160)에서 입력된 부호화 단위의 계수값을 엔트로피 부호화할 수 있다.
역양자화부(140) 및 역변환부(145)에서는 양자화부(135)에서 양자화된 값들을 역양자화하고 변환부(130)에서 변환된 값들을 역변환한다. 역양자화부(140) 및 역변환부(145)에서 생성된 잔차값(Residual)은 예측부(120, 125)에 포함된 움직임 추정부, 움직임 보상부 및 인트라 예측부를 통해서 예측된 예측 단위와 합쳐져 복원 블록(Reconstructed Block)을 생성할 수 있다.
필터부(150)는 디블록킹 필터, 오프셋 보정부, ALF(Adaptive Loop Filter)중 적어도 하나를 포함할 수 있다.
디블록킹 필터는 복원된 픽쳐에서 블록간의 경계로 인해 생긴 블록 왜곡을 제거할 수 있다. 디블록킹을 수행할지 여부를 판단하기 위해 블록에 포함된 몇 개의 열 또는 행에 포함된 화소를 기초로 현재 블록에 디블록킹 필터 적용할지 여부를 판단할 수 있다. 블록에 디블록킹 필터를 적용하는 경우 필요한 디블록킹 필터링 강도에 따라 강한 필터(Strong Filter) 또는 약한 필터(Weak Filter)를 적용할 수 있다. 또한 디블록킹 필터를 적용함에 있어 수직 필터링 및 수평 필터링 수행시 수평 방향 필터링 및 수직 방향 필터링이 병행 처리되도록 할 수 있다.
오프셋 보정부는 디블록킹을 수행한 영상에 대해 화소 단위로 원본 영상과의 오프셋을 보정할 수 있다. 특정 픽쳐에 대한 오프셋 보정을 수행하기 위해 영상에 포함된 화소를 일정한 수의 영역으로 구분한 후 오프셋을 수행할 영역을 결정하고 해당 영역에 오프셋을 적용하는 방법 또는 각 화소의 에지 정보를 고려하여 오프셋을 적용하는 방법을 사용할 수 있다.
ALF(Adaptive Loop Filtering)는 필터링한 복원 영상과 원래의 영상을 비교한 값을 기초로 수행될 수 있다. 영상에 포함된 화소를 소정의 그룹으로 나눈 후 해당 그룹에 적용될 하나의 필터를 결정하여 그룹마다 차별적으로 필터링을 수행할 수 있다. ALF를 적용할지 여부에 관련된 정보는 휘도 신호는 부호화 단위(Coding Unit, CU) 별로 전송될 수 있고, 각각의 블록에 따라 적용될 ALF 필터의 모양 및 필터 계수는 달라질 수 있다. 또한, 적용 대상 블록의 특성에 상관없이 동일한 형태(고정된 형태)의 ALF 필터가 적용될 수도 있다.
메모리(155)는 필터부(150)를 통해 산출된 복원 블록 또는 픽쳐를 저장할 수 있고, 저장된 복원 블록 또는 픽쳐는 인터 예측을 수행 시 예측부(120, 125)에 제공될 수 있다.
도 2는 본 발명의 일실시예에 따른 영상 복호화 장치를 나타낸 블록도이다.
도 2를 참조하면, 영상 복호화기(200)는 엔트로피 복호화부(210), 재정렬부(215), 역양자화부(220), 역변환부(225), 예측부(230, 235), 필터부(240), 메모리(245)가 포함될 수 있다.
영상 부호화기에서 영상 비트스트림이 입력된 경우, 입력된 비트스트림은 영상 부호화기와 반대의 절차로 복호화될 수 있다.
엔트로피 복호화부(210)는 영상 부호화기의 엔트로피 부호화부에서 엔트로피 부호화를 수행한 것과 반대의 절차로 엔트로피 복호화를 수행할 수 있다. 예를 들어, 영상 부호화기에서 수행된 방법에 대응하여 지수 골롬(Exponential Golomb), CAVLC(Context-Adaptive Variable Length Coding), CABAC(Context-Adaptive Binary Arithmetic Coding)과 같은 다양한 방법이 적용될 수 있다.
엔트로피 복호화부(210)에서는 부호화기에서 수행된 인트라 예측 및 인터 예측에 관련된 정보를 복호화할 수 있다.
재정렬부(215)는 엔트로피 복호화부(210)에서 엔트로피 복호화된 비트스트림을 부호화부에서 재정렬한 방법을 기초로 재정렬을 수행할 수 있다. 1차원 벡터 형태로 표현된 계수들을 다시 2차원의 블록 형태의 계수로 복원하여 재정렬할 수 있다. 재정렬부(215)에서는 부호화부에서 수행된 계수 스캐닝에 관련된 정보를 제공받고 해당 부호화부에서 수행된 스캐닝 순서에 기초하여 역으로 스캐닝하는 방법을 통해 재정렬을 수행할 수 있다.
역양자화부(220)는 부호화기에서 제공된 양자화 파라미터와 재정렬된 블록의 계수값을 기초로 역양자화를 수행할 수 있다.
역변환부(225)는 영상 부호화기에서 수행한 양자화 결과에 대해 변환부에서 수행한 변환 즉, DCT, DST, 및 KLT에 대해 역변환 즉, 역 DCT, 역 DST 및 역 KLT를 수행할 수 있다. 역변환은 영상 부호화기에서 결정된 전송 단위를 기초로 수행될 수 있다. 영상 복호화기의 역변환부(225)에서는 예측 방법, 현재 블록의 크기 및 예측 방향 등 복수의 정보에 따라 변환 기법(예를 들어, DCT, DST, KLT)이 선택적으로 수행될 수 있다.
예측부(230, 235)는 엔트로피 복호화부(210)에서 제공된 예측 블록 생성 관련 정보와 메모리(245)에서 제공된 이전에 복호화된 블록 또는 픽쳐 정보를 기초로 예측 블록을 생성할 수 있다.
전술한 바와 같이 영상 부호화기에서의 동작과 동일하게 인트라 예측을 수행시 예측 단위의 크기와 변환 단위의 크기가 동일할 경우, 예측 단위의 좌측에 존재하는 화소, 좌측 상단에 존재하는 화소, 상단에 존재하는 화소를 기초로 예측 단위에 대한 인트라 예측을 수행하지만, 인트라 예측을 수행시 예측 단위의 크기와 변환 단위의 크기가 상이할 경우, 변환 단위를 기초로 한 참조 화소를 이용하여 인트라 예측을 수행할 수 있다. 또한, 최소 부호화 단위에 대해서만 N x N 분할을 사용하는 인트라 예측을 사용할 수도 있다.
예측부(230, 235)는 예측 단위 판별부, 인터 예측부 및 인트라 예측부를 포함할 수 있다. 예측 단위 판별부는 엔트로피 복호화부(210)에서 입력되는 예측 단위 정보, 인트라 예측 방법의 예측 모드 정보, 인터 예측 방법의 움직임 예측 관련 정보 등 다양한 정보를 입력 받고 현재 부호화 단위에서 예측 단위를 구분하고, 예측 단위가 인터 예측을 수행하는지 아니면 인트라 예측을 수행하는지 여부를 판별할 수 있다. 인터 예측부(230)는 영상 부호화기에서 제공된 현재 예측 단위의 인터 예측에 필요한 정보를 이용해 현재 예측 단위가 포함된 현재 픽쳐의 이전 픽쳐 또는 이후 픽쳐 중 적어도 하나의 픽쳐에 포함된 정보를 기초로 현재 예측 단위에 대한 인터 예측을 수행할 수 있다. 또는, 현재 예측 단위가 포함된 현재 픽쳐 내에서 기-복원된 일부 영역의 정보를 기초로 인터 예측을 수행할 수도 있다.
인터 예측을 수행하기 위해 부호화 단위를 기준으로 해당 부호화 단위에 포함된 예측 단위의 움직임 예측 방법이 스킵 모드(Skip Mode), 머지 모드(Merge 모드), AMVP 모드(AMVP Mode), 인트라 블록 카피 모드 중 어떠한 방법인지 여부를 판단할 수 있다.
인트라 예측부(235)는 현재 픽쳐 내의 화소 정보를 기초로 예측 블록을 생성할 수 있다. 예측 단위가 인트라 예측을 수행한 예측 단위인 경우, 영상 부호화기에서 제공된 예측 단위의 인트라 예측 모드 정보를 기초로 인트라 예측을 수행할 수 있다. 인트라 예측부(235)에는 AIS(Adaptive Intra Smoothing) 필터, 참조 화소 보간부, DC 필터를 포함할 수 있다. AIS 필터는 현재 블록의 참조 화소에 필터링을 수행하는 부분으로써 현재 예측 단위의 예측 모드에 따라 필터의 적용 여부를 결정하여 적용할 수 있다. 영상 부호화기에서 제공된 예측 단위의 예측 모드 및 AIS 필터 정보를 이용하여 현재 블록의 참조 화소에 AIS 필터링을 수행할 수 있다. 현재 블록의 예측 모드가 AIS 필터링을 수행하지 않는 모드일 경우, AIS 필터는 적용되지 않을 수 있다.
참조 화소 보간부는 예측 단위의 예측 모드가 참조 화소를 보간한 화소값을 기초로 인트라 예측을 수행하는 예측 단위일 경우, 참조 화소를 보간하여 정수값 이하의 화소 단위의 참조 화소를 생성할 수 있다. 현재 예측 단위의 예측 모드가 참조 화소를 보간하지 않고 예측 블록을 생성하는 예측 모드일 경우 참조 화소는 보간되지 않을 수 있다. DC 필터는 현재 블록의 예측 모드가 DC 모드일 경우 필터링을 통해서 예측 블록을 생성할 수 있다.
복원된 블록 또는 픽쳐는 필터부(240)로 제공될 수 있다. 필터부(240)는 디블록킹 필터, 오프셋 보정부, ALF를 포함할 수 있다.
영상 부호화기로부터 해당 블록 또는 픽쳐에 디블록킹 필터를 적용하였는지 여부에 대한 정보 및 디블록킹 필터를 적용하였을 경우, 강한 필터를 적용하였는지 또는 약한 필터를 적용하였는지에 대한 정보를 제공받을 수 있다. 영상 복호화기의 디블록킹 필터에서는 영상 부호화기에서 제공된 디블록킹 필터 관련 정보를 제공받고 영상 복호화기에서 해당 블록에 대한 디블록킹 필터링을 수행할 수 있다.
오프셋 보정부는 부호화시 영상에 적용된 오프셋 보정의 종류 및 오프셋 값 정보 등을 기초로 복원된 영상에 오프셋 보정을 수행할 수 있다.
ALF는 부호화기로부터 제공된 ALF 적용 여부 정보, ALF 계수 정보 등을 기초로 부호화 단위에 적용될 수 있다. 이러한 ALF 정보는 특정한 파라메터 셋에 포함되어 제공될 수 있다.
메모리(245)는 복원된 픽쳐 또는 블록을 저장하여 참조 픽쳐 또는 참조 블록으로 사용할 수 있도록 할 수 있고 또한 복원된 픽쳐를 출력부로 제공할 수 있다.
전술한 바와 같이 이하, 본 발명의 실시예에서는 설명의 편의상 코딩 유닛(Coding Unit)을 부호화 단위라는 용어로 사용하지만, 부호화뿐만 아니라 복호화를 수행하는 단위가 될 수도 있다.
도 3은 본 발명이 적용되는 일실시예로서, 블록 분할 타입을 도시한 것이다.
하나의 블록(이하, 제1 블록이라 함)은 수직 라인 또는 수평 라인 중 적어도 하나에 의해서 복수의 서브 블록(이하, 제2 블록이라 함)으로 분할될 수 있다. 상기 수직 라인과 수평 라인은 1개, 2개 또는 그 이상일 수 있다. 여기서, 제1 블록은 영상 부호화/복호화의 기본 단위인 코딩 블록(CU), 예측 부호화/복호화의 기본 단위인 예측 블록(PU), 또는 변환 부호화/복호화의 기본 단위인 변환 블록(TU)일 수 있다. 상기 제1 블록은 정방형 블록일 수도 있고, 비정방형 블록일 수도 있다.
상기 제1 블록의 분할은, 쿼드 트리(quad tree), 바이너리 트리(binary tree), 트리플 트리(triple tree) 등에 기초하여 수행될 수 있으며, 이하 도 3을 참조하여 자세히 살펴 보기로 한다.
도 3(a)는 쿼드 트리 분할(QT)을 도시한 것이다. QT는, 제1 블록을 4개의 제2 블록으로 사분할하는 분할 타입이다. 예를 들어, 2Nx2N의 제1 블록이 QT로 분할되는 경우, 제1 블록은 NxN 크기를 가진 4개의 제2 블록으로 사분할될 수 있다. QT는 정방형 블록에만 적용되도록 제한될 수 있으나, 비정방형 블록에 적용하는 것도 가능하다.
도 3(b)는 수평 바이너리 트리(이하, Horizontal BT라 함) 분할을 도시한 것이다. Horizontal BT는, 1개의 수평 라인에 의해서 제1 블록이 2개의 제2 블록으로 이분할되는 분할 타입이다. 상기 이분할은 대칭 혹은 비대칭으로 수행될 수 있다. 예를 들어, 2Nx2N의 제1 블록이 Horizontal BT로 분할되는 경우, 제1 블록은 높이의 비율이 (a:b)인 2개의 제2 블록으로 분할될 수 있다. 여기서, a와 b는 동일한 값일 수도 있고, a는 b보다 크거나 작을 수도 있다.
도 3(c)는 수직 바이너리 트리(이하, Vertical BT라 함) 분할을 도시한 것이다. Vertical BT는, 1개의 수직 라인에 의해서 제1 블록이 2개의 제2 블록으로 이분할되는 분할 타입이다. 상기 이분할은 대칭 혹은 비대칭으로 수행될 수 있다. 예를 들어, 2Nx2N의 제1 블록이 Vertical BT로 분할되는 경우, 제1 블록은 너비의 비율이 (a:b)인 2개의 제2 블록으로 분할될 수 있다. 여기서, a와 b는 동일한 값일 수도 있고, a는 b보다 크거나 작을 수도 있다.
도 3(d)는 수평 트리플 트리(이하, Horizontal TT라 함) 분할을 도시한 것이다. Horizontal TT는, 2개의 수평 라인에 의해서 제1 블록이 3개의 제2 블록으로 삼분할되는 분할 타입이다. 예를 들어, 2Nx2N의 제1 블록이 Horizontal TT로 분할되는 경우, 제1 블록은 높이의 비율이 (a:b:c)인 3개의 제2 블록으로 분할될 수 있다. 여기서, a, b, c는 동일한 값일 수 있다. 또는, a와 c는 동일하고, b는 a보다 크거나 작을 수 있다.
도 3(e)는 수직 트리플 트리(이하, Vertical TT라 함) 분할을 도시한 것이다. Vertical TT는, 2개의 수직 라인에 의해서 제1 블록이 3개의 제2 블록으로 삼분할되는 분할 타입이다. 예를 들어, 2Nx2N의 제1 블록이 Vertical TT로 분할되는 경우, 제1 블록은 너비의 비율이 (a:b:c)인 3개의 제2 블록으로 분할될 수 있다. 여기서, a, b, c는 동일한 값일 수도 있고, 서로 다른 값일 수도 있다. 또는, a와 c는 동일하고, b는 a보다 크거나 작을 수 있다. 또는, a와 b는 동일하고, c는 a보다 크거나 작을 수 있다. 또는, b와 c는 동일하고, a는 b보다 크거나 작을 수 있다.
전술한 분할은, 부호화 장치로부터 시그날링되는 분할 정보에 기초하여 수행될 수 있다. 상기 분할 정보는, 분할 타입 정보, 분할 방향 정보 또는 분할 비율 정보 중 적어도 하나를 포함할 수 있다.
상기 분할 타입 정보는, 부호화/복호화 장치에 기-정의된 분할 타입 중 어느 하나를 특정할 수 있다. 상기 기-정의된 분할 타입은, QT, Horizontal BT, Vertical BT, Horizontal TT, Vertical TT 또는 비분할 모드(No split) 중 적어도 하나를 포함할 수 있다. 또는, 상기 분할 타입 정보는, QT, BT 또는 TT가 적용되는지 여부에 관한 정보를 의미할 수도 있으며, 이는 플래그 혹은 인덱스의 형태로 부호화될 수 있다. 상기 분할 방향 정보는, BT 또는 TT의 경우, 수평 방향으로 분할되는지 아니면 수직 방향으로 분할되는지를 나타낼 수 있다. 상기 분할 비율 정보는, BT 또는 TT의 경우, 제2 블록의 너비 및/또는 높이의 비율을 나타낼 수 있다.
도 4는 본 발명이 적용되는 일실시예로서, 트리 구조 기반의 블록 분할 방법을 도시한 것이다.
도 4에 도시된 블록(400)은 8Nx8N 크기이고, 분할 뎁스가 k인 정방형 블록(이하, 제1 블록이라 함)이라 가정한다. 제1 블록의 분할 정보가 QT 분할을 지시하는 경우, 제1 블록은 4개의 서브 블록(이하, 제2 블록이라 함)으로 사분할될 수 있다. 상기 제2 블록은 4Nx4N 크기이고, (k+1)의 분할 뎁스를 가질 수 있다.
상기 4개의 제2 블록은, QT, BT, TT 또는 비분할 모드 중 어느 하나에 기초하여 다시 분할될 수 있다. 예를 들어, 제2 블록의 분할 정보가 수평 방향으로의 바이너리 트리(Horizontal BT)를 나타내는 경우, 상기 제2 블록은 도 4의 제2 블록(410)과 같이 2개의 서브 블록(이하, 제3 블록이라 함)으로 이분할될 수 있다. 이때, 상기 제3 블록은, 4Nx2N 크기이고, (k+2)의 분할 뎁스를 가질 수 있다.
상기 제3 블록도 QT, BT, TT 또는 비분할 모드 중 어느 하나에 기초하여 다시 분할될 수 있다. 예를 들어, 상기 제3 블록의 분할 정보가 수직 방향으로의 바이너리 트리(Vertical BT)를 나타내는 경우, 상기 제3 블록은 도 4에 도시된 바와 같이 2개의 서브 블록(411, 412)으로 이분할될 수 있다. 이때, 상기 서브 블록(411, 412)은, 2Nx2N 크기이고, (k+3)의 분할 뎁스를 가질 수 있다. 또는, 상기 제3 블록의 분할 정보가 수평 방향으로의 바이너리 트리(Horizontal BT)를 나타내는 경우, 상기 제3 블록은 도 4에 도시된 바와 같이 2개의 서브 블록(413, 414)으로 이분할될 수 있다. 이때, 상기 서브 블록(413, 414)은, 4NxN 크기이고, (k+3)의 분할 뎁스를 가질 수 있다.
상기 분할은, 이웃 블록과 독립적 혹은 병렬적으로 수행될 수도 있고, 소정의 우선순위에 따라 순차적으로 수행될 수도 있다.
분할 대상인 현재 블록의 분할 정보는, 현재 블록의 상위 블록의 분할 정보 또는 이웃 블록의 분할 정보 중 적어도 하나에 기초하여 종속적으로 결정될 수도 있다. 예를 들어, 상기 제2 블록이 Horizontal BT로 분할되고, 상단의 제3 블록이 Vertical BT로 분할된 경우, 하단의 제3 블록은 Vertical BT로 분할될 필요가 없다. 하단의 제3 블록이 Vertical BT로 분할될 경우, 이는 제2 블록이 QT로 분할되는 것과 동일한 결과가 나오기 때문이다. 따라서, 하단의 제3 블록의 분할 정보(특히, 분할 방향 정보)는 부호화가 생략될 수 있고, 복호화 장치는 하단의 제3 블록이 수평 방향으로 분할되도록 설정할 수 있다.
상기 상위 블록은 상기 현재 블록의 분할 뎁스보다 작은 분할 뎁스를 가진 블록을 의미할 수 있다. 예를 들어, 현재 블록의 분할 뎁스가 (k+2)인 경우, 상위 블록의 분할 뎁스는 (k+1)일 수 있다. 상기 이웃 블록은, 현재 블록의 상단 혹은 좌측에 인접한 블록일 수 있다. 상기 이웃 블록은, 현재 블록과 동일한 분할 뎁스를 가진 블록일 수 있다.
전술한 분할은, 부호화/복호화의 최소 단위까지 반복적으로 수행될 수 있다. 최소 단위로 분할된 경우, 해당 블록에 대한 분할 정보는 부호화 장치로부터 더 이상 시그날링되지 아니한다. 상기 최소 단위에 대한 정보는, 최소 단위의 크기 또는 형태 중 적어도 하나를 포함할 수 있다. 상기 최소 단위의 크기는, 블록의 너비, 높이, 너비와 높이 중 최소값 혹은 최대값, 너비와 높이의 합, 화소 개수, 분할 뎁스 등으로 표현될 수 있다. 상기 최소 단위에 대한 정보는, 비디오 시퀀스, 픽쳐, 슬라이스 또는 블록 단위 중 적어도 하나에서 시그날링될 수 있다. 또는, 상기 최소 단위에 대한 정보는 부호화/복호화 장치에 기-약속된 값일 수도 있다. 상기 최소 단위에 대한 정보는, CU, PU, TU에 대해서 각각 시그날링될 수 있다. 하나의 최소 단위에 대한 정보가 CU, PU, TU에 동일하게 적용될 수도 있다.
도 5는 본 발명이 적용되는 일실시예로서, 인터 예측 방법을 도시한 것이다.
도 5를 참조하면, 현재 블록의 움직임 정보를 유도할 수 있다(S500).
움직임 정보는, 부호화/복호화 장치에 기-정의된 인터 모드에 기반하여 유도될 수 있다. 기-정의된 인터 모드는, 머지 모드(merge mode), AMVP 모드, 어파인 모드(affine mode) 또는 IBC 모드(intra block copy mode) 중 적어도 하나를 포함할 수 있다. 여기서, 움직임 정보는, 인터 모드에 따라, 움직임 벡터 예측값, 움직임 벡터, 제어점 벡터 예측값, 제어점 벡터, 블록 벡터 등으로 다양하게 해석될 수 있다.
머지 모드의 경우, 현재 블록의 움직임 정보는 머지 후보의 움직임 정보와 동일하게 설정될 수 있다. 이와 같이, 머지 후보와의 병합을 통해 움직임 정보가 유도되며, 별도의 움직임 벡터 차분값(mvd)이 시그날링되지 않는다. 머지 모드에 기반한 움직임 정보 유도 방법에 대해서는 도 6을 참조하여 자세히 살펴 보기로 한다.
AMVP 모드의 경우, 이웃 블록의 움직임 벡터가 현재 블록의 움직임 벡터 예측값으로 설정될 수 있다. 이를 위해, 공간적/시간적 이웃 블록의 움직임 벡터로 구성된 후보 리스트가 구성되고, 후보 리스트의 복수의 움직임 벡터 중 어느 하나를 특정하는 인덱스가 시그날링될 수 있다. 한편, 머지 모드와 달리, 상기 움직임 벡터 예측값과 시그날링된 움직임 벡터 차분값을 더하여 움직임 벡터가 복원될 수 있다.
또한, 평행 이동만을 고려하는 이동 움직임 모델(Translation Motion Model) 외에 추가적인 움직임 모델을 사용할 수 있다. 예를 들어, 평행 이동뿐만 아니라 회전, 원근, 줌 인/아웃(Zoom-in/out) 등과 같은 움직임을 고려하는 움직임 모델을 사용할 수 있다. 이를 어파인 모드라 부르기로 한다. 어파인 모드는, 현재 블록의 제어점 벡터를 기반으로, 소정의 서브 블록의 단위로 움직임 정보가 유도될 수 있다. 이에 대해서는 도 7 및 도 8을 참조하여 자세히 살펴 보기로 한다.
IBC 모드의 경우, 이웃 블록의 움직임 벡터가 현재 블록의 블록 벡터 예측값(bvp)으로 설정되고, 시그날링되는 블록 벡터 차분값(bvd)을 이용하여 블록 벡터가 복원된는 점에서 AMVP 모드와 유사하다. 다만, IBC 모드는, 현재 블록과 동일한 픽쳐 내의 기-복원된 영역을 기반으로 움직임 보상을 수행하는 반면, AMVP 모드는 현재 블록과 다른 픽쳐 내의 기-복원된 영역을 기반으로 움직임 보상을 수행한다는 점에서 차이가 있다.
한편, S500의 움직임 정보 유도는, 움직임 정보의 해상도(resolution) 또는 정밀도(precision)를 조절하는 과정을 더 포함할 수 있으며, 이는 도 9를 참조하여 자세히 살펴 보도록 한다.
도 5를 참조하면, 유도된 움직임 정보를 기반으로 현재 블록에 대해 움직임 보상을 수행할 수 있다(S510).
현재 블록의 움직임 벡터에 따른 참조 블록을 결정하고, 결정된 참조 블록의 복원 화소를 현재 블록의 예측 화소로 설정할 수 있다. 상기 참조 블록은, 참조 픽쳐 내의 정수 화소 및/또는 소수 화소에 소정의 보간 필터를 적용하여 결정될 수 있다. 구체적인 보간 방법에 대해서는 도 10을 참조하여 설명하기로 한다.
한편, 어파인 모드의 경우, 상기 참조 블록은, 현재 블록의 서브 블록 별로 각각 특정될 수 있다. 각 서브 블록의 참조 블록은, 하나의 참조 픽쳐에 속할 수 있다. 즉, 현재 블록에 속한 서브 블록은 하나의 참조 픽쳐를 공유할 수 있다. 또는, 현재 블록의 서브 블록 별로 참조 픽쳐 인덱스가 독립적으로 설정될 수도 있다.
한편, 상기 유도된 움직임 벡터는 L0 움직임 벡터 또는 L1 움직임 벡터 중 적어도 하나를 포함할 수 있다. 상기 움직임 벡터가 L0 및 L1 움직임 벡터를 포함하는 경우, 복호화 장치는 상기 L0 및 L1 움직임 벡터 중 어느 하나를 0으로 설정하여 단방향 예측을 수행할 수도 있다.
상기 설정은, 블록의 크기/형태 또는 전술한 인터 모드 중 적어도 하나를 고려하여, 선택적으로 수행될 수 있다. 여기서, 블록은, 현재 블록 또는 현재 블록의 서브 블록을 의미할 수 있다.
예를 들어, 현재 블록(또는 현재 블록의 서브 블록)의 크기가 소정의 문턱크기보다 작거나 같은 경우, L0 또는 L1 움직임 벡터를 0으로 설정하여 단방향 예측을 수행하고, 그렇지 않은 경우, L0 및 L1 움직임 벡터를 이용하여 양방향 예측을 수행할 수 있다. 여기서, 문턱크기는, 너비와 높이 중 적어도 하나가 4, 8 또는 16인 블록 크기로 정의될 수 있다.
또는, 현재 블록의 서브 블록의 형태가 비정방형 또는 삼각형인 경우, L0 또는 L1 움직임 벡터 중 어느 하나를 0으로 설정하여 단방향 예측을 수행하고, 그렇지 않은 경우, L0 및 L1 움직임 벡터를 이용하여 양방향 예측을 수행할 수 있다.
또는, 현재 블록이 어파인 모드 또는 IBC 모드로 부호화된 경우, LO 또는 L1 움직임 벡터 중 어느 하나를 0으로 설정하여 단방향 예측을 수행하고, 그렇지 않은 경우, L0 및 L1 움직임 벡터를 이용하여 양방향 예측을 수행할 수 있다.
도 6은 본 발명이 적용되는 일실시예로서, 머지 모드에 따라 움직임 정보를 유도하는 방법을 도시한 것이다.
도 6을 참조하면, 현재 블록의 머지 후보 리스트를 구성할 수 있다(S600).
머지 후보 리스트는, 현재 블록의 공간적 머지 후보 또는 시간적 머지 후보 중 적어도 하나를 포함할 수 있다.
공간적 머지 후보의 움직임 정보는, 현재 블록의 공간적 이웃 블록의 움직임 정보로부터 유도될 수 있다. 여기서, 공간적 이웃 블록은, 현재 블록과 동일한 픽쳐에 속하는 블록으로서, 현재 블록에 인접한 블록을 의미할 수 있다. 공간적 이웃 블록은, 현재 블록의 좌측, 상단, 우상단, 좌하단 또는 좌상단 중 적어도 하나에 인접한 블록을 포함할 수 있다. 좌상단 이웃 블록은, 좌측, 상단, 우상단 및 좌하단에 인접한 블록 중 적어도 하나가 가용하지 않은 경우에 한하여 이용될 수 있다.
시간적 머지 후보의 움직임 정보는, 현재 블록의 시간적 이웃 블록의 움직임 정보로부터 유도될 수 있다. 시간적 이웃 블록은, 현재 블록과 다른 픽쳐에 속하는 블록으로서, 현재 블록과 동일 위치의 블록으로 정의될 수 있다. 여기서, 동일 위치의 블록은, 현재 블록의 우하단 코너에 인접한 블록(BR), 현재 블록의 중앙 샘플의 위치를 포함한 블록(CTR) 또는 현재 블록의 좌상단 샘플의 위치를 포함한 블록(TL) 중 적어도 하나를 의미할 수 있다. 또는, 동일 위치의 블록은, 현재 블록의 좌상단 샘플의 위치에서 소정의 변이 벡터(disparity vector)만큼 쉬프트된 위치를 포함한 블록을 의미할 수도 있다. 여기서, 변이 벡터는, 전술한 공간적 이웃 블록의 움직임 벡터 중 어느 하나에 기초하여 결정될 수 있다. 또는, 변이 벡터는, 전술한 공간적 이웃 블록의 움직임 벡터 중 적어도 2개의 조합에 기초하여 결정될 수 있다. 상기 조합은, 최대값, 최소값, 중간값, 가중 평균값 등의 연산을 의미할 수 있다. 예를 들어, 상기 변이 벡터는, 좌측 이웃 블록 또는 상단 이웃 블록의 움직임 벡터로 설정될 수 있다. 또는, 변이 벡터는, 좌측 이웃 블록의 움직임 벡터와 좌하단 이웃 블록의 움직임 벡터 간의 중간값 또는 평균값으로 설정될 수 있다.
시간적 머지 후보의 움직임 벡터와 참조 픽쳐 인덱스는, 전술한 시간적 이웃 블록의 움직임 벡터와 참조 픽쳐 인덱스로 각각 유도될 수 있다. 또는, 시간적 머지 후보의 움직임 벡터는 시간적 이웃 블록의 움직임 벡터로 유도되고, 시간적 머지 후보의 참조 픽쳐 인덱스는 시간적 이웃 블록과 관계없이 복호화 장치에 기-약속된 디폴트 값(e.g., 0)으로 설정될 수 있다.
머지 후보 리스트는, 조합 머지 후보를 더 포함할 수 있다. 조합 머지 후보는, 기-생성된 머지 후보 리스트에 속한 n개의 머지 후보를 조합하여 유도될 수 있다.
여기서, n은 2, 3, 4 또는 그 이상의 정수일 수 있다. 조합 대상인 머지 후보의 개수(n)는 부호화/복호화 장치에 기-약속된 고정된 값일 수도 있고, 부호화 장치에서 부호화되어 시그날링될 수도 있다. 상기 시그날링은, 시퀀스, 픽쳐, 슬라이스, 타일, 서브-타일(브릭, brick) 또는 소정의 블록 중 적어도 하나의 단위에서 수행될 수 있다. 조합 대상인 머지 후보의 개수(n)는, 잔여 머지 후보의 개수에 기반하여 가변적으로 결정될 수도 있다. 여기서, 잔여 머지 후보의 개수는, 머지 후보 리스트에 포함 가능한 머지 후보의 최대 개수와 머지 후보 리스트에 속한 머지 후보의 현재 개수 간의 차이를 의미할 수 있다. 상기 최대 개수는 부호화/복호화 장치에 기-약속된 개수이거나, 부호하 장치에서 부호화되어 시그날링될 수 있다. 상기 현재 개수는, 조합 머지 후보를 추가하기 전까지 구성된 머지 후보의 개수를 의미할 수 있다. 예를 들어, 잔여 머지 후보의 개수가 1인 경우, 2개의 머지 후보가 이용되고, 잔여 머지 후보의 개수가 1보다 큰 경우, 3개 또는 그 이상의 머지 후보가 이용될 수 있다.
상기 n개의 머지 후보의 위치는, 머지 후보 리스트에서 기-결정된 위치일 수 있다. 예를 들어, 머지 후보 리스트에 속한 머지 후보 별로 인덱스(0 내지 (k-1))가 할당될 수 있다. 여기서, k는 머지 후보 리스트에 속한 머지 후보의 총 개수를 의미할 수 있다. 이때, n개의 머지 후보의 위치는, 머지 후보 리스트에서 인덱스 0 내지 인덱스 (n-1)에 대응될 수 있다. 또는, 상기 n개의 머지 후보는, 머지 후보 리스트에 속한 각 머지 후보의 예측 방향을 고려하여 결정될 수 있다. 예를 들어, 머지 후보 리스트에 속한 머지 후보 중에서, 양방향 예측인 머지 후보만을 선택적으로 이용하거나, 단방향 예측인 머지 후보만을 선택적으로 이용할 수 있다.
조합 머지 후보는, 공간적 머지 후보와 시간적 머지 후보를 모두 이용하여 유도될 수도 있고, 공간적 머지 후보 또는 시간적 머지 후보 중 어느 하나만을 이용하여 유도될 수도 있다. 예를 들어, 조합 머지 후보는 공간적 머지 후보만을 이용하여 유도되도록 제한될 수 있다. 이 경우, 조합 대상인 머지 후보의 개수는 기-생성된 머지 후보 리스트에 속한 공간적 머지 후보의 개수 내로 제한될 수 있다.
상기 조합 머지 후보는, 머지 후보 리스트에서 공간적/시간적 머지 후보 이후에 추가될 수 있다. 즉, 조합 머지 후보의 인덱스는 공간적/시간적 머지 후보의 인덱스보다 클 수 있다. 또는, 상기 조합 머지 후보는, 머지 후보 리스트에서 공간적 머지 후보와 시간적 머지 후보 사이에 추가될 수도 있다. 즉, 조합 머지 후보의 인덱스는 공간적 머지 후보의 인덱스보다 크고, 시간적 머지 후보의 인덱스보다 작을 수 있다. 또는, 조합 머지 후보의 위치는, 조합 머지 후보의 예측 방향을 고려하여 가변적으로 결정될 수도 있다. 조합 머지 후보의 예측 방향이 양방향 예측인지 여부에 따라, 머지 후보 리스트 내에서 조합 머지 후보의 위치가 재배열될 수 있다. 예를 들어, 조합 머지 후보가 양방향 예측인 경우, 공간적 또는 시간적 머지 후보보다 작은 인덱스가 할당될 수 있고, 그렇지 않은 경우, 공간적 또는 시간적 머지 후보보다 큰 인덱스가 할당될 수 있다.
이하, 설명의 편의를 위해 2개의 머지 후보를 기반으로 조합 머지 후보를 유도하는 방법을 살펴 보기로 한다.
조합 머지 후보의 움직임 정보는, 제1 머지 후보와 제2 머지 후보의 움직임 정보를 가중 평균하여 유도될 수 있다. 여기서, 가중 평균의 가중치는 [1:1], [1:2], [1:3], [2:3] 등이나, 이에 한정되지 아니한다. 상기 가중치는, 부호화/복호화 장치에 기-정의된 것일 수도 있고, 복호화 장치에서 유도될 수도 있다. 이때, 가중치는, 현재 픽쳐와 머지 후보의 참조 픽쳐 간의 거리 또는 머지 후보의 예측 방향 중 적어도 하나를 고려하여 유도될 수 있다. 또는, 조합 머지 후보의 움직임 정보는, 제1 머지 후보로부터 L0 방향의 움직임 정보를, 제2 머지 후보로부터 L1 방향의 움직임 정보를 각각 획득하고, 이를 조합하여 유도될 수 있다. 전술한 유도 방법 중 적어도 하나에 기반하여 조합 머지 후보의 움직임 정보가 유도될 수 있으며, 이는 후술하는 바와 같이 조합 대상인 머지 후보의 예측 방향을 고려하여 수행될 수 있다.
본 명세서에서, 움직임 정보는, 예측 방향 플래그, 참조 픽쳐 인덱스 또는 움직임 벡터 중 적어도 하나를 포함할 수 있다. 상기 움직임 정보는, L0 예측과 L1 예측에 대해서 각각 정의될 수 있다. 여기서, L0 예측은 참조 픽쳐 리스트 L0를 참조하는 예측을 의미하고, L1 예측은 참조 픽쳐 리스트 L1을 참조하는 예측을 의미할 수 있다.
1. 제1 머지 후보와 제2 머지 후보 둘다 단방향 예측인 경우
(CASE 1) 제1 머지 후보가 L0 예측이고, 제2 머지 후보가 L1 예측인 경우, 조합 머지 후보의 L0 방향의 참조 픽쳐 인덱스는, 제1 머지 후보의 참조 픽쳐 인덱스로 유도될 수 있다. 조합 머지 후보의 L0 방향의 예측 방향 플래그는 1로 유도될 수 있다. 조합 머지 후보의 L0 방향의 움직임 벡터는 제1 머지 후보의 움직임 벡터로 유도될 수 있다. 조합 머지 후보의 L1 방향의 참조 픽쳐 인덱스는, 제2 머지 후보의 참조 픽쳐 인덱스로 유도될 수 있다. 조합 머지 후보의 L1 방향의 예측 방향 플래그는 1로 유도될 수 있다. 조합 머지 후보의 L1 방향의 움직임 벡터는 제2 머지 후보의 움직임 벡터로 유도될 수 있다.
(CASE 2) 제1 머지 후보가 L1 예측이고, 제2 머지 후보가 L0 예측인 경우, 조합 머지 후보의 L0 방향의 참조 픽쳐 인덱스는, 제2 머지 후보의 참조 픽쳐 인덱스로 유도될 수 있다. 조합 머지 후보의 L0 방향의 예측 방향 플래그는 1로 유도될 수 있다. 조합 머지 후보의 L0 방향의 움직임 벡터는 제2 머지 후보의 움직임 벡터로 유도될 수 있다. 조합 머지 후보의 L1 방향의 참조 픽쳐 인덱스는, 제1 머지 후보의 참조 픽쳐 인덱스로 유도될 수 있다. 조합 머지 후보의 L1 방향의 예측 방향 플래그는 1로 유도될 수 있다. 조합 머지 후보의 L1 방향의 움직임 벡터는 제1 머지 후보의 움직임 벡터로 유도될 수 있다.
(CASE 3) 제1 머지 후보 및 제2 머지 후보가 L0 예측인 경우, 조합 머지 후보의 L0 방향의 참조 픽쳐 인덱스는, 제1 머지 후보 또는 제2 머지 후보 중 어느 하나의 참조 픽쳐 인덱스로 유도될 수 있다. 예를 들어, 제1 머지 후보 및 제2 머지 후보 중 인덱스가 가장 작은 머지 후보의 참조 픽쳐 인덱스가 조합 머지 후보의 L0 방향의 참조 픽쳐 인덱스로 설정될 수 있다. 조합 머지 후보의 L0 방향의 예측 방향 플래그는 1로 유도될 수 있다. 조합 머지 후보의 L0 방향의 움직임 벡터는 제1 머지 후보의 움직임 벡터와 제2 머지 후보의 가중 평균으로 유도될 수 있다. 조합 머지 후보의 L1 방향의 참조 픽쳐 인덱스는 -1로 유도되고, L1 방향의 예측 방향 플래그는 0으로 유도되며, L1 방향의 움직임 정보는 0으로 유도될 수 있다.
(CASE 4) 제1 머지 후보 및 제2 머지 후보가 L1 예측인 경우, 조합 머지 후보의 L0 방향의 참조 픽쳐 인덱스는 -1로 유도되고, L0 방향의 예측 방향 플래그는 0으로 유도되며, L0 방향의 움직임 정보는 0으로 유도될 수 있다. 조합 머지 후보의 L1 방향의 참조 픽쳐 인덱스는, 제1 머지 후보 또는 제2 머지 후보 중 어느 하나의 참조 픽쳐 인덱스로 유도될 수 있다. 예를 들어, 제1 머지 후보 및 제2 머지 후보 중 인덱스가 가장 작은 머지 후보의 참조 픽쳐 인덱스가 조합 머지 후보의 L1 방향의 참조 픽쳐 인덱스로 설정될 수 있다. 조합 머지 후보의 L1 방향의 예측 방향 플래그는 1로 유도될 수 있다. 조합 머지 후보의 L1 방향의 움직임 벡터는 제1 머지 후보의 움직임 벡터와 제2 머지 후보의 가중 평균으로 유도될 수 있다.
2. 제1 머지 후보와 제2 머지 후보 둘다 양방향 예측인 경우
(CASE 5) 조합 머지 후보의 L0 방향의 참조 픽쳐 인덱스는, 제1 머지 후보 또는 제2 머지 후보 중 어느 하나의 참조 픽쳐 인덱스로 유도될 수 있다. 예를 들어, 제1 머지 후보 및 제2 머지 후보 중 인덱스가 가장 작은 머지 후보의 참조 픽쳐 인덱스가 조합 머지 후보의 L0 방향의 참조 픽쳐 인덱스로 설정될 수 있다. 조합 머지 후보의 L0 방향의 예측 방향 플래그는 1로 유도될 수 있다. 조합 머지 후보의 L0 방향의 움직임 벡터는 제1 머지 후보의 움직임 벡터와 제2 머지 후보의 가중 평균으로 유도될 수 있다. 조합 머지 후보의 L1 방향의 참조 픽쳐 인덱스는, 제1 머지 후보 또는 제2 머지 후보 중 어느 하나의 참조 픽쳐 인덱스로 유도될 수 있다. 예를 들어, 제1 머지 후보 및 제2 머지 후보 중 인덱스가 가장 작은 머지 후보의 참조 픽쳐 인덱스가 조합 머지 후보의 L1 방향의 참조 픽쳐 인덱스로 설정될 수 있다. 조합 머지 후보의 L1 방향의 예측 방향 플래그는 1로 유도될 수 있다. 조합 머지 후보의 L1 방향의 움직임 벡터는 제1 머지 후보의 움직임 벡터와 제2 머지 후보의 가중 평균으로 유도될 수 있다.
3. 제1 머지 후보는 양방향 예측이고, 제2 머지 후보는 단방향 예측인 경우
(CASE 6) 제2 머지 후보가 L0 예측인 경우, 조합 머지 후보의 L0 방향의 참조 픽쳐 인덱스는, 제1 머지 후보 또는 제2 머지 후보 중 어느 하나의 참조 픽쳐 인덱스로 유도될 수 있다. 예를 들어, 제1 머지 후보 및 제2 머지 후보 중 인덱스가 가장 작은 머지 후보의 참조 픽쳐 인덱스가 조합 머지 후보의 L0 방향의 참조 픽쳐 인덱스로 설정될 수 있다. 조합 머지 후보의 L0 방향의 예측 방향 플래그는 1로 유도될 수 있다. 조합 머지 후보의 L0 방향의 움직임 벡터는 제1 머지 후보의 움직임 벡터와 제2 머지 후보의 가중 평균으로 유도될 수 있다. 조합 머지 후보의 L1 방향의 참조 픽쳐 인덱스는, 제1 머지 후보의 참조 픽쳐 인덱스로 유도될 수 있다. 조합 머지 후보의 L1 방향의 예측 방향 플래그는 1로 유도될 수 있다. 조합 머지 후보의 L1 방향의 움직임 벡터는 제1 머지 후보의 움직임 벡터로 유도될 수 있다.
(CASE 7) 제2 머지 후보가 L1 예측인 경우, 조합 머지 후보의 L0 방향의 참조 픽쳐 인덱스는, 제1 머지 후보의 참조 픽쳐 인덱스로 유도될 수 있다. 조합 머지 후보의 L0 방향의 예측 방향 플래그는 1로 유도될 수 있다. 조합 머지 후보의 L0 방향의 움직임 벡터는 제1 머지 후보의 움직임 벡터로 유도될 수 있다. 조합 머지 후보의 L1 방향의 참조 픽쳐 인덱스는, 제1 머지 후보 또는 제2 머지 후보 중 어느 하나의 참조 픽쳐 인덱스로 유도될 수 있다. 예를 들어, 제1 머지 후보 및 제2 머지 후보 중 인덱스가 가장 작은 머지 후보의 참조 픽쳐 인덱스가 조합 머지 후보의 L1 방향의 참조 픽쳐 인덱스로 설정될 수 있다. 조합 머지 후보의 L1 방향의 예측 방향 플래그는 1로 유도될 수 있다. 조합 머지 후보의 L1 방향의 움직임 벡터는 제1 머지 후보의 움직임 벡터와 제2 머지 후보의 가중 평균으로 유도될 수 있다.
도 6을 참조하면, 머지 후보 리스트로부터 현재 블록의 움직임 정보가 유도될 수 있다(S610).
구체적으로, 현재 블록의 머지 인덱스(merge index)가 시그날링될 수 있다. 머지 인덱스는, 머지 후보 리스트에 속한 복수의 머지 후보 중 어느 하나를 특정할 수 있다. 머지 인덱스와 동일한 인덱스를 가진 머지 후보를 추출하고, 추출된 머지 후보의 움직임 정보를 이용하여 현재 블록의 움직임 정보가 유도될 수 있다. 예를 들어, 현재 블록의 움직임 벡터, 참조 픽쳐 인덱스 및 예측 방향 정보는, 추출된 머지 후보의 움직임 벡터, 참조 픽쳐 인덱스 및 예측 방향 정보와 동일하게 각각 설정될 수 있다.
도 7은 본 발명이 적용되는 일실시예로서, 어파인 모드에 기반하여 움직임 정보를 유도하는 방법을 도시한 것이다.
도 7을 참조하면, 현재 블록의 움직임 정보 예측을 위한 후보 리스트를 생성할 수 있다(S700).
상기 후보 리스트는, 하나 또는 그 이상의 어파인 모델 기반의 후보(이하, 어파인 후보라 함)를 포함할 수 있다. 어파인 후보(Affine Candidate)는, 제어점 벡터(control point vector)를 가진 후보를 의미할 수 있다. 제어점 벡터는, 어파인 모델을 위한 제어점의 움직임 벡터를 의미하고, 블록의 코너 위치(예를 들어, 좌상단, 우상단, 좌하단, 또는 우하단 코너 중 적어도 하나의 위치)에 대해서 정의될 수 있다.
어파인 후보는, 공간적 후보, 시간적 후보 또는 구성된 후보 중 적어도 하나를 포함할 수 있다. 여기서, 공간적 후보는, 현재 블록에 공간적으로 인접한 이웃 블록의 벡터로부터 유도될 수 있고, 시간적 후보는, 현재 블록에 시간적으로 인접한 이웃 블록의 벡터로부터 유도될 수 있다. 여기서, 상기 이웃 블록은 어파인 모델로 부호화된 블록을 의미할 수 있다. 상기 벡터는, 움직임 벡터를 의미할 수도 있고, 제어점 벡터를 의미할 수도 있다. 한편, 상기 구성된 후보는, 현재 블록에 공간적/시간적 이웃 블록의 움직임 벡터 간의 조합에 기초하여 유도될 수 있다.
공간적/시간적 이웃 블록의 벡터를 기반으로 공간적/시간적 후보를 유도하는 방법에 대해서는 도 8을 참조하여 자세히 살펴 보도록 한다.
전술한 복수의 어파인 후보는, 소정의 우선 순위에 기초하여 상기 후보 리스트에 배열될 수 있다. 예를 들어, 복수의 어파인 후보는, 공간적 후보, 시간적 후보, 구성된 후보의 순서로 후보 리스트에 배열될 수 있다. 또는, 복수의 어파인 후보는, 시간적 후보, 공간적 후보, 구성된 후보의 순서로 후보 리스트에 배열될 수도 있다. 다만, 이에 한정되지 아니하며, 시간적 후보는, 구성된 후보 다음에 배열될 수도 있다. 또는, 구성된 후보 중 일부는, 공간적 후보 전에 배열되고, 나머지는 공간적 후보 뒤에 배열될 수도 있다.
상기 후보 리스트와 후보 인덱스에 기반하여, 현재 블록의 제어점 벡터가 유도될 수 있다(S710).
후보 인덱스는, 현재 블록의 제어점 벡터를 유도하기 위해 부호화된 인덱스를 의미할 수 있다. 상기 후보 인덱스는, 후보 리스트에 속한 복수의 어파인 후보 중 어느 하나를 특정할 수 있다. 여기서, 어파인 후보는, 공간적/시간적 후보의 위치를 의미하거나, 어파인 후보의 제어점 벡터를 의미할 수도 있다. 상기 후보 인덱스에 의해 특정된 어파인 후보를 이용하여, 현재 블록의 제어점 벡터가 유도될 수 있다.
구체적으로, 현재 블록의 어파인 모델의 타입이 4-parameter인 경우(즉, 현재 블록이 2개의 제어점 벡터를 사용하는 것으로 결정된 경우)를 가정한다. 이때, 상기 후보 인덱스에 의해 특정된 어파인 후보가 3개의 제어점 벡터를 가진 경우, 상기 3개의 제어점 벡터 중 2개의 제어점 벡터(e.g., Idx=0, 1인 제어점 벡터)만을 선택하고, 이를 현재 블록의 제어점 벡터로 설정할 수 있다. 또는, 상기 특정된 어파인 후보의 3개의 제어점 벡터를 현재 블록의 제어점 벡터로 설정할 수 있다. 이 경우, 현재 블록의 어파인 모델의 타입은 6-parameter로 갱신될 수 있다.
반대로, 현재 블록의 어파인 모델의 타입이 6-parameter인 경우(즉, 현재 블록이 3개의 제어점 벡터를 사용하는 것으로 결정된 경우)를 가정한다. 이때, 상기 후보 인덱스에 의해 특정된 어파인 후보가 2개의 제어점 벡터를 가진 경우, 1개의 추가적인 제어점 벡터를 생성하고, 상기 어파인 후보의 2개의 제어점 벡터 및 추가적인 제어점 벡터를 현재 블록의 제어점 벡터로 설정할 수 있다. 상기 추가적인 제어점 벡터는, 어파인 후보의 2개의 제어점 벡터, 현재/이웃 블록의 크기 또는 위치 정보 중 적어도 하나에 기초하여 유도될 수 있다.
또는, 상기 특정된 어파인 후보의 2개의 제어점 벡터를 현재 블록의 제어점 벡터로 설정할 수 있다. 이 경우, 현재 블록의 어파인 모델의 타입은 4-parameter로 갱신될 수 있다.
또는, 상기 특정된 어파인 후보의 제어점 벡터가 현재 블록의 제어점 벡터 예측값(cpmvp)으로 설정될 수 있다. 이 경우, 현재 블록에 대해 제어점 벡터 차분값(cpmvd)이 시그날링될 수 있다. 시그날링되는 제어점 벡터 차분값의 개수는, 현재 블록의 어파인 모델의 타입에 따라 결정될 수 있다. 즉, 현재 블록의 어파인 모델의 타입이 4-parameter인 경우, mvd_coding()함수를 2번 호출하여 2개의 제어점 벡터 차분값을 획득할 수 있다. 마찬가지로, 현재 블록의 어파인 모델의 타입이 6-parameter인 경우, mvd_coding()함수를 3번 호출하여 3개의 제어점 벡터 차분값을 획득할 수 있다. 상기 현재 블록의 제어점 벡터 예측값(cpmvp)과 제어점 벡터 차분값(cpmvd)를 이용하여 제어점 벡터(cpmv)를 복원할 수 있다.
현재 블록의 제어점 벡터를 기반으로, 현재 블록의 움직임 벡터가 유도될 수 있다(S720).
상기 움직임 벡터는, 현재 블록 또는 서브 블록의 단위로 유도될 수 있다. 이를 위해 현재 블록은 복수의 NxM 서브 블록으로 분할될 수 있다. 여기서, NxM 서브 블록은, 직사각형(N>M 또는 N<M) 또는 정사각형(N=M)의 형태일 수 있다. 상기 N과 M 값은, 4, 8, 16, 32 또는 그 이상일 수 있다.
예를 들어, 서브 블록의 크기/형태는, 복호화 장치에 기-정의된 고정된 크기/형태일 수 있다. 예를 들어, 서브 블록의 크기/형태는, 4x4, 8x8, 16x16 등과 같은 정사각형이거나, 2x4, 2x8, 4x8, 4x16 등과 같은 직사각형일 수 있다. 또는, 상기 서브 블록은 너비와 높이의 합이 8, 12, 16 또는 그 이상의 정수인 블록으로 정의될 수도 있다. 또는, 상기 서브 블록은 너비와 높이의 곱이 16, 32, 64 또는 그 이상의 정수인 블록으로 정의될 수도 있다.
또는, 서브 블록의 크기/형태는, 전술한 블록의 속성에 기초하여 가변적으로 유도될 수도 있다. 예를 들어, 현재 블록의 크기가 소정의 문턱크기보다 크거나 같은 경우, 현재 블록은 제1 서브 블록의 단위(e.g., 8x8, 16x16)로 분할되고, 그렇지 않은 경우, 현재 블록은 제2 서브 블록의 단위(e.g., 4x4)로 분할될 수 있다.
또는, 서브 블록의 크기/형태에 관한 정보가 부호화 장치에서 부호화되어 시그날링될 수도 있다. 상기 정보는, 서브 블록의 크기 또는 형태 중 적어도 하나를 나타내며, 이는 시퀀스, 픽쳐, 타일 그룹, 타일, CTU 중 적어도 하나의 레벨에서 시그날링될 수 있다.
현재 블록을 대표하는 제어점은, 좌상단 위치와 우상단 위치를 포함할 수 있다. 다만, 이에 한정되지 아니하며, 상기 제어점은, 좌상단 위치, 우상단 위치 및 좌하단 위치의 3개 지점을 포함하거나, 추가적인 다수의 지점을 더 포함할 수 있다.
2개의 제어점이 이용되는 경우, 제1 제어점에 대응하는 제1 제어점 벡터, 제2 제어점에 대응하는 제2 제어점 벡터, 서브 블록의 위치(x,y) 또는 현재 블록의 크기(너비 또는 높이) 중 적어도 하나를 이용하여, 현재 블록의 각 서브 블록에 대한 움직임 벡터가 유도될 수 있다.
3개의 제어점이 이용되는 경우, 제1 제어점에 대응하는 제1 제어점 벡터, 제2 제어점에 대응하는 제2 제어점 벡터, 제3 제어점에 대응하는 제3 제어점 벡터, 서브 블록의 위치(x,y) 또는 현재 블록의 크기(너비 또는 높이) 중 적어도 하나를 이용하여, 현재 블록의 각 서브 블록에 대한 움직임 벡터가 유도될 수 있다. 이때, 제2 제어점 벡터와 제1 제어점 벡터 간의 차분벡터가 이용될 수 있고, 제3 제어점 벡터와 제1 제어점 벡터 간의 차분벡터가 이용될 수 있다. 상기 차분벡터는, 수평 방향(x축 방향)과 수직 방향(y축 방향) 각각에 대해서 산출될 수 있다.
상기 움직임 벡터 유도 과정은, 제어점 벡터를 기반으로 유도된 움직임 벡터에 소정의 오프셋을 적용하는 과정을 더 포함할 수도 있다. 오프셋은, 기-유도된 움직임 벡터를 개선하기 위한 벡터를 의미할 수 있다. 오프셋은, 오프셋의 크기 또는 방향 중 적어도 하나에 대한 정보에 기초하여 결정될 수 있다. 상기 크기(Absolute)는, 1, 2, 3, 또는 그 이상의 정수일 수 있다. 상기 방향은, 좌측, 우측, 상단 또는 하단 중 적어도 하나의 방향을 포함할 수 있다. 상기 오프셋의 크기 및/또는 방향에 대한 정보는 부호화 장치에서 부호화되어 시그날링될 수 있다. 또는, 오프셋의 크기는, 복호화 장치에 기-설정된 고정된 값일 수도 있다.
도 8은 본 발명이 적용되는 일실시예로서, 공간적/시간적 이웃 블록의 제어점 벡터로부터 어파인 후보를 유도하는 방법에 관한 것이다.
현재 블록(800)의 너비와 높이는 각각 cbW, cbH이고, 현재 블록의 위치는 (xCb, yCb)이다. 공간적 이웃 블록(810-850)의 너비와 높이는 각각 nbW, nbH이고, 공간적 이웃 블록의 위치는 (xNb, yNb)이다. 공간적 이웃 블록은, 현재 블록의 좌측 블록(810), 좌하단 블록(840), 우상단 블록(830), 상단 블록(820) 또는 좌상단 블록(850) 중 적어도 하나를 포함할 수 있다. 또는, 상기 공간적 이웃 블록은, 상기 좌상단 블록(850)의 우측으로 인접한 블록 또는 하단으로 인접한 블록 중 적어도 하나를 더 포함할 수도 있다.
공간적 후보는, n개의 제어점 벡터(cpMV)를 가질 수 있다. 여기서, n 값은, 1, 2, 3, 또는 그 이상의 정수일 수 있다. n 값은, 서브 블록 단위로 복호화되는지 여부에 관한 정보, 어파인 모델로 부호화된 블록인지 여부에 관한 정보 또는 어파인 모델의 타입(4-parameter 또는 6-parameter)에 관한 정보 중 적어도 하나에 기초하여 결정될 수 있다.
예를 들어, 상기 정보에 따라, 해당 블록이 서브 블록 단위로 복호화되거나, 어파인 모델로 부호화된 블록인 경우, 해당 블록은 2개의 제어점 벡터를 가질 수 있다. 반면, 그렇지 않은 경우, 해당 블록은 어파인 모델 기반의 예측을 수행하지 않을 수 있다.
또는, 상기 정보에 따라, 해당 블록이 어파인 모델로 부호화된 블록이고, 어파인 모델의 타입이 6-parameter인 경우, 해당 블록은 3개의 제어점 벡터를 가질 수 있다. 반면, 그렇지 않은 경우, 해당 블록은 어파인 모델 기반의 예측을 수행하지 않을 수 있다.
전술한 정보는, 부호화 장치에서 부호화되어 시그날링될 수도 있다. 또는, 상기 정보 전부 또는 일부는, 블록의 속성에 기초하여 복호화 장치에서 유도될 수도 있다. 여기서, 블록은, 현재 블록을 의미할 수도 있고, 현재 블록의 공간적/시간적 이웃 블록을 의미할 수도 있다. 상기 속성은, 크기, 형태, 위치, 분할 타입, 인터 모드, 잔차 계수에 관한 파라미터 등을 의미할 수 있다. 상기 인터 모드는, 복호화 장치에 기-정의된 모드로서, 머지 모드, 스킵 모드, AMVP 모드, 어파인 모델, 인트라/인터 조합 모드, 현재 픽쳐 참조 모드 등을 의미할 수 있다. 또는, n 값은 전술한 블록의 속성에 기초하여 복호화 장치에서 유도될 수도 있다.
본 실시예에서, n개의 제어점 벡터는, 제1 제어점 벡터(cpMV[0]), 제2 제어점 벡터(cpMV[1]), 제3 제어점 벡터(cpMV[2]), ... 제n 제어점 벡터(cpMV[n-1])로 표현될 수 있다.
일예로, 제1 제어점 벡터(cpMV[0]), 제2 제어점 벡터(cpMV[1]), 제3 제어점 벡터(cpMV[2]) 및 제4 제어점 벡터(cpMV[3])는, 블록의 좌상단 샘플, 우상단 샘플, 좌하단 샘플 및 우하단 샘플의 위치에 각각 대응하는 벡터일 수 있다. 여기서, 공간적 후보는, 3개의 제어점 벡터를 가지는 것을 가정하며, 3개의 제어점 벡터는 제1 내지 제n 제어점 벡터 중에서 선택된 임의의 제어점 벡터일 수 있다. 다만, 이에 한정되지 아니하며, 공간적 후보는 2개의 제어점 벡터를 가질 수 있고, 2개의 제어점 벡터는 제1 내지 제n 제어점 벡터 중에서 선택된 임의의 제어점 벡터일 수 있다.
이하, 공간적 후보의 제어점 벡터를 유도하는 방법에 대해서 살펴 보도록 한다.
1. 현재 블록의 경계가 CTU boundary에 접하지 않는 경우
상기 제1 제어점 벡터는, 공간적 이웃 블록의 제1 제어점 벡터, 소정의 차분값, 현재 블록의 위치 정보 (xCb, yCb) 또는 공간적 이웃 블록의 위치 정보 (xNb, yNb) 중 적어도 하나에 기초하여 유도될 수 있다.
상기 차분값의 개수는, 1개, 2개, 3개 또는 그 이상일 수 있다. 상기 차분값의 개수는, 전술한 블록의 속성을 고려하여 가변적으로 결정될 수도 있고, 복호화 장치에 기-약속된 고정된 값일 수도 있다. 상기 차분값은, 복수의 제어점 벡터 중 어느 하나와 다른 하나 간의 차분값으로 정의될 수 있다. 예를 들어, 상기 차분값은, 제2 제어점 벡터와 제1 제어점 벡터 간의 제1 차분값, 제3 제어점 벡터와 제1 제어점 벡터 간의 제2 차분값, 제4 제어점 벡터와 제3 제어점 벡터 간의 제3 차분값, 또는 제4 제어점 벡터와 제2 제어점 벡터 간의 제4 차분값 중 적어도 하나를 포함할 수 있다.
예를 들어, 제1 제어점 벡터는 다음 수학식 1과 같이 유도될 수 있다.
[수학식 1]
cpMvLX[ 0 ][ 0 ] = ( mvScaleHor + dHorX * ( xCb - xNb ) + dHorY * ( yCb - yNb ) )
cpMvLX[ 0 ][ 1 ] = ( mvScaleVer + dVerX * ( xCb - xNb ) + dVerY * ( yCb - yNb ) )
수학식 1에서, 변수 mvScaleHor와 mvScaleVer는 공간적 이웃 블록의 제1 제어점 벡터를 의미할 수도 있고, 제1 제어점 벡터에 k만큼 쉬프트 연산을 적용하여 유도된 값을 의미할 수도 있다. 여기서, k는 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 그 이상의 정수일 수 있다. 변수 dHorX와 dVerX는, 제2 제어점 벡터와 제1 제어점 벡터 간의 제1 차분값의 x 성분과 y 성분에 각각 대응된다. 변수 dHorY와 dVerY는, 제3 제어점 벡터와 제1 제어점 벡터 간의 제2 차분값의 x 성분과 y 성분에 각각 대응된다. 전술한 변수는, 다음 수학식 2와 같이 유도될 수 있다.
[수학식 2]
mvScaleHor = CpMvLX[ xNb ][ yNb ][ 0 ][ 0 ] << 7
mvScaleVer = CpMvLX[ xNb ][ yNb ][ 0 ][ 1 ] << 7
dHorX = ( CpMvLX[ xNb + nNbW - 1 ][ yNb ][ 1 ][ 0 ] - CpMvLX[ xNb ][ yNb ][ 0 ][ 0 ] ) << ( 7 - log2NbW )
dVerX = ( CpMvLX[ xNb + nNbW - 1 ][ yNb ][ 1 ][ 1 ] - CpMvLX[ xNb ][ yNb ][ 0 ][ 1 ] ) << ( 7 - log2NbW )
dHorY = ( CpMvLX[ xNb ][ yNb + nNbH - 1 ][ 2 ][ 0 ] - CpMvLX[ xNb ][ yNb ][ 2 ][ 0 ] ) << ( 7 - log2NbH )
dVerY = ( CpMvLX[ xNb ][ yNb + nNbH - 1 ][ 2 ][ 1 ] - CpMvLX[ xNb ][ yNb ][ 2 ][ 1 ] ) << ( 7 - log2NbH )
제2 제어점 벡터는, 공간적 이웃 블록의 제1 제어점 벡터, 소정의 차분값, 현재 블록의 위치 정보 (xCb, yCb), 블록 크기(너비 또는 높이) 또는 공간적 이웃 블록의 위치 정보 (xNb, yNb) 중 적어도 하나에 기초하여 유도될 수 있다. 여기서, 블록 크기는, 현재 블록 및/또는 공간적 이웃 블록의 크기를 의미할 수 있다. 상기 차분값은, 제1 제어점 벡터에서 살펴본 바와 같은바, 여기서 자세한 설명은 생략하기로 한다. 다만, 제2 제어점 벡터의 유도 과정에서 이용되는 차분값의 범위 및/또는 개수는 제1 제어점 벡터와 상이할 수 있다.
예를 들어, 제2 제어점 벡터는 다음 수학식 3과 같이 유도될 수 있다.
[수학식 3]
cpMvLX[ 1 ][ 0 ] = ( mvScaleHor + dHorX * ( xCb + cbWidth - xNb ) + dHorY * ( yCb - yNb ) )
cpMvLX[ 1 ][ 1 ] = ( mvScaleVer + dVerX * ( xCb + cbWidth - xNb ) + dVerY * ( yCb - yNb ) )
수학식 3에서, 변수 mvScaleHor, mvScaleVer, dHorX, dVerX, dHorY, dVerY는, 수학식 1에서 살펴본 바와 같으며, 여기서 자세한 설명은 생략하기로 한다.
제3 제어점 벡터는, 공간적 이웃 블록의 제1 제어점 벡터, 소정의 차분값, 현재 블록의 위치 정보 (xCb, yCb), 블록 크기(너비 또는 높이) 또는 공간적 이웃 블록의 위치 정보 (xNb, yNb) 중 적어도 하나에 기초하여 유도될 수 있다. 여기서, 블록 크기는, 현재 블록 및/또는 공간적 이웃 블록의 크기를 의미할 수 있다. 상기 차분값은, 제1 제어점 벡터에서 살펴본 바와 같은바, 여기서 자세한 설명은 생략하기로 한다. 다만, 제3 제어점 벡터의 유도 과정에서 이용되는 차분값의 범위 및/또는 개수는 제1 제어점 벡터 또는 제2 제어점 벡터와 상이할 수 있다.
예를 들어, 제3 제어점 벡터는 다음 수학식 4와 같이 유도될 수 있다.
[수학식 4]
cpMvLX[ 2 ][ 0 ] = ( mvScaleHor + dHorX * ( xCb - xNb ) + dHorY * ( yCb + cbHeight - yNb ) )
cpMvLX[ 2 ][ 1 ] = ( mvScaleVer + dVerX * ( xCb - xNb ) + dVerY * ( yCb + cbHeight - yNb ) )
수학식 4에서, 변수 mvScaleHor, mvScaleVer, dHorX, dVerX, dHorY, dVerY는, 수학식 1에서 살펴본 바와 같으며, 여기서 자세한 설명은 생략하기로 한다. 한편, 전술한 과정을 통해, 공간적 후보의 제n 제어점 벡터가 유도될 수 있다.
2. 현재 블록의 경계가 CTU boundary에 접하는 경우
상기 제1 제어점 벡터는, 공간적 이웃 블록의 움직임 벡터(MV), 소정의 차분값, 현재 블록의 위치 정보 (xCb, yCb) 또는 공간적 이웃 블록의 위치 정보 (xNb, yNb) 중 적어도 하나에 기초하여 유도될 수 있다.
상기 움직임 벡터는, 공간적 이웃 블록의 최하단에 위치한 서브 블록의 움직임 벡터일 수 있다. 상기 서브 블록은, 공간적 이웃 블록의 최하단에 위치한 복수의 서브 블록 중 최좌측, 중앙 또는 최우측에 위치한 것일 수 있다. 또는, 상기 움직임 벡터는, 서브 블록의 움직임 벡터의 평균값, 최대값 또는 최소값을 의미할 수도 있다.
상기 차분값의 개수는, 1개, 2개, 3개 또는 그 이상일 수 있다. 상기 차분값의 개수는, 전술한 블록의 속성을 고려하여 가변적으로 결정될 수도 있고, 복호화 장치에 기-약속된 고정된 값일 수도 있다. 상기 차분값은, 공간적 이웃 블록에서 서브 블록의 단위로 저장된 복수의 움직임 벡터 중 어느 하나와 다른 하나 간의 차분값으로 정의될 수 있다. 예를 들어, 상기 차분값은, 공간적 이웃 블록의 우하단 서브 블록의 움직임 벡터와 좌하단 서브 블록의 움직임 벡터 간의 차분값을 의미할 수 있다.
예를 들어, 제1 제어점 벡터는 다음 수학식 5와 같이 유도될 수 있다.
[수학식 5]
cpMvLX[ 0 ][ 0 ] = ( mvScaleHor + dHorX * ( xCb - xNb ) + dHorY * ( yCb - yNb ) )
cpMvLX[ 0 ][ 1 ] = ( mvScaleVer + dVerX * ( xCb - xNb ) + dVerY * ( yCb - yNb ) )
수학식 5에서, 변수 mvScaleHor와 mvScaleVer는 전술한 공간적 이웃 블록의 움직임 벡터(MV) 또는 상기 움직임 벡터에 k만큼 쉬프트 연산을 적용하여 유도된 값을 의미할 수도 있다. 여기서, k는 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 그 이상의 정수일 수 있다.
상기 변수 dHorX와 dVerX는, 소정의 차분값의 x 성분과 y 성분에 각각 대응된다. 여기서, 차분값은, 공간적 이웃 블록 내 우하단 서브 블록의 움직임 벡터와 좌하단 서브 블록의 움직임 벡터 간의 차분값을 의미한다. 변수 dHorY와 dVerY는, 상기 변수 dHorX와 dVerX에 기초하여 유도될 수 있다. 전술한 변수는, 다음 수학식 6과 같이 유도될 수 있다.
[수학식 6]
mvScaleHor = MvLX[ xNb ][ yNb + nNbH - 1 ][ 0 ] << 7
mvScaleVer = MvLX[ xNb ][ yNb + nNbH - 1 ][ 1 ] << 7
dHorX = ( MvLX[ xNb + nNbW - 1 ][ yNb + nNbH - 1 ][ 0 ] - MvLX[ xNb ][ yNb + nNbH - 1 ][ 0 ] ) << ( 7 - log2NbW )
dVerX = ( MvLX[ xNb + nNbW - 1 ][ yNb + nNbH - 1 ][ 1 ] - MvLX[ xNb ][ yNb + nNbH - 1 ][ 1 ] ) << ( 7 - log2NbW )
dHorY = - dVerX
dVerY = dHorX
제2 제어점 벡터는, 공간적 이웃 블록의 움직임 벡터(MV), 소정의 차분값, 현재 블록의 위치 정보 (xCb, yCb), 블록 크기(너비 또는 높이) 또는 공간적 이웃 블록의 위치 정보 (xNb, yNb) 중 적어도 하나에 기초하여 유도될 수 있다. 여기서, 블록 크기는, 현재 블록 및/또는 공간적 이웃 블록의 크기를 의미할 수 있다. 상기 움직임 벡터와 차분값에 대해서는, 제1 제어점 벡터에서 살펴본 바와 같은바, 여기서 자세한 설명은 생략하기로 한다. 다만, 제2 제어점 벡터의 유도 과정에서 이용되는 움직임 벡터의 위치, 차분값의 범위 및/또는 개수는 제1 제어점 벡터와 상이할 수 있다.
예를 들어, 제2 제어점 벡터는 다음 수학식 7과 같이 유도될 수 있다.
[수학식 7]
cpMvLX[ 1 ][ 0 ] = ( mvScaleHor + dHorX * ( xCb + cbWidth - xNb ) + dHorY * ( yCb - yNb ) )
cpMvLX[ 1 ][ 1 ] = ( mvScaleVer + dVerX * ( xCb + cbWidth - xNb ) + dVerY * ( yCb - yNb ) )
수학식 7에서, 변수 mvScaleHor, mvScaleVer, dHorX, dVerX, dHorY, dVerY는, 수학식 5에서 살펴본 바와 같으며, 여기서 자세한 설명은 생략하기로 한다.
제3 제어점 벡터는, 공간적 이웃 블록의 움직임 벡터(MV), 소정의 차분값, 현재 블록의 위치 정보 (xCb, yCb), 블록 크기(너비 또는 높이) 또는 공간적 이웃 블록의 위치 정보 (xNb, yNb) 중 적어도 하나에 기초하여 유도될 수 있다. 여기서, 블록 크기는, 현재 블록 및/또는 공간적 이웃 블록의 크기를 의미할 수 있다. 상기 움직임 벡터와 차분값은, 제1 제어점 벡터에서 살펴본 바와 같은바, 여기서 자세한 설명은 생략하기로 한다. 다만, 제3 제어점 벡터의 유도 과정에서 이용되는 움직임 벡터의 위치, 차분값의 범위 및/또는 개수는 제1 제어점 벡터 또는 제2 제어점 벡터와 상이할 수 있다.
예를 들어, 제3 제어점 벡터는 다음 수학식 8과 같이 유도될 수 있다.
[수학식 8]
cpMvLX[ 2 ][ 0 ] = ( mvScaleHor + dHorX * ( xCb - xNb ) + dHorY * ( yCb + cbHeight - yNb ) )
cpMvLX[ 2 ][ 1 ] = ( mvScaleVer + dVerX * ( xCb - xNb ) + dVerY * ( yCb + cbHeight - yNb ) )
수학식 8에서, 변수 mvScaleHor, mvScaleVer, dHorX, dVerX, dHorY, dVerY는, 수학식 5에서 살펴본 바와 같으며, 여기서 자세한 설명은 생략하기로 한다. 한편, 전술한 과정을 통해, 공간적 후보의 제n 제어점 벡터가 유도될 수 있다.
전술한 어파인 후보의 유도 과정은, 기-정의된 공간적 이웃 블록 각각에 대해서 수행될 수 있다. 기-정의된 공간적 이웃 블록은, 현재 블록의 좌측 블록, 좌하단 블록, 우상단 블록, 상단 블록 또는 좌상단 블록 중 적어도 하나를 포함할 수 있다.
또는, 상기 어파인 후보의 유도 과정은, 상기 공간적 이웃 블록의 그룹 별로 각각 수행될 수도 있다. 여기서, 공간적 이웃 블록은, 좌측 블록 및 좌하단 블록을 포함한 제1 그룹과 우상단 블록, 상단 블록 및 좌상단 블록을 포함한 제2 그룹으로 분류될 수 있다.
예를 들어, 제1 그룹에 속한 공간적 이웃 블록으로부터 하나의 어파인 후보가 유도될 수 있다. 상기 유도는, 소정의 우선 순위에 기초하여, 가용한 어파인 후보가 발견될 때까지 수행될 수 있다. 상기 우선 순위는, 좌측 블록 -> 좌하단 블록의 순서일 수도 있고, 그 역순일 수도 있다. 상기 우선 순위에 따라 제1 그룹 내의 해당 공간적 이웃 블록이 어파인 모델 기반의 예측을 통해 복호화된 블록인지를 판단하고, 가장 처음 어파인 모델 기반의 예측으로 복호화된 블록이 어파인 후보로 선택될 수 있다.
마찬가지로, 제2 그룹에 속한 공간적 이웃 블록으로부터 하나의 어파인 후보가 유도될 수 있다. 상기 유도는, 소정의 우선 순위에 기초하여, 가용한 어파인 후보가 발견될 때까지 수행될 수 있다. 상기 우선 순위는, 우상단 블록 -> 상단 블록 -> 좌상단 블록의 순서일 수도 있고, 그 역순일 수도 있다. 상기 우선 순위에 따라 제2 그룹 내의 해당 공간적 이웃 블록이 어파인 모델 기반의 예측을 통해 복호화된 블록인지를 판단하고, 가장 처음 어파인 모델 기반의 예측으로 복호화된 블록이 어파인 후보로 선택될 수 있다.
전술한 실시예는, 시간적 이웃 블록에 대해서도 동일/유사하게 적용될 수 있다. 여기서, 시간적 이웃 블록은, 현재 블록과 다른 픽쳐에 속하나, 현재 블록과 동일 위치의 블록일 수 있다. 동일 위치의 블록이라 함은, 현재 블록의 좌상단 샘플의 위치, 중앙 위치 또는 현재 블록의 우하단 샘플에 인접한 샘플의 위치를 포함하는 블록일 수 있다.
또는, 시간적 이웃 블록은, 상기 동일 위치의 블록에서 소정의 변이 벡터만큼 쉬프트된 위치의 블록을 의미할 수 있다. 여기서, 변이 벡터는, 전술한 현재 블록의 공간적 이웃 블록 중 어느 하나의 움직임 벡터에 기초하여 결정될 수 있다.
도 9는 본 발명이 적용되는 일실시예로서, 적응적으로 움직임 벡터의 해상도를 조절하는 방법을 도시한 것이다.
도 9를 참조하면, 현재 블록의 움직임 벡터의 해상도를 결정할 수 있다(S900).
여기서, 움직임 벡터는, 기-복원된 움직임 벡터(mv)를 의미하나, 움직임 벡터 예측값(mvp) 또는 움직임 벡터 차분값(mvd)로 대체될 수도 있다.
부호화/복호화 장치는, 기-정의된 복수의 해상도 후보 중 어느 하나를 선택하고, 이를 움직임 벡터의 해상도로 결정할 수 있다. 상기 복수의 해상도 후보는, 1/16 화소, 1/8 화소, 1/4 화소, 1/2 화소, 1 화소, 2 화소 또는 4 화소 중 적어도 하나 이상을 포함할 수 있다.
상기 선택은, 비디오 파라미터 세트(VPS), 시퀀스 파라미터 세트(SPS), 픽쳐 파라미터 세트(PPS), 슬라이스 헤더 등과 같은 상위 레벨의 단위에서 수행될 수 있다. 즉, 해당 하이 레벨의 단위를 참조하는 모든 블록은, 동일한 해상도를 가진 움직임 벡터를 기반으로 움직임 보상을 수행할 수 있다. 한편, 상기 선택은, 코딩 블록, 예측 블록, 변환 블록, 기타 서브 블록 등과 같은 하위 레벨의 단위에서 수행될 수도 있다. 즉, 해당 하위 레벨마다, 서로 상이한 해상도를 가진 움직임 벡터를 기반으로 움직임 보상이 수행될 수 있다.
상기 선택은, 복수의 해상도 후보 중 어느 하나를 특정하는 인덱스에 기초하여 수행될 수 있다(실시예 1). 이때, 인덱스 별 대응되는 해상도 후보가 표 1과 같이 정의되고, 인덱스는 0 내지 (해상도 후보의 개수-1)의 범위에 속한 정수일 수 있다.
인덱스(idx) | 해상도 후보 |
0 | 1/16 화소 |
1 | 1/4 화소 |
2 | 1/2 화소 |
3 | 1 화소 |
4 | 4 화소 |
표 1은 해상도 후보 별 할당된 인덱스의 일예에 불과하며, 해상도 후보의 우선순서와 개수를 한정하는 것은 아니다. 예를 들어, 1/4 화소가 1/16 화소보다 높은 우선순서를 가질 수 있고, 1/4 화소에 1/16 화소보다 작은 인덱스가 할당될 수 있다. 또는, 1/4 화소 또는 1/2 화소는, 1/16 화소보다 작은 인덱스를 가질 수도 있다.
현재 블록이 이용 가능한 해상도 후보의 개수는 최대 N개이며, N은 1, 2, 3, 4, 5 또는 그 이상의 자연수일 수 있다. 상기 개수는, 부호화/복호화 장치에 기-약속되 고정된 값일 수 있다. 또는, 현재 블록의 부호화 파라미터를 고려하여 가변적으로 결정될 수 있다. 부호화 파라미터는, 블록의 크기/형태/위치, 양방향 예측 여부, 인터 모드 또는 성분 타입 중 적어도 하나를 고려하여 가변적으로 결정될 수 있다. 예를 들어, 현재 블록의 크기가 문턱크기보다 작은 경우, p개의 해상도 후보가 이용되고, 그렇지 않은 경우, q개의 해상도 후보가 이용될 수 있다. 여기서, p는 q보다 작은 자연수일 수 있다. 또는, 현재 블록의 인터 모드가 어파인 모드인 경우, 해상도 후보의 개수는 2개 또는 3개일 수 있다. 또는, 현재 블록의 인터 모드가 AMVP 모드인 경우, 해상도 후보의 개수는 3개, 4개 또는 5개일 수 있다. 그리고, 현재 블록의 인터 모드가 IBC 모드인 경우, 해상도 후보의 개수는 1개, 2개 또는 3개일 수 있다. 또는, 전술한 블록의 크기 또는 인터 모드와 관계없이, 동일한 개수의 해상도 후보가 이용되도록 설정될 수도 있다.
또는, 복수의 해상도 후보 중 어느 하나를 특정하기 위해 2개의 인덱스가 이용될 수도 있다(실시예 2). 상기 2개의 인덱스를 제1 인덱스와 제2 인덱스라 한다. 제1 인덱스는 움직임 벡터의 해상도를 특정하기 위해 부호화된 정보이다. 예를 들어, 제1 인덱스가 제1 값인 경우, 움직임 벡터의 해상도는 1/4 화소로 결정되고, 그렇지 않은 경우, 움직임 벡터의 해상도는 제2 인덱스에 기초하여 결정될 수 있다. 예를 들어, 제1 및 제2 인덱스 별 움직임 벡터의 해상도는 다음 표 2와 같이 인터 모드를 고려하여 정의될 수 있다.
제1 인덱스 | 제2 인덱스 | 해상도 후보 | ||
어파인 모드(쉬프트값) | IBC 모드(쉬프트값) | AMVP 모드(쉬프트값) | ||
0 | - | 1/4 화소(2) | - | 1/4 화소(2) |
1 | 0 | 1/16 화소(0) | 1 화소(4) | 1/2 화소(3) |
1 | 1 | 1 화소(4) | 4 화소(6) | 1 화소(4) |
1 | 2 | - | - | 4 화소(6) |
표 2는 제2 인덱스 별 해상도 후보의 일예에 불과하며, 제2 인덱스 별 대응되는 해상도 후보를 한정하는 것은 아니다. 예를 들어, 어파인 모드의 경우, 제2 인덱스 0에 1/2 화소, 1/8 화소 등이 대응되고, 제2 인덱스 1에 2 화소, 4 화소 등이 대응될 수도 있다. 마찬가지로, IBC 모드의 경우, 제2 인덱스 0 또는 1에 2 화소가 대응될 수도 있다. 다만, 표 2와 달리, 인터 모드에 관계없이 동일한 해상도 후보를 구성하거나, IBC 모드와 AMVP 모드에 대해서는 동일한 해상도 후보를 구성할 수도 있다. 상기 동일한 해상도 후보는, 1/4 화소, 1/2 화소, 1 화소 또는 4 화소 중 적어도 2개로 구성될 수 있다.
상기 제1 인덱스는, 현재 블록의 인터 모드가 AMVP 모드이거나 어파인 모드인 경우(조건 1)에 시그날링될 수 있다. 또한, 상기 제1 인덱스는, 현재 블록에 대해 0이 아닌 움직임 벡터 차분값 또는 제어점 벡터 차분값이 시그날링된 경우(조건 2)에 한하여 시그날링될 수 있다. 상기 제1 인덱스는, 적응적인 움직임 벡터 해상도가 움직임 벡터 부호화/복호화시에 이용되는지 여부를 나타내는 플래그에 기초하여 시그날링될 수 있다. 즉, 제1 인덱스는, 상기 플래그가 제1 값인 경우(조건 3)에 한하여 시그날링될 수 있다. 상기 플래그는, 비디오 파라미터 세트(VPS), 시퀀스 파라미터 세트(SPS), 픽쳐 파라미터 세트(PPS) 중 적어도 하나의 상위 레벨에서 시그날링될 수 있다. 상기 조건 1 내지 3을 모두 만족하는 경우에 제1 인덱스가 시그날링될 수도 있고, 조건 1 내지 3 중 적어도 하나를 만족하는 경우에 제1 인덱스가 시그날링될 수도 있다. 상기 제2 인덱스는, 제1 인덱스에 따라 움직임 벡터의 해상도가 1/4 화소가 아닌 경우에 한하여 시그날링될 수 있다.
도 9를 참조하면, 상기 결정된 해상도에 대응되는 움직임 벡터 예측값을 유도할 수 있다(S910).
예를 들어, 움직임 벡터의 해상도가 1/4 화소로 결정되고, 기-유도된 움직임 벡터 예측값의 해상도가 1/16 화소인 경우, 움직임 벡터 예측값을 2만큼 쉬프트하여 해상도를 1/4 화소로 조절할 수 있다. 또는, 움직임 벡터의 해상도가 1 화소로 결정되고, 기-유도된 움직임 벡터 예측값의 해상도가 1/16 화소인 경우, 움직임 벡터 예측값을 4만큼 쉬프트하여 해상도를 1 화소로 조절할 수 있다. 즉, 기-유도된 벡터 성분에 소정의 쉬프트값을 적용하여, 백터 성분의 해상도 또는 정밀도를 조절할 수 있으며, 이를 라운딩(rounding)이라 부르기로 한다.
라운딩되기 전 움직임 벡터 예측값의 해상도가 1/16 화소라고 가정한다. 이때, 라운딩을 위한 쉬프트값은 표 2와 같이 정의될 수 있다.
AMVP 모드에서, 상기 라운딩은 후보 리스트에 속한 복수의 움직임 벡터 중에서 어느 하나가 특정된 이후에 수행될 수 있다. 즉, 후보 리스트를 구성하는 복수의 움직임 벡터 각각에 대해서 상기 결정된 해상도에 따른 라운딩을 수행하지 않고, 인덱스에 의해 특정된 하나의 움직임 벡터에 대해서만 라운딩을 수행할 수 있다.
또는, AMVP 모드에서, 상기 라운딩은 공간적/시간적 이웃 블록의 움직임 벡터 각각에 대해서 수행되고, 라운딩된 움직임 벡터를 기반으로 후보 리스트가 구성될 수도 있다. 이 경우, 후보 리스트로부터 특정된 하나의 움직임 벡터가 현재 블록의 움직임 벡터 예측값으로 설정되며, 추가적인 라운딩 과정이 수행되지 않는다.
마찬가지로, 어파인 모드에서, 상기 라운딩은 후보 리스트에 속한 복수의 후보 중에서 어느 하나가 특정된 이후에 수행될 수 있다. 즉, 후보 리스트를 구성하는 복수의 후보 각각에 대해서 상기 결정된 해상도에 따른 라운딩을 수행하지 않고, 인덱스에 의해 특정된 하나의 후보에 대해서만 라운딩을 수행할 수 있다. 상기 복수의 후보 중 일부는 제어점 벡터로, 나머지는 움직임 벡터로 각각 구성될 수도 있다.
또는, 어파인 모드에서, 상기 라운딩은 공간적/시간적 이웃 블록의 벡터 각각에 대해서 수행되고, 라운딩된 벡터를 기반으로 후보 리스트가 구성될 수도 있다. 이 경우, 후보 리스트로부터 특정된 하나의 벡터가 현재 블록의 제어점 벡터 예측값(cpmvp)으로 설정되며, 제어점 벡터 예측값에 대해 추가적인 라운딩이 수행되지 않을 수 있다.
도 9를 참조하면, 상기 결정된 해상도에 기반하여, 움직임 벡터 차분값을 라운딩할 수 있다(S920).
움직임 벡터 차분값은, 소정의 부호화 정보에 기초하여 복원될 수 있다. 상기 부호화 정보는, 움직임 벡터 차분값을 복호화하기 위해 시그날링될 수 있다. 현재 블록이 AMVP 모드로 부호화된 경우, mvd_coding()함수를 1번 호출하여 1개의 움직임 벡터 차분값이 시그날링될 수 있다. 또는, 현재 블록이 어파인 모드로 부호화된 경우, S920의 움직임 벡터 차분값은 제어점 벡터 차분값으로 이해될 수 있다. 이때, 현재 블록의 어파인 모델의 타입이 4-parameter인 경우, mvd_coding()함수를 2번 호출하여 2개의 제어점 벡터 차분값을 획득할 수 있다. 마찬가지로, 현재 블록의 어파인 모델의 타입이 6-parameter인 경우, mvd_coding()함수를 3번 호출하여 3개의 제어점 벡터 차분값을 획득할 수 있다.
S900에서 결정된 해상도에 기반하여, 상기 움직임 벡터 차분값을 라운딩할 수 있다. 즉, 움직임 벡터 차분값을 표 2에 정의된 쉬프트값만큼 쉬프트하여, 움직임 벡터 차분값의 해상도를 조절할 수 있다. 또는, 전술한 복수의 제어점 벡터 차분값 각각을 표 2에 정의된 쉬프트값만큼 쉬프트하여, 제어점 벡터 차분값의 해상도를 조절할 수 있다.
도 9를 참조하면, 라운딩된 움직임 벡터 예측값과 움직임 벡터 차분값을 기반으로, 현재 블록의 움직임 벡터를 복원할 수 있다(S930).
현재 블록이 어파인 모드로 부호화된 경우, 라운딩된 제어점 벡터 예측값과 제어점 벡터 차분값을 기반으로, 현재 블록의 제어점 벡터가 복원될 수 있음은 물론이다.
또는, S900에서 결정된 해상도를 기반으로, 최종 복원된 움직임 벡터에 대해서만 라운딩이 수행될 수도 있다. 이 경우, 전술한 S910의 움직임 벡터 예측값에 대한 라운딩 또는 S920의 움직임 벡터 차분값에 대한 라운딩 중 적어도 하나는 생략될 수 있다.
또는, 적응적인 움직임 벡터 해상도는, 움직임 벡터 차분값이 시그날링되는 인터 모드(e.g., AMVP 모드)에 한하여 적용되는 것으로 제한될 수도 있고, 움직임 벡터 차분값이 시그날링되지 않는 인터 모드(e.g., 머지 모드)에 대해서 적용되도록 설정될 수도 있다.
도 10은 본 발명이 적용되는 일실시예로서, 보간 기반의 인터 예측 방법을 도시한 것이다.
도 10을 참조하면, 현재 블록의 보간 필터를 결정할 수 있다(S1000).
부호화/복호화 장치는, 하나 또는 그 이상의 보간 필터 세트를 정의할 수 있다. 복수의 보간 필터 세트가 정의된 경우, 블록 속성을 고려하여 복수의 보간 필터 세트 중 어느 하나가 선택적으로 이용될 수 있다. 여기서, 블록 속성은, 현재 블록 또는 서브 블록의 크기, 형태, 인터 모드 등을 포함할 수 있다.
예를 들어, 현재 블록의 인터 모드가 어파인 모드이고, 현재 블록 또는 서브 블록이 4x4인 경우, 다음 표 3과 같은 제1 보간 필터 세트가 선택되고, 그렇지 않은 경우, 다음 표 4와 같은 제2 보간 필터 세트가 선택될 수 있다.
Fractional sample position p | interpolation filter coefficients | |||||||
fL[ p ][ 0 ] | fL[ p ][ 1 ] | fL[ p ][ 2 ] | fL[ p ][ 3 ] | fL[ p ][ 4 ] | fL[ p ][ 5 ] | fL[ p ][ 6 ] | fL[ p ][ 7 ] | |
1 | 0 | 1 | -3 | 63 | 4 | -2 | 1 | 0 |
2 | 0 | 1 | -5 | 62 | 8 | -3 | 1 | 0 |
3 | 0 | 2 | -8 | 60 | 13 | -4 | 1 | 0 |
4 | 0 | 3 | -10 | 58 | 17 | -5 | 1 | 0 |
5 | 0 | 3 | -11 | 52 | 26 | -8 | 2 | 0 |
6 | 0 | 2 | -9 | 47 | 31 | -10 | 3 | 0 |
7 | 0 | 3 | -11 | 45 | 34 | -10 | 3 | 0 |
8 | 0 | 3 | -11 | 40 | 40 | -11 | 3 | 0 |
9 | 0 | 3 | -10 | 34 | 45 | -11 | 3 | 0 |
10 | 0 | 3 | -10 | 31 | 47 | -9 | 2 | 0 |
11 | 0 | 2 | -8 | 26 | 52 | -11 | 3 | 0 |
12 | 0 | 1 | -5 | 17 | 58 | -10 | 3 | 0 |
13 | 0 | 1 | -4 | 13 | 60 | -8 | 2 | 0 |
14 | 0 | 1 | -3 | 8 | 62 | -5 | 1 | 0 |
15 | 0 | 1 | -2 | 4 | 63 | -3 | 1 | 0 |
Fractional sample position p | interpolation filter coefficients | |||||||
fL[ p ][ 0 ] | fL[ p ][ 1 ] | fL[ p ][ 2 ] | fL[ p ][ 3 ] | fL[ p ][ 4 ] | fL[ p ][ 5 ] | fL[ p ][ 6 ] | fL[ p ][ 7 ] | |
1 | 0 | 1 | -3 | 63 | 4 | -2 | 1 | 0 |
2 | -1 | 2 | -5 | 62 | 8 | -3 | 1 | 0 |
3 | -1 | 3 | -8 | 60 | 13 | -4 | 1 | 0 |
4 | -1 | 4 | -10 | 58 | 17 | -5 | 1 | 0 |
5 | -1 | 4 | -11 | 52 | 26 | -8 | 3 | -1 |
6 | -1 | 3 | -9 | 47 | 31 | -10 | 4 | -1 |
7 | -1 | 4 | -11 | 45 | 34 | -10 | 4 | -1 |
8 (hpelIfIdx = = 0) | -1 | 4 | -11 | 40 | 40 | -11 | 4 | -1 |
8 (hpelIfIdx = = 1) | 0 | 3 | 9 | 20 | 20 | 9 | 3 | 0 |
9 | -1 | 4 | -10 | 34 | 45 | -11 | 4 | -1 |
10 | -1 | 4 | -10 | 31 | 47 | -9 | 3 | -1 |
11 | -1 | 3 | -8 | 26 | 52 | -11 | 4 | -1 |
12 | 0 | 1 | -5 | 17 | 58 | -10 | 4 | -1 |
13 | 0 | 1 | -4 | 13 | 60 | -8 | 3 | -1 |
14 | 0 | 1 | -3 | 8 | 62 | -5 | 2 | -1 |
15 | 0 | 1 | -2 | 4 | 63 | -3 | 1 | 0 |
상기 제1 및 제2 보간 필터 세트는, 소수 화소 위치(fractional sample position) 별 보간 필터를 정의한다. 이때, 소수 화소 위치는, 1/16 화소의 해상도 또는 정밀도를 기반으로 한다.
현재 블록의 움직임 벡터에 의해, 보간 대상인 소수 화소 위치가 특정될 수 있다. 여기서, 움직임 벡터는 전술한 라운딩 과정을 통해 복원된 것일 수 있다. 다만, 표 4와 같이, 제2 보간 필터 세트는, 1/2 화소의 해상도에 대해서 2개의 보간 필터를 정의할 수 있다. 상기 특정된 보간 대상인 소수 화소 위치가 8인 경우, 변수 hpelIfIdx에 따라, 2개의 보간 필터 중 어느 하나가 선택될 수 있다. 변수 hpelIfIdx는 전술한 쉬프트값에 기초하여 유도될 수 있다. 예를 들어, 쉬프트값이 3인 경우(즉, 움직임 벡터의 해상도가 1/2 화소로 결정된 경우), 변수 hpelIfIdx는 1로 유도되고, 그렇지 않은 경우, 변수 hpelIfIdx는 0으로 유도될 수 있다.
도 10을 참조하면, 참조 정수 화소의 위치를 결정할 수 있다(S1010).
참조 정수 화소는, 현재 블록의 참조 픽쳐에 속할 수 있다. 참조 픽쳐는, 현재 블록과 다른 시간대의 픽쳐이거나, 현재 블록이 속한 현재 픽쳐일 수 있다.
참조 정수 화소의 위치는 (xInti, yInti)이며, xInti와 yInti는 다음 수학식 9와 같이 결정될 수 있다.
[수학식 9]
xInti = ( xIntL + i -3 ), i=0..7
yInti = ( yIntL + i -3 ), i=0..7
수학식 9에서, (xIntL, yIntL)는, 보간 대상인 소수 화소(이하, 보간 대상 화소라 함)의 위치를 특정하기 위한 기준 정수 화소의 위치를 나타낼 수 있다.
상기 참조 정수 화소의 위치는, 서브 픽쳐가 부호화/복호화 과정에서, 하나의 픽쳐로 고려되는지 여부에 따라 결정될 수 있다. 이를 위해, 서브 픽쳐가 하나의 픽쳐로 고려되는지 여부를 나타내는 플래그가 이용될 수 있다. 상기 플래그가 제1 값인 경우, 서브 픽쳐가 하나의 픽쳐로 고려되고, 그렇지 않은 경우, 서브 픽쳐가 하나의 픽쳐로 고려되지 않을 수 있다. 상기 플래그는 하나의 픽쳐를 구성하는 서브 픽쳐 각각에 대해서 시그날링될 수 있다.
예를 들어, 상기 플래그가 제1 값인 경우, 수학식 9에서 산출된 xInti 중 현재 서브 픽쳐의 좌측 경계를 벗어나는 xInti는 서브 픽쳐의 좌측 경계의 x-좌표로 대체되고, 현재 서브 픽쳐의 우측 경계를 벗어나는 xInti는 서브 픽쳐의 우측 경계의 x-좌표로 대체될 수 있다. 또한, 수학식 9에서 산출된 yInti 중 현재 서브 픽쳐의 상측 경계를 벗어나는 yInti는 서브 픽쳐의 상측 경계의 y-좌표로 대체되고, 현재 서브 픽쳐의 하측 경계를 벗어나는 yInti는 서브 픽쳐의 하측 경계의 y-좌표로 대체될 수 있다.
하나의 픽쳐는 하나 또는 그 이상의 서브 픽쳐로 분할될 수 있다. 서브 픽쳐는 하나 또는 그 이상의 슬라이스로 구성되거나, 하나 또는 그 이상의 타일로 구성될 수 있다. 하나의 슬라이스가 복수의 서브 픽쳐에 걸쳐있지 않도록 제한될 수 있다. 또는, 하나의 타일이 복수의 서브 픽쳐에 걸쳐있지 않도록 제한될 수 있다.
서브 픽쳐로의 분할을 위해, 하나의 픽쳐는 k-grid 간격으로, 수직 및 수평 방향으로 분할될 수 있다. 각 grid마다 인덱스가 할당될 수 있다. 동일한 인덱스를 가진 grid 별로 그룹핑을 수행할 수 있다. 동일한 인덱스를 가진 grid의 그룹을 서브 픽쳐로 정의할 수 있다.
도 10을 참조하면, 상기 결정된 참조 정수 화소에 보간 필터를 적용하여 현재 블록의 예측 화소를 유도할 수 있다(S1020).
구체적으로, 보간 대상 화소의 위치가 상기 기준 정수 화소에서 x축 방향으로만 쉬프트된 위치인 경우, 보간 대상 화소와 동일한 수평 라인에 위치한 8개의 참조 정수 화소에 보간 필터를 적용하여 예측 화소를 유도할 수 있다.
또는, 보간 대상 화소의 위치가 상기 기준 정수 화소에서 y축 방향으로만 쉬프트된 위치인 경우, 보간 대상 화소와 동일한 수직 라인에 위치한 8개의 참조 정수 화소에 보간 필터를 적용하여 예측 화소를 유도할 수 있다.
한편, 보간 대상 화소의 위치가 상기 기준 정수 화소에서 x축 및 y축 방향으로 쉬프트된 위치인 경우, 수평 라인에 위치한 8개의 참조 정수 화소에 보간 필터를 적용하여, 참조 소수 화소를 산출할 수 있다. 상기 참조 소수 화소는, 연속적인 8개의 수평 화소 라인 별로 각각 산출될 수 있다. 수직 라인에 위치한 8개의 참조 소수 화소에 보간 필터를 적용하여 예측 화소를 유도할 수 있다.
또는, 보간 대상 화소의 위치가 상기 기준 정수 화소에서 x축 및 y축 방향으로 쉬프트된 위치인 경우, 수직 라인에 위치한 8개의 참조 정수 화소에 보간 필터를 적용하여, 참조 소수 화소를 산출할 수 있다. 상기 참조 소수 화소는, 연속적인 8개의 수직 화소 라인 별로 각각 산출될 수 있다. 수평 라인에 위치한 8개의 참조 소수 화소에 보간 필터를 적용하여 예측 화소를 유도할 수도 있다.
다만, 전술한 8 탭의 보간 필터는 일예에 불과하며, k 탭 보간 필터가 이용될 수 있으며, k는 2, 3, 4, 5, 6, 7 또는 그 이상의 자연수일 수 있다. 이 경우, 전술한 보간 방법이 동일/유사하게 적용될 수 있다. 또한, 상기 예는 특정 화소(1/2 화소)의 해상도에 대한 복수의 보간 필터가 정의된 경우를 설명하지만, 소정의 해상도 또는 정밀도에 기반하여 획득되는 소수 화소의 해상도 중 적어도 하나 이상에 복수의 보간 필터가 적용되는 경우 또한 가능할 수 있다.
본 개시의 예시적인 방법들은 설명의 명확성을 위해서 동작의 시리즈로 표현되어 있지만, 이는 단계가 수행되는 순서를 제한하기 위한 것은 아니며, 필요한 경우에는 각각의 단계가 동시에 또는 상이한 순서로 수행될 수도 있다. 본 개시에 따른 방법을 구현하기 위해서, 예시하는 단계에 추가적으로 다른 단계를 포함하거나, 일부의 단계를 제외하고 나머지 단계를 포함하거나, 또는 일부의 단계를 제외하고 추가적인 다른 단계를 포함할 수도 있다.
본 개시의 다양한 실시예는 모든 가능한 조합을 나열한 것이 아니고 본 개시의 대표적인 양상을 설명하기 위한 것이며, 다양한 실시예에서 설명하는 사항들은 독립적으로 적용되거나 또는 둘 이상의 조합으로 적용될 수도 있다.
또한, 본 개시의 다양한 실시 예는 하드웨어, 펌웨어(firmware), 소프트웨어, 또는 그들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 범용 프로세서(general processor), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.
본 개시의 범위는 다양한 실시예의 방법에 따른 동작이 장치 또는 컴퓨터 상에서 실행되도록 하는 소프트웨어 또는 머신-실행가능한 명령들(예를 들어, 운영체제, 애플리케이션, 펌웨어(firmware), 프로그램 등), 및 이러한 소프트웨어 또는 명령 등이 저장되어 장치 또는 컴퓨터 상에서 실행 가능한 비-일시적 컴퓨터-판독가능 매체(non-transitory computer-readable medium)를 포함한다.
본 발명은 비디오 신호를 부호화/복호화하기 위해 이용될 수 있다.
Claims (10)
- 현재 블록의 움직임 정보를 유도하는 단계; 및상기 움직임 정보를 기반으로, 상기 현재 블록에 대해 움직임 보상을 수행하는 단계를 포함하되,상기 현재 블록의 움직임 정보는, 복호화 장치에 기-정의된 인터 모드에 기반하여 유도되고,상기 기-정의된 인터 모드는, 머지 모드, AMVP 모드, 어파인 모드 또는 IBC 모드(intra block copy mode) 중 적어도 하나를 포함하는, 영상 복호화 방법.
- 제1항에 있어서, 상기 움직임 정보를 유도하는 단계는,상기 현재 블록의 움직임 벡터의 해상도(resolution)를 결정하는 단계;상기 해상도에 대응되는 움직임 벡터 예측값을 유도하는 단계;상기 해상도에 기반하여, 상기 현재 블록의 움직임 벡터 차분값을 라운딩하는 단계; 및상기 유도된 움직임 벡터 예측값과 상기 라운딩된 움직임 벡터 차분값을 기반으로, 상기 현재 블록의 움직임 벡터를 유도하는 단계를 포함하는, 영상 복호화 방법.
- 제2항에 있어서,상기 해상도는, 복호화 장치에 기-정의된 복수의 해상도 후보 중에서, 소정의 인덱스에 의해 특정된 해상도 후보로 결정되고,상기 기-정의된 복수의 해상도 후보는, 1/16 화소, 1/8 화소, 1/4 화소, 1/2 화소, 1 화소, 2 화소 또는 4 화소 중 적어도 하나 이상을 포함하는, 영상 복호화 방법.
- 제3항에 있어서,상기 복수의 해상도 후보는, 상기 기-정의된 인터 모드 별로 상이하게 정의되는, 영상 복호화 방법.
- 제1항에 있어서,상기 움직임 정보는, 상기 현재 블록의 머지 후보 리스트로부터 유도되고,상기 머지 후보 리스트는, 공간적 머지 후보, 시간적 머지 후보 또는 조합 머지 후보 중 적어도 하나를 포함하며,상기 조합 머지 후보는, 상기 머지 후보 리스트에 기-추가된 복수의 머지 후보의 움직임 정보를 가중 평균하여 유도되는, 영상 복호화 방법.
- 제5항에 있어서,상기 조합 머지 후보는, 상기 복수의 머지 후보의 예측 방향을 고려하여 유도되는, 영상 복호화 방법.
- 제2항에 있어서, 움직임 보상을 수행하는 단계는,상기 현재 블록의 보간 필터를 결정하는 단계;참조 정수 화소의 위치를 결정하는 단계; 및상기 참조 정수 화소에 상기 보간 필터를 적용하여, 상기 현재 블록의 예측 화소를 유도하는 단계를 포함하는, 영상 복호화 방법.
- 제7항에 있어서,보간 대상인 소수 화소가 1/2 화소에 대응되는 경우, 복호화 장치에 기-정의된 복수의 보간 필터 중 어느 하나가 선택적으로 이용되는, 영상 복호화 방법.
- 제8항에 있어서,상기 현재 블록의 보간 필터는, 상기 결정된 해상도를 고려하여, 상기 복수의 보간 필터 중 어느 하나로 결정되는, 영상 복호화 방법.
- 제7항에 있어서,상기 참조 정수 화소의 위치는, 서브 픽쳐의 위치를 고려하여 결정되는, 영상 복호화 방법.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/273,867 US11849132B2 (en) | 2018-09-11 | 2019-09-11 | Image encoding/decoding method and apparatus using inter prediction |
CN201980058797.1A CN112771872B (zh) | 2018-09-11 | 2019-09-11 | 使用帧间预测的图像编码/解码方法和装置 |
US18/499,829 US20240064321A1 (en) | 2018-09-11 | 2023-11-01 | Image encoding/decoding method and apparatus using inter prediction |
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20180108607 | 2018-09-11 | ||
KR10-2018-0108607 | 2018-09-11 | ||
KR20180110173 | 2018-09-14 | ||
KR10-2018-0110173 | 2018-09-14 | ||
KR10-2018-0114538 | 2018-09-24 | ||
KR20180114538 | 2018-09-24 |
Related Child Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US17/273,867 A-371-Of-International US11849132B2 (en) | 2018-09-11 | 2019-09-11 | Image encoding/decoding method and apparatus using inter prediction |
US18/499,829 Continuation US20240064321A1 (en) | 2018-09-11 | 2023-11-01 | Image encoding/decoding method and apparatus using inter prediction |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020055169A1 true WO2020055169A1 (ko) | 2020-03-19 |
Family
ID=69778042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2019/011837 WO2020055169A1 (ko) | 2018-09-11 | 2019-09-11 | 인터 예측을 이용한 영상 부호화/복호화 방법 및 장치 |
Country Status (4)
Country | Link |
---|---|
US (2) | US11849132B2 (ko) |
KR (1) | KR20200030018A (ko) |
CN (1) | CN112771872B (ko) |
WO (1) | WO2020055169A1 (ko) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3861723A4 (en) * | 2018-11-10 | 2022-04-20 | Beijing Bytedance Network Technology Co., Ltd. | ROUNDS IN PAIRS OF MEDIUM CANDIDATE BILLS |
CN111355961B (zh) * | 2018-12-24 | 2023-11-03 | 华为技术有限公司 | 一种帧间预测的方法和装置 |
US11212530B2 (en) * | 2019-06-24 | 2021-12-28 | Tencent America LLC | Method for slice, tile and brick signaling |
CN118355659A (zh) * | 2021-09-25 | 2024-07-16 | 抖音视界有限公司 | 用于视频处理的方法、装置和介质 |
WO2023132514A1 (ko) * | 2022-01-05 | 2023-07-13 | 현대자동차주식회사 | 개선된 amvp-merge 모드를 이용하는 비디오 코딩을 위한 방법 및 장치 |
CN118648288A (zh) * | 2022-01-06 | 2024-09-13 | Lg电子株式会社 | 使用辅列表的帧间预测方法和装置 |
CN118525508A (zh) * | 2022-01-09 | 2024-08-20 | Lg电子株式会社 | 图像编码/解码方法和装置及存储比特流的记录介质 |
WO2023198131A1 (en) * | 2022-04-12 | 2023-10-19 | Beijing Bytedance Network Technology Co., Ltd. | Method, apparatus, and medium for video processing |
WO2024117693A1 (ko) * | 2022-11-29 | 2024-06-06 | 현대자동차주식회사 | 아핀 모델 기반의 예측에서 움직임 보상 필터를 적응적으로 이용하는 비디오 코딩을 위한 방법 및 장치 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140136428A (ko) * | 2012-02-29 | 2014-11-28 | 엘지전자 주식회사 | 인터 레이어 예측 방법 및 이를 이용하는 장치 |
US20160337649A1 (en) * | 2014-01-29 | 2016-11-17 | Mediatek Inc. | Method and Apparatus for Adaptive Motion Vector Precision |
KR101678968B1 (ko) * | 2009-08-21 | 2016-11-25 | 에스케이텔레콤 주식회사 | 참조 픽처 보간 방법 및 장치와 그를 이용한 영상 부호화/복호화 방법 및 장치 |
US20170180738A1 (en) * | 2015-12-17 | 2017-06-22 | Electronics And Telecommunications Research Institute | Video encoding/decoding method and apparatus |
KR20180058233A (ko) * | 2010-09-02 | 2018-05-31 | 엘지전자 주식회사 | 영상 부호화 및 복호화 방법과 이를 이용한 장치 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7558320B2 (en) * | 2003-06-13 | 2009-07-07 | Microsoft Corporation | Quality control in frame interpolation with motion analysis |
US8208550B2 (en) * | 2007-07-31 | 2012-06-26 | Hewlett-Packard Development Company, L.P. | Adapting an encoded video signal to encoding complexity |
WO2011021915A2 (ko) * | 2009-08-21 | 2011-02-24 | 에스케이텔레콤 주식회사 | 적응적 움직임 벡터 해상도를 이용한 영상 부호화/복호화 방법 및 장치 |
HRP20221363T1 (hr) * | 2011-01-07 | 2023-01-06 | Lg Electronics Inc. | Postupak kodiranja video informacija, postupak dekodiranja video informacija i uređaj za dekodiranje za dekodiranje video informacija |
US9319716B2 (en) * | 2011-01-27 | 2016-04-19 | Qualcomm Incorporated | Performing motion vector prediction for video coding |
US9762904B2 (en) * | 2011-12-22 | 2017-09-12 | Qualcomm Incorporated | Performing motion vector prediction for video coding |
US9325991B2 (en) * | 2012-04-11 | 2016-04-26 | Qualcomm Incorporated | Motion vector rounding |
CN109792516B (zh) * | 2016-10-04 | 2021-05-25 | 联发科技股份有限公司 | 图像和视频编解码中用于帧内色度编解码的方法及装置 |
US11606575B2 (en) * | 2018-07-10 | 2023-03-14 | Qualcomm Incorporated | Multiple history based non-adjacent MVPs for wavefront processing of video coding |
-
2019
- 2019-09-11 CN CN201980058797.1A patent/CN112771872B/zh active Active
- 2019-09-11 WO PCT/KR2019/011837 patent/WO2020055169A1/ko active Application Filing
- 2019-09-11 US US17/273,867 patent/US11849132B2/en active Active
- 2019-09-11 KR KR1020190112807A patent/KR20200030018A/ko active Search and Examination
-
2023
- 2023-11-01 US US18/499,829 patent/US20240064321A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101678968B1 (ko) * | 2009-08-21 | 2016-11-25 | 에스케이텔레콤 주식회사 | 참조 픽처 보간 방법 및 장치와 그를 이용한 영상 부호화/복호화 방법 및 장치 |
KR20180058233A (ko) * | 2010-09-02 | 2018-05-31 | 엘지전자 주식회사 | 영상 부호화 및 복호화 방법과 이를 이용한 장치 |
KR20140136428A (ko) * | 2012-02-29 | 2014-11-28 | 엘지전자 주식회사 | 인터 레이어 예측 방법 및 이를 이용하는 장치 |
US20160337649A1 (en) * | 2014-01-29 | 2016-11-17 | Mediatek Inc. | Method and Apparatus for Adaptive Motion Vector Precision |
US20170180738A1 (en) * | 2015-12-17 | 2017-06-22 | Electronics And Telecommunications Research Institute | Video encoding/decoding method and apparatus |
Also Published As
Publication number | Publication date |
---|---|
KR20200030018A (ko) | 2020-03-19 |
US11849132B2 (en) | 2023-12-19 |
CN112771872B (zh) | 2024-08-23 |
US20240064321A1 (en) | 2024-02-22 |
US20210321125A1 (en) | 2021-10-14 |
CN112771872A (zh) | 2021-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020055169A1 (ko) | 인터 예측을 이용한 영상 부호화/복호화 방법 및 장치 | |
WO2017171370A1 (ko) | 비디오 신호 처리 방법 및 장치 | |
WO2017176030A1 (ko) | 비디오 신호 처리 방법 및 장치 | |
WO2017222326A1 (ko) | 비디오 신호 처리 방법 및 장치 | |
WO2018026219A1 (ko) | 비디오 신호 처리 방법 및 장치 | |
WO2020050685A1 (ko) | 인트라 예측을 이용한 영상 부호화/복호화 방법 및 장치 | |
WO2019225993A1 (ko) | 비디오 신호 처리 방법 및 장치 | |
WO2020111785A1 (ko) | 영상 신호 부호화/복호화 방법 및 이를 위한 장치 | |
WO2020076116A1 (ko) | 영상 부호화/복호화 방법 및 장치 | |
WO2018097626A1 (ko) | 비디오 신호 처리 방법 및 장치 | |
WO2020096428A1 (ko) | 영상 신호 부호화/복호화 방법 및 이를 위한 장치 | |
WO2020096427A1 (ko) | 영상 신호 부호화/복호화 방법 및 이를 위한 장치 | |
WO2019050292A1 (ko) | 비디오 신호 처리 방법 및 장치 | |
WO2018212579A1 (ko) | 비디오 신호 처리 방법 및 장치 | |
WO2020139060A1 (ko) | 인트라 예측 기반의 영상 부호화/복호화 방법 및 장치 | |
WO2019190201A1 (ko) | 비디오 신호 처리 방법 및 장치 | |
WO2019182295A1 (ko) | 비디오 신호 처리 방법 및 장치 | |
WO2020096425A1 (ko) | 영상 신호 부호화/복호화 방법 및 이를 위한 장치 | |
WO2019190199A1 (ko) | 비디오 신호 처리 방법 및 장치 | |
WO2018066958A1 (ko) | 비디오 신호 처리 방법 및 장치 | |
WO2020096426A1 (ko) | 영상 신호 부호화/복호화 방법 및 이를 위한 장치 | |
WO2019050291A1 (ko) | 비디오 신호 처리 방법 및 장치 | |
WO2018056701A1 (ko) | 비디오 신호 처리 방법 및 장치 | |
WO2020067709A1 (ko) | 인터 모드 기반의 영상 부호화/복호화 방법 및 장치 | |
WO2020180166A1 (ko) | 영상 부호화/복호화 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19859469 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19859469 Country of ref document: EP Kind code of ref document: A1 |