WO2016153251A1 - 비디오 신호의 처리 방법 및 이를 위한 장치 - Google Patents

비디오 신호의 처리 방법 및 이를 위한 장치 Download PDF

Info

Publication number
WO2016153251A1
WO2016153251A1 PCT/KR2016/002852 KR2016002852W WO2016153251A1 WO 2016153251 A1 WO2016153251 A1 WO 2016153251A1 KR 2016002852 W KR2016002852 W KR 2016002852W WO 2016153251 A1 WO2016153251 A1 WO 2016153251A1
Authority
WO
WIPO (PCT)
Prior art keywords
ctb
information
type
coding block
current
Prior art date
Application number
PCT/KR2016/002852
Other languages
English (en)
French (fr)
Inventor
손은용
박승욱
전용준
구문모
허진
유선미
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to US15/560,101 priority Critical patent/US20180091810A1/en
Publication of WO2016153251A1 publication Critical patent/WO2016153251A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/109Selection of coding mode or of prediction mode among a plurality of temporal predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/11Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/115Selection of the code volume for a coding unit prior to coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding

Definitions

  • the present invention relates to a video processing method, and more particularly, to a method and apparatus for processing a video signal using a variable / adaptive coding tree block.
  • An object of the present invention is to provide a method capable of efficiently processing a video signal and an apparatus therefor.
  • Another object of the present invention is to reduce the number of bits required for transmitting side information and improve coding efficiency by using a variable / adaptive coding tree block.
  • Another object of the present invention is to provide an efficient signaling method for additional information for applying a variable / adaptive coding tree block and an apparatus therefor.
  • Another object of the present invention is to reduce the number of bits required for transmitting side information and improve coding efficiency when using a very large fixed sized coding tree block.
  • a method for decoding a bitstream for at least one picture in a decoding apparatus comprising at least one slice, wherein the slice comprises a plurality of coding tree blocks (CTBs).
  • the method may further include obtaining type number information and type information for the plurality of CTBs from the bitstream, wherein the type number information indicates the number of CTB types allowed for the plurality of CTBs, The information indicates an allowed CTB type for the plurality of CTBs; Obtaining type indication information for a current CTB among the plurality of CTBs from the bitstream, wherein the type indication information indicates one CTB type among the allowable CTB types; Determining a size of the current CTB and a minimum size of a coding block within the current CTB based on a CTB type indicated by the type indication information; Determining at least one coding block within the current CTB based on the determined size of the current CTB and the minimum size of the coding block; Obtaining prediction mode
  • a decoding apparatus configured to decode a bitstream for at least one picture, the picture comprising at least one slice, the slice comprising a plurality of coding tree blocks (CTBs).
  • the decoding device comprises a memory; And a processor operatively connected to the memory, wherein the processor obtains type number information and type information for the plurality of CTBs from the bitstream, and the type number information is provided to the plurality of CTBs.
  • the type information indicates the allowed CTB types for the plurality of CTBs; Obtaining type indication information for a current CTB among the plurality of CTBs from the bitstream, wherein the type indication information indicates one CTB type among the allowed CTB types; Determine a size of the current CTB and a minimum size of a coding block within the current CTB based on a CTB type indicated by the type indication information; Determine at least one coding block within the current CTB based on the determined size of the current CTB and the minimum size of the coding block; Obtaining prediction mode information from a bitstream for each of the at least one coding block, wherein the prediction mode information indicates whether the corresponding coding block is coded using intra prediction or inter prediction; And reconstructing the current coding block based on prediction mode information on the current coding block among the at least one coding block.
  • determining the size of the current CTB comprises configuring a CTB type candidate list for the current CTB based on the type number information and the type information, and wherein the type indication information is included in the CTB type candidate list. And applying the indicating CTB type to the current CTB.
  • the current CTB type candidate list may be configured such that a CTB type of a neighboring CTB adjacent to the current CTB is assigned to a low index.
  • the neighboring CTB includes a left neighboring CTB and an upper neighboring CTB adjacent to the current CTB
  • the current CTB type candidate list includes a CTB of the left neighboring CTB corresponding to index 0 and a CTB of the upper neighboring CTB.
  • the type may be configured to correspond to index 1.
  • the neighbor CTB includes a left neighbor CTB adjacent to the current CTB and an upper neighbor CTB
  • the CTB type candidate list includes a CTB type of the upper neighbor CTB corresponding to index 0 and a CTB type of the left neighbor CTB. It may be configured to correspond to index 1.
  • acquiring type number information and type information for the plurality of CTBs from the bitstream includes obtaining a plurality of type information from the bitstream a number of times indicated by the type number information. If the number information indicates a number greater than 2, the remaining CTB types except for the CTB type of the left neighboring CTB and the CTB type of the upper neighboring CTB among the plurality of CTB types indicated by the plurality of type information correspond from index 2.
  • the CTB type candidate list may be configured to be.
  • the remaining CTB type may be allocated starting from index 2 of the CTB type candidate list according to the order in which type information corresponding to the remaining CTB type is obtained from the bitstream.
  • acquiring type number information and type information for the current CTB from the bitstream includes acquiring a plurality of type information from the bitstream a number of times indicated by the type number information.
  • the candidate list may be allocated from a low index in the order of obtaining the plurality of type information from the bitstream.
  • the type information includes information on the minimum size of the coding block and information on the maximum size of the coding block,
  • the minimum size of the coding block in the current CTB is obtained by left shifting 1 by the value of the information about the minimum size of the coding block plus a specific offset, and the size of the current CTB is determined by the maximum size of the coding block. It can be obtained by left shifting 1 by a value obtained by adding a specific offset to the value of the information about.
  • the type information includes information on the minimum size of the coding block and information on the difference between the minimum and maximum size of the coding block
  • the minimum size of the coding block within the current CTB is the minimum of the coding block
  • the size of the current CTB is obtained by left shifting 1 by a value obtained by adding a specific offset to a value of information about a size
  • the size of the current CTB is obtained by adding a specific offset to a value of information about a minimum size of the coding block and the minimum of the coding block. It can be obtained by left shifting 1 by a value obtained by adding the value of information on the difference between the magnitude and the maximum magnitude.
  • determining the at least one coding block comprises: obtaining split indication information for the current CTB from the bitstream, wherein the split indication information indicates that the current CTB is to be split; Dividing into four lower blocks having a half horizontal size and a half vertical size of the current CTB, and obtaining the split indication information when the size of the lower block is larger than the minimum size of the coding block. Partitioning into the four lower blocks may include recursively performing each of the four lower blocks.
  • type number information and type information for the plurality of CTBs may be obtained through a sequence parameter set (SPS), a picture parameter set (PPS), or a slice segment header (SSH).
  • SPS sequence parameter set
  • PPS picture parameter set
  • SSH slice segment header
  • the plurality of CTBs may have a variable size, and each CTB may correspond to a square block.
  • the allowed CTB type for the plurality of CTBs includes at least one of 256 ⁇ 256 blocks, 128 ⁇ 128 blocks, 64 ⁇ 64 blocks, 32 ⁇ 32 blocks, 16 ⁇ 16 blocks, or 8 ⁇ 8 blocks. can do.
  • reconstructing the current coding block derives an intra prediction mode for the current coding block. Determining at least one transform block from the current coding block, obtaining a prediction value by applying the intra prediction mode to the transform block, and reconstructing the transform block based on the prediction value. Can be.
  • reconstructing the current coding block may include: partitioning mode information for the current coding block; Obtaining from a bitstream, determining at least one prediction block from the current coding block based on the partitioning mode information, deriving inter prediction parameter information for the prediction block, based on the inter prediction parameter information Obtaining a prediction value for the prediction block, and restoring the prediction block based on the prediction value.
  • a video signal can be processed efficiently.
  • variable / adaptive coding tree block by using a variable / adaptive coding tree block, it is possible to reduce the number of bits required for transmitting side information and to improve coding efficiency.
  • the side information can be signaled efficiently in order to apply the variable / adaptive coding tree block.
  • the present invention when a coding tree block having a very large fixed size is used, the number of bits required for transmitting side information may be reduced and coding efficiency may be improved.
  • FIG. 3 illustrates a flowchart of a method of splitting a coding tree block (CTB).
  • CTB coding tree block
  • FIG. 4 illustrates an example of splitting a CTB in a quad tree manner.
  • 5 illustrates syntax information and operation for a coding block.
  • FIG. 6 illustrates syntax information and operation for a transform tree.
  • FIG. 7 illustrates an example of dividing one picture into coding units according to a texture characteristic.
  • FIG. 8 illustrates a CTB according to the existing method and a CTB according to the present invention.
  • FIG 9 illustrates a CTB scan sequence in accordance with the present invention.
  • FIG. 10 illustrates a flowchart of a method according to the invention.
  • FIG. 11 illustrates a CTB and coding block according to the present invention.
  • FIG. 12 illustrates a block diagram of an image processing apparatus to which the present invention may be applied.
  • a video signal refers to an image signal or a sequence of pictures that can be perceived by the eye, but in this specification, a video signal is a bit corresponding to a sequence or bit sequence of bits representing a coded picture.
  • a picture may refer to an arrangement of samples, and may be referred to as a frame, an image, or the like. More specifically, a picture may refer to a two-dimensional array or two-dimensional sample array of samples.
  • a sample may refer to a minimum unit constituting a picture, and may be referred to as a pixel, a picture element, a pel, or the like.
  • the sample may include a luminance (luma) component and / or a chrominance, chroma, color difference component.
  • coding may be used to refer to encoding, or may collectively refer to encoding / decoding.
  • the picture may include at least one slice, and the slice may include at least one block.
  • a slice may be configured to include an integer number of blocks for the purpose of parallel processing or the like, for example, for resynchronization of decoding when the bitstream is corrupted due to data loss or the like, and each slice may be coded independently of each other.
  • a block can include at least one sample and can refer to an arrangement of samples. The block may have a size smaller than or equal to the picture.
  • a block may be referred to as a unit.
  • a picture that is currently coded may be referred to as a current picture, and a block that is currently coded may be referred to as a current block.
  • CB coding tree block
  • CTU coding tree unit
  • HEVC High Efficiency Video Coding
  • a block unit such as a coding block (CB) (or a coding unit (CU)), a prediction block (PB) (or a prediction unit (PU)), a transform block (TB) (or a transform unit (TU)), or the like may exist.
  • CB coding block
  • PB prediction block
  • TB transform block
  • TU transform unit
  • the coding tree block refers to the most basic unit constituting the picture, and may be divided into quad-tree shaped coding blocks to increase coding efficiency according to the texture of the picture.
  • the coding block may refer to a basic unit that performs coding, and intra coding or inter coding may be performed on a coding block basis.
  • Intra coding may refer to performing coding using intra prediction
  • intra prediction may refer to performing prediction using samples included in the same picture or slice.
  • Inter coding may refer to performing coding using inter prediction, and inter prediction may refer to performing prediction using samples included in a picture different from the current picture.
  • a block coded using intra coding or a block coded in an intra prediction mode may be referred to as an intra block, and a block coded using inter coding or a block coded in an inter prediction mode may be referred to as an inter block.
  • a coding mode using intra prediction may be referred to as an intra mode, and a coding mode using inter prediction may be referred to as an inter mode.
  • the prediction block may refer to a basic unit for performing prediction.
  • the same prediction may be applied to one prediction block.
  • the same motion vector may be applied to one prediction block.
  • the transform block may refer to a basic unit for performing a transform.
  • Transform may refer to the operation of transforming samples of the pixel domain (or spatial domain or time domain) into transform coefficients of the frequency domain (or transform coefficient domain), or vice versa.
  • the operation of transforming the transform coefficients in the frequency domain (or transform coefficient domain) into samples in the pixel domain (or spatial domain or time domain) may be referred to as inverse transform.
  • the transform may include a discrete cosine transform (DCT), a discrete sine transform (DST), a Fourier transform, and the like.
  • a coding tree block CTB may be mixed with a coding tree unit CTU
  • a coding block CB may be mixed with a coding unit CU
  • a prediction block PB is a prediction unit PU.
  • the encoding apparatus 100 receives an original image 102, performs encoding, and then outputs a bitstream 114.
  • the original image 102 may correspond to one picture, it is assumed in this example that the original image 102 is one block constituting the picture.
  • the original image 102 may correspond to a coding block.
  • the encoding apparatus 100 may determine whether to code in the intra mode or the inter mode with respect to the original image 102. When the original image 102 is included in an intra picture or a slice, the original image 102 may be coded only in the intra mode.
  • intra coding and inter coding may be performed on the original image 102, and then, in preparation for a rate-distortion (RD) cost.
  • RD rate-distortion
  • the encoding apparatus 100 may determine an intra prediction mode showing RD optimization using reconstructed samples of the current picture including the original image 102 (104).
  • the intra prediction mode may be determined as one of a direct current (DC) prediction mode, a planar prediction mode, and an angular prediction mode.
  • the DC prediction mode refers to a mode in which prediction is performed using an average value of reference samples among reconstructed samples of the current picture
  • the planar prediction mode refers to a mode in which prediction is performed using bilinear interpolation of reference samples.
  • the angular prediction mode refers to a mode in which prediction is performed using a reference sample located in a specific direction with respect to the original image 102.
  • the encoding apparatus 100 may output a predicted sample or a prediction value (or predictor) 107 using the determined intra prediction mode.
  • the encoding apparatus 100 When inter coding is performed on the original image 102, the encoding apparatus 100 performs motion estimation (ME) using a reconstructed picture included in the (decoded) picture buffer 122.
  • motion information may be obtained.
  • the motion information may include a motion vector, a reference picture index, and the like.
  • the motion vector may refer to a two-dimensional vector that provides an offset from the coordinates of the original image 102 within the current picture to the coordinates in the reference picture.
  • the reference picture index may refer to an index of a list (or reference picture list) of reference pictures used for inter prediction among reconstructed pictures stored in the (decoded) picture buffer 122, and may be referred to as a reference picture list. Points to the reference picture.
  • the encoding apparatus 100 may output the prediction sample or the prediction value 107 using the obtained motion information.
  • the encoding apparatus 100 may generate the residual data 108 from the difference between the original image 102 and the prediction sample 107.
  • the encoding apparatus 100 may perform transformation on the generated residual data 108 (110). For example, a discrete cosine transform (DCT), a discrete sine transform (DST), and / or a wavelet transform may be applied to the transform. More specifically, integer-based DCTs of size 4x4 to 32x32 may be used, and 4x4, 8x8, 16x16, 32x32 transforms may be used.
  • the encoding apparatus 100 may perform transform 110 to obtain transform coefficient information.
  • the encoding apparatus 100 may generate quantized transform coefficient information by quantizing the transform coefficient information (112). Quantization may refer to an operation of scaling a level of transform coefficient information using a quantization parameter (QP). Accordingly, the quantized transform coefficient information may be referred to as scaled transform coefficient information.
  • the quantized transform coefficient information may be output to the bitstream 116 through entropy coding 114.
  • entropy coding 114 may be performed based on fixed length coding (FLC), variable length coding (VLC), arithmetic coding. More specifically, context-based adaptive binary arithmetic coding (CABAC) based on arithmetic coding, Exp-Golomb coding based on variable length coding, and fixed length coding may be applied.
  • FLC fixed length coding
  • VLC variable length coding
  • CABAC context-based adaptive binary arithmetic coding
  • Exp-Golomb coding based on variable length coding
  • fixed length coding may be applied.
  • the encoding apparatus 100 may generate the reconstructed sample 121 by performing inverse quantization 118 and inverse transform 120 on the quantized transform coefficient information.
  • the reconstructed picture may be generated by obtaining the reconstructed sample 121 with respect to one picture, and then in-loop filtering may be performed on the reconstructed picture.
  • in-loop filtering for example, a deblocking filter and a sample adaptive offset filter may be applied.
  • the reconstructed picture 121 may be stored in the picture buffer 122 and used for encoding of the next picture.
  • the decoding apparatus 200 may receive the bitstream 202 and perform entropy decoding 204.
  • Entropy decoding 204 may refer to the reverse operation of entropy coding 114 of FIG. 1.
  • the decoding apparatus 200 may acquire data necessary for decoding and (quantized) transform coefficient information, including prediction mode information, intra prediction mode information, motion information, and the like through the entropy decoding 204.
  • the decoding apparatus 200 may generate residual data 209 by performing inverse quantization 206 and inverse transform 208 on the obtained transform coefficient information.
  • the prediction mode information obtained through entropy decoding 204 may indicate whether the current block is coded in intra mode or inter mode.
  • the decoding apparatus 200 obtains the prediction sample (or prediction value) 213 from reconstructed samples of the current picture based on the intra prediction mode obtained through the entropy decoding 204. It may be 210.
  • the prediction mode information indicates the inter mode, the decoding apparatus 200 may predict the sample (or prediction value) 213 from the reference picture stored in the picture buffer 214 based on the motion information obtained through the entropy decoding 204. It may be obtained (212).
  • the decoding apparatus 200 may acquire the reconstruction sample 216 for the current block by using the residual data 209 and the prediction sample (or prediction value) 213.
  • in-loop filtering may be performed on the reconstructed picture after reconstructing the picture by acquiring a reconstructed sample 216 for one picture.
  • the reconstructed picture 216 can then be stored in a picture buffer for decoding the next picture or output for display.
  • the video encoding / decoding process requires very high complexity in software (SW) / hardware (HW) processing. Therefore, a picture (or image) may be divided and processed into a basic processing unit, which is a minimum processing unit, to perform a high complexity task using limited resources.
  • a basic processing unit which is a minimum processing unit, to perform a high complexity task using limited resources.
  • one slice may include at least one basic processing unit.
  • the basic processing units included in one picture or slice may have the same size.
  • the video signal or bitstream may include a sequence parameter set (SPS), a picture parameter set (PPS), and at least one access unit.
  • the sequence parameter set includes parameter information of the sequence level (of pictures), and the parameter information of the sequence parameter set may be applied to a picture included in the sequence of pictures.
  • the picture parameter set includes parameter information of a picture level, and the information of the picture parameter set may be applied to each slice included in the picture.
  • An access unit refers to a unit corresponding to one picture and may include at least one slice.
  • a slice may contain an integer number of CTUs.
  • the syntax information refers to data included in the bitstream, and the syntax structure refers to the structure of syntax information present in the bitstream in a specific order.
  • the size of the coding tree block may be determined using parameter information of the SPS.
  • the SPS may include first information indicating a minimum size of the coding block and second information indicating a difference between the minimum size and the maximum size of the coding block.
  • the first information may be referred to as log2_min_luma_coding_block_size_minus3
  • the second information may be referred to as log2_diff_max_min_luma_coding_block_size.
  • each piece of information can be represented by a log2 value of the actual value.
  • the log2 value of the minimum size of the coding block can be obtained by adding a specific offset (eg, 3) to the value of the first information, and the log2 value of the size of the coding tree block is the second to the log2 value of the minimum size of the coding block. Can be obtained by adding the value of the information.
  • the size of the coding tree block can be obtained by shifting 1 by a log2 value to the left.
  • the second information indicating the difference between the minimum size and the maximum size may indicate the maximum number of divisions allowed for the coding block in the coding tree block. Alternatively, the second information may indicate the maximum depth of the coding tree in the coding tree block.
  • the maximum allowable number of divisions of the coding block or the maximum depth of the coding tree in the coding tree block may be determined as m.
  • the coding tree block can be split up to three times in a quad tree manner, and the minimum coding block The size of can be 8 ⁇ 8. Therefore, among the SPS parameter information, the first information (eg, log2_min_luma_coding_block_size_minus3) may have a value of 0, and the second information (log2_diff_max_min_luma_coding_block_size) may have a value of 3.
  • the first information eg, log2_min_luma_coding_block_size_minus3
  • the second information log2_diff_max_min_luma_coding_block_size
  • FIG. 3 illustrates a flowchart of a method of splitting a coding tree block (CTB).
  • CTB coding tree block
  • the CTB is divided into at least one coding block (CB) in a quad tree to improve compression efficiency, and then an intra prediction mode or an inter prediction mode may be determined for the coding block. If the CTB is not split, the CTB may correspond to a CB, in which case the CB may have the same size as the CTB, and an intra prediction mode or an inter prediction mode may be determined for the CTB.
  • CB coding block
  • the CTB When the CTB is split in a quad tree manner, it may be split recursively.
  • the CTB may be divided into four blocks, and then each divided block may be further divided into lower blocks in a quad tree manner.
  • Each block that is finally generated by recursively splitting the CTB in a quad tree manner may be a coding block. For example, if the CTB divides the first, second, third, and fourth blocks, then the first block is divided into the fifth, six, seven, and eight blocks, and the second, third, and fourth blocks are not divided. 2, 3, 4, 5, 6, 7, 8 blocks may be determined as coding blocks. In this example, intra prediction mode or inter prediction mode may be determined for each of the second, 3, 4, 5, 6, 7, 8 blocks.
  • Whether the CTB is split into coding blocks may be determined at the encoder in consideration of the rate distortion (RD) efficiency, and information indicating whether to split may be included in the bitstream.
  • information indicating whether a CTB or a coding block is split into coding blocks having half horizontal / vertical size may be referred to as split_cu_flag.
  • split indication information for a coding block information indicating whether a block is split in the CTB may be referred to as split indication information for a coding block.
  • information indicating whether to split each coding block in the coding quad tree may be obtained from the bitstream to determine whether to split the coding block, and the coding block may be recursively divided in a quad tree manner.
  • the tree structure of a coding block formed by recursively dividing a CTB is called a coding tree or a coding quad tree. If each coding block is no longer split in the coding tree, the block may be finally designated as a coding block.
  • the coding block may be divided into at least one prediction block to perform prediction.
  • the coding block may be divided into at least one transform block to perform the transform.
  • coding blocks can be recursively divided into transform blocks in a quad tree fashion.
  • a structure formed by recursively dividing a coding block in a quad tree manner may be referred to as a transform tree or a transform quad tree.
  • information indicating whether each block is split in the transform tree is a bit. May be included in the stream.
  • split_transform_flag information indicating whether each block is split in the transform tree may be referred to as split indication information for the transform block.
  • FIG. 4 illustrates an example of splitting a CTB in a quad tree manner.
  • the CTB includes a first coding block including blocks 1-7, a second coding block including blocks 8-17, a third coding block corresponding to block 18, and a third including block 19-28. It can be divided into four coding blocks.
  • the first coding block may be divided into a coding block corresponding to block 1, a coding block corresponding to block 2, a fifth coding block including block 3-6, and a coding block corresponding to block 7.
  • the second coding block is no longer split within the coding quad tree, but may be split into additional transform blocks for conversion.
  • the fourth coding block may be divided into a sixth coding block including blocks 19-22, a coding block corresponding to block 23, a coding block corresponding to block 24, and a seventh coding block including blocks 25-28.
  • the sixth coding block may be divided into a coding block corresponding to block 19, a coding block corresponding to block 20, a coding block corresponding to block 21, and a coding block corresponding to block 22.
  • the seventh coding block is no longer split in the coding quad tree, but may be split into additional transform blocks for conversion.
  • information indicating whether to split each of the CTB or the coding block may be included in the bitstream.
  • the CTB or each coding block may be split when the information indicating whether to split has a first value (eg, 1), and the CTB or each when the information indicating whether to split has a second value (eg, 0). Coding blocks are not split.
  • the value of the information indicating whether to divide may vary.
  • split indication information (eg, split_cu_flag) for the CTB, the first coding block, the fourth coding block, and the sixth coding block may have a first value (eg, 1), and the decoder may be a bitstream. From the partition indication information about the corresponding unit can be obtained from the corresponding unit can be divided into four sub-units.
  • split indication information eg, split_cu_flag
  • coding block corresponding to 25-28 may have a second value (eg, 0), and the decoder obtains split indication information for the corresponding unit from the bitstream. Will no longer split the unit.
  • each coding block may be divided into at least one transform block in a quad tree manner according to split indication information for the transform block for transform.
  • the transform block may correspond to the coding block.
  • Other coding blocks (coding blocks corresponding to blocks 3-4, 8-17, 25-28) may be further split for transform.
  • split indication information eg split_transform_flag
  • each unit in a transform tree formed from each coding block eg, coding blocks corresponding to blocks 3-4, 8-17, and 25-28
  • the coding block corresponding to block 3-6 may be divided into transform blocks to form a transform tree of depth 1
  • the coding block corresponding to block 8-17 is depth 3
  • the coding block corresponding to blocks 25-28 may be divided into transform blocks to form a transform tree having a depth of 1.
  • FIG. 5 illustrates syntax information and operation for a coding block
  • FIG. 6 illustrates syntax information and operation for a transform tree.
  • information indicating whether a transform tree structure exists for the current coding block may be signaled through the bitstream, and this information may be referred to herein as transform tree coding indication information or rqt_root_cbf. Can be.
  • the decoder may perform the operation illustrated in FIG. 6 when the transform tree coding indication information is obtained from the bitstream and the transform tree coding indication information indicates that a transform tree exists for the corresponding coding block.
  • the transform tree coding indication information indicates that the transform tree does not exist for the corresponding coding block
  • the transform coefficient information for the corresponding coding block does not exist and the coding block is determined using the (intra or inter) prediction value for the corresponding coding block. Can be restored.
  • the coding block is a basic unit for determining whether to be coded in the intra prediction mode or the inter prediction mode. Therefore, prediction mode information may be signaled through the bitstream for each coding block. The prediction mode information may indicate whether the corresponding coding block is coded using the intra prediction mode or the inter prediction mode.
  • the prediction mode information indicates that the corresponding coding block is coded in the intra prediction mode
  • information used to determine the intra prediction mode may be signaled through the bitstream.
  • the information used to determine the intra prediction mode may include intra prediction mode reference information.
  • the intra prediction mode reference information indicates whether the intra prediction mode of the current coding block is derived from a neighboring (prediction) unit, and may be referred to as, for example, prev_intra_luma_pred_flag.
  • the intra prediction mode candidate list is constructed using the intra prediction mode of the neighboring unit, and the intra prediction mode of the current unit among the configured candidate lists.
  • Index information indicating may be signaled through the bitstream.
  • index information indicating a candidate intra prediction mode used as the intra prediction mode of the current unit in the intra prediction mode candidate list may be referred to as mpm_idx.
  • the decoder may obtain the intra prediction mode reference information from the bitstream and obtain the index information from the bitstream based on the obtained intra prediction mode reference information.
  • the decoder may set the intra prediction mode candidate indicated by the obtained index information to the intra prediction mode of the current unit.
  • the intra prediction mode reference information does not indicate that the intra prediction mode of the current coding block is derived to the neighboring unit
  • information indicating the intra prediction mode of the current unit may be signaled through the bitstream.
  • Information signaled through the bitstream may be referred to as rem_intra_luma_pred_mode, for example.
  • the intra prediction mode of the current unit may be obtained by increasing by a specific value (eg, 1).
  • information indicating an intra prediction mode for the chroma coding block may be signaled through the bitstream.
  • the information indicating the chroma intra prediction mode may be referred to as intra_chroma_pred_mode.
  • the chroma intra prediction mode may be obtained based on Table 1 using information indicating the chroma intra prediction mode and the intra prediction mode (or luma intra prediction mode) obtained as described above.
  • IntraPredModeY indicates luma intra prediction mode.
  • the intra prediction mode represents various prediction modes depending on the value. Through the above-described process, the value of the intra prediction mode may correspond to the intra prediction mode as illustrated in Table 2.
  • INTRA_PLANAR represents a planar prediction mode, a reconstructed sample of an upper neighboring block adjacent to the current block, a reconstructed sample of a left neighboring block, and a lower-left ) Shows a mode of obtaining a prediction value of a current block by performing interpolation on a reconstruction sample of a neighboring block and a reconstruction sample of a right-upper neighboring block.
  • INTRA_DC indicates a direct current (DC) prediction mode and indicates a mode of obtaining a prediction value of the current block by using an average of reconstructed samples of the left neighboring block and the reconstructed samples of the upper neighboring block.
  • INTRA_ANGULAR2 to INTRA_ANGULAR34 indicate an angular prediction mode and indicate a mode for obtaining a prediction value of a current sample using reconstructed samples of a neighboring block located in a direction of a specific angle with respect to a current sample in a current block.
  • the prediction value may be obtained by interpolating neighboring reconstructed samples to generate a virtual sample for the corresponding direction.
  • the intra prediction mode may be obtained for each coding block, but the intra prediction may be performed in units of transform blocks. Therefore, the reconstruction sample of the neighboring block described above may refer to the reconstruction sample existing in the neighboring block of the current transform block.
  • the intra prediction mode is used to obtain a prediction value for the current block, and then a difference between the sample value and the prediction value of the current block can be obtained.
  • the difference between the sample value and the prediction value of the current block may be referred to as residual (or residual information or residual data).
  • residual coefficients may be obtained by obtaining transform coefficient information about the current block from the bitstream and then performing inverse quantization and inverse transform on the obtained transform coefficient information.
  • Inverse quantization may refer to scaling a value of transform coefficient information using quantization parameter (QP) information. Since a transform block is a basic unit that performs a transform, transform coefficient information can be signaled through a bitstream in a transform block unit.
  • QP quantization parameter
  • the residual When performing intra prediction, the residual may be zero. For example, if the sample of the current block and the reference sample for intra prediction are the same, the value of the residual may be zero. If the residual values for the current block are all zeros, the values of the transform coefficient information are also 0, and thus it is not necessary to signal the transform coefficient information through the bitstream. Therefore, information indicating whether transform coefficient information for the corresponding block is signaled through the bitstream may be signaled through the bitstream.
  • Information indicating whether the corresponding transform block has non-zero transform coefficient information is referred to as coded block indication information or coded block flag information, and is referred to herein as cbf. Can be.
  • Coding block indication information for the luma component may be referred to as cbf_luma
  • coding block indication information for the chroma component may be referred to as cbf_cr or cbf_cb.
  • the decoder obtains coding block indication information for the corresponding transform block from the bitstream, and if the coding block indication information indicates that the block includes non-zero transform coefficient information, the decoder determines the bitstream of the transform coefficient information for the corresponding transform block. It can be obtained from, and the residual can be obtained through inverse quantization and inverse transformation.
  • the decoder may obtain a prediction value for the current coding block by obtaining a prediction value in units of transform blocks, and / or obtain a residual for the current coding block by obtaining a residual in units of transform blocks. have.
  • the decoder may reconstruct the current coding block using the prediction value and / or the residual for the current coding block.
  • Discrete cosine transform is widely used as a transform / inverse transform technique. Transformation bases for DCT can be approximated in integer form for less memory and faster computation.
  • the transformation bases approximated by integers may be expressed in matrix form, and the transformation bases expressed in matrix form may be referred to as transformation matrices.
  • integer transforms of size 4x4 to 32x32 are used and 4x4 or 32x32 transformation matrices are provided.
  • the 4x4 transform matrix is used for 4x4 transform / inverse transform
  • the 32x32 transform matrix can be used for 8x8, 16x16, 32x32 transform / inverse transform.
  • the prediction mode information for the current coding block indicates that the current coding block is coded using inter prediction
  • information indicating a partitioning mode of the current coding block may be signaled through the bitstream.
  • Information indicating the partitioning mode of the current coding block may be represented, for example, as part_mode.
  • at least one prediction block may be divided into the current coding block according to a partitioning mode of the current coding block.
  • the partitioning mode may include PART_2Nx2N, PART_2NxN, PART_Nx2N, PART_2NxnU, PART_2NxnD, PART_nLx2N, PART_nRx2N, and PART_NxN.
  • PART_2Nx2N represents the same mode as the current coding block and the prediction block.
  • PART_2NxN represents a mode in which the current coding block is divided into two 2N ⁇ N prediction blocks.
  • PART_Nx2N represents a mode in which the current coding block is divided into two N ⁇ 2N prediction blocks.
  • PART_2NxnU represents a mode in which the current coding block is divided into an upper 2N ⁇ n prediction block and a lower 2N ⁇ (N-n) prediction block.
  • PART_2NxnD represents a mode in which the current coding block is divided into an upper 2N ⁇ (N ⁇ n) prediction block and a lower 2N ⁇ n prediction block.
  • PART_nLx2N represents a mode in which a current coding block is divided into an n ⁇ 2N prediction block on the left side and a (N ⁇ n) ⁇ 2N prediction block on the right side.
  • PART_nRx2N represents a mode in which the current coding block is divided into a (N-n) ⁇ 2N prediction block on the left side and an n ⁇ 2N prediction block on the right side.
  • PART_NxN represents a mode in which the current coding block is divided into four N ⁇ N prediction blocks. For example, n is N / 2.
  • part_mode may be signaled through the bitstream. However, if the current coding block is an intra coding mode, part_mode is signaled only when the size of the current coding block is the minimum size of the coding block, and may indicate whether the current coding block is further divided into four blocks according to the value of part_mode. have.
  • the prediction unit is a unit for performing motion estimation and motion compensation. Therefore, inter prediction parameter information may be signaled through the bitstream in units of prediction units.
  • the inter prediction parameter information may include, for example, reference picture information and motion vector information.
  • Inter prediction parameter information may be derived from a neighboring unit or signaled via a bitstream. The case where the inter prediction parameter information is derived from the neighboring unit is called a merge mode. Accordingly, information indicating whether inter prediction parameter information for the current prediction unit is derived from a neighboring unit may be signaled through the bitstream, and the information may be referred to as merge indication information or merge flag information. have.
  • the merge indication information may be represented by merge_flag, for example.
  • the merge candidate list is constructed using the neighboring unit, and a merge candidate for deriving the inter prediction parameter information of the current unit is obtained from the merge candidate list.
  • the indicating information may be signaled through the bitstream, and the corresponding information may be referred to as merge index information.
  • merge index information may be represented as merge_idx.
  • the neighboring block includes a picture including a current block and a spatial neighboring block including a left neighboring block, an upper neighboring block, an upper left neighboring block, a lower left neighboring block, and an upper right neighboring block within a picture including the current block.
  • the decoder constructs a merge candidate list using the neighboring blocks, obtains merge index information from the bitstream, and sets inter prediction parameter information of the neighboring block indicated by merge index information in the merge candidate list as inter prediction parameter information of the current block. Can be.
  • the inter prediction parameter information when the prediction block corresponds to the coding block and inter prediction is performed on the prediction block, when the inter prediction parameter information is the same as a specific neighboring block and both residuals are 0, the inter prediction parameter information and the transform coefficient information are bits. It does not need to be signaled over the stream.
  • the merge mode since the inter prediction parameter information for the coding block may be derived from the neighboring block, the merge mode may be applied. Therefore, when the coding block is coded using inter prediction, only the merge index information may be signaled through the bitstream for the coding block. Such a mode is called a merge skip mode. That is, in the merge skip mode, the syntax information for the coding block is not signaled except for the merge index information (eg, merge_idx).
  • skip flag information may be signaled through the bitstream to indicate that syntax information is no longer needed except for merge index information (eg, merge_idx) for the corresponding coding block.
  • merge index information eg, merge_idx
  • the information may be referred to as cu_skip_flag.
  • the decoder may obtain skip flag information on the coding block in the slice other than the intra coding mode and restore the coding block in the merge skip mode according to the skip flag information.
  • the inter prediction parameter of the current prediction block may be signaled through the bitstream.
  • Reference picture index information for reference picture list 0 and / or reference picture index information for reference picture list 1 may be signaled through the bitstream depending on whether the current prediction block is L0 prediction and / or L1 prediction.
  • information representing a motion vector difference and information representing a motion vector predictor may be signaled through a bitstream.
  • the information indicating the motion vector prediction value is index information indicating a candidate used as a motion vector prediction value of the current block among a motion vector prediction value candidate list consisting of motion vectors of neighboring blocks, and may be referred to as motion vector prediction value indication information.
  • the motion vector prediction value indication information may be represented, for example, by mvp_l0_flag or mvp_l1_flag.
  • the decoder obtains the motion vector prediction value based on the motion vector prediction value indication information, obtains the motion vector difference from the bitstream, obtains the motion vector difference, and then uses the motion vector prediction value and the motion vector difference to obtain a motion vector for the current block. Information is available.
  • the same / similar principle may be applied to the transform block except that inter prediction is performed in units of prediction blocks. Therefore, when the current coding block is coded using inter prediction, the current coding block is divided into at least one transform block in a quad tree manner, and coding block indication information (eg, cbf_luma, cbf_cb, Residual may be obtained by obtaining transform coefficient information based on cbf_cr) and performing inverse quantization and inverse transform on the obtained transform coefficient information.
  • coding block indication information eg, cbf_luma, cbf_cb, Residual
  • the decoder can obtain a prediction value for the current coding block by obtaining a prediction value in units of prediction blocks, and / or obtain a residual for the current coding block in units of transform blocks. have.
  • the decoder may reconstruct the current coding block using the prediction value and / or the residual for the current coding block.
  • the HEVC standard supports ultra-high resolution (eg 4096 ⁇ 2160) video over 4K.
  • ultra-high resolution images of 4K or higher homogeneous areas may be increased.
  • the size of a uniform region may be larger than in a 4K image.
  • the block size of the area covered by the CTB increases while the CTB size remains the same, so the size of the existing CTB (eg, 64 ⁇ 64) is relatively small. It can have a losing effect. Therefore, using a larger CTB size (eg, 128 ⁇ 128 or 256 ⁇ 256) than the CTB size (eg, 64 ⁇ 64) supported by the existing HEVC standard may further increase coding efficiency.
  • FIG. 7 illustrates an example of splitting a picture into coding blocks according to a texture characteristic.
  • one picture may be divided into coding tree blocks having a fixed size (eg, 64 ⁇ 64), and each coding tree block may be divided into at least one coding block to form a coding tree.
  • the CTB sizes are the same, but the coding blocks within the CTB may have various sizes according to the tree depth or the number of splits.
  • a texture having various characteristics may exist in one picture.
  • a complex texture such as the CTB 710
  • an area having a similar texture for example, such as CTB 720
  • split indication information indicating whether the CTB is split in a quad tree manner for each of the four CTBs may be signaled through the bitstream (eg, see FIG. 3).
  • each CTB is not divided into a plurality of coding blocks in the region 730 (for example, when the value of split_cu_flag for each CTB is 0), even if encoding / decoding is performed in units of CTB, the split instruction for each CTB is performed.
  • Information must be signaled. For example, since region 730 corresponds to four CTBs and each CTB corresponds to a coding block without being split, split_cu_flag is signaled for each CTB and 4-bit split indication information is signaled for region 730. Can be.
  • the partition indication information may be signaled only once for the entire region 730. Therefore, at least 3 bits can be saved compared to the conventional method. If a larger sized area has similar characteristics and is processed with one CTB, more bits can be saved. For example, the region 740 corresponds to 16 CTBs, and when the region 740 is processed as one CTB, at least 15 bits can be saved compared to the conventional method.
  • one picture may be divided into larger fixed size CTBs (eg, 128 ⁇ 128 or 256 ⁇ 256) and processed in larger fixed size CTB units.
  • CTB e.g. 128 x 128 or 256 x 256
  • coding efficiency can be improved in a simple region having similar texture characteristics, but the number of splits (or quad tree depths) in the quadtree method can be increased more than in the conventional method in the case of a detailed texture.
  • a texture of a specific area is complicated and needs to be divided into 8 ⁇ 8 coding blocks.
  • the present invention proposes to determine the CTB size adaptively according to the texture characteristics. Specifically, the present invention proposes a method of variably changing the CTB size in one slice or picture.
  • the CTB according to the present invention may have a variable size in one picture or slice, and may correspond to, for example, a square block having a variable size.
  • FIG. 8 illustrates a CTB according to the existing method and a CTB according to the present invention.
  • 8 (a) illustrates an example of dividing and processing one picture into a fixed size CTB according to an existing method
  • FIG. 8 (b) illustrates the size of a CTB in one picture or slice according to the present invention.
  • An example of adaptively determining and dividing and processing one picture or slice into CTBs of adaptive size is illustrated.
  • the CTB 810 may be treated with four CTBs according to the conventional method, but may be treated with one CTB according to the present invention. Accordingly, in the case of the CTB 810, at least 3 bits of additional information or syntax information may be reduced, and coding efficiency may be improved.
  • the CTB 820 may be processed as 16 CTBs according to the existing method, but may be processed as one CTB according to the present invention. Accordingly, in the case of the CTB 820, at least 16 bits of additional information or syntax information may be reduced, and coding efficiency may be improved.
  • CTB type may refer to the size of the CTB and / or the maximum depth of the coding tree within the CTB.
  • the CTB type may refer to the CTB size and / or the minimum size of the coding block within the CTB.
  • the CTB type may refer to the CTB size and / or the maximum number of divisions of the CTB.
  • the CTB size applicable in the present invention may include at least one of 256 ⁇ 256 blocks, 128 ⁇ 128 blocks, 64 ⁇ 64 blocks, 32 ⁇ 32 blocks, 16 ⁇ 16 blocks, or 8 ⁇ 8 blocks. .
  • the CTB type information may include information indicating a minimum size of a coding block and / or information indicating a maximum size of a coding block.
  • the maximum size of the coding block is the same as the CTB, the size of the CTB can be determined using the maximum size of the coding block, and the maximum depth of the coding tree within the CTB is between the maximum size of the coding block and the minimum size of the coding block. This can be a difference.
  • the CTB type information may include information indicating a minimum size of the coding block and / or information indicating a difference between the minimum size and the maximum size of the coding block.
  • the size of the CTB may be determined by adding the minimum size of the coding block and the difference, and the maximum depth of the coding tree in the CTB may correspond to the difference.
  • the value of the information indicating the minimum size of the coding block and the value of the information indicating the maximum size of the coding block may be represented by a log2 value.
  • the information indicating the minimum size of the coding block may have a value of log2 (N)
  • the maximum size of the coding block is M ⁇ M
  • the information indicating the maximum size may have a value of log2 (M).
  • the value of the information indicating the minimum size of the coding block and the value of the information indicating the maximum size of the coding block may be expressed as a value obtained by subtracting a specific offset from the log2 value.
  • the information indicating the minimum size of the coding block may have a value of log2 (N) -P, and the maximum size of the coding block is M
  • the information indicating the maximum size of the coding block may have a value of log2 (M) -P.
  • the information about the number of CTB types may be referred to as type number information, CTB type number information, or ctb_type_num.
  • the CTB type information may be signaled through the bitstream as many times as indicated by the CTB type number information.
  • the bitstream according to the present invention may include CTB type information as many times as indicated by the CTB type number information. For example, when the CTB type number information indicates that the number of CTB types is n, n pieces of CTB type information may be signaled through a bitstream.
  • information indicating a minimum size of a coding block is signaled, and information indicating a maximum size of a coding block or information indicating a difference between a minimum size and a maximum size of a coding block is the number of times indicated by the CTB type number information. May be signaled.
  • the CTB type may be defined in advance, and the CTB type information may indicate one of the predefined CTB types.
  • the CTB type information may indicate an index indicating one of the predefined CTB types.
  • an index indicating the type may be signaled through the bitstream. have.
  • n1 ⁇ n1 may correspond to index 0
  • n2 ⁇ n2 may correspond to index 1
  • nm ⁇ nm may correspond to index m-1.
  • the CTB type information and the CTB type number information according to the present invention may be signaled through a sequence parameter set (SPS), a picture parameter set (PPS), or a slice (segment) header (SSH).
  • SPS sequence parameter set
  • PPS picture parameter set
  • SSH slice header
  • the corresponding CTB type information and the CTB type number information may be applied to all pictures included in the sequence, and indicate the number of CTB types and types that the CTB may have in each picture included in the sequence. Can be.
  • the CTB type information and the CTB type number information signaled through the PPS may indicate the number of CTB types and types that the CTB may have in the corresponding picture.
  • the CTB type information and the CTB type number information signaled through SSH may indicate the number of CTB types and types that the CTB may have in the slice.
  • the CTB type information and / or the CTB type number information may be signaled through at least two of SPS, PPS, and SSH.
  • SPS information signaled at a higher level
  • PPS information signaled at a higher level
  • information indicating a CTB type may also be signaled through each bitstream for each CTB.
  • the information on the CTB may include information indicating one CTB type among supportable CTB types signaled through SPS, PPS, and SSH.
  • the CTB type information signaled for the CTB may be referred to as type indication information, CTB type indication information, or ctb_type_idx.
  • a list of supportable CTB type candidates is constructed using the CTB type information and the number of CTB type signals signaled through SPS, PPS, and SSH, and the CTB type indicated by the CTB type indication information among the configured lists is applied to the corresponding CTB. Can be.
  • n1 ⁇ n1, n2 ⁇ n2, ... nm ⁇ nm is signaled through the SPS, PPS, slice (segment) header, n1 ⁇ n1 is index 0, n2 ⁇ n2 is index 1 , nm ⁇ nm may construct a list so as to correspond to the index m-1, and apply the CTB type of the index corresponding to the CTB type indication information from the list to the corresponding CTB.
  • the CTB type indication information indicates the index 0
  • the corresponding CTB type is determined to be 256 ⁇ 256.
  • the CTB type indication information indicates the index 1
  • the corresponding CTB type is determined to be 128 ⁇ 128.
  • the CTB type indication information indicates the index 2. In this case, the corresponding CTB type may be determined as 64 ⁇ 64, and when the CTB type indication information indicates index 3, the corresponding CTB type may be determined as 32 ⁇ 32.
  • the index may be arbitrarily designated in the CTB type candidate list. Alternatively, the index may be designated according to the order of each CTB type information in SPS, PPS, and SSH.
  • the encoder may configure the bitstream such that the CTB type that is frequently used corresponds to a low index value. In the case of a low index value, since the number of bits can be represented, the number of bits can be reduced.
  • CTB type number information is obtained from the bitstream for SPS, PPS, and SSH
  • CTB type information is obtained from the bitstream for the number of times indicated by the CTB type number information, and then in order of obtaining the CTB type information. Accordingly, the CTB type candidate list may be configured to allocate a low index value.
  • the decoder obtains CTB type information in the order of 64 ⁇ 64, 32 ⁇ 32, 128 ⁇ 128, 256 ⁇ 256
  • the CTB type candidate list is ⁇ 64 ⁇ 64, 32 ⁇ 32, 128 ⁇ 128, 256 ⁇ 256 ⁇
  • the type indicated by the CTB type indication information for each CTB can be applied to the CTB.
  • the CTB type candidate list may be configured to have different indexes for each CTB. Since the current CTB is likely to have a similar type to the neighboring neighboring CTB, the CTB type candidate list may be configured to allocate the neighboring CTB adjacent to the current CTB to the low index among the candidate CTB types.
  • the neighbor CTB adjacent to the current CTB may include a left neighbor CTB and an upper neighbor CTB adjacent to the current CTB. In this case, for example, the CTB type of the left neighbor CTB may be assigned to index 0, and the CTB type of the upper neighbor CTB may be assigned to index 1. If there is more than one CTB type that can be supported for the current slice, it can be allocated from index 2.
  • the CTB type allocated from index 2 may be assigned to have a lower index value as the size becomes smaller. Alternatively, the CTB type allocated from index 2 may be assigned to have a lower index value as the size increases. Alternatively, the CTB type allocated from index 2 may be assigned to have a low index value according to the order signaled through SPS, PPS, and SSH. Accordingly, the CTB type candidate list may vary for each CTB, and the CTB type indication information may also be determined in consideration of this.
  • the processing order or scan method of the CTB may follow a raster-scan order. More specifically, when the adaptive / variable CTB is applied, the last scan order may be applied based on the position of the upper-left corner sample of the CTB.
  • each square represents a CTB, and the numbers represent a scanning order.
  • the present invention is not limited thereto.
  • CTB 1 followed by CTB 2 may be processed.
  • CTB 2 may be followed by CTB 3.
  • CTB 9 is processed because CTB 9 corresponds to the next raster scan sequence based on the upper left corner. As such, 65 CTBs may be processed sequentially.
  • CTB 3 corresponds to 64 ⁇ 64 type
  • CTB 1 corresponds to 128 ⁇ 128 type
  • CTB 2 corresponds to 256 ⁇ 256 type.
  • the CTB type number information signaled through SPS, PPS, or SSH may indicate 3. Therefore, up to three CTB type information may be sequentially signaled through SPS, PPS, or SSH. If the minimum size of the coding block is determined independently for each CTB, the CTB type information may indicate information indicating the minimum size of the coding block and information indicating the maximum size of the coding block (or the difference between the minimum size and the maximum size of the coding block). Three pieces of indicating information).
  • the CTB type information includes one information indicating the minimum size of the coding block, and information indicating the difference between the minimum size and the maximum size of the coding block (or the maximum size of the coding block). Information indicating 3) may be included.
  • the CTB type candidate list when constructing a CTB type candidate list according to the size of the CTB that can be supported, is composed of ⁇ 256 ⁇ 256, 128 ⁇ 128, 64 ⁇ 64 ⁇ , or ⁇ 64 ⁇ 64, 128 ⁇ 128 ⁇ . , 256 ⁇ 256 ⁇ .
  • the CTB type candidate list when configuring the CTB type candidate list in the order signaled through SPS, PPS, or SSH, the CTB type candidate list may be configured to correspond to the acquisition order of the CTB type information.
  • the CTB type candidate list may be configured by configuring the left neighbor CTB and the upper neighbor CTB adjacent to the current CTB so as to correspond to the low indexes, and adding the remaining CTB types behind.
  • the CTB type candidate list in the case of CTB 14, may be configured as ⁇ 64 ⁇ 64, 128 ⁇ 128, 256 ⁇ 256 ⁇ , and in the case of CTB 31, the CTB type candidate list is ⁇ 64 ⁇ 64, 256 ⁇ 256, 128 ⁇ 128 ⁇ .
  • the same CTB type may be assigned to the index 0, and the remaining indexes may be designated according to the CTB size or the acquisition order of the CTB type information.
  • FIG. 10 illustrates a flowchart of a method according to the invention.
  • the method illustrated in FIG. 10 may be performed on a bitstream that includes at least one picture (or coded picture).
  • One picture may comprise at least one slice, and each slice may comprise a series of CTBs.
  • CTBs within one picture or slice may have a variable size.
  • the CTB may have a square block shape. Therefore, one picture may be divided into CTBs of variable size and encoding / decoding may be performed.
  • the decoder may obtain CTB type number information and CTB type information from a bitstream.
  • the description related to the CTB type signaling according to the present invention may be applied to the CTB number information and the CTB type information.
  • the CTB number information and the CTB type information may be signaled through SPS, PPS, and SSH. Accordingly, the decoder obtains the SPS from the bitstream, and the obtained SPS may include CTB number information and CTB type information. Alternatively, the decoder may obtain a PPS from the bitstream, and the obtained PPS may include CTB number information and CTB type information. Alternatively, the decoder may obtain SSH from the bitstream, and the obtained SSH may include CTB number information and CTB type information.
  • the decoder may obtain CTB type indication information from the bitstream.
  • the description related to CTB type signaling according to the present invention may be applied to the CTB type indication information.
  • the decoder may construct a CTB type candidate list based on the CTB number information and the CTB type information.
  • the CTB type candidate list may be configured in various ways as described above.
  • the decoder may apply the CTB type indicated by the CTB type indication information from the CTB type candidate list to the current CTB. For example, the decoder may determine the size of the CTB type indicated by the CTB type indication information in the CTB type candidate list as the size of the current CTB.
  • the CTB type indication information indicated by the CTB type coding block minimum size (or coding tree maximum depth or CTB maximum split number) is determined as the coding block minimum size (or coding tree maximum depth or CTB maximum split number) of the current CTB. Can be.
  • the decoder may determine at least one coding block from the CTB based on the determined CTB type. For example, the quad tree method described with reference to FIGS. 3 and 4 may be applied to the CTB. Based on split indication information (eg, split_cu_flag) for the CTB, the CTB may correspond to one coding block or may be recursively split in a quad tree manner into a plurality of coding blocks. When the CTB is recursively split, the split block may be split in a quad tree manner until it corresponds to a minimum coding block size in the CTB.
  • split indication information eg, split_cu_flag
  • the decoder may obtain prediction mode information from the bitstream for each coding block formed from the CTB.
  • the prediction mode information may correspond to pred_mode_flag of FIG. 3.
  • the decoder may reconstruct each coding block based on the obtained prediction mode information. For example, the decoder may reconstruct each CTB by performing the procedure described with reference to FIGS. 5 and 6 to restore the CTB.
  • decoding of the picture may be completed.
  • the processing size and / or coding tree structure may be different for each CTB, which may cause inefficiency of the hardware structure (eg, pipeline structure). Can be. For example, if some CTBs have a 256 ⁇ 256 size, you need a hardware structure to handle the 256 ⁇ 256 size, but other CTBs may have a much smaller size, so when processing a smaller CTB, Most of the structure may not be used.
  • the method 2 according to the present invention proposes to fix the size of the CTB to a size larger than the size according to the conventional method (eg, 128 ⁇ 128, 256 ⁇ 256).
  • the minimum and maximum sizes of the coding blocks may be determined for each CTB, and the CTBs may be uniformly divided into the maximum sizes of the coding blocks.
  • the coding tree may be formed for each block corresponding to the maximum size of the coding block, and the procedure illustrated in FIGS. 3, 5, and 6 may be performed for each block corresponding to the maximum size of the coding block divided in the CTB.
  • the fixed size of the CTB may be predefined or signaled via PPS, SPS, SSH.
  • the fixed size of the CTB may be determined using log2_min_luma_coding_block_size_minus3 and log2_diff_max_min_luma_coding_block_size as described above.
  • information indicating the minimum size of the coding block and information indicating the maximum size of the coding block may be signaled through the bitstream for each CTB.
  • information indicating the minimum size of the coding block and information indicating the difference between the minimum size and the maximum size of the coding block may be signaled through the bitstream for each CTB.
  • the decoder obtains information indicating the minimum size of the coding block and information indicating the maximum size of the coding block (or information indicating the difference between the minimum size and the maximum size of the coding block) from the bitstream for each CTB, You can determine the minimum and maximum size of. Then, the CTB of fixed size is equally divided into blocks having the maximum size of the coding block.
  • the decoder may form a coding tree for each divided block. For example, the decoder may perform the procedure described with reference to FIGS. 3 to 6 for each divided block.
  • the minimum size of the coding block may be signaled via SPS, PPS, SSH and only the difference between the minimum and maximum size of the coding block per CTB.
  • the minimum size of the coding block may be commonly applied to the CTBs in the corresponding sequence, picture, and slice.
  • FIG. 11 illustrates a CTB and coding block according to the present invention.
  • Method 2 according to the present invention can be applied, and the CTB has a fixed size of 256 ⁇ 256.
  • the fixed size of the CTB may be signaled through SPS, PPS, and SSH.
  • the maximum size of a coding block for CTB 1110 may be set to 32 ⁇ 32 and the minimum size of the coding block may be set to 8 ⁇ 8.
  • the CTB 1110 is equally divided into 32 ⁇ 32 blocks corresponding to the maximum size of the coding block without additional information (eg, split_cu_flag) to perform encoding / decoding (eg, the procedure according to FIGS. 3 to 6).
  • additional information eg, split_cu_flag
  • the minimum size of the coding block is set to 8 ⁇ 8
  • only up to 8 ⁇ 8 coding blocks can be split, and the quad tree for each 32 ⁇ 32 block can have only 2 depths, and the quad-tree splitting can be applied up to 2 times.
  • additional information eg, split_cu_flag
  • additional information eg, split_cu_flag
  • split_cu_flag no additional information (eg, split_cu_flag) needs to be signaled for an 8x8 coding block.
  • the maximum size of the coding block for CTB 1120 may be set to 128 ⁇ 128 and the minimum size of the coding block may be set to 16 ⁇ 16.
  • the CTB 1120 is equally divided into 128 ⁇ 128 blocks corresponding to the maximum size of the coding block without additional information (eg, split_cu_flag) to perform encoding / decoding (eg, the procedure according to FIGS. 3 to 6).
  • additional information eg, split_cu_flag
  • additional information does not need to be signaled until it is divided into 128 ⁇ 128 blocks from a CTB having a size of 256 ⁇ 256, at least one bit of additional information can be saved.
  • the image processing apparatus may include an encoding apparatus and / or a decoding apparatus of an image signal.
  • an image processing apparatus to which the present invention may be applied may include a mobile terminal such as a smartphone, a portable device such as a laptop computer, a home appliance such as a digital TV, a digital video player, or the like.
  • the memory 12 may store a program for processing and controlling the processor 11, and may store an encoded bitstream, a decoded image, control information, and the like. In addition, the memory 12 may be utilized as a buffer for various image signals.
  • the memory 12 includes read only memory (ROM), random access memory (RAM), erasable programmable read only memory (EPROM), electrically erasable programmable read-only memory (EEPROM), flash memory, and static RAM (SRAM). It may be implemented as a storage device such as a hard disk drive (HDD), a solid state drive (SSD), or the like.
  • the processor 11 controls the operation of each module in the image processing apparatus.
  • the processor 11 may perform various control functions for performing encoding / decoding according to the present invention.
  • the processor 11 may also be called a controller, a microcontroller, a microprocessor, a microcomputer, or the like.
  • the processor 11 may be implemented by hardware or firmware, software, or a combination thereof.
  • an application specific integrated circuit (ASIC) or a digital signal processor (DSP), a digital signal processing device (DSPD), a programmable logic device (PLD), and an FPGA field programmable gate array may be provided in the processor 11.
  • the firmware or software when implementing the present invention using firmware or software, may be configured to include a module, a procedure, or a function for performing the functions or operations of the present invention, and configured to perform the present invention.
  • the firmware or software may be provided in the processor 11 or stored in the memory 12 to be driven by the processor 11.
  • the device 10 may optionally include a network interface module (NIM) 13.
  • the network interface module 13 is operatively connected with the processor 11, and the processor 11 controls the network interface module 13 to provide information and / or data, signals, and messages through a wireless / wired network.
  • a wireless / wired signal carrying the back can be transmitted or received.
  • the network interface module 13 supports various communication standards such as IEEE 802 series, 3GPP LTE (-A), Wi-Fi, Advanced Television System Committee (ATSC), Digital Video Broadcasting (DVB), and the like. According to the standard, a video signal such as control information and / or an encoded bitstream may be transmitted and received.
  • the network interface module 13 may not be included in the device as needed.
  • the device 10 may optionally include an input / output interface 14.
  • the input / output interface 14 is operatively connected with the processor 11, and the processor 11 may control the input / output interface 14 to receive or output a control signal and / or a data signal.
  • the input / output module 14 may be connected to an input device such as a keyboard, a mouse, a touch pad, a camera, and an output device such as a display, for example, a universal serial bus (USB), a Bluetooth, a near field communication (NFC), serial / parallel.
  • Interfaces such as Digital Visual Interface (DVI), High Definition Multimedia Interface (HDMI), and the like, may be supported.
  • an embodiment of the present invention may be implemented by various means, for example, hardware, firmware, software or combinations thereof.
  • an embodiment of the present invention may include one or more application specific integrated circuits (ASICs), digital signal processors (DSPs), digital signal processing devices (DSPDs), programmable logic devices (PLDs), and FPGAs. field programmable gate array), a processor, a controller, a microcontroller, a microprocessor, or the like.
  • ASICs application specific integrated circuits
  • DSPs digital signal processors
  • DSPDs digital signal processing devices
  • PLDs programmable logic devices
  • FPGAs field programmable gate array
  • the present invention may be implemented by software code or instructions including a form of a module, procedure, function, etc. that performs the functions or operations described above.
  • the software code or instructions may be stored in a computer readable medium and driven by the processor and may perform operations according to the present invention when driven by the processor.
  • the computer readable medium may be located inside or outside the processor or remotely connected to the processor through a network, and may exchange data with the processor.
  • the present invention can be used in an image processing apparatus such as a decoding apparatus and an encoding apparatus.

Abstract

본 발명은 비디오 신호를 위한 비트스트림을 디코딩하는 방법 및 장치에 관한 것으로서, 복수의 CTB를 위한 타입 개수 정보 및 타입 정보를 상기 비트스트림으로부터 획득하는 단계; 상기 복수의 CTB 중에서 현재 CTB를 위한 타입 지시 정보를 상기 비트스트림으로부터 획득하는 단계; 상기 타입 지시 정보가 지시하는 CTB 타입에 기초하여 상기 현재 CTB의 크기 및 상기 현재 CTB 내에서 코딩 블록의 최소 크기를 결정하는 단계; 상기 결정된 현재 CTB의 크기 및 코딩 블록의 최소 크기에 기초하여 상기 현재 CTB 내에서 적어도 하나의 코딩 블록을 결정하는 단계; 상기 적어도 하나의 코딩 블록 각각에 대하여 예측 모드 정보를 비트스트림으로부터 획득하는 단계; 상기 적어도 하나의 코딩 블록 중에서 현재 코딩 블록에 대한 예측 모드 정보에 기초하여 상기 현재 코딩 블록을 복원하는 단계를 포함하는 방법 및 이를 위한 장치에 관한 것이다.

Description

비디오 신호의 처리 방법 및 이를 위한 장치
본 발명은 비디오 처리 방법에 관한 것으로서, 보다 구체적으로는 가변적/적응적 코딩 트리 블록을 이용한 비디오 신호의 처리 방법 및 이를 위한 장치에 관한 것이다.
디지털 동영상 처리 기술이 급격히 발전함에 따라 고화질 디지털방송, 디지털 멀티미디어 방송, 인터넷 방송 등과 같은 다양한 매체를 이용한 디지털 멀티미디어 서비스가 활성화되고 있으며, 고화질 디지털 방송이 일반화되면서 다양한 서비스 애플리케이션이 개발되고 있고, 고화질, 고해상도의 영상을 위한 고속 동영상 처리 기술들이 요구되고 있다. 이를 위해, H.265/HEVC(High Efficiency Video Coding), H.264/AVC(Advanced Video Coding)와 같은 비디오 신호의 코딩에 관한 표준이 활발히 논의되고 있다.
본 발명의 목적은 비디오 신호를 효율적으로 처리할 수 있는 방법 및 이를 위한 장치를 제공하는 데 있다.
본 발명의 다른 목적은 가변적/적응적 코딩 트리 블록을 이용함으로써 부가 정보를 전송하는 데 필요한 비트 수를 절감하고 코딩 효율을 향상시키는 데 있다.
본 발명의 또 다른 목적은 가변적/적응적 코딩 트리 블록을 적용하기 위한 효율적인 부가 정보의 시그널링 방법 및 이를 위한 장치를 제공하는 데 있다.
본 발명의 또 다른 목적은 매우 큰 고정된 크기의 코딩 트리 블록을 이용하는 경우 부가 정보를 전송하는 데 필요한 비트 수를 절감하고 코딩 효율을 향상시키는 데 있다.
본 발명에서 이루고자 하는 기술적 과제들은 상기 기술적 과제로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명의 제1 양상으로서, 디코딩 장치에서 적어도 하나의 픽처를 위한 비트스트림을 디코딩하는 방법이 제공되며, 상기 픽처는 적어도 하나의 슬라이스를 포함하고, 상기 슬라이스는 복수의 코딩 트리 블록(CTB)을 포함하며, 상기 방법은 상기 복수의 CTB를 위한 타입 개수 정보 및 타입 정보를 상기 비트스트림으로부터 획득하는 단계, 상기 타입 개수 정보는 상기 복수의 CTB에 대해 허용되는 CTB 타입의 개수를 지시하고, 상기 타입 정보는 상기 복수의 CTB에 대해 허용되는 CTB 타입을 지시하며; 상기 복수의 CTB 중에서 현재 CTB를 위한 타입 지시 정보를 상기 비트스트림으로부터 획득하는 단계, 상기 타입 지시 정보는 상기 허용되는 CTB 타입 중에서 하나의 CTB 타입을 지시하며; 상기 타입 지시 정보가 지시하는 CTB 타입에 기초하여 상기 현재 CTB의 크기 및 상기 현재 CTB 내에서 코딩 블록의 최소 크기를 결정하는 단계; 상기 결정된 현재 CTB의 크기 및 코딩 블록의 최소 크기에 기초하여 상기 현재 CTB 내에서 적어도 하나의 코딩 블록을 결정하는 단계; 상기 적어도 하나의 코딩 블록 각각에 대하여 예측 모드 정보를 비트스트림으로부터 획득하는 단계, 상기 예측 모드 정보는 해당 코딩 블록이 인트라 예측을 이용하여 코딩되었는지 아니면 인터 예측을 이용하여 코딩되었는지 여부를 지시하며; 상기 적어도 하나의 코딩 블록 중에서 현재 코딩 블록에 대한 예측 모드 정보에 기초하여 상기 현재 코딩 블록을 복원하는 단계를 포함할 수 있다.
본 발명의 제2 양상으로서, 적어도 하나의 픽처를 위한 비트스트림을 디코딩하도록 구성된 디코딩 장치가 제공되며, 상기 픽처는 적어도 하나의 슬라이스를 포함하고, 상기 슬라이스는 복수의 코딩 트리 블록(CTB)을 포함하며, 상기 디코딩 장치는 메모리; 및 상기 메모리에 동작시 연결되는(operatively connected) 프로세서를 포함하며, 상기 프로세서는 상기 복수의 CTB를 위한 타입 개수 정보 및 타입 정보를 상기 비트스트림으로부터 획득하고, 상기 타입 개수 정보는 상기 복수의 CTB에 대해 허용되는 CTB 타입의 개수를 지시하고, 상기 타입 정보는 상기 복수의 CTB에 대해 허용되는 CTB 타입을 지시하며; 상기 복수의 CTB 중에서 현재 CTB를 위한 타입 지시 정보를 상기 비트스트림으로부터 획득하고, 상기 타입 지시 정보는 상기 허용되는 CTB 타입 중에서 하나의 CTB 타입을 지시하며; 상기 타입 지시 정보가 지시하는 CTB 타입에 기초하여 상기 현재 CTB의 크기 및 상기 현재 CTB 내에서 코딩 블록의 최소 크기를 결정하고; 상기 결정된 현재 CTB의 크기 및 코딩 블록의 최소 크기에 기초하여 상기 현재 CTB 내에서 적어도 하나의 코딩 블록을 결정하고; 상기 적어도 하나의 코딩 블록 각각에 대하여 예측 모드 정보를 비트스트림으로부터 획득하고, 상기 예측 모드 정보는 해당 코딩 블록이 인트라 예측을 이용하여 코딩되었는지 아니면 인터 예측을 이용하여 코딩되었는지 여부를 지시하며; 상기 적어도 하나의 코딩 블록 중에서 현재 코딩 블록에 대한 예측 모드 정보에 기초하여 상기 현재 코딩 블록을 복원하도록 구성될 수 있다.
바람직하게는, 상기 현재 CTB의 크기를 결정하는 것은, 상기 타입 개수 정보 및 상기 타입 정보에 기초하여 상기 현재 CTB를 위한 CTB 타입 후보 리스트를 구성하는 것과, 상기 CTB 타입 후보 리스트 중에서 상기 타입 지시 정보가 지시하는 CTB 타입을 상기 현재 CTB에 적용하는 것을 포함할 수 있다.
바람직하게는, 상기 현재 CTB 타입 후보 리스트는 상기 현재 CTB에 인접한 이웃 CTB의 CTB 타입이 낮은 인덱스에 할당되도록 구성될 수 있다.
바람직하게는, 상기 이웃 CTB는 상기 현재 CTB에 인접한 좌측 이웃 CTB와 상측 이웃 CTB를 포함하고, 상기 현재 CTB 타입 후보 리스트는 상기 좌측 이웃 CTB의 CTB 타입이 인덱스 0에 대응되고 상기 상측 이웃 CTB의 CTB 타입이 인덱스 1에 대응되도록 구성될 수 있다.
바람직하게는, 상기 이웃 CTB는 상기 현재 CTB에 인접한 좌측 이웃 CTB와 상측 이웃 CTB를 포함하고, 상기 CTB 타입 후보 리스트는 상기 상측 이웃 CTB의 CTB 타입이 인덱스 0에 대응되고 상기 좌측 이웃 CTB의 CTB 타입이 인덱스 1에 대응되도록 구성될 수 있다.
바람직하게는, 상기 복수의 CTB를 위한 타입 개수 정보 및 타입 정보를 상기 비트스트림으로부터 획득하는 것은 상기 타입 개수 정보가 지시하는 횟수만큼 복수의 타입 정보를 상기 비트스트림으로부터 획득하는 것을 포함하며, 상기 타입 개수 정보가 2보다 큰 수를 지시하는 경우, 상기 복수의 타입 정보가 지시하는 복수의 CTB 타입 중에서 상기 좌측 이웃 CTB의 CTB 타입과 상기 상측 이웃 CTB의 CTB 타입을 제외한 나머지 CTB 타입을 인덱스 2부터 대응되도록 상기 CTB 타입 후보 리스트가 구성될 수 있다.
바람직하게는, 상기 나머지 CTB 타입은 상기 나머지 CTB 타입에 대응되는 타입 정보가 상기 비트스트림으로부터 획득되는 순서에 따라 상기 CTB 타입 후보 리스트의 인덱스 2부터 할당될 수 있다.
바람직하게는, 상기 현재 CTB를 위한 타입 개수 정보 및 타입 정보를 상기 비트스트림으로부터 획득하는 것은 상기 타입 개수 정보가 지시하는 횟수만큼 복수의 타입 정보를 상기 비트스트림으로부터 획득하는 것을 포함하며, 상기 CTB 타입 후보 리스트는 상기 복수의 타입 정보가 상기 비트스트림으로부터 획득되는 순서에 따라 낮은 인덱스부터 할당될 수 있다.
바람직하게는, 상기 타입 정보는 코딩 블록의 최소 크기에 대한 정보와 코딩 블록의 최대 크기에 대한 정보를 포함하며,
상기 현재 CTB 내에서 코딩 블록의 최소 크기는 상기 코딩 블록의 최소 크기에 대한 정보의 값에 특정 오프셋을 더한 값 만큼 1을 좌측 시프트하여 구해지고, 상기 현재 CTB의 크기는 상기 코딩 블록의 최대 크기에 대한 정보의 값에 특정 오프셋을 더한 값 만큼 1을 좌측 시프트하여 구해질 수 있다.
바람직하게는, 상기 타입 정보는 코딩 블록의 최소 크기에 대한 정보와 코딩 블록의 최소 크기와 최대 크기 간의 차이에 대한 정보를 포함하며, 상기 현재 CTB 내에서 코딩 블록의 최소 크기는 상기 코딩 블록의 최소 크기에 대한 정보의 값에 특정 오프셋을 더한 값 만큼 1을 좌측 시프트하여 구해지고, 상기 현재 CTB의 크기는 상기 코딩 블록의 최소 크기에 대한 정보의 값에 특정 오프셋을 더한 값과 상기 코딩 블록의 최소 크기와 최대 크기 간의 차이에 대한 정보의 값을 더하여 구해지는 값만큼 1을 좌측 시프트하여 구해질 수 있다.
바람직하게는, 상기 적어도 하나의 코딩 블록을 결정하는 것은, 상기 현재 CTB에 대한 분할 지시 정보를 상기 비트스트림으로부터 획득하는 것, 상기 분할 지시 정보가 상기 현재 CTB가 분할됨을 지시하는 경우, 상기 현재 CTB를 상기 현재 CTB의 크기의 절반 수평 크기 및 절반 수직 크기를 가지는 4개의 하위 블록으로 분할하는 것, 및 상기 하위 블록의 크기가 상기 코딩 블록의 최소 크기보다 큰 경우, 상기 분할 지시 정보를 획득하는 것과 상기 4개의 하위 블록으로 분할하는 것을 상기 4개의 하위 블록 각각에 대하여 재귀적으로 수행하는 것을 포함할 수 있다.
바람직하게는, 상기 복수의 CTB를 위한 타입 개수 정보 및 타입 정보는 시퀀스 파라미터 세트(SPS), 픽처 파라미터 세트(PPS), 또는 슬라이스 세그먼트 헤더(SSH)를 통해 획득될 수 있다.
바람직하게는, 상기 복수의 CTB는 가변적인 크기를 가지고, 각각의 CTB는 정사각형 블록에 해당할 수 있다.
바람직하게는, 상기 복수의 CTB에 대해 허용되는 CTB 타입은 256×256 블록, 128×128 블록, 64×64 블록, 32×32 블록, 16×16 블록, 또는 8×8 블록 중에서 적어도 하나를 포함할 수 있다.
바람직하게는, 상기 현재 코딩 블록에 대한 예측 모드 정보가 상기 현재 코딩 블록이 인트라 예측을 이용하여 코딩되었음을 지시하는 경우, 상기 현재 코딩 블록을 복원하는 것은, 상기 현재 코딩 블록에 대한 인트라 예측 모드를 유도하는 것, 상기 현재 코딩 블록으로부터 적어도 하나의 변환 블록을 결정하는 것, 상기 변환 블록에 대해 상기 인트라 예측 모드를 적용하여 예측값을 획득하는 것, 상기 예측값에 기초하여 상기 변환 블록을 복원하는 것을 포함할 수 있다.
바람직하게는, 상기 현재 코딩 블록에 대한 예측 모드 정보가 상기 현재 코딩 블록이 인터 예측을 이용하여 코딩되었음을 지시하는 경우, 상기 현재 코딩 블록을 복원하는 것은, 상기 현재 코딩 블록에 대한 파티셔닝 모드 정보를 상기 비트스트림으로부터 획득하는 것, 상기 파티셔닝 모드 정보에 기초하여 상기 현재 코딩 블록으로부터 적어도 하나의 예측 블록을 결정하는 것, 상기 예측 블록에 대한 인터 예측 파라미터 정보를 유도하는 것, 상기 인터 예측 파라미터 정보에 기초하여 상기 예측 블록에 대한 예측값을 획득하는 것, 상기 예측값에 기초하여 상기 예측 블록을 복원하는 것을 포함할 수 있다.
본 발명에 의하면, 비디오 신호를 효율적으로 처리할 수 있다.
또한, 본 발명에 의하면, 가변적/적응적 코딩 트리 블록을 이용함으로써 부가 정보를 전송하는 데 필요한 비트 수를 절감하고 코딩 효율을 향상시킬 수 있다.
또한, 본 발명에 의하면, 가변적/적응적 코딩 트리 블록을 적용하기 위해 효율적으로 부가 정보를 시그널링할 수 있다.
또한, 본 발명에 의하면, 매우 큰 고정된 크기의 코딩 트리 블록을 이용하는 경우 부가 정보를 전송하는 데 필요한 비트 수를 절감하고 코딩 효율을 향상시킬 수 있다.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
첨부 도면은 본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되며, 본 발명에 대한 실시예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 사상을 설명한다.
도 1은 인코딩 과정을 예시한다.
도 2는 디코딩 과정을 예시한다.
도 3은 코딩 트리 블록(CTB)을 분할하는 방법의 순서도를 예시한다.
도 4는 CTB를 쿼드 트리 방식으로 분할하는 예를 예시한다.
도 5는 코딩 블록을 위한 신택스 정보 및 동작을 예시한다.
도 6은 변환 트리에 대한 신택스 정보 및 동작을 예시한다.
도 7은 텍스처 특성에 따라 하나의 픽처를 코딩 유닛들로 분할하는 예를 예시한다.
도 8은 기존 방법에 따른 CTB와 본 발명에 따른 CTB를 예시한다.
도 9는 본 발명에 따른 CTB 스캔 순서를 예시한다.
도 10은 본 발명에 따른 방법의 순서도를 예시한다.
도 11은 본 발명에 따른 CTB와 코딩 블록을 예시한다.
도 12는 본 발명이 적용될 수 있는 영상 처리 장치의 블록도를 예시한다.
이하의 기술은 비디오 신호(video signal)를 인코딩(encoding) 및/또는 디코딩하도록 구성된 영상 신호 처리 장치에서 사용될 수 있다. 일반적으로 비디오 신호는 눈으로 인지가능한 영상 신호(image signal) 또는 픽처들의 시퀀스를 지칭하지만, 본 명세서에서 비디오 신호는 코딩된 픽처(picture)를 나타내는 비트들의 시퀀스(sequence) 또는 비트 시퀀스에 해당하는 비트스트림을 지칭하는 데 사용될 수 있다. 픽처(picture)는 샘플들의 배열을 지칭할 수 있으며, 프레임(frame), 영상(image) 등으로 지칭될 수 있다. 보다 구체적으로, 픽처는 샘플들의 이차원 배열 또는 이차원 샘플 배열을 지칭할 수 있다. 샘플은 픽처를 구성하는 최소 단위를 지칭할 수 있고, 픽셀(pixel), 화소(picture element), 펠(pel) 등으로 지칭될 수 있다. 샘플은 휘도(luminance, luma) 성분 및/또는 색차(chrominance, chroma, color difference) 성분을 포함할 수 있다. 본 명세서에서, 코딩은 인코딩을 지칭하는 데 사용될 수도 있고, 혹은 인코딩/디코딩을 통칭할 수 있다.
픽처는 적어도 하나의 슬라이스를 포함할 수 있으며, 슬라이스는 적어도 하나의 블록을 포함할 수 있다. 슬라이스는 병렬 처리 등의 목적, 데이터 손실 등으로 인해 비트스트림이 훼손된 경우 디코딩의 재동기화 등의 목적을 위해 정수 개의 블록을 포함하도록 구성될 수 있으며, 각 슬라이스는 서로 독립적으로 코딩될 수 있다. 블록은 적어도 하나의 샘플을 포함할 수 있으며, 샘플들의 배열을 지칭할 수 있다. 블록은 픽처보다 작거나 같은 크기를 가질 수 있다. 블록은 유닛으로 지칭될 수 있다. 현재 코딩되는 픽처를 현재 픽처라고 지칭하고, 현재 코딩되는 블록을 현재 블록이라고 지칭할 수 있다. 픽처를 구성하는 다양한 블록 단위가 존재할 수 있으며, 예를 들어 ITU-T H.265 표준(또는 HEVC(High Efficiency Video Coding) 표준)의 경우 코딩 트리 블록(CTB)(또는 코딩 트리 유닛(CTU)), 코딩 블록(CB)(또는 코딩 유닛(CU)), 예측 블록(PB)(또는 예측 유닛(PU)), 변환 블록(TB)(또는 변환 유닛(TU)) 등의 블록 단위가 존재할 수 있다.
코딩 트리 블록은 픽처를 구성하는 가장 기본적인 단위를 지칭하며, 픽처의 텍스처(texture)에 따라 코딩 효율을 높이기 위해 쿼드-트리(quad-tree) 형태의 코딩 블록들로 분할될 수 있다. 코딩 블록은 코딩을 수행하는 기본 단위를 지칭할 수 있으며, 코딩 블록 단위로 인트라 코딩 또는 인터 코딩이 수행될 수 있다. 인트라 코딩은 인트라 예측을 이용하여 코딩을 수행하는 것을 지칭할 수 있으며, 인트라 예측은 동일한 픽처 또는 슬라이스 내에 포함된 샘플들을 이용하여 예측을 수행하는 것을 지칭할 수 있다. 인터 코딩은 인터 예측을 이용하여 코딩을 수행하는 것을 지칭할 수 있으며, 인터 예측은 현재 픽처와 서로 다른 픽처에 포함된 샘플들을 이용하여 예측을 수행하는 것을 지칭할 수 있다. 인트라 코딩을 이용하여 코딩되는 블록 또는 인트라 예측 모드로 코딩된 블록을 인트라 블록이라고 지칭할 수 있고, 인터 코딩을 이용하여 코딩되는 블록 또는 인터 예측 모드로 코딩된 블록을 인터 블록이라고 지칭할 수 있다. 또한, 인트라 예측을 이용한 코딩 모드를 인트라 모드라고 지칭할 수 있고, 인터 예측을 이용한 코딩 모드를 인터 모드라고 지칭할 수 있다.
예측 블록은 예측을 수행하기 위한 기본 단위를 지칭할 수 있다. 하나의 예측 블록에 대해서는 동일한 예측이 적용될 수 있다. 예를 들어, 인터 예측의 경우 하나의 예측 블록에 대해서 동일한 움직임 벡터가 적용될 수 있다. 변환 블록은 변환을 수행하기 위한 기본 단위를 지칭할 수 있다. 변환은 픽셀 도메인(또는 공간 도메인 또는 시간 도메인)의 샘플들을 주파수 도메인(또는 변환 계수 도메인)의 변환 계수로 변환하는 동작을 지칭하거나, 그 반대의 동작을 통칭할 수 있다. 특히, 주파수 도메인(또는 변환 계수 도메인)의 변환 계수를 픽셀 도메인(또는 공간 도메인 또는 시간 도메인)의 샘플들로 변환하는 동작을 역변환이라고 지칭할 수 있다. 예를 들어, 변환은 이산 코사인 변환(DCT), 이산 사인 변환(DST), 푸리어 변환 등을 포함할 수 있다.
본 명세서에서, 코딩 트리 블록(CTB)은 코딩 트리 유닛(CTU)과 혼용될 수 있고, 코딩 블록(CB)은 코딩 유닛(CU)과 혼용될 수 있고, 예측 블록(PB)은 예측 유닛(PU)과 혼용될 수 있고, 변환 블록(PB)은 변환 유닛(PU)과 혼용될 수 있다.
도 1은 인코딩 과정을 예시한다.
인코딩 장치(100)는 원영상(original image)(102)을 입력받아 인코딩을 수행한 다음 비트스트림(114)을 출력한다. 원영상(102)은 하나의 픽처에 해당할 수 있지만, 본 예에서 원영상(102)은 픽처를 구성하는 하나의 블록이라고 가정한다. 예를 들어, 원영상(102)은 코딩 블록에 해당할 수 있다. 인코딩 장치(100)는 원영상(102)에 대하여 인트라 모드로 코딩할지 인터 모드로 코딩할지 결정할 수 있다. 원영상(102)이 인트라 픽처 또는 슬라이스에 포함되는 경우, 원영상(102)은 인트라 모드로만 코딩될 수 있다. 하지만, 원영상(102)이 인터 픽처 또는 슬라이스에 포함되는 경우, 예를 들어 원영상(102)에 대하여 인트라 코딩 및 인터 코딩을 수행한 다음 RD(Rate-Distortion) 비용(cost)을 대비하여 효율적인 코딩 방법을 결정할 수 있다.
원영상(102)에 대해 인트라 코딩을 수행하는 경우, 인코딩 장치(100)는 원영상(102)을 포함하는 현재 픽처의 복원 샘플들을 이용하여 RD 최적화를 보여주는 인트라 예측 모드를 결정할 수 있다(104). 예를 들어, 인트라 예측 모드는 DC(Direct Current) 예측 모드, 평면(planar) 예측 모드, 각도(angular) 예측 모드 중에서 하나로 결정될 수 있다. DC 예측 모드는 현재 픽처의 복원 샘플들 중에서 참조 샘플들의 평균값을 이용하여 예측을 수행하는 모드를 지칭하고, 평면 예측 모드는 참조 샘플들의 이중 선형 보간(bilinear interpolation)을 이용하여 예측을 수행하는 모드를 지칭하고, 각도 예측 모드는 원영상(102)에 대해 특정 방향에 위치한 참조 샘플을 이용하여 예측을 수행하는 모드를 지칭한다. 인코딩 장치(100)는 결정된 인트라 예측 모드를 이용하여 예측 샘플(predicted sample) 또는 예측값(prediction value)(또는 predictor)(107)을 출력할 수 있다.
원영상(102)에 대해 인터 코딩을 수행하는 경우, 인코딩 장치(100)는 (디코딩된) 픽처 버퍼(122)에 포함된 복원 픽처(reconstructed picture)를 이용하여 움직임 추정(motion estimation, ME)을 수행하여 움직임 정보를 획득할 수 있다(106). 예를 들어, 움직임 정보는 움직임 벡터, 참조 픽처 인덱스 등을 포함할 수 있다. 움직임 벡터는 현재 픽처 내에서 원영상(102)의 좌표로부터 참조 픽처 내의 좌표까지의 오프셋을 제공하는 이차원 벡터를 지칭할 수 있다. 참조 픽처 인덱스는 (디코딩된) 픽처 버퍼(122)에 저장된 복원 픽처(reconstructed picture) 중에서 인터 예측을 위해 사용되는 참조 픽처들의 리스트(또는 참조 픽처 리스트)에 대한 인덱스를 지칭할 수 있으며, 참조 픽처 리스트에서 해당 참조 픽처를 가리킨다. 인코딩 장치(100)는 획득한 움직임 정보를 이용하여 예측 샘플 또는 예측값(107)을 출력할 수 있다.
그런 다음, 인코딩 장치(100)는 원영상(102)과 예측 샘플(107) 간의 차이로부터 레지듀얼 데이터(108)를 생성할 수 있다. 인코딩 장치(100)는 생성된 레지듀얼 데이터(108)에 대해 변환을 수행할 수 있다(110). 예를 들어, 변환을 위해 이산 코사인 변환 (Discrete Cosine Transform, DCT), 이산 사인 변환 (Discrete Sine Transform, DST) 및/또는 웨이블릿 변환(Wavelet Transform) 등이 적용될 수 있다. 보다 구체적으로, 4×4 내지 32×32 크기의 정수 기반 DCT가 사용될 수 있으며, 4×4, 8×8, 16×16, 32×32 변환이 이용될 수 있다. 인코딩 장치(100)는 변환(110)을 수행하여 변환 계수 정보를 획득할 수 있다.
인코딩 장치(100)는 변환 계수 정보를 양자화하여 양자화된 변환 계수 정보를 생성할 수 있다(112). 양자화는 양자화 파라미터(QP)를 이용하여 변환 계수 정보의 레벨을 스케일링하는 동작을 지칭할 수 있다. 따라서, 양자화된 변환 계수 정보는 스케일링된 변환 계수 정보라고 지칭될 수 있다. 양자화된 변환 계수 정보는 엔트로피 코딩(114)을 통해 비트스트림(116)으로 출력될 수 있다. 예를 들어, 엔트로피 코딩(114)은 고정 길이 코딩(fixed length coding, FLC), 가변 길이 코딩(variable length coding, VLC), 산술 코딩(arithmetic coding)을 기반으로 수행될 수 있다. 보다 구체적으로, 산술 부호화를 기반으로 한 문맥 기반 적응적 이진 산술 코딩(context adaptive binary arithmetic coding, CABAC), 가변 길이 코딩을 기반으로 한 Exp-Golomb 코딩, 및 고정 길이 코딩이 적용될 수 있다.
또한, 인코딩 장치(100)는 양자화된 변환 계수 정보에 대해 역양자화(118) 및 역변환(120)을 수행하여 복원 샘플(121)를 생성할 수 있다. 도 1에 예시되지 않았지만, 하나의 픽처에 대하여 복원 샘플(121)을 획득하여 복원 픽처를 생성한 다음 복원 픽처에 대해 인루프 필터링이 수행될 수 있다. 인루프 필터링을 위해 예를 들어 디블록킹(deblocking) 필터, 샘플 적응적 오프셋(sample adaptive offset, SAO) 필터가 적용될 수 있다. 그런 다음, 복원 픽처(121)는 픽처 버퍼(122)에 저장되어 다음 픽처의 인코딩에 사용될 수 있다.
도 2는 디코딩 과정을 예시한다.
디코딩 장치(200)는 비트스트림(202)을 수신하여 엔트로피 디코딩(204)을 수행할 수 있다. 엔트로피 디코딩(204)은 도 1의 엔트로피 코딩(114)의 역방향 동작을 지칭할 수 있다. 디코딩 장치(200)는 엔트로피 디코딩(204)을 통해 예측 모드 정보, 인트라 예측 모드 정보, 움직임 정보 등을 포함하여 디코딩에 필요한 데이터 및 (양자화된) 변환 계수 정보를 획득할 수 있다. 디코딩 장치(200)는 획득된 변환 계수 정보에 대해 역양자화(206) 및 역변환(208)을 수행하여 레지듀얼 데이터(209)를 생성할 수 있다.
엔트로피 디코딩(204)을 통해 획득되는 예측 모드 정보는 현재 블록이 인트라 모드로 코딩되는지 인터 모드로 코딩되는지 여부를 지시할 수 있다. 예측 모드 정보가 인트라 모드를 지시하는 경우, 디코딩 장치(200)는 엔트로피 디코딩(204)을 통해 획득된 인트라 예측 모드에 기초하여 현재 픽처의 복원 샘플들로부터 예측 샘플(또는 예측값)(213)을 획득할 수 있다(210). 예측 모드 정보가 인터 모드를 지시하는 경우, 디코딩 장치(200)는 엔트로피 디코딩(204)을 통해 획득된 움직임 정보에 기초하여 픽처 버퍼(214)에 저장된 참조 픽처로부터 예측 샘플(또는 예측값)(213)을 획득할 수 있다(212).
디코딩 장치(200)는 레지듀얼 데이터(209)와 예측 샘플(또는 예측값)(213)을 이용하여 현재 블록에 대한 복원 샘플(216)을 획득할 수 있다. 도 2에 예시되지 않았지만, 하나의 픽처에 대하여 복원 샘플(216)을 획득하여 픽처를 복원한 다음 복원 픽처에 대해 인루프 필터링이 수행될 수 있다. 그런 다음, 복원 픽처(216)는 다음 픽처의 디코딩을 위해 픽처 버퍼에 저장되거나 디스플레이를 위해 출력될 수 있다.
비디오 인코딩/디코딩 프로세스는 소프트웨어(SW)/하드웨어(HW) 처리시 매우 높은 복잡도가 요구된다. 따라서, 제한된 자원(resource)을 이용하여 복잡도가 높은 작업을 수행하기 위해 픽처(또는 영상)을 최소의 처리 단위인 기본 처리 단위(processing unit)로 분할하여 처리할 수 있다. 따라서, 하나의 슬라이스는 적어도 하나의 기본 처리 단위를 포함할 수 있다. 이 경우, 하나의 픽처 또는 슬라이스에 포함되는 기본 처리 단위는 동일한 크기를 가질 수 있다.
HEVC(High Efficiency Video Coding) 표준(ISO/IEC 23008-2 또는 ITU-T H.265)의 경우 앞서 설명한 바와 같이 기본 처리 단위는 CTB(Coding Tree Block) 또는 CTU(Coding Tree Unit)로 지칭될 수 있으며, 64×64 픽셀의 크기를 가질 수 있다. 따라서, HEVC 표준의 경우 하나의 픽처는 기본 처리 단위인 CTU로 분할(partitioning)되어 인코딩/디코딩을 수행할 수 있다. 보다 구체적인 예로, 8192×4096 픽처를 인코딩/디코딩하는 경우 픽처는 128×64=8192개의 CTU로 나누어 8192개의 CTU에 대해 도 1에 예시된 인코딩 절차 또는 도 2에 예시된 디코딩 절차를 수행할 수 있다.
비디오 신호 또는 비트스트림은 시퀀스 파라미터 세트(SPS), 픽처 파라미터 세트(PPS), 적어도 하나의 액세스 유닛을 포함할 수 있다. 시퀀스 파라미터 세트는 (픽처들의) 시퀀스 레벨의 파라미터 정보를 포함하며, 시퀀스 파라미터 세트의 파라미터 정보는 픽처들의 시퀀스에 포함된 픽처에 적용될 수 있다. 픽처 파라미터 세트는 픽처 레벨의 파라미터 정보를 포함하며, 픽처 파라미터 세트의 정보는 픽처에 포함되는 각 슬라이스에 적용될 수 있다. 액세스 유닛은 하나의 픽처에 대응되는 유닛을 지칭하며, 적어도 하나의 슬라이스를 포함할 수 있다. 슬라이스는 정수 개의 CTU를 포함할 수 있다. 신택스 정보는 비트스트림에 포함된 데이터를 지칭하고, 신택스 구조는 특정 순서로 비트스트림에 존재하는 신택스 정보의 구조를 지칭한다.
코딩 트리 블록의 크기는 SPS의 파라미터 정보를 이용하여 결정될 수 있다. SPS는 코딩 블록의 최소 크기를 지시하는 제1 정보와 코딩 블록의 최소 크기와 최대 크기 간의 차이를 지시하는 제2 정보를 포함할 수 있다. 본 명세서에서, 상기 제1 정보는 log2_min_luma_coding_block_size_minus3라고 지칭될 수 있고, 상기 제2 정보는 log2_diff_max_min_luma_coding_block_size라고 지칭될 수 있다. 일반적으로 블록의 크기는 2의 거듭제곱으로 표현될 수 있으므로 각 정보는 실제 값의 log2 값으로 표현될 수 있다. 따라서, 코딩 블록의 최소 크기의 log2 값은 제1 정보의 값에 특정 오프셋(예, 3)을 더하여 구할 수 있고, 코딩 트리 블록의 크기의 log2 값은 코딩 블록의 최소 크기의 log2 값에 제2 정보의 값을 더하여 구할 수 있다. 코딩 트리 블록의 크기는 1을 log2 값만큼 좌측 시프트하여 구할 수 있다. 최소 크기와 최대 크기 간의 차이를 지시하는 제2 정보는 코딩 트리 블록 내에서 코딩 블록에 대해 최대 허용되는 분할 횟수를 나타낼 수 있다. 또는, 상기 제2 정보는 코딩 트리 블록 내에서 코딩 트리의 최대 깊이를 나타낼 수 있다.
구체적으로, SPS의 파라미터 정보 중에서 제1 정보(예, log2_min_luma_coding_block_size_minus3)의 값이 n이고, 제2 정보(log2_diff_max_min_luma_coding_block_size)의 값이 m이라고 가정하면, 코딩 블록의 최소 크기 N×N는 N=1<<(n+3)으로 결정되고 코딩 트리 블록의 크기 M×M은 M=1<<(n+m+3) 또는 N<<m으로 결정될 수 있다. 또한, 코딩 트리 블록 내에서 코딩 블록의 최대 허용 분할 횟수 또는 코딩 트리의 최대 깊이는 m으로 결정될 수 있다.
예를 들어, 코딩 트리 블록의 크기가 64×64이고 코딩 트리 블록 내에서 코딩 트리의 최대 깊이가 3인 경우를 가정하면, 코딩 트리 블록이 쿼드 트리 방식으로 최대 3번 분할될 수 있으며 최소 코딩 블록의 크기는 8×8일 수 있다. 따라서, SPS 파라미터 정보 중에서 제1 정보(예, log2_min_luma_coding_block_size_minus3)는 0의 값을 가질 수 있고, 제2 정보(log2_diff_max_min_luma_coding_block_size)는 3의 값을 가질 수 있다.
도 3은 코딩 트리 블록(CTB)을 분할하는 방법의 순서도를 예시한다.
HEVC 표준에서는 압축효율 제고를 위해 CTB를 쿼드 트리 방식으로 적어도 하나의 코딩 블록(CB)으로 분할한 후 코딩 블록에 대해 인트라 예측 모드 또는 인터 예측 모드를 결정할 수 있다. CTB가 분할되지 않는 경우 CTB는 CB에 해당할 수 있으며, 이 경우 CB는 CTB와 동일한 크기를 가질 수 있으며 해당 CTB에 대해 인트라 예측 모드 또는 인터 예측 모드가 결정될 수 있다.
CTB가 쿼드 트리 방식으로 분할될 때 재귀적으로 분할될 수 있다. CTB는 4개의 블록으로 분할된 다음 각 분할된 블록은 쿼드 트리 방식으로 하위 블록으로 다시 추가적으로 분할될 수 있다. CTB를 쿼드 트리 방식으로 재귀적으로 분할하여 최종적으로 생성되는 각 블록이 코딩 블록이 될 수 있다. 예를 들어, CTB가 제1, 2, 3, 4 블록을 분할된 다음, 제1 블록이 제5, 6, 7, 8 블록으로 분할되고, 제2, 3, 4 블록이 분할되지 않는 경우 제2, 3, 4, 5, 6, 7, 8 블록이 코딩 블록으로 결정될 수 있다. 이 예에서, 제2, 3, 4, 5, 6, 7, 8 블록 각각에 대해 인트라 예측 모드 또는 인터 예측 모드가 결정될 수 있다.
CTB가 코딩 블록으로 분할되는지 여부는 RD(rate distortion) 효율을 고려하여 인코더 측에서 결정될 수 있으며, 분할 여부를 지시하는 정보를 비트스트림에 포함시킬 수 있다. 본 명세서에서, CTB 또는 코딩 블록이 절반의 수평/수직 크기를 가지는 코딩 블록으로 분할되는지 여부를 지시하는 정보는 split_cu_flag라고 지칭될 수 있다. 설명의 편의를 위해, CTB 내에서 블록이 분할되는지 여부를 지시하는 정보는 코딩 블록을 위한 분할 지시 정보라고 지칭될 수 있다. 디코더 측에서는 코딩 쿼드 트리 내에서 각 코딩 블록에 대해서 분할 여부를 지시하는 정보를 비트스트림으로부터 획득하여 코딩 블록의 분할 여부를 결정하고 쿼드 트리 방식으로 코딩 블록을 재귀적으로 분할할 수 있다. CTB가 재귀적으로 분할하여 형성되는 코딩 블록의 트리 구조를 코딩 트리 또는 코딩 쿼드 트리라고 지칭한다. 코딩 트리 내에서 각 코딩 블록이 더 이상 분할되지 않는 경우 해당 블록은 최종적으로 코딩 블록으로 지정될 수 있다.
앞서 설명한 바와 같이, 코딩 블록은 예측을 수행하기 위해 적어도 하나의 예측 블록으로 분할될 수 있다. 또한, 코딩 블록은 변환을 수행하기 위해 적어도 하나의 변환 블록으로 분할될 수 있다. CTB와 유사한 방식으로, 코딩 블록은 쿼드 트리 방식으로 재귀적으로 변환 블록으로 분할될 수 있다. 코딩 블록을 쿼드 트리 방식으로 재귀적으로 분할하여 형성되는 구조를 변환 트리 또는 변환 쿼드 트리라고 지칭할 수 있으며, 분할 지시 정보와 유사하게 변환 트리 내에서 각 블록이 분할되는지 여부를 지시하는 정보가 비트스트림에 포함될 수 있다. 본 명세서에서 변환을 위해 블록이 절반의 수평/수직 크기를 가지는 유닛으로 분할되는지 여부를 지시하는 정보는 split_transform_flag라고 지칭될 수 있다. 설명의 편의를 위해, 변환 트리에서 각 블록이 분할되는지 여부를 지시하는 정보는 변환 블록을 위한 분할 지시 정보라고 지칭될 수 있다.
도 4는 CTB를 쿼드 트리 방식으로 분할하는 예를 예시한다.
도 4를 참조하면, CTB는 블록 1-7을 포함하는 제1 코딩 블록, 블록 8-17을 포함하는 제2 코딩 블록, 블록 18에 해당하는 제3 코딩 블록, 블록 19-28을 포함하는 제4 코딩 블록으로 분할될 수 있다. 제1 코딩 블록은 블록 1에 해당하는 코딩 블록, 블록 2에 해당하는 코딩 블록, 블록 3-6을 포함하는 제5 코딩 블록, 블록 7에 해당하는 코딩 블록으로 분할될 수 있다. 제2 코딩 블록은 코딩 쿼드 트리 내에서는 더 이상 분할되지 않지만, 변환을 위해서는 추가적인 변환 블록으로 분할될 수 있다. 제4 코딩 블록은 블록 19-22를 포함하는 제6 코딩 블록, 블록 23에 해당하는 코딩 블록, 블록 24에 해당하는 코딩 블록, 블록 25-28을 포함하는 제7 코딩 블록으로 분할될 수 있다. 제6 코딩 블록은 블록 19에 해당하는 코딩 블록, 블록 20에 해당하는 코딩 블록, 블록 21에 해당하는 코딩 블록, 블록 22에 해당하는 코딩 블록으로 분할될 수 있다. 제7 코딩 블록은 코딩 쿼드 트리 내에서는 더 이상 분할되지 않지만, 변환을 위해서는 추가적인 변환 블록으로 분할될 수 있다.
앞서 설명된 바와 같이, CTB 또는 코딩 블록 각각에 대해 분할 여부를 지시하는 정보(예, split_cu_flag)가 비트스트림에 포함될 수 있다. 분할 여부를 지시하는 정보가 제1 값(예, 1)을 가지는 경우 CTB 또는 각 코딩 블록이 분할될 수 있고, 분할 여부를 지시하는 정보가 제2 값(예, 0)을 가지는 경우 CTB 또는 각 코딩 블록은 분할되지 않는다. 분할 여부를 지시하는 정보의 값은 달라질 수 있다.
도 4의 예에서, CTB, 제1 코딩 블록, 제4 코딩 블록, 제6 코딩 블록에 대한 분할 지시 정보(예, split_cu_flag)는 제1 값(예, 1)을 가질 수 있으며, 디코더는 비트스트림으로부터 해당 유닛에 대한 분할 지시 정보를 획득하고 이 값에 따라 해당 유닛을 4개의 하위 유닛으로 분할할 수 있다. 반면, 다른 코딩 블록들(블록 1, 2, 7, 18, 19, 20, 21, 22, 23, 24, 및 블록 3-6에 해당하는 코딩 블록, 블록 8-17에 해당하는 코딩 블록, 블록 25-28에 해당하는 코딩 블록)에 대한 분할 지시 정보(예, split_cu_flag)는 제2 값(예, 0)을 가질 수 있으며, 디코더는 비트스트림으로부터 해당 유닛에 대한 분할 지시 정보를 획득하고 이 값에 따라 해당 유닛을 더 이상 분할하지 않는다.
앞서 설명된 바와 같이, 각 코딩 블록은 변환을 위해 변환 블록을 위한 분할 지시 정보에 따라 쿼드 트리 방식으로 적어도 하나의 변환 블록으로 분할될 수 있다. 도 4를 다시 참조하면, 블록 1, 2, 7, 18, 19, 20, 21, 22, 23, 24에 해당하는 코딩 블록은 변환을 위해 분할되지 않으므로 변환 블록은 코딩 블록에 해당할 수 있지만, 다른 코딩 블록(블록 3-4, 8-17, 25-28에 대응되는 코딩 블록)은 변환을 위해 추가적으로 분할될 수 있다. 각 코딩 블록(예, 블록 3-4, 8-17, 25-28에 대응되는 코딩 블록)으로부터 형성되는 변환 트리 내에서 각 유닛에 대한 분할 지시 정보(예, split_transform_flag)를 획득하고 분할 지시 정보의 값에 따라 변환 블록으로 분할할 수 있다. 도 4에 예시된 바와 같이, 블록 3-6에 대응되는 코딩 블록은 깊이(depth) 1의 변환 트리를 형성하도록 변환 블록들로 분할될 수 있고, 블록 8-17에 대응되는 코딩 블록은 깊이 3을 가지는 변환 트리를 형성하도록 변환 블록들로 분할될 수 있으며, 블록 25-28에 대응되는 코딩 블록은 깊이 1을 가지는 변환 트리를 형성하도록 변환 블록들로 분할될 수 있다.
도 5는 코딩 블록을 위한 신택스 정보 및 동작을 예시하고, 도 6은 변환 트리에 대한 신택스 정보 및 동작을 예시한다. 도 5에 예시된 바와 같이, 현재 코딩 블록에 대해 변환 트리 구조가 존재하는지 여부를 지시하는 정보가 비트스트림을 통해 시그널링될 수 있으며, 본 명세서에서 이 정보는 변환 트리 코딩 지시 정보 또는 rqt_root_cbf라고 지칭될 수 있다. 디코더는 변환 트리 코딩 지시 정보를 비트스트림으로부터 획득하고 변환 트리 코딩 지시 정보가 해당 코딩 블록에 대해 변환 트리가 존재함을 지시하는 경우 도 6에 예시된 동작을 수행할 수 있다. 만일 변환 트리 코딩 지시 정보가 해당 코딩 블록에 대해 변환 트리가 존재하지 않음을 지시하는 경우 해당 코딩 블록에 대한 변환 계수 정보는 존재하지 않으며 해당 코딩 블록에 대한 (인트라 또는 인터) 예측값을 이용하여 코딩 블록을 복원할 수 있다.
코딩 블록은 인트라 예측 모드 또는 인터 예측 모드로 코딩되는지 여부를 결정하는 기본 단위이다. 따라서, 각 코딩 블록에 대해 예측 모드 정보가 비트스트림을 통해 시그널링될 수 있다. 예측 모드 정보는 해당 코딩 블록이 인트라 예측 모드를 이용하여 코딩되는지 아니면 인터 예측 모드를 이용하여 코딩되는지를 지시할 수 있다.
예측 모드 정보가 해당 코딩 블록이 인트라 예측 모드로 코딩됨을 지시하는 경우, 인트라 예측 모드를 결정하는 데 사용되는 정보들이 비트스트림을 통해 시그널링될 수 있다. 예를 들어, 인트라 예측 모드를 결정하는 데 사용되는 정보는 인트라 예측 모드 참조 정보를 포함할 수 있다. 인트라 예측 모드 참조 정보는 현재 코딩 블록의 인트라 예측 모드가 이웃 (예측) 유닛으로부터 유도되는지 여부를 지시하며, 예를 들어 prev_intra_luma_pred_flag라고 지칭될 수 있다.
인트라 예측 모드 참조 정보가 현재 코딩 블록의 인트라 예측 모드가 이웃 유닛으로부터 유도됨을 지시하는 경우, 이웃 유닛의 인트라 예측 모드를 이용하여 인트라 예측 모드 후보 리스트를 구성하고 구성된 후보 리스트 중에서 현재 유닛의 인트라 예측 모드를 지시하는 인덱스 정보가 비트스트림을 통해 시그널링될 수 있다. 예를 들어, 인트라 예측 모드 후보 리스트 중에서 현재 유닛의 인트라 예측 모드로 사용되는 후보 인트라 예측 모드를 지시하는 인덱스 정보는 mpm_idx라고 지칭될 수 있다. 디코더는 인트라 예측 모드 참조 정보를 비트스트림으로부터 획득하고 획득된 인트라 예측 모드 참조 정보에 기초하여 인덱스 정보를 비트스트림으로부터 획득할 수 있다. 또한, 디코더는 획득된 인덱스 정보가 지시하는 인트라 예측 모드 후보를 현재 유닛의 인트라 예측 모드로 설정할 수 있다.
인트라 예측 모드 참조 정보가 현재 코딩 블록의 인트라 예측 모드가 이웃 유닛으로 유도됨을 지시하지 않는 경우, 현재 유닛의 인트라 예측 모드를 가리키는 정보가 비트스트림을 통해 시그널링될 수 있다. 비트스트림을 통해 시그널링되는 정보는 예를 들어 rem_intra_luma_pred_mode라고 지칭될 수 있다. 비트스트림으로부터 획득된 정보는 인트라 예측 모드 후보 리스트의 후보들의 값들과 비교하여 크거나 같은 경우 특정값(예, 1) 만큼 증가시키는 과정을 통해 현재 유닛의 인트라 예측 모드를 획득할 수 있다.
픽처가 크로마 성분(또는 색차 성분)을 포함하는 경우 크로마 코딩 블록에 대한 인트라 예측 모드를 지시하는 정보가 비트스트림을 통해 시그널링될 수 있다. 예를 들어, 크로마 인트라 예측 모드를 지시하는 정보는 intra_chroma_pred_mode라고 지칭될 수 있다. 크로마 인트라 예측 모드는 크로마 인트라 예측 모드를 지시하는 정보 및 앞서 설명된 바와 같이 획득된 인트라 예측 모드(또는 루마 인트라 예측 모드)를 이용하여 표 1을 기반으로 획득할 수 있다. 표 1에서 IntraPredModeY는 루마 인트라 예측 모드를 가리킨다.
Figure PCTKR2016002852-appb-T000001
인트라 예측 모드는 값에 따라 다양한 예측 모드를 나타낸다. 앞에서 설명한 과정을 통해 인트라 예측 모드의 값은 표 2에 예시된 바와 같이 인트라 예측 모드와 대응될 수 있다.
Figure PCTKR2016002852-appb-T000002
표 2에서 INTRA_PLANAR는 평면 예측 모드(planar prediction mode)를 나타내며, 현재 블록에 인접한 상측(upper) 이웃 블록의 복원 샘플(reconstructed sample), 좌측(left) 이웃 블록의 복원 샘플, 좌하측(lower-left) 이웃 블록의 복원 샘플, 우상측(right-upper) 이웃 블록의 복원 샘플에 대해 보간을 수행하여 현재 블록의 예측값을 획득하는 모드를 나타낸다. INTRA_DC는 DC(Direct Current) 예측 모드를 나타내며, 좌측 이웃 블록의 복원 샘플들과 상측 이웃 블록의 복원 샘플들의 평균을 이용하여 현재 블록의 예측값을 획득하는 모드를 나타낸다. INTRA_ANGULAR2 내지 INTRA_ANGULAR34는 각도 예측 모드(angular prediction mode)를 나타내며, 현재 블록 내의 현재 샘플에 대해 특정 각도의 방향에 위치한 이웃 블록의 복원 샘플을 이용하여 현재 샘플의 예측값을 구하는 모드를 나타낸다. 특정 각도의 방향에 실제 샘플이 존재하지 않는 경우 이웃 복원 샘플들에 대해 보간을 수행하여 해당 방향에 대한 가상 샘플을 생성하여 예측값을 구할 수 있다.
인트라 예측 모드는 코딩 블록 별로 구할 수 있지만, 인트라 예측은 변환 블록 단위로 수행될 수 있다. 따라서, 앞서 설명한 이웃 블록의 복원 샘플은 현재 변환 블록의 이웃 블록 내에 존재하는 복원 샘플을 지칭할 수 있다. 인트라 예측 모드를 이용하여 현재 블록에 대한 예측값을 구한 다음 현재 블록의 샘플값과 예측값 간의 차이를 구할 수 있다. 현재 블록의 샘플값과 예측값 간의 차이를 레지듀얼(또는 레지듀얼 정보 또는 레지듀얼 데이터)이라고 지칭할 수 있다. 디코더 측에서는 현재 블록에 대한 변환 계수 정보를 비트스트림으로부터 획득한 다음, 획득한 변환 계수 정보에 대해 역양자화 및 역변환을 수행하여 레지듀얼을 구할 수 있다. 역양자화는 양자화 파라미터(QP) 정보를 이용하여 변환 계수 정보의 값을 스케일링하는 것을 지칭할 수 있다. 변환 블록은 변환을 수행하는 기본 단위이므로, 변환 블록 단위로 변환 계수 정보가 비트스트림을 통해 시그널링될 수 있다.
인트라 예측을 수행하는 경우 레지듀얼이 0일 수 있다. 예를 들어, 현재 블록의 샘플과 인트라 예측을 위한 참조 샘플이 동일한 경우 레지듀얼의 값이 0일 수 있다. 현재 블록에 대한 레지듀얼 값이 모두 0일 경우 변환 계수 정보의 값도 모두 0이므로 변환 계수 정보를 비트스트림을 통해 시그널링할 필요가 없다. 따라서, 비트스트림을 통해 해당 블록에 대한 변환 계수 정보가 시그널링되는지 여부를 지시하는 정보를 비트스트림을 통해 시그널링할 수 있다. 해당 변환 블록이 0이 아닌 변환 계수 정보를 가지는지 여부를 지시하는 정보는 코딩 블록 지시 정보(coded block indication information) 또는 코딩 블록 플래그 정보(coded block flag information)라고 지칭하며, 본 명세서에서 cbf로 지칭될 수 있다. 루마 성분에 대한 코딩 블록 지시 정보는 cbf_luma로 지칭될 수 있고, 크로마 성분에 대한 코딩 블록 지시 정보는 cbf_cr 또는 cbf_cb로 지칭될 수 있다. 디코더는 해당 변환 블록에 대한 코딩 블록 지시 정보를 비트스트림으로부터 획득하고, 코딩 블록 지시 정보가 해당 블록이 0이 아닌 변환 계수 정보를 포함함을 지시하는 경우 해당 변환 블록에 대한 변환 계수 정보를 비트스트림으로부터 획득하고 역양자화 및 역변환을 거쳐 레지듀얼을 획득할 수 있다.
현재 코딩 블록이 인트라 예측 모드로 코딩되는 경우, 디코더는 변환 블록 단위로 예측값을 구하여 현재 코딩 블록에 대한 예측값을 구하고 및/또는 변환 블록 단위로 레지듀얼을 구하여 현재 코딩 블록에 대한 레지듀얼을 구할 수 있다. 디코더는 현재 코딩 블록에 대한 예측값 및/또는 레지듀얼을 이용하여 현재 코딩 블록을 복원할 수 있다.
변환/역변환 기법으로서 이산 코사인 변환(discrete cosine transform, DCT)이 널리 이용되고 있다. DCT를 위한 변환 기저들은 적은 메모리와 빠른 연산을 위해 정수 형태로 근사화될 수 있다. 정수로 근사화된 변환 기저들은 행렬 형태로 표현될 수 있는데 행렬 형태로 표현된 변환 기저들을 변환 행렬이라고 지칭할 수 있다. H.265/HEVC 표준에서는 4×4 내지 32×32 크기의 정수 변환이 사용되며 4×4 또는 32×32 변환 행렬이 제공된다. 4×4 변환 행렬은 4×4 변환/역변환에 이용되고, 32×32 변환 행렬은 8×8, 16×16, 32×32 변환/역변환에 이용될 수 있다.
한편, 현재 코딩 블록에 대한 예측 모드 정보가 현재 코딩 블록이 인터 예측을 이용하여 코딩됨을 지시하는 경우, 현재 코딩 블록의 파티셔닝 모드(partitioning mode)를 지시하는 정보가 비트스트림을 통해 시그널링될 수 있다. 현재 코딩 블록의 파티셔닝 모드를 지시하는 정보는 예를 들어 part_mode로 나타낼 수 있다. 현재 코딩 블록이 인터 예측을 이용하여 코딩되는 경우, 현재 코딩 블록의 파티셔닝 모드에 따라 현재 코딩 블록을 적어도 하나의 예측 블록을 분할할 수 있다.
예를 들어, 현재 코딩 블록이 2N×2N 블록이라고 가정하면, 파티셔닝 모드는 PART_2Nx2N, PART_2NxN, PART_Nx2N, PART_2NxnU, PART_2NxnD, PART_nLx2N, PART_nRx2N, PART_NxN을 포함할 수 있다. PART_2Nx2N는 현재 코딩 블록과 예측 블록이 동일한 모드를 나타낸다. PART_2NxN는 현재 코딩 블록이 2개의 2N×N 예측 블록으로 분할되는 모드를 나타낸다. PART_Nx2N는 현재 코딩 블록이 2개의 N×2N 예측 블록으로 분할되는 모드를 나타낸다. PART_2NxnU는 현재 코딩 블록이 상측의 2N×n 예측 블록과 하측의 2N×(N-n) 예측 블록으로 분할되는 모드를 나타낸다. PART_2NxnD는 현재 코딩 블록이 상측의 2N×(N-n) 예측 블록과 하측의 2N×n 예측 블록으로 분할되는 모드를 나타낸다. PART_nLx2N는 현재 코딩 블록이 좌측의 n×2N 예측 블록과 우측의 (N-n)×2N 예측 블록으로 분할되는 모드를 나타낸다. PART_nRx2N는 현재 코딩 블록이 좌측의 (N-n)×2N 예측 블록과 우측의 n×2N 예측 블록으로 분할되는 모드를 나타낸다. PART_NxN은 현재 코딩 블록이 4개의 N×N 예측 블록으로 분할되는 모드를 나타낸다. 예를 들어, n은 N/2이다.
현재 코딩 블록이 인트라 코딩 모드인 경우에도 part_mode가 비트스트림을 통해 시그널링될 수 있다. 다만, 현재 코딩 블록이 인트라 코딩 모드이면, 현재 코딩 블록의 크기가 코딩 블록의 최소 크기인 경우에만 part_mode가 시그널링되며 part_mode의 값에 따라 현재 코딩 블록이 4개의 블록으로 추가 분할되는지 여부를 지시할 수 있다.
예측 유닛은 움직임 추정 및 움직임 보상을 수행하는 단위이다. 따라서, 예측 유닛 단위로 인터 예측 파라미터 정보가 비트스트림을 통해 시그널링될 수 있다. 인터 예측 파라미터 정보는 예를 들어 참조 픽처 정보, 움직임 벡터 정보를 포함할 수 있다. 인터 예측 파라미터 정보는 이웃 유닛으로부터 유도되거나 비트스트림을 통해 시그널링될 수 있다. 인터 예측 파라미터 정보를 이웃 유닛으로부터 유도하는 경우를 병합 모드(merge mode)라고 지칭한다. 따라서, 현재 예측 유닛에 대한 인터 예측 파라미터 정보가 이웃 유닛으로부터 유도되는지 여부를 지시하는 정보가 비트스트림을 통해 시그널링될 수 있으며, 해당 정보는 병합 지시(merge indication) 정보 또는 병합 플래그 정보라고 지칭될 수 있다. 병합 지시 정보는 예를 들어 merge_flag로 나타낼 수 있다.
병합 지시 모드가 현재 예측 유닛의 인터 예측 파라미터 정보가 이웃 유닛으로부터 유도됨을 지시하는 경우, 이웃 유닛을 이용하여 병합 후보 리스트를 구성하고 병합 후보 리스트 중에서 현재 유닛의 인터 예측 파라미터 정보를 유도할 병합 후보를 지시하는 정보가 비트스트림을 통해 시그널링될 수 있으며, 해당 정보는 병합 인덱스 정보라고 지칭될 수 있다. 예를 들어, 병합 인덱스 정보는 merge_idx로 나타낼 수 있다. 이웃 블록은 현재 블록을 포함하는 픽처 내에서 현재 블록과 인접한 좌측 이웃 블록, 상측 이웃 블록, 좌상측 이웃 블록, 좌하측 이웃 블록, 우상측 이웃 블록을 포함하는 공간적 이웃 블록과 현재 블록을 포함하는 픽처와 상이한 픽처 내에서 현재 블록에 대응하는 위치에 위치한(또는 co-located) 시간적 이웃 블록을 포함할 수 있다. 디코더는 상기 이웃 블록들을 이용하여 병합 후보 리스트를 구성하고 병합 인덱스 정보를 비트스트림으로부터 획득하고 병합 후보 리스트 중에서 병합 인덱스 정보가 지시하는 이웃 블록의 인터 예측 파라미터 정보를 현재 블록의 인터 예측 파라미터 정보로 설정할 수 있다.
한편, 예측 블록이 코딩 블록에 대응되고 예측 블록에 대해 인터 예측을 수행한 결과 인터 예측 파라미터 정보가 특정 이웃 블록과 동일하고 레지듀얼도 모두 0인 경우, 인터 예측 파라미터 정보 및 변환 계수 정보 등이 비트스트림을 통해 시그널링될 필요가 없다. 이 경우, 코딩 블록에 대한 인터 예측 파라미터 정보는 이웃 블록으로부터 유도하면 되므로 병합 모드가 적용될 수 있다. 따라서, 해당 코딩 블록이 인터 예측을 이용하여 코딩되는 경우 해당 코딩 블록에 대해서는 병합 인덱스 정보만을 비트스트림을 통해 시그널링할 수 있는데, 이러한 모드를 병합 스킵 모드(merge skip mode)라고 지칭한다. 즉, 병합 스킵 모드에서는 병합 인덱스 정보(예, merge_idx)를 제외하고 코딩 블록에 대한 신택스 정보는 시그널링되지 않는다. 다만, 해당 코딩 블록에 대하여 병합 인덱스 정보(예, merge_idx)를 제외하고 더 이상 신택스 정보를 획득할 필요가 없다는 것을 지시하기 위해 스킵 플래그 정보가 비트스트림을 통해 시그널링될 수 있으며, 본 명세서에서 스킵 플래그 정보는 cu_skip_flag라고 지칭될 수 있다. 디코더는 인트라 코딩 모드가 아닌 슬라이스에서는 코딩 블록에 대해 스킵 플래그 정보를 획득하고 스킵 플래그 정보에 따라 병합 스킵 모드에서 코딩 블록을 복원할 수 있다.
병합 지시 모드가 현재 예측 블록의 인터 예측 파라미터 정보가 이웃 블록으로부터 유도됨을 지시하지 않는 경우, 현재 예측 블록의 인터 예측 파라미터는 비트스트림을 통해 시그널링될 수 있다. 현재 예측 블록의 L0 예측인지 및/또는 L1 예측인지에 따라 참조 픽처 리스트 0에 대한 참조 픽처 인덱스 정보 및/또는 참조 픽처 리스트 1에 대한 참조 픽처 인덱스 정보가 비트스트림을 통해 시그널링될 수 있다. 움직임 벡터 정보는 움직임 벡터 차이(motion vector difference)를 나타내는 정보와 움직임 벡터 예측값(motion vector predictor)을 나타내는 정보가 비트스트림을 통해 시그널링될 수 있다. 움직임 벡터 예측값을 나타내는 정보는 이웃 블록들의 움직임 벡터들로 구성되는 움직임 벡터 예측값 후보 리스트 중에서 현재 블록의 움직임 벡터 예측값으로 사용되는 후보를 지시하는 인덱스 정보이며, 움직임 벡터 예측값 지시 정보라고 지칭될 수 있다. 움직임 벡터 예측값 지시 정보는 예를 들어 mvp_l0_flag 또는 mvp_l1_flag으로 나타낼 수 있다. 디코더는 움직임 벡터 예측값 지시 정보에 기초하여 움직임 벡터 예측값을 획득하고 비트스트림으로부터 움직임 벡터 차이에 관련된 정보를 획득하여 움직임 벡터 차이를 구한 다음 움직임 벡터 예측값과 움직임 벡터 차이를 이용하여 현재 블록에 대한 움직임 벡터 정보를 구할 수 있다.
현재 코딩 블록이 인터 예측을 이용하여 코딩되는 경우, 인터 예측이 예측 블록 단위로 수행되는 것을 제외하고 변환 블록에 대해서는 동일/유사한 원리가 적용될 수 있다. 따라서, 현재 코딩 블록이 인터 예측을 이용하여 코딩되는 경우, 현재 코딩 블록을 쿼드 트리 방식으로 적어도 하나의 변환 블록으로 분할하고, 분할된 변환 블록 각각에 대하여 코딩 블록 지시 정보(예, cbf_luma, cbf_cb, cbf_cr)에 기초하여 변환 계수 정보를 획득하고 획득된 변환 계수 정보에 대해 역양자화 및 역변환을 수행하여 레지듀얼을 획득할 수 있다.
현재 코딩 블록이 인트라 예측 모드로 코딩되는 경우, 디코더는 예측 블록 단위로 예측값을 구하여 현재 코딩 블록에 대한 예측값을 구하고 및/또는 변환 블록 단위로 레지듀얼을 구하여 현재 코딩 블록에 대한 레지듀얼을 구할 수 있다. 디코더는 현재 코딩 블록에 대한 예측값 및/또는 레지듀얼을 이용하여 현재 코딩 블록을 복원할 수 있다.
HEVC 표준은 4K 이상의 초고해상도(예, 4096×2160) 영상을 지원한다. 4K 이상의 초고해상도 영상에서는 균일(homogeneous)한 영역이 많아질 수 있다. 특히, 8K(예, 8192×4320) 이상의 해상도를 가지는 영상의 경우 4K 영상에 비해 균일한 영역의 크기는 더욱 커질 수 있다. 또한, 카메라에 입력되는 장면은 그대로인데 해상도를 증가시킬 경우 기존 해상도에서 CTB가 커버하는 영역의 블록 크기는 증가하는 반면 CTB 크기는 그대로이므로 기존 CTB의 크기(예, 64×64)가 상대적으로 작아지는 효과를 가질 수 있다. 따라서, 기존 HEVC 표준에서 지원하는 CTB 크기(예, 64×64)보다 더 큰 CTB 사이즈(예, 128×128 또는 256×256)를 사용하는 것이 코딩 효율을 더욱 높일 수 있다.
도 7은 텍스처 특성에 따라 하나의 픽처를 코딩 블록들로 분할하는 예를 예시한다.
도 7을 참조하면, 하나의 픽처는 고정된 크기(예, 64×64)의 코딩 트리 블록으로 분할될 수 있고, 각 코딩 트리 블록은 적어도 하나의 코딩 블록으로 분할되어 코딩 트리를 형성할 수 있다. 도 7의 예에서, CTB 크기는 동일하지만 CTB 내에서 코딩 블록은 트리 깊이 또는 분할 횟수에 따라 다양한 크기를 가질 수 있다.
도 7에 예시된 바와 같이, 하나의 픽처에 다양한 특성을 가지는 텍스처가 존재할 수 있다. 예를 들어, CTB(710)와 같이 텍스처가 복잡한 부분의 경우, 작은 코딩 블록으로 분할하여 인코딩/디코딩을 수행하는 것이 효율적일 수 있다. 반면, 예를 들어 CTB(720)와 같이 텍스처가 단순하여 비슷한 특성을 가지는 영역에 대해서는 CTB를 복수의 코딩 블록으로 분할하지 않고 인코딩/디코딩을 수행하는 것이 효율적일 수 있다.
특히, 영역(730)과 같이 4개의 CTB에 대응되는 영역이 유사한 특성을 가지는 경우 해당 영역 전체를 4개의 CTB로 분할하지 않고 인코딩/디코딩을 수행하는 것이 더욱 효율적일 수 있다. 만일 기존 방법에 따라 하나의 픽처를 고정된 크기의 CTB로 분할하는 경우 4개의 CTB들 각각에 대한 신택스 정보가 비트스트림을 통해 시그널링될 필요가 있다. 예를 들어, 4개의 CTB 각각에 대해 CTB가 쿼드 트리 방식으로 분할되는지 여부를 지시하는 분할 지시 정보(예, split_cu_flag)가 비트스트림을 통해 시그널링될 수 있다(예, 도 3 참조). 따라서, 해당 영역(730) 내에서 각 CTB가 복수의 코딩 블록로 분할되지 않고(예, 각 CTB에 대한 split_cu_flag의 값이 0인 경우) CTB 단위로 인코딩/디코딩이 수행되더라도 각 CTB에 대한 분할 지시 정보가 시그널링되어야 한다. 예를 들어, 영역(730)은 4개의 CTB에 대응되고 각 CTB는 분할되지 않고 코딩 블록에 대응되므로, 각 CTB에 대해 split_cu_flag가 시그널링되며 영역(730)에 대해 4비트의 분할 지시 정보가 시그널링될 수 있다.
반면, 영역(730)을 하나의 CTB에 할당하고 해당 CTB가 복수의 코딩 블록으로 분할되지 않는 경우 해당 영역(730) 전체에 대해 분할 지시 정보가 한 번만 시그널링될 수 있다. 따라서, 기존 방법에 비해 적어도 3비트를 절감할 수 있다. 만일 더 큰 사이즈의 영역이 유사한 특성을 가져서 하나의 CTB로 처리될 경우 더 많은 개수의 비트를 절감할 수 있다. 예를 들어, 영역(740)은 16개의 CTB에 대응되며 영역(740)이 하나의 CTB로 처리될 경우 기존 방법에 비해 적어도 15개의 비트를 절감할 수 있다.
영상 해상도가 높아지면 텍스처 특성이 유사한 영역이 증가할 수 있기 때문에 하나의 큰 블록으로 묶어서 코딩하는 것이 코딩 효율을 향상시킬 수 있다. 기존 방법에 따라 고정된 크기의 CTB를 사용할 경우에는 텍스처 특성이 유사한 영역(예, smooth한 영역)에서도 여러 개의 CTB로 나누어 코딩을 해야 하기 때문에 불필요한 부가 정보(side information)(예, split_cu_flag)를 보내야 하는 상황이 발생한다.
이러한 문제를 해결하기 위해 CTB의 크기를 키우는 것을 고려할 수 있다(예, 128×128 또는 256×256). 즉, 하나의 픽처를 더 큰 고정 크기(예, 128×128 또는 256×256)의 CTB로 분할하고 더 큰 고정 크기의 CTB 단위로 처리하는 것을 고려할 수 있다. 하지만, 이 경우에도 텍스처 특성이 유사한 단순한 영역에서는 코딩 효율을 높일 수 있지만, 텍스처가 세밀한 영역의 경우 쿼드 트리 방식으로 분할되는 횟수(또는 쿼드 트리 깊이)가 기존 방법에 비해 더욱 증가할 수 있다. 예를 들어, 픽처를 256×256 크기의 CTB 단위로 나누어 처리하는 상황에서, 특정 영역의 텍스처가 복잡하여 8×8 코딩 블록으로 분할될 필요가 있다고 가정하자. 이 경우, 기존 방법에 따르면 64×64 CTB에서 쿼드 트리 방식으로 3번 분할하면 되지만, 256×256 CTB에 대해서는 쿼드 트리 방식으로 5번 분할할 필요가 있다. 따라서, CTB의 크기를 단순히 증가시키는 경우, 부가 정보(예, split_cu_flag) 전송량이 오히려 증가될 수 있고 코딩 효율이 감소될 수 있다.
본 발명에 따른 방법 1
상기 설명한 기술적 문제를 해결하기 위해, 본 발명에서는 텍스처 특성에 따라 적응적으로 CTB 크기를 결정할 것을 제안한다. 구체적으로, 본 발명에서는 하나의 슬라이스 또는 픽처 내에서 CTB 크기를 가변적으로 변경할 수 있는 방법을 제안한다. 본 발명에 따른 CTB는 하나의 픽처 또는 슬라이스 내에서 가변적인 크기를 가지며, 예를 들어 가변적인 크기를 가지는 정사각형 블록에 해당할 수 있다.
하나의 슬라이스 또는 픽처 내에서 CTB 크기를 가변적으로 변경할 경우, 유사한 텍스처 특성을 가지는 영역(예, smooth한 영역)에서는 큰 크기의 CTB를 사용할 수 있고, 복잡한 텍스처 특성을 가지는 영역에서는 작은 크기의 CTB를 사용할 수 있다. 따라서, 본 발명에 따르면 CTB를 위해 시그널링되는 신택스 정보 또는 부가 정보(side information)의 양을 줄일 수 있으므로 코딩 효율을 향상시킬 수 있다.
도 8은 기존 방법에 따른 CTB와 본 발명에 따른 CTB를 예시한다. 도 8(a)는 기존 방법에 따라 하나의 픽처를 고정된 크기의 CTB로 분할하여 처리하는 예를 예시하고, 도 8(b)는 본 발명에 따라 하나의 픽처 또는 슬라이스 내에서 CTB의 크기를 적응적으로 결정하고 하나의 픽처 또는 슬라이스를 적응적 크기의 CTB로 분할하여 처리하는 예를 예시한다.
도 8에서 알 수 있듯이, 텍스처 특성에 따라 CTB의 크기를 가변적/적응적으로 결정할 경우 더 큰 영역을 하나의 CTB로서 처리할 수 있다. 예를 들어, CTB(810)의 경우 기존 방법에 따르면 4개의 CTB로 처리될 수 있지만 본 발명에 따르면 하나의 CTB로 처리될 수 있다. 따라서, CTB(810)의 경우 적어도 3비트의 부가 정보 또는 신택스 정보를 절감할 수 있으며, 코딩 효율을 향상시킬 수 있다. 다른 예로, CTB(820)의 경우 기존 방법에 따르면 16개의 CTB로 처리될 수 있지만 본 발명에 따르면 하나의 CTB로 처리될 수 있다. 따라서, CTB(820)의 경우 적어도 16비트의 부가 정보 또는 신택스 정보를 절감할 수 있으며, 코딩 효율을 향상시킬 수 있다.
본 발명에 따른 CTB 타입 시그널링
본 발명에 따라 가변적/적응적 CTB를 적용하기 위해서 현재 픽처 또는 슬라이스에 대해 적용가능한 CTB 타입에 관한 정보 및/또는 CTB 타입의 개수에 관한 정보를 비트스트림을 통해 시그널링할 수 있다. 본 명세서에서, CTB 타입은 CTB의 크기 및/또는 CTB 내에서 코딩 트리의 최대 깊이를 지칭할 수 있다. 혹은, CTB 타입은 CTB 크기 및/또는 CTB 내에서 코딩 블록의 최소 크기를 지칭할 수 있다. 혹은, CTB 타입은 CTB 크기 및/또는 CTB의 최대 분할 횟수를 지칭할 수 있다. 예를 들어, 본 발명에서 적용가능한 CTB 크기는 256×256 블록, 128×128 블록, 64×64 블록, 32×32 블록, 16×16 블록, 또는 8×8 블록 중에서 적어도 하나를 포함할 수 있다.
본 명세서에서, CTB 타입에 관한 정보는 CTB 타입 정보, 타입 정보, 또는 ctb_type_n(n=0, 1, ...)으로 지칭할 수 있다. 예를 들어, CTB 타입 정보는 코딩 블록의 최소 크기를 지시하는 정보 및/또는 코딩 블록의 최대 크기를 지시하는 정보를 포함할 수 있다. 이 경우, 코딩 블록의 최대 크기는 CTB와 동일하므로 CTB의 크기는 코딩 블록의 최대 크기를 이용하여 결정될 수 있고, CTB 내에서 코딩 트리의 최대 깊이는 코딩 블록의 최대 크기와 코딩 블록의 최소 크기 간의 차이에 해당할 수 있다.
다른 예로, CTB 타입 정보는 코딩 블록의 최소 크기를 지시하는 정보 및/또는 코딩 블록의 최소 크기와 최대 크기 간의 차이를 지시하는 정보를 포함할 수 있다. 이 경우, CTB의 크기는 코딩 블록의 최소 크기와 상기 차이를 더하여 결정될 수 있고, CTB 내에서 코딩 트리의 최대 깊이는 상기 차이에 해당할 수 있다.
코딩 블록의 최소 크기를 지시하는 정보의 값과 코딩 블록의 최대 크기를 지시하는 정보의 값은 log2 값으로 표현될 수 있다. 예를 들어, 코딩 블록의 최소 크기가 N×N인 경우 코딩 블록의 최소 크기를 지시하는 정보는 log2(N)의 값을 가질 수 있고, 코딩 블록의 최대 크기가 M×M인 경우 코딩 블록의 최대 크기를 지시하는 정보는 log2(M)의 값을 가질 수 있다. 혹은, 코딩 블록의 최소 크기를 지시하는 정보의 값과 코딩 블록의 최대 크기를 지시하는 정보의 값은 log2 값에서 특정 오프셋을 뺀 값으로 표현될 수 있다. 예를 들어, 특정 오프셋이 P이고 코딩 블록의 최소 크기가 N×N인 경우 코딩 블록의 최소 크기를 지시하는 정보는 log2(N)-P의 값을 가질 수 있고, 코딩 블록의 최대 크기가 M×M인 경우 코딩 블록의 최대 크기를 지시하는 정보는 log2(M)-P의 값을 가질 수 있다.
본 명세서에서, CTB 타입 개수에 관한 정보는 타입 개수 정보, CTB 타입 개수 정보, 또는 ctb_type_num으로 지칭될 수 있다. CTB 타입 정보는 CTB 타입 개수 정보가 지시하는 횟수만큼 비트스트림을 통해 시그널링될 수 있다. 본 발명에 따른 비트스트림은 CTB 타입 개수 정보가 지시하는 횟수만큼의 CTB 타입 정보를 포함할 수 있다. 예를 들어, CTB 타입 개수 정보가 CTB 타입 개수가 n임을 지시하는 경우, n개의 CTB 타입 정보가 비트스트림을 통해 시그널링될 수 있다.
혹은, 코딩 블록의 최소 크기를 지시하는 정보는 하나만 시그널링되고, 코딩 블록의 최대 크기를 지시하는 정보 또는 코딩 블록의 최소 크기와 최대 크기 간의 차이를 지시하는 정보가 CTB 타입 개수 정보가 지시하는 횟수만큼 시그널링될 수 있다.
혹은, CTB 타입을 미리 정의해 놓고 CTB 타입 정보는 미리 정의된 CTB 타입 중에서 하나를 지시할 수 있다. 이 경우, CTB 타입 정보는 미리 정의된 CTB 타입 중에서 하나를 지시하는 인덱스를 나타낼 수 있다. 예를 들어, 하나의 픽처 내에서 적용가능한 CTB 타입으로서 n1×n1, n2×n2, ... nm×nm CTB 타입이 미리 정의되는 경우, 해당 타입을 지시하는 인덱스를 비트스트림을 통해 시그널링할 수 있다. 이 경우, 제한적이지 않은 예로서, n1×n1은 인덱스 0에 대응될 수 있고, n2×n2는 인덱스 1에 대응될 수 있고, nm×nm은 인덱스 m-1에 대응될 수 있다.
본 발명에 따른 CTB 타입 정보와 CTB 타입 개수 정보는 시퀀스 파라미터 세트(SPS), 픽처 파라미터 세트(PPS), 또는 슬라이스 (세그먼트) 헤더(SSH)를 통해 시그널링될 수 있다. SPS를 통해 시그널링되는 경우 해당 CTB 타입 정보와 CTB 타입 개수 정보는 해당 시퀀스에 포함된 모든 픽처에 적용될 수 있으며, 해당 시퀀스에 포함된 각 픽처 내에서 CTB가 가질 수 있는 CTB 타입과 타입의 개수를 나타낼 수 있다.
PPS를 통해 시그널링되는 경우 해당 픽처에만 적용될 수 있고, 다른 픽처에 대해서는 디폴트 값이 적용될 수 있다. CTB 타입 정보와 CTB 타입 개수 정보에 대한 디폴트 값은 미리 정의될 수 있다. 따라서, PPS를 통해 시그널링된 CTB 타입 정보와 CTB 타입 개수 정보는 해당 픽처 내에서 CTB가 가질 수 있는 CTB 타입과 타입의 개수를 나타낼 수 있다.
CTB 타입 정보와 CTB 타입 개수 정보가 SSH를 통해 시그널링되는 경우 해당 슬라이스에 포함된 CTB에 대해서만 적용될 수 있고, 다른 슬라이스에 대해서는 디폴트 값이 적용될 수 있다. SSH를 통해 시그널링된 CTB 타입 정보와 CTB 타입 개수 정보는 해당 슬라이스 내에서 CTB가 가질 수 있는 CTB 타입과 타입의 개수를 나타낼 수 있다.
CTB 타입 정보 및/또는 CTB 타입 개수 정보는 SPS, PPS, SSH 중에서 적어도 둘이상을 통해 시그널링될 수도 있다. 이 경우, SSH를 통해 시그널링되는 경우 해당 슬라이스 내에서만 적용될 수 있고, 다른 슬라이스에 대해서는 상위 레벨(SPS 또는 PPS)에서 시그널링되는 정보가 적용될 수 있다. 유사하게, PPS를 통해 시그널링되는 경우 해당 픽처 내에서만 적용될 수 있고, 다른 픽처에 대해서는 상위 레벨(SPS)에서 시그널링되는 정보가 적용될 수 있다.
한편, 각 CTB에 대해서도 CTB 타입을 지시하는 정보가 비트스트림을 통해 시그널링될 수 있다. CTB에 대한 정보는 SPS, PPS, SSH를 통해 시그널링되는 지원가능한 CTB 타입 중에서 하나의 CTB 타입을 지시하는 정보를 포함할 수 있다. 본 명세서에서, CTB에 대해 시그널링되는 CTB 타입 정보는 타입 지시 정보, CTB 타입 지시 정보, 또는 ctb_type_idx라고 지칭될 수 있다. 이 경우, SPS, PPS, SSH를 통해 시그널링되는 CTB 타입 정보와 CTB 타입 개수 정보를 이용하여 지원가능한 CTB 타입 후보 리스트를 구성하고, 구성된 리스트 중에서 CTB 타입 지시 정보가 가리키는 CTB 타입을 해당 CTB에 적용할 수 있다.
예를 들어, SPS, PPS, 슬라이스 (세그먼트) 헤더를 통해 n1×n1, n2×n2, ... nm×nm의 CTB 타입이 시그널링되는 경우, n1×n1은 인덱스 0, n2×n2는 인덱스 1, nm×nm은 인덱스 m-1에 대응되도록 리스트를 구성하고, 리스트 중에서 CTB 타입 지시 정보에 대응되는 인덱스의 CTB 타입을 해당 CTB에 적용할 수 있다. 구체적인 예로, 256×256, 128×128, 64×64, 32×32의 CTB 타입이 시그널링되는 경우, {256×256, 128×128, 64×64, 32×32}의 리스트를 구성하고, CTB 타입 지시 정보가 인덱스 0을 나타내는 경우 해당 CTB 타입은 256×256으로 결정되고, CTB 타입 지시 정보가 인덱스 1을 나타내는 경우 해당 CTB 타입은 128×128로 결정되고, CTB 타입 지시 정보가 인덱스 2를 나타내는 경우 해당 CTB 타입은 64×64로 결정되고, CTB 타입 지시 정보가 인덱스 3을 나타내는 경우 해당 CTB 타입은 32×32로 결정될 수 있다.
CTB 타입 후보 리스트 내에서 인덱스는 임의로 지정될 수 있다. 혹은 인덱스는 SPS, PPS, SSH 내에서 각 CTB 타입 정보의 순서에 따라 지정될 수 있다. 이 경우, 인코더는 사용 빈도가 많은 CTB 타입이 낮은 인덱스 값에 대응되도록 비트스트림을 구성할 수 있다. 낮은 인덱스 값의 경우 적은 비트로서 표현될 수 있으므로 비트 개수를 절감할 수 있는 효과가 있다. 디코더의 경우, SPS, PPS, SSH에 대해 비트스트림으로부터 CTB 타입 개수 정보를 획득하고, CTB 타입 개수 정보가 지시하는 횟수만큼 CTB 타입 정보를 비트스트림으로부터 획득한 다음, CTB 타입 정보가 획득되는 순서에 따라 낮은 인덱스 값이 할당되도록 CTB 타입 후보 리스트를 구성할 수 있다. 예를 들어, 디코더가 64×64, 32×32, 128×128, 256×256의 순서로 CTB 타입 정보를 획득하는 경우, CTB 타입 후보 리스트는 {64×64, 32×32, 128×128, 256×256}로 구성하고, 각 CTB에 대한 CTB 타입 지시 정보가 지시하는 (또는 나타내는 인덱스에 대응되는) 타입을 해당 CTB에 적용할 수 있다.
혹은, 각 CTB에 대해 다른 인덱스를 가지도록 CTB 타입 후보 리스트를 구성할 수 있다. 현재 CTB는 인접한 이웃 CTB와 유사한 타입을 가질 가능성이 높기 때문에 후보 CTB 타입 중에서 현재 CTB에 인접한 이웃 CTB를 낮은 인덱스에 할당되도록 CTB 타입 후보 리스트를 구성할 수 있다. 현재 CTB에 인접한 이웃 CTB는 현재 CTB에 인접한 좌측 이웃 CTB 및 상측 이웃 CTB를 포함할 수 있다. 이 경우, 예를 들어, 좌측 이웃 CTB의 CTB 타입을 인덱스 0에 할당하고, 상측 이웃 CTB의 CTB 타입을 인덱스 1에 할당할 수 있다. 현재 슬라이스에 대해 지원가능한 CTB 타입이 둘 이상인 경우 인덱스 2부터 할당할 수 있다. 인덱스 2부터 할당되는 CTB 타입은 크기가 작을수록 낮은 인덱스 값을 가지도록 할당할 수 있다. 혹은, 인덱스 2부터 할당되는 CTB 타입은 크기가 클수록 낮은 인덱스 값을 가지도록 할당할 수 있다. 혹은, 인덱스 2부터 할당되는 CTB 타입은 SPS, PPS, SSH를 통해 시그널링되는 순서에 따라 낮은 인덱스 값을 가지도록 할당할 수 있다. 따라서, CTB 타입 후보 리스트는 CTB 별로 달라질 수 있으며 CTB 타입 지시 정보도 이를 고려하여 결정될 수 있다.
본 발명에 따른 CTB 처리 순서
본 발명에 따라 CTB의 크기 또는 타입이 적응적/가변적으로 결정되는 경우 CTB의 처리 순서 또는 스캔 방식은 래스터 스캔(raster-scan) 순서를 따를 수 있다. 보다 구체적으로, 적응적/가변적 CTB가 적용되는 경우 CTB의 좌상단 모서리(upper-left corner) 샘플의 위치를 기준으로 래스트 스캔 순서를 적용할 수 있다.
도 9는 본 발명에 따른 CTB 스캔 순서를 예시한다. 도 9의 예에서, 각각의 사각형은 CTB를 나타내며, 숫자는 스캔 순서를 나타낸다. 또한, 도 9의 예에서, 하나의 픽처가 가변적인 크기를 가지는 65개의 CTB를 가진다고 가정하지만, 본 발명은 이에 제한되지 않는다.
도 9를 참조하면, CTB의 좌상단 모서리 샘플의 위치를 기준으로 래스트 스캔 순서를 적용하면, CTB 1 다음 CTB 2가 처리될 수 있다. 마찬가지로, CTB 2 다음에는 CTB 3이 처리될 수 있다. CTB 8이 처리된 다음에는 좌상단 모서리 기준으로 CTB 9가 다음 래스터 스캔 순서에 해당하므로 CTB 9이 처리된다. 이와 같이, 65개의 CTB가 순차적으로 처리될 수 있다.
한편, 도 9의 예에서 CTB 3이 64×64 타입에 해당하고, CTB 1이 128×128 타입에 해당하고, CTB 2가 256×256 타입에 해당한다고 가정하고, 도 9를 참조하여 CTB 타입 후보 리스트를 구성하는 방법의 예를 설명한다.
도 9의 예에서 하나의 픽처 내에서 지원가능한 타입은 3개이므로 SPS, PPS, 또는 SSH를 통해 시그널링되는 CTB 타입 개수 정보는 3을 지시할 수 있다. 따라서, SPS, PPS, 또는 SSH를 통해 CTB 타입 정보가 3개만큼 순차적으로 시그널링될 수 있다. 코딩 블록의 최소 크기가 CTB 마다 독립적으로 결정되는 경우, CTB 타입 정보는 코딩 블록의 최소 크기를 지시하는 정보 및 코딩 블록의 최대 크기를 지시하는 정보(또는 코딩 블록의 최소 크기와 최대 크기 간의 차이를 지시하는 정보)를 각각 3개 포함할 수 있다. 코딩 블록의 최소 크기가 고정되는 경우, CTB 타입 정보는 코딩 블록의 최소 크기를 지시하는 정보를 1개 포함하고, 코딩 블록의 최소 크기와 최대 크기 간의 차이를 지시하는 정보(또는 코딩 블록의 최대 크기를 지시하는 정보)를 각각 3개 포함할 수 있다.
이에 기초하여, 지원가능한 CTB의 크기에 따라 CTB 타입 후보 리스트를 구성하는 경우, CTB 타입 후보 리스트는 {256×256, 128×128, 64×64}으로 구성되거나, {64×64, 128×128, 256×256}으로 구성될 수 있다. 혹은, SPS, PPS, 또는 SSH를 통해 시그널링되는 순서에 따라 CTB 타입 후보 리스트를 구성하는 경우, CTB 타입 정보의 획득 순서에 대응되도록 CTB 타입 후보 리스트를 구성할 수 있다.
혹은, CTB 별로 독립적으로 CTB 타입 후보 리스트를 구성하는 경우, 현재 CTB에 인접한 좌측 이웃 CTB와 상측 이웃 CTB를 낮은 인덱스에 대응되도록 구성하고 나머지 CTB 타입을 뒤에 추가하여 CTB 타입 후보 리스트를 구성할 수 있다. 도 9의 예에서, CTB 14의 경우 CTB 타입 후보 리스트는 {64×64, 128×128, 256×256}으로 구성될 수 있고, CTB 31의 경우 CTB 타입 후보 리스트는 {64×64, 256×256, 128×128}으로 구성될 수 있다. 좌측 이웃 CTB와 상측 이웃 CTB가 동일한 CTB 타입을 가지는 경우 인덱스 0에는 동일한 CTB 타입을 할당하고 나머지 인덱스에 대해서는 CTB 크기에 따라 인덱스를 지정하거나 CTB 타입 정보의 획득 순서에 따라 인덱스를 지정할 수 있다.
도 10은 본 발명에 따른 방법의 순서도를 예시한다. 도 10에 예시된 방법은 적어도 하나의 픽처(또는 코딩된 픽처)를 포함하는 비트스트림에 대해 수행될 수 있다. 하나의 픽처는 적어도 하나의 슬라이스를 포함할 수 있고, 각각의 슬라이스는 일련의 CTB들을 포함할 수 있다. 하나의 픽처 또는 슬라이스 내에서 CTB들은 가변적인 크기를 가질 수 있다. 하나의 픽처 또는 슬라이스 내에서 CTB는 정사각형 블록 형태를 가질 수 있다. 따라서, 하나의 픽처는 가변적인 크기의 CTB들로 분할되어 인코딩/디코딩이 수행될 수 있다.
도 10을 참조하면, S1002 단계에서, 디코더는 비트스트림으로부터 CTB 타입 개수 정보 및 CTB 타입 정보를 획득할 수 있다. CTB 개수 정보 및 CTB 타입 정보에 대해서는 본 발명에 따른 CTB 타입 시그널링과 관련된 설명이 적용될 수 있다.
앞서 설명된 바와 같이, CTB 개수 정보 및 CTB 타입 정보는 SPS, PPS, SSH를 통해 시그널링될 수 있다. 따라서, 디코더는 SPS를 비트스트림으로부터 획득하고, 획득된 SPS는 CTB 개수 정보 및 CTB 타입 정보를 포함할 수 있다. 혹은, 디코더는 PPS를 비트스트림으로부터 획득하고, 획득된 PPS는 CTB 개수 정보 및 CTB 타입 정보를 포함할 수 있다. 혹은, 디코더는 SSH를 비트스트림으로부터 획득하고, 획득된 SSH는 CTB 개수 정보 및 CTB 타입 정보를 포함할 수 있다.
S1004 단계에서, 디코더는 비트스트림으로부터 CTB 타입 지시 정보를 획득할 수 있다. CTB 타입 지시 정보에 대해서는 본 발명에 따른 CTB 타입 시그널링과 관련된 설명이 적용될 수 있다.
S1006 단계에서, 디코더는 CTB 개수 정보 및 CTB 타입 정보에 기초하여 CTB 타입 후보 리스트를 구성할 수 있다. CTB 타입 후보 리스트는 앞서 설명된 여러 다양한 방식으로 구성될 수 있다. 디코더는 CTB 타입 후보 리스트 중에서 CTB 타입 지시 정보가 지시하는 CTB 타입을 현재 CTB에 적용할 수 있다. 예를 들어, 디코더는 CTB 타입 후보 리스트 중에서 CTB 타입 지시 정보가 지시하는 CTB 타입의 크기를 현재 CTB의 크기로 결정할 수 있다. 또한, CTB 타입 지시 정보가 지시하는 CTB 타입의 코딩 블록 최소 크기(또는 코딩 트리 최대 깊이 또는 CTB 최대 분할 횟수)를 현재 CTB의 코딩 블록 최소 크기(또는 코딩 트리 최대 깊이 또는 CTB 최대 분할 횟수)로 결정할 수 있다.
S1008 단계에서, 디코더는 결정된 CTB 타입에 기초하여 CTB로부터 적어도 하나의 코딩 블록을 결정할 수 있다. 예를 들어, CTB에 대해서는 도 3 및 도 4를 참조하여 설명된 쿼드 트리 방식이 적용될 수 있다. CTB에 대한 분할 지시 정보(예, split_cu_flag)에 기초하여 CTB는 하나의 코딩 블록에 대응될 수도 있고, 혹은 복수의 코딩 블록으로 쿼드 트리 방식으로 재귀적으로 분할될 수도 있다. CTB가 재귀적으로 분할되는 경우 분할된 블록이 CTB 내에서 최소 코딩 블록 크기에 해당될 때까지 쿼드 트리 방식으로 분할될 수 있다.
S1010 단계에서, 디코더는 CTB로부터 형성된 각 코딩 블록에 대해 예측 모드 정보를 비트스트림으로부터 획득할 수 있다. 예를 들어, 예측 모드 정보는 도 3의 pred_mode_flag에 해당할 수 있다.
S1012 단계에서, 디코더는 획득된 예측 모드 정보에 기초하여 각 코딩 블록을 복원할 수 있다. 예를 들어, 디코더는 도 5 및 도 6을 참조하여 설명된 절차를 수행하여 각 코딩 블록을 복원하여, CTB를 복원할 수 있다.
적어도 하나의 픽처에 대한 모든 CTB를 복원한 경우, 해당 픽처에 대한 디코딩이 완료될 수 있다.
본 발명에 따른 방법 2
본 발명에 따른 방법 1을 적용하여 CTB 타입을 가변적/적응적으로 결정할 경우 CTB 마다 처리 크기 및/또는 코딩 트리 구조가 달라질 수 있으며, 이로 인해 하드웨어 구조(예, 파이프라인 구조)의 비효율성이 발생할 수 있다. 예를 들어, 일부 CTB가 256×256 크기를 가질 경우 256×256 크기를 처리하기 위한 하드웨어 구조가 필요한지만, 다른 CTB의 경우 그보다 훨씬 작은 크기를 가질 수 있으므로 작은 크기의 CTB를 처리할 때에는 해당 하드웨어 구조의 대부분이 사용되지 않을 수 있다.
이러한 비효율성을 보완하기 위해, 본 발명에 따른 방법 2에서는 CTB의 크기를 기존 방법에 따른 크기보다 더 큰 사이즈(예, 128×128, 256×256)로 고정할 것을 제안한다. 구체적으로, 본 발명에 따른 방법 2에서는 CTB마다 코딩 블록의 최소 크기 및 최대 크기를 결정하고 CTB를 코딩 블록의 최대 크기로 일률적으로 분할할 수 있다. 이 경우, 코딩 트리는 코딩 블록의 최대 크기에 대응되는 블록마다 형성될 수 있고, CTB에서 분할된 코딩 블록의 최대 크기에 대응되는 블록마다 도 3, 5, 6에 예시된 절차를 수행될 수 있다.
이를 위해, CTB의 고정 크기는 미리 정의되거나, PPS, SPS, SSH를 통해 시그널링될 수 있다. 예를 들어, CTB의 고정 크기가 PPS, SPS, SSH를 통해 시그널링되는 경우 CTB의 고정 크기는 앞서 설명된 바와 같이 log2_min_luma_coding_block_size_minus3와 log2_diff_max_min_luma_coding_block_size를 이용하여 결정될 수 있다. 또한, CTB 마다 코딩 블록의 최소 크기를 지시하는 정보와 코딩 블록의 최대 크기를 지시한 정보가 비트스트림을 통해 시그널링될 수 있다. 혹은 CTB 마다 코딩 블록의 최소 크기를 지시하는 정보와 코딩 블록의 최소 크기와 최대 크기 간의 차이를 지시하는 정보를 비트스트림을 통해 시그널링할 수 있다.
디코더는 각 CTB 마다 코딩 블록의 최소 크기를 지시하는 정보와 코딩 블록의 최대 크기를 지시하는 정보(또는 코딩 블록의 최소 크기와 최대 크기 간의 차이를 지시하는 정보)를 비트스트림으로부터 획득하고, 코딩 블록의 최소 크기와 최대 크기를 결정할 수 있다. 그런 다음, 고정 크기의 CTB를 코딩 블록의 최대 크기를 갖는 블록들로 동일하게 분할한다. 디코더는 분할된 각 블록에 대해 코딩 트리를 형성할 수 있다. 예를 들어, 디코더는 분할된 각 블록에 대해 도 3 내지 도 6을 참조하여 설명된 절차를 수행할 수 있다.
본 발명에 따른 방법 2의 경우 고정 크기의 CTB를 코딩 블록의 최대 크기에 대응되는 블록으로 일괄적으로 분할하게 되므로 CTB의 일괄적 분할을 위해 부가 정보(예, split_cu_flag)가 사용되지 않는다. 또한, CTB 내에서 코딩 블록이 최소 크기까지 분할되는 경우 최소 크기의 코딩 블록에 대해서는 분할 여부를 지시하는 부가 정보(예, split_cu_flag)가 사용되지 않는다. 따라서, 부가 정보에 해당하는 비트 수를 절감할 수 있으며, 코딩 효율을 향상시킬 수 있다.
본 발명에 따른 방법 2의 변형으로서, 코딩 블록의 최소 크기는 SPS, PPS, SSH를 통해 시그널링하고 코딩 블록의 최소 크기와 최대 크기 간의 차이만을 CTB 마다 시그널링할 수 있다. 이 경우 코딩 블록의 최소 크기는 해당 시퀀스, 픽처, 슬라이스 내의 CTB들에 대해 공통적으로 적용될 수 있다.
도 11은 본 발명에 따른 CTB와 코딩 블록을 예시한다. 도 11의 예에서는 본 발명에 따른 방법 2가 적용될 수 있으며, CTB는 256×256의 크기로 고정된 크기를 가진다고 가정한다. 하지만, 앞서 설명된 바와 같이 CTB의 고정 크기는 SPS, PPS, SSH를 통해 시그널링될 수 있다.
도 11을 참조하면, 예를 들어, CTB 1110에 대한 코딩 블록의 최대 크기는 32×32로 설정되고 코딩 블록의 최소 크기는 8×8로 설정될 수 있다. 이 경우, CTB 1110은 부가 정보(예, split_cu_flag) 없이 코딩 블록의 최대 크기에 대응하는 32×32 블록들로 동일하게 분할되어 인코딩/디코딩(예, 도 3 내지 도 6에 따른 절차)을 수행할 수 있다. 다만, 코딩 블록의 최소 크기가 8×8로 설정되므로 8×8 코딩 블록까지만 분할이 가능하며, 각 32×32 블록에 대한 쿼드 트리는 깊이 2까지만 가질 수 있고 쿼드 트리 방식의 분할은 2번까지만 적용될 수 있다. 256×256 크기의 CTB로부터 32×32 블록으로 분할될 때까지 별도의 부가 정보(예, split_cu_flag)가 시그널링될 필요가 없으므로 적어도 85 비트의 부가 정보를 절감할 수 있다. 또한, 8×8 코딩 블록에 대해서도 별도의 부가 정보(예, split_cu_flag)가 시그널링될 필요가 없다.
다른 예로, CTB 1120에 대한 코딩 블록의 최대 크기는 128×128로 설정되고 코딩 블록의 최소 크기는 16×16으로 설정될 수 있다. 이 경우, CTB 1120은 부가 정보(예, split_cu_flag) 없이 코딩 블록의 최대 크기에 대응하는 128×128 블록들로 동일하게 분할되어 인코딩/디코딩(예, 도 3 내지 도 6에 따른 절차)을 수행할 수 있다. 코딩 블록의 최소 크기가 16×16으로 설정되므로 16×16 코딩 블록까지만 분할이 가능하며, 각 128×128 블록에 대한 쿼드 트리는 깊이 3까지만 가질 수 있고 쿼드 트리 방식의 분할은 3번까지만 적용될 수 있다. 256×256 크기의 CTB로부터 128×128 블록으로 분할될 때까지 별도의 부가 정보(예, split_cu_flag)가 시그널링될 필요가 없으므로 적어도 1 비트의 부가 정보를 절감할 수 있다.
도 12는 본 발명이 적용될 수 있는 영상 처리 장치의 블록도를 예시한다. 영상 처리 장치는 영상 신호의 인코딩 장치 및/또는 디코딩 장치를 포함할 수 있다. 예를 들어, 본 발명이 적용될 수 있는 영상 처리 장치는 스마트폰 등과 같은 이동 단말, 랩톱 컴퓨터 등과 같은 휴대용 기기, 디지털 TV, 디지털 비디오 플레이어 등과 같은 가전 제품 등을 포함할 수 있다.
메모리(12)는 프로세서(11)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 부호화된 비트스트림, 복호화된 영상, 제어 정보 등을 저장할 수 있다. 또한, 메모리(12)는 각종 영상 신호를 위한 버퍼로서 활용될 수 있다. 메모리(12)는 ROM(Read Only Memory), RAM(Random Access Memory), EPROM(Erasable Programmable Read Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), 플래쉬(flash) 메모리, SRAM(Static RAM), HDD(Hard Disk Drive), SSD(Solid State Drive) 등과 같은 저장 장치로서 구현될 수 있다.
프로세서(11)는 영상 처리 장치 내 각 모듈의 동작을 제어한다. 특히, 프로세서(11)는 본 발명에 따른 인코딩/디코딩을 수행하기 위한 각종 제어 기능을 수행할 수 있다. 프로세서(11)는 컨트롤러(controller), 마이크로 컨트롤러(microcontroller), 마이크로 프로세서(microprocessor), 마이크로 컴퓨터(microcomputer) 등으로도 불릴 수 있다. 프로세서(11)는 하드웨어(hardware) 또는 펌웨어(firmware), 소프트웨어, 또는 이들의 결합에 의해 구현될 수 있다. 하드웨어를 이용하여 본 발명을 구현하는 경우에는, 본 발명을 수행하도록 구성된 ASIC(application specific integrated circuit) 또는 DSP(digital signal processor), DSPD(digital signal processing device), PLD(programmable logic device), FPGA(field programmable gate array) 등이 프로세서(11)에 구비될 수 있다. 한편, 펌웨어나 소프트웨어를 이용하여 본 발명을 구현하는 경우에는 본 발명의 기능 또는 동작들을 수행하는 모듈, 절차 또는 함수 등을 포함하도록 펌웨어나 소프트웨어가 구성될 수 있으며, 본 발명을 수행할 수 있도록 구성된 펌웨어 또는 소프트웨어는 프로세서(11) 내에 구비되거나 메모리(12)에 저장되어 프로세서(11)에 의해 구동될 수 있다.
또한, 장치(10)는 네트워크 인터페이스 모듈(network interface module, NIM)(13)을 선택적으로(optionally) 포함할 수 있다. 네트워크 인터페이스 모듈(13)은 프로세서(11)와 동작시 연결(operatively connected)되며, 프로세서(11)는 네트워크 인터페이스 모듈(13)을 제어하여 무선/유선 네트워크를 통해 정보 및/또는 데이터, 신호, 메시지 등을 나르는 무선/유선 신호를 전송 또는 수신할 수 있다. 네트워크 인터페이스 모듈(13)은 예를 들어 IEEE 802 계열, 3GPP LTE(-A), Wi-Fi, ATSC(Advanced Television System Committee), DVB(Digital Video Broadcasting) 등과 같은 다양한 통신 규격을 지원하며, 해당 통신 규격에 따라 제어 정보 및/또는 부호화된 비트스트림과 같은 영상 신호를 송수신할 수 있다. 네트워크 인터페이스 모듈(13)은 필요에 따라 장치에 포함되지 않을 수 있다.
또한, 장치(10)는 입출력 인터페이스(14)를 선택적으로(optionally) 포함할 수 있다. 입출력 인터페이스(14)는 프로세서(11)와 동작시 연결(operatively connected)되며, 프로세서(11)는 입출력 인터페이스(14)를 제어하여 제어 신호 및/또는 데이터 신호를 입력받거나 출력할 수 있다. 입출력 모듈(14)은 예를 들어 키보드, 마우스, 터치패드, 카메라 등과 같은 입력 장치와 디스플레이 등과 같은 출력 장치와 연결될 수 있도록 USB(Universal Serial Bus), Bluetooth, NFC(Near Field Communication), 직렬/병렬 인터페이스, DVI(Digital Visual Interface), HDMI(High Definition Multimedia Interface) 등과 같은 규격을 지원할 수 있다.
이상에서 설명된 방법들 및 실시예들은 본 발명의 구성요소들과 특징들이 소정 형태로 결합된 것들이다. 각 구성요소 또는 특징은 별도의 명시적 언급이 없는 한 선택적인 것으로 고려되어야 한다. 각 구성요소 또는 특징은 다른 구성요소나 특징과 결합되지 않은 형태로 실시될 수 있다. 또한, 일부 구성요소들 및/또는 특징들을 결합하여 본 발명의 실시예를 구성하는 것도 가능하다. 본 발명의 실시예들에서 설명되는 동작들의 순서는 변경될 수 있다. 어느 실시예의 일부 구성이나 특징은 다른 실시예에 포함될 수 있고, 또는 다른 실시예의 대응하는 구성 또는 특징과 교체될 수 있다. 특허청구범위에서 명시적인 인용 관계가 있지 않은 청구항들을 결합하여 실시예를 구성하거나 출원 후의 보정에 의해 새로운 청구항으로 포함시킬 수 있음은 자명하다.
본 발명에 따른 방법 및 실시예는 다양한 수단, 예를 들어, 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 본 발명의 일 실시예는 하나 또는 그 이상의 ASIC(application specific integrated circuit), DSP(digital signal processor), DSPD(digital signal processing device), PLD(programmable logic device), FPGA(field programmable gate array), 프로세서, 콘트롤러, 마이크로 콘트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.
펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명은 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차, 함수 등의 형태를 포함하는 소프트웨어 코드 또는 명령어(instruction)로 구현될 수 있다. 소프트웨어 코드 또는 명령어는 컴퓨터 판독가능한 매체에 저장되어 프로세서에 의해 구동될 수 있으며 프로세서에 의해 구동될 때 본 발명에 따른 동작들을 수행할 수 있다. 상기 컴퓨터 판독가능한 매체는 상기 프로세서 내부 또는 외부에 위치하거나 원격으로 네트워크를 통해 상기 프로세서와 연결될 수 있으며, 상기 프로세서와 데이터를 주고 받을 수 있다.
본 발명은 본 발명의 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있음은 당업자에게 자명하다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.
본 발명은 디코딩 장치, 인코딩 장치와 같은 영상 처리 장치에 이용될 수 있다.

Claims (15)

  1. 디코딩 장치에서 적어도 하나의 픽처를 위한 비트스트림을 디코딩하는 방법으로서, 상기 픽처는 적어도 하나의 슬라이스를 포함하고, 상기 슬라이스는 복수의 코딩 트리 블록(CTB)을 포함하며,
    상기 복수의 CTB를 위한 타입 개수 정보 및 타입 정보를 상기 비트스트림으로부터 획득하는 단계, 상기 타입 개수 정보는 상기 복수의 CTB에 대해 허용되는 CTB 타입의 개수를 지시하고, 상기 타입 정보는 상기 복수의 CTB에 대해 허용되는 CTB 타입을 지시하며;
    상기 복수의 CTB 중에서 현재 CTB를 위한 타입 지시 정보를 상기 비트스트림으로부터 획득하는 단계, 상기 타입 지시 정보는 상기 허용되는 CTB 타입 중에서 하나의 CTB 타입을 지시하며;
    상기 타입 지시 정보가 지시하는 CTB 타입에 기초하여 상기 현재 CTB의 크기 및 상기 현재 CTB 내에서 코딩 블록의 최소 크기를 결정하는 단계;
    상기 결정된 현재 CTB의 크기 및 코딩 블록의 최소 크기에 기초하여 상기 현재 CTB 내에서 적어도 하나의 코딩 블록을 결정하는 단계;
    상기 적어도 하나의 코딩 블록 각각에 대하여 예측 모드 정보를 비트스트림으로부터 획득하는 단계, 상기 예측 모드 정보는 해당 코딩 블록이 인트라 예측을 이용하여 코딩되었는지 아니면 인터 예측을 이용하여 코딩되었는지 여부를 지시하며;
    상기 적어도 하나의 코딩 블록 중에서 현재 코딩 블록에 대한 예측 모드 정보에 기초하여 상기 현재 코딩 블록을 복원하는 단계를 포함하는, 방법.
  2. 제1항에 있어서,
    상기 현재 CTB의 크기를 결정하는 단계는,
    상기 타입 개수 정보 및 상기 타입 정보에 기초하여 상기 현재 CTB를 위한 CTB 타입 후보 리스트를 구성하는 것과,
    상기 CTB 타입 후보 리스트 중에서 상기 타입 지시 정보가 지시하는 CTB 타입을 상기 현재 CTB에 적용하는 것을 포함하는, 방법.
  3. 제2항에 있어서,
    상기 현재 CTB 타입 후보 리스트는 상기 현재 CTB에 인접한 이웃 CTB의 CTB 타입이 낮은 인덱스에 할당되도록 구성되는, 방법.
  4. 제3항에 있어서,
    상기 이웃 CTB는 상기 현재 CTB에 인접한 좌측 이웃 CTB와 상측 이웃 CTB를 포함하고, 상기 현재 CTB 타입 후보 리스트는 상기 좌측 이웃 CTB의 CTB 타입이 인덱스 0에 대응되고 상기 상측 이웃 CTB의 CTB 타입이 인덱스 1에 대응되도록 구성되는, 방법.
  5. 제3항에 있어서,
    상기 이웃 CTB는 상기 현재 CTB에 인접한 좌측 이웃 CTB와 상측 이웃 CTB를 포함하고, 상기 CTB 타입 후보 리스트는 상기 상측 이웃 CTB의 CTB 타입이 인덱스 0에 대응되고 상기 좌측 이웃 CTB의 CTB 타입이 인덱스 1에 대응되도록 구성되는, 방법.
  6. 제3항에 있어서,
    상기 복수의 CTB를 위한 타입 개수 정보 및 타입 정보를 상기 비트스트림으로부터 획득하는 단계는 상기 타입 개수 정보가 지시하는 횟수만큼 복수의 타입 정보를 상기 비트스트림으로부터 획득하는 것을 포함하며,
    상기 타입 개수 정보가 2보다 큰 수를 지시하는 경우, 상기 복수의 타입 정보가 지시하는 복수의 CTB 타입 중에서 상기 좌측 이웃 CTB의 CTB 타입과 상기 상측 이웃 CTB의 CTB 타입을 제외한 나머지 CTB 타입을 인덱스 2부터 대응되도록 상기 CTB 타입 후보 리스트가 구성되는, 방법.
  7. 제6항에 있어서,
    상기 나머지 CTB 타입은 상기 나머지 CTB 타입에 대응되는 타입 정보가 상기 비트스트림으로부터 획득되는 순서에 따라 상기 CTB 타입 후보 리스트의 인덱스 2부터 할당되는, 방법.
  8. 제2항에 있어서,
    상기 현재 CTB를 위한 타입 개수 정보 및 타입 정보를 상기 비트스트림으로부터 획득하는 단계는 상기 타입 개수 정보가 지시하는 횟수만큼 복수의 타입 정보를 상기 비트스트림으로부터 획득하는 것을 포함하며,
    상기 CTB 타입 후보 리스트는 상기 복수의 타입 정보가 상기 비트스트림으로부터 획득되는 순서에 따라 낮은 인덱스부터 할당되는, 방법.
  9. 제1항에 있어서,
    상기 타입 정보는 코딩 블록의 최소 크기에 대한 정보와 코딩 블록의 최대 크기에 대한 정보를 포함하며,
    상기 현재 CTB 내에서 코딩 블록의 최소 크기는 상기 코딩 블록의 최소 크기에 대한 정보의 값에 특정 오프셋을 더한 값 만큼 1을 좌측 시프트하여 구해지고, 상기 현재 CTB의 크기는 상기 코딩 블록의 최대 크기에 대한 정보의 값에 특정 오프셋을 더한 값 만큼 1을 좌측 시프트하여 구해지는, 방법.
  10. 제1항에 있어서,
    상기 타입 정보는 코딩 블록의 최소 크기에 대한 정보와 코딩 블록의 최소 크기와 최대 크기 간의 차이에 대한 정보를 포함하며,
    상기 현재 CTB 내에서 코딩 블록의 최소 크기는 상기 코딩 블록의 최소 크기에 대한 정보의 값에 특정 오프셋을 더한 값 만큼 1을 좌측 시프트하여 구해지고, 상기 현재 CTB의 크기는 상기 코딩 블록의 최소 크기에 대한 정보의 값에 특정 오프셋을 더한 값과 상기 코딩 블록의 최소 크기와 최대 크기 간의 차이에 대한 정보의 값을 더하여 구해지는 값만큼 1을 좌측 시프트하여 구해지는, 방법.
  11. 제1항에 있어서,
    상기 적어도 하나의 코딩 블록을 결정하는 단계는,
    상기 현재 CTB에 대한 분할 지시 정보를 상기 비트스트림으로부터 획득하는 것,
    상기 분할 지시 정보가 상기 현재 CTB가 분할됨을 지시하는 경우, 상기 현재 CTB를 상기 현재 CTB의 크기의 절반 수평 크기 및 절반 수직 크기를 가지는 4개의 하위 블록으로 분할하는 것, 및
    상기 하위 블록의 크기가 상기 코딩 블록의 최소 크기보다 큰 경우, 상기 분할 지시 정보를 획득하는 것과 상기 4개의 하위 블록으로 분할하는 것을 상기 4개의 하위 블록 각각에 대하여 재귀적으로 수행하는 것을 포함하는, 방법.
  12. 제1항에 있어서,
    상기 복수의 CTB를 위한 타입 개수 정보 및 타입 정보는 시퀀스 파라미터 세트(SPS), 픽처 파라미터 세트(PPS), 또는 슬라이스 세그먼트 헤더(SSH)를 통해 획득되는, 방법.
  13. 제1항에 있어서,
    상기 복수의 CTB는 가변적인 크기를 가지고, 각각의 CTB는 정사각형 블록에 해당하는, 방법.
  14. 제1항에 있어서,
    상기 복수의 CTB에 대해 허용되는 CTB 타입은 256×256 블록, 128×128 블록, 64×64 블록, 32×32 블록, 16×16 블록, 또는 8×8 블록 중에서 적어도 하나를 포함하는, 방법.
  15. 적어도 하나의 픽처를 위한 비트스트림을 디코딩하도록 구성된 디코딩 장치로서, 상기 픽처는 적어도 하나의 슬라이스를 포함하고, 상기 슬라이스는 복수의 코딩 트리 블록(CTB)을 포함하며,
    메모리; 및
    상기 메모리에 동작시 연결되는(operatively connected) 프로세서를 포함하며, 상기 프로세서는
    상기 복수의 CTB를 위한 타입 개수 정보 및 타입 정보를 상기 비트스트림으로부터 획득하고, 상기 타입 개수 정보는 상기 복수의 CTB에 대해 허용되는 CTB 타입의 개수를 지시하고, 상기 타입 정보는 상기 복수의 CTB에 대해 허용되는 CTB 타입을 지시하며;
    상기 복수의 CTB 중에서 현재 CTB를 위한 타입 지시 정보를 상기 비트스트림으로부터 획득하고, 상기 타입 지시 정보는 상기 허용되는 CTB 타입 중에서 하나의 CTB 타입을 지시하며;
    상기 타입 지시 정보가 지시하는 CTB 타입에 기초하여 상기 현재 CTB의 크기 및 상기 현재 CTB 내에서 코딩 블록의 최소 크기를 결정하고;
    상기 결정된 현재 CTB의 크기 및 코딩 블록의 최소 크기에 기초하여 상기 현재 CTB 내에서 적어도 하나의 코딩 블록을 결정하고;
    상기 적어도 하나의 코딩 블록 각각에 대하여 예측 모드 정보를 비트스트림으로부터 획득하고, 상기 예측 모드 정보는 해당 코딩 블록이 인트라 예측을 이용하여 코딩되었는지 아니면 인터 예측을 이용하여 코딩되었는지 여부를 지시하며;
    상기 적어도 하나의 코딩 블록 중에서 현재 코딩 블록에 대한 예측 모드 정보에 기초하여 상기 현재 코딩 블록을 복원하도록 구성된, 디코딩 장치.
PCT/KR2016/002852 2015-03-23 2016-03-22 비디오 신호의 처리 방법 및 이를 위한 장치 WO2016153251A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US15/560,101 US20180091810A1 (en) 2015-03-23 2016-03-22 Method for processing video signal and device therefor

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201562137176P 2015-03-23 2015-03-23
US62/137,176 2015-03-23

Publications (1)

Publication Number Publication Date
WO2016153251A1 true WO2016153251A1 (ko) 2016-09-29

Family

ID=56979088

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2016/002852 WO2016153251A1 (ko) 2015-03-23 2016-03-22 비디오 신호의 처리 방법 및 이를 위한 장치

Country Status (2)

Country Link
US (1) US20180091810A1 (ko)
WO (1) WO2016153251A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110139097A (zh) * 2019-04-19 2019-08-16 中南大学 视频编码中自适应模式顺序调整的方法
CN110971902A (zh) * 2018-10-01 2020-04-07 腾讯美国有限责任公司 视频解码的方法和装置、计算机设备
CN113170116A (zh) * 2018-11-22 2021-07-23 北京字节跳动网络技术有限公司 为帧内模式视频处理使用参考行

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102465914B1 (ko) * 2016-03-04 2022-11-14 한국전자통신연구원 영상 부호화 장치의 부호화 방법
US10666943B2 (en) * 2017-09-15 2020-05-26 Futurewei Technologies, Inc. Block partition structure in video compression
US10771781B2 (en) * 2018-03-12 2020-09-08 Electronics And Telecommunications Research Institute Method and apparatus for deriving intra prediction mode
MY189399A (en) * 2019-03-21 2022-02-09 Samsung Electronics Co Ltd Method and device for encoding video having block size set for each block shape, and method and device for decoding video

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090057225A (ko) * 2006-08-25 2009-06-04 톰슨 라이센싱 감소된 해상도의 파티셔닝을 위한 방법 및 장치
US20120106652A1 (en) * 2010-11-01 2012-05-03 Mediatek Inc. Apparatus and Method for High Efficiency Video Coding Using Flexible Slice Structure
KR20130095324A (ko) * 2011-01-05 2013-08-27 퀄컴 인코포레이티드 비디오 코딩에서의 프레임 분할
KR20130139226A (ko) * 2010-12-06 2013-12-20 파나소닉 주식회사 화상 부호화 방법, 화상 복호 방법, 화상 부호화 장치 및 화상 복호 장치
KR20140070305A (ko) * 2012-11-29 2014-06-10 삼성전자주식회사 영상 처리 장치 및 방법

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012011859A1 (en) * 2010-07-21 2012-01-26 Telefonaktiebolaget L M Ericsson (Publ) Picture coding and decoding
ES2928097T3 (es) * 2011-01-13 2022-11-15 Nec Corp Dispositivo, método y programa de descodificación de video
PL2665273T3 (pl) * 2011-01-13 2022-02-28 Nec Corporation Urządzenie do dekodowania wideo, sposób dekodowania wideo i program
US9451287B2 (en) * 2011-11-08 2016-09-20 Qualcomm Incorporated Context reduction for context adaptive binary arithmetic coding
WO2015135175A1 (en) * 2014-03-13 2015-09-17 Mediatek Singapore Pte. Ltd. Simplified depth based block partitioning method
US9936201B2 (en) * 2015-01-27 2018-04-03 Qualcomm Incorporated Contexts for large coding tree units

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090057225A (ko) * 2006-08-25 2009-06-04 톰슨 라이센싱 감소된 해상도의 파티셔닝을 위한 방법 및 장치
US20120106652A1 (en) * 2010-11-01 2012-05-03 Mediatek Inc. Apparatus and Method for High Efficiency Video Coding Using Flexible Slice Structure
KR20130139226A (ko) * 2010-12-06 2013-12-20 파나소닉 주식회사 화상 부호화 방법, 화상 복호 방법, 화상 부호화 장치 및 화상 복호 장치
KR20130095324A (ko) * 2011-01-05 2013-08-27 퀄컴 인코포레이티드 비디오 코딩에서의 프레임 분할
KR20140070305A (ko) * 2012-11-29 2014-06-10 삼성전자주식회사 영상 처리 장치 및 방법

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110971902A (zh) * 2018-10-01 2020-04-07 腾讯美国有限责任公司 视频解码的方法和装置、计算机设备
CN110971902B (zh) * 2018-10-01 2022-04-22 腾讯美国有限责任公司 视频解码的方法和装置、计算机设备
CN113170116A (zh) * 2018-11-22 2021-07-23 北京字节跳动网络技术有限公司 为帧内模式视频处理使用参考行
CN110139097A (zh) * 2019-04-19 2019-08-16 中南大学 视频编码中自适应模式顺序调整的方法
CN110139097B (zh) * 2019-04-19 2023-01-06 中南大学 视频编码中自适应模式顺序调整的方法

Also Published As

Publication number Publication date
US20180091810A1 (en) 2018-03-29

Similar Documents

Publication Publication Date Title
WO2016148513A1 (ko) 비디오 신호의 처리 방법 및 이를 위한 장치
WO2016175550A1 (ko) 비디오 신호의 처리 방법 및 이를 위한 장치
WO2016148438A2 (ko) 비디오 신호의 처리 방법 및 이를 위한 장치
WO2016175549A1 (ko) 비디오 신호의 처리 방법 및 이를 위한 장치
WO2016153251A1 (ko) 비디오 신호의 처리 방법 및 이를 위한 장치
WO2020071829A1 (ko) 히스토리 기반 영상 코딩 방법 및 그 장치
WO2017188652A1 (ko) 영상 부호화/복호화 방법 및 장치
WO2017057953A1 (ko) 비디오 코딩 시스템에서 레지듀얼 신호 코딩 방법 및 장치
WO2016006894A1 (ko) 비디오 신호의 처리 방법 및 이를 위한 장치
WO2018044088A1 (ko) 비디오 신호 처리 방법 및 장치
WO2019240448A1 (ko) 성분 간 참조 기반의 비디오 신호 처리 방법 및 장치
WO2020162737A1 (ko) 이차 변환을 이용하는 비디오 신호 처리 방법 및 장치
WO2020009419A1 (ko) 병합 후보를 사용하는 비디오 코딩 방법 및 장치
WO2013154366A1 (ko) 블록 정보에 따른 변환 방법 및 이러한 방법을 사용하는 장치
WO2020242145A1 (ko) 적응적 파라미터 셋을 사용하는 비디오 코딩 방법 및 장치
WO2021201515A1 (ko) Hls를 시그널링하는 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 컴퓨터 판독 가능한 기록 매체
WO2021034115A1 (ko) 크로마 양자화 파라미터 오프셋 관련 정보를 코딩하는 영상 디코딩 방법 및 그 장치
WO2020149630A1 (ko) 영상 코딩 시스템에서 cclm 예측 기반 영상 디코딩 방법 및 그 장치
WO2021015537A1 (ko) 팔레트 모드의 적용 여부에 따라 크로마 성분 예측 정보를 시그널링 하는 영상 부호화/복호화 방법, 장치 및 비트스트림을 전송하는 방법
WO2020141928A1 (ko) 영상 코딩 시스템에서 mmvd 에 따른 예측에 기반한 영상 디코딩 방법 및 장치
WO2020071832A1 (ko) 변환 계수 코딩 방법 및 그 장치
WO2020231238A1 (ko) 크로마 포멧에 기반하여 필터 정보를 시그널링하는 영상 부호화/복호화 방법, 장치 및 비트스트림을 전송하는 방법
WO2020256506A1 (ko) 다중 참조 라인 인트라 예측을 이용한 영상 부호화/복호화 방법, 장치 및 비트스트림을 전송하는 방법
WO2020141885A1 (ko) 디블록킹 필터링을 사용하는 영상 코딩 방법 및 장치
WO2019212230A1 (ko) 영상 코딩 시스템에서 블록 사이즈에 따른 변환을 사용하는 영상 디코딩 방법 및 그 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16769069

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15560101

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16769069

Country of ref document: EP

Kind code of ref document: A1