WO2013077650A1 - Method and apparatus for decoding multi-view video - Google Patents

Method and apparatus for decoding multi-view video Download PDF

Info

Publication number
WO2013077650A1
WO2013077650A1 PCT/KR2012/009938 KR2012009938W WO2013077650A1 WO 2013077650 A1 WO2013077650 A1 WO 2013077650A1 KR 2012009938 W KR2012009938 W KR 2012009938W WO 2013077650 A1 WO2013077650 A1 WO 2013077650A1
Authority
WO
WIPO (PCT)
Prior art keywords
depth image
current
pixel
quantization
residual signal
Prior art date
Application number
PCT/KR2012/009938
Other languages
French (fr)
Korean (ko)
Inventor
방건
정원식
허남호
유선미
심동규
남정학
임웅
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority claimed from KR1020120133063A external-priority patent/KR20130057402A/en
Publication of WO2013077650A1 publication Critical patent/WO2013077650A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components

Definitions

  • the present invention relates to a method for encoding / decoding an image, and more particularly, to a method and apparatus for encoding / decoding a multiview video including a color image and a depth image.
  • ITU-T's Video Coding Experts Group (VCEG) and ISO / IEC's Moving Picture Experts Group (MPEG) formed Joint Collaborative Team on Video Coding (JCT-VC), the next generation of video compression standards after H.264 / AVC.
  • Standardization on HEVC (High Efficient Video Coding) is in progress.
  • the MPEG 3DV group is a HEVC based multiview color image / depth standardized by existing H.264 / AVC and JCT-VC for efficient compression of multiview images and synthesis of virtual view images. Compression standardization of images is in progress.
  • the 3DV group is in the process of standardizing a technology for compressing and transmitting not only a multiview color image but also depth image information. Accordingly, research on high-efficiency compression techniques considering the characteristics of depth image is expected to be actively conducted.
  • the present invention provides a method and apparatus for multiview video encoding / decoding that can improve encoding / decoding efficiency of a multiview video image.
  • the present invention provides a method and apparatus for encoding / decoding a depth image capable of improving the accuracy of the depth image.
  • the present invention provides a quantization method and apparatus capable of improving the accuracy of a depth image.
  • the present invention provides a filtering method and apparatus capable of preserving edge regions of a depth image and improving image quality.
  • a multi-view video decoding method includes receiving and entropy decoding quantization information of a current depth image and acquiring a quantized residual of the current depth image based on the quantization information, wherein the quantization information includes: Flag information indicating whether to perform spatial axis quantization on the current depth image is included.
  • the quantization information includes difference value information on the quantized residual signal of the current depth image, and the difference value on the quantized residual signal is the current depth.
  • the difference value may be a difference between a quantized residual signal of a current pixel in an image and a quantized residual signal of a neighboring pixel positioned around the current pixel.
  • the acquiring of the quantized residual signal may include predicting a residual signal from the neighboring pixels and adding a difference value between the predicted residual signal and the quantized residual signal of the current depth image.
  • the peripheral pixel is an upper pixel located at the top of the current pixel when the current pixel is located in the first column of the current depth image, and when the current pixel is located in a region other than the first column of the current depth image. It may be a left pixel located to the left of the current pixel.
  • the flag information indicating whether to perform the spatial axis quantization may be information encoded and transmitted based on a transform unit (TU).
  • TU transform unit
  • a multi-view video decoding apparatus includes an entropy decoder that entropy decodes and receives quantization information about a current depth image, and an inverse quantizer that obtains a quantized residual signal of the current depth image based on the quantization information.
  • the information includes flag information indicating whether spatial axis quantization is performed on the current depth image.
  • the quantization information includes difference value information on the quantized residual signal of the current depth image, and the difference value on the quantized residual signal is the current depth.
  • the difference value may be a difference between a quantized residual signal of a current pixel in an image and a quantized residual signal of a neighboring pixel positioned around the current pixel.
  • the inverse quantization unit may estimate a residual signal from the neighboring pixels, and obtain a quantized residual signal of the current depth image by adding a difference value between the predicted residual signal and the quantized residual signal of the current depth image.
  • the peripheral pixel is an upper pixel located at the top of the current pixel when the current pixel is located in the first column of the current depth image, and when the current pixel is located in a region other than the first column of the current depth image. It may be a left pixel located to the left of the current pixel.
  • the flag information indicating whether to perform the spatial axis quantization may be information encoded and transmitted based on a transform unit (TU).
  • TU transform unit
  • a multi-view video decoding method includes receiving and entropy decoding a bitstream and performing filtering using an anisotropic median filter on a current depth image reconstructed based on the entropy decoded signal.
  • the performing of the filtering using the anisotropic intermediate filter may include determining whether a current pixel area in the current depth image is an edge area, and if the current pixel area is an edge area, the filtering target pixel in the current pixel area. Classifying the pixels in the current pixel area into a plurality of groups based on a value and based on a difference between each of the median values calculated from each of the classified plurality of groups and the filtering target pixel value. And determining the pixel value to be filtered as one of the median values calculated from each of the classified plurality of groups.
  • the threshold value may be compared with a preset threshold based on a difference between pixel values in the current pixel area and an intermediate value calculated from neighboring pixels positioned around the current pixel area. have.
  • the pixels in the current pixel area having a value less than or equal to the filtering target pixel value are classified into a first group, and the current having a value greater than or equal to the filtering target pixel value.
  • the pixels in the pixel area may be classified into a second group.
  • filtering the median having a small difference between the first pixel value calculated from the first group and the second pixel value calculated from the second group with the filtering object pixel value Can be determined by the target pixel value.
  • the method may further include storing the current depth image filtered using the anisotropic intermediate filter in an image buffer.
  • a multi-view video decoding apparatus includes an entropy decoding unit for receiving and entropy decoding a bitstream and a filter unit for performing filtering using an anisotropic median filter on the current depth image reconstructed based on the entropy decoded signal.
  • the image quality of the depth image may be improved by applying an anisotropic intermediate filter to the image degradation problem that may occur in the edge region of the reconstructed depth image.
  • an anisotropic intermediate filter to the image degradation problem that may occur in the edge region of the reconstructed depth image.
  • the spatial axis quantization method it is possible to reduce errors that may occur in the region including the edge, preserve the edge region, and improve rate-distortion performance.
  • FIG. 1 is a block diagram schematically illustrating an apparatus for decoding a multiview video image according to an embodiment of the present invention.
  • FIG. 2 is a block diagram schematically illustrating an apparatus for decoding a multiview depth image according to an embodiment of the present invention.
  • FIG. 3 is a diagram illustrating an encoding structure for inter-view prediction of a multiview image to which the present invention is applied.
  • FIG. 4 is a diagram illustrating an example of a reference structure for inter-view prediction of time V 2 shown in FIG. 3.
  • FIG. 5 is a diagram illustrating an example of a reference structure for inter-view prediction of time V 1 shown in FIG. 3.
  • FIG. 6 is a flowchart schematically illustrating a space axis quantization method according to an embodiment of the present invention.
  • FIG. 7 is a flowchart illustrating a method of inverse quantization in a spatial domain according to an embodiment of the present invention.
  • FIG. 8 is a diagram illustrating a process of obtaining a quantized residual signal by applying a pixel-based prediction method according to an embodiment of the present invention.
  • FIG. 9 is a flowchart illustrating a method of filtering by applying an anisotropic intermediate filter according to an embodiment of the present invention.
  • first and second may be used to describe various components, but the components should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another.
  • the first component may be referred to as the second component, and similarly, the second component may also be referred to as the first component.
  • High Efficiency Video Coding (HEVC) -based 3D Video Coding (3D Video Coding) technology enables the acquisition, processing, and processing of 3D video including depth images of each viewpoint as well as multi-view video images. Includes all processes for transfer and playback.
  • the depth image is an image representing 3D distance information of an object existing in the image, and a pixel value of the depth image informs depth information of the corresponding pixel. Since the accuracy of the depth image determines the quality of the virtual mid-view image synthesized using the depth image, it is important to generate an accurate depth image.
  • the 3D video decoder according to the present invention is designed to decode not only a multiview video image but also a depth image.
  • the three-dimensional video encoder is composed of two layers to encode each of the multi-view video image and the depth image, each layer is inter-view prediction based on the inter-view correlation as well as all the tools of HEVC. Coding is possible using the method.
  • the 3D video decoder according to the present invention may perform the decoding process in a procedure opposite to that of the 3D video encoder.
  • the 3D video decoder according to the present invention may be composed of two layers, a decoder of a multiview video image and a decoder of a multiview depth image.
  • the multiview video image may be a color image. Therefore, the 3D video decoder according to the present invention may be used to decode a 2 viewpoint / 3 viewpoint video image and a 2 viewpoint / 3 viewpoint depth image.
  • FIG. 1 is a block diagram schematically illustrating an apparatus for decoding a multiview video image according to an embodiment of the present invention.
  • the apparatus 100 for decoding a multiview video image includes an entropy decoder 110, 111, and 112, an inverse quantizer 120, 121, and 122, an inverse transformer, 130, 131, and 132.
  • DPBs decoded picture buffers
  • the bitstreams V 0 , V 1 , and V 2 of the encoded image may be input to the apparatus 100 for decoding a multiview video image.
  • Each of the plurality of bitstreams V 0 , V 1 , and V 2 may be an image obtained at different time points.
  • the bitstream V 0 may be a base view image, and the base view is a view to which an image to be encoded independently belongs.
  • the bitstreams V 1 and V 2 may be extended view images, and the extended view is a view to which an image encoded using information of the base view belongs.
  • the bitstreams V 0 , V 1 , and V 2 input to the decoding apparatus 100 of a multiview video image may be decoded by a procedure opposite to that of a 3D video encoder, and the 3D video encoder may use, for example, HEVC technology. Can be used to encode a multiview video image.
  • the entropy decoding units 110, 111, and 112 may entropy decode the input bitstreams V 0 , V 1 , and V 2 .
  • view-related information such as inter-view correlation, inter-view parallax information, prediction mode information, motion vector information, and the like are included in the bitstreams V 0 , V 1 , and V 2 .
  • entropy decoding may be performed together.
  • the inverse quantizers 120, 121, and 122 may perform inverse quantization based on entropy decoded transform coefficients and quantization parameters provided by the 3D video encoder.
  • the inverse transform units 130, 131, and 132 may inverse transform the inverse quantized transform coefficients to generate a residual block.
  • the inverse transform may be performed based on a transform unit (TU) determined by the 3D video encoder, and may use transform information performed by the encoder.
  • TU transform unit
  • the prediction units 140, 141, and 142 may generate a prediction block corresponding to the current block by performing intra prediction and inter prediction.
  • the current block may be a block corresponding to a coding unit (CU) or a block corresponding to a prediction unit (PU).
  • the prediction units 140, 141, and 142 may generate a prediction block by performing prediction using pixel values of blocks that are already encoded around the current block.
  • the predictors 140, 141, and 142 compensate for the motion by the motion compensators 150, 151, and 152 using the motion vector and the reference image stored in the image buffers 170, 171, and 172. By performing the prediction block can be generated.
  • the prediction block may be added to the residual block to generate a reconstruction block.
  • the reconstruction block may be provided to the filter units 160, 161, and 162.
  • the filter units 160, 161, and 162 may receive filter related information applied to the corresponding block from the encoder and perform filtering on the corresponding block in the decoder. For example, when the encoder performs encoding according to HEVC, the encoder may be an in-loop filter.
  • the image buffer units 170, 171, and 172 store the reconstruction block.
  • the stored reconstructed blocks may be provided to the predictors 140, 141, and 142 and the motion compensators 150, 151, and 152, which perform prediction, and may be used as reference images.
  • inter-view prediction is not performed and inter prediction / intra prediction is performed. Since the inter-view prediction is performed in the case of the extended view image such as the bitstreams V 1 and V 2 , image information of another view may be referred to. Therefore, in the case of the extended view, prediction may be performed by referring to the reference picture from the image buffer unit at another view. This reference structure for inter-view prediction will be described in more detail with reference to FIGS. 3 to 5.
  • the apparatus for decoding a multiview video image performs decoding of one base view image and decoding of two extended view images. Decoding may be performed on two or more extended view images.
  • FIG. 2 is a block diagram schematically illustrating an apparatus for decoding a multiview depth image according to an embodiment of the present invention.
  • the apparatus 200 for decoding a multiview depth image includes an entropy decoder 210, 211, and 212, an inverse quantizer 220, 221, and 222, an inverse transformer 230, 231, and 232.
  • DPBs decoded picture buffers
  • the bitstreams D 0 , D 1 , and D 2 of the encoded depth image may be input to the apparatus 200 for decoding a multiview depth image.
  • Each of the plurality of bitstreams D 0 , D 1 , and D 2 may be depth images obtained at different views.
  • the bitstream D 0 may be a base view image, and the base view is a view to which an image to be encoded independently belongs.
  • the bitstreams D 1 and D 2 may be extended view images, and the extended view is a view to which an image encoded using information of the base view belongs.
  • the bitstreams D 0 , D 1 , and D 2 input to the decoding apparatus 200 of the multi-view depth image may be decoded as opposed to the procedure of encoding the depth image in the 3D video encoder.
  • the multiview depth image may be encoded by using the HEVC technique.
  • the entropy decoding units 210, 211, and 212 may entropy decode the input bitstreams D 0 , D 1 , and D 2 .
  • view-related information such as inter-view correlation, inter-view parallax information, prediction mode information, motion vector information, and the like are included in the bitstreams D 0 , D 1 , and D 2 , they may be entropy decoded together.
  • the entropy decoding units 210, 211, and 212 may entropy decode quantization related information included in the bitstreams D 0 , D 1 , and D 2 .
  • Quantization related information is quantization information performed by the 3D video encoder.
  • the residual signal generated after performing prediction on the current depth image may be transformed to perform quantization in the frequency domain, or the residual signal may be Quantization in the spatial domain can be performed without transformation. This allows the 3D encoder to adaptively select a quantization method that yields high efficiency in consideration of Rate Distortion Optimization (RDO) based on a transform unit (TU).
  • RDO Rate Distortion Optimization
  • the quantization related information includes flag information indicating whether spatial axis quantization is performed.
  • the quantization related information may include difference value information about a quantized residual signal.
  • the inverse quantization units 220, 221, and 222 may perform inverse quantization based on entropy decoded quantization related information. That is, inverse quantization is performed based on flag information indicating whether to perform spatial axis quantization, and if the flag indicates that space axis quantization is performed, the residual signal may be generated by inverse quantization without undergoing an inverse transform process. On the other hand, if the flag indicates that the space axis quantization has not been performed, inverse quantization is performed based on the entropy decoded transform coefficient and the quantization parameter, and the inverse transform unit 230, 231, and 232 performs inverse transform on the inverse quantized transform coefficient to residual You can generate a signal. Details of the space axis quantization method will be described later.
  • the inverse transform units 230, 231, and 232 may inverse transform the transform coefficients inversely quantized by the inverse quantizers 220, 221, and 222 to generate a residual block.
  • the inverse transform may be performed based on a transform unit (TU) determined by the 3D video encoder, and may use transform information performed by the encoder.
  • the apparatus 200 for decoding a multiview depth image according to the present invention may not perform inverse transformation according to flag information indicating whether to perform spatial axis quantization.
  • the prediction units 240, 241, and 242 may generate a prediction block corresponding to the current block by performing intra prediction and inter prediction.
  • the current block may be a block corresponding to a coding unit (CU) or a block corresponding to a prediction unit (PU).
  • the prediction units 240, 241, and 242 may generate a prediction block by performing prediction using pixel values of blocks that are already encoded around the current block.
  • the predictors 240, 241, and 242 compensate for the motion in the motion compensators 250, 251, and 252 using the motion vector and the reference image stored in the image buffers 270, 271, and 272. By performing the prediction block can be generated.
  • the prediction block may be added to the residual block to generate a reconstruction block.
  • the reconstruction block may be provided to the filter units 260, 261, and 262.
  • the filter units 260, 261, and 262 may receive filter related information applied to the corresponding block from the encoder and perform filtering on the corresponding block in the decoder.
  • the encoder when the encoder performs encoding according to HEVC, the encoder may be an in-loop filter.
  • a deblocking filter when encoding is performed according to HEVC, a deblocking filter may be applied to remove blocking artifacts on a coding unit (CU) or a prediction unit (PU). If the encoder performs spatial axis quantization, blocking artifacts do not occur in the spatial domain. Therefore, in the present invention, a filter capable of removing edge noise while maintaining an edge component, for example, a generally known bidirectional filter ( bilateral filters) can be used.
  • a bidirectional filter bilateral filters
  • the apparatus 200 for decoding a multiview depth image may use an anisotropic median filter to improve the accuracy of the edge region in the reconstructed depth image that has passed through the filter units 260, 261, and 262.
  • filter 265, 266, 267 can be used.
  • An anisotropic intermediate filter can be used to remove noise in a specific direction, and filter pixel values in the region to which the noise is to be removed to the intermediate values in the region. Details of the filtering method using the anisotropic intermediate filter according to an embodiment of the present invention will be described later.
  • the image buffer units 270, 271, and 272 store the reconstruction block.
  • the reconstruction block may be a reconstruction block filtered by the filter units 260, 261, and 262 or a reconstruction block filtered by the anisotropic intermediate filters 265, 266, and 267.
  • the stored reconstructed blocks may be provided to the predictors 240, 241, and 242 and the motion compensators 250, 251, and 252, which perform prediction, to be used as reference images.
  • inter-view prediction is not performed and inter prediction / intra prediction is performed. Since the inter-view prediction is performed in the case of the extended view image such as the bitstreams D 1 and D 2 , image information of another view may be referred to. Therefore, in the case of the extended view, prediction may be performed by referring to the reference picture from the image buffer unit at another view. This reference structure for inter-view prediction will be described in more detail with reference to FIGS. 3 to 5.
  • the decoding apparatus of the multi-view depth image according to the embodiment of the present invention illustrated in FIG. 2 has been shown to perform decoding of one basic view depth image and decoding of two extended view depth images.
  • two or more extended view depth images may be decoded.
  • FIG. 3 is a diagram illustrating an encoding structure for inter-view prediction of a multiview image to which the present invention is applied.
  • three views V 0 , V 1 , and V 2 may be different views.
  • the view point V 0 is a view that is encoded without prediction from another view and may be a base view or an I view.
  • Point V 1, V 2 are with reference to the different points in time may be in an extended time of predictive coding, the point V 2 is a P point (Predictive view) that with reference to only a single time point the coded predictive encoding, the point V 1 is both It may be a B view (Interpolative view) that is predictively encoded with reference to two viewpoints.
  • Each picture is divided into an I picture (Intra picture), a P picture (Predictive picture), and a B picture (Interpolative picture) according to an encoding type.
  • the I picture encodes the image itself without inter-picture prediction
  • the P picture predicts and encodes the picture using the reference picture only in the forward direction
  • the B picture uses the reference picture in both the forward and backward directions to inter-picture predictive encoding.
  • A with the exception of the point V 0 default time point (V 1, V 2), as shown in Figure 3 can be encoded by a cross-reference to an image obtained at different time points (V 0, V 1, V 2) , and The encoded image may be transmitted to the decoders illustrated in FIGS. 1 and 2.
  • the view point V 0, which is the base view transmitted to the decoder, does not perform inter-view prediction but only inter or intra prediction between images or within an image.
  • View points V 1 and V 2 which are extended views, perform inter-view prediction using a reference picture stored in an image buffer unit according to a reference structure as shown in FIG. 3 to decode the picture.
  • the arrow indicates a reference relationship between the images.
  • FIG. 4 is a diagram illustrating an example of a reference structure for inter-view prediction of time V 2 shown in FIG. 3.
  • the viewpoint V 2 may perform inter-view prediction with reference to an image acquired at the viewpoint V 0 .
  • the image B 6 of the view V 2 is based on a reference picture list 0 for forward prediction and a reference picture list 1 for backward prediction.
  • Inter-view prediction may be performed by referring to the image of view V 0 included in the reference image lists 0 and 1.
  • the reference picture list 0 and 1 includes a picture B 6 at the time of V 0 to the prediction point, the image of the point V 2 B 6, and refer to it.
  • the reference picture included in the reference picture list 0 may be copied and used by using the generalized pan and b (GPB) concept of HEVC.
  • GPB generalized pan and b
  • FIG. 5 is a diagram illustrating an example of a reference structure for inter-view prediction of time V 1 shown in FIG. 3.
  • the viewpoint V 1 may perform inter-view prediction with reference to an image acquired at the viewpoint V 0 and an image acquired at the viewpoint V 2 .
  • the viewpoint V 1 may perform inter-view prediction with reference to an image acquired at the viewpoint V 0 and an image acquired at the viewpoint V 2 .
  • the image quality of the synthesized virtual view image may also be improved. Since the human visual system mainly recognizes three-dimensional depth through binocular parallax around sharp edges, the distortion in the edge region may not reduce the image quality of the three-dimensional video image and may not give a three-dimensional effect. Therefore, the subjective image quality of the virtual viewpoint image may be improved by minimizing the edge region distortion of the depth image.
  • the present invention provides a spatial axis quantization method that can reduce the error caused by the frequency axis quantization and preserve the edge region in the depth image.
  • FIG. 6 is a flowchart schematically illustrating a space axis quantization method according to an embodiment of the present invention.
  • the method of FIG. 6 may be performed by a 3D video encoder (hereinafter, referred to as an 'encoder').
  • the encoder obtains a residual signal by performing a prediction process on a current depth image (S600).
  • the current depth image may be predicted based on a coding unit or a prediction unit, and the residual signal is a difference between the prediction unit on which the prediction is performed and the prediction target block in the current depth image.
  • the encoder determines whether to spatial-quantize the residual signal (S610). That is, the encoder determines whether to perform the frequency axis quantization by transforming the residual signal or perform spatial axis quantization without transforming the residual signal. This can be adaptively selected depending on whether the encoder has high efficiency in the process of performing Rate Distortion Optimization (RDO) on the basis of the transform unit for the current depth image.
  • RDO Rate Distortion Optimization
  • Whether to perform such spatial axis quantization is determined based on the transform unit in the current depth image, and the information about the determined result may be encoded using a flag and then signaled to the decoder. For example, one bit (eg, spatial_quantization_enable_flag) for each transformation unit may be used to indicate whether to perform spatial axis quantization.
  • the encoder If it is determined in step S610 that spatial axis quantization is to be performed, the encoder generates spatial quantized residual signal by performing spatial axis quantization on the residual signal (S620).
  • the spatial axis quantization may be applied in synchronization with a transform unit split flag based on the transform unit. Further, the number and representation values of the quantization representation levels in the spatial domain are determined according to the absolute error amount in the frequency domain for each quantization parameter.
  • the expression value in the spatial domain may be set by the dispersion of the error generated in the reconstructed depth image. That is, the space axis quantizer may be designed to match the amount of errors generated by the space axis quantization to the amount of errors generated by the frequency axis quantization.
  • each quantization parameter for spatial axis quantization is defined at the same time to the encoder and the decoder, the encoder does not need to transmit information for the quantizer to the decoder.
  • the encoder generates a difference value for the residual signal in units of pixels based on the quantized residual signal (S630).
  • the difference value for the quantized residual signal is a difference value between the quantized residual signal of the current pixel in the current depth image and the quantized residual signal of neighboring pixels positioned around the current pixel.
  • the pixel located at the top of the current pixel can be determined as the surrounding pixel. If the current pixel is located except the first column in the current depth image, it is located to the left of the current pixel.
  • the pixel may be determined as a neighboring pixel.
  • the encoder may calculate a difference value for the residual signal quantized in units of pixels using the current pixel and the neighboring pixels with respect to the current depth image, and may encode the same and transmit the encoded value to the decoder.
  • FIG. 7 is a flowchart illustrating a method of inverse quantization in a spatial domain according to an embodiment of the present invention.
  • the method of FIG. 7 may be performed by a decoder (hereinafter, referred to as a 'decoder') of the multi-view depth image illustrated in FIG. 2.
  • a decoder hereinafter, referred to as a 'decoder'
  • the decoder entropy decodes the received bitstream to obtain quantization related information (S700).
  • the quantization related information includes flag information indicating whether spatial axis quantization is performed on the current depth image.
  • difference information on the quantized residual signal is included together with the flag information.
  • the decoder determines whether spatial axis quantization is performed on the current depth image based on the quantization related information (S710). That is, the decoder can find out the quantization method performed by the encoder using flag information indicating whether to perform spatial axis quantization. For example, it may be determined whether to perform spatial axis quantization based on the value "0" or "1" of the flag spatial_quantization_enable_flag.
  • step S710 when the encoder determines that the residual signal is transformed and quantized into the frequency domain, the decoder performs inverse quantization based on the entropy decoded transform coefficients, and converts the dequantized transform coefficients to obtain a residual signal. (S720).
  • step S710 If it is determined in step S710 that the encoder quantizes the residual signal into the spatial domain without transformation, the decoder obtains the quantized residual signal by performing inverse quantization based on the quantization information, that is, the difference value information for the quantized residual signal. (S730).
  • the quantized residual signal may have redundancy unlike the quantization coefficients in the transformed frequency domain. Therefore, the quantized residual signal q 'according to the present invention may be determined by Equation 1 below. In addition, since the difference information about the quantized residual signal is a value calculated based on a pixel unit, the quantized residual signal q 'may be calculated for each pixel in the current depth image.
  • q is the difference value for the quantized residual signal obtained by entropy decoding
  • p is the residual signal predicted from the neighboring pixels.
  • the difference value q for the quantized residual signal is a difference value between the quantized residual signal of the current pixel in the current depth image and the quantized residual signal of the neighboring pixels positioned around the current pixel. Therefore, according to Equation 1, the decoder predicts the residual signal from the neighboring pixels, and adds the difference value q of the quantized residual signal transmitted from the encoder to the predicted residual signal p of the current neighboring pixel.
  • a quantized residual signal q 'for may be obtained.
  • p may be a residual signal of a neighbor.
  • FIG. 8 is a diagram illustrating a process of obtaining a quantized residual signal by applying a pixel-based prediction method according to an embodiment of the present invention.
  • the quantized residual signal q 'of each pixel in the current depth image 800 is a residual signal p predicted from neighboring pixels at a difference value q for the entropy decoded quantized residual signal. Can be obtained by adding.
  • the surrounding pixel may be the top pixel located on top of the current pixel, and the current pixel may be in the first column 810.
  • the surrounding pixels When positioned in the remaining region 820, the surrounding pixels may be left pixels positioned to the left of the current pixels.
  • the value of the predicted residual signal p for the pixel 801 to first obtain the residual signal q ' may be set to zero.
  • the spatial axis quantization method can improve rate-distortion performance when applied to an area including an edge, and can reduce errors caused by quantization in the frequency domain. Therefore, the image quality of the depth image may be improved by improving the image quality of the depth image.
  • the present invention provides a method for removing blurring that may occur in a depth image reconstructed by a decoder and ringing artifacts occurring in an edge region in an image in order to improve a quality of a depth image. .
  • FIG. 9 is a flowchart illustrating a method of filtering by applying an anisotropic intermediate filter according to an embodiment of the present invention.
  • the method of FIG. 9 may be performed by a decoder (hereinafter, referred to as a 'decoder') of the multi-view depth image illustrated in FIG. 2.
  • the decoder may be applied to the reconstructed depth image through the in-loop filter.
  • the anisotropic median filter may remove noise in a specific direction, and may filter pixels in an area to remove noise by an intermediate value of pixels in the area.
  • the decoder may generate a reconstructed depth image by adding a residual signal obtained based on the above-described spatial axis quantization and a prediction value obtained through the prediction of the depth image.
  • filtering may be performed by applying an anisotropic intermediate filter to the reconstructed depth image.
  • the decoder determines whether the current pixel area in the reconstructed depth image is an edge area (S900).
  • the current pixel area refers to an area to which the current anisotropic intermediate filter is to be applied in the reconstructed depth image.
  • I the median for the surrounding pixels located at the periphery of the current pixel region
  • w i the reconstructed pixel value at position i in the current pixel region.
  • the decoder divides the pixels in the current pixel area into a plurality of groups based on a pixel value to be applied to the anisotropic intermediate filter in the current pixel area (hereinafter referred to as a 'filtering pixel value').
  • a 'filtering pixel value' a pixel value to be applied to the anisotropic intermediate filter in the current pixel area
  • Classify S910
  • intermediate values of pixels included in the classified plurality of groups may be used as pixel values in the current pixel area.
  • pixels in the current pixel area may be classified into two groups. Pixels in the current pixel region having a value less than or equal to the filtering target pixel value are classified into the first group R H , and pixels in the current pixel region having a value greater than or equal to the filtering target pixel value are arranged in the second group R. L )
  • w i is a reconstructed pixel value at position i in the current pixel area
  • w cur is a pixel value of the pixel to be filtered.
  • the decoder determines the filtering target pixel value based on the median value of the classified pixels in the current pixel area (S920). That is, the filtering target pixel value is determined based on the difference between each of the intermediate values calculated from each of the plurality of classified groups and the filtering target pixel value, and is determined as one of the intermediate values calculated from each of the plurality of classified groups. Is determined.
  • Equation 4 the process of determining the filtering target pixel value is shown in Equation 4 below.
  • med is a function for outputting an intermediate value of input pixel values
  • w cur is a pixel value of a pixel to be filtered.
  • an anisotropic intermediate filter may be applied to the edge region of the current depth image by replacing the pixel value to be filtered with the second intermediate value (med (R L )).
  • the current depth image filtered by applying the above-described anisotropic intermediate filter may be stored in an image buffer and then used as a reference image.
  • the anisotropic intermediate filter technique is applied by utilizing peripheral pixels for each pixel, there is no need to signal additional information for the anisotropic intermediate filter technique.
  • Table 1 below shows a sequence parameter set (SPS) for the base view color image.
  • spatial_quantization_enable_flag indicates whether spatial axis quantization according to the present invention described above is performed.
  • the encoder may set the value of spatial_quantization_enable_flag to "0" or "1” according to whether spatial axis quantization is performed and transmit the same to the decoder.
  • Table 2 below shows a sub-sequence parameter set for the color image and the depth map of the enhanced view.
  • spatial_quantization_enable_flag indicates whether spatial axis quantization according to the present invention described above is performed.
  • the encoder may set the value of spatial_quantization_enable_flag to "0" or "1” according to whether spatial axis quantization is performed and transmit the same to the decoder.
  • color_video_flag indicates whether it is a color image or a depth image.
  • the color_inter_view_prediction_pictures_first_flag indicates whether to predict the inter-view of the color image.
  • a reference image list for a color image is generated using color_num_anchor_refs_list0, color_num_anchor_refs_list1, color_num_non_anchor_refs_list0, and color_num_non_anchor_refs_list1.
  • the depth_inter_view_prediction_pictures_first_flag indicates whether the depth image is inter-view prediction.
  • reference image lists for depth images are generated using depth_num_anchor_refs_list0, depth_num_anchor_refs_list1, depth_num_non_anchor_refs_list0, and depth_num_non_anchor_refs_list1.
  • NAL prefix network abstraction layer
  • Table 4 below shows a picture parameter set (PPS).
  • the high level syntax may be added to the bitstream and transmitted from the encoder to the decoder.
  • the decoder may decode information included in the high level syntax from the transmitted bitstream at the same level as the encoder. By using this, it is possible to decode the bitstream using a procedure opposite to that of the encoder.

Abstract

The present invention relates to a method and apparatus for decoding a multi-view video. The method for decoding a multi-view video includes: receiving entropy-decode quantization information for a current depth image; and obtaining a quantized residual of the current depth image on the basis of the quantization information, wherein the quantization information includes flag information providing instruction on whether to perform spatial quantization for the current depth image.

Description

다시점 비디오 복호화 방법 및 장치Multiview video decoding method and apparatus
본 발명은 영상의 부호화/복호화 방법에 관한 것으로, 보다 상세하게는 컬러 영상 및 깊이 영상을 포함하는 다시점 비디오의 부호화/복호화 방법 및 장치에 관한 것이다. The present invention relates to a method for encoding / decoding an image, and more particularly, to a method and apparatus for encoding / decoding a multiview video including a color image and a depth image.
현재 ITU-T의 VCEG(Video Coding Experts Group)과 ISO/IEC의 MPEG(Moving Picture Experts Group)은 JCT-VC(Joint Collaborative Team on Video Coding)를 결성하여 H.264/AVC 이후의 차세대 비디오 압축 표준인 HEVC(High Efficient Video Coding)에 대한 표준화를 진행하고 있다. 이에 대하여 MPEG 3DV 그룹은, 다시점 영 상의 효율적인 압축 및 가상 시점 영상의 합성을 위하여, 기존의 H.264/AVC 및 현 재 JCT-VC에 의하여 표준화가 진행 중인 HEVC 기반의 다시점 컬러 영상/깊이 영상에 대한 압축 표준화를 진행하고 있다.ITU-T's Video Coding Experts Group (VCEG) and ISO / IEC's Moving Picture Experts Group (MPEG) formed Joint Collaborative Team on Video Coding (JCT-VC), the next generation of video compression standards after H.264 / AVC. Standardization on HEVC (High Efficient Video Coding) is in progress. On the other hand, the MPEG 3DV group is a HEVC based multiview color image / depth standardized by existing H.264 / AVC and JCT-VC for efficient compression of multiview images and synthesis of virtual view images. Compression standardization of images is in progress.
3DV 그룹은 깊이 영상을 이용하여 가상 시점 영상의 합성을 가능하게 하기 위하여, 다시점 컬러 영상뿐만 아니라 깊이 영상 정보를 함께 압축하여 전송하는 기술에 대한 표준화를 진행 중이다. 이에 따라, 깊이 영상의 특성을 고려한 고효율의 압축 기술들에 대한 연구가 활발히 진행될 것으로 전망된다.In order to enable the synthesis of the virtual view image using the depth image, the 3DV group is in the process of standardizing a technology for compressing and transmitting not only a multiview color image but also depth image information. Accordingly, research on high-efficiency compression techniques considering the characteristics of depth image is expected to be actively conducted.
본 발명은 다시점 비디오 영상의 부호화/복호화 효율을 높일 수 있는 다시점 비디오 부호화/복호화 방법 및 장치를 제공한다. The present invention provides a method and apparatus for multiview video encoding / decoding that can improve encoding / decoding efficiency of a multiview video image.
본 발명은 깊이 영상의 정확도를 향상시킬 수 있는 깊이 영상의 부호화/복호화 방법 및 장치를 제공한다. The present invention provides a method and apparatus for encoding / decoding a depth image capable of improving the accuracy of the depth image.
본 발명은 깊이 영상의 정확도를 향상시킬 수 있는 양자화 방법 및 장치를 제공한다.The present invention provides a quantization method and apparatus capable of improving the accuracy of a depth image.
본 발명은 깊이 영상의 에지 영역을 보존하고 화질을 개선시킬 수 있는 필터링 방법 및 장치를 제공한다. The present invention provides a filtering method and apparatus capable of preserving edge regions of a depth image and improving image quality.
본 발명의 일 양태에 따르면, 다시점 비디오 복호화 방법이 제공된다. 상기 방법은 현재 깊이 영상에 대한 양자화 정보를 수신하여 엔트로피 복호화하는 단계 및 상기 양자화 정보를 기반으로 상기 현재 깊이 영상의 양자화된 잔차 신호(quantized residual)를 획득하는 단계를 포함하며, 상기 양자화 정보는 상기 현재 깊이 영상에 대한 공간축 양자화(spatial quantization)의 수행 여부를 지시하는 플래그 정보를 포함한다. According to an aspect of the present invention, a multi-view video decoding method is provided. The method includes receiving and entropy decoding quantization information of a current depth image and acquiring a quantized residual of the current depth image based on the quantization information, wherein the quantization information includes: Flag information indicating whether to perform spatial axis quantization on the current depth image is included.
상기 현재 깊이 영상에 대해 공간축 양자화를 수행한 경우, 상기 양자화 정보는 상기 현재 깊이 영상의 양자화된 잔차 신호에 대한 차분값 정보를 포함하며, 상기 양자화된 잔차 신호에 대한 차분값은, 상기 현재 깊이 영상 내 현재 픽셀의 양자화된 잔차 신호와 상기 현재 픽셀의 주변에 위치한 주변 픽셀의 양자화된 잔차 신호 간의 차이값일 수 있다.When spatial axis quantization is performed on the current depth image, the quantization information includes difference value information on the quantized residual signal of the current depth image, and the difference value on the quantized residual signal is the current depth. The difference value may be a difference between a quantized residual signal of a current pixel in an image and a quantized residual signal of a neighboring pixel positioned around the current pixel.
상기 양자화된 잔차 신호를 획득하는 단계는, 상기 주변 픽셀로부터 잔차 신호를 예측하는 단계 및 상기 예측된 잔차 신호와 상기 현재 깊이 영상의 양자화된 잔차 신호에 대한 차분값을 더하는 단계를 포함할 수 있다.The acquiring of the quantized residual signal may include predicting a residual signal from the neighboring pixels and adding a difference value between the predicted residual signal and the quantized residual signal of the current depth image.
상기 주변 픽셀은, 상기 현재 픽셀이 상기 현재 깊이 영상 내 첫 번째 열에 위치하면 상기 현재 픽셀의 상단에 위치한 상단 픽셀이며, 상기 현재 픽셀이 상기 현재 깊이 영상 내 첫 번째 열을 제외한 나머지 영역에 위치하면 상기 현재 픽셀의 좌측에 위치한 좌측 픽셀일 수 있다.The peripheral pixel is an upper pixel located at the top of the current pixel when the current pixel is located in the first column of the current depth image, and when the current pixel is located in a region other than the first column of the current depth image. It may be a left pixel located to the left of the current pixel.
상기 공간축 양자화의 수행 여부를 지시하는 플래그 정보는 변환 단위(TU; Transform Unit)를 기반으로 부호화되어 전송되는 정보일 수 있다.The flag information indicating whether to perform the spatial axis quantization may be information encoded and transmitted based on a transform unit (TU).
본 발명의 다른 양태에 따르면, 다시점 비디오 복호화 장치가 제공된다. 상기 장치는 현재 깊이 영상에 대한 양자화 정보를 수신하여 엔트로피 복호화하는 엔트로피 복호화부 및 상기 양자화 정보를 기반으로 상기 현재 깊이 영상의 양자화된 잔차 신호(quantized residual)를 획득하는 역양자화부를 포함하며, 상기 양자화 정보는 상기 현재 깊이 영상에 대한 공간축 양자화(spatial quantization)의 수행 여부를 지시하는 플래그 정보를 포함한다.According to another aspect of the present invention, a multi-view video decoding apparatus is provided. The apparatus includes an entropy decoder that entropy decodes and receives quantization information about a current depth image, and an inverse quantizer that obtains a quantized residual signal of the current depth image based on the quantization information. The information includes flag information indicating whether spatial axis quantization is performed on the current depth image.
상기 현재 깊이 영상에 대해 공간축 양자화를 수행한 경우, 상기 양자화 정보는 상기 현재 깊이 영상의 양자화된 잔차 신호에 대한 차분값 정보를 포함하며, 상기 양자화된 잔차 신호에 대한 차분값은, 상기 현재 깊이 영상 내 현재 픽셀의 양자화된 잔차 신호와 상기 현재 픽셀의 주변에 위치한 주변 픽셀의 양자화된 잔차 신호 간의 차이값일 수 있다.When spatial axis quantization is performed on the current depth image, the quantization information includes difference value information on the quantized residual signal of the current depth image, and the difference value on the quantized residual signal is the current depth. The difference value may be a difference between a quantized residual signal of a current pixel in an image and a quantized residual signal of a neighboring pixel positioned around the current pixel.
상기 역양자화부는, 상기 주변 픽셀로부터 잔차 신호를 예측하고, 상기 예측된 잔차 신호와 상기 현재 깊이 영상의 양자화된 잔차 신호에 대한 차분값을 더하여 상기 현재 깊이 영상의 양자화된 잔차 신호를 획득할 수 있다.The inverse quantization unit may estimate a residual signal from the neighboring pixels, and obtain a quantized residual signal of the current depth image by adding a difference value between the predicted residual signal and the quantized residual signal of the current depth image. .
상기 주변 픽셀은, 상기 현재 픽셀이 상기 현재 깊이 영상 내 첫 번째 열에 위치하면 상기 현재 픽셀의 상단에 위치한 상단 픽셀이며, 상기 현재 픽셀이 상기 현재 깊이 영상 내 첫 번째 열을 제외한 나머지 영역에 위치하면 상기 현재 픽셀의 좌측에 위치한 좌측 픽셀일 수 있다.The peripheral pixel is an upper pixel located at the top of the current pixel when the current pixel is located in the first column of the current depth image, and when the current pixel is located in a region other than the first column of the current depth image. It may be a left pixel located to the left of the current pixel.
상기 공간축 양자화의 수행 여부를 지시하는 플래그 정보는 변환 단위(TU; Transform Unit)를 기반으로 부호화되어 전송되는 정보일 수 있다.The flag information indicating whether to perform the spatial axis quantization may be information encoded and transmitted based on a transform unit (TU).
본 발명의 또 다른 양태에 따르면, 다시점 비디오 복호화 방법이 제공된다. 상기 방법은 비트스트림을 수신하여 엔트로피 복호화하는 단계 및 상기 엔트로피 복호화된 신호를 기반으로 복원된 현재 깊이 영상에 대해 이방성 중간 필터(anisotropic median filter)를 이용하여 필터링을 수행하는 단계를 포함한다. According to another aspect of the present invention, a multi-view video decoding method is provided. The method includes receiving and entropy decoding a bitstream and performing filtering using an anisotropic median filter on a current depth image reconstructed based on the entropy decoded signal.
상기 이방성 중간 필터를 이용하여 필터링을 수행하는 단계는, 상기 현재 깊이 영상 내 현재 픽셀 영역이 에지(edge) 영역인지 판단하는 단계, 상기 현재 픽셀 영역이 에지 영역이면, 상기 현재 픽셀 영역 내 필터링 대상 픽셀 값을 기준으로 상기 현재 픽셀 영역 내 픽셀들을 복수개의 그룹으로 분류하는 단계 및 상기 분류된 복수개의 그룹 각각으로부터 산출된 중간값 각각과 상기 필터링 대상 픽셀 값 사이의 차이를 기반으로 상기 필터링 대상 픽셀 값을 결정하는 단계를 포함하며, 상기 필터링 대상 픽셀 값은 상기 분류된 복수개의 그룹 각각으로부터 산출된 중간값들 중 하나의 값으로 결정될 수 있다.The performing of the filtering using the anisotropic intermediate filter may include determining whether a current pixel area in the current depth image is an edge area, and if the current pixel area is an edge area, the filtering target pixel in the current pixel area. Classifying the pixels in the current pixel area into a plurality of groups based on a value and based on a difference between each of the median values calculated from each of the classified plurality of groups and the filtering target pixel value. And determining the pixel value to be filtered as one of the median values calculated from each of the classified plurality of groups.
상기 현재 픽셀 영역이 에지 영역인지 판단하는 단계에서, 상기 현재 픽셀 영역 내 픽셀 값들과 상기 현재 픽셀 영역의 주변에 위치한 주변 픽셀들로부터 산출된 중간값 사이의 차이를 기초로 미리 설정된 임계값과 비교할 수 있다.In determining whether the current pixel area is an edge area, the threshold value may be compared with a preset threshold based on a difference between pixel values in the current pixel area and an intermediate value calculated from neighboring pixels positioned around the current pixel area. have.
상기 복수개의 그룹으로 분류하는 단계에서, 상기 필터링 대상 픽셀 값보다 작거나 동일한 값을 가지는 상기 현재 픽셀 영역 내 픽셀들을 제1 그룹으로 분류하고, 상기 필터링 대상 픽셀 값보다 크거나 동일한 값을 가지는 상기 현재 픽셀 영역 내 픽셀들을 제2 그룹으로 분류할 수 있다.In the classifying into the plurality of groups, the pixels in the current pixel area having a value less than or equal to the filtering target pixel value are classified into a first group, and the current having a value greater than or equal to the filtering target pixel value. The pixels in the pixel area may be classified into a second group.
상기 필터링 대상 픽셀 값을 결정하는 단계에서, 상기 제1 그룹으로부터 산출된 제1 중간값과 상기 제2 그룹으로부터 산출된 제2 중간값 중 상기 필터링 대상 픽셀 값과의 차이가 작은 중간값을 상기 필터링 대상 픽셀 값으로 결정할 수 있다.In the determining of the pixel value to be filtered, filtering the median having a small difference between the first pixel value calculated from the first group and the second pixel value calculated from the second group with the filtering object pixel value. Can be determined by the target pixel value.
상기 이방성 중간 필터를 사용하여 필터링된 현재 깊이 영상을 영상 버퍼에 에 저장하는 단계를 더 포함할 수 있다.The method may further include storing the current depth image filtered using the anisotropic intermediate filter in an image buffer.
본 발명의 또 다른 양태에 따르면, 다시점 비디오 복호화 장치가 제공된다. 상기 장치는 비트스트림을 수신하여 엔트로피 복호화하는 엔트로피 복호화부 및 상기 엔트로피 복호화된 신호를 기반으로 복원된 현재 깊이 영상에 대해 이방성 중간 필터(anisotropic median filter)를 이용하여 필터링을 수행하는 필터부를 포함한다.According to another aspect of the present invention, a multi-view video decoding apparatus is provided. The apparatus includes an entropy decoding unit for receiving and entropy decoding a bitstream and a filter unit for performing filtering using an anisotropic median filter on the current depth image reconstructed based on the entropy decoded signal.
복원된 깊이 영상의 에지 영역에서 발생할 수 있는 화질 저하 문제를 이방성 중간 필터를 적용함으로써 깊이 영상의 화질을 향상시킬 수 있다. 또한, 깊이 영상에 대해 공간축 양자화 방법을 적용함으로써 에지가 포함된 영역에서 발생할 수 있는 에러를 줄이고 에지 영역을 보존할 수 있으며, 율-왜곡 성능이 향상될 수 있다. The image quality of the depth image may be improved by applying an anisotropic intermediate filter to the image degradation problem that may occur in the edge region of the reconstructed depth image. In addition, by applying the spatial axis quantization method to the depth image, it is possible to reduce errors that may occur in the region including the edge, preserve the edge region, and improve rate-distortion performance.
도 1은 본 발명의 실시예에 따른 다시점 비디오 영상의 복호화 장치를 개략적으로 나타낸 블록도이다.1 is a block diagram schematically illustrating an apparatus for decoding a multiview video image according to an embodiment of the present invention.
도 2는 본 발명의 실시예에 따른 다시점 깊이 영상의 복호화 장치를 개략적으로 나타낸 블록도이다.2 is a block diagram schematically illustrating an apparatus for decoding a multiview depth image according to an embodiment of the present invention.
도 3은 본 발명이 적용되는 다시점 영상의 시점간 예측을 위한 부호화 구조를 나타낸 도면이다.3 is a diagram illustrating an encoding structure for inter-view prediction of a multiview image to which the present invention is applied.
도 4는 도 3에 도시된 시점 V2의 시점간 예측을 위한 참조 구조의 일예를 나타내는 도면이다.FIG. 4 is a diagram illustrating an example of a reference structure for inter-view prediction of time V 2 shown in FIG. 3.
도 5는 도 3에 도시된 시점 V1의 시점간 예측을 위한 참조 구조의 일예를 나타내는 도면이다.FIG. 5 is a diagram illustrating an example of a reference structure for inter-view prediction of time V 1 shown in FIG. 3.
도 6은 본 발명의 실시예에 따른 공간축 양자화 방법을 개략적으로 나타낸 순서도이다.6 is a flowchart schematically illustrating a space axis quantization method according to an embodiment of the present invention.
도 7은 본 발명의 실시예에 따른 공간 영역에서 역양자화하는 방법을 나타낸 순서도이다.7 is a flowchart illustrating a method of inverse quantization in a spatial domain according to an embodiment of the present invention.
도 8은 본 발명의 실시예에 따른 픽셀 기반 예측 방법을 적용하여 양자화된 잔차 신호를 획득하는 과정을 설명하기 위한 도면이다.8 is a diagram illustrating a process of obtaining a quantized residual signal by applying a pixel-based prediction method according to an embodiment of the present invention.
도 9는 본 발명의 실시예에 따른 이방성 중간 필터를 적용하여 필터링하는 방법을 나타낸 순서도이다.9 is a flowchart illustrating a method of filtering by applying an anisotropic intermediate filter according to an embodiment of the present invention.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.As the invention allows for various changes and numerous embodiments, particular embodiments will be illustrated in the drawings and described in detail in the written description. However, this is not intended to limit the present invention to specific embodiments, it should be understood to include all modifications, equivalents, and substitutes included in the spirit and scope of the present invention. In describing the drawings, similar reference numerals are used for similar elements.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.Terms such as first and second may be used to describe various components, but the components should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the present invention, the first component may be referred to as the second component, and similarly, the second component may also be referred to as the first component. The term and / or includes a combination of a plurality of related items or any item of a plurality of related items.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다거나 "직접 접속되어"있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.When a component is referred to as being "connected" or "connected" to another component, it may be directly connected to or connected to that other component, but it may be understood that other components may exist in the middle. Should be. On the other hand, when a component is referred to as being "directly connected" or "directly connected" to another component, it should be understood that there is no other component in between.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used herein is for the purpose of describing particular example embodiments only and is not intended to be limiting of the present invention. Singular expressions include plural expressions unless the context clearly indicates otherwise. In this application, the terms "comprise" or "have" are intended to indicate that there is a feature, number, step, operation, component, part, or combination thereof described in the specification, and one or more other features. It is to be understood that the present disclosure does not exclude the possibility of the presence or the addition of numbers, steps, operations, components, components, or combinations thereof.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 이하, 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.Hereinafter, with reference to the accompanying drawings, it will be described in detail a preferred embodiment of the present invention. Hereinafter, the same reference numerals are used for the same components in the drawings, and duplicate descriptions of the same components are omitted.
고효율 비디오 코딩(HEVC; High Efficiency Video Coding) 기반의 3차원 비디오 코딩(3D Video Coding) 기술은 다시점(multi-view) 비디오 영상뿐만 아니라 각 시점의 깊이 영상을 포함한 3차원 비디오의 획득, 처리, 전송 및 재생에 대한 모든 과정을 포함한다. 깊이 영상은 영상 내에 존재하는 객체의 3차원 거리 정보를 나타내는 영상으로, 깊이 영상의 화소값은 해당 화소의 깊이 정보를 알려준다. 깊이 영상의 정확도는 이를 이용하여 합성된 가상의 중간 시점 영상의 화질을 좌우하기 때문에 정확한 깊이 영상을 생성하는 것이 중요하다. High Efficiency Video Coding (HEVC) -based 3D Video Coding (3D Video Coding) technology enables the acquisition, processing, and processing of 3D video including depth images of each viewpoint as well as multi-view video images. Includes all processes for transfer and playback. The depth image is an image representing 3D distance information of an object existing in the image, and a pixel value of the depth image informs depth information of the corresponding pixel. Since the accuracy of the depth image determines the quality of the virtual mid-view image synthesized using the depth image, it is important to generate an accurate depth image.
따라서, 본 발명에 따른 3차원 비디오(3DV) 복호화기는 다시점 비디오 영상뿐만 아니라 깊이 영상을 복호화할 수 있도록 설계되었다. 또한, 3차원 비디오 부호화기는 다시점 비디오 영상과 깊이 영상 각각을 부호화할 수 있도록 두 계층으로 구성되며, 각 계층은 HEVC의 모든 툴뿐만 아니라 시점간 상관도에 기반한 시점간 예측(inter-view prediction) 방법을 사용하여 코딩이 가능하다. 본 발명에 따른 3차원 비디오 복호화기는 3차원 비디오 부호화기와 반대의 절차로 복호화 과정을 수행할 수 있다.Therefore, the 3D video decoder according to the present invention is designed to decode not only a multiview video image but also a depth image. In addition, the three-dimensional video encoder is composed of two layers to encode each of the multi-view video image and the depth image, each layer is inter-view prediction based on the inter-view correlation as well as all the tools of HEVC. Coding is possible using the method. The 3D video decoder according to the present invention may perform the decoding process in a procedure opposite to that of the 3D video encoder.
이하에서는 본 발명에 따른 3차원 비디오 복호화기에 대해서 설명하며, 본 발명에 따른 3차원 비디오 복호화기는 다시점 비디오 영상의 복호화기와 다시점 깊이 영상의 복호화기의 두 계층으로 구성될 수 있다. 이때, 다시점 비디오 영상은 컬러 영상일 수 있다. 따라서, 본 발명에 따른 3차원 비디오 복호화기는 2시점/3시점 비디오 영상과 2시점/3시점 깊이 영상의 복호화에 활용될 수 있다. Hereinafter, a 3D video decoder according to the present invention will be described. The 3D video decoder according to the present invention may be composed of two layers, a decoder of a multiview video image and a decoder of a multiview depth image. In this case, the multiview video image may be a color image. Therefore, the 3D video decoder according to the present invention may be used to decode a 2 viewpoint / 3 viewpoint video image and a 2 viewpoint / 3 viewpoint depth image.
도 1은 본 발명의 실시예에 따른 다시점 비디오 영상의 복호화 장치를 개략적으로 나타낸 블록도이다. 1 is a block diagram schematically illustrating an apparatus for decoding a multiview video image according to an embodiment of the present invention.
도 1을 참조하면, 다시점 비디오 영상의 복호화 장치(100)는 엔트로피 복호화부(110, 111, 112), 역양자화부(120, 121, 122), 역변환부(130, 131, 132), 예측부(140, 141, 142), 움직임 보상부(150, 151, 152), 필터부(160, 161, 162), 영상 버퍼부(DPB; Decoded Picture Buffer)(170, 171, 172)를 포함한다. Referring to FIG. 1, the apparatus 100 for decoding a multiview video image includes an entropy decoder 110, 111, and 112, an inverse quantizer 120, 121, and 122, an inverse transformer, 130, 131, and 132. Units 140, 141, 142, motion compensators 150, 151, 152, filter units 160, 161, 162, and decoded picture buffers (DPBs) 170, 171, and 172. .
다시점 비디오 영상의 복호화 장치(100)에 부호화된 영상의 비트스트림(V0, V1, V2)이 입력될 수 있다. 복수의 비트스트림(V0, V1, V2) 각각은 서로 다른 시점에서 획득된 영상일 수 있다. 예컨대, 비트스트림(V0)은 기본 시점 영상일 수 있고, 기본 시점은 독립적으로 부호화되는 영상이 속한 시점이다. 또한, 비트스트림(V1, V2)은 확장 시점 영상일 수 있고, 확장 시점은 기본 시점의 정보를 이용하여 부호화되는 영상이 속한 시점이다. The bitstreams V 0 , V 1 , and V 2 of the encoded image may be input to the apparatus 100 for decoding a multiview video image. Each of the plurality of bitstreams V 0 , V 1 , and V 2 may be an image obtained at different time points. For example, the bitstream V 0 may be a base view image, and the base view is a view to which an image to be encoded independently belongs. In addition, the bitstreams V 1 and V 2 may be extended view images, and the extended view is a view to which an image encoded using information of the base view belongs.
다시점 비디오 영상의 복호화 장치(100)에 입력된 비트스트림(V0, V1, V2)은 3차원 비디오 부호화기와 반대의 절차로 복호화될 수 있으며, 3차원 비디오 부호화기는 예컨대, HEVC 기술을 사용하여 다시점 비디오 영상을 부호화할 수 있다. The bitstreams V 0 , V 1 , and V 2 input to the decoding apparatus 100 of a multiview video image may be decoded by a procedure opposite to that of a 3D video encoder, and the 3D video encoder may use, for example, HEVC technology. Can be used to encode a multiview video image.
엔트로피 복호화부(110, 111, 112)는 입력된 비트스트림(V0, V1, V2)을 엔트로피 복호화할 수 있다. 예컨대, 시점간 상관도, 시점간 시차 정보 등과 같은 시점 관련 정보, 예측 모드 정보, 움직임 벡터 정보 등이 비트스트림(V0, V1, V2)에 포함된 경우 이를 함께 엔트로피 복호화할 수 있다.The entropy decoding units 110, 111, and 112 may entropy decode the input bitstreams V 0 , V 1 , and V 2 . For example, when view-related information such as inter-view correlation, inter-view parallax information, prediction mode information, motion vector information, and the like are included in the bitstreams V 0 , V 1 , and V 2 , entropy decoding may be performed together.
역양자화부(120, 121, 122)는 엔트로피 복호화된 변환 계수와 3차원 비디오부호화기에서 제공된 양자화 파라미터를 기초로 역양자화를 수행할 수 있다. The inverse quantizers 120, 121, and 122 may perform inverse quantization based on entropy decoded transform coefficients and quantization parameters provided by the 3D video encoder.
역변환부(130, 131, 132)는 역양자화된 변환 계수를 역변환하여 잔차 블록을 생성할 수 있다. 역변환은 3차원 비디오 부호화기에서 결정된 변환 단위(TU; Transform Unit)를 기초로 수행될 수 있으며, 부호화기에서 수행된 변환 정보를 이용할 수 있다. The inverse transform units 130, 131, and 132 may inverse transform the inverse quantized transform coefficients to generate a residual block. The inverse transform may be performed based on a transform unit (TU) determined by the 3D video encoder, and may use transform information performed by the encoder.
예측부(140, 141, 142)는 인트라 예측 및 인터 예측을 수행하여 현재 블록에 대응되는 예측 블록을 생성할 수 있다. 현재 블록은 코딩 단위(CU; Coding Unit)에 대응되는 블록 또는 예측 단위(PU; Prediction Unit)에 대응되는 블록일 수 있다.The prediction units 140, 141, and 142 may generate a prediction block corresponding to the current block by performing intra prediction and inter prediction. The current block may be a block corresponding to a coding unit (CU) or a block corresponding to a prediction unit (PU).
인트라 모드인 경우, 예측부(140, 141, 142)는 현재 블록 주변의 이미 부호화된 블록의 픽셀값을 이용하여 예측을 수행하여 예측 블록을 생성할 수 있다. 인터 모드인 경우, 예측부(140, 141, 142)는 움직임 벡터 및 영상 버퍼부(170, 171, 172)에 저장되어 있는 참조 영상을 이용하여 움직임 보상부(150, 151, 152)에서 움직임 보상을 수행함으로써 예측 블록을 생성할 수 있다. In the intra mode, the prediction units 140, 141, and 142 may generate a prediction block by performing prediction using pixel values of blocks that are already encoded around the current block. In the inter mode, the predictors 140, 141, and 142 compensate for the motion by the motion compensators 150, 151, and 152 using the motion vector and the reference image stored in the image buffers 170, 171, and 172. By performing the prediction block can be generated.
예측 블록은 잔차 블록과 더해져서 복원 블록이 생성될 수 있다. 복원 블록은 필터부(160, 161, 162)로 제공될 수 있다. 필터부(160, 161, 162)는 부호화기로부터 해당 블록에 적용된 필터 관련 정보를 제공받아 복호화기에서 해당 블록에 대한 필터링을 수행할 수 있다. 예컨대, 부호화기가 HEVC에 따라 부호화를 수행한 경우 인-루프 필터(In-loop filter)일 수 있다. The prediction block may be added to the residual block to generate a reconstruction block. The reconstruction block may be provided to the filter units 160, 161, and 162. The filter units 160, 161, and 162 may receive filter related information applied to the corresponding block from the encoder and perform filtering on the corresponding block in the decoder. For example, when the encoder performs encoding according to HEVC, the encoder may be an in-loop filter.
영상 버퍼부(170, 171, 172)는 복원 블록을 저장한다. 저장된 복원 블록은 예측을 수행하는 예측부(140, 141, 142) 및 움직임 보상부(150, 151, 152)에 제공되어 참조 영상으로 사용될 수 있다. The image buffer units 170, 171, and 172 store the reconstruction block. The stored reconstructed blocks may be provided to the predictors 140, 141, and 142 and the motion compensators 150, 151, and 152, which perform prediction, and may be used as reference images.
비트스트림(V0)과 같이 기본 시점 영상의 경우에는 시점간 예측은 수행되지 않고 인터 예측/인트라 예측이 수행된다. 비트스트림(V1, V2)과 같이 확장 시점 영상의 경우에는 시점간 예측이 수행되므로, 다른 시점의 영상 정보를 참조할 수 있다. 따라서, 확장 시점의 경우에는 다른 시점의 영상 버퍼부로부터 참조 영상을 참조하여 예측을 수행할 수 있다. 이러한 시점간 예측을 위한 참조 구조는 도 3 내지 도 5에서 보다 구체적으로 설명하도록 한다. In the case of the base view image, such as the bitstream V 0 , inter-view prediction is not performed and inter prediction / intra prediction is performed. Since the inter-view prediction is performed in the case of the extended view image such as the bitstreams V 1 and V 2 , image information of another view may be referred to. Therefore, in the case of the extended view, prediction may be performed by referring to the reference picture from the image buffer unit at another view. This reference structure for inter-view prediction will be described in more detail with reference to FIGS. 3 to 5.
이상, 도 1에 도시된 본 발명의 실시예에 따른 다시점 비디오 영상의 복호화 장치는 하나의 기본 시점 영상의 복호화와 두 개의 확장 시점 영상의 복호화를 수행하는 것으로 도시되었으나, 이는 하나의 예시이며, 두 개 이상의 확장 시점 영상에 대해 복호화를 수행할 수도 있다. As described above, the apparatus for decoding a multiview video image according to the embodiment of the present invention illustrated in FIG. 1 performs decoding of one base view image and decoding of two extended view images. Decoding may be performed on two or more extended view images.
도 2는 본 발명의 실시예에 따른 다시점 깊이 영상의 복호화 장치를 개략적으로 나타낸 블록도이다. 2 is a block diagram schematically illustrating an apparatus for decoding a multiview depth image according to an embodiment of the present invention.
도 2를 참조하면, 다시점 깊이 영상의 복호화 장치(200)는 엔트로피 복호화부(210, 211, 212), 역양자화부(220, 221, 222), 역변환부(230, 231, 232), 예측부(240, 241, 242), 움직임 보상부(250, 251, 252), 필터부(260, 261, 262), 영상 버퍼부(DPB; Decoded Picture Buffer)(270, 271, 272)를 포함한다.Referring to FIG. 2, the apparatus 200 for decoding a multiview depth image includes an entropy decoder 210, 211, and 212, an inverse quantizer 220, 221, and 222, an inverse transformer 230, 231, and 232. Units 240, 241 and 242, motion compensators 250, 251 and 252, filter units 260, 261 and 262, and decoded picture buffers (DPBs) 270, 271 and 272. .
다시점 깊이 영상의 복호화 장치(200)에 부호화된 깊이 영상의 비트스트림(D0, D1, D2)이 입력될 수 있다. 복수의 비트스트림(D0, D1, D2) 각각은 서로 다른 시점에서 획득된 깊이 영상일 수 있다. 예컨대, 비트스트림(D0)은 기본 시점 영상일 수 있고, 기본 시점은 독립적으로 부호화되는 영상이 속한 시점이다. 또한, 비트스트림(D1, D2)은 확장 시점 영상일 수 있고, 확장 시점은 기본 시점의 정보를 이용하여 부호화되는 영상이 속한 시점이다. The bitstreams D 0 , D 1 , and D 2 of the encoded depth image may be input to the apparatus 200 for decoding a multiview depth image. Each of the plurality of bitstreams D 0 , D 1 , and D 2 may be depth images obtained at different views. For example, the bitstream D 0 may be a base view image, and the base view is a view to which an image to be encoded independently belongs. In addition, the bitstreams D 1 and D 2 may be extended view images, and the extended view is a view to which an image encoded using information of the base view belongs.
다시점 깊이 영상의 복호화 장치(200)에 입력된 비트스트림(D0, D1, D2)은 3차원 비디오 부호화기에서 깊이 영상을 부호화한 절차와 반대로 복호화될 수 있으며, 3차원 비디오 부호화기는 예컨대, HEVC 기술을 사용하여 다시점 깊이 영상을 부호화할 수 있다. The bitstreams D 0 , D 1 , and D 2 input to the decoding apparatus 200 of the multi-view depth image may be decoded as opposed to the procedure of encoding the depth image in the 3D video encoder. The multiview depth image may be encoded by using the HEVC technique.
엔트로피 복호화부(210, 211, 212)는 입력된 비트스트림(D0, D1, D2)을 엔트로피 복호화할 수 있다. 예컨대, 시점간 상관도, 시점간 시차 정보 등과 같은 시점 관련 정보, 예측 모드 정보, 움직임 벡터 정보 등이 비트스트림(D0, D1, D2)에 포함된 경우 이를 함께 엔트로피 복호화할 수 있다. The entropy decoding units 210, 211, and 212 may entropy decode the input bitstreams D 0 , D 1 , and D 2 . For example, when view-related information such as inter-view correlation, inter-view parallax information, prediction mode information, motion vector information, and the like are included in the bitstreams D 0 , D 1 , and D 2 , they may be entropy decoded together.
또한, 본 발명에 따른 엔트로피 복호화부(210, 211, 212)는 비트스트림(D0, D1, D2)에 포함된 양자화 관련 정보를 엔트로피 복호화할 수 있다. 양자화 관련 정보는 3차원 비디오 부호화기에서 수행된 양자화 정보이다. 3차원 비디오 부호화기에서는 현재 깊이 영상에 대해 예측을 수행한 이후 생성된 잔차 신호(residual)를 변환(transform)하여 주파수 영역(frequency domain)에서의 양자화(quantization)를 수행할 수 있고, 또는 잔차 신호를 변환하지 않고 공간 영역(spatial domain)에서의 양자화를 수행할 수 있다. 이는 3차원 부호화기에서 변환 단위(TU; Transform Unit)를 기반으로 RDO(Rate Distortion Optimization)를 고려하여 높은 효율을 내는 양자화 방법을 적응적으로 선택할 수 있다. Also, the entropy decoding units 210, 211, and 212 according to the present invention may entropy decode quantization related information included in the bitstreams D 0 , D 1 , and D 2 . Quantization related information is quantization information performed by the 3D video encoder. In the 3D video encoder, the residual signal generated after performing prediction on the current depth image may be transformed to perform quantization in the frequency domain, or the residual signal may be Quantization in the spatial domain can be performed without transformation. This allows the 3D encoder to adaptively select a quantization method that yields high efficiency in consideration of Rate Distortion Optimization (RDO) based on a transform unit (TU).
즉, 양자화 관련 정보는 공간축 양자화(spatial quantization)의 수행 여부를 지시하는 플래그 정보를 포함한다. 또한, 공간축 양자화를 수행한 경우, 양자화 관련 정보는 양자화된 잔차 신호(quantized residual)에 대한 차분값 정보를 포함할 수 있다.That is, the quantization related information includes flag information indicating whether spatial axis quantization is performed. In addition, when spatial axis quantization is performed, the quantization related information may include difference value information about a quantized residual signal.
역양자화부(220, 221, 222)는 엔트로피 복호화된 양자화 관련 정보를 기반으로 역양자화를 수행할 수 있다. 즉, 공간축 양자화의 수행 여부를 지시하는 플래그 정보를 기반으로 역양자화를 수행하되, 플래그가 공간축 양자화를 수행한 것으로 지시하면 역변환 과정을 거치지 않고 역양자화하여 잔차 신호를 생성할 수 있다. 반면, 플래그가 공간축 양자화를 수행하지 않은 것으로 지시하면 엔트로피 복호화된 변환 계수와 양자화 파라미터를 기초로 역양자화를 수행하고, 역변환부(230, 231, 232)에서 역양자화된 변환 계수를 역변환하여 잔차 신호를 생성할 수 있다. 공간축 양자화 방법에 대한 구체적인 내용은 후술하도록 한다. The inverse quantization units 220, 221, and 222 may perform inverse quantization based on entropy decoded quantization related information. That is, inverse quantization is performed based on flag information indicating whether to perform spatial axis quantization, and if the flag indicates that space axis quantization is performed, the residual signal may be generated by inverse quantization without undergoing an inverse transform process. On the other hand, if the flag indicates that the space axis quantization has not been performed, inverse quantization is performed based on the entropy decoded transform coefficient and the quantization parameter, and the inverse transform unit 230, 231, and 232 performs inverse transform on the inverse quantized transform coefficient to residual You can generate a signal. Details of the space axis quantization method will be described later.
역변환부(230, 231, 232)는 역양자화부(220, 221, 222)에 의해 역양자화된 변환 계수를 역변환하여 잔차 블록을 생성할 수 있다. 역변환은 3차원 비디오 부호화기에서 결정된 변환 단위(TU; Transform Unit)를 기초로 수행될 수 있으며, 부호화기에서 수행된 변환 정보를 이용할 수 있다. 본 발명에 따른 다시점 깊이 영상의 복호화 장치(200)에서는 공간축 양자화의 수행 여부를 지시하는 플래그 정보에 따라서 역변환을 수행하지 않을 수 있다. The inverse transform units 230, 231, and 232 may inverse transform the transform coefficients inversely quantized by the inverse quantizers 220, 221, and 222 to generate a residual block. The inverse transform may be performed based on a transform unit (TU) determined by the 3D video encoder, and may use transform information performed by the encoder. The apparatus 200 for decoding a multiview depth image according to the present invention may not perform inverse transformation according to flag information indicating whether to perform spatial axis quantization.
예측부(240, 241, 242)는 인트라 예측 및 인터 예측을 수행하여 현재 블록에 대응되는 예측 블록을 생성할 수 있다. 현재 블록은 코딩 단위(CU; Coding Unit)에 대응되는 블록 또는 예측 단위(PU; Prediction Unit)에 대응되는 블록일 수 있다.The prediction units 240, 241, and 242 may generate a prediction block corresponding to the current block by performing intra prediction and inter prediction. The current block may be a block corresponding to a coding unit (CU) or a block corresponding to a prediction unit (PU).
인트라 모드인 경우, 예측부(240, 241, 242)는 현재 블록 주변의 이미 부호화된 블록의 픽셀값을 이용하여 예측을 수행하여 예측 블록을 생성할 수 있다. 인터 모드인 경우, 예측부(240, 241, 242)는 움직임 벡터 및 영상 버퍼부(270, 271, 272)에 저장되어 있는 참조 영상을 이용하여 움직임 보상부(250, 251, 252)에서 움직임 보상을 수행함으로써 예측 블록을 생성할 수 있다.In the intra mode, the prediction units 240, 241, and 242 may generate a prediction block by performing prediction using pixel values of blocks that are already encoded around the current block. In the inter mode, the predictors 240, 241, and 242 compensate for the motion in the motion compensators 250, 251, and 252 using the motion vector and the reference image stored in the image buffers 270, 271, and 272. By performing the prediction block can be generated.
예측 블록은 잔차 블록과 더해져서 복원 블록이 생성될 수 있다. 복원 블록은 필터부(260, 261, 262)로 제공될 수 있다. 필터부(260, 261, 262)는 부호화기로부터 해당 블록에 적용된 필터 관련 정보를 제공받아 복호화기에서 해당 블록에 대한 필터링을 수행할 수 있다. The prediction block may be added to the residual block to generate a reconstruction block. The reconstruction block may be provided to the filter units 260, 261, and 262. The filter units 260, 261, and 262 may receive filter related information applied to the corresponding block from the encoder and perform filtering on the corresponding block in the decoder.
예컨대, 부호화기가 HEVC에 따라 부호화를 수행한 경우 인-루프 필터(In-loop filter)일 수 있다. 또한, HEVC에 따라 부호화를 수행한 경우, 부호화 단위(CU; Coding Unit) 또는 예측 단위(PU; Prediction Unit) 상에서 blocking artifact를 없애기 위해 디블록킹 필터(deblocking filter)를 적용할 수 있다. 만일, 부호화기에서 공간축 양자화를 수행한 경우라면 공간 영역에서는 blocking artifact가 발생하지 않으므로, 본 발명에서는 에지(edge) 성분을 유지시키며 잡음을 제거할 수 있는 필터, 예컨대 일반적으로 널리 알려져 있는 양방향 필터(bilateral filter)를 사용할 수 있다. For example, when the encoder performs encoding according to HEVC, the encoder may be an in-loop filter. In addition, when encoding is performed according to HEVC, a deblocking filter may be applied to remove blocking artifacts on a coding unit (CU) or a prediction unit (PU). If the encoder performs spatial axis quantization, blocking artifacts do not occur in the spatial domain. Therefore, in the present invention, a filter capable of removing edge noise while maintaining an edge component, for example, a generally known bidirectional filter ( bilateral filters) can be used.
또한, 본 발명의 실시예에 따른 다시점 깊이 영상의 복호화 장치(200)는 필터부(260, 261, 262)를 거친 복원된 깊이 영상에서 에지 영역의 정확도를 향상시키기 위해서 이방성 중간 필터(anisotropic median filter)(265, 266, 267)를 사용할 수 있다. 이방성 중간 필터를 사용하면 특정 방향에 대해서 잡음을 제거할 수 있으며, 잡음을 제거하고자 하는 영역 내의 픽셀값을 그 영역 내의 중간값으로 필터링할 수 있다. 본 발명의 실시예에 따른 이방성 중간 필터를 사용하여 필터링하는 방법에 대한 구체적인 내용은 후술하도록 한다. In addition, the apparatus 200 for decoding a multiview depth image according to an embodiment of the present invention may use an anisotropic median filter to improve the accuracy of the edge region in the reconstructed depth image that has passed through the filter units 260, 261, and 262. filter 265, 266, 267 can be used. An anisotropic intermediate filter can be used to remove noise in a specific direction, and filter pixel values in the region to which the noise is to be removed to the intermediate values in the region. Details of the filtering method using the anisotropic intermediate filter according to an embodiment of the present invention will be described later.
영상 버퍼부(270, 271, 272)는 복원 블록을 저장한다. 복원 블록은 필터부(260, 261, 262)에서 필터링된 복원 블록 또는 이방성 중간 필터(265, 266, 267)에서 필터링된 복원 블록일 수 있다. 저장된 복원 블록은 예측을 수행하는 예측부(240, 241, 242) 및 움직임 보상부(250, 251, 252)에 제공되어 참조 영상으로 사용될 수 있다. The image buffer units 270, 271, and 272 store the reconstruction block. The reconstruction block may be a reconstruction block filtered by the filter units 260, 261, and 262 or a reconstruction block filtered by the anisotropic intermediate filters 265, 266, and 267. The stored reconstructed blocks may be provided to the predictors 240, 241, and 242 and the motion compensators 250, 251, and 252, which perform prediction, to be used as reference images.
비트스트림(D0)과 같이 기본 시점 영상의 경우에는 시점간 예측은 수행되지 않고 인터 예측/인트라 예측이 수행된다. 비트스트림(D1, D2)과 같이 확장 시점 영상의 경우에는 시점간 예측이 수행되므로, 다른 시점의 영상 정보를 참조할 수 있다. 따라서, 확장 시점의 경우에는 다른 시점의 영상 버퍼부로부터 참조 영상을 참조하여 예측을 수행할 수 있다. 이러한 시점간 예측을 위한 참조 구조는 도 3 내지 도 5에서 보다 구체적으로 설명하도록 한다. In the case of the base view image such as the bitstream D 0 , inter-view prediction is not performed and inter prediction / intra prediction is performed. Since the inter-view prediction is performed in the case of the extended view image such as the bitstreams D 1 and D 2 , image information of another view may be referred to. Therefore, in the case of the extended view, prediction may be performed by referring to the reference picture from the image buffer unit at another view. This reference structure for inter-view prediction will be described in more detail with reference to FIGS. 3 to 5.
이상, 도 2에 도시된 본 발명의 실시예에 따른 다시점 깊이 영상의 복호화 장치는 하나의 기본 시점 깊이 영상의 복호화와 두 개의 확장 시점 깊이 영상의 복호화를 수행하는 것으로 도시되었으나, 이는 하나의 예시이며, 두 개 이상의 확장 시점 깊이 영상에 대해 복호화를 수행할 수도 있다. The decoding apparatus of the multi-view depth image according to the embodiment of the present invention illustrated in FIG. 2 has been shown to perform decoding of one basic view depth image and decoding of two extended view depth images. In addition, two or more extended view depth images may be decoded.
도 3은 본 발명이 적용되는 다시점 영상의 시점간 예측을 위한 부호화 구조를 나타낸 도면이다.3 is a diagram illustrating an encoding structure for inter-view prediction of a multiview image to which the present invention is applied.
도 3을 참조하면, 세 개의 시점(V0, V1, V2)은 서로 다른 시점일 수 있다. 시점 V0는 다른 시점으로부터의 예측 없이 부호화되는 시점으로, 기본 시점 또는 I 시점(Intra view)일 수 있다. 시점 V1, V2는 다른 시점을 참조하여 예측 부호화되는 확장 시점으로, 시점 V2는 부호화가 끝난 하나의 시점만 참조하여 예측 부호화하는 P 시점(Predictive view)일 수 있으며, 시점 V1은 양쪽의 두 시점을 참조하여 예측 부호화하는 B 시점(Interpolative view)일 수 있다. Referring to FIG. 3, three views V 0 , V 1 , and V 2 may be different views. The view point V 0 is a view that is encoded without prediction from another view and may be a base view or an I view. Point V 1, V 2 are with reference to the different points in time may be in an extended time of predictive coding, the point V 2 is a P point (Predictive view) that with reference to only a single time point the coded predictive encoding, the point V 1 is both It may be a B view (Interpolative view) that is predictively encoded with reference to two viewpoints.
각각의 영상은 부호화 타입에 따라 I 픽처(Intra picture), P 픽처(Predictive picture), B 픽처(Interpolative picture)로 나뉘어진다. I 픽처는 영상간 예측 없이 영상 자체를 부호화하고, P 픽처는 순방향으로만 참조 영상을 이용해서 영상간 예측 부호화하고, B 픽처는 순방향과 역방향 양측으로 참조 영상을 이용해서 영상간 예측 부호화한다. Each picture is divided into an I picture (Intra picture), a P picture (Predictive picture), and a B picture (Interpolative picture) according to an encoding type. The I picture encodes the image itself without inter-picture prediction, the P picture predicts and encodes the picture using the reference picture only in the forward direction, and the B picture uses the reference picture in both the forward and backward directions to inter-picture predictive encoding.
도 3에 도시된 바와 같이, 기본 시점인 시점 V0를 제외한 나머지 시점(V1, V2)은 다른 시점(V0, V1, V2)에서 획득된 영상을 상호 참조하여 부호화될 수 있고, 부호화된 영상은 도 1 및 도 2에 도시된 복호화기로 전송될 수 있다. 이때, 복호화기로 전송된 기본 시점인 시점 V0는 시점간 예측은 수행하지 않고, 영상간 또는 영상 내의 인터 또는 인트라 예측만 수행한다. 확장 시점인 시점 V1, V2는 영상을 복호화하기 위해 도 3에 도시된 바와 같은 참조 구조에 따라 영상 버퍼부에 저장된 참조 영상을 이용하여 시점간 예측을 수행한다. 여기서, 화살표는 영상들 간의 참조 관계를 나타낸다. A, with the exception of the point V 0 default time point (V 1, V 2), as shown in Figure 3 can be encoded by a cross-reference to an image obtained at different time points (V 0, V 1, V 2) , and The encoded image may be transmitted to the decoders illustrated in FIGS. 1 and 2. At this time, the view point V 0, which is the base view transmitted to the decoder, does not perform inter-view prediction but only inter or intra prediction between images or within an image. View points V 1 and V 2, which are extended views, perform inter-view prediction using a reference picture stored in an image buffer unit according to a reference structure as shown in FIG. 3 to decode the picture. Here, the arrow indicates a reference relationship between the images.
도 4는 도 3에 도시된 시점 V2의 시점간 예측을 위한 참조 구조의 일예를 나타내는 도면이다. FIG. 4 is a diagram illustrating an example of a reference structure for inter-view prediction of time V 2 shown in FIG. 3.
도 4를 참조하면, 시점 V2는 시점 V0에서 획득된 영상을 참조하여 시점간 예측을 수행할 수 있다. 예를 들어, 시점 V2의 영상 B6은 순방향 예측(forward prediction)을 위한 참조 영상 리스트(Reference picture list)0과 역방향 예측(backward prediction)을 위한 참조 영상 리스트(Reference picture list)1을 기반으로, 참조 영상 리스트0 및 1에 포함된 시점 V0의 영상을 참조하여 시점간 예측을 수행할 수 있다. 예컨대, 참조 영상 리스트0 및 1은 시점간 예측을 위해 시점 V0의 영상 B6를 포함하며, 시점 V2의 영상 B6이 이를 참조할 수 있다. Referring to FIG. 4, the viewpoint V 2 may perform inter-view prediction with reference to an image acquired at the viewpoint V 0 . For example, the image B 6 of the view V 2 is based on a reference picture list 0 for forward prediction and a reference picture list 1 for backward prediction. , Inter-view prediction may be performed by referring to the image of view V 0 included in the reference image lists 0 and 1. For example, the reference picture list 0 and 1 includes a picture B 6 at the time of V 0 to the prediction point, the image of the point V 2 B 6, and refer to it.
이때, 참조 영상 리스트1에서 참조 영상이 부족할 경우, HEVC의 GPB(Generalized Pand B) 개념을 사용하여 참조 영상 리스트0에 포함된 참조 영상을 복사하여 사용할 수 있다. In this case, when the reference picture is insufficient in the reference picture list 1, the reference picture included in the reference picture list 0 may be copied and used by using the generalized pan and b (GPB) concept of HEVC.
도 5는 도 3에 도시된 시점 V1의 시점간 예측을 위한 참조 구조의 일예를 나타내는 도면이다.FIG. 5 is a diagram illustrating an example of a reference structure for inter-view prediction of time V 1 shown in FIG. 3.
도 5를 참조하면, 시점 V1는 시점 V0에서 획득된 영상과 시점 V2에서 획득된 영상을 참조하여 시점간 예측을 수행할 수 있다. 예를 들어, 시점 V0의 영상 B6과 시점 V2의 영상 B6를 참조 영상 리스트0 및 1에 모두 위치시켜, 시점 V1의 영상 B6가 이를 참조하여 시점간 예측을 수행할 수 있다. Referring to FIG. 5, the viewpoint V 1 may perform inter-view prediction with reference to an image acquired at the viewpoint V 0 and an image acquired at the viewpoint V 2 . For example, the by placing all of the image B 6 and video B 6 of the point V 2 of the point V 0 in the reference picture list 0 and 1, the picture B 6 of the point V 1 reference you can perform a prediction time .
한편, 복호화된 깊이 영상은 가상 시점의 합성에 사용되기 때문에, 깊이 영상의 정확도가 향상되면 합성된 가상 시점 영상의 화질도 향상될 수 있다. 인간의 시각 체계는 샤프한 에지 주변의 양안시차를 통해 주로 3차원 깊이감을 인지하게 되므로, 에지 영역에서의 왜곡은 3차원 비디오 영상의 화질 저하뿐만 아니라 입체감을 주지 못할 수도 있다. 따라서, 깊이 영상의 에지 영역 왜곡을 최소화시킴으로써 가상 시점 영상의 주관적 화질을 향상시킬 수 있다. On the other hand, since the decoded depth image is used for synthesizing the virtual view, when the accuracy of the depth image is improved, the image quality of the synthesized virtual view image may also be improved. Since the human visual system mainly recognizes three-dimensional depth through binocular parallax around sharp edges, the distortion in the edge region may not reduce the image quality of the three-dimensional video image and may not give a three-dimensional effect. Therefore, the subjective image quality of the virtual viewpoint image may be improved by minimizing the edge region distortion of the depth image.
영상의 부호화 시, 잔차 신호를 변환하여 주파수 영역에서 양자화할 때 전체 영역에 에러가 발생함으로써 깊이 영상의 화질을 저하시킬 수 있다. 따라서, 본 발명에서는 주파수축 양자화를 통해 발생하는 에러를 줄이고 깊이 영상 내 에지 영역을 보존할 수 있는 공간축 양자화 방법을 제공한다. When encoding the image, an error occurs in the entire region when the residual signal is converted and quantized in the frequency domain, thereby reducing the quality of the depth image. Accordingly, the present invention provides a spatial axis quantization method that can reduce the error caused by the frequency axis quantization and preserve the edge region in the depth image.
도 6은 본 발명의 실시예에 따른 공간축 양자화 방법을 개략적으로 나타낸 순서도이다. 도 6의 방법은 3차원 비디오 부호화기(이하, '부호화기'라고 함)에서 수행될 수 있다. 6 is a flowchart schematically illustrating a space axis quantization method according to an embodiment of the present invention. The method of FIG. 6 may be performed by a 3D video encoder (hereinafter, referred to as an 'encoder').
도 6을 참조하면, 부호화기는 현재 깊이 영상에 대해 예측 과정을 수행하여 잔차 신호를 획득한다(S600). 현재 깊이 영상은 부호화 단위 또는 예측 단위를 기반으로 예측이 수행될 수 있으며, 잔차 신호는 예측이 수행된 예측 단위와 현재 깊이 영상 내 예측 대상 블록 간의 차이이다. Referring to FIG. 6, the encoder obtains a residual signal by performing a prediction process on a current depth image (S600). The current depth image may be predicted based on a coding unit or a prediction unit, and the residual signal is a difference between the prediction unit on which the prediction is performed and the prediction target block in the current depth image.
부호화기는 잔차 신호를 공간축 양자화할지 여부를 판단한다(S610). 즉, 부호화기는 잔차 신호를 변환하여 주파수축 양자화를 수행할지, 또는 잔차 신호를 변환 없이 공간축 양자화를 수행할지를 결정한다. 이는 부호화기가 현재 깊이 영상에 대해 변환 단위를 기반으로 RDO(Rate Distortion Optimization)를 수행하는 과정에서 높은 효율을 내는지에 따라 적응적으로 선택할 수 있다. The encoder determines whether to spatial-quantize the residual signal (S610). That is, the encoder determines whether to perform the frequency axis quantization by transforming the residual signal or perform spatial axis quantization without transforming the residual signal. This can be adaptively selected depending on whether the encoder has high efficiency in the process of performing Rate Distortion Optimization (RDO) on the basis of the transform unit for the current depth image.
이러한 공간축 양자화의 수행 여부는 현재 깊이 영상 내 변환 단위를 기반으로 결정되며, 결정된 결과에 대한 정보는 플래그를 이용하여 부호화한 다음 복호화기로 시그널링할 수 있다. 예컨대, 변환 단위마다 1 비트(bit)의 플래그(예를 들어, spatial_quantization_enable_flag)를 이용하여 공간축 양자화의 수행 여부를 지시할 수 있다. Whether to perform such spatial axis quantization is determined based on the transform unit in the current depth image, and the information about the determined result may be encoded using a flag and then signaled to the decoder. For example, one bit (eg, spatial_quantization_enable_flag) for each transformation unit may be used to indicate whether to perform spatial axis quantization.
단계 S610에 의해 공간축 양자화를 수행하는 것으로 결정한 경우, 부호화기는 잔차 신호에 대해 공간축 양자화를 수행하여 양자화된 잔차 신호를 생성한다(S620). 공간축 양자화는 변환 단위를 기반으로 변환 단위 분할 플래그(TU split flag)와 동기화되어 적용될 수 있다. 또한, 공간 영역 내에서의 양자화 표현 레벨(representation level)의 수와 표현 값(representation value)은 각 양자화 파라미터에 대한 주파수 영역 내에서의 절대 에러량에 따라서 결정된다. 이때, 공간 영역 내에서의 표현 값은 복원된 깊이 영상에서 발생된 에러의 분산에 의해 설정될 수 있다. 즉, 공간축 양자화기는 공간축 양자화에 의해서 발생된 에러의 양을 주파수축 양자화에 의해서 발생된 에러의 양에 맞춰 설계될 수 있다. 이때, 공간축 양자화를 위한 각 양자화 파라미터는 부호화기 및 복호화기에 동시에 정의되며, 부호화기는 양자화기를 위한 정보를 복호화기로 전송할 필요는 없다. If it is determined in step S610 that spatial axis quantization is to be performed, the encoder generates spatial quantized residual signal by performing spatial axis quantization on the residual signal (S620). The spatial axis quantization may be applied in synchronization with a transform unit split flag based on the transform unit. Further, the number and representation values of the quantization representation levels in the spatial domain are determined according to the absolute error amount in the frequency domain for each quantization parameter. In this case, the expression value in the spatial domain may be set by the dispersion of the error generated in the reconstructed depth image. That is, the space axis quantizer may be designed to match the amount of errors generated by the space axis quantization to the amount of errors generated by the frequency axis quantization. In this case, each quantization parameter for spatial axis quantization is defined at the same time to the encoder and the decoder, the encoder does not need to transmit information for the quantizer to the decoder.
부호화기는 양자화된 잔차 신호를 기반으로 픽셀 단위로 잔차 신호에 대한 차분값을 생성한다(S630). 양자화된 잔차 신호에 대한 차분값은 현재 깊이 영상 내 현재 픽셀의 양자화된 잔차 신호와 상기 현재 픽셀의 주변에 위치한 주변 픽셀의 양자화된 잔차 신호 간의 차이값이다. The encoder generates a difference value for the residual signal in units of pixels based on the quantized residual signal (S630). The difference value for the quantized residual signal is a difference value between the quantized residual signal of the current pixel in the current depth image and the quantized residual signal of neighboring pixels positioned around the current pixel.
예컨대, 현재 픽셀이 현재 깊이 영상에서 첫 번째 열에 위치하면 현재 픽셀의 상단에 위치한 픽셀을 주변 픽셀로 결정할 수 있고, 현재 픽셀이 현재 깊이 영상에서 첫 번째 열을 제외한 곳에 위치하면 현재 픽셀의 좌측에 위치한 픽셀을 주변 픽셀로 결정할 수 있다. For example, if the current pixel is located in the first column of the current depth image, the pixel located at the top of the current pixel can be determined as the surrounding pixel. If the current pixel is located except the first column in the current depth image, it is located to the left of the current pixel. The pixel may be determined as a neighboring pixel.
따라서, 부호화기는 현재 깊이 영상에 대해 현재 픽셀과 주변 픽셀을 이용하여 픽셀 단위로 양자화된 잔차 신호에 대한 차분값을 산출할 수 있고, 이를 부호화하여 복호화기로 전송할 수 있다.Accordingly, the encoder may calculate a difference value for the residual signal quantized in units of pixels using the current pixel and the neighboring pixels with respect to the current depth image, and may encode the same and transmit the encoded value to the decoder.
도 7은 본 발명의 실시예에 따른 공간 영역에서 역양자화하는 방법을 나타낸 순서도이다. 도 7의 방법은 도 2에 도시된 다시점 깊이 영상의 복호화기(이하, '복호화기'라고 함)에서 수행될 수 있다. 7 is a flowchart illustrating a method of inverse quantization in a spatial domain according to an embodiment of the present invention. The method of FIG. 7 may be performed by a decoder (hereinafter, referred to as a 'decoder') of the multi-view depth image illustrated in FIG. 2.
도 7을 참조하면, 복호화기는 수신된 비트스트림을 엔트로피 복호화하여 양자화 관련 정보를 획득한다(S700). 양자화 관련 정보는 현재 깊이 영상에 대한 공간축 양자화의 수행 여부를 지시하는 플래그 정보를 포함한다. 그리고, 3차원 비디오 부호화기에서 공간축 양자화를 수행한 경우에는 상기 플래그 정보와 함께 양자화된 잔차 신호에 대한 차분값 정보를 포함한다. Referring to FIG. 7, the decoder entropy decodes the received bitstream to obtain quantization related information (S700). The quantization related information includes flag information indicating whether spatial axis quantization is performed on the current depth image. In the case where spatial axis quantization is performed in the 3D video encoder, difference information on the quantized residual signal is included together with the flag information.
복호화기는 양자화 관련 정보를 기반으로 현재 깊이 영상에 대해 공간축 양자화의 수행 여부를 판단한다(S710). 즉, 복호화기는 공간축 양자화의 수행 여부를 지시하는 플래그 정보를 이용하여 부호화기에서 수행된 양자화 방법을 알아낼 수 있다. 예컨대, 플래그(spatial_quantization_enable_flag)의 값 "0" 또는 "1"을 기초로 공간축 양자화의 수행 여부를 판단할 수 있다.The decoder determines whether spatial axis quantization is performed on the current depth image based on the quantization related information (S710). That is, the decoder can find out the quantization method performed by the encoder using flag information indicating whether to perform spatial axis quantization. For example, it may be determined whether to perform spatial axis quantization based on the value "0" or "1" of the flag spatial_quantization_enable_flag.
단계 S710의 판단 결과, 부호화기에서 잔차 신호를 변환하여 주파수 영역으로 양자화한 것으로 판단하면 복호화기는 엔트로피 복호화된 변환 계수를 기반으로 역양자화를 수행하고, 역양자화된 변환 계수를 변환하여 잔차 신호를 획득한다(S720). As a result of the determination in step S710, when the encoder determines that the residual signal is transformed and quantized into the frequency domain, the decoder performs inverse quantization based on the entropy decoded transform coefficients, and converts the dequantized transform coefficients to obtain a residual signal. (S720).
단계 S710의 판단 결과, 부호화기에서 잔차 신호를 변환 없이 공간 영역으로 양자화한 것으로 판단하면 복호화기는 양자화 정보, 즉 양자화된 잔차 신호에 대한 차분값 정보를 기초로 역양자화를 수행하여 양자화된 잔차 신호를 획득한다(S730). If it is determined in step S710 that the encoder quantizes the residual signal into the spatial domain without transformation, the decoder obtains the quantized residual signal by performing inverse quantization based on the quantization information, that is, the difference value information for the quantized residual signal. (S730).
이때, 양자화된 잔차 신호는, 변환된 주파수 영역에서의 양자화 계수와 달리, 중복성을 가질 수 있다. 따라서, 본 발명에 따른 양자화된 잔차 신호(q')는 아래 수학식 1에 의하여 결정될 수 있다. 또한, 양자화된 잔차 신호에 대한 차분값 정보는 픽셀 단위를 기반으로 산출된 값이기 때문에, 양자화된 잔차 신호(q')는 현재 깊이 영상 내 각 픽셀에 대해 계산될 수 있다.In this case, the quantized residual signal may have redundancy unlike the quantization coefficients in the transformed frequency domain. Therefore, the quantized residual signal q 'according to the present invention may be determined by Equation 1 below. In addition, since the difference information about the quantized residual signal is a value calculated based on a pixel unit, the quantized residual signal q 'may be calculated for each pixel in the current depth image.
수학식 1
Figure PCTKR2012009938-appb-M000001
Equation 1
Figure PCTKR2012009938-appb-M000001
여기서, q는 엔트로피 복호화에 의해 획득된 양자화된 잔차 신호에 대한 차분값이고, p는 주변 픽셀로부터 예측된 잔차 신호이다. Where q is the difference value for the quantized residual signal obtained by entropy decoding, and p is the residual signal predicted from the neighboring pixels.
양자화된 잔차 신호에 대한 차분값(q)은 상술한 바와 같이, 현재 깊이 영상 내 현재 픽셀의 양자화된 잔차 신호와 상기 현재 픽셀의 주변에 위치한 주변 픽셀의 양자화된 잔차 신호 간의 차이값이다. 따라서, 수학식 1에 의하면 복호화기에서는 주변 픽셀로부터 잔차 신호를 예측하고, 예측된 주변 픽셀의 잔차 신호(p)에 부호화기에서 전송된 양자화된 잔차 신호에 대한 차분값(q)을 더하여 현재 깊이 영상에 대한 양자화된 잔차 신호(q')를 획득할 수 있다. p가 이웃의 잔차 신호일 수 있다. As described above, the difference value q for the quantized residual signal is a difference value between the quantized residual signal of the current pixel in the current depth image and the quantized residual signal of the neighboring pixels positioned around the current pixel. Therefore, according to Equation 1, the decoder predicts the residual signal from the neighboring pixels, and adds the difference value q of the quantized residual signal transmitted from the encoder to the predicted residual signal p of the current neighboring pixel. A quantized residual signal q 'for may be obtained. p may be a residual signal of a neighbor.
도 8은 본 발명의 실시예에 따른 픽셀 기반 예측 방법을 적용하여 양자화된 잔차 신호를 획득하는 과정을 설명하기 위한 도면이다. 8 is a diagram illustrating a process of obtaining a quantized residual signal by applying a pixel-based prediction method according to an embodiment of the present invention.
도 8을 참조하면, 현재 깊이 영상(800) 내 각 픽셀의 양자화된 잔차 신호(q')은 엔트로피 복호화된 양자화된 잔차 신호에 대한 차분값(q)에 주변 픽셀로부터 예측된 잔차 신호(p)를 더해서 획득될 수 있다. Referring to FIG. 8, the quantized residual signal q 'of each pixel in the current depth image 800 is a residual signal p predicted from neighboring pixels at a difference value q for the entropy decoded quantized residual signal. Can be obtained by adding.
예를 들어, 현재 픽셀이 현재 깊이 영상(800)에서 첫 번째 열(810)에 위치하는 경우, 주변 픽셀은 현재 픽셀의 상단에 위치한 상단 픽셀일 수 있고, 현재 픽셀이 첫 번째 열(810)을 제외한 나머지 영역(820)에 위치할 경우, 주변 픽셀은 현재 픽셀의 좌측에 위치한 좌측 픽셀일 수 있다. 이때, 첫 번째로 잔차 신호(q')를 획득할 픽셀(801)에 대한 예측된 잔차 신호(p)의 값은 0으로 설정될 수 있다. For example, if the current pixel is located in the first column 810 in the current depth image 800, the surrounding pixel may be the top pixel located on top of the current pixel, and the current pixel may be in the first column 810. When positioned in the remaining region 820, the surrounding pixels may be left pixels positioned to the left of the current pixels. In this case, the value of the predicted residual signal p for the pixel 801 to first obtain the residual signal q 'may be set to zero.
이상, 본 발명의 실시예에 따른 공간축 양자화 방법은 에지가 포함된 영역에 적용하게 되면 율-왜곡(Rate Distortion) 성능이 향상될 수 있으며, 주파수 영역에서 양자화함으로써 발생하는 에러를 줄일 수 있다. 따라서, 깊이 영상의 화질이 향상됨으로써 3차원 영상에 대한 화질도 향상시킬 수 있다.As described above, the spatial axis quantization method according to an embodiment of the present invention can improve rate-distortion performance when applied to an area including an edge, and can reduce errors caused by quantization in the frequency domain. Therefore, the image quality of the depth image may be improved by improving the image quality of the depth image.
또한, 본 발명에서는 깊이 영상의 화질을 향상시키기 위해서, 복호화기에서 복원된 깊이 영상에서 발생할 수 있는 흐려짐(blurring)과 영상 내 에지 영역에서 생기는 RA(Ringing Artifacts)를 제거할 수 있는 방법을 제공한다. In addition, the present invention provides a method for removing blurring that may occur in a depth image reconstructed by a decoder and ringing artifacts occurring in an edge region in an image in order to improve a quality of a depth image. .
도 9는 본 발명의 실시예에 따른 이방성 중간 필터를 적용하여 필터링하는 방법을 나타낸 순서도이다. 도 9의 방법은 도 2에 도시된 다시점 깊이 영상의 복호화기(이하, '복호화기'라고 함)에서 수행될 수 있다. 또한, 복호화기에서 인-루프 필터를 거쳐 복원된 깊이 영상에 적용될 수 있다. 9 is a flowchart illustrating a method of filtering by applying an anisotropic intermediate filter according to an embodiment of the present invention. The method of FIG. 9 may be performed by a decoder (hereinafter, referred to as a 'decoder') of the multi-view depth image illustrated in FIG. 2. In addition, the decoder may be applied to the reconstructed depth image through the in-loop filter.
이방성 중간 필터(anisotropic median filter)는 상술한 바와 같이, 특정 방향에 대해서 잡음을 제거할 수 있으며, 잡음을 제거하고자 하는 영역 내의 픽셀들을 그 영역 내 픽셀들의 중간값으로 필터링할 수 있다. 예컨대, 복호화기는 상술한 공간축 양자화를 기반으로 획득된 잔차 신호와 깊이 영상의 예측을 통해 획득된 예측 값을 더하여 복원된 깊이 영상을 생성할 수 있다. 이때, 복원된 깊이 영상에 이방성 중간 필터를 적용하여 필터링을 수행할 수 있다. As described above, the anisotropic median filter may remove noise in a specific direction, and may filter pixels in an area to remove noise by an intermediate value of pixels in the area. For example, the decoder may generate a reconstructed depth image by adding a residual signal obtained based on the above-described spatial axis quantization and a prediction value obtained through the prediction of the depth image. In this case, filtering may be performed by applying an anisotropic intermediate filter to the reconstructed depth image.
도 9를 참조하면, 복호화기는 복원된 깊이 영상 내 현재 픽셀 영역이 에지 영역인지 판단한다(S900). 현재 픽셀 영역은 복원된 깊이 영상에서 현재 이방성 중간 필터를 적용할 영역을 말한다. Referring to FIG. 9, the decoder determines whether the current pixel area in the reconstructed depth image is an edge area (S900). The current pixel area refers to an area to which the current anisotropic intermediate filter is to be applied in the reconstructed depth image.
이때, 현재 픽셀 영역이 에지 영역인지의 여부는 현재 픽셀 영역 내 픽셀 값들과 현재 픽셀 영역의 주변에 위치한 주변 픽셀들로부터 산출된 중간값 사이의 차이를 기초로 미리 설정된 임계값(threshold)과 비교하여 판단할 수 있다. 예컨대, 아래 수학식 2와 같은 판단식을 이용할 수 있다.In this case, whether the current pixel area is an edge area is compared with a preset threshold based on a difference between pixel values in the current pixel area and intermediate values calculated from peripheral pixels located around the current pixel area. You can judge. For example, a determination equation such as Equation 2 below may be used.
수학식 2
Figure PCTKR2012009938-appb-M000002
Equation 2
Figure PCTKR2012009938-appb-M000002
여기서,
Figure PCTKR2012009938-appb-I000001
는 현재 픽셀 영역의 주변에 위치한 주변 픽셀들에 대한 중간값이고, wi는 현재 픽셀 영역 내 위치 i에서의 복원된 픽셀 값이다.
here,
Figure PCTKR2012009938-appb-I000001
Is the median for the surrounding pixels located at the periphery of the current pixel region, and w i is the reconstructed pixel value at position i in the current pixel region.
상기 수학식 2에 의해 산출된 값(SDev)이 미리 설정된 임계값(threshold)보다 크면 현재 픽셀 영역이 에지 영역인 것으로 판단할 수 있다. 이때, 현재 픽셀 영역에 대해 이방성 중간 필터를 적용할 수 있다. When the value S Dev calculated by Equation 2 is greater than a preset threshold, it may be determined that the current pixel area is an edge area. In this case, an anisotropic intermediate filter may be applied to the current pixel region.
현재 픽셀 영역이 에지 영역으로 판단된 경우, 복호화기는 현재 픽셀 영역 내 이방성 중간 필터를 적용할 픽셀 값(이하, '필터링 대상 픽셀 값'이라 함)을 기초로 현재 픽셀 영역 내 픽셀들을 복수개의 그룹으로 분류한다(S910). 이때, 분류된 복수개의 그룹에 포함된 픽셀들의 중간값들이 현재 픽셀 영역 내 픽셀 값으로 사용될 수 있다. If it is determined that the current pixel area is an edge area, the decoder divides the pixels in the current pixel area into a plurality of groups based on a pixel value to be applied to the anisotropic intermediate filter in the current pixel area (hereinafter referred to as a 'filtering pixel value'). Classify (S910). In this case, intermediate values of pixels included in the classified plurality of groups may be used as pixel values in the current pixel area.
예컨대, 아래 수학식 3과 같이 현재 픽셀 영역 내 픽셀들을 두 개의 그룹으로 분류할 수 있다. 필터링 대상 픽셀 값보다 작거나 동일한 값을 가지는 현재 픽셀 영역 내 픽셀들을 제1 그룹(RH)으로 분류하고, 필터링 대상 픽셀 값보다 크거나 동일한 값을 가지는 현재 픽셀 영역 내 픽셀들을 제2 그룹(RL)으로 분류할 수 있다. For example, as shown in Equation 3 below, pixels in the current pixel area may be classified into two groups. Pixels in the current pixel region having a value less than or equal to the filtering target pixel value are classified into the first group R H , and pixels in the current pixel region having a value greater than or equal to the filtering target pixel value are arranged in the second group R. L )
수학식 3
Figure PCTKR2012009938-appb-M000003
Equation 3
Figure PCTKR2012009938-appb-M000003
여기서, wi는 현재 픽셀 영역 내 위치 i에서의 복원된 픽셀값이고, wcur는 필터링 대상 픽셀의 픽셀값이다. Here, w i is a reconstructed pixel value at position i in the current pixel area, and w cur is a pixel value of the pixel to be filtered.
복호화기는 현재 픽셀 영역 내 분류된 픽셀들의 중간값을 기반으로 필터링 대상 픽셀값을 결정한다(S920). 즉, 분류된 복수개의 그룹 각각으로부터 산출된 중간값 각각과 필터링 대상 픽셀 값 사이의 차이를 기반으로 필터링 대상 픽셀 값을 결정하되, 분류된 복수개의 그룹 각각으로부터 산출된 중간값들 중 하나의 값으로 결정된다. The decoder determines the filtering target pixel value based on the median value of the classified pixels in the current pixel area (S920). That is, the filtering target pixel value is determined based on the difference between each of the intermediate values calculated from each of the plurality of classified groups and the filtering target pixel value, and is determined as one of the intermediate values calculated from each of the plurality of classified groups. Is determined.
예컨대, 필터링 대상 픽셀값을 결정하는 과정은 아래 수학식 4와 같다. For example, the process of determining the filtering target pixel value is shown in Equation 4 below.
수학식 4
Figure PCTKR2012009938-appb-M000004
Equation 4
Figure PCTKR2012009938-appb-M000004
여기서, med는 입력된 픽셀값들의 중간값을 출력하는 함수이고, wcur는 필터링 대상 픽셀의 픽셀값이다. Here, med is a function for outputting an intermediate value of input pixel values, and w cur is a pixel value of a pixel to be filtered.
상기 수학식 4에 도시된 바와 같이, 필터링 대상 픽셀 값이 제2 중간값(med(RL))보다 제1 중간값(med(RH))에 가까우면 필터링 대상 픽셀 값을 제1 중간값(med(RH))으로 대체하고, 반대의 경우라면 필터링 대상 픽셀 값을 제2 중간값(med(RL))으로 대체하여 현재 깊이 영상 내 에지 영역에 대해 이방성 중간 필터를 적용할 수 있다. As shown in Equation 4, when the filtering target pixel value is closer to the first intermediate value med (R H ) than the second intermediate value med (R L ), the filtering target pixel value is set to the first intermediate value. (med (R H )), and vice versa, an anisotropic intermediate filter may be applied to the edge region of the current depth image by replacing the pixel value to be filtered with the second intermediate value (med (R L )). .
상술한 이방성 중간 필터를 적용하여 필터링된 현재 깊이 영상은 영상 버퍼에 저장되어 이후 참조 영상으로 활용될 수 있다. 또한, 이방성 중간 필터 기술은 각 픽셀에 대해 주변 픽셀을 활용하여 적용되므로, 이방성 중간 필터 기술을 위한 추가적인 정보를 시그널링할 필요가 없다. The current depth image filtered by applying the above-described anisotropic intermediate filter may be stored in an image buffer and then used as a reference image. In addition, since the anisotropic intermediate filter technique is applied by utilizing peripheral pixels for each pixel, there is no need to signal additional information for the anisotropic intermediate filter technique.
이하에서는 상술한 본 발명의 기술을 적용한 하이 레벨 신택스(high level syntax)를 보여준다. Hereinafter, a high level syntax to which the above-described technique of the present invention is applied is shown.
아래 표 1은 기본 시점 컬러 영상에 대한 시퀀스 파라미터 세트(SPS; Sequence Parameter Set)를 나타낸다.Table 1 below shows a sequence parameter set (SPS) for the base view color image.
표 1
seq_parameter_set_rbsp( ) { Descriptor
nal_ref_idc u(2)
zero_bit u(1)
seq_parameter_set_id u(5)
pic_width_in_luma_samples ue(v)
pic_height_in_luma_samples ue(v)
pad_x ue(v)
pad_y ue(v)
max_cu_size ue(v)
max_cu_depth ue(v)
log2_min_transform_block_size_minus2 ue(v)
log2_diff_max_min_transform_unit_size ue(v)
max_transform_hierarchy_depth_inter ue(v)
max_transform_hierarchy_depth_intra ue(v)
adaptive_loop_filter_enable_flag u(1)
DQP_flag u(1)
LDC_flag u(1)
spatial_quantization_enable_flag u(1)
merge_enable_flag u(1)
for (Int i = 0; i < pcSPS->getMaxCUDepth(); i++)
{
amvp_mode /* AMVP mode for each depth (AM_NOME or AM_EXPL) */ u(1)
}
bit_depth_minus_8 ue(v)
}
Table 1
seq_parameter_set_rbsp () { Descriptor
    nal_ref_idc u (2)
    zero_bit u (1)
    seq_parameter_set_id u (5)
pic_width_in_luma_samples ue (v)
pic_height_in_luma_samples ue (v)
    pad_x ue (v)
    pad_y ue (v)
    max_cu_size ue (v)
    max_cu_depth ue (v)
log2_min_transform_block_size_minus2 ue (v)
log2_diff_max_min_transform_unit_size ue (v)
max_transform_hierarchy_depth_inter ue (v)
max_transform_hierarchy_depth_intra ue (v)
    adaptive_loop_filter_enable_flag u (1)
    DQP_flag u (1)
    LDC_flag u (1)
    spatial_quantization_enable_flag u (1)
    merge_enable_flag u (1)
for (Int i = 0; i <pcSPS-> getMaxCUDepth (); i ++)
    {
        amvp_mode/ * AMVP mode for each depth (AM_NOME or AM_EXPL) * / u (1)
 }
    bit_depth_minus_8 ue (v)
}
            
spatial_quantization_enable_flag는 상술한 본 발명에 따른 공간축 양자화의 수행 여부를 지시한다. 예컨대, 부호화기에서 공간축 양자화의 수행 여부에 따라 spatial_quantization_enable_flag의 값을 "0" 또는 "1"로 설정하여 복호화기로 전송할 수 있다.spatial_quantization_enable_flag indicates whether spatial axis quantization according to the present invention described above is performed. For example, the encoder may set the value of spatial_quantization_enable_flag to "0" or "1" according to whether spatial axis quantization is performed and transmit the same to the decoder.
아래 표 2는 향상된 시점의 컬러 영상 및 깊이 맵에 대한 서브 시퀀스 파라미터 세트(Sub-sequence Parameter Set)를 나타낸다.Table 2 below shows a sub-sequence parameter set for the color image and the depth map of the enhanced view.
표 2
sub_seq_parameter_set_rbsp( ) { Descriptor
nal_ref_idc u(2)
zero_bit u(1)
seq_parameter_set_id u(5)
pic_width_in_luma_samples ue(v)
pic_height_in_luma_samples ue(v)
pad_x ue(v)
pad_y ue(v)
max_cu_size ue(v)
max_cu_depth ue(v)
log2_min_transform_block_size_minus2 ue(v)
log2_diff_max_min_transform_unit_size ue(v)
max_transform_hierarchy_depth_inter ue(v)
max_transform_hierarchy_depth_intra ue(v)
adaptive_loop_filter_enable_flag u(1)
DQP_flag u(1)
LDC_flag u(1)
spatial_quantization_enable_flag u(1)
merge_enable_flag u(1)
for (Int i = 0; i < pcSPS->getMaxCUDepth(); i++)
{
amvp_mode /* AMVP mode for each depth (AM_NOME or AM_EXPL) */ u(1)
}
bit_depth_minus_8 ue(v)
color_video_flag u(1)
if(color_video_flag)
{
color_view_id ue(v)
color_inter_view_prediction_pictures_first_flag u(1)
color_num_views_minus_one ue(v)
for(i=0; i<color_num_views_minus_one+1; i++)
{
color_view_order[i] ue(v)
}
color_num_anchor_refs_list0 ue(v)
color_num_anchor_refs_list1 ue(v)
color_num_non_anchor_refs_list0 ue(v)
color_num_non_anchor_refs_list1 ue(v)
for(i=0; i< color_num_anchor_refs_list0; i++)
{
color_anchor_refs_list0[i] ue(v)
}
for(i=0; i< color_num_anchor_refs_list1; i++)
{
color_anchor_refs_list1[i] ue(v)
}
for(i=0; i< color_num_non_anchor_refs_list0; i++)
{
color_non_anchor_refs_list0[i] ue(v)
}
for(i=0; i< color_num_of _non_anchor_refs_list1; i++)
{
color_non_anchor_refs_list1[i] ue(v)
}
}
Else
{
depth_view_id ue(v)
depth_inter_view_prediction_pictures_first_flag u(1)
depth_num_views_minus_one ue(v)
for(i=0; i<depth_num_views_minus_one+1; i++)
{
depth_view_order[i] ue(v)
}
depth_num_anchor_refs_list0 ue(v)
depth_num_anchor_refs_list1 ue(v)
depth_num_non_anchor_refs_list0 ue(v)
depth_num_non_anchor_refs_list1 ue(v)
for(i=0; i< depth_num_anchor_refs_list0; i++)
{
depth_anchor_refs_list0[i] ue(v)
}
for(i=0; i< depth_num_anchor_refs_list1; i++)
{
depth_anchor_refs_list1[i] ue(v)
}
for(i=0; i< depth_num_non_anchor_refs_list0; i++)
{
depth_non_anchor_refs_list0[i] ue(v)
}
for(i=0; i< depth_num_of _non_anchor_refs_list1; i++)
{
depth_non_anchor_refs_list1[i] ue(v)
}
}
}
TABLE 2
sub_seq_parameter_set_rbsp () { Descriptor
    nal_ref_idc u (2)
    zero_bit u (1)
    seq_parameter_set_id u (5)
pic_width_in_luma_samples ue (v)
pic_height_in_luma_samples ue (v)
    pad_x ue (v)
    pad_y ue (v)
    max_cu_size ue (v)
    max_cu_depth ue (v)
log2_min_transform_block_size_minus2 ue (v)
log2_diff_max_min_transform_unit_size ue (v)
max_transform_hierarchy_depth_inter ue (v)
max_transform_hierarchy_depth_intra ue (v)
    adaptive_loop_filter_enable_flag u (1)
    DQP_flag u (1)
    LDC_flag u (1)
    spatial_quantization_enable_flag u (1)
    merge_enable_flag u (1)
for (Int i = 0; i <pcSPS-> getMaxCUDepth (); i ++)
    {
        amvp_mode/ * AMVP mode for each depth (AM_NOME or AM_EXPL) * / u (1)
 }
    bit_depth_minus_8 ue (v)
    color_video_flag u (1)
    if (color_video_flag)
    {
 color_view_id ue (v)
color_inter_view_prediction_pictures_first_flag u (1)
   color_num_views_minus_one ue (v)
for (i = 0; i <color_num_views_minus_one + 1; i ++)
{
      color_view_order [i] ue (v)
  }
   color_num_anchor_refs_list0 ue (v)
  color_num_anchor_refs_list1 ue (v)
   color_num_non_anchor_refs_list0 ue (v)
  color_num_non_anchor_refs_list1 ue (v)
  for (i = 0; i <color_num_anchor_refs_list0; i ++)
  {
color_anchor_refs_list0 [i] ue (v)
  }
  for (i = 0; i <color_num_anchor_refs_list1; i ++)
 {
color_anchor_refs_list1 [i] ue (v)
 }
for (i = 0; i <color_num_non_anchor_refs_list0; i ++)
{
color_non_anchor_refs_list0 [i] ue (v)
  }
  for (i = 0; i <color_num_of _non_anchor_refs_list1; i ++)
       {
 color_non_anchor_refs_list1 [i] ue (v)
}
    }
    Else
    {
 depth_view_id ue (v)
depth_inter_view_prediction_pictures_first_flag u (1)
 depth_num_views_minus_one ue (v)
for (i = 0; i <depth_num_views_minus_one + 1; i ++)
{
 depth_view_order [i] ue (v)
}
 depth_num_anchor_refs_list0 ue (v)
 depth_num_anchor_refs_list1 ue (v)
 depth_num_non_anchor_refs_list0 ue (v)
 depth_num_non_anchor_refs_list1 ue (v)
for (i = 0; i <depth_num_anchor_refs_list0; i ++)
{
depth_anchor_refs_list0 [i] ue (v)
 }
 for (i = 0; i <depth_num_anchor_refs_list1; i ++)
 {
depth_anchor_refs_list1 [i] ue (v)
}
for (i = 0; i <depth_num_non_anchor_refs_list0; i ++)
  {
depth_non_anchor_refs_list0 [i] ue (v)
 }
  for (i = 0; i <depth_num_of _non_anchor_refs_list1; i ++)
 {
depth_non_anchor_refs_list1 [i] ue (v)
 }
    }
}
            
상술한 바와 같이, spatial_quantization_enable_flag는 상술한 본 발명에 따른 공간축 양자화의 수행 여부를 지시한다. 예컨대, 부호화기에서 공간축 양자화의 수행 여부에 따라 spatial_quantization_enable_flag의 값을 "0" 또는 "1"로 설정하여 복호화기로 전송할 수 있다.As described above, spatial_quantization_enable_flag indicates whether spatial axis quantization according to the present invention described above is performed. For example, the encoder may set the value of spatial_quantization_enable_flag to "0" or "1" according to whether spatial axis quantization is performed and transmit the same to the decoder.
color_video_flag는 컬러 영상인지 깊이 영상인지를 지시한다. color_video_flag indicates whether it is a color image or a depth image.
color_inter_view_prediction_pictures_first_flag는 컬러 영상의 시점간 예측 여부를 지시한다. 시점간 예측 수행 시, color_num_anchor_refs_list0, color_num_anchor_refs_list1, color_num_non_anchor_refs_list0, color_num_non_anchor_refs_list1를 이용하여 컬러 영상에 대한 참조 영상 리스트를 생성한다. The color_inter_view_prediction_pictures_first_flag indicates whether to predict the inter-view of the color image. When performing inter-view prediction, a reference image list for a color image is generated using color_num_anchor_refs_list0, color_num_anchor_refs_list1, color_num_non_anchor_refs_list0, and color_num_non_anchor_refs_list1.
depth_inter_view_prediction_pictures_first_flag는 깊이 영상의 시점간 예측 여부를 지시한다. 시점간 예측 수행 시, depth_num_anchor_refs_list0, depth_num_anchor_refs_list1, depth_num_non_anchor_refs_list0, depth_num_non_anchor_refs_list1를 이용하여 깊이 영상에 대한 참조 영상 리스트를 생성한다.The depth_inter_view_prediction_pictures_first_flag indicates whether the depth image is inter-view prediction. When performing inter-view prediction, reference image lists for depth images are generated using depth_num_anchor_refs_list0, depth_num_anchor_refs_list1, depth_num_non_anchor_refs_list0, and depth_num_non_anchor_refs_list1.
아래 표 3은 프리픽스 NAL(Prefix Network Abstraction Layer)에 포함될 수 있는 정보를 나타낸다.Table 3 below shows information that may be included in the prefix network abstraction layer (NAL).
표 3
nal_unit_prefix_mvc_extention( ){ Descriptor
priority_id u(2)
zero_bit u(1)
prefix_id u(5)
non_idr_flag u(1)
view_id u(10)
reserved_bits u(3)
anchor_pic_flag u(1)
inter_view_flag u(1)
reserved_one_bit u(1)
}
TABLE 3
nal_unit_prefix_mvc_extention () { Descriptor
priority_id u (2)
zero_bit u (1)
prefix_id u (5)
non_idr_flag u (1)
view_id u (10)
reserved_bits u (3)
anchor_pic_flag u (1)
inter_view_flag u (1)
reserved_one_bit u (1)
}
아래 표 4는 픽처 파라미터 세트(PPS; Picture Parameter Set)를 나타낸다. Table 4 below shows a picture parameter set (PPS).
표 4
pic_parameter_set_rbsp( ) { Descriptor
nal_ref_idc u(2)
zero_bit u(1)
seq_parameter_set_id u(5)
}
Table 4
pic_parameter_set_rbsp () { Descriptor
nal_ref_idc u (2)
zero_bit u (1)
seq_parameter_set_id u (5)
}
상기 하이 레벨 신택스는 비트스트림에 추가되어 부호화기에서 복호화기로 전송될 수 있다. 복호화기는 전송된 비트스트림으로부터 하이 레벨 신택스에 포함된 정보들을 부호화기와 동일한 레벨에서 복호화할 수 있으며. 이를 이용하여 부호화기와 반대의 절차로 비트스트림을 복호화할 수 있다.The high level syntax may be added to the bitstream and transmitted from the encoder to the decoder. The decoder may decode information included in the high level syntax from the transmitted bitstream at the same level as the encoder. By using this, it is possible to decode the bitstream using a procedure opposite to that of the encoder.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호범위는 특허청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다. The above description is merely illustrative of the technical idea of the present invention, and those skilled in the art to which the present invention pertains may make various modifications and changes without departing from the essential characteristics of the present invention. Therefore, the embodiments disclosed in the present invention are not intended to limit the technical idea of the present invention but to describe the present invention, and the scope of the technical idea of the present invention is not limited thereto. The protection scope of the present invention should be interpreted by the claims, and all technical ideas within the equivalent scope should be interpreted as being included in the scope of the present invention.

Claims (17)

  1. 현재 깊이 영상에 대한 양자화 정보를 수신하여 엔트로피 복호화하는 단계; 및Receiving entropy decoding of quantization information of a current depth image; And
    상기 양자화 정보를 기반으로 상기 현재 깊이 영상의 양자화된 잔차 신호(quantized residual)를 획득하는 단계를 포함하며,Obtaining a quantized residual of the current depth image based on the quantization information;
    상기 양자화 정보는 상기 현재 깊이 영상에 대한 공간축 양자화(spatial quantization)의 수행 여부를 지시하는 플래그 정보를 포함하는 것을 특징으로 하는 다시점 비디오 복호화 방법.The quantization information is a multi-view video decoding method comprising the flag information indicating whether or not to perform spatial axis quantization (spatial quantization) for the current depth image.
  2. 제1항에 있어서,The method of claim 1,
    상기 현재 깊이 영상에 대해 공간축 양자화를 수행한 경우, 상기 양자화 정보는 상기 현재 깊이 영상의 양자화된 잔차 신호에 대한 차분값 정보를 포함하며, When spatial axis quantization is performed on the current depth image, the quantization information includes difference value information on the quantized residual signal of the current depth image.
    상기 양자화된 잔차 신호에 대한 차분값은, 상기 현재 깊이 영상 내 현재 픽셀의 양자화된 잔차 신호와 상기 현재 픽셀의 주변에 위치한 주변 픽셀의 양자화된 잔차 신호 간의 차이값인 것을 특징으로 하는 다시점 비디오 복호화 방법.The difference value with respect to the quantized residual signal is a multi-view video decoding, characterized in that the difference between the quantized residual signal of the current pixel in the current depth image and the quantized residual signal of the peripheral pixels located around the current pixel. Way.
  3. 제2항에 있어서,The method of claim 2,
    상기 양자화된 잔차 신호를 획득하는 단계는, Acquiring the quantized residual signal,
    상기 주변 픽셀로부터 잔차 신호를 예측하는 단계; 및Predicting a residual signal from the surrounding pixels; And
    상기 예측된 잔차 신호와 상기 현재 깊이 영상의 양자화된 잔차 신호에 대한 차분값을 더하는 단계를 포함하는 것을 특징으로 하는 다시점 비디오 복호화 방법.And adding a difference value between the predicted residual signal and the quantized residual signal of the current depth image.
  4. 제3항에 있어서,The method of claim 3,
    상기 주변 픽셀은, The peripheral pixel,
    상기 현재 픽셀이 상기 현재 깊이 영상 내 첫 번째 열에 위치하면 상기 현재 픽셀의 상단에 위치한 상단 픽셀이며, When the current pixel is located in the first column of the current depth image, it is an upper pixel located on the top of the current pixel.
    상기 현재 픽셀이 상기 현재 깊이 영상 내 첫 번째 열을 제외한 나머지 영역에 위치하면 상기 현재 픽셀의 좌측에 위치한 좌측 픽셀인 것을 특징으로 하는 다시점 비디오 복호화 방법.And the current pixel is a left pixel positioned to the left of the current pixel when the current pixel is located in a region other than the first column of the current depth image.
  5. 제1항에 있어서,The method of claim 1,
    상기 공간축 양자화의 수행 여부를 지시하는 플래그 정보는 변환 단위(TU; Transform Unit)를 기반으로 부호화되어 전송되는 정보인 것을 특징으로 하는 다시점 비디오 복호화 방법.The flag information indicating whether the spatial axis quantization is performed is information encoded and transmitted based on a transform unit (TU).
  6. 현재 깊이 영상에 대한 양자화 정보를 수신하여 엔트로피 복호화하는 엔트로피 복호화부; 및An entropy decoder which entropy decodes the quantization information of the current depth image; And
    상기 양자화 정보를 기반으로 상기 현재 깊이 영상의 양자화된 잔차 신호(quantized residual)를 획득하는 역양자화부를 포함하며,A dequantization unit configured to obtain a quantized residual signal of the current depth image based on the quantization information,
    상기 양자화 정보는 상기 현재 깊이 영상에 대한 공간축 양자화(spatial quantization)의 수행 여부를 지시하는 플래그 정보를 포함하는 것을 특징으로 하는 다시점 비디오 복호화 장치.And the quantization information includes flag information indicating whether to perform spatial axis quantization on the current depth image.
  7. 제6항에 있어서,The method of claim 6,
    상기 현재 깊이 영상에 대해 공간축 양자화를 수행한 경우, 상기 양자화 정보는 상기 현재 깊이 영상의 양자화된 잔차 신호에 대한 차분값 정보를 포함하며, When spatial axis quantization is performed on the current depth image, the quantization information includes difference value information on the quantized residual signal of the current depth image.
    상기 양자화된 잔차 신호에 대한 차분값은, 상기 현재 깊이 영상 내 현재 픽셀의 양자화된 잔차 신호와 상기 현재 픽셀의 주변에 위치한 주변 픽셀의 양자화된 잔차 신호 간의 차이값인 것을 특징으로 하는 다시점 비디오 복호화 장치.The difference value with respect to the quantized residual signal is a multi-view video decoding, characterized in that the difference between the quantized residual signal of the current pixel in the current depth image and the quantized residual signal of the peripheral pixels located around the current pixel. Device.
  8. 제7항에 있어서,The method of claim 7, wherein
    상기 역양자화부는,The inverse quantization unit,
    상기 주변 픽셀로부터 잔차 신호를 예측하고, 상기 예측된 잔차 신호와 상기 현재 깊이 영상의 양자화된 잔차 신호에 대한 차분값을 더하여 상기 현재 깊이 영상의 양자화된 잔차 신호를 획득하는 것을 특징으로 하는 다시점 비디오 복호화 장치.A multi-view video, wherein the residual signal is predicted from the neighboring pixels, and the difference value between the predicted residual signal and the quantized residual signal of the current depth image is added to obtain a quantized residual signal of the current depth image. Decryption device.
  9. 제8항에 있어서,The method of claim 8,
    상기 주변 픽셀은, The peripheral pixel,
    상기 현재 픽셀이 상기 현재 깊이 영상 내 첫 번째 열에 위치하면 상기 현재 픽셀의 상단에 위치한 상단 픽셀이며, When the current pixel is located in the first column of the current depth image, it is an upper pixel located on the top of the current pixel.
    상기 현재 픽셀이 상기 현재 깊이 영상 내 첫 번째 열을 제외한 나머지 영역에 위치하면 상기 현재 픽셀의 좌측에 위치한 좌측 픽셀인 것을 특징으로 하는 다시점 비디오 복호화 장치.And the current pixel is a left pixel positioned to the left of the current pixel when the current pixel is located in a region other than the first column of the current depth image.
  10. 제6항에 있어서,The method of claim 6,
    상기 공간축 양자화의 수행 여부를 지시하는 플래그 정보는 변환 단위(TU; Transform Unit)를 기반으로 부호화되어 전송되는 정보인 것을 특징으로 하는 다시점 비디오 복호화 장치.And flag information indicating whether to perform the spatial axis quantization is information encoded and transmitted based on a transform unit (TU).
  11. 비트스트림을 수신하여 엔트로피 복호화하는 단계; 및Receiving and entropy decoding the bitstream; And
    상기 엔트로피 복호화된 신호를 기반으로 복원된 현재 깊이 영상에 대해 이방성 중간 필터(anisotropic median filter)를 이용하여 필터링을 수행하는 단계를 포함하는 다시점 비디오 복호화 방법.And performing an filtering using an anisotropic median filter on the current depth image reconstructed based on the entropy decoded signal.
  12. 제11항에 있어서,The method of claim 11,
    상기 이방성 중간 필터를 이용하여 필터링을 수행하는 단계는,Performing filtering by using the anisotropic intermediate filter,
    상기 현재 깊이 영상 내 현재 픽셀 영역이 에지(edge) 영역인지 판단하는 단계;Determining whether a current pixel area in the current depth image is an edge area;
    상기 현재 픽셀 영역이 에지 영역이면, 상기 현재 픽셀 영역 내 필터링 대상 픽셀 값을 기준으로 상기 현재 픽셀 영역 내 픽셀들을 복수개의 그룹으로 분류하는 단계; 및If the current pixel area is an edge area, classifying pixels in the current pixel area into a plurality of groups based on a value of a pixel to be filtered in the current pixel area; And
    상기 분류된 복수개의 그룹 각각으로부터 산출된 중간값 각각과 상기 필터링 대상 픽셀 값 사이의 차이를 기반으로 상기 필터링 대상 픽셀 값을 결정하는 단계를 포함하며,Determining the filtering target pixel value based on a difference between each of the intermediate values calculated from each of the classified plurality of groups and the filtering target pixel value,
    상기 필터링 대상 픽셀 값은 상기 분류된 복수개의 그룹 각각으로부터 산출된 중간값들 중 하나의 값으로 결정되는 것을 특징으로 하는 다시점 비디오 복호화 방법.The filtering target pixel value is determined as one of the intermediate values calculated from each of the classified plurality of groups.
  13. 제12항에 있어서,The method of claim 12,
    상기 현재 픽셀 영역이 에지 영역인지 판단하는 단계에서,In the determining of whether the current pixel area is an edge area,
    상기 현재 픽셀 영역 내 픽셀 값들과 상기 현재 픽셀 영역의 주변에 위치한 주변 픽셀들로부터 산출된 중간값 사이의 차이를 기초로 미리 설정된 임계값과 비교하는 것을 특징으로 하는 다시점 비디오 복호화 방법.And comparing a predetermined threshold based on a difference between pixel values in the current pixel region and intermediate values calculated from neighboring pixels positioned around the current pixel region.
  14. 제12항에 있어서,The method of claim 12,
    상기 복수개의 그룹으로 분류하는 단계에서,In the step of classifying into a plurality of groups,
    상기 필터링 대상 픽셀 값보다 작거나 동일한 값을 가지는 상기 현재 픽셀 영역 내 픽셀들을 제1 그룹으로 분류하고,Classify pixels in the current pixel area having a value less than or equal to the filtering target pixel value into a first group,
    상기 필터링 대상 픽셀 값보다 크거나 동일한 값을 가지는 상기 현재 픽셀 영역 내 픽셀들을 제2 그룹으로 분류하는 것을 특징으로 하는 다시점 비디오 복호화 방법.And classifying pixels in the current pixel area having a value greater than or equal to the filtering target pixel value into a second group.
  15. 제14항에 있어서,The method of claim 14,
    상기 필터링 대상 픽셀 값을 결정하는 단계에서, In the determining of the filtering target pixel value,
    상기 제1 그룹으로부터 산출된 제1 중간값과 상기 제2 그룹으로부터 산출된 제2 중간값 중 상기 필터링 대상 픽셀 값과의 차이가 작은 중간값을 상기 필터링 대상 픽셀 값으로 결정하는 것을 특징으로 하는 다시점 비디오 복호화 방법.The first intermediate value calculated from the first group and the second intermediate value calculated from the second group may be determined as the filtering target pixel value. Point video decoding method.
  16. 제11항에 있어서,The method of claim 11,
    상기 이방성 중간 필터를 사용하여 필터링된 현재 깊이 영상을 영상 버퍼에 에 저장하는 단계를 더 포함하는 것을 특징으로 하는 다시점 비디오 복호화 방법.And storing the current depth image filtered using the anisotropic intermediate filter in an image buffer.
  17. 비트스트림을 수신하여 엔트로피 복호화하는 엔트로피 복호화부; 및An entropy decoder configured to receive the bitstream and entropy decode the bitstream; And
    상기 엔트로피 복호화된 신호를 기반으로 복원된 현재 깊이 영상에 대해 이방성 중간 필터(anisotropic median filter)를 이용하여 필터링을 수행하는 필터부를 포함하는 다시점 비디오 복호화 장치.And a filter unit configured to perform filtering using an anisotropic median filter on the current depth image reconstructed based on the entropy decoded signal.
PCT/KR2012/009938 2011-11-23 2012-11-22 Method and apparatus for decoding multi-view video WO2013077650A1 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20110122687 2011-11-23
KR10-2011-0122687 2011-11-23
KR10-2012-0133063 2012-11-22
KR1020120133063A KR20130057402A (en) 2011-11-23 2012-11-22 Method and apparatus for multi-view color and depth videos decoding

Publications (1)

Publication Number Publication Date
WO2013077650A1 true WO2013077650A1 (en) 2013-05-30

Family

ID=48470033

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2012/009938 WO2013077650A1 (en) 2011-11-23 2012-11-22 Method and apparatus for decoding multi-view video

Country Status (1)

Country Link
WO (1) WO2013077650A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015133830A1 (en) * 2014-03-07 2015-09-11 주식회사 케이티 Method and device for processing multi-view video signal
CN109325550A (en) * 2018-11-02 2019-02-12 武汉大学 Non-reference picture quality appraisement method based on image entropy

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090078114A (en) * 2008-01-14 2009-07-17 광주과학기술원 Multi-view image coding method and apparatus using variable gop prediction structure, multi-view image decoding apparatus and recording medium storing program for performing the method thereof
KR20090097016A (en) * 2008-03-10 2009-09-15 삼성전자주식회사 Apparatus of encoding image and apparatus of decoding image
JP2010504689A (en) * 2006-09-22 2010-02-12 トムソン ライセンシング Method and apparatus for multi-path video encoding and decoding
KR20110093532A (en) * 2010-02-12 2011-08-18 삼성전자주식회사 Image/video coding and decoding system and method using graph based pixel prediction and depth map coding system and method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010504689A (en) * 2006-09-22 2010-02-12 トムソン ライセンシング Method and apparatus for multi-path video encoding and decoding
KR20090078114A (en) * 2008-01-14 2009-07-17 광주과학기술원 Multi-view image coding method and apparatus using variable gop prediction structure, multi-view image decoding apparatus and recording medium storing program for performing the method thereof
KR20090097016A (en) * 2008-03-10 2009-09-15 삼성전자주식회사 Apparatus of encoding image and apparatus of decoding image
KR20110093532A (en) * 2010-02-12 2011-08-18 삼성전자주식회사 Image/video coding and decoding system and method using graph based pixel prediction and depth map coding system and method

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015133830A1 (en) * 2014-03-07 2015-09-11 주식회사 케이티 Method and device for processing multi-view video signal
CN109325550A (en) * 2018-11-02 2019-02-12 武汉大学 Non-reference picture quality appraisement method based on image entropy
CN109325550B (en) * 2018-11-02 2020-07-10 武汉大学 No-reference image quality evaluation method based on image entropy

Similar Documents

Publication Publication Date Title
WO2015142054A1 (en) Method and apparatus for processing multiview video signals
WO2012081879A1 (en) Method for decoding inter predictive encoded motion pictures
WO2016056821A1 (en) Movement information compression method and device for 3d video coding
EP2944086B1 (en) View synthesis in 3d video
WO2016056822A1 (en) 3d video coding method and device
WO2015142057A1 (en) Method and apparatus for processing multiview video signals
WO2013165143A1 (en) Method and apparatus for encoding multi-view images, and method and apparatus for decoding multi-view images
KR20150034130A (en) Image processing device and method
WO2015057033A1 (en) Method and apparatus for coding/decoding 3d video
WO2014168443A1 (en) Method and apparatus for processing video signal
WO2016056782A1 (en) Depth picture coding method and device in video coding
WO2021201515A1 (en) Image encoding/decoding method and device for signaling hls, and computer-readable recording medium in which bitstream is stored
WO2019240425A1 (en) Inter-prediction method and image decoding device
WO2019194500A1 (en) Intra-prediction-based image coding method and device therefor
WO2018212430A1 (en) Frequency domain filtering method in image coding system, and device therefor
WO2014107029A1 (en) Video signal processing method and device
WO2021118295A1 (en) Image coding device and method for controlling loop filtering
US20240007667A1 (en) Processing video bitstream conforming to still picture profile
WO2019059721A1 (en) Image encoding and decoding using resolution enhancement technique
WO2009108028A1 (en) Method for decoding free viewpoint image, and apparatus for implementing the same
WO2014171709A1 (en) Object-based adaptive brightness compensation method and apparatus
WO2021118293A1 (en) Filtering-based image coding device and method
WO2014109547A1 (en) Method and apparatus for processing video signal
WO2015199376A1 (en) Multiview video signal processing method and apparatus
WO2016003209A1 (en) Method and device for processing multi-view video signal

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12852120

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12852120

Country of ref document: EP

Kind code of ref document: A1