WO2013157812A1 - 3d video coding/decoding apparatus and 3d video coding/decoding method - Google Patents

3d video coding/decoding apparatus and 3d video coding/decoding method Download PDF

Info

Publication number
WO2013157812A1
WO2013157812A1 PCT/KR2013/003178 KR2013003178W WO2013157812A1 WO 2013157812 A1 WO2013157812 A1 WO 2013157812A1 KR 2013003178 W KR2013003178 W KR 2013003178W WO 2013157812 A1 WO2013157812 A1 WO 2013157812A1
Authority
WO
WIPO (PCT)
Prior art keywords
identification information
current block
skip mode
block
view
Prior art date
Application number
PCT/KR2013/003178
Other languages
French (fr)
Korean (ko)
Inventor
이진영
이재준
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority claimed from KR1020130041374A external-priority patent/KR102133936B1/en
Publication of WO2013157812A1 publication Critical patent/WO2013157812A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • H04N19/463Embedding additional information in the video signal during the compression process by compressing encoding parameters before transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding

Definitions

  • the following embodiments are related to an apparatus and method for efficiently encoding / decoding a 3D video and transmitting the same.
  • the stereoscopic image refers to a 3D image that simultaneously provides shape information about depth and space.
  • images of different viewpoints are provided to the left and right eyes, whereas stereoscopic images provide the same images as viewed from different directions whenever the viewer views different views. Therefore, in order to generate a stereoscopic image, images captured at various viewpoints are required.
  • Images taken from various viewpoints to generate stereoscopic images have a large amount of data. Therefore, considering the network infrastructure, terrestrial bandwidth, etc. for stereoscopic video, even compression is performed using an encoding device optimized for Single-View Video Coding such as MPEG-2, H.264 / AVC, and HEVC. Realization may be nearly impossible.
  • 3D video includes a color image and a depth image of several views.
  • 3D videos have temporal redundancy between successive images in time.
  • 3D videos have inter-view redundancy among images corresponding to different viewpoints.
  • a decoding method includes extracting first identification information indicating whether a current block is in view synthesis skip mode; Extracting second identification information indicating whether the current block is in a normal skip mode when the current block is not in the view synthesis skip mode according to the first identification information; And decoding the current block by using the first identification information or the second identification information.
  • the first identification information may be located before the second identification information when both the left block and the upper block of the current block are in the view synthesis skip mode.
  • the view synthesis skip mode may use a synthesized image of a virtual view that is the same view as the current view of the current block, and the synthesized image may be determined from encoded texture information and depth information of a neighbor view of the current view.
  • the normal skip mode may include at least one of an intra skip mode, an inter skip mode, or an interview skip mode.
  • a decoding method includes extracting first identification information indicating whether a current block is in a normal skip mode; Extracting second identification information indicating whether the current block is in view synthesis skip mode when the current block is not in the normal skip mode according to the first identification information; And decoding the current block by using the first identification information or the second identification information.
  • the first identification information may be located before the second identification information when at least one of the left block and the upper block of the current block is the normal skip mode.
  • the view synthesis skip mode may use a synthesized image of a virtual view that is the same view as the current view of the current block, and the synthesized image may be determined from texture information and depth information encoded at a neighbor view of the current view.
  • the normal skip mode may include at least one of an intra skip mode, an inter skip mode, or an interview skip mode.
  • a decoding method includes extracting identification information indicating an encoding mode of a current block from a bitstream; Decoding a current block based on the identification information, wherein the identification information includes first identification information indicating whether the current block is a view synthesis skip mode and a second identification indicating whether the current block is a normal skip mode. May contain information.
  • the order between the first identification information and the second identification information may vary according to an encoding mode of a neighboring block of the current block, and the neighboring block may include an upper block and a left block of the current block.
  • the first identification information may be located before the second identification information if the upper block and the left block of the current block are both the view synthesis skip mode, and may be located later than the second identification information.
  • an encoding method may include determining an encoding mode of a neighboring block adjacent to a current block; Adaptively placing identification information associated with a skip mode of a current block according to the encoding mode; And encoding the identification information and the current block.
  • the identification information may include first identification information indicating whether the current block is a view synthesis skip mode and second identification information indicating whether the current block is a normal skip mode.
  • an encoding method includes determining whether an encoding mode of an upper block and a left block of a current block is a view synthesis skip mode; Determining a location of first identification information indicating whether the current block is in a view synthesis skip mode and second identification information indicating whether the current block is in a normal skip mode according to a determination result; And encoding the first identification information, the second identification information, and the current block.
  • the decoding apparatus extracts first identification information indicating whether the current block is in view synthesis skip mode, and if the current block is not in view synthesis skip mode according to the first identification information, the current block is general An identification information extracting unit for extracting second identification information indicating whether the skip mode is present; And a decoder which decodes the current block by using the first identification information or the second identification information.
  • the first identification information may be located before the second identification information when both the left block and the upper block of the current block are in the view synthesis skip mode.
  • the view synthesis skip mode may use a synthesized image of a virtual view that is the same view as the current view of the current block, and the synthesized image may be determined from encoded texture information and depth information of a neighbor view of the current view.
  • the normal skip mode may include at least one of an intra skip mode, an inter skip mode, or an interview skip mode.
  • the decoding apparatus extracts first identification information indicating whether the current block is in the normal skip mode, and skips the current block in view synthesis if the current block is not in the normal skip mode according to the first identification information.
  • An identification information extraction unit for extracting second identification information indicating whether the mode is in the mode;
  • a decoder which decodes the current block by using the first identification information or the second identification information.
  • the first identification information may be located before the second identification information when at least one of the left block and the upper block of the current block is the normal skip mode.
  • the view synthesis skip mode may use a synthesized image of a virtual view that is the same view as the current view of the current block, and the synthesized image may be determined from texture information and depth information encoded at a neighbor view of the current view.
  • the normal skip mode may include at least one of an intra skip mode, an inter skip mode, or an interview skip mode.
  • a decoding apparatus includes: an identification information extracting unit configured to extract identification information indicating an encoding mode of a current block from a bitstream; And a decoder which decodes the current block based on the identification information, wherein the identification information includes first identification information indicating whether the current block is a view synthesis skip mode and a second indicating whether the current block is a normal skip mode. It may include identification information.
  • the order between the first identification information and the second identification information may vary according to an encoding mode of a neighboring block of the current block, and the neighboring block may include an upper block and a left block of the current block.
  • the first identification information may be located before the second identification information if the upper block and the left block of the current block are both the view synthesis skip mode, and may be located later than the second identification information.
  • An encoding apparatus may include an encoding mode determiner configured to determine an encoding mode of a neighboring block adjacent to a current block; An identification information disposition unit for adaptively disposing identification information associated with a skip mode of a current block according to the encoding mode; And an encoding unit encoding the identification information and the current block, wherein the identification information includes first identification information indicating whether the current block is a view synthesis skip mode and second identification information indicating whether the current block is a normal skip mode. It may include.
  • An encoding apparatus may include an encoding mode determination unit configured to determine whether encoding modes of an upper block and a left block of a current block are both view synthesis skip modes; An identification information arranging unit configured to determine a position of first identification information indicating whether the current block is in a view synthesis skip mode and second identification information indicating whether the current block is in a normal skip mode according to a determination result; And an encoding unit encoding the first identification information, the second identification information, and the current block.
  • a computer-readable recording medium recording a bitstream includes: encoded current block, first identification information indicating whether the current block is a view synthesis skip mode, and second identification indicating whether the current block is a normal skip mode.
  • the first identification information may be located in the bitstream before the second identification information when both the upper block and the left block of the current block are in the view synthesis skip mode.
  • a decoding apparatus includes an identification information extracting unit for extracting first identification information and second identification information indicating an encoding mode of a current block in a bitstream; And a decoding unit to decode a current block based on the identification information, wherein the first identification information and the second identification information are selected from a view synthesis skip mode, an interview skip mode, an inter skip mode, and an intra skip mode, and The position allocated to the bitstream may vary according to the encoding mode of the neighboring blocks of the block.
  • a decoding method includes extracting first identification information and second identification information indicating an encoding mode of a current block from a bitstream; And decoding the current block based on the identification information, wherein the first identification information and the second identification information are selected from a view synthesis skip mode, an interview skip mode, an inter skip mode, and an intra skip mode, and The position allocated to the bitstream may vary according to the encoding mode of the neighboring blocks of the block.
  • FIG. 1 is a diagram illustrating an encoding apparatus and a decoding apparatus, according to an embodiment.
  • FIG. 2 is a diagram illustrating a detailed configuration of a decoding apparatus according to an embodiment.
  • FIG. 3 is a diagram illustrating a decoding method according to an exemplary embodiment.
  • FIG. 4 is a diagram illustrating a structure of a multiview video according to an embodiment.
  • FIG. 5 is a diagram illustrating an example of a reference picture used to encode a current block according to an embodiment.
  • FIG. 6 illustrates a view synthesis skip mode and a view synthesis direct mode according to an embodiment.
  • FIG. 7 illustrates a residual signal coding mode of view synthesis according to an embodiment.
  • FIG. 8 illustrates a view synthesis according to an embodiment.
  • FIG. 9 is a diagram for describing an encoding process using a synthetic image of a virtual view, according to an exemplary embodiment.
  • FIG. 10 is a diagram for describing a decoding process using a synthetic image of a virtual view, according to an exemplary embodiment.
  • FIG. 11 illustrates a bitstream structure for a macroblock according to an embodiment.
  • FIG. 12 illustrates a bitstream structure for a macroblock according to another embodiment.
  • a 3D video encoding / decoding system method is proposed to efficiently reduce redundancy between viewpoints.
  • the view synthesis method includes (i) a skip (SKIP) mode in which a predicted block is sent without a residual signal between the predicted block and the original block, (ii) a direct mode in which a residual signal is encoded except for motion information, and a motion. It can be classified into a residual coding mode in which both the information and (iii) the residual signal are encoded.
  • SKIP skip
  • a direct mode in which a residual signal is encoded except for motion information
  • a motion It can be classified into a residual coding mode in which both the information and (iii) the residual signal are encoded.
  • a skip mode / direct mode based on intra prediction will be expressed as an intra skip mode and an intra direct mode.
  • a skip mode / direct mode based on inter prediction is expressed as an inter skip mode and an inter direct mode.
  • the skip mode and the direct mode based on the interview prediction will be expressed by the interview skip mode and the interview direct mode.
  • the view synthesis skip mode / direct mode will be expressed as a view synthesis skip mode and a view synthesis direct mode.
  • FIG. 1 is a diagram illustrating an encoding apparatus and a decoding apparatus, according to an embodiment.
  • the encoding apparatus 101 may encode 3D video and then transmit the encoded data to the decoding apparatus 102 in the form of a bitstream.
  • the encoding apparatus 101 according to an embodiment may improve encoding efficiency by removing redundancy between images as much as possible when encoding 3D video.
  • Intra, Inter, and Inter-View prediction methods may be used to remove the redundancy between the images.
  • various coding modes (SKIP, 2NX2N, NXN, 2NxN, NX2N, and intra modes) may be used when predicting a block.
  • SKIP SKIP
  • 2NX2N, NXN, 2NxN, NX2N, and intra modes may be used when predicting a block.
  • the probability that more blocks constituting the current image may be encoded in the skip mode is increased.
  • the encoding apparatus 101 may synthesize the images of the neighboring views, which are already encoded, generate a synthesized image of the virtual view, and encode the image of the current view by using the generated synthesized image.
  • the virtual view may mean a view at the same position as the current view to be encoded.
  • the images of the neighboring viewpoints may include texture information (color information) and depth information of the neighboring viewpoints.
  • the encoding apparatus 101 transmits only one bit for identifying a skip mode to the decoding apparatus 102 without encoding block information for blocks compressed in a skip (SKIP) mode, many bits are compared with other coding modes. The amount can be reduced.
  • the direct mode is a coding mode in which only the residual signal is compressed and transmitted without motion information, a bit amount related to motion information can be reduced. Therefore, when the encoding apparatus 101 compresses a block, the more the skip mode or the direct modes are selected as the coding mode, the more the compression performance can be improved.
  • the encoding apparatus 101 allows more blocks to be compressed into the skip mode through interview prediction and view synthesis along with a skip mode according to a conventional prediction technique such as intra prediction or inter prediction.
  • a skip flag (SKIP Flag) for identifying a skip mode using the composite image of the virtual view is required.
  • the skip flag of the current block may adaptively determine the positional relationship between the SKIP flag indicating the existing skip mode and the SKIP Flag indicating the skip mode of view synthesis based on the compression information of neighboring blocks adjacent to the current block ( Context-based Adaptive Skip Flag Positioning.
  • FIG. 2 is a diagram illustrating a detailed configuration of a decoding apparatus according to an embodiment.
  • the decryption apparatus 102 may include an identification information extractor 201 and a decoder 202.
  • the identification information extractor 201 may first extract first identification information indicating whether the current block is in a view synthesis skip mode. If the current block is not the view synthesis skip mode according to the first identification information, second identification information indicating whether the current block is the normal skip mode may be extracted.
  • the identification information may be represented by a flag in the bitstream.
  • the first identification information may be represented by mb_vsskip_flag
  • the second identification information may be represented by mb_skip_flag.
  • the first identification information means to be located before the second identification information.
  • the first identification information may be located before the second identification information.
  • the first identification information may be located after the second identification information.
  • the positions of the first identification information and the second identification information may be adaptively changed according to encoding modes of the upper block and the left block, which are neighboring blocks of the current block.
  • the general skip mode may include at least one of an intra skip mode, an inter skip mode, and an interview skip mode except the view synthesis skip mode.
  • the decoder 202 may decode the current block by using the first identification information and the second identification information. If the current block is encoded according to the view synthesis skip mode according to the first identification information, the decoder 202 may use the synthesized image of the virtual view generated according to the texture information and the depth information of the neighboring view of the current view. The current block can be decrypted. In addition, when the current block is encoded according to the normal skip mode according to the second identification information, the decoder 202 determines any one of an intra skip mode, an inter skip mode, or an interview skip mode, and then considers the corresponding skip mode. The current block can be decrypted.
  • the decoder 202 may use the residual signal for the synthesized image of the virtual view based on the current signal.
  • the block can be decrypted.
  • FIG. 3 is a diagram illustrating a decoding method according to an exemplary embodiment.
  • the decoding apparatus 102 may first extract first identification information indicating whether the current block is in view synthesis skip mode. In step 301, if the current block is not the view synthesis skip mode according to the first identification information, in step 302, the decoding apparatus 102 indicates second identification information indicating whether the current block is the normal skip mode. Can be extracted.
  • the identification information may be represented by a flag in the bitstream.
  • the first identification information may be represented by mb_vsskip_flag
  • the second identification information may be represented by mb_skip_flag.
  • the first identification information means to be located before the second identification information.
  • the first identification information may be located before the second identification information.
  • the first identification information may be located after the second identification information.
  • the positions of the first identification information and the second identification information may be adaptively changed according to encoding modes of the upper block and the left block, which are neighboring blocks of the current block.
  • the general skip mode may include at least one of an intra skip mode, an inter skip mode, and an interview skip mode except the view synthesis skip mode.
  • the decoding apparatus 102 may decode the current block by using the first identification information and the second identification information. If the current block is encoded according to the view synthesis skip mode according to the first identification information, the decoding apparatus 102 may use the synthesized image of the virtual view generated according to the texture information and the depth information of the neighboring view of the current view. The current block can be decrypted. In addition, when the current block is encoded according to the general skip mode according to the second identification information, the decoding apparatus 102 determines any one of an intra skip mode, an inter skip mode, or an interview skip mode, and then considers the corresponding skip mode. The current block can be decrypted.
  • the decoding apparatus 102 uses the residual signal for the synthesized image of the virtual view.
  • the block can be decrypted.
  • FIG. 4 is a diagram illustrating a structure of a multiview video according to an embodiment.
  • a multiview video coding method of encoding GOP (Group of Picture) '8' is shown.
  • GOP Group of Picture
  • a hierarchical B picture is basically applied to a temporal axis and a view axis, thereby reducing redundancy between images.
  • the multiview video encoding apparatus 101 first encodes a left picture (I-view), and then a right picture (P-view) and a center picture (Center).
  • a picture corresponding to three viewpoints can be encoded by sequentially encoding Picture: B-view.
  • the left image may be encoded in such a manner that temporal redundancy is removed by searching for similar regions from previous images through motion estimation.
  • the right image since the right image is encoded by using the previously encoded left image as a reference image, the right image may be encoded in such a manner that temporal redundancy based on motion estimation and view redundancy based on disparity estimation are removed. have.
  • the center image since the center image is encoded by using both the left image and the right image, which are already encoded, as a reference image, the inter-view redundancy may be removed according to the estimation of the shift in both directions.
  • an image encoded without using a reference image of another view may be encoded by predicting and encoding a reference image of another view in one direction, such as an I-View and a right image.
  • An image that is predicted and encoded in both directions, such as a P-View and a center image, is defined as a B-View.
  • Frames of MVC are largely classified into six groups according to the prediction structure.
  • the six groups include an I-view anchor frame for intra coding, an I-view non-anchor frame for inter-time inter-coding, a P-view anchor frame for inter-view unidirectional inter coding, and a unidirectional inter-coding between views.
  • the encoding apparatus 101 generates a composite image of a virtual view by synthesizing a first image of a neighboring view, which is a left and right view of a current view, to be encoded, and using the synthesized image, a second image of the current view.
  • the first image of the neighboring view required for synthesis refers to an image that is already encoded.
  • the encoding apparatus 101 may encode the P-View by synthesizing the already encoded I-View.
  • the encoding apparatus 101 may synthesize a previously encoded I-View and a P-View to encode a B-View.
  • the encoding apparatus 101 may encode a specific image by synthesizing the already encoded image located in the vicinity.
  • an image that is compressed without prediction from another viewpoint is defined as an I-View.
  • an image that is compressed while predicting in one direction from an image from another viewpoint is defined as a P-View.
  • the image that is compressed while bidirectionally predicting from the images of left and right view like the center image is defined as B-View.
  • FIG. 5 is a diagram illustrating an example of a reference picture used to encode a current block according to an embodiment.
  • the encoding apparatus 101 may determine reference pictures 502 and 503 located in the temporal vicinity of the current frame and reference pictures 504 and 505 located in the periphery in view. It is available.
  • the encoding apparatus 101 may search the prediction blocks most similar to the current blocks in the reference pictures 502 ⁇ 505 to encode a residual signal between the current block and the prediction block.
  • the encoding apparatus 101 may use reference pictures 502 and 503 that are different in time from the current frame including the current block to search for the prediction block based on the motion vector. In order to search for the prediction block based on the disparity vector, reference pictures 504 and 505 different from the current frame including the current block may be used.
  • FIG. 6 illustrates a view synthesis skip mode and a view synthesis direct mode according to an embodiment.
  • View synthesis prediction is a technique of predicting a block most similar to a current block by using a synthesized image of a virtual view generated based on images of a neighboring view that is already compressed. Therefore, in order to perform view synthesis prediction, a synthesized image is required using Equations 1 to 4 described below.
  • the synthesized image corresponds to a reference picture for view synthesis prediction.
  • the encoding apparatus 101 may use a zero vector to predict the current block in the synthesized image.
  • the encoding apparatus 101 may divide a coding mode into a skip mode, a direct mode, and a residual signal compression mode (16x16, 16x8, 8x6, and P8x8 modes) according to whether the block information of the current block is compressed.
  • the encoding apparatus 101 may generate a synthesized image corresponding to the current view that is the virtual view from the reference image of the neighboring view that is already compressed.
  • the view synthesis skip mode searches for a block pointing to a zero vector in the synthesized image and replaces the block with a zero vector.
  • the zero vector indicates the same position as the current block in the composite image.
  • the compression of the difference between the prediction block indicated by the zero vector and the current block in the synthesized image may be defined as a view synthesis direct mode.
  • the encoding apparatus 101 does not encode not only the motion information but also the residual signal that is the difference between the current block and the prediction block, for the current block set to the view synthesis skip mode. However, the encoding apparatus 101 encodes and transmits the residual signal without encoding only motion information on the current block set in the view synthesis direct mode.
  • FIG. 7 illustrates a residual signal coding mode of view synthesis according to an embodiment.
  • the encoding apparatus 101 may perform the synthesis on the synthesized image synthesized from the reference images of the neighboring viewpoints that have been compressed to the current view using Equations 1 to 4 to be described below.
  • the prediction blocks most similar to the current block are found among the search areas set around the prediction blocks indicated by the zero vector. In this case, the zero vector indicates the same position as the current block in the synthesized image.
  • the search area uses various block sizes, such as 16x16, 16x8, 8x6, and P8x8 modes.
  • the difference between the prediction block and the current block may be compressed together with a vector indicating the prediction block and transmitted to the decoding apparatus 102.
  • the encoding apparatus 101 may add and use only a view synthesis skip mode using a synthesized image of a virtual view with respect to an existing coding mode.
  • the encoding apparatus 101 may add and use only the view synthesis direct mode using the synthesized image of the virtual view with respect to the existing coding mode.
  • the encoding apparatus 101 may add and use only the residual signal coding mode using the synthesized image of the virtual view with respect to the existing coding mode.
  • the existing coding mode is a residual signal coding based on intra prediction, inter prediction, intra skip mode, intra direct mode, inter skip mode, inter direct mode, interview skip mode, interview direct mode, intra prediction, inter prediction, or interview prediction. It may include at least one mode.
  • the encoding apparatus 101 may add and use at least one of a view synthesis skip mode using a synthetic image of a virtual view, a view synthesis direct mode, or a residual signal coding mode of view synthesis with respect to an existing coding mode.
  • the encoding apparatus 101 exhibits the best coding performance for at least one of a view synthesis skip mode, a view synthesis direct mode, or a residual signal coding mode of view synthesis using a synthetic image of a virtual view in addition to the existing coding mode.
  • the coding mode of the current block can be selected.
  • the encoding apparatus 101 may perform coding according to all the above-described prediction techniques for the current block, and then select the final coding mode based on the coding result.
  • the encoding apparatus 101 may use a rate-distortion cost value.
  • the rate-distortion cost function value is determined based on the calculated bit generation amount and the distortion value, and the final coding mode for the current block may be selected as the coding mode having the smallest rate-distortion cost function value.
  • J is a rate-distortion cost function derived according to a prediction technique
  • a sum of square difference (SSD) is a squared difference value between the current block s and the prediction block r.
  • I the Lagrangian coefficient.
  • R is the number of bits required when encoding a signal obtained by the difference between the predicted image from the original image and the previous image based on the coding mode of the prediction technique.
  • FIG. 8 illustrates a view synthesis according to an embodiment.
  • the synthesized image of the virtual view for the color image and the depth image may be generated using the already encoded color image, the depth image, and camera parameter information.
  • the synthesized image of the virtual view for the color image and the depth image may be generated according to Equations 1 to 4 below.
  • D means a pixel value of the pixel position (x, y) in the depth image.
  • Znear and Zfar represent the nearest depth information and the farthest depth information, respectively.
  • the encoding apparatus 101 obtains the actual depth information Z and then combines the pixels (xr, yr) of the reference viewpoint image as shown in [Equation 2] to synthesize (r) the image of the reference viewpoint into the image of the target viewpoint.
  • the pixels (xr, yr) represent pixels of the color image when the virtual view synthesis is performed on the color image, and pixels of the depth image when the virtual view synthesis is performed on the depth image.
  • Equation 2 A denotes an intrinsic camera matrix, R denotes a camera rotation matrix, T denotes a camera translation vector, and Z denotes depth information.
  • the encoding apparatus 101 projects the 3D World coordinate system (u, v, w) into the image coordinate system (xt zt, yt zt, zt) at the target viewpoint. This is done according to equation (3).
  • depth information (Z near / Z far ) and camera parameter information (R / A / T) are additionally required to make a composite image of the virtual view. Therefore, this additional information is encoded in the encoding apparatus, included in the bitstream, and then decoded in the decoding apparatus.
  • the encoding apparatus may selectively determine the transmission method of the depth information and the camera parameter information according to whether the depth information and the camera parameter information are the same for each image to be encoded using the composite image of the virtual view.
  • the encoding apparatus may decode the additional information necessary for synthesizing the virtual view only once through the bitstream. Can send to Alternatively, if additional information, such as depth information and camera parameter information, is the same for each image to be encoded using the synthesized video of the virtual view, the encoding apparatus may display additional information necessary for synthesizing the virtual view through a bitstream of a group of picture. ) Can be sent to the decryption device for each.
  • the encoding apparatus decodes the additional information for each image to be encoded using the synthesized image of the virtual view through a bitstream. To the device.
  • the encoding apparatus uses only the additional information having a different value for each image to be encoded using the composite image of the virtual view. It can be transmitted to the decoding apparatus through the stream.
  • the composite image of the virtual view for the color image and the depth image taken by the (1D Parallel arrangement) in the horizontally arranged cameras may be generated according to the following equation (4).
  • f x is the horizontal focal length of the camera
  • t x is the x translation of the camera
  • p x is the horizontal principal point of the camera.
  • d (Disparity) tells us the distance the pixel is shifted horizontally.
  • the pixels (xr, yr) in the reference image are mapped to pixels (x t , y t ) by d in the image at the target viewpoint.
  • depth information (Z near / Z far ) and camera parameter information (f x , t x , p x ) are additionally required to create a virtual view image. Therefore, this additional information is encoded in the encoding apparatus, included in the bitstream, and then decoded in the decoding apparatus.
  • the encoding apparatus may selectively determine the transmission method of the depth information and the camera parameter information according to whether the depth information and the camera parameter information are the same for each image to be encoded using the composite image of the virtual view.
  • the encoding apparatus may decode the additional information necessary for synthesizing the virtual view only once through the bitstream. Can send to
  • the encoding apparatus may display additional information necessary for synthesizing the virtual view through a bitstream of a group of picture. ) Can be sent to the decryption device for each.
  • the encoding apparatus decodes the additional information for each image to be encoded using the synthesized image of the virtual view through a bitstream. To the device.
  • the encoding apparatus uses only the additional information having a different value for each image to be encoded using the composite image of the virtual view. It can be transmitted to the decoding apparatus through the stream.
  • pixel values belonging to an image of a target view may be derived from pixels (x, y) belonging to an image of a reference view using corresponding depth images.
  • the pixels of the corresponding depth image may be converted into a disparity vector using camera parameter information.
  • the converted disparity vector may indicate which pixel among pixels belonging to an image of a reference view corresponds to a pixel.
  • the encoding apparatus 101 uses the pixel value of the integer position existing around the pixel (x, y).
  • the pixel values of the pixels (x, y) may be interpolated.
  • the encoding apparatus 101 may use the pixel values of the pixels corresponding to the integer positions without interpolation.
  • the encoding apparatus 101 does not interpolate and the pixel of the pixel corresponding to the integer position positioned around the pixel (x, y) You can use one of the values.
  • the encoding apparatus 101 corresponds to the half position.
  • a pixel value corresponding to an integer position on the left side of the pixel and a pixel value corresponding to an integer position on the right side may be compared.
  • the encoding apparatus 101 corresponds to the integer value on the left of the pixel value corresponding to 1/2 position.
  • the pixel value is assigned to either the pixel value or the pixel value corresponding to the right integer position.
  • the encoding device 101 converts the pixel value corresponding to the 1/2 position to the left integer position. After interpolating the pixel value and the pixel value corresponding to the integer position on the right side, the interpolation value may be assigned.
  • the encoding apparatus 101 is located at the 1/4 position.
  • a pixel value corresponding to an integer position on the left side and a pixel value corresponding to an integer position on the right side may be compared with the corresponding pixel.
  • the encoding apparatus 101 matches the pixel value corresponding to the quarter position to the integer position on the left.
  • the pixel value is assigned to either the pixel value or the pixel value corresponding to the right integer position.
  • an interpolation value may be assigned after interpolating a pixel value corresponding to a position.
  • the left integer position value of the 1/4 position and the interpolation value of the 1/2 position may be compared. As a result of the comparison, when the left integer position value at the 1/4 position and the interpolation value at the 1/2 position are the same as each other, the encoding apparatus 101 may allocate the left integer position value or the interpolation value at the 1/2 position. If, as a result of the comparison, the left integer position value at the 1/4 position and the interpolation value at the 1/2 position are different from each other, the encoding apparatus 101 interpolates the left integer position value and the interpolation value at the 1/2 position again to 1 Used as an interpolation value at the / 4 position.
  • the encoding apparatus 101 may compare the right integer position value of the 1/4 position with the interpolation value of the 1/2 position. As a result of the comparison, when the right integer position value at the 1/4 position and the interpolation value at the 1/2 position are the same as each other, the encoding apparatus 101 may allocate the right integer position value or the interpolation value at the 1/2 position. When the right integer position value at the 1/4 position and the interpolation value at the 1/2 position are different from each other, the encoding device 101 interpolates the right integer position value and the interpolation value at the 1/2 position again and the 1/4 position. Used as an interpolation value of.
  • FIG. 9 is a diagram for describing an encoding process using a synthetic image of a virtual view, according to an exemplary embodiment.
  • the color image and the depth image constituting the 3D video may be separately encoded and decoded.
  • the encoding process is performed by obtaining a residual signal between an original image and a prediction image derived through block-based prediction, and then transforming and quantizing the residual signal. Then, a deblocking filter is performed to accurately predict the next images.
  • a view synthesis as well as a skip mode, a direct mode and a residual signal coding mode based on intra prediction, inter prediction, and inter-view prediction Skip mode, view synthesis direct mode, and residual signal coding mode of view synthesis may be used.
  • an additional configuration for synthesizing at the virtual view may be required to generate a synthesized image of the virtual view.
  • the encoding apparatus 101 may generate a synthesized image of the color image of the current view by using the color image and the depth image of the neighboring view that are already encoded. Can be generated.
  • the encoding apparatus 101 may generate the composite image of the depth image of the current view using the depth image of the neighboring view that is already encoded.
  • FIG. 10 is a diagram for describing a decoding process using a synthetic image of a virtual view, according to an exemplary embodiment.
  • decoding apparatus 102 of FIG. 10 performs substantially the same operation as the encoding apparatus 101 of FIG. 9, a detailed description thereof will be omitted.
  • 11 illustrates a bitstream structure for a macroblock according to an embodiment. 11 illustrates the position of a flag that identifies the view synthesis skip mode.
  • FIG. 11 illustrates a proposed macroblock level Syntax for distinguishing flags of a general normal skip mode and a view synthesis view synthesis skip mode.
  • the normal skip mode means a skip mode other than the view synthesis skip mode, and may include, for example, an intra skip mode, an inter skip mode, or an interview skip mode.
  • the normal skip mode and the view synthesis view synthesis skip mode may correspond to First Skip Flag (first_skip_flag) and Second Skip Flag (second_skip_flag) for distinguishing flag positions.
  • first_skip_flag may appear earlier in the bitstream than second_skip_flag.
  • mb_skip_flag may mean a flag indicating whether the current block is a normal skip mode instead of a view synthesis skip mode
  • mb_vsskip_flag may mean a flag indicating whether the current block is a view synthesis skip mode.
  • CASE 1 refers to a case where first_skip_flag is mb_skip_flag and second_skip_flag is mb_vsskip_flag. Then, mb_vsskip_flag is located after mb_skip_flag.
  • the encoding apparatus 101 means that the coding mode of compressing the residual signal, which is a difference between the current block and the prediction block, is determined as the coding mode of the current block. do. Then, the encoding apparatus 101 may transmit the mb_skip_flag and the mb_vsskip_flag to 0, and then transmit the bitstream indicating the type of coding mode, the bitstream about the motion information and the residual signal related to the current block, to the decoding apparatus 102.
  • CASE 2 refers to a case where first_skip_flag is mb_vsskip_flag and second_skip_flag is mb_skip_flag.
  • Mb_skip_flag is then located after mb_vsskip_flag.
  • the encoding apparatus 101 allocates mb_vsskip_flag and mb_skip_flag to 0 and then selects a bit stream for the type of coding mode.
  • the bit stream of the motion information and the residual signal of the current block is transmitted to the decoding apparatus 102.
  • the encoding apparatus 101 may adaptively set (Context-based) first_skip_flag and second_skip_flag by using compression information of neighboring blocks adjacent to the current block (Context-based Adaptive Skip Flag Positioning (CASFP)).
  • the compression information may include coding mode information, motion information, code block pattern (CBP) information, texture information, etc. of neighboring blocks.
  • the encoding apparatus 101 may set first_skip_flag to mb_vsskip_flag and second_skip_flag to mb_skip_flag based on the compression information of the neighboring block.
  • the encoding apparatus 101 may set first_skip_flag to mb_vsskip_flag and set second_skip_flag to mb_skip_flag.
  • mb_vsskip_flag may be located before mb_skip_flag.
  • the encoding apparatus 101 may set first_skip_flag to mb_skip_flag and set second_skip_flag to mb_vsskip_flag. In other words, when only one of the above block and the left block of the current block is in the view synthesis skip mode, or both the above block and the left block of the current block are in the normal skip mode.
  • the encoding apparatus 101 may set first_skip_flag to mb_skip_flag and second_skip_flag to mb_vsskip_flag.
  • the encoding apparatus 101 may set first_skip_flag to mb_vsskip_flag and set second_skip_flag to mb_skip_flag. If the upper block and the left block of the current block are not all of the view synthesis skip mode, that is, if the upper and left blocks of the current block are all of the normal skip mode, the encoding apparatus 101 sets first_skip_flag to mb_skip_flag, second_skip_flag may be set to mb_vsskip_flag.
  • the encoding apparatus 101 may set first_skip_flag to mb_skip_flag and second_skip_flag to mb_vsskip_flag based on the compression information of the neighboring block.
  • the encoding apparatus 101 may set first_skip_flag to mb_skip_flag and set second_skip_flag to mb_vsskip_flag.
  • mb_skip_flag may be located before mb_vsskip_flag.
  • the encoding apparatus 101 may set first_skip_flag to mb_vsskip_flag and set second_skip_flag to mb_skip_flag. In other words, when only one of the above block and the left block of the current block is in the normal skip mode, or both the above block and the left block of the current block are in view synthesis skip mode.
  • the encoding apparatus 101 may set first_skip_flag to mb_vsskip_flag and set second_skip_flag to mb_skip_flag.
  • the encoding apparatus 101 may set first_skip_flag to mb_skip_flag and second_skip_flag to mb_vsskip_flag.
  • first_skip_flag to mb_vsskip_flag
  • second_skip_flag may be set to mb_skip_flag.
  • FIG. 11 illustrates a case in which the view synthesis skip mode is added to the normal skip mode
  • the same description may also be applied to the case where the general skip mode includes another skip mode of a new type other than the view synthesis skip mode.
  • first_skip_flag may be set as a flag indicating an interview skip mode
  • second_skip_flag may be set as a flag indicating an intra skip mode or an inter skip mode.
  • the position between the identification information indicating the normal skip mode and the identification information indicating the new skip mode may be determined according to the encoding mode of the adjacent neighboring block of the current block.
  • the identification information indicating the new skip mode may be set before the identification information indicating the normal skip mode for the current block.
  • FIG. 12 illustrates a bitstream structure for a macroblock according to another embodiment.
  • the direct mode like the skip mode, does not include motion information but refers to a coding mode for encoding the residual signal. Therefore, when the current block is in the direct mode, the encoding apparatus 101 may use a flag to distinguish between the general direct mode and the view synthesis direct mode.
  • direct_mode_type_flag may be located after the mode type (mb_type) in the bitstream. If the direct_mode_type_flag transmitted to the decoding device 102 is 0, it means a general direct mode. If the direct_mode_type_flag is 1, it means a view synthesis direct mode. In some embodiments, 1 and 0 may be interchanged.
  • first_skip_flag may be mb_skip_flag
  • second_skip_flag may be mb_vsskip_flag
  • first_skip_flag may be mb_vsskip_flag
  • second_skip_flag may be mb_skip_flag
  • the encoding apparatus 101 may set first_skip_flag to 0 and set second_skip_flag to 0.
  • the encoding apparatus 101 may allocate a bit indicating that the current block is a direct mode, set direct_mode_type_flag to 1, and transmit the bit to the decoding apparatus 102 together with the compressed bit.
  • the encoding apparatus 101 may set first_skip_flag to 0 and second_skip_flag to 0.
  • the encoding apparatus 101 may allocate a bit indicating that the current block is the direct mode, set direct_mode_type_flag to 0, and transmit the bit to the decoding apparatus 102 together with the compressed bit.
  • the encoding apparatus 101 may set first_skip_flag to 0 and second_skip_flag to 0. FIG. Thereafter, the encoding apparatus 101 may transmit a bit indicating the residual signal compression mode and a bit obtained by compressing the residual signal to the decoding apparatus 102.
  • a method and apparatus for encoding and decoding 3D video using view synthesis is provided.
  • a method and apparatus for synthesizing an image from a viewpoint of an image to be currently compressed using images of neighboring viewpoints already compressed for view synthesis are provided.
  • a method and apparatus for using a view synthesis skip mode (View Synthesis SKIP mode) that does not encode and decode block information in view synthesis
  • a method and apparatus for using a residual signal compression mode of view synthesis for encoding and decoding block information in view synthesis are provided.
  • a method and apparatus for using a block indicated by a zero vector to find a block most similar to a current block in a synthesized image are provided.
  • a method and apparatus for placing a flag indicating a view synthesis skip mode (mb_vsskip_flag) before or after a flag (mb_skip_flag) for an existing skip mode are provided.
  • (Context-based Adaptive Skip Flag) adaptively located before or after Flag (mb_vsskip_flag) indicating a general skip mode based on compression information of adjacent neighboring blocks for the current block. Positioning: CASFP) method and apparatus are provided.
  • a method and apparatus for using a block indicated by a zero vector to find a block most similar to a current block in a synthesized image are provided.
  • a method and apparatus for placing a Flag for distinguishing a direct mode based on an existing prediction from a view synthesis direct mode after a syntax (mb_type) indicating a type of a (direct_mode_type_flag) mode is provided.
  • a method and apparatus for converting the pixels of the corresponding depth image into a disparity vector to find the corresponding pixels of the reference view indicated by the disparity vector when finding the pixels of the composite image from the image pixels of the reference view, a method and apparatus for converting the pixels of the corresponding depth image into a disparity vector to find the corresponding pixels of the reference view indicated by the disparity vector.
  • mb_skip_flag represents a normal skip mode
  • mb_vsskip_flag represents a view synthesis skip mode
  • the encoding apparatus 101 when encoding mb_vsskip_flag of the current block, the encoding apparatus 101 performs entropy encoding with reference to mb_vsskip_flag of the upper block and the left block of the current block.
  • Slice data syntax may be represented as shown in Table 1 below.
  • mb_type When mb_type is derived to P_Skip using a composite picture as a reference picture when decoding the P slice, and mb_vsskip_flag represents 1 for the current macroblock when the macroblock type is collectively referred to as the P macroblock type. Or, if mb_type is derived as B_Skip using a composite picture as a reference picture when decoding a B slice, and if the macroblock type is collectively referred to as the B macroblock type, then mb_vsskip_flag equals 1 for the current macroblock. Indicates. If the current macroblock is not skipped, mb_vsskip_flag indicates 0. And, if mb_vsskip_flag does not exist, mb_vsskip_flag may be inferred to zero.
  • the method according to the embodiment may be embodied in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium.
  • the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination.
  • the program instructions recorded on the media may be those specially designed and constructed for the purposes of the embodiments, or they may be of the kind well-known and available to those having skill in the computer software arts.
  • Examples of computer readable recording media include magnetic media such as hard disks, floppy disks and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks such as floppy disks.
  • Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
  • the hardware device described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

A 3D video coding/decoding apparatus and a 3D video coding/decoding method are disclosed. The 3D video coding/decoding apparatus can code/decode a video according to existing techniques, such as a prediction technique, an interview prediction technique or a view synthesis technique, and can efficiently transmit a coding mode according to a prediction technique.

Description

3D 비디오 부호화/복호화 장치 및 부호화/복호화 방법3D video encoding / decoding apparatus and encoding / decoding method
이하의 실시예들은 3D 비디오를 효율적으로 부호화/복호화하고, 이를 전송하는 장치 및 방법에 관한 것이다.The following embodiments are related to an apparatus and method for efficiently encoding / decoding a 3D video and transmitting the same.
입체 영상이란 깊이 및 공간에 대한 형상 정보를 동시에 제공하는 3차원 영상을 의미한다. 스테레오 영상의 경우, 좌우 눈에 각각 다른 시점의 영상을 제공하는 반면에, 입체 영상은 관찰자가 보는 시점을 달리할 때마다 다른 방향에서 본 것과 같은 영상을 제공한다. 따라서, 입체 영상을 생성하기 위해서는 여러 시점에서 촬영한 영상들이 필요하다. The stereoscopic image refers to a 3D image that simultaneously provides shape information about depth and space. In the case of stereo images, images of different viewpoints are provided to the left and right eyes, whereas stereoscopic images provide the same images as viewed from different directions whenever the viewer views different views. Therefore, in order to generate a stereoscopic image, images captured at various viewpoints are required.
입체 영상을 생성하기 위해 여러 시점에서 찍은 영상들은 데이터량이 방대하다. 따라서, 입체 영상을 위해 네트워크 인프라, 지상파 대역폭 등을 고려하면 MPEG-2, H.264/AVC, 그리고 HEVC 등과 같은 단일시점 비디오 압축(Single-View Video Coding)에 최적화된 부호화 장치를 사용하여 압축하더라도 실현이 거의 불가능할 수 있다.Images taken from various viewpoints to generate stereoscopic images have a large amount of data. Therefore, considering the network infrastructure, terrestrial bandwidth, etc. for stereoscopic video, even compression is performed using an encoding device optimized for Single-View Video Coding such as MPEG-2, H.264 / AVC, and HEVC. Realization may be nearly impossible.
다만, 관찰자가 보는 시점마다 찍은 영상들은 서로 관련성이 있기 때문에 중복되는 정보가 많다. 따라서, 시점간 중복성을 제거할 수 있는 다시점 영상에 최적화된 부호화 장치를 이용하면 보다 적은 양의 데이터를 전송할 수 있다. However, since images taken at each viewpoint viewed by the observer are related to each other, there is a lot of overlapping information. Accordingly, a smaller amount of data may be transmitted by using an encoding apparatus optimized for a multiview image capable of removing inter-view redundancy.
특히, 깊이 영상은 칼라 영상에서 물체와 시청자 간의 거리를 0~255의 값으로 나타낸 영상이므로, 깊이 영상과 칼라 영상간의 특징은 유사하다. 일반적으로 3D 비디오는 여러 시점의 칼라 영상과 깊이 영상을 포함한다. 하지만, 3D 비디오들은 시간적으로 연속적인 영상들 간에 시간적 중복성을 가지고 있다. 뿐만 아니라, 3D 비디오들은 서로 다른 시점들에 해당하는 영상들 간에도 시점간 중복성을 가지고 있다. In particular, since the depth image is an image representing a distance between an object and a viewer in a color image with a value of 0 to 255, characteristics between the depth image and the color image are similar. In general, 3D video includes a color image and a depth image of several views. However, 3D videos have temporal redundancy between successive images in time. In addition, 3D videos have inter-view redundancy among images corresponding to different viewpoints.
따라서, 이와 같은 시간적 중복성과 시점간 중복성을 효율적으로 제거하여 3D 비디오를 보다 최적화된 형태로 부호화/복호화하여 전송하는 기법이 필요하다.Therefore, there is a need for a method of encoding / decoding and transmitting 3D video in a more optimized form by efficiently removing such temporal redundancy and inter-view redundancy.
일실시예에 따른 복호화 방법은 현재 블록이 시점 합성 스킵 모드인지 여부를 나타내는 제1 식별 정보를 추출하는 단계; 상기 제1 식별 정보에 따라 현재 블록이 시점 합성 스킵 모드가 아닌 경우, 상기 현재 블록이 일반 스킵 모드인지 여부를 나타내는 제2 식별 정보를 추출하는 단계; 및 상기 제1 식별 정보 또는 제2 식별 정보를 이용하여 상기 현재 블록을 복호화하는 단계를 포함할 수 있다.A decoding method according to an embodiment includes extracting first identification information indicating whether a current block is in view synthesis skip mode; Extracting second identification information indicating whether the current block is in a normal skip mode when the current block is not in the view synthesis skip mode according to the first identification information; And decoding the current block by using the first identification information or the second identification information.
상기 제1 식별 정보는, 현재 블록의 왼쪽 블록 및 위쪽 블록이 모두 시점 합성 스킵 모드인 경우, 제2 식별 정보보다 먼저 위치할 수 있다.The first identification information may be located before the second identification information when both the left block and the upper block of the current block are in the view synthesis skip mode.
상기 시점 합성 스킵 모드는, 현재 블록의 현재 시점과 동일한 시점인 가상 시점의 합성 영상을 이용하고, 상기 합성 영상은, 현재 시점의 주변 시점에서의 부호화된 텍스쳐 정보와 깊이 정보로부터 결정될 수 있다.The view synthesis skip mode may use a synthesized image of a virtual view that is the same view as the current view of the current block, and the synthesized image may be determined from encoded texture information and depth information of a neighbor view of the current view.
상기 일반 스킵 모드는, 인트라 스킵 모드, 인터 스킵 모드 또는 인터뷰 스킵 모드 중 적어도 하나를 포함할 수 있다.The normal skip mode may include at least one of an intra skip mode, an inter skip mode, or an interview skip mode.
다른 실시예에 따른 복호화 방법은 현재 블록이 일반 스킵 모드인지 여부를 나타내는 제1 식별 정보를 추출하는 단계; 상기 제1 식별 정보에 따라 현재 블록이 일반 스킵 모드가 아닌 경우, 상기 현재 블록이 시점 합성 스킵 모드인지 여부를 나타내는 제2 식별 정보를 추출하는 단계; 및 상기 제1 식별 정보 또는 제2 식별 정보를 이용하여 상기 현재 블록을 복호화하는 단계를 포함할 수 있다.According to another embodiment, a decoding method includes extracting first identification information indicating whether a current block is in a normal skip mode; Extracting second identification information indicating whether the current block is in view synthesis skip mode when the current block is not in the normal skip mode according to the first identification information; And decoding the current block by using the first identification information or the second identification information.
상기 제1 식별 정보는, 현재 블록의 왼쪽 블록 및 위쪽 블록 중 적어도 하나가 일반 스킵 모드인 경우, 제2 식별 정보보다 먼저 위치할 수 있다.The first identification information may be located before the second identification information when at least one of the left block and the upper block of the current block is the normal skip mode.
상기 시점 합성 스킵 모드는, 현재 블록의 현재 시점과 동일한 시점인 가상 시점의 합성 영상을 이용하고, 상기 합성 영상은, 현재 시점의 주변 시점에서 부호화된 텍스쳐 정보와 깊이 정보로부터 결정될 수 있다.The view synthesis skip mode may use a synthesized image of a virtual view that is the same view as the current view of the current block, and the synthesized image may be determined from texture information and depth information encoded at a neighbor view of the current view.
상기 일반 스킵 모드는, 인트라 스킵 모드, 인터 스킵 모드 또는 인터뷰 스킵 모드 중 적어도 하나를 포함할 수 있다.The normal skip mode may include at least one of an intra skip mode, an inter skip mode, or an interview skip mode.
또 다른 실시예에 따른 복호화 방법은 비트스트림에서 현재 블록의 부호화 모드를 나타내는 식별 정보를 추출하는 단계; 상기 식별 정보에 기초하여 현재 블록을 복호화하는 단계를 포함하고, 상기 식별 정보는, 현재 블록이 시점 합성 스킵 모드인지 여부를 나타내는 제1 식별 정보 및 현재 블록이 일반 스킵 모드인지 여부를 나타내는 제2 식별 정보를 포함할 수 있다.In another embodiment, a decoding method includes extracting identification information indicating an encoding mode of a current block from a bitstream; Decoding a current block based on the identification information, wherein the identification information includes first identification information indicating whether the current block is a view synthesis skip mode and a second identification indicating whether the current block is a normal skip mode. May contain information.
상기 제1 식별 정보 및 제2 식별 정보 간의 순서는, 상기 현재 블록의 주변 블록의 부호화 모드에 따라 달라지고, 상기 주변 블록은, 상기 현재 블록의 위쪽 블록 및 왼쪽 블록을 포함할 수 있다.The order between the first identification information and the second identification information may vary according to an encoding mode of a neighboring block of the current block, and the neighboring block may include an upper block and a left block of the current block.
상기 제1 식별 정보는, 만약 현재 블록의 위쪽 블록 및 왼쪽 블록이 모두 시점 합성 스킵 모드이면 제2 식별 정보보다 먼저 위치하고, 그렇지 않으면 제2 식별 정보보다 나중에 위치할 수 있다.The first identification information may be located before the second identification information if the upper block and the left block of the current block are both the view synthesis skip mode, and may be located later than the second identification information.
일실시예에 따른 부호화 방법은 현재 블록에 인접한 주변 블록의 부호화 모드를 판단하는 단계; 상기 부호화 모드에 따라 현재 블록의 스킵 모드와 관련된 식별 정보를 적응적으로 배치하는 단계; 및 상기 식별 정보와 현재 블록을 부호화하는 단계를 포함할 수 있다.According to an embodiment, an encoding method may include determining an encoding mode of a neighboring block adjacent to a current block; Adaptively placing identification information associated with a skip mode of a current block according to the encoding mode; And encoding the identification information and the current block.
상기 식별 정보는, 현재 블록이 시점 합성 스킵 모드인지 여부를 나타내는 제1 식별 정보 및 현재 블록이 일반 스킵 모드인지 여부를 나타내는 제2 식별 정보를 포함할 수 있다.The identification information may include first identification information indicating whether the current block is a view synthesis skip mode and second identification information indicating whether the current block is a normal skip mode.
다른 실시예에 따른 부호화 방법은 현재 블록의 위쪽 블록 및 왼쪽 블록의 부호화 모드가 모두 시점 합성 스킵 모드인지 여부를 판단하는 단계; 판단 결과에 따라, 상기 현재 블록이 시점 합성 스킵 모드인지 여부를 나타내는 제1 식별 정보 및 상기 현재 블록이 일반 스킵 모드인지 여부를 나타내는 제2 식별 정보의 위치를 결정하는 단계; 및 상기 제1 식별 정보, 제2 식별 정보 및 현재 블록을 부호화하는 단계를 포함할 수 있다.According to another exemplary embodiment, an encoding method includes determining whether an encoding mode of an upper block and a left block of a current block is a view synthesis skip mode; Determining a location of first identification information indicating whether the current block is in a view synthesis skip mode and second identification information indicating whether the current block is in a normal skip mode according to a determination result; And encoding the first identification information, the second identification information, and the current block.
일실시예에 따른 복호화 장치는 현재 블록이 시점 합성 스킵 모드인지 여부를 나타내는 제1 식별 정보를 추출하고, 상기 제1 식별 정보에 따라 현재 블록이 시점 합성 스킵 모드가 아닌 경우, 상기 현재 블록이 일반 스킵 모드인지 여부를 나타내는 제2 식별 정보를 추출하는 식별 정보 추출부; 및 상기 제1 식별 정보 또는 제2 식별 정보를 이용하여 상기 현재 블록을 복호화하는 복호화부를 포함할 수 있다.The decoding apparatus according to an embodiment extracts first identification information indicating whether the current block is in view synthesis skip mode, and if the current block is not in view synthesis skip mode according to the first identification information, the current block is general An identification information extracting unit for extracting second identification information indicating whether the skip mode is present; And a decoder which decodes the current block by using the first identification information or the second identification information.
상기 제1 식별 정보는, 현재 블록의 왼쪽 블록 및 위쪽 블록이 모두 시점 합성 스킵 모드인 경우, 제2 식별 정보보다 먼저 위치할 수 있다.The first identification information may be located before the second identification information when both the left block and the upper block of the current block are in the view synthesis skip mode.
상기 시점 합성 스킵 모드는, 현재 블록의 현재 시점과 동일한 시점인 가상 시점의 합성 영상을 이용하고, 상기 합성 영상은, 현재 시점의 주변 시점에서의 부호화된 텍스쳐 정보와 깊이 정보로부터 결정될 수 있다.The view synthesis skip mode may use a synthesized image of a virtual view that is the same view as the current view of the current block, and the synthesized image may be determined from encoded texture information and depth information of a neighbor view of the current view.
상기 일반 스킵 모드는, 인트라 스킵 모드, 인터 스킵 모드 또는 인터뷰 스킵 모드 중 적어도 하나를 포함할 수 있다.The normal skip mode may include at least one of an intra skip mode, an inter skip mode, or an interview skip mode.
다른 실시예에 따른 복호화 장치는 현재 블록이 일반 스킵 모드인지 여부를 나타내는 제1 식별 정보를 추출하고, 상기 제1 식별 정보에 따라 현재 블록이 일반 스킵 모드가 아닌 경우, 상기 현재 블록이 시점 합성 스킵 모드인지 여부를 나타내는 제2 식별 정보를 추출하는 식별 정보 추출부; 및 상기 제1 식별 정보 또는 제2 식별 정보를 이용하여 상기 현재 블록을 복호화하는 복호화부를 포함할 수 있다.The decoding apparatus according to another embodiment extracts first identification information indicating whether the current block is in the normal skip mode, and skips the current block in view synthesis if the current block is not in the normal skip mode according to the first identification information. An identification information extraction unit for extracting second identification information indicating whether the mode is in the mode; And a decoder which decodes the current block by using the first identification information or the second identification information.
상기 제1 식별 정보는, 현재 블록의 왼쪽 블록 및 위쪽 블록 중 적어도 하나가 일반 스킵 모드인 경우, 제2 식별 정보보다 먼저 위치할 수 있다.The first identification information may be located before the second identification information when at least one of the left block and the upper block of the current block is the normal skip mode.
상기 시점 합성 스킵 모드는, 현재 블록의 현재 시점과 동일한 시점인 가상 시점의 합성 영상을 이용하고, 상기 합성 영상은, 현재 시점의 주변 시점에서 부호화된 텍스쳐 정보와 깊이 정보로부터 결정될 수 있다.The view synthesis skip mode may use a synthesized image of a virtual view that is the same view as the current view of the current block, and the synthesized image may be determined from texture information and depth information encoded at a neighbor view of the current view.
상기 일반 스킵 모드는, 인트라 스킵 모드, 인터 스킵 모드 또는 인터뷰 스킵 모드 중 적어도 하나를 포함할 수 있다.The normal skip mode may include at least one of an intra skip mode, an inter skip mode, or an interview skip mode.
또 다른 실시예에 따른 복호화 장치는 비트스트림에서 현재 블록의 부호화 모드를 나타내는 식별 정보를 추출하는 식별 정보 추출부; 및 상기 식별 정보에 기초하여 현재 블록을 복호화하는 복호화부를 포함하고, 상기 식별 정보는, 현재 블록이 시점 합성 스킵 모드인지 여부를 나타내는 제1 식별 정보 및 현재 블록이 일반 스킵 모드인지 여부를 나타내는 제2 식별 정보를 포함할 수 있다.In another embodiment, a decoding apparatus includes: an identification information extracting unit configured to extract identification information indicating an encoding mode of a current block from a bitstream; And a decoder which decodes the current block based on the identification information, wherein the identification information includes first identification information indicating whether the current block is a view synthesis skip mode and a second indicating whether the current block is a normal skip mode. It may include identification information.
상기 제1 식별 정보 및 제2 식별 정보 간의 순서는, 상기 현재 블록의 주변 블록의 부호화 모드에 따라 달라지고, 상기 주변 블록은, 상기 현재 블록의 위쪽 블록 및 왼쪽 블록을 포함할 수 있다.The order between the first identification information and the second identification information may vary according to an encoding mode of a neighboring block of the current block, and the neighboring block may include an upper block and a left block of the current block.
상기 제1 식별 정보는, 만약 현재 블록의 위쪽 블록 및 왼쪽 블록이 모두 시점 합성 스킵 모드이면 제2 식별 정보보다 먼저 위치하고, 그렇지 않으면 제2 식별 정보보다 나중에 위치할 수 있다.The first identification information may be located before the second identification information if the upper block and the left block of the current block are both the view synthesis skip mode, and may be located later than the second identification information.
일실시예에 따른 부호화 장치는 현재 블록에 인접한 주변 블록의 부호화 모드를 판단하는 부호화 모드 판단부; 상기 부호화 모드에 따라 현재 블록의 스킵 모드와 관련된 식별 정보를 적응적으로 배치하는 식별 정보 배치부; 및 상기 식별 정보와 현재 블록을 부호화하는 부호화부를 포함하고, 상기 식별 정보는, 현재 블록이 시점 합성 스킵 모드인지 여부를 나타내는 제1 식별 정보 및 현재 블록이 일반 스킵 모드인지 여부를 나타내는 제2 식별 정보를 포함할 수 있다.An encoding apparatus according to an embodiment may include an encoding mode determiner configured to determine an encoding mode of a neighboring block adjacent to a current block; An identification information disposition unit for adaptively disposing identification information associated with a skip mode of a current block according to the encoding mode; And an encoding unit encoding the identification information and the current block, wherein the identification information includes first identification information indicating whether the current block is a view synthesis skip mode and second identification information indicating whether the current block is a normal skip mode. It may include.
다른 실시예에 따른 부호화 장치는 현재 블록의 위쪽 블록 및 왼쪽 블록의 부호화 모드가 모두 시점 합성 스킵 모드인지 여부를 판단하는 부호화 모드 판단부; 판단 결과에 따라, 상기 현재 블록이 시점 합성 스킵 모드인지 여부를 나타내는 제1 식별 정보 및 상기 현재 블록이 일반 스킵 모드인지 여부를 나타내는 제2 식별 정보의 위치를 결정하는 식별 정보 배치부; 및 상기 제1 식별 정보, 제2 식별 정보 및 현재 블록을 부호화하는 부호화부를 포함할 수 있다.An encoding apparatus according to another embodiment may include an encoding mode determination unit configured to determine whether encoding modes of an upper block and a left block of a current block are both view synthesis skip modes; An identification information arranging unit configured to determine a position of first identification information indicating whether the current block is in a view synthesis skip mode and second identification information indicating whether the current block is in a normal skip mode according to a determination result; And an encoding unit encoding the first identification information, the second identification information, and the current block.
비트스트림을 기록한 컴퓨터가 읽기 가능한 기록매체에 있어서, 상기 비트스트림은, 부호화된 현재 블록, 현재 블록이 시점 합성 스킵 모드인지를 나타내는 제1 식별 정보 및 현재 블록이 일반 스킵 모드인지를 나타내는 제2 식별 정보를 포함하고, 상기 제1 식별 정보는, 상기 현재 블록의 위쪽 블록 및 왼쪽 블록이 모두 시점 합성 스킵 모드인 경우, 제2 식별 정보보다 먼저 비트스트림에 위치할 수 있다.A computer-readable recording medium recording a bitstream, the bitstream includes: encoded current block, first identification information indicating whether the current block is a view synthesis skip mode, and second identification indicating whether the current block is a normal skip mode. And the first identification information may be located in the bitstream before the second identification information when both the upper block and the left block of the current block are in the view synthesis skip mode.
일실시예에 따른 복호화 장치는 비트스트림에서 현재 블록의 부호화 모드를 나타내는 제1 식별 정보 및 제2 식별 정보를 추출하는 식별 정보 추출부; 및 상기 식별 정보에 기초하여 현재 블록을 복호화하는 복호화부를 포함하고, 상기 제1 식별 정보 및 제2 식별 정보는, 시점 합성 스킵 모드, 인터뷰 스킵 모드, 인터 스킵 모드 및 인트라 스킵 모드 중에서 선택되고, 현재 블록의 주변 블록의 부호화 모드에 따라 비트스트림에 할당된 위치가 달라질 수 있다.A decoding apparatus according to an embodiment includes an identification information extracting unit for extracting first identification information and second identification information indicating an encoding mode of a current block in a bitstream; And a decoding unit to decode a current block based on the identification information, wherein the first identification information and the second identification information are selected from a view synthesis skip mode, an interview skip mode, an inter skip mode, and an intra skip mode, and The position allocated to the bitstream may vary according to the encoding mode of the neighboring blocks of the block.
일실시예에 따른 복호화 방법은 비트스트림에서 현재 블록의 부호화 모드를 나타내는 제1 식별 정보 및 제2 식별 정보를 추출하는 단계; 및 상기 식별 정보에 기초하여 현재 블록을 복호화하는 단계를 포함하고, 상기 제1 식별 정보 및 제2 식별 정보는, 시점 합성 스킵 모드, 인터뷰 스킵 모드, 인터 스킵 모드 및 인트라 스킵 모드 중에서 선택되고, 현재 블록의 주변 블록의 부호화 모드에 따라 비트스트림에 할당된 위치가 달라질 수 있다.A decoding method according to an embodiment includes extracting first identification information and second identification information indicating an encoding mode of a current block from a bitstream; And decoding the current block based on the identification information, wherein the first identification information and the second identification information are selected from a view synthesis skip mode, an interview skip mode, an inter skip mode, and an intra skip mode, and The position allocated to the bitstream may vary according to the encoding mode of the neighboring blocks of the block.
도 1은 일실시예에 따른 부호화 장치와 복호화 장치를 도시한 도면이다.1 is a diagram illustrating an encoding apparatus and a decoding apparatus, according to an embodiment.
도 2는 일실시예에 따른 복호화 장치의 세부 구성을 도시한 도면이다.2 is a diagram illustrating a detailed configuration of a decoding apparatus according to an embodiment.
도 3은 일실시예에 따른 복호화 방법을 도시한 도면이다.3 is a diagram illustrating a decoding method according to an exemplary embodiment.
도 4는 일실시예에 따른 다시점 비디오의 구조를 도시한 도면이다.4 is a diagram illustrating a structure of a multiview video according to an embodiment.
도 5는 일실시예에 따른 현재 블록을 부호화하기 위해 사용되는 참조 영상의 예시를 도시한 도면이다.FIG. 5 is a diagram illustrating an example of a reference picture used to encode a current block according to an embodiment.
도 6은 일실시예에 따라 시점 합성 스킵 모드와 시점 합성 다이렉트 모드를 설명하는 도면이다.6 illustrates a view synthesis skip mode and a view synthesis direct mode according to an embodiment.
도 7은 일실시예에 따라 시점 합성의 잔차 신호 코딩 모드를 설명하는 도면이다.7 illustrates a residual signal coding mode of view synthesis according to an embodiment.
도 8은 일실시예에 따른 시점 합성을 설명하기 위한 도면이다.8 illustrates a view synthesis according to an embodiment.
도 9는 일실시예에 따른 가상 시점의 합성 영상을 이용하는 부호화 과정을 설명하기 위한 도면이다.9 is a diagram for describing an encoding process using a synthetic image of a virtual view, according to an exemplary embodiment.
도 10은 일실시예에 따른 가상 시점의 합성 영상을 이용하는 복호화 과정을 설명하기 위한 도면이다.10 is a diagram for describing a decoding process using a synthetic image of a virtual view, according to an exemplary embodiment.
도 11은 일실시예에 따른 매크로블록을 위한 비트스트림 구조를 도시한 도면이다.11 illustrates a bitstream structure for a macroblock according to an embodiment.
도 12는 다른 일실시예에 따른 매크로블록을 위한 비트스트림 구조를 도시한 도면이다.12 illustrates a bitstream structure for a macroblock according to another embodiment.
이하, 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. 시점간의 중복성을 효율적으로 줄이는 3D 비디오 부호화/복호화 (3D Video Encoding/Decoding System) 방법을 제안한다.Hereinafter, embodiments will be described in detail with reference to the accompanying drawings. A 3D video encoding / decoding system method is proposed to efficiently reduce redundancy between viewpoints.
영상들간의 중복성 제거를 위해 기존의 압축 시스템들은 블록 기반의 예측을 수행한다. 블록 기반의 예측을 수행할 때 시점간의 중복성을 효율적으로 제거하기 위해 기존의 예측 방법 이외에 시점 합성 (View Synthesis Prediction) 방법을 사용할 수 있다. 시점 합성 방법은 (i)예측한 블록과 원래 블록간의 잔차 신호를 보내지 않고 예측한 블록을 그대로 보내는 스킵 (SKIP) 모드, (ii)움직임 정보를 제외한 잔차 신호를 부호화하는 다이렉트 (Direct) 모드, 움직임 정보 및 (iii)잔차 신호를 모두 부호화하여 보내는 잔차 신호 압축 (Residual Coding) 모드로 구분될 수 있다. Existing compression systems perform block-based prediction to remove redundancy between images. In order to efficiently remove redundancy between viewpoints when performing block-based prediction, a view synthesis method may be used in addition to the existing prediction method. The view synthesis method includes (i) a skip (SKIP) mode in which a predicted block is sent without a residual signal between the predicted block and the original block, (ii) a direct mode in which a residual signal is encoded except for motion information, and a motion. It can be classified into a residual coding mode in which both the information and (iii) the residual signal are encoded.
이하에서, 인트라 예측에 기초한 스킵 모드/다이렉트 모드는 인트라 스킵 모드와 인트라 다이렉트 모드로 표현하기로 한다. 또한, 인터 예측에 기초한 스킵 모드/다이렉트 모드는 인터 스킵 모드와 인터 다이렉트 모드로 표현하기로 한다. 그리고, 인터뷰 예측에 기초한 스킵 모드와 다이렉트 모드는 인터뷰 스킵 모드와 인터뷰 다이렉트 모드로 표현하기로 한다. 한편, 시점 합성 스킵 모드/다이렉트 모드는 시점 합성 스킵 모드와 시점 합성 다이렉트 모드로 표현하기로 한다.Hereinafter, a skip mode / direct mode based on intra prediction will be expressed as an intra skip mode and an intra direct mode. In addition, a skip mode / direct mode based on inter prediction is expressed as an inter skip mode and an inter direct mode. The skip mode and the direct mode based on the interview prediction will be expressed by the interview skip mode and the interview direct mode. On the other hand, the view synthesis skip mode / direct mode will be expressed as a view synthesis skip mode and a view synthesis direct mode.
도 1은 일실시예에 따른 부호화 장치와 복호화 장치를 도시한 도면이다.1 is a diagram illustrating an encoding apparatus and a decoding apparatus, according to an embodiment.
일실시예에 따른 부호화 장치(101)는 3D 비디오를 부호화한 후 부호화된 데이터를 비트스트림 형태로 복호화 장치(102)에 전송할 수 있다. 일실시예에 따른 부호화 장치(101)는 3D 비디오를 부호화할 때 영상들 간의 중복성을 최대한 제거함으로써 부호화 효율을 향상시킬 수 있다.The encoding apparatus 101 according to an embodiment may encode 3D video and then transmit the encoded data to the decoding apparatus 102 in the form of a bitstream. The encoding apparatus 101 according to an embodiment may improve encoding efficiency by removing redundancy between images as much as possible when encoding 3D video.
이러한 영상들 간의 중복성을 제거하기 위해, 인트라(Intra), 인터(Inter), 인터뷰(Inter-View) 예측 방법이 활용될 수 있다. 그리고, 블록을 예측할 때 여러 가지 코딩 모드(SKIP, 2NX2N, NXN, 2NxN, NX2N, 인트라 모드)들이 사용될 수 있다. 일실시예에 따르면, 현재 정의되어 있는 스킵 모드와 더불어, 가상 시점의 합성 예측에 기초한 시점 합성 스킵 모드를 정의함으로써 현재 영상을 구성하는 더 많은 블록들이 스킵 모드로 부호화될 수 있는 확률이 증가한다. Intra, Inter, and Inter-View prediction methods may be used to remove the redundancy between the images. In addition, various coding modes (SKIP, 2NX2N, NXN, 2NxN, NX2N, and intra modes) may be used when predicting a block. According to an embodiment, in addition to the currently defined skip mode, by defining a view synthesis skip mode based on the synthesis prediction of the virtual view, the probability that more blocks constituting the current image may be encoded in the skip mode is increased.
이 때, 부호화 장치(101)는 이미 부호화된 주변 시점의 영상들을 합성하여 가상 시점의 합성 영상을 생성하고, 생성된 합성 영상을 이용하여 현재 시점의 영상을 부호화할 수 있다. 여기서, 가상 시점은 부호화하고자 하는 현재 시점과 동일한 위치의 시점을 의미할 수 있다. 그리고, 여기서, 주변 시점의 영상들은 주변 시점의 텍스쳐 정보(컬러 정보) 및 깊이 정보를 포함할 수 있다.In this case, the encoding apparatus 101 may synthesize the images of the neighboring views, which are already encoded, generate a synthesized image of the virtual view, and encode the image of the current view by using the generated synthesized image. Here, the virtual view may mean a view at the same position as the current view to be encoded. In this case, the images of the neighboring viewpoints may include texture information (color information) and depth information of the neighboring viewpoints.
부호화 장치(101)는 스킵 (SKIP) 모드로 압축되는 블록들에 대해 블록 정보들을 부호화하지 않고 복호화 장치(102)에 스킵 모드를 식별하기 위한 1비트만을 전송하므로, 다른 코딩 모드들에 비해 많은 비트량을 줄일 수 있다. Since the encoding apparatus 101 transmits only one bit for identifying a skip mode to the decoding apparatus 102 without encoding block information for blocks compressed in a skip (SKIP) mode, many bits are compared with other coding modes. The amount can be reduced.
그리고, 다이렉트 (Direct) 모드는 움직임 정보없이 잔차 신호만을 압축하여 전송하는 코딩 모드이므로, 움직임 정보에 관련된 비트량을 줄일 수 있다. 따라서, 부호화 장치(101)가 블록을 압축할 때 코딩 모드로 스킵 모드 또는 다이렉트 모드들을 많이 선택할수록 압축 성능을 향상시킬 수 있다.In addition, since the direct mode is a coding mode in which only the residual signal is compressed and transmitted without motion information, a bit amount related to motion information can be reduced. Therefore, when the encoding apparatus 101 compresses a block, the more the skip mode or the direct modes are selected as the coding mode, the more the compression performance can be improved.
일실시예에 따르면, 부호화 장치(101)는 인트라 예측 또는 인터 예측과 같이 기존의 예측 기법에 따른 스킵 모드와 더불어 인터뷰 예측 및 시점 합성을 통해 더 많은 블록들이 스킵 모드로 압축될 수 있도록 한다. 그리고, 가상 시점의 합성 영상을 이용하는 스킵 모드를 식별하기 위한 스킵 플래그(SKIP Flag)가 필요하다. According to an embodiment, the encoding apparatus 101 allows more blocks to be compressed into the skip mode through interview prediction and view synthesis along with a skip mode according to a conventional prediction technique such as intra prediction or inter prediction. In addition, a skip flag (SKIP Flag) for identifying a skip mode using the composite image of the virtual view is required.
이 때, 현재 블록의 스킵 플래그는 현재 블록에 인접한 주변 블록들의 압축 정보를 기반으로 기존의 스킵 모드를 나타내는 SKIP Flag와 시점 합성의 스킵 모드를 나타내는 SKIP Flag 간의 위치 관계를 적응적으로 결정할 수 있다(Context-based Adaptive Skip Flag Positioning).In this case, the skip flag of the current block may adaptively determine the positional relationship between the SKIP flag indicating the existing skip mode and the SKIP Flag indicating the skip mode of view synthesis based on the compression information of neighboring blocks adjacent to the current block ( Context-based Adaptive Skip Flag Positioning.
도 2는 일실시예에 따른 복호화 장치의 세부 구성을 도시한 도면이다.2 is a diagram illustrating a detailed configuration of a decoding apparatus according to an embodiment.
도 2를 참고하면, 복호화 장치(102)는 식별 정보 추출부(201) 및 복호화부(202)를 포함할 수 있다.Referring to FIG. 2, the decryption apparatus 102 may include an identification information extractor 201 and a decoder 202.
식별 정보 추출부(201)는 먼저 현재 블록이 시점 합성 스킵 모드인지 여부를 나타내는 제1 식별 정보를 추출할 수 있다. 만약, 제1 식별 정보에 따라 현재 블록이 시점 합성 스킵 모드가 아닌 경우, 현재 블록이 일반 스킵 모드인지 여부를 나타내는 제2 식별 정보를 추출할 수 있다. 여기서, 식별 정보는 비트스트림에서 플래그로 표현될 수 있다. 예를 들어, 제1 식별 정보는 mb_vsskip_flag로 표현되고, 제2 식별 정보는 mb_skip_flag로 표현될 수 있다.The identification information extractor 201 may first extract first identification information indicating whether the current block is in a view synthesis skip mode. If the current block is not the view synthesis skip mode according to the first identification information, second identification information indicating whether the current block is the normal skip mode may be extracted. In this case, the identification information may be represented by a flag in the bitstream. For example, the first identification information may be represented by mb_vsskip_flag, and the second identification information may be represented by mb_skip_flag.
이 경우, 제1 식별 정보는 제2 식별 정보보다 먼저 위치하는 것을 의미한다. 일례로, 현재 블록의 위쪽 블록 및 왼쪽 블록이 모두 시점 합성 스킵 모드이면, 제1 식별 정보는 제2 식별 정보보다 먼저 위치할 수 있다. 반대로, 현재 블록의 위쪽 블록 및 왼쪽 블록이 적어도 하나가 일반 스킵 모드인 경우, 제1 식별 정보는 제2 식별 정보보다 뒤에 위치할 수 있다. 제1 식별 정보와 제2 식별 정보의 위치는 현재 블록의 주변 블록인 위쪽 블록 및 왼쪽 블록의 부호화 모드에 따라 적응적으로 달라질 수 있다. 여기서, 일반 스킵 모드는, 시점 합성 스킵 모드를 제외한 인트라 스킵 모드, 인터 스킵 모드 및 인터뷰 스킵 모드 중 적어도 하나를 포함할 수 있다.In this case, the first identification information means to be located before the second identification information. For example, if both the upper block and the left block of the current block are the view synthesis skip mode, the first identification information may be located before the second identification information. On the contrary, when at least one of the upper block and the left block of the current block is the normal skip mode, the first identification information may be located after the second identification information. The positions of the first identification information and the second identification information may be adaptively changed according to encoding modes of the upper block and the left block, which are neighboring blocks of the current block. Here, the general skip mode may include at least one of an intra skip mode, an inter skip mode, and an interview skip mode except the view synthesis skip mode.
복호화부(202)는 제1 식별 정보와 제2 식별 정보를 이용하여 현재 블록을 복호화할 수 있다. 만약, 제1 식별 정보에 따라 현재 블록이 시점 합성 스킵 모드에 따라 부호화된 경우, 복호화부(202)는 현재 시점의 주변 시점의 텍스쳐 정보와 깊이 정보에 따라 생성된 가상 시점의 합성 영상을 이용하여 현재 블록을 복호화할 수 있다. 그리고, 제2 식별 정보에 따라 현재 블록이 일반 스킵 모드에 따라 부호화된 경우, 복호화부(202)는 인트라 스킵 모드, 인터 스킵 모드 또는 인터뷰 스킵 모드 중 어느 하나를 판단한 후, 해당 스킵 모드를 고려하여 현재 블록을 복호화할 수 있다.The decoder 202 may decode the current block by using the first identification information and the second identification information. If the current block is encoded according to the view synthesis skip mode according to the first identification information, the decoder 202 may use the synthesized image of the virtual view generated according to the texture information and the depth information of the neighboring view of the current view. The current block can be decrypted. In addition, when the current block is encoded according to the normal skip mode according to the second identification information, the decoder 202 determines any one of an intra skip mode, an inter skip mode, or an interview skip mode, and then considers the corresponding skip mode. The current block can be decrypted.
한편, 제1 식별 정보 및 제2 식별 정보에 따라 현재 블록이 시점 합성 스킵 모드 및 일반 스킵 모드 어느 스킵 모드도 아닌 경우, 복호화부(202)는 가상 시점의 합성 영상에 대한 잔차 신호를 이용하여 현재 블록을 복호화할 수 있다.Meanwhile, when the current block is neither the view synthesis skip mode nor the normal skip mode according to the first identification information and the second identification information, the decoder 202 may use the residual signal for the synthesized image of the virtual view based on the current signal. The block can be decrypted.
도 3은 일실시예에 따른 복호화 방법을 도시한 도면이다.3 is a diagram illustrating a decoding method according to an exemplary embodiment.
단계(301)에서, 복호화 장치(102)는 먼저 현재 블록이 시점 합성 스킵 모드인지 여부를 나타내는 제1 식별 정보를 추출할 수 있다. 단계(301)에서, 만약, 제1 식별 정보에 따라 현재 블록이 시점 합성 스킵 모드가 아닌 경우, 단계(302)에서 복호화 장치(102)는 현재 블록이 일반 스킵 모드인지 여부를 나타내는 제2 식별 정보를 추출할 수 있다. 여기서, 식별 정보는 비트스트림에서 플래그로 표현될 수 있다. 예를 들어, 제1 식별 정보는 mb_vsskip_flag로 표현되고, 제2 식별 정보는 mb_skip_flag로 표현될 수 있다.In operation 301, the decoding apparatus 102 may first extract first identification information indicating whether the current block is in view synthesis skip mode. In step 301, if the current block is not the view synthesis skip mode according to the first identification information, in step 302, the decoding apparatus 102 indicates second identification information indicating whether the current block is the normal skip mode. Can be extracted. In this case, the identification information may be represented by a flag in the bitstream. For example, the first identification information may be represented by mb_vsskip_flag, and the second identification information may be represented by mb_skip_flag.
이 경우, 제1 식별 정보는 제2 식별 정보보다 먼저 위치하는 것을 의미한다. 일례로, 현재 블록의 위쪽 블록 및 왼쪽 블록이 모두 시점 합성 스킵 모드이면, 제1 식별 정보는 제2 식별 정보보다 먼저 위치할 수 있다. 반대로, 현재 블록의 위쪽 블록 및 왼쪽 블록이 적어도 하나가 일반 스킵 모드인 경우, 제1 식별 정보는 제2 식별 정보보다 뒤에 위치할 수 있다. 제1 식별 정보와 제2 식별 정보의 위치는 현재 블록의 주변 블록인 위쪽 블록 및 왼쪽 블록의 부호화 모드에 따라 적응적으로 달라질 수 있다. 여기서, 일반 스킵 모드는, 시점 합성 스킵 모드를 제외한 인트라 스킵 모드, 인터 스킵 모드 및 인터뷰 스킵 모드 중 적어도 하나를 포함할 수 있다.In this case, the first identification information means to be located before the second identification information. For example, if both the upper block and the left block of the current block are the view synthesis skip mode, the first identification information may be located before the second identification information. On the contrary, when at least one of the upper block and the left block of the current block is the normal skip mode, the first identification information may be located after the second identification information. The positions of the first identification information and the second identification information may be adaptively changed according to encoding modes of the upper block and the left block, which are neighboring blocks of the current block. Here, the general skip mode may include at least one of an intra skip mode, an inter skip mode, and an interview skip mode except the view synthesis skip mode.
단계(303)에서 복호화 장치(102)는 제1 식별 정보와 제2 식별 정보를 이용하여 현재 블록을 복호화할 수 있다. 만약, 제1 식별 정보에 따라 현재 블록이 시점 합성 스킵 모드에 따라 부호화된 경우, 복호화 장치(102)는 현재 시점의 주변 시점의 텍스쳐 정보와 깊이 정보에 따라 생성된 가상 시점의 합성 영상을 이용하여 현재 블록을 복호화할 수 있다. 그리고, 제2 식별 정보에 따라 현재 블록이 일반 스킵 모드에 따라 부호화된 경우, 복호화 장치(102)는 인트라 스킵 모드, 인터 스킵 모드 또는 인터뷰 스킵 모드 중 어느 하나를 판단한 후, 해당 스킵 모드를 고려하여 현재 블록을 복호화할 수 있다.In operation 303, the decoding apparatus 102 may decode the current block by using the first identification information and the second identification information. If the current block is encoded according to the view synthesis skip mode according to the first identification information, the decoding apparatus 102 may use the synthesized image of the virtual view generated according to the texture information and the depth information of the neighboring view of the current view. The current block can be decrypted. In addition, when the current block is encoded according to the general skip mode according to the second identification information, the decoding apparatus 102 determines any one of an intra skip mode, an inter skip mode, or an interview skip mode, and then considers the corresponding skip mode. The current block can be decrypted.
한편, 제1 식별 정보 및 제2 식별 정보에 따라 현재 블록이 시점 합성 스킵 모드 및 일반 스킵 모드 어느 스킵 모드도 아닌 경우, 복호화 장치(102)는 가상 시점의 합성 영상에 대한 잔차 신호를 이용하여 현재 블록을 복호화할 수 있다.On the other hand, when the current block is neither the view synthesis skip mode nor the normal skip mode according to the first identification information and the second identification information, the decoding apparatus 102 uses the residual signal for the synthesized image of the virtual view. The block can be decrypted.
도 4는 일실시예에 따른 다시점 비디오의 구조를 도시한 도면이다.4 is a diagram illustrating a structure of a multiview video according to an embodiment.
도 4를 참고하면, 3개 시점(Left, Center, Right)의 영상을 입력받았을 때, GOP(Group of Picture) '8'로 부호화하는 다시점 비디오 부호화 방식(Multiview Video Coding)을 나타낸다. 다시점(Multi-view) 영상을 부호화기 위해서는 기본적으로 시간(Temporal)축과 시점(View)축으로 계층적 B 영상(Hierarchical B Picture)을 적용하기 때문에 영상 간의 중복성(Redundancy)을 줄일 수 있다. Referring to FIG. 4, when a video of three viewpoints (Left, Center, Right) is received, a multiview video coding method of encoding GOP (Group of Picture) '8' is shown. In order to encode a multi-view image, a hierarchical B picture is basically applied to a temporal axis and a view axis, thereby reducing redundancy between images.
도 4에 도시된 다시점 비디오의 구조에 따라 다시점 비디오 부호화 장치(101)는 좌측 영상(Left Picture: I-view)을 먼저 부호화하고 우측 영상(Right Picture: P-view)과 중앙 영상(Center Picture: B-view)를 차례대로 부호화함으로써 3개 시점에 대응하는 영상을 부호화할 수 있다. According to the structure of a multiview video illustrated in FIG. 4, the multiview video encoding apparatus 101 first encodes a left picture (I-view), and then a right picture (P-view) and a center picture (Center). A picture corresponding to three viewpoints can be encoded by sequentially encoding Picture: B-view.
이 때, 좌측 영상은 움직임 추정(Motion Estimation)을 통해 이전 영상들로부터 비슷한 영역을 검색함으로써 시간적 중복성(Temporal Redundancy)이 제거되는 방식으로 부호화될 수 있다. 그리고, 우측 영상은 이미 부호화된 좌측 영상을 참조 영상으로 사용하여 부호화되기 때문에, 움직임 추정에 기초한 시간적 중복성과 변이 추정(Disparity Estimation)에 기초한 시점 간 중복성(View Redundancy)이 제거되는 방식으로 부호화될 수 있다. 또한, 중앙 영상은 이미 부호화된 좌측 영상과 우측 영상을 모두 참조 영상으로 이용하여 부호화되기 때문에, 양방향으로의 변이 추정에 따라 시점 간 중복성이 제거될 수 있다.In this case, the left image may be encoded in such a manner that temporal redundancy is removed by searching for similar regions from previous images through motion estimation. In addition, since the right image is encoded by using the previously encoded left image as a reference image, the right image may be encoded in such a manner that temporal redundancy based on motion estimation and view redundancy based on disparity estimation are removed. have. In addition, since the center image is encoded by using both the left image and the right image, which are already encoded, as a reference image, the inter-view redundancy may be removed according to the estimation of the shift in both directions.
도 4를 참고하면, 다시점 비디오 부호화 방식에서, 좌측 영상과 같이 다른 시점의 참조 영상을 이용하지 않고 부호화되는 영상은 I-View, 우측 영상과 같이 다른 시점의 참조 영상을 단방향으로 예측하여 부호화하는 영상은 P-View, 중앙 영상과 같이 좌우 시점의 참조 영상을 양방향으로 예측하여 부호화하는 영상은 B-View이라고 정의된다.Referring to FIG. 4, in a multi-view video encoding method, an image encoded without using a reference image of another view, such as a left image, may be encoded by predicting and encoding a reference image of another view in one direction, such as an I-View and a right image. An image that is predicted and encoded in both directions, such as a P-View and a center image, is defined as a B-View.
MVC의 프레임은 예측 구조에 따라 크게 6가지 그룹으로 분류된다. 구체적으로, 6가지 그룹은 인트라 부호화를 위한 I-시점 Anchor 프레임, 시간축간 인터 부호화를 위한 I-시점 Non-anchor 프레임, 시점간 단방향 인터 부호화를 위한 P-시점 Anchor 프레임, 시점간 단방향 인터 부호화와 시간축간 양방향 인터 부호화를 위한 P-시점 Non-anchor 프레임, 시점간 양방향 인터 부호화를 위한 B-시점 Anchor 프레임 및 시점간 양방향 인터 부호화와 시간축간 양방향 인터 부호화를 위한 B-시점 Non-anchor 프레임으로 분류될 수 있다.Frames of MVC are largely classified into six groups according to the prediction structure. Specifically, the six groups include an I-view anchor frame for intra coding, an I-view non-anchor frame for inter-time inter-coding, a P-view anchor frame for inter-view unidirectional inter coding, and a unidirectional inter-coding between views. Classified into P-view non-anchor frame for bi-directional inter-coding between time bases, B-view anchor frame for bi-directional inter-coding between views, and B-view non-anchor frame for bi-directional inter coding between time-bases. Can be.
일실시예에 따르면, 부호화 장치(101)는 부호화하고자 하는 현재 시점의 좌우 시점인 주변 시점의 제1 영상을 합성하여 가상 시점의 합성 영상을 생성하고, 합성 영상을 이용하여 현재 시점의 제2 영상을 부호화할 수 있다. 여기서, 합성에 필요한 주변 시점의 제1 영상은 이미 부호화된 영상을 의미한다.According to an embodiment, the encoding apparatus 101 generates a composite image of a virtual view by synthesizing a first image of a neighboring view, which is a left and right view of a current view, to be encoded, and using the synthesized image, a second image of the current view. Can be encoded. Here, the first image of the neighboring view required for synthesis refers to an image that is already encoded.
구체적으로, 부호화 장치(101)는 이미 부호화된 I-View를 합성하여 P-View를 부호화할 수 있다. 또는, 부호화 장치(101)는 이미 부호화된 I-View와 P-View를 합성하여 B-View를 부호화할 수 있다. 결국, 부호화 장치(101)는 주변에 위치한 이미 부호화된 영상을 합성하여 특정 영상을 부호화할 수 있다.In detail, the encoding apparatus 101 may encode the P-View by synthesizing the already encoded I-View. Alternatively, the encoding apparatus 101 may synthesize a previously encoded I-View and a P-View to encode a B-View. As a result, the encoding apparatus 101 may encode a specific image by synthesizing the already encoded image located in the vicinity.
좌측 영상처럼 다른 시점으로부터의 예측없이 압축되는 영상은 I-View로 정의된다. 우측 영상처럼 다른 시점의 영상으로부터 단방향으로 예측하면서 압축되는 영상은 P-View로 정의된다. 그리고, 중앙 영상처럼 좌우 시점의 영상들로부터 양방향 예측하면서 압축되는 영상은 B-View로 정의된다.Like the left image, an image that is compressed without prediction from another viewpoint is defined as an I-View. Like the image on the right, an image that is compressed while predicting in one direction from an image from another viewpoint is defined as a P-View. And, the image that is compressed while bidirectionally predicting from the images of left and right view like the center image is defined as B-View.
도 5는 일실시예에 따른 현재 블록을 부호화하기 위해 사용되는 참조 영상의 예시를 도시한 도면이다.FIG. 5 is a diagram illustrating an example of a reference picture used to encode a current block according to an embodiment.
부호화 장치(101)는 현재 픽쳐(501)인 현재 프레임에 위치한 현재 블록을 부호화할 때 현재 프레임의 시간상 주변에 위치한 참조 픽쳐(502, 503)와 시점상 주변에 위치한 참조 픽쳐(504, 505)를 이용할 수 있다. When encoding the current block located in the current frame, which is the current picture 501, the encoding apparatus 101 may determine reference pictures 502 and 503 located in the temporal vicinity of the current frame and reference pictures 504 and 505 located in the periphery in view. It is available.
구체적으로, 부호화 장치(101)는 참조 픽쳐(502~505)에서 현재 블록과 가장 유사한 예측 블록을 탐색하여 현재 블록과 예측 블록 간의 잔차 신호(residue)를 부호화할 수 있다. In detail, the encoding apparatus 101 may search the prediction blocks most similar to the current blocks in the reference pictures 502 ˜ 505 to encode a residual signal between the current block and the prediction block.
부호화 장치(101)는 움직임 벡터에 기초하여 예측 블록을 탐색하기 위해 현재 블록이 포함된 현재 프레임과 시간이 다른 참조 픽쳐(502, 503)를 이용할 수 있다. 그리고, 변이 벡터에 기초하여 예측 블록을 탐색하기 위해 현재 블록이 포함된 현재 프레임과 시점이 다른 참조 픽쳐(504, 505)를 이용할 수 있다.The encoding apparatus 101 may use reference pictures 502 and 503 that are different in time from the current frame including the current block to search for the prediction block based on the motion vector. In order to search for the prediction block based on the disparity vector, reference pictures 504 and 505 different from the current frame including the current block may be used.
도 6은 일실시예에 따라 시점 합성 스킵 모드와 시점 합성 다이렉트 모드를 설명하는 도면이다.6 illustrates a view synthesis skip mode and a view synthesis direct mode according to an embodiment.
시점 합성 예측은 이미 압축된 주변 시점의 영상들에 기초하여 생성된 가상 시점의 합성 영상을 이용하여 현재 블록과 가장 유사한 블록을 예측하는 기법이다. 따라서 시점 합성 예측을 수행하기 위해는 아래에서 설명할 수학식 1 내지 수학식 4를 이용하여 합성 영상(Synthesized Frame)이 필요하다. 합성 영상은 시점 합성 예측을 위한 참조 픽쳐에 대응한다.View synthesis prediction is a technique of predicting a block most similar to a current block by using a synthesized image of a virtual view generated based on images of a neighboring view that is already compressed. Therefore, in order to perform view synthesis prediction, a synthesized image is required using Equations 1 to 4 described below. The synthesized image corresponds to a reference picture for view synthesis prediction.
시점 합성 예측에 의하면, 부호화 장치(101)는 합성 영상에서 현재 블록을 예측하기 위해 영 벡터(Zero Vector)를 사용할 수 있다. 그리고 부호화 장치(101)는 현재 블록의 블록 정보를 압축하는 지 여부에 따라 코딩 모드를 스킵 모드, 다이렉트 모드 및 잔차 신호 압축 모드 (16x16, 16x8, 8x6, P8x8 모드들)로 구분할 수 있다.According to the view synthesis prediction, the encoding apparatus 101 may use a zero vector to predict the current block in the synthesized image. The encoding apparatus 101 may divide a coding mode into a skip mode, a direct mode, and a residual signal compression mode (16x16, 16x8, 8x6, and P8x8 modes) according to whether the block information of the current block is compressed.
도 7을 참고하면, 시점 합성 스킵 모드와 시점 합성 다이렉트 모드를 나타낸다. 부호화 장치(101)는 시점 합성 예측을 수행하는 경우 이미 압축된 주변 시점의 참조 영상으로부터 가상 시점인 현재 시점에 대응하는 합성 영상을 생성할 수 있다. Referring to FIG. 7, a view synthesis skip mode and a view synthesis direct mode are illustrated. When performing the view synthesis prediction, the encoding apparatus 101 may generate a synthesized image corresponding to the current view that is the virtual view from the reference image of the neighboring view that is already compressed.
시점 합성 스킵 모드는 합성 영상에서 영 벡터(Zero Vector) 가리키는 블록을 검색하여 영 벡터로 대체한다. 이 때 영 벡터는 합성 영상에서 현재 블록과 동일한 위치를 가리킨다. 그리고, 합성 영상에서 영 벡터가 가리키는 예측 블록과 현재 블록과의 차를 압축하는 것을 시점 합성 다이렉트 모드로 정의할 수 있다. The view synthesis skip mode searches for a block pointing to a zero vector in the synthesized image and replaces the block with a zero vector. In this case, the zero vector indicates the same position as the current block in the composite image. The compression of the difference between the prediction block indicated by the zero vector and the current block in the synthesized image may be defined as a view synthesis direct mode.
즉, 부호화 장치(101)는 시점 합성 스킵 모드로 설정된 현재 블록에 대해 움직임 정보뿐만 아니라 현재 블록과 예측 블록의 차인 잔차 신호 모두를 부호화하지 않는다. 그러나, 부호화 장치(101)는 시점 합성 다이렉트 모드로 설정된 현재 블록에 대해 움직임 정보만 부호화하지 않고 잔차 신호는 부호화하여 전송한다.That is, the encoding apparatus 101 does not encode not only the motion information but also the residual signal that is the difference between the current block and the prediction block, for the current block set to the view synthesis skip mode. However, the encoding apparatus 101 encodes and transmits the residual signal without encoding only motion information on the current block set in the view synthesis direct mode.
도 7은 일실시예에 따라 시점 합성의 잔차 신호 코딩 모드를 설명하는 도면이다.7 illustrates a residual signal coding mode of view synthesis according to an embodiment.
잔차 신호 코딩 모드에 따라 블록을 압축하는 경우, 부호화 장치(101)는 이미 압축된 주변 시점의 참조 영상들로부터 이하에서 설명할 수학식 1 내지 수학식 4를 이용하여 현재 시점으로 합성된 합성 영상에서 영 벡터(Zero Vector) 가리키는 예측 블록을 중심으로 설정된 탐색 영역 중 현재 블록과 가장 유사한 예측 블록들을 찾는다. 이 때 영 벡터는 합성된 영상에서 현재 블록과 동일 위치를 가리킨다. In the case of compressing a block according to the residual signal coding mode, the encoding apparatus 101 may perform the synthesis on the synthesized image synthesized from the reference images of the neighboring viewpoints that have been compressed to the current view using Equations 1 to 4 to be described below. The prediction blocks most similar to the current block are found among the search areas set around the prediction blocks indicated by the zero vector. In this case, the zero vector indicates the same position as the current block in the synthesized image.
그리고 예측 블록을 찾을 때에 탐색 영역은 16x16, 16x8, 8x6, 그리고 P8x8 모드들과 같이 다양한 블록 사이즈가 이용된다. 마지막으로 예측 블록과 현재 블록과의 차이는 예측 블록을 가리키는 벡터와 함께 압축되어 복호화 장치(102)에 전송될 수 있다.When searching for a prediction block, the search area uses various block sizes, such as 16x16, 16x8, 8x6, and P8x8 modes. Finally, the difference between the prediction block and the current block may be compressed together with a vector indicating the prediction block and transmitted to the decoding apparatus 102.
일실시예에 따르면, 부호화 장치(101)는 기존의 코딩 모드에 대해 가상 시점의 합성 영상을 이용하는 시점 합성 스킵 모드만을 추가하여 사용할 수 있다. 부호화 장치(101)는 기존의 코딩 모드에 대해 가상 시점의 합성 영상을 이용하는 시점 합성 다이렉트 모드만을 추가하여 사용할 수 있다. 부호화 장치(101)는 기존의 코딩 모드에 대해 가상 시점의 합성 영상을 이용하는 잔차 신호 코딩 모드만을 추가하여 사용할 수 있다. 여기서, 기존의 코딩 모드는 인트라 예측, 인터 예측, 인트라 스킵 모드, 인트라 다이렉트 모드, 인터 스킵 모드, 인터 다이렉트 모드, 인터뷰 스킵 모드, 인터뷰 다이렉트 모드, 인트라 예측, 인터 예측 또는 인터뷰 예측에 기초한 잔차 신호 코딩 모드를 적어도 하나를 포함할 수 있다.According to an embodiment, the encoding apparatus 101 may add and use only a view synthesis skip mode using a synthesized image of a virtual view with respect to an existing coding mode. The encoding apparatus 101 may add and use only the view synthesis direct mode using the synthesized image of the virtual view with respect to the existing coding mode. The encoding apparatus 101 may add and use only the residual signal coding mode using the synthesized image of the virtual view with respect to the existing coding mode. Here, the existing coding mode is a residual signal coding based on intra prediction, inter prediction, intra skip mode, intra direct mode, inter skip mode, inter direct mode, interview skip mode, interview direct mode, intra prediction, inter prediction, or interview prediction. It may include at least one mode.
또는, 부호화 장치(101)는 기존의 코딩 모드에 대해 가상 시점의 합성 영상을 이용하는 시점 합성 스킵 모드, 시점 합성 다이렉트 모드 또는 시점 합성의 잔차 신호 코딩 모드 중 적어도 하나를 추가하여 사용할 수 있다.Alternatively, the encoding apparatus 101 may add and use at least one of a view synthesis skip mode using a synthetic image of a virtual view, a view synthesis direct mode, or a residual signal coding mode of view synthesis with respect to an existing coding mode.
실제로, 부호화 장치(101)는 기존의 코딩 모드와 더불어 가상 시점의 합성 영상을 이용하는 시점 합성 스킵 모드, 시점 합성 다이렉트 모드 또는 시점 합성의 잔차 신호 코딩 모드 중 적어도 하나를 대상으로 가장 좋은 코딩 성능을 나타내는 현재 블록의 코딩 모드를 선택할 수 있다.In fact, the encoding apparatus 101 exhibits the best coding performance for at least one of a view synthesis skip mode, a view synthesis direct mode, or a residual signal coding mode of view synthesis using a synthetic image of a virtual view in addition to the existing coding mode. The coding mode of the current block can be selected.
일례로, 부호화 장치(101)는 현재 블록에 대해 앞서 설명한 모든 예측 기법에 따라 코딩을 수행한 후에, 코딩 결과에 기초하여 최종적인 코딩 모드를 선택할 수 있다. 이 때, 부호화 장치(101)는 율-왜곡 비용함수 값 (Rate-Distortion Cost)를 이용할 수 있다. 구체적으로, 율-왜곡 비용함수 값은 계산된 비트 발생량과 왜곡 수치에 기초하여 결졍되며, 율-왜곡 비용함수 값이 가장 작은 코딩 모드를 현재 블록에 대한 최종적인 코딩 모드를 선택할 수 있다. 율-왜곡 비용함수 값은 RD Cost =
Figure PCTKR2013003178-appb-I000001
에 의해 결정될 수 있다.
For example, the encoding apparatus 101 may perform coding according to all the above-described prediction techniques for the current block, and then select the final coding mode based on the coding result. In this case, the encoding apparatus 101 may use a rate-distortion cost value. Specifically, the rate-distortion cost function value is determined based on the calculated bit generation amount and the distortion value, and the final coding mode for the current block may be selected as the coding mode having the smallest rate-distortion cost function value. The rate-distortion cost function value is RD Cost =
Figure PCTKR2013003178-appb-I000001
Can be determined by.
여기서, J 는 예측 기법에 따라 도출된 율-왜곡 비용함수이고 SSD(Sum of Square Difference)는 현재 블록(s)과 예측 블록(r)의 차분 값들을 제곱한 값이고,
Figure PCTKR2013003178-appb-I000002
은 라그랑지안 계수이다. R은 해당 예측 기법의 코딩 모드에 기초하여 원래 영상과 이전 영상들로부터 예측된 영상의 차분으로 얻어진 신호를 부호화 했을 때 필요한 비트수이다.
Here, J is a rate-distortion cost function derived according to a prediction technique, and a sum of square difference (SSD) is a squared difference value between the current block s and the prediction block r.
Figure PCTKR2013003178-appb-I000002
Is the Lagrangian coefficient. R is the number of bits required when encoding a signal obtained by the difference between the predicted image from the original image and the previous image based on the coding mode of the prediction technique.
도 8은 일실시예에 따른 시점 합성을 설명하기 위한 도면이다.8 illustrates a view synthesis according to an embodiment.
컬러 영상과 깊이 영상에 대한 가상 시점의 합성 영상은 이미 부호화된 컬러 영상과 깊이 영상 및 카메라 파라미터 정보를 이용하여 생성될 수 있다. 구체적으로, 컬러 영상과 깊이 영상에 대한 가상 시점의 합성 영상은 하기 수학식 1~4에 따라 생성될 수 있다.The synthesized image of the virtual view for the color image and the depth image may be generated using the already encoded color image, the depth image, and camera parameter information. In detail, the synthesized image of the virtual view for the color image and the depth image may be generated according to Equations 1 to 4 below.
Figure PCTKR2013003178-appb-I000003
Figure PCTKR2013003178-appb-I000003
D는 깊이 영상에서 픽셀 위치 (x,y)의 픽셀 값을 의미한다. Znear와 Zfar는 가장 가까운 깊이 정보 및 가장 먼 깊이 정보를 각각 나타낸다. D means a pixel value of the pixel position (x, y) in the depth image. Znear and Zfar represent the nearest depth information and the farthest depth information, respectively.
부호화 장치(101)는 실제 깊이 정보 Z를 얻은 뒤 Reference 시점의 (r) 영상을 Target 시점의 영상으로 (t) 합성하기 위해 [수학식 2]와 같이 Reference 시점 영상의 픽셀 (xr,yr)를 3D world 좌표계(u,v,w)로 투영할 수 있다. 이 때, 픽셀(xr,yr)은 칼라 영상에 대한 가상 시점 합성을 할 경우에는 칼라 영상의 픽셀을, 깊이 영상에 대한 가상 시점 합성을 할 경우에는 깊이 영상의 픽셀을 나타낸다The encoding apparatus 101 obtains the actual depth information Z and then combines the pixels (xr, yr) of the reference viewpoint image as shown in [Equation 2] to synthesize (r) the image of the reference viewpoint into the image of the target viewpoint. You can project in a 3D world coordinate system (u, v, w). In this case, the pixels (xr, yr) represent pixels of the color image when the virtual view synthesis is performed on the color image, and pixels of the depth image when the virtual view synthesis is performed on the depth image.
Figure PCTKR2013003178-appb-I000004
Figure PCTKR2013003178-appb-I000004
수학식 2에서 A는 내부(intrinsic) 카메라 행렬, R는 카메라 회전(rotation) 행렬, T는 카메라 이동(translation)벡터, 그리고 Z는 깊이 정보를 나타낸다.In Equation 2, A denotes an intrinsic camera matrix, R denotes a camera rotation matrix, T denotes a camera translation vector, and Z denotes depth information.
그러면, 부호화 장치(101)는 3D World 좌표계(u,v,w)를 Target 시점의 영상 좌표계 (xt zt, yt zt, zt) 로 투영한다. 이는 수학식 3에 따라 수행된다. Then, the encoding apparatus 101 projects the 3D World coordinate system (u, v, w) into the image coordinate system (xt zt, yt zt, zt) at the target viewpoint. This is done according to equation (3).
Figure PCTKR2013003178-appb-I000005
Figure PCTKR2013003178-appb-I000005
최종적으로 Target 시점의 영상에서 대응되는 픽셀은 (xt, yt)이 된다.Finally, the corresponding pixel in the target viewpoint image becomes (x t , y t ).
이 때, 가상 시점의 합성 영상을 만들기 위해 깊이 정보(Znear/Zfar)와 카메라 파라미터 정보(R/A/T)가 부가적으로 필요하다. 따라서, 이 부가적인 정보들은 부호화 장치에서 부호화되어 비트스트림에 포함된 뒤 복호화 장치에서 복호화된다. 일례로, 부호화 장치는 가상 시점의 합성 영상을 이용하여 부호화하고자 하는 영상마다 깊이 정보 및 카메라 파라미터 정보가 동일한 지 여부에 따라 깊이 정보 및 카메라 파라미터 정보의 전송 방식을 선택적으로 결정할 수 있다. At this time, depth information (Z near / Z far ) and camera parameter information (R / A / T) are additionally required to make a composite image of the virtual view. Therefore, this additional information is encoded in the encoding apparatus, included in the bitstream, and then decoded in the decoding apparatus. For example, the encoding apparatus may selectively determine the transmission method of the depth information and the camera parameter information according to whether the depth information and the camera parameter information are the same for each image to be encoded using the composite image of the virtual view.
구체적으로, 깊이 정보 및 카메라 파라미터 정보와 같은 부가적인 정보들이 가상 시점의 합성 영상을 이용하여 부호화하고자 하는 영상마다 똑같다면 부호화 장치는 가상 시점 합성을 위해 필요한 부가적인 정보를 비트스트림을 통해 한번만 복호화 장치에 보낼 수 있다. 혹은 깊이 정보 및 카메라 파라미터 정보와 같은 부가적인 정보들이 가상 시점의 합성 영상을 이용하여 부호화하고자 하는 영상마다 똑같다면 부호화 장치는 가상 시점 합성을 위해 필요한 부가적인 정보를 비트스트림을 통해 GOP(Group of Picture) 마다 복호화 장치에 보낼 수 있다. Specifically, if additional information such as depth information and camera parameter information is the same for each image to be encoded using the synthesized image of the virtual view, the encoding apparatus may decode the additional information necessary for synthesizing the virtual view only once through the bitstream. Can send to Alternatively, if additional information, such as depth information and camera parameter information, is the same for each image to be encoded using the synthesized video of the virtual view, the encoding apparatus may display additional information necessary for synthesizing the virtual view through a bitstream of a group of picture. ) Can be sent to the decryption device for each.
그리고, 가상 시점의 합성 영상을 이용하여 부호화하고자 하는 영상마다 부가적인 정보가 다른 값을 가진다면, 부호화 장치는 가상 시점의 합성 영상을 이용하여 부호화하고자 하는 영상마다 부가적인 정보들을 비트스트림을 통해 복호화 장치에 전송할 수 있다. 혹은, 가상 시점의 합성 영상을 이용하여 부호화하고자 하는 영상마다 부가적인 정보가 다른 값을 가진다면, 부호화 장치는 가상 시점의 합성 영상을 이용하여 부호화하고자 하는 영상마다 다른 값을 가지는 부가적인 정보만 비트스트림을 통해 복호화 장치에 전송할 수 있다. If the additional information has a different value for each image to be encoded using the composite image of the virtual view, the encoding apparatus decodes the additional information for each image to be encoded using the synthesized image of the virtual view through a bitstream. To the device. Alternatively, if the additional information has a different value for each image to be encoded using the composite image of the virtual view, the encoding apparatus uses only the additional information having a different value for each image to be encoded using the composite image of the virtual view. It can be transmitted to the decoding apparatus through the stream.
또 다른 실시 예로, 만약 수평으로만 배치된 카메라들에 (1D Parallel arrangement) 의해 촬영된 컬러 영상과 깊이 영상들에 대한 가상 시점의 합성 영상은 하기 수학식 4에 따라 생성될 수도 있다.According to another embodiment, if the composite image of the virtual view for the color image and the depth image taken by the (1D Parallel arrangement) in the horizontally arranged cameras may be generated according to the following equation (4).
Figure PCTKR2013003178-appb-I000006
Figure PCTKR2013003178-appb-I000006
fx는 카메라의 수평 초점거리(horizontal focal length), tx 카메라의 x 이동값 (x translation), px는 카메라의 수평 주점 (horizontal principal point)을 의미한다. d (Disparity) 는 수평적으로 픽셀이 shift 된 거리를 알려준다. f x is the horizontal focal length of the camera, t x is the x translation of the camera, and p x is the horizontal principal point of the camera. d (Disparity) tells us the distance the pixel is shifted horizontally.
최종적으로 Reference 영상에서 픽셀 (xr, yr)는 Target 시점의 영상에서 픽셀 (xt, yt)로 d 만큼 대응(Mapping) 된다.Finally, the pixels (xr, yr) in the reference image are mapped to pixels (x t , y t ) by d in the image at the target viewpoint.
이 때, 가상 시점 영상을 만들기 위해 깊이 정보(Znear/Zfar)와 카메라 파라미터 정보(fx,,tx,px)가 부가적으로 필요하다. 따라서, 이 부가적인 정보들은 부호화 장치에서 부호화되어 비트스트림에 포함된 뒤 복호화 장치에서 복호화된다. At this time, depth information (Z near / Z far ) and camera parameter information (f x , t x , p x ) are additionally required to create a virtual view image. Therefore, this additional information is encoded in the encoding apparatus, included in the bitstream, and then decoded in the decoding apparatus.
일례로, 부호화 장치는 가상 시점의 합성 영상을 이용하여 부호화하고자 하는 영상마다 깊이 정보 및 카메라 파라미터 정보가 동일한 지 여부에 따라 깊이 정보 및 카메라 파라미터 정보의 전송 방식을 선택적으로 결정할 수 있다. For example, the encoding apparatus may selectively determine the transmission method of the depth information and the camera parameter information according to whether the depth information and the camera parameter information are the same for each image to be encoded using the composite image of the virtual view.
구체적으로, 깊이 정보 및 카메라 파라미터 정보와 같은 부가적인 정보들이 가상 시점의 합성 영상을 이용하여 부호화하고자 하는 영상마다 똑같다면 부호화 장치는 가상 시점 합성을 위해 필요한 부가적인 정보를 비트스트림을 통해 한번만 복호화 장치에 보낼 수 있다. Specifically, if additional information such as depth information and camera parameter information is the same for each image to be encoded using the synthesized image of the virtual view, the encoding apparatus may decode the additional information necessary for synthesizing the virtual view only once through the bitstream. Can send to
혹은 깊이 정보 및 카메라 파라미터 정보와 같은 부가적인 정보들이 가상 시점의 합성 영상을 이용하여 부호화하고자 하는 영상마다 똑같다면 부호화 장치는 가상 시점 합성을 위해 필요한 부가적인 정보를 비트스트림을 통해 GOP(Group of Picture) 마다 복호화 장치에 보낼 수 있다.Alternatively, if additional information, such as depth information and camera parameter information, is the same for each image to be encoded using the synthesized video of the virtual view, the encoding apparatus may display additional information necessary for synthesizing the virtual view through a bitstream of a group of picture. ) Can be sent to the decryption device for each.
그리고, 가상 시점의 합성 영상을 이용하여 부호화하고자 하는 영상마다 부가적인 정보가 다른 값을 가진다면, 부호화 장치는 가상 시점의 합성 영상을 이용하여 부호화하고자 하는 영상마다 부가적인 정보들을 비트스트림을 통해 복호화 장치에 전송할 수 있다. If the additional information has a different value for each image to be encoded using the composite image of the virtual view, the encoding apparatus decodes the additional information for each image to be encoded using the synthesized image of the virtual view through a bitstream. To the device.
혹은, 가상 시점의 합성 영상을 이용하여 부호화하고자 하는 영상마다 부가적인 정보가 다른 값을 가진다면, 부호화 장치는 가상 시점의 합성 영상을 이용하여 부호화하고자 하는 영상마다 다른 값을 가지는 부가적인 정보만 비트스트림을 통해 복호화 장치에 전송할 수 있다.Alternatively, if the additional information has a different value for each image to be encoded using the composite image of the virtual view, the encoding apparatus uses only the additional information having a different value for each image to be encoded using the composite image of the virtual view. It can be transmitted to the decoding apparatus through the stream.
다른 실시 예로, 타겟(Target) 시점의 영상에 속하는 픽셀들은 대응되는 깊이 영상들을 이용하여 참조(Reference) 시점의 영상에 속하는 픽셀 (x, y)로부터 픽셀값이 도출될 수 있다. 이 때, 대응되는 깊이 영상의 픽셀들은 카메라 파라메터 정보를 이용하여 변이 벡터로 전환될 수 있다. 전환된 변이 벡터는 타겟 시점의 영상에 속하는 픽셀이 참조 시점의 영상에 속하는 픽셀들 중 어떤 픽셀에 대응되는지 나타낼 수 있다.In another embodiment, pixel values belonging to an image of a target view may be derived from pixels (x, y) belonging to an image of a reference view using corresponding depth images. In this case, the pixels of the corresponding depth image may be converted into a disparity vector using camera parameter information. The converted disparity vector may indicate which pixel among pixels belonging to an image of a reference view corresponds to a pixel.
만약 참조 시점의 영상에서 대응되는 픽셀 (x,y) 이 정수 위치가 (Integer-Pel) 아니라면, 부호화 장치(101)는 픽셀(x,y)의 주변에 존재하는 정수 위치의 픽셀값을 이용하여 픽셀(x,y)의 픽셀값을 보간 (Interpolation) 할 수 있다. 하지만, 정수 위치에 대응하는 픽셀의 픽셀값들이 동일하다면, 부호화 장치(101)는 보간하지 않고 바로 정수 위치에 대응하는 픽셀의 픽셀값을 이용할 수 있다.  If the corresponding pixel (x, y) in the image at the reference viewpoint is not an integer position (Integer-Pel), the encoding apparatus 101 uses the pixel value of the integer position existing around the pixel (x, y). The pixel values of the pixels (x, y) may be interpolated. However, if the pixel values of the pixels corresponding to the integer positions are the same, the encoding apparatus 101 may use the pixel values of the pixels corresponding to the integer positions without interpolation.
다른 예로, 정수 위치에 대응하는 픽셀의 픽셀값들 간에 차이가 미리 설정된 차이보다 작은 경우, 부호화 장치(101)는 보간하지 않고 픽셀(x,y)의 주변에 위치한 정수 위치에 대응하는 픽셀의 픽셀값들 중 하나를 사용할 수 있다.As another example, when the difference between the pixel values of the pixel corresponding to the integer position is smaller than the preset difference, the encoding apparatus 101 does not interpolate and the pixel of the pixel corresponding to the integer position positioned around the pixel (x, y) You can use one of the values.
만약 참조 시점의 영상에서 대응되는 픽셀 (x,y) 이 정수 위치(Integer-Pel)가 아닌 1/2 위치(Half-Pel)를 나타낸다면, 부호화 장치(101)는 1/2 위치에 대응하는 픽셀에서 왼쪽의 정수 위치에 대응하는 픽셀값(Left Pixel)과 오른쪽의 정수 위치에 대응하는 픽셀값(Right Pixel)을 비교할 수 있다. 비교 결과, 왼쪽의 정수 위치에 대응하는 픽셀값과 오른쪽의 정수 위치에 대응하는 픽셀값이 서로 동일하다면, 부호화 장치(101)는 1/2위치에 대응하는 픽셀값을 왼쪽의 정수 위치에 대응하는 픽셀값 또는 오른쪽의 정수 위치에 대응하는 픽셀값 중 어느 하나의 픽셀값으로 할당한다.  If the corresponding pixel (x, y) in the image of the reference view indicates the half position (Half-Pel) instead of the integer position (Integer-Pel), the encoding apparatus 101 corresponds to the half position. A pixel value corresponding to an integer position on the left side of the pixel and a pixel value corresponding to an integer position on the right side may be compared. As a result of the comparison, if the pixel value corresponding to the integer position on the left and the pixel value corresponding to the integer position on the right are the same, the encoding apparatus 101 corresponds to the integer value on the left of the pixel value corresponding to 1/2 position. The pixel value is assigned to either the pixel value or the pixel value corresponding to the right integer position.
비교 결과, 왼쪽의 정수 위치에 대응하는 픽셀값과 오른쪽의 정수 위치에 대응하는 픽셀값이 서로 다르다면, 부호화 장치(101)는 1/2위치에 대응하는 픽셀값을 왼쪽의 정수 위치에 대응하는 픽셀값과 오른쪽의 정수 위치에 대응하는 픽셀값을 보간한 후 보간값으로 할당할 수 있다.As a result of the comparison, if the pixel value corresponding to the left integer position and the pixel value corresponding to the right integer position are different from each other, the encoding device 101 converts the pixel value corresponding to the 1/2 position to the left integer position. After interpolating the pixel value and the pixel value corresponding to the integer position on the right side, the interpolation value may be assigned.
또한, 만약 참조 시점의 영상에서 대응되는 픽셀 (x,y) 이 정수 위치 (Integer-Pel)가 아닌 1/4 위치(Quarter-Pel)를 나타낸다면, 부호화 장치(101)는 1/4 위치에 대응하는 픽셀에서 왼쪽의 정수 위치에 대응하는 픽셀값과 오른쪽의 정수 위치에 대응하는 픽셀값을 비교할 수 있다.Also, if the corresponding pixel (x, y) in the image of the reference view indicates the quarter position (Quarter-Pel) rather than the integer position (Integer-Pel), the encoding apparatus 101 is located at the 1/4 position. A pixel value corresponding to an integer position on the left side and a pixel value corresponding to an integer position on the right side may be compared with the corresponding pixel.
비교 결과, 왼쪽의 정수 위치에 대응하는 픽셀값과 오른쪽의 정수 위치에 대응하는 픽셀값이 서로 동일하다면, 부호화 장치(101)는 1/4위치에 대응하는 픽셀값을 왼쪽의 정수 위치에 대응하는 픽셀값 또는 오른쪽의 정수 위치에 대응하는 픽셀값 중 어느 하나의 픽셀값으로 할당한다. As a result of the comparison, if the pixel value corresponding to the integer position on the left and the pixel value corresponding to the integer position on the right are the same, the encoding apparatus 101 matches the pixel value corresponding to the quarter position to the integer position on the left. The pixel value is assigned to either the pixel value or the pixel value corresponding to the right integer position.
비교 결과, 왼쪽의 정수 위치에 대응하는 픽셀값과 오른쪽의 정수 위치에 대응하는 픽셀값이 서로 다르다면, 1/2위치에 대응하는 픽셀값을 왼쪽의 정수 위치에 대응하는 픽셀값과 오른쪽의 정수 위치에 대응하는 픽셀값을 보간한 후 보간값으로 할당할 수 있다.As a result of the comparison, if the pixel value corresponding to the left integer position and the pixel value corresponding to the right integer position are different from each other, the pixel value corresponding to the 1/2 position and the pixel value corresponding to the left integer position and the right integer An interpolation value may be assigned after interpolating a pixel value corresponding to a position.
그리고, 만약 1/4 위치에 대응하는 픽셀값이 왼쪽의 정수 위치에 대응하는 픽셀값과 유사한 경우, 1/4 위치의 왼쪽 정수 위치 값과 1/2 위치의 보간값을 비교할 수 있다. 비교 결과, 1/4 위치의 왼쪽 정수 위치 값과 1/2 위치의 보간값이 서로 동일한 경우, 부호화 장치(101)는 왼쪽 정수 위치 값 혹은 1/2 위치의 보간값을 할당할 수 있다. 만약, 비교 결과, 1/4 위치의 왼쪽 정수 위치 값과 1/2 위치의 보간값이 서로 다른 경우, 부호화 장치(101)는 왼쪽 정수 위치 값과 1/2 위치의 보간값을 다시 보간하여 1/4 위치의 보간값으로 사용한다. If the pixel value corresponding to the 1/4 position is similar to the pixel value corresponding to the left integer position, the left integer position value of the 1/4 position and the interpolation value of the 1/2 position may be compared. As a result of the comparison, when the left integer position value at the 1/4 position and the interpolation value at the 1/2 position are the same as each other, the encoding apparatus 101 may allocate the left integer position value or the interpolation value at the 1/2 position. If, as a result of the comparison, the left integer position value at the 1/4 position and the interpolation value at the 1/2 position are different from each other, the encoding apparatus 101 interpolates the left integer position value and the interpolation value at the 1/2 position again to 1 Used as an interpolation value at the / 4 position.
만약 1/4 위치에 대응하는 픽셀값이 오른쪽의 정수 위치에 가깝다면, 부호화 장치(101)는 1/4 위치의 오른쪽 정수 위치 값과 1/2 위치의 보간값을 비교할 수 있다. 비교 결과, 1/4 위치의 오른쪽 정수 위치 값과 1/2 위치의 보간값이 서로 동일한 경우, 부호화 장치(101)는 오른쪽 정수 위치 값 혹은 1/2 위치의 보간값을 할당할 수 있다. 그리고, 1/4 위치의 오른쪽 정수 위치 값과 1/2 위치의 보간값이 서로 다른 경우, 부호화 장치(101)는 오른쪽 정수 위치 값과 1/2 위치의 보간값을 다시 보간하여 1/4 위치의 보간값으로 사용한다.If the pixel value corresponding to the 1/4 position is close to the right integer position, the encoding apparatus 101 may compare the right integer position value of the 1/4 position with the interpolation value of the 1/2 position. As a result of the comparison, when the right integer position value at the 1/4 position and the interpolation value at the 1/2 position are the same as each other, the encoding apparatus 101 may allocate the right integer position value or the interpolation value at the 1/2 position. When the right integer position value at the 1/4 position and the interpolation value at the 1/2 position are different from each other, the encoding device 101 interpolates the right integer position value and the interpolation value at the 1/2 position again and the 1/4 position. Used as an interpolation value of.
도 9는 일실시예에 따른 가상 시점의 합성 영상을 이용하는 부호화 과정을 설명하기 위한 도면이다.9 is a diagram for describing an encoding process using a synthetic image of a virtual view, according to an exemplary embodiment.
3D 비디오를 구성하는 컬러 영상과 깊이 영상을 따로 부호화 및 복호화될 수 있다. 도 9를 참고하면, 부호화 과정은 원래 영상과 블록 기반의 예측을 통해 도출된 예측 영상 간의 잔차 신호를 구한 후, 잔차 신호를 변환 및 양자화하는 과정으로 이루어진다. 그리고, 다음 영상들의 정확한 예측을 위해 디블록킹 필터가 수행된다.The color image and the depth image constituting the 3D video may be separately encoded and decoded. Referring to FIG. 9, the encoding process is performed by obtaining a residual signal between an original image and a prediction image derived through block-based prediction, and then transforming and quantizing the residual signal. Then, a deblocking filter is performed to accurately predict the next images.
잔차 신호의 양이 적을수록 부호화에 필요한 비트수가 적기 대문에, 예측 영상이 원래 영상과 얼마나 비슷한지 여부가 매우 중요하다. 일실시예에 의하면, 블록 예측을 위해, 인트라 예측(Intra Prediction), 인터 예측(Inter Prediction), 인터뷰 예측(Inter-View Prediction)에 기초한 스킵 모드, 다이렉트 모드와 잔차 신호 코딩 모드뿐만 아니라, 시점 합성 스킵 모드, 시점 합성 다이렉트 모드, 및 시점 합성의 잔차 신호 코딩 모드가 사용될 수 있다.Since the smaller the residual signal, the fewer bits are required for encoding, how important the predicted image is to the original image is very important. According to an embodiment, for block prediction, a view synthesis as well as a skip mode, a direct mode and a residual signal coding mode based on intra prediction, inter prediction, and inter-view prediction Skip mode, view synthesis direct mode, and residual signal coding mode of view synthesis may be used.
도 9를 참고하면, 가상 시점의 합성 영상을 생성하기 위해 가상 시점에서 합성하기 위한 추가 구성이 필요할 수 있다. 도 9를 참고하면, 현재 시점의 컬러 영상에 대한 합성 영상을 생성하기 위해서, 부호화 장치(101)는 이미 부호화된 주변 시점의 컬러 영상과 깊이 영상을 이용하여 현재 시점의 컬러 영상에 대한 합성 영상을 생성할 수 있다. 그리고, 현재 시점의 깊이 영상에 대한 합성 영상을 생성하기 위해서, 부호화 장치(101)는 이미 부호화된 주변 시점의 깊이 영상을 이용하여 현재 시점의 깊이 영상에 대한 합성 영상을 생성할 수 있다.Referring to FIG. 9, an additional configuration for synthesizing at the virtual view may be required to generate a synthesized image of the virtual view. Referring to FIG. 9, in order to generate a composite image of a color image of the current view, the encoding apparatus 101 may generate a synthesized image of the color image of the current view by using the color image and the depth image of the neighboring view that are already encoded. Can be generated. In order to generate the composite image of the depth image of the current view, the encoding apparatus 101 may generate the composite image of the depth image of the current view using the depth image of the neighboring view that is already encoded.
도 10은 일실시예에 따른 가상 시점의 합성 영상을 이용하는 복호화 과정을 설명하기 위한 도면이다.10 is a diagram for describing a decoding process using a synthetic image of a virtual view, according to an exemplary embodiment.
도 10의 복호화 장치(102)는 도 9의 부호화 장치(101)와 실질적으로 동일한 동작을 수행하기 때문에, 구체적인 설명은 생략하기로 한다.Since the decoding apparatus 102 of FIG. 10 performs substantially the same operation as the encoding apparatus 101 of FIG. 9, a detailed description thereof will be omitted.
도 11은 일실시예에 따른 매크로블록을 위한 비트스트림 구조를 도시한 도면이다. 도 11은 시점 합성 스킵 모드를 식별하는 플래그의 위치를 설명한다.11 illustrates a bitstream structure for a macroblock according to an embodiment. 11 illustrates the position of a flag that identifies the view synthesis skip mode.
도 11은 일반 일반 스킵 모드와 시점 합성 시점 합성 스킵 모드의 플래그들을 구분하기 위해 제안한 매크로블록 레벨의 Syntax 를 도시한다. 일반 스킵 모드는 시점 합성 스킵 모드를 제외한 나머지 스킵 모드를 의미하며, 예를 들어, 인트라 스킵 모드, 인터 스킵 모드 또는 인터뷰 스킵 모드를 포함할 수 있다.FIG. 11 illustrates a proposed macroblock level Syntax for distinguishing flags of a general normal skip mode and a view synthesis view synthesis skip mode. The normal skip mode means a skip mode other than the view synthesis skip mode, and may include, for example, an intra skip mode, an inter skip mode, or an interview skip mode.
이하에서, 일반 스킵 모드와 시점 합성 시점 합성 스킵 모드는 플래그 위치를 구분하는 First Skip Flag (first_skip_flag) 와 Second Skip Flag (second_skip_flag)에 대응할 수 있다. 여기서, first_skip_flag는 second_skip_flag보다 비트스트림에서 먼저 나타날 수 있다. 이하에서, mb_skip_flag는 현재 블록이 시점 합성 스킵 모드가 아닌 일반 스킵 모드인지를 나타내는 플래그를 의미하고, mb_vsskip_flag는 현재 블록이 시점 합성 스킵 모드인지를 나타내는 플래그를 의미할 수 있다.Hereinafter, the normal skip mode and the view synthesis view synthesis skip mode may correspond to First Skip Flag (first_skip_flag) and Second Skip Flag (second_skip_flag) for distinguishing flag positions. Here, first_skip_flag may appear earlier in the bitstream than second_skip_flag. Hereinafter, mb_skip_flag may mean a flag indicating whether the current block is a normal skip mode instead of a view synthesis skip mode, and mb_vsskip_flag may mean a flag indicating whether the current block is a view synthesis skip mode.
<CASE 1><CASE 1>
일례로, CASE 1는 first_skip_flag가 mb_skip_flag이고, second_skip_flag가 mb_vsskip_flag인 경우를 의미한다. 그러면, mb_vsskip_flag는 mb_skip_flag 뒤에 위치된다. For example, CASE 1 refers to a case where first_skip_flag is mb_skip_flag and second_skip_flag is mb_vsskip_flag. Then, mb_vsskip_flag is located after mb_skip_flag.
만약, 현재 블록의 코딩 모드가 일반 스킵 모드이면, 부호화 장치(101)는 mb_skip_flag를 1로 할당하여 복호화 장치(102)에 전송할 수 있다. 예를 들어, 부호화 장치(101)는 mb_skip_flag=1만 복호화 장치(102)에 보내고 다른 부호화 정보는 보내지 않을 수 있다. 만약 현재 블록의 코딩 모드가 시점 합성 스킵 모드이면, 부호화 장치(101)는 mb_skip_flag는 0으로 할당하고 mb_vsskip_flag를 1로 할당하여 복호화 장치(102)에 전송할 수 있다. 예를 들어, 부호화 장치(101)는 mb_skip_flag=0과 mb_vsskip_flag=1만 복호화 장치(102)에 보내고 다른 부호화 정보는 보내지 않을 수 있다.If the coding mode of the current block is the normal skip mode, the encoding apparatus 101 may allocate mb_skip_flag to 1 and transmit the mb_skip_flag to the decoding apparatus 102. For example, the encoding apparatus 101 may send only mb_skip_flag = 1 to the decoding apparatus 102 and may not transmit other encoding information. If the coding mode of the current block is the view synthesis skip mode, the encoding apparatus 101 may allocate mb_skip_flag to 0 and allocate mb_vsskip_flag to 1 and transmit the same to the decoding apparatus 102. For example, the encoding apparatus 101 may transmit only mb_skip_flag = 0 and mb_vsskip_flag = 1 to the decoding apparatus 102, and may not transmit other encoding information.
만약 현재 블록의 코딩 모드가 일반 스킵 모드와 시점 합성 스킵 모드가 아닌 경우, 부호화 장치(101)는 현재 블록과 예측 블록 간의 차이인 잔차 신호를 압축한 코딩 모드를 현재 블록의 코딩 모드로 결정한 것을 의미한다. 그러면, 부호화 장치(101)는 mb_skip_flag와 mb_vsskip_flag를 0으로 전송한 뒤 코딩 모드의 종류를 나타내는 비트 스트림과 현재 블록과 관련된 움직임 정보 및 잔차 신호에 대한 비트스트림을 복호화 장치(102)에 전송할 수 있다. If the coding mode of the current block is not the normal skip mode and the view synthesis skip mode, the encoding apparatus 101 means that the coding mode of compressing the residual signal, which is a difference between the current block and the prediction block, is determined as the coding mode of the current block. do. Then, the encoding apparatus 101 may transmit the mb_skip_flag and the mb_vsskip_flag to 0, and then transmit the bitstream indicating the type of coding mode, the bitstream about the motion information and the residual signal related to the current block, to the decoding apparatus 102.
<CASE 2><CASE 2>
다른 일례로, CASE 2는 first_skip_flag가 mb_vsskip_flag이고, second_skip_flag가 mb_skip_flag인 경우를 의미한다. 그러면, mb_skip_flag는 mb_vsskip_flag 뒤에 위치된다. As another example, CASE 2 refers to a case where first_skip_flag is mb_vsskip_flag and second_skip_flag is mb_skip_flag. Mb_skip_flag is then located after mb_vsskip_flag.
만약, 현재 블록의 코딩 모드가 시점 합성 스킵 모드이면, 부호화 장치(101)는 mb_vsskip_flag를 1로 할당할 수 있다. 예를 들어, 부호화 장치(101)는 mb_vsskip_flag=1만 복호화 장치(102)에 보내고 다른 부호화 정보는 보내지 않을 수 있다. 만약 현재 블록의 코딩 모드가 일반 스킵 모드이면, 부호화 장치(101)는 mb_vsskip_flag는 0으로 할당하고, mb_skip_flag를 1로 할당할 수 있다. 예를 들어, 부호화 장치(101)는 mb_vsskip_flag=0, mb_skip_flag=1만 복호화 장치(102)에 보내고 다른 부호화 정보는 보내지 않을 수 있다. If the coding mode of the current block is the view synthesis skip mode, the encoding apparatus 101 may allocate mb_vsskip_flag to 1. For example, the encoding apparatus 101 may send only mb_vsskip_flag = 1 to the decoding apparatus 102 and may not transmit other encoding information. If the coding mode of the current block is the normal skip mode, the encoding apparatus 101 may allocate mb_vsskip_flag to 0 and assign mb_skip_flag to 1. For example, the encoding apparatus 101 may send only the mb_vsskip_flag = 0 and mb_skip_flag = 1 to the decoding apparatus 102 and may not send other encoding information.
만약 현재 블록의 모드가 일반 스킵 모드 및 시점 합성 스킵 모드가 아니라면, 현재 블록은 잔차 신호 압축 모드이므로, 부호화 장치(101)는 mb_vsskip_flag와 mb_skip_flag를 0으로 할당한 후 코딩 모드의 종류에 대한 비트 스트림과 현재 블록의 움직임 정보 및 잔차 신호에 대한 비트 스트림을 복호화 장치(102)에 전송한다. If the mode of the current block is not the normal skip mode and the view synthesis skip mode, since the current block is the residual signal compression mode, the encoding apparatus 101 allocates mb_vsskip_flag and mb_skip_flag to 0 and then selects a bit stream for the type of coding mode. The bit stream of the motion information and the residual signal of the current block is transmitted to the decoding apparatus 102.
한편, 부호화 장치(101)는 현재 블록에 인접한 주변 블록들의 압축 정보를 이용하여 적응적으로 (Context-based) first_skip_flag와 second_skip_flag를 설정할 수 있다(Context-based Adaptive Skip Flag Positioning :CASFP). 여기서, 압축 정보는 주변 블록의 코딩 모드 정보, 움직임 정보, CBP(Code Block Pattern) 정보, 혹은 Texture 정보 등을 포함할 수 있다.Meanwhile, the encoding apparatus 101 may adaptively set (Context-based) first_skip_flag and second_skip_flag by using compression information of neighboring blocks adjacent to the current block (Context-based Adaptive Skip Flag Positioning (CASFP)). Here, the compression information may include coding mode information, motion information, code block pattern (CBP) information, texture information, etc. of neighboring blocks.
부호화 장치(101)는 주변 블록의 압축 정보에 기초하여 first_skip_flag를 mb_vsskip_flag로 설정하고, second_skip_flag를 mb_skip_flag로 설정할 수 있다.The encoding apparatus 101 may set first_skip_flag to mb_vsskip_flag and second_skip_flag to mb_skip_flag based on the compression information of the neighboring block.
일례로, 현재 블록의 위쪽 블록(above block)과 왼쪽 블록(left block)이 모두 시점 합성 스킵 모드인 경우, 부호화 장치(101)는 first_skip_flag를 mb_vsskip_flag로 설정하고, second_skip_flag를 mb_skip_flag로 설정할 수 있다. 다시 말해서, 현재 블록의 위쪽 블록(above block)과 왼쪽 블록(left block)이 모두 시점 합성 스킵 모드인 경우, mb_vsskip_flag가 mb_skip_flag보다 먼저 위치할 수 있다. For example, when both the upper block and the left block of the current block are in the view synthesis skip mode, the encoding apparatus 101 may set first_skip_flag to mb_vsskip_flag and set second_skip_flag to mb_skip_flag. In other words, when both the above block and the left block of the current block are in view synthesis skip mode, mb_vsskip_flag may be located before mb_skip_flag.
그리고 현재 블록의 위쪽 블록(above block)과 왼쪽 블록(left block)이 모두 시점 합성 스킵 모드가 아닌 경우, 부호화 장치(101)는 first_skip_flag를 mb_skip_flag로 설정하고, second_skip_flag를 mb_vsskip_flag로 설정할 수 있다. 다시 말해서, 현재 블록의 위쪽 블록(above block)과 왼쪽 블록(left block) 중 어느 하나만 시점 합성 스킵 모드이거나 또는 현재 블록의 위쪽 블록(above block)과 왼쪽 블록(left block) 모두 일반 스킵 모드인 경우, 부호화 장치(101)는 first_skip_flag를 mb_skip_flag로 설정하고, second_skip_flag를 mb_vsskip_flag로 설정할 수 있다.If both the upper block and the left block of the current block are not in the view synthesis skip mode, the encoding apparatus 101 may set first_skip_flag to mb_skip_flag and set second_skip_flag to mb_vsskip_flag. In other words, when only one of the above block and the left block of the current block is in the view synthesis skip mode, or both the above block and the left block of the current block are in the normal skip mode. The encoding apparatus 101 may set first_skip_flag to mb_skip_flag and second_skip_flag to mb_vsskip_flag.
다른 일례로, 현재 블록의 위쪽 블록과 왼쪽 블록 중 어느 하나가 시점 합성 스킵 모드인 경우, 부호화 장치(101)는 first_skip_flag를 mb_vsskip_flag로 설정하고, second_skip_flag를 mb_skip_flag로 설정할 수 있다. 그리고, 현재 블록의 위쪽 블록과 왼쪽 블록이 전부 시점 합성 스킵 모드가 아닌 경우, 즉 현재 블록의 위쪽 블록과 왼쪽 블록이 전부 일반 스킵 모드인 경우, 부호화 장치(101)는 first_skip_flag를 mb_skip_flag로 설정하고, second_skip_flag를 mb_vsskip_flag로 설정할 수 있다.As another example, when one of the upper block and the left block of the current block is the view synthesis skip mode, the encoding apparatus 101 may set first_skip_flag to mb_vsskip_flag and set second_skip_flag to mb_skip_flag. If the upper block and the left block of the current block are not all of the view synthesis skip mode, that is, if the upper and left blocks of the current block are all of the normal skip mode, the encoding apparatus 101 sets first_skip_flag to mb_skip_flag, second_skip_flag may be set to mb_vsskip_flag.
부호화 장치(101)는 주변 블록의 압축 정보에 기초하여 first_skip_flag를 mb_skip_flag로 설정하고 second_skip_flag를 mb_vsskip_flag로 설정할 수 있다.The encoding apparatus 101 may set first_skip_flag to mb_skip_flag and second_skip_flag to mb_vsskip_flag based on the compression information of the neighboring block.
일례로, 현재 블록의 위쪽 블록(above block)과 왼쪽 블록(left block)이 모두 일반 스킵 모드인 경우, 부호화 장치(101)는 first_skip_flag를 mb_skip_flag로 설정하고, second_skip_flag를 mb_vsskip_flag로 설정할 수 있다. 다시 말해서, 현재 블록의 위쪽 블록(above block)과 왼쪽 블록(left block)이 모두 일반 스킵 모드인 경우, mb_skip_flag가 mb_vsskip_flag보다 먼저 위치할 수 있다. For example, when both the upper block and the left block of the current block are in the normal skip mode, the encoding apparatus 101 may set first_skip_flag to mb_skip_flag and set second_skip_flag to mb_vsskip_flag. In other words, when both the upper block and the left block of the current block are in the normal skip mode, mb_skip_flag may be located before mb_vsskip_flag.
그리고 현재 블록의 위쪽 블록(above block)과 왼쪽 블록(left block)이 모두 일반 스킵 모드가 아닌 경우, 부호화 장치(101)는 first_skip_flag를 mb_vsskip_flag로 설정하고, second_skip_flag를 mb_skip_flag로 설정할 수 있다. 다시 말해서, 현재 블록의 위쪽 블록(above block)과 왼쪽 블록(left block) 중 어느 하나만 일반 스킵 모드이거나 또는 현재 블록의 위쪽 블록(above block)과 왼쪽 블록(left block) 모두 시점 합성 스킵 모드인 경우, 부호화 장치(101)는 first_skip_flag를 mb_vsskip_flag로 설정하고, second_skip_flag를 mb_skip_flag로 설정할 수 있다.If both the upper block and the left block of the current block are not in the normal skip mode, the encoding apparatus 101 may set first_skip_flag to mb_vsskip_flag and set second_skip_flag to mb_skip_flag. In other words, when only one of the above block and the left block of the current block is in the normal skip mode, or both the above block and the left block of the current block are in view synthesis skip mode. The encoding apparatus 101 may set first_skip_flag to mb_vsskip_flag and set second_skip_flag to mb_skip_flag.
다른 일례로, 현재 블록의 위쪽 블록과 왼쪽 블록 중 어느 하나가 일반 스킵 모드인 경우, 부호화 장치(101)는 first_skip_flag를 mb_skip_flag로 설정하고, second_skip_flag를 mb_vsskip_flag로 설정할 수 있다. 그리고, 현재 블록의 위쪽 블록과 왼쪽 블록이 전부 일반 스킵 모드가 아닌 경우, 즉 현재 블록의 위쪽 블록과 왼쪽 블록이 전부 시점 합성 스킵 모드인 경우, 부호화 장치(101)는 first_skip_flag를 mb_vsskip_flag로 설정하고, second_skip_flag를 mb_skip_flag로 설정할 수 있다.As another example, when one of the upper block and the left block of the current block is the normal skip mode, the encoding apparatus 101 may set first_skip_flag to mb_skip_flag and second_skip_flag to mb_vsskip_flag. When the upper block and the left block of the current block are not all in the normal skip mode, that is, when the upper block and the left block of the current block are all in the view synthesis skip mode, the encoding apparatus 101 sets first_skip_flag to mb_vsskip_flag, second_skip_flag may be set to mb_skip_flag.
도 11의 설명은 일반 스킵 모드에 시점 합성 스킵 모드가 추가되었을 때를 설명하고 있으나, 일반 스킵 모드에 시점 합성 스킵 모드가 아닌 새로운 형태의 다른 스킵 모드가 포함되는 경우에도 동일하게 설명될 수 있다. Although the description of FIG. 11 illustrates a case in which the view synthesis skip mode is added to the normal skip mode, the same description may also be applied to the case where the general skip mode includes another skip mode of a new type other than the view synthesis skip mode.
한편, 일반 스킵 모드가 인트라 스킵 모드, 인터 스킵 모드이고, 시점 합성 스킵 모드가 아닌 인터뷰 스킵 모드가 새로운 형태의 스킵 모드로 추가된 경우에도 도 11의 설명이 적용될 수 있다. 예를 들어, 현재 블록의 왼쪽 블록과 위쪽 블록이 모두 인터뷰 스킵 모드인 경우, first_skip_flag는 인터뷰 스킵 모드를 나타내는 플래그로 설정되고, second_skip_flag는 인트라 스킵 모드 또는 인터 스킵 모드를 나타내는 플래그로 설정될 수 있다.Meanwhile, even when the general skip mode is an intra skip mode and an inter skip mode, and the interview skip mode other than the view synthesis skip mode is added as a new type of skip mode, the description of FIG. 11 may be applied. For example, when both the left block and the upper block of the current block are in the interview skip mode, first_skip_flag may be set as a flag indicating an interview skip mode, and second_skip_flag may be set as a flag indicating an intra skip mode or an inter skip mode.
다시 말해서, 기존에 다양한 형태의 일반 스킵 모드가 존재하고, 부호화 방식의 발전에 따라 신규 스킵 모드가 정의된다고 가정한다. 현재 블록의 인접한 주변 블록의 부호화 모드에 따라 일반 스킵 모드를 나타내는 식별 정보와 신규 스킵 모드를 나타내는 식별 정보 간의 위치가 결정될 수 있다. 구체적으로, 주변 블록의 부호화 모드가 전부 신규 스킵 모드인 경우, 현재 블록에 대해 신규 스킵 모드를 나타내는 식별 정보가 일반 스킵 모드를 나타내는 식별 정보보다 먼저 위치하도록 설정될 수 있다.In other words, it is assumed that various types of general skip modes exist and a new skip mode is defined according to the development of an encoding scheme. The position between the identification information indicating the normal skip mode and the identification information indicating the new skip mode may be determined according to the encoding mode of the adjacent neighboring block of the current block. In detail, when the encoding modes of the neighboring blocks are all new skip modes, the identification information indicating the new skip mode may be set before the identification information indicating the normal skip mode for the current block.
도 12는 다른 일실시예에 따른 매크로블록을 위한 비트스트림 구조를 도시한 도면이다.12 illustrates a bitstream structure for a macroblock according to another embodiment.
도 12는 시점 합성 다이렉트 모드를 식별하는 플래그의 위치를 설명한다. 다이렉트 모드는 스킵 모드와 동일하게 움직임 정보를 포함하지 않지만 잔차 신호를 부호화하는 코딩 모드를 의미한다. 따라서, 현재 블록이 다이렉트 모드인 경우, 부호화 장치(101)는 일반 다이렉트 모드와 시점 합성 다이렉트 모드를 구분하기 위해 플래그를 사용할 수 있다.12 illustrates the position of a flag identifying the viewpoint synthesis direct mode. The direct mode, like the skip mode, does not include motion information but refers to a coding mode for encoding the residual signal. Therefore, when the current block is in the direct mode, the encoding apparatus 101 may use a flag to distinguish between the general direct mode and the view synthesis direct mode.
direct_mode_type_flag는 비트스트림에서 모드 타입 (mb_type) 뒤에 위치할 수 있다. 만약 복호화 장치(102)에 전송된 direct_mode_type_flag가 0인 경우, 일반 다이렉트 모드를 의미하고, direct_mode_type_flag가 1인 경우 시점 합성 다이렉트 모드를 의미한다. 실시예에 따라 1과 0은 서로 바뀔 수 있다.direct_mode_type_flag may be located after the mode type (mb_type) in the bitstream. If the direct_mode_type_flag transmitted to the decoding device 102 is 0, it means a general direct mode. If the direct_mode_type_flag is 1, it means a view synthesis direct mode. In some embodiments, 1 and 0 may be interchanged.
도 12에서 first_skip_flag는 mb_skip_flag이고, second_skip_flag는 mb_vsskip_flag일 수 있다. 또는, first_skip_flag는 mb_vsskip_flag이고, second_skip_flag는 mb_skip_flag일 수 있다.In FIG. 12, first_skip_flag may be mb_skip_flag, and second_skip_flag may be mb_vsskip_flag. Alternatively, first_skip_flag may be mb_vsskip_flag, and second_skip_flag may be mb_skip_flag.
일례로 현재 블록이 시점 합성 다이렉트 모드인 경우, 부호화 장치(101)는 first_skip_flag를 0으로 설정하고, second_skip_flag를 0으로 설정할 수 있다. 그리고, 부호화 장치(101)는 현재 블록이 다이렉트 모드라는 것을 나타내는 비트를 할당하고 direct_mode_type_flag를 1로 설정한 후 잔차신호를 압축한 비트와 함께 복호화 장치(102)에 전송할 수 있다.For example, when the current block is in the view synthesis direct mode, the encoding apparatus 101 may set first_skip_flag to 0 and set second_skip_flag to 0. FIG. In addition, the encoding apparatus 101 may allocate a bit indicating that the current block is a direct mode, set direct_mode_type_flag to 1, and transmit the bit to the decoding apparatus 102 together with the compressed bit.
일례로 현재 블록이 일반 다이렉트 모드인 경우, 부호화 장치(101)는 first_skip_flag을 0으로 설정하고, second_skip_flag를 0으로 설정할 수 있다. 그리고, 부호화 장치(101)는 현재 블록이 다이렉트 모드라는 것을 나타내는 비트를 할당하고 direct_mode_type_flag를 0으로 설정한 후 잔차신호를 압축한 비트와 함께 복호화 장치(102)에 전송할 수 있다.For example, when the current block is in the normal direct mode, the encoding apparatus 101 may set first_skip_flag to 0 and second_skip_flag to 0. FIG. In addition, the encoding apparatus 101 may allocate a bit indicating that the current block is the direct mode, set direct_mode_type_flag to 0, and transmit the bit to the decoding apparatus 102 together with the compressed bit.
일례로 현재 블록의 코딩 모드가 스킵 모드나 다이렉트 모드가 아닌 잔차 신호 압축 모드일 경우, 부호화 장치(101)는 first_skip_flag를 0으로 설정하고, second_skip_flag를 0으로 설정할 수 있다. 그런 후, 부호화 장치(101)는 잔차 신호 압축 모드 임을 나타내는 비트와 잔차 신호를 압축한 비트를 복호화 장치(102)에 전송할 수 있다.For example, when the coding mode of the current block is the residual signal compression mode other than the skip mode or the direct mode, the encoding apparatus 101 may set first_skip_flag to 0 and second_skip_flag to 0. FIG. Thereafter, the encoding apparatus 101 may transmit a bit indicating the residual signal compression mode and a bit obtained by compressing the residual signal to the decoding apparatus 102.
일실시예에 따르면, 시점 합성(View Synthesis Prediction) 사용하여 3D 비디오를 부호화 및 복호화하는 방법 및 장치가 제공된다.According to an embodiment, a method and apparatus for encoding and decoding 3D video using view synthesis is provided.
여기서, 시점 합성을 위해 이미 압축된 주변 시점의 영상들을 이용하여 현재 압축하려는 영상의 시점으로 영상을 합성하는 방법 및 장치가 제공된다. Here, a method and apparatus for synthesizing an image from a viewpoint of an image to be currently compressed using images of neighboring viewpoints already compressed for view synthesis are provided.
여기서, 시점 합성에서 블록 정보를 부호화 및 복호화하지 않는 시점 합성 스킵 모드 (View Synthesis SKIP 모드)를 사용하는 방법 및 장치; 시점 합성에서 블록 정보 중 움직임 정보를 제외한 잔차신호를 부호화 및 복호화하는 시점 합성 다이렉트 모드 (View Synthesis Direct 모드)를 사용하는 방법 및 장치; 시점 합성에서 블록 정보를 부호화 및 복호화하는 시점 합성의 잔차 신호 압축 모드 (View Synthesis Residual Coding 모드)를 사용하는 방법 및 장치가 제공된다. Here, a method and apparatus for using a view synthesis skip mode (View Synthesis SKIP mode) that does not encode and decode block information in view synthesis; A method and apparatus for using a view synthesis direct mode for encoding and decoding a residual signal except motion information among block information in view synthesis; A method and apparatus for using a residual signal compression mode of view synthesis for encoding and decoding block information in view synthesis are provided.
여기서, 시점 합성 스킵 모드는 현재 블록과 가장 비슷한 블록을 합성된 영상에서 찾기 위해 영벡터가 가리키는 블록을 사용하는 방법 및 장치가 제공된다. Here, in the view synthesis skip mode, a method and apparatus for using a block indicated by a zero vector to find a block most similar to a current block in a synthesized image are provided.
여기서, 시점 합성 스킵 모드를 나타내는 Flag를 (mb_vsskip_flag) 기존 스킵 모드를 위한 Flag (mb_skip_flag) 앞 혹은 뒤에 위치시키는 방법 및 장치가 제공된다. Here, a method and apparatus for placing a flag indicating a view synthesis skip mode (mb_vsskip_flag) before or after a flag (mb_skip_flag) for an existing skip mode are provided.
여기서, 현재 블록에 대한 인접한 주변 블록들의 압축 정보에 기반하여 시점 합성 스킵 모드를 나타내는 Flag(mb_vsskip_flag)를 일반 스킵 모드를 나타내는 Flag (mb_skip_flag) 앞 혹은 뒤에 적응적으로 위치시키는 (Context-based Adaptive Skip Flag Positioning : CASFP) 방법 및 장치가 제공된다. Here, (Context-based Adaptive Skip Flag) adaptively located before or after Flag (mb_vsskip_flag) indicating a general skip mode based on compression information of adjacent neighboring blocks for the current block. Positioning: CASFP) method and apparatus are provided.
여기서, 시점 합성 다이렉트 모드는 현재 블록과 가장 비슷한 블록을 합성된 영상에서 찾기 위해 영벡터가 가리키는 블록을 사용하는 방법 및 장치가 제공된다.Here, in view synthesis direct mode, a method and apparatus for using a block indicated by a zero vector to find a block most similar to a current block in a synthesized image are provided.
여기서, 기존의 예측에 기초한 다이렉트 모드와 시점 합성 다이렉트 모드를 구별하기 위한 Flag를 (direct_mode_type_flag) 모드 종류를 나타내는 syntax (mb_type) 뒤에 위치시키는 방법 및 장치가 제공된다. Here, a method and apparatus for placing a Flag for distinguishing a direct mode based on an existing prediction from a view synthesis direct mode after a syntax (mb_type) indicating a type of a (direct_mode_type_flag) mode is provided.
여기서, 합성 영상의 픽셀들을 참조 시점의 영상 픽셀들로부터 찾을 때, 대응되는 깊이 영상의 픽셀들을 변이 벡터로 변환하여 그 변이 벡터가 가리키는 참조 시점의 대응 픽셀들을 찾는 방법 및 장치가 제공된다. Here, when finding the pixels of the composite image from the image pixels of the reference view, a method and apparatus for converting the pixels of the corresponding depth image into a disparity vector to find the corresponding pixels of the reference view indicated by the disparity vector.
참조 시점의 대응 픽셀의 위치가 정수 위치가 (Interger-Pel) 아닌 경우 주변 픽셀들을 이용하여 대응 픽셀의 보간 (Interpolation) 여부를 결정하는 방법 및 장치가 제공된다.Provided are a method and an apparatus for determining whether to interpolate a corresponding pixel using neighboring pixels when the position of the corresponding pixel at the reference point of view is not an integer position (Interger-Pel).
다음은 Context-based Adaptive Skip Flag Positioning (CASFP) 방법에 기초한 Syntax에 대한 실시 예이다. 실시 예에서 mb_skip_flag는 일반 스킵 모드를 나타내고, mb_vsskip_flag는 시점 합성 스킵 모드를 나타낸다. The following is an embodiment of Syntax based on the Context-based Adaptive Skip Flag Positioning (CASFP) method. In an embodiment, mb_skip_flag represents a normal skip mode and mb_vsskip_flag represents a view synthesis skip mode.
예를 들어, 현재 블록의 mb_vsskip_flag를 부호화할 때 부호화 장치(101)는 현재 블록의 위쪽 블록과 왼쪽 블록의 mb_vsskip_flag를 참조하여 엔트로피 부호화한다.For example, when encoding mb_vsskip_flag of the current block, the encoding apparatus 101 performs entropy encoding with reference to mb_vsskip_flag of the upper block and the left block of the current block.
슬라이스 데이터 신택스(Slice data syntax)는 다음의 표 1과 같이 나타낼 수 있다.Slice data syntax may be represented as shown in Table 1 below.
Figure PCTKR2013003178-appb-I000007
Figure PCTKR2013003178-appb-I000007
Figure PCTKR2013003178-appb-I000008
Figure PCTKR2013003178-appb-I000008
Figure PCTKR2013003178-appb-I000009
Figure PCTKR2013003178-appb-I000009
Figure PCTKR2013003178-appb-I000010
Figure PCTKR2013003178-appb-I000010
P 슬라이스를 디코딩할 때 mb_type이 참조 픽쳐로서 합성 픽쳐를 사용하는 P_Skip으로 도출되고, 매크로블록 타입이 P 매크로블록 타입으로 총괄적으로(collectively) 참조되는 경우, 현재 매크로블록에 대해 mb_vsskip_flag는 1을 나타낸다. 또는, B 슬라이스를 디코딩할 때 mb_type이 참조 픽쳐로서 합성 픽쳐를 사용하는 B_Skip으로 도출되고, 매크로블록 타입이 B 매크로블록 타입으로 총괄적으로(collectively) 참조되는 경우, 현재 매크로블록에 대해 mb_vsskip_flag는 1을 나타낸다. 만약, 현재 매크로블록이 스킵되지 않은 경우, mb_vsskip_flag는 0을 나타낸다. 그리고, mb_vsskip_flag가 존재하지 않는 경우, mb_vsskip_flag는 0으로 추론될 수 있다.When mb_type is derived to P_Skip using a composite picture as a reference picture when decoding the P slice, and mb_vsskip_flag represents 1 for the current macroblock when the macroblock type is collectively referred to as the P macroblock type. Or, if mb_type is derived as B_Skip using a composite picture as a reference picture when decoding a B slice, and if the macroblock type is collectively referred to as the B macroblock type, then mb_vsskip_flag equals 1 for the current macroblock. Indicates. If the current macroblock is not skipped, mb_vsskip_flag indicates 0. And, if mb_vsskip_flag does not exist, mb_vsskip_flag may be inferred to zero.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to the embodiment may be embodied in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. The program instructions recorded on the media may be those specially designed and constructed for the purposes of the embodiments, or they may be of the kind well-known and available to those having skill in the computer software arts. Examples of computer readable recording media include magnetic media such as hard disks, floppy disks and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks such as floppy disks. Magneto-optical media, and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like. The hardware device described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.
 이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.Although the embodiments have been described by the limited embodiments and the drawings as described above, various modifications and variations are possible to those skilled in the art from the above description. For example, the described techniques may be performed in a different order than the described method, and / or components of the described systems, structures, devices, circuits, etc. may be combined or combined in a different form than the described method, or other components. Or even if replaced or substituted by equivalents, an appropriate result can be achieved.
 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are within the scope of the claims that follow.

Claims (29)

  1. 현재 블록이 시점 합성 스킵 모드인지 여부를 나타내는 제1 식별 정보를 추출하는 단계;Extracting first identification information indicating whether the current block is in a view synthesis skip mode;
    상기 제1 식별 정보에 따라 현재 블록이 시점 합성 스킵 모드가 아닌 경우, 상기 현재 블록이 일반 스킵 모드인지 여부를 나타내는 제2 식별 정보를 추출하는 단계; 및,Extracting second identification information indicating whether the current block is in a normal skip mode when the current block is not in the view synthesis skip mode according to the first identification information; And,
    상기 제1 식별 정보 또는 제2 식별 정보를 이용하여 상기 현재 블록을 복호화하는 단계Decoding the current block using the first identification information or the second identification information
    를 포함하는 복호화 방법.Decryption method comprising a.
  2. 제1항에 있어서,The method of claim 1,
    상기 제1 식별 정보는,The first identification information,
    현재 블록의 왼쪽 블록 및 위쪽 블록이 모두 시점 합성 스킵 모드인 경우, 제2 식별 정보보다 먼저 위치하는 복호화 방법.If both the left block and the upper block of the current block are in the view synthesis skip mode, the decoding method is located before the second identification information.
  3. 제1항에 있어서,The method of claim 1,
    상기 시점 합성 스킵 모드는,The viewpoint synthesis skip mode,
    현재 블록의 현재 시점과 동일한 시점인 가상 시점의 합성 영상을 이용하고,By using a composite image of a virtual view that is the same view as the current view of the current block,
    상기 합성 영상은,The composite image,
    현재 시점의 주변 시점에서의 부호화된 텍스쳐 정보와 깊이 정보로부터 결정되는 복호화 방법.A decoding method determined from coded texture information and depth information at a peripheral view of the current view.
  4. 제1항에 있어서,The method of claim 1,
    상기 일반 스킵 모드는,The normal skip mode,
    인트라 스킵 모드, 인터 스킵 모드 또는 인터뷰 스킵 모드 중 적어도 하나를 포함하는 복호화 방법.A decoding method comprising at least one of an intra skip mode, an inter skip mode, or an interview skip mode.
  5. 현재 블록이 일반 스킵 모드인지 여부를 나타내는 제1 식별 정보를 추출하는 단계;Extracting first identification information indicating whether the current block is in a normal skip mode;
    상기 제1 식별 정보에 따라 현재 블록이 일반 스킵 모드가 아닌 경우, 상기 현재 블록이 시점 합성 스킵 모드인지 여부를 나타내는 제2 식별 정보를 추출하는 단계; 및,Extracting second identification information indicating whether the current block is in view synthesis skip mode when the current block is not in the normal skip mode according to the first identification information; And,
    상기 제1 식별 정보 또는 제2 식별 정보를 이용하여 상기 현재 블록을 복호화하는 단계Decoding the current block using the first identification information or the second identification information
    를 포함하는 복호화 방법.Decryption method comprising a.
  6. 제5항에 있어서,The method of claim 5,
    상기 제1 식별 정보는,The first identification information,
    현재 블록의 왼쪽 블록 및 위쪽 블록 중 적어도 하나가 일반 스킵 모드인 경우, 제2 식별 정보보다 먼저 위치하는 복호화 방법.And at least one of the left block and the upper block of the current block is located before the second identification information.
  7. 제5항에 있어서,The method of claim 5,
    상기 시점 합성 스킵 모드는,The viewpoint synthesis skip mode,
    현재 블록의 현재 시점과 동일한 시점인 가상 시점의 합성 영상을 이용하고,By using a composite image of a virtual view that is the same view as the current view of the current block,
    상기 합성 영상은,The composite image,
    현재 시점의 주변 시점에서 부호화된 텍스쳐 정보와 깊이 정보로부터 결정되는 복호화 방법.A decoding method determined from texture information and depth information encoded at a peripheral view of the current view.
  8. 제5항에 있어서,The method of claim 5,
    상기 일반 스킵 모드는,The normal skip mode,
    인트라 스킵 모드, 인터 스킵 모드 또는 인터뷰 스킵 모드 중 적어도 하나를 포함하는 복호화 방법.A decoding method comprising at least one of an intra skip mode, an inter skip mode, or an interview skip mode.
  9. 비트스트림에서 현재 블록의 부호화 모드를 나타내는 식별 정보를 추출하는 단계;Extracting identification information indicating the encoding mode of the current block from the bitstream;
    상기 식별 정보에 기초하여 현재 블록을 복호화하는 단계Decoding the current block based on the identification information
    를 포함하고,Including,
    상기 식별 정보는,The identification information,
    현재 블록이 시점 합성 스킵 모드인지 여부를 나타내는 제1 식별 정보 및 현재 블록이 일반 스킵 모드인지 여부를 나타내는 제2 식별 정보를 포함하는 복호화 방법.And first identification information indicating whether the current block is in view synthesis skip mode and second identification information indicating whether the current block is in normal skip mode.
  10. 제9항에 있어서,The method of claim 9,
    상기 제1 식별 정보 및 제2 식별 정보 간의 순서는,The order between the first identification information and the second identification information,
    상기 현재 블록의 주변 블록의 부호화 모드에 따라 달라지고,Depends on the encoding mode of the neighboring block of the current block,
    상기 주변 블록은, 상기 현재 블록의 위쪽 블록 및 왼쪽 블록을 포함하는 복호화 방법.The neighboring block includes an upper block and a left block of the current block.
  11. 제9항에 있어서,The method of claim 9,
    상기 제1 식별 정보는,The first identification information,
    만약 현재 블록의 위쪽 블록 및 왼쪽 블록이 모두 시점 합성 스킵 모드이면 제2 식별 정보보다 먼저 위치하고, 그렇지 않으면 제2 식별 정보보다 나중에 위치하는 복호화 방법.If both the upper block and the left block of the current block are located in the view synthesis skip mode, they are positioned before the second identification information;
  12. 현재 블록에 인접한 주변 블록의 부호화 모드를 판단하는 단계;Determining an encoding mode of a neighboring block adjacent to the current block;
    상기 부호화 모드에 따라 현재 블록의 스킵 모드와 관련된 식별 정보를 적응적으로 배치하는 단계; 및Adaptively placing identification information associated with a skip mode of a current block according to the encoding mode; And
    상기 식별 정보와 현재 블록을 부호화하는 단계Encoding the identification information and the current block.
    를 포함하고,Including,
    상기 식별 정보는,The identification information,
    현재 블록이 시점 합성 스킵 모드인지 여부를 나타내는 제1 식별 정보 및 현재 블록이 일반 스킵 모드인지 여부를 나타내는 제2 식별 정보를 포함하는 부호화 방법.And first identification information indicating whether the current block is in view synthesis skip mode and second identification information indicating whether the current block is in normal skip mode.
  13. 현재 블록의 위쪽 블록 및 왼쪽 블록의 부호화 모드가 모두 시점 합성 스킵 모드인지 여부를 판단하는 단계;Determining whether the encoding modes of the upper block and the left block of the current block are both view synthesis skip modes;
    판단 결과에 따라, 상기 현재 블록이 시점 합성 스킵 모드인지 여부를 나타내는 제1 식별 정보 및 상기 현재 블록이 일반 스킵 모드인지 여부를 나타내는 제2 식별 정보의 위치를 결정하는 단계;Determining a location of first identification information indicating whether the current block is in a view synthesis skip mode and second identification information indicating whether the current block is in a normal skip mode according to a determination result;
    상기 제1 식별 정보, 제2 식별 정보 및 현재 블록을 부호화하는 단계Encoding the first identification information, the second identification information, and the current block.
    를 포함하는 부호화 방법.Encoding method comprising a.
  14. 현재 블록이 시점 합성 스킵 모드인지 여부를 나타내는 제1 식별 정보를 추출하고, 상기 제1 식별 정보에 따라 현재 블록이 시점 합성 스킵 모드가 아닌 경우, 상기 현재 블록이 일반 스킵 모드인지 여부를 나타내는 제2 식별 정보를 추출하는 식별 정보 추출부; 및Extracting first identification information indicating whether the current block is a view synthesis skip mode, and if the current block is not the view synthesis skip mode according to the first identification information, a second indicating whether the current block is a normal skip mode An identification information extraction unit for extracting identification information; And
    상기 제1 식별 정보 또는 제2 식별 정보를 이용하여 상기 현재 블록을 복호화하는 복호화부A decoder that decodes the current block by using the first identification information or the second identification information.
    를 포함하는 복호화 장치.Decoding apparatus comprising a.
  15. 제14항에 있어서,The method of claim 14,
    상기 제1 식별 정보는,The first identification information,
    현재 블록의 왼쪽 블록 및 위쪽 블록이 모두 시점 합성 스킵 모드인 경우, 제2 식별 정보보다 먼저 위치하는 복호화 장치.And the second block is located before the second identification information when both the left block and the upper block of the current block are in the view synthesis skip mode.
  16. 제14항에 있어서,The method of claim 14,
    상기 시점 합성 스킵 모드는,The viewpoint synthesis skip mode,
    현재 블록의 현재 시점과 동일한 시점인 가상 시점의 합성 영상을 이용하고,By using a composite image of a virtual view that is the same view as the current view of the current block,
    상기 합성 영상은,The composite image,
    현재 시점의 주변 시점에서의 부호화된 텍스쳐 정보와 깊이 정보로부터 결정되는 복호화 장치.A decoding apparatus that is determined from encoded texture information and depth information at a peripheral view of the current view.
  17. 제14항에 있어서,The method of claim 14,
    상기 일반 스킵 모드는,The normal skip mode,
    인트라 스킵 모드, 인터 스킵 모드 또는 인터뷰 스킵 모드 중 적어도 하나를 포함하는 복호화 장치.And at least one of an intra skip mode, an inter skip mode, or an interview skip mode.
  18. 현재 블록이 일반 스킵 모드인지 여부를 나타내는 제1 식별 정보를 추출하고, 상기 제1 식별 정보에 따라 현재 블록이 일반 스킵 모드가 아닌 경우, 상기 현재 블록이 시점 합성 스킵 모드인지 여부를 나타내는 제2 식별 정보를 추출하는 식별 정보 추출부; 및Extracting first identification information indicating whether the current block is in a normal skip mode, and if the current block is not in the normal skip mode according to the first identification information, a second identification indicating whether the current block is in a view synthesis skip mode An identification information extraction unit for extracting information; And
    상기 제1 식별 정보 또는 제2 식별 정보를 이용하여 상기 현재 블록을 복호화하는 복호화부A decoder that decodes the current block by using the first identification information or the second identification information.
    를 포함하는 복호화 장치.Decoding apparatus comprising a.
  19. 제18항에 있어서,The method of claim 18,
    상기 제1 식별 정보는,The first identification information,
    현재 블록의 왼쪽 블록 및 위쪽 블록 중 적어도 하나가 일반 스킵 모드인 경우, 제2 식별 정보보다 먼저 위치하는 복호화 장치.And at least one of the left block and the upper block of the current block is located before the second identification information.
  20. 제18항에 있어서,The method of claim 18,
    상기 시점 합성 스킵 모드는,The viewpoint synthesis skip mode,
    현재 블록의 현재 시점과 동일한 시점인 가상 시점의 합성 영상을 이용하고,By using a composite image of a virtual view that is the same view as the current view of the current block,
    상기 합성 영상은,The composite image,
    현재 시점의 주변 시점에서 부호화된 텍스쳐 정보와 깊이 정보로부터 결정되는 복호화 장치.A decoding apparatus that is determined from texture information and depth information encoded at a peripheral view of the current view.
  21. 제18항에 있어서,The method of claim 18,
    상기 일반 스킵 모드는,The normal skip mode,
    인트라 스킵 모드, 인터 스킵 모드 또는 인터뷰 스킵 모드 중 적어도 하나를 포함하는 복호화 장치.And at least one of an intra skip mode, an inter skip mode, or an interview skip mode.
  22. 비트스트림에서 현재 블록의 부호화 모드를 나타내는 식별 정보를 추출하는 식별 정보 추출부;An identification information extracting unit which extracts identification information indicating an encoding mode of a current block from the bitstream;
    상기 식별 정보에 기초하여 현재 블록을 복호화하는 복호화부Decoding unit for decoding the current block based on the identification information
    를 포함하고,Including,
    상기 식별 정보는,The identification information,
    현재 블록이 시점 합성 스킵 모드인지 여부를 나타내는 제1 식별 정보 및 현재 블록이 일반 스킵 모드인지 여부를 나타내는 제2 식별 정보를 포함하는 복호화 장치.And first identification information indicating whether the current block is in a view synthesis skip mode and second identification information indicating whether the current block is in a normal skip mode.
  23. 제22항에 있어서,The method of claim 22,
    상기 제1 식별 정보 및 제2 식별 정보 간의 순서는,The order between the first identification information and the second identification information,
    상기 현재 블록의 주변 블록의 부호화 모드에 따라 달라지고,Depends on the encoding mode of the neighboring block of the current block,
    상기 주변 블록은, 상기 현재 블록의 위쪽 블록 및 왼쪽 블록을 포함하는 복호화 장치.The neighboring block includes an upper block and a left block of the current block.
  24. 제22항에 있어서,The method of claim 22,
    상기 제1 식별 정보는,The first identification information,
    만약 현재 블록의 위쪽 블록 및 왼쪽 블록이 모두 시점 합성 스킵 모드이면 제2 식별 정보보다 먼저 위치하고, 그렇지 않으면 제2 식별 정보보다 나중에 위치하는 복호화 장치.If both the upper block and the left block of the current block are in the view synthesis skip mode, the decoding apparatus is located before the second identification information;
  25. 현재 블록에 인접한 주변 블록의 부호화 모드를 판단하는 부호화 모드 판단부;An encoding mode determination unit that determines an encoding mode of a neighboring block adjacent to the current block;
    상기 부호화 모드에 따라 현재 블록의 스킵 모드와 관련된 식별 정보를 적응적으로 배치하는 식별 정보 배치부; 및An identification information disposition unit for adaptively disposing identification information associated with a skip mode of a current block according to the encoding mode; And
    상기 식별 정보와 현재 블록을 부호화하는 부호화부An encoding unit encoding the identification information and the current block
    를 포함하고,Including,
    상기 식별 정보는,The identification information,
    현재 블록이 시점 합성 스킵 모드인지 여부를 나타내는 제1 식별 정보 및 현재 블록이 일반 스킵 모드인지 여부를 나타내는 제2 식별 정보를 포함하는 부호화 장치.And encoding first information indicating whether the current block is in the view synthesis skip mode and second identification information indicating whether the current block is in the normal skip mode.
  26. 현재 블록의 위쪽 블록 및 왼쪽 블록의 부호화 모드가 모두 시점 합성 스킵 모드인지 여부를 판단하는 부호화 모드 판단부;An encoding mode determination unit that determines whether the encoding modes of the upper block and the left block of the current block are the view synthesis skip mode;
    판단 결과에 따라, 상기 현재 블록이 시점 합성 스킵 모드인지 여부를 나타내는 제1 식별 정보 및 상기 현재 블록이 일반 스킵 모드인지 여부를 나타내는 제2 식별 정보의 위치를 결정하는 식별 정보 배치부;An identification information arranging unit configured to determine a position of first identification information indicating whether the current block is in a view synthesis skip mode and second identification information indicating whether the current block is in a normal skip mode according to a determination result;
    상기 제1 식별 정보, 제2 식별 정보 및 현재 블록을 부호화하는 부호화부An encoder that encodes the first identification information, the second identification information, and the current block.
    를 포함하는 부호화 장치.Encoding apparatus comprising a.
  27. 비트스트림을 기록한 컴퓨터가 읽기 가능한 기록매체에 있어서,In a computer-readable recording medium that recorded a bitstream,
    상기 비트스트림은,The bitstream,
    부호화된 현재 블록, 현재 블록이 시점 합성 스킵 모드인지를 나타내는 제1 식별 정보 및 현재 블록이 일반 스킵 모드인지를 나타내는 제2 식별 정보를 포함하고,A current coded current block, first identification information indicating whether the current block is a view synthesis skip mode, and second identification information indicating whether the current block is a normal skip mode,
    상기 제1 식별 정보는,The first identification information,
    상기 현재 블록의 위쪽 블록 및 왼쪽 블록이 모두 시점 합성 스킵 모드인 경우, 제2 식별 정보보다 먼저 비트스트림에 위치하는 기록 매체.A recording medium located in the bitstream before the second identification information when both the upper block and the left block of the current block are in a view synthesis skip mode.
  28. 비트스트림에서 현재 블록의 부호화 모드를 나타내는 제1 식별 정보 및 제2 식별 정보를 추출하는 식별 정보 추출부;An identification information extraction unit for extracting first identification information and second identification information indicating an encoding mode of a current block from a bitstream;
    상기 식별 정보에 기초하여 현재 블록을 복호화하는 복호화부Decoding unit for decoding the current block based on the identification information
    를 포함하고,Including,
    상기 제1 식별 정보 및 제2 식별 정보는,The first identification information and the second identification information,
    시점 합성 스킵 모드, 인터뷰 스킵 모드, 인터 스킵 모드 및 인트라 스킵 모드 중에서 선택되고, 현재 블록의 주변 블록의 부호화 모드에 따라 비트스트림에 할당된 위치가 달라지는 복호화 장치.A decoding apparatus selected from a view synthesis skip mode, an interview skip mode, an inter skip mode, and an intra skip mode, and the position allocated to the bitstream varies according to an encoding mode of a neighboring block of the current block.
  29. 비트스트림에서 현재 블록의 부호화 모드를 나타내는 제1 식별 정보 및 제2 식별 정보를 추출하는 단계;Extracting first identification information and second identification information indicating the encoding mode of the current block from the bitstream;
    상기 식별 정보에 기초하여 현재 블록을 복호화하는 단계Decoding the current block based on the identification information
    를 포함하고,Including,
    상기 제1 식별 정보 및 제2 식별 정보는,The first identification information and the second identification information,
    시점 합성 스킵 모드, 인터뷰 스킵 모드, 인터 스킵 모드 및 인트라 스킵 모드 중에서 선택되고, 현재 블록의 주변 블록의 부호화 모드에 따라 비트스트림에 할당된 위치가 달라지는 복호화 방법.A decoding method selected from a view synthesis skip mode, an interview skip mode, an inter skip mode, and an intra skip mode, wherein a position allocated to a bitstream varies according to an encoding mode of a neighboring block of a current block.
PCT/KR2013/003178 2012-04-16 2013-04-16 3d video coding/decoding apparatus and 3d video coding/decoding method WO2013157812A1 (en)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
US201261624548P 2012-04-16 2012-04-16
US61/624,548 2012-04-16
US201261651284P 2012-05-24 2012-05-24
US61/651,284 2012-05-24
US201261707457P 2012-09-28 2012-09-28
US61/707,457 2012-09-28
KR10-2013-0041374 2013-04-16
KR1020130041374A KR102133936B1 (en) 2012-04-16 2013-04-16 Apparatus and method for encoding/decoding for 3d video

Publications (1)

Publication Number Publication Date
WO2013157812A1 true WO2013157812A1 (en) 2013-10-24

Family

ID=49383702

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2013/003178 WO2013157812A1 (en) 2012-04-16 2013-04-16 3d video coding/decoding apparatus and 3d video coding/decoding method

Country Status (1)

Country Link
WO (1) WO2013157812A1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10262268A (en) * 1997-03-19 1998-09-29 Toshiba Corp Stereoscopic video encoder and decoder therefor
KR20010091928A (en) * 2000-03-14 2001-10-23 윤종용 Method for processing nodes in 3D scene and the apparatus thereof
KR100830441B1 (en) * 2007-01-17 2008-05-20 엘지전자 주식회사 Method for displaying an image and apparatus for displaying an image
KR20090040028A (en) * 2007-10-19 2009-04-23 광주과학기술원 Method and apparatus for determining encoding mode of video image, method and apparatus for encoding/decoding video image using the same and recording medium storing program for performing the method thereof
JP2011030176A (en) * 2009-06-29 2011-02-10 Sony Corp Stereoscopic image data transmitter, method for transmitting stereoscopic image data, and stereoscopic image data receiver

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10262268A (en) * 1997-03-19 1998-09-29 Toshiba Corp Stereoscopic video encoder and decoder therefor
KR20010091928A (en) * 2000-03-14 2001-10-23 윤종용 Method for processing nodes in 3D scene and the apparatus thereof
KR100830441B1 (en) * 2007-01-17 2008-05-20 엘지전자 주식회사 Method for displaying an image and apparatus for displaying an image
KR20090040028A (en) * 2007-10-19 2009-04-23 광주과학기술원 Method and apparatus for determining encoding mode of video image, method and apparatus for encoding/decoding video image using the same and recording medium storing program for performing the method thereof
JP2011030176A (en) * 2009-06-29 2011-02-10 Sony Corp Stereoscopic image data transmitter, method for transmitting stereoscopic image data, and stereoscopic image data receiver

Similar Documents

Publication Publication Date Title
WO2020036417A1 (en) Inter prediction method based on history-based motion vector, and device therefor
WO2015142054A1 (en) Method and apparatus for processing multiview video signals
WO2013069975A1 (en) Method and apparatus for coefficient scan based on partition mode of prediction unit
WO2015142057A1 (en) Method and apparatus for processing multiview video signals
WO2012081879A1 (en) Method for decoding inter predictive encoded motion pictures
WO2020197236A1 (en) Image or video coding based on sub-picture handling structure
WO2013032074A1 (en) Apparatus for decoding merge mode motion information
WO2016200043A1 (en) Method and apparatus for inter prediction on basis of virtual reference picture in video coding system
WO2013165143A1 (en) Method and apparatus for encoding multi-view images, and method and apparatus for decoding multi-view images
WO2014058216A1 (en) Video data decoding method and video data decoding apparatus
WO2016056821A1 (en) Movement information compression method and device for 3d video coding
WO2016056754A1 (en) Method and device for encoding/decoding 3d video
WO2015057033A1 (en) Method and apparatus for coding/decoding 3d video
WO2021137597A1 (en) Image decoding method and device using dpb parameter for ols
WO2020141928A1 (en) Method and apparatus for decoding image on basis of prediction based on mmvd in image coding system
WO2016056782A1 (en) Depth picture coding method and device in video coding
WO2020005002A1 (en) Method and device for deriving template area according to inter-prediction in image coding system
WO2016056779A1 (en) Method and device for processing camera parameter in 3d video coding
WO2020009427A1 (en) Method and apparatus for rearranging template-based candidate list in inter prediction of image coding system
WO2020180100A1 (en) Intra block coding-based video or image coding
WO2016003210A1 (en) Method and device for processing multi-view video signal
WO2015199376A1 (en) Multiview video signal processing method and apparatus
WO2018074813A1 (en) Device and method for encoding or decoding image
WO2015182927A1 (en) Multi-view video signal processing method and apparatus
WO2020251340A1 (en) Motion vector prediction-based image/video coding method and device

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13778841

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13778841

Country of ref document: EP

Kind code of ref document: A1