WO2013039333A1 - 3d 비디오 부호화/복호화 방법 및 그 장치 - Google Patents

3d 비디오 부호화/복호화 방법 및 그 장치 Download PDF

Info

Publication number
WO2013039333A1
WO2013039333A1 PCT/KR2012/007342 KR2012007342W WO2013039333A1 WO 2013039333 A1 WO2013039333 A1 WO 2013039333A1 KR 2012007342 W KR2012007342 W KR 2012007342W WO 2013039333 A1 WO2013039333 A1 WO 2013039333A1
Authority
WO
WIPO (PCT)
Prior art keywords
camera parameter
value
camera
parameter value
values
Prior art date
Application number
PCT/KR2012/007342
Other languages
English (en)
French (fr)
Inventor
성재원
예세훈
손은용
정지욱
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Publication of WO2013039333A1 publication Critical patent/WO2013039333A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components

Definitions

  • the present invention relates to image processing, and more particularly, to a method and apparatus for encoding / decoding a camera parameter.
  • Various techniques can be used to generate multimedia contents and immersive media contents, among which a multi-view video coding method for providing 3D video can be viewed by viewing a video produced from multiple angles of view. It is a technology that allows you to feel a three-dimensional feeling.
  • a multiview video may have a plurality of texture images having different views in the same picture order count (POC), and correspond to each of the plurality of texture images as well as the plurality of texture images.
  • the depth image and the camera parameter may be encoded and / or decoded together.
  • the camera parameter may be used to generate a virtual view image required in the encoding / decoding process of 3D video.
  • An object of the present invention is to provide a 3D video encoding method and apparatus capable of improving encoding / decoding efficiency.
  • Another object of the present invention is to provide a 3D video decoding method and apparatus capable of improving encoding / decoding efficiency.
  • Another technical problem of the present invention is to provide a camera parameter encoding method and apparatus capable of improving encoding / decoding efficiency.
  • Another technical problem of the present invention is to provide a camera parameter decoding method and apparatus capable of improving encoding / decoding efficiency.
  • Another technical problem of the present invention is to provide a method and apparatus for transmitting camera parameter information that can improve encoding / decoding efficiency.
  • An embodiment of the present invention is a 3D video decoding method for generating a 3D image based on a texture image and a depth image.
  • the method may include receiving and decoding image information including camera parameter related information, and deriving a plurality of camera parameter values corresponding to different picture order count (POC) values based on the decoded image information. And reconstructing the texture image and the depth image based on at least one of the plurality of camera parameter values, wherein the POC value is a value representing an output order of a picture and at least among the plurality of camera parameter values.
  • One camera parameter value may be derived by performing prediction based on previously derived one or more camera parameter values.
  • the camera parameter related information may be transmitted by being included in a sequence parameter set (SPS), a picture parameter set (PPS), or a slice header.
  • SPS sequence parameter set
  • PPS picture parameter set
  • slice header a slice header
  • the plurality of camera parameter values may be values assigned to a time varying parameter having a value that changes with time.
  • the time-varying parameter may include at least one of an X-axis movement distance, a near clipping parameter, and a far clipping parameter of a 3x1 translation vector.
  • the camera parameter having the smallest depth value in the scene of, and the remote clipping parameter may be the camera parameter having the greatest depth value in any scene photographed by the camera.
  • the camera parameter related information may include time-varying parameter flag information indicating whether the time-varying parameter exists in a decoding target sequence, and the time-varying parameter flag information does not include the time-varying parameter in the decoding target sequence. In the case of indicating, in the deriving of the plurality of camera parameter values, the prediction may not be performed.
  • the camera parameter related information further includes time-varying parameter prediction flag information indicating whether prediction is performed on the time-varying parameter.
  • time-varying parameter prediction flag information indicates that prediction is not performed on the time-varying parameter, the prediction may not be performed in the derivation of the plurality of camera parameter values.
  • the camera parameter-related information may include: the time-varying parameter of the X-axis moving distance of the 3x1 motion vector, the proximity clipping parameter, and the And a time-varying parameter ID information indicating which camera parameter type corresponds to a far clipping parameter.
  • the plurality of camera parameter values may be derived based on the time-varying parameter ID information. can do.
  • the coding structure of the texture image and the depth image may be a hierarchical B structure, and the plurality of camera parameter values may each include a plurality of random corresponding to POC values of a random access point.
  • An access camera parameter value wherein the random access point is a point at which a decoding process can be started in an image sequence in which a plurality of pictures are arranged in an output order, and the plurality of random access camera parameter values are the plurality of random access camera parameter values.
  • the random access camera parameter values of may include a first camera parameter value and the second camera parameter value located closest to each other in the POC order.
  • the camera parameter related information may include first information indicating the first camera parameter value itself and second information indicating the second camera parameter value itself, and in the deriving of the plurality of camera parameter values, The first camera parameter value may be derived based on the first information, and the second camera parameter value may be derived based on the second information.
  • the plurality of camera parameter values may include a third camera parameter value located between the first camera parameter value and the second camera parameter value in a POC order, and the camera parameter related information may include the third camera parameter.
  • the method may further include third information indicating a differential camera parameter value corresponding to the value, wherein the deriving of the plurality of camera parameter values comprises: deriving the differential camera parameter value based on the third information; Deriving a predictive camera parameter value corresponding to the third camera parameter value by linear interpolation of a camera parameter value and the second camera parameter value, and determining the difference camera parameter value and the predictive camera parameter value.
  • the third camera parameter value may include.
  • the coding structure of the texture image and the depth image may be a hierarchical B structure, and the plurality of camera parameter values may include a plurality of random accesses corresponding to POC values of a random access point.
  • the random access point may be a point at which a decoding process may be started in an image sequence in which a plurality of pictures are arranged in an output order.
  • the camera parameter related information may include first information indicating the first camera parameter value itself. In the deriving of the plurality of camera parameter values, the first camera parameter value is based on the first information. Can be derived.
  • the plurality of camera parameter values may further include a second camera parameter value corresponding to a POC value higher than the POC value corresponding to the first camera parameter value, and the camera parameter related information may include the second camera parameter.
  • the method may further include second information indicating a first differential camera parameter value corresponding to the value, wherein the deriving of the plurality of camera parameter values comprises: deriving the first differential camera parameter value based on the second information. Determining the first camera parameter value as a first predictive camera parameter value corresponding to the second camera parameter value and adding the first differential camera parameter value and the first predictive camera parameter value to thereby generate the second camera parameter value. Deriving a camera parameter value may be further included.
  • the plurality of camera parameter values may further include a third camera parameter value located between the first camera parameter value and the second camera parameter value in a POC order, and the camera parameter related information may include the third camera.
  • the method may further include third information indicating a second differential camera parameter value corresponding to a parameter value, wherein the deriving of the plurality of camera parameter values comprises: deriving the second differential camera parameter value based on the third information. Deriving a second predictive camera parameter value corresponding to the third camera parameter value by linear interpolation of the first camera parameter value and the second camera parameter value and the second differential camera
  • the third camera parameter by adding a parameter value and the second predictive camera parameter value The may further comprise the step of deriving.
  • the coding structure of the texture image and the depth image may be a low delay structure composed of I slices and P slices, and the plurality of camera parameter values may be POC in one intra period.
  • N camera parameter values ⁇ p kN , p kN + 1 , p kN + 2 ,... , p n ,... , p (k + 1) N-1 ⁇ , wherein k is an integer greater than or equal to 0, N is a positive integer, and n is an integer greater than or equal to kN and less than (k + 1) N-1.
  • the camera parameter value p kN may be one of a plurality of random access camera parameter values corresponding to a POC value of a random access point, wherein the random access point includes a plurality of pictures arranged according to an output order.
  • a decoding process may be started in the image sequence, and the intra period may correspond to a period in which pictures corresponding to the plurality of random access camera parameter values are inserted into the image sequence.
  • the camera parameter related information may include first information indicating the camera parameter value p kN itself, and in the deriving of the plurality of camera parameter values, the camera parameter value p kN based on the first information. Can be derived.
  • the camera parameter related information may further include second information indicating a first differential camera parameter value corresponding to the camera parameter value p kN + 1 , and the deriving of the plurality of camera parameter values may include the second information. Deriving the first differential camera parameter value based on the method, determining the camera parameter value p kN as a first prediction camera parameter value corresponding to the camera parameter value p kN + 1 , and the first differential camera parameter value. The method may further include deriving the camera parameter value p kN + 1 by adding a value and the first predictive camera parameter value.
  • the camera parameter related information may further include third information indicating a second differential camera parameter value corresponding to the camera parameter value p m , where m is greater than or equal to kN + 2 and less than (k + 1) N-1.
  • the deriving of the plurality of camera parameter values comprises: deriving the second differential camera parameter value based on the third information, a linearity of the camera parameter value p m -2 and the camera parameter value p m -1 ; Deriving a second predictive camera parameter value corresponding to the camera parameter value p m by interpolation, and adding the second differential camera parameter value and the second predictive camera parameter value to obtain the camera parameter value p m . It may further comprise the step of deriving.
  • the apparatus may include an entropy decoder configured to receive and decode image information including camera parameter related information, and derive a plurality of camera parameter values corresponding to different picture order count (POC) values based on the decoded image information.
  • At least one camera parameter value among the plurality of camera parameter values may be derived by performing prediction based on one or more camera parameter values previously derived.
  • the method may include receiving and decoding image information including camera parameter related information and deriving a plurality of camera parameter values corresponding to different picture order count (POC) values based on the decoded image information.
  • POC picture order count
  • the POC value is a value representing an output order of a picture
  • at least one camera parameter value among the plurality of camera parameter values is derived by performing prediction based on one or more camera parameter values previously derived. Can be.
  • the apparatus derives a plurality of camera parameter values corresponding to different picture order count (POC) values based on an entropy decoding unit for receiving and decoding image information including camera parameter related information and the decoded image information.
  • a camera parameter restoring unit wherein the POC value is a value indicating an output order of a picture, and at least one camera parameter value among the plurality of camera parameter values is based on one or more camera parameter values previously derived. It can be derived by making a prediction.
  • the encoding / decoding efficiency can be improved.
  • the encoding / decoding efficiency can be improved.
  • the encoding / decoding efficiency can be improved.
  • the encoding / decoding efficiency can be improved.
  • the encoding / decoding efficiency can be improved.
  • FIG. 1 is a block diagram schematically illustrating a 3D video encoding apparatus according to an embodiment of the present invention.
  • FIG. 2 is a block diagram schematically illustrating an embodiment of a configuration of an image encoder included in the 3D video encoding apparatus of FIG. 1.
  • FIG. 3 is a block diagram schematically illustrating a 3D video decoding apparatus according to an embodiment of the present invention.
  • FIG. 4 is a block diagram schematically illustrating an embodiment of a configuration of an image decoder included in the 3D video decoding apparatus of FIG. 3.
  • 5A and 5B schematically illustrate an embodiment of a camera parameter used for DIBR.
  • FIG. 6 is a diagram schematically illustrating an embodiment of a hierarchical coding structure used for image encoding / decoding.
  • FIG. 7 is a diagram schematically illustrating an embodiment of a method of performing predictive differential coding on a camera parameter when a coding structure of an image is a hierarchical B structure.
  • FIG. 8 is a diagram schematically illustrating an embodiment of a method of performing predictive differential coding on a camera parameter when a coding structure of an image is a low delay structure.
  • FIG. 9 is a flowchart schematically illustrating an embodiment of a camera parameter encoding method based on a prediction residual coding scheme.
  • FIG. 10 is a flowchart schematically illustrating an embodiment of a camera parameter decoding method based on a prediction residual coding scheme.
  • FIG. 11 is a block diagram schematically illustrating an embodiment of a camera parameter encoder configuration according to the present invention.
  • FIG. 12 is a block diagram schematically showing an embodiment of a camera parameter decoder configuration according to the present invention.
  • each of the components in the drawings described in the present invention are shown independently for the convenience of the description of the different characteristic functions in the image encoding / decoding apparatus, each component is implemented by separate hardware or separate software It does not mean that it is.
  • two or more of each configuration may be combined to form one configuration, or one configuration may be divided into a plurality of configurations.
  • Embodiments in which each configuration is integrated and / or separated are also included in the scope of the present invention without departing from the spirit of the present invention.
  • the components may not be essential components for performing essential functions in the present invention, but may be optional components for improving performance.
  • the present invention can be implemented including only the components essential for implementing the essentials of the present invention except for the components used for improving performance, and the structure including only the essential components except for the optional components used for improving performance. Also included within the scope of the present invention.
  • the 3D video encoding apparatus may include an image encoder 110, a camera parameter encoder 120, and a multiplexer 130.
  • a plurality of texture images having different viewpoints may exist in the same picture order count (POC), and depth images corresponding to each of the plurality of texture images may exist.
  • the plurality of texture images may be obtained from a plurality of cameras having different viewpoints. Therefore, in 3D video, camera parameters corresponding to each of the plurality of viewpoints may be encoded and / or decoded together with the texture image and the depth image.
  • the image encoder 110 may output a bit stream corresponding to the texture image and a bit stream corresponding to the depth image by performing encoding on the texture image and the depth image.
  • the image encoder 110 may improve image encoding efficiency by performing prediction on the processing unit of the picture and encoding only the residual signal based on the predicted value.
  • the image encoder 110 may perform prediction based on a previous picture and / or a subsequent picture having a different POC value from the current picture to which the prediction target processing unit belongs.
  • the prediction target processing unit may correspond to one block, it may also be called a prediction target block.
  • a picture used to predict a prediction target processing unit is defined as a reference picture.
  • the image encoder 110 may use, as a reference picture, a picture having a virtual viewpoint, which is generated based on a depth image based rendering (DIBR) method, in addition to a picture having a POC value different from the current picture.
  • DIBR means synthesizing an image (and / or a picture) representing a virtual viewpoint based on a texture image (and / or a texture picture belonging to the texture image) and depth information.
  • DIBR means synthesizing an image (and / or a picture) representing a virtual viewpoint based on a texture image (and / or a texture picture belonging to the texture image) and depth information.
  • a composite image generated by DIBR is referred to as a virtual viewpoint image (and / or a virtual viewpoint picture).
  • the composite image (most viewpoint image) generated by DIBR may be indexed and added to the reference picture list.
  • the reference picture list may include not only the virtual view image but also other reference pictures (eg, a previous picture and / or a later picture having a different POC value).
  • the image encoder 110 may improve image encoding efficiency by performing prediction based on the generated reference picture list.
  • the image encoder 110 may generate a virtual viewpoint image corresponding to the second viewpoint based on the first viewpoint image, and the generated virtual viewpoint image may be used as a reference picture for prediction of the second viewpoint image.
  • a prediction method using a synthetic image generated based on DIBR as a reference picture may be referred to as a View Synthesis Prediction (VSP).
  • VSP View Synthesis Prediction
  • the image encoder 110 may use the above-described camera parameter to calculate this. That is, the virtual viewpoint image used as the reference picture may be generated based on a camera parameter.
  • the camera parameter encoder 120 may generate a bit stream corresponding to the camera parameter by performing encoding on the camera parameter. Since a plurality of viewpoints used to implement 3D video may have camera parameters corresponding thereto, the camera parameters may be encoded for each viewpoint and transmitted to the decoder. Specific examples of the type of camera parameter and the encoding method will be described later.
  • the multiplexer 130 may generate a single bit stream by performing multiplexing on a bit stream corresponding to a texture image, a bit stream corresponding to a depth image, and a bit stream corresponding to a camera parameter.
  • the generated single bit stream may be transmitted to the 3D video decoding apparatus through channel encoding, modulation, and the like.
  • FIG. 2 is a block diagram schematically illustrating an embodiment of a configuration of an image encoder included in the 3D video encoding apparatus of FIG. 1.
  • a depth image may include depth information of objects in a screen.
  • the three-dimensional effect can be represented by the above-described depth information.
  • the image encoding apparatus according to the embodiment of FIG. 2 may be applied to each of the texture image and the depth image.
  • the image encoder 110 may include a picture splitter 205, a predictor 210, a transformer 215, a quantizer 220, a realigner 225, and an entropy encoder 230. , An inverse quantization unit 235, an inverse transform unit 240, a filter unit 245, and a memory 250.
  • the picture dividing unit 205 may divide the input picture into at least one processing unit.
  • the input picture may be a texture picture belonging to a texture image or a depth picture belonging to a depth image.
  • the processing unit may be a prediction unit (PU), a transform unit (TU), or a coding unit (CU).
  • a processing unit generated by dividing a picture to be encoded / decoded or a current picture
  • a unit may be referred to as a block in some cases.
  • a block obtained by dividing a texture picture is a texture block
  • a block obtained by dividing a depth picture is called a depth block.
  • Depth images, depth pictures, and / or depth blocks may also be referred to as depth maps in that they represent depth information for objects in the screen.
  • pixel values in the depth image, the depth picture, the depth block, and / or the depth map may also be referred to as a depth pixel value.
  • the prediction unit 210 may perform inter prediction and / or perform intra prediction.
  • the prediction unit 210 may generate a prediction block by performing prediction based on information on at least one picture of a previous picture or a subsequent picture of the current picture.
  • intra prediction the prediction unit 210 may generate a prediction block by performing prediction based on pixel information in the current picture.
  • prediction mode information and motion vector information used for prediction may be encoded by the entropy encoder 130 together with the residual value and transmitted to the decoder.
  • the prediction unit 210 may use a picture having a virtual view generated based on the DIBR scheme as a reference picture in performing prediction.
  • the virtual view picture may be a virtual view picture corresponding to a view of a prediction target block.
  • the virtual view picture may be generated based on image and camera parameters of another view having the same POC value as the prediction target block, and the prediction unit 210 may use the generated virtual view picture as a reference picture to increase encoding efficiency.
  • Such a prediction method may be referred to as a View Synthesis Prediction (VSP), and specific embodiments of camera parameters used in the VSP will be described later.
  • VSP View Synthesis Prediction
  • the transform unit 215 transforms the residual block in transform units and generates transform coefficients.
  • the transform unit in the transform unit 215 may be a transform unit, and may have a quad tree structure. In this case, the size of the transform unit may be determined within a range of a predetermined maximum and minimum size.
  • the transform unit 215 may transform the residual block using a discrete cosine transform (DCT) and / or a discrete sine transform (DST).
  • DCT discrete cosine transform
  • DST discrete sine transform
  • the quantizer 220 may generate quantization coefficients by quantizing the residual values transformed by the transformer 215.
  • the value calculated by the quantization unit 220 may be provided to the inverse quantization unit 235 and the reordering unit 225.
  • the reordering unit 225 may rearrange the quantization coefficients provided from the quantization unit 220. By reordering the quantization coefficients, the efficiency of encoding in the entropy encoder 230 may be increased.
  • the reordering unit 225 may rearrange the quantization coefficients in the form of a two-dimensional block into a one-dimensional vector form through a coefficient scanning method.
  • the reordering unit 225 may increase the entropy coding efficiency of the entropy encoder 230 by changing the order of coefficient scanning based on probabilistic statistics of coefficients transmitted from the quantizer.
  • the entropy encoder 230 may perform entropy encoding on the quantized coefficients rearranged by the reordering unit 225.
  • the entropy encoder 230 may include quantization coefficient information, block type information, prediction mode information, division unit information, prediction unit information, transmission unit information, and motion vector of the coding unit received from the reordering unit 225 and the prediction unit 210.
  • Various information such as information, reference picture information, interpolation information of a block, and filtering information can be encoded.
  • Entropy encoding may use encoding methods such as Exponential Golomb, Context-Adaptive Variable Length Coding (CAVLC), and / or Context-Adaptive Binary Arithmetic Coding (CABAC).
  • the inverse quantization unit 235 may inverse quantize the quantized values in the quantization unit 220, and the inverse transformer 240 may inversely transform the inverse quantized values in the inverse quantization unit 235.
  • the residual value generated by the inverse quantization unit 235 and the inverse transform unit 240 may be combined with the prediction block predicted by the prediction unit 210 to generate a reconstructed block.
  • the filter unit 245 may apply an in-loop filter to the reconstructed block and / or picture.
  • the in loop filter may include a deblocking filter, a sample adaptive offset (SAO), a adaptive loop filter (ALF), and the like.
  • the memory 250 may store the reconstructed block or the picture calculated by the filter unit 245.
  • the reconstructed block or picture stored in the memory 250 may be provided to the predictor 210 that performs inter prediction.
  • the 3D video decoding apparatus may include a demultiplexer 310, an image decoder 320, a camera parameter decoder 320, and a 3D image generator 340.
  • the demultiplexer 310 may receive a single bitstream transmitted through a transmission network.
  • the demultiplexer 310 may extract a bit stream corresponding to a texture image, a bit stream corresponding to a depth image, and a bit stream corresponding to a camera parameter by performing a process such as demultiplexing on a received single bit stream. .
  • the image decoder 320 may output the reconstructed texture image and the reconstructed depth image by performing decoding on the bit stream corresponding to the texture image and the bit stream corresponding to the depth image. In this case, the image decoder 320 may perform prediction on the processing unit of the picture and generate a reconstructed image based on the predicted value and the decoded residual value.
  • the image decoder 320 may use, as a reference picture, a picture having a virtual view generated based on the DIBR scheme.
  • the composite image (most viewpoint image) generated by DIBR may be indexed and added to the reference picture list.
  • the reference picture list may include not only the virtual view image but also other reference pictures (eg, a previous picture and / or a later picture having a different POC value).
  • the image decoder 320 may improve image decoding efficiency by performing prediction based on the generated reference picture list.
  • a prediction method using a synthesized image generated based on DIBR as a reference picture may be referred to as a VSP.
  • the image decoder 320 may use the camera parameter decoded by the camera parameter decoder 330. That is, the virtual viewpoint image used as the reference picture may be generated based on a camera parameter.
  • the camera parameter decoder 330 may output a camera parameter by receiving and decoding a bitstream corresponding to the camera parameter from the demultiplexer.
  • the output camera parameter may be used for the VSP in the image decoder 320 and may be provided to the 3D image generator 330. Specific examples of the type of camera parameters and the decoding method will be described later.
  • the 3D image generator 340 performs 3D warping using the reconstructed image and camera parameters based on the DIBR to generate an image from a virtual viewpoint other than the viewpoints of the images acquired by the actual camera. Can be generated. In this case, the generated image may be referred to as an intermediate view image.
  • the 3D image generator 340 may format the image reconstructed in the decoding process and the mid-view image according to a display method so that the 3D image is displayed on the display surface.
  • FIG. 4 is a block diagram schematically illustrating an embodiment of a configuration of an image decoder included in the 3D video decoding apparatus of FIG. 3.
  • the image decoder 320 includes an entropy decoder 410, a reordering unit 415, an inverse quantization unit 420, an inverse transform unit 425, a predictor 430, and a filter unit 435. And a memory 440.
  • the image decoding apparatus according to the embodiment of FIG. 4 may be applied to each of the texture image and the depth image similarly to the image encoding apparatus.
  • the input bit stream When an image bit stream is input to the image decoder, the input bit stream may be decoded according to a procedure in which image information is processed by the image encoder.
  • the input bit stream may be a bit stream corresponding to a texture image or a bit stream corresponding to a depth image.
  • the entropy decoding unit 410 may perform entropy decoding on the input bitstream, and the entropy decoding method is similar to the entropy encoding method described above.
  • entropy decoding When entropy decoding is applied, a low value index and a corresponding short codeword are assigned to a symbol having a high probability of occurrence, and a high value index is assigned to a symbol having a low probability of occurrence.
  • Corresponding long codewords may be assigned. Accordingly, the bit amount of the symbols to be encoded may be reduced, and image compression performance may be improved by entropy encoding.
  • Information for generating a prediction block among the information decoded by the entropy decoder 410 may be provided to the predictor 430, and a residual value of which entropy decoding is performed by the entropy decoder may be input to the reordering unit 415.
  • the reordering unit 415 may reorder the bit stream deentropy decoded by the entropy decoding unit 410 based on a method of reordering the image encoder.
  • the reordering unit 415 may reorder the coefficients expressed in the form of a one-dimensional vector by restoring the coefficients in the form of a two-dimensional block.
  • the reordering unit 415 may receive the information related to the coefficient scanning performed by the encoder and perform the rearrangement by performing a reverse scanning method based on the scanning order performed by the corresponding encoder.
  • the inverse quantization unit 420 may perform inverse quantization based on the quantization parameter provided by the encoder and the coefficient values of the rearranged block.
  • the inverse transformer 425 may perform inverse DCT and / or inverse DST on DCT and DST performed by the encoder of the encoder with respect to the quantization result performed by the image encoder.
  • the inverse transform may be performed based on a transmission unit determined by the encoder or a division unit of an image.
  • the prediction unit 430 may generate the prediction block based on the prediction block generation related information provided by the entropy decoding unit 410 and previously decoded blocks and / or picture information provided by the memory 440. In this case, the prediction unit 430 may perform prediction based on the prediction related information provided by the image encoder.
  • the prediction unit 430 may use a picture having a virtual view, which is generated based on the DIBR scheme, as a reference picture in performing prediction.
  • the virtual view picture may be a virtual view picture corresponding to a view of a prediction target block.
  • the virtual view picture may be generated based on image and camera parameters of another view having the same POC value as the prediction target block, and the prediction unit 210 may use the generated virtual view picture as a reference picture to increase encoding efficiency.
  • such a prediction method may be referred to as a View Synthesis Prediction (VSP), and specific embodiments of camera parameters used in the VSP will be described later.
  • VSP View Synthesis Prediction
  • the reconstruction block may be generated using the prediction block generated by the predictor 430 and the residual block provided by the inverse transform unit 425.
  • the reconstructed block and / or picture may be provided to the filter unit 435.
  • the filter unit 435 may apply an in-loop filter to the reconstructed block and / or picture.
  • the in-loop filter may include a deblocking filter, a sample adaptive offset (SAO), and / or an adaptive loop filter (ALF).
  • the memory 440 may store the reconstructed picture or block to use as a reference picture or reference block, and may provide the reconstructed picture to the output unit.
  • 5A and 5B schematically illustrate an embodiment of a camera parameter used for DIBR.
  • 5A and 5B show an embodiment of a camera model that can be used in 3D video.
  • the camera parameter may be used to generate a virtual viewpoint image based on DIBR. That is, the camera parameter may be used to synthesize a reference picture used for the VSP, and may be used to generate an intermediate view image at a receiving terminal (eg, the 3D video decoding apparatus of FIG. 3). Accordingly, the 3D video encoder may encode camera parameters for each viewpoint and transmit the encoded camera parameters to the decoder.
  • 5A and 5B show camera parameters transmitted from an encoder to a decoder.
  • a coordinate system denoted by W may mean a 'reference coordinate system' used to designate a camera position in space.
  • the coordinate system denoted by C may mean 'camera coordinate system' having an focal point 510 of the camera corresponding to the camera parameters shown in FIG. 5A as an origin.
  • 520 of FIG. 5A represents an image plane in which an image acquired by the camera is displayed.
  • f, u 0 , v 0 each represent a camera parameter.
  • f denotes the distance from the focal point 510 of the camera to the image plane 520 (the distance on the Z axis), that is, the focal length.
  • (u 0 , v 0 ) may represent a coordinate of a point where the optical axis of the camera meets the image plane 520, that is, a coordinate of a principal point.
  • the optical axis may mean a coordinate axis perpendicular to the image plane 520 in the camera coordinate system, and is represented by a z axis in FIG. 5A. Therefore, the distance from the focus 510 of the camera to a principal point may correspond to the focal length.
  • the three parameters f, u 0 and v 0 described above may be referred to as intrinsic camera parameters.
  • the camera parameter may also include a 3x3 rotation matrix (R) and a 3x1 translation vector (T), which are used to represent the camera coordinate system C with respect to the reference coordinate system W.
  • the 3x3 rotation matrix R represents the degree to which the camera coordinate system is rotated in the three-dimensional space with respect to the reference coordinate system. That is, the 3x3 rotation matrix R represents a three-dimensional rotation of the camera coordinate system based on the reference coordinate system.
  • the 3x1 motion vector T is a vector representing the position of the camera coordinate system with respect to the reference coordinate system. In this case, the vector may be represented by Equation 1 below.
  • Tx, Ty, and Tz may represent the x-axis movement distance, the y-axis movement distance, and the z-axis movement distance from the reference coordinate system to the camera coordinate system, respectively.
  • the 3x3 rotation matrix R and the 3x1 motion vector T ([R, T]) described above may represent the geometric relationship between the reference coordinate system and the camera coordinate system.
  • the two parameters may be referred to as extrinsic camera parameters.
  • M c may represent an object or a location of an object photographed by a camera. If the coordinate of the position is (X, Y, Z) based on the camera coordinate system, the Z-axis distance from the origin (focus) 510 of the camera coordinate system to the position may correspond to Z. In this case, the coordinate of the position m at which the object or the object is displayed on the image plane 520 may be calculated by Equation 2 below.
  • FIG. 5B shows three planes located perpendicular to the optical axis of the camera.
  • 510 of FIG. 5B represents the focal point of the camera, that is, the origin of the camera coordinate system
  • 520 of FIG. 5B represents the image plane.
  • the scene photographed by one camera may have various depth values.
  • the point having the smallest depth value may be the point located closest to the camera, and the point having the largest depth value may be the point located farthest from the camera.
  • 530 of FIG. 5B represents a plane corresponding to a depth value having the smallest value in a scene photographed by a camera having a focus of 510, which may be referred to as a near clipping plane.
  • 540 of FIG. 5B represents a plane corresponding to a depth value having the largest value in a scene photographed by a camera having a focus of 510, which may be referred to as a far clipping plane.
  • the smallest depth value may be represented by Zn (Znear), which may correspond to the depth value of the proximity clipping plane 530 in FIG. 5B.
  • the largest depth value may be represented by Zf (Zfar), which may correspond to the depth value of the far clipping plane 540 in FIG. 5B.
  • Zn and Zf correspond to camera parameters and may be referred to as Z-clipping parameters.
  • Zn may be referred to as a near clipping parameter
  • Zf may be referred to as a far clipping parameter.
  • Depth data processed by the encoder and transmitted to the decoder may have a value of 0 to 255. That is, the depth pixel values in the depth picture may have a value of 0 to 255.
  • the depth pixel values may correspond to values in which depth values between Z-clipping parameters Zn and Zf are quantized to 256 levels, respectively.
  • the quantized depth pixel values can be converted to actual depth values based on the Z-clipping parameters Zn and Zf. This is an example, and may be represented by Equation 3 below.
  • Z near represents a near clipping parameter and Z far represents a far clipping parameter.
  • z represents the actual depth value
  • v represents the intensity of the depth pixel value included in the depth map.
  • camera parameter may be used as a concept including all of the above-described internal camera parameter, external camera parameter, and Z-clipping parameter.
  • the camera parameters described above in the 3D video encoding / decoding process may be regarded as having a static value until the end for one sequence. That is, the 3D video encoder and the 3D video decoder may perform encoding and decoding on the premise that the camera parameters have fixed values.
  • a plurality of cameras may be used to acquire a plurality of images having different viewpoints.
  • the optical axes of the plurality of cameras are all parallel and are rectified such that there is no vertical disparity between the plurality of cameras, the above-described focal length f and the main point coordinates u 0 , v 0 ), the 3x3 rotation matrix R, and Ty, Tz (the Y-axis movement distance and the Z-axis movement distance in the 3x1 movement vector T) may have fixed values.
  • the values of the X-axis movement distance Tx and the Z-clipping parameters Zn and Zf in the 3x1 motion vector T may change with time due to the change of the contents of the scene, the movement of the camera, and the like.
  • a camera parameter having a value that changes with time may be referred to as a 'time varying parameter'.
  • time-varying parameters In the case of the time-varying parameters described above, they usually have a characteristic that changes gradually. In addition, even when small distortion occurs in the camera parameter, the quality of the virtual view image generated based on the DIBR may not be significantly affected. However, since the value of the time varying parameter keeps changing over time, the correct value needs to be transmitted, and the value changing over time must continue to be transmitted.
  • the 3D video encoder predicts camera parameter values and encodes residuals of actual camera parameter values and predicted camera parameter values in order to efficiently transmit time-varying parameters.
  • the 3D video encoder may derive the predicted camera parameter value by performing prediction on the predicted camera parameter based on a camera parameter corresponding to a POC value different from the predicted camera parameter.
  • the residual camera parameter value may be derived by subtracting the predicted camera parameter value from the predicted camera parameter value.
  • the 3D video encoder may generate a bitstream corresponding to the camera parameter by performing entropy encoding on the residual camera parameter.
  • the 3D video decoder may derive the residual camera parameter value by performing entropy decoding on the bitstream corresponding to the camera parameter. And, by performing prediction based on already decoded and / or already reconstructed camera parameters, it is possible to derive the same predicted camera parameter values as in the encoder. At this time, the 3D video decoder may derive the reconstructed camera parameter value by adding the residual camera parameter value to the predicted camera parameter value.
  • the above-described camera parameter prediction differential coding scheme may vary according to coding structures of the texture image and the depth image constituting the 3D video. Therefore, before describing a specific embodiment of the camera parameter coding scheme, the coding structure of the image will be described.
  • FIG. 6 is a diagram schematically illustrating an embodiment of a hierarchical coding structure used for image encoding / decoding.
  • a picture used for image encoding / decoding may include an I picture P picture and a B picture.
  • the embodiments described below are described based on the picture unit, but may be applied to the slice unit in the same or similar manner.
  • the I picture may be a picture that is independently encoded in the picture regardless of the picture before and after. Prediction in the time direction is not applied to the I picture, and only information in the picture can be used for encoding processing.
  • the P picture may be a picture that may be encoded by unidirectional prediction between pictures using one reference picture. P pictures require one reference picture list, which can be represented by L0 (reference picture list 0). Inter prediction based on a reference picture selected from L0 is called L0 prediction, and L0 prediction may be mainly used for forward prediction. In the P picture, intra prediction and / or L0 prediction may be performed. In the B picture, forward, backward and / or bidirectional prediction between pictures may be performed based on two reference picture lists.
  • the two reference picture lists used in the B picture may be represented by L0 (reference picture list 0) and L1 (reference picture list 1), respectively.
  • Inter prediction based on a reference picture selected from L1 is called L1 prediction, and L1 prediction may be mainly used for forward prediction.
  • L1 prediction may be mainly used for forward prediction.
  • intra prediction, L0 prediction, L1 prediction, and / or bi prediction may be performed.
  • pair prediction may mean int prediction using two reference pictures selected from L0 and L1.
  • a temporal layer may be configured according to a temporal level. Since the coding structure shown in FIG. 6 uses a B picture, it may also be called a hierarchical B structure. In the embodiment of FIG. 6, it is assumed that the size of a group of pictures (GOP) is eight.
  • GOP group of pictures
  • a hierarchical coding structure may have a plurality of hierarchical levels.
  • the number of hierarchical steps may be four, for example.
  • pictures of different layers may have different temporal levels.
  • FIG. 6 it is assumed that a picture located at an upper portion has a higher temporal level.
  • the number displayed at the bottom of each picture represents a POC value assigned to the picture.
  • the value assigned to the POC may indicate the output order of the pictures.
  • one picture may be encoded based on two pictures having a higher temporal level.
  • the reference picture referenced by the encoding / decoding target picture may have a higher POC value than the encoding / decoding target picture. This means that a picture with a higher POC value can be encoded and / or decoded first. Therefore, in the hierarchical B structure, the encoding / decoding order of the pictures may be different from the output order of the pictures, which may cause a delay.
  • a random access picture may be located at a point where random access may be performed (hereinafter, referred to as a random access point). That is, the random access picture may indicate a random access point in an image sequence in which a plurality of pictures are arranged in an output order.
  • the random access picture may be an Instantaneous Decoding Refresh (IDR) picture.
  • IDR Instantaneous Decoding Refresh
  • the IDR picture may enable random access by preventing pictures located after the IDR picture in decoding order from referring to pictures located before the IDR picture.
  • the picture 610 since pictures decoded after the picture 610 do not refer to pictures decoded before the picture 610, the picture 610 may correspond to an IDR picture.
  • the picture 620 may correspond to an IDR picture for the same reason.
  • an intra period a period in which a random access picture is inserted into an image sequence in which a plurality of pictures are arranged in an output order
  • the intra period may indicate the number of pictures from one random access picture to the picture located immediately before the next random access picture according to the output order (POC) of the picture. Therefore, the picture located first in the POC order in one intra period may be a random access picture. For example, if a frame rate of an image sequence is 24 frames per second (fps) and a random access picture is inserted every second, the intra period is 24 and random access is enabled in units of 1 second.
  • an “intra period” may be 8 as an example.
  • the coding structure of the image may include a coding structure based only on the I picture and the P picture as well as the hierarchical B structure described above.
  • the image sequence in this coding structure is, for example, ⁇ I, P, P, P, P, P,... ⁇ Can be configured as follows.
  • I may mean an I picture and P may mean a P picture.
  • the coding structure based only on the I picture and the P picture since the output order and the encoding / decoding order of the pictures are the same, all pictures may be output as soon as they are decoded. Therefore, in the above-described coding structure, less delay may occur than the hierarchical B structure.
  • a coding structure based only on the I picture and the P picture will be referred to as a “low delay structure”.
  • the random access picture may be located at a point where random access may be performed similarly to the hierarchical B structure.
  • a period in which the random access picture is inserted into an image sequence in which a plurality of pictures are arranged in an output order may be referred to as an “intra period”.
  • FIG. 7 is a diagram schematically illustrating an embodiment of a method of performing predictive differential coding on a camera parameter when a coding structure of an image is a hierarchical B structure.
  • the value of the time-varying parameter corresponding to the image may also vary according to the POC value assigned to the image.
  • 7 shows the value of a time varying parameter corresponding to each of the POC values from 0 to 8.
  • the transmitted time-varying parameter is the proximity clipping parameter Zn.
  • the present invention is not limited thereto. That is, the predictive differential coding scheme according to the embodiment of FIG. 7 may be applied to other time-varying parameters other than the proximity clipping parameter Zn in the same manner.
  • an intra period of a picture is eight. That is, in FIG. 7, one random access picture may be located for every eight pictures in an image sequence in which a plurality of pictures are arranged in an output order. Therefore, the hierarchical B structure as shown in FIG. 7 may also be called a random access structure.
  • a picture having a POC value of 0 may be a picture located at a start point of an image sequence and may correspond to a random access picture. Since the intra period is 8, the next random access picture located closest to the random access picture may be a picture having a POC value of 8. In FIG. 7, since a picture having an intra period of 8 and a POC value of 0 corresponds to a random access picture, a picture having a value of (assigned POC value% 8) of 0 may be viewed as a random access picture.
  • x% y may mean the remaining value obtained by dividing x by y.
  • an output order and an encoding / decoding order of a picture may be different.
  • two random access pictures closest to each other in the POC order may be coded and / or decoded before pictures located between the two random access pictures in the POC order.
  • a picture located first of one intra period in the POC order may correspond to a random access picture.
  • the 3D video encoder may not apply a predictive differential coding scheme to a camera parameter (hereinafter, referred to as a random access camera parameter) corresponding to the random access picture. That is, in the case of a camera parameter (random access camera parameter) located at the beginning of one intra period in the POC order, the value itself may be encoded and transmitted. This is to enable random access by not allowing the random access camera parameter to refer to a camera parameter located before the camera parameter in the POC order.
  • the 3D video encoder After the two random access camera parameters closest to each other in the POC order are encoded, the 3D video encoder performs encoding on the basis of a predictive differential coding scheme for each of the other encoding target camera parameters located between the two random access camera parameters. Can be done.
  • the 3D video encoder may perform prediction on a target camera parameter based on the two random access camera parameters.
  • the value of each encoding object camera parameter may be predicted by linear interpolation of the two random access camera parameter values. That is, the 3D video encoder may derive the predicted value of the encoding target camera parameter by linear interpolation of two random access camera parameter values.
  • the 3D video encoder may derive the residual camera parameter value by the difference between the encoding target camera parameter value and the predicted camera parameter value.
  • the residual camera parameter may be encoded and transmitted to the 3D video decoder.
  • the 3D video decoder may derive the random access camera parameter value by receiving and decoding the encoded random access camera parameter. As described above, since the predictive differential coding scheme is not applied to the random access camera parameter, the 3D video decoder may derive the random access camera parameter value without performing the prediction process.
  • the 3D video decoder After the two random access camera parameters closest to each other in the POC order are decoded, the 3D video decoder performs decoding based on a predictive differential coding scheme for each of the other decoding target camera parameters located between the two random access camera parameters. Can be done.
  • the 3D video decoder may perform prediction on a decoding target parameter based on the two random access camera parameters.
  • the value of each decoding object parameter may be predicted by linear interpolation of the two random access camera parameter values. That is, the 3D video decoder may derive the predicted value of the decoding object camera parameter by linear interpolation of two random access camera parameter values.
  • the 3D video encoder may transmit the encoded residual camera parameter to the decoder.
  • the 3D video decoder may derive the residual camera parameter value by receiving and decoding the transmitted information. In this case, the 3D video decoder may derive the actual camera parameter value corresponding to the decoding target camera parameter by adding the residual camera parameter value to the predicted camera parameter value.
  • a value of a camera parameter located between the two random access camera parameters in the POC order is predicted based on two random access camera parameters adjacent to each other. It is not limited to this.
  • a camera parameter that is encoded (and / or decoded) immediately after one random access camera parameter is encoded (and / or decoded) may not be a random access camera parameter.
  • the random access camera parameter is referred to as a first camera parameter
  • the camera parameter that is encoded (and / or decoded) immediately after the random access camera parameter is encoded (and / or decoded) is referred to as a second camera parameter.
  • the camera parameter located between the first camera parameter and the second camera parameter in the POC order is referred to as a third camera parameter.
  • the POC value corresponding to the second camera parameter may be greater than the POC value corresponding to the first camera parameter.
  • the predictive differential coding scheme may not be applied to the first camera parameter (random access camera parameter). That is, in the case of the first camera parameter, the value itself may be encoded and transmitted.
  • the second camera parameter may be encoded / decoded based on the first camera parameter.
  • the 3D video encoder and the 3D video decoder may determine the value of the first camera parameter as a predicted value of the second camera parameter. Since the process of encoding / decoding the second camera parameter based on the predicted value is the same as in the above-described embodiment, it will be omitted here.
  • the third camera parameter may be encoded / decoded based on the first camera parameter and the second camera parameter.
  • the 3D video encoder and the 3D video decoder may derive the predicted value of the third camera parameter by linear interpolation of the first camera parameter value and the second camera parameter value. Since the process of encoding / decoding the third camera parameter based on the predicted value is the same as in the above-described embodiment, it will be omitted here.
  • FIG. 7 illustrates an embodiment in which a value of a camera parameter located between two random access camera parameters in a POC order is predicted based on two random access camera parameters adjacent to each other.
  • the 3D video encoder may encode a camera parameter 720 having a POC value of 8 after encoding a camera parameter 710 having a POC value of zero.
  • the predictive differential coding scheme may not be applied, and the two random access camera parameters may be encoded by their values.
  • the residual camera parameter value for the camera parameter 730 having a POC value of 4 may be calculated by Equation 4 below.
  • the 3D video decoder may derive the random access camera parameter value by receiving and decoding the encoded random access camera parameter. For example, in the embodiment of FIG. 7, the 3D video decoder may decode the random access camera parameter 720 corresponding to the POC value of 8 after decoding the random access camera parameter 710 corresponding to the POC value of 0. . In this case, the predictive differential coding scheme may not be applied, and the two random access camera parameter values 710 and 720 may be derived without a prediction process.
  • the camera parameter 730 corresponding to the POC value of 4 may be decoded.
  • the predicted value 740 of the camera parameter 730 may be derived by linear interpolation of two random access camera parameter values 710 and 720.
  • the 3D video decoder may derive the actual camera parameter value 730 corresponding to the decoding target camera parameter by adding the residual camera parameter value to the predicted camera parameter value 740. This may be represented as in Equation 5 below.
  • the above-described camera parameter encoding / decoding method may be applied to camera parameters corresponding to POC values of 1, 2, 3, 5, 6, and 7 as well as camera parameters having a POC value of 4 in the same manner.
  • random access camera parameters are encoded by their values, but the present invention is not limited thereto.
  • random access camera parameters whose POC is not 0 may be encoded based on a predictive differential coding scheme.
  • the prediction of the random access camera parameter may be performed based on a previous random access camera parameter located closest to the random access camera parameter in the POC order.
  • FIG. 8 is a diagram schematically illustrating an embodiment of a method of performing predictive differential coding on a camera parameter when a coding structure of an image is a low delay structure.
  • the value of the time-varying parameter corresponding to the image may also vary according to the POC value assigned to the image.
  • 8 shows the value of a time varying parameter corresponding to each of the POC values from 0 to 8.
  • the transmitted time-varying parameter is a proximity clipping parameter Zn
  • the present invention is not limited thereto. That is, the predictive differential coding scheme according to the embodiment of FIG. 8 may be applied to other time-varying parameters other than the proximity clipping parameter Zn in the same manner.
  • an intra period of a picture is eight. That is, in FIG. 8, one random access picture may be located for every eight pictures in an image sequence in which a plurality of pictures are arranged in an output order.
  • a picture having a POC value of 0 may be a picture located at the start of an image sequence, and may correspond to a random access picture. Since the intra period is 8, the next random access picture located closest to the random access picture may be a picture having a POC value of 8. In FIG. 8, since a picture having an intra period of 8 and a POC value of 0 corresponds to a random access picture, a picture having a value of 0 (allocated POC value% 8) may be viewed as a random access picture.
  • the output order and the encoding / decoding order of the pictures may be the same.
  • the pictures may be encoded and / or decoded in the same order as the output order of the pictures. In this case, since all pictures may be output immediately after decoding, less delay may occur compared to the hierarchical B structure.
  • the 3D video encoder may not apply a predictive differential coding scheme to a camera parameter corresponding to a POC value of zero. That is, the predictive differential coding scheme may not be applied to the camera parameter corresponding to the first picture of the image sequence in which the plurality of pictures are arranged in the output order. Therefore, in the case of a camera parameter corresponding to a POC value of 0, the value itself may be encoded and transmitted.
  • the predictive differential coding scheme may not be applied to all random access pictures. This is to enable random access by not allowing the random access camera parameter to refer to a camera parameter located before the camera parameter in the POC order.
  • the 3D video encoder may perform encoding on each of the camera parameters positioned after the camera parameter in the POC order based on a predictive differential coding scheme.
  • the N camera parameters included in one intra period are ⁇ p 0 , p 1 ,... , p n ,... , p N-1 ⁇ (where N is a positive integer and n is an integer greater than or equal to 0 and less than or equal to N-1).
  • p n may mean a camera parameter corresponding to the POC value n
  • p 0 may correspond to a random access camera parameter. The embodiments described below are described based on the case where the random access camera parameter has a POC value of 0, but the present invention is not limited thereto.
  • the embodiments described below may be applied in the same or similar manner, even for intra periods that include random access camera parameters with non-zero POC values (eg, N, 2N, etc.).
  • the N camera parameters included in the intra period are ⁇ p kN , p kN + 1 ,... , p m ,... p (k + 1) N-1 ⁇ (N is a positive integer, k is an integer greater than or equal to 0, m is an integer greater than or equal to kN and less than (k + 1) N-1), p kN May correspond to a random access camera parameter.
  • m corresponds to kN + n, and thus, when the following embodiments are applied to p n , m may be applied to p n + kN in the same manner.
  • the encoding process for the camera parameter p 1 corresponding to the POC value 1 may be performed based on the camera parameter p 0 having the POC value 0.
  • the 3D video encoder may determine the value of the camera parameter p 0 as the predicted value of the camera parameter p 1 .
  • 3D video encoder may by the difference between the prediction value of the original values, and camera parameters p 1 of the camera parameters p 1, derive the residual camera parameter values corresponding to the camera parameter p 1 have.
  • the 3D video encoder may encode and transmit the residual camera parameter to the decoder.
  • the encoding process for the camera parameter p n having a POC value of 2 or more may be performed based on a plurality of camera parameters having a POC value smaller than the camera parameter p n .
  • the value of the camera parameter p n may be predicted based on a plurality of camera parameters having a POC value than camera parameter p n.
  • the prediction value of the camera parameter p n can be determined by the camera parameter p n-2 and the camera parameters linear interpolation of the p n-1.
  • the prediction value of the camera parameter p n is by (used the camera parameters having a POC value 0 regardless of the POC value corresponding to the camera parameter p n) camera parameter p 0 and the camera parameters linear interpolation of the p n-1 Can be determined.
  • the predicted value of the camera parameter p n may be determined by linear interpolation of the camera parameter p 0 and the camera parameter p 1 . In this case, regardless of the POC value corresponding to camera parameter p n , camera parameter p 0 and camera parameter p 1 can be used for prediction of camera parameter p n .
  • 3D video encoder may by the difference between the prediction value of the original values, and camera parameters p 1 of the camera parameters p 1, derive the residual camera parameter values corresponding to the camera parameter p 1 have.
  • the 3D video encoder may encode and transmit the residual camera parameter to the decoder.
  • 3D video decoder By decoding 3D video decoder receives a coded camera parameter p 0, you can obtain the value of the camera parameter p 0. As described above, since the predictive differential coding scheme is not applied to the camera parameter p 0 , the 3D video decoder may reconstruct the value of the camera parameter p 0 without performing the prediction process.
  • the 3D video decoder may perform decoding based on a predictive differential coding scheme for each of the camera parameters located after the camera parameter p 0 in the POC order.
  • the decoding process for the camera parameter p 1 may be performed based on the already decoded camera parameter p 0 .
  • the 3D video decoder may determine the value of the camera parameter p 0 as the predicted value of the camera parameter p 1 .
  • the 3D video decoder may receive encoded residual camera parameter information from the encoder.
  • the 3D video decoder may derive the residual camera parameter value corresponding to the camera parameter p 1 by decoding the received information.
  • 3D video decoder by adding the residual camera parameter values corresponding to the predicted value p 1 and the camera parameters of the camera parameters p 1, may determine the value of the camera parameter p 1.
  • the decoding process for a camera parameter p n having a POC value of 2 or more, where n is an integer of 2 or more is based on a plurality of previously decoded camera parameters having a POC value smaller than the camera parameter p n .
  • the value of the camera parameter p n may be predicted based on a plurality of camera parameters having a POC value than camera parameter p n.
  • the 3D video decoder may determine the prediction value of the camera parameter p n by performing prediction in the same manner as in the encoder. Embodiments of the prediction method of the camera parameter p n have been described above, and thus will be omitted here.
  • the 3D video decoder may receive encoded residual camera parameter information from the encoder.
  • the 3D video decoder may derive the residual camera parameter value corresponding to the camera parameter p n by decoding the received information.
  • 3D video decoder by adding the residual camera parameter values corresponding to the predicted value p n, and camera parameters of the camera parameters p n, may determine the value of the camera parameter p n.
  • the predictive differential coding scheme may not be applied, and the camera parameter 810 may be encoded and transmitted as its value.
  • the residual camera parameter value corresponding to the camera parameter 820 having the POC value 1 may be calculated by Equation 6 below.
  • the residual camera parameter value corresponding to the camera parameter 840 having the POC value 2 may be calculated by the following equation.
  • the 3D video decoder may derive the value of the camera parameter by receiving and decoding the encoded camera parameter. For example, in the embodiment of FIG. 8, the 3D video decoder may decode the camera parameter 810 corresponding to the POC value 0. FIG. In this case, the predictive differential coding scheme may not be applied, and the value of the camera parameter 810 corresponding to the POC value 0 may be derived without a prediction process.
  • the camera parameter 820 having the POC value 1 may be decoded.
  • the 3D video decoder may derive the value of the actual camera parameter 820 corresponding to the POC value 1 by adding the residual camera parameter value to the predicted camera parameter value 830. This can be expressed as Equation 8 below.
  • the camera parameter 840 having the POC value 2 may be decoded.
  • the 3D video decoder may derive the value of the actual camera parameter 840 corresponding to the POC value 2 by adding the residual camera parameter value to the predicted camera parameter value 850. This may be expressed as in Equation 9 below.
  • the above-described camera parameter encoding / decoding scheme may be applied in the same or similar manner to other time-varying parameters having a POC value greater than two.
  • the 3D video encoder needs to transmit information related to the time-varying parameter to the decoder.
  • Information related to the time-varying parameter may be included in a sequence parameter set (SPS), a picture parameter set (PPS), and / or a slice header and transmitted to a 3D video decoder through a bit stream.
  • the time-varying parameter related information transmitted from the 3D video encoder to the 3D video decoder includes, for example, time-varying parameter flag information, time-varying parameter prediction flag information, first number information, time-varying parameter ID information, second number information, and transmission value information. There may be. Hereinafter, specific embodiments of each of the above-described information will be described.
  • the time varying parameter flag information may indicate whether there is a time varying parameter that changes with time in the current sequence.
  • the time-varying parameter flag information may be represented by varying_camera_parameter_flag.
  • the flag may indicate that a time-varying parameter exists in the current sequence.
  • the flag may indicate that no time-varying parameter exists in the current sequence.
  • the time varying parameter prediction flag information may indicate whether prediction is performed on the time varying parameter.
  • the 3D video encoder may transmit the changed time varying parameter value itself to the 3D video decoder whenever the value of the time varying parameter changes.
  • the 3D video encoder may not transmit the value of the time-varying parameter when the value of the time-varying parameter is the same as the time-varying parameter transmitted immediately, that is, when the value of the time-varying parameter does not change.
  • the 3D video decoder may convert the most recently transmitted value among previously transmitted time-varying parameter values to a time-varying parameter value corresponding to the slice and / or the picture.
  • encoding / decoding may be performed based on the prediction differential coding scheme described above with respect to the time-varying parameter.
  • a memory structure such as used in a reference picture list may be used.
  • the time-varying parameter prediction flag may be represented by predict_varying_camera_parameter_flag.
  • the flag may indicate that prediction is performed on a time-varying parameter.
  • the flag may indicate that prediction is not performed on time-varying parameters.
  • the first number information among the time varying parameter related information may indicate how many camera parameter types correspond to the time varying parameters.
  • the camera parameter type that may correspond to the time-varying parameter may include an X-axis movement distance Tx, a proximity clipping parameter Zn, a far clipping parameter Zf, and the like in the 3 ⁇ 1 motion vector T.
  • the first number information may be represented by num_varying_camera_parameter. For example, when only the near clipping parameter Zn corresponds to the time-varying parameter among the camera parameters, 1 may be allocated to the num_varying_camera_parameter.
  • the time varying parameter ID information among the time varying parameter related information may indicate which camera parameter type the time varying parameter corresponds to.
  • the time varying parameter ID information may be represented by varying_camera_parameter_id.
  • a value assigned to the varying_camera_parameter_id according to the camera parameter type may be determined as shown in Table 1 below.
  • the time-varying parameter corresponds to the proximity clipping parameter Zn
  • 0 may be assigned to the time-varying parameter ID corresponding to the time-varying parameter.
  • 1 may be assigned to the time varying parameter ID corresponding to the time varying parameter.
  • 2 may be assigned to the time varying parameter ID corresponding to the time varying parameter.
  • the time-varying parameter flag information, the time-varying parameter prediction flag information, the first number information, and the time-varying parameter ID information may be included in the SPS and transmitted from the 3D video encoder to the 3D video decoder in one embodiment.
  • An embodiment of camera related information defined in the SPS may be represented as shown in Table 2 below.
  • the time-varying parameter prediction flag information included in the SPS indicates that the time-varying parameter exists in the current sequence
  • the time-varying parameter prediction flag information, the first number information, and the time-varying parameter ID information are additionally added. It can be included in the transmission to the decoder. Therefore, when the time varying parameter flag information indicates that a time varying parameter exists in the current sequence, the time varying parameter related information may further include time varying parameter prediction flag information, first number information, and time varying parameter ID information.
  • the time varying parameter flag information indicates that no time varying parameter exists in the current sequence
  • the time varying parameter prediction flag information, the first number information, and the time varying parameter ID information may not be transmitted to the decoder.
  • the second number information among the above-described time-varying parameter related information may indicate the number of time-varying parameters (and / or transmission values corresponding to the time-varying parameters) transmitted in the current slice (or the current picture).
  • the current slice (or current picture) may be a slice (or picture) belonging to the above-described current sequence.
  • the transmission value information among the time-varying parameter related information may indicate a transmission value transmitted from the encoder to the decoder.
  • the transmission value may correspond to the value of the time-varying parameter itself, or may be a value of a differential camera parameter corresponding to the time-varying parameter.
  • the time-varying parameter corresponds to the random access camera parameter as described above with reference to FIGS. 7 and 8 (for example, when 'the POC value% 8 corresponding to the time-varying parameter is 0')
  • the predictive difference coding is performed. Since the method may not be applied, the time-varying parameter value itself may be encoded and transmitted as it is.
  • the predictive differential coding scheme may be applied.
  • the corresponding differential camera parameter value may be encoded and transmitted.
  • the transmission value information may be represented by four syntaxes, for example, precision, sign, exponent, and mantissa.
  • the four syntaxes may indicate a transmission value in the form of a floating point.
  • precision may indicate the accuracy of the transmission value transmitted from the encoder to the decoder.
  • '2 ⁇ (-x)' may correspond to the maximum value of the error.
  • the sign may indicate whether the transmission value is positive or negative.
  • the syntax exponent and mantissa may represent an exponent part and a mantissa part, respectively, in a value expressed in a floating point form.
  • the above-described second number information and transmission value information may be included in a slice header and transmitted from the 3D video encoder to the 3D video decoder.
  • An embodiment of the camera related information defined in the slice header may be shown in Table 3 below.
  • parameter_id may indicate a camera parameter type corresponding to the transmission value.
  • the value assigned to the parameter_id according to the camera parameter type may be determined to be the same as the value assigned to the varying_camera_parameter_id in the embodiment of Table 1 described above.
  • FIG. 9 is a flowchart schematically illustrating an embodiment of a camera parameter encoding method based on a prediction residual coding scheme.
  • the 3D video encoder may derive a transmission value corresponding to a camera parameter (S910).
  • the camera parameter is a time-varying parameter having a value that changes with time
  • the 3D video encoder may derive a transmission value corresponding to the camera parameter based on a predictive difference coding scheme.
  • the 3D video encoder may determine the camera parameter value itself as a transmission value.
  • the 3D video encoder may derive a prediction value of the camera parameter by performing prediction on the camera parameter.
  • the 3D video encoder may derive the residual camera parameter value corresponding to the difference between the original value of the camera parameter and the predicted camera parameter value, and determine the derived residual camera parameter value as a transmission value.
  • the transmission value derivation scheme may vary depending on a coding structure of an image corresponding to the camera parameter.
  • the 3D video encoder may generate time-varying parameter related information corresponding to the camera parameter (S920).
  • the time varying parameter related information may include, for example, time varying parameter flag information, time varying parameter prediction flag information, first number information, time varying parameter ID information, and second number information.
  • the time-varying parameter related information may also include information indicating a transmission value derived for the camera parameter. Since specific embodiments of the time-varying parameter related information have been described above, a description thereof will be omitted.
  • the 3D video encoder may encode the generated information and transmit the encoded information to the 3D video decoder (S930).
  • FIG. 10 is a flowchart schematically illustrating an embodiment of a camera parameter decoding method based on a prediction residual coding scheme.
  • the 3D video decoder may receive and decode encoded time-varying parameter related information (S1010).
  • the time-varying parameter related information may include transmission value information corresponding to the decoding target camera parameter. Since specific embodiments of the time-varying parameter related information have been described above, a description thereof will be omitted.
  • the 3D video decoder may derive a camera parameter value (the restored camera parameter value) corresponding to the decoding target camera parameter based on the decoded time-varying parameter related information (S1020).
  • the decoding object camera parameter is a time-varying parameter having a value that changes with time
  • the 3D video decoder may derive a camera parameter value corresponding to the decoding object camera parameter based on a predictive differential coding scheme.
  • the decoded transmission value itself may be determined as a reconstruction value of the camera parameter.
  • the decoded transmission value may correspond to the residual value of the camera parameter.
  • the 3D video decoder may derive the predicted value of the camera parameter by performing prediction on the camera parameter to be decoded, and may derive the reconstructed value of the camera parameter by adding the residual value of the camera parameter and the predicted value of the camera parameter.
  • the restoration value derivation scheme may vary depending on a coding structure of an image corresponding to the camera parameter.
  • the camera parameter encoder 1100 of FIG. 11 may include a camera parameter related information generator 1110 and an entropy encoder 1120.
  • the camera parameter related information generator 1110 may derive a transmission value corresponding to the camera parameter based on the camera parameter.
  • the camera parameter related information generator 1110 may derive a transmission value corresponding to the camera parameter based on a predictive differential coding scheme. Since a specific embodiment of the predictive differential coding scheme has been described above, it will be omitted here.
  • the camera parameter related information generator 1110 may generate camera parameter related information.
  • the camera parameter related information may include information indicating the derived transmission value.
  • the camera parameter related information may include the above-mentioned time varying parameter flag information, time varying parameter prediction flag information, first number information, time varying parameter ID information, and second number information. Can be. Since a specific embodiment of each camera parameter related information has been described above, it will be omitted here.
  • the entropy encoder 1120 may generate and output a bit stream corresponding to the camera parameter by performing entropy encoding on the generated camera parameter related information.
  • the camera parameter decoder 1200 of FIG. 12 may include an entropy decoder 1210 and a camera parameter reconstructor 1220.
  • the entropy decoder 1210 may derive camera parameter related information by receiving entropy decoding by receiving a bit stream corresponding to a camera parameter.
  • the camera parameter related information may include the above-mentioned time varying parameter flag information, time varying parameter prediction flag information, first number information, time varying parameter ID information, and second number information. Can be. Since a specific embodiment of each camera parameter related information has been described above, it will be omitted here.
  • the camera parameter related information may be input to the camera parameter restoration unit 1220 and used to restore the camera parameters.
  • the camera parameter restorer 1220 may derive the restored camera parameter value based on the camera parameter related information.
  • the camera parameter reconstructor 1220 may derive the reconstructed camera parameter value based on a predictive differential coding scheme. Since a specific embodiment of the predictive differential coding scheme has been described above, it will be omitted here.

Abstract

텍스쳐 영상 및 깊이 영상을 기반으로 3D 영상을 생성하는 3D 비디오 복호화 방법이 제공된다. 본 발명에 따른 3D 비디오 복호화 방법은, 카메라 파라미터 관련 정보를 포함하는 영상 정보를 수신하여 복호화하는 단계, 복호화된 영상 정보를 기반으로, 서로 다른 POC 값에 대응하는 복수의 카메라 파라미터 값을 도출하는 단계 및 복수의 카메라 파라미터 값 중에서 적어도 하나를 기반으로, 텍스쳐 영상 및 깊이 영상을 복원하는 단계를 포함할 수 있다.

Description

3D 비디오 부호화/복호화 방법 및 그 장치
본 발명은 영상 처리에 관한 것으로서, 보다 상세하게는 카메라 파라미터 부호화/복호화 방법 및 장치에 관한 것이다.
신호 처리 기술 및 네트워크 전송 기술의 향상으로 다양한 멀티미디어 서비스가 가능해지면서 최근 상호 작용(interactive) 멀티미디어 컨텐츠 및 실감미디어 컨텐츠들에 대한 요구가 증가하고 있다. 멀티미디어 컨텐츠 및 실감미디어 컨텐츠들을 생성하기 위해 다양한 기술이 사용될 수 있는데, 그 중 3D 비디오를 제공하기 위한 다시점 비디오(multi view video) 코딩 방법은 시청자들이 다각도의 시점으로 제작된 영상을 시청함으로서 영상 시청시 입체감을 느낄 수 있도록 하는 기술이다.
단일 시점 비디오(single view video)와 달리 다시점 비디오에서는 동일한 POC(Picture Order Count)에서 서로 다른 시점을 갖는 복수의 텍스쳐 영상이 존재할 수 있고, 복수의 텍스쳐 영상뿐만 아니라, 복수의 텍스쳐 영상 각각에 대응하는 깊이 영상 및 카메라 파라미터가 함께 부호화 및/또는 복호화될 수 있다. 여기서, 카메라 파라미터는 3D 비디오의 부호화/복호화 과정에서 필요한 가상 시점 영상 (virtual view image)을 생성하기 위해 사용될 수 있다.
본 발명의 기술적 과제는 부호화/복호화 효율을 향상시킬 수 있는 3D 비디오 부호화 방법 및 장치를 제공함에 있다.
본 발명의 다른 기술적 과제는 부호화/복호화 효율을 향상시킬 수 있는 3D 비디오 복호화 방법 및 장치를 제공함에 있다.
본 발명의 또 다른 기술적 과제는 부호화/복호화 효율을 향상시킬 수 있는 카메라 파라미터 부호화 방법 및 장치를 제공함에 있다.
본 발명의 또 다른 기술적 과제는 부호화/복호화 효율을 향상시킬 수 있는 카메라 파라미터 복호화 방법 및 장치를 제공함에 있다.
본 발명의 또 다른 기술적 과제는 부호화/복호화 효율을 향상시킬 수 있는 카메라 파라미터 정보 전송 방법 및 장치를 제공함에 있다.
본 발명의 일 실시 형태는 텍스쳐 영상(texture image) 및 깊이 영상(depth image)을 기반으로 3D 영상을 생성하는 3D 비디오 복호화 방법이다. 상기 방법은, 카메라 파라미터 관련 정보를 포함하는 영상 정보를 수신하여 복호화하는 단계, 상기 복호화된 영상 정보를 기반으로, 서로 다른 POC(Picture Order Count) 값에 대응하는 복수의 카메라 파라미터 값을 도출하는 단계 및 상기 복수의 카메라 파라미터 값 중에서 적어도 하나를 기반으로, 상기 텍스쳐 영상 및 상기 깊이 영상을 복원하는 단계를 포함하되, 상기 POC 값은 픽쳐의 출력 순서를 나타내는 값이고, 상기 복수의 카메라 파라미터 값 중에서 적어도 하나의 카메라 파라미터 값은, 이전에 도출된 하나 이상의 카메라 파라미터 값을 기반으로 예측을 수행함으로써 도출될 수 있다.
상기 카메라 파라미터 관련 정보는 SPS(Sequence Parameter Set), PPS(Picture Parameter Set) 또는 슬라이스 헤더(slice header)에 포함되어 전송될 수 있다.
상기 복수의 카메라 파라미터 값은, 시간에 따라 변화하는 값을 갖는 시변 파라미터(time varying parameter)에 할당되는 값일 수 있다.
상기 시변 파라미터는 3x1 이동 벡터(translation vector)의 X축 이동 거리, 근접 클리핑 파라미터(near clipping parameter) 및 원거리 클리핑 파라미터(far clipping parameter) 중에서 적어도 하나를 포함할 수 있고, 상기 3x1 이동 벡터는, 공간상에서 카메라의 위치를 지정하기 위해 설정된 기준 좌표계를 기준으로 하여, 상기 카메라의 초점(focal point)을 원점으로 갖는 카메라 좌표계의 위치를 나타내는 카메라 파라미터이고, 상기 근접 클리핑 파라미터는, 상기 카메라가 촬영한 임의의 장면에서 가장 작은 깊이 값을 갖는 카메라 파라미터이고, 상기 원거리 클리핑 파라미터는, 상기 카메라가 촬영한 임의의 장면에서 가장 큰 깊이 값을 갖는 카메라 파라미터일 수 있다.
상기 카메라 파라미터 관련 정보는, 복호화 대상 시퀀스에 상기 시변 파라미터가 존재하는지 여부를 지시하는 시변 파라미터 플래그 정보를 포함할 수 있고, 상기 시변 파라미터 플래그 정보가, 상기 복호화 대상 시퀀스에 상기 시변 파라미터가 존재하지 않음을 지시하는 경우, 상기 복수의 카메라 파라미터 값 도출 단계에서는, 상기 예측을 수행하지 않을 수 있다.
상기 시변 파라미터 플래그 정보가, 상기 복호화 대상 시퀀스에 상기 시변 파라미터가 존재함을 지시하는 경우, 상기 카메라 파라미터 관련 정보는, 상기 시변 파라미터에 대해 예측이 수행되는지 여부를 지시하는 시변 파라미터 예측 플래그 정보를 더 포함할 수 있고, 상기 시변 파라미터 예측 플래그 정보가, 상기 시변 파라미터에 대해 예측이 수행되지 않음을 지시하는 경우, 상기 복수의 카메라 파라미터 값 도출 단계에서는, 상기 예측을 수행하지 않을 수 있다.
상기 시변 파라미터 플래그 정보가, 상기 복호화 대상 시퀀스에 상기 시변 파라미터가 존재함을 지시하는 경우, 상기 카메라 파라미터 관련 정보는, 상기 시변 파라미터가 상기 3x1 이동 벡터의 X축 이동 거리, 상기 근접 클리핑 파라미터 및 상기 원거리 클리핑 파라미터 중에서 어떤 카메라 파라미터 타입에 해당되는지를 지시하는 시변 파라미터 ID 정보를 포함할 수 있고, 상기 복수의 카메라 파라미터 값 도출 단계에서는, 상기 시변 파라미터 ID 정보를 기반으로 상기 복수의 카메라 파라미터 값을 도출할 수 있다.
상기 텍스쳐 영상 및 상기 깊이 영상의 코딩 구조는 계층적 B 구조(hierarchical B structure)일 수 있고, 상기 복수의 카메라 파라미터 값은, 각각 랜덤 억세스 포인트(random access point)의 POC 값에 대응하는 복수의 랜덤 억세스 카메라 파라미터 값을 포함할 수 있으며, 상기 랜덤 억세스 포인트는 복수의 픽쳐가 출력 순서에 따라 배열된 영상 시퀀스 내에서 복호화 프로세스가 시작될 수 있는 지점이고, 상기 복수의 랜덤 억세스 카메라 파라미터 값은, 상기 복수의 랜덤 억세스 카메라 파라미터 값 중에서 POC 순서상 서로 가장 인접하여 위치한 제1 카메라 파라미터 값 및 제2 카메라 파라미터 값을 포함할 수 있다. 이 때, 상기 카메라 파라미터 관련 정보는 상기 제1 카메라 파라미터 값 자체를 나타내는 제1 정보 및 상기 제2 카메라 파라미터 값 자체를 나타내는 제2 정보를 포함할 수 있고, 상기 복수의 카메라 파라미터 값 도출 단계에서는, 상기 제1 정보를 기반으로 상기 제1 카메라 파라미터 값을 도출하고, 상기 제2 정보를 기반으로 상기 제2 카메라 파라미터 값을 도출할 수 있다.
상기 복수의 카메라 파라미터 값은, POC 순서상 상기 제1 카메라 파라미터 값 및 상기 제2 카메라 파라미터 값 사이에 위치한 제3 카메라 파라미터 값을 포함할 수 있고, 상기 카메라 파라미터 관련 정보는, 상기 제3 카메라 파라미터 값에 대응하는 차분 카메라 파라미터 값을 나타내는 제3 정보를 더 포함할 수 있고, 상기 복수의 카메라 파라미터 값 도출 단계는, 상기 제3 정보를 기반으로 상기 차분 카메라 파라미터 값을 도출하는 단계, 상기 제1 카메라 파라미터 값 및 상기 제2 카메라 파라미터 값의 선형 보간(linear interpolation)에 의해, 상기 제3 카메라 파라미터 값에 대응하는 예측 카메라 파라미터 값을 도출하는 단계 및 상기 차분 카메라 파라미터 값 및 상기 예측 카메라 파라미터 값을 더함으로써, 상기 제3 카메라 파라미터 값을 도출하는 단계를 더 포함할 수 있다.
상기 텍스쳐 영상 및 상기 깊이 영상의 코딩 구조는 계층적 B 구조(hierarchical B structure)일 수 있고, 상기 복수의 카메라 파라미터 값은, 랜덤 억세스 포인트(random access point)의 POC 값에 대응하는 복수의 랜덤 억세스 카메라 파라미터 값 중 하나인 제1 카메라 파라미터 값을 포함할 수 있으며, 상기 랜덤 억세스 포인트는 복수의 픽쳐가 출력 순서에 따라 배열된 영상 시퀀스 내에서 복호화 프로세스가 시작될 수 있는 지점일 수 있다. 이 때, 상기 카메라 파라미터 관련 정보는 상기 제1 카메라 파라미터 값 자체를 나타내는 제1 정보를 포함할 수 있, 상기 복수의 카메라 파라미터 값 도출 단계에서는, 상기 제1 정보를 기반으로 상기 제1 카메라 파라미터 값을 도출할 수 있다.
상기 복수의 카메라 파라미터 값은, 상기 제1 카메라 파라미터 값에 대응하는 POC 값보다 높은 POC 값에 대응하는 제2 카메라 파라미터 값을 더 포함할 수 있고, 상기 카메라 파라미터 관련 정보는, 상기 제2 카메라 파라미터 값에 대응하는 제1 차분 카메라 파라미터 값을 나타내는 제2 정보를 더 포함할 수 있으며, 상기 복수의 카메라 파라미터 값 도출 단계는, 상기 제2 정보를 기반으로 상기 제1 차분 카메라 파라미터 값을 도출하는 단계, 상기 제1 카메라 파라미터 값을 상기 제2 카메라 파라미터 값에 대응하는 제1 예측 카메라 파라미터 값으로 결정하는 단계 및 상기 제1 차분 카메라 파라미터 값 및 상기 제1 예측 카메라 파라미터 값을 더함으로써, 상기 제2 카메라 파라미터 값을 도출하는 단계를 더 포함할 수 있다.
상기 복수의 카메라 파라미터 값은, POC 순서상 상기 제1 카메라 파라미터 값 및 상기 제2 카메라 파라미터 값 사이에 위치한 제3 카메라 파라미터 값을 더 포함할 수 있고, 상기 카메라 파라미터 관련 정보는, 상기 제3 카메라 파라미터 값에 대응하는 제2 차분 카메라 파라미터 값을 나타내는 제3 정보를 더 포함할 수 있으며, 상기 복수의 카메라 파라미터 값 도출 단계는, 상기 제3 정보를 기반으로 상기 제2 차분 카메라 파라미터 값을 도출하는 단계, 상기 제1 카메라 파라미터 값 및 상기 제2 카메라 파라미터 값의 선형 보간(linear interpolation)에 의해, 상기 제3 카메라 파라미터 값에 대응하는 제2 예측 카메라 파라미터 값을 도출하는 단계 및 상기 제2 차분 카메라 파라미터 값 및 상기 제2 예측 카메라 파라미터 값을 더함으로써, 상기 제3 카메라 파라미터 값을 도출하는 단계를 더 포함할 수 있다.
상기 텍스쳐 영상 및 상기 깊이 영상의 코딩 구조는, I 슬라이스 및 P 슬라이스로 구성되는 로우 딜레이 구조(low delay structure)일 수 있고, 상기 복수의 카메라 파라미터 값은, 하나의 인트라 주기(intra period)에 POC 순서로 포함된 N개의 카메라 파라미터 값 {pkN, pkN+1, pkN+2, …, pn, …, p(k+1)N-1}을 포함할 수 있으며, 상기 k는 0 이상의 정수이고, 상기 N은 양의 정수이고, 상기 n은 kN 이상 (k+1)N-1 이하의 정수이고, 상기 카메라 파라미터 값 pkN은 랜덤 억세스 포인트(random access point)의 POC 값에 대응하는 복수의 랜덤 억세스 카메라 파라미터 값 중에서 하나일 수 있고, 상기 랜덤 억세스 포인트는 복수의 픽쳐가 출력 순서에 따라 배열된 영상 시퀀스 내에서 복호화 프로세스가 시작될 수 있는 지점이고, 상기 인트라 주기는 상기 영상 시퀀스에 상기 복수의 랜덤 억세스 카메라 파라미터 값에 대응되는 픽쳐가 삽입되는 주기에 해당될 수 있다. 이 때, 상기 카메라 파라미터 관련 정보는 상기 카메라 파라미터 값 pkN 자체를 나타내는 제1 정보를 포함할 수 있고, 상기 복수의 카메라 파라미터 값 도출 단계에서는, 상기 제1 정보를 기반으로 상기 카메라 파라미터 값 pkN을 도출할 수 있다.
상기 카메라 파라미터 관련 정보는, 상기 카메라 파라미터 값 pkN+1에 대응하는 제1 차분 카메라 파라미터 값을 나타내는 제2 정보를 더 포함할 수 있고, 상기 복수의 카메라 파라미터 값 도출 단계는, 상기 제2 정보를 기반으로 상기 제1 차분 카메라 파라미터 값을 도출하는 단계, 상기 카메라 파라미터 값 pkN을 상기 카메라 파라미터 값 pkN+1에 대응하는 제1 예측 카메라 파라미터 값으로 결정하는 단계 및 상기 제1 차분 카메라 파라미터 값 및 상기 제1 예측 카메라 파라미터 값을 더함으로써, 상기 카메라 파라미터 값 pkN+1을 도출하는 단계를 더 포함할 수 있다.
상기 카메라 파라미터 관련 정보는, 카메라 파라미터 값 pm에 대응하는 제2 차분 카메라 파라미터 값을 나타내는 제3 정보를 더 포함할 수 있고, 여기서 상기 m은 kN+2 이상 (k+1)N-1 이하의 정수이고, 상기 복수의 카메라 파라미터 값 도출 단계는, 상기 제3 정보를 기반으로 상기 제2 차분 카메라 파라미터 값을 도출하는 단계, 카메라 파라미터 값 pm-2 및 카메라 파라미터 값 pm-1의 선형 보간에 의해, 상기 카메라 파라미터 값 pm에 대응하는 제2 예측 카메라 파라미터 값을 도출하는 단계 및 상기 제2 차분 카메라 파라미터 값 및 상기 제2 예측 카메라 파라미터 값을 더함으로써, 상기 카메라 파라미터 값 pm을 도출하는 단계를 더 포함할 수 있다.
본 발명의 다른 실시 형태는, 텍스쳐 영상(texture image) 및 깊이 영상(depth image)을 기반으로 3D 영상을 생성하는 3D 비디오 복호화 장치이다. 상기 장치는, 카메라 파라미터 관련 정보를 포함하는 영상 정보를 수신하여 복호화하는 엔트로피 복호화부, 상기 복호화된 영상 정보를 기반으로, 서로 다른 POC(Picture Order Count) 값에 대응하는 복수의 카메라 파라미터 값을 도출하는 카메라 파라미터 복원부 및 상기 복수의 카메라 파라미터 값 중에서 적어도 하나를 기반으로, 상기 텍스쳐 영상 및 상기 깊이 영상을 복원하는 영상 복원부를 포함할 수 있고, 상기 POC 값은 픽쳐의 출력 순서를 나타내는 값이고, 상기 복수의 카메라 파라미터 값 중에서 적어도 하나의 카메라 파라미터 값은, 이전에 도출된 하나 이상의 카메라 파라미터 값을 기반으로 예측을 수행함으로써 도출될 수 있다.
본 발명의 또 다른 실시 형태는 카메라 파라미터 복호화 방법이다. 상기 방법은, 카메라 파라미터 관련 정보를 포함하는 영상 정보를 수신하여 복호화하는 단계 및 상기 복호화된 영상 정보를 기반으로, 서로 다른 POC(Picture Order Count) 값에 대응하는 복수의 카메라 파라미터 값을 도출하는 단계를 포함하되, 상기 POC 값은 픽쳐의 출력 순서를 나타내는 값이고, 상기 복수의 카메라 파라미터 값 중에서 적어도 하나의 카메라 파라미터 값은, 이전에 도출된 하나 이상의 카메라 파라미터 값을 기반으로 예측을 수행함으로써 도출될 수 있다.
본 발명의 또 다른 실시 형태는, 카메라 파라미터 복호화 장치이다. 상기 장치는, 카메라 파라미터 관련 정보를 포함하는 영상 정보를 수신하여 복호화하는 엔트로피 복호화부 및 상기 복호화된 영상 정보를 기반으로, 서로 다른 POC(Picture Order Count) 값에 대응하는 복수의 카메라 파라미터 값을 도출하는 카메라 파라미터 복원부를 포함할 수 있고, 상기 POC 값은 픽쳐의 출력 순서를 나타내는 값이고, 상기 복수의 카메라 파라미터 값 중에서 적어도 하나의 카메라 파라미터 값은, 이전에 도출된 하나 이상의 카메라 파라미터 값을 기반으로 예측을 수행함으로써 도출될 수 있다.
본 발명에 따른 3D 비디오 부호화 방법에 의하면, 부호화/복호화 효율이 향상될 수 있다.
본 발명에 따른 3D 비디오 복호화 방법에 의하면, 부호화/복호화 효율이 향상될 수 있다.
본 발명에 따른 카메라 파라미터 부호화 방법에 의하면, 부호화/복호화 효율이 향상될 수 있다.
본 발명에 따른 카메라 파라미터 복호화 방법에 의하면, 부호화/복호화 효율이 향상될 수 있다.
본 발명에 따른 카메라 파라미터 정보 전송 방법에 의하면, 부호화/복호화 효율이 향상될 수 있다.
도 1은 본 발명의 일 실시예에 따른 3D 비디오 부호화 장치를 개략적으로 도시한 블록도이다.
도 2는 도 1의 3D 비디오 부호화 장치에 포함된 영상 부호화부 구성의 일 실시예를 개략적으로 나타내는 블록도이다.
도 3은 본 발명의 일 실시예에 따른 3D 비디오 복호화 장치를 개략적으로 도시한 블록도이다.
도 4는 도 3의 3D 비디오 복호화 장치에 포함된 영상 복호화부 구성의 일 실시예를 개략적으로 나타내는 블록도이다.
도 5a 및 도 5b는 DIBR을 위해 사용되는 카메라 파라미터의 실시예를 개략적으로 나타내는 도면이다.
도 6은 영상 부호화/복호화를 위해 사용되는 계층적 코딩 구조의 일 실시예를 개략적으로 나타내는 도면이다.
도 7은 영상의 코딩 구조가 계층적 B 구조인 경우, 카메라 파라미터에 대해 예측 차분 코딩을 수행하는 방법의 일 실시예를 개략적으로 나타내는 도면이다.
도 8은 영상의 코딩 구조가 로우 딜레이 구조인 경우, 카메라 파라미터에 대해 예측 차분 코딩을 수행하는 방법의 일 실시예를 개략적으로 나타내는 도면이다.
도 9는 예측 잔차 코딩 방식을 기반으로 한 카메라 파라미터 부호화 방법의 일 실시예를 개략적으로 나타내는 흐름도이다.
도 10은 예측 잔차 코딩 방식을 기반으로 한 카메라 파라미터 복호화 방법의 일 실시예를 개략적으로 나타내는 흐름도이다.
도 11은 본 발명에 따른 카메라 파라미터 부호화기 구성의 일 실시예를 개략적으로 나타내는 블록도이다.
도 12는 본 발명에 따른 카메라 파라미터 복호화기 구성의 일 실시예를 개략적으로 나타내는 블록도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니다. 본 명세서에서 사용하는 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명의 기술적 사상을 한정하려는 의도로 사용되는 것은 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
한편, 본 발명에서 설명되는 도면상의 각 구성들은 영상 부호화/복호화 장치에서 서로 다른 특징적인 기능들에 관한 설명의 편의를 위해 독립적으로 도시된 것으로서, 각 구성들이 서로 별개의 하드웨어나 별개의 소프트웨어로 구현된다는 것을 의미하지는 않는다. 예컨대, 각 구성 중 두 개 이상의 구성이 합쳐져 하나의 구성을 이룰 수도 있고, 하나의 구성이 복수의 구성으로 나뉘어질 수도 있다. 각 구성이 통합 및/또는 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리범위에 포함된다.
또한, 일부의 구성 요소는 본 발명에서 본질적인 기능을 수행하는 필수적인 구성 요소는 아니고 단지 성능을 향상시키기 위한 선택적 구성 요소일 수 있다. 본 발명은 단지 성능 향상을 위해 사용되는 구성 요소를 제외한 본 발명의 본질을 구현하는데 필수적인 구성부만을 포함하여 구현될 수 있고, 단지 성능 향상을 위해 사용되는 선택적 구성 요소를 제외한 필수 구성 요소만을 포함한 구조도 본 발명의 권리 범위에 포함된다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 이하, 도면상의 동일한 구성 요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성 요소에 대해서 중복된 설명은 생략한다.

도 1은 본 발명의 일 실시예에 따른 3D 비디오 부호화 장치를 개략적으로 도시한 블록도이다. 도 1의 실시예에 따른 3D 비디오 부호화 장치는 영상 부호화부(110), 카메라 파라미터 부호화부(120) 및 다중화부(130)를 포함할 수 있다.
3D 비디오에서는 동일한 POC(Picture Order Count)에 서로 다른 시점을 갖는 복수 개의 텍스쳐 영상이 존재할 수 있으며, 상기 복수 개의 텍스쳐 영상 각각에 대응하는 깊이 영상이 존재할 수 있다. 또한, 상기 복수 개의 텍스쳐 영상은 서로 다른 시점을 갖는 복수의 카메라로부터 획득될 수 있다. 따라서 3D 비디오에서는 복수 개의 시점 각각에 대응하는 카메라 파라미터가 텍스쳐 영상 및 깊이 영상과 함께 부호화 및/또는 복호화될 수 있다.
도 1의 실시예에서, 영상 부호화부(110)는 텍스쳐 영상 및 깊이 영상에 대한 부호화를 수행함으로써, 텍스쳐 영상에 대응하는 비트 스트림 및 깊이 영상에 대응하는 비트 스트림을 출력할 수 있다.
이 때, 영상 부호화부(110)는 픽쳐의 처리 단위에 대해 예측을 수행하고 예측된 값을 기반으로 잔차 신호만을 부호화함으로써, 영상 부호화 효율을 향상시킬 수 있다. 특히, 인터 예측이 수행되는 경우, 영상 부호화부(110)는 예측 대상 처리 단위가 속한 현재 픽쳐와 다른 POC 값을 갖는 이전 픽쳐 및/또는 이후 픽쳐를 기반으로 예측을 수행할 수 있다. 여기서, 예측 대상 처리 단위는 하나의 블록에 해당될 수 있으므로, 예측 대상 블록으로도 불릴 수 있다. 이하, 본 명세서에서는 예측 대상 처리 단위를 예측하는데 사용되는 픽쳐는 참조 픽쳐라 정의한다.
영상 부호화부(110)는 예측을 수행함에 있어, 현재 픽쳐와 다른 POC 값을 갖는 픽쳐 외에, DIBR(Depth Image Based Rendering) 방식을 기반으로 생성된, 가상의 시점을 갖는 픽쳐를 참조 픽쳐로 사용할 수도 있다. 여기서, DIBR은 텍스쳐 영상(및/또는 상기 텍스쳐 영상에 속한 텍스쳐 픽쳐) 및 깊이 정보를 기반으로 가상의 시점을 나타내는 영상(및/또는 픽쳐)을 합성하는 것을 의미한다. 이하, 본 명세서에서는 DIBR에 의해 생성된 합성 영상은 가상 시점 영상(및/또는 가상 시점 픽쳐)이라 한다.
DIBR에 의해 생성된 합성 영상(가장 시점 영상)은 인덱스화되어 참조 픽쳐 리스트에 추가될 수 있다. 여기서, 상기 참조 픽쳐 리스트는 가상 시점 영상뿐만 아니라, 다른 참조 픽쳐(예를 들어, 다른 POC 값을 가지는 이전 픽쳐 및/또는 이후 픽쳐 등)도 포함할 수 있다. 이 때, 영상 부호화부(110)는 상기 생성된 참조 픽쳐 리스트를 기반으로 예측을 수행함으로써 영상 부호화 효율을 향상시킬 수 있다.
예를 들어, 3D 비디오에서는 동일한 POC를 갖는 제1 시점의 영상 및 제2 시점의 영상이 존재할 수 있다. 동일한 POC를 갖는 영상은 동일한 영상 출력 순서를 갖는 영상에 해당될 수 있다. 제1 시점 영상은 제1 텍스쳐 픽쳐 및 제1 깊이 픽쳐를 포함할 수 있고, 제2 시점 영상은 제2 텍스쳐 픽쳐 및 제2 깊이 픽쳐를 포함할 수 있다. 이 경우, 영상 부호화부(110)는 제1 시점 영상을 기반으로 제2 시점에 해당되는 가상 시점 영상을 생성할 수 있으며, 생성된 가상 시점 영상은 제2 시점 영상의 예측을 위해 참조 픽쳐로서 사용될 수 있다. 이와 같이, DIBR을 기반으로 생성된 합성 영상을 참조 픽쳐로 이용하는 예측 방식은 VSP(View Synthesis Prediction)로 불릴 수 있다.
가상 시점 영상을 생성하기 위해서는, 실제 카메라로부터 획득된 원본 시점 영상 내의 픽셀이 상기 가상 시점 영상 내의 어느 위치로 이동되어야 하는지 계산되어야 한다. 따라서, 이를 계산하기 위해 영상 부호화부(110)는 상술한 카메라 파라미터를 이용할 수 있다. 즉, 참조 픽쳐로 사용되는 가상 시점 영상은 카메라 파라미터를 기반으로 생성될 수 있다.
3D 비디오 복호화 장치는 3D 비디오 부호화 장치에서와 동일한 방식으로 예측을 수행할 필요가 있으므로, 상기 카메라 파라미터는 텍스쳐 영상 및 깊이 영상과 함께 부호화되어 복호화기로 전송되어야 한다. 따라서, 카메라 파라미터 부호화부(120)는 카메라 파라미터에 대한 부호화를 수행함으로써, 카메라 파라미터에 대응하는 비트 스트림을 생성할 수 있다. 3D 비디오를 구현하기 위해 사용되는 복수의 시점들은 각각 이에 대응하는 카메라 파라미터를 가질 수 있으므로, 카메라 파라미터는 각 시점 별로 부호화되어 복호화기로 전송될 수 있다. 카메라 파라미터의 종류 및 부호화 방식의 구체적인 실시예는 후술하기로 한다.
다중화부(130)는 텍스쳐 영상에 대응하는 비트 스트림, 깊이 영상에 대응하는 비트 스트림 및 카메라 파라미터에 대응하는 비트 스트림에 대한 다중화를 수행함으로써 단일 비트 스트림을 생성할 수 있다. 생성된 단일 비트 스트림은 채널 부호화, 변조 등의 과정을 거쳐 3D 비디오 복호화 장치로 전송될 수 있다.

도 2는 도 1의 3D 비디오 부호화 장치에 포함된 영상 부호화부 구성의 일 실시예를 개략적으로 나타내는 블록도이다.
상술한 바와 같이, 3D 비디오의 경우 종래의 2D 비디오 달리, 텍스쳐 영상 뿐만 아니라, 깊이 영상이 함께 부호화 및/또는 복호화될 수 있다. 종래의 비디오 압축 표준 대상인 텍스쳐 영상과 달리, 깊이 영상은 화면 내의 객체들에 대한 깊이 정보를 포함할 수 있다. 3D 비디오의 경우, 입체감은 상술한 깊이 정보에 의해 나타내어질 수 있다. 도 2의 실시예에 따른 영상 부호화 장치는 텍스쳐 영상 및 깊이 영상 각각에 적용될 수 있다.
도 2를 참조하면, 영상 부호화부(110)는 픽쳐 분할부(205), 예측부(210), 변환부(215), 양자화부(220), 재정렬부(225), 엔트로피 부호화부(230), 역양자화부(235), 역변환부(240), 필터부(245) 및 메모리(250)를 포함한다.
픽쳐 분할부(205)는 입력된 픽쳐를 적어도 하나의 처리 단위로 분할할 수 있다. 상기 입력된 픽쳐는 텍스쳐 영상에 속한 텍스쳐 픽쳐이거나 깊이 영상에 속한 깊이 픽쳐일 수 있다. 이때, 처리 단위는 예측 유닛(Prediction Unit: PU)일 수도 있고, 변환 유닛(Transform Unit: TU)일 수도 있으며, 부호화 유닛(Coding Unit: CU)일 수도 있다.
이하, 후술되는 실시예들은 부호화/복호화 대상 픽쳐(또는 현재 픽쳐)가 분할됨으로써 생성된 처리 단위를 기준으로 서술될 수 있으며, 유닛은 경우에 따라 블록으로 불릴 수도 있다. 또한 이하, 텍스쳐 픽쳐의 분할에 의해 획득된 블록은 텍스쳐 블록, 깊이 픽쳐의 분할에 의해 획득된 블록은 깊이 블록이라 한다.
깊이 영상, 깊이 픽쳐 및/또는 깊이 블록은 화면 내의 객체들에 대한 깊이 정보를 나타낸다는 점에서, 깊이 맵(depth map)으로도 불릴 수 있다. 이하, 본 명세서에서 깊이 영상, 깊이 픽쳐, 깊이 블록 및/또는 깊이 맵 내의 픽셀 값들은 깊이 픽셀 값으로도 불릴 수 있다.
예측부(210)는 인터 예측을 수행하거나 및/또는 인트라 예측을 수행할 수 있다. 인터 예측이 수행되는 경우, 예측부(210)는 현재 픽쳐의 이전 픽쳐 또는 이후 픽쳐 중 적어도 하나의 픽쳐의 정보를 기초로 예측을 수행하여 예측 블록을 생성할 수 있다. 인트라 예측이 수행되는 경우, 예측부(210)는 현재 픽쳐 내의 픽셀 정보를 기초로 예측을 수행하여 예측 블록을 생성할 수 있다. 이 때, 예측을 위해 사용된 예측 모드 정보, 움직임 벡터(motion vector) 정보 등은 잔차값과 함께 엔트로피 부호화부(130)에서 부호화되어 복호화기에 전달될 수 있다.
한편, 도 1에서 상술한 바와 같이, 예측부(210)는 예측을 수행함에 있어, DIBR 방식을 기반으로 생성된, 가상의 시점을 갖는 픽쳐를 참조 픽쳐로 사용할 수 있다. 여기서, 상기 가상 시점 픽쳐는 예측 대상 블록의 시점에 해당되는 가상 시점 픽쳐일 수 있다. 가상 시점 픽쳐는 예측 대상 블록과 동일한 POC 값을 갖는 다른 시점의 영상 및 카메라 파라미터를 기반으로 생성될 수 있으며, 예측부(210)는 생성된 가상 시점 픽쳐를 참조 픽쳐로 사용함으로써, 부호화 효율을 높일 수 있다. 이와 같은 예측 방식은 VSP(View Synthesis Prediction)으로 불릴 수 있으며, VSP에 사용되는 카메라 파라미터의 구체적인 실시예들은 후술하기로 한다.
변환부(215)는 변환 단위로 잔차 블록에 대한 변환(transform)을 수행하고 변환 계수를 생성한다. 변환부(215)에서의 변환 단위는 변환 유닛일 수 있으며, 쿼드 트리(quad tree) 구조를 가질 수 있다. 이때, 변환 단위의 크기는 소정의 최대 및 최소 크기의 범위 내에서 정해질 수 있다. 변환부(215)는 잔차 블록을 DCT(Discrete Cosine Transform) 및/또는 DST(Discrete Sine Transform)를 이용하여 변환할 수 있다.
양자화부(220)는 변환부(215)에서 변환된 잔차값들을 양자화하여 양자화 계수를 생성할 수 있다. 양자화부(220)에서 산출된 값은 역양자화부(235)와 재정렬부(225)에 제공될 수 있다.
재정렬부(225)는 양자화부(220)로부터 제공된 양자화 계수를 재정렬할 수 있다. 양자화 계수를 재정렬함으로써 엔트로피 부호화부(230)에서의 부호화의 효율을 높일 수 있다. 재정렬부(225)는 계수 스캐닝(Coefficient Scanning) 방법을 통해 2차원 블록 형태의 양자화 계수들을 1차원의 벡터 형태로 재정렬할 수 있다. 재정렬부(225)에서는 양자화부에서 전송된 계수들의 확률적인 통계를 기반으로 계수 스캔닝의 순서를 변경함으로써 엔트로피 부호화부(230)에서의 엔트로피 부호화 효율을 높일 수도 있다.
엔트로피 부호화부(230)는 재정렬부(225)에 의해 재정렬된 양자화 계수들에 대한 엔트로피 부호화를 수행할 수 있다. 엔트로피 부호화부(230)는 재정렬부(225) 및 예측부(210)로부터 전달받은 부호화 유닛의 양자화 계수 정보 및 블록 타입 정보, 예측 모드 정보, 분할 단위 정보, 예측 유닛 정보 및 전송 단위 정보, 움직임 벡터 정보, 참조 픽쳐 정보, 블록의 보간 정보, 필터링 정보 등 다양한 정보를 부호화할 수 있다. 엔트로피 부호화에는 지수 골롬(Exponential Golomb), CAVLC(Context-Adaptive Variable Length Coding) 및/또는 CABAC(Context-Adaptive Binary Arithmetic Coding) 등과 같은 부호화 방법들이 사용될 수 있다. 역양자화부(235)는 양자화부(220)에서 양자화된 값들을 역양자화하고, 역변환부(240)는 역양자화부(235)에서 역양자화된 값들을 역변환할 수 있다. 역양자화부(235) 및 역변환부(240)에서 생성된 잔차값(Residual)은 예측부(210)에서 예측된 예측 블록과 합쳐져 복원 블록(Reconstructed Block)이 생성될 수 있다.
필터부(245)는 복원된 블록 및/또는 픽쳐에 인 루프 필터(In-loop filter)를 적용할 수 있다. 인 루프 필터는 디블록킹 필터(deblocking filter), SAO(Sample Adaptive Offset) 및/또는 적응적 루프 필터(ALF) 등을 포함할 수 있다.
메모리(250)는 필터부(245)를 통해 산출된 복원 블록 또는 픽쳐를 저장할 수 있다. 메모리(250)에 저장된 복원 블록 또는 픽쳐는 인터 예측을 수행하는 예측부(210)에 제공될 수 있다.

도 3은 본 발명의 일 실시예에 따른 3D 비디오 복호화 장치를 개략적으로 도시한 블록도이다. 도 3의 실시예에 따른 3D 비디오 복호화 장치는 역 다중화부(310), 영상 복호화부(320), 카메라 파라미터 복호화부(320) 및 3D 영상 생성부(340)를 포함할 수 있다.
역 다중화부(310)는 전송망을 통해 전송된 단일 비트스트림을 수신할 수 있다. 역다중화부(310)는 수신된 단일 비트스트림에 대해 역 다중화 등의 프로세스를 수행함으로써 텍스쳐 영상에 대응하는 비트 스트림, 깊이 영상에 대응하는 비트 스트림 및 카메라 파라미터에 대응하는 비트 스트림을 추출할 수 있다.
영상 복호화부(320)는 텍스쳐 영상에 대응하는 비트 스트림 및 깊이 영상에 대응하는 비트 스트림에 대해 복호화를 수행함으로써, 복원된 텍스쳐 영상 및 복원된 깊이 영상을 출력할 수 있다. 이 때, 영상 복호화부(320)는 픽쳐의 처리 단위에 대해 예측을 수행하고, 예측된 값 및 복호화된 잔차 값을 기반으로 복원 영상을 생성할 수 있다.
영상 복호화부(320)는 영상 부호화부(110)와 마찬가지로 예측을 수행함에 있어, DIBR 방식을 기반으로 생성된, 가상의 시점을 갖는 픽쳐를 참조 픽쳐로 사용할 수 있다. DIBR에 의해 생성된 합성 영상(가장 시점 영상)은 인덱스화되어 참조 픽쳐 리스트에 추가될 수 있다. 여기서, 상기 참조 픽쳐 리스트는 가상 시점 영상뿐만 아니라, 다른 참조 픽쳐(예를 들어, 다른 POC 값을 가지는 이전 픽쳐 및/또는 이후 픽쳐 등)도 포함할 수 있다. 이 때, 영상 복호화부(320)는 상기 생성된 참조 픽쳐 리스트를 기반으로 예측을 수행함으로써 영상 복호화 효율을 향상시킬 수 있다. 이와 같이, DIBR을 기반으로 생성된 합성 영상을 참조 픽쳐로 이용하는 예측 방식은 VSP로 불릴 수 있다.
한편, 도 1에서 상술한 바와 같이, 가상 시점 영상을 생성하기 위해서는, 실제 카메라로부터 획득된 원본 시점 영상 내의 픽셀이 상기 가상 시점 영상 내의 어느 위치로 이동되어야 하는지 계산되어야 한다. 따라서, 이를 계산하기 위해 영상 복호화부(320)는 카메라 파라미터 복호화부(330)에서 복호화된 카메라 파라미터를 이용할 수 있다. 즉, 참조 픽쳐로 사용되는 가상 시점 영상은 카메라 파라미터를 기반으로 생성될 수 있다.
카메라 파라미터 복호화부(330)는 역 다중화부로부터 카메라 파라미터에 대응하는 비트스트림을 수신하여 복호화함으로써, 카메라 파라미터를 출력할 수 있다. 출력된 카메라 파라미터는 영상 복호화부(320)에서 VSP를 위해 사용될 수 있으며, 3D 영상 생성부(330)에 제공될 수도 있다. 카메라 파라미터의 종류 및 복호화 방식의 구체적인 실시예는 후술하기로 한다.
3D 영상 생성부(340)는 DIBR을 기반으로, 복원된 영상 및 카메라 파라미터를 이용하여 3D 워핑(warping)을 수행함으로써, 실제 카메라에 의해 획득된 영상들의 시점이 아닌 다른 가상의 시점에서의 영상을 생성할 수 있다. 이 때, 상기 생성된 영상은 중간 시점 영상(intermediate view image)으로 불릴 수 있다. 3D 영상 생성부(340)는 복호화 과정에서 복원된 영상 및 중간 시점 영상을 디스플레이 방식에 맞게 포맷팅하여, 디스플레이 면을 통해 3D 영상이 표시되도록 할 수 있다.

도 4는 도 3의 3D 비디오 복호화 장치에 포함된 영상 복호화부 구성의 일 실시예를 개략적으로 나타내는 블록도이다. 도 4를 참조하면, 영상 복호화부(320)는 엔트로피 복호화부(410), 재정렬부(415), 역양자화부(420), 역변환부(425), 예측부(430), 필터부(435) 및 메모리(440)를 포함할 수 있다. 도 4의 실시예에 따른 영상 복호화 장치는 영상 부호화 장치와 마찬가지로 텍스쳐 영상 및 깊이 영상 각각에 적용될 수 있다.
영상 복호화기에 영상 비트 스트림이 입력된 경우, 입력된 비트 스트림은 영상 부호화기에서 영상 정보가 처리된 절차에 따라서 복호화될 수 있다. 이 때, 상기 입력된 비트 스트림은 텍스쳐 영상에 대응하는 비트 스트림이거나 깊이 영상에 대응하는 비트 스트림일 수 있다.
엔트로피 복호화부(410)는 입력된 비트스트림에 대하여 엔트로피 복호화를 수행할 수 있으며, 엔트로피 복호화 방법은 상술한 엔트로피 부호화 방법과 유사하다. 엔트로피 복호화가 적용되는 경우, 높은 발생 확률을 갖는 심볼(symbol)에 낮은 값의 인덱스(index) 및 이에 대응하는 짧은 코드워드(codeword)가 할당되고, 낮은 발생 확률을 갖는 심볼에 높은 값의 인덱스 및 이에 대응하는 긴 코드워드가 할당될 수 있다. 따라서 부호화 대상 심볼들에 대한 비트량이 감소될 수 있고, 엔트로피 부호화에 의해 영상 압축 성능이 향상될 수 있다.
엔트로피 복호화부(410)에서 복호화된 정보 중 예측 블록을 생성하기 위한 정보는 예측부(430)로 제공되고 엔트로피 복호화부에서 엔트로피 복호화가 수행된 잔차값은 재정렬부(415)로 입력될 수 있다.
재정렬부(415)는, 엔트로피 복호화부(410)에서 엔트로피 복호화된 비트 스트림을 영상 부호화기에서 재정렬한 방법을 기초로 재정렬할 수 있다. 재정렬부(415)는 1차원 벡터 형태로 표현된 계수들을 다시 2차원의 블록 형태의 계수로 복원하여 재정렬할 수 있다. 재정렬부(415)는 부호화기에서 수행된 계수 스캐닝에 관련된 정보를 제공받고 해당 부호화부에서 수행된 스캐닝 순서에 기초하여 역으로 스캐닝하는 방법을 통해 재정렬을 수행할 수 있다.
역양자화부(420)는 부호화기에서 제공된 양자화 파라미터와 재정렬된 블록의 계수값을 기초로 역양자화를 수행할 수 있다. 역변환부(425)는, 영상 부호화기에서 수행된 양자화 결과에 대해 부호화기의 변환부가 수행한 DCT 및 DST에 대해, 역DCT 및/또는 역DST를 수행할 수 있다. 역변환은 부호화기에서 결정된 전송 단위 또는 영상의 분할 단위를 기초로 수행될 수 있다.
예측부(430)는 엔트로피 복호화부(410)에서 제공된 예측 블록 생성 관련 정보와 메모리(440)에서 제공된 이전에 복호화된 블록 및/또는 픽쳐 정보를 기초로 예측 블록을 생성할 수 있다. 이 때, 예측부(430)는 영상 부호화기에서 제공된 예측 관련 정보를 기반으로 예측을 수행할 수 있다.
또한, 도 3에서 상술한 바와 같이, 예측부(430)는 예측을 수행함에 있어, DIBR 방식을 기반으로 생성된, 가상의 시점을 갖는 픽쳐를 참조 픽쳐로 사용할 수 있다. 여기서, 상기 가상 시점 픽쳐는 예측 대상 블록의 시점에 해당되는 가상 시점 픽쳐일 수 있다. 가상 시점 픽쳐는 예측 대상 블록과 동일한 POC 값을 갖는 다른 시점의 영상 및 카메라 파라미터를 기반으로 생성될 수 있으며, 예측부(210)는 생성된 가상 시점 픽쳐를 참조 픽쳐로 사용함으로써, 부호화 효율을 높일 수 있다. 상술한 바와 같이, 이와 같은 예측 방식은 VSP(View Synthesis Prediction)로 불릴 수 있으며, VSP에 사용되는 카메라 파라미터의 구체적인 실시예들은 후술하기로 한다.
복원 블록은 예측부(430)에서 생성된 예측 블록과 역변환부(425)에서 제공된 잔차 블록을 이용해 생성될 수 있다.
복원된 블록 및/또는 픽쳐는 필터부(435)로 제공될 수 있다. 필터부(435)는 복원된 블록 및/또는 픽쳐에 인 루프 필터(In-loop filter)를 적용할 수 있다. 상기 인 루프 필터는 디블록킹 필터, SAO(Sample Adaptive Offset) 및/또는 적응적 루프 필터(ALF) 등을 포함할 수 있다.
메모리(440)는 복원된 픽쳐 또는 블록을 저장하여 참조 픽쳐 또는 참조 블록으로 사용할 수 있도록 할 수 있고 또한 복원된 픽쳐를 출력부로 제공할 수 있다.

도 5a 및 도 5b는 DIBR을 위해 사용되는 카메라 파라미터의 실시예를 개략적으로 나타내는 도면이다. 도 5a 및 도 5b는 3D 비디오에서 사용될 수 있는 카메라 모델의 실시예를 도시한다.
상술한 바와 같이, 카메라 파라미터는 DIBR을 기반으로 한 가상 시점 영상의 생성에 사용될 수 있다. 즉, 카메라 파라미터는 VSP를 위해 사용되는 참조 픽쳐를 합성하기 위해 사용될 수 있으며, 수신 단말(예를 들어, 도 3의 3D 비디오 복호화 장치)에서 중간 시점 영상을 생성하기 위해 사용될 수도 있다. 따라서, 3D 비디오 부호화기는 각각의 시점 별로 카메라 파라미터를 부호화하여 복호화기로 전송할 수 있다. 도 5a 및 도 5b는 부호화기에서 복호화기로 전송되는 카메라 파라미터들을 도시한다.
도 5a를 참조하면, W로 표시된 좌표계는 공간상에서 카메라의 위치를 지정하기 위해 사용되는 ‘기준 좌표계’를 의미할 수 있다. 또한, C로 표시된 좌표계는, 도 5a에 도시된 카메라 파라미터들에 대응되는 카메라의 초점(focal point, 510)을 원점으로 갖는, ‘카메라 좌표계’를 의미할 수 있다. 또한, 도 5a의 520은 카메라에 의해 획득된 영상이 표시되는 이미지 평면(image plane)을 나타낸다.
도 5a의 실시예에서, f, u0, v0는 각각 카메라 파라미터를 나타낸다. 여기서, f는 카메라의 초점(510)에서 이미지 평면(520)까지의 거리(Z축 상의 거리), 즉 초점 거리(focal length)를 의미한다. 또한, (u0,v0)는 카메라의 광축(optical axis)이 상기 이미지 평면(520)과 만나는 지점의 좌표, 즉, 주점의 좌표(coordinate of a principal point)를 나타낼 수 있다. 상기 광축은 카메라 좌표계에서 이미지 평면(520)에 수직인 좌표 축을 의미할 수 있으며, 도 5a에서는 z 축으로 나타내어지고 있다. 따라서 카메라의 초점(510)에서 주점(a principal point)까지의 거리는 초점 거리에 해당될 수 있다. 상술한 세 개의 파라미터(f, u0, v0)는 내부 카메라 파라미터(intrinsic camera parameter)로 불릴 수 있다.
한편, 카메라 파라미터에는 기준 좌표계(W)를 기준으로 카메라 좌표계(C)를 나타내기 위해 사용되는, 3x3 회전 매트릭스(3x3 rotation matrix, R) 및 3x1 이동 벡터 (3x1 translation vector, T)도 있을 수 있다. 여기서, 상기 3x3 회전 매트릭스(R)는 기준 좌표계를 기준으로 카메라 좌표계가 3차원 공간에서 회전한 정도를 나타낸다. 즉, 상기 3x3 회전 매트릭스(R)는 기준 좌표계를 기준으로 하는 카메라 좌표계의 3차원 회전을 나타낸다. 또한, 상기 3x1 이동 벡터(T)는 기준 좌표계를 기준으로 한 카메라 좌표계의 위치를 나타내는 벡터이다. 이 때, 상기 벡터는 다음 수학식 1과 같이 나타내어질 수 있다.
[수학식 1]
Figure PCTKR2012007342-appb-I000001

여기서, Tx, Ty 및 Tz는 각각 기준 좌표계에서 카메라 좌표계까지의 x축 이동 거리, y축 이동 거리 및 z축 이동 거리를 나타낼 수 있다.
상술한 3x3 회전 매트릭스(R) 및 3x1 이동 벡터(T) ([R,T])는 기준 좌표계와 카메라 좌표계의 기하학적 관계를 나타낼 수 있다. 따라서, 상기 두 파라미터는 외부 카메라 파라미터(extrinsic camera parameter)로 불릴 수 있다.
도 5a에서 Mc는 카메라에 의해 촬영되는 객체 또는 물체의 위치를 나타낼 수 있다. 카메라 좌표계를 기준으로 상기 위치의 좌표가 (X,Y,Z)라 하면, 카메라 좌표계의 원점(초점, 510)에서 상기 위치까지의 Z축 거리는 Z에 해당될 수 있다. 이 때, 상기 객체 또는 물체가 이미지 평면(520) 상에 표시되는 위치(m)의 좌표는 다음 수학식 2에 의해 계산될 수 있다.
[수학식 2]
Figure PCTKR2012007342-appb-I000002

도 5b는 카메라의 광축(optical axis)에 수직으로 위치한 세 개의 평면을 도시한다. 도 5b의 510은 카메라의 초점, 즉 카메라 좌표계의 원점을 나타내고, 도 5b의 520은 이미지 평면을 나타낸다.
하나의 카메라가 촬영한 장면은 다양한 깊이 값을 가질 수 있다. 이 때, 가장 작은 깊이 값을 갖는 지점은 카메라에 가장 가까이 위치한 지점일 수 있고, 가장 큰 깊이 값을 갖는 지점은 카메라에서 가장 멀리 위치한 지점일 수 있다. 도 5b의 530은 510의 초점을 갖는 카메라가 촬영한 장면에서 가장 작은 값을 갖는 깊이 값에 해당되는 평면을 나타내고, 이는 근접 클리핑 평면(near clipping plane)으로 불릴 수 있다. 또한, 도 5b의 540은 510의 초점을 갖는 카메라가 촬영한 장면에서 가장 큰 값을 갖는 깊이 값에 해당되는 평면을 나타내고, 이는 원거리 클리핑 평면(far clipping plane)으로 불릴 수 있다.
하나의 카메라가 촬영한 임의의 장면에서, 가장 작은 깊이 값은 Zn(Znear)으로 나타내어질 수 있고, 이는 도 5b에서 근접 클리핑 평면(530)이 갖는 깊이 값에 해당될 수 있다. 가장 큰 깊이 값은 Zf(Zfar)로 나타내어질 수 있고, 이는 도 5b에서 원거리 클리핑 평면(540)이 갖는 깊이 값에 해당될 수 있다. 상기 Zn 및 Zf는 카메라 파라미터에 해당하며, Z-클리핑 파라미터(Z-clipping parameter)로 불릴수 있다. 이하, 본 명세서에서 Zn은 근접 클리핑 파라미터(near clipping parameter)로 불릴 수 있고, Zf는 원거리 클리핑 파라미터(far clipping parameter)로 불릴 수 있다.
부호화기에서 처리되어 복호화기로 전송되는 깊이 데이터는 0 내지 255의 값을 가질 수 있다. 즉, 깊이 픽쳐 내의 깊이 픽셀 값들은 0 내지 255의 값을 가질 수 있다. 이 때, 상기 깊이 픽셀 값들은 Z-클리핑 파라미터 Zn 및 Zf 사이의 깊이 값들이 각각 256 레벨로 양자화된 값에 해당될 수 있다. 따라서, 양자화된 깊이 픽셀 값들은 Z-클리핑 파라미터 Zn 및 Zf 를 기반으로 실제 깊이 값으로 변환될 수 있다. 이는 일 실시예로, 다음 수학식 3과 같이 나타내어질 수 있다.
[수학식 3]
Figure PCTKR2012007342-appb-I000003

수학식 3의 실시예에서, Znear는 근접 클리핑 파라미터를 나타내고, Zfar는 원거리 클리핑 파라미터를 나타낸다. 또한, z는 실제 깊이 값을 나타내고, v는 깊이 맵에 포함된 깊이 픽셀 값의 강도(intensity)를 나타낸다.
이하, 본 명세서에서 “카메라 파라미터”는, 상술한 내부 카메라 파라미터, 외부 카메라 파라미터 및 Z-클리핑 파라미터를 모두 포함하는 개념으로 사용될 수 있다.

한편, 일반적으로 3D 비디오 부호화/복호화 과정에서 상술한 카메라 파라미터들은, 하나의 시퀀스에 대해 마지막까지 고정된(static) 값을 갖는 것으로 간주될 수 있다. 즉, 3D 비디오 부호화기 및 3D 비디오 복호화기는 각각 카메라 파라미터들이 고정된 값을 갖는 것을 전제로 부호화 및 복호화를 수행할 수 있다.
그러나, 3D 비디오 부호화/복호화 과정에서 사용되는 모든 파라미터들이 항상 고정된 값을 갖는 것은 아니다. 상술한 바와 같이, 3D 비디오의 경우, 서로 다른 시점을 갖는 복수의 영상을 획득하기 위해 복수 개의 카메라가 사용될 수 있다. 이 때, 복수의 카메라의 광축이 모두 평행하고 복수의 카메라 간에 수직 방향의 변이(disparity)가 존재하지 않도록 조정된(rectified) 경우에는, 상술한 초점 거리(f), 주점 좌표(u0, v0), 3x3 회전 매트릭스(R) 및 Ty, Tz (3x1 이동 벡터(T)에서 Y축 이동 거리 및 Z축 이동 거리)가 고정된 값을 가질 수 있다. 하지만, 이러한 경우에도 3x1 이동 벡터(T)에서 X축 이동 거리(Tx) 및 Z-클리핑 파라미터(Zn 및 Zf)의 값은, 장면의 컨텐츠 변화 및 카메라의 이동 등에 의해 시간에 따라 변할 수 있다. 이와 같이, 시간에 따라 변화하는 값을 갖는 카메라 파라미터는 ‘시변 파라미터(time varying parameter)’로 불릴 수 있다.
상술한 시변 파라미터의 경우, 대개 점진적으로(smoothly) 변화하는 특성을 가진다. 또한, 카메라 파라미터에 작은 왜곡(distortion)이 발생하는 경우에도 DIBR을 기반으로 생성된 가상 시점 영상의 품질에는 큰 영향을 미치지 않을 수 있다. 하지만, 시변 파라미터의 값은 시간에 따라 계속 변화하므로, 정확한 값이 전송될 필요가 있고, 시간에 따라 변하는 값들이 계속 전송되어야 한다.
이 때, 3D 비디오 부호화기는 시변 파라미터를 효율적으로 전송하기 위해, 카메라 파라미터 값을 예측하고 실제 카메라 파라미터 값과 예측된 카메라 파라미터 값의 잔차(residual)를 부호화하는 예측 차분 코딩 방식(prediction and differential coding method)을 이용할 수 있다. 따라서, 상술한 카메라 파라미터 Tx, Zn 및 Zf 중에서 시간에 따라 변화하는 시변 파라미터가 존재하는 경우, 해당 시변 파라미터는 예측 차분 코딩 방식을 기반으로 부호화되거나 및/또는 복호화될 수 있다.
3D 비디오 부호화기는 예측 대상 카메라 파라미터와는 다른 POC 값에 대응하는 카메라 파라미터를 기반으로, 상기 예측 대상 카메라 파라미터에 대한 예측을 수행함으로써 예측된 카메라 파라미터 값을 도출할 수 있다. 그리고 예측 대상 카메라 파라미터 값에서 예측된 카메라 파라미터 값을 감산하여 잔차 카메라 파라미터(residual camera parameter) 값을 도출할 수 있다. 이 때, 3D 비디오 부호화기는 잔차 카메라 파라미터에 대한 엔트로피 부호화를 수행함으로써, 카메라 파라미터에 대응하는 비트스트림을 생성할 수 있다.
3D 비디오 복호화기는 카메라 파라미터에 대응하는 비트스트림에 대해 엔트로피 복호화를 수행함으로써, 잔차 카메라 파라미터 값을 도출할 수 있다. 그리고, 이미 복호화되거나 및/또는 이미 복원된 카메라 파라미터를 기반으로 예측을 수행함으로써, 부호화기에서와 동일한 예측된 카메라 파라미터 값을 도출할 수 있다. 이 때, 3D 비디오 복호화기는 잔차 카메라 파라미터 값을 예측된 카메라 파라미터 값에 더함으로써, 복원된 카메라 파라미터 값을 도출할 수 있다.
상술한 카메라 파라미터 예측 차분 코딩 방식은 3D 비디오를 구성하는 텍스쳐 영상 및 깊이 영상의 코딩 구조에 따라 달라질 수 있다. 따라서, 카메라 파라미터 코딩 방식의 구체적인 실시예를 서술하기에 앞서, 영상의 코딩 구조에 대해 서술하기로 한다.

도 6은 영상 부호화/복호화를 위해 사용되는 계층적 코딩 구조의 일 실시예를 개략적으로 나타내는 도면이다.
영상 부호화/복호화에 사용되는 픽쳐에는 I 픽쳐 P 픽쳐, B 픽쳐가 있을 수 있다. 후술되는 실시예들은 픽쳐 단위를 기준으로 서술되지만, 슬라이스 단위에도 동일하거나 유사한 방식으로 적용될 수 있다.
I 픽쳐는 전후의 픽쳐와는 관계 없이 당해 픽쳐 내에서 독립적으로 부호화되는 픽쳐일 수 있다. I 픽쳐에는 시간 방향의 예측이 적용되지 않으며, 당해 픽쳐 내의 정보만이 부호화 처리에 사용될 수 있다. P 픽쳐는 하나의 참조 픽쳐를 이용한 픽쳐 간의 단방향 예측에 의해 부호화될 수 있는 픽쳐일 수 있다. P 픽쳐에서는 한 개의 참조 픽쳐 리스트를 필요로 하며, 이는 L0(참조 픽쳐 리스트 0)로 나타내어질 수 있다. L0로부터 선택된 참조 픽쳐를 기반으로 하는 인터 예측은 L0 예측이라 하며, L0 예측은 주로 순방향 예측에 사용될 수 있다. P 픽쳐에서는 인트라 예측 및/또는 L0 예측이 수행될 수 있다. B 픽쳐에서는 두 개의 참조 픽쳐 리스트를 기반으로 픽쳐 간의 순방향, 역방향 및/또는 양방향 예측이 수행될 수 있다. B 픽쳐에서 사용되는 두 개의 참조 픽쳐 리스트는 각각 L0(참조 픽쳐 리스트 0) 및 L1(참조 픽쳐 리스트 1)으로 나타내어질 수 있다. L1으로부터 선택된 참조 픽쳐를 기반으로 하는 인터 예측은 L1 예측이라 하며, L1 예측은 주로 순방향 예측에 사용될 수 있다. B 픽쳐에서는 인트라 예측, L0 예측, L1 예측 및/또는 쌍예측(bi prediction)이 수행될 수 있다. 여기서, 쌍예측은 L0와 L1으로부터 선택된 두 개의 참조 픽쳐를 사용하는 인트 예측을 의미할 수 있다.
도 6의 실시예에 따른 계층적 코딩 구조(hierarchical coding structure)에서는 템포럴 레벨(temporal level)에 따라 시간적 계층(temporal layer)이 구성될 수 있다. 도 6에 도시된 코딩 구조는 B 픽쳐를 사용하므로, 계층적 B 구조(hierarchical B structure)로도 불릴 수 있다. 도 6의 실시예에서 GOP(Group of Picture)의 크기는 8이라 가정한다.
도 6을 참조하면, 계층적 코딩 구조는 복수의 계층 단계를 가질 수 있다. 여기서, 계층 단계의 개수는 일례로 4개일 수 있다. 이 때, 서로 다른 계층의 픽쳐들은 서로 다른 시간적 레벨을 가질 수 있다. 도 6에서는 상단에 위치한 픽쳐일 수록 높은 시간적 레벨을 갖는다고 가정한다.
도 6에서 각 픽쳐 하단에 표시된 숫자는 해당 픽쳐에 할당된 POC 값을 나타낸다. 여기서, POC에 할당된 값은 픽쳐의 출력 순서를 나타낼 수 있다. 계층적 B 구조에서는 도 6에 도시된 바와 같이 하나의 픽쳐가 더 높은 템포럴 레벨을 갖는 두 개의 픽쳐를 기반으로 부호화될 수 있다. 이 때, 부호화/복호화 대상 픽쳐가 참조하는 참조 픽쳐는 부호화/복호화 대상 픽쳐보다 높은 POC 값을 가질 수도 있다. 이는 더 높은 POC 값을 갖는 픽쳐가 먼저 부호화되거나 및/또는 복호화될 수 있음을 의미한다. 따라서, 계층적 B 구조에서는 픽쳐의 부호화/복호화 순서가 픽쳐의 출력 순서와 다를 수 있으며, 이로 인한 딜레이(delay)가 발생할 수 있다.
한편, 비트 스트림의 시작 지점이 아닌 다른 지점에서 복호화 프로세스가 시작되는 동작은 랜덤 억세스(random access)로 불릴 수 있다. 계층적 B 구조에서는, 랜덤 억세스가 수행될 수 있는 지점(이하, 랜덤 억세스 포인트라 함)에, 랜덤 억세스 픽쳐가 위치할 수 있다. 즉, 상기 랜덤 억세스 픽쳐는 복수의 픽쳐가 출력 순서에 따라 배열되는 영상 시퀀스 내에서 랜덤 억세스 포인트를 지시할 수 있다.
일례로, 상기 랜덤 억세스 픽쳐는 IDR(Instantaneous Decoding Refresh) 픽쳐일 수 있다. 여기서, 상기 IDR 픽쳐는 복호화 순서상 상기 IDR 픽쳐 이후에 위치하는 픽쳐들이 상기 IDR 픽쳐 이전에 위치하는 픽쳐를 참조하지 않도록 함으로써, 랜덤 억세스가 가능해지도록 할 수 있다. 도 6의 실시예에서, 픽쳐 610 이후에 복호화되는 픽쳐들은 픽쳐 610 이전에 복호화된 픽쳐를 참조하지 않으므로, 픽쳐 610이 IDR 픽쳐에 해당될 수 있다. 또한, 픽쳐 620도 동일한 이유로 IDR 픽쳐에 해당될 수 있다.
또한, 복수의 픽쳐가 출력 순서에 따라 배열되는 영상 시퀀스에 랜덤 억세스 픽쳐가 삽입되는 주기는 ‘인트라 주기(intra period)’로 불릴 수 있다. 이 때, 상기 인트라 주기는 픽쳐의 출력 순서(POC)에 따라 하나의 랜덤 억세스 픽쳐로부터 다음 랜덤 억세스 픽쳐 바로 이전에 위치한 픽쳐까지의 픽쳐 개수를 나타낼 수 있다. 따라서, 하나의 인트라 주기에서 POC 순서상 가장 첫 번째에 위치한 픽쳐는 랜덤 억세스 픽쳐일 수 있다. 예를 들어, 영상 시퀀스의 프레임 레이트(frame rate)가 24fps(frames per second)이고 랜덤 억세스 픽쳐가 1초마다 삽입되는 경우, 인트라 주기는 24가 되고 1초 단위로 랜덤 억세스가 가능하게 된다. 도 6의 실시예에서는, 픽쳐 610 및 픽쳐 620이 랜덤 억세스 픽쳐에 해당될 수 있으므로, 일례로‘인트라 주기’는 8일 수 있다.
한편, 영상의 코딩 구조에는 상술한 계층적 B 구조뿐만 아니라, I 픽쳐 및 P 픽쳐만을 기반으로 하는 코딩 구조가 있을 수 있다. 이러한 코딩 구조에서 영상 시퀀스는 일례로, {I, P, P, P, P, P,…}와 같이 구성될 수 있다. 여기서, I는 I 픽쳐를, P는 P 픽쳐를 의미할 수 있다. I 픽쳐 및 P 픽쳐만을 기반으로 하는 코딩 구조에서는 픽쳐의 출력 순서와 부호화/복호화 순서가 동일하므로, 모든 픽쳐가 복호화되자마자 출력될 수 있다. 따라서, 상술한 코딩 구조에서는 계층적 B 구조에 비해 딜레이가 적게 발생할 수 있다. 이하, 본 명세서에서는 상술한 바와 같이 I 픽쳐 및 P 픽쳐만을 기반으로 하는 코딩 구조를 ‘로우 딜레이 구조(low delay structure)’라 지칭하기로 한다.
로우 딜레이 구조에서는, 계층적 B 구조에서와 유사하게 랜덤 억세스가 수행될 수 있는 지점에, 랜덤 억세스 픽쳐가 위치할 수 있다. 또한, 상술한 바와 같이, 복수의 픽쳐가 출력 순서에 따라 배열되는 영상 시퀀스에 랜덤 억세스 픽쳐가 삽입되는 주기는 ‘인트라 주기(intra period)’로 불릴 수 있다.

도 7은 영상의 코딩 구조가 계층적 B 구조인 경우, 카메라 파라미터에 대해 예측 차분 코딩을 수행하는 방법의 일 실시예를 개략적으로 나타내는 도면이다.
상술한 바와 같이, 시변 파라미터의 값은 시간에 따라 변화할 수 있으므로, 영상에 할당된 POC 값에 따라 상기 영상에 대응하는 시변 파라미터의 값도 달라질 수 있다. 도 7은 0에서 8까지의 POC 값 각각에 대응하는 시변 파라미터의 값을 도시한다. 도 7의 실시예에서는 전송되는 시변 파라미터가 근접 클리핑 파라미터(Zn)인 경우에 대해 서술되나, 본 발명은 이에 한정되지 않는다. 즉, 도 7의 실시예에 따른 예측 차분 코딩 방식은 근접 클리핑 파라미터(Zn)가 아닌 다른 시변 파라미터에도 동일한 방식으로 적용될 수 있다.
한편, 도 7의 실시예에서 픽쳐의 인트라 주기는 8이라 가정한다. 즉, 도 7에서는 복수의 픽쳐가 출력 순서에 따라 배열된 영상 시퀀스 내에서 8개의 픽쳐마다 한 개의 랜덤 억세스 픽쳐가 위치할 수 있다. 따라서, 도 7에서와 같은 계층적 B 구조는 랜덤 억세스 구조로도 불릴 수 있다.
또한, 도 7의 실시예에서 POC 값이 0인 픽쳐는 영상 시퀀스의 시작 지점에 위치하는 픽쳐일 수 있고, 랜덤 억세스 픽쳐에 해당될 수 있다. 여기서, 인트라 주기는 8이므로, 상기 랜덤 억세스 픽쳐에 가장 가까이 위치한 다음 랜덤 억세스 픽쳐는, POC 값이 8인 픽쳐일 수 있다. 도 7에서 인트라 주기는 8이고 POC 값이 0인 픽쳐는 랜덤 억세스 픽쳐에 해당되므로, (할당된 POC값 % 8)의 값이 0인 픽쳐는 랜덤 억세스 픽쳐로 볼 수 있다. 여기서, x%y는 x를 y로 나눈 나머지 값을 의미할 수 있다. POC 값이 0인 경우 (POC 값(0) % 8)의 값이 0이고, POC 값이 8인 경우 (POC 값(8) % 8)의 값이 0이므로, POC 값이 0인 픽쳐 및 POC 값이 8인 픽쳐는 랜덤 억세스 픽쳐에 해당될 수 있다.
도 6에서 상술한 바와 같이, 계층적 B 구조에서는 픽쳐의 출력 순서 및 부호화/복호화 순서가 서로 다를 수 있다. 따라서, 일례로 POC 순서상 서로 가장 인접한 두 개의 랜덤 억세스 픽쳐가 POC 순서상 상기 두 개의 랜덤 억세스 픽쳐 사이에 위치하는 픽쳐들보다 먼저 부호화되거나 및/또는 복호화될 수 있다.
POC 순서상 하나의 인트라 주기의 첫 번째에 위치한 픽쳐는 랜덤 억세스 픽쳐에 해당될 수 있다. 이 때, 3D 비디오 부호화기는 랜덤 억세스 픽쳐에 대응하는 카메라 파라미터(이하, 랜덤 억세스 카메라 파라미터라 함)에 예측 차분 코딩 방식을 적용하지 않을 수 있다. 즉, POC 순서상 하나의 인트라 주기의 첫 번째에 위치한 카메라 파라미터(랜덤 억세스 카메라 파라미터)의 경우에는, 그 값 자체가 부호화되어 전송될 수 있다. 이는 랜덤 억세스 카메라 파라미터가 POC 순서상 상기 카메라 파라미터 이전에 위치하는 카메라 파라미터를 참조하지 않도록 함으로써, 랜덤 억세스가 가능하도록 하기 위함이다.
POC 순서상 서로 가장 인접한 두 개의 랜덤 억세스 카메라 파라미터가 부호화된 후, 3D 비디오 부호화기는 상기 두 개의 랜덤 억세스 카메라 파라미터 사이에 위치한 다른 부호화 대상 카메라 파라미터들 각각에 대해, 예측 차분 코딩 방식을 기반으로 부호화를 수행할 수 있다.
3D 비디오 부호화기는 상기 두 개의 랜덤 억세스 카메라 파라미터를 기반으로, 부호화 대상 카메라 파라미터에 대한 예측을 수행할 수 있다. 이 때, 각 부호화 대상 카메라 파라미터의 값은, 상기 두 개의 랜덤 억세스 카메라 파라미터 값의 선형 보간(linear interpolation)에 의해 예측될 수 있다. 즉, 3D 비디오 부호화기는 두 개의 랜덤 억세스 카메라 파라미터 값의 선형 보간에 의해 부호화 대상 카메라 파라미터의 예측 값을 도출할 수 있다. 이 때, 3D 비디오 부호화기는 부호화 대상 카메라 파라미터 값 및 예측된 카메라 파라미터 값의 차분에 의해 잔차 카메라 파라미터 값을 도출할 수 있다. 이 경우에는 잔차 카메라 파라미터가 부호화되어 3D 비디오 복호화기로 전송될 수 있다.
3D 비디오 복호화기는 부호화된 랜덤 억세스 카메라 파라미터를 수신하여 복호화함으로써, 랜덤 억세스 카메라 파라미터 값을 도출할 수 있다. 상술한 바와 같이 랜덤 억세스 카메라 파라미터에는 예측 차분 코딩 방식이 적용되지 않으므로, 3D 비디오 복호화기는 예측 과정 수행 없이도 랜덤 억세스 카메라 파라미터 값을 도출할 수 있다.
POC 순서상 서로 가장 인접한 두 개의 랜덤 억세스 카메라 파라미터가 복호화된 후, 3D 비디오 복호화기는 상기 두 개의 랜덤 억세스 카메라 파라미터 사이에 위치한 다른 복호화 대상 카메라 파라미터들 각각에 대해, 예측 차분 코딩 방식을 기반으로 복호화를 수행할 수 있다.
3D 비디오 복호화기는 상기 두 개의 랜덤 억세스 카메라 파라미터를 기반으로, 복호화 대상 파라미터에 대한 예측을 수행할 수 있다. 이 때, 각 복호화 대상 파라미터의 값은, 상기 두 개의 랜덤 억세스 카메라 파라미터 값의 선형 보간에 의해 예측될 수 있다. 즉, 3D 비디오 복호화기는 두 개의 랜덤 억세스 카메라 파라미터 값의 선형 보간에 의해 복호화 대상 카메라 파라미터의 예측 값을 도출할 수 있다. 한편, 상술한 바와 같이, 3D 비디오 부호화기는 부호화된 잔차 카메라 파라미터를 복호화기로 전송할 수 있다. 3D 비디오 복호화기는 전송된 정보를 수신하여 복호화함으로써, 잔차 카메라 파라미터 값을 도출할 수 있다. 이 때, 3D 비디오 복호화기는 예측된 카메라 파라미터 값에 잔차 카메라 파라미터 값을 더함으로써, 복호화 대상 카메라 파라미터에 대응하는 실제 카메라 파라미터 값을 도출할 수 있다.
한편, 상술한 실시예서는 서로 인접한 두 개의 랜덤 억세스 카메라 파라미터를 기반으로, POC 순서상 상기 두 개의 랜덤 억세스 카메라 파라미터 사이에 위치한 카메라 파라미터의 값이 예측되는 경우의 실시예가 서술되고 있으나, 본 발명은 이에 한정되지 않는다. 예를 들어, 하나의 랜덤 억세스 카메라 파라미터가 부호화(및/또는 복호화)된 후에 바로 부호화(및/또는 복호화)되는 카메라 파라미터는 랜덤 억세스 카메라 파라미터가 아닐 수도 있다.
일 실시예로, 랜덤 억세스 카메라 파라미터를 제1 카메라 파라미터라 하고, 상기 랜덤 억세스 카메라 파라미터가 부호화(및/또는 복호화)된 후에 바로 부호화(및/또는 복호화)되는 카메라 파라미터를 제2 카메라 파라미터라 하고, POC 순서상 제1 카메라 파라미터와 제2 카메라 파라미터 사이에 위치하는 카메라 파라미터는 제3 카메라 파라미터라 한다. 이 때, 제2 카메라 파라미터에 대응하는 POC 값은 제1 카메라 파라미터에 대응하는 POC 값보다 클 수 있다.
상술한 바와 같이 제1 카메라 파라미터(랜덤 억세스 카메라 파라미터)에는 예측 차분 코딩 방식이 적용되지 않을 수 있다. 즉, 제1 카메라 파라미터의 경우에는, 그 값 자체가 부호화되어 전송될 수 있다.
이 때, 제2 카메라 파라미터는 상기 제1 카메라 파라미터를 기반으로 부호화/복호화될 수 있다. 일례로, 3D 비디오 부호화기 및 3D 비디오 복호화기는 제1 카메라 파라미터의 값을 제2 카메라 파라미터의 예측 값으로 결정할 수 있다. 예측 값을 기반으로 제2 카메라 파라미터를 부호화/복호화하는 과정은 상술한 실시예에서와 동일하므로, 여기서는 생략하기로 한다.
또한, 제3 카메라 파라미터는 제1 카메라 파라미터 및 제2 카메라 파라미터를 기반으로 부호화/복호화될 수 있다. 일례로, 3D 비디오 부호화기 및 3D 비디오 복호화기는 제1 카메라 파라미터 값 및 제2 카메라 파라미터 값의 선형 보간에 의해 제3 카메라 파라미터의 예측 값을 도출할 수 있다. 예측 값을 기반으로 제3 카메라 파라미터를 부호화/복호화하는 과정은 상술한 실시예에서와 동일하므로, 여기서는 생략하기로 한다.
도 7은 서로 인접한 두 개의 랜덤 억세스 카메라 파라미터를 기반으로, POC 순서상 상기 두 개의 랜덤 억세스 카메라 파라미터 사이에 위치한 카메라 파라미터의 값이 예측되는 경우의 실시예를 도시한다.
도 7을 참조하면, POC 값이 0인 카메라 파라미터(Zn,poc=0, 710) 및 POC 값이 8인 카메라 (Zn,poc=8, 720) 파라미터는 랜덤 억세스 카메라 파라미터에 해당될 수 있다. 일례로, 3D 비디오 부호화기는 POC 값이 0인 카메라 파라미터(710)를 부호화한 후에 POC 값이 8인 카메라 파라미터(720)를 부호화할 수 있다. 이 경우에는, 예측 차분 코딩 방식이 적용되지 않을 수 있으며, 상기 두 개의 랜덤 억세스 카메라 파라미터는 그 값 자체로 부호화될 수 있다.
또한, 도 7의 실시예에서는, 상기 두 개의 랜덤 억세스 카메라 파라미터(710, 720)의 부호화 후에, POC 값이 4인 카메라 파라미터(Zn,poc=4, 730)가 부호화될 수 있다. 이 때, 상기 카메라 파라미터(730)의 예측 값(Zn,poc=4’, 740)은 두 개의 랜덤 억세스 카메라 파라미터 값(710, 720)의 선형 보간에 의해 도출될 수 있다. 3D 비디오 부호화기는 실제 카메라 파라미터 값(730) 및 예측된 카메라 파라미터 값(740) 간의 차이 값에 해당하는 잔차 카메라 파라미터 값(Zn,poc=4,diff)을 부호화하여 복호화기로 전송할 수 있다. POC 값이 4인 카메라 파라미터(730)에 대한 잔차 카메라 파라미터 값은 다음 수학식 4에 의해 계산될 수 있다.
[수학식 4]
Zn,poc=4,diff = Zn,poc=4 - Zn,poc=4

3D 비디오 복호화기는 부호화된 랜덤 억세스 카메라 파라미터를 수신하여 복호화함으로써, 랜덤 억세스 카메라 파라미터 값을 도출할 수 있다. 일례로, 도 7의 실시예에서 3D 비디오 복호화기는 0의 POC 값에 대응하는 랜덤 억세스 카메라 파라미터(710)를 복호화한 후에 8의 POC 값에 대응하는 랜덤 억세스 카메라 파라미터(720)를 복호화할 수 있다. 이 경우에는, 예측 차분 코딩 방식이 적용되지 않을 수 있으며, 상기 두 개의 랜덤 억세스 카메라 파라미터 값(710, 720)은 예측 과정 없이도 도출될 수 있다.
또한, 도 7의 실시예에서는, 두 개의 랜덤 억세스 카메라 파라미터(710, 720)가 복호화된 후에, 4의 POC 값에 대응하는 카메라 파라미터(730)가 복호화될 수 있다. 이 때, 상기 카메라 파라미터(730)의 예측 값(740)은 두 개의 랜덤 억세스 카메라 파라미터 값(710, 720)의 선형 보간에 의해 도출될 수 있다. 한편, 상술한 바와 같이, 3D 비디오 부호화기는 부호화된 잔차 카메라 파라미터(Zn,poc=4,diff)를 복호화기로 전송할 수 있다. 3D 비디오 복호화기는 전송된 정보를 수신하여 복호화함으로써, 잔차 카메라 파라미터 값(Zn,poc=4,diff)을 도출할 수 있다. 이 때, 3D 비디오 복호화기는 예측된 카메라 파라미터 값(740)에 잔차 카메라 파라미터 값을 더함으로써, 복호화 대상 카메라 파라미터에 대응하는 실제 카메라 파라미터 값(730)을 도출할 수 있다. 이는 다음 수학식 5와 같이 나타내어질 수 있다.
[수학식 5]
Zn,poc=4 = Zn,poc=4’+ Zn,poc=4,diff

상술한 카메라 파라미터 부호화/복호화 방식은 POC 값이 4인 카메라 파라미터 뿐만 아니라, 1, 2, 3, 5, 6 및 7의 POC 값에 대응하는 카메라 파라미터에도 동일한 방식으로 적용될 수 있다.
한편, 상술한 실시예에서는 랜덤 억세스 카메라 파라미터들이 모두 그 값 자체로 부호화되지만, 본 발명은 이에 한정되는 것은 아니다. 일례로, POC가 0이 아닌 랜덤 억세스 카메라 파라미터들은 예측 차분 코딩 방식을 기반으로 부호화될 수도 있다. 이 때, 상기 랜덤 억세스 카메라 파라미터에 대한 예측은 POC 순서상 상기 랜덤 억세스 카메라 파라미터에 가장 가까이 위치한 이전 랜덤 억세스 카메라 파라미터를 기반으로 수행될 수 있다.

도 8은 영상의 코딩 구조가 로우 딜레이 구조인 경우, 카메라 파라미터에 대해 예측 차분 코딩을 수행하는 방법의 일 실시예를 개략적으로 나타내는 도면이다.
상술한 바와 같이, 시변 파라미터의 값은 시간에 따라 변화할 수 있으므로, 영상에 할당된 POC 값에 따라 상기 영상에 대응하는 시변 파라미터의 값도 달라질 수 있다. 도 8은 0에서 8까지의 POC 값 각각에 대응하는 시변 파라미터의 값을 도시한다. 도 8의 실시예에서는 전송되는 시변 파라미터가 근접 클리핑 파라미터(Zn)인 경우에 대해 서술되나, 본 발명은 이에 한정되지 않는다. 즉, 도 8의 실시예에 따른 예측 차분 코딩 방식은 근접 클리핑 파라미터(Zn)가 아닌 다른 시변 파라미터에도 동일한 방식으로 적용될 수 있다.
한편, 도 8의 실시예에서 픽쳐의 인트라 주기는 8이라 가정한다. 즉, 도 8에서는 복수의 픽쳐가 출력 순서에 따라 배열된 영상 시퀀스 내에서 8개의 픽쳐마다 한 개의 랜덤 억세스 픽쳐가 위치할 수 있다.
또한, 도 8의 실시예에서 POC 값이 0인 픽쳐는 영상 시퀀스의 시작 시점에 위치하는 픽쳐일 수 있고, 랜덤 억세스 픽쳐에 해당될 수 있다. 여기서, 인트라 주기는 8이므로, 상기 랜덤 억세스 픽쳐에 가장 가까이 위치한 다음 랜덤 억세스 픽쳐는, POC 값이 8인 픽쳐일 수 있다. 도 8에서 인트라 주기는 8이고 POC 값이 0인 픽쳐는 랜덤 억세스 픽쳐에 해당되므로, (할당된 POC값 % 8)의 값이 0인 픽쳐는 랜덤 억세스 픽쳐로 볼 수 있다. POC 값이 0인 경우 (POC 값(0) % 8)의 값이 0이고, POC 값이 8인 경우 (POC 값(8) % 8)의 값이 0이므로, POC 값이 0인 픽쳐 및 POC 값이 8인 픽쳐는 랜덤 억세스 픽쳐에 해당될 수 있다.
도 6에서 상술한 바와 같이, 로우 딜레이 구조에서는 픽쳐의 출력 순서 및 부호화/복호화 순서가 서로 동일할 수 있다. 따라서, 로우 딜레이 구조에서는 일례로, 픽쳐의 출력 순서와 동일한 순서로 픽쳐들이 부호화되거나 및/또는 복호화될 수 있다. 이 경우, 모든 픽쳐가 복호화 후에 바로 출력될 수 있으므로 계층적 B 구조에 비해 딜레이가 적게 발생할 수 있다.
로우 딜레이 구조에서, 3D 비디오 부호화기는 0의 POC 값에 대응하는 카메라 파라미터에 예측 차분 코딩 방식을 적용하지 않을 수 있다. 즉, 복수의 픽쳐가 출력 순서에 따라 배열된 영상 시퀀스의 첫 번째 픽쳐에 대응하는 카메라 파라미터에는, 예측 차분 코딩 방식이 적용되지 않을 수 있다. 따라서, 0의 POC 값에 대응하는 카메라 파라미터의 경우에는, 그 값 자체가 부호화되어 전송될 수 있다. 또한, 로우 딜레이 구조에서는 계층적 B 구조에서와 마찬가지로 모든 랜덤 억세스 픽쳐에 대해 예측 차분 코딩 방식이 적용되지 않을 수도 있다. 이는 랜덤 억세스 카메라 파라미터가 POC 순서상 상기 카메라 파라미터 이전에 위치하는 카메라 파라미터를 참조하지 않도록 함으로써, 랜덤 억세스가 가능하도록 하기 위함이다.
POC 값 0에 대응하는 카메라 파라미터가 부호화된 후, 3D 비디오 부호화기는 POC 순서상 상기 카메라 파라미터 다음에 위치하는 카메라 파라미터들 각각에 대해, 예측 차분 코딩 방식을 기반으로 부호화를 수행할 수 있다.
일 실시예로, 하나의 인트라 주기에 포함되는 N개의 카메라 파라미터들은 {p0, p1, …, pn,…, pN-1}을 포함할 수 있다(N은 양의 정수이고, n은 0 이상 N-1 이하의 정수임). 여기서, pn은 POC 값 n에 대응되는 카메라 파라미터를 의미할 수 있으며, p0는 랜덤 억세스 카메라 파라미터에 해당될 수 있다. 후술되는 실시예들은 랜덤 억세스 카메라 파라미터가 0의 POC 값을 갖는 경우를 기준으로 서술되지만, 본 발명은 이에 한정되지 않는다. 예를 들어, 후술되는 실시예들은 0이 아닌 다른 POC 값(예를 들어, N, 2N 등)을 갖는 랜덤 억세스 카메라 파라미터를 포함하는 인트라 주기에 대해서도, 동일하거나 유사한 방식으로 적용될 수 있다. 이 경우, 상기 인트라 주기에 포함되는 N개의 카메라 파라미터들은 {pkN, pkN+1, …, pm,…, p(k+1)N-1}로 나타내어질 수 있고(N은 양의 정수이고, k는 0 이상의 정수이고, m은 kN 이상 (k+1)N-1 이하의 정수임), pkN은 랜덤 억세스 카메라 파라미터에 해당될 수 있다. 여기서, m은 kN+n에 해당되므로, 후술되는 실시예들이 pn에 적용되는 경우에는 pn+kN에 대해서도 동일한 방식으로 적용될 수 있다.
POC 값 1에 대응되는 카메라 파라미터(p1)에 대한 부호화 과정은 POC 값 0을 갖는 카메라 파라미터(p0)를 기반으로 수행될 수 있다. 이 때, 3D 비디오 부호화기는 카메라 파라미터 p0의 값을, 카메라 파라미터 p1의 예측 값으로 결정할 수 있다. 카메라 파라미터 p1의 예측 값이 결정되면, 3D 비디오 부호화기는 카메라 파라미터 p1의 원본 값 및 카메라 파라미터 p1의 예측 값의 차분에 의해, 카메라 파라미터 p1에 대응하는 잔차 카메라 파라미터 값을 도출할 수 있다. 이 경우, 3D 비디오 부호화기는 상기 잔차 카메라 파라미터를 부호화하여 복호화기로 전송할 수 있다.
또한, 2 이상의 POC 값을 갖는 카메라 파라미터(pn, 여기서, n은 2 이상의 정수임)에 대한 부호화 과정은 상기 카메라 파라미터(pn)보다 작은 POC 값을 갖는 복수의 카메라 파라미터를 기반으로 수행될 수 있다. 즉, 카메라 파라미터 pn의 값은 카메라 파라미터 pn 보다 작은 POC 값을 갖는 복수의 카메라 파라미터를 기반으로 예측될 수 있다.
일례로, 카메라 파라미터 pn의 예측 값은 카메라 파라미터 pn-2 및 카메라 파라미터 pn-1 의 선형 보간에 의해 결정될 수 있다. 다른 예로, 카메라 파라미터 pn의 예측 값은 카메라 파라미터 p0(카메라 파라미터 pn 에 대응하는 POC 값에 관계 없이 POC 값 0을 갖는 카메라 파라미터가 사용됨) 및 카메라 파라미터 pn-1 의 선형 보간에 의해 결정될 수 있다. 또 다른 예로, 카메라 파라미터 pn의 예측 값은 카메라 파라미터 p0 및 카메라 파라미터 p1의 선형 보간에 의해 결정될 수 있다. 이 경우에는, 카메라 파라미터 pn에 대응하는 POC 값에 관계 없이, 카메라 파라미터 p0 및 카메라 파라미터 p1이 카메라 파라미터 pn의 예측에 사용될 수 있다.
카메라 파라미터 pn의 예측 값이 결정되면, 3D 비디오 부호화기는 카메라 파라미터 p1의 원본 값 및 카메라 파라미터 p1의 예측 값의 차분에 의해, 카메라 파라미터 p1에 대응하는 잔차 카메라 파라미터 값을 도출할 수 있다. 이 경우, 3D 비디오 부호화기는 상기 잔차 카메라 파라미터를 부호화하여 복호화기로 전송할 수 있다.
3D 비디오 복호화기는 부호화된 카메라 파라미터 p0를 수신하여 복호화함으로써, 카메라 파라미터 p0의 값을 도출할 수 있다. 상술한 바와 같이, 카메라 파라미터 p0에는 예측 차분 코딩 방식이 적용되지 않으므로, 3D 비디오 복호화기는 예측 과정 수행 없이도 카메라 파라미터 p0의 값을 복원할 수 있다.
카메라 파라미터 p0가 복호화된 후, 3D 비디오 복호화기는 POC 순서상 상기 카메라 파라미터 p0 다음에 위치하는 카메라 파라미터들 각각에 대해, 예측 차분 코딩 방식을 기반으로 복호화를 수행할 수 있다.
카메라 파라미터 p1에 대한 복호화 과정은 이미 복호화된 카메라 파라미터 p0를 기반으로 수행될 수 있다. 이 때, 3D 비디오 복호화기는 카메라 파라미터 p0의 값을, 카메라 파라미터 p1의 예측 값으로 결정할 수 있다. 한편, 3D 비디오 복호화기는 부호화기로부터 부호화된 잔차 카메라 파라미터 정보를 수신할 수 있다. 3D 비디오 복호화기는 수신된 정보를 복호화함으로써, 카메라 파라미터 p1에 대응하는 잔차 카메라 파라미터 값을 도출할 수 있다. 이 때, 3D 비디오 복호화기는 카메라 파라미터 p1의 예측 값 및 카메라 파라미터 p1에 대응하는 잔차 카메라 파라미터 값을 더함으로써, 카메라 파라미터 p1의 값을 결정할 수 있다.
또한, 2 이상의 POC 값을 갖는 카메라 파라미터(pn, 여기서, n은 2 이상의 정수임)에 대한 복호화 과정은 상기 카메라 파라미터(pn)보다 작은 POC 값을 갖는 이미 복호화된 복수의 카메라 파라미터를 기반으로 수행될 수 있다. 즉, 카메라 파라미터 pn의 값은 카메라 파라미터 pn 보다 작은 POC 값을 갖는 복수의 카메라 파라미터를 기반으로 예측될 수 있다. 이 때, 3D 비디오 복호화기는 부호화기에서와 동일한 방식으로 예측을 수행함으로써, 카메라 파라미터 pn의 예측 값을 결정할 수 있다. 카메라 파라미터 pn의 예측 방식의 실시예들은 상술한 바 있으므로, 여기서는 생략하기로 한다.
한편, 상술한 바와 같이, 3D 비디오 복호화기는 부호화기로부터 부호화된 잔차 카메라 파라미터 정보를 수신할 수 있다. 3D 비디오 복호화기는 수신된 정보를 복호화함으로써, 카메라 파라미터 pn에 대응하는 잔차 카메라 파라미터 값을 도출할 수 있다. 이 때, 3D 비디오 복호화기는 카메라 파라미터 pn의 예측 값 및 카메라 파라미터 pn에 대응하는 잔차 카메라 파라미터 값을 더함으로써, 카메라 파라미터 pn의 값을 결정할 수 있다.
도 8을 참조하면, 3D 비디오 부호화기는 POC 값 0에 대응하는 카메라 파라미터(Zn,poc=0, 810)를 부호화할 수 있다. 이 경우에는, 예측 차분 코딩 방식이 적용되지 않을 수 있으며, 상기 카메라 파라미터(810)는 그 값 자체로 부호화되어 전송될 수 있다.
또한, 도 8의 실시예에서는, POC 값 0에 대응하는 카메라 파라미터(810)가 부호화된 후에, POC 값 1에 대응하는 카메라 파라미터(Zn,poc=1, 820)가 부호화될 수 있다. 이 때, 3D 비디오 부호화기는 POC 값 0에 대응하는 카메라 파라미터(810)의 값을 POC 값 1에 대응하는 카메라 파라미터의 예측 값(Zn,poc=1’, 830)으로 결정할 수 있다. 또한, 3D 비디오 부호화기는 POC 값 1에 대응하는 카메라 파라미터(820)의 원본 값 및 예측된 카메라 파라미터 값(830) 간의 차이 값에 해당하는 잔차 카메라 파라미터 값(Zn,poc=1,diff)을 부호화하여 복호화기로 전송할 수 있다. POC 값 1을 갖는 카메라 파라미터(820)에 대응하는 잔차 카메라 파라미터 값은, 다음 수학식 6에 의해 계산될 수 있다.
[수학식 6]
Zn,poc=1,diff = Zn,poc=1 - Zn,poc=1

또한, 도 8의 실시예에서는, POC 값 1에 대응하는 카메라 파라미터(820)가 부호화된 후에, POC 값 2에 대응하는 카메라 파라미터(Zn,poc=2, 840)가 부호화될 수 있다. 이 때, 상기 카메라 파라미터의 예측 값(Zn,poc=2’, 850)은 POC 값 0을 갖는 카메라 파라미터(810) 및 POC 값 1을 갖는 카메라 파라미터(820)의 선형 보간에 의해 도출될 수 있다. 3D 비디오 부호화기는 POC 값 2에 대응하는 카메라 파라미터(840)의 원본 값 및 예측된 카메라 파라미터 값(850) 간의 차이 값에 해당하는 잔차 카메라 파라미터 값(Zn,poc=2,diff)을 부호화하여 복호화기로 전송할 수 있다. POC 값 2를 갖는 카메라 파라미터(840)에 대응하는 잔차 카메라 파라미터 값은, 다음 수학식 7에 의해 계산될 수 있다.
[수학식 7]
Zn,poc=2,diff = Zn,poc=2 - Zn,poc=2

3D 비디오 복호화기는 부호화된 카메라 파라미터를 수신하여 복호화함으로써, 카메라 파라미터의 값을 도출할 수 있다. 일례로, 도 8의 실시예에서 3D 비디오 복호화기는 POC 값 0에 대응하는 카메라 파라미터(810)를 복호화할 수 있다. 이 경우에는, 예측 차분 코딩 방식이 적용되지 않을 수 있으며, POC 값 0에 대응하는 카메라 파라미터(810)의 값은 예측 과정 없이도 도출될 수 있다.
또한, 도 8의 실시예에서는, POC 값 0을 갖는 카메라 파라미터(810)가 복호화된 후에, POC 값 1을 갖는 카메라 파라미터(820)가 복호화될 수 있다. 이 경우에는, 이미 복호화된 카메라 파라미터 Zn,poc=0(810)만이 예측에 사용될 수 있다. 이 때, 3D 비디오 복호화기는 상기 복호화된 카메라 파라미터(810)의 값을 POC 값 1에 대응하는 카메라 파라미터의 예측 값(Zn,poc=1’, 830)으로 결정할 수 있다. 한편, 상술한 바와 같이, 3D 비디오 부호화기는 부호화된 잔차 카메라 파라미터(Zn,poc=1,diff)를 복호화기로 전송할 수 있다. 3D 비디오 복호화기는 전송된 정보를 수신하여 복호화함으로써, 잔차 카메라 파라미터 값(Zn,poc=1,diff)을 도출할 수 있다. 이 때, 3D 비디오 복호화기는 예측된 카메라 파라미터 값(830)에 잔차 카메라 파라미터 값을 더함으로써, POC 값 1에 대응하는 실제 카메라 파라미터(820)의 값을 도출할 수 있다. 이는 다음 수학식 8과 같이 나타내어질 수 있다.
[수학식 8]
Zn,poc=1 = Zn,poc=1’+ Zn,poc=1,diff


또한, 도 8의 실시예에서는, POC 값 1을 갖는 카메라 파라미터(820)가 복호화된 후에, POC 값 2를 갖는 카메라 파라미터(840)가 복호화될 수 있다. 이 때, 상기 카메라 파라미터의 예측 값(Zn,poc=2’, 850)은 POC 값 0을 갖는 카메라 파라미터(810) 및 POC 값 1을 갖는 카메라 파라미터(820)의 선형 보간에 의해 도출될 수 있다. 한편, 상술한 바와 같이, 3D 비디오 부호화기는 부호화된 잔차 카메라 파라미터(Zn,poc=2,diff)를 복호화기로 전송할 수 있다. 3D 비디오 복호화기는 전송된 정보를 수신하여 복호화함으로써, POC 값 2에 대응되는 잔차 카메라 파라미터 값(Zn,poc=2,diff)을 도출할 수 있다. 이 때, 3D 비디오 복호화기는 예측된 카메라 파라미터 값(850)에 잔차 카메라 파라미터 값을 더함으로써, POC 값 2에 대응하는 실제 카메라 파라미터(840)의 값을 도출할 수 있다. 이는 다음 수학식 9과 같이 나타내어질 수 있다.
[수학식 9]
Zn,poc=2 = Zn,poc=2’+ Zn,poc=2,diff

상술한 카메라 파라미터 부호화/복호화 방식은 POC 값이 2보다 큰 다른 시변 파라미터에 대해서도 동일하거나 유사한 방식으로 적용될 수 있다.

한편, 상술한 실시예들에서와 같이, 카메라 파라미터(시변 파라미터) 부호화/복호화에 예측 차분 코딩 방식이 적용되는 경우, 3D 비디오 부호화기는 시변 파라미터에 관련된 정보를 복호화기로 전송할 필요가 있다. 시변 파라미터에 관련된 정보는 SPS(Sequence Parameter set), PPS(Picture Parameter set) 및/또는 슬라이스 헤더(slice header)에 포함되어 비트 스트림을 통해 3D 비디오 복호화기로 전송될 수 있다.
3D 비디오 부호화기에서 3D 비디오 복호화기로 전송되는 시변 파라미터 관련 정보에는, 예를 들어 시변 파라미터 플래그 정보, 시변 파라미터 예측 플래그 정보, 제1 개수 정보, 시변 파라미터 ID 정보, 제2 개수 정보 및 전송 값 정보 등이 있을 수 있다. 이하, 상술한 각각의 정보에 대한 구체적인 실시예들이 서술된다.
시변 파라미터 플래그 정보는 현재 시퀀스에 시간에 따라 변화하는 시변 파라미터가 존재하는지 여부를 지시할 수 있다. 일례로, 상기 시변 파라미터 플래그 정보는 varying_camera_parameter_flag로 나타내어질 수 있다. 여기서, varying_camera_parameter_flag에 0이 할당되면, 상기 플래그는 현재 시퀀스에 시변 파라미터가 존재함을 나타낼 수 있다. 또한, varying_camera_parameter_flag에 1이 할당되면, 상기 플래그는 현재 시퀀스에 시변 파라미터가 존재하지 않음을 나타낼 수 있다.
시변 파라미터 예측 플래그 정보는, 시변 파라미터에 대해 예측이 수행되는지 여부를 지시할 수 있다. 시변 파라미터에 대해 예측이 수행되지 않는 경우, 3D 비디오 부호화기는 상기 시변 파라미터의 값이 변할 때마다 변화된 시변 파라미터 값 자체를 3D 비디오 복호화기로 전송할 수 있다. 그러나, 3D 비디오 부호화기는 시변 파라미터의 값이 바로 이전에 전송된 시변 파라미터와 동일할 때에는, 즉 시변 파라미터의 값이 변하지 않을 때에는 해당 시변 파라미터의 값을 전송하지 않을 수도 있다. 슬라이스 및/또는 픽쳐에 대응하는 시변 파라미터의 값이 전송되지 않는 경우, 3D 비디오 복호화기는 이전에 전송된 시변 파라미터 값 중에서 가장 최근에 전송된 값을 상기 슬라이스 및/또는 상기 픽쳐에 대응하는 시변 파라미터 값으로 사용할 수 있다. 시변 파라미터에 대해 예측이 수행되는 경우에는, 상기 시변 파라미터에 대해 상술한 예측 차분 코딩 방식을 기반으로 부호화/복호화가 수행될 수 있다. 시변 파라미터에 대해 예측 차분 코딩 방식 기반의 부호화/복호화가 수행되는 경우, 복원된 파라미터 값이 예측을 위해 저장되어야 하므로, 참조 픽쳐 리스트에서 사용되는 것과 같은 메모리 구조가 사용될 수 있다.
일례로, 상기 시변 파라미터 예측 플래그는 predict_varying_camera_parameter_flag로 나타내어질 수 있다. 여기서, predict_varying_camera_parameter_flag에 0이 할당되면, 상기 플래그는 시변 파라미터에 대해 예측이 수행됨을 나타낼 수 있다. 또한, varying_camera_parameter_flag에 1이 할당되면, 상기 플래그는 시변 파라미터에 대해 예측이 수행되지 않음을 나타낼 수 있다.
시변 파라미터 관련 정보 중에서 제1 개수 정보는, 시변 파라미터에 해당되는 카메라 파라미터 타입이 몇 개인지를 지시할 수 있다. 여기서, 시변 파라미터에 해당될 수 있는 카메라 파라미터 타입에는, 3x1 이동 벡터(T)에서 X축 이동 거리(Tx), 근접 클리핑 파라미터(Zn) 및 원거리 클리핑 파라미터(Zf) 등이 있을 수 있다. 일 실시예로, 상기 제1 개수 정보는 num_varying_camera_parameter로 나타내어질 수 있다. 예를 들어, 카메라 파라미터 중에서 근접 클리핑 파라미터(Zn)만이 시변 파라미터에 해당되는 경우, num_varying_camera_parameter에는 1이 할당될 수 있다.
또한, 시변 파라미터 관련 정보 중에서 시변 파라미터 ID 정보는 시변 파라미터가 어떤 카메라 파라미터 타입에 해당되는지를 지시할 수 있다. 일례로, 상기 시변 파라미터 ID 정보는 varying_camera_parameter_id로 나타내어질 수 있다. 이 때, 카메라 파라미터 타입에 따라 상기 varying_camera_parameter_id에 할당되는 값은, 일 실시예로 다음 표 1과 같이 정해질 수 있다.
[표 1]
Figure PCTKR2012007342-appb-I000004

표 1의 실시예를 참조하면, 시변 파라미터가 근접 클리핑 파라미터(Zn)에 해당되는 경우, 상기 시변 파라미터에 대응하는 시변 파라미터 ID에는 0이 할당될 수 있다. 또한, 시변 파라미터가 원거리 클리핑 파라미터(Zf)에 해당되는 경우, 상기 시변 파라미터에 대응하는 시변 파라미터 ID에는 1이 할당될 수 있다. 그리고, 시변 파라미터가 3x1 이동 벡터의 X축 이동 거리(Tx)에 해당되는 경우, 상기 시변 파라미터에 대응하는 시변 파라미터 ID에는 2가 할당될 수 있다.
상술한 시변 파라미터 플래그 정보, 시변 파라미터 예측 플래그 정보, 제1 개수 정보 및 시변 파라미터 ID 정보는 일 실시예로, SPS에 포함되어 3D 비디오 부호화기에서 3D 비디오 복호화기로 전송될 수 있다. SPS에서 정의되는 카메라 관련 정보의 실시예는 다음 표 2와 같이 나타내어질 수 있다.
[표 2]
Figure PCTKR2012007342-appb-I000005

표 2의 실시예를 참조하면, SPS에 포함된 시변 파라미터 플래그 정보가 현재 시퀀스에 시변 파라미터가 존재함을 지시하는 경우, 시변 파라미터 예측 플래그 정보, 제1 개수 정보 및 시변 파라미터 ID 정보가 추가로 SPS에 포함되어 복호화기로 전송될 수 있다. 따라서, 시변 파라미터 플래그 정보가 현재 시퀀스에 시변 파라미터가 존재함을 지시하는 경우, 시변 파라미터 관련 정보는 시변 파라미터 예측 플래그 정보, 제1 개수 정보 및 시변 파라미터 ID 정보를 더 포함할 수 있다. 반면, 시변 파라미터 플래그 정보가 현재 시퀀스에 시변 파라미터가 존재하지 않음을 지시하는 경우, 시변 파라미터 예측 플래그 정보, 제1 개수 정보 및 시변 파라미터 ID 정보는 복호화기로 전송되지 않을 수 있다.
한편, 상술한 시변 파라미터 관련 정보 중에서 제2 개수 정보는 현재 슬라이스(또는 현재 픽쳐)에서 전송되는 시변 파라미터(및/또는 상기 시변 파라미터에 대응하는 전송 값)의 개수를 지시할 수 있다. 여기서, 상기 현재 슬라이스(또는 현재 픽쳐)는 상술한 현재 시퀀스에 속한 슬라이스(또는 픽쳐)일 수 있다.
또한, 상술한 시변 파라미터 관련 정보 중에서 전송 값 정보는 부호화기에서 복호화기로 전송되는 전송 값을 지시할 수 있다. 이 때, 상기 전송 값은 시변 파라미터의 값 자체에 해당될 수도 있고, 상기 시변 파라미터에 대응하는 차분 카메라 파라미터의 값일 수도 있다. 예를 들어, 도 7 및 도 8에서 상술한 바와 같이 시변 파라미터가 랜덤 억세스 카메라 파라미터에 해당되는 경우(예를 들어, ‘시변 파라미터에 대응하는 POC값 % 8’이 0인 경우)에는 예측 차분 코딩 방식이 적용되지 않을 수 있으므로, 상기 시변 파라미터 값 자체가 그대로 부호화되어 전송될 수 있다. 또한, 시변 파라미터가 랜덤 억세스 카메라 파라미터에 해당되지 않는 경우(예를 들어, ‘시변 파라미터에 대응하는 POC값 % 8’이 0이 아닌 경우)에는, 예측 차분 코딩 방식이 적용될 수 있으므로, 시변 파라미터에 대응하는 차분 카메라 파라미터 값이 부호화되어 전송될 수 있다.
상기 전송 값 정보는, 일례로 precision, sign, exponent, mantissa 네 개의 신택스(syntax)에 의해 나타내어질 수 있다. 상기 네 개의 신택스는 전송 값을 부동 소수점(floating point) 형태로 나타낼 수 있다.
여기서, precision은 부호화기에서 복호화기로 전송되는 전송 값의 정확도를 지시할 수 있다. 예를 들어, precision에 할당된 값이 x인 경우에는 ‘2^(-x)’이 에러의 최대값에 해당될 수 있다. 또한, sign은 상기 전송 값이 양수인지 또는 음수인지를 지시할 수 있다. 그리고 상기 신택스 exponent 및 mantissa는 각각 부동 소수점 형태로 나타내어진 값에서, 지수부 및 가수부를 나타낼 수 있다.
상술한 제2 개수 정보 및 전송 값 정보는 일 실시예로, 슬라이스 헤더에 포함되어 3D 비디오 부호화기에서 3D 비디오 복호화기로 전송될 수 있다. 슬라이스 헤더에서 정의되는 카메라 관련 정보의 실시예는 다음 표 3과 같이 나타내어질 수 있다.
[표 3]
Figure PCTKR2012007342-appb-I000006

표 3의 실시예에서, parameter_id는 전송 값에 대응하는 카메라 파라미터 타입을 지시할 수 있다. 카메라 파라미터 타입에 따라 상기 parameter_id에 할당되는 값은, 일례로 상술한 표 1의 실시예에서 varying_camera_parameter_id에 할당되는 값과 동일하게 정해질 수 있다.
상술한 시변 파라미터 관련 정보의 실시예에서, 각각의 정보의 명칭 및 각각의 정보에 할당되는 값들은 임의적인 것으로서 변할 수 있으며, 변형된 실시예들도 상술한 실시예에서 서술된 내용과 실질적으로 동일한 기술적 사상에 해당되는 것이라면, 본 발명의 권리 범위에 포함된다 할 것이다.

도 9는 예측 잔차 코딩 방식을 기반으로 한 카메라 파라미터 부호화 방법의 일 실시예를 개략적으로 나타내는 흐름도이다.
도 9를 참조하면, 3D 비디오 부호화기는 카메라 파라미터에 대응하는 전송 값을 도출할 수 있다(S910). 카메라 파라미터가 시간에 따라 변하는 값을 갖는 시변 파라미터인 경우, 3D 비디오 부호화기는 예측 차분 코딩 방식을 기반으로 상기 카메라 파라미터에 대응하는 전송 값을 도출할 수 있다.
일례로, 상기 카메라 파라미터가 랜덤 억세스 카메라 파라미터에 해당되는 경우, 3D 비디오 부호화기는 상기 카메라 파라미터 값 자체를 전송 값으로 결정할 수 있다. 또한, 상기 카메라 파라미터가 랜덤 억세스 카메라 파라미터에 해당되지 않는 경우, 3D 비디오 부호화기는 상기 카메라 파라미터에 대한 예측을 수행함으로써, 카메라 파라미터의 예측 값을 도출할 수 있다. 이 때, 3D 비디오 부호화기는 카메라 파라미터의 원본 값 및 예측된 카메라 파라미터 값의 차이 값에 해당되는 잔차 카메라 파라미터 값을 도출할 수 있고, 상기 도출된 잔차 카메라 파라미터 값을 전송 값으로 결정할 수 있다. 이 때, 전송 값 도출 방식은 상기 카메라 파라미터에 대응하는 영상의 코딩 구조에 따라 달라질 수 있다.
전송 값 도출 방식에 대한 구체적인 실시예는 도 7 및 도 8에서 상술한 바 있으므로, 여기서는 생략하기로 한다.
다시 도 9를 참조하면, 3D 비디오 부호화기는 카메라 파라미터에 대응하는 시변 파라미터 관련 정보를 생성할 수 있다(S920). 시변 파라미터 관련 정보에는, 예를 들어 시변 파라미터 플래그 정보, 시변 파라미터 예측 플래그 정보, 제1 개수 정보, 시변 파라미터 ID 정보 및 제2 개수 정보 등이 있을 수 있다. 또한, 시변 파라미터 관련 정보는 카메라 파라미터에 대해 도출된 전송 값을 나타내는 정보도 포함할 수 있다. 시변 파라미터 관련 정보에 대한 구체적인 실시예는 상술하였으므로, 여기서는 생략하기로 한다.
시변 파라미터 관련 정보가 생성되면, 3D 비디오 부호화기는 생성된 정보를 부호화하여, 3D 비디오 복호화기로 전송할 수 있다(S930).

도 10은 예측 잔차 코딩 방식을 기반으로 한 카메라 파라미터 복호화 방법의 일 실시예를 개략적으로 나타내는 흐름도이다.
도 10을 참조하면, 3D 비디오 복호화기는 부호화된 시변 파라미터 관련 정보를 수신하여 복호화할 수 있다(S1010). 여기서 시변 파라미터 관련 정보는 복호화 대상 카메라 파라미터에 대응하는 전송 값 정보 등을 포함할 수 있다. 시변 파라미터 관련 정보의 구체적인 실시예는 상술한 바 있으므로, 여기서는 생략하기로 한다.
다시 도 10을 참조하면, 3D 비디오 복호화기는 복호화된 시변 파라미터 관련 정보를 기반으로 복호화 대상 카메라 파라미터에 대응하는 카메라 파라미터 값(복원된 카메라 파라미터 값)을 도출할 수 있다(S1020). 상기 복호화 대상 카메라 파라미터가 시간에 따라 변하는 값을 갖는 시변 파라미터인 경우, 3D 비디오 복호화기는 예측 차분 코딩 방식을 기반으로 상기 복호화 대상 카메라 파라미터에 대응하는 카메라 파라미터 값을 도출할 수 있다.
일례로, 복호화 대상 카메라 파라미터가 랜덤 억세스 카메라 파라미터에 해당되는 경우, 복호화된 전송 값 자체가 카메라 파라미터의 복원 값으로 결정될 수 있다. 또한, 복호화 대상 카메라 파라미터가 랜덤 억세스 카메라 파라미터에 해당되지 않는 경우, 복호화된 전송 값은 카메라 파라미터의 잔차 값에 해당될 수 있다. 이 때, 3D 비디오 복호화기는 복호화 대상 카메라 파라미터에 대한 예측을 수행하여 카메라 파라미터의 예측 값을 도출할 수 있고, 카메라 파라미터의 잔차 값과 카메라 파라미터의 예측 값을 더하여 카메라 파라미터의 복원 값을 도출할 수 있다. 이 때, 복원 값 도출 방식은 상기 카메라 파라미터에 대응하는 영상의 코딩 구조에 따라 달라질 수 있다.
복호화 대상 카메라 파라미터에 대응하는 복원 값 도출 방식의 구체적인 실시예는 도 7 및 도 8에서 상술한 바 있으므로, 여기서는 생략하기로 한다.

도 11은 본 발명에 따른 카메라 파라미터 부호화기 구성의 일 실시예를 개략적으로 나타내는 블록도이다. 도 11의 카메라 파라미터 부호화기(1100)는 카메라 파라미터 관련 정보 생성부(1110) 및 엔트로피 부호화부(1120)를 포함할 수 있다.
카메라 파라미터 관련 정보 생성부(1110)는 카메라 파라미터를 기반으로, 상기 카메라 파라미터에 대응하는 전송 값을 도출할 수 있다. 이 때, 상기 카메라 파라미터가 시변 파라미터에 해당되는 경우, 카메라 파라미터 관련 정보 생성부(1110)는 예측 차분 코딩 방식을 기반으로 상기 카메라 파라미터에 대응하는 전송 값을 도출할 수 있다. 예측 차분 코딩 방식의 구체적인 실시예는 상술한 바 있으므로, 여기서는 생략하기로 한다.
또한, 카메라 파라미터 관련 정보 생성부(1110)는 카메라 파라미터 관련 정보를 생성할 수 있다. 여기서, 카메라 파라미터 관련 정보는 상기 도출된 전송 값을 나타내는 정보를 포함할 수 있다. 또한, 상기 카메라 파라미터가 시변 파라미터에 해당되는 경우, 상기 카메라 파라미터 관련 정보는 상술한 시변 파라미터 플래그 정보, 시변 파라미터 예측 플래그 정보, 제1 개수 정보, 시변 파라미터 ID 정보 및 제2 개수 정보 등을 포함할 수 있다. 각각의 카메라 파라미터 관련 정보에 대한 구체적인 실시예는 상술한 바 있으므로, 여기서는 생략하기로 한다.
엔트로피 부호화부(1120)는 생성된 카메라 파라미터 관련 정보에 대한 엔트로피 부호화를 수행함으로써, 상기 카메라 파라미터에 대응하는 비트 스트림을 생성하여 출력할 수 있다.

도 12는 본 발명에 따른 카메라 파라미터 복호화기 구성의 일 실시예를 개략적으로 나타내는 블록도이다. 도 12의 카메라 파라미터 복호화기(1200)는 엔트로피 복호화부(1210) 및 카메라 파라미터 복원부(1220)를 포함할 수 있다.
엔트로피 복호화부(1210)는 카메라 파라미터에 대응하는 비트 스트림을 수신하여 엔트로피 복호화를 수행함으로써, 카메라 파라미터 관련 정보를 도출할 수 있다. 또한, 상기 카메라 파라미터가 시변 파라미터에 해당되는 경우, 상기 카메라 파라미터 관련 정보는 상술한 시변 파라미터 플래그 정보, 시변 파라미터 예측 플래그 정보, 제1 개수 정보, 시변 파라미터 ID 정보 및 제2 개수 정보 등을 포함할 수 있다. 각각의 카메라 파라미터 관련 정보에 대한 구체적인 실시예는 상술한 바 있으므로, 여기서는 생략한다.
카메라 파라미터 관련 정보는 카메라 파라미터 복원부(1220)에 입력되어, 카메라 파라미터의 복원에 사용될 수 있다. 카메라 파라미터 복원부(1220)는 카메라 파라미터 관련 정보를 기반으로, 복원된 카메라 파라미터 값을 도출할 수 있다. 이 때, 복호화 대상 카메라 파라미터가 시변 카메라 파라미터에 해당되는 경우, 카메라 파라미터 복원부(1220)는 예측 차분 코딩 방식을 기반으로 상기 복원된 카메라 파라미터 값을 도출할 수 있다. 예측 차분 코딩 방식의 구체적인 실시예는 상술한 바 있으므로, 여기서는 생략하기로 한다.

상술한 실시예에서, 방법들은 일련의 단계 또는 블록으로써 순서도를 기초로 설명되고 있지만, 본 발명은 단계들의 순서에 한정되는 것은 아니며, 어떤 단계는 상술한 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다. 또한, 당업자라면 순서도에 나타낸 단계들이 배타적이지 않고, 다른 단계가 포함되거나 순서도의 하나 또는 그 이상의 단계가 본 발명의 범위에 영향을 미치지 않고 삭제될 수 있음을 이해할 수 있을 것이다.
상술한 실시예는 다양한 양태의 예시들을 포함한다. 다양한 양태들을 나타내기 위한 모든 가능한 조합을 기술할 수는 없지만, 해당 기술 분야의 통상의 지식을 가진 자는 다른 조합이 가능함을 인식할 수 있을 것이다. 따라서, 본 발명은 이하의 특허청구범위 내에 속하는 모든 다른 교체, 수정 및 변경을 포함한다고 할 것이다.

Claims (18)

  1. 텍스쳐 영상(texture image) 및 깊이 영상(depth image)을 기반으로 3D 영상을 생성하는 3D 비디오 복호화 방법으로서,
    카메라 파라미터 관련 정보를 포함하는 영상 정보를 수신하여 복호화하는 단계;
    상기 복호화된 영상 정보를 기반으로, 서로 다른 POC(Picture Order Count) 값에 대응하는 복수의 카메라 파라미터 값을 도출하는 단계; 및
    상기 복수의 카메라 파라미터 값 중에서 적어도 하나를 기반으로, 상기 텍스쳐 영상 및 상기 깊이 영상을 복원하는 단계를 포함하되,
    상기 POC 값은 픽쳐의 출력 순서를 나타내는 값이고,
    상기 복수의 카메라 파라미터 값 중에서 적어도 하나의 카메라 파라미터 값은, 이전에 도출된 하나 이상의 카메라 파라미터 값을 기반으로 예측을 수행함으로써 도출되는 것을 특징으로 하는 3D 비디오 복호화 방법.
  2. 제 1항에 있어서,
    상기 카메라 파라미터 관련 정보는 SPS(Sequence Parameter Set), PPS(Picture Parameter Set) 또는 슬라이스 헤더(slice header)에 포함되어 전송되는 것을 특징으로 하는 3D 비디오 복호화 방법.
  3. 제 1항에 있어서,
    상기 복수의 카메라 파라미터 값은, 시간에 따라 변화하는 값을 갖는 시변 파라미터(time varying parameter)에 할당되는 값인 것을 특징으로 하는 3D 비디오 복호화 방법.
  4. 제 3항에 있어서,
    상기 시변 파라미터는 3x1 이동 벡터(translation vector)의 X축 이동 거리, 근접 클리핑 파라미터(near clipping parameter) 및 원거리 클리핑 파라미터(far clipping parameter) 중에서 적어도 하나를 포함하고,
    상기 3x1 이동 벡터는, 공간상에서 카메라의 위치를 지정하기 위해 설정된 기준 좌표계를 기준으로 하여, 상기 카메라의 초점(focal point)을 원점으로 갖는 카메라 좌표계의 위치를 나타내는 카메라 파라미터이고,
    상기 근접 클리핑 파라미터는, 상기 카메라가 촬영한 임의의 장면에서 가장 작은 깊이 값을 갖는 카메라 파라미터이고,
    상기 원거리 클리핑 파라미터는, 상기 카메라가 촬영한 임의의 장면에서 가장 큰 깊이 값을 갖는 카메라 파라미터인 것을 특징으로 하는 3D 비디오 복호화 방법.
  5. 제 4항에 있어서,
    상기 카메라 파라미터 관련 정보는, 복호화 대상 시퀀스에 상기 시변 파라미터가 존재하는지 여부를 지시하는 시변 파라미터 플래그 정보를 포함하고,
    상기 시변 파라미터 플래그 정보가, 상기 복호화 대상 시퀀스에 상기 시변 파라미터가 존재하지 않음을 지시하는 경우,
    상기 복수의 카메라 파라미터 값 도출 단계에서는,
    상기 예측을 수행하지 않는 것을 특징으로 하는 3D 비디오 복호화 방법.
  6. 제 5항에 있어서,
    상기 시변 파라미터 플래그 정보가, 상기 복호화 대상 시퀀스에 상기 시변 파라미터가 존재함을 지시하는 경우,
    상기 카메라 파라미터 관련 정보는, 상기 시변 파라미터에 대해 예측이 수행되는지 여부를 지시하는 시변 파라미터 예측 플래그 정보를 더 포함하고,
    상기 시변 파라미터 예측 플래그 정보가, 상기 시변 파라미터에 대해 예측이 수행되지 않음을 지시하는 경우,
    상기 복수의 카메라 파라미터 값 도출 단계에서는,
    상기 예측을 수행하지 않는 것을 특징으로 하는 3D 비디오 복호화 방법.
  7. 제 5항에 있어서,
    상기 시변 파라미터 플래그 정보가, 상기 복호화 대상 시퀀스에 상기 시변 파라미터가 존재함을 지시하는 경우,
    상기 카메라 파라미터 관련 정보는,
    상기 시변 파라미터가 상기 3x1 이동 벡터의 X축 이동 거리, 상기 근접 클리핑 파라미터 및 상기 원거리 클리핑 파라미터 중에서 어떤 카메라 파라미터 타입에 해당되는지를 지시하는 시변 파라미터 ID 정보를 포함하고,
    상기 복수의 카메라 파라미터 값 도출 단계에서는,
    상기 시변 파라미터 ID 정보를 기반으로 상기 복수의 카메라 파라미터 값을 도출하는 것을 특징으로 하는 3D 비디오 복호화 방법.
  8. 제 1항에 있어서,
    상기 텍스쳐 영상 및 상기 깊이 영상의 코딩 구조는 계층적 B 구조(hierarchical B structure)이고,
    상기 복수의 카메라 파라미터 값은, 각각 랜덤 억세스 포인트(random access point)의 POC 값에 대응하는 복수의 랜덤 억세스 카메라 파라미터 값을 포함하고, 상기 랜덤 억세스 포인트는 복수의 픽쳐가 출력 순서에 따라 배열된 영상 시퀀스 내에서 복호화 프로세스가 시작될 수 있는 지점이고,
    상기 복수의 랜덤 억세스 카메라 파라미터 값은, 상기 복수의 랜덤 억세스 카메라 파라미터 값 중에서 POC 순서상 서로 가장 인접하여 위치한 제1 카메라 파라미터 값 및 제2 카메라 파라미터 값을 포함하고,
    상기 카메라 파라미터 관련 정보는 상기 제1 카메라 파라미터 값 자체를 나타내는 제1 정보 및 상기 제2 카메라 파라미터 값 자체를 나타내는 제2 정보를 포함하고,
    상기 복수의 카메라 파라미터 값 도출 단계에서는,
    상기 제1 정보를 기반으로 상기 제1 카메라 파라미터 값을 도출하고, 상기 제2 정보를 기반으로 상기 제2 카메라 파라미터 값을 도출하는 것을 특징으로 하는 3D 비디오 복호화 방법.
  9. 제 8항에 있어서,
    상기 복수의 카메라 파라미터 값은, POC 순서상 상기 제1 카메라 파라미터 값 및 상기 제2 카메라 파라미터 값 사이에 위치한 제3 카메라 파라미터 값을 포함하고,
    상기 카메라 파라미터 관련 정보는, 상기 제3 카메라 파라미터 값에 대응하는 차분 카메라 파라미터 값을 나타내는 제3 정보를 더 포함하고,
    상기 복수의 카메라 파라미터 값 도출 단계는,
    상기 제3 정보를 기반으로 상기 차분 카메라 파라미터 값을 도출하는 단계;
    상기 제1 카메라 파라미터 값 및 상기 제2 카메라 파라미터 값의 선형 보간(linear interpolation)에 의해, 상기 제3 카메라 파라미터 값에 대응하는 예측 카메라 파라미터 값을 도출하는 단계; 및
    상기 차분 카메라 파라미터 값 및 상기 예측 카메라 파라미터 값을 더함으로써, 상기 제3 카메라 파라미터 값을 도출하는 단계를 더 포함하는 것을 특징으로 하는 3D 비디오 복호화 방법.
  10. 제 1항에 있어서,
    상기 텍스쳐 영상 및 상기 깊이 영상의 코딩 구조는 계층적 B 구조(hierarchical B structure)이고,
    상기 복수의 카메라 파라미터 값은, 랜덤 억세스 포인트(random access point)의 POC 값에 대응하는 복수의 랜덤 억세스 카메라 파라미터 값 중 하나인 제1 카메라 파라미터 값을 포함하고, 상기 랜덤 억세스 포인트는 복수의 픽쳐가 출력 순서에 따라 배열된 영상 시퀀스 내에서 복호화 프로세스가 시작될 수 있는 지점이고,
    상기 카메라 파라미터 관련 정보는 상기 제1 카메라 파라미터 값 자체를 나타내는 제1 정보를 포함하고,
    상기 복수의 카메라 파라미터 값 도출 단계에서는,
    상기 제1 정보를 기반으로 상기 제1 카메라 파라미터 값을 도출하는 것을 특징으로 하는 3D 비디오 복호화 방법.
  11. 제 10항에 있어서,
    상기 복수의 카메라 파라미터 값은, 상기 제1 카메라 파라미터 값에 대응하는 POC 값보다 높은 POC 값에 대응하는 제2 카메라 파라미터 값을 더 포함하고,
    상기 카메라 파라미터 관련 정보는, 상기 제2 카메라 파라미터 값에 대응하는 제1 차분 카메라 파라미터 값을 나타내는 제2 정보를 더 포함하고,
    상기 복수의 카메라 파라미터 값 도출 단계는,
    상기 제2 정보를 기반으로 상기 제1 차분 카메라 파라미터 값을 도출하는 단계;
    상기 제1 카메라 파라미터 값을 상기 제2 카메라 파라미터 값에 대응하는 제1 예측 카메라 파라미터 값으로 결정하는 단계; 및
    상기 제1 차분 카메라 파라미터 값 및 상기 제1 예측 카메라 파라미터 값을 더함으로써, 상기 제2 카메라 파라미터 값을 도출하는 단계를 더 포함하는 것을 특징으로 하는 3D 비디오 복호화 방법.
  12. 제 11항에 있어서,
    상기 복수의 카메라 파라미터 값은, POC 순서상 상기 제1 카메라 파라미터 값 및 상기 제2 카메라 파라미터 값 사이에 위치한 제3 카메라 파라미터 값을 더 포함하고,
    상기 카메라 파라미터 관련 정보는, 상기 제3 카메라 파라미터 값에 대응하는 제2 차분 카메라 파라미터 값을 나타내는 제3 정보를 더 포함하고,
    상기 복수의 카메라 파라미터 값 도출 단계는,
    상기 제3 정보를 기반으로 상기 제2 차분 카메라 파라미터 값을 도출하는 단계;
    상기 제1 카메라 파라미터 값 및 상기 제2 카메라 파라미터 값의 선형 보간(linear interpolation)에 의해, 상기 제3 카메라 파라미터 값에 대응하는 제2 예측 카메라 파라미터 값을 도출하는 단계; 및
    상기 제2 차분 카메라 파라미터 값 및 상기 제2 예측 카메라 파라미터 값을 더함으로써, 상기 제3 카메라 파라미터 값을 도출하는 단계를 더 포함하는 것을 특징으로 하는 3D 비디오 복호화 방법.
  13. 제 1항에 있어서,
    상기 텍스쳐 영상 및 상기 깊이 영상의 코딩 구조는, I 슬라이스 및 P 슬라이스로 구성되는 로우 딜레이 구조(low delay structure)이고,
    상기 복수의 카메라 파라미터 값은, 하나의 인트라 주기(intra period)에 POC 순서로 포함된 N개의 카메라 파라미터 값 {pkN, pkN+1, pkN+2, …, pn, …, p(k+1)N-1}을 포함하고, 상기 k는 0 이상의 정수이고, 상기 N은 양의 정수이고, 상기 n은 kN 이상 (k+1)N-1 이하의 정수이고,
    상기 카메라 파라미터 값 pkN은 랜덤 억세스 포인트(random access point)의 POC 값에 대응하는 복수의 랜덤 억세스 카메라 파라미터 값 중에서 하나이고, 상기 랜덤 억세스 포인트는 복수의 픽쳐가 출력 순서에 따라 배열된 영상 시퀀스 내에서 복호화 프로세스가 시작될 수 있는 지점이고,
    상기 인트라 주기는 상기 영상 시퀀스에 상기 복수의 랜덤 억세스 카메라 파라미터 값에 대응되는 픽쳐가 삽입되는 주기이고,
    상기 카메라 파라미터 관련 정보는 상기 카메라 파라미터 값 pkN 자체를 나타내는 제1 정보를 포함하고,
    상기 복수의 카메라 파라미터 값 도출 단계에서는,
    상기 제1 정보를 기반으로 상기 카메라 파라미터 값 pkN을 도출하는 것을 특징으로 하는 3D 비디오 복호화 방법.
  14. 제 13항에 있어서,
    상기 카메라 파라미터 관련 정보는, 상기 카메라 파라미터 값 pkN+1에 대응하는 제1 차분 카메라 파라미터 값을 나타내는 제2 정보를 더 포함하고,
    상기 복수의 카메라 파라미터 값 도출 단계는,
    상기 제2 정보를 기반으로 상기 제1 차분 카메라 파라미터 값을 도출하는 단계;
    상기 카메라 파라미터 값 pkN을 상기 카메라 파라미터 값 pkN+1에 대응하는 제1 예측 카메라 파라미터 값으로 결정하는 단계; 및
    상기 제1 차분 카메라 파라미터 값 및 상기 제1 예측 카메라 파라미터 값을 더함으로써, 상기 카메라 파라미터 값 pkN+1을 도출하는 단계를 더 포함하는 것을 특징으로 하는 3D 비디오 복호화 방법.
  15. 제 14항에 있어서,
    상기 카메라 파라미터 관련 정보는, 카메라 파라미터 값 pm에 대응하는 제2 차분 카메라 파라미터 값을 나타내는 제3 정보를 더 포함하고, 상기 m은 kN+2 이상 (k+1)N-1 이하의 정수이고,
    상기 복수의 카메라 파라미터 값 도출 단계는,
    상기 제3 정보를 기반으로 상기 제2 차분 카메라 파라미터 값을 도출하는 단계;
    카메라 파라미터 값 pm-2 및 카메라 파라미터 값 pm-1의 선형 보간에 의해, 상기 카메라 파라미터 값 pm에 대응하는 제2 예측 카메라 파라미터 값을 도출하는 단계; 및
    상기 제2 차분 카메라 파라미터 값 및 상기 제2 예측 카메라 파라미터 값을 더함으로써, 상기 카메라 파라미터 값 pm을 도출하는 단계를 더 포함하는 것을 특징으로 하는 3D 비디오 복호화 방법.
  16. 텍스쳐 영상(texture image) 및 깊이 영상(depth image)을 기반으로 3D 영상을 생성하는 3D 비디오 복호화 장치로서,
    카메라 파라미터 관련 정보를 포함하는 영상 정보를 수신하여 복호화하는 엔트로피 복호화부;
    상기 복호화된 영상 정보를 기반으로, 서로 다른 POC(Picture Order Count) 값에 대응하는 복수의 카메라 파라미터 값을 도출하는 카메라 파라미터 복원부; 및
    상기 복수의 카메라 파라미터 값 중에서 적어도 하나를 기반으로, 상기 텍스쳐 영상 및 상기 깊이 영상을 복원하는 영상 복원부를 포함하되,
    상기 POC 값은 픽쳐의 출력 순서를 나타내는 값이고,
    상기 복수의 카메라 파라미터 값 중에서 적어도 하나의 카메라 파라미터 값은, 이전에 도출된 하나 이상의 카메라 파라미터 값을 기반으로 예측을 수행함으로써 도출되는 것을 특징으로 하는 3D 비디오 복호화 장치.
  17. 카메라 파라미터 관련 정보를 포함하는 영상 정보를 수신하여 복호화하는 단계; 및
    상기 복호화된 영상 정보를 기반으로, 서로 다른 POC(Picture Order Count) 값에 대응하는 복수의 카메라 파라미터 값을 도출하는 단계를 포함하되,
    상기 POC 값은 픽쳐의 출력 순서를 나타내는 값이고,
    상기 복수의 카메라 파라미터 값 중에서 적어도 하나의 카메라 파라미터 값은, 이전에 도출된 하나 이상의 카메라 파라미터 값을 기반으로 예측을 수행함으로써 도출되는 것을 특징으로 하는 카메라 파라미터 복호화 방법.
  18. 카메라 파라미터 관련 정보를 포함하는 영상 정보를 수신하여 복호화하는 엔트로피 복호화부; 및
    상기 복호화된 영상 정보를 기반으로, 서로 다른 POC(Picture Order Count) 값에 대응하는 복수의 카메라 파라미터 값을 도출하는 카메라 파라미터 복원부를 포함하되,
    상기 POC 값은 픽쳐의 출력 순서를 나타내는 값이고,
    상기 복수의 카메라 파라미터 값 중에서 적어도 하나의 카메라 파라미터 값은, 이전에 도출된 하나 이상의 카메라 파라미터 값을 기반으로 예측을 수행함으로써 도출되는 것을 특징으로 하는 카메라 파라미터 복호화 장치.
PCT/KR2012/007342 2011-09-16 2012-09-13 3d 비디오 부호화/복호화 방법 및 그 장치 WO2013039333A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201161535375P 2011-09-16 2011-09-16
US61/535,375 2011-09-16

Publications (1)

Publication Number Publication Date
WO2013039333A1 true WO2013039333A1 (ko) 2013-03-21

Family

ID=47883499

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2012/007342 WO2013039333A1 (ko) 2011-09-16 2012-09-13 3d 비디오 부호화/복호화 방법 및 그 장치

Country Status (1)

Country Link
WO (1) WO2013039333A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105474640A (zh) * 2013-07-19 2016-04-06 联发科技股份有限公司 三维视频编码的摄像机参数发信的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060065553A (ko) * 2004-12-10 2006-06-14 한국전자통신연구원 범용적 다시점 동영상 부호화/복호화 장치 및 방법
KR20060104671A (ko) * 2005-03-31 2006-10-09 세종대학교산학협력단 카메라 파라미터를 이용한 다시점 영상의 부호화 장치 및생성 장치, 그 방법과, 이를 수행하기 위한 프로그램이기록된 기록 매체
KR20070040286A (ko) * 2005-10-11 2007-04-16 삼성전자주식회사 카메라 파라미터를 이용한 다시점 동영상 부호화 및 복호화장치 및 방법과 이를 수행하기 위한 프로그램이 기록된기록매체
JP2009212664A (ja) * 2008-03-03 2009-09-17 Nippon Telegr & Teleph Corp <Ntt> 距離情報符号化方法,復号方法,符号化装置,復号装置,符号化プログラム,復号プログラムおよびコンピュータ読み取り可能な記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060065553A (ko) * 2004-12-10 2006-06-14 한국전자통신연구원 범용적 다시점 동영상 부호화/복호화 장치 및 방법
KR20060104671A (ko) * 2005-03-31 2006-10-09 세종대학교산학협력단 카메라 파라미터를 이용한 다시점 영상의 부호화 장치 및생성 장치, 그 방법과, 이를 수행하기 위한 프로그램이기록된 기록 매체
KR20070040286A (ko) * 2005-10-11 2007-04-16 삼성전자주식회사 카메라 파라미터를 이용한 다시점 동영상 부호화 및 복호화장치 및 방법과 이를 수행하기 위한 프로그램이 기록된기록매체
JP2009212664A (ja) * 2008-03-03 2009-09-17 Nippon Telegr & Teleph Corp <Ntt> 距離情報符号化方法,復号方法,符号化装置,復号装置,符号化プログラム,復号プログラムおよびコンピュータ読み取り可能な記録媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105474640A (zh) * 2013-07-19 2016-04-06 联发科技股份有限公司 三维视频编码的摄像机参数发信的方法和装置
CN105474640B (zh) * 2013-07-19 2019-03-15 寰发股份有限公司 三维视频编码的摄像机参数发信的方法和装置
CN110062245A (zh) * 2013-07-19 2019-07-26 寰发股份有限公司 三维视频编码的摄像机参数发信的方法和装置
US10477183B2 (en) 2013-07-19 2019-11-12 Hfi Innovation Inc. Method and apparatus of camera parameter signaling in 3D video coding
CN110062245B (zh) * 2013-07-19 2023-04-14 寰发股份有限公司 三维视频编码的摄像机参数发信的方法和装置

Similar Documents

Publication Publication Date Title
US11405606B2 (en) Error mitigation in sub-picture bitstream based viewport dependent video coding
US9552633B2 (en) Depth aware enhancement for stereo video
JP6698351B2 (ja) ビュー内でのおよびビューにわたる深度ルックアップテーブルの予測コーディング
JP7354258B2 (ja) ビデオエンコーダ、ビデオデコーダ、および対応する方法
KR101854003B1 (ko) 복수의 레이어를 포함하는 영상의 부호화 및 복호화 방법
US10986359B2 (en) Method and device for inducing motion information between temporal points of sub prediction unit
CA3138068A1 (en) Method and apparatus for point cloud coding
CN113273193A (zh) 用于分块配置指示的编码器,解码器及对应方法
JP2022516114A (ja) ビデオエンコーダ、ビデオデコーダ、および対応する方法
WO2013039348A1 (ko) 영상 정보 시그널링 방법 및 이를 이용한 비디오 디코딩 방법
US20220343547A1 (en) Signaling Camera Parameters In Point Cloud Coding
JP7460760B2 (ja) サブピクチャベースビデオコーディングにおいてサブピクチャidをシグナリングする
WO2013069933A1 (ko) 영상 부호화/복호화 방법 및 그 장치
WO2013039333A1 (ko) 3d 비디오 부호화/복호화 방법 및 그 장치
JP2022523440A (ja) ビデオコーディングにおけるヌルタイルコーディング
WO2015141977A1 (ko) 3d 비디오 부호화/복호화 방법 및 장치
KR102424941B1 (ko) 3차원 영상 부호화 및 복호화에 있어서 적응적 병합 후보 선택 장치 및 방법
CN116349227A (zh) 用于在sei消息中用信号通知多视图视图位置的技术
JP2023543891A (ja) マルチビュー視点位置補足エンハンスメント情報メッセージ
KR20150102748A (ko) 서브 예측 유닛 단위의 시간적인 시점 간 움직임 정보 유도의 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12832180

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12832180

Country of ref document: EP

Kind code of ref document: A1