WO2011105337A1 - 多視点映像符号化方法、多視点映像復号方法、多視点映像符号化装置、多視点映像復号装置、及びプログラム - Google Patents

多視点映像符号化方法、多視点映像復号方法、多視点映像符号化装置、多視点映像復号装置、及びプログラム Download PDF

Info

Publication number
WO2011105337A1
WO2011105337A1 PCT/JP2011/053742 JP2011053742W WO2011105337A1 WO 2011105337 A1 WO2011105337 A1 WO 2011105337A1 JP 2011053742 W JP2011053742 W JP 2011053742W WO 2011105337 A1 WO2011105337 A1 WO 2011105337A1
Authority
WO
WIPO (PCT)
Prior art keywords
viewpoint
frame
decoding
image
view
Prior art date
Application number
PCT/JP2011/053742
Other languages
English (en)
French (fr)
Inventor
信哉 志水
木全 英明
宣彦 松浦
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to CA2790268A priority Critical patent/CA2790268A1/en
Priority to BR112012020993A priority patent/BR112012020993A2/pt
Priority to US13/579,675 priority patent/US20120314776A1/en
Priority to JP2012501773A priority patent/JP5303754B2/ja
Priority to KR1020127021725A priority patent/KR101374812B1/ko
Priority to EP11747298A priority patent/EP2541943A1/en
Priority to RU2012135682/08A priority patent/RU2527737C2/ru
Priority to CN201180010368.0A priority patent/CN102918846B/zh
Publication of WO2011105337A1 publication Critical patent/WO2011105337A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • H04N19/463Embedding additional information in the video signal during the compression process by compressing encoding parameters before transmission

Definitions

  • the present invention relates to a multi-view video encoding method and multi-view video encoding apparatus for encoding a multi-view image or a multi-view video, a multi-view video decoding method and a multi-view video for decoding a multi-view image or a multi-view video.
  • the present invention relates to a decoding device and a program.
  • a multi-view image is a plurality of images obtained by photographing the same subject and its background with a plurality of cameras
  • a multi-view video (multi-view video) is a moving image.
  • efficient encoding is realized using motion compensation prediction using a high correlation existing between frames having different shooting times in a video.
  • Motion compensated prediction is described in H.264. This is a technique adopted in recent international standards for video coding systems represented by H.264. That is, motion compensated prediction generates an image by compensating for the motion of a subject between an encoding target frame and an already encoded reference frame, and between the generated image and the encoding target frame. This is a method of taking a difference and encoding the difference signal and a motion vector.
  • parallax compensation prediction that takes an inter-frame difference between an image (frame) generated by compensating for disparity between viewpoints instead of motion and an encoding target frame, and encodes a difference signal and a disparity vector. Is used.
  • the parallax compensation prediction is performed in H.264. H.264 Annex. H is adopted as an international standard (for example, see Non-Patent Document 1).
  • the parallax used here is a difference between positions at which the same position on the subject is projected on an image plane of a camera arranged in a different position or orientation. In the parallax compensation prediction, this is expressed by a two-dimensional vector and encoded. As shown in FIG. 7, since the parallax is information generated depending on the viewpoint position of the camera and the distance (depth) of the subject from the camera, it is called viewpoint synthesis prediction (view interpolation prediction) using this principle. There is a method.
  • View synthesis prediction (view interpolation prediction) is encoded or decoded using a part of a multi-view video that has already been processed and obtained a decoding result according to the three-dimensional positional relationship between the camera and the subject.
  • frames for different viewpoints to be processed are combined (interpolated), and an image obtained by combining is used as a predicted image (for example, see Non-Patent Document 2).
  • Depth maps (sometimes called distance images, parallax images, and disparity maps) that represent the distance (depth) from the camera to the subject for each pixel are used to represent the three-dimensional position of the subject. There are many.
  • polygon information of the subject and voxel information of the subject space can also be used.
  • the method for obtaining the depth map can be broadly divided into a method for generating a depth map by measuring using infrared pulses, etc., and the principle of triangulation from the point of view of the same subject on a multi-viewpoint image. There is a method of generating a depth map after estimating the depth using. Which method to use the depth map obtained by is not a big problem in viewpoint synthesis prediction. If a depth map can be obtained, it is not a big problem where to estimate.
  • parallax compensation prediction and viewpoint synthesis prediction there are individual differences in the response of the image sensor of the camera, gain control and gamma correction are performed for each camera, and there are direction-dependent lighting effects in the scene. Coding efficiency is degraded. This is because the prediction is performed on the assumption that the color of the subject is the same between the encoding target frame and the reference frame.
  • Non-Patent Document 1 describes the H.P. H.264 employs Weighted Prediction that is corrected using a linear function.
  • a method of correcting using a color table has been proposed (see, for example, Non-Patent Document 3).
  • mismatch between the luminance and color cameras of these subjects is a subject-dependent local one, so that correction is normally performed using locally different correction parameters (correction parameters). It is better to do this.
  • correction parameters correction parameters
  • these mismatches occur according to a slightly complicated model such as not only a simple gain difference but also a focus difference. For this reason, it is desirable to use a complex correction model obtained by modeling a projection process or the like instead of a simple correction model.
  • the present invention has been made in consideration of such circumstances, and its purpose is to separately encode a correction parameter even in a multi-view video including local brightness and color mismatch between cameras.
  • a first aspect of the present invention is a multi-view video encoding method that encodes a multi-view video, the encoding target frame at the encoding target viewpoint of the multi-view video, and View synthesis that synthesizes a view synthesized image corresponding to the encoding target frame of the encoding target viewpoint from a reference viewpoint frame that has already been encoded at a reference view different from the encoding target viewpoint, which is captured at the same time.
  • An image generation step and a reference region estimation step for searching for a reference region on a reference frame that has already been encoded in the encoding target viewpoint, corresponding to the viewpoint composite image, for each processing unit region having a predetermined size.
  • a correction parameter for correcting an inter-camera mismatch from the viewpoint composite image for the processing unit region and the reference frame for the reference region a correction parameter for correcting an inter-camera mismatch from the viewpoint composite image for the processing unit region and the reference frame for the reference region.
  • a correction parameter estimation step for determining, a viewpoint composite image correction step for correcting the viewpoint composite image for the processing unit region using the estimated correction parameter, and the code using the corrected viewpoint composite image A multi-view video encoding method including an image encoding step for predictively encoding a video of a conversion target viewpoint.
  • the method further includes a reliability setting step of setting a reliability indicating the certainty of the viewpoint synthesized image for each pixel of the viewpoint synthesized image, wherein the reference area estimating step includes the reliability
  • the matching cost of each pixel when searching the reference area on the reference frame corresponding to the viewpoint composite image may be weighted.
  • the correction parameter estimation step may weight the matching cost of each pixel when estimating the correction parameter based on the reliability.
  • the method further includes an estimation accuracy setting step for setting an estimation accuracy indicating whether or not the reference region has been correctly estimated for each pixel of the viewpoint composite image
  • the correction parameter estimation step includes the step of A matching cost of each pixel when estimating the correction parameter may be weighted based on either or both of the estimation accuracy and the reliability.
  • a second aspect of the present invention is a multi-view video decoding method for decoding multi-view video, which is the same time as a decoding target frame in the decoding target viewpoint of the multi-view video.
  • a reference region estimation step for searching a reference region on a reference frame that has already been decoded, corresponding to the viewpoint composite image, and the viewpoint composite image for the processing unit region; From the reference frame for the reference region, a correction parameter estimation algorithm for estimating a correction parameter for correcting a mismatch between cameras.
  • a viewpoint synthesized image correction step for correcting the viewpoint synthesized image for the processing unit region using the estimated correction parameter, and using the corrected viewpoint synthesized image as a prediction signal, the decoding target
  • An image decoding step including decoding a decoding target frame that has been predictively encoded at a viewpoint from encoded video data for the decoding target viewpoint.
  • the method further includes a reliability setting step of setting a reliability indicating the certainty of the viewpoint synthesized image for each pixel of the viewpoint synthesized image, wherein the reference area estimating step includes the reliability
  • the matching cost of each pixel when searching the reference area on the reference frame corresponding to the viewpoint composite image may be weighted.
  • the correction parameter estimation step may weight the matching cost of each pixel when estimating the correction parameter based on the reliability.
  • the method further includes an estimation accuracy setting step for setting an estimation accuracy indicating whether or not the reference region has been correctly estimated for each pixel of the viewpoint composite image
  • the correction parameter estimation step includes the step of A matching cost of each pixel when estimating the correction parameter may be weighted based on either or both of the estimation accuracy and the reliability.
  • a third aspect of the present invention is a multi-view video encoding apparatus that encodes a multi-view video, and the encoding target at the encoding target viewpoint of the multi-view video.
  • a view synthesized image corresponding to the encoding target frame of the encoding target viewpoint is synthesized from a reference viewpoint frame that has already been encoded at a reference viewpoint different from the encoding target viewpoint, which is captured at the same time as the frame.
  • Reference already encoded in the encoding target viewpoint corresponding to the viewpoint synthesized image synthesized by the viewpoint synthesized image generating means for each processing unit area of a predetermined size with the viewpoint synthesized image generating means A reference area estimating means for searching for a reference area on the frame; the viewpoint synthesized image for the processing unit area; and the reference area searched for by the reference area estimating means.
  • Correction parameter estimation means for estimating a correction parameter for correcting an inter-camera mismatch from the reference frame, and the viewpoint composite image for the processing unit area using the correction parameter estimated by the correction parameter estimation means.
  • Multi-viewpoint video encoding comprising: a viewpoint composite image correction unit that corrects; and an image encoding unit that predictively encodes the video of the encoding target viewpoint using the viewpoint composite image corrected by the viewpoint composite image correction unit.
  • the image processing apparatus further includes a reliability setting unit that sets a reliability indicating the certainty of the viewpoint synthesized image for each pixel of the viewpoint synthesized image synthesized by the viewpoint synthesized image generating unit,
  • the reference area estimation means calculates the matching cost of each pixel when searching the reference area on the reference frame corresponding to the viewpoint synthesized image based on the reliability set by the reliability setting means. You may make it attach a weight.
  • the correction parameter estimation unit weights the matching cost of each pixel when estimating the correction parameter based on the reliability set by the reliability setting unit. It may be.
  • estimation accuracy setting means for setting an estimation accuracy indicating whether or not the reference region has been correctly estimated for each pixel of the viewpoint synthesized image synthesized by the viewpoint synthesized image generating means.
  • the correction parameter estimation means determines the correction parameter based on one or both of the estimation accuracy set by the estimation accuracy setting means and the reliability set by the reliability setting means.
  • a weight may be given to the matching cost of each pixel when estimating.
  • a fourth aspect of the present invention is a multi-view video decoding device that decodes a multi-view video, and is the same time as a decoding target frame in the decoding target viewpoint of the multi-view video.
  • a viewpoint synthesized image generating means for synthesizing a viewpoint synthesized image corresponding to the decoding target frame of the decoding target viewpoint from a reference viewpoint frame at a reference viewpoint different from the decoding target viewpoint captured in Reference area estimation means for searching for a reference area on a reference frame that has already been decoded in the decoding target viewpoint, corresponding to the viewpoint synthesized image synthesized by the viewpoint synthesized image generation means for each processing unit area; From the viewpoint composite image for the processing unit area and the reference frame for the reference area searched by the reference area estimation means, a camera Correction parameter estimation means for estimating a correction parameter for correcting an inter-miscue, and viewpoint composite image correction means for correcting the viewpoint composite image for the processing unit region using the correction parameter estimated by the correction parameter estimation means; , Using the viewpoint synthesized image corrected by the viewpoint synthesized image correcting unit as a prediction signal, decoding the decoding target frame that is predictively encoded at the decoding target viewpoint from the encoded data of the video for the decoding target viewpoint A
  • a fifth aspect of the present invention provides a computer of a multi-view video encoding apparatus that encodes a multi-view video to an encoding target at the encoding target viewpoint of the multi-view video.
  • a view synthesized image corresponding to the encoding target frame of the encoding target viewpoint is synthesized from a reference viewpoint frame that has already been encoded at a reference viewpoint different from the encoding target viewpoint, which is captured at the same time as the frame.
  • View synthesized image generation function for each processing unit area of a predetermined size, a reference area estimation that searches for a reference area on a reference frame that has already been coded in the view to be coded that corresponds to the view synthesized image Function, a correction parameter for correcting an inter-camera mismatch from the viewpoint composite image for the processing unit area and the reference frame for the reference area
  • a correction parameter estimation function to estimate, a viewpoint composite image correction function to correct the viewpoint composite image for the processing unit region using the estimated correction parameter, and the encoding target using the corrected viewpoint composite image
  • a sixth aspect of the present invention provides a computer of a multi-view video decoding device that decodes a multi-view video at the same time as a decoding target frame in the decoding target viewpoint of the multi-view video.
  • a view synthesized image generation function for synthesizing a view synthesized image corresponding to the decoding target frame of the decoding target viewpoint from a reference viewpoint frame in a reference view different from the decoding target viewpoint taken in For each processing unit region, a reference region estimation function for searching for a reference region on a reference frame that has already been decoded at the decoding target viewpoint corresponding to the viewpoint composite image, the viewpoint composite image and the reference for the processing unit region
  • a correction parameter estimation function for estimating a correction parameter for correcting a mismatch between cameras from the reference frame for the region;
  • a viewpoint composite image correction function for correcting the viewpoint composite image for the processing unit region using the estimated correction parameter, and predictive encoding at the decoding target viewpoint using the corrected viewpoint composite image as a prediction signal
  • the encoding of an efficient multi-view image or multi-view video is not performed without separately encoding / decoding correction parameters. Can be realized.
  • a corresponding area on a frame that has already been encoded with respect to the area being processed is obtained, and a video signal in the corresponding area in the encoded frame is used as a reference.
  • the brightness and color of the composite image are corrected.
  • correction is performed using the assumption that color and luminance mismatches that depend on the subject do not change significantly in time, rather than the assumption that the same subject appears in the adjacent region used by the conventional method. Find the parameters. In general, since a plurality of subjects are included in a frame, there is always an area that deviates from the conventional assumption.
  • the embodiment of the present invention functions effectively. That is, even in a region where the conventional method has failed to be corrected, it is possible to perform correction to reduce mismatch, and it is possible to realize efficient multi-view video coding.
  • FIG. 1 is a block diagram showing a configuration of a multi-view video encoding apparatus according to the first embodiment of the present invention.
  • a multi-view video encoding apparatus 100 includes an encoding target frame input unit 101, an encoding target image memory 102, a reference viewpoint frame input unit 103, a reference viewpoint image memory 104, a viewpoint synthesis unit 105, and a viewpoint synthesized image memory.
  • a reliability setting unit 107 a view synthesized image correction unit 108, a prediction residual encoding unit 109, a prediction residual decoding unit 110, a decoded image memory 111, a prediction residual calculation unit 112, and a decoded image calculation unit 113.
  • the encoding target frame input unit 101 inputs a video frame (encoding target frame) to be encoded.
  • the encoding target image memory 102 stores the input encoding target frame.
  • the reference view frame input unit 103 inputs a reference video frame (reference view frame) for a view (reference view) different from the encoding target frame.
  • the reference viewpoint image memory 104 stores the input reference viewpoint frame.
  • the view synthesis unit 105 generates a view synthesized image for the encoding target frame using the reference view frame.
  • the viewpoint synthesized image memory 106 stores the generated viewpoint synthesized image.
  • the reliability setting unit 107 sets the reliability for each pixel of the generated viewpoint composite image.
  • the viewpoint synthesized image correction unit 108 corrects the mismatch between the cameras in the viewpoint synthesized image and outputs a corrected viewpoint synthesized image.
  • the prediction residual calculation unit 112 generates a difference (prediction residual signal) between the encoding target frame and the corrected viewpoint synthesized image.
  • the prediction residual encoding unit 109 encodes the generated prediction residual signal and outputs encoded data.
  • the prediction residual decoding unit 110 decodes encoded data of the prediction residual signal.
  • the decoded image calculation unit 113 adds the decoded prediction residual signal and the corrected viewpoint synthesized image to generate a decoded image of the encoding target frame.
  • the decoded image memory 111 stores the generated decoded image.
  • FIG. 2 is a block diagram showing a configuration of the viewpoint synthesized image correction unit 108 of the multi-view video encoding apparatus 100 according to the first embodiment.
  • the view synthesized image correction unit 108 of the first embodiment includes a reference area setting unit 1081 that searches for a block on a reference frame corresponding to an encoding target block as a reference area using the view synthesized image, and a reference.
  • An estimation accuracy setting unit 1082 for setting an estimation accuracy indicating whether or not a corresponding region has been correctly set for each pixel of the region
  • a correction parameter estimation unit 1083 for estimating a parameter for correcting an inter-camera mismatch in a viewpoint composite image
  • An image correction unit 1084 that corrects the viewpoint composite image in accordance with the obtained correction parameter.
  • FIG. 3 is a flowchart for explaining the operation of the multi-view video encoding apparatus 100 according to the first embodiment. The process executed by the multi-view video encoding apparatus 100 will be described in detail according to this flowchart.
  • the viewpoint synthesis unit 105 synthesizes an image shot at the same viewpoint at the same time as the encoding target frame from the information of the reference viewpoint frame, and accumulates the generated viewpoint synthesized image Syn in the viewpoint synthesized image memory 106.
  • Step Sa2 Any method may be used as a method of generating the viewpoint composite image Syn. For example, if the depth information for the reference viewpoint frame is given in addition to the video information of the reference viewpoint frame, Non-Patent Document 2 and Non-Patent Document 5 (Y.YMori, N. Fukushima, T.
  • Fujii, and M .Tanimoto, “View Generation Generation with 3D Warping” Using “Depth Information” for “FTV,” “Proceedings” of “3DTV-CON2008,” pp. 229-232, “May” 2008.) can be used.
  • Non-Patent Document 6 S. Yea and A. Vetro, “View Synthesis Prediction for Rate-Overhead Reduction in FTV,” Proceedings of 3DTV-CON2008, pp 145-148, ⁇ May 2008.
  • Non-Patent Document 7 J. Sun, N. Zheng, and H. Shum, “Stereo Matching Using Belief Propagation,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. .7, pp.
  • Non-Patent Document 8 S. Shimizu, Y. Tonomura, H. Kimata, and Y. Ohtani, “Improved View Interpolation Prediction for Side Information in Multiview Distributed) Video Coding, ”Proceedings of ICDSC2009, August 2009.).
  • the reliability setting unit 107 generates, for each pixel of the viewpoint composite image, a reliability ⁇ indicating how accurately the composition for the pixel can be realized (step Sa3).
  • the reliability ⁇ is a real number from 0 to 1.
  • the reliability can be expressed in any way. I do not care.
  • the reliability may be expressed by an 8-bit integer of 1 or more.
  • the reliability ⁇ may be any value as long as it can indicate how accurately the composition is performed.
  • the reliability is represented using the following formula (1) and formula (2). It is possible.
  • max is a function that returns the maximum value for a given set.
  • the other functions are expressed by the following mathematical formula (3).
  • the reference viewpoint frame is clustered by the pixel value of the corresponding pixel, and the variance value, the maximum value and the minimum value are compared with the pixel value of the corresponding pixel of the reference viewpoint frame belonging to the largest cluster. You may calculate and use the difference.
  • the error at the corresponding points between the viewpoints follows a normal distribution or a Laplace distribution, and each of the values obtained by diff in the above formula (4) using the average value of the distribution and the variance value as parameters.
  • the reliability may be defined using a probability value corresponding to the error amount of the pixel.
  • a distribution model, an average value, and a variance value may be determined in advance, or information on the used model may be encoded and transmitted. In general, if the subject is completely diffusely reflected, the average value of the distribution can be considered as 0 theoretically, so the model may be simplified.
  • the error from the change in the error amount when the depth is changed slightly.
  • the probability that the error is within a certain range when the error occurrence probability follows the error distribution is used as the reliability.
  • the definition using the error distribution model and the pixel value of the corresponding pixel on the reference viewpoint frame at the time of generating the viewpoint composite image is the reference at the time of generating the viewpoint composite image when the error distribution probability follows the estimated error distribution.
  • the probability of occurrence of a situation represented by the pixel value of the corresponding pixel on the viewpoint frame is used as the reliability.
  • parallax (depth) obtained when using a method called Belief Propagation (the above-mentioned non-patent document 7) when estimating the parallax (depth) required when performing viewpoint synthesis.
  • the probability value for can be used as the reliability.
  • Belief Propagation it is possible to use the information as reliability as long as it is a depth estimation algorithm that internally calculates the probability of the solution for each pixel of the viewpoint composite image.
  • a part of processing for obtaining corresponding point information and depth information may be the same as part of reliability calculation. In such a case, it is possible to reduce the amount of calculation by simultaneously performing the viewpoint composite image generation and the reliability calculation.
  • the encoding target frame is divided into blocks, and the video signal of the encoding target frame is corrected for each area by the viewpoint synthesized image correction unit 108 while correcting the camera-to-camera mismatch of the viewpoint synthesized image.
  • Is encoded steps Sa4 to Sa12). That is, assuming that the encoding target block index is blk and the total number of encoding target blocks is numBlks, blk is initialized to 0 (step Sa4), and then 1 is added to blk (step Sa11). The following processing (steps Sa5 to Sa10) is repeated until numBlks is reached (step Sa12).
  • those processes can also be performed as part of the process repeated for each encoding target block. is there. For example, this corresponds to the case where depth information for the encoding target block is given.
  • the reference area setting unit 1081 uses the viewpoint synthesized image to find a reference area that is a block on the reference frame corresponding to the block blk (step Sa5).
  • the reference frame is a local decoded image obtained by decoding data that has already been encoded.
  • the local decoded image data is data stored in the decoded image memory 111.
  • the reason for using the local decoded image is to prevent the occurrence of coding distortion called drift by using the same data that can be acquired at the same timing on the decoding side.
  • an input frame encoded before the encoding target frame may be used instead of the local decoded image.
  • the process for obtaining the reference area is a process for obtaining on the local decoded image stored in the decoded image memory 111 a corresponding block that maximizes the fitness or minimizes the divergence using the viewpoint synthesized image Syn [blk] as a template. It is.
  • a matching cost indicating the degree of divergence is used. Specific examples of the matching cost indicating the degree of divergence include the following formula (5) and formula (6).
  • vec is a vector between corresponding blocks
  • t is an index value indicating one of the local decoded images Dec stored in the decoded image memory 111.
  • DCT Discrete Cosine Transform
  • a matrix A it can be represented by the following formula (7) or formula (8).
  • represents the norm of X.
  • the process for obtaining a block that minimizes the matching cost is to obtain a set of (best_vec, best_t) represented by the following formula (9).
  • argmin indicates a process for obtaining a parameter that minimizes a given function.
  • the set of parameters to be derived is a set given at the lower part of argmin.
  • Any method may be used as the method for determining the number of frames to be searched, the search range, the search order, and censoring.
  • the search range and the truncation method greatly affect the calculation cost.
  • there is a method of appropriately setting a search center As one example, there is a method in which the corresponding point represented by the motion vector used in the corresponding region on the reference viewpoint frame is set as the search center.
  • a frame determination method to be searched may be determined in advance. For example, this corresponds to a method in which the most recently encoded frame is the search target.
  • a method for limiting the search target frame there is a method of encoding information indicating which frame is targeted and notifying the decoding side. In this case, the decoding side needs to have a mechanism for decoding information such as an index value indicating the search target frame and determining the search target frame based on the decoded information.
  • the necessary data is a predicted value of the video signal of the encoding target block expressed using video signals of temporally different frames. For this reason, a corresponding pixel may be obtained for each pixel in the encoding target block blk, and a video signal created by arranging them in a block shape may be used as the reference region. Also, a plurality of blocks corresponding to the encoding target block blk may be set, and a video signal represented by an average value of the video signals in the plurality of blocks may be used as the reference area. By doing so, when noise is superimposed on the search target frame or when the search accuracy is low, it is possible to reduce the influence thereof and set the reference region more robustly.
  • the estimation accuracy ⁇ indicating how correctly the reference area is obtained for each pixel of the reference area Ref [blk] by the estimation accuracy setting unit 1082 Is set (step Sa6).
  • Any value may be used for the estimation accuracy, but a value depending on an error amount between corresponding pixels in the viewpoint synthesized image and the reference frame can be used. For example, minus the square error represented by Equation (10) or Equation (11), the reciprocal of the absolute value error, the square error represented by Equation (12) or Equation (13), or the absolute value error. There is a value multiplied by.
  • Equation (14) is an example in which a Laplace distribution with an average of 0 is used, and ⁇ is a parameter.
  • the correction parameter estimation unit 1083 estimates a correction parameter for correcting the viewpoint composite image Syn [blk] (step Sa7). Any method may be used for the correction method and the correction parameter estimation, but it is necessary to use the same method as that used on the decoding side.
  • correction methods include correction using an offset value, correction using a linear function, and gamma correction. If the value before correction is in and the value after correction is out, they can be expressed by the following equations (15), (16), and (17).
  • offset, ( ⁇ , ⁇ ), and ( ⁇ , a, b) are correction parameters, respectively.
  • the value before correction is the image signal of the viewpoint composite image
  • the ideal value after correction is the image signal of the reference region. It becomes. That is, highly accurate correction can be performed by obtaining the correction parameter so that the matching cost represented by the degree of divergence between the two image signals is reduced.
  • the matching cost is expressed by the degree of matching between the two image signals, the parameter is obtained so as to maximize the matching cost.
  • the process for obtaining the correction parameter can be expressed by the following equation (18).
  • par F indicates a set of correction parameters of the correction method F
  • argmin indicates a process for obtaining a parameter that minimizes a given function.
  • the set of parameters to be derived is a set given at the lower part of argmin. Any matching cost may be used. For example, the square of the difference between two signals can be used. Also, in the matching cost, weighting may be performed for each pixel using the reliability of the viewpoint composite image, the estimation accuracy of the reference region, or both.
  • the following mathematical formulas (19), (20), (21), and (22) are the reliability of the viewpoint composite image when weighting is not performed at all when the square of the difference between two signals is used as the divergence.
  • the offset can be obtained using the following formula (23).
  • correction parameters may be obtained for each luminance and color difference signal, or for each color channel such as RGB. It is also possible to subdivide each channel and perform different corrections for each fixed range (for example, correction using different correction parameters for R channels 0 to 127 and 128 to 255).
  • the image correction unit 1084 corrects the viewpoint composite image for the block blk according to the correction parameter, and generates the corrected viewpoint composite image Pred (step Sa8).
  • the viewpoint composite image may be input to the correction model into which the correction parameter is substituted. For example, when correction using an offset value is performed, a corrected viewpoint composite image Pred is generated according to the following formula (24).
  • the encoding target frame Org [blk] is predictively encoded using the corrected viewpoint composite image Pred as a prediction image (step Sa9). That is, the difference between the encoding target frame Org [blk] and the corrected viewpoint synthesized image Pred is generated as a prediction residual by the prediction residual calculation unit 112, and the prediction residual is encoded by the prediction residual encoding unit 109.
  • Any encoding method may be used. In a general encoding method such as H.264, encoding is performed by applying DCT, quantization, binarization, and entropy encoding to the prediction residual.
  • the bit stream of the encoding result becomes an output of the multi-view video encoding apparatus 100, and is decoded by the prediction residual decoding unit 110 for each block, and the decoded result and the corrected viewpoint synthesized image Pred are decoded by the decoded image calculation unit 113.
  • the local decoded image Dec cur [blk] is constructed by adding them.
  • the constructed local decoded image is stored in the decoded image memory 111 for use in future prediction (step Sa10).
  • FIG. 4 is a block diagram showing the configuration of the multi-view video decoding apparatus according to the second embodiment.
  • the multi-view video decoding apparatus 200 includes an encoded data input unit 201, an encoded data memory 202, a reference viewpoint frame input unit 203, a reference viewpoint image memory 204, a viewpoint synthesis unit 205, a viewpoint synthesized image memory 206, a trust A degree setting unit 207, a viewpoint synthesized image correction unit 208, a prediction residual decoding unit 210, a decoded image memory 211, and a decoded image calculation unit 212.
  • the encoded data input unit 201 inputs encoded data for a video frame to be decoded (decoding target frame).
  • the encoded data memory 202 stores input encoded data.
  • the reference viewpoint frame input unit 203 inputs a reference viewpoint frame that is a video frame for a viewpoint different from the decoding target frame.
  • the reference viewpoint image memory 204 stores the input reference viewpoint frame.
  • the view synthesis unit 205 generates a view synthesized image for the decoding target frame using the reference view frame.
  • the viewpoint composite image memory 206 stores the generated viewpoint composite image.
  • the reliability setting unit 207 sets the reliability for each pixel of the generated viewpoint composite image.
  • the viewpoint composite image correction unit 208 corrects the camera-to-camera mismatch of the viewpoint composite image and outputs a corrected viewpoint composite image.
  • the prediction residual decoding unit 210 decodes the difference between the decoding target frame and the corrected viewpoint synthesized image from the encoded data as a prediction residual signal.
  • the decoded image memory 211 stores a decoded image of the decoding target frame obtained by adding the decoded prediction residual signal and the corrected viewpoint synthesized image by the decoded image calculation unit 212.
  • the prediction error decoding unit 210, and the decoded image memory 211 are respectively the reference view frame input unit 103, the reference view image memory 104, the view synthesis unit 105, and the view synthesis in the multi-view video encoding device 100 according to the first embodiment. This is the same as the image memory 106, the reliability setting unit 107, the viewpoint composite image correction unit 108, the prediction error decoding unit 110, and the decoded image memory 111.
  • the configuration of the viewpoint composite image correction unit 208 is the same as that of the viewpoint composite image correction unit 108 (FIG. 2) of the multi-view video encoding apparatus 100 according to the first embodiment described above. However, in the following description, as illustrated in FIG. 5, the reference area setting unit 2081, the estimation accuracy setting unit 2082, the correction parameter estimation unit 2083, and the image correction unit 2084 will be described.
  • FIG. 6 is a flowchart for explaining the operation of the multi-view video decoding apparatus 200 according to the second embodiment. The processing executed by the multi-view video decoding apparatus 200 will be described in detail according to this flowchart.
  • the reference viewpoint frame input here is a separately decoded image.
  • drift it is necessary to input the same one used in the coding apparatus.
  • a different one from that used in the encoding apparatus may be input.
  • n is an index indicating a reference viewpoint
  • N is the number of reference viewpoints available here.
  • the viewpoint synthesis unit 205 synthesizes an image shot from the same viewpoint at the same time as the decoding target frame from the information of the reference viewpoint frame, and accumulates the generated viewpoint synthesized image Syn in the viewpoint synthesized image memory 206.
  • the reliability setting unit 207 generates, for each pixel of the viewpoint composite image, a reliability ⁇ indicating how much the composition for the pixel can be realized (step Sb3).
  • the video signal of the decoding target frame is decoded while correcting the mismatch between the cameras of the viewpoint composite image by the viewpoint composite image correction unit 208 for each predetermined block (steps Sb4 to Sb12). . That is, if the decoding target block index is represented by blk and the total number of decoding target blocks is represented by numBlks, blk is initialized with 0 (step Sb4), and then 1 is added to blk (step Sb11), and blk is added to numBlks. The following processing (steps Sb5 to Sb10) is repeated until it becomes (step Sb12).
  • step Sb9 described later may be performed for all blocks in advance without being performed for each block, and the result may be accumulated and used. However, in that case, a memory for storing the decoded prediction residual signal is required.
  • the reference region setting unit 2081 uses the viewpoint synthesized image and uses a reference frame as a block on the reference frame corresponding to the block blk. Ref [blk] is found (step Sb5).
  • the reference frame is data that has already been decoded and accumulated in the decoded image memory 211.
  • step Sa5 This process is the same as step Sa5 of the first embodiment.
  • Matching costs for search, determination method of search target frame, generation method of video signal for reference area, etc. can be used to prevent noise generation by using the same method as used in the encoding device. It is.
  • the estimation accuracy setting unit 2082 determines how accurate the reference region is for each pixel of the reference region Ref [blk]. Estimated accuracy ⁇ indicating whether it has been obtained is set (step Sb6). Thereafter, the correction parameter estimation unit 2083 ( ⁇ correction parameter estimation unit 1083) estimates a correction parameter for correcting the viewpoint composite image Syn [blk] (step Sb7). Next, the image correction unit 2084 ( ⁇ image correction unit 1084) corrects the viewpoint composite image for the block blk according to the correction parameter, and generates the corrected viewpoint composite image Pred (step Sb8). These processes are the same as steps Sa6, Sa7, and Sa8 of the first embodiment, respectively.
  • the prediction error decoding unit 210 decodes the prediction residual signal for the block blk from the encoded data (step Sb9).
  • the decoding process here is a process corresponding to the encoding method. For example, H.M.
  • decoding is performed by performing IDCT (Inverse Discrete Cosine Transform), inverse quantization, multi-value quantization, entropy decoding, and the like. .
  • decoded decoded residual signal DecRes and the corrected viewpoint synthesized image Pred are added together by the decoded image calculation unit 212 to construct a decoding target frame Dec cur [blk].
  • the constructed decoding target frame is stored in the decoded image memory 211 and used as an output of the multi-view video decoding device 200 for use in future prediction (step Sb10).
  • a corresponding area on a frame that has already been encoded with respect to the area being processed is obtained, and an image of the corresponding area in the encoded frame is obtained.
  • the luminance and color of the viewpoint composite image are corrected using the signal as a reference.
  • a reliability indicating the certainty of the composition process is set for each pixel of the viewpoint composite image, and the matching cost is weighted for each pixel based on the reliability.
  • step Sa5 of the first embodiment and step Sb5 of the second embodiment described above the correspondence on the reference frame corresponding to the viewpoint composite image Syn [blk] of the processing target frame (the encoding target frame or the decoding target frame).
  • the block is obtained using the reference frame Dec.
  • the viewpoint composite image RefSyn of the reference frame is obtained, the corresponding block may be obtained using the viewpoint composite image RefSyn instead of the reference frame Dec.
  • the set of (best_vec, best_t) shown in equation (9) is obtained, so that the corresponding block on the reference frame is obtained. You can ask for it.
  • the reference area Ref is generated using the reference frame Dec.
  • the view synthesized image RefSyn and the reference frame Dec are considered to be equal. Therefore, even if the corresponding block is searched using the view synthesized image RefSyn in this way, the effect of the embodiment of the present invention is achieved. Is similarly obtained.
  • the viewpoint composite image RefSyn When using the viewpoint composite image RefSyn, it is necessary to input a reference viewpoint frame photographed at the same time as the reference frame, generate a viewpoint composite image of the reference frame, and store it.
  • the viewpoint synthesized image is continuously accumulated in the viewpoint synthesized image memory while the processed frames are accumulated in the decoded image memory.
  • the processed region stored in the decoded image memory in the corresponding region search (step Sa5 in the first embodiment and step Sb5 in the second embodiment) is not required, and therefore the corresponding region search is performed.
  • This process need not be performed in synchronization with the encoding process or the decoding process. As a result, parallel calculation or the like can be performed, and an effect of reducing the entire calculation time can be obtained.
  • the viewpoint composite image and the reference frame are used as they are.
  • the accuracy of the corresponding area search decreases due to the influence of noise such as film grain and coding distortion generated in the viewpoint composite image and the reference frame. Since these noises are specific frequency components (especially high-frequency components), search is performed after applying a band-pass filter (or low-pass filter if the noise is high-frequency) to the frame (image) used for the corresponding region search By performing the above, it is possible to reduce the influence of noise.
  • the accuracy of the corresponding area search decreases due to the influence of noise or the like, the spatial correlation of the vector indicating the corresponding area decreases.
  • the accuracy of the corresponding region search may be improved by applying an average value filter or a median filter to the motion vector estimated for each block to increase the spatial correlation.
  • the processing target blocks have been described as having the same size as the corresponding region search block, but it is clear that they need not be the same size. Since the temporal change of the video is non-linear, the change of the video signal can be predicted more accurately by finding the corresponding area for each smaller block. However, when a small block is used, not only the calculation amount increases, but also the influence of noise included in the video signal increases. In order to cope with this problem, when searching for a corresponding region for a small region, it is also a process in a range that can be easily analogized to reduce the influence of noise by using several pixels around the small region for the search.
  • the process of encoding or decoding one frame of one camera has been described. By repeating this process for each frame, encoding of a multi-view video is performed. Or decoding can be realized. Furthermore, by repeating the processing for each camera, it is possible to realize encoding or decoding of multi-view video images of a plurality of cameras.
  • the correction parameter is obtained using the assumption that the color and luminance mismatch depending on the subject does not change greatly in time. Therefore, when the scene changes suddenly due to a scene change or the like, the mismatch changes with time. In such a case, in the embodiment of the present invention, an appropriate correction parameter cannot be estimated, and there is a possibility that the difference between the viewpoint synthesized image and the processing target frame is increased by the correction. Therefore, it is possible to determine whether or not there is a sudden change such as a scene change and correct the viewpoint composite image only when it is determined that there is no such a sudden change in video. As a method for determining such a sudden video change, the value of the degree of divergence of the corresponding area obtained as a result of the corresponding area search is checked. You may use the method of determining with having generate
  • the processing described above can also be realized by a computer and a software program. Further, the program can be provided by being recorded on a computer-readable recording medium or can be provided through a network.
  • the multi-view video encoding device and the multi-view video decoding device have been mainly described.
  • the multi-view video encoding method and the multi-view video decoding method of the present invention can be realized by steps corresponding to the operations of the respective units of the multi-view video encoding device and the multi-view video decoding device.
  • the present invention is used, for example, for encoding and decoding a multi-view image or a multi-view video. According to the present invention, even when a luminance or color mismatch between cameras occurs locally, the encoding of an efficient multi-view image or multi-view video is not performed without separately encoding / decoding correction parameters. Can be realized.
  • Multiview video encoding apparatus 101 Encoding object frame input part 102 Encoding object image memory 103 Reference viewpoint frame input part 104 Reference viewpoint image memory 105 Viewpoint synthesis part 106 Viewpoint synthetic image memory 107 Reliability setting part 108 Viewpoint synthetic image correction Unit 109 prediction residual encoding unit 110 prediction residual decoding unit 111 decoded image memory 112 prediction residual calculation unit 113 decoded image calculation unit 1081 reference region setting unit 1082 estimation accuracy setting unit 1083 correction parameter estimation unit 1084 image correction unit 200 multi Viewpoint video decoding apparatus 201 Encoded data input unit 202 Encoded data memory 203 Reference view frame input unit 204 Reference view image memory 205 Viewpoint synthesis unit 206 Viewpoint synthesized image memory 207 Reliability setting unit 208 Viewpoint synthesized image correction unit 210 Prediction residual Recovery No. 211 Decoded image memory 212 Decoded image calculation unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

 カメラ間での局所的な輝度や、色のミスマッチを伴うような多視点映像においても、高能率な符号化手法を実現する。多視点映像の符号化対象視点における符号化対象フレームと同時刻に撮影された、符号化対象視点とは異なる参照視点における既に符号化済みの参照視点フレームから、符号化対象フレームに対応する視点合成画像が合成される。予め定められた大きさの処理単位領域毎に、視点合成画像に対応する、符号化対象視点における既に符号化済みの参照フレーム上の参照領域が探索される。処理単位領域に対する視点合成画像と参照領域に対する参照フレームとから、カメラ間ミスマッチを補正する補正パラメータが推定される。推定された補正パラメータを用いて、処理単位領域に対する視点合成画像が補正される。補正された視点合成画像を用いて、符号化対象視点の映像が予測符号化される。

Description

多視点映像符号化方法、多視点映像復号方法、多視点映像符号化装置、多視点映像復号装置、及びプログラム
 本発明は、多視点画像または多視点動画像を符号化する多視点映像符号化方法及び多視点映像符号化装置、多視点画像または多視点動画像を復号する多視点映像復号方法及び多視点映像復号装置、ならびにプログラムに関する。
 本願は、2010年2月24日に日本へ出願された日本特願2010-038680号に対して優先権を主張し、その内容をここに援用する。
 多視点画像とは、複数のカメラで同じ被写体とその背景とを撮影した複数の画像のことであり、多視点動画像(多視点映像)とは、その動画像のことである。一般的な映像符号化では、映像の中の撮影時刻の異なるフレーム間に存在する高い相関を利用した、動き補償予測を用いて効率的な符号化を実現する。動き補償予測は、H.264に代表される近年の映像符号化方式の国際標準規格に採用されている手法である。すなわち、動き補償予測は、符号化対象フレームと既に符号化済みの参照フレームとの間で被写体の動きを補償して画像を生成し、該生成した画像と符号化対象フレームとの間でフレーム間差分を取り、その差分信号と動きベクトルとを符号化する方法である。
 多視点映像符号化では、撮影時刻の異なるフレーム間だけでなく、視点の異なるフレーム間にも高い相関が存在する。そのため、動きではなく視点間の視差を補償して生成した画像(フレーム)と符号化対象フレームとの間でフレーム間差分を取り、差分信号と視差ベクトルとを符号化する視差補償予測と呼ばれる手法が用いられる。視差補償予測は、H.264 Annex.Hとして国際標準規格に採用されている(例えば、非特許文献1参照)。
 ここで用いられる視差とは、異なる位置や、向きで配置されたカメラの画像平面上で、被写体上の同じ位置が投影される位置の差である。視差補償予測では、これを二次元ベクトルで表現して符号化を行っている。図7に示すように、視差がカメラの視点位置と被写体のカメラからの距離(デプス)とに依存して発生する情報であるため、この原理を利用した視点合成予測(視点補間予測)と呼ばれる方式が存在する。
 視点合成予測(視点補間予測)は、カメラや、被写体の三次元的な位置関係に従って、既に処理が終了して復号結果が得られている多視点映像の一部分を用いて、符号化、もしくは復号処理を行う別の視点に対するフレームを合成(補間)し、合成によって得られた画像を、予測画像として用いる方式である(例えば、非特許文献2参照)。被写体の三次元的な位置を表現するために、カメラから被写体までの距離(デプス)を画素ごとに表現したデプスマップ(距離画像、視差画像、ディスパリティマップと呼ばれることもある)が用いられることが多い。デプスマップの他には、被写体のポリゴン情報や、被写体空間のボクセル情報を用いることもできる。
 なお、デプスマップを取得する方法には、大きく分けると、赤外線パルスなどを用いて測定することでデプスマップを生成する方法と、多視点映像上で同じ被写体が写っている点から三角測量の原理を用いてデプスを推定した上で、デプスマップを生成する方法とがある。どちらの方法で得られたデプスマップを用いるかは、視点合成予測において大きな問題ではない。また、デプスマップが得られるのであれば、どこで推定するかも大きな問題ではない。
 但し、予測符号化を行う場合においては、一般的に、符号化側で用いたデプスマップと復号側で用いたデプスマップとが一致しない場合には、ドリフトと呼ばれる符号化歪みが発生することになる。そのため、符号化側で用いたデプスマップを復号側へ伝送するか、符号化側と復号側とで全く同じデータと手法を用いてデプスマップを推定する方法が用いられる。
 視差補償予測や、視点合成予測では、カメラの撮像素子の応答に個体差があったり、カメラ毎にゲインコントロールや、ガンマ補正が行われていたり、シーンに方向依存の照明効果があったりすると、符号化効率が劣化する。これは、符号化対象フレームと参照フレームとで被写体の色が同じであるという前提で予測を行っているためである。
 こうした被写体の輝度や、色の変化に対応すべく検討された方式として、輝度補償や、色補正と呼ばれるものがある。これは、参照フレームの輝度や、色を補正したものを予測に使用するフレームとすることで、符号化する予測残差を小さく抑える方式である。非特許文献1に記載されているH.264では、1次関数を用いて補正するWeighted Prediction が採用されている。また、それとは別に色テーブルを用いて補正する方式も提案されている(例えば、非特許文献3参照)。
 また、これらの被写体の輝度や、色のカメラ間のミスマッチは、被写体依存の局所的なものであるため、本来であれば、局所的に異なる補正パラメータ(補正のためのパラメータ)を用いて補正するほうが望ましい。また、これらのミスマッチは、単純なゲイン等の違いだけでなく、フォーカスの違いなど、多少複雑なモデルに従って発生する。このため、単純な補正モデルではなく、投影プロセス等をモデル化した複雑な補正モデルを用いたほうが望ましい。
 更に、局所的な変化に対応するためには、補正パラメータを複数セット用意する必要がある。一般に、複雑な補正モデルは、多数のパラメータを持つものとして表現される。そのため、補正パラメータを伝送するアプローチでは、ミスマッチを改善できたとしても、多くの符号量を必要とするため、高い符号化効率を達成することができない。
 補正パラメータの符号量を増やさずに、ミスマッチの局所性や、複雑性に対応可能な方法として、復号側で補正パラメータを推定して使用する手法がある。例えば、処理対象ブロックの隣接領域においては同じ被写体が撮影されていると仮定し、隣接領域における視点合成画像と復号画像との差を最小化する補正パラメータを推定して、そのブロックの補正パラメータとして用いる手法がある(例えば、非特許文献4参照)。この方式では、補正パラメータは、一切送る必要がないため、ミスマッチを減少させることができれば、トータルの補正パラメータ数が増えたとしても発生符号量が増加することはない。
Rec. ITU-T H.264 "Advanced video coding for generic audiovisual services," March 2009. S. Shimizu, M. Kitahara, H. Kimata, K. Kamikura, and Y. Yashima, "View Scalable Multiview Video Coding Using 3-D Warping with Depth Map," IEEE Transactions on Circuits and System for Video Technology, Vol. 17, No. 11, pp. 1485-1495, November, 2007. K. Yamamoto, M. Kitahara, H. Kimata, T. Yendo, T. Fujii, M. Tanimoto, S. Shimizu, K. Kamikura, and Y. Yashima, "Multiview Video Coding Using View Interpolation and Color Correction," IEEE Transactions on Circuits and System for Video Technology, Vol. 17, No. 11, pp. 1436-1449, November, 2007. S. Shimizu, H. Kimata, and Y. Ohtani, "Adaptive Appearance Compensated View Synthesis Prediction for Multiview Video Coding," Proceedings of ICIP2009, pp. 2949-2952, November 2009.
 上述した従来技術では、復号時に参照可能な隣接ブロックの情報を用いて補正パラメータを推定することで、補正パラメータを符号化することなく、カメラ間のミスマッチを補正することが可能となる。このため、多視点映像の効率的な圧縮符号化を実現することが可能である。
 しかしながら、隣接ブロックにおいて処理対象ブロックとは異なる被写体が写っていた場合、得られる補正パラメータは、処理対象ブロックに写っている被写体に対するミスマッチを適切に補正することができないという問題がある。また、ミスマッチを適切に補正できないだけでなく、逆にミスマッチを増幅させ、符号化効率を悪化させてしまう可能性もある。
 この課題に対する解決策として、ブロック毎に補正を行うかどうかを示すフラグを符号化する方法が容易に考えられる。しかしながら、この方法では、ミスマッチの増加を防ぐことは可能であるが、フラグを符号化する必要が生じるため、符号化効率を大きく改善することは不可能である。
 本発明は、このような事情を考慮してなされたものであり、その目的は、カメラ間で局所的な輝度や、色のミスマッチを伴うような多視点映像においても、補正パラメータを別途符号化/復号することなく、効率的に多視点画像や多視点動画像の符号化/復号を実現できる多視点映像符号化方法、多視点映像復号方法、多視点映像符号化装置、多視点映像復号装置、及びプログラムを提供することにある。
 上述した課題を解決するために、本発明の第1の観点は、多視点映像を符号化する多視点映像符号化方法であって、前記多視点映像の符号化対象視点における符号化対象フレームと同時刻に撮影された、前記符号化対象視点とは異なる参照視点における既に符号化済みの参照視点フレームから、前記符号化対象視点の前記符号化対象フレームに対応する視点合成画像を合成する視点合成画像生成ステップと、予め定められた大きさの処理単位領域毎に、前記視点合成画像に対応する、前記符号化対象視点における既に符号化済みの参照フレーム上の参照領域を探索する参照領域推定ステップと、前記処理単位領域に対する前記視点合成画像と前記参照領域に対する前記参照フレームとから、カメラ間ミスマッチを補正する補正パラメータを推定する補正パラメータ推定ステップと、前記推定された補正パラメータを用いて、前記処理単位領域に対する前記視点合成画像を補正する視点合成画像補正ステップと、前記補正された視点合成画像を用いて、前記符号化対象視点の映像を予測符号化する画像符号化ステップとを含む多視点映像符号化方法である。
 本発明の第1の観点において、前記視点合成画像の各画素について、前記視点合成画像の確からしさを示す信頼度を設定する信頼度設定ステップを更に含み、前記参照領域推定ステップは、前記信頼度に基づいて、前記視点合成画像に対応する、前記参照フレーム上の前記参照領域を探索する際の各画素のマッチングコストに重みをつけるようにしてもよい。
 本発明の第1の観点において、前記補正パラメータ推定ステップは、前記信頼度に基づいて、前記補正パラメータを推定する際の各画素のマッチングコストに重みをつけるようにしてもよい。
 本発明の第1の観点において、前記視点合成画像の各画素について、前記参照領域が正しく推定できたかどうかを示す推定精度を設定する推定精度設定ステップを更に含み、前記補正パラメータ推定ステップは、前記推定精度、および前記信頼度のいずれか一方、または双方に基づいて、前記補正パラメータを推定する際の各画素のマッチングコストに重みをつけるようにしてもよい。
 また、上述した課題を解決するために、本発明の第2の観点は、多視点映像を復号する多視点映像復号方法であって、前記多視点映像の復号対象視点における復号対象フレームと同時刻に撮影された、前記復号対象視点とは異なる参照視点における参照視点フレームから、前記復号対象視点の前記復号対象フレームに対応する視点合成画像を合成する視点合成画像生成ステップと、予め定められた大きさの処理単位領域毎に、前記視点合成画像に対応する、前記復号対象視点における既に復号済みの参照フレーム上の参照領域を探索する参照領域推定ステップと、前記処理単位領域に対する前記視点合成画像と前記参照領域に対する前記参照フレームとから、カメラ間ミスマッチを補正する補正パラメータを推定する補正パラメータ推定ステップと、前記推定された補正パラメータを用いて、前記処理単位領域に対する前記視点合成画像を補正する視点合成画像補正ステップと、前記補正された視点合成画像を予測信号として用いて、前記復号対象視点における予測符号化されている復号対象フレームを、前記復号対象視点に対する映像の符号化データから復号する画像復号ステップとを含む多視点映像復号方法である。
 本発明の第2の観点において、前記視点合成画像の各画素について、前記視点合成画像の確からしさを示す信頼度を設定する信頼度設定ステップを更に含み、前記参照領域推定ステップは、前記信頼度に基づいて、前記視点合成画像に対応する、前記参照フレーム上の前記参照領域を探索する際の各画素のマッチングコストに重みをつけるようにしてもよい。
 本発明の第2の観点において、前記補正パラメータ推定ステップは、前記信頼度に基づいて、前記補正パラメータを推定する際の各画素のマッチングコストに重みをつけるようにしてもよい。
 本発明の第2の観点において、前記視点合成画像の各画素について、前記参照領域が正しく推定できたかどうかを示す推定精度を設定する推定精度設定ステップを更に含み、前記補正パラメータ推定ステップは、前記推定精度、および前記信頼度のいずれか一方、または双方に基づいて、前記補正パラメータを推定する際の各画素のマッチングコストに重みをつけるようにしてもよい。
 また、上述した課題を解決するために、本発明の第3の観点は、多視点映像を符号化する多視点映像符号化装置であって、前記多視点映像の符号化対象視点における符号化対象フレームと同時刻に撮影された、前記符号化対象視点とは異なる参照視点における既に符号化済みの参照視点フレームから、前記符号化対象視点の前記符号化対象フレームに対応する視点合成画像を合成する視点合成画像生成手段と、予め定められた大きさの処理単位領域毎に、前記視点合成画像生成手段により合成された前記視点合成画像に対応する、前記符号化対象視点における既に符号化済みの参照フレーム上の参照領域を探索する参照領域推定手段と、前記処理単位領域に対する前記視点合成画像と前記参照領域推定手段により探索された前記参照領域に対する前記参照フレームとから、カメラ間ミスマッチを補正する補正パラメータを推定する補正パラメータ推定手段と、前記補正パラメータ推定手段により推定された前記補正パラメータを用いて、前記処理単位領域に対する前記視点合成画像を補正する視点合成画像補正手段と、前記視点合成画像補正手段により補正された視点合成画像を用いて、前記符号化対象視点の映像を予測符号化する画像符号化手段とを備える多視点映像符号化装置である。
 本発明の第3の観点において、前記視点合成画像生成手段により合成された前記視点合成画像の各画素について、前記視点合成画像の確からしさを示す信頼度を設定する信頼度設定手段を更に備え、前記参照領域推定手段は、前記信頼度設定手段により設定された前記信頼度に基づいて、前記視点合成画像に対応する、前記参照フレーム上の前記参照領域を探索する際の各画素のマッチングコストに重みをつけるようにしてもよい。
 本発明の第3の観点において、前記補正パラメータ推定手段は、前記信頼度設定手段により設定された前記信頼度に基づいて、前記補正パラメータを推定する際の各画素のマッチングコストに重みをつけるようにしてもよい。
 本発明の第3の観点において、前記視点合成画像生成手段により合成された前記視点合成画像の各画素について、前記参照領域が正しく推定できたかどうかを示す推定精度を設定する推定精度設定手段を更に備え、前記補正パラメータ推定手段は、前記推定精度設定手段により設定された前記推定精度、および前記信頼度設定手段により設定された前記信頼度のいずれか一方、または双方に基づいて、前記補正パラメータを推定する際の各画素のマッチングコストに重みをつけるようにしてもよい。
 また、上述した課題を解決するために、本発明の第4の観点は、多視点映像を復号する多視点映像復号装置であって、前記多視点映像の復号対象視点における復号対象フレームと同時刻に撮影された、前記復号対象視点とは異なる参照視点における参照視点フレームから、前記復号対象視点の前記復号対象フレームに対応する視点合成画像を合成する視点合成画像生成手段と、予め定められた大きさの処理単位領域毎に、前記視点合成画像生成手段により合成された前記視点合成画像に対応する、前記復号対象視点における既に復号済みの参照フレーム上の参照領域を探索する参照領域推定手段と、前記処理単位領域に対する前記視点合成画像と前記参照領域推定手段により探索された前記参照領域に対する前記参照フレームとから、カメラ間ミスマッチを補正する補正パラメータを推定する補正パラメータ推定手段と、前記補正パラメータ推定手段により推定された前記補正パラメータを用いて、前記処理単位領域に対する前記視点合成画像を補正する視点合成画像補正手段と、前記視点合成画像補正手段により補正された視点合成画像を予測信号として用いて、前記復号対象視点における予測符号化されている復号対象フレームを、前記復号対象視点に対する映像の符号化データから復号する画像復号手段とを有する多視点映像復号装置である。
 また、上述した課題を解決するために、本発明の第5の観点は、多視点映像を符号化する多視点映像符号化装置のコンピュータに、前記多視点映像の符号化対象視点における符号化対象フレームと同時刻に撮影された、前記符号化対象視点とは異なる参照視点における既に符号化済みの参照視点フレームから、前記符号化対象視点の前記符号化対象フレームに対応する視点合成画像を合成する視点合成画像生成機能、予め定められた大きさの処理単位領域毎に、前記視点合成画像に対応する、前記符号化対象視点における既に符号化済みの参照フレーム上の参照領域を探索する参照領域推定機能、前記処理単位領域に対する前記視点合成画像と前記参照領域に対する前記参照フレームとから、カメラ間ミスマッチを補正する補正パラメータを推定する補正パラメータ推定機能、前記推定された補正パラメータを用いて、前記処理単位領域に対する前記視点合成画像を補正する視点合成画像補正機能、前記補正された視点合成画像を用いて、前記符号化対象視点の映像を予測符号化する画像符号化機能を実行させるプログラムである。
 また、上述した課題を解決するために、本発明の第6の観点は、多視点映像を復号する多視点映像復号装置のコンピュータに、前記多視点映像の復号対象視点における復号対象フレームと同時刻に撮影された、前記復号対象視点とは異なる参照視点における参照視点フレームから、前記復号対象視点の前記復号対象フレームに対応する視点合成画像を合成する視点合成画像生成機能、予め定められた大きさの処理単位領域毎に、前記視点合成画像に対応する、前記復号対象視点における既に復号済みの参照フレーム上の参照領域を探索する参照領域推定機能、前記処理単位領域に対する前記視点合成画像と前記参照領域に対する前記参照フレームとから、カメラ間ミスマッチを補正する補正パラメータを推定する補正パラメータ推定機能、前記推定された補正パラメータを用いて、前記処理単位領域に対する前記視点合成画像を補正する視点合成画像補正機能、前記補正された視点合成画像を予測信号として用いて、前記復号対象視点における予測符号化されている復号対象フレームを、前記復号対象視点に対する映像の符号化データから復号する画像復号機能を実行させるプログラムである。
 この発明によれば、カメラ間の輝度や色のミスマッチが局所的に生じている場合においても、補正パラメータを別途符号化/復号することなく、効率的な多視点画像や多視点動画像の符号化/復号を実現することができる。
本発明の第1実施形態による多視点映像符号化装置の構成を示すブロック図である。 本第1実施形態による多視点映像符号化装置100の視点合成画像補正部108の構成を示すブロック図である。 本第1実施形態による多視点映像符号化装置100の動作を説明するためのフローチャートである。 本第2実施形態による多視点映像復号装置の構成を示すブロック図である。 本第2実施形態による多視点映像復号装置200の視点合成画像補正部208の構成を示すブロック図である。 本第2実施形態による多視点映像復号装置200の動作を説明するためのフローチャートである。 従来技術でのカメラ間で発生する視差を示す概念図である。
 本発明の実施形態では、生成した視点合成画像を用いて、処理中の領域に対する、既に符号化済みのフレーム上の対応領域を求め、符号化済みフレームにおける対応領域の映像信号をリファレンスとして、視点合成画像の輝度や色の補正を行う。本発明の実施形態では、従来手法が利用した隣接領域には同じ被写体が写っているという仮定ではなく、被写体に依存する色や輝度のミスマッチが時間的には大きく変化しないという仮定を用いて補正パラメータを求める。一般に、フレーム内には複数の被写体が含まれているため、従来の仮定が外れる領域は必ず存在する。一方、シーンチェンジ等で急激にシーンが変化しない限り、時間的にミスマッチは変化しないため、本発明の実施形態が有効に機能する。つまり、従来の手法が補正に失敗していた領域においても、ミスマッチを減少させる補正を行うことが可能となり、効率的な多視点映像符号化を実現することが可能となる。
 以下、本発明の実施形態を、図面を参照して説明する。
 なお、以下の説明では、映像(フレーム)に記号[]で挟まれた位置を特定可能な情報(座標値、もしくは座標値に対応付け可能なインデックス)を付加することで、その位置の画素に関してサンプリングされた映像信号を示すものとする。
A.第1実施形態
 まず、本発明の第1実施形態について説明する。
 図1は、本発明の第1実施形態による多視点映像符号化装置の構成を示すブロック図である。図1において、多視点映像符号化装置100は、符号化対象フレーム入力部101、符号化対象画像メモリ102、参照視点フレーム入力部103、参照視点画像メモリ104、視点合成部105、視点合成画像メモリ106、信頼度設定部107、視点合成画像補正部108、予測残差符号化部109、予測残差復号部110、復号画像メモリ111、予測残差算出部112、及び復号画像算出部113を備えている。
 符号化対象フレーム入力部101は、符号化対象となる映像フレーム(符号化対象フレーム)を入力する。符号化対象画像メモリ102は、入力された符号化対象フレームを蓄積する。参照視点フレーム入力部103は、符号化対象フレームとは別の視点(参照視点)に対する参照映像フレーム(参照視点フレーム)を入力する。参照視点画像メモリ104は、入力された参照視点フレームを蓄積する。視点合成部105は、参照視点フレームを用いて符号化対象フレームに対する視点合成画像を生成する。視点合成画像メモリ106は、生成された視点合成画像を蓄積する。
 信頼度設定部107は、生成された視点合成画像の画素毎の信頼度を設定する。視点合成画像補正部108は、視点合成画像のカメラ間ミスマッチを補正し、補正視点合成画像を出力する。予測残差算出部112は、符号化対象フレームと補正視点合成画像との差(予測残差信号)を生成する。予測残差符号化部109は、生成された予測残差信号を符号化して符号化データを出力する。予測残差復号部110は、予測残差信号の符号化データを復号する。復号画像算出部113は、復号された予測残差信号と補正視点合成画像とを足し合わせて符号化対象フレームの復号画像を生成する。復号画像メモリ111は、生成された復号画像を蓄積する。
 図2は、本第1実施形態による多視点映像符号化装置100の視点合成画像補正部108の構成を示すブロック図である。図2において、本第1実施形態の視点合成画像補正部108は、視点合成画像を用いて符号化対象ブロックに対応する参照フレーム上のブロックを参照領域として探索する参照領域設定部1081と、参照領域の画素毎に対応領域が正しく設定できたかどうかを示す推定精度を設定する推定精度設定部1082と、視点合成画像におけるカメラ間ミスマッチを補正するためのパラメータを推定する補正パラメータ推定部1083と、求められた補正パラメータに従って視点合成画像を補正する画像補正部1084とを備える。
 図3は、本第1実施形態による多視点映像符号化装置100の動作を説明するためのフローチャートである。このフローチャートに従って、多視点映像符号化装置100の実行する処理について詳細に説明する。
 まず、符号化対象フレーム入力部101より符号化対象フレームOrgが入力され、符号化対象画像メモリ102に格納される(ステップSa1)。また、参照視点フレーム入力部103より符号化対象フレームOrgと同時刻に参照視点で撮影された参照視点フレームRefが入力され(n=1,2,…,N)、参照視点画像メモリ104に蓄積される(ステップSa1)。ここで入力される参照視点フレームは、既に符号化済みの画像を復号したものとする。これは、復号装置で得られる情報と同じ情報を用いることで、ドリフト等の符号化ノイズの発生を抑えるためである。但し、これらの符号化ノイズの発生を許容する場合には、符号化前のオリジナルのものが入力されても構わない。なお、nは、参照視点を示すインデックスであり、Nは、ここで利用可能な参照視点の数である。
 次に、視点合成部105で、参照視点フレームの情報から、符号化対象フレームと同時刻に同じ視点で撮影された画像を合成し、生成された視点合成画像Synを視点合成画像メモリ106に蓄積する(ステップSa2)。この視点合成画像Synの生成法には、どのような方法を用いても構わない。例えば、参照視点フレームの映像情報以外に参照視点フレームに対するデプス情報が与えられるのであれば、前述した非特許文献2や、非特許文献5(Y. Mori, N. Fukushima, T. Fujii, and M. Tanimoto, “View Generation with 3D Warping Using Depth Information for FTV,” Proceedings of 3DTV-CON2008, pp. 229-232, May 2008.)などに記載されている手法を用いることができる。
 また、符号化対象フレームに対するデプス情報が得られた場合には、非特許文献6(S. Yea and A. Vetro, “View Synthesis Prediction for Rate-Overhead Reduction in FTV,” Proceedings of 3DTV-CON2008, pp. 145-148, May 2008.)などに記載されている手法を用いることも可能である。全くデプス情報が得られない場合では、非特許文献7(J. Sun, N. Zheng, and H. Shum, “Stereo Matching Using Belief Propagation,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 7, pp. 787-800, July 2003.)などに記載のステレオ法や、デプス推定法と呼ばれる手法を用いて、参照視点フレーム、もしくは符号化対象フレームに対するデプス情報を作成した後に、前述のような手法を適用して視点合成画像を生成することができる(非特許文献8:S. Shimizu, Y. Tonomura, H. Kimata, and Y. Ohtani, “Improved View Interpolation Prediction for Side Information in Multiview Distributed Video Coding,” Proceedings of ICDSC2009, August 2009.)。デプス情報を明には生成せずに、参照視点フレームから視点合成画像を直接生成する方法もある(前述した非特許文献3参照)。
 なお、これらの手法を用いるには、基本的にカメラの位置関係や、カメラによる投影プロセスを示すカメラパラメータが必要となる。これらのカメラパラメータも参照視点フレームから推定することが可能である。なお、デプス情報や、カメラパラメータなどを復号側で推定しない場合、符号化装置内で使用したそれらの情報を別途符号化して伝送する必要がある。
 次に、信頼度設定部107において、視点合成画像の各画素に対して、その画素に対する合成がどれぐらいの確からしさで実現できたかを示す信頼度ρを生成する(ステップSa3)。本第1実施形態では、信頼度ρは、0~1までの実数とするが、大きな値ほど信頼度が高いとするような定義のものであれば、どのように信頼度を表現しても構わない。例えば、1以上の8ビット整数で信頼度を表現しても構わない。
 信頼度ρは、上述した通り、合成がどれぐらい正確に行われたかを示すことができればどのようなものでも構わない。例えば、最も簡単なものとしては、視点合成画像の各画素が対応する参照視点フレーム上の画素の画素値の分散値を用いる方法がある。対応画素間で画素値が近いほど同じ被写体を同定して正しく視点合成できたことを示すので、分散が小さいほど信頼度が高いことを示す。つまり、信頼度は分散の逆数を用いて表現される。視点合成画像Syn[p]を合成するのに使用した各参照視点フレームの画素をRef[p]で表すとすると、次の数式(1)や数式(2)を用いて信頼度を表すことが可能である。
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000002
 分散の最小値が0であることから、関数maxを用いて信頼度を定義する必要がある。なお、maxは、与えられた集合に対する最大値を返す関数である。また、その他の関数は、次の数式(3)で表現されるものである。
Figure JPOXMLDOC01-appb-M000003
 分散以外にも、次の数式(4)で表される、対応する参照視点フレームの画素の最大値と最小値との差diff(p)を用いる方法もある。また、分散の逆数ではなく、次の数式(4)’のように指数関数を用いた信頼度を定義しても構わない。なお、関数fは上述のvar1,var2,diffのいずれでも構わない。この場合、関数fの値域に0が含まれていても信頼度を定義することが可能である。
Figure JPOXMLDOC01-appb-M000004
 これらの方法は、単純であるが、オクルージョンの発生を考慮していないため、常に最適な信頼度が得られるとは限らない。そこで、オクルージョンの発生を考慮して、参照視点フレームを対応画素の画素値によってクラスタリングし、最も大きいクラスタに属する参照視点フレームの対応画素の画素値に対して、分散値や、最大値と最小値との差を計算して用いても構わない。
 更に別の方法としては、視点間の対応点における誤差が正規分布や、ラプラス分布に従うと仮定し、分布の平均値や、分散値をパラメータとして、上記数式(4)のdiffなどで求められる各画素の誤差量に対応する確率の値を用いて信頼度を定義しても構わない。その際に分布のモデルや、その平均値や、分散値は、予め定められたものを用いても構わないし、使用したモデルの情報を符号化して伝送しても構わない。一般に、被写体が完全拡散反射しているのであれば、理論的に分布の平均値は0と考えることができるため、モデルを簡略化してもよい。
 また、視点合成画像を生成した際の対応点が得られるデプス付近で、対応画素の画素値の誤差量が最小であると仮定すると、デプスを微小に変化させたときの誤差量の変化から誤差分布モデルを推定し、その誤差分布モデルそのものや、その誤差分布モデルと視点合成画像生成時の参照視点フレーム上の対応画素の画素値とに基づいた値を用いて信頼度を定義する方法を用いても構わない。
 誤差分布モデルのみを用いた定義としては、誤差の発生確率がその誤差分布に従う際に、誤差が一定の範囲内に収まる確率を信頼度とする方法がある。誤差分布モデルと視点合成画像生成時の参照視点フレーム上の対応画素の画素値とを用いた定義としては、誤差の発生確率が推定した誤差分布に従うとした場合に、視点合成画像生成時の参照視点フレーム上の対応画素の画素値で表される状況が発生する確率を信頼度とする方法がある。
 更に別な方法として、視点合成を行う際に必要となる視差(デプス)を推定する際に、Belief Propagationと呼ばれる手法(上述した非特許文献7)を用いた際に得られる、視差(デプス)に対する確率の値を信頼度としても構わない。Belief Propagation以外でも、視点合成画像の各画素について、解の確からしさを内部的に計算するデプス推定アルゴリズムであれば、その情報を信頼度として用いることが可能である。
 視点合成画像生成時に、対応点探索や、ステレオ法、デプス推定を行う場合には、対応点の情報やデプス情報を求める処理の一部が信頼度計算の一部と同じになることがある。そのような場合においては、視点合成画像生成と信頼度計算とを同時に行うことで、演算量を削減することが可能である。
 信頼度の計算が終了したら、符号化対象フレームをブロックに分割し、その領域毎に、視点合成画像補正部108で、視点合成画像のカメラ間ミスマッチを補正しながら、符号化対象フレームの映像信号を符号化する(ステップSa4~Sa12)。つまり、符号化対象ブロックインデックスをblk、総符号化対象ブロック数をnumBlksで表すとすると、blkを0で初期化し(ステップSa4)、その後、blkに1を加算しながら(ステップSa11)、blkがnumBlksになるまで(ステップSa12)、以下の処理(ステップSa5~Sa10)を繰り返す。
 なお、視点合成画像の生成や、信頼度の計算を符号化対象ブロック毎に行うことが可能であれば、それらの処理も、符号化対象ブロック毎に繰り返す処理の一部として行うことが可能である。例えば、符号化対象ブロックに対するデプス情報が与えられている場合が該当する。
 符号化対象ブロック毎に繰り返される処理では、まず、参照領域設定部1081で、視点合成画像を用いて、ブロックblkに対応する参照フレーム上のブロックであるところの参照領域を見つける(ステップSa5)。ここで、参照フレームとは、既に符号化処理が終了したデータを復号して得られるローカルデコード画像のことである。このローカルデコード画像のデータは、復号画像メモリ111に蓄積されるデータである。
 なお、ローカルデコード画像を使用するのは、復号側で同じタイミングで取得可能なデータと同じものを用いることで、ドリフトと呼ばれる符号化歪みの発生を防ぐためである。そのような符号化歪みの発生を許すのであれば、ローカルデコード画像ではなく、符号化対象フレームより先に符号化された入力フレームを用いても構わない。
 参照領域を求める処理は、視点合成画像Syn[blk]をテンプレートとして、適合度を最大化もしくは乖離度を最小化する対応ブロックを、復号画像メモリ111に蓄積されているローカルデコード画像上で求める処理である。本第1実施形態では、乖離度を示すマッチングコストを用いるものとする。乖離度を示すマッチングコストの具体例としては、次の数式(5)や、数式(6)などがある。
Figure JPOXMLDOC01-appb-M000005
Figure JPOXMLDOC01-appb-M000006
 ここで、vecは、対応ブロック間のベクトルであり、tは、復号画像メモリ111に蓄積されているローカルデコード画像Decの1つを示すインデックス値とする。これら以外に、視点合成画像とローカルデコード画像との間の差分値をDCT(Discrete Cosine Transform:離散コサイン変換)や、アダマール変換などを用いて変換した値を用いた方法がある。その変換を行列Aで表すと、次の数式(7)や、数式(8)で表すことができる。なお、||X||は、Xのノルムを表す。
Figure JPOXMLDOC01-appb-M000007
 つまり、これらのマッチングコストを最小化するブロックを求める処理は、次の数式(9)で表される(best_vec,best_t)の組を求めることになる。ここで、argminは、与えられた関数を最小化するパラメータを求める処理を示す。導出するパラメータの集合はargminの下部で与えられる集合である。
Figure JPOXMLDOC01-appb-M000009
 探索するフレーム数、探索範囲、及び探索の順序や打ち切りを決定する方法には、任意の方法を用いても構わない。但し、正確に復号するためには、復号側で用いるものと同様のものを用いる必要がある。なお、探索範囲や、打ち切り方法は、演算コストに大きな影響を与える。より少ない探索範囲で高いマッチング精度を出すための1つの方法として、探索中心を適切に設定する方法がある。1つの例としては、参照視点フレーム上の対応領域で使用されていた動きベクトルで表される対応点を探索中心にする方法がある。
 また、復号側の探索にかかる演算コストを削減する別の方法として、探索を行う対象のフレームを限定する方法がある。予め探索対象のフレーム決定法を決めても構わない。例えば、最も直前に符号化が終了したフレームを探索対象とする方法がこれに相当する。また、探索対象フレームを限定する別の方法として、どのフレームを対象とするかを示す情報を符号化して復号側に通知する方法もある。この場合、復号側では、探索対象フレームを示すインデックス値などの情報を復号し、それに基づいて探索対象フレームを決定する機構を備える必要がある。
 本第1実施形態では、符号化対象ブロックblkに対応するブロックを1つだけ求めている。しかし、必要なデータは、時間的に異なるフレームの映像信号を用いて表現された符号化対象ブロックの映像信号の予測値である。このため、符号化対象ブロックblk内の各画素に対して、対応画素を求めて、それらをブロック状に並べて作られる映像信号を参照領域としても構わない。また、符号化対象ブロックblkに対応するブロックを複数設定し、その複数ブロックにおける映像信号の平均値で表される映像信号を参照領域としても構わない。このようにすることで、探索対象フレームにノイズが重畳している場合や、探索精度が低い場合に、それらの影響を低減させ、よりロバストに参照領域を設定することが可能となる。
 参照領域Ref[blk](=Dec[blk+vec])が決定したら、推定精度設定部1082で、参照領域Ref[blk]の画素毎に、参照領域がどれぐらい正しく得られたかを示す推定精度ψを設定する(ステップSa6)。推定精度には、どのような値を用いても構わないが、視点合成画像および参照フレームにおける対応画素間の誤差量に依存した値を用いることが可能である。例えば、数式(10)や、数式(11)で表される二乗誤差や、絶対値誤差の逆数や、数式(12)や、数式(13)で表される二乗誤差や、絶対値誤差にマイナスを乗じた値などがある。また、別の例としては、誤差がラプラス分布などに従うと仮定して、得られた対応画素間の画像信号の差分に対応する確率を推定精度として用いても構わない。ラプラス分布などのパラメータは、別途与えても構わないし、参照領域推定時に計算する誤差の分布から推定しても構わない。数式(14)が平均を0とするラプラス分布を用いる場合の例であり、φはパラメータとなる。
Figure JPOXMLDOC01-appb-M000010
Figure JPOXMLDOC01-appb-M000011
Figure JPOXMLDOC01-appb-M000012
Figure JPOXMLDOC01-appb-M000013
Figure JPOXMLDOC01-appb-M000014
 推定精度の設定が終了したら、補正パラメータ推定部1083において、視点合成画像Syn[blk]を補正するための補正パラメータを推定する(ステップSa7)。補正方法や、補正パラメータ推定には、どのような方法を用いても構わないが、復号側で使用されるものと同じ方法を用いる必要がある。
 補正方法の例としては、オフセット値による補正、1次関数による補正、ガンマ補正などがある。それぞれ補正前の値をin、補正後の値をoutとすると、以下の数式(15)、(16)、(17)で表すことが可能である。
Figure JPOXMLDOC01-appb-M000015
Figure JPOXMLDOC01-appb-M000016
Figure JPOXMLDOC01-appb-M000017
 これらの例では、それぞれ、offset、(α,β)、(γ,a,b)が補正パラメータである。符号化対象ブロックblkに写っている被写体の画像信号が時間的に変化しないと仮定すると、補正前の値が視点合成画像の画像信号であり、理想的な補正後の値が参照領域の画像信号となる。つまり、この2つの画像信号の乖離度で表されるマッチングコストが小さくなるように、補正パラメータを求めることで、精度の高い補正が行えることになる。なお、マッチングコストを2つの画像信号の適合度で表す場合は、マッチングコストを最大化するようにパラメータを求めることになる。
 つまり、補正処理を表す関数をFとし、2つの画像信号の乖離度を表すマッチングコスト関数をCとすると、補正パラメータを求める処理は、次の数式(18)で表すことができる。
Figure JPOXMLDOC01-appb-M000018
 ここで、parは、補正方法Fの補正パラメータの集合を示し、argminは、与えられた関数を最小化するパラメータを求める処理を示す。導出するパラメータの集合はargminの下部で与えられる集合である。
 マッチングコストにはどのようなものを用いても構わないが、例えば、2つの信号の差の二乗を用いることができる。また、マッチングコストにおいて、視点合成画像の信頼度や、参照領域の推定精度や、その両方を用いて画素ごとに重み付けを行っても構わない。次の数式(19),(20),(21),(22)は、2つの信号の差の二乗を乖離度とする際に、それぞれ、全く重み付けを行わない場合、視点合成画像の信頼度で重み付けを行う場合、参照領域の推定精度で重み付けを行う場合、視点合成画像の信頼度と参照領域の推定精度の両方で重み付けを行う場合のマッチングコスト関数の例を示す。
Figure JPOXMLDOC01-appb-M000019
Figure JPOXMLDOC01-appb-M000020
Figure JPOXMLDOC01-appb-M000021
Figure JPOXMLDOC01-appb-M000022
 例えば、オフセット値による補正では、マッチングコスト関数として数式(22)を用いた場合は、次の数式(23)を用いて、offsetを求めることが可能である。
Figure JPOXMLDOC01-appb-M000023
 一次関数による補正を行う場合には、最小二乗法を用いて、二乗誤差を最小化するパラメータを導出することが可能である。
 なお、これらの補正パラメータは、輝度や、色差信号毎に求めても良いし、RGBなどの色チャンネル毎に求めても構わない。また、各チャンネルを細分化して、一定のレンジ毎に異なる補正を行うことも可能である(例えば、Rチャンネルの0~127と128~255とで別の補正パラメータを用いた補正を行う)。
 補正パラメータの推定が終了したら、画像補正部1084で、ブロックblkに対する視点合成画像を補正パラメータに従って補正し、補正視点合成画像Predを生成する(ステップSa8)。ここでの処理は、補正パラメータを代入した補正モデルに視点合成画像を入力すればよい。例えば、オフセット値を用いた補正を行う場合には、以下の数式(24)に従って補正視点合成画像Predが生成される。
Figure JPOXMLDOC01-appb-M000024
 ブロックblkの視点合成画像の補正が完了したら、補正視点合成画像Predを予測画像として用いて符号化対象フレームOrg[blk]を予測符号化する(ステップSa9)。つまり、符号化対象フレームOrg[blk]と補正視点合成画像Predの差分を予測残差として予測残差算出部112で生成し、その予測残差を予測残差符号化部109で符号化する。どのような符号化方法を用いても構わないが、H.264などの一般的な符号化手法では、予測残差に対して、DCT・量子化・2値化・エントロピー符号化を施すことによって符号化を行う。
 符号化結果のビットストリームは、多視点映像符号化装置100の出力となると共に、ブロック毎に予測残差復号部110で復号され、復号結果と補正視点合成画像Predとを復号画像算出部113で足し合わせてローカルデコード画像Deccur[blk]を構築する。構築されたローカルデコード画像は、今後の予測に使用するために、復号画像メモリ111に蓄積する(ステップSa10)。
B.第2実施形態
 次に、本発明の第2実施形態について説明する。
 図4は、本第2実施形態による多視点映像復号装置の構成を示すブロック図である。図4において、多視点映像復号装置200は、符号化データ入力部201、符号化データメモリ202、参照視点フレーム入力部203、参照視点画像メモリ204、視点合成部205、視点合成画像メモリ206、信頼度設定部207、視点合成画像補正部208、予測残差復号部210、復号画像メモリ211及び復号画像算出部212を備えている。
 符号化データ入力部201は、復号対象となる映像フレーム(復号対象フレーム)に対する符号化データを入力する。符号化データメモリ202は、入力された符号化データを蓄積する。参照視点フレーム入力部203は、復号対象フレームとは別の視点に対する映像フレームである参照視点フレームを入力する。参照視点画像メモリ204は、入力された参照視点フレームを蓄積する。視点合成部205は、参照視点フレームを用いて復号対象フレームに対する視点合成画像を生成する。視点合成画像メモリ206は、生成された視点合成画像を蓄積する。
 信頼度設定部207は、生成された視点合成画像の画素毎の信頼度を設定する。視点合成画像補正部208は、視点合成画像のカメラ間ミスマッチを補正し、補正視点合成画像を出力する。予測残差復号部210は、符号化データから復号対象フレームと補正視点合成画像との差を予測残差信号として復号する。復号画像メモリ211は、復号された予測残差信号と補正視点合成画像とを復号画像算出部212で足し合わせて得られる復号対象フレームの復号画像を蓄積する。
 なお、上述した多視点映像復号装置200の構成において、参照視点フレーム入力部203、参照視点画像メモリ204、視点合成部205、視点合成画像メモリ206、信頼度設定部207、視点合成画像補正部208、予測誤差復号部210、及び復号画像メモリ211は、各々、第1実施形態による多視点映像符号化装置100における、参照視点フレーム入力部103、参照視点画像メモリ104、視点合成部105、視点合成画像メモリ106、信頼度設定部107、視点合成画像補正部108、予測誤差復号部110、及び復号画像メモリ111と同じである。
 また、視点合成画像補正部208の構成は、上述した第1実施形態よる多視点映像符号化装置100の視点合成画像補正部108(図2)と同一である。但し、以下の説明では、図5に示すように、参照領域設定部2081、推定精度設定部2082、補正パラメータ推定部2083、画像補正部2084として説明する。
 図6は、本第2実施形態による多視点映像復号装置200の動作を説明するためのフローチャートである。このフローチャートに従って、多視点映像復号装置200の実行する処理について詳細に説明する。
 まず、符号化データ入力部201より、復号対象フレームに対する符号化データが入力され、符号化データメモリ202に格納される(ステップSb1)。また、参照視点フレーム入力部203より、復号対象フレームと同時刻に参照視点で撮影された参照視点フレームRefが入力され(n=1,2,…,N)、参照視点画像メモリ204に蓄積される(ステップSb1)。
 ここで入力される参照視点フレームは、別途復号された画像とする。ドリフトと呼ばれる符号化ノイズの発生を防ぐためには、符号化装置で使用したものと同一のものが入力される必要がある。しかし、それらの符号化ノイズの発生を許容する場合には、符号化装置で使用されたものと別のものが入力されても構わない。なお、nは、参照視点を示すインデックスであり、Nは、ここで利用可能な参照視点の数である。
 次に、視点合成部205で、参照視点フレームの情報から、復号対象フレームと同時刻に同じ視点で撮影された画像を合成し、生成された視点合成画像Synを視点合成画像メモリ206に蓄積する(ステップSb2)。そして、信頼度設定部207において、視点合成画像の各画素に対して、その画素に対する合成がどれぐらいの確からしさで実現できたかを示す信頼度ρを生成する(ステップSb3)。これらの処理は、それぞれ、第1実施形態のステップSa2、及びステップSa3と同じである。
 信頼度の計算が終了したら、予め定められたブロック毎に、視点合成画像補正部208で視点合成画像のカメラ間ミスマッチを補正しながら、復号対象フレームの映像信号を復号する(ステップSb4~Sb12)。つまり、復号対象ブロックインデックスをblk、総復号対象ブロック数をnumBlksで表すとすると、blkを0で初期化し(ステップSb4)、その後、blkに1を加算しながら(ステップSb11)、blkがnumBlksになるまで(ステップSb12)、以下の処理(ステップSb5~Sb10)を繰り返す。
 なお、視点合成画像の生成や、信頼度の計算を、復号対象ブロック毎に行うことが可能であれば、それらの処理も復号対象ブロック毎に繰り返す処理の一部として行うことが可能である。例えば、復号対象ブロックに対するデプス情報が与えられている場合が該当する。また、後述のステップSb9は、ブロック毎に行わず、事前に全部のブロックに対して行い、その結果を蓄積して利用しても構わない。但し、その場合には、復号予測残差信号を蓄積するメモリが必要となる。
 復号対象ブロック毎に繰り返される処理では、まず、参照領域設定部2081(≒参照領域設定部1081)で、視点合成画像を用いて、ブロックblkに対応する参照フレーム上のブロックであるところの参照領域Ref[blk]を見つける(ステップSb5)。なお、参照フレームとは、既に復号処理が終了して、復号画像メモリ211に蓄積されているデータである。
 この処理は、第1実施形態のステップSa5と同じである。探索のためのマッチングコスト・探索対象フレームの決定法・参照領域に対する映像信号の生成法などは、符号化装置で用いられた方法と同一のものを使うことで、ノイズの発生を防ぐことが可能である。
 参照領域Ref[blk](=Dec[blk+vec])が決定したら、推定精度設定部2082(≒推定精度設定部1082)で、参照領域Ref[blk]の画素毎に、参照領域がどれぐらい正しく得られたかを示す推定精度ψを設定する(ステップSb6)。その後、補正パラメータ推定部2083(≒補正パラメータ推定部1083)において、視点合成画像Syn[blk]を補正するための補正パラメータを推定する(ステップSb7)。次に、画像補正部2084(≒画像補正部1084)で、ブロックblkに対する視点合成画像を補正パラメータに従って補正し、補正視点合成画像Predを生成する(ステップSb8)。これらの処理は、それぞれ、第1実施形態のステップSa6、Sa7、Sa8と同じである。
 ブロックblkの視点合成画像の補正が完了したら、予測誤差復号部210により、符号化データよりブロックblkに対する予測残差信号を復号する(ステップSb9)。ここでの復号処理は、符号化手法に対応した処理となる。例えば、H.264などの一般的な符号化手法で符号化されている場合には、IDCT(Inverse Discrete Cosine Transform:逆離散コサイン変換)・逆量子化・多値化・エントロピー復号などを施すことによって復号を行う。
 最後に、得られた復号予測残差信号DecResと補正視点合成画像Predとを復号画像算出部212で足し合わせて復号対象フレームDeccur[blk]を構築する。構築された復号対象フレームは、今後の予測に使用するために、復号画像メモリ211に蓄積すると共に、多視点映像復号装置200の出力となる(ステップSb10)。
 上述した第1、第2実施形態によれば、生成した視点合成画像を用いて、処理中の領域に対する、既に符号化済みのフレーム上の対応領域を求め、符号化済みフレームにおける対応領域の映像信号をリファレンスとして、視点合成画像の輝度や色の補正を行う。これにより、ミスマッチを減少させる補正を行うことが可能となり、効率的な多視点映像符号化を実現することができる。また、視点合成画像の画素毎に、合成処理の確からしさを示す信頼度を設定し、その信頼度に基づいて画素毎にマッチングコストを重み付けする。そうすることで、視点合成時の誤差に引きずられることなく、精度よく合成できた画素を重視し、適切な対応領域を設定することが可能となる。
 また、上述した第1実施形態のステップSa5と第2実施形態のステップSb5では、処理対象フレーム(符号化対象フレームまたは復号対象フレーム)の視点合成画像Syn[blk]に対応する参照フレーム上の対応ブロックを、参照フレームDecを用いて求めている。しかし、参照フレームの視点合成画像RefSynが得られる場合は、参照フレームDecの代わりに視点合成画像RefSynを用いて対応ブロックを求めても構わない。つまり、数式(5)~(8)において、DecをRefSynに置き換えたマッチングコストを用いて、数式(9)で示される(best_vec,best_t)の組を求めることで、参照フレーム上の対応ブロックを求めても構わない。ただし、この場合でも、参照領域Refは参照フレームDecを用いて生成する。視点合成処理が高精度に行える場合、視点合成画像RefSynと参照フレームDecは等しいと考えられるため、このように視点合成画像RefSynを用いて対応ブロックを探索しても、本発明の実施形態の効果が同様に得られる。
 視点合成画像RefSynを用いる場合、参照フレームと同時刻に撮影された参照視点フレームを入力し、参照フレームの視点合成画像を生成して、蓄積する必要がある。ただし、上記実施形態による符号化及び復号処理が連続して複数のフレームに適用される場合、復号画像メモリに処理済フレームが蓄積されている間、視点合成画像メモリに視点合成画像を蓄積し続けることで、参照フレームの視点合成画像を処理対象フレームごとに繰り返し合成することを回避することが可能である。
 なお、視点合成画像RefSynを用いる場合、対応領域探索(第1実施形態のステップSa5と第2実施形態のステップSb5)において復号画像メモリに蓄積された処理済フレームを必要としないため、対応領域探索の処理は符号化処理や復号処理と同期して行う必要はなくなる。その結果、並列演算等が可能となり、全体の演算時間を削減できるという効果が得られる。
 上述した第1、第2実施形態では、視点合成画像や参照フレームをそのまま用いている。しかし、視点合成画像や参照フレームに発生するフィルムグレインや符号化歪みなどのノイズの影響を受けて、対応領域探索の精度が低下する。これらのノイズは特定の周波数成分(特に高周波成分)であるため、対応領域探索に用いるフレーム(画像)に対して、バンドパスフィルタ(ノイズを高周波とする場合は、ローパスフィルタ)をかけてから探索を行うことで、ノイズの影響を小さくすることが可能である。
 また、ノイズ等の影響を受けて対応領域探索の精度が低下した場合、対応領域を示すベクトルの空間相関が低下する。しかしながら、通常の映像では、隣接領域には同じ被写体が写っているため、領域間のベクトルはほぼ等しいと考えられ、対応領域を示すベクトルの空間相関は非常に高い。そこで、ブロックごとに推定した動きベクトルに対して平均値フィルタや中央値フィルタを施して、空間相関を高めることで、対応領域探索の精度を向上しても構わない。
 上述した第1、第2実施形態では、処理対象ブロックが、対応領域探索のブロックと同じ大きさである場合で説明したが、それらが同じ大きさである必要がないことは明らかである。映像の時間変化は非線形であるため、より小さなブロック毎に対応領域を見つけたほうが、より正確に映像信号の変化を予測することができる。しかしながら、小さなブロックを用いる場合は、演算量が増加するだけでなく、映像信号に含まれるノイズの影響も大きくなる。この問題に対処するために、小さな領域に対する対応領域を探索する際に、小さな領域の周り数画素も探索に用いてノイズの影響を減らすことも容易に類推可能な範囲の処理である。
 なお、上述した第1、第2実施形態では、1つのカメラの1フレームを、符号化、または復号する処理を説明したが、この処理をフレーム毎に繰り返すことで、多視点動画像の符号化、または復号を実現することが可能である。さらに、カメラ毎に処理を繰り返すことで、複数のカメラの多視点動画像の符号化、または復号を実現することが可能である。
 上述した通り、本発明の実施形態では、被写体に依存する色や輝度のミスマッチが時間的には大きく変化しないという仮定を用いて補正パラメータを求める。そのため、シーンチェンジ等で急激にシーンが変化する場合は、時間的にミスマッチが変化する。このような場合、本発明の実施形態では、適切な補正パラメータが推定できず、補正によって視点合成画像と処理対象フレームの差を増大させてしまう可能性がある。そこで、シーンチェンジ等の急激な変化の有無を判定して、そのような急激な映像の変化がないと判定された場合にだけ、視点合成画像を補正するようにしても構わない。なお、そのような急激な映像変化を判定する方法として、対応領域探索の結果として得られた対応領域の乖離度の値をチェックし、乖離度が一定以上の場合には、急激な映像変化が発生したと判定する方法を用いても構わない。
 以上説明した処理は、コンピュータとソフトウェアプログラムとによっても実現することができる。また、そのプログラムをコンピュータ読み取り可能な記録媒体に記録して提供することも、ネットワークを通して提供することも可能である。
 また、以上の実施の形態では、多視点映像符号化装置、及び多視点映像復号装置を中心に説明した。しかし、これら多視点映像符号化装置、及び多視点映像復号装置の各部の動作に対応したステップによって本発明の多視点映像符号化方法及び多視点映像復号方法を実現することができる。
 以上、図面を参照して本発明の実施の形態を説明してきたが、上記実施の形態は、本発明の例示に過ぎず、本発明が上記実施の形態に限定されるものでないことは明らかである。したがって、本発明の精神及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行っても良い。
 本発明は、例えば、多視点画像または多視点動画像の符号化および復号に利用される。本発明によれば、カメラ間の輝度や色のミスマッチが局所的に生じている場合においても、補正パラメータを別途符号化/復号することなく、効率的な多視点画像や多視点動画像の符号化/復号を実現することができる。
 100 多視点映像符号化装置
 101 符号化対象フレーム入力部
 102 符号化対象画像メモリ
 103 参照視点フレーム入力部
 104 参照視点画像メモリ
 105 視点合成部
 106 視点合成画像メモリ
 107 信頼度設定部
 108 視点合成画像補正部
 109 予測残差符号化部
 110 予測残差復号部
 111 復号画像メモリ
 112 予測残差算出部
 113 復号画像算出部
 1081 参照領域設定部
 1082 推定精度設定部
 1083 補正パラメータ推定部
 1084 画像補正部
 200 多視点映像復号装置
 201 符号化データ入力部
 202 符号化データメモリ
 203 参照視点フレーム入力部
 204 参照視点画像メモリ
 205 視点合成部
 206 視点合成画像メモリ
 207 信頼度設定部
 208 視点合成画像補正部
 210 予測残差復号部
 211 復号画像メモリ
 212 復号画像算出部

Claims (15)

  1.  多視点映像を符号化する多視点映像符号化方法であって、
     前記多視点映像の符号化対象視点における符号化対象フレームと同時刻に撮影された、前記符号化対象視点とは異なる参照視点における既に符号化済みの参照視点フレームから、前記符号化対象視点の前記符号化対象フレームに対応する視点合成画像を合成する視点合成画像生成ステップと、
     予め定められた大きさの処理単位領域毎に、前記視点合成画像に対応する、前記符号化対象視点における既に符号化済みの参照フレーム上の参照領域を探索する参照領域推定ステップと、
     前記処理単位領域に対する前記視点合成画像と前記参照領域に対する前記参照フレームとから、カメラ間ミスマッチを補正する補正パラメータを推定する補正パラメータ推定ステップと、
     前記推定された補正パラメータを用いて、前記処理単位領域に対する前記視点合成画像を補正する視点合成画像補正ステップと、
     前記補正された視点合成画像を用いて、前記符号化対象視点の映像を予測符号化する画像符号化ステップと
     を含む多視点映像符号化方法。
  2.  前記視点合成画像の各画素について、前記視点合成画像の確からしさを示す信頼度を設定する信頼度設定ステップを更に含み、
     前記参照領域推定ステップは、
     前記信頼度に基づいて、前記視点合成画像に対応する、前記参照フレーム上の前記参照領域を探索する際の各画素のマッチングコストに重みをつける
     請求項1に記載の多視点映像符号化方法。
  3.  前記補正パラメータ推定ステップは、
     前記信頼度に基づいて、前記補正パラメータを推定する際の各画素のマッチングコストに重みをつける
     請求項2に記載の多視点映像符号化方法。
  4.  前記視点合成画像の各画素について、前記参照領域が正しく推定できたかどうかを示す推定精度を設定する推定精度設定ステップを更に含み、
     前記補正パラメータ推定ステップは、
     前記推定精度、および前記信頼度のいずれか一方、または双方に基づいて、前記補正パラメータを推定する際の各画素のマッチングコストに重みをつける
     請求項2に記載の多視点映像符号化方法。
  5.  多視点映像を復号する多視点映像復号方法であって、
     前記多視点映像の復号対象視点における復号対象フレームと同時刻に撮影された、前記復号対象視点とは異なる参照視点における参照視点フレームから、前記復号対象視点の前記復号対象フレームに対応する視点合成画像を合成する視点合成画像生成ステップと、
     予め定められた大きさの処理単位領域毎に、前記視点合成画像に対応する、前記復号対象視点における既に復号済みの参照フレーム上の参照領域を探索する参照領域推定ステップと、
     前記処理単位領域に対する前記視点合成画像と前記参照領域に対する前記参照フレームとから、カメラ間ミスマッチを補正する補正パラメータを推定する補正パラメータ推定ステップと、
     前記推定された補正パラメータを用いて、前記処理単位領域に対する前記視点合成画像を補正する視点合成画像補正ステップと、
     前記補正された視点合成画像を予測信号として用いて、前記復号対象視点における予測符号化されている復号対象フレームを、前記復号対象視点に対する映像の符号化データから復号する画像復号ステップと
     を含む多視点映像復号方法。
  6.  前記視点合成画像の各画素について、前記視点合成画像の確からしさを示す信頼度を設定する信頼度設定ステップを更に含み、
     前記参照領域推定ステップは、
     前記信頼度に基づいて、前記視点合成画像に対応する、前記参照フレーム上の前記参照領域を探索する際の各画素のマッチングコストに重みをつける
     請求項5に記載の多視点映像復号方法。
  7.  前記補正パラメータ推定ステップは、
     前記信頼度に基づいて、前記補正パラメータを推定する際の各画素のマッチングコストに重みをつける
     請求項6に記載の多視点映像復号方法。
  8.  前記視点合成画像の各画素について、前記参照領域が正しく推定できたかどうかを示す推定精度を設定する推定精度設定ステップを更に含み、
     前記補正パラメータ推定ステップは、
     前記推定精度、および前記信頼度のいずれか一方、または双方に基づいて、前記補正パラメータを推定する際の各画素のマッチングコストに重みをつける
     請求項6に記載の多視点映像復号方法。
  9.  多視点映像を符号化する多視点映像符号化装置であって、
     前記多視点映像の符号化対象視点における符号化対象フレームと同時刻に撮影された、前記符号化対象視点とは異なる参照視点における既に符号化済みの参照視点フレームから、前記符号化対象視点の前記符号化対象フレームに対応する視点合成画像を合成する視点合成画像生成手段と、
     予め定められた大きさの処理単位領域毎に、前記視点合成画像生成手段により合成された前記視点合成画像に対応する、前記符号化対象視点における既に符号化済みの参照フレーム上の参照領域を探索する参照領域推定手段と、
     前記処理単位領域に対する前記視点合成画像と前記参照領域推定手段により探索された前記参照領域に対する前記参照フレームとから、カメラ間ミスマッチを補正する補正パラメータを推定する補正パラメータ推定手段と、
     前記補正パラメータ推定手段により推定された前記補正パラメータを用いて、前記処理単位領域に対する前記視点合成画像を補正する視点合成画像補正手段と、
     前記視点合成画像補正手段により補正された視点合成画像を用いて、前記符号化対象視点の映像を予測符号化する画像符号化手段と
     を備える多視点映像符号化装置。
  10.  前記視点合成画像生成手段により合成された前記視点合成画像の各画素について、前記視点合成画像の確からしさを示す信頼度を設定する信頼度設定手段を更に備え、
     前記参照領域推定手段は、
     前記信頼度設定手段により設定された前記信頼度に基づいて、前記視点合成画像に対応する、前記参照フレーム上の前記参照領域を探索する際の各画素のマッチングコストに重みをつける
     請求項9に記載の多視点映像符号化装置。
  11.  前記補正パラメータ推定手段は、
     前記信頼度設定手段により設定された前記信頼度に基づいて、前記補正パラメータを推定する際の各画素のマッチングコストに重みをつける
     請求項10に記載の多視点映像符号化装置。
  12.  前記視点合成画像生成手段により合成された前記視点合成画像の各画素について、前記参照領域が正しく推定できたかどうかを示す推定精度を設定する推定精度設定手段を更に備え、
     前記補正パラメータ推定手段は、
     前記推定精度設定手段により設定された前記推定精度、および前記信頼度設定手段により設定された前記信頼度のいずれか一方、または双方に基づいて、前記補正パラメータを推定する際の各画素のマッチングコストに重みをつける
     請求項10に記載の多視点映像符号化装置。
  13.  多視点映像を復号する多視点映像復号装置であって、
     前記多視点映像の復号対象視点における復号対象フレームと同時刻に撮影された、前記復号対象視点とは異なる参照視点における参照視点フレームから、前記復号対象視点の前記復号対象フレームに対応する視点合成画像を合成する視点合成画像生成手段と、
     予め定められた大きさの処理単位領域毎に、前記視点合成画像生成手段により合成された前記視点合成画像に対応する、前記復号対象視点における既に復号済みの参照フレーム上の参照領域を探索する参照領域推定手段と、
     前記処理単位領域に対する前記視点合成画像と前記参照領域推定手段により探索された前記参照領域に対する前記参照フレームとから、カメラ間ミスマッチを補正する補正パラメータを推定する補正パラメータ推定手段と、
     前記補正パラメータ推定手段により推定された前記補正パラメータを用いて、前記処理単位領域に対する前記視点合成画像を補正する視点合成画像補正手段と、
     前記視点合成画像補正手段により補正された視点合成画像を予測信号として用いて、前記復号対象視点における予測符号化されている復号対象フレームを、前記復号対象視点に対する映像の符号化データから復号する画像復号手段と
     を有する多視点映像復号装置。
  14.  多視点映像を符号化する多視点映像符号化装置のコンピュータに、
     前記多視点映像の符号化対象視点における符号化対象フレームと同時刻に撮影された、前記符号化対象視点とは異なる参照視点における既に符号化済みの参照視点フレームから、前記符号化対象視点の前記符号化対象フレームに対応する視点合成画像を合成する視点合成画像生成機能、
     予め定められた大きさの処理単位領域毎に、前記視点合成画像に対応する、前記符号化対象視点における既に符号化済みの参照フレーム上の参照領域を探索する参照領域推定機能、
     前記処理単位領域に対する前記視点合成画像と前記参照領域に対する前記参照フレームとから、カメラ間ミスマッチを補正する補正パラメータを推定する補正パラメータ推定機能、
     前記推定された補正パラメータを用いて、前記処理単位領域に対する前記視点合成画像を補正する視点合成画像補正機能、
     前記補正された視点合成画像を用いて、前記符号化対象視点の映像を予測符号化する画像符号化機能
     を実行させるプログラム。
  15.  多視点映像を復号する多視点映像復号装置のコンピュータに、
     前記多視点映像の復号対象視点における復号対象フレームと同時刻に撮影された、前記復号対象視点とは異なる参照視点における参照視点フレームから、前記復号対象視点の前記復号対象フレームに対応する視点合成画像を合成する視点合成画像生成機能、
     予め定められた大きさの処理単位領域毎に、前記視点合成画像に対応する、前記復号対象視点における既に復号済みの参照フレーム上の参照領域を探索する参照領域推定機能、
     前記処理単位領域に対する前記視点合成画像と前記参照領域に対する前記参照フレームとから、カメラ間ミスマッチを補正する補正パラメータを推定する補正パラメータ推定機能、
     前記推定された補正パラメータを用いて、前記処理単位領域に対する前記視点合成画像を補正する視点合成画像補正機能、
     前記補正された視点合成画像を予測信号として用いて、前記復号対象視点における予測符号化されている復号対象フレームを、前記復号対象視点に対する映像の符号化データから復号する画像復号機能
     を実行させるプログラム。
PCT/JP2011/053742 2010-02-24 2011-02-21 多視点映像符号化方法、多視点映像復号方法、多視点映像符号化装置、多視点映像復号装置、及びプログラム WO2011105337A1 (ja)

Priority Applications (8)

Application Number Priority Date Filing Date Title
CA2790268A CA2790268A1 (en) 2010-02-24 2011-02-21 Multiview video encoding method, multiview video decoding method, multiview video encoding apparatus, multiview video decoding apparatus, and program
BR112012020993A BR112012020993A2 (pt) 2010-02-24 2011-02-21 método de codificação de vídeo de múltiplas visões , método de decodificação de vídeo de múltiplas visões, aparelho de codificação de vídeo de múltiplas visões, aparelho de decodificação de vídeo de múltiplas visões , e programa
US13/579,675 US20120314776A1 (en) 2010-02-24 2011-02-21 Multiview video encoding method, multiview video decoding method, multiview video encoding apparatus, multiview video decoding apparatus, and program
JP2012501773A JP5303754B2 (ja) 2010-02-24 2011-02-21 多視点映像符号化方法、多視点映像復号方法、多視点映像符号化装置、多視点映像復号装置、及びプログラム
KR1020127021725A KR101374812B1 (ko) 2010-02-24 2011-02-21 다시점 영상 부호화 방법, 다시점 영상 복호 방법, 다시점 영상 부호화 장치, 다시점 영상 복호 장치 및 프로그램
EP11747298A EP2541943A1 (en) 2010-02-24 2011-02-21 Multiview video coding method, multiview video decoding method, multiview video coding device, multiview video decoding device, and program
RU2012135682/08A RU2527737C2 (ru) 2010-02-24 2011-02-21 Способ кодирования многопроекционного видео, способ декодирования многопроекционного видео, устройство кодирования многопроекционного видео, устройство декодирования многопроекционного видео, и программа
CN201180010368.0A CN102918846B (zh) 2010-02-24 2011-02-21 多视点视频编码方法、多视点视频解码方法、多视点视频编码装置、多视点视频解码装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010-038680 2010-02-24
JP2010038680 2010-02-24

Publications (1)

Publication Number Publication Date
WO2011105337A1 true WO2011105337A1 (ja) 2011-09-01

Family

ID=44506745

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/053742 WO2011105337A1 (ja) 2010-02-24 2011-02-21 多視点映像符号化方法、多視点映像復号方法、多視点映像符号化装置、多視点映像復号装置、及びプログラム

Country Status (10)

Country Link
US (1) US20120314776A1 (ja)
EP (1) EP2541943A1 (ja)
JP (1) JP5303754B2 (ja)
KR (1) KR101374812B1 (ja)
CN (1) CN102918846B (ja)
BR (1) BR112012020993A2 (ja)
CA (1) CA2790268A1 (ja)
RU (1) RU2527737C2 (ja)
TW (1) TWI436637B (ja)
WO (1) WO2011105337A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102761765A (zh) * 2012-07-16 2012-10-31 清华大学 一种用于三维立体视频的深度快速插帧方法
CN103079083A (zh) * 2012-12-06 2013-05-01 上海大学 一种已标定平行摄像机阵列多视图像校正方法
WO2013087880A1 (en) 2011-12-14 2013-06-20 Thomson Licensing Method and system for interpolating a virtual image from a first and a second input images
CN103379349A (zh) * 2012-04-25 2013-10-30 浙江大学 一种视点合成预测编码方法、解码方法、对应的装置及码流
JP2016513925A (ja) * 2013-04-09 2016-05-16 聯發科技股▲ふん▼有限公司Mediatek Inc. 3dビデオ符号化におけるビュー合成予測の方法と装置

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7983835B2 (en) 2004-11-03 2011-07-19 Lagassey Paul J Modular intelligent transportation system
US20130329800A1 (en) * 2012-06-07 2013-12-12 Samsung Electronics Co., Ltd. Method of performing prediction for multiview video processing
US9854138B2 (en) * 2012-09-20 2017-12-26 Gyrus Acmi, Inc. Fixed pattern noise reduction
US9615089B2 (en) 2012-12-26 2017-04-04 Samsung Electronics Co., Ltd. Method of encoding and decoding multiview video sequence based on adaptive compensation of local illumination mismatch in inter-frame prediction
JP6027143B2 (ja) 2012-12-27 2016-11-16 日本電信電話株式会社 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、および画像復号プログラム
WO2014178051A2 (en) * 2013-04-30 2014-11-06 Mantisvision Ltd. Selective 3d registration
CN103402097B (zh) * 2013-08-15 2016-08-10 清华大学深圳研究生院 一种自由视点视频深度图编码方法及其失真预测方法
CN103763567B (zh) * 2013-12-31 2017-01-18 华中科技大学 一种应用于监控视频隐私保护的压缩域失真漂移补偿方法
CN105184780B (zh) * 2015-08-26 2018-06-05 京东方科技集团股份有限公司 一种立体视觉深度的预测方法和系统
CN105430397B (zh) * 2015-11-20 2018-04-17 清华大学深圳研究生院 一种3d图像体验质量预测方法及装置
US10304468B2 (en) 2017-03-20 2019-05-28 Qualcomm Incorporated Target sample generation
US10891960B2 (en) * 2017-09-11 2021-01-12 Qualcomm Incorproated Temporal offset estimation
DE102021200225A1 (de) 2021-01-12 2022-07-14 Rheinisch-Westfälische Technische Hochschule (RWTH) Aachen, Körperschaft des öffentlichen Rechts Verfahren zur Wiedergabe eines Videostreams durch einen Client

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008048487A2 (en) * 2006-10-18 2008-04-24 Thomson Licensing Local illumination and color compensation without explicit signaling
WO2009001791A1 (ja) * 2007-06-25 2008-12-31 Nippon Telegraph And Telephone Corporation 映像符号化方法及び復号方法、それらの装置、それらのプログラム並びにプログラムを記録した記録媒体
JP2009523355A (ja) * 2006-01-12 2009-06-18 エルジー エレクトロニクス インコーポレイティド 多視点ビデオの処理
JP2010038680A (ja) 2008-08-04 2010-02-18 Nireco Corp 超音波式厚み検出装置、及び、超音波式エッジ位置検出装置

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7085409B2 (en) * 2000-10-18 2006-08-01 Sarnoff Corporation Method and apparatus for synthesizing new video and/or still imagery from a collection of real video and/or still imagery
US20020131500A1 (en) * 2001-02-01 2002-09-19 Gandhi Bhavan R. Method for determining a motion vector for a video signal
US6961055B2 (en) * 2001-05-09 2005-11-01 Free Radical Design Limited Methods and apparatus for constructing virtual environments
US6859494B2 (en) * 2001-07-27 2005-02-22 General Instrument Corporation Methods and apparatus for sub-pixel motion estimation
WO2003032628A1 (en) * 2001-10-08 2003-04-17 Koninklijke Philips Electronics N.V. Device and method for motion estimation
EP1442428A2 (en) * 2001-10-25 2004-08-04 Koninklijke Philips Electronics N.V. Method and apparatus for motion estimation
US7489342B2 (en) * 2004-12-17 2009-02-10 Mitsubishi Electric Research Laboratories, Inc. Method and system for managing reference pictures in multiview videos
CA2524031C (en) * 2003-05-20 2015-07-07 Interlego Ag Method and system for manipulating a digital representation of a three-dimensional object
WO2004114224A1 (ja) * 2003-06-20 2004-12-29 Nippon Telegraph And Telephone Corporation 仮想視点画像生成方法及び3次元画像表示方法並びに装置
US7728877B2 (en) * 2004-12-17 2010-06-01 Mitsubishi Electric Research Laboratories, Inc. Method and system for synthesizing multiview videos
US7468745B2 (en) * 2004-12-17 2008-12-23 Mitsubishi Electric Research Laboratories, Inc. Multiview video decomposition and encoding
US7671894B2 (en) * 2004-12-17 2010-03-02 Mitsubishi Electric Research Laboratories, Inc. Method and system for processing multiview videos for view synthesis using skip and direct modes
RU2322771C2 (ru) * 2005-04-25 2008-04-20 Святослав Иванович АРСЕНИЧ Стереопроекционная система
JP2007180981A (ja) * 2005-12-28 2007-07-12 Victor Co Of Japan Ltd 画像符号化装置、画像符号化方法、及び画像符号化プログラム
CN101375593A (zh) * 2006-01-12 2009-02-25 Lg电子株式会社 处理多视图视频
KR20090099546A (ko) * 2007-01-04 2009-09-22 톰슨 라이센싱 멀티 뷰 코딩된 비디오에서 높은 레벨의 신택스 레퍼런스 뷰들을 이용하여 비디오 에러 은닉을 행하는 방법 및 장치
US8320456B2 (en) * 2007-01-17 2012-11-27 Lg Electronics Inc. Method and apparatus for processing a video signal
KR100801968B1 (ko) * 2007-02-06 2008-02-12 광주과학기술원 변위를 측정하는 방법, 중간화면 합성방법과 이를 이용한다시점 비디오 인코딩 방법, 디코딩 방법, 및 인코더와디코더
EP2061248A1 (en) * 2007-11-13 2009-05-20 IBBT vzw Motion estimation and compensation process and device
US8351685B2 (en) * 2007-11-16 2013-01-08 Gwangju Institute Of Science And Technology Device and method for estimating depth map, and method for generating intermediate image and method for encoding multi-view video using the same
US8639046B2 (en) * 2009-05-04 2014-01-28 Mamigo Inc Method and system for scalable multi-user interactive visualization
US9124874B2 (en) * 2009-06-05 2015-09-01 Qualcomm Incorporated Encoding of three-dimensional conversion information with two-dimensional video sequence
BR112012020856A2 (pt) * 2010-02-23 2019-09-24 Nippon Telegraph & Telephone ver anexo.

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009523355A (ja) * 2006-01-12 2009-06-18 エルジー エレクトロニクス インコーポレイティド 多視点ビデオの処理
WO2008048487A2 (en) * 2006-10-18 2008-04-24 Thomson Licensing Local illumination and color compensation without explicit signaling
WO2009001791A1 (ja) * 2007-06-25 2008-12-31 Nippon Telegraph And Telephone Corporation 映像符号化方法及び復号方法、それらの装置、それらのプログラム並びにプログラムを記録した記録媒体
JP2010038680A (ja) 2008-08-04 2010-02-18 Nireco Corp 超音波式厚み検出装置、及び、超音波式エッジ位置検出装置

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
ADVANCED VIDEO CODING FOR GENERIC AUDIOVISUAL SERVICES, March 2009 (2009-03-01)
J. SUN; N. ZHENG; H. SHUM: "Stereo Matching Using Belief Propagation", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 25, no. 7, July 2003 (2003-07-01), pages 787 - 800
K. YAMAMOTO; M. KITAHARA; H. KIMATA; T. YENDO; T. FUJII; M. TANIMOTO; S. SHIMIZU; K. KAMIKURA; Y. YASHIMA: "Multiview Video Coding Using View Interpolation and Color Correction", IEEE TRANSACTIONS ON CIRCUITS AND SYSTEM FOR VIDEO TECHNOLOGY, vol. 17, no. 11, November 2007 (2007-11-01), pages 1436 - 1449
S. SHIMIZU; H. KIMATA; Y. OHTANI: "Adaptive Appearance Compensated View Synthesis Prediction for Multiview Video Coding", PROCEEDINGS OF ICIP2009, November 2009 (2009-11-01), pages 2949 - 2952
S. SHIMIZU; M. KITAHARA, H. KIMATA; K. KAMIKURA; Y. YASHIMA: "View Scalable Multiview Video Coding Using 3-D Warping with Depth Map", IEEE TRANSACTIONS ON CIRCUITS AND SYSTEM FOR VIDEO TECHNOLOGY, vol. 17, no. 11, November 2007 (2007-11-01), pages 1485 - 1495
S. SHIMIZU; Y. TONOMURA; H. KIMATA; Y. OHTANI: "Improved View Interpolation Prediction for Side Information in Multiview Distributed Video Coding", PROCEEDINGS OF ICDSC2009, August 2009 (2009-08-01)
S. YEA; A. VETRO: "View Synthesis Prediction for Rate-Overhead Reduction in FTV", PROCEEDINGS OF 3DTV-CON2008, May 2008 (2008-05-01), pages 145 - 148
Y. MORI; N. FUKUSHIMA; T. FUJII; M. TANIMOTO: "View Generation with 3D Warping Using Depth Information for FTV", PROCEEDINGS OF 3DTV-CON2008, May 2008 (2008-05-01), pages 229 - 232

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013087880A1 (en) 2011-12-14 2013-06-20 Thomson Licensing Method and system for interpolating a virtual image from a first and a second input images
CN103379349A (zh) * 2012-04-25 2013-10-30 浙江大学 一种视点合成预测编码方法、解码方法、对应的装置及码流
CN102761765A (zh) * 2012-07-16 2012-10-31 清华大学 一种用于三维立体视频的深度快速插帧方法
CN102761765B (zh) * 2012-07-16 2014-08-20 清华大学 一种用于三维立体视频的深度快速插帧方法
CN103079083A (zh) * 2012-12-06 2013-05-01 上海大学 一种已标定平行摄像机阵列多视图像校正方法
CN103079083B (zh) * 2012-12-06 2015-05-06 上海大学 一种已标定平行摄像机阵列多视图像校正方法
JP2016513925A (ja) * 2013-04-09 2016-05-16 聯發科技股▲ふん▼有限公司Mediatek Inc. 3dビデオ符号化におけるビュー合成予測の方法と装置

Also Published As

Publication number Publication date
CN102918846A (zh) 2013-02-06
CN102918846B (zh) 2015-09-09
KR101374812B1 (ko) 2014-03-18
TWI436637B (zh) 2014-05-01
JP5303754B2 (ja) 2013-10-02
JPWO2011105337A1 (ja) 2013-06-20
KR20120117888A (ko) 2012-10-24
RU2012135682A (ru) 2014-03-27
TW201218745A (en) 2012-05-01
BR112012020993A2 (pt) 2016-05-03
EP2541943A1 (en) 2013-01-02
US20120314776A1 (en) 2012-12-13
CA2790268A1 (en) 2011-09-01
RU2527737C2 (ru) 2014-09-10

Similar Documents

Publication Publication Date Title
JP5303754B2 (ja) 多視点映像符号化方法、多視点映像復号方法、多視点映像符号化装置、多視点映像復号装置、及びプログラム
JP4414379B2 (ja) 映像符号化方法、映像復号方法、映像符号化プログラム、映像復号プログラム及びそれらのプログラムを記録したコンピュータ読み取り可能な記録媒体
KR101451286B1 (ko) 움직임 벡터 추정 방법, 다시점 영상 부호화 방법, 다시점 영상 복호 방법, 움직임 벡터 추정 장치, 다시점 영상 부호화 장치, 다시점 영상 복호 장치, 움직임 벡터 추정 프로그램, 다시점 영상 부호화 프로그램 및 다시점 영상 복호 프로그램
JP5934375B2 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、画像復号プログラム及び記録媒体
JP6027143B2 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、および画像復号プログラム
JP6053200B2 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム及び画像復号プログラム
JP6307152B2 (ja) 画像符号化装置及び方法、画像復号装置及び方法、及び、それらのプログラム
WO2014050827A1 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、画像復号プログラム及び記録媒体
JP4851564B2 (ja) 映像符号化方法、映像復号方法、映像符号化プログラム、映像復号プログラム及びそれらのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4944046B2 (ja) 映像符号化方法,復号方法,符号化装置,復号装置,それらのプログラムおよびコンピュータ読み取り可能な記録媒体
JP4851563B2 (ja) 映像符号化方法、映像復号方法、映像符号化プログラム、映像復号プログラム及びそれらのプログラムを記録したコンピュータ読み取り可能な記録媒体
US20160286212A1 (en) Video encoding apparatus and method, and video decoding apparatus and method

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201180010368.0

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11747298

Country of ref document: EP

Kind code of ref document: A1

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 2012501773

Country of ref document: JP

ENP Entry into the national phase

Ref document number: 2790268

Country of ref document: CA

WWE Wipo information: entry into national phase

Ref document number: 2011747298

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 13579675

Country of ref document: US

Ref document number: 7170/CHENP/2012

Country of ref document: IN

ENP Entry into the national phase

Ref document number: 20127021725

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2012135682

Country of ref document: RU

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112012020993

Country of ref document: BR

ENP Entry into the national phase

Ref document number: 112012020993

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20120821