WO2008035665A1 - procédé DE CODAGE D'IMAGE, PROCÉDÉ DE DÉCODAGE, DISPOSITIF associÉ, DISPOSITIF DE DÉCODAGE D'IMAGE, programme associÉ, et support de stockage contenant le programme - Google Patents

procédé DE CODAGE D'IMAGE, PROCÉDÉ DE DÉCODAGE, DISPOSITIF associÉ, DISPOSITIF DE DÉCODAGE D'IMAGE, programme associÉ, et support de stockage contenant le programme Download PDF

Info

Publication number
WO2008035665A1
WO2008035665A1 PCT/JP2007/068065 JP2007068065W WO2008035665A1 WO 2008035665 A1 WO2008035665 A1 WO 2008035665A1 JP 2007068065 W JP2007068065 W JP 2007068065W WO 2008035665 A1 WO2008035665 A1 WO 2008035665A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
vector
encoding
decoding
distance
Prior art date
Application number
PCT/JP2007/068065
Other languages
English (en)
French (fr)
Inventor
Shinya Shimizu
Masaki Kitahara
Kazuto Kamikura
Yoshiyuki Yashima
Original Assignee
Nippon Telegraph And Telephone Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph And Telephone Corporation filed Critical Nippon Telegraph And Telephone Corporation
Priority to CN2007800342670A priority Critical patent/CN101518090B/zh
Priority to JP2008535351A priority patent/JP4999854B2/ja
Priority to US12/441,076 priority patent/US8290289B2/en
Priority to CA 2663672 priority patent/CA2663672C/en
Priority to BRPI0716810-1A2A priority patent/BRPI0716810A2/pt
Priority to EP07807466.3A priority patent/EP2066133A4/en
Publication of WO2008035665A1 publication Critical patent/WO2008035665A1/ja
Priority to US13/610,948 priority patent/US20130058584A1/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/527Global motion vector estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/19Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding using optimisation based on Lagrange multipliers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/523Motion estimation or motion compensation with sub-pixel accuracy

Definitions

  • the present invention relates to a multi-view image encoding and decoding technique.
  • a multi-view image is a plurality of images obtained by photographing the same subject and background with a plurality of cameras
  • a multi-view video (multi-view video) is a moving image.
  • a moving image shot with one camera is called a “two-dimensional moving image”
  • a two-dimensional moving image group obtained by shooting the same subject and background is called a “multi-view moving image”.
  • a two-dimensional moving image has a strong correlation in the time direction, and the encoding efficiency is increased by using the correlation in encoding.
  • the encoding efficiency is increased by using the correlation in encoding.
  • the images of each camera corresponding to the same time are taken from different positions of the subject and background in the same state. Therefore, there is a strong correlation between cameras.
  • the use of this correlation can increase the encoding efficiency.
  • Non-Patent Document 1 The details of the motion compensation technique used in H.264 are described in Non-Patent Document 1, for example. The outline will be described.
  • H.264 motion compensation divides a frame to be encoded into blocks of various sizes, and allows each block to have different motion vectors and different reference images. further By applying filter processing to the reference image, images at 1/2 pixel position and 1/4 pixel position are generated, and finer motion compensation with 1/4 pixel accuracy is possible. It achieves more efficient coding than the international coding standard.
  • the difference between the multi-view image encoding method and the multi-view video encoding method is that, in addition to the correlation between cameras, the multi-view moving image has a temporal correlation at the same time.
  • the same method can be used for the correlation between cameras in either case. Therefore, here, a method used in encoding multi-view video is described.
  • multi-view video is efficiently converted by "parallax compensation" in which motion compensation is applied to images from different cameras at the same time.
  • parallax is a difference between positions at which the same position on the subject is projected on the image planes of cameras arranged at different positions.
  • FIG. 8 is a conceptual diagram of parallax generated between cameras.
  • the image plane of the camera with parallel optical axes is viewed vertically. In this way, the position where the same position on the subject is projected on the image plane of different cameras is generally called a corresponding point.
  • each pixel value of the encoding target frame is predicted from the reference frame based on the correspondence relationship, and the prediction residual and the disparity information indicating the correspondence relationship are encoded.
  • this correspondence can be expressed by a one-dimensional quantity called the distance to the subject, based on the epipolar geometric constraint, based on one camera that is not a two-dimensional vector. .
  • FIG. 9 is a conceptual diagram of epipolar geometric constraints.
  • a point on the image of another camera corresponding to a point on the image of one camera is constrained on a straight line called an epipolar line.
  • the corresponding point is uniquely determined on the epipolar line.
  • the point of the subject projected at the position m in the image of camera A is the same as the case where the position of the corresponding point in the real space is M ′ in the image of camera B.
  • the position of the corresponding point of the subject in the real space is M 'when the position of the corresponding point of the subject in the real space is M ", and the position of the corresponding point of the subject in the real space is ⁇ '" In this case, it is projected to the position m '"on the epipolar line.
  • FIG. 10 is a diagram showing that corresponding points are obtained among a plurality of cameras when a distance to a subject is given to one camera.
  • disparity information needs to be encoded for each encoding target frame.
  • the distance from the camera to the subject is determined by the physical state of the subject, it is possible to represent the corresponding points on the images of multiple cameras with one piece of information, the distance from the camera to the subject.
  • the viewpoint position force of camera A is also one piece of information about the distance to point M of the subject, corresponding point m of camera B image corresponding to point m of camera A image, Both corresponding points m of the image can be represented.
  • Non-Patent Document 2 uses this property to reduce the number of disparity information that must be encoded, and achieve highly efficient multi-view video encoding.
  • Non-Patent Document 3 is a prior art document in which a technique referred to in the description of an embodiment of the present invention described later is described. This includes a parameter indicating a positional relationship between a plurality of cameras, and the like. In addition, an explanation about parameters representing projection information on the image plane by the camera is described.
  • Non-Patent Document 1 ITU-T Rec. H.264 / ISO / IEC 11496-10, "Editor's Proposed Draft Text Modifications for Joint Video Specification (ITU-T Rec. H.264 / ISO / IEC 14496-1 0 AVC ), Draft 7 ", Final Committee Draft, Document JVT-E022, pp. 10-13, and 62 -68, September 2002.
  • Non-Patent Document 2 Shinya SHIMIZU, Masaki ITAHARA, azuto AMI URA and Yoshi yuki YASHIMA, "Multi-view Video Coding based on 3_D Warping with Depth Map ,, In Proceedings of Picture Coding Symposium 2006, SS3-6, April, 2006 .
  • Non-Patent Document 3 Oliver Faugeras, Three-Dimension Computer Vision-MIT Press; BC TC / UFF-006.37 F259 1993-ISBN: 0-262-06158_9, pp. 33-68
  • Non-Patent Document 2 it is possible to encode disparity information with a smaller code amount than to encode disparity information for each encoding target image.
  • the purpose is to encode the value of each pixel of the encoding target image, and therefore, in the parallax compensation, it is necessary to predict the value of each pixel of the encoding target image.
  • the corresponding point on the reference image side is fixed, so the corresponding point in the encoding target image is not necessarily a pixel. It does not match.
  • the following three methods can be considered as methods for easily predicting the values in all pixels of the encoding target image.
  • the first is a method of determining the distance so that the corresponding point in the encoding target image is always the pixel position.
  • the second method is a method of rounding corresponding points obtained in the encoding target image to the nearest pixel.
  • the prediction accuracy is reduced to some extent by rounding off the force S, which is thought to achieve roughly correct parallax compensation.
  • information obtained from the encoded disparity information is rounded later, useless information is encoded! /, Compared to encoding the rounded information.
  • each pixel of the encoding target image is complemented from the pixel values of corresponding points obtained in the vicinity. It is a method to ask.
  • the encoded disparity information can be completely used.
  • the pixel values of the entire encoding target image are determined from the pixel values given discretely. Therefore, the calculation cost for performing high-precision interpolation is very high.
  • the prediction error due to parallax compensation is known only after the corresponding points of all pixels are obtained,
  • disparity information for all pixels is assumed, and the assumed disparity information is used in the encoding target image for all pixels of the reference image.
  • the process of finding the corresponding point and generating the prediction image for the image to be encoded by complementing the image with pixel values given discretely to obtain the prediction error is performed for all combinations of disparity information. It is very difficult to obtain an optimal set of disparity information.
  • the corresponding point on the reference image side is fixed in integer pixel units.
  • high-precision compensation corresponding to fine motion using pixel values at the decimal pixel position (1/2 pixel position, 1/4 pixel position, etc.) of the reference image is required.
  • the present invention has been made in view of the power and the circumstances, and uses the disparity information represented based on the distance from the camera to the subject in the reference image, for the encoding target image.
  • the information contained in the disparity information used for encoding is used to the maximum without increasing the number of disparity information necessary for encoding, and the disparity in units of decimal pixels
  • An object of the present invention is to provide an image encoding technique and a decoding technique that can achieve high encoding efficiency by performing compensation.
  • the present invention encodes a multi-viewpoint image captured by a plurality of cameras, and already encodes a reference image and the plurality of cameras.
  • An image encoding method that performs encoding while predicting an image between cameras using a camera power at which a reference image is captured and a distance to a subject,
  • a value that has the same starting point as the disparity vector and rounds each component of the disparity vector to an integer value by truncating the decimal part of each component of the disparity vector or selecting an integer value closest to the value of each component A prediction target vector setting step for calculating a prediction target vector having each as a vector component;
  • Image prediction between cameras is performed by setting the pixel value at the integer or decimal pixel position on the reference image indicated by the reference target vector as the predicted value of the pixel on the encoding target image indicated by the prediction target vector. And an inter-camera image prediction step to be performed.
  • a pseudo distance indicating a corresponding point when predicting an image to be encoded is set from the reference image based on epipolar geometric constraints.
  • the pseudo distance is assigned to each pixel of the reference image. It can be used as a given distance! / ⁇ .
  • the pseudo distance described here is a value that specifies one point on the straight line on the encoding target image with respect to a certain pixel of the reference image. Specifically, it indicates the estimated distance from the camera to what is reflected in the target pixel in the reference pixel.
  • the pseudo distance is the distance itself, the estimated distance obtained by stereo matching, etc., or the index value associated with them.
  • the distance parameter is obtained by notifying the decoding side of the parameter used for parallax compensation on the encoding side.
  • the used parallax compensation can be executed.
  • the pseudo distance setting step includes:
  • the corresponding point on the encoding target image that is obtained based on the estimated pseudorange determined by estimating the possible values and the positional relationship of the camera is the end point, and the pixel in the reference image to which the estimated pseudorange is given
  • the prediction error Setting the estimated pseudo-distance when the sum is smallest as the pseudo-distance.
  • an estimated disparity vector is obtained by performing the same processing as in the disparity vector setting step, and the same processing as in the prediction target vector setting step is performed on the estimated disparity vector.
  • the estimated prediction target vector is obtained, the estimated disparity vector and the estimated prediction target vector are processed in the same manner as the reference target vector setting step to obtain the estimated reference target vector, and the estimated prediction target vector and the estimated reference target.
  • the process of predicting the image using a vector is performed for each encoding of a subject in exactly the same state.
  • the estimated pseudo distance when the total prediction error is the smallest when it is performed on the target image is set as the pseudo distance.
  • the rounding method to the integer pixel when obtaining the estimated vector to be predicted corresponds to the power parallax compensation that can be used either by rounding off the fractional part or by rounding to the nearest integer pixel. It shall be matched with the processing.
  • the prediction error of the parallax compensation is smaller than other distances and the pseudo distance is obtained and the pseudo distance is used, the corresponding point with the large parallax compensation prediction error is viewed. It is possible to avoid using it for difference compensation and achieve high coding efficiency.
  • a pseudo distance that minimizes the rate distortion cost obtained by adding a value obtained by multiplying a prediction value of a code amount when encoding the pseudo distance to a prediction error by a certain weight.
  • a more optimal pseudo distance may be obtained from the viewpoint of coding efficiency.
  • a parameter used on the encoding side and the decoding side can be obtained by using the decoding pseudo distance obtained by decoding the encoded pseudo distance as a distance in the disparity vector setting step. This makes it possible to prevent drift, which is a type of coding distortion.
  • the method includes a region division setting step for setting region division in the reference image
  • the pseudo distance setting step the pseudo distance is set for each area set in the area division setting step.
  • the pseudo distance encoding step the pseudo distance is encoded for each region set in the region division setting step.
  • the region division information it is necessary to encode the region division information and pass it to the decoding side.
  • the entire image of the reference image is divided into regions, processed for each region, and encoded together with the region division information. If this is the case, do not encode the area division information by matching the area division based on the area division information included in the encoded data of the reference image with the area division for which each pseudo distance is set. The power to finish S.
  • Region division at the time of image encoding is often divided into shapes representing the shapes of the subjects.
  • the distance from the camera to the subject is considered to have the same value for each subject, it is possible to efficiently reduce the code amount of the region division information by matching the region division as described above. Is possible.
  • region division at the time of image coding is set depending on a difference in texture (appearance). For this reason, there may be a difference between the area division at the time of image coding and the area division with the same pseudo distance. In this case, by encoding only the information indicating the difference, it is possible to prevent a large amount of code from being generated by encoding the region division of the entire image, and to reduce the prediction efficiency of the disparity compensation due to the region division error. Can be prevented.
  • the code amount of the pseudo distance can be reduced. It can also be reduced.
  • a pseudo-range group given to one reference image can be regarded as an image in consideration of the position and size of the given region. Therefore, by encoding the image using an image encoding method such as JPEG or JPE G2000, the pseudorange is efficiently encoded. The power of s.
  • the multi-viewpoint video is encoded by applying the method of the present invention to the image group at each time.
  • the pseudorange group is regarded as an image
  • the set is regarded as an image
  • the entire pseudorange is encoded using a video encoding method such as MPEG-2 or H.264 / AVC, thereby effectively encoding the pseudorange. It can also be converted.
  • a vector having a value that is an integer multiple of the encoding processing block size closest to each component of the disparity vector may be used as the prediction target vector. good.
  • the encoding target image Since it is guaranteed that the block to be parallax-compensated above always matches the coding processing block, the coding amount necessary to code the parallax compensation residual of that block is set as the coding method of the parallax compensation residual. It is possible to calculate in consideration of the above. As a result, high-efficiency multi-view image coding is possible as a whole.
  • the set of frames corresponding to each time is regarded as a multi-view image, and the image encoding method (image decoding method) of the present invention is applied. Can do.
  • the entire image is encoded only by the image encoding method of the present invention. Instead, encoding efficiency can be improved by appropriately selecting and encoding other methods such as motion compensation using correlation in the time direction for each encoding process target.
  • the position of the decimal unit of the reference image corresponding to the position of the integer pixel of the encoding target image is determined from the corresponding point information of the encoding target image given on the basis of the integer pixel of the reference image. Therefore, it can be obtained with high accuracy and low calculation cost, and it can realize parallax compensation corresponding to finer parallax and realize high-efficiency image coding as a whole multi-viewpoint image.
  • FIG. 1 is a diagram showing the relationship between vectors in the present invention.
  • FIG. 2 is a diagram illustrating a configuration example of an image encoding device according to an embodiment of the present invention.
  • FIG. 3 is a flowchart of an image encoding process performed by the image encoding device.
  • FIG. 4 is a flowchart of distance image generation processing by a distance image generation unit.
  • FIG. 5 is a flowchart of a parallax compensation image generation process by a parallax compensation image generation unit.
  • FIG. 6 is a diagram illustrating a configuration example of an image decoding device according to an embodiment of the present invention.
  • FIG. 7 is a flowchart of image decoding processing by the image decoding device.
  • FIG. 8 is a conceptual diagram of parallax generated between cameras.
  • FIG. 9 is a conceptual diagram of epipolar geometric constraints.
  • FIG. 10 is a diagram showing that corresponding points are obtained between a plurality of cameras when a distance to a subject is given to one camera.
  • the corresponding point on the encoding target image of each pixel of the reference image is obtained using the distance to the camera power subject given to each pixel of the reference image and the positional relationship between the cameras.
  • a vector starting from a pixel of the reference image in the pixel space and having a corresponding point on the encoding target image of the pixel as an end point is called a disparity vector.
  • the start point of the disparity vector is always an integer pixel position, and the end point is not necessarily an integer pixel position.
  • a vector having the same starting point and with the fractional part of the horizontal and vertical components truncated is obtained, and this vector is called a prediction target vector.
  • This vector to be predicted is the most distant end point of the disparity vector within the rectangle stretched by the start point and end point of the disparity vector (the rectangle defined by the start point and end point coordinates on the coordinate plane and having the disparity vector as a diagonal line).
  • a vector having the same starting point as the disparity vector and having the same magnitude and direction as a vector obtained by subtracting the disparity vector from the prediction target vector obtained in the previous step is obtained.
  • This vector is called a reference object vector.
  • the end point of this reference target vector is not always an integer pixel position! /.
  • the distance from the camera at a position slightly deviated from a certain pixel to the subject is
  • the corresponding points are obtained based on the assumption that the camera power at the pixel is almost the same as the distance to the subject. In other words, the simpler the structure of the camera power and the distance to the subject, the higher the accuracy of image prediction.
  • the second and third methods which can be easily analogized, use the assumption that the texture (appearance) of the subject is almost the same in the adjacent parts. In other words, the simpler the structure of the texture, the higher the accuracy of image prediction.
  • the method of the present invention can realize image prediction with higher accuracy than the above-described method that can be easily analogized, and can increase the encoding efficiency.
  • Non-Patent Document 3 Detailed explanations regarding these parameters can be obtained when the force S and camera described in Non-Patent Document 3 are installed, or can be estimated from captured image pairs. It is.
  • FIG. 2 is a diagram showing a configuration example of an image encoding device according to the embodiment of the present invention.
  • the image encoding device 100 stores an image input unit 101 that inputs an original image of a camera B that is an encoding target image, a reference image input unit 102 that inputs a decoded image of the camera A that is a reference image, and a reference image.
  • a reference image memory 103 a distance image generation unit 104 that generates a distance image, a distance image encoding unit 105 that encodes the distance image, and a distance image decoding unit 106 that decodes the encoded distance image
  • a parallax compensation image generation unit 107 that generates a parallax compensation image from the reference image and the decoded distance image
  • an encoding target image encoding unit 108 that encodes the encoding target image using the parallax compensation image.
  • FIG. 3 is a flowchart of image encoding processing by the image encoding device.
  • the flowchart shown in FIG. 3 shows an overview of the entire image encoding process performed by the image encoding device 100.
  • image coding apparatus 100 an image from camera B is input by image input unit 101 (step S10).
  • the reference image input unit 102 inputs the decoded image of the camera A to the reference image memory 103.
  • the input image of the camera B is referred to as an encoding target image
  • the image on the reference image memory 103 is referred to as a reference image.
  • a distance image for the reference image is generated by the distance image generation unit 104 using the encoding target image and the reference image (step S 11).
  • the generated distance image is encoded by the distance image encoding unit 105 (step S 12 ), And the distance image decoding unit 106 decodes the encoded data.
  • the parallax compensation image generation unit 107 generates a parallax compensation image from the distance image obtained by decoding and the reference image (step S14).
  • the encoding target image is encoded by the encoding target image encoding unit 108 using the generated parallax compensation image (step S 15).
  • the image encoding process shown in Fig. 3 shows a process that is performed when one image of camera B is encoded. By repeating this process for images at each time, the encoding of the multi-view video is performed. Can be made.
  • the distance image encoding unit 105 may use an existing arbitrary encoding method.
  • An image encoding method such as JPEG2000 may be applied as a still image, or a moving image encoding method such as H.264 may be applied together with a distance image generated for a reference image at another time.
  • Yo! / And you can simply variable-length encode the pixel values.
  • the distance image decoding unit 106 must be able to decode the encoded data generated by the method used in the distance image encoding unit 105.
  • the encoding target image encoding unit 10 8 can use any encoding scheme that performs encoding using a parallax compensated image. Use the force S.
  • a method of generating and encoding a difference image between a parallax compensation image and an encoding target image, a difference image at a different time and motion compensation used in H. 264 are performed without encoding the difference image as it is.
  • a method for generating a distance image inside the image coding apparatus 100 is taken! /, A distance image generated externally using a force sensor or the like may be used as it is. .
  • the distance image generation unit 104 is not necessary, and the process of step S11 in the flowchart of FIG. 3 can be omitted.
  • the distance image decoding unit 106 is not necessary, and the process of step S13 in the flowchart of FIG. 3 is performed. Omitting power S However, in that case, the distance image is input to the parallax compensation image generation unit 107 as it is.
  • FIG. 4 is a flowchart of the distance image generation process performed by the distance image generation unit 104.
  • the reference image is divided into a plurality of blocks, and the distance is determined for each block.
  • the block sizes are 1 ⁇ 1 (pixels), it corresponds to obtaining the distance for each pixel.
  • the block serving as a unit for setting the distance is matched with the encoding processing block when the reference image is divided into regions and encoded.
  • the index indicating each block is represented as blk, and the number of blocks for one image is represented as maxBlk.
  • step S20 After blk is initialized to 0 (step S20), incrementing blk by 1 (step S35), and until blk reaches maxBlk (step S36), step S21 to step S36 are performed for each block. Repeat the process.
  • step S21 the position of the reference image of the block of index blk in the pixel space is obtained and set to blk-pos.
  • the index indicating the distance candidate is expressed as depth
  • the minimum value is expressed as minDepth
  • the maximum value is expressed as maxDepth.
  • minDepth and maxDepth are encoding parameters that are arbitrarily given in consideration of the scene being shot.
  • the maximum value that can never be taken as the evaluation value is expressed as maxCost.
  • the best evaluation value is expressed as minCost, and the distance candidate index at that time is expressed as best Depth.
  • step S22 After initializing depth to minDepth and minCost to maxCost (step S22), incrementing depth by 1 (step S32) until depth reaches maxDepth (step S33) Then, repeat steps S23 to S33.
  • a distance value for the block index blk is determined (step S34).
  • the amount of code necessary to encode the depth Is determined as the rate (step S23). This may be an actual code amount or a predicted value of the code amount.
  • step S24 the value obtained when the depth is encoded and decoded is obtained and set as dec-depth (step S24). Then, the disparity vector in the case of the distance given by the distance force S, dec —depth from the camera to the subject at the position of blk-pos is obtained and set as DISP-V (step S25).
  • This disparity vector can be obtained by the following equation (1).
  • Equation (1) a variable in bold represents a vector, and an uppercase variable represents a matrix.
  • Matrix A represents the camera internal parameter matrix
  • matrix R represents the camera rotation matrix
  • vector t represents the camera translation vector.
  • the subscript t indicates the parameter of the camera that has captured the encoding target image
  • the subscript r indicates the parameter of the camera that has captured the reference image.
  • d represents the distance from the camera force represented by the distance index dec-depth to the subject.
  • ⁇ x indicates a homogeneous vector of vector X (homogeneous vector).
  • indicates the homogeneous vector which is the final component force among the homogeneous vectors of vector X.
  • a homogeneous vector for an N-dimensional vector has N + 1 elements. The vector that has the value obtained by dividing the 1st to Nth components with the N + 1st component of this homogeneous vector is the normal vector for the homogeneous vector (in the above example, the vector X ). In other words, for N-dimensional vectors, the relation C holds
  • step S26 X and J from which DISP-V is obtained, and a vector to be predicted TAR-V obtained by converting each of the components into integers are obtained (step S26).
  • the way to convert to an integer is
  • the reference target vector REF—V is obtained by the following equation (2) (step S27).
  • REF_V TAR_V—DISP V (2) At this time, for all the pixels p included in blk—pos, the position p + TAR—V on the encoding target image and the position p on the reference image + REF— V is the corresponding point.
  • the evaluation value of the likelihood of this corresponding point that is, the prediction error when the block at the position blk—pos + TAR—V of the image to be encoded is predicted with the block at the position blk—pos + DISP—V of the reference image Find diff (step S28).
  • any scale such as sum of absolute differences, sum of square errors, variance of difference values, correlation coefficient, etc. can be used.
  • the evaluation formula based on the sum of absolute differences is expressed by the following formula (3).
  • I represents a function that returns the pixel value of the image at the position given by the argument.
  • p + TAR — V is always a force that indicates an integer pixel position p + REF — V does not necessarily indicate an integer pixel position.
  • Position values other than the integer pixel position can be generated from the values of surrounding pixels by filtering. Further, it is possible to obtain only values up to a certain number of decimal pixel positions for which a value corresponding to the given position is not strictly required, and use the closest point.
  • cost diff + ⁇ X rate (4)
  • the evaluation value cost of the distance candidate depth is compared with the best evaluation value minCost of the distance candidates so far (step S30). If the evaluation is good, the distance candidate depth is stored as the best candidate be stDepth, The best evaluation value minCost is rewritten with cost (step S31). Then, the distance candidate index depth is increased by 1 (step S32), and if there is still another distance candidate, the same processing is repeated for that distance candidate (step S33).
  • FIG. 5 is a flowchart of the parallax compensation image generation process performed by the parallax compensation image generation unit 107.
  • the parallax compensation image generation process for generating the parallax compensation image from the distance image and the reference image in step S14 in FIG. 3 will be described in more detail.
  • a process for generating a parallax compensation image is performed for each block of a reference image to which a distance is given.
  • the index indicating each block is represented as blk, and the number of blocks for one image is represented as maxBlk.
  • step S40 After blk is initialized to 0 (step S40), blk is incremented by 1 (step S47), and until blk reaches maxBlk (step S48), step S41 to step S48 are performed for each block. Repeat the process.
  • step S41 the position of the reference image of the block of index blk in the pixel space is obtained and set as blk-pos (step S41), and the distance of block blk from the distance image is determined.
  • DISP-V a disparity vector in the case of the distance given by the distance force d from the camera to the subject at the position of blk-pos is obtained (step S43).
  • DISP—V can be calculated by the following equation (5).
  • Equation (5) Similar to Equation (1), in Equation (5), the variable in bold represents a vector and the variable in bold represents a matrix.
  • Matrix A represents the internal parameter matrix of the camera
  • matrix R represents the rotation matrix of the force lens
  • vector t represents the translation vector of the camera.
  • the subscript t indicates the parameter of the camera that has captured the encoding target image
  • the subscript r indicates the parameter of the camera that has captured the reference image.
  • " ⁇ X" ( ⁇ is attached to the upper part of X) indicates a homogeneous vector (homogeneous vector).
  • ⁇ ” ⁇ is attached to the upper part of X) indicates a homogeneous vector whose final component is 1).
  • DISP-V When DISP-V is obtained, a vector to be predicted TAR-V obtained by converting each component into an integer is obtained (step S44). The way to convert to an integer is
  • the reference object vector REF—V is obtained by the following equation (6) (step S45).
  • REF_V TAR V—DISP V (6)
  • the pixel value at the position p + T AR—V of the parallax compensation image is represented on the reference image.
  • p + REF ⁇ V does not always indicate an integer pixel position. Values at positions other than integer pixel positions can be generated from the values of surrounding pixels by filtering or the like. In addition, it is not necessary to strictly obtain a value corresponding to a given position, only values up to a certain number of decimal pixel positions may be obtained, and the closest point may be used.
  • a method similar to the method used in the process of step S28 shown in FIG. 4 is used.
  • the force for obtaining the distance for each pixel is divided into blocks of n X m pixels (n and m are variable).
  • a distance may be set for each block obtained by dividing the reference image into regions, and information indicating the region division and the distance for each region (pseudo distance) may be encoded.
  • the entire reference image is divided into regions and encoded for each region, and is encoded together with the region division information.
  • the same region division is set according to the region division information included in the encoded data of the reference image, and the encoding of the information indicating the region division is omitted.
  • the reference image Only the information indicating the difference from the area division indicated by the area division information included in the encoded data may be encoded to suppress an increase in the code amount.
  • one reference distance is selected from the already encoded distances, information indicating the reference distance, the distance to be encoded, and the reference distance.
  • a pseudo distance group given to one reference image is regarded as an image, and a set of these pseudo distances is a predetermined image encoding method such as JPEG. Even if it is encoded using.
  • FIG. 6 is a diagram illustrating a configuration example of an image decoding device according to the embodiment of the present invention.
  • the image decoding apparatus 200 includes a distance image decoding unit 201 that decodes a distance image, a reference image memory 202 that stores a decoded image of the camera A that is a reference image, and a parallax compensation image based on the decoded distance image and the reference image. And an encoding target image decoding unit 204 that decodes encoded data of the encoding target image with reference to the generated parallax compensation image.
  • FIG. 7 is a flowchart of image decoding processing by the image decoding apparatus.
  • FIG. 7 shows a flowchart for decoding one frame of the image of camera B.
  • the flowchart shown in FIG. 7 will be described in detail. It is assumed that the frame of the image of camera A at the same time as the frame to be decoded has been decoded in advance, and the decoded image is stored in the reference image memory 202 as a reference image.
  • the distance image decoding unit 201 decodes encoded data of the distance image (step S 50).
  • the parallax compensation image generation unit 203 uses the decoded distance image and the reference image stored in the reference image memory 202 to generate a parallax compensation image (step S51).
  • the encoding target image decoding unit 204 decodes the encoded data of the encoding target image while referring to the generated parallax compensation image (step S 52).
  • the processing performed by the encoding target image decoding unit 204 uses a method conforming to the encoding method used by the encoding target image encoding unit 108 inside the image encoding device 100. That is, when the encoding target image encoding unit 108 uses a method of encoding the difference between the parallax compensation image and the encoding target image, the encoding target image decoding unit 204 converts the given encoded data into Decoded and added to the generated parallax compensated image, a decoded image of the encoding target image is obtained.
  • the distance image decoding unit 201 in the image decoding apparatus 200 performs the same processing as the distance image decoding unit 106 in the image encoding apparatus 100.
  • the parallax compensation image generation unit 203 in the image decoding device 200 performs the same processing as shown in FIG. 5 as the visual field compensation image generation unit 107 in the image encoding device 100.
  • the present embodiment takes a format in which encoded data of a distance image is given.
  • the distance image decoding unit 201 is not necessary, and the process of step S50 in the flowchart of FIG. 7 can be omitted.
  • the given distance image is used as it is by the parallax compensation image generation unit 203.
  • step S26 in the flowchart of FIG. 4 and the process of generating TAR-V in the process of step S44 in the flowchart of FIG. It may be closest to each corresponding component and may be an integral multiple of the encoding processing block size.
  • step S28 in the flowchart of Fig. 4 blk-pos + TAR-V always indicates one coding processing block, so blk-pos + TAR-V of the image to be coded
  • blk-pos + TAR-V of the image to be coded Calculate the code amount code required to encode the block represented, determine the square error sum SSD of the original image and decoded image when encoding, and calculate diff using the following equation (7)
  • Diff SSD + ⁇ ′ X code (7)
  • ⁇ ′ is a Lagrange's undetermined multiplier, and a preset value is used.
  • step S25 to step S28 in the flowchart of the processing for generating the distance image shown in Fig. 4 is performed for each image to be encoded.
  • the distance image is generated by evaluating the distance candidates using the total value of diff as diff.
  • the above-described image encoding processing can be realized not only by hardware and firmware but also by a computer and a software program, and the program can be recorded and provided on a computer-readable recording medium. It is also possible to provide it through a network.
  • the embodiment of the present invention has been described above with reference to the drawings. However, the above embodiment is merely an example of the present invention, and the present invention is not limited to the above embodiment. it is obvious. Therefore, additions, omissions, substitutions, and other modifications of the components may be made to the above embodiment without departing from the spirit and scope of the present invention.
  • the position of the decimal unit of the reference image corresponding to the position of the integer pixel of the encoding target image is determined. Therefore, it can be obtained with high accuracy and low calculation cost, and it can realize parallax compensation corresponding to finer parallax and realize high-efficiency image coding as a whole multi-viewpoint image.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

明 細 書
画像符号化方法及び復号方法、それらの装置、画像復号装置、及びそ れらのプログラム並びにプログラムを記録した記憶媒体
技術分野
[0001] 本発明は、多視点画像の符号化および復号技術に関するものである。
本願 (ま、 2006年 9月 20曰 ίこ出願された特願 2006— 253845号 ίこ基づき優先権 を主張し、その内容をここに援用する。
背景技術
[0002] 多視点画像とは、複数のカメラで同じ被写体と背景を撮影した複数の画像のことで あり、多視点動画像(多視点映像)とは、その動画像のことである。以下では、 1つの カメラで撮影された動画像を" 2次元動画像"と呼び、同じ被写体と背景を撮影した 2 次元動画像群を"多視点動画像"と呼ぶ。
[0003] 2次元動画像は、時間方向に関して強い相関があり、符号化の際には、その相関を 利用することによって符号化効率を高めている。一方、多視点画像や多視点動画像 では、各カメラが同期されている場合、同じ時間に対応した各カメラの映像は、まった く同じ状態の被写体と背景とを別の位置から撮影したものであるので、カメラ間で強 い相関がある。多視点画像や多視点動画像の符号化においては、この相関を利用 することによって、符号化効率を高めることができる。
[0004] まず、 2次元動画像の符号化技術に関する従来技術を述べる。
国際符号化標準である Η. 264、 MPEG— 2、 MPEG— 4をはじめとした従来の多 くの 2次元動画像符号化方式では、動き補償、直交変換、量子化、エントロピー符号 化という技術を利用して、高効率な符号化を行う。例えば、 H. 264では、過去あるい は未来の複数枚のフレームとの時間相関を利用した符号化が可能である。
[0005] H. 264で使われている動き補償技術の詳細については、例えば、非特許文献 1に 記載されている。その概要を説明する。
H. 264の動き補償は、符号化対象フレームを様々なサイズのブロックに分割し、各 ブロックで異なる動きベクトルと異なる参照画像とを持つことを可能にしている。さらに 、参照画像に対してフィルタ処理を行うことで、 1/2画素位置や 1/4画素位置の映 像を生成し、より細かい 1/4画素精度の動き補償を可能にすることで、従来の国際 符号化標準方式より高効率な符号化を達成している。
[0006] 次に、従来の多視点画像や多視点動画像の符号化方式について説明する。
多視点画像の符号化方法と多視点動画像の符号化方法との違いは、多視点動画 像にはカメラ間の相関に加えて、時間方向の相関が同時に存在するということである 。しかし、カメラ間の相関を利用する方法は、どちらの場合にも同じ方法を用いること ができる。そのため、ここでは多視点動画像の符号化において用いられる方法につ いて説明する。
[0007] 多視点動画像の符号化については、カメラ間の相関を利用するために、動き補償 を同じ時刻の異なるカメラの画像に適用した"視差補償"によって、高効率に多視点 動画像を符号化する方式が従来力 存在する。ここで、視差とは、異なる位置に配置 されたカメラの画像平面上で、被写体上の同じ位置が投影される位置の差である。
[0008] 図 8は、カメラ間で生じる視差の概念図である。
図 8に示す概念図では、光軸が平行なカメラの画像平面を垂直に見下ろしたものと なっている。このように、異なるカメラの画像平面上で被写体上の同じ位置が投影さ れる位置は、一般的に対応点と呼ばれる。
視差補償は、この対応関係に基づいて、符号化対象フレームの各画素値を参照フ レームから予測し、その予測残差と、対応関係を示す視差情報とを符号化する。
[0009] この対応関係は、カメラパラメータを用いることで、ェピポーラ幾何拘束に基づき、 2 次元ベクトルではなぐ一方のカメラを基準として、そのカメラ力 被写体までの距離と いう 1次元量で表すことができる。
[0010] 図 9は、ェピポーラ幾何拘束の概念図である。ェピポーラ幾何拘束によれば、ある カメラの画像上の点に対応する別のカメラの画像上の点はェピポーラ線という直線上 に拘束される。このとき、その画素におけるカメラから被写体までの距離が得られた場 合、対応点はェピポーラ線上に一意に定まる。
[0011] 例えば、図 9に示すように、カメラ Aの画像で mの位置に投影された被写体の点は、 カメラ Bの画像において、実空間における被写体の対応する点の位置が M'の場合 にはェピポーラ線上の位置 m'に、実空間における被写体の対応する点の位置が M "の場合にはェピポーラ線上の位置 m"に、実空間における被写体の対応する点の 位置が Μ'"の場合にはェピポーラ線上の位置 m'"に、投影される。
[0012] 図 10は、 1つのカメラに対して被写体までの距離が与えられたときに複数のカメラ 間で対応点が得られることを示す図である。
一般的に視差は符号化対象フレームによって変化するため、視差情報は、符号化 対象フレームごとに符号化することが必要である。しかし、カメラから被写体までの距 離は、被写体の物理的な状態によって決定されるため、カメラから被写体までの距離 という 1つの情報で複数のカメラの画像上の対応点を表すことができる。
例えば、図 10に示すように、カメラ Aの視点位置力も被写体の点 Mまでの距離の情 報 1つで、カメラ Aの画像の点 m に対応するカメラ Bの画像の対応点 m 、カメラじの 画像の対応点 mの双方を表すことができる。
[0013] この性質によると、視差情報を参照画像におけるカメラ力 被写体までの距離で表 すことで、その参照画像から(カメラ間の位置関係が得られている)他のカメラで同時 刻に撮られたすべてのフレームに対する視差補償を実現することができる。非特許 文献 2では、この性質を利用して符号化しなければならない視差情報の数を減らし、 高効率な多視点動画像符号化を達成している。
[0014] なお、非特許文献 3は、後述の本発明の実施の形態の説明で参照する技術が記 載された先行技術文献であり、これには、複数のカメラの位置関係を表すパラメータ や、カメラによる画像平面への投影情報を表すパラメータに関する説明が記載されて いる。
非特許文献 1 : ITU-T Rec.H.264/ISO/IEC 11496-10, "Editor's Proposed Draft Tex t Modifications for Joint Video Specification (ITU-T Rec. H.264 / ISO/IEC 14496-1 0 AVC), Draft 7", Final Committee Draft, Document JVT-E022, pp. 10-13, and 62 -68, September 2002.
非特許文献 2: Shinya SHIMIZU, Masaki ITAHARA, azuto AMI URA and Yoshi yuki YASHIMA, "Multi-view Video Coding based on 3_D Warping with Depth Map ,,, In Proceedings of Picture Coding Symposium 2006, SS3-6, April, 2006. 非特許文献 3 : Oliver Faugeras, Three-Dimension Computer Vision-MIT Press; BC TC/UFF-006.37 F259 1993-ISBN:0-262-06158_9, pp. 33-68·
発明の開示
発明が解決しょうとする課題
[0015] 確かに、非特許文献 2の方法によれば、符号化対象画像ごとに視差情報を符号化 するよりも、少ない符号量で視差情報を符号化することができる。
[0016] 多視点画像符号化では、符号化対象画像の各画素の値を符号化することが目的 であるため、視差補償では符号化対象画像の各画素の値を予測することが必要であ る。し力、しながら、参照画像の各画素に対してカメラ力も被写体までの距離を与える 方法では、参照画像側の対応点が固定されているため、符号化対象画像における 対応点は、必ずしも画素と一致しない。この場合、符号化対象画像の全画素におけ る値を予測する方法として、次の 3つが、容易に類推できる方法として考えられる。
[0017] 1つ目は、符号化対象画像における対応点が必ず画素位置になるように距離を定 める方法である。
しかし、複数の符号化対象画像に対して必ず画素位置に対応するような距離は限 られてしまうため、この方法では、予測誤差の小さくなるような視差補償ができず、最 終的に全体の符号化効率が悪くなつてしまう。
[0018] 2つ目は、符号化対象画像において得られた対応点を最も近い画素に丸める方法 である。
この方法では、おおよそ正しい視差補償を達成できると考えられる力 S、丸めたことに よってその予測精度は少なからず低下する。また、符号化した視差情報から得られる 情報を後から丸めるため、丸めた情報を符号化する場合に比べて、無駄な情報を符 号化して!/、ることになつてしまう。
[0019] 3つ目は、参照画像の全画素に対する符号化対象画像における対応点を求めた 後で、符号化対象画像の画素ごとに、周辺に得られた対応点の画素値から補完を行 つて求める方法である。
3つ目の方法では、符号化した視差情報を完全に利用することができる。しかしな がら、この方法では、離散的に与えられた画素値から符号化対象画像全体の画素値 を補完する必要があるため、精度の高い補完を行うための計算コストが非常に高い。 また、全画素の対応点を求めた後でしか視差補償による予測誤差が分からなレ、ため
、予測誤差を最小化するような符号化のための距離を求めようとする場合、全画素に 対する視差情報を仮定し、仮定した視差情報を用いて参照画像の全画素に対する 符号化対象画像における対応点を求め、画素値が離散的に与えられた画像に対し て補完を行うことで符号化対象画像に対する予測画像を生成して予測誤差を求める という処理を、すべての視差情報の組み合わせに対して繰り返すことになり、非常に 多くの演算量がかかり、最適な視差情報の集合を得ることが非常に困難である。
[0020] また、非特許文献 2の方法のような、参照画像の各画素に対してカメラから被写体 までの距離を与える方法では、参照画像側の対応点が整数画素単位に固定されて いるため、 H. 264の動き予測のように参照画像の小数画素位置(1/2画素位置や 1/4画素位置など)における画素値を用いた細かい動きに対応した高精度な補償を fiうことあでさない。
[0021] 単純に参照画像の小数画素(1/2画素や 1/4画素など)においても、カメラ力、ら 被写体までの距離を与えることで、精度の高い視差補償を可能にすることができるが 、符号化しなければならない視差情報の数が増加してしまい、符号化効率が低下す るという問題点がある。
たとえ整数画素に対して与えられた距離から小数画素の距離を推定して用いるとし ても、対応点を求めるための演算回数が数倍にも増加するという問題がある。
[0022] 本発明は、力、かる事情に鑑みてなされたものであって、参照画像におけるカメラか ら被写体までの距離に基づいて表される視差情報を用いて、符号化対象画像に対し て視差補償を行うという構成をとる場合に、符号化の必要な視差情報の数を増やす ことなく、その符号化に用いた視差情報に含まれる情報を最大限に利用し、小数画 素単位の視差補償を行うことで、高い符号化効率を達成できるようにする画像符号化 技術および復号技術を提供することを目的とする。
課題を解決するための手段
[0023] 本発明は、上記の課題を解決するために、複数のカメラで撮影された多視点画像 を符号化するにあたり、既に符号化済みの参照画像と、前記複数のカメラのうち前記 参照画像を撮影したカメラ力 被写体までの距離とを用いて、カメラ間で画像を予測 しながら符号化を行う画像符号化方法であって、
前記参照画像の各画素に対して与えられる前記距離と、前記参照画像を撮影した カメラと符号化対象画像を撮影した各カメラとの位置関係とに基づいて、前記参照画 像の各画素に対応する各符号化対象画像上での対応点を求め、前記参照画像の 画素位置から前記符号化対象画像上での対応点へと向かう画素空間上の視差べク トルを算出する視差ベクトル設定ステップと、
前記視差ベクトルと同じ始点を持ち、前記視差ベクトルの各成分の小数部分の切り 捨てまたは各成分の値に最も近い整数値の選択により、前記視差べ外ルの各成分 を整数値に丸めた値を、ベクトルの各成分として持つ予測対象ベクトルを算出する予 測対象ベクトル設定ステップと、
前記視差べクルと同じ始点を持ち、前記予測対象ベクトルと前記視差ベクトルとの 差分ベクトルと同じ大きさと向きとを持つ参照対象ベクトルを算出する参照対象べタト ル設定ステップと、
前記参照対象ベクトルによって示される参照画像上の整数もしくは小数画素位置 の画素値を、前記予測対象ベクトルによって示される符号化対象画像上の画素の予 測値とすることで、カメラ間の画像予測を行うカメラ間画像予測ステップとを有すること を特徴とする画像符号化方法を提供する。
[0024] これにより、参照画像の整数画素位置ごとに与えられる符号化対象画像上の整数 画素位置とは限らない対応点の情報を用いて、符号化対象画像の整数画素位置に 対して、参照画像の小数画素位置の画素値を用いた視差補償による画像予測が可 能となり、高い符号化効率の達成が可能となる。
[0025] 典型例として、前記参照画像の各画素に対して、ェピポーラ幾何拘束に基づいて、 前記参照画像から、符号化対象の画像を予測する際の対応点を示す疑似距離を設 定する疑似距離設定ステップと、
前記疑似距離設定ステップで設定された疑似距離を符号化する疑似距離符号化 前記視差ベクトル設定ステップでは、前記疑似距離を前記参照画像の各画素に対 して与えられる距離として用いるようにしても良!/ヽ。
[0026] ここで述べる疑似距離とは、参照画像のある画素に対する符号化対象画像上のェ ピポーラ直線を考えた場合に、その直線上の 1点を特定するような値である。具体的 には、カメラから、参照画素中の対象画素に写っているものまでの推定距離を示すも のになる。疑似距離は、距離そのものであっても、ステレオマッチング等で得られる推 定距離であっても、それらに対応付けられたインデックス値でも力、まわなレ、。
[0027] この方法によると、カメラから被写体までの距離が明らかに得られないような場合に おいても、符号化側で視差補償に用いたパラメータを復号側に通知することによって 、距離パラメータを用いた視差補償を実行することができるようになる。
[0028] 上記典型例における好適例として、前記疑似距離設定ステップは、
取り得る値を推定して定めた推定疑似距離とカメラの位置関係とに基づいて求め られる符号化対象画像上での対応点を終点とし、その推定疑似距離が与えられる参 照画像中の画素を始点とする、画素空間上の推定視差ベクトルを設定する過程と、 前記推定視差ベクトルの終点を整数画素に丸めた推定予測対象ベクトルを設定 する過程と、
前記推定視差ベクトルと同じ始点を持ち、前記推定予測対象ベクトルと前記推定 視差ベクトルとの差分ベクトルと同じ大きさと向きを持つ推定参照対象ベクトルを設定 する過程と、
前記推定予測対象ベクトルと前記推定参照対象ベクトルとを用いてカメラ間の画 像予測を行う処理を、全く同じ状態の被写体を撮影した各符号化対象画像に対して 行った際の、予測誤差の合計が最も小さくなる場合の前記推定疑似距離を、前記疑 似距離として設定する過程とを有する。
[0029] すなわち、前記疑似距離設定ステップでは、前記視差ベクトル設定ステップと同様 の処理を施して推定視差ベクトルを求め、推定視差ベクトルに対して予測対象べタト ル設定ステップと同様の処理を施して推定予測対象ベクトルを求め、推定視差べタト ルと推定予測対象ベクトルとに対して前記参照対象ベクトル設定ステップと同様の処 理を施して推定参照対象ベクトルを求め、推定予測対象ベクトルと推定参照対象べ タトルとを用いて画像予測を行う処理を、全く同じ状態の被写体を撮影した各符号化 対象画像に対して行った際の、予測誤差の合計が最も小さくなる場合の前記推定疑 似距離を、前記疑似距離として設定する。
[0030] なお、推定予測対象ベクトルを求める際の整数画素への丸め方は、小数部分を切 り捨てる方法でも、最も近い整数画素へと丸める方法でも用いることができる力 視差 補償時に行う対応する処理と一致させるものとする。
[0031] ある画素に対するカメラから被写体までの距離が与えられたときに、その画素からほ んの少しずれた位置に対するカメラから被写体までの距離力 S、その画素に対して与 えられた距離とほとんど変わらないと仮定することができる力 常に完全に一致してい るとは言えない。そのため、適当な疑似距離を用いた場合はもちろんである力 たと え実際の距離に極めて近い疑似距離を用いた場合でも、状況によっては予測誤差 が大きいような対応点を用いて視差補償を行ってしまう可能性がある。
[0032] 一方、この発明によると、視差補償の予測誤差が他の距離よりも小さレ、疑似的な距 離を求めてその疑似距離を用いるため、視差補償の予測誤差が大きい対応点を視 差補償に使うことを回避することが可能となり、高い符号化効率を達成することができ
[0033] また、予測誤差に対して、その疑似距離を符号化する際の符号量の予測値に対し てある一定の重みを乗じた値を加えたレート歪みコストを最小化するような疑似距離 を求めることで、予測誤差は増加したとしても、符号化効率という観点でより最適な疑 似距離を求めるようにしてもよい。
[0034] なお、疑似距離の符号化において歪が存在する場合、符号化した疑似距離を復号 した復号疑似距離を距離として視差ベクトル設定ステップで用いることで、符号化側 と復号側で用いるパラメータを一致させ、符号化歪みの一種であるドリフトを防ぐこと ができる。
[0035] 上記典型例における別の好適例として、参照画像における領域分割を設定する領 域分割設定ステップを有し、
前記疑似距離設定ステップでは、前記領域分割設定ステップで設定された領域ご とに前記疑似距離を設定し、 前記疑似距離符号化ステップでは、前記領域分割設定ステップで設定された領域 ごとに前記疑似距離を符号化する。
[0036] カメラから被写体までの距離は画像上でそれほど頻繁に変化せず、ある程度まとま つた領域では同じ距離を持つ場合が多い。そのため、適切に領域分割を設定し、領 域ごとに 1つの疑似距離を設定して符号化することで、符号化する疑似距離の個数 を少なくすることができ、符号量を削減することができる。
[0037] この場合、領域分割の情報も符号化して復号側に渡す必要があるが、参照画像の 画像全体を領域分割し、領域ごとに処理を加え、その領域分割情報と共に符号化さ れている場合には、その参照画像の符号化データに含まれる領域分割情報による領 域分割と、各疑似距離を設定する領域分割とを一致させることで、領域分割情報を 符号化しな!/ヽで済ませること力 Sできる。
[0038] 画像符号化時の領域分割は、各被写体の形状を表す形に区切られる場合が多い 。また、カメラから被写体までの距離も、被写体ごとに同じような値を持つと考えられる ため、上記のように領域分割を一致させることにより、効率的に領域分割情報の符号 量を削減することが可能である。
[0039] しかし、画像符号化時の領域分割は、テクスチャ(見た目 )の違いによっても設定さ れる場合がある。そのため、画像符号化時の領域分割と、疑似距離が同じとなるよう な領域分割とに差が生じる場合もある。この場合、その違いを表す情報のみを符号 化することで、画像全体の領域分割を符号化して大量の符号量が発生してしまうのを 防ぐとともに、領域分割誤りによる視差補償の予測効率低下を防ぐことができる。
[0040] また、実空間における被写体の空間的な特性上、カメラから被写体までの距離が隣 り合う画素や領域間で大きく変化しないことを利用して、疑似距離を符号化する際に 、既に符号化済みの疑似距離を選び、その符号化済みの疑似距離を示す情報と、 符号化対象の疑似距離と前記選んだ疑似距離との差分とを符号化することで、疑似 距離の符号量を削減することもできる。
[0041] また、 1つの参照画像に対して与えられる疑似距離群は、与えられる領域の位置と 大きさを考慮すると、画像とみなすことができる。したがって、その画像を JPEGや JPE G2000などの画像符号化方法を用いて符号化することで、疑似距離を効率的に符 号ィ匕すること力 sでさる。
[0042] また、カメラから被写体までの距離は時間的にも大きく変化しないため、本発明の 方法を、各時刻の画像群に適用することで多視点動画像を符号化する場合、各時刻 の疑似距離群を画像とみなし、その集合を映像とみなし、疑似距離全体を MPEG— 2や H. 264/AVCなどの映像符号化方法を用いて符号化することで、疑似距離を 効率的に符号化することもできる。
[0043] また、前記予測対象ベクトル設定ステップでは、各成分が前記視差ベクトルの各成 分に最も近い符号化処理ブロックサイズの整数倍の値を持つベクトルを予測対象べ タトルとするようにしても良い。
[0044] 多視点動画像全体として高効率な符号化を達成するためには、疑似距離の符号 量を抑えつつ、高効率な視差補償残差の符号化を行う必要がある。つまり、符号化 処理ブロックごとに疑似距離を推定する際に、その疑似距離の符号化に必要な符号 量のほかに、その疑似距離によって視差補償されたブロックの残差の符号量を考慮 にいれる必要がある。し力もながら、参照画像のある符号化対象ブロックに対して与 えられる疑似距離によって視差補償されるブロックは、符号化対象画像にぉレ、て複 数の符号化処理ブロックを跨いでしまっている可能性がある。この場合、このブロック における視差補償残差の符号量を見積もることが非常に困難であるため、高効率な 符号化を達成するための最適化を精度よく行うことができない。
[0045] 一方、上述のように、各成分が前記視差ベクトルの各成分に最も近い符号化処理 ブロックサイズの整数倍の値を持つベクトルを予測対象ベクトルとするようにすれば、 符号化対象画像上の視差補償されるブロックが必ず符号化処理ブロックと一致する ことが保証されるため、そのブロックの視差補償残差を符号化するのに必要な符号量 を、視差補償残差の符号化方式を考慮した上で算出することが可能となる。その結 果、全体として高効率な多視点画像符号化が可能となる。
[0046] なお、多視点動画像を符号化 (復号)する場合、各時刻の対応するフレームの集合 を多視点画像とみなして、本発明の画像符号化方法 (画像復号方法)を適用すること ができる。
さらに、多視点動画像では本発明の画像符号化方法のみで画像全体を符号化す るのではなく、時間方向の相関を利用した動き補償などの他の手法を符号化処理対 象ごとに適宜選択して符号化することで、符号化効率を高めることもできる。
発明の効果
[0047] 本発明によれば、参照画像の整数画素を基準として与えられる符号化対象画像の 対応点情報から、符号化対象画像の整数画素の位置に対応する参照画像の小数 画素単位の位置を、精度よく低演算コストで求めることができ、より細かい視差に対応 した視差補償を実現し、多視点画像全体としての高効率な画像符号化を実現するこ と力 Sできる。
図面の簡単な説明
[0048] [図 1]本発明における各ベクトルの関係を示す図である。
[図 2]本発明の実施の形態による画像符号化装置の構成例を示す図である。
[図 3]画像符号化装置による画像符号化処理フローチャートである。
[図 4]距離画像生成部による距離画像生成処理フローチャートである。
[図 5]視差補償画像生成部による視差補償画像生成処理フローチャートである。
[図 6]本発明の実施の形態による画像復号装置の構成例を示す図である。
[図 7]画像復号装置による画像復号処理フローチャートである。
[図 8]カメラ間で生じる視差の概念図である。
[図 9]ェピポーラ幾何拘束の概念図である。
[図 10]1つのカメラに対して被写体までの距離が与えられたときに複数のカメラ間で 対応点が得られることを示す図である。
符号の説明
[0049] 100 画像符号化装置
101 画像入力部
102 参照画像入力部
103 参照画像メモリ
104 距離画像生成部
105 距離画像符号化部
106 距離画像復号部 107 視差補償画像生成部
108 符号化対象画像符号化部
200 画像復号装置
201 距離画像復号部
202 参照画像メモリ
203 視差補償画像生成部
204 符号化対象画像復号部
発明を実施するための最良の形態
[0050] 以下、実施の形態に従って、本発明を詳細に説明する。
まず、図 1を参照し、本発明の原理を説明する。
最初に、参照画像の各画素に対して与えられるカメラ力 被写体までの距離と、カメ ラ間の位置関係とを用いて、参照画像の各画素の符号化対象画像上での対応点を 求める。
このとき、画素空間上で参照画像の画素を始点とし、その画素の符号化対象画像 上の対応点を終点とするベクトルを視差ベクトルと呼ぶ。このような求め方をするため 、視差ベクトルの始点は必ず整数画素位置であり、終点は必ずしも整数画素位置と は限らない。
[0051] 次に、各視差ベクトルに対して、始点が同じで、ベクトルの水平成分と垂直成分の 小数部分を切り捨てたベクトルを求め、このベクトルを予測対象ベクトルと呼ぶ。この 予測対象ベクトルは、視差ベクトルの始点と終点によって張られる長方形 (座標平面 上で、始点座標と終点座標により定義される、視差ベクトルを対角線とする長方形) の内部で、視差ベクトルの終点に最も近い整数画素位置を終点に持つベクトルであ
[0052] そして、視差ベクトルごとに、その視差ベクトルと同じ始点を持ち、前のステップで求 めた予測対象ベクトルからその視差ベクトルを減算してできるベクトルと同じ大きさと 向きを持つベクトルを求め、このベクトルを参照対象ベクトルと呼ぶ。この参照対象べ タトルの終点は、必ずしも整数画素位置になるとは限らな!/、。
[0053] 本発明では、このようにして得られた予測対象ベクトルと参照対象ベクトルの組ごと に、参照対象ベクトルによって示される参照画像上の位置の値を、予測対象ベクトル によって示される符号化対象画像上の画素位置の予測値として用いることで、カメラ 間の画像予測を実現する。
[0054] 本発明では、ある画素からほんの少しずれた位置のカメラから被写体までの距離は
、その画素におけるカメラ力も被写体までの距離とほぼ同じであるという仮定に基づ いて、対応点を求める。つまり、カメラ力も被写体までの距離の構造が単純なほうが 画像予測の精度が高い。
一方、前述の容易に類推できる手法の 2つ目の手法と 3つ目の手法では、被写体 のテクスチャ(見た目)が隣接部分でほぼ同じという仮定を用いている。つまり、テクス チヤの構造が単純なほうが画像予測の精度が高い。
自然画像において、距離の構造とテクスチャの構造とを比較すると、現実空間にお ける連続性の制約があるため、テクスチャよりも距離のほうが単純な構造をしている傾 向がある。したがって、本発明の手法は前述の容易に類推できる手法よりも高精度な 画像予測を実現し、符号化効率を高めることができる。
[0055] なお、上記のように予測対象ベクトルを求める際に、小数部分を切り捨てて整数部 分に丸める処理を行うこともできる力 最も近!/、整数に丸める方法を取ることもできる
最も近い整数に丸める処理を行ったほうが、参照画像の画素により近い点が同じ距 離を持っていると仮定していることになるため、予測誤差の小さくなるような視差補償 を達成すること力できる。ただし、この場合には、小数部分を切り捨てる場合よりも演 算コストが増加する可能性がある。
[0056] 以下に説明する実施の形態の例では、カメラ A、カメラ Bの 2つのカメラで撮影され た多視点画像を符号化する場合を想定し、カメラ Aの画像を参照画像としてカメラ B の画像を符号化する方法について説明を行う。
[0057] なお、カメラ Aとカメラ Bの位置関係を表す外部パラメータや、カメラによる画像平面 への投影情報を表す内部パラメータは、別途与えられているものとする。
これらのパラメータに関する詳しい説明は、非特許文献 3に記載されている力 S、カメ ラを設置したときに求めることも、あるいは、撮影した画像対から推定することも可能 である。
[0058] 図 2は、本発明の実施の形態による画像符号化装置の構成例を示す図である。
画像符号化装置 100は、符号化対象画像であるカメラ Bの原画像を入力する画像 入力部 101と、参照画像であるカメラ Aの復号画像を入力する参照画像入力部 102 と、参照画像を格納する参照画像メモリ 103と、距離画像を生成する距離画像生成 部 104と、距離画像の符号化を行う距離画像符号化部 105と、符号化された距離画 像を復号する距離画像復号部 106と、参照画像と復号された距離画像とから視差補 償画像を生成する視差補償画像生成部 107と、視差補償画像を利用して符号化対 象画像を符号化する符号化対象画像符号化部 108とを備える。
[0059] ここで、画像符号化装置 100と後述の画像復号装置 200 (図 6参照)のどちらにお いても、実際のカメラから被写体までの距離を表した距離画像でも、視差補償のため に使われる疑似的な距離を表した疑似距離画像でも、装置や処理は区別をして処 理を行うわけではない。したがって、以下では、両者を区別せず単に距離画像と記し 、それによつて示される距離もしくは疑似的な距離も区別せず単に距離と記す。
[0060] 以下、図 2に示すように構成された画像符号化装置 100が実行する画像符号化処 理について、図 3〜図 5のフローチャートを用いて詳細に説明する。
[0061] 図 3は、画像符号化装置による画像符号化処理フローチャートである。図 3に示す フローチャートは、画像符号化装置 100による画像符号化処理全体の概要を示す。
[0062] 画像符号化装置 100では、画像入力部 101により、カメラ Bの画像が入力される (ス テツプ S 10)。なお、参照画像入力部 102によって、カメラ Aの復号画像が参照画像メ モリ 103に入力されている。
以下では、入力されたカメラ Bの画像を符号化対象画像と記し、参照画像メモリ 103 上の画像を参照画像と記す。
[0063] 次に、符号化対象画像と参照画像を用いて、距離画像生成部 104で参照画像に 対する距離画像を生成する (ステップ S 11)。
そして、画像符号化装置 100側と画像復号装置 200側でまったく同じ情報を用い た視差補償画像生成を実現するために、生成された距離画像を距離画像符号化部 105で符号化し (ステップ S 12)、その符号化データを距離画像復号部 106で復号す 次に、復号して得られた距離画像と参照画像とから、視差補償画像生成部 107で 視差補償画像を生成する (ステップ S14)。最後に、生成された視差補償画像を用い て、符号化対象画像を符号化対象画像符号化部 108で符号化する (ステップ S 15)
[0064] 図 3に示す画像符号化処理は、カメラ Bの一つの画像を符号化する際に行う処理を 示しており、各時刻の画像についてこの処理を繰り返すことにより、多視点動画像の 符号化を行うことができる。
[0065] なお、距離画像符号化部 105では、既存の任意の符号化手法を用いて構わない。
静止画像として JPEG2000のような画像符号化方式を適用してもよいし、他の時刻 の参照画像に対して生成された距離画像と共に、 H. 264などの動画像符号化方式 を適用してもよ!/、し、画素値を単純に可変長符号化してもよレ、。
ただし、距離画像復号部 106は、距離画像符号化部 105で用いた方式で生成され る符号化データを復号できるものでなければならない。
[0066] また、本発明を多視点動画像符号化に用いる場合、符号化対象画像符号化部 10 8では、視差補償画像を利用して符号化を行う符号化方式であれば、任意のものを 用いること力 Sでさる。
例えば、視差補償画像と符号化対象画像の差分画像を生成して符号化する方式 や、差分画像をそのまま符号化するのではなぐ異なる時刻の差分画像と H. 264で 用いられる動き補償を行って符号化する方式や、視差補償画像を用いて行う映像予 測と、動き補償によって行う映像予測とを比べて予測効率のよい予測法を使って符 号化する方式などがある。
[0067] 本実施の形態では、画像符号化装置 100の内部で距離画像を生成する方式を取 つて!/、る力 センサ等を用いて外部で生成した距離画像をそのまま用いても構わな い。その場合には、距離画像生成部 104が不要となり、図 3のフローチャートにおけ るステップ S 11の処理を省略することができる。
さらに、距離画像符号化部 105において可逆符号化方式を用いる場合には、距離 画像復号部 106が不要となり、図 3のフローチャートにおけるステップ S 13の処理を 省略すること力 Sできる。ただし、その場合には、距離画像がそのまま視差補償画像生 成部 107に入力されることになる。
[0068] 図 4は、距離画像生成部 104による距離画像生成処理フローチャートである。
ここでは、図 3のステップ S 1 1における符号化対象画像と参照画像とから距離画像 を生成する距離画像生成処理について、より詳細に説明する。
図 4のフローチャートでは、参照画像を複数のブロックに分割して、ブロックごとに距 離を求める処理を行っている。ここで、ブロックのサイズをすベて 1 X 1 (画素)とすると 、画素ごとに距離を求めることに相当する。
この距離を設定する単位となるブロックを、参照画像を領域分割して符号化処理す るときの符号化処理ブロックに合わせるような実施も好適である。なお、各ブロックを 示すインデックスを blkと表し、一つの画像に対するブロック数を maxBlkと表す。
[0069] blkを 0に初期化した後(ステップ S20)、 blkを 1ずつ加算しながら(ステップ S35)、 blkが maxBlkになるまで(ステップ S36)、ブロックごとに、ステップ S21〜ステップ S3 6の処理を繰り返して実行する。
[0070] ブロックごとに行われる処理では、まず、インデックス blkのブロックの参照画像の画 素空間上の位置求め、 blk— posとする(ステップ S21)。
ここで、距離候補を示すインデックスを depthと表し、その最小値を minDepthと表 し、最大値を maxDepthと表す。 minDepthと maxDepthは、撮影する風景を考慮 して任意に与えられる符号化時のパラメータである。
また、以下の処理で各距離候補に対して評価を行っていくのである力 その評価値 として絶対に取りえない最大値を maxCostと表す。さらに、繰り返し評価を行うため に、最も良かった評価値を minCostと表し、そのときの距離候補インデックスを best Depthと表すこととする。
[0071] depthを minDepthに初期化し、 minCostを maxCostに初期化した後(ステップ S 22)、 depthを 1ずつ加算しながら(ステップ S32)、 depthが maxDepthになるまで( ステップ S33)、距離候補ごとに、ステップ S23〜ステップ S33の処理を繰り返して実 行する。
そして、 depthが maxDepthになったときに、 bestDepthに格納されているものを、 ブロックインデックス blkに対する距離の値と決定する(ステップ S34)。
[0072] 以下、距離候補ごとに行われる処理 (ステップ S23〜ステップ S33)について説明 する。
まず、距離画像符号化部 105で用いられる符号化方式を考慮して、距離画像の W k—posの位置の距離が depthとなった場合、その depthを符号化するのに必要な符 号量を求め rateとする(ステップ S23)。これは実際の符号量であっても、符号量の予 測値であっても構わない。
次に、 depthを符号化して復号したときに得られる値を求め dec— depthとする(ス テツプ S24)。そして、 blk— posの位置におけるカメラから被写体までの距離力 S、 dec —depthで与えられる距離である場合の視差ベクトルを求め、 DISP— Vとする(ステ ップ S25)。この視差ベクトルは、次の数式(1)によって求めることができる。
[0073] 國
"p Soik pos 賺 P— V « p - e (1 }
[0074] 数式(1)において、太字になっている変数はベクトルを表し、大文字の変数は行列 を表す。
行列 Aはカメラの内部パラメータ行列を表し、行列 Rはカメラの回転行列を表し、ベ タトル tはカメラの並進ベクトルを表す。なお、添え字 tは符号化対象画像を撮影した カメラのパラメータであることを示し、添え字 rは参照画像を撮影したカメラのパラメ一 タであることを示す。
[0075] dは、距離インデックス dec— depthで表されるカメラ力、ら被写体までの距離を表す。
「〜x」(〜は Xの上部に付される)は、ベクトル Xの斉次ベクトル(同次ベクトル)を示す 。また、「χ」 Γは Xの上部に付される)は、ベクトル Xの斉次ベクトルのうち、最終成分 力 である斉次ベクトルを示す。なお、 N次元ベクトルに対する斉次ベクトルは、 N+ 1 個の要素を持つ。この斉次ベクトルの N+ 1番目の成分で、 1〜N番目の成分を除算 した値を 1〜N次元目の成分として持つベクトルが、斉次ベクトルに対する通常のベ タトル(上記の例ではベクトル X)となる。つまり、 N次元ベクトルに関しては、次の関係 が成り立つ c
[0076] [数 2]
( χί
x: ただし ≠0
Figure imgf000020_0001
f、
[0077] DISP—Vが求められた Xら J、その各成分を整数化した予測対象ベクトル TAR— Vを 求める(ステップ S26)。整数化する方法は、
1)小数部分を切り捨てる方法、
2)四捨五入をする方法、
のどちらを用いてもよい。そして、参照対象ベクトル REF— Vを、次の数式(2)によつ て求める(ステップ S27)。
[0078] REF _V=TAR_ V— DISP V (2) このとき、 blk— posに含まれるすべての画素 pに対して、符号化対象画像上の位置 p + TAR— Vと参照画像上の位置 p + REF— Vが対応点となる。
この対応点の確からしさの評価値、すなわち符号化対象画像の位置 blk— pos + T AR—Vのブロックを参照画像の位置 blk— pos + DISP—Vのブロックで予測すると したときの予測誤差を求め、 diffとする(ステップ S28)。
確からしさの評価には、差分絶対値和や、二乗誤差和や、差分値の分散や、相関 係数などの任意の尺度を用いることができる。一例として、差分絶対値和による評価 式は、以下の数式(3)によって示される。
[0079] 園
Figure imgf000020_0002
[0080] 数式(3)において、 Iは、引数で与えられる位置の画像の画素値を返す関数を表す 。 p + TAR— Vは必ず整数画素位置を示す力 p + REF— Vは必ずしも整数画素位 置を示しているとは限らない。 整数画素位置以外の位置の値は、周辺の画素の値からフィルタ処理等によって生 成すること力 Sできる。また、与えられる位置に対して厳密にその位置に対応する値を 求める必要はなぐある程度の小数画素位置までの値しか求めず、最も近い点のも のを用いてもよい。
[0081] このようにして求められた rateと diffに対して、距離候補を多視点動画像の符号化 効率という面から評価するために、次の数式 (4)で示されるレート歪コスト costを計算 する(ステップ S29)。
[0082] cost = diff + λ X rate (4) 数式 (4)において、 λはラグランジュの未定乗数であり、あらかじめ設定された値が 利用される。符号化効率ではなぐ単純な予測誤差だけで距離候補を評価する場合 は、 λ = 0に相当する。ここで求められる costは、小さいほど良い。
[0083] 距離候補 depthの評価値 costをこれまでの距離候補における最良の評価値 minC ostと比べ(ステップ S30)、評価が良いようであれば、距離候補 depthを最良候補 be stDepthとして保存し、最良評価値 minCostを costで書き換える(ステップ S31)。 そして、距離候補インデックス depthを 1だけ増して (ステップ S32)、まだ別の距離 候補があるならば、その距離候補に対して同様の処理を繰り返す (ステップ S33)。
[0084] 図 5は、視差補償画像生成部 107による視差補償画像生成処理フローチャートで ある。ここでは、図 3のステップ S 14における、距離画像と参照画像とから視差補償画 像を生成する視差補償画像生成処理について、より詳細に説明する。
図 5のフローチャートでは、距離が与えられる参照画像のブロックごとに、視差補償 画像を生成する処理を行っている。なお、各ブロックを示すインデックスを blkと表し、 一つの画像に対するブロック数を maxBlkと表す。
[0085] blkを 0に初期化した後(ステップ S40)、 blkを 1ずつ加算しながら(ステップ S47)、 blkが maxBlkになるまで(ステップ S48)、ブロックごとに、ステップ S41〜ステップ S4 8の処理を繰り返して実行する。
[0086] ブロックごとに行われる処理では、まず、インデックス blkのブロックの参照画像の画 素空間上の位置求め、 blk— posとし(ステップ S41)、距離画像からブロック blkの距 離 dを得
そして、 blk—posの位置におけるカメラから被写体までの距離力 dで与えられる距 離である場合の視差ベクトル DISP— Vを求める(ステップ S43)。 DISP— Vは、次の 数式(5)によって求めることがで
きる。
[0087] [数 4]
JpE.blk pos
e A,Rf l I R ^pd + ■ )'
DISP V ^ p -e )
[0088] 数式(1)と同様に、数式(5)において、太字になっている変数はベクトルを表し、大 文字の変数は行列を表す。行列 Aはカメラの内部パラメータ行列を表し、行列 Rは力 メラの回転行列を表し、ベクトル tはカメラの並進ベクトルを表す。なお、添え字 tは符 号化対象画像を撮影したカメラのパラメータであることを示し、添え字 rは参照画像を 撮影したカメラのパラメータであることを示す。「〜x」(〜は Xの上部に付される)は、ベ )斉次ベクトル(同次ベクトル)を示す。また、「χ」 Γは Xの上部に付される)は )斉次ベクトルのうち、最終成分が 1である斉次ベクトルを示す。
[0089] DISP— Vが求められたら、その各成分を整数化した予測対象ベクトル TAR—Vを 求める(ステップ S44)。整数化する方法は、
1)小数部分を切り捨てる方法、
2)四捨五入をする方法、
のどちらを用いてもよいが、距離画像生成を行った場合には、距離画像生成部 104 での図 4に示すステップ S26の処理で用いられた方法と同様の方法を用いる。
次に、参照対象ベクトル REF— Vを次の数式(6)によって求める(ステップ S45)。
[0090] REF _V=TAR V— DISP V (6) そして、 blk— posに含まれるすべての画素 pに対して、視差補償画像の位置 p + T AR— Vの画素値を、参照画像上の位置 p + REF— Vの値で補償する(ステップ S46 )。 ここで、 p + REF— Vは、整数画素位置を示しているとは限らない。整数画素位置 以外の位置の値は、周辺の画素の値からフィルタ処理等によって生成することができ る。また、与えられる位置に対して厳密にその位置に対応する値を求める必要はなく 、ある程度の小数画素位置までの値しか求めず、最も近い点のものを用いてもよい。 しかし、距離画像が距離画像生成部 104で生成されたものである場合には、図 4に 示すステップ S28の処理で用いられた方法と同様の方法を用いる。
[0091] 以上の実施例において、ブロックサイズをすベて 1 X 1とすると、画素ごとに距離を 求めることになる力 参照画像を n X m画素(n、 mは可変)のブロックで分割し、参照 画像を領域分割したブロックごとに距離 (疑似距離)を設定し、その領域分割を示す 情報と領域ごとの距離 (疑似距離)とを符号化するようにしてもよい。
このように参照画像を領域分割したブロックごとに距離 (疑似距離)を設定する場合 に、参照画像が、画像全体を領域分割されて各領域ごとに符号化処理され、その領 域分割情報と共に符号化されているときには、参照画像の符号化データに含まれる 領域分割情報に従って、同様の領域分割を設定し、領域分割を示す情報の符号化 を省略することあでさる。
[0092] また、参照画像の符号化処理ブロックに関する領域分割と、上記の距離を設定する 領域分割とが異なる場合に、距離を設定するブロックを定める領域分割を示す情報 の符号化では、参照画像の符号化データに含まれる領域分割情報の示す領域分割 との違いを表す情報だけを符号化することにより、符号量の増加を抑えるようにしても よい。
[0093] また、上記距離 (疑似距離)の符号化では、既に符号化済みの距離の中から 1つの 参照距離を選択し、その参照距離を示す情報と、符号化対象の距離とその参照距離 との差異とを符号化することにより、符号量の増加を抑えることもできる。
[0094] また、上記距離 (疑似距離)の符号化では、 1つの参照画像に対して与えられる疑 似距離群を画像とみなし、それらの疑似距離の集合を JPEG等の所定の画像符号化 方法を用いて符号化するようにしてもょレ、。
[0095] 次に、このように生成された符号化データを復号する本発明の画像復号装置 200 について説明する。 [0096] 図 6は、本発明の実施の形態による画像復号装置の構成例を示す図である。
画像復号装置 200は、距離画像を復号する距離画像復号部 201と、参照画像であ るカメラ Aの復号画像を格納する参照画像メモリ 202と、復号された距離画像と参照 画像とから視差補償画像を生成する視差補償画像生成部 203と、生成された視差補 償画像を参照しながら符号化対象画像の符号化データを復号する符号化対象画像 復号部 204とを備える。
[0097] 図 7は、画像復号装置による画像復号処理フローチャートである。図 7では、カメラ B の画像を 1フレーム復号する上でのフローチャートを示している。以下、図 7に示すフ ローチャートを詳細に説明する。 なお、復号されるフレームと同時刻のカメラ Aの画像のフレームは先立って復号さ れているものとし、その復号画像が参照画像として参照画像メモリ 202に格納されて いるものとする。
[0098] まず、距離画像復号部 201で、距離画像の符号化データを復号する(ステップ S 50 )。次に、復号した距離画像と参照画像メモリ 202に格納されている参照画像とを用 いて、視差補償画像生成部 203で視差補償画像を生成する (ステップ S51)。最後に 、生成された視差補償画像を参照しながら、符号化対象画像の符号化データを符号 化対象画像復号部 204で復号する (ステップ S 52)。
[0099] ここで、符号化対象画像復号部 204で行われる処理は、画像符号化装置 100の内 部の符号化対象画像符号化部 108で用いられた符号化方式に準じたものを用いる 。つまり、符号化対象画像符号化部 108で視差補償画像と符号化対象画像の差分 を符号化する方式を用いている場合には、符号化対象画像復号部 204は、与えられ た符号化データを復号し、生成した視差補償画像と足し合わせることで、符号化対象 画像の復号画像を得る。
[0100] なお、画像復号装置 200内の距離画像復号部 201は、画像符号化装置 100内の 距離画像復号部 106と同じ処理を行うものである。
画像復号装置 200内の視差補償画像生成部 203は、画像符号化装置 100内の視 差補償画像生成部 107と同じ、図 5に示す処理を行うものである。
[0101] 本実施の形態では、距離画像の符号化データが与えられる形式を取っているが、 別の方法で距離画像が与えられる場合には、距離画像復号部 201は不要であり、図 7のフローチャートにおけるステップ S50の処理を省略することができる。その場合に は、与えられた距離画像がそのまま視差補償画像生成部 203で用いられる。
[0102] 図 4のフローチャートのステップ S26の処理と、図 5のフローチャートのステップ S44 の処理における TAR—Vを生成する部分で、各成分を整数にするだけでなぐ各成 分を、視差ベクトルの対応する各成分に最も近!、符号化処理ブロックサイズの整数 倍にしてもよい。
[0103] このとき、図 4のフローチャートのステップ S28の処理において、 blk— pos + TAR —Vは必ず 1つの符号化処理ブロックを示すため、符号化対象画像の blk— pos + T AR—Vで表されるブロックを符号化するのに必要な符号量 codeを求め、その符号 化を行った際の原画像と復号画像の二乗誤差和 SSDを求め、 diffを次の数式(7)で 求めることで、実際の符号量と映像品質との間の関係を鑑みて距離画像を生成でき るため、より高効率な符号化を達成できる。
[0104] diff = SSD+ λ ' X code (7) 数式(7)において、 λ 'はラグランジュの未定乗数であり、あらかじめ設定された値 が利用される。
[0105] なお、本実施の形態では、符号化対象画像を撮影しているカメラが 1台の場合を取 り扱った。カメラが 2台以上の場合でも、次に説明する処理を除き、同じ処理で画像 符号化および復号が行える。
カメラが 2台以上の場合には、図 4に表される距離画像を生成する処理のフローチ ヤートにおけるステップ S25〜ステップ S28の処理を符号化対象画像ごとに行い、そ れぞれで求められた diffの合計値を diffとして距離候補の評価を行って距離画像を 生成する。
[0106] 以上の画像符号化の処理は、ハードウェアやファームウェアに限らず、コンピュータ とソフトウェアプログラムとによっても実現することができ、そのプログラムをコンビユー タ読み取り可能な記録媒体に記録して提供することも、ネットワークを通して提供する ことも可能である。 [0107] 以上、図面を参照して本発明の実施の形態を説明したが、上記実施の形態は本発 明の例示に過ぎず、本発明が上記実施の形態に限定されるものでないことは明らか である。したがって、本発明の精神および範囲を逸脱しない範囲で、上記実施の形 態に対し構成要素の追加、省略、置換、その他の変更を行ってもよい。
産業上の利用可能性
[0108] 本発明によれば、参照画像の整数画素を基準として与えられる符号化対象画像の 対応点情報から、符号化対象画像の整数画素の位置に対応する参照画像の小数 画素単位の位置を、精度よく低演算コストで求めることができ、より細かい視差に対応 した視差補償を実現し、多視点画像全体としての高効率な画像符号化を実現するこ と力 Sできる。

Claims

請求の範囲
[1] 複数のカメラで撮影された多視点画像を符号化するにあたり、既に符号化済みの 参照画像と、前記複数のカメラのうち前記参照画像を撮影したカメラから被写体まで の距離とを用いて、カメラ間で画像を予測しながら符号化を行う画像符号化方法であ つて、
前記参照画像の各画素に対して与えられる前記距離と、前記参照画像を撮影した カメラと符号化対象画像を撮影した各カメラとの位置関係とに基づいて、前記参照画 像の各画素に対応する各符号化対象画像上での対応点を求め、前記参照画像の 画素位置から前記符号化対象画像上での対応点へと向かう画素空間上の視差べク トルを算出する視差ベクトル設定ステップと、
前記視差ベクトルと同じ始点を持ち、前記視差ベクトルの各成分の小数部分の切り 捨てまたは各成分の値に最も近い整数値の選択により、前記視差べ外ルの各成分 を整数値に丸めた値を、ベクトルの各成分として持つ予測対象ベクトルを算出する予 測対象ベクトル設定ステップと、
前記視差べクルと同じ始点を持ち、前記予測対象ベクトルと前記視差ベクトルとの 差分ベクトルと同じ大きさと向きとを持つ参照対象ベクトルを算出する参照対象べタト ル設定ステップと、
前記参照対象ベクトルによって示される参照画像上の整数もしくは小数画素位置 の画素値を、前記予測対象ベクトルによって示される符号化対象画像上の画素の予 測値とすることで、カメラ間の画像予測を行うカメラ間画像予測ステップとを有する ことを特徴とする画像符号化方法。
[2] 請求項 1に記載の画像符号化方法にお!/、て、
前記参照画像の各画素に対して、ェピポーラ幾何拘束に基づいて、前記参照画像 から、符号化対象の画像を予測する際の対応点を示す疑似距離を設定する疑似距 離設定ステップと、
前記疑似距離設定ステップで設定された疑似距離を符号化する疑似距離符号化 前記視差ベクトル設定ステップでは、前記疑似距離を前記参照画像の各画素に対 して与えられる距離として用いる
ことを特徴とする画像符号化方法。
[3] 請求項 2に記載の画像符号化方法において、
前記疑似距離設定ステップは、
取り得る値を推定して定めた推定疑似距離とカメラの位置関係とに基づいて求め られる符号化対象画像上での対応点を終点とし、その推定疑似距離が与えられる参 照画像中の画素を始点とする、画素空間上の推定視差ベクトルを設定する過程と、 前記推定視差ベクトルの終点を整数画素に丸めた推定予測対象ベクトルを設定 する過程と、
前記推定視差ベクトルと同じ始点を持ち、前記推定予測対象ベクトルと前記推定 視差ベクトルとの差分ベクトルと同じ大きさと向きを持つ推定参照対象ベクトルを設定 する過程と、
前記推定予測対象ベクトルと前記推定参照対象ベクトルとを用いてカメラ間の画 像予測を行う処理を、全く同じ状態の被写体を撮影した各符号化対象画像に対して 行った際の、予測誤差の合計が最も小さくなる場合の前記推定疑似距離を、前記疑 似距離として設定する過程と
を有することを特徴とする画像符号化方法。
[4] 請求項 3に記載の画像符号化方法において、
前記疑似距離設定ステップでは、前記予測誤差の合計値と、前記推定疑似距離を 符号化するのに必要な符号量に重みを付けた値との和で表されるレート歪コストが最 小になるように前記疑似距離を設定する
ことを特徴とする画像符号化方法。
[5] 請求項 2に記載の画像符号化方法において、
前記疑似距離符号化ステップで符号化された疑似距離の符号化データを復号す る符号化済み疑似距離復号ステップを有し、
前記視差ベクトル設定ステップでは、前記符号化済み疑似距離復号ステップで復 号して得られた復号疑似距離を前記参照画像の各画素に対して与えられる距離とし て用いる ことを特徴とする画像符号化方法。
[6] 請求項 2に記載の画像符号化方法において、
参照画像における領域分割を設定する領域分割設定ステップを有し、 前記疑似距離設定ステップでは、前記領域分割設定ステップで設定された領域ご とに前記疑似距離を設定し、
前記疑似距離符号化ステップでは、前記領域分割設定ステップで設定された領域 ごとに前記疑似距離を符号化する
ことを特徴とする画像符号化方法。
[7] 請求項 6に記載の画像符号化方法において、
前記領域分割設定ステップで設定された領域分割を示す情報を符号化する領域 分割符号化ステップを更に有する
ことを特徴とする画像符号化方法。
[8] 請求項 6に記載の画像符号化方法において、
前記参照画像が、画像全体を領域分割され、各領域ごとに、その領域分割情報と 共に符号化されて!/、る場合に、
前記領域分割設定ステップでは、参照画像の符号化データに含まれる領域分割情 報に従って、同様の領域分割を設定する
ことを特徴とする画像符号化方法。
[9] 請求項 7に記載の画像符号化方法において、
前記参照画像が、画像全体を領域分割され、各領域ごとに、その領域分割情報と 共に符号化されて!/、る場合に、
前記領域分割符号化ステップでは、参照画像の符号化データに含まれる領域分割 情報の示す領域分割との違いを表す情報のみを符号化する
ことを特徴とする画像符号化方法。
[10] 請求項 2に記載の画像符号化方法において、
前記疑似距離符号化ステップでは、既に符号化済みの疑似距離の中から 1つの参 照疑似距離を選択し、その参照疑似距離を示す情報と、前記疑似距離設定ステップ で設定された疑似距離とその参照疑似距離との差異とを符号化する ことを特徴とする画像符号化方法。
[11] 請求項 2に記載の画像符号化方法において、
前記疑似距離符号化ステップでは、 1つの参照画像に対して設定される疑似距離 群を画像とみなし、それらの疑似距離の集合を所定の画像符号化方法を用いて符 号化する
ことを特徴とする画像符号化方法。
[12] 請求項 1に記載の画像符号化方法におレ、て、
前記予測対象ベクトル設定ステップでは、各成分が前記視差ベクトルの各成分に 最も近い符号化処理ブロックサイズの整数倍の値を持つベクトルを予測対象べクトノレ とする
ことを特徴とする画像符号化方法。
[13] 複数のカメラで撮影された多視点画像の符号化データを復号するにあたり、既に復 号済みの参照画像と、前記複数のカメラのうち前記参照画像を撮影したカメラ力 被 写体までの距離とを用いて、カメラ間で画像を予測しながら画像を復号する画像復号 方法であって、
前記参照画像の各画素に対して与えられる前記距離と、前記参照画像を撮影した カメラと復号対象画像を撮影した各カメラとの位置関係とに基づいて、各復号対象画 像上での対応点を求め、前記参照画像の画素位置から前記復号対象画像上での対 応点へと向力、う画素空間上の視差ベクトルを算出する視差ベクトル設定ステップと、 前記視差ベクトルと同じ始点を持ち、前記視差ベクトルの各成分の小数部分の切り 捨てまたは各成分の値に最も近い整数値の選択により、前記視差べ外ルの各成分 を整数値に丸めた値を、ベクトルの各成分として持つ予測対象ベクトルを算出する予 測対象ベクトル設定ステップと、
前記視差べクルと同じ始点を持ち、前記予測対象ベクトルと前記視差ベクトルとの 差分ベクトルと同じ大きさと向きとを持つ参照対象ベクトルを算出する参照対象べタト ル設定ステップと、
前記参照対象ベクトルによって示される参照画像上の整数もしくは小数画素位置 の画素値を、前記予測対象ベクトルによって示される復号対象画像上の画素の予測 値とすることで、カメラ間の画像予測を行うカメラ間画像予測ステップとを有する ことを特徴とする画像復号方法。
[14] 請求項 13に記載の画像復号方法において、
符号化データから、前記参照画像から復号対象画像を予測する際の対応点をェピ ポーラ幾何拘束に基づいて示す疑似距離を復号する疑似距離復号ステップを有し、 前記視差ベクトル設定ステップでは、前記疑似距離を前記参照画像の各画素に対 して与えられる距離として用いる
ことを特徴とする画像復号方法。
[15] 請求項 13に記載の画像復号方法において、
符号化データから、参照画像における領域分割を示す情報を復号する領域分割 復号ステップを有し、
前記疑似距離復号ステップでは、前記領域分割復号ステップで復号された情報の 示す領域ごとに与えられた疑似距離を復号する
ことを特徴とする画像復号方法。
[16] 請求項 15に記載の画像復号方法において、
前記参照画像が、画像全体を領域分割され、各領域ごとに、その領域分割情報と 共に符号化されて!/、る場合に、
前記領域分割復号ステップでは、参照画像の符号化データに含まれる領域分割情 報を復号する
ことを特徴とする画像復号方法。
[17] 請求項 15に記載の画像復号方法において、
前記参照画像が、画像全体を領域分割され、各領域ごとに、その領域分割情報と 共に符号化されて!/、る場合に、
前記領域分割復号ステップでは、参照画像の符号化データに含まれる領域分割情 報の示す領域分割との違いを表す情報を復号し、参照画像の符号化データに含ま れる領域分割情報と、前記違!、を表す情報とを用いて領域分割を設定する
ことを特徴とする画像復号方法。
[18] 請求項 14に記載の画像復号方法において、 前記疑似距離復号ステップでは、符号化データから、既に符号化済みの複数の疑 似距離の中の 1つの参照疑似距離を示す情報と、復号対象の疑似距離と前記参照 疑似距離との差異を示す情報とを復号して、前記疑似距離を復号する
ことを特徴とする画像復号方法。
[19] 請求項 14に記載の画像復号方法において、
前記疑似距離復号ステップでは、 1つの参照画像に対して与えられる疑似距離群 を画像とみなし、符号化データから、前記疑似距離群を、所定の画像復号方法を用 いて復号する
ことを特徴とする画像復号方法。
[20] 請求項 13に記載の画像復号方法において、
前記予測対象ベクトル設定ステップでは、各成分が前記視差ベクトルの各成分に 最も近い復号処理ブロックサイズの整数倍の値を持つベクトルを予測対象ベクトルと する
ことを特徴とする画像復号方法。
[21] 請求項 1に記載の画像符号化方法における各ステップを実行するための手段を備 える
ことを特徴とする画像符号化装置。
[22] 請求項 2に記載の画像符号化方法における各ステップを実行するための手段を備 える
ことを特徴とする画像符号化装置。
[23] 請求項 1に記載の画像符号化方法における各ステップをコンピュータに実行させる ための画像符号化プログラム。
[24] 請求項 2に記載の画像符号化方法における各ステップをコンピュータに実行させる ための画像符号化プログラム。
[25] 請求項 1に記載の画像符号化方法における各ステップをコンピュータに実行させる ための画像符号化プログラムを記録したコンピュータ読み取り可能な記録媒体。
[26] 請求項 13に記載の画像復号方法における各ステップを実行するための手段を備 える ことを特徴とする画像復号装置。
[27] 請求項 13に記載の画像復号方法における各ステップをコンピュータに実行させる ための画像復号プログラム。
[28] 請求項 13に記載の画像復号方法における各ステップをコンピュータに実行させる ための画像復号プログラムを記録したコンピュータ読み取り可能な記録媒体。
PCT/JP2007/068065 2006-09-20 2007-09-18 procédé DE CODAGE D'IMAGE, PROCÉDÉ DE DÉCODAGE, DISPOSITIF associÉ, DISPOSITIF DE DÉCODAGE D'IMAGE, programme associÉ, et support de stockage contenant le programme WO2008035665A1 (fr)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN2007800342670A CN101518090B (zh) 2006-09-20 2007-09-18 图像编码方法及解码方法、图像编码装置及解码装置
JP2008535351A JP4999854B2 (ja) 2006-09-20 2007-09-18 画像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体
US12/441,076 US8290289B2 (en) 2006-09-20 2007-09-18 Image encoding and decoding for multi-viewpoint images
CA 2663672 CA2663672C (en) 2006-09-20 2007-09-18 Image encoding method and decoding method, apparatuses therefor, programs therefor, and storage media for storing the programs
BRPI0716810-1A2A BRPI0716810A2 (pt) 2006-09-20 2007-09-18 Método de codificação e método de decodificação de imagens, aparelhos para tal, aparelho de decodificação de imagem, programa para tal e meios de armazenamento para armazenar os programas.
EP07807466.3A EP2066133A4 (en) 2006-09-20 2007-09-18 BILDCODE PROCEDURE, DECODING METHOD, DEVICE FOR IT, IMAGE DECODING DEVICE, PROGRAM THEREFOR AND THE PROGRAM CONTAINING STORAGE MEDIUM
US13/610,948 US20130058584A1 (en) 2006-09-20 2012-09-12 Image encoding and decoding for multi-viewpoint images

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006-253845 2006-09-20
JP2006253845 2006-09-20

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US13/610,948 Division US20130058584A1 (en) 2006-09-20 2012-09-12 Image encoding and decoding for multi-viewpoint images

Publications (1)

Publication Number Publication Date
WO2008035665A1 true WO2008035665A1 (fr) 2008-03-27

Family

ID=39200491

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/068065 WO2008035665A1 (fr) 2006-09-20 2007-09-18 procédé DE CODAGE D'IMAGE, PROCÉDÉ DE DÉCODAGE, DISPOSITIF associÉ, DISPOSITIF DE DÉCODAGE D'IMAGE, programme associÉ, et support de stockage contenant le programme

Country Status (10)

Country Link
US (2) US8290289B2 (ja)
EP (1) EP2066133A4 (ja)
JP (1) JP4999854B2 (ja)
KR (1) KR101023262B1 (ja)
CN (1) CN101518090B (ja)
BR (1) BRPI0716810A2 (ja)
CA (1) CA2663672C (ja)
RU (1) RU2407220C2 (ja)
TW (1) TWI346509B (ja)
WO (1) WO2008035665A1 (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010021844A (ja) * 2008-07-11 2010-01-28 Nippon Telegr & Teleph Corp <Ntt> 多視点画像符号化方法,復号方法,符号化装置,復号装置,符号化プログラム,復号プログラムおよびコンピュータ読み取り可能な記録媒体
JP2010021843A (ja) * 2008-07-11 2010-01-28 Nippon Telegr & Teleph Corp <Ntt> 多視点距離情報符号化方法,復号方法,符号化装置,復号装置,符号化プログラム,復号プログラムおよびコンピュータ読み取り可能な記録媒体
JP2012500564A (ja) * 2008-08-20 2012-01-05 トムソン ライセンシング 洗練された奥行きマップ
JP2012213207A (ja) * 2012-06-18 2012-11-01 Nippon Telegr & Teleph Corp <Ntt> 多視点画像符号化方法,復号方法,符号化装置,復号装置,符号化プログラム,復号プログラムおよびコンピュータ読み取り可能な記録媒体
JP2013030898A (ja) * 2011-07-27 2013-02-07 Nippon Telegr & Teleph Corp <Ntt> 画像伝送方法、画像伝送装置、画像送信装置、画像受信装置、画像送信プログラム及び画像受信プログラム
WO2013077305A1 (ja) * 2011-11-22 2013-05-30 シャープ株式会社 画像復号装置、画像復号方法、画像符号化装置
RU2502217C2 (ru) * 2009-10-05 2013-12-20 Сони Корпорейшн Устройство обработки изображения, способ обработки изображения и программа
US8687705B2 (en) 2010-12-13 2014-04-01 Kabushiki Kaisha Toshiba Moving picture decoding device and moving picture decoding method
US8711942B2 (en) 2010-12-17 2014-04-29 Kabushiki Kaisha Toshiba Moving picture decoding device and moving picture decoding method
WO2014103967A1 (ja) * 2012-12-27 2014-07-03 日本電信電話株式会社 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、画像復号プログラム及び記録媒体
US8913105B2 (en) 2009-01-07 2014-12-16 Thomson Licensing Joint depth estimation
US9924197B2 (en) 2012-12-27 2018-03-20 Nippon Telegraph And Telephone Corporation Image encoding method, image decoding method, image encoding apparatus, image decoding apparatus, image encoding program, and image decoding program
WO2020105520A1 (ja) * 2018-11-21 2020-05-28 日本電信電話株式会社 評価装置、評価方法、及びプログラム。

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011021240A1 (ja) * 2009-08-20 2011-02-24 トムソン ライセンシング ステレオ画像符号化方法、ステレオ画像符号化装置及びステレオ画像符号化プログラム
JP2013509804A (ja) * 2009-10-30 2013-03-14 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. 立体表示システム
KR101594048B1 (ko) * 2009-11-09 2016-02-15 삼성전자주식회사 카메라들의 협력을 이용하여 3차원 이미지를 생성하는 방법 및 상기 방법을 위한 장치
US20120320153A1 (en) * 2010-02-25 2012-12-20 Jesus Barcons-Palau Disparity estimation for stereoscopic subtitling
KR101628383B1 (ko) * 2010-02-26 2016-06-21 연세대학교 산학협력단 영상 처리 장치 및 방법
JP5281623B2 (ja) * 2010-09-29 2013-09-04 日本電信電話株式会社 画像符号化方法,画像復号方法,画像符号化装置,画像復号装置およびそれらのプログラム
RU2480941C2 (ru) * 2011-01-20 2013-04-27 Корпорация "Самсунг Электроникс Ко., Лтд" Способ адаптивного предсказания кадра для кодирования многоракурсной видеопоследовательности
JP5357199B2 (ja) * 2011-03-14 2013-12-04 日本電信電話株式会社 画像符号化方法,画像復号方法,画像符号化装置,画像復号装置,画像符号化プログラムおよび画像復号プログラム
US9615079B2 (en) * 2011-03-18 2017-04-04 Sony Corporation Image processing apparatus and image processing method
US9648334B2 (en) * 2011-03-21 2017-05-09 Qualcomm Incorporated Bi-predictive merge mode based on uni-predictive neighbors in video coding
SG10201505802XA (en) * 2011-06-30 2015-09-29 Sony Corp Image processing device and image processing method
BR112014013969B1 (pt) * 2011-12-28 2022-05-10 JVC Kenwood Corporation Dispositivo de codificação de vídeo, método de codificação de vídeo, programa de codificação de vídeo, dispositivo de decodificação de vídeo, método de decodificação de vídeo, programa de decodificação de vídeo
JP2013258577A (ja) * 2012-06-13 2013-12-26 Canon Inc 撮像装置、撮像方法及びプログラム、画像符号化装置、画像符号化方法及びプログラム
US9667942B2 (en) * 2012-11-20 2017-05-30 Qualcomm Incorporated Adaptive luminance compensation in three dimensional video coding
US9544566B2 (en) 2012-12-14 2017-01-10 Qualcomm Incorporated Disparity vector derivation
CN103118256B (zh) * 2013-01-29 2017-02-15 北京大学深圳研究生院 基于方向和距离判别的运动矢量预测方法
US10027947B2 (en) * 2013-06-05 2018-07-17 Sony Corporation Image processing apparatus and image processing method
EP3142366A1 (en) 2015-09-14 2017-03-15 Thomson Licensing Method and apparatus for encoding and decoding a light field based image, and corresponding computer program product
US9716875B2 (en) * 2015-09-18 2017-07-25 Intel Corporation Facilitating quantization and compression of three-dimensional graphics data using screen space metrics at computing devices
EP3171598A1 (en) * 2015-11-19 2017-05-24 Thomson Licensing Methods and devices for encoding and decoding a matrix of views obtained from light-field data, corresponding computer program and non-transitory program storage device
EP3383035A1 (en) * 2017-03-29 2018-10-03 Koninklijke Philips N.V. Image generation from video
US10638130B1 (en) * 2019-04-09 2020-04-28 Google Llc Entropy-inspired directional filtering for image coding

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09261653A (ja) * 1996-03-18 1997-10-03 Sharp Corp 多視点画像符号化装置
JPH09275578A (ja) * 1996-04-04 1997-10-21 Sharp Corp 多視点画像符号化装置および復号装置
JPH10271511A (ja) * 1997-01-22 1998-10-09 Matsushita Electric Ind Co Ltd 画像符号化装置と画像復号化装置
WO2005018217A2 (en) * 2003-08-07 2005-02-24 Sony Electronics, Inc. Semantics-based motion estimation for multi-view video coding
WO2006073116A1 (ja) * 2005-01-07 2006-07-13 Nippon Telegraph And Telephone Corporation 映像符号化方法及び装置、映像復号方法及び装置、それらのプログラムおよびそれらプログラムを記録した記録媒体
JP2006253845A (ja) 2005-03-08 2006-09-21 Ricoh Co Ltd 画像処理システム、画像処理装置、設定変更方法、設定変更プログラム、および該プログラムを記録した記録媒体
WO2007077942A1 (ja) * 2006-01-05 2007-07-12 Nippon Telegraph And Telephone Corporation 映像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体
WO2007077989A1 (ja) * 2006-01-05 2007-07-12 Nippon Telegraph And Telephone Corporation 映像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2030119C1 (ru) 1991-04-19 1995-02-27 Смирнов Александр Иванович Устройство формирования стереотелевизионного изображения подвижного объекта
US5790086A (en) 1995-01-04 1998-08-04 Visualabs Inc. 3-D imaging system
US6055012A (en) * 1995-12-29 2000-04-25 Lucent Technologies Inc. Digital multi-view video compression with complexity and compatibility constraints
FR2756399B1 (fr) 1996-11-28 1999-06-25 Thomson Multimedia Sa Procede et dispositif de compression video pour images de synthese
JP3519594B2 (ja) * 1998-03-03 2004-04-19 Kddi株式会社 ステレオ動画像用符号化装置
WO1999058927A1 (en) * 1998-05-08 1999-11-18 Sony Corporation Image generating device and method
JP4608136B2 (ja) 2001-06-22 2011-01-05 オリンパス株式会社 動きベクトル及び視差ベクトル検出装置
KR100481732B1 (ko) * 2002-04-20 2005-04-11 전자부품연구원 다 시점 동영상 부호화 장치
CN1204757C (zh) * 2003-04-22 2005-06-01 上海大学 一种立体视频流编码/解码器及其立体视频编解码系统
KR101276720B1 (ko) * 2005-09-29 2013-06-19 삼성전자주식회사 카메라 파라미터를 이용하여 시차 벡터를 예측하는 방법,그 방법을 이용하여 다시점 영상을 부호화 및 복호화하는장치 및 이를 수행하기 위한 프로그램이 기록된 기록 매체
CN100463527C (zh) * 2005-10-18 2009-02-18 宁波大学 一种多视点视频图像视差估计的方法
US7903737B2 (en) * 2005-11-30 2011-03-08 Mitsubishi Electric Research Laboratories, Inc. Method and system for randomly accessing multiview videos with known prediction dependency
EP2041981B1 (en) * 2006-07-18 2013-09-04 Thomson Licensing Methods and apparatus for adaptive reference filtering

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09261653A (ja) * 1996-03-18 1997-10-03 Sharp Corp 多視点画像符号化装置
JPH09275578A (ja) * 1996-04-04 1997-10-21 Sharp Corp 多視点画像符号化装置および復号装置
JPH10271511A (ja) * 1997-01-22 1998-10-09 Matsushita Electric Ind Co Ltd 画像符号化装置と画像復号化装置
WO2005018217A2 (en) * 2003-08-07 2005-02-24 Sony Electronics, Inc. Semantics-based motion estimation for multi-view video coding
WO2006073116A1 (ja) * 2005-01-07 2006-07-13 Nippon Telegraph And Telephone Corporation 映像符号化方法及び装置、映像復号方法及び装置、それらのプログラムおよびそれらプログラムを記録した記録媒体
JP2006253845A (ja) 2005-03-08 2006-09-21 Ricoh Co Ltd 画像処理システム、画像処理装置、設定変更方法、設定変更プログラム、および該プログラムを記録した記録媒体
WO2007077942A1 (ja) * 2006-01-05 2007-07-12 Nippon Telegraph And Telephone Corporation 映像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体
WO2007077989A1 (ja) * 2006-01-05 2007-07-12 Nippon Telegraph And Telephone Corporation 映像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Editor's Proposed Draft Text Modifications for Joint Video Specification (ITU-T Rec. H.264 / ISO/IEC 14496-10 AVC), Draft 7", FINAL COMMITTEE DRAFT, September 2002 (2002-09-01), pages 10 - 13
OLIVER FAUGERAS: "Three-Dimension Computer Vision-MIT Press", BCTC/UFF-006.37 F259, 1993, pages 33 - 68
See also references of EP2066133A4 *
SHINYA SHIMIZU ET AL.: "Multi-view Video Coding based on 3-D Warping with Depth Map", IN PROCEEDINGS OF PICTURE CODING SYMPOSIUM, April 2006 (2006-04-01), pages 3 - 6

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010021843A (ja) * 2008-07-11 2010-01-28 Nippon Telegr & Teleph Corp <Ntt> 多視点距離情報符号化方法,復号方法,符号化装置,復号装置,符号化プログラム,復号プログラムおよびコンピュータ読み取り可能な記録媒体
JP2010021844A (ja) * 2008-07-11 2010-01-28 Nippon Telegr & Teleph Corp <Ntt> 多視点画像符号化方法,復号方法,符号化装置,復号装置,符号化プログラム,復号プログラムおよびコンピュータ読み取り可能な記録媒体
JP2012500564A (ja) * 2008-08-20 2012-01-05 トムソン ライセンシング 洗練された奥行きマップ
US9179153B2 (en) 2008-08-20 2015-11-03 Thomson Licensing Refined depth map
US8913105B2 (en) 2009-01-07 2014-12-16 Thomson Licensing Joint depth estimation
RU2502217C2 (ru) * 2009-10-05 2013-12-20 Сони Корпорейшн Устройство обработки изображения, способ обработки изображения и программа
US8687705B2 (en) 2010-12-13 2014-04-01 Kabushiki Kaisha Toshiba Moving picture decoding device and moving picture decoding method
US8711942B2 (en) 2010-12-17 2014-04-29 Kabushiki Kaisha Toshiba Moving picture decoding device and moving picture decoding method
JP2013030898A (ja) * 2011-07-27 2013-02-07 Nippon Telegr & Teleph Corp <Ntt> 画像伝送方法、画像伝送装置、画像送信装置、画像受信装置、画像送信プログラム及び画像受信プログラム
WO2013077305A1 (ja) * 2011-11-22 2013-05-30 シャープ株式会社 画像復号装置、画像復号方法、画像符号化装置
JP2012213207A (ja) * 2012-06-18 2012-11-01 Nippon Telegr & Teleph Corp <Ntt> 多視点画像符号化方法,復号方法,符号化装置,復号装置,符号化プログラム,復号プログラムおよびコンピュータ読み取り可能な記録媒体
WO2014103967A1 (ja) * 2012-12-27 2014-07-03 日本電信電話株式会社 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、画像復号プログラム及び記録媒体
JPWO2014103967A1 (ja) * 2012-12-27 2017-01-12 日本電信電話株式会社 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム及び画像復号プログラム
US9924197B2 (en) 2012-12-27 2018-03-20 Nippon Telegraph And Telephone Corporation Image encoding method, image decoding method, image encoding apparatus, image decoding apparatus, image encoding program, and image decoding program
WO2020105520A1 (ja) * 2018-11-21 2020-05-28 日本電信電話株式会社 評価装置、評価方法、及びプログラム。

Also Published As

Publication number Publication date
RU2407220C2 (ru) 2010-12-20
KR20090053820A (ko) 2009-05-27
US20130058584A1 (en) 2013-03-07
RU2009109204A (ru) 2010-09-20
TWI346509B (en) 2011-08-01
BRPI0716810A2 (pt) 2013-11-05
US8290289B2 (en) 2012-10-16
KR101023262B1 (ko) 2011-03-21
TW200822762A (en) 2008-05-16
CA2663672C (en) 2014-08-12
EP2066133A4 (en) 2015-11-18
CA2663672A1 (en) 2008-03-27
JP4999854B2 (ja) 2012-08-15
CN101518090A (zh) 2009-08-26
JPWO2008035665A1 (ja) 2010-01-28
US20100021072A1 (en) 2010-01-28
EP2066133A1 (en) 2009-06-03
CN101518090B (zh) 2011-11-16

Similar Documents

Publication Publication Date Title
WO2008035665A1 (fr) procédé DE CODAGE D&#39;IMAGE, PROCÉDÉ DE DÉCODAGE, DISPOSITIF associÉ, DISPOSITIF DE DÉCODAGE D&#39;IMAGE, programme associÉ, et support de stockage contenant le programme
US10200715B2 (en) Methods and devices for encoding and decoding video pictures
US8385628B2 (en) Image encoding and decoding method, apparatuses therefor, programs therefor, and storage media for storing the programs
JP4414379B2 (ja) 映像符号化方法、映像復号方法、映像符号化プログラム、映像復号プログラム及びそれらのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP6027143B2 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、および画像復号プログラム
JP6307152B2 (ja) 画像符号化装置及び方法、画像復号装置及び方法、及び、それらのプログラム
WO2014010584A1 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、画像復号プログラム及び記録媒体
JPWO2014103967A1 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム及び画像復号プログラム
JP6232075B2 (ja) 映像符号化装置及び方法、映像復号装置及び方法、及び、それらのプログラム
JP5926451B2 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、および画像復号プログラム
KR101750421B1 (ko) 동화상 부호화 방법, 동화상 복호 방법, 동화상 부호화 장치, 동화상 복호 장치, 동화상 부호화 프로그램, 및 동화상 복호 프로그램
JP4944046B2 (ja) 映像符号化方法,復号方法,符号化装置,復号装置,それらのプログラムおよびコンピュータ読み取り可能な記録媒体
JP4851564B2 (ja) 映像符号化方法、映像復号方法、映像符号化プログラム、映像復号プログラム及びそれらのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4851563B2 (ja) 映像符号化方法、映像復号方法、映像符号化プログラム、映像復号プログラム及びそれらのプログラムを記録したコンピュータ読み取り可能な記録媒体
US20230050102A1 (en) Triangulation-Based Adaptive Subsampling of Dense Motion Vector Fields
US20170019683A1 (en) Video encoding apparatus and method and video decoding apparatus and method
Oh et al. Rate-distortion optimal motion estimation for depth map coding

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200780034267.0

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07807466

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2008535351

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 12441076

Country of ref document: US

Ref document number: 1407/CHENP/2009

Country of ref document: IN

ENP Entry into the national phase

Ref document number: 2663672

Country of ref document: CA

Ref document number: 2009109204

Country of ref document: RU

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 1020097005343

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 2007807466

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: PI0716810

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20090316