WO2007077942A1 - 映像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体 - Google Patents

映像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体 Download PDF

Info

Publication number
WO2007077942A1
WO2007077942A1 PCT/JP2006/326297 JP2006326297W WO2007077942A1 WO 2007077942 A1 WO2007077942 A1 WO 2007077942A1 JP 2006326297 W JP2006326297 W JP 2006326297W WO 2007077942 A1 WO2007077942 A1 WO 2007077942A1
Authority
WO
WIPO (PCT)
Prior art keywords
parallax
reference image
information
decoding
encoding
Prior art date
Application number
PCT/JP2006/326297
Other languages
English (en)
French (fr)
Inventor
Masaki Kitahara
Hideaki Kimata
Shinya Shimizu
Kazuto Kamikura
Yoshiyuki Yashima
Masayuki Tanimoto
Toshiaki Fujii
Kenji Yamamoto
Original Assignee
Nippon Telegraph And Telephone Corporation
National University Corporation Nagoya University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=38228291&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=WO2007077942(A1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Nippon Telegraph And Telephone Corporation, National University Corporation Nagoya University filed Critical Nippon Telegraph And Telephone Corporation
Priority to BRPI0620645A priority Critical patent/BRPI0620645B8/pt
Priority to CN2006800491986A priority patent/CN101346998B/zh
Priority to US12/087,040 priority patent/US8548064B2/en
Priority to JP2007552992A priority patent/JP5234586B2/ja
Priority to CA 2633637 priority patent/CA2633637C/en
Priority to EP06843675A priority patent/EP1971154A4/en
Publication of WO2007077942A1 publication Critical patent/WO2007077942A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/122Improving the 3D impression of stereoscopic images by modifying image signal contents, e.g. by filtering or adding monoscopic depth cues
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/19Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding using optimisation based on Lagrange multipliers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Definitions

  • the present invention is a technique related to encoding and decoding of a multi-view video.
  • Multi-viewpoint moving images are a plurality of moving images obtained by photographing the same subject and background with cameras at various positions.
  • a moving image taken with one camera is called a “two-dimensional moving image”
  • a set of two-dimensional moving images taken with the same subject and background is called a multi-view moving image.
  • the two-dimensional video images of each camera included in the multi-view video are strongly correlated in the time direction.
  • each camera is synchronized, there is a strong correlation between the cameras because the frames of each camera corresponding to the same time capture the subject and the background in exactly the same state.
  • the frame is divided into blocks (this block is called a macro block and the block size is 16 ⁇ 16 (pixel)), and intra prediction is performed in each macro block.
  • each macroblock can be divided into smaller blocks (hereinafter referred to as sub-blocks), and different intra-prediction methods can be used for each sub-block.
  • intra prediction or inter prediction can be performed in each macroblock.
  • Intra prediction for P frames is the same as for I frames.
  • motion compensation is performed during inter prediction.
  • a macroblock can be divided into smaller blocks, and each subblock can have a different motion vector and reference image.
  • the ability to perform intra prediction and inter prediction also in the B frame can be used as a reference image for motion compensation in addition to the past frame.
  • inter prediction in the B frame the future frame can be used as a reference image for motion compensation in addition to the past frame.
  • encoding can be performed in the order of I ⁇ P ⁇ B ⁇ B.
  • motion compensation can be performed with reference to the I and P frames.
  • each sub-block obtained by dividing a macro block can have a different motion vector.
  • each macroblock is subjected to quantization by performing DCT (discrete cosine transform) on the prediction residual block. Then, variable length codes are performed on the quantized values of the DCT coefficients obtained in this way.
  • DCT discrete cosine transform
  • the reference image that can select the reference image for each sub-block is represented by a numerical value called a reference image index and is variable-length encoded.
  • the multi-view video encoding method there has conventionally been a method for encoding multi-view video with high efficiency by "parallax compensation" in which motion compensation is applied to images of different cameras at the same time.
  • the parallax is a difference between positions at which the same position on the subject is projected on the image planes of cameras arranged at different positions.
  • FIG. 13 shows a conceptual diagram of parallax generated between the cameras.
  • the image plane of a camera with parallel optical axes is viewed vertically.
  • the position where the same position on the subject is projected on the image plane of different cameras is generally called a corresponding point.
  • the In parallax compensation the corresponding point on the reference camera image corresponding to a certain target pixel on the image of the encoding target camera is estimated from the reference image, and the pixel value of the target pixel is determined by the pixel value corresponding to the corresponding point. Predict.
  • the above-described “estimated parallax” is also referred to as “parallax”.
  • the disparity information and the prediction residual are encoded.
  • parallax is expressed as a vector (parallax vector) on an image plane.
  • the parallax in units of force blocks that includes a mechanism for performing parallax compensation in units of blocks is represented by a two-dimensional vector, that is, two parameters (X component and y component).
  • a conceptual diagram of this disparity vector is shown in FIG. That is, in this method, disparity information composed of two parameters and a prediction residual are encoded. This method is effective when the camera parameters are unknown because the camera parameters are not used for encoding.
  • Non-Patent Document 3 describes a method for encoding a multi-viewpoint image (still image).
  • This method efficiently encodes multi-viewpoint images by using camera parameters for encoding and expressing disparity vectors as one-dimensional information based on epipolar geometric constraints.
  • FIG. 15 shows a conceptual diagram of the epipolar geometric constraint.
  • the epipolar geometric constraint in two images from two cameras (Camera 1 and Camera 2), the point m ′ on the other image corresponding to the point m on one image with respect to the position M on the subject Is constrained on a straight line called the epipolar line.
  • the parallax with respect to the reference image is expressed by one parameter, that is, the position on the one-dimensional epipolar line. That is, in this method, the disparity information expressed by one parameter and the prediction residual are encoded.
  • the parallax to each reference image can be expressed with one parameter using epipolar geometric constraints. For example, if the parallax on the epipolar line for one reference image is known, the parallax for the reference image for another camera can also be restored.
  • Non-Patent Document 4 an arbitrary viewpoint image Disparity compensation is performed using image generation technology. Specifically, the pixel value of the image of the encoding target camera is predicted by interpolating with the pixel value of the corresponding point of the different camera corresponding to the pixel.
  • Figure 16 shows a conceptual diagram of this interpolation. In this interpolation, the value of the pixel m of the encoding target image is predicted by interpolating the values of the pixels m and m of the reference images 1 and 2 corresponding to the pixel m.
  • Non-Patent Document 1 ITU-T Rec.H.264 / ISO / IEC 11496-10, "Advanced Video Coding", Final Committee Draft, Document JVT-E022, September 2002
  • Non-patent document 2 Hideaki Kimata and Masaki Kitahara, "Preliminary results on multiple view video coding (3DAV)", document M10976 MPEG Redmond Meeting, July, 2004 High-efficiency coding, IEICE Transactions, Vol.J82-D-II, No.ll, pp.1921-1929 (1999)
  • Non-Special Reference 4 Masayuki Tanimoto, Toshiaki Fujn, Response to Call for Evidence on Multi-View Video Coding ", document Mxxxxx MPEG Hong Kong Meeting, solo y, 2005
  • the epipolar geometric constraint is used to set the disparity information for each reference image regardless of the number of reference images. Since it can be expressed by one parameter, it is possible to efficiently encode disparity information.
  • the present invention solves the above problems, and controls the degree of freedom of parallax compensation in accordance with the nature of the reference image in the multi-view video encoding code so that the encoding distortion of the reference image and the camera parameters are controlled.
  • One The purpose is to improve the accuracy of parallax compensation and achieve higher coding efficiency than in the past even in the presence of measurement errors.
  • the most different point of the present invention from the prior art is that the number of parameters of parallax information is made variable in order to make it possible to control the degree of freedom of parallax compensation according to the nature of the reference image, and the parallax parameter indicating the number of parameters.
  • the number information or index information is encoded and included in the code information.
  • index information in addition to the number of parameters of parallax information, information indicating a reference image used for parallax compensation can be included, and further other information can be included.
  • the number of parallax parameters that specifies the number of parallax information parameters used for parallax compensation according to the nature of the video information. The process which encodes and decodes is performed.
  • the parallax parameter number information specifies, for example, the dimension of the parallax vector for each reference image. For example, when the number of reference images is two (reference images A and B), the following configuration is conceivable.
  • the reference image A, B !, and the disparity vector for the displacement are two-dimensional.
  • the index information pNum can be defined as the disparity parameter number information.
  • the number of parameters for expressing disparity information is set in the disparity parameter number setting step on the video code side.
  • parallax parameter number information which is information regarding the number of parameters set in the parallax parameter number setting step, is encoded in the parallax parameter number information encoding step.
  • the disparity information expressed by the number of parameters set in the disparity parameter number setting step is encoded in the disparity information encoding step.
  • the parallax parameter number information is first decoded in the parallax parameter number information decoding step. Then, the parallax information of the number of parameters specified by the decoded parallax parameter number information is decoded in the parallax information decoding step.
  • a reference image that can be used for parallax compensation is assigned to the reference image index.
  • two reference images are used, and there are three reference images (A, B, C) that can be used in the reference image memory. Can be considered.
  • refldx 2: Reference images A and C where refldx is the reference image index.
  • a reference image index associated with the decoded image of the encoding target camera may be set.
  • the decoding side includes a step of decoding the reference image index.
  • the reference image index When combined with the H.264 reference image index reordering mechanism described above, the reference image index has a small value for a reference image that can generate a high-quality predicted image, depending on the nature of the moving image. Thus, the code efficiency can be improved.
  • the available parallax parameter number information is associated with the reference image index.
  • the video encoding side executes the reference image index encoding step for encoding the reference image index, but the disparity parameter number information is encoded in this step. Will be converted.
  • the power parallax parameter number information for executing the reference image index decoding step for decoding the reference image index is decoded in this step.
  • the code length of the variable length code assigned to the disparity parameter number information can be changed according to the nature of the moving image, and the disparity parameter number information Can be efficiently encoded.
  • the prediction of the parallax information is not effective in the prediction according to the epipolar geometric constraint due to the measurement error of the camera parameter and the code distortion of the reference image.
  • prediction is highly flexible by increasing the number of meters, and prediction efficiency is good even when epipolar geometric constraints are used, prediction expressing disparity with one parameter is applied according to the characteristics of the decoded image in units of frames or blocks Therefore, it is possible to control the coding efficiency and realize higher coding efficiency than the conventional one.
  • FIG. 1 is a diagram showing a video encoding device according to a first embodiment of the present invention.
  • FIG. 2 is a diagram illustrating a camera reference relationship in the first embodiment.
  • FIG. 3 is a diagram showing a camera arrangement in Example 1.
  • FIG. 4 is a flowchart illustrating a sign in the first embodiment.
  • FIG. 5 is a diagram illustrating a video decoding apparatus according to Embodiment 1.
  • FIG. 6 is a decoding flowchart in the first embodiment.
  • FIG. 7 is a diagram showing a reference relationship of cameras in Embodiment 2 of the present invention.
  • FIG. 8 is a diagram showing a video encoding device according to the second embodiment.
  • FIG. 9 is a flowchart illustrating a sign in the second embodiment.
  • FIG. 10 Detailed flowchart for the process of step S304 in FIG.
  • FIG. 11 is a diagram showing a video decoding apparatus according to Embodiment 2.
  • FIG. 12 is a video decoding flowchart in the second embodiment. [13] It is a conceptual diagram of parallax generated between cameras.
  • FIG. 14 is a conceptual diagram of a disparity vector.
  • FIG. 16 is a conceptual diagram of pixel value interpolation.
  • FIG. 1 shows a block diagram of a video encoding apparatus according to Embodiment 1 of the present invention.
  • the video encoding apparatus 100 includes an image input unit 101 that inputs an original image of a camera C that is an encoding target image, a reference image input unit 102 that inputs a decoded image of cameras A and B that are reference images, and a reference image.
  • Reference image memory 103 to be stored parallax parameter number setting unit 104 for setting the number of parameters expressing disparity information used for disparity compensation, disparity parameter number information encoding unit 105 for encoding disparity parameter number information, and disparity information
  • a parallax information code unit 106 for encoding and a prediction residual code unit 107 for encoding a residual signal generated by the parallax compensation are provided.
  • FIG. 2 is a diagram illustrating a camera reference relationship according to the first embodiment.
  • the moving image of camera C is encoded using the decoded images of cameras A and B as reference images. Show.
  • the arrows in the figure indicate the reference relationship during parallax compensation, and when the image of camera C is encoded, the decoded images of cameras A and B that are the same time at the display time are encoded as reference images. Turn into. In that case, the predicted image is created with the average value of the pixel values for the corresponding points of cameras A and B.
  • FIG. 3 is a diagram illustrating a camera arrangement in the first embodiment.
  • the viewpoint positions of the three cameras are arranged at equal intervals on a straight line, and the optical axis is perpendicular to the straight line on which the cameras are arranged.
  • the optical axes of the three cameras are assumed to be parallel.
  • the xy coordinate system of the image plane is obtained by translation (no rotation, etc.) with respect to the straight line on which the cameras are arranged, and the pixels are constructed by dividing the X and y axes of the image plane at equal intervals by each camera.
  • the resolution is the same for each camera, and the parallax for P pixels of camera C and camera A is the parallax of P pixels for camera C and camera B.
  • FIG. 4 shows a flow of the sign ⁇ in the first embodiment.
  • This flowchart shows processing performed when one image of the camera C is encoded, and it is assumed that moving image encoding is performed by repeating this processing for each image.
  • a method of expressing the parallax information when the parallax for each reference image of the cameras A and B is represented by the parallax information representing the position on the epipolar line with respect to the camera A by one parameter (index) pNum value is 0) and parallax for each reference image of camera A and B is expressed as a two-dimensional vector, and parallax information is expressed with a total of four parameters (index pNum value is 1).
  • the parallax compensation is performed by adaptively switching between the two.
  • pNum is an index representing the parallax parameter number information.
  • the number of parallax parameters is switched by N pixels in each of vertical and horizontal directions obtained by dividing an image.
  • the image of the camera C is input by the image input unit 101 (step S101).
  • the reference image input unit 102 inputs the decoded image power of the cameras A and B, which have the same display time as the image of the camera C input here, to the reference image memory 103.
  • an index indicating individual N X N blocks obtained by dividing an image is represented as blk, and the total number of blocks for one image is represented as maxBlk.
  • the search for disparity is the rate obtained based on the sum SAD of absolute values related to the NXN block of the prediction residual by disparity compensation and R, which is the estimated value of the code amount of disparity information. Distortion cost is done to minimize cost.
  • cost is calculated by the following equation.
  • is Lagrange's undetermined multiplier, and a preset value is used.
  • R the amount of code is obtained by performing variable length coding on the disparity information.
  • MinPCost in the flow of Fig. 4 is a variable for storing the minimum value of pCost, and is set to an arbitrary value (maxPCost) larger than the maximum value that can be taken by pCost when processing block blk and initialized. Is done.
  • the parallax is searched in a preset range.
  • the parallax of camera C with respect to pixel (x, y) is (x + d, y) for camera A, where d ⁇ 0.
  • SAD [d] ⁇ ⁇ ABS (DEC [x + i + d y + j] / 2 + DEC [x + i + d y + j] / 2-IMG [xij A x, B x, c x + i, y + j]) (2) where ⁇ . is the sum of i from 0 to N—1, and ⁇ j is the sum of j from 0 to N—1. ABS () takes the absolute value in parentheses, and DEC [x, y] and DEC [x, y]
  • the rate distortion cost cost “d” for the parallax d is obtained from 1.
  • the parallax search is performed in two dimensions without considering the epipolar geometric constraint. Specifically, the search range on the X-axis for each of camera A and camera B is d, d
  • pCost is minPCost (S107)
  • the value is set to minPCost pCost, and 1 is substituted into the best VEN for storing the optimum pNum (S108).
  • parallax parameter number information encoding unit 105 performs best-length variable-length encoding (Sl l l).
  • the disparity information encoding unit 106 encodes disparity information.
  • the variable d is encoded, and in the case that the best is 1, (d d d d) is variable encoded.
  • a prediction residual is signed in the prediction residual sign key unit 107 (S112 to S114).
  • FIG. 5 shows a video decoding apparatus according to the first embodiment.
  • the video decoding apparatus 200 includes a disparity parameter number information decoding unit 201 that decodes disparity parameter number information, a disparity information decoding unit 202 that decodes disparity information according to the disparity parameter number information, and a prediction that decodes a prediction residual
  • a residual decoding unit 203, a parallax compensation unit 204, and a reference image memory 205 are provided.
  • FIG. 6 shows a decoding flow of the present embodiment. This is the same as the frame for decoding one frame of camera C. Show low. Please explain the flow in detail below! /
  • the parallax parameter number information decoding unit 201 decodes the parallax parameter number information bestVER (S202). The following processing is performed in accordance with the value of bestVER (S203).
  • the disparity information decoding unit 202 decodes the disparity information d.
  • the disparity compensation unit 204 receives the parallax parameter number information best VEN and the disparity information d, and the reference image memory 205 receives the N ⁇ N blocks of the cameras A and B corresponding to the disparity information d. Then, if the pixel position of the N ⁇ N block to be encoded is expressed as (x, y), a predicted image PRED [x + i, y + j] is generated by the following equation (S204).
  • the disparity information decoding unit 202 decodes the disparity information (d d d d) x, A, x, B, y, A, y, B.
  • the parallax compensation unit 204 receives the parallax parameter number information best VER and parallax information (d d d
  • N X N blocks are input.
  • a predicted image PRED [x + i, y + j] is generated by the following equation (S205).
  • the prediction residual decoding unit 203 to which the encoded prediction residual is input decodes the NXN prediction residual block RES [x + i, y + j].
  • the prediction residual block is input to the disparity compensation unit 204, and the sum of the prediction residual block and the prediction image is calculated as in the following equation, and the decoded image DEC [x + i, y + j] is obtained (S206).
  • DEC [x + i, y + j] RES [x + i, y + j] + PRED [x + i, y + j] (6) While adding 1 to index blk (S207) blk force Iteratively performing until the number of blocks of Si frame reaches maxBlk, a decoded image related to camera C can be obtained.
  • Example 2 a second example (hereinafter referred to as Example 2) will be described.
  • the decoded images of cameras A, B, D, and E are used as reference images, and the moving image of camera C is used.
  • the case where is encoded is shown.
  • the image of the camera C is encoded by using only parallax compensation.
  • encoding is performed by switching between motion compensation and parallax compensation in units of blocks. Do.
  • the arrows in the figure indicate the reference relationship for parallax Z motion compensation.
  • a predicted image is obtained by a plurality of pairs of two cameras (three types of A and B, A and D, and B and E) set in cameras A, B, D, and E. Is generated.
  • the predicted image generation method is the same as that of the first embodiment, and the predicted image is created with the average value of the pixel values regarding the corresponding points of the two cameras.
  • the viewpoint positions of the five cameras are arranged on the straight line at equal intervals, and the optical axis is perpendicular to the straight line on which the cameras are arranged.
  • the relationship shown in Fig. 3 applies to five cameras, and the optical axes of the cameras are parallel.
  • FIG. 8 shows a configuration diagram of the video encoding device in the second embodiment.
  • the video encoding apparatus 300 includes an image input unit 301 that inputs an original image of the camera C, a reference image input unit 302 that inputs decoded images of the cameras A, B, D, and E, and a reference image memory 303 that stores a reference image. , A disparity compensation unit 304 that performs disparity compensation, a motion compensation unit 305 that performs motion compensation, a reference image setting unit 306, a reference image index encoding unit 307, a motion information encoding unit 308, a disparity information encoding unit 309, and a prediction residual An encoding unit 310 and a local decoding unit 311 are provided.
  • FIG. 9 shows a flow of the sign ⁇ in the present embodiment. Also, step S3 in the flow Figure 10 shows the detailed flow for 04.
  • This flowchart shows processing performed when one image of the camera C is encoded, and it is assumed that moving image encoding is performed by repeating this processing for each image.
  • encoding is performed by adaptively switching the following processing in units of N ⁇ N blocks.
  • refldx 2' Parallax compensation using camera A and B reference images
  • refldx 3 'Cameras A and D Disparity compensation using reference images
  • refldx 4 'Parallax compensation using reference images from cameras A and D
  • refldx 5' Disparity using reference images from cameras B and E Compensation
  • refldx 0 and 1
  • the encoding side encodes the method used in each block and the reference image index corresponding to the reference image, and the decoding side decodes the pixel value of each block using the reference image index.
  • the sign key process will be described along the flow of FIG. However, this processing is assumed to be the sign key processing for the third frame and thereafter of camera C.
  • the image of the camera C is input by the image input unit 301 (S301). It should be noted that decoded images of cameras A, B, D, and E whose display times are the same as the images of camera C input here are input to reference image memory 303 by reference image input unit 302. In addition, it is assumed that the decoded image one frame before and two frames before the camera C is decoded by the local decoding unit 311 and input to the reference image memory 303.
  • the index of each N X N block obtained by dividing an image is represented by blk, and the total number of blocks for one image is represented by maxBlk.
  • the index blk of the NXN block is initialized to 0 (S302)
  • the following processing is performed while adding 1 to the index blk (S311) until the index blk reaches the total number of blocks maxBlk (S312). ), Repeatedly for each NXN block.
  • the reference image index refldx is initialized to 0, and the minRefCost variable that stores the minimum value of the cost value re! Cost is larger than the maximum value that re! Cost can take when processing the block blk.
  • the value is initialized to maxRefCost (S303).
  • Predictive processing corresponding to each reference image index refldx is performed on each N X N block indicated by the index blk (S304). In that case, the cost value re! Cost corresponding to each reference image index refldx is calculated, and the reference image index bestRefl dx that minimizes re! Cost is calculated as N X N
  • step S304 the processing corresponding to each reference image index refldx in step S304 will be described according to the flow in FIG.
  • motion compensation or parallax compensation is performed, but in either case, motion Z parallax information can be obtained by minimizing the cost given by the following equation.
  • R is the estimated code amount of motion or disparity information
  • SAD is the prediction residual vec
  • refldx When refldx is 2 or more, it is refldx corresponding to parallax compensation (S3041), and the parallax compensation unit 304 reads the decoded images of the two cameras corresponding to the refldx as reference images. Parallax compensation is performed.
  • the parallax on the epipolar line is minimized by the two reference images corresponding to the reference image index re fldx, and the rate distortion cost is minimized.
  • the minimum cost value is set as re! Cost (S3043).
  • the parallax on the image plane is searched for the two reference images corresponding to the reference image index refldx so as to minimize the rate distortion cost, and the minimum cost The value is set as re! Cost (S3044).
  • the value power f Cost is obtained by adding the estimated code amount when the reference image index refldx is encoded to the calculated minimum cost value (refCost).
  • refldx is 0 or 1
  • it is refldx corresponding to motion compensation, and the process proceeds to step S3045.
  • the motion compensation unit 305 reads the decoded image of the camera C corresponding to the value of refldx as a reference image, and performs motion compensation.
  • the motion information at that time is performed by minimizing the cost calculated by Equation 7.
  • a value obtained by adding the estimated code amount when the reference image index refl dx is encoded to the minimum cost value is set as refCost (S3045).
  • the reference image setting unit 306 obtains the reference image index bestRefldx with the minimum refC ost and uses it for encoding. A reference image index is determined.
  • bestRefldx is encoded by the reference image index encoding unit 307 (S309), and the motion information or disparity information is encoded by the motion information code unit 308 or the disparity information code unit 309,
  • the prediction residual is encoded by the prediction residual encoding unit 310 (S310). 1 is added to the index blk (S311), and this is repeated until the total number of blocks maxBlk is reached (S312), whereby the image for one frame of camera C is encoded.
  • FIG. 11 shows a video decoding apparatus according to the second embodiment.
  • the video decoding device 400 includes a reference image index decoding unit 401 that decodes a reference image index, a disparity information decoding unit 402 that decodes disparity information, a motion information decoding unit 403 that decodes motion information, and a prediction residual that decodes a prediction residual.
  • a difference decoding unit 404, a reference image memory 405 for storing a reference image, a parallax compensation unit 406 for performing parallax compensation, and a motion compensation unit 407 for performing motion compensation are provided.
  • FIG. 12 shows a decoding flow of the present embodiment. This shows the flow for decoding one frame of camera C. The flow is described in detail below.
  • the reference image index bestRefldx is decoded by the reference image index decoding unit 401 (S402).
  • the following processing is performed according to the value of the reference image index bestRefldx (S403, S404).
  • bestRefldx 0 or 1
  • the prediction residual decoding unit 404 then decodes the prediction residual, and the motion compensation unit 407 V, the prediction image is added to the prediction residual (S408), and a decoded image of the NXN block is generated.
  • bestRefldx is 2 or more, it is a reference image index corresponding to parallax compensation, and reference images regarding two cameras corresponding to the reference image index bestRefldx are read, and decoding by parallax compensation is performed.
  • this reference image index bestRefldx is also associated with the value of the parallax parameter number information pNum, processing according to pNum is performed.
  • the parallax compensation process is the same as that in the first embodiment (S404 to S406). Then, the prediction residual decoding unit 404 decodes the prediction residual, and the parallax compensation unit 406 adds the prediction image to the prediction residual (S408), thereby generating a decoded image of N ⁇ N blocks.
  • the above video encoding process and video decoding process can be realized by a computer and a software program, and the program can be provided by being recorded on a computer-readable storage medium. It is also possible.
  • the prediction of the parallax information is not effective when the prediction according to the epipolar geometric constraint is poor due to the measurement error of the camera parameter or the code distortion of the reference image.
  • prediction is highly flexible by increasing the number of meters, and prediction efficiency is good even when epipolar geometric constraints are used, prediction expressing disparity with one parameter is applied according to the characteristics of the decoded image in units of frames or blocks Therefore, it is possible to control the coding efficiency and realize higher coding efficiency than the conventional one.

Abstract

 複数の映像を一つの映像として符号化するにあたり、複数の映像間の視差を用いて予測する視差補償により符号化する映像符号化及び復号方法。前記視差補償に利用する、各参照画像に対する視差情報のパラメータ数を選択し設定し、前記設定されたパラメータ数の情報を符号化し、前記パラメータ数に応じた視差情報を符号化する。復号時には、符号化情報に含まれる、各参照画像に対する視差情報のパラメータ数を指定する視差パラメータ数情報を復号し、符号化情報に含まれる前記パラメータ数に応じた視差情報を復号する。

Description

明 細 書
映像符号化方法及び復号方法、それらの装置、及びそれらのプログラム 並びにプログラムを記録した記憶媒体
技術分野
[0001] 本発明は、多視点動画像の符号ィ匕及び復号に関する技術である。
本願は、 2006年 1月 5日に出願された特願 2006— 000394号に基づき優先権を 主張し、その内容をここに援用する。
背景技術
[0002] 多視点動画像は、様々な位置にあるカメラで同じ被写体と背景を撮影した複数の 動画像である。以下では、一つのカメラで撮影された動画像を" 2次元動画像"と呼び 、同じ被写体と背景を撮影した 2次元動画像の集合を多視点動画像と呼ぶ。多視点 動画像に含まれる各カメラの 2次元動画像は、時間方向に強い相関がある。一方、各 カメラが同期されていた場合、同じ時間に対応した各カメラのフレームは全く同じ状 態の被写体と背景を撮影しているため、カメラ間で強い相関がある。
[0003] まず、 2次元動画像の符号化方式に関する従来技術を述べる。国際符号化標準で ある H. 264、 MPEG— 4、 MPEG— 2をはじめとした従来の多くの 2次元動画像符 号化方式では、動き補償、直交変換、量子化、エントロピー符号化という技術を利用 して、高効率な符号化を行う。例えば、 H. 264では、 Iフレームにおいてはフレーム 内相関を利用して符号ィ匕が可能で、 Pフレームでは過去の複数枚のフレームとのフ レーム間相関を利用して符号ィ匕が可能で、 Bフレームでは過去あるいは未来の複数 毎のフレームとのフレーム間相関を利用して符号ィ匕が可能である。
[0004] H. 264の技術の詳細については、下記の非特許文献 1に記載されている力 以下 で概要を説明する。 Iフレームではフレームをブロック分割し(このブロックをマクロブロ ックといい、ブロックサイズは 16 X 16 (ピクセル)である)、各マクロブロックにおいてィ ントラ予測を行う。イントラ予測の際には、各マクロブロックをさらに小さなブロックに分 割し (以後、サブブロックと呼ぶ)、各サブブロックで異なるイントラ予測方法を行うこと ができる。 [0005] 一方、 Pフレームでは、各マクロブロックでイントラ予測、あるいはインター予測を行う ことができる。 Pフレームにおけるイントラ予測は、 Iフレームの場合と同様である。一方 、インター予測の際には動き補償が行われる。動き補償においても、マクロブロックを より小さなブロックに分割して、各サブブロックで異なる動きベクトル、参照画像を持つ ことができる。
[0006] なお、 Bフレームにおいても、イントラ予測とインター予測が行える力 Bフレームで のインター予測では、過去のフレームに加えて未来のフレームも動き補償の参照画 像にできる。例えば、 Iフレーム→Bフレーム→Bフレーム→Pフレームというフレーム 構成で符号化する場合、 I→P→B→Bの順番で符号ィ匕することができる。そして、 Bフ レームでは、 I及び Pフレームを参照して動き補償ができる。また、 Pフレームの場合と 同様でマクロブロックを分割したサブブロックごとに異なる動きベクトルを持つことがで きる。
[0007] イントラ、インター予測を行うと予測残差が得られるが、各マクロブロックで予測残差 ブロックに DCT (離散コサイン変換)を行って量子化が行われる。そして、このようにし て得られる DCT係数の量子化値に対して可変長符号ィ匕が行われる。なお、 Pフレー ム及び Bフレームでは、サブブロックごとに参照画像を選択可能である力 参照画像 は参照画像インデックスと呼ばれる数値で表され、可変長符号化される。 H. 264で は、参照画像インデックスの値が小さいほど短い符号で可変長符号ィ匕されるため、フ レームごとに参照画像インデックスを明示的に変更する仕組みを採用して 、る。この 機能により、使用頻度の高い参照画像ほど参照画像インデックスの値を小さく設定す ることで、参照画像インデックスを効率的に符号ィ匕できる。
[0008] 多視点動画像の符号ィ匕については、動き補償を同じ時刻の異なるカメラの画像に 適用した"視差補償"によって高効率に多視点動画像を符号ィ匕する方式が従来から ある。ここで、視差とは、異なる位置に配置されたカメラの画像平面上で、被写体上の 同じ位置が投影される位置の差である。
[0009] このカメラ間で生じる視差の概念図を図 13に示す。この概念図では、光軸が平行 なカメラの画像平面を垂直に見下ろしたものとなっている。このように、異なるカメラの 画像平面上で被写体上の同じ位置が投影される位置は、一般的に対応点と呼ばれ る。視差補償では、符号化対象カメラの画像上のある着目画素に対応する参照先の カメラの画像上の対応点を参照画像から推定し、当該対応点に対応した画素値で、 着目画素の画素値を予測する。以下では、便宜上、前述のような"推定された視差" についても"視差"と呼ぶこととする。このような方式では、視差情報と予測残差を符 号化する。
[0010] また、多くの手法では、視差を画像平面上でのベクトル (視差ベクトル)として表現 する。例えば、非特許文献 2の手法では、ブロック単位で視差補償を行う仕組みが含 まれている力 ブロック単位の視差を 2次元ベクトルで、すなわち 2つのパラメータ(X 成分及び y成分)で表現する。この視差ベクトルの概念図を図 14に示す。即ち、この 手法では、 2パラメータで構成される視差情報と予測残差を符号化する。なお、この 方法では、カメラパラメータを利用して符号ィ匕を行わないため、カメラパラメータが未 知である場合に有効である。
[0011] 一方、非特許文献 3には、多視点画像 (静止画像)の符号化方法が記載されている
1S この方法ではカメラパラメータを符号化に利用し、ェピポーラ幾何拘束に基づき 視差ベクトルを 1次元の情報として表現することにより、多視点画像を効率的に符号 化する。
[0012] ェピポーラ幾何拘束の概念図を図 15に示す。ェピポーラ幾何拘束によれば、 2台 のカメラ (カメラ 1とカメラ 2)による 2枚の画像において、被写体上の位置 Mに関する 片方の画像上の点 mに対応するもう片方の画像上の点 m'は、ェピポーラ線という直 線上に拘束される。非特許文献 3の手法では、一次元のェピポーラ線上での位置と いう一つのパラメータで参照画像に対する視差を表現する。すなわち、この手法では 、一つのパラメータで表現された視差情報と予測残差を符号ィ匕する。
[0013] なお、参照画像の枚数が 2枚以上 (各々は異なるカメラの参照画像である)であって も、ェピポーラ幾何拘束を利用して一つのパラメータで各参照画像への視差を表現 できる。例えば一つの参照画像に対するェピポーラ線上の視差が既知であれば、他 のカメラに関する参照画像に対する視差も復元できる。
[0014] また、各々が異なるカメラ力ものものである参照画像が複数ある場合、任意視点画 像技術を利用して視差補償を行うことが可能である。非特許文献 4では、任意視点画 像生成技術を利用して視差補償をする。具体的には、符号化対象カメラの画像の画 素値を、当該画素に対応した異なるカメラの対応点の画素値で補間して予測する。こ の補間の概念図を図 16に示す。この補間では、符号化対象画像の画素 mの値を、 画素 mに対応する参照画像 1、 2の画素 、 m〃 の値を補間することにより予想す る。
非特許文献 1 : ITU- T Rec.H.264/ISO/IEC 11496-10, "Advanced Video Coding", Fi nal Committee Draft, Document JVT-E022, September 2002
非特許文献 2: Hideaki Kimata and Masaki Kitahara, "Preliminary results on multiple view video coding (3DAV)", document M10976 MPEG Redmond Meeting, July, 2004 非特許文献 3 :畑幸一,栄藤稔,千原國宏:多視点画像の高能率符号化,電子情報 通信学会論文誌, Vol.J82-D-II, No.l l, pp.1921- 1929 (1999)
非特干文献 4: Masayuki Tanimoto, Toshiaki Fujn, Response to Call for Evidence o n Multi-View Video Coding", document Mxxxxx MPEG Hong Kong Meeting, Januar y, 2005
発明の開示
発明が解決しょうとする課題
[0015] 従来の多視点動画像の符号ィ匕手法によれば、カメラパラメータが既知である場合、 ェピポーラ幾何拘束を利用して、参照画像の数にかかわらず、各参照画像に対する 視差情報を一つのパラメータで表現できることにより、視差情報を効率的に符号ィ匕す ることが可能である。
[0016] しカゝしながら、実力メラで取得された多視点動画像を符号化対象とすると、カメラパ ラメータの測定誤差などにより、視差をェピポーラ線上に拘束して視差補償をすると、 予測効率が悪化する場合がある。また、参照画像は符号化歪が混入した画像である ため、同様にェピポーラ線上に拘束して視差補償をすると、予測効率が悪化する場 合がある。予測効率が悪化すると予測残差の符号量の増加を招き、結果として全体 の符号化効率が悪化してしまう。
[0017] 本発明は、上記問題点の解決を図り、多視点動画像の符号ィ匕において、参照画像 の性質に応じて視差補償の自由度を制御し、参照画像の符号化歪やカメラパラメ一 タの測定誤差が存在する場合にも、視差補償の精度を向上させ、従来よりも高い符 号化効率を実現することを目的とする。
課題を解決するための手段
[0018] 本発明が従来技術ともっとも異なる点は、参照画像の性質に応じて視差補償の自 由度を制御可能にするため、視差情報のパラメータ数を可変にし、そのパラメータ数 を示す視差パラメータ数情報またはインデックス情報を符号化して符号ィ匕情報に含 ませる点である。
インデックス情報として、視差情報のパラメータ数の他に視差補償に用いる参照画 像を示す情報を含ませることができ、またさらに他の情報を含ませることもできる。
[0019] 具体的には、本発明による映像符号化方法、映像復号方法の第 1の態様では、映 像情報の性質に応じて、視差補償に用いる視差情報のパラメータ数を指定する視差 パラメータ数を符号化、復号する処理を実行する。
ここで、視差パラメータ数情報は、例えば各参照画像に対する視差ベクトルの次元 を指定するものである。例えば参照画像の枚数が 2枚 (参照画像 A、 B)であった場合 、以下のような構成が考えられる。
[0020] 'pNum=0 :参照画像 A、 Bのいずれに対する視差ベクトルも 1次元
•pNum=l:参照画像 Aに対する視差ベクトルは 1次元、参照画像 Bに対する視差 ベクトルは 2次元
•pNum=2:参照画像 Aに対する視差ベクトルは 2次元、参照画像 Bに対する視差 ベクトルは 1次元
•pNum=3:参照画像 A、 Bの!、ずれに対する視差ベクトルも 2次元 上記のインデックス情報 pNumが視差パラメータ数情報として定義できる。 まず、映像符号ィ匕側では視差パラメータ数設定ステップで視差情報を表現するた めのノ ラメータ数を設定する。そして、視差パラメータ数設定ステップで設定されたパ ラメータ数に関する情報である視差パラメータ数情報を、視差パラメータ数情報符号 ィ匕ステップで符号化する。そして、視差パラメータ数設定ステップで設定されたパラメ ータ数で表現される視差情報を、視差情報符号化ステップで符号ィ匕する。 一方、映像復号側では、視差パラメータ数情報復号ステップにおいて視差パラメ一 タ数情報をまず復号する。そして、復号した視差パラメータ数情報で指定されるパラメ ータ数の視差情報を、視差情報復号ステップで復号する。
[0021] 本発明による映像符号化方法、映像復号方法の第 2の態様では、参照画像インデ ックスに対して視差補償に利用可能な参照画像が割り振られている。例えば視差補 償の予測画像生成の際には 2枚の参照画像を利用し、参照画像メモリに使用可能な 参照画像が 3枚 (A、 B、 C)あった場合、以下のような割り当て例が考えられる。
[0022] · refldx=0:参照画像 Aと B
•refldx=l:参照画像 Bと C
•refldx=2:参照画像 Aと C ここで、 refldxは参照画像インデックスである。上記に加え、符号化対象カメラの復 号画像に対応付けた参照画像インデックスを設定しても良 ヽ。
映像符号化側では、上記第 1の態様における処理に加え、視差補償に用いる参照 画像を設定する参照画像設定ステップ、参照画像インデックスを符号化する参照画 像インデックス符号化ステップを実行する。一方、復号側では、参照画像インデックス を復号するステップを有する。
前述のような H. 264の参照画像インデックスの順序変更の仕組みと組み合わせれ ば、動画像の性質に応じて、高品質な予測画像が生成可能な参照画像に対して参 照画像インデックスとして小さな値が設定されるようにして、符号ィ匕効率を向上させる ことができる。
[0023] 本発明による映像符号化方法、映像復号方法の第 3の態様では、参照画像インデ ックスに対して利用可能な視差パラメータ数情報が対応付けられている。例えば視差 補償の予測画像生成の際には 2枚の参照画像を利用し、参照画像メモリに使用可能 な参照画像が 3枚 (A、 B、 C)あり、視差パラメータ数情報 pNumは 2通り (pNum=0,l)あ つた場合、以下のような割り当て例が考えられる。
[0024] -refldx=0:参照画像 Aと B、 pNum=0
•refldx=l:参照画像 Aと B、 pNum=l •refldx=2 :参照画像 Bと C、 pNum=0
•refldx=3 :参照画像 Bと C、 pNum=l
•refldx=4:参照画像 Aと C、 pNum=0
•refldx=5 :参照画像 Aと C、 pNum=l この場合、映像符号化側では参照画像インデックスを符号化する参照画像インデッ タス符号化ステップを実行するが、視差パラメータ数情報は当該ステップで符号化さ れることとなる。一方、映像復号側では参照画像インデックスを復号する参照画像ィ ンデックス復号ステップを実行する力 視差パラメータ数情報は当該ステップで復号 されることとなる。
前述のような H. 264の参照画像インデックスの順序変更の仕組みと組み合わせれ ば、動画像の性質に応じて視差パラメータ数情報に割り当てられる可変長符号の符 号長を変更でき、視差パラメータ数情報を効率的に符号化できる。
発明の効果
[0025] 多視点動画像の符号ィ匕における視差補償において、カメラパラメータの測定誤差 や参照画像の符号ィヒ歪によってェピポーラ幾何拘束に従った予測では予測効率が 悪い場合には、視差情報のノ メータ数を増やして自由度の高い予測を、ェピポー ラ幾何拘束に従っても予測効率が良い場合には、 1パラメータで視差を表現した予 測を、フレームやブロック単位で復号画像の特性に応じて適応的に制御することが可 能となり、従来よりも高い符号化効率を実現することが可能となる。
図面の簡単な説明
[0026] [図 1]本発明における実施例 1の映像符号ィ匕装置を示す図である。
[図 2]実施例 1におけるカメラの参照関係を示す図である。
[図 3]実施例 1におけるカメラ配置を示す図である。
[図 4]実施例 1における符号ィ匕フローチャートである。
[図 5]実施例 1の映像復号装置を示す図である。
[図 6]実施例 1における復号フローチャートである。
[図 7]本発明における実施例 2におけるカメラの参照関係を示す図である。 圆 8]実施例 2における映像符号ィ匕装置を示す図である。
[図 9]実施例 2における符号ィ匕フローチャートである。
[図 10]図 9のステップ S304の処理に関する詳細フローチヤ
[図 11]実施例 2の映像復号装置を示す図である。
[図 12]実施例 2における映像復号フローチャートである。 圆 13]カメラ間で生じる視差の概念図である。
[図 14]視差ベクトルの概念図である。
圆 15]ェピポーラ幾何拘束の概念図である。
[図 16]画素値補間の概念図である。
符号の説明
100、 300 映像符号化装置
101、 301 画像入力部
102、 302 参照画像入力部
103、 205、 303、 405 参照画像メモリ
104 視差パラメータ数設定部
105 視差パラメータ数情報符号化部
106、 309 視差情報符号化部
107、 310 予測残差符号化部
200、 400 映像復号装置
201 視差パラメータ数情報復号部
202、 402 視差情報復号部
203、 404 予測残差復号部
204、 304、 406 視差補償部
305、 407 動き補償部
306 参照画像設定部
307 参照画像インデックス符号ィ匕部
308 動き情報符号化部
311 ローカル復号部 401 参照画像インデックス復号部
403 動き情報復号部
発明を実施するための最良の形態
[0028] 〔実施例 1〕
まず、第 1の実施例(以下、実施例 1)について説明する。本発明の実施例 1に係る 映像符号化装置の構成図を図 1に示す。
この映像符号化装置 100は、符号化対象画像であるカメラ Cの原画像を入力する 画像入力部 101、参照画像であるカメラ Aと Bの復号画像を入力する参照画像入力 部 102、参照画像を格納する参照画像メモリ 103、視差補償に利用する視差情報を 表現するパラメータ数を設定する視差パラメータ数設定部 104、視差パラメータ数情 報を符号化する視差パラメータ数情報符号化部 105、視差情報を符号化する視差 情報符号ィ匕部 106、視差補償で生じた残差信号を符号ィ匕する予測残差符号ィ匕部 1 07を備える。
[0029] 図 2は、実施例 1におけるカメラの参照関係を示す図である。
本実施例では、図 2に示すように、 3つのカメラに関する多視点映像を符号ィ匕する にあたり、カメラ Aと Bの復号画像を参照画像としてカメラ Cの動画像を符号ィ匕する場 合を示す。
図中の矢印は視差補償の際の参照関係を示しており、カメラ Cの画像を符号ィ匕す る際には、表示時刻において同時刻であるカメラ Aと Bの復号画像を参照画像として 符号化する。その際には、カメラ A及び Bの対応点に関する画素値の平均値で予測 画像を作成するものとする。
[0030] 図 3は、実施例 1におけるカメラ配置を示す図である。本実施例では、 3つのカメラ の視点位置は直線上に等間隔に並んでおり、光軸はカメラが並ぶ直線に対して垂直 となっているとする。すなわち、 3つのカメラの光軸は平行であるとする。
また、画像平面の xy座標系はカメラが並ぶ直線に対する平行移動(回転等はなし) により得られ、各々のカメラで画像平面の X軸及び y軸を等間隔に分割することで画 素が構成されているとする。すなわち、解像度が各カメラで同じであり、なおかつ、力 メラ Cとカメラ Aの P画素分の視差はカメラ Cとカメラ Bで P画素の視差となることになる [0031] 実施例 1における符号ィ匕のフローを図 4に示す。
このフローチャートは、カメラ Cの一つの画像を符号ィ匕する際に行う処理を示してお り、各画像についてこの処理を繰り返すことにより動画像符号化が行われるとする。 そして、本実施例では、視差情報の表現方法として、カメラ Aに対するェピポーラ線 上の位置を一つのパラメータで表現した視差情報でカメラ Aと Bの各々の参照画像に 対する視差を表現する場合 (インデックス pNumの値が 0)と、カメラ Aと Bの各々の参 照画像に対する視差をそれぞれ 2次元ベクトルで表現し、合計 4パラメータで視差情 報を表現する場合 (インデックス pNumの値が 1)の二つを適応的に切り替えて視差補 償することとする。なお、 pNumは視差パラメータ数情報を表すインデックスである。
[0032] また、視差パラメータ数の切り替えは画像を分割して得られる縦横それぞれ N画素
(N X N)のブロック単位で行うとする。すなわち、各 N X Nブロックに対して 1つ(pNu m =0)もしくは 4つ (pN醒 =1)のパラメータを視差情報として符号ィ匕する。
[0033] このような前提の下で図 4のフローに沿って符号ィ匕処理を説明する。
まず、画像入力部 101によりカメラ Cの画像が入力される (ステップ S101)。なお、こ こで入力されたカメラ Cの画像と表示時刻が同じであるカメラ Aと Bの復号画像力 参 照画像メモリ 103に参照画像入力部 102により入力されている。
[0034] このフローでは、画像を分割して得られる個々の N X Nブロックを示すインデックス を blkと表し、一つの画像に対する総ブロック数を maxBlkと表す。
N X Nブロックのインデックス blkを 0に初期化した後(S102)、以下の処理(S103 〜S116)を、インデックス blkに 1をカ卩算しながら(SI 15)、インデックス blkが総ブロ ック数 maxBlkになるまで(S116)、各 N X Nブロックに対して繰り返して実行する。
[0035] まず、視差パラメータ数設定部 104にお 、て、画像 Cのインデックス blkに対応した 符号化対象ブロックが読み込まれ、参照画像メモリ 103からカメラ Aと Bに対応した参 照画像が読み込まれる。そして、同じく視差パラメータ数設定部 104において、 pNum = 0及び pNum= 1につ!/、て視差探索の処理が行われる(S 104〜S 106)。
なお、視差の探索は、視差補償による予測残差の N X Nブロックに関する絶対値の 総和 SADと視差情報の符号量の見積もり値である R に基づいて求められるレート 歪コスト costを最小化するように行われる。ここで、 costは次式で計算される。
[0036] cost = SAD + (1)
disp ここで、 λはラグランジュの未定乗数であり、予め設定された値が利用される。また、 R を求めるには、視差情報に可変長符号化を施して符号量を求める。
disp
pNum=0及び pNum= lについて、 costの最小値 pCost及び pCostを実現する視 差情報を求め、より pCost力 、さい視差情報を符号ィ匕に採用する(S107〜S110)。 図 4のフローにおける minPCostは、 pCostの最小値を格納するための変数であり、ブ ロック blkを処理する際に pCostが取りうる最大の値より大きい任意の値 (maxPCost) に設定され、初期化される。
[0037] pNum=0の場合は、ステップ S105において、次の処理が行われる。
予め設定された範囲において視差を探索する。本実施例のカメラ配置では、ェピポ ーラ幾何拘束に従うと、カメラ Cのピクセル (x、 y)に対する視差は、カメラ Aについて は (x + d , y) , (ただし、 d ≥0)となり、カメラ Bに対しては (x— d、y)となる。ただし 、縦横 Iピクセルの画像平面上の座標系は、左上のピクセルを (0、 0)とし、右上を (I 1、 0)、左下を (0、 1—1)とするものである。本実施例では d =0〜Pの範囲を探索 範囲とすることにする。従い、 d =0〜Pについて、次式で SAD[d ]を計算する。
[0038] SAD[d ] =∑ ∑ ABS( DEC [x+i+d y+j]/2 + DEC [x+i+d y+j]/2 - IMG [ x i j A x, B x, c x+i, y+j] ) (2) ただし、∑.は、 iが 0から N— 1までの総和、∑jは、 jが 0から N— 1までの総和を表す 。ABS( )は括弧内の絶対値を取るものであり、 DEC [x,y]と DEC [x,y]は、それぞ
A B
れカメラ A及び Bの復号画像の(x、y)ピクセルの輝度値を表し、 IMG [x,y]は、カメ ラ Cの原画像の(x、 y)ピクセルの輝度値を表す。また、(x、 y)は N X Nブロックの左 上のピクセルの画像平面内での座標であるとする。
[0039] さらに、視差が dであるときの視差情報の符号量見積もり値 R [ d ]を求め、数式 disp
1により視差 dに対するレート歪コスト cost「d ]を求める。求めた cost[d ]を最小に した視差を bestDispPNumO、及びその際のコストを pCostとする。 [0040] そして、 minPCost pCostとし、最適な pNumを格納する bestPNumには 0を代入し て pNum= lの場合の処理に移る(S107〜S110)。
[0041] pNum= lの場合は、ステップ S106において、次の処理が行われる。
pNum= lの場合には、ェピポーラ幾何拘束を考慮せず、 2次元で視差の探索を行 う。具体的には、カメラ A及びカメラ Bのぞれぞれに関する X軸上の探索範囲を d , d
=— P〜P (d ,d のそれぞれにおいて「― P〜P」の範囲)とし、 y軸上の探索範 囲を d , d =— P〜P (d , d のそれぞれにおいて「一 P〜P」の範囲)とする。そ して、全ての(d , d , d , d )の組み合わせについて、次式の SAD[d d d d ]を求める。
[0042] SAD[d,, d d d ] =∑ ∑ ABS( DEC [ x+i+d , y+j+d ]/2 + DEC [ x
+i+d , y+j+d ]/2 IMG [x+i, y+j] ) (3) さらに、視差が (d d d d )であるときの視差情報の符号量見積もり値 R [d d d d ]を求め、数式 1により視差 dに対するレート歪コスト cost[d d d d
]を求める。そして、 cost[d d d d ]を最小にした視差を bestDispPNuml、及 びその際のコストを pCostとする。
[0043] そして、 pCostく minPCostであれば(S107)、 minPCost pCostとし、最適な pNu mを格納する bestPNumには 1を代入する(S 108)。
[0044] 次に、視差パラメータ数情報符号ィ匕部 105において、 bestPNumが可変長符号化さ れる (Sl l l)。また、視差情報符号ィ匕部 106において、視差情報が符号化される。 be stPNum力^の場合には、 dが可変長符号化され、 bestPNumが 1の場合には、(d d d d )が可変長符号化される。最後に、予測残差符号ィ匕部 107において、予測 残差が符号ィ匕される(S112〜S114)。
[0045] 次に、実施例 1の映像復号装置を図 5に示す。映像復号装置 200は、視差パラメ一 タ数情報を復号する視差パラメータ数情報復号部 201と、視差パラメータ数情報に 応じた視差情報を復号する視差情報復号部 202と、予測残差を復号する予測残差 復号部 203と、視差補償部 204と、参照画像メモリ 205とを備える。
[0046] 図 6に本実施例の復号フローを示す。これはカメラ Cを 1フレーム復号する上でのフ ローを示して 、る。以下でフローを詳細に説明して!/、く。
[0047] N X Nブロックのインデックス blkを 0に初期化した後(S201)、以下のステップ S20 2〜S208の処理を各 N X Nブロックに対して、 1フレーム分繰り返すことにより(1フレ ームのブロック数は maxBlk)、カメラ Cの 1フレームが復号される。なお、カメラ Aと Bの 同時刻のフレームが先立って復号されているとし、その復号画像が参照画像メモリ 2 05に蓄積されているものとする。
[0048] まず、視差パラメータ数情報復号部 201により、視差パラメータ数情報 bestPNumが 復号される(S202)。 bestPNumの値に応じて(S203)、以下の処理が行われる。
[0049] bestPNum=0の場合、視差情報復号部 202において、視差情報 dが復号される。
視差補償部 204に視差パラメータ数情報 bestPNumと視差情報 dが入力され、参照 画像メモリ 205から視差情報 dに対応したカメラ Aと Bの N X Nブロックが入力される。 そして、符号ィ匕対象の N X Nブロックのピクセルの位置を (x、 y)と表すと、次式により 予測画像 PRED[x+i, y+j]が生成される(S204)。
[0050] PRED[x+i, y+j]= DEC [ x+i+d , y+j]/2 + DEC [ x+i+d , y+j]/2 (4)
A x B x ただし、 i=0,l,..,N- 1及び j = 0,l,..,N- 1である。
[0051] bestPNum= lの場合、視差情報復号部 202において、視差情報(d d d d ) x,A, x,B, y,A, y,B が復号される。視差補償部 204に視差パラメータ数情報 bestPNumと視差情報 (d d
Χ,Α, κ d d )が入力され、参照画像メモリ 205から視差情報 dに対応したカメラ Aと Bの
,B, y,A, y,B χ
N X Nブロックが入力される。そして、符号化対象の N X Nブロックのピクセルの位置 を (x、 y)と表すと、次式により予測画像 PRED[x+i, y+j]が生成される(S205)。
[0052] PRED[x+i, y+j]= DEC [ x+i+d , y+j+d ]/2 + DEC [ x+i+d , y+j+d ]/2 (
A x,A y,A B x,B y,B
5) ただし、 i=0,l,..,N- 1及び j = 0,l,..,N- 1である。
[0053] 次に、符号ィ匕された予測残差が入力された予測残差復号部 203において、 N X N の予測残差ブロック RES[x+i, y+j]が復号される。そして予測残差ブロックは視差補償 部 204に入力され、次式のように予測画像との和が計算され、復号画像 DEC [x+i, y +j]が求められる(S206)。
[0054] DEC [x+i, y+j]= RES[x+i, y+j] + PRED[x+i, y+j] (6) 以上の処理をインデックス blkに 1を加算しながら(S207)、 blk力 Siフレームのブロ ック数 maxBlkになるまで繰り返し行うことにより、カメラ Cに関する復号画像を得ること ができる。
[0055] 〔実施例 2〕
次に、第 2の実施例(以下、実施例 2)について説明する。
本実施例では、図 7のカメラの参照関係のように、 5つのカメラに関する多視点映像 を符号化するにあたり、カメラ A、 B、 D、 Eの復号画像を参照画像として、カメラ Cの動 画像を符号化する場合を示す。
前述した実施例 1では、カメラ Cの画像は視差補償のみを利用して符号ィ匕して ヽた 力 本実施例では、動き補償と視差補償をブロック単位で切り替えて実行することで 符号化を行う。そして、図中の矢印は視差 Z動き補償の際の参照関係を示している。
[0056] 視差補償の際には、カメラ A、 B、 D、 Eにおいて設定する 2台のカメラの複数の対( Aと B、 Aと D、 Bと Eの 3種類の対)により予測画像を生成するものとする。予測画像の 生成方法は、実施例 1と同様で、 2台のカメラの対応点に関する画素値の平均値で 予測画像を作成するものとする。
なお、本実施例では実施例 1と同様に、 5つのカメラの視点位置は直線上に等間 隔に並んでおり、光軸はカメラが並ぶ直線に対して垂直となっているとする。すなわ ち、図 3の関係が 5台のカメラにあり、各カメラの光軸は平行であるものとする。
[0057] 実施例 2における映像符号ィ匕装置の構成図を図 8に示す。
この映像符号化装置 300は、カメラ Cの原画像を入力する画像入力部 301、カメラ A、 B、 D、 Eの復号画像を入力する参照画像入力部 302、参照画像を格納する参照 画像メモリ 303、視差補償を行う視差補償部 304、動き補償を行う動き補償部 305、 参照画像設定部 306、参照画像インデックス符号化部 307、動き情報符号化部 308 、視差情報符号化部 309、予測残差符号化部 310、ローカル復号部 311を備える。
[0058] 本実施例における符号ィ匕のフローを図 9に示す。また、当該フロー中のステップ S3 04に関する詳細フローを図 10に示す。
このフローチャートは、カメラ Cの一つの画像を符号ィ匕する際に行う処理を示してお り、各画像についてこの処理を繰り返すことにより動画像符号化が行われるとする。 本実施例においては、 N X Nのブロック単位で、以下の処理を適応的に切り替えて 符号化することとする。
[0059] 'カメラ Cの過去の復号画像を利用した動き補償: refldx =0、 1
'カメラ Aと Bの参照画像を利用した視差補償 (pNum=0): refldx = 2 'カメラ Aと Bの参照画像を利用した視差補償 (pNum=l): refldx = 3 'カメラ Aと Dの参照画像を利用した視差補償 (pNum=0): refldx =4 'カメラ Aと Dの参照画像を利用した視差補償 (pNum=l): refldx = 5 'カメラ Bと Eの参照画像を利用した視差補償 (pNum=0): refldx =6 'カメラ Bと Eの参照画像を利用した視差補償 (pNum=l): refldx = 7 ここで、 refldxは参照画像インデックスを示して!/、る。
また、 refldx=0、 1については、 refldx=0は、カメラ Cの 1フレーム前の復号画像に 対応し、 refldx= lは、 2フレーム前の復号画像に対応する。
本実施例では、符号化側では各ブロックで利用された手法及び参照画像に対応し た参照画像インデックスを符号化し、復号側では参照画像インデックスにより各ブロッ クの画素値を復号する。
[0060] なお、上記の参照画像インデックスの割り当ては画像 Cの 3フレーム目以降を符号 化する際のものであるとする。
1フレーム目においては、カメラ Cの復号画像はないので動き補償に関しては参照 画像インデックスが割り当てられず、視差補償に関する参照画像インデックスにつ ヽ ては上記の各値よりそれぞれ 2小さい値 (例えば「カメラ Aと Bの参照画像を利用した 視差補償 (pNum=0」では refldx=0)が割り当てられる。
一方、 2フレーム目においては、動き補償に関する参照画像インデックスは、 refldx =0のみであり、視差補償に関する参照画像インデックスについては上記の各値より それぞれ 1小さい値 (例えば「カメラ Aと Bの参照画像を利用した視差補償 (pNum=0」 では refldx=l)が割り当てられる。 [0061] このような前提の下で図 9のフローに沿って符号ィ匕処理を説明する。ただし、この処 理は、カメラ Cの 3フレーム目以降の符号ィ匕処理であるとする。
[0062] 画像入力部 301によりカメラ Cの画像が入力される(S301)。なお、ここで入力され たカメラ Cの画像と表示時刻が同じであるカメラ A、 B、 D、 Eの復号画像が参照画像メ モリ 303に参照画像入力部 302により入力されている。また、カメラ Cに関する 1フレ ーム前、及び 2フレーム前の復号画像がローカル復号部 311によって復号され、参 照画像メモリ 303に入力されているとする。
[0063] 画像を分割して得られる各 N X Nブロックのインデックスを blkと表し、一つの画像に 対する総ブロック数を maxBlkと表す。 N X Nブロックのインデックス blkを 0に初期化し た後(S302)、以下の処理(S303〜S312)を、インデックス blkに 1を加算しながら( S311)、インデックス blkが総ブロック数 maxBlkになるまで(S312)、各 N X Nブロック に対して繰り返して実行する。
[0064] 参照画像インデックス refldxを 0に初期化し、コスト値 re!Costの最小値を格納する 変数である minRefCostを、ブロック blkを処理する際に re!Costが取りうる最大の値より 大き 、任意の値 maxRefCostに初期化する(S303)。
[0065] インデックス blkが指す各 N X Nブロックにお!/、て、各参照画像インデックス refldxに 対応した予測処理を行う(S 304)。その際には、各参照画像インデックス refldxに対 応したコスト値 re!Costを算出し、 re!Costを最小にした参照画像インデックス bestRefl dxを、その N X N
ブロックの符号ィ匕に採用する(S305、 S306)。
[0066] 以下に、ステップ S304の各参照画像インデックス refldxに対応した処理を、図 10の フローに従って説明する。なお、以下では動き補償もしくは視差補償が行われるが、 どちらの場合においても、動き Z視差情報は、以下の式で与えられる costを最小化 することで得られる。
[0067] cost = SAD + (7)
vec ここで、 R は動きもしくは視差情報の符号量の見積もり値であり、 SADは予測残 vec
差の絶対値の総和である。 [0068] refldxが 2以上であった場合、視差補償に対応した refldxであり (S3041)、視差補 償部 304によって当該 refldxに対応した 2台のカメラの復号画像が参照画像として読 み込まれ、視差補償が行なわれる。
また、 refldxが 2以上であった場合、 refldxは対応する視差パラメータ数情報 pNum= 0または 1を有する。従い、 pNum=0及び 1の場合の視差補償処理を実施例 1の場合 と同様に行う。
[0069] すなわち、視差パラメータ数 (pNum)が 1の場合(S 3042)、参照画像インデックス re fldxに対応した 2つの参照画像にっ 、てェピポーラ線上の視差を、レート歪コストを最 小化するように探索し、最小コスト値を re!Costとする(S3043)。
また、視差パラメータ数が 1でない場合 (S3042)、参照画像インデックス refldxに対 応した 2つの参照画像にっ 、て画像平面上の視差を、レート歪コストを最小化するよ うに探索し、最小コスト値を re!Costとする(S3044)。
上記 S3043、 S3044の各々において、算出された costの最小値 (refCost)に、参 照画像インデックス refldxを符号ィ匕した際の符号量見積もり値を足し合わせた値力 f Costとされる。
[0070] refldxが 0もしくは 1の場合は、動き補償に対応した refldxであり、ステップ S3045に 進む。この場合、動き補償部 305によって当該 refldxの値に対応したカメラ Cの復号 画像が参照画像として読み込まれ、動き補償が行われる。その際の動き情報は、数 式 7で算出される costを最小化することで行われる。そして、参照画像インデックス refl dxを符号ィ匕した際の符号量見積もり値を、当該 cost最小値に足しあわせた値を refCo stとする(S3045)。
[0071] 算出された refCost力 現在の最小値を格納する minRe!Cos りも小さい場合には( S305)、 minRefCostに re!Costを格納し、そのときの refldxを、 bestRefldxとして記憶し ておく(S306)。
以上の処理を、 refldxに 1を力卩算しながら、 refldxがインデックスの総数 maxRe!Num になるまで繰り返す(S307、 S308)。
上記の処理が各参照画像に対して行われたら、参照画像設定部 306によって refC ostを最小にした参照画像インデックス bestRefldxが求められ、符号化に利用される 参照画像インデックスが決定する。
[0072] 次に、 bestRefldxが参照画像インデックス符号化部 307によって符号化され(S309 )、動き情報もしくは視差情報が動き情報符号ィ匕部 308もしくは視差情報符号ィ匕部 3 09で符号化され、予測残差が予測残差符号化部 310で符号化される(S310)。 インデックス blkに 1を加算し(S311)、これが総ブロック数 maxBlkになるまで繰り返 すことにより(S312)、カメラ Cの 1フレーム分の画像が符号ィ匕される。
[0073] 次に、実施例 2における映像復号装置を図 11に示す。
映像復号装置 400は、参照画像インデックスを復号する参照画像インデックス復号 部 401、視差情報を復号する視差情報復号部 402、動き情報を復号する動き情報復 号部 403、予測残差を復号する予測残差復号部 404、参照画像を格納する参照画 像メモリ 405、視差補償を行う視差補償部 406、動き補償を行う動き補償部 407を備 える。
[0074] 図 12に本実施例の復号フローを示す。これはカメラ Cを 1フレーム復号する上での フローを示して 、る。以下でフローを詳細に説明して 、く。
[0075] N X Nブロックのインデックス blkを 0に初期化した後(S401)、以下の処理(S402 〜S410)を、インデックス blkに 1をカ卩算しながら(S409)、インデックス blkが総ブロ ック数 maxBlkになるまで(S410)、各 N X Nブロックに対して繰り返して実行する。こ れにより、カメラ Cの 1フレームが復号される。なお、カメラ A、 B、 D、 Eの同時刻のフレ ーム、及びカメラ Cの 1フレーム前、 2フレーム前の復号画像が参照画像メモリ 405に 蓄積されているものとする。
[0076] まず、参照画像インデックス復号部 401により、参照画像インデックス bestRefldxが 復号される(S402)。参照画像インデックス bestRefldxの値に応じて(S403、 S404) 、以下の処理が行われる。
[0077] もし、 bestRefldx = 0もしくは 1であれば、動き補償に対応した参照画像インデックス であり、動き情報復号部 403により動き情報が復号される。そして、動き補償部 407に より bestRefldx=0もしくは 1に対応した参照画像が読み込まれ、予測画像が生成され る(S407)。
そして、予測残差復号部 404によって予測残差が復号され、動き補償部 407にお V、て予測残差に対して予測画像が足され (S408)、 N X Nブロックの復号画像が生 成される。
[0078] もし bestRefldxが 2以上であったら、視差補償に対応した参照画像インデックスで あり、その参照画像インデックス bestRefldxに対応した 2台のカメラに関する参照画像 が読み込まれ、視差補償による復号が行われる。
この参照画像インデックス bestRefldxには、視差パラメータ数情報 pNumの値も対応 付けられているため、 pNumに応じた処理が行われる。視差補償の処理は実施例 1の 場合と同様である(S404〜S406)。そして、予測残差復号部 404によって予測残差 が復号され、視差補償部 406において予測残差に対して予測画像が足され (S408) 、 N X Nブロックの復号画像が生成される。
[0079] インデックス blkに 1を加算し(S409)、これが総ブロック数 maxBlkになるまで繰り返 すことにより(S410)、カメラ Cの 1フレーム分の画像が復号されることになる。
[0080] 以上説明した実施例における参照画像インデックスと、動き補償を用いるカゝ視差補 償を用いるかの情報、参照画像、視差パラメータ数情報との対応づけは、もちろん一 例であり、本発明の実施においてこの対応づけ方法は、任意に定めることができる設 計的事項である。
[0081] 以上の映像符号ィ匕及び映像復号の処理は、コンピュータとソフトウェアプログラムと によって実現することができ、そのプログラムをコンピュータ読み取り可能な記憶媒体 に記録して提供することも、ネットワークを通して提供することも可能である。
産業上の利用可能性
[0082] 多視点動画像の符号ィ匕における視差補償において、カメラパラメータの測定誤差 や参照画像の符号ィヒ歪によってェピポーラ幾何拘束に従った予測では予測効率が 悪い場合には、視差情報のノ メータ数を増やして自由度の高い予測を、ェピポー ラ幾何拘束に従っても予測効率が良い場合には、 1パラメータで視差を表現した予 測を、フレームやブロック単位で復号画像の特性に応じて適応的に制御することが可 能となり、従来よりも高い符号化効率を実現することが可能となる。

Claims

請求の範囲
[1] 複数の映像を一つの映像として符号ィ匕するにあたり、複数の映像間の視差を用い て予測する視差補償により符号ィ匕する映像符号ィ匕方法であって、
前記視差補償に利用する、各参照画像に対する視差情報のパラメータ数を選択し 設定する視差パラメータ数設定ステップと、
前記視差パラメータ数設定ステップにより設定されたパラメータ数の情報を符号ィ匕 する視差パラメータ数情報符号化ステップと、
前記パラメータ数に応じた視差情報を符号化する視差情報符号化ステップと、 を有することを特徴とする映像符号化方法。
[2] 請求項 1に記載の映像符号ィ匕方法にぉ 、て、
前記視差補償に用いる前記各参照画像を選択し設定する参照画像設定ステップと 前記視差補償で用いられる参照画像があらかじめ対応づけられている複数の参照 画像インデックスの中から、前記参照画像設定ステップにより設定された参照画像に 対応する参照画像インデックスを決定し、その参照画像インデックスを符号化する参 照画像インデックス符号化ステップと、
を更に有することを特徴とする映像符号化方法。
[3] 複数の映像を一つの映像として符号ィ匕するにあたり、複数の映像間の視差を用い て予測する視差補償により符号ィ匕する映像符号ィ匕方法であって、
前記視差補償に利用する視差情報のパラメータ数を選択し視差補償を行う視差補 償ステップと、
前記視差補償に用いる参照画像を選択し設定する参照画像設定ステップと、 前記視差補償で用いられる参照画像及び視差情報のパラメータ数があらかじめ対 応づけられて 、る複数の参照画像インデックスの中から、前記視差補償ステップにお いて選択されたパラメータ数及び前記参照画像設定ステップにより設定された参照 画像に対応する参照画像インデックスを決定し、その参照画像インデックスを符号化 する参照画像インデックス符号化ステップと、
前記パラメータ数に応じた視差情報を符号化する視差情報符号化ステップと、 を有することを特徴とする映像符号化方法。
[4] 複数の映像を一つの映像として復号するにあたり、複数の映像間の視差を用いて 予測する視差補償により復号する映像復号方法であって、
符号ィヒ情報に含まれる、各参照画像に対する視差情報のパラメータ数を指定する 視差パラメータ数情報を復号する視差パラメータ数情報復号ステップと、
符号化情報に含まれる前記パラメータ数に応じた視差情報を復号する視差情報復 号ステップと、
前記復号した視差情報を用いて前記視差補償を行う視差補償ステップと、 を有することを特徴とする映像復号方法。
[5] 請求項 4に記載の映像復号方法において、
前記視差補償で用いられる参照画像があらかじめ対応づけられている複数の参照 画像インデックスの中の一つである、前記符号ィ匕情報に含まれる参照画像インデック スを復号する参照画像インデックス復号ステップを更に有し、
前記視差補償ステップでは、復号した前記参照画像インデックスによって示される 参照画像を用いて視差補償を行う
ことを特徴とする映像復号方法。
[6] 複数の映像を一つの映像として復号するにあたり、複数の映像間の視差を用いて 予測する視差補償により復号する映像復号方法であって、
前記視差補償で用いられる参照画像及び視差情報のパラメータ数があらかじめ対 応づけられている複数の参照画像インデックスの中の一つである、符号ィ匕情報に含 まれる参照画像インデックスを復号する参照画像インデックス復号ステップと、 前記参照画像インデックスによって示されるパラメータ数に応じた、前記符号化情 報に含まれる視差情報を復号する視差情報復号ステップと、
前記復号した視差情報と、前記復号した参照画像インデックスによって示される参 照画像とを用いて視差補償を行う視差補償ステップと、
を有することを特徴とする映像復号方法。
[7] 複数の映像を一つの映像として符号ィ匕するにあたり、複数の映像間の視差を用い て予測する視差補償により符号ィ匕する映像符号ィ匕装置であって、 前記視差補償に利用する、各参照画像に対する視差情報のパラメータ数を選択し 設定する視差パラメータ数設定手段と、
前記視差パラメータ数設定手段により設定されたパラメータ数の情報を符号ィ匕する 視差パラメータ数情報符号化手段と、
前記パラメータ数に応じた視差情報を符号化する視差情報符号化手段と、 を備えることを特徴とする映像符号ィ匕装置。
[8] 複数の映像を一つの映像として符号ィ匕するにあたり、複数の映像間の視差を用い て予測する視差補償により符号ィ匕する映像符号ィ匕装置であって、
前記視差補償に利用する視差情報のパラメータ数を選択し視差補償を行う視差補 償手段と、
前記視差補償に用いる参照画像を選択し設定する参照画像設定手段と、 前記視差補償で用いられる参照画像及び視差情報のパラメータ数があらかじめ対 応づけられている複数の参照画像インデックスの中から、前記視差補償手段におい て選択されたパラメータ数及び前記参照画像設定手段により設定された参照画像に 対応する参照画像インデックスを決定し、その参照画像インデックスを符号化する参 照画像インデックス符号化手段と、
前記パラメータ数に応じた視差情報を符号化する視差情報符号化手段と、 を備えることを特徴とする映像符号ィ匕装置。
[9] 複数の映像を一つの映像として復号するにあたり、複数の映像間の視差を用いて 予測する視差補償により復号する映像復号装置であって、
符号ィヒ情報に含まれる、各参照画像に対する視差情報のパラメータ数を指定する 視差パラメータ数情報を復号する視差パラメータ数情報復号手段と、
符号化情報に含まれる前記パラメータ数に応じた視差情報を復号する視差情報復 号手段と、
前記復号した視差情報を用いて前記視差補償を行う視差補償手段と、 を備えることを特徴とする映像復号装置。
[10] 複数の映像を一つの映像として復号するにあたり、複数の映像間の視差を用いて 予測する視差補償により復号する映像復号装置であって、 前記視差補償で用いられる参照画像及び視差情報のパラメータ数があらかじめ対 応づけられている複数の参照画像インデックスの中の一つである、符号ィ匕情報に含 まれる参照画像インデックスを復号する参照画像インデックス復号手段と、
前記参照画像インデックスによって示されるパラメータ数に応じた、前記符号化情 報に含まれる視差情報を復号する視差情報復号手段と、
前記復号した視差情報と、前記復号した参照画像インデックスによって示される参 照画像とを用いて視差補償を行う視差補償手段と、
を備えることを特徴とする映像復号装置。
[11] 請求項 1、請求項 2及び請求項 3のいずれかに記載の映像符号ィ匕方法を、コンビュ ータに実行させるための映像符号ィ匕プログラム。
[12] 請求項 4、請求項 5及び請求項 6の ヽずれかに記載の映像復号方法を、コンビユー タに実行させるための映像復号プログラム。
[13] 請求項 1、請求項 2及び請求項 3の 、ずれかに記載の映像符号ィ匕方法を、コンビュ ータに実行させるための映像符号ィ匕プログラムを記録したコンピュータ読み取り可能 な記憶媒体。
[14] 請求項 4、請求項 5及び請求項 6の ヽずれかに記載の映像復号方法を、コンビユー タに実行させるための映像復号プログラムを記録したコンピュータ読み取り可能な記 憶媒体。
PCT/JP2006/326297 2006-01-05 2006-12-29 映像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体 WO2007077942A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
BRPI0620645A BRPI0620645B8 (pt) 2006-01-05 2006-12-29 Método e aparelho de codificação de vídeo, e método e aparelho de decodificação de vídeo
CN2006800491986A CN101346998B (zh) 2006-01-05 2006-12-29 视频编码方法及解码方法、其装置
US12/087,040 US8548064B2 (en) 2006-01-05 2006-12-29 Video encoding method and decoding method by using selected parallax for parallax compensation, apparatuses therefor, programs therefor, and storage media for storing the programs
JP2007552992A JP5234586B2 (ja) 2006-01-05 2006-12-29 映像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体
CA 2633637 CA2633637C (en) 2006-01-05 2006-12-29 Video encoding method and decoding method, apparatuses therefor, programs therefor, and storage media for storing the programs
EP06843675A EP1971154A4 (en) 2006-01-05 2006-12-29 VIDEO CODING METHOD AND DECODING METHOD, DEVICE THEREFOR, DEVICE THEREFOR AND STORAGE MEDIUM WITH THE PROGRAM

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006-000394 2006-01-05
JP2006000394 2006-01-05

Publications (1)

Publication Number Publication Date
WO2007077942A1 true WO2007077942A1 (ja) 2007-07-12

Family

ID=38228291

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/326297 WO2007077942A1 (ja) 2006-01-05 2006-12-29 映像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体

Country Status (10)

Country Link
US (1) US8548064B2 (ja)
EP (1) EP1971154A4 (ja)
JP (1) JP5234586B2 (ja)
KR (1) KR100968920B1 (ja)
CN (1) CN101346998B (ja)
BR (1) BRPI0620645B8 (ja)
CA (2) CA2845591C (ja)
RU (1) RU2374786C1 (ja)
TW (1) TW200737990A (ja)
WO (1) WO2007077942A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008035654A1 (fr) * 2006-09-20 2008-03-27 Nippon Telegraph And Telephone Corporation Procédés et dispositifs de codage et de décodage d'image, dispositif et programmes de décodage d'image, et support de stockage desdits programmes
WO2008035665A1 (fr) * 2006-09-20 2008-03-27 Nippon Telegraph And Telephone Corporation procédé DE CODAGE D'IMAGE, PROCÉDÉ DE DÉCODAGE, DISPOSITIF associÉ, DISPOSITIF DE DÉCODAGE D'IMAGE, programme associÉ, et support de stockage contenant le programme
WO2013136365A1 (ja) * 2012-03-14 2013-09-19 株式会社 東芝 多視点画像符号化装置及び方法、並びに、多視点画像復号装置及び方法
JPWO2013136365A1 (ja) * 2012-03-14 2015-07-30 株式会社東芝 多視点画像符号化装置及び方法、並びに、多視点画像復号装置及び方法

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101595899B1 (ko) * 2008-04-15 2016-02-19 오렌지 선형 형태의 픽셀들의 파티션들로 슬라이스 된 이미지 또는 이미지들의 시퀀스의 코딩 및 디코딩
US20120212579A1 (en) * 2009-10-20 2012-08-23 Telefonaktiebolaget Lm Ericsson (Publ) Method and Arrangement for Multi-View Video Compression
JP4927928B2 (ja) * 2009-11-30 2012-05-09 パナソニック株式会社 多視点動画像復号装置及び多視点動画像復号方法
JP4837772B2 (ja) * 2009-12-15 2011-12-14 パナソニック株式会社 多視点動画像復号装置、多視点動画像復号方法、プログラム及び集積回路
JP2011199396A (ja) * 2010-03-17 2011-10-06 Ntt Docomo Inc 動画像予測符号化装置、動画像予測符号化方法、動画像予測符号化プログラム、動画像予測復号装置、動画像予測復号方法、及び動画像予測復号プログラム
US9008175B2 (en) * 2010-10-01 2015-04-14 Qualcomm Incorporated Intra smoothing filter for video coding
US8284307B1 (en) * 2010-11-01 2012-10-09 Marseille Networks, Inc. Method for processing digital video fields
US20120163457A1 (en) * 2010-12-28 2012-06-28 Viktor Wahadaniah Moving picture decoding method, moving picture coding method, moving picture decoding apparatus, moving picture coding apparatus, and moving picture coding and decoding apparatus
JPWO2012131895A1 (ja) * 2011-03-29 2014-07-24 株式会社東芝 画像符号化装置、方法及びプログラム、画像復号化装置、方法及びプログラム
JP2012257198A (ja) * 2011-05-17 2012-12-27 Canon Inc 立体画像符号化装置、その方法、および立体画像符号化装置を有する撮像装置
KR101677003B1 (ko) * 2011-06-17 2016-11-16 가부시키가이샤 제이브이씨 켄우드 화상 부호화 장치, 화상 부호화 방법 및 화상 부호화 프로그램, 및 화상 복호 장치, 화상 복호 방법 및 화상 복호 프로그램
WO2012176405A1 (ja) * 2011-06-20 2012-12-27 株式会社Jvcケンウッド 画像符号化装置、画像符号化方法及び画像符号化プログラム、並びに画像復号装置、画像復号方法及び画像復号プログラム
MX341889B (es) * 2011-06-30 2016-09-07 Sony Corp Dispositivo de procesamiento de imagenes y metodo de procesamiento de imagenes.
US9635355B2 (en) 2011-07-28 2017-04-25 Qualcomm Incorporated Multiview video coding
US9674525B2 (en) 2011-07-28 2017-06-06 Qualcomm Incorporated Multiview video coding
JP5706264B2 (ja) 2011-08-01 2015-04-22 日本電信電話株式会社 画像符号化方法,画像復号方法,画像符号化装置,画像復号装置,画像符号化プログラムおよび画像復号プログラム
US9451232B2 (en) 2011-09-29 2016-09-20 Dolby Laboratories Licensing Corporation Representation and coding of multi-view images using tapestry encoding
JP5485969B2 (ja) * 2011-11-07 2014-05-07 株式会社Nttドコモ 動画像予測符号化装置、動画像予測符号化方法、動画像予測符号化プログラム、動画像予測復号装置、動画像予測復号方法及び動画像予測復号プログラム
BR122020007529B1 (pt) 2012-01-20 2021-09-21 Ge Video Compression, Llc Conceito de codificação que permite o processamento paralelo, desmultiplexador de transporte e fluxo de bites de vídeo
LT3793200T (lt) 2012-04-13 2023-02-27 Ge Video Compression, Llc Vaizdo kodavimas su maža delsa
JP2013258577A (ja) * 2012-06-13 2013-12-26 Canon Inc 撮像装置、撮像方法及びプログラム、画像符号化装置、画像符号化方法及びプログラム
AU2013283173B2 (en) 2012-06-29 2016-03-24 Ge Video Compression, Llc Video data stream concept
PL4033764T3 (pl) * 2012-09-26 2023-12-27 Sun Patent Trust Sposób dekodowania obrazów, sposób kodowania obrazów, urządzenie do dekodowania obrazów, urządzenie do kodowania obrazów oraz urządzenie do kodowania/dekodowania obrazów
JP2014082541A (ja) * 2012-10-12 2014-05-08 National Institute Of Information & Communication Technology 互いに類似した情報を含む複数画像のデータサイズを低減する方法、プログラムおよび装置
JP6150277B2 (ja) * 2013-01-07 2017-06-21 国立研究開発法人情報通信研究機構 立体映像符号化装置、立体映像復号化装置、立体映像符号化方法、立体映像復号化方法、立体映像符号化プログラム及び立体映像復号化プログラム
CN105052148B (zh) * 2013-04-12 2018-07-10 日本电信电话株式会社 视频编码装置和方法、视频解码装置和方法、以及其记录介质
JP6551743B2 (ja) * 2013-06-05 2019-07-31 ソニー株式会社 画像処理装置および画像処理方法
RU2679566C1 (ru) * 2013-12-10 2019-02-11 Кэнон Кабусики Кайся Улучшенный палитровый режим в hevc
EP3926955A1 (en) 2013-12-10 2021-12-22 Canon Kabushiki Kaisha Method and apparatus for encoding or decoding blocks of pixel
EP3171598A1 (en) * 2015-11-19 2017-05-24 Thomson Licensing Methods and devices for encoding and decoding a matrix of views obtained from light-field data, corresponding computer program and non-transitory program storage device
WO2018199792A1 (en) 2017-04-26 2018-11-01 Huawei Technologies Co., Ltd Apparatuses and methods for encoding and decoding a panoramic video signal
EP3639517B1 (en) 2017-06-14 2021-02-24 Huawei Technologies Co., Ltd. Intra-prediction for video coding using perspective information
CN110070564B (zh) * 2019-05-08 2021-05-11 广州市百果园信息技术有限公司 一种特征点匹配方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09261653A (ja) * 1996-03-18 1997-10-03 Sharp Corp 多視点画像符号化装置
JPH10271511A (ja) * 1997-01-22 1998-10-09 Matsushita Electric Ind Co Ltd 画像符号化装置と画像復号化装置
JP2004007377A (ja) * 2002-04-18 2004-01-08 Toshiba Corp 動画像符号化/復号化方法及び装置
JP2006000394A (ja) 2004-06-17 2006-01-05 Tokai Kiki Kogyo Co Ltd 畳側面の縫着方法及び畳用縫着装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SU1665545A1 (ru) 1988-07-21 1991-07-23 Винницкий политехнический институт Телевизионное устройство селекции изображений объектов
RU2030119C1 (ru) 1991-04-19 1995-02-27 Смирнов Александр Иванович Устройство формирования стереотелевизионного изображения подвижного объекта
US5625408A (en) * 1993-06-24 1997-04-29 Canon Kabushiki Kaisha Three-dimensional image recording/reconstructing method and apparatus therefor
JPH11239351A (ja) 1998-02-23 1999-08-31 Nippon Telegr & Teleph Corp <Ntt> 動画像符号化方法、復号方法、符号化器、復号器、動画像符号化プログラムおよび動画像復号プログラムを記録した記録媒体
JP3519594B2 (ja) * 1998-03-03 2004-04-19 Kddi株式会社 ステレオ動画像用符号化装置
US6519358B1 (en) * 1998-10-07 2003-02-11 Sony Corporation Parallax calculating apparatus, distance calculating apparatus, methods of the same, and information providing media
US7085409B2 (en) * 2000-10-18 2006-08-01 Sarnoff Corporation Method and apparatus for synthesizing new video and/or still imagery from a collection of real video and/or still imagery
JP4608136B2 (ja) 2001-06-22 2011-01-05 オリンパス株式会社 動きベクトル及び視差ベクトル検出装置
JP4213646B2 (ja) * 2003-12-26 2009-01-21 株式会社エヌ・ティ・ティ・ドコモ 画像符号化装置、画像符号化方法、画像符号化プログラム、画像復号装置、画像復号方法、及び画像復号プログラム。
KR100679740B1 (ko) 2004-06-25 2007-02-07 학교법인연세대학교 시점 선택이 가능한 다시점 동영상 부호화/복호화 방법
JP4363295B2 (ja) * 2004-10-01 2009-11-11 オムロン株式会社 ステレオ画像による平面推定方法
KR100738867B1 (ko) * 2005-04-13 2007-07-12 연세대학교 산학협력단 다시점 동영상 부호화/복호화 시스템의 부호화 방법 및시점간 보정 변이 추정 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09261653A (ja) * 1996-03-18 1997-10-03 Sharp Corp 多視点画像符号化装置
JPH10271511A (ja) * 1997-01-22 1998-10-09 Matsushita Electric Ind Co Ltd 画像符号化装置と画像復号化装置
JP2004007377A (ja) * 2002-04-18 2004-01-08 Toshiba Corp 動画像符号化/復号化方法及び装置
JP2006000394A (ja) 2004-06-17 2006-01-05 Tokai Kiki Kogyo Co Ltd 畳側面の縫着方法及び畳用縫着装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
"ITU-T Rec.H.264/ISO/IEC 11496-10, "Advanced Video Coding"", FINAL COMMITTEE DRAFT, DOCUMENT JVT-E022, September 2002 (2002-09-01)
HATA K. ET AL.: "Tashiten Gazo no Ko Noritsu Fugoka", THE TRANASACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, vol. J82-D-II, no. 11, November 1999 (1999-11-01), pages 1921 - 1929, XP008031096 *
HIDEAKI KIMATA; MASAKI KITAHARA: "Preliminary results on multiple view video coding (3DA V", M10976 MPEG REDMOND MEETING, July 2004 (2004-07-01)
KOICHI HATA; MINORU ETOH; KUNIHIRO CHIHARA: "Coding of Multi-Viewpoint Images", IEICE TRANSACTIONS, vol. J82-D-II, no. 1 1, 1999, pages 1921 - 1929
MASAYUKI TANIMOTO; TOSHIAKI FUJII: "Response to Call for Evidence on Multi-View Video Coding", MXXXXX MPEG HONG KONG MEETING, January 2005 (2005-01-01)
See also references of EP1971154A4

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008035654A1 (fr) * 2006-09-20 2008-03-27 Nippon Telegraph And Telephone Corporation Procédés et dispositifs de codage et de décodage d'image, dispositif et programmes de décodage d'image, et support de stockage desdits programmes
WO2008035665A1 (fr) * 2006-09-20 2008-03-27 Nippon Telegraph And Telephone Corporation procédé DE CODAGE D'IMAGE, PROCÉDÉ DE DÉCODAGE, DISPOSITIF associÉ, DISPOSITIF DE DÉCODAGE D'IMAGE, programme associÉ, et support de stockage contenant le programme
EP2066132A1 (en) * 2006-09-20 2009-06-03 Nippon Telegraph and Telephone Corporation Image encoding and decoding methods, their devices, image decoding device, their programs, and storage medium in which programs are recorded
JP4999854B2 (ja) * 2006-09-20 2012-08-15 日本電信電話株式会社 画像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体
JP4999853B2 (ja) * 2006-09-20 2012-08-15 日本電信電話株式会社 画像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体
US8290289B2 (en) 2006-09-20 2012-10-16 Nippon Telegraph And Telephone Corporation Image encoding and decoding for multi-viewpoint images
EP2066132A4 (en) * 2006-09-20 2012-11-07 Nippon Telegraph & Telephone IMAGE ENCODING AND DECODING METHODS AND DEVICES, IMAGE DECODING DEVICE AND PROGRAMS, AND STORAGE MEDIUM OF SAID PROGRAMS
US8385628B2 (en) 2006-09-20 2013-02-26 Nippon Telegraph And Telephone Corporation Image encoding and decoding method, apparatuses therefor, programs therefor, and storage media for storing the programs
WO2013136365A1 (ja) * 2012-03-14 2013-09-19 株式会社 東芝 多視点画像符号化装置及び方法、並びに、多視点画像復号装置及び方法
JPWO2013136365A1 (ja) * 2012-03-14 2015-07-30 株式会社東芝 多視点画像符号化装置及び方法、並びに、多視点画像復号装置及び方法

Also Published As

Publication number Publication date
JPWO2007077942A1 (ja) 2009-06-11
KR100968920B1 (ko) 2010-07-14
CA2845591C (en) 2015-12-08
CN101346998A (zh) 2009-01-14
CA2845591A1 (en) 2007-07-12
BRPI0620645B8 (pt) 2022-06-14
TWI335185B (ja) 2010-12-21
EP1971154A1 (en) 2008-09-17
RU2374786C1 (ru) 2009-11-27
CA2633637C (en) 2014-06-17
EP1971154A4 (en) 2010-10-27
CA2633637A1 (en) 2007-07-12
BRPI0620645B1 (pt) 2020-09-15
US8548064B2 (en) 2013-10-01
KR20080076974A (ko) 2008-08-20
TW200737990A (en) 2007-10-01
JP5234586B2 (ja) 2013-07-10
CN101346998B (zh) 2012-01-11
BRPI0620645A2 (pt) 2011-11-16
US20090028248A1 (en) 2009-01-29

Similar Documents

Publication Publication Date Title
WO2007077942A1 (ja) 映像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体
JP5234587B2 (ja) 映像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体
US9088802B2 (en) Video encoding method and apparatus, video decoding method and apparatus, programs therefor, and storage media for storing the programs
JP7279154B2 (ja) アフィン動きモデルに基づく動きベクトル予測方法および装置
JP2007329693A (ja) 画像符号化装置、及び画像符号化方法
CN112703735B (zh) 视频编/解码方法及相关设备和计算机可读存储介质
CN111107354A (zh) 一种视频图像预测方法及装置
JP5560009B2 (ja) 動画像符号化装置
WO2020088482A1 (zh) 基于仿射预测模式的帧间预测的方法及相关装置
CN112740663B (zh) 图像预测方法、装置以及相应的编码器和解码器
TW201328362A (zh) 影像編碼方法、裝置、影像解碼方法、裝置及該等之程式
JP5841395B2 (ja) イントラ予測装置、符号化装置、及びプログラム
Ahmmed et al. A Two-Step Discrete Cosine Basis Oriented Motion Modeling Approach for Enhanced Motion Compensation
Kim et al. Multilevel Residual Motion Compensation for High Efficiency Video Coding

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200680049198.6

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application
DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 5103/DELNP/2008

Country of ref document: IN

WWE Wipo information: entry into national phase

Ref document number: 2633637

Country of ref document: CA

Ref document number: 2006843675

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2007552992

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 12087040

Country of ref document: US

Ref document number: 2008125846

Country of ref document: RU

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: PI0620645

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20080625