WO2008053746A1 - Procédé de génération d'informations de référence prédictives, procédé de codage et de décodage d'image dynamiques, leur dispositif, leur programme et support de stockage contenant le programme - Google Patents

Procédé de génération d'informations de référence prédictives, procédé de codage et de décodage d'image dynamiques, leur dispositif, leur programme et support de stockage contenant le programme Download PDF

Info

Publication number
WO2008053746A1
WO2008053746A1 PCT/JP2007/070636 JP2007070636W WO2008053746A1 WO 2008053746 A1 WO2008053746 A1 WO 2008053746A1 JP 2007070636 W JP2007070636 W JP 2007070636W WO 2008053746 A1 WO2008053746 A1 WO 2008053746A1
Authority
WO
WIPO (PCT)
Prior art keywords
prediction
information
reference information
region
frame
Prior art date
Application number
PCT/JP2007/070636
Other languages
English (en)
French (fr)
Inventor
Shinya Shimizu
Kazuto Kamikura
Yoshiyuki Yashima
Hideaki Kimata
Original Assignee
Nippon Telegraph And Telephone Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph And Telephone Corporation filed Critical Nippon Telegraph And Telephone Corporation
Priority to CN2007800386378A priority Critical patent/CN101529918B/zh
Priority to BRPI0717639 priority patent/BRPI0717639A2/pt
Priority to EP07830370A priority patent/EP2079242A4/en
Priority to US12/445,047 priority patent/US8355438B2/en
Priority to CA 2665781 priority patent/CA2665781C/en
Priority to JP2008542055A priority patent/JP4999859B2/ja
Publication of WO2008053746A1 publication Critical patent/WO2008053746A1/ja
Priority to US13/711,904 priority patent/US8675735B2/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/573Motion compensation with multiple frame prediction using two or more reference frames in a given prediction direction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding

Definitions

  • Prediction reference information generation method moving picture encoding and decoding method, apparatus thereof, program thereof, and storage medium storing the program
  • the present invention divides an image into regions and applies a temporal or spatial inter-frame predictive coding method for each region, and a reference frame of a processing target region and a processing target region in the reference frame Prediction reference for generating prediction reference information that is used when generating a prediction image of the processing target region based on the reference information indicating the position of the prediction target and processing the moving image to be prediction information of the reference information
  • Information generating method and apparatus moving picture encoding method and apparatus using the prediction reference information generating method, moving picture decoding method for decoding encoded data generated by the moving picture encoding method and the same Apparatus, prediction reference information generation program used for realizing the prediction reference information generation method, a computer-readable recording medium storing the program, and a moving picture encoding method thereof
  • a multi-view video is a plurality of videos taken by the same subject and background with a plurality of cameras.
  • a moving image shot with one camera is called a “two-dimensional moving image”
  • a two-dimensional moving image group in which the same subject and background are shot is called a “multi-view moving image”.
  • the two-dimensional moving image of each camera included in the multi-viewpoint moving image has a strong correlation with respect to the time direction.
  • the images of the cameras taken at the same time are taken from different positions of the subject and background in the same state, so there is a strong correlation between the cameras.
  • coding is performed by using these correlations. To improve efficiency.
  • the method used in inter-frame predictive coding in 2D video coding is generally called motion compensation because it uses video changes over time, that is, motion.
  • the interframe predictive coding in the time direction following the example is referred to as motion compensation.
  • a frame represents a single image taken at a certain time constituting a moving image.
  • motion compensation is performed from an I frame that is coded without using correlation between frames and a single frame that has been coded in the past.
  • a reference image can be selected for each block, and decoding processing is enabled by encoding reference image designation information for designating a reference image.
  • a vector for indicating which position in the reference image is to be used for prediction of the encoding target block is encoded. This vector is called a motion vector.
  • a prediction vector is generated from a motion vector of an adjacent block of a block to be encoded, and the motion vector used for motion compensation of the block to be encoded Only the difference vector from the prediction vector is encoded. According to this method, when there is continuity of motion between adjacent blocks, a motion vector can be encoded with high encoding efficiency.
  • H.264 As shown in FIG. 20A, the left block (a in the figure), the upper block (b in the figure), and the upper right block (c in the figure) From the used motion vectors (mv-a, mv-b, mv-c), the horizontal component and the vertical component are individually obtained with a median value.
  • variable block size motion compensation is employed in H.264, the motion compensation block size of the current block and the surrounding blocks may not be the same.
  • block b is the leftmost block in the upper adjacent block
  • block c is the closest block in the upper right.
  • the block on the left uses block a and the block on the right uses block c for prediction.
  • the size of the encoding target block is 16 ⁇ 8 pixels, as shown in FIG. 20D, the lower block uses block a and the upper block uses block b instead of the center block.
  • a reference frame is selected for each block from a plurality of frames encoded in the past, and motion compensation is performed using the reference frame.
  • the output time of each frame is used as information for knowing the time interval.
  • this time information is encoded for each frame because it is necessary for decoding the video in the order of the shooting time when the input order and the encoding order of the shot images are different. That is, the encoder sets the time information of the input image attached according to the input order and encodes each frame, and the decoder outputs the decoded image of each frame in the order specified by the set time information.
  • frames A, B, and C shown in FIG. 21 are encoded in the order of frames A, C, and B, and frame C is encoded while performing motion compensation using frame A as a reference frame! /
  • the motion vector of a block in frame B is obtained as follows.
  • the motion vector fmv when the frame A is the reference frame and the motion vector bmv when the frame C is the reference frame are calculated according to the following equations.
  • T 1, T 2, and T 3 are the time interval between frame A and frame B
  • Time interval between frame B and frame C and the time interval between frame A and frame C.
  • the temporal direct mode can be used only in a B frame (B ⁇ predictive frame) using two reference frames for each block.
  • Non-Patent Document 2 shown below proposes a method for efficiently encoding motion vectors even in P frames that use only one reference frame per block by applying this.
  • Non-Patent Document 3 As a method for efficiently encoding a motion vector, there is a method described in Non-Patent Document 3 shown below.
  • FIGS. 22A to 22D show an outline thereof.
  • a prediction vector is generated using the motion vectors of the peripheral blocks of the block to be encoded, and the difference vector between the motion vector used for actual motion compensation and the prediction vector is used. Only code (see Figure 22A).
  • the difference from H.264, etc. is that the force is also used by scaling the motion vector according to the time interval using the following formula instead of using the motion vector of the surrounding block as it is.
  • mv k is the original motion vector
  • mv k ' is the scaled motion vector
  • T ct is the time interval between the current frame and the frame that the current block is trying to reference
  • T is The frame to be encoded and the frame referenced by the surrounding blocks
  • Examples in which this method is used include the method described in MPEG-2 Multiview profile and Non-Patent Document 4.
  • Non-Patent Document 4 encoding is performed by selecting either motion compensation or parallax compensation for each block. By selecting the one with the best coding efficiency for each block, both the correlation in the time direction and the correlation between the cameras can be used, and only one of them is used. To achieve efficiency.
  • a disparity vector is encoded in addition to the prediction residual. What is a disparity vector?
  • FIG. 23 shows a conceptual diagram of disparity vectors generated between the cameras.
  • the image plane of a camera with parallel optical axes is viewed vertically.
  • a prediction vector is generated from the disparity vector of the adjacent block of the encoding target block, and the disparity vector used for the disparity compensation of the encoding target block, as in the case of the motion vector encoding. It is possible to use a method of encoding only the difference vector from this prediction vector. According to this method, it is possible to encode the disparity vector with high coding efficiency when there is continuity of disparity between adjacent blocks.
  • Non-Patent Document 1 ITU-T Rec. H.264 / ISO / IEC 11496-10, "Editor's Proposed Draft Text Modifications for Joint Video Specification (ITU-T Rec. H.264 / ISO / IEC 14496-1 0 AVC) , Draft 7 ", Final Committee Draft, Document JVT—E022, pp. 63—64, and 117-121, September 2002.
  • Non-Patent Document 2 Alexis Michael Tourapis, "Direct Prediction for Predictive (P) and Bidi rectionally Predictive (B) frames in Video and oding," JVT-CI 28, Joint Video Team (JV T) of ISO / IEC MPEG & ITU-T VCEG Meeting, pp. 1-11, May, 2002.
  • Non-Patent Document 3 Kato Atsushi, Buntchunsen, Motion Vector Prediction in Multi-prediction Reference Image Coding Using Temporal Motion Vector Normalization ", PCSJ2004 Image Coding Symposium Material 19th, P-2.18, Nov. 2004.
  • Non-Patent Document ⁇ 3 ⁇ 4 4 Hideaki imata and Masaki itahara, Preliminary results on multiple view video coding (3DAV) ⁇ , document M10976 MPEG Redmond Meeting, July, 2004 Disclosure of the Invention
  • a conventional method of encoding a motion vector or a disparity vector actually used in an encoding target block with a difference from a prediction vector generated using a motion vector or a disparity vector used in an adjacent block is: Because the subject exists continuously in real space, the subject's movement does not change greatly within the same subject, the probability is high! /, And! /, Based on the fact that it is! It is possible to encode motion vectors and disparity vectors used in the encoding target block with fewer! / And code amount. [0032] However, in the case where an optimal reference frame for predicting the image of the encoding target block is used in an adjacent block, the difference between the motion vector actually used and the prediction vector is It becomes large and the amount of codes cannot be reduced sufficiently.
  • the motion vector and the disparity vector have significantly different properties. It is impossible to generate a motion vector or to generate a motion vector prediction vector from a disparity vector, and information for inter-frame prediction cannot be efficiently encoded.
  • the temporal direct mode described in Non-Patent Document 1 and the method described in Non-Patent Document 2 and Non-Patent Document 3 are used to convert the image of the block to be encoded.
  • Reference frame power at the best time to predict It can be used in adjacent blocks! /, Such as V / !!, but it's efficient! / Can generate motion vectors.
  • the reference frame shot by the camera optimal for predicting the encoding target block is used in the adjacent block.
  • a method for generating a parallax vector a method of scaling and using a parallax vector used in an adjacent block using a camera interval instead of a time interval can be easily inferred.
  • the prediction reference information generating apparatus divides an image into regions and applies a temporal or spatial inter-frame predictive coding method for each region to thereby determine the region to be processed.
  • the prediction reference used for predicting the reference information of the processing target area the reference information obtained when processing the already processed adjacent area adjacent to the processing target area is used.
  • Each of the processing means described above can be realized by a computer program, and this computer program is provided by being recorded on an appropriate computer-readable recording medium or provided via a network to implement the present invention.
  • the present invention is realized by being installed and operating on a control means such as a CPU.
  • prediction reference information generating apparatus of the present invention configured as described above, first, reference information when processing an already processed adjacent region adjacent to the processing target region is referred to the processing target region. It is set as prediction reference information prediction data used for information prediction.
  • reference area reference information is generated from one or more reference information used when the reference area indicated by the prediction reference information prediction data is processed, and the set prediction reference is set.
  • the reference information prediction data is changed using the generated reference area reference information.
  • prediction reference information serving as prediction information of the reference information of the processing target region is generated.
  • the prediction reference information generation apparatus of the present invention uses the reference information when processing the already processed adjacent region adjacent to the processing target region as it is, and uses the reference information of the processing target region as it is.
  • reference information when processing the adjacent region in consideration of the non-linear motion of the subject and the non-constant linear motion of the camera Is set as prediction reference information prediction data, and reference region reference information is generated from one or more reference information used when processing the reference region indicated by the prediction reference information prediction data.
  • change the prediction reference information prediction data and use the changed prediction reference information prediction data to generate prediction reference information that becomes the prediction information of the reference information of the processing target area To handle It is.
  • the process of changing the predicted reference information prediction data may be repeated using the changed predicted reference information prediction data. This process is repeated until the frame is reached.
  • the prediction reference information generation device of the present invention configured as described above, when there is no temporal continuity of video change between a plurality of frames, or when motion compensation and difference compensation are selected for each processing target region
  • the difference between the reference information used for encoding or decoding the processing target region and the prediction reference information can be reduced, so that the frame can be reduced.
  • the motion vector for inter-predictive coding can be encoded and decoded efficiently.
  • the prediction reference information generation method of the present invention realized by the prediction reference information generation apparatus of the present invention configured as described above can be applied to a moving picture encoding method.
  • the moving image encoding method of the present invention refers to a case where the entire image is divided into regions, and image information of the region is predicted from a plurality of already encoded frames for each region.
  • Select the encoding target area reference frame to be used as a frame, and reference the encoding target area A prediction image is generated using a frame and reference information (for example, a motion vector or a disparity vector) indicating the prediction target position of the encoding target region in the encoding target region reference frame, and the prediction image and the encoding target region (I)
  • Reference information when an already encoded adjacent area adjacent to the encoding target area is encoded when the moving image is encoded by encoding the difference information with the image of Prediction reference information prediction data setting step for setting prediction reference information prediction data used for prediction of reference information of the encoding target region, and (mouth) when the reference region indicated by the prediction reference information prediction data is encoded
  • a reference region reference information generating step for generating reference region reference information from one or more reference information used in the step
  • the corresponding point information indicated by the prediction reference information prediction data is indicated by the corresponding point information indicated by the prediction reference information prediction data and the reference area reference information.
  • the prediction reference information prediction data is changed by changing the sum to the corresponding point information.
  • the prediction reference information prediction data changing step by changing the corresponding point information indicated by the prediction reference information prediction data to the corresponding point information indicated by the reference region reference information, The prediction reference information prediction data is changed.
  • the corresponding point information indicated by the prediction reference information prediction data is indicated by the corresponding point information indicated by the prediction reference information prediction data and the reference region reference information.
  • the prediction reference information prediction data is changed by changing to either one of the sum of the corresponding point information and the corresponding point information of the reference area reference information.
  • the time information and viewpoint information of the encoding target region reference frame the time information of the frame including the reference region, Predictive reference information prediction using viewpoint information, time information and viewpoint information of a reference area reference frame that is a reference frame when the reference area is encoded, and time information and viewpoint information of the encoding target frame Decide whether to change the corresponding point information of the data to the sum of the corresponding point information of the predicted reference information prediction data and the corresponding point information of the reference area reference information or to the corresponding point information of the reference area reference information You may do it.
  • the viewpoint camera parameter of the encoding target frame, the camera parameter of the viewpoint of the encoding target area reference frame, and the camera parameter of the viewpoint of the frame indicated by the prediction reference information prediction data are used.
  • a reference area reference information geometric transformation step is performed in which geometric transformation is performed on the corresponding point information indicated by the reference area reference information using the camera parameter at the viewpoint of the frame indicated by the reference area reference information corresponding to the prediction reference information prediction data.
  • the region on the reference frame of the encoding target region is searched for a region associated with the reference region pointed to by the prediction reference information prediction data, and the prediction reference information prediction data A prediction reference information prediction data search step for changing the search information to corresponding information of the search result.
  • a search is performed with the area indicated by the correspondence information of the predicted reference information prediction data as the search center, and the information may be changed to information based on the search result.
  • the region on the reference frame of the encoding target region is searched, the region associated with the adjacent region of the encoding target region is searched, and the prediction reference information prediction data is searched.
  • the prediction reference information prediction data search step a search is performed with the region indicated by the correspondence information of the prediction reference information prediction data as the search center, and information based on the search result is obtained.
  • Information may change.
  • the prediction reference information generation method of the present invention realized by the prediction reference information generation apparatus of the present invention configured as described above can be applied to a moving picture decoding method.
  • the moving image decoding method of the present invention generates a predicted image for each region when decoding the image while dividing the entire image into regions and generating predicted images from a plurality of frames that have already been decoded.
  • Information indicating a reference frame to be decoded that is an already decoded frame to be used for reference, reference information indicating a prediction target position of the decoding target region in the decoding target region reference frame, prediction image and decoding target region When adopting a configuration that decodes the moving image by decoding the difference information from the image, (i) the reference information when the already decoded neighboring area adjacent to the decoding target area is decoded is the decoding target.
  • Predictive reference information prediction data setting step to be set as prediction reference information prediction data used for prediction of area reference information, and (mouth) indicated by prediction reference information prediction data
  • a reference region reference information generating step for generating reference region reference information from one or more reference information used when decoding the reference region; and (c) the reference region reference information generated by generating the predicted reference information prediction data.
  • Prediction reference information prediction data changing step to be changed by using (2) one or a plurality of changed prediction reference information prediction data existing prediction reference information serving as prediction information of reference information of a decoding target region
  • a prediction reference information generation step to be generated and (e) a difference reference information decoding step for decoding difference information between the reference information used to generate a prediction image for the decoding target region and the prediction reference information from the encoded data.
  • the corresponding point information indicated by the prediction reference information prediction data is indicated by the corresponding point information indicated by the prediction reference information prediction data and the reference region reference information.
  • the prediction reference information prediction data is changed by changing the sum to the corresponding point information.
  • the prediction reference information prediction data changing step the prediction reference information is changed.
  • the predicted reference information prediction data is changed by changing the corresponding point information indicated by the reference information prediction data to the corresponding point information indicated by the reference area reference information.
  • the corresponding point information indicated by the prediction reference information prediction data is indicated by the corresponding point information indicated by the prediction reference information prediction data and the reference region reference information.
  • the predicted reference information prediction data is changed by changing either the sum of the corresponding point information or the corresponding point information indicated by the reference area reference information.
  • the time information and viewpoint information of the decoding target area reference frame, the time information and viewpoint information of the frame included in the reference area, and the reference area are decoded.
  • the corresponding point information of the predicted reference information prediction data is converted into the correspondence of the predicted reference information prediction data. Whether to change to the sum of the point information and the corresponding point information of the reference area reference information or to change to the corresponding point information of the reference area reference information may be determined.
  • a prediction reference information geometric conversion step of applying geometric conversion to the corresponding point information indicated by the prediction reference information prediction data using the camera parameter of the viewpoint of the decoding target frame, the camera parameter of the viewpoint of the decoding target area reference frame, and the camera parameter of the viewpoint of the frame indicated by the prediction reference information prediction data.
  • the camera parameter of the viewpoint of the decoding target frame, the camera parameter of the viewpoint of the decoding target area reference frame, the camera parameter of the viewpoint of the frame indicated by the prediction reference information prediction data A reference area reference information geometric transformation step is performed in which geometric transformation is applied to the corresponding point information indicated by the reference area reference information using the camera parameter at the viewpoint of the frame indicated by the reference area reference information corresponding to the prediction reference information prediction data.
  • the region on the reference frame of the decoding target region is searched for a region associated with the reference region indicated by the prediction reference information prediction data, and the prediction reference information prediction data is obtained.
  • a prediction reference information prediction data search step for changing to correspondence information of a search result;
  • a search is performed with the region indicated by the correspondence information of the prediction reference information prediction data as the search center, and information may be changed to information based on the search result.
  • the region on the reference frame of the decoding target region is searched for a region associated with the adjacent region of the decoding target region, and the prediction reference information prediction data is searched for A prediction reference information prediction data search step for changing to the corresponding information.
  • a search is performed with the region indicated by the correspondence information of the prediction reference information prediction data as the search center, and the information may be changed to information based on the search result.
  • the reference information used when encoding the area adjacent to the encoding target area is encoded using the encoding information used when encoding the reference area.
  • the reference information suitable for the time and viewpoint relationship between the frame and the encoding target reference frame and then generating the predicted reference information, there is no temporal continuity of video conversion between multiple frames! /, Even when encoding a multi-viewpoint image while selecting motion compensation and parallax compensation for each encoding unit region, the encoding target region without encoding additional information indicating the conversion operation method is encoded. It is possible to reduce the difference between the reference information used for conversion and the prediction reference information, and to efficiently encode motion vectors and disparity information for interframe prediction encoding.
  • FIG. 1 is a diagram showing an example of processing when predictive reference information prediction data is changed to the sum of prediction reference information prediction data and reference region reference information according to the present invention.
  • FIG. 2 is a diagram showing an example of processing when changing prediction reference information prediction data to reference region reference information according to the present invention.
  • FIG. 3 is an example of an embodiment of a video encoding device of the present invention.
  • FIG. 4 is an example of a flowchart of a video encoding process executed by the video encoding device of the present embodiment.
  • 5 This is an example of a flowchart of a process for changing prediction reference information prediction data when only video prediction in the time direction is possible in the encoding in this embodiment.
  • FIG. 7 is an example of a flowchart as a part of the flowchart of FIG. 6 in a case where the encoding target block predicts video change between cameras.
  • FIG. 8 is an example of a flowchart as a part of the flowchart of FIG. 6 when the encoding target block predicts temporal video change.
  • FIG. 9 is an example of a flowchart of a process of changing prediction reference information prediction data when arbitrary video prediction is possible for each encoding target block in the encoding in the present embodiment.
  • FIG. 10 is an example of a flowchart as a part of the flowchart of FIG. 9 when the encoding target block predicts video change between cameras.
  • FIG. 11 is an example of a flowchart as a part of the flowchart of FIG. 9 when the encoding target block performs temporal video change prediction.
  • FIG. 12 is an example of a flowchart as a part of the flowchart of FIG. 9 when the encoding target block predicts a video change in which a temporal change and a change between dynamics are mixed.
  • FIG. 13 is an explanatory diagram of prediction reference information prediction data change processing executed in S310 of the flowchart of FIG.
  • FIG. 14 is an explanatory diagram of a process of changing prediction reference information prediction data executed in S318 of the flowchart of FIG.
  • FIG. 15 is an explanatory diagram of a process for changing prediction reference information prediction data executed in S415 of the flowchart of FIG.
  • FIG. 16 is an explanatory diagram of a process of changing prediction reference information prediction data executed in S433 in the flowchart of FIG. 11.
  • FIG. 17 is an explanatory diagram of prediction reference information prediction data change processing executed in S444 of the flowchart of FIG.
  • FIG. 18 is an example of an embodiment of the video decoding device of the present invention.
  • FIG. 19 is an example of a flowchart of a video decoding process executed by the video decoding device according to the present embodiment.
  • FIG. 20B An explanatory diagram of motion vector prediction in ⁇ ⁇ 264.
  • FIG. 20C is an explanatory diagram of motion vector prediction in V.264.
  • FIG. 20D Similarly, it is an explanatory diagram of motion vector prediction in V.264.
  • FIG. 21 is an explanatory diagram of motion vector generation in the direct mode.
  • FIG. 22 is an explanatory diagram of a method for generating a prediction vector using motion vectors of peripheral blocks of an encoding target block.
  • FIG. 23 is an explanatory diagram of parallax generated between cameras.
  • the moving image decoding method uses the encoding target region / reference information used for encoding / decoding the decoding target region as the encoding target region. / Prediction using the reference information of the neighboring area of the decoding target area, the reference information used to encode / decode the reference area that was referenced when the neighboring area was encoded / decoded, By modifying the reference information of the region, it is possible to generate highly accurate prediction reference information even if there is no continuity of video change between multiple frames.
  • the reference information power when the reference region of the adjacent region is encoded / decoded can also be obtained.
  • reference information obtained by encoding / decoding a reference region of this adjacent region that is, a region indicated by prediction reference information prediction data
  • reference region reference information is referred to as reference region reference information.
  • This reference region reference information is actually used when encoding / decoding the reference region, and is considered to represent a change in video with high reliability for good encoding efficiency. It is done. Therefore, it can be said that the information modified using such information also represents the change in the image with high reliability.
  • an image change from the reference frame in the adjacent area to the frame to be encoded / decoded is added to the video change from the reference frame in the adjacent area to the reference frame in the adjacent area.
  • the video change from the reference frame in the reference area to the encoding / decoding target frame is obtained.
  • the reference region of the adjacent region is not a unit region for encoding / decoding processing, and the force that can be considered that the region includes a plurality of pieces of reference information, in which case ⁇
  • a method may be used in which the reference information used in the unit area of the encoding / decoding process that includes the most reference areas is used as the reference area reference information.
  • Reference information that is encoded / decoded with respect to a unit area of encoding / decoding processing is assumed to be possessed by all pixels included in the area, and appears most frequently in multiple reference areas. Use reference information as reference area reference information
  • a method may be used.
  • this correction may be repeated, for example, by correcting the reference information that has been corrected only once.
  • the prediction reference closer to the video change from the encoding / decoding target area reference frame Information prediction data can be obtained.
  • the video change from the reference frame in the adjacent area to the encoding / decoding target frame is assumed to be equal to the video change from the reference frame in the adjacent area to the encoding / decoding target area reference frame.
  • the video change from the decoding target area reference frame to the encoding / decoding target frame is obtained.
  • the first is the fact that subject changes in the real world are physically limited.
  • the disparity in the region to which the correspondence relationship is given in the temporally different frames that is, the adjacent region and the reference region of the adjacent region is very similar.
  • the second is the fact that there is only one subject movement in the real world.
  • the fact that there is only one change in the subject indicates that the movements captured by each camera are all the same, and the correlation between the movements of the subject is high!
  • the motions in the region where the correspondence is given in the frames taken at the same time with different cameras that is, the motion of the adjacent region and the reference region of the adjacent region are very similar.
  • the reference information can be accurately predicted in the encoding target region and the adjacent region even if the reference target is different in the time direction and the camera direction.
  • the time relationship and the viewpoint relationship between the reference region of the adjacent region and the reference frame are more suitable depending on the time relationship and the viewpoint relationship between the encoding / decoding target frame and the encoding / decoding target region reference frame. The more you can replace, the more accurate you can predict.
  • each method Since each method has different characteristics of the video used, which method is appropriate depends on the situation. Therefore, by switching for each encoding / decoding target region, it is possible to make corrections suitable for that region, and it is possible to generate prediction reference information that more accurately represents video changes.
  • the previous method accumulates temporal changes in video between frames, and is therefore a method suitable for predicting temporal video changes.
  • the latter method is based on the video change time and the camera.
  • This method is suitable for transforming the dimension between the two, so it can be determined from the video prediction method used in the encoding / decoding target area, the predicted reference information prediction data, and the dimension of the video change indicated by the reference area reference information. It is possible to determine which method should be applied.
  • the time information and viewpoint information of the encoding / decoding target area reference frame the time information and viewpoint information of the frame including the reference area, and the reference frame when the reference area is encoded / decoded.
  • the time information and viewpoint information of the reference region reference frame and the time information and viewpoint information of the encoding / decoding target frame it is possible to accurately determine a method to be applied.
  • the camera parameters of the viewpoint of the encoding / decoding target frame, the camera parameters of the viewpoint of the encoding / decoding target area reference frame, and the viewpoint of the frame including the reference area are described.
  • the reference information may be corrected by adding geometric transformation to the reference information.
  • a region corresponding to the reference region indicated by the prediction reference information prediction data is searched for the region on the reference frame of the region to be encoded / decoded as a search target, and the prediction reference is made.
  • a method of replacing the information prediction data with the corresponding information of the search result may be used.
  • the region on the reference frame of the encoding target region is searched for a region associated with the adjacent region of the encoding target region, and the predicted reference information prediction data
  • a method may be used in which is replaced with the correspondence information of the search result.
  • the reference frame of the prediction reference information prediction data is closer to the encoding / decoding target area reference frame than the encoding / decoding target frame, the reference information of the prediction reference information prediction data represents a halfway movement. Therefore, it is only necessary to search for changes from there, and the calculation cost can be reduced.
  • FIG. 3 shows an example of an embodiment of the video encoding device 100 of the present invention.
  • the moving picture coding apparatus 100 obtains a corresponding area in a reference frame that has already been coded for each of the areas into which the picture to be coded is divided and the picture input unit 101 that inputs the picture to be coded.
  • a block matching execution unit 102 that performs block matching
  • a prediction image creation unit 103 that generates a prediction image of an image in the encoding target region using the block matching result and the reference frame, and an image in the encoding target region
  • a difference image encoding unit 104 that encodes a difference image from the predicted image
  • a difference image decoding unit 105 that decodes the difference image encoded data
  • Reference frame memo that stores the decoded image of the image of the target area as a reference frame 106
  • the reference information storage memory 107 for storing the reference information of the block matching result used to generate the predicted image, and the reference information of the block matching result used to generate the predicted image.
  • Prediction reference information prediction data memory 108 that stores reference information that is candidates for prediction reference information used for encoding, prediction reference information generation unit 109 that generates prediction reference information from prediction reference information prediction data, and generation of a prediction image
  • the difference reference information encoding unit 110 that encodes the difference between the reference information of the block matching result used for the prediction and the prediction reference information, and the prediction reference information prediction data on the prediction reference information prediction data memory 108 are corrected.
  • a reference frame selection unit 113 that selects a reference frame to be used for encoding, and a reference frame designation information encoding unit 114 that encodes information for designating a reference frame used for encoding an encoding target region.
  • FIG. 4 shows a flowchart executed by the moving picture encoding apparatus 100 configured as described above.
  • an image to be encoded is input from the image input unit 101 [S101].
  • the input image to be encoded is divided into regions for the entire screen and encoded for each region [S102 to S121].
  • the block (area) index is represented by blk
  • the total number of blocks for one image is represented by MaxBlk.
  • the reference frame be used to encode the block st—ref, reference information best—mv, prediction reference information best—pmv is obtained [S 103 to S 117], information for this video prediction, and image information of extra-block lk encoded using these
  • the encoded data is decoded and the decoded image information, best-ref and best-mv, are stored in the reference frame memory, respectively. And stored in the reference frame designation information storage memory 112 and the reference information storage memory 107 [S 1 19 col.
  • the encoding process of S118 information indicating best-ref is encoded by reference frame designation information encoding section 114, and the difference between best-mv and best-pmv is differential reference information encoding.
  • a difference image between the input image encoded by the unit 110 and the predicted image generated by the predicted image creation unit 103 using these pieces of information is encoded by the difference image encoding unit 104.
  • the coded data of the difference image is decoded by the difference image decoding unit 105, and the sum of the result and the predicted image generated by the predicted image creation unit 103 is obtained to decode the block blk. Get image information.
  • Information for video prediction used at the time of encoding is obtained by repeatedly executing the following processes [S104 to S115] for all available reference frames.
  • ref is the number of all available reference frames 0103 ⁇ 46 Until [3116], adding this 1 [3117], processing to generate prediction reference information [S 104 to S 107], and processing to obtain reference information that minimizes the rate distortion cost [S 108 to S 115] are repeatedly executed.
  • the process of generating the prediction reference information was used when the block was encoded for a plurality of blocks adjacent to the non-block lk after the prediction reference information prediction data memory 108 was initialized [S104].
  • MV and REF are stored in the reference information storage memory 107 and the reference frame designation information storage memory 112 in association with the block index or the position in the image, respectively.
  • the blocks adjacent to the top, left, and upper right can be used as a plurality of blocks adjacent to the block blk.
  • the reference information of these three adjacent blocks is set in the prediction reference information prediction data. However, if the corresponding block falls outside the screen, it will be excluded from the candidates.
  • the prediction reference information prediction data in the prediction reference information prediction data memory 108 is taken out, changed by the reference information changing unit 111, and stored again in the prediction reference information prediction data memory 10 8. [S 106]. The processing performed here will be described in detail later.
  • the prediction reference information pmv is generated from the plurality of reference information stored in the prediction reference information prediction data memory 108 [S107]. Specifically, prediction reference information pmv is created by taking an intermediate value of prediction reference information prediction data for each component of reference information.
  • the reference information is expressed as a two-dimensional vector of X—Y
  • the intermediate value of the corresponding component of multiple prediction reference information prediction data is obtained, and pmv is determined as the component value.
  • an average value, a maximum value, a minimum value, etc. may be used based on any standard. However, it is necessary to use the same standard as that used by the video decoding device.
  • reference information mv corresponding to mv-idx is obtained [S109].
  • the reference information power corresponding to mv-idx has already been stored in memory cand-mv.
  • the image information of the upper area is set as a predicted image.
  • the rate distortion cost cost is calculated based on the following equation using the generated prediction image Pre, the image information Org of the block blk, and pmv mv ref [S 111]
  • is Lagrange's undetermined multiplier, and a preset value is used.
  • bit () represents a function that returns a code amount necessary to encode given information.
  • D is a force S that is the sum of absolute differences of two image information
  • V may be the sum of squared differences
  • SATD is used to calculate the sum after converting the difference information to the frequency domain. Also good.
  • FIG. 5 shows a flowchart in a case where all input frames and reference frames are images taken from the same camera.
  • FIGS. 6 to 8 show flow charts when a multi-viewpoint image is input and the reference frame is an image having the same display time (shooting time) as the input frame or an image taken by the same camera.
  • FIGS. 9 to 12 show flowcharts when a multi-viewpoint image is inputted and any already encoded frame can be used as a reference frame.
  • prediction reference information prediction data that has not been changed that is, has FIN force SO
  • the prediction reference information prediction data memory has a reference frame, reference information, and reference information used when a plurality of blocks adjacent to the block blk that is the encoding target block are encoded.
  • P-can has information indicating the position of the block, reference frame number of the adjacent block, reference information of the adjacent block, and information indicating the position of the adjacent block. Information.
  • the reference frame number of p-can is set to ref-can, and the reference information of p-can is set to mv-can [S202].
  • ref-can is equal to the reference frame number ref of the reference frame to be used when encoding block blk [S203], FIN is set to 1 [S204], and p_can is left as it is Stored in the prediction reference information prediction data memory 108 [S211].
  • the prediction reference information prediction data extracted from the prediction reference information prediction data memory 108 is used. Since it is better to generate the prediction reference information pmv as it is, the p-can is processed to be stored in the prediction reference information prediction data memory 108 as it is.
  • ref-can when ref-can is not equal to the reference frame number ref of the reference frame to be used when encoding block blk, p can (adjacent region) on frame ref can
  • the reference frame used by the most pixels when coding the area (reference area) shifted by mv—can is referred to as ref—tel, and the reference frame within this area is ref—tel.
  • the reference information used in the most pixels is mv-tel [S205], and processing is performed based on the following conditional expression [S206 to S210].
  • TIME () is the display time of the frame corresponding to the given reference frame number.
  • This conditional expression means that it is determined whether or not the reference frame ref-tel is closer in time to the reference frame ref of the encoding target block blk than the reference frame ref-can.
  • the reference frame ref of the encoding target block blk is set as the search target using the decoded image information of the encoding target frame at the position of p-can, and the search center is set to mv — Set to can, find the corresponding region on the reference frame ref, change the displacement from the search center (corresponding information) to mv—canBM [S208], rewrite ref—can to ref, mv to can mv to canBM ⁇ Power [S209].
  • the reference frame ref of the encoding target block blk is used as the search target, and the adjacent region of the encoding target block blk. It is also possible to use a method of searching for a region that matches the adjacent region of the force coding target block blk using a method of searching for a region that matches the reference region associated with.
  • the reference information changing unit 1 1 1 executes the flowchart of FIG.
  • the prediction reference information prediction data stored in the prediction reference information prediction data memory 108 is processed in such a manner as shown in FIG.
  • prediction reference information prediction data having FIN force SO is extracted and set as p-can [S 301].
  • the reference frame number of p—can is set to ref—can
  • the reference information of p—can is set to m V—can [S302].
  • ref-can is equal to the reference frame number ref of the reference frame to be used when encoding the block blk [S 303], FIN is set to 1 and [S 304], p_can is set.
  • the prediction reference information is stored in the prediction data memory 108 as it is [S336, S337].
  • the reference frame used in the most pixels when encoding the area (reference area) indicated by mv-can on the frame ref-can is defined as ref-tel
  • ref-tel the reference information used in most pixels is mv-tel [S 305]
  • the following processing [S 306 to S 335] is performed, and then p-can is Prediction reference information is stored in the prediction data memory 108 [S 336, S 337].
  • the display time of the encoding target frame cur and the display time of the reference frame ref of the encoding target block are compared [S308], and if they are the same, the change between video cameras in the block blk is predicted. If it is different, execute the process [Figure 8: S321 to S335] when predicting the temporal change of the video in the block blk.
  • VIEW 0 in the flowchart of FIG. 7 represents a function that returns a viewpoint (camera) index for photographing a frame corresponding to a given frame number.
  • the parallax to the frame ref of the adjacent area is converted to mv-transl using the camera parameters of frame cur, frame ref—can, and frame ref [S310], ref—can is rewritten to ref, and mv is can mv write on transl! I get [S311].
  • the geometric transformation performed in S310 is executed according to the following procedure.
  • the position force mp can be expressed by p_can mv—determine the center position of the region (reference region) shifted by can 3 ⁇ 4 pos—can
  • Trans (src, dst, pix, d) can be defined by the following formula, and in the case of the distance force from the pixel at the position pix on the image at the viewpoint src to the subject, the pixel pix on the image at the viewpoint dst Represents the homogeneous coordinate value of the corresponding pixel p.
  • A, R, and t are camera parameters, which respectively indicate an internal parameter, a rotation parameter, and a translation parameter.
  • Internal parameters and rotation parameters are 3 X 3 matrices, and t is a 3D vector vector.
  • those with ⁇ added to the coordinate values indicate homogeneous coordinate values.
  • FIG. 13 shows an example of the geometric transformation performed in the process of S310. For ease of viewing, mv-can and mv-transl are shown shifted up and down.
  • mv-can is converted to mv-transl, and in S311, mv-can is rewritten to mv-transl.
  • this time interval is greater than or equal to THl
  • the corresponding region on the reference frame ref is obtained using the decoded image information of the encoding target frame at the p-can position, and the displacement from the p-can position (corresponding to Information) is mv-BM [S315], ref-can is rewritten to ref, and mv-can is rewritten to mv_BM [S316].
  • the geometric transformation performed in S318 is executed according to the following procedure.
  • Trans (ref_can, ref_tel, pos_can, x) is prolonged (indicated by adding ⁇ to p above)
  • FIG. 14 shows an example of geometric transformation performed in the process of S318.
  • TIME (ref_can) TIME (ref_tel), VIEW (ref) ⁇ VIEW (ref—tel), the process of geometric transformation from mv—tel to mv—trans2 is performed. Processing to rewrite mv-can to mv-trans2 (the dashed line in the figure is the processing result) will be performed.
  • the frame ref—can is the frame ref.
  • the search center is determined to be close in time, the search center is set to mv-can using the decoded image information of the frame to be encoded at the p-can position, and the corresponding region on the reference frame ref
  • the displacement from the search center is mv-canBM [S325]
  • ref-can is rewritten to ref
  • mv-canBM is squeezed into mv-can [S326].
  • the search center is set to mv-tel using the decoded image information of the encoding target frame at the position of p-can, and the reference is made. Find the corresponding area on the reference frame ref, change the displacement from the search center (corresponding information) to mv—telBM [S330], rewrite ref—can to ref, mv—can to mv—tel and mv—telBM Rewrite to [S331].
  • the matching ratio of the shooting areas of VIEW (cur) and VIEW (ref—tel) is It is determined whether or not it is greater than the predetermined threshold value TH2! /, [S332].
  • Diff (caml, cam2) represents a matching degree of the imaging area, one camera (determined in advance either, it fits threshold TH2 is selected) both cameras for shadow region capable shooting in Gives the percentage of the area that can be shot with. However, only real space from the camera to the distance given separately is considered. Further, the given threshold value T H2 is assumed to be greater than the smallest Diff value! / For all camera combinations! /.
  • prediction reference information prediction data having FIN force SO is extracted and set as p-can [S401].
  • the reference frame number of p—can is set to ref—can
  • the reference information of p—can is set to m V—can [S402].
  • the reference that is used by the most pixels when encoding the region (reference region) on the frame ref—can where p—can (adjacent region) is shifted by mv—can After performing the following processing [S406 to S451] with ref_tel as the frame and the reference information in this area as the reference frame of ref—tel and the reference information used by most pixels as mv-tel [S405] , P—can is stored in the prediction reference information prediction data memory 108 [S452, S453].
  • the parallax to the frame ref can of the area (adjacent area) of the position of P can in the frame cur in the same manner as the processing in S310 described above mv can To the disparity mv—transl of the adjacent region to the frame ref using the camera parameters of the frame cur, the frame ref—can, and the frame ref [S410], and writing the ref—can to the r ef , Rewrite mv one can to mv one transl [S411].
  • geometric transformation process performed in S410 is the same as the geometric transformation process described in S310.
  • the camera that shot the frame ref—tel is the same as the camera that shot the frame ref
  • the geometric transformation performed in S415 is executed according to the following procedure.
  • Trans (ref_can, ref_tel, pos_can, x) is prolonged (indicated by adding ⁇ to p above)
  • FIG. 15 shows an example of geometric transformation performed in the process of S415. For ease of viewing, mv-tel and mv-tran3 are shown shifted up and down.
  • mv—tel is converted to mv—trans3.
  • the process of rewriting can to mv-trans3 (the broken line in the figure is the result of the process) is performed.
  • the frame ref—can display time and the frame ref—tel display time are determined in S412. If it is determined that IJ is different, the time interval between frame cur and frame ref—tel is given in advance. Judge whether it is smaller than the threshold value TH1 [S417]
  • the corresponding region on the reference frame ref is obtained using the decoded image information of the frame to be encoded at the p-can position, and the displacement from the p-can position (corresponding information)
  • mv—can is rewritten to mv—BM [S420]
  • the search center is set to mv-can using the decoded image information of the frame to be encoded at the position of p-can, and the reference frame ref The corresponding region of the search is obtained, the displacement (corresponding information) from the search center is mv-canBM [S426], ref-can is rewritten to ref, and mv-canBM is applied to mv-can [S427].
  • search in S429 may be performed only when the center of the corresponding region is around a straight line obtained by the following procedure by using a restriction between cameras.
  • the maximum and minimum values of X to be changed are not determined, but they may be set in advance.
  • FIG. 16 shows an example of the geometric transformation performed in the process of S433.
  • VIEW (cur) VIEW (rei), VIEW (cur) ⁇ VIEW (ref_can)
  • the search center is set to mv-can using the decoded image information of the encoding target frame at the position of p-can, and the corresponding region on the reference frame ref is set to The displacement (corresponding information) from the search center is mv—mark iBM2 [S436] ref—can is rewritten to ref, and mv—mark iBM2 is added to mv—can [S437]
  • search in S436 may be performed only when the center of the corresponding region is around the straight line obtained by the following procedure by using the restriction between cameras.
  • the maximum and minimum values of X to be changed are not determined, but they may be set in advance.
  • the corresponding region on the reference frame ref is obtained using the decoded image information of the encoding target frame at the p-can position, and the displacement from the p-can position (corresponding information) is calculated.
  • mv—BM as [S440]
  • ref—can is rewritten as ref
  • mv—can is rewritten as mv—BM [S441].
  • p-can adjacent block position in the image taken with VIEW (ref-can) is set to mv in the same way as in S318.
  • Parallax to the image taken with VIEW (rei) of the reference region mv—to trans2 perform geometric transformation using VIEW (ref—can), VIEW (ref—tel), and VIEW (rei) camera parameters [S444], rewrite ref—can to ref, mv—can mv — Add trans2 [S445].
  • FIG. 17 shows an example of geometric transformation performed in the process of S444. For ease of viewing, mv-tel and mv-trans2 are shown shifted up and down.
  • the decoded image information of the frame to be encoded at the position of p-can is used.
  • the search center is set to mv—can, the corresponding region on the reference frame ref is obtained, the displacement from the search center (corresponding information) is set to mv—mark iBM2 [S446], and ref—can is rewritten to ref. Add mv—mark iBM2 to mv—can [S447].
  • search in S446 uses only the constraints between the cameras, and only searches for the case where the center of the corresponding region is around the straight line obtained by the same procedure as in the process of S336 described above. Good.
  • the reference information changing unit 111 performs the prediction reference information prediction data memory 108 in the form shown in FIGS. 1 and 2 by executing the flowcharts of FIGS. Processing is performed to change the stored prediction reference information prediction data.
  • FIG. 18 shows an embodiment of the moving picture decoding apparatus 200 according to the present invention.
  • the moving picture decoding apparatus 200 is configured to calculate a difference image with respect to a predicted image of an image to be decoded.
  • a differential image decoding unit 201 that decodes encoded data
  • a differential reference information decoding unit 202 that decodes encoded data of differential reference information with respect to prediction reference information of reference information when generating a predicted image
  • a predicted image A reference frame specifying information decoding unit 203 for decoding the encoded data of the reference frame specifying information at the time of generation, and a decoding target frame using the reference frame, the reference frame specifying information, and the reference information that are already decoded frames
  • a predicted image generating unit 204 that generates a predicted image
  • a reference frame memory 205 that stores a decoded image obtained by summing the predicted image and the decoded difference image, and predicted reference information prediction data
  • prediction reference information Prediction reference information generation unit 206 that generates prediction reference information from candidate reference information
  • prediction reference information prediction data memory 207 that stores prediction reference information prediction data
  • FIG. 19 shows a flow cheat executed by the moving picture decoding apparatus 200 configured as described above.
  • the encoded data of the difference image, the encoded data of the difference reference information, and the encoded data of the reference frame designation information are input to the moving image decoding apparatus 200, and each of them is input to the difference image decoding unit 201.
  • the difference reference information decoding unit 202 and the reference frame designation information decoding unit 203 are sent [S501].
  • the entire image is divided into regions, and decoding is performed for each region [S502 to S515].
  • the block (area) index is represented as blk
  • the total number of blocks contained in one image is represented as MaxBlk.
  • the encoded data of the reference frame designation information is decoded to obtain the reference frame designation information ref [S503], and the prediction reference for predicting the reference information for the reference frame ref
  • the encoded reference data is decoded to obtain differential reference information mvd [S508], consisting of the sum of pmv and mvd Generate reference information mv [S509].
  • the prediction image Pre is generated using the reference frame ref and the reference information mv [S 510], the encoded data of the difference image is decoded, and the difference image Sub is obtained [S511], The decoded image Dec is generated by calculating the sum of each pixel with Sub [S512].
  • the decoded image Dec, the reference information mv that is information used to decode the block blk, and the reference frame designation information ref are respectively stored in the reference frame memory 205, the reference information accumulation memory 208, and the reference frame designation information accumulation. Store in memory 210 [S 513].
  • each frame was decoded after the decoding process for all the blocks included in the frame was completed and after all the frames having the display time before that frame were output.
  • a frame is output from the video decoding device 200.
  • MV and REF are stored in the reference information storage memory 208 and the reference frame designation information storage memory 210 in association with the block index or the position in the image, respectively.
  • the blocks adjacent to the top, left, and upper right can be set as S I'll do it.
  • the reference information of these three adjacent blocks is set in the prediction reference information prediction data. However, if the block is outside the screen, It shall be excluded from the supplement.
  • the prediction reference information prediction data in the prediction reference information prediction data memory 207 is taken out, changed by the reference information changing unit 209, and stored again in the prediction reference information prediction data memory 207 [S 506 ].
  • the processing performed here will be described in detail later.
  • the prediction reference information pmv is generated from the plurality of reference information stored in the prediction reference information prediction data memory 207 [S507]. Specifically, prediction reference information pmv is created by taking an intermediate value of prediction reference information prediction data for each component of reference information.
  • the reference information is expressed as a two-dimensional vector of X—Y
  • the intermediate value of the corresponding component of multiple prediction reference information prediction data is obtained, and pmv is determined as the component value.
  • an average value, a maximum value, a minimum value, etc. may be used based on any standard. However, it is necessary to use the same standard as that used by the video encoding device.
  • FIN is initialized to 0 for all the prediction reference information prediction data stored in the prediction reference information prediction data memory 207, and until all FIN power losses are reached, FIG. 5 to FIG.
  • FIG. 5 shows a flowchart in a case where all input frames and reference frames are images taken from the same camera.
  • FIGS. 6 to 8 show flow charts when a multi-viewpoint image is input and the reference frame is an image having the same display time (shooting time) as the input frame or an image taken by the same camera.
  • FIGS. 9 to 12 show flowcharts when a multi-viewpoint image is inputted and any already encoded frame can be used as a reference frame.
  • the decoding apparatus it may be understood as a flowchart when any already decoded frame can be used as a reference frame.
  • a method of generating mv_tel in addition to taking the mode value as described above, a method of generating an intermediate value or an average value for each component may be used! /.
  • intra-frame coding is not described in the embodiment, as one method of creating a predicted image, for example, it can be easily added by assigning another number as reference frame designation information. Can do.
  • the above-described moving picture encoding and decoding processes can be realized by a computer and a software program, and the program can be recorded on a computer-readable recording medium and provided. It can also be provided through a network.
  • the present embodiment includes steps corresponding to the operations of the respective units of the moving image encoding device and the moving image decoding device.
  • the video encoding method and video decoding method of the invention can be realized.
  • the reference information used when encoding the area adjacent to the encoding target area is encoded using the encoding information used when encoding the reference area.

Description

明 細 書
予測参照情報生成方法、動画像符号化及び復号方法、それらの装置、 及びそれらのプログラム並びにプログラムを記録した記憶媒体
技術分野
[0001] 本発明は、画像を領域分割し、領域毎に、時間的又は空間的なフレーム間予測符 号化方式を適用して、処理対象領域の参照フレームとその参照フレームにおける処 理対象領域の予測対象位置を示す参照情報とに基づいて処理対象領域の予測画 像を生成して動画像を処理するときに用いられて、その参照情報の予測情報となる 予測参照情報を生成する予測参照情報生成方法及びその装置と、その予測参照情 報生成方法を用いる動画像符号化方法及びその装置と、その動画像符号化方法に より生成された符号化データを復号する動画像復号方法及びその装置と、その予測 参照情報生成方法の実現に用いられる予測参照情報生成プログラム及びそのプロ グラムを記録したコンピュータ読み取り可能な記録媒体と、その動画像符号化方法の 実現に用いられる動画像符号化プログラム及びそのプログラムを記録したコンビユー タ読み取り可能な記録媒体と、その動画像復号方法の実現に用いられる動画像復号 プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体とに 関する。
本願 (ま、 2006年 10月 30曰 ίこ出願された特願 2006— 293929号 ίこ基づき優先権 を主張し、その内容をここに援用する。
背景技術
[0002] 多視点動画像(多視点映像)とは、複数のカメラで同じ被写体と背景を撮影した複 数の動画像のことである。以下では、 1つのカメラで撮影された動画像を" 2次元動画 像"と呼び、同じ被写体と背景を撮影した 2次元動画像群を"多視点動画像"と呼ぶ。
[0003] 多視点動画像に含まれる各カメラの 2次元動画像は、時間方向に関して強い相関 力 る。一方、各カメラが同期されていた場合、同じ時刻に撮影した各カメラの映像 は全く同じ状態の被写体と背景を別の位置から撮影したものなので、カメラ間で強い 相関がある。動画像の符号化においては、これらの相関を利用することによって符号 化効率を高めている。
[0004] まず、 2次元動画像の符号化技術に関する従来技術を述べる。
[0005] 国際標準動画像符号化規格である MPEG— 2や H.264などをはじめとした従来の 多くの 2次元動画像符号化方式では、フレーム間予測符号化と呼ばれる方法によつ て、時間方向の相関を利用して高!、符号化効率を実現して!/、る。
2次元動画像符号化におけるフレーム間予測符号化で用いる方法は、時間による 映像の変化つまり動きを利用したものであるため、一般に動き補償と呼ばれる。以下 では、その例に倣い時間方向のフレーム間予測符号化を動き補償と呼ぶ。なお、フ レームとは動画像を構成するある時刻に撮影された 1枚の画像を表す。
[0006] 一般的な 2次元動画像符号化における各フレームの符号化モードには、フレーム 間の相関を使わずに符号化する Iフレームと、過去に符号化した 1枚のフレームから 動き補償を行いながら符号化する Pフレームと、過去に符号化した 2枚のフレームか ら動き補償を行いながら符号化する Bフレームとがある。
[0007] さらに、映像予測の効率を向上させるために、映像符号化方式 H.263と H.264では
、参照画像メモリに 2フレーム以上の複数フレーム分の復号画像を蓄積しておき、そ のメモリから参照画像を選択して予測をすることができる。
参照画像はブロック毎に選択することができ、参照画像を指定する参照画像指定 情報を符号化することで復号処理を可能としている。
[0008] 動き補償では、参照画像指定情報のほかに、参照画像内のどの位置を用いて符号 化対象ブロックの予測を行うのかを示すためのベクトルが符号化される。このべクトノレ は動きベクトルと呼ばれる。
[0009] 動きベクトルの符号化においては、 MPEG— 4や H.264では、符号化対象ブロック の隣接ブロックの動きベクトルから予測ベクトルを生成し、符号化対象ブロックの動き 補償で用いる動きベクトルとこの予測ベクトルとの差分ベクトルのみを符号化する。こ の方法によれば、隣接ブロック間に動きの連続性がある場合に、動きベクトルを符号 化効率よく符号化することができる。
[0010] H.264における予測ベクトルの生成手順の詳細については、下記に示す非特許文 献 1に記載されている力 S、以下で概要を説明する。 [0011] H.264では、図 20Aに示すように、符号化対象ブロックの左のブロック(図中の a)、 上のブロック(図中の b)、右上のブロック(図中の c)で用いた動きベクトル(mv— a, m v— b, mv— c)から、水平成分及び垂直成分を個々に中央値をとつて求める。
[0012] H.264では、可変ブロックサイズ動き補償を採用しているため、符号化対象ブロック と周辺ブロックの動き補償ブロックサイズが同一でない場合がある力 その場合は、 図 20Bのように、ブロック aは左に隣接するブロックの内の最も上のブロックとし、ブロ ック bは上に隣接するブロックの内の最も左のブロックとし、ブロック cは右上に存在す る最も近いブロックとする。
例外として、符号化対象ブロックのサイズが 8 X 16画素の場合は、図 20Cに示すよ うに、中央ィ直の代わりに、左のブロックはブロック aを、右のブロックはブロック cを予測 に用い、符号化対象ブロックのサイズが 16 X 8画素の場合は、図 20Dに示すように、 中央ィ直の代わりに、下のブロックはブロック aを、上のブロックはブロック bを予測に用 いる。
[0013] また、前述の通り、 H.264では、過去に符号化した複数のフレームの中から、ブロッ ク毎に参照フレームを選択し、その参照フレームを用いて動き補償を行う。
[0014] 一般的に、被写体の動きは参照フレームによって変化するため、符号化対象ブロッ クの参照フレームと異なる参照フレームを用いて動き補償をしている場合の動きべク トルより、同じ参照フレームを用いて動き補償をしている場合の動きベクトルのほうが、 符号化対象ブロックで用いる動きベクトルに近いベクトルであると考えられる。
そのため、 H.264では、ブロック a, b, cの内、符号化対象ブロックと参照フレームが 等しいブロックがひとつだけある場合は、中央値の代わりに、そのブロックの動きべク トルを予測ベクトルとして用いることで、より信頼度の高レ、予測ベクトルを生成してレ、る
[0015] 物体が等速直線運動をする場合など、複数のフレーム間に動きの連続性がある場 合に、動きベクトルを符号化効率よく符号化する方法として、符号化順序で直前のフ レームの動きベクトルを蓄積しておき、その動きベクトル情報を時間間隔に従ってス ケーリングして動きベクトルを算出する方法がある。
[0016] この時間間隔を知るための情報には各フレームの出力時刻が利用される。 一般的に、この時間情報は、撮影画像の入力順とエンコード順が異なる場合などに 、映像を撮影時刻順序通りに復号する際に必要なため、フレーム毎に符号化される。 つまり、エンコーダでは、入力順に応じて付けられた入力画像の時刻情報を設定して 各フレームを符号化し、デコーダでは、各フレームの復号画像を設定されていた時刻 情報によって指定された順に出力する。
[0017] 複数のフレーム間に存在する動きの連続性を利用して動きベクトルを符号化効率よ く符号化する方法として、 H.264において時間ダイレクトモードと呼ばれているものが ある。
[0018] 例えば、図 21に示すフレーム A, B, Cについて、フレーム A, C , Bの順に符号化を 行い、フレーム Cがフレーム Aを参照フレームとして動き補償を行!/、ながら符号化され ているとする。このような状況において、時間ダイレクトモードでは、フレーム Bのある ブロックの動きベクトルは次のように求められる。
まず、符号化対象ブロックと同位置のフレーム C上のブロックで使われている動きべ クトノレ mvを見つける。
次に、下記の式に従って、フレーム Aを参照フレームとしたときの動きベクトル fmvと 、フレーム Cを参照フレームとしたときの動きベクトル bmvとを計算する。
[0019] fmv = (mv X T ) /T
AB AC
bmv = (mv X T ) /Ύ
BC BC
ここで、 T 、T 、T は、それぞれ、フレーム Aとフレーム Bとの間の時間間隔、フレ
AB BC AC
ーム Bとフレーム Cとの間の時間間隔、フレーム Aとフレーム Cとの間の時間間隔を示 す。
[0020] H.264においては、時間ダイレクトモードは、ブロック毎に参照フレームを 2枚用いる Bフレーム(B卜 predictive Frame:双予測フレーム)においてのみ利用することが可能 である。
下記に示す非特許文献 2では、これを応用することで、ブロック毎に 1枚の参照フレ ームのみを使用する Pフレームにおいても、動きベクトルを効率よく符号化する方法 が提案されている。
[0021] 隣接ブロック間の動きの連続性と、複数フレーム間の動きの連続性との両者を仮定 して動きベクトルを効率よく符号化する方法として、下記に示す非特許文献 3に記載 されている方法がある。
[0022] 図 22A〜22Dに、その概要を示す。この手法では、 H.264や MPEG— 4と同じよう に、符号化対象ブロックの周辺ブロックの動きベクトルを用いて予測ベクトルを生成し 、実際の動き補償で用いる動きベクトルと予測ベクトルとの差分ベクトルのみを符号 化する(図 22A参照)。
H.264等と異なる点は、周辺ブロックの動きベクトルをそのまま使うのではなぐ以下 の式を用いて、動きベクトルを時間間隔に従ってスケーリングして力も利用する点で ある。
[0023] mv_k, = mv_k X Τ /Ύ
ct ck
ここで、 mv kは元の動きべクトノレ、 mv k'はスケーリングされた動きべクトノレ、 T ct は符号化対象フレームと符号化対象ブロックが参照しょうとしているフレームとの間の 時間間隔、 T は符号化対象フレームとその周辺ブロックが参照しているフレームとの
ck
間の時間間隔を表す(図 22B〜22D参照)。
[0024] 次に、従来の多視点動画像の符号化方式について説明する。
[0025] 一般的な多視点動画像の符号化では、カメラ間の相関を利用するために、同じ時 刻に異なるカメラで撮影されたフレーム間に動き補償を適用した"視差補償"を用い ることで高レ、符号化効率を実現してレ、る。
[0026] この手法が使われている例としては、 MPEG— 2 Multiview profileや非特許文 献 4に記載される方法などがある。
[0027] 非特許文献 4の方法では、ブロック毎に動き補償と視差補償のどちらか一方を選択 して符号化を行っている。ブロック毎に符号化効率のよいほうを選ぶことによって、時 間方向の相関とカメラ間の相関の両方を利用することができ、どちらか一方しか使わ なレ、場合に比べて高!/、符号化効率を達成してレ、る。
[0028] 視差補償では、予測残差のほかに視差ベクトルが符号化される。視差ベクトルとは
、フレーム間の時間変化である動きベクトルに対応するものであり、異なる位置に配 置されたカメラで撮影された画像平面上で、被写体上の同じ位置が投影されている 位置の差を表す。 [0029] 図 23に、このカメラ間で生じる視差ベクトルの概念図を示す。この概念図では、光 軸が平行なカメラの画像平面を垂直に見下ろしたものとなっている。
[0030] 視差ベクトルの符号化においては、動きベクトルの符号化と同様に、符号化対象ブ ロックの隣接ブロックの視差ベクトルから予測ベクトルを生成し、符号化対象ブロック の視差補償で用いる視差ベクトルとこの予測ベクトルとの差分ベクトルのみを符号化 する方法を用いることができる。この方法によれば、隣接ブロック間に視差の連続性 力 る場合に、視差ベクトルを符号化効率よく符号化することができる。
非特許文献 1 : ITU-T Rec.H.264/ISO/IEC 11496-10, "Editor's Proposed Draft Text Modifications for Joint Video Specification (ITU-T Rec. H.264 / ISO/IEC 14496-1 0 AVC), Draft 7", Final Committee Draft, Document JVT— E022, pp. 63—64, and 117 -121, September 2002.
非特許文献 2 : Alexis Michael Tourapis, "Direct Prediction for Predictive(P) and Bidi rectionally Predictive(B) frames in Videoし oding," JVT- CI 28, Joint Video Team (JV T) of ISO/IEC MPEG&ITU-T VCEG Meeting, pp. 1—11, May, 2002.
非特許文献 3 :加藤禎篤,ブンチュンセン,〃時間的動きベクトル正規化を用いた複数 予測参照画像の符号化における動きベクトル予測", PCSJ2004画像符号化シンポジ ゥム資料 19th, P-2.18, Nov. 2004.
非特許文 Ι¾ 4: Hideaki imata and Masaki itahara, Preliminary results on multiple view video coding (3DAV)〃, document M10976 MPEG Redmond Meeting, July, 2004 発明の開示
発明が解決しょうとする課題
[0031] 符号化対象ブロックで実際に用いる動きベクトルや視差ベクトルを、隣接ブロックで 使用された動きベクトルや視差ベクトルを用いて生成した予測ベクトルとの差分で符 号化するという従来の方法は、実空間上で被写体は連続して存在し、被写体の動き は同じ被写体内では大きくは変化しなレ、確率が高!/、と!/、う事実に基づレ、て!/、るため、 符号化対象ブロックで用いる動きベクトルや視差ベクトルを、より少な!/、符号量で符 号化することが可能である。 [0032] しかしながら、符号化対象ブロックの画像を予測するのに最適な参照フレームが、 隣接ブロックで使われてレ、なレ、ような場合、実際に用いる動きベクトルと予測べクトノレ との差は大きくなり、符号量を十分に削減することが出来ない。
[0033] 特に、ブロック毎に動き補償と視差補償とを適応的に選択して符号化を行う場合、 動きベクトルと視差ベクトルとでは性質が大きく異なるため、動きベクトルから視差べク トルの予測ベクトルを生成したり、視差ベクトルから動きベクトルの予測ベクトルを生成 したりすることは不可能であり、フレーム間予測のための情報を効率的に符号化する ことが出来ない。
[0034] 動きベクトルに関しては、非特許文献 1に記載の時間ダイレクトモードや、非特許文 献 2や非特許文献 3に記載されているような方法を用いることで、符号化対象ブロック の画像を予測するのに最適な時刻の参照フレーム力 隣接ブロックで使われて!/、な V、ような場合にお!/、ても、効率のよ!/、動きベクトルを生成することができる。
[0035] しかしながら、これらの方法はフレーム間の動きの連続性を仮定しているため、被写 体が数フレームに渡りカメラに対して等速直線運動に近い動きをしていなければ、効 率のよ!/、予測ベクトルを生成できな!/、。
[0036] 視差ベクトルに関しても、符号化対象ブロックを予測するのに最適なカメラで撮影さ れた参照フレームが隣接ブロックで使われてレ、なレ、ような場合にお!/、て、効率のょレヽ 視差ベクトルを生成するための方法として、時間間隔の変わりにカメラ間隔を用いて 、隣接ブロックで使用された視差ベクトルをスケーリングして使用する方法が容易に 類推可能である。
[0037] しかしながら、この方法では、カメラの向きが平行(光軸が平行)の場合には適切な 予測ベクトルを生成できる力 それ以外の場合には適切な予測ベクトルを生成するこ とができないため、効率的な符号化を実現することができない。
[0038] また、当然のことながら、このような時間間隔やカメラ間隔を用いて既に符号化済み の動きベクトルや視差ベクトルをスケーリングして利用する方法を用いたとしても、ブ ロック毎に動き補償と視差補償とを適応的に選択して符号化するような場合において は、適切な予測ベクトルを生成することは困難であり、効率的な符号化を実現するこ とは出来ない。 [0039] 本発明は力、かる事情に鑑みてなされたものであって、複数フレーム間で実際及び 見かけ上の被写体やカメラの運動が等速直線運動でな!/、場合にお!/、ても、符号化 時の映像予測に用いる動きベクトルや視差情報との差分が小さくなるような、予測べ タトルや予測視差情報を生成する新たな技術の提供を目的とする。
課題を解決するための手段
[0040] 〔1〕本発明の予測参照情報生成装置
この目的を達成するために、本発明の予測参照情報生成装置は、画像を領域分割 し、領域毎に、時間的又は空間的なフレーム間予測符号化方式を適用して、処理対 象領域の参照フレームとその参照フレームにおける処理対象領域の予測対象位置 を示す参照情報とに基づいて処理対象領域の予測画像を生成して動画像を処理す るときに用いられて、その参照情報の予測情報となる予測参照情報を生成する処理 を行うために、(ィ)処理対象領域に隣接する既に処理済みの隣接領域を処理した際 の参照情報を、処理対象領域の参照情報の予測に用いる予測参照情報予測データ として設定する予測参照情報予測データ設定手段と、(口)予測参照情報予測データ によって指し示される参照領域を処理した際に用いた 1つ以上の参照情報から参照 領域参照情報を生成する参照領域参照情報生成手段と、(ハ)予測参照情報予測 データを、生成された前記参照領域参照情報を用いて変更する予測参照情報予測 データ変更手段と、(二) 1つ又は複数存在する変更した予測参照情報予測データを 用いて、前記予測参照情報を生成する予測参照情報生成手段とを備える。
[0041] 以上の各処理手段はコンピュータプログラムでも実現できるものであり、このコンビュ ータプログラムは、適当なコンピュータ読み取り可能な記録媒体に記録して提供され たり、ネットワークを介して提供され、本発明を実施する際にインストールされて CPU などの制御手段上で動作することにより本発明を実現することになる。
[0042] このように構成される本発明の予測参照情報生成装置では、先ず最初に、処理対 象領域に隣接する既に処理済みの隣接領域を処理した際の参照情報を、処理対象 領域の参照情報の予測に用いる予測参照情報予測データとして設定する。
[0043] 続!/、て、予測参照情報予測データによって指し示される参照領域を処理した際に 用いた 1つ以上の参照情報から参照領域参照情報を生成して、その設定した予測参 照情報予測データを、生成された前記参照領域参照情報を用いて変更する。
[0044] 続!/、て、 1つ又は複数存在する変更した予測参照情報予測データを用いて、処理 対象領域の参照情報の予測情報となる予測参照情報を生成する。
[0045] このようにして、本発明の予測参照情報生成装置は、処理対象領域に隣接する既 に処理済みの隣接領域を処理した際の参照情報をそのまま用いて、処理対象領域 の参照情報の予測情報となる予測参照情報を生成するのではなくて、被写体の非直 線的な動きやカメラの非等速直線運動的な動きを考慮して、その隣接領域を処理し た際の参照情報を予測参照情報予測データとして設定して、その予測参照情報予 測データによって指し示される参照領域を処理した際に用いた 1つ以上の参照情報 から参照領域参照情報を生成して、その生成した参照領域参照情報に基づ!/、て予 測参照情報予測データを変更し、その変更した予測参照情報予測データを用いて、 処理対象領域の参照情報の予測情報となる予測参照情報を生成するように処理す るのである。
[0046] このとき、変更した予測参照情報予測データを使って予測参照情報予測データの 変更処理を繰り返していくようにしてもよぐこの繰り返し処理を行う場合には、例えば 、処理対象領域の参照フレームに到達するまで、この繰り返し処理を行うことになる。
[0047] このように構成される本発明の予測参照情報生成装置によれば、複数フレーム間 における映像変化の時間的連続性がない場合や、処理対象領域毎に動き補償と視 差補償を選択しながら多視点画像を符号化したり復号する場合においても、処理対 象領域を符号化したり復号する際に用いる参照情報と予測参照情報との差を小さく することができるようになることで、フレーム間予測符号化のための動きベクトルゃ視 差情報を効率よく符号化したり復号することができるようになる。
[0048] 〔2〕本発明の動画像符号化方法
前述のように構成される本発明の予測参照情報生成装置により実現される本発明 の予測参照情報生成方法は、動画像符号化方法に適用することが可能である。
[0049] 即ち、本発明の動画像符号化方法は、画像全体を領域分割して、領域毎に、既に 符号化済みの複数のフレームの中から、その領域の画像情報を予測する際に参照 フレームとして用いる符号化対象領域参照フレームを選択し、符号化対象領域参照 フレームと、該符号化対象領域参照フレームにおける符号化対象領域の予測対象 位置を示す参照情報 (例えば、動きベクトルや視差ベクトル)とを用いて予測画像を 生成して、予測画像と符号化対象領域の画像との差分情報を符号化することで動画 像を符号化するという構成を採るときに、(ィ)符号化対象領域に隣接する既に符号 化済みの隣接領域を符号化した際の参照情報を、符号化対象領域の参照情報の予 測に用いる予測参照情報予測データとして設定する予測参照情報予測データ設定 ステップと、(口)予測参照情報予測データによって指し示される参照領域を符号化し た際に用いた 1つ以上の参照情報から参照領域参照情報を生成する参照領域参照 情報生成ステップと、 (ハ)予測参照情報予測データを、生成された前記参照領域参 照情報を用いて変更する予測参照情報予測データ変更ステップと、(二) 1つ又は複 数存在する変更した予測参照情報予測データを用いて、符号化対象領域の参照情 報の予測情報となる予測参照情報を生成する予測参照情報生成ステップと、 (ホ)符 号化対象領域に対する予測画像を生成するために用いた参照情報と予測参照情報 との差分情報を符号化する差分参照情報符号化ステップとを有する。
[0050] 典型例として、前記予測参照情報予測データ変更ステップでは、前記予測参照情 報予測データが示す対応点情報を、前記予測参照情報予測データが示す対応点 情報と前記参照領域参照情報が示す対応点情報との和に変更することによって、前 記予測参照情報予測データを変更する。
[0051] 別の典型例として、前記予測参照情報予測データ変更ステップでは、前記予測参 照情報予測データが示す対応点情報を、前記参照領域参照情報が示す対応点情 報に変更することによって、前記予測参照情報予測データを変更する。
[0052] 好適には、前記予測参照情報予測データ変更ステップでは、前記予測参照情報 予測データが示す対応点情報を、前記予測参照情報予測データが示す対応点情 報と前記参照領域参照情報が示す対応点情報との和、及び、前記参照領域参照情 報の対応点情報のいずれか一方に変更することによって、前記予測参照情報予測 データを変更する。
[0053] この場合、前記予測参照情報予測データ変更ステップでは、符号化対象領域参照 フレームの時刻情報及び視点情報と、参照領域の含まれるフレームの時刻情報及び 視点情報と、参照領域を符号化した際の参照フレームであるところの参照領域参照 フレームの時刻情報及び視点情報と、符号化対象フレームの時刻情報及び視点情 報とを用いて、予測参照情報予測データの対応点情報を、予測参照情報予測デー タの対応点情報と参照領域参照情報の対応点情報との和に変更するのか、参照領 域参照情報の対応点情報に変更するのかを決定するようにしても良い。
[0054] 好適例として、符号化対象フレームの視点のカメラパラメータと、前記符号化対象 領域参照フレームの視点のカメラパラメータと、前記予測参照情報予測データの示 すフレームの視点のカメラパラメータとを用いて、その予測参照情報予測データが示 す対応点情報に幾何変換を加える予測参照情報幾何変換ステップを有する。
[0055] 別の好適例として、符号化対象フレームの視点のカメラパラメータと、前記符号化 対象領域参照フレームの視点のカメラパラメータと、前記予測参照情報予測データ の示すフレームの視点のカメラパラメータと、その予測参照情報予測データに対応す る参照領域参照情報の示すフレームの視点のカメラパラメータとを用いて、その参照 領域参照情報が示す対応点情報に幾何変換を加える参照領域参照情報幾何変換 ステップを有する。
[0056] 別の好適例として、符号化対象領域の参照フレーム上の領域を探索対象として、 予測参照情報予測データによって指し示される参照領域に対応付けられる領域を探 索し、予測参照情報予測データを探索結果の対応情報に変更する予測参照情報予 測データ探索ステップを有する。
[0057] このとき、予測参照情報予測データ探索ステップでは、予測参照情報予測データ の上記対応情報の示す領域を探索中心とした探索を行い、その探索結果による情 報に変更することがある。
[0058] 別の好適例として、符号化対象領域の参照フレーム上の領域を探索対象として、 符号化対象領域の隣接領域に対応付けられる領域を探索し、予測参照情報予測デ ータを探索結果の対応情報に変更する予測参照情報予測データ探索ステップを有 する。
[0059] このとき、予測参照情報予測データ探索ステップでは、予測参照情報予測データ の上記対応情報の示す領域を探索中心とした探索を行い、その探索結果による情 報に変更することがある。
[0060] 〔3〕本発明の動画像復号方法
前述のように構成される本発明の予測参照情報生成装置により実現される本発明 の予測参照情報生成方法は、動画像復号方法に適用することが可能である。
[0061] 次に、本発明の予測参照情報生成方法により実現される本発明の動画像復号方 法について説明する。
[0062] 即ち、本発明の動画像復号方法は、画像全体を領域分割して、既に復号した複数 のフレームから予測画像を生成しながら画像を復号するのにあたり、領域毎に、予測 画像を生成するために用いる既に復号済みのフレームであるところの復号対象領域 参照フレームを示す情報と、復号対象領域参照フレームにおける復号対象領域の予 測対象位置を示す参照情報と、予測画像と復号対象領域の画像との差分情報とを 復号することで、動画像を復号するという構成を採るときに、(ィ)復号対象領域に隣 接する既に復号済みの隣接領域を復号した際の参照情報を、復号対象領域の参照 情報の予測に用いる予測参照情報予測データとして設定する予測参照情報予測デ ータ設定ステップと、(口)予測参照情報予測データによって指し示される参照領域を 復号した際に用いた 1つ以上の参照情報から参照領域参照情報を生成する参照領 域参照情報生成ステップと、(ハ)予測参照情報予測データを、生成された前記参照 領域参照情報を用いて変更する予測参照情報予測データ変更ステップと、(二) 1つ 又は複数存在する変更した予測参照情報予測データを用いて、復号対象領域の参 照情報の予測情報となる予測参照情報を生成する予測参照情報生成ステップと、 ( ホ)符号化データから、復号対象領域に対する予測画像を生成するために用いる参 照情報と予測参照情報との差分情報を復号する差分参照情報復号ステップとを有 する。
[0063] 典型例として、前記予測参照情報予測データ変更ステップでは、前記予測参照情 報予測データが示す対応点情報を、前記予測参照情報予測データが示す対応点 情報と前記参照領域参照情報が示す対応点情報との和に変更することによって、前 記予測参照情報予測データを変更する。
[0064] 別の典型例として、前記予測参照情報予測データ変更ステップでは、前記予測参 照情報予測データが示す対応点情報を、前記参照領域参照情報が示す対応点情 報に変更することによって、前記予測参照情報予測データを変更する。
[0065] 好適には、前記予測参照情報予測データ変更ステップでは、前記予測参照情報 予測データが示す対応点情報を、前記予測参照情報予測データが示す対応点情 報と前記参照領域参照情報が示す対応点情報との和、及び、前記参照領域参照情 報が示す対応点情報のいずれか一方変更することによって、前記予測参照情報予 測データを変更する。
[0066] この場合、予測参照情報予測データ変更ステップでは、復号対象領域参照フレー ムの時刻情報及び視点情報と、参照領域の含まれるフレームの時刻情報及び視点 情報と、参照領域を復号した際の参照フレームであるところの参照領域参照フレーム の時刻情報及び視点情報と、復号対象フレームの時刻情報及び視点情報とを用い て、予測参照情報予測データの対応点情報を、予測参照情報予測データの対応点 情報と参照領域参照情報の対応点情報との和に変更するのか、参照領域参照情報 の対応点情報に変更するのかを決定するようにしても良い。
[0067] 好適例として、復号対象フレームの視点のカメラパラメータと、前記復号対象領域 参照フレームの視点のカメラパラメータと、前記予測参照情報予測データの示すフレ ームの視点のカメラパラメータとを用いて、その予測参照情報予測データが示す対 応点情報に幾何変換を加える予測参照情報幾何変換ステップを有する。
[0068] 別の好適例として、復号対象フレームの視点のカメラパラメータと、前記復号対象 領域参照フレームの視点のカメラパラメータと、前記予測参照情報予測データの示 すフレームの視点のカメラパラメータと、その予測参照情報予測データに対応する参 照領域参照情報の示すフレームの視点のカメラパラメータとを用いて、その参照領域 参照情報が示す対応点情報に幾何変換を加える参照領域参照情報幾何変換ステツ プを有する。
[0069] 別の好適例として、復号対象領域の参照フレーム上の領域を探索対象として、予 測参照情報予測データによって指し示される参照領域に対応付けられる領域を探索 し、予測参照情報予測データを探索結果の対応情報に変更する予測参照情報予測 データ探索ステップを有する。 [0070] このとき、予測参照情報予測データ探索ステップでは、予測参照情報予測データ の上記対応情報の示す領域を探索中心とした探索を行い、その探索結果による情 報に変更することがある。
[0071] 別の好適例として、復号対象領域の参照フレーム上の領域を探索対象として、復 号対象領域の隣接領域に対応付けられる領域を探索し、前記予測参照情報予測デ ータを探索結果の対応情報に変更する予測参照情報予測データ探索ステップを 有する。
[0072] このとき、予測参照情報予測データ探索ステップでは、予測参照情報予測データ の上記対応情報の示す領域を探索中心とした探索を行い、その探索結果による情 報に変更することがある。
発明の効果
[0073] 本発明によれば、符号化対象領域に隣接する領域を符号化するときに用いた参照 情報を、その参照領域を符号化する際に用いた符号化情報を用いて、符号化対象 フレームと符号化対象参照フレームとの時刻及び視点関係に適した参照情報に変 換した後に、予測参照情報を生成することによって、複数フレーム間における映像変 化の時間的連続性がな!/、場合や、符号化単位領域毎に動き補償と視差補償を選択 しながら多視点画像を符号化する場合においても、変換操作の方法を示す付加情 報を符号化することなぐ符号化対象領域を符号化する際に用いる参照情報と予測 参照情報との差を小さくし、フレーム間予測符号化のための動きベクトルや視差情報 を効率よく符号化することができる。
図面の簡単な説明
[0074] [図 1]本発明によって、予測参照情報予測データを予測参照情報予測データと参照 領域参照情報との和に変更する場合の処理の一例を示す図である。
[図 2]本発明によって、予測参照情報予測データを参照領域参照情報に変更する場 合の処理の一例を示す図である。
[図 3]本発明の動画像符号化装置の一実施形態例である。
[図 4]本実施形態例の動画像符号化装置が実行する動画像符号化処理のフローチ ヤートの一例である。 園 5]本実施形態例における符号化において、時間方向の映像予測のみが可能な 場合の予測参照情報予測データの変更処理のフローチャートの一例である。
園 6]本実施形態例における符号化において、符号化対象ブロック毎に時間方向又 はカメラ間の映像予測のどちらか一方が可能な場合の予測参照情報予測データの 変更処理のフローチャートの一例である。
[図 7]図 6のフローチャートの一部としての、符号化対象ブロックがカメラ間の映像変 化の予測を行う場合のフローチャートの一例である。
[図 8]図 6のフローチャートの一部としての、符号化対象ブロックが時間的な映像変化 の予測を行う場合のフローチャートの一例である。
[図 9]本実施形態例における符号化において、符号化対象ブロック毎に任意の映像 予測が可能な場合の、予測参照情報予測データの変更処理のフローチャートの一 例である。
[図 10]図 9のフローチャートの一部としての、符号化対象ブロックがカメラ間の映像変 化の予測を行う場合のフローチャートの一例である。
[図 11]図 9のフローチャートの一部としての、符号化対象ブロックが時間的な映像変 化の予測を行う場合のフローチャートの一例である。
[図 12]図 9のフローチャートの一部としての、符号化対象ブロックが時間的な変化と力 メラ間の変化の混在した映像変化の予測を行う場合のフローチャートの一例である。
[図 13]図 7のフローチャートの S310で実行する予測参照情報予測データの変更処 理の説明図である。
[図 14]図 7のフローチャートの S318で実行する予測参照情報予測データの変更処 理の説明図である。
[図 15]図 10のフローチャートの S415で実行する予測参照情報予測データの変更処 理の説明図である。
[図 16]図 11のフローチャートの S433で実行する予測参照情報予測データの変更処 理の説明図である。
[図 17]図 12のフローチャートの S444で実行する予測参照情報予測データの変更処 理の説明図である。 [図 18]本発明の動画像復号装置の一実施形態例である。
[図 19]本実施形態例の動画像復号装置が実行する動画像復号処理のフローチヤ一 トの一例である。
[図 20Α]Η·264における動きベクトル予測の説明図である。
[図 20Β]同様に、 Η.264における動きベクトル予測の説明図である。
[図 20C]同様に、 Η.264における動きベクトル予測の説明図である。
[図 20D]同様に、 Η.264における動きベクトル予測の説明図である。
[図 21]ダイレクトモードにおける動きベクトル生成の説明図である。
[図 22Α]符号化対象ブロックの周辺ブロックの動きベクトルを用いて予測ベクトルを生 成する手法の説明図である。
園 22Β]時刻情報を用いてスケーリングを適用した動きベクトル予測の説明図である。 園 22C]同様に、時刻情報を用いてスケーリングを適用した動きベクトル予測の説明 図である。
園 22D]同様に、時刻情報を用いてスケーリングを適用した動きベクトル予測の説明 図である。
[図 23]カメラ間で生ずる視差の説明図である。
符号の説明
100 動画像符号化装置
101 画像入力部
102 ブロックマッチング実施部
103 予測画像作成部
104 差分画像符号化部
105 差分画像復号部
106 参照フレームメモリ
107 参照情報蓄積メモリ
108 予測参照情報予測データメモリ
109 予測参照情報生成部
110 差分参照情報符号化部 111 参照情報変更部
112 参照フレーム指定情報蓄積メモリ
113 参照フレーム選択部
114 参照フレーム指定情報符号化部
発明を実施するための最良の形態
[0076] 本発明による動画像符号化方法ある!/、は動画像復号方法によれば、符号化対象 領域/復号対象領域を符号化/復号するために用いる参照情報を、符号化対象領 域/復号対象領域の隣接領域の参照情報を用いて予測するにあたり、隣接領域を 符号化/復号する際に参照していた参照領域を符号化/復号する際に用いた参照 情報を用いて、隣接領域の参照情報に修正を加えることで、複数フレームの間に映 像変化の連続性がなレ、場合にお!/、ても、精度の高レ、予測参照情報を生成することが できる。
[0077] 従来の方法では、図 1の破線矢印で示すように、複数フレーム間の映像変化に連 続性を仮定して、単純に参照情報を修正してしまって!/、た (参照情報から予測参照 情報を生成していた)ため、複数フレーム間の映像変化に連続性がない場合は、誤 つた変換を施してしまって!/、た。
[0078] これに対して、本発明によれば、隣接領域の参照フレームから別のフレームへの変 化を、隣接領域の参照領域を符号化/復号した際の参照情報力も取得できるため、 複数フレーム間の映像変化の連続性を仮定せずに、隣接領域の参照情報を修正す ること力 Sでさる。
[0079] ここで、本発明では、この隣接領域の参照領域、つまり予測参照情報予測データに よって示される領域を符号化/復号した際の参照情報を参照領域参照情報と呼ん でいる。
[0080] この参照領域参照情報は、その参照領域を符号化/復号する際に実際に利用さ れたものであり、良い符号化効率のために映像の変化を信頼度高く表していると考え られる。そのため、そのような情報を用いて修正を施した情報も映像の変化を信頼度 高く表していると言える。
[0081] 参照情報を修正する方法として、図 1に示すように、隣接領域に対する参照情報に 、参照領域参照情報を加える方法 (ベ外ル合成する方法)をとつてもよい。
[0082] この方法では、隣接領域の参照フレームから符号化/復号対象フレームへの映像 変化に、隣接領域の参照領域の参照フレームから隣接領域の参照フレームへの映 像変化を加えることで、隣接領域の参照領域の参照フレームから符号化/復号対象 フレームへの映像変化を求めることなる。
このことは既に符号化/復号されて!/、る映像変化が変化することはな!/、と!/、う事実 に基づ!/ヽて、信頼度の高!/、参照情報変換を実現して!/、る。
[0083] ここで、隣接領域の参照領域が符号化/復号処理の単位領域になっておらず、そ の領域に複数の参照情報が含まれている場合が考えられる力、そのときは、 ω参照領域が最も多く含まれる符号化/復号処理の単位領域で用いられた参照情 報を参照領域参照情報とする方法を用いたり、
(ii)参照領域の含まれる割合に応じて符号化/復号処理の単位領域の参照情報に 重みをつけて求めた平均の参照情報を参照領域参照情報とする方法を用いたり、
(iii)符号化/復号処理の単位領域に対して符号化/復号される参照情報をその領 域に含まれる全ての画素が持つものとして、複数の参照領域にぉレ、て最も多く現れ る参照情報を参照領域参照情報とする
方法を用いてもよい。
[0084] また、この修正は 1度だけでなぐ修正を加えた参照情報に対して再度修正を加え るなど、繰り返し行っても構わない。
繰り返し修正を加えることで、隣接領域の参照領域の参照フレームが符号化/復 号対象領域参照フレームに十分近くない場合は、符号化/復号対象領域参照フレ ームからの映像変化により近い予測参照情報予測データを得ることができる。
[0085] 参照情報を修正する方法として、図 2のように、隣接領域に対する参照情報を、参 照領域参照情報で置き換える方法をとつてもよい。
[0086] この方法では、隣接領域の参照フレームから符号化/復号対象フレームへの映像 変化が、隣接領域の参照フレームから符号化/復号対象領域参照フレームへの映 像変化に等しいとして、符号化/復号対象領域参照フレームから符号化/復号対 象フレームへの映像変化を求めることになる。 [0087] この方法では、実世界における 2つの事実を利用している。
[0088] 1つ目は実世界における被写体の変化には物理的な制約があるという事実である。
被写体の変化に物理的な制約があるとレ、うことは視差の時間相関が高レ、とレ、うことを 示す。
つまり、時間的に異なるフレームにおける対応関係の与えられた領域、すなわち、 隣接領域とその隣接領域の参照領域における視差は非常に類似性が高い。
したがって、隣接領域の時間的な参照情報を、隣接領域の参照領域におけるカメ ラ間の参照情報に置き換えることで、隣接領域におけるカメラ間の参照情報に精度よ く変換すること力でさる。
[0089] 2つ目は実世界における被写体の運動は 1つであるという事実である。被写体の変 化が 1つしかないということは、各カメラによって撮影された動きは全て同じであり、被 写体の動きのカメラ間の相関が高レ、と!/、うことを示す。
つまり、カメラの異なる同時刻に撮影されたフレームにおける対応関係の与えられ た領域、すなわち、隣接領域とその隣接領域の参照領域における動きは非常に類似 性が高い。
したがって、隣接領域のカメラ間の参照情報を、隣接領域の参照領域における時 間的な参照情報に置き換えることで、隣接領域における時間的な参照情報に制度よ く変換すること力でさる。
[0090] これによつて、符号化対象領域とその隣接領域で、参照対象が時間方向とカメラ方 向に異なっていても精度よく参照情報を予測できるようになる。
なお、この方法は、隣接領域の参照領域とその参照フレームの時刻関係と視点関 係とが、符号化/復号対象フレームと符号化/復号対象領域参照フレームの時間 関係と視点関係とにより適合しているほど、正確な予測を可能とする置換が可能であ
[0091] 参照情報を修正する方法は、符号化/復号対象領域毎に、上述したいずれかの 方法を適宜選択しても力、まわなレ、。
[0092] それぞれの方法では、利用している映像の性質が異なるため、どちらの方法が適 切であるかは、状況によって異なる。 したがって、符号化/復号対象領域毎に切り替えることで、その領域に適した修正 を加えることが可能となり、映像変化をより正しく表した予測参照情報を生成すること ができる。
[0093] ここで、先の方法はフレーム間の映像の時間変化を累積していくため、時間方向の 映像変化を予測するのに適した方法であり、後の方法は映像変化の時間とカメラ間と いう次元を変換するのに適した方法であるため、符号化/復号対象領域で用いた映 像予測の方法や予測参照情報予測データや参照領域参照情報によって示される映 像変化の次元から、どちらの方法を適用したほうが望ましいかを判断することが可能 である。
[0094] つまり、符号化/復号対象領域参照フレームの時刻情報及び視点情報と、参照領 域の含まれるフレームの時刻情報及び視点情報と、参照領域を符号化/復号した際 の参照フレームであるところの参照領域参照フレームの時刻情報及び視点情報と、 符号化/復号対象フレームの時刻情報及び視点情報とを用いることで、適用すべき 方法を精度よく判定することができる。
[0095] 参照情報を修正する方法として、符号化/復号対象フレームの視点のカメラパラメ ータと、符号化/復号対象領域参照フレームの視点のカメラパラメータと、参照領域 の含まれるフレームの視点のカメラパラメータとに従って、参照情報に幾何変換をカロ えることで修正する方法をとつても良い。
[0096] また、このような変換を、予測参照情報予測データや、参照領域参照情報に加える こと力 Sでさる。
[0097] これらの方法によれば、 2つのカメラで撮影されたフレームの映像変化を、別の組み 合わせの 2つのカメラで撮影されたフレームの映像変化へと変換することができる。
[0098] 映像の時間変化と異なり、映像のカメラ間の変化はカメラの位置と被写体の位置に 起因するものであるため、時刻の同じ 2つの異なる位置から撮影された画像があり、 そのカメラの位置関係などを示すカメラパラメータが既知の場合、さらに別の位置から 撮影された画像を精度良く予測することが可能である。
この対応関係はカメラ間隔に応じてスケーリングするだけで得られるものではないた め、従来の時間間隔に応じてスケーリングする方法を拡張するだけの単純な方法で は、正確な予測を可能とする変換を行うことができなレ、。
[0099] 参照情報を修正する方法として、符号化/復号対象領域の参照フレーム上の領域 を探索対象として、予測参照情報予測データによって指し示される参照領域に対応 付けられる領域を探索し、予測参照情報予測データを探索結果の対応情報に置き 換える方法をとつても良い。
[0100] また、参照情報を修正する方法として、符号化対象領域の参照フレーム上の領域 を探索対象として、符号化対象領域の隣接領域に対応付けられる領域を探索し、予 測参照情報予測データを探索結果の対応情報に置き換える方法をとつても良い。
[0101] これらの方法では、符号化側、復号側の両方で大量の演算を必要とするが、隣接 領域の符号化/復号対象領域参照フレーム上の対応点をより正確に求めることがで きるため、映像変化をより正しく表した予測参照情報を生成することができ、その結果 、参照情報を効率よく符号化することができる。
[0102] これらの方法で、対応点を正確に求めることができるかどうかは、対応領域を探索 するときの探索方法や探索範囲、つまり演算コストに大きく依存してしまう。
しかしながら、予測参照情報予測データの参照フレームが、符号化/復号対象フ レームよりも符号化/復号対象領域参照フレームに近い場合、予測参照情報予測 データの参照情報が途中までの動きを表してくれていることになるため、そこからの変 化だけを探索すれば済むことになり、演算コストを減らすことができる。
[0103] 以下、実施の形態に従って本発明を詳細に説明する。
[0104] 図 3に、本発明の動画像符号化装置 100の一実施形態例を示す。
[0105] この動画像符号化装置 100は、符号化対象となる画像を入力する画像入力部 101 と、符号化対象画像を分割した領域毎に、既に符号化済みの参照フレームにおける 対応領域を求めるためにブロックマッチングを行うブロックマッチング実施部 102と、 ブロックマッチングの結果と参照フレームとを用いて符号化対象領域の画像の予測 画像を生成する予測画像作成部 103と、符号化対象領域の画像と予測画像との差 分画像を符号化する差分画像符号化部 104と、差分画像符号化データを復号する 差分画像復号部 105と、復号された差分画像と予測画像との和によって生成された 符号化対象領域の画像の復号画像を参照フレームとして蓄積する参照フレームメモ リ 106と、予測画像を生成する際に用いたブロックマッチングの結果の参照情報を蓄 積する参照情報蓄積メモリ 107と、予測画像を生成する際に用いたブロックマツチン グの結果の参照情報の符号化に用いられる予測参照情報の候補となる参照情報を 蓄積する予測参照情報予測データメモリ 108と、予測参照情報予測データから予測 参照情報を生成する予測参照情報生成部 109と、予測画像を生成する際に用いた ブロックマッチングの結果の参照情報と予測参照情報との差分を符号化する差分参 照情報符号化部 110と、予測参照情報予測データメモリ 108上の予測参照情報予 測データに修正を施す参照情報変更部 111と、符号化済みの各領域が参照したフ レームの情報を蓄積する参照フレーム指定情報蓄積メモリ 112と、符号化対象領域 の画像を符号化するときに用いる参照フレームを選択する参照フレーム選択部 113 と、符号化対象領域を符号化するときに用いた参照フレームを指定する情報を符号 化する参照フレーム指定情報符号化部 114とを備える。
[0106] 図 4に、このように構成される動画像符号化装置 100の実行するフローチャートを示 す。
[0107] このフローチャートに従って、このように構成される動画像符号化装置 100の実行 する処理について詳細に説明する。
ただし、既に複数フレームの画像を符号化済みであり、その結果が参照フレームメ モリ 106、参照情報蓄積メモリ 107、参照フレーム指定情報蓄積メモリ 112に蓄積さ れているものとする。
[0108] まず、画像入力部 101より符号化対象となる画像が入力される [S 101]。
入力された符号化対象画像は、画面全体を領域分割され領域毎に符号化を行う [ S 102〜S121]。
[0109] このフローチャートでは、ブロック(領域)のインデックスを blkと表し、一つの画像に 対する総ブロック数を MaxBlkと表す。
つ -81¾〉ヮり、インデックス BLKを 1に初期化した後 [S 102]、 BLKが MAXBLKにな るまで [S 120]、 BLKに 1を加算しながら [S121]、以下の処理 [S103〜S 119]を繰 り返し実行することになる。
[0110] ブロック毎に行う処理では、そのブロックを符号化するために用いる参照フレーム be st— ref、参照情報 best— mv、予測参照情報 best— pmvを求め [S 103〜S 117]、こ の映像予測のための情報とこれらを用いて符号化されるブロッ外 lkの画像情報とを 符号化して出力した後 [S 118]、以後の符号化処理のために、符号化データを復号 して復号結果の画像情報、 best— ref、 best— mvを、それぞれ、参照フレームメモリ 1 06、参照フレーム指定情報蓄積メモリ 112、参照情報蓄積メモリ 107に格納する [S 1 19コ。
[0111] ここで、 S 118の符号化処理では、 best— refを示す情報は参照フレーム指定情報 符号化部 114で符号化され、 best— mvと best— pmvとの差分が差分参照情報符号 化部 110で符号化され、入力画像と、これらの情報を用いて予測画像作成部 103で 生成された予測画像との差分画像が、差分画像符号化部 104で符号化される。 また、 S 119の復号処理では、差分画像の符号化データを差分画像復号部 105で 復号し、その結果と予測画像作成部 103で生成された予測画像との和を求めること でブロック blkの復号画像情報を得る。
[0112] 符号化時に用いる映像予測のための情報は、全ての利用可能な参照フレームに 対して、以下の処理 [S 104〜S 115]を繰り返し実行することで求める。
つまり、参照フレームインデックス refを 1に初期化し、最小レート歪コスト bestCostを 絶対に取りえない最大値 MaxCostに初期化した後 [S 103]、 refが全ての利用可能 な参照フレームの数 010¾6 こなるまで[3116]、 こ1を加算しながら[3117]、 予測参照情報を生成する処理 [S 104〜S 107]と、レート歪コストが最小となるような 参照情報を求める処理 [S 108〜S 115]とを繰り返し実行する。
[0113] 予測参照情報を生成する処理は、予測参照情報予測データメモリ 108を初期化し た後 [S 104]、ブロッ外 lkに隣接する複数のブロックに関して、そのブロックを符号 化したときに使用した参照フレーム番号 REFと、参照情報 MVと、そのブロックの位 置を示す情報 POSとの組 {REF, MV, POS }を予測参照情報予測データメモリ 108 に格納する [S105L
このとき、 MV, REFは、それぞれ、参照情報蓄積メモリ 107、参照フレーム指定情 報蓄積メモリ 112に、ブロックインデックス又は画像内の位置に対応付けられて蓄積 されているものとする。 [0114] なお、ブロック blkに隣接する複数のブロックとしては、例えば、画像を分割した領 域をラスタースキャン順に符号化している場合には、上、左、右上で隣接するブロック とすること力 Sでさる。
本実施形態例では、この 3つの隣接ブロックの参照情報を予測参照情報予測デー タに設定することとする。ただし、該当するブロックが画面の外になるような場合は候 補から除外するものとする。
[0115] 次に、予測参照情報予測データメモリ 108内の予測参照情報予測データを取り出 し、参照情報変更部 1 11で変更を加えて、再度、予測参照情報予測データメモリ 10 8に蓄積する [S 106]。ここで行われる処理については後で詳しく説明を行う。
[0116] そして、予測参照情報予測データメモリ 108に蓄積されている複数の参照情報から 予測参照情報 pmvを生成する [S 107]。具体的には、参照情報の成分ごとに予測参 照情報予測データの中間値を取ることで予測参照情報 pmvを作成する。
つまり、参照情報が X— Yの 2次元のベクトルとして表される場合、成分ごとに、複数 の予測参照情報予測データの持つ対応する成分の中間値を求めて、 pmvをその成 分の値とする。
なお、中間値以外にも平均値や最大値、最小値などを任意の基準のものを用いて も構わない。ただし、動画像復号装置が用いる基準と同じ基準を用いる必要がある。
[0117] このようにして求められた pmvを用いて、レート歪コストが最小となるような参照情報 を求める処理を実行する。
つまり、参照情報インデックス mv—idxを 1に初期化した後 [S 108]、 mv— idxがブ ロック blkの符号化のために用いることのできる参照情報の候補の数 NumOiListMv に一致するまで [S I 14]、 mv—idxに 1を加算しながら [S 115]、以下の処理 [S 110 〜S 113]を繰り返す。
[0118] まず、 mv—idxに対応する参照情報 mvを得る [S 109]。ここでは、 mv—idxに対応 する参照情報力^モリ cand—mvに既に蓄積されているものとする。
そして、この mvと参照フレーム refとを用いて、ブロック blkに対する予測画像 Preを 生成する [S 110]。
具体的には、ブロック blkの位置力、ら mv (ベクトル)によって示される参照フレーム ref 上の領域の画像情報を予測画像とする。
[0119] 次に、生成された予測画像 Preと、ブロック blkの画像情報 Orgと、 pmv mv refと を用いてレート歪コスト costを次の式に基づ!/、て計算する [S 111]
[0120] 國
- D + λ X |bit(mv― mv) +,。ιΐ(τ /■)}
wd
[0121] ここで、 λはラグランジュの未定乗数であり、予め設定された値が利用される。また、 bit()は与えられた情報を符号化するのに必要な符号量を返す関数を表す。
なお、ここでは Dを 2つの画像情報の差分絶対値和とした力 S、差分二乗和としてもよ V、し、差分情報を周波数領域へ変換してから和を求める SATDと呼ばれる指標を用 いてもよい。
さらに符号化処理の演算コストが増加するが、正確なレート歪コストを求める方法と して、符号化対象領域の画像と予測画像との差分画像 Diff( = Org— Pre)を実際に 符号化したときの符号量 BITSと、その差分画像の符号化データを復号して得られた 復号差分画像 DecDiffとを用いて、以下の式で求める方法を用いてもよ!/、。
[0122] [数 2] cost - D + I K {bii(»iv一 pmv)+Mt{mf) i- JTSi
Figure imgf000027_0001
[0123] このようにして求められた costと bestCostとを比較して [S I 12] costの方が小さくな つたならば、、 bestCostを costに変更し、 best _ refを refに変更し、 best _ mvを mvに変 更し、 best— pmvを pmvに変更する [S I 13]ことで、最もレート歪コストが小さくなるよ うな符号化のための情報を得る。
[0124] 次に、図 5〜図 12に示すフローチャートに従って、参照情報変更部 111で行われ る S 106の詳細な処理について説明する。
[0125] S 106の処理では、まず、予測参照情報予測データメモリ 108に蓄積された全ての 予測参照情報予測データに対して割り当てられる変数 FINを 0で初期化し、全ての FI N力損になるまで、図 5〜図 12の処理を繰り返し実行する。 [0126] ここで、図 5は、全ての入力フレーム及び参照フレームが同じカメラから撮影された 画像である場合のフローチャートを示す。
また、図 6〜図 8は、多視点画像が入力され、参照フレームが入力フレームと表示 時刻(撮影時刻)が同じ画像か、同じカメラで撮影された画像である場合のフローチヤ ートを示す。
また、図 9〜図 12は、多視点画像が入力され、任意の既に符号化済みのフレーム を参照フレームとして用いることが出来る場合のフローチャートを示す。
[0127] 図 5で示される、全ての入力フレーム及び参照フレームが同じカメラから撮影された 画像である場合のフローチャートにつレ、て説明する。
[0128] まず、予測参照情報予測データメモリ 108から、変更が完了していない、つまり FIN 力 SOである予測参照情報予測データを取り出して p— canとする [S201]。
上述した S 105の処理で説明したように、予測参照情報予測データメモリは、符号 化対象ブロックであるブロック blkに隣接する複数のブロックを符号化したときに使用 した参照フレームと、参照情報と、そのブロックの位置を示す情報とを持つ情報であ ること力、ら、 p— canは、隣接ブロックの参照フレーム番号と、隣接ブロックの参照情 報と、隣接ブロックの位置を示す情報とを持つ情報である。
[0129] そこで、 p— canの参照フレーム番号を ref— canに設定し、 p— canの参照情報を mv— canに設定する [S 202]。
[0130] ここで、 ref— canがブロック blkを符号化する際に用いようとしている参照フレーム の参照フレーム番号 refと等しければ [S203]、 FINを 1にして [S204]、 p_canをそ のまま予測参照情報予測データメモリ 108に格納する [S211]。
[0131] すなわち、隣接ブロックの参照フレーム ref— canと、符号化対象ブロック blkの参 照フレーム refとが一致する場合には、予測参照情報予測データメモリ 108から取り 出した予測参照情報予測データをそのまま用いて予測参照情報 pmvを生成した方 がよいので、 p— canをそのまま予測参照情報予測データメモリ 108に格納するよう に処理するのである。
[0132] 一方、 ref— canがブロック blkを符号化する際に用いようとしている参照フレームの 参照フレーム番号 refと等しくないときには、フレーム ref can上の、 p can (隣接領 域)を mv— canだけずらした領域 (参照領域)を符号化する際に最も多くの画素で使 われている参照フレームを ref— telとし、この領域内で参照フレームが ref— telのも ので最も多くの画素で使われている参照情報を mv—telとして [S205]、次の条件式 に基づき処理を行う [S206〜S210]。
[0133] 園
Figure imgf000029_0001
[0134] ここで、 TIME ()は、与えられた参照フレーム番号に対応するフレームの表示時刻
(撮影時刻)を返す関数である。
[0135] この条件式は、 ref— telという参照フレームが ref— canという参照フレームよりも符 号化対象ブロック blkの参照フレーム refに時間的に近いのか否かを判断することを 意味する。
[0136] この条件式が成り立つ場合は、 ref— canを ref— telに書き換え、 mv— canに mv— telをカロえる [S207]。
[0137] 一方、この条件式が成り立たない場合は、 p— canの位置の符号化対象フレームの 復号画像情報を用いて、符号化対象ブロック blkの参照フレーム refを探索対象とし 、探索中心を mv— canに設定して、参照フレーム ref上の対応領域を求め、探索中心 からの変位(対応情報)を mv— canBMとし [S208]、 ref— canを refに書き換え、 mv 一 canに mv一 canBMを力□える [S209]。
[0138] そして、どちらの場合も ref— canと mv— canの変更が終わったら、 ref— canと mv— canとを p— canの参照フレーム番号と参照情報とに設定し [S210]、その p— canを 予測参照情報予測データメモリ 108に格納して [S211]、処理を終了する。
[0139] ここで、図 5のフローチャートでは、全ての予測参照情報予測データに対して FINの 値が 1に設定されるまで、すなわち、符号化対象ブロック blkの参照フレーム refに到 達するまで、このフローチャートを繰り返し実行することを想定している力 例えば規 定回数(1回でもよレ、)だけ繰り返すとレ、うような方法を用いることも可能である。
[0140] また、図 5のフローチャートでは、 S208のブロックマッチング処理で、符号化対象ブ ロック blkの参照フレーム refを探索対象として、符号化対象ブロック blkの隣接領域 に対応付けられる参照領域にマッチングする領域を探索するという方法を用いた力 符号化対象ブロック blkの隣接領域にマッチングする領域を探索するという方法を用 いることも可能である。
[0141] また、図 5のフローチャートでは、 S 206の判断処理に従って、 S 207の処理を実行 するの力、、 S 208 , 209の処理を実行するのかを決定するという方法を用いた力 無 条件に、 S 207の処理を実行するという方法を用いることも可能である。
[0142] このようにして、参照情報変更部 1 1 1は、図 5のフローチャートを実行することで、図
1に示すような形で、予測参照情報予測データメモリ 108に格納される予測参照情報 予測データを変更するように処理するのである。
[0143] 次に、図 6〜図 8で示される多視点画像が入力され、参照フレームが入力フレーム と表示時刻(撮影時刻)が同じ画像か、同じカメラで撮影された画像である場合のフロ 一チャートについて説明する。
[0144] ここで、図 6〜図 8のフローチャートでは、全ての予測参照情報予測データに対して FINの値が 1に設定されるまで、このフローチャートを繰り返し実行することを想定し て!/、るが、例えば規定回数(1回でもよ!/、)だけ繰り返すと!/、うような方法を用いること も可能である。
[0145] まず、 FIN力 SOである予測参照情報予測データを取り出して p— canとする [S 301 ] 。次に、 p— canの参照フレーム番号を ref— canに設定し、 p— canの参照情報を m V— canに設定する [S 302]。
[0146] ここで、 ref— canがブロック blkを符号化する際に用いようとしている参照フレーム の参照フレーム番号 refと等しければ [S 303]、 FINを 1にして [S 304]、 p_canをそ のまま予測参照情報予測データメモリ 108に格納する [S 336 , S 337]。
[0147] そうでなければ、フレーム ref— can上の mv— canが示す領域(参照領域)を符号 化する際に最も多くの画素で使われている参照フレームを ref— telとし、この領域内 で参照フレームが ref— telのもので最も多くの画素で使われている参照情報を mv— telとして [S 305]、以下の処理 [S 306〜S 335]を行った後、 p— canを予測参照情 報予測データメモリ 108に格納する [S 336 , S 337]。
[0148] S 306〜S 335の処理では、まず、 ref telが refと等しければ [S 306]、 ref can を refに書き換え、 mv_canに mv_telをカロえる [S307]。
そうでなければ、符号化対象フレーム curの表示時刻と符号化対象ブロックの参照 フレーム refの表示時刻とを比較して [S308]、同じであれば、ブロック blkで映像の カメラ間の変化の予測を行う場合の処理 [図 7 : S309〜S320]を実行し、異なるので あれば、ブロック blkで映像の時間変化の予測を行う場合の処理 [図 8 : S321〜S33 5]を実行する。
[0149] ブロック blkで映像のカメラ間の変化の予測が行われる場合の処理 [図 7 : S309〜 S320]では、フレーム curとフレーム ref— canを撮影した視点(カメラ)が同じである かどうかを調べる [S309]。
ここで、図 7のフローチャート上の VIEW 0は、与えられたフレーム番号に対応する フレームを撮影した視点(カメラ)インデックスを返す関数を表す。
[0150] フレーム curとフレーム ref— canとが異なるカメラで撮影されている場合、フレーム c urにおける p— canの位置の領域(隣接領域)のフレーム ref— canへの視差 mv— ca nを、該隣接領域のフレーム refへの視差 mv— translへ、フレーム curとフレーム ref —canとフレーム refのカメラパラメータを用いて幾何変換を行い [S310]、 ref— can を refに書き換え、 mv一 canを mv一 translに書き! ^える [S311]。
S310の処理で行われる幾何変換は以下の手順で実行する。
[0151] 1. p_canで表される領域 (符号化対象領域の隣接領域)の中心位置 pos— cur を求める
2. p_canで表される位置力 mv— canだけずらした領域 (参照領域)の中心位 ¾ pos― canを求める
3. Xを変数として、 Trans cur, ref _ can, pos一 cur, xリを求める (これを p (下に べ る対応画素)の上に〜が付加されたもので示す)。
Trans (src, dst, pix, d )は、次の式によって定義でき、視点 srcにおける画像上の 位置 pixの画素から被写体までの距離力 の場合に、視点 dstにおける画像上にお ける画素 pixの対応画素 pの斉次座標値を表す。
[0152] [数 4]
Figure imgf000032_0001
[0153] ただし、 A, R, tはカメラパラメータであり、それぞれ内部パラメータ、回転パラメータ 、並進パラメータを示す。内部パラメータと回転パラメータは 3 X 3行列であり、 tは 3次 元のベクトノレである。
また、座標値に〜が付加されているものは斉次座標値を示している。特に、第三成 分が 1の斉次座標値を座標値に「 '」を付加して表して!/、る。
なお、カメラパラメータの表し方は様々であり、本実施形態例では、上記式によって カメラ間の対応点が計算できるようなカメラパラメータであるとする。
4. 'ρ (ρの、第三成分が 1の斉次座標値)と pos—canとのユークリッド距離が最小 になる Xを求め d とする
cur
5.次の式に従って mv— translを求める
[0154] [数 5] os ref - Tmm(cur, rej , _c , dclLr )
m\ ransl - pos ref—卿—
[0155] なお、これらの式は各位置情報が 2次元座標で与えられ、参照情報が 2次元べタト ルで表されて!/、る場合の式である。
[0156] 図 13に、 S310の処理で行われる幾何変換の一例を示す。なお、見やすくするた めに、 mv― canと mv― translを上下にずらして示してある。
[0157] この図に示すように、 S310では、
TIME(cur) =TIME(ref) =TIME(ref— can)
という状況下で、 mv— canを mv— translに幾何変換する処理が行われ、これを受け て、 S311では、 mv— canを mv— translに書き換える処理が行われることになる。
[0158] 一方、フレーム curとフレーム ref— canとが同じカメラで撮影されている場合 [S30
9で YESの場合]、フレーム ref— canとフレーム ref— telとが同じカメラで撮影されて いるかどうかを判定する [S312]。
[0159] 同じカメラで撮影されていた場合、フレーム curとフレーム ref— telの時間間隔が予 め与えられた閾値 TH1よりも小さいかどうかを判定する [S313]。この時間間隔が T HIより小さい場合は、 ref— canを ref— telに書き換え、 mv— canに mv— telを加え る [S314]。
一方、この時間間隔が THl以上の場合は、 p— canの位置の符号化対象フレーム の復号画像情報を用いて、参照フレーム ref上の対応領域を求め、 p— canの位置 からの変位(対応情報)を mv—BMとし [S315]、 ref— canを refに書き換え、 mv— ca nを mv_BMに書き換える [S316]。
[0160] S312の判定処理で、フレーム ref— canとフレーム ref— telとが異なるカメラで撮 影されていると判定された場合、フレーム refとフレーム ref— telとが同じカメラで撮 影された力、どうかを判定する [S317]。
[0161] 同じカメラで撮影されて!/、な!/、場合、 VIEW(ref— can)で撮影された画像における、 p —can (隣接ブロックの位置)を mv— canだけずらした位置の領域 (参照領域)の、 VIE W(ref— tel)で撮影された画像への視差 mv— telを、該参照領域の、 VIEW(ref)で撮 影された画像への視差 mv— trans2へ、 VIEW(ref— can)と VIEW(ref— tel)と VIEW(ref) のカメラパラメータを用いて幾何変換を行い [S318]、 ref— canを refに書き換え、 m v— canを mv— trans2に書き換える [S319]。
S318の処理で行われる幾何変換は以下の手順で実行する。
[0162] 1. p— canを mv— canだけずらした位置の領域の中心位置 pos— canを求める
2. p_canを mv— can +mv_telだけずらした位置の領域の中心位置 pos— tel を求める
3. Xを変数として、 Trans(ref _ can, ref _ tel, pos _ can,x)を永める (これを pの上 に〜が付加されたもので示す)
4. ' pと pos— telとのユークリッド距離が最小になる xを求め d とする
can
5.次の式に従って mv— trans2を求める
[0163] [数 6] pos r«f - Tm (ref一 an.ref, pos_cans< , )
mv tra»s2 - os„ref - p»s_ can
[0164] 図 14に、 S318の処理で行われる幾何変換の一例を示す。
[0165] この図に示すように、 S318では、 TIME(cur) =TIME(rei) , VIEW(cur) =VIEW(ref_can)
TIME(ref_can) =TIME(ref_tel), VIEW(ref)≠ VIEW(ref— tel)という状況下 で、 mv— telを mv— trans2に幾何変換する処理が行われ、これを受けて、 S319では 、 mv— canを mv— trans2に書き換える処理(図中に示す破線が処理結果)が行われ ることになる。
[0166] S317の判定処理で、フレーム refとフレーム ref— telとが同じカメラで撮影されてい ると判定された場合、 ref— canを refに書き換え、 mv— canを mv— telに書き換える [ S320]。
[0167] 一方、ブロック blkで映像の時間変化の予測が行われる場合の処理 [図 8: S321 - S335]では、まず、フレーム curとフレーム ref— canとが同じカメラで撮影されたかど うかを判定する [S321]。
[0168] 同じカメラで撮影されたと判定された場合、フレーム ref— canとフレーム ref— telと が同じカメラで撮影された力、どうかを判定する [S322]。
これも同じカメラで撮影されたと判定された場合、フレーム ref— telとフレーム ref— canとで、どちらが時間的にフレーム refに近いかを判定する [S323]。
フレーム ref— telの方がフレーム refに時間的に近いと判定された場合には、 ref _canを ref_telに書き換え、 mv_canに mv_telをカロえる [S324]。
[0169] S322の判定処理で、フレーム ref— canとフレーム ref— telとが異なるカメラで撮 影されたと判定された場合か、 S 323の判定処理で、フレーム ref— canの方がフレー ム refに時間的に近いと判定された場合には、 p— canの位置の符号化対象フレー ムの復号画像情報を用いて、探索中心を mv— canに設定して、参照フレーム ref上 の対応領域を求め、探索中心からの変位(対応情報)を mv— canBMとし [S325]、 r ef— canを refに書き換え、 mv— canに mv— canBMを力□える [S326]。
[0170] 一方、 S321の判定処理において、フレーム curとフレーム ref— canとが異なるカメ ラで撮影されたと判定された場合、フレーム ref— canとフレーム ref— telとが同じ力 メラで撮影された力、どうかを判定する [S327L
同じカメラで撮影されたと判定された場合、フレーム refの表示時刻とフレーム ref— telの表示時刻(撮影時刻)とが同じであるかどうかを判定する [S 328]。 同じ表示時刻を持つと判定された場合、 ref— canを refに書き換え、 mv— canを mv — telに書き換える [S329]。
[0171] S328の判定処理で、異なる表示時刻を持つと判定された場合、 p— canの位置の 符号化対象フレームの復号画像情報を用いて、探索中心を mv— telに設定して、参 照フレーム ref上の対応領域を求め、探索中心からの変位(対応情報)を mv— telBM とし [S330]、 ref— canを refに書き換え、 mv— canを mv— telと mv— telBMとの和に 書き換える [S331]。
[0172] S327の判定処理で、フレーム ref— canとフレーム ref— telとが異なるカメラで撮 影されたと判定された場合、 VIEW(cur)と VIEW(ref— tel)の撮影領域の一致割合が、 予め与えられた閾ィ直 TH2より大き!/、かどうかを判定する [S332]。
このフローチャートでは、 Diff(caml,cam2)が撮影領域の一致度合いを表し、一方の カメラ(あらかじめどちらかに決められ、それに適合する閾値 TH2が選択される)で撮 影可能な領域に対する両方のカメラで撮影可能な領域の割合を与える。ただし、カメ ラから、別途与えられる距離までの実空間のみを対象とする。また、与えられる閾値 T H2は、全てのカメラの組合せにお!/、て最も小さな Diff値よりも大き!/、とする。
[0173] S332の判定処理で、 VIEW(cur)と VIEW(ref— tel)の撮影領域の一致割合が閾値 T H2より大きかった場合、 ref— canを ref— telに書き換え、 mv— canに mv— telを加 える [S333]。
[0174] 一方、 S332の判定処理で、 VIEW(cur)と VIEW(ref— tel)の撮影領域の一致割合が 閾値 TH2以下だった場合、 p— canの位置の符号化対象フレームの復号画像情報 を用いて、参照フレーム ref上の対応領域を求め、 p— canの位置からの変位(対応 情報)を mv— BMとし [S334]、 ref— canを refに書き換え、 mv— canを mv— BMに書 き換える [S335]。
[0175] 次に、図 9〜図 12で示される、多視点画像が入力され、任意の既に符号化済みの フレームを参照フレームとして用いることが出来る場合のフローチャートについて説 明する。
[0176] ここで、図 9〜図 12のフローチャートでは、全ての予測参照情報予測データに対し て FINの値が 1に設定されるまで、このフローチャートを繰り返し実行することを想定 して!/、る力 例えば規定回数(1回でもよ!/、)だけ繰り返すと!/、うような方法を用いるこ とも可能である。
[0177] まず、 FIN力 SOである予測参照情報予測データを取り出して p— canとする [S401] 。次に、 p— canの参照フレーム番号を ref— canに設定し、 p— canの参照情報を m V— canに設定する [S402]。
[0178] ここで、 ref— canがブロック blkを符号化する際に用いようとしている参照フレーム の参照フレーム番号 refと等しければ [S403]、 FINを 1にして [S404]、 p_canをそ のまま予測参照情報予測データメモリ 108に格納する [S452, S453]。
[0179] そうでなければ、フレーム ref— can上の、 p— can (隣接領域)を mv— canだけずらし た領域 (参照領域)を符号化する際に最も多くの画素で使われている参照フレームを ref_telとし、この領域内で参照フレームが ref— telのもので最も多くの画素で使わ れている参照情報を mv— telとして [S405]、以下の処理 [S406〜S451]を行った 後、 p— canを予測参照情報予測データメモリ 108に格納する [S452, S453]。
[0180] S406〜S451の処理では、まず、 ref— tel力 Srefと等しければ [S406]、 ref— can を refに書き換え、 mv_canに mv_telをカロえる [S407]。
そうでなければ、符号化対象フレーム curの表示時刻と符号化対象ブロックの参照 フレーム refの表示時刻とを比較して [S408]、同じであれば、ブロック blkで映像の カメラ間の変化の予測を行う場合の処理 [図 10 : S409〜S420]を実行し、異なるの であれば、フレーム curとフレーム refを撮影したカメラが同じであるかどうかを判定す る [S421 ]。
同じであれば、ブロック blkで映像の時間変化の予測を行う場合の処理 [図 11 : S4 22〜S441]を実行し、異なるのであれば、映像の時間変化とカメラ間の変化が合わ さったものの予測を行う場合の処理 [図 12 : S442〜S451]を実行する。
[0181] ブロック blkで映像のカメラ間の変化の予測が行われる場合の処理 [図 10 : S409〜 S420]では、まず、フレーム curの表示時刻とフレーム ref— canの表示時刻とが同 じであるかどうかを判定する [S409]。
同じであると判定された場合、前述の S310での処理と同様の方法で、フレーム cur における P canの位置の領域(隣接領域)のフレーム ref canへの視差 mv can を、該隣接領域のフレーム refへの視差 mv— translへ、フレーム curとフレーム ref— canとフレーム refのカメラパラメータを用いて幾何変換を行い [S410]、 ref— canを r efに書き ¾え、 mv一 canを mv一 translに書き換える [S411」。
[0182] ここで、この S410で行われる幾何変換処理は、 S310で説明した幾何変換処理と 同じものである。
[0183] 一方、 S409の判定処理で、フレーム curの表示時刻とフレーム ref— canの表示時 亥 IJとが異なると判定された場合、フレーム ref— canの表示時刻とフレーム ref— telの 表示時刻とが同じであるかどうかを判定する [S412]。
同じであると判定された場合、フレーム ref— telを撮影したカメラとフレーム refを撮 影したカメラとが同じで、かつ、フレーム ref— canを撮影したカメラとフレーム curを撮 影したカメラとが同じであるかどうかを判定する [S413L
2組のカメラ対がそれぞれ同じカメラであると判定された場合、 ref— canを refに書 き換え、 mv— canを mv— telに書き換える [S414]。
[0184] S413の判定処理で、 2組のカメラ対のどちらか一方でも同じではないと判定された 場合、 VIEW(ref— can)で撮影された画像における、 p— can (隣接ブロックの位置)を m V— canだけずらした位置の領域 (参照領域)の、 VIEW(ref— tel)で撮影された画像へ の視差 mv— telを、 VIEW(cur)で撮影された画像における p— canの位置の領域(隣 接領域)の、 VIEW(ref)で撮影された画像への視差 mv— trans3へ、 VIEW(cur)と VIE W(ref— can)と VIEW(ref— tel)と VIEW(rei)のカメラパラメータを用いて幾何変換を行 い [S415]、 ref _ canを refに書き換え、 mv一 canを mv一 trans3に書き換える [S416
L
S415の処理で行われる幾何変換は以下の手順で実行する。
[0185] 1. p— canを mv— canだけずらした位置の領域の中心位置 pos— canを求める
2. p_canを mv— can +mv_telだけずらした位置の領域の中心位置 pos— tel を求める
3. Xを変数として、 Trans(ref _ can, ref _ tel, pos _ can,x)を永める (これを pの上 に〜が付加されたもので示す)
4. ' pと pos— telとのユークリッド距離が最小になる xを求め d とする 5.次の式に従って mv— trans3を求める
[0186] [数 7]
BOS cur2 - Γ - ί £Tw p{ s <^ϊ¾ )
Figure imgf000038_0001
mv r s«ns3 - pos_ref - j>«s_c«r2
[0187] 図 15に、 S415の処理で行われる幾何変換の一例を示す。なお、見やすくするた めに、 mv— telと mv— tran3を上下にずらして示してある。
[0188] この図に示すように、 S415では、
TIME(cur) =TIME(rei) ≠TIME(ref_can)=TIME(ref_tel)
VIEW(ref)≠VIEW(ref— tel)または VIEW(cur) ≠ VIEW(ref_can) という状況下で、 mv— telを mv— trans3に幾何変換する処理が行われ、これを受けて S416では、 mv— canを mv— trans3に書き換える処理(図中に示す破線が処理結 果)が行われることになる。
[0189] S412の判定処理で、フレーム ref— canの表示時刻とフレーム ref— telの表示時 亥 IJとが異なると判定された場合、フレーム curとフレーム ref— telの時間間隔が、予 め与えられた閾ィ直 TH1よりも小さいかどうかを判定する [S417]
時間間隔が THlより小さい場合は、 ref— canを ref— telに書き換え、 mv— canに mv— telをカロえる [S418]
時間間隔が THl以上の場合は、 p— canの位置の符号化対象フレームの復号画 像情報を用いて、参照フレーム ref上の対応領域を求め、 p— canの位置からの変位 (対応情報)を mv— BMとし [S419] ref— canを refに書き換え、 mv— canを mv— B Mに書き換える [S420]
[0190] ブロック blkで映像の時間変化の予測を行う場合の処理 [図 11 : S422 S441]で は、まず、フレーム curを撮影したカメラとフレーム ref— canを撮影したカメラとが同じ であるかどうか判定する [S422]
同じであった場合、さらに、フレーム ref— canを撮影したカメラとフレーム ref— tel を撮影したカメラとが同じであるかどうかを判定する [S423]
[0191] これも同じであった場合、前述の〔数 3〕式による判定を行う [S424] この〔数 3〕式が成立する場合は、 ref— canを ref— telに置き換え、 mv— canに mv — telをカロえる [S425]。
一方、この〔数 3〕式が成立しなかった場合は、 p— canの位置の符号化対象フレー ムの復号画像情報を用いて、探索中心を mv— canに設定して、参照フレーム ref上 の対応領域を求め、探索中心からの変位(対応情報)を mv— canBMとし [S426]、 r ef— canを refに書き換え、 mv— canに mv— canBMを力□える [S427]。
[0192] S423の判定処理で、フレーム ref— canを撮影したカメラとフレーム ref— telを撮 影したカメラとが異なると判定された場合、フレーム refを撮影したカメラとフレーム ref —telを撮影したカメラとが同じであるかどうか判定する [S428]。
[0193] 同じであった場合、 p— canの位置の符号化対象フレームの復号画像情報を用い て、探索中心を mv— can +mv_telに設定して、参照フレーム ref上の対応領域を求 め、探索中心からの変位(対応情報)を mv—印 iBMlとし [S429]、 ref— canを refに 書き換え、 mv— canに mv— telと mv—印 iBMlとを加える [S430]。
[0194] なお、この S429での探索は、カメラ間の制約を用いることで、対応領域の中心が次 の手順で得られる直線の周囲になる場合のみを探索することにしてもよい。
[0195] 1. _canを mv— can +mv_telだけずらした位置の領域の中心位置 pos— tel を求める
2. Xを変数として、 Trans(ref— tel, ref, pos— tel, x)を求める(これを pの上に〜力 S 付加されたもので示す)
3. Xを変化させたときに pの描くフレーム ref上の直泉を求める
ここでは、変化させる Xの値の最大値と最小値を決めないが、予め設定しておいて も構わない
また、 S428の判定処理で、フレーム refを撮影したカメラとフレーム ref— telを撮影 したカメラとが異なると判定された場合、前述の S426の処理と S427の処理とを行う。
[0196] 一方、最初に行う S422の判定処理で、フレーム curを撮影したカメラとフレーム ref —canを撮影したカメラとが異なると判定された場合、フレーム refの表示時刻とフレ ーム ref— telの表示時刻とが同じであるかどうかを判定する [S431]。
同じであった場合、さらに、フレーム refの表示時刻とフレーム ref canの表示時刻 とが同じであるかどうかを判定する [S432]
[0197] これも同じであった場合、前述の S318での処理と同様の方法で、 VIEW(ref— can) で撮影された画像における、 p— can (隣接ブロックの位置)を mv— canだけずらした 位置の領域(参照領域)の、 VIEW(ref— tel)で撮影された画像への視差 mv— telを、 該参照領域の、 VIEW(ref)で撮影された画像への視差 mv— trans2 VIEW(ref_ca n)と VIEW(ref— tel)と VIEW(ref)のカメラパラメータを用いて幾何変換を行い [S433] ref— canを refに書き換え、 mv― canに mv― trans2を力!]える [S434]
[0198] 図 16に、 S433の処理で行われる幾何変換の一例を示す。
[0199] この図に示すように、 S433では、
VIEW(cur) =VIEW(rei), VIEW(cur)≠ VIEW(ref_can)
TIME(ref) =TIME(ref— can) =TIME(ref— tel)
という状況下で、 mv— telを mv— trans2に幾何変換する処理が行われ、これを受けて S434では、 mv— canに mv— trans2を加える処理(図中に示す破線が処理結果)が fiわれることになる。
[0200] なお、 S432の判定処理で、フレーム refの表示時刻とフレーム ref— canの表示時 亥 IJとが異なると判定された場合は、前述の S429の処理と S430の処理とを行う。
[0201] また、 S431の判定処理で、フレーム refの表示時刻とフレーム ref— telの表示時 亥 IJとが異なると判定された場合は、フレーム refの表示時刻とフレーム ref— canの表 示時刻とが同じであるかどうかを判定す ' 81¾〉驕\ 3435]
[0202] 同じであると判定された場合は、 p— canの位置の符号化対象フレームの復号画像 情報を用いて、探索中心を mv— canに設定して、参照フレーム ref上の対応領域を 求め、探索中心からの変位(対応情報)を mv—印 iBM2とし [S436] ref— canを ref に書き換え、 mv— canに mv—印 iBM2を加える [S437]
[0203] なお、この S436での探索は、カメラ間の制約を用いることで、対応領域の中心が次 の手順で得られる直線の周囲になる場合のみを探索することにしてもよい。
[0204] 1. p— canを mv— canだけずらした位置の領域の中心位置 pos— canを求める
2. Xを変数として、 Trans(ref _ can, ref, pos _ can, x)を永める、これを pの上に〜 が付加されたもので示す) 3. χを変化させたときに pの描くフレーム ref上の直泉を求める
ここでは、変化させる Xの値の最大値と最小値を決めないが、予め設定しておいて も構わない
S435の判定処理で、フレーム refの表示時刻とフレーム ref— canの表示時刻とが 異なると判定された場合は、次の 2つの条件式による判定を行う [S438]。
[0205] [数 8コ
Figure imgf000041_0001
[0206] どちらか一方でも成り立つ場合は、 ref— canを ref— telに書き換え、 mv— canに m v— telをカロえる [S439]。
どちらも成立しない場合は、 p— canの位置の符号化対象フレームの復号画像情 報を用いて、参照フレーム ref上の対応領域を求め、 p— canの位置からの変位(対 応情報)を mv— BMとし [S440]、 ref— canを refに書き換え、 mv— canを mv— BMに 書き換える [S441]。
[0207] ブロック blkで映像の時間変化とカメラ間の変化が合わさったものの予測を行う場合 の処理 [図 12 : S442〜S451]では、まず、フレーム ref_canの表示時刻とフレーム refの表示時刻とが同じであるかどうかを判定する [S442]。
同じであると判定された場合、フレーム ref— telの表示時刻とフレーム refの表示時 刻とが同じであるかどうかを判定する [S443L
[0208] これも同じであると判定された場合、前述の S318での処理と同様の方法で、 VIEW( ref— can)で撮影された画像における、 p— can (隣接ブロックの位置)を mv— canだけ ずらした位置の領域 (参照領域)の、 VIEW(ref— tel)で撮影された画像への視差 mv— telを、該参照領域の、 VIEW(rei)で撮影された画像への視差 mv— trans2へ、 VIEW( ref— can)と VIEW(ref— tel)と VIEW(rei)のカメラパラメータを用いて幾何変換を行い [ S444]、 ref— canを refに書き換え、 mv— canに mv— trans2を加える [S445]。
[0209] 図 17に、 S444の処理で行われる幾何変換の一例を示す。なお、見やすくするた めに、 mv— telと mv— trans2を上下にずらして示してある。
[0210] この図に示すように、 S444では、 TIME(cur)≠TIME(rei) , VIEW(cur)≠VIEW(rei)
TIME(rei) =TIME(ref_can)=TIME(ref_tel)
という状況下で、 mv_telを mv— trans2に幾何変換する処理が行われ、これを受けて 、 S445では、 mv— canに mv— trans2を加える処理(図中に示す破線が処理結果)が fiわれることになる。
[0211] また、 S443の判定処理で、フレーム ref— telの表示時刻とフレーム refの表示時 刻とが異なると判定された場合、 p— canの位置の符号化対象フレームの復号画像 情報を用いて、探索中心を mv— canに設定して、参照フレーム ref上の対応領域を 求め、探索中心からの変位(対応情報)を mv—印 iBM2とし [S446]、 ref— canを ref に書き換え、 mv— canに mv—印 iBM2を加える [S447]。
なお、この S446での探索は、カメラ間の制約を用いることで、対応領域の中心が、 前述の S336の処理のときと同じ手順で得られる直線の周囲になる場合のみを探索 することにしてあよい。
[0212] 一方、最初に行う S442の判定処理で、フレーム ref— canの表示時刻とフレーム ref
の表示時刻とが異なると判定された場合、前述の〔数 3〕式による判定を行う [S448]
この〔数 3〕式が成立する場合は、 ref— canを ref— telに置き換え、 mv— canに mv —telをカロえる [S449]。
一方、この〔数 3〕式が成立しなかった場合は、 p— canの位置の符号化対象フレー ムの復号画像情報を用いて、参照フレーム ref上の対応領域を求め、 p— canの位 置からの変位(対応情報)を mv— BMとし [S450]、 ref— canを refに書き換え、 mv— canを mv— BMに書き換える [S451]。
[0213] このようにして、参照情報変更部 11 1は、図 6〜図 12のフローチャートを実行するこ とで、図 1や図 2に示すような形で、予測参照情報予測データメモリ 108に格納される 予測参照情報予測データを変更するように処理するのである。
[0214] 次に、本発明を具備する動画像復号装置について説明する。
[0215] 図 18に、本発明の動画像復号装置 200の一実施形態例を示す。
[0216] この動画像復号装置 200は、復号対象となる画像の予測画像に対する差分画像の 符号化データを復号する差分画像復号部 201と、予測画像を生成する際の参照情 報の予測参照情報に対する差分参照情報の符号化データを復号する差分参照情 報復号部 202と、予測画像を生成する際の参照フレーム指定情報の符号化データを 復号する参照フレーム指定情報復号部 203と、既に復号済みのフレームであるところ の参照フレームと参照フレーム指定情報と参照情報とを用いて復号対象フレームの 予測画像を生成する予測画像作成部 204と、予測画像と復号された差分画像との和 で求められる復号画像を蓄積する参照フレームメモリ 205と、予測参照情報予測デ ータ(予測参照情報の候補となる参照情報)から予測参照情報を生成する予測参照 情報生成部 206と、予測参照情報予測データを蓄積する予測参照情報予測データ メモリ 207と、過去に画像を復号する際に用いた参照情報を蓄積する参照情報蓄積 メモリ 208と、予測参照情報予測データメモリ 207上の予測参照情報予測データに 修正を施す参照情報変更部 209と、過去に画像を復号する際に用いた参照フレー ム指定情報を蓄積する参照フレーム指定情報蓄積メモリ 210とを備える。
[0217] 図 19に、このように構成される動画像復号装置 200の実行するフローチートを示す
[0218] このフローチャートに従って、このように構成される動画像復号装置 200の実行する 処理について詳細に説明する。ただし、既に複数フレームの画像を復号済みであり、 その結果が参照フレームメモリ 205、参照情報蓄積メモリ 208、参照フレーム指定情 報蓄積メモリ 210に蓄積されているものとする。
[0219] まず、差分画像の符号化データと、差分参照情報の符号化データと、参照フレーム 指定情報の符号化データとが、動画像復号装置 200へ入力され、それぞれ、差分画 像復号部 201と、差分参照情報復号部 202と、参照フレーム指定情報復号部 203へ 送られる [S501]。
[0220] 復号対象画像は画像全体を領域分割し、領域毎に復号を行う [S502〜S515]。こ のフローチャートでは、ブロック(領域)のインデックスを blkと表し、一つの画像に含ま れる総ブロック数を MaxBlkと表す。
つまり、インデックス blkを 1に初期化した後 [S502]、 blk力 SMaxBlkになるまで [S5 14]、 blkに 1を加算しながら [S515]、以下の処理 [S503〜S513]を繰り返し実行 する。
[0221] ブロック毎に行う処理では、参照フレーム指定情報の符号化データを復号して、参 照フレーム指定情報 refを取得し [S503]、参照フレーム refに対する参照情報を予 測するための予測参照情報 pmvを生成する処理 [S504〜S507]を行った後に、差 分参照情報の符号化データを復号して、差分参照情報 mvdを取得し [S508]、 pmv と mvdとの和で構成される参照情報 mvを生成する [S 509]。
[0222] そして、参照フレーム refと参照情報 mvとを用いて予測画像 Preを生成し [S 510]、 差分画像の符号化データを復号して、差分画像 Subを取得し [S511]、 Preと Subと の画素ごとの和を計算することで復号画像 Decを生成する [S512]。
そして、復号画像 Decと、ブロック blkを復号するために用いた情報である参照情報 mvと、参照フレーム指定情報 refを、それぞれ、参照フレームメモリ 205、参照情報蓄 積メモリ 208、参照フレーム指定情報蓄積メモリ 210に格納する [S 513]。
[0223] なお、各フレームについては、そのフレームに含まれる全てのブロックに関して復号 処理が終わった後で、かつ、そのフレームより前の表示時刻を持つフレームが全て出 力された後に、復号されたフレームが動画像復号装置 200から出力される。
[0224] 予測参照情報 pmvを生成する処理 [S504〜S507]では、予測参照情報予測デ 一タメモリ 207を初期化した後 [S504]、ブロック blkに隣接する複数のブロックに関 して、そのブロックを復号したときに使用した参照フレーム番号 REFと、参照情報 MV と、そのブロックの位置を示す情報 POSの組 {REF, MV, POS }とを予測参照情報 予測データメモリ 207に格納する [S505]。
このとき、 MV, REFは、それぞれ、参照情報蓄積メモリ 208、参照フレーム指定情 報蓄積メモリ 210にブロックインデックス又は画像内の位置に対応付けられて蓄積さ れているものとする。
[0225] なお、ブロック blkに隣接する複数のブロックとしては、例えば、画像を分割した領 域をラスタースキャン順に符号化している場合には、上、左、右上で隣接するブロック とすること力 Sでさる。
本形態実施例では、この 3つの隣接ブロックの参照情報を予測参照情報予測デー タに設定することとする。ただし、該当するブロックが画面の外になるような場合は候 補から除外するものとする。
[0226] 次に、予測参照情報予測データメモリ 207内の予測参照情報予測データを取り出 し、参照情報変更部 209で変更を加えて、再度予測参照情報予測データメモリ 207 に蓄積する [S 506]。ここで行われる処理は後で詳しく説明を行う。
[0227] そして、予測参照情報予測データメモリ 207に蓄積されている複数の参照情報から 予測参照情報 pmvを生成する [S507]。具体的には、参照情報の成分ごとに予測参 照情報予測データの中間値を取ることで予測参照情報 pmvを作成する。
つまり、参照情報が X— Yの 2次元のベクトルとして表される場合、成分ごとに、複数 の予測参照情報予測データの持つ対応する成分の中間値を求めて、 pmvをその成 分の値とする。
なお、中間値以外にも平均値や最大値、最小値などを任意の基準のものを用いて も構わない。ただし、動画像符号化装置が用いる基準と同じ基準を用いる必要がある
[0228] 参照情報変更部 209で行われる S506の処理は、既に述べた図 3に示した動画像 符号化装置 100内の参照情報変更部 111で行われる図 4中に示す S 106の処理と 同様である。
[0229] つまり、最初に、予測参照情報予測データメモリ 207に蓄積された全ての予測参照 情報予測データに対して FINを 0で初期化し、全ての FIN力損になるまで、図 5〜図 1
2のフローチャートの処理を繰り返し実行する。
[0230] ここで、図 5は、全ての入力フレーム及び参照フレームが同じカメラから撮影された 画像である場合のフローチャートを示す。
また、図 6〜図 8は、多視点画像が入力され、参照フレームが入力フレームと表示 時刻(撮影時刻)が同じ画像か、同じカメラで撮影された画像である場合のフローチヤ ートを示す。
また、図 9〜図 12は、多視点画像が入力され、任意の既に符号化済みのフレーム を参照フレームとして用いることが出来る場合のフローチャートを示す。復号装置に おいては、任意の既に復号済みのフレームを参照フレームとして用いることが出来る 場合のフローチャートとしてとらえれば良い。 [0231] 図示実施形態例に従って本発明を説明したが、本発明は、この実施形態例に限ら れるものではない。
[0232] 例えば、 mv_telを生成する方法としては、上述のような最頻値を取るほかに、成分 ごとの中間値や平均値で生成する方法を用いてもよ!/、。
ただし、動画像符号化装置側と動画像復号装置側との対応した処理で同じ方法に なっている必要がある。
[0233] また、実施形態例ではフレーム内符号化については述べていないが、予測画像を 作る方法の 1つとして、例えば、参照フレーム指定情報として別の番号を割り当てるこ とで容易に追加することができる。
なお、隣接ブロックがフレーム内符号化されているときは MV (参照情報)に 0を設 定して予測参照情報予測データを生成し、 TIME ()や VIEW ()は、他の場合(即ち 、フレーム内符号化されていない)には絶対返さないような絶対値の大きな値を返す こととすると、フレーム内符号化が行われているような場合にも、前述のフローチヤ一 トで適切に処理可能である。また、参照フレーム指定情報を用いず、 H.264のように 別途符号化モードを用意して実現した動画像符号化装置、動画像復号装置も本発 明から容易に類推可能である。
[0234] 以上説明した動画像符号化及び復号の処理は、コンピュータとソフトウェアプロダラ ムとによっても実現することができ、そのプログラムをコンピュータ読み取り可能な記 録媒体に記録して提供することも、ネットワークを通して提供することも可能である。
[0235] また、以上の実施形態例では動画像符号化装置及び動画像復号装置を中心に説 明したが、これら動画像符号化装置及び動画像復号装置の各部の動作に対応した ステップによって本発明の動画像符号化方法及び動画像復号方法を実現することが できる。
[0236] 以上、図面を参照して本発明の実施形態例を説明してきたが、以上に説明した実 施形態例は本発明の例示に過ぎず、本発明が以上に説明した実施形態例に限定さ れるものでないことは明らかである。したがって、本発明の精神及び範囲を逸脱しな い範囲で構成要素の追加、省略、置換、その他の変更を行っても良い。
産業上の利用可能性 本発明によれば、符号化対象領域に隣接する領域を符号化するときに用いた参照 情報を、その参照領域を符号化する際に用いた符号化情報を用いて、符号化対象 フレームと符号化対象参照フレームとの時刻及び視点関係に適した参照情報に変 換した後に、予測参照情報を生成することによって、複数フレーム間における映像変 化の時間的連続性がな!/、場合や、符号化単位領域毎に動き補償と視差補償を選択 しながら多視点画像を符号化する場合においても、変換操作の方法を示す付加情 報を符号化することなぐ符号化対象領域を符号化する際に用いる参照情報と予測 参照情報との差を小さくし、フレーム間予符号化のための動きベクトルや視差情報を 効率よく符号化することができる。

Claims

請求の範囲
[1] 画像を領域分割し、領域毎に、時間的又は空間的なフレーム間予測符号化方式を 適用して、処理対象領域の参照フレームとその参照フレームにおける処理対象領域 の予測対象位置を示す参照情報とに基づいて処理対象領域の予測画像を生成して 動画像を処理するときに用いられて、その参照情報の予測情報となる予測参照情報 を生成する予測参照情報生成方法であって、
処理対象領域に隣接する既に処理済みの隣接領域を処理した際の参照情報を、 処理対象領域の参照情報の予測に用いる予測参照情報予測データとして設定する 予測参照情報予測データ設定ステップと、
前記予測参照情報予測データによって指し示される参照領域を処理した際に用い た 1つ以上の参照情報から参照領域参照情報を生成する参照領域参照情報生成ス 前記予測参照情報予測データを、生成された前記参照領域参照情報を用いて変 更する予測参照情報予測データ変更ステップと、
1つ又は複数存在する前記変更した予測参照情報予測データを用いて、前記予測 参照情報を生成する予測参照情報生成ステップと
を有する予測参照情報生成方法。
[2] 画像全体を領域分割して、領域毎に、既に符号化済みの複数のフレームの中から 、その領域の画像情報を予測する際に参照フレームとして用いる符号化対象領域参 照フレームを選択し、符号化対象領域参照フレームと、該符号化対象領域参照フレ ームにおける符号化対象領域の予測対象位置を示す参照情報とを用いて予測画像 を生成して、予測画像と符号化対象領域の画像との差分情報を符号化することで動 画像を符号化する動画像符号化方法であって、
符号化対象領域に隣接する既に符号化済みの隣接領域を符号化した際の参照情 報を、符号化対象領域の参照情報の予測に用いる予測参照情報予測データとして 設定する予測参照情報予測データ設定ステップと、
前記予測参照情報予測データによって指し示される参照領域を符号化した際に用 いた 1つ以上の参照情報から参照領域参照情報を生成する参照領域参照情報生成 前記予測参照情報予測データを、生成された前記参照領域参照情報を用いて変 更する予測参照情報予測データ変更ステップと、
1つ又は複数存在する前記変更した予測参照情報予測データを用いて、符号化対 象領域の参照情報の予測情報となる予測参照情報を生成する予測参照情報生成ス 符号化対象領域に対する予測画像を生成するために用いた参照情報と前記予測 参照情報との差分情報を符号化する差分参照情報符号化ステップと
を有する動画像符号化方法。
[3] 請求項 2に記載の動画像符号化方法において、
前記予測参照情報予測データ変更ステップでは、前記予測参照情報予測データ が示す対応点情報を、前記予測参照情報予測データが示す対応点情報と前記参照 領域参照情報が示す対応点情報との和に変更することによって、前記予測参照情報 予測データを変更する動画像符号化方法。
[4] 請求項 2に記載の動画像符号化方法において、
前記予測参照情報予測データ変更ステップでは、前記予測参照情報予測データ が示す対応点情報を、前記参照領域参照情報が示す対応点情報に変更することに よって、前記予測参照情報予測データを変更する動画像符号化方法。
[5] 請求項 2に記載の動画像符号化方法において、
前記予測参照情報予測データ変更ステップでは、前記予測参照情報予測データ が示す対応点情報を、前記予測参照情報予測データが示す対応点情報と前記参照 領域参照情報が示す対応点情報との和、及び、前記参照領域参照情報の対応点情 報のいずれか一方に変更することによって、前記予測参照情報予測データを変更す る動画像符号化方法。
[6] 請求項 5に記載の動画像符号化方法において、
前記予測参照情報予測データ変更ステップでは、前記符号化対象領域参照フレ ームの時刻情報及び視点情報と、前記参照領域の含まれるフレームの時刻情報及 び視点情報と、前記参照領域を符号化した際の参照フレームであるところの参照領 域参照フレームの時刻情報及び視点情報と、符号化対象フレームの時刻情報及び 視点情報とを用いて、前記予測参照情報予測データの対応点情報を、前記予測参 照情報予測データの対応点情報と前記参照領域参照情報の対応点情報との和に 変更するのか、前記参照領域参照情報の対応点情報に変更するのかを決定する動 画像符号化方法。
[7] 請求項 2に記載の動画像符号化方法において、
符号化対象フレームの視点のカメラパラメータと、前記符号化対象領域参照フレー ムの視点のカメラパラメータと、前記予測参照情報予測データの示すフレームの視点 のカメラパラメータとを用いて、その予測参照情報予測データが示す対応点情報に 幾何変換を加える予測参照情報幾何変換ステップを有する動画像符号化方法。
[8] 請求項 2に記載の動画像符号化方法において、
符号化対象フレームの視点のカメラパラメータと、前記符号化対象領域参照フレー ムの視点のカメラパラメータと、前記予測参照情報予測データの示すフレームの視点 のカメラパラメータと、その予測参照情報予測データに対応する参照領域参照情報 の示すフレームの視点のカメラパラメータとを用いて、その参照領域参照情報が示す 対応点情報に幾何変換を加える参照領域参照情報幾何変換ステップを有する動画 像符号化方法。
[9] 請求項 2に記載の動画像符号化方法において、
符号化対象領域の参照フレーム上の領域を探索対象として、前記予測参照情報 予測データによって指し示される参照領域に対応付けられる領域を探索し、前記予 測参照情報予測データを探索結果の対応情報に変更する予測参照情報予測デー タ探索ステップを有する動画像符号化方法。
[10] 請求項 2に記載の動画像符号化方法において、
符号化対象領域の参照フレーム上の領域を探索対象として、符号化対象領域の隣 接領域に対応付けられる領域を探索し、前記予測参照情報予測データを探索結果 の対応情報に変更する予測参照情報予測データ探索ステップを有する動画像符号 化方法。
[11] 画像全体を領域分割して、既に復号した複数のフレームから予測画像を生成しな がら画像を復号するのにあたり、領域毎に、予測画像を生成するために用いる既に 復号済みのフレームであるところの復号対象領域参照フレームを示す情報と、復号 対象領域参照フレームにおける復号対象領域の予測対象位置を示す参照情報と、 予測画像と復号対象領域の画像との差分情報とを復号することで、動画像を復号す る動画像復号方法であって、
復号対象領域に隣接する既に復号済みの隣接領域を復号した際の参照情報を、 復号対象領域の参照情報の予測に用いる予測参照情報予測データとして設定する 予測参照情報予測データ設定ステップと、
前記予測参照情報予測データによって指し示される参照領域を復号した際に用い た 1つ以上の参照情報から参照領域参照情報を生成する参照領域参照情報生成ス 前記予測参照情報予測データを、生成された前記参照領域参照情報を用いて変 更する予測参照情報予測データ変更ステップと、
1つ又は複数存在する前記変更した予測参照情報予測データを用いて、復号対象 領域の参照情報の予測情報となる予測参照情報を生成する予測参照情報生成ステ 符号化データから、復号対象領域に対する予測画像を生成するために用いる参照 情報と前記予測参照情報との差分情報を復号する差分参照情報復号ステップと を有する動画像復号方法。
[12] 請求項 11に記載の動画像復号方法におレ、て、
前記予測参照情報予測データ変更ステップでは、前記予測参照情報予測データ が示す対応点情報を、前記予測参照情報予測データが示す対応点情報と前記参照 領域参照情報が示す対応点情報との和に変更することによって、前記予測参照情報 予測データを変更する動画像復号方法。
[13] 請求項 11に記載の動画像復号方法にお!/、て、
前記予測参照情報予測データ変更ステップでは、前記予測参照情報予測データ が示す対応点情報を、前記参照領域参照情報が示す対応点情報に変更することに よって、前記予測参照情報予測データを変更する動画像復号方法。
[14] 請求項 11に記載の動画像復号方法にお!/、て、
前記予測参照情報予測データ変更ステップでは、前記予測参照情報予測データ が示す対応点情報を、前記予測参照情報予測データが示す対応点情報と前記参照 領域参照情報が示す対応点情報との和、及び、前記参照領域参照情報が示す対応 点情報のいずれか一方変更することによって、前記予測参照情報予測データを変更 する動画像復号方法。
[15] 請求項 14に記載の動画像復号方法において、
前記予測参照情報予測データ変更ステップでは、前記復号対象領域参照フレー ムの時刻情報及び視点情報と、前記参照領域の含まれるフレームの時刻情報及び 視点情報と、前記参照領域を復号した際の参照フレームであるところの参照領域参 照フレームの時刻情報及び視点情報と、復号対象フレームの時刻情報及び視点情 報とを用いて、前記予測参照情報予測データの対応点情報を、前記予測参照情報 予測データの対応点情報と前記参照領域参照情報の対応点情報との和に変更する のか、前記参照領域参照情報の対応点情報に変更するのかを決定する動画像復号 方法。
[16] 請求項 11に記載の動画像復号方法におレ、て、
復号対象フレームの視点のカメラパラメータと、前記復号対象領域参照フレームの 視点のカメラパラメータと、前記予測参照情報予測データの示すフレームの視点の力 メラパラメータとを用いて、その予測参照情報予測データが示す対応点情報に幾何 変換を加える予測参照情報幾何変換ステップを有する動画像復号方法。
[17] 請求項 11に記載の動画像復号方法におレ、て、
復号対象フレームの視点のカメラパラメータと、前記復号対象領域参照フレームの 視点のカメラパラメータと、前記予測参照情報予測データの示すフレームの視点の力 メラパラメータと、その予測参照情報予測データに対応する参照領域参照情報の示 すフレームの視点のカメラパラメータとを用いて、その参照領域参照情報が示す対応 点情報に幾何変換を加える参照領域参照情報幾何変換ステップを有する動画像復 号方法。
[18] 請求項 11に記載の動画像復号方法にお!/、て、 復号対象領域の参照フレーム上の領域を探索対象として、前記予測参照情報予 測データによって指し示される参照領域に対応付けられる領域を探索し、前記予測 参照情報予測データを探索結果の対応情報に変更する予測参照情報予測データ 探索ステップを有する動画像復号方法。
[19] 請求項 11に記載の動画像復号方法にお!/、て、
復号対象領域の参照フレーム上の領域を探索対象として、復号対象領域の隣接領 域に対応付けられる領域を探索し、前記予測参照情報予測データを探索結果の対 応情報に変更する予測参照情報予測データ探索ステップを有する動画像復号方法
[20] 請求項 1に記載の予測参照情報生成方法における各ステップを実現する手段を備 える予測参照情報生成装置。
[21] 請求項 1に記載の予測参照情報生成方法における各ステップをコンピュータに実 行させるための予測参照情報生成プログラム。
[22] 請求項 1に記載の予測参照情報生成方法における各ステップをコンピュータに実 行させるための予測参照情報生成プログラムを記録したコンピュータ読み取り可能な 記録媒体。
[23] 請求項 2に記載の動画像符号化方法における各ステップを実現する手段を備える 動画像符号化装置。
[24] 請求項 2に記載の動画像符号化方法における各ステップをコンピュータに実行させ るための動画像符号化プログラム。
[25] 請求項 2に記載の動画像符号化方法における各ステップをコンピュータに実行させ るための動画像符号化プログラムを記録したコンピュータ読み取り可能な記録媒体。
[26] 請求項 11に記載の動画像復号方法における各ステップを実現する手段を備える 動画像復号装置。
[27] 請求項 11に記載の動画像復号方法における各ステップをコンピュータに実行させ るための動画像復号プログラム。
[28] 請求項 11に記載の動画像復号方法における各ステップをコンピュータに実行させ るための動画像復号プログラムを記録したコンピュータ読み取り可能な記録媒体。
PCT/JP2007/070636 2006-10-30 2007-10-23 Procédé de génération d'informations de référence prédictives, procédé de codage et de décodage d'image dynamiques, leur dispositif, leur programme et support de stockage contenant le programme WO2008053746A1 (fr)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN2007800386378A CN101529918B (zh) 2006-10-30 2007-10-23 预测参照信息生成方法、活动图像的编码及解码方法及其装置
BRPI0717639 BRPI0717639A2 (pt) 2006-10-30 2007-10-23 Método de geração de informações de referência preditas, métodos de codificação de decodificação de vídeo, aparelhos destinados aos mesmos, programas destinados aos mesmos, e mídias de armazenamento que armazenam os programas
EP07830370A EP2079242A4 (en) 2006-10-30 2007-10-23 METHOD FOR GENERATING PREDICTIVE REFERENCE INFORMATION, DYNAMIC IMAGE ENCODING AND DECODING METHOD, DEVICE THEREOF, PROGRAM THEREOF, AND STORAGE MEDIUM CONTAINING THE PROGRAM
US12/445,047 US8355438B2 (en) 2006-10-30 2007-10-23 Predicted reference information generating method, video encoding and decoding methods, apparatuses therefor, programs therefor, and storage media which store the programs
CA 2665781 CA2665781C (en) 2006-10-30 2007-10-23 Predicted reference information generating method, video encoding and decoding methods, apparatuses therefor, programs therefor, and storage media which store the programs
JP2008542055A JP4999859B2 (ja) 2006-10-30 2007-10-23 予測参照情報生成方法、動画像符号化及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体
US13/711,904 US8675735B2 (en) 2006-10-30 2012-12-12 Predicted reference information generating method, video encoding and decoding methods, apparatuses therefor, programs therefor, and storage media which store the programs

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006-293929 2006-10-30
JP2006293929 2006-10-30

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US12/445,047 A-371-Of-International US8355438B2 (en) 2006-10-30 2007-10-23 Predicted reference information generating method, video encoding and decoding methods, apparatuses therefor, programs therefor, and storage media which store the programs
US13/711,904 Division US8675735B2 (en) 2006-10-30 2012-12-12 Predicted reference information generating method, video encoding and decoding methods, apparatuses therefor, programs therefor, and storage media which store the programs

Publications (1)

Publication Number Publication Date
WO2008053746A1 true WO2008053746A1 (fr) 2008-05-08

Family

ID=39344089

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/070636 WO2008053746A1 (fr) 2006-10-30 2007-10-23 Procédé de génération d'informations de référence prédictives, procédé de codage et de décodage d'image dynamiques, leur dispositif, leur programme et support de stockage contenant le programme

Country Status (10)

Country Link
US (2) US8355438B2 (ja)
EP (1) EP2079242A4 (ja)
JP (1) JP4999859B2 (ja)
KR (1) KR101023263B1 (ja)
CN (1) CN101529918B (ja)
BR (1) BRPI0717639A2 (ja)
CA (1) CA2665781C (ja)
RU (1) RU2434361C2 (ja)
TW (2) TWI376158B (ja)
WO (1) WO2008053746A1 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010016534A1 (ja) * 2008-08-08 2010-02-11 シャープ株式会社 動画像符号化装置および動画像復号装置
WO2012090497A1 (ja) * 2010-12-28 2012-07-05 パナソニック株式会社 動画像符号化方法、動画像復号方法、動画像符号化装置、動画像復号装置、及び動画像符号化復号装置
WO2012108315A1 (ja) * 2011-02-07 2012-08-16 シャープ株式会社 予測情報生成方法、画像符号化方法、画像復号方法、予測情報生成装置、予測情報生成プログラム、画像符号化装置、画像符号化プログラム、画像復号装置および画像復号プログラム
WO2013108613A1 (ja) * 2012-01-17 2013-07-25 パナソニック株式会社 動画像符号化方法、動画像復号化方法、動画像符号化装置、動画像復号化装置および動画像符号化復号化装置
JP2014512720A (ja) * 2011-02-21 2014-05-22 サムスン エレクトロニクス カンパニー リミテッド 多視点ビデオの符号化方法及び装置、その復号化方法及び装置
JP2014514862A (ja) * 2011-04-20 2014-06-19 クゥアルコム・インコーポレイテッド ビデオコード化における動きベクトル予測
JP5664762B2 (ja) * 2011-03-17 2015-02-04 富士通株式会社 動画像復号方法、動画像符号化方法、動画像復号装置及び動画像復号プログラム
JP2015046920A (ja) * 2014-10-15 2015-03-12 富士通株式会社 動画像復号方法、動画像符号化方法、動画像復号装置及び動画像復号プログラム
US9503720B2 (en) 2012-03-16 2016-11-22 Qualcomm Incorporated Motion vector coding and bi-prediction in HEVC and its extensions
JP2016537839A (ja) * 2013-09-26 2016-12-01 クゥアルコム・インコーポレイテッドQualcomm Incorporated Hevcにおけるサブ予測ユニット(pu)ベースの時間的動きベクトル予測および3d−hevcにおけるサブpu設計
US10200709B2 (en) 2012-03-16 2019-02-05 Qualcomm Incorporated High-level syntax extensions for high efficiency video coding
JP2020058055A (ja) * 2010-08-11 2020-04-09 ジーイー ビデオ コンプレッション エルエルシー 多視点信号コーデック

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2009084340A1 (ja) * 2007-12-28 2011-05-19 シャープ株式会社 動画像符号化装置、および、動画像復号装置
PT2988500T (pt) 2009-03-23 2017-09-26 Ntt Docomo Inc Dispositivo de codificação preditiva de imagem, a um método de codificação preditiva de imagem, a um programa de codificação preditiva de imagem, a um dispositivo de descodificação preditiva de imagem, a um método de descodificação preditiva de imagem e a um programa de descodificação preditiva de imagem
JP5237500B2 (ja) * 2010-02-23 2013-07-17 日本電信電話株式会社 動きベクトル推定方法、多視点映像符号化方法、多視点映像復号方法、動きベクトル推定装置、多視点映像符号化装置、多視点映像復号装置、動きベクトル推定プログラム、多視点映像符号化プログラム、及び多視点映像復号プログラム
CN102823248B (zh) * 2010-04-08 2015-06-24 株式会社东芝 图像编码方法以及图像编码装置
KR101903643B1 (ko) * 2010-07-20 2018-10-02 가부시키가이샤 엔.티.티.도코모 화상 예측 복호 장치 및 화상 예측 복호 방법
KR20120012385A (ko) 2010-07-31 2012-02-09 오수미 인트라 예측 부호화 장치
KR101373814B1 (ko) * 2010-07-31 2014-03-18 엠앤케이홀딩스 주식회사 예측 블록 생성 장치
JP5524762B2 (ja) 2010-08-12 2014-06-18 日本電信電話株式会社 映像符号化方法,映像復号方法,映像符号化装置,映像復号装置およびそれらのプログラム
US11284072B2 (en) 2010-08-17 2022-03-22 M&K Holdings Inc. Apparatus for decoding an image
EP3125556B1 (en) * 2010-08-17 2018-10-17 M&K Holdings Inc. Method for encoding an intra prediction mode
KR20120016991A (ko) 2010-08-17 2012-02-27 오수미 인터 프리딕션 방법
DK3657798T3 (da) * 2010-10-06 2022-10-31 Ntt Docomo Inc Biforudsigelsesbilledafkodningsfremgangsmåde
KR101418100B1 (ko) * 2010-10-06 2014-07-14 에스케이 텔레콤주식회사 모순 검증을 이용한 부호화 및 복호화 방법과 장치
JP5281632B2 (ja) * 2010-12-06 2013-09-04 日本電信電話株式会社 多視点画像符号化方法,多視点画像復号方法,多視点画像符号化装置,多視点画像復号装置およびそれらのプログラム
EP3136727B1 (en) 2011-04-12 2018-06-13 Sun Patent Trust Motion-video coding method and motion-video coding apparatus
KR20120118780A (ko) * 2011-04-19 2012-10-29 삼성전자주식회사 다시점 비디오의 움직임 벡터 부호화 방법 및 장치, 그 복호화 방법 및 장치
AU2012260302B2 (en) 2011-05-24 2016-11-17 Sun Patent Trust Image coding method, image coding apparatus, image decoding method, image decoding apparatus, and image coding and decoding apparatus
PL3614665T3 (pl) 2011-05-27 2022-07-04 Sun Patent Trust Sposób kodowania obrazów, urządzenie do kodowania obrazów, sposób dekodowania obrazów, urządzenie do dekodowania obrazów, i urządzenie do kodowania i dekodowania obrazów
US9485518B2 (en) 2011-05-27 2016-11-01 Sun Patent Trust Decoding method and apparatus with candidate motion vectors
SG194746A1 (en) 2011-05-31 2013-12-30 Kaba Gmbh Image encoding method, image encoding device, image decoding method, image decoding device, and image encoding/decoding device
US8989271B2 (en) 2011-05-31 2015-03-24 Panasonic Intellectual Property Corporation Of America Decoding method and apparatus with candidate motion vectors
EP2536143B1 (en) * 2011-06-16 2015-01-14 Axis AB Method and a digital video encoder system for encoding digital video data
US20140104383A1 (en) * 2011-06-22 2014-04-17 Sony Corporation Image processing device and method
PL2728878T3 (pl) 2011-06-30 2020-06-15 Sun Patent Trust Sposób dekodowania obrazów, sposób kodowania obrazów, urządzenie do dekodowania obrazów, urządzenie do kodowania obrazów oraz urządzenie do kodowania/dekodowania obrazów
IN2014CN00729A (ja) 2011-08-03 2015-04-03 Panasonic Corp
JP6039178B2 (ja) * 2011-09-15 2016-12-07 シャープ株式会社 画像符号化装置、画像復号装置、並びにそれらの方法及びプログラム
TWI577184B (zh) * 2011-09-28 2017-04-01 Jvc Kenwood Corp A motion picture decoding apparatus, a motion picture decoding method, and a recording medium
EP3923572A1 (en) 2011-10-19 2021-12-15 Sun Patent Trust Image encoding method, image encoding device, image decoding method, and picture decoding device
US10390016B2 (en) 2011-11-04 2019-08-20 Infobridge Pte. Ltd. Apparatus of encoding an image
KR20130049524A (ko) 2011-11-04 2013-05-14 오수미 인트라 예측 블록 생성 방법
DK3703371T3 (da) * 2011-12-16 2021-09-06 Jvckenwood Corp Indretning til dynamisk billedkodning, fremgangsmåde til dynamisk billedkodning, program til dynamisk billedkodning, indretning til dynamisk billedafkodning, fremgangsmåde til dynamisk billedafkodning og program til dynamisk billedafkodning
US9762904B2 (en) 2011-12-22 2017-09-12 Qualcomm Incorporated Performing motion vector prediction for video coding
WO2013105207A1 (en) * 2012-01-10 2013-07-18 Panasonic Corporation Video encoding method, video encoding apparatus, video decoding method and video decoding apparatus
CN104185993B (zh) * 2012-03-30 2019-02-12 索尼公司 图像处理设备和方法以及记录介质
ES2912134T3 (es) * 2012-04-12 2022-05-24 Jvckenwood Corp Construcción de lista de candidatos de fusión
US9860555B2 (en) 2012-05-22 2018-01-02 Lg Electronics Inc. Method and apparatus for processing video signal
CA2877268C (en) 2012-06-19 2020-07-21 Lg Electronics Inc. Method and device for processing video signal
KR102179087B1 (ko) * 2012-06-29 2020-11-18 벨로스 미디어 인터내셔널 리미티드 복호 장치 및 복호 방법
US10334259B2 (en) * 2012-12-07 2019-06-25 Qualcomm Incorporated Advanced residual prediction in scalable and multi-view video coding
US9544566B2 (en) 2012-12-14 2017-01-10 Qualcomm Incorporated Disparity vector derivation
US9800857B2 (en) * 2013-03-08 2017-10-24 Qualcomm Incorporated Inter-view residual prediction in multi-view or 3-dimensional video coding
WO2015056700A1 (ja) * 2013-10-17 2015-04-23 日本電信電話株式会社 映像符号化装置及び方法、及び、映像復号装置及び方法
US9807411B2 (en) * 2014-03-18 2017-10-31 Panasonic Intellectual Property Management Co., Ltd. Image coding apparatus, image decoding apparatus, image processing system, image coding method, and image decoding method
JP6463900B2 (ja) * 2014-04-17 2019-02-06 キヤノン株式会社 画像符号化装置及びその制御方法
CN115118967A (zh) 2015-11-20 2022-09-27 韩国电子通信研究院 用于对图像进行编/解码的方法和存储比特流的方法
CN116489350A (zh) 2015-11-20 2023-07-25 韩国电子通信研究院 对图像进行编/解码的方法和装置
GB2556319A (en) * 2016-07-14 2018-05-30 Nokia Technologies Oy Method for temporal inter-view prediction and technical equipment for the same
RU2666275C1 (ru) * 2017-11-13 2018-09-06 ДжейВиСи КЕНВУД КОРПОРЕЙШН Устройство и способ кодирования движущегося изображения, долговременный считываемый компьютером носитель записи, на который записана программа кодирования изображения
CN112714322B (zh) * 2020-12-28 2023-08-01 福州大学 一种面向游戏视频的帧间参考优化方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08205164A (ja) * 1994-12-30 1996-08-09 Daewoo Electron Co Ltd 動きベクトル決定方法及び動きベクトル推定装置
JPH10136374A (ja) * 1996-10-28 1998-05-22 Nec Corp 動ベクトル予測装置
JP2004056823A (ja) * 2002-07-16 2004-02-19 Samsung Electronics Co Ltd 動きベクトル符号化/復号化方法及びその装置
JP2004336369A (ja) * 2003-05-07 2004-11-25 Ntt Docomo Inc 動画像符号化装置、動画像復号化装置、動画像符号化方法、動画像復号化方法、動画像符号化プログラム及び動画像復号化プログラム
WO2006073116A1 (ja) * 2005-01-07 2006-07-13 Nippon Telegraph And Telephone Corporation 映像符号化方法及び装置、映像復号方法及び装置、それらのプログラムおよびそれらプログラムを記録した記録媒体
JP2006293929A (ja) 2005-04-14 2006-10-26 Matsushita Electric Ind Co Ltd データ伝送装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1127969A (zh) 1995-01-26 1996-07-31 大宇电子株式会社 用于在帧削减视频编码器中检测运动矢量的方法及装置
FR2756399B1 (fr) 1996-11-28 1999-06-25 Thomson Multimedia Sa Procede et dispositif de compression video pour images de synthese
JP3519594B2 (ja) 1998-03-03 2004-04-19 Kddi株式会社 ステレオ動画像用符号化装置
CN1201598C (zh) 2000-03-31 2005-05-11 皇家菲利浦电子有限公司 两种相关数据序列的编码
JP4608136B2 (ja) 2001-06-22 2011-01-05 オリンパス株式会社 動きベクトル及び視差ベクトル検出装置
US7154952B2 (en) * 2002-07-19 2006-12-26 Microsoft Corporation Timestamp-independent motion vector prediction for predictive (P) and bidirectionally predictive (B) pictures
CN1258925C (zh) * 2003-06-27 2006-06-07 中国科学院计算技术研究所 多视角视频编解码预测补偿方法及装置
US7778328B2 (en) 2003-08-07 2010-08-17 Sony Corporation Semantics-based motion estimation for multi-view video coding
JP4421940B2 (ja) 2004-05-13 2010-02-24 株式会社エヌ・ティ・ティ・ドコモ 動画像符号化装置および方法、並びに動画像復号化装置および方法
US7792188B2 (en) 2004-06-27 2010-09-07 Apple Inc. Selecting encoding types and predictive modes for encoding video data
US7933337B2 (en) 2005-08-12 2011-04-26 Microsoft Corporation Prediction of transform coefficients for image compression
TWI344791B (en) * 2006-07-12 2011-07-01 Lg Electronics Inc A method and apparatus for processing a signal

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08205164A (ja) * 1994-12-30 1996-08-09 Daewoo Electron Co Ltd 動きベクトル決定方法及び動きベクトル推定装置
JPH10136374A (ja) * 1996-10-28 1998-05-22 Nec Corp 動ベクトル予測装置
JP2004056823A (ja) * 2002-07-16 2004-02-19 Samsung Electronics Co Ltd 動きベクトル符号化/復号化方法及びその装置
JP2004336369A (ja) * 2003-05-07 2004-11-25 Ntt Docomo Inc 動画像符号化装置、動画像復号化装置、動画像符号化方法、動画像復号化方法、動画像符号化プログラム及び動画像復号化プログラム
WO2006073116A1 (ja) * 2005-01-07 2006-07-13 Nippon Telegraph And Telephone Corporation 映像符号化方法及び装置、映像復号方法及び装置、それらのプログラムおよびそれらプログラムを記録した記録媒体
JP2006293929A (ja) 2005-04-14 2006-10-26 Matsushita Electric Ind Co Ltd データ伝送装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"Editor's Proposed Draft Text Modifications for Joint Video Specification (ITU-T Rec. H.264 / ISO/IEC 14496-10 AVC), Draft 7", FINAL COMMITTEE DRAFT, DOCUMENT JVT-E022, September 2002 (2002-09-01), pages 63 - 64
ALEXIS; MICHAEL; TOURAPIS: "Direct Prediction for Predictive(P) and Bidirectionally Predictive(B) frames in Video Coding", JVT-C128, May 2002 (2002-05-01), pages 1 - 11, XP002354618
HIDEAKI KIMATA; MASAKI KITAHARA: "Preliminary results on multiple view video coding ( 3DAV)", M10976 MPEG REDMOND MEETING, July 2004 (2004-07-01)
SADAATSU KATO; CHOONG SENG BOON: "Motion Vector Prediction for Multiple Reference Frame Video Coding Using Temporal Motion Vector Normalization", PCSJ2004, PROCEEDINGS OF THE 19TH PICTURE CODING SYMPOSIUM OF JAPAN, November 2004 (2004-11-01), pages 2 - 18
See also references of EP2079242A4 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010016534A1 (ja) * 2008-08-08 2010-02-11 シャープ株式会社 動画像符号化装置および動画像復号装置
US11843757B2 (en) 2010-08-11 2023-12-12 Ge Video Compression, Llc Multi-view signal codec
JP7189272B2 (ja) 2010-08-11 2022-12-13 ジーイー ビデオ コンプレッション エルエルシー 多視点信号コーデック
US11330242B2 (en) 2010-08-11 2022-05-10 Ge Video Compression, Llc Multi-view signal codec
JP2021141602A (ja) * 2010-08-11 2021-09-16 ジーイー ビデオ コンプレッション エルエルシー 多視点信号コーデック
JP2020058055A (ja) * 2010-08-11 2020-04-09 ジーイー ビデオ コンプレッション エルエルシー 多視点信号コーデック
WO2012090497A1 (ja) * 2010-12-28 2012-07-05 パナソニック株式会社 動画像符号化方法、動画像復号方法、動画像符号化装置、動画像復号装置、及び動画像符号化復号装置
WO2012108315A1 (ja) * 2011-02-07 2012-08-16 シャープ株式会社 予測情報生成方法、画像符号化方法、画像復号方法、予測情報生成装置、予測情報生成プログラム、画像符号化装置、画像符号化プログラム、画像復号装置および画像復号プログラム
JP2014512720A (ja) * 2011-02-21 2014-05-22 サムスン エレクトロニクス カンパニー リミテッド 多視点ビデオの符号化方法及び装置、その復号化方法及び装置
JP5664762B2 (ja) * 2011-03-17 2015-02-04 富士通株式会社 動画像復号方法、動画像符号化方法、動画像復号装置及び動画像復号プログラム
JP2016026435A (ja) * 2011-04-20 2016-02-12 クゥアルコム・インコーポレイテッドQualcomm Incorporated ビデオコード化における動きベクトル予測
US9485517B2 (en) 2011-04-20 2016-11-01 Qualcomm Incorporated Motion vector prediction with motion vectors from multiple views in multi-view video coding
US9584823B2 (en) 2011-04-20 2017-02-28 Qualcomm Incorporated Determining motion vectors for motion vector prediction based on motion vector type in video coding
US9247249B2 (en) 2011-04-20 2016-01-26 Qualcomm Incorporated Motion vector prediction in video coding
JP2014514861A (ja) * 2011-04-20 2014-06-19 クゥアルコム・インコーポレイテッド ビデオコード化における動きベクトル予測
JP2014514862A (ja) * 2011-04-20 2014-06-19 クゥアルコム・インコーポレイテッド ビデオコード化における動きベクトル予測
WO2013108613A1 (ja) * 2012-01-17 2013-07-25 パナソニック株式会社 動画像符号化方法、動画像復号化方法、動画像符号化装置、動画像復号化装置および動画像符号化復号化装置
US9503720B2 (en) 2012-03-16 2016-11-22 Qualcomm Incorporated Motion vector coding and bi-prediction in HEVC and its extensions
US10200709B2 (en) 2012-03-16 2019-02-05 Qualcomm Incorporated High-level syntax extensions for high efficiency video coding
JP2016537839A (ja) * 2013-09-26 2016-12-01 クゥアルコム・インコーポレイテッドQualcomm Incorporated Hevcにおけるサブ予測ユニット(pu)ベースの時間的動きベクトル予測および3d−hevcにおけるサブpu設計
JP2015046920A (ja) * 2014-10-15 2015-03-12 富士通株式会社 動画像復号方法、動画像符号化方法、動画像復号装置及び動画像復号プログラム

Also Published As

Publication number Publication date
KR20090067176A (ko) 2009-06-24
EP2079242A1 (en) 2009-07-15
US8675735B2 (en) 2014-03-18
RU2434361C2 (ru) 2011-11-20
CA2665781A1 (en) 2008-05-08
JPWO2008053746A1 (ja) 2010-02-25
TWI376158B (en) 2012-11-01
CA2665781C (en) 2014-02-18
TW201233192A (en) 2012-08-01
TW200829036A (en) 2008-07-01
TWI502968B (zh) 2015-10-01
CN101529918A (zh) 2009-09-09
RU2009114363A (ru) 2010-10-20
CN101529918B (zh) 2011-08-03
EP2079242A4 (en) 2010-11-03
US8355438B2 (en) 2013-01-15
JP4999859B2 (ja) 2012-08-15
US20130101038A1 (en) 2013-04-25
BRPI0717639A2 (pt) 2013-11-12
US20100118939A1 (en) 2010-05-13
KR101023263B1 (ko) 2011-03-21

Similar Documents

Publication Publication Date Title
WO2008053746A1 (fr) Procédé de génération d&#39;informations de référence prédictives, procédé de codage et de décodage d&#39;image dynamiques, leur dispositif, leur programme et support de stockage contenant le programme
US9729895B2 (en) Moving picture decoding device, moving picture decoding method, and moving picture decoding program
TWI400959B (zh) 活動影像編碼方法及解碼方法、其裝置、其電腦程式以及記錄有該電腦程式之記憶媒體
CN103238319B (zh) 推导运动向量预测项或运动向量预测项候选项的方法及装置
EP2099226B1 (en) Video encoding method, decoding method, device thereof, program thereof, and storage medium containing the program
JP4999854B2 (ja) 画像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体
TW201251470A (en) Video decoding apparatus, video coding apparatus, video decoding method, video coding method, and storage medium
KR101550680B1 (ko) 다시점 화상 부호화 방법, 다시점 화상 복호 방법, 다시점 화상 부호화 장치, 다시점 화상 복호 장치 및 그 프로그램
KR20210089781A (ko) 동화상 부호화 장치, 동화상 부호화 방법 및, 동화상 부호화 프로그램이 기록된 컴퓨터 판독가능 기록 매체, 동화상 복호 장치, 동화상 복호 방법 및 동화상 복호 프로그램이 기록된 컴퓨터 판독가능 기록 매체
JP2009005280A (ja) 画像符号化方法,画像復号方法,画像符号化装置,画像復号装置,画像符号化プログラム,画像復号プログラムおよびコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200780038637.8

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07830370

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2008542055

Country of ref document: JP

ENP Entry into the national phase

Ref document number: 2665781

Country of ref document: CA

WWE Wipo information: entry into national phase

Ref document number: 12445047

Country of ref document: US

Ref document number: 1975/CHENP/2009

Country of ref document: IN

REEP Request for entry into the european phase

Ref document number: 2007830370

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2007830370

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2009114363

Country of ref document: RU

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 1020097007723

Country of ref document: KR

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: PI0717639

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20090416