WO2015056647A1 - 映像符号化装置及び方法、及び、映像復号装置及び方法 - Google Patents

映像符号化装置及び方法、及び、映像復号装置及び方法 Download PDF

Info

Publication number
WO2015056647A1
WO2015056647A1 PCT/JP2014/077210 JP2014077210W WO2015056647A1 WO 2015056647 A1 WO2015056647 A1 WO 2015056647A1 JP 2014077210 W JP2014077210 W JP 2014077210W WO 2015056647 A1 WO2015056647 A1 WO 2015056647A1
Authority
WO
WIPO (PCT)
Prior art keywords
prediction
reference information
image
information
video
Prior art date
Application number
PCT/JP2014/077210
Other languages
English (en)
French (fr)
Inventor
志織 杉本
信哉 志水
明 小島
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to CN201480050745.7A priority Critical patent/CN105532006B/zh
Priority to US14/913,482 priority patent/US10972751B2/en
Priority to JP2015542601A priority patent/JPWO2015056647A1/ja
Priority to KR1020167006827A priority patent/KR101792089B1/ko
Publication of WO2015056647A1 publication Critical patent/WO2015056647A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/55Motion estimation with spatial constraints, e.g. at image or region borders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures

Definitions

  • the present invention relates to a video encoding device, a video decoding device, a video encoding method, and a video decoding method.
  • This application claims priority based on Japanese Patent Application No. 2013-216488 for which it applied on October 17, 2013, and uses the content here.
  • each frame of video is divided into processing unit blocks using spatial / temporal continuity of the subject, and the video signal is predicted spatially / temporally for each block.
  • the prediction information indicating the prediction method and the prediction residual signal
  • the encoding efficiency is greatly improved as compared with the case of encoding the video signal itself.
  • intra prediction for predicting a signal to be encoded with reference to an already encoded block in the same frame and motion with reference to another already encoded frame Inter-frame prediction is performed to predict the encoding target signal based on compensation or the like.
  • Multi-view video encoding is to encode a plurality of videos obtained by photographing the same scene with a plurality of cameras with high efficiency by using redundancy between the videos.
  • Multi-view video coding is detailed in Non-Patent Document 1.
  • Inter-viewpoint residual prediction in which a signal to be encoded is predicted by prediction and interframe prediction, and the residual signal is predicted with reference to a residual signal at the time of encoding a video of another viewpoint that has already been encoded. Such a method is used.
  • Inter-view prediction is treated as inter prediction together with inter-frame prediction in multi-view video coding such as MVC (Multiview Video Coding), and two or more predicted images are interpolated into a predicted image in a B picture. It can also be used for direction prediction.
  • MVC Multiview Video Coding
  • bi-directional prediction based on inter-frame prediction and inter-view prediction can be performed on a picture that can perform both inter-frame prediction and inter-view prediction.
  • reference information such as a reference picture index and a motion vector indicating the reference destination.
  • reference information is encoded as prediction information and multiplexed together with video.
  • the reference information may be predicted by some method.
  • the prediction mode used by the neighboring blocks of the encoding target image that has already been encoded at the time of encoding is acquired and used as the reference information for prediction of the encoding target image.
  • motion vector prediction or the like as a method of determining a prediction value of reference information by these methods, and further encoding a difference with actual reference information and multiplexing it with a video.
  • Non-Patent Document 2 details the inter-viewpoint motion prediction.
  • Residual prediction is a method for suppressing the code amount of a prediction residual using the fact that when two images having high correlation are predictively encoded, the prediction residuals are also correlated with each other.
  • the residual prediction is detailed in Non-Patent Document 3.
  • the prediction residual signal at the time of encoding in the region corresponding to the encoding target image in the video of different viewpoints is subtracted from the prediction residual signal to be encoded. As a result, the energy of the residual signal can be reduced and the encoding efficiency can be improved.
  • the correspondence relationship between viewpoints is, for example, when an already-encoded peripheral block is encoded by parallax compensation prediction, a region of another viewpoint corresponding to the encoding target block is set by the disparity vector, etc. Required by the method.
  • the disparity vector obtained by this method is called “neighboring block based disparity vector (NBDV)”.
  • Inter-view residual prediction is used as a further process for the residual separately from the prediction when inter-frame prediction is used in a B picture.
  • an image is one frame of a moving image or a still image, and a collection of a plurality of frames (images) (moving image) is referred to as a video.
  • inter-view motion prediction is an effective code amount reduction method, but the effect cannot be obtained when motion vectors cannot be shared between viewpoints due to camera placement problems or the like.
  • inter-view motion prediction and residual prediction generally, a method is used in which an area on a picture of another viewpoint corresponding to an encoding target image is determined using NBDV. Such a method is effective when the encoding target image has the same motion / parallax as the surrounding blocks, but otherwise, no effect is obtained.
  • this method cannot be used when there is no peripheral block encoded by disparity compensation prediction.
  • information for obtaining correspondence between viewpoints such as an additional disparity vector is required, and there is a problem that the amount of codes increases.
  • the present invention has been made in view of such circumstances, and a video encoding device, a video decoding device, and the like that can reduce the amount of code required for predictive residual encoding by improving the accuracy of a predicted image,
  • An object is to provide a video encoding method and a video decoding method.
  • the present invention is a video encoding device that predictively encodes an encoding target image included in an encoding target video, A prediction unit that predicts an encoding target image using an already encoded image as a reference picture, and determines first reference information indicating a first reference region that is a reference destination; Second reference information determination means for determining second reference information indicating a second reference region which is another reference destination for the encoding target image, from reference information at the time of predictive encoding of the first reference region; There is provided a video encoding device comprising: predicted image generation means for generating a predicted image based on the second reference information or both the first reference information and the second reference information.
  • either the first reference information or the previous second reference information indicates a reference area on a reference picture in a time direction that is an image at a time different from the encoding target image, and the other is A reference area on a reference picture in a parallax direction which is an image of a viewpoint different from that of an encoding target image is shown.
  • the predicted image generating means generates a first primary predicted image using the first reference information, generates a second primary predicted image using the second reference information, and the first reference information.
  • the predicted image is generated by mixing the primary predicted image and the second primary predicted image.
  • the predicted image generation means generates a first primary predicted image from the first reference information, generates a second primary predicted image from the second reference information, and further includes the first reference information and The prediction image is generated by performing residual prediction using prediction information at the time of encoding the first reference region, or using the first reference information and the second reference information.
  • the predicted image generation unit generates a secondary predicted image from a third reference region that is a prediction reference destination for the first reference region, and the first primary predicted image, the second primary predicted image, and the second predicted image.
  • the prediction image may be generated by performing residual prediction from the next prediction image.
  • the second reference information determination means determines the second reference information using information obtained by correcting the reference information at the time of predictive coding of the first reference region.
  • the reference information at the time of predictive coding of the first reference region is a motion vector or a disparity vector.
  • the present invention is also a video encoding apparatus that predictively encodes an encoding target image included in an encoding target video,
  • a prediction unit that predicts an encoding target image using an already encoded image as a reference picture, and determines first reference information indicating a first reference region that is a reference destination;
  • Second reference information determination means for determining second reference information indicating a second reference region which is another reference destination for the encoding target image, from reference information at the time of predictive encoding of the first reference region;
  • a video encoding device comprising: candidate list updating means for adding the second reference information to a candidate list in which prediction information of peripheral images of the encoding target image is listed.
  • the present invention is also a video decoding device that predictively decodes a decoding target image included in a decoding target video, From the reference information at the time of predictive decoding of the first reference region, which is the reference destination indicated by the first reference information based on the encoded prediction information or information that can be referred to by the video decoding device, at another reference destination for the decoding target image Second reference information determining means for determining second reference information indicating a second reference area; There is also provided a video decoding device comprising: predicted image generation means for generating a predicted image based on the second reference information or both the first reference information and the second reference information.
  • either the first reference information or the previous second reference information indicates a reference area on a reference picture in a time direction that is an image at a time different from the encoding target image, and the other is A reference area on a reference picture in a parallax direction which is an image of a viewpoint different from that of an encoding target image is shown.
  • the predicted image generating means generates a first primary predicted image using the first reference information, generates a second primary predicted image using the second reference information, and the first reference information.
  • the predicted image is generated by mixing the primary predicted image and the second primary predicted image.
  • the predicted image generation means generates a first primary predicted image from the first reference information, generates a second primary predicted image from the second reference information, and further includes the first reference information and
  • the prediction image is generated by performing residual prediction using prediction information at the time of decoding the first reference region or using the first reference information and the second reference information.
  • the predicted image generation unit generates a secondary predicted image from a third reference region that is a prediction reference destination for the first reference region, and the first primary predicted image, the second primary predicted image, and the second predicted image.
  • the prediction image may be generated by performing residual prediction from the next prediction image.
  • the second reference information determining means determines the second reference information using information obtained by correcting the reference information at the time of predictive decoding of the first reference region.
  • the reference information at the time of predictive decoding of the first reference region is a motion vector or a disparity vector.
  • the present invention is also a video decoding device that predictively decodes a decoding target image included in a decoding target video,
  • a prediction unit that predicts a decoding target image using an already decoded image as a reference picture, and determines first reference information indicating a first reference region that is a reference destination;
  • Second reference information determining means for determining second reference information indicating a second reference region, which is another reference destination for the decoding target image, from reference information at the time of predictive decoding of the first reference region;
  • a video decoding device comprising: candidate list updating means for adding the second reference information to a candidate list in which prediction information of peripheral images of the decoding target image is listed.
  • the present invention is also a video encoding method performed by a video encoding device that predictively encodes an encoding target image included in an encoding target video, A prediction step of predicting an encoding target image using an already encoded image as a reference picture, and determining first reference information indicating a first reference region as a reference destination; A second reference information determination step of determining second reference information indicating a second reference region that is another reference destination for the encoding target image, from reference information at the time of predictive encoding of the first reference region; There is also provided a video encoding method comprising: a predicted image generation step of generating a predicted image based on the second reference information or both the first reference information and the second reference information.
  • the present invention is also a video encoding method performed by a video encoding device that predictively encodes an encoding target image included in an encoding target video, A prediction step of predicting an encoding target image using an already encoded image as a reference picture, and determining first reference information indicating a first reference region as a reference destination; A second reference information determination step of determining second reference information indicating a second reference region that is another reference destination for the encoding target image, from reference information at the time of predictive encoding of the first reference region; A video encoding method comprising: a candidate list updating step of adding the second reference information to a candidate list in which prediction information of peripheral images of the encoding target image is listed.
  • the present invention is also a video decoding method performed by a video decoding device that predictively decodes a decoding target image included in a decoding target video, From the reference information at the time of predictive decoding of the first reference area that is the reference destination indicated by the first reference information based on the encoded prediction information or any information that can be referred to by the video decoding apparatus, A second reference information determining step for determining second reference information indicating a second reference area as a reference destination; Also provided is a video decoding method comprising: a predicted image generation step of generating a predicted image based on the second reference information or both the first reference information and the second reference information.
  • the present invention is also a video decoding method performed by a video decoding device that predictively decodes a decoding target image included in a decoding target video, A prediction step of predicting a decoding target image by using an already decoded image as a reference picture and determining first reference information indicating a first reference region as a reference destination; A second reference information determining step for determining second reference information indicating a second reference region that is another reference destination for the decoding target image, from reference information at the time of predictive decoding of the first reference region; A video decoding method comprising: a candidate list updating step of adding the second reference information to a candidate list in which prediction information of peripheral images of the decoding target image is listed.
  • FIG. 1 is a block diagram showing a configuration of a video encoding device 100 according to the first embodiment of the present invention.
  • the video encoding device 100 includes an encoding target video input unit 101, an input video memory 102, a reference picture memory 103, a prediction unit 104, a second reference information determination unit 105, a predicted image generation unit 106, A subtracting unit 107, a transform / quantization unit 108, an inverse quantization / inverse transform unit 109, an addition unit 110, and an entropy coding unit 111 are provided.
  • the encoding target video input unit 101 inputs a video to be encoded to the video encoding device 100.
  • the video to be encoded is referred to as an encoding target video
  • a frame to be processed in particular is referred to as an encoding target frame or an encoding target picture.
  • the input video memory 102 stores the input encoding target video.
  • the reference picture memory 103 stores images that have been encoded and decoded so far.
  • this stored frame is referred to as a reference frame or a reference picture.
  • the prediction unit 104 performs prediction on an encoding target image on a reference picture stored in the reference picture memory 103, determines first reference information indicating a first reference region that is a reference destination, and determines first reference information or first reference information. 1 Prediction information that is information that can identify reference information is generated.
  • the second reference information determination unit 105 determines second reference information indicating a second reference region, which is another reference destination, from prediction information at the time of encoding the first reference region indicated by the first reference information.
  • the predicted image generation unit 106 generates a predicted image based on the second reference information.
  • the subtraction unit 107 obtains a difference value between the encoding target image and the predicted image, and generates a prediction residual.
  • the transform / quantization unit 108 transforms / quantizes the generated prediction residual to generate quantized data.
  • the inverse quantization / inverse transform unit 109 performs inverse quantization / inverse transform on the generated quantized data to generate a decoded prediction residual.
  • the adding unit 110 adds the decoded prediction residual and the predicted image to generate a decoded image.
  • the entropy encoding unit 111 entropy encodes the quantized data to generate code data.
  • FIG. 2 is a flowchart showing the processing operation of the video encoding apparatus 100 shown in FIG.
  • the encoding target video is one of the multi-view videos
  • the multi-view video has a structure in which videos of all viewpoints are encoded and decoded for each frame.
  • a process for encoding one frame in the video to be encoded will be described. By repeating the process described below for each frame, video encoding can be realized.
  • the encoding target video input unit 101 receives the encoding target picture (frame) and stores it in the input video memory 102 (step S101). It is assumed that some frames in the video to be encoded have already been encoded and the decoding results are stored in the reference picture memory 103. In addition, it is assumed that videos of different viewpoints that can be referred to up to the same frame as the current picture to be encoded are already encoded and decoded and stored in the reference picture memory 103.
  • the encoding target picture is divided into encoding target blocks, and the video signal of the encoding target picture is encoded for each block (steps S102 to S111).
  • an image of a block to be encoded is referred to as an encoding target block or an encoding target image.
  • the following steps S103 to S110 are repeatedly executed for all the blocks of the picture.
  • the prediction unit 104 performs inter prediction with reference to the reference picture in the reference picture memory for the encoding target block, and determines the first reference region that is the reference destination.
  • First reference information that is information to be shown is determined, and prediction information that is information that can identify the first reference information or the first reference information is generated (step S103).
  • the prediction may be performed by any method, and the first reference information and the prediction information may be any method.
  • Typical reference information indicating a reference area includes a combination of reference picture index information for specifying a reference picture and a vector indicating a reference position on the reference picture.
  • the prediction information may be any information as long as the first reference information can be determined.
  • the first reference information itself may be used as prediction information, or identification information that can identify a block used in the merge mode or the like may be used as prediction information. Any other prediction method, reference information, and prediction information may be used.
  • the prediction information may be encoded and multiplexed with the video code data, or may not be encoded if it can be derived from the surrounding prediction information or candidate list as described above. Moreover, prediction information may be predicted and the residual may be encoded.
  • the second reference information determination unit 105 refers to the first reference region based on the prediction information indicating the first reference information, and based on the prediction information (reference information) at the time of encoding the first reference region. Then, the second reference information indicating the second reference area as another reference destination is determined (step S104). Similar to the first reference information, the second reference information is information that can specify the reference picture and the reference position. Further, the reference picture may be determined in advance or may be determined separately. For example, the second reference area is always set on a video of a specific viewpoint, and information specifying the reference picture may not be included as the second reference information.
  • the determination of the second reference information may be performed in any way.
  • the first reference area is on a picture of a different frame at the same viewpoint as the encoding target viewpoint
  • the encoding target image is a part of the picture of frame n at viewpoint B
  • the first reference area indicated by the first reference information is on the reference picture of frame m ( ⁇ n) at viewpoint B.
  • the reference picture index based on the prediction information at the time of encoding the first reference area indicates the reference picture of the frame m at the viewpoint A ( ⁇ B).
  • the reference picture index indicating the reference picture of the frame n of the viewpoint A and the disparity vector based on the prediction information at the time of encoding the first reference region are set as the second reference information.
  • Parallax compensation prediction and the like can be performed.
  • the first reference region is on a picture of a different frame at the same viewpoint as the encoding target viewpoint.
  • the first reference region is on a picture of the same frame at a different viewpoint from the encoding target viewpoint.
  • a similar method can be used.
  • the prediction information of the first reference area indicates a different frame of the same viewpoint
  • the same method can be used by referring to another area using the prediction information of the area.
  • the second reference information can be determined based on the prediction information or NBDV in the candidate list of the first reference region. Any other method may be used.
  • the second reference information may be determined for every unit. It may be for each encoding target block, or an area having a size smaller than that may be determined as a sub-block and determined for each sub-block. Further, the sub-block size may be determined in any way. A predetermined size may be used, a set of predetermined sizes may be selected, any other size may be determined adaptively, and the second reference information may be determined for each pixel. You may decide.
  • adaptively determining for example, it can be determined based on the size of the block or sub-block at the time of encoding the first reference region and other information. For example, when the encoding target image has first reference information for each 16 ⁇ 16 block obtained by further dividing the encoding target block, and the first reference area is predicted for each 8 ⁇ 8 block at the time of encoding, In the encoding target image, the second reference area can be determined for each 8 ⁇ 8 block.
  • a plurality of prediction information included in the reference range One of them may be selected and used for determining the second reference information, or a plurality of them may be used for determination. For example, it may be determined in advance that the upper left prediction information in the reference range is used, or an average value or an intermediate value of a plurality of prediction information may be used.
  • the second reference information may be determined after correcting the prediction information of the first reference region.
  • Any correction method may be used.
  • the prediction information of the first reference region is encoded from the vector or NBDV in the candidate list of the encoding target block (prediction information of the neighboring blocks) and the vector or NBDV in the candidate list of the first reference region. It is possible to determine a correction coefficient to be adjusted. Further, any correction coefficient may be used. It may be a parameter for scaling or offset, or may be an identifier that specifies a parameter to be used from predetermined parameters.
  • correction may be performed using information other than video such as camera parameters.
  • information other than video such as camera parameters.
  • the second reference area is set on a reference picture of a viewpoint different from the reference picture indicated by the prediction information of the first reference area
  • the disparity vector based on the prediction information of the first reference area using the camera parameter May be converted into second reference information.
  • the information for correction may be encoded and multiplexed with the video, or the correction coefficient itself may be encoded, or an identifier for designating a predetermined correction coefficient to be used is encoded. May be used.
  • similar information can be obtained on the decoding side, it may not be encoded.
  • the predicted image generation unit 106 When the second reference information generation is completed, the predicted image generation unit 106 generates a predicted image based on the second reference information (step S105).
  • the predicted image may be generated by motion compensation or parallax compensation using only the second reference information.
  • another predicted image may be generated by motion compensation or parallax compensation using the first reference information, and a final predicted image may be generated by mixing two predicted images.
  • the weight may be arbitrarily determined by performing weighted mixing in the bidirectional prediction.
  • any prediction or bi-directional prediction is performed for each arbitrary unit such as an encoding target block or a smaller sub-block, and information indicating which prediction is performed for each unit, and a mixture of weights. If so, the weights may be encoded and multiplexed with the video. If the decoding method can determine the prediction method and the weight, it may not be encoded.
  • the subtraction unit 107 takes the difference between the predicted image and the encoding target block, and generates a prediction residual (step S106). Subsequently, when the generation of the prediction residual is completed, the transform / quantization unit 108 transforms / quantizes the prediction residual to generate quantized data (step S107). For this transformation / quantization, any method may be used as long as it can be correctly inverse-quantized / inverse transformed on the decoding side. When the transform / quantization is completed, the inverse quantization / inverse transform unit 109 performs inverse quantization / inverse transform on the quantized data to generate a decoded prediction residual (step S108).
  • the adding unit 110 adds the decoded prediction residual and the predicted image to generate a decoded image, and stores it in the reference picture memory 103 (step S109).
  • a loop filter may be applied to the decoded image.
  • coding noise is removed using a deblocking filter or other filters.
  • the entropy encoding unit 111 generates encoded data by entropy encoding the quantized data, and if necessary, also encodes prediction information, residual prediction information, and other additional information, and multiplexes with the encoded data (step S110)
  • code data is output (step S112).
  • FIG. 4 is a block diagram showing the configuration of the video decoding apparatus according to the first embodiment of the present invention.
  • the video decoding apparatus 200 includes a code data input unit 201, a code data memory 202, a reference picture memory 203, an entropy decoding unit 204, an inverse quantization / inverse transform unit 205, and a second reference information determination unit 206.
  • a prediction image generation unit 207 and an addition unit 208 are provided.
  • the code data input unit 201 inputs video code data to be decoded to the video decoding device 200.
  • This video code data to be decoded is called decoding target video code data, and a frame to be processed in particular is called a decoding target frame or a decoding target picture.
  • the code data memory 202 stores the code data of the input decoding target video.
  • the reference picture memory 203 stores an already decoded image.
  • the entropy decoding unit 204 entropy-decodes the code data of the picture to be decoded to generate quantized data, and the inverse quantization / inverse transform unit 205 performs inverse quantization / inverse transformation on the quantized data to obtain a decoded prediction residual. Generate the difference.
  • the second reference information determination unit 206 determines the second reference information from the prediction information at the time of encoding the first reference region set based on the prediction information received from the entropy decoding unit 204 or the like.
  • the predicted image generation unit 207 generates a predicted image based on the second reference information.
  • the adder 208 adds the decoded prediction residual and the predicted image to generate a decoded image.
  • FIG. 5 is a flowchart showing the processing operation of the video decoding apparatus 200 shown in FIG.
  • the decoding target video is one of the multi-view videos
  • the multi-view video has a structure for decoding the videos of all viewpoints by one viewpoint for each frame.
  • a process of decoding one frame in the code data will be described. By repeating the processing described for each frame, video decoding can be realized.
  • the code data input unit 201 receives code data and stores it in the code data memory 202 (step S201). It is assumed that some frames in the video to be decoded have already been decoded, and the decoding results are stored in the reference picture memory 203. Also, it is assumed that the video of another viewpoint that can be referred to up to the same frame as the decoding target picture has already been decoded and stored in the reference picture memory 203.
  • the decoding target picture is divided into decoding target blocks, and the video signal of the decoding target picture is decoded for each block (steps S202 to S208).
  • an image of a block to be decoded is referred to as a decoding target block or a decoding target image.
  • the processing in steps S203 to S207 is repeatedly executed for all blocks in the frame.
  • the entropy decoding unit 204 performs entropy decoding on the code data (step S203).
  • the inverse quantization / inverse transform unit 206 performs inverse quantization / inverse transformation to generate a decoded prediction residual (step S204).
  • the prediction data and other additional information are included in the code data, they may also be decoded to generate necessary information as appropriate.
  • the second reference information determination unit 206 refers to the first reference area that is an area on the reference picture indicated by the first reference information based on the prediction information, and performs the second reference based on the prediction information when the first reference area is encoded. Reference information is determined (step S205). The details of the prediction information, the first reference information, and the second reference information and the determination method thereof are the same as those of the video encoding device.
  • the predicted image generation unit 207 generates a predicted image based on the second reference information (step S206).
  • the adding unit 208 when the generation of the predicted image is completed, the adding unit 208 generates a decoded image by adding the decoded prediction residual and the predicted image, and stores the decoded image in the reference picture memory (step S207). If necessary, a loop filter may be applied to the decoded image. In normal video decoding, a coding noise is removed using a deblocking filter or other filters. When all the blocks have been processed (step S208), the decoded frame is output (step S209).
  • FIG. 6 is a block diagram showing a configuration of a video encoding device 100a according to the second embodiment of the present invention.
  • the apparatus shown in this figure is different from the apparatus shown in FIG. 1 in that a prediction method switching unit 112 is newly provided.
  • the prediction method switching unit 112 indicates switching determination information indicating which prediction method is used to generate a prediction image among inter predictions based on either or both of the first reference information and the second reference information in the prediction image generation unit 106. To decide.
  • FIG. 7 is a flowchart showing the processing operation of the video encoding device 100a shown in FIG. 7, the same parts as those shown in FIG. 2 are denoted by the same reference numerals, and the description thereof is omitted.
  • steps S101 to S103 processing similar to the processing operation shown in FIG. 2 is performed.
  • the prediction method switching unit 112 performs switching indicating which prediction method is used to generate a prediction image among inter predictions based on either or both of the first reference information and the second reference information in the prediction image generation unit 106.
  • Determination information is determined (step S103a).
  • This switching determination may be performed by any method. Further, as in the case of the first embodiment, the determination may be performed for every unit.
  • a switching determination method for example, a prediction method can be determined using a prediction residual at the time of encoding the first reference region. In such a method, when there is a large prediction residual in the first reference area in a certain block, it is assumed that the accuracy of the second reference information is low in that area and prediction is performed using only the first reference information. Switching is possible.
  • the prediction method can be determined by referring to the prediction information at the time of encoding the second reference region and comparing it with the first reference information. For example, when the reference picture at the time of encoding of the second reference area is the same frame or view as the reference picture indicated by the first reference information, the second reference information Switching that performs prediction using only the first reference information with low accuracy is possible.
  • the third reference area may be determined in any way. For example, it may be determined by referring to information at the time of encoding the first reference region, or information of the second reference region may be determined first by executing step S104 first, and may be determined from the information. .
  • the image to be encoded is a part of a picture of frame n at viewpoint B
  • the first reference area indicated by the first reference information is on the reference picture of frame m ( ⁇ n) at viewpoint B
  • the reference picture index based on the prediction information at the time of encoding the first reference area indicates the reference picture of the frame m at the viewpoint A ( ⁇ B).
  • the third reference area is on the reference picture of the frame m of the viewpoint A ( ⁇ B).
  • the difference between the image of the first reference area and the image of the third reference area is taken as a difference image, and the prediction accuracy based on the second reference information is estimated based on this difference.
  • a method of using the first reference information without using the two reference information is applicable.
  • prediction accuracy may be estimated in any way.
  • the difference image is a residual generated by prediction based on the second reference information
  • a method of estimating the absolute amount or average amount of the residual in the block, or the code amount when converted and encoded can be applied.
  • the determination based on the estimated prediction accuracy or the code amount may be performed in any way. For example, a determination method using a predetermined threshold value can be applied.
  • step S104 may be executed before step S103a.
  • step S104 is executed in the same manner as the processing operation shown in FIG. However, it is not necessary to determine the second reference information in step S104 for the sub-blocks determined to use only the first reference information by the switching determination.
  • the predicted image generation unit 106 generates a predicted image based on the switching determination information and the first reference information or the second reference information or both (step S105a).
  • first reference information or second reference information is used in the flowchart of FIG. 7.
  • the processing from steps S106 to S112 is executed in the same manner as the processing operation shown in FIG.
  • FIG. 10 is a block diagram showing a configuration of a video decoding apparatus 200a according to the second embodiment of the present invention.
  • the apparatus shown in this figure is different from the apparatus shown in FIG. 4 in that a prediction method switching unit 209 is newly provided.
  • the prediction method switching unit 209 switches determination information indicating which prediction method is used to generate a prediction image among inter predictions based on either or both of the first reference information and the second reference information in the prediction image generation unit 207. To decide.
  • FIG. 11 is a flowchart showing the processing operation of the video decoding apparatus 200a shown in FIG. In FIG. 11, the same parts as those shown in FIG. First, in steps S201 to S204, processing similar to the processing operation shown in FIG. 5 is performed.
  • the prediction method switching unit 209 performs switching indicating which prediction method is used to generate a prediction image among inter predictions based on either or both of the first reference information and the second reference information in the prediction image generation unit 207. Determination information is determined (step S204a).
  • the switching method and other detailed descriptions are the same as those of the video encoding apparatus.
  • step S205 is executed in the same manner as the processing operation shown in FIG. However, it is not necessary to determine the second reference information in step S205 for the sub-block determined to use only the first reference information by the switching determination.
  • the predicted image generation unit 207 generates a predicted image based on the switching determination information and the first reference information or the second reference information or both (step S206a).
  • the processing from step S207 to S209 is executed in the same manner as the processing operation shown in FIG.
  • FIG. 12 is a block diagram showing a configuration of a video encoding device 100b according to the third embodiment of the present invention.
  • the apparatus shown in this figure is different from the apparatus shown in FIG. 1 in that a secondary prediction image generation unit 113 is newly provided.
  • the secondary prediction image generation unit 113 refers to the third reference region that is the reference destination at the time of encoding the first reference region based on the prediction information at the time of encoding the first reference region, and A secondary prediction image that is a prediction image at the time of encoding is generated.
  • FIG. 13 is a flowchart showing the processing operation of the video encoding device 100b shown in FIG. In FIG. 13, the same parts as those shown in FIG.
  • steps S101 to S104 processing similar to the processing operation shown in FIG. 2 is performed.
  • the secondary prediction image generation unit 113 refers to the third reference region that is a reference destination at the time of encoding the first reference region based on the prediction information at the time of encoding the first reference region, and performs motion compensation or
  • the above-described secondary predicted image is generated by parallax compensation (step S105b).
  • the determination of the third reference area may be performed in any way. For example, it may be determined using the second reference information generated in step S104, or prediction information at the time of encoding the first reference region may be referred to separately. Further, as in the case of determining the second reference region in the first embodiment, the determination may be performed for any unit. This unit may be the same unit as when the second reference information is determined, or may be a different unit.
  • the prediction image generation unit 106 When the secondary prediction image is generated, the prediction image generation unit 106 generates a first primary prediction image based on the first reference information, generates a second primary prediction image based on the second reference information, and the first primary prediction image. A predicted image is generated from the second primary predicted image and the second predicted image (step S105c).
  • the prediction image may be generated in any way.
  • the first reference region is on a picture of a different frame at the same viewpoint as the encoding target viewpoint will be described.
  • the encoding target image is a part of the picture of frame n at viewpoint B
  • the first reference region indicated by the first reference information is on the reference picture of frame m ( ⁇ n) at viewpoint B.
  • the reference picture index based on the prediction information at the time of encoding the first reference area indicates the reference picture of the frame m at the viewpoint A ( ⁇ B).
  • the third reference area is on the reference picture of the frame m of the viewpoint A ( ⁇ B).
  • the difference between the second primary prediction image and the secondary prediction image is this motion compensation.
  • a predicted image can be generated by adding to the first primary predicted image as a predicted value of the residual at.
  • a prediction image may be generated at a time based on the above formula (1), or a prediction image is generated by further generating a difference image and then adding it to the first primary prediction image. May be.
  • the prediction image may be generated by performing the residual prediction by any procedure.
  • a prediction image can be produced
  • the first reference area is on a picture of a different frame at the same viewpoint as the encoding target viewpoint.
  • the first reference area is on a picture of the same frame at a different viewpoint from the encoding target viewpoint.
  • the same method can be used also in the case of.
  • the processing from steps S106 to S112 is executed in the same manner as the processing operation shown in FIG.
  • FIG. 15 is a block diagram showing a configuration of a video decoding apparatus 200b according to the third embodiment of the present invention.
  • the apparatus shown in this figure is different from the apparatus shown in FIG. 4 in that a secondary prediction image generation unit 210 is newly provided.
  • the secondary prediction image generation unit 210 refers to the third reference region, which is a reference destination at the time of encoding the first reference region, based on the prediction information at the time of encoding the first reference region, and A secondary prediction image that is a prediction image at the time of encoding is generated.
  • FIG. 16 is a flowchart showing the processing operation of the video decoding apparatus 200b shown in FIG.
  • the same parts as those shown in FIG. 5 are denoted by the same reference numerals, and the description thereof is omitted.
  • steps S201 to S205 processing similar to the processing operation shown in FIG. 5 is performed.
  • the secondary prediction image generation unit 210 refers to the third reference region that is a reference destination at the time of encoding the first reference region based on the prediction information at the time of encoding the first reference region, and performs motion compensation or
  • the above-described secondary predicted image is generated by parallax compensation (step S206b).
  • the detailed operation is the same as the description of the video encoding device.
  • the predicted image generation unit 207 When the secondary predicted image is generated, the predicted image generation unit 207 generates a first primary predicted image based on the first reference information, generates a second primary predicted image based on the second reference information, and the first primary predicted image. A predicted image is generated from the second primary predicted image and the second predicted image (step S206c).
  • the detailed operation is the same as that of the video encoding apparatus.
  • the processing from step S207 to S209 is executed in the same manner as the processing operation shown in FIG.
  • the prediction image is generated by switching the prediction method for each block or sub-block.
  • bidirectional processing using both the first reference region and the second reference region is used.
  • the weight for performing bidirectional prediction may be determined. This weight may be determined by a method of estimating the prediction accuracy using the prediction residual of the first reference region, the prediction information of the second reference region, the third reference region and the difference image as described above.
  • the optimal weight may be determined by referring to the peripheral blocks of the encoding target block and the peripheral blocks of the first reference area and the second reference area.
  • a secondary prediction image is generated with reference to the third reference region, which is a reference destination when the first reference region is encoded, and is used for residual prediction.
  • prediction residuals at the time of encoding the first reference region may be accumulated, and residual prediction may be performed using the accumulated prediction residuals.
  • Equation (1) is transformed as Equation (2) below, and a prediction image is generated only from the prediction residual of the first reference region and the second reference region. can do.
  • a secondary prediction image can be generated by subtracting the accumulated prediction residual from the image of the first reference region, and a prediction image can be generated using the same by the same method as in the third embodiment.
  • the process in the case where the determined second reference information is used for prediction of the encoding target block has been described.
  • the determined second reference information is used for the encoding target block.
  • the second reference information is a disparity vector, it may be stored for use as an NBDV in subsequent blocks.
  • the second reference information may be determined from a candidate list at the time of conversion and information on neighboring blocks such as NBDV. One may be selected from the candidates, or may be determined using a plurality of candidates.
  • neighboring blocks such as a candidate list of encoding target blocks and NBDV may be used.
  • the NBDV is determined based on a predetermined rule from the list of disparity vectors at the time of encoding the neighboring blocks.
  • a plausible disparity vector may be selected by matching with a list of disparity vectors at the time of encoding the peripheral blocks of the region.
  • the processing when the encoding target block has one first reference information as in the case of unidirectional prediction has been described.
  • Two or more pieces of first reference information may be given.
  • the second reference information may be determined for both directions and the above-described processing may be performed, or may be performed only in one direction.
  • the processing when the prediction method at the time of encoding the first reference region is unidirectional prediction has been described, but the prediction method at the time of encoding the first reference region is described. May be bidirectional prediction.
  • the second reference region may be determined from the prediction information indicating one of the prediction directions, or only one second reference region may be determined from both prediction information. You may decide one by one from the information.
  • predicted images may be generated by the processes described in the first to third embodiments, and a final predicted image may be generated by mixing them.
  • the method of using the first reference area used for determining the second reference information for prediction has been described.
  • the first reference used for determining the second reference area is described.
  • a region other than the region may be used for prediction.
  • two pieces of prediction information may be encoded, one may be used for prediction, and the other may be used for determining the second reference region.
  • the encoded prediction information may be used only for normal prediction, and the first reference information for determining the second reference information may be determined separately using a candidate list, NBDV, or the like. Further, the first reference information may be corrected or newly generated using the second reference information.
  • the disparity vector at the time of encoding the reference destination indicated by the second reference information is obtained. It may be acquired and used for prediction as new first reference information. You may use for prediction as new 1st reference information.
  • a motion vector is acquired using the disparity vector encoded by the method described in the first embodiment, a primary prediction image is generated by motion compensated prediction, and the encoded disparity vector is used. Residual prediction may be performed. Further, residual prediction may be performed using a disparity vector at the time of encoding of a reference destination indicated by a motion vector instead of the original encoded disparity vector. Further, the obtained motion vector may be corrected using the encoded disparity vector and the reference disparity vector at the time of encoding. In the above example, the disparity vector and the motion vector may be opposite to each other.
  • the video encoding device and the video decoding device in the above-described embodiment may be realized by a computer.
  • a program for realizing the function may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read into a computer system and executed.
  • the “computer system” includes an OS and hardware such as peripheral devices.
  • the “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM or a CD-ROM, and a hard disk incorporated in a computer system.
  • the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line.
  • a volatile memory inside a computer system serving as a server or a client in that case may be included and a program held for a certain period of time.
  • the program may be for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in the computer system. It may be realized using hardware such as PLD (Programmable Logic Device) or FPGA (Field Programmable Gate Array).
  • Precise motion / disparity compensation prediction, bi-directional prediction combined with the original motion / disparity vector, residual prediction, etc. are performed accurately without encoding additional motion / disparity vectors, and the accuracy of the predicted image

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

 符号化対象映像に含まれる符号化対象画像を予測符号化する映像符号化装置。既に符号化済みの画像を参照ピクチャとして符号化対象画像を予測し、参照先である第1参照領域を示す第1参照情報を決定する予測手段と、前記第1参照領域の予測符号化時の参照情報から、符号化対象画像に対する別の参照先である第2参照領域を示す第2参照情報を決定する第2参照情報決定手段と、前記第2参照情報、または前記第1参照情報と前記第2参照情報との両方に基づいて予測画像を生成する予測画像生成手段とを有する。

Description

映像符号化装置及び方法、及び、映像復号装置及び方法
 本発明は、映像符号化装置、映像復号装置、映像符号化方法、及び、映像復号方法に関する。
 本願は、2013年10月17日に出願された特願2013-216488号に基づき優先権を主張し、その内容をここに援用する。
 一般的な映像符号化では、被写体の空間的/時間的な連続性を利用して、映像の各フレームを処理単位ブロックに分割し、ブロック毎にその映像信号を空間的/時間的に予測し、その予測方法を示す予測情報と予測残差信号とを符号化することで、映像信号そのものを符号化する場合に比べて大幅な符号化効率の向上を図っている。また、一般的な二次元映像符号化では、同じフレーム内の既に符号化済みのブロックを参照して符号化対象信号を予測するイントラ予測と、既に符号化済みの他のフレームを参照して動き補償などに基づき符号化対象信号を予測するフレーム間予測を行う。
 ここで、多視点映像符号化について説明する。多視点映像符号化とは、同一のシーンを複数のカメラで撮影した複数の映像を、その映像間の冗長性を利用して高い効率で符号化するものである。多視点映像符号化については非特許文献1に詳しい。
 多視点映像符号化においては、一般的な映像符号化で用いられる予測方法の他に、既に符号化済みの別の視点の映像を参照して視差補償に基づき符号化対象信号を予測する視点間予測と、フレーム間予測により符号化対象信号を予測し、その残差信号を、既に符号化済みの別の視点の映像の符号化時の残差信号を参照して予測する視点間残差予測などの方法が用いられる。視点間予測は、MVC(Multiview Video Coding)などの多視点映像符号化ではフレーム間予測とまとめてインター予測として扱われ、Bピクチャにおいては2つ以上の予測画像を補間して予測画像とする双方向予測にも用いることができる。このように、多視点映像符号化においては、フレーム間予測と視点間予測の両方を行うことができるピクチャについては、フレーム間予測と視点間予測による双方向予測を行うことができる。
 インター予測を行う場合には、その参照先を示す参照ピクチャインデックスや動きベクトルなどの参照情報を得る必要が有る。一般的には、参照情報は予測情報として符号化し、映像とともに多重化するが、その符号量を削減するために、何らかの方法で参照情報を予測することもある。
 一般的な方法では、既に符号化済みの、符号化対象画像の周辺ブロックが符号化時に使用した予測情報を取得し、符号化対象画像の予測に用いる参照情報とするダイレクトモードや、周辺ブロックの予測情報を候補リスト(Candidate List)としてリスト化し、リスト中から予測情報を取得する対象ブロックを識別する識別子を符号化するマージモードなどがある。
 また、これらの方法で参照情報の予測値を決定し、更に実際の参照情報との差分を符号化して映像と共に多重化する方法として、動きベクトル予測などがある。
 また、多視点映像符号化においては、符号化対象画像に対応する別の視点のピクチャ上の領域と参照情報を共有する視点間動き予測という方法がある。視点間動き予測については非特許文献2に詳しい。
 また他の方法として残差予測がある。残差予測は、高い相関を持つ2つの画像をそれぞれ予測符号化した場合にその予測残差も互いに相関を持つことを利用した、予測残差の符号量を抑えるための方法である。残差予測については非特許文献3に詳しい。
 多視点映像符号化において用いられる視点間残差予測では、異なる視点の映像における符号化対象画像と対応する領域の、符号化時の予測残差信号を、符号化対象の予測残差信号から差し引くことによって残差信号のエネルギーを低減し、符号化効率を向上することが可能である。
 視点間の対応関係は、例えば既に符号化済みの周辺ブロックが視差補償予測で符号化されている場合に、その視差ベクトルによって、符号化対象ブロックに対応する別の視点の領域を設定するなどの方法で求められる。この方法で求められる視差ベクトルは「neighboring block based disparity vector(NBDV)」と呼ばれる。
 視点間残差予測は、Bピクチャにおいてフレーム間予測が用いられる場合に、その予測とは別に、残差に対する更なる処理として用いられる。
 なお、本明細書中において、画像とは動画像の1つのフレームまたは静止画像のことであり、複数のフレーム(画像)が集まったもの(動画像)を映像と称する。
M. Flierl and B. Girod, "Multiview video compression", Signal Processing Magazine, IEEE, pp. 66-76, November 2007. Yang, H., Chang, Y., & Huo, J., "Fine-Granular Motion Matching for Inter-View Motion Skip Mode in Multiview Video Coding", IEEE Transactions on Circuits and Systems for Video Technology, Vol. 19, No. 6, pp. 887-892, June 2009. X. Wang and J. Ridge, "Improved video coding with residual prediction for extended spatial scalability", ISCCSP 2008, pp. 1041-1046, March 2008.
 多視点映像符号化において、視点間動き予測は有効な符号量削減方法であるが、カメラ配置の問題などにより視点間で動きベクトルを共有できない場合には効果は得られない。
 また、視点間動き予測や残差予測において、一般にはNBDVを使用して符号化対象画像に対応する別の視点のピクチャ上の領域を決定するという方法がとられる。このような方法は符号化対象画像が周辺ブロックと同じ動き/視差を持っている場合には有効であるが、そうでない場合にはまったく効果は得られない。またこの方法は周辺ブロックに視差補償予測で符号化されているものがない場合には使用することができない。
 このような場合に視点間動き予測や残差予測を行うためには追加の視差ベクトル等の、視点間対応を得るための情報が必要になり、符号量が増加するという問題がある。
 本発明は、このような事情に鑑みてなされたもので、予測画像の精度を向上させることで予測残差符号化に必要な符号量を削減することができる映像符号化装置、映像復号装置、映像符号化方法、及び、映像復号方法を提供することを目的とする。
 本発明は、符号化対象映像に含まれる符号化対象画像を予測符号化する映像符号化装置であって、
 既に符号化済みの画像を参照ピクチャとして符号化対象画像を予測し、参照先である第1参照領域を示す第1参照情報を決定する予測手段と、
 前記第1参照領域の予測符号化時の参照情報から、符号化対象画像に対する別の参照先である第2参照領域を示す第2参照情報を決定する第2参照情報決定手段と、
 前記第2参照情報、または前記第1参照情報と前記第2参照情報との両方に基づいて予測画像を生成する予測画像生成手段と
 を有することを特徴とする映像符号化装置を提供する。
 典型例として、前記第1参照情報と前期第2参照情報のうち、いずれか一方が、符号化対象画像と異なる時刻の画像である時間方向での参照ピクチャ上の参照領域を示し、他方が、符号化対象画像と異なる視点の画像である視差方向での参照ピクチャ上の参照領域を示す。
 好適例として、前記予測画像生成手段は、前記第1参照情報を使用して第1一次予測画像を生成し、前記第2参照情報を使用して第2一次予測画像を生成し、前記第1一次予測画像と前記第2一次予測画像とを混合することによって前記予測画像を生成する。
 別の好適例として、前記予測画像生成手段は、前記第1参照情報から第1一次予測画像を生成し、前記第2参照情報から第2一次予測画像を生成し、更に前記第1参照情報と前記第1参照領域の符号化時の予測情報、または前記第1参照情報と前記第2参照情報を使用して残差予測を行うことにより前記予測画像を生成する。
 この場合、前記予測画像生成手段は、前記第1参照領域に対する予測参照先である第3参照領域から二次予測画像を生成し、前記第1一次予測画像と前記第2一次予測画像と前記二次予測画像とから残差予測を行い前記予測画像を生成するようにしても良い。
 別の好適例として、前記第2参照情報決定手段は、前記第1参照領域の予測符号化時の参照情報を補正した情報を使用して前記第2参照情報を決定する。
 別の典型例として、前記第1参照領域の予測符号化時の参照情報は、動きベクトルまたは視差ベクトルである。
 本発明はまた、符号化対象映像に含まれる符号化対象画像を予測符号化する映像符号化装置であって、
 既に符号化済みの画像を参照ピクチャとして符号化対象画像を予測し、参照先である第1参照領域を示す第1参照情報を決定する予測手段と、
 前記第1参照領域の予測符号化時の参照情報から、符号化対象画像に対する別の参照先である第2参照領域を示す第2参照情報を決定する第2参照情報決定手段と、
 前記第2参照情報を、符号化対象画像の周辺画像の予測情報をリスト化した候補リストに加える候補リスト更新手段と
 を有することを特徴とする映像符号化装置も提供する。
 本発明はまた、復号対象映像に含まれる復号対象画像を予測復号する映像復号装置であって、
 符号化された予測情報または該映像復号装置で参照可能な情報に基づく第1参照情報の示す参照先である第1参照領域の予測復号時の参照情報から、復号対象画像に対する別の参照先である第2参照領域を示す第2参照情報を決定する第2参照情報決定手段と、
 前記第2参照情報、または前記第1参照情報と前記第2参照情報の両方に基づいて予測画像を生成する予測画像生成手段と
 を有することを特徴とする映像復号装置も提供する。
 典型例として、前記第1参照情報と前期第2参照情報のうち、いずれか一方が、符号化対象画像と異なる時刻の画像である時間方向での参照ピクチャ上の参照領域を示し、他方が、符号化対象画像と異なる視点の画像である視差方向での参照ピクチャ上の参照領域を示す。
 好適例として、前記予測画像生成手段は、前記第1参照情報を使用して第1一次予測画像を生成し、前記第2参照情報を使用して第2一次予測画像を生成し、前記第1一次予測画像と前記第2一次予測画像とを混合することによって前記予測画像を生成する。
 別の好適例として、前記予測画像生成手段は、前記第1参照情報から第1一次予測画像を生成し、前記第2参照情報から第2一次予測画像を生成し、更に前記第1参照情報と前記第1参照領域の復号時の予測情報、または前記第1参照情報と前記第2参照情報を使用して残差予測を行うことにより前記予測画像を生成する。
 この場合、前記予測画像生成手段は、前記第1参照領域に対する予測参照先である第3参照領域から二次予測画像を生成し、前記第1一次予測画像と前記第2一次予測画像と前記二次予測画像とから残差予測を行い前記予測画像を生成するようにしても良い。
 別の好適例として、前記第2参照情報決定手段は、前記第1参照領域の予測復号時の参照情報を補正した情報を使用して前記第2参照情報を決定する。
 別の典型例として、前記第1参照領域の予測復号時の参照情報は、動きベクトルまたは視差ベクトルである。
 本発明はまた、復号対象映像に含まれる復号対象画像を予測復号する映像復号装置であって、
 既に復号済みの画像を参照ピクチャとして復号対象画像を予測し、参照先である第1参照領域を示す第1参照情報を決定する予測手段と、
 前記第1参照領域の予測復号時の参照情報から、復号対象画像に対する別の参照先である第2参照領域を示す第2参照情報を決定する第2参照情報決定手段と、
 前記第2参照情報を、復号対象画像の周辺画像の予測情報をリスト化した候補リストに加える候補リスト更新手段と
 を有することを特徴とする映像復号装置も提供する。
 本発明はまた、符号化対象映像に含まれる符号化対象画像を予測符号化する映像符号化装置が行う映像符号化方法であって、
 既に符号化済みの画像を参照ピクチャとして符号化対象画像を予測し参照先である第1参照領域を示す第1参照情報を決定する予測ステップと、
 前記第1参照領域の予測符号化時の参照情報から、符号化対象画像に対する別の参照先である第2参照領域を示す第2参照情報を決定する第2参照情報決定ステップと、
 前記第2参照情報または前記第1参照情報と前記第2参照情報の両方に基づいて予測画像を生成する予測画像生成ステップと
 を備えることを特徴とする映像符号化方法も提供する。
 本発明はまた、符号化対象映像に含まれる符号化対象画像を予測符号化する映像符号化装置が行う映像符号化方法であって、
 既に符号化済みの画像を参照ピクチャとして符号化対象画像を予測し参照先である第1参照領域を示す第1参照情報を決定する予測ステップと、
 前記第1参照領域の予測符号化時の参照情報から、符号化対象画像に対する別の参照先である第2参照領域を示す第2参照情報を決定する第2参照情報決定ステップと、
 前記第2参照情報を、符号化対象画像の周辺画像の予測情報をリスト化した候補リストに加える候補リスト更新ステップと
 を備えることを特徴とする映像符号化方法も提供する。
 本発明はまた、復号対象映像に含まれる復号対象画像を予測復号する映像復号装置が行う映像復号方法であって、
 符号化された予測情報または該映像復号装置で参照可能ないずれかの情報に基づく第1参照情報の示す参照先である第1参照領域の予測復号時の参照情報から、復号対象画像に対する別の参照先である第2参照領域を示す第2参照情報を決定する第2参照情報決定ステップと、
 前記第2参照情報または前記第1参照情報と前記第2参照情報の両方に基づいて予測画像を生成する予測画像生成ステップと
 を備えることを特徴とする映像復号方法も提供する。
 本発明はまた、復号対象映像に含まれる復号対象画像を予測復号する映像復号装置が行う映像復号方法であって、
 既に復号済みの画像を参照ピクチャとして復号対象画像を予測し参照先である第1参照領域を示す第1参照情報を決定する予測ステップと、
 前記第1参照領域の予測復号時の参照情報から、復号対象画像に対する別の参照先である第2参照領域を示す第2参照情報を決定する第2参照情報決定ステップと、
 前記第2参照情報を、復号対象画像の周辺画像の予測情報をリスト化した候補リストに加える候補リスト更新ステップと
 を備えることを特徴とする映像復号方法も提供する。
 本発明によれば、予測画像の精度を向上させることができるため、予測残差符号化に必要な符号量を削減することができるという効果が得られる。
本発明の第1実施形態による映像符号化装置100の構成を示すブロック図である。 図1に示す映像符号化装置100の処理動作を示すフローチャートである。 図1に示す映像符号化装置100の処理動作を示す説明図である。 本発明の第1実施形態による映像復号装置200の構成を示すブロック図である。 図4に示す映像復号装置200の処理動作を示すフローチャートである。 本発明の第2実施形態による映像符号化装置100aの構成を示すブロック図である。 図6に示す映像符号化装置100aの処理動作を示すフローチャートである。 図6に示す映像符号化装置100aの処理動作を示す説明図である。 同様に、図6に示す映像符号化装置100aの処理動作を示す説明図である。 本発明の第2実施形態による映像復号装置200aの構成を示すブロック図である。 図10に示す映像復号装置200aの処理動作を示すフローチャートである。 本発明の第3実施形態による映像符号化装置100bの構成を示すブロック図である。 図12に示す映像符号化装置100bの処理動作を示すフローチャートである。 図12に示す映像符号化装置100bの処理動作を示す説明図である。 本発明の第3実施形態による映像復号装置200bの構成を示すブロック図である。 図15に示す映像復号装置200bの処理動作を示すフローチャートである。
 以下、本発明の実施形態を、図面を参照して説明する。
<第1実施形態>
 まず、第1実施形態について説明する。図1は、本発明の第1実施形態による映像符号化装置100の構成を示すブロック図である。
 映像符号化装置100は、図1に示すように、符号化対象映像入力部101、入力映像メモリ102、参照ピクチャメモリ103、予測部104、第2参照情報決定部105、予測画像生成部106、減算部107、変換・量子化部108、逆量子化・逆変換部109、加算部110、及びエントロピー符号化部111を備えている。
 符号化対象映像入力部101は、符号化対象となる映像を映像符号化装置100に入力する。以下の説明では、この符号化対象となる映像のことを符号化対象映像と呼び、特に処理を行うフレームを符号化対象フレームまたは符号化対象ピクチャと呼ぶ。
 入力映像メモリ102は、入力された符号化対象映像を記憶する。
 参照ピクチャメモリ103は、それまでに符号化・復号された画像を記憶する。以下では、この記憶されたフレームを参照フレームまたは参照ピクチャと呼ぶ。
 予測部104は、参照ピクチャメモリ103に記憶された参照ピクチャ上で符号化対象画像に対する予測を行い、参照先である第1参照領域を示す第1参照情報を決定し、第1参照情報または第1参照情報を特定可能な情報である予測情報を生成する。
 第2参照情報決定部105は、上記第1参照情報により示される第1参照領域の符号化時の予測情報から、別の参照先である第2参照領域を示す第2参照情報を決定する。
 予測画像生成部106は、上記第2参照情報に基づき、予測画像を生成する。
 減算部107は、符号化対象画像と予測画像の差分値を求め、予測残差を生成する。
 変換・量子化部108は、生成された予測残差を変換・量子化し、量子化データを生成する。
 逆量子化・逆変換部109は、生成された量子化データを逆量子化・逆変換し、復号予測残差を生成する。
 加算部110は、復号予測残差と予測画像とを加算し復号画像を生成する。
 エントロピー符号化部111は、量子化データをエントロピー符号化し、符号データを生成する。
 次に、図2を参照して、図1に示す映像符号化装置100の処理動作を説明する。図2は、図1に示す映像符号化装置100の処理動作を示すフローチャートである。
 ここでは、符号化対象映像は多視点映像のうちの一つの映像であるものとし、多視点映像は、フレーム毎に1視点ずつ全視点の映像を符号化し復号する構造をとるものとする。そしてここでは、符号化対象映像中のある1フレームを符号化する処理について説明する。以下で説明する処理をフレームごとに繰り返すことで、映像の符号化が実現できる。
 まず、符号化対象映像入力部101は、符号化対象ピクチャ(フレーム)を受け取り、入力映像メモリ102に記憶する(ステップS101)。
 なお、符号化対象映像中の幾つかのフレームは既に符号化されているものとし、その復号結果が参照ピクチャメモリ103に記憶されているとする。また、符号化対象ピクチャと同じフレームまでの参照可能な別の視点の映像も、既に符号化され復号されて参照ピクチャメモリ103に記憶されていることとする。
 映像入力の後、符号化対象ピクチャを符号化対象ブロックに分割し、ブロック毎に符号化対象ピクチャの映像信号を符号化する(ステップS102~S111)。
 以下では、符号化対象となるブロックの画像のことを符号化対象ブロックまたは符号化対象画像と呼ぶ。以下のステップS103~S110の処理は、ピクチャの全てのブロックに対して繰り返し実行する。
 符号化対象ブロックごとに繰り返される処理において、まず、予測部104は、符号化対象ブロックに対して、参照ピクチャメモリ内の参照ピクチャを参照するインター予測を行い、参照先である第1参照領域を示す情報である第1参照情報を決定し、第1参照情報または第1参照情報を特定可能な情報である予測情報を生成する(ステップS103)。
 予測はどのような方法で行ってもよいし、第1参照情報及び予測情報はどのようなものでもよい。
 参照領域を示す参照情報として一般的なものとして、参照ピクチャを特定する参照ピクチャインデックス情報と、参照ピクチャ上での参照位置を示すベクトルの組み合わせなどがある。予測方法として一般的なものとしては、候補となる参照ピクチャ上でマッチングを行い参照情報を決定する方法や、ダイレクトモードやマージモードと呼ばれる、既に符号化済みの周辺ブロックの符号化時の予測に用いた参照情報を継承する方法などがある。
 また、予測情報は、第1参照情報を決定可能なものであればどのようなものでもよい。第1参照情報そのものを予測情報としてもよいし、マージモードなどで用いるブロックを特定可能な識別情報を予測情報としてもよい。その他どのような予測方法、参照情報、予測情報を使用してもよい。
 予測情報は符号化して映像の符号データと多重化してもよいし、前述のように周辺の予測情報や候補リストから導き出せる場合には符号化しなくてもよい。また、予測情報を予測し、その残差を符号化してもよい。
 予測が完了したら、第2参照情報決定部105は、第1参照情報を示す予測情報に基づいた第1参照領域を参照し、第1参照領域の符号化時の予測情報(参照情報)に基づいて、別の参照先である第2参照領域を示す第2参照情報を決定する(ステップS104)。
 第2参照情報は、第1参照情報と同様に、参照ピクチャと参照位置を特定可能な情報である。また、参照ピクチャはあらかじめ定められたものでもよいし、別途決定してもよい。例えば第2参照領域は必ずある特定の視点の映像上に設定することとして、第2参照情報として参照ピクチャを指定する情報を含めなくてもよい。
 また、第2参照情報の決定はどのように行ってもよい。以下では第1参照領域が符号化対象視点と同じ視点の異なるフレームのピクチャ上にある例について説明する。
 図3は、符号化対象画像が視点Bのフレームnのピクチャの一部であり、第1参照情報により示された第1参照領域が視点Bのフレームm(≠n)の参照ピクチャ上にあり、第1参照領域の符号化時の予測情報に基づく参照ピクチャインデックスが視点A(≠B)のフレームmの参照ピクチャを示す場合の例である。
 この場合、視点Aのフレームnの参照ピクチャを示す参照ピクチャインデックスと、第1参照領域の符号化時の予測情報に基づく視差ベクトルを第2参照情報とすることで、第2参照情報に基づいて視差補償予測などを行うことができる。
 上記の例では、第1参照領域が符号化対象視点と同じ視点の異なるフレームのピクチャ上にある場合について説明したが、第1参照領域が符号化対象視点と異なる視点の同じフレームのピクチャ上にある場合にも同様の方法を用いることができる。また、第1参照領域の予測情報が同じ視点の更に異なるフレームを示す場合についても、更にその領域の予測情報を使用して別の領域を参照するなどして同様の方法を用いることができる。
 または第1参照領域の候補リスト中の予測情報やNBDVに基づいて第2参照情報を決定することもできる。その他にどのような方法で決定してもよい。
 第2参照情報はどのような単位ごとに決定してもよい。符号化対象ブロック毎でもよいし、それ以下のサイズの領域をサブブロックとし、サブブロック毎に決定してもよい。また、サブブロックサイズはどのように決定してもよい。あらかじめ定められたサイズでもよいし、あらかじめ定められたサイズの組の中から選択してもよいし、その他の任意のサイズを適応的に決定してもよいし、画素ごとに第2参照情報を決定してもよい。
 適応的に決定する場合には、例えば第1参照領域の符号化時におけるブロックやサブブロックのサイズやその他の情報に基づいて決定することなどができる。例えば、符号化対象画像は符号化対象ブロックを更に分割した16×16ブロック毎に第1参照情報を持ち、第1参照領域が符号化時に8×8ブロック毎に予測されていた場合には、符号化対象画像は8×8ブロック毎に第2参照領域を決定することができる。
 また、符号化対象画像のブロックサイズやサブブロックサイズが第1参照領域の符号化時におけるものと異なる場合や、両者のブロック位置にずれがある場合には、参照範囲に含まれる複数の予測情報のうち一つを選択して第2参照情報の決定に使用してもよいし、複数を使用して決定してもよい。
 例えば必ず参照範囲における左上の予測情報を使用するとあらかじめ定めてもよいし、複数の予測情報の平均値や中間値などを使用すると定めてもよい。
 また、第1参照領域の予測情報に補正をかけた上で第2参照情報を決定してもよい。補正の方法はどのような方法でもよい。
 例えば、符号化対象ブロックの候補リスト(周辺ブロックの予測情報)中のベクトルやNBDVと、第1参照領域の候補リスト中のベクトルやNBDVとから、第1参照領域の予測情報を符号化対象画像に合わせる補正係数を決定することなどができる。また、補正係数はどのようなものでもよい。スケーリングやオフセットのためのパラメータでもよいし、あらかじめ定められたパラメータの中から使用するものを指定する識別子でもよい。
 その他の方法として、カメラパラメータなど映像以外の情報を使用して補正を行ってもよい。
 例えば第2参照領域を第1参照領域の予測情報が示す参照ピクチャとは異なる視点の参照ピクチャ上に設定するとして、その場合に、カメラパラメータを使用して第1参照領域の予測情報による視差ベクトルを変換して第2参照情報とする等してもよい。また、補正のための情報を符号化して映像と多重化してもよいし、補正係数そのものを符号化しても構わないし、あらかじめ定められた補正係数の組のうち使用するものを指定する識別子を符号化してもよい。また、復号側で同様の情報が得られる場合には符号化しなくてもよい。
 第2参照情報生成が完了したら、予測画像生成部106は、第2参照情報に基づき予測画像を生成する(ステップS105)。
 予測画像は第2参照情報のみを用いて動き補償または視差補償によって生成してもよい。また、更に第1参照情報を用いて動き補償または視差補償によってもう一つの予測画像を生成し、2つの予測画像を混合することで最終的な予測画像を生成してもよい。また、双方向予測において重みつき混合を行うこととしてその重みを任意に決定してもよい。
 また、符号化対象ブロックや、更に小さなサブブロックなどの任意の単位毎にいずれかの予測または双方向予測を行うこととし、単位ごとにどの予測を行うかを示す情報や、重みつきの混合を行う場合にはその重みを符号化し、映像と共に多重化してもよい。復号側で予測方法や重みを決定できる場合には符号化しなくてもよい。
 次に、減算部107は予測画像と符号化対象ブロックの差分をとり、予測残差を生成する(ステップS106)。
 続いて、予測残差の生成が終了したら、変換・量子化部108は予測残差を変換・量子化し、量子化データを生成する(ステップS107)。この変換・量子化は、復号側で正しく逆量子化・逆変換できるものであればどのような方法を用いてもよい。
 そして、変換・量子化が終了したら、逆量子化・逆変換部109は、量子化データを逆量子化・逆変換し、復号予測残差を生成する(ステップS108)。
 次に、復号予測残差の生成が終了したら、加算部110は、復号予測残差と予測画像とを加算して復号画像を生成し、参照ピクチャメモリ103に記憶する(ステップS109)。
 この時、必要であれば復号画像にループフィルタをかけてもよい。通常の映像符号化では、デブロッキングフィルタやその他のフィルタを使用して符号化ノイズを除去する。
 次に、エントロピー符号化部111は、量子化データをエントロピー符号化し符号データを生成し、必要であれば、予測情報や残差予測情報その他の付加情報も符号化して符号データと多重化し(ステップS110)、全てのブロックについて処理が終了したら(ステップS111)、符号データを出力する(ステップS112)。
 次に、映像復号装置について説明する。図4は、本発明の第1実施形態による映像復号装置の構成を示すブロック図である。
 映像復号装置200は、図4に示すように、符号データ入力部201、符号データメモリ202、参照ピクチャメモリ203、エントロピー復号部204、逆量子化・逆変換部205、第2参照情報決定部206、予測画像生成部207、加算部208を備えている。
 符号データ入力部201は、復号対象となる映像符号データを映像復号装置200に入力する。この復号対象となる映像符号データのことを復号対象映像符号データと呼び、特に処理を行うフレームを復号対象フレームまたは復号対象ピクチャと呼ぶ。
 符号データメモリ202は、入力された復号対象映像の符号データを記憶する。参照ピクチャメモリ203は、すでに復号済みの画像を記憶する。
 エントロピー復号部204は、復号対象ピクチャの符号データをエントロピー復号して量子化データを生成し、逆量子化・逆変換部205は、量子化データに逆量子化/逆変換を施して復号予測残差を生成する。
 第2参照情報決定部206は、エントロピー復号部204から受け取るなどする予測情報に基づいて設定される第1参照領域の符号化時の予測情報から、第2参照情報を決定する。
 予測画像生成部207は、第2参照情報に基づき、予測画像を生成する。
 加算部208は、復号予測残差と予測画像とを加算して復号画像を生成する。
 次に、図5を参照して、図4に示す映像復号装置の処理動作を説明する。図5は、図4に示す映像復号装置200の処理動作を示すフローチャートである。
 ここでは、復号対象映像は多視点映像のうちの一つの映像であることとし、多視点映像は、フレーム毎に1視点ずつ全視点の映像を復号する構造をとるとする。そしてここでは、符号データ中のある1フレームを復号する処理について説明する。説明する処理をフレームごとに繰り返すことで、映像の復号が実現できる。
 まず、符号データ入力部201は符号データを受け取り、符号データメモリ202に記憶する(ステップS201)。
 なお、復号対象映像中の幾つかのフレームは既に復号されているものとし、その復号結果が参照ピクチャメモリ203に記憶されているものとする。また、復号対象ピクチャと同じフレームまでの参照可能な別の視点の映像も既に復号されて参照ピクチャメモリ203に記憶されていることとする。
 次に、映像入力の後、復号対象ピクチャを復号対象ブロックに分割し、ブロック毎に復号対象ピクチャの映像信号を復号する(ステップS202~S208)。
 以下では、復号対象となるブロックの画像のことを復号対象ブロックまたは復号対象画像と呼ぶ。ステップS203~S207の処理は、フレーム全てのブロックに対して繰り返し実行する。
 復号対象ブロックごとに繰り返される処理において、まず、エントロピー復号部204は、符号データをエントロピー復号する(ステップS203)。
 逆量子化・逆変換部206は、逆量子化・逆変換を行い、復号予測残差を生成する(ステップS204)。予測情報やその他の付加情報が符号データに含まれる場合は、それらも復号し、適宜必要な情報を生成してもよい。
 第2参照情報決定部206は、予測情報に基づく第1参照情報の示す参照ピクチャ上の領域である第1参照領域を参照し、第1参照領域の符号化時の予測情報に基づいて第2参照情報を決定する(ステップS205)。
 予測情報、第1参照情報及び第2参照情報の詳細とその決定方法は、映像符号化装置と同様である。第2参照情報生成が完了したら、予測画像生成部207は、第2参照情報に基づき予測画像を生成する(ステップS206)。
 次に、予測画像の生成が終了したら、加算部208は、復号予測残差と予測画像を加算して復号画像を生成し、参照ピクチャメモリに記憶する(ステップS207)。
 必要であれば復号画像にループフィルタをかけてもよい。通常の映像復号では、デブロッキングフィルタやその他のフィルタを使用して符号化ノイズを除去する。
 そして、全てのブロックについて処理が終了したら(ステップS208)、復号フレームとして出力する(ステップS209)。
<第2実施形態>
 次に、第2実施形態について説明する。図6は、本発明の第2実施形態による映像符号化装置100aの構成を示すブロック図である。この図において、図1に示す装置と同一の部分には同一の符号を付し、その説明を省略する。
 この図に示す装置が図1に示す装置と異なる点は、新たに予測方法切り替え部112を備えている点である。予測方法切り替え部112は、予測画像生成部106において第1参照情報と第2参照情報のいずれかあるいは両方によるインター予測のうちどの予測方法を使用して予測画像を生成するかを示す切り替え判定情報を決定する。
 次に、図7を参照して、図6に示す映像符号化装置100aの処理動作を説明する。図7は、図6に示す映像符号化装置100aの処理動作を示すフローチャートである。図7において、図2に示す処理と同一の部分には同一の符号を付し、その説明を省略する。
 まず、ステップS101からS103までは、図2に示す処理動作と同様の処理を行う。
 そして、予測方法切り替え部112は、予測画像生成部106において第1参照情報と第2参照情報のいずれかあるいは両方によるインター予測のうちどの予測方法を使用して予測画像を生成するかを示す切り替え判定情報を決定する(ステップS103a)。
 この切り替え判定はどのような方法で行ってもよい。また、第1実施形態の場合と同様に、判定はどのような単位ごとに行ってもよい。
 切り替え判定の方法としては、例えば第1参照領域の符号化時の予測残差を使用して予測方法を決定することもできる。このような方法では、あるブロックでは第1参照領域の予測残差が多い場合には、その領域では第2参照情報の精度が低いものとして、第1参照情報のみを使用して予測を行うような切り替えが可能である。
 またほかの方法としては、第2参照領域の符号化時の予測情報を参照し、第1参照情報と比較することで予測方法を決定することもできる。例えば第2参照領域の符号化時の参照ピクチャが第1参照情報の示す参照ピクチャと同じフレームや視点であった場合に、それらの参照先を示すベクトルが互いに大きく異なるブロックでは第2参照情報の精度が低いものとして第1参照情報のみを使用して予測を行うような切り替えが可能である。
 また別の方法としては、第1参照領域の符号化時の参照先である第3参照領域を参照して予測方法を決定するという方法もある。第3参照領域はどのように決定してもよい。例えば、第1参照領域の符号化時の情報を参照し決定してもよいし、ステップS104を先に実行して第2参照領域の情報を先に決定し、その情報から決定してもよい。
 以下では、第1参照領域が符号化対象視点と同じ視点の異なるフレームのピクチャ上にある例について説明する。
 図8は、符号化対象画像が視点Bのフレームnのピクチャの一部であり、第1参照情報により示された第1参照領域が視点Bのフレームm(≠n)の参照ピクチャ上にあり、第1参照領域の符号化時の予測情報に基づく参照ピクチャインデックスが視点A(≠B)のフレームmの参照ピクチャを示す場合の例である。
 この場合、第3参照領域は視点A(≠B)のフレームmの参照ピクチャ上にある。
 この場合では、例えば第1参照領域の画像と第3参照領域の画像の差分をとって差分画像とし、これに基づいて第2参照情報による予測の精度を推定し、精度の低い場合には第2参照情報は使用せずに第1参照情報を使用するという方法が適用できる。
 その場合、予測精度の見積もりはどのように行ってもよい。例えば、差分画像が第2参照情報による予測で発生する残差であるとして、ブロック内の残差の絶対量や平均量、または変換して符号化した場合の符号量を見積もる方法が適用できる。また見積もった予測精度または符号量などに基づく判定は、どのように行ってもよい。例えば、あらかじめ定められた閾値を使用して判定する方法などが適用できる。
 また更に、図9に示すように、第2参照領域の画像と第3参照領域の画像の差分をとって第2の差分画像とし、第1の差分画像(図8に示す差分画像)と共に判定に使用してもよい。この場合には、見積もった予測精度の高い方を使用するとして判定することができる。
 このように第2参照領域の情報も使用して判定を行う場合には、ステップS103aの前にステップS104を実行してもよい。
 ステップS104の処理は、図2に示す処理動作と同様に実行する。ただし、切り替え判定によって第1参照情報のみ使用すると判定されたサブブロックについては、ステップS104の第2参照情報決定を行わなくてもよい。
 次に、予測画像生成部106は、切り替え判定情報及び第1参照情報または第2参照情報またはその両方に基づき、予測画像を生成する(ステップS105a)。ここで、図7のフローチャートの流れでは「第1参照情報または第2参照情報」としている。
 以下、ステップS106~S112までの処理は、図2に示す処理動作と同様に実行する。
 次に、映像復号装置について説明する。図10は、本発明の第2実施形態による映像復号装置200aの構成を示すブロック図である。この図において、図4に示す装置と同一の部分には同一の符号を付し、その説明を省略する。
 この図に示す装置が図4に示す装置と異なる点は、新たに予測方法切り替え部209を備えている点である。予測方法切り替え部209は、予測画像生成部207において第1参照情報と第2参照情報のいずれかあるいは両方によるインター予測のうちどの予測方法を使用して予測画像を生成するかを示す切り替え判定情報を決定する。
 次に、図11を参照して、図10に示す映像復号装置の処理動作を説明する。図11は、図10に示す映像復号装置200aの処理動作を示すフローチャートである。図11において、図5に示す処理と同一の部分には同一の符号を付し、その説明を省略する。
 まず、ステップS201からS204までは、図5に示す処理動作と同様の処理を行う。
 そして、予測方法切り替え部209は、予測画像生成部207において第1参照情報と第2参照情報のいずれかあるいは両方によるインター予測のうちどの予測方法を使用して予測画像を生成するかを示す切り替え判定情報を決定する(ステップS204a)。切り替え方法やその他の詳細な説明は映像符号化装置と同様である。
 ステップS205の処理は、図5に示す処理動作と同様に実行する。ただし切り替え判定によって第1参照情報のみ使用すると判定されたサブブロックについてはステップS205の第2参照情報決定を行わなくてもよい。
 次に、予測画像生成部207は、切り替え判定情報及び第1参照情報または第2参照情報またはその両方に基づき、予測画像を生成する(ステップS206a)。
 以下、ステップS207~S209までの処理は、図5に示す処理動作と同様に実行する。
<第3実施形態>
 次に、第3実施形態について説明する。図12は、本発明の第3実施形態による映像符号化装置100bの構成を示すブロック図である。この図において、図1に示す装置と同一の部分には同一の符号を付し、その説明を省略する。
 この図に示す装置が図1に示す装置と異なる点は、新たに二次予測画像生成部113を備えている点である。二次予測画像生成部113は、第1参照領域の符号化時の予測情報に基づいて、第1参照領域の符号化時の参照先である第3参照領域を参照し、第1参照領域の符号化時の予測画像である二次予測画像を生成する。
 次に、図13を参照して、図12に示す映像符号化装置100bの処理動作を説明する。図13は、図12に示す映像符号化装置100bの処理動作を示すフローチャートである。図13において、図2に示す処理と同一の部分には同一の符号を付し、その説明を省略する。
 まず、ステップS101からS104までは、図2に示す処理動作と同様の処理を行う。
 そして、二次予測画像生成部113は、第1参照領域の符号化時の予測情報に基づいて、第1参照領域の符号化時の参照先である第3参照領域を参照し、動き補償または視差補償によって上述の二次予測画像を生成する(ステップS105b)。
 第3参照領域の決定はどのように実施してもよい。例えばステップS104において生成した第2参照情報を使用して決定してもよいし、別途第1参照領域の符号化時の予測情報を参照してもよい。また、第1実施形態における第2参照領域を決定する場合と同様に、どのような単位ごとに決定を行ってもよい。この単位は第2参照情報を決定した時と同じ単位でもよいし、異なる単位でもよい。
 二次予測画像を生成したら、予測画像生成部106は、第1参照情報に基づき第1一次予測画像を生成し、第2参照情報に基づき第2一次予測画像を生成し、第1一次予測画像と第2一次予測画像と二次予測画像とから、予測画像を生成する(ステップS105c)。
 予測画像の生成はどのように行ってもよい。以下では、第1参照領域が符号化対象視点と同じ視点の異なるフレームのピクチャ上にある例について説明する。
 図14は、符号化対象画像が視点Bのフレームnのピクチャの一部であり、第1参照情報により示された第1参照領域が視点Bのフレームm(≠n)の参照ピクチャ上にあり、第1参照領域の符号化時の予測情報に基づく参照ピクチャインデックスが視点A(≠B)のフレームmの参照ピクチャを示す場合の例である。
 この場合、第3参照領域は視点A(≠B)のフレームmの参照ピクチャ上にある。
 この例において第1一次予測画像に対して残差予測を実施して予測画像を生成する場合、第2一次予測画像と二次予測画像の差分(図14における第1差分画像)をこの動き補償における残差の予測値として、第1一次予測画像に加算することによって予測画像を生成することができる。
 ここで、第1一次予測画像をI、第2一次予測画像をI、二次予測画像をIとするとき、予測画像Iは(1)式で表される。
 I=I+(I-I) ・・・(1)
 予測画像生成においては、上記(1)式に基づいて一度に予測画像を生成してもよいし、別途差分画像を生成してから更に第1一次予測画像に加算することで予測画像を生成してもよい。その他にどのような手順で残差予測を行い予測画像を生成してもよい。
 また、第2一次予測画像に対して残差予測を実施する場合にも、同一の式で予測画像を生成することができる(第2一次予測画像に図14における第2差分画像を加算すると(1)式と等価になる)。
 なお、上記の例では第1参照領域が符号化対象視点と同じ視点の異なるフレームのピクチャ上にある場合について説明したが、第1参照領域が符号化対象視点と異なる視点の同じフレームのピクチャ上にある場合にも、同様の方法を用いることができる。
 以下、ステップS106~S112までの処理は、図2に示す処理動作と同様に実行する。   
 次に、映像復号装置について説明する。図15は、本発明の第3実施形態による映像復号装置200bの構成を示すブロック図である。この図において、図4に示す装置と同一の部分には同一の符号を付し、その説明を省略する。
 この図に示す装置が図4に示す装置と異なる点は、新たに二次予測画像生成部210を備えている点である。二次予測画像生成部210は、第1参照領域の符号化時の予測情報に基づいて、第1参照領域の符号化時の参照先である第3参照領域を参照し、第1参照領域の符号化時の予測画像である二次予測画像を生成する。
 次に、図16を参照して、図15に示す映像復号装置200bの処理動作を説明する。図16は、図15に示す映像復号装置200bの処理動作を示すフローチャートである。図16において、図5に示す処理と同一の部分には同一の符号を付し、その説明を省略する。
 まず、ステップS201からS205までは、図5に示す処理動作と同様の処理を行う。
 そして、二次予測画像生成部210は、第1参照領域の符号化時の予測情報に基づいて、第1参照領域の符号化時の参照先である第3参照領域を参照し、動き補償または視差補償によって上述の二次予測画像を生成する(ステップS206b)。詳細な動作は映像符号化装置の説明と同様である。
 二次予測画像を生成したら、予測画像生成部207は、第1参照情報に基づき第1一次予測画像を生成し、第2参照情報に基づき第2一次予測画像を生成し、第1一次予測画像と第2一次予測画像と二次予測画像とから、予測画像を生成する(ステップS206c)。詳細な動作は、映像符号化装置の説明と同様である。
 以下、ステップS207~S209までの処理は、図5に示す処理動作と同様に実行する。
 なお、前述した第2実施形態においてはブロックまたはサブブロック毎に予測方法を切り替えて予測画像を生成しているが、切り替えではなく、第1参照領域と第2参照領域の両方を使用した双方向予測を行うとして、双方向予測を行う際の重みを決定してもよい。
 この重みは、前述のような第1参照領域の予測残差や、第2参照領域の予測情報や、第3参照領域や差分画像を使用して予測精度を見積もる方法で決定してもよい。また別の方法としては、符号化対象ブロックの周辺ブロックと、第1参照領域及び第2参照領域の周辺ブロックを参照し、最適な重みを決定するなどしてもよい。
 また、前述した第3実施形態においては、第1参照領域の符号化時の参照先である第3参照領域を参照して二次予測画像を生成して残差予測に使用しているが、別の方法として、第1参照領域の符号化時の予測残差を蓄積しておき、その蓄積された予測残差を使用して残差予測を行ってもよい。
 蓄積された予測残差をRとして、この場合には(1)式は下記の(2)式のように変形され、第1参照領域の予測残差と第2参照領域のみから予測画像を生成することができる。または、蓄積された予測残差を第1参照領域の画像から減算することで二次予測画像を生成し、これを用いて第3実施形態と同じ方法で予測画像を生成することもできる。
 I=I+R ・・・(2)
 また、前述した第1~第3実施形態においては、決定した第2参照情報を符号化対象ブロックの予測に使用する場合の処理を説明したが、決定した第2参照情報を符号化対象ブロックの処理には使用せずにマージモードで使用される候補リスト(candidate list)に追加してもよい。または予測に使用したうえで更に候補リストに追加してもよい。あるいは、第2参照情報が視差ベクトルである場合には、以降のブロックでNBDVとして使用するために記憶してもよい。また、ベクトル予測の予測値として使用してもよいし、そのための候補リストに追加してもよい。
 また、前述した第1~第3実施形態においては、第1参照領域の符号化時の予測情報を使用して第2参照情報を決定する場合の処理を説明したが、第1参照領域の符号化時の候補リストや、NBDVなどの周辺ブロックの情報から第2参照情報を決定しても構わない。候補の中から一つを選択してもよいし、複数の候補を使用して決定してもよい。
 また、さらに符号化対象ブロックの候補リストやNBDVなどの周辺ブロックの情報を使用してもよい。例えば、通常は符号化対象ブロックのNBDVを決定する際には、周辺ブロックの符号化時の視差ベクトルのリスト中からあらかじめ定められた規則に基づいてNBDVを決定するが、このときに第1参照領域の周辺ブロックの符号化時の視差ベクトルのリストと突き合わせて尤もらしい視差ベクトルを選択するとしてもよい。
 また、前述した第1~第3実施形態においては、符号化対象ブロックが単方向予測と同様に第1参照情報を1つもつ場合の処理について説明したが、一般的な双方向予測のように2つ以上の第1参照情報を与えてもよい。その場合に両方向について第2参照情報を決定し前述の処理を実施してもよいし、一方向だけに実施してもよい。
 また、前述した第1~第3実施形態においては、第1参照領域の符号化時の予測方法が単方向予測である場合の処理について説明したが、第1参照領域の符号化時の予測方法が双方向予測であってもよい。また、その場合にいずれか一方の予測方向を示す予測情報から第2参照領域を決定してもよいし、両方の予測情報からひとつだけ第2参照領域を決定してもよいし、それぞれの予測情報から一つずつ決定してもよい。一つずつ決定される場合には前述の第1~第3実施形態で説明したような処理でそれぞれ予測画像を生成し、それらの混合によって最終的な予測画像を生成してもよい。
 また、前述した第1~第3実施形態においては、第2参照情報の決定に使用した第1参照領域を予測に使用する方法について説明したが、第2参照領域の決定に使用した第1参照領域とは別の領域を予測に使用してもよい。
 例えば、予測情報を二つ符号化し、一方を予測に使用し、もう一方を第2参照領域の決定に使用するなどしてもよい。あるいは、符号化した予測情報は通常の予測にのみ使用し、候補リストやNBDVなどを使用して第2参照情報を決定するための第1参照情報を別に決定するなどしてもよい。
 また、第2参照情報を使用して第1参照情報を補正、または新たに生成するなどしてもよい。例えば、第1参照情報が視差ベクトルであり、視差ベクトルの示す参照先の符号化時の動きベクトルが第2参照情報である場合に、第2参照情報の示す参照先の符号化時の視差ベクトルを取得し例えば、第1参照情報が動きベクトルであり、動きベクトルの示す参照先のデプスマップから第2参照情報を得る場合に、第2参照情報の示す参照先の符号化時の動きベクトルを取得し新たな第1参照情報として予測に用いるなどしてもよい。新たな第1参照情報として予測に用いるなどしてもよい。
 また、前述した第1~第3実施形態で説明した方法を互いに組み合わせてもよいし、他のどのような方法を組み合わせてもよい。
 例えば、第1実施形態で説明した方法によって符号化された視差ベクトルを使用して動きベクトルを取得し、動き補償予測によって一次予測画像を生成し、更に上記の符号化された視差ベクトルを使用して残差予測を行うなどしてもよい。
 また、元々の符号化された視差ベクトルの代わりに動きベクトルの示す参照先の符号化時の視差ベクトルを使用して残差予測を行うなどしてもよい。
 また、符号化された視差ベクトルと参照先の符号化時の視差ベクトルを使用して、取得した動きベクトルの補正を行うなどしてもよい。
 上記の例において、視差ベクトルと動きベクトルは互いに逆であってもよい。
 また、前述した第1~第3実施形態における一部の処理は、その順序が前後しても構わない。
 以上説明したように、符号化された動き/視差ベクトルやダイレクトモード/マージモード、または視点間動き予測やその他の方法による動き/視差ベクトルを使用して既に符号化済みのピクチャ上の領域を参照し、また更にその参照領域の符号化時の参照ピクチャインデックスや動き/視差ベクトルなどの参照情報を取得する。それにより、追加のベクトルを符号化することなく、精度のよいインター予測や、元々の動き/視差ベクトルと組み合わせた双方向予測や残差予測などを実施し、予測画像の精度を向上させることで、予測残差符号化に必要な符号量を削減することができる。
 前述した実施形態における映像符号化装置、映像復号装置をコンピュータで実現するようにしてもよい。その場合、当該機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。
 なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
 また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
 さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。
 また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、PLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されるものであってもよい。
 以上、図面を参照して本発明の実施の形態を説明してきたが、上記実施の形態は本発明の例示に過ぎず、本発明が上記実施の形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行ってもよい。
 追加の動き/視差ベクトルを符号化することなく、精度のよい動き/視差補償予測や、元々の動き/視差ベクトルと組み合わせた双方向予測や残差予測などを精度よく実施し、予測画像の精度を向上させることで、予測残差符号化に必要な符号量を削減することが不可欠な用途に適用できる。
101・・・符号化対象映像入力部
102・・・入力映像メモリ
103・・・参照ピクチャメモリ
104・・・予測部
105・・・第2参照情報決定部
106・・・予測画像生成部
107・・・減算部
108・・・変換・量子化部
109・・・逆量子化・逆変換部
110・・・加算部
111・・・エントロピー符号化部
112・・・予測方法切り替え部
113・・・二次予測画像生成部
201・・・符号データ入力部
202・・・符号データメモリ
203・・・参照ピクチャメモリ
204・・・エントロピー復号部
205・・・逆量子化・逆変換部
206・・・第2参照情報決定部
207・・・予測画像生成部
208・・・加算部
209・・・予測方法切り替え部
210・・・二次予測画像生成部

Claims (20)

  1.  符号化対象映像に含まれる符号化対象画像を予測符号化する映像符号化装置であって、
     既に符号化済みの画像を参照ピクチャとして符号化対象画像を予測し、参照先である第1参照領域を示す第1参照情報を決定する予測手段と、
     前記第1参照領域の予測符号化時の参照情報から、符号化対象画像に対する別の参照先である第2参照領域を示す第2参照情報を決定する第2参照情報決定手段と、
     前記第2参照情報、または前記第1参照情報と前記第2参照情報との両方に基づいて予測画像を生成する予測画像生成手段と
     を有することを特徴とする映像符号化装置。
  2.  前記第1参照情報と前期第2参照情報のうち、いずれか一方が、符号化対象画像と異なる時刻の画像である時間方向での参照ピクチャ上の参照領域を示し、他方が、符号化対象画像と異なる視点の画像である視差方向での参照ピクチャ上の参照領域を示すことを特徴とする請求項1に記載の映像符号化方法。
  3.  前記予測画像生成手段は、前記第1参照情報を使用して第1一次予測画像を生成し、前記第2参照情報を使用して第2一次予測画像を生成し、前記第1一次予測画像と前記第2一次予測画像とを混合することによって前記予測画像を生成することを特徴とする請求項1に記載の映像符号化装置。
  4.  前記予測画像生成手段は、前記第1参照情報から第1一次予測画像を生成し、前記第2参照情報から第2一次予測画像を生成し、更に前記第1参照情報と前記第1参照領域の符号化時の予測情報、または前記第1参照情報と前記第2参照情報を使用して残差予測を行うことにより前記予測画像を生成することを特徴とする請求項1に記載の映像符号化装置。
  5.  前記予測画像生成手段は、前記第1参照領域に対する予測参照先である第3参照領域から二次予測画像を生成し、前記第1一次予測画像と前記第2一次予測画像と前記二次予測画像とから残差予測を行い前記予測画像を生成することを特徴とする請求項4に記載の映像符号化装置。
  6.  前記第2参照情報決定手段は、前記第1参照領域の予測符号化時の参照情報を補正した情報を使用して前記第2参照情報を決定することを特徴とする請求項1に記載の映像符号化装置。
  7.  前記第1参照領域の予測符号化時の参照情報は、動きベクトルまたは視差ベクトルであることを特徴とする請求項1に記載の映像符号化装置。
  8.  符号化対象映像に含まれる符号化対象画像を予測符号化する映像符号化装置であって、
     既に符号化済みの画像を参照ピクチャとして符号化対象画像を予測し、参照先である第1参照領域を示す第1参照情報を決定する予測手段と、
     前記第1参照領域の予測符号化時の参照情報から、符号化対象画像に対する別の参照先である第2参照領域を示す第2参照情報を決定する第2参照情報決定手段と、
     前記第2参照情報を、符号化対象画像の周辺画像の予測情報をリスト化した候補リストに加える候補リスト更新手段と
     を有することを特徴とする映像符号化装置。
  9.  復号対象映像に含まれる復号対象画像を予測復号する映像復号装置であって、
     符号化された予測情報または該映像復号装置で参照可能な情報に基づく第1参照情報の示す参照先である第1参照領域の予測復号時の参照情報から、復号対象画像に対する別の参照先である第2参照領域を示す第2参照情報を決定する第2参照情報決定手段と、
     前記第2参照情報、または前記第1参照情報と前記第2参照情報の両方に基づいて予測画像を生成する予測画像生成手段と
     を有することを特徴とする映像復号装置。
  10.  前記第1参照情報と前期第2参照情報のうち、いずれか一方が、符号化対象画像と異なる時刻の画像である時間方向での参照ピクチャ上の参照領域を示し、他方が、符号化対象画像と異なる視点の画像である視差方向での参照ピクチャ上の参照領域を示すことを特徴とする請求項9に記載の映像復号装置。
  11.  前記予測画像生成手段は、前記第1参照情報を使用して第1一次予測画像を生成し、前記第2参照情報を使用して第2一次予測画像を生成し、前記第1一次予測画像と前記第2一次予測画像とを混合することによって前記予測画像を生成することを特徴とする請求項9に記載の映像復号装置。
  12.  前記予測画像生成手段は、前記第1参照情報から第1一次予測画像を生成し、前記第2参照情報から第2一次予測画像を生成し、更に前記第1参照情報と前記第1参照領域の復号時の予測情報、または前記第1参照情報と前記第2参照情報を使用して残差予測を行うことにより前記予測画像を生成することを特徴とする請求項9に記載の映像復号装置。
  13.  前記予測画像生成手段は、前記第1参照領域に対する予測参照先である第3参照領域から二次予測画像を生成し、前記第1一次予測画像と前記第2一次予測画像と前記二次予測画像とから残差予測を行い前記予測画像を生成することを特徴とする請求項12に記載の映像復号装置。
  14.  前記第2参照情報決定手段は、前記第1参照領域の予測復号時の参照情報を補正した情報を使用して前記第2参照情報を決定することを特徴とする請求項9に記載の映像復号装置。
  15.  前記第1参照領域の予測復号時の参照情報は、動きベクトルまたは視差ベクトルであることを特徴とする請求項9に記載の映像復号装置。
  16.  復号対象映像に含まれる復号対象画像を予測復号する映像復号装置であって、
     既に復号済みの画像を参照ピクチャとして復号対象画像を予測し、参照先である第1参照領域を示す第1参照情報を決定する予測手段と、
     前記第1参照領域の予測復号時の参照情報から、復号対象画像に対する別の参照先である第2参照領域を示す第2参照情報を決定する第2参照情報決定手段と、
     前記第2参照情報を、復号対象画像の周辺画像の予測情報をリスト化した候補リストに加える候補リスト更新手段と
     を有することを特徴とする映像復号装置。
  17.  符号化対象映像に含まれる符号化対象画像を予測符号化する映像符号化装置が行う映像符号化方法であって、
     既に符号化済みの画像を参照ピクチャとして符号化対象画像を予測し参照先である第1参照領域を示す第1参照情報を決定する予測ステップと、
     前記第1参照領域の予測符号化時の参照情報から、符号化対象画像に対する別の参照先である第2参照領域を示す第2参照情報を決定する第2参照情報決定ステップと、
     前記第2参照情報または前記第1参照情報と前記第2参照情報の両方に基づいて予測画像を生成する予測画像生成ステップと
     を備えることを特徴とする映像符号化方法。
  18.  符号化対象映像に含まれる符号化対象画像を予測符号化する映像符号化装置が行う映像符号化方法であって、
     既に符号化済みの画像を参照ピクチャとして符号化対象画像を予測し参照先である第1参照領域を示す第1参照情報を決定する予測ステップと、
     前記第1参照領域の予測符号化時の参照情報から、符号化対象画像に対する別の参照先である第2参照領域を示す第2参照情報を決定する第2参照情報決定ステップと、
     前記第2参照情報を、符号化対象画像の周辺画像の予測情報をリスト化した候補リストに加える候補リスト更新ステップと
     を備えることを特徴とする映像符号化方法。
  19.  復号対象映像に含まれる復号対象画像を予測復号する映像復号装置が行う映像復号方法であって、
     符号化された予測情報または該映像復号装置で参照可能ないずれかの情報に基づく第1参照情報の示す参照先である第1参照領域の予測復号時の参照情報から、復号対象画像に対する別の参照先である第2参照領域を示す第2参照情報を決定する第2参照情報決定ステップと、
     前記第2参照情報または前記第1参照情報と前記第2参照情報の両方に基づいて予測画像を生成する予測画像生成ステップと
     を備えることを特徴とする映像復号方法。
  20.  復号対象映像に含まれる復号対象画像を予測復号する映像復号装置が行う映像復号方法であって、
     既に復号済みの画像を参照ピクチャとして復号対象画像を予測し参照先である第1参照領域を示す第1参照情報を決定する予測ステップと、
     前記第1参照領域の予測復号時の参照情報から、復号対象画像に対する別の参照先である第2参照領域を示す第2参照情報を決定する第2参照情報決定ステップと、
     前記第2参照情報を、復号対象画像の周辺画像の予測情報をリスト化した候補リストに加える候補リスト更新ステップと
     を備えることを特徴とする映像復号方法。
PCT/JP2014/077210 2013-10-17 2014-10-10 映像符号化装置及び方法、及び、映像復号装置及び方法 WO2015056647A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201480050745.7A CN105532006B (zh) 2013-10-17 2014-10-10 视频编码装置及方法以及视频解码装置及方法
US14/913,482 US10972751B2 (en) 2013-10-17 2014-10-10 Video encoding apparatus and method, and video decoding apparatus and method
JP2015542601A JPWO2015056647A1 (ja) 2013-10-17 2014-10-10 映像符号化装置及び方法、及び、映像復号装置及び方法
KR1020167006827A KR101792089B1 (ko) 2013-10-17 2014-10-10 영상 부호화 장치 및 방법, 및 영상 복호 장치 및 방법

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013216488 2013-10-17
JP2013-216488 2013-10-17

Publications (1)

Publication Number Publication Date
WO2015056647A1 true WO2015056647A1 (ja) 2015-04-23

Family

ID=52828091

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/077210 WO2015056647A1 (ja) 2013-10-17 2014-10-10 映像符号化装置及び方法、及び、映像復号装置及び方法

Country Status (5)

Country Link
US (1) US10972751B2 (ja)
JP (1) JPWO2015056647A1 (ja)
KR (1) KR101792089B1 (ja)
CN (1) CN105532006B (ja)
WO (1) WO2015056647A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008053758A1 (fr) * 2006-10-30 2008-05-08 Nippon Telegraph And Telephone Corporation Procédé de codage d'image dynamique, procédé de décodage, leur dispositif, leur programme et support de stockage contenant le programme
WO2012108315A1 (ja) * 2011-02-07 2012-08-16 シャープ株式会社 予測情報生成方法、画像符号化方法、画像復号方法、予測情報生成装置、予測情報生成プログラム、画像符号化装置、画像符号化プログラム、画像復号装置および画像復号プログラム
WO2013001749A1 (ja) * 2011-06-29 2013-01-03 パナソニック株式会社 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置および画像符号化復号装置
WO2013001813A1 (ja) * 2011-06-29 2013-01-03 パナソニック株式会社 画像符号化方法、画像復号方法、画像符号化装置および画像復号装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012023652A (ja) 2010-07-16 2012-02-02 Sony Corp 画像処理装置と画像処理方法
KR20130023444A (ko) 2011-08-29 2013-03-08 한양대학교 산학협력단 다단계 화면간 예측을 이용한 영상 부호화/복호화 장치 및 방법
US9357212B2 (en) * 2012-12-07 2016-05-31 Qualcomm Incorporated Advanced residual prediction in scalable and multi-view video coding
WO2014103606A1 (ja) * 2012-12-26 2014-07-03 シャープ株式会社 画像復号装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008053758A1 (fr) * 2006-10-30 2008-05-08 Nippon Telegraph And Telephone Corporation Procédé de codage d'image dynamique, procédé de décodage, leur dispositif, leur programme et support de stockage contenant le programme
WO2012108315A1 (ja) * 2011-02-07 2012-08-16 シャープ株式会社 予測情報生成方法、画像符号化方法、画像復号方法、予測情報生成装置、予測情報生成プログラム、画像符号化装置、画像符号化プログラム、画像復号装置および画像復号プログラム
WO2013001749A1 (ja) * 2011-06-29 2013-01-03 パナソニック株式会社 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置および画像符号化復号装置
WO2013001813A1 (ja) * 2011-06-29 2013-01-03 パナソニック株式会社 画像符号化方法、画像復号方法、画像符号化装置および画像復号装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHIN'YA SHIMIZU: "Depth Map o Mochiita Sanjigen Eizo Fugoka no Kokusai Hyojunka Doko", IPSJ SIG NOTES, AUDIO VISUAL AND MULTIMEDIA INFORMATION PROCESSING (AVM), INFORMATION PROCESSING SOCIETY OF JAPAN, vol. 2013 -AV, no. 11, 5 September 2013 (2013-09-05), pages 1 - 6 *

Also Published As

Publication number Publication date
US20160227246A1 (en) 2016-08-04
KR101792089B1 (ko) 2017-11-01
CN105532006A (zh) 2016-04-27
CN105532006B (zh) 2019-06-25
KR20160043090A (ko) 2016-04-20
US10972751B2 (en) 2021-04-06
JPWO2015056647A1 (ja) 2017-03-09

Similar Documents

Publication Publication Date Title
US11140408B2 (en) Affine motion prediction
KR20080069069A (ko) 인트라/인터 예측 방법 및 장치
JP6039178B2 (ja) 画像符号化装置、画像復号装置、並びにそれらの方法及びプログラム
US20230291931A1 (en) Method and device for deriving inter-view motion merging candidate
KR20160118363A (ko) 화상 부호화 장치 및 방법, 화상 복호 장치 및 방법, 및 이들의 프로그램
JP5894301B2 (ja) 映像符号化装置および方法、映像復号装置および方法、及びそれらのプログラム
KR20140124919A (ko) 객체 기반 적응적 밝기 보상 방법 및 장치
KR20080006494A (ko) 비디오 신호의 디코딩 방법 및 장치
JP6386466B2 (ja) 映像符号化装置及び方法、及び、映像復号装置及び方法
JP2015128252A (ja) 予測画像生成方法、予測画像生成装置、予測画像生成プログラム及び記録媒体
WO2015056647A1 (ja) 映像符号化装置及び方法、及び、映像復号装置及び方法
JP5894338B2 (ja) 映像符号化装置及び方法、映像復号装置及び方法、及びそれらのプログラム
JP6690944B2 (ja) 視差動きベクトルの導出、そのような導出を使用した3dビデオコーディングおよびデコーディング
JP6306883B2 (ja) 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム、映像復号プログラム及び記録媒体
JP6306884B2 (ja) 予測画像生成方法、画像再構成方法、予測画像生成装置、画像再構成装置、予測画像生成プログラム、画像再構成プログラム及び記録媒体
JP6139953B2 (ja) 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム、映像復号プログラム及び記録媒体
JP6310340B2 (ja) 映像符号化装置、映像復号装置、映像符号化方法、映像復号方法、映像符号化プログラム及び映像復号プログラム
JP6232117B2 (ja) 画像符号化方法、画像復号方法、及び記録媒体
JP2013179554A (ja) 画像符号化装置、画像復号装置、画像符号化方法、画像復号方法およびプログラム

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201480050745.7

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14854618

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015542601

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14913482

Country of ref document: US

ENP Entry into the national phase

Ref document number: 20167006827

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14854618

Country of ref document: EP

Kind code of ref document: A1