WO2014104104A1 - 映像符号化装置および方法、映像復号装置および方法、及びそれらのプログラム - Google Patents

映像符号化装置および方法、映像復号装置および方法、及びそれらのプログラム Download PDF

Info

Publication number
WO2014104104A1
WO2014104104A1 PCT/JP2013/084689 JP2013084689W WO2014104104A1 WO 2014104104 A1 WO2014104104 A1 WO 2014104104A1 JP 2013084689 W JP2013084689 W JP 2013084689W WO 2014104104 A1 WO2014104104 A1 WO 2014104104A1
Authority
WO
WIPO (PCT)
Prior art keywords
prediction
region
video
image
reference prediction
Prior art date
Application number
PCT/JP2013/084689
Other languages
English (en)
French (fr)
Inventor
志織 杉本
信哉 志水
木全 英明
明 小島
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2014554497A priority Critical patent/JP5894301B2/ja
Priority to US14/654,976 priority patent/US20150358644A1/en
Priority to CN201380068047.5A priority patent/CN104885462A/zh
Priority to KR1020157013489A priority patent/KR20150079742A/ko
Publication of WO2014104104A1 publication Critical patent/WO2014104104A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/65Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using error resilience
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures

Definitions

  • the present invention relates to a video encoding device, a video decoding device, a video encoding method, a video decoding method, a video encoding program, and a video decoding program using bi-predictive encoding.
  • This application claims priority based on Japanese Patent Application No. 2012-287927 for which it applied on December 28, 2012, and uses the content here.
  • each frame of a video is divided into a plurality of processing unit blocks using spatial / temporal continuity of the subject, and the video signal is spatially / temporally divided for each block.
  • the prediction information indicating the prediction method and the prediction residual
  • the encoding efficiency is greatly improved as compared with the case of encoding the video signal itself.
  • intra prediction for predicting an encoding target image with reference to an already encoded block in the same frame, and motion search with reference to another already decoded frame Based on the above, inter prediction for predicting the encoding target image is performed.
  • This bi-prediction can also be used for scalable video coding for coding videos with different spatial resolutions, multi-view video coding for coding multi-view videos, and the like.
  • scalable coding it is possible to mix inter-layer prediction and inter-prediction for predicting a high-resolution layer from a decoded image of a low-resolution layer.
  • multi-view video coding it is possible to mix inter-view prediction and inter-prediction for predicting a coding target viewpoint from decoded images of different viewpoints.
  • the scalable video coding is described in detail in Non-Patent Document 2, and the multi-view video coding is described in detail in Non-Patent Document 3.
  • Non-Patent Document 4 is a prediction method that utilizes the fact that two prediction pictures are correlated with each other when two pictures with high correlation are predicted from corresponding reference pictures.
  • a prediction residual at the time of encoding a certain picture is subtracted from a prediction residual of a current encoding target picture that has been predicted using another reference picture, and the difference is encoded.
  • the amount of code can be reduced by up-sampling the prediction residual in the low resolution layer and subtracting it from the prediction residual in the high resolution layer.
  • the coding efficiency can be improved by subtracting the prediction residual at different viewpoints from the prediction residual at the encoding target viewpoint.
  • Free viewpoint video refers to capturing light rays of a scene by capturing the target scene from various positions and angles using a number of imaging devices, etc., and restoring the light ray information at an arbitrary viewpoint based on this information. It generates video viewed from an arbitrary viewpoint.
  • the light ray information of the scene is expressed in various data formats. As the most general format, there is a method using a video and a depth image called a depth map in each frame of the video (for example, see Non-Patent Document 5). ).
  • the depth map describes the distance (depth / depth) from the camera to the subject for each pixel, and is a simple expression of the three-dimensional information of the subject.
  • the depth value of each pixel in the subject is proportional to the reciprocal of the parallax between the cameras for that pixel, so the depth map is sometimes called a disparity map (parallax image). is there.
  • the video of the camera corresponding to the depth map is sometimes called texture. Since the depth map is an expression having one value for each pixel of the image, it can be described as a gray scale image.
  • a depth map video (hereinafter referred to as a depth map without distinction between images / videos), which is a temporally continuous description of the depth map, is similar to a video signal because of the spatial / temporal continuity of the subject. It can be said that there is a spatial and temporal correlation. Therefore, it is possible to efficiently encode the depth map while removing spatial / temporal redundancy by a video encoding method used for encoding a normal video signal.
  • Non-Patent Document 6 redundancy is eliminated by sharing the prediction information (block division, motion vector, reference frame) used for encoding both, and efficient encoding is realized.
  • an image is one frame of a moving image or a still image, and a collection of a plurality of frames (images) (moving image) is referred to as a video.
  • M. Flierl and B. Girod "Generalized B pictures and the draft H. 264 / AVC video-compression standard," Circuits and Systems for Video Technology,..., vol. 13, no. 7, pp. 587-597, 2003 . H. Schwarz, D. Marpe, and T. Wiegand, "Overview of the scalable video coding extension of the H. 264 / AVC standard,”... and Systems for Video..., vol. 17, no. 9, pp. 1103- 1120, Sep. 2007.
  • M. Flierl and B. Girod "Multiview video compression," Signal Processing Magazine, IEEE, no. November 2007, pp. 66-76, 2007.
  • the conventional bi-prediction can be expected to compensate for luminance change between frames and reduce noise by mixing two primary prediction images generated based on two different reference regions. If the predictions of these are greatly different, the prediction accuracy is reduced. As a solution to such a difference in prediction accuracy, there is a method of setting a weighting coefficient in both primary prediction images and mixing them.
  • P0 and P1 are weighting coefficients
  • Pred0 and Pred1 are primary prediction images based on different reference areas
  • D is an offset coefficient. It is more effective to set the weighting coefficient and the offset coefficient for each small area and each pixel than using a single scalar value, but this coefficient value is used on the decoding side. Has a problem in that the amount of code of the entire bit stream is increased.
  • the present invention has been made in view of such circumstances, and a video encoding device, a video decoding device, a video encoding method, and a video capable of generating a highly accurate predicted image without encoding coefficient values. It is an object to provide a decoding method, a video encoding program, and a video decoding program.
  • the present invention divides each frame constituting a video to be encoded into a plurality of processing regions, and performs basic encoding for each processing region when performing predictive encoding for each processing region.
  • a video encoding device that generates a predicted image from a region, A reference prediction region setting means for setting a first reference prediction region and a second reference prediction region, which are reference regions associated with the basic reference region, with respect to the encoding target image; A weighting factor setting means for determining a weighting factor for each small region based on the first reference prediction image based on the first reference prediction region and the second reference prediction image based on the second reference prediction region; , Prediction region setting means for setting a first prediction region and a second prediction region which are reference regions for the encoding target image; A predicted image generating unit configured to generate the predicted image from a first primary predicted image based on the first predicted region and a second primary predicted image based on the second predicted region based on the weighting factor; A video encoding device is provided.
  • the first reference prediction region and the second reference prediction region may be set based on prediction information obtained when the basic reference region is encoded.
  • the relationship between the first prediction region and the second prediction region and the encoding target image is the relationship between the first reference prediction region and the second reference prediction region and the basic reference region. You may set so that it may become equivalent.
  • the relationship between the basic reference region and the relationship between the first prediction region and the second prediction region and the encoding target image You may set so that it may become equivalent.
  • the present invention also divides each decoding target frame constituting the video encoded data into a plurality of processing regions, and performs basic reference associated with each processing region as a decoding target image when performing decoding for each processing region.
  • a video decoding device that generates a predicted image from a region, A reference prediction region setting means for setting a first reference prediction region and a second reference prediction region, which are reference regions associated with the basic reference region, for the decoding target image;
  • a weighting factor setting means for determining a weighting factor for each small region based on the first reference prediction image based on the first reference prediction region and the second reference prediction image based on the second reference prediction region;
  • a prediction region setting means for setting a first prediction region and a second prediction region which are reference regions for the decoding target image;
  • a predicted image generating unit configured to generate the predicted image from a first primary predicted image based on the first predicted region and a second primary predicted image based on the second predicted region based on the weighting factor;
  • the first reference prediction region and the second reference prediction region may be set based on prediction information obtained when the basic reference region is decoded.
  • the relationship between the first prediction region and the second prediction region and the decoding target image is equivalent to the relationship between the first reference prediction region and the second reference prediction region and the basic reference region. It may be set to be.
  • the first reference prediction region and the second reference prediction region have the same relationship with the basic reference region as the relationship between the first prediction region, the second prediction region, and the decoding target image. It may be set to be.
  • a difference between a basic reference image set based on the basic reference region and a first reference prediction image set based on the first reference prediction region, and the basic reference image and the first reference image A reference prediction residual generating unit that calculates a difference from the second reference prediction image set based on the two reference prediction regions and generates a first reference prediction residual and a second reference prediction residual; And The weighting factor setting means sets the weighting factor based on the first reference prediction residual and the second reference prediction residual.
  • the basic reference area may be set on an image taken by a camera different from the decoding target image.
  • the basic reference area may be set on an image of a camera video corresponding to the depth video.
  • the first reference prediction region and the second reference prediction region may be set by different prediction methods.
  • the video encoded data may be multiplexed with information indicating at least one of the first reference prediction area and the second reference prediction area.
  • the video encoded data may be multiplexed with information indicating at least one prediction method used for setting the first reference prediction region and the second reference prediction region.
  • the small area is a pixel.
  • the present invention also divides each frame constituting the video to be encoded into a plurality of processing regions, and performs the predictive encoding for each processing region, so that the basic is associated with each processing region as the encoding target image
  • a video encoding method for generating a predicted image from a reference region A reference prediction region setting step for setting a first reference prediction region and a second reference prediction region, which are reference regions associated with the basic reference region, with respect to the encoding target image;
  • a weighting factor setting step for determining a weighting factor for each small region based on the first reference prediction image based on the first reference prediction region and the second reference prediction image based on the second reference prediction region;
  • the present invention also divides each decoding target frame constituting the video encoded data into a plurality of processing regions, and performs basic reference associated with each processing region as a decoding target image when performing decoding for each processing region.
  • a video decoding method for generating a predicted image from a region A reference prediction region setting step for setting a first reference prediction region and a second reference prediction region, which are reference regions associated with the basic reference region, for the decoding target image;
  • a weighting factor setting step for determining a weighting factor for each small region based on the first reference prediction image based on the first reference prediction region and the second reference prediction image based on the second reference prediction region;
  • a prediction region setting step for setting a first prediction region and a second prediction region which are reference regions for the decoding target image;
  • the present invention also provides a video encoding program for causing a computer to execute the video encoding method.
  • the present invention also provides a video decoding program for causing a computer to execute the video decoding method.
  • a weighted average is performed for each small region in bi-prediction without encoding a weighting factor, thereby avoiding a decrease in prediction accuracy and generating a highly accurate predicted image.
  • FIG. 3 is a flowchart showing an operation of the video encoding device 100 shown in FIG. 1. It is a block diagram which shows the structure of the video decoding apparatus by said 1st Embodiment. 4 is a flowchart illustrating an operation of the video decoding device 200 illustrated in FIG. 3. It is a block diagram which shows the structure of the video coding apparatus by 2nd Embodiment of this invention. It is a flowchart which shows operation
  • FIG. 3 is a hardware diagram in a case where a video decoding device is configured by a computer and a software program.
  • FIG. 1 is a block diagram showing a configuration of a video encoding device 100 according to the embodiment. As shown in FIG. 1
  • the video encoding apparatus 100 includes an encoding target video input unit 101, an input frame memory 102, a reference frame memory 103, an additional video input unit 104, an additional video memory 105, a basic reference area determination unit 106, First reference prediction unit 107, second reference prediction unit 108, first prediction unit 109, second prediction unit 110, weight coefficient setting unit 111, weighted average unit 112, subtraction unit 113, transform / quantization unit 114, inverse quantum A reverse conversion unit 115, an addition unit 116, a loop filter unit 117, and an entropy encoding unit 118.
  • the encoding target video input unit 101 receives a video to be encoded from the outside.
  • the video to be encoded is referred to as an encoding target video
  • a frame to be processed is referred to as an encoding target frame or an encoding target image.
  • the input frame memory 102 stores the input encoding target video.
  • the reference frame memory 103 stores images that have been encoded and decoded so far.
  • this stored frame is referred to as a reference frame or a reference image.
  • the additional video input unit 104 receives an additional video corresponding to the video to be encoded from the outside.
  • this video is referred to as an additional video
  • a frame corresponding to an encoding target frame to be processed in particular is referred to as a target additional frame or a target additional image.
  • the additional video memory 105 stores the input additional video.
  • the basic reference area determination unit 106 determines a basic reference area on the additional image corresponding to the encoding target image.
  • the first reference prediction unit 107 and the second reference prediction unit 108 determine two or more reference prediction regions for the basic reference region on the stored additional image, and generate a reference prediction image based on each of them.
  • the first prediction unit 109 and the second prediction unit 110 determine two or more prediction regions for the encoding target image on the stored reference image, and generate a primary prediction image based on each.
  • the weighting factor setting unit 111 determines a weighting factor for each primary prediction image based on each reference prediction image.
  • the weighted average unit 112 multiplies each primary predicted image by a set weighting coefficient, and adds both multiplication results to generate a predicted image.
  • the subtraction unit 113 takes the difference value between the encoding target image and the predicted image and generates a prediction residual.
  • the transform / quantization unit 114 transforms / quantizes the generated prediction residual to generate quantized data.
  • the inverse quantization / inverse transform unit 115 performs inverse quantization / inverse transform on the generated quantized data to generate a decoded prediction residual.
  • the adder 116 generates a decoded image from the predicted image and the prediction residual.
  • the loop filter unit 117 applies a loop filter to the generated decoded image to generate a reference frame.
  • the entropy encoding unit 118 entropy-encodes the quantized data to generate code (encoded) data.
  • FIG. 2 is a flowchart showing the operation of the video encoding device 100 shown in FIG. FIG. 2 estimates the prediction accuracy when performing prediction in a corresponding region on another video having a correlation with the encoding target video, and estimates the prediction accuracy when performing similar prediction on the encoding target video therefrom.
  • the processing in the case of determining the weighting coefficient used for the weighted average of the primary prediction image is shown.
  • a process for encoding one frame in the video to be encoded will be described. By repeating the processing described for each frame, the entire video can be encoded.
  • the encoding target video input unit 101 receives an encoding target frame from the outside and stores it in the input frame memory 102. Further, the additional video input unit 104 receives a target additional frame of the additional video corresponding to the encoding target video from the outside, and stores it in the additional video memory 105 (step S101). It is assumed that some frames in the video to be encoded have already been encoded and the decoded frames are stored in the reference frame memory 103. Further, it is assumed that an additional frame corresponding to the decoded frame stored in the reference frame memory is also stored on the additional video memory 105.
  • the additional video that is input is another video that has a correlation with the video to be encoded, and may be a video that is multiplexed with the video to be encoded, as long as an equivalent video can be obtained on the decoding side.
  • Any video can be used.
  • a video of a different viewpoint from a video to be encoded in a multi-view video can be applied as an additional video, and a video in a different layer from the video to be encoded in a scalable video can also be applied.
  • the encoding target video is a normal (camera) video
  • a depth map video corresponding to the video can be applied, and vice versa. Any other video may be used as the additional video.
  • the additional video is encoded and multiplexed together with the encoding target video
  • the encoding target frame is divided into a plurality of encoding target blocks, and the video signal of the encoding target frame is encoded for each block (steps S102 to S112).
  • the following processing from steps S103 to S111 is repeatedly executed until all the encoding target blocks of the frame are processed.
  • the basic reference area determination unit 106 determines a basic reference area on the target additional image corresponding to the encoding target image. Then, each of the first reference prediction unit 107 and the second reference prediction unit 108 performs any prediction on the basic reference region on the reference additional image stored in the additional video memory 105 to determine the reference prediction region. Then, based on each reference prediction region, a first reference prediction image and a second reference prediction image are generated (step S103).
  • the reference prediction area here is an area to be referred to when the basic reference area is predicted from each reference additional image, and the prediction image at that time is the reference prediction image.
  • the prediction method is inter prediction
  • the corresponding region is a reference prediction region, and when it is intra prediction, an already decoded adjacent region is a reference prediction region.
  • any method may be used for determining the basic reference area. For example, when the additional video is a video of another viewpoint in the multi-view video, the area corresponding to the encoding target image may be determined as the basic reference area by the parallax search. Further, when the additional video is a video of another layer of the scalable video, an area corresponding to the same position may be determined as a basic reference area as a corresponding area. Further, when the additional video is a depth map video with respect to the video, or when both videos have the opposite relationship, the area corresponding to the same position may be determined as the basic reference area. Also, information indicating the basic reference area may be determined in advance, or may be estimated from prediction information of peripheral blocks that have already been decoded. Alternatively, information indicating the basic reference area may be multiplexed together with the encoded video.
  • the first reference prediction unit 107 and the second reference prediction unit 108 select different prediction methods or reference prediction regions, or both different prediction methods and reference prediction regions.
  • the prediction method in the first reference prediction unit 107 and the second reference prediction unit 108 and the method of determining the reference additional image and the reference prediction region are determined correctly using prediction information on the decoding side, and the reference prediction image Any method can be used as long as it is a method that can generate the data.
  • any combination of prediction methods in the first reference prediction unit 107 and the second reference prediction unit 108 may be used. For example, any combination may be used, such as when both are inter prediction but the picture to be referenced is different, or when one is intra prediction and the other is inter prediction.
  • Any prediction method and reference additional image may be used.
  • a predetermined one may be used, or any information may be input together with the additional video. Or you may use the same thing used at the time of encoding / decoding of an additional image
  • the first reference prediction unit 107 may perform forward prediction and the second reference prediction unit 108 may perform backward prediction.
  • the prediction method may be determined based on a frame number or other information. Any one of the criteria may be determined in advance.
  • the reference prediction area may be determined in advance, or reference prediction information indicating the reference prediction area may be input together with the additional video. Further, the reference prediction area may be determined using prediction information and reference prediction information used when encoding / decoding the peripheral area and the additional video, and the reference prediction information is estimated and used based on any information. It doesn't matter. Alternatively, it may be determined after performing any processing such as motion search in each prediction unit, or may be determined by any other method. For example, when only one prediction method is determined, a prediction region may be determined by performing a prediction process using a prediction method determined in each prediction unit.
  • information indicating a region such as a motion vector may be input and used as reference prediction information, or a motion vector may be determined based on a predetermined amount of parallax or the like. Further, the motion vector may be determined using any additional information such as a depth map for the video.
  • information indicating each prediction method, each reference additional image, and the reference prediction area may be encoded as reference prediction information and multiplexed with video code data, or similar information can be obtained on the decoding side.
  • the encoding may not be performed.
  • a reference additional image ID or a reference motion vector indicating each reference additional image and reference prediction area may be encoded, but estimation is performed from peripheral blocks that have been decoded on the decoding side without encoding them. There is also. Any other estimation may be performed.
  • only information indicating one reference prediction region may be encoded and information indicating the other reference prediction region may be predicted.
  • the prediction method in the first reference prediction unit 107 is forward prediction from an I picture or P picture
  • the prediction method in the second reference prediction unit 108 is backward prediction from a P picture
  • the second reference There is a case where only a motion vector indicating the prediction region is encoded, and a motion vector indicating the first reference prediction region is estimated from the motion vector used for forward prediction of the neighboring blocks of the second reference prediction region.
  • a reference indicating the second reference prediction region there is a case where only a motion vector is encoded, and a reference disparity vector indicating the first reference prediction area is estimated from a disparity vector used for inter-view prediction when predicting and encoding a peripheral block of the second reference prediction area. Any other combination or method may be used.
  • the prediction information that is information used for prediction in the first prediction unit 109 and the second prediction unit 110 described later is encoded and multiplexed, and the first reference prediction unit 107 and the second reference are determined from the prediction information at the time of decoding.
  • the reference prediction information used in the prediction unit 108 may be determined.
  • the reference prediction information reference image number, prediction vector, etc.
  • the prediction information changed by the first prediction unit 109 and the second prediction unit 110 is encoded and multiplexed with code data.
  • the decoded prediction information can be used as it is in the first prediction unit and the second prediction unit on the decoding side described later.
  • any method or combination may be used as the prediction method, the reference additional image, and the reference prediction region in the first reference prediction unit 107 and the second reference prediction unit 108.
  • each of the first prediction unit 109 and the second prediction unit 110 performs the same prediction process as the first reference prediction unit 107 and the second reference prediction unit 108 on the reference image stored in the reference frame memory 103.
  • the reference region here is a region to be referred to when the encoding target block is predicted from each reference image, and the predicted image at that time is a primary predicted image.
  • the prediction methods in the first prediction unit 109 and the second prediction unit 110 are the same as those used in the first reference prediction unit 107 and the second reference prediction unit 108, and the reference image corresponds to the reference prediction image.
  • the reference area corresponds to the reference prediction area. Any correspondence between them may be used.
  • the reference image a reference image for the encoding target video having the same frame number as the reference predicted image or a corresponding frame number can be used.
  • the reference area may be an area having the same block number or the same position as the reference prediction area.
  • the additional video is a video of another viewpoint of the multi-view video, the parallax is added.
  • the area can be determined.
  • information indicating these correspondences may be encoded and multiplexed with the video, or may not be encoded when estimated on the decoding side.
  • prediction information used in the first prediction unit 109 and the second prediction unit 110 can be estimated from such correspondence and reference prediction information, the corresponding prediction information is decoded without being encoded. You may estimate on the side. For example, when performing prediction using the same prediction method with reference to images having the same frame number, the reference image numbers and prediction vectors used in the first prediction unit 109 and the second prediction unit 110 are The same one as that used in the second reference prediction unit 108 may be used.
  • the prediction information may be estimated by any method from the correspondence relationship and the reference prediction information. In such a case, when the reference prediction information is generated from the prediction information at the time of encoding the additional video, both the prediction information and the reference prediction information may not be encoded.
  • the weighting factor setting unit 111 refers to the first reference prediction image and the second reference prediction image, and performs the weighted average of the first primary prediction image and the second primary prediction image for each small region.
  • a weighting factor is determined (step S105).
  • the small area is an area of a unit smaller than the encoding target area, and may be a predetermined size area, an area that is adaptively determined, or each pixel may be a small area.
  • an offset coefficient may be further determined and used. Any method may be used for determining the weighting factor.
  • the additional image in the basic reference area is Ib
  • the first reference prediction image and the second reference prediction image are Predb1 and Predb2
  • a method for obtaining a weighting coefficient matrix w that minimizes can be applied. Any method may be used, but for example, it may be obtained by solving a general optimization problem. For example, the best one of predetermined weight coefficient patterns may be selected. Any other method may be used. Also, information indicating this method may be encoded and multiplexed with video code data.
  • an image in the basic reference region is set as a basic reference image, and the first reference prediction residual and the second reference prediction residual are generated and used from the basic reference image, the first reference prediction image, and the second reference prediction image. It doesn't matter. Any method may be used for generating the first reference prediction residual and the second reference prediction residual. For example, a method of simply subtracting the reference prediction image from the basic reference image to obtain a reference prediction residual can be applied. Further, an offset coefficient may be given or any other process may be added. In addition, the contents of these methods, processes, and necessary information may be determined in any way. It may be estimated from the prediction information used for encoding the additional video, or any other method may be used. Also, information indicating the method and the like may be encoded and multiplexed together with video code data.
  • the weight coefficients for the first primary prediction image and the second primary prediction image are W 1 and W 2 , respectively, and the first reference prediction residual and the second reference prediction residual are ResPred1 and ResPred2.
  • W 1
  • W 2
  • any reference prediction residual function may be designed and used, and any other method may be used to determine the weight coefficient.
  • a method is also conceivable in which optimal weighting factors are determined in advance for several combinations of primary prediction images and the correlation with the reference prediction residual is learned. Further, a lookup table or the like may be generated and used. Any other method may be used. Also, information indicating this method may be encoded and multiplexed with video code data. Also, information indicating a method for determining the weighting coefficient may be encoded and multiplexed together with the video code data.
  • the offset coefficient may be a scalar value or a coefficient matrix composed of offset values for each small area. Further, this offset coefficient may be determined in any way.
  • W 1 and W 2 are weight coefficients
  • Pred 1 and Pred 2 are primary prediction images, respectively
  • D is an offset coefficient
  • Pred [(W 1 ) (Pred 1 )] + [(W 2 ) (Pred 2 )] + D
  • Pred [(W 1 ) (Pred 1 )] + [(W 2 ) (Pred 2 )] + D
  • it may be determined simultaneously with the weighting coefficient or may be determined in order. Moreover, you may determine as another value instead of coefficient value itself. For example, a method of determining as a scaling coefficient for a predetermined offset coefficient is conceivable, but any other value or any other method may be used.
  • the weighted average unit 112 generates a (final) prediction image from the first primary prediction image and the second primary prediction image, respectively, based on the weight coefficient (step S106).
  • each primary prediction image may be weighted and averaged using a weighting coefficient to obtain a prediction image, or an offset coefficient may be added.
  • the subtraction unit 113 generates a prediction residual based on the difference between the predicted image and the encoding target image (step S107).
  • the transform / quantization unit 114 transforms and quantizes the prediction residual to generate quantized data (step S108). This transformation / quantization may be performed by any method as long as it can be correctly dequantized / inverse transformed on the decoding side.
  • the inverse quantization / inverse transform unit 115 inversely quantizes / inversely transforms the quantized data to generate a decoded prediction residual (step S109).
  • the adding unit 116 adds the decoded prediction residual and the (final) predicted image to generate a decoded image (step S110).
  • the loop filter unit 117 applies a loop filter and stores it in the reference frame memory 103 as a reference frame. If there is no need for the loop filter, it may be omitted. However, in normal video encoding, a deblocking filter or other filters are used to remove encoding noise.
  • the entropy coding unit 118 entropy codes the quantized data to generate code data (step S111). If necessary, prediction information and other additional information may be encoded and included in the code data. When the processing is completed for all blocks, code data is output (step S112).
  • FIG. 3 is a block diagram showing a configuration of the video decoding apparatus.
  • the video decoding apparatus 200 includes a code data input unit 201, a code data memory 202, a reference frame memory 203, an entropy decoding unit 204, an inverse quantization / inverse transform unit 205, an additional video input unit 206, and an additional video input unit 206.
  • the code data input unit 201 receives video code data to be decoded.
  • This video code data to be decoded is called decoding target video code data, and a frame to be processed in particular is called a decoding target frame or a decoding target image.
  • the code data memory 202 stores the input decoding target video.
  • the reference frame memory 203 stores an already decoded image.
  • the entropy decoding unit 204 entropy-decodes the code data of the decoding target frame to generate quantized data, and the inverse quantization / inverse transform unit 205 performs inverse quantization / inverse transformation on the quantized data to perform decoding prediction. Generate a residual.
  • the additional video input unit 206 receives the additional video corresponding to the decoding target video.
  • this video is referred to as an additional video
  • a frame corresponding to a decoding target frame to be processed in particular is referred to as a target additional frame or a target additional image.
  • the additional video memory 207 stores the input additional video.
  • the basic reference area determination unit 208 determines a basic reference area on the additional image corresponding to the decoding target image.
  • the first reference prediction unit 209 and the second reference prediction unit 210 determine two or more reference prediction regions for the basic reference region on the stored additional image, and generate a reference prediction image based on each of them.
  • the first prediction unit 211 and the second prediction unit 212 determine two or more prediction regions for the decoding target image on the stored reference image, and generate a primary prediction image based on each.
  • the weighting factor setting unit 213 determines a weighting factor for each primary prediction image based on each reference prediction image.
  • the weighted average unit 214 multiplies each primary predicted image by the set weight coefficient, and adds both to generate a predicted image.
  • the adding unit 215 generates a decoded image from the predicted image and the decoded prediction residual.
  • the loop filter unit 216 applies a loop filter to the generated decoded image to generate a reference frame.
  • FIG. 4 is a flowchart showing the operation of the video decoding apparatus 200 shown in FIG. FIG. 4 estimates the prediction accuracy when performing prediction in a corresponding region on another video having a correlation with the decoding target video, and estimates the prediction accuracy when performing similar prediction on the decoding target video therefrom.
  • the process in the case of determining the weighting coefficient used for the weighted average of a primary prediction image is shown.
  • a process of decoding one frame in the code data will be described. By repeating the processing described for each frame, decoding of the entire video can be realized.
  • the code data input unit 201 receives code data and stores it in the code data memory 202. Further, the additional video input unit 206 receives the target additional frame of the additional video corresponding to the encoding target video, and stores it in the additional video memory 207 (step S201). It is assumed that some frames in the video to be decoded have already been decoded and stored in the reference frame memory 203. Further, it is assumed that an additional frame corresponding to the decoded frame stored in the reference frame memory 203 is also stored on the additional video memory 207.
  • the decoding target frame is divided into a plurality of decoding target blocks, and the video signal of the decoding target frame is decoded for each block (steps S202 to S210).
  • the following steps S203 to S209 are repeatedly executed until all the decoding target blocks of the frame are processed.
  • the entropy decoding unit 204 entropy decodes the code data to generate quantized data (step S203), and the inverse quantization / inverse transform unit 205 converts the quantized data into On the other hand, inverse quantization and inverse transformation are performed to generate a decoded prediction residual (step S204).
  • the prediction data and other additional information are included in the code data, they may be decoded to generate necessary information as appropriate.
  • the basic reference area determination unit 208 determines a basic reference area on the target additional image corresponding to the decoding target image. Then, each of the first reference prediction unit 209 and the second reference prediction unit 210 performs any prediction on the basic reference region on the reference additional image stored in the additional video memory 207 to determine the reference prediction region. Then, based on each reference prediction region, a first reference prediction image and a second reference prediction image are generated (step S205).
  • a method for determining the basic reference region any method may be used as long as it can determine the same region as that used for encoding.
  • Information indicating the area may be determined in advance, or may be used if there is information multiplexed with the video.
  • information indicating a prediction method or a reference prediction region when information indicating a prediction method or a reference prediction region is multiplexed with video code data, it may be used, and in particular, prediction similar to that at the time of encoding can be performed without using prediction information. If it exists, there is no need to have such information. Details are the same as in the case of encoding.
  • each of the first prediction unit 211 and the second prediction unit 212 performs the same prediction process as the first reference prediction unit 209 and the second reference prediction unit 210 on the reference image stored in the reference frame memory 203.
  • To determine a reference area and generate a primary prediction image one by one (step S206).
  • the information indicating the prediction method and the prediction area is multiplexed with the video code data, it may be used, and in particular, the same prediction as at the time of encoding can be performed without using the prediction information. For example, there is no need to have such information. Details are the same as in the case of encoding, and thus detailed description thereof is omitted here.
  • the weighting factor setting unit 213 refers to the first reference prediction image and the second reference prediction image, and performs the weighted average of the first primary prediction image and the second primary prediction image for each small region.
  • a weighting factor is determined (step S207).
  • the small area is an area of a unit smaller than the encoding target area, and may be a predetermined size area, an area that is adaptively determined, or each pixel may be a small area.
  • an offset coefficient may be further determined and used. If information indicating a method for determining the weighting coefficient used at this time is multiplexed with the video code data, it may be used. If there is no such information, the weighting coefficient can be generated in the same manner as in the encoding, and this is not necessary.
  • the weighted average unit 214 generates a (final) prediction image from the first primary prediction image and the second primary prediction image, respectively, based on the weighting factor (step S208).
  • Each primary prediction image may be weighted and averaged using a weighting coefficient to obtain a prediction image, or an offset coefficient may be added.
  • the adding unit 215 adds the predicted image and the decoded prediction residual to generate a decoded image (step S209).
  • a loop filter is applied by the loop filter unit 216 and stored in the reference frame memory 203 as a reference frame.
  • the loop filter is not particularly required if it is not necessary, but in normal video encoding (including decoding), a deblocking filter or other filter is used to remove encoding noise.
  • the processed frame is output as a decoded frame (step S210).
  • FIG. 5 is a block diagram showing a configuration of the video encoding device 100a according to the embodiment.
  • the apparatus shown in this figure is different from the apparatus shown in FIG. 1 in that the outputs from the first reference prediction unit 107 and the second reference prediction unit 108 are the first prediction unit 109 and the second prediction unit 110 in the configuration shown in FIG.
  • the outputs from the first prediction unit 109 and the second prediction unit 110 are input to the first reference prediction unit 107 and the second reference prediction unit 108. It is.
  • the first reference prediction unit 107 and the second reference prediction unit 108 illustrated in FIG. 5 determine two or more reference prediction regions for the basic reference region on the stored target additional image, and the reference prediction image based on each of them. Is generated.
  • FIG. 6 is a flowchart showing the operation of the video encoding device 100a shown in FIG.
  • FIG. 6 shows a process in the case where a reference prediction image for the basic reference region is generated based on prediction information for the encoding target image and used for weighting coefficient generation as the weighting coefficient setting process in the second embodiment.
  • FIG. 6 the same parts as those shown in FIG. 2 are denoted by the same reference numerals, and the description thereof is omitted.
  • steps S101 and S102 processing similar to the processing operation shown in FIG. 2 is performed.
  • the first prediction unit 109 and the second prediction unit 110 perform any prediction on the encoding target image on the stored reference image, respectively determine a prediction region, and based on each prediction first primary prediction image And the 2nd primary prediction picture is generated (Step S103a).
  • the prediction method in the first prediction unit 109 and the second prediction unit 110 and the method for determining the reference image and the reference region can be determined as long as the primary prediction image can be generated by correctly determining them using prediction information on the decoding side. Any method is acceptable. It may be the same as the reference prediction in the first embodiment, or may be another method. Also, information necessary for this prediction may be encoded as prediction information and multiplexed together with video code data.
  • each of the first reference prediction unit 107 and the second reference prediction unit 108 the same prediction as the first prediction unit 109 and the second prediction unit 110 on the reference additional image stored in the additional video memory 105 is performed.
  • Processing is performed to determine reference prediction regions, and reference prediction images are generated one by one (step S104a).
  • the prediction methods in the first reference prediction unit 107 and the second reference prediction unit 108 are the same as those used in the first prediction unit 109 and the second prediction unit 110, and the reference prediction image corresponds to the reference image.
  • the reference prediction area corresponds to the reference area. Any correspondence between them may be used. Details are the same as in the first embodiment.
  • the processing in steps S106 to S112 is the same as the processing operation shown in FIG.
  • FIG. 7 is a block diagram showing the configuration of the video decoding apparatus 200a according to the embodiment.
  • the apparatus shown in this figure is different from the apparatus shown in FIG. 3 in that the outputs of the first reference prediction unit 209 and the second reference prediction unit 210 are the first prediction unit 211 and the second prediction unit 212 in the configuration shown in FIG.
  • the outputs of the first prediction unit 211 and the second prediction unit 212 are input to the first reference prediction unit 209 and the second reference prediction unit 210. is there.
  • the first reference prediction unit 209 and the second reference prediction unit 210 illustrated in FIG. 7 determine two or more reference prediction regions for the basic reference region on the stored target additional image, and the reference prediction image based on each of them. Is generated.
  • FIG. 8 is a flowchart showing the operation of the video decoding apparatus 200a shown in FIG. FIG. 8 shows processing in the case where a reference prediction image for the basic reference region is generated based on prediction information for the decoding target image and used for weighting factor generation as weighting factor setting processing in the second embodiment.
  • FIG. 8 the same parts as those shown in FIG. 4 are denoted by the same reference numerals, and the description thereof is omitted.
  • steps S201 to S204 processing similar to the processing operation shown in FIG. 4 is performed.
  • the first prediction unit 211 and the second prediction unit 212 perform any prediction on the encoding target image on the stored reference image, respectively determine a prediction region, and based on each prediction, the first primary prediction image And a 2nd primary prediction image is produced
  • the prediction method and the method for determining the reference image and the reference region in the first prediction unit 211 and the second prediction unit 212 may be any methods as long as the primary prediction image can be generated as in the encoding side. It may be the same as the reference prediction in the first embodiment, or may be another method. In addition, when information necessary for this prediction is encoded and multiplexed with encoded video data, this may be used.
  • each of the first reference prediction unit 209 and the second reference prediction unit 210 the same prediction as the first prediction unit 211 and the second prediction unit 212 on the reference additional image stored in the additional video memory 207 is performed. Processing is performed to determine reference prediction regions, and reference prediction images are generated one by one (step S206a).
  • the prediction methods in the first reference prediction unit 209 and the second reference prediction unit 210 are the same as those used in the first prediction unit 211 and the second prediction unit 212, and the reference prediction image corresponds to the reference image.
  • the reference prediction area corresponds to the reference area. Any correspondence between them may be used.
  • the processes in steps S207 to S210 are the same as those in the first embodiment.
  • the weighting coefficient may be applied only to some blocks.
  • the combination of prediction methods in the first and second prediction units, the determination method of the weighting coefficient, and the like may be varied depending on the block. In that case, information indicating them may be encoded and included in the additional information, or a function for determining applicability or a prediction method may be added to the decoding side. In that case, it is preferable to add a trouble avoidance function and a correction function to prevent the decoding from being impossible due to encoding noise or a transmission error.
  • first and second reference prediction units and the first and second prediction units use common prediction information.
  • a primary predicted image may be generated.
  • the first and second prediction units may perform prediction by motion search on a normal encoding target video
  • the first and second reference prediction units may perform prediction by motion search on a reference video. I do not care. Any other combination is acceptable.
  • the prediction in the first and second prediction units is performed using prediction information at the time of encoding the additional video, but the prediction in the first and second reference prediction units may be performed by an arbitrary method. . Or you may share only some information, such as a frame number referred in the case of prediction.
  • Prediction information used for each prediction may be encoded and multiplexed with video code data, or may be estimated from peripheral block information and the like.
  • a predicted image may be generated.
  • the number of basic reference regions and reference prediction images used in that case may be any number, any determination method may be used, and a plurality of determination methods may be combined.
  • the basic reference area is set on the additional video that is another video, but the basic reference area may be set on the same video that has already been decoded.
  • the basic reference area is set in the same frame as the encoding target image in the same video or in a different frame, and the prediction error is estimated by the prediction residual It can be applied to cases where it can be done.
  • the basic reference area may be set anywhere.
  • the basic reference region is set on a frame different from the frame to be encoded of the video to be encoded.
  • the prediction error may be estimated based on the prediction residual.
  • the first and second reference prediction units may determine reference areas based on different basic reference areas.
  • the prediction area in one prediction may be used as the other basic reference area.
  • motion compensation prediction in which one prediction refers to a decoded picture of a video different from the encoding target video, and the other prediction refers to a decoded picture of a frame different from the encoding target video
  • a prediction region in motion compensation prediction may be used as a basic reference region for estimating a prediction error in disparity compensation prediction.
  • the luminance signal and the color difference signal in the encoding target video signal are not particularly distinguished, but may be distinguished.
  • the chrominance signal may be encoded using a fixed weighting factor, and the weighting factor may be determined with reference to prediction information and prediction residual when the chrominance signal is encoded when the luminance signal is encoded, or vice versa. Absent. Alternatively, different weighting factors may be determined and used. The order of some processes in the first and second embodiments described above may be changed.
  • FIG. 9 is a hardware diagram in the case where the video encoding apparatus is configured by a computer and a software program.
  • the system CPU 30 that executes the program
  • a memory 31 such as a RAM in which programs and data accessed by the CPU 30 are stored
  • An encoding target video input unit 32 that inputs a video signal to be encoded from a camera or the like into the video encoding device (may be a storage unit that stores a video signal by a disk device or the like)
  • a program storage device 35 in which a video encoding program 351 that is a software program for causing the CPU 30 to execute the processing operations shown in FIGS. 2 and 6 is stored.
  • a code data output unit 36 that outputs code data generated by the CPU 30 executing the video encoding program loaded in the memory 31 via, for example, a network (a storage unit that stores code data by a disk device or the like) May be) Are connected by a bus.
  • a network a storage unit that stores code data by a disk device or the like
  • an auxiliary information input unit 33 for inputting auxiliary information via a network (auxiliary information by a disk device or the like). It may also be a storage unit that stores signals).
  • other hardware such as a code data storage unit and a reference frame storage unit is provided and used to implement this method.
  • a video signal code data storage unit, a prediction information code data storage unit, and the like may be used.
  • FIG. 10 is a hardware diagram in the case where the video decoding apparatus is configured by a computer and a software program.
  • the system CPU 40 that executes the program
  • a memory 41 such as a RAM in which programs and data accessed by the CPU 40 are stored
  • a code data input unit 42 for inputting code data encoded by the video encoding device according to the method of the present invention into the video decoding device (may be a storage unit for storing code data by a disk device or the like)
  • a program storage device 45 in which a video decoding program 451 that is a software program for causing the CPU 40 to execute the processing operations shown in FIGS. 4 and 8 is stored.
  • a decoded video output unit 46 that outputs the decoded video generated by the CPU 40 executing the video decoding program loaded in the memory 41 to a playback device or the like.
  • a bus In addition to this, if necessary for realizing decoding as described in the first and second embodiments, for example, an auxiliary information input unit 43 for inputting auxiliary information via a network (an auxiliary information signal by a disk device or the like). It may also be a storage unit that stores a). In addition, although not shown, other hardware such as a reference frame storage unit is provided and used to implement this method. Also, a video signal code data storage unit, a prediction information code data storage unit, and the like may be used.
  • a prediction method that uses two or more prediction results, such as bi-prediction, for each primary prediction image that is a prediction result, on another video having a correlation with the encoding target or the encoding target
  • the weighting coefficient used for the weighted average of the primary prediction image by estimating the prediction accuracy when performing the same prediction as the encoding target video in the corresponding region on the video, and estimating the prediction accuracy in the encoding target video therefrom To decide.
  • prediction information such as a prediction vector at the time of encoding the corresponding region, a prediction image at the time of encoding calculated from them, a difference between the prediction image and an image of the region, or the like, or (ii) a predicted image generated using the prediction information of the encoding target video for the corresponding region, a difference image between the predicted image and the image of the region, etc.
  • the program for realizing the functions of the processing units in FIGS. 1, 3, 5, and 7 is recorded on a computer-readable recording medium, and the program recorded on the recording medium is read into a computer system and executed. By doing so, video encoding processing and video decoding processing may be performed.
  • the “computer system” here includes an OS and hardware such as peripheral devices.
  • the “computer system” includes a WWW system having a homepage providing environment (or display environment).
  • the “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM or a CD-ROM, and a hard disk incorporated in a computer system.
  • the “computer-readable recording medium” refers to a volatile memory (RAM) in a computer system that becomes a server or a client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. In addition, those holding programs for a certain period of time are also included.
  • RAM volatile memory
  • the program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium.
  • the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line.
  • the program may be for realizing a part of the functions described above. Furthermore, what can implement
  • DESCRIPTION OF SYMBOLS 100 Video coding apparatus 101 ... Encoding target video input unit 102 ... Input frame memory 103 ... Reference frame memory 104 ... Additional video input unit 105 ... Additional video memory 106 ... Basic reference region determination unit 107 ... first reference prediction unit 108 ... second reference prediction unit 109 ... first prediction unit 110 ... second prediction unit 111 ... weight coefficient setting unit 112- .. Weighted average unit 113... Subtraction unit 114... Transform / quantization unit 115.
  • Encoding unit 200 ... Video decoding device 201 ... Code data input unit 202 ... Code data memory 203 ... Reference frame memory 204 ... Entropy decoding unit 205 ... Inverse quantization / inverse conversion unit 06 ...
  • additional video input unit 207 ... additional video memory 208 ... basic reference area determination unit 209 ... first reference prediction unit 210 ... second reference prediction unit 211 ... first prediction unit 212 ... second prediction unit 213 ... weighting factor setting unit 214 ... weighted average unit 215 ... addition unit 216 ... loop filter unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

 符号化対象映像を構成する各フレームを複数の処理領域に分割し、前記処理領域毎に予測符号化を行う際に、符号化対象画像としての各処理領域に対応づけられる基本参照領域を設定する。この領域に対応づけられる参照領域である第1の参照予測領域と第2の参照予測領域とを設定し、それぞれに対する第1の参照予測画像と第2の参照予測画像とに基づき、小領域毎の重み係数を決定する。前記符号化対象画像に対する参照領域である第1の予測領域と第2の予測領域を設定し、それらに基づく第1の一次予測画像と第2の一次予測画像と前記重み係数とから、予測画像を生成する。

Description

映像符号化装置および方法、映像復号装置および方法、及びそれらのプログラム
 本発明は、双予測符号化を用いた映像符号化装置、映像復号装置、映像符号化方法、映像復号方法、映像符号化プログラム、および、映像復号プログラムに関する。
 本願は、2012年12月28日に出願された特願2012-287927号に基づき優先権を主張し、その内容をここに援用する。
 一般的な映像符号化では、被写体の空間的/時間的な連続性を利用して、映像の各フレームを複数の処理単位ブロックに分割し、ブロック毎にその映像信号を空間的/時間的に予測し、その予測方法を示す予測情報と予測残差とを符号化することで、映像信号そのものを符号化する場合に比べて大幅な符号化効率の向上を図っている。
 また、一般的な二次元映像符号化では、同じフレーム内の既に符号化済みのブロックを参照して符号化対象画像を予測するイントラ予測と、既に復号済みの他のフレームを参照して動き探索などに基づき符号化対象画像を予測するインター予測を行う。
 MPEG(動画像専門家グループ(Moving Picture Experts Group))-1、MPEG-2及びMPEG-4を含む多くのビデオ圧縮標準では、画像の符号化/復号順序は再生順序と同一ではなく、そのため、インター予測において時間的に前のフレームを参照する前方向予測だけでなく、後のフレームを参照する後方向予測、更に2つ以上のフレームからの予測結果を混合する双予測を行うことができる。
 双予測によれば、画像間の回転、輝度変化、ノイズなどによる予測エラーを低減することができる。双予測については、非特許文献1に詳しく記載されている。
 この双予測は、空間解像度の異なる映像を符号化するスケーラブル映像符号化や、多視点映像を符号化する多視点映像符号化などにも利用することができる。
 スケーラブル符号化においては、低解像度レイヤの復号画像から高解像度レイヤの予測を行うインターレイヤ予測とインター予測を混合することが可能である。
 また多視点映像符号化においては、異なる視点の復号画像から符号化対象視点の予測を行うインタービュー予測とインター予測を混合することが可能である。
 スケーラブル映像符号化については非特許文献2に、多視点映像符号化においては非特許文献3に詳しく記載されている。
 また、通常の予測方式と組み合わせることが可能な予測方式として、あるピクチャを符号化した際の予測残差を現符号化対象ピクチャの予測に用いる残差予測を利用することも可能である。この残差予測については、非特許文献4に詳しく記載されている。この方法は、高い相関を持つ2つのピクチャを、それぞれ対応する参照ピクチャから予測した場合に、その予測残差も互いに相関を持つことを利用した予測方式である。
 一般的な残差予測では、あるピクチャの符号化時の予測残差を、別の参照ピクチャを用いて予測を行った現符号化対象ピクチャの予測残差から差し引き、その差分を符号化する。
 スケーラブル符号化では、低解像度レイヤにおける予測残差をアップサンプリングし、高解像度レイヤにおける予測残差から差し引くことで、符号量を削減することができる。
 多視点映像符号化においては、異なる視点における予測残差を符号化対象視点の予測残差から差し引くことで符号化効率の向上が可能である。
 ここで、自由視点映像符号化について説明する。自由視点映像とは、対象シーンを多数の撮像装置等を用いて様々な位置・角度から撮像することでシーンの光線情報を取得し、これを元に任意の視点における光線情報を復元することで任意の視点から見た映像を生成するものである。
 シーンの光線情報は様々なデータ形式によって表現されるが、最も一般的な形式としては、映像とその映像の各フレームにおけるデプスマップと呼ばれる奥行き画像を用いる方式がある(例えば、非特許文献5参照)。
 デプスマップとは、カメラから被写体までの距離(奥行き・デプス)を画素毎に記述したものであり、被写体のもつ3次元情報の簡易な表現である。
 2つのカメラから同一の被写体を観測するとき、被写体における各画素のデプス値は、その画素に対するカメラ間の視差の逆数に比例するために、デプスマップはディスパリティマップ(視差画像)と呼ばれることもある。これに対して、デプスマップの対応するカメラの映像のことをテクスチャと呼ぶこともある。デプスマップは画像の各画素につき一つの値を持つ表現であるために、グレースケール画像とみなして記述することができる。
 また、デプスマップの時間的に連続した記述であるデプスマップ映像(以下では画像/映像の区別なしにデプスマップと呼ぶ)は、映像信号と同様に、被写体の空間的/時間的な連続性から、空間的・時間的相関を持つと言える。したがって、通常の映像信号を符号化するために用いられる映像符号化方式によって、空間的/時間的冗長性を取り除きながらデプスマップを効率的に符号化することが可能である。
 一般にテクスチャとデプスマップの間には高い相関があり、そのため自由視点映像符号化のようにテクスチャとデプスマップを合わせて符号化する場合には、両者の間の相関を利用して更なる符号化効率の向上が実現できる。
 非特許文献6では、両者の符号化に用いる予測情報(ブロック分割、動きベクトル、参照フレーム)を共通化することで冗長性を排除し、効率的な符号化を実現している。
 なお、本明細書中において、画像とは動画像の1つのフレームまたは静止画像のことであり、複数のフレーム(画像)が集まったもの(動画像)を映像と称する。
M. Flierl and B. Girod, "Generalized B pictures and the draft H. 264/AVC video-compression standard," Circuits and Systems for Video Technology, …, vol. 13, no. 7, pp. 587-597, 2003. H. Schwarz, D. Marpe, and T. Wiegand, "Overview of the scalable video coding extension of the H. 264/AVC standard," …and Systems for Video …, vol. 17, no. 9, pp. 1103-1120, Sep. 2007. M. Flierl and B. Girod, "Multiview video compression," Signal Processing Magazine, IEEE, no. November 2007, pp. 66-76, 2007. X. Wang and J. Ridge, "Improved video coding with residual prediction for extended spatial scalability," Communications, Control and SignalProcessing, 2008. ISCCSP 2008. 3rd International Symposium on, no. March, pp. 1041-1046, 2008. Y. Mori, N. Fukushima, T. Yendo, T. Fujii, and M. Tanimoto, "View generation with 3D warping using depth information for FTV," Signal Processing, Image Communication, vol. 24, no. 1-2, pp. 65-72, Jan. 2009. I. Daribo, C. Tillier, and B. P. Popescu, "Motion Vector Sharing and Bitrate Allocation for 3D Video-Plus-Depth Coding," EURASIP Journal onAdvances in Signal Processing, vol. 2009, Article ID 258920, 13 pages, 2009.
 ところで、従来の双予測は、2つの異なる参照領域に基づいて生成される2つの一次予測画像を混合することによってフレーム間の輝度変化に対する補償や、ノイズの低減が期待できる反面、一部で両方向の予測が大きく異なる場合には予測精度が低下する。こうした予測精度の違いに対する解決方法としては、両一次予測画像に重み係数を設定し混合する方法などがある。
 例えば、混合した一次予測画像Predは、
 Pred=〔(P0)(Pred0)〕+〔(P1)(Pred1)〕+D
 と表現できる。
 ここで、P0,P1は重み係数であり、Pred0,Pred1はそれぞれ異なる参照領域に基づく1次予測画像であり、Dはオフセット係数である。
 重み係数及びオフセット係数は、それぞれ単一のスカラー値を用いるよりも、小領域毎や画素毎に設定される係数値とする方がより効果的であるが、復号側で用いるためにこの係数値を符号化することは、ビットストリーム全体の符号量の増大を招くという問題がある。
 本発明は、このような事情に鑑みてなされたもので、係数値を符号化することなく高精度な予測画像を生成することができる映像符号化装置、映像復号装置、映像符号化方法、映像復号方法、映像符号化プログラム、および、映像復号プログラムを提供することを目的とする。
 本発明は、符号化対象映像を構成する各フレームを複数の処理領域に分割し、前記処理領域毎に予測符号化を行う際に、符号化対象画像としての各処理領域に対応づけられる基本参照領域から予測画像を生成する映像符号化装置であって、
 前記符号化対象画像に対し、前記基本参照領域に対応づけられる参照領域である第1の参照予測領域と第2の参照予測領域とを設定する参照予測領域設定手段と、
 前記第1の参照予測領域に基づく第1の参照予測画像と、前記第2の参照予測領域に基づく第2の参照予測画像とに基づき、小領域毎の重み係数を決定する重み係数設定手段と、
 前記符号化対象画像に対する参照領域である第1の予測領域と第2の予測領域を設定する予測領域設定手段と、
 前記重み係数に基づき、前記第1の予測領域に基づく第1の一次予測画像と、前記第2の予測領域に基づく第2の一次予測画像とから、前記予測画像を生成する予測画像生成手段と
 を備えることを特徴とする映像符号化装置を提供する。
 前記第1の参照予測領域と第2の参照予測領域は、前記基本参照領域を符号化した際の予測情報に基づき設定しても良い。
 前記第1の予測領域及び第2の予測領域は、前記符号化対象画像との関係が、前記第1の参照予測領域及び前記第2の参照予測領域と前記基本参照領域との間の関係と同等になるように設定しても良い。
 前記第1の参照予測領域及び第2の参照予測領域は、前記基本参照領域との関係が、前記第1の予測領域及び前記第2の予測領域と前記符号化対象画像との間の関係と同等になるように設定しても良い。
 本発明はまた、映像符号化データを構成する各復号対象フレームを複数の処理領域に分割し、前記処理領域毎に復号を行う際に、復号対象画像としての各処理領域に対応づけられる基本参照領域から予測画像を生成する映像復号装置であって、
 前記復号対象画像に対し、前記基本参照領域に対応づけられる参照領域である第1の参照予測領域と第2の参照予測領域とを設定する参照予測領域設定手段と、
 前記第1の参照予測領域に基づく第1の参照予測画像と、前記第2の参照予測領域に基づく第2の参照予測画像とに基づき、小領域毎の重み係数を決定する重み係数設定手段と、
 前記復号対象画像に対する参照領域である第1の予測領域と第2の予測領域を設定する予測領域設定手段と、
 前記重み係数に基づき、前記第1の予測領域に基づく第1の一次予測画像と、前記第2の予測領域に基づく第2の一次予測画像とから、前記予測画像を生成する予測画像生成手段と
 を備えることを特徴とする映像復号装置も提供する。
 前記第1の参照予測領域と第2の参照予測領域は、前記基本参照領域を復号した際の予測情報に基づき設定しても良い。
 前記第1の予測領域及び第2の予測領域は、前記復号対象画像との関係が、前記第1の参照予測領域及び前記第2の参照予測領域と前記基本参照領域との間の関係と同等になるように設定しても良い。
 前記第1の参照予測領域及び第2の参照予測領域は、前記基本参照領域との関係が、前記第1の予測領域及び前記第2の予測領域と前記復号対象画像との間の関係と同等になるように設定しても良い。
 好適例として、前記基本参照領域に基づいて設定される基本参照画像と前記第1の参照予測領域に基づいて設定される第1の参照予測画像との差分、及び、前記基本参照画像と前記第2の参照予測領域に基づいて設定される第2の参照予測画像との差分を取り、第1の参照予測残差と第2の参照予測残差を生成する参照予測残差生成手段を更に有し、
 前記重み係数設定手段は、前記第1の参照予測残差と前記第2の参照予測残差に基づき前記重み係数を設定する。
 前記基本参照領域は前記復号対象画像とは異なるカメラで撮影された画像上に設定しても良い。
 前記映像符号化データの復号対象が奥行き映像である場合に、前記基本参照領域は、当該奥行き映像に対応するカメラ映像の画像上に設定しても良い。
 前記第1の参照予測領域と前記第2の参照予測領域とは、互いに異なる予測方法により設定されるようにしても良い。
 前記映像符号化データには、前記第1の参照予測領域と前記第2の参照予測領域の少なくとも一方を示す情報が多重化されているようにしても良い。
 前記映像符号化データには、前記第1の参照予測領域と前記第2の参照予測領域の設定に用いる少なくとも1つの予測方法を示す情報が多重化されているようにしても良い。
 典型例として、前記小領域は、画素である。
 本発明はまた、符号化対象映像を構成する各フレームを複数の処理領域に分割し、前記処理領域毎に予測符号化を行う際に、符号化対象画像としての各処理領域に対応づけられる基本参照領域から予測画像を生成する映像符号化方法であって、
 前記符号化対象画像に対し、前記基本参照領域に対応づけられる参照領域である第1の参照予測領域と第2の参照予測領域とを設定する参照予測領域設定ステップと、
 前記第1の参照予測領域に基づく第1の参照予測画像と、前記第2の参照予測領域に基づく第2の参照予測画像とに基づき、小領域毎の重み係数を決定する重み係数設定ステップと、
 前記符号化対象画像に対する参照領域である第1の予測領域と第2の予測領域を設定する予測領域設定ステップと、
 前記重み係数に基づき、前記第1の予測領域に基づく第1の一次予測画像と、前記第2の予測領域に基づく第2の一次予測画像とから、前記予測画像を生成する予測画像生成ステップと
 を備えることを特徴とする映像符号化方法も提供する。
 本発明はまた、映像符号化データを構成する各復号対象フレームを複数の処理領域に分割し、前記処理領域毎に復号を行う際に、復号対象画像としての各処理領域に対応づけられる基本参照領域から予測画像を生成する映像復号方法であって、
 前記復号対象画像に対し、前記基本参照領域に対応づけられる参照領域である第1の参照予測領域と第2の参照予測領域とを設定する参照予測領域設定ステップと、
 前記第1の参照予測領域に基づく第1の参照予測画像と、前記第2の参照予測領域に基づく第2の参照予測画像とに基づき、小領域毎の重み係数を決定する重み係数設定ステップと、
 前記復号対象画像に対する参照領域である第1の予測領域と第2の予測領域を設定する予測領域設定ステップと、
 前記重み係数に基づき、前記第1の予測領域に基づく第1の一次予測画像と、前記第2の予測領域に基づく第2の一次予測画像とから、前記予測画像を生成する予測画像生成ステップと
 を備えることを特徴とする映像復号方法も提供する。
 本発明はまた、前記映像符号化方法をコンピュータに実行させるための映像符号化プログラムも提供する。
 本発明はまた、前記映像復号方法をコンピュータに実行させるための映像復号プログラムも提供する。
 本発明によれば、重み係数を符号化することなしに双予測において小領域毎に加重平均を行うことで予測精度低下を回避し、高精度な予測画像を生成することができる。これにより、予測残差符号化に必要な符号量を削減することができるという効果が得られる。
本発明の第1実施形態による映像符号化装置の構成を示すブロック図である。 図1に示す映像符号化装置100の動作を示すフローチャートである。 同第1実施形態による映像復号装置の構成を示すブロック図である。 図3に示す映像復号装置200の動作を示すフローチャートである。 本発明の第2実施形態による映像符号化装置の構成を示すブロック図である。 図5に示す映像符号化装置100aの動作を示すフローチャートである。 同第2実施形態による映像復号装置の構成を示すブロック図である。 図7に示す映像復号装置200aの動作を示すフローチャートである。 映像符号化装置をコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア図である。 映像復号装置をコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア図である。
<第1実施形態>
 以下、図面を参照して、本発明の第1実施形態による映像符号化装置を説明する。図1は、同実施形態による映像符号化装置100の構成を示すブロック図である。
 映像符号化装置100は、図1に示すように、符号化対象映像入力部101、入力フレームメモリ102、参照フレームメモリ103、付加映像入力部104、付加映像メモリ105、基本参照領域決定部106、第1参照予測部107、第2参照予測部108、第1予測部109、第2予測部110、重み係数設定部111、加重平均部112、減算部113、変換・量子化部114、逆量子化・逆変換部115、加算部116、ループフィルタ部117、及びエントロピー符号化部118を備えている。
 符号化対象映像入力部101は、符号化対象となる映像を、外部から受け取る。以下では、この符号化対象となる映像のことを符号化対象映像と呼び、特に、処理を行うフレームを、符号化対象フレームまたは符号化対象画像と呼ぶ。
 入力フレームメモリ102は、入力された符号化対象映像を記憶する。
 参照フレームメモリ103は、それまでに符号化・復号された画像を記憶する。以下では、この記憶されたフレームを参照フレームまたは参照画像と呼ぶ。
 付加映像入力部104は、符号化対象映像に対応する付加映像を、外部から受け取る。以下では、この映像のことを付加映像と呼び、特に処理を行う符号化対象フレームに対応するフレームを、対象付加フレームまたは対象付加画像と呼ぶ。
 付加映像メモリ105は、入力された付加映像を記憶する。
 基本参照領域決定部106は、符号化対象画像に対応する付加画像上の基本参照領域を決定する。
 第1参照予測部107及び第2参照予測部108は、記憶された付加画像上で、基本参照領域に対する2つ以上の参照予測領域を決定し、それぞれに基づき参照予測画像を生成する。
 第1予測部109及び第2予測部110は、記憶された参照画像上で符号化対象画像に対する2つ以上の予測領域を決定し、それぞれに基づき一次予測画像を生成する。
 重み係数設定部111は、各参照予測画像に基づき、各一次予測画像に対する重み係数を決定する。
 加重平均部112は、各一次予測画像と設定された重み係数とを乗算し、両乗算結果を加算して予測画像を生成する。
 減算部113は、符号化対象画像と予測画像の差分値をとり、予測残差を生成する。
 変換・量子化部114は、生成された予測残差を変換・量子化し、量子化データを生成する。
 逆量子化・逆変換部115は、生成された量子化データを逆量子化・逆変換し、復号予測残差を生成する。
 加算部116は、予測画像と予測残差から、復号画像を生成する。
 ループフィルタ部117は、生成された復号画像にループフィルタをかけ、参照フレームを生成する。
 エントロピー符号化部118は、量子化データをエントロピー符号化し符号(符号化)データを生成する。
 次に、図2を参照して、図1に示す映像符号化装置100の動作を説明する。図2は、図1に示す映像符号化装置100の動作を示すフローチャートである。
 図2は、符号化対象映像と相関を持つ別の映像上での対応する領域において予測を行う場合の予測精度を見積り、そこから符号化対象映像において同様の予測を行う場合の予測精度を見積もることで、一次予測画像の加重平均に用いる重み係数を決定する場合の処理を示している。
 ここでは、符号化対象映像中のある1フレームを符号化する処理について説明する。説明する処理をフレーム毎に繰り返すことで、映像全体の符号化が実現できる。
 まず、符号化対象映像入力部101は、符号化対象フレームを外部より受け取り、入力フレームメモリ102に記憶する。また、付加映像入力部104は、符号化対象映像に対応する付加映像の対象付加フレームを外部より受け取り、付加映像メモリ105に記憶する(ステップS101)。
 なお、符号化対象映像中の幾つかのフレームは既に符号化されているものとし、その復号フレームが参照フレームメモリ103に記憶されているとする。また、付加映像メモリ105上には、参照フレームメモリに記憶されている復号フレームに対応する付加フレームも記憶されているとする。
 入力される付加映像は符号化対象映像と相関を持つ別の映像であり、符号化対象映像とともに多重化するような映像でも構わないし、復号側で同等の映像を得られるようなものであれば、任意の映像が利用できる。
 例えば、多視点映像における符号化対象映像と別の視点の映像などが付加映像として適用できるし、スケーラブル映像における符号化対象映像と別のレイヤの映像なども適用できる。また、符号化対象映像が通常の(カメラ)映像である場合に、当該映像に対応するデプスマップ映像なども適用できるし、その逆の形態も可能である。その他にどのような映像を付加映像としても構わない。
 また、付加映像を符号化対象映像とともに符号化し多重化するような場合には、符号化対象映像の付加映像としては、既に符号化し復号した付加映像を映像符号化装置に入力することが望ましいが、そうでなくても構わない。
 次に、映像入力の後、符号化対象フレームを複数の符号化対象ブロックに分割し、ブロック毎に符号化対象フレームの映像信号を符号化する(ステップS102~S112)。以下のステップS103~S111までの処理は、当該フレームの全ての符号化対象ブロックが処理されるまで、繰り返し実行される。
 符号化対象ブロック毎に繰り返される処理において、まず、基本参照領域決定部106は、符号化対象画像に対応する対象付加画像上の基本参照領域を決定する。
 そして、第1参照予測部107及び第2参照予測部108の各々は、付加映像メモリ105上に記憶されている参照付加画像上で基本参照領域に対する何れかの予測を行って参照予測領域を決定し、それぞれの参照予測領域に基づき、第1参照予測画像及び第2参照予測画像を生成する(ステップS103)。
 ここでの参照予測領域とは、各参照付加画像から基本参照領域の予測を行う場合に参照することになる領域であり、その時の予測画像が参照予測画像である。予測方法がインター予測である場合には対応する領域が参照予測領域であり、イントラ予測である場合には既に復号済みの隣接領域が参照予測領域になる。
 基本参照領域の決定方法はどのような方法を用いても構わない。
 例えば、付加映像が多視点映像における別の視点の映像である場合には、視差探索により符号化対象画像に対応する領域を基本参照領域に決定しても構わない。また、付加映像がスケーラブル映像の別のレイヤの映像である場合には、同一位置に当たる領域を対応する領域として基本参照領域に決定しても構わない。また、付加映像が映像に対するデプスマップ映像や、両映像がその逆の関係である場合には、同一位置に当たる領域を基本参照領域に決定しても構わない。
 また、基本参照領域を示す情報を予め定めておいても構わないし、既に復号済みの周辺ブロックの予測情報などから推定しても構わない。あるいは、基本参照領域を示す情報を符号化した映像とともに多重化しても構わない。
 また、第1参照予測部107と第2参照予測部108とは、異なる予測方法あるいは参照予測領域、あるいは共に異なる予測方法及び参照予測領域を選択することが望ましい。
 第1参照予測部107及び第2参照予測部108での予測方法及び参照付加画像及び参照予測領域を決定する方法は、復号側で予測情報などを使用して正しくそれらを決定し、参照予測画像を生成できる方法であれば、どのような方法でも構わない。
 また、第1参照予測部107と第2参照予測部108における予測方法の組み合わせは、どのようなものでも構わない。例えば、両方共インター予測であるが参照するピクチャが違う場合や、一方がイントラ予測でもう他方がインター予測である場合など、任意の組み合わせで構わない。
 また、予測方法及び参照付加画像はどのようなものでも構わない。
 予め定められたものを用いても構わないし、いずれかの情報が付加映像とともに入力されていても構わない。あるいは、付加映像の符号化/復号時に用いたものと同じものを用いても構わないし、各予測部において動き探索などのいずれかの処理を行なった上で決定しても構わない。
 例えば、第1参照予測部107では前方向予測を行うとし、第2参照予測部108では後方向予測を行うと定めておいても構わないし、フレーム番号やその他の情報に基づいて予測方法を決定する何れかの基準を予め定めておいても構わない。
 同様に、参照予測領域は予め定められるとしても構わないし、参照予測領域を示す参照予測情報が付加映像とともに入力されていても構わない。また、周辺の領域や付加映像の符号化/復号時に用いた予測情報や参照予測情報を用いて参照予測領域を決定しても構わないし、いずれかの情報に基づき参照予測情報を推定して用いても構わない。あるいは、各予測部において動き探索などのいずれかの処理を行なった上で決定しても構わないし、他に何れかの方法で決定しても構わない。
 例えば、予測方法のみがいずれかに決定されている場合に、各予測部において定められた予測方法で予測処理を行い、予測領域を決定しても構わない。このとき動きベクトルなどの領域を示す情報を参照予測情報として入力し使用しても構わないし、予め定められた視差量などに基づいて動きベクトルを決定しても構わない。また、映像に対するデプスマップなど、何れかの付加情報を用いて動きベクトルを決定しても構わない。
 また、各予測方法や各参照付加画像及び参照予測領域を示す情報などを参照予測情報として符号化し、映像の符号データと共に多重化するなどしても構わないし、復号側で同様の情報を得られる場合には符号化しなくても構わない。
 例えば、各参照付加画像及び参照予測領域をそれぞれ示す参照付加画像IDや参照動きベクトルを符号化しても良いが、それらを符号化せずに、復号側で復号済みの周辺ブロックなどから推定する場合もある。他にどのような推定を行なっても構わない。
 あるいは、一方の参照予測領域を示す情報のみを符号化し、他方の参照予測領域を示す情報を予測しても構わない。
 例えば、第1参照予測部107における予測方法がIピクチャまたはPピクチャからの前方向予測であり、第2参照予測部108における予測方法がPピクチャからの後方向予測である場合に、第2参照予測領域を示す動きベクトルのみを符号化し、第2参照予測領域の周辺ブロックの前方向予測に用いた動きベクトルから、第1参照予測領域を示す動きベクトルを推定する場合などがある。
 また多視点映像の場合には、第1参照予測部107における予測方法がインタービュー予測であり、第2参照予測部108における予測方法がインター予測である場合に、第2参照予測領域を示す参照動きベクトルのみを符号化し、第2参照予測領域の周辺ブロックを予測符号化する際にインタービュー予測に用いた視差ベクトルから、第1参照予測領域を示す参照視差ベクトルを推定する場合などがある。この他にどのような組み合わせや方法を用いても構わない。
 また、後述の第1予測部109及び第2予測部110での予測に用いる情報である予測情報のみを符号化して多重化し、復号時にはその予測情報から、第1参照予測部107と第2参照予測部108で用いる参照予測情報を決定しても構わない。
 例えば、符号化時に第1参照予測部107と第2参照予測部108で決定した参照予測情報(参照画像番号や予測ベクトルなど)を、第1予測部109及び第2予測部110で何れかの対応関係に基づいて変更して使用する場合に、第1予測部109及び第2予測部110で変更された予測情報を符号化して符号データと多重化し、復号時には、後述する復号側の第1参照予測部と第2参照予測部で使用する参照予測情報に戻すための対応関係に基づき、逆の変更を行うようにしてもよい。この場合には、後述する復号側の第1予測部及び第2予測部では、復号した予測情報をそのまま利用できる。
 このように第1参照予測部107と第2参照予測部108での予測方法及び参照付加画像及び参照予測領域を決定する方法は、どのような方法や組み合わせを用いても構わない。
 次に、第1予測部109及び第2予測部110のそれぞれは、参照フレームメモリ103に記憶されている参照画像上で、第1参照予測部107及び第2参照予測部108と同様の予測処理を行って参照領域を決定し、それぞれ一つずつ一次予測画像を生成する(ステップS104)。
 ここでの参照領域とは、各参照画像から符号化対象ブロックの予測を行う場合に参照することになる領域であり、その時の予測画像が一次予測画像である。
 第1予測部109及び第2予測部110での予測方法は、第1参照予測部107と第2参照予測部108で用いたものと同一であり、参照画像は参照予測画像と対応するものであり、参照領域は参照予測領域と対応するものである。それらの対応関係はどのようなものでも構わない。
 例えば、参照画像は、参照予測画像と同一フレーム番号あるいは対応するフレーム番号の、符号化対象映像に対する参照画像を用いることができる。また、参照領域は、参照予測領域と同一ブロック番号の領域や同一位置の領域を用いることもできるし、例えば付加映像が多視点映像の別の視点の映像である場合などには、視差を加味して領域を決定することもできる。
 また、これらの対応関係を示す情報を符号化して映像とともに多重化しても構わないし、復号側で推定する場合には符号化しなくても構わない。
 また、このような対応関係と参照予測情報とから第1予測部109及び第2予測部110で用いる予測情報を推定することが可能な場合には、該当する予測情報を符号化せずに復号側で推定しても構わない。
 例えば完全に同一フレーム番号の画像を参照して同じ予測方法で予測を行う場合に、第1予測部109及び第2予測部110で用いる参照画像番号や予測ベクトルを、第1参照予測部107と第2参照予測部108で用いたものと完全に同じものを用いてもよい。
 他にも、対応関係と参照予測情報から、どのような方法で予測情報を推定しても構わない。またこのような場合に、参照予測情報が付加映像の符号化時の予測情報から生成される場合には、予測情報及び参照予測情報を共に符号化しなくても構わない。
 次に、重み係数設定部111は、第1参照予測画像及び第2参照予測画像を参照して、第1の一次予測画像と第2の一次予測画像とを加重平均するための小領域毎の重み係数を決定する(ステップS105)。
 小領域は符号化対象領域よりも小さい単位の領域であり、予め定められた大きさの領域でも良いし、適応的に決定される大きさの領域でも良いし、各画素を小領域としてもよい。また、重み係数の他に更にオフセット係数を決定し、使用してもよい。
 重み係数の決定方法はどのような方法を用いても構わない。
 例えば、決定した重み係数に基づいて第1参照予測画像と第2参照予測画像を加重平均した際に基本参照領域における画像が生成されるという仮定のもとに、基本参照領域における付加画像をIbとし、第1参照予測画像及び第2参照予測画像をPredb1及びPredb2としたとき、
|Ib-[w・Predb1+(1-w)・Predb2]|
を最小化するような重み係数行列wを求める方法などが適用できる。
 どのような方法で求めても構わないが、例えば一般的な最適化問題の解法によって求めても構わないし、例えば予め定められた重み係数のパターンのうち最もいいものを選択しても構わない。この他にどのような方法を用いても構わない。また、この方法を示す情報を符号化し、映像の符号データと多重化しても構わない。
 あるいは、基本参照領域における画像を基本参照画像とし、基本参照画像と第1参照予測画像及び第2参照予測画像とから第1参照予測残差及び第2参照予測残差を生成して利用しても構わない。これら第1参照予測残差及び第2参照予測残差を生成する方法はどのようなものを用いても構わない。
 例えば、単純に基本参照画像から参照予測画像を差し引いて参照予測残差とするような方法が適用できる。また、オフセット係数を与えても構わないし、他にどのような処理を加えても構わない。
 また、それらの方法や処理の内容や必要な情報は、どのように決定しても構わない。付加映像の符号化に用いた予測情報から推定しても構わないし、他にもどのような方法を用いても構わない。また、その方法等を示す情報を符号化し映像の符号データと共に多重化しても構わない。
 重み係数生成の方法はどのようなものでも構わない。最も単純な方法としては、例えば第1一次予測画像及び第2一次予測画像に対する重み係数をそれぞれW,Wとし、第1参照予測残差及び第2参照予測残差をResPred1、ResPred2としたとき、
=|ResPred2|/(|ResPred1|+|ResPred2|)
=|ResPred1|/(|ResPred1|+|ResPred2|)
とするような方法が適用できる。
 あるいは、
Figure JPOXMLDOC01-appb-M000001
とするような方法も考えられる。
 この他にどのような参照予測残差の関数を設計して用いても構わないし、その他にどのような方法を用いて重み係数を決定しても構わない。
 たとえば、予め幾つかの組み合わせの一次予測画像について最適な重み係数を決定しておき、参照予測残差との相関を学習しておくような方法も考えられる。またルックアップテーブル等を生成して使用しても構わない。その他にどのような方法を用いても構わない。
 また、この方法を示す情報を符号化し、映像の符号データと多重化しても構わない。また、重み係数を決定する方法を示す情報を符号化し、映像の符号データと共に多重化しても構わない。
 また、前述の例では、各一次予測画像の乗算に用いる重み係数だけを決定しているが、この他にオフセット係数も決定し、後述の加重平均部で加算して予測画像を生成しても構わない。オフセット係数はスカラー値でも構わないし、小領域毎のオフセット値からなる係数行列でも構わない。また、このオフセット係数はどのように決定されても構わない。
 ここで、W,Wは重み係数であり、Pred1,Pred2はそれぞれ1次予測画像であり、Dはオフセット係数であるとき、
Pred=〔(W)(Pred1)〕+〔(W)(Pred2)〕+D
とするような場合が考えられる。
 この他にどのような形で決定しても構わない。また、重み係数と同時に決定しても構わないし、順番に決定しても構わない。
 また、係数値そのものでなく、別の値として決定されても構わない。例えば、予め定められたオフセット係数に対するスケーリング係数として決定する方法などが考えられるが、この他にどのような値として決定しても構わないし、どのような方法で決定しても構わない。
 次に、加重平均部112は、それぞれ第1の一次予測画像と第2の一次予測画像から、重み係数に基づき、(最終)予測画像を生成する(ステップS106)。
 ここで、重み係数を使用して各一次予測画像を加重平均することで予測画像としても構わないし、更にオフセット係数を加算しても構わない。
 続いて、減算部113は予測画像と符号化対象画像との差分により、予測残差を生成する(ステップS107)。
 そして、変換・量子化部114は予測残差を変換・量子化し、量子化データを生成する(ステップS108)。この変換・量子化は、復号側で正しく逆量子化・逆変換できるものであれば、どのような方法を用いても構わない。
 次に、逆量子化・逆変換部115は、量子化データを逆量子化・逆変換し復号予測残差を生成する(ステップS109)。
 そして、加算部116は、復号予測残差と(最終)予測画像とを加算し、復号画像を生成する(ステップS110)。続いて、ループフィルタ部117はループフィルタをかけて、参照フレームとして参照フレームメモリ103に記憶する。
 ループフィルタは必要がなければ特にかけなくても構わないが、通常の映像符号化では、デブロッキングフィルタやその他のフィルタを使用して、符号化ノイズを除去する。
 次に、エントロピー符号化部118は、量子化データをエントロピー符号化し、符号データを生成する(ステップS111)。必要であれば、予測情報やその他の付加情報も符号化して符号データに含めても構わない。
 そして、全てのブロックについて処理が終了したら、符号データを出力する(ステップS112)。
 次に、本第1実施形態における映像復号装置について説明する。図3は、同映像復号装置の構成を示すブロック図である。
 映像復号装置200は、図3に示すように、符号データ入力部201、符号データメモリ202、参照フレームメモリ203、エントロピー復号部204、逆量子化・逆変換部205、付加映像入力部206、付加映像メモリ207、基本参照領域決定部208、第1参照予測部209、第2参照予測部210、第1予測部211、第2予測部212、重み係数設定部213、加重平均部214、加算部215、及びループフィルタ部216を備えている。
 符号データ入力部201は、復号対象となる映像符号データを受け取る。この復号対象となる映像符号データのことを復号対象映像符号データと呼び、特に処理を行うフレームを、復号対象フレームまたは復号対象画像と呼ぶ。
 符号データメモリ202は、入力された復号対象映像を記憶する。
 参照フレームメモリ203は、すでに復号済みの画像を記憶する。
 エントロピー復号部204は、復号対象フレームの符号データをエントロピー復号して量子化データを生成し、逆量子化・逆変換部205は、この量子化データに逆量子化/逆変換を施して復号予測残差を生成する。
 付加映像入力部206は、復号対象映像に対応する付加映像を受け取る。以下では、この映像のことを付加映像と呼び、特に処理を行う復号対象フレームに対応するフレームを、対象付加フレームまたは対象付加画像と呼ぶ。
 付加映像メモリ207は、入力された付加映像を記憶する。
 基本参照領域決定部208は、復号対象画像に対応する付加画像上の基本参照領域を決定する。
 第1参照予測部209及び第2参照予測部210は、記憶された付加画像上で、基本参照領域に対する2つ以上の参照予測領域を決定し、それぞれに基づき参照予測画像を生成する。
 第1予測部211及び第2予測部212は、記憶された参照画像上で復号対象画像に対する2つ以上の予測領域を決定し、それぞれに基づき一次予測画像を生成する。
 重み係数設定部213は、各参照予測画像に基づき、各一次予測画像に対する重み係数を決定する。
 加重平均部214は、各一次予測画像と設定された重み係数とを乗算し、両者を加算して予測画像を生成する。
 加算部215は、予測画像と復号予測残差から、復号画像を生成する。
 ループフィルタ部216は、生成された復号画像にループフィルタをかけ、参照フレームを生成する。
 次に、図4を参照して、図3に示す映像復号装置200の動作を説明する。図4は、図3に示す映像復号装置200の動作を示すフローチャートである。
 図4は、復号対象映像と相関を持つ別の映像上での対応する領域において予測を行う場合の予測精度を見積り、そこから復号対象映像において同様の予測を行う場合の予測精度を見積もることで、一次予測画像の加重平均に用いる重み係数を決定する場合の処理を示している。
 ここでは符号データ中のある1フレームを復号する処理について説明する。説明する処理をフレーム毎に繰り返すことで、映像全体の復号が実現できる。
 まず、符号データ入力部201は、符号データを受け取り、符号データメモリ202に記憶する。また、付加映像入力部206は、符号化対象映像に対応する付加映像の対象付加フレームを受け取り、付加映像メモリ207に記憶する(ステップS201)。
 なお、復号対象映像中の幾つかのフレームは既に復号されているものとし、参照フレームメモリ203に記憶されているとする。また、付加映像メモリ207上には、参照フレームメモリ203に記憶されている復号フレームに対応する付加フレームも記憶されているとする。
 次に、復号対象フレームを複数の復号対象ブロックに分割し、ブロック毎に復号対象フレームの映像信号を復号する(ステップS202~S210)。以下のステップS203~S209までの処理は、当該フレームの全ての復号対象ブロックが処理されるまで、繰り返し実行される。
 復号対象ブロック毎に繰り返される処理では、まず、エントロピー復号部204は符号データをエントロピー復号して量子化データを生成し(ステップS203)、逆量子化・逆変換部205は、この量子化データに対して逆量子化・逆変換を行い、復号予測残差を生成する(ステップS204)。
 予測情報やその他の付加情報が符号データに含まれる場合は、それらも復号し、適宜必要な情報を生成しても構わない。
 次に、基本参照領域決定部208は、復号対象画像に対応する対象付加画像上の基本参照領域を決定する。
 そして、第1参照予測部209及び第2参照予測部210の各々は、付加映像メモリ207上に記憶されている参照付加画像上で基本参照領域に対する何れかの予測を行って参照予測領域を決定し、それぞれの参照予測領域に基づき、第1参照予測画像及び第2参照予測画像を生成する(ステップS205)。
 基本参照領域の決定方法は、符号化時と同一の領域を決定できるものであれば、どのような方法を用いても構わない。当該領域を示す情報を予め定めておいても構わないし、映像とともに多重化された情報があるならば利用しても構わない。また、予測方法や参照予測領域を示す情報が映像符号データと多重化されている場合は、それを利用しても構わないし、特に予測情報を用いずに符号化時と同様の予測が行えるのであれば、係る情報はなくても構わない。詳細については符号化の場合と同様である。
 次に、第1予測部211及び第2予測部212のそれぞれは、参照フレームメモリ203に記憶されている参照画像上で、第1参照予測部209及び第2参照予測部210と同様の予測処理を行って参照領域を決定し、それぞれ一つずつ一次予測画像を生成する(ステップS206)。
 ここで、予測方法や予測領域を示す情報が映像符号データと多重化されている場合はそれを利用しても構わないし、特に予測情報を用いずに符号化時と同様の予測が行えるのであれば、係る情報はなくても構わない。詳細については符号化の場合と同様であるので、ここでは詳細な説明を省略する。
 次に、重み係数設定部213は、第1参照予測画像及び第2参照予測画像を参照して、第1の一次予測画像と第2の一次予測画像とを加重平均するための小領域毎の重み係数を決定する(ステップS207)。
 小領域は符号化対象領域よりも小さい単位の領域であり、予め定められた大きさの領域でも良いし、適応的に決定される大きさの領域でも良いし、各画素を小領域としてもよい。また、重み係数の他に更にオフセット係数を決定し使用してもよい。またこのとき用いる重み係数を決定する方法を示す情報などが映像符号データと多重化されていれば、それを使用しても構わない。係る情報がなくても符号化時と同様に重み係数を生成できる場合は、なくても構わない。
 次に、加重平均部214は、それぞれ第1の一次予測画像と第2の一次予測画像から、重み係数に基づき、(最終)予測画像を生成する(ステップS208)。重み係数を使用して各一次予測画像を加重平均することで予測画像としても構わないし、更にオフセット係数を加算しても構わない。
 続いて、加算部215は予測画像と復号予測残差とを加算し、復号画像を生成する(ステップS209)。そして、ループフィルタ部216でループフィルタをかけ、参照フレームとして参照フレームメモリ203に記憶する。
 ループフィルタは必要がなければ特にかけなくても構わないが、通常の映像符号化(復号も含む)では、デブロッキングフィルタやその他のフィルタを使用して符号化ノイズを除去する。
 全てのブロックについて処理が終了したら、処理されたフレームを復号フレームとして出力する(ステップS210)。
<第2実施形態>
 次に、本発明の第2実施形態による映像符号化装置を説明する。図5は、同実施形態による映像符号化装置100aの構成を示すブロック図である。この図において、図1に示す装置と同一の部分には同一の符号を付し、その説明を省略する。
 この図に示す装置が図1に示す装置と異なる点は、図1に示す構成では第1参照予測部107及び第2参照予測部108からの出力が第1予測部109及び第2予測部110の入力となっていたが、図5に示す構成では、第1予測部109及び第2予測部110からの出力が第1参照予測部107及び第2参照予測部108の入力になっている点である。
 図5に示す第1予測部109及び第2予測部110は、記憶された参照画像上で符号化対象画像に対する2つ以上の予測領域を決定し、それぞれに基づき予測画像を生成する。
 また、図5に示す第1参照予測部107及び第2参照予測部108は、記憶された対象付加画像上で基本参照領域に対する2つ以上の参照予測領域を決定し、それぞれに基づき参照予測画像を生成する。
 次に、図6を参照して、図5に示す映像符号化装置100aの動作を説明する。図6は、図5に示す映像符号化装置100aの動作を示すフローチャートである。
 図6は、第2実施形態における重み係数設定処理として、符号化対象画像に対する予測情報に基づいて基本参照領域に対する参照予測画像を生成し、それを重み係数生成に用いる場合の処理を示している。
 図6において、図2に示す処理と同一の部分には同一の符号を付し、その説明を省略する。
 まず、ステップS101、S102は、図2に示す処理動作と同様の処理を行う。
 次に、第1予測部109及び第2予測部110は、記憶された参照画像上で符号化対象画像に対する何れかの予測を行い、それぞれ予測領域を決定し、それぞれに基づき第1一次予測画像及び第2一次予測画像を生成する(ステップS103a)。
 第1予測部109及び第2予測部110での予測方法及び参照画像及び参照領域を決定する方法は、復号側で予測情報などを使用してそれらを正しく決定して一次予測画像を生成できるなら、どのような方法でも構わない。
 第1実施形態における参照予測と同様のものでも構わないし、また別の方法でも構わない。また、この予測に必要な情報を予測情報として符号化し、映像の符号データと共に多重化しても構わない。
 次に、第1参照予測部107及び第2参照予測部108のそれぞれにおいて、付加映像メモリ105に記憶されている参照付加画像上で、第1予測部109及び第2予測部110と同様の予測処理を行って参照予測領域を決定し、それぞれ一つずつ参照予測画像を生成する(ステップS104a)。
 第1参照予測部107及び第2参照予測部108での予測方法は、第1予測部109と第2予測部110で用いたものと同一であり、参照予測画像は参照画像と対応するものであり、また、参照予測領域は参照領域と対応するものである。それらの対応関係はどのようなものでも構わない。詳細は第1実施形態と同様である。
 以下、ステップS106~S112の処理は図2に示す処理動作と同様である。
 次に、本第2実施形態における映像復号装置を説明する。図7は、同実施形態による映像復号装置200aの構成を示すブロック図である。この図において、図3に示す装置と同一の部分には同一の符号を付し、その説明を省略する。
 この図に示す装置が図3に示す装置と異なる点は、図3に示す構成では、第1参照予測部209及び第2参照予測部210の出力が第1予測部211及び第2予測部212の入力となっていたが、図7に示す構成では、第1予測部211及び第2予測部212の出力が第1参照予測部209及び第2参照予測部210の入力になっている点である。
 図7に示す第1予測部211及び第2予測部212は、記憶された参照画像上で復号対象画像に対する2つ以上の予測領域を決定し、それぞれに基づき予測画像を生成する。
 また、図7に示す第1参照予測部209及び第2参照予測部210は、記憶された対象付加画像上で基本参照領域に対する2つ以上の参照予測領域を決定し、それぞれに基づき参照予測画像を生成する。
 次に、図8を参照して、図7に示す映像復号装置200aの動作を説明する。図8は、図7に示す映像復号装置200aの動作を示すフローチャートである。
 図8は、第2実施形態における重み係数設定処理として、復号対象画像に対する予測情報に基いて基本参照領域に対する参照予測画像を生成し、それを重み係数生成に用いる場合の処理を示している。
 図8において、図4に示す処理と同一の部分には同一の符号を付し、その説明を省略する。
 まず、ステップS201からS204までは、図4に示す処理動作と同様の処理を行う。
 次に、第1予測部211及び第2予測部212は、記憶された参照画像上で符号化対象画像に対する何れかの予測を行い、それぞれ予測領域を決定し、それぞれに基づき第1一次予測画像及び第2一次予測画像を生成する(ステップS205a)。
 第1予測部211及び第2予測部212での予測方法及び参照画像及び参照領域を決定する方法は、符号化側と同様に一次予測画像を生成できるならどのような方法でも構わない。
 第1実施形態における参照予測と同様のものでも構わないし、また別の方法でも構わない。また、この予測に必要な情報が符号化されて映像の符号化データと共に多重化されている場合には、これを使用しても構わない。
 次に、第1参照予測部209及び第2参照予測部210のそれぞれにおいて、付加映像メモリ207に記憶されている参照付加画像上で、第1予測部211及び第2予測部212と同様の予測処理を行って参照予測領域を決定し、それぞれ一つずつ参照予測画像を生成する(ステップS206a)。
 第1参照予測部209及び第2参照予測部210での予測方法は、第1予測部211と第2予測部212で用いたものと同一であり、参照予測画像は参照画像と対応するものであり、また、参照予測領域は参照領域と対応するものである。それらの対応関係はどのようなものでも構わない。
 以下、ステップS207~S210の処理は第1実施形態と同様である。
 なお、前述の第1、第2実施形態では、符号化対象フレームの全ブロックについて重み係数を適用する例を説明したが、一部のブロックにのみ適用してもよい。
 また、ブロックによって第1、第2予測部における予測方法の組み合わせや重み係数の決定方法などを可変にしても構わない。その場合には、それらを示す情報を符号化して付加情報に含めてもよいし、復号側に適用可否や予測方法などを判別する機能を付け加えてもよい。その場合には、符号化ノイズや伝送エラーによって復号不能になることを防ぐためのトラブル回避機能や訂正機能を付け加えるとよい。
 また、前述した第1、第2実施形態では、主として第1、第2参照予測部と第1、第2予測部で共通の予測情報を用いる場合を説明したが、それぞれ異なる予測によって参照予測画像及び一次予測画像を生成しても構わない。
 例えば、第1、第2予測部においては通常の符号化対象映像上の動き探索などによる予測を行い、第1、第2参照予測部においては参照映像上の動き探索などによる予測を行なっても構わない。他にどのような組み合わせでも構わない。
 例えば第1、第2予測部における予測は付加映像の符号化時の予測情報を利用して実施するが、第1、第2参照予測部における予測は任意の方法で行うなどしても構わない。または、予測の際に参照するフレーム番号など一部の情報だけを共有しても構わない。
 それぞれの予測に用いる予測情報は符号化して映像の符号データと共に多重化しても構わないし、周辺ブロックの情報などから推定しても構わない。
 また、前述した第1、第2実施形態では、第1一次予測画像と第2一次予測画像との加重平均によって予測画像を生成する例を説明したが、3つ以上の一次予測画像を加重平均して予測画像を生成するようにしてもよい。
 また、その場合に使用する基本参照領域や参照予測画像の数はいくつでも構わないし、その決定方法もどのようなものでも構わないし、複数の決定方法を組み合わせても構わない。
 また、前述した第1、第2実施形態では、基本参照領域を別の映像である付加映像上に設定しているが、既に復号済みの同じ映像に基本参照領域を設定しても構わない。
 例えば、映像中に細かいテクスチャや繰り返しパターンが多く発生している場合に、同じ映像中の符号化対象画像と同じフレームあるいは異なるフレームに基本参照領域を設定し、その予測残差によって予測誤差を推定することができる場合などに適用できる。その他の場合においても、基本参照領域をどこに設定しても構わない。
 例えば多視点映像符号化において符号化対象映像と異なる視点の映像の復号済みのピクチャを参照してインター予測を行う場合に、符号化対象映像の符号化対象フレームと異なるフレーム上に基本参照領域を設定し、その予測残差によって予測誤差を推定するなどしてもよい。
 また、前述した第1、第2実施形態では、基本参照領域を一つだけ設定しているが、二つ以上の基本参照領域を設定してもよい。また、第1、第2参照予測部においてそれぞれ異なる基本参照領域に基づいて参照領域を決定してもよい。またこの場合に、一方の予測における予測領域をもう一方の基本参照領域としてもよい。例えば、一方の予測が符号化対象映像と異なる映像の復号済みのピクチャを参照する視差補償予測であり、もう一方の予測が符号化対象映像と異なるフレームの復号済みのピクチャを参照する動き補償予測である場合に、視差補償予測の予測誤差を見積もるための基本参照領域として動き補償予測における予測領域を使用するなどしてもよい。
 また、前述の第1、第2実施形態では、符号化対象映像信号中の輝度信号や色差信号を特に区別していないが、区別しても構わない。
 例えば色差信号は固定の重み係数を用いて符号化し、輝度信号の符号化時に色差信号の符号化時の予測情報や予測残差を参照して重み係数を決定しても構わないし、逆でも構わない。あるいは、それぞれの重み係数として異なるものを決定して用いても構わない。
 また、前述した第1、第2実施形態における一部の処理は、その順序が前後しても構わない。
 なお、以上説明した映像符号化装置及び映像復号装置の処理は、コンピュータとソフトウェアプログラムとによっても実現することができ、そのプログラムをコンピュータで読み取り可能な記録媒体に記録して提供することも、ネットワークを通して提供することも可能である。
 図9は、映像符号化装置をコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア図である。
 本システムは:
・プログラムを実行するCPU30
・CPU30がアクセスするプログラムやデータが格納されるRAM等のメモリ31
・カメラ等からの符号化対象の映像信号を映像符号化装置内に入力する符号化対象映像入力部32(ディスク装置などによる、映像信号を記憶する記憶部でもよい)
・図2、図6に示す処理動作をCPU30に実行させるソフトウェアプログラムである映像符号化プログラム351が格納されたプログラム記憶装置35
・CPU30がメモリ31にロードされた映像符号化プログラムを実行することにより生成された符号データを、例えばネットワークを介して出力する符号データ出力部36(ディスク装置などによる、符号データを記憶する記憶部でもよい)
 とが、バスで接続された構成になっている。
 この他に、第1、2実施形態で説明したような符号化を実現する場合に必要であれば、例えばネットワークを介して補助情報を入力する補助情報入力部33(ディスク装置などによる、補助情報信号を記憶する記憶部でもよい)をさらに接続する。
 また、図示は省略するが、他に、符号データ記憶部、参照フレーム記憶部などのハードウェアが設けられ、本手法の実施に利用される。また、映像信号符号データ記憶部、予測情報符号データ記憶部などが用いられることもある。
 図10は、映像復号装置をコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア図である。
 本システムは:
・プログラムを実行するCPU40
・CPU40がアクセスするプログラムやデータが格納されるRAM等のメモリ41
・映像符号化装置が本発明による手法により符号化した符号データを映像復号装置内に入力する符号データ入力部42(ディスク装置などによる、符号データを記憶する記憶部でもよい)
・図4、図8に示す処理動作をCPU40に実行させるソフトウェアプログラムである映像復号プログラム451が格納されたプログラム記憶装置45
・CPU40がメモリ41にロードされた映像復号プログラムを実行することにより生成された復号映像を、再生装置などに出力する復号映像出力部46
 とが、バスで接続された構成になっている。
 この他に、第1、2実施形態で説明したような復号を実現する場合に必要であれば、例えばネットワークを介して補助情報を入力する補助情報入力部43(ディスク装置などによる、補助情報信号を記憶する記憶部でもよい)をさらに接続する。
 また、図示は省略するが、他に、参照フレーム記憶部などのハードウェアが設けられ、本手法の実施に利用される。また、映像信号符号データ記憶部、予測情報符号データ記憶部などが用いられることもある。
 以上説明したように、双予測のように2つ以上の予測結果を使用する予測方法における、各予測結果である一次予測画像に対し、符号化対象と相関を持つ別の映像上または符号化対象映像上での対応する領域において、符号化対象映像と同様の予測を行う場合の予測精度を見積り、そこから符号化対象映像における予測精度を見積もることで、一次予測画像の加重平均に用いる重み係数を決定する。
 このとき:
(i) 上記対応する領域の符号化時の予測ベクトルなどの予測情報やそれらから算出される符号化時の予測画像や、その予測画像と当該領域の画像との差分など、または
(ii) 上記対応する領域に対して符号化対象映像の予測情報を用いて生成される予測画像や、その予測画像と当該領域の画像との差分画像など、
 から各予測の予測精度を見積り、その精度に基づき小領域毎に重み係数を導出して一次予測画像の加重平均をすることで、係数値を符号化することなしに高精度な予測画像を生成する。
 これによれば、重み系数値を符号化することなしに、双予測において小領域毎に加重平均を行うことで予測精度低下を回避し、高精度な予測画像を生成することが可能となる。これにより、予測残差符号化に必要な符号量を削減することができる。
 なお、図1、3、5、7における各処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより映像符号化処理、映像復号処理を行ってもよい。
 ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。
 また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
 さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
 また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
 また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。
 さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
 以上、図面を参照して本発明の実施の形態を説明してきたが、上記実施の形態は本発明の例示に過ぎず、本発明が上記実施の形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行っても良い。
 係数値を符号化することなしに高精度な予測画像を生成し、予測残差符号化に必要な符号量を削減することが望まれる用途に適用できる。
100・・・映像符号化装置
101・・・符号化対象映像入力部
102・・・入力フレームメモリ
103・・・参照フレームメモリ
104・・・付加映像入力部
105・・・付加映像メモリ
106・・・基本参照領域決定部
107・・・第1参照予測部
108・・・第2参照予測部
109・・・第1予測部
110・・・第2予測部
111・・・重み係数設定部
112・・・加重平均部
113・・・減算部
114・・・変換・量子化部
115・・・逆量子化・逆変換部
116・・・加算部
117・・・ループフィルタ部
118・・・エントロピー符号化部
200・・・映像復号装置
201・・・符号データ入力部
202・・・符号データメモリ
203・・・参照フレームメモリ
204・・・エントロピー復号部
205・・・逆量子化・逆変換部
206・・・付加映像入力部
207・・・付加映像メモリ
208・・・基本参照領域決定部
209・・・第1参照予測部
210・・・第2参照予測部
211・・・第1予測部
212・・・第2予測部
213・・・重み係数設定部
214・・・加重平均部
215・・・加算部
216・・・ループフィルタ部

Claims (19)

  1.  符号化対象映像を構成する各フレームを複数の処理領域に分割し、前記処理領域毎に予測符号化を行う際に、符号化対象画像としての各処理領域に対応づけられる基本参照領域から予測画像を生成する映像符号化装置であって、
     前記符号化対象画像に対し、前記基本参照領域に対応づけられる参照領域である第1の参照予測領域と第2の参照予測領域とを設定する参照予測領域設定手段と、
     前記第1の参照予測領域に基づく第1の参照予測画像と、前記第2の参照予測領域に基づく第2の参照予測画像とに基づき、小領域毎の重み係数を決定する重み係数設定手段と、
     前記符号化対象画像に対する参照領域である第1の予測領域と第2の予測領域を設定する予測領域設定手段と、
     前記重み係数に基づき、前記第1の予測領域に基づく第1の一次予測画像と、前記第2の予測領域に基づく第2の一次予測画像とから、前記予測画像を生成する予測画像生成手段と
     を備えることを特徴とする映像符号化装置。
  2.  前記第1の参照予測領域と第2の参照予測領域は、前記基本参照領域を符号化した際の予測情報に基づき設定することを特徴とする請求項1に記載の映像符号化装置。
  3.  前記第1の予測領域及び第2の予測領域は、前記符号化対象画像との関係が、前記第1の参照予測領域及び前記第2の参照予測領域と前記基本参照領域との間の関係と同等になるように設定することを特徴とする請求項1に記載の映像符号化装置。
  4.  前記第1の参照予測領域及び第2の参照予測領域は、前記基本参照領域との関係が、前記第1の予測領域及び前記第2の予測領域と前記符号化対象画像との間の関係と同等になるように設定することを特徴とする請求項1に記載の映像符号化装置。
  5.  映像符号化データを構成する各復号対象フレームを複数の処理領域に分割し、前記処理領域毎に復号を行う際に、復号対象画像としての各処理領域に対応づけられる基本参照領域から予測画像を生成する映像復号装置であって、
     前記復号対象画像に対し、前記基本参照領域に対応づけられる参照領域である第1の参照予測領域と第2の参照予測領域とを設定する参照予測領域設定手段と、
     前記第1の参照予測領域に基づく第1の参照予測画像と、前記第2の参照予測領域に基づく第2の参照予測画像とに基づき、小領域毎の重み係数を決定する重み係数設定手段と、
     前記復号対象画像に対する参照領域である第1の予測領域と第2の予測領域を設定する予測領域設定手段と、
     前記重み係数に基づき、前記第1の予測領域に基づく第1の一次予測画像と、前記第2の予測領域に基づく第2の一次予測画像とから、前記予測画像を生成する予測画像生成手段と
     を備えることを特徴とする映像復号装置。
  6.  前記第1の参照予測領域と第2の参照予測領域は、前記基本参照領域を復号した際の予測情報に基づき設定することを特徴とする請求項5に記載の映像復号装置。
  7.  前記第1の予測領域及び第2の予測領域は、前記復号対象画像との関係が、前記第1の参照予測領域及び前記第2の参照予測領域と前記基本参照領域との間の関係と同等になるように設定することを特徴とする請求項5に記載の映像復号装置。
  8.  前記第1の参照予測領域及び第2の参照予測領域は、前記基本参照領域との関係が、前記第1の予測領域及び前記第2の予測領域と前記復号対象画像との間の関係と同等になるように設定することを特徴とする請求項5に記載の映像復号装置。
  9.  前記基本参照領域に基づいて設定される基本参照画像と前記第1の参照予測領域に基づいて設定される第1の参照予測画像との差分、及び、前記基本参照画像と前記第2の参照予測領域に基づいて設定される第2の参照予測画像との差分を取り、第1の参照予測残差と第2の参照予測残差を生成する参照予測残差生成手段を更に有し、
     前記重み係数設定手段は、前記第1の参照予測残差と前記第2の参照予測残差に基づき前記重み係数を設定することを特徴とする請求項5に記載の映像復号装置。
  10.  前記基本参照領域は前記復号対象画像とは異なるカメラで撮影された画像上に設定することを特徴とする請求項5に記載の映像復号装置。
  11.  前記映像符号化データの復号対象が奥行き映像である場合に、前記基本参照領域は、当該奥行き映像に対応するカメラ映像の画像上に設定することを特徴とする請求項5に記載の映像復号装置。
  12.  前記第1の参照予測領域と前記第2の参照予測領域とは、互いに異なる予測方法により設定されることを特徴とする請求項5に記載の映像復号装置。
  13.  前記映像符号化データには、前記第1の参照予測領域と前記第2の参照予測領域の少なくとも一方を示す情報が多重化されていることを特徴とする請求項5に記載の映像復号装置。
  14.  前記映像符号化データには、前記第1の参照予測領域と前記第2の参照予測領域の設定に用いる少なくとも1つの予測方法を示す情報が多重化されていることを特徴とする請求項5に記載の映像復号装置。
  15.  前記小領域は、画素であることを特徴とする請求項5に記載の映像復号装置。
  16.  符号化対象映像を構成する各フレームを複数の処理領域に分割し、前記処理領域毎に予測符号化を行う際に、符号化対象画像としての各処理領域に対応づけられる基本参照領域から予測画像を生成する映像符号化方法であって、
     前記符号化対象画像に対し、前記基本参照領域に対応づけられる参照領域である第1の参照予測領域と第2の参照予測領域とを設定する参照予測領域設定ステップと、
     前記第1の参照予測領域に基づく第1の参照予測画像と、前記第2の参照予測領域に基づく第2の参照予測画像とに基づき、小領域毎の重み係数を決定する重み係数設定ステップと、
     前記符号化対象画像に対する参照領域である第1の予測領域と第2の予測領域を設定する予測領域設定ステップと、
     前記重み係数に基づき、前記第1の予測領域に基づく第1の一次予測画像と、前記第2の予測領域に基づく第2の一次予測画像とから、前記予測画像を生成する予測画像生成ステップと
     を備えることを特徴とする映像符号化方法。
  17.  映像符号化データを構成する各復号対象フレームを複数の処理領域に分割し、前記処理領域毎に復号を行う際に、復号対象画像としての各処理領域に対応づけられる基本参照領域から予測画像を生成する映像復号方法であって、
     前記復号対象画像に対し、前記基本参照領域に対応づけられる参照領域である第1の参照予測領域と第2の参照予測領域とを設定する参照予測領域設定ステップと、
     前記第1の参照予測領域に基づく第1の参照予測画像と、前記第2の参照予測領域に基づく第2の参照予測画像とに基づき、小領域毎の重み係数を決定する重み係数設定ステップと、
     前記復号対象画像に対する参照領域である第1の予測領域と第2の予測領域を設定する予測領域設定ステップと、
     前記重み係数に基づき、前記第1の予測領域に基づく第1の一次予測画像と、前記第2の予測領域に基づく第2の一次予測画像とから、前記予測画像を生成する予測画像生成ステップと
     を備えることを特徴とする映像復号方法。
  18.  請求項16に記載の映像符号化方法をコンピュータに実行させるための映像符号化プログラム。
  19.  請求項17に記載の映像復号方法をコンピュータに実行させるための映像復号プログラム。
PCT/JP2013/084689 2012-12-28 2013-12-25 映像符号化装置および方法、映像復号装置および方法、及びそれらのプログラム WO2014104104A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2014554497A JP5894301B2 (ja) 2012-12-28 2013-12-25 映像符号化装置および方法、映像復号装置および方法、及びそれらのプログラム
US14/654,976 US20150358644A1 (en) 2012-12-28 2013-12-25 Video encoding apparatus and method, video decoding apparatus and method, and programs therefor
CN201380068047.5A CN104885462A (zh) 2012-12-28 2013-12-25 视频编码装置和方法、视频解码装置和方法、以及其程序
KR1020157013489A KR20150079742A (ko) 2012-12-28 2013-12-25 영상 부호화 장치 및 방법, 영상 복호 장치 및 방법, 및 그 프로그램

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012-287927 2012-12-28
JP2012287927 2012-12-28

Publications (1)

Publication Number Publication Date
WO2014104104A1 true WO2014104104A1 (ja) 2014-07-03

Family

ID=51021182

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/084689 WO2014104104A1 (ja) 2012-12-28 2013-12-25 映像符号化装置および方法、映像復号装置および方法、及びそれらのプログラム

Country Status (5)

Country Link
US (1) US20150358644A1 (ja)
JP (1) JP5894301B2 (ja)
KR (1) KR20150079742A (ja)
CN (1) CN104885462A (ja)
WO (1) WO2014104104A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016078511A1 (en) * 2014-11-18 2016-05-26 Mediatek Inc. Method of bi-prediction video coding based on motion vectors from uni-prediction and merge candidate

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115442614A (zh) * 2016-01-27 2022-12-06 韩国电子通信研究院 通过使用预测对视频进行编码和解码的方法和装置
CN109716763A (zh) * 2016-09-26 2019-05-03 索尼公司 编码设备、编码方法、解码设备、解码方法、发送设备和接收设备
CN116886930A (zh) * 2016-11-28 2023-10-13 韩国电子通信研究院 对图像编码/解码的方法和设备及存储比特流的记录介质
US20180332298A1 (en) * 2017-05-10 2018-11-15 Futurewei Technologies, Inc. Bidirectional Prediction In Video Compression

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008535310A (ja) * 2005-03-25 2008-08-28 サムスン エレクトロニクス カンパニー リミテッド 加重予測を利用したビデオコーディングおよびデコーディング方法、このための装置
WO2009005071A1 (ja) * 2007-07-02 2009-01-08 Nippon Telegraph And Telephone Corporation 動画像スケーラブル符号化方法及び復号方法、それらの装置、それらのプログラム並びにプログラムを記録した記録媒体
JP2009502099A (ja) * 2005-07-21 2009-01-22 トムソン ライセンシング スケーラブルビデオコーディングのための重み付け予測方法及び装置
WO2009054347A1 (ja) * 2007-10-25 2009-04-30 Nippon Telegraph And Telephone Corporation 動画像スケーラブル符号化方法及び復号方法、それらの装置、それらのプログラム並びにプログラムを記録した記録媒体

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1183769C (zh) * 1996-05-28 2005-01-05 松下电器产业株式会社 图像预测编码/解码装置和方法以及记录媒体
CA2582664C (en) * 2001-09-12 2012-04-24 Matsushita Electric Industrial Co., Ltd. Picture coding method and picture decoding method
TW200806040A (en) * 2006-01-05 2008-01-16 Nippon Telegraph & Telephone Video encoding method and decoding method, apparatuses therefor, programs therefor, and storage media for storing the programs
WO2011128259A1 (en) * 2010-04-13 2011-10-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. A video decoder and a video encoder using motion-compensated prediction
WO2014047885A1 (en) * 2012-09-28 2014-04-03 Intel Corporation Enhanced reference region utilization for scalable video coding

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008535310A (ja) * 2005-03-25 2008-08-28 サムスン エレクトロニクス カンパニー リミテッド 加重予測を利用したビデオコーディングおよびデコーディング方法、このための装置
JP2009502099A (ja) * 2005-07-21 2009-01-22 トムソン ライセンシング スケーラブルビデオコーディングのための重み付け予測方法及び装置
WO2009005071A1 (ja) * 2007-07-02 2009-01-08 Nippon Telegraph And Telephone Corporation 動画像スケーラブル符号化方法及び復号方法、それらの装置、それらのプログラム並びにプログラムを記録した記録媒体
WO2009054347A1 (ja) * 2007-10-25 2009-04-30 Nippon Telegraph And Telephone Corporation 動画像スケーラブル符号化方法及び復号方法、それらの装置、それらのプログラム並びにプログラムを記録した記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016078511A1 (en) * 2014-11-18 2016-05-26 Mediatek Inc. Method of bi-prediction video coding based on motion vectors from uni-prediction and merge candidate
US10182240B2 (en) 2014-11-18 2019-01-15 Mediatek Inc. Method of bi-prediction video coding based on motion vectors from uni-prediction and merge candidate

Also Published As

Publication number Publication date
US20150358644A1 (en) 2015-12-10
CN104885462A (zh) 2015-09-02
JPWO2014104104A1 (ja) 2017-01-12
JP5894301B2 (ja) 2016-03-23
KR20150079742A (ko) 2015-07-08

Similar Documents

Publication Publication Date Title
JP5197591B2 (ja) 映像符号化方法及び復号方法、それらの装置、それらのプログラム並びにプログラムを記録した記録媒体
JP5902814B2 (ja) 映像符号化方法および装置、映像復号方法および装置、及びそれらのプログラム
KR101631183B1 (ko) 다시점 화상 부호화 방법, 다시점 화상 복호 방법, 다시점 화상 부호화 장치, 다시점 화상 복호 장치 및 그 프로그램
JP5894301B2 (ja) 映像符号化装置および方法、映像復号装置および方法、及びそれらのプログラム
WO2014156648A1 (ja) 複数の入力画像をエンコーディングする方法、プログラムを格納する記憶媒体および装置
KR20140124919A (ko) 객체 기반 적응적 밝기 보상 방법 및 장치
JP5952733B2 (ja) 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム、映像復号プログラム及び記録媒体
JP6386466B2 (ja) 映像符号化装置及び方法、及び、映像復号装置及び方法
JP2015128252A (ja) 予測画像生成方法、予測画像生成装置、予測画像生成プログラム及び記録媒体
JP5894338B2 (ja) 映像符号化装置及び方法、映像復号装置及び方法、及びそれらのプログラム
KR101407719B1 (ko) 가변적 화면 그룹 예측 구조를 이용한 다시점 영상 부호화방법 및 장치, 영상 복호화 장치 그리고 상기 방법을수행하는 프로그램이 기록된 기록 매체
US20160057414A1 (en) Method for encoding a plurality of input images, and storage medium having program stored thereon and apparatus
JP6306883B2 (ja) 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム、映像復号プログラム及び記録媒体
US10972751B2 (en) Video encoding apparatus and method, and video decoding apparatus and method
KR20140124045A (ko) 객체 기반 적응적 밝기 보상 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13868556

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014554497

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 20157013489

Country of ref document: KR

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14654976

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13868556

Country of ref document: EP

Kind code of ref document: A1