WO2014168238A1 - 映像符号化装置及び方法、映像復号装置及び方法、及びそれらのプログラム - Google Patents

映像符号化装置及び方法、映像復号装置及び方法、及びそれらのプログラム Download PDF

Info

Publication number
WO2014168238A1
WO2014168238A1 PCT/JP2014/060489 JP2014060489W WO2014168238A1 WO 2014168238 A1 WO2014168238 A1 WO 2014168238A1 JP 2014060489 W JP2014060489 W JP 2014060489W WO 2014168238 A1 WO2014168238 A1 WO 2014168238A1
Authority
WO
WIPO (PCT)
Prior art keywords
prediction
inter
predicted image
reference information
information
Prior art date
Application number
PCT/JP2014/060489
Other languages
English (en)
French (fr)
Inventor
志織 杉本
信哉 志水
木全 英明
明 小島
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to KR1020157024544A priority Critical patent/KR101761331B1/ko
Priority to CN201480019701.8A priority patent/CN105052148B/zh
Priority to JP2015511315A priority patent/JP5894338B2/ja
Priority to US14/783,355 priority patent/US20160073125A1/en
Publication of WO2014168238A1 publication Critical patent/WO2014168238A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/573Motion compensation with multiple frame prediction using two or more reference frames in a given prediction direction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/65Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using error resilience

Definitions

  • the present invention relates to a video encoding device, a video decoding device, a video encoding method, a video decoding method, a video encoding program, and a video decoding program, and more particularly to inter-screen predictive encoding and decoding in the time direction and the parallax direction.
  • each frame of a video is divided into a plurality of processing unit blocks using spatial / temporal continuity of the subject, and the video signal is spatially / temporally divided for each block.
  • the prediction information indicating the prediction method and the prediction residual signal By encoding the prediction information indicating the prediction method and the prediction residual signal, the encoding efficiency is greatly improved as compared with the case where the video signal itself is encoded.
  • Inter-frame (inter-screen) prediction for predicting the encoding target signal based on compensation or the like is performed.
  • Multi-view video encoding is to encode a plurality of videos obtained by photographing the same scene with a plurality of cameras with high efficiency by using redundancy between the videos.
  • Multi-view video coding is detailed in Non-Patent Document 1.
  • an encoding target signal is predicted based on parallax compensation with reference to a video of another viewpoint that has already been encoded.
  • Inter-view prediction and inter-frame prediction are used to predict a signal to be encoded, and the residual signal is predicted with reference to a residual signal at the time of encoding a video of another viewpoint that has already been encoded.
  • a method such as prediction is used.
  • Inter-view prediction is treated as inter prediction together with inter-frame prediction in multi-view video coding such as MVC, and two or more predicted images can be interpolated into a predicted image in a B picture.
  • MVC multi-view video coding
  • prediction by both of them can be performed.
  • the motion-compensated prediction and the parallax-compensated prediction have different error properties, and depending on the sequence properties (of the image signal), it is difficult to obtain an effect of canceling errors from each other compared to the case of performing only inter-frame prediction.
  • Such errors include, for example, those due to deformation of the subject or motion blur in motion compensation prediction, and those due to differences in camera properties or occurrence of occlusion in parallax compensation prediction.
  • a prediction method with higher accuracy is selected in a biased manner, and prediction using both is rarely used. For this reason, for example, in a B picture of a type capable of forward prediction and inter-view prediction, although prediction using both is structurally possible, only unidirectional prediction is actually used. There is a problem that a sufficient effect may not be obtained for reduction of the residual.
  • the present invention has been made in view of such circumstances, and a video encoding device, a video decoding device, and a video code capable of reducing a prediction residual and reducing a code amount necessary for prediction residual encoding. It is an object to provide an encoding method, a video decoding method, a video encoding program, and a video decoding program.
  • the present invention is a video encoding device that performs inter-frame prediction in the temporal direction and the parallax direction, generates a predicted image with corrected errors, and predictively encodes a video to be encoded
  • a prediction unit that predicts an encoding target image using an already decoded image as a reference picture in each of the temporal direction and the parallax direction, and determines inter-frame reference information and inter-view reference information indicating each reference destination;
  • Primary predicted image generation means for generating a parallax prediction image from the inter-view reference information and generating a motion prediction image from the inter-frame reference information;
  • Corrected predicted image generation means for generating a corrected predicted image from the inter-viewpoint reference information and the interframe reference information;
  • a video encoding device comprising: a predicted image generation unit configured to generate the predicted image from the parallax predicted image, the motion predicted image, and the corrected predicted image.
  • the predicted image generation unit adds the motion predicted image and the parallax predicted image, and subtracts the corrected predicted image from the motion predicted image to generate the predicted image.
  • the inter-view reference information and the inter-frame reference information include information for specifying the reference picture
  • the corrected predicted image generation means refers to a reference picture of the same frame as the reference picture indicated by the interframe reference information as a corrected reference picture among reference pictures of the same viewpoint as the reference picture indicated by the interview reference information. To generate the corrected predicted image.
  • the inter-view reference information and the inter-frame reference information further include information for specifying a reference position on the reference picture
  • the corrected predicted image generation unit may determine a reference position on the corrected reference picture based on the inter-frame reference information and the inter-view reference information, and generate the corrected predicted image.
  • the information processing apparatus further includes prediction information encoding means for encoding information specifying the inter-view reference information and the inter-frame reference information as prediction information.
  • the prediction unit may generate one of the inter-view reference information and the inter-frame reference information based on prediction information at the time of encoding of a reference destination indicated by the other reference information.
  • the present invention is a video decoding device that performs inter-screen prediction in the temporal direction and the parallax direction, generates a prediction image in which an error is corrected, and decodes code data that has been predictively encoded,
  • a prediction unit that predicts a decoding target image using an image that has already been decoded in each of the time direction and the parallax direction as a reference picture, and determines inter-frame reference information and inter-view reference information indicating each reference destination;
  • Primary predicted image generation means for generating a parallax prediction image from the inter-view reference information and generating a motion prediction image from the inter-frame reference information;
  • Corrected predicted image generation means for generating a corrected predicted image from the inter-viewpoint reference information and the interframe reference information;
  • a video decoding device comprising: predicted image generation means for generating a predicted image from a parallax predicted image, a motion predicted image, and a corrected predicted image.
  • the predicted image generating means adds the motion predicted image and the parallax predicted image, and subtracts the corrected predicted image from the motion predicted image to generate the predicted image.
  • the inter-view reference information and the inter-frame reference information include information for specifying the reference picture
  • the corrected predicted image generation means refers to a reference picture of the same frame as the reference picture indicated by the interframe reference information as a corrected reference picture among reference pictures of the same viewpoint as the reference picture indicated by the interview reference information. To generate the corrected predicted image.
  • the inter-view reference information and the inter-frame reference information further include information for specifying a reference position on the reference picture
  • the corrected predicted image generation means may determine a reference position on the corrected picture based on the inter-frame reference information and the inter-view reference information, and generate the corrected predicted image.
  • the apparatus further includes prediction information decoding means for decoding prediction information from the code data and generating prediction information for specifying the interframe reference information and the inter-view reference information,
  • the prediction means determines the inter-frame reference information and the inter-view reference information based on the generated prediction information.
  • the prediction means decodes one of the inter-view reference information and the inter-frame reference information from the code data, and the other reference information is prediction information at the time of decoding of a reference destination indicated by the decoded reference information You may make it produce
  • the present invention is also a video encoding method performed by a video encoding device that performs inter-frame prediction in the temporal direction and the parallax direction, generates a prediction image with corrected errors, and predictively encodes a video to be encoded,
  • a video encoding method comprising: a predicted image generation step of generating the predicted image from the parallax predicted image, the motion predicted image, and the corrected predicted image.
  • the present invention is also a video decoding method performed by a video decoding device that performs inter-screen prediction in the temporal direction and the parallax direction, generates a prediction image with corrected errors, and decodes code data that has been predictively encoded,
  • a video decoding method comprising a predicted image generation step of generating a predicted image from a parallax predicted image, a motion predicted image, and a corrected predicted image.
  • the present invention also provides a video encoding program for causing a computer to execute the above video encoding method.
  • the present invention also provides a video encoding program for causing a computer to execute the video decoding method.
  • FIG. 2 is a hardware diagram when the video encoding device 100 shown in FIG. 1 is configured by a computer and a software program.
  • FIG. 4 is a hardware diagram when the video decoding apparatus 200 shown in FIG. 3 is configured by a computer and a software program.
  • FIG. 1 is a block diagram showing a configuration of a video encoding apparatus according to the embodiment. As shown in FIG. 1
  • the video encoding device 100 includes an encoding target video input unit 101, an input image memory 102, a reference picture memory 103, a prediction unit 104, a primary prediction image generation unit 105, a corrected prediction image generation unit 106, The prediction image generation unit 107, the subtraction unit 108, the transform / quantization unit 109, the inverse quantization / inverse transform unit 110, the addition unit 111, and the entropy encoding unit 112 are provided.
  • the encoding target video input unit 101 inputs a video to be encoded to the video encoding device 100.
  • the video to be encoded is referred to as an encoding target video
  • a frame to be processed in particular is referred to as an encoding target frame or an encoding target image.
  • the input image memory 102 stores the input encoding target video.
  • the reference picture memory 103 stores images that have been encoded and decoded so far.
  • this stored frame is referred to as a reference frame or a reference picture.
  • the prediction unit 104 performs prediction in both the parallax direction and the temporal direction with respect to the encoding target image on the reference picture stored in the reference picture memory 103, and generates prediction information.
  • the primary predicted image generation unit 105 generates a motion predicted image and a parallax predicted image based on the prediction information.
  • the corrected predicted image generation unit 106 determines a corrected reference picture and a corrected reference destination in the picture based on the prediction information, and generates a corrected predicted image.
  • the predicted image generation unit 107 generates a predicted image from the motion predicted image, the parallax predicted image, and the corrected predicted image.
  • the subtraction unit 108 obtains a difference value between the encoding target image and the predicted image, and generates a prediction residual.
  • the transform / quantization unit 109 transforms / quantizes the generated prediction residual to generate quantized data.
  • the inverse quantization / inverse transform unit 110 performs inverse quantization / inverse transform on the generated quantized data to generate a decoded prediction residual.
  • the adding unit 111 adds the decoded prediction residual and the predicted image to generate a decoded image.
  • the entropy encoding unit 112 entropy encodes the quantized data to generate code data.
  • FIG. 2 is a flowchart showing the processing operation of the video encoding apparatus 100 shown in FIG.
  • the encoding target video is one video of the multi-view video
  • the multi-view video has a structure in which video of all viewpoints is encoded and decoded for each frame.
  • a process for encoding one frame in the video to be encoded will be described. By repeating the processing described for each frame, video encoding can be realized.
  • the encoding target video input unit 101 inputs an encoding target frame to the video encoding device 100 and stores it in the input image memory 102 (step S101). It is assumed that some frames in the encoding target video have already been encoded and the decoded frames are stored in the reference picture memory 103. In addition, it is assumed that the video of another viewpoint that can be referred to up to the same frame as the encoding target frame is already encoded and decoded and stored in the input image memory 102.
  • the encoding target frame is divided into encoding target blocks, and the video signal of the encoding target frame is encoded for each block (steps S102 to S111).
  • the following steps S103 to S110 are repeatedly executed for all blocks in the frame.
  • the prediction unit 104 performs both prediction of motion prediction that refers to a reference picture of a different frame for the encoding target block and parallax prediction that refers to a reference picture of a different viewpoint. To generate prediction information. Then, the primary prediction image generation unit 105 generates a motion prediction image and a parallax prediction image based on the generated prediction information (step S103).
  • prediction and prediction information generation may be performed in any manner, and any information may be set as the prediction information.
  • prediction information includes inter-view reference information (in the case of disparity prediction) and inter-frame reference information (in the case of motion prediction) consisting of an index for identifying a reference picture and a vector indicating a reference destination on the reference picture.
  • inter-view reference information in the case of disparity prediction
  • inter-frame reference information in the case of motion prediction
  • the parallax prediction and the motion prediction may be performed independently, or one of them may be performed first, or may be performed alternately.
  • a combination of reference pictures may be determined in advance, and predictions may be performed independently based on the combinations, or may be performed in order. For example, it may be determined in advance that the parallax prediction reference picture is always the 0th viewpoint picture, and the motion prediction reference picture is always the first frame.
  • information specifying the combination may be encoded and multiplexed with the video code data, or may not be encoded as long as the same combination can be specified on the decoding side.
  • all combinations may be enforced and evaluated, or may be optimized together, repeatedly tentatively determining one and searching the other, etc. You may use the method.
  • the prediction accuracy of each prediction image may be evaluated separately, or the accuracy of an image obtained by mixing both prediction images may be evaluated. Or you may evaluate the precision of the final prediction image also including the correction
  • the prediction information may be encoded and multiplexed with the video code data, or may not be encoded if it can be derived from the surrounding prediction information or its own residual prediction information as described above.
  • prediction information may be predicted and the residual may be encoded.
  • the prediction information is composed of inter-view reference information and inter-frame reference information, both may be encoded if necessary, or may not be encoded if they can be determined according to a predetermined rule. For example, a method of encoding either one and generating the other prediction information based on the prediction information when the reference destination area indicated by the encoded information is encoded can be applied.
  • the corrected predicted image generation unit 106 determines a corrected reference picture and a correction reference destination in the picture based on the prediction information, and generates a corrected predicted image (step S104). After generating the corrected predicted image, the predicted image generation unit 107 generates a predicted image from the motion predicted image, the parallax predicted image, and the corrected predicted image (step S105).
  • each prediction error in motion prediction between a reference picture of a frame to be encoded and a reference picture of a different frame and parallax prediction between a reference picture of a view to be encoded and a different viewpoint is calculated using another reference picture. It is used to correct.
  • a picture referred to in motion prediction is referred to as a reference frame picture
  • a picture referred to in parallax prediction is referred to as a reference viewpoint picture
  • a picture referred to in corrected prediction is referred to as a corrected reference picture. Details of the correction prediction will be described later.
  • the subtraction unit 108 takes the difference between the predicted image and the encoding target block, and generates a prediction residual (step S106).
  • the prediction residual is generated after generating the final prediction image, but the prediction residual may be generated in the following manner: (I) generating a prediction value of each prediction residual (also referred to as “prediction prediction residual”) from the corrected prediction image and the prediction image of motion and parallax prediction; (Ii) taking a difference between the prediction image of motion and parallax prediction and the encoding target block to generate a motion and parallax prediction residual; (Iii) Based on the prediction value of the prediction residual, a prediction residual is generated in a form in which the motion and the parallax prediction residual are updated.
  • prediction prediction residual also referred to as “prediction prediction residual”
  • the transform / quantization unit 109 transforms / quantizes the prediction residual and generates quantized data (step S107).
  • any method may be used as long as it can be correctly inverse-quantized / inverse-transformed on the decoding side.
  • the inverse quantization / inverse transform unit 110 performs inverse quantization / inverse transform on the quantized data to generate a decoded prediction residual (step S108).
  • the adding unit 111 when the generation of the decoded prediction residual is completed, the adding unit 111 generates a decoded image by adding the decoded prediction residual and the predicted image, and stores the decoded image in the reference picture memory 103 (step S109).
  • a prediction value of the prediction residual is generated, and a primary prediction residual that is a difference between the primary prediction image and the encoding target block is generated by updating the primary prediction residual based on the prediction value. It doesn't matter.
  • a loop filter may be applied to the decoded image. In normal video coding, coding noise is removed using a deblocking filter or other filters.
  • the entropy encoding unit 112 generates encoded data by entropy encoding the quantized data, and if necessary, encodes prediction information, residual prediction information, and other additional information, and multiplexes with the encoded data.
  • code data is output (step S110).
  • FIG. 3 is a block diagram showing a configuration of a video decoding apparatus according to an embodiment of the present invention.
  • the video decoding apparatus 200 includes a code data input unit 201, a code data memory 202, a reference picture memory 203, an entropy decoding unit 204, an inverse quantization / inverse transform unit 205, a primary prediction image generation unit 206, A corrected predicted image generation unit 207, a predicted image generation unit 208, and an addition unit 209 are provided.
  • the code data input unit 201 inputs video code data to be decoded to the video decoding apparatus 200.
  • This video code data to be decoded is called decoding target video code data, and a frame to be processed in particular is called a decoding target frame or a decoding target image.
  • the code data memory 202 stores the input decoding target video.
  • the reference picture memory 203 stores an already decoded image.
  • the entropy decoding unit 204 entropy-decodes the code data of the decoding target frame to generate quantized data, and the inverse quantization / inverse transform unit 205 performs inverse quantization / inverse transformation on the quantized data to obtain a decoded prediction residual. Is generated.
  • the primary predicted image generation unit 206 generates a motion predicted image and a parallax predicted image.
  • the corrected predicted image generation unit 207 determines a corrected reference picture and a correction reference destination in the picture, and generates a corrected predicted image.
  • the predicted image generation unit 208 generates a predicted image from the motion predicted image, the parallax predicted image, and the corrected predicted image.
  • the adding unit 209 adds the decoded prediction residual and the predicted image to generate a decoded image.
  • FIG. 4 is a flowchart showing the processing operation of the video decoding apparatus 200 shown in FIG.
  • the decoding target video is one of the multi-view videos
  • the multi-view video has a structure in which videos of all viewpoints are decoded one by one for each frame.
  • a process for decoding one frame in the code data will be described. By repeating the processing described for each frame, video decoding can be realized.
  • the code data input unit 201 inputs code data to the video decoding apparatus 200 and stores the code data in the code data memory 202 (step S201). It is assumed that some frames in the video to be decoded have already been decoded and the decoded frames are stored in the reference picture memory 203. In addition, it is assumed that a video of another viewpoint that can be referred to up to the same frame as the decoding target frame is also decoded and decoded and stored in the reference picture memory 203.
  • the decoding target frame is divided into decoding target blocks, and the video signal of the decoding target frame is decoded for each block (steps S202 to S209).
  • the following steps S203 to S208 are repeatedly executed for all blocks in the frame.
  • the entropy decoding unit 204 performs entropy decoding on the code data (step S203). Then, the inverse quantization / inverse transform unit 205 performs inverse quantization / inverse transformation to generate a decoded prediction residual (step S204). When the prediction data and other additional information are included in the code data, they may be decoded to generate necessary information as appropriate.
  • the primary predicted image generation unit 206 generates a motion predicted image and a parallax predicted image (step S205).
  • the prediction image may be generated by using (decoding) the information, and the surrounding prediction information as described above. Or encoded information may be omitted if it can be derived from its own residual prediction information or the like. Further, when the other prediction information can be derived from one prediction information, information obtained by encoding only one prediction information may be used. Further, when the prediction residual of the prediction information is encoded, the prediction information may be predicted by decoding and using it. Detailed processing operations are the same as those of the encoding apparatus.
  • the corrected predicted image generation unit 207 determines a corrected reference picture and a correction reference destination in the picture based on the prediction information, and generates a corrected predicted image (step S206).
  • the predicted image generation unit 208 After generating the corrected predicted image, the predicted image generation unit 208 generates a predicted image from the motion predicted image, the parallax predicted image, and the corrected predicted image (step S207).
  • Detailed processing operations are the same as those of the encoding apparatus.
  • the prediction residual is generated after the final predicted image is generated, but the prediction value of each prediction residual (predicted prediction residual) from the corrected predicted image and the predicted image of motion and parallax prediction.
  • the prediction residual may be generated by updating the decoded prediction residual based on this.
  • the adding unit 209 adds the decoded prediction residual and the predicted image, generates a decoded image, stores the decoded image in the reference picture memory, and performs the decoding when the processing is completed for all the blocks.
  • An image is output (step S208). If necessary, a loop filter may be applied to the decoded image. In normal video decoding, a coding noise is removed using a deblocking filter or other filters.
  • FIG. 5 is a diagram illustrating the concept of corrected prediction.
  • a picture referred to in motion prediction is referred to as a reference frame picture
  • a picture referred to in parallax prediction is referred to as a reference viewpoint picture
  • a picture referred to in corrected prediction is referred to as a corrected reference picture.
  • FIG. 5 shows an example in which a picture belonging to the same frame as the reference frame picture and having the same viewpoint as the reference viewpoint picture is used as the reference picture.
  • predicted from the coding target block a in the picture to be coded A it generates a motion prediction image PI M, stores pictures including the picture as the reference frame picture B.
  • predicting the coding target block a in the encoding target picture A generates a parallax prediction image PI D, stores the picture including the image as a reference view picture C.
  • a corrected prediction image PI C and a motion prediction image PI M and parallax prediction image PI D stores the picture including the image as the correction reference picture D.
  • averaging unit 10 which is referred to as primary predicted image e.
  • an average of the predicted parallax prediction residual PPR D and the predicted motion prediction residual PPR M is obtained by the averaging unit 40, and this is set as the predicted prediction residual f.
  • the primary predicted image e and the predicted prediction residual f are added by the adder 50 to generate a predicted image PI.
  • the prediction information includes inter-view reference information and inter-frame reference information
  • the predicted image generation by using the corrected prediction image PI C and the motion prediction image PI M, predicts the prediction error for the encoding target blocks of the parallax prediction image PI D, the corrected prediction image PI C and parallax prediction image PI D used to predict the prediction error for the encoding target blocks of the motion prediction image PI M, to generate the final predictive image upon adding the error for each of the motion predicted image and the parallax prediction image.
  • the prediction error of the predicted motion prediction is referred to as a predicted motion prediction residual (above PPR M )
  • the prediction residual of the predicted disparity prediction is referred to as a predicted disparity prediction residual (above PPR D ). Any prediction method may be used, but in FIG.
  • the prediction (motion / disparity) prediction residual is determined by the difference between the corrected predicted image and each predicted image.
  • the predicted motion prediction residual PPR M and the predicted parallax prediction residual PPR D are expressed by the following equations.
  • PPR M PI D -PI C
  • PPR D PI M -PI C
  • the difference between the prediction image of each of motion and parallax and the encoding target block is a primary prediction residual, and conceptually, the corresponding prediction prediction residual is subtracted from each primary prediction residual and the prediction residual of the encoding target.
  • the code amount of the prediction residual can be reduced.
  • the final prediction image PI is expressed by the following equation. In this way, the final prediction image may be directly generated using the above formula without generating the prediction prediction residual.
  • the predicted image before correction is an average value of the predicted images in both directions, but any other weighting may be used to generate the predicted image and perform correction with the weight added.
  • the prediction prediction residual may be separately weighted. For example, when one prediction is inferior in accuracy to the other prediction, a weight corresponding to the accuracy may be given.
  • the accuracy of the parallax prediction image PI D will be described how to lower when weighting compared to the motion prediction image PI M in the above example.
  • the weight for the parallax-compensated predicted image is W
  • the final predicted image PI can be expressed by the following equation.
  • W may be determined in any way.
  • 1 is set when the accuracy of the parallax compensation prediction is good
  • 1/2 is set when the accuracy is not good
  • 0 is set when the accuracy is extremely low or there is no usable parallax vector. There is a case.
  • the order of some processes shown in FIGS. 2 and 4 may be changed.
  • the processing of the video encoding device and the video decoding device described above can also be realized by a computer and a software program, and the program can be recorded on a computer-readable recording medium and provided. It is also possible to provide through.
  • FIG. 6 is a hardware diagram in the case where the video encoding apparatus 100 described above is configured by a computer and a software program.
  • the system A CPU 30 for executing the program and a memory 31 such as a RAM for storing the program and data accessed by the CPU 30
  • An encoding target video input unit 32 that inputs a video signal to be encoded from a camera or the like into the video encoding device (may be a storage unit that stores a video signal from a disk device or the like)
  • a program storage device 33 that stores a video encoding program 331 that is a software program that causes the CPU 30 to execute the processing operation shown in FIG.
  • a code data output unit 34 that outputs code data generated by the CPU 30 executing the video encoding program loaded in the memory 31 via, for example, a network (also a storage unit that stores code data by a disk device or the like) Good) Are connected by a bus.
  • a network also a storage unit that stores code data by a disk device or the like
  • Good are connected by a bus.
  • other hardware such as a code data storage unit and a reference frame storage unit is provided and used to implement this method.
  • a video signal code data storage unit, a prediction information code data storage unit, and the like may be used.
  • FIG. 7 is a hardware diagram when the above-described video decoding apparatus 200 is configured by a computer and a software program.
  • the system CPU 40 that executes the program
  • a memory 41 such as a RAM in which programs and data accessed by the CPU 40 are stored
  • a code data input unit 42 for inputting code data encoded by the video encoding device according to the present method into the video decoding device (may be a storage unit for storing code data by a disk device or the like)
  • a program storage device 43 that stores a video decoding program 431 that is a software program that causes the CPU 40 to execute the processing operation shown in FIG.
  • a decoded video output unit 44 that outputs the decoded video generated by the CPU 40 executing the video decoding program loaded in the memory 41 to a playback device or the like.
  • other hardware such as a reference frame storage unit is provided and used to implement this method.
  • a video signal code data storage unit, a prediction information code data storage unit, and the like may be used.
  • the prediction residual can be reduced by newly performing the corrected prediction for correcting the prediction error of both predictions, and the code amount necessary for the prediction residual encoding can be reduced.
  • the video encoding device shown in FIG. 1 and the video decoding device shown in FIG. 3 in the above-described embodiment may be realized by a computer.
  • the program for realizing the corresponding function may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read into the computer system and executed.
  • the “computer system” includes an OS and hardware such as peripheral devices.
  • the “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM or a CD-ROM, and a hard disk incorporated in a computer system.
  • the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line.
  • a volatile memory inside a computer system serving as a server or a client in that case may be included and a program held for a certain period of time.
  • the program may be for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in the computer system. It may be realized using hardware such as PLD (Programmable Logic Device) or FPGA (Field Programmable Gate Array).

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

 時間方向及び視差方向の画面間予測を行い、誤差を補正した予測画像を生成して符号化対象映像を予測符号化する装置。前記時間方向及び前記視差方向のそれぞれにおいて既に復号済みの画像を参照ピクチャとして符号化対象画像を予測し、それぞれの参照先を示すフレーム間参照情報と視点間参照情報を決定し、それぞれの情報から視差予測画像および動き予測画像を生成し、前記視点間参照情報と前記フレーム間参照情報から補正予測画像を生成し、前記視差予測画像と、前記動き予測画像と、前記補正予測画像とから前記予測画像を生成する。

Description

映像符号化装置及び方法、映像復号装置及び方法、及びそれらのプログラム
 本発明は、映像符号化装置、映像復号装置、映像符号化方法、映像復号方法、映像符号化プログラム、及び映像復号プログラムに関し、特に時間方向及び視差方向の画面間予測符号化及び復号に関する。
 一般的な映像符号化では、被写体の空間的/時間的な連続性を利用して、映像の各フレームを複数の処理単位ブロックに分割し、ブロック毎にその映像信号を空間的/時間的に予測し、その予測方法を示す予測情報と予測残差信号とを符号化することで、映像信号そのものを符号化する場合に比べて大幅な符号化効率の向上を図っている。また、一般的な二次元映像符号化では、同じフレーム内の既に符号化済みのブロックを参照して符号化対象信号を予測するイントラ予測と、既に符号化済みの他のフレームを参照して動き補償などに基づき符号化対象信号を予測するフレーム間(画面間)予測を行う。
 ここで、多視点映像符号化について説明する。多視点映像符号化とは、同一のシーンを複数のカメラで撮影した複数の映像を、その映像間の冗長性を利用して高い効率で符号化するものである。多視点映像符号化については非特許文献1に詳しい。
 また、多視点映像符号化においては、一般的な映像符号化で用いられる予測方法の他に、既に符号化済みの別の視点の映像を参照して視差補償に基づき符号化対象信号を予測する視点間予測と、フレーム間予測により符号化対象信号を予測し、その残差信号を既に符号化済みの別の視点の映像の符号化時の残差信号を参照して予測する視点間残差予測などの方法が用いられる。視点間予測は、MVCなどの多視点映像符号化ではフレーム間予測とまとめてインター予測として扱われ、Bピクチャにおいては2つ以上の予測画像を補間して予測画像とすることができる。
 このように、多視点映像符号化においては、フレーム間予測と視点間予測の両方を行うことができるピクチャにおいては、これら双方による予測を行うことができる。
M. Flierl and B. Girod, "Multiview video compression," Signal Processing Magazine, IEEE, no. November 2007, pp. 66-76, 2007.
 しかしながら、動き補償予測と視差補償予測とでは誤差の性質が異なり、(画像信号の)シーケンスの性質によっては、フレーム間予測だけを行う場合に比べて互いに誤差を打ち消しあう効果が得られにくい。
 そのような誤差には、例えば動き補償予測では被写体の変形等によるものやブレによるもの、視差補償予測ではカメラの性質の違いによるものやオクルージョンの発生によるものなどがある。そのような場合には精度の高い方の予測方法が偏って選択され、双方を用いる予測はほとんど用いられない。
 このため、例えば前方向予測と視点間予測が可能な種類のBピクチャにおいて、構造上は双方を用いる予測が可能であるにもかかわらず、実際には単方向予測しか用いられないために、予測残差の低減に対して十分な効果が得られない場合があるという問題がある。
 本発明は、このような事情に鑑みてなされたもので、予測残差を低減させて予測残差符号化に必要な符号量を削減することができる映像符号化装置、映像復号装置、映像符号化方法、映像復号方法、映像符号化プログラム、及び映像復号プログラムを提供することを目的とする。
 本発明は、時間方向及び視差方向の画面間予測を行い、誤差を補正した予測画像を生成して符号化対象映像を予測符号化する映像符号化装置であって、
 前記時間方向及び前記視差方向のそれぞれにおいて既に復号済みの画像を参照ピクチャとして符号化対象画像を予測し、それぞれの参照先を示すフレーム間参照情報と視点間参照情報を決定する予測手段と、
 前記視点間参照情報から視差予測画像を生成し、前記フレーム間参照情報から動き予測画像を生成する一次予測画像生成手段と、
 前記視点間参照情報と前記フレーム間参照情報から補正予測画像を生成する補正予測画像生成手段と、
 前記視差予測画像と、前記動き予測画像と、前記補正予測画像とから前記予測画像を生成する予測画像生成手段と
 を備えることを特徴とする映像符号化装置を提供する。
 典型例として、前記予測画像生成手段は、前記動き予測画像と前記視差予測画像とを加算し、これから前記補正予測画像を減算して、前記予測画像を生成する。
 好適例として、前記視点間参照情報及び前記フレーム間参照情報は前記参照ピクチャを特定する情報を含み、
 前記補正予測画像生成手段は、前記視点間参照情報の示す前記参照ピクチャと同じ視点の参照ピクチャのうち、前記フレーム間参照情報の示す前記参照ピクチャと同じフレームの参照ピクチャを補正参照ピクチャとして参照して前記補正予測画像を生成する。
 この場合、前記視点間参照情報及び前記フレーム間参照情報は前記参照ピクチャ上にある参照位置を特定する情報を更に含み、
 前記補正予測画像生成手段は、前記フレーム間参照情報と前記視点間参照情報に基づき前記補正参照ピクチャ上の参照位置を決定し前記補正予測画像を生成するようにしても良い。
 別の好適例として、前記視点間参照情報及び前記フレーム間参照情報を特定する情報を予測情報として符号化する予測情報符号化手段を更に有する。
 前記予測手段は、前記視点間参照情報及び前記フレーム間参照情報のうちいずれか一方を、他方の参照情報が示す参照先の符号化時の予測情報に基づいて生成するようにしても良い。
 本発明は、時間方向及び視差方向の画面間予測を行い、誤差を補正した予測画像を生成して予測符号化された符号データを復号する映像復号装置であって、
 前記時間方向及び前記視差方向のそれぞれにおいて既に復号済みの画像を参照ピクチャとして復号対象画像を予測し、それぞれの参照先を示すフレーム間参照情報と視点間参照情報を決定する予測手段と、
 前記視点間参照情報から視差予測画像を生成し前記フレーム間参照情報から動き予測画像を生成する一次予測画像生成手段と、
 前記視点間参照情報と前記フレーム間参照情報から補正予測画像を生成する補正予測画像生成手段と、
 視差予測画像と動き予測画像と補正予測画像とから予測画像を生成する予測画像生成手段と
 を備えることを特徴とする映像復号装置も提供する。
 典型例として、前記予測画像生成手段では、前記動き予測画像と前記視差予測画像とを加算し、これから前記補正予測画像を減算して、前記予測画像を生成する。
 好適例として、前記視点間参照情報及び前記フレーム間参照情報は前記参照ピクチャを特定する情報を含み、
 前記補正予測画像生成手段では、前記視点間参照情報の示す前記参照ピクチャと同じ視点の参照ピクチャのうち、前記フレーム間参照情報の示す前記参照ピクチャと同じフレームの参照ピクチャを補正参照ピクチャとして参照して前記補正予測画像を生成する。
 この場合、前記視点間参照情報及び前記フレーム間参照情報は前記参照ピクチャ上にある参照位置を特定する情報を更に含み、
 前記補正予測画像生成手段では、前記フレーム間参照情報と前記視点間参照情報に基づき前記補正ピクチャ上の参照位置を決定し前記補正予測画像を生成するようにしても良い。
 別の好適例として、前記符号データから予測情報を復号し前記フレーム間参照情報と前記視点間参照情報とを特定する予測情報を生成する予測情報復号手段を更に有し、
 前記予測手段は、生成された前記予測情報に基づき前記フレーム間参照情報と前記視点間参照情報を決定する。
 前記予測手段は、前記視点間参照情報及び前記フレーム間参照情報のうちいずれか一方を前記符号データから復号し、他方の参照情報は復号された参照情報の示す参照先の復号化時の予測情報に基づいて生成するようにしても良い。
 本発明はまた、時間方向及び視差方向の画面間予測を行い、誤差を補正した予測画像を生成して符号化対象映像を予測符号化する映像符号化装置が行う映像符号化方法であって、
 前記時間方向及び前記視差方向のそれぞれにおいて既に復号済みの画像を参照ピクチャとして符号化対象画像を予測し、それぞれの参照先を示すフレーム間参照情報と視点間参照情報を決定する予測ステップと、
 前記視点間参照情報から視差予測画像を生成し、前記フレーム間参照情報から動き予測画像を生成する予測画像生成ステップと、
 前記視点間参照情報と前記フレーム間参照情報から補正予測画像を生成する補正予測画像生成ステップと、
 前記視差予測画像と、前記動き予測画像と、前記補正予測画像とから前記予測画像を生成する予測画像生成ステップと
 を有することを特徴とする映像符号化方法も提供する。
 本発明はまた、時間方向及び視差方向の画面間予測を行い、誤差を補正した予測画像を生成して予測符号化された符号データを復号する映像復号装置が行う映像復号方法であって、
 前記時間方向及び前記視差方向のそれぞれにおいて既に復号済みの画像を参照ピクチャとして復号対象画像を予測し、それぞれの参照先を示すフレーム間参照情報と視点間参照情報を決定する予測ステップと、
 前記視点間参照情報から視差予測画像を生成し前記フレーム間参照情報から動き予測画像を生成する予測画像生成ステップと、
 前記視点間参照情報と前記フレーム間参照情報から補正予測画像を生成する補正予測画像生成ステップと、
 視差予測画像と動き予測画像と補正予測画像とから予測画像を生成する予測画像生成ステップと
 を有することを特徴とする映像復号方法も提供する。
 本発明はまた、上記映像符号化方法をコンピュータに実行させるための映像符号化プログラムも提供する。
 本発明はまた、上記映像復号方法をコンピュータに実行させるための映像符号化プログラムも提供する。
 本発明によれば、予測残差を低減させることで予測残差符号化に必要な符号量を削減することができるため、符号化効率を向上させることができるという効果が得られる。
本発明の一実施形態による映像符号化装置の構成を示すブロック図である。 図1に示す映像符号化装置100の処理動作を示すフローチャートである。 本発明の一実施形態による映像復号装置の構成を示すブロック図である。 図3に示す映像復号装置200の処理動作を示すフローチャートである。 補正予測の概念を示す図である。 図1に示す映像符号化装置100をコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア図である。 図3に示す映像復号装置200をコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア図である。
 以下、図面を参照して、本発明の一実施形態による映像符号化装置、映像復号装置を説明する。
 始めに、映像符号化装置について説明する。図1は同実施形態による映像符号化装置の構成を示すブロック図である。
 映像符号化装置100は、図1に示すように、符号化対象映像入力部101、入力画像メモリ102、参照ピクチャメモリ103、予測部104、一次予測画像生成部105、補正予測画像生成部106、予測画像生成部107、減算部108、変換・量子化部109、逆量子化・逆変換部110、加算部111、およびエントロピー符号化部112を備えている。
 符号化対象映像入力部101は、符号化対象となる映像を本映像符号化装置100に入力する。以下の説明では、この符号化対象となる映像のことを符号化対象映像と呼び、特に処理を行うフレームを符号化対象フレームまたは符号化対象画像と呼ぶ。
 入力画像メモリ102は、入力された符号化対象映像を記憶する。
 参照ピクチャメモリ103は、それまでに符号化・復号された画像を記憶する。以下では、この記憶されたフレームを参照フレームまたは参照ピクチャと呼ぶ。
 予測部104は、参照ピクチャメモリ103に記憶された参照ピクチャ上で符号化対象画像に対する視差方向と時間方向の双方の予測を行い、予測情報を生成する。
 一次予測画像生成部105は、予測情報に基づき、動き予測画像と視差予測画像を生成する。
 補正予測画像生成部106は、予測情報に基づき補正参照ピクチャ及び当該ピクチャ内の補正参照先を決定し、補正予測画像を生成する。
 予測画像生成部107は、動き予測画像と視差予測画像と補正予測画像とから予測画像を生成する。
 減算部108は、符号化対象画像と予測画像の差分値を求め、予測残差を生成する。
 変換・量子化部109は、生成された予測残差を変換・量子化し、量子化データを生成する。
 逆量子化・逆変換部110は、生成された量子化データを逆量子化・逆変換し、復号予測残差を生成する。
 加算部111は、復号予測残差と予測画像とを加算し復号画像を生成する。
 エントロピー符号化部112は、量子化データをエントロピー符号化し符号データを生成する。
 次に、図2を参照して、図1に示す映像符号化装置100の処理動作を説明する。図2は、図1に示す映像符号化装置100の処理動作を示すフローチャートである。
 ここでは、符号化対象映像は多視点映像のうちの一つの映像であることとし、当該多視点映像はフレーム毎に1視点ずつ全視点の映像を符号化し復号する構造をとるとする。また、ここでは符号化対象映像中のある1フレームを符号化する処理について説明する。説明する処理をフレームごとに繰り返すことで、映像の符号化が実現できる。
 まず、符号化対象映像入力部101は、符号化対象フレームを映像符号化装置100に入力し、入力画像メモリ102に記憶する(ステップS101)。
 なお、符号化対象映像中の幾つかのフレームは既に符号化されているものとし、その復号フレームが参照ピクチャメモリ103に記憶されているとする。
 また、符号化対象フレームと同じフレームまでの参照可能な別の視点の映像も既に符号化され復号されて、入力画像メモリ102に記憶されていることとする。
 映像入力の後、符号化対象フレームを符号化対象ブロックに分割し、ブロック毎に符号化対象フレームの映像信号を符号化する(ステップS102~S111)。
 以下のステップS103~S110の処理は、フレーム全てのブロックに対して繰り返し実行する。
 符号化対象ブロックごとに繰り返される処理において、まず、予測部104は、符号化対象ブロックに対する異なるフレームの参照ピクチャを参照する動き予測と、異なる視点の参照ピクチャを参照する視差予測の双方の予測を行い、予測情報を生成する。そして、一次予測画像生成部105は、生成された予測情報に基づき、動き予測画像と視差予測画像を生成する(ステップS103)。
 ここで、予測や予測情報生成はどのように行なっても構わないし、予測情報としてどのような情報を設定しても構わない。
 一般的なものとしては、参照ピクチャを特定するインデックスと参照ピクチャ上での参照先を示すベクトルからなる視点間参照情報(視差予測の場合)やフレーム間参照情報(動き予測の場合)を予測情報とする方法がある。
 それぞれの参照情報の決定方法もどのような方法でも構わないが、例えば参照ピクチャ上で符号化対象ブロックに対応する領域の探索を行うという方法も適用できるし、既に符号化して復号済みの(符号化対象ブロックの)周辺ブロックの予測情報から決定するという方法も適用できる。
 視差予測と動き予測は、それぞれ独立に行なっても構わないし、どちらかを先に実行しても構わないし、交互に繰り返し行なっても構わない。あるいは、参照ピクチャの組み合わせなどを予め定めておき、それに基づきそれぞれ独立に予測を行なっても構わないし、順番に行っても構わない。
 例えば、視差予測の参照ピクチャは必ず0番目の視点のピクチャであるとし、動き予測の参照ピクチャは必ず先頭フレームであるとすると予め定めておいてもよい。また、組み合わせを特定する情報を符号化して映像の符号データと多重化しても構わないし、復号側で同じ組み合わせを特定できるのであれば符号化しなくても構わない。
 更に、視差予測と動き予測を同時に行う場合には、全ての組み合わせを施行し評価してもよいし、まとめて最適化しても構わないし、一方を仮決定し他方を探索することを繰り返すなどの方法を用いても構わない。
 また、予測精度の評価の対象として、それぞれの予測画像の予測精度を別々に評価しても構わないし、双方の予測画像を混合した画像の精度を評価してもよい。あるいは、後述の補正予測も含めた最終的な予測画像の精度を評価しても構わない。その他にどのような評価方法を用いて予測を行なっても構わない。
 更に、予測情報は符号化して映像の符号データと多重化しても構わないし、前述のように周辺の予測情報や自身の残差予測情報等から導き出せる場合には符号化しなくても構わない。また、予測情報を予測しその残差を符号化しても構わない。
 また、予測情報が視点間参照情報やフレーム間参照情報からなる場合、必要であれば両方符号化しても構わないし、予め定めた規則によって決定できるのであれば符号化しなくても構わない。例えば、いずれか一方を符号化し、他方の予測情報は符号化した方の情報の示す参照先の領域を符号化した時の予測情報に基づいて生成するという方法が適用できる。
 次に、補正予測画像生成部106は、予測情報に基づき補正参照ピクチャ及び当該ピクチャ内の補正参照先を決定し、補正予測画像を生成する(ステップS104)。
 補正予測画像を生成したら、予測画像生成部107は、動き予測画像と視差予測画像と補正予測画像とから予測画像を生成する(ステップS105)。
 補正予測は、符号化対象フレームと異なるフレームの参照ピクチャとの間の動き予測と、符号化対象フレームと異なる視点の参照ピクチャとの間の視差予測のそれぞれの予測誤差を、別の参照ピクチャを用いて補正するものである。
 ここでは、動き予測で参照するピクチャを参照フレームピクチャ、視差予測で参照するピクチャを参照視点ピクチャとし、補正予測において参照するピクチャを補正参照ピクチャとする。補正予測の詳細については後述する。
 次に、減算部108は、予測画像と符号化対象ブロックの差分をとり、予測残差を生成する(ステップS106)。
 なお、ここでは最終的な予測画像を生成してから予測残差を生成しているが、以下のような形で予測残差を生成しても構わない:
(i)補正予測画像と動き及び視差予測の予測画像からそれぞれの予測残差の予測値(「予測予測残差」とも呼ぶ)を生成し、
(ii)動き及び視差予測の予測画像と符号化対象ブロックのそれぞれの差分をとって動き及び視差予測残差を生成し、
(iii)上記予測残差の予測値に基づき、上記動き及び視差予測残差をそれぞれ更新する形で予測残差を生成する。
 次に、予測残差の生成が終了したら、変換・量子化部109は当該予測残差を変換・量子化し、量子化データを生成する(ステップS107)。この変換・量子化は、復号側で正しく逆量子化・逆変換できるものであればどのような方法を用いても構わない。
 そして、変換・量子化が終了したら、逆量子化・逆変換部110は、量子化データを逆量子化・逆変換し、復号予測残差を生成する(ステップS108)。
 次に、復号予測残差の生成が終了したら、加算部111は、復号予測残差と予測画像とを加算して復号画像を生成し、参照ピクチャメモリ103に記憶する(ステップS109)。
 ここでも前述のように、予測残差の予測値を生成し、当該予測値に基づき一次予測残差を更新する形で、一次予測画像と符号化対象ブロックの差分である一次予測残差を生成しても構わない。
 また、必要であれば復号画像にループフィルタをかけても構わない。通常の映像符号化では、デブロッキングフィルタやその他のフィルタを使用して符号化ノイズを除去する。
 次に、エントロピー符号化部112は、量子化データをエントロピー符号化して符号データを生成し、必要であれば、予測情報や残差予測情報その他の付加情報も符号化して符号データと多重化し、全てのブロックについて処理が終了したら、符号データを出力する(ステップS110)。
 次に、映像復号装置について説明する。図3は、本発明の一実施形態による映像復号装置の構成を示すブロック図である。
 映像復号装置200は、図3に示すように、符号データ入力部201、符号データメモリ202、参照ピクチャメモリ203、エントロピー復号部204、逆量子化・逆変換部205、一次予測画像生成部206、補正予測画像生成部207、予測画像生成部208、加算部209を備えている。
 符号データ入力部201は、復号対象となる映像符号データを本映像復号装置200に入力する。この復号対象となる映像符号データのことを復号対象映像符号データと呼び、特に処理を行うフレームを復号対象フレームまたは復号対象画像と呼ぶ。
 符号データメモリ202は、入力された復号対象映像を記憶する。
 参照ピクチャメモリ203は、すでに復号済みの画像を記憶する。
 エントロピー復号部204は、復号対象フレームの符号データをエントロピー復号して量子化データを生成し、逆量子化・逆変換部205は量子化データに逆量子化/逆変換を施して復号予測残差を生成する。
 一次予測画像生成部206は、動き予測画像と視差予測画像を生成する。
 補正予測画像生成部207は、補正参照ピクチャ及び当該ピクチャ内の補正参照先を決定し、補正予測画像を生成する。
 予測画像生成部208は、動き予測画像と視差予測画像と補正予測画像とから予測画像を生成する。
 加算部209は、復号予測残差と予測画像とを加算し、復号画像を生成する。
 次に、図4を参照して、図3に示す映像復号装置200の処理動作を説明する。図4は、図3に示す映像復号装置200の処理動作を示すフローチャートである。
 ここでは、復号対象映像は多視点映像のうちの一つの映像であることとし、当該多視点映像はフレーム毎に1視点ずつ全視点の映像を復号する構造をとるとする。また、ここでは符号データ中のある1フレームを復号する処理について説明する。説明する処理をフレームごとに繰り返すことで、映像の復号が実現できる。
 まず、符号データ入力部201は符号データを映像復号装置200に入力し、符号データメモリ202に記憶する(ステップS201)。
 なお、復号対象映像中の幾つかのフレームは既に復号されているものとし、その復号フレームが参照ピクチャメモリ203に記憶されているとする。
 また、復号対象フレームと同じフレームまでの参照可能な別の視点の映像も既に復号され復号されて、参照ピクチャメモリ203に記憶されていることとする。
 符号データ入力の後、復号対象フレームを復号対象ブロックに分割し、ブロック毎に復号対象フレームの映像信号を復号する(ステップS202~S209)。
 以下のステップS203~S208の処理は、フレーム全てのブロックに対して繰り返し実行する。
 復号対象ブロックごとに繰り返される処理において、まず、エントロピー復号部204は、符号データをエントロピー復号する(ステップS203)。
 そして、逆量子化・逆変換部205は、逆量子化・逆変換を行い、復号予測残差を生成する(ステップS204)。予測情報やその他の付加情報が符号データに含まれる場合は、それらも復号し、適宜必要な情報を生成しても構わない。
 次に、一次予測画像生成部206は、動き予測画像と視差予測画像を生成する(ステップS205)。
 予測情報が符号化され映像の符号データと多重化されている場合には、その情報を(復号して)利用して予測画像の生成を行っても構わないし、前述のように周辺の予測情報や自身の残差予測情報等から導き出せる場合には、係る符号化された情報はなくても構わない。また、一方の予測情報から他方の予測情報を導き出せる場合には、一方の予測情報のみを符号化した情報を使用してもよい。
 また、予測情報の予測残差が符号化されている場合には、これを復号して利用して予測情報の予測を行なっても構わない。詳細な処理動作は、符号化装置と同様である。
 次に、補正予測画像生成部207は、予測情報に基づき補正参照ピクチャ及び当該ピクチャ内の補正参照先を決定し、補正予測画像を生成する(ステップS206)。
 補正予測画像を生成したら、予測画像生成部208は、動き予測画像と視差予測画像と補正予測画像とから予測画像を生成する(ステップS207)。
 詳細な処理動作は、符号化装置と同様である。前述の説明では最終的な予測画像を生成してから予測残差を生成しているが、補正予測画像と動き及び視差予測の予測画像からそれぞれの予測残差の予測値(予測予測残差)を生成し、これに基づき復号予測残差を更新する形で予測残差を生成しても構わない。
 次に、予測画像の生成が終了したら、加算部209は、復号予測残差と予測画像を加算し、復号画像を生成し、参照ピクチャメモリに記憶し、全てのブロックについて処理が終了したら、復号画像を出力する(ステップS208)。
 必要であれば復号画像にループフィルタをかけても構わない。通常の映像復号では、デブロッキングフィルタやその他のフィルタを使用して符号化ノイズを除去する。
 次に、図5を参照して、補正予測の詳細な処理動作について説明する。図5は、補正予測の概念を示す図である。
 ここでは、動き予測で参照するピクチャを参照フレームピクチャ、視差予測で参照するピクチャを参照視点ピクチャとし、補正予測において参照するピクチャを補正参照ピクチャとする。
 補正参照ピクチャとしてはどのようなピクチャを選んでも構わないが、図5においては、参照フレームピクチャと同じフレームに属し、かつ参照視点ピクチャと同じ視点のピクチャを参照ピクチャとする場合の例を示す。
 まず、符号化対象ピクチャA内の符号化対象ブロックaから予測して、動き予測画像PIを生成し、当該画像を含むピクチャを参照フレームピクチャBとして記憶する。
 また、符号化対象ピクチャA内の符号化対象ブロックaから予測して視差予測画像PIを生成し、当該画像を含むピクチャを参照視点ピクチャCとして記憶する。
 そして、動き予測画像PIと視差予測画像PIとから補正予測画像PIを生成して、当該画像を含むピクチャを補正参照ピクチャDとして記憶する。
 次に、平均化部10によって動き予測画像PIと視差予測画像PIとの平均を求め、これを一次予測画像eとする。
 一方、減算器20によって動き予測画像PIと補正予測画像PIとの差分を求め、これを予測視差予測残差PPRとする。
 また、減算器30によって視差予測画像PIと補正予測画像PIとの差分を求め、これを予測動き予測残差PPRとする。
 次に、平均化部40によって予測視差予測残差PPRと予測動き予測残差PPRとの平均を求め、これを予測予測残差fとする。
 最後に、加算器50によって一次予測画像eと予測予測残差fとを加算して、予測画像PIを生成する。
 ここで、予測情報が視点間参照情報やフレーム間参照情報からなる場合、それぞれの参照情報を用いて補正参照ピクチャ上の補正予測画像として参照する領域を決定する。
 例えば参照情報に参照フレーム/視点ピクチャ上の領域を示すベクトルが含まれる場合、補正参照ピクチャ上の補正予測画像として参照する領域を示す補正ベクトルVは、動きベクトルVと視差ベクトルVによって以下の式で表される。
 V=V+V
 予測画像生成では、この補正予測画像PIと動き予測画像PIを用いて、視差予測画像PIの符号化対象ブロックに対する予測誤差を予測し、補正予測画像PIと視差予測画像PIを用いて、動き予測画像PIの符号化対象ブロックに対する予測誤差を予測し、動き予測画像と視差予測画像のそれぞれについて誤差を加味した上で最終的な予測画像を生成する。
 以下では、予測された動き予測の予測誤差を予測動き予測残差(上記のPPR)と呼び、予測された視差予測の予測残差を予測視差予測残差(上記のPPR)と呼ぶ。
 予測方法はどのような方法でも構わないが、図5においては、補正予測画像とそれぞれの予測画像との差分をもって予測(動き/視差)予測残差としている。この場合予測動き予測残差PPRと予測視差予測残差PPRは、以下の式で表される。
PPR=PI-PI・PPR=PI-PI
 また、動き及び視差それぞれの予測画像と符号化対象ブロックとの差分が一次予測残差であり、概念的にはそれぞれの一次予測残差から対応する予測予測残差を差し引き符号化対象の予測残差とすることで、予測残差の符号量を低減することができる。この予測誤差をもって双方の予測の予測画像の補正を行う場合、最終的な予測画像PIは以下の式で表される。
Figure JPOXMLDOC01-appb-M000001
 このように、予測予測残差の生成を行わずに上述のような式を使用して、直接最終的な予測画像を生成してもよい。
 また、ここでは補正前の予測画像は両方向の予測画像の平均値であるとしているが、他にどのような重み付けで予測画像を生成し、重みを加味した補正を行なっても構わない。また、予測予測残差に別途重みを付けても構わない。
 例えば一方の予測がもう一方の予測に比べて精度が劣る場合に、その精度に応じた重みをつけるなどしてもよい。ここでは、上述の例において動き予測画像PIに比べて視差予測画像PIの精度が低い場合の重み付けの方法を説明する。視差補償予測画像に対する重みをWとすると、最終的な予測画像PIは、以下のような式で表すことが出来る。
Figure JPOXMLDOC01-appb-M000002
 上記の重みWは画像と同じ大きさの行列でも良いし、スカラーでも良い。W=1のときには上記「数1」の式と一致する。
 また、Wはどのように決定してもよい。典型例としては、視差補償予測の精度が良い場合には1として、精度が良くない場合には1/2、精度が著しく悪い場合や使用可能な視差ベクトルがない場合には0とするなどの場合がある。
 なお、図2、図4に示す一部の処理は、その順序が前後しても構わない。
 また、以上説明した映像符号化装置及び映像復号装置の処理は、コンピュータとソフトウェアプログラムとによっても実現することができ、そのプログラムをコンピュータで読み取り可能な記録媒体に記録して提供することも、ネットワークを通して提供することも可能である。
 図6は、前述の映像符号化装置100をコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア図である。
 本システムは:
・プログラムを実行するCPU30と
・CPU30がアクセスするプログラムやデータが記憶されるRAM等のメモリ31
・カメラ等からの符号化対象の映像信号を映像符号化装置内に入力する符号化対象映像入力部32(ディスク装置などによる映像信号を記憶する記憶部でもよい)
・図2に示す処理動作をCPU30に実行させるソフトウェアプログラムである映像符号化プログラム331が記憶されたプログラム記憶装置33
・CPU30がメモリ31にロードされた映像符号化プログラムを実行することにより生成された符号データを、例えばネットワークを介して出力する符号データ出力部34(ディスク装置などによる符号データを記憶する記憶部でもよい)
 とが、バスで接続された構成になっている。
 また、図示は省略するが、他に、符号データ記憶部、参照フレーム記憶部などのハードウェアが設けられ、本手法の実施に利用される。また、映像信号符号データ記憶部、予測情報符号データ記憶部などが用いられることもある。
 図7は、前述の映像復号装置200をコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア図である。
 本システムは:
・プログラムを実行するCPU40
・CPU40がアクセスするプログラムやデータが記憶されるRAM等のメモリ41
・映像符号化装置が本手法により符号化した符号データを映像復号装置内に入力する符号データ入力部42(ディスク装置などによる符号データを記憶する記憶部でもよい)
・図4に示す処理動作をCPU40に実行させるソフトウェアプログラムである映像復号プログラム431が記憶されたプログラム記憶装置43
・CPU40がメモリ41にロードされた映像復号プログラムを実行することにより生成された復号映像を、再生装置などに出力する復号映像出力部44
 とが、バスで接続された構成になっている。
 また、図示は省略するが、他に、参照フレーム記憶部などのハードウェアが設けられ、本手法の実施に利用される。また、映像信号符号データ記憶部、予測情報符号データ記憶部などが用いられることもある。
 以上説明したように、多視点映像符号化におけるフレーム間予測と視点間予測の双方を行うことができるピクチャにおいて、それらフレーム間予測と視点間予測を行う場合に、それぞれの参照先を示す情報から新たに両予測の予測誤差を補正するための補正予測を行うことにより予測残差を低減させ、予測残差符号化に必要な符号量を削減することができる。
 前述した実施形態における図1に示す映像符号化装置及び図3に示す映像復号装置をコンピュータで実現するようにしてもよい。
 その場合、該当する機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。
 なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
 また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
 さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。
 また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、PLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されるものであってもよい。
 以上、図面を参照して本発明の実施の形態を説明してきたが、上記実施の形態は本発明の例示に過ぎず、本発明が上記実施の形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行ってもよい。
 時間方向と視差方向とを併用する予測が不適であるため単方向予測が用いられることで予測残差の符号量が増大する場合に、双方の予測の予測誤差を補正することで符号量を低減することが好適な用途に適用できる。
101・・・符号化対象映像入力部
102・・・入力画像メモリ
103・・・参照ピクチャメモリ
104・・・予測部
105・・・一次予測画像生成部
106・・・補正予測画像生成部
107・・・予測画像生成部
108・・・減算器
109・・・変換・量子化部
110・・・逆量子化・逆変換部
111・・・加算器
112・・・エントロピー符号化部
201・・・符号データ入力部
202・・・符号データメモリ
203・・・参照ピクチャメモリ
204・・・エントロピー復号部
205・・・逆量子化・逆変換部
206・・・一次予測画像生成部
207・・・補正予測画像生成部
208・・・予測画像生成部
209・・・加算器

Claims (16)

  1.  時間方向及び視差方向の画面間予測を行い、誤差を補正した予測画像を生成して符号化対象映像を予測符号化する映像符号化装置であって、
     前記時間方向及び前記視差方向のそれぞれにおいて既に復号済みの画像を参照ピクチャとして符号化対象画像を予測し、それぞれの参照先を示すフレーム間参照情報と視点間参照情報を決定する予測手段と、
     前記視点間参照情報から視差予測画像を生成し、前記フレーム間参照情報から動き予測画像を生成する一次予測画像生成手段と、
     前記視点間参照情報と前記フレーム間参照情報から補正予測画像を生成する補正予測画像生成手段と、
     前記視差予測画像と、前記動き予測画像と、前記補正予測画像とから前記予測画像を生成する予測画像生成手段と
     を備えることを特徴とする映像符号化装置。
  2.  前記予測画像生成手段は、前記動き予測画像と前記視差予測画像とを加算し、これから前記補正予測画像を減算して、前記予測画像を生成する
     ことを特徴とする請求項1に記載の映像符号化装置。
  3.  前記視点間参照情報及び前記フレーム間参照情報は前記参照ピクチャを特定する情報を含み、
     前記補正予測画像生成手段は、前記視点間参照情報の示す前記参照ピクチャと同じ視点の参照ピクチャのうち、前記フレーム間参照情報の示す前記参照ピクチャと同じフレームの参照ピクチャを補正参照ピクチャとして参照して前記補正予測画像を生成する
     ことを特徴とする請求項1に記載の映像符号化装置。
  4.  前記視点間参照情報及び前記フレーム間参照情報は前記参照ピクチャ上にある参照位置を特定する情報を更に含み、
     前記補正予測画像生成手段は、前記フレーム間参照情報と前記視点間参照情報に基づき前記補正参照ピクチャ上の参照位置を決定し前記補正予測画像を生成する
     ことを特徴とする請求項3に記載の映像符号化装置。
  5.  前記視点間参照情報及び前記フレーム間参照情報を特定する情報を予測情報として符号化する予測情報符号化手段を
     更に有することを特徴とする請求項1に記載の映像符号化装置。
  6.  前記予測手段は、前記視点間参照情報及び前記フレーム間参照情報のうちいずれか一方を、他方の参照情報が示す参照先の符号化時の予測情報に基づいて生成する
     ことを特徴とする請求項1に記載の映像符号化装置。
  7.  時間方向及び視差方向の画面間予測を行い、誤差を補正した予測画像を生成して予測符号化された符号データを復号する映像復号装置であって、
     前記時間方向及び前記視差方向のそれぞれにおいて既に復号済みの画像を参照ピクチャとして復号対象画像を予測し、それぞれの参照先を示すフレーム間参照情報と視点間参照情報を決定する予測手段と、
     前記視点間参照情報から視差予測画像を生成し前記フレーム間参照情報から動き予測画像を生成する一次予測画像生成手段と、
     前記視点間参照情報と前記フレーム間参照情報から補正予測画像を生成する補正予測画像生成手段と、
     視差予測画像と動き予測画像と補正予測画像とから予測画像を生成する予測画像生成手段と
     を備えることを特徴とする映像復号装置。
  8.  前記予測画像生成手段では、前記動き予測画像と前記視差予測画像とを加算し、これから前記補正予測画像を減算して、前記予測画像を生成する
     ことを特徴とする請求項7に記載の映像復号装置。
  9.  前記視点間参照情報及び前記フレーム間参照情報は前記参照ピクチャを特定する情報を含み、
     前記補正予測画像生成手段では、前記視点間参照情報の示す前記参照ピクチャと同じ視点の参照ピクチャのうち、前記フレーム間参照情報の示す前記参照ピクチャと同じフレームの参照ピクチャを補正参照ピクチャとして参照して前記補正予測画像を生成する
     ことを特徴とする請求項7に記載の映像復号装置。
  10.  前記視点間参照情報及び前記フレーム間参照情報は前記参照ピクチャ上にある参照位置を特定する情報を更に含み、
     前記補正予測画像生成手段では、前記フレーム間参照情報と前記視点間参照情報に基づき前記補正ピクチャ上の参照位置を決定し前記補正予測画像を生成する
     ことを特徴とする請求項9に記載の映像復号装置。
  11.  前記符号データから予測情報を復号し前記フレーム間参照情報と前記視点間参照情報とを特定する予測情報を生成する予測情報復号手段を更に有し、
     前記予測手段は、生成された前記予測情報に基づき前記フレーム間参照情報と前記視点間参照情報を決定する
     ことを特徴とする請求項7に記載の映像復号装置。
  12.  前記予測手段は、前記視点間参照情報及び前記フレーム間参照情報のうちいずれか一方を前記符号データから復号し、他方の参照情報は復号された参照情報の示す参照先の復号化時の予測情報に基づいて生成する
     ことを特徴とする請求項7に記載の映像復号装置。
  13.  時間方向及び視差方向の画面間予測を行い、誤差を補正した予測画像を生成して符号化対象映像を予測符号化する映像符号化装置が行う映像符号化方法であって、
     前記時間方向及び前記視差方向のそれぞれにおいて既に復号済みの画像を参照ピクチャとして符号化対象画像を予測し、それぞれの参照先を示すフレーム間参照情報と視点間参照情報を決定する予測ステップと、
     前記視点間参照情報から視差予測画像を生成し、前記フレーム間参照情報から動き予測画像を生成する予測画像生成ステップと、
     前記視点間参照情報と前記フレーム間参照情報から補正予測画像を生成する補正予測画像生成ステップと、
     前記視差予測画像と、前記動き予測画像と、前記補正予測画像とから前記予測画像を生成する予測画像生成ステップと
     を有することを特徴とする映像符号化方法。
  14.  時間方向及び視差方向の画面間予測を行い、誤差を補正した予測画像を生成して予測符号化された符号データを復号する映像復号装置が行う映像復号方法であって、
     前記時間方向及び前記視差方向のそれぞれにおいて既に復号済みの画像を参照ピクチャとして復号対象画像を予測し、それぞれの参照先を示すフレーム間参照情報と視点間参照情報を決定する予測ステップと、
     前記視点間参照情報から視差予測画像を生成し前記フレーム間参照情報から動き予測画像を生成する予測画像生成ステップと、
     前記視点間参照情報と前記フレーム間参照情報から補正予測画像を生成する補正予測画像生成ステップと、
     視差予測画像と動き予測画像と補正予測画像とから予測画像を生成する予測画像生成ステップと
     を有することを特徴とする映像復号方法。
  15.  請求項13に記載の映像符号化方法をコンピュータに実行させるための映像符号化プログラム。
  16.  請求項14に記載の映像復号方法をコンピュータに実行させるための映像復号プログラム。
PCT/JP2014/060489 2013-04-12 2014-04-11 映像符号化装置及び方法、映像復号装置及び方法、及びそれらのプログラム WO2014168238A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020157024544A KR101761331B1 (ko) 2013-04-12 2014-04-11 영상 부호화 장치 및 방법, 영상 복호 장치 및 방법과 이들의 프로그램
CN201480019701.8A CN105052148B (zh) 2013-04-12 2014-04-11 视频编码装置和方法、视频解码装置和方法、以及其记录介质
JP2015511315A JP5894338B2 (ja) 2013-04-12 2014-04-11 映像符号化装置及び方法、映像復号装置及び方法、及びそれらのプログラム
US14/783,355 US20160073125A1 (en) 2013-04-12 2014-04-11 Video encoding apparatus and method, video decoding apparatus and method, and programs therefor

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013-084197 2013-04-12
JP2013084197 2013-04-12

Publications (1)

Publication Number Publication Date
WO2014168238A1 true WO2014168238A1 (ja) 2014-10-16

Family

ID=51689639

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/060489 WO2014168238A1 (ja) 2013-04-12 2014-04-11 映像符号化装置及び方法、映像復号装置及び方法、及びそれらのプログラム

Country Status (5)

Country Link
US (1) US20160073125A1 (ja)
JP (1) JP5894338B2 (ja)
KR (1) KR101761331B1 (ja)
CN (1) CN105052148B (ja)
WO (1) WO2014168238A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111556314A (zh) * 2020-05-18 2020-08-18 郑州工商学院 一种计算机图像处理方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008007913A1 (en) * 2006-07-12 2008-01-17 Lg Electronics, Inc. A method and apparatus for processing a signal

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5619256A (en) * 1995-05-26 1997-04-08 Lucent Technologies Inc. Digital 3D/stereoscopic video compression technique utilizing disparity and motion compensated predictions
JPH09261653A (ja) * 1996-03-18 1997-10-03 Sharp Corp 多視点画像符号化装置
JP4185014B2 (ja) * 2004-04-14 2008-11-19 日本電信電話株式会社 映像符号化方法、映像符号化装置、映像符号化プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体、並びに、映像復号方法、映像復号装置、映像復号プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体
EP1971154A4 (en) * 2006-01-05 2010-10-27 Nippon Telegraph & Telephone VIDEO CODING METHOD AND DECODING METHOD, DEVICE THEREFOR, DEVICE THEREFOR AND STORAGE MEDIUM WITH THE PROGRAM
CN101291434A (zh) * 2007-04-17 2008-10-22 华为技术有限公司 多视编解码方法及装置
US8553781B2 (en) * 2007-12-07 2013-10-08 Thomson Licensing Methods and apparatus for decoded picture buffer (DPB) management in single loop decoding for multi-view video
JP2012080151A (ja) * 2009-02-09 2012-04-19 Toshiba Corp 幾何変換動き補償予測を用いる動画像符号化及び動画像復号化の方法と装置
PT2594077E (pt) * 2010-07-15 2016-03-01 Ge Video Compression Llc Codificação de vídeo híbrida para suporte a síntese de visualização intermédia
CN102244801A (zh) * 2011-07-13 2011-11-16 中国民航大学 一种数字立体电视系统及编解码方法
CN102685532B (zh) * 2012-06-04 2014-04-16 山东大学 自由视点四维空间视频编码系统的编码方法
MX341103B (es) * 2012-06-19 2016-08-08 Lg Electronics Inc Metodo y dispositivo para procesar señal de video.
US9357212B2 (en) * 2012-12-07 2016-05-31 Qualcomm Incorporated Advanced residual prediction in scalable and multi-view video coding

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008007913A1 (en) * 2006-07-12 2008-01-17 Lg Electronics, Inc. A method and apparatus for processing a signal

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BARTNIK, C. ET AL.: "HEVC Extension for Multiview Video Coding and Multiview Video plus Depth Coding", ITU - TELECOMMUNICATIONS STANDARDIZATION SECTOR STUDY GROUP 16 QUESTION 6 VIDEO CODING EXPERTS GROUP (VCEG), DOCUMENT:VCEG- AR 13, February 2012 (2012-02-01), Retrieved from the Internet <URL:http://wftp3.itu.int/av-arch/video-site/1202_San/VCEG-AR13.doc> [retrieved on 20140527] *
SUGIO, T. ET AL.: "Modified derivation process on motion vector predictor and weighted prediction for HEVC multi-view extension", JOINT COLLABORATIVE TEAM ON VIDEO CODING (JCT-VC) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11, DOCUMENT: JCTVC- I0436_R1, May 2012 (2012-05-01), Retrieved from the Internet <URL:http://phenix.int-evry.fr/jct/doc_end_user/documents/9_Geneva/wg11/JCTVC-I0436-v3.zip> [retrieved on 20140527] *
YING CHEN ET AL.: "Temporal motion vector prediction hook for efficient merge mode in MV- HEVC", JOINT COLLABORATIVE TEAM ON 3D VIDEO CODING EXTENSION DEVELOPMENT OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11, DOCUMENT: JCT3V-C0064, January 2013 (2013-01-01), Retrieved from the Internet <URL:http://phenix.int-evry.fr/jct3v/doc_end_user/documents/3_Geneva/wg11/JCT3V-C0064-v1.zip> [retrieved on 20140527] *

Also Published As

Publication number Publication date
JP5894338B2 (ja) 2016-03-30
KR20150119052A (ko) 2015-10-23
CN105052148B (zh) 2018-07-10
JPWO2014168238A1 (ja) 2017-02-16
US20160073125A1 (en) 2016-03-10
CN105052148A (zh) 2015-11-11
KR101761331B1 (ko) 2017-07-25

Similar Documents

Publication Publication Date Title
JPWO2014050830A1 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、画像復号プログラム及び記録媒体
US20170070751A1 (en) Image encoding apparatus and method, image decoding apparatus and method, and programs therefor
CN112889290A (zh) 编码器、解码器和使用ibc合并列表的对应方法
JP5894301B2 (ja) 映像符号化装置および方法、映像復号装置および方法、及びそれらのプログラム
WO2014156648A1 (ja) 複数の入力画像をエンコーディングする方法、プログラムを格納する記憶媒体および装置
JP5894338B2 (ja) 映像符号化装置及び方法、映像復号装置及び方法、及びそれらのプログラム
JP6386466B2 (ja) 映像符号化装置及び方法、及び、映像復号装置及び方法
JP5706291B2 (ja) 映像符号化方法,映像復号方法,映像符号化装置,映像復号装置およびそれらのプログラム
JP2015128252A (ja) 予測画像生成方法、予測画像生成装置、予測画像生成プログラム及び記録媒体
US20160057414A1 (en) Method for encoding a plurality of input images, and storage medium having program stored thereon and apparatus
JP2016127372A (ja) 動画像符号化装置、動画像復号装置、動画像処理システム、動画像符号化方法、動画像復号方法、およびプログラム
JP5952733B2 (ja) 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム、映像復号プログラム及び記録媒体
US10972751B2 (en) Video encoding apparatus and method, and video decoding apparatus and method
JP6306883B2 (ja) 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム、映像復号プログラム及び記録媒体
WO2015141549A1 (ja) 動画像符号化装置及び方法、及び、動画像復号装置及び方法
JP6139953B2 (ja) 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム、映像復号プログラム及び記録媒体
JP6306884B2 (ja) 予測画像生成方法、画像再構成方法、予測画像生成装置、画像再構成装置、予測画像生成プログラム、画像再構成プログラム及び記録媒体
JP6310340B2 (ja) 映像符号化装置、映像復号装置、映像符号化方法、映像復号方法、映像符号化プログラム及び映像復号プログラム
JP6232117B2 (ja) 画像符号化方法、画像復号方法、及び記録媒体
JP2016511593A (ja) 視差動きベクトルの導出、そのような導出を使用した3dビデオコーディングおよびデコーディング

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201480019701.8

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14783299

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015511315

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 20157024544

Country of ref document: KR

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14783355

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14783299

Country of ref document: EP

Kind code of ref document: A1