WO2015141613A1 - 画像符号化装置及び方法、画像復号装置及び方法、及び、それらのプログラム - Google Patents

画像符号化装置及び方法、画像復号装置及び方法、及び、それらのプログラム Download PDF

Info

Publication number
WO2015141613A1
WO2015141613A1 PCT/JP2015/057631 JP2015057631W WO2015141613A1 WO 2015141613 A1 WO2015141613 A1 WO 2015141613A1 JP 2015057631 W JP2015057631 W JP 2015057631W WO 2015141613 A1 WO2015141613 A1 WO 2015141613A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
viewpoint
encoding
decoding
intra
Prior art date
Application number
PCT/JP2015/057631
Other languages
English (en)
French (fr)
Inventor
信哉 志水
志織 杉本
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to CN201580014206.2A priority Critical patent/CN106063273A/zh
Priority to US15/122,551 priority patent/US20170070751A1/en
Priority to JP2016508711A priority patent/JP6307152B2/ja
Priority to KR1020167024968A priority patent/KR20160118363A/ko
Publication of WO2015141613A1 publication Critical patent/WO2015141613A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/11Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • H04N19/463Embedding additional information in the video signal during the compression process by compressing encoding parameters before transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2213/00Details of stereoscopic systems
    • H04N2213/003Aspects relating to the "2D+depth" image format

Definitions

  • the present invention relates to an image encoding device, an image decoding device, an image encoding method, an image decoding method, an image encoding program, and an image decoding program for encoding and decoding multi-view images.
  • This application claims priority based on Japanese Patent Application No. 2014-058902 for which it applied on March 20, 2014, and uses the content here.
  • the two-dimensional moving image has a strong correlation in the time direction, and the encoding efficiency can be increased by using the correlation.
  • the encoding efficiency can be increased by using this correlation.
  • H. an international encoding standard.
  • H.264, H.C. In many conventional two-dimensional video coding systems such as H.265, MPEG-2, and MPEG-4, high-efficiency coding is performed using techniques such as motion compensation prediction, orthogonal transform, quantization, and entropy coding. To do.
  • H.M. In H.265, encoding using temporal correlation between a plurality of past or future frames and an encoding target frame is possible.
  • the difference between the multi-view image encoding method and the multi-view image encoding method is that, in addition to the correlation between cameras, the multi-view image has a temporal correlation at the same time. However, in either case, correlation between cameras can be used in the same way. Therefore, here, a method used in encoding a multi-view video is described.
  • the correspondence given by the disparity information can be represented by a one-dimensional quantity indicating the three-dimensional position of the subject instead of a two-dimensional vector based on epipolar geometric constraints by using camera parameters.
  • information indicating the three-dimensional position of the subject there are various expressions, but the distance from the reference camera to the subject or the coordinate value on the axis that is not parallel to the image plane of the camera is often used.
  • the reciprocal of the distance is used instead of the distance.
  • the reciprocal of the distance is information proportional to the parallax, there are cases where two reference cameras are set and expressed as a parallax amount between images taken by these cameras. Since there is no essential difference no matter what expression is used, in the following, information indicating these three-dimensional positions is expressed as depth without distinguishing by expression.
  • Non-Patent Document 2 a viewpoint composite image must be generated and stored for the entire image regardless of whether or not the viewpoint composite image is used. There is a problem that processing load and memory consumption increase.
  • a viewpoint composite image for a part of an image by estimating a depth map for a region where the viewpoint composite image is required.
  • the problem of increasing is still present.
  • a pixel group to be referred to is a pixel group of one row or one column adjacent to a prediction target region, and is a block that is not originally used. It becomes necessary to perform parallax compensation prediction by size. For this reason, there is a problem that implementation and memory access become complicated.
  • An image encoding device that performs encoding for each encoding target region that is a region obtained by dividing the encoding target image while predicting an image between different viewpoints using a map, Encoding target area viewpoint composite image generation means for generating a first viewpoint composite image for the encoding target area using the reference viewpoint image and the reference depth map; A reference pixel setting unit that sets a pixel group that has already been encoded that is referred to when predicting the encoding target region in a screen as a reference pixel; Reference pixel viewpoint composite image generation means for generating a second viewpoint composite image for the reference pixel using the first viewpoint composite image; An image coding apparatus comprising: an intra-screen prediction image generating unit configured to generate an intra-screen prediction image for the encoding target region using the decoded image for the reference pixel and the second viewpoint composite image. provide.
  • the intra-screen prediction image generation unit generates a difference intra-screen prediction image that is an intra-screen prediction image for a difference image between the encoding target image and the first viewpoint composite image with respect to the encoding target region. And generating the intra prediction image using the difference intra prediction image and the first viewpoint composite image.
  • the reference pixel setting means uses, as a reference pixel, an already encoded pixel group that is referred to when the intra prediction method is used.
  • the intra-screen prediction image generating means generates the intra-screen prediction image based on the intra-screen prediction method.
  • the reference pixel viewpoint composite image generation means may generate the second viewpoint composite image based on the intra prediction method.
  • the reference pixel viewpoint composite image generation means generates the second viewpoint composite image based on the intra prediction method.
  • the reference pixel viewpoint composite image generation unit uses the pixel group of the first viewpoint composite image corresponding to a pixel group in contact with a pixel outside the encoding target area in the encoding target area, and A second viewpoint composite image may be generated.
  • the present invention also provides a decoded reference viewpoint image for a viewpoint different from the decoding target image, and the reference viewpoint image when decoding the decoding target image from the code data of a multi-view image including a plurality of different viewpoint images.
  • An image decoding apparatus that performs decoding for each decoding target area, which is an area obtained by dividing the decoding target image, while predicting images between different viewpoints using a reference depth map for a subject in the medium, Decoding target area viewpoint composite image generation means for generating a first viewpoint composite image for the decoding target area using the reference viewpoint image and the reference depth map; Reference pixel setting means for setting, as a reference pixel, an already decoded pixel group that is referred to when predicting the decoding target area in the screen; Reference pixel viewpoint composite image generation means for generating a second viewpoint composite image for the reference pixel using the first viewpoint composite image; There is also provided an image decoding apparatus comprising: an intra-screen prediction image generation unit configured to generate an intra-screen prediction image for the decoding target area using
  • an intra-screen prediction method setting means for setting an intra-screen prediction method for the decoding target area
  • the reference pixel setting means uses an already decoded pixel group referred to when using the intra prediction method as a reference pixel
  • the intra-screen prediction image generating means generates the intra-screen prediction image based on the intra-screen prediction method.
  • the reference pixel viewpoint composite image generation means may generate the second viewpoint composite image based on the intra prediction method.
  • the reference pixel viewpoint composite image generation means generates the second viewpoint composite image by extrapolating from the first viewpoint composite image.
  • the present invention also provides an encoded reference viewpoint image for a viewpoint different from the encoding target image and a reference to a subject in the reference viewpoint image when a multi-view image including a plurality of different viewpoint images is encoded.
  • An image encoding method that performs encoding for each encoding target region that is a region obtained by dividing the encoding target image while predicting an image between different viewpoints using a depth map, An encoding target region viewpoint composite image generation step for generating a first viewpoint composite image for the encoding target region using the reference viewpoint image and the reference depth map; A reference pixel setting step for setting, as a reference pixel, an already encoded pixel group that is referred to when the encoding target region is predicted in a screen; A reference pixel viewpoint composite image generation step of generating a second viewpoint composite image for the reference pixel using the first viewpoint composite image; An image encoding method comprising: an intra-screen prediction image generation step of generating an intra-screen prediction image for the encoding target region using the decode
  • the present invention also provides an image encoding program for causing a computer to execute the image encoding method.
  • the present invention also provides an image decoding program for causing a computer to execute the image decoding method.
  • the prediction residual when the view synthesized image is used as a predicted image is reduced spatially while suppressing the complexity of processing and memory access. The effect that predictive coding can be performed is obtained.
  • FIG. 3 is a block diagram illustrating a hardware configuration when an image decoding device 200 is configured by a computer and a software program. It is a conceptual diagram which shows the parallax which arises between cameras. It is a conceptual diagram of epipolar geometric constraint.
  • FIG. 1 is a block diagram illustrating a configuration of an image encoding device according to the present embodiment.
  • the image encoding device 100 includes an encoding target image input unit 101, an encoding target image memory 102, a reference viewpoint image input unit 103, a reference viewpoint image memory 104, a reference depth map input unit 105, and a reference.
  • the encoding target area viewpoint composite image generation unit 107 obtains a correspondence relationship between the pixels of the encoding target image and the pixels of the reference viewpoint image using the reference depth map, and generates a viewpoint composite image in the encoding target area.
  • the reference pixel setting unit 108 sets a pixel group to be referred to when performing intra (in-screen) prediction on the encoding target region.
  • the set pixel group is collectively referred to as a reference pixel.
  • the reference pixel viewpoint composite image generation unit 109 generates a viewpoint composite image for the reference pixel using the viewpoint composite image for the encoding target region.
  • an image or depth map memory is provided in the image encoding device 100. It is not necessary to provide the information, and information necessary for each area described below may be input to the image coding apparatus 100 at an appropriate timing.
  • processing unit blocks In general encoding, it is divided into processing unit blocks called macroblocks of 16 pixels ⁇ 16 pixels, but may be divided into blocks of other sizes as long as they are the same as those on the decoding side. Moreover, you may divide
  • x ⁇ 1 and ⁇ 1 ⁇ y ⁇ 2N ⁇ 1, or ⁇ 1 ⁇
  • It becomes a reference pixel at a pixel position where x ⁇ 2N ⁇ 1 and y ⁇ 1.
  • the reference pixel viewpoint composite image generation unit 109 When the reference pixel setting is completed, the reference pixel viewpoint composite image generation unit 109 generates a viewpoint composite image Syn ′ for the reference pixel (step S105).
  • the same processing can be performed on the decoding side here, and any method may be used as long as the generation is performed using the viewpoint composite image for the encoding target region blk.
  • a viewpoint composite image for a pixel having the closest distance in the encoding target region blk may be assigned.
  • the viewpoint composite image for the generated reference pixel is expressed by the following equations (1) to (5).
  • a viewpoint composite image (in the encoding target area) of the adjacent pixel is assigned to a pixel adjacent to the encoding target area, and the pixel is not adjacent to the encoding target area. May be assigned the viewpoint composite image of the pixel in the closest encoding target area in the 45-degree oblique direction.
  • the viewpoint synthesized image for the generated reference pixel is expressed by the following equations (6) to (10).
  • the prediction image Pred of the encoding target image in the encoding target region blk is added for each pixel, as shown in the following equation (12), for the sum of the viewpoint synthesized image and the difference intra predicted image. It is generated by calculation by the device 114 (step S108).
  • Pred [blk] Syn [blk] + RPred [blk] (12)
  • the result of adding the viewpoint composite image and the difference intra-predicted image is used as it is as the predicted image.
  • the result of clipping the addition result in the pixel value range of the encoding target image may be used as the predicted image. .
  • the prediction residual decoding unit 112 decodes the prediction residual Res, and generates the decoded image Dec by adding the prediction image Pred and the prediction residual by the adder 117 as shown in the equation (13).
  • Dec [blk] Pred [blk] + Res [blk] (13)
  • clipping may be performed in the range of the pixel value.
  • the obtained decoded image is stored in the decoded image memory 113 to be used for prediction of other coding regions.
  • a technique corresponding to the technique used at the time of encoding is used for decoding the prediction residual. For example, MPEG-2 and H.264.
  • the bit stream input unit 201 inputs a bit stream of an image to be decoded to the image decoding device 200.
  • the image to be decoded is referred to as a decoding target image.
  • the image of viewpoint B is indicated.
  • a viewpoint (here, viewpoint B) with respect to the decoding target image is referred to as a decoding target viewpoint.
  • the bit stream memory 202 stores a bit stream for the input decoding target image.
  • the reference viewpoint image input unit 203 inputs an image to be referred to when generating a viewpoint composite image (parallax compensated image) to the image decoding device 200.
  • the image input here is referred to as a reference viewpoint image.
  • the reference viewpoint image memory 204 stores the input reference viewpoint image.
  • the adder 215 outputs a difference image between the decoded image and the viewpoint composite image at the reference pixel.
  • the intra predicted image generation unit 210 generates an intra predicted image for the difference image between the decoding target image and the viewpoint synthesized image in the decoding target region using the difference image between the decoded image and the viewpoint synthesized image at the reference pixel.
  • the intra prediction image for the difference image is referred to as a difference intra prediction image.
  • the prediction residual decoding unit 211 decodes the prediction residual of the decoding target image in the decoding target region from the bitstream.
  • the adder 213 adds the viewpoint synthesized image and the difference intra-predicted image in the decoding target area and outputs the result.
  • the adder 214 adds the output of the adder 213 and the decoded prediction residual and outputs the result.
  • the decoded image memory 212 stores the decoded image to be decoded.
  • FIG. 4 is a flowchart showing the operation of the image decoding apparatus 200 shown in FIG.
  • the bitstream input unit 201 inputs a bitstream resulting from encoding a decoding target image to the image decoding device 200 and stores the bitstream in the bitstream memory 202.
  • the reference viewpoint image input unit 203 inputs the reference viewpoint image to the image decoding apparatus 200 and stores it in the reference viewpoint image memory 204.
  • the reference depth map input unit 205 inputs the reference depth map to the image decoding apparatus 200 and stores it in the reference depth map memory 206 (step S201).
  • the reference pixel viewpoint composite image generation unit 209 When the reference pixel setting is completed, the reference pixel viewpoint composite image generation unit 209 generates a viewpoint composite image Syn ′ for the reference pixel (step S205).
  • the processing here is the same as step S105 at the time of encoding described above, and any method may be used as long as it is the same method as at the time of encoding.
  • the prediction residual decoding unit 211 When the predicted image is obtained, the prediction residual decoding unit 211 generates a decoded image Dec by decoding the prediction residual of the decoding target region blk from the bitstream and adding the prediction image and the prediction residual by the adder 214. (Step S209).
  • a method corresponding to the method used at the time of encoding is used for decoding.
  • MPEG-2 and H.264 When general encoding such as H.264 / AVC or HEVC is used, decoding is performed by sequentially performing inverse frequency transformation such as entropy decoding, inverse binarization, inverse quantization, and IDCT on the bitstream. I do.
  • the obtained decoded image becomes an output of the image decoding apparatus 200 and is stored in the decoded image memory 212 to be used for prediction of another decoding target region.
  • encoding or decoding may be performed while selecting one for each region from a plurality of intra prediction methods.
  • the intra prediction method used for each region is the same at the time of encoding and at the time of decoding. Any matching method may be used, but the used intra prediction method may be encoded as mode information and included in the bitstream and notified to the decoding side.
  • the time of decoding it is necessary to decode information indicating the intra prediction method used for each region from the bitstream and generate a difference intra predicted image based on the decoded information.
  • the process of encoding and decoding one frame has been described. However, it can also be applied to moving picture encoding by repeating a plurality of frames. It can also be applied only to some frames or some blocks of a moving image. Further, in the above description, the configurations and processing operations of the image encoding device and the image decoding device have been described. However, the image encoding method of the present invention is performed by processing operations corresponding to the operations of the respective units of the image encoding device and the image decoding device. And an image decoding method can be realized.
  • FIG. 5 is a block diagram showing a hardware configuration when the above-described image encoding device 100 is configured by a computer and a software program.
  • the system shown in FIG. CPU 50 that executes the program
  • a memory 51 such as a RAM in which programs and data accessed by the CPU 50 are stored
  • An encoding target image input unit 52 that inputs an encoding target image signal from a camera or the like into the image encoding device (may be a storage unit that stores an image signal from a disk device or the like)
  • Reference viewpoint image input unit 53 that inputs an image signal of a reference viewpoint from a camera or the like into an image encoding device (may be a storage unit that stores an image signal by a disk device or the like)
  • Reference depth map input unit 54 for inputting a depth map for a camera that has captured the same scene as the encoding target viewpoint and the reference viewpoint image from a depth camera or the like (for acquiring depth information) into the image encoding device ( (It may be a storage unit
  • a bit stream output unit 56 that outputs a bit stream generated by the CPU 50 executing the image encoding program 551 loaded in the memory 51, for example, via a network (a storage unit that stores a bit stream by a disk device or the like) However, they are connected by a bus.
  • FIG. 6 is a block diagram showing a hardware configuration when the above-described image decoding apparatus 200 is configured by a computer and a software program.
  • the system shown in FIG. CPU 60 for executing the program A memory 61 such as a RAM in which programs and data accessed by the CPU 60 are stored
  • a bit stream input unit 62 that inputs a bit stream encoded by the image encoding device according to this method into the image decoding device (may be a storage unit that stores an image signal by a disk device or the like)
  • Reference viewpoint image input unit 63 that inputs an image signal of a reference viewpoint from a camera or the like into an image decoding device (may be a storage unit that stores an image signal from a disk device or the like)
  • Reference depth map input unit 64 that inputs a depth map from a depth camera or the like to a camera that has captured the same scene as the decoding target image and the reference viewpoint image into the image decoding device (a storage unit that stores depth information from a disk device or the like) May be)
  • a decoding target image output unit 66 (by a disk device or the like) that outputs a decoding target image obtained by decoding the bitstream to the playback device or the like by the CPU 60 executing the image decoding program 651 loaded in the memory 61. (It may be a storage unit that stores image signals) Are connected by a bus.
  • the viewpoint composite image in the reference image at the time of the prediction residual is generated from the viewpoint composite image for the prediction target region.
  • the image encoding device 100 and the image decoding device 200 in the above-described embodiment may be realized by a computer.
  • a program for realizing this function may be recorded on a computer-readable recording medium, and the program recorded on this recording medium may be read into a computer system and executed.
  • the “computer system” includes an OS and hardware such as peripheral devices.
  • the “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM or a CD-ROM, and a hard disk incorporated in a computer system.
  • the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line.
  • a volatile memory inside a computer system serving as a server or a client in that case may be included and a program held for a certain period of time.
  • the program may be for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in the computer system. It may be realized using hardware such as PLD (Programmable Logic Device) or FPGA (Field Programmable Gate Array).
  • Predictive encoding using a viewpoint composite image for an encoding (decoding) target image using an image captured from a position different from the camera that captured the encoding (decoding) target image and a depth map for a subject in the image Spatially predictive coding of the difference image between the image to be encoded (decoding) and the viewpoint composite image while suppressing the increase and complexity of memory access and processing accompanying the increase in the area that requires the viewpoint composite image By doing so, it can be applied to applications where it is essential to achieve high coding efficiency.
  • DESCRIPTION OF SYMBOLS 100 ... Image coding apparatus 101 ... Encoding object image input part 102 ... Encoding object image memory 103 ... Reference viewpoint image input part 104 ... Reference viewpoint image memory 105 ... Reference depth Map input unit 106 ⁇ reference depth map memory 107 ⁇ encoding target region viewpoint composite image generation unit ⁇ reference pixel setting unit 109 ⁇ reference pixel viewpoint composite image generation unit 110 ⁇ ⁇ ⁇ intra prediction image Generation unit 111 ... Prediction residual encoding unit 112 ... Prediction residual decoding unit 113 ... Decoded image memory 114, 115, 116, 117 ... Adder 200 ... Image decoding apparatus 201 ... Bitstream input unit 202: Bitstream memory 203 ...
  • Reference viewpoint image input unit 204 ... Reference viewpoint image memory 205 ... Reference depth map input 206 ⁇ reference depth map memory 207 ⁇ decoding target region view synthesized image generation unit 208 ⁇ reference pixel setting unit 209 ⁇ reference pixel view synthesized image generation unit 210 ⁇ ⁇ ⁇ intra prediction image generation unit 211 ⁇ ..Prediction residual decoding unit 212... Decoded image memory 213, 214, 215.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

 多視点画像符号化において、符号化対象画像とは異なる視点の参照視点画像と該参照視点画像に対するデプスマップを用いて、符号化対象領域に対する第1の視点合成画像を生成する。この第1の視点合成画像を用いて、前記符号化対象領域を画面内予測する際に参照される既に符号化済みの画素群である参照画素に対する第2の視点合成画像を生成する。前記参照画素に対する復号画像と前記第2の視点合成画像を用いて、前記符号化対象領域に対する画面内予測画像を生成する。

Description

画像符号化装置及び方法、画像復号装置及び方法、及び、それらのプログラム
 本発明は、多視点画像を符号化及び復号する画像符号化装置、画像復号装置、画像符号化方法、画像復号方法、画像符号化プログラム、及び、画像復号プログラムに関する。
 本願は、2014年3月20日に出願された特願2014-058902号に基づき優先権を主張し、その内容をここに援用する。
 従来から、複数のカメラで同じ被写体と背景を撮影した複数の画像からなる多視点画像(Multiview images:マルチビューイメージ)が知られている。この複数のカメラで撮影した動画像のことを多視点動画像(または多視点映像)という。
 以下の説明では、1つのカメラで撮影された画像(動画像)を”2次元画像(動画像)”と称し、同じ被写体と背景とを位置や向き(以下、視点と称する)が異なる複数のカメラで撮影した2次元画像(2次元動画像)群を”多視点画像(多視点動画像)”と称する。
 2次元動画像は、時間方向に関して強い相関があり、その相関を利用することによって符号化効率を高めることができる。一方、多視点画像や多視点動画像では、各カメラが同期されている場合、各カメラの映像の同じ時刻に対応するフレーム(画像)は、全く同じ状態の被写体と背景を別の位置から撮影したものであるので、カメラ間(同じ時刻の異なる2次元画像間)で強い相関がある。多視点画像や多視点動画像の符号化においては、この相関を利用することによって符号化効率を高めることができる。
 ここで、2次元動画像の符号化技術に関する従来技術を説明する。
 国際符号化標準であるH.264、H.265、MPEG-2、MPEG-4をはじめとした従来の多くの2次元動画像符号化方式では、動き補償予測、直交変換、量子化、エントロピー符号化という技術を利用して、高効率な符号化を行う。例えば、H.265では、過去あるいは未来の複数枚のフレームと符号化対象フレームとの時間相関を利用した符号化が可能である。
 H.265で使われている動き補償予測技術の詳細については、例えば非特許文献1に記載されている。H.265で使われている動き補償予測技術の概要を説明する。
 H.265の動き補償予測は、符号化対象フレームを様々なサイズのブロックに分割し、各ブロックで異なる動きベクトルと異なる参照フレームを持つことを許可している。各ブロックで異なる動きベクトルを使用することで、被写体毎に異なる動きを補償した精度の高い予測を実現している。一方、各ブロックで異なる参照フレームを使用することで、時間変化によって生じるオクルージョンを考慮した精度の高い予測を実現している。
 次に、従来の多視点画像や多視点動画像の符号化方式について説明する。
 多視点画像の符号化方法と、多視点動画像の符号化方法との違いは、多視点動画像にはカメラ間の相関に加えて、時間方向の相関が同時に存在するということである。しかし、どちらの場合でも、同じ方法でカメラ間の相関を利用することができる。そのため、ここでは多視点動画像の符号化において用いられる方法について説明する。
 多視点動画像の符号化については、カメラ間の相関を利用するために、動き補償予測を同じ時刻の異なるカメラで撮影された画像に適用した”視差補償予測”によって高効率に多視点動画像を符号化する方式が従来から存在する。ここで、視差とは、異なる位置に配置されたカメラの画像平面上で、被写体上の同じ部分が存在する位置の差である。
 図7は、カメラ間で生じる視差を示す概念図である。図7に示す概念図では、光軸が平行なカメラの画像平面を垂直に見下ろしたものとなっている。このように、異なるカメラの画像平面上で被写体上の同じ部分が投影される位置は、一般的に対応点と呼ばれる。
 視差補償予測では、この対応関係に基づいて、符号化対象フレームの各画素値を参照フレームから予測して、その予測残差と、対応関係を示す視差情報とを符号化する。視差は対象とするカメラ対や位置毎に変化するため、視差補償予測を行う領域毎に視差情報を符号化することが必要である。
 実際に、H.265の多視点動画像符号化方式では、視差補償予測を用いるブロック毎に視差情報を表すベクトルを符号化している。
 視差情報によって与えられる対応関係は、カメラパラメータを用いることで、エピポーラ幾何拘束に基づき、2次元ベクトルではなく、被写体の3次元位置を示す1次元量で表すことができる。
 被写体の3次元位置を示す情報としては、様々な表現が存在するが、基準となるカメラから被写体までの距離や、カメラの画像平面と平行ではない軸上の座標値を用いることが多い。なお、距離ではなく距離の逆数を用いる場合もある。また、距離の逆数は視差に比例する情報となるため、基準となるカメラを2つ設定し、それらのカメラで撮影された画像間での視差量として表現する場合もある。
 どのような表現を用いたとしても本質的な違いはないため、以下では、表現による区別をせずに、それら3次元位置を示す情報をデプスと表現する。
 図8は、エピポーラ幾何拘束の概念図である。エピポーラ幾何拘束によれば、あるカメラの画像上の点に対応する別のカメラの画像上の点は、エピポーラ線という直線上に拘束される。このとき、その点の画素に対するデプスが得られた場合、対応点はエピポーラ線上に一意に定まる。
 例えば、図8に示すように、第1のカメラ画像においてmの位置に投影された被写体に対する第2のカメラ画像での対応点は、実空間における被写体の位置がM’の場合にはエピポーラ線上の位置m’に、実空間における被写体の位置がM’’の場合にはエピポーラ線上の位置m’’に、投影される。
 非特許文献2では、この性質を利用して、参照フレームに対するデプスマップ(距離画像)によって与えられる各被写体の3次元情報に従って、参照フレームから符号化対象フレームに対する合成画像を生成し、領域毎の予測画像の候補とすることで、精度の高い予測を実現し、効率的な多視点動画像の符号化を実現している。
 なお、このデプスに基づいて生成される合成画像は視点合成画像、視点補間画像、または視差補償画像と呼ばれる。
 さらに、非特許文献3では、デプスマップの精度が低い場合や、実空間上では同じ点であっても視点間で画像信号が微妙に異なる場合など、十分な品質の視点合成画像が生成できない状況であっても、視点合成画像を予測画像とした際の予測残差を、空間的または時間的に予測符号化することで、符号化する予測残差の量を削減し、効率的な多視点動画像の符号化を実現している。
 非特許文献3に記載の方法によれば、デプスマップから得られる被写体の三次元情報を用いて生成した視点合成画像を予測画像とした際の予測残差を、空間的または時間的に予測符号化することで、視点合成画像の品質が高くない場合においても、頑健に効率的な符号化を実現することが可能である。
ITU-T Recommendation H.265 (04/2013), "High efficiency video coding", April, 2013. S. Shimizu, H. Kimata, and Y. Ohtani, "Adaptive appearance compensated view synthesis prediction for Multiview Video Coding", Image Processing (ICIP), 2009 16th IEEE International Conference, pp.2949-2952,7-10 Nov. 2009. S. Shimizu and H. Kimata, "MVC view synthesis residual prediction", JVT Input Contribution, JVT-X084, June, 2007.
 しかしながら、非特許文献2や非特許文献3に記載の方法では、視点合成画像を利用するか否かにかかわらず、画像全体に対して視点合成画像を生成して蓄積しなくてはならないため、処理負荷やメモリ消費量が増加してしまうという問題がある。
 視点合成画像が必要となる領域に対するデプスマップを推定することで、画像の一部に対して視点合成画像を生成することも可能である。しかしながら、残差予測を行う場合、予測対象の領域に加えて残差予測における参照画素群に対しても視点合成画像を生成する必要があるため、残差予測を行うことで処理負荷やメモリアクセスが増大するという問題は依然として存在する。
 特に、視点合成画像を予測画像とした際の予測残差を空間的に予測する場合、参照する画素群は予測対象の領域に隣接する1行または1列の画素群となり、本来は使用しないブロックサイズでの視差補償予測を行う必要が生じる。このため、実装やメモリアクセスが複雑になるという問題がある。
 本発明は、このような事情に鑑みてなされたもので、処理やメモリアクセスの複雑化を抑えながら、視点合成画像を予測画像とした際の予測残差を空間的に予測符号化することを実現することができる画像符号化装置、画像復号装置、画像符号化方法、画像復号方法、画像符号化プログラム、及び、画像復号プログラムを提供することを目的とする。
 本発明は、複数の異なる視点の画像からなる多視点画像を符号化する際に、符号化対象画像とは異なる視点に対する符号化済みの参照視点画像と、前記参照視点画像中の被写体に対する参照デプスマップとを用いて、異なる視点間で画像を予測しながら、前記符号化対象画像を分割した領域である符号化対象領域毎に符号化を行う画像符号化装置であって、
 前記参照視点画像と前記参照デプスマップとを用いて、前記符号化対象領域に対する第1の視点合成画像を生成する符号化対象領域視点合成画像生成手段と、
 前記符号化対象領域を画面内予測する際に参照される既に符号化済みの画素群を参照画素として設定する参照画素設定手段と、
 前記第1の視点合成画像を用いて、前記参照画素に対する第2の視点合成画像を生成する参照画素視点合成画像生成手段と、
 前記参照画素に対する復号画像と前記第2の視点合成画像を用いて、前記符号化対象領域に対する画面内予測画像を生成する画面内予測画像生成手段と
 を有することを特徴とする画像符号化装置を提供する。
 典型的には、前記画面内予測画像生成手段は、前記符号化対象領域に対する前記符号化対象画像と前記第1の視点合成画像との差分画像に対する画面内予測画像である差分画面内予測画像を生成し、当該差分画面内予測画像と前記第1の視点合成画像とを用いて前記画面内予測画像を生成する。
 好適例では、前記符号化対象領域に対して画面内予測方法を設定する画面内予測方法設定手段をさらに有し、
 前記参照画素設定手段は、前記画面内予測方法を用いる際に参照される既に符号化済みの画素群を参照画素とし、
 前記画面内予測画像生成手段は、前記画面内予測方法に基づいて前記画面内予測画像を生成する。
 この場合、前記参照画素視点合成画像生成手段は、前記画面内予測方法に基づいて、前記第2の視点合成画像を生成するようにしても良い。
 別の好適例では、前記参照画素視点合成画像生成手段は、前記画面内予測方法に基づいて、前記第2の視点合成画像を生成する。
 この場合、前記参照画素視点合成画像生成手段は、前記符号化対象領域内において該符号化対象領域外の画素と接する画素群に対応する前記第1の視点合成画像の画素群を用いて、前記第2の視点合成画像を生成するようにしても良い。
 本発明はまた、複数の異なる視点の画像からなる多視点画像の符号データから、復号対象画像を復号する際に、復号対象画像とは異なる視点に対する復号済みの参照視点画像と、前記参照視点画像中の被写体に対する参照デプスマップとを用いて、異なる視点間で画像を予測しながら、前記復号対象画像を分割した領域である復号対象領域毎に復号を行う画像復号装置であって、
 前記参照視点画像と前記参照デプスマップとを用いて、前記復号対象領域に対する第1の視点合成画像を生成する復号対象領域視点合成画像生成手段と、
 前記復号対象領域を画面内予測する際に参照される既に復号済みの画素群を参照画素として設定する参照画素設定手段と、
 前記第1の視点合成画像を用いて、前記参照画素に対する第2の視点合成画像を生成する参照画素視点合成画像生成手段と、
 前記参照画素に対する復号画像と前記第2の視点合成画像を用いて、前記復号対象領域に対する画面内予測画像を生成する画面内予測画像生成手段と
 を有することを特徴とする画像復号装置も提供する。
 典型的には、前記画面内予測画像生成手段は、前記復号対象領域に対する前記復号対象画像と前記第1の視点合成画像との差分画像に対する画面内予測画像である差分画面内予測画像を生成し、当該差分画面内予測画像と前記第1の視点合成画像とを用いて前記画面内予測画像を生成する。
 好適例では、前記復号対象領域に対して画面内予測方法を設定する画面内予測方法設定手段をさらに有し、
 前記参照画素設定手段は、前記画面内予測方法を用いる際に参照される既に復号済みの画素群を参照画素とし、
 前記画面内予測画像生成手段は、前記画面内予測方法に基づいて前記画面内予測画像を生成する。
 この場合、前記参照画素視点合成画像生成手段は、前記画面内予測方法に基づいて、前記第2の視点合成画像を生成するようにしても良い。
 別の好適例では、前記参照画素視点合成画像生成手段は、前記第1の視点合成画像から外挿することで前記第2の視点合成画像を生成する。
 この場合、前記参照画素視点合成画像生成手段は、前記復号対象領域内において該復号対象領域外の画素と接する画素群に対応する前記第1の視点合成画像の画素群を用いて、前記第2の視点合成画像を生成するようにしても良い。
 本発明はまた、複数の異なる視点の画像からなる多視点画像を符号化する際に、符号化対象画像とは異なる視点に対する符号化済みの参照視点画像と、前記参照視点画像中の被写体に対する参照デプスマップとを用いて、異なる視点間で画像を予測しながら、前記符号化対象画像を分割した領域である符号化対象領域毎に符号化を行う画像符号化方法であって、
 前記参照視点画像と前記参照デプスマップとを用いて、前記符号化対象領域に対する第1の視点合成画像を生成する符号化対象領域視点合成画像生成ステップと、
 前記符号化対象領域を画面内予測する際に参照される既に符号化済みの画素群を参照画素として設定する参照画素設定ステップと、
 前記第1の視点合成画像を用いて、前記参照画素に対する第2の視点合成画像を生成する参照画素視点合成画像生成ステップと、
 前記参照画素に対する復号画像と前記第2の視点合成画像を用いて、前記符号化対象領域に対する画面内予測画像を生成する画面内予測画像生成ステップと
 を備えることを特徴とする画像符号化方法も提供する。
 本発明はまた、複数の異なる視点の画像からなる多視点画像の符号データから、復号対象画像を復号する際に、復号対象画像とは異なる視点に対する復号済みの参照視点画像と、前記参照視点画像中の被写体に対する参照デプスマップとを用いて、異なる視点間で画像を予測しながら、前記復号対象画像を分割した領域である復号対象領域毎に復号を行う画像復号方法であって、
 前記参照視点画像と前記参照デプスマップとを用いて、前記復号対象領域に対する第1の視点合成画像を生成する復号対象領域視点合成画像生成ステップと、
 前記復号対象領域を画面内予測する際に参照される既に復号済みの画素群を参照画素として設定する参照画素設定ステップと、
 前記第1の視点合成画像を用いて、前記参照画素に対する第2の視点合成画像を生成する参照画素視点合成画像生成ステップと、
 前記参照画素に対する復号画像と前記第2の視点合成画像を用いて、前記復号対象領域に対する画面内予測画像を生成する画面内予測画像生成ステップと
 を備えることを特徴とする画像復号方法も提供する。
 本発明はまた、コンピュータに、前記画像符号化方法を実行させるための画像符号化プログラムも提供する。
 本発明はまた、コンピュータに、前記画像復号方法を実行させるための画像復号プログラムも提供する。
 本発明によれば、多視点画像または多視点動画像を符号化または復号する際に、処理やメモリアクセスの複雑化を抑えながら、視点合成画像を予測画像とした際の予測残差を空間的に予測符号化することができるという効果が得られる。
本発明の実施形態における画像符号化装置の構成を示すブロック図である。 図1に示す画像符号化装置100の動作を示すフローチャートである。 本発明の実施形態における画像復号装置の構成を示すブロック図である。 図3に示す画像復号装置200の動作を示すフローチャートである。 画像符号化装置100をコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア構成を示すブロック図である。 画像復号装置200をコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア構成を示すブロック図である。 カメラ間で生じる視差を示す概念図である。 エピポーラ幾何拘束の概念図である。
 以下、図面を参照して、本発明の実施形態による画像符号化装置及び画像復号装置を説明する。
 以下の説明においては、第1の視点(視点Aという)、第2の視点(視点Bという)の2つの視点から撮影された多視点画像を符号化する場合を想定し、視点Aの画像を参照視点画像として視点Bの画像を符号化または復号するものとして説明する。
 なお、デプス情報から視差を得るために必要となる情報は別途与えられているものとする。具体的には、視点Aと視点Bの位置関係を表す外部パラメータや、カメラ等による画像平面への投影情報を表す内部パラメータであるが、これら以外の形態であってもデプス情報から視差が得られるものであれば、別の情報が与えられていてもよい。
 これらのカメラパラメータに関する詳しい説明は、例えば、文献「Oliver Faugeras, "Three-Dimension Computer Vision", MIT Press; BCTC/UFF-006.37 F259 1993, ISBN:0-262-06158-9.」に記載されている。この文献には、複数のカメラの位置関係を示すパラメータや、カメラによる画像平面への投影情報を表すパラメータに関する説明が記載されている。
 以下の説明では、画像や映像フレーム、デプスマップに対して、記号[]で挟んで示す、位置を特定可能な情報(座標値もしくは座標値に対応付け可能なインデックス)を付加することで、その位置の画素によってサンプリングされた画像信号や、それに対するデプスを示すものとする。
 また、座標値やブロックに対応付け可能なインデックス値とベクトルの加算によって、その座標やブロックをベクトルの分だけずらした位置の座標値やブロックを表すものとする。
 図1は本実施形態における画像符号化装置の構成を示すブロック図である。
 画像符号化装置100は、図1に示すように、符号化対象画像入力部101、符号化対象画像メモリ102、参照視点画像入力部103、参照視点画像メモリ104、参照デプスマップ入力部105、参照デプスマップメモリ106、符号化対象領域視点合成画像生成部107、参照画素設定部108、参照画素視点合成画像生成部109、イントラ予測画像生成部110、予測残差符号化部111、予測残差復号部112、復号画像メモリ113、及び、4つの加算器114、115、116、117を備えている。
 符号化対象画像入力部101は、符号化対象となる画像を画像符号化装置100に入力する。以下では、この符号化対象となる画像を符号化対象画像と称する。ここでは視点Bの画像を入力するものとする。また、符号化対象画像に対する視点(ここでは視点B)を符号化対象視点と称する。
 符号化対象画像メモリ102は、入力した符号化対象画像を記憶する。
 参照視点画像入力部103は、視点合成画像(視差補償画像)を生成する際に参照する画像を画像符号化装置100に入力する。以下では、ここで入力された画像を参照視点画像と呼ぶ。ここでは視点Aの画像を入力するものとする。
 参照視点画像メモリ104は、入力した参照視点画像を記憶する。
 参照デプスマップ入力部105は、視点合成画像を生成する際に参照するデプスマップを画像符号化装置100に入力する。ここでは、参照視点画像に対するデプスマップを入力するものとするが、別の視点の画像に対するデプスマップでも構わない。以下では、このデプスマップを参照デプスマップと称する。
 なお、デプスマップとは、対応する画像の各画素に写っている被写体の3次元位置を表すものである。別途与えられるカメラパラメータ等の情報によって3次元位置が得られるものであれば、どのような情報でもよい。例えば、カメラから被写体までの距離や、画像平面とは平行ではない軸に対する座標値、別のカメラ(例えば視点Bにおけるカメラ)に対する視差量を用いることができる。
 また、ここでは視差量が得られれば構わないので、デプスマップではなく、視差量を直接表現した視差マップを用いても構わない。
 なお、ここではデプスマップとして画像の形態で渡されるものとしているが、同様の情報が得られるのであれば、画像の形態でなくても構わない。
 以下では、参照デプスマップに対応する視点(ここでは視点A)を参照デプス視点と称する。
 参照デプスマップメモリ106は、入力した参照デプスマップを記録する。
 符号化対象領域視点合成画像生成部107は、参照デプスマップを用いて、符号化対象画像の画素と参照視点画像の画素との対応関係を求め、符号化対象領域における視点合成画像を生成する。
 参照画素設定部108は、符号化対象領域に対してイントラ(画面内)予測を行う際に参照する画素群を設定する。以下では、設定された画素群をまとめて参照画素と称する。
 参照画素視点合成画像生成部109は、符号化対象領域に対する視点合成画像を用いて、参照画素に対する視点合成画像を生成する。
 イントラ予測画像生成部110では、参照画素に対する視点合成画像と(参照画素設定部108から出力される)参照画素における復号画像との差分画像(加算器116から出力される)を用いて、符号化対象領域における符号化対象画像と視点合成画像の差分画像に対するイントラ予測画像を生成する。以下では、この差分画像に対するイントラ予測画像を、差分イントラ予測画像と称する。
 加算器114は、視点合成画像と差分イントラ予測画像とを加算する。
 加算器115は、符号化対象画像と、加算器114の出力の差分を求めることによって、予測残差を出力する。
 予測残差符号化部111では、符号化対象領域における符号化対象画像の予測残差(加算器115の出力)を符号化する。
 予測残差復号部112では、符号化された予測残差を復号する。
 加算器117は、加算器114の出力と復号された予測残差とを加算して、復号された符号化対象画像を出力する。
 復号画像メモリ113では、復号された符号化対象画像を記憶する。
 次に、図2を参照して、図1に示す画像符号化装置100の動作を説明する。図2は、図1に示す画像符号化装置100の動作を示すフローチャートである。
 まず、符号化対象画像入力部101は符号化対象画像Orgを画像符号化装置100に入力し、符号化対象画像メモリ102に記憶する。参照視点画像入力部103は参照視点画像を画像符号化装置100に入力し、参照視点画像メモリ104に記憶する。参照デプスマップ入力部105は参照デプスマップを画像符号化装置100に入力し、参照デプスマップメモリ106に記憶する(ステップS101)。
 なお、ステップS101で入力される参照視点画像と参照デプスマップは、既に符号化済みのものを復号したものなど、復号側で得られるものと同じものとする。これは復号装置で得られるものと全く同じ情報を用いることで、ドリフト等の符号化ノイズの発生を抑えるためである。ただし、そのような符号化ノイズの発生を許容する場合には、符号化前のものなど、符号化側でしか得られないものが入力されてもよい。
 参照デプスマップに関しては、既に符号化済みのものを復号したもの以外に、複数のカメラに対して復号された多視点画像に対してステレオマッチング等を適用することで推定したデプスマップや、復号された視差ベクトルや動きベクトルなどを用いて推定されるデプスマップなども、復号側で同じものが得られるものとして用いることができる。
 また、他の視点に対する画像符号化装置などが別途存在し、必要な領域の画像やデプスマップをそのつど取得することが可能な場合、画像符号化装置100の内部に画像やデプスマップのメモリを備える必要はなく、下記で説明する領域毎に必要な情報を、適切なタイミングで画像符号化装置100に入力するようにしても構わない。
 符号化対象画像、参照視点画像、参照デプスマップの入力が終了したら、符号化対象画像を予め定められた大きさの領域に分割し、分割した領域毎に、符号化対象画像の画像信号を予測符号化する(ステップS102~S112)。
 すなわち、符号化対象領域インデックスをblk、符号化対象画像中の総符号化対象領域数をnumBlksで表すとすると、blkを0で初期化し(ステップS102)、その後、blkに1を加算しながら(ステップS111)、blkがnumBlksになるまで(ステップS112)、以下の処理(ステップS103~S110)を繰り返す。
 一般的な符号化では、16画素×16画素のマクロブロックと呼ばれる処理単位ブロックへ分割するが、復号側と同じであればその他の大きさのブロックに分割してもよい。また、場所毎に異なる大きさのブロックに分割しても構わない。
 符号化対象領域毎に繰り返される処理では、まず、符号化対象領域視点合成画像生成部107は、符号化対象領域blkに対する視点合成画像Synを生成する(ステップS103)。
 ここでの処理は、参照視点画像と参照デプスマップとを用いて、符号化対象領域blkに対する画像を合成する方法であれば、どのような方法を用いても構わない。例えば、非特許文献2や文献「L. Zhang, G. Tech, K. Wegner, and S. Yea, "Test Model 7of 3D-HEVC and MV-HEVC", Joint Collaborative Team on 3D Video Coding Extension Development of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11, Doc. JCT3V-G1005, San Jose, US, Jan. 2014.」に記載されている方法を用いても構わない。
 次に、参照画素設定部108は、復号画像メモリ113に記憶されている既に符号化済みの領域に対する復号画像Decから、符号化対象領域blkに対するイントラ予測を行う際に用いる参照画素Refを設定する(ステップS104)。どのようなイントラ予測を用いても構わないが、イントラ予測の方法に基づいて参照画素が設定される。
 例えば、非特許文献1に記載の動画像圧縮符号化標準H.265(通称HEVC)のイントラ予測の方法を用いる場合、符号化対象領域の大きさをN画素×N画素(Nは2以上の自然数)とすると、符号化対象領域blkの近傍4N+1個の画素を参照画素として設定する。
 具体的には、符号化対象領域blk内の左上の画素位置を[x,y]=[0,0]とすると、x=-1かつ-1≦y≦2N-1、または、-1≦x≦2N-1かつy=-1の画素位置の参照画素となる。参照画像は、これらの位置に対する復号画像が復号画像メモリに含まれているか否かに従って、下記の通り準備される。
(1)参照画素の全ての画素位置に対して復号画像が得られている場合は、Ref[x,y]=Dec[x,y]とする。
(2)参照画素の全ての画素位置に対して復号画像が得られていない場合は、Ref[x,y]=1<<(BitDepth-1)とする。
 なお、<<は左ビットシフト演算を表し、BitDepthは符号化対象画像の画素値のビット深度を表す。
(3)その他の場合:
 ・[-1,2N-1]~[-1,-1]~[2N-1,-1]の順で4N+1個の参照画素の画素位置を走査し、最初に復号画像が存在する位置[x,y]を求める。
 ・Ref[-1,2N-1]=Dec[x,y]とする。
 ・[-1,2N-2]~[-1,-1]の順に走査し、注目画素位置[-1,y]における復号画像が得られている場合は、Ref[-1,y]=Dec[-1,y]とする。[-1,y]における復号画像が得られていない場合は、Ref[-1,y]=Ref[-1,y+1]とする。
 ・[0,-1]~[2N-1,-1]の順に走査し、注目画素位置[x,-1]における復号画像が得られている場合は、Ref[x,-1]=Dec[x,-1]とする。[x,-1]における復号画像が得られていない場合は、Ref[x,-1]=Ref[x-1,-1]とする。
 なお、HEVCのイントラ予測の一種である方向性予測では、このようにして設定された参照画素を直接使用するのではなく、間引き転写と呼ばれる処理によって参照画素を更新した後に、更新された参照画像を用いて予測画像を生成する。前述の説明では間引き転写を行う前の参照画素を設定しているが、間引き転写を行い、更新した参照画素を新たに参照画素として設定しても構わない。間引き転写に関する詳しい説明は、非特許文献1(第8.4.4.2.6節,pp. 109-111)に記載されている。
 参照画素の設定が完了したら、次に、参照画素視点合成画像生成部109は、参照画素に対する視点合成画像Syn’を生成する(ステップS105)。ここでの処理は、復号側で同じ処理が可能であり、符号化対象領域blkに対する視点合成画像を用いて生成が行われれば、どのような方法を用いても構わない。
 例えば、参照画素の画素位置毎に、符号化対象領域blk内で最も距離が近い画素に対する視点合成画像を割り当てても構わない。前述のHEVCにおける参照画素の場合、生成される参照画素に対する視点合成画像は次の(1)~(5)式で表される。
 Syn’[-1,-1]=Syn[0,0]          ・・・(1)
 Syn’[-1,y]=Syn[0,y](0≦y≦N-1)  ・・・(2)
 Syn’[-1,y]=Syn[0,N-1](N≦y≦2N-1) ・・・(3)
 Syn’[x,-1]=Syn[x,0](0≦x≦N-1)  ・・・(4)
 Syn’[x,-1]=Syn[N-1,0](0≦x≦2N-1) ・・・(5)
 別の方法としては、参照画素の画素位置毎に、符号化対象領域と隣接する画素には当該隣接する画素の(符号化対象領域における)視点合成画像を割り当て、符号化対象領域と隣接しない画素には、斜め45度方向にある最も近い符号化対象領域内の画素の視点合成画像を割り当てても構わない。
 前述のHEVCにおける参照画素の場合、この方式によれば、生成される参照画素に対する視点合成画像は次の(6)~(10)式で表される。
 Syn’[-1,-1]=Syn[0,0]           ・・・(6)
 Syn’[-1,y]=Syn[0,y]  (0≦y≦N-1) ・・・(7)
 Syn’[-1,y]=Syn[y-N,N-1](N≦y≦2N-1)・・・(8)
 Syn’[x,-1]=Syn[x,0]  (0≦x≦N-1) ・・・(9)
 Syn’[x,-1]=Syn[N-1,x-N](N≦x≦2N-1)・・・(10)
 なお、斜め45度以外の角度を用いても構わないし、使用するイントラ予測の予測方向に基づいた角度を用いても構わない。例えばイントラ予測の予測方向にある最も近い符号化対象画像内の画素の視点合成画像を割り当てても構わない。
 さらに別の方法としては、符号化対象領域に対する視点合成画像を解析して外挿処理することで生成しても構わない。外挿処理には任意のアルゴリズムを用いても構わない。例えば、イントラ予測で用いられる予測方向を用いた外挿であっても、イントラ予測で用いられる予測方向とは無関係で符号化対象領域に対する視点合成画像のテクスチャの方向性を考慮した外挿であっても構わない。
 また、ここではイントラ予測の方法に関わらず、イントラ予測で参照される可能性のある画素全てに対して視点合成画像を生成したが、事前にイントラ予測の方法を決定し、その方法に基づいて実際に参照される画素に対してのみ視点合成画像を生成しても構わない。
 HEVCのイントラ方向性予測を行う場合のように、参照画素が隣接画素から間引き転写によって更新されている場合、直接更新後の位置に対する視点合成画像を生成しても構わない。また、参照画素の更新を行う場合と同様に、更新前の参照画素に対する視点合成画像を生成した後に、参照画素に対して行う更新と同じ方法で参照画素に対する視点合成画像の更新を行うことで、更新後の参照画素位置に対する視点合成画像を生成しても構わない。
 参照画素に対する視点合成画像の生成が完了したら、加算器116は、参照画素視点合成画像生成部109の出力と、参照画素設定部108の出力の差分(参照画素に対する差分画像VSRes)を次の(11)式に従って生成する(ステップS106)。
 なお、ここではRefとSynを同じ比率で減算しているが、重み付け減算を行っても構わない。その場合は復号側と同じ重みを利用する必要がある。
 VSRes[x,y]=Ref[x,y]-Syn’[x,y] ・・・(11)
 次に、イントラ予測画像生成部110において、参照画素に対する差分画像を用いて、符号化対象領域blkにおける差分イントラ予測画像RPredを生成する(ステップS107)。参照画素を用いて予測画像を生成するものであれば、どのようなイントラ予測の方法を用いても構わない。
 差分イントラ予測画像が得られたら、符号化対象領域blkにおける符号化対象画像の予測画像Predを、次の(12)式に示す通り、視点合成画像と差分イントラ予測画像の和を画素毎に加算器114によって計算することで生成する(ステップS108)。
 Pred[blk]=Syn[blk]+RPred[blk] ・・・(12)
 ここでは、視点合成画像と差分イントラ予測画像を加算した結果をそのまま予測画像としているが、画素毎に、加算結果を符号化対象画像の画素値の値域でクリッピングした結果を予測画像としても構わない。
 さらに、ここではSynとRPredを同じ比率で加えているが、重み付け加算を行っても構わない。その場合は復号側と同じ重みを利用する必要がある。
 また、ここでの重みは、参照画像に対する差分画像を生成する際の重みに従って決定してもよい。例えば、参照画像に対する差分画像を生成する際のSynに対する比率とここでのSynの比率を同一にしても構わない。
 予測画像が得られたら、加算器115は、加算器114の出力と、符号化対象画像メモリ102に記憶されている符号化対象画像との差分(予測残差)を求める。そして、予測残差符号化部111は、符号化対象画像と予測画像の差分である予測残差を符号化する(ステップS109)。符号化の結果得られるビットストリームが、画像符号化装置100の出力となる。
 なお、符号化の方法には、どのような方法を用いてもよい。MPEG-2やH.264/AVC、HEVCなどの一般的な符号化では、差分残差に対して、DCTなどの周波数変換、量子化、2値化、エントロピー符号化を順に施すことで符号化を行う。
 次に、予測残差復号部112は予測残差Resを復号し、(13)式で示すように、予測画像Predと予測残差を加算器117によって足し合わせることで、復号画像Decを生成する(ステップS110)。
 Dec[blk]=Pred[blk]+Res[blk] ・・・(13)
 なお・BR>A予測画像と予測残差を足し合わせた後に画素値の値域でクリッピングを行っても構わない。
 得られた復号画像は、他の符号化領域の予測に使用するために、復号画像メモリ113に記憶される。
 なお、予測残差の復号には、符号化時に用いた手法に対応する手法を用いる。例えば、MPEG-2やH.264/AVC、HEVCなどの一般的な符号化であれば、ビットストリームに対して、エントロピー復号、逆2値化、逆量子化、IDCTなどの周波数逆変換を順に施すことで復号を行う。
 ここではビットストリームから復号を行うものとしたが、符号化側での処理がロスレスになる直前のデータを受け取り、簡略化した復号処理によって復号処理を行ってもよい。すなわち、前述の例であれば、符号化時に量子化処理を加えた後の値を受け取り、その量子化後の値に逆量子化、周波数逆変換を順に施すことで復号処理を行うことが可能である。
 また、ここでは、画像符号化装置100は、画像信号に対するビットストリームを出力している。すなわち、画像サイズ等の情報を示すパラメータセットやヘッダは、必要に応じて、画像符号化装置100の出力したビットストリームに対して、別途追加されるものとする。
 次に、本実施形態における画像復号装置について説明する。図3は本実施形態における画像復号装置の構成を示すブロック図である。
 画像復号装置200は、図3に示すように、ビットストリーム入力部201、ビットストリームメモリ202、参照視点画像入力部203、参照視点画像メモリ204、参照デプスマップ入力部205、参照デプスマップメモリ206、復号対象領域視点合成画像生成部207、参照画素設定部208、参照画素視点合成画像生成部209、イントラ予測画像生成部210、予測残差復号部211、復号画像メモリ212、及び、3つの加算器213、214、215を備えている。
 ビットストリーム入力部201は、復号対象となる画像のビットストリームを画像復号装置200に入力する。以下では、この復号対象となる画像を復号対象画像と呼ぶ。ここでは視点Bの画像を指す。また、以下では、復号対象画像に対する視点(ここでは視点B)を復号対象視点と称する。
 ビットストリームメモリ202は、入力した復号対象画像に対するビットストリームを記憶する。
 参照視点画像入力部203は、視点合成画像(視差補償画像)を生成する際に参照する画像を画像復号装置200に入力する。以下では、ここで入力された画像を参照視点画像と呼ぶ。ここでは視点Aの画像を入力するものとする。
 参照視点画像メモリ204は、入力した参照視点画像を記憶する。
 参照デプスマップ入力部205は、視点合成画像を生成する際に参照するデプスマップを画像復号装置200に入力する。ここでは、参照視点画像に対するデプスマップを入力するものとするが、別の視点の画像に対するデプスマップでも構わない。以下では、このデプスマップを参照デプスマップと称する。
 なお、デプスマップとは対応する画像の各画素に写っている被写体の3次元位置を表すものである。別途与えられるカメラパラメータ等の情報によって3次元位置が得られるものであれば、どのような情報でもよい。例えば、カメラから被写体までの距離や、画像平面とは平行ではない軸に対する座標値、別のカメラ(例えば視点Bにおけるカメラ)に対する視差量を用いることができる。
 また、ここでは視差量が得られれば構わないので、デプスマップではなく、視差量を直接表現した視差マップを用いても構わない。
 なお、ここではデプスマップとして画像の形態で渡されるものとしているが、同様の情報が得られるのであれば、画像の形態でなくても構わない。
 以下では、参照デプスマップに対応する視点(ここでは視点A)を参照デプス視点と称する。
 参照デプスマップメモリ206は、入力した参照デプスマップを記憶する。
 復号対象領域視点合成画像生成部207は、参照デプスマップを用いて、復号対象画像の画素と参照視点画像の画素との対応関係を求め、復号対象領域における視点合成画像を生成する。
 参照画素設定部208は、復号対象領域に対してイントラ予測を行う際に参照する画素群を設定する。以下では、設定された画素群をまとめて参照画素と称する。
 参照画像視点合成画像生成部209は、復号対象領域における視点合成画像を用いて、参照画素における視点合成画像を生成する。
 加算器215は、参照画素における、復号画像と視点合成画像の差分画像を出力する。
 イントラ予測画像生成部210では、この、参照画素における復号画像と視点合成画像の差分画像を用いて、復号化対象領域における復号対象画像と視点合成画像の差分画像に対するイントラ予測画像を生成する。以下では差分画像に対するイントラ予測画像を差分イントラ予測画像と称する。
 予測残差復号部211では、ビットストリームから復号対象領域における復号対象画像の予測残差を復号する。
 加算器213は、復号対象領域における視点合成画像と差分イントラ予測画像を加算して出力する。
 加算器214は、加算器213の出力と復号された予測残差とを加算して出力する。
 復号画像メモリ212では、復号された復号対象画像を記憶する。
 次に、図4を参照して、図3に示す画像復号装置200の動作を説明する。図4は、図3に示す画像復号装置200の動作を示すフローチャートである。
 まず、ビットストリーム入力部201は、復号対象画像を符号化した結果のビットストリームを画像復号装置200に入力し、ビットストリームメモリ202に記憶する。参照視点画像入力部203は参照視点画像を画像復号装置200に入力し、参照視点画像メモリ204に記憶する。参照デプスマップ入力部205は参照デプスマップを画像復号装置200に入力し、参照デプスマップメモリ206に記憶する(ステップS201)。
 なお、ステップS201で入力される参照視点画像と参照デプスマップは、符号化側で使用されたものと同じものとする。これは画像符号化装置で得られるものと全く同じ情報を用いることで、ドリフト等の符号化ノイズの発生を抑えるためである。ただし、そのような符号化ノイズの発生を許容する場合には、符号化時に使用されたものと異なるものが入力されてもよい。
 参照デプスマップに関しては、別途復号したもの以外に、複数のカメラに対して復号された多視点画像に対してステレオマッチング等を適用することで推定したデプスマップや、復号された視差ベクトルや動きベクトルなどを用いて推定されるデプスマップなどを用いることもある。
 また、他の視点に対する画像復号装置などが別途存在し、必要な領域の画像やデプスマップをそのつど取得することが可能な場合、画像復号装置200の内部に画像やデプスマップのメモリを備える必要はなく、下記で説明する領域毎に必要な情報を、適切なタイミングで画像復号装置200に入力するようにしても構わない。
 ビットストリーム、参照視点画像、参照デプスマップの入力が終了したら、復号対象画像を予め定められた大きさの領域に分割し、分割した領域毎に、復号対象画像の画像信号を復号する(ステップS202~S211)。
 すなわち、復号対象領域インデックスをblk、復号対象画像中の総復号対象領域数をnumBlksで表すとすると、blkを0で初期化し(ステップS202)、その後、blkに1を加算しながら(ステップS210)、blkがnumBlksになるまで(ステップS211)、以下の処理(ステップS203~S209)を繰り返す。
 一般的な復号では、16画素×16画素のマクロブロックと呼ばれる処理単位ブロックへ分割するが、符号化側と同じであればその他の大きさのブロックに分割してもよい。また、場所毎に異なる大きさのブロックに分割しても構わない。
 復号対象領域毎に繰り返される処理では、まず、復号対象領域視点合成画像生成部207は、復号対象領域blkにおける視点合成画像Synを生成する(ステップS203)。
 ここでの処理は前述した符号化時のステップS103と同じである。なお、ドリフト等の符号化ノイズの発生を抑えるためには、符号化時に使用された方法と同じ方法を用いる必要があるが、そのような符号化ノイズの発生を許容する場合には、符号化時に使用された方法と異なる方法を使用しても構わない。
 次に、参照画素設定部208は、復号画像メモリ212に記憶されている既に復号済みの領域に対する復号画像Decから、復号対象領域blkに対するイントラ予測を行う際に用いる参照画素Refを設定する(ステップS204)。ここでの処理は前述した符号化時のステップS104と同じである。
 なお、符号化時と同じ方法であるならば、どのようなイントラ予測を用いても構わないが、イントラ予測の方法に基づいて参照画素が設定される。
 参照画素の設定が完了したら、次に、参照画素視点合成画像生成部209は、参照画素に対する視点合成画像Syn’を生成する(ステップS205)。ここでの処理は前述した符号化時のステップS105と同じであり、符号化時と同じ方法であるならば、どのような方法を用いても構わない。
 参照画素に対する視点合成画像の生成が完了したら、加算器215は、参照画素に対する差分画像VSResを生成する(ステップS206)。その後、生成した参照画素に対する差分画像を用いて、イントラ予測画像生成部210は、差分イントラ予測画像RPredを生成する(ステップS207)。
 ここでの処理は前述した符号化時のステップS106およびS107と同じであり、符号化時と同じ方法であるならば、どのような方法を用いても構わない。
 差分イントラ予測画像が得られたら、加算器213は、復号対象領域blkにおける復号対象画像の予測画像Predを生成する(ステップS208)。ここでの処理は前述した符号化時のステップS108と同じである。
 予測画像が得られたら、予測残差復号部211は、ビットストリームから復号対象領域blkの予測残差を復号し、予測画像と予測残差を加算器214によって足し合わせることで復号画像Decを生成する(ステップS209)。
 なお、復号には符号化時に用いられた方法に対応する方法を用いる。例えば、MPEG-2やH.264/AVC、HEVCなどの一般的な符号化が用いられている場合は、ビットストリームに対して、エントロピー復号、逆2値化、逆量子化、IDCTなどの周波数逆変換を順に施すことで復号を行う。
 得られた復号画像は、画像復号装置200の出力になると共に、他の復号対象領域の予測に使用するために、復号画像メモリ212に記憶される。
 また、ここでは、画像復号装置200には画像信号に対するビットストリームが入力される。すなわち、画像サイズ等の情報を示すパラメータセットやヘッダは、必要に応じて、画像復号装置200の外側で解釈され、復号に必要な情報は画像復号装置200へ通知されるものとする。
 前述した説明においては、画像全体を符号化/復号する処理として説明したが、画像の一部分のみに適用することも可能である。この場合、処理を適用するか否かを判断して、それを示すフラグを符号化または復号してもよいし、なんらか別の手段でそれを指定してもよい。例えば、領域毎の予測画像を生成する手法を示すモードの1つとして表現するようにしてもよい。
 また、複数のイントラ予測の方法から領域毎に1つを選択しながら符号化又は復号を行っても構わない。その場合、領域毎に用いるイントラ予測の方法が符号化時と復号時で一致している必要がある。
 どのように一致させても構わないが、使用したイントラ予測の方法をモード情報として符号化し、ビットストリーム内に含めて復号側へ通知しても構わない。この場合、復号時には、ビットストリームから、領域毎に使用したイントラ予測の方法を示す情報を復号し、復号した情報に基づいて差分イントラ予測画像の生成を行う必要がある。
 なお、そのような情報を符号化せずに符号化側と同じイントラ予測の方法を用いる手法としては、フレーム内の位置や既に復号済みの情報を用いて、符号化側と復号側で同一の推定処理を行うことで、同じイントラ予測の方法を用いることができる。
 前述した説明においては、1フレームを符号化及び復号する処理を説明したが、複数フレーム繰り返すことで動画像符号化にも適用することができる。また、動画像の一部のフレームや一部のブロックにのみ適用することもできる。
 さらに、前述した説明では画像符号化装置及び画像復号装置の構成及び処理動作を説明したが、これら画像符号化装置及び画像復号装置の各部の動作に対応した処理動作によって本発明の画像符号化方法及び画像復号方法を実現することができる。
 また、前述した説明においては、参照デプスマップが符号化対象カメラまたは復号対象カメラとは異なるカメラで撮影された画像に対するデプスマップであるとして説明を行ったが、符号化対象画像または復号対象画像とは異なる時刻に、符号化対象カメラまたは復号対象カメラによって撮影された画像に対するデプスマップを、参照デプスマップとして用いても構わない。
 図5は、前述した画像符号化装置100をコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア構成を示すブロック図である。
 図5に示すシステムは:
・プログラムを実行するCPU50
・CPU50がアクセスするプログラムやデータが格納されるRAM等のメモリ51
・カメラ等からの符号化対象の画像信号を画像符号化装置内に入力する符号化対象画像入力部52(ディスク装置等による画像信号を記憶する記憶部でもよい)
・カメラ等からの参照視点の画像信号を画像符号化装置内に入力する参照視点画像入力部53(ディスク装置等による画像信号を記憶する記憶部でもよい)
・(デプス情報を取得するための)デプスカメラ等からの、符号化対象視点及び参照視点画像と同じシーンを撮影したカメラに対するデプスマップを画像符号化装置内に入力する参照デプスマップ入力部54(ディスク装置等によるデプスマップを記憶する記憶部でもよい)
・画像符号化処理をCPU50に実行させるソフトウェアプログラムである画像符号化プログラム551が格納されたプログラム記憶装置55
・CPU50がメモリ51にロードされた画像符号化プログラム551を実行することにより生成されたビットストリームを、例えばネットワークを介して出力するビットストリーム出力部56(ディスク装置等によるビットストリームを記憶する記憶部でもよい) とが、バスで接続された構成になっている。
 図6は、前述した画像復号装置200をコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア構成を示すブロック図である。図6に示すシステムは:

・プログラムを実行するCPU60
・CPU60がアクセスするプログラムやデータが格納されるRAM等のメモリ61
・画像符号化装置が本手法により符号化したビットストリームを画像復号装置内に入力するビットストリーム入力部62(ディスク装置等による画像信号を記憶する記憶部でもよい)
・カメラ等からの参照視点の画像信号を画像復号装置内に入力する参照視点画像入力部63(ディスク装置等による画像信号を記憶する記憶部でもよい)
・デプスカメラ等からの、復号対象画像及び参照視点画像と同じシーンを撮影したカメラに対するデプスマップを画像復号装置内に入力する参照デプスマップ入力部64(ディスク装置等によるデプス情報を記憶する記憶部でもよい)
・画像復号処理をCPU60に実行させるソフトウェアプログラムである画像復号プログラム651が格納されたプログラム記憶装置65
・CPU60がメモリ61にロードされた画像復号プログラム651を実行することにより、ビットストリームを復号して得られた復号対象画像を、再生装置などに出力する復号対象画像出力部66(ディスク装置等による画像信号を記憶する記憶部でもよい)
 とが、バスで接続された構成になっている。
 以上説明したように、視点合成画像を予測画像とした場合の予測残差を空間的に予測符号化する際に、予測対象領域に対する視点合成画像から、予測残差時の参照画像における視点合成画像を推定することで、視点合成画像生成における視差補償予測の処理を複雑化させずに、少ない処理量で多視点画像及び多視点動画像を符号化/復号することができる。
 前述した実施形態における画像符号化装置100及び画像復号装置200をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。
 なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
 また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
 さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。
 また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、PLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されるものであってもよい。
 以上、図面を参照して本発明の実施の形態を説明してきたが、上記実施の形態は本発明の例示に過ぎず、本発明が上記実施の形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行ってもよい。
 符号化(復号)対象画像を撮影したカメラとは異なる位置から撮影された画像とその画像中の被写体に対するデプスマップを用いて、符号化(復号)対象画像に対する視点合成画像を用いた予測符号化を行う際に、視点合成画像が必要な領域の増加に伴うメモリアクセスや処理の増加及び複雑化を抑えながら、符号化(復号)対象画像と視点合成画像の差分画像を空間的に予測符号化することで、高い符号化効率を達成することが不可欠な用途に適用できる。
100・・・画像符号化装置
101・・・符号化対象画像入力部
102・・・符号化対象画像メモリ
103・・・参照視点画像入力部
104・・・参照視点画像メモリ
105・・・参照デプスマップ入力部
106・・・参照デプスマップメモリ
107・・・符号化対象領域視点合成画像生成部
108・・・参照画素設定部
109・・・参照画素視点合成画像生成部
110・・・イントラ予測画像生成部
111・・・予測残差符号化部
112・・・予測残差復号部
113・・・復号画像メモリ
114、115、116、117・・・加算器
200・・・画像復号装置
201・・・ビットストリーム入力部
202・・・ビットストリームメモリ
203・・・参照視点画像入力部
204・・・参照視点画像メモリ
205・・・参照デプスマップ入力部
206・・・参照デプスマップメモリ
207・・・復号対象領域視点合成画像生成部
208・・・参照画素設定部
209・・・参照画素視点合成画像生成部
210・・・イントラ予測画像生成部
211・・・予測残差復号部
212・・・復号画像メモリ
213、214、215・・・加算器

Claims (16)

  1.  複数の異なる視点の画像からなる多視点画像を符号化する際に、符号化対象画像とは異なる視点に対する符号化済みの参照視点画像と、前記参照視点画像中の被写体に対する参照デプスマップとを用いて、異なる視点間で画像を予測しながら、前記符号化対象画像を分割した領域である符号化対象領域毎に符号化を行う画像符号化装置であって、
     前記参照視点画像と前記参照デプスマップとを用いて、前記符号化対象領域に対する第1の視点合成画像を生成する符号化対象領域視点合成画像生成手段と、
     前記符号化対象領域を画面内予測する際に参照される既に符号化済みの画素群を参照画素として設定する参照画素設定手段と、
     前記第1の視点合成画像を用いて、前記参照画素に対する第2の視点合成画像を生成する参照画素視点合成画像生成手段と、
     前記参照画素に対する復号画像と前記第2の視点合成画像を用いて、前記符号化対象領域に対する画面内予測画像を生成する画面内予測画像生成手段と
     を有することを特徴とする画像符号化装置。
  2.  前記画面内予測画像生成手段は、前記符号化対象領域に対する前記符号化対象画像と前記第1の視点合成画像との差分画像に対する画面内予測画像である差分画面内予測画像を生成し、当該差分画面内予測画像と前記第1の視点合成画像とを用いて前記画面内予測画像を生成することを特徴とする請求項1に記載の画像符号化装置。
  3.  前記符号化対象領域に対して画面内予測方法を設定する画面内予測方法設定手段をさらに有し、
     前記参照画素設定手段は、前記画面内予測方法を用いる際に参照される既に符号化済みの画素群を参照画素とし、
     前記画面内予測画像生成手段は、前記画面内予測方法に基づいて前記画面内予測画像を生成することを特徴とする請求項1に記載の画像符号化装置。
  4.  前記参照画素視点合成画像生成手段は、前記画面内予測方法に基づいて、前記第2の視点合成画像を生成することを特徴とする請求項3に記載の画像符号化装置。
  5.  前記参照画素視点合成画像生成手段は、前記第1の視点合成画像から外挿することで前記第2の視点合成画像を生成することを特徴とする請求項1に記載の画像符号化装置。
  6.  前記参照画素視点合成画像生成手段は、前記符号化対象領域内において該符号化対象領域外の画素と接する画素群に対応する前記第1の視点合成画像の画素群を用いて、前記第2の視点合成画像を生成することを特徴とする請求項5に記載の画像符号化装置。
  7.  複数の異なる視点の画像からなる多視点画像の符号データから、復号対象画像を復号する際に、復号対象画像とは異なる視点に対する復号済みの参照視点画像と、前記参照視点画像中の被写体に対する参照デプスマップとを用いて、異なる視点間で画像を予測しながら、前記復号対象画像を分割した領域である復号対象領域毎に復号を行う画像復号装置であって、
     前記参照視点画像と前記参照デプスマップとを用いて、前記復号対象領域に対する第1の視点合成画像を生成する復号対象領域視点合成画像生成手段と、
     前記復号対象領域を画面内予測する際に参照される既に復号済みの画素群を参照画素として設定する参照画素設定手段と、
     前記第1の視点合成画像を用いて、前記参照画素に対する第2の視点合成画像を生成する参照画素視点合成画像生成手段と、
     前記参照画素に対する復号画像と前記第2の視点合成画像を用いて、前記復号対象領域に対する画面内予測画像を生成する画面内予測画像生成手段と
     を有することを特徴とする画像復号装置。
  8.  前記画面内予測画像生成手段は、前記復号対象領域に対する前記復号対象画像と前記第1の視点合成画像との差分画像に対する画面内予測画像である差分画面内予測画像を生成し、当該差分画面内予測画像と前記第1の視点合成画像とを用いて前記画面内予測画像を生成することを特徴とする請求項7に記載の画像復号装置。
  9.  前記復号対象領域に対して画面内予測方法を設定する画面内予測方法設定手段をさらに有し、
     前記参照画素設定手段は、前記画面内予測方法を用いる際に参照される既に復号済みの画素群を参照画素とし、
     前記画面内予測画像生成手段は、前記画面内予測方法に基づいて前記画面内予測画像を生成することを特徴とする請求項7に記載の画像復号装置。
  10.  前記参照画素視点合成画像生成手段は、前記画面内予測方法に基づいて、前記第2の視点合成画像を生成することを特徴とする請求項9に記載の画像復号装置。
  11.  前記参照画素視点合成画像生成手段は、前記第1の視点合成画像から外挿することで前記第2の視点合成画像を生成することを特徴とする請求項7に記載の画像復号装置。
  12.  前記参照画素視点合成画像生成手段は、前記復号対象領域内において該復号対象領域外の画素と接する画素群に対応する前記第1の視点合成画像の画素群を用いて、前記第2の視点合成画像を生成することを特徴とする請求項11に記載の画像復号装置。
  13.  複数の異なる視点の画像からなる多視点画像を符号化する際に、符号化対象画像とは異なる視点に対する符号化済みの参照視点画像と、前記参照視点画像中の被写体に対する参照デプスマップとを用いて、異なる視点間で画像を予測しながら、前記符号化対象画像を分割した領域である符号化対象領域毎に符号化を行う画像符号化方法であって、
     前記参照視点画像と前記参照デプスマップとを用いて、前記符号化対象領域に対する第1の視点合成画像を生成する符号化対象領域視点合成画像生成ステップと、
     前記符号化対象領域を画面内予測する際に参照される既に符号化済みの画素群を参照画素として設定する参照画素設定ステップと、
     前記第1の視点合成画像を用いて、前記参照画素に対する第2の視点合成画像を生成する参照画素視点合成画像生成ステップと、
     前記参照画素に対する復号画像と前記第2の視点合成画像を用いて、前記符号化対象領域に対する画面内予測画像を生成する画面内予測画像生成ステップと
     を備えることを特徴とする画像符号化方法。
  14.  複数の異なる視点の画像からなる多視点画像の符号データから、復号対象画像を復号する際に、復号対象画像とは異なる視点に対する復号済みの参照視点画像と、前記参照視点画像中の被写体に対する参照デプスマップとを用いて、異なる視点間で画像を予測しながら、前記復号対象画像を分割した領域である復号対象領域毎に復号を行う画像復号方法であって、
     前記参照視点画像と前記参照デプスマップとを用いて、前記復号対象領域に対する第1の視点合成画像を生成する復号対象領域視点合成画像生成ステップと、
     前記復号対象領域を画面内予測する際に参照される既に復号済みの画素群を参照画素として設定する参照画素設定ステップと、
     前記第1の視点合成画像を用いて、前記参照画素に対する第2の視点合成画像を生成する参照画素視点合成画像生成ステップと、
     前記参照画素に対する復号画像と前記第2の視点合成画像を用いて、前記復号対象領域に対する画面内予測画像を生成する画面内予測画像生成ステップと
     を備えることを特徴とする画像復号方法。
  15.  コンピュータに、請求項13に記載の画像符号化方法を実行させるための画像符号化プログラム。
  16.  コンピュータに、請求項14に記載の画像復号方法を実行させるための画像復号プログラム。
PCT/JP2015/057631 2014-03-20 2015-03-16 画像符号化装置及び方法、画像復号装置及び方法、及び、それらのプログラム WO2015141613A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201580014206.2A CN106063273A (zh) 2014-03-20 2015-03-16 图像编码装置及方法、图像解码装置及方法、以及它们的程序
US15/122,551 US20170070751A1 (en) 2014-03-20 2015-03-16 Image encoding apparatus and method, image decoding apparatus and method, and programs therefor
JP2016508711A JP6307152B2 (ja) 2014-03-20 2015-03-16 画像符号化装置及び方法、画像復号装置及び方法、及び、それらのプログラム
KR1020167024968A KR20160118363A (ko) 2014-03-20 2015-03-16 화상 부호화 장치 및 방법, 화상 복호 장치 및 방법, 및 이들의 프로그램

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014058902 2014-03-20
JP2014-058902 2014-03-20

Publications (1)

Publication Number Publication Date
WO2015141613A1 true WO2015141613A1 (ja) 2015-09-24

Family

ID=54144582

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/057631 WO2015141613A1 (ja) 2014-03-20 2015-03-16 画像符号化装置及び方法、画像復号装置及び方法、及び、それらのプログラム

Country Status (5)

Country Link
US (1) US20170070751A1 (ja)
JP (1) JP6307152B2 (ja)
KR (1) KR20160118363A (ja)
CN (1) CN106063273A (ja)
WO (1) WO2015141613A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018117706A1 (ko) * 2016-12-22 2018-06-28 주식회사 케이티 비디오 신호 처리 방법 및 장치
JP6824579B2 (ja) * 2017-02-17 2021-02-03 株式会社ソニー・インタラクティブエンタテインメント 画像生成装置および画像生成方法
CN106931910B (zh) * 2017-03-24 2019-03-05 南京理工大学 一种基于多模态复合编码和极线约束的高效三维图像获取方法
US11051039B2 (en) 2017-06-02 2021-06-29 Ostendo Technologies, Inc. Methods for full parallax light field compression
KR102568633B1 (ko) * 2018-01-26 2023-08-21 삼성전자주식회사 이미지 처리 장치
US10931956B2 (en) 2018-04-12 2021-02-23 Ostendo Technologies, Inc. Methods for MR-DIBR disparity map merging and disparity threshold determination
US11172222B2 (en) * 2018-06-26 2021-11-09 Ostendo Technologies, Inc. Random access in encoded full parallax light field images
CN112805753A (zh) * 2018-09-27 2021-05-14 美国斯耐普公司 基于立体提取的三维场景修复

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012124564A (ja) * 2010-12-06 2012-06-28 Nippon Telegr & Teleph Corp <Ntt> 多視点画像符号化方法,多視点画像復号方法,多視点画像符号化装置,多視点画像復号装置およびそれらのプログラム
JP2013126006A (ja) * 2011-12-13 2013-06-24 Nippon Telegr & Teleph Corp <Ntt> 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム及び映像復号プログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8854486B2 (en) * 2004-12-17 2014-10-07 Mitsubishi Electric Research Laboratories, Inc. Method and system for processing multiview videos for view synthesis using skip and direct modes
CN100463527C (zh) * 2005-10-18 2009-02-18 宁波大学 一种多视点视频图像视差估计的方法
WO2009005658A2 (en) * 2007-06-28 2009-01-08 Thomson Licensing Single loop decoding of multi-vieuw coded video
US8553781B2 (en) * 2007-12-07 2013-10-08 Thomson Licensing Methods and apparatus for decoded picture buffer (DPB) management in single loop decoding for multi-view video
EP2250812A1 (en) * 2008-03-04 2010-11-17 Thomson Licensing Virtual reference view
EP2329653B1 (en) * 2008-08-20 2014-10-29 Thomson Licensing Refined depth map
JP6039178B2 (ja) * 2011-09-15 2016-12-07 シャープ株式会社 画像符号化装置、画像復号装置、並びにそれらの方法及びプログラム
KR20130046534A (ko) * 2011-10-28 2013-05-08 삼성전자주식회사 영상 부호화 방법 및 장치 그리고 영상 복호화 방법 및 장치
WO2013068457A1 (en) * 2011-11-11 2013-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for determining a measure for a distortion change in a synthesized view due to depth map modifications
US20130271565A1 (en) * 2012-04-16 2013-10-17 Qualcomm Incorporated View synthesis based on asymmetric texture and depth resolutions
JP5743968B2 (ja) * 2012-07-02 2015-07-01 株式会社東芝 動画像復号方法及び動画像符号化方法
JP2014082540A (ja) * 2012-10-12 2014-05-08 National Institute Of Information & Communication Technology 互いに類似した情報を含む複数画像のデータサイズを低減する方法、プログラム、および装置、ならびに、互いに類似した情報を含む複数画像を表現するデータ構造
US9497485B2 (en) * 2013-04-12 2016-11-15 Intel Corporation Coding unit size dependent simplified depth coding for 3D video coding

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012124564A (ja) * 2010-12-06 2012-06-28 Nippon Telegr & Teleph Corp <Ntt> 多視点画像符号化方法,多視点画像復号方法,多視点画像符号化装置,多視点画像復号装置およびそれらのプログラム
JP2013126006A (ja) * 2011-12-13 2013-06-24 Nippon Telegr & Teleph Corp <Ntt> 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム及び映像復号プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHINYA SHIMIZU ET AL.: "ADAPTIVE APPEARANCE COMPENSATED VIEW SYNTHESIS PREDICTION FOR MULTIVIEW VIDEO CODING", IMEGE PROCESSING(ICIP),2009 16TH IEEE INTERNATIONAL CONFERENCE ON, pages 2949 - 2952, XP031628329, ISSN: 1522-4880 *

Also Published As

Publication number Publication date
KR20160118363A (ko) 2016-10-11
JPWO2015141613A1 (ja) 2017-04-06
JP6307152B2 (ja) 2018-04-04
CN106063273A (zh) 2016-10-26
US20170070751A1 (en) 2017-03-09

Similar Documents

Publication Publication Date Title
JP6307152B2 (ja) 画像符号化装置及び方法、画像復号装置及び方法、及び、それらのプログラム
WO2014050830A1 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、画像復号プログラム及び記録媒体
JP6027143B2 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、および画像復号プログラム
JP5947977B2 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム及び画像復号プログラム
JP6232076B2 (ja) 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム及び映像復号プログラム
KR101648094B1 (ko) 화상 부호화 방법, 화상 복호 방법, 화상 부호화 장치, 화상 복호 장치, 화상 부호화 프로그램, 화상 복호 프로그램 및 기록매체
JP6053200B2 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム及び画像復号プログラム
TWI499277B (zh) 多視點畫像編碼方法、多視點畫像解碼方法、多視點畫像編碼裝置、多視點畫像解碼裝置及這些程式
WO2013039031A1 (ja) 画像符号化装置、画像復号装置、並びにそれらの方法及びプログラム
JP6232075B2 (ja) 映像符号化装置及び方法、映像復号装置及び方法、及び、それらのプログラム
JP5926451B2 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、および画像復号プログラム
KR101750421B1 (ko) 동화상 부호화 방법, 동화상 복호 방법, 동화상 부호화 장치, 동화상 복호 장치, 동화상 부호화 프로그램, 및 동화상 복호 프로그램
JP6386466B2 (ja) 映像符号化装置及び方法、及び、映像復号装置及び方法
WO2015141549A1 (ja) 動画像符号化装置及び方法、及び、動画像復号装置及び方法
WO2015098827A1 (ja) 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム及び映像復号プログラム
JP6310340B2 (ja) 映像符号化装置、映像復号装置、映像符号化方法、映像復号方法、映像符号化プログラム及び映像復号プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15765447

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016508711

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15122551

Country of ref document: US

ENP Entry into the national phase

Ref document number: 20167024968

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15765447

Country of ref document: EP

Kind code of ref document: A1