WO2015141613A1 - 画像符号化装置及び方法、画像復号装置及び方法、及び、それらのプログラム - Google Patents
画像符号化装置及び方法、画像復号装置及び方法、及び、それらのプログラム Download PDFInfo
- Publication number
- WO2015141613A1 WO2015141613A1 PCT/JP2015/057631 JP2015057631W WO2015141613A1 WO 2015141613 A1 WO2015141613 A1 WO 2015141613A1 JP 2015057631 W JP2015057631 W JP 2015057631W WO 2015141613 A1 WO2015141613 A1 WO 2015141613A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- viewpoint
- encoding
- decoding
- intra
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/105—Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/11—Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/157—Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
- H04N19/159—Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/172—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/182—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/44—Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/46—Embedding additional information in the video signal during the compression process
- H04N19/463—Embedding additional information in the video signal during the compression process by compressing encoding parameters before transmission
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/513—Processing of motion vectors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/593—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N2213/00—Details of stereoscopic systems
- H04N2213/003—Aspects relating to the "2D+depth" image format
Definitions
- the present invention relates to an image encoding device, an image decoding device, an image encoding method, an image decoding method, an image encoding program, and an image decoding program for encoding and decoding multi-view images.
- This application claims priority based on Japanese Patent Application No. 2014-058902 for which it applied on March 20, 2014, and uses the content here.
- the two-dimensional moving image has a strong correlation in the time direction, and the encoding efficiency can be increased by using the correlation.
- the encoding efficiency can be increased by using this correlation.
- H. an international encoding standard.
- H.264, H.C. In many conventional two-dimensional video coding systems such as H.265, MPEG-2, and MPEG-4, high-efficiency coding is performed using techniques such as motion compensation prediction, orthogonal transform, quantization, and entropy coding. To do.
- H.M. In H.265, encoding using temporal correlation between a plurality of past or future frames and an encoding target frame is possible.
- the difference between the multi-view image encoding method and the multi-view image encoding method is that, in addition to the correlation between cameras, the multi-view image has a temporal correlation at the same time. However, in either case, correlation between cameras can be used in the same way. Therefore, here, a method used in encoding a multi-view video is described.
- the correspondence given by the disparity information can be represented by a one-dimensional quantity indicating the three-dimensional position of the subject instead of a two-dimensional vector based on epipolar geometric constraints by using camera parameters.
- information indicating the three-dimensional position of the subject there are various expressions, but the distance from the reference camera to the subject or the coordinate value on the axis that is not parallel to the image plane of the camera is often used.
- the reciprocal of the distance is used instead of the distance.
- the reciprocal of the distance is information proportional to the parallax, there are cases where two reference cameras are set and expressed as a parallax amount between images taken by these cameras. Since there is no essential difference no matter what expression is used, in the following, information indicating these three-dimensional positions is expressed as depth without distinguishing by expression.
- Non-Patent Document 2 a viewpoint composite image must be generated and stored for the entire image regardless of whether or not the viewpoint composite image is used. There is a problem that processing load and memory consumption increase.
- a viewpoint composite image for a part of an image by estimating a depth map for a region where the viewpoint composite image is required.
- the problem of increasing is still present.
- a pixel group to be referred to is a pixel group of one row or one column adjacent to a prediction target region, and is a block that is not originally used. It becomes necessary to perform parallax compensation prediction by size. For this reason, there is a problem that implementation and memory access become complicated.
- An image encoding device that performs encoding for each encoding target region that is a region obtained by dividing the encoding target image while predicting an image between different viewpoints using a map, Encoding target area viewpoint composite image generation means for generating a first viewpoint composite image for the encoding target area using the reference viewpoint image and the reference depth map; A reference pixel setting unit that sets a pixel group that has already been encoded that is referred to when predicting the encoding target region in a screen as a reference pixel; Reference pixel viewpoint composite image generation means for generating a second viewpoint composite image for the reference pixel using the first viewpoint composite image; An image coding apparatus comprising: an intra-screen prediction image generating unit configured to generate an intra-screen prediction image for the encoding target region using the decoded image for the reference pixel and the second viewpoint composite image. provide.
- the intra-screen prediction image generation unit generates a difference intra-screen prediction image that is an intra-screen prediction image for a difference image between the encoding target image and the first viewpoint composite image with respect to the encoding target region. And generating the intra prediction image using the difference intra prediction image and the first viewpoint composite image.
- the reference pixel setting means uses, as a reference pixel, an already encoded pixel group that is referred to when the intra prediction method is used.
- the intra-screen prediction image generating means generates the intra-screen prediction image based on the intra-screen prediction method.
- the reference pixel viewpoint composite image generation means may generate the second viewpoint composite image based on the intra prediction method.
- the reference pixel viewpoint composite image generation means generates the second viewpoint composite image based on the intra prediction method.
- the reference pixel viewpoint composite image generation unit uses the pixel group of the first viewpoint composite image corresponding to a pixel group in contact with a pixel outside the encoding target area in the encoding target area, and A second viewpoint composite image may be generated.
- the present invention also provides a decoded reference viewpoint image for a viewpoint different from the decoding target image, and the reference viewpoint image when decoding the decoding target image from the code data of a multi-view image including a plurality of different viewpoint images.
- An image decoding apparatus that performs decoding for each decoding target area, which is an area obtained by dividing the decoding target image, while predicting images between different viewpoints using a reference depth map for a subject in the medium, Decoding target area viewpoint composite image generation means for generating a first viewpoint composite image for the decoding target area using the reference viewpoint image and the reference depth map; Reference pixel setting means for setting, as a reference pixel, an already decoded pixel group that is referred to when predicting the decoding target area in the screen; Reference pixel viewpoint composite image generation means for generating a second viewpoint composite image for the reference pixel using the first viewpoint composite image; There is also provided an image decoding apparatus comprising: an intra-screen prediction image generation unit configured to generate an intra-screen prediction image for the decoding target area using
- an intra-screen prediction method setting means for setting an intra-screen prediction method for the decoding target area
- the reference pixel setting means uses an already decoded pixel group referred to when using the intra prediction method as a reference pixel
- the intra-screen prediction image generating means generates the intra-screen prediction image based on the intra-screen prediction method.
- the reference pixel viewpoint composite image generation means may generate the second viewpoint composite image based on the intra prediction method.
- the reference pixel viewpoint composite image generation means generates the second viewpoint composite image by extrapolating from the first viewpoint composite image.
- the present invention also provides an encoded reference viewpoint image for a viewpoint different from the encoding target image and a reference to a subject in the reference viewpoint image when a multi-view image including a plurality of different viewpoint images is encoded.
- An image encoding method that performs encoding for each encoding target region that is a region obtained by dividing the encoding target image while predicting an image between different viewpoints using a depth map, An encoding target region viewpoint composite image generation step for generating a first viewpoint composite image for the encoding target region using the reference viewpoint image and the reference depth map; A reference pixel setting step for setting, as a reference pixel, an already encoded pixel group that is referred to when the encoding target region is predicted in a screen; A reference pixel viewpoint composite image generation step of generating a second viewpoint composite image for the reference pixel using the first viewpoint composite image; An image encoding method comprising: an intra-screen prediction image generation step of generating an intra-screen prediction image for the encoding target region using the decode
- the present invention also provides an image encoding program for causing a computer to execute the image encoding method.
- the present invention also provides an image decoding program for causing a computer to execute the image decoding method.
- the prediction residual when the view synthesized image is used as a predicted image is reduced spatially while suppressing the complexity of processing and memory access. The effect that predictive coding can be performed is obtained.
- FIG. 3 is a block diagram illustrating a hardware configuration when an image decoding device 200 is configured by a computer and a software program. It is a conceptual diagram which shows the parallax which arises between cameras. It is a conceptual diagram of epipolar geometric constraint.
- FIG. 1 is a block diagram illustrating a configuration of an image encoding device according to the present embodiment.
- the image encoding device 100 includes an encoding target image input unit 101, an encoding target image memory 102, a reference viewpoint image input unit 103, a reference viewpoint image memory 104, a reference depth map input unit 105, and a reference.
- the encoding target area viewpoint composite image generation unit 107 obtains a correspondence relationship between the pixels of the encoding target image and the pixels of the reference viewpoint image using the reference depth map, and generates a viewpoint composite image in the encoding target area.
- the reference pixel setting unit 108 sets a pixel group to be referred to when performing intra (in-screen) prediction on the encoding target region.
- the set pixel group is collectively referred to as a reference pixel.
- the reference pixel viewpoint composite image generation unit 109 generates a viewpoint composite image for the reference pixel using the viewpoint composite image for the encoding target region.
- an image or depth map memory is provided in the image encoding device 100. It is not necessary to provide the information, and information necessary for each area described below may be input to the image coding apparatus 100 at an appropriate timing.
- processing unit blocks In general encoding, it is divided into processing unit blocks called macroblocks of 16 pixels ⁇ 16 pixels, but may be divided into blocks of other sizes as long as they are the same as those on the decoding side. Moreover, you may divide
- x ⁇ 1 and ⁇ 1 ⁇ y ⁇ 2N ⁇ 1, or ⁇ 1 ⁇
- It becomes a reference pixel at a pixel position where x ⁇ 2N ⁇ 1 and y ⁇ 1.
- the reference pixel viewpoint composite image generation unit 109 When the reference pixel setting is completed, the reference pixel viewpoint composite image generation unit 109 generates a viewpoint composite image Syn ′ for the reference pixel (step S105).
- the same processing can be performed on the decoding side here, and any method may be used as long as the generation is performed using the viewpoint composite image for the encoding target region blk.
- a viewpoint composite image for a pixel having the closest distance in the encoding target region blk may be assigned.
- the viewpoint composite image for the generated reference pixel is expressed by the following equations (1) to (5).
- a viewpoint composite image (in the encoding target area) of the adjacent pixel is assigned to a pixel adjacent to the encoding target area, and the pixel is not adjacent to the encoding target area. May be assigned the viewpoint composite image of the pixel in the closest encoding target area in the 45-degree oblique direction.
- the viewpoint synthesized image for the generated reference pixel is expressed by the following equations (6) to (10).
- the prediction image Pred of the encoding target image in the encoding target region blk is added for each pixel, as shown in the following equation (12), for the sum of the viewpoint synthesized image and the difference intra predicted image. It is generated by calculation by the device 114 (step S108).
- Pred [blk] Syn [blk] + RPred [blk] (12)
- the result of adding the viewpoint composite image and the difference intra-predicted image is used as it is as the predicted image.
- the result of clipping the addition result in the pixel value range of the encoding target image may be used as the predicted image. .
- the prediction residual decoding unit 112 decodes the prediction residual Res, and generates the decoded image Dec by adding the prediction image Pred and the prediction residual by the adder 117 as shown in the equation (13).
- Dec [blk] Pred [blk] + Res [blk] (13)
- clipping may be performed in the range of the pixel value.
- the obtained decoded image is stored in the decoded image memory 113 to be used for prediction of other coding regions.
- a technique corresponding to the technique used at the time of encoding is used for decoding the prediction residual. For example, MPEG-2 and H.264.
- the bit stream input unit 201 inputs a bit stream of an image to be decoded to the image decoding device 200.
- the image to be decoded is referred to as a decoding target image.
- the image of viewpoint B is indicated.
- a viewpoint (here, viewpoint B) with respect to the decoding target image is referred to as a decoding target viewpoint.
- the bit stream memory 202 stores a bit stream for the input decoding target image.
- the reference viewpoint image input unit 203 inputs an image to be referred to when generating a viewpoint composite image (parallax compensated image) to the image decoding device 200.
- the image input here is referred to as a reference viewpoint image.
- the reference viewpoint image memory 204 stores the input reference viewpoint image.
- the adder 215 outputs a difference image between the decoded image and the viewpoint composite image at the reference pixel.
- the intra predicted image generation unit 210 generates an intra predicted image for the difference image between the decoding target image and the viewpoint synthesized image in the decoding target region using the difference image between the decoded image and the viewpoint synthesized image at the reference pixel.
- the intra prediction image for the difference image is referred to as a difference intra prediction image.
- the prediction residual decoding unit 211 decodes the prediction residual of the decoding target image in the decoding target region from the bitstream.
- the adder 213 adds the viewpoint synthesized image and the difference intra-predicted image in the decoding target area and outputs the result.
- the adder 214 adds the output of the adder 213 and the decoded prediction residual and outputs the result.
- the decoded image memory 212 stores the decoded image to be decoded.
- FIG. 4 is a flowchart showing the operation of the image decoding apparatus 200 shown in FIG.
- the bitstream input unit 201 inputs a bitstream resulting from encoding a decoding target image to the image decoding device 200 and stores the bitstream in the bitstream memory 202.
- the reference viewpoint image input unit 203 inputs the reference viewpoint image to the image decoding apparatus 200 and stores it in the reference viewpoint image memory 204.
- the reference depth map input unit 205 inputs the reference depth map to the image decoding apparatus 200 and stores it in the reference depth map memory 206 (step S201).
- the reference pixel viewpoint composite image generation unit 209 When the reference pixel setting is completed, the reference pixel viewpoint composite image generation unit 209 generates a viewpoint composite image Syn ′ for the reference pixel (step S205).
- the processing here is the same as step S105 at the time of encoding described above, and any method may be used as long as it is the same method as at the time of encoding.
- the prediction residual decoding unit 211 When the predicted image is obtained, the prediction residual decoding unit 211 generates a decoded image Dec by decoding the prediction residual of the decoding target region blk from the bitstream and adding the prediction image and the prediction residual by the adder 214. (Step S209).
- a method corresponding to the method used at the time of encoding is used for decoding.
- MPEG-2 and H.264 When general encoding such as H.264 / AVC or HEVC is used, decoding is performed by sequentially performing inverse frequency transformation such as entropy decoding, inverse binarization, inverse quantization, and IDCT on the bitstream. I do.
- the obtained decoded image becomes an output of the image decoding apparatus 200 and is stored in the decoded image memory 212 to be used for prediction of another decoding target region.
- encoding or decoding may be performed while selecting one for each region from a plurality of intra prediction methods.
- the intra prediction method used for each region is the same at the time of encoding and at the time of decoding. Any matching method may be used, but the used intra prediction method may be encoded as mode information and included in the bitstream and notified to the decoding side.
- the time of decoding it is necessary to decode information indicating the intra prediction method used for each region from the bitstream and generate a difference intra predicted image based on the decoded information.
- the process of encoding and decoding one frame has been described. However, it can also be applied to moving picture encoding by repeating a plurality of frames. It can also be applied only to some frames or some blocks of a moving image. Further, in the above description, the configurations and processing operations of the image encoding device and the image decoding device have been described. However, the image encoding method of the present invention is performed by processing operations corresponding to the operations of the respective units of the image encoding device and the image decoding device. And an image decoding method can be realized.
- FIG. 5 is a block diagram showing a hardware configuration when the above-described image encoding device 100 is configured by a computer and a software program.
- the system shown in FIG. CPU 50 that executes the program
- a memory 51 such as a RAM in which programs and data accessed by the CPU 50 are stored
- An encoding target image input unit 52 that inputs an encoding target image signal from a camera or the like into the image encoding device (may be a storage unit that stores an image signal from a disk device or the like)
- Reference viewpoint image input unit 53 that inputs an image signal of a reference viewpoint from a camera or the like into an image encoding device (may be a storage unit that stores an image signal by a disk device or the like)
- Reference depth map input unit 54 for inputting a depth map for a camera that has captured the same scene as the encoding target viewpoint and the reference viewpoint image from a depth camera or the like (for acquiring depth information) into the image encoding device ( (It may be a storage unit
- a bit stream output unit 56 that outputs a bit stream generated by the CPU 50 executing the image encoding program 551 loaded in the memory 51, for example, via a network (a storage unit that stores a bit stream by a disk device or the like) However, they are connected by a bus.
- FIG. 6 is a block diagram showing a hardware configuration when the above-described image decoding apparatus 200 is configured by a computer and a software program.
- the system shown in FIG. CPU 60 for executing the program A memory 61 such as a RAM in which programs and data accessed by the CPU 60 are stored
- a bit stream input unit 62 that inputs a bit stream encoded by the image encoding device according to this method into the image decoding device (may be a storage unit that stores an image signal by a disk device or the like)
- Reference viewpoint image input unit 63 that inputs an image signal of a reference viewpoint from a camera or the like into an image decoding device (may be a storage unit that stores an image signal from a disk device or the like)
- Reference depth map input unit 64 that inputs a depth map from a depth camera or the like to a camera that has captured the same scene as the decoding target image and the reference viewpoint image into the image decoding device (a storage unit that stores depth information from a disk device or the like) May be)
- a decoding target image output unit 66 (by a disk device or the like) that outputs a decoding target image obtained by decoding the bitstream to the playback device or the like by the CPU 60 executing the image decoding program 651 loaded in the memory 61. (It may be a storage unit that stores image signals) Are connected by a bus.
- the viewpoint composite image in the reference image at the time of the prediction residual is generated from the viewpoint composite image for the prediction target region.
- the image encoding device 100 and the image decoding device 200 in the above-described embodiment may be realized by a computer.
- a program for realizing this function may be recorded on a computer-readable recording medium, and the program recorded on this recording medium may be read into a computer system and executed.
- the “computer system” includes an OS and hardware such as peripheral devices.
- the “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM or a CD-ROM, and a hard disk incorporated in a computer system.
- the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line.
- a volatile memory inside a computer system serving as a server or a client in that case may be included and a program held for a certain period of time.
- the program may be for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in the computer system. It may be realized using hardware such as PLD (Programmable Logic Device) or FPGA (Field Programmable Gate Array).
- Predictive encoding using a viewpoint composite image for an encoding (decoding) target image using an image captured from a position different from the camera that captured the encoding (decoding) target image and a depth map for a subject in the image Spatially predictive coding of the difference image between the image to be encoded (decoding) and the viewpoint composite image while suppressing the increase and complexity of memory access and processing accompanying the increase in the area that requires the viewpoint composite image By doing so, it can be applied to applications where it is essential to achieve high coding efficiency.
- DESCRIPTION OF SYMBOLS 100 ... Image coding apparatus 101 ... Encoding object image input part 102 ... Encoding object image memory 103 ... Reference viewpoint image input part 104 ... Reference viewpoint image memory 105 ... Reference depth Map input unit 106 ⁇ reference depth map memory 107 ⁇ encoding target region viewpoint composite image generation unit ⁇ reference pixel setting unit 109 ⁇ reference pixel viewpoint composite image generation unit 110 ⁇ ⁇ ⁇ intra prediction image Generation unit 111 ... Prediction residual encoding unit 112 ... Prediction residual decoding unit 113 ... Decoded image memory 114, 115, 116, 117 ... Adder 200 ... Image decoding apparatus 201 ... Bitstream input unit 202: Bitstream memory 203 ...
- Reference viewpoint image input unit 204 ... Reference viewpoint image memory 205 ... Reference depth map input 206 ⁇ reference depth map memory 207 ⁇ decoding target region view synthesized image generation unit 208 ⁇ reference pixel setting unit 209 ⁇ reference pixel view synthesized image generation unit 210 ⁇ ⁇ ⁇ intra prediction image generation unit 211 ⁇ ..Prediction residual decoding unit 212... Decoded image memory 213, 214, 215.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
Description
本願は、2014年3月20日に出願された特願2014-058902号に基づき優先権を主張し、その内容をここに援用する。
以下の説明では、1つのカメラで撮影された画像(動画像)を”2次元画像(動画像)”と称し、同じ被写体と背景とを位置や向き(以下、視点と称する)が異なる複数のカメラで撮影した2次元画像(2次元動画像)群を”多視点画像(多視点動画像)”と称する。
国際符号化標準であるH.264、H.265、MPEG-2、MPEG-4をはじめとした従来の多くの2次元動画像符号化方式では、動き補償予測、直交変換、量子化、エントロピー符号化という技術を利用して、高効率な符号化を行う。例えば、H.265では、過去あるいは未来の複数枚のフレームと符号化対象フレームとの時間相関を利用した符号化が可能である。
H.265の動き補償予測は、符号化対象フレームを様々なサイズのブロックに分割し、各ブロックで異なる動きベクトルと異なる参照フレームを持つことを許可している。各ブロックで異なる動きベクトルを使用することで、被写体毎に異なる動きを補償した精度の高い予測を実現している。一方、各ブロックで異なる参照フレームを使用することで、時間変化によって生じるオクルージョンを考慮した精度の高い予測を実現している。
多視点画像の符号化方法と、多視点動画像の符号化方法との違いは、多視点動画像にはカメラ間の相関に加えて、時間方向の相関が同時に存在するということである。しかし、どちらの場合でも、同じ方法でカメラ間の相関を利用することができる。そのため、ここでは多視点動画像の符号化において用いられる方法について説明する。
図7は、カメラ間で生じる視差を示す概念図である。図7に示す概念図では、光軸が平行なカメラの画像平面を垂直に見下ろしたものとなっている。このように、異なるカメラの画像平面上で被写体上の同じ部分が投影される位置は、一般的に対応点と呼ばれる。
実際に、H.265の多視点動画像符号化方式では、視差補償予測を用いるブロック毎に視差情報を表すベクトルを符号化している。
被写体の3次元位置を示す情報としては、様々な表現が存在するが、基準となるカメラから被写体までの距離や、カメラの画像平面と平行ではない軸上の座標値を用いることが多い。なお、距離ではなく距離の逆数を用いる場合もある。また、距離の逆数は視差に比例する情報となるため、基準となるカメラを2つ設定し、それらのカメラで撮影された画像間での視差量として表現する場合もある。
どのような表現を用いたとしても本質的な違いはないため、以下では、表現による区別をせずに、それら3次元位置を示す情報をデプスと表現する。
例えば、図8に示すように、第1のカメラ画像においてmの位置に投影された被写体に対する第2のカメラ画像での対応点は、実空間における被写体の位置がM’の場合にはエピポーラ線上の位置m’に、実空間における被写体の位置がM’’の場合にはエピポーラ線上の位置m’’に、投影される。
なお、このデプスに基づいて生成される合成画像は視点合成画像、視点補間画像、または視差補償画像と呼ばれる。
特に、視点合成画像を予測画像とした際の予測残差を空間的に予測する場合、参照する画素群は予測対象の領域に隣接する1行または1列の画素群となり、本来は使用しないブロックサイズでの視差補償予測を行う必要が生じる。このため、実装やメモリアクセスが複雑になるという問題がある。
前記参照視点画像と前記参照デプスマップとを用いて、前記符号化対象領域に対する第1の視点合成画像を生成する符号化対象領域視点合成画像生成手段と、
前記符号化対象領域を画面内予測する際に参照される既に符号化済みの画素群を参照画素として設定する参照画素設定手段と、
前記第1の視点合成画像を用いて、前記参照画素に対する第2の視点合成画像を生成する参照画素視点合成画像生成手段と、
前記参照画素に対する復号画像と前記第2の視点合成画像を用いて、前記符号化対象領域に対する画面内予測画像を生成する画面内予測画像生成手段と
を有することを特徴とする画像符号化装置を提供する。
前記参照画素設定手段は、前記画面内予測方法を用いる際に参照される既に符号化済みの画素群を参照画素とし、
前記画面内予測画像生成手段は、前記画面内予測方法に基づいて前記画面内予測画像を生成する。
前記参照視点画像と前記参照デプスマップとを用いて、前記復号対象領域に対する第1の視点合成画像を生成する復号対象領域視点合成画像生成手段と、
前記復号対象領域を画面内予測する際に参照される既に復号済みの画素群を参照画素として設定する参照画素設定手段と、
前記第1の視点合成画像を用いて、前記参照画素に対する第2の視点合成画像を生成する参照画素視点合成画像生成手段と、
前記参照画素に対する復号画像と前記第2の視点合成画像を用いて、前記復号対象領域に対する画面内予測画像を生成する画面内予測画像生成手段と
を有することを特徴とする画像復号装置も提供する。
前記参照画素設定手段は、前記画面内予測方法を用いる際に参照される既に復号済みの画素群を参照画素とし、
前記画面内予測画像生成手段は、前記画面内予測方法に基づいて前記画面内予測画像を生成する。
前記参照視点画像と前記参照デプスマップとを用いて、前記符号化対象領域に対する第1の視点合成画像を生成する符号化対象領域視点合成画像生成ステップと、
前記符号化対象領域を画面内予測する際に参照される既に符号化済みの画素群を参照画素として設定する参照画素設定ステップと、
前記第1の視点合成画像を用いて、前記参照画素に対する第2の視点合成画像を生成する参照画素視点合成画像生成ステップと、
前記参照画素に対する復号画像と前記第2の視点合成画像を用いて、前記符号化対象領域に対する画面内予測画像を生成する画面内予測画像生成ステップと
を備えることを特徴とする画像符号化方法も提供する。
前記参照視点画像と前記参照デプスマップとを用いて、前記復号対象領域に対する第1の視点合成画像を生成する復号対象領域視点合成画像生成ステップと、
前記復号対象領域を画面内予測する際に参照される既に復号済みの画素群を参照画素として設定する参照画素設定ステップと、
前記第1の視点合成画像を用いて、前記参照画素に対する第2の視点合成画像を生成する参照画素視点合成画像生成ステップと、
前記参照画素に対する復号画像と前記第2の視点合成画像を用いて、前記復号対象領域に対する画面内予測画像を生成する画面内予測画像生成ステップと
を備えることを特徴とする画像復号方法も提供する。
以下の説明においては、第1の視点(視点Aという)、第2の視点(視点Bという)の2つの視点から撮影された多視点画像を符号化する場合を想定し、視点Aの画像を参照視点画像として視点Bの画像を符号化または復号するものとして説明する。
なお、デプス情報から視差を得るために必要となる情報は別途与えられているものとする。具体的には、視点Aと視点Bの位置関係を表す外部パラメータや、カメラ等による画像平面への投影情報を表す内部パラメータであるが、これら以外の形態であってもデプス情報から視差が得られるものであれば、別の情報が与えられていてもよい。
これらのカメラパラメータに関する詳しい説明は、例えば、文献「Oliver Faugeras, "Three-Dimension Computer Vision", MIT Press; BCTC/UFF-006.37 F259 1993, ISBN:0-262-06158-9.」に記載されている。この文献には、複数のカメラの位置関係を示すパラメータや、カメラによる画像平面への投影情報を表すパラメータに関する説明が記載されている。
また、座標値やブロックに対応付け可能なインデックス値とベクトルの加算によって、その座標やブロックをベクトルの分だけずらした位置の座標値やブロックを表すものとする。
画像符号化装置100は、図1に示すように、符号化対象画像入力部101、符号化対象画像メモリ102、参照視点画像入力部103、参照視点画像メモリ104、参照デプスマップ入力部105、参照デプスマップメモリ106、符号化対象領域視点合成画像生成部107、参照画素設定部108、参照画素視点合成画像生成部109、イントラ予測画像生成部110、予測残差符号化部111、予測残差復号部112、復号画像メモリ113、及び、4つの加算器114、115、116、117を備えている。
符号化対象画像メモリ102は、入力した符号化対象画像を記憶する。
参照視点画像入力部103は、視点合成画像(視差補償画像)を生成する際に参照する画像を画像符号化装置100に入力する。以下では、ここで入力された画像を参照視点画像と呼ぶ。ここでは視点Aの画像を入力するものとする。
参照視点画像メモリ104は、入力した参照視点画像を記憶する。
なお、デプスマップとは、対応する画像の各画素に写っている被写体の3次元位置を表すものである。別途与えられるカメラパラメータ等の情報によって3次元位置が得られるものであれば、どのような情報でもよい。例えば、カメラから被写体までの距離や、画像平面とは平行ではない軸に対する座標値、別のカメラ(例えば視点Bにおけるカメラ)に対する視差量を用いることができる。
また、ここでは視差量が得られれば構わないので、デプスマップではなく、視差量を直接表現した視差マップを用いても構わない。
なお、ここではデプスマップとして画像の形態で渡されるものとしているが、同様の情報が得られるのであれば、画像の形態でなくても構わない。
以下では、参照デプスマップに対応する視点(ここでは視点A)を参照デプス視点と称する。
参照デプスマップメモリ106は、入力した参照デプスマップを記録する。
参照画素設定部108は、符号化対象領域に対してイントラ(画面内)予測を行う際に参照する画素群を設定する。以下では、設定された画素群をまとめて参照画素と称する。
参照画素視点合成画像生成部109は、符号化対象領域に対する視点合成画像を用いて、参照画素に対する視点合成画像を生成する。
加算器114は、視点合成画像と差分イントラ予測画像とを加算する。
加算器115は、符号化対象画像と、加算器114の出力の差分を求めることによって、予測残差を出力する。
予測残差符号化部111では、符号化対象領域における符号化対象画像の予測残差(加算器115の出力)を符号化する。
予測残差復号部112では、符号化された予測残差を復号する。
加算器117は、加算器114の出力と復号された予測残差とを加算して、復号された符号化対象画像を出力する。
復号画像メモリ113では、復号された符号化対象画像を記憶する。
まず、符号化対象画像入力部101は符号化対象画像Orgを画像符号化装置100に入力し、符号化対象画像メモリ102に記憶する。参照視点画像入力部103は参照視点画像を画像符号化装置100に入力し、参照視点画像メモリ104に記憶する。参照デプスマップ入力部105は参照デプスマップを画像符号化装置100に入力し、参照デプスマップメモリ106に記憶する(ステップS101)。
参照デプスマップに関しては、既に符号化済みのものを復号したもの以外に、複数のカメラに対して復号された多視点画像に対してステレオマッチング等を適用することで推定したデプスマップや、復号された視差ベクトルや動きベクトルなどを用いて推定されるデプスマップなども、復号側で同じものが得られるものとして用いることができる。
すなわち、符号化対象領域インデックスをblk、符号化対象画像中の総符号化対象領域数をnumBlksで表すとすると、blkを0で初期化し(ステップS102)、その後、blkに1を加算しながら(ステップS111)、blkがnumBlksになるまで(ステップS112)、以下の処理(ステップS103~S110)を繰り返す。
一般的な符号化では、16画素×16画素のマクロブロックと呼ばれる処理単位ブロックへ分割するが、復号側と同じであればその他の大きさのブロックに分割してもよい。また、場所毎に異なる大きさのブロックに分割しても構わない。
ここでの処理は、参照視点画像と参照デプスマップとを用いて、符号化対象領域blkに対する画像を合成する方法であれば、どのような方法を用いても構わない。例えば、非特許文献2や文献「L. Zhang, G. Tech, K. Wegner, and S. Yea, "Test Model 7of 3D-HEVC and MV-HEVC", Joint Collaborative Team on 3D Video Coding Extension Development of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11, Doc. JCT3V-G1005, San Jose, US, Jan. 2014.」に記載されている方法を用いても構わない。
例えば、非特許文献1に記載の動画像圧縮符号化標準H.265(通称HEVC)のイントラ予測の方法を用いる場合、符号化対象領域の大きさをN画素×N画素(Nは2以上の自然数)とすると、符号化対象領域blkの近傍4N+1個の画素を参照画素として設定する。
具体的には、符号化対象領域blk内の左上の画素位置を[x,y]=[0,0]とすると、x=-1かつ-1≦y≦2N-1、または、-1≦x≦2N-1かつy=-1の画素位置の参照画素となる。参照画像は、これらの位置に対する復号画像が復号画像メモリに含まれているか否かに従って、下記の通り準備される。
(1)参照画素の全ての画素位置に対して復号画像が得られている場合は、Ref[x,y]=Dec[x,y]とする。
(2)参照画素の全ての画素位置に対して復号画像が得られていない場合は、Ref[x,y]=1<<(BitDepth-1)とする。
なお、<<は左ビットシフト演算を表し、BitDepthは符号化対象画像の画素値のビット深度を表す。
(3)その他の場合:
・[-1,2N-1]~[-1,-1]~[2N-1,-1]の順で4N+1個の参照画素の画素位置を走査し、最初に復号画像が存在する位置[x0,y0]を求める。
・Ref[-1,2N-1]=Dec[x0,y0]とする。
・[-1,2N-2]~[-1,-1]の順に走査し、注目画素位置[-1,y]における復号画像が得られている場合は、Ref[-1,y]=Dec[-1,y]とする。[-1,y]における復号画像が得られていない場合は、Ref[-1,y]=Ref[-1,y+1]とする。
・[0,-1]~[2N-1,-1]の順に走査し、注目画素位置[x,-1]における復号画像が得られている場合は、Ref[x,-1]=Dec[x,-1]とする。[x,-1]における復号画像が得られていない場合は、Ref[x,-1]=Ref[x-1,-1]とする。
例えば、参照画素の画素位置毎に、符号化対象領域blk内で最も距離が近い画素に対する視点合成画像を割り当てても構わない。前述のHEVCにおける参照画素の場合、生成される参照画素に対する視点合成画像は次の(1)~(5)式で表される。
Syn’[-1,-1]=Syn[0,0] ・・・(1)
Syn’[-1,y]=Syn[0,y](0≦y≦N-1) ・・・(2)
Syn’[-1,y]=Syn[0,N-1](N≦y≦2N-1) ・・・(3)
Syn’[x,-1]=Syn[x,0](0≦x≦N-1) ・・・(4)
Syn’[x,-1]=Syn[N-1,0](0≦x≦2N-1) ・・・(5)
前述のHEVCにおける参照画素の場合、この方式によれば、生成される参照画素に対する視点合成画像は次の(6)~(10)式で表される。
Syn’[-1,-1]=Syn[0,0] ・・・(6)
Syn’[-1,y]=Syn[0,y] (0≦y≦N-1) ・・・(7)
Syn’[-1,y]=Syn[y-N,N-1](N≦y≦2N-1)・・・(8)
Syn’[x,-1]=Syn[x,0] (0≦x≦N-1) ・・・(9)
Syn’[x,-1]=Syn[N-1,x-N](N≦x≦2N-1)・・・(10)
また、ここではイントラ予測の方法に関わらず、イントラ予測で参照される可能性のある画素全てに対して視点合成画像を生成したが、事前にイントラ予測の方法を決定し、その方法に基づいて実際に参照される画素に対してのみ視点合成画像を生成しても構わない。
なお、ここではRefとSynを同じ比率で減算しているが、重み付け減算を行っても構わない。その場合は復号側と同じ重みを利用する必要がある。
VSRes[x,y]=Ref[x,y]-Syn’[x,y] ・・・(11)
Pred[blk]=Syn[blk]+RPred[blk] ・・・(12)
ここでは、視点合成画像と差分イントラ予測画像を加算した結果をそのまま予測画像としているが、画素毎に、加算結果を符号化対象画像の画素値の値域でクリッピングした結果を予測画像としても構わない。
さらに、ここではSynとRPredを同じ比率で加えているが、重み付け加算を行っても構わない。その場合は復号側と同じ重みを利用する必要がある。
また、ここでの重みは、参照画像に対する差分画像を生成する際の重みに従って決定してもよい。例えば、参照画像に対する差分画像を生成する際のSynに対する比率とここでのSynの比率を同一にしても構わない。
なお、符号化の方法には、どのような方法を用いてもよい。MPEG-2やH.264/AVC、HEVCなどの一般的な符号化では、差分残差に対して、DCTなどの周波数変換、量子化、2値化、エントロピー符号化を順に施すことで符号化を行う。
Dec[blk]=Pred[blk]+Res[blk] ・・・(13)
なお・BR>A予測画像と予測残差を足し合わせた後に画素値の値域でクリッピングを行っても構わない。
得られた復号画像は、他の符号化領域の予測に使用するために、復号画像メモリ113に記憶される。
なお、予測残差の復号には、符号化時に用いた手法に対応する手法を用いる。例えば、MPEG-2やH.264/AVC、HEVCなどの一般的な符号化であれば、ビットストリームに対して、エントロピー復号、逆2値化、逆量子化、IDCTなどの周波数逆変換を順に施すことで復号を行う。
ここではビットストリームから復号を行うものとしたが、符号化側での処理がロスレスになる直前のデータを受け取り、簡略化した復号処理によって復号処理を行ってもよい。すなわち、前述の例であれば、符号化時に量子化処理を加えた後の値を受け取り、その量子化後の値に逆量子化、周波数逆変換を順に施すことで復号処理を行うことが可能である。
画像復号装置200は、図3に示すように、ビットストリーム入力部201、ビットストリームメモリ202、参照視点画像入力部203、参照視点画像メモリ204、参照デプスマップ入力部205、参照デプスマップメモリ206、復号対象領域視点合成画像生成部207、参照画素設定部208、参照画素視点合成画像生成部209、イントラ予測画像生成部210、予測残差復号部211、復号画像メモリ212、及び、3つの加算器213、214、215を備えている。
ビットストリームメモリ202は、入力した復号対象画像に対するビットストリームを記憶する。
参照視点画像入力部203は、視点合成画像(視差補償画像)を生成する際に参照する画像を画像復号装置200に入力する。以下では、ここで入力された画像を参照視点画像と呼ぶ。ここでは視点Aの画像を入力するものとする。
参照視点画像メモリ204は、入力した参照視点画像を記憶する。
なお、デプスマップとは対応する画像の各画素に写っている被写体の3次元位置を表すものである。別途与えられるカメラパラメータ等の情報によって3次元位置が得られるものであれば、どのような情報でもよい。例えば、カメラから被写体までの距離や、画像平面とは平行ではない軸に対する座標値、別のカメラ(例えば視点Bにおけるカメラ)に対する視差量を用いることができる。
また、ここでは視差量が得られれば構わないので、デプスマップではなく、視差量を直接表現した視差マップを用いても構わない。
なお、ここではデプスマップとして画像の形態で渡されるものとしているが、同様の情報が得られるのであれば、画像の形態でなくても構わない。
以下では、参照デプスマップに対応する視点(ここでは視点A)を参照デプス視点と称する。
参照デプスマップメモリ206は、入力した参照デプスマップを記憶する。
参照画素設定部208は、復号対象領域に対してイントラ予測を行う際に参照する画素群を設定する。以下では、設定された画素群をまとめて参照画素と称する。
参照画像視点合成画像生成部209は、復号対象領域における視点合成画像を用いて、参照画素における視点合成画像を生成する。
イントラ予測画像生成部210では、この、参照画素における復号画像と視点合成画像の差分画像を用いて、復号化対象領域における復号対象画像と視点合成画像の差分画像に対するイントラ予測画像を生成する。以下では差分画像に対するイントラ予測画像を差分イントラ予測画像と称する。
予測残差復号部211では、ビットストリームから復号対象領域における復号対象画像の予測残差を復号する。
加算器213は、復号対象領域における視点合成画像と差分イントラ予測画像を加算して出力する。
加算器214は、加算器213の出力と復号された予測残差とを加算して出力する。
復号画像メモリ212では、復号された復号対象画像を記憶する。
まず、ビットストリーム入力部201は、復号対象画像を符号化した結果のビットストリームを画像復号装置200に入力し、ビットストリームメモリ202に記憶する。参照視点画像入力部203は参照視点画像を画像復号装置200に入力し、参照視点画像メモリ204に記憶する。参照デプスマップ入力部205は参照デプスマップを画像復号装置200に入力し、参照デプスマップメモリ206に記憶する(ステップS201)。
参照デプスマップに関しては、別途復号したもの以外に、複数のカメラに対して復号された多視点画像に対してステレオマッチング等を適用することで推定したデプスマップや、復号された視差ベクトルや動きベクトルなどを用いて推定されるデプスマップなどを用いることもある。
すなわち、復号対象領域インデックスをblk、復号対象画像中の総復号対象領域数をnumBlksで表すとすると、blkを0で初期化し(ステップS202)、その後、blkに1を加算しながら(ステップS210)、blkがnumBlksになるまで(ステップS211)、以下の処理(ステップS203~S209)を繰り返す。
一般的な復号では、16画素×16画素のマクロブロックと呼ばれる処理単位ブロックへ分割するが、符号化側と同じであればその他の大きさのブロックに分割してもよい。また、場所毎に異なる大きさのブロックに分割しても構わない。
ここでの処理は前述した符号化時のステップS103と同じである。なお、ドリフト等の符号化ノイズの発生を抑えるためには、符号化時に使用された方法と同じ方法を用いる必要があるが、そのような符号化ノイズの発生を許容する場合には、符号化時に使用された方法と異なる方法を使用しても構わない。
なお、符号化時と同じ方法であるならば、どのようなイントラ予測を用いても構わないが、イントラ予測の方法に基づいて参照画素が設定される。
ここでの処理は前述した符号化時のステップS106およびS107と同じであり、符号化時と同じ方法であるならば、どのような方法を用いても構わない。
なお、復号には符号化時に用いられた方法に対応する方法を用いる。例えば、MPEG-2やH.264/AVC、HEVCなどの一般的な符号化が用いられている場合は、ビットストリームに対して、エントロピー復号、逆2値化、逆量子化、IDCTなどの周波数逆変換を順に施すことで復号を行う。
得られた復号画像は、画像復号装置200の出力になると共に、他の復号対象領域の予測に使用するために、復号画像メモリ212に記憶される。
どのように一致させても構わないが、使用したイントラ予測の方法をモード情報として符号化し、ビットストリーム内に含めて復号側へ通知しても構わない。この場合、復号時には、ビットストリームから、領域毎に使用したイントラ予測の方法を示す情報を復号し、復号した情報に基づいて差分イントラ予測画像の生成を行う必要がある。
なお、そのような情報を符号化せずに符号化側と同じイントラ予測の方法を用いる手法としては、フレーム内の位置や既に復号済みの情報を用いて、符号化側と復号側で同一の推定処理を行うことで、同じイントラ予測の方法を用いることができる。
さらに、前述した説明では画像符号化装置及び画像復号装置の構成及び処理動作を説明したが、これら画像符号化装置及び画像復号装置の各部の動作に対応した処理動作によって本発明の画像符号化方法及び画像復号方法を実現することができる。
図5に示すシステムは:
・プログラムを実行するCPU50
・CPU50がアクセスするプログラムやデータが格納されるRAM等のメモリ51
・カメラ等からの符号化対象の画像信号を画像符号化装置内に入力する符号化対象画像入力部52(ディスク装置等による画像信号を記憶する記憶部でもよい)
・カメラ等からの参照視点の画像信号を画像符号化装置内に入力する参照視点画像入力部53(ディスク装置等による画像信号を記憶する記憶部でもよい)
・(デプス情報を取得するための)デプスカメラ等からの、符号化対象視点及び参照視点画像と同じシーンを撮影したカメラに対するデプスマップを画像符号化装置内に入力する参照デプスマップ入力部54(ディスク装置等によるデプスマップを記憶する記憶部でもよい)
・画像符号化処理をCPU50に実行させるソフトウェアプログラムである画像符号化プログラム551が格納されたプログラム記憶装置55
・CPU50がメモリ51にロードされた画像符号化プログラム551を実行することにより生成されたビットストリームを、例えばネットワークを介して出力するビットストリーム出力部56(ディスク装置等によるビットストリームを記憶する記憶部でもよい) とが、バスで接続された構成になっている。
・プログラムを実行するCPU60
・CPU60がアクセスするプログラムやデータが格納されるRAM等のメモリ61
・画像符号化装置が本手法により符号化したビットストリームを画像復号装置内に入力するビットストリーム入力部62(ディスク装置等による画像信号を記憶する記憶部でもよい)
・カメラ等からの参照視点の画像信号を画像復号装置内に入力する参照視点画像入力部63(ディスク装置等による画像信号を記憶する記憶部でもよい)
・デプスカメラ等からの、復号対象画像及び参照視点画像と同じシーンを撮影したカメラに対するデプスマップを画像復号装置内に入力する参照デプスマップ入力部64(ディスク装置等によるデプス情報を記憶する記憶部でもよい)
・画像復号処理をCPU60に実行させるソフトウェアプログラムである画像復号プログラム651が格納されたプログラム記憶装置65
・CPU60がメモリ61にロードされた画像復号プログラム651を実行することにより、ビットストリームを復号して得られた復号対象画像を、再生装置などに出力する復号対象画像出力部66(ディスク装置等による画像信号を記憶する記憶部でもよい)
とが、バスで接続された構成になっている。
なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。
また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、PLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されるものであってもよい。
101・・・符号化対象画像入力部
102・・・符号化対象画像メモリ
103・・・参照視点画像入力部
104・・・参照視点画像メモリ
105・・・参照デプスマップ入力部
106・・・参照デプスマップメモリ
107・・・符号化対象領域視点合成画像生成部
108・・・参照画素設定部
109・・・参照画素視点合成画像生成部
110・・・イントラ予測画像生成部
111・・・予測残差符号化部
112・・・予測残差復号部
113・・・復号画像メモリ
114、115、116、117・・・加算器
200・・・画像復号装置
201・・・ビットストリーム入力部
202・・・ビットストリームメモリ
203・・・参照視点画像入力部
204・・・参照視点画像メモリ
205・・・参照デプスマップ入力部
206・・・参照デプスマップメモリ
207・・・復号対象領域視点合成画像生成部
208・・・参照画素設定部
209・・・参照画素視点合成画像生成部
210・・・イントラ予測画像生成部
211・・・予測残差復号部
212・・・復号画像メモリ
213、214、215・・・加算器
Claims (16)
- 複数の異なる視点の画像からなる多視点画像を符号化する際に、符号化対象画像とは異なる視点に対する符号化済みの参照視点画像と、前記参照視点画像中の被写体に対する参照デプスマップとを用いて、異なる視点間で画像を予測しながら、前記符号化対象画像を分割した領域である符号化対象領域毎に符号化を行う画像符号化装置であって、
前記参照視点画像と前記参照デプスマップとを用いて、前記符号化対象領域に対する第1の視点合成画像を生成する符号化対象領域視点合成画像生成手段と、
前記符号化対象領域を画面内予測する際に参照される既に符号化済みの画素群を参照画素として設定する参照画素設定手段と、
前記第1の視点合成画像を用いて、前記参照画素に対する第2の視点合成画像を生成する参照画素視点合成画像生成手段と、
前記参照画素に対する復号画像と前記第2の視点合成画像を用いて、前記符号化対象領域に対する画面内予測画像を生成する画面内予測画像生成手段と
を有することを特徴とする画像符号化装置。 - 前記画面内予測画像生成手段は、前記符号化対象領域に対する前記符号化対象画像と前記第1の視点合成画像との差分画像に対する画面内予測画像である差分画面内予測画像を生成し、当該差分画面内予測画像と前記第1の視点合成画像とを用いて前記画面内予測画像を生成することを特徴とする請求項1に記載の画像符号化装置。
- 前記符号化対象領域に対して画面内予測方法を設定する画面内予測方法設定手段をさらに有し、
前記参照画素設定手段は、前記画面内予測方法を用いる際に参照される既に符号化済みの画素群を参照画素とし、
前記画面内予測画像生成手段は、前記画面内予測方法に基づいて前記画面内予測画像を生成することを特徴とする請求項1に記載の画像符号化装置。 - 前記参照画素視点合成画像生成手段は、前記画面内予測方法に基づいて、前記第2の視点合成画像を生成することを特徴とする請求項3に記載の画像符号化装置。
- 前記参照画素視点合成画像生成手段は、前記第1の視点合成画像から外挿することで前記第2の視点合成画像を生成することを特徴とする請求項1に記載の画像符号化装置。
- 前記参照画素視点合成画像生成手段は、前記符号化対象領域内において該符号化対象領域外の画素と接する画素群に対応する前記第1の視点合成画像の画素群を用いて、前記第2の視点合成画像を生成することを特徴とする請求項5に記載の画像符号化装置。
- 複数の異なる視点の画像からなる多視点画像の符号データから、復号対象画像を復号する際に、復号対象画像とは異なる視点に対する復号済みの参照視点画像と、前記参照視点画像中の被写体に対する参照デプスマップとを用いて、異なる視点間で画像を予測しながら、前記復号対象画像を分割した領域である復号対象領域毎に復号を行う画像復号装置であって、
前記参照視点画像と前記参照デプスマップとを用いて、前記復号対象領域に対する第1の視点合成画像を生成する復号対象領域視点合成画像生成手段と、
前記復号対象領域を画面内予測する際に参照される既に復号済みの画素群を参照画素として設定する参照画素設定手段と、
前記第1の視点合成画像を用いて、前記参照画素に対する第2の視点合成画像を生成する参照画素視点合成画像生成手段と、
前記参照画素に対する復号画像と前記第2の視点合成画像を用いて、前記復号対象領域に対する画面内予測画像を生成する画面内予測画像生成手段と
を有することを特徴とする画像復号装置。 - 前記画面内予測画像生成手段は、前記復号対象領域に対する前記復号対象画像と前記第1の視点合成画像との差分画像に対する画面内予測画像である差分画面内予測画像を生成し、当該差分画面内予測画像と前記第1の視点合成画像とを用いて前記画面内予測画像を生成することを特徴とする請求項7に記載の画像復号装置。
- 前記復号対象領域に対して画面内予測方法を設定する画面内予測方法設定手段をさらに有し、
前記参照画素設定手段は、前記画面内予測方法を用いる際に参照される既に復号済みの画素群を参照画素とし、
前記画面内予測画像生成手段は、前記画面内予測方法に基づいて前記画面内予測画像を生成することを特徴とする請求項7に記載の画像復号装置。 - 前記参照画素視点合成画像生成手段は、前記画面内予測方法に基づいて、前記第2の視点合成画像を生成することを特徴とする請求項9に記載の画像復号装置。
- 前記参照画素視点合成画像生成手段は、前記第1の視点合成画像から外挿することで前記第2の視点合成画像を生成することを特徴とする請求項7に記載の画像復号装置。
- 前記参照画素視点合成画像生成手段は、前記復号対象領域内において該復号対象領域外の画素と接する画素群に対応する前記第1の視点合成画像の画素群を用いて、前記第2の視点合成画像を生成することを特徴とする請求項11に記載の画像復号装置。
- 複数の異なる視点の画像からなる多視点画像を符号化する際に、符号化対象画像とは異なる視点に対する符号化済みの参照視点画像と、前記参照視点画像中の被写体に対する参照デプスマップとを用いて、異なる視点間で画像を予測しながら、前記符号化対象画像を分割した領域である符号化対象領域毎に符号化を行う画像符号化方法であって、
前記参照視点画像と前記参照デプスマップとを用いて、前記符号化対象領域に対する第1の視点合成画像を生成する符号化対象領域視点合成画像生成ステップと、
前記符号化対象領域を画面内予測する際に参照される既に符号化済みの画素群を参照画素として設定する参照画素設定ステップと、
前記第1の視点合成画像を用いて、前記参照画素に対する第2の視点合成画像を生成する参照画素視点合成画像生成ステップと、
前記参照画素に対する復号画像と前記第2の視点合成画像を用いて、前記符号化対象領域に対する画面内予測画像を生成する画面内予測画像生成ステップと
を備えることを特徴とする画像符号化方法。 - 複数の異なる視点の画像からなる多視点画像の符号データから、復号対象画像を復号する際に、復号対象画像とは異なる視点に対する復号済みの参照視点画像と、前記参照視点画像中の被写体に対する参照デプスマップとを用いて、異なる視点間で画像を予測しながら、前記復号対象画像を分割した領域である復号対象領域毎に復号を行う画像復号方法であって、
前記参照視点画像と前記参照デプスマップとを用いて、前記復号対象領域に対する第1の視点合成画像を生成する復号対象領域視点合成画像生成ステップと、
前記復号対象領域を画面内予測する際に参照される既に復号済みの画素群を参照画素として設定する参照画素設定ステップと、
前記第1の視点合成画像を用いて、前記参照画素に対する第2の視点合成画像を生成する参照画素視点合成画像生成ステップと、
前記参照画素に対する復号画像と前記第2の視点合成画像を用いて、前記復号対象領域に対する画面内予測画像を生成する画面内予測画像生成ステップと
を備えることを特徴とする画像復号方法。 - コンピュータに、請求項13に記載の画像符号化方法を実行させるための画像符号化プログラム。
- コンピュータに、請求項14に記載の画像復号方法を実行させるための画像復号プログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201580014206.2A CN106063273A (zh) | 2014-03-20 | 2015-03-16 | 图像编码装置及方法、图像解码装置及方法、以及它们的程序 |
US15/122,551 US20170070751A1 (en) | 2014-03-20 | 2015-03-16 | Image encoding apparatus and method, image decoding apparatus and method, and programs therefor |
JP2016508711A JP6307152B2 (ja) | 2014-03-20 | 2015-03-16 | 画像符号化装置及び方法、画像復号装置及び方法、及び、それらのプログラム |
KR1020167024968A KR20160118363A (ko) | 2014-03-20 | 2015-03-16 | 화상 부호화 장치 및 방법, 화상 복호 장치 및 방법, 및 이들의 프로그램 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014058902 | 2014-03-20 | ||
JP2014-058902 | 2014-03-20 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2015141613A1 true WO2015141613A1 (ja) | 2015-09-24 |
Family
ID=54144582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2015/057631 WO2015141613A1 (ja) | 2014-03-20 | 2015-03-16 | 画像符号化装置及び方法、画像復号装置及び方法、及び、それらのプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20170070751A1 (ja) |
JP (1) | JP6307152B2 (ja) |
KR (1) | KR20160118363A (ja) |
CN (1) | CN106063273A (ja) |
WO (1) | WO2015141613A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018117706A1 (ko) * | 2016-12-22 | 2018-06-28 | 주식회사 케이티 | 비디오 신호 처리 방법 및 장치 |
JP6824579B2 (ja) * | 2017-02-17 | 2021-02-03 | 株式会社ソニー・インタラクティブエンタテインメント | 画像生成装置および画像生成方法 |
CN106931910B (zh) * | 2017-03-24 | 2019-03-05 | 南京理工大学 | 一种基于多模态复合编码和极线约束的高效三维图像获取方法 |
US11051039B2 (en) | 2017-06-02 | 2021-06-29 | Ostendo Technologies, Inc. | Methods for full parallax light field compression |
KR102568633B1 (ko) * | 2018-01-26 | 2023-08-21 | 삼성전자주식회사 | 이미지 처리 장치 |
US10931956B2 (en) | 2018-04-12 | 2021-02-23 | Ostendo Technologies, Inc. | Methods for MR-DIBR disparity map merging and disparity threshold determination |
US11172222B2 (en) * | 2018-06-26 | 2021-11-09 | Ostendo Technologies, Inc. | Random access in encoded full parallax light field images |
CN112805753A (zh) * | 2018-09-27 | 2021-05-14 | 美国斯耐普公司 | 基于立体提取的三维场景修复 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012124564A (ja) * | 2010-12-06 | 2012-06-28 | Nippon Telegr & Teleph Corp <Ntt> | 多視点画像符号化方法,多視点画像復号方法,多視点画像符号化装置,多視点画像復号装置およびそれらのプログラム |
JP2013126006A (ja) * | 2011-12-13 | 2013-06-24 | Nippon Telegr & Teleph Corp <Ntt> | 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム及び映像復号プログラム |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8854486B2 (en) * | 2004-12-17 | 2014-10-07 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for processing multiview videos for view synthesis using skip and direct modes |
CN100463527C (zh) * | 2005-10-18 | 2009-02-18 | 宁波大学 | 一种多视点视频图像视差估计的方法 |
WO2009005658A2 (en) * | 2007-06-28 | 2009-01-08 | Thomson Licensing | Single loop decoding of multi-vieuw coded video |
US8553781B2 (en) * | 2007-12-07 | 2013-10-08 | Thomson Licensing | Methods and apparatus for decoded picture buffer (DPB) management in single loop decoding for multi-view video |
EP2250812A1 (en) * | 2008-03-04 | 2010-11-17 | Thomson Licensing | Virtual reference view |
EP2329653B1 (en) * | 2008-08-20 | 2014-10-29 | Thomson Licensing | Refined depth map |
JP6039178B2 (ja) * | 2011-09-15 | 2016-12-07 | シャープ株式会社 | 画像符号化装置、画像復号装置、並びにそれらの方法及びプログラム |
KR20130046534A (ko) * | 2011-10-28 | 2013-05-08 | 삼성전자주식회사 | 영상 부호화 방법 및 장치 그리고 영상 복호화 방법 및 장치 |
WO2013068457A1 (en) * | 2011-11-11 | 2013-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for determining a measure for a distortion change in a synthesized view due to depth map modifications |
US20130271565A1 (en) * | 2012-04-16 | 2013-10-17 | Qualcomm Incorporated | View synthesis based on asymmetric texture and depth resolutions |
JP5743968B2 (ja) * | 2012-07-02 | 2015-07-01 | 株式会社東芝 | 動画像復号方法及び動画像符号化方法 |
JP2014082540A (ja) * | 2012-10-12 | 2014-05-08 | National Institute Of Information & Communication Technology | 互いに類似した情報を含む複数画像のデータサイズを低減する方法、プログラム、および装置、ならびに、互いに類似した情報を含む複数画像を表現するデータ構造 |
US9497485B2 (en) * | 2013-04-12 | 2016-11-15 | Intel Corporation | Coding unit size dependent simplified depth coding for 3D video coding |
-
2015
- 2015-03-16 WO PCT/JP2015/057631 patent/WO2015141613A1/ja active Application Filing
- 2015-03-16 KR KR1020167024968A patent/KR20160118363A/ko not_active Application Discontinuation
- 2015-03-16 JP JP2016508711A patent/JP6307152B2/ja active Active
- 2015-03-16 CN CN201580014206.2A patent/CN106063273A/zh active Pending
- 2015-03-16 US US15/122,551 patent/US20170070751A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012124564A (ja) * | 2010-12-06 | 2012-06-28 | Nippon Telegr & Teleph Corp <Ntt> | 多視点画像符号化方法,多視点画像復号方法,多視点画像符号化装置,多視点画像復号装置およびそれらのプログラム |
JP2013126006A (ja) * | 2011-12-13 | 2013-06-24 | Nippon Telegr & Teleph Corp <Ntt> | 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム及び映像復号プログラム |
Non-Patent Citations (1)
Title |
---|
SHINYA SHIMIZU ET AL.: "ADAPTIVE APPEARANCE COMPENSATED VIEW SYNTHESIS PREDICTION FOR MULTIVIEW VIDEO CODING", IMEGE PROCESSING(ICIP),2009 16TH IEEE INTERNATIONAL CONFERENCE ON, pages 2949 - 2952, XP031628329, ISSN: 1522-4880 * |
Also Published As
Publication number | Publication date |
---|---|
KR20160118363A (ko) | 2016-10-11 |
JPWO2015141613A1 (ja) | 2017-04-06 |
JP6307152B2 (ja) | 2018-04-04 |
CN106063273A (zh) | 2016-10-26 |
US20170070751A1 (en) | 2017-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6307152B2 (ja) | 画像符号化装置及び方法、画像復号装置及び方法、及び、それらのプログラム | |
WO2014050830A1 (ja) | 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、画像復号プログラム及び記録媒体 | |
JP6027143B2 (ja) | 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、および画像復号プログラム | |
JP5947977B2 (ja) | 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム及び画像復号プログラム | |
JP6232076B2 (ja) | 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム及び映像復号プログラム | |
KR101648094B1 (ko) | 화상 부호화 방법, 화상 복호 방법, 화상 부호화 장치, 화상 복호 장치, 화상 부호화 프로그램, 화상 복호 프로그램 및 기록매체 | |
JP6053200B2 (ja) | 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム及び画像復号プログラム | |
TWI499277B (zh) | 多視點畫像編碼方法、多視點畫像解碼方法、多視點畫像編碼裝置、多視點畫像解碼裝置及這些程式 | |
WO2013039031A1 (ja) | 画像符号化装置、画像復号装置、並びにそれらの方法及びプログラム | |
JP6232075B2 (ja) | 映像符号化装置及び方法、映像復号装置及び方法、及び、それらのプログラム | |
JP5926451B2 (ja) | 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、および画像復号プログラム | |
KR101750421B1 (ko) | 동화상 부호화 방법, 동화상 복호 방법, 동화상 부호화 장치, 동화상 복호 장치, 동화상 부호화 프로그램, 및 동화상 복호 프로그램 | |
JP6386466B2 (ja) | 映像符号化装置及び方法、及び、映像復号装置及び方法 | |
WO2015141549A1 (ja) | 動画像符号化装置及び方法、及び、動画像復号装置及び方法 | |
WO2015098827A1 (ja) | 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム及び映像復号プログラム | |
JP6310340B2 (ja) | 映像符号化装置、映像復号装置、映像符号化方法、映像復号方法、映像符号化プログラム及び映像復号プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 15765447 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2016508711 Country of ref document: JP Kind code of ref document: A |
|
WWE | Wipo information: entry into national phase |
Ref document number: 15122551 Country of ref document: US |
|
ENP | Entry into the national phase |
Ref document number: 20167024968 Country of ref document: KR Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 15765447 Country of ref document: EP Kind code of ref document: A1 |