WO2007077989A1 - 映像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体 - Google Patents

映像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体 Download PDF

Info

Publication number
WO2007077989A1
WO2007077989A1 PCT/JP2007/050005 JP2007050005W WO2007077989A1 WO 2007077989 A1 WO2007077989 A1 WO 2007077989A1 JP 2007050005 W JP2007050005 W JP 2007050005W WO 2007077989 A1 WO2007077989 A1 WO 2007077989A1
Authority
WO
WIPO (PCT)
Prior art keywords
parallax
decoding
video
information
encoding
Prior art date
Application number
PCT/JP2007/050005
Other languages
English (en)
French (fr)
Inventor
Masayuki Tanimoto
Toshiaki Fujii
Kenji Yamamoto
Masaki Kitahara
Hideaki Kimata
Shinya Shimizu
Kazuto Kamikura
Yoshiyuki Yashima
Original Assignee
Nippon Telegraph And Telephone Corporation
National University Corporation Nagoya University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=38228325&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=WO2007077989(A1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Nippon Telegraph And Telephone Corporation, National University Corporation Nagoya University filed Critical Nippon Telegraph And Telephone Corporation
Priority to EP07706352A priority Critical patent/EP1971155B1/en
Priority to ES07706352T priority patent/ES2388080T3/es
Priority to CA2634050A priority patent/CA2634050C/en
Priority to CN2007800017265A priority patent/CN101361371B/zh
Priority to US12/086,709 priority patent/US8451894B2/en
Priority to BRPI0706214-1A priority patent/BRPI0706214B1/pt
Priority to JP2007553000A priority patent/JP5234587B2/ja
Publication of WO2007077989A1 publication Critical patent/WO2007077989A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • H04N19/64Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets characterised by ordering of coefficients or of bits for transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding

Definitions

  • the present invention is a technique related to encoding and decoding of a multi-view video.
  • Multi-viewpoint moving images are a plurality of moving images obtained by photographing the same subject and background with cameras at various positions.
  • a moving image taken with one camera is called a “two-dimensional moving image”
  • a set of two-dimensional moving images taken with the same subject and background is called a multi-view moving image.
  • the two-dimensional video images of each camera included in the multi-view video are strongly correlated in the time direction.
  • each camera is synchronized, there is a strong correlation between the cameras because the frames of each camera corresponding to the same time capture the subject and the background in exactly the same state.
  • encoding can be performed using intra-frame correlation in an I frame, and encoding can be performed using inter-frame correlation with a plurality of past frames in a P frame. This is possible, and the B frame can be encoded using the inter-frame correlation with multiple past or future frames.
  • the frame is divided into blocks (this block is called a macro block and the block size is 16 ⁇ 16 (pixel)), and intra prediction is performed in each macro block.
  • this block is called a macro block and the block size is 16 ⁇ 16 (pixel)
  • intra prediction is performed in each macro block.
  • each macroblock is divided into smaller blocks (hereinafter referred to as sub-blocks), and different intra-prediction methods are used for each sub-block. Can do.
  • intra prediction or inter prediction can be performed in each macroblock.
  • Intra prediction for P frames is the same as for I frames.
  • motion compensation is performed during inter prediction.
  • a macroblock can be divided into smaller blocks, and each subblock can have a different motion vector and reference image.
  • inter prediction in the B frame a future frame can be used as a reference image for motion compensation in addition to the past frame.
  • encoding can be performed in the order of I ⁇ P ⁇ B ⁇ B.
  • motion compensation can be performed with reference to the I and P frames.
  • each sub-block obtained by dividing a macro block can have a different motion vector.
  • Prediction residuals are obtained when intra / inter prediction is performed, but quantization is performed by DCT (discrete cosine transform) on the prediction residual block in each macroblock. Then, variable length coding is performed on the quantized value of the DCT coefficient obtained in this way.
  • DCT discrete cosine transform
  • the multi-view video encoding method there has conventionally been a method for encoding multi-view video with high efficiency by "parallax compensation" in which motion compensation is applied to images of different cameras at the same time.
  • the parallax is a difference between positions at which the same position on the subject is projected on the image planes of cameras arranged at different positions.
  • FIG. 9 shows a conceptual diagram of the parallax generated between the cameras.
  • the image plane of a camera with parallel optical axes is viewed vertically.
  • the position where the same position on the subject is projected on the image plane of different cameras is generally called a corresponding point. Since the parallax can be expressed as a positional shift in the image plane, it can be expressed as two-dimensional vector information.
  • a corresponding point on a reference image corresponding to a pixel of interest on an image of an encoding target camera is estimated from the reference image, and a pixel value corresponding to the corresponding point is used as an arrival point. Predict the pixel value of the eye pixel.
  • the “estimated parallax” will be This is also called “parallax”.
  • Non-Patent Document 2 is an example of a coding method using disparity compensation.
  • disparity information and prediction residuals for pixels of an image to be encoded are encoded.
  • this method includes a mechanism for performing parallax compensation in units of blocks
  • the parallax in units of blocks is represented by a two-dimensional vector.
  • Figure 10 shows a conceptual diagram of this disparity vector. That is, in this method, disparity information that is a two-dimensional vector and a prediction residual are encoded. Note that this method is effective when the camera parameters are unknown because the camera parameters are not used to perform sign coding.
  • Non-Patent Document 3 parallax compensation is performed using an arbitrary viewpoint image generation technique.
  • the pixel value of the image of the encoding target camera is predicted by interpolating with the pixel value of the corresponding point of a different camera corresponding to the pixel.
  • Figure 11 shows a conceptual diagram of this supplement. In this interpolation, the value of the pixel m of the encoding target image is predicted by interpolating the values of the pixels m of the reference images 1 and 2 corresponding to the pixel m.
  • Non-Patent Document 3 if there are two or more reference images from different cameras, each reference image related to each pixel of the encoding target image is used without using the encoding target image. Can be estimated. A conceptual diagram of this parallax estimation is shown in FIG.
  • the pixel values of the corresponding points of the reference image should be substantially the same for true parallax. Therefore, in many parallax estimation methods, the pixel values of the reference image can be compared for corresponding points related to various depths, and the parallax can be estimated based on the depth at which the pixel values are closest. This process can be performed for each pixel of the encoding target image.
  • the coding side side explicitly encodes the parallax information and provides it to the decoding side. Instead, parallax compensation can be performed on the decoding side using parallax information in units of pixels.
  • Non-Patent Document 1 ITU-T Rec.H.264 / ISO / IEC 11496-10, "Advanced Video Coding", Final Committee Draft, Document JVT-E022, September 2002
  • Non-Patent Document 2 Hideaki Kimata and Masaki Kitahara, "Preliminary results on multiple view video coding (3DAV) ", document M10976 MPEG Redmond Meeting, July, 2004 y, 2005
  • the sign side power is explicitly coded.
  • parallax compensation can be performed using parallax information in units of pixels.
  • reference parallax the disparity related to the image of the code Z decoding target that can be estimated without using the code y or the image to be decoded (without decoding in the case of decoding) is referred to as “reference parallax”. I will call it.
  • the encoding side obtains the parallax that maximizes the prediction efficiency, and encodes the difference between this parallax and the reference parallax (hereinafter referred to as the parallax displacement) for each pixel, thereby improving the prediction efficiency and consequently A method of improving the sign residual efficiency of the prediction residual can be easily analogized.
  • An object of the present invention is to solve the above-described problem and to reduce the amount of parallax information data while minimizing the sacrifice of accuracy of parallax compensation.
  • the present invention includes processing for determining block division of an image, block division information determined there, and parallax displacement information for each block.
  • the process of encoding is performed, and this information is used as the encoding information.
  • the parallax displacement information can be encoded for each divided region.
  • the parallax displacement has a spatial correlation in the screen
  • the prediction efficiency of the parallax compensation is degraded by setting an appropriate area division and coding the parallax displacement for each area. Therefore, the code amount of the parallax information can be suppressed.
  • the disparity (reference disparity) related to the encoding target image is set from the already encoded information (reference image), and further, in the region division setting step. Then, region division within the screen of the encoding target image is set. Then, in the parallax displacement setting step, the parallax displacement corresponding to each area set in the area division is set, and in the area division information encoding step, the area division information which is information indicating the area division is encoded. In the displacement information encoding step, the parallax displacement information is encoded.
  • the reference parallax set in the reference parallax setting step is, for example, based on the principle shown in FIG. 12! /, And the parallax estimated from the reference image (see the third mode below), arbitrary Any of parallax images encoded by a separate means and sent to the decoding side for the purpose of generating viewpoint images, parallax based on a three-dimensional model, or parallax given by other methods may be used.
  • the reference parallax setting step the reference parallax related to the decoding target image is set from the already decoded information (reference image) in the same manner as the encoding side, and the region division information is set.
  • the region division information is decoded
  • the parallax displacement information decoding step the parallax displacement information regarding the region based on the region division information is decoded.
  • the second mode of the video encoding method and video decoding method according to the present invention is basically the same as the first mode described above, but the area division is performed in units of rectangular blocks. Specifically, for example, rectangular block division as shown in Fig. 10 below may be specified in units of macroblocks. Information regarding such block division can be efficiently encoded by conventional entropy coding techniques such as H.264 entropy coding.
  • the third mode of the video encoding method and video decoding method according to the present invention is basically the same as the first and second modes described above, but the principle is as shown in FIG.
  • Use images to be converted A plurality of reference image forces are used without being estimated. In this way, when estimating the reference parallax from the reference image, it is possible to set the reference parallax only with the information already sent to the decoding side. Therefore, additional information to be encoded is generated to set the reference parallax. Do n’t let it live!
  • the prediction in the parallax compensation is performed using the fact that the parallax displacement information has a spatial correlation.
  • the code amount related to the parallax displacement information can be reduced while suppressing the deterioration of efficiency, and the overall code efficiency can be improved.
  • FIG. 1 is a diagram showing a video encoding apparatus according to an embodiment of the present invention.
  • FIG. 2 is a diagram illustrating a reference relationship of cameras in the embodiment.
  • FIG. 3 is a diagram showing a camera arrangement in the embodiment.
  • FIG. 4 is a flowchart illustrating a code according to the present embodiment.
  • FIG. 5 is a detailed flowchart regarding the process of step S106 in FIG.
  • FIG. 6 is a diagram showing an example of block division in a macroblock.
  • FIG. 7 is a diagram illustrating a video decoding apparatus according to an embodiment.
  • FIG. 8 is a decoding flowchart in the embodiment.
  • FIG. 9 is a conceptual diagram of parallax generated between cameras.
  • FIG. 10 is a conceptual diagram of a disparity vector.
  • FIG. 11 is a conceptual diagram of pixel value interpolation.
  • FIG. 12 is a conceptual diagram of parallax estimation.
  • FIG. 1 shows a configuration diagram of a video encoding apparatus according to an embodiment of the present invention.
  • the video encoding apparatus 100 includes an image input unit 101 that inputs an original image of a camera C that is an encoding target image, a reference image input unit 102 that inputs a decoded image of cameras A and B that are reference images, and a reference image.
  • a division information encoding unit 107, a parallax displacement information encoding unit 108 that encodes parallax displacement information, and a prediction residual encoding unit 109 that encodes a prediction residual are provided.
  • FIG. 2 is a diagram illustrating a reference relationship of cameras in the present embodiment.
  • the arrows in the figure indicate the reference relationship during the parallax compensation.
  • the decoded images of cameras A and B that are the same time at the display time are encoded as the reference image.
  • the predicted image is calculated with the average value of the pixel values of the corresponding points of the cameras A and B (the pixel indicated by the vector given by the sum of the parallax displacement vector and the reference parallax vector). Shall be created.
  • FIG. 3 is a diagram showing a camera arrangement in the present embodiment.
  • the viewpoint positions of the three cameras are arranged at equal intervals on a straight line, and the optical axis is perpendicular to the straight line on which the cameras are arranged.
  • the optical axes of the three cameras are parallel.
  • the xy coordinate system of the image plane is obtained by translation (no rotation, etc.) with respect to the straight line where the cameras are arranged, and the pixels are configured by dividing the X and y axes of the image plane at equal intervals with each camera.
  • the resolution is the same for each camera, and the parallax for P pixels of camera C and camera A becomes the parallax of P pixels for camera C and camera B.
  • FIG. 4 shows an encoding flow in the present embodiment.
  • FIG. 5 is a flowchart showing in detail the processing of step S106 in FIG.
  • block division within a macroblock is designated in units of macroblocks composed of 16 pixels vertically and horizontally, and in units of blocks created by the block division (for convenience, simply called “blocks").
  • the parallax displacement information is obtained and signed.
  • reference parallax is expressed as a two-dimensional vector, on the decoding side (and encoding side), a two-dimensional vector (reference parallax) for each reference image is obtained from the reference image on a pixel basis.
  • parallax displacement with respect to camera A shall be encoded.
  • the vector given by the sum of the parallax displacement vector and the reference parallax vector for each pixel of each reference image (the parallax vector used for parallax compensation) is the same on the subject.
  • the parallax displacement vector for camera A is known, the parallax displacement vector for other cameras is uniquely determined.
  • the image of the camera C is input by the image input unit 101 (step S101). It should be noted that the decoded images of cameras A and B that have the same display time as the image of camera C input here are input to reference image memory 103 by reference image input unit 102.
  • the decoded images of the cameras A and B are input from the reference image memory 103 (S102), and the reference parallax for each pixel of the encoding target image is obtained from the input reference image (S103). That is, two reference images related to the cameras A and B are read into the reference parallax setting unit 104, and a reference parallax regarding each pixel of the image of the camera C is obtained.
  • the reference disparity vector for camera A with respect to coordinates (x, y) on the image plane of camera C is d [x, y]
  • the index of the macroblock is expressed as MBBlk, and the number of macroblocks is expressed as maxMBBlk.
  • the block division blkMode is incremented by 1 until the block division blkMode reaches the maximum index value maxBlkMode (S108).
  • the rate distortion cost regarding the macroblock MBBlk and the block division blkMode is obtained (S106). That is, the parallax displacement setting unit 105 obtains the rate distortion cost MBCost for each block division blkMode.
  • Rate distortion cost MBCost for a block division blkMode is obtained by calculating the rate distortion cost blkCost for each block (the total number of blocks is expressed by maxBlk [blkMode]) and taking the total power .
  • the rate distortion cost blkCost for a block is obtained as the minimum value of the rate distortion cost cost when a certain disparity displacement vector is used. Therefore, it is necessary to find the parallax displacement vector that minimizes cost and its rate distortion cost in each block.
  • the block division setting unit 106 obtains a block division bestBlkMode that minimizes the rate distortion cost MBCost for each macroblock MBBlk (a parallax displacement vector corresponding to this is already obtained).
  • step S 106 specifically, the process shown in FIG. 5 is performed.
  • the macro block rate distortion cost MBCost and the index value of the block blk are initialized to 0 (S1061), and the displacement displacement vector is obtained so as to minimize the rate distortion cost blkCost in the block blk (S1062).
  • step S is performed until the block blk reaches the total number of blocks maxBlk [blkMode]. 1062 to S 1064 are repeated (S 1065).
  • the block division information bestBlkMode is the block division information encoding unit 107
  • the parallax displacement information corresponding to bestBlkMode is the parallax. It is encoded by the displacement information encoding unit 108 (S109).
  • the prediction residual corresponding to the parallax displacement information is encoded by the prediction residual encoding unit 109.
  • FIG. 7 shows a video decoding apparatus used in this embodiment.
  • the video decoding apparatus 200 includes a block division information decoding unit 201, a parallax displacement information decoding unit 202, a prediction residual decoding unit 203, a parallax compensation unit 204, and a reference image memory 205.
  • FIG. 8 shows a decoding flow by the video decoding apparatus 200 of the present embodiment. This shows the flow for decoding one frame of camera C. The flow will be described in detail below. It is assumed that frames at the same time of cameras A and B are decoded in advance, and the decoded images are stored in the reference image memory 205.
  • the decoded images of the cameras A and B are input from the reference image memory 205 (S201), and the reference parallax for each pixel of the encoding target image is obtained from the reference image (S202). That is, two reference images related to the cameras A and B are read into the parallax compensation unit 204, and a reference parallax regarding each pixel of the image of the camera C is obtained. By doing this, two two-dimensional vectors are obtained for each pixel of the camera C image.
  • the block division information bestBlkMode regarding the macroblock MBBlk is decoded by the block division information decoding unit 201 (S204).
  • the following processing is repeated for each block blk (the maximum number of blocks is maxBlk [blkMode]).
  • the parallax displacement information decoding unit 202 restores the parallax displacement information regarding the block blk.
  • the parallax compensation unit 204 creates a prediction image (created by interpolating the pixel values of cameras A and B) using the parallax displacement information and the reference parallax (S207). .
  • a prediction image related to the macro block MBBlk is generated by performing the iterative processing related to the block blk. Accordingly, the prediction residual decoding unit 203 decodes the prediction residual related to the macroblock MBBlk. Then, the disparity compensation unit 204 calculates the sum of the predicted image and the prediction residual, thereby obtaining a decoded image related to the macroblock MBBlk (S210).
  • the camera C when the camera C is encoded, it is encoded by referring to the other cameras (cameras A and B), but is encoded with reference to the other cameras.
  • the case where the motion compensation is performed by referring to the decoded image of camera C may be adaptively switched and encoded in the screen (one image).
  • parallax compensation and motion compensation may be switched in units of blocks included in the block division of FIG. In this case, it is necessary to code information indicating which of the parallax Z motion compensation is used in each block on the video code side, and it is necessary to decode this information on the video decoding side. .
  • the above video encoding and video decoding processes can be realized by a computer and a software program, and the program can be provided by being recorded on a computer-readable storage medium. It is also possible.
  • a video encoding and decoding method for estimating parallax from a reference image! By utilizing the fact that the disparity displacement information has a spatial correlation, it is possible to reduce the amount of code related to the disparity displacement information while suppressing the deterioration of the prediction efficiency in the disparity compensation, and the overall sign The rate can be improved.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

複数の映像間の視差を用いて予測する視差補償を用いて、該映像を一つの映像として符号化する。参照画像から推定された、符号化対象画像に対する参照視差を設定し、画面内での領域分割を設定し、設定された各領域に関して、前記参照視差と前記視差補償に用いる視差の差である視差変位を設定し、前記領域分割の情報を符号化し、前記視差変位を示す情報を符号化する。復号時には、参照画像から推定された、復号対象画像に対する参照視差を設定し、符号化情報に含まれる領域分割を示す情報を復号し、該情報が示す各領域に関して、前記符号化情報に含まれる視差変位の情報を復号する。

Description

明 細 書
映像符号化方法及び復号方法、それらの装置、及びそれらのプログラム 並びにプログラムを記録した記憶媒体
技術分野
[0001] 本発明は、多視点動画像の符号ィ匕及び復号に関する技術である。
本願は、 2006年 1月 5日に出願された特願 2006— 000393号に基づき優先権を 主張し、その内容をここに援用する。
背景技術
[0002] 多視点動画像は、様々な位置にあるカメラで同じ被写体と背景を撮影した複数の 動画像である。以下では、一つのカメラで撮影された動画像を" 2次元動画像"と呼び 、同じ被写体と背景を撮影した 2次元動画像の集合を多視点動画像と呼ぶ。多視点 動画像に含まれる各カメラの 2次元動画像は、時間方向に強い相関がある。一方、各 カメラが同期されていた場合、同じ時間に対応した各カメラのフレームは全く同じ状 態の被写体と背景を撮影しているため、カメラ間で強い相関がある。
[0003] まず、 2次元動画像の符号化方式に関する従来技術を述べる。国際符号化標準で ある H. 264、 MPEG— 4、 MPEG— 2をはじめとした従来の多くの 2次元動画像符 号化方式では、動き補償、直交変換、量子化、可変長符号化という技術を利用して、 高効率な符号化を行う。
[0004] 例えば、 H. 264では、 Iフレームにおいてはフレーム内相関を利用して符号化が可 能で、 Pフレームでは過去の複数枚のフレームとのフレーム間相関を利用して符号ィ匕 が可能で、 Bフレームでは過去あるいは未来の複数毎のフレームとのフレーム間相関 を利用して符号ィ匕が可能である。
[0005] H. 264の技術の詳細については、下記の非特許文献 1に記載されている力 以下 で概要を説明する。 Iフレームではフレームをブロック分割し(このブロックをマクロブロ ックといい、ブロックサイズは 16 X 16 (ピクセル)である)、各マクロブロックにおいてィ ントラ予測を行う。イントラ予測の際には、各マクロブロックをさらに小さなブロックに分 割し (以後、サブブロックと呼ぶ)、各サブブロックで異なるイントラ予測方法を行うこと ができる。
[0006] 一方、 Pフレームでは、各マクロブロックでイントラ予測、あるいはインター予測を行う ことができる。 Pフレームにおけるイントラ予測は、 Iフレームの場合と同様である。一方 、インター予測の際には動き補償が行われる。動き補償においても、マクロブロックを より小さなブロックに分割して、各サブブロックで異なる動きベクトル、参照画像を持つ ことができる。
[0007] なお、 Bフレームにおいても、イントラ予測とインター予測が行える力 Bフレームで のインター予測では、過去のフレームに加えて未来のフレームも動き補償の参照画 像にできる。例えば、 Iフレーム→Bフレーム→Bフレーム→Pフレームというフレーム 構成で符号化する場合、 I→P→B→Bの順番で符号ィ匕することができる。そして、 Bフ レームでは、 I及び Pフレームを参照して動き補償ができる。また、 Pフレームの場合と 同様に、マクロブロックを分割したサブブロックごとに異なる動きベクトルを持つことが できる。
イントラ、インター予測を行うと予測残差が得られるが、各マクロブロックで予測残差 ブロックに DCT (離散コサイン変換)を行って量子化が行われる。そして、このようにし て得られる DCT係数の量子化値に対して可変長符号化が行われる。
[0008] 多視点動画像の符号ィ匕については、動き補償を同じ時刻の異なるカメラの画像に 適用した"視差補償"によって高効率に多視点動画像を符号ィ匕する方式が従来から ある。ここで、視差とは、異なる位置に配置されたカメラの画像平面上で、被写体上の 同じ位置が投影される位置の差である。
[0009] このカメラ間で生じる視差の概念図を図 9に示す。この概念図では、光軸が平行な カメラの画像平面を垂直に見下ろしたものとなっている。このように、異なるカメラの画 像平面上で被写体上の同じ位置が投影される位置は、一般的に対応点と呼ばれる。 視差は画像平面内での位置のズレとして表現できるため、 2次元ベクトルの情報とし て表現できる。
[0010] 視差補償では、符号化対象カメラの画像上のある着目画素に対応する参照先の力 メラの画像上の対応点を参照画像から推定し、当該対応点に対応した画素値で、着 目画素の画素値を予測する。以下では、便宜上、前述のような"推定された視差"に ついても"視差"と呼ぶこととする。
[0011] 視差補償を用いた符号ィ匕手法としては、例えば非特許文献 2があるが、このような 方式では、符号化対象の画像の画素に対する視差情報と予測残差を符号化する。 具体的には、この手法ではブロック単位で視差補償を行う仕組みが含まれて ヽるが、 ブロック単位の視差を 2次元ベクトルで表現する。この視差ベクトルの概念図を図 10 に示す。即ち、この手法では 2次元ベクトルである視差情報と予測残差を符号化する 。なお、この方法では、カメラパラメータを利用して符号ィ匕を行わないため、カメラパラ メータが未知である場合に有効である。
[0012] 各々が異なるカメラ力 のものである参照画像が複数ある場合、任意視点画像技術 を利用して視差補償を行うことが可能である。非特許文献 3では、任意視点画像生成 技術を利用して視差補償をする。具体的には、符号化対象カメラの画像の画素値を 、当該画素に対応した異なるカメラの対応点の画素値で補間して予測する。この補 間の概念図を図 11に示す。この補間では、符号化対象画像の画素 mの値を、画素 mに対応する参照画像 1、 2の画素 、 mグ の値を補間することにより予想する。
[0013] なお、非特許文献 3の場合のように、異なるカメラの 2枚以上の参照画像があれば、 符号化対象画像を利用せずに、符号化対象画像の各画素に関する各参照画像へ の視差を推定できる。この視差推定の概念図を図 12に示す。
この図に示されて 、るように、真の視差にぉ 、ては参照画像の対応点の画素値が ほぼ同じ値になるはずである。従い、多くの視差推定法では、様々な奥行きに関する 対応点について参照画像の画素値を比較して、画素値が最も近くなる奥行きに基づ V、て視差を推定することができる。この処理は符号化対象画像の画素単位で行うこと が可能である。
このように、異なるカメラの 2枚以上の参照画像があり、復号側で視差推定が可能な 場合には、符号ィ匕側カゝら明示的に視差情報を符号化して復号側に提供することなく 、復号側で画素単位の視差情報を利用して視差補償を行うことができる。
非特許文献 1 : ITU- T Rec.H.264/ISO/IEC 11496-10, "Advanced Video Coding", Fi nal Committee Draft, Document JVT-E022, September 2002
非特許文献 2: Hideaki Kimata and Masaki Kitahara, "Preliminary results on multiple view video coding (3DAV)", document M10976 MPEG Redmond Meeting, July, 2004 非特許文献 3 : Masayuki Tanimoto, Toshiaki Fujii, "Response to Call for Evidence o n Multi-View Video Coding", document Mxxxxx MPEG Hong Kong Meeting, Januar y, 2005
発明の開示
発明が解決しょうとする課題
[0014] 従来の技術によれば、異なるカメラの 2枚以上の参照画像があり、復号側で視差推 定が可能な場合には、符号ィ匕側力 明示的に視差情報を符号ィ匕することなぐ復号 側で画素単位の視差情報を利用して視差補償を行うことができる。このように、符号 化及び復号側において、符号ィ匕または復号対象の画像を用いずに (復号の場合は 復号せずに)推定できる、符号ィ匕 Z復号対象の画像に関する視差を"参照視差"と呼 ぶこととする。
し力しながら、復号側で推定される参照視差は予測効率の意味では最適なもので はないため、予測残差の符号量が多くなる場合がある。従い、符号化側で予測効率 を最大化する視差を求め、この視差と参照視差の差 (以下では、視差変位と呼ぶ)を 各画素について符号化することにより、予測効率を向上させ、結果として予測残差の 符号ィ匕効率を向上させる方法が容易に類推できる。
[0015] し力しながら、このように容易に類推可能な技術では、画素単位で視差変位を符号 化するため、視差情報としての符号量の増加を招き、結果として全体として高い符号 化効率を実現できな 、と 、う課題がある。
[0016] 本発明は上記課題の解決を図り、視差補償の精度に関する犠牲を小さく抑えなが ら、視差情報のデータ量を少なくすることができるようにすることを目的とする。
課題を解決するための手段
[0017] 本発明が従来技術ともっとも異なる点は、本発明では上記課題を解決するため、画 像のブロック分割を決定する処理と、そこで決定したブロック分割情報及びブロックご との視差変位情報を符号ィ匕する処理を行い、これらの情報を符号ィ匕情報とする点に ある。
[0018] 本発明による映像符号化方法、映像復号方法の第 1の態様によれば、符号化対象 の画像の性質に応じて設定した領域分割に基づき、各分割領域について視差変位 情報を符号ィ匕することができる。
一般的に、視差変位は画面内において空間的な相関があるため、適切な領域分 割を設定し、その各領域に対して視差変位を符号ィ匕することで視差補償の予測効率 を劣化させずに視差情報の符号量を抑えることができる。
なお、映像符号化側では、参照視差設定ステップにおいて、すでに符号化済みの 情報 (参照画像)から符号化対象画像に関する視差 (参照視差)を設定し、さらに、領 域分割設定ステップにお ヽて、符号化対象画像の画面内の領域分割を設定する。 そして、視差変位設定ステップにおいて、領域分割で設定された各領域に対応した 視差変位を設定し、領域分割情報符号化ステップにお 、て領域分割を示す情報で ある領域分割情報を符号化し、視差変位情報符号化ステップにおいて、視差変位情 報を符号化する。
[0019] なお、参照視差設定ステップにおいて設定される参照視差としては、例えば図 12 で示した原理に基づ!/、て参照画像から推定された視差 (下記の第 3の態様参照)、 任意視点画像生成等を目的として別途手段で符号化され復号側に送られる視差画 像や 3次元モデルに基づく視差、もしくはその他の方法で与えられる視差のいずれ でも良い。
[0020] 一方、映像復号側では、参照視差設定ステップにお ヽて、符号化側と同様にすで に復号済みの情報 (参照画像)から復号対象画像に関する参照視差を設定し、領域 分割情報復号ステップにお 、て領域分割情報を復号し、視差変位情報復号ステップ にお 、て、領域分割情報に基づく領域に関する視差変位情報を復号する。
[0021] 本発明による映像符号化方法、映像復号方法の第 2の態様は、基本的には上記第 1の態様と同様であるが、領域分割を矩形ブロック単位で行なうものとする。具体的に は、例えば後掲の図 10のような矩形ブロック分割を、マクロブロック単位で指定するこ とが考えられる。このようなブロック分割に関する情報は、例えば H. 264のエントロピ 一符号化など、従来のエントロピー符号ィ匕技術により効率的に符号ィ匕できる。
[0022] 本発明による映像符号化方法、映像復号方法の第 3の態様は、基本的には上記第 1及び第 2の態様と同様であるが、図 12で示したような原理で、符号化対象画像を用 いることなく複数の参照画像力 推定された参照視差を用いる。このように、参照画 像から参照視差を推定する場合、復号側にすでに送られた情報のみで参照視差を 設定することが可能なため、参照視差を設定するために符号化すべき付加情報を発 生させな!/、ようにすることができる。
発明の効果
[0023] 本発明によれば、参照画像カゝら視差を推定する映像符号ィ匕及び復号方法にお!、 て、視差変位情報に空間的な相関があることを利用し、視差補償における予測効率 の劣化をおさえながらも視差変位情報に関する符号量を小さくすることができ、全体 としての符号ィ匕効率を向上させることができる。
図面の簡単な説明
[0024] [図 1]本発明の実施例に係る映像符号ィ匕装置を示す図である。
[図 2]実施例におけるカメラの参照関係を示す図である。
[図 3]実施例におけるカメラ配置を示す図である。
[図 4]本実施例の符号ィ匕フローチャートである。
[図 5]図 4のステップ S106の処理に関する詳細フローチャートである。
[図 6]マクロブロックにおけるブロック分割の例を示す図である。
[図 7]実施例に係る映像復号装置を示す図である。
[図 8]実施例における復号フローチャートである。
[図 9]カメラ間で生じる視差の概念図である。
[図 10]視差ベクトルの概念図である。
[図 11]画素値補間の概念図である。
[図 12]視差推定の概念図である。
符号の説明
[0025] 100 映像符号化装置
101 画像入力部
102 参照画像入力部
103 参照画像メモリ
104 参照視差設定部 105 視差変位設定部
106 ブロック分割設定部
107 ブロック分割情報符号化部
108 視差変位情報符号化部
109 予測残差符号化部
200 映像復号装置
201 ブロック分割情報復号部
202 視差変位情報復号部
203 予測残差復号部
204 視差補償部
205 参照画像メモリ
発明を実施するための最良の形態
[0026] 本発明の実施例に係る映像符号化装置の構成図を図 1に示す。
この映像符号化装置 100は、符号化対象画像であるカメラ Cの原画像を入力する 画像入力部 101、参照画像であるカメラ Aと Bの復号画像を入力する参照画像入力 部 102、参照画像を格納する参照画像メモリ 103、参照画像から参照視差を求める 参照視差設定部 104、視差変位を求める視差変位設定部 105、ブロック分割を設定 するブロック分割設定部 106、ブロック分割情報を符号ィ匕するブロック分割情報符号 化部 107、視差変位情報を符号ィ匕する視差変位情報符号ィ匕部 108、予測残差を符 号ィ匕する予測残差符号ィ匕部 109を備える。
[0027] 図 2は、本実施例におけるカメラの参照関係を示す図である。
本実施例では、図 2で示すように、 3つのカメラに関する多視点映像を符号ィ匕する にあたり、カメラ Aと Bの復号画像を参照画像として、カメラ Cの動画像を符号ィ匕する 場合を示す。
図中の矢印は、視差補償の際の参照関係を示しており、カメラ Cの画像を符号化す る際には、表示時刻において同時刻であるカメラ Aと Bの復号画像を参照画像として 符号化する。その際には、カメラ A及び Bの対応点 (視差変位ベクトルと参照視差べク トルの和で与えられるベクトルが指す画素)に関する画素値の平均値で予測画像を 作成するものとする。
[0028] 図 3は、本実施例におけるカメラ配置を示す図である。本実施例では、例えば図 3 に示すように、 3つのカメラの視点位置は直線上に等間隔に並んでおり、光軸はカメ ラが並ぶ直線に対して垂直となっているとする。すなわち、 3つのカメラの光軸は平行 であるとする。
また、画像平面の xy座標系は、カメラが並ぶ直線に対する平行移動(回転等はなし )により得られ、各々のカメラで画像平面の X軸及び y軸を等間隔に分割することで画 素が構成されているとする。すなわち、解像度が各カメラで同じであり、なおかつ、力 メラ Cとカメラ Aの P画素分の視差は、カメラ Cとカメラ Bで P画素の視差となることにな る。
[0029] 本実施例における符号化のフローを図 4に示す。さらに、図 5は、図 4におけるステ ップ S106の処理を詳細に記載したフロー図である。
[0030] 本実施例では、縦横 16画素で構成されるマクロブロック単位でマクロブロック内の ブロック分割を指定し、そのブロック分割で作成されるブロック (便宜上、単に"ブロッ ク"と呼ぶ)単位で視差変位情報を求めて符号ィ匕する。
参照視差は、 2次元ベクトルとして表現されるので、復号側 (及び符号化側)におい て、参照画像から、画素単位で各参照画像に対する 2次元ベクトル (参照視差)が求 められる。
[0031] 一方、視差変位については、各ブロックについて 2次元ベクトルの視差変位を一つ
(カメラ Aに対する視差変位)符号化することとする。これは、参照視差を求める場合と 同様に、各参照画像の各画素に関する視差変位ベクトルと参照視差ベクトルの和で 与えられるベクトル (視差補償に利用される視差ベクトルである)が、被写体上の同じ 位置を指しているという物理的な制約条件を仮定すると、カメラ Aに対する視差変位 ベクトルが既知であれば、他のカメラに関する視差変位ベクトルが一意に決まるから である。
なお、このような制約条件を仮定せず、各参照画像に対する視差変位を独立に求 めてそれぞれ符号ィ匕することも考えられる力 このケースについては本実施例の変更 例として容易に適用可能であるので説明を省略する。 [0032] マクロブロックで適用可能なブロック分割としては様々なものが考えられる力 例え ば、図 6に示すようなものが考えられる。なお、図 6に記載のように、ブロック分割の種 類に関するインデックスを blkModeとし、ブロック分割 blkModeにおけるブロック数を m axBlk[blkMode]と表す。
[0033] このような前提の下で、図 4のフローに沿って符号化処理を説明する。
まず、画像入力部 101によりカメラ Cの画像が入力される (ステップ S101)。なお、こ こで入力されたカメラ Cの画像と表示時刻が同じであるカメラ Aと Bの復号画像が参照 画像メモリ 103に参照画像入力部 102により入力されている。
[0034] 次に、参照画像メモリ 103からカメラ Aと Bの復号画像を入力し (S102)、入力した 参照画像から、符号ィ匕対象画像の各画素に対する参照視差を求める(S103)。すな わち、参照視差設定部 104にカメラ Aと Bに関する 2枚の参照画像が読み込まれ、力 メラ Cの画像の各画素に関する参照視差が求められる。
これが行われることにより、カメラ Cの画像の各画素に対して 2次元ベクトルが二つ 求められる。ここで、カメラ Cの画像平面上の座標 (x、 y) (x及び yは整数値でピクセ ルの座標を表すとする)に関するカメラ Aに対する参照視差ベクトルを d [x,y]、カメラ
A
Bに対する参照視差ベクトルを d [x,y]とする。
B
[0035] ここで、マクロブロックのインデックスを MBBlkと表し、マクロブロック数を maxMBBlk と表す。マクロブロックのインデックス MBBlkを 0に初期化した後(S 104)、以下の処 理(S105〜S111)を、マクロブロックのインデックス MBBlkに 1をカ卩算しながら(S11 0)、各マクロブロックについて繰り返し実行する。
[0036] まず、ブロック分割(インデックス) blkModeを 0に初期化した後(S105)、ブロック分 割 blkModeが最大のインデックス値 maxBlkModeになるまで(S108)、ブロック分割 bl kModeに 1を力卩算しながら(S107)、マクロブロック MBBlk及びブロック分割 blkMode に関するレート歪コストを求める(S106)。すなわち、視差変位設定部 105において、 各ブロック分割 blkModeに関するレート歪コスト MBCostが求められる。
[0037] あるブロック分割 blkModeに関するレート歪コスト MBCostは、各ブロックに関するレ ート歪コスト blkCostを計算し(ブロック総数は maxBlk[blkMode]で表される)、その総 禾ロを取ることにより得られる。 あるブロックに関するレート歪コスト blkCostは、ある視差変位ベクトルを利用したと きのレート歪コスト costの最小値として求められる。従い、各ブロックで costを最小化す る視差変位ベクトルとそのレート歪コストを求める必要がある。
ここで、符号ィ匕に利用する視差変位の探索は参照視差の周辺を探索するとする。 すなわち、視差変位ベクトルの候補として e 、 e〜e を考え、視差ベクトル d [x,y]+
0 1 N-l A e につ!/、てレート歪コストを計算する処理を n=0, 1,..,N-1につ!/、て繰り返して当該ブ ロックの最適な視差変位ベクトルを符号化する。
なお、 costの計算の際には、まず、ある視差変位ベクトル eを用いたときの予測残 差のブロックに関する絶対値の総和 SAD「e ]が求められる。
さらに、ある視差変位ベクトル eを符号ィ匕したときの視差変位ベクトルの符号量の 見積もり値 R [e ]が求められ、 costは次の式で計算される。
[0038] cost = SAD [e ]+ l R [e ] (1)
次に、ブロック分割設定部 106において、各マクロブロック MBBlkに関して、レート 歪コスト MBCostが最小になるようなブロック分割 bestBlkModeが求められる(これに 対応した視差変位ベクトルはすでに求まって 、る)。
[0039] 以上のステップ S 106について、具体的には図 5に示す処理を行う。
まず、マクロブロックのレート歪コスト MBCostとブロック blkのインデックス値を 0に初 期化し(S 1061)、ブロック blkにおけるレート歪コスト blkCostを最小にするように視 差変位ベクトルを求める(S 1062)。
求めたブロックのレート歪コスト blkCostをマクロブロックのレート歪コスト MBCostに 加算した後(S1063)、ブロック blkに 1をカ卩算し、ブロック blkがブロック総数 maxBlk[b lkMode]になるまで、ステップ S 1062〜S 1064を繰り返す(S 1065)。
[0040] ブロック blkがブロック総数 maxBlk[blkMode]になったならば、そのときに算出された マクロブロックのレート歪コスト MBCostが、現時点における最小のマクロブロックのレ ート歪コスト minMBCostより小さいかを判定し(S 1066)、小さければ、レート歪コスト MBCostを最小のレート歪コスト minMBCostとして記憶し、そのときのブロック分割 blk Modeを、最適なブロック分割 bestBlkModeとして記憶する(S 1067)。
[0041] 上記の処理を行うことにより、マクロブロック MBBlkの視差補償に利用するブロック 分割情報 bestBlkMode、視差変位情報 (視差変位ベクトル)、視差補償による予測残 差が求まるので、次に、当該ブロック分割情報 bestBlkModeがブロック分割情報符号 化部 107で、 bestBlkModeに対応した視差変位情報が視差変位情報符号ィ匕部 108 で符号ィ匕される(S 109)。
また、当該視差変位情報に対応した予測残差が予測残差符号化部 109で符号ィ匕 される。
[0042] 次に、本実施例において用いる映像復号装置を図 7に示す。
映像復号装置 200は、ブロック分割情報復号部 201、視差変位情報復号部 202、 予測残差復号部 203、視差補償部 204、参照画像メモリ 205を備える。
[0043] 図 8に本実施例の映像復号装置 200による復号フローを示す。これはカメラ Cを 1フ レーム復号する上でのフローを示している。以下でフローを詳細に説明していく。な お、カメラ Aと Bの同時刻のフレームが先立って復号されているとし、その復号画像が 参照画像メモリ 205に蓄積されているものとする。
[0044] まず、参照画像メモリ 205からカメラ Aと Bの復号画像を入力し(S201)、参照画像 から符号化対象画像の各画素に対する参照視差を求める(S202)。すなわち、視差 補償部 204にカメラ Aと Bに関する 2枚の参照画像が読み込まれ、カメラ Cの画像の 各画素に関する参照視差が求められる。これが行われることにより、カメラ Cの画像の 各画素に対して 2次元ベクトルが二つ求められる。
[0045] 次に、マクロブロックのインデックス MBBlkを 0に初期化した後(S203)、以下の処 理(S204〜S212)を、マクロブロックのインデックス MBBlkに 1をカ卩算しながら(S21 1)、各マクロブロックについて 1フレーム分繰り返す(1フレームのブロック数は maxMB Blk)。これによりカメラ Cの 1フレームが復号される。
[0046] 各マクロブロックの復号では、まず、マクロブロック MBBlkに関するブロック分割情 報 bestBlkModeがブロック分割情報復号部 201によって復号される(S204)。次に、 ブロック blkのインデックス値を 0に初期化した後(S205)、以下の処理(S206〜S20 9)が各ブロック blkについて繰り返し行われる(最大ブロック数は maxBlk[blkMode]で ある)。
[0047] まず、視差変位情報復号部 202にお 、てブロック blkに関する視差変位情報が復 号され (S206)、視差補償部 204において、視差変位情報と参照視差を用いてプロ ック blkに関する予測画像 (カメラ Aと Bの画素値を補間することで作成)が作成される (S207)。
[0048] ここで、上記のブロック blkに関する繰り返し処理が行われることにより、マクロブロッ ク MBBlkに関する予測画像が生成される。従い、次に予測残差復号部 203において マクロブロック MBBlkに関する予測残差が復号される。そして、視差補償部 204で予 測画像と予測残差の和が計算されることにより、マクロブロック MBBlkに関する復号 画像が得られる(S210)。
以上の処理が 1フレーム分のすべてのマクロブロックに対して繰り返され(S211、 S 212)、カメラ Cの 1フレームが復号される。
[0049] なお、本実施例では、カメラ Cを符号ィ匕するにあたり、他のカメラ (カメラ A及び B)を 参照することで符号ィ匕したが、他のカメラを参照して符号ィ匕する場合とカメラ Cの復号 画像を参照して動き補償を行う場合とを画面 (一画像)内で適応的に切り替えて符号 化しても良い。
具体的には、例えば図 6のブロック分割に含まれる各ブロックを単位として視差補償 と動き補償を切り替えても良い。この場合には、映像符号ィ匕側では各ブロックで視差 Z動き補償のどちらが利用されたかを示す情報を符号ィ匕する必要があるとともに、映 像復号側では、この情報を復号する必要がある。
[0050] 以上の映像符号ィ匕及び映像復号の処理は、コンピュータとソフトウェアプログラムと によって実現することができ、そのプログラムをコンピュータ読み取り可能な記憶媒体 に記録して提供することも、ネットワークを通して提供することも可能である。
産業上の利用可能性
[0051] 参照画像から視差を推定する映像符号化及び復号方法にお!ヽて、視差変位情報 に空間的な相関があることを利用し、視差補償における予測効率の劣化をおさえな がらも視差変位情報に関する符号量を小さくすることができ、全体としての符号ィ匕効 率を向上させることができる。

Claims

請求の範囲
[1] 複数の映像を一つの映像として符号ィ匕するにあたり、複数の映像間の視差を用い て予測する視差補償により符号ィ匕する映像符号ィ匕方法であって、
参照画像から推定された、符号化対象画像に対する参照視差を設定する参照視 差設定ステップと、
画面内での領域分割を設定する領域分割設定ステップと、
前記領域分割設定ステップで設定された各領域に関して、前記参照視差と前記視 差補償に用いる視差の差である視差変位を設定する視差変位設定ステップと、 前記領域分割設定ステップで設定された領域分割を示す領域分割情報を符号ィ匕 する領域分割情報符号化ステップと、
前記視差変位設定ステップで設定された視差変位を示す視差変位情報を符号ィ匕 する視差変位情報符号化ステップと、
を有することを特徴とする映像符号化方法。
[2] 請求項 1に記載の映像符号ィ匕方法にぉ 、て、
前記領域分割設定ステップにお ヽて設定される領域分割は、矩形ブロックへの分 割を行なう複数の領域分割方法の中から選択されるものである
ことを特徴とする映像符号化方法。
[3] 請求項 1に記載の映像符号ィ匕方法にぉ 、て、
前記参照視差設定ステップにお!ヽて設定される参照視差は、前記符号化対象画 像を用いることなく複数の参照画像力 推定される
ことを特徴とする映像符号化方法。
[4] 請求項 3に記載の映像符号化方法にお 、て、
前記参照視差は、前記複数の参照画像から画素単位で推定される
ことを特徴とする映像符号化方法。
[5] 複数の映像を一つの映像として復号するにあたり、複数の映像間の視差を用いて 予測する視差補償により復号する映像復号方法であって、
参照画像から推定された、復号対象画像に対する参照視差を設定する参照視差 設定ステップと、 符号化情報に含まれる領域分割を示す領域分割情報を復号する領域分割情報復 号ステップと、
前記領域分割情報復号ステップで復号された領域分割情報が示す各領域に関し て、前記符号ィ匕情報に含まれる、前記参照視差と前記視差補償に用いる視差の差 である視差変位の情報を復号する視差変位情報復号ステップと、
を有することを特徴とする映像復号方法。
[6] 請求項 5に記載の映像復号方法において、
前記領域分割情報復号ステップにお 、て復号される領域分割情報は、矩形ブロッ クへの分割を行なう複数の領域分割方法の中から選択されたものである
ことを特徴とする映像復号方法。
[7] 請求項 5に記載の映像復号方法において、
前記視差変位情報復号ステップにお!、て復号される視差変位情報は、前記復号 対象画像を用いることなく複数の参照画像から推定された参照視差と前記視差補償 に用いる視差の差の情報である
ことを特徴とする映像復号方法。
[8] 請求項 7に記載の映像復号方法において、
前記参照視差は、前記複数の参照画像から画素単位で推定されたものである ことを特徴とする映像復号方法。
[9] 複数の映像を一つの映像として符号ィ匕するにあたり、複数の映像間の視差を用い て予測する視差補償により符号ィ匕する映像符号ィ匕装置であって、
参照画像から推定された、符号化対象画像に対する参照視差を設定する参照視 差設定手段と、
画面内での領域分割を設定する領域分割設定手段と、
前記領域分割設定手段で設定された各領域に関して、前記参照視差と前記視差 補償に用いる視差の差である視差変位を設定する視差変位設定手段と、
前記領域分割設定手段で設定された領域分割を示す領域分割情報を符号化する 領域分割情報符号化手段と、
前記視差変位設定手段で設定された視差変位を示す視差変位情報を符号化する 視差変位情報符号化手段と、
を備えることを特徴とする映像符号ィ匕装置。
[10] 複数の映像を一つの映像として復号するにあたり、複数の映像間の視差を用いて 予測する視差補償により復号する映像復号装置であって、
参照画像から推定された、復号対象画像に対する参照視差を設定する参照視差 設定手段と、
符号化情報に含まれる領域分割を示す領域分割情報を復号する領域分割情報復 号手段と、
前記領域分割情報復号手段で復号された領域分割情報が示す各領域に関して、 前記符号化情報に含まれる、前記参照視差と前記視差補償に用いる視差の差であ る視差変位の情報を復号する視差変位情報復号手段と、
を備えることを特徴とする映像復号装置。
[11] 請求項 1、請求項 2及び請求項 3のいずれかに記載の映像符号ィ匕方法を、コンビュ ータに実行させるための映像符号ィ匕プログラム。
[12] 請求項 5、請求項 6及び請求項 7の 、ずれかに記載の映像復号方法を、コンビユー タに実行させるための映像復号プログラム。
[13] 請求項 1、請求項 2及び請求項 3の 、ずれかに記載の映像符号ィ匕方法を、コンビュ ータに実行させるための映像符号ィ匕プログラムを記録したコンピュータ読み取り可能 な記憶媒体。
[14] 請求項 5、請求項 6及び請求項 7の 、ずれかに記載の映像復号方法を、コンビユー タに実行させるための映像復号プログラムを記録したコンピュータ読み取り可能な記 憶媒体。
PCT/JP2007/050005 2006-01-05 2007-01-04 映像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体 WO2007077989A1 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
EP07706352A EP1971155B1 (en) 2006-01-05 2007-01-04 Video encoding method, decoding method, device thereof, program thereof, and storage medium containing the program
ES07706352T ES2388080T3 (es) 2006-01-05 2007-01-04 Método de codificación de vídeo y método de descodificación, dispositivo para los mismos, programas para los mismos y medios de almacenamiento para almacenar los programas
CA2634050A CA2634050C (en) 2006-01-05 2007-01-04 Video encoding method and decoding method, apparatuses therefor, programs therefor, and storage media for storing the programs
CN2007800017265A CN101361371B (zh) 2006-01-05 2007-01-04 视频编码方法及解码方法、其装置及其程序以及记录程序的存储介质
US12/086,709 US8451894B2 (en) 2006-01-05 2007-01-04 Video encoding method and decoding method, apparatuses therefor, programs therefor, and storage media for storing the programs by using parallax compensation
BRPI0706214-1A BRPI0706214B1 (pt) 2006-01-05 2007-01-04 Método de codificação e decodificação de vídeo e aparelhos para os mesmos
JP2007553000A JP5234587B2 (ja) 2006-01-05 2007-01-04 映像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006-000393 2006-01-05
JP2006000393 2006-01-05

Publications (1)

Publication Number Publication Date
WO2007077989A1 true WO2007077989A1 (ja) 2007-07-12

Family

ID=38228325

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/050005 WO2007077989A1 (ja) 2006-01-05 2007-01-04 映像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体

Country Status (11)

Country Link
US (1) US8451894B2 (ja)
EP (1) EP1971155B1 (ja)
JP (1) JP5234587B2 (ja)
KR (1) KR100977255B1 (ja)
CN (1) CN101361371B (ja)
BR (1) BRPI0706214B1 (ja)
CA (1) CA2634050C (ja)
ES (1) ES2388080T3 (ja)
RU (1) RU2384971C1 (ja)
TW (1) TW200806040A (ja)
WO (1) WO2007077989A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008035654A1 (fr) * 2006-09-20 2008-03-27 Nippon Telegraph And Telephone Corporation Procédés et dispositifs de codage et de décodage d'image, dispositif et programmes de décodage d'image, et support de stockage desdits programmes
WO2008035665A1 (fr) * 2006-09-20 2008-03-27 Nippon Telegraph And Telephone Corporation procédé DE CODAGE D'IMAGE, PROCÉDÉ DE DÉCODAGE, DISPOSITIF associÉ, DISPOSITIF DE DÉCODAGE D'IMAGE, programme associÉ, et support de stockage contenant le programme
CN101170702B (zh) * 2007-11-23 2010-08-11 四川虹微技术有限公司 多视角视频编码方法
JP2013214971A (ja) * 2012-03-30 2013-10-17 Panasonic Corp 画像符号化方法および画像復号方法

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8634462B2 (en) * 2007-03-13 2014-01-21 Matthias Narroschke Quantization for hybrid video coding
US20080225947A1 (en) 2007-03-13 2008-09-18 Matthias Narroschke Quantization for hybrid video coding
KR101628383B1 (ko) 2010-02-26 2016-06-21 연세대학교 산학협력단 영상 처리 장치 및 방법
JP2011199396A (ja) * 2010-03-17 2011-10-06 Ntt Docomo Inc 動画像予測符号化装置、動画像予測符号化方法、動画像予測符号化プログラム、動画像予測復号装置、動画像予測復号方法、及び動画像予測復号プログラム
KR101529992B1 (ko) * 2010-04-05 2015-06-18 삼성전자주식회사 픽셀 그룹별 픽셀값 보상을 위한 비디오 부호화 방법과 그 장치, 및 픽셀 그룹별 픽셀값 보상을 위한 비디오 복호화 방법과 그 장치
BR112012025407B1 (pt) 2010-04-13 2022-03-22 Samsung Electronics Co, Ltd Método de decodificação de vídeo baseado em unidades de codificação determinadas de acordo com uma estrutura de árvore
CN105120280B (zh) * 2010-07-20 2018-04-20 株式会社Ntt都科摩 图像预测编码装置及方法、图像预测解码装置及方法
US9648334B2 (en) 2011-03-21 2017-05-09 Qualcomm Incorporated Bi-predictive merge mode based on uni-predictive neighbors in video coding
EP2751998A4 (en) * 2011-08-30 2015-08-12 Intel Corp CODING SCHEMES FOR MORE VIEWED VIDEOS
JP5485969B2 (ja) * 2011-11-07 2014-05-07 株式会社Nttドコモ 動画像予測符号化装置、動画像予測符号化方法、動画像予測符号化プログラム、動画像予測復号装置、動画像予測復号方法及び動画像予測復号プログラム
HUE037047T2 (hu) * 2012-06-11 2018-08-28 Samsung Electronics Co Ltd Eljárás színes komponens szerinti SAO paramétert megosztó videók kódolására
JP2013258577A (ja) * 2012-06-13 2013-12-26 Canon Inc 撮像装置、撮像方法及びプログラム、画像符号化装置、画像符号化方法及びプログラム
JP2014082541A (ja) * 2012-10-12 2014-05-08 National Institute Of Information & Communication Technology 互いに類似した情報を含む複数画像のデータサイズを低減する方法、プログラムおよび装置
WO2014075236A1 (en) 2012-11-14 2014-05-22 Mediatek Singapore Pte. Ltd. Methods for residual prediction with pseudo residues in 3d video coding
CN104782128B (zh) * 2012-11-14 2017-10-24 寰发股份有限公司 用于三维或多维视图视频编码的方法及其装置
CN104885462A (zh) * 2012-12-28 2015-09-02 日本电信电话株式会社 视频编码装置和方法、视频解码装置和方法、以及其程序
WO2015006922A1 (en) * 2013-07-16 2015-01-22 Mediatek Singapore Pte. Ltd. Methods for residual prediction
CN105359529B (zh) * 2013-07-16 2018-12-07 寰发股份有限公司 用于三维或多视图视频编码的方法及装置
EP3413563A4 (en) * 2016-02-03 2019-10-23 Sharp Kabushiki Kaisha DEVICE FOR DECODING MOVEMENT PICTURES, APPARATUS FOR CODING MOVEMENT IMAGES AND DEVICE FOR GENERATING FORECAST PICTURES
CN112702598B (zh) * 2020-12-03 2024-06-04 浙江智慧视频安防创新中心有限公司 基于位移操作进行编解码的方法、装置、电子设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02130094A (ja) * 1988-11-10 1990-05-18 Nippon Telegr & Teleph Corp <Ntt> ステレオ動画像の動きベクトル情報符号化方式
JPH09261653A (ja) * 1996-03-18 1997-10-03 Sharp Corp 多視点画像符号化装置
JPH09275578A (ja) * 1996-04-04 1997-10-21 Sharp Corp 多視点画像符号化装置および復号装置
JPH1032840A (ja) * 1996-04-05 1998-02-03 Matsushita Electric Ind Co Ltd 多視点画像伝送方法および多視点画像表示方法
JP2003259377A (ja) * 2002-03-06 2003-09-12 Matsushita Electric Ind Co Ltd 動画像符号化方法、動画像復号化方法および符号列フォーマット
JP2006000393A (ja) 2004-06-17 2006-01-05 Brother Ind Ltd ミシンおよびその制御方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3055438B2 (ja) * 1995-09-27 2000-06-26 日本電気株式会社 3次元画像符号化装置
US6163337A (en) * 1996-04-05 2000-12-19 Matsushita Electric Industrial Co., Ltd. Multi-view point image transmission method and multi-view point image display method
JP3263807B2 (ja) 1996-09-09 2002-03-11 ソニー株式会社 画像符号化装置および画像符号化方法
JP3519594B2 (ja) * 1998-03-03 2004-04-19 Kddi株式会社 ステレオ動画像用符号化装置
US6269175B1 (en) * 1998-08-28 2001-07-31 Sarnoff Corporation Method and apparatus for enhancing regions of aligned images using flow estimation
US7903742B2 (en) 2002-07-15 2011-03-08 Thomson Licensing Adaptive weighting of reference pictures in video decoding
CN1204757C (zh) * 2003-04-22 2005-06-01 上海大学 一种立体视频流编码/解码器及其立体视频编解码系统
JP3790764B2 (ja) 2004-04-02 2006-06-28 一成 江良 投写型表示装置および投写型表示システム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02130094A (ja) * 1988-11-10 1990-05-18 Nippon Telegr & Teleph Corp <Ntt> ステレオ動画像の動きベクトル情報符号化方式
JPH09261653A (ja) * 1996-03-18 1997-10-03 Sharp Corp 多視点画像符号化装置
JPH09275578A (ja) * 1996-04-04 1997-10-21 Sharp Corp 多視点画像符号化装置および復号装置
JPH1032840A (ja) * 1996-04-05 1998-02-03 Matsushita Electric Ind Co Ltd 多視点画像伝送方法および多視点画像表示方法
JP2003259377A (ja) * 2002-03-06 2003-09-12 Matsushita Electric Ind Co Ltd 動画像符号化方法、動画像復号化方法および符号列フォーマット
JP2006000393A (ja) 2004-06-17 2006-01-05 Brother Ind Ltd ミシンおよびその制御方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1971155A4 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008035654A1 (fr) * 2006-09-20 2008-03-27 Nippon Telegraph And Telephone Corporation Procédés et dispositifs de codage et de décodage d'image, dispositif et programmes de décodage d'image, et support de stockage desdits programmes
WO2008035665A1 (fr) * 2006-09-20 2008-03-27 Nippon Telegraph And Telephone Corporation procédé DE CODAGE D'IMAGE, PROCÉDÉ DE DÉCODAGE, DISPOSITIF associÉ, DISPOSITIF DE DÉCODAGE D'IMAGE, programme associÉ, et support de stockage contenant le programme
EP2066132A1 (en) * 2006-09-20 2009-06-03 Nippon Telegraph and Telephone Corporation Image encoding and decoding methods, their devices, image decoding device, their programs, and storage medium in which programs are recorded
JP4999853B2 (ja) * 2006-09-20 2012-08-15 日本電信電話株式会社 画像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体
JP4999854B2 (ja) * 2006-09-20 2012-08-15 日本電信電話株式会社 画像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体
US8290289B2 (en) 2006-09-20 2012-10-16 Nippon Telegraph And Telephone Corporation Image encoding and decoding for multi-viewpoint images
EP2066132A4 (en) * 2006-09-20 2012-11-07 Nippon Telegraph & Telephone IMAGE ENCODING AND DECODING METHODS AND DEVICES, IMAGE DECODING DEVICE AND PROGRAMS, AND STORAGE MEDIUM OF SAID PROGRAMS
US8385628B2 (en) 2006-09-20 2013-02-26 Nippon Telegraph And Telephone Corporation Image encoding and decoding method, apparatuses therefor, programs therefor, and storage media for storing the programs
CN101170702B (zh) * 2007-11-23 2010-08-11 四川虹微技术有限公司 多视角视频编码方法
JP2013214971A (ja) * 2012-03-30 2013-10-17 Panasonic Corp 画像符号化方法および画像復号方法
JP2017022755A (ja) * 2012-03-30 2017-01-26 サン パテント トラスト 画像符号化方法および画像復号方法
US10390041B2 (en) 2012-03-30 2019-08-20 Sun Patent Trust Predictive image coding and decoding using two reference pictures

Also Published As

Publication number Publication date
EP1971155A4 (en) 2010-06-16
CN101361371B (zh) 2010-11-03
ES2388080T3 (es) 2012-10-08
RU2384971C1 (ru) 2010-03-20
CA2634050A1 (en) 2007-07-12
KR20080078697A (ko) 2008-08-27
CN101361371A (zh) 2009-02-04
CA2634050C (en) 2013-08-20
BRPI0706214A2 (pt) 2011-03-15
JP5234587B2 (ja) 2013-07-10
EP1971155A1 (en) 2008-09-17
BRPI0706214B1 (pt) 2020-02-11
RU2008125839A (ru) 2009-12-27
JPWO2007077989A1 (ja) 2009-06-11
KR100977255B1 (ko) 2010-08-23
TWI364992B (ja) 2012-05-21
US8451894B2 (en) 2013-05-28
US20100220784A1 (en) 2010-09-02
EP1971155B1 (en) 2012-05-16
TW200806040A (en) 2008-01-16

Similar Documents

Publication Publication Date Title
JP5234587B2 (ja) 映像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体
JP5234586B2 (ja) 映像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体
EP1835747B1 (en) Video encoding method and device, video decoding method and device, program thereof, and recording medium containing the program
JP5061179B2 (ja) 照明変化補償動き予測符号化および復号化方法とその装置
JP5197591B2 (ja) 映像符号化方法及び復号方法、それらの装置、それらのプログラム並びにプログラムを記録した記録媒体
WO2010064396A1 (ja) 動画像復号化方法および動画像符号化方法
CA2663084A1 (en) Image encoding method and decoding method, apparatuses therefor, programs therefor, and storage media for storing the programs
JP2007329693A (ja) 画像符号化装置、及び画像符号化方法
US20070133689A1 (en) Low-cost motion estimation apparatus and method thereof
JP4563981B2 (ja) 映像符号化方法、映像符号化装置、映像符号化プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
KR20070061214A (ko) 저비용 움직임 추정 장치 및 움직임 추정 방법
JP2007517438A (ja) 参照フレームの数を固定する符号化方式で画像の参照ブロックを取得する方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200780001726.5

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application
DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 4946/DELNP/2008

Country of ref document: IN

WWE Wipo information: entry into national phase

Ref document number: 2007706352

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2634050

Country of ref document: CA

WWE Wipo information: entry into national phase

Ref document number: 12086709

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2007553000

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2008125839

Country of ref document: RU

WWE Wipo information: entry into national phase

Ref document number: 1020087015482

Country of ref document: KR

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: PI0706214

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20080625

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)