WO2011114755A1 - 多視点画像符号化装置 - Google Patents

多視点画像符号化装置 Download PDF

Info

Publication number
WO2011114755A1
WO2011114755A1 PCT/JP2011/050086 JP2011050086W WO2011114755A1 WO 2011114755 A1 WO2011114755 A1 WO 2011114755A1 JP 2011050086 W JP2011050086 W JP 2011050086W WO 2011114755 A1 WO2011114755 A1 WO 2011114755A1
Authority
WO
WIPO (PCT)
Prior art keywords
viewpoint
image
compensation prediction
encoding
prediction
Prior art date
Application number
PCT/JP2011/050086
Other languages
English (en)
French (fr)
Inventor
貴也 山本
内海 端
Original Assignee
シャープ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シャープ株式会社 filed Critical シャープ株式会社
Publication of WO2011114755A1 publication Critical patent/WO2011114755A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Definitions

  • the present invention relates to multi-view image processing technology, and more particularly to a high-efficiency encoding device for multi-view video.
  • Multi-viewpoint images captured from multiple viewpoints are used in 3D video systems, etc., and by displaying each image so that it can be viewed from the corresponding viewpoint, stereoscopic image display corresponding to many viewpoints becomes possible Become.
  • the playback image is viewed, if the viewpoint is changed, the image that can actually be seen changes accordingly, so that a more natural stereoscopic image display is obtained.
  • the parallax compensation prediction is an encoding mode in which a decoded image of another viewpoint that has already been encoded when encoding an image of a certain viewpoint is a reference image.
  • Patent Document 1 prior to encoding, if the difference between the original image and the reference image is less than a certain threshold, it is determined that there is no motion, and motion compensation prediction is not performed, thereby reducing the amount of processing. However, this can also be applied to disparity compensation prediction.
  • Patent Document 1 if only the method of Patent Document 1 is applied to the parallax compensation prediction, the difference between the original image and the reference image must be calculated when determining the correlation between the images, and the processing time increases accordingly. become.
  • the present invention has been made in consideration of the above situation, and when encoding a multi-view image using motion compensated prediction and disparity compensated prediction, the determination time of whether to perform disparity compensated prediction is determined. It is an object of the present invention to provide a multi-view image encoding apparatus that reduces the overall processing time for encoding from the processing time reduced because shortening and parallax compensation prediction are not performed.
  • the multi-view image encoding device of the present invention uses at least motion-compensated prediction and selectively parallax-compensated prediction for multi-view images captured by cameras arranged at a plurality of viewpoints.
  • a multi-view image encoding apparatus for encoding wherein a distance between a viewpoint image to be processed other than a reference viewpoint in the parallax compensation prediction and a camera of a viewpoint that has captured another multi-view image is equal to or less than a predetermined threshold value
  • the parallax compensation prediction process is performed using a multi-viewpoint image of a viewpoint that is equal to or smaller than the predetermined threshold as a reference image, and when there is no image that is equal to or smaller than the predetermined threshold, the parallax compensation prediction process is not performed.
  • the parallax compensation prediction process is narrower than a predetermined disparity search range when the camera arrangement is linear. Execute.
  • the time for determining whether to perform parallax compensation prediction is shortened and the amount of time is reduced because the parallax compensation prediction is not performed. From the processing time, the overall processing time for encoding can be reduced.
  • the multi-viewpoint image encoding device of the present invention encodes video shot by a plurality of cameras, and the plurality of cameras are arranged in any of the following as shown in FIG.
  • the cameras are arranged in a straight line (FIG. 1A).
  • a plurality of cameras are arranged so that the optical axis direction of the camera faces the direction of the object to be photographed and the optical axis of the camera is perpendicular to the straight line, and the distance (baseline length) between the cameras is substantially constant (for example, although it is set to about 6.5 cm, which is the average value of the distance between human eyes, it may be set to an arbitrary distance.
  • the camera serving as the reference viewpoint is assumed to be one of the end points arranged in a straight line.
  • the cameras are arranged in a circular shape (FIG. 1B).
  • the multiple cameras are basically arranged in an arc shape so that the optical axis direction of the camera converges to one point in the direction of the object to be photographed, and the distance (baseline length) between these cameras is arranged in a straight line. Set the same as you did.
  • the camera serving as the reference viewpoint is designated at an arbitrary position.
  • the photographer creates a camera parameter file before transmitting the multi-view video to the multi-view video encoding apparatus, and transmits the camera parameter file together with the multi-view video.
  • the camera parameter file stores data such as the number of cameras, the arrangement shape (a distinction between linear and circular shapes), and the distance between the cameras.
  • the distance between the cameras is stored by matching the distance between adjacent cameras based on the position of the camera at the reference viewpoint. For example, in the case of FIG. 1A, d1 and d2 are stored in order from the camera position of the reference viewpoint at the left end to the right.
  • FIG. 2 is a diagram illustrating the functional configuration of the multi-view image encoding device according to the present embodiment.
  • the multi-view image encoding apparatus includes a residual signal encoding unit 101, a residual signal decoding unit 102, a decoded image buffer 103, a motion compensation prediction unit 104, a disparity compensation prediction unit 105, and an intra-screen encoding unit.
  • 106 an encoding mode determination unit 107, an encoded bit string generation unit 108, and an encoding control unit 109.
  • the multi-view image encoding apparatus uses a decoded image that has already been encoded and decoded as a reference image, performs motion compensation prediction using the reference image, and obtains a motion vector calculated in motion compensation prediction.
  • a coding method, a method for performing disparity compensation prediction using a reference image from another viewpoint, a method for encoding a disparity vector calculated at the time of the disparity compensation prediction, and a method for encoding in a screen without using a reference image These modes are adaptively switched in units of pixel blocks composed of a plurality of pixels.
  • Each of these parts is a well-known technique (for example, Jun Okubo (supervised), “Revised Third Edition H.264 / AVC Textbook”, Impress, Dec. 26, 2008) and will be described briefly.
  • the encoding control unit 109 controls the entire multi-view image encoding apparatus, determines whether to perform disparity compensation prediction based on the input camera parameters, and executes the disparity compensation prediction using the switch 110. Control whether to do. Further, when executing the parallax compensation prediction, a block matching search range is set and supplied to the parallax compensation prediction unit 105.
  • the residual signal encoding unit 101 receives the residual signal, which is a result of subtracting the image data and the prediction signal output from the encoding mode determination unit 107, and performs integer conversion on the input residual signal. Quantization is performed and an encoded residual signal is output. Of the encoded images, images that can become reference images are sequentially stored in the decoded image buffer 103.
  • Residual signal decoding section 102 performs inverse quantization and inverse integer transform on the encoded residual signal input from residual signal encoding section 101, outputs a residual signal, and encodes mode determination section 107.
  • the decoded image signal is calculated by adding to the prediction signal supplied from, and the decoded image signal is sequentially stored in the decoded image buffer 103 in units of pixel blocks.
  • the decoded image signal stored in the decoded image buffer 103 is supplied to the motion compensation prediction unit 104 or the parallax compensation prediction unit 105.
  • the motion-compensated prediction unit 104 uses the same viewpoint reference image and code as the image data to be encoded supplied from the decoded image buffer 103 as in the conventional MPEG-2, MPEG-4, MPEG-4 ⁇ AVC / H.264 system. Block matching is performed with pixel blocks of image data to be converted, a motion vector is detected, a motion compensated prediction block is created, and a motion compensated prediction signal and a motion vector are supplied to the encoding mode determination unit 107.
  • the disparity compensation prediction unit 105 performs block matching between the pixel block of the image data to be encoded and the image data supplied from the decoded image buffer 103 and the reference image of a different viewpoint, detects a disparity vector, A disparity compensation prediction block is created, and a disparity compensation prediction signal and a disparity vector are supplied to the encoding mode determination unit 107.
  • the search range for block matching in the parallax compensation prediction is determined by the encoding control unit 109.
  • the in-screen encoding unit 106 refers to the pixel block of the image data to be encoded and the upper left, upper, upper right, and left adjacent blocks of the encoding target block that has already been encoded and supplied from the decoded image buffer 103, and is most similar A prediction signal created using a difference from the current block is supplied to the encoding mode determination unit 107.
  • the coding mode determination unit 107 receives the prediction signal and the motion vector or the disparity vector from the motion compensation prediction unit 104, the parallax compensation prediction unit 105, and the intra-frame coding unit 106, and performs coding with the highest coding efficiency.
  • the mode is determined, and the prediction signal, the motion vector or the disparity vector, and the selected encoding mode of the encoding mode with the highest encoding efficiency are output.
  • a method for determining the encoding mode for example, there is a method of calculating the code amount and the distortion amount for each encoding mode and selecting an optimal encoding mode in balance between the code amount and the distortion amount.
  • the encoded bit string generation unit 108 performs entropy encoding on the encoded residual signal input from the residual signal encoding unit 101 and the encoding mode and motion vector or disparity vector input from the encoding mode determination unit 107. To generate an encoded bit string.
  • the viewpoint images supplied to the multi-view image encoding device when the parallax compensation prediction is executed, the prediction relationship between the viewpoints, and the encoding order will be described using the example of FIG.
  • the viewpoint when the object is viewed from one end point when the cameras are arranged in a straight line is set as a reference viewpoint. This is because it has been experimentally confirmed that the compression ratio is higher in the reference relationship in which the reference viewpoint is set to the outside.
  • An arrow t indicates the time direction.
  • FIG. 3 is an example of a prediction relationship between images when video from three viewpoints is encoded.
  • the viewpoint images V1, V2, and V3 are images from the respective viewpoints supplied to the multi-view image encoding device. It is.
  • the viewpoint image V1 is an image captured from the first viewpoint (reference viewpoint) when the object is viewed from one end point when the cameras are arranged linearly.
  • the viewpoint image V2 is an image captured from the second viewpoint when the same object is viewed from a camera adjacent to the camera of the first viewpoint.
  • the viewpoint image V3 is an image captured from the third viewpoint when the same object is viewed from a camera adjacent to the camera of the second viewpoint.
  • the viewpoint image V1 of the reference viewpoint is encoded by an encoding method similar to the conventional MPEG-2, MPEG-4, MPEG-4 AVC / H.264 method without referring to images of other viewpoints.
  • the image V13 is a P picture (a picture in which one reference image can be referred for prediction), and a decoded image of the image V11 of the I picture is used as a reference image and is encoded using motion compensated prediction.
  • the image V12 is a B picture (a picture in which two reference images can be referred to for prediction), and the decoded images of the images V11 and V13 are used as reference images and encoded using motion compensated prediction.
  • V14 and V15 that are images of the reference viewpoint are encoded using motion compensated prediction.
  • viewpoint images V2 and V3 other than the reference viewpoint are encoded using disparity compensation prediction in addition to motion compensation prediction.
  • the viewpoint image V3 uses the viewpoint image V1
  • the viewpoint image V2 uses the viewpoint image V1 and the viewpoint image V3 as reference images.
  • the images V21, V23, V12, and V32 serving as reference images must be encoded and decoded and stored in the decoded image buffer 103. Therefore, in this example, encoding is performed in the order of V11, V31, V21, V13, V33, V23, V12, V32, V22, V15,.
  • the process described below is performed prior to the parallax compensation prediction process after the aforementioned camera parameter file has already been read and stored in a predetermined memory.
  • the threshold value T of the distance between the cameras is set in advance to 13 cm, which is twice as large as about 6.5 cm, which is the average value of the distance between human eyes, and stored in the memory.
  • the distance L between the viewpoint cameras that have captured the viewpoint image to be processed and the other multi-viewpoint images other than the reference viewpoint is acquired (step S1). S1).
  • the viewpoint image V3 uses the viewpoint image V1 as a reference image
  • the distance between the cameras is d1 + d2.
  • the viewpoint image V2 uses the viewpoint images V1 and V3 as reference images
  • the distances between the cameras are d1 and d2, respectively.
  • step S2 When all the acquired distances L between the cameras exceed the threshold T (L> T) (YES in step S2), the parallax compensation prediction is not performed. On the other hand, if one of the acquired distances L between the cameras does not exceed the threshold value T (L ⁇ T) (NO in step S2), the viewpoint reference image that does not exceed the threshold value T is targeted. The following steps S3 to S6 are executed.
  • step S3 When the camera arrangement is linear (YES in step S3), the block matching search range of the parallax compensation prediction is set to a predetermined search range (step S4), and the reference image of the viewpoint that does not exceed the threshold T is targeted. Then, the parallax compensation prediction is executed (step S6).
  • step S3 when the arrangement shape between the cameras is an arc shape (NO in step S3), the block matching search range of the parallax compensation prediction is set narrower than the predetermined search range (step S5), and the viewpoint that does not exceed the threshold T is set.
  • the parallax compensation prediction is executed for the reference image (step S6).
  • the narrowing of the search range described above is because the correlation between the encoded image and the reference image is low and the parallax compensation may not be effective because the occlusion part of the object is photographed compared to the case where the camera is arranged in a straight line.
  • the horizontal search range is set to 1/2 with respect to a predetermined search range.
  • the camera parameter it is possible to make a determination only by comparing the size of the camera interval, so whether or not to perform the parallax compensation can be selected with a small amount of processing.
  • an appropriate search range can be set based on the arrangement shape of the camera, it is possible to reduce the processing amount due to the parallax compensation prediction while minimizing a decrease in encoding efficiency.
  • a recording medium in which a program code of software that realizes part or all of the components of the present invention is recorded is supplied to an encoding device, and the program code is executed by an MPU (Microprocessing Unit) or DSP (Digital Signal Processor)
  • MPU Microprocessing Unit
  • DSP Digital Signal Processor

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

 動き補償予測および視差補償予測を用いて多視点画像を符号化する場合に、視差補償予測を行うか否かの判定時間の短縮および視差補償予測が行われないために減った処理時間とから、符号化のための全体の処理時間を低減させる多視点画像符号化装置を提供する。 複数の視点に配置されたカメラで撮影された多視点画像を、少なくとも動き補償予測および選択的に視差補償予測を用いて符号化する多視点画像符号化装置であって、前記視差補償予測における基準視点以外の処理対象の視点画像と他の多視点画像を撮影した視点のカメラ間の距離に所定の閾値以下のものがある場合には、前記所定の閾値以下の視点の多視点画像を参照画像として前記視差補償予測処理を行い、所定の閾値以下のものがない場合には、前記視差補償予測処理を行わない。

Description

多視点画像符号化装置
 本発明は、多視点画像の処理技術に関し、特に多視点動画像の高能率符号化装置に関する。
 複数の視点から画像を撮像した多視点画像は、3D映像システム等で利用され、各画像をそれに応じた視点から見られるように表示することで、多くの視点に応じた立体画像表示が可能になる。
 この場合、再生画像を見る際に、視点を変えると、それに応じて実際に見える画像も変化するので、より自然な立体画像表示となる。
 また、観察者が自由に任意の視点位置を指定し観察することのできる自由視点映像システムもある。
 この方法は、多視点画像のほかに、奥行き画像およびカメラパラメータを利用することにより、システムの表現機能を向上させることができるが、一方で、奥行き画像データとカメラパラメータを必要とするため、その分、伝送時の符号量が増えるという問題が生じる。
 この問題を解決するため、多視点画像の符号化装置においては、各種の工夫がなされており、その1つに視差補償予測がある。
 視差補償予測とは、ある視点の画像を符号化する際にすでに符号化済みの他の視点の復号画像を参照画像とする符号化モードである。
 しかし、視差間の差分が小さい場合には視差補償は有効に働くが、視差間の差分が大きい場合には符号化効率はほとんど向上せず、かえって処理量が増加するだけになってしまうことになる。そのため、視差補償を行うべきか否かを適切に判断する必要がある。
 特許文献1では、符号化に先立って、原画像と参照画像との差分がある一定の閾値未満の場合には動きなしと判定し、動き補償予測を行わないことにより、処理量の削減を実現しているが、これは視差補償予測にも適用することができる。
特開平2-107086号公報
 しかしながら、特許文献1の方法を視差補償予測に適用しただけでは、画像の相関性を判断する際に原画像と参照画像との差分を演算しなければならず、その分処理時間が増加することになる。
 本発明は、上述の実情を考慮してなされたものであって、動き補償予測および視差補償予測を用いて多視点画像を符号化する場合に、視差補償予測を行うか否かの判定時間の短縮および視差補償予測が行われないために減った処理時間とから、符号化のための全体の処理時間を低減させる多視点画像符号化装置を提供することを目的とする。
 上記課題を解決するために、本発明の多視点画像符号化装置は、複数の視点に配置されたカメラで撮影された多視点画像を、少なくとも動き補償予測および選択的に視差補償予測を用いて符号化する多視点画像符号化装置であって、前記視差補償予測における基準視点以外の処理対象の視点画像と他の多視点画像を撮影した視点のカメラ間の距離に所定の閾値以下のものがある場合には、前記所定の閾値以下の視点の多視点画像を参照画像として前記視差補償予測処理を行い、所定の閾値以下のものがない場合には、前記視差補償予測処理を行わない。
 上記の多視点画像符号化装置において、前記視点画像の撮影時における複数カメラの配置形状が円弧状の場合、カメラの配置が直線状のときの所定の視差探索範囲より狭めて前記視差補償予測処理を実行する。
 本発明によれば、動き補償予測および視差補償予測を用いて多視点画像を符号化する場合に、視差補償予測を行うか否かの判定時間の短縮および視差補償予測が行わないために減った処理時間とから、符号化のための全体の処理時間を低減させることができる。
カメラの配置を説明する図である。 実施形態に係る多視点画像符号化装置の機能構成を説明する図である。 実施形態の多視点画像符号化装置に供給される各視点画像と、視点間の予測関係と、符号化順について説明する図である。 視差補償予測を行うか否かを決定する処理手順を説明するフローチャートである。
 以下、図面を参照して、本発明の実施形態について説明する。
(複数のカメラの配置)
 本発明の多視点画像符号化装置は、複数のカメラで撮影した映像を符号化するものであり、これらの複数のカメラは、図1に示したように次のいずれかに配置される。
(1)カメラを直線状に配置する(図1(A))。
 複数のカメラは、カメラの光軸方向が撮影対象物の方向に向き、そのカメラの光軸が直線に対して垂直になるように配置し、カメラ間の距離(基線長)は、ほぼ一定(例えば、人間の両眼間隔の平均値である約6.5cm)に設定されるが、任意の距離に設定してもよい。
 基準視点となるカメラは、直線状に配置したいずれかの端点のものとする。
(2)カメラを円形状に配置する(図1(B))。
 複数のカメラは、基本的にはカメラの光軸方向が撮影対象物の方向の1点に収束するように円弧状に配置し、それらのカメラ間の距離(基線長)は、直線状に配置したときと同じように設定する。
 基準視点となるカメラは、任意の位置に指定する。
 また、撮影者は、多視点映像を多視点画像符号化装置に伝送する前に、カメラパラメータファイルを作成しておき、多視点映像を伝送するときに一緒に伝送する。
 このカメラパラメータファイルには、カメラの数、配置形状(直線状か円形状かの区別)、カメラ間の距離などのデータを格納する。このカメラ間の距離は、基準視点のカメラの位置をもとに、隣接するカメラ間の距離をカメラの配置順に合わせて格納する。例えば、図1(A)の場合、左端の基準視点のカメラの位置から右へ順に、d1、d2が格納される。
(多視点画像符号化装置の機能構成)
 図2は、本実施形態に係る多視点画像符号化装置の機能構成を説明する図である。図2において、多視点画像符号化装置は、残差信号符号化部101、残差信号復号化部102、復号画像バッファ103、動き補償予測部104、視差補償予測部105、画面内符号化部106、符号化モード判定部107、符号化ビット列生成部108、符号化制御部109からなっている。
 本実施形態に係る多視点画像符号化装置は、すでに符号化復号された復号画像を参照画像とし、この参照画像を用いて動き補償予測を行い、動き補償予測の際に算出される動きベクトルを符号化する方式、別視点からの参照画像を用いて視差補償予測を行い視差補償予測の際に算出される視差ベクトルを符号化する方式、参照画像を用いず画面内で符号化する方式を用い、これらのモードを複数画素から構成される画素ブロック単位で適応的に切り替えるものである。
 これらの各部は、公知の技術(例えば、大久保榮(監修)、「改訂三版 H.264/AVC教科書」、インプレス、2008年12月26日)であるから簡単に説明する。
 符号化制御部109は、本多視点画像符号化装置の全体を制御するとともに、入力されたカメラパラメータに基づいて視差補償予測を行うか否かを判定し、スイッチ110により、視差補償予測を実行するか否かを制御する。
 さらに、視差補償予測を実行するときには、ブロックマッチングの探索範囲を設定して、視差補償予測部105に供給する。
 残差信号符号化部101は、画像データと符号化モード判定部107から出力される予測信号とを減算した結果である残差信号を入力として、入力された残差信号に対して整数変換、量子化を行い、符号化残差信号を出力する。
 符号化画像のうち参照画像になりうる画像に関しては、復号画像バッファ103に順次格納される。
 残差信号復号化部102は、残差信号符号化部101から入力した符号化残差信号に対して逆量子化、逆整数変換を行い、残差信号を出力し、符号化モード判定部107から供給される予測信号と加算することにより復号画像信号を算出し、この復号画像信号を復号画像バッファ103に画素ブロック単位で順次格納する。
 復号画像バッファ103に格納されている復号画像信号は、動き補償予測部104または視差補償予測部105へ供給される。
 動き補償予測部104は、従来のMPEG-2、MPEG-4、MPEG-4 AVC/H.264方式と同様に復号画像バッファ103から供給される符号化する画像データと同一視点の参照画像と符号化する画像データの画素ブロックとの間でブロックマッチングを行い、動きベクトルを検出し、動き補償予測ブロックを作成して動き補償予測信号、および動きベクトルを符号化モード判定部107に供給する。
 視差補償予測部105は、符号化する画像データの画素ブロックと復号画像バッファ103から供給され符号化する画像データとは別視点の参照画像との間でブロックマッチングを行い、視差ベクトルを検出し、視差補償予測ブロックを作成して視差補償予測信号、および視差ベクトルを符号化モード判定部107に供給する。視差補償予測におけるブロックマッチングの探索範囲は、符号化制御部109にて決定される。
 画面内符号化部106は、符号化する画像データの画素ブロックと既に符号化され復号画像バッファ103から供給された符号化対象ブロックの左上、上、右上、左の隣接ブロックを参照し、最も類似しているブロックとの差分を用いて作成した予測信号を符号化モード判定部107に供給する。
 符号化モード判定部107は、動き補償予測部104、視差補償予測部105、および画面内符号化部106から予測信号および動きベクトルまたは視差ベクトルの入力を受けて、最も符号化効率の良い符号化モードを判定し、最も符号化効率の良い符号化モードの予測信号、動きベクトルまたは視差ベクトル、選択された符号化モードを出力する。
 この符号化モードを判定する方式としては、例えば、各符号化モードについて符号量と歪み量を算出し、これら符号量と歪み量のバランスにおいて最適な符号化モードを選択する手法がある。
 符号化ビット列生成部108は、残差信号符号化部101から入力される符号化残差信号と符号化モード判定部107から入力される符号化モードおよび動きベクトルまたは視差ベクトルを、エントロピー符号化を用いて符号化し、符号化ビット列を生成する。
 次に、図3の例を用いて、視差補償予測が実行されたときの多視点画像符号化装置に供給される各視点画像と、視点間の予測関係と、符号化順について説明する。
 本実施形態では、カメラを直線状に配置したときの一方の端点から対象物を見たときの視点を基準視点とする。これは、基準視点を外側に設定した参照関係の方が圧縮率が高くなることが実験で確認されているためである。
 尚、矢印tは時間方向を示している。
 また、カメラの配置が円形状のときには、円周上の適当な一つのカメラを端点とし、このカメラから対象物を見たときの視点を基準視点と考えれば、カメラを直線状に配置したものと同様に考えることができる。
 図3は、3つの視点からの映像を符号化する際の画像間の予測関係の例で、視点画像V1、V2,V3は、多視点画像符号化装置に供給されるそれぞれの視点からの画像である。
 視点画像V1は、カメラを直線状に配置したときの一方の端点から対象物を見たときの第1の視点(基準視点)から撮像された画像である。
 視点画像V2は、第1の視点のカメラに隣接するカメラから同じ対象物を見たときの第2の視点から撮像された画像である。
 視点画像V3は、第2の視点のカメラに隣接するカメラから同じ対象物を見たときの第3の視点から撮像された画像である。
 基準視点の視点画像V1は、他の視点の画像を参照せず、従来のMPEG-2、MPEG-4、MPEG-4 AVC/H.264方式と同様の符号化方式で符号化される。例えば、画像V13はPピクチャ(1枚の参照画像を予測のために参照可能となるピクチャ)であり、Iピクチャの画像V11の復号画像を参照画像とし、動き補償予測を用いて符号化する。
 さらに、画像V12はBピクチャ(2枚の参照画像を予測のために参照可能となるピクチャ)であり、画像V11およびV13の復号画像を参照画像とし、動き補償予測を用いて符号化する。
 以下、同様にして、基準視点の画像であるV14,V15を動き補償予測を用いて符号化する。
 一方、基準視点以外の視点画像V2、V3は動き補償予測に加えて、視差補償予測を用いて符号化する。
 視差補償予測を行う際の参照画像として、視点画像V3は視点画像V1を、視点画像V2は視点画像V1と視点画像V3を参照画像として用いる。
 そのため、例えば、視点画像V2の画像V22を符号化する際にV21およびV23を参照画像として動き補償予測を行うとともに、別視点の画像であるV12とV32を参照画像として視差補償予測を用いて符号化する。
 画像V22を符号化する際には参照画像となる画像V21、V23、V12およびV32は符号化、復号化が完了し復号画像バッファ103に格納されていなければならない。
 そのため、本例では、V11、V31、V21、V13、V33、V23、V12、V32、V22、V15、・・・の順序で符号化される。
 また、後述の視差補償予測の判定処理において視差補償予測を行わないと判定されたとしても、この符号化順に変化はない。
(本発明に関する符号化制御部の処理)
 次に、図4のフローチャートを用いて、符号化制御部109における視差補償予測を行うか否かの判定と、視差補償予測におけるブロックマッチングの探索範囲の決定について説明する。
 以下に説明する処理は、前述のカメラパラメータファイルが既に読み込まれ、所定のメモリに記憶した後、視差補償予測処理に先立って行われる。
 また、カメラ間の距離の閾値Tを、例えば、人間の両眼間隔の平均値である約6.5cmの2倍の13cmに予め設定し、メモリの記憶しておく。
 まず、所定のメモリに記憶されたカメラパラメータのカメラ間の距離に基づいて、基準視点以外の処理対象の視点画像と他の多視点画像を撮影した視点のカメラ間の距離Lを取得する(ステップS1)。
 例えば、図1(A)および図3において、視点画像V3は、視点画像V1を参照画像とするので、カメラ間の距離はd1+d2である。また、視点画像V2は、視点画像V1およびV3を参照画像とするので、カメラ間の距離はそれぞれd1とd2である。
 取得したカメラ間の距離Lがすべて閾値Tを超える場合(L>T)(ステップS2のYES)、視差補償予測を行わない。
 一方、取得したカメラ間の距離Lのうち1つでも閾値Tを超えないものがある場合(L≦T)(ステップS2のNO)、閾値Tを超えなかった視点の参照画像を対象にして、以下のステップS3~S6の処理を実行する。
 カメラの配置形状が直線状の場合(ステップS3のYES)、視差補償予測のブロックマッチングの探索範囲を所定の探索範囲に設定し(ステップS4)、閾値Tを超えなかった視点の参照画像を対象にして視差補償予測を実行する(ステップS6)。
 他方、カメラ間の配置形状が円弧状の場合(ステップS3のNO)、視差補償予測のブロックマッチングの探索範囲を所定の探索範囲より狭く設定し(ステップS5)、閾値Tを超えなかった視点の参照画像を対象にして視差補償予測を実行する(ステップS6)。
 上記の探索範囲の狭め方は、カメラを直線状に配置する場合と比較してオブジェクトのオクルージョン部分が撮影される分、符号化画像と参照画像の相関性が低く視差補償が有効ではない可能性が高いため、例えば、所定の探索範囲に対して水平方向の探索範囲を1/2に設定する。
 このように、カメラパラメータを用いることより、カメラ間隔の単純な大小比較のみで判定できるため、視差補償を行うか否かを少ない処理量で選択することができる。
 また、カメラの配置形状から適切な探索範囲を設定することが可能なため、符号化効率の低下を最小限に抑えつつ、視差補償予測による処理量を低減することができる。
 尚、本発明は上述した実施形態に限定されず、本発明の要旨を逸脱しない範囲内で各種の変形、修正が可能であるのは勿論である。
 例えば、本発明の構成要素の一部または全部の機能を実現するソフトウェアのプログラムコードを記録した記録媒体を符号化装置に供給し、MPU(MicroprocessingUnit)またはDSP(Digital Signal Processor)によりプログラムコードが実行されることによっても本発明の目的が達成される。
 また、本発明の構成要素の一部または全部をハードウェアとして構成してもよいし、また、上記のソフトウェアをファームウェア化し、このファームウェアを集積回路/ICチップセットとして構成してもよい。
101…残差信号符号化部、102…残差信号復号化部、103…復号画像バッファ、104…動き補償予測部、105…視差補償予測部、106…画面内符号化部、107…符号化モード判定部、108…符号化ビット列生成部、109…符号化制御部、110…スイッチ、V1・V2・V3…視点画像。

Claims (2)

  1.  複数の視点に配置されたカメラで撮影された多視点画像を、少なくとも動き補償予測および選択的に視差補償予測を用いて符号化する多視点画像符号化装置であって、前記視差補償予測における基準視点以外の処理対象の視点画像と他の多視点画像を撮影した視点のカメラ間の距離に所定の閾値以下のものがある場合には、前記所定の閾値以下の視点の多視点画像を参照画像として前記視差補償予測処理を行い、所定の閾値以下のものがない場合には、前記視差補償予測処理を行わないことを特徴とする多視点画像符号化装置。
  2.  前記視点画像の撮影時における複数カメラの配置形状が円弧状の場合、カメラの配置が直線状のときの所定の視差探索範囲より狭めて前記視差補償予測処理を実行することを特徴とする請求項1記載の多視点画像符号化装置。
PCT/JP2011/050086 2010-03-16 2011-01-06 多視点画像符号化装置 WO2011114755A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010-059379 2010-03-16
JP2010059379A JP4746702B1 (ja) 2010-03-16 2010-03-16 多視点画像符号化装置

Publications (1)

Publication Number Publication Date
WO2011114755A1 true WO2011114755A1 (ja) 2011-09-22

Family

ID=44541415

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/050086 WO2011114755A1 (ja) 2010-03-16 2011-01-06 多視点画像符号化装置

Country Status (2)

Country Link
JP (1) JP4746702B1 (ja)
WO (1) WO2011114755A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103024402A (zh) * 2012-11-29 2013-04-03 宁波大学 一种自由视点视频整帧丢失错误隐藏方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102030205B1 (ko) 2012-01-20 2019-10-08 선 페이턴트 트러스트 시간 움직임 벡터 예측을 사용하여 비디오를 부호화 및 복호하는 방법 및 장치
CN107396101B (zh) 2012-02-03 2019-12-20 太阳专利托管公司 图像编码方法及图像编码装置
CA2866121C (en) 2012-03-06 2018-04-24 Panasonic Intellectual Property Corporation Of America Moving picture coding method, moving picture decoding method, moving picture coding apparatus, moving picture decoding apparatus, and moving picture coding and decoding apparatus
JP2013258577A (ja) * 2012-06-13 2013-12-26 Canon Inc 撮像装置、撮像方法及びプログラム、画像符号化装置、画像符号化方法及びプログラム
CN102801995B (zh) * 2012-06-25 2016-12-21 北京大学深圳研究生院 一种基于模板匹配的多视点视频运动和视差矢量预测方法
JP6338724B2 (ja) * 2017-03-02 2018-06-06 キヤノン株式会社 符号化装置、撮像装置、符号化方法及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09261653A (ja) * 1996-03-18 1997-10-03 Sharp Corp 多視点画像符号化装置
JP2007013828A (ja) * 2005-07-04 2007-01-18 Matsushita Electric Ind Co Ltd 符号化装置、復号化装置、符号化方法及び復号化方法
JP2007036800A (ja) * 2005-07-28 2007-02-08 Nippon Telegr & Teleph Corp <Ntt> 映像符号化方法、映像復号方法、映像符号化プログラム、映像復号プログラム及びそれらのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2008503973A (ja) * 2004-06-25 2008-02-07 エルジー エレクトロニクス インコーポレイティド 多視点シーケンス符号化/復号化方法及びそのディスプレイ方法
WO2008126986A1 (en) * 2007-04-11 2008-10-23 Samsung Electronics Co, . Ltd. Method and apparatus for encoding and decoding multi-view image

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001008231A (ja) * 1999-06-22 2001-01-12 Gen Tec:Kk 3次元空間における物体の多視点画像伝送方法及びシステム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09261653A (ja) * 1996-03-18 1997-10-03 Sharp Corp 多視点画像符号化装置
JP2008503973A (ja) * 2004-06-25 2008-02-07 エルジー エレクトロニクス インコーポレイティド 多視点シーケンス符号化/復号化方法及びそのディスプレイ方法
JP2007013828A (ja) * 2005-07-04 2007-01-18 Matsushita Electric Ind Co Ltd 符号化装置、復号化装置、符号化方法及び復号化方法
JP2007036800A (ja) * 2005-07-28 2007-02-08 Nippon Telegr & Teleph Corp <Ntt> 映像符号化方法、映像復号方法、映像符号化プログラム、映像復号プログラム及びそれらのプログラムを記録したコンピュータ読み取り可能な記録媒体
WO2008126986A1 (en) * 2007-04-11 2008-10-23 Samsung Electronics Co, . Ltd. Method and apparatus for encoding and decoding multi-view image

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HIDEAKI KIMATA ET AL.: "Low Delay Multi-View Video Coding for Free-Viewpoint Video Communication", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, vol. J89-D, no. 1, 1 January 2006 (2006-01-01), pages 40 - 55 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103024402A (zh) * 2012-11-29 2013-04-03 宁波大学 一种自由视点视频整帧丢失错误隐藏方法
CN103024402B (zh) * 2012-11-29 2015-10-28 宁波大学 一种自由视点视频整帧丢失错误隐藏方法

Also Published As

Publication number Publication date
JP2011193352A (ja) 2011-09-29
JP4746702B1 (ja) 2011-08-10

Similar Documents

Publication Publication Date Title
JP2023025159A (ja) 多視点信号コーデック
JP5197591B2 (ja) 映像符号化方法及び復号方法、それらの装置、それらのプログラム並びにプログラムを記録した記録媒体
JP4663792B2 (ja) 多視点動映像を符号化及び復号化する装置及び方法
US9961347B2 (en) Method and apparatus for bi-prediction of illumination compensation
JP4746702B1 (ja) 多視点画像符号化装置
US20150245062A1 (en) Picture encoding method, picture decoding method, picture encoding apparatus, picture decoding apparatus, picture encoding program, picture decoding program and recording medium
KR20120000485A (ko) 예측 모드를 이용한 깊이 영상 부호화 장치 및 방법
JP6039178B2 (ja) 画像符号化装置、画像復号装置、並びにそれらの方法及びプログラム
US20160065958A1 (en) Method for encoding a plurality of input images, and storage medium having program stored thereon and apparatus
JP2010021844A (ja) 多視点画像符号化方法,復号方法,符号化装置,復号装置,符号化プログラム,復号プログラムおよびコンピュータ読み取り可能な記録媒体
JP4944046B2 (ja) 映像符号化方法,復号方法,符号化装置,復号装置,それらのプログラムおよびコンピュータ読み取り可能な記録媒体
JP4874578B2 (ja) 画像符号化装置
US20160057414A1 (en) Method for encoding a plurality of input images, and storage medium having program stored thereon and apparatus
JP2016127372A (ja) 動画像符号化装置、動画像復号装置、動画像処理システム、動画像符号化方法、動画像復号方法、およびプログラム
WO2015141549A1 (ja) 動画像符号化装置及び方法、及び、動画像復号装置及び方法
JP5531282B2 (ja) 多視点画像符号化方法,復号方法,符号化装置,復号装置,符号化プログラム,復号プログラムおよびコンピュータ読み取り可能な記録媒体
JP6232117B2 (ja) 画像符号化方法、画像復号方法、及び記録媒体
JP6310340B2 (ja) 映像符号化装置、映像復号装置、映像符号化方法、映像復号方法、映像符号化プログラム及び映像復号プログラム
KR20150119052A (ko) 영상 부호화 장치 및 방법, 영상 복호 장치 및 방법과 이들의 프로그램
Gao et al. Rate-complexity tradeoff for client-side free viewpoint image rendering
JP2015186052A (ja) 立体映像符号化装置及び立体映像符号化方法
JP2016051922A (ja) 動画像符号化装置、動画像復号装置、動画像処理システム、動画像符号化方法、動画像復号方法、およびプログラム
JP2013179554A (ja) 画像符号化装置、画像復号装置、画像符号化方法、画像復号方法およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11755945

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11755945

Country of ref document: EP

Kind code of ref document: A1