WO2010073513A1 - 画像符号化装置、画像符号化方法およびそのプログラム、ならびに画像復号装置、画像復号方法およびそのプログラム - Google Patents

画像符号化装置、画像符号化方法およびそのプログラム、ならびに画像復号装置、画像復号方法およびそのプログラム Download PDF

Info

Publication number
WO2010073513A1
WO2010073513A1 PCT/JP2009/006715 JP2009006715W WO2010073513A1 WO 2010073513 A1 WO2010073513 A1 WO 2010073513A1 JP 2009006715 W JP2009006715 W JP 2009006715W WO 2010073513 A1 WO2010073513 A1 WO 2010073513A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
encoding
viewpoint
unit
decoding
Prior art date
Application number
PCT/JP2009/006715
Other languages
English (en)
French (fr)
Inventor
中村博哉
上田基晴
Original Assignee
日本ビクター株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2008333856A external-priority patent/JP2010157823A/ja
Priority claimed from JP2008333857A external-priority patent/JP2010157824A/ja
Priority claimed from JP2008333855A external-priority patent/JP2010157822A/ja
Priority claimed from JP2008333854A external-priority patent/JP2010157821A/ja
Priority claimed from JP2008333859A external-priority patent/JP2010157826A/ja
Priority claimed from JP2008333858A external-priority patent/JP4821846B2/ja
Application filed by 日本ビクター株式会社 filed Critical 日本ビクター株式会社
Priority to CN2009801528479A priority Critical patent/CN102265617A/zh
Priority to EP09834328.8A priority patent/EP2384000B1/en
Priority to KR1020117017466A priority patent/KR101260613B1/ko
Priority to US13/142,188 priority patent/US8750632B2/en
Publication of WO2010073513A1 publication Critical patent/WO2010073513A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Definitions

  • the present invention relates to an image encoding device, an image encoding method and program for encoding images taken from a plurality of different viewpoints, and encoded image data obtained by encoding images taken from a plurality of different viewpoints.
  • the present invention relates to an image decoding apparatus, an image decoding method, and a program thereof.
  • twin-lens stereoscopic television In recent years, applications using images from multiple viewpoints have become widespread.
  • One such application is a twin-lens stereoscopic television.
  • a twin-lens stereoscopic television a left-eye image and a right-eye image, which are taken from two different directions by two cameras, are generated and displayed on the same screen to show a stereoscopic image. ing.
  • the left-eye image and the right-eye image are separately transmitted or recorded as independent images. In this case, the amount of information about twice that of a single two-dimensional image is required.
  • a method has been proposed in which one of the left and right images is set as a main image, the other image is set as a sub image, and information of the sub image is information-compressed by a general compression encoding method to reduce the amount of information (for example, see Patent Document 1).
  • a relative position having a high correlation with the main image is obtained for each small area of the sub-image, and its position deviation amount (hereinafter referred to as a disparity vector) and a difference signal (hereinafter referred to as a disparity vector).
  • the prediction residual signal is transmitted or recorded. If the main image and the disparity vector are used, an image close to the sub-image can be restored, but the prediction residual signal is also transmitted or recorded. Because.
  • a stereo image encoding method called a multi-view profile was added to the MPEG-2 video (ISO / IEC 13818-2) encoding method, which is an international standard for single-view image encoding (ISO). / IEC 38 13818-2 / AMD3).
  • the MPEG-2 video multi-view profile is a two-layer encoding method that encodes the image for the left eye with the basic layer and the image for the right eye with the enhancement layer, and motion using redundancy in the time direction
  • compression coding is performed using disparity compensation prediction using redundancy between viewpoints.
  • JVC Joint Video Team
  • MVC Multiview Video Coding
  • Non-Patent Document 1 a multi-view image coding method
  • MVC method Multiview Video Coding
  • the present invention has been made in view of such circumstances, and an object of the present invention is to provide an image encoding device, an image encoding method, and a program thereof capable of efficiently transmitting or storing multi-viewpoint images. Another object is to provide an image decoding apparatus, an image decoding method, and a program thereof that can efficiently receive or read a multi-viewpoint image.
  • An image encoding device includes a first encoding unit that encodes a plurality of images from a plurality of different viewpoints to generate encoded image data, and identification from at least one or more viewpoints.
  • a second encoding unit that generates depth information encoded data by encoding depth information indicating the depth of the space, and image encoded data and depth generated by the first encoding unit and the second encoding unit, respectively.
  • a stream generation unit that generates an encoded stream including information encoded data.
  • An image encoding device includes a first encoding unit that encodes a plurality of images from a plurality of different viewpoints to generate encoded image data, and at least one or more viewpoints.
  • a second encoding unit that encodes depth information indicating the depth of the specific space and generates depth information encoded data; a determination unit that determines whether or not depth information from a certain viewpoint is to be encoded; Generating an encoded stream including encoded image data generated by the first encoding unit and depth information encoded data obtained by encoding the depth information determined to be an encoding target by the determination unit by the second encoding unit And a stream generation unit that performs.
  • encoded image data obtained by encoding a plurality of images from a plurality of different viewpoints and depth information indicating the depth of a specific space from at least one viewpoint are encoded.
  • a decomposing unit that decomposes an encoded stream including the encoded depth information encoded data, a first decoding unit that decodes the image encoded data decomposed by the decomposing unit and restores a plurality of images, and a decomposing unit
  • a second decoding unit that decodes the decomposed depth information encoded data and restores the depth information.
  • an image encoding device that encodes a plurality of images from a plurality of different viewpoints and generates encoded image data, and at least one or more viewpoints.
  • a second encoding unit that encodes depth information indicating the depth of the specific space to generate depth information encoded data, and viewpoint information for specifying a plurality of viewpoints based on a plurality of images and depth information
  • a third encoding unit that generates parameter information encoded data by encoding the parameter information including the image information generated by the first encoding unit, the second encoding unit, and the third encoding unit, respectively.
  • a stream generation unit that generates an encoded stream including data, depth information encoded data, and parameter information encoded data.
  • the image decoding apparatus includes encoded image data obtained by encoding a plurality of images from a plurality of different viewpoints, and depth information indicating the depth of a specific space from at least one or more viewpoints.
  • a decomposing unit for decomposing the stream a first decoding unit for decoding the encoded image data decomposed by the decomposing unit and restoring a plurality of images, and decoding the depth information encoded data decomposed by the decomposing unit
  • an image encoding device encodes a plurality of images from a plurality of different viewpoints to generate image encoded data, and at least one of the plurality of images.
  • a depth information generating unit that generates depth information indicating the depth of a specific space from one virtual viewpoint, and a second encoding unit that generates depth information encoded data by encoding the depth information generated by the depth information generating unit
  • a stream generation unit that generates encoded streams including the image encoded data and the depth information encoded data generated by the first encoding unit and the second encoding unit, respectively.
  • multi-viewpoint images can be efficiently transmitted or stored.
  • multi-viewpoint images can be received or read efficiently.
  • FIG. 1 is a block diagram showing a configuration of an image encoding device according to Embodiment 1.
  • FIG. It is a figure which shows an example of the reference dependence relationship between images at the time of encoding the multiview image which consists of 5 viewpoints by a MVC system.
  • 6 is a block diagram illustrating a configuration of an image encoding device according to a modification of the first embodiment.
  • FIG. It is a figure which shows the example which image
  • FIG. 4 it is a figure which shows the image image
  • FIG. 6 it is a figure which shows the image image
  • FIG. 9 is a diagram illustrating a captured image, a corresponding depth map, and a generated image in the example of FIG. Includes multi-view images including images from 5 viewpoints (view 0, viewpoint 1, viewpoint 2, viewpoint 3 and viewpoint 4) to be encoded, and depth DS from 3 viewpoints (view 0, viewpoint 2 and viewpoint 4) It is a figure which shows a multiview depth map.
  • 6 is a diagram illustrating an example in which an encoded stream generated by the image encoding device according to Embodiment 1 is expressed in units of NAL units.
  • FIG. AVC / H. 2 is a diagram illustrating the types of NAL units defined in the H.264 encoding scheme.
  • FIG. 5 is a flowchart illustrating a multi-viewpoint image encoding process procedure by the image encoding apparatus according to Embodiment 1; 6 is a flowchart illustrating a transmission processing procedure when transmitting an encoded bit sequence of a multi-view image generated by the image encoding device according to Embodiment 1 via a network. It is a block diagram which shows the structure of the image decoding apparatus which concerns on Embodiment 2 of this invention.
  • FIG. 10 is a block diagram illustrating a configuration of an image decoding device according to a modification of the second embodiment.
  • 12 is a flowchart illustrating a decoding process procedure of a multi-viewpoint image by the image decoding apparatus according to Embodiment 2.
  • FIG. 10 is a block diagram illustrating a configuration of an image encoding device according to Embodiment 3.
  • FIG. 12 is a flowchart illustrating a multi-viewpoint image encoding processing procedure by the image encoding device according to the third embodiment.
  • AVC / H An example will be described in which a multi-view image is encoded using a method that is an extension of the MVC method in which the H.264 encoding method is extended to a multi-view image.
  • AVC / H. The H.264 encoding method will be briefly described.
  • AVC / H. The H.264 encoding method achieves higher encoding efficiency than conventional encoding methods such as MPEG-2 video (ISO / IEC 13818-2) and MPEG-4 visual (ISO / IEC 14496-2). Yes.
  • a P picture that is, a forward prediction encoded image
  • motion compensation prediction is performed only from the immediately preceding I picture or P picture in display order.
  • AVC / H. In the H.264 coding system, a plurality of P pictures and B pictures can be used as reference pictures, and motion compensation can be performed by selecting an optimum picture for each block.
  • a subsequent picture in the already encoded display order can also be referred to.
  • a B picture in an encoding system such as MPEG-2 video or MPEG-4 visual refers to one reference picture in the display order, one reference picture in the rear, or two reference pictures at the same time. The average value of the two pictures is used as a reference picture for prediction, and difference data between the target picture and the reference picture is encoded.
  • AVC / H. In the H.264 coding system, a B picture is not restricted by the restriction of one front and one rear in the display order, and an arbitrary reference picture can be referred for prediction regardless of the front or rear. Further, a B picture can refer to a B picture other than itself as a reference picture.
  • the encoding mode for each picture or VOP was determined using a picture as a unit in MPEG-2 video and a video object plane (VOP) as a unit in MPEG-4.
  • VOP video object plane
  • a slice is used as an encoding unit, and different slices such as an I slice, a P slice, and a B slice can be mixed in one picture.
  • a video pixel signal that is, a coding mode, a motion vector, a DCT coefficient, etc.
  • VCL Video Coding Layer
  • NAL Network Abstraction Layer
  • An encoded stream encoded by the H.264 encoding method is configured in units of NAL units that are one segment of NAL.
  • the NAL unit includes a VCL NAL unit that includes VCL encoded data (ie, encoding mode, motion vector, DCT coefficient, etc.) and a non-VCL NAL unit that does not include data generated by the VCL. is there.
  • the non-VCL NAL unit includes an SPS (Sequence Parameter Set) that includes parameter information related to encoding of the entire sequence, a PPS (Picture Parameter Set) that includes parameter information related to picture encoding, There is SEI (Supplemental Enhancement ⁇ Information) that is not necessary for decoding VCL encoded data.
  • SPS Sequence Parameter Set
  • PPS Picture Parameter Set
  • SEI Supplemental Enhancement ⁇ Information
  • AVC / H The basic unit of encoding in the H.264 encoding method is a slice in which a picture is divided, and the NAL unit of the VCL is a slice unit. Therefore, a unit called an access unit in which several NAL units are collected is defined, and one encoded picture is included in one access unit.
  • the MVC method will be briefly described.
  • the relationship between the viewpoints when encoding each image of the multi-view image and decoding the encoded stream, and the reference dependency relationship between the encoding target images constituting the multi-view image This will be described using an example of five viewpoints.
  • FIG. 2 is a diagram illustrating an example of a reference dependency relationship between images when a multi-view image including five viewpoints is encoded by the MVC method.
  • the vertical axis indicates the spatial direction of a plurality of viewpoints (in this specification, the spatial direction of the plurality of viewpoints is the viewpoint direction), and the horizontal axis indicates the time direction of shooting or display order.
  • the image pointed to by the end point of the arrow is the target picture to be encoded or decoded.
  • the image pointed to by the start point of the arrow is a reference picture that is referred to when the target picture is encoded or decoded. That is, the reference picture is referred to in inter prediction (eg, motion compensation prediction) or inter-view prediction (eg, disparity compensation prediction) in the time direction.
  • the image pointed to by the start point of the horizontal arrow is a reference picture that is referred to by inter prediction in the temporal direction when the target picture is encoded or decoded
  • the image of the vertical arrow The image pointed to by the start point side is a reference picture that is referred to in inter-view prediction.
  • inter prediction in the time direction is a prediction method that refers to an image at another time
  • inter-view prediction is a prediction method that refers to an image at another viewpoint
  • the image used as the reference picture for inter prediction in the temporal direction is only the image preceding in the encoding or decoding order in the temporal direction
  • the image used as the reference picture for inter-view prediction is encoded or decoded in the viewpoint direction. Only images that precede in order.
  • the viewpoint encoding or decoding order in the viewpoint direction may be set to viewpoint 0, viewpoint 2, viewpoint 1, viewpoint 4, and viewpoint 3.
  • P (0,0), P (2,0), P (1,0) are set at the same time in accordance with the viewpoint encoding or decoding order of viewpoints in the viewpoint direction. ), P (4,0), P (3,0) in this order.
  • the images of the respective viewpoints having t of 4 are similarly expressed in the order of encoding or decoding of the viewpoints in the viewpoint direction, and P (0, 4), P (2, 4), P (1, 4), P ( 4, 4) and P (3, 4) in this order.
  • viewpoint 0 is set as the base viewpoint.
  • the base viewpoint refers to a viewpoint that can be encoded or decoded without depending on other viewpoints. Only one viewpoint is the base viewpoint in the entire sequence of multi-viewpoint images. That is, the base viewpoint can be encoded or decoded independently without using an image of another viewpoint as a reference image for inter-view prediction. For non-base viewpoints (that is, viewpoints other than the base viewpoint), images from other viewpoints can be used as reference images for inter-view prediction.
  • the MVC scheme has a mechanism for encoding the number of viewpoints of the multi-view image to be encoded, the encoding or decoding order in the viewpoint direction, and the reference dependency relationship between the viewpoints by inter-view prediction as a whole sequence. Yes.
  • Encoding is performed by extending SPS which is a parameter set of sequence information.
  • the encoding side encodes the above parameters as the entire sequence, that is, the number of viewpoints and the viewpoint dependency information of each viewpoint, so that the decoding side can determine the reference dependency of each viewpoint as the entire sequence.
  • the reference dependency information of each viewpoint is used for decoding processing such as initialization of a reference picture list for an inter-view prediction picture.
  • FIG. 1 is a block diagram showing a configuration of an image encoding device 100 according to Embodiment 1.
  • the image encoding apparatus 100 according to Embodiment 1 includes an encoding management unit 101, a parameter information encoding unit 110, an image signal encoding unit 107, and a depth information encoding unit (more specifically, a depth signal encoding unit). 108).
  • the parameter information encoding unit 110 includes an image signal sequence information encoding unit 102, a depth signal sequence information encoding unit 103, an image signal picture information encoding unit 104, a depth signal picture information encoding unit 105, and a camera parameter.
  • An information encoding unit 106 is included.
  • the image signal encoding unit 107 encodes a plurality of images from a plurality of different viewpoints to generate image encoded data.
  • the plurality of images may be images actually captured by a camera or images generated by computer graphics.
  • the image signal encoding unit 107 encodes an image from the viewpoint to be the reference among the plurality of images and performs first image encoding. Data can be generated and other images can be encoded to generate second image encoded data.
  • the image signal encoding unit 107 may perform intra-frame prediction encoding of an image from the viewpoint to be used as a reference among the plurality of images, and may perform inter-frame prediction encoding of the other images between the plurality of images.
  • the viewpoint that should be the reference is the base viewpoint described above.
  • the inter-frame prediction encoding is the inter-view prediction encoding described above.
  • the image signal encoding unit 107 can also perform inter-frame predictive encoding of the moving images from the respective viewpoints in the time direction.
  • inter-frame prediction encoding in the viewing direction and inter-frame prediction encoding in the temporal direction can be used in combination.
  • the depth information encoding unit encodes depth information indicating the depth of the specific space from at least one viewpoint, and generates depth information encoded data.
  • the depth information may be represented by an image in a monochrome format from a certain viewpoint (hereinafter referred to as a monochrome image as appropriate).
  • the depth information encoding unit encodes the monochrome image to generate depth information encoded data.
  • the depth information encoding unit performs intra-frame predictive encoding of a monochrome image from a viewpoint to be a reference among a plurality of monochrome images from a plurality of different viewpoints, and converts the other monochrome images between the plurality of monochrome images.
  • Inter-frame predictive coding may be used.
  • the viewpoint that should be the basis of the monochrome image may coincide with the viewpoint that should be the basis of the image that is to be encoded by the image signal encoding unit 107, or may be different. It may be.
  • the depth information encoding unit can also predictively encode the moving images in the monochrome format from each viewpoint in the temporal direction.
  • inter-frame prediction encoding in the viewing direction and inter-frame prediction encoding in the temporal direction can be used in combination.
  • the number of viewpoints from which the depth information is based may be set to be smaller than the number of viewpoints from which the first encoding unit is to be encoded, or the number of both viewpoints is May be set to match.
  • the position of each viewpoint that is the basis of the depth information is set so as to coincide with any of the positions of the plurality of viewpoints that are the basis of the plurality of images to be encoded by the image signal encoding unit 107. It may be set so as not to match any of them.
  • the parameter information encoding unit 110 encodes parameter information including viewpoint information for specifying a plurality of viewpoints, which is the basis of the plurality of images and the depth information, and generates parameter information encoded data. As described above, when one viewpoint to be used as a reference is set, the parameter information encoding unit 110 sets the first parameter information of an image from the viewpoint to be used as the reference among the plurality of images, and other information. The second parameter information of the image and the third parameter information of the depth information are encoded to generate first parameter information encoded data, second parameter information encoded data, and third parameter information encoded data.
  • the third parameter information is described in a syntax structure corresponding to the syntax structure of the second parameter information.
  • the second parameter information and the third parameter information are stored in AVC / H. It can be described in accordance with the H.264 encoding multi-view high profile.
  • Viewpoint identification information is described in the second parameter information and the third parameter information.
  • the unitization unit 109 generates encoded streams including the image encoded data and the depth information encoded data generated by the image signal encoding unit 107 and the depth information encoding unit, respectively.
  • the unitization unit 109 can also generate an encoded stream that further includes the parameter information encoded data generated by the parameter information encoding unit 110.
  • the unitization unit 109 includes the image signal encoding unit 107, The first image encoded data, the second image encoded data, the depth information encoded data, and the first parameter information encoded data generated by the depth information encoding unit and the parameter information encoding unit 110, respectively. Then, an encoded stream including the second parameter information encoded data and the third parameter information encoded data is generated.
  • FIG. 3 is a block diagram showing a configuration of an image encoding device 100a according to a modification of the first embodiment.
  • the image coding device 100a according to the modification of the first embodiment has a configuration in which a depth information generation unit (more specifically, a depth signal generation unit 111) is added to the image coding device 100 illustrated in FIG. .
  • a depth information generation unit more specifically, a depth signal generation unit 111
  • the depth information generation unit generates depth information indicating the depth of a specific space from at least one viewpoint from a plurality of images to be encoded by the image signal encoding unit 107.
  • the depth information generation unit can generate the depth information using an existing algorithm.
  • the depth information encoding unit encodes the depth information generated by the depth information generation unit to generate depth information encoded data.
  • the other processing is the same as the description of the image coding apparatus 100 according to the basic example of the first embodiment shown in FIG.
  • the image is a picture that can be obtained by projecting a subject onto a two-dimensional plane corresponding to each viewpoint by an imaging device such as a camera.
  • the image signal is obtained by converting an image, which is two-dimensional information, into a one-dimensional signal flow.
  • the minimum unit of digitally expressed images and image signals is pixels.
  • the multi-view image signal input to the image encoding apparatus 100 is a multi-view image signal including image signals respectively obtained from a plurality of set two or more viewpoints.
  • the image signal of a certain viewpoint may be an image signal obtained by actually photographing from the viewpoint, or an image signal generated by computer graphics or the like as virtually photographed from the viewpoint. There may be.
  • position correction and luminance / color level correction may be performed on an image signal obtained by actual shooting in order to correct variations in each camera used for the shooting.
  • the depth signal may be a multi-view depth signal including depth signals respectively obtained from a plurality of set two or more viewpoints.
  • the depth signal of a certain viewpoint may be a depth signal obtained by actually photographing from the viewpoint by an infrared camera or the like, or the above-mentioned multi-viewpoint image signal may be virtually captured from the viewpoint. It may be a depth signal originally generated by calculation.
  • the depth information is information indicating the depth of the specific space.
  • the depth information is represented as depth information with respect to an image plane of a subject (that is, an object) in the image. More specifically, the depth information is information indicating the depth of the image projected on the two-dimensional plane.
  • An image in which depth information corresponding to each pixel of an image projected on a two-dimensional plane is mapped in units of pixels or in units of a plurality of pixels is referred to as a depth map.
  • the depth signal is obtained by converting a depth map, which is two-dimensional information, into a one-dimensional signal flow. Note that, as with images and image signals, the digitally expressed depth map and the minimum unit of depth signals are also pixels.
  • the depth signal may be a multi-view depth signal including depth signals respectively obtained from a plurality of set two or more viewpoints.
  • the depth signal of a certain viewpoint may be a depth signal obtained by actually photographing from the viewpoint by an infrared camera or the like, or the above-mentioned multi-viewpoint image signal may be virtually captured from the viewpoint. It may be a depth signal originally generated by calculation.
  • the pixel value of the depth signal is often expressed by 8 bits like the image signal, but may be expressed by about 9 to 14 bits in order to improve the reproducibility in the depth direction.
  • the depth map is represented as an image in monochrome format. Note that the resolution of the depth map may be set lower than the resolution of the image as long as the correspondence with each pixel of the image can be obtained.
  • the depth signal is mainly used to generate an image signal of a desired virtual viewpoint that does not exist from an image signal of an existing viewpoint.
  • a free viewpoint image in which the viewpoint of an image to be displayed in accordance with a user instruction cannot be specified in advance is displayed on the decoding side, or there are many viewpoints, and all images from those viewpoints are captured, transmitted, or stored If this is difficult, it is effective to generate a virtual viewpoint image signal.
  • Transmit or store the encoded stream obtained by encoding the multi-viewpoint image signal obtain the depth signal from the image signal obtained by decoding the encoded stream, and generate the desired virtual viewpoint image signal
  • This technique places a heavy burden on the decoding side to calculate the depth signal.
  • the quality of the depth signal generated on the decoding side is lower than the quality of the depth signal generated on the code side. This is because a high-frequency component of the original image signal is omitted in the general encoding method when encoding.
  • a depth signal is generated from a multi-viewpoint image signal on the encoding side, and a plurality of viewpoint image signals and a plurality of viewpoint depth signals are to be encoded.
  • the decoding side can obtain a depth signal in addition to the image signal by decoding the encoded stream. Thereby, there is no need to generate a depth signal after decoding, and the decoding side can generate an image signal of a desired virtual viewpoint from the image signal and the depth signal obtained by decoding the encoded stream.
  • FIG. 4 shows a scene in which the first object OA and the second object OB exist from the second viewpoint VB and the third viewpoint VC, and the first viewpoint VA (hereinafter referred to as the first virtual viewpoint VA) which is a virtual viewpoint. It is a figure which shows the example which produces
  • FIG. 5 is a diagram illustrating a captured image, a corresponding depth map, and a generated image in the example of FIG.
  • the second image IB shows an image taken from the second viewpoint VB in FIG. 4
  • the third image IC shows an image taken from the third viewpoint VC in FIG.
  • the second depth map DB indicates a depth map corresponding to the second image IB
  • the third depth map DC indicates a depth map corresponding to the third image IC.
  • the pixel value of the depth signal corresponding to the rearmost object, that is, the object farthest from the camera is set to 0 which is the minimum value, and the closer the object is to the front, that is, the closer to the camera, The pixel value of the depth signal is set to a large value.
  • the first image IA indicates an image (hereinafter referred to as a predicted image) obtained on the assumption that the first image is taken from the first virtual viewpoint VA, and is not an actual image but an image to be generated.
  • the first-second image IAB is a predicted image of the first virtual viewpoint VA generated from the second image IB photographed from the second viewpoint VB and the corresponding second depth map DB.
  • the predicted image of the first virtual viewpoint VA is generated from the second image IB photographed from the second viewpoint VB and the corresponding second depth map DB
  • the first object ahead when photographed from the second viewpoint VB The part concealed by OA is unknown and a missing part occurs.
  • the black portion of the first-second image IAB is the second missing portion LPB that occurs in the predicted image of the first virtual viewpoint VA.
  • the 1-3 image IAC is a predicted image of the first virtual viewpoint VA generated from the third image IC photographed from the third viewpoint VC and the corresponding third depth map DC. Missing portions also occur in the first-third image IAC.
  • the black portion of the 1-3 image IAC is the third missing portion LPC that occurs in the predicted image of the first virtual viewpoint VA.
  • the third missing portion LPC of the 1-3 image IAC occurs at a position different from the second missing portion LPB of the 1-2 image IAB.
  • the first image IA of the first virtual viewpoint VA with few missing portions can be generated by supplementing the second missing portion LPB of the 1-2 image IAB with the image signal of the first-3 image IAC.
  • the object has a three-dimensional effect or shadow, and brightness or color difference occurs in the image obtained by photographing depending on the relative relationship between the position and direction of the viewpoint to be photographed and the light source.
  • FIG. 5 is drawn without considering that point.
  • the average value is used for pixels existing in both the first-second image IAB and the first-third image IAC.
  • the image signal of two viewpoints rather than the image of the virtual viewpoint generated from the image signal and the depth signal of one viewpoint (the first image 1-2 or the first image IAC in FIG. 5).
  • the image generated from the depth signal can obtain a good image with fewer missing portions.
  • FIG. 6 shows a scene where the third object OC and the fourth object OD exist from the fifth viewpoint VE and the sixth viewpoint VF, and a fourth viewpoint VD (hereinafter referred to as a fourth virtual viewpoint VD) which is a virtual viewpoint. It is a figure which shows the example which produces
  • FIG. 7 is a diagram illustrating a captured image, a corresponding depth map, and a generated image in the example of FIG.
  • the fifth image IE shows an image taken from the fifth viewpoint VE in FIG. 6
  • the sixth image IF shows an image taken from the sixth viewpoint VF in FIG.
  • the fifth depth map DE indicates a depth map corresponding to the fifth image IE
  • the sixth depth map DF indicates a depth map corresponding to the third image IC.
  • the fourth image ID indicates a predicted image obtained when it is assumed that the image is captured from the fourth virtual viewpoint VD, and is not an actual image but an image to be generated.
  • the 4-5th image IDE is a predicted image of the fourth virtual viewpoint VD generated from the fifth image IE photographed from the fifth viewpoint VE and the corresponding fifth depth map DE.
  • the predicted image of the fourth virtual viewpoint VD is generated from the fifth image IE photographed from the fifth viewpoint VE and the corresponding fifth depth map DE
  • the third object ahead is photographed from the fifth viewpoint VE.
  • the part concealed by the OC is unknown and a missing part occurs.
  • the black portion of the 4-5th image IDE is the fifth missing portion LPE that occurs in the predicted image of the fourth virtual viewpoint VD.
  • the 4-6th image IDF is a predicted image of the fourth virtual viewpoint VD generated from the sixth image IF photographed from the sixth viewpoint VF and the corresponding sixth depth map DF. A missing part also occurs in the 4th-6th image IDF.
  • the black portion of the 4th-6th image IDF is the sixth missing portion LPF that occurs in the predicted image of the fourth virtual viewpoint VD.
  • the shift amount of the sixth image IF from the fourth image ID becomes larger.
  • the area of the sixth missing portion LPF of the 4-6th image IDF is larger than the area of the fifth missing portion LPE of the 4-5th image IDE.
  • FIG. 8 shows two scenes in which either the fifth object OE or the sixth object OF and the seventh object OG are present from the eighth viewpoint VH, and the seventh viewpoint VG ( Hereinafter, an example of generating an image of the seventh virtual viewpoint VG) will be described.
  • the fifth object OE and the sixth object OF do not exist at the same time.
  • a scene where the fifth object OE and the seventh object OG are present is a first scene H1
  • a scene where the sixth object OF and the seventh object OG are present is a second scene H2.
  • FIG. 9 is a diagram showing a captured image, a corresponding depth map, and a generated image in the example of FIG.
  • the 8-1 image IH1 shows the image of the first scene H1 taken from the eighth viewpoint VH in FIG. 8
  • the eighth-2 image IH2 is also taken from the eighth viewpoint VH in FIG.
  • An image of the second scene H2 is shown.
  • the eighth-first depth map DH1 indicates a depth map corresponding to the eighth-first image IH1
  • the eighth-second depth map DH2 indicates a depth map corresponding to the eighth-second image IH2.
  • the seventh-first image IG1 is a predicted image obtained when it is assumed that the first scene H1 is photographed from the seventh virtual viewpoint VG, and is not actually photographed but an image to be generated.
  • the seventh-2 image IG2 is a predicted image obtained when it is assumed that the second scene H2 is shot from the seventh virtual viewpoint VG, and is not actually shot but is an image to be generated. .
  • the seventh-8-1 image IGH1 is a seventh virtual viewpoint generated from the eighth-first image IH1 of the first scene H1 photographed from the eighth viewpoint VH and the corresponding eighth-first depth map DH1. It is a prediction image of the 1st scene H1 of VG.
  • the black portion of the seventh-8-1 image IGH1 is the eighth-first missing portion LPH1 that occurs in the predicted image of the first scene H1 of the seventh virtual viewpoint VG.
  • the seventh-8-2 image IGH2 is the seventh virtual viewpoint generated from the eighth-2 image IH2 of the second scene H2 photographed from the eighth viewpoint VH and the corresponding eighth depth map DH2. It is a prediction image of the 2nd scene H2 of VG. A missing portion is also generated in the 7-8-2 image IGH2. The blacked portion of the seventh-8-8 image IGH2 is the eighth-2 missing portion LPH2 generated in the predicted image of the second scene H2 at the seventh virtual viewpoint VD.
  • the shift amount between the 8-1 image IH1 and the 7-1 image IG1 and the shift amount between the 8-2 image IH2 and the 7-2 image IG2 becomes larger. Accordingly, the area of the 8-2 missing portion LPH2 of the 7-8-2 image IGH2 is larger than the area of the 8-1 missing portion LPH1 of the 7-8-1 image IGH1.
  • the ease of generating the image signal of the virtual viewpoint varies depending on the depth state of the content. In other words, the smaller the difference in depth between the overlapping subjects, the smaller the relative shift amount between the overlapping subjects in the image, and the smaller the missing portion of the generated image, the better the image. Can do.
  • the depth difference between the overlapping subjects can be calculated from the depth signal.
  • the edge of the depth signal (the 8-1 depth map DH1 and the 8-2 depth map DH2 in FIG. 9) (ie, the point at which the density changes sharply) is extracted, and the pixel value across the boundary of the edge portion is extracted.
  • the difference is calculated, and the smaller the difference is, the smaller the difference in depth between the overlapping subjects is determined.
  • a multi-view depth signal including a plurality of viewpoint depth signals is used in addition to a multi-view image signal including a plurality of viewpoint image signals
  • a high-accuracy virtual viewpoint image signal is generated on the decoding side. be able to.
  • a multi-view image signal with a close interval between viewpoints and a multi-view depth signal corresponding to each viewpoint image signal are used, a higher-accuracy virtual viewpoint image signal can be generated on the decoding side. it can.
  • the viewpoints of the multi-view image signal and the depth signal to be encoded have a one-to-one correspondence. May be used.
  • encoding can be performed more flexibly. For example, if it is necessary to encode and transmit or store all image signals actually captured, if the virtual viewpoint image signal is easy to generate, set the viewpoint of the depth signal to be encoded to be small. May be. In this case, a more efficient encoded stream can be generated.
  • the case where the generation of the virtual viewpoint image signal is easy means that the distance between the viewpoints of the encoded multi-viewpoint image signal is sufficiently close, or the difference in depth between subjects included in the content. This is the case when there is not much.
  • FIG. 10 illustrates a multi-view image including an image IS from five viewpoints (viewpoint 0, viewpoint 1, viewpoint 2, viewpoint 3, and viewpoint 4) to be encoded, and three viewpoints (viewpoint 0, viewpoint 2, and viewpoint 4). It is a figure which shows the multiview depth map containing the depth DS of this.
  • the vertical axis indicates the viewpoint direction
  • the horizontal axis indicates the time direction.
  • the viewpoint 0 is set as the base viewpoint.
  • the base viewpoint is a viewpoint that can be encoded or decoded without depending on other viewpoints. Only one viewpoint is set as a base viewpoint in one entire sequence including multi-viewpoint images.
  • a base viewpoint image can be encoded or decoded independently without using an image of another viewpoint as a reference image for inter-view prediction.
  • An image of a non-base viewpoint that is, a viewpoint other than the base viewpoint
  • FIG. 11 is a diagram illustrating an example in which an encoded stream generated by the image encoding device 100 according to Embodiment 1 is expressed in units of NAL units.
  • the NAL unit includes a NAL unit header which is a header portion (that is, a head portion) and an RBSP (Raw Byte Sequence Payload) which is raw data excluding the NAL unit header.
  • the header part of each NAL unit always has a flag having a value of “0” (ie, “forbidden_zero_bit”) and an identifier (ie, “nal_ref_idc” that identifies whether a slice serving as an SPS, PPS, or reference picture is included). ”) And an identifier for identifying the type of the NAL unit (ie,” nal_unit_type ").
  • FIG. 12 shows AVC / H. 2 is a diagram illustrating the types of NAL units defined in the H.264 encoding scheme.
  • SPS # A In the encoded stream shown in FIG. 11, first, an SPS # A NAL unit is generated. In SPS # A, information related to the encoding of the entire sequence of the base viewpoint image signal (in FIG. 10, the image signal of the viewpoint 0) is set. In the value of “nal_unit_type” indicating the type of NAL unit included in the NAL unit header of SPS # A, “7” indicating SPS is set (see FIG. 12).
  • FIG. 13 is a diagram showing the configuration of the SPS NAL unit.
  • the SPS RBSP “seq_parameter_set_rbsp” includes “seq_parameter_set_data” that includes information related to coding of the entire sequence, and “rbsp_trailing_bits” that is an adjustment bit added to the end of the RBSP.
  • “seq_parameter_set_data” includes “profile_idc” for identifying a profile.
  • the profile here is AVC / H. 2 shows a subset of the H.264 encoding syntax.
  • the encoded stream becomes AVC / H. It can be shown that it conforms to the high profile of the H.264 encoding method. In this case, a NAL unit to be described later that should refer to SPS # A is generated based on a restriction conforming to the high profile.
  • “seq_parameter_set_data” includes “seq_parameter_set_id” that is a unique number for identifying the SPS for identifying the SPS, and “seq_parameter_set_id” of the SPS # A includes SPS # B and SPS # described later.
  • the SPS of the image signal of the base viewpoint does not include “seq_parameter_set_mvc_extension” that includes MVC extension information related to encoding of the entire sequence described later.
  • SPS # B Subsequently, an SPS # B NAL unit is generated.
  • SPS # B information related to encoding of the entire sequence of image signals of other viewpoints excluding the base viewpoint (in FIG. 10, the signals of the images of viewpoint 1, viewpoint 2, viewpoint 3, and viewpoint 4) is set. .
  • NAL unit_type indicating the type of the NAL unit included in the NAL unit header of SPS # B
  • “15” indicating the subset SPS that is the SPS of the MVC extension is set.
  • FIG. 14 is a diagram showing the configuration of the NAL unit of the subset SPS.
  • the value of “profile_idc” of SPS # B includes AVC / H. “118” indicating the multiview high profile (Multiview High Profile) of the H.264 encoding method is set. In this specification, AVC / H. An encoding method corresponding to the multi-view high profile of the H.264 encoding method is referred to as an MVC encoding method.
  • a NAL unit to be described later that should refer to SPS # B is generated based on a restriction based on the multi-view high profile. Furthermore, an arbitrary value different from “seq_parameter_set_id” of SPS # A and SPS # C described later is set in “seq_parameter_set_id” of SPS # B.
  • "seq_parameter_set_mvc_extension_rbsp" specifies the number of viewpoints of the image signal to be encoded, the encoding or decoding order in the viewpoint direction, and the viewpoint to be referred to when performing inter-view prediction when encoding or decoding the image signal Information indicating the dependency relationship between the viewpoints to be included.
  • “num_views_minus1” is a parameter for setting the number of viewpoints in the encoded bit string, and is a value obtained by subtracting “1” from the number of viewpoints.
  • the value of “num_views_minus1” is “4”. Is set.
  • “view_id [i]” has a structure in which each viewpoint is repeatedly set in succession in the encoding or decoding order in the viewpoint direction.
  • “view_id [i]” indicates viewpoint identification information (hereinafter referred to as viewpoint ID) when the encoding or decoding order in the viewpoint direction is indicated by an index i. That is, “view_id [i]” indicates the i-th view ID in the encoding or decoding order in the view direction.
  • viewpoint ID viewpoint identification information
  • “view_id [i]” indicates the i-th view ID in the encoding or decoding order in the view direction.
  • the array index that is, the subscript
  • the first is 0th and the next is 1st. That is, the viewpoint that is first encoded or decoded in the viewpoint direction is 0th, and the viewpoint that is encoded or decoded next is 1st.
  • viewpoint ID of viewpoint 0 is assigned to "view_id [0]”
  • viewpoint 2 is assigned to "view_id [1]”.
  • viewpoint ID of viewpoint 1 is the viewpoint ID of viewpoint 1
  • viewpoint ID of viewpoint 4 is the viewpoint ID of viewpoint 3 Set each.
  • SPS # C an SPS # C NAL unit is generated.
  • SPS # C information related to the coding of the entire sequence of depth signals for each viewpoint is set.
  • the value of “nal_unit_type” indicating the type of the NAL unit included in the NAL unit header of SPS # C is set to “15” indicating the subset SPS that is the SPS of the MVC extension.
  • the value of “profile_idc” indicating that the multi-view depth signal is also a decodable profile is defined as “120”. Therefore, the value of “profile_idc” of SPS # C is set to “120”.
  • a parameter is set in the same manner as SPS # B, which is information related to encoding of the entire sequence of image signals of other viewpoints other than the base viewpoint.
  • SPS # B is information related to encoding of the entire sequence of image signals of other viewpoints other than the base viewpoint.
  • the values of the parameters are as follows: Set to First, the value of “num_views_minus1” is set to “2”, then the viewpoint ID of viewpoint 0 is set to “view_id [0]”, the viewpoint ID of viewpoint 2 is set to “view_id [1]”, and “view_id [ 2] "is set to the viewpoint ID of viewpoint 4.
  • the chroma format “chroma_format_idc” included in “seq_parameter_set_data” represents the ratio between the luminance component and the color difference component. “0” indicating monochrome is set.
  • the value of “profile_idc” indicating that the multi-view depth signal can be decoded is defined as “120”, but any value other than the existing “profile_idc” value has been described. But you can.
  • PPS # A a PPS # A NAL unit is generated.
  • PPS # A information related to coding of the entire picture of the base viewpoint image signal (in the example of FIG. 10, the image of the viewpoint 0 image) is set.
  • NAL unit_type indicating the type of NAL unit included in the NAL unit header of PPS # A
  • 8” indicating PPS is set (see FIG. 12).
  • FIG. 15 is a diagram showing a configuration of a PPS NAL unit.
  • the “pic_parameter_set_rbsp” that is the RBSP of the PPS includes “pic_parameter_set_id” that is a unique number for identifying the PPS for identifying the PPS.
  • An arbitrary value different from “pic_parameter_set_id” of PPS # B and PPS # C described later is set in “pic_parameter_set_id” of PPS # A.
  • pic_parameter_set_rbsp which is an RBSP of PPS includes “seq_parameter_set_id” which is a number for identifying an SPS to be referred to, and “Seq_parameter_set_id” of PPS # A is an SPS to which PPS # A should refer. The value of “seq_parameter_set_id” of #A is set.
  • PPS # B a PPS # B NAL unit is generated.
  • PPS # B information related to the encoding of the entire picture of the image signals of other viewpoints excluding the base viewpoint (here, the signals of the images of viewpoint 1 and viewpoint 2 in FIG. 10) is set.
  • “8” indicating PPS is set in the value of “nal_unit_type” indicating the type of NAL unit included in the NAL unit header of PPS # B.
  • PPS # C a PPS # C NAL unit is generated.
  • PPS # C the picture information of the depth signal of each viewpoint is set. Similar to PPS # A and PPS # B, “nal_unit_type” indicating the type of NAL unit included in the NAL unit header of PPS # C is set to “8” indicating PPS.
  • An arbitrary value different from “pic_parameter_set_id” of PPS # A and PPS # B described above is set in “pic_parameter_set_id” of PPS # C.
  • the value of “seq_parameter_set_id” of SPS # C to be referred to by PPS # C is set in “seq_parameter_set_id” of PPS # C.
  • This camera parameter information includes internal parameter information and external parameter information.
  • the internal parameter information is information specific to the camera at each viewpoint, and includes coefficients such as focal length, principal point, and radial distortion (that is, lens distortion in the radial direction from the principal point) of the camera used for photographing from each viewpoint.
  • the external parameter information includes the arrangement information of the cameras at each viewpoint. This arrangement information can be represented by a position (x, y, z coordinate) in a three-dimensional space or a rotation angle (roll, pitch, yaw) on three axes (x, y, z axes). .
  • Camera parameter information is encoded at each time.
  • camera parameter information # 0 is camera parameter information used for capturing images from slice # A00 to slice # B30, which will be described later.
  • This camera parameter information is encoded as “Multiview acqisition information SEI” which is a kind of supplementary additional information.
  • the value of “nal_unit_type” indicating the type of NAL unit included in the NAL unit header of camera parameter information # 0 is set to “6” indicating SEI (see FIG. 12).
  • the camera parameter information is not a parameter directly required for decoding data encoded by VCL, but is used when generating or displaying a virtual viewpoint after decoding.
  • the prefix NAL unit is a NAL unit for encoding the viewpoint information of the slice NAL unit following the prefix NAL unit.
  • “nal_unit_type” indicating the type of the NAL unit included in the NAL unit header of the prefix NAL unit # A00
  • “14” indicating the prefix NAL unit is set (see FIG. 12).
  • FIG. 16 is a diagram showing the configuration of the prefix NAL unit.
  • the NAL unit header which is the header part of the prefix NAL unit includes “nal_unit_header_svc_mvc_extension” in addition to “forbidden_zero_bit” and “nal_ref_idc, nal_unit_type”.
  • the viewpoint information of the slice NAL unit following the prefix NAL unit is set.
  • the viewpoint information of the subsequent slice NAL unit # A00 is set.
  • the “nal_unit_header_svc_mvc_extension” of the prefix NAL unit includes “view_id” that is a unique number for identifying the viewpoint for identifying the viewpoint of the subsequent slice NAL unit as one of the viewpoint information.
  • a value indicating the viewpoint 0 is set in “view_id” of the prefix NAL unit # A00.
  • a value different from the “view_id” of the other viewpoints, that is, the viewpoint 1, the viewpoint 2, the viewpoint 3, and the viewpoint 4 is defined for the “view_id” of the viewpoint 0.
  • “View_id” of the prefix NAL unit # A00 is used as “view_id” of the slice NAL unit # A00 of the viewpoint 0 that follows.
  • prefix_nal_unit_rbsp which is the RBSP of the prefix NAL unit does not define any data and is empty. That is, in the MVC method, data is not set in the RBSP of the prefix NAL unit.
  • slice NAL unit # A00 the image signal of viewpoint 0, which is the base viewpoint, is set in units of slices.
  • the slice of the base viewpoint is generated as a VCL NAL unit whose “nal_unit_type” indicating the type of the NAL unit is “1” or “5” (see FIG. 12).
  • the first picture in the base viewpoint image signal sequence is encoded as an IDR picture, and the subsequent pictures are encoded as non-IDR pictures.
  • slice NAL unit # A00 is the first slice in the sequence
  • the value of “nal_unit_type” indicating the type of NAL unit included in the NAL unit header of slice NAL unit # A00 is the coded slice of the IDR picture. “5” indicating the presence is set (see FIG. 12).
  • one picture is encoded as one slice, but one picture may be divided into a plurality of slices and encoded.
  • FIG. 17 is a diagram illustrating a configuration of a slice NAL unit whose “nal_unit_type” value is “1” or “5”. Since the “nal_unit_header_svc_mvc_extension” is not included in the NAL unit header of the slice NAL unit whose “nal_unit_type” value is “1” or “5”, viewpoint information is not set. Therefore, the viewpoint information set in “nal_unit_header_svc_mvc_extension” of the prefix NAL unit encoded before is used. That is, the viewpoint information set in “nal_unit_header_svc_mvc_extension” of prefix NAL unit # A00 is set as the viewpoint information of slice NAL unit # A00.
  • “slice_header” includes information related to coding of a slice.
  • “slice_data” includes encoded data such as an encoding mode, a motion vector, an encoded residual signal, and the like obtained by encoding an image signal in a slice.
  • “rbsp_slice_trailing_bits” is a bit for adjustment.
  • “Slice_header” includes “pic_parameter_set_id” which is a number for identifying the PPS to be referred to.
  • the value of “pic_parameter_set_id” of the PPS #A to be referred to by the slice NAL unit # A00 is set.
  • the sequence information that slice NAL unit # A00 should refer to is SPS # A. It can be clearly identified.
  • slice NAL unit # B20 (Slice NAL unit # B20) Subsequently, a slice NAL unit 1 # B20 is generated.
  • the image signal of viewpoint 2 which is a non-basis viewpoint, is encoded in units of slices. Also, what is encoded here is a slice of the image signal of the viewpoint 2 at the same display time as the slice # A00 of the previous viewpoint 0.
  • “nal_unit_type” indicating the type of the NAL unit included in the NAL unit header of the slice NAL unit # B20
  • “20” indicating an encoded slice other than the base viewpoint is set (see FIG. 12).
  • FIG. 18 is a diagram showing a configuration of a slice NAL unit whose “nal_unit_type” value is “20”.
  • the NAL unit header which is the header part of the slice NAL unit whose “nal_unit_type” value is “20” includes “nal_unit_header_svc_mvc_extension” in addition to “forbidden_zero_bit” and “nal_ref_idc, nal_unit_type”.
  • the viewpoint information of the slice NAL unit is set.
  • “view_id” which is a unique number for identifying the viewpoint for identifying the viewpoint of this slice NAL unit as one of the viewpoint information Is included.
  • a value indicating the viewpoint 2 is set in “view_id” of the slice NAL unit # B20.
  • “view_id” of viewpoint 2 is set to a value different from “view_id” of viewpoints 0, 1, 3, and 4 which are other viewpoints.
  • “slice_layer_in_scalable_extension_rbsp” that is the RBSP of the slice NAL unit whose nal_unit_type value is “20” includes “slice_header”, “slice_data”, and “rbsp_slice_trailing_bits”.
  • “slice_header” includes information related to encoding of a slice.
  • “slice_data” includes encoded data such as an encoding mode, a motion vector or a disparity vector, and an encoded residual signal obtained by encoding an image signal in the slice.
  • “rbsp_slice_trailing_bits” is a bit for adjustment.
  • slice_header includes “pic_parameter_set_id” that is a number for identifying the PPS to be referred to.
  • the value of the “pic_parameter_set_id” of the PPS #B to be referred to by the slice NAL unit # B20 is set.
  • the sequence information that slice NAL unit # B20 should refer to is SPS # B. This can be easily determined.
  • slice NAL units # B10, # B40, and # B30 are sequentially generated in the same manner as the slice NAL unit # B20.
  • slice NAL unit # B10 the image signal of viewpoint 1, which is a non-base viewpoint, is set in units of slices
  • slice NAL unit # B40 the image signal of viewpoint 4, which is a non-base viewpoint
  • slices in NAL unit # B30 the image signal of viewpoint 3, which is a non-basis viewpoint, is set in units of slices.
  • the value of “nal_unit_type” indicating the type of the NAL unit included in the NAL unit header of the slice NAL units # B10, # 40, and # 30 is an encoded slice other than the base viewpoint. “20” is set (see FIG. 12).
  • the “view_id” of slice NAL unit # B10 has a value indicating viewpoint 1
  • the “view_id” of slice NAL unit # B40 has a value indicating viewpoint 4
  • the “view_id” of slice NAL unit # B30 has a viewpoint.
  • a value indicating 3 is set.
  • “view_id” of each viewpoint is set to a value different from “view_id” of other viewpoints.
  • a slice NAL unit # C00 is generated.
  • a depth signal corresponding to the slice NAL unit # A00 of the image signal of the viewpoint 0 is set for each slice.
  • the value of “nal_unit_type” indicating the slice NAL unit in which the depth signal is set is defined as “21”. Accordingly, “21” is set to the value of “nal_unit_type” indicating the type of the NAL unit included in the NAL unit header of slice NAL unit # C00.
  • the configuration of the slice NAL unit whose “nal_unit_type” value is “21” is defined in the same manner as the configuration shown in FIG. That is, the NAL unit header that is the header part of the slice NAL unit whose “nal_unit_type” value is “21” includes “nal_unit_header_svc_mvc_extension” in addition to “forbidden_zero_bit”, “nal_ref_idc”, and “nal_unit_type”.
  • a value indicating the viewpoint 0 is set.
  • the value of “view_id” of the slice NAL unit # C00 is equal to the value of “view_id” of the prefix NAL unit # A00 in which the viewpoint information of the slice unit # A00 corresponding to the slice NAL unit # C00 is set.
  • “slice_layer_in_scalable_extension_rbsp” that is the RBSP of the slice NAL unit whose “nal_unit_type” value is “21” includes “slice_header”, “slice_data”, and “rbsp_slice_trailing_bits”.
  • “slice_header” includes information related to coding of a slice.
  • “slice_data” includes encoded data, such as an encoding mode, a motion vector or a disparity vector, and an encoded residual signal, obtained by encoding a depth signal in the slice.
  • “rbsp_slice_trailing_bits” is a bit for adjustment.
  • “Slice_header” includes “pic_parameter_set_id” which is a number for identifying the PPS to be referred to.
  • the value of “pic_parameter_set_id” of the PPS #C to be referred to by the slice NAL unit # C00 is set.
  • the sequence information that slice NAL unit # C00 should refer to is SPS # C. It can be clearly identified.
  • slice NAL units # C20 and # C40 are sequentially generated in the same manner as the slice NAL unit # C00.
  • the depth signal of the viewpoint 2 corresponding to the image signal of the viewpoint 2 is set in slice units
  • the slice NAL unit # C40 the depth signal of the viewpoint 4 corresponding to the image signal of the viewpoint 4 is set in slice units.
  • “21” is set to the value of “nal_unit_type” indicating the type of the NAL unit included in the NAL unit header of the slice NAL units # C20 and # 40.
  • a value indicating the viewpoint 2 is set in the view_id of the slice NAL unit # C20
  • a value indicating the viewpoint 4 is set in the view_id of the slice NAL unit # C40.
  • the view_id value of the slice NAL unit # C20 is equal to the view_id value of the slice unit # B20 corresponding to the slice NAL unit # C20
  • the view_id value of the slice NAL unit # C40 is the slice NAL unit # C40. Is equal to the value of view_id of slice unit # B40 corresponding to.
  • the NAL units after the NAL unit # A1 of the camera parameter information following the slice NAL unit # C40 are also generated from the camera parameter information # 0 in the same manner as the slice NAL unit # C40.
  • the viewpoint information of the subsequent slice # A01 is set in the same manner as the prefix NAL unit # A00.
  • the next image signal in the encoding or decoding order of the image signal set in the slice NAL unit # A00 is set in units of slices in the same manner as the slice NAL unit # A00.
  • the value of “nal_unit_type” indicating the type of the NAL unit included in the NAL unit header of the slice NAL unit # A01 is set to “1” indicating that the slice is a non-IDR picture (FIG. 12). reference).
  • Slice NAL units # B21, # B11, # B41, and # B31 include the following in the encoding or decoding order in the respective viewpoints of the image signals set in slice NAL units # B20, # B10, # B40, and # B30.
  • the image signals coming in are encoded in units of slices in the same manner as the slice NAL units # B20 and # B10.
  • the next depth signal in the order of encoding or decoding in each viewpoint of the depth signals set in the slice NAL units # C00, # C20, and # C40 Encoding is performed in units of slices in the same manner as NAL units # C00, # C20, and # C40.
  • Encoding management information is supplied to the encoding management unit 101 from the outside or from an encoding management information holding unit (not shown).
  • the encoding management unit 101 newly calculates parameters as necessary.
  • the encoding management unit 101 (A) parameter information relating to the entire sequence of image signals (ie SPS of the image signal), (B) Parameter information related to the entire sequence of depth signals (ie, SPS of the depth signal), (C) Parameter information related to the picture of the image signal (ie, PPS of the image signal), (d) Parameter information related to the picture of the depth signal (ie, PPS of the depth signal), (e) Header information related to the slice (ie the slice header of the image signal), (F) Header information related to a slice of a picture of a depth signal (that is, a slice header of a depth signal) It manages information related to encoding, including.
  • the encoding management unit 101 manages the viewpoint information of the multi-view image signal and the multi-view depth signal, the reference dependency relationship of the encoding target image, and the encoding or decoding order.
  • the viewpoint information the encoding management unit 101 manages the correspondence between the image signal and the depth signal at each viewpoint using the viewpoint ID.
  • the encoding management unit 101 manages whether or not to refer to an image signal or a depth signal of another viewpoint for each viewpoint as the reference dependency.
  • the encoding management unit 101 uses the image signal or depth signal of another viewpoint as a reference image when encoding the encoding target image signal or the encoding target depth signal in units of pictures or slices. Whether to perform inter-view prediction (for example, parallax compensation prediction) to be used is managed.
  • the encoding management unit 101 as the reference dependency relationship, a decoded image signal or a decoded depth signal obtained by decoding on the encoding side after the encoding target image signal or the encoding target depth signal is encoded, It is managed whether or not it is used as a reference image when encoding an encoding target image signal or an encoding target depth signal of another viewpoint. Furthermore, the encoding management unit 101 manages which reference image should be referred to from among a plurality of reference image candidates as the reference dependency relationship.
  • the encoding management unit 101 sets the decoding order of the decoding target image signal according to the reference dependency on the decoding side after the decoding order of the reference image to be referred to by the image signal. Manage to be.
  • the encoding management unit 101 outputs the image signal and the depth signal in the order suitable for outputting the image signal and the depth signal of each viewpoint at the same time after decoding as the encoding or decoding order. Manage to encode.
  • the sequence information encoding unit for image signal 102 encodes parameter information related to the entire sequence of the base viewpoint image signal managed by the encoding management unit 101 (that is, SPS of the base viewpoint image signal), Generate a bit string.
  • This encoded bit string corresponds to the RBSP part of SPS # A of the entire encoded bit string shown in FIG.
  • the SPS of the base viewpoint image signal is encoded according to the syntax structure of “seq_parameter_set_rbsp” that is the RBSP shown in FIG. 13.
  • the sequence information encoding unit for image signal 102 receives parameter information related to the entire sequence of the image signal of the non-base viewpoint managed by the encoding management unit 101 (that is, the SPS of the image signal of the non-base viewpoint). Encode to generate a coded bit string.
  • This encoded bit string corresponds to the RBSP part of SPS # B of the entire encoded bit string shown in FIG.
  • the SPS for the image signal of the non-basis viewpoint is encoded according to the syntax structure of “subset_seq_parameter_set_rbsp” which is the RBSP shown in FIG.
  • SPS MVC extension information is also encoded in accordance with the syntax structure shown in FIG.
  • the depth signal sequence information encoding unit 103 encodes the parameter information related to the entire sequence of the depth signal managed by the encoding management unit 101 (that is, the SPS of the depth signal), and generates an encoded bit string.
  • This encoded bit string corresponds to the RBSP portion of SPS # C of the entire encoded bit string shown in FIG.
  • the SPS of the depth signal is encoded according to the syntax structure of “subset_seq_parameter_set_rbsp” which is the RBSP shown in FIG.
  • SPS MVC extension information is also encoded in accordance with the syntax structure shown in FIG.
  • the picture signal picture information encoding unit 104 encodes information related to the picture of the image signal managed by the encoding management unit 101 (that is, the PPS of the image signal), and generates an encoded bit string.
  • This encoded bit string corresponds to the RBSP part of PPS # A and PPS # B of the entire encoded bit string shown in FIG.
  • the PPS of the base viewpoint image signal and the PPS of the non-base viewpoint image signal are encoded according to the syntax structure of “pic_parameter_set_rbsp” which is the RBSP shown in FIG.
  • the depth signal picture information encoding unit 105 encodes information related to the picture of the depth signal managed by the encoding management unit 101 (that is, the PPS of the depth signal) to generate an encoded bit string.
  • This encoded bit string corresponds to the RBSP part of PPS # C of the entire encoded bit string shown in FIG.
  • the PPS of the depth signal is encoded according to the syntax structure of “pic_parameter_set_rbsp” that is the RBSP shown in FIG.
  • the camera parameter information encoding unit 106 encodes camera parameter information used for photographing each viewpoint as SEI, and generates an encoded bit string.
  • the camera parameter information includes internal parameter information and external parameter information.
  • the internal parameter information is information specific to the camera at each viewpoint, and includes coefficients such as focal length, principal point, and radial distortion (that is, lens distortion in the radial direction from the principal point) of the camera used for photographing from each viewpoint.
  • the external parameter information includes the arrangement information of the cameras at each viewpoint. This arrangement information can be represented by a position (x, y, z coordinate) in a three-dimensional space or a rotation angle (roll, pitch, yaw) on three axes (x, y, z axes). .
  • the image signal encoding unit 107 is supplied with the image signal of each viewpoint.
  • the image signal supplied to the image signal encoding unit 107 is an image signal of viewpoint 0, viewpoint 1, viewpoint 2, viewpoint 3, and viewpoint 4.
  • the image signal encoding unit 107 encodes information related to the slice of the image signal managed by the encoding management unit 101 (that is, the slice header of the image signal) and the supplied encoding target image signal in units of slices. To generate an encoded stream.
  • This encoded stream is the RBSP part of slices # A00, # B20, # B10, # B40, # B30, # A01, # B21, # B11, # B41, and # B31 of the entire encoded stream shown in FIG. It corresponds to.
  • the slice header of the base viewpoint image signal and the supplied encoding target base viewpoint slice unit image signal are respectively according to the syntax structure of “slice_layer_without_partitioning_rbsp” which is the RBSP shown in FIG. Encoded. More specifically, the image signal for each slice of the base viewpoint is encoded through processing such as intra prediction encoding, inter prediction encoding, orthogonal transform, quantization, and entropy encoding.
  • the slice header of the non-basis viewpoint image signal and the supplied encoding target non-basis viewpoint slice unit image signal are encoded according to the syntax structure of “slice_layer_in_scalable_extension_rbsp”, which is the RBSP shown in FIG. It becomes.
  • slice_layer_in_scalable_extension_rbsp which is the RBSP shown in FIG. It becomes.
  • inter-view prediction or motion compensated prediction may be used. In that case, an image signal locally decoded from a picture of an already encoded image signal is used as a reference image. can do.
  • the depth signal encoding unit 108 is supplied with the depth signal of each viewpoint.
  • the depth signal supplied to the depth signal encoding unit 108 is a depth map signal of viewpoint 0, viewpoint 2, and viewpoint 4.
  • the depth signal encoding unit 108 encodes information related to the slice of the depth signal managed by the encoding management unit 101 (that is, the slice header of the depth signal) and the supplied depth signal to be encoded in units of slices. To generate an encoded stream.
  • This encoded bit string corresponds to the RBSP part of slices # C00, # C20, # C40, # C01, # C21, and # C41 of the entire encoded bit string shown in FIG.
  • the slice header of the depth signal and the supplied depth signal for each slice to be encoded are encoded according to the syntax structure of “slice_layer_in_scalable_extension_rbsp”, which is the RBSP shown in FIG.
  • a depth signal that is locally decoded from a picture of an already encoded depth signal is used as a reference image. can do.
  • the encoding method of the depth signal can use the same method as that of the gray scale image signal.
  • the unitization unit 109 (A) an encoded bit string of sequence information of the base viewpoint image signal generated by the image signal sequence information encoding unit 102; (B) an encoded bit string of sequence information of a non-basis viewpoint image signal generated by the image signal sequence information encoding unit 102; (C) an encoded bit string of the sequence information of the depth signal generated by the sequence information encoding unit 103 for the depth signal, (D) a coded bit sequence of picture information of the base viewpoint image signal generated by the picture signal picture information encoding unit 104; (E) a coded bit sequence of picture information of a non-basis viewpoint image signal generated by the picture information picture information coding unit 104; (F) an encoded bit sequence of the picture information of the depth signal generated by the depth signal picture information encoding unit 105; (G) an encoded bit string of the camera parameter information generated by the camera parameter information encoding unit 106; (H) Information related to the slice of the base viewpoint image signal generated by the image signal encoding unit 107 (
  • the unitization unit 109 multiplexes the encoded bit sequences that are converted into NAL units as necessary, and generates the encoded bit sequence of the multi-view image shown in FIG. Further, when the encoded bit string is transmitted via the network, a packetizing unit (not shown) packetizes based on standards such as MPEG-2 system, MP4 file format, RTP and the like. A transmission unit (not shown) transmits the packetized encoded bit string.
  • the NAL unit header shown in FIG. 13 is added to the encoded bit string of the sequence information of the base viewpoint image signal supplied from the image signal sequence information encoding unit 102.
  • the value of “nal_unit_type” indicating the type of NAL unit is set to “7” indicating SPS.
  • the encoded bit string to which the NAL unit header is added corresponds to the SPS # A NAL unit of the encoded bit string shown in FIG.
  • the NAL unit header shown in FIG. 14 is added to the encoded bit string of the sequence information of the image signal of the non-base viewpoint.
  • the value of “nal_unit_type” indicating the type of the NAL unit is set to “15” indicating the subset SPS that is the SPS of the MVC extension.
  • the encoded bit string to which the NAL unit header is added corresponds to the SPS # B NAL unit of the entire encoded bit string shown in FIG.
  • the NAL unit header shown in FIG. 14 is added to the encoded bit string of the sequence information of the depth signal supplied from the sequence information encoding unit 103 for the depth signal.
  • the value of “nal_unit_type” indicating the type of the NAL unit is set to “15” indicating the subset SPS that is the SPS of the MVC extension.
  • the encoded bit sequence to which the NAL unit header is added corresponds to the SPS # C NAL unit of the entire encoded bit sequence shown in FIG.
  • the NAL unit header shown in FIG. 15 is added to the encoded bit string of the picture information of the base viewpoint image signal supplied from the picture signal picture information encoding unit 104.
  • the value of “nal_unit_type” indicating the type of NAL unit is set to “8” indicating PPS.
  • the encoded bit sequence to which the NAL unit header is added corresponds to the NPS unit of PPS # A in the entire encoded bit sequence shown in FIG.
  • the NAL unit header shown in FIG. 15 is also added to the coded bit string of the picture information of the non-base viewpoint image signal.
  • the value of “nal_unit_type” indicating the type of NAL unit is set to “8” indicating PPS.
  • the encoded bit string to which the NAL unit header is added corresponds to the NPS unit of the PPS # B in the entire encoded bit string shown in FIG.
  • the NAL unit header shown in FIG. 15 is also added to the encoded bit string of the picture information of the depth signal supplied from the depth signal picture information encoding unit 105.
  • the value of “nal_unit_type” indicating the type of NAL unit is set to “8” indicating PPS.
  • the encoded bit sequence to which the NAL unit header is added corresponds to the PPS # C NAL unit of the entire encoded bit sequence shown in FIG.
  • the NAL unit header for SEI is added to the encoded bit string of the camera parameter information supplied from the camera parameter information encoding unit 106.
  • the value of “nal_unit_type” indicating the type of NAL unit is set to “6” indicating SEI.
  • the encoded bit string to which the NAL unit header is added corresponds to the NAL units of the camera parameter information # 0 and # 1 in the entire encoded bit string shown in FIG.
  • the encoded bit sequence including the slice header information of the encoded base viewpoint image signal and the encoded base viewpoint image signal supplied from the image signal encoding unit 107 includes the NAL unit header shown in FIG. Is added.
  • the value of “nal_unit_type” indicating the type of the NAL unit is set to “1” or “5” indicating the slice of the base viewpoint image signal.
  • the encoded bit string to which the NAL unit header is added corresponds to the NAL units of slices # A00 and # A01 of the entire encoded bit string shown in FIG.
  • a prefix NAL unit for encoding the viewpoint information of the base viewpoint image signal is set before the slice NAL unit of the base viewpoint image signal.
  • the structure of the prefix NAL unit is as shown in FIG. 16.
  • “14” indicating a prefix NAL unit is set to the value of “nal_unit_type” indicating the type of NAL unit.
  • the encoded bit string obtained by encoding only the NAL unit header corresponds to the NAL units of the prefix NAL units # A00 and # A01 of the entire encoded bit string shown in FIG.
  • the NAL unit header shown in FIG. 18 is added to the encoded bit string including the slice header of the encoded non-base viewpoint image signal and the encoded non-base viewpoint slice unit image signal.
  • the value of “nal_unit_type” indicating the type of the NAL unit is set to “20” indicating that the slice is a non-basis viewpoint image signal.
  • the encoded bit sequence to which the NAL unit header is added is the NAL of slices # B20, # B10, # B40, # B30, # B21, # B11, # B41, # B31 of the entire encoded bit sequence shown in FIG. Corresponds to a unit.
  • the NAL unit header shown in FIG. 18 is added to the encoded bit string including the slice header of the encoded depth signal and the encoded depth signal of the slice unit supplied from the depth signal encoding unit 108.
  • the value of “nal_unit_type” indicating the type of NAL unit is set to “21” indicating that it is a slice of a depth signal.
  • the encoded bit sequence to which the NAL unit header is added corresponds to the NAL units of slices # C00, # C10, # C20, # C01, # C11, and # C21 of the entire encoded bit sequence shown in FIG.
  • FIG. 19 is a flowchart illustrating a multi-viewpoint image encoding process performed by the image encoding devices 100 and 100a according to Embodiment 1.
  • the sequence information encoding unit for image signal 102 encodes parameter information related to encoding of the entire sequence of the base viewpoint image signal, and sequence information of the base viewpoint image signal (that is, the SPS of the base viewpoint image signal). ) Is generated (S101).
  • the unitizing unit 109 performs NAL unitization by adding header information for handling in units of NAL units to the encoded bit string of the sequence information of the base viewpoint image signal obtained by the processing of step S101. (S102). Furthermore, the unitization unit 109 multiplexes with other NAL units as necessary.
  • sequence information encoding unit for image signal 102 encodes parameter information related to encoding of the entire sequence of the image signal of the non-base viewpoint, and sequence information (that is, non-base viewpoint) for the image signal of the non-base viewpoint.
  • An encoded bit string of SPS of the viewpoint image signal is generated (S103).
  • the unitization unit 109 adds NAL unit header information to the encoded bit string of the sequence information of the image signal of the non-basis viewpoint obtained by the process of step S104. (S104). Furthermore, the unitization unit 109 multiplexes with other NAL units as necessary.
  • the depth signal sequence information encoding unit 103 encodes the parameter information related to the encoding of the entire depth signal sequence, and generates the encoded bit string of the depth signal sequence information (that is, the SPS of the depth signal). (S105).
  • the unitization unit 109 performs NAL unitization by adding header information for handling in units of NAL units to the encoded bit string of the sequence information of the depth signal obtained by the processing of step S105 (S106). Furthermore, the unitization unit 109 multiplexes with other NAL units as necessary.
  • the picture information picture information encoding unit 104 encodes the parameter information related to the encoding of the entire picture of the base viewpoint image signal, and the picture information (that is, the base viewpoint image of the base viewpoint image signal).
  • An encoded bit string of the PPS of the signal is generated (S107).
  • the unitizing unit 109 performs NAL unitization by adding header information for handling in units of NAL units to the encoded bit sequence of picture information of the base viewpoint image signal obtained by the processing of step S107. (S108). Furthermore, the unitization unit 109 multiplexes with other NAL units as necessary.
  • the picture information picture information encoding unit 104 encodes the parameter information related to the encoding of the entire picture of the non-basis viewpoint image signal, and the picture information (that is, the non-basis viewpoint image signal).
  • An encoded bit string of PPS) of the image signal is generated (S109).
  • the unitization unit 109 adds NAL unit header information to the encoded bit sequence of the picture information of the image signal of the non-basis viewpoint obtained by the process of step S109, thereby adding NAL units. (S110). Furthermore, the unitization unit 109 multiplexes with other NAL units as necessary.
  • the depth signal picture information encoding unit 105 encodes the parameter information related to the encoding of the entire depth signal picture, and generates the encoded bit string of the depth signal picture information (that is, the PPS of the depth signal) ( S111).
  • the unitization unit 109 performs NAL unitization by adding header information for handling in units of NAL units to the encoded bit string of the picture information of the depth signal obtained by the processing of step S111 (S112). Furthermore, the unitization unit 109 multiplexes with other NAL units as necessary.
  • the camera parameter information encoding unit 106 encodes the camera parameter information used for photographing each viewpoint as SEI, and generates an encoded bit string of the camera parameter information (S113).
  • the unitization unit 109 forms a NAL unit by adding header information for handling in units of NAL units to the encoded bit string of the camera parameter information obtained by the process of step S113 (S114). Furthermore, the unitization unit 109 multiplexes with other NAL units as necessary.
  • the unitization unit 109 encodes the header information to be handled in units of NAL units including the viewpoint information of the subsequent NAL unit, and sets it as a prefix NAL unit (S115). As described above, this is because RBSP is not encoded in the MVC method. Furthermore, the unitization unit 109 multiplexes with other NAL units as necessary.
  • the image signal encoding unit 107 encodes information related to the slice of the base viewpoint image signal (that is, the slice header of the base viewpoint image signal) and the image signal in units of slices of the base viewpoint to be encoded. Then, an encoded bit sequence of the image signal in units of slices of the base viewpoint is generated (S116).
  • the NAL unit is formed by adding header information for handling in units of NAL units to the encoded bit sequence of the image signal in units of slices of the base viewpoint obtained by the processing of the unitization unit 109 step S116 ( S117). Furthermore, the unitization unit 109 multiplexes with other NAL units as necessary. Although not shown in FIG. 19, when a picture is divided into a plurality of slices and encoded, the processing from step S116 to S117 is repeated.
  • the image signal encoding unit 107 outputs information related to the slice of the image signal of the non-base viewpoint (that is, the slice header of the image signal of the non-base viewpoint) and the image signal in units of slices of the base viewpoint to be encoded. Encoding is performed to generate a coded bit string of the image signal for each slice of the non-basis viewpoint (S118).
  • the unitizing unit 109 converts the non-basic viewpoint slice unit obtained by the processing of step S117 into the encoded bit sequence of the image signal by adding header information for handling in units of NAL units. (S119). Furthermore, the unitization unit 109 multiplexes with other NAL units as necessary. Although not shown in FIG. 19, when a picture is divided into a plurality of slices and encoded, the processing from steps S118 to S119 is repeated.
  • the encoding management unit 101 determines whether or not the encoding processing of the image signals of all viewpoints to be encoded has been completed at the display time (S120).
  • the process proceeds to step S121.
  • the encoding process is not completed (N in S120)
  • the encoding process from step S118 to step S120 is repeated.
  • the depth signal encoding unit 108 encodes the information related to the slice of the depth signal (that is, the slice header of the depth signal) and the depth signal of the slice unit to be encoded, and the encoded bit string of the slice of the depth signal.
  • Generate S121.
  • the unitizing unit 109 performs NAL unitization by adding header information to be handled in units of NAL units to the encoded bit string of the depth signal in units of slices obtained by the processing in step S121 (S122). Furthermore, the unitization unit 109 multiplexes with other NAL units as necessary. Although not shown in FIG. 19, when a picture is divided into a plurality of slices and encoded, the processing from step S121 to S122 is repeated.
  • the encoding management unit 101 determines whether or not the encoding processing of the depth signals of all viewpoints to be encoded has been completed at the display time (S123).
  • the process proceeds to step S121.
  • the encoding process is not completed (N in S123)
  • the encoding process from step S121 to step S123 is repeated.
  • the encoding management unit 101 determines whether or not encoding processing for all image signals and depth signals to be encoded has been completed (S124). When the encoding process of all the image signals and the depth signals is completed (Y in S124), this encoding process is finished. When the encoding process is not completed (N in S124), the encoding process from step S113 to step S124 is performed. repeat.
  • FIG. 20 is a flowchart illustrating a transmission processing procedure in the case of transmitting an encoded bit sequence of a multi-view image generated by the image encoding devices 100 and 100a according to Embodiment 1 via a network.
  • the entire process shown in the flowchart of FIG. 20 is executed as necessary after each of steps S102, S104, S106, S108, S110, S112, S114, S115, S117, S119, and S122 in the flowchart of FIG. Is done.
  • the packetizing unit (not shown) is the encoded bit string obtained by the processing of steps S102, S104, S106, S108, S110, S112, S114, S115, S117, S119, and S122 in the flowchart of FIG. Are packetized based on standards such as MPEG-2 system, MP4 file format, RTP, etc. as necessary (S201).
  • the packetizing unit multiplexes with an encoded bit string such as audio as required (S202).
  • a transmission unit (not shown) transmits the packetized encoded bit string as needed via a network or the like (S203).
  • the encoded bit string encoded by the image encoding devices 100 and 100a according to Embodiment 1 is an existing single-view AVC / H.
  • the decoding apparatus corresponding to the H.264 encoding method can also decode. In this case, only the base viewpoint image signal is obtained on the decoding side.
  • the encoded bit string shown in FIG. 11 encoded by the image encoding apparatuses 100 and 100a according to Embodiment 1 is decoded by a decoding apparatus corresponding to the high profile of the AVC / H.264 encoding method. can do.
  • AVC / H. It corresponds to the high profile of H.264 encoding method, (A) NAL unit #A of SPS that is a NAL unit whose “nal_unit_type” is “7”, (B) PAL NAL units #A, #B, #C, which are NAL units whose “nal_unit_type” is “8”. (C) Slice NAL unit # A00 which is a NAL unit whose “nal_unit_type” is “1”, and (d) Slice NAL unit # A01 which is a NAL unit whose “nal_unit_type” is “5”. Is decrypted.
  • NPS units #B and #C of the PPS slice NAL units that refer to these PPS are not decoded and are not actually used.
  • SPS NAL units #B and #C which are NAL units whose “nal_unit_type” is not “15” that does not correspond to the high profile of the H.264 encoding method are not decoded.
  • the encoded bit string encoded by the image encoding devices 100 and 100a according to Embodiment 1 can be decoded by a decoding device that supports the existing MVC encoding method. In that case, only a multi-view image signal is obtained on the decoding side.
  • the encoded bit string shown in FIG. 11 and encoded by the image encoding devices 100 and 100a according to Embodiment 1 is AVC / H. It is possible to perform decoding by a decoding device that supports the H.264 encoding multi-view high profile.
  • NAL unit #A of SPS that is a NAL unit whose “nal_unit_type” is “7”
  • B SPS NAL units #B, #C, which are NAL units whose “nal_unit_type” is “15”
  • C NAL units #A, #B, #C of PPS whose “nal_unit_type” is a NAL unit of “8”
  • D Prefix NAL unit # A00 which is a NAL unit whose “nal_unit_type” is “14”
  • E Slice NAL unit # A00 which is a NAL unit whose “nal_unit_type” is “1”
  • F Slice NAL unit # A01 whose Nal unit has “nal_unit_type” of “5”
  • g Slice NAL units # B10, # B20, # B11, # whose Nal unit whose “nal_unit_type” of “5”
  • g Slice NAL units # B10, # B20, # B11, # whose Na
  • the SPS NAL unit #C and the PPS NAL unit #C are not actually used because the slice NAL unit referring to these SPS and PPS is not decoded.
  • AVC / H Slice NAL units # C00, # C10, # C20, # C01, # C11, and # C21 that are NAL units whose “nal_unit_type” is not “21” that does not correspond to the H.264 encoding multi-view high profile are decoded. do not do.
  • a multi-view image can be efficiently transmitted or stored by unitizing a multi-view depth signal bit sequence generated by encoding a multi-view depth signal including a signal as the same encoded stream. That is, the viewpoint of the image signal to be encoded can be greatly reduced, and the encoding efficiency and reproduction quality are improved.
  • the data structure of the coded bit sequence is obtained by decoding only the base-view image signal with a conventional decoding device that decodes a single-view image, or the multi-view image signal with a conventional decoding device that decodes a multi-view image.
  • the same number of multi-view image signals and multi-view depth signals can be generated, and the number of viewpoints of the multi-view image signal and the depth signal is different. Therefore, it is possible to generate encoded bit strings that do not correspond one-to-one.
  • FIG. 21 is a block diagram showing a configuration of image decoding apparatus 300 according to Embodiment 2 of the present invention.
  • the image decoding apparatus 300 according to Embodiment 2 includes a decomposition unit 301, a decoding management unit 302, a parameter information decoding unit 320, an image signal decoding unit 307, and a depth information decoding unit (more specifically, a depth signal decoding unit 309). And a decoded image buffer 310.
  • the parameter information decoding unit 320 includes a base viewpoint image signal sequence information decoding unit 303, a sequence information decoding unit 304 including MVC extension information, a picture information decoding unit 305, and a supplementary additional information decoding unit 306.
  • the decomposing unit 301 is a depth information code in which encoded image data obtained by encoding a plurality of images from a plurality of different viewpoints and depth information indicating the depth of a specific space from at least one or more viewpoints are encoded.
  • the encoded stream including the encoded data and the parameter information encoded data obtained by encoding the parameter information including the viewpoint information for specifying the plurality of viewpoints based on the plurality of images and the depth information is decomposed.
  • This encoded stream includes the encoded stream generated by the image encoding devices 100 and 100a according to Embodiment 1. Note that the number of depth information encoded data included in the encoded stream may be set smaller than the number of image encoded data.
  • the image signal decoding unit 307 decodes the image encoded data decomposed by the decomposition unit 301 to restore a plurality of images.
  • the image signal decoding unit 307 encodes a first image code obtained by encoding an image from the viewpoint to be the reference among the plurality of images.
  • the decoded data is decoded to restore the image
  • the second image encoded data obtained by encoding an image other than the image from the viewpoint to be the reference is decoded to restore the image.
  • the depth information decoding unit decodes the depth information encoded data decomposed by the decomposition unit 301 to restore the depth information.
  • the depth information encoded data may be data obtained by encoding depth information represented by a monochrome image from a certain viewpoint.
  • the depth information decoding unit decodes the depth information encoded data and restores the monochrome image.
  • the parameter information decoding unit 320 decodes the parameter information encoded data decomposed by the decomposition unit 301 to restore the parameter information.
  • the parameter information decoding unit 320 encodes the first parameter information of the image from the viewpoint to be the reference among the plurality of images.
  • the first parameter information encoded data is decoded to restore the first parameter information.
  • the parameter information decoding unit 320 decodes second parameter information encoded data obtained by encoding the second parameter information of an image other than the image from the viewpoint to be the reference among the plurality of images, The second parameter information is restored.
  • the parameter information decoding unit 320 decodes the third parameter information encoded data obtained by encoding the third parameter information of the depth information, and restores the third parameter information.
  • the third parameter information may be described in a syntax structure corresponding to the syntax structure of the second parameter information.
  • the second parameter information and the third parameter information are AVC / H. It may be described in conformity with the multi-view high profile of the H.264 encoding method.
  • viewpoint identification information may be described in the second parameter information and the third parameter information, the position of the viewpoint that is the basis of the image encoded as the image encoded data, and the depth When the viewpoint positions that are the basis of the depth information encoded as the information encoded data match, common identification information may be given to these viewpoints.
  • FIG. 22 is a block diagram showing a configuration of an image decoding device 300a according to a modification of the second embodiment.
  • the image decoding device 300a according to the modification of the second embodiment has a configuration in which a virtual viewpoint image generation unit 330 is added to the image decoding device 300 illustrated in FIG.
  • the virtual viewpoint image generation unit 330 is different from the viewpoint based on the image based on the image decoded by the image signal decoding unit 307 and the depth information decoded by the depth information decoding unit. , Generate an image from another viewpoint. More specifically, the virtual viewpoint image generation unit 330 has the image decoded by the image signal decoding unit 307, the depth information decoded by the depth information decoding unit, and the camera parameter decoded by the parameter information decoding unit 320. An image from a virtual viewpoint is generated based on parameter information such as
  • the virtual viewpoint image generation unit 330 can realize generation of an image from the virtual viewpoint using an existing algorithm. This virtual viewpoint is designated to the virtual viewpoint image generation unit 330 by an instruction from the application or due to a user operation.
  • the other processing is the same as the description of the image decoding apparatus 300 according to the basic example of the second embodiment shown in FIG.
  • the decomposition unit 301 acquires the encoded bit string generated by the image encoding devices 100 and 100a according to Embodiment 1.
  • the form for obtaining the encoded bit string may be a form for receiving the encoded bit string transmitted over the network, a form for reading the encoded bit string recorded on a storage medium such as a DVD, or a broadcast such as BS / terrestrial wave. A form in which a broadcast coded bit string is received may be used.
  • the decomposition unit 301 separates the supplied encoded bit string into NAL unit units.
  • a packet disassembling unit removes a packet header such as MPEG-2 system, MP4 file format, RTP, etc. as necessary.
  • the disassembling unit 301 decodes the NAL unit header that is the header portion of the separated NAL unit, and supplies the decoded NAL unit header information to the decoding management unit 302. Management of the information of these NAL unit headers is performed by the decoding management unit 302.
  • the disassembling unit 301 has a value of “nal_unit_type” that is an identifier for identifying the type of the NAL unit included in the NAL unit header, which is “7”, that is, the NAL unit relates to encoding of the entire sequence of the base viewpoint image signal.
  • the encoded bit string of the RBSP part of the NAL unit is supplied to the base-view image signal sequence information decoding unit 303.
  • the decomposing unit 301 encodes the code of the RBSP unit of the NAL unit
  • the generated bit string is supplied to the sequence information decoding unit 304 including the MVC extension information.
  • the decomposing unit 301 converts the encoded bit string of the RBSP part of the NAL unit into picture information It supplies to the decoding part 305.
  • the decomposing unit 301 supplies the encoded bit string of the RBSP unit of the NAL unit to the supplementary additional information decoding unit 306. To do.
  • the decomposition unit 301 has a value of “nal_unit_type” of “1” or “5”, that is, a code in which an encoding mode, a motion vector or a disparity vector, an encoded residual signal, and the like of an image signal of a base viewpoint are encoded
  • the encoded bit sequence of the RBSP unit of the NAL unit is supplied to the image signal decoding unit 307.
  • the decomposition unit 301 has a value of “nal_unit_type” of “20”, that is, an encoded bit string in which an encoding mode, a motion vector or a disparity vector, an encoded residual signal, etc. of an image signal of a non-basis viewpoint are encoded.
  • the encoded bit string of the RBSP unit of the NAL unit is supplied to the image signal decoding unit 307.
  • the encoded bit string of the RBSP part of the NAL unit is empty.
  • the decomposing unit 301 When the value of “nal_unit_type” is “14”, “20”, “21”, the decomposing unit 301 also decodes “nal_unit_header_svc_mvc_extension”, which is the viewpoint information included in the NAL unit header, and decodes and manages the decoded viewpoint information Supplied to the unit 302.
  • the viewpoint information decoded here includes a viewpoint ID and the like. Note that the viewpoint information included in the NAL unit header whose “nal_unit_type” value is “14” is the viewpoint information of the subsequent NAL unit, and the “nal_unit_type” value is included in the NAL unit header whose value is “20” or “21”.
  • the viewpoint information to be displayed is the viewpoint information of the NAL unit. The management of these viewpoint information is performed by the decoding management unit 302.
  • the base viewpoint image signal sequence information decoding unit 303 decodes an encoded bit string in which parameter information related to encoding of the entire sequence of the base viewpoint image signal supplied from the decomposition unit 301 is encoded.
  • the supplied encoded bit string corresponds to the RBSP part of SPS # A of the encoded bit string shown in FIG.
  • the supplied encoded bit string of the RBSP part is “seq_parameter_set_rbsp” shown in FIG.
  • the base viewpoint image signal sequence information decoding unit 303 decodes the encoded bit string according to the syntax structure of “seq_parameter_set_rbsp” shown in FIG. 13, and sets parameter information related to the encoding of the entire sequence of the base viewpoint image signal. obtain.
  • the base viewpoint image signal sequence information decoding unit 303 supplies sequence information of the decoded base viewpoint image signal to the decoding management unit 302.
  • the decoding management unit 302 manages sequence information of the base viewpoint image signal.
  • the sequence information decoding unit 304 including the MVC extension information is parameter information related to the encoding of the entire sequence including the MVC extension information supplied from the decomposition unit 301, that is, the sequence information of the image signal of the non-basis viewpoint or the sequence information of the depth signal Decode the encoded bit string encoded by.
  • the supplied encoded bit string corresponds to the RBSP part of SPS # B and SPS # C of the encoded bit string shown in FIG.
  • the supplied encoded bit string of the RBSP part is “subset_seq_parameter_set_rbsp” shown in FIG.
  • the sequence information decoding unit 304 including the MVC extension information decodes the encoded bit string in accordance with the “subset_seq_parameter_set_rbsp” syntax structure shown in FIG. 14, and parameter information or depth related to the encoding of the entire sequence of the image signal of the non-basis viewpoint. Parameter information relating to the coding of the entire signal sequence is obtained.
  • profile_idc It can be determined by referring to the value of “profile_idc” whether the sequence information of the image signal of the non-basis viewpoint or the sequence information of the depth signal.
  • the value of “profile_idc” is AVC / H. In the case of “118” indicating the multi-view high profile of the H.264 encoding scheme, it is the sequence information of the image signal of the non-basis viewpoint, and in the case of “120” indicating that the multi-view depth signal can be decoded, This is the sequence information of the depth signal.
  • “subset_seq_parameter_set_rbsp” includes MVC extension information, and the sequence information decoded by the sequence information decoding unit 304 including the MVC extension information also includes MVC extension information.
  • the sequence information decoding unit 304 including the MVC extension information supplies the decoded non-basis viewpoint image signal sequence information or depth signal sequence information to the decoding management unit 302. Management of these sequence information is performed by the decoding management unit 302.
  • the picture information decoding unit 305 decodes an encoded bit string in which parameter information related to encoding of the entire picture supplied from the decomposition unit 301 is encoded.
  • This supplied encoded bit string corresponds to the RBSP part of PPS # A, PPS # B, and PPS # C of the encoded bit string shown in FIG.
  • the supplied encoded bit string of the RBSP part is “pic_parameter_set_rbsp” shown in FIG.
  • the picture information decoding unit 305 decodes the encoded bit string in accordance with the “pic_parameter_set_rbsp” syntax structure shown in FIG. 15 and encodes the entire picture of the base-view image signal, the non-base-view image signal, or the depth signal.
  • the parameter information concerning is obtained.
  • the picture information decoding unit 305 supplies the decoded picture information to the decoding management unit 302. This picture information is managed by the decoding manager 302.
  • the supplementary additional information decoding unit 306 decodes the encoded bit string in which the supplementary additional information supplied from the decomposing unit 301 is encoded, and outputs the supplemental additional information.
  • camera parameter information is included in the supplied encoded bit string, this camera parameter information can be used when generating or displaying an image signal of a virtual viewpoint after decoding.
  • the image signal decoding unit 307 decodes the encoded bit string in which the slice header of the base viewpoint image signal supplied from the decomposition unit 301 and the encoding mode, motion vector, encoded residual signal, and the like of the slice are encoded. To do.
  • This supplied encoded bit string corresponds to the RBSP part of slices # A00 and # A01 of the encoded bit string shown in FIG.
  • the supplied encoded bit string of the RBSP part is “slice_layer_without_partitioning_rbsp” shown in FIG.
  • the image signal decoding unit 307 decodes the encoded bit string in accordance with the “slice_layer_without_partitioning_rbsp” syntax structure shown in FIG. First, the image signal decoding unit 307 decodes “slice_header” included in “slice_layer_without_partitioning_rbsp” to obtain information related to the slice. The image signal decoding unit 307 supplies information related to the decoded slice to the decoding management unit 302.
  • “slice_header” included in “slice_layer_without_partitioning_rbsp” includes the number “pic_parameter_set_id” for identifying the PPS to be referred to, and “pic_parameter_set_id” of slices # A00 and # A01 illustrated in FIG. Is set with the value of “pic_parameter_set_id” of PPS # A to be referred to by slices # A00 and # A01.
  • the image signal decoding unit 307 should refer to the slices # A00 and # A01 supplied from the decoding management unit 302 in addition to the information related to the slice decoded from the “slice_header” of the slice # A00 or # A01. Using the sequence information decoded from #A and the picture information decoded from PPS # A, “slice_data” included in “slice_layer_without_partitioning_rbsp” is decoded to obtain a base-view decoded image signal.
  • the decoded image signal of the base viewpoint is stored in the decoded image buffer 310.
  • inter prediction such as motion compensation prediction may be used.
  • the base viewpoint decoded image signal that has already been decoded and stored in the decoded image buffer 310 is used. Is used as a reference image.
  • the viewpoint information is not included in the NAL unit header of the base viewpoint slice NAL unit, the viewpoint information of the NAL unit header of the prefix NAL unit encoded before the base viewpoint slice NAL unit is changed to the base viewpoint slice information.
  • the viewpoint information of the slice NAL unit is used.
  • the image signal decoding unit 307 encodes the slice header, the slice encoding mode, the motion vector or the disparity vector, the encoded residual signal, and the like of the image signal of the non-basis viewpoint supplied from the decomposition unit 301.
  • the encoded bit string is decoded.
  • the supplied encoded bit sequence corresponds to the RBSP portion of slices # B20, # B10, # B40, # B30, # B21, # B11, # B41, and # B31 of the encoded bit sequence shown in FIG.
  • the encoded bit string of the supplied RBSP part is “slice_layer_in_scalable_extension_rbsp” shown in FIG.
  • the image signal decoding unit 307 decodes the encoded bit string according to the syntax structure of “slice_layer_in_scalable_extension_rbsp” illustrated in FIG. First, the image signal decoding unit 307 decodes “slice_header” included in “slice_layer_in_scalable_extension_rbsp” to obtain information related to the slice.
  • the image signal decoding unit 307 supplies information related to the decoded slice to the decoding management unit 302.
  • “slice_header” included in “slice_layer_in_scalable_extension_rbsp” includes a number “pic_parameter_set_id” that identifies the PPS to be referred to, and includes slices # B20, # B10, # B40, In “pic_parameter_set_id” of # B30, # B21, # B11, # B41, and # B31, the PPS that the slices # B20, # B10, # B40, # B30, # B21, # B11, # B41, and # B31 should refer to A value of “pic_parameter_set_id” of #B is set.
  • the image signal decoding unit 307 (A) In addition to information related to slices decoded from “slice_header” of slices # B20, # B10, # B40, # B30, # B21, # B11, # B41, and # B31, (B) Decoded from “nal_unit_header_svc_mvc_extension” included in the NAL unit header of slices # B20, # B10, # B40, # B30, # B21, # B11, # B41, and # B31 supplied from the decoding management unit 302 Perspective information, (C) Sequence information decoded from SPS # B to be referenced by slices # B20, # B10, # B40, # B30, # B21, # B11, # B41, # B31, and (d) slices # B20, # B10, # B40, # B30, # B21, # B11, # B41, # B31, picture information decoded from PPS # B to be referred to, Is used to
  • the decoded image signal of the non-basis viewpoint is stored in the decoded image buffer 310.
  • Inter-prediction such as inter-view prediction and motion compensation prediction may be used when decoding the encoded bit string of the image signal of the non-basis viewpoint, but in this case, the base already decoded and stored in the decoded image buffer 310 is used.
  • An image signal of a viewpoint or a non-basis viewpoint is used as a reference image.
  • the depth signal decoding unit 309 decodes a coded bit sequence in which the slice head of the depth signal supplied from the decomposition unit 301 and the coding mode, motion vector or disparity vector of the slice, the coded residual signal, and the like are coded. .
  • This supplied encoded bit string corresponds to the RBSP section of slices # C00, # C20, # C40, # C01, # C21, and # C41 of the encoded bit string shown in FIG.
  • the encoded bit string of the supplied RBSP part is “slice_layer_in_scalable_extension_rbsp” shown in FIG.
  • the depth signal decoding unit 309 decodes the encoded bit string according to the syntax structure of “slice_layer_in_scalable_extension_rbsp” illustrated in FIG. First, the depth signal decoding unit 309 decodes “slice_header” included in “slice_layer_in_scalable_extension_rbsp”, and obtains information related to the slice.
  • the depth signal decoding unit 309 supplies information related to the decoded slice to the decoding management unit 302.
  • the “slice_header” included in “slice_layer_in_scalable_extension_rbsp” includes the number “pic_parameter_set_id” that identifies the PPS to be referred to, and includes slices # C00, # C20, # C40 illustrated in FIG. In “pic_parameter_set_id” of # C01, # C21, and # C41, the value of “pic_parameter_set_id” of PPS # C that the slices # C00, # C20, # C40, # C01, # C21, and # C41 should refer to is set. Yes.
  • the depth signal decoding unit 309 (A) In addition to information related to slices decoded from “slice_header” of slice slices # C00, # C20, # C40, # C01, # C21, and # C41, (B) View point information decoded from “nal_unit_header_svc_mvc_extension” included in the NAL unit header of slices # C00, # C20, # C40, # C01, # C21, and # C41 supplied from the decoding management unit 302; (C) Sequence information decoded from SPS # C to be referenced by slices # C00, # C20, # C40, # C01, # C21, # C41, and (d) Slices # C00, # C20, # C40, # Picture information decoded from PPS # C to which C01, # C21, # C41 should refer; Is used to decode “slice_data” included in “slice_layer_in_scalable_extension_rbsp” to
  • the decoded depth signal is stored in the decoded image buffer 310.
  • Inter-prediction such as inter-view prediction and motion compensation prediction may be used when decoding the encoded bit string of the depth signal.
  • the decoded depth signal already decoded and stored in the decoded image buffer 310 is used. Use as a reference image.
  • the decoding method of the depth signal can use the same method as the case of the image signal in the monochrome format.
  • the decoding management unit 302 manages the output timing of the decoded image signal and the decoded depth signal stored in the decoded image buffer 310, and synchronizes the decoded image signal and the decoded depth signal of each viewpoint at the same time from the decoded image buffer 310. And output. At this time, the viewpoint ID, which is information for identifying the viewpoint, is output in association with the decoded image signal and the decoded depth signal of each viewpoint.
  • the decoded image signal of each viewpoint output from the image decoding devices 300 and 300a may be displayed on a display device or the like.
  • a virtual viewpoint image signal is generated from supplementary additional information such as a decoded image signal, a decoded depth signal, and a camera parameter output from the image decoding devices 300 and 300a, and the obtained virtual viewpoint
  • the image signal is displayed on a display device or the like.
  • the virtual viewpoint image generation unit 330 may generate an image signal of the virtual viewpoint.
  • FIG. 23 is a flowchart illustrating a multi-viewpoint image decoding process procedure performed by the image decoding apparatuses 300 and 300a according to the second embodiment.
  • the decomposition unit 301 separates the acquired encoded bit string into NAL unit units, and decodes the NAL unit header (S301).
  • the processing procedure for receiving the encoded bit string via the network and separating it in units of NAL units in step S301 will be described more specifically.
  • FIG. 24 is a flowchart showing a processing procedure for receiving an encoded bit string via a network and separating it into NAL unit units.
  • a receiving unit receives an encoded bit string via the network (S401).
  • a packet decomposing unit removes the packet header added to the received encoded bit string based on the MPEG-2 system method, MP4 file format, RTP, etc. standard, and the above code A digitized bit string is obtained (S402).
  • the decomposition unit 301 separates the encoded bit string in units of NAL units (S402).
  • the disassembling unit 301 decodes the NAL unit header (S403).
  • the decomposing unit 301 also decodes “nal_unit_header_svc_mvc_extension” that is the viewpoint information included in the NAL unit header.
  • the viewpoint information decoded here includes a viewpoint ID and the like. Note that the viewpoint information included in the NAL unit header whose “nal_unit_type” value is “14” is the viewpoint information of the subsequent NAL unit, and the “nal_unit_type” value is included in the NAL unit header whose value is “20” or “21”.
  • the viewpoint information to be displayed is the viewpoint information of the NAL unit.
  • the disassembling unit 301 evaluates “nal_unit_type” which is an identifier for identifying the type of the NAL unit included in the NAL unit header which is the header part of the NAL unit separated by the process of step S301 (S302).
  • step S303 Proceed to (B) “nal_unit_type” is “15”, that is, parameter information relating to encoding of the entire sequence including MVC extension information, that is, encoding of non-basis viewpoint image signal sequence information or depth signal sequence information
  • step S304 proceeds to step S304.
  • step S302-8 “nal_unit_type” is “8”, that is, the NAL unit is a base viewpoint image signal, a non-base viewpoint image signal, or a depth signal, which is encoded with parameter information related to the encoding of the entire picture.
  • bit string S302-8
  • the process proceeds to step S305.
  • D When “nal_unit_type” is “6”, that is, the NAL unit is an encoded bit string in which supplementary additional information is encoded (S302-6), the process proceeds to step S306.
  • E If “nal_unit_type” is “14”, that is, if the NAL unit is a prefix NAL unit (14 in S302), the process proceeds to step S307.
  • step S308 If “nal_unit_type” is “1” or “5”, that is, if the NAL unit is an encoded bit string obtained by encoding an image signal in the slice unit of the base viewpoint (1 or 5 in S302), the process proceeds to step S308. .
  • step S302-20 If “nal_unit_type” is “20”, that is, if the NAL unit is a coded bit string obtained by coding an image signal in a slice unit of a non-basis viewpoint (step S302-20), the process proceeds to step S309.
  • nal_unit_type is “21”, that is, if the NAL unit is a coded bit string obtained by coding a depth signal in units of slices (21 in S302), the process proceeds to step S310.
  • “nal_unit_type” may take other values (others in S302), but the description is omitted in this specification.
  • the base viewpoint image signal sequence information decoding unit 303 decodes an encoded bit string in which parameter information related to encoding of the entire sequence of the base viewpoint image signal is encoded, and the base viewpoint image signal of the entire sequence.
  • the parameter information related to the encoding of is obtained (S303).
  • the sequence information decoding unit 304 including the MVC extension information is encoded by encoding the parameter information related to the encoding of the entire sequence including the MVC extension information, that is, the sequence information of the non-base viewpoint image signal or the depth signal.
  • the bit string is decoded, and parameter information relating to the coding of the entire sequence of the image signal or depth signal of the non-basis viewpoint is obtained (S304).
  • the picture information decoding unit 305 decodes an encoded bit string in which parameter information relating to encoding of the entire picture is encoded, and encodes the entire picture of a base viewpoint image signal, a non-base viewpoint image signal, or a depth signal.
  • the parameter information concerning is obtained (S305).
  • the supplementary additional information decoding unit 306 decodes the encoded bit string in which the supplementary additional information is encoded, and obtains supplementary additional information (S306).
  • the decomposition unit 301 decodes the RBSP of the prefix NAL unit (S307). However, in the MVC method, since the RBSP of the prefix NAL unit is empty, the decoding process is practically not performed.
  • the image signal decoding unit 307 decodes the encoded bit string in which the slice header of the base viewpoint image signal, the encoding mode of the slice of the base viewpoint image signal, the motion vector, the encoded residual signal, and the like are encoded, An image signal for each slice of the base viewpoint is obtained (S308).
  • the image signal decoding unit 307 decodes a coded bit string obtained by coding a slice header of a non-basis viewpoint image signal, a coding mode of a slice of the non-basis viewpoint image signal, a motion vector, a coded residual signal, and the like. Then, an image signal for each slice of the non-base viewpoint is obtained (S309).
  • the depth signal decoding unit 309 decodes the coded bit string in which the slice header of the depth signal, the coding mode of the slice of the depth signal, the motion vector, the coded residual signal, and the like are coded, and the depth signal in units of slices is decoded. Obtain (S310).
  • the decoding management unit 302 determines whether or not it is the timing to output the decoded image signal and depth signal (S311). If it is not the timing to output (N in S311), the process proceeds to step S313, and if it is the timing to output (Y in S311), the decoded image signal and depth signal are output (S312), and the process proceeds to step S313. At this time, the decoded image signal and the decoded depth signal of each viewpoint and the viewpoint ID which is information for specifying the viewpoint are output in association with each other.
  • step S313 It is determined whether or not the decoding process for all NAL units has been completed (S313). If the encoding process for all NAL units is completed (Y in S313), the decoding process is terminated. If the encoding process is not completed (N in S313), the processes from step S301 to step S313 are repeated.
  • the image decoding apparatuses 300 and 300a according to Embodiment 2 have a single-viewpoint image signal existing in an existing AVC / H. It is also possible to obtain a single-view image signal by decoding an encoded bit string encoded by the H.264 method. Furthermore, the image decoding apparatuses 300 and 300a according to Embodiment 2 decode a coded bit string in which a multi-view image signal that does not include a depth signal is encoded by an existing MVC method, and obtain a multi-view image signal. You can also.
  • multi-view depth including multi-view image signals including image signals from a plurality of viewpoints and depth signals from a plurality of viewpoints as auxiliary information.
  • a multi-view image signal and a multi-view depth signal can be obtained by decoding an encoded bit string in which the signal is encoded. At that time, the encoded bit string can be efficiently received or read out.
  • the image decoding apparatuses 300 and 300a according to Embodiment 2 can decode a coded bit string in which only a conventional single-view image signal is encoded, and obtain a single-view image signal. Furthermore, the image decoding apparatuses 300 and 300a according to Embodiment 2 include an encoded bit string obtained by encoding only a multi-view image signal including an image signal of a plurality of viewpoints and not including a multi-view depth signal as auxiliary information. Multi-viewpoint image signals can also be obtained by decoding, and upward compatibility is maintained.
  • the number of viewpoints of the multi-view image signal and the depth signal is different as well as the same number of multi-view image signals and multi-view depth signals can be decoded. It is also possible to decode encoded bit strings that do not correspond one-to-one.
  • the image encoding device determines the viewpoint of an image signal and a depth signal that need to be encoded according to the content and the contents of the scene, and the image signal and the viewpoint of the required viewpoint according to the determination. It differs from the image coding apparatus according to Embodiment 1 in that only the depth signal is coded. Since the rest is the same as that of the image coding apparatus according to Embodiment 1, the description thereof is omitted.
  • FIG. 25 is a block diagram illustrating a configuration of the image encoding device 400 according to the third embodiment.
  • the image coding apparatus 400 according to Embodiment 3 has a configuration in which a determination unit 120 and switching units 121 and 122 are added to the configuration of the image coding apparatus 100 according to Embodiment 1.
  • the determination unit 120 determines whether or not depth information from a certain viewpoint is to be encoded.
  • the unitization unit 109 uses the depth signal encoding unit 108 to encode the image encoded data generated by the image signal encoding unit 107 and the depth information determined to be encoded by the determination unit 120. An encoded stream including depth information encoded data is generated.
  • the determination unit 120 determines whether or not an image from a certain viewpoint is to be encoded.
  • the unitization unit 109 encodes the image determined by the determination unit 120 to be encoded by the image signal encoding unit 107 and the depth generated by the depth signal encoding unit 108.
  • An encoded stream including information encoded data is generated.
  • the determination unit 120 can also perform both determinations.
  • the unitization unit 109 determines that the image determined to be the encoding target by the determination unit 120 is the encoded image data encoded by the image signal encoding unit 107 and the determination unit 120 determines the encoding target.
  • An encoded stream including depth information encoded data obtained by encoding the depth information by the depth signal encoding unit 108 is generated.
  • the determination unit 120 is supplied with encoding management information, camera parameter information, an image signal for each viewpoint, and a depth signal for each viewpoint. Based on these, the determination unit 120 determines the viewpoint of the image signal to be encoded and the viewpoint of the depth signal. The determination unit 120 creates new encoding management information in which the information about the viewpoint of the image signal and the viewpoint of the depth signal that are determined not to be encoded is omitted, and supplies the encoded management information to the encoding management unit 101. Note that the encoding management information supplied to the encoding management unit 101 in FIG. 25 is the same information as the encoding management information supplied to the encoding management unit 101 in FIG.
  • the determination unit 120 has a predetermined first distance between the viewpoint that is the basis of the depth information to be determined and the viewpoint that is the source of another depth information that has already been determined as the encoding target.
  • the first reference distance can be arbitrarily set by the designer based on knowledge obtained through experiments and simulations.
  • the determination unit 120 can specify the viewpoint of each image signal and the position of the viewpoint of each depth signal from the external parameter information of the camera included in the supplied camera parameter information.
  • the external parameter includes the arrangement information of the camera of each viewpoint, and this arrangement information includes the rotation angle on the position (x, y, z coordinate) or the three axes (x, y, z axis) in the three-dimensional space. (Roll, pitch, yaw) are included. When the interval between the viewpoints of the plurality of depth signals supplied at the same time is sufficiently close, the determination unit 120 excludes any depth signal from the encoding target.
  • the determination unit 120 determines that the decoding side can easily generate the image signal of the desired viewpoint even if the coding of the depth signals from some viewpoints is omitted, the image signal of the desired viewpoint is determined.
  • the depth signal of the viewpoint that is not necessary for the generation is omitted, and the depth signal of the viewpoint that is necessary for the generation is adopted as the encoding target.
  • This determination example 1 is based on the knowledge described with reference to FIGS.
  • the determination unit 120 when the distance between the first subject and the second subject in the same image is shorter than a predetermined second reference distance, the determination unit 120 omits some of the depth signals.
  • the second reference distance can also be arbitrarily set by the designer based on knowledge obtained through experiments and simulations.
  • the determination unit 120 may reduce the number of depth information to be determined as an encoding target as the distance between the first subject and the second subject is shorter.
  • the determination unit 120 can calculate the difference in depth between overlapping subjects from the supplied depth signal.
  • an edge of the depth signal for example, a point where the density changes sharply
  • a difference in pixel values sandwiching the boundary of the edge portion can be used.
  • the determination unit 120 determines that the difference in depth between the overlapping subjects is sufficiently small and the decoding side can easily generate an image signal of a desired viewpoint even if coding of some viewpoints is omitted, A viewpoint depth signal that is not necessary for generating a viewpoint image signal is omitted, and a viewpoint depth signal necessary for the generation is adopted as an encoding target.
  • This determination example 2 is based on the knowledge described with reference to FIGS.
  • the viewpoint of the image signal can be omitted as well as the viewpoint of the depth signal.
  • the determination unit 120 predicts and generates a determination target image from another image and depth information without using the determination target image, the quality of the generated image is higher than a predetermined reference value. If it is high, it is determined that the image to be determined is not to be encoded.
  • the reference value can also be arbitrarily set by the designer based on knowledge obtained through experiments and simulations.
  • the determination unit 120 omits some of the viewpoint image signals from the supplied image signal, and predicts and generates an omitted viewpoint image signal from the remaining viewpoint image signals and depth signals.
  • the determination unit 120 evaluates the amount of distortion between the original image signal of the omitted viewpoint and the predicted and generated image signal of the viewpoint using an index such as a square error for each pixel.
  • the determination unit 120 determines that an image signal of a viewpoint having a distortion amount less than a predetermined reference value is a signal having a small contribution to the generation of the virtual viewpoint, and omits the image signal of the viewpoint.
  • the depth signal can be omitted by the same process.
  • the switching unit 121 supplies only the image signal of the viewpoint to be encoded to the image signal encoding unit 107 according to the determination result of the determination unit 120.
  • the image signal supplied to the image signal encoding unit 107 is the same signal as the image signal supplied to the image signal encoding unit 107 in FIG.
  • the switching unit 122 supplies only the depth signal of the viewpoint to be encoded to the depth signal encoding unit 108 according to the determination result of the determination unit 120.
  • the image signal supplied to the depth signal encoding unit 108 is the same signal as the depth signal supplied to the depth signal encoding unit 108 of FIG.
  • FIG. 26 is a flowchart illustrating a multi-viewpoint image encoding processing procedure performed by the image encoding device 400 according to Embodiment 3.
  • the image coding apparatus 400 according to Embodiment 3 determines the viewpoints of the image signal and the depth signal that need to be coded according to the content and the content of the scene.
  • the image encoding processing procedure according to the third embodiment shown in FIG. 26 is that the sequence is started again when the viewpoints of the image signal and the depth signal that need to be encoded change. This is different from the image encoding processing procedure according to the first embodiment.
  • FIG. 26 the same steps as those in FIG.
  • the determination unit 120 evaluates the viewpoint of the image signal to be encoded and the viewpoint of the depth signal, and determines whether or not to adopt the signal of the viewpoint (S501). Only the adopted signal proceeds to the processing after step S502.
  • the encoding management unit 101 determines whether the viewpoints of the image signal and the depth signal adopted by the process of step S501 have changed (S502). If changed (Y in S502) and the first case, the process proceeds to step S501. If not changed (N in S502), the process proceeds to step S113.
  • step S101 the image signal and the depth signal are encoded in the same manner as the image encoding processing procedure according to the first embodiment of FIG.
  • step S124 when it is determined that the encoding process for all image signals and depth signals is not completed (N of S124), the encoding process of steps S501 to S124 is repeated.
  • the image encoding process and the image decoding process according to the first to third embodiments can be realized by a transmission device, a storage device, and a reception device that are equipped with hardware capable of executing the processing. It can also be realized by firmware stored in a flash memory or the like, or software such as a computer.
  • the firmware program and software program can be provided by being recorded on a computer-readable recording medium, provided from a server through a wired or wireless network, or provided as a data broadcast of terrestrial or satellite digital broadcasting. It is also possible.
  • 100 image encoding device 101 encoding management unit, 102 image signal sequence information encoding unit, 103 depth signal sequence information encoding unit, 104 image signal picture information encoding unit, 105 depth signal picture information encoding Unit, 106 camera parameter information encoding unit, 107 image signal encoding unit, 108 depth signal encoding unit, 109 unitization unit, 110 parameter information encoding unit, 111 depth signal generation unit, 120 determination unit, 121, 122 switching , 300, 301 decomposition unit, 302 decoding management unit, 303 base sequence image signal sequence information decoding unit, 304 sequence information decoding unit including MVC extension information, 305 picture information decoding unit, 306 supplementary additional information decoding unit, 307 the image signal decoding section, 309 depth signal decoding unit 310 decoded picture buffer, 320 parameter information decoding unit, 330 a virtual viewpoint image generator.
  • the present invention can be used in the field of encoding and decoding images taken from a plurality of different viewpoints.

Abstract

 画像信号符号化部107は、それぞれ異なる複数の視点からの複数の画像を符号化して、画像符号化データを生成する。奥行き情報符号化部(例えば、デプス信号符号化部108)は、少なくとも一つ以上の視点からの特定空間の奥行きを示す奥行き情報を符号化して、奥行き情報符号化データを生成する。ユニット化部109は、画像信号符号化部107および奥行き情報符号化部によりそれぞれ生成された、画像符号化データおよび奥行き情報符号化データを含む符号化ストリームを生成する。

Description

画像符号化装置、画像符号化方法およびそのプログラム、ならびに画像復号装置、画像復号方法およびそのプログラム
 本発明は、異なる複数の視点から撮影された画像を符号化する画像符号化装置、画像符号化方法およびそのプログラム、ならびに異なる複数の視点から撮影された画像が符号化された符号化画像データを復号する画像復号装置、画像復号方法およびそのプログラムに関する。
 近年、多視点からの画像を使用したアプリケーションが普及してきている。そのアプリケーションの一つに、2眼式立体テレビジョンがある。2眼式立体テレビジョンにおいては、2台のカメラにより異なる2方向から撮影された、左眼用画像および右眼用画像を生成し、これを同一画面上に表示して立体画像を見せるようにしている。この場合、左眼用画像および右眼用画像は、それぞれ独立した画像として別個に伝送、または記録される。この場合、単一の2次元画像の約2倍の情報量が必要となってしまう。
 そこで、左右いずれか一方の画像を主画像とし、他方の画像を副画像とし、その副画像の情報を一般的な圧縮符号化方法によって情報圧縮し、情報量を抑える手法が提案されている(例えば、特許文献1参照)。この提案されている立体テレビジョン画像伝送方式では、副画像の小領域毎に主画像との相関の高い相対位置を求め、その位置偏移量(以下、視差ベクトルという)と差信号(以下、予測残差信号という)とを伝送または記録するようにしている。主画像と視差ベクトルを用いれば副画像に近い画像が復元できるが、予測残差信号も伝送または記録するのは、物体の影になる部分など主画像がもたない副画像の情報は復元できないためである。
 また、1996年に単視点画像の符号化国際標準であるMPEG-2ビデオ(ISO/IEC 13818-2)符号化方式に、マルチビュー・プロファイルと呼ばれるステレオ画像の符号化方式が追加された(ISO/IEC 13818-2/AMD3)。MPEG-2ビデオ・マルチビュー・プロファイルは左眼用画像を基本レイヤーで、右眼用画像を拡張レイヤーで符号化する2レイヤーの符号化方式となっており、時間方向の冗長性を利用した動き補償予測や、空間方向の冗長性を利用した離散コサイン変換に加えて、視点間の冗長性を利用した視差補償予測を用いて圧縮符号化する。
 また、3台以上のカメラで撮影された多視点画像に対して、動き補償予測および視差補償予測を用いて情報量を抑える手法が提案されている(例えば、特許文献2参照)。この提案されている画像高能率符号化方式は、複数の視点の参照ピクチャとのパターンマッチングを行い、誤差が最小となる、動き補償予測画像または視差補償予測画像を選択することにより、符号化効率を向上させている。
 また、JVT(Joint Video Team)ではAVC/H.264符号化方式(非特許文献1参照)を多視点画像に拡張した多視点画像符号化方式(MVC:Multiview Video Coding(以下、MVC方式と呼ぶ))の標準化作業が進んでいる(非特許文献2参照)。上記のMPEG-2ビデオ・マルチビュー・プロファイルと同様に、このMVC方式でも視点間の予測を取り入れることで、符号化効率を向上させている。
特開昭61-144191号公報 特開平6-98312号公報
ITU-T Recommendation H.264 (11/2007) Joint Draft 6.0 on Multiview Video Coding, Joint Video Team of ISO/IEC MPEG & ITU-T VCEG,JVT-Z209, January 2008
 上述した様々な方式を用いて、複数の視点からの多視点画像を符号化することができる。しかしながら、これらの方式は必要な視点の画像をすべて符号化することになっており、限られた伝送速度、蓄積容量を考慮すれば、多視点画像を効率よく伝送または蓄積することは難しい面が多い。例えば、必要とされる視点の数が多い場合、それらの視点の画像をすべて伝送または蓄積するとデータ量が非常に大きくなってしまう。すなわち、復号側で非常に大きなデータ量を受信または読み込まなければならなくなってしまう。また、復号側でユーザの指示に応じた自由視点の画像を高精度に生成することは難しい面が多い。
 本発明はこうした状況に鑑みなされたものであり、その目的は、多視点画像を効率よく伝送または蓄積することができる画像符号化装置、画像符号化方法およびそのプログラムを提供することにある。また、別の目的は、多視点画像を効率よく受信または読み込むことができる画像復号装置、画像復号方法およびそのプログラムを提供することにある。
 本発明のある態様の画像符号化装置は、それぞれ異なる複数の視点からの複数の画像を符号化して、画像符号化データを生成する第1符号化部と、少なくとも一つ以上の視点からの特定空間の奥行きを示す奥行き情報を符号化して、奥行き情報符号化データを生成する第2符号化部と、第1符号化部および第2符号化部によりそれぞれ生成された、画像符号化データおよび奥行き情報符号化データを含む符号化ストリームを生成するストリーム生成部と、を備える。
 本発明の別の態様の画像符号化装置は、それぞれ異なる複数の視点からの複数の画像を符号化して、画像符号化データを生成する第1符号化部と、少なくとも一つ以上の視点からの特定空間の奥行きを示す奥行き情報を符号化して、奥行き情報符号化データを生成する第2符号化部と、ある視点からの奥行き情報を符号化対象とするか否かを判定する判定部と、第1符号化部により生成された画像符号化データ、および判定部により符号化対象とすると判定された奥行き情報を第2符号化部により符号化した奥行き情報符号化データを含む符号化ストリームを生成するストリーム生成部と、を備える。
 本発明のある態様の画像復号装置は、それぞれ異なる複数の視点からの複数の画像が符号化された画像符号化データと、少なくとも一つ以上の視点からの特定空間の奥行きを示す奥行き情報が符号化された奥行き情報符号化データを含む符号化ストリームを分解する分解部と、分解部により分解された画像符号化データを復号して、複数の画像を復元する第1復号部と、分解部により分解された奥行き情報符号化データを復号して、奥行き情報を復元する第2復号部と、を備える。
 本発明のさらに別の態様の画像符号化装置は、それぞれ異なる複数の視点からの複数の画像を符号化して、画像符号化データを生成する第1符号化部と、少なくとも一つ以上の視点からの特定空間の奥行きを示す奥行き情報を符号化して、奥行き情報符号化データを生成する第2符号化部と、複数の画像および奥行き情報のもとになる複数の視点を特定するための視点情報を含むパラメータ情報を符号化して、パラメータ情報符号化データを生成する第3符号化部と、第1符号化部、第2符号化部および第3符号化部によりそれぞれ生成された、画像符号化データ、奥行き情報符号化データおよびパラメータ情報符号化データを含む符号化ストリームを生成するストリーム生成部と、を備える。
 本発明の別の態様の画像復号装置は、それぞれ異なる複数の視点からの複数の画像が符号化された画像符号化データと、少なくとも一つ以上の視点からの特定空間の奥行きを示す奥行き情報が符号化された奥行き情報符号化データと、複数の画像および奥行き情報のもとになる複数の視点を特定するための視点情報を含むパラメータ情報が符号化されたパラメータ情報符号化データとを含む符号化ストリームを分解する分解部と、分解部により分解された画像符号化データを復号して、複数の画像を復元する第1復号部と、分解部により分解された奥行き情報符号化データを復号して、奥行き情報を復元する第2復号部と、分解部により分解されたパラメータ情報符号化データを復号して、パラメータ情報を復元する第3復号部と、を備える。
 本発明のさらに別の態様の画像符号化装置は、それぞれ異なる複数の視点からの複数の画像を符号化して、画像符号化データを生成する第1符号化部と、複数の画像から、少なくとも一つの仮想視点からの特定空間の奥行きを示す奥行き情報を生成する奥行き情報生成部と、奥行き情報生成部により生成された奥行き情報を符号化して、奥行き情報符号化データを生成する第2符号化部と、第1符号化部および第2符号化部によりそれぞれ生成された、画像符号化データおよび奥行き情報符号化データを含む符号化ストリームを生成するストリーム生成部と、を備える。
 なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
 本発明によれば、多視点画像を効率よく伝送または蓄積することができる。また、多視点画像を効率よく受信または読み込むことができる。
実施の形態1に係る画像符号化装置の構成を示すブロック図である。 MVC方式で5視点からなる多視点画像を符号化する際の、画像間の参照依存関係の一例を示す図である。 実施の形態1の変形例に係る画像符号化装置の構成を示すブロック図である。 第2視点および第3視点から第1対象物および第2対象物が存在するシーンを撮影し、仮想視点である第1視点の画像を生成する例を示す図である。 図4の例において、撮影される画像、それに対応するデプスマップ、および生成される画像を示す図である。 第5視点および第6視点から第3対象物および第4対象物が存在するシーンを撮影し、仮想視点である第4視点の画像を生成する例を示す図である。 図6の例において、撮影される画像、それに対応するデプスマップ、および生成される画像を示す図である。 第8視点から第5対象物または第6対象物のいずれか一方と、第7対象物が存在する2つのシーンを撮影し、仮想視点である第7視点の画像を生成する例を示す図である。 図9は、図8の例において、撮影された画像、それに対応するデプスマップ、および生成される画像を示す図である。 符号化すべき、5視点(視点0、視点1、視点2、視点3および視点4)からの画像を含む多視点画像、および3視点(視点0、視点2および視点4)からのデプスDSを含む多視点デプスマップを示す図である。 実施の形態1に係る画像符号化装置で生成される符号化ストリームをNALユニット単位で表現した例を示す図である。 AVC/H.264符号化方式で規定されているNALユニットの種類を示す図である。 SPSのNALユニットの構成を示す図である。 サブセットSPSのNALユニットの構成を示す図である。 PPSのNALユニットの構成を示す図である。 プリフィックスNALユニットの構成を示す図である。 "nal_unit_type"の値が“1”または“5”のスライスNALユニットの構成を示す図である。 "nal_unit_type"の値が“20”のスライスNALユニットの構成を示す図である。 実施の形態1に係る画像符号化装置による多視点画像の符号化処理手順を示すフローチャートである。 実施の形態1に係る画像符号化装置により生成された多視点画像の符号化ビット列をネットワークを介して伝送する場合の送信処理手順を示すフローチャートである。 本発明の実施の形態2に係る画像復号装置の構成を示すブロック図である。 実施の形態2の変形例に係る画像復号装置の構成を示すブロック図である。 実施の形態2に係る画像復号装置による多視点画像の復号処理手順を示すフローチャートである。 ネットワークを介して符号化ビット列を受信し、NALユニット単位に分離する処理手順について示すフローチャートである。 実施の形態3に係る画像符号化装置の構成を示すブロック図である。 実施の形態3に係る画像符号化装置による多視点画像の符号化処理手順を示すフローチャートである。
 以下、図面と共に本発明の実施の形態を説明する。以下の実施の形態では、AVC/H.264符号化方式を多視点画像に拡張したMVC方式をさらに拡張した方式で、多視点画像を符号化する例を説明する。
 まず、AVC/H.264符号化方式について簡単に説明する。AVC/H.264符号化方式は、従来のMPEG-2ビデオ(ISO/IEC 13818-2)やMPEG-4ビジュアル(ISO/IEC 14496-2)等の符号化方式に比べ、より高い符号化効率を実現している。
 MPEG-2ビデオやMPEG-4ビジュアル等の符号化方式におけるPピクチャ(すなわち、順方向予測符号化画像)では、表示順で直前のIピクチャまたはPピクチャのみから動き補償予測を行っていた。これに対して、AVC/H.264符号化方式では、PピクチャおよびBピクチャは複数のピクチャを参照ピクチャとして用いることができ、この中からブロック毎に最適なものを選択して動き補償を行うことができる。また、表示順で先行するピクチャに加えて、既に符号化済みの表示順で後続のピクチャも参照することができる。
 また、MPEG-2ビデオやMPEG-4ビジュアル等の符号化方式におけるBピクチャは、表示順で前方1枚の参照ピクチャ、後方1枚の参照ピクチャ、またはその2枚の参照ピクチャを同時に参照して2つのピクチャの平均値を、予測のための参照ピクチャとし、対象ピクチャと参照ピクチャとの差分データを符号化していた。これに対して、AVC/H.264符号化方式では、Bピクチャは表示順で前方1枚、後方1枚という制約にとらわれず、かつ前方や後方に関係なく任意の参照ピクチャを予測のために参照可能である。さらに、Bピクチャは自己以外のBピクチャを参照ピクチャとして参照することも可能である。
 さらに、MPEG-2ビデオではピクチャ、MPEG-4ではビデオ・オブジェクト・プレーン(VOP)を1つの単位として、ピクチャまたはVOP毎の符号化モードが決められていたが、AVC/H.264符号化方式では、スライスを符号化の単位としており、1つのピクチャ内にIスライス、Pスライス、Bスライス等、異なるスライスを混在させることも可能である。
 さらに、AVC/H.264符号化方式ではビデオの画素信号(すなわち、符号化モード、動きベクトル、DCT係数等)の符号化処理または復号処理を行うVCL(Video Coding Layer;ビデオ符号化層)と、NAL(Network Abstraction Layer;ネットワーク抽象層)が定義されている。
 AVC/H.264符号化方式で符号化された符号化ストリームは、NALの一区切りであるNALユニットを単位として構成される。NALユニットには、VCLで符号化されたデータ(すなわち、符号化モード、動きベクトル、DCT係数等)を含むVCLのNALユニットと、VCLで生成されたデータを含まないnon-VCLのNALユニットがある。non-VCLのNALユニットには、シーケンス全体の符号化に係るパラメータ情報が含まれているSPS(Sequence Parameter Set)、ピクチャの符号化に係るパラメータ情報が含まれているPPS(Picture Parameter Set)、VCLで符号化されたデータの復号に必要ではないSEI(Supplemental Enhancement Information:補足付加情報)等がある。
 また、AVC/H.264符号化方式における符号化の基本単位は、ピクチャが分割されたスライスであり、VCLのNALユニットはスライス単位となっている。そこで、いくつかのNALユニットをまとめたアクセス・ユニットと呼ばれる単位が定義されており、1アクセス・ユニットに1つの符号化されたピクチャが含まれる。
 次に、MVC方式について簡単に説明する。ここでは、多視点画像の各画像を符号化、および符号化された符号化ストリームを復号する際の視点間の関係、並びにその多視点画像を構成する符号化対象画像間の参照依存関係について、5視点の例を用いて説明する。
 図2は、MVC方式で5視点からなる多視点画像を符号化する際の、画像間の参照依存関係の一例を示す図である。縦軸は複数の視点の空間方向(本明細書では複数の視点の空間方向を視点方向とする)を示しており、横軸は撮影または表示順の時間方向を示している。P(v,t)(視点v=0,1,2,・・・;時間t=0,1,2,・・・)は、時間tにおける視点vの画像である。
 また、矢印の終点側で指し示される画像は、符号化または復号される対象ピクチャである。矢印の始点側で指し示される画像は、その対象ピクチャが符号化または復号される際に参照される参照ピクチャである。すなわち、時間方向のインター予測(例えば、動き補償予測)や視点間予測(例えば、視差補償予測)で参照される参照ピクチャである。より具体的には、横方向の矢印の始点側で指し示される画像は、対象ピクチャが符号化または復号される際に時間方向のインター予測で参照される参照ピクチャであり、縦方向の矢印の始点側で指し示される画像は、視点間予測で参照される参照ピクチャである。
 ここで、時間方向のインター予測は他の時間の画像を参照する予測方法であり、視点間予測は他の視点の画像を参照する予測方法である。また、時間方向のインター予測の参照ピクチャとして用いられる画像は、時間方向の符号化または復号順で先行する画像のみとし、視点間予測の参照ピクチャとして用いられる画像は、視点方向の符号化または復号順で先行する画像のみとする。例えば、図2に示す参照依存関係では、視点方向への視点の符号化または復号順を視点0、視点2、視点1、視点4、視点3とすればよい。また、時間方向への視点の符号化または復号順は、t=0、4、2、1、3、8、6、5、7、…とすればよい。まず、同じ時間である、tが0の各視点の画像を、上記視点方向への視点の符号化または復号順にしたがい、P(0,0),P(2,0),P(1,0),P(4,0),P(3,0)の順で符号化または復号する。その後、tが4の各視点の画像を同じく、上記視点方向への視点の符号化または復号順にしたがい、P(0,4),P(2,4),P(1,4),P(4,4),P(3,4)の順で符号化または復号する。以下、tが2の各視点の画像以降の画像についても同様に処理する。
 また、視点0を基底視点とする。MVC符号化方式では、基底視点とは他の視点に依存せずに符号化または復号することができる視点をいう。多視点画像のシーケンス全体で1つの視点だけが基底視点となる。すなわち、基底視点は他の視点の画像を視点間予測の参照画像として用いることなく、単独で符号化または復号することができる。また、非基底視点(すなわち、基底視点以外の視点)は、他の視点の画像を視点間予測の参照画像として用いることができる。
 さらに、MVC方式は、符号化される多視点画像の視点数、視点方向への符号化または復号順序、および視点間予測による各視点間の参照依存関係をシーケンス全体として符号化する仕組みを持っている。シーケンス情報のパラメータセットであるSPSを拡張することにより符号化を行う。
 符号化側でシーケンス全体として上記パラメータ、すなわち視点数および各視点の視点依存情報を符号化することにより、復号側ではシーケンス全体として、各視点の参照依存関係を判別することができる。各視点の参照依存情報は、視点間予測ピクチャのための参照ピクチャリストの初期化等の復号処理に用いられる。
(実施の形態1)
 図1は、実施の形態1に係る画像符号化装置100の構成を示すブロック図である。実施の形態1に係る画像符号化装置100は、符号化管理部101、パラメータ情報符号化部110、画像信号符号化部107および奥行き情報符号化部(より具体的には、デプス信号符号化部108)を備える。パラメータ情報符号化部110は、画像信号用シーケンス情報符号化部102、デプス信号用シーケンス情報符号化部103、画像信号用ピクチャ情報符号化部104、デプス信号用ピクチャ情報符号化部105およびカメラパラメータ情報符号化部106を含む。
 これらの構成は、ハードウェア的には、任意のコンピュータのCPU、メモリ、その他のLSIで実現でき、ソフトウェア的にはメモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組み合わせによっていろいろな形で実現できることは、当業者には理解されるところである。
 画像信号符号化部107は、それぞれ異なる複数の視点からの複数の画像を符号化して、画像符号化データを生成する。当該複数の画像はカメラにより実際に撮像された画像であってもよいし、コンピュータグラフィックにより生成された画像であってもよい。当該複数の視点のうち基準とすべき視点が一つ設定される場合、画像信号符号化部107は、当該複数の画像のうち基準とすべき視点からの画像を符号化して第1画像符号化データを生成し、それ以外の画像を符号化して第2画像符号化データを生成することができる。
 その際、画像信号符号化部107は、当該複数の画像のうち基準とすべき視点からの画像をフレーム内予測符号化し、それ以外の画像を複数の画像間でフレーム間予測符号化してもよい。MVC方式では、当該基準とすべき視点は上述した基底視点である。当該フレーム間予測符号化は上述した視点間予測符号化である。
 また、当該複数の画像が動画像の場合、画像信号符号化部107は各視点からの動画像を、それぞれ時間方向にフレーム間予測符号化することもできる。もちろん、視点方向へのフレーム間予測符号化と時間方向へのフレーム間予測符号化を併用することもできる。
 上記奥行き情報符号化部は、少なくとも一つ以上の視点からの特定空間の奥行きを示す奥行き情報を符号化して、奥行き情報符号化データを生成する。当該奥行き情報はある視点からのモノクローム・フォーマットの画像(以下適宜、モノクローム画像とする)で表されてもよい。この場合、奥行き情報符号化部は、当該モノクローム画像を符号化して、奥行き情報符号化データを生成する。
 上記奥行き情報符号化部は、それぞれ異なる複数の視点からの、複数のモノクローム画像のうち、基準とすべき視点からのモノクローム画像をフレーム内予測符号化し、それ以外のモノクローム画像を複数のモノクローム画像間でフレーム間予測符号化してもよい。ここで、モノクローム画像のもとになる基準とすべき視点は、画像信号符号化部107により符号化されるべき画像のもとになる基準とすべき視点と一致していてもよいし、別々であってもよい。
 また、当該複数のモノクローム画像が動画像の場合、上記奥行き情報符号化部は各視点からのモノクローム・フォーマットの動画像を、それぞれ時間方向にフレーム間予測符号化することもできる。もちろん、視点方向へのフレーム間予測符号化と時間方向へのフレーム間予測符号化を併用することもできる。
 ここで、上記奥行き情報のもとになる視点の数は、第1符号化部により符号化されるべき画像のもとになる視点の数より少なく設定されてもよいし、両者の視点の数が一致するように設定されてもよい。また、上記奥行き情報のもとになる各視点の位置は、画像信号符号化部107により符号化されるべき複数の画像のもとになる複数の視点の位置のいずれかに一致するように設定されてもよいし、いずれにも一致しないように設定されてもよい。
 パラメータ情報符号化部110は、上記複数の画像および上記奥行き情報のもとになる、複数の視点を特定するための視点情報を含むパラメータ情報を符号化して、パラメータ情報符号化データを生成する。上述したように基準とすべき視点が一つ設定される場合、パラメータ情報符号化部110は、上記複数の画像のうち、基準とすべき視点からの画像の第1パラメータ情報と、それ以外の画像の第2パラメータ情報と、奥行き情報の第3パラメータ情報をそれぞれ符号化して、第1パラメータ情報符号化データ、第2パラメータ情報符号化データおよび第3パラメータ情報符号化データを生成する。
 ここで、第3パラメータ情報は、第2パラメータ情報のシンタックス構造に対応するシンタックス構造で記述される。例えば、第2パラメータ情報および第3パラメータ情報をAVC/H.264符号化方式のマルチビュー・ハイ・プロファイルに準拠して記述することができる。第2パラメータ情報および第3パラメータ情報には、視点の識別情報が記述される。画像信号符号化部107により符号化されるべき画像のもとになる視点の位置と、上記奥行き情報のもとになる視点の位置が一致する場合、それらの視点に共通の識別情報が付与される。すなわち、視点の識別情報は当該画像と当該奥行き情報との間で統一的に管理される。
 ユニット化部109は、画像信号符号化部107および上記奥行き情報符号化部によりそれぞれ生成された、上記画像符号化データおよび上記奥行き情報符号化データを含む符号化ストリームを生成する。ユニット化部109は、パラメータ情報符号化部110により生成された上記パラメータ情報符号化データをさらに含む符号化ストリームを生成することもできる。
 画像信号符号化部107により符号化されるべき画像のもとになる複数の視点のうち、基準とすべき視点が一つ設定される場合、ユニット化部109は、画像信号符号化部107、上記奥行き情報符号化部およびパラメータ情報符号化部110によりそれぞれ生成された、上記第1画像符号化データ、上記第2画像符号化データ、上記奥行き情報符号化データ、上記第1パラメータ情報符号化データ、上記第2パラメータ情報符号化データおよび上記第3パラメータ情報符号化データを含む符号化ストリームを生成する。
 図3は、実施の形態1の変形例に係る画像符号化装置100aの構成を示すブロック図である。実施の形態1の変形例に係る画像符号化装置100aは、図1に示す画像符号化装置100に奥行き情報生成部(より具体的には、デプス信号生成部111)が追加された構成である。
 当該変形例において、上記奥行き情報生成部は、画像信号符号化部107により符号化されるべき複数の画像から、少なくとも一つの視点からの特定空間の奥行きを示す奥行き情報を生成する。上記奥行き情報生成部は、この奥行き情報の生成を既存のアルゴリズムを用いて実現することができる。上記奥行き情報符号化部は、当該奥行き情報生成部により生成された奥行き情報を符号化して、奥行き情報符号化データを生成する。その他の処理は、図1に示した実施の形態1の基本例に係る画像符号化装置100の説明と同様のため、その説明を省略する。
 ここで、実施の形態1に係る画像符号化装置100で符号化されるべき画像、および奥行き情報について説明する。当該画像は被写体が各視点に対応する2次元平面にカメラ等の撮像装置により投影されることによってできる絵である。また、画像信号は2次元情報である画像を1次元の信号の流れに変換したものである。なお、デジタルで表現される画像、及び画像信号の最小単位は画素である。当該画像符号化装置100に入力される多視点の画像信号は、設定された2以上の複数の視点でそれぞれ得られる画像信号を含む多視点画像信号である。ある視点の画像信号は、その視点から実際に撮影されて得られた画像信号であってもよいし、その視点から仮想的に撮影されたものとして、コンピュータグラフィックス等により生成された画像信号であってもよい。また、実際の撮影により得られた画像信号に対して、その撮影に用いられる各カメラのばらつきを補正するために、位置補正、輝度・色レベル補正を施す場合もある。
 上記デプス信号は、設定された2以上の複数の視点でそれぞれ得られるデプス信号を含む多視点のデプス信号であってもよい。ある視点のデプス信号は、赤外線カメラ等によりその視点から実際に撮影されて得られたデプス信号であってもよいし、その視点から仮想的に撮影されたものとして、上記多視点の画像信号をもとに演算により生成されたデプス信号であってもよい。
 当該奥行き情報は特定空間の奥行きを示す情報である。例えば、当該奥行き情報は画像内の被写体(すなわち、オブジェクト)の画像平面に対する、奥行き情報として表される。より具体的には、当該奥行き情報は2次元平面に投影された画像の奥行きを示す情報である。2次元平面に投影された画像の各画素に対応する奥行き情報が画素単位あるいは複数画素単位でマッピングされた画像をデプスマップと呼ぶ。デプス信号は2次元情報であるデプスマップが1次元の信号の流れに変換されたものである。なお、画像や画像信号と同様に、デジタルで表現されるデプスマップ、及びデプス信号の最小単位も画素である。上記デプス信号は、設定された2以上の複数の視点でそれぞれ得られるデプス信号を含む多視点のデプス信号であってもよい。ある視点のデプス信号は、赤外線カメラ等によりその視点から実際に撮影されて得られたデプス信号であってもよいし、その視点から仮想的に撮影されたものとして、上記多視点の画像信号をもとに演算により生成されたデプス信号であってもよい。
 デプス信号の画素値も画像信号と同様に8ビットで表現されることが多いが、奥行き方向の再現性を高めるために9~14ビット程度で表現されてもよい。デプスマップはモノクローム・フォーマットの画像として表される。なお、上記画像の各画素との対応が取れる限りにおいては当該デプスマップの解像度は上記画像の解像度より低く設定されてもよい。
 当該デプス信号は、主に、実在する視点の画像信号から、存在しない所望の仮想視点の画像信号を生成するために用いる。ユーザの指示に応じて表示されるべき画像の視点があらかじめ特定できない自由視点画像を復号側で表示する場合や、視点の数が多く、それらの視点のすべての画像をすべて撮影、伝送または蓄積することが困難な場合には仮想視点の画像信号を生成するのが有効である。
 既存の視点の画像信号から、存在しない仮想視点の画像を生成するための手法の1つに特開平9-81746号公報に開示されたものがある。この手法では、存在しない仮想視点の画像を生成する際、既存の視点の画像信号から奥行き情報を計算し、その奥行き情報に従って、所望の仮想視点の画像を生成する。
 多視点の画像信号が符号化されて得られた符号化ストリームを伝送または蓄積し、その符号化ストリームを復号して得られる画像信号からデプス信号を求めて、所望の仮想視点の画像信号を生成する手法は、復号側でデプス信号を算出する処理の負担が大きい。また一般的に、復号側で生成されるデプス信号の品質は、符号側で生成されるデプス信号の品質より低くなる。一般的な符号化方式では、符号化する際に原画像信号の高周波成分が省略されるためである。
 そこで、本実施の形態では符号化側で多視点の画像信号からデプス信号を生成し、複数の視点の画像信号と、複数の視点のデプス信号を符号化の対象とする。復号側は符号化ストリームを復号することにより、画像信号に加えてデプス信号も得ることができる。これにより、復号後にデプス信号を生成する必要がなく、復号側は符号化ストリームを復号して得られる、画像信号とデプス信号から所望の仮想視点の画像信号を生成することができる。
 なお、仮想視点の画像信号を生成する場合、1つの視点の、画像信号およびデプス信号から画像を生成するよりも、複数の視点の、画像信号およびデプス信号から画像を生成する方がより良好な仮想視点の画像を得ることができる。以下、この知見について図4、図5を参照しながら、より詳細に説明する。
 図4は、第2視点VBおよび第3視点VCから第1対象物OAおよび第2対象物OBが存在するシーンを撮影し、仮想視点である第1視点VA(以下、第1仮想視点VAと表記する)の画像を生成する例を示す図である。
 図5は、図4の例において、撮影された画像、それに対応するデプスマップ、および生成される画像を示す図である。図5において、第2画像IBは図4の第2視点VBから撮影された画像を示し、第3画像ICは図4の第3視点VCから撮影された画像を示す。第2デプスマップDBは第2画像IBに対応するデプスマップを示し、第3デプスマップDCは第3画像ICに対応するデプスマップを示す。
 以下の説明においては、最も後方の対象、すなわちカメラから最も遠い対象に対応するデプス信号の画素値を最小値である0とし、対象が前方にくればくるほど、すなわちカメラに近ければ近いほど、デプス信号の画素値を大きな値とする。また、第1画像IAは第1仮想視点VAから撮影したと仮定した場合に得られる画像(以下、予測画像という)を示し、実際に撮影されるものではなく、生成されるべき画像である。
 また、第1-2画像IABは、第2視点VBから撮影された第2画像IBとそれに対応する第2デプスマップDBから生成された第1仮想視点VAの予測画像である。第2視点VBから撮影された第2画像IBとそれに対応する第2デプスマップDBから第1仮想視点VAの予測画像を生成する場合、第2視点VBから撮影した際に前方の第1対象物OAにより隠蔽されていた部分が不明であり、欠落部分が発生する。第1-2画像IABの黒塗りの部分が、当該第1仮想視点VAの予測画像内で発生する第2欠落部分LPBである。
 また、第1-3画像IACは、第3視点VCから撮影された第3画像ICとそれに対応する第3デプスマップDCから生成された第1仮想視点VAの予測画像である。第1-3画像IACにも欠落部分が発生する。第1-3画像IACの黒塗りの部分が、当該第1仮想視点VAの予測画像内で発生する第3欠落部分LPCである。第1-3画像IACの第3欠落部分LPCは、第1-2画像IABの第2欠落部分LPBとは異なる位置に発生する。
 そこで、第1-2画像IABの第2欠落部分LPBを第1-3画像IACの画像信号から補うことにより、欠落部分の少ない第1仮想視点VAの第1画像IAを生成することができる。なお、実際には対象物に立体感や影があり、撮影する視点の位置および方向と、光源との相対関係により、撮影して得られる画像に明るさや色の差が生じるが、図4、図5においてはその点を考慮せずに描いている。
 それらの視点毎に生じる輝度差等を考慮したり、ノイズを低減するために、第1-2画像IABと第1-3画像IACの両方に存在する画素は平均値を用い、片方の画像に欠落部分が生じる画素についてのみもう一方の画像の画素だけを用いる方法もある。このように1つの視点の、画像信号およびデプス信号から生成された仮想視点の画像(図5では、第1-2画像IABまたは第1-3画像IAC)よりも、2つの視点の、画像信号およびデプス信号から生成された画像のほうが、欠落部分の少ない良好な画像を得ることができる。
 また、2つの視点の、画像信号とデプス信号から仮想視点の画像信号を生成するよりも、それ以上の視点の、画像信号とデプス信号を用いた方が、より欠落部分の少ない良好な画像を得ることができる。このように、仮想視点の画像を生成する場合、1つの視点の、画像信号およびデプス信号から画像を生成するよりも、複数の視点の、画像信号およびデプス信号から画像を生成する方がより良好な仮想視点の画像を得ることができる。
 また、2つの視点の、画像信号およびデプス信号から仮想視点の画像信号を生成する場合、視点間の距離が短い2つの視点の、画像信号およびデプス信号から生成する方が、視点間の距離が長い2つの視点の、画像信号およびデプス信号から生成するより良好な仮想視点の画像信号を得ることができる。以下、この知見について図6、図7を参照しながら、より詳細に説明する。
 図6は、第5視点VEおよび第6視点VFから第3対象物OCおよび第4対象物ODが存在するシーンを撮影し、仮想視点である第4視点VD(以下、第4仮想視点VDと表記する)の画像を生成する例を示す図である。
 図7は、図6の例において、撮影された画像、それに対応するデプスマップ、および生成される画像を示す図である。図7において、第5画像IEは図6の第5視点VEから撮影された画像を示し、第6画像IFは図6の第6視点VFから撮影された画像を示す。第5デプスマップDEは第5画像IEに対応するデプスマップを示し、第6デプスマップDFは第3画像ICに対応するデプスマップを示す。また、第4画像IDは第4仮想視点VDから撮影したと仮定した場合に得られる予測画像を示し、実際に撮影されるものではなく、生成されるべき画像である。
 また、第4-5画像IDEは、第5視点VEから撮影された第5画像IEとそれに対応する第5デプスマップDEから生成された第4仮想視点VDの予測画像である。第5視点VEから撮影された第5画像IEとそれに対応する第5デプスマップDEから第4仮想視点VDの予測画像を生成する場合、第5視点VEから撮影した際に前方の第3対象物OCにより隠蔽されていた部分が不明であり、欠落部分が発生する。第4-5画像IDEの黒塗りの部分が、当該第4仮想視点VDの予測画像内で発生する第5欠落部分LPEである。
 また、第4-6画像IDFは、第6視点VFから撮影された第6画像IFとそれに対応する第6デプスマップDFから生成された第4仮想視点VDの予測画像である。第4-6画像IDFにも欠落部分が発生する。第4-6画像IDFの黒塗りの部分が、当該第4仮想視点VDの予測画像内で発生する第6欠落部分LPFである。
 第5視点VEと第6視点VFとを比較すると、第6視点VFの方が第4仮想視点から離れているため、第6画像IFの方が第4画像IDからのずれ量が大きくなり、第4-6画像IDFの第6欠落部分LPFの面積の方が第4-5画像IDEの第5欠落部分LPEの面積より大きくなる。このように、視点間の距離が小さければ小さいほど、画像に写る被写体の視点間のずれ量、変形、明るさや色の差は小さくなり、良好な画像を得ることができる。したがって、仮想視点の画像信号を生成する場合、視点間の距離が短い複数の視点の、画像信号およびデプス信号から生成する方が、視点間の距離が長い複数の視点の、画像信号およびデプス信号から生成するより良好な仮想視点の画像を得ることができる。
 また、コンテンツの奥行きの状態によっても仮想視点の画像信号の生成しやすさは異なる。重なり合う被写体同士の奥行きの差が小さければ小さいほど、より良好な仮想視点の画像信号を得ることができる。以下、この知見について図8、図9を参照しながら、より詳細に説明する。
 図8は、第8視点VHから第5対象物OEまたは第6対象物OFのいずれか一方と、第7対象物OGが存在する2つのシーンを撮影し、仮想視点である第7視点VG(以下、第7仮想視点VGと表記する)の画像を生成する例を示す図である。それぞれのシーンの撮影時には第5対象物OEと第6対象物OFは同時に存在しない。ここで、第5対象物OEおよび第7対象物OGが存在するシーンを第1シーンH1、第6対象物OFおよび第7対象物OGが存在するシーンを第2シーンH2とする。
 図9は、図8の例において、撮影された画像、それに対応するデプスマップ、および生成される画像を示す図である。図9において、第8-1画像IH1は図8の第8視点VHから撮影された第1シーンH1の画像を示し、第8-2画像IH2は同様に図8の第8視点VHから撮影された第2シーンH2の画像を示す。第8-1デプスマップDH1は第8-1画像IH1に対応するデプスマップを示し、第8-2デプスマップDH2は第8-2画像IH2に対応するデプスマップを示す。
 第7-1画像IG1は第7仮想視点VGから第1シーンH1を撮影したと仮定した場合に得られる予測画像を示し、実際に撮影されるものではなく、生成されるべき画像である。また、第7-2画像IG2は第7仮想視点VGから第2シーンH2を撮影したと仮定した場合に得られる予測画像を示し、実際に撮影されるものではなく、生成されるべき画像である。
 また、第7-8-1画像IGH1は、第8視点VHから撮影された第1シーンH1の第8-1画像IH1とそれに対応する第8-1デプスマップDH1から生成された第7仮想視点VGの第1シーンH1の予測画像である。第8視点VHから撮影された第1シーンH1の第8-1画像IH1とそれに対応する第8-1デプスマップDH1から第7仮想視点VGの第1シーンH1の予測画像を生成する場合、第8視点VHから撮影した際に前方の第5対象物OEにより隠蔽されていた部分が不明であり、欠落部分が発生する。第7-8-1画像IGH1の黒塗りの部分が、当該第7仮想視点VGの第1シーンH1の予測画像内で発生する第8-1欠落部分LPH1である。
 また、第7-8-2画像IGH2は、第8視点VHから撮影された第2シーンH2の第8-2画像IH2とそれに対応する第8-2デプスマップDH2から生成された第7仮想視点VGの第2シーンH2の予測画像である。第7-8-2画像IGH2にも欠落部分が発生する。第7-8-2画像IGH2の黒塗りの部分が、当該第7仮想視点VDの第2シーンH2の予測画像内で発生する第8-2欠落部分LPH2である。
 第8-1画像IH1と第7-1画像IG1とのずれ量と、第8-2画像IH2と第7-2画像IG2とのずれ量とを比較すると、後者の方が大きくなる。したがって、第7-8-2画像IGH2の第8-2欠落部分LPH2の面積の方が、第7-8-1画像IGH1の第8-1欠落部分LPH1の面積より大きくなる。このように、コンテンツの奥行きの状態によっても仮想視点の画像信号の生成しやすさが異なってくる。すなわち、互いに重なり合う被写体同士の奥行きの差が小さければ小さいほど、重なり合う被写体同士の、画像内における相対的なずれ量が小さくなり、生成される画像の欠落部分は小さくなり、良好な画像を得ることができる。
 なお、重なり合う被写体同士の奥行きの差は、デプス信号から算出することができる。デプス信号(図9では、第8-1デプスマップDH1および第8-2デプスマップDH2)のエッジ(すなわち、濃度が急峻に変化する点)を抽出し、エッジ部分の境界を挟んだ画素値の差を算出し、その差が小さければ小さいほど、重なりあう被写体同士の奥行きの差を小さいと判定する。
 このように、複数の視点の画像信号を含む多視点画像信号に加えて、複数の視点のデプス信号を含む多視点デプス信号を用いると、復号側で高精度な仮想視点の画像信号を生成することができる。また、視点間の間隔が密な多視点画像信号と、その各視点画像信号のそれぞれに対応した多視点デプス信号を用いると、復号側でさらに高精度な仮想視点の画像信号を生成することができる。
 ただし、視点の数を多く設定しすぎると、ビットレートが高くなり、伝送効率または蓄積効率が低下する。従って、対象となるアプリケーションの伝送レートまたは蓄積媒体の容量を考慮して、多視点画像信号および多視点デプス信号のそれぞれにおいて符号化すべき視点を適切に決定する必要がある。
 この際、必ずしも符号化される、多視点画像信号とデプス信号のそれぞれの視点が1対1に対応している必要はなく、多視点画像信号と多視点デプス信号とで異なる視点の信号が符号化されてもよい。この場合、より柔軟に符号化することができる。例えば、実際に撮影して得られた画像信号をすべて符号化し、伝送または蓄積する必要がある場合でも、仮想視点の画像信号の生成が容易な場合、符号化するデプス信号の視点を少なく設定してもよい。この場合、より効率的な符号化ストリームを生成することができる。ここで、仮想視点の画像信号の生成が容易な場合とは、符号化される多視点画像信号の視点間の間隔が十分に密である場合や、コンテンツに含まれる被写体同士の奥行きの差があまりない場合等である。
次に、実施の形態1に係る画像符号化装置100で符号化されることにより生成される符号化ストリームについて説明する。
 図10は、符号化すべき、5視点(視点0、視点1、視点2、視点3および視点4)からの画像ISを含む多視点画像、および3視点(視点0、視点2および視点4)からのデプスDSを含む多視点デプスマップを示す図である。縦軸は視点方向を示し、横軸は時間方向を示している。また、視点0を上記基底視点とする。MVC符号化方式において、基底視点は他の視点に依存せずに符号化または復号することができる視点である。多視点画像を含む1つのシーケンス全体で1つの視点のみが基底視点に設定される。すなわち、基底視点の画像は、他の視点の画像を視点間予測の参照画像として用いることなく、単独で符号化または復号されることが可能である。また、非基底視点(すなわち、基底視点以外の視点)の画像は、他の視点の画像を視点間予測の参照画像として用いて符号化または復号されることが可能である。以下の説明では、図10に示す多視点画像および多視点デプスマップを符号化する場合について述べる。
 図11は、実施の形態1に係る画像符号化装置100で生成される符号化ストリームをNALユニット単位で表現した例を示す図である。1つの四角形のブロックが1つのNALユニットに相当する。NALユニットはヘッダ部(すなわち、先頭部)であるNALユニットヘッダと、そのNALユニットヘッダを除いた生のデータであるRBSP(Raw Byte Sequence Payload)を含む。それぞれのNALユニットのヘッダ部には常に“0”の値を持つフラグ(すなわち、"forbidden_zero_bit")と、SPS、PPSまたは参照ピクチャとなるスライスが含まれているかどうかを見分ける識別子(すなわち、"nal_ref_idc")と、NALユニットの種類を見分ける識別子(すなわち、"nal_unit_type")が含まれる。
図12は、AVC/H.264符号化方式で規定されているNALユニットの種類を示す図である。復号側ではNALユニットの種類を、NALユニットのヘッダ部に含まれるNALユニットの種類を見分ける識別子である"nal_unit_type"を参照することにより、識別することができる。
(SPS#A)
 図11に示す符号化ストリームでは、まず、SPS#AのNALユニットが生成される。SPS#Aには基底視点の画像信号(図10では、視点0の画像の信号)の、シーケンス全体の符号化に関わる情報が設定される。SPS#AのNALユニットヘッダに含まれるNALユニットの種類を示す"nal_unit_type"の値には、SPSであることを示す“7”が設定される(図12参照)。
 図13は、SPSのNALユニットの構成を示す図である。SPSのRBSPである"seq_parameter_set_rbsp"は、シーケンス全体の符号化に関わる情報が含まれる"seq_parameter_set_data"と、RBSPの最後に付加する調整のためのビットである"rbsp_trailing_bits"を含む。"seq_parameter_set_data"にはプロファイルを識別するための"profile_idc"が含まれる。ここでのプロファイルとはAVC/H.264符号化方式のシンタックスのサブセットを示す。
 例えば、SPS#Aの"profile_idc"の値を“100”に設定することにより、符号化ストリームがAVC/H.264符号化方式のハイ・プロファイル(High Profile)に準拠していることを示すことができる。その場合、SPS#Aを参照すべき後述のNALユニットは、ハイ・プロファイルに準拠した制限に基づいて生成される。さらに、"seq_parameter_set_data"にはSPSを識別するための、SPSを特定する一意の番号である"seq_parameter_set_id"が含まれており、SPS#Aの"seq_parameter_set_id"には、後述するSPS#BおよびSPS#Cの、"seq_parameter_set_id"と異なる任意の値が設定される。この基底視点の画像信号のSPSには、後述するシーケンス全体の符号化にかかわるMVC拡張の情報が含まれる"seq_parameter_set_mvc_extension"は含まれない。
(SPS#B)
 続いて、SPS#BのNALユニットが生成される。SPS#Bには基底視点を除くその他の視点の画像信号(図10では、視点1、視点2、視点3および視点4の画像の信号)の、シーケンス全体の符号化に関わる情報が設定される。SPS#BのNALユニットヘッダに含まれるNALユニットの種類を示す"nal_unit_type"の値には、MVC拡張のSPSであるサブセットSPSであることを示す“15”が設定される。
 図14は、サブセットSPSのNALユニットの構成を示す図である。サブセットSPSのRBSPである"subset_seq_parameter_set_rbsp"には、シーケンス全体の符号化に関わる情報が含まれる"seq_parameter_set_data"に加えて、シーケンス全体の符号化に関わるMVC拡張の情報が含まれる"seq_parameter_set_mvc_extension_rbsp"が含まれる。SPS#Bの"profile_idc"の値には、AVC/H.264符号化方式のマルチビュー・ハイ・プロファイル(Multiview High Profile)を示す“118”が設定される。本明細書では、AVC/H.264符号化方式のマルチビュー・ハイ・プロファイルに対応した符号化方式をMVC符号化方式と呼ぶ。
 SPS#Bを参照すべき後述のNALユニットは、マルチビュー・ハイ・プロファイルに準拠した制限に基づいて生成される。さらに、SPS#Bの"seq_parameter_set_id"には、上述したSPS#Aおよび後述するSPS#Cの、"seq_parameter_set_id"と異なる任意の値が設定される。"seq_parameter_set_mvc_extension_rbsp"には、符号化される画像信号の視点数、視点方向への符号化または復号順序、および画像信号を符号化または復号する際の視点間予測の際に参照すべき、視点を特定するための視点間の依存関係を示す情報が含まれる。
 図14において、"num_views_minus1"は、上記符号化ビット列に上記視点の数を設定するためのパラメータであり、視点数から“1”を引いた値である。図10の例では、視点0、視点1、視点2、視点3および視点4の5視点の画像の信号を含む多視点画像信号が符号化されるため、"num_views_minus1"の値には“4”が設定される。
 続いて、"view_id[i]"が各視点ごとに視点方向への符号化または復号順序で、連続して繰り返し設定される構造となっている。"view_id[i]"は視点方向への符号化または復号順序をインデックスiで示したときの視点の識別情報(以下、視点IDという)を示す。すなわち、"view_id[i]"は視点方向への符号化または復号順序で、i番目の視点IDを示す。ここで、本明細書では、配列のインデックス(すなわち、添え字)は0から始まるものとする。例えば、配列"view_id[i]"の先頭はview_id[0]、その次は"view_id[1]"となる。また、順序を表す際にも最初を0番目、その次を1番目とする。つまり、視点方向に最初に符号化または復号される視点を0番目、その次に符号化または復号される視点を1番目とする。例えば、視点0、視点2、視点1、視点4、視点3の順序で符号化される場合、"view_id[0]"には視点0の視点IDを、"view_id[1]"には視点2の視点IDを、"view_id[2]"には視点1の視点IDを、"view_id[3]"には視点4の視点IDを、および"view_id[4]"には視点3の視点IDをそれぞれ設定する。
(SPS#C)
 続いて、SPS#CのNALユニットが生成される。SPS#Cには各視点のデプス信号のシーケンス全体の符号化に関わる情報が設定される。SPS#Bと同様に、SPS#CのNALユニットヘッダに含まれるNALユニットの種類を示す"nal_unit_type"の値には、MVC拡張のSPSであるサブセットSPSであることを示す“15”が設定される。ここで、本実施の形態においては、多視点デプス信号も復号可能なプロファイルであることを示す"profile_idc"の値を“120”と規定する。したがって、SPS#Cの"profile_idc"の値が“120”に設定される。さらに、SPS#Cの"seq_parameter_set_id"には、上述したSPS#AおよびSPS#Bの、"seq_parameter_set_id"と異なる任意の値が設定され。"seq_parameter_set_mvc_extension_rbsp"には、符号化されるデプス信号の視点数、視点方向への符号化または復号順序、およびデプス信号を符号化または復号する際の視点間予測の際に参照すべき視点を特定するための、視点間の依存関係が含まれる。
 "seq_parameter_set_mvc_extension_rbsp"にパラメータが、基底視点を除くその他の視点の画像信号の、シーケンス全体の符号化に関わる情報であるSPS#Bと同様に設定される。上述したように、視点0、視点2および視点4の3視点の画像信号を含む多視点デプス信号を視点0、視点2および視点4の順序で符号化する場合、各パラメータの値は次のように設定される。まず、"num_views_minus1"の値を“2”に設定し、次に、"view_id[0]"に視点0の視点IDを、"view_id[1]"に視点2の視点IDを、および"view_id[2]"に視点4の視点IDをそれぞれ設定する。同じ視点の画像信号およびデプス信号の視点IDを共通とすることで、復号側で画像信号の視点とデプス信号の視点との対応関係を明確に特定することができる。
 また、本実施の形態では、デプス信号はモノクローム・フォーマットの画像と同様に符号化されるため、"seq_parameter_set_data"に含まれる、輝度成分と色差成分との比を表すクロマ・フォーマット"chroma_format_idc"にはモノクロームを示す“0”が設定される。ここまで、多視点デプス信号を復号可能なプロファイルであることを示す"profile_idc"の値を“120”と規定する例を説明したが、既存の"profile_idc"の値以外であれば、いずれの値でもよい。
 また、サブセットSPSのNALユニットのRBSPに、デプス信号のシーケンス情報か否かを示すフラグを用意し、SPS#Cの"profile_idc"の値をマルチビュー・ハイ・プロファイルを示す“118”とすることもできる。
(PPS#A)
 続いて、PPS#AのNALユニットが生成される。PPS#Aには基底視点の画像信号(図10の例では、視点0の画像の信号)の、ピクチャ全体の符号化に関する情報が設定される。PPS#AのNALユニットヘッダに含まれるNALユニットの種類を示す"nal_unit_type"の値には、PPSであることを示す“8”が設定される(図12参照)。
 図15は、PPSのNALユニットの構成を示す図である。PPSのRBSPである"pic_parameter_set_rbsp"には、PPSを識別するための、PPSを特定する一意の番号である"pic_parameter_set_id"が含まれている。PPS#Aの"pic_parameter_set_id"には、後述するPPS#BおよびPPS#Cの、"pic_parameter_set_id"と異なる任意の値が設定される。さらに、PPSのRBSPである"pic_parameter_set_rbsp"には、参照すべきSPSを特定する番号である"seq_parameter_set_id"が含まれており、PPS#Aの"seq_parameter_set_id"には、PPS#Aが参照すべきSPS#Aの"seq_parameter_set_id"の値が設定される。
(PPS#B)
 続いて、PPS#BのNALユニットが生成される。PPS#Bには基底視点を除くその他の視点の画像信号(ここでは図10における、視点1および視点2の画像の信号)の、ピクチャ全体の符号化に関する情報が設定される。PPS#Aと同様に、PPS#BのNALユニットヘッダに含まれるNALユニットの種類を示す"nal_unit_type"の値には、PPSであることを示す“8”が設定される。
 PPS#Bの"pic_parameter_set_id"には、上述したPPS#Aおよび後述するPPS#Cの、"pic_parameter_set_id"と異なる任意の値が設定される。さらに、PPS#Bの"seq_parameter_set_id"には、PPS#Bが参照すべきSPS#Bの"seq_parameter_set_id"の値が設定される。
(PPS#C)
 続いて、PPS#CのNALユニットが生成される。PPS#Cには各視点のデプス信号のピクチャ情報が設定される。PPS#AおよびPPS#Bと同様に、PPS#CのNALユニットヘッダに含まれるNALユニットの種類を示す"nal_unit_type"の値には、PPSであることを示す“8”が設定される。PPS#Cの"pic_parameter_set_id"には上述したPPS#AおよびPPS#Bの、"pic_parameter_set_id"と異なる任意の値が設定される。さらに、PPS#Cの"seq_parameter_set_id"には、PPS#Cが参照すべきSPS#Cの"seq_parameter_set_id"の値が設定される。
(カメラパラメータ情報)
 続いて、カメラパラメータ情報#0のNALユニットが生成される。このカメラパラメータ情報には内部パラメータ情報と外部パラメータ情報が含まれる。内部パラメータ情報は各視点のカメラ固有の情報であり、各視点からの撮影に用いたカメラの、焦点距離、主点、ラジアルディストーション(すなわち、主点から放射方向のレンズの歪み)といった係数を含む。外部パラメータ情報は各視点のカメラの配置情報を含む。この配置情報は、3次元空間上の位置(x、y、z座標)または3軸(x、y、z軸)上の回転角度(ロール、ピッチ、ヨー)で表されることが可能である。
 カメラパラメータ情報はそれぞれの時間で符号化される。例えば、カメラパラメータ情報#0は後述のスライス#A00からスライス#B30までの画像の撮影に用いたカメラパラメータ情報である。このカメラパラメータ情報は補足付加情報の一種である"Multiview acqisition information SEI"として符号化される。カメラパラメータ情報#0のNALユニットヘッダに含まれるNALユニットの種類を示す"nal_unit_type"の値には、SEIであることを示す“6”が設定される(図12参照)。カメラパラメータ情報はVCLで符号化されたデータの復号に直接必要なパラメータではないが、復号後の仮想視点の生成や表示の際に用いられる。
(プリフィックスNALユニット#A00)
 続いて、プリフィックスNALユニット#A00が生成される。プリフィックスNALユニットは、プリフィックスNALユニットの後に続くスライスNALユニットの視点情報を符号化するためのNALユニットである。プリフィックスNALユニット#A00のNALユニットヘッダに含まれるNALユニットの種類を示す"nal_unit_type"の値には、プリフィックスNALユニットであることを示す“14”が設定される(図12参照)。
 図16は、プリフィックスNALユニットの構成を示す図である。プリフィックスNALユニットのヘッダ部であるNALユニットヘッダには、"forbidden_zero_bit"および"nal_ref_idc、nal_unit_type"に加えて、"nal_unit_header_svc_mvc_extension"が含まれている。この"nal_unit_header_svc_mvc_extension"にはプリフィックスNALユニットの後に続くスライスNALユニットの視点情報が設定される。図11のプリフィックスNALユニット#A00の"nal_unit_header_svc_mvc_extension"には、後に続くスライスNALユニット#A00の視点情報が設定される。
 プリフィックスNALユニットの"nal_unit_header_svc_mvc_extension"には、視点情報の1つとして、後に続くスライスNALユニットの視点を識別するための、視点を特定する一意の番号である"view_id"が含まれる。プリフィックスNALユニット#A00の"view_id"には、視点0を示す値が設定される。ここで、この視点0の"view_id"には、他の視点である、視点1、視点2、視点3および視点4の"view_id"と異なる値を規定する。当該プリフィックスNALユニット#A00の"view_id"は、後に続く視点0のスライスNALユニット#A00の"view_id"として用いられる。なお、MVC方式ではプリフィックスNALユニットのRBSPである"prefix_nal_unit_rbsp"には、いずれのデータも定義されておらず、空である。すなわち、MVC方式ではプリフィックスNALユニットのRBSPにはデータが設定されない。
(スライスNALユニット#A00)
 続いて、スライスNALユニット#A00が生成される。スライスNALユニット#A00には基底視点である視点0の画像信号がスライス単位で設定される。ここで、基底視点のスライスは、NALユニットの種類を示す"nal_unit_type"が“1”または“5”(図12参照)の、VCLのNALユニットとして生成される。また、基底視点の画像信号のシーケンスの、先頭のピクチャはIDRピクチャとして符号化され、それに続くピクチャは非IDRピクチャとして符号化される。
 スライスNALユニット#A00はシーケンスの先頭のスライスであるため、スライスNALユニット#A00のNALユニットヘッダに含まれるNALユニットの種類を示す"nal_unit_type"の値には、IDRピクチャの符号化されたスライスであることを示す“5”が設定される(図12参照)。図11の例では、1つのピクチャを1つのスライスとして符号化しているが、1つのピクチャを複数のスライスに分割して符号化することも可能である。
 図17は、"nal_unit_type"の値が“1”または“5”のスライスNALユニットの構成を示す図である。"nal_unit_type"の値が“1”または“5”のスライスNALユニットのNALユニットヘッダには、"nal_unit_header_svc_mvc_extension"が含まれないため、視点情報は設定されない。そこで、前に符号化されたプリフィックスNALユニットの"nal_unit_header_svc_mvc_extension"に設定されている視点情報を用いる。すなわち、プリフィックスNALユニット#A00の"nal_unit_header_svc_mvc_extension"に設定されている視点情報を、スライスNALユニット#A00の視点情報とする。
 さらに、"nal_unit_type"の値が“1”または“5”のスライスNALユニットのRBSPである"slice_layer_without_partitioning_rbsp"は、"slice_header"、"slice_data"および"rbsp_slice_trailing_bits"を含む。"slice_header"はスライスの符号化にかかわる情報を含む。"slice_data"はスライス内の画像信号が符号化されて得られる、符号化モード、動きベクトル、符号化残差信号等の符号化データを含む。"rbsp_slice_trailing_bits"は調整用のためのビットである。
 "slice_header"には、参照すべきPPSを特定する番号である"pic_parameter_set_id"が含まれる。スライスNALユニット#A00の"pic_parameter_set_id"には、スライスNALユニット#A00が参照すべきPPS#Aの"pic_parameter_set_id"の値が設定される。また、PPS#Aの"seq_parameter_set_id"には、PPS#Aが参照すべきSPS#Aの"seq_parameter_set_id"の値が設定されているため、スライスNALユニット#A00が参照すべきシーケンス情報がSPS#Aであることを明確に特定することができる。
(スライスNALユニット#B20)
 続いて、スライスNALユニット1#B20が生成される。スライスNALユニット#B20は非基底視点である視点2の画像信号がスライス単位で符号化される。また、ここで符号化されるのは先の視点0のスライス#A00と同じ表示時刻の、視点2の画像信号のスライスである。スライスNALユニット#B20のNALユニットヘッダに含まれるNALユニットの種類を示す"nal_unit_type"の値には、基底視点以外の符号化されたスライスを示す“20”が設定される(図12参照)。
 図18は、"nal_unit_type"の値が“20”のスライスNALユニットの構成を示す図である。"nal_unit_type"の値が“20”のスライスNALユニットのヘッダ部であるNALユニットヘッダには、"forbidden_zero_bit"および"nal_ref_idc、nal_unit_type"に加えて、"nal_unit_header_svc_mvc_extension"が含まれる。この"nal_unit_header_svc_mvc_extension"に当該スライスNALユニットの視点情報が設定される。"nal_unit_type"の値が“20”のスライスNALユニットの"nal_unit_header_svc_mvc_extension"には、視点情報の1つとしてこのスライスNALユニットの視点を識別するための、視点を特定する一意の番号である"view_id"が含まれる。スライスNALユニット#B20の"view_id"には、視点2を示す値が設定される。ここで、この視点2の"view_id"は、他の視点である視点0、視点1、視点3および視点4の"view_id"と異なる値とする。
 さらに、nal_unit_typeの値が“20”のスライスNALユニットのRBSPである"slice_layer_in_scalable_extension_rbsp"は、"slice_header"、"slice_data"および"rbsp_slice_trailing_bits"を含む。"slice_header"はスライスの符号化に関わる情報を含む。"slice_data"はスライス内の画像信号が符号化されて得られる、符号化モードと、動きベクトルまたは視差ベクトルと、符号化残差信号等の符号化データを含む。"rbsp_slice_trailing_bits"は調整用のためのビットである。"slice_header"には、参照すべきPPSを特定する番号である"pic_parameter_set_id"が含まれる。スライスNALユニット#B20の"pic_parameter_set_id"には、スライスNALユニット#B20が参照すべきPPS#Bの"pic_parameter_set_id"の値が設定される。また、PPS#Bの"seq_parameter_set_id"には、PPS#Bが参照すべきSPS#Bの"seq_parameter_set_id"の値が設定されているため、スライスNALユニット#B20が参照すべきシーケンス情報はSPS#Bであることを容易に判別することができる。
(スライスNALユニット#B10)
 続いて、スライスNALユニット#B10、#B40、#B30がスライスNALユニット#B20と同様の方法で順次、生成される。スライスNALユニット#B10には非基底視点である視点1の画像信号がスライス単位で設定され、スライスNALユニット#B40には非基底視点である視点4の画像信号がスライス単位で設定され、およびスライスNALユニット#B30には非基底視点である視点3の画像信号がスライス単位で設定される。
 また、ここで符号化されるのは先の、視点0のスライス#A00および視点2のスライス#B20と同じ表示時刻の、視点1、視点4、視点3のスライス単位の画像信号である。スライスNALユニット#B20と同様に、スライスNALユニット#B10、#40、#30のNALユニットヘッダに含まれるNALユニットの種類を示す"nal_unit_type"の値には、基底視点以外の符号化されたスライスを示す“20”が設定される(図12参照)。スライスNALユニット#B10の"view_id"には、視点1を示す値が、スライスNALユニット#B40の"view_id"には視点4を示す値が、およびスライスNALユニット#B30の"view_id"には視点3を示す値がそれぞれ設定される。ここで、それぞれの視点の"view_id"には、他の視点の"view_id"と異なる値が設定される。
 スライスNALユニット#B10、#B40、#B30の"pic_parameter_set_id"には、スライスNALユニット#B10、#B40、#B30が参照すべきPPS#Bの"pic_parameter_set_id"の値がそれぞれ設定される。また、PPS#Bの"seq_parameter_set_id"には、PPS#Bが参照すべきSPS#Bの"seq_parameter_set_id"の値が設定されているため、スライスNALユニット#B10、#B40、#B30が参照すべきシーケンス情報がSPS#Bであることを明確に特定することができる。
(スライスNALユニット#C00)
 続いて、スライスNALユニット#C00が生成される。スライスNALユニット#C00には視点0の画像信号のスライスNALユニット#A00に対応するデプス信号がスライス単位で設定される。ここで、本実施の形態においては、デプス信号が設定されたスライスNALユニットであることを示す"nal_unit_type"の値を“21”と規定する。したがって、スライスNALユニット#C00のNALユニットヘッダに含まれるNALユニットの種類を示す"nal_unit_type"の値には“21”が設定される。
 デプス信号が設定されたスライスNALユニットの"nal_unit_type"において、既存の"nal_unit_type"の値を用いずに“21”と設定することにより、従来のデプス信号を復号しないMVC方式との互換性を保つことができる。すなわち、上記符号化ビット列を従来の、デプス信号を復号しないMVC方式のデコーダで復号する際に、"nal_unit_type"の値が“21”のNALユニットを無視して復号することにより、画像信号のみを正常に復号することができるためである。なお、ここではデプス信号が符号化されたスライスであることを示す"nal_unit_type"の値を“21”と規定したが、将来の拡張のために予約された、“16”、“17”、“18”、“22”または“23”等の他の値を用いてもよい。
 さらに、"nal_unit_type"の値が“21” のスライスNALユニットの構成を図18に示す構成と同様に規定する。すなわち、"nal_unit_type"の値が“21”のスライスNALユニットのヘッダ部であるNALユニットヘッダは、"forbidden_zero_bit"、"nal_ref_idc"および"nal_unit_type"に加えて、"nal_unit_header_svc_mvc_extension"を含むものとする。
 スライスNALユニット#C00の"view_id"には、視点0を示す値が設定される。このスライスNALユニット#C00の"view_id"の値は、スライスNALユニット#C00に対応するスライスユニット#A00の視点情報が設定されるプリフィックスNALユニット#A00の"view_id"の値と等しい値である。
 さらに、"nal_unit_type"の値が“21”のスライスNALユニットのRBSPである"slice_layer_in_scalable_extension_rbsp"は、"slice_header"、"slice_data"および"rbsp_slice_trailing_bits"を含む。"slice_header"はスライスの符号化にかかわる情報を含む。"slice_data"はスライス内のデプス信号が符号化されて得られる、符号化モードと、動きベクトルまたは視差ベクトルと、符号化残差信号等の符号化データを含む。"rbsp_slice_trailing_bits"は調整用のためのビットである。
 "slice_header"には、参照すべきPPSを特定する番号である"pic_parameter_set_id"が含まれる。スライスNALユニット#C00の"pic_parameter_set_id"には、スライスNALユニット#C00が参照すべきPPS#Cの"pic_parameter_set_id"の値が設定される。また、PPS#Cの"seq_parameter_set_id"には、PPS#Cが参照べきSPS#Cの"seq_parameter_set_id"の値が設定されているため、スライスNALユニット#C00が参照すべきシーケンス情報がSPS#Cであることを明確に特定することができる。
(スライスNALユニット#C20)
 続いて、スライスNALユニット#C20、#C40がスライスNALユニット#C00と同様の方法で順次、生成される。スライスNALユニット#C20には視点2の画像信号に対応する視点2のデプス信号がスライス単位で設定され、スライスNALユニット#C40には視点4の画像信号に対応する視点4のデプス信号がスライス単位で設定される。スライスNALユニット#C00と同様に、スライスNALユニット#C20、#40のNALユニットヘッダに含まれるNALユニットの種類を示す"nal_unit_type"の値には“21”が設定される。
 スライスNALユニット#C20のview_idには視点2を示す値を設定し、スライスNALユニット#C40のview_idには視点4を示す値を設定する。このスライスNALユニット#C20のview_idの値は、スライスNALユニット#C20に対応するスライスユニット#B20のview_idの値と等しい値であり、スライスNALユニット#C40のview_idの値は、スライスNALユニット#C40に対応するスライスユニット#B40のview_idの値と等しい値である。
 スライスNALユニット#C20、#40の"pic_parameter_set_id"には、スライスNALユニット#C20、#C40が参照すべきPPS#Cの"pic_parameter_set_id"の値が設定される。また、PPS#Cの"seq_parameter_set_id"には、PPS#Cが参照すべきSPS#Cの"seq_parameter_set_id"の値が設定されているため、スライスNALユニット#C20、#40が参照すべきシーケンス情報がSPS#Cであることを明確に特定することができる。
 スライスNALユニット#C40に続くカメラパラメータ情報のNALユニット#A1以降のNALユニットも、カメラパラメータ情報#0からスライスNALユニット#C40と同様に生成される。プリフィックスNALユニット#A01には、後に続くスライス#A01の視点情報が、プリフィックスNALユニット#A00と同様の方法で設定される。
 スライスNALユニット#A01には、スライスNALユニット#A00に設定された画像信号の符号化または復号順序で次にくる画像信号が、スライスNALユニット#A00と同様の方法でスライス単位で設定される。スライスNALユニット#A01のNALユニットヘッダに含まれるNALユニットの種類を示す"nal_unit_type"の値には、非IDRピクチャの符号化されたスライスであることを示す“1”が設定される(図12参照)。
 スライスNALユニット#B21、#B11、#B41、#B31には、スライスNALユニット#B20、#B10、#B40、#B30に設定された画像信号のそれぞれの視点において符号化または復号順序で、次にくる画像信号が、スライスNALユニット#B20や#B10等と同様の方法でスライス単位でそれぞれ符号化される。スライスNALユニット#C01、#C21、#C41には、スライスNALユニット#C00、#C20、#C40に設定されたデプス信号のそれぞれの視点において符号化または復号順序で次にくるデプス信号が、スライスNALユニット#C00、#C20、#C40と同様の方法で、スライス単位でそれぞれ符号化される。
 図1、図3に戻り、実施の形態1に係る画像符号化装置100、100aの構成について、より具体的に説明する。符号化管理部101には、外部または図示しない符号化管理情報保持部から符号化管理情報が供給される。符号化管理部101は必要に応じて新たにパラメータを計算する。
 符号化管理部101は、
(a)画像信号のシーケンス全体に関連するパラメータ情報(すなわち、画像信号のSPS)、
(b)デプス信号のシーケンス全体に関連するパラメータ情報(すなわち、デプス信号のSPS)、
(c)画像信号のピクチャに関連するパラメータ情報(すなわち、画像信号のPPS)、(d)デプス信号のピクチャに関連するパラメータ情報(すなわち、デプス信号のPPS)、(e)画像信号のピクチャのスライスに関連するヘッダ情報(すなわち、画像信号のスライスヘッダ)、
(f)デプス信号のピクチャのスライスに関連するヘッダ情報(すなわち、デプス信号のスライスヘッダ)
 等を含む符号化に関する情報を管理する。
 さらに、符号化管理部101は多視点画像信号および多視点デプス信号の視点情報、符号化対象画像の参照依存関係、並びに符号化または復号順序を管理する。符号化管理部101は上記視点情報として、各視点における画像信号およびデプス信号の対応関係を視点IDにより管理する。
 符号化管理部101は上記参照依存関係として、視点単位で他の視点の画像信号またはデプス信号を参照するか否かを管理する。また、符号化管理部101は上記参照依存関係として、ピクチャまたはスライス単位で、符号化対象画像信号または符号化対象デプス信号を符号化する際に他の視点の画像信号またはデプス信号を参照画像として用いる視点間予測(例えば、視差補償予測)を行うか否かを管理する。また、符号化管理部101は上記参照依存関係として、符号化対象画像信号または符号化対象デプス信号が符号化された後に、符号化側で復号して得られる復号画像信号または復号デプス信号が、他の視点の符号化対象画像信号または符号化対象デプス信号を符号化する際の参照画像として用いられるか否かを管理する。さらに、符号化管理部101は上記参照依存関係として、複数ある参照画像の候補の中からどの参照画像を参照すべきかについて管理する。
 また、符号化管理部101は上記符号化または復号順序として、復号側で、上記参照依存関係にしたがった復号対象画像信号の復号順番が、その画像信号が参照すべき参照画像の復号順番の後になるように管理する。また、符号化管理部101は上記符号化または復号順序として、同一時刻の各視点の画像信号とデプス信号が、復号された後に同時に出力されるのに適した順序で、画像信号およびデプス信号を符号化するように管理する。
 画像信号用シーケンス情報符号化部102は、符号化管理部101で管理される基底視点の画像信号の、シーケンス全体に関連するパラメータ情報(すなわち、基底視点の画像信号のSPS)を符号化し、符号化ビット列を生成する。この符号化ビット列は、図11に示した符号化ビット列全体の、SPS#AのRBSP部に相当する。上述したように、基底視点の画像信号のSPSは、図13に示したRBSPである"seq_parameter_set_rbsp"のシンタックス構造に従って符号化される。
 さらに、画像信号用シーケンス情報符号化部102は、符号化管理部101で管理される非基底視点の画像信号の、シーケンス全体に関連するパラメータ情報(すなわち、非基底視点の画像信号のSPS)を符号化し、符号化ビット列を生成する。この符号化ビット列は、図11に示した符号化ビット列全体の、SPS#BのRBSP部に相当する。上述したように、非基底視点の画像信号用のSPSは、図14に示したRBSPである"subset_seq_parameter_set_rbsp"のシンタックス構造に従って符号化される。ここでは、図14に示すシンタックス構造に従ってSPSのMVC拡張情報も符号化される。
 デプス信号用シーケンス情報符号化部103は、符号化管理部101で管理されるデプス信号の、シーケンス全体に関連するパラメータ情報(すなわち、デプス信号のSPS)を符号化し、符号化ビット列を生成する。この符号化ビット列は、図11に示した符号化ビット列全体の、SPS#CのRBSP部に相当する。上述したように、デプス信号のSPSは図14に示したRBSPである"subset_seq_parameter_set_rbsp"のシンタックス構造に従って符号化される。ここでは、図14に示したシンタックス構造に従ってSPSのMVC拡張情報も符号化される。
 画像信号用ピクチャ情報符号化部104は、符号化管理部101で管理される画像信号のピクチャに関連する情報(すなわち、画像信号のPPS)を符号化し、符号化ビット列を生成する。この符号化ビット列は、図11に示した符号化ビット列全体の、PPS#AおよびPPS#Bの、RBSP部に相当する。上述したように、基底視点の画像信号のPPSおよび非基底視点の画像信号のPPSは、図15に示したRBSPである"pic_parameter_set_rbsp"のシンタックス構造に従ってそれぞれ符号化される。
 デプス信号用ピクチャ情報符号化部105は、符号化管理部101で管理されるデプス信号のピクチャに関連する情報(すなわち、デプス信号のPPS)を符号化し、符号化ビット列を生成する。この符号化ビット列は、図11に示した符号化ビット列全体の、PPS#CのRBSP部に相当する。上述したように、デプス信号のPPSは、図15に示したRBSPである"pic_parameter_set_rbsp"のシンタックス構造に従って符号化される。
 カメラパラメータ情報符号化部106は、各視点の撮影に用いたカメラのパラメータ情報をSEIとして符号化し、符号化ビット列を生成する。ここで、当該カメラパラメータ情報には内部パラメータ情報と外部パラメータ情報が含まれる。内部パラメータ情報は各視点のカメラ固有の情報であり、各視点からの撮影に用いたカメラの、焦点距離、主点、ラジアルディストーション(すなわち、主点から放射方向のレンズの歪み)といった係数を含む。外部パラメータ情報は各視点のカメラの配置情報を含む。この配置情報は、3次元空間上の位置(x、y、z座標)または3軸(x、y、z軸)上の回転角度(ロール、ピッチ、ヨー)で表されることが可能である。
 画像信号符号化部107には各視点の画像信号が供給される。図10の例において、画像信号符号化部107に供給される画像信号は、視点0、視点1、視点2、視点3および視点4の画像の信号である。画像信号符号化部107は、符号化管理部101で管理される画像信号のスライスに関連する情報(すなわち、画像信号のスライスヘッダ)、および供給される符号化対象の画像信号をスライス単位で符号化し、符号化ストリームを生成する。
 この符号化ストリームは、図11に示した符号化ストリーム全体の、スライス#A00、#B20、#B10、#B40、#B30、#A01、#B21、#B11、#B41、#B31のRBSP部に相当する。上述したように、基底視点の画像信号のスライスヘッダ、および供給される符号化対象の、基底視点のスライス単位の画像信号は、図17に示したRBSPである"slice_layer_without_partitioning_rbsp"のシンタックス構造に従ってそれぞれ符号化される。より具体的には、上記基底視点のスライス単位の画像信号は、イントラ予測符号化、インター予測符号化、直行変換、量子化、エントロピー符号化等の処理を経ることにより、符号化される。
 また、非基底視点の画像信号のスライスヘッダ、および供給される符号化対象の、非基底視点のスライス単位の画像信号は、図18に示したRBSPである"slice_layer_in_scalable_extension_rbsp"のシンタックス構造に従ってそれぞれ符号化される。画像信号を符号化する際には視点間予測や動き補償予測を用いることがあるが、その際には既に符号化された画像信号のピクチャから局部的に復号された画像信号を参照画像として利用することができる。
 デプス信号符号化部108には各視点のデプス信号が供給される。図10の例において、デプス信号符号化部108に供給されるデプス信号は、視点0、視点2および視点4のデプスマップの信号である。デプス信号符号化部108は、符号化管理部101で管理されるデプス信号のスライスに関連する情報(すなわち、デプス信号のスライスヘッダ)、および供給される符号化対象のデプス信号をスライス単位で符号化し、符号化ストリームを生成する。
 この符号化ビット列は、図11に示した符号化ビット列全体の、スライス#C00、#C20、#C40、#C01、#C21、#C41のRBSP部に相当する。上述したように、デプス信号のスライスヘッダおよび、供給される符号化対象のスライス単位のデプス信号は、図18に示したRBSPである"slice_layer_in_scalable_extension_rbsp"のシンタックス構造に従ってそれぞれ符号化される。デプス信号を符号化する際には視点間予測や動き補償予測を用いることもあるが、その際には既に符号化されたデプス信号のピクチャから局部的に復号されたデプス信号を参照画像として利用することができる。デプス信号の符号化方法はグレースケールの画像信号の場合と同じ方法を利用することができる。
 ユニット化部109は、
(a)画像信号用シーケンス情報符号化部102により生成された、基底視点の画像信号の、シーケンス情報の符号化ビット列、
(b)画像信号用シーケンス情報符号化部102により生成された、非基底視点の画像信号の、シーケンス情報の符号化ビット列、
(c)デプス信号用シーケンス情報符号化部103により生成された、デプス信号のシーケンス情報の符号化ビット列、
(d)画像信号用ピクチャ情報符号化部104により生成された、基底視点の画像信号の、ピクチャ情報の符号化ビット列、
(e)画像信号用ピクチャ情報符号化部104により生成された、非基底視点の画像信号の、ピクチャ情報の符号化ビット列、
(f)デプス信号用ピクチャ情報符号化部105により生成された、デプス信号のピクチャ情報の符号化ビット列、
(g)カメラパラメータ情報符号化部106により生成されたカメラパラメータ情報の符号化ビット列、
(h)画像信号符号化部107により生成された、基底視点の画像信号のスライスに関連する情報(すなわち、基底視点の画像信号のスライスヘッダ)および基底視点のスライス単位の画像信号の符号化ビット列、
(i)画像信号符号化部107により生成された、非基底視点の画像信号のスライスに関連する情報(すなわち、非基底視点の画像信号のスライスヘッダ)および非基底視点のスライス単位の画像信号の符号化ビット列、および
(j)デプス信号符号化部108により生成された、デプス信号用のスライスに関連する情報(すなわち、デプス信号のスライスヘッダ)およびスライス単位のデプス信号の符号化ビット列に、
 それぞれの符号化ビット列をNALユニット単位で扱うためのヘッダ情報であるNALユニットヘッダをそれぞれ付加することにより、それぞれNALユニット化する。
 さらに、ユニット化部109は、必要に応じてNALユニット化した符号化ビット列同士を多重化し、図11に示した多視点画像の符号化ビット列を生成する。さらに、ネットワークを介して当該符号化ビット列が伝送される場合、図示しないパケット化部は、MPEG-2システム方式、MP4ファイルフォーマット、RTP等の規格に基づいてパケット化する。図示しない送信部はそのパケット化された符号化ビット列を送信する。
 ここで、画像信号用シーケンス情報符号化部102から供給される、基底視点の画像信号の、シーケンス情報の符号化ビット列には、図13に示したNALユニットヘッダが付加される。ここで、NALユニットの種類を示す"nal_unit_type"の値には、SPSであることを示す“7”が設定される。このNALユニットヘッダが付加された符号化ビット列は、図11に示した符号化ビット列のSPS#AのNALユニットに相当する。また、非基底視点の画像信号の、シーケンス情報の符号化ビット列には、図14に示したNALユニットヘッダが付加される。ここで、NALユニットの種類を示す"nal_unit_type"の値には、MVC拡張のSPSであるサブセットSPSであることを示す“15”が設定される。このNALユニットヘッダが付加された符号化ビット列は、図11に示した符号化ビット列全体の、SPS#BのNALユニットに相当する。
 デプス信号用シーケンス情報符号化部103から供給される、デプス信号のシーケンス情報の符号化ビット列には、図14に示したNALユニットヘッダが付加される。ここで、NALユニットの種類を示す"nal_unit_type"の値には、MVC拡張のSPSであるサブセットSPSであることを示す“15”が設定される。このNALユニットヘッダが付加された符号化ビット列は、図11に示した符号化ビット列全体の、SPS#CのNALユニットに相当する。
 画像信号用ピクチャ情報符号化部104から供給される、基底視点の画像信号の、ピクチャ情報の符号化ビット列には、図15に示したNALユニットヘッダが付加される。ここで、NALユニットの種類を示す"nal_unit_type"の値には、PPSであることを示す“8”が設定される。このNALユニットヘッダが付加された符号化ビット列は、図11に示した符号化ビット列全体の、PPS#AのNALユニットに相当する。また、非基底視点の画像信号の、ピクチャ情報の符号化ビット列にも、図15に示したNALユニットヘッダが付加される。ここで、NALユニットの種類を示す"nal_unit_type"の値には、PPSであることを示す“8”が設定される。このNALユニットヘッダが付加された符号化ビット列は、図11に示した符号化ビット列全体の、PPS#BのNALユニットに相当する。
 デプス信号用ピクチャ情報符号化部105から供給される、デプス信号のピクチャ情報の符号化ビット列にも、図15に示したNALユニットヘッダが付加される。ここで、NALユニットの種類を示す"nal_unit_type"の値には、PPSであることを示す“8”が設定される。このNALユニットヘッダが付加された符号化ビット列は、図11に示した符号化ビット列全体の、PPS#CのNALユニットに相当する。
 カメラパラメータ情報符号化部106から供給されるカメラパラメータ情報の符号化ビット列には、SEI用のNALユニットヘッダが付加される。ここで、NALユニットの種類を示す"nal_unit_type"の値には、SEIであることを示す“6”が設定される。このNALユニットヘッダが付加された符号化ビット列は、図11に示した符号化ビット列全体の、カメラパラメータ情報#0、#1のNALユニットに相当する。
 画像信号符号化部107から供給される、符号化された基底視点の画像信号のスライスヘッダ情報および符号化された基底視点の画像信号を含む符号化ビット列には、図17に示したNALユニットヘッダが付加される。ここで、NALユニットの種類を示す"nal_unit_type"の値には、基底視点の画像信号のスライスであることを示す“1”または“5”が設定される。このNALユニットヘッダが付加された符号化ビット列は、図11に示した符号化ビット列全体の、スライス#A00、#A01のNALユニットに相当する。
 なお、上記基底視点の画像信号の、スライスNALユニットの前には、基底視点の画像信号の視点情報を符号化するためのプリフィックスNALユニットが設定される。プリフィックスNALユニットの構造は図16に示した通りであるが、上述したように、MVC方式ではRBSPが設定されないため、図16に示したNALユニットヘッダのみが設定される。ここで、NALユニットの種類を示す"nal_unit_type"の値には、プリフィックスNALユニットであることを示す“14”が設定される。このNALユニットヘッダのみが符号化された符号化ビット列は、図11に示した符号化ビット列全体の、プリフィックスNALユニット#A00、#A01のNALユニットに相当する。
 また、符号化された非基底視点の画像信号のスライスヘッダおよび符号化された非基底視点のスライス単位の画像信号を含む符号化ビット列には、図18に示したNALユニットヘッダが付加される。ここで、NALユニットの種類を示す"nal_unit_type"の値には、非基底視点の画像信号のスライスであることを示す“20”が設定される。このNALユニットヘッダが付加された符号化ビット列は、図11に示した符号化ビット列全体の、スライス#B20、#B10、#B40、#B30、#B21、#B11、#B41、#B31のNALユニットに相当する。
 デプス信号符号化部108から供給される、符号化されたデプス信号のスライスヘッダおよび符号化されたスライス単位のデプス信号を含む符号化ビット列には、図18に示したNALユニットヘッダが付加される。ここで、NALユニットの種類を示す"nal_unit_type"の値には、デプス信号のスライスであることを示す“21”が設定される。このNALユニットヘッダが付加された符号化ビット列は、図11に示した符号化ビット列全体の、スライス#C00、#C10、#C20、#C01、#C11、#C21のNALユニットに相当する。
 次に、図1、3に示した実施の形態1に係る画像符号化装置100、100aによる多視点画像の符号化処理手順について説明する。
 図19は、実施の形態1に係る画像符号化装置100、100aによる多視点画像の符号化処理手順を示すフローチャートである。まず、画像信号用シーケンス情報符号化部102は基底視点の画像信号の、シーケンス全体の符号化に係るパラメータ情報を符号化し、基底視点の画像信号のシーケンス情報(すなわち、基底視点の画像信号のSPS)の符号化ビット列を生成する(S101)。
 続いて、ユニット化部109はステップS101の処理により得られた、基底視点の画像信号の、シーケンス情報の符号化ビット列に、NALユニット単位で扱うためのヘッダ情報を付加することによりNALユニット化する(S102)。さらに、ユニット化部109は、必要に応じて他のNALユニットと多重化する。
 続いて、画像信号用シーケンス情報符号化部102は非基底視点の画像信号の、シーケンス全体の符号化に係るパラメータ情報を符号化し、非基底視点の画像信号用の、シーケンス情報(すなわち、非基底視点の画像信号のSPS)の符号化ビット列を生成する(S103)。
 続いて、ユニット化部109はステップS104の処理により得られた、非基底視点の画像信号の、シーケンス情報の符号化ビット列に、NALユニット単位で扱うためのヘッダ情報を付加することによりNALユニット化する(S104)。さらに、ユニット化部109は、必要に応じて他のNALユニットと多重化する。
 続いて、デプス信号用シーケンス情報符号化部103は、デプス信号のシーケンス全体の符号化に係るパラメータ情報を符号化し、デプス信号のシーケンス情報(すなわち、デプス信号のSPS)の符号化ビット列を生成する(S105)。
 続いて、ユニット化部109はステップS105の処理により得られた、デプス信号のシーケンス情報の符号化ビット列に、NALユニット単位で扱うためのヘッダ情報を付加することによりNALユニット化する(S106)。さらに、ユニット化部109は、必要に応じて他のNALユニットと多重化する。
 続いて、画像信号用ピクチャ情報符号化部104は、基底視点の画像信号の、ピクチャ全体の符号化に係るパラメータ情報を符号化し、基底視点の画像信号の、ピクチャ情報(すなわち、基底視点の画像信号のPPS)の符号化ビット列を生成する(S107)。
 続いて、ユニット化部109はステップS107の処理により得られた、基底視点の画像信号の、ピクチャ情報の符号化ビット列に、NALユニット単位で扱うためのヘッダ情報を付加することによりNALユニット化する(S108)。さらに、ユニット化部109は、必要に応じて他のNALユニットと多重化する。
 続いて、画像信号用ピクチャ情報符号化部104は非基底視点の画像信号の、ピクチャ全体の符号化に係るパラメータ情報を符号化し、非基底視点の画像信号の、ピクチャ情報(すなわち、非基底視点の画像信号のPPS)の符号化ビット列を生成する(S109)。
 続いて、ユニット化部109はステップS109の処理により得られた、非基底視点の画像信号の、ピクチャ情報の符号化ビット列に、NALユニット単位で扱うためのヘッダ情報を付加することによりNALユニット化する(S110)。さらに、ユニット化部109は、必要に応じて他のNALユニットと多重化する。
 続いて、デプス信号用ピクチャ情報符号化部105はデプス信号のピクチャ全体の符号化に係るパラメータ情報を符号化し、デプス信号のピクチャ情報(すなわち、デプス信号のPPS)の符号化ビット列を生成する(S111)。
 続いて、ユニット化部109はステップS111の処理により得られた、デプス信号のピクチャ情報の符号化ビット列に、NALユニット単位で扱うためのヘッダ情報を付加することによりNALユニット化する(S112)。さらに、ユニット化部109は、必要に応じて他のNALユニットと多重化する。
 続いて、カメラパラメータ情報符号化部106は各視点の撮影に用いたカメラのパラメータ情報をSEIとして符号化し、カメラパラメータ情報の符号化ビット列を生成する(S113)。
 続いて、ユニット化部109はステップS113の処理により得られたカメラパラメータ情報の符号化ビット列に、NALユニット単位で扱うためのヘッダ情報を付加することによりNALユニット化する(S114)。さらに、ユニット化部109は、必要に応じて他のNALユニットと多重化する。
 続いて、ユニット化部109は、後に続くNALユニットの視点情報を含むNALユニット単位で扱うためのヘッダ情報を符号化し、プリフィックスNALユニットとする(S115)。上述したように、MVC方式ではRBSPが符号化されないためである。さらに、ユニット化部109は、必要に応じて他のNALユニットと多重化する。
 続いて、画像信号符号化部107は基底視点の画像信号のスライスに関連する情報(すなわち、基底視点の画像信号のスライスヘッダ)および符号化対象の基底視点の、スライス単位の画像信号を符号化し、基底視点のスライス単位の、画像信号の符号化ビット列を生成する(S116)。
 続いて、ユニット化部109ステップS116の処理により得られた、基底視点のスライス単位の、画像信号の符号化ビット列に、NALユニット単位で扱うためのヘッダ情報を付加することによりNALユニット化する(S117)。さらに、ユニット化部109は、必要に応じて他のNALユニットと多重化する。なお、図19には図示していないが、ピクチャを複数のスライスに分割して符号化する場合、ステップS116からS117の処理を繰り返す。
 続いて、画像信号符号化部107は非基底視点の画像信号のスライスに関連する情報(すなわち、非基底視点の画像信号のスライスヘッダ)および符号化対象の基底視点の、スライス単位の画像信号を符号化し、非基底視点のスライス単位の、画像信号の符号化ビット列を生成する(S118)。
 続いて、ユニット化部109はステップS117の処理により得られた、非基底視点のスライス単位の、画像信号の符号化ビット列に、NALユニット単位で扱うためのヘッダ情報を付加することによりNALユニット化する(S119)。さらに、ユニット化部109は、必要に応じて他のNALユニットと多重化する。なお、図19には図示していないが、ピクチャを複数のスライスに分割して符号化する場合、ステップS118からS119の処理を繰り返す。
 続いて、符号化管理部101は表示時刻において、符号化対象のすべての視点の画像信号の符号化処理が完了したか否かを判定する(S120)。当該表示時刻の画像信号の符号化処理が完了した場合(S120のY)、ステップS121の処理に進み、完了していない場合(S120のN)、ステップS118からステップS120の符号化処理を繰り返す。
 続いて、デプス信号符号化部108はデプス信号のスライスに関連する情報(すなわち、デプス信号のスライスヘッダ)および符号化対象のスライス単位のデプス信号を符号化し、デプス信号のスライスの符号化ビット列を生成する(S121)。
 続いて、ユニット化部109はステップS121の処理により得られた、スライス単位のデプス信号の符号化ビット列に、NALユニット単位で扱うためのヘッダ情報を付加することによりNALユニット化する(S122)。さらに、ユニット化部109は、必要に応じて他のNALユニットと多重化する。なお、図19には図示していないが、ピクチャを複数のスライスに分割して符号化する場合、ステップS121からS122の処理を繰り返す。
 続いて、符号化管理部101は当該表示時刻において、符号化対象のすべての視点のデプス信号の符号化処理が完了したか否かを判定する(S123)。当該表示時刻のデプス信号の符号化処理が完了した場合(S123のY)、ステップS121の処理に進み、完了していない場合(S123のN)、ステップS121からステップS123の符号化処理を繰り返す。
 続いて、符号化管理部101は、符号化対象のすべての画像信号およびデプス信号の符号化処理が完了したか否かを判定する(S124)。すべての画像信号およびデプス信号の符号化処理が完了した場合(S124のY)、本符号化処理を終了し、完了していない場合(S124のN)、ステップS113からステップS124の符号化処理を繰り返す。
 次に、図1、3に示した実施の形態1に係る画像符号化装置100、100aにより生成された多視点画像の符号化ビット列をネットワークを介して伝送する場合の送信処理手順について説明する。
 図20は、実施の形態1に係る画像符号化装置100、100aにより生成された多視点画像の符号化ビット列をネットワークを介して伝送する場合の送信処理手順を示すフローチャートである。図20のフローチャートに示す全体の処理は、図19のフローチャートにおける、ステップS102、S104、S106、S108、S110、S112、S114、S115、S117、S119およびS122のそれぞれ処理の後に、必要に応じて実行される。
 図20のフローチャートにおいて、図示しないパケット化部は、図19のフローチャートにおける、ステップS102、S104、S106、S108、S110、S112、S114、S115、S117、S119およびS122の処理により得られた符号化ビット列を、必要に応じてMPEG-2システム方式、MP4ファイルフォーマット、RTP等の規格に基づいてパケット化する(S201)。
 続いて、当該パケット化部は、必要に応じてオーディオ等の符号化ビット列と多重化する(S202)。続いて、図示しない送信部はパケット化された符号化ビット列をネットワーク等を介して随時送信する(S203)。
 なお、実施の形態1に係る画像符号化装置100、100aにより符号化された符号化ビット列は、既存の単視点のAVC/H.264符号化方式に対応した復号装置でも復号することができる。その場合、復号側で基底視点の画像信号のみが得られる。例えば、実施の形態1に係る画像符号化装置100、100aにより符号化された、図11に示した符号化ビット列は、AVC/H.264符号化方式のハイ・プロファイルに対応した復号装置で復号することができる。
 その際には、AVC/H.264符号化方式のハイ・プロファイルに対応している、
(a)"nal_unit_type"が“7”のNALユニットであるSPSのNALユニット#A、
(b)"nal_unit_type"が“8”のNALユニットであるPPSのNALユニット#A、#B、#C、
(c)"nal_unit_type"が“1”のNALユニットであるスライスNALユニット#A00、および
(d)"nal_unit_type"が“5”のNALユニットであるスライスNALユニット#A01、
 を復号する。
 ただし、PPSのNALユニット#B、#CについてはこれらのPPSを参照するスライスNALユニットは復号しないので、実際には使われない。AVC/H.264符号化方式のハイ・プロファイルに対応していない"nal_unit_type"が“15”のNALユニットであるSPSのNALユニット#B、#Cは復号しない。
 同様に、
(a)"nal_unit_type"が“14”のNALユニットであるプリフィックスNALユニット#A00、
(b)"nal_unit_type"が“20”のNALユニットであるスライスNALユニット#B10、#B20、#B11、#B21、および
(c)"nal_unit_type"が“21”のNALユニットであるスライスNALユニット#C00、#C10、#C20、#C01、#C11、#C21、
 も復号しない。
 さらに、実施の形態1に係る画像符号化装置100、100aにより符号化された符号化ビット列は、既存のMVC符合化方式に対応した復号装置でも復号することができる。その場合、復号側で多視点の画像信号のみが得られる。例えば、実施の形態1に係る画像符号化装置100、100aにより符号化された、図11に示した符号化ビット列は、AVC/H.264符号化方式のマルチビュー・ハイ・プロファイルに対応した復号装置で復号することができる。
 その際には、AVC/H.264符号化方式のマルチビュー・ハイ・プロファイルに対応している、
(a)"nal_unit_type"が“7”のNALユニットであるSPSのNALユニット#A、
(b)"nal_unit_type"が“15”のNALユニットであるSPSのNALユニット#B、#C、
(c)"nal_unit_type"が“8”のNALユニットであるPPSのNALユニット#A、#B、#C、
(d)"nal_unit_type"が“14”のNALユニットであるプリフィックスNALユニット#A00、
(e)"nal_unit_type"が“1”のNALユニットであるスライスNALユニット#A00、
(f)"nal_unit_type"が“5”のNALユニットであるスライスNALユニット#A01、および
(g)"nal_unit_type"が“20”のNALユニットであるスライスNALユニット#B10、#B20、#B11、#B21、
 を復号する。
 ただし、SPSのNALユニット#C、PPS NALユニット#CについてはこれらのSPSやPPSを参照するスライスNALユニットは復号しないので、実際には使われない。AVC/H.264符号化方式のマルチビュー・ハイ・プロファイルに対応していない"nal_unit_type"が“21”のNALユニットであるスライスNALユニット#C00、#C10、#C20、#C01、#C11、#C21は復号しない。
 以上説明したように実施の形態1によれば、複数の視点からの画像信号を含む多視点画像信号を符号化して生成された多視点画像符号化ビット列と、補助情報として複数の視点からのデプス信号を含む多視点デプス信号を符号化して生成された多視点デプス信号ビット列を同一の符号化ストリームとしてユニット化することにより、多視点画像を効率よく伝送または蓄積することができる。すなわち、符号化する画像信号の視点を大きく削減することができ、符号化効率や再生品質が向上する。
 さらに、上記符号化ビット列のデータ構造を、従来の単視点の画像を復号する復号装置で基底視点の画像信号のみを復号したり、従来の多視点の画像を復号する復号装置で多視点画像信号のみを復号したりすることができる構造としたことにより、スケーラブル機能を実現し、従来の単視点の2次元画像を対象としたAVC/H.264符号化方式や、多視点の画像信号のみを対象としたMVC方式との互換性を保つことができる。
 さらに、多視点画像信号と多視点デプス信号とを同数でそれぞれが1対1に対応している符号化ビット列を生成できるのはもちろんのこと、多視点画像信号とデプス信号の視点の数が異なっており、それぞれが1対1に対応していない符号化ビット列も生成することができる。
(実施の形態2)
 次に、実施の形態1に係る画像符号化装置100、100aにより符号化された符号化データを復号する画像復号装置300について説明する。
 図21は、本発明の実施の形態2に係る画像復号装置300の構成を示すブロック図である。実施の形態2に係る画像復号装置300は、分解部301、復号管理部302、パラメータ情報復号部320、画像信号復号部307、奥行き情報復号部(より具体的には、デプス信号復号部309)および復号画像バッファ310を備える。パラメータ情報復号部320は、基底視点の画像信号用シーケンス情報復号部303、MVC拡張情報を含むシーケンス情報復号部304、ピクチャ情報復号部305および補足付加情報復号部306を含む。
 分解部301は、それぞれ異なる複数の視点からの複数の画像が符号化された画像符号化データと、少なくとも一つ以上の視点からの特定空間の奥行きを示す奥行き情報が符号化された奥行き情報符号化データと、複数の画像および奥行き情報のもとになる複数の視点を特定するための視点情報を含むパラメータ情報が符号化されたパラメータ情報符号化データとを含む符号化ストリームを分解する。この符号化ストリームには、実施の形態1に係る画像符号化装置100、100aにより生成された符号化ストリームが含まれている。なお、この符号化ストリームに含まれる、奥行き情報符号化データの数は、画像符号化データの数より少なく設定されていてもよい。
 画像信号復号部307は、分解部301により分解された画像符号化データを復号して、複数の画像を復元する。上記複数の視点のうち基準とすべき視点が一つ設定される場合、画像信号復号部307は、上記複数の画像のうち、基準とすべき視点からの画像が符号化された第1画像符号化データを復号して当該画像を復元し、当該基準とすべき視点からの画像以外の画像が符号化された第2画像符号化データを復号して当該画像を復元する。
 上記奥行き情報復号部は、分解部301により分解された奥行き情報符号化データを復号して、奥行き情報を復元する。ここで、奥行き情報符号化データは、ある視点からのモノクローム画像で表された奥行き情報が符号化されたデータであってもよい。この場合、上記奥行き情報復号部は、奥行き情報符号化データを復号して、当該モノクローム画像を復元する。
 パラメータ情報復号部320は、分解部301により分解されたパラメータ情報符号化データを復号して、パラメータ情報を復元する。上記複数の視点のうち基準とすべき視点が一つ設定される場合、パラメータ情報復号部320は、上記複数の画像のうち、基準とすべき視点からの画像の第1パラメータ情報が符号化された第1パラメータ情報符号化データを復号して、当該第1パラメータ情報を復元する。また、パラメータ情報復号部320は、上記複数の画像のうち、当該基準とすべき視点からの画像以外の画像の第2パラメータ情報が符号化された第2パラメータ情報符号化データを復号して、当該第2パラメータ情報を復元する。また、パラメータ情報復号部320は、上記奥行き情報の第3パラメータ情報が符号化された第3パラメータ情報符号化データを復号して、当該第3パラメータ情報を復元する。
 なお、第3パラメータ情報は、第2パラメータ情報のシンタックス構造に対応するシンタックス構造で記述されてもよい。例えば、第2パラメータ情報および第3パラメータ情報はAVC/H.264符号化方式のマルチビュー・ハイ・プロファイルに準拠して記述されてもよい。また、第2パラメータ情報および第3パラメータ情報には、視点の識別情報が記述されていてもよく、上記画像符号化データとして符号化されていた画像のもとになる視点の位置と、上記奥行き情報符号化データとして符号化されていた奥行き情報のもとになる視点の位置が一致する場合、それらの視点に共通の識別情報が付与されていてもよい。
 図22は、実施の形態2の変形例に係る画像復号装置300aの構成を示すブロック図である。実施の形態2の変形例に係る画像復号装置300aは、図21に示す画像復号装置300に仮想視点画像生成部330が追加された構成である。
 当該変形例において、仮想視点画像生成部330は、画像信号復号部307により復号された画像および上記奥行き情報復号部により復号された奥行き情報をもとに、その画像のもとになる視点と異なる、別の視点からの画像を生成する。より具体的には、仮想視点画像生成部330は、画像信号復号部307により復号された画像、上記奥行き情報復号部により復号された奥行き情報、およびパラメータ情報復号部320により復号された、カメラパラメータ等のパラメータ情報をもとに、仮想視点からの画像を生成する。
 仮想視点画像生成部330は、この仮想視点からの画像の生成を既存のアルゴリズムを用いて実現することができる。この仮想視点は、アプリケーションからの指示により、またはユーザ操作に起因して仮想視点画像生成部330に指定される。その他の処理は、図21に示した実施の形態2の基本例に係る画像復号装置300の説明と同様のため、その説明を省略する。
 以下、実施の形態2に係る画像復号装置300、300aの構成について、より具体的に説明する。分解部301は、実施の形態1に係る画像符号化装置100、100aにより生成され符号化ビット列を取得する。符号化ビット列を取得する形態は、ネットワーク伝送された符号化ビット列を受信する形態でもよし、DVD等の蓄積メディアに記録された符号化ビット列を読み込む形態でもよいし、BS/地上波等の放送で放映された符号化ビット列を受信する形態でもよい。
 また、分解部301は、供給される符号化ビット列をNALユニット単位に分離する。この際、図示しないパケット分解部は、必要に応じてMPEG-2システム方式、MP4ファイルフォーマット、RTP等のパケット・ヘッダを除去する。分解部301は、分離したNALユニットのヘッダ部であるNALユニットヘッダを復号し、復号したNALユニットヘッダの情報を復号管理部302に供給する。これらのNALユニットヘッダの情報の管理は復号管理部302で行われる。
 分解部301は、NALユニットヘッダに含まれるNALユニットの種類を見分ける識別子である"nal_unit_type"の値が“7”、すなわち当該NALユニットが、基底視点の画像信号の、シーケンス全体の符号化に係るパラメータ情報が符号化されている符号化ビット列の場合、当該NALユニットのRBSP部の符号化ビット列を基底視点の画像信号用シーケンス情報復号部303に供給する。
 分解部301は、"nal_unit_type"の値が“15”、すなわちMVC拡張情報を含むシーケンス全体の符号化に係るパラメータ情報が符号化されている符号化ビット列の場合、当該NALユニットのRBSP部の符号化ビット列をMVC拡張情報を含むシーケンス情報復号部304に供給する。
 分解部301は、"nal_unit_type"の値が“8”、すなわちピクチャの符号化に係るパラメータ情報等が符号化されている符号化ビット列の場合、当該NALユニットのRBSP部の符号化ビット列をピクチャ情報復号部305に供給する。
 分解部301は、"nal_unit_type"の値が“6”、すなわち補足付加情報が符号化されている符号化ビット列の場合、当該NALユニットのRBSP部の符号化ビット列を補足付加情報復号部306に供給する。
 分解部301は、"nal_unit_type"の値が“1”または“5”、すなわち基底視点の画像信号の、符号化モード、動きベクトルまたは視差ベクトル、符号化残差信号等が符号化されている符号化ビット列の場合、当該NALユニットのRBSP部の符号化ビット列を画像信号復号部307に供給する。
 分解部301は、"nal_unit_type"の値が“20”、すなわち非基底視点の画像信号の、符号化モード、動きベクトルまたは視差ベクトル、符号化残差信号等が符号化されている符号化ビット列の場合、当該NALユニットのRBSP部の符号化ビット列を画像信号復号部307に供給する。
 分解部301は、"nal_unit_type"の値が“21”、すなわちデプス信号の、符号化モード、動きベクトルまたは視差ベクトル、符号化残差信号等が符号化されている符号化ビット列の場合、当該NALユニットのRBSP部の符号化ビット列をデプス信号復号部309に供給する。
 なお、"nal_unit_type"の値が“14”、すなわち後に続くスライスNALユニットの視点情報等が符号化されているプリフィックスNALユニットの場合、当該NALユニットのRBSP部の符号化ビット列は空である。
 分解部301は、"nal_unit_type"の値が“14” 、“20” 、“21”の場合、NALユニットヘッダに含まれる視点情報である"nal_unit_header_svc_mvc_extension"も復号し、復号された視点情報を復号管理部302に供給する。ここで復号される視点情報には視点ID等が含まれる。なお、"nal_unit_type"の値が“14”のNALユニットヘッダに含まれる視点情報は、後に続くNALユニットの視点情報となり、"nal_unit_type"の値が “20” または“21” のNALユニットヘッダに含まれる視点情報は、当該NALユニットの視点情報となる。これらの視点情報の管理は復号管理部302で行われる。
 基底視点の画像信号用シーケンス情報復号部303は、分解部301から供給される基底視点の画像信号の、シーケンス全体の符号化に係るパラメータ情報が符号化された符号化ビット列を復号する。この供給される符号化ビット列は、図11に示した符号化ビット列のSPS#AのRBSP部に相当する。ここで、供給されるRBSP部の符号化ビット列は、図13に示した"seq_parameter_set_rbsp"である。基底視点の画像信号用シーケンス情報復号部303は、図13に示した"seq_parameter_set_rbsp"のシンタックス構造に従って符号化ビット列を復号し、基底視点の画像信号の、シーケンス全体の符号化に係るパラメータ情報を得る。基底視点の画像信号用シーケンス情報復号部303は、この復号された基底視点の画像信号の、シーケンス情報を復号管理部302に供給する。この基底視点の画像信号の、シーケンス情報の管理は復号管理部302で行われる。
 MVC拡張情報を含むシーケンス情報復号部304は、分解部301から供給されるMVC拡張情報を含むシーケンス全体の符号化に係るパラメータ情報、すなわち非基底視点の画像信号のシーケンス情報またはデプス信号のシーケンス情報が符号化された符号化ビット列を復号する。この供給される符号化ビット列は、図11に示した符号化ビット列のSPS#B、SPS#CのRBSP部に相当する。ここで、供給されるRBSP部の符号化ビット列は、図14にした"subset_seq_parameter_set_rbsp"である。MVC拡張情報を含むシーケンス情報復号部304は、図14にした"subset_seq_parameter_set_rbsp"のシンタックス構造に従って符号化ビット列を復号し、非基底視点の画像信号の、シーケンス全体の符号化に係るパラメータ情報またはデプス信号のシーケンス全体の符号化に係るパラメータ情報を得る。
 非基底視点の画像信号のシーケンス情報か、デプス信号のシーケンス情報かは、"profile_idc"の値を参照することにより判別することができる。"profile_idc"の値が、AVC/H.264符号化方式のマルチビュー・ハイ・プロファイルを示す“118”の場合、非基底視点の画像信号のシーケンス情報であり、多視点デプス信号も復号できるプロファイルであることを示す “120”の場合、デプス信号のシーケンス情報である。"subset_seq_parameter_set_rbsp"にはMVC拡張情報が含まれており、MVC拡張情報を含むシーケンス情報復号部304で復号されるシーケンス情報には、MVC拡張情報も含まれる。MVC拡張情報を含むシーケンス情報復号部304は、これらの復号された、非基底視点の画像信号のシーケンス情報またはデプス信号のシーケンス情報を復号管理部302に供給する。これらのシーケンス情報の管理は復号管理部302で行われる。
 ピクチャ情報復号部305は、分解部301から供給されるピクチャ全体の符号化に係るパラメータ情報が符号化された符号化ビット列を復号する。この供給される符号化ビット列は、図11に示した符号化ビット列のPPS#A、PPS#B、PPS#CのRBSP部に相当する。ここで、供給されるRBSP部の符号化ビット列は、図15に示した"pic_parameter_set_rbsp"である。ピクチャ情報復号部305は、図15に示した"pic_parameter_set_rbsp"のシンタックス構造に従って符号化ビット列を復号し、基底視点の画像信号、非基底視点の画像信号、またはデプス信号の、ピクチャ全体の符号化に係るパラメータ情報を得る。ピクチャ情報復号部305は、この復号されたピクチャ情報を復号管理部302に供給する。このピクチャ情報の管理は復号管理部302で行われる。
 補足付加情報復号部306は、分解部301から供給される補足付加情報が符号化された符号化ビット列を復号し、補足付加情報を出力する。供給される符号化ビット列にカメラパラメータ情報が含まれている場合、復号後の仮想視点の画像信号の生成や表示の際に、このカメラパラメータ情報を用いることができる。
 画像信号復号部307は、分解部301から供給される基底視点の画像信号の、スライスヘッダ、並びにスライスの符号化モード、動きベクトル、符号化残差信号等が符号化された符号化ビット列を復号する。この供給される符号化ビット列は、図11に示した符号化ビット列のスライス#A00、#A01のRBSP部に相当する。ここで、供給されるRBSP部の符号化ビット列は、図17に示した"slice_layer_without_partitioning_rbsp"である。
 画像信号復号部307は、図17に示した"slice_layer_without_partitioning_rbsp"のシンタックス構造に従って符号化ビット列を復号する。まず、画像信号復号部307は、"slice_layer_without_partitioning_rbsp"に含まれる"slice_header"を復号し、スライスに関連する情報を得る。画像信号復号部307は、この復号されたスライスに関連する情報を復号管理部302に供給する。
 ここで上述した通り、"slice_layer_without_partitioning_rbsp"に含まれる"slice_header"には、参照すべきPPSを特定する番号"pic_parameter_set_id"が含まれており、図11に示したスライス#A00、#A01の"pic_parameter_set_id"には、スライス#A00、#A01が参照すべきPPS#Aの"pic_parameter_set_id"の値が設定されている。また、PPS#Aの"seq_parameter_set_id"には、PPS#Aが参照すべきSPS#Aの"seq_parameter_set_id"の値が設定されているため、スライス#A00、#A01が参照すべきシーケンス情報がSPS#Aであることを明確に特定することができる。これらの管理は復号管理部302で行われる。
 画像信号復号部307は、スライス#A00または#A01の"slice_header"から復号されたスライスに関連する情報に加えて、復号管理部302から供給されるスライス#A00、#A01が参照すべき、SPS#Aから復号されたシーケンス情報およびPPS#Aから復号されたピクチャ情報を用いて、"slice_layer_without_partitioning_rbsp"に含まれる"slice_data"を復号し、基底視点の復号画像信号を得る。
 この基底視点の復号画像信号は、復号画像バッファ310に格納される。基底視点の画像信号の符号化ビット列を復号する際、動き補償予測等のインター予測を用いることもあるが、その際には既に復号され、復号画像バッファ310に格納された基底視点の復号画像信号を参照画像として利用する。なお、基底視点のスライスNALユニットのNALユニットヘッダには視点情報が含まれないが、基底視点のスライスNALユニットの前に符号化されるプリフィックスNALユニットのNALユニットヘッダの視点情報を、基底視点のスライスNALユニットの視点情報とする。
 さらに、画像信号復号部307は、分解部301から供給される非基底視点の画像信号の、スライスヘッダ、並びにスライスの符号化モード、動きベクトルまたは視差ベクトル、符号化残差信号等が符号化された符号化ビット列を復号する。この供給される符号化ビット列は、図11に示した符号化ビット列のスライス#B20、#B10、#B40、#B30、#B21、#B11、#B41、#B31のRBSP部に相当する。
 ここで、供給されるRBSP部の符号化ビット列は、図18に示した"slice_layer_in_scalable_extension_rbsp"である。画像信号復号部307は、図18に示した"slice_layer_in_scalable_extension_rbsp"のシンタックス構造に従って符号化ビット列を復号する。まず、画像信号復号部307は、"slice_layer_in_scalable_extension_rbsp"に含まれる"slice_header"を復号し、スライスに関連する情報を得る。画像信号復号部307は、この復号されたスライスに関連する情報を復号管理部302に供給する。
 ここで上述した通り、"slice_layer_in_scalable_extension_rbsp"に含まれる"slice_header"には、参照すべきPPSを特定する番号"pic_parameter_set_id"が含まれており、図11に示したスライス#B20、#B10、#B40、#B30、#B21、#B11、#B41、#B31の"pic_parameter_set_id"には、スライス#B20、#B10、#B40、#B30、#B21、#B11、#B41、#B31が参照すべきPPS#Bの"pic_parameter_set_id"の値が設定されている。
 また、PPS#Bの"seq_parameter_set_id"には、PPS#Bが参照すべきSPS#Bの"seq_parameter_set_id"の値が設定されているため、スライス#B20、#B10、#B40、#B30、#B21、#B11、#B41、#B31が参照すべきシーケンス情報がSPS#Bであることを明確に特定することができる。これらの管理は復号管理部302で行われる。
 画像信号復号部307は、
(a)スライス#B20、#B10、#B40、#B30、#B21、#B11、#B41、#B31の"slice_header"から復号されたスライスに関連する情報に加えて、
(b)復号管理部302から供給されるスライス#B20、#B10、#B40、#B30、#B21、#B11、#B41、#B31のNALユニットヘッダに含まれていた"nal_unit_header_svc_mvc_extension"から復号された視点情報、
(c)スライス#B20、#B10、#B40、#B30、#B21、#B11、#B41、#B31が参照すべきSPS#Bから復号されたシーケンス情報、および
(d)スライス#B20、#B10、#B40、#B30、#B21、#B11、#B41、#B31が参照すべきPPS#Bから復号されたピクチャ情報、
 を用いて、"slice_layer_in_scalable_extension_rbsp"に含まれる"slice_data"を復号し、非基底視点の復号画像信号を得る。
 この非基底視点の復号画像信号は、復号画像バッファ310に格納される。非基底視点の画像信号の符号化ビット列を復号する際、視点間予測や動き補償予測等のインター予測を用いることもあるが、その際には既に復号され、復号画像バッファ310に格納された基底視点、または非基底視点の画像信号を参照画像として利用する。
 デプス信号復号部309は、分解部301から供給されるデプス信号の、スライスヘッ、並びにスライスの符号化モード、動きベクトルまたは視差ベクトル、符号化残差信号等が符号化された符号化ビット列を復号する。この供給される符号化ビット列は、図11に示した符号化ビット列のスライス#C00、#C20、#C40、#C01、#C21、#C41のRBSP部に相当する。
 ここで、供給されるRBSP部の符号化ビット列は、図18に示した"slice_layer_in_scalable_extension_rbsp"である。デプス信号復号部309は、図18に示した"slice_layer_in_scalable_extension_rbsp"のシンタックス構造に従って符号化ビット列を復号する。まず、デプス信号復号部309は、"slice_layer_in_scalable_extension_rbsp"に含まれる"slice_header"を復号し、スライスに関連する情報を得る。デプス信号復号部309は、この復号されたスライスに関連する情報を復号管理部302に供給する。
 ここで上述した通り、"slice_layer_in_scalable_extension_rbsp"に含まれる"slice_header"には、参照すべきPPSを特定する番号"pic_parameter_set_id"が含まれており、図11に示したスライス#C00、#C20、#C40、#C01、#C21、#C41の"pic_parameter_set_id"には、スライス#C00、#C20、#C40、#C01、#C21、#C41が参照すべきPPS#Cの"pic_parameter_set_id"の値が設定されている。また、PPS#Cの"seq_parameter_set_id"には、PPS#Cが参照すべきSPS#Cの"seq_parameter_set_id"の値が設定されているため、スライス#C00、#C20、#C40、#C01、#C21、#C41が参照すべきシーケンス情報がSPS#Cであることを明確に特定することができる。これらの管理は復号管理部302で行われる。
 デプス信号復号部309は、
(a)スライススライス#C00、#C20、#C40、#C01、#C21、#C41の"slice_header"から復号されたスライスに関連する情報に加えて、
(b)復号管理部302から供給されるスライス#C00、#C20、#C40、#C01、#C21、#C41のNALユニットヘッダに含まれていた"nal_unit_header_svc_mvc_extension"から復号された視点情報、
(c)スライス#C00、#C20、#C40、#C01、#C21、#C41が参照すべきSPS#Cから復号されたシーケンス情報、および
(d)スライス#C00、#C20、#C40、#C01、#C21、#C41が参照すべきPPS#Cから復号されたピクチャ情報、
 を用いて、"slice_layer_in_scalable_extension_rbsp"に含まれる"slice_data"を復号し、復号デプス信号を得る。
 この復号デプス信号は復号画像バッファ310に格納される。デプス信号の符号化ビット列を復号する際には視点間予測や動き補償予測等のインター予測を用いることもあるが、その際には既に復号され、復号画像バッファ310に格納された復号デプス信号を参照画像として利用する。なお、デプス信号の復号方法はモノクローム・フォーマットの画像信号の場合と同じ方法を利用することができる。
 復号管理部302は、復号画像バッファ310に格納された、復号画像信号および復号デプス信号の出力タイミングを管理し、復号画像バッファ310から同一時刻の、各視点の復号画像信号および復号デプス信号を同期して出力する。この際、各視点の復号画像信号および復号デプス信号に、それらの視点を特定する情報である視点IDを関連付けて出力する。
 画像復号装置300、300aから出力された各視点の復号画像信号は、表示装置等で表示されてもよい。所望の視点が出力されない場合、画像復号装置300、300aから出力された復号画像信号、復号デプス信号、及びカメラパラメータ等の補足付加情報から、仮想視点の画像信号を生成し、得られた仮想視点の画像信号を表示装置等に表示する。なお、変形例に係る画像復号装置300aでは仮想視点画像生成部330でその仮想視点の画像信号を生成してもよい。
 次に、図21、22に示した実施の形態2に係る画像復号装置300、300aによる多視点画像の復号処理手順について説明する。
 図23は、実施の形態2に係る画像復号装置300、300aによる多視点画像の復号処理手順を示すフローチャートである。図23のフローチャートにおいて、分解部301は、取得した符号化ビット列をNALユニット単位に分離し、NALユニットヘッダを復号する(S301)。このステップS301において、ネットワークを介して符号化ビット列を受信し、NALユニット単位に分離する処理手順について、より具体的に説明する。
 図24は、ネットワークを介して符号化ビット列を受信し、NALユニット単位に分離する処理手順について示すフローチャートである。図24のフローチャートにおいて、図示しない受信部は、ネットワークを介して符号化ビット列を受信する(S401)。続いて、図示しないパケット分解部は、その受信された符号化ビット列に用いられたMPEG-2システム方式、MP4ファイルフォーマット、RTP等の規格に基づいて付加されたパケット・ヘッダを除去し、上記符号化ビット列を得る(S402)。続いて、分解部301は、その符号化ビット列をNALユニット単位で分離する(S402)。続いて、分解部301は、NALユニットヘッダを復号する(S403)。
 なお、分解部301は、"nal_unit_type"の値が“14” 、“20”または“21”の場合、NALユニットヘッダに含まれる視点情報である"nal_unit_header_svc_mvc_extension"も復号する。ここで復号される視点情報には視点ID等が含まれる。なお、"nal_unit_type"の値が“14”のNALユニットヘッダに含まれる視点情報は、後に続くNALユニットの視点情報となり、"nal_unit_type"の値が “20” または“21” のNALユニットヘッダに含まれる視点情報は、当該NALユニットの視点情報となる。
 図23のフローチャートに戻る。分解部301は、ステップS301の処理により分離されたNALユニットのヘッダ部であNALユニットヘッダに含まれる、NALユニットの種類を見分ける識別子である"nal_unit_type"を評価する(S302)。
(a)"nal_unit_type"が“7”、すなわち当該NALユニットが基底視点の画像信号の、シーケンス全体の符号化に係るパラメータ情報が符号化された符号化ビット列の場合(S302の7)、ステップS303に進む。
(b)"nal_unit_type"が“15”、すなわちMVC拡張情報を含むシーケンス全体の符号化に係るパラメータ情報、すなわち非基底視点の画像信号のシーケンス情報またはデプス信号のシーケンス情報が符号化された符号化ビット列の場合(S302の15)、ステップS304に進む。
(c)"nal_unit_type"が“8”、すなわち当該NALユニットが基底視点の画像信号、非基底視点の画像信号、またはデプス信号の、ピクチャ全体の符号化に係るパラメータ情報が符号化された符号化ビット列の場合(S302の8)、ステップS305に進む。
(d)"nal_unit_type"が“6”、すなわち当該NALユニットが補足付加情報が符号化された符号化ビット列の場合(S302の6)、ステップS306に進む。
(e)"nal_unit_type"が“14”、すなわち当該NALユニットがプリフィックスNALユニットの場合(S302の14)、ステップS307に進む。
(f)"nal_unit_type"が“1”または“5”、すなわち当該NALユニットが基底視点のスライス単位の画像信号が符号化された符号化ビット列の場合(S302の1または5)、ステップS308に進む。
(g)"nal_unit_type"が“20”、すなわち当該NALユニットが非基底視点のスライス単位の画像信号が符号化された符号化ビット列の場合(S302の20)、ステップS309に進む。
(h)"nal_unit_type"が“21”、すなわち当該NALユニットがスライス単位のデプス信号が符号化された符号化ビット列の場合(S302の21)、ステップS310に進む。
(i)"nal_unit_type"がその他の値をとる場合(S302のその他)もあるが、本明細書では説明を省略する。
 基底視点の画像信号用シーケンス情報復号部303は、基底視点の画像信号の、シーケンス全体の符号化に係るパラメータ情報が符号化された符号化ビット列を復号し、基底視点の画像信号の、シーケンス全体の符号化に係るパラメータ情報を得る(S303)。
 MVC拡張情報を含むシーケンス情報復号部304は、MVC拡張情報を含むシーケンス全体の符号化に係るパラメータ情報、すなわち非基底視点の画像信号のシーケンス情報またはデプス信号のシーケンス情報が符号化された符号化ビット列を復号し、非基底視点の画像信号またはデプス信号の、シーケンス全体の符号化に係るパラメータ情報を得る(S304)。
 ピクチャ情報復号部305は、ピクチャ全体の符号化に係るパラメータ情報が符号化された符号化ビット列を復号し、基底視点の画像信号、非基底視点の画像信号またはデプス信号の、ピクチャ全体の符号化に係るパラメータ情報を得る(S305)。
 補足付加情報復号部306は、補足付加情報が符号化された符号化ビット列を復号し、補足付加情報を得る(S306)。
 分解部301は、プリフィックスNALユニットのRBSPを復号する(S307)。ただし、MVC方式ではプリフィックスNALユニットのRBSPは空であるため、事実上復号処理は行われない。
 画像信号復号部307は、基底視点の画像信号のスライスヘッダ、並びに基底視点の画像信号のスライスの符号化モード、動きベクトル、符号化残差信号等が符号化された符号化ビット列を復号し、基底視点のスライス単位の画像信号を得る(S308)。
 画像信号復号部307は、非基底視点の画像信号のスライスヘッダ、並びに非基底視点の画像信号のスライスの符号化モード、動きベクトル、符号化残差信号等が符号化された符号化ビット列を復号し、非基底視点のスライス単位の画像信号を得る(S309)。
 デプス信号復号部309は、デプス信号のスライスヘッダ、並びにデプス信号のスライスの符号化モード、動きベクトル、符号化残差信号等が符号化された符号化ビット列を復号し、スライス単位のデプス信号を得る(S310)。
 復号管理部302は、復号された、画像信号およびデプス信号を出力するタイミングか否かを判断する(S311)。出力するタイミングでない場合(S311のN)、ステップS313に進み、出力するタイミングである場合(S311のY)、復号された、画像信号およびデプス信号を出力し(S312)、ステップS313に進む。この際、各視点の復号画像信号および復号デプス信号と、それらの視点を特定する情報である視点IDとを関連付けて出力する。
 すべてのNALユニットの復号処理が完了したかどうかを判定する(S313)。すべてのNALユニットの符号化処理が完了した場合(S313のY)、本復号処理を終了し、完了していない場合(S313のN)、ステップS301からステップS313の処理を繰り返す。
 なお、実施の形態2に係る画像復号装置300、300aは、単視点の画像信号が既存のAVC/H.264方式で符号化された符号化ビット列を復号し、単視点の画像信号を得ることもできる。さらに、実施の形態2に係る画像復号装置300、300aは、デプス信号を含まない多視点の画像信号が既存のMVC方式で符号化された符号化ビット列を復号し、多視点の画像信号を得ることもできる。
 以上の説明においては、図10に示したような多視点画像とデプスマップの視点の数が異なっており、それぞれが1対1に対応していない場合について説明したが、もちろん多視点画像信号と多視点デプス信号が同数で、それぞれが1対1に対応していても符号化または復号することができる。
 以上説明したように実施の形態2によれば、多視点画像の復号において、複数の視点からの画像信号を含む多視点画像信号とともに、補助情報として複数の視点からのデプス信号を含む多視点デプス信号が符号化された符号化ビット列を復号して、多視点画像信号と多視点デプス信号を得ることができる。その際、当該符号化ビット列を効率よく受信または読み出すことができる。
 また、実施の形態2に係る画像復号装置300、300aは、従来の単視点の画像信号のみが符号化された符号化ビット列を復号し、単視点の画像信号を得ることができる。さらに、実施の形態2に係る画像復号装置300、300aは、補助情報としての多視点デプス信号を含まない、複数の視点の画像信号を含む多視点画像信号のみが符号化された符号化ビット列を復号して多視点画像信号を得ることもでき、上位互換性が保たれる。
 さらに、多視点画像信号と多視点デプス信号が同数でそれぞれが1対1に対応した符号化ビット列を復号できるのはもちろんのこと、多視点画像信号とデプス信号の視点の数が異なっており、それぞれが1対1に対応していない符号化ビット列を復号することもできる。
(実施の形態3)
 次に、本発明の実施の形態3に係る画像符号化装置について説明する。実施の形態3に係る画像符号化装置は、符号化する必要のある画像信号およびデプス信号の視点をコンテンツやシーンの内容に応じて判定し、その判定に応じて必要な視点の、画像信号およびデプス信号のみを符号化する点が実施の形態1に係る画像符号化装置と異なる。それ以外については、実施の形態1に係る画像符号化装置と同様であるため、その説明を省略する。
 図25は、実施の形態3に係る画像符号化装置400の構成を示すブロック図である。図25において、図2と同じ構成ブロックには同じ符号を付している。実施の形態3に係る画像符号化装置400は、実施の形態1に係る画像符号化装置100の構成に、判定部120、切替部121、122が追加された構成である。
 判定部120は、ある視点からの奥行き情報を符号化対象とするか否かを判定する。この場合、ユニット化部109は、画像信号符号化部107により生成された画像符号化データ、および判定部120により符号化対象とすると判定された奥行き情報をデプス信号符号化部108により符号化した奥行き情報符号化データを含む符号化ストリームを生成する。
 また、判定部120は、ある視点からの画像を符号化対象とするか否かを判定する。この場合、ユニット化部109は、判定部120により符号化対象とすると判定された画像を画像信号符号化部107により符号化した画像符号化データ、およびデプス信号符号化部108により生成された奥行き情報符号化データを含む符号化ストリームを生成する。なお、判定部120はその両方の判定を行うこともできる。その場合、ユニット化部109は、判定部120により符号化対象とすると判定された画像を画像信号符号化部107により符号化した画像符号化データ、および判定部120により符号化対象とすると判定された奥行き情報をデプス信号符号化部108により符号化した奥行き情報符号化データを含む符号化ストリームを生成する。
 以下、判定部120の処理をより具体的に説明する。判定部120には、符号化管理情報、カメラパラメータ情報、各視点の画像信号、および各視点のデプス信号が供給される。判定部120はこれらをもとに、符号化すべき画像信号の視点およびデプス信号の視点を決定する。判定部120は、符号化しないと判定した、画像信号の視点およびデプス信号の視点に関する情報を省略した、新たな符号化管理情報を作成し、符号化管理部101に供給する。なお、図25の符号化管理部101に供給される符号化管理情報は、図1の符号化管理部101に供給される符号化管理情報と同様の情報である。
 以下、判定部120における判定方法の具体例を説明する。
 判定例1として、判定部120は、判定対象の奥行き情報のもとになる視点と、既に符号化対象に決定されている別の奥行き情報のもとになる視点との距離が所定の第1基準距離より短いとき、判定対象の奥行き情報を符号化対象としないと判定し、当該第1基準距離より長いとき、判定対象の奥行き情報を符号化対象とすると判定する。当該第1基準距離は、実験やシミュレーションにより得られた知見をもとに、設計者が任意に設定することができる。
 判定部120は、供給されるカメラパラメータ情報に含まれるカメラの外部パラメータ情報から、各画像信号の視点および各デプス信号の視点の位置を特定することができる。当該外部パラメータには各視点のカメラの配置情報が含まれ、この配置情報には3次元空間上の位置(x、y、z座標)または3軸(x、y、z軸)上の回転角度(ロール、ピッチ、ヨー)が含まれている。判定部120は、供給される、同時刻の複数のデプス信号の視点間の間隔が十分に密である場合、いずれかのデプス信号を符号化対象から外す。このように、判定部120は一部の視点からのデプス信号の符号化を省略しても復号側で所望の視点の画像信号の生成が容易にできると判断した場合、所望の視点の画像信号の生成に必要のない視点のデプス信号を省略し、その生成に必要な視点のデプス信号を符号化対象として採用する。この判定例1は、図6、7を参照しながら説明した知見にもとづく。
 判定例2として、判定部120は、同一画像内の第1被写体と第2被写体との距離が所定の第2基準距離より短いとき、複数のデプス信号のうち一部のデプス信号を省略する。当該第2基準距離も、実験やシミュレーションにより得られた知見をもとに、設計者が任意に設定することができる。その際、判定部120は、第1被写体と第2被写体との距離が短いほど、符号化対象と判定すべき奥行き情報の数を減らしてもよい。
 判定部120は、供給されるデプス信号から、重なり合う被写体同士の奥行きの差を算出することができる。この被写体同士の奥行きの差として、デプス信号のエッジ(例えば、濃度が急峻に変化する点)を抽出し、エッジ部分の境界を挟んだ画素値の差を用いることができる。判定部120は、重なりあう被写体同士の奥行きの差が十分小さく、一部の視点の符号化を省略しても復号側で所望の視点の画像信号を容易に生成できると判断した場合、所望の視点の画像信号の生成に必要のない視点のデプス信号を省略し、その生成に必要な視点のデプス信号を符号化対象として採用する。この判定例2は、図8、9を参照しながら説明した知見にもとづく。
 上記判定例1、2において、復号側で所望の視点の画像信号の生成が前提となるアプリケーションの場合、デプス信号の視点と同様に画像信号の視点も省略することもできる。
 判定例3として、判定部120は、判定対象の画像を用いずに別の画像および奥行き情報から判定対象の画像を予測生成した場合にて、その生成された画像の品質が所定の基準値より高い場合、判定対象の画像を符号化対象としないと判定する。当該基準値も、実験やシミュレーションにより得られた知見をもとに、設計者が任意に設定することができる。
 判定部120は、供給される画像信号の、一部の視点の画像信号を省略し、残された視点の画像信号とデプス信号から省略した視点の画像信号を予測生成する。判定部120は、省略した視点の原画像信号と、その視点の予測生成した画像信号との間の歪み量を各画素毎に二乗誤差等の指標を用いて評価する。判定部120は、歪み量が所定の基準値より少ない視点の画像信号を、仮想視点の生成への寄与度が小さい信号であると判断し、当該視点の画像信号を省略する。なお、ここでは画像信号を省略するための処理について説明したが、同様の処理によりデプス信号を省略することもできる。
 切替部121は、判定部120の判定結果に応じて、符号化対象とする視点の画像信号のみを画像信号符号化部107に供給する。この画像信号符号化部107に供給される画像信号は、図1の画像信号符号化部107に供給される画像信号と同様の信号である。同様に、切替部122は、判定部120の判定結果に応じて、符号化対象とする視点のデプス信号のみをデプス信号符号化部108に供給する。このデプス信号符号化部108に供給される画像信号は、図1のデプス信号符号化部108に供給されるデプス信号と同様の信号である。
 次に、実施の形態3に係る画像符号化装置400による多視点画像の符号化処理手順について説明する。
 図26は、実施の形態3に係る画像符号化装置400による多視点画像の符号化処理手順を示すフローチャートである。上述したように、実施の形態3に係る画像符号化装置400は、符号化する必要のある、画像信号およびデプス信号の視点を、コンテンツやシーンの内容に応じて判定する。図26に示す実施の形態3に係る画像符号化処理手順は、符号化する必要のある、画像信号およびデプス信号の視点が変化した際、改めてシーケンスを開始する点が、図19に示した実施の形態1に係る画像符号化処理手順と異なる。図26において、図19と同じステップには同じ符号を付し、図19と異なる点のみを説明する。
 図26のフローチャートにおいて、判定部120は、符号化すべき画像信号の視点およびデプス信号の視点を評価して、その視点の信号を採用するか否か判定する(S501)。採用される信号のみがステップS502以降の処理に進む。
 続いて、符号化管理部101は、ステップS501の処理により採用された、画像信号およびデプス信号の視点が変化したか否かを判断(S502)する。変化した場合(S502のY)および一番最初の場合、ステップS501に進み、変化していない場合(S502のN)、ステップS113に進む。
 ステップS101以降、図19の実施の形態1に係る画像符号化処理手順と同様に、画像信号およびデプス信号が符号化される。ただし、ステップS124の処理において、すべての画像信号およびデプス信号の符号化処理が完了していないと判定された場合(S124のN)、ステップS501からステップS124の符号化処理を繰り返す。
 実施の形態1から3に係る画像符号化処理および画像復号処理は、その処理を実行可能なハードウェアを搭載した送信装置、蓄積装置、および受信装置により実現可能なことはもちろんのこと、ROMやフラッシュメモリ等に記憶されているファームウェアや、コンピュータ等のソフトウェアによっても実現することができる。そのファームウェアプログラム、ソフトウェアプログラムを、コンピュータ等で読み取り可能な記録媒体に記録して提供することも、有線もしくは無線のネットワークを通してサーバから提供することも、地上波もしくは衛星デジタル放送のデータ放送として提供することも可能である。
 以上、本発明をいくつかの実施の形態をもとに説明した。これらの実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
 100 画像符号化装置、 101 符号化管理部、 102 画像信号用シーケンス情報符号化部、 103 デプス信号用シーケンス情報符号化部、 104 画像信号用ピクチャ情報符号化部、 105 デプス信号用ピクチャ情報符号化部、 106 カメラパラメータ情報符号化部、 107 画像信号符号化部、 108 デプス信号符号化部、 109 ユニット化部、 110 パラメータ情報符号化部、 111 デプス信号生成部、 120 判定部、 121,122 切替部、 300,301 分解部、 302 復号管理部、 303 基底視点の画像信号用シーケンス情報復号部、 304 MVC拡張情報を含むシーケンス情報復号部、 305 ピクチャ情報復号部、 306 補足付加情報復号部、 307 画像信号復号部、 309 デプス信号復号部、 310 復号画像バッファ、 320 パラメータ情報復号部、 330 仮想視点画像生成部。
 本発明は、異なる複数の視点から撮影された画像を符号化および復号化する分野に利用することができる。

Claims (35)

  1.  それぞれ異なる複数の視点からの複数の画像を符号化して、画像符号化データを生成する第1符号化部と、
     少なくとも一つ以上の視点からの特定空間の奥行きを示す奥行き情報を符号化して、奥行き情報符号化データを生成する第2符号化部と、
     前記第1符号化部および前記第2符号化部によりそれぞれ生成された、画像符号化データおよび奥行き情報符号化データを含む符号化ストリームを生成するストリーム生成部と、
     を備えることを特徴とする画像符号化装置。
  2.  前記奥行き情報のもとになる視点の数は、前記第1符号化部により符号化されるべき画像のもとになる視点の数より少なく設定されることを特徴とする請求項1に記載の画像符号化装置。
  3.  それぞれ異なる複数の視点からの複数の画像を符号化して、画像符号化データを生成する第1符号化ステップと、
     少なくとも一つ以上の視点からの特定空間の奥行きを示す奥行き情報を符号化して、奥行き情報符号化データを生成する第2符号化ステップと、
     前記第1符号化ステップおよび前記第2符号化ステップによりそれぞれ生成された、画像符号化データおよび奥行き情報符号化データを含む符号化ストリームを生成するストリーム生成ステップと、
     を備えることを特徴とする画像符号化方法。
  4.  前記奥行き情報のもとになる視点の数は、前記第1符号化ステップにより符号化されるべき画像のもとになる視点の数より少なく設定されることを特徴とする請求項3に記載の画像符号化方法。
  5.  それぞれ異なる複数の視点からの複数の画像を符号化して、画像符号化データを生成する第1符号化部と、
     少なくとも一つ以上の視点からの特定空間の奥行きを示す奥行き情報を符号化して、奥行き情報符号化データを生成する第2符号化部と、
     ある視点からの奥行き情報を符号化対象とするか否かを判定する判定部と、
     前記第1符号化部により生成された画像符号化データ、および前記判定部により符号化対象とすると判定された奥行き情報を前記第2符号化部により符号化した奥行き情報符号化データを含む符号化ストリームを生成するストリーム生成部と、を備え、
     前記判定部は、判定対象の奥行き情報のもとになる視点と、既に符号化対象に決定されている別の奥行き情報のもとになる視点との距離が所定の基準距離より短いとき、前記判定対象の奥行き情報を符号化対象としないと判定することを特徴とする画像符号化装置。
  6.  前記判定部は、同一画像内の第1被写体と第2被写体との距離が短いほど、符号化対象と判定すべき奥行き情報の数を減らすことを特徴とする請求項5に記載の画像符号化装置。
  7.  それぞれ異なる複数の視点からの複数の画像を符号化して、画像符号化データを生成する第1符号化ステップと、
     少なくとも一つ以上の視点からの特定空間の奥行きを示す奥行き情報を符号化して、奥行き情報符号化データを生成する第2符号化ステップと、
     ある視点からの奥行き情報を符号化対象とするか否かを判定する判定ステップと、
     前記第1符号化ステップにより生成された画像符号化データ、および前記判定ステップにより符号化対象とすると判定された奥行き情報を前記第2符号化ステップにより符号化した奥行き情報符号化データを含む符号化ストリームを生成するストリーム生成ステップと、を備え、
     前記判定ステップは、判定対象の奥行き情報のもとになる視点と、既に符号化対象に決定されている別の奥行き情報のもとになる視点との距離が所定の基準距離より短いとき、前記判定対象の奥行き情報を符号化対象としないと判定することを特徴とする画像符号化方法。
  8.  前記判定ステップは、同一画像内の第1被写体と第2被写体との距離が短いほど、符号化対象と判定すべき奥行き情報の数を減らすことを特徴とする請求項7に記載の画像符号化方法。
  9.  それぞれ異なる複数の視点からの複数の画像が符号化された画像符号化データと、少なくとも一つ以上の視点からの特定空間の奥行きを示す奥行き情報が符号化された奥行き情報符号化データを含む符号化ストリームを分解する分解部と、
     前記分解部により分解された画像符号化データを復号して、複数の画像を復元する第1復号部と、
     前記分解部により分解された奥行き情報符号化データを復号して、奥行き情報を復元する第2復号部と、
     を備えることを特徴とする画像復号装置。
  10.  前記第1復号部により復号された画像および前記第2復号部により復号された奥行き情報をもとに、その復号された画像のもとになる視点と異なる、別の視点からの画像を生成する画像生成部をさらに備えることを特徴とする請求項9に記載の画像復号装置。
  11.  それぞれ異なる複数の視点からの複数の画像が符号化された画像符号化データと、少なくとも一つ以上の視点からの特定空間の奥行きを示す奥行き情報が符号化された奥行き情報符号化データを含む符号化ストリームを分解する分解ステップと、
     前記分解ステップにより分解された画像符号化データを復号して、複数の画像を復元する第1復号ステップと、
     前記分解ステップにより分解された奥行き情報符号化データを復号して、奥行き情報を復元する第2復号ステップと、
     を備えることを特徴とする画像復号方法。
  12.  前記第1復号ステップにより復号された画像および前記第2復号ステップにより復号された奥行き情報をもとに、その復号された画像のもとになる視点と異なる、別の視点からの画像を生成する画像生成ステップをさらに備えることを特徴とする請求項11に記載の画像復号方法。
  13.  それぞれ異なる複数の視点からの複数の画像を符号化して、画像符号化データを生成する第1符号化部と、
     少なくとも一つ以上の視点からの特定空間の奥行きを示す奥行き情報を符号化して、奥行き情報符号化データを生成する第2符号化部と、
     前記複数の画像および前記奥行き情報のもとになる複数の視点を特定するための視点情報を含むパラメータ情報を符号化して、パラメータ情報符号化データを生成する第3符号化部と、
     前記第1符号化部、前記第2符号化部および前記第3符号化部によりそれぞれ生成された、画像符号化データ、奥行き情報符号化データおよびパラメータ情報符号化データを含む符号化ストリームを生成するストリーム生成部と、
     を備えることを特徴とする画像符号化装置。
  14.  前記第1符号化部は、前記複数の画像のうち、基準とすべき視点からの画像を符号化して第1画像符号化データを生成し、それ以外の画像を符号化して第2画像符号化データを生成し、
     前記第3符号化部は、前記複数の画像のうち、前記基準とすべき視点からの画像の第1パラメータ情報と、それ以外の画像の第2パラメータ情報と、前記奥行き情報の第3パラメータ情報をそれぞれ符号化して、第1パラメータ情報符号化データ、第2パラメータ情報符号化データおよび第3パラメータ情報符号化データを生成し、
     前記ストリーム生成部は、前記第1符号化部、前記第2符号化部および前記第3符号化部によりそれぞれ生成された、第1画像符号化データ、第2画像符号化データ、奥行き情報符号化データ、第1パラメータ情報符号化データ、第2パラメータ情報符号化データおよび第3パラメータ情報符号化データを含む符号化ストリームを生成することを特徴とする請求項13に記載の画像符号化装置。
  15.  前記第3パラメータ情報は、前記第2パラメータ情報のシンタックス構造に対応するシンタックス構造で記述されることを特徴とする請求項14に記載の画像符号化装置。
  16.  前記第2パラメータ情報および前記第3パラメータ情報には、視点の識別情報が記述され、
     前記画像のもとになる視点の位置と、前記奥行き情報のもとになる視点の位置が一致する場合、それらの視点に共通の識別情報が付与されることを特徴とする請求項14または15に記載の画像符号化装置。
  17.  それぞれ異なる複数の視点からの複数の画像を符号化して、画像符号化データを生成する第1符号化ステップと、
     少なくとも一つ以上の視点からの特定空間の奥行きを示す奥行き情報を符号化して、奥行き情報符号化データを生成する第2符号化ステップと、
     前記複数の画像および前記奥行き情報のもとになる複数の視点を特定するための視点情報を含むパラメータ情報を符号化して、パラメータ情報符号化データを生成する第3符号化ステップと、
     前記第1符号化ステップ、前記第2符号化ステップおよび前記第3符号化ステップによりそれぞれ生成された、画像符号化データ、奥行き情報符号化データおよびパラメータ情報符号化データを含む符号化ストリームを生成するストリーム生成ステップと、
     を備えることを特徴とする画像符号化方法。
  18.  前記第1符号化ステップは、前記複数の画像のうち、基準とすべき視点からの画像を符号化して第1画像符号化データを生成し、それ以外の画像を符号化して第2画像符号化データを生成し、
     前記第3符号化ステップは、前記複数の画像のうち、前記基準とすべき視点からの画像の第1パラメータ情報と、それ以外の画像の第2パラメータ情報と、前記奥行き情報の第3パラメータ情報をそれぞれ符号化して、第1パラメータ情報符号化データ、第2パラメータ情報符号化データおよび第3パラメータ情報符号化データを生成し、
     前記ストリーム生成ステップは、前記第1符号化ステップ、前記第2符号化ステップおよび前記第3符号化ステップによりそれぞれ生成された、第1画像符号化データ、第2画像符号化データ、奥行き情報符号化データ、第1パラメータ情報符号化データ、第2パラメータ情報符号化データおよび第3パラメータ情報符号化データを含む符号化ストリームを生成することを特徴とする請求項17に記載の画像符号化方法。
  19.  前記第3パラメータ情報は、前記第2パラメータ情報のシンタックス構造に対応するシンタックス構造で記述されることを特徴とする請求項18に記載の画像符号化方法。
  20.  それぞれ異なる複数の視点からの複数の画像を符号化して、画像符号化データを生成する第1符号化処理と、
     少なくとも一つ以上の視点からの特定空間の奥行きを示す奥行き情報を符号化して、奥行き情報符号化データを生成する第2符号化処理と、
     前記複数の画像および前記奥行き情報のもとになる複数の視点を特定するための視点情報を含むパラメータ情報を符号化して、パラメータ情報符号化データを生成する第3符号化処理と、
     前記第1符号化処理、前記第2符号化処理および前記第3符号化処理によりそれぞれ生成された、画像符号化データ、奥行き情報符号化データおよびパラメータ情報符号化データを含む符号化ストリームを生成するストリーム生成処理と、
     をコンピュータに実行させることを特徴とする画像符号化プログラム。
  21.  前記第1符号化処理は、前記複数の画像のうち、基準とすべき視点からの画像を符号化して第1画像符号化データを生成し、それ以外の画像を符号化して第2画像符号化データを生成し、
     前記第3符号化処理は、前記複数の画像のうち、前記基準とすべき視点からの画像の第1パラメータ情報と、それ以外の画像の第2パラメータ情報と、前記奥行き情報の第3パラメータ情報をそれぞれ符号化して、第1パラメータ情報符号化データ、第2パラメータ情報符号化データおよび第3パラメータ情報符号化データを生成し、
     前記ストリーム生成処理は、前記第1符号化処理、前記第2符号化処理および前記第3符号化処理によりそれぞれ生成された、第1画像符号化データ、第2画像符号化データ、奥行き情報符号化データ、第1パラメータ情報符号化データ、第2パラメータ情報符号化データおよび第3パラメータ情報符号化データを含む符号化ストリームを生成することを特徴とする請求項20に記載の画像符号化プログラム。
  22.  前記第3パラメータ情報は、前記第2パラメータ情報のシンタックス構造に対応するシンタックス構造で記述されることを特徴とする請求項21に記載の画像符号化プログラム。
  23.  それぞれ異なる複数の視点からの複数の画像が符号化された画像符号化データと、少なくとも一つ以上の視点からの特定空間の奥行きを示す奥行き情報が符号化された奥行き情報符号化データと、前記複数の画像および前記奥行き情報のもとになる複数の視点を特定するための視点情報を含むパラメータ情報が符号化されたパラメータ情報符号化データとを含む符号化ストリームを分解する分解部と、
     前記分解部により分解された画像符号化データを復号して、複数の画像を復元する第1復号部と、
     前記分解部により分解された奥行き情報符号化データを復号して、奥行き情報を復元する第2復号部と、
     前記分解部により分解されたパラメータ情報符号化データを復号して、前記パラメータ情報を復元する第3復号部と、
     を備えることを特徴とする画像復号装置。
  24.  前記第1復号部により復号された画像、前記第2復号部により復号された奥行き情報、前記第3復号部により復号されたパラメータ情報をもとに、仮想視点からの画像を生成する画像生成部をさらに備えることを特徴とする請求項23に記載の画像復号装置。
  25.  前記第1復号部は、
     前記複数の画像のうち、基準とすべき視点からの画像が符号化された第1画像符号化データを復号して、当該画像を復元し、
     前記複数の画像のうち、前記基準とすべき視点からの画像以外の画像が符号化された第2画像符号化データを復号して、当該画像を復元し、
     前記第3復号部は、
     前記複数の画像のうち、前記基準とすべき視点からの画像の第1パラメータ情報が符号化された第1パラメータ情報符号化データを復号して、当該第1パラメータ情報を復元し、
     前記複数の画像のうち、前記基準とすべき視点からの画像以外の画像の第2パラメータ情報が符号化された第2パラメータ情報符号化データを復号して、当該第2パラメータ情報を復元し、
     前記奥行き情報の第3パラメータ情報が符号化された第3パラメータ情報符号化データを復号して、当該第3パラメータ情報を復元することを特徴とする請求項23または24に記載の画像復号装置。
  26.  前記第3パラメータ情報は、前記第2パラメータ情報のシンタックス構造に対応するシンタックス構造で記述されていることを特徴とする請求項25に記載の画像復号装置。
  27.  前記第2パラメータ情報および前記第3パラメータ情報には、視点の識別情報が記述され、
     前記画像のもとになる視点の位置と、前記奥行き情報のもとになる視点の位置が一致する場合、それらの視点に共通の識別情報が付与されていることを特徴とする請求項25または26に記載の画像復号装置。
  28.  それぞれ異なる複数の視点からの複数の画像が符号化された画像符号化データと、少なくとも一つ以上の視点からの特定空間の奥行きを示す奥行き情報が符号化された奥行き情報符号化データと、前記複数の画像および前記奥行き情報のもとになる複数の視点を特定するための視点情報を含むパラメータ情報が符号化されたパラメータ情報符号化データとを含む符号化ストリームを分解する分解ステップと、
     前記分解ステップにより分解された画像符号化データを復号して、複数の画像を復元する第1復号ステップと、
     前記分解ステップにより分解された奥行き情報符号化データを復号して、奥行き情報を復元する第2復号ステップと、
     前記分解ステップにより分解されたパラメータ情報符号化データを復号して、前記パラメータ情報を復元する第3復号ステップと、
     を備えることを特徴とする画像復号方法。
  29.  前記第1復号ステップにより復号された画像、前記第2復号ステップにより復号された奥行き情報、前記第3復号ステップにより復号されたパラメータ情報をもとに、仮想視点からの画像を生成する画像生成ステップをさらに備えることを特徴とする請求項28に記載の画像復号方法。
  30.  前記第1復号ステップは、
     前記複数の画像のうち、基準とすべき視点からの画像が符号化された第1画像符号化データを復号して、当該画像を復元し、
     前記複数の画像のうち、前記基準とすべき視点からの画像以外の画像が符号化された第2画像符号化データを復号して、当該画像を復元し、
     前記第3復号ステップは、
     前記複数の画像のうち、前記基準とすべき視点からの画像の第1パラメータ情報が符号化された第1パラメータ情報符号化データを復号して、当該第1パラメータ情報を復元し、
     前記複数の画像のうち、前記基準とすべき視点からの画像以外の画像の第2パラメータ情報が符号化された第2パラメータ情報符号化データを復号して、当該第2パラメータ情報を復元し、
     前記奥行き情報の第3パラメータ情報が符号化された第3パラメータ情報符号化データを復号して、当該第3パラメータ情報を復元することを特徴とする請求項28または29に記載の画像復号方法。
  31.  前記第3パラメータ情報は、前記第2パラメータ情報のシンタックス構造に対応するシンタックス構造で記述されていることを特徴とする請求項30に記載の画像復号方法。
  32.  それぞれ異なる複数の視点からの複数の画像が符号化された画像符号化データと、少なくとも一つ以上の視点からの特定空間の奥行きを示す奥行き情報が符号化された奥行き情報符号化データと、前記複数の画像および前記奥行き情報のもとになる複数の視点を特定するための視点情報を含むパラメータ情報が符号化されたパラメータ情報符号化データとを含む符号化ストリームを分解する分解処理と、
     前記分解処理により分解された画像符号化データを復号して、複数の画像を復元する第1復号処理と、
     前記分解処理により分解された奥行き情報符号化データを復号して、奥行き情報を復元する第2復号処理と、
     前記分解処理により分解されたパラメータ情報符号化データを復号して、前記パラメータ情報を復元する第3復号処理と、
     をコンピュータに実行させることを特徴とする画像復号プログラム。
  33.  前記第1復号処理により復号された画像、前記第2復号処理により復号された奥行き情報、前記第3復号処理により復号されたパラメータ情報をもとに、仮想視点からの画像を生成する画像生成処理をさらにコンピュータに実行させることを特徴とする請求項32に記載の画像復号プログラム。
  34.  前記第1復号処理は、
     前記複数の画像のうち、基準とすべき視点からの画像が符号化された第1画像符号化データを復号して、当該画像を復元し、
     前記複数の画像のうち、前記基準とすべき視点からの画像以外の画像が符号化された第2画像符号化データを復号して、当該画像を復元し、
     前記第3復号処理は、
     前記複数の画像のうち、前記基準とすべき視点からの画像の第1パラメータ情報が符号化された第1パラメータ情報符号化データを復号して、当該第1パラメータ情報を復元し、
     前記複数の画像のうち、前記基準とすべき視点からの画像以外の画像の第2パラメータ情報が符号化された第2パラメータ情報符号化データを復号して、当該第2パラメータ情報を復元し、
     前記奥行き情報の第3パラメータ情報が符号化された第3パラメータ情報符号化データを復号して、当該第3パラメータ情報を復元することを特徴とする請求項32または33に記載の画像復号プログラム。
  35.  前記第3パラメータ情報は、前記第2パラメータ情報のシンタックス構造に対応するシンタックス構造で記述されていることを特徴とする請求項34に記載の画像復号プログラム。
PCT/JP2009/006715 2008-12-26 2009-12-09 画像符号化装置、画像符号化方法およびそのプログラム、ならびに画像復号装置、画像復号方法およびそのプログラム WO2010073513A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN2009801528479A CN102265617A (zh) 2008-12-26 2009-12-09 图像编码装置、图像编码方法及其程序、以及图像解码装置、图像解码方法及其程序
EP09834328.8A EP2384000B1 (en) 2008-12-26 2009-12-09 Image encoding device, image encoding method, program thereof, image decoding device, image decoding method, and program thereof
KR1020117017466A KR101260613B1 (ko) 2008-12-26 2009-12-09 화상 부호화 장치, 화상 부호화 방법 및 그 프로그램 및 화상 복호화 장치, 화상 복호화 방법 및 그 프로그램
US13/142,188 US8750632B2 (en) 2008-12-26 2009-12-09 Apparatus and method for encoding images from multiple viewpoints and associated depth information

Applications Claiming Priority (12)

Application Number Priority Date Filing Date Title
JP2008-333859 2008-12-26
JP2008333856A JP2010157823A (ja) 2008-12-26 2008-12-26 画像符号化装置、画像符号化方法およびそのプログラム
JP2008333857A JP2010157824A (ja) 2008-12-26 2008-12-26 画像符号化装置、画像符号化方法およびそのプログラム
JP2008-333857 2008-12-26
JP2008333855A JP2010157822A (ja) 2008-12-26 2008-12-26 画像復号装置、画像符復号方法およびそのプログラム
JP2008333854A JP2010157821A (ja) 2008-12-26 2008-12-26 画像符号化装置、画像符号化方法およびそのプログラム
JP2008-333855 2008-12-26
JP2008-333856 2008-12-26
JP2008-333854 2008-12-26
JP2008333859A JP2010157826A (ja) 2008-12-26 2008-12-26 画像復号装置、画像符復号方法およびそのプログラム
JP2008333858A JP4821846B2 (ja) 2008-12-26 2008-12-26 画像符号化装置、画像符号化方法およびそのプログラム
JP2008-333858 2008-12-26

Publications (1)

Publication Number Publication Date
WO2010073513A1 true WO2010073513A1 (ja) 2010-07-01

Family

ID=42287171

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/006715 WO2010073513A1 (ja) 2008-12-26 2009-12-09 画像符号化装置、画像符号化方法およびそのプログラム、ならびに画像復号装置、画像復号方法およびそのプログラム

Country Status (5)

Country Link
US (1) US8750632B2 (ja)
EP (1) EP2384000B1 (ja)
KR (1) KR101260613B1 (ja)
CN (1) CN102265617A (ja)
WO (1) WO2010073513A1 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103098475A (zh) * 2010-09-29 2013-05-08 日本电信电话株式会社 图像编码方法和装置、图像解码方法和装置以及它们的程序
CN103119941A (zh) * 2010-09-29 2013-05-22 日本电信电话株式会社 图像编码方法和装置、图像解码方法及装置、和其程序
US20130142247A1 (en) * 2010-09-03 2013-06-06 Sony Corporation Encoding device, encoding method, decoding device, and decoding method
JP2013158023A (ja) * 2009-04-28 2013-08-15 Panasonic Corp 画像復号方法および画像復号装置
CN103416064A (zh) * 2011-03-18 2013-11-27 索尼公司 图像处理设备、图像处理方法和程序
CN103493483A (zh) * 2011-03-10 2014-01-01 高通股份有限公司 译码多视图视频加深度内容
JP2014526194A (ja) * 2011-07-22 2014-10-02 クゥアルコム・インコーポレイテッド スライスヘッダ予測のためのスライスヘッダ三次元映像拡張
JP2014527336A (ja) * 2011-07-22 2014-10-09 クゥアルコム・インコーポレイテッド 3次元ビデオコーデックにおける深度マップのためのスライスヘッダ予測
US9288505B2 (en) 2011-08-11 2016-03-15 Qualcomm Incorporated Three-dimensional video with asymmetric spatial resolution
RU2586064C2 (ru) * 2011-03-18 2016-06-10 Сони Корпорейшн Устройство обработки изображений и способ обработки изображений
US9485503B2 (en) 2011-11-18 2016-11-01 Qualcomm Incorporated Inside view motion prediction among texture and depth view components

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8369422B2 (en) * 2007-10-16 2013-02-05 Thomson Licensing Methods and apparatus for artifact removal for bit depth scalability
JP5812599B2 (ja) * 2010-02-25 2015-11-17 キヤノン株式会社 情報処理方法及びその装置
KR20120088467A (ko) * 2011-01-31 2012-08-08 삼성전자주식회사 2차원 영상 표시 영역 내에 부분 3차원 영상을 디스플레이 하는 방법 및 장치
WO2012131895A1 (ja) * 2011-03-29 2012-10-04 株式会社東芝 画像符号化装置、方法及びプログラム、画像復号化装置、方法及びプログラム
CN103493493A (zh) * 2011-04-28 2014-01-01 索尼公司 编码装置和编码方法以及解码装置和解码方法
JPWO2012157443A1 (ja) * 2011-05-16 2014-07-31 ソニー株式会社 画像処理装置、及び、画像処理方法
WO2013002709A1 (en) * 2011-06-30 2013-01-03 Telefonaktiebolaget L M Ericsson (Publ) Indicating bit stream subsets
KR20130046534A (ko) * 2011-10-28 2013-05-08 삼성전자주식회사 영상 부호화 방법 및 장치 그리고 영상 복호화 방법 및 장치
US10154276B2 (en) 2011-11-30 2018-12-11 Qualcomm Incorporated Nested SEI messages for multiview video coding (MVC) compatible three-dimensional video coding (3DVC)
TW201342884A (zh) * 2012-01-31 2013-10-16 Sony Corp 編碼裝置及編碼方法、以及解碼裝置及解碼方法
MX2014008982A (es) * 2012-01-31 2014-08-27 Sony Corp Dispositivo de procesamiento de imagenes y metodos de procesamiento de imagenes.
JP2013198059A (ja) 2012-03-22 2013-09-30 Sharp Corp 画像符号化装置、画像復号装置、画像符号化方法、画像復号方法およびプログラム
JP2013211776A (ja) * 2012-03-30 2013-10-10 Sharp Corp 画像符号化装置、画像復号装置、画像符号化方法、画像復号方法およびプログラム
US9979958B2 (en) 2012-04-20 2018-05-22 Qualcomm Incorporated Decoded picture buffer processing for random access point pictures in video sequences
KR102114416B1 (ko) * 2012-04-23 2020-05-25 삼성전자주식회사 다시점 비디오 부호화 방법 및 장치, 다시점 비디오 복호화 방법 및 장치
US10116947B2 (en) * 2012-07-06 2018-10-30 Samsung Electronics Co., Ltd. Method and apparatus for coding multilayer video to include scalable extension type information in a network abstraction layer unit, and method and apparatus for decoding multilayer video
US20150172694A1 (en) * 2012-07-09 2015-06-18 Nippon Telegraph And Telephone Corporation Moving picture encoding method, moving picture decoding method, moving picture encoding apparatus, moving picture decoding apparatus, moving picture encoding program, moving picture decoding program, and recording media
CN104429077A (zh) * 2012-07-09 2015-03-18 日本电信电话株式会社 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、图像解码程序以及记录介质
US9451256B2 (en) 2012-07-20 2016-09-20 Qualcomm Incorporated Reusing parameter sets for video coding
US9380289B2 (en) * 2012-07-20 2016-06-28 Qualcomm Incorporated Parameter sets in video coding
KR101664758B1 (ko) * 2012-09-21 2016-10-10 노키아 테크놀로지스 오와이 비디오 코딩 방법 및 장치
US10075728B2 (en) * 2012-10-01 2018-09-11 Inria Institut National De Recherche En Informatique Et En Automatique Method and device for motion information prediction refinement
JP6027143B2 (ja) 2012-12-27 2016-11-16 日本電信電話株式会社 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、および画像復号プログラム
JP2014176034A (ja) * 2013-03-12 2014-09-22 Ricoh Co Ltd 映像伝送装置
WO2014146219A1 (en) * 2013-03-22 2014-09-25 Qualcomm Incorporated Depth modeling modes for depth map intra coding
KR20140122192A (ko) 2013-04-05 2014-10-17 삼성전자주식회사 깊이맵 부호화 방법 및 그 장치, 복호화 방법 및 그 장치
CN105122808B (zh) * 2013-04-10 2018-08-03 联发科技股份有限公司 三维或多视图视频编码或解码的方法及装置
US9571812B2 (en) * 2013-04-12 2017-02-14 Disney Enterprises, Inc. Signaling warp maps using a high efficiency video coding (HEVC) extension for 3D video coding
US10026010B2 (en) * 2014-05-14 2018-07-17 At&T Intellectual Property I, L.P. Image quality estimation using a reference image portion
US10104415B2 (en) * 2015-01-21 2018-10-16 Microsoft Technology Licensing, Llc Shared scene mesh data synchronisation
WO2017082078A1 (ja) * 2015-11-11 2017-05-18 ソニー株式会社 画像処理装置および画像処理方法
BR112018009070A8 (pt) * 2015-11-11 2019-02-26 Sony Corp aparelhos de codificação e de decodificação, e, métodos para codificação por um aparelho de codificação e para decodificação por um aparelho de decodificação.
WO2017082077A1 (ja) * 2015-11-11 2017-05-18 ソニー株式会社 画像処理装置および画像処理方法
GB2551526A (en) * 2016-06-21 2017-12-27 Nokia Technologies Oy Image encoding method and technical equipment for the same
JP6939807B2 (ja) * 2016-10-25 2021-09-22 ソニーグループ株式会社 画像処理装置および画像処理方法
CN108734690B (zh) * 2018-03-02 2021-12-14 苏州汉特士视觉科技有限公司 一种视觉缺陷检测设备及其检测方法
CN114402590A (zh) * 2019-11-06 2022-04-26 Oppo广东移动通信有限公司 信息处理方法和系统、编码装置、解码装置及存储介质
WO2021087800A1 (zh) * 2019-11-06 2021-05-14 Oppo广东移动通信有限公司 信息处理方法、编码装置、解码装置、系统及存储介质
US11244500B2 (en) 2019-12-31 2022-02-08 Woven Planet North America, Inc. Map feature extraction using overhead view images
US11288522B2 (en) 2019-12-31 2022-03-29 Woven Planet North America, Inc. Generating training data from overhead view images
US11037328B1 (en) * 2019-12-31 2021-06-15 Lyft, Inc. Overhead view image generation

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61144191A (ja) 1984-12-17 1986-07-01 Nippon Hoso Kyokai <Nhk> 立体テレビジョン画像伝送方法
JPH0698312A (ja) 1992-09-16 1994-04-08 Fujitsu Ltd 画像高能率符号化方式
JPH0981746A (ja) 1995-09-08 1997-03-28 Sanyo Electric Co Ltd 二次元表示画像生成方法
JP2001061164A (ja) * 1999-08-19 2001-03-06 Toshiba Corp 立体映像信号伝送方法
JP2008263528A (ja) * 2007-04-13 2008-10-30 Univ Nagoya 画像情報処理方法及び画像情報処理システム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7489342B2 (en) 2004-12-17 2009-02-10 Mitsubishi Electric Research Laboratories, Inc. Method and system for managing reference pictures in multiview videos
US7675540B2 (en) * 2003-08-19 2010-03-09 Kddi Corporation Concealed regions complementing system of free viewpoint video images
US7292257B2 (en) * 2004-06-28 2007-11-06 Microsoft Corporation Interactive viewpoint video system and process
US7710462B2 (en) 2004-12-17 2010-05-04 Mitsubishi Electric Research Laboratories, Inc. Method for randomly accessing multiview videos
US7728877B2 (en) 2004-12-17 2010-06-01 Mitsubishi Electric Research Laboratories, Inc. Method and system for synthesizing multiview videos
US7671894B2 (en) 2004-12-17 2010-03-02 Mitsubishi Electric Research Laboratories, Inc. Method and system for processing multiview videos for view synthesis using skip and direct modes
US7468745B2 (en) 2004-12-17 2008-12-23 Mitsubishi Electric Research Laboratories, Inc. Multiview video decomposition and encoding
US7728878B2 (en) 2004-12-17 2010-06-01 Mitsubishi Electric Research Labortories, Inc. Method and system for processing multiview videos for view synthesis using side information
US7903737B2 (en) 2005-11-30 2011-03-08 Mitsubishi Electric Research Laboratories, Inc. Method and system for randomly accessing multiview videos with known prediction dependency
JP5013993B2 (ja) 2006-07-12 2012-08-29 ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド 或るシーンの複数のマルチビュービデオを処理する方法及びシステム
EP2501137A3 (en) 2007-06-11 2012-12-12 Samsung Electronics Co., Ltd. Method and apparatus for generating header information of stereoscopic image
JP2009080578A (ja) * 2007-09-25 2009-04-16 Toshiba Corp 多視点データ生成装置、方法及びプログラム
JP5400062B2 (ja) * 2008-01-07 2014-01-29 トムソン ライセンシング パラメトリックフィルタリングを使用したビデオ符号化及び復号化方法及び装置
KR101727311B1 (ko) * 2008-04-25 2017-04-14 톰슨 라이센싱 깊이 정보에 기초한 디스패리티 예측을 구비한 다중 시점 비디오 코딩

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61144191A (ja) 1984-12-17 1986-07-01 Nippon Hoso Kyokai <Nhk> 立体テレビジョン画像伝送方法
JPH0698312A (ja) 1992-09-16 1994-04-08 Fujitsu Ltd 画像高能率符号化方式
JPH0981746A (ja) 1995-09-08 1997-03-28 Sanyo Electric Co Ltd 二次元表示画像生成方法
JP2001061164A (ja) * 1999-08-19 2001-03-06 Toshiba Corp 立体映像信号伝送方法
JP2008263528A (ja) * 2007-04-13 2008-10-30 Univ Nagoya 画像情報処理方法及び画像情報処理システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JOINT VIDEO TEAM OF ISO/IEC MPEG & ITU-T VCEG,JVT-Z209, January 2008 (2008-01-01)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013158023A (ja) * 2009-04-28 2013-08-15 Panasonic Corp 画像復号方法および画像復号装置
US20130142247A1 (en) * 2010-09-03 2013-06-06 Sony Corporation Encoding device, encoding method, decoding device, and decoding method
US9762884B2 (en) * 2010-09-03 2017-09-12 Sony Corporation Encoding device, encoding method, decoding device, and decoding method for encoding multiple viewpoints for compatibility with existing mode allowing fewer viewpoints
CN103098475B (zh) * 2010-09-29 2016-06-01 日本电信电话株式会社 图像编码方法和装置、图像解码方法和装置
CN103119941A (zh) * 2010-09-29 2013-05-22 日本电信电话株式会社 图像编码方法和装置、图像解码方法及装置、和其程序
CN103098475A (zh) * 2010-09-29 2013-05-08 日本电信电话株式会社 图像编码方法和装置、图像解码方法和装置以及它们的程序
CN103493483A (zh) * 2011-03-10 2014-01-01 高通股份有限公司 译码多视图视频加深度内容
US9565449B2 (en) 2011-03-10 2017-02-07 Qualcomm Incorporated Coding multiview video plus depth content
CN103493483B (zh) * 2011-03-10 2016-08-31 高通股份有限公司 译码多视图视频加深度内容
CN103416064A (zh) * 2011-03-18 2013-11-27 索尼公司 图像处理设备、图像处理方法和程序
RU2586064C2 (ru) * 2011-03-18 2016-06-10 Сони Корпорейшн Устройство обработки изображений и способ обработки изображений
CN107274475A (zh) * 2011-03-18 2017-10-20 索尼公司 图像处理设备、图像处理方法和计算机可读存储介质
JP2016027714A (ja) * 2011-07-22 2016-02-18 クゥアルコム・インコーポレイテッドQualcomm Incorporated スライスヘッダ予測のためのスライスヘッダ三次元映像拡張
US9521418B2 (en) 2011-07-22 2016-12-13 Qualcomm Incorporated Slice header three-dimensional video extension for slice header prediction
JP2014527336A (ja) * 2011-07-22 2014-10-09 クゥアルコム・インコーポレイテッド 3次元ビデオコーデックにおける深度マップのためのスライスヘッダ予測
JP2014526194A (ja) * 2011-07-22 2014-10-02 クゥアルコム・インコーポレイテッド スライスヘッダ予測のためのスライスヘッダ三次元映像拡張
US11496760B2 (en) 2011-07-22 2022-11-08 Qualcomm Incorporated Slice header prediction for depth maps in three-dimensional video codecs
US9288505B2 (en) 2011-08-11 2016-03-15 Qualcomm Incorporated Three-dimensional video with asymmetric spatial resolution
US9485503B2 (en) 2011-11-18 2016-11-01 Qualcomm Incorporated Inside view motion prediction among texture and depth view components

Also Published As

Publication number Publication date
KR20110098858A (ko) 2011-09-01
CN102265617A (zh) 2011-11-30
EP2384000A4 (en) 2012-08-08
US8750632B2 (en) 2014-06-10
US20110255796A1 (en) 2011-10-20
EP2384000A1 (en) 2011-11-02
EP2384000B1 (en) 2013-10-16
KR101260613B1 (ko) 2013-05-03

Similar Documents

Publication Publication Date Title
WO2010073513A1 (ja) 画像符号化装置、画像符号化方法およびそのプログラム、ならびに画像復号装置、画像復号方法およびそのプログラム
JP4821846B2 (ja) 画像符号化装置、画像符号化方法およびそのプログラム
KR101697598B1 (ko) 가상 뷰 이미지 합성 방법 및 장치
JP4793366B2 (ja) 多視点画像符号化装置、多視点画像符号化方法、多視点画像符号化プログラム、多視点画像復号装置、多視点画像復号方法、及び多視点画像復号プログラム
JP2010157826A (ja) 画像復号装置、画像符復号方法およびそのプログラム
TWI437887B (zh) Mpeg-2系統上多視角視訊編碼
KR101619450B1 (ko) 뎁스 정보를 이용한 비디오 신호 처리 방법 및 장치
CN114009053A (zh) 用于视频编码和解码的装置、方法和计算机程序
US20150097933A1 (en) Broadcast receiver and video data processing method thereof
US20120075421A1 (en) Image data transmission device, image data transmission method, and image data receiving device
WO2013105401A1 (ja) 送信装置、送信方法、受信装置および受信方法
KR20110102305A (ko) 영상 신호 처리 방법 및 장치
Daribo et al. Motion vector sharing and bitrate allocation for 3D video-plus-depth coding
JPWO2013161442A1 (ja) 画像データ送信装置、画像データ送信方法、画像データ受信装置および画像データ受信方法
JP2010157821A (ja) 画像符号化装置、画像符号化方法およびそのプログラム
US9930382B2 (en) Method and apparatus for transmitting/receiving broadcast signal for 3-dimensional (3D) broadcast service
JP2009004940A (ja) 多視点画像符号化方法、多視点画像符号化装置及び多視点画像符号化プログラム
KR101386651B1 (ko) 다시점 비디오 인코딩 및 디코딩 방법 및 이를 이용한 인코딩 및 디코딩 장치
WO2013146636A1 (ja) 画像符号化装置、画像復号装置、画像符号化方法、画像復号方法およびプログラム
JP2010157822A (ja) 画像復号装置、画像符復号方法およびそのプログラム
JP2010157823A (ja) 画像符号化装置、画像符号化方法およびそのプログラム
JP2011077722A (ja) 画像復号装置、画像復号方法およびそのプログラム
JP2009004939A (ja) 多視点画像復号方法、多視点画像復号装置及び多視点画像復号プログラム
JP2010157824A (ja) 画像符号化装置、画像符号化方法およびそのプログラム
JP2009004942A (ja) 多視点画像送信方法、多視点画像送信装置及び多視点画像送信用プログラム

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200980152847.9

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09834328

Country of ref document: EP

Kind code of ref document: A1

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 13142188

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 20117017466

Country of ref document: KR

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2009834328

Country of ref document: EP