WO2013031573A1 - 符号化装置および符号化方法、復号装置および復号方法 - Google Patents

符号化装置および符号化方法、復号装置および復号方法 Download PDF

Info

Publication number
WO2013031573A1
WO2013031573A1 PCT/JP2012/071028 JP2012071028W WO2013031573A1 WO 2013031573 A1 WO2013031573 A1 WO 2013031573A1 JP 2012071028 W JP2012071028 W JP 2012071028W WO 2013031573 A1 WO2013031573 A1 WO 2013031573A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
image
parallax
viewpoint
encoding
Prior art date
Application number
PCT/JP2012/071028
Other languages
English (en)
French (fr)
Inventor
良知 高橋
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to EP12828710.9A priority Critical patent/EP2753080A4/en
Priority to MX2016004999A priority patent/MX358407B/es
Priority to US14/239,581 priority patent/US9900595B2/en
Priority to BR112014004062A priority patent/BR112014004062A2/pt
Priority to AU2012303085A priority patent/AU2012303085A1/en
Priority to CN201280040938.5A priority patent/CN103748883B/zh
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to RU2014106532/07A priority patent/RU2597256C2/ru
Priority to KR1020147003885A priority patent/KR20140057269A/ko
Priority to MX2014002066A priority patent/MX338738B/es
Priority to CA2842150A priority patent/CA2842150A1/en
Publication of WO2013031573A1 publication Critical patent/WO2013031573A1/ja
Priority to ZA2014/00565A priority patent/ZA201400565B/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding

Definitions

  • the present technology relates to an encoding device, an encoding method, a decoding device, and a decoding method, and in particular, an encoding device and an encoding method which can improve the encoding efficiency of disparity images using information on disparity images. , A decryption apparatus and a decryption method.
  • the parallax image is a parallax representing the horizontal distance between each pixel of the color image of the viewpoint corresponding to the parallax image and the pixel of the color image of the origin viewpoint corresponding to the pixel on the screen It is an image consisting of values.
  • HEVC High Efficiency Video Coding
  • the present technology has been made in view of such a situation, and is intended to be able to improve the coding efficiency of a parallax image using information on the parallax image.
  • the encoding device uses a correction unit that corrects a predicted image of a parallax image of the reference viewpoint using information on a parallax image of a reference viewpoint, and the predicted image corrected by the correction unit.
  • An encoding unit encoding the parallax image of the reference viewpoint, and a transmission unit transmitting information on the parallax image of the reference viewpoint encoded by the encoding unit and the parallax image of the reference viewpoint
  • An encoding apparatus comprising:
  • the coding method of the first aspect of the present technology corresponds to the coding device of the first aspect of the present technology.
  • the predicted image of the parallax image of the reference viewpoint is corrected using information on the parallax image of the reference viewpoint, and the parallax image of the reference viewpoint is corrected using the corrected predicted image.
  • An encoded and encoded disparity image of the reference viewpoint and information on a disparity image of the reference viewpoint are transmitted.
  • the decoding device includes: a parallax image of the reference viewpoint encoded using a predicted image of the parallax image of the reference viewpoint corrected using information on the parallax image of the reference viewpoint; A receiving unit that receives information on a parallax image of a reference viewpoint, a correction unit that corrects a predicted image of a parallax image on the reference viewpoint using information on the parallax image on the reference viewpoint received by the receiving unit;
  • the decoding device may further include: a decoding unit that decodes the encoded parallax image of the reference viewpoint received by the reception unit using the predicted image corrected by the correction unit.
  • the decoding method of the second aspect of the present technology corresponds to the decoding device of the second aspect of the present technology.
  • a parallax image of the reference viewpoint encoded using a predicted image of a parallax image of the reference viewpoint corrected using information on a parallax image of the reference viewpoint, and the reference viewpoint Information about the parallax image of the reference viewpoint is received, and the prediction image of the parallax image of the reference viewpoint is corrected using the information about the parallax image of the reference viewpoint received, and encoding is performed using the corrected prediction image
  • the disparity image of the reference viewpoint is decoded.
  • the encoding device of the first aspect and the decoding device of the second aspect can be realized by causing a computer to execute a program.
  • a program to be executed by a computer is transmitted via a transmission medium or recorded in a recording medium, Can be provided.
  • the first aspect of the present technology it is possible to improve the coding efficiency of parallax images using information on parallax images.
  • FIG. 1 is a diagram showing an example of a configuration of an embodiment of a computer. BRIEF DESCRIPTION OF DRAWINGS FIG.
  • FIG. 1 is a diagram illustrating a schematic configuration example of a television device to which the present technology is applied. It is a figure which shows the example of a schematic structure of the mobile telephone to which this technique is applied. It is a figure showing an example of outline composition of a recording and reproducing device to which this art is applied. It is a figure showing an example of outline composition of an imaging device to which this art is applied.
  • FIG. 1 is a block diagram showing a configuration example of a first embodiment of an encoding device to which the present technology is applied.
  • the encoding device 50 in FIG. 1 includes a multiview color image capturing unit 51, a multiview color image correction unit 52, a multiview parallax image correction unit 53, a viewpoint generation information generation unit 54, and a multiview image encoding unit 55. Configured
  • the encoding device 50 encodes a parallax image of a predetermined viewpoint using information on the parallax image.
  • the multi-view color image capturing unit 51 of the encoding device 50 captures a multi-view color image and supplies the multi-view color image correction unit 52 as a multi-view color image.
  • the multi-view color image capturing unit 51 generates an external parameter, a parallax maximum value, and a parallax minimum value (details will be described later).
  • the multi-view color image capturing unit 51 supplies the external parameter, the parallax maximum value, and the parallax minimum value to the viewpoint generation information generation unit 54, and supplies the parallax maximum value and the parallax minimum value to the multi-view parallax image generation unit 53.
  • the external parameter is a parameter that defines the horizontal position of the multi-viewpoint color image capturing unit 51.
  • the parallax maximum value and the parallax minimum value are respectively the maximum value and the minimum value of parallax values on world coordinates that can be taken in the multi-viewpoint parallax image.
  • the multi-viewpoint color image correction unit 52 performs color correction, brightness correction, distortion correction, and the like on the multi-viewpoint color image supplied from the multi-viewpoint color image pickup unit 51. As a result, the focal length in the horizontal direction (X direction) of the multi-view color image capturing unit 51 in the corrected multi-view color image becomes common to all the viewpoints.
  • the multi-view color image correction unit 52 supplies the corrected multi-view color image to the multi-view parallax image generation unit 53 and the multi-view image encoding unit 55 as a multi-view correction color image.
  • the multi-viewpoint parallax image generation unit 53 generates multi-viewpoint corrected color images from the multi-view color image correction unit 52 based on the parallax maximum value and the parallax minimum value supplied from the multi-view color image pickup unit 51. Generate a parallax image of the viewpoint. Specifically, for each viewpoint (reference viewpoint) of multiple viewpoints, the multiple viewpoint parallax image generation unit 53 obtains the disparity value of each pixel from the multiple viewpoint corrected color image, and the disparity value is calculated as the disparity maximum value and the disparity minimum value. Normalize based on.
  • the multi-viewpoint parallax image generation unit 53 generates a parallax image in which the normalized parallax value of each pixel is the pixel value of each pixel of the parallax image for each viewpoint of the multi-viewpoint.
  • the multi-viewpoint parallax image generation unit 53 supplies the generated multi-viewpoint parallax image to the multi-viewpoint image encoding unit 55 as a multi-viewpoint parallax image. Further, the multi-viewpoint parallax image generation unit 53 generates a parallax accuracy parameter indicating the accuracy of the pixel value of the multi-viewpoint parallax image, and supplies the parallax accuracy parameter to the viewpoint generation information generation unit 54.
  • the viewpoint generation information generation unit 54 generates viewpoint generation information (viewpoint generation information) used when generating a color image of a viewpoint other than the multiple viewpoints using the corrected color image of multiple viewpoints and the parallax image. . Specifically, the viewpoint generation information generation unit 54 obtains the inter-camera distance based on the external parameter supplied from the multi-view color image capturing unit 51.
  • the inter-camera distance means, for each viewpoint of a multi-viewpoint parallax image, the horizontal position of the multi-view color image capturing unit 51 when capturing a color image of the viewpoint and the parallax corresponding to the color image and the parallax image. It is the distance of the position of the horizontal direction of the multi-view color image capturing unit 51 when capturing a color image that it has.
  • the viewpoint generation information generation unit 54 sets the parallax maximum value and the parallax minimum value from the multiview color image capturing unit 51, the inter-camera distance, and the parallax accuracy parameter from the multiview parallax image generation unit 53 as the viewpoint generation information. .
  • the viewpoint generation information generation unit 54 supplies the generated viewpoint generation information to the multi-viewpoint image coding unit 55.
  • the multi-viewpoint image encoding unit 55 encodes the multi-viewpoint corrected color image supplied from the multi-viewpoint color image correction unit 52 according to the HEVC method.
  • the multi-viewpoint image encoding unit 55 uses the maximum parallax value, the minimum parallax value, and the inter-camera distance among the viewpoint generation information supplied from the viewpoint generation information generation unit 54 as information related to parallax.
  • the multi-viewpoint parallax image supplied from the viewpoint parallax image generation unit 53 is encoded by a method according to the HEVC method.
  • the multi-viewpoint image encoding unit 55 differentially encodes the parallax maximum value, the parallax minimum value, and the inter-camera distance among the viewpoint generation information supplied from the viewpoint generation information generation unit 54, and performs multiview parallax image. Is included in the information on coding (coding parameters) used in coding. Then, the multi-viewpoint image encoding unit 55 is information regarding encoding including the encoded multi-viewpoint corrected color image and multi-viewpoint parallax image, differentially encoded disparity maximum value, disparity minimum value, and inter-camera distance, A bit stream composed of parallax accuracy parameters and the like from the viewpoint generation information generation unit 54 is transmitted as a coded bit stream.
  • the multi-viewpoint image encoding unit 55 differentially encodes and transmits the disparity maximum value, the disparity minimum value, and the inter-camera distance, so it is possible to reduce the code amount of viewpoint generation information.
  • differential encoding is effective in reducing the amount of code, since the parallax maximum value, the parallax minimum value, and the inter-camera distance are likely not to change significantly between pictures. .
  • the multi-viewpoint parallax image is generated from the multi-viewpoint corrected color image, but may be generated by a sensor that detects a parallax value at the time of capturing the multi-viewpoint color image.
  • FIG. 2 is a diagram for explaining the parallax maximum value and the parallax minimum value of the viewpoint generation information.
  • the horizontal axis is a parallax value before normalization
  • the vertical axis is a pixel value of a parallax image.
  • the multiview parallax image generation unit 53 normalizes the parallax value of each pixel to, for example, a value of 0 to 255 using the parallax minimum value Dmin and the parallax maximum value Dmax. Then, the multi-viewpoint parallax image generation unit 53 generates a parallax image using the parallax value of each pixel after normalization, which is a value of 0 to 255, as a pixel value.
  • the pixel value I of each pixel of the parallax image, the parallax value d before normalization of the pixel, the parallax minimum value Dmin, and the parallax maximum value Dmax are represented by the following equation (1).
  • the decoding device described later restores the parallax value d before normalization from the pixel value I of each pixel of the parallax image using the parallax minimum value Dmin and the parallax maximum value Dmax according to the following equation (2) There is a need.
  • the parallax minimum value Dmin and the parallax maximum value Dmax are transmitted to the decoding device.
  • FIG. 3 is a diagram for explaining the parallax accuracy parameter of the viewpoint generation information.
  • the disparity accuracy parameter represents the accuracy 0.5 of the disparity value.
  • the disparity accuracy parameter represents the accuracy 1.0 of the disparity value.
  • the disparity value before normalization of the viewpoint # 1 which is the first viewpoint is 1.0
  • the disparity value before normalization of the viewpoint # 2 which is the second viewpoint is 0.5
  • the disparity value after normalization of the viewpoint # 1 is 1.0 regardless of whether the accuracy of the disparity value is 0.5 or 1.0.
  • the parallax value of the viewpoint # 2 is 0.5 when the accuracy of the parallax value is 0.5, and is 0 when the accuracy of the parallax value is 1.0.
  • FIG. 4 is a diagram for explaining the inter-camera distance of the viewpoint generation information.
  • the inter-camera distance of the parallax image of viewpoint # 1 based on viewpoint # 2 is the distance between the position represented by the external parameter of viewpoint # 1 and the position represented by the external parameter of viewpoint # 2 is there.
  • FIG. 5 is a block diagram showing a configuration example of the multi-viewpoint image coding unit 55 of FIG.
  • the multi-viewpoint image coding unit 55 of FIG. 5 is configured of a slice coding unit 61, a slice header coding unit 62, a PPS coding unit 63, and an SPS coding unit 64.
  • the slice coding unit 61 of the multi-view image coding unit 55 performs slice-based coding on the multi-view corrected color image supplied from the multi-view color image correction unit 52 according to the HEVC method.
  • the slice encoding unit 61 uses the parallax maximum value, the parallax minimum value, and the inter-camera distance among the viewpoint generation information supplied from the viewpoint generation information generation unit 54 in FIG.
  • the encoding in units of slices is performed on the multiview parallax images from the multiview parallax image generation unit 53 in a method according to the HEVC method.
  • the slice encoding unit 61 supplies the slice header encoding unit 62 with encoded data etc. in slice units obtained as a result of encoding.
  • the slice header encoding unit 62 sets the parallax maximum value, the parallax minimum value, and the inter-camera distance among the viewpoint generation information supplied from the viewpoint generation information generation unit 54 to the parallax maximum value of the current processing target slice. , The parallax minimum value, and the distance between cameras, and hold.
  • the slice header encoding unit 62 is configured such that the parallax maximum value, the parallax minimum value, and the inter-camera distance of the current processing target slice are the parallax maximum values of the slice immediately preceding in the coding order from the slice, It is determined in the unit to which the same PPS is added (hereinafter referred to as the same PPS unit) whether the parallax minimum value and the inter-camera distance match or not.
  • the parallax maximum value, the parallax minimum value, and the inter-camera distance of all slices constituting the same PPS unit match the parallax maximum value, the parallax minimum value, and the inter-camera distance of the immediately preceding slice in coding order.
  • the slice header encoding unit 62 determines a code other than the disparity maximum value, the disparity minimum value, and the inter-camera distance of the slice as a slice header of the encoded data of each slice forming the same PPS unit
  • the information on the quantization is added and supplied to the PPS encoding unit 63.
  • the slice header encoding unit 62 supplies the PPS encoding unit 63 with a transmission flag that indicates the absence of transmission of the disparity encoding result of the disparity maximum value, the disparity minimum value, and the inter-camera distance.
  • the parallax maximum value, the parallax minimum value, and the inter-camera distance of at least one slice constituting the same PPS unit are the parallax maximum value, the parallax minimum value, and the inter-camera distance of the immediately preceding slice in coding order
  • the slice header encoding unit 62 encodes the encoded data of the intra type slice as a slice header including the disparity maximum value, the disparity minimum value, and the inter-camera distance of the slice. Information related to the above is supplied to the PPS encoding unit 63.
  • the slice header encoding unit 62 differentially encodes the disparity maximum value, the disparity minimum value, and the inter-camera distance of an inter-type slice. Specifically, the slice header encoding unit 62 calculates the disparity maximum value of the slice immediately preceding the slice in coding order from the disparity maximum value, disparity minimum value, and inter-camera distance of the inter type slice, disparity The minimum value and the inter-camera distance are respectively subtracted to obtain a differential encoding result.
  • the slice header encoding unit 62 adds information on encoding including the disparity maximum value, the disparity minimum value, and the differential encoding result of the inter-camera distance as a slice header to the encoded data of the inter type slice, It is supplied to the PPS encoding unit 63.
  • the slice header encoding unit 62 supplies the PPS encoding unit 63 with a transmission flag that indicates the presence of the transmission of the disparity encoding result of the disparity maximum value, the disparity minimum value, and the inter-camera distance.
  • the PPS encoding unit 63 includes PPS including the transmission flag supplied from the slice header encoding unit 62 and the parallax accuracy parameter in the viewpoint generation information supplied from the viewpoint generation information generation unit 54 of FIG. 1. Generate The PPS encoding unit 63 adds the PPS to the slice unit encoded data to which the slice header supplied from the slice header encoding unit 62 is added in the same PPS unit, and supplies the PPS to the SPS encoding unit 64.
  • the SPS encoding unit 64 generates an SPS. Then, the SPS encoding unit 64 adds the SPS to the encoded data to which the PPS supplied from the PPS encoding unit 63 is added, in sequence units.
  • the SPS encoding unit 64 functions as a transmission unit, and transmits the resultant bit stream as a coded bit stream.
  • FIG. 6 is a block diagram showing a configuration example of an encoding unit that encodes a parallax image of any one viewpoint in the slice encoding unit 61 of FIG. 5. That is, the encoding unit for encoding multi-viewpoint parallax images in the slice encoding unit 61 is configured by the encoding unit 120 in FIG. 6 for the number of viewpoints.
  • the encoding unit 120 in FIG. 6 includes an A / D conversion unit 121, a screen rearrangement buffer 122, an operation unit 123, an orthogonal transformation unit 124, a quantization unit 125, a lossless encoding unit 126, an accumulation buffer 127, and an inverse quantization unit. 128, inverse orthogonal transform unit 129, addition unit 130, deblock filter 131, frame memory 132, intra-frame prediction unit 133, motion prediction / compensation unit 134, correction unit 135, selection unit 136, and rate control unit 137 Ru.
  • the A / D conversion unit 121 of the encoding unit 120 A / D converts the frame unit multiplexed image of the predetermined viewpoint supplied from the multi-viewpoint parallax image generation unit 53 in FIG. Output and store.
  • the screen rearrangement buffer 122 rearranges the parallax images in frame units of the stored display order in the order for encoding according to the GOP (Group of Picture) structure, and the operation unit 123 and the in-screen prediction unit 133 And the motion prediction / compensation unit 134.
  • the arithmetic unit 123 functions as an encoding unit, and calculates the difference between the predicted image supplied from the selection unit 136 and the parallax image to be encoded output from the screen rearrangement buffer 122 to obtain the encoding target Encode the parallax image. Specifically, the calculation unit 123 subtracts the predicted image supplied from the selection unit 136 from the parallax image to be encoded output from the screen rearrangement buffer 122. The calculation unit 123 outputs the image obtained as a result of the subtraction to the orthogonal transformation unit 124 as residual information. When the prediction image is not supplied from the selection unit 136, the calculation unit 123 outputs the parallax image read from the screen rearrangement buffer 122 as it is to the orthogonal transformation unit 124 as residual information.
  • the orthogonal transformation unit 124 performs orthogonal transformation such as discrete cosine transformation and Karhunen-Loeve transformation on the residual information from the operation unit 123, and supplies the resulting coefficient to the quantization unit 125.
  • the quantization unit 125 quantizes the coefficients supplied from the orthogonal transformation unit 124.
  • the quantized coefficients are input to the lossless encoding unit 126.
  • the lossless coding unit 126 applies variable length coding (eg, CAVLC (Context-Adaptive Variable Length Coding) or the like), arithmetic coding (eg, CABAC, etc.) to the quantized coefficients supplied from the quantization unit 125.
  • variable length coding eg, CAVLC (Context-Adaptive Variable Length Coding) or the like
  • arithmetic coding eg, CABAC, etc.
  • the lossless encoding unit 126 supplies the encoded data obtained as a result of the lossless encoding to the accumulation buffer 127 for accumulation.
  • the accumulation buffer 127 temporarily stores the encoded data supplied from the lossless encoding unit 126, and supplies the encoded data to the slice header encoding unit 62 in slice units.
  • the quantized coefficient output from the quantization unit 125 is also input to the inverse quantization unit 128, and after being inversely quantized, is supplied to the inverse orthogonal transformation unit 129.
  • the inverse orthogonal transformation unit 129 subjects the coefficients supplied from the inverse quantization unit 128 to inverse orthogonal transformation such as inverse discrete cosine transformation and inverse Karhunen-Loeve transformation, and the resulting residual information is added to the addition unit 130.
  • inverse orthogonal transformation such as inverse discrete cosine transformation and inverse Karhunen-Loeve transformation
  • the addition unit 130 adds the residual information as the parallax image to be decoded supplied from the inverse orthogonal transformation unit 129 and the predicted image supplied from the selection unit 136 to obtain a locally decoded parallax image. .
  • the addition unit 130 sets the residual information supplied from the inverse orthogonal transform unit 129 as a locally decoded parallax image.
  • the addition unit 130 supplies the locally decoded parallax image to the deblocking filter 131 and supplies the parallax image to the in-screen prediction unit 133 as a reference image.
  • the deblocking filter 131 removes block distortion by filtering the locally decoded disparity image supplied from the adding unit 130.
  • the deblocking filter 131 supplies the parallax image obtained as a result to the frame memory 132 for storage.
  • the parallax image accumulated in the frame memory 132 is output to the motion prediction / compensation unit 134 as a reference image.
  • the in-screen prediction unit 133 performs in-screen prediction of all candidate intra prediction modes using the reference image supplied from the adding unit 130, and generates a predicted image.
  • the in-screen prediction unit 133 calculates cost function values (details will be described later) for all candidate intra prediction modes. Then, the in-screen prediction unit 133 determines the intra prediction mode with the smallest cost function value as the optimal intra prediction mode. The in-screen prediction unit 133 supplies the prediction image generated in the optimal intra prediction mode and the corresponding cost function value to the selection unit 136. When the selection of the prediction image generated in the optimal intra prediction mode is notified from the selection unit 136, the intra prediction unit 133 predicts the intra prediction information indicating the optimal intra prediction mode and the like in the slice header encoding unit 62 of FIG. Supply to This intra-frame prediction information is included in the slice header as information on encoding.
  • the cost function value is also referred to as RD (Rate Distortion) cost. It is calculated based on either the High Complexity mode or the Low Complexity mode as defined in JM (Joint Model) which is reference software in the H.264 / AVC system.
  • Cost function values are calculated for each prediction mode.
  • D is the difference (distortion) between the original image and the decoded image
  • R is the generated code amount including the coefficients of the orthogonal transform
  • is the Lagrange multiplier given as a function of the quantization parameter QP.
  • the Low Complexity mode when adopted as a method of calculating a cost function value, generation of a decoded image and calculation of header bits such as information indicating a prediction mode are performed for all candidate prediction modes.
  • the cost function represented by the following equation (4) is calculated for each prediction mode.
  • D is the difference (distortion) between the original image and the decoded image
  • Header_Bit is a header bit for the prediction mode
  • QPtoQuant is a function given as a function of the quantization parameter QP.
  • the High Complexity mode is adopted as a method of calculating the cost function value.
  • the motion prediction / compensation unit 134 performs motion prediction processing of all candidate inter prediction modes based on the parallax image supplied from the screen rearrangement buffer 122 and the reference image supplied from the frame memory 132, Generate a motion vector. Specifically, the motion prediction / compensation unit 134 performs matching between the reference image and the parallax image supplied from the screen rearrangement buffer 122 for each inter prediction mode, and generates a motion vector.
  • the inter prediction mode is information indicating the size of a block to be subjected to inter prediction, a prediction direction, and a reference index.
  • the prediction direction forward reference (L0 prediction) using a reference image whose display time is earlier than the parallax image to be inter predicted, and the reference image whose display time is later than a parallax image to be inter prediction
  • L1 prediction backward prediction
  • Bi-prediction bi-prediction
  • the reference index is a number for specifying a reference image, and for example, the number is smaller as the reference index of the image closer to the parallax image to be the target of inter prediction.
  • the motion prediction / compensation unit 134 functions as a predicted image generation unit, and performs a motion compensation process by reading out a reference image from the frame memory 132 based on the generated motion vector for each inter prediction mode.
  • the motion prediction / compensation unit 134 supplies the predicted image generated as a result to the correction unit 135.
  • the correction unit 135 uses the parallax maximum value, the parallax minimum value, and the inter-camera distance among the viewpoint generation information supplied from the viewpoint generation information generation unit 54 in FIG. A correction coefficient to be used for correction is generated (set). The correction unit 135 corrects the predicted image of each inter prediction mode supplied from the motion prediction / compensation unit 134 using a correction coefficient.
  • the position Z p in the depth direction of the subject in the depth direction position Z c and the prediction image of the subject of the parallax image to be coded is represented by the following formula (5).
  • L c and L p are the inter-camera distance of the parallax image to be encoded and the inter-camera distance of the predicted image, respectively.
  • f is a focal length common to the parallax image to be encoded and the predicted image.
  • d c and d p are the absolute value of the disparity value before normalization of the disparity image to be encoded and the absolute value of the disparity value before normalization of the predicted image.
  • parallax value I c of the parallax image to be encoded and the parallax value I p of the predicted image are expressed by the following equation (6) using the absolute values d c and d p of the parallax value before normalization: Ru.
  • D c min and D p min are the parallax minimum value of the parallax image to be encoded and the parallax minimum value of the prediction image, respectively.
  • D c max and D p max are respectively the parallax maximum value of the parallax image to be encoded and the parallax maximum value of the prediction image.
  • disparity minimum value D c If at least one of min and D p min and the parallax maximum values D c max and D p max are different, the parallax value I c and the parallax value I p will be different.
  • the correction unit 135 generates a correction coefficient for correcting the predicted image as parallax value I c and the parallax value I p when the position Z c and the position Z p are the same are the same.
  • equation (8) is obtained.
  • the disparity value I c is expressed by the following equation (10) using the disparity value I p .
  • the correction unit 135 generates a and b in equation (10) as correction coefficients. Then, using the correction coefficients a and b and the parallax value I p , the correction unit 135 obtains the parallax value I c in Equation (10) as the parallax value of the predicted image after correction.
  • the correction unit 135 calculates a cost function value for each inter prediction mode using the corrected predicted image, and determines an inter prediction mode that minimizes the cost function value as the optimal inter prediction mode. Then, the correction unit 135 supplies the prediction image generated in the optimal inter prediction mode and the cost function value to the selection unit 136.
  • the correction unit 135 outputs the motion information to the slice header encoding unit 62 when the selection unit 136 is notified of the selection of the predicted image generated in the optimal inter prediction mode.
  • This motion information is composed of an optimal inter prediction mode, a prediction vector index, a motion vector residual which is a difference obtained by subtracting a motion vector represented by the prediction vector index from a current motion vector, and the like.
  • the prediction vector index is information for specifying one motion vector among motion vectors as candidates used for generating a prediction image of a decoded parallax image.
  • the motion information is included in the slice header as information on coding.
  • the selection unit 136 determines one of the optimal intra prediction mode and the optimal inter prediction mode as the optimal prediction mode based on the cost function values supplied from the in-screen prediction unit 133 and the correction unit 135. Then, the selection unit 136 supplies the predicted image in the optimal prediction mode to the calculation unit 123 and the addition unit 130. Further, the selection unit 136 notifies the in-screen prediction unit 133 or the correction unit 135 of the selection of the prediction image in the optimal prediction mode.
  • the rate control unit 137 controls the rate of the quantization operation of the quantization unit 125 based on the encoded data stored in the storage buffer 127 so that an overflow or an underflow does not occur.
  • FIG. 7 is a diagram showing an example of the configuration of a coded bit stream.
  • the parallax maximum value, the parallax minimum value, and the inter-camera distance of one intra-type slice and two inter-type slices constituting the same PPS unit of PPS # 0, which is the 0th PPS are Each does not match the disparity maximum value, disparity minimum value, and inter-camera distance of the immediately preceding slice in the coding order. Therefore, PPS # 0 includes a transmission flag "1" indicating the presence of transmission. Further, in the example of FIG. 7, the parallax accuracy of the slices constituting the same PPS unit of PPS # 0 is 0.5, and PPS # 0 includes “1” representing the parallax accuracy 0.5 as the parallax accuracy parameter.
  • the parallax minimum value of the slice of the intra type which comprises the same PPS unit of PPS # 0 is 10
  • the parallax maximum value is 50
  • the distance between cameras is 100. Therefore, the slice header of the slice includes the parallax minimum value “10”, the parallax maximum value “50”, and the inter-camera distance “100”.
  • the parallax minimum value of the first intertype slice constituting the same PPS unit of PPS # 0 is 9, the parallax maximum value is 48, and the inter-camera distance is 105. Therefore, in the slice header of the slice, a difference "-1" obtained by subtracting the disparity minimum value "10" of the slice of the immediately preceding intra type slice in coding order from the disparity minimum value "9" of the slice is It is included as a difference encoding result of the parallax minimum value.
  • the difference “-2” of the parallax maximum value is included as the difference encoding result of the parallax maximum value
  • the difference “5” of the inter-camera distance is included as the difference encoding result of the inter-camera distance.
  • the parallax minimum value of the second inter-type slice constituting the same PPS unit of PPS # 0 is 7
  • the parallax maximum value is 47
  • the inter-camera distance is 110. Therefore, in the slice header of that slice, the difference “ ⁇ 2” obtained by subtracting the minimum disparity value “9” of the first inter-type slice in the coding order from the minimum disparity value “7” of that slice “Is included as a difference encoding result of the parallax minimum value.
  • the difference “ ⁇ 1” of the disparity maximum value is included as the difference encoding result of the disparity maximum value
  • the difference “5” of the inter-camera distance is included as the difference encoding result of the inter-camera distance.
  • PPS # 1 includes a transmission flag "0" indicating that there is no transmission. Further, in the example of FIG. 7, the parallax accuracy of the slices constituting the same PPS unit of PPS # 1 is 0.5, and PPS # 1 includes “1” representing the parallax accuracy of 0.5 as the parallax accuracy parameter.
  • FIG. 8 is a diagram showing an example of syntax of the PPS of FIG.
  • the PPS includes a parallax accuracy parameter (disparity_precision) and a transmission flag (dsiparity_pic_same_flag).
  • the parallax accuracy parameter is, for example, “0” when representing parallax accuracy 1 and “2” when representing parallax accuracy 0.25. Further, as described above, the parallax accuracy parameter is “1” when representing the parallax accuracy of 0.5. Further, as described above, the transmission flag is “1” when indicating the presence of transmission, and is “0” when indicating the absence of transmission.
  • slice header syntax example 9 and 10 are diagrams showing examples of slice header syntax.
  • the slice header includes the minimum disparity value (minimum_disparity), the maximum disparity value (maximum_disparity), and the inter-camera distance (translation_x). Is included.
  • the slice header includes a difference coding result of disparity minimum value (delta_minimum_disparity), a difference encoding result of disparity maximum value (delta_maximum_disparity), and a camera.
  • the differential encoding result (delta_translation_x) of the inter-distance is included.
  • FIG. 11 is a flowchart illustrating the encoding process of the encoding device 50 of FIG.
  • step S111 in FIG. 11 the multi-view color image capturing unit 51 of the encoding device 50 captures multi-view color images and supplies the multi-view color image correction unit 52 as a multi-view color image.
  • step S112 the multi-view color image capturing unit 51 generates a parallax maximum value, a parallax minimum value, and an external parameter.
  • the multiview color image capturing unit 51 supplies the disparity maximum value, the disparity minimum value, and the external parameters to the viewpoint generation information generating unit 54, and supplies the disparity maximum value and the disparity minimum value to the multiview disparity image generating unit 53. Do.
  • step S113 the multiview color image correction unit 52 performs color correction, luminance correction, distortion correction, and the like on the multiview color image supplied from the multiview color image capturing unit 51.
  • the focal length in the horizontal direction (X direction) of the multi-view color image capturing unit 51 in the corrected multi-view color image becomes common to all the viewpoints.
  • the multi-view color image correction unit 52 supplies the corrected multi-view color image to the multi-view parallax image generation unit 53 and the multi-view image encoding unit 55 as a multi-view correction color image.
  • step S114 the multiview parallax image generation unit 53 supplies the multiview corrected color supplied from the multiview color image correction unit 52 based on the parallax maximum value and the parallax minimum value supplied from the multiview color image pickup unit 51. From the image, a multi-view parallax image is generated. Then, the multi-viewpoint parallax image generation unit 53 supplies the generated multi-viewpoint parallax image to the multi-viewpoint image encoding unit 55 as a multi-viewpoint parallax image.
  • step S115 the multiview parallax image generation unit 53 generates a parallax accuracy parameter, and supplies the parallax accuracy parameter to the viewpoint generation information generation unit 54.
  • step S116 the viewpoint generation information generation unit 54 obtains the inter-camera distance based on the external parameter supplied from the multi-view color image capturing unit 51.
  • step S117 the viewpoint generation information generation unit 54 generates viewpoints for the parallax maximum value and the parallax minimum value from the multiview color image capturing unit 51, the inter-camera distance, and the parallax accuracy parameter from the multiview parallax image generation unit 53. Generate as usage information.
  • the viewpoint generation information generation unit 54 supplies the generated viewpoint generation information to the multi-viewpoint image coding unit 55.
  • step S118 the multi-viewpoint encoding process of encoding the multi-viewpoint corrected color image from the multi-viewpoint color image correction unit 52 and the multi-viewpoint parallax image from the multi-viewpoint parallax image generation unit 53. I do. Details of this multi-view coding process will be described with reference to FIG. 12 described later.
  • step S119 the multiview image encoding unit 55 transmits the encoded bit stream obtained as a result of the multiview encoding process, and ends the process.
  • FIG. 12 is a flow chart for explaining the multi-view coding process of step S118 of FIG.
  • the slice encoding unit 61 (FIG. 5) of the multiview image encoding unit 55 receives the multiview corrected color image from the multiview color image correction unit 52 and the multiview parallax image generation unit 53.
  • the multi-view parallax image of is encoded in slice units.
  • the slice encoding unit 61 performs color image encoding processing for encoding a multi-viewpoint corrected color image according to the HEVC method on a slice basis.
  • the slice encoding unit 61 uses the parallax maximum value, the parallax minimum value, and the inter-camera distance among the viewpoint generation information supplied from the viewpoint generation information generation unit 54 in FIG.
  • the parallax image coding process is performed in units of slices, in which coding is performed in a method according to the HEVC method. The details of the parallax image coding process will be described with reference to FIGS. 13 and 14 described later.
  • the slice encoding unit 61 supplies the slice header encoding unit 62 with the encoded data in slice units obtained as a result of encoding.
  • step S132 the slice header encoding unit 62 processes the inter-camera distance, the parallax maximum value, and the parallax minimum value in the viewpoint generation information supplied from the viewpoint generation information generation unit 54 to the current processing target slice. And the inter-camera distance, the parallax maximum value, and the parallax minimum value.
  • step S133 the slice header encoding unit 62 determines that the inter-camera distances, the parallax maximum value, and the parallax minimum value of all slices constituting the same PPS unit are one slice earlier in the coding order than that slice. It is determined whether the inter-camera distance of, the parallax maximum value, and the parallax minimum value match.
  • step S134 the slice header encoding unit 62 determines that the inter-camera distance, the parallax maximum value, and the parallax minimum value difference code A transmission flag representing no transmission of the quantization result is generated and supplied to the PPS encoding unit 63.
  • step S135 the slice header encoding unit 62 sets the encoded data of each slice constituting the same PPS unit to be processed in step S133 as a slice header, the inter-camera distance of the slice, the parallax maximum value, and the parallax Add information about encoding other than the minimum value.
  • the information on the encoding includes intra-frame prediction information or motion information supplied from the slice encoding unit 61.
  • the slice header encoding unit 62 supplies the encoded data of each slice constituting the same PPS unit obtained as a result to the PPS encoding unit 63, and the process proceeds to step S140.
  • step S133 when it is determined in step S133 that the inter-camera distance, the parallax maximum value, and the parallax minimum value do not match, the slice header encoding unit 62 determines the inter-camera distance, parallax maximum value, and parallax minimum value in step S136.
  • the PPS encoding unit 63 is supplied with a transmission flag indicating the presence of the transmission of the differential encoding result.
  • the processing of steps S137 to S139 described later is performed for each slice constituting the same PPS unit which is the processing target of step S133.
  • step S137 the slice header encoding unit 62 determines whether the type of slice forming the same PPS unit to be processed in step S133 is an intra type.
  • step S138 the slice header encoding unit 62 sets the slice inter-camera distance and disparity maximum as the slice header in the encoded data of the slice. Add information about the coding including the value and the disparity minimum value.
  • the information on the encoding also includes intra-frame prediction information or motion information supplied from the slice encoding unit 61. Then, the slice header encoding unit 62 supplies the encoded data in slice units obtained as a result to the PPS encoding unit 63, and the process proceeds to step S140.
  • step S137 the slice header encoding unit 62 differentially encodes the inter-camera distance, disparity maximum value, and disparity minimum value of the slice, and information on encoding including the result of differential encoding in the encoded data of the slice Is added as a slice header.
  • the information on the encoding also includes intra-frame prediction information or motion information supplied from the slice encoding unit 61.
  • the slice header encoding unit 62 supplies the encoded data in slice units obtained as a result to the PPS encoding unit 63, and the process proceeds to step S140.
  • step S140 the PPS encoding unit 63 uses the transmission flag supplied from the slice header encoding unit 62 and the parallax accuracy parameter of the viewpoint generation information supplied from the viewpoint generation information generation unit 54 of FIG. Generate the included PPS.
  • step S 141 the PPS encoding unit 63 adds the PPS to the slice unit encoded data to which the slice header supplied from the slice header encoding unit 62 is added in the same PPS unit, and transmits the PPS to the SPS encoding unit 64. Supply.
  • step S142 the SPS encoding unit 64 generates an SPS.
  • step S143 the SPS encoding unit 64 adds the SPS to the encoded data to which the PPS supplied from the PPS encoding unit 63 is added in sequence units, and generates an encoded bit stream. Then, the process returns to step S118 in FIG. 11 and proceeds to step S119.
  • FIG. 13 and FIG. 14 are flowcharts for explaining the details of the parallax image coding process of the slice coding unit 61 of FIG. This disparity image encoding process is performed for each viewpoint.
  • step S160 in FIG. 13 the A / D conversion unit 121 of the encoding unit 120 A / D converts the parallax image of a frame of a predetermined viewpoint input from the multi-viewpoint parallax image generation unit 53 and rearranges the screen.
  • the data is output to the buffer 122 and stored.
  • step S161 the screen rearrangement buffer 122 rearranges the parallax images of the stored display order frames in the order for encoding in accordance with the GOP structure.
  • the screen rearrangement buffer 122 supplies the parallax image in frame units after the rearrangement to the calculation unit 123, the in-screen prediction unit 133, and the motion prediction / compensation unit 134.
  • step S162 the in-screen prediction unit 133 performs in-screen prediction processing of all candidate intra prediction modes using the reference image supplied from the adding unit 130. At this time, the in-screen prediction unit 133 calculates cost function values for all candidate intra prediction modes. Then, the in-screen prediction unit 133 determines the intra prediction mode with the smallest cost function value as the optimal intra prediction mode. The in-screen prediction unit 133 supplies the prediction image generated in the optimal intra prediction mode and the corresponding cost function value to the selection unit 136.
  • step S163 the motion prediction / compensation unit 134 performs motion prediction / compensation processing based on the parallax image supplied from the screen rearrangement buffer 122 and the reference image supplied from the frame memory 132.
  • the motion prediction / compensation unit 134 performs the motions of all candidate inter prediction modes based on the parallax image supplied from the screen rearrangement buffer 122 and the reference image supplied from the frame memory 132. A prediction process is performed to generate a motion vector. Also, the motion prediction / compensation unit 134 performs the motion compensation processing by reading out the reference image from the frame memory 132 based on the generated motion vector for each inter prediction mode. The motion prediction / compensation unit 134 supplies the predicted image generated as a result to the correction unit 135.
  • step S164 the correction unit 135 calculates a correction coefficient based on the parallax maximum value, the parallax minimum value, and the inter-camera distance among the viewpoint generation information supplied from the viewpoint generation information generation unit 54 in FIG. 1. Do.
  • step S165 the correction unit 135 corrects the predicted image of each inter prediction mode supplied from the motion prediction / compensation unit 134 using a correction coefficient.
  • step S166 using the predicted image after correction, the correction unit 135 calculates a cost function value for each inter prediction mode, and determines an inter prediction mode with the smallest cost function value as the optimal inter prediction mode. . Then, the correction unit 135 supplies the prediction image generated in the optimal inter prediction mode and the cost function value to the selection unit 136.
  • step S167 based on the cost function values supplied from the in-screen prediction unit 133 and the correction unit 135, the selection unit 136 determines which of the optimal intra prediction mode and the optimal inter prediction mode has the smallest cost function value. , Determine the optimal prediction mode. Then, the selection unit 136 supplies the predicted image in the optimal prediction mode to the calculation unit 123 and the addition unit 130.
  • step S168 the selection unit 136 determines whether the optimal prediction mode is the optimal inter prediction mode. If it is determined in step S168 that the optimal prediction mode is the optimal inter prediction mode, the selection unit 136 notifies the correction unit 135 of the selection of the prediction image generated in the optimal inter prediction mode.
  • step S169 the correction unit 135 outputs the motion information to the slice header encoding unit 62 (FIG. 5), and the process proceeds to step S171.
  • step S168 if it is determined in step S168 that the optimal prediction mode is not the optimal inter prediction mode, that is, if the optimal prediction mode is the optimal intra prediction mode, the selector 136 selects one of the predicted images generated in the optimal intra prediction mode. The selection is notified to the in-screen prediction unit 133.
  • step S170 the in-screen prediction unit 133 outputs the in-screen prediction information to the slice header encoding unit 62, and the process proceeds to step S171.
  • step S171 the calculation unit 123 subtracts the predicted image supplied from the selection unit 136 from the parallax image supplied from the screen rearrangement buffer 122.
  • the calculation unit 123 outputs the image obtained as a result of the subtraction to the orthogonal transformation unit 124 as residual information.
  • step S172 the orthogonal transformation unit 124 performs orthogonal transformation on the residual information from the computation unit 123, and supplies the coefficient obtained as a result to the quantization unit 125.
  • step S173 the quantization unit 125 quantizes the coefficient supplied from the orthogonal transformation unit 124.
  • the quantized coefficients are input to the lossless encoding unit 126 and the inverse quantization unit 128.
  • step S174 the lossless encoding unit 126 losslessly encodes the quantized coefficients supplied from the quantization unit 125.
  • step S175 in FIG. 14 the lossless encoding unit 126 supplies the encoded data obtained as a result of the lossless encoding process to the accumulation buffer 127 and causes the accumulation buffer 127 to accumulate the encoded data.
  • step S176 the accumulation buffer 127 outputs the accumulated encoded data to the slice header encoding unit 62.
  • step S177 the inverse quantization unit 128 inversely quantizes the quantized coefficient supplied from the quantization unit 125.
  • step S178 the inverse orthogonal transformation unit 129 performs inverse orthogonal transformation on the coefficients supplied from the inverse quantization unit 128, and supplies the resultant residual information to the addition unit 130.
  • step S179 the addition unit 130 adds the residual information supplied from the inverse orthogonal transform unit 129 and the predicted image supplied from the selection unit 136 to obtain a locally decoded parallax image.
  • the addition unit 130 supplies the obtained parallax image to the deblocking filter 131, and supplies the obtained parallax image to the in-screen prediction unit 133 as a reference image.
  • step S180 the deblocking filter 131 removes block distortion by filtering the locally decoded disparity image supplied from the adding unit 130.
  • step S181 the deblocking filter 131 supplies the parallax image after filtering to the frame memory 132 and stores it.
  • the parallax image accumulated in the frame memory 132 is output to the motion prediction / compensation unit 134 as a reference image. Then, the process ends.
  • steps S162 to S181 in FIGS. 13 and 14 are performed, for example, in units of coding units having a hierarchical structure. Moreover, in the parallax image coding process of FIG. 13 and FIG. 14, in order to simplify the description, the intra prediction process and the motion compensation process are always performed, but in actuality, either one depending on the picture type etc. Sometimes only one is done.
  • the encoding device 50 corrects the predicted image using the information on the parallax image, and encodes the parallax image using the corrected predicted image. More specifically, the encoding device 50 uses the inter-camera distance, the parallax maximum value, and the parallax minimum value as information related to the parallax image, and the position of the subject in the depth direction is the same between the predicted image and the parallax image.
  • the predicted image is corrected so that the parallax value is the same in some cases, and the parallax image is encoded using the corrected predicted image. Therefore, the difference between the predicted image and the parallax image caused by the information on the parallax image is reduced, and the coding efficiency is improved. In particular, when the information regarding the parallax image changes for each picture, the coding efficiency is improved.
  • the encoding device 50 transmits not the correction coefficient itself but the inter-camera distance, the parallax maximum value, and the parallax minimum value, which are used to calculate the correction coefficient, as the information used to correct the predicted image.
  • the inter-camera distance, the parallax maximum value, and the parallax minimum value are part of the viewpoint generation information. Therefore, the inter-camera distance, the parallax maximum value, and the parallax minimum value can be shared as part of information used for correcting a predicted image and information for viewpoint generation. As a result, the amount of information of the coded bit stream can be reduced.
  • FIG. 15 is a block diagram showing a configuration example of a first embodiment of a decoding device to which the present technology is applied, which decodes a coded bit stream transmitted from the coding device 50 of FIG.
  • the decoding device 150 in FIG. 15 includes a multi-viewpoint image decoding unit 151, a viewpoint combination unit 152, and a multi-viewpoint image display unit 153.
  • the decoding device 150 decodes the encoded bit stream transmitted from the encoding device 50, and uses the resulting multi-view color image, multi-view parallax image, and information for viewpoint generation to obtain a color image of a display viewpoint. Generate and display.
  • the multi-viewpoint image decoding unit 151 of the decoding device 150 receives the coded bit stream transmitted from the coding device 50 of FIG. 1.
  • the multi-viewpoint image decoding unit 151 extracts the parallax accuracy parameter and the transmission flag from the PPS included in the received encoded bit stream. Also, the multi-viewpoint image decoding unit 151 extracts the inter-camera distance, the parallax maximum value, and the parallax minimum value from the slice header of the encoded bit stream according to the transmission flag.
  • the multi-viewpoint image decoding unit 151 generates viewpoint generation information including a parallax accuracy parameter, an inter-camera distance, a parallax maximum value, and a parallax minimum value, and supplies the information to the viewpoint synthesis unit 152.
  • the multi-viewpoint image decoding unit 151 uses the method corresponding to the encoding scheme of the multi-viewpoint image encoding unit 55 of FIG. 1 on the encoded data of the multi-viewpoint corrected color image in slice units included in the encoded bit stream. Decode to produce a multi-view corrected color image.
  • the multi-viewpoint image decoding unit 151 also functions as a decoding unit.
  • the multi-viewpoint image decoding unit 151 uses the inter-camera distance, the maximum disparity value, and the minimum disparity value to encode the encoded data of the multi-viewpoint parallax image included in the encoded bit stream as the code of the multi-viewpoint image encoding unit 55.
  • the multi-viewpoint image decoding unit 151 supplies the generated multi-viewpoint corrected color image and the multi-viewpoint parallax image to the viewpoint combining unit 152.
  • the viewpoint combining unit 152 uses the viewpoint generation information from the multi-viewpoint image decoding unit 151 to set the number of viewpoints corresponding to the multi-viewpoint image display unit 153 to the multi-viewpoint parallax image from the multi-viewpoint image decoding unit 151. Perform warping processing to the display viewpoint. Specifically, the viewpoint combining unit 152 applies the multi-viewpoint parallax image to the multi-viewpoint parallax image with an accuracy corresponding to the parallax accuracy parameter based on the inter-camera distance, the parallax maximum value, the parallax minimum value, etc. included in the viewpoint generation information. Perform warping processing to the display viewpoint.
  • the warping process is a process of geometrically transforming an image of one viewpoint to an image of another viewpoint.
  • the display viewpoint includes a viewpoint other than the viewpoint corresponding to the multi-view color image.
  • the viewpoint combining unit 152 performs warping processing to the display viewpoint on the multiview corrected color image supplied from the multiview image decoding unit 151 using the parallax image of the display viewpoint obtained as a result of the warping processing. .
  • the viewpoint combining unit 152 supplies the color image of the display viewpoint obtained as a result to the multi-viewpoint image display unit 153 as a multi-viewpoint combined color image.
  • the multi-viewpoint image display unit 153 displays the multi-viewpoint composite color image supplied from the viewpoint combining unit 152 so that the viewable angle differs for each viewpoint.
  • the viewer can view 3D images from a plurality of viewpoints without wearing glasses by viewing the images of any two viewpoints with the left and right eyes.
  • the viewpoint combining unit 152 wastes the viewpoint combining unit 152 because the viewpoint combining unit 152 performs warping processing to a display viewpoint with respect to a multi-viewpoint parallax image with an accuracy corresponding to the viewpoint accuracy parameter based on the parallax accuracy parameter. There is no need to perform high precision warping processing.
  • the viewpoint combining unit 152 performs warping processing to the display viewpoint for the multiview parallax image based on the inter-camera distance, in a range where the parallax corresponding to the parallax value of the multiview parallax image after the warping processing is appropriate. If not, it is possible to correct the parallax value to a value corresponding to the appropriate range of parallax based on the inter-camera distance.
  • FIG. 16 is a block diagram showing a configuration example of the multi-viewpoint image decoding unit 151 of FIG.
  • the multi-viewpoint image decoding unit 151 in FIG. 16 includes an SPS decoding unit 171, a PPS decoding unit 172, a slice header decoding unit 173, and a slice decoding unit 174.
  • the SPS decoding unit 171 of the multi-viewpoint image decoding unit 151 functions as a receiving unit, receives the coded bit stream transmitted from the coding device 50 of FIG. 1, and extracts the SPS of the coded bit stream .
  • the SPS decoding unit 171 supplies the extracted SPS and the encoded bit stream other than the SPS to the PPS decoding unit 172.
  • the PPS decoding unit 172 extracts the PPS from the coded bit stream other than the SPS supplied from the SPS decoding unit 171.
  • the PPS decoding unit 172 supplies the extracted PPS, SPS, and SPS and a coded bit stream other than PPS to the slice header decoding unit 173.
  • the slice header decoding unit 173 extracts a slice header from the SPS supplied from the PPS decoding unit 172 and the encoded bit stream other than the PPS.
  • the slice header decoding unit 173 determines the inter-camera distance, maximum parallax value, and minimum parallax value included in the slice header. It holds or updates the held inter-camera distance, the parallax maximum value, and the parallax minimum value based on the inter-camera distance, the parallax maximum value, and the difference encoding result of the parallax minimum value.
  • the slice header decoding unit 173 generates viewpoint generation information from the held inter-camera distance, the parallax maximum value, the parallax minimum value, and the parallax accuracy parameter included in the PPS, and supplies the information to the viewpoint synthesis unit 152.
  • the slice header decoding unit 173 is a coded bit stream other than SPS, PPS, and information about inter-camera distance of slice header, maximum disparity value, and minimum disparity value, and other than SPS, PPS, and slice header.
  • the encoded data in slice units is supplied to the slice decoding unit 174.
  • the slice header decoding unit 173 supplies the inter-camera distance, the maximum disparity value, and the minimum disparity value to the slice decoding unit 174.
  • the slice decoding unit 174 determines the slice encoding unit 61 (see FIG. 5) based on the SPS and PPS supplied from the slice header decoding unit 173 and the information on the inter-camera distance of the slice header, the parallax maximum value, and the parallax minimum value.
  • the encoded data of the multiplexed color image in slice units is decoded by a method corresponding to the encoding method in the above.
  • the slice decoding unit 174 is a slice based on SPS, PPS, the inter-camera distance of the slice header, information regarding disparity maximum value, and disparity minimum value, and based on the inter-camera distance, disparity maximum value, and disparity minimum value.
  • the encoded data of the multiplexed parallax image in slice units is decoded by a method corresponding to the encoding method in the encoding unit 61.
  • the slice header decoding unit 173 supplies the multi-view corrected color image and the multi-view parallax image obtained as a result of the decoding to the view combining unit 152 in FIG.
  • FIG. 17 is a block diagram showing a configuration example of a decoding unit that decodes a parallax image of one arbitrary viewpoint in the slice decoding unit 174 of FIG. That is, the decoding unit for decoding the multiview parallax image in the slice decoding unit 174 is configured by the decoding unit 250 in FIG. 17 for the number of viewpoints.
  • the decoding unit 250 in FIG. 17 includes an accumulation buffer 251, a lossless decoding unit 252, an inverse quantization unit 253, an inverse orthogonal transformation unit 254, an addition unit 255, a deblock filter 256, a screen rearrangement buffer 257, and a D / A conversion unit 258. And a frame memory 259, an intra-frame prediction unit 260, a motion vector generation unit 261, a motion compensation unit 262, a correction unit 263, and a switch 264.
  • the accumulation buffer 251 of the decoding unit 250 receives, from the slice header decoding unit 173 of FIG.
  • the accumulation buffer 251 supplies the encoded data that has been accumulated to the lossless decoding unit 252.
  • the lossless decoding unit 252 obtains the quantized coefficients by performing lossless decoding such as variable length decoding or arithmetic decoding on the encoded data from the accumulation buffer 251.
  • the lossless decoding unit 252 supplies the quantized coefficients to the inverse quantization unit 253.
  • the inverse quantization unit 253, the inverse orthogonal transformation unit 254, the addition unit 255, the deblock filter 256, the frame memory 259, the in-screen prediction unit 260, the motion compensation unit 262, and the correction unit 263 are the inverse quantization unit 128 in FIG. ,
  • the parallax image of the viewpoint is decoded.
  • the inverse quantization unit 253 inversely quantizes the quantized coefficient from the lossless decoding unit 252, and supplies the coefficient obtained as a result to the inverse orthogonal transformation unit 254.
  • the inverse orthogonal transformation unit 254 subjects the coefficient from the inverse quantization unit 253 to inverse orthogonal transformation such as inverse discrete cosine transformation and inverse Karhunen-Loeve transformation, and supplies the resultant residual information to the addition unit 255. Do.
  • the addition unit 255 functions as a decoding unit, adds the residual information as the parallax image to be decoded supplied from the inverse orthogonal transformation unit 254, and the predicted image supplied from the switch 264, thereby generating the parallax to be decoded. Decode the image.
  • the addition unit 255 supplies the parallax image obtained as a result to the deblocking filter 256, and supplies the parallax image to the in-screen prediction unit 260 as a reference image.
  • the adding unit 255 supplies the parallax image, which is the residual information supplied from the inverse orthogonal transformation unit 254, to the deblocking filter 256, and the in-screen prediction unit as a reference image. Supply to 260.
  • the deblocking filter 256 removes block distortion by filtering the parallax image supplied from the adding unit 255.
  • the deblocking filter 256 supplies the parallax image obtained as a result to the frame memory 259, stores it, and supplies it to the screen rearrangement buffer 257.
  • the parallax image accumulated in the frame memory 259 is supplied to the motion compensation unit 262 as a reference image.
  • the screen rearrangement buffer 257 stores the parallax image supplied from the deblocking filter 256 in units of frames.
  • the screen rearrangement buffer 257 rearranges the stored parallax images of the order of encoding for coding in the order of the original display, and supplies the rearranged images to the D / A conversion unit 258.
  • the D / A conversion unit 258 D / A converts the parallax image in units of frames supplied from the screen rearrangement buffer 257, and supplies the parallax image to the viewpoint combining unit 152 (FIG. 15) as a parallax image of a predetermined viewpoint.
  • the intra prediction unit 260 performs intra prediction of the optimal intra prediction mode represented by the intra prediction information supplied from the slice header decoding unit 173 (FIG. 16) using the reference image supplied from the addition unit 255, Generate a prediction image. Then, the in-screen prediction unit 260 supplies the predicted image to the switch 264.
  • the motion vector generation unit 261 adds the motion vector residual and the motion vector represented by the prediction vector index included in the motion information supplied from the slice header decoding unit 173 among the held motion vectors, and adds the motion Restore the vector.
  • the motion vector generation unit 261 holds the restored motion vector. Further, the motion vector generation unit 261 supplies the restored motion vector, the optimal inter prediction mode included in the motion information, and the like to the motion compensation unit 262.
  • the motion compensation unit 262 functions as a predicted image generation unit, and performs a motion compensation process by reading a reference image from the frame memory 259 based on the motion vector supplied from the motion vector generation unit 261 and the optimal inter prediction mode. .
  • the motion compensation unit 262 supplies the predicted image generated as a result to the correction unit 263.
  • the correction unit 263 corrects the predicted image based on the maximum parallax value, the minimum parallax value, and the inter-camera distance supplied from the slice header decoding unit 173 in FIG. 16 as in the correction unit 135 in FIG. Generate the correction factor to be used. Further, the correction unit 263 corrects the predicted image of the optimal inter prediction mode supplied from the motion compensation unit 262 using the correction coefficient, as in the correction unit 135. The correction unit 263 supplies the corrected predicted image to the switch 264.
  • the switch 264 supplies the prediction image to the addition unit 255 when the prediction image is supplied from the intra-frame prediction unit 260, and supplies the prediction image to the addition unit 255 when the prediction image is supplied from the motion compensation unit 262. Supply.
  • FIG. 18 is a flowchart illustrating the decoding process of the decoding device 150 of FIG. This decoding process is started, for example, when a coded bit stream is transmitted from the coding device 50 of FIG.
  • step S201 of FIG. 18 the multi-viewpoint image decoding unit 151 of the decoding device 150 receives the coded bit stream transmitted from the coding device 50 of FIG.
  • step S202 the multiview image decoding unit 151 performs a multiview decoding process of decoding the received encoded bit stream. Details of this multi-viewpoint decoding process will be described with reference to FIG. 19 described later.
  • the viewpoint combining unit 152 functions as a color image generation unit, and uses the viewpoint generation information supplied from the multiview image decoding unit 151, the multiview corrected color image, and the multiview parallax image to perform multiviews. Generate a composite color image.
  • step S204 the multi-viewpoint image display unit 153 displays the multi-viewpoint composite color image supplied from the viewpoint combining unit 152 so that the viewable angle differs for each viewpoint, and the process ends.
  • FIG. 19 is a flowchart for describing the details of the multiview decoding process of step S202 of FIG.
  • step S221 in FIG. 19 the SPS decoding unit 171 (FIG. 16) of the multi-viewpoint image decoding unit 151 extracts the SPS from the received encoded bit stream.
  • the SPS decoding unit 171 supplies the extracted SPS and the encoded bit stream other than the SPS to the PPS decoding unit 172.
  • step S222 the PPS decoding unit 172 extracts the PPS from the coded bit stream other than the SPS supplied from the SPS decoding unit 171.
  • the PPS decoding unit 172 supplies the extracted PPS, SPS, and SPS and a coded bit stream other than PPS to the slice header decoding unit 173.
  • step S223 the slice header decoding unit 173 supplies the parallax accuracy parameter included in the PPS supplied from the PPS decoding unit 172 to the viewpoint synthesis unit 152 as part of the viewpoint generation information.
  • step S224 the slice header decoding unit 173 determines whether the transmission flag included in the PPS from the PPS decoding unit 172 is “1” indicating the presence of transmission.
  • the processing of the subsequent steps S225 to S234 is performed in slice units.
  • step S224 If it is determined in step S224 that the transmission flag is "1" representing the presence of transmission, the process proceeds to step S225.
  • step S225 the slice header decoding unit 173 determines the disparity maximum value, the disparity minimum value, and the inter-camera distance, or the disparity maximum value, the disparity from the SPS and the encoded bit stream other than PPS supplied from the PPS decoding unit 172. The slice header including the minimum value and the differential encoding result of the inter-camera distance is extracted.
  • step S226 the slice header decoding unit 173 determines whether the slice type is intra type. If it is determined in step S226 that the slice type is intra type, the process proceeds to step S227.
  • step S227 the slice header decoding unit 173 holds the parallax minimum value included in the slice header extracted in step S225, and supplies the parallax minimum value as a part of viewpoint generation information to the viewpoint combining unit 152.
  • step S228, the slice header decoding unit 173 holds the parallax maximum value included in the slice header extracted in step S225, and supplies the parallax maximum value as a part of the viewpoint generation information to the viewpoint combining unit 152.
  • step S229 the slice header decoding unit 173 holds the inter-camera distance included in the slice header extracted in step S225, and supplies the inter-camera distance as a part of viewpoint generation information to the viewpoint combining unit 152. Then, the process proceeds to step S235.
  • step S226 determines whether the slice type is the intra type, that is, if the slice type is the inter type. If it is determined in step S226 that the slice type is not the intra type, that is, if the slice type is the inter type, the process proceeds to step S230.
  • step S230 the slice header decoding unit 173 adds the difference encoding result of the parallax minimum value included in the slice header extracted in step S225 to the held parallax minimum value.
  • the slice header decoding unit 173 supplies the parallax minimum value restored by the addition to the viewpoint combining unit 152 as a part of the viewpoint generation information.
  • step S231 the slice header decoding unit 173 adds the difference encoding result of the parallax maximum value included in the slice header extracted in step S225 to the held parallax maximum value.
  • the slice header decoding unit 173 supplies the parallax maximum value restored by the addition to the viewpoint combining unit 152 as a part of the viewpoint generation information.
  • step S232 the slice header decoding unit 173 adds the inter-camera distance difference encoding result included in the slice header extracted in step S225 to the held inter-camera distance.
  • the slice header decoding unit 173 supplies the inter-camera distance restored by the addition to the viewpoint combining unit 152 as part of the viewpoint generation information. Then, the process proceeds to step S235.
  • step S224 determines whether the transmission flag is not "1" representing the presence of transmission, that is, if the transmission flag is "0" representing the absence of transmission. If it is determined in step S224 that the transmission flag is not "1" representing the presence of transmission, that is, if the transmission flag is "0" representing the absence of transmission, the process proceeds to step S233.
  • step S233 the slice header decoding unit 173 determines the disparity maximum value, the disparity minimum value, the inter-camera distance, the disparity maximum value, and the disparity from the SPS and the encoded bit stream other than PPS supplied from the PPS decoding unit 172. Extract the slice header that does not include the minimum value and the differential encoding result of the inter-camera distance.
  • step S234 the slice header decoding unit 173 holds the parallax maximum value, the parallax minimum value, and the inter-camera distance held, that is, the parallax maximum value, the parallax minimum value, and the inter-camera value of the immediately preceding slice in coding order.
  • the parallax maximum value, the parallax minimum value, and the inter-camera distance of the processing target slice are restored.
  • the slice header decoding unit 173 supplies the restored disparity maximum value, disparity minimum value, and inter-camera distance to the viewpoint combining unit 152 as part of the viewpoint generation information, and the process proceeds to step S235.
  • the slice decoding unit 174 decodes the encoded data in slice units by a method corresponding to the encoding method in the slice encoding unit 61 (FIG. 5). Specifically, the slice decoding unit 174 performs slice coding on the basis of the SPS and PPS from the slice header decoding unit 173, and the slice header other than the information on the inter-camera distance, the parallax maximum value, and the parallax minimum value.
  • the encoded data of the multi-view color image in slice units is decoded by a method corresponding to the encoding method in the above.
  • the slice decoding unit 174 includes the SPS and PPS from the slice header decoding unit 173, a slice header other than the information on the inter-camera distance, the parallax maximum value, and the parallax minimum value, and the inter-camera distance, parallax maximum value, and parallax Based on the minimum value, a parallax image decoding process is performed to decode encoded data of a slice-based multi-view corrected image by a method corresponding to the encoding method in the slice encoding unit 61.
  • the details of the parallax image decoding process will be described with reference to FIG. 20 described later.
  • the slice header decoding unit 173 supplies the multi-view corrected color image and the multi-view parallax image obtained as a result of the decoding to the view combining unit 152 in FIG.
  • FIG. 20 is a flowchart for describing the details of the disparity image decoding process of the slice decoding unit 174 in FIG. This disparity image decoding process is performed for each viewpoint.
  • step S261 of FIG. 20 the accumulation buffer 251 of the decoding unit 250 receives, from the slice header decoding unit 173 of FIG. 16, the encoded data in slice units of the parallax image of the predetermined viewpoint, and accumulates it.
  • the accumulation buffer 251 supplies the encoded data that has been accumulated to the lossless decoding unit 252.
  • step S 262 the lossless decoding unit 252 applies lossless decoding to the encoded data supplied from the accumulation buffer 251, and supplies the resulting quantized coefficient to the inverse quantization unit 253.
  • step S 263 the inverse quantization unit 253 inversely quantizes the quantized coefficient from the lossless decoding unit 252, and supplies the resultant coefficient to the inverse orthogonal transformation unit 254.
  • step S264 the inverse orthogonal transformation unit 254 performs inverse orthogonal transformation on the coefficients from the inverse quantization unit 253, and supplies the residual information obtained as a result to the addition unit 255.
  • step S265 the motion vector generation unit 261 determines whether motion information has been supplied from the slice header decoding unit 173 of FIG. If it is determined in step S265 that motion information has been supplied, the process proceeds to step S266.
  • step S266 the motion vector generation unit 261 restores and holds the motion vector based on the motion information and the held motion vector.
  • the motion vector generation unit 261 supplies the restored motion vector, the optimal inter prediction mode included in the motion information, and the like to the motion compensation unit 262.
  • step S 267 the motion compensation unit 262 performs a motion compensation process by reading a reference image from the frame memory 259 based on the motion vector supplied from the motion vector generation unit 261 and the optimal inter prediction mode.
  • the motion compensation unit 262 supplies the predicted image generated as a result of the motion compensation process to the correction unit 263.
  • step S268 the correction unit 263 corrects the correction coefficient based on the parallax maximum value, the parallax minimum value, and the inter-camera distance supplied from the slice header decoding unit 173 in FIG. 16 as in the correction unit 135 in FIG. calculate.
  • step S269 the correction unit 263 corrects the predicted image of the optimal inter prediction mode supplied from the motion compensation unit 262 using the correction coefficient, as in the correction unit 135.
  • the correction unit 263 supplies the predicted image after correction to the addition unit 255 through the switch 264, and the process proceeds to step S271.
  • step S265 if it is determined in step S265 that the motion information is not supplied, that is, if the in-screen prediction information is supplied from the slice header decoding unit 173 to the in-screen prediction unit 260, the process proceeds to step S270.
  • step S270 the intra prediction unit 260 performs intra prediction processing of the optimal intra prediction mode indicated by the intra prediction information supplied from the slice header decoding unit 173 using the reference image supplied from the addition unit 255. .
  • the intra-screen prediction unit 260 supplies the predicted image generated as a result to the addition unit 255 via the switch 264, and the process proceeds to step S271.
  • step S 271 the adding unit 255 adds the residual information supplied from the inverse orthogonal transform unit 254 and the predicted image supplied from the switch 264.
  • the addition unit 255 supplies the parallax image obtained as a result to the deblocking filter 256, and supplies the parallax image to the in-screen prediction unit 260 as a reference image.
  • step S272 the deblocking filter 256 filters the parallax image supplied from the adding unit 255 to remove block distortion.
  • step S 273 the deblocking filter 256 supplies the parallax image after filtering to the frame memory 259, stores it, and supplies it to the screen rearrangement buffer 257.
  • the parallax image accumulated in the frame memory 259 is supplied to the motion compensation unit 262 as a reference image.
  • step S274 the screen rearrangement buffer 257 stores the parallax images supplied from the deblocking filter 256 in frame units, and stores the parallax images in frame units in the order of encoding for the original display order.
  • the data is rearranged and supplied to the D / A converter 258.
  • step S275 the D / A conversion unit 258 D / A converts the parallax image in units of frames supplied from the screen rearrangement buffer 257, and supplies the parallax image as a predetermined viewpoint parallax image to the viewpoint synthesis unit 152 in FIG. .
  • the decoding device 150 encodes encoded data of a parallax image whose coding efficiency is improved by encoding using a predicted image corrected using information on the parallax image, and information on the parallax image Receive a coded bit stream containing Then, the decoding device 150 corrects the predicted image using the information related to the parallax image, and decodes the encoded data of the parallax image using the corrected predicted image.
  • the decoding device 150 may use encoded image data encoded using a predicted image corrected using an inter-camera distance, a parallax maximum value, and a parallax minimum value as information related to a parallax image, and an inter-camera distance. , Disparity maximum value, and disparity minimum value. Then, the decoding device 150 corrects the predicted image using the inter-camera distance, the parallax maximum value, and the parallax minimum value, and decodes the encoded data of the parallax image using the corrected predicted image. Thus, the decoding device 150 can decode the encoded data of the parallax image whose coding efficiency is improved by encoding using the predicted image corrected using the information on the parallax image.
  • the encoding apparatus 50 contained and transmitted the parallax maximum value, the parallax minimum value, and the distance between cameras in the slice header as information used for correction
  • the transmission method is not limited to this.
  • FIG. 21 is a diagram for explaining a method of transmitting information used for correcting a predicted image.
  • the first transmission method in FIG. 21 is a method in which a parallax maximum value, a parallax minimum value, and an inter-camera distance are included in a slice header and transmitted as information used for correcting a predicted image.
  • the information used for correcting the predicted image and the information for viewpoint generation can be shared, and the information amount of the coded bit stream can be reduced.
  • the decoding device 150 it is necessary to calculate the correction coefficient using the parallax maximum value, the parallax minimum value, and the inter-camera distance, and the processing load of the decoding device 150 is large compared to the second transmission method described later.
  • the second transmission method of FIG. 21 is a method in which a correction coefficient itself is included in a slice header and transmitted as information used for correction of a predicted image.
  • SEI Supplemental Enhancement
  • the second transmission method since the correction coefficient is transmitted, there is no need to calculate the correction coefficient in the decoding device 150, and the processing load on the decoding device 150 is smaller than in the first transmission method. However, since the correction factor is newly transmitted, the amount of information of the coded bit stream is large.
  • the predicted image is corrected using the parallax maximum value, the parallax minimum value, and the inter-camera distance, but other parallax information (for example, the depth direction of the multiview color image capturing unit 51) Correction may also be made using imaging position information or the like representing an imaging position.
  • An additional correction factor is included in the slice header and transmitted.
  • the predicted image is corrected using information on parallax other than the parallax maximum value, the parallax minimum value, and the inter-camera distance
  • the difference between the prediction image and the parallax image based on the information on parallax is further reduced and the encoding is performed Efficiency can be improved.
  • the additional correction coefficient is newly transmitted, the amount of information of the coded bit stream is larger than that of the first transmission method.
  • the processing load of the decoding device 150 is large compared to the second transmission method.
  • FIG. 22 is a diagram showing a configuration example of a coded bit stream in the case of transmitting information used for correction of a predicted image by the second transmission method.
  • PPS # 0 includes a transmission flag "1" indicating the presence of transmission.
  • the transmission flag is a flag representing the presence or absence of transmission of the correction coefficient.
  • the correction coefficient a of the slice of intra type constituting the same PPS unit of PPS # 0 is 1, and the correction coefficient b is 0. Therefore, the slice header of the slice includes the correction coefficient a “1” and the correction coefficient b “0”.
  • the correction coefficient a of the first inter-type slice constituting the same PPS unit of PPS # 0 is 3, and the correction coefficient b is 2. Therefore, in the slice header of that slice, the difference “+2” obtained by subtracting the correction coefficient a “1” of the immediately preceding intra-type slice in coding order from the correction coefficient a “3” of that slice is It is included as a differential encoding result of the correction coefficient. Similarly, the difference “+2” of the correction coefficient b is included as the result of the differential encoding of the correction coefficient b.
  • the correction coefficient a of the second inter-type slice constituting the same PPS unit of PPS # 0 is 0, and the correction coefficient b is ⁇ 1. Therefore, in the slice header of the slice, a difference “ ⁇ 3” obtained by subtracting the correction coefficient a “3” of the first inter-type slice in the coding order from the correction coefficient a “0” of the slice “Is included as a result of differential encoding of the correction coefficient. Similarly, the difference “ ⁇ 3” of the correction coefficient b is included as the result of the differential encoding of the correction coefficient b.
  • PPS # 1 includes a transmission flag "0" indicating that there is no transmission.
  • FIG. 23 is a diagram showing a configuration example of a coded bit stream in the case of transmitting information used for correction of a predicted image in the third transmission method.
  • the parallax minimum value, the parallax maximum value, the inter-camera distance, and the additional correction coefficient of one intra-type slice and two inter-type slices constituting the same PPS unit of PPS # 0 are respectively It does not match the disparity minimum value, disparity maximum value, inter-camera distance, and additional correction factor of the immediately preceding slice in coding order. Therefore, PPS # 0 includes a transmission flag "1" indicating the presence of transmission.
  • the transmission flag is a flag indicating the presence or absence of transmission of the minimum parallax value, the maximum parallax value, the inter-camera distance, and the additional correction coefficient.
  • the parallax minimum value, parallax maximum value, and inter-camera distance of the slices constituting the same PPS unit of PPS # 0 are the same as in the case of FIG. 7 and included in the slice header of each slice.
  • the information regarding the parallax minimum value, the parallax maximum value, and the inter-camera distance to be read is the same as that in FIG.
  • the additional correction coefficient of the intra type slice constituting the same PPS unit of PPS # 0 is five. Therefore, the slice header of that slice includes the additional correction coefficient "5".
  • the additional correction coefficient of the slice of the first inter type constituting the same PPS unit of PPS # 0 is seven. Therefore, in the slice header of the slice, a difference "+2" obtained by subtracting the additional correction coefficient "5" of the slice of the immediately preceding intra type in coding order from the additional correction coefficient "7" of the slice is It is included as a result of differential encoding of the additional correction coefficient.
  • the additional correction coefficient of the second inter-type slice that constitutes the same PPS unit of PPS # 0 is eight. Therefore, in the slice header of the slice, a difference “+1” obtained by subtracting the additional correction coefficient “7” of the first inter-type slice in the coding order from the additional correction coefficient “8” of the slice “Is included as a result of the differential encoding of the additional correction coefficient.
  • the parallax minimum value, the parallax maximum value, the inter-camera distance, and the additional correction coefficient of one intra-type slice and two inter-type slices constituting the same PPS unit of PPS # 1 are Each matches the disparity minimum value, disparity maximum value, inter-camera distance, and additional correction coefficient of the immediately preceding slice in the coding order. Therefore, PPS # 1 includes a transmission flag "0" indicating that there is no transmission.
  • the encoding device 50 may transmit information used for correction of a predicted image by any of the first to third transmission methods of FIG. Also, the encoding device 50 includes, in the encoded bit stream, identification information (for example, a flag, an ID, etc.) for identifying one of the first to third transmission methods adopted as the transmission method. You may make it transmit. Furthermore, the first to third transmission methods of FIG. 21 can be appropriately selected in consideration of the balance between the data amount of the coded bit stream and the processing load of decoding, according to the application using the coded bit stream. It is possible.
  • the information used for correcting the predicted image is arranged in the slice header as the information related to encoding, but the arrangement region of the information used for correcting the predicted image is referred to at the time of encoding If it is an area, it is not limited to the slice header.
  • information used for correction of a predicted image is a new NAL such as an existing NAL (Network Abstraction Layer) unit such as a PPS NAL unit or an NAL unit such as an APS (Adaptation Parameter Set) proposed in the HEVC standard. It can be arranged in units.
  • the common value may be arranged in an NAL unit (for example, a NAL unit of PPS) applicable to the plurality of pictures.
  • NAL unit for example, a NAL unit of PPS
  • Transmission efficiency can be improved. That is, in this case, since it is sufficient to transmit the common correction coefficient and the additional correction coefficient among a plurality of pictures, it is not necessary to transmit the correction coefficient and the additional correction coefficient for each slice as in the case of arranging in the slice header. .
  • the correction coefficient and additional correction coefficient are improved by arranging in a PPS NAL unit or the like.
  • the correction coefficient and the additional correction coefficient are different for each picture, they are arranged in the slice header, and if they are common among a plurality of pictures, they are arranged in a layer above the slice header (for example, NAL unit of PPS) can do.
  • the parallax image may be an image composed of depth values indicating the position in the depth direction of the subject of each pixel of the color image of the viewpoint corresponding to the parallax image.
  • the parallax maximum value and the parallax minimum value are respectively the maximum value and the minimum value of the world coordinate values of the position in the depth direction which can be taken in the multi-viewpoint parallax image.
  • the present technology can also be applied to coding schemes such as AVC, MVC (Multiview Video Coding) other than the HEVC scheme.
  • FIG. 24 shows a configuration example of an embodiment of a computer in which a program for executing the series of processes described above is installed.
  • the program can be recorded in advance in a storage unit 808 or a ROM (Read Only Memory) 802 as a recording medium incorporated in the computer.
  • ROM Read Only Memory
  • the program can be stored (recorded) on the removable medium 811.
  • removable media 811 can be provided as so-called package software.
  • examples of the removable medium 811 include a flexible disk, a compact disc read only memory (CD-ROM), a magneto optical (MO) disc, a digital versatile disc (DVD), a magnetic disc, a semiconductor memory, and the like.
  • the program may be installed in the computer from the removable media 811 as described above via the drive 810, or may be downloaded to the computer via the communication network or broadcast network and installed in the built-in storage unit 808. That is, for example, the program is wirelessly transferred from the download site to the computer via an artificial satellite for digital satellite broadcasting, or transferred to the computer via a network such as a LAN (Local Area Network) or the Internet. be able to.
  • LAN Local Area Network
  • the computer incorporates a CPU (Central Processing Unit) 801, and an input / output interface 805 is connected to the CPU 801 via a bus 804.
  • a CPU Central Processing Unit
  • an input / output interface 805 is connected to the CPU 801 via a bus 804.
  • the CPU 801 executes the program stored in the ROM 802 accordingly.
  • the CPU 801 loads a program stored in the storage unit 808 into a random access memory (RAM) 803 and executes the program.
  • RAM random access memory
  • the CPU 801 performs the processing according to the above-described flowchart or the processing performed by the configuration of the above-described block diagram. Then, the CPU 801 causes the processing result to be output from the output unit 807, transmitted from the communication unit 809, or recorded in the storage unit 808, as necessary, for example.
  • the input unit 806 is configured of a keyboard, a mouse, a microphone, and the like.
  • the output unit 807 is configured of an LCD (Liquid Crystal Display), a speaker, and the like.
  • the processing performed by the computer according to the program does not necessarily have to be performed chronologically in the order described as the flowchart. That is, the processing performed by the computer according to the program includes processing executed in parallel or separately (for example, parallel processing or processing by an object).
  • the program may be processed by one computer (processor) or may be distributed and processed by a plurality of computers. Furthermore, the program may be transferred to a remote computer for execution.
  • the present technology processes when communicating via network media such as satellite, cable TV (the television), the Internet, and mobile phones, or on storage media such as optical, magnetic disks, and flash memory.
  • the present invention can be applied to the encoding device and the decoding device used in
  • FIG. 25 illustrates a schematic configuration of a television to which the present technology is applied.
  • the television set 900 includes an antenna 901, a tuner 902, a demultiplexer 903, a decoder 904, a video signal processing unit 905, a display unit 906, an audio signal processing unit 907, a speaker 908, and an external interface unit 909. Furthermore, the television device 900 includes a control unit 910, a user interface unit 911 and the like.
  • the tuner 902 selects a desired channel from the broadcast wave signal received by the antenna 901 and demodulates it, and outputs the obtained encoded bit stream to the demultiplexer 903.
  • the demultiplexer 903 extracts a video or audio packet of a program to be viewed from the encoded bit stream, and outputs data of the extracted packet to the decoder 904. Also, the demultiplexer 903 supplies a packet of data such as an EPG (Electronic Program Guide) to the control unit 910. When the scrambling is performed, the scrambling is canceled by a demultiplexer or the like.
  • EPG Electronic Program Guide
  • the decoder 904 decodes the packet, and outputs the video data generated by the decoding process to the video signal processing unit 905 and the audio data to the audio signal processing unit 907.
  • the video signal processing unit 905 performs noise removal, video processing and the like according to user settings on the video data.
  • the video signal processing unit 905 generates video data of a program to be displayed on the display unit 906, image data by processing based on an application supplied via a network, and the like. Further, the video signal processing unit 905 generates video data for displaying a menu screen or the like such as item selection, and superimposes the video data on video data of a program.
  • the video signal processing unit 905 generates a drive signal based on the video data generated in this manner, and drives the display unit 906.
  • the display unit 906 drives a display device (for example, a liquid crystal display element or the like) based on the drive signal from the video signal processing unit 905 to display a video of the program.
  • a display device for example, a liquid crystal display element or the like
  • the audio signal processing unit 907 performs predetermined processing such as noise removal on the audio data, performs D / A conversion processing and amplification processing of the processed audio data, and supplies the speaker 908 with audio output.
  • An external interface unit 909 is an interface for connecting to an external device or a network, and transmits and receives data such as video data and audio data.
  • a user interface unit 911 is connected to the control unit 910.
  • the user interface unit 911 is configured of an operation switch, a remote control signal reception unit, and the like, and supplies an operation signal according to a user operation to the control unit 910.
  • the control unit 910 is configured using a CPU (Central Processing Unit), a memory, and the like.
  • the memory stores programs executed by the CPU, various data necessary for the CPU to perform processing, EPG data, data acquired via the network, and the like.
  • the program stored in the memory is read and executed by the CPU at a predetermined timing such as when the television device 900 is started.
  • the CPU executes the program to control each unit such that the television device 900 operates according to the user operation.
  • the television apparatus 900 is provided with a bus 912 for connecting the tuner 902, the demultiplexer 903, the video signal processing unit 905, the audio signal processing unit 907, the external interface unit 909, and the like to the control unit 910.
  • the decoder 904 is provided with the function of the decoding device (decoding method) of the present application. For this reason, it is possible to decode the encoded data of the parallax image whose coding efficiency has been improved by encoding using information on the parallax image.
  • FIG. 26 illustrates a schematic configuration of a mobile phone to which the present technology is applied.
  • the cellular phone 920 includes a communication unit 922, an audio codec 923, a camera unit 926, an image processing unit 927, a multiplexing and separating unit 928, a recording and reproducing unit 929, a display unit 930, and a control unit 931. These are connected to one another via a bus 933.
  • an antenna 921 is connected to the communication unit 922, and a speaker 924 and a microphone 925 are connected to the audio codec 923. Further, an operation unit 932 is connected to the control unit 931.
  • the mobile phone 920 performs various operations such as transmission and reception of audio signals, transmission and reception of electronic mail and image data, image shooting, data recording, and the like in various modes such as a voice call mode and a data communication mode.
  • an audio signal generated by the microphone 925 is converted into audio data and compressed by the audio codec 923 and supplied to the communication unit 922.
  • the communication unit 922 performs modulation processing of audio data, frequency conversion processing, and the like to generate a transmission signal. Further, the communication unit 922 supplies a transmission signal to the antenna 921 to transmit it to a base station (not shown). In addition, the communication unit 922 performs amplification, frequency conversion processing, demodulation processing, and the like of the reception signal received by the antenna 921, and supplies the obtained audio data to the audio codec 923.
  • the audio codec 923 performs data expansion of audio data and conversion to an analog audio signal, and outputs it to the speaker 924.
  • control unit 931 receives the character data input by the operation of operation unit 932, and displays the input character on display unit 930. Further, the control unit 931 generates mail data based on a user instruction or the like in the operation unit 932 and supplies the mail data to the communication unit 922.
  • the communication unit 922 performs modulation processing and frequency conversion processing of mail data, and transmits the obtained transmission signal from the antenna 921. Further, the communication unit 922 performs amplification, frequency conversion processing, demodulation processing and the like of the received signal received by the antenna 921 to restore mail data.
  • the mail data is supplied to the display unit 930 to display the contents of the mail.
  • the portable telephone 920 can also store the received mail data in the storage medium by the recording and reproducing unit 929.
  • the storage medium is any rewritable storage medium.
  • the storage medium is a removable memory such as a RAM or a semiconductor memory such as a built-in flash memory, a hard disk, a magnetic disk, a magneto-optical disk, an optical disk, a USB memory, or a memory card.
  • the image data generated by the camera unit 926 is supplied to the image processing unit 927.
  • the image processing unit 927 performs encoding processing of image data to generate encoded data.
  • the demultiplexing unit 928 multiplexes the encoded data generated by the image processing unit 927 and the audio data supplied from the audio codec 923 according to a predetermined method, and supplies the multiplexed data to the communication unit 922.
  • the communication unit 922 performs modulation processing and frequency conversion processing of multiplexed data, and transmits the obtained transmission signal from the antenna 921.
  • the communication unit 922 performs amplification, frequency conversion processing, demodulation processing, and the like of the reception signal received by the antenna 921 to restore multiplexed data.
  • the multiplexed data is supplied to the demultiplexer 928.
  • the demultiplexing unit 928 demultiplexes the multiplexed data, and supplies the encoded data to the image processing unit 927 and the audio data to the audio codec 923.
  • the image processing unit 927 decodes encoded data to generate image data.
  • the image data is supplied to the display unit 930 to display the received image.
  • the audio codec 923 converts audio data into an analog audio signal, supplies the analog audio signal to the speaker 924, and outputs the received audio.
  • the image processing unit 927 is provided with the functions of the coding device and the decoding device (coding method and decoding method) of the present application. For this reason, the encoding efficiency of a parallax image can be improved using the information regarding a parallax image. In addition, encoded data of a parallax image whose coding efficiency is improved can be decoded by encoding using information on the parallax image.
  • FIG. 27 illustrates the schematic configuration of a recording and reproducing device to which the present technology is applied.
  • the recording / reproducing device 940 records, for example, audio data and video data of the received broadcast program on a recording medium, and provides the recorded data to the user at a timing according to the user's instruction.
  • the recording / reproducing device 940 can also acquire audio data and video data from another device, for example, and record them on a recording medium. Further, the recording / reproducing device 940 decodes and outputs the audio data and the video data recorded on the recording medium so that the monitor device or the like can perform image display and audio output.
  • the recording / reproducing device 940 includes a tuner 941, an external interface unit 942, an encoder 943, a hard disk drive (HDD) unit 944, a disk drive 945, a selector 946, a decoder 947, an on-screen display (OSD) unit 948, and a control unit 949.
  • a user interface unit 950 is provided.
  • the tuner 941 selects a desired channel from a broadcast signal received by an antenna not shown.
  • the tuner 941 demodulates the reception signal of the desired channel, and outputs a coded bit stream obtained to the selector 946.
  • the external interface unit 942 is configured by at least one of an IEEE 1394 interface, a network interface unit, a USB interface, a flash memory interface, and the like.
  • the external interface unit 942 is an interface for connecting to an external device, a network, a memory card or the like, and receives data such as video data and audio data to be recorded.
  • the encoder 943 When the video data and audio data supplied from the external interface unit 942 are not encoded, the encoder 943 performs encoding according to a predetermined method, and outputs the encoded bit stream to the selector 946.
  • the HDD unit 944 records content data such as video and audio, various programs and other data on a built-in hard disk, and reads them from the hard disk during reproduction.
  • the disk drive 945 records and reproduces signals with respect to the mounted optical disk.
  • Optical disks such as DVD disks (DVD-Video, DVD-RAM, DVD-R, DVD-RW, DVD + R, DVD + RW, etc.), Blu-ray disks, etc.
  • the selector 946 selects one of the encoded bit streams from the tuner 941 or the encoder 943 and supplies the selected bit stream to either the HDD unit 944 or the disk drive 945 when recording video or audio. Also, the selector 946 supplies the encoded bit stream output from the HDD unit 944 or the disk drive 945 to the decoder 947 at the time of video and audio reproduction.
  • the decoder 947 decodes the coded bit stream.
  • the decoder 947 supplies the video data generated by performing the decoding process to the OSD unit 948.
  • the decoder 947 outputs audio data generated by performing decoding processing.
  • the OSD unit 948 generates video data for displaying a menu screen or the like such as item selection, and superimposes the video data on the video data output from the decoder 947 and outputs the video data.
  • a user interface unit 950 is connected to the control unit 949.
  • the user interface unit 950 includes an operation switch, a remote control signal reception unit, and the like, and supplies an operation signal corresponding to a user operation to the control unit 949.
  • the control unit 949 is configured using a CPU, a memory, and the like.
  • the memory stores programs executed by the CPU and various data necessary for the CPU to perform processing.
  • the program stored in the memory is read and executed by the CPU at a predetermined timing such as when the recording / reproducing device 940 is activated.
  • the CPU executes the program to control each unit so that the recording and reproducing apparatus 940 operates according to the user operation.
  • the decoder 947 is provided with the function of the decoding apparatus (decoding method) of the present application. For this reason, it is possible to decode the encoded data of the parallax image whose coding efficiency has been improved by encoding using information on the parallax image.
  • FIG. 28 illustrates a schematic configuration of an imaging device to which the present technology is applied.
  • the imaging device 960 captures an image of an object, displays an image of the object on the display unit, or records the image as image data in a recording medium.
  • the imaging device 960 includes an optical block 961, an imaging unit 962, a camera signal processing unit 963, an image data processing unit 964, a display unit 965, an external interface unit 966, a memory unit 967, a media drive 968, an OSD unit 969, and a control unit 970.
  • a user interface unit 971 is connected to the control unit 970.
  • an image data processing unit 964, an external interface unit 966, a memory unit 967, a media drive 968, an OSD unit 969, a control unit 970 and the like are connected via a bus 972.
  • the optical block 961 is configured using a focus lens, an aperture mechanism, and the like.
  • the optical block 961 forms an optical image of a subject on the imaging surface of the imaging unit 962.
  • the imaging unit 962 is configured using a CCD or CMOS image sensor, generates an electrical signal corresponding to an optical image by photoelectric conversion, and supplies the electrical signal to the camera signal processing unit 963.
  • the camera signal processing unit 963 performs various camera signal processing such as knee correction, gamma correction, and color correction on the electric signal supplied from the imaging unit 962.
  • the camera signal processing unit 963 supplies the image data processing unit 964 with the image data after camera signal processing.
  • the image data processing unit 964 performs encoding processing of the image data supplied from the camera signal processing unit 963.
  • the image data processing unit 964 supplies the encoded data generated by performing the encoding process to the external interface unit 966 and the media drive 968. Further, the image data processing unit 964 performs a decoding process of the encoded data supplied from the external interface unit 966 or the media drive 968.
  • the image data processing unit 964 supplies the image data generated by performing the decoding process to the display unit 965. Further, the image data processing unit 964 performs a process of supplying image data supplied from the camera signal processing unit 963 to the display unit 965, and superimposes display data acquired from the OSD unit 969 on the image data. Supply to
  • the OSD unit 969 generates display data such as a menu screen or an icon including symbols, characters, or figures, and outputs the display data to the image data processing unit 964.
  • the external interface unit 966 is formed of, for example, a USB input / output terminal, and is connected to a printer when printing an image.
  • a drive is connected to the external interface unit 966 as necessary, removable media such as a magnetic disk and an optical disk are appropriately mounted, and a computer program read from them is installed as necessary.
  • the external interface unit 966 has a network interface connected to a predetermined network such as a LAN or the Internet.
  • Control unit 970 reads encoded data from memory unit 967 according to an instruction from user interface unit 971, for example, and causes external interface unit 966 to supply the encoded data to another device connected via a network. it can.
  • the control unit 970 may obtain encoded data and image data supplied from another device via the network via the external interface unit 966 and supply the same to the image data processing unit 964. it can.
  • any removable readable / writable medium such as a magnetic disk, a magneto-optical disk, an optical disk, or a semiconductor memory is used.
  • the recording medium may be of any type as a removable medium, and may be a tape device, a disk, or a memory card. Of course, it may be a noncontact IC card or the like.
  • media drive 968 and the recording medium may be integrated, and may be configured by a non-portable storage medium such as, for example, a built-in hard disk drive or a solid state drive (SSD).
  • a non-portable storage medium such as, for example, a built-in hard disk drive or a solid state drive (SSD).
  • the control unit 970 is configured using a CPU, a memory, and the like.
  • the memory stores programs executed by the CPU, various data necessary for the CPU to perform processing, and the like.
  • the program stored in the memory is read and executed by the CPU at a predetermined timing such as when the imaging device 960 starts up.
  • the CPU executes the program to control each unit so that the imaging device 960 operates according to the user operation.
  • the image data processing unit 964 is provided with the functions of the encoding device and the decoding device (encoding method and decoding method) of the present application. For this reason, the encoding efficiency of a parallax image can be improved using the information regarding a parallax image. In addition, encoded data of a parallax image whose coding efficiency is improved can be decoded by encoding using information on the parallax image.
  • the present technology can also have the following configurations.
  • a correction unit configured to correct a predicted image of the parallax image of the reference viewpoint using information on the parallax image of the reference viewpoint;
  • An encoding unit that encodes the parallax image of the reference viewpoint using the predicted image corrected by the correction unit;
  • An encoding apparatus comprising: a transmission unit that transmits the parallax image of the reference viewpoint encoded by the encoding unit and information on the parallax image of the reference viewpoint.
  • the information related to the parallax image of the reference viewpoint includes viewpoint generation information which is information used when generating a color image of a viewpoint different from the reference viewpoint using the color image of the reference viewpoint and the parallax image of the reference viewpoint.
  • the encoding apparatus wherein the transmission unit transmits the viewpoint generation information as an encoding parameter used when encoding a parallax image of the reference viewpoint.
  • the correction unit corrects the predicted image using a correction coefficient used when correcting the predicted image based on the viewpoint generation information.
  • the encoding apparatus according to (2), wherein the transmission unit transmits the correction coefficient as the encoding parameter.
  • the information related to the parallax image of the reference viewpoint includes imaging position information indicating an imaging position in a depth direction of an imaging unit that captures a color image of the reference viewpoint, The correction unit corrects the predicted image using a correction coefficient used when correcting the predicted image based on the imaging position information and the viewpoint generation information.
  • the encoding apparatus according to (2), wherein the transmission unit transmits the correction coefficient as the encoding parameter. (5) The correction unit sets the correction coefficient.
  • the encoding device according to (3) or (4).
  • (7) The encoding device according to any one of (1) to (6), further including: a predicted image generation unit that generates a predicted image of a parallax image of the reference viewpoint.
  • the coding device Correcting the predicted image of the parallax image of the reference viewpoint using information on the parallax image of the reference viewpoint; Encoding the parallax image of the reference viewpoint using the predicted image corrected by the process of the correction step; A transmitting step of transmitting the parallax image of the reference viewpoint and the information about the parallax image of the reference viewpoint which are encoded by the process of the encoding step.
  • a receiving unit that receives the parallax image of the reference viewpoint encoded using the predicted image of the parallax image of the reference viewpoint corrected using information on the parallax image of the reference viewpoint, and information on the parallax image of the reference viewpoint
  • a correction unit configured to correct a predicted image of the parallax image of the reference viewpoint using the information on the parallax image of the reference viewpoint received by the receiving unit
  • a decoding unit for decoding the parallax image of the encoded reference viewpoint received by the reception unit using the predicted image corrected by the correction unit.
  • a color image generation unit configured to generate a color image of a viewpoint different from the reference viewpoint using the parallax image of the reference viewpoint decoded by the decoding unit and the color image of the reference viewpoint.
  • the information related to the parallax image of the reference viewpoint includes viewpoint generation information which is information used when generating a color image of a viewpoint different from the reference viewpoint using the color image of the reference viewpoint and the parallax image of the reference viewpoint.
  • the receiving unit receives the viewpoint generation information transmitted as a coding parameter used when decoding a parallax image of the reference viewpoint that has been coded,
  • the color image generation unit uses the parallax image of the reference viewpoint decoded by the decoding unit, the color image of the reference viewpoint, and the viewpoint generation information received by the reception unit,
  • the decoding device according to (9), which generates color images of different viewpoints.
  • the receiving unit receives a correction coefficient used for correcting the predicted image at the time of encoding, which is transmitted as the encoding parameter.
  • the correction coefficient is generated based on the viewpoint generation information,
  • the decoding apparatus according to (10), wherein the correction unit corrects the predicted image using the correction coefficient received by the reception unit.
  • the information related to the parallax image of the reference viewpoint includes imaging position information indicating an imaging position in a depth direction of an imaging unit that captures a color image of the reference viewpoint,
  • the receiving unit receives a correction coefficient used for correcting the predicted image at the time of encoding, which is transmitted as the encoding parameter.
  • the decoding device according to (10), wherein the correction unit corrects the predicted image using the correction coefficient received by the reception unit and the viewpoint generation information.
  • the decoding apparatus according to (12), wherein the correction coefficient is set based on the viewpoint generation information.
  • the decoding device according to any one of (9) to (13), wherein the parallax image of the reference viewpoint is encoded in a unit having a hierarchical structure.
  • the decoding device according to any one of (9) to (14), further including: a predicted image generation unit that generates a predicted image of the parallax image of the reference viewpoint.
  • the decryption device Receiving the parallax image of the reference viewpoint encoded using the predicted image of the parallax image of the reference viewpoint corrected using information on the parallax image of the reference viewpoint and receiving information on the parallax image of the reference viewpoint When, Correcting the predicted image of the parallax image of the reference viewpoint using the information on the parallax image of the reference viewpoint received by the process of the receiving step; Decoding the disparity image of the encoded reference viewpoint received by the process of the receiving step using the predicted image corrected by the process of the correcting step.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

 本技術は、視差画像に関する情報を用いて視差画像の符号化効率を改善することができるようにする符号化装置および符号化方法、復号装置および復号方法に関する。補正部は、基準視点の視差画像に関する情報を用いて基準視点の視差画像の予測画像を補正する。演算部は、補正された予測画像を用いて基準視点の視差画像を符号化する。符号化された基準視点の視差画像と基準視点の視差画像に関する情報とは伝送される。本技術は、例えば、視差画像の符号化装置に適用することができる。

Description

符号化装置および符号化方法、復号装置および復号方法
 本技術は、符号化装置および符号化方法、復号装置および復号方法に関し、特に、視差画像に関する情報を用いて視差画像の符号化効率を改善することができるようにした符号化装置および符号化方法、復号装置および復号方法に関する。
 近年、3D画像が注目されており、多視点の3D画像の生成に用いられる視差画像の符号化方法が提案されている(例えば、非特許文献1参照)。なお、視差画像とは、その視差画像に対応する視点のカラー画像の各画素と、その画素に対応する、基点となる視点のカラー画像の画素の画面上の位置の水平方向の距離を表す視差値からなる画像である。
 また、現在、AVC(Advanced Video Coding)方式より更なる符号化効率の向上を目的として、HEVC(High Efficiency Video Coding)と呼ばれる符号化方式の標準化が進められており、2011年8月現在、Draftとして、非特許文献2が発行されている。
"Call for Proposals on 3D Video Coding Technology",ISO/IEC JTC1/SC29/WG11,MPEG2011/N12036,Geneva,Switzerland,March 2011 Thomas Wiegand,Woo-jin Han,Benjamin Bross,Jens-Rainer Ohm,GaryJ.Sullivian,"WD3:Working Draft3 of High-Efficiency Video Coding",JCTVC-E603_d5(version5),2011年5月20日
 しかしながら、視差画像に関する情報を用いて視差画像の符号化効率を向上させる符号化方法は考案されていなかった。
 本技術は、このような状況に鑑みてなされたものであり、視差画像に関する情報を用いて視差画像の符号化効率を改善することができるようにするものである。
 本技術の第1の側面の符号化装置は、基準視点の視差画像に関する情報を用いて、前記基準視点の視差画像の予測画像を補正する補正部と、前記補正部により補正された前記予測画像を用いて、前記基準視点の視差画像を符号化する符号化部と、前記符号化部により符号化された前記基準視点の視差画像と前記基準視点の視差画像に関する情報とを伝送する伝送部とを備える符号化装置である。
 本技術の第1の側面の符号化方法は、本技術の第1の側面の符号化装置に対応する。
 本技術の第1の側面においては、基準視点の視差画像に関する情報を用いて、基準視点の視差画像の予測画像が補正され、補正された前記予測画像を用いて、前記基準視点の視差画像が符号化され、符号化された前記基準視点の視差画像と前記基準視点の視差画像に関する情報とが伝送される。
 本技術の第2の側面の復号装置は、基準視点の視差画像に関する情報を用いて補正された前記基準視点の視差画像の予測画像を用いて符号化された前記基準視点の視差画像と、前記基準視点の視差画像に関する情報とを受け取る受け取り部と、前記受け取り部により受け取られた前記基準視点の視差画像に関する情報を用いて、前記基準視点の視差画像の予測画像を補正する補正部と、前記補正部により補正された前記予測画像を用いて、前記受け取り部により受け取られた、符号化された前記基準視点の視差画像を復号する復号部とを備える復号装置である。
 本技術の第2の側面の復号方法は、本技術の第2の側面の復号装置に対応する。
 本技術の第2の側面においては、基準視点の視差画像に関する情報を用いて補正された前記基準視点の視差画像の予測画像を用いて符号化された前記基準視点の視差画像と、前記基準視点の視差画像に関する情報とが受け取られ、受け取られた前記基準視点の視差画像に関する情報を用いて、前記基準視点の視差画像の予測画像が補正され、補正された前記予測画像を用いて、符号化された前記基準視点の視差画像が復号される。
 なお、第1の側面の符号化装置および第2の側面の復号装置は、コンピュータにプログラムを実行させることにより実現することができる。
 また、第1の側面の符号化装置および第2の側面の復号装置を実現するために、コンピュータに実行させるプログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。
 本技術の第1の側面によれば、視差画像に関する情報を用いて視差画像の符号化効率を改善することができる。
 また、本技術の第2の側面によれば、視差画像に関する情報を用いて符号化することにより符号化効率が改善された視差画像の符号化データを復号することができる。
本技術を適用した符号化装置の第1実施の形態の構成例を示すブロック図である。 視点生成用情報の視差最大値と視差最小値を説明する図である。 視点生成用情報の視差精度パラメータを説明する図である。 視点生成用情報のカメラ間距離を説明する図である。 図1の多視点画像符号化部の構成例を示すブロック図である。 符号化部の構成例を示すブロック図である。 符号化ビットストリームの構成例を示す図である。 図7のPPSのシンタックスの例を示す図である。 スライスヘッダのシンタックスの例を示す図である。 スライスヘッダのシンタックスの例を示す図である。 図1の符号化装置の符号化処理を説明するフローチャートである。 図11の多視点符号化処理の詳細を説明するフローチャートである。 図12の視差画像符号化処理の詳細を説明するフローチャートである。 図12の視差画像符号化処理の詳細を説明するフローチャートである。 本技術を適用した復号装置の第1実施の形態の構成例を示すブロック図である。 図15の多視点画像復号部の構成例を示すブロック図である。 復号部の構成例を示すブロック図である。 図15の復号装置150の復号処理を説明するフローチャートである。 図18の多視点復号処理の詳細を説明するフローチャートである。 図16の視差画像復号処理の詳細を説明するフローチャートである。 予測画像の補正に用いられる情報の伝送方法を説明する図である。 第2の伝送方法における符号化ビットストリームの構成例を示す図である。 第3の伝送方法における符号化ビットストリームの構成例を示す図である。 コンピュータの一実施の形態の構成例を示す図である。 本技術を適用したテレビジョン装置の概略構成例を示す図である。 本技術を適用した携帯電話機の概略構成例を示す図である。 本技術を適用した記録再生装置の概略構成例を示す図である。 本技術を適用した撮像装置の概略構成例を示す図である。
 <第1実施の形態>
 [符号化装置の第1実施の形態の構成例]
 図1は、本技術を適用した符号化装置の第1実施の形態の構成例を示すブロック図である。
 図1の符号化装置50は、多視点カラー画像撮像部51、多視点カラー画像補正部52、多視点視差画像補正部53、視点生成用情報生成部54、および多視点画像符号化部55により構成される。
 符号化装置50は、所定の視点の視差画像を、視差画像に関する情報を用いて符号化する。
 具体的には、符号化装置50の多視点カラー画像撮像部51は、多視点のカラー画像を撮像し、多視点カラー画像として多視点カラー画像補正部52に供給する。また、多視点カラー画像撮像部51は、外部パラメータ、視差最大値、および視差最小値(詳細は後述する)を生成する。多視点カラー画像撮像部51は、外部パラメータ、視差最大値、および視差最小値を視点生成用情報生成部54に供給するとともに、視差最大値と視差最小値を多視点視差画像生成部53に供給する。
 なお、外部パラメータは、多視点カラー画像撮像部51の水平方向の位置を定義するパラメータである。また、視差最大値と視差最小値は、それぞれ、多視点視差画像においてとり得る世界座標上の視差値の最大値、最小値である。
 多視点カラー画像補正部52は、多視点カラー画像撮像部51から供給される多視点カラー画像に対して、色補正、輝度補正、歪み補正等を行う。これにより、補正後の多視点カラー画像における多視点カラー画像撮像部51の水平方向(X方向)の焦点距離は、全視点で共通となる。多視点カラー画像補正部52は、補正後の多視点カラー画像を多視点補正カラー画像として多視点視差画像生成部53と多視点画像符号化部55に供給する。
 多視点視差画像生成部53は、多視点カラー画像撮像部51から供給される視差最大値と視差最小値に基づいて、多視点カラー画像補正部52から供給される多視点補正カラー画像から、多視点の視差画像を生成する。具体的には、多視点視差画像生成部53は、多視点の各視点(基準視点)について、多視点補正カラー画像から各画素の視差値を求め、その視差値を視差最大値と視差最小値に基づいて正規化する。そして、多視点視差画像生成部53は、多視点の各視点について、正規化された各画素の視差値を視差画像の各画素の画素値とする視差画像を生成する。
 また、多視点視差画像生成部53は、生成された多視点の視差画像を多視点視差画像として多視点画像符号化部55に供給する。さらに、多視点視差画像生成部53は、多視点視差画像の画素値の精度を表す視差精度パラメータを生成し、視点生成用情報生成部54に供給する。
 視点生成用情報生成部54は、多視点の補正カラー画像と視差画像を用いて、その多視点以外の視点のカラー画像を生成する際に用いられる視点生成用情報(視点生成情報)を生成する。具体的には、視点生成用情報生成部54は、多視点カラー画像撮像部51から供給される外部パラメータに基づいて、カメラ間距離を求める。カメラ間距離とは、多視点視差画像の視点ごとに、その視点のカラー画像を撮像するときの多視点カラー画像撮像部51の水平方向の位置と、そのカラー画像と視差画像に対応する視差を有するカラー画像を撮像するときの多視点カラー画像撮像部51の水平方向の位置の距離である。
 視点生成用情報生成部54は、多視点カラー画像撮像部51からの視差最大値と視差最小値、カメラ間距離、および多視点視差画像生成部53からの視差精度パラメータを視点生成用情報とする。視点生成用情報生成部54は、生成された視点生成用情報を多視点画像符号化部55に供給する。
 多視点画像符号化部55は、多視点カラー画像補正部52から供給される多視点補正カラー画像をHEVC方式で符号化する。また、多視点画像符号化部55は、視点生成用情報生成部54から供給される視点生成用情報のうちの視差最大値、視差最小値、およびカメラ間距離を視差に関する情報として用いて、多視点視差画像生成部53から供給される多視点視差画像を、HEVC方式に準じた方式で符号化する。
 また、多視点画像符号化部55は、視点生成用情報生成部54から供給される視点生成用情報のうちの視差最大値、視差最小値、およびカメラ間距離を差分符号化し、多視点視差画像を符号化する際に用いる符号化に関する情報(符号化パラメータ)に含める。そして、多視点画像符号化部55は、符号化された多視点補正カラー画像および多視点視差画像、差分符号化された視差最大値、視差最小値、およびカメラ間距離を含む符号化に関する情報、視点生成用情報生成部54からの視差精度パラメータ等からなるビットストリームを、符号化ビットストリームとして伝送する。
 以上のように、多視点画像符号化部55は、視差最大値、視差最小値、およびカメラ間距離を差分符号化して伝送するので、視点生成用情報の符号量を削減することができる。快適な3D画像を提供するために、視差最大値、視差最小値、およびカメラ間距離はピクチャ間で大きく変化させない可能性が高いため、差分符号化を行うことは符号量の削減において有効である。
 なお、符号化装置50では、多視点視差画像が、多視点補正カラー画像から生成されたが、多視点カラー画像の撮像時に、視差値を検出するセンサにより生成されてもよい。
 [視点生成用情報の説明]
 図2は、視点生成用情報の視差最大値と視差最小値を説明する図である。
 なお、図2において、横軸は、正規化前の視差値であり、縦軸は、視差画像の画素値である。
 図2に示すように、多視点視差画像生成部53は、各画素の視差値を、視差最小値Dminと視差最大値Dmaxを用いて、例えば0乃至255の値に正規化する。そして、多視点視差画像生成部53は、0乃至255のいずれかの値である正規化後の各画素の視差値を画素値として、視差画像を生成する。
 即ち、視差画像の各画素の画素値Iは、その画素の正規化前の視差値d、視差最小値Dmin、および視差最大値Dmaxは、以下の式(1)で表される。
Figure JPOXMLDOC01-appb-M000001
 従って、後述する復号装置では、以下の式(2)により、視差画像の各画素の画素値Iから、視差最小値Dminと視差最大値Dmaxを用いて、正規化前の視差値dを復元する必要がある。
Figure JPOXMLDOC01-appb-M000002
 よって、視差最小値Dminと視差最大値Dmaxが、復号装置に伝送される。
 図3は、視点生成用情報の視差精度パラメータを説明する図である。
 図3の上段に示すように、正規化後の視差値1当たりの正規化前の視差値が0.5である場合、視差精度パラメータは、視差値の精度0.5を表すものとなる。また、図3の下段に示すように、正規化後の視差値1当たりの正規化前の視差値が1である場合、視差精度パラメータは、視差値の精度1.0を表すものとなる。
 図3の例では、1番目の視点である視点#1の正規化前の視差値が1.0であり、2番目の視点である視点#2の正規化前の視差値が0.5である。従って、視点#1の正規化後の視差値は、視差値の精度が0.5であっても1.0であっても、1.0である。一方、視点#2の視差値は、視差値の精度が0.5である場合0.5であり、視差値の精度が1.0である場合0である。
 図4は、視点生成用情報のカメラ間距離を説明する図である。
 図4に示すように、視点#1の、視点#2を基点とする視差画像のカメラ間距離は、視点#1の外部パラメータが表す位置と、視点#2の外部パラメータが表す位置の距離である。
 [多視点画像符号化部の構成例]
 図5は、図1の多視点画像符号化部55の構成例を示すブロック図である。
 図5の多視点画像符号化部55は、スライス符号化部61、スライスヘッダ符号化部62、PPS符号化部63、およびSPS符号化部64により構成される。
 多視点画像符号化部55のスライス符号化部61は、多視点カラー画像補正部52から供給される多視点補正カラー画像に対して、HEVC方式でスライス単位の符号化を行う。また、スライス符号化部61は、図1の視点生成用情報生成部54から供給される視点生成用情報のうちの視差最大値、視差最小値、およびカメラ間距離を視差に関する情報として用いて、多視点視差画像生成部53からの多視点視差画像に対して、HEVC方式に準じた方式でスライス単位の符号化を行う。スライス符号化部61は、符号化の結果得られるスライス単位の符号化データ等をスライスヘッダ符号化部62に供給する。
 スライスヘッダ符号化部62は、視点生成用情報生成部54から供給される視点生成用情報のうちの視差最大値、視差最小値、およびカメラ間距離を、現在の処理対象のスライスの視差最大値、視差最小値、およびカメラ間距離とし、保持する。
 また、スライスヘッダ符号化部62は、現在の処理対象のスライスの視差最大値、視差最小値、およびカメラ間距離が、それぞれ、そのスライスより符号化順で1つ前のスライスの視差最大値、視差最小値、およびカメラ間距離と一致するかどうかを、同一のPPSが付加される単位(以下では、同一PPS単位という)で判定する。
 そして、同一PPS単位を構成する全てのスライスの視差最大値、視差最小値、およびカメラ間距離が、符号化順で1つ前のスライスの視差最大値、視差最小値、およびカメラ間距離と一致すると判定された場合、スライスヘッダ符号化部62は、その同一PPS単位を構成する各スライスの符号化データのスライスヘッダとして、そのスライスの視差最大値、視差最小値、およびカメラ間距離以外の符号化に関する情報を付加し、PPS符号化部63に供給する。また、スライスヘッダ符号化部62は、視差最大値、視差最小値、およびカメラ間距離の差分符号化結果の伝送の無しを表す伝送フラグをPPS符号化部63に供給する。
 一方、同一PPS単位を構成する少なくとも1つのスライスの視差最大値、視差最小値、およびカメラ間距離が、符号化順で1つ前のスライスの視差最大値、視差最小値、およびカメラ間距離と一致しないと判定された場合、スライスヘッダ符号化部62は、イントラタイプのスライスの符号化データには、スライスヘッダとして、そのスライスの視差最大値、視差最小値、およびカメラ間距離を含む符号化に関する情報を付加し、PPS符号化部63に供給する。
 また、スライスヘッダ符号化部62は、インタータイプのスライスについては、そのスライスの視差最大値、視差最小値、およびカメラ間距離を差分符号化する。具体的には、スライスヘッダ符号化部62は、インタータイプのスライスの視差最大値、視差最小値、およびカメラ間距離から、そのスライスより符号化順で1つ前のスライスの視差最大値、視差最小値、およびカメラ間距離を、それぞれ減算し、差分符号化結果とする。そして、スライスヘッダ符号化部62は、インタータイプのスライスの符号化データに、スライスヘッダとして視差最大値、視差最小値、およびカメラ間距離の差分符号化結果を含む符号化に関する情報を付加し、PPS符号化部63に供給する。
 また、この場合、スライスヘッダ符号化部62は、視差最大値、視差最小値、およびカメラ間距離の差分符号化結果の伝送の有りを表す伝送フラグをPPS符号化部63に供給する。
 PPS符号化部63は、スライスヘッダ符号化部62から供給される伝送フラグと、図1の視点生成用情報生成部54から供給される視点生成用情報のうちの視差精度パラメータとを含むPPSを生成する。PPS符号化部63は、同一PPS単位で、スライスヘッダ符号化部62から供給されるスライスヘッダが付加されたスライス単位の符号化データにPPSを付加し、SPS符号化部64に供給する。
 SPS符号化部64は、SPSを生成する。そして、SPS符号化部64は、シーケンス単位で、PPS符号化部63から供給されるPPSが付加された符号化データにSPSを付加する。SPS符号化部64は、伝送部として機能し、その結果得られるビットストリームを符号化ビットストリームとして伝送する。
 [スライス符号化部の構成例]
 図6は、図5のスライス符号化部61のうちの任意の1視点の視差画像を符号化する符号化部の構成例を示すブロック図である。即ち、スライス符号化部61のうちの多視点視差画像を符号化する符号化部は、視点数分の図6の符号化部120により構成される。
 図6の符号化部120は、A/D変換部121、画面並べ替えバッファ122、演算部123、直交変換部124、量子化部125、可逆符号化部126、蓄積バッファ127、逆量子化部128、逆直交変換部129、加算部130、デブロックフィルタ131、フレームメモリ132、画面内予測部133、動き予測・補償部134、補正部135、選択部136、およびレート制御部137により構成される。
 符号化部120のA/D変換部121は、図1の多視点視差画像生成部53から供給される所定の視点のフレーム単位の多重化画像をA/D変換し、画面並べ替えバッファ122に出力して記憶させる。画面並べ替えバッファ122は、記憶した表示の順番のフレーム単位の視差画像を、GOP(Group of Picture)構造に応じて、符号化のための順番に並べ替え、演算部123、画面内予測部133、および動き予測・補償部134に出力する。
 演算部123は、符号化部として機能し、選択部136から供給される予測画像と、画面並べ替えバッファ122から出力された符号化対象の視差画像の差分を演算することにより、符号化対象の視差画像を符号化する。具体的には、演算部123は、画面並べ替えバッファ122から出力された符号化対象の視差画像から、選択部136から供給される予測画像を減算する。演算部123は、減算の結果得られる画像を、残差情報として直交変換部124に出力する。なお、選択部136から予測画像が供給されない場合、演算部123は、画面並べ替えバッファ122から読み出された視差画像をそのまま残差情報として直交変換部124に出力する。
 直交変換部124は、演算部123からの残差情報に対して離散コサイン変換、カルーネン・レーベ変換等の直交変換を施し、その結果得られる係数を量子化部125に供給する。
 量子化部125は、直交変換部124から供給される係数を量子化する。量子化された係数は、可逆符号化部126に入力される。
 可逆符号化部126は、量子化部125から供給される量子化された係数に対して、可変長符号化(例えば、CAVLC(Context-Adaptive Variable Length Coding)など)、算術符号化(例えば、CABAC(Context-Adaptive Binary Arithmetic Coding)など)などの可逆符号化を行う。可逆符号化部126は、可逆符号化の結果得られる符号化データを蓄積バッファ127に供給し、蓄積させる。
 蓄積バッファ127は、可逆符号化部126から供給される符号化データを、一時的に記憶し、スライス単位でスライスヘッダ符号化部62に供給する。
 また、量子化部125より出力された、量子化された係数は、逆量子化部128にも入力され、逆量子化された後、逆直交変換部129に供給される。
 逆直交変換部129は、逆量子化部128から供給される係数に対して、逆離散コサイン変換、逆カルーネン・レーベ変換等の逆直交変換を施し、その結果得られる残差情報を加算部130に供給する。
 加算部130は、逆直交変換部129から供給される復号対象の視差画像としての残差情報と、選択部136から供給される予測画像を加算して、局部的に復号された視差画像を得る。なお、選択部136から予測画像が供給されない場合、加算部130は、逆直交変換部129から供給される残差情報を局部的に復号された視差画像とする。加算部130は、局部的に復号された視差画像をデブロックフィルタ131に供給するとともに、参照画像として画面内予測部133に供給する。
 デブロックフィルタ131は、加算部130から供給される局部的に復号された視差画像をフィルタリングすることにより、ブロック歪を除去する。デブロックフィルタ131は、その結果得られる視差画像をフレームメモリ132に供給し、蓄積させる。フレームメモリ132に蓄積された視差画像は、参照画像として動き予測・補償部134に出力される。
 画面内予測部133は、加算部130から供給された参照画像を用いて、候補となる全てのイントラ予測モードの画面内予測を行い、予測画像を生成する。
 また、画面内予測部133は、候補となる全てのイントラ予測モードに対してコスト関数値(詳細は後述する)を算出する。そして、画面内予測部133は、コスト関数値が最小となるイントラ予測モードを最適イントラ予測モードに決定する。画面内予測部133は、最適イントラ予測モードで生成された予測画像、および、対応するコスト関数値を、選択部136に供給する。画面内予測部133は、選択部136から最適イントラ予測モードで生成された予測画像の選択が通知された場合、最適イントラ予測モード等を示す画面内予測情報を図5のスライスヘッダ符号化部62に供給する。この画面内予測情報は、符号化に関する情報としてスライスヘッダに含まれる。
 なお、コスト関数値は、RD(Rate Distortion)コストともいい、例えば、H.264/AVC方式における参照ソフトウェアであるJM(Joint Model)で定められているような、High Complexity モードか、Low Complexity モードのいずれかの手法に基づいて算出される。
 具体的には、コスト関数値の算出手法としてHigh Complexity モードが採用される場合、候補となる全ての予測モードに対して、仮に可逆符号化までが行われ、次の式(3)で表わされるコスト関数値が各予測モードに対して算出される。
 Cost(Mode)=D+λ・R                ・・・(3)
 Dは、原画像と復号画像の差分(歪)、Rは、直交変換の係数まで含んだ発生符号量、λは、量子化パラメータQPの関数として与えられるラグランジュ乗数である。
 一方、コスト関数値の算出手法としてLow Complexity モードが採用される場合、候補となる全ての予測モードに対して、復号画像の生成、および、予測モードを示す情報などのヘッダビットの算出が行われ、次の式(4)で表わされるコスト関数が各予測モードに対して算出される。
 Cost(Mode)=D+QPtoQuant(QP)・Header_Bit      ・・・(4)
 Dは、原画像と復号画像の差分(歪)、Header_Bitは、予測モードに対するヘッダビット、QPtoQuantは、量子化パラメータQPの関数として与えられる関数である。
 Low Complexity モードにおいては、全ての予測モードに対して、復号画像を生成するだけでよく、可逆符号化を行う必要がないため、演算量が少なくて済む。なお、ここでは、コスト関数値の算出手法としてHigh Complexity モードが採用されるものとする。
 動き予測・補償部134は、画面並べ替えバッファ122から供給される視差画像と、フレームメモリ132から供給される参照画像とに基づいて、候補となる全てのインター予測モードの動き予測処理を行い、動きベクトルを生成する。具体的には、動き予測・補償部134は、インター予測モードごとに、参照画像と、画面並べ替えバッファ122から供給される視差画像のマッチングを行い、動きベクトルを生成する。
 なお、インター予測モードとは、インター予測の対象とするブロックのサイズ、予測方向、および参照インデックスを表す情報である。予測方向には、インター予測の対象とする視差画像よりも表示時刻が早い参照画像を用いた前方向の予測(L0予測)、インター予測の対象とする視差画像よりも表示時刻が遅い参照画像を用いた後方向の予測(L1予測)、およびインター予測の対象とする視差画像よりも表示時刻が早い参照画像と遅い参照画像を用いた両方向の予測(Bi-prediction)がある。また、参照インデックスとは、参照画像を特定するための番号であり、例えば、インター予測の対象とする視差画像に近い画像の参照インデックスほど番号が小さい。
 また、動き予測・補償部134は、予測画像生成部として機能し、インター予測モードごとに、生成された動きベクトルに基づいて、フレームメモリ132から参照画像を読み出すことにより、動き補償処理を行う。動き予測・補償部134は、その結果生成される予測画像を補正部135に供給する。
 補正部135は、図1の視点生成用情報生成部54から供給される視点生成用情報のうちの視差最大値、視差最小値、およびカメラ間距離を視差画像に関する情報として用いて、予測画像を補正する際に用いる補正係数を生成(設定)する。補正部135は、動き予測・補償部134から供給される各インター予測モードの予測画像を、補正係数を用いて補正する。
 ここで、符号化対象の視差画像の被写体の奥行方向の位置Zcと予測画像の被写体の奥行方向の位置Zpは、以下の式(5)で表される。
Figure JPOXMLDOC01-appb-M000003
 なお、式(5)において、Lc,Lpは、それぞれ、符号化対象の視差画像のカメラ間距離、予測画像のカメラ間距離である。fは、符号化対象の視差画像と予測画像に共通の焦点距離である。また、dc,dpは、それぞれ、符号化対象の視差画像の正規化前の視差値の絶対値、予測画像の正規化前の視差値の絶対値である。
 また、符号化対象の視差画像の視差値Icと予測画像の視差値Ipは、正規化前の視差値の絶対値dc,dpを用いて、以下の式(6)で表される。
Figure JPOXMLDOC01-appb-M000004
 なお、式(6)において、Dc min,Dp minは、それぞれ、符号化対象の視差画像の視差最小値、予測画像の視差最小値である。Dc max,Dp maxは、それぞれ、符号化対象の視差画像の視差最大値、予測画像の視差最大値である。
 従って、符号化対象の視差画像の被写体の奥行方向の位置Zcと予測画像の被写体の奥行方向の位置Zpが同一であっても、カメラ間距離LcとLp、視差最小値Dc minとDp min、および視差最大値Dc max,Dp maxの少なくとも1つが異なると、視差値Icと視差値Ipは異なってしまう。
 そこで、補正部135は、位置Zcと位置Zpが同一である場合に視差値Icと視差値Ipが同一となるように予測画像を補正する補正係数を生成する。
 具体的には、位置Zcと位置Zpが同一である場合、上述した式(5)より、以下の式(7)が成立する。
Figure JPOXMLDOC01-appb-M000005
 また、式(7)を変形すると、以下の式(8)になる。
Figure JPOXMLDOC01-appb-M000006
 そして、上述した式(6)を用いて、式(8)の正規化前の視差値の絶対値dc,dpを視差値Icと視差値Ipに置換すると、以下の式(9)になる。
Figure JPOXMLDOC01-appb-M000007
 これにより、視差値Icは、視差値Ipを用いて以下の式(10)で表される。
Figure JPOXMLDOC01-appb-M000008
 従って、補正部135は、式(10)のaとbを補正係数として生成する。そして、補正部135は、補正係数a,bと視差値Ipを用いて、式(10)における視差値Icを補正後の予測画像の視差値として求める。
 また、補正部135は、補正後の予測画像を用いて、各インター予測モードに対してコスト関数値を算出し、コスト関数値が最小となるインター予測モードを最適インター測モードに決定する。そして、補正部135は、最適インター予測モードで生成された予測画像とコスト関数値とを選択部136に供給する。
 さらに、補正部135は、選択部136から最適インター予測モードで生成された予測画像の選択が通知された場合、動き情報をスライスヘッダ符号化部62に出力する。この動き情報は、最適インター予測モード、予測ベクトルインデックス、現在の動きベクトルから予測ベクトルインデックスが表す動きベクトルを減算した差分である動きベクトル残差等により構成される。なお、予測ベクトルインデックスとは、復号済みの視差画像の予測画像の生成に用いられた候補となる動きベクトルのうちの1つの動きベクトルを特定する情報である。動き情報は、符号化に関する情報としてスライスヘッダに含まれる。
 選択部136は、画面内予測部133および補正部135から供給されるコスト関数値に基づいて、最適イントラ予測モードと最適インター予測モードのうちのいずれかを、最適予測モードに決定する。そして、選択部136は、最適予測モードの予測画像を、演算部123および加算部130に供給する。また、選択部136は、最適予測モードの予測画像の選択を画面内予測部133または補正部135に通知する。
 レート制御部137は、蓄積バッファ127に蓄積された符号化データに基づいて、オーバーフローあるいはアンダーフローが発生しないように、量子化部125の量子化動作のレートを制御する。
 [符号化ビットストリームの構成例]
 図7は、符号化ビットストリームの構成例を示す図である。
 なお、図7では、説明の便宜上、多視点視差画像のスライスの符号化データのみを記載しているが、実際には、符号化ビットストリームには、多視点カラー画像のスライスの符号化データも配置される。このことは、後述する図22および図23においても同様である。
 図7の例では、0番目のPPSであるPPS#0の同一PPS単位を構成する1つのイントラタイプのスライスと2つのインタータイプのスライスの視差最大値、視差最小値、およびカメラ間距離が、それぞれ、符号化順で1つ前のスライスの視差最大値、視差最小値、およびカメラ間距離と一致しない。従って、PPS#0には、伝送の有りを表す伝送フラグ「1」が含まれる。また、図7の例では、PPS#0の同一PPS単位を構成するスライスの視差精度が0.5であり、PPS#0には、視差精度パラメータとして視差精度0.5を表す「1」が含まれる。
 さらに、図7の例では、PPS#0の同一PPS単位を構成するイントラタイプのスライスの視差最小値が10であり、視差最大値が50であり、カメラ間距離が100である。従って、そのスライスのスライスヘッダには、視差最小値「10」、視差最大値「50」、およびカメラ間距離「100」が含まれる。
 また、図7の例では、PPS#0の同一PPS単位を構成する1番目のインタータイプのスライスの視差最小値が9であり、視差最大値が48であり、カメラ間距離が105である。従って、そのスライスのスライスヘッダには、そのスライスの視差最小値「9」から、符号化順で1つ前のイントラタイプのスライスの視差最小値「10」を減算した差分「-1」が、視差最小値の差分符号化結果として含まれる。同様に、視差最大値の差分「-2」が視差最大値の差分符号化結果として含まれ、カメラ間距離の差分「5」がカメラ間距離の差分符号化結果として含まれる。
 さらに、図7の例では、PPS#0の同一PPS単位を構成する2番目のインタータイプのスライスの視差最小値が7であり、視差最大値が47であり、カメラ間距離が110である。従って、そのスライスのスライスヘッダには、そのスライスの視差最小値「7」から、符号化順で1つ前の1番目のインタータイプのスライスの視差最小値「9」を減算した差分「-2」が、視差最小値の差分符号化結果として含まれる。同様に、視差最大値の差分「-1」が視差最大値の差分符号化結果として含まれ、カメラ間距離の差分「5」がカメラ間距離の差分符号化結果として含まれる。
 また、図7の例では、1番目のPPSであるPPS#1の同一PPS単位を構成する1つのイントラタイプのスライスと2つのインタータイプのスライスの視差最大値、視差最小値、およびカメラ間距離が、それぞれ、符号化順で1つ前のスライスの視差最大値、視差最小値、およびカメラ間距離と一致する。即ち、PPS#1の同一PPS単位を構成する1つのイントラタイプのスライスと2つのインタータイプのスライスの視差最小値、視差最大値、カメラ間距離は、それぞれ、PPS#0の同一PPS単位を構成する2番目のインタータイプのスライスと同一の「7」、「47」、「110」である。従って、PPS#1には、伝送の無しを表す伝送フラグ「0」が含まれる。また、図7の例では、PPS#1の同一PPS単位を構成するスライスの視差精度が0.5であり、PPS#1には、視差精度パラメータとして視差精度0.5を表す「1」が含まれる。
 [PPSのシンタックスの例]
 図8は、図7のPPSのシンタックスの例を示す図である。
 図8に示すように、PPSには、視差精度パラメータ(disparity_precision)と伝送フラグ(dsiparity_pic_same_flag)が含まれる。視差精度パラメータは、例えば、視差精度1を表す場合「0」であり、視差精度0.25を表す場合「2」である。また、上述したように、視差精度パラメータは、視差精度0.5を表す場合「1」である。また、伝送フラグは、上述したように、伝送の有りを表す場合「1」であり、伝送の無しを表す場合「0」である。
 [スライスヘッダのシンタックスの例]
 図9および図10は、スライスヘッダのシンタックスの例を示す図である。
 図10に示すように、伝送フラグが1であり、スライスのタイプがイントラタイプである場合、スライスヘッダには、視差最小値(minimum_disparity)、視差最大値(maximum_disparity)、およびカメラ間距離(translation_x)が含まれる。
 一方、伝送フラグが1であり、スライスのタイプがインタータイプである場合、スライスヘッダには、視差最小値の差分符号化結果(delta_minimum_disparity)、視差最大値の差分符号化結果(delta_maximum_disparity)、およびカメラ間距離の差分符号化結果(delta_translation_x)が含まれる。
 [符号化装置の処理の説明]
 図11は、図1の符号化装置50の符号化処理を説明するフローチャートである。
 図11のステップS111において、符号化装置50の多視点カラー画像撮像部51は、多視点のカラー画像を撮像し、多視点カラー画像として多視点カラー画像補正部52に供給する。
 ステップS112において、多視点カラー画像撮像部51は、視差最大値、視差最小値、および外部パラメータを生成する。多視点カラー画像撮像部51は、視差最大値、視差最小値、および外部パラメータを視点生成用情報生成部54に供給するとともに、視差最大値と視差最小値を多視点視差画像生成部53に供給する。
 ステップS113において、多視点カラー画像補正部52は、多視点カラー画像撮像部51から供給される多視点カラー画像に対して、色補正、輝度補正、歪み補正等を行う。これにより、補正後の多視点カラー画像における多視点カラー画像撮像部51の水平方向(X方向)の焦点距離は、全視点で共通となる。多視点カラー画像補正部52は、補正後の多視点カラー画像を多視点補正カラー画像として多視点視差画像生成部53と多視点画像符号化部55に供給する。
 ステップS114において、多視点視差画像生成部53は、多視点カラー画像撮像部51から供給される視差最大値と視差最小値に基づいて、多視点カラー画像補正部52から供給される多視点補正カラー画像から、多視点の視差画像を生成する。そして、多視点視差画像生成部53は、生成された多視点の視差画像を多視点視差画像として多視点画像符号化部55に供給する。
 ステップS115において、多視点視差画像生成部53は、視差精度パラメータを生成し、視点生成用情報生成部54に供給する。
 ステップS116において、視点生成用情報生成部54は、多視点カラー画像撮像部51から供給される外部パラメータに基づいて、カメラ間距離を求める。
 ステップS117において、視点生成用情報生成部54は、多視点カラー画像撮像部51からの視差最大値および視差最小値、カメラ間距離、並びに多視点視差画像生成部53からの視差精度パラメータを視点生成用情報として生成する。視点生成用情報生成部54は、生成された視点生成用情報を多視点画像符号化部55に供給する。
 ステップS118において、多視点画像符号化部55は、多視点カラー画像補正部52からの多視点補正カラー画像と多視点視差画像生成部53からの多視点視差画像を符号化する多視点符号化処理を行う。この多視点符号化処理の詳細については、後述する図12を参照して説明する。
 ステップS119において、多視点画像符号化部55は、多視点符号化処理の結果得られる符号化ビットストリームを伝送し、処理を終了する。
 図12は、図11のステップS118の多視点符号化処理を説明するフローチャートである。
 図12のステップS131において、多視点画像符号化部55のスライス符号化部61(図5)は、多視点カラー画像補正部52からの多視点補正カラー画像と、多視点視差画像生成部53からの多視点視差画像を、スライス単位で符号化する。具体的には、スライス符号化部61は、多視点補正カラー画像をHEVC方式で符号化するカラー画像符号化処理をスライス単位で行う。また、スライス符号化部61は、図1の視点生成用情報生成部54から供給される視点生成用情報のうちの視差最大値、視差最小値、およびカメラ間距離を用いて、多視点視差画像をHEVC方式に準じた方式で符号化する視差画像符号化処理をスライス単位で行う。この視差画像符号化処理の詳細は、後述する図13および図14を参照して説明する。スライス符号化部61は、符号化の結果得られるスライス単位の符号化データをスライスヘッダ符号化部62に供給する。
 ステップS132において、スライスヘッダ符号化部62は、視点生成用情報生成部54から供給される視点生成用情報のうちのカメラ間距離、視差最大値、および視差最小値を、現在の処理対象のスライスのカメラ間距離、視差最大値、および視差最小値とし、保持する。
 ステップS133において、スライスヘッダ符号化部62は、同一PPS単位を構成する全てのスライスのカメラ間距離、視差最大値、および視差最小値が、それぞれ、そのスライスより符号化順で1つ前のスライスのカメラ間距離、視差最大値、および視差最小値と一致するかどうかを判定する。
 ステップS133でカメラ間距離、視差最大値、および視差最小値が一致すると判定された場合、ステップS134において、スライスヘッダ符号化部62は、カメラ間距離、視差最大値、および視差最小値の差分符号化結果の伝送の無しを表す伝送フラグを生成し、PPS符号化部63に供給する。
 ステップS135において、スライスヘッダ符号化部62は、ステップS133の処理対象である同一PPS単位を構成する各スライスの符号化データに、スライスヘッダとして、そのスライスのカメラ間距離、視差最大値、および視差最小値以外の符号化に関する情報を付加する。なお、この符号化に関する情報には、スライス符号化部61から供給される画面内予測情報または動き情報が含まれる。そして、スライスヘッダ符号化部62は、その結果得られる同一PPS単位を構成する各スライスの符号化データをPPS符号化部63に供給し、処理をステップS140に進める。
 一方、ステップS133でカメラ間距離、視差最大値、および視差最小値が一致しないと判定された場合、ステップS136において、スライスヘッダ符号化部62は、カメラ間距離、視差最大値、および視差最小値の差分符号化結果の伝送の有りを表す伝送フラグをPPS符号化部63に供給する。なお、後述するステップS137乃至S139の処理は、ステップS133の処理対象である同一PPS単位を構成するスライスごとに行われる。
 ステップS137において、スライスヘッダ符号化部62は、ステップS133の処理対象である同一PPS単位を構成するスライスのタイプがイントラタイプであるかどうかを判定する。ステップS137でスライスのタイプがイントラタイプであると判定された場合、ステップS138において、スライスヘッダ符号化部62は、そのスライスの符号化データに、スライスヘッダとして、そのスライスのカメラ間距離、視差最大値、および視差最小値を含む符号化に関する情報を付加する。なお、この符号化に関する情報には、スライス符号化部61から供給される画面内予測情報または動き情報も含まれる。そして、スライスヘッダ符号化部62は、その結果得られるスライス単位の符号化データをPPS符号化部63に供給し、処理をステップS140に進める。
 一方、ステップS137でスライスのタイプがイントラタイプではないと判定された場合、即ちスライスのタイプがインタータイプである場合、処理はステップS139に進む。ステップS139において、スライスヘッダ符号化部62は、そのスライスのカメラ間距離、視差最大値、および視差最小値を差分符号化し、そのスライスの符号化データに、差分符号化結果を含む符号化に関する情報をスライスヘッダとして付加する。なお、この符号化に関する情報には、スライス符号化部61から供給される画面内予測情報または動き情報も含まれる。そして、スライスヘッダ符号化部62は、その結果得られるスライス単位の符号化データをPPS符号化部63に供給し、処理をステップS140に進める。
 ステップS140において、PPS符号化部63は、スライスヘッダ符号化部62から供給される伝送フラグと、図1の視点生成用情報生成部54から供給される視点生成用情報のうちの視差精度パラメータを含むPPSを生成する。
 ステップS141において、PPS符号化部63は、同一PPS単位で、スライスヘッダ符号化部62から供給されるスライスヘッダが付加されたスライス単位の符号化データにPPSを付加し、SPS符号化部64に供給する。
 ステップS142において、SPS符号化部64は、SPSを生成する。
 ステップS143において、SPS符号化部64は、シーケンス単位で、PPS符号化部63から供給されるPPSが付加された符号化データにSPSを付加し、符号化ビットストリームを生成する。そして、処理は図11のステップS118に戻り、ステップS119に進む。
 図13および図14は、図5のスライス符号化部61の視差画像符号化処理の詳細を説明するフローチャートである。この視差画像符号化処理は、視点ごとに行われる。
 図13のステップS160において、符号化部120のA/D変換部121は、多視点視差画像生成部53から入力された所定の視点のフレーム単位の視差画像をA/D変換し、画面並べ替えバッファ122に出力して記憶させる。
 ステップS161において、画面並べ替えバッファ122は、記憶した表示の順番のフレームの視差画像を、GOP構造に応じて、符号化のための順番に並べ替える。画面並べ替えバッファ122は、並べ替え後のフレーム単位の視差画像を、演算部123、画面内予測部133、および動き予測・補償部134に供給する。
 ステップS162において、画面内予測部133は、加算部130から供給される参照画像を用いて、候補となる全てのイントラ予測モードの画面内予測処理を行う。このとき、画面内予測部133は、候補となる全てのイントラ予測モードに対してコスト関数値を算出する。そして、画面内予測部133は、コスト関数値が最小となるイントラ予測モードを最適イントラ予測モードに決定する。画面内予測部133は、最適イントラ予測モードで生成された予測画像、および、対応するコスト関数値を、選択部136に供給する。
 ステップS163において、動き予測・補償部134は、画面並べ替えバッファ122から供給される視差画像と、フレームメモリ132から供給される参照画像とに基づいて、動き予測・補償処理を行う。
 具体的には、動き予測・補償部134は、画面並べ替えバッファ122から供給される視差画像と、フレームメモリ132から供給される参照画像とに基づいて、候補となる全てのインター予測モードの動き予測処理を行い、動きベクトルを生成する。また、動き予測・補償部134は、インター予測モードごとに、生成された動きベクトルに基づいて、フレームメモリ132から参照画像を読み出すことにより、動き補償処理を行う。動き予測・補償部134は、その結果生成される予測画像を補正部135に供給する。
 ステップS164において、補正部135は、図1の視点生成用情報生成部54から供給される視点生成用情報のうちの視差最大値、視差最小値、およびカメラ間距離に基づいて、補正係数を算出する。
 ステップS165において、補正部135は、動き予測・補償部134から供給される各インター予測モードの予測画像を、補正係数を用いて補正する。
 ステップS166において、補正部135は、補正後の予測画像を用いて、各インター予測モードに対してコスト関数値を算出し、コスト関数値が最小となるインター予測モードを最適インター測モードに決定する。そして、補正部135は、最適インター予測モードで生成された予測画像とコスト関数値とを選択部136に供給する。
 ステップS167において、選択部136は、画面内予測部133および補正部135から供給されるコスト関数値に基づいて、最適イントラ予測モードと最適インター予測モードのうちのコスト関数値が最小となる方を、最適予測モードに決定する。そして、選択部136は、最適予測モードの予測画像を、演算部123および加算部130に供給する。
 ステップS168において、選択部136は、最適予測モードが最適インター予測モードであるかどうかを判定する。ステップS168で最適予測モードが最適インター予測モードであると判定された場合、選択部136は、最適インター予測モードで生成された予測画像の選択を補正部135に通知する。
 そして、ステップS169において、補正部135は、動き情報をスライスヘッダ符号化部62(図5)に出力し、処理をステップS171に進める。
 一方、ステップS168で最適予測モードが最適インター予測モードではないと判定された場合、即ち最適予測モードが最適イントラ予測モードである場合、選択部136は、最適イントラ予測モードで生成された予測画像の選択を画面内予測部133に通知する。
 そして、ステップS170において、画面内予測部133は、画面内予測情報をスライスヘッダ符号化部62に出力し、処理をステップS171に進める。
 ステップS171において、演算部123は、画面並べ替えバッファ122から供給される視差画像から、選択部136から供給される予測画像を減算する。演算部123は、減算の結果得られる画像を、残差情報として直交変換部124に出力する。
 ステップS172において、直交変換部124は、演算部123からの残差情報に対して直交変換を施し、その結果得られる係数を量子化部125に供給する。
 ステップS173において、量子化部125は、直交変換部124から供給される係数を量子化する。量子化された係数は、可逆符号化部126と逆量子化部128に入力される。
 ステップS174において、可逆符号化部126は、量子化部125から供給される量子化された係数を可逆符号化する。
 図14のステップS175において、可逆符号化部126は、可逆符号化処理の結果得られる符号化データを蓄積バッファ127に供給し、蓄積させる。
 ステップS176において、蓄積バッファ127は、蓄積されている符号化データをスライスヘッダ符号化部62に出力する。
 ステップS177において、逆量子化部128は、量子化部125から供給される量子化された係数を逆量子化する。
 ステップS178において、逆直交変換部129は、逆量子化部128から供給される係数に対して逆直交変換を施し、その結果得られる残差情報を加算部130に供給する。
 ステップS179において、加算部130は、逆直交変換部129から供給される残差情報と、選択部136から供給される予測画像を加算し、局部的に復号された視差画像を得る。加算部130は、得られた視差画像をデブロックフィルタ131に供給するとともに、参照画像として画面内予測部133に供給する。
 ステップS180において、デブロックフィルタ131は、加算部130から供給される局部的に復号された視差画像に対してフィルタリングを行うことにより、ブロック歪を除去する。
 ステップS181において、デブロックフィルタ131は、フィルタリング後の視差画像をフレームメモリ132に供給し、蓄積させる。フレームメモリ132に蓄積された視差画像は、参照画像として動き予測・補償部134に出力される。そして、処理は終了する。
 なお、図13および図14のステップS162乃至S181の処理は、例えば、階層構造を有するコーディングユニット単位で行われる。また、図13および図14の視差画像符号化処理では、説明を簡単化するため、常に、画面内予測処理と動き補償処理が行われるようにしたが、実際には、ピクチャタイプ等によっていずれか一方のみが行われる場合もある。
 以上のように、符号化装置50は、視差画像に関する情報を用いて予測画像を補正し、補正後の予測画像を用いて視差画像を符号化する。より詳細には、符号化装置50は、視差画像に関する情報としてカメラ間距離、視差最大値、および視差最小値を用いて、予測画像と視差画像の間で、奥行方向の被写体の位置が同一である場合に視差値が同一となるように予測画像を補正し、補正後の予測画像を用いて視差画像を符号化する。従って、視差画像に関する情報によって生じる予測画像と視差画像の差分が削減され、符号化効率が向上する。特に、視差画像に関する情報がピクチャごとに変化するとき、符号化効率が向上する。
 また、符号化装置50は、予測画像の補正に用いられる情報として、補正係数そのものではなく、補正係数の算出に用いられるカメラ間距離、視差最大値、および視差最小値を伝送する。ここで、カメラ間距離、視差最大値、および視差最小値は、視点生成用情報の一部である。従って、カメラ間距離、視差最大値、および視差最小値を、予測画像の補正に用いられる情報および視点生成用情報の一部として共有させることができる。その結果、符号化ビットストリームの情報量を削減することができる。
 [復号装置の第1実施の形態の構成例]
 図15は、図1の符号化装置50から伝送される符号化ビットストリームを復号する、本技術を適用した復号装置の第1実施の形態の構成例を示すブロック図である。
 図15の復号装置150は、多視点画像復号部151、視点合成部152、および多視点画像表示部153により構成される。復号装置150は、符号化装置50から伝送されてくる符号化ビットストリームを復号し、その結果得られる多視点カラー画像、多視点視差画像、および視点生成用情報を用いて表示視点のカラー画像を生成して表示する。
 具体的には、復号装置150の多視点画像復号部151は、図1の符号化装置50から伝送されてくる符号化ビットストリームを受け取る。多視点画像復号部151は、受け取られた符号化ビットストリームに含まれるPPSから視差精度パラメータと伝送フラグを抽出する。また、多視点画像復号部151は、伝送フラグに応じて、符号化ビットストリームのスライスヘッダからカメラ間距離、視差最大値、および視差最小値を抽出する。多視点画像復号部151は、視差精度パラメータ、カメラ間距離、視差最大値、および視差最小値からなる視点生成用情報を生成し、視点合成部152に供給する。
 また、多視点画像復号部151は、符号化ビットストリームに含まれるスライス単位の多視点補正カラー画像の符号化データを、図1の多視点画像符号化部55の符号化方式に対応する方式で復号し、多視点補正カラー画像を生成する。また、多視点画像復号部151は、復号部として機能する。多視点画像復号部151は、カメラ間距離、視差最大値、および視差最小値を用いて、符号化ビットストリームに含まれる多視点視差画像の符号化データを、多視点画像符号化部55の符号化方式に対応する方式で復号し、多視点視差画像を生成する。多視点画像復号部151は、生成された多視点補正カラー画像および多視点視差画像を視点合成部152に供給する。
 視点合成部152は、多視点画像復号部151からの視点生成用情報を用いて、多視点画像復号部151からの多視点視差画像に対して、多視点画像表示部153に対応する視点数の表示視点へのワーピング処理を行う。具体的には、視点合成部152は、視点生成用情報に含まれるカメラ間距離、視差最大値、および視差最小値等に基づいて、視差精度パラメータに対応する精度で、多視点視差画像に対して表示視点へのワーピング処理を行う。なお、ワーピング処理とは、ある視点の画像から別の視点の画像へ幾何変換する処理である。また、表示視点には、多視点カラー画像に対応する視点以外の視点が含まれる。
 また、視点合成部152は、ワーピング処理の結果得られる表示視点の視差画像を用いて、多視点画像復号部151から供給される多視点補正カラー画像に対して、表示視点へのワーピング処理を行う。視点合成部152は、その結果得られる表示視点のカラー画像を、多視点合成カラー画像として多視点画像表示部153に供給する。
 多視点画像表示部153は、視点合成部152から供給される多視点合成カラー画像を、視点ごとに視認可能な角度が異なるように表示する。視聴者は、任意の2視点の各画像を左右の各目で見ることにより、メガネを装着せずに複数の視点から3D画像を見ることができる。
 以上のように、視点合成部152は、視差精度パラメータに基づいて、視点精度パラメータに対応する精度で、多視点視差画像に対する表示視点へのワーピング処理を行うので、視点合成部152は、無駄に高精度のワーピング処理を行う必要がない。
 また、視点合成部152は、カメラ間距離に基づいて、多視点視差画像に対する表示視点へのワーピング処理を行うので、ワーピング処理後の多視点視差画像の視差値に対応する視差が適正な範囲ではない場合、カメラ間距離に基づいて、視差値を適正な範囲の視差に対応する値に修正することができる。
 [多視点画像復号部の構成例]
 図16は、図15の多視点画像復号部151の構成例を示すブロック図である。
 図16の多視点画像復号部151は、SPS復号部171、PPS復号部172、スライスヘッダ復号部173、およびスライス復号部174により構成される。
 多視点画像復号部151のSPS復号部171は、受け取り部として機能し、図1の符号化装置50から伝送されてくる符号化ビットストリームを受け取り、その符号化ビットストリームのうちのSPSを抽出する。SPS復号部171は、抽出されたSPSとSPS以外の符号化ビットストリームをPPS復号部172に供給する。
 PPS復号部172は、SPS復号部171から供給されるSPS以外の符号化ビットストリームからPPSを抽出する。PPS復号部172は、抽出されたPPS、SPS、およびSPSとPPS以外の符号化ビットストリームをスライスヘッダ復号部173に供給する。
 スライスヘッダ復号部173は、PPS復号部172から供給されるSPSとPPS以外の符号化ビットストリームからスライスヘッダを抽出する。スライスヘッダ復号部173は、PPS復号部172からのPPSに含まれる伝送フラグが伝送の有りを表す「1」である場合、スライスヘッダに含まれるカメラ間距離、視差最大値、および視差最小値を保持するか、または、カメラ間距離、視差最大値、および視差最小値の差分符号化結果に基づいて保持されているカメラ間距離、視差最大値、および視差最小値を更新する。スライスヘッダ復号部173は、保持されているカメラ間距離、視差最大値、および視差最小値、並びに、PPSに含まれる視差精度パラメータから視点生成用情報を生成し、視点合成部152に供給する。
 さらに、スライスヘッダ復号部173は、SPS,PPS、およびスライスヘッダのカメラ間距離、視差最大値、および視差最小値に関する情報以外、並びに、SPS,PPS、およびスライスヘッダ以外の符号化ビットストリームであるスライス単位の符号化データを、スライス復号部174に供給する。また、スライスヘッダ復号部173は、カメラ間距離、視差最大値、および視差最小値をスライス復号部174に供給する。
 スライス復号部174は、スライスヘッダ復号部173から供給されるSPS,PPS、およびスライスヘッダのカメラ間距離、視差最大値、および視差最小値に関する情報以外に基づいて、スライス符号化部61(図5)における符号化方式に対応する方式で、スライス単位の多重化カラー画像の符号化データを復号する。また、スライス復号部174は、SPS,PPS、スライスヘッダのカメラ間距離、視差最大値、および視差最小値関する情報以外、並びに、カメラ間距離、視差最大値、および視差最小値に基づいて、スライス符号化部61における符号化方式に対応する方式で、スライス単位の多重化視差画像の符号化データを復号する。スライスヘッダ復号部173は、復号の結果得られる多視点補正カラー画像と多視点視差画像を、図15の視点合成部152に供給する。
 [スライス復号部の構成例]
 図17は、図16のスライス復号部174のうちの任意の1視点の視差画像を復号する復号部の構成例を示すブロック図である。即ち、スライス復号部174のうちの多視点視差画像を復号する復号部は、視点数分の図17の復号部250により構成される。
 図17の復号部250は、蓄積バッファ251、可逆復号部252、逆量子化部253、逆直交変換部254、加算部255、デブロックフィルタ256、画面並べ替えバッファ257、D/A変換部258、フレームメモリ259、画面内予測部260、動きベクトル生成部261、動き補償部262、補正部263、およびスイッチ264により構成される。
 復号部250の蓄積バッファ251は、図16のスライスヘッダ復号部173からスライス単位の所定の視点の視差画像の符号化データを受け取り、蓄積する。蓄積バッファ251は、蓄積されている符号化データを可逆復号部252に供給する。
 可逆復号部252は、蓄積バッファ251からの符号化データに対して、可変長復号や、算術復号等の可逆復号を施すことで、量子化された係数を得る。可逆復号部252は、量子化された係数を逆量子化部253に供給する。
 逆量子化部253、逆直交変換部254、加算部255、デブロックフィルタ256、フレームメモリ259、画面内予測部260、動き補償部262、および補正部263は、図6の逆量子化部128、逆直交変換部129、加算部130、デブロックフィルタ131、フレームメモリ132、画面内予測部133、動き予測・補償部134、および補正部135とそれぞれ同様の処理を行い、これにより、所定の視点の視差画像が復号される。
 具体的には、逆量子化部253は、可逆復号部252からの量子化された係数を逆量子化し、その結果得られる係数を逆直交変換部254に供給する。
 逆直交変換部254は、逆量子化部253からの係数に対して、逆離散コサイン変換、逆カルーネン・レーベ変換等の逆直交変換を施し、その結果得られる残差情報を加算部255に供給する。
 加算部255は、復号部として機能し、逆直交変換部254から供給される復号対象の視差画像としての残差情報と、スイッチ264から供給される予測画像を加算することにより、復号対象の視差画像を復号する。加算部255は、その結果得られる視差画像をデブロックフィルタ256に供給するとともに、参照画像として画面内予測部260に供給する。なお、スイッチ264から予測画像が供給されない場合、加算部255は、逆直交変換部254から供給される残差情報である視差画像をデブロックフィルタ256に供給するとともに、参照画像として画面内予測部260に供給する。
 デブロックフィルタ256は、加算部255から供給される視差画像をフィルタリングすることにより、ブロック歪を除去する。デブロックフィルタ256は、その結果得られる視差画像をフレームメモリ259に供給し、蓄積させるとともに、画面並べ替えバッファ257に供給する。フレームメモリ259に蓄積された視差画像は、参照画像として動き補償部262に供給される。
 画面並べ替えバッファ257は、デブロックフィルタ256から供給される視差画像をフレーム単位で記憶する。画面並べ替えバッファ257は、記憶した符号化のための順番のフレーム単位の視差画像を、元の表示の順番に並び替え、D/A変換部258に供給する。
 D/A変換部258は、画面並べ替えバッファ257から供給されるフレーム単位の視差画像をD/A変換し、所定の視点の視差画像として視点合成部152(図15)に供給する。
 画面内予測部260は、加算部255から供給される参照画像を用いて、スライスヘッダ復号部173(図16)から供給される画面内予測情報が表す最適イントラ予測モードの画面内予測を行い、予測画像を生成する。そして、画面内予測部260は、予測画像をスイッチ264に供給する。
 動きベクトル生成部261は、保持されている動きベクトルのうちの、スライスヘッダ復号部173から供給される動き情報に含まれる予測ベクトルインデックスが表す動きベクトルと、動きベクトル残差とを加算し、動きベクトルを復元する。動きベクトル生成部261は、復元された動きベクトルを保持する。また、動きベクトル生成部261は、復元された動きベクトルと、動き情報に含まれる最適インター予測モード等を動き補償部262に供給する。
 動き補償部262は、予測画像生成部として機能し、動きベクトル生成部261から供給される動きベクトルと最適インター予測モードに基づいて、フレームメモリ259から参照画像を読み出すことにより、動き補償処理を行う。動き補償部262は、その結果生成される予測画像を補正部263に供給する。
 補正部263は、図6の補正部135と同様に、図16のスライスヘッダ復号部173から供給される視差最大値、視差最小値、およびカメラ間距離に基づいて、予測画像を補正する際に用いる補正係数を生成する。また、補正部263は、補正部135と同様に、動き補償部262から供給される最適インター予測モードの予測画像を、補正係数を用いて補正する。補正部263は、補正後の予測画像をスイッチ264に供給する。
 スイッチ264は、画面内予測部260から予測画像が供給された場合、その予測画像を加算部255に供給し、動き補償部262から予測画像が供給された場合、その予測画像を加算部255に供給する。
 [復号装置の処理の説明]
 図18は、図15の復号装置150の復号処理を説明するフローチャートである。この復号処理は、例えば、図1の符号化装置50から符号化ビットストリームが伝送されてきたとき、開始される。
 図18のステップS201において、復号装置150の多視点画像復号部151は、図1の符号化装置50から伝送されてくる符号化ビットストリームを受け取る。
 ステップS202において、多視点画像復号部151は、受け取られた符号化ビットストリームを復号する多視点復号処理を行う。この多視点復号処理の詳細は、後述する図19を参照して説明する。
 ステップS203において、視点合成部152は、カラー画像生成部として機能し、多視点画像復号部151から供給される視点生成用情報、多視点補正カラー画像、および多視点視差画像を用いて、多視点合成カラー画像を生成する。
 ステップS204において、多視点画像表示部153は、視点合成部152から供給される多視点合成カラー画像を、視点ごとに視認可能な角度が異なるように表示し、処理を終了する。
 図19は、図18のステップS202の多視点復号処理の詳細を説明するフローチャートである。
 図19のステップS221において、多視点画像復号部151のSPS復号部171(図16)は、受け取られた符号化ビットストリームのうちのSPSを抽出する。SPS復号部171は、抽出されたSPSとSPS以外の符号化ビットストリームをPPS復号部172に供給する。
 ステップS222において、PPS復号部172は、SPS復号部171から供給されるSPS以外の符号化ビットストリームからPPSを抽出する。PPS復号部172は、抽出されたPPS、SPS、およびSPSとPPS以外の符号化ビットストリームをスライスヘッダ復号部173に供給する。
 ステップS223において、スライスヘッダ復号部173は、PPS復号部172から供給されるPPSに含まれる視差精度パラメータを視点生成用情報の一部として視点合成部152に供給する。
 ステップS224において、スライスヘッダ復号部173は、PPS復号部172からのPPSに含まれる伝送フラグが伝送の有りを表す「1」であるかどうかを判定する。なお、以降のステップS225乃至S234の処理は、スライス単位で行われる。
 ステップS224で伝送フラグが伝送の有りを表す「1」であると判定された場合、処理はステップS225に進む。ステップS225において、スライスヘッダ復号部173は、PPS復号部172から供給されるSPSとPPS以外の符号化ビットストリームから、視差最大値、視差最小値、およびカメラ間距離、または、視差最大値、視差最小値、およびカメラ間距離の差分符号化結果を含むスライスヘッダを抽出する。
 ステップS226において、スライスヘッダ復号部173は、スライスのタイプがイントラタイプであるかどうかを判定する。ステップS226でスライスのタイプがイントラタイプであると判定された場合、処理はステップS227に進む。
 ステップS227において、スライスヘッダ復号部173は、ステップS225で抽出されたスライスヘッダに含まれる視差最小値を保持し、視点生成用情報の一部として視点合成部152に供給する。
 ステップS228において、スライスヘッダ復号部173は、ステップS225で抽出されたスライスヘッダに含まれる視差最大値を保持し、視点生成用情報の一部として視点合成部152に供給する。
 ステップS229において、スライスヘッダ復号部173は、ステップS225で抽出されたスライスヘッダに含まれるカメラ間距離を保持し、視点生成用情報の一部として視点合成部152に供給する。そして、処理はステップS235に進む。
 一方、ステップS226でスライスのタイプがイントラタイプではないと判定された場合、即ちスライスのタイプがインタータイプである場合、処理はステップS230に進む。
 ステップS230において、スライスヘッダ復号部173は、ステップS225で抽出されたスライスヘッダに含まれる視差最小値の差分符号化結果を、保持されている視差最小値に加算する。スライスヘッダ復号部173は、加算により復元された視差最小値を視点生成用情報の一部として視点合成部152に供給する。
 ステップS231において、スライスヘッダ復号部173は、ステップS225で抽出されたスライスヘッダに含まれる視差最大値の差分符号化結果を、保持されている視差最大値に加算する。スライスヘッダ復号部173は、加算により復元された視差最大値を視点生成用情報の一部として視点合成部152に供給する。
 ステップS232において、スライスヘッダ復号部173は、ステップS225で抽出されたスライスヘッダに含まれるカメラ間距離の差分符号化結果を、保持されているカメラ間距離に加算する。スライスヘッダ復号部173は、加算により復元されたカメラ間距離を視点生成用情報の一部として視点合成部152に供給する。そして、処理はステップS235に進む。
 一方、ステップS224で伝送フラグが伝送の有りを表す「1」ではないと判定された場合、即ち伝送フラグが伝送の無しを表す「0」である場合、処理はステップS233に進む。
 ステップS233において、スライスヘッダ復号部173は、PPS復号部172から供給されるSPSとPPS以外の符号化ビットストリームから、視差最大値、視差最小値、およびカメラ間距離、および、視差最大値、視差最小値、およびカメラ間距離の差分符号化結果を含まないスライスヘッダを抽出する。
 ステップS234において、スライスヘッダ復号部173は、保持されている視差最大値、視差最小値、およびカメラ間距離、即ち符号化順で1つ前のスライスの視差最大値、視差最小値、およびカメラ間距離を、処理対象のスライスの視差最大値、視差最小値、およびカメラ間距離とすることにより、処理対象のスライスの視差最大値、視差最小値、およびカメラ間距離を復元する。そして、スライスヘッダ復号部173は、復元された視差最大値、視差最小値、およびカメラ間距離を、視点生成用情報の一部として視点合成部152に供給し、処理をステップS235に進める。
 ステップS235において、スライス復号部174は、スライス符号化部61(図5)における符号化方式に対応する方式で、スライス単位の符号化データを復号する。具体的には、スライス復号部174は、スライスヘッダ復号部173からのSPS,PPS、およびカメラ間距離、視差最大値、および視差最小値に関する情報以外のスライスヘッダに基づいて、スライス符号化部61における符号化方式に対応する方式で、スライス単位の多視点カラー画像の符号化データを復号する。また、スライス復号部174は、スライスヘッダ復号部173からのSPS,PPS、カメラ間距離、視差最大値、および視差最小値に関する情報以外のスライスヘッダ、並びに、カメラ間距離、視差最大値、および視差最小値に基づいて、スライス符号化部61における符号化方式に対応する方式で、スライス単位の多視点補正画像の符号化データを復号する視差画像復号処理を行う。この視差画像復号処理の詳細は、後述する図20を参照して説明する。スライスヘッダ復号部173は、復号の結果得られる多視点補正カラー画像と多視点視差画像を、図15の視点合成部152に供給する。
 図20は、図16のスライス復号部174の視差画像復号処理の詳細を説明するフローチャートである。この視差画像復号処理は、視点ごとに行われる。
 図20のステップS261において、復号部250の蓄積バッファ251は、図16のスライスヘッダ復号部173から所定の視点の視差画像のスライス単位の符号化データを受け取り、蓄積する。蓄積バッファ251は、蓄積されている符号化データを可逆復号部252に供給する。
 ステップS262において、可逆復号部252は、蓄積バッファ251から供給される符号化データを可逆復号し、その結果得られる量子化された係数を逆量子化部253に供給する。
 ステップS263において、逆量子化部253は、可逆復号部252からの量子化された係数を逆量子化し、その結果得られる係数を逆直交変換部254に供給する。
 ステップS264において、逆直交変換部254は、逆量子化部253からの係数に対して逆直交変換を施し、その結果得られる残差情報を加算部255に供給する。
 ステップS265において、動きベクトル生成部261は、図16のスライスヘッダ復号部173から動き情報が供給されたかどうかを判定する。ステップS265で動き情報が供給されたと判定された場合、処理はステップS266に進む。
 ステップS266において、動きベクトル生成部261は、動き情報と保持している動きベクトルに基づいて動きベクトルを復元し、保持する。動きベクトル生成部261は、復元された動きベクトルと、動き情報に含まれる最適インター予測モード等を動き補償部262に供給する。
 ステップS267において、動き補償部262は、動きベクトル生成部261から供給される動きベクトルと最適インター予測モードに基づいて、フレームメモリ259から参照画像を読み出すことにより動き補償処理を行う。動き補償部262は、動き補償処理の結果生成される予測画像を補正部263に供給する。
 ステップS268において、補正部263は、図6の補正部135と同様に、図16のスライスヘッダ復号部173から供給される視差最大値、視差最小値、およびカメラ間距離に基づいて、補正係数を算出する。
 ステップS269において、補正部263は、補正部135と同様に、動き補償部262から供給される最適インター予測モードの予測画像を、補正係数を用いて補正する。補正部263は、補正後の予測画像を、スイッチ264を介して加算部255に供給し、処理をステップS271に進める。
 一方、ステップS265で動き情報が供給されていないと判定された場合、即ち画面内予測情報がスライスヘッダ復号部173から画面内予測部260に供給された場合、処理はステップS270に進む。
 ステップS270において、画面内予測部260は、加算部255から供給される参照画像を用いて、スライスヘッダ復号部173から供給される画面内予測情報が示す最適イントラ予測モードの画面内予測処理を行う。画面内予測部260は、その結果生成される予測画像を、スイッチ264を介して加算部255に供給し、処理をステップS271に進める。
 ステップS271において、加算部255は、逆直交変換部254から供給される残差情報と、スイッチ264から供給される予測画像を加算する。加算部255は、その結果得られる視差画像をデブロックフィルタ256に供給するとともに、参照画像として画面内予測部260に供給する。
 ステップS272において、デブロックフィルタ256は、加算部255から供給される視差画像に対してフィルタリングを行い、ブロック歪を除去する。
 ステップS273において、デブロックフィルタ256は、フィルタリング後の視差画像をフレームメモリ259に供給し、蓄積させるとともに、画面並べ替えバッファ257に供給する。フレームメモリ259に蓄積された視差画像は、参照画像として動き補償部262に供給される。
 ステップS274において、画面並べ替えバッファ257は、デブロックフィルタ256から供給される視差画像をフレーム単位で記憶し、記憶した符号化のための順番のフレーム単位の視差画像を、元の表示の順番に並び替え、D/A変換部258に供給する。
 ステップS275において、D/A変換部258は、画面並べ替えバッファ257から供給されるフレーム単位の視差画像をD/A変換し、所定の視点の視差画像として図15の視点合成部152に供給する。
 以上のように、復号装置150は、視差画像に関する情報を用いて補正された予測画像を用いて符号化することにより符号化効率が向上された視差画像の符号化データと、その視差画像に関する情報を含む符号化ビットストリームを受け取る。そして、復号装置150は、視差画像に関する情報を用いて予測画像を補正し、補正後の予測画像を用いて視差画像の符号化データを復号する。
 より詳細には、復号装置150は、視差画像に関する情報としてカメラ間距離、視差最大値、および視差最小値を用いて補正された予測画像を用いて符号化された符号化データと、カメラ間距離、視差最大値、および視差最小値とを受け取る。そして、復号装置150は、カメラ間距離、視差最大値、および視差最小値を用いて予測画像を補正し、補正後の予測画像を用いて視差画像の符号化データを復号する。これにより、復号装置150は、視差画像に関する情報を用いて補正された予測画像を用いて符号化することにより符号化効率が向上された視差画像の符号化データを復号することができる。
 なお、符号化装置50は、予測画像の補正に用いられる情報として、視差最大値、視差最小値、およびカメラ間距離をスライスヘッダに含めて伝送したが、伝送方法は、これに限定されない。
 [予測画像の補正に用いられる情報の伝送方法の説明]
 図21は、予測画像の補正に用いられる情報の伝送方法を説明する図である。
 図21の第1の伝送方法は、上述したように、予測画像の補正に用いられる情報として、視差最大値、視差最小値、およびカメラ間距離をスライスヘッダに含めて伝送する方法である。この場合、予測画像の補正に用いられる情報と視点生成用情報を共有させ、符号化ビットストリームの情報量を削減することができる。しかしながら、復号装置150において、視差最大値、視差最小値、およびカメラ間距離を用いて補正係数を算出する必要があり、復号装置150の処理負荷は後述する第2の伝送方法に比べて大きい。
 一方、図21の第2の伝送方法は、予測画像の補正に用いられる情報として補正係数そのものをスライスヘッダに含めて伝送する方法である。この場合、視差最大値、視差最小値、およびカメラ間距離は、予測画像の補正に用いられないため、視点生成用情報の一部として、例えば、符号化時に参照する必要がないSEI(Supplemental Enhancement Information)に含めて伝送される。第2の伝送方法では、補正係数が伝送されるので、復号装置150において補正係数を算出する必要がなく、復号装置150の処理負荷は第1の伝送方法に比べて小さい。しかしながら、補正係数が新たに伝送されるので、符号化ビットストリームの情報量は多くなる。
 なお、上述した説明では、予測画像は、視差最大値、視差最小値、およびカメラ間距離を用いて補正されたが、他の視差に関する情報(例えば、多視点カラー画像撮像部51の奥行き方向の撮像位置を表す撮像位置情報など)も用いて補正されるようにすることもできる。
 この場合、図21の第3の伝送方法により、予測画像の補正に用いられる情報として、視差最大値、視差最小値、カメラ間距離、および他の視差に関する情報を用いて生成された補正係数である追加補正係数がスライスヘッダに含められて伝送される。このように、視差最大値、視差最小値、およびカメラ間距離以外の視差に関する情報も用いて予測画像が補正される場合、視差に関する情報による予測画像と視差画像の差分をより削減し、符号化効率を向上させることができる。しかしながら、追加補正係数が新たに伝送されるので、第1の伝送方法に比べて符号化ビットストリームの情報量は多くなる。また、視差最大値、視差最小値、およびカメラ間距離を用いて補正係数を算出する必要があるので、第2の伝送方法に比べて復号装置150の処理負荷は大きい。
 図22は、第2の伝送方法で予測画像の補正に用いられる情報を伝送する場合の符号化ビットストリームの構成例を示す図である。
 図22の例では、PPS#0の同一PPS単位を構成する1つのイントラタイプのスライスと2つのインタータイプのスライスの補正係数が、それぞれ、符号化順で1つ前のスライスの補正係数と一致しない。従って、PPS#0には、伝送の有りを表す伝送フラグ「1」が含まれる。なお、ここでは、伝送フラグは、補正係数の伝送の有無を表すフラグである。
 また、図22の例では、PPS#0の同一PPS単位を構成するイントラタイプのスライスの補正係数aが1であり、補正係数bが0である。従って、そのスライスのスライスヘッダには、補正係数a「1」と補正係数b「0」が含まれる。
 さらに、図22の例では、PPS#0の同一PPS単位を構成する1番目のインタータイプのスライスの補正係数aが3であり、補正係数bが2である。従って、そのスライスのスライスヘッダには、そのスライスの補正係数a「3」から、符号化順で1つ前のイントラタイプのスライスの補正係数a「1」を減算した差分「+2」が、補正係数の差分符号化結果として含まれる。同様に、補正係数bの差分「+2」が補正係数bの差分符号化結果として含まれる。
 また、図22の例では、PPS#0の同一PPS単位を構成する2番目のインタータイプのスライスの補正係数aが0であり、補正係数bが-1である。従って、そのスライスのスライスヘッダには、そのスライスの補正係数a「0」から、符号化順で1つ前の1番目のインタータイプのスライスの補正係数a「3」を減算した差分「-3」が、補正係数の差分符号化結果として含まれる。同様に、補正係数bの差分「-3」が補正係数bの差分符号化結果として含まれる。
 また、図22の例では、PPS#1の同一PPS単位を構成する1つのイントラタイプのスライスと2つのインタータイプのスライスの補正係数が、それぞれ、符号化順で1つ前のスライスの補正係数と一致する。従って、PPS#1には、伝送の無しを表す伝送フラグ「0」が含まれる。
 図23は、第3の伝送方法で予測画像の補正に用いられる情報を伝送する場合の符号化ビットストリームの構成例を示す図である。
 図23の例では、PPS#0の同一PPS単位を構成する1つのイントラタイプのスライスと2つのインタータイプのスライスの視差最小値、視差最大値、カメラ間距離、および追加補正係数が、それぞれ、符号化順で1つ前のスライスの視差最小値、視差最大値、カメラ間距離、および追加補正係数と一致しない。従って、PPS#0には、伝送の有りを表す伝送フラグ「1」が含まれる。なお、ここでは、伝送フラグは、視差最小値、視差最大値、カメラ間距離、および追加補正係数の伝送の有無を表すフラグである。
 また、図23の例では、PPS#0の同一PPS単位を構成するスライスの視差最小値、視差最大値、およびカメラ間距離は、図7の場合と同様であり、各スライスのスライスヘッダに含まれる視差最小値、視差最大値、およびカメラ間距離に関する情報は図7と同様であるので、説明は省略する。
 また、図23の例では、PPS#0の同一PPS単位を構成するイントラタイプのスライスの追加補正係数は5である。従って、そのスライスのスライスヘッダには、追加補正係数「5」が含まれる。
 さらに、図23の例では、PPS#0の同一PPS単位を構成する1番目のインタータイプのスライスの追加補正係数が7である。従って、そのスライスのスライスヘッダには、そのスライスの追加補正係数「7」から、符号化順で1つ前のイントラタイプのスライスの追加補正係数「5」を減算した差分「+2」が、追加補正係数の差分符号化結果として含まれる。
 また、図23の例では、PPS#0の同一PPS単位を構成する2番目のインタータイプのスライスの追加補正係数が8である。従って、そのスライスのスライスヘッダには、そのスライスの追加補正係数「8」から、符号化順で1つ前の1番目のインタータイプのスライスの追加補正係数「7」を減算した差分「+1」が、追加補正係数の差分符号化結果として含まれる。
 また、図23の例では、PPS#1の同一PPS単位を構成する1つのイントラタイプのスライスと2つのインタータイプのスライスの視差最小値、視差最大値、カメラ間距離、および追加補正係数が、それぞれ、符号化順で1つ前のスライスの視差最小値、視差最大値、カメラ間距離、および追加補正係数と一致する。従って、PPS#1には、伝送の無しを表す伝送フラグ「0」が含まれる。
 符号化装置50は、図21の第1乃至第3の伝送方法のいずれの方法で、予測画像の補正に用いられる情報を伝送するようにしてもよい。また、符号化装置50は、伝送方法として採用した、第1乃至第3の伝送方法のうちの1つの伝送方法を識別する識別情報(例えば、フラグ、IDなど)を、符号化ビットストリームに含めて伝送するようにしてもよい。さらに、図21の第1乃至第3の伝送方法は、符号化ビットストリームを利用するアプリケーションに応じて、符号化ビットストリームのデータ量と復号の処理負荷のバランスを考慮して適宜選択することが可能である。
 また、本実施の形態では、予測画像の補正に用いられる情報は、符号化に関する情報としてスライスヘッダに配置されたが、予測画像の補正に用いられる情報の配置領域は、符号化時に参照される領域であれば、スライスヘッダに限定されない。例えば、予測画像の補正に用いられる情報は、PPSのNALユニット等の既存のNAL(Network Abstraction Layer)ユニットや、HEVC規格で提案されているAPS(Adaptation Parameter Set)のNALユニット等の新たなNALユニットに配置されるようにすることができる。
 例えば、補正係数や追加補正係数が複数のピクチャ間で共通である場合、その複数のピクチャに適応可能なNALユニット(例えば、PPSのNALユニット等)に、その共通の値を配置させることにより、伝送効率を向上させることができる。即ち、この場合、複数のピクチャ間で共通の補正係数や追加補正係数を伝送すればよいので、スライスヘッダに配置させる場合のように、スライスごとに補正係数や追加補正係数を伝送する必要がない。
 従って、例えば、カラー画像が、フラッシュやフェード効果を有するカラー画像である場合、視差最小値、視差最大値、カメラ間距離等などのパラメータが変化しない傾向があるため、補正係数や追加補正係数はPPSのNALユニットなどに配置させ、伝送効率を向上させる。
 補正係数や追加補正係数は、例えば、ピクチャごとに異なる場合、スライスヘッダに配置させ、複数のピクチャ間で共通である場合、スライスヘッダよりも上のレイヤ(例えば、PPSのNALユニット等)に配置することができる。
 さらに、視差画像は、その視差画像に対応する視点のカラー画像の各画素の被写体の奥行方向の位置を表すデプス値からなる画像であってもよい。この場合、視差最大値と視差最小値は、ぞれぞれ、多視点視差画像においてとり得る奥行方向の位置の世界座標値の最大値、最小値である。
 また、本技術は、HEVC方式以外のAVC,MVC(Multiview Video Coding)等の符号化方式にも適用することができる。
 <第2実施の形態>
 [本技術を適用したコンピュータの説明]
 次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
 そこで、図24は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
 プログラムは、コンピュータに内蔵されている記録媒体としての記憶部808やROM(Read Only Memory)802に予め記録しておくことができる。
 あるいはまた、プログラムは、リムーバブルメディア811に格納(記録)しておくことができる。このようなリムーバブルメディア811は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブルメディア811としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。
 なお、プログラムは、上述したようなリムーバブルメディア811からドライブ810を介してコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵する記憶部808にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。
 コンピュータは、CPU(Central Processing Unit)801を内蔵しており、CPU801には、バス804を介して、入出力インタフェース805が接続されている。
 CPU801は、入出力インタフェース805を介して、ユーザによって、入力部806が操作等されることにより指令が入力されると、それに従って、ROM802に格納されているプログラムを実行する。あるいは、CPU801は、記憶部808に格納されたプログラムを、RAM(Random Access Memory)803にロードして実行する。
 これにより、CPU801は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU801は、その処理結果を、必要に応じて、例えば、入出力インタフェース805を介して、出力部807から出力、あるいは、通信部809から送信、さらには、記憶部808に記録等させる。
 なお、入力部806は、キーボードや、マウス、マイク等で構成される。また、出力部807は、LCD(Liquid Crystal Display)やスピーカ等で構成される。
 ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
 また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
 本技術は、衛星放送、ケーブルTV(テレビジョン)、インターネット、および携帯電話機などのネットワークメディアを介して通信する際に、あるいは、光、磁気ディスク、およびフラッシュメモリのような記憶メディア上で処理する際に用いられる符号化装置および復号装置に適用することができる。
 また、上述した符号化装置および復号装置は、任意の電子機器に適用することができる。以下にその例について説明する。
 <第3実施の形態>
 [テレビジョン装置の構成例]
 図25は、本技術を適用したテレビジョン装置の概略構成を例示している。テレビジョン装置900は、アンテナ901、チューナ902、デマルチプレクサ903、デコーダ904、映像信号処理部905、表示部906、音声信号処理部907、スピーカ908、外部インタフェース部909を有している。さらに、テレビジョン装置900は、制御部910、ユーザインタフェース部911等を有している。
 チューナ902は、アンテナ901で受信された放送波信号から所望のチャンネルを選局して復調を行い、得られた符号化ビットストリームをデマルチプレクサ903に出力する。
 デマルチプレクサ903は、符号化ビットストリームから視聴対象である番組の映像や音声のパケットを抽出して、抽出したパケットのデータをデコーダ904に出力する。また、デマルチプレクサ903は、EPG(Electronic Program Guide)等のデータのパケットを制御部910に供給する。なお、スクランブルが行われている場合、デマルチプレクサ等でスクランブルの解除を行う。
 デコーダ904は、パケットの復号化処理を行い、復号処理化によって生成された映像データを映像信号処理部905、音声データを音声信号処理部907に出力する。
 映像信号処理部905は、映像データに対して、ノイズ除去やユーザ設定に応じた映像処理等を行う。映像信号処理部905は、表示部906に表示させる番組の映像データや、ネットワークを介して供給されるアプリケーションに基づく処理による画像データなどを生成する。また、映像信号処理部905は、項目の選択などのメニュー画面等を表示するための映像データを生成し、それを番組の映像データに重畳する。映像信号処理部905は、このようにして生成した映像データに基づいて駆動信号を生成して表示部906を駆動する。
 表示部906は、映像信号処理部905からの駆動信号に基づき表示デバイス(例えば液晶表示素子等)を駆動して、番組の映像などを表示させる。
 音声信号処理部907は、音声データに対してノイズ除去などの所定の処理を施し、処理後の音声データのD/A変換処理や増幅処理を行いスピーカ908に供給することで音声出力を行う。
 外部インタフェース部909は、外部機器やネットワークと接続するためのインタフェースであり、映像データや音声データ等のデータ送受信を行う。
 制御部910にはユーザインタフェース部911が接続されている。ユーザインタフェース部911は、操作スイッチやリモートコントロール信号受信部等で構成されており、ユーザ操作に応じた操作信号を制御部910に供給する。
 制御部910は、CPU(Central Processing Unit)やメモリ等を用いて構成されている。メモリは、CPUにより実行されるプログラムやCPUが処理を行う上で必要な各種のデータ、EPGデータ、ネットワークを介して取得されたデータ等を記憶する。メモリに記憶されているプログラムは、テレビジョン装置900の起動時などの所定タイミングでCPUにより読み出されて実行される。CPUは、プログラムを実行することで、テレビジョン装置900がユーザ操作に応じた動作となるように各部を制御する。
 なお、テレビジョン装置900では、チューナ902、デマルチプレクサ903、映像信号処理部905、音声信号処理部907、外部インタフェース部909等と制御部910を接続するためバス912が設けられている。
 このように構成されたテレビジョン装置では、デコーダ904に本願の復号装置(復号方法)の機能が設けられる。このため、視差画像に関する情報を用いて符号化することにより符号化効率が改善された視差画像の符号化データを復号することができる。
 <第4実施の形態>
 [携帯電話機の構成例]
 図26は、本技術を適用した携帯電話機の概略構成を例示している。携帯電話機920は、通信部922、音声コーデック923、カメラ部926、画像処理部927、多重分離部928、記録再生部929、表示部930、制御部931を有している。これらは、バス933を介して互いに接続されている。
 また、通信部922にはアンテナ921が接続されており、音声コーデック923には、スピーカ924とマイクロホン925が接続されている。さらに制御部931には、操作部932が接続されている。
 携帯電話機920は、音声通話モードやデータ通信モード等の各種モードで、音声信号の送受信、電子メールや画像データの送受信、画像撮影、またはデータ記録等の各種動作を行う。
 音声通話モードにおいて、マイクロホン925で生成された音声信号は、音声コーデック923で音声データへの変換やデータ圧縮が行われて通信部922に供給される。通信部922は、音声データの変調処理や周波数変換処理等を行い、送信信号を生成する。また、通信部922は、送信信号をアンテナ921に供給して図示しない基地局へ送信する。また、通信部922は、アンテナ921で受信した受信信号の増幅や周波数変換処理および復調処理等を行い、得られた音声データを音声コーデック923に供給する。音声コーデック923は、音声データのデータ伸張やアナログ音声信号への変換を行いスピーカ924に出力する。
 また、データ通信モードにおいて、メール送信を行う場合、制御部931は、操作部932の操作によって入力された文字データを受け付けて、入力された文字を表示部930に表示する。また、制御部931は、操作部932におけるユーザ指示等に基づいてメールデータを生成して通信部922に供給する。通信部922は、メールデータの変調処理や周波数変換処理等を行い、得られた送信信号をアンテナ921から送信する。また、通信部922は、アンテナ921で受信した受信信号の増幅や周波数変換処理および復調処理等を行い、メールデータを復元する。このメールデータを、表示部930に供給して、メール内容の表示を行う。
 なお、携帯電話機920は、受信したメールデータを、記録再生部929で記憶媒体に記憶させることも可能である。記憶媒体は、書き換え可能な任意の記憶媒体である。例えば、記憶媒体は、RAMや内蔵型フラッシュメモリ等の半導体メモリ、ハードディスク、磁気ディスク、光磁気ディスク、光ディスク、USBメモリ、またはメモリカード等のリムーバブルメディアである。
 データ通信モードにおいて画像データを送信する場合、カメラ部926で生成された画像データを、画像処理部927に供給する。画像処理部927は、画像データの符号化処理を行い、符号化データを生成する。
 多重分離部928は、画像処理部927で生成された符号化データと、音声コーデック923から供給された音声データを所定の方式で多重化して通信部922に供給する。通信部922は、多重化データの変調処理や周波数変換処理等を行い、得られた送信信号をアンテナ921から送信する。また、通信部922は、アンテナ921で受信した受信信号の増幅や周波数変換処理および復調処理等を行い、多重化データを復元する。この多重化データを多重分離部928に供給する。多重分離部928は、多重化データの分離を行い、符号化データを画像処理部927、音声データを音声コーデック923に供給する。画像処理部927は、符号化データの復号化処理を行い、画像データを生成する。この画像データを表示部930に供給して、受信した画像の表示を行う。音声コーデック923は、音声データをアナログ音声信号に変換してスピーカ924に供給して、受信した音声を出力する。
 このように構成された携帯電話装置では、画像処理部927に本願の符号化装置および復号装置(符号化方法および復号方法)の機能が設けられる。このため、視差画像に関する情報を用いて視差画像の符号化効率を改善することができる。また、視差画像に関する情報を用いて符号化することにより符号化効率が改善された視差画像の符号化データを復号することができる。
 <第5実施の形態>
 [記録再生装置の構成例]
 図27は、本技術を適用した記録再生装置の概略構成を例示している。記録再生装置940は、例えば受信した放送番組のオーディオデータとビデオデータを、記録媒体に記録して、その記録されたデータをユーザの指示に応じたタイミングでユーザに提供する。また、記録再生装置940は、例えば他の装置からオーディオデータやビデオデータを取得し、それらを記録媒体に記録させることもできる。さらに、記録再生装置940は、記録媒体に記録されているオーディオデータやビデオデータを復号して出力することで、モニタ装置等において画像表示や音声出力を行うことができるようにする。
 記録再生装置940は、チューナ941、外部インタフェース部942、エンコーダ943、HDD(Hard Disk Drive)部944、ディスクドライブ945、セレクタ946、デコーダ947、OSD(On-Screen Display)部948、制御部949、ユーザインタフェース部950を有している。
 チューナ941は、図示しないアンテナで受信された放送信号から所望のチャンネルを選局する。チューナ941は、所望のチャンネルの受信信号を復調して得られた符号化ビットストリームをセレクタ946に出力する。
 外部インタフェース部942は、IEEE1394インタフェース、ネットワークインタフェース部、USBインタフェース、フラッシュメモリインタフェース等の少なくともいずれかで構成されている。外部インタフェース部942は、外部機器やネットワーク、メモリカード等と接続するためのインタフェースであり、記録する映像データや音声データ等のデータ受信を行う。
 エンコーダ943は、外部インタフェース部942から供給された映像データや音声データが符号化されていないとき所定の方式で符号化を行い、符号化ビットストリームをセレクタ946に出力する。
 HDD部944は、映像や音声等のコンテンツデータ、各種プログラムやその他のデータ等を内蔵のハードディスクに記録し、また再生時等にそれらを当該ハードディスクから読み出す。
 ディスクドライブ945は、装着されている光ディスクに対する信号の記録および再生を行う。光ディスク、例えばDVDディスク(DVD-Video、DVD-RAM、DVD-R、DVD-RW、DVD+R、DVD+RW等)やBlu-rayディスク等である。
 セレクタ946は、映像や音声の記録時には、チューナ941またはエンコーダ943からのいずれかの符号化ビットストリームを選択して、HDD部944やディスクドライブ945のいずれかに供給する。また、セレクタ946は、映像や音声の再生時に、HDD部944またはディスクドライブ945から出力された符号化ビットストリームをデコーダ947に供給する。
 デコーダ947は、符号化ビットストリームの復号化処理を行う。デコーダ947は、復号処理化を行うことにより生成された映像データをOSD部948に供給する。また、デコーダ947は、復号処理化を行うことにより生成された音声データを出力する。
 OSD部948は、項目の選択などのメニュー画面等を表示するための映像データを生成し、それをデコーダ947から出力された映像データに重畳して出力する。
 制御部949には、ユーザインタフェース部950が接続されている。ユーザインタフェース部950は、操作スイッチやリモートコントロール信号受信部等で構成されており、ユーザ操作に応じた操作信号を制御部949に供給する。
 制御部949は、CPUやメモリ等を用いて構成されている。メモリは、CPUにより実行されるプログラムやCPUが処理を行う上で必要な各種のデータを記憶する。メモリに記憶されているプログラムは、記録再生装置940の起動時などの所定タイミングでCPUにより読み出されて実行される。CPUは、プログラムを実行することで、記録再生装置940がユーザ操作に応じた動作となるように各部を制御する。
 このように構成された記録再生装置では、デコーダ947に本願の復号装置(復号方法)の機能が設けられる。このため、視差画像に関する情報を用いて符号化することにより符号化効率が改善された視差画像の符号化データを復号することができる。
 <第6実施の形態>
 [撮像装置の構成例]
 図28は、本技術を適用した撮像装置の概略構成を例示している。撮像装置960は、被写体を撮像し、被写体の画像を表示部に表示させたり、それを画像データとして、記録媒体に記録する。
 撮像装置960は、光学ブロック961、撮像部962、カメラ信号処理部963、画像データ処理部964、表示部965、外部インタフェース部966、メモリ部967、メディアドライブ968、OSD部969、制御部970を有している。また、制御部970には、ユーザインタフェース部971が接続されている。さらに、画像データ処理部964や外部インタフェース部966、メモリ部967、メディアドライブ968、OSD部969、制御部970等は、バス972を介して接続されている。
 光学ブロック961は、フォーカスレンズや絞り機構等を用いて構成されている。光学ブロック961は、被写体の光学像を撮像部962の撮像面に結像させる。撮像部962は、CCDまたはCMOSイメージセンサを用いて構成されており、光電変換によって光学像に応じた電気信号を生成してカメラ信号処理部963に供給する。
 カメラ信号処理部963は、撮像部962から供給された電気信号に対してニー補正やガンマ補正、色補正等の種々のカメラ信号処理を行う。カメラ信号処理部963は、カメラ信号処理後の画像データを画像データ処理部964に供給する。
 画像データ処理部964は、カメラ信号処理部963から供給された画像データの符号化処理を行う。画像データ処理部964は、符号化処理を行うことにより生成された符号化データを外部インタフェース部966やメディアドライブ968に供給する。また、画像データ処理部964は、外部インタフェース部966やメディアドライブ968から供給された符号化データの復号化処理を行う。画像データ処理部964は、復号化処理を行うことにより生成された画像データを表示部965に供給する。また、画像データ処理部964は、カメラ信号処理部963から供給された画像データを表示部965に供給する処理や、OSD部969から取得した表示用データを、画像データに重畳させて表示部965に供給する。
 OSD部969は、記号、文字、または図形からなるメニュー画面やアイコンなどの表示用データを生成して画像データ処理部964に出力する。
 外部インタフェース部966は、例えば、USB入出力端子などで構成され、画像の印刷を行う場合に、プリンタと接続される。また、外部インタフェース部966には、必要に応じてドライブが接続され、磁気ディスク、光ディスク等のリムーバブルメディアが適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて、インストールされる。さらに、外部インタフェース部966は、LANやインターネット等の所定のネットワークに接続されるネットワークインタフェースを有する。制御部970は、例えば、ユーザインタフェース部971からの指示にしたがって、メモリ部967から符号化データを読み出し、それを外部インタフェース部966から、ネットワークを介して接続される他の装置に供給させることができる。また、制御部970は、ネットワークを介して他の装置から供給される符号化データや画像データを、外部インタフェース部966を介して取得し、それを画像データ処理部964に供給したりすることができる。
 メディアドライブ968で駆動される記録メディアとしては、例えば、磁気ディスク、光磁気ディスク、光ディスク、または半導体メモリ等の、読み書き可能な任意のリムーバブルメディアが用いられる。また、記録メディアは、リムーバブルメディアとしての種類も任意であり、テープデバイスであってもよいし、ディスクであってもよいし、メモリカードであってもよい。もちろん、非接触ICカード等であってもよい。
 また、メディアドライブ968と記録メディアを一体化し、例えば、内蔵型ハードディスクドライブやSSD(Solid State Drive)等のように、非可搬性の記憶媒体により構成されるようにしてもよい。
 制御部970は、CPUやメモリ等を用いて構成されている。メモリは、CPUにより実行されるプログラムやCPUが処理を行う上で必要な各種のデータ等を記憶する。メモリに記憶されているプログラムは、撮像装置960の起動時などの所定タイミングでCPUにより読み出されて実行される。CPUは、プログラムを実行することで、撮像装置960がユーザ操作に応じた動作となるように各部を制御する。
 このように構成された撮像装置では、画像データ処理部964に本願の符号化装置および復号装置(符号化方法および復号方法)の機能が設けられる。このため、視差画像に関する情報を用いて視差画像の符号化効率を改善することができる。また、視差画像に関する情報を用いて符号化することにより符号化効率が改善された視差画像の符号化データを復号することができる。
 本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 なお、本技術は、以下のような構成もとることができる。
 (1)
 基準視点の視差画像に関する情報を用いて、前記基準視点の視差画像の予測画像を補正する補正部と、
 前記補正部により補正された前記予測画像を用いて、前記基準視点の視差画像を符号化する符号化部と、
 前記符号化部により符号化された前記基準視点の視差画像と前記基準視点の視差画像に関する情報とを伝送する伝送部と
 を備える符号化装置。
 (2)
 前記基準視点の視差画像に関する情報は、前記基準視点のカラー画像と前記基準視点の視差画像を用いて前記基準視点と異なる視点のカラー画像を生成する際に用いる情報である視点生成情報を含み、
 前記伝送部は、前記視点生成情報を、前記基準視点の視差画像を符号化する際に用いる符号化パラメータとして伝送する
 前記(1)に記載の符号化装置。
 (3)
 前記補正部は、前記視点生成情報に基づいて前記予測画像を補正する際に用いる補正係数を用いて、前記予測画像を補正し、
 前記伝送部は、前記補正係数を、前記符号化パラメータとして伝送する
 前記(2)に記載の符号化装置。
 (4)
 前記基準視点の視差画像に関する情報は、前記基準視点のカラー画像を撮像する撮像部の奥行方向の撮像位置を表す撮像位置情報を含み、
 前記補正部は、前記撮像位置情報に基づいて前記予測画像を補正する際に用いる補正係数と前記視点生成情報とを用いて前記予測画像を補正し、
 前記伝送部は、前記補正係数を、前記符号化パラメータとして伝送する
 前記(2)に記載の符号化装置。
 (5)
 前記補正部は、前記補正係数を設定する
 前記(3)または(4)に記載の符号化装置。
 (6)
 前記符号化部は、前記基準視点の視差画像を、階層構造を有する単位で符号化する
 前記(1)乃至(5)のいずれかに記載の符号化装置。
 (7)
 前記基準視点の視差画像の予測画像を生成する予測画像生成部
 をさらに備える
 前記(1)乃至(6)のいずれかに記載の符号化装置。
 (8)
 符号化装置が、
 基準視点の視差画像に関する情報を用いて、前記基準視点の視差画像の予測画像を補正する補正ステップと、
 前記補正ステップの処理により補正された前記予測画像を用いて、前記基準視点の視差画像を符号化する符号化ステップと、
 前記符号化ステップの処理により符号化された前記基準視点の視差画像と前記基準視点の視差画像に関する情報とを伝送する伝送ステップと
 を含む符号化方法。
 (9)
 基準視点の視差画像に関する情報を用いて補正された前記基準視点の視差画像の予測画像を用いて符号化された前記基準視点の視差画像と、前記基準視点の視差画像に関する情報とを受け取る受け取り部と、
 前記受け取り部により受け取られた前記基準視点の視差画像に関する情報を用いて、前記基準視点の視差画像の予測画像を補正する補正部と、
 前記補正部により補正された前記予測画像を用いて、前記受け取り部により受け取られた、符号化された前記基準視点の視差画像を復号する復号部と
 を備える復号装置。
 (10)
 前記復号部により復号された前記基準視点の視差画像と、前記基準視点のカラー画像とを用いて、前記基準視点と異なる視点のカラー画像を生成するカラー画像生成部
 をさらに備え、
 前記基準視点の視差画像に関する情報は、前記基準視点のカラー画像と前記基準視点の視差画像を用いて前記基準視点と異なる視点のカラー画像を生成する際に用いる情報である視点生成情報を含み、
 前記受け取り部は、符号化された前記基準視点の視差画像を復号する際に用いる符号化パラメータとして伝送される前記視点生成情報を受け取り、
 前記カラー画像生成部は、前記復号部により復号された前記基準視点の視差画像と、前記基準視点のカラー画像と、前記受け取り部により受け取られた前記視点生成情報とを用いて、前記基準視点と異なる視点のカラー画像を生成する
 前記(9)に記載の復号装置。
 (11)
 前記受け取り部は、前記符号化パラメータとして伝送される符号化時に前記予測画像の補正に用いられた補正係数を受け取り、
 前記補正係数は、前記視点生成情報に基づいて生成され、
 前記補正部は、前記受け取り部により受け取られた前記補正係数を用いて、前記予測画像を補正する
 前記(10)に記載の復号装置。
 (12)
 前記基準視点の視差画像に関する情報は、前記基準視点のカラー画像を撮像する撮像部の奥行方向の撮像位置を表す撮像位置情報を含み、
 前記受け取り部は、前記符号化パラメータとして伝送される符号化時に前記予測画像の補正に用いられた補正係数を受け取り、
 前記補正部は、前記受け取り部により受け取られた前記補正係数と前記視点生成情報を用いて、前記予測画像を補正する
 前記(10)に記載の復号装置。
 (13)
 前記補正係数は、前記視点生成情報に基づいて設定される
 前記(12)に記載の復号装置。
 (14)
 前記基準視点の視差画像は、階層構造を有する単位で符号化される
 前記(9)乃至(13)のいずれかに記載の復号装置。
 (15)
 前記基準視点の視差画像の予測画像を生成する予測画像生成部
 をさらに備える
 前記(9)乃至(14)のいずれかに記載の復号装置。
 (16)
 復号装置が、
 基準視点の視差画像に関する情報を用いて補正された前記基準視点の視差画像の予測画像を用いて符号化された前記基準視点の視差画像と、前記基準視点の視差画像に関する情報とを受け取る受け取りステップと、
 前記受け取りステップの処理により受け取られた前記基準視点の視差画像に関する情報を用いて、前記基準視点の視差画像の予測画像を補正する補正ステップと、
 前記補正ステップの処理により補正された前記予測画像を用いて、前記受け取りステップの処理により受け取られた、符号化された前記基準視点の視差画像を復号する復号ステップと
 を含む復号方法。
 50 符号化装置, 64 SPS符号化部, 123 演算部, 134 動き予測・補償部, 135 補正部, 150 復号装置, 152 視点合成部, 171 SPS復号部, 255 加算部, 262 動き補償部, 263 補正部

Claims (16)

  1.  基準視点の視差画像に関する情報を用いて、前記基準視点の視差画像の予測画像を補正する補正部と、
     前記補正部により補正された前記予測画像を用いて、前記基準視点の視差画像を符号化する符号化部と、
     前記符号化部により符号化された前記基準視点の視差画像と前記基準視点の視差画像に関する情報とを伝送する伝送部と
     を備える符号化装置。
  2.  前記基準視点の視差画像に関する情報は、前記基準視点のカラー画像と前記基準視点の視差画像を用いて前記基準視点と異なる視点のカラー画像を生成する際に用いる情報である視点生成情報を含み、
     前記伝送部は、前記視点生成情報を、前記基準視点の視差画像を符号化する際に用いる符号化パラメータとして伝送する
     請求項1に記載の符号化装置。
  3.  前記補正部は、前記視点生成情報に基づいて前記予測画像を補正する際に用いる補正係数を用いて、前記予測画像を補正し、
     前記伝送部は、前記補正係数を、前記符号化パラメータとして伝送する
     請求項2に記載の符号化装置。
  4.  前記基準視点の視差画像に関する情報は、前記基準視点のカラー画像を撮像する撮像部の奥行方向の撮像位置を表す撮像位置情報を含み、
     前記補正部は、前記撮像位置情報に基づいて前記予測画像を補正する際に用いる補正係数と前記視点生成情報とを用いて前記予測画像を補正し、
     前記伝送部は、前記補正係数を、前記符号化パラメータとして伝送する
     請求項2に記載の符号化装置。
  5.  前記補正部は、前記補正係数を設定する
     請求項4に記載の符号化装置。
  6.  前記符号化部は、前記基準視点の視差画像を、階層構造を有する単位で符号化する
     請求項5に記載の符号化装置。
  7.  前記基準視点の視差画像の予測画像を生成する予測画像生成部
     をさらに備える
     請求項1に記載の符号化装置。
  8.  符号化装置が、
     基準視点の視差画像に関する情報を用いて、前記基準視点の視差画像の予測画像を補正する補正ステップと、
     前記補正ステップの処理により補正された前記予測画像を用いて、前記基準視点の視差画像を符号化する符号化ステップと、
     前記符号化ステップの処理により符号化された前記基準視点の視差画像と前記基準視点の視差画像に関する情報とを伝送する伝送ステップと
     を含む符号化方法。
  9.  基準視点の視差画像に関する情報を用いて補正された前記基準視点の視差画像の予測画像を用いて符号化された前記基準視点の視差画像と、前記基準視点の視差画像に関する情報とを受け取る受け取り部と、
     前記受け取り部により受け取られた前記基準視点の視差画像に関する情報を用いて、前記基準視点の視差画像の予測画像を補正する補正部と、
     前記補正部により補正された前記予測画像を用いて、前記受け取り部により受け取られた、符号化された前記基準視点の視差画像を復号する復号部と
     を備える復号装置。
  10.  前記復号部により復号された前記基準視点の視差画像と、前記基準視点のカラー画像とを用いて、前記基準視点と異なる視点のカラー画像を生成するカラー画像生成部
     をさらに備え、
     前記基準視点の視差画像に関する情報は、前記基準視点のカラー画像と前記基準視点の視差画像を用いて前記基準視点と異なる視点のカラー画像を生成する際に用いる情報である視点生成情報を含み、
     前記受け取り部は、符号化された前記基準視点の視差画像を復号する際に用いる符号化パラメータとして伝送される前記視点生成情報を受け取り、
     前記カラー画像生成部は、前記復号部により復号された前記基準視点の視差画像と、前記基準視点のカラー画像と、前記受け取り部により受け取られた前記視点生成情報とを用いて、前記基準視点と異なる視点のカラー画像を生成する
     請求項9に記載の復号装置。
  11.  前記受け取り部は、前記符号化パラメータとして伝送される符号化時に前記予測画像の補正に用いられた補正係数を受け取り、
     前記補正係数は、前記視点生成情報に基づいて生成され、
     前記補正部は、前記受け取り部により受け取られた前記補正係数を用いて、前記予測画像を補正する
     請求項10に記載の復号装置。
  12.  前記基準視点の視差画像に関する情報は、前記基準視点のカラー画像を撮像する撮像部の奥行方向の撮像位置を表す撮像位置情報を含み、
     前記受け取り部は、前記符号化パラメータとして伝送される符号化時に前記予測画像の補正に用いられた補正係数を受け取り、
     前記補正部は、前記受け取り部により受け取られた前記補正係数と前記視点生成情報を用いて、前記予測画像を補正する
     請求項10に記載の復号装置。
  13.  前記補正係数は、前記視点生成情報に基づいて設定される
     請求項12に記載の復号装置。
  14.  前記基準視点の視差画像は、階層構造を有する単位で符号化される
     請求項13に記載の復号装置。
  15.  前記基準視点の視差画像の予測画像を生成する予測画像生成部
     をさらに備える
     請求項9に記載の復号装置。
  16.  復号装置が、
     基準視点の視差画像に関する情報を用いて補正された前記基準視点の視差画像の予測画像を用いて符号化された前記基準視点の視差画像と、前記基準視点の視差画像に関する情報とを受け取る受け取りステップと、
     前記受け取りステップの処理により受け取られた前記基準視点の視差画像に関する情報を用いて、前記基準視点の視差画像の予測画像を補正する補正ステップと、
     前記補正ステップの処理により補正された前記予測画像を用いて、前記受け取りステップの処理により受け取られた、符号化された前記基準視点の視差画像を復号する復号ステップと
     を含む復号方法。
PCT/JP2012/071028 2011-08-31 2012-08-21 符号化装置および符号化方法、復号装置および復号方法 WO2013031573A1 (ja)

Priority Applications (11)

Application Number Priority Date Filing Date Title
MX2016004999A MX358407B (es) 2011-08-31 2012-08-21 Dispositivo de codificacion, metodo de codificacion, dispositivo de descodificacion y metodo de descodificacion.
US14/239,581 US9900595B2 (en) 2011-08-31 2012-08-21 Encoding device, encoding method, decoding device, and decoding method
BR112014004062A BR112014004062A2 (pt) 2011-08-31 2012-08-21 dispositivos e métodos de codificação e decodificação
AU2012303085A AU2012303085A1 (en) 2011-08-31 2012-08-21 Encoding device, encoding method, decoding device, and decoding method
CN201280040938.5A CN103748883B (zh) 2011-08-31 2012-08-21 编码设备、编码方法、解码设备和解码方法
EP12828710.9A EP2753080A4 (en) 2011-08-31 2012-08-21 ENCODING DEVICE, ENCODING METHOD, DECODING DEVICE, AND DECODING METHOD
RU2014106532/07A RU2597256C2 (ru) 2011-08-31 2012-08-21 Устройство кодирования, способ кодирования, устройство декодирования и способ декодирования
KR1020147003885A KR20140057269A (ko) 2011-08-31 2012-08-21 부호화 장치 및 부호화 방법, 복호 장치 및 복호 방법
MX2014002066A MX338738B (es) 2011-08-31 2012-08-21 Dispositivo de codificaicon, metodo de codificacion, dispositivo de descodificacion y metodo de descodificacion.
CA2842150A CA2842150A1 (en) 2011-08-31 2012-08-21 Encoding device, encoding method, decoding device, and decoding method
ZA2014/00565A ZA201400565B (en) 2011-08-31 2014-01-23 Encoding device,encoding method,decoding device,and decoding method

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2011188995 2011-08-31
JP2011-188995 2011-08-31
JP2011-253173 2011-11-18
JP2011253173 2011-11-18

Publications (1)

Publication Number Publication Date
WO2013031573A1 true WO2013031573A1 (ja) 2013-03-07

Family

ID=47756067

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/071028 WO2013031573A1 (ja) 2011-08-31 2012-08-21 符号化装置および符号化方法、復号装置および復号方法

Country Status (11)

Country Link
US (1) US9900595B2 (ja)
EP (1) EP2753080A4 (ja)
KR (1) KR20140057269A (ja)
CN (1) CN103748883B (ja)
AU (1) AU2012303085A1 (ja)
BR (1) BR112014004062A2 (ja)
CA (1) CA2842150A1 (ja)
MX (2) MX338738B (ja)
RU (2) RU2597256C2 (ja)
WO (1) WO2013031573A1 (ja)
ZA (1) ZA201400565B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9445092B2 (en) * 2011-03-18 2016-09-13 Sony Corporation Image processing apparatus, image processing method, and program
CN107197227B (zh) 2011-03-18 2019-05-10 索尼公司 图像处理设备、图像处理方法和计算机可读存储介质
BR122015001002B1 (pt) 2011-06-30 2022-07-26 Sony Corporation Dispositivo e método de processamento de imagem
CN105519105B (zh) * 2013-09-11 2019-03-08 索尼公司 图像处理设备及方法
US10638130B1 (en) * 2019-04-09 2020-04-28 Google Llc Entropy-inspired directional filtering for image coding

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002058031A (ja) * 2000-08-08 2002-02-22 Nippon Telegr & Teleph Corp <Ntt> 画像符号化方法及び装置、並びに、画像復号化方法及び装置
JP2010506287A (ja) * 2006-10-04 2010-02-25 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 画像強調
JP2011511597A (ja) * 2008-02-05 2011-04-07 トムソン ライセンシング ビデオ符号化および復号におけるインプリシットなブロック分割のための方法および装置
JP2011512067A (ja) * 2008-01-21 2011-04-14 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 予測に基づく画像処理

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7489342B2 (en) * 2004-12-17 2009-02-10 Mitsubishi Electric Research Laboratories, Inc. Method and system for managing reference pictures in multiview videos
JP2007166381A (ja) * 2005-12-15 2007-06-28 Univ Of Tokyo 多視点画像の圧縮符号化方法及び復号化方法
ZA200805337B (en) * 2006-01-09 2009-11-25 Thomson Licensing Method and apparatus for providing reduced resolution update mode for multiview video coding
KR101031624B1 (ko) * 2006-09-20 2011-04-27 니폰덴신뎅와 가부시키가이샤 화상 부호화 방법 및 복호 방법, 그 장치 및 그 프로그램을 기록한 기억매체
CN101222639B (zh) * 2007-01-09 2010-04-21 华为技术有限公司 多视点视频技术中的视间预测方法、编码器和解码器
JP4706068B2 (ja) 2007-04-13 2011-06-22 国立大学法人名古屋大学 画像情報処理方法及び画像情報処理システム
JP4952657B2 (ja) 2007-07-19 2012-06-13 株式会社Jvcケンウッド 擬似立体画像生成装置、画像符号化装置、画像符号化方法、画像伝送方法、画像復号化装置及び画像復号化方法
CN101785317B (zh) * 2007-08-15 2013-10-16 汤姆逊许可证公司 使用区域视差向量的多视角编码视频中的运动跳过模式的方法和装置
CN101415115B (zh) * 2007-10-15 2011-02-02 华为技术有限公司 基于运动跳跃模式的视频编解码方法及其编解码器
WO2009091383A2 (en) 2008-01-11 2009-07-23 Thomson Licensing Video and depth coding
WO2010021666A1 (en) 2008-08-20 2010-02-25 Thomson Licensing Refined depth map
WO2010050728A2 (ko) 2008-10-27 2010-05-06 엘지전자 주식회사 가상 뷰 이미지 합성 방법 및 장치
KR101625058B1 (ko) 2008-11-10 2016-05-27 엘지전자 주식회사 시점간 예측을 이용한 비디오 신호 처리 방법 및 장치
EP2365694B1 (en) 2008-11-18 2017-01-04 LG Electronics Inc. Method and apparatus for processing image signal
CA2745392C (en) 2008-12-18 2016-07-12 Lg Electronics Inc. Method for 3d image signal processing and image display for implementing the same
JP4821846B2 (ja) 2008-12-26 2011-11-24 日本ビクター株式会社 画像符号化装置、画像符号化方法およびそのプログラム
KR101619450B1 (ko) 2009-01-12 2016-05-10 엘지전자 주식회사 뎁스 정보를 이용한 비디오 신호 처리 방법 및 장치
KR101630866B1 (ko) 2009-01-20 2016-06-16 코닌클리케 필립스 엔.브이. 3d 이미지 데이터의 전송
US9196059B2 (en) 2009-01-29 2015-11-24 Lg Electronics Inc. Method and apparatus for processing video signals using boundary intra coding
JP5436458B2 (ja) 2009-02-12 2014-03-05 日本電信電話株式会社 多視点画像符号化方法、多視点画像復号方法、多視点画像符号化装置、多視点画像復号装置、多視点画像符号化プログラムおよび多視点画像復号プログラム
JP5290864B2 (ja) 2009-05-18 2013-09-18 キヤノン株式会社 位置姿勢推定装置及び方法
US9124874B2 (en) 2009-06-05 2015-09-01 Qualcomm Incorporated Encoding of three-dimensional conversion information with two-dimensional video sequence
US10021377B2 (en) 2009-07-27 2018-07-10 Koninklijke Philips N.V. Combining 3D video and auxiliary data that is provided when not reveived
US8436893B2 (en) * 2009-07-31 2013-05-07 3Dmedia Corporation Methods, systems, and computer-readable storage media for selecting image capture positions to generate three-dimensional (3D) images
JP2011061486A (ja) 2009-09-10 2011-03-24 Kyocera Corp 弾性表面波素子
KR101807886B1 (ko) 2009-10-14 2017-12-11 돌비 인터네셔널 에이비 깊이 맵 처리를 위한 방법 및 디바이스
US8537200B2 (en) 2009-10-23 2013-09-17 Qualcomm Incorporated Depth map generation techniques for conversion of 2D video data to 3D video data
JP5505154B2 (ja) 2010-07-16 2014-05-28 ソニー株式会社 画像処理装置と画像処理方法
JP2012023652A (ja) 2010-07-16 2012-02-02 Sony Corp 画像処理装置と画像処理方法
KR101913993B1 (ko) 2010-08-11 2018-10-31 지이 비디오 컴프레션, 엘엘씨 멀티-뷰 신호 코덱
US10404998B2 (en) 2011-02-22 2019-09-03 Sun Patent Trust Moving picture coding method, moving picture coding apparatus, moving picture decoding method, and moving picture decoding apparatus
CN103430557A (zh) 2011-03-18 2013-12-04 索尼公司 图像处理设备和图像处理方法
CN107197227B (zh) 2011-03-18 2019-05-10 索尼公司 图像处理设备、图像处理方法和计算机可读存储介质
US20140085418A1 (en) 2011-05-16 2014-03-27 Sony Corporation Image processing device and image processing method
US20140104383A1 (en) 2011-06-22 2014-04-17 Sony Corporation Image processing device and method
BR122015001002B1 (pt) 2011-06-30 2022-07-26 Sony Corporation Dispositivo e método de processamento de imagem
JP2013034171A (ja) 2011-06-30 2013-02-14 Sony Corp 画像処理装置および方法
US9191646B2 (en) 2011-08-29 2015-11-17 Nokia Technologies Oy Apparatus, a method and a computer program for video coding and decoding
WO2013031575A1 (ja) 2011-08-31 2013-03-07 ソニー株式会社 画像処理装置および画像処理方法
CN104601976A (zh) 2012-01-31 2015-05-06 索尼公司 图像处理装置和图像处理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002058031A (ja) * 2000-08-08 2002-02-22 Nippon Telegr & Teleph Corp <Ntt> 画像符号化方法及び装置、並びに、画像復号化方法及び装置
JP2010506287A (ja) * 2006-10-04 2010-02-25 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 画像強調
JP2011512067A (ja) * 2008-01-21 2011-04-14 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 予測に基づく画像処理
JP2011511597A (ja) * 2008-02-05 2011-04-07 トムソン ライセンシング ビデオ符号化および復号におけるインプリシットなブロック分割のための方法および装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Call for Proposals on 3D Video Coding Technology", ISO/IEC JTC1/SC29/WG11, March 2011 (2011-03-01)
KWAN-JUNG OH ET AL.: "Non-linear Bi-directional Prediction for Depth Coding", ADVANCES IN MULTIMEDIA INFORMATION PROCESSING - PCM 2009, vol. 5879, 15 December 2009 (2009-12-15), BERLIN HEIDELBERG, pages 522 - 531, XP019134927 *
See also references of EP2753080A4 *
THOMAS WIEGAND; WOO-JIN HAN; BENJAMIN BROSS; JENS-RAINER OHM; GARY J. SULLIVIAN: "WD3: Working Draft 3 of High-Efficiency Video Coding", JCTVC-E603 D5 (VERSION5, 20 May 2011 (2011-05-20)

Also Published As

Publication number Publication date
MX358407B (es) 2018-08-20
CN103748883B (zh) 2017-12-15
RU2597256C2 (ru) 2016-09-10
EP2753080A4 (en) 2015-04-29
EP2753080A1 (en) 2014-07-09
MX338738B (es) 2016-04-29
ZA201400565B (en) 2014-08-27
AU2012303085A1 (en) 2014-01-30
US20140198847A1 (en) 2014-07-17
CA2842150A1 (en) 2013-03-07
RU2014106532A (ru) 2015-08-27
MX2014002066A (es) 2014-09-25
CN103748883A (zh) 2014-04-23
RU2016120771A (ru) 2018-11-14
KR20140057269A (ko) 2014-05-12
BR112014004062A2 (pt) 2017-03-07
US9900595B2 (en) 2018-02-20

Similar Documents

Publication Publication Date Title
JP6580648B2 (ja) 画像処理装置および記録媒体
WO2013031575A1 (ja) 画像処理装置および画像処理方法
JP5954587B2 (ja) 画像処理装置および方法
AU2013281945B2 (en) Image processing device and method
US9350972B2 (en) Encoding device and encoding method, and decoding device and decoding method
WO2013115024A1 (ja) 画像処理装置および画像処理方法
WO2012128070A1 (ja) 画像処理装置および画像処理方法
US8810628B2 (en) Image processing apparatus and image processing method
EP2876875A1 (en) Image processing device and method
US20130259131A1 (en) Image processing apparatus and method
WO2012176684A1 (ja) 画像処理装置および方法
WO2013031574A1 (ja) 画像処理装置および方法
WO2013031573A1 (ja) 符号化装置および符号化方法、復号装置および復号方法
TW201342884A (zh) 編碼裝置及編碼方法、以及解碼裝置及解碼方法
WO2012128241A1 (ja) 画像処理装置、画像処理方法、及び、プログラム
TWI545935B (zh) Encoding apparatus and an encoding method, a decoding apparatus and decoding method
WO2013154029A1 (ja) 復号装置および復号方法、並びに、符号化装置および符号化方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12828710

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2842150

Country of ref document: CA

WWE Wipo information: entry into national phase

Ref document number: 2012828710

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2012303085

Country of ref document: AU

Date of ref document: 20120821

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 20147003885

Country of ref document: KR

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14239581

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2014106532

Country of ref document: RU

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: MX/A/2014/002066

Country of ref document: MX

NENP Non-entry into the national phase

Ref country code: DE

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112014004062

Country of ref document: BR

ENP Entry into the national phase

Ref document number: 112014004062

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20140221