WO2012008351A1 - 画像処理装置と画像処理方法 - Google Patents

画像処理装置と画像処理方法 Download PDF

Info

Publication number
WO2012008351A1
WO2012008351A1 PCT/JP2011/065560 JP2011065560W WO2012008351A1 WO 2012008351 A1 WO2012008351 A1 WO 2012008351A1 JP 2011065560 W JP2011065560 W JP 2011065560W WO 2012008351 A1 WO2012008351 A1 WO 2012008351A1
Authority
WO
WIPO (PCT)
Prior art keywords
picture
feature amount
image
correlation
unit
Prior art date
Application number
PCT/JP2011/065560
Other languages
English (en)
French (fr)
Inventor
良知 高橋
鈴木 輝彦
北村 卓也
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US13/703,663 priority Critical patent/US20130088570A1/en
Priority to EP11806681.0A priority patent/EP2566167A4/en
Priority to KR20137000458A priority patent/KR20130117749A/ko
Priority to CN2011800340239A priority patent/CN102986234A/zh
Publication of WO2012008351A1 publication Critical patent/WO2012008351A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/573Motion compensation with multiple frame prediction using two or more reference frames in a given prediction direction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/58Motion compensation with long-term prediction, i.e. the reference frame for a current frame not being the temporally closest one
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Definitions

  • the present invention relates to an image processing apparatus and an image processing method. Specifically, an object is to improve the encoding efficiency in encoding a multi-viewpoint image.
  • MPEG2 ISO / IEC13818-2
  • MPEG2 ISO / IEC13818-2
  • H.D. Advanced Video Coding
  • the amount of information is compressed by reducing redundancy in the time direction and the space direction.
  • a prediction image is generated using correlation between pixels.
  • a motion vector is detected in block units with reference to the preceding image, and a predicted image is detected using the detected motion vector. Generation has been done.
  • a motion vector is detected in block units with reference to the front and rear pictures, and a predicted image is generated using the detected motion vector.
  • the first reference picture is referred to as an L0 prediction reference picture
  • the second reference picture is referred to as an L1 prediction reference picture.
  • the H.264 / AVC format allows a reference picture to be selected from a plurality of already encoded pictures.
  • the selected reference picture is managed by a reference index.
  • the reference index is used as information indicating which picture the detected motion vector refers to, and is encoded together with information indicating the detected motion vector.
  • the reference index is set to a value of 0 or more. Further, the smaller the value of the reference index, the smaller the information amount (code amount) after encoding. Furthermore, the reference index assignment to the reference picture can be freely set. Therefore, by assigning a reference index with a small number to a reference picture with a large number of referenced motion vectors, it is possible to reduce the amount of code when the reference index is encoded and to improve the encoding efficiency. .
  • Patent Document 1 when field coding is performed on an interlaced scanning 2D image, a reference index having a small value is assigned to a reference picture that is close in time to the encoding target picture. It has been broken.
  • FS frame sequential
  • MVC multiview video coding
  • FIG. 1 shows a conventional reference index assigning method, for example, a reference index assigning method for encoding moving image data of two viewpoints by MVC.
  • Cam0 is image data of the left eye image
  • Cam1 is image data of the right eye image.
  • the Cam1 image data is defined as dependent-view image data that is encoded using the Cam0 image data as reference picture image data.
  • the Cam0 image data referred to when the dependent-view image data is encoded is referred to as base-view image data.
  • the P picture in the Cam1 image data includes, for example, a Cam1 P picture referenced by temporal prediction as indicated by a solid arrow, and a Cam0 I picture or P picture referenced by parallax prediction as indicated by a dotted arrow. Let it be a reference picture.
  • an object of the present invention is to provide an image processing apparatus and an image processing method that can improve the encoding efficiency in encoding multi-viewpoint images.
  • a feature amount generation unit that generates a feature amount indicating a correlation between images with different viewpoints, and a threshold value that the correlation is set in advance based on the feature amount generated by the feature amount generation unit
  • Reference index assignment that replaces a reference index assigned to a reference picture for disparity prediction that uses correlation between images of different viewpoints with a reference picture for temporal prediction that uses correlation between images in the temporal direction when it is determined to be lower
  • An image processing apparatus having a unit.
  • the feature amount generation unit detects a feature amount indicating a correlation between images with different viewpoints, for example, a coding target block when a disparity vector is detected in the encoding process of the first picture of the GOP. At least one of a total value of errors in the image, a ratio of intra macroblocks in the image, and a ratio of image complexity between the encoding target picture and a reference picture having a different viewpoint is calculated as a feature amount. Based on this feature amount, a reference index is assigned to a reference picture for disparity prediction that uses correlation between images with different viewpoints and a reference picture for temporal prediction that uses correlation between images in the temporal direction.
  • the reference index assignment is changed, and the reference index assigned to the reference picture for disparity prediction is replaced with the reference picture for temporal prediction. Further, when it is determined that the correlation is lower than a preset threshold value, a change to a GOP structure in which a non-reference picture adjacent in the time direction is a reference picture is performed.
  • a feature amount generation step for generating a feature amount indicating a correlation between images having different viewpoints, and a threshold value in which the correlation is set in advance based on the feature amount generated in the feature amount generation step.
  • Reference index assignment that replaces a reference index assigned to a reference picture for disparity prediction that uses correlation between images of different viewpoints with a reference picture for temporal prediction that uses correlation between images in the temporal direction when it is determined to be lower
  • an image processing method comprising the steps.
  • a feature amount indicating a correlation between images with different viewpoints is generated, and when it is determined that the correlation is lower than a preset threshold based on the feature amount, the correlation between images with different viewpoints is
  • the reference index to be assigned to the reference picture for disparity prediction using is replaced with the reference picture for temporal prediction using the correlation between images in the temporal direction. Therefore, in the encoding of multi-viewpoint images, it is possible to improve the encoding efficiency when the correlation between images with different viewpoints is low.
  • FIG. 2 is a diagram showing a configuration example of an encoding system to which the present invention is applied.
  • the encoding system 10 includes a left viewpoint image generation device 11L, a right viewpoint image generation device 11R, and a multi-viewpoint encoding device 20.
  • the left viewpoint image generation device 11L is an imaging device or an image data generation device that generates image data of a left eye image.
  • the right viewpoint image generation device 11R is an imaging device or an image data generation device that generates a right eye image.
  • the left viewpoint image generation device 11L and the right viewpoint image generation device 11R operate in synchronization.
  • the image data of the left eye image generated by the left viewpoint image generation device 11L and the image data of the right eye image generated by the right viewpoint image generation device 11R are input to the multi-viewpoint encoding device 20.
  • the multi-viewpoint encoding device 20 encodes the image data of the left eye image and the image data of the right eye image, multiplexes the obtained encoded data, and outputs the multiplexed data as one bit stream.
  • the multi-viewpoint encoding apparatus 20 includes an image processing apparatus that encodes, for example, image data of a left eye image input from the left viewpoint image generation apparatus 11L as base view image data.
  • the multi-viewpoint encoding apparatus 20 includes the image processing apparatus of the present invention that encodes, for example, image data of the right eye image input from the right viewpoint image generation apparatus 11R as dependent view image data.
  • base view image data is temporally predicted without using an image of another viewpoint as a reference picture
  • dependent view image data is temporal prediction and parallax prediction using the base view image as a reference picture. .
  • the image processing apparatus of the present invention will be described.
  • the image data of the left-eye image and the right-eye image are independent, and the image processing apparatus that encodes the dependent-view image data encodes the base-view image data.
  • image data of a reference picture used for parallax prediction is acquired from an image processing device will be described.
  • An image processing apparatus that encodes dependent-view image data generates a feature amount corresponding to a correlation between screens having different viewpoints, that is, a dependent-view image and a base-view image used as a reference picture. Further, based on the generated feature amount, a reference index is assigned to a reference picture for disparity prediction that uses correlation between images with different viewpoints and a reference picture for temporal prediction that uses correlation between images in the temporal direction.
  • FIG. 3 shows a configuration of an image encoding device 20dv, which is an image processing device that encodes dependent-view image data.
  • the image encoding device 20dv includes an analog / digital conversion unit (A / D conversion unit) 21, a screen rearrangement buffer 22, a subtraction unit 23, an orthogonal transformation unit 24, a quantization unit 25, a lossless encoding unit 26, and a storage buffer 27.
  • the rate control unit 28 is provided.
  • the image encoding device 20 dv includes an inverse quantization unit 31, an inverse orthogonal transform unit 32, an addition unit 33, a deblocking filter 34, and a frame memory 35.
  • the image encoding device 20 dv includes a reference index assignment unit 45, an intra prediction unit 51, a motion / disparity prediction compensation unit 52, and a predicted image / optimum mode selection unit 53.
  • the A / D converter 21 converts an analog image signal into digital image data and outputs it to the screen rearrangement buffer 22.
  • the screen rearrangement buffer 22 rearranges the frames of the image data output from the A / D conversion unit 21.
  • the screen rearrangement buffer 22 rearranges frames according to the GOP (Group of Pictures) structure related to the encoding process, and subtracts the intra-prediction unit 23, the intra prediction unit 51, and motion / disparity prediction compensation for the rearranged image data. To the unit 52.
  • GOP Group of Pictures
  • the subtraction unit 23 is supplied with the image data output from the screen rearrangement buffer 22 and the predicted image data selected by the predicted image / optimum mode selection unit 53 described later.
  • the subtraction unit 23 calculates prediction error data that is a difference between the image data output from the screen rearrangement buffer 22 and the prediction image data supplied from the prediction image / optimum mode selection unit 53, and sends the prediction error data to the orthogonal transformation unit 24. Output.
  • the orthogonal transform unit 24 performs orthogonal transform processing such as discrete cosine transform (DCT; Discrete Cosine Transform), Karoonen-Labe transform, etc. on the prediction error data output from the subtracting unit 23.
  • the orthogonal transform unit 24 outputs transform coefficient data obtained by performing the orthogonal transform process to the quantization unit 25.
  • the quantization unit 25 is supplied with transform coefficient data output from the orthogonal transform unit 24 and a rate control signal from a rate control unit 28 described later.
  • the quantization unit 25 quantizes the transform coefficient data and outputs the quantized data to the lossless encoding unit 26 and the inverse quantization unit 31. Further, the quantization unit 25 changes the bit rate of the quantized data by switching the quantization parameter (quantization scale) based on the rate control signal from the rate control unit 28.
  • the lossless encoding unit 26 is supplied with the quantized data output from the quantization unit 25 and prediction mode information from an intra prediction unit 51, a motion / disparity prediction compensation unit 52, and a predicted image / optimum mode selection unit 53, which will be described later. Is done.
  • the prediction mode information includes a macroblock type indicating the block size of the encoding target picture, a prediction mode, a reference index, and the like.
  • the lossless encoding unit 26 performs an encoding process on the quantized data by, for example, variable length encoding or arithmetic encoding, generates an encoded stream, and outputs the encoded stream to the accumulation buffer 27.
  • the lossless encoding unit 26 performs lossless encoding of the prediction mode information and adds it to, for example, header information of the encoded stream.
  • the accumulation buffer 27 accumulates the encoded stream from the lossless encoding unit 26.
  • the accumulation buffer 27 outputs the accumulated encoded stream at a transmission rate corresponding to the transmission path.
  • the rate control unit 28 monitors the free capacity of the accumulation buffer 27, generates a rate control signal according to the free capacity, and outputs it to the quantization unit 25.
  • the rate control unit 28 acquires information indicating the free space from the accumulation buffer 27, for example.
  • the rate control unit 28 reduces the bit rate of the quantized data by the rate control signal when the free space is low. Further, when the free capacity of the storage buffer 27 is sufficiently large, the rate control unit 28 increases the bit rate of the quantized data by the rate control signal.
  • the inverse quantization unit 31 performs an inverse quantization process on the quantized data supplied from the quantization unit 25.
  • the inverse quantization unit 31 outputs transform coefficient data obtained by performing the inverse quantization process to the inverse orthogonal transform unit 32.
  • the inverse orthogonal transform unit 32 outputs the data obtained by performing the inverse orthogonal transform process on the transform coefficient data supplied from the inverse quantization unit 31 to the addition unit 33.
  • the adding unit 33 adds the data supplied from the inverse orthogonal transform unit 32 and the predicted image data supplied from the predicted image / optimum mode selection unit 53 to generate image data of a reference picture, and the image data is decoded. The result is output to the blocking filter 34 and the intra prediction unit 51.
  • the deblocking filter 34 performs a filter process for reducing block distortion that occurs during image coding.
  • the deblocking filter 34 performs a filter process for removing block distortion from the image data supplied from the adder 33, and outputs the image data after the filter process to the frame memory 35.
  • the frame memory 35 holds the image data after the filtering process supplied from the deblocking filter 34 and the image data of the reference picture supplied from the image encoding device 20bv that performs base view encoding.
  • the feature value generation unit 41 generates feature values.
  • the feature amount is information for determining whether or not the correlation between images with different viewpoints is low when the image data of the dependent view is encoded.
  • the feature quantity generation unit 41 generates a feature quantity from information obtained when encoding the first picture in the GOP.
  • the feature quantity generation unit 41 calculates, for example, a total value (for example, an error in an image between a block of a coding target picture (coding target block) and a block of a reference picture (reference block) when a disparity vector is detected as a feature quantity (for example, SAD: Sum of Absolute Differences) is used.
  • the feature quantity generation unit 41 may use, for example, the ratio of intra macroblocks in an image or the complexity ratio of an image to be encoded and a reference picture having a different viewpoint as the feature quantity.
  • the feature amount generation unit 41 adds up the errors calculated in the motion / disparity prediction compensation unit 52 described later in the image as the feature amount. .
  • the feature amount generation unit 41 uses a predicted image / optimum mode selection unit 53 (to be described later) in an image of a macroblock that has been determined that the optimal mode in parallax prediction is intra prediction.
  • the ratio is calculated as a feature amount.
  • Xp SpQp (2)
  • Equation (1) Xi is the complexity of the I picture, Si is the generated code amount of the I picture, and Qi is the average quantization scale code (quantization parameter) when the I picture is encoded.
  • Equation (2) Xp is the complexity of the P picture, Sp is the generated code amount of the P picture, and Qp is the average quantization scale code (quantization parameter) when the P picture is encoded.
  • the feature quantity generation unit 41 calculates the total value of errors between the encoding target block and the reference block in the image, the ratio of intra macroblocks in the image, and the image of the encoding target picture and the reference picture having a different viewpoint.
  • the generated feature amount is output to the reference index assigning unit 45 using at least one of the complexity ratios as a feature amount.
  • the reference index assigning unit 45 determines a reference index assigning method for a reference picture for disparity prediction and a reference picture for temporal prediction based on the feature amount generated by the feature amount generating unit 41. For example, when the feature amount is generated from the information obtained when the encoding process of the leading picture in the GOP is performed, the reference index allocating unit 45 in the subsequent picture in the GOP (other pictures other than the leading picture) Decide how to assign a reference index. The reference index assigning unit 45 assigns a reference index to the reference picture stored in the frame memory 35 by the determined assignment method.
  • the reference index assignment unit 45 determines that the correlation is low when the total value is larger than a preset threshold value. To do. Further, when the ratio of intra macroblocks is generated as the feature amount, the reference index assigning unit 45 determines that the correlation is low when the ratio is larger than a preset threshold value. Further, when the complexity ratio is generated as the feature amount, the reference index assignment unit 45 determines that the correlation is low when the complexity ratio (Xi / Xp) is smaller than a preset threshold value. .
  • the reference index assignment unit 45 determines that the correlation is lower than a preset threshold, the reference index assignment unit 45 changes the reference index assignment and replaces the reference index assigned to the reference picture for disparity prediction with the reference picture for temporal prediction.
  • the intra prediction unit 51 uses the image data of the encoding target picture output from the screen rearrangement buffer 22 and the image data supplied from the addition unit 33 to perform intra prediction processing in all candidate intra prediction modes. . Furthermore, the intra prediction unit 51 calculates a cost function value for each intra prediction mode, and optimizes the intra prediction mode in which the calculated cost function value is minimum, that is, the intra prediction mode in which the encoding efficiency is the best. Select as the intra prediction mode. The intra prediction unit 51 outputs the predicted image data generated in the optimal intra prediction mode, the prediction mode information regarding the optimal intra prediction mode, and the cost function value in the optimal intra prediction mode to the predicted image / optimum mode selection unit 53.
  • the intra prediction unit 51 outputs prediction mode information related to the intra prediction mode to the lossless encoding unit 26 in the intra prediction process of each intra prediction mode in order to obtain the generated code amount used in the calculation of the cost function value.
  • prediction mode information related to the intra prediction mode for example, an H.D.
  • a method implemented in the H.264 AVC reference software can be mentioned.
  • the motion / disparity prediction compensation unit 52 performs a motion / disparity prediction compensation process for each block size of the encoding target block.
  • the motion / disparity prediction compensation unit 52 uses the image data after the deblock filter processing read from the frame memory 35 for each image of each encoding target block in the image read from the screen rearrangement buffer 22. Disparity vectors are detected using the motion vector and base view image data. Further, the motion / disparity prediction compensation unit 52 performs a reference picture compensation process based on the detected vector to generate a predicted image.
  • the motion / disparity prediction compensation unit 52 calculates a cost function value for each block size and reference picture of the encoding target picture, and sets the block size and the reference picture that minimize the cost function value as the optimal inter prediction mode. select.
  • the motion / disparity prediction compensation unit 52 supplies the prediction image data generated in the optimal inter prediction mode, the prediction mode information regarding the optimal inter prediction mode, and the cost function value in the optimal inter prediction mode to the prediction image / optimum mode selection unit 53. Output.
  • the motion / disparity prediction compensation unit 52 outputs the prediction mode information related to the inter prediction mode to the lossless encoding unit 26 in the inter prediction processing at each block size in order to obtain the generated code amount used in calculating the cost function value. To do.
  • the motion / disparity prediction / compensation unit 52 detects a disparity vector for each encoding target block when the feature value generation unit 41 generates a total value of errors between the encoding target block and the reference block as a feature value.
  • the error between the current encoding target block and the reference block is calculated and output to the feature value generation unit 41.
  • the predicted image / optimum mode selection unit 53 compares the cost function value supplied from the intra prediction unit 51 with the cost function value supplied from the motion / disparity prediction compensation unit 52, Is selected as the optimum mode with the best efficiency. Also, the predicted image / optimum mode selection unit 53 outputs the predicted image data generated in the optimal mode to the subtraction unit 23 and the addition unit 33. Further, the predicted image / optimum mode selection unit 53 outputs prediction mode information (macroblock type, prediction mode, reference index, etc.) of the optimal mode to the lossless encoding unit 26.
  • prediction mode information microblock type, prediction mode, reference index, etc.
  • the predicted image / optimum mode selection unit 53 when the predicted image / optimum mode selection unit 53 generates the ratio of an intra macroblock as a feature amount in the feature amount generation unit 41, the information of the macroblock for which the intra prediction mode is selected in the encoding target picture is used as the feature amount. Output to the generation unit 41.
  • FIG. 4 is a flowchart showing the operation of the image encoding device 20dv.
  • the image encoding device 20dv determines whether the encoding target picture is a dependent view picture.
  • the image encoding device 20dv proceeds to step ST2 when the encoding target picture is a dependent view picture, and proceeds to step ST9 when the encoding target picture is a base view picture.
  • step ST2 the image encoding device 20dv determines whether the encoding target picture is the head of the GOP.
  • the image encoding device 20dv proceeds to step ST3 when the encoding target picture is the first picture. Also, the image coding device 20dv proceeds to step ST6 when it is a subsequent picture in the GOP.
  • step ST3 the image encoding device 20dv performs encoding processing on the encoding target picture and proceeds to step ST4.
  • the reference index assigning unit 45 sets a reference index by a preset assignment method.
  • step ST4 the image encoding device 20dv generates a feature amount.
  • the feature value generation unit 41 of the image encoding device 20 dv generates a feature value from the information obtained when the first picture is encoded, and the process proceeds to step ST5.
  • the feature value generation unit 41 calculates the total value of errors in the image between the encoding target block and the reference block when the disparity vector is detected, the ratio of intra macroblocks in the image, or the ratio of the complexity of the image. Etc. are generated as feature quantities.
  • the image encoding device 20dv determines a reference index assignment method.
  • the reference index assigning unit 45 of the image coding device 20dv determines a reference index assigning method in the subsequent picture coding process based on the feature amount generated in step ST4.
  • the reference index assigning unit 45 assigns a reference index assigned to the field prediction to another reference picture for temporal prediction when it is determined that the correlation between the dependent view and the base view is low based on the feature amount.
  • the method For example, when the total value in the image of the error between the encoding target block and the reference block is generated as a feature amount, the reference index allocation unit 45 has a low correlation when the total value is larger than a preset threshold value. Is determined.
  • the reference index allocation unit 45 determines that the correlation is low when the ratio is larger than a preset threshold value. Further, for example, when the ratio of intra macroblocks in the image is generated as the feature amount, the reference index allocation unit 45 determines that the correlation is low when the ratio is larger than a preset threshold value. Furthermore, when the complexity ratio is used as the feature amount, the reference index assignment unit 45 determines that the correlation is low when the complexity ratio is smaller than a preset threshold value. When it is determined that the correlation is low, the reference index assigning unit 45 assigns a reference index assigned to the field prediction to another reference picture for temporal prediction in the subsequent picture.
  • step ST6 the image encoding device 20dv determines whether the allocation method needs to be changed.
  • the image encoding device 20dv proceeds to step ST7 when the allocation method preset for the first picture of the GOP is different from the allocation method for the subsequent picture determined at step ST5, and proceeds to step ST8 when the allocation method is equal.
  • step ST7 the image encoding device 20dv issues an RPLR (Reference
  • the reference index allocating unit 45 of the image coding device 20 dv uses the RPLR command so that the correct reference picture can be used based on the reference index in the image decoding device even if the reference index allocation is changed for the subsequent picture. Issue. That is, the reference index assigning unit 45 supplies the syntax element RLPR to the lossless encoding unit 26 and includes the encoded stream of image data in, for example, the header, and proceeds to step ST8.
  • RPLR Reference
  • step ST8 the image encoding device 20dv performs encoding processing of the encoding target picture. Further, in the encoding process, the reference index assigning unit 45 sets the reference index by the assigning method for the subsequent picture determined in step ST5.
  • step ST9 the image coding apparatus 20dv assigns a reference index using a preset assignment method and performs a coding process.
  • the reference index assigned to the reference picture for disparity prediction Is replaced with another reference picture of temporal prediction.
  • FIG. 5 shows a reference index assignment method when the correlation between the dependent view and base view images is low.
  • the reference index is assigned to the reference picture for disparity prediction and the reference picture for temporal prediction based on the feature amount, and it is determined that the correlation between images is low, the reference index assignment method is changed. Thus, base pictures with different correlations and different disparities are not used as reference pictures. Further, since it is possible to perform encoding by selecting a reference picture with high encoding efficiency from a plurality of reference pictures in temporal prediction, it is possible to improve the encoding efficiency in encoding a multi-view image.
  • FIG. 5 shows the case where the GOP of the dependent view is composed of an I picture and a P picture, but similarly in the case of a GOP structure including a B picture, it is determined that the correlation is low. Changes the assignment of the reference index.
  • FIG. 6 shows a reference index assignment method when the GOP includes a B picture.
  • 6A shows the state before the assignment change
  • FIG. 6B shows the state after the assignment change.
  • the B picture in the Cam1 image data for example, in L0 prediction (LIST_0), either the Cam1 P picture referenced in the forward prediction or the Bs picture in Cam0 image data referenced in the disparity prediction is used as a reference picture.
  • L1 prediction L1 prediction
  • a Cam1 P picture that is referred to in backward prediction is used as a reference picture.
  • pictures that can be used in LIST_X (X is 0 or 1) are managed by the reference index ref_idx as described above.
  • the reference index assigning unit 45 reassigns the reference index as shown in FIG. .
  • the reference index assignment method is changed, and the correlation is also performed in the B picture encoding process.
  • Base pictures with different parallax are not used as reference pictures.
  • it is possible to perform encoding by selecting a reference picture having high encoding efficiency from a plurality of reference pictures in temporal prediction it is possible to improve encoding efficiency in encoding a multi-view image.
  • the correlation between the dependent view and base view images is determined using the first picture of the GOP.
  • the total value of errors between the encoding target block and the reference block is used as the feature amount, it can be determined whether the correlation between images is low even during the GOP. Therefore, when it is determined that the correlation between images is low in the middle of the GOP based on the feature amount, the reference index allocation method can be changed.
  • the reference index assignment method when it is determined that the correlation between images is low, the reference index assignment method is changed.
  • the GOP structure by changing the GOP structure together, it is possible to encode multi-viewpoint images. Can improve the encoding efficiency.
  • the dependent view P picture (Pdv1) is temporally separated from the B picture (Bdv4). Therefore, when it is determined that the correlation between the dependent view and the base view is low in the first picture of the GOP, the GOP structure is also changed, and a non-reference picture that is temporally close to the current picture to be coded is referred to A reference index can be assigned as a picture.
  • FIG. 7 shows a case where the GOP structure is changed.
  • 7A shows a case where the assignment is changed
  • FIGS. 7B and 7C show a case where the assignment is changed and the GOP structure is changed.
  • the GOP structure is changed as shown in FIG. 7B, for example, a non-reference picture.
  • B picture (Bdv2) be P picture (Pdv2).
  • the reference index ref_idx 1 assigned to the Bs picture (Bsbv4) that is the reference picture for disparity prediction is set to be longer than in the case of FIG. It is possible to change to a P picture (Pdv2) that is close to each other.
  • the B picture (Bdv2) is changed to the P picture (Pdv2).
  • all the B pictures in the GOP may be changed to P pictures.
  • the B picture (Bsdv2) that can be referred to is the B picture (Bdv2).
  • the reference index ref_idx 1 assigned to the Bs picture (Bsbv4), which is the reference picture for disparity prediction, is set longer than in the case of (B) in FIG. It is possible to change to a Bs picture (Bsdv2) that is close to each other.
  • the GOP structure is changed and a reference index is assigned to a picture close in the time direction. That is, by making a B picture that is close in the time direction a P picture or a Bs picture, it is possible to refer to the picture to be encoded. If the GOP structure is changed in this way, it is possible to perform coding using a picture close in the time direction as a reference picture, so that it is possible to improve the prediction accuracy compared to the case where the GOP structure is not changed. . Therefore, it is possible to improve the encoding efficiency in encoding the multi-viewpoint image.
  • the feature amount generation unit 41 uses the image data of other viewpoints extracted from the input image data. Is generated. Further, the frame memory 35 stores other viewpoint image data extracted from the input image data or reference picture image data generated by encoding the other viewpoint image data. By performing such processing, it is possible to encode FS-AVC image data.
  • the image processing device may be a computer device that executes the above-described series of processing by a program.
  • FIG. 8 is a diagram exemplifying a configuration of a computer device that executes the above-described series of processing by a program.
  • a CPU (Central Processing Unit) 61 of the computer device 60 executes various processes according to a ROM (Read Only Memory) 62 or a computer program recorded in the recording unit 68.
  • ROM Read Only Memory
  • a RAM (Random Access Memory) 63 appropriately stores computer programs executed by the CPU 61 and data.
  • the CPU 61, the ROM 62, and the RAM 63 are connected to each other by a bus 64.
  • the CPU 61 is also connected with an input / output interface 65 via the bus 64.
  • the input / output interface 65 is connected to an input unit 66 such as a touch panel, a keyboard, a mouse, and a microphone, and an output unit 67 including a display.
  • the CPU 61 executes various processes in response to commands input from the input unit 66. Then, the CPU 61 outputs the processing result to the output unit 67.
  • the recording unit 68 connected to the input / output interface 65 is composed of, for example, a hard disk or an SSD (Solid State Drive), and records a computer program executed by the CPU 61 and various data.
  • the communication unit 69 communicates with an external device via a wired or wireless communication medium such as a network such as the Internet or a local area network or digital broadcasting.
  • the computer device 60 may acquire a computer program via the communication unit 69 and record it in the ROM 62 or the recording unit 68.
  • the drive 70 drives them to acquire recorded computer programs and data.
  • the acquired computer program and data are transferred to the ROM 62, the RAM 63, or the recording unit 68 as necessary.
  • the CPU 61 reads out and executes a computer program for performing the above-described series of processing, and multi-viewpoint image data recorded in the recording unit 68 and the removable medium 72, and the multi-point image supplied via the communication unit 69. An encoding process is performed on the image data of the viewpoint image.
  • the present invention should not be construed as being limited to the above-described embodiment.
  • the multi-viewpoint image is not limited to the two images of the left-eye image and the right-eye image, and may be an image having three or more viewpoints.
  • the embodiments of the present invention disclose the present invention in the form of examples, and it is obvious that those skilled in the art can make modifications and substitutions of the embodiments without departing from the gist of the present invention. In other words, the scope of the claims should be considered in order to determine the gist of the present invention.
  • a feature amount indicating a correlation between images having different viewpoints is generated, and when it is determined that the correlation is lower than a preset threshold value based on the feature amount,
  • the reference index assigned to the reference picture for parallax prediction using the correlation between different images is replaced with the reference picture for temporal prediction using the correlation between images in the temporal direction. Therefore, in the encoding of multi-viewpoint images, it is possible to improve the encoding efficiency when the correlation between images with different viewpoints is low.
  • the present invention can be applied to an imaging device that generates and encodes a multi-viewpoint image, an editing device that edits and encodes a multi-viewpoint image, a recording device that encodes a multi-viewpoint image, and records it on a recording medium. .
  • Intra prediction unit 52... Motion / disparity prediction compensation unit, 53.
  • Mode selection unit 60... Computer device, 61. CPU (Central Processing Unit), 62 ROM (Read Only Memory), 63 RAM (Random Access Memory), 64 Bus, 65 I / O interface, 66 Input section 67 ... Output unit, 68 ... Recording unit, 69 ... Communication unit, 70 ... Drive, 72 ... Removable media

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

 多視点画像の符号化における符号化効率を改善する。特徴量生成部41は、視点の異なる画像間の相関を示す特徴量を生成する。参照インデックス割り当て部45は、特徴量に基づいて、視点の異なる画像間の相関を利用する視差予測の参照ピクチャと時間方向の画像間の相関を利用する時間予測の参照ピクチャに対する参照インデックスの割り当てを行う。例えば、特徴量に基づいて相関が予め設定した閾値より低いと判別した場合に、参照インデックスの割り当てを変更して、視差予測の参照ピクチャに割り当てる参照インデックスを、時間予測の参照ピクチャに付け替える。

Description

画像処理装置と画像処理方法
 この発明は、画像処理装置と画像処理方法に関する。詳しくは、多視点画像の符号化における符号化効率を改善することを目的とする。
 近年、画像情報をディジタルとして取り扱い、その際、効率の高い情報の伝送、蓄積を行う装置、例えば離散コサイン変換等の直交変換と動き補償により圧縮するMPEG等の方式に準拠した装置が、放送局や一般家庭において普及しつつある。
 特に、MPEG2(ISO/IEC13818-2)は、汎用画像符号化方式として定義されており、プロフェッショナル用途およびコンシューマー用途の広範なアプリケーションに現在広く用いられている。さらに、MPEG2といった符号化方式に比べ、その符号化、復号化により多くの演算量が要求されるものの、より高い符号化効率が実現できるH.264およびMPEG-4 Part10 (以下「H.264/AVC(Advanced Video Coding)」と記す)という画像符号化方式が標準化されている。
 このような画像符号化方式では、時間方向および空間方向の冗長性を削減することによって情報量の圧縮を行っている。例えば、空間的な冗長性の削減を目的とした画面内予測符号化を行うIピクチャでは、画素間の相関を利用して予測画像の生成が行われている。また、時間的な冗長性の削減を目的とする画面間予測符号化を行うPピクチャでは、前方の画像を参照してブロック単位で動きベクトルを検出して、検出した動きベクトルを用いて予測画像の生成が行われている。さらに、Bピクチャでは、前方や後方のピクチャを参照してブロック単位で動きベクトルを検出して、検出した動きベクトルを用いて予測画像の生成が行われている。なお、Bピクチャにおいて、1枚目の参照ピクチャをL0予測の参照ピクチャ、2枚目の参照ピクチャをL1予測の参照ピクチャと呼ぶ。
 H.264/AVC方式は、既に符号化した複数のピクチャから参照ピクチャを選択することができるようになされている。また、選択された参照ピクチャは、参照インデックスで管理されている。参照インデックスは、検出した動きベクトルがどのピクチャを参照した動きベクトルであるかを示す情報と用いられて、検出した動きベクトルを示す情報とともに符号化される。
 参照インデックスは、0以上の値が設定される。また、参照インデックスは、値が小さいほど符号化後の情報量(符号量)が少ない。さらに、参照ピクチャへの参照インデックスの割り当ては、自由に設定することができる。そのため、参照される動きベクトルの本数が多い参照ピクチャに番号の小さい参照インデックスを割り当てることで、参照インデックスを符号化したときの符号量を少なくして、符号化効率を向上させることが可能となる。
 また、特許文献1では、インタレース走査方式の2D画像に対してフィールド符号化を行う場合、符号化対象ピクチャとの時間的な距離が近い参照ピクチャに、小さい値の参照インデックスを割り当てることが行われている。
特開2010-63092号公報
 ところで、フレームシーケンシャル(FS:Frame Sequential)-AVCやマルチビュービデオ符号化(MVC:Multiview Video Coding)では、時間方向の画像間での相関を利用する時間予測だけでなく、視点の異なる画像間での相関を利用する視差予測が行われる。
 図1は、従来の参照インデックス割り当て方法、例えば2視点の動画像データをMVCで符号化するときの参照インデックス割り当て方法を示している。なお、Cam0は左目画像の画像データ、Cam1は右目画像の画像データとする。Cam1の画像データは、Cam0の画像データを参照ピクチャの画像データとして用いて符号化を行うディペンデントビュー(Dependent View)の画像データとする。また、ディペンデントビューの画像データを符号化するときに参照されるCam0の画像データを、ベースビュー(Base View)の画像データという。
 また、Cam1の画像データにおけるPピクチャは、例えば実線の矢印で示すように時間予測で参照するCam1のPピクチャと、点線の矢印で示すように視差予測で参照するCam0のIピクチャやPピクチャを参照ピクチャとする。参照ピクチャは、参照インデックスref_idxという番号で管理されており、0以上の値が割り当てられる。例えば、時間予測の参照ピクチャに対して参照インデックスref_idx=0、視差予測の参照ピクチャに対して参照インデックスref_idx=1が割り当てられる。
 また、視点の異なる画像間で相関が著しく低下する場合、参照ピクチャに対して図1に示すように参照インデックスを割り当てて、複数画像の参照を行うようにしても、実質的に単一の画像を参照した場合と同等の性能しか得られない。すなわち、左目画像と右目画像の相関が著しく低いとき、視点の異なる画像を用いた予測方法は効率が悪いことから、参照インデックスref_idx=1の視差予測は非効率である。したがって、参照インデックスref_idx=0の時間予測のみが行われるようになり、実質的に単一の画像を参照した場合と同等の性能しか得られない。
 そこで、この発明では、多視点画像の符号化における符号化効率を改善できる画像処理装置と画像処理方法を提供することを目的とする。
 この発明の第1の側面は、視点の異なる画像間の相関を示す特徴量を生成する特徴量生成部と、前記特徴量生成部により生成された特徴量に基づいて前記相関が予め設定した閾値より低いと判別した場合に、前記視点の異なる画像間の相関を利用する視差予測の参照ピクチャに割り当てる参照インデックスを、時間方向の画像間の相関を利用する時間予測の参照ピクチャに付け替える参照インデックス割り当て部とを有する画像処理装置にある。
 この発明においては、特徴量生成部によって、視点の異なる画像間の相関を示す特徴量、例えばGOPの先頭ピクチャの符号化処理において、視差ベクトルを検出したときの符号化対象ブロックと参照ブロックとの誤差の画像内における合計値、画像内におけるイントラマクロブロックの割合、符号化対象ピクチャと視点の異なる参照ピクチャとの画像の複雑度の比の少なくともいずれかが特徴量として算出される。この特徴量に基づいて、視点の異なる画像間の相関を利用する視差予測の参照ピクチャと時間方向の画像間の相関を利用する時間予測の参照ピクチャに対する参照インデックスの割り当てが行われる。例えば、相関が予め設定した閾値より低いと判別した場合に、参照インデックスの割り当てを変更して、視差予測の参照ピクチャに割り当てる参照インデックスが、時間予測の参照ピクチャに付け替えられる。また、相関が予め設定した閾値より低いと判別した場合に、時間方向に近接した非参照ピクチャを参照ピクチャとするGOP構造への変更が行われる。
 この発明の第2の側面は、視点の異なる画像間の相関を示す特徴量を生成する特徴量生成工程と、前記特徴量生成工程で生成された特徴量に基づいて前記相関が予め設定した閾値より低いと判別した場合に、前記視点の異なる画像間の相関を利用する視差予測の参照ピクチャに割り当てる参照インデックスを、時間方向の画像間の相関を利用する時間予測の参照ピクチャに付け替える参照インデックス割り当て工程とを具備する画像処理方法にある。
 この発明によれば、視点の異なる画像間の相関を示す特徴量が生成されて、この特徴量に基づいて、相関が予め設定した閾値より低いと判別した場合に、視点の異なる画像間の相関を利用する視差予測の参照ピクチャに割り当てる参照インデックスが、時間方向の画像間の相関を利用する時間予測の参照ピクチャに付け替えられる。したがって、多視点画像の符号化において、視点の異なる画像間での相関が低い場合の符号化効率を改善できる。
従来の参照インデックス割り当て方法を説明するための図である。 符号化システムの構成例を示す図である。 画像処理装置の構成を示す図である。 画像処理装置の動作を示すフローチャートである。 相関が低い場合の参照インデックス割り当て方法を示す図である。 Bピクチャを含む場合の参照インデックス割り当て方法を示す図である。 GOP構造の変更を行った場合の動作を説明するための図である。 コンピュータ装置の構成を示す図である。
 以下、発明を実施するための形態について説明する。なお、説明は以下の順序で行う。
 1.符号化システムの構成例
 2.画像処理装置の構成例
 3.参照インデックスの割り当て動作
 4.ソフトウェア処理で画像符号化を行う場合の構成
 <1.符号化システムの構成例>
 図2は、本発明を適用した符号化システムの構成例を示す図である。符号化システム10は、左視点画像生成装置11L、右視点画像生成装置11R、および多視点符号化装置20を有している。
 左視点画像生成装置11Lは、左目画像の画像データを生成する撮像装置や画像データ生成装置である。右視点画像生成装置11Rは、右目画像を生成する撮像装置や画像データ生成装置である。左視点画像生成装置11Lと右視点画像生成装置11Rは、同期して動作を行う。
 多視点符号化装置20には、左視点画像生成装置11Lで生成された左目画像の画像データと、右視点画像生成装置11Rで生成された右目画像の画像データが入力される。多視点符号化装置20は、左目画像の画像データの符号化と右目画像の画像データの符号化を行い、得られた符号化データを多重化して、1つのビットストリームとして出力する。
 多視点符号化装置20は、例えば左視点画像生成装置11Lから入力される左目画像の画像データを、ベースビューの画像データとして符号化する画像処理装置を有している。また、多視点符号化装置20は、例えば右視点画像生成装置11Rから入力される右目画像の画像データを、ディペンデントビューの画像データとして符号化する本発明の画像処理装置を有している。なお、ベースビューの画像データは、他視点の画像を参照ピクチャとして用いることなく時間予測を行い、ディペンデントビューの画像データは、時間予測とベースビューの画像を参照ピクチャとして用いる視差予測を行う。
 <2.画像処理装置の構成>
 次に、本発明の画像処理装置について説明する。なお、本発明の画像処理装置では、左目画像と右目画像の画像データが独立しており、ディペンデントビューの画像データの符号化を行う画像処理装置は、ベースビューの画像データを符号化する画像処理装置から、視差予測に用いる参照ピクチャの画像データ等を取得する場合を説明する。
 ディペンデントビューの画像データを符号化する画像処理装置は、視点の異なる画面間すなわちディペンデントビューの画像と参照ピクチャとして用いるベースビューの画像との相関に応じた特徴量を生成する。さらに、生成した特徴量に基づいて、視点の異なる画像間の相関を利用する視差予測の参照ピクチャと時間方向の画像間の相関を利用する時間予測の参照ピクチャに対する参照インデックスの割り当てを行う。
 図3は、ディペンデントビューの画像データを符号化する画像処理装置である画像符号化装置20dvの構成を示している。画像符号化装置20dvは、アナログ/ディジタル変換部(A/D変換部)21、画面並び替えバッファ22、減算部23、直交変換部24、量子化部25、可逆符号化部26、蓄積バッファ27、レート制御部28を備えている。また、画像符号化装置20dvは、逆量子化部31、逆直交変換部32、加算部33、デブロッキングフィルタ34、フレームメモリ35を有している。さらに画像符号化装置20dvは、参照インデックス割り当て部45、イントラ予測部51、動き・視差予測補償部52、予測画像・最適モード選択部53を備えている。
 A/D変換部21は、アナログの画像信号をディジタルの画像データに変換して画面並べ替えバッファ22に出力する。
 画面並べ替えバッファ22は、A/D変換部21から出力された画像データに対してフレームの並べ替えを行う。画面並べ替えバッファ22は、符号化処理に係るGOP(Group of Pictures)構造に応じてフレームの並べ替えを行い、並べ替え後の画像データを減算部23とイントラ予測部51と動き・視差予測補償部52に出力する。
 減算部23には、画面並べ替えバッファ22から出力された画像データと、後述する予測画像・最適モード選択部53で選択された予測画像データが供給される。減算部23は、画面並べ替えバッファ22から出力された画像データと予測画像・最適モード選択部53から供給された予測画像データとの差分である予測誤差データを算出して、直交変換部24に出力する。
 直交変換部24は、減算部23から出力された予測誤差データに対して、離散コサイン変換(DCT;Discrete Cosine Transform)、カルーネン・レーベ変換等の直交変換処理を行う。直交変換部24は、直交変換処理を行うことにより得られた変換係数データを量子化部25に出力する。
 量子化部25には、直交変換部24から出力された変換係数データと、後述するレート制御部28からレート制御信号が供給されている。量子化部25は変換係数データの量子化を行い、量子化データを可逆符号化部26と逆量子化部31に出力する。また、量子化部25は、レート制御部28からのレート制御信号に基づき量子化パラメータ(量子化スケール)を切り替えて、量子化データのビットレートを変化させる。
 可逆符号化部26には、量子化部25から出力された量子化データと、後述するイントラ予測部51と動き・視差予測補償部52および予測画像・最適モード選択部53から予測モード情報が供給される。なお、予測モード情報には、符号化対象ピクチャのブロックサイズを示すマクロブロックタイプ、予測モード、参照インデックス等が含まれる。可逆符号化部26は、量子化データに対して例えば可変長符号化または算術符号化等により符号化処理を行い、符号化ストリームを生成して蓄積バッファ27に出力する。また、可逆符号化部26は、予測モード情報を可逆符号化して、符号化ストリームの例えばヘッダ情報に付加する。
 蓄積バッファ27は、可逆符号化部26からの符号化ストリームを蓄積する。また、蓄積バッファ27は、蓄積した符号化ストリームを伝送路に応じた伝送速度で出力する。
 レート制御部28は、蓄積バッファ27の空き容量の監視を行い、空き容量に応じてレート制御信号を生成して量子化部25に出力する。レート制御部28は、例えば蓄積バッファ27から空き容量を示す情報を取得する。レート制御部28は空き容量が少なくなっている場合、レート制御信号によって量子化データのビットレートを低下させる。また、レート制御部28は蓄積バッファ27の空き容量が十分大きい場合、レート制御信号によって量子化データのビットレートを高くする。
 逆量子化部31は、量子化部25から供給された量子化データの逆量子化処理を行う。逆量子化部31は、逆量子化処理を行うことで得られた変換係数データを逆直交変換部32に出力する。
 逆直交変換部32は、逆量子化部31から供給された変換係数データの逆直交変換処理を行うことで得られたデータを加算部33に出力する。
 加算部33は、逆直交変換部32から供給されたデータと予測画像・最適モード選択部53から供給された予測画像データを加算して参照ピクチャの画像データを生成して、この画像データをデブロッキングフィルタ34とイントラ予測部51に出力する。
 デブロッキングフィルタ34は、画像の符号化時に生じるブロック歪みを減少させるためのフィルタ処理を行う。デブロッキングフィルタ34は、加算部33から供給された画像データからブロック歪みを除去するフィルタ処理を行い、フィルタ処理後の画像データをフレームメモリ35に出力する。
 フレームメモリ35は、デブロッキングフィルタ34から供給されたフィルタ処理後の画像データと、ベースビューの符号化を行う画像符号化装置20bvから供給された参照ピクチャの画像データを保持する。
 特徴量生成部41は、特徴量の生成を行う。特徴量は、ディペンデントビューの画像データを符号化する場合、視点の異なる画像間で相関が低いか判別するための情報である。特徴量生成部41は、例えばGOP内の先頭ピクチャの符号化処理を行うときに得られた情報から特徴量を生成する。特徴量生成部41は、特徴量として例えば視差ベクトルを検出したときの符号化対象ピクチャのブロック(符号化対象ブロック)と参照ピクチャのブロック(参照ブロック)との誤差の画像内における合計値(例えばSAD:Sum of Absolute Differences)を用いる。また、特徴量生成部41は、特徴量として例えば画像内におけるイントラマクロブロックの割合または符号化対象ピクチャと視点の異なる参照ピクチャとの画像の複雑度の比等を用いてもよい。
 特徴量として符号化対象ブロックと参照ブロックとの誤差を用いる場合、特徴量生成部41は、後述する動き・視差予測補償部52において算出されている誤差を画像内で合計して特徴量とする。
 特徴量としてイントラマクロブロックの割合を用いる場合、特徴量生成部41は、後述する予測画像・最適モード選択部53において視差予測における最適モードがイントラ予測であると判別されたマクロブロックの画像内における割合を算出して特徴量とする。
 特徴量として符号化済みのピクチャの複雑度の比を用いる場合、特徴量生成部41は、GOPの符号化済みである先頭ピクチャの複雑度を算出して、算出した複雑度の比を特徴量とする。すなわち、特徴量生成部41は、Iピクチャ(Ibv1)とPピクチャ(Pdv1)の複雑度Xi,Xpを例えば式(1)~(2)に基づいて算出して、算出した複雑度の比(Xi/Xp)を特徴量とする。
   Xi=SiQi    ・・・(1)
   Xp=SpQp    ・・・(2)
 式(1)において、XiはIピクチャの複雑度、SiはIピクチャの発生符号量、QiはIピクチャの符号化時における平均量子化スケールコード(量子化パラメータ)である。同様に、式(2)において、XpはPピクチャの複雑度、SpはPピクチャの発生符号量、QpはPピクチャの符号化時における平均量子化スケールコード(量子化パラメータ)である。
 このように、特徴量生成部41は、符号化対象ブロックと参照ブロックとの誤差の画像内における合計値、画像内におけるイントラマクロブロックの割合、符号化対象ピクチャと視点の異なる参照ピクチャとの画像の複雑度の比の少なくともいずれかを特徴量として、生成した特徴量を参照インデックス割り当て部45に出力する。
 参照インデックス割り当て部45は、特徴量生成部41で生成された特徴量に基づいて、視差予測の参照ピクチャと時間予測の参照ピクチャに対する参照インデックスの割り当て方法を決定する。例えば、参照インデックス割り当て部45は、GOP内の先頭ピクチャの符号化処理を行うときに得られた情報から特徴量が生成される場合、GOP内の後続ピクチャ(先頭ピクチャを除く他のピクチャ)における参照インデックスの割り当て方法を決定する。参照インデックス割り当て部45は、決定した割り当て方法で、フレームメモリ35に記憶されている参照ピクチャに対して参照インデックスの割り当てを行う。
 参照インデックス割り当て部45は、特徴量として符号化対象ブロックと参照ブロックとの誤差の合計値が生成されている場合、合計値が予め設定されている閾値よりも大きいときは、相関が低いと判別する。また、参照インデックス割り当て部45は、特徴量としてイントラマクロブロックの割合が生成されている場合、割合が予め設定されている閾値よりも大きいときは相関が低いと判別する。また、参照インデックス割り当て部45は、特徴量として複雑度の比が生成されて場合、複雑度の比(Xi/Xp)が予め設定されている閾値よりも小さいときは、相関が低いと判別する。
 参照インデックス割り当て部45は、相関が予め設定した閾値より低いと判別した場合に、参照インデックスの割り当てを変更して、視差予測の参照ピクチャに割り当てる参照インデックスを、時間予測の参照ピクチャに付け替える。
 イントラ予測部51は、画面並べ替えバッファ22から出力された符号化対象ピクチャの画像データと加算部33から供給された画像データを用いて、候補となるすべてのイントラ予測モードのイントラ予測処理を行う。さらに、イントラ予測部51は、各イントラ予測モードに対してコスト関数値を算出して、算出したコスト関数値が最小となるイントラ予測モード、すなわち符号化効率が最良となるイントラ予測モードを、最適イントラ予測モードとして選択する。イントラ予測部51は、最適イントラ予測モードで生成された予測画像データと最適イントラ予測モードに関する予測モード情報、および最適イントラ予測モードでのコスト関数値を予測画像・最適モード選択部53に出力する。また、イントラ予測部51は、コスト関数値の算出で用いる発生符号量を得るため、各イントラ予測モードのイントラ予測処理において、イントラ予測モードに関する予測モード情報を可逆符号化部26に出力する。なお、コスト関数値の算出としては、例えばJM(Joint Model)と呼ばれるH.264AVCの参照ソフトウェアに実装されている方法を挙げることができる。
 動き・視差予測補償部52は、符号化対象ブロックのブロックサイズ毎に動き・視差予測補償処理を行う。動き・視差予測補償部52は、画面並べ替えバッファ22から読み出された画像における各符号化対象ブロックの画像毎に、フレームメモリ35から読み出されたデブロックフィルタ処理後の画像データを用いて動きベクトル、ベースビューの画像データを用いて視差ベクトルをそれぞれ検出する。さらに、動き・視差予測補償部52は、検出したベクトルに基づいて参照ピクチャの補償処理を施して予測画像を生成する。
 また、動き・視差予測補償部52は、符号化対象ピクチャのブロックサイズおよび参照ピクチャ毎にコスト関数値を算出して、コスト関数値が最小となるブロックサイズと参照ピクチャを、最適インター予測モードとして選択する。動き・視差予測補償部52は、最適インター予測モードで生成された予測画像データと最適インター予測モードに関する予測モード情報、および最適インター予測モードでのコスト関数値を予測画像・最適モード選択部53に出力する。また、動き・視差予測補償部52は、コスト関数値の算出で用いる発生符号量を得るため、各ブロックサイズでのインター予測処理において、インター予測モードに関する予測モード情報を可逆符号化部26に出力する。さらに、動き・視差予測補償部52は、特徴量生成部41において特徴量として符号化対象ブロックと参照ブロックとの誤差の合計値を生成する場合、符号化対象ブロック毎に、視差ベクトルを検出したときの符号化対象ブロックと参照ブロックとの誤差を算出して、特徴量生成部41に出力する。
 予測画像・最適モード選択部53は、イントラ予測部51から供給されたコスト関数値と動き・視差予測補償部52から供給されたコスト関数値を比較して、コスト関数値が少ない方を、符号化効率が最良となる最適モードとして選択する。また、予測画像・最適モード選択部53は、最適モードで生成した予測画像データを減算部23と加算部33に出力する。さらに、予測画像・最適モード選択部53は、最適モードの予測モード情報(マクロブロックタイプ、予測モード、参照インデックス等)を可逆符号化部26に出力する。さらに、予測画像・最適モード選択部53は、特徴量生成部41において特徴量としてイントラマクロブロックの割合を生成する場合、符号化対象ピクチャにおいて、イントラ予測モードを選択したマクロブロックの情報を特徴量生成部41に出力する。
 <3.画像処理装置の動作>
 図4は、画像符号化装置20dvの動作を示すフローチャートである。ステップST1で画像符号化装置20dvは、符号化対象ピクチャがディペンデントビューのピクチャであるか判別する。画像符号化装置20dvは、符号化対象ピクチャがディペンデントビューのピクチャである場合ステップST2に進み、ベースビューのピクチャである場合はステップST9に進む。
 ステップST2で画像符号化装置20dvは、符号化対象ピクチャがGOPの先頭であるか判別する。画像符号化装置20dvは、符号化対象ピクチャが先頭ピクチャであるときステップST3に進む。また、画像符号化装置20dvは、GOP内の後続ピクチャであるときステップST6に進む。
 ステップST3で画像符号化装置20dvは、符号化対象ピクチャの符号化処理を行いステップST4に進む。また、符号化処理において、参照インデックス割り当て部45は、予め設定されている割り当て方法で参照インデックスを設定する。
 ステップST4で画像符号化装置20dvは、特徴量を生成する。画像符号化装置20dvの特徴量生成部41は、先頭ピクチャの符号化処理を行うときに得られた情報から特徴量を生成してステップST5に進む。例えば、特徴量生成部41は、視差ベクトルを検出したときの符号化対象ブロックと参照ブロックとの誤差の画像内における合計値、または画像内におけるイントラマクロブロックの割合、あるいは画像の複雑度の比等を特徴量として生成する。
 ステップST5で画像符号化装置20dvは、参照インデックス割り当て方法を決定する。画像符号化装置20dvの参照インデックス割り当て部45は、ステップST4で生成した特徴量に基づき、後続ピクチャの符号化処理における参照インデックスの割り当て方法を決定する。参照インデックス割り当て部45は、特徴量に基づきディペンデントビューとベースビューとの画面間の相関が低いと判別したとき、視野予測に対して割り当てる参照インデックスを時間予測の他の参照ピクチャに割り当てる割り当て方法とする。参照インデックス割り当て部45は、例えば特徴量として符号化対象ブロックと参照ブロックとの誤差の画像内における合計値が生成されている場合、合計値が予め設定されている閾値よりも大きいとき相関が低いと判別する。また、参照インデックス割り当て部45は、例えば特徴量として画像内のイントラマクロブロックの割合が生成されている場合、割合が予め設定されている閾値よりも大きいとき相関が低いと判別する。また、参照インデックス割り当て部45は、例えば特徴量として画像内のイントラマクロブロックの割合が生成されている場合、割合が予め設定されている閾値よりも大きいとき相関が低いと判別する。さらに、参照インデックス割り当て部45は、特徴量として複雑度の比が用いられている場合、複雑度の比が予め設定されている閾値よりも小さいとき相関が低いと判別する。参照インデックス割り当て部45は、相関が低いと判別したとき、後続ピクチャでは、視野予測に対して割り当てる参照インデックスを時間予測の他の参照ピクチャに割り当てる方法とする。
 ステップST2で符号化対象ピクチャがGOPの先頭でないと判別されてステップST6に進むと、画像符号化装置20dvは、割り当て方法の変更が必要か判別する。画像符号化装置20dvは、GOPの先頭ピクチャに対して予め設定されている割り当て方法と、ステップST5で決定した後続ピクチャに対する割り当て方法が異なる場合にステップST7に進み、等しい場合にステップST8に進む。
 ステップST7で画像符号化装置20dvは、RPLR(Reference Picture List Reordering)コマンドの発行を行う。画像符号化装置20dvの参照インデックス割り当て部45は、後続ピクチャに対して参照インデックスの割り当てを変更しても、画像復号化装置で参照インデックスに基づき正しい参照ピクチャを用いることができるようにRPLRコマンドの発行を行う。すなわち、参照インデックス割り当て部45は、シンタックス要素であるRLPRを可逆符号化部26に供給して、画像データの符号化ストリームの例えばヘッダに含めてステップST8に進む。
 ステップST8で画像符号化装置20dvは、符号化対象ピクチャの符号化処理を行う。また、符号化処理において、参照インデックス割り当て部45は、ステップST5で決定された後続ピクチャに対する割り当て方法で参照インデックスを設定する。
 ステップST1で符号化対象ピクチャがディペンデントビューのピクチャでないと判別されてステップST9に進むと、画像符号化装置20dvは、予め設定されている割り当て方法で参照インデックスを割り当てて符号化処理を行う。
 このような処理を符号化対象ピクチャ毎に行うと、GOPの先頭ピクチャでディペンデントビューとベースビューとの画像間の相関が低いと判別された場合は、視差予測の参照ピクチャに割り当てる参照インデックスが時間予測の他の参照ピクチャに付け替えられる。
 図5は、ディペンデントビューとベースビューの画像間の相関が低い場合の参照インデックス割り当て方法を示している。GOPの後続ピクチャでは、先頭ピクチャによってディペンデントビューとベースビューの画像間の相関が低いと判別された場合、参照インデックスの割り当て方法を変更する。例えば1フレーム前の参照ピクチャに対して参照インデックスref_idx=0、2フレーム前の参照ピクチャに対して参照インデックスref_idx=1を割り当てる。したがって、図5に示す場合、Cam1(ディペンデントビュー)の画像データにおける例えばPピクチャ(Pdv3)の符号化処理において、視差予測の参照ピクチャであるCam0(ベースビュー)の画像データのPピクチャ(Pbv3)に対して割り当てる参照インデックスref_idx=1は、ディペンデントビューのPピクチャ(Pdv1)に付け替えられる。
 このように、特徴量に基づいて、視差予測の参照ピクチャと時間予測の参照ピクチャに対する参照インデックスの割り当てを行うことで、画像間の相関が低いと判別された場合、参照インデックスの割り当て方法が変更されて、相関の低い視差の異なるベースピクチャが参照ピクチャとして用いられることがない。さらに、時間予測において複数の参照ピクチャから符号化効率の高い参照ピクチャを選択して符号化を行うことができるので、多視点画像の符号化における符号化効率を改善できる。
 ところで、図5では、ディペンデントビューのGOPがIピクチャとPピクチャで構成されている場合を示したが、Bピクチャが含まれているGOP構造でも同様に、相関が低いと判別された場合は、参照インデックスの割り当てを変更する。
 図6は、GOPがBピクチャを含む場合の参照インデックス割り当て方法を示している。なお、図6の(A)は割り当て変更前、図6の(B)は割り当て変更後を示している。
 Cam1の画像データにおけるBピクチャは、例えばL0予測(LIST_0)において、前方向予測で参照するCam1のPピクチャと視差予測で参照するCam0の画像データにおけるBsピクチャのいずれかを参照ピクチャとする。また、Bピクチャは、例えばL1予測(LIST_1)において、後方向予測で参照するCam1のPピクチャを参照ピクチャとする。さらに、LIST_X(Xは0または1)で使用可能なピクチャは、上述のように参照インデックスref_idxで管理されている。なお、図6の(A)では、時間予測の参照ピクチャに対して参照インデックスref_idx=0、視差予測の参照ピクチャに対して参照インデックスref_idx=1を割り当てた場合を例示している。
 GOPの先頭ピクチャでディペンデントビューとベースビューとの画像間の相関が低いと判別された場合、参照インデックス割り当て部45は、図6の(B)に示すように、参照インデックスの付け替えを行う。参照インデックス割り当て部45は、例えばBピクチャ(Bdv4)の符号化処理において、視差予測の参照ピクチャであるBsピクチャ(Bsbv4)に対して割り当てている参照インデックスref_idx=1を、ディペンデントビューのPピクチャ(Pdv1)に付け替える。
 このように、GOPの先頭ピクチャでディペンデントビューとベースビューとの画像間の相関が低いと判別された場合、参照インデックスの割り当て方法が変更されて、Bピクチャの符号化処理においても、相関の低い視差の異なるベースピクチャが参照ピクチャとして用いられることがない。また、時間予測において複数の参照ピクチャから符号化効率の高い参照ピクチャを選択して符号化を行うことができるので、多視点画像の符号化における符号化効率を改善できる。
 また、上述の実施の形態では、GOPの先頭ピクチャを用いてディペンデントビューとベースビューとの画像間の相関を判別した。しかし、特徴量として符号化対象ブロックと参照ブロックとの誤差の合計値を用いる場合、GOPの途中でも画像間の相関が低いか判別できる。したがって、特徴量に基づきGOPの途中で画像間の相関が低いと判別されたとき、参照インデックスの割り当て方法を変更することもできる。
 また、上述の実施の形態では、画像間の相関が低いと判別された場合、参照インデックスの割り当て方法を変更しているが、GOP構造の変更もあわせて行うことで、多視点画像の符号化における符号化効率を改善できる。
 図6の(B)に示すように参照インデックスを付け替えた場合、ディペンデントビューのPピクチャ(Pdv1)は、Bピクチャ(Bdv4)から時間的に離れている。そこで、GOPの先頭ピクチャでディペンデントビューとベースビューとの画像間の相関が低いと判別された場合、GOP構造の変更も行い、符号化対象ピクチャと時間的に近接した非参照ピクチャを参照ピクチャとして参照インデックスを割り当てることができるようにする。
 図7は、GOP構造の変更を行った場合を示している。なお、図7の(A)は、割り当て変更前、図7の(B),(C)は割り当ての変更とGOP構造の変更を行った場合を示している。
 図7の(A)では、時間予測の参照ピクチャに対して参照インデックスref_idx=0、視差予測の参照ピクチャに対して参照インデックスref_idx=1を割り当てた場合を例示している。
 GOPの先頭ピクチャでディペンデントビューとベースビューとの画像間の相関が低いと判別された場合は、図7の(B)に示すように、GOP構造の変更を行い例えば非参照ピクチャであるBピクチャ(Bdv2)をPピクチャ(Pdv2)とする。この場合、Bピクチャ(Bdv4)の符号化処理において、視差予測の参照ピクチャであるBsピクチャ(Bsbv4)に対して割り当てている参照インデックスref_idx=1を、図6の(B)の場合よりも時間的に近接しているPピクチャ(Pdv2)に付け替えることができる。なお、図7の(B)では、Bピクチャ(Bdv2)をPピクチャ(Pdv2)に変更したが、GOP内のBピクチャを全てPピクチャとする変更を行うようにしてもよい。
 また、GOPの先頭ピクチャでディペンデントビューとベースビューとの画像間の相関が低いと判別された場合は、図7の(C)に示すように、GOP構造の変更を行い例えば非参照ピクチャであるBピクチャ(Bdv2)を参照可能なBsピクチャ(Bsdv2)とする。この場合、Bピクチャ(Bdv4)の符号化処理において、視差予測の参照ピクチャであるBsピクチャ(Bsbv4)に対して割り当てている参照インデックスref_idx=1を、図6の(B)の場合よりも時間的に近接しているBsピクチャ(Bsdv2)に付け替えることができる。
 このように、GOPの先頭ピクチャでディペンデントビューとベースビューとの画像間の相関が低いと判別された場合、GOP構造の変更を行い時間方向に近接したピクチャに参照インデックスを割り当てる。すなわち、時間方向に近接しているBピクチャを、PピクチャやBsピクチャとすることで、符号化対象ピクチャから参照可能とする。このようにGOP構造の変更を行えば、時間方向に近接したピクチャを参照ピクチャとして符号化を行うことができるので、GOP構造の変更を行わない場合に比べて予測精度を高めることが可能となる。したがって多視点画像の符号化における符号化効率を改善できる。
 なお、視点の異なる画像が例えばフレーム単位で切り替えられるFS-AVCの画像データを符号化する場合、特徴量生成部41は、入力された画像データから抽出した他視点の画像データを用いて特徴量の生成を行う。また、フレームメモリ35には、入力された画像データから抽出した他視点の画像データ、または他視点の画像データの符号化によって生成された参照ピクチャの画像データを記憶させる。このような処理を行うことで、FS-AVCの画像データの符号化も可能である。
 <4.ソフトウェア処理で画像符号化を行う場合の構成>
 さらに、画像処理装置は、上述した一連の処理をプログラムにより実行するコンピュータ装置であってもよい。
 図8は、上述した一連の処理をプログラムにより実行するコンピュータ装置の構成を例示した図である。コンピュータ装置60のCPU(Central Processing Unit)61は、ROM(Read Only Memory)62、または記録部68に記録されているコンピュータ・プログラムにしたがって各種の処理を実行する。
 RAM(Random Access Memory)63には、CPU61が実行するコンピュータ・プログラムやデータなどが適宜記憶される。これらのCPU61、ROM62、およびRAM63は、バス64により相互に接続されている。
 CPU61にはまた、バス64を介して入出力インターフェース65が接続されている。入出力インターフェース65には、タッチパネルやキーボード、マウス、マイクロフォンなどの入力部66、ディスプレイなどよりなる出力部67が接続されている。CPU61は、入力部66から入力される指令に対応して各種の処理を実行する。そして、CPU61は、処理の結果を出力部67に出力する。
 入出力インターフェース65に接続されている記録部68は、例えばハードディスクやSSD(Solid State Drive)からなり、CPU61が実行するコンピュータ・プログラムや各種のデータを記録する。通信部69は、インターネットやローカルエリアネットワークなどのネットワークやディジタル放送といった有線または無線の通信媒体を介して外部の装置と通信する。また、コンピュータ装置60は、通信部69を介してコンピュータ・プログラムを取得し、ROM62や記録部68に記録してもよい。
 ドライブ70は、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリなどのリムーバブルメディア72が装着されたとき、それらを駆動して、記録されているコンピュータ・プログラムやデータなどを取得する。取得されたコンピュータ・プログラムやデータは、必要に応じてROM62やRAM63または記録部68に転送される。
 CPU61は、上述した一連の処理を行うコンピュータ・プログラムを読み出して実行して、記録部68やリムーバブルメディア72に記録されている多視点画像の画像データや、通信部69を介して供給された多視点画像の画像データに対する符号化処理を行う。
 なお、本発明は、上述した実施の形態に限定して解釈されるべきではない。例えば多視点画像は左目画像と右目画像の2つの画像に限らず、3視点以上の画像であってもよい。この発明の実施の形態は、例示という形態で本発明を開示しており、本発明の要旨を逸脱しない範囲で当業者が実施の形態の修正や代用をなし得ることは自明である。すなわち、本発明の要旨を判断するためには、請求の範囲を参酌すべきである。
 この発明の画像処理装置と画像処理方法では、視点の異なる画像間の相関を示す特徴量が生成されて、この特徴量に基づいて、相関が予め設定した閾値より低いと判別した場合に、視点の異なる画像間の相関を利用する視差予測の参照ピクチャに割り当てる参照インデックスが、時間方向の画像間の相関を利用する時間予測の参照ピクチャに付け替えられる。したがって、多視点画像の符号化において、視点の異なる画像間での相関が低い場合の符号化効率を改善できる。このため、多視点画像の生成および符号化を行う撮像装置や、多視点画像の編集や符号化を行う編集装置、多視点画像の符号化を行って記録媒体に記録する記録装置等に適用できる。
 10・・・符号化システム、11L・・・左視点画像生成装置、11R・・・右視点画像生成装置、20・・・多視点符号化装置、20bv,20dv・・・画像符号化装置、21・・・A/D変換部、22・・・画面並べ替えバッファ、23・・・減算部、24・・・直交変換部、25・・・量子化部、26・・・可逆符号化部、27・・・蓄積バッファ、28・・・レート制御部、31・・・逆量子化部、32・・・逆直交変換部、33・・・加算部、34・・・デブロッキングフィルタ、35・・・フレームメモリ、41・・・特徴量生成部、45・・・参照インデックス割り当て部、51・・・イントラ予測部、52・・・動き・視差予測補償部、53・・・予測画像・最適モード選択部、60・・・コンピュータ装置、61・・・CPU(Central Processing Unit)、62・・・ROM(Read Only Memory)、63・・・RAM(Random Access Memory)、64・・・バス、65・・・入出力インターフェース、66・・・入力部、67・・・出力部、68・・・記録部、69・・・通信部、70・・・ドライブ、72・・・リムーバブルメディア

Claims (6)

  1.  視点の異なる画像間の相関を示す特徴量を生成する特徴量生成部と、
     前記特徴量生成部により生成された特徴量に基づいて前記相関が予め設定した閾値より低いと判別した場合に、前記視点の異なる画像間の相関を利用する視差予測の参照ピクチャに割り当てる参照インデックスを、時間方向の画像間の相関を利用する時間予測の参照ピクチャに付け替える参照インデックス割り当て部と
    を有する画像処理装置。
  2.  前記特徴量生成部は、GOPの先頭ピクチャの符号化処理に基づいて前記特徴量の生成を行い、
     前記参照インデックス割り当て部は、前記GOP内の前記先頭ピクチャに続く後続ピクチャに対して、前記特徴量に基づいた前記参照インデックスの割り当てを行う請求項1記載の画像処理装置。
  3.  前記特徴量生成部は、GOPの先頭ピクチャの符号化処理において、視差ベクトルを検出したときの符号化対象ブロックと参照ブロックとの誤差の画像内における合計値、画像内におけるイントラマクロブロックの割合、符号化対象ピクチャと視点の異なる参照ピクチャとの画像の複雑度の比の少なくともいずれかを算出して前記特徴量とする
    請求項2記載の画像処理装置。
  4.  前記参照インデックス割り当て部は、前記相関が予め設定した閾値より低いと判別した場合、時間方向に近接した非参照ピクチャを参照ピクチャとしたGOP構造とする
    請求項2記載の画像処理装置。
  5.  前記特徴量生成部は、動き検出によって動きベクトルを検出したときの符号化対象ブロックと参照ブロックとの誤差の画像内における合計値を算出して前記特徴量として、
     前記参照インデックス割り当て部は、前記特徴量の算出に用いたピクチャに続く後続ピクチャに対して、前記特徴量に基づいた前記参照インデックスの割り当てを行う請求項1記載の画像処理装置。
  6.  視点の異なる画像間の相関を示す特徴量を生成する特徴量生成工程と、
     前記特徴量生成工程で生成された特徴量に基づいて前記相関が予め設定した閾値より低いと判別した場合に、前記視点の異なる画像間の相関を利用する視差予測の参照ピクチャに割り当てる参照インデックスを、時間方向の画像間の相関を利用する時間予測の参照ピクチャに付け替える参照インデックス割り当て工程と
    を具備する画像処理方法。
PCT/JP2011/065560 2010-07-16 2011-07-07 画像処理装置と画像処理方法 WO2012008351A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US13/703,663 US20130088570A1 (en) 2010-07-16 2011-07-07 Image processing device and image processing method
EP11806681.0A EP2566167A4 (en) 2010-07-16 2011-07-07 IMAGE PROCESSING DEVICE AND IMAGE PROCESSING METHOD
KR20137000458A KR20130117749A (ko) 2010-07-16 2011-07-07 화상 처리 장치와 화상 처리 방법
CN2011800340239A CN102986234A (zh) 2010-07-16 2011-07-07 图像处理装置和图像处理方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010-161304 2010-07-16
JP2010161304A JP2012023652A (ja) 2010-07-16 2010-07-16 画像処理装置と画像処理方法

Publications (1)

Publication Number Publication Date
WO2012008351A1 true WO2012008351A1 (ja) 2012-01-19

Family

ID=45469354

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/065560 WO2012008351A1 (ja) 2010-07-16 2011-07-07 画像処理装置と画像処理方法

Country Status (6)

Country Link
US (1) US20130088570A1 (ja)
EP (1) EP2566167A4 (ja)
JP (1) JP2012023652A (ja)
KR (1) KR20130117749A (ja)
CN (1) CN102986234A (ja)
WO (1) WO2012008351A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103873872A (zh) * 2012-12-13 2014-06-18 联发科技(新加坡)私人有限公司 参考图像管理方法及装置

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5505154B2 (ja) 2010-07-16 2014-05-28 ソニー株式会社 画像処理装置と画像処理方法
US9979961B2 (en) 2011-03-18 2018-05-22 Sony Corporation Image processing device and image processing method
EP3267398A3 (en) 2011-03-18 2018-03-28 Sony Corporation Image processing apparatus and image processing method
JP2012257198A (ja) * 2011-05-17 2012-12-27 Canon Inc 立体画像符号化装置、その方法、および立体画像符号化装置を有する撮像装置
SG10201505808YA (en) 2011-06-30 2015-09-29 Sony Corp Image processing device and image processing method
AU2012303085A1 (en) 2011-08-31 2014-01-30 Sony Corporation Encoding device, encoding method, decoding device, and decoding method
US9854268B2 (en) * 2012-10-03 2017-12-26 Hfi Innovation Inc. Method and apparatus of motion data buffer reduction for three-dimensional video coding
TW201415898A (zh) 2012-10-09 2014-04-16 Sony Corp 影像處理裝置及方法
JP2015002512A (ja) * 2013-06-18 2015-01-05 三菱電機株式会社 画像符号化装置及び画像符号化方法
US10972751B2 (en) 2013-10-17 2021-04-06 Nippon Telegraph And Telephone Corporation Video encoding apparatus and method, and video decoding apparatus and method
JP2015119396A (ja) * 2013-12-19 2015-06-25 キヤノン株式会社 イントラ予測モード決定装置、イントラ予測モード決定方法、及びイントラ予測モード決定プログラム
JP6191505B2 (ja) 2014-02-28 2017-09-06 ブラザー工業株式会社 画像処理装置、及び、画像処理プログラム
WO2016006894A1 (ko) 2014-07-06 2016-01-14 엘지전자 주식회사 비디오 신호의 처리 방법 및 이를 위한 장치
WO2018097577A1 (ko) * 2016-11-25 2018-05-31 경희대학교 산학협력단 영상 병렬 처리 방법 및 장치
US10638130B1 (en) * 2019-04-09 2020-04-28 Google Llc Entropy-inspired directional filtering for image coding

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008283253A (ja) * 2007-05-08 2008-11-20 Sharp Corp 画像伝送システム、画像符号化装置、画像復号装置
WO2009001791A1 (ja) * 2007-06-25 2008-12-31 Nippon Telegraph And Telephone Corporation 映像符号化方法及び復号方法、それらの装置、それらのプログラム並びにプログラムを記録した記録媒体
JP2009159465A (ja) * 2007-12-27 2009-07-16 Victor Co Of Japan Ltd 多視点画像符号化方法、多視点画像符号化装置及び多視点画像符号化プログラム
JP2010063092A (ja) 2008-08-05 2010-03-18 Panasonic Corp 画像符号化装置、画像符号化方法、画像符号化集積回路およびカメラ

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000350156A (ja) * 1999-06-09 2000-12-15 Hitachi Ltd 動画像情報の記憶方法及びこれを記録した記録媒体
WO2001076257A1 (en) * 2000-03-31 2001-10-11 Koninklijke Philips Electronics N.V. Encoding of two correlated sequences of data
JP2004088737A (ja) * 2002-07-02 2004-03-18 Matsushita Electric Ind Co Ltd 画像符号化方法および画像復号化方法
US7489342B2 (en) * 2004-12-17 2009-02-10 Mitsubishi Electric Research Laboratories, Inc. Method and system for managing reference pictures in multiview videos
BRPI0413979A (pt) * 2003-08-26 2006-11-07 Thomson Licensing método e aparelho para minimizar o número de imagens de referência usadas para inter-codificação
US7728878B2 (en) * 2004-12-17 2010-06-01 Mitsubishi Electric Research Labortories, Inc. Method and system for processing multiview videos for view synthesis using side information
CN101283600B (zh) * 2005-10-05 2012-10-03 松下电器产业株式会社 参考图像选择方法以及装置
US8532178B2 (en) * 2006-08-25 2013-09-10 Lg Electronics Inc. Method and apparatus for decoding/encoding a video signal with inter-view reference picture list construction
JP5249242B2 (ja) * 2007-01-24 2013-07-31 エルジー エレクトロニクス インコーポレイティド ビデオ信号処理方法及び装置
JP5223318B2 (ja) * 2007-12-07 2013-06-26 ソニー株式会社 画像処理装置、画像処理方法およびプログラム
JP5156571B2 (ja) * 2008-10-10 2013-03-06 キヤノン株式会社 画像処理装置、画像処理方法
TWI384408B (zh) * 2009-04-30 2013-02-01 Ind Tech Res Inst 影像辨識以及輸出方法與其系統
JP5505154B2 (ja) * 2010-07-16 2014-05-28 ソニー株式会社 画像処理装置と画像処理方法
JP2012176232A (ja) * 2011-02-04 2012-09-13 Toshiba Corp 超音波診断装置、超音波画像処理装置及び超音波画像処理プログラム
WO2012172634A1 (ja) * 2011-06-13 2012-12-20 株式会社東芝 画像符号化装置、画像復号化装置、方法およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008283253A (ja) * 2007-05-08 2008-11-20 Sharp Corp 画像伝送システム、画像符号化装置、画像復号装置
WO2009001791A1 (ja) * 2007-06-25 2008-12-31 Nippon Telegraph And Telephone Corporation 映像符号化方法及び復号方法、それらの装置、それらのプログラム並びにプログラムを記録した記録媒体
JP2009159465A (ja) * 2007-12-27 2009-07-16 Victor Co Of Japan Ltd 多視点画像符号化方法、多視点画像符号化装置及び多視点画像符号化プログラム
JP2010063092A (ja) 2008-08-05 2010-03-18 Panasonic Corp 画像符号化装置、画像符号化方法、画像符号化集積回路およびカメラ

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2566167A4

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103873872A (zh) * 2012-12-13 2014-06-18 联发科技(新加坡)私人有限公司 参考图像管理方法及装置
CN103873872B (zh) * 2012-12-13 2017-07-07 联发科技(新加坡)私人有限公司 参考图像管理方法及装置

Also Published As

Publication number Publication date
CN102986234A (zh) 2013-03-20
US20130088570A1 (en) 2013-04-11
JP2012023652A (ja) 2012-02-02
EP2566167A4 (en) 2014-06-11
KR20130117749A (ko) 2013-10-28
EP2566167A1 (en) 2013-03-06

Similar Documents

Publication Publication Date Title
WO2012008351A1 (ja) 画像処理装置と画像処理方法
JP5505154B2 (ja) 画像処理装置と画像処理方法
TWI684354B (zh) 動態影像解碼裝置及動態影像解碼方法
US8649434B2 (en) Apparatus, method and program enabling improvement of encoding efficiency in encoding images
TWI543591B (zh) 寫碼視訊資料之方法、用於寫碼視訊資料之裝置及電腦可讀儲存媒體
KR100846512B1 (ko) 영상의 부호화, 복호화 방법 및 장치
US20120207219A1 (en) Picture encoding apparatus, picture encoding method, and program
TWI580263B (zh) Dynamic image decoding device, dynamic image decoding method and dynamic image decoding program
US20120014442A1 (en) Image processing device and image processing method
KR20130001303A (ko) 비디오 인코딩을 위한 전력 효율적인 움직임 추정 기법
WO2012098845A1 (ja) 画像符号化方法、画像符号化装置、画像復号方法及び画像復号装置
Van Wallendael et al. 3D video compression based on high efficiency video coding
KR20130108948A (ko) 적응적 전처리 기법을 이용한 영상 인코딩 방법
JP7343817B2 (ja) 符号化装置、符号化方法、及び符号化プログラム
WO2012128241A1 (ja) 画像処理装置、画像処理方法、及び、プログラム
WO2006110007A1 (en) Method for coding in multiview video coding/decoding system
KR20180019509A (ko) 비디오 코딩시 모션 벡터 선택 및 예측 시스템들 및 방법들
JP5946980B1 (ja) 画像復号化方法
JP6181242B2 (ja) 画像復号化方法
JP5951915B2 (ja) 画像復号化方法
JP5911982B2 (ja) 画像復号化方法
JP5750191B2 (ja) 画像復号化方法
JP5980616B2 (ja) 低遅延画像符号化装置及びその予測画像制御方法
CN118476225A (zh) 用于隐式地指示运动矢量预测值精度的方法和装置
CN118251890A (zh) 基于子块运动矢量的用于运动矢量预测的方法和装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201180034023.9

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11806681

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2011806681

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 13703663

Country of ref document: US

ENP Entry into the national phase

Ref document number: 20137000458

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE