WO2014057831A1 - 画像処理装置および方法 - Google Patents

画像処理装置および方法 Download PDF

Info

Publication number
WO2014057831A1
WO2014057831A1 PCT/JP2013/076485 JP2013076485W WO2014057831A1 WO 2014057831 A1 WO2014057831 A1 WO 2014057831A1 JP 2013076485 W JP2013076485 W JP 2013076485W WO 2014057831 A1 WO2014057831 A1 WO 2014057831A1
Authority
WO
WIPO (PCT)
Prior art keywords
reference picture
unit
picture
image
list
Prior art date
Application number
PCT/JP2013/076485
Other languages
English (en)
French (fr)
Inventor
良知 高橋
央二 中神
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to CN201380051783.XA priority Critical patent/CN104704834B/zh
Priority to JP2014540805A priority patent/JP6274527B2/ja
Priority to EP13845096.0A priority patent/EP2908528A4/en
Priority to US14/433,210 priority patent/US10291929B2/en
Publication of WO2014057831A1 publication Critical patent/WO2014057831A1/ja
Priority to US16/289,202 priority patent/US10873758B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/58Motion compensation with long-term prediction, i.e. the reference frame for a current frame not being the temporally closest one

Definitions

  • the present disclosure relates to an image processing apparatus and method, and more particularly, to an image processing apparatus and method capable of reducing a processing amount.
  • MPEG compressed by orthogonal transform such as discrete cosine transform and motion compensation
  • a device that conforms to a method such as Moving (Pictures Experts Group) has been widely used for both information distribution in broadcasting stations and information reception in general households.
  • MPEG2 International Organization for Standardization
  • IEC International Electrotechnical Commission
  • MPEG2 was mainly intended for high-quality encoding suitable for broadcasting, but it did not support encoding methods with a lower code amount (bit rate) than MPEG1, that is, a higher compression rate. With the widespread use of mobile terminals, the need for such an encoding system is expected to increase in the future, and the MPEG4 encoding system has been standardized accordingly. Regarding the image coding system, the standard was approved as an international standard in December 1998 as ISO / IEC 14496-2.
  • H.26L International Telecommunication Union Telecommunication Standardization Sector
  • Q6 / 16 VCEG Video Coding Expert Group
  • H.26L is known to achieve higher encoding efficiency than the conventional encoding schemes such as MPEG2 and MPEG4, although a large amount of calculation is required for encoding and decoding.
  • standardization that implements higher coding efficiency based on this H.26L and incorporating functions not supported by H.26L was done as Joint Model of-Enhanced-Compression Video Coding. .
  • AVC Advanced Video Coding
  • the macro block size of 16 pixels x 16 pixels is optimal for large image frames such as UHD (Ultra High Definition: 4000 pixels x 2000 pixels), which are the targets of the next generation coding system. There was no fear.
  • HEVC High Efficiency Efficiency Video Video Coding
  • JCTVC Joint Collaboration Collaboration Team Video Coding
  • a coding unit (Coding Unit) is defined as a processing unit similar to a macroblock in AVC.
  • the CU is not fixed to a size of 16 ⁇ 16 pixels like the AVC macroblock, and is specified in the image compression information in each sequence.
  • TMVP Temporal motion vector prediction
  • Non-Patent Document 2 when the reference picture type of the reference picture (reference picture) indicated by the reference index 0 of the current block is Short-term and the reference picture type of the collocated block is Long-term, the reference picture From the list, a reference index other than 0 indicating a reference picture whose reference picture type is Long-term is selected.
  • the reference picture type of the reference picture indicated by the reference index 0 of the current block is Long-term and the reference picture type of the collocated block is Short-term
  • the reference picture type is selected from the list of reference pictures.
  • a reference index other than 0 indicating a reference picture that is a short-term is selected.
  • This disclosure has been made in view of such circumstances, and aims to reduce the processing amount.
  • the image processing apparatus is based on restriction identification information that identifies that a reference list that is a list of reference picture specifying information that specifies a reference picture of a current picture is commonly used in the current picture.
  • a selection unit that selects a plurality of reference pictures having different reference picture types from the reference pictures represented by the reference picture specifying information included in the reference list, and a motion vector of a collocated picture at a different time from the current picture,
  • a predicted image that generates a predicted image of the current picture based on a reference picture of the same reference picture type as the reference picture type of the collocated picture among the plurality of reference pictures selected by the selection unit
  • An image processing apparatus including a generation unit.
  • the image processing method according to the first aspect of the present disclosure corresponds to the image processing apparatus according to the first aspect of the present disclosure.
  • restriction identification information that identifies that a reference list that is a list of reference picture specifying information that specifies a reference picture of a current picture is commonly used in the current picture
  • a plurality of reference pictures having different reference picture types are selected from the reference pictures represented by the reference picture specifying information included in the reference list, and a motion vector of a collocated picture at a different time from the current picture, and the selected plurality A predicted picture of the current picture is generated based on a reference picture of the same reference picture type as that of the collocated picture.
  • the image processing device is configured to add to the reference list based on change identification information that identifies that a reference list that is a list of reference picture specifying information that specifies a reference picture of a current picture is changed.
  • a selection unit that selects a plurality of reference pictures having different reference picture types from the reference picture represented by the included reference picture specifying information, a motion vector of a collocated picture at a different time from the current picture, and a selection by the selection unit
  • a prediction image generation unit that generates a prediction image of the current picture based on a reference picture of the same reference picture type as the reference picture type of the collocated picture among the plurality of reference pictures It is a processing device.
  • the image processing method according to the second aspect of the present disclosure corresponds to the image processing apparatus according to the second aspect of the present disclosure.
  • the reference list included in the reference list is based on change identification information that identifies that a reference list that is a list of reference picture specifying information that specifies a reference picture of a current picture is changed.
  • a plurality of reference pictures having different reference picture types are selected from the reference picture represented by the reference picture specifying information, and a motion vector of a collocated picture at a time different from that of the current picture is selected from the selected reference pictures.
  • a predicted image of the current picture is generated based on a reference picture of the same reference picture type as the reference picture type of the collocated picture.
  • an image can be processed.
  • the amount of processing can be reduced.
  • FIG. 3 is a block diagram illustrating a configuration example of a merged inter prediction unit of the motion parallax prediction / compensation unit of FIG. 2.
  • generation process of the image coding apparatus of FIG. 5 is a flowchart for explaining details of the encoding process of FIG. 4.
  • merge inter prediction process among the inter prediction processes of FIG. It is a block diagram which shows the structural example of 1st Embodiment of the image decoding apparatus to which this indication is applied.
  • FIG. 16 is a block diagram illustrating a configuration example of a personal computer.
  • FIG. 1 is a block diagram illustrating a configuration example of a first embodiment of an image encoding device as an image processing device to which the present disclosure is applied.
  • the image coding apparatus 1000 performs inter coding by motion prediction or parallax prediction on a multi-view image composed of images of a plurality of viewpoints (views).
  • the encoding unit 1001 of the image encoding device 1000 performs intra encoding or inter encoding by motion prediction or disparity prediction on a multi-view image input from the outside.
  • the encoding unit 1001 refers to restricted identification information (restricted_ref_pic_lists_flag) supplied from the setting unit 1002.
  • the restriction identification information is information for identifying that a reference list that is a list of reference image specifying information for specifying reference images of all slices in a picture is limited to the same reference list. That is, the restriction identification information is information for identifying that the reference list is commonly used in the picture.
  • the restriction identification information is 1 when indicating that the reference list of all slices in the picture is restricted to the same reference list, and 0 when indicating that the reference list is not restricted.
  • the encoding unit 1001 When the restriction identification information is 1, the encoding unit 1001 performs TMVP for merge by the method described in Non-Patent Document 2 in the merge mode. The encoding unit 1001 supplies encoded data of the multi-viewpoint image to the setting unit 1002.
  • the setting unit 1002 sets restriction identification information based on a user input or the like, and supplies it to the encoding unit 1001.
  • the setting unit 1002 sets a parameter set such as SPS or PPS (Picture Parameter Set) including restriction identification information.
  • the setting unit 1002 adds a parameter set to the encoded data supplied from the encoding unit 1001, generates an encoded stream, and supplies the encoded stream to the transmission unit 1003.
  • the transmission unit 1003 transmits the encoded stream supplied from the setting unit 1002 to a decoding device described later.
  • FIG. 2 is a block diagram illustrating a configuration example of the encoding unit 1001 in FIG.
  • the encoding unit 1001 in FIG. 2 encodes a multi-viewpoint image for each viewpoint using a prediction process, for example, like an encoding method such as AVC or HEVC.
  • the encoding unit 1001 includes an inverse quantization unit 1018, an inverse orthogonal transform unit 1019, a calculation unit 1020, a loop filter 1021, a decoded picture buffer 1022, a selection unit 1023, an intra prediction unit 1024, a motion parallax prediction / compensation unit 1025, A predicted image selection unit 1026 and a multi-viewpoint decoded picture buffer 1027 are included.
  • the A / D conversion unit 1011 performs A / D conversion on the input one-viewpoint image, and outputs to the screen rearrangement buffer 1012 for storage.
  • the screen rearrangement buffer 1012 rearranges the stored frame-by-frame images in the order of encoding according to the GOP (Group Of Picture) structure.
  • the screen rearrangement buffer 1012 supplies the rearranged image to the calculation unit 1013, the intra prediction unit 1024, and the motion parallax prediction / compensation unit 1025 together with the view ID and POC (Picture Order Count) of the image.
  • the view ID is information for identifying the viewpoint
  • the POC is information for identifying the time.
  • the calculation unit 1013 subtracts the prediction image supplied from the intra prediction unit 1024 or the motion parallax prediction / compensation unit 1025 via the prediction image selection unit 1026 from the image read from the screen rearrangement buffer 1012, and the difference Information is output to the orthogonal transform unit 1014.
  • the orthogonal transform unit 1014 performs orthogonal transform such as discrete cosine transform and Karoonen-Loeve transform on the difference information supplied from the computation unit 1013. Note that this orthogonal transformation method is arbitrary.
  • the orthogonal transform unit 1014 supplies the orthogonal transform coefficient to the quantization unit 1015.
  • the quantization unit 1015 quantizes the orthogonal transform coefficient supplied from the orthogonal transform unit 1014.
  • the quantization unit 1015 sets a quantization parameter based on the information regarding the code amount target value, and performs the quantization. Note that this quantization method is arbitrary.
  • the quantization unit 1015 supplies the quantized orthogonal transform coefficient to the lossless encoding unit 1016.
  • the lossless encoding unit 1016 performs lossless encoding on the orthogonal transform coefficient quantized by the quantization unit 1015 using an arbitrary encoding method, and generates an encoded image. Further, the lossless encoding unit 1016 acquires intra prediction information including information indicating an optimal intra prediction mode from the intra prediction unit 1024. The lossless encoding unit 1016 acquires inter prediction information including information indicating an optimal inter prediction mode, motion disparity vector information indicating a motion vector or a disparity vector, from the motion disparity prediction / compensation unit 1025. Further, the lossless encoding unit 1016 acquires the filter coefficient used in the loop filter 1021 and the like.
  • the lossless encoding unit 1016 encodes the various pieces of information by an arbitrary encoding method, and uses the encoded information as part of the header information of the encoded image.
  • the lossless encoding unit 1016 supplies the encoded data including the encoded image obtained by encoding and the header information to the accumulation buffer 1017 for accumulation.
  • Examples of the encoding method of the lossless encoding unit 1016 include variable length encoding or arithmetic encoding.
  • Examples of variable length coding include H.264.
  • CAVLC Context-Adaptive Variable Length Coding
  • Examples of arithmetic coding include CABAC (Context-Adaptive Binary Arithmetic Coding).
  • the accumulation buffer 1017 temporarily holds the encoded data supplied from the lossless encoding unit 1016.
  • the accumulation buffer 1017 supplies the stored encoded data to the setting unit 1002 in FIG. 1 at a predetermined timing.
  • the orthogonal transform coefficient quantized by the quantization unit 1015 is also supplied to the inverse quantization unit 1018.
  • the inverse quantization unit 1018 performs inverse quantization on the quantized orthogonal transform coefficient by a method corresponding to the quantization by the quantization unit 1015.
  • the inverse quantization method may be any method as long as it is a method corresponding to the quantization performed by the quantization unit 1015.
  • the inverse quantization unit 1018 supplies the obtained orthogonal transform coefficient to the inverse orthogonal transform unit 1019.
  • the inverse orthogonal transform unit 1019 performs inverse orthogonal transform on the orthogonal transform coefficient supplied from the inverse quantization unit 1018 by a method corresponding to the orthogonal transform by the orthogonal transform unit 1014, and obtains locally restored difference information.
  • the inverse orthogonal transform method may be any method as long as it corresponds to the orthogonal transform performed by the orthogonal transform unit 1014.
  • the difference information is supplied to the calculation unit 1020.
  • the calculation unit 1020 adds the prediction image supplied from the intra prediction unit 1024 or the motion parallax prediction / compensation unit 1025 to the locally restored difference information supplied from the inverse orthogonal transform unit 1019 via the prediction image selection unit 1026. Is added. Thereby, a locally reconstructed (decoded) image (hereinafter referred to as a reconstructed image) is generated.
  • the reconstructed image is supplied to the loop filter 1021 or the decoded picture buffer 1022.
  • the loop filter 1021 includes a deblocking filter, an adaptive offset filter (SAO (Sample adaptive offset)), an adaptive loop filter (ALF (Adaptive Loop Filter)), and the like. Perform filtering.
  • SAO Sample adaptive offset
  • ALF adaptive Loop Filter
  • the loop filter 1021 removes block distortion of the reconstructed image by performing deblocking filter processing on the reconstructed image. Further, for example, the loop filter 1021 performs image quality improvement by performing adaptive loop filter processing on the deblocking filter processing result using a Wiener filter.
  • the loop filter 1021 may perform arbitrary filter processing on the reconstructed image. Further, the loop filter 1021 supplies the filter coefficient used for the filter processing to the lossless encoding unit 1016.
  • the loop filter 1021 supplies the filter processing result (hereinafter referred to as a decoded image) to the decoded picture buffer 1022.
  • the decoded picture buffer 1022 stores the reconstructed image supplied from the arithmetic unit 1020 and the decoded image supplied from the loop filter 1021.
  • the decoded picture buffer 1022 stores the view ID and POC of the image.
  • the decoded picture buffer 1022 receives the stored reconstructed image and the view ID and POC of the image via the selection unit 1023 at a predetermined timing or based on an external request from the intra prediction unit 1024 or the like. And supplied to the intra prediction unit 1024.
  • the decoded picture buffer 1022 also stores the stored decoded image and the view ID and POC of the image at a predetermined timing or based on an external request from the motion parallax prediction / compensation unit 1025 or the like.
  • the data is supplied to the motion parallax prediction / compensation unit 1025 via the selection unit 1023.
  • the selection unit 1023 indicates a supply destination of an image output from the decoded picture buffer 1022.
  • the selection unit 1023 reads a reconstructed image that has not been filtered from the decoded picture buffer 1022, and uses the intra prediction unit as a peripheral image that is an image of a peripheral region positioned around the prediction processing target region. 1024.
  • the selection unit 1023 reads out a decoded image that has been filtered from the decoded picture buffer 1022, and supplies it as a reference image to the motion parallax prediction / compensation unit 1025.
  • the intra prediction unit 1024 When the intra prediction unit 1024 acquires a peripheral image from the decoded picture buffer 1022, the intra prediction unit 1024 basically performs intra prediction using a pixel value of the peripheral image to generate a prediction image using a prediction unit (PU) as a processing unit.
  • the intra prediction unit 1024 performs this intra prediction in a plurality of intra prediction modes prepared in advance.
  • the intra prediction unit 1024 evaluates the cost function value of each prediction image using the prediction image of each intra prediction mode and the image supplied from the screen rearrangement buffer 1012, and selects an optimal intra prediction mode. When the optimal intra prediction mode is selected, the intra prediction unit 1024 supplies the predicted image and the cost function value generated in the optimal intra prediction mode to the predicted image selection unit 1026.
  • the intra prediction unit 1024 supplies intra prediction information related to optimal intra prediction to the lossless encoding unit 1016.
  • the motion disparity prediction / compensation unit 1025 uses the image from the screen rearrangement buffer 1012 and the reference image from the decoded picture buffer 1022 to basically perform motion prediction or disparity prediction (inter prediction) using the PU as a processing unit. I do.
  • the motion disparity prediction / compensation unit 1025 detects a motion vector or a disparity vector using the image from the screen rearrangement buffer 1012 and the reference image when not in the merge mode. In the following, when it is not necessary to distinguish between a motion vector and a disparity vector, they are collectively referred to as a motion disparity vector.
  • the motion parallax prediction / compensation unit 1025 performs compensation processing on the reference image based on the detected motion parallax vector, and generates a predicted image.
  • the motion parallax prediction / compensation unit 1025 performs TMVP of merging based on the restriction identification information supplied from the setting unit 1002 in FIG. 1 to generate a predicted image.
  • the motion parallax prediction / compensation unit 1025 performs such inter prediction in a plurality of inter prediction modes prepared in advance.
  • the motion parallax prediction / compensation unit 1025 evaluates the cost function value of each prediction image using the prediction image of each inter prediction mode and the image supplied from the screen rearrangement buffer 1012, and selects an optimal inter prediction mode. select. When selecting the optimal inter prediction mode, the motion parallax prediction / compensation unit 1025 supplies the predicted image and the cost function value generated in the optimal inter prediction mode to the predicted image selection unit 1026.
  • the motion parallax prediction / compensation unit 1025 stores inter prediction information related to optimal inter prediction in a lossless encoding unit 1016. To supply.
  • the predicted image selection unit 1026 selects a supply source of a predicted image to be supplied to the calculation unit 1013 and the calculation unit 1020 based on the cost function values supplied from the intra prediction unit 1024 and the motion parallax prediction / compensation unit 1025.
  • the predicted image selection unit 1026 selects the intra prediction unit 1024 as a supply source of the predicted image. Then, the predicted image selection unit 1026 supplies the predicted image supplied from the intra prediction unit 1024 to the calculation unit 1013 and the calculation unit 1020.
  • the predicted image selection unit 1026 uses the motion parallax prediction / compensation unit as a source of the predicted image. Select 1025. Then, the predicted image selection unit 1026 supplies the predicted image supplied from the motion parallax prediction / compensation unit 1025 to the calculation unit 1013 and the calculation unit 1020.
  • the decoded picture buffer 1022 stores only the viewpoint image to be processed, and the view ID and POC of the image.
  • the multi-view decoded picture buffer 1027 stores the image of each viewpoint, and the view ID and POC of the image.
  • the multi-viewpoint decoded picture buffer 1027 acquires the decoded image supplied to the decoded picture buffer 1022 and the view ID and POC of the decoded image, and stores them together with the decoded picture buffer 1022.
  • the decoded picture buffer 1022 deletes the decoded image of the previous processing target viewpoint, but the multi-view decoding picture buffer 1027 holds it as it is. Then, in accordance with the request of the decoded picture buffer 1022 or the like, the stored decoded image, and the view ID and POC of the image are changed to “decoded image of the viewpoint that is not a processing target and view ID and POC of the decoded image”. Is supplied to the decoded picture buffer 1022.
  • the decoded picture buffer 1022 receives the “decoded image of the viewpoint not to be processed and the view ID and POC of the decoded image” read from the multi-view decoded picture buffer 1027 via the selection unit 1023, and a motion parallax prediction / compensation unit 1025.
  • FIG. 3 is a block diagram illustrating a configuration example of the merge inter prediction unit 1030 that performs inter prediction in the merge mode in the motion parallax prediction / compensation unit 1025 of FIG.
  • 3 includes a reference list generation unit 1031, a selection unit 1032, a merge candidate list generation unit 1033, a predicted image generation unit 1034, a calculation unit 1035, and an optimum mode determination unit 1036.
  • the reference list generation unit 1031 of the merge inter prediction unit 1030 generates a reference list based on the restriction identification information supplied from the setting unit 1002 of FIG.
  • the reference list generation unit 1031 performs the inter prediction using an image before or after the image to be encoded in the display order, that is, when performing unidirectional prediction, the image and the encoding
  • a reference list L0 for registering reference image specifying information for specifying an image having a different viewpoint as a reference image at the same time as the target image is generated.
  • the reference list generation unit 1031 displays the encoding target image before the encoding target image.
  • the reference list L0 for registering the reference image specifying information for specifying the image as the reference image is generated.
  • the reference list generation unit 1031 also generates a reference list L1 for registering reference image specifying information that specifies an image subsequent to the encoding target image in the display order as a reference image.
  • reference image specifying information for specifying an image having a different viewpoint as a reference image at the same time as the encoding target image is also registered.
  • Such a reference list is generated in units of pictures when the reference image specifying information is 1, and is generated in units of slices when the reference image specifying information is 0.
  • a reference index is assigned to each entry in the reference list as information for identifying the entry.
  • the entry of the reference index “0” includes reference picture specifying information of a reference picture of the same reference picture type as the reference picture type of the current block that is the current process target prediction block of the picture to be encoded.
  • the reference image specifying information is, for example, information indicating the POC of the reference image when the reference image is an image at a different time from the same viewpoint as the image to be encoded, and the reference image is the same time as the image to be encoded
  • the view ID of the reference image in the case of an image of a different viewpoint.
  • Short-term short-term reference picture
  • Long-term long-term reference picture
  • Short-term is a type of reference image of the same viewpoint that is close in time to the image to be encoded.
  • Long-term is a reference image of the same viewpoint that is far in time from the image to be encoded, or a reference image at the same time that has a different viewpoint from the image to be encoded.
  • the reference list is held in the reference list generation unit 1031.
  • the information for generating the reference list is encoded by, for example, the lossless encoding unit 1016 in FIG. 2 and included in the encoded data as part of the header information.
  • the selection unit 1032 uses a reference list of a reference picture type different from the reference picture type of the reference index “0” from the reference list held in the reference list generation unit 1031. Select the minimum value. That is, the selection unit 1032 selects a reference index assigned to an entry including reference image specifying information of a reference picture type of a reference picture type different from the reference picture type of the current block registered in the reference list. The selection unit 1032 supplies the reference image specifying information of the selected reference index and the reference image specifying information of the reference index “0” to the predicted image generating unit 1034.
  • the merge candidate list generation unit 1033 generates a merge candidate list based on the restriction identification information from the setting unit 1002.
  • a reference picture type of a collocated block (details will be described later) is registered in the entry, and a motion disparity vector of the collocated block is registered in the entry as a prediction vector candidate.
  • the motion disparity vector is scaled based on the temporal distance between the reference image and the encoding target image or the inter-viewpoint distance, and is set as a prediction vector candidate.
  • a collocated block is a prediction block at a different time or viewpoint at the same position as the current block. Also, for simplicity of explanation, only the motion disparity vector of the collocated block is used as a prediction vector candidate here, but actually, the motion disparity vectors of the prediction blocks around the current block are also prediction vector candidates. It is said.
  • a vector index for identifying each entry is assigned to each entry in the merge candidate list.
  • the merge candidate list generation unit 1033 holds the generated merge candidate list.
  • the predicted image generation unit 1034 reads the merge candidate list from the merge candidate list generation unit 1033.
  • the predicted image generation unit 1034 uses, for each entry in the merge candidate list, the motion disparity vector of the collocated picture and the reference image identification information of the same reference picture type as the collocated picture supplied from the selection unit 1032.
  • a predicted image is generated based on the identified reference image.
  • the predicted image generation unit 1034 is a reference index that is reference picture specifying information of the same reference picture type as the current block. Reference image specifying information of “0” is acquired from the selection unit 1032.
  • the predicted image generation unit 1034 has a reference picture type information other than the reference index “0” which is reference picture type information of a reference picture type different from the current block.
  • the reference image specifying information of the reference index is acquired from the selection unit 1032.
  • the predicted image generation unit 1034 acquires the reference image specified by the acquired reference image specifying information from the decoded picture buffer 1022 via the selection unit 1023. Then, the predicted image generation unit 1034 performs compensation processing on the read reference image based on the motion disparity vector included in the entry, and generates a predicted image.
  • the process of generating a predicted image as described above is performed in all inter prediction modes prepared in advance. That is, prediction images of current blocks having different sizes are generated.
  • the predicted image generation unit 1034 supplies the generated predicted image to the calculation unit 1035 together with the corresponding inter prediction mode and vector index.
  • the calculation unit 1035 calculates a cost function value for each predicted image based on the predicted image, the inter prediction mode, and the vector index supplied from the predicted image generation unit 1034, and the image supplied from the screen rearrangement buffer 1012. To do.
  • the calculation unit 1035 supplies the prediction image, the corresponding cost function value, the inter prediction mode, and the vector index to the optimum mode determination unit 1036.
  • the optimal mode determination unit 1036 determines the inter prediction mode of the prediction image that minimizes the cost function value supplied from the calculation unit 1035 as the optimal inter prediction mode.
  • the optimal mode determination unit 1036 supplies the prediction image and cost function value of the optimal inter prediction mode to the prediction image selection unit 1026.
  • the optimal mode determination unit 1036 and information indicating the optimal inter prediction mode and a vector index as motion disparity vector information Inter prediction information including the above is supplied to the lossless encoding unit 1016.
  • FIG. 4 is a flowchart for explaining stream generation processing of the image coding apparatus 1000 in FIG. This stream generation process is started when a multi-viewpoint image is input.
  • step S11 the encoding unit 1001 of the image encoding apparatus 1000 encodes the image of each viewpoint based on the restriction identification information set based on the user input or the like supplied from the setting unit 1002. I do. Details of this encoding process will be described with reference to FIG.
  • step S12 the setting unit 1002 sets a parameter set such as SPS and PPS including restriction identification information.
  • step S ⁇ b> 13 the setting unit 1002 adds a parameter set to the encoded data supplied from the encoding unit 1001, generates an encoded stream, and supplies the encoded stream to the transmission unit 1003.
  • step S14 the transmission unit 1003 transmits the encoded stream supplied from the setting unit 1002 to a decoding device to be described later.
  • FIG. 5 is a flowchart for explaining the details of the encoding process in step S11 of FIG. This encoding process is performed for each viewpoint on the multi-viewpoint image.
  • step S101 the A / D converter 1011 A / D converts the input image.
  • step S102 the screen rearrangement buffer 1012 stores the A / D converted image, and rearranges the picture from the display order to the encoding order.
  • the intra prediction unit 1024 performs intra prediction processing in a plurality of intra prediction modes prepared in advance, and generates a predicted image. Also, the intra prediction unit 1024 calculates a cost function value based on the predicted image and the image supplied from the screen rearrangement buffer 1012 for each intra prediction mode. Then, the intra prediction unit 1024 selects the intra prediction mode that minimizes the cost function value as the optimal intra prediction mode. The intra prediction unit 1024 supplies the predicted image and the cost function value generated in the optimum intra prediction mode to the predicted image selection unit 1026.
  • step S104 the motion parallax prediction / compensation unit 1025 performs inter prediction processing in a plurality of inter prediction modes prepared in advance based on the restriction identification information supplied from the setting unit 1002, and generates a prediction image.
  • the motion parallax prediction / compensation unit 1025 calculates a cost function value based on the predicted image and the image supplied from the screen rearrangement buffer 1012 for each inter prediction mode. Then, the motion parallax prediction / compensation unit 1025 selects the inter prediction mode that minimizes the cost function value as the optimal inter prediction mode.
  • the motion parallax prediction / compensation unit 1025 supplies the predicted image and the cost function value generated in the optimal inter prediction mode to the predicted image selection unit 1026.
  • step S ⁇ b> 105 the predicted image selection unit 1026 selects the predicted image supplied from the intra prediction unit 1024 and the predicted image supplied from the motion parallax prediction / compensation unit 1025, having the smaller cost function value.
  • the intra prediction unit 1024 supplies the intra prediction information to the lossless encoding unit 1016.
  • the motion parallax prediction / compensation unit 1025 supplies the inter prediction information to the lossless encoding unit 1016.
  • step S106 the calculation unit 1013 calculates a difference between the image rearranged by the process of step S102 and the predicted image selected by the process of step S105.
  • the generated difference information has a data amount reduced as compared with the original image. Therefore, the data amount can be compressed as compared with the case where the image is encoded as it is.
  • step S107 the orthogonal transform unit 1014 orthogonally transforms the difference information generated by the process in step S106. Specifically, orthogonal transformation such as discrete cosine transformation and Karhunen-Loeve transformation is performed, and orthogonal transformation coefficients are output.
  • step S108 the quantization unit 1015 quantizes the orthogonal transform coefficient obtained by the process of step S107.
  • the difference information quantized by the processing in step S108 is locally decoded as follows. That is, in step S109, the inverse quantization unit 1018 inversely quantizes the quantized orthogonal transform coefficient generated by the process in step S108 with characteristics corresponding to the characteristics of the quantization unit 1015. In step S110, the inverse orthogonal transform unit 1019 performs inverse orthogonal transform on the orthogonal transform coefficient obtained by the process in step S109 with characteristics corresponding to the characteristics of the orthogonal transform unit 1014. Thereby, the difference information is restored.
  • step S111 the calculation unit 1020 adds the predicted image selected in step S105 to the difference information generated in step S110, and generates a reconstructed image.
  • step S112 the loop filter 1021 appropriately performs filter processing including deblock filter processing and adaptive loop filter processing on the reconstructed image obtained by the processing in step S111 to generate a decoded image.
  • the loop filter 1021 supplies the filter coefficient and the like used for the filter processing to the lossless encoding unit 1016.
  • step S113 the decoded picture buffer 1022 stores the decoded image generated by the process of step S112, the reconstructed image generated by the process of step S111, and the like.
  • the multi-viewpoint decoded picture buffer 1027 stores the decoded image generated by the process of step S112.
  • step S114 the lossless encoding unit 1016 performs lossless encoding on the orthogonal transform coefficient quantized by the processing in step S108, and generates an encoded image.
  • the lossless encoding unit 1016 encodes intra prediction information or inter prediction information, filter coefficients, and the like, and generates header information. Then, the lossless encoding unit 1016 generates encoded data from the encoded image and header information.
  • step S115 the accumulation buffer 1017 accumulates the encoded data obtained by the process in step S114.
  • the encoded data accumulated in the accumulation buffer 1017 is appropriately read and supplied to the setting unit 1002 in FIG.
  • step S116 the quantization unit 1015 performs a quantization operation so that overflow or underflow does not occur based on the code amount (generated code amount) of the encoded data accumulated in the accumulation buffer 1017 by the process in step S115. Control the rate of
  • step S116 When the process of step S116 is completed, the process returns to step S11 of FIG. 4, and the process of step S12 is performed.
  • FIG. 6 is a flowchart for explaining the merge inter prediction process that is the inter prediction process in the merge mode in the inter prediction process in step S104 of FIG. This merge inter prediction process is performed in units of pictures when a multi-view image is encoded in the merge mode.
  • step S1201 the reference list generation unit 1031 (FIG. 3) of the merge inter prediction unit 1030 determines whether or not the restriction identification information (restricted_ref_pic_lists_flag) supplied from the setting unit 1002 is 1. If it is determined in step S1201 that the restriction identification information is 1, the process proceeds to step S1202.
  • the restriction identification information restricted_ref_pic_lists_flag
  • the reference list generating unit 1031 generates and holds a reference list for each picture.
  • the information for generating the reference list is encoded by, for example, the lossless encoding unit 1016 in FIG. 2 and included in the encoded data as part of the header information.
  • step S1203 the selection unit 1032 searches the reference list L0 generated by the reference list generation unit 1031 for the minimum value of the reference index of the reference picture type different from the reference picture type of the reference index “0”.
  • the selection unit 1032 searches the reference list L0 for one or more reference indexes in ascending order, and the reference image specifying information of the reference picture type different from the reference picture type of the reference index “0”. Keep looking until you find it.
  • the selection unit 1032 when the reference picture type of the reference index “0” is Short-term, the selection unit 1032 until the reference index including the reference picture specifying information of the reference picture having the reference picture type Long-term as an entry is found. Continue searching for one or more reference indexes in ascending order.
  • the selection unit 1032 finds a reference index including the reference picture specifying information of the reference picture whose reference picture type is Short-term as an entry. Until one or more reference indexes are searched in ascending order. The selection unit 1032 supplies the reference image specifying information included in the searched reference index entry to the predicted image generation unit 1034.
  • step S1204 when the reference list L1 is generated by the reference list generator 1031, the selection unit 1032 determines the reference picture type of the reference index “0” in the reference list L1 as in the case of the reference list L0. Search for the minimum reference index of different reference picture types.
  • the selection unit 1032 supplies the reference image specifying information included in the searched reference index entry to the predicted image generation unit 1034.
  • the selection unit 1032 supplies the reference image specifying information included in the entry with the reference index “0” to the predicted image generation unit 1034.
  • step S1205 the merge candidate list generation unit 1033 generates and holds a merge candidate list for registering corresponding motion disparity vectors as prediction vector candidates in the entry together with reference picture types of all collocated blocks.
  • step S1206 for each entry in the merge candidate list, the predicted image generation unit 1034 determines whether the reference picture type of the current block matches the reference picture type of the collocated block included in the entry. . Then, when the reference picture types are different, the predicted image generation unit 1034 uses the reference image specifying information of the reference index other than 0 among the reference image specifying information supplied from the selection unit 1032 as the reference image specifying information of the current block. select.
  • the predicted image generation unit 1034 uses the reference image identification information of the reference index “0” in the reference image identification information supplied from the selection unit 1032 as the reference image identification of the current block. Select as information. Then, the process proceeds to step S1210.
  • the reference list generation unit 1031 generates a reference list for each slice, Hold.
  • the information for generating the reference list is encoded by, for example, the lossless encoding unit 1016 and included in the encoded data as part of the header information.
  • step S1208 the selection unit 1032 supplies the reference image specifying information of the reference index “0” of the generated reference list to the predicted image generation unit 1034.
  • the predicted image generation unit 1034 uses the reference image specifying information as the reference image specifying information of the current block.
  • step S1209 the merge candidate list generation unit 1033 determines whether the reference picture type of the current block matches the reference picture type of each collocated block. When the reference picture type of the collocated block is different from the reference picture type of the current block, the merge candidate list generation unit 1033 excludes the motion disparity vector of the collocated block from the prediction vector candidates, Generate and maintain a merge candidate list. Then, the process proceeds to step S1210.
  • step S1210 the predicted image generation unit 1034 generates a predicted image based on the reference image specified by the reference image specifying information of the current block and the prediction vector included in each entry of the merge candidate list.
  • the predicted image generation unit 1034 supplies the generated predicted image to the calculation unit 1035 together with the corresponding inter prediction mode and vector index.
  • step S1211 the calculation unit 1035 calculates the cost function value for each prediction image based on the prediction image from the prediction image generation unit 1034, the inter prediction mode, the vector index, and the image supplied from the screen rearrangement buffer 1012. Is calculated.
  • the calculation unit 1035 supplies the prediction image, the corresponding cost function value, the inter prediction mode, and the vector index to the optimum mode determination unit 1036.
  • step S1212 the optimal mode determination unit 1036 selects the inter prediction mode of the prediction image that minimizes the cost function value supplied from the calculation unit 1035 as the optimal inter prediction mode.
  • the optimal mode determination unit 1036 supplies the prediction image and cost function value of the optimal inter prediction mode to the prediction image selection unit 1026. Then, the process ends.
  • FIG. 7 is a block diagram illustrating a configuration example of a first embodiment of an image decoding apparatus as an image processing apparatus to which the present disclosure is applied, which decodes an encoded stream transmitted from the image encoding apparatus 1000 in FIG. It is.
  • the image decoding apparatus 1100 in FIG. 7 includes a receiving unit 1101, an extracting unit 1102, and a decoding unit 1103.
  • the receiving unit 1101 of the image decoding apparatus 1100 receives the encoded stream transmitted from the image encoding apparatus 1000 and supplies the encoded stream to the extracting unit 1102.
  • the extraction unit 1102 extracts parameter sets such as SPS and PPS including restriction identification information and multi-view image encoded data from the encoded stream supplied from the receiving unit 1101, and supplies the extracted data to the decoding unit 1103.
  • parameter sets such as SPS and PPS including restriction identification information and multi-view image encoded data
  • the decoding unit 1103 performs intra decoding or inter decoding based on motion prediction or disparity prediction on the encoded data supplied from the extraction unit 1102 in a scheme corresponding to the image encoding apparatus 1000. Specifically, when the restriction identification information included in the SPS supplied from the extraction unit 1102 is 1, the decoding unit 1103 performs TMVP for merge by the method described in Non-Patent Document 2 in the merge mode. . The decoding unit 1103 outputs a multi-viewpoint image obtained as a result of decoding.
  • FIG. 8 is a block diagram illustrating a configuration example of the decoding unit 1103 in FIG.
  • the decoding unit 1103 in FIG. 8 decodes a multi-viewpoint image for each viewpoint by a method corresponding to the encoding unit 1001 in FIG.
  • the decoding unit 1103 includes a storage buffer 1121, a lossless decoding unit 1122, an inverse quantization unit 1123, an inverse orthogonal transform unit 1124, a calculation unit 1125, a loop filter 1126, a screen rearrangement buffer 1127, and a D / A conversion unit 1128.
  • the decoding unit 1103 includes a decoded picture buffer 1129, a selection unit 1130, an intra prediction unit 1131, a motion parallax compensation unit 1132, a selection unit 1133, and a multiview decoded picture buffer 1134.
  • the accumulation buffer 1121 accumulates the encoded data supplied from the extraction unit 1102 in FIG. 7, and supplies the encoded data to the lossless decoding unit 1122 at a predetermined timing.
  • the lossless decoding unit 1122 decodes the encoded data supplied from the accumulation buffer 1121 by a method corresponding to the encoding method of the lossless encoding unit 1016.
  • the lossless decoding unit 1122 supplies the quantized orthogonal transform coefficient obtained by decoding to the inverse quantization unit 1123.
  • the lossless decoding unit 1122 supplies intra prediction information obtained by decoding the encoded data to the intra prediction unit 1131 and supplies inter prediction information and the like to the motion parallax compensation unit 1132.
  • the lossless decoding unit 1122 supplies the filter coefficient obtained by decoding the encoded data to the loop filter 1126.
  • the inverse quantization unit 1123 dequantizes the quantized orthogonal transform coefficient supplied from the lossless decoding unit 1122 by a method corresponding to the quantization method of the quantization unit 1015 in FIG. Is supplied to the inverse orthogonal transform unit 1124.
  • the inverse orthogonal transform unit 1124 performs inverse orthogonal transform on the orthogonal transform coefficient supplied from the inverse quantization unit 1123 in a method corresponding to the orthogonal transform method of the orthogonal transform unit 1014 in FIG.
  • the difference information obtained by the inverse orthogonal transform is supplied to the calculation unit 1125.
  • a prediction image is supplied to the calculation unit 1125 from the intra prediction unit 1131 or the motion parallax compensation unit 1132 via the selection unit 1133.
  • the calculation unit 1125 adds the difference information and the predicted image to obtain a reconstructed image.
  • the arithmetic unit 1125 supplies the reconstructed image to the loop filter 1126 and the decoded picture buffer 1129.
  • the loop filter 1126 uses the filter coefficients supplied from the lossless decoding unit 1122 to perform a filtering process on the reconstructed image from the calculation unit 1125 in the same manner as the loop filter 1021 in FIG. 2 to generate a decoded image. To do.
  • the loop filter 1126 supplies the decoded image to the screen rearrangement buffer 1127 and the decoded picture buffer 1129.
  • the screen rearrangement buffer 1127 rearranges the supplied decoded images. That is, the order of frames rearranged in the encoding order by the screen rearrangement buffer 1012 in FIG. 2 is rearranged in the original display order.
  • the D / A conversion unit 1128 D / A converts the decoded image supplied from the screen rearrangement buffer 1127, and outputs and displays the decoded image on a display (not shown).
  • the decoded picture buffer 1129 stores the supplied reconstructed image, the view ID and POC of the image, the decoded image, and the view ID and POC of the image. In addition, the decoded picture buffer 1129 selects the stored reconstructed image, and the view ID and POC of the image, at a predetermined timing or based on an external request from the intra prediction unit 1131 or the like. To the intra prediction unit 1131.
  • the decoded picture buffer 1129 selects the stored decoded image, and the view ID and POC of the image, at a predetermined timing or based on an external request such as the motion parallax compensation unit 1132, and the selection unit 1130. Is supplied to the motion parallax compensation unit 1132.
  • the intra prediction unit 1131 acquires a reconstructed image as a peripheral image from the decoded picture buffer 1129 via the selection unit 1130 based on the intra prediction information indicated by the intra prediction mode information supplied from the lossless decoding unit 1122. And The intra prediction unit 1131 supplies the predicted image to the calculation unit 1125 via the selection unit 1133.
  • the motion parallax compensation unit 1132 reads out the decoded image as a reference image based on the inter prediction information supplied from the lossless decoding unit 1122 and the restriction identification information supplied from the extraction unit 1102, and performs compensation processing.
  • the motion parallax compensation unit 1132 supplies the prediction image generated as a result to the calculation unit 1125 via the selection unit 1133.
  • the selection unit 1133 supplies the prediction image supplied from the intra prediction unit 1131 or the prediction image supplied from the motion parallax compensation unit 1132 to the calculation unit 1125.
  • the decode picture buffer 1129 stores only the viewpoint image to be processed, and the view ID and POC of the image.
  • the multi-view decode picture buffer 1134 stores the image of each viewpoint, and the view ID and POC of the image.
  • the multi-viewpoint decoded picture buffer 1134 acquires the decoded image supplied to the decoded picture buffer 1129 and the view ID and POC of the decoded image, and stores them together with the decoded picture buffer 1129.
  • the decoded picture buffer 1129 deletes the decoded image, but the multi-view decoded picture buffer 1134 holds it as it is. Then, in accordance with a request from the decoded picture buffer 1129 or the like, the stored decoded image and the view ID and POC of the decoded image are supplied to the decoded picture buffer 1129 as “decoded image of a viewpoint that is not a processing target”.
  • the decoded picture buffer 1129 sends the “decoded image of the viewpoint not to be processed and the view ID and POC of the decoded image” read from the multi-view decoded picture buffer 1134 to the motion parallax compensation unit 1132 via the selection unit 1130. Supply.
  • FIG. 9 is a block diagram illustrating a configuration example of the merge inter prediction unit 1150 that performs inter prediction in the merge mode in the motion parallax compensation unit 1132 in FIG. 8.
  • 9 includes a reference list generation unit 1151, a selection unit 1152, a merge candidate list generation unit 1153, and a predicted image generation unit 1154.
  • the reference list generation unit 1151 of the merge inter prediction unit 1150 is generated by the reference list generation unit 1031 of FIG. 3 based on the information for generating the reference list supplied from the lossless decoding unit 1122 and the restriction identification information. Generate a reference list identical to the reference list. The reference list is held in the reference list generation unit 1151.
  • the selection unit 1152 determines the minimum reference index of a reference picture type different from the reference picture type of the reference index “0” from the reference list, similarly to the selection unit 1032 of FIG. 3. Select a value.
  • the selection unit 1152 supplies the reference image specifying information of the selected reference index and the reference image specifying information of the reference index “0” to the predicted image generating unit 1154.
  • the merge candidate list generation unit 1153 merges the prediction block in the inter prediction mode indicated by the inter prediction information from the lossless decoding unit 1122 in FIG. 8 based on the restriction identification information, similarly to the merge candidate list generation unit 1033 in FIG. Generate a candidate list.
  • the merge candidate list generation unit 1153 holds the generated merge candidate list.
  • the prediction image generation unit 1154 reads the vector index entry included in the inter prediction information from the merge candidate list. When the reference picture type included in the read entry is the same as the reference picture type of the current block, the predicted image generation unit 1154 acquires the reference image specifying information with the reference index “0” from the selection unit 1152.
  • the predicted image generation unit 1154 acquires the reference image specifying information of the reference index other than the reference index “0” from the selection unit 1152.
  • the predicted image generation unit 1154 acquires the reference image specified by the acquired reference image specifying information from the decoded picture buffer 1022 via the selection unit 1130.
  • the predicted image generation unit 1154 performs compensation processing on the read reference image based on the motion disparity vector included in the entry, and generates a predicted image.
  • the predicted image generation unit 1154 supplies the generated predicted image to the selection unit 1133.
  • FIG. 10 is a flowchart for describing image generation processing of the image decoding apparatus 1100 of FIG. This image generation process is started, for example, when an encoded stream is transmitted from the image encoding apparatus 1000.
  • step S1221 the reception unit 1101 of the image decoding device 1100 receives the encoded stream transmitted from the image encoding device 1000 and supplies the encoded stream to the extraction unit 1102.
  • step S1222 the extraction unit 1102 extracts parameter sets such as SPS and PPS including restriction identification information and encoded data from the encoded stream supplied from the reception unit 1101, and supplies the extracted data to the decoding unit 1103.
  • parameter sets such as SPS and PPS including restriction identification information and encoded data
  • step S1223 the decoding unit 1103 performs decoding processing on the encoded data supplied from the extraction unit 1102 in a scheme corresponding to the image encoding device 1000 for each viewpoint. Details of this decoding process will be described with reference to FIG. After the process of step S1223, the process ends.
  • FIG. 11 is a flowchart for explaining details of the decoding process in step S1223 of FIG. This decoding process is performed for each viewpoint on the encoded data of the multi-viewpoint image.
  • step S1241 the accumulation buffer 1121 accumulates the encoded data supplied from the extraction unit 1102.
  • step S1242 the lossless decoding unit 1122 performs lossless decoding of the encoded data supplied from the accumulation buffer 1121.
  • the lossless decoding unit 1122 supplies the quantized orthogonal transform coefficient obtained by decoding to the inverse quantization unit 1123.
  • the lossless decoding unit 1122 supplies intra prediction information obtained by decoding the encoded data to the intra prediction unit 1131 and supplies inter prediction information and the like to the motion parallax compensation unit 1132.
  • the lossless decoding unit 1122 supplies the filter coefficient obtained by decoding the encoded data to the loop filter 1126.
  • step S1243 the inverse quantization unit 1123 obtains the quantized orthogonal transform coefficient supplied from the lossless decoding unit 1122 by inverse quantization using a method corresponding to the quantization method of the quantization unit 1015 in FIG.
  • the orthogonal transform coefficient is supplied to the inverse orthogonal transform unit 1124.
  • step S1244 the inverse orthogonal transform unit 1124 performs inverse orthogonal transform on the orthogonal transform coefficient supplied from the inverse quantization unit 1123 by a method corresponding to the orthogonal transform method of the orthogonal transform unit 1014 in FIG.
  • the inverse orthogonal transform unit 1124 obtains difference information by the inverse orthogonal transform and supplies the difference information to the calculation unit 1125.
  • step S1245 when the intra prediction information is supplied from the lossless decoding unit 1122, the intra prediction unit 1131 performs an intra prediction process based on the intra prediction information.
  • the motion parallax compensation unit 1132 when the inter prediction information is supplied from the lossless decoding unit 1122, the motion parallax compensation unit 1132 performs an inter prediction process based on the inter prediction information and the restriction identification information from the extraction unit 1102.
  • a prediction image obtained as a result of the intra prediction process or the inter prediction process is supplied to the calculation unit 1125 via the selection unit 1133.
  • step S1246 the calculation unit 1125 adds the difference information to the predicted image to generate a reconstructed image.
  • step S1247 the loop filter 1126 performs filter processing on the reconstructed image generated by the calculation unit 1125 using the filter coefficient supplied from the lossless decoding unit 1122. Thereby, a decoded image is generated.
  • step S1248 the screen rearrangement buffer 1127 rearranges the decoded images generated by the loop filter 1126. That is, the order of frames rearranged for encoding by the screen rearrangement buffer 1012 of the encoding unit 1001 is rearranged to the original display order.
  • step S1249 the D / A conversion unit 1128 D / A converts the decoded images rearranged by the screen rearrangement buffer 1127.
  • the decoded image is output and displayed on a display (not shown).
  • the decoded picture buffer 1129 and the multiview decoded picture buffer 1134 store the decoded image generated by the loop filter 1126, and the like. This decoded image is used as a reference image in the inter prediction process.
  • the decoded picture buffer 1129 stores the reconstructed image generated by the calculation unit 1125 and the like. This reconstructed image is used as a peripheral image in the intra prediction process.
  • step S1250 When the process in step S1250 is completed, the process returns to step S1223 in FIG. 10 and the process ends.
  • FIG. 12 is a flowchart illustrating merge inter prediction processing that is inter prediction processing in merge mode in the prediction processing in step S1245 of FIG. This merge inter prediction process is performed in units of pictures when a multi-view image is decoded in the merge mode.
  • the reference list generation unit 1151 (FIG. 9) of the merge inter prediction unit 1150 determines whether or not the restriction identification information (restricted_ref_pic_lists_flag) supplied from the extraction unit 1102 is “1”. If it is determined in step S1301 that the restriction identification information is 1, the process proceeds to step S1302.
  • step S1302 the reference list generation unit 1151 generates and holds a reference list for each picture based on the information for generating the reference list supplied from the lossless decoding unit 1122.
  • step S1303 the selection unit 1152 searches the reference list L0 generated by the reference list generation unit 1151 for the minimum value of the reference index of the reference picture type different from the reference picture type of the reference index “0”.
  • step S1304 when the reference list L1 is generated by the reference list generation unit 1031, the selection unit 1152 determines the reference picture type of the reference index “0” in the reference list L1 as in the case of the reference list L0. Search for the minimum reference index of different reference picture types.
  • the subsequent steps S1305, S1306, S1309, and S1310 are performed in units of prediction blocks in the optimal inter prediction mode indicated by the inter prediction information.
  • step S1305 the merge candidate list generation unit 1153 generates and holds a merge candidate list for registering the corresponding motion disparity vector as a prediction vector candidate in the entry together with the reference picture types of all the collocated blocks.
  • step S1306 the predicted image generation unit 1154 determines whether the reference picture type of the current block matches the reference picture type of the collocated block included in the entry of the vector index merge candidate list included in the inter prediction information. Determine if. Then, when the reference picture types are different, the predicted image generation unit 1034 uses the reference image specifying information of the reference index other than 0 among the reference image specifying information supplied from the selection unit 1152 as the reference image specifying information of the current block. select.
  • the predicted image generation unit 1154 uses the reference image specifying information of the reference index “0” in the reference image specifying information supplied from the selection unit 1152 as the reference image of the current block. Select as specific information.
  • the reference list generation unit 1151 refers to the reference supplied from the lossless decoding unit 1122. A reference list for each slice is generated and held based on the information for generating the list.
  • step S1308 the selection unit 1152 supplies the reference image specifying information of the reference index “0” of the generated reference list to the predicted image generation unit 1154.
  • the predicted image generation unit 1154 uses the reference image specifying information as the reference image specifying information of the current block.
  • step S1309 the merge candidate list generation unit 1153 determines whether the reference picture type of the current block matches the reference picture type of each collocated block. Then, when the reference picture type of the collocated block is different from the reference picture type of the current block, the merge candidate list generation unit 1153 excludes the motion disparity vector of the collocated block from the prediction vector candidates, Generate and maintain a merge candidate list. Then, the process proceeds to step S1310.
  • step S1310 the predicted image generation unit 1154, based on the reference image specified by the reference image specifying information of the current block and the predicted vector included in the entry of the vector index merge candidate list included in the inter prediction information, A prediction image is generated. Then, the process ends.
  • Non-Patent Document 2 a search for the minimum reference index of a reference picture type different from the reference picture type of the reference index “0” is performed in slice units.
  • a slice can be divided up to 600 slices.
  • the search for the smallest reference index of the reference picture type different from the reference picture type of the reference index “0” is performed in units of pictures. Do. As a result, the number of worst case searches can be reduced to 1/600 times 30 times.
  • FIG. 13 is a block diagram illustrating a configuration example of a second embodiment of an image encoding device as an image processing device to which the present disclosure is applied.
  • the image encoding device 1300 in FIG. 13 includes an encoding unit 1301, a setting unit 1302, and a transmission unit 1303.
  • the image encoding device 1300 searches for the minimum reference index of the reference picture type different from the reference picture type of the reference index “0” based on the change identification information (lists_modification_present_flag) that identifies that the reference list is changed. .
  • the encoding unit 1301 of the image encoding device 1300 performs intra encoding or inter encoding by motion prediction or disparity prediction on a multi-view image input from the outside.
  • the encoding unit 1301 refers to the change identification information supplied from the setting unit 1302.
  • the encoding unit 1301 when the change identification information is 1 indicating that the reference list is changed, the encoding unit 1301 performs the TMVP of merging by the method described in Non-Patent Document 2 in the merge mode. . That is, the encoding unit 1301 searches for the minimum value of the reference index of the reference picture type different from the reference picture type of the reference index “0”.
  • the encoding unit 1301 when the change identification information is 0 indicating that the reference list is not changed, the encoding unit 1301 does not search for the minimum value of the reference index in the merge mode, and replaces the predetermined reference index with the reference index “ A reference index of a reference picture type different from the reference picture type of “0” is used.
  • the encoding unit 1301 supplies encoded data obtained as a result of encoding to the setting unit 1302.
  • the setting unit 1302 sets change identification information, RPS (Reference Picture Set) including the number of short-term pictures, the number of long-term pictures, the number of reference images, and the like based on user input and the like. 1301 is supplied.
  • a short-term picture is a reference picture whose reference picture type is Short-term
  • a long-term picture is a reference picture whose reference picture type is Long-term.
  • the setting unit 1302 sets the SPS including the number of long-term pictures, the number of reference images, the PPS including change identification information, and the like.
  • the setting unit 1302 adds a parameter set such as SPS, PPS, or RPS to the encoded data supplied from the encoding unit 1301, generates an encoded stream, and supplies the encoded stream to the transmission unit 1303.
  • the transmission unit 1303 transmits the encoded stream supplied from the setting unit 1302 to a decoding device to be described later.
  • the configuration of the encoding unit 1301 in FIG. 13 is the same as the configuration of the encoding unit 1001 in FIG. 2 except for the merge inter prediction unit in the motion parallax prediction / compensation unit 1025. Therefore, only the configuration of the merge inter prediction unit of the encoding unit 1301 will be described here.
  • FIG. 14 is a block diagram showing a configuration of merged inter prediction unit 1320 of coding unit 1301 in FIG.
  • the reference list generation unit 1321 of the merge inter prediction unit 1320 generates and holds a reference list for each slice.
  • a reference list generation method a method similar to that of the reference list generation unit 1031 can be used.
  • the selection unit 1322 detects the reference image specifying information of the reference index “0” from the reference list held in the reference list generation unit 1321, and supplies the reference image specifying information to the predicted image generation unit 1034. Further, when the change identification information from the setting unit 1302 is 1, the selection unit 1322 selects the minimum value of the reference index of the reference picture type different from the reference picture type of the reference index “0” from the reference list. The selection unit 1032 supplies the reference image specifying information of the reference index to the predicted image generation unit 1034.
  • the selection unit 1322 sets a reference picture type different from the reference index “0” based on the RPS from the setting unit 1302, the number of long-term pictures, the number of reference images, and the like. Determine the minimum value of the corresponding reference index.
  • the selection unit 1032 detects the reference image specifying information of the reference index from the reference list and supplies it to the predicted image generation unit 1034.
  • the merge candidate list generation unit 1323 generates a merge candidate list for registering the corresponding motion disparity vector as a prediction vector candidate in the entry together with the reference picture types of all the collocated blocks.
  • the merge candidate list generation unit 1033 holds the generated merge candidate list.
  • FIG. 15 is a flowchart for describing stream generation processing of the image encoding device 1300 of FIG. This stream generation process is started when a multi-viewpoint image is input.
  • step S1321 the encoding unit 1301 of the image encoding device 1300 performs an encoding process for encoding the image of each viewpoint based on the change identification information supplied from the setting unit 1302. Details of this encoding process will be described later.
  • step S1322 the setting unit 1302 sets change identification information based on a user input or the like, supplies the change identification information to the encoding unit 1301, and sets a PPS including the change identification information.
  • the setting unit 1302 sets the number of Long-term pictures and the number of reference images and supplies them to the encoding unit 1301, and sets an SPS including the number of Long-term pictures and the number of reference images.
  • the setting unit 1302 sets an RPS including the number of Short-term pictures and supplies the RPS to the encoding unit 1301.
  • step S1323 the setting unit 1302 generates a coded stream by adding a parameter set such as SPS, PPS, RPS to the coded data supplied from the coding unit 1301, and supplies the coded stream to the transmission unit 1303.
  • a parameter set such as SPS, PPS, RPS
  • step S1324 the transmission unit 1303 transmits the encoded stream supplied from the setting unit 1302 to a decoding device described later, and ends the process.
  • step S1321 in FIG. 15 is the same as the encoding process in FIG. 5 except for the merge inter prediction process. Accordingly, only the merge inter prediction process will be described below.
  • FIG. 16 is a flowchart illustrating the merge inter prediction process executed by the merge inter prediction unit 1320 (FIG. 14) of the image encoding device 1300. This merge inter prediction process is performed in units of slices when a multi-view image is encoded in the merge mode.
  • the reference list generation unit 1321 of the merge inter prediction unit 1320 generates and holds a reference list.
  • the information for generating this reference list is encoded, for example, and included in the encoded data as part of the header information.
  • step S1401 the selection unit 1322 determines whether the change identification information (lists_modification_present_flag) supplied from the setting unit 1302 is 0 indicating that the reference list is not changed.
  • step S1401 If it is determined in step S1401 that the change identification information is 0, the process proceeds to step S1402.
  • step S1402 the selection unit 1322 performs a reference index specifying process for specifying the minimum value of the reference index of the reference picture type different from the reference picture type of the reference index “0”. Details of this reference index specifying process will be described later with reference to FIG. After the process of step S1402, the process proceeds to step S1405.
  • step S1401 determines whether the change identification information is 0 or not 0 or not 0 or not 0 or not 0 or not 0 or not 0 or not 0 or not 0 or not 0 or not 0 or not 0 or not 0 or not 0 or not 0 or not 0 or not 0 or not 0 or not 0 or not 0 or not 0 or not 0 or not 0 or not 0 or not 0 or not if the change identification information is 1, the process proceeds to step S1403.
  • the processing in steps S1403 to S1409 is the same as the processing in steps S1203 to S1206 and S1210 to S1212 in FIG. After the process of step S1409, the process ends.
  • FIG. 17 is a flowchart for explaining the details of the reference index specifying process in step S1402 of FIG.
  • the selection unit 1322 acquires the number of Short-term pictures included in the RPS supplied from the setting unit 1302. In step S1452, the selection unit 1322 acquires the number of long-term pictures included in the SPS supplied from the setting unit 1302. Note that the number of long-term pictures may be included in the slice header.
  • step S1453 the selection unit 1322 acquires the number of reference images included in the PPS supplied from the setting unit 1302. Note that the number of reference images may be included in the slice header. Further, the processes in subsequent steps S1454 to S1457 are performed for each of the reference list L0 and the reference list L1.
  • step S1454 the selection unit 1322 determines whether the number of reference images is two or more. If it is determined in step S1454 that the number of reference images is two or more, in step S1455, the selection unit 1322 determines whether the number of long-term pictures is one or more.
  • step S1456 the selection unit 1322 determines whether the number of short-term pictures is one or more.
  • step S1457 the selection unit 1322 determines whether the total number of short-term pictures is smaller than the number of reference images.
  • step S1457 When it is determined in step S1457 that the total number of Short-term pictures is smaller than the number of reference pictures, that is, when reference picture specifying information for both Short-term pictures and Long-term pictures is registered in the reference list.
  • the process proceeds to step S1458.
  • step S1458 the selection unit 1322 acquires the reference index of the first long-term picture.
  • the selection unit 1322 may search for the reference index of the first long-term picture. Since the number of Short-term pictures in the reference list is known from the RPS, the selection unit 1322 acquires the number as the reference index of the first Long-term picture having the smallest reference index. The selection unit 1322 supplies the reference image specifying information of the reference index and the reference index “0” to the predicted image generation unit 1034. Then, the process returns to step S1402 in FIG. 16 and proceeds to step S1405.
  • step S1459 the selection unit 1322 supplies the reference image specifying information of the reference index “0” of the generated reference list to the predicted image generation unit 1034.
  • the predicted image generation unit 1034 uses the reference image specifying information as the reference image specifying information of the current block.
  • step S1460 the merge candidate list generation unit 1323 determines whether the reference picture type of the reference index “0” matches the reference picture type of each collocated block. Then, the merge candidate list generation unit 1323 excludes the motion disparity vector of the collocated block from the prediction vector candidates when the reference picture type of the collocated block is different from the reference picture type of the reference index “0”. Then, a merge candidate list is generated. Then, the process proceeds to step S1407 in FIG. 16, and the subsequent processes are performed.
  • FIG. 19 is a block diagram illustrating a configuration example of a second embodiment of an image decoding apparatus as an image processing apparatus to which the present disclosure is applied, which decodes an encoded stream transmitted from the image encoding apparatus 1300 in FIG. It is.
  • the image decoding apparatus 1400 in FIG. 19 includes a receiving unit 1401, an extracting unit 1402, and a decoding unit 1403.
  • the receiving unit 1401 of the image decoding device 1400 receives the encoded stream transmitted from the image encoding device 1300 and supplies the encoded stream to the extracting unit 1402.
  • the extraction unit 1402 extracts a parameter set such as PPS and RPS including SPS and change identification information and encoded data from the encoded stream supplied from the reception unit 1401 and supplies the extracted data to the decoding unit 1403.
  • a parameter set such as PPS and RPS including SPS and change identification information and encoded data from the encoded stream supplied from the reception unit 1401 and supplies the extracted data to the decoding unit 1403.
  • the decoding unit 1403 performs intra decoding or inter decoding based on motion prediction or disparity prediction on the encoded data supplied from the extraction unit 1402 in a scheme corresponding to the image encoding device 1300. Specifically, when the change identification information included in the PPS supplied from the extraction unit 1102 is 1, the decoding unit 1103 refers to a reference picture type different from the reference picture type of the reference index “0” in the merge mode. Search the index.
  • the encoding unit 1301 does not search for a reference index in the merge mode, and sets a predetermined reference index to a reference picture type different from the reference picture type of the reference index “0”. A reference index.
  • the decoding unit 1403 outputs a multi-viewpoint image obtained as a result of decoding.
  • the configuration of the decoding unit 1403 in FIG. 19 is the same as the configuration of the decoding unit 1103 in FIG. 8 except for the merge inter prediction unit in the motion parallax compensation unit 1132. Therefore, only the configuration of the merge inter prediction unit of the decoding unit 1403 will be described here.
  • FIG. 20 is a block diagram showing a configuration of merge inter prediction unit 1420 of decoding unit 1403 in FIG.
  • the configuration of the merge inter prediction unit 1420 in FIG. 20 includes a reference list generation unit 1421, a selection unit 1422, and a merge candidate list generation unit 1423 instead of the reference list generation unit 1151, selection unit 1152, and merge candidate list generation unit 1153. This is different from the configuration of the merge inter prediction unit 1150 in FIG.
  • the reference list generation unit 1421 of the merge inter prediction unit 1420 is the same as the reference list generated by the reference list generation unit 1321 of FIG. 14 based on the information for generating the reference list supplied from the lossless decoding unit 1122. Generate a reference list in units of slices. The reference list is held in the reference list generation unit 1421.
  • the selection unit 1422 Based on the change identification information from the extraction unit 1102, the selection unit 1422, as with the selection unit 1322 of FIG. 14, determines the minimum reference index of a reference picture type different from the reference picture type of the reference index “0” from the reference list. Select a value.
  • the selection unit 1422 supplies the reference image specifying information of the selected reference index and the reference image specifying information of the reference index “0” to the predicted image generating unit 1154.
  • the merge candidate list generation unit 1423 generates a merge candidate list for the prediction block in the inter prediction mode indicated by the inter prediction information from the lossless decoding unit 1122 in the same manner as the merge candidate list generation unit 1323 in FIG.
  • the merge candidate list generation unit 1423 holds the generated merge candidate list.
  • FIG. 21 is a flowchart for describing image generation processing of the image decoding apparatus 1400 of FIG. This image generation process is started, for example, when an encoded stream is transmitted from the image encoding device 1300.
  • step S1471 the reception unit 1401 of the image decoding device 1400 receives the encoded stream transmitted from the image encoding device 1300 and supplies the encoded stream to the extraction unit 1402.
  • step S1472 the extraction unit 1402 extracts a parameter set such as PPS and RPS including SPS and change identification information from the encoded stream supplied from the reception unit 1401 and encoded data, and supplies the extracted data to the decoding unit 1403.
  • a parameter set such as PPS and RPS including SPS and change identification information
  • step S1473 the decoding unit 1403 performs a decoding process on the encoded data supplied from the extraction unit 1402 by a method corresponding to the image encoding device 1300 for each viewpoint. Details of this decoding process will be described later. After the process of step S1473, the process ends.
  • step S1473 in FIG. 21 is the same as the decoding process in FIG. 11 except for the merge inter prediction process. Accordingly, only the merge inter prediction process will be described below.
  • FIG. 22 is a flowchart for explaining merge inter prediction processing executed by the merge inter prediction unit 1420 in FIG. This merge inter prediction process is performed in units of slices when a multi-viewpoint image is decoded in the merge mode.
  • step S1500 the reference list generation unit 1421 of the merge inter prediction unit 1420 generates and holds a reference list based on the information for generating the reference list supplied from the lossless decoding unit 1122.
  • step S1401 the selection unit 1422 determines whether the change identification information (lists_modification_present_flag) supplied from the extraction unit 1402 is zero. If it is determined in step S1501 that the change identification information is 0, the process proceeds to step S1502.
  • step S1502 the selection unit 1422 performs the reference index specifying process of FIG. However, the process of step S1460 is performed in units of prediction blocks in the optimal inter prediction mode indicated by the inter prediction information. After the process of step S1502, the process proceeds to step S1505.
  • step S1501 If it is determined in step S1501 that the change identification information is 1, the process proceeds to step S1503.
  • the processing in steps S1503 to S1507 is the same as the processing in steps S1303 to S1306 and S1310 in FIG. After the process of step S1507, the process ends.
  • the reference index is specified by the reference index specifying process without searching for the reference index, so that the processing amount can be reduced.
  • the first embodiment and the second embodiment may be combined.
  • merge inter prediction processing is performed based on the restriction identification information and the change identification information.
  • the reference list may be generated for each picture.
  • the series of processes described above can also be applied to hierarchical image encoding (spatial scalability) and hierarchical image decoding (multilayer encoder / decoder). That is, even when performing hierarchical image encoding / hierarchical image decoding, the processing amount can be reduced.
  • this technology is, for example, MPEG, H.264.
  • image information bitstream
  • orthogonal transformation such as discrete cosine transformation and motion compensation, such as 26x
  • network media such as satellite broadcasting, cable television, the Internet, or mobile phones.
  • the present invention can be applied to an image encoding device and an image decoding device used in the above.
  • the present technology can be applied to an image encoding device and an image decoding device that are used when processing on a storage medium such as an optical, magnetic disk, and flash memory.
  • the present technology can also be applied to motion prediction / compensation devices included in such image encoding devices and image decoding devices.
  • Third Embodiment> (Computer configuration example)
  • the series of processes described above can be executed by hardware or can be executed by software.
  • a program constituting the software is installed in the computer.
  • the computer includes a computer incorporated in dedicated hardware, a general-purpose personal computer capable of executing various functions by installing various programs, and the like.
  • a CPU (Central Processing Unit) 1701 of the personal computer 1700 has various types according to a program stored in a ROM (Read Only Memory) 1702 or a program loaded from a storage unit 1713 to a RAM (Random Access Memory) 1703. Execute the process.
  • the RAM 1703 also appropriately stores data necessary for the CPU 1701 to execute various processes.
  • the CPU 1701, the ROM 1702, and the RAM 1703 are connected to each other via a bus 1704.
  • An input / output interface 1710 is also connected to the bus 1704.
  • the input / output interface 1710 includes an input unit 1711 including a keyboard and a mouse, a display including a CRT (Cathode Ray Tube) and an LCD (Liquid Crystal Display), an output unit 1712 including a speaker, a hard disk, and the like.
  • a communication unit 1714 including a storage unit 1713 and a modem is connected. The communication unit 1714 performs communication processing via a network including the Internet.
  • a drive 1715 is connected to the input / output interface 1710 as necessary, and a removable medium 1721 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory is appropriately mounted, and a computer program read from them is loaded. It is installed in the storage unit 1713 as necessary.
  • a program constituting the software is installed from a network or a recording medium.
  • the recording medium is distributed to distribute a program to a user separately from the apparatus main body, and includes a magnetic disk (including a flexible disk) on which a program is recorded, an optical disk ( It is simply composed of removable media 1721 consisting of CD-ROM (compact disc-read only memory), DVD (including digital versatile disc), magneto-optical disc (including MD (mini disc)), or semiconductor memory. Rather, it is composed of a ROM 1702 on which a program is recorded and a hard disk included in the storage unit 1713, which is distributed to the user in a state of being incorporated in the apparatus main body in advance.
  • a magnetic disk including a flexible disk
  • an optical disk It is simply composed of removable media 1721 consisting of CD-ROM (compact disc-read only memory), DVD (including digital versatile disc), magneto-optical disc (including MD (mini disc)), or semiconductor memory. Rather, it is composed of a ROM 1702 on which a program is recorded and a hard disk included in the storage unit 1713, which is distributed to the user
  • the program executed by the computer may be a program that is processed in time series in the order described in this specification, or in parallel or at a necessary timing such as when a call is made. It may be a program for processing.
  • the step of describing the program recorded on the recording medium is not limited to the processing performed in chronological order according to the described order, but may be performed in parallel or It also includes processes that are executed individually.
  • system represents the entire apparatus composed of a plurality of devices (apparatuses).
  • the configuration described as one device (or processing unit) may be divided and configured as a plurality of devices (or processing units).
  • the configurations described above as a plurality of devices (or processing units) may be combined into a single device (or processing unit).
  • a configuration other than that described above may be added to the configuration of each device (or each processing unit).
  • a part of the configuration of a certain device (or processing unit) may be included in the configuration of another device (or other processing unit). . That is, the present technology is not limited to the above-described embodiment, and various modifications can be made without departing from the gist of the present technology.
  • An image encoding device and an image decoding device include a transmitter or a receiver in optical broadcasting, satellite broadcasting, cable broadcasting such as cable TV, distribution on the Internet, and distribution to terminals by cellular communication, etc.
  • the present invention can be applied to various electronic devices such as a recording device that records an image on a medium such as a magnetic disk and a flash memory, or a playback device that reproduces an image from these storage media.
  • a recording device that records an image on a medium such as a magnetic disk and a flash memory
  • a playback device that reproduces an image from these storage media.
  • FIG. 24 illustrates an example of a schematic configuration of a television device to which the above-described embodiment is applied.
  • a television device 1900 includes an antenna 1901, a tuner 1902, a demultiplexer 1903, a decoder 1904, a video signal processing unit 1905, a display unit 1906, an audio signal processing unit 1907, a speaker 1908, an external interface 1909, a control unit 1910, a user interface 1911, And a bus 1912.
  • Tuner 1902 extracts a signal of a desired channel from a broadcast signal received via antenna 1901, and demodulates the extracted signal. Then, tuner 1902 outputs the encoded bit stream obtained by demodulation to demultiplexer 1903. That is, the tuner 1902 serves as a transmission unit in the television device 1900 that receives an encoded stream in which an image is encoded.
  • the demultiplexer 1903 separates the video stream and audio stream of the viewing target program from the encoded bit stream, and outputs each separated stream to the decoder 1904. In addition, the demultiplexer 1903 extracts auxiliary data such as EPG (Electronic Program Guide) from the encoded bit stream, and supplies the extracted data to the control unit 1910. Note that the demultiplexer 1903 may perform descrambling when the encoded bit stream is scrambled.
  • EPG Electronic Program Guide
  • the decoder 1904 decodes the video stream and audio stream input from the demultiplexer 1903. Then, the decoder 1904 outputs the video data generated by the decoding process to the video signal processing unit 1905. In addition, the decoder 1904 outputs audio data generated by the decoding process to the audio signal processing unit 1907.
  • the video signal processing unit 1905 reproduces the video data input from the decoder 1904 and causes the display unit 1906 to display the video. Further, the video signal processing unit 1905 may display an application screen supplied via the network on the display unit 1906. Further, the video signal processing unit 1905 may perform additional processing such as noise removal on the video data according to the setting. Further, the video signal processing unit 1905 may generate a GUI (Graphical User Interface) image such as a menu, a button, or a cursor, and superimpose the generated image on the output image.
  • GUI Graphic User Interface
  • the display unit 1906 is driven by a drive signal supplied from the video signal processing unit 1905, and the video is displayed on the video screen of a display device (for example, a liquid crystal display, a plasma display, or an OELD (Organic-ElectroLuminescence-Display) (organic EL display)). Or an image is displayed.
  • a display device for example, a liquid crystal display, a plasma display, or an OELD (Organic-ElectroLuminescence-Display) (organic EL display)). Or an image is displayed.
  • the audio signal processing unit 1907 performs reproduction processing such as D / A conversion and amplification on the audio data input from the decoder 1904, and outputs audio from the speaker 1908.
  • the audio signal processing unit 1907 may perform additional processing such as noise removal on the audio data.
  • the external interface 1909 is an interface for connecting the television device 1900 to an external device or a network.
  • a video stream or an audio stream received via the external interface 1909 may be decoded by the decoder 1904. That is, the external interface 1909 also has a role as a transmission unit in the television device 1900 that receives an encoded stream in which an image is encoded.
  • the control unit 1910 includes a processor such as a CPU and memories such as a RAM and a ROM.
  • the memory stores a program executed by the CPU, program data, EPG data, data acquired via a network, and the like.
  • the program stored in the memory is read and executed by the CPU when the television apparatus 1900 is activated, for example.
  • the CPU controls the operation of the television device 1900 by executing a program, for example, according to an operation signal input from the user interface 1911.
  • the user interface 1911 is connected to the control unit 1910.
  • the user interface 1911 includes, for example, buttons and switches for the user to operate the television device 1900, a remote control signal receiving unit, and the like.
  • the user interface 1911 detects an operation by the user via these components, generates an operation signal, and outputs the generated operation signal to the control unit 1910.
  • the bus 1912 connects a tuner 1902, a demultiplexer 1903, a decoder 1904, a video signal processing unit 1905, an audio signal processing unit 1907, an external interface 1909, and a control unit 1910.
  • the decoder 1904 has the function of the image decoding apparatus according to the above-described embodiment. Thus, the amount of processing can be reduced when the television device 1900 decodes an image.
  • FIG. 25 shows an example of a schematic configuration of a mobile phone to which the above-described embodiment is applied.
  • a cellular phone 1920 includes an antenna 1921, a communication unit 1922, an audio codec 1923, a speaker 1924, a microphone 1925, a camera unit 1926, an image processing unit 1927, a demultiplexing unit 1928, a recording / reproducing unit 1929, a display unit 1930, a control unit 1931, an operation A portion 1932 and a bus 1933.
  • the antenna 1921 is connected to the communication unit 1922.
  • the speaker 1924 and the microphone 1925 are connected to the audio codec 1923.
  • the operation unit 1932 is connected to the control unit 1931.
  • the bus 1933 connects the communication unit 1922, the audio codec 1923, the camera unit 1926, the image processing unit 1927, the demultiplexing unit 1928, the recording / reproducing unit 1929, the display unit 1930, and the control unit 1931 to each other.
  • the mobile phone 1920 is used in various operation modes including a voice call mode, a data communication mode, a shooting mode, and a videophone mode, such as voice signal transmission / reception, e-mail or image data transmission / reception, image capturing, and data recording. Perform the action.
  • the analog voice signal generated by the microphone 1925 is supplied to the voice codec 1923.
  • the audio codec 1923 converts an analog audio signal into audio data, A / D converts the compressed audio data, and compresses it. Then, the audio codec 1923 outputs the compressed audio data to the communication unit 1922.
  • the communication unit 1922 encodes and modulates the audio data, and generates a transmission signal. Then, the communication unit 1922 transmits the generated transmission signal to a base station (not shown) via the antenna 1921. In addition, the communication unit 1922 amplifies a radio signal received via the antenna 1921 and performs frequency conversion to obtain a received signal.
  • the communication unit 1922 generates audio data by demodulating and decoding the received signal, and outputs the generated audio data to the audio codec 1923.
  • the audio codec 1923 decompresses the audio data and performs D / A conversion to generate an analog audio signal. Then, the audio codec 1923 supplies the generated audio signal to the speaker 1924 to output audio.
  • the control unit 1931 generates character data constituting the e-mail in response to an operation by the user via the operation unit 1932.
  • the control unit 1931 displays characters on the display unit 1930.
  • the control unit 1931 generates e-mail data in response to a transmission instruction from the user via the operation unit 1932, and outputs the generated e-mail data to the communication unit 1922.
  • the communication unit 1922 encodes and modulates the e-mail data, and generates a transmission signal. Then, the communication unit 1922 transmits the generated transmission signal to a base station (not shown) via the antenna 1921.
  • the communication unit 1922 amplifies a radio signal received via the antenna 1921 and performs frequency conversion to obtain a received signal. Then, the communication unit 1922 demodulates and decodes the received signal to restore the email data, and outputs the restored email data to the control unit 1931.
  • the control unit 1931 displays the contents of the e-mail on the display unit 1930 and stores e-mail data in the storage medium of the recording / reproducing unit 1929.
  • the recording / playback unit 1929 has an arbitrary readable / writable storage medium.
  • the storage medium may be a built-in storage medium such as RAM or flash memory, and is externally mounted such as a hard disk, magnetic disk, magneto-optical disk, optical disk, USB (Unallocated Space Space Bitmap) memory, or memory card. It may be a storage medium.
  • the camera unit 1926 captures an image of a subject to generate image data, and outputs the generated image data to the image processing unit 1927.
  • the image processing unit 1927 encodes the image data input from the camera unit 1926 and stores the encoded stream in the storage medium of the recording / playback unit 1929.
  • the demultiplexing unit 1928 multiplexes the video stream encoded by the image processing unit 1927 and the audio stream input from the audio codec 1923, and the multiplexed stream is used as the communication unit 1922. Output to.
  • the communication unit 1922 encodes and modulates the stream, and generates a transmission signal. Then, the communication unit 1922 transmits the generated transmission signal to a base station (not shown) via the antenna 1921.
  • the communication unit 1922 amplifies a radio signal received via the antenna 1921 and performs frequency conversion to obtain a received signal.
  • These transmission signal and reception signal may include an encoded bit stream.
  • the communication unit 1922 demodulates and decodes the received signal to restore the stream, and outputs the restored stream to the demultiplexing unit 1928.
  • the demultiplexing unit 1928 separates the video stream and the audio stream from the input stream, and outputs the video stream to the image processing unit 1927 and the audio stream to the audio codec 1923.
  • the image processing unit 1927 decodes the video stream and generates video data.
  • the video data is supplied to the display unit 1930, and a series of images is displayed on the display unit 1930.
  • the audio codec 1923 decompresses the audio stream and performs D / A conversion to generate an analog audio signal. Then, the audio codec 1923 supplies the generated audio signal to the speaker 1924 to output audio.
  • the image processing unit 1927 has the functions of the image encoding device and the image decoding device according to the above-described embodiment. Accordingly, it is possible to reduce the processing amount when encoding and decoding images with the mobile phone 1920.
  • FIG. 26 shows an example of a schematic configuration of a recording / reproducing apparatus to which the above-described embodiment is applied.
  • the recording / reproducing apparatus 1940 encodes audio data and video data of a received broadcast program and records the encoded data on a recording medium.
  • the recording / reproducing apparatus 1940 may encode audio data and video data acquired from another apparatus and record them on a recording medium, for example.
  • the recording / reproducing apparatus 1940 reproduces data recorded on the recording medium on a monitor and a speaker, for example, in accordance with a user instruction.
  • the recording / reproducing device 1940 decodes the audio data and the video data.
  • the recording / reproducing apparatus 1940 includes a tuner 1941, an external interface unit 1942, an encoder 1943, an HDD (Hard Disk Drive) 1944, a disk drive 1945, a selector 1946, a decoder 1947, an OSD (On-Screen Display) unit 1948, a control unit 1949, and A user interface unit 1950 is provided.
  • Tuner 1941 extracts a signal of a desired channel from a broadcast signal received via an antenna (not shown), and demodulates the extracted signal. Then, tuner 1941 outputs the encoded bit stream obtained by demodulation to selector 1946. That is, the tuner 1941 has a role as a transmission unit in the recording / reproducing apparatus 1940.
  • the external interface unit 1942 is an interface for connecting the recording / reproducing apparatus 1940 to an external device or a network.
  • the external interface unit 1942 may be, for example, an IEEE1394 interface, a network interface, a USB interface, or a flash memory interface.
  • video data and audio data received via the external interface unit 1942 are input to the encoder 1943. That is, the external interface unit 1942 has a role as a transmission unit in the recording / reproducing apparatus 1940.
  • the encoder 1943 encodes the video data and the audio data when the video data and the audio data input from the external interface unit 1942 are not encoded. Then, the encoder 1943 outputs the encoded bit stream to the selector 1946.
  • HDD 1944 records an encoded bit stream in which content data such as video and audio are compressed, various programs, and other data on an internal hard disk. Also, the HDD 1944 reads out these data from the hard disk when playing back video and audio.
  • the disk drive 1945 records and reads data to and from the mounted recording medium.
  • the recording medium mounted on the disk drive 1945 is, for example, a DVD disk (DVD-Video, DVD-RAM, DVD-R, DVD-RW, DVD + R, DVD + RW, etc.) or a Blu-ray (registered trademark) disk. It may be.
  • the selector 1946 selects an encoded bit stream input from the tuner 1941 or the encoder 1943 when recording video and audio, and outputs the selected encoded bit stream to the HDD 1944 or the disk drive 1945. Further, the selector 1946 outputs an encoded bit stream input from the HDD 1944 or the disk drive 1945 to the decoder 1947 during video and audio reproduction.
  • the decoder 1947 decodes the encoded bit stream and generates video data and audio data. Then, the decoder 1947 outputs the generated video data to the OSD unit 1948. The decoder 1904 outputs the generated audio data to an external speaker.
  • the OSD unit 1948 reproduces the video data input from the decoder 1947 and displays the video. Further, the OSD unit 1948 may superimpose a GUI image such as a menu, a button, or a cursor on the video to be displayed.
  • a GUI image such as a menu, a button, or a cursor
  • the control unit 1949 has a processor such as a CPU and memories such as a RAM and a ROM.
  • the memory stores a program executed by the CPU, program data, and the like.
  • the program stored in the memory is read and executed by the CPU when the recording / reproducing apparatus 1940 is activated, for example.
  • the CPU controls the operation of the recording / reproducing device 1940 by executing a program, for example, according to an operation signal input from the user interface unit 1950.
  • the user interface unit 1950 is connected to the control unit 1949.
  • the user interface unit 1950 includes, for example, buttons and switches for the user to operate the recording / reproducing apparatus 1940, a remote control signal receiving unit, and the like.
  • the user interface unit 1950 detects an operation by the user via these components, generates an operation signal, and outputs the generated operation signal to the control unit 1949.
  • the encoder 1943 has the function of the image encoding apparatus according to the above-described embodiment.
  • the decoder 1947 has the function of the image decoding device according to the above-described embodiment. Thereby, the amount of processing can be reduced when the recording / reproducing apparatus 1940 encodes and decodes an image.
  • FIG. 27 illustrates an example of a schematic configuration of an imaging apparatus to which the above-described embodiment is applied.
  • the imaging device 1960 captures a subject to generate an image, encodes the image data, and records the image data on a recording medium.
  • the imaging device 1960 includes an optical block 1961, an imaging unit 1962, a signal processing unit 1963, an image processing unit 1964, a display unit 1965, an external interface 1966, a memory 1967, a media drive 1968, an OSD 1969, a control unit 1970, a user interface 1971, and a bus. 1972.
  • the optical block 1961 is connected to the imaging unit 1962.
  • the imaging unit 1962 is connected to the signal processing unit 1963.
  • the display unit 1965 is connected to the image processing unit 1964.
  • the user interface 1971 is connected to the control unit 1970.
  • the bus 1972 connects the image processing unit 1964, the external interface 1966, the memory 1967, the media drive 1968, the OSD 1969, and the control unit 1970.
  • the optical block 1961 includes a focus lens and a diaphragm mechanism.
  • the optical block 1961 forms an optical image of the subject on the imaging surface of the imaging unit 1962.
  • the imaging unit 1962 includes an image sensor such as a CCD (Charge-Coupled Device) or a CMOS (Complementary Metal-Oxide Semiconductor), and converts an optical image formed on the imaging surface into an image signal as an electrical signal by photoelectric conversion. Then, the imaging unit 1962 outputs the image signal to the signal processing unit 1963.
  • CCD Charge-Coupled Device
  • CMOS Complementary Metal-Oxide Semiconductor
  • the signal processing unit 1963 performs various camera signal processing such as knee correction, gamma correction, and color correction on the image signal input from the imaging unit 1962.
  • the signal processing unit 1963 outputs the image data after the camera signal processing to the image processing unit 1964.
  • the image processing unit 1964 encodes the image data input from the signal processing unit 1963 and generates encoded data. Then, the image processing unit 1964 outputs the generated encoded data to the external interface 1966 or the media drive 1968. The image processing unit 1964 decodes encoded data input from the external interface 1966 or the media drive 1968, and generates image data. Then, the image processing unit 1964 outputs the generated image data to the display unit 1965. Further, the image processing unit 1964 may display the image by outputting the image data input from the signal processing unit 1963 to the display unit 1965. In addition, the image processing unit 1964 may superimpose display data acquired from the OSD 1969 on an image output to the display unit 1965.
  • OSD 1969 generates a GUI image such as a menu, a button, or a cursor, for example, and outputs the generated image to the image processing unit 1964.
  • the external interface 1966 is configured as a USB input / output terminal, for example.
  • the external interface 1966 connects the imaging device 1960 and a printer, for example, when printing an image.
  • a drive is connected to the external interface 1966 as necessary.
  • a removable medium such as a magnetic disk or an optical disk is attached to the drive, and a program read from the removable medium can be installed in the imaging apparatus 1960.
  • the external interface 1966 may be configured as a network interface connected to a network such as a LAN or the Internet. That is, the external interface 1966 has a role as a transmission unit in the imaging device 1960.
  • the recording medium attached to the media drive 1968 may be any readable / writable removable medium such as a magnetic disk, a magneto-optical disk, an optical disk, or a semiconductor memory.
  • a recording medium may be fixedly attached to the media drive 1968, and a non-portable storage unit such as an internal hard disk drive or an SSD (Solid State Drive) may be configured.
  • the control unit 1970 includes a processor such as a CPU and memories such as a RAM and a ROM.
  • the memory stores a program executed by the CPU, program data, and the like.
  • the program stored in the memory is read and executed by the CPU when the imaging device 1960 is activated, for example.
  • the CPU controls the operation of the imaging apparatus 1960 by executing a program, for example, according to an operation signal input from the user interface 1971.
  • the user interface 1971 is connected to the control unit 1970.
  • the user interface 1971 includes, for example, buttons and switches for the user to operate the imaging device 1960.
  • the user interface 1971 detects an operation by the user via these components, generates an operation signal, and outputs the generated operation signal to the control unit 1970.
  • the image processing unit 1964 has the functions of the image encoding device and the image decoding device according to the above-described embodiment. Thereby, the processing amount can be reduced when the image capturing apparatus 1960 encodes and decodes an image.
  • the method for transmitting such information is not limited to such an example.
  • these pieces of information may be transmitted or recorded as separate data associated with the encoded bitstream without being multiplexed into the encoded bitstream.
  • the term “associate” means that an image (which may be a part of an image such as a slice or a block) included in the bitstream and information corresponding to the image can be linked at the time of decoding. Means. That is, information may be transmitted on a transmission path different from that of the image (or bit stream).
  • Information may be recorded on a recording medium (or another recording area of the same recording medium) different from the image (or bit stream). Furthermore, the information and the image (or bit stream) may be associated with each other in an arbitrary unit such as a plurality of frames, one frame, or a part of the frame.
  • this indication can also take the following structures.
  • the reference picture specifying information included in the reference list based on restriction identification information that identifies that a reference list that is a list of reference picture specifying information for specifying a reference picture of the current picture is commonly used in the current picture
  • a selection unit that selects a plurality of reference pictures having different reference picture types from the reference picture represented by: A motion vector of a collocated picture at a different time from the current picture, and a reference picture of the same reference picture type as the reference picture type of the collocated picture among the plurality of reference pictures selected by the selection unit;
  • An image processing apparatus comprising: a predicted image generation unit configured to generate a predicted image of the current picture based on (2)
  • the selection unit when the restriction identification information indicates that the reference list is commonly used in the current picture, a reference picture of the same reference picture type as the reference picture type of the current picture, and the current picture
  • the image processing apparatus according to (1), wherein a reference picture of a reference picture type different from the reference picture type is selected.
  • the selection unit represents a reference picture of the same reference picture type as the reference picture type of the current picture, which is represented by reference picture specifying information whose index of the reference list is 0, and a reference whose index of the reference list is other than 0
  • the image processing device (2), wherein a reference picture of a reference picture type different from a reference picture type of the current picture represented by picture specifying information is selected.
  • the selection unit includes a reference picture having a minimum index among reference pictures of a reference picture type different from a reference picture type of the current picture represented by reference picture specifying information whose index of the reference list is other than 0.
  • the image processing apparatus according to (3).
  • the selection unit based on change identification information for identifying that the reference list is changed, is represented by reference picture specifying information whose index of the reference list is 0, and a reference picture whose reference picture type is Short-term
  • a reference picture whose reference picture type is Long-term which is represented by reference picture specifying information whose index is the number of reference picture specifying information of a reference picture whose reference picture type is Short-term registered in the reference list
  • the image processing apparatus according to (4).
  • the image processing device according to any one of (1) to (6), wherein the reference picture type is Long-term or Short-term.
  • the image processing apparatus according to any one of (1) to (7), wherein the restriction identification information is restricted_ref_pic_lists_flag.
  • the image processing device The reference picture specifying information included in the reference list based on restriction identification information that identifies that a reference list that is a list of reference picture specifying information for specifying a reference picture of the current picture is commonly used in the current picture Selecting a plurality of reference pictures having different reference picture types from the reference picture represented by: A motion vector of a collocated picture at a time different from that of the current picture, and a reference of the same reference picture type as the reference picture type of the collocated picture among the plurality of reference pictures selected by the processing of the selection step A predicted image generation step and an image processing method for generating a predicted image of the current picture based on a picture.
  • a selection unit for selecting a plurality of reference pictures having different reference picture types; A motion vector of a collocated picture at a different time from the current picture, and a reference picture of the same reference picture type as the reference picture type of the collocated picture among the plurality of reference pictures selected by the selection unit;
  • An image processing apparatus comprising: a predicted image generation unit configured to generate a predicted image of the current picture based on (11)
  • the selection unit represents a reference picture whose reference picture type is Short-term, which is represented by reference picture specifying information whose index of the reference list is 0
  • a reference picture whose reference picture type is Long-term, which is represented by reference picture identification information whose index is the number of reference picture identification information of a reference picture whose reference picture type is Short
  • the selection unit represents the reference picture represented by the reference picture specifying information whose index of the reference list is 0
  • a reference picture represented by a reference picture whose type is Short-term and reference picture identification information whose index is the number of reference picture identification information of a reference picture whose reference picture type is registered in the reference list is Short-term
  • the image processing device according to (11), wherein a reference picture whose type is Long-term is selected.
  • the image processing device From the reference picture represented by the reference picture specifying information included in the reference list based on change identification information that identifies that a reference list that is a list of reference picture specifying information for specifying a reference picture of the current picture is changed A selection step of selecting a plurality of reference pictures of different reference picture types; A motion vector of a collocated picture at a time different from that of the current picture, and a reference of the same reference picture type as the reference picture type of the collocated picture among the plurality of reference pictures selected by the processing of the selection step A predicted image generation step and an image processing method for generating a predicted image of the current picture based on a picture.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

 本開示は、処理量を削減することができるようにする画像処理装置および方法に関する。 選択部は、カレントピクチャの参照ピクチャを特定する参照ピクチャ特定情報のリストである参照リストがカレントピクチャ内で共通に用いられることを識別する制限識別情報に基づいて、参照リストに含まれる参照ピクチャ特定情報が表す参照ピクチャから参照ピクチャタイプが異なる複数の参照ピクチャを選択する。予測画像生成部は、カレントピクチャと異なる時刻のコロケーテッドピクチャの動きベクトルと、選択部により選択された複数の参照ピクチャのうちのコロケーテッドピクチャの参照ピクチャタイプと同一の参照ピクチャタイプの参照ピクチャとに基づいて、カレントピクチャの予測画像を生成する。本開示は画像処理装置に適用することができる。

Description

画像処理装置および方法
 本開示は、画像処理装置および方法に関し、特に、処理量を削減することができるようにした画像処理装置および方法に関する。
 近年、画像情報をデジタルとして取り扱い、その際、効率の高い情報の伝送、蓄積を目的とし、画像情報特有の冗長性を利用して、離散コサイン変換等の直交変換と動き補償により圧縮するMPEG(Moving Picture Experts Group)などの方式に準拠した装置が、放送局などの情報配信、及び一般家庭における情報受信の双方において普及した。
 特に、MPEG2(ISO(International Organization for Standardization)/IEC(International Electrotechnical Commission) 13818-2)は、汎用画像符号化方式として定義されており、飛び越し走査画像及び順次走査画像の双方、並びに標準解像度画像及び高精細画像を網羅する標準で、プロフェッショナル用途及びコンシューマ用途の広範なアプリケーションに現在広く用いられている。MPEG2圧縮方式を用いることにより、例えば720×480画素を持つ標準解像度の飛び越し走査画像であれば4~8Mbps、1920×1088画素を持つ高解像度の飛び越し走査画像であれば18~22Mbpsの符号量(ビットレート)を割り当てることで、高い圧縮率と良好な画質の実現が可能である。
 MPEG2は主として放送用に適合する高画質符号化を対象としていたが、MPEG1より低い符号量(ビットレート)、つまりより高い圧縮率の符号化方式には対応していなかった。携帯端末の普及により、今後そのような符号化方式のニーズは高まると思われ、これに対応してMPEG4符号化方式の標準化が行われた。画像符号化方式に関しては、1998年12月にISO/IEC 14496-2としてその規格が国際標準に承認された。
 更に、近年、当初テレビ会議用の画像符号化を目的として、H.26L (ITU-T(International Telecommunication Union Telecommunication Standardization Sector) Q6/16 VCEG(Video Coding Expert Group))という標準の規格化が進んでいる。H.26LはMPEG2やMPEG4といった従来の符号化方式に比べ、その符号化、復号化により多くの演算量が要求されるものの、より高い符号化効率が実現されることが知られている。また、MPEG4の活動の一環として、このH.26Lをベースに、H.26Lではサポートされない機能をも取り入れ、より高い符号化効率を実現する標準化がJoint Model of Enhanced-Compression Video Codingとして行われた。
 標準化のスケジュールとしては、2003年3月にはH.264及びMPEG-4 Part10 (Advanced Video Coding、以下AVCと記す)という名の元に国際標準となった。
 しかしながら、マクロブロックサイズを16画素×16画素とするのは、次世代符号化方式の対象となるような、UHD(Ultra High Definition;4000画素×2000画素)といった大きな画枠に対しては、最適ではない恐れがあった。
 そこで、AVCより更なる符号化効率の向上を目的として、ITU-Tと、ISO/IECの共同の標準化団体であるJCTVC(Joint Collaboration Team - Video Coding)により、HEVC(High Efficiency Video Coding)と呼ばれる符号化方式の標準化が進められている(例えば、非特許文献1参照)。
 このHEVC符号化方式においては、AVCにおけるマクロブロックと同様の処理単位としてコーディングユニット(CU(Coding Unit))が定義されている。このCUは、AVCのマクロブロックのようにサイズが16×16画素に固定されず、それぞれのシーケンスにおいて、画像圧縮情報中において指定される。
 ところで、AVCにおいて定義されているメジアン予測を用いた動きベクトルの符号化を改善するため、”Spatial Predictor”だけでなく、”Temporal Predictor”及び”Spatio-Temporal Predictor”も予測動きベクトルの候補にすることができるようにする方法が考えられた。
 また、動き情報の符号化方式の1つとして、Merge_FlagとMerge_Left_Flagが伝送される、Motion Partition Mergingと呼ばれる手法が提案されている。
 しかしながら、同一視点内における処理しか示されておらず、多視点符号化の場合に、視点間を跨るベクトルの予測ができず、符号化効率が低減する恐れがあった。
 そこで、多視点符号化時のマージのTMVP(Temporal motion vector prediction)について、各種の提案がなされている(例えば、非特許文献2参照)。
 非特許文献2の発明では、カレントブロックの参照インデックス0が指し示す参照ピクチャ(参照画像)の参照ピクチャタイプがShort-termで、コロケーテッドブロックの参照ピクチャタイプがLong-termであるとき、参照画像のリストの中から、参照ピクチャタイプがLong-termである参照ピクチャを指し示す0以外の参照インデックスが選択される。
 また、カレントブロックの参照インデックス0が指し示す参照ピクチャの参照ピクチャタイプがLong-termで、コロケーテッドブロックの参照ピクチャタイプがShort-termであるとき、参照画像のリストの中から、参照ピクチャタイプがShort-termである参照ピクチャを指し示す0以外の参照インデックスが選択される。
 従って、CU(Coding Unit)レベルの符号化をする前に、参照インデックス0のピクチャタイプとは異なるピクチャタイプを持つ参照インデックスを1つ見つけておく必要がある。
Benjamin Bross, Woo-Jin Han, Jens-Rainer Ohm, Gary J. Sullivan, Thomas Wiegand," High efficiency video coding (HEVC) text specification draft 8 ", JCTVC-J1003_d7, 2012.7.28 Ying Chen,Li Zhang,Vadim Seregin,Marta Karczewicz,"Temporal modion vector prediction hook for MV-HEVC",JCTVC-K0239,2012.10.10-19
 しかしながら、参照インデックスの探索の処理量は多いため、処理量の削減が求められている。
 本開示は、このような状況に鑑みてなされたものであり、処理量を削減することを目的とする。
 本開示の第1の側面の画像処理装置は、カレントピクチャの参照ピクチャを特定する参照ピクチャ特定情報のリストである参照リストが前記カレントピクチャ内で共通に用いられることを識別する制限識別情報に基づいて、前記参照リストに含まれる前記参照ピクチャ特定情報が表す前記参照ピクチャから参照ピクチャタイプが異なる複数の参照ピクチャを選択する選択部と、前記カレントピクチャと異なる時刻のコロケーテッドピクチャの動きベクトルと、前記選択部により選択された前記複数の参照ピクチャのうちの前記コロケーテッドピクチャの参照ピクチャタイプと同一の参照ピクチャタイプの参照ピクチャとに基づいて、前記カレントピクチャの予測画像を生成する予測画像生成部とを備える画像処理装置である。
 本開示の第1の側面の画像処理方法は、本開示の第1の側面の画像処理装置に対応する。
 本開示の第1の側面においては、カレントピクチャの参照ピクチャを特定する参照ピクチャ特定情報のリストである参照リストが前記カレントピクチャ内で共通に用いられることを識別する制限識別情報に基づいて、前記参照リストに含まれる前記参照ピクチャ特定情報が表す前記参照ピクチャから参照ピクチャタイプが異なる複数の参照ピクチャが選択され、前記カレントピクチャと異なる時刻のコロケーテッドピクチャの動きベクトルと、選択された前記複数の参照ピクチャのうちの前記コロケーテッドピクチャの参照ピクチャタイプと同一の参照ピクチャタイプの参照ピクチャとに基づいて、前記カレントピクチャの予測画像が生成される。
 本開示の第2の側面の画像処理装置は、カレントピクチャの参照ピクチャを特定する参照ピクチャ特定情報のリストである参照リストが変更されることを識別する変更識別情報に基づいて、前記参照リストに含まれる前記参照ピクチャ特定情報が表す前記参照ピクチャから参照ピクチャタイプが異なる複数の参照ピクチャを選択する選択部と、前記カレントピクチャと異なる時刻のコロケーテッドピクチャの動きベクトルと、前記選択部により選択された前記複数の参照ピクチャのうちの前記コロケーテッドピクチャの参照ピクチャタイプと同一の参照ピクチャタイプの参照ピクチャとに基づいて、前記カレントピクチャの予測画像を生成する予測画像生成部とを備える画像処理装置である。
 本開示の第2の側面の画像処理方法は、本開示の第2の側面の画像処理装置に対応する。
 本開示の第2の側面においては、カレントピクチャの参照ピクチャを特定する参照ピクチャ特定情報のリストである参照リストが変更されることを識別する変更識別情報に基づいて、前記参照リストに含まれる前記参照ピクチャ特定情報が表す前記参照ピクチャから参照ピクチャタイプが異なる複数の参照ピクチャが選択され、前記カレントピクチャと異なる時刻のコロケーテッドピクチャの動きベクトルと、選択された前記複数の参照ピクチャのうちの前記コロケーテッドピクチャの参照ピクチャタイプと同一の参照ピクチャタイプの参照ピクチャとに基づいて、前記カレントピクチャの予測画像が生成される。
 本開示によれば、画像を処理することができる。特に、処理量を削減することができる。
本開示を適用した画像符号化装置の第1実施の形態の構成例を示すブロック図である。 図1の符号化部の構成例を示すブロック図である。 図2の動き視差予測・補償部のマージインター予測部の構成例を示すブロック図である。 図1の画像符号化装置のストリーム生成処理を説明するフローチャートである。 図4の符号化処理の詳細を説明するフローチャートである。 図5のインター予測処理のうちのマージインター予測処理を説明するフローチャートである。 本開示を適用した画像復号装置の第1実施の形態の構成例を示すブロック図である。 図7の復号部の構成例を示すブロック図である。 図8の動き視差補償部のマージインター予測部の構成例を示すブロック図である。 図7の画像復号装置の画像生成処理を説明するフローチャートである。 図10の復号処理の詳細を説明するフローチャートである。 図11の予測処理のうちのマージインター予測処理を説明するフローチャートである。 本開示を適用した画像符号化装置の第2実施の形態の構成例を示すブロック図である。 図13の符号化部のマージインター予測部の構成を示すブロック図である。 図13の画像符号化装置のストリーム生成処理を説明するフローチャートである。 図13の符号化装置のマージインター予測処理を説明するフローチャートである。 図16の参照インデックス特定処理の詳細を説明するフローチャートである。 参照インデックスを説明する図である。 本開示を適用した画像復号装置の第2実施の形態の構成例を示すブロック図である。 図19の復号部のマージインター予測部の構成を示すブロック図である。 図19の画像復号装置の画像生成処理を説明するフローチャートである。 図20のマージインター予測部により実行されるマージインター予測処理を説明するフローチャートである。 パーソナルコンピュータの構成例を示すブロック図である。 テレビジョン装置の概略的な構成の一例を示すブロック図である。 携帯電話機の概略的な構成の一例を示すブロック図である。 記録再生装置の概略的な構成の一例を示すブロック図である。 撮像装置の概略的な構成の一例を示すブロック図である。
 以下、本開示を実施するための形態(以下実施の形態とする)について説明する。なお、説明は以下の順序で行う。
 1.第1の実施の形態(画像符号化装置・画像復号装置)
 2.第2の実施の形態(画像符号化装置・画像復号装置)
 3.第3の実施の形態(コンピュータ)
 4.第4の実施の形態(応用例)
 <1.第1の実施の形態>
 (画像符号化装置の構成例)
 図1は、本開示を適用した画像処理装置としての画像符号化装置の第1実施の形態の構成例を示すブロック図である。
 図1の画像符号化装置1000は、符号化部1001、設定部1002、および伝送部1003により構成される。画像符号化装置1000は、複数の視点(ビュー)の画像からなる多視点画像に対して動き予測または視差予測によるインター符号化を行う。
 具体的には、画像符号化装置1000の符号化部1001は、外部から入力される多視点画像に対して、イントラ符号化、または、動き予測または視差予測によるインター符号化を行う。インター符号化時、符号化部1001は、設定部1002から供給される制限識別情報(restricted_ref_pic_lists_flag)を参照する。
 制限識別情報とは、ピクチャ内の全てのスライスの、参照画像を特定する参照画像特定情報のリストである参照リストが、同一の参照リストに制限されることを識別する情報である。即ち、制限識別情報は、参照リストがピクチャ内で共通に用いられることを識別する情報である。制限識別情報は、ピクチャ内の全てのスライスの参照リストが同一の参照リストに制限されることを表す場合1であり、制限されないことを表す場合0である。
 符号化部1001は、制限識別情報が1である場合、マージモード時に、非特許文献2に記載されている方法でマージのTMVPを行う。符号化部1001は、多視点画像の符号化データを設定部1002に供給する。
 設定部1002は、ユーザ入力等に基づいて制限識別情報を設定し、符号化部1001に供給する。設定部1002は、制限識別情報を含むSPS,PPS(Picture Parameter Set)等のパラメータセットを設定する。設定部1002は、符号化部1001から供給される符号化データにパラメータセットを付加して符号化ストリームを生成し、伝送部1003に供給する。
 伝送部1003は、設定部1002から供給される符号化ストリームを後述する復号装置に伝送する。
 (符号化部の構成例)
 図2は、図1の符号化部1001の構成例を示すブロック図である。
 図2の符号化部1001は、例えばAVCやHEVC等の符号化方式のように、予測処理を用いて、多視点画像を視点ごとに符号化する。
 図2の符号化部1001は、A/D変換部1011、画面並べ替えバッファ1012、演算部1013、直交変換部1014、量子化部1015、可逆符号化部1016、および蓄積バッファ1017を有する。また、符号化部1001は、逆量子化部1018、逆直交変換部1019、演算部1020、ループフィルタ1021、デコードピクチャバッファ1022、選択部1023、イントラ予測部1024、動き視差予測・補償部1025、予測画像選択部1026、および多視点デコードピクチャバッファ1027を有する。
 A/D変換部1011は、入力された1視点の画像をA/D変換し、画面並べ替えバッファ1012に出力して記憶させる。画面並べ替えバッファ1012は、記憶した表示の順番のフレーム単位の画像を、GOP(Group Of Picture)構造に応じて、符号化のための順番に並べ替える。画面並べ替えバッファ1012は、並び替えた画像を、その画像のビューIDおよびPOC(Picture Order Count)とともに、演算部1013、イントラ予測部1024、および動き視差予測・補償部1025に供給する。なお、ビューIDは、視点を識別するための情報であり、POCは、時刻を識別するための情報である。
 演算部1013は、画面並べ替えバッファ1012から読み出された画像から、予測画像選択部1026を介してイントラ予測部1024または動き視差予測・補償部1025から供給される予測画像を減算し、その差分情報を直交変換部1014に出力する。
 直交変換部1014は、演算部1013から供給される差分情報に対して、離散コサイン変換やカルーネン・レーベ変換等の直交変換を施す。なお、この直交変換の方法は任意である。直交変換部1014は、その直交変換係数を量子化部1015に供給する。
 量子化部1015は、直交変換部1014から供給される直交変換係数を量子化する。量子化部1015は、符号量の目標値に関する情報に基づいて量子化パラメータを設定し、その量子化を行う。なお、この量子化の方法は任意である。量子化部1015は、量子化された直交変換係数を可逆符号化部1016に供給する。
 可逆符号化部1016は、量子化部1015において量子化された直交変換係数を、任意の符号化方式で可逆符号化し、符号化画像を生成する。また、可逆符号化部1016は、最適なイントラ予測モードを示す情報等を含むイントラ予測情報をイントラ予測部1024から取得する。可逆符号化部1016は、最適なインター予測モードを示す情報や、動きベクトルまたは視差ベクトルを表す動き視差ベクトル情報などを含むインター予測情報を、動き視差予測・補償部1025から取得する。さらに、可逆符号化部1016は、ループフィルタ1021において使用されたフィルタ係数等を取得する。
 可逆符号化部1016は、これらの各種情報を任意の符号化方式で符号化し、符号化画像のヘッダ情報の一部とする。可逆符号化部1016は、符号化して得られた符号化画像とヘッダ情報からなる符号化データを、蓄積バッファ1017に供給して蓄積させる。
 可逆符号化部1016の符号化方式としては、例えば、可変長符号化または算術符号化等が挙げられる。可変長符号化としては、例えば、H.264/AVC方式で定められているCAVLC(Context-Adaptive Variable Length Coding)などが挙げられる。算術符号化としては、例えば、CABAC(Context-Adaptive Binary Arithmetic Coding)などが挙げられる。
 蓄積バッファ1017は、可逆符号化部1016から供給された符号化データを、一時的に保持する。蓄積バッファ1017は、所定のタイミングにおいて、保持している符号化データを、図1の設定部1002に供給する。
 また、量子化部1015において量子化された直交変換係数は、逆量子化部1018にも供給される。逆量子化部1018は、その量子化された直交変換係数を、量子化部1015による量子化に対応する方法で逆量子化する。この逆量子化の方法は、量子化部1015による量子化に対応する方法であればどのような方法であってもよい。逆量子化部1018は、得られた直交変換係数を、逆直交変換部1019に供給する。
 逆直交変換部1019は、逆量子化部1018から供給された直交変換係数を、直交変換部1014による直交変換に対応する方法で逆直交変換し、局所的に復元された差分情報を得る。この逆直交変換の方法は、直交変換部1014による直交変換に対応する方法であればどのようなものであってもよい。差分情報は、演算部1020に供給される。
 演算部1020は、逆直交変換部1019から供給された局所的に復元された差分情報に、予測画像選択部1026を介してイントラ予測部1024または動き視差予測・補償部1025から供給される予測画像を加算する。これにより、局所的に再構成(復号)された画像(以下、再構成画像と称する)が生成される。その再構成画像は、ループフィルタ1021またはデコードピクチャバッファ1022に供給される。
 ループフィルタ1021は、デブロックフィルタ、適応オフセットフィルタ(SAO(Sample adaptive offset))、適応ループフィルタ(ALF(Adaptive Loop Filter))等を含み、演算部1020から供給される再構成画像に対して適宜フィルタ処理を行う。
 例えば、ループフィルタ1021は、再構成画像に対してデブロックフィルタ処理を行うことにより再構成画像のブロック歪を除去する。また、例えば、ループフィルタ1021は、そのデブロックフィルタ処理結果に対して、ウィナーフィルタ(Wiener Filter)を用いて適応ループフィルタ処理を行うことにより画質改善を行う。
 なお、ループフィルタ1021が、再構成画像に対して任意のフィルタ処理を行うようにしてもよい。また、ループフィルタ1021は、フィルタ処理に用いたフィルタ係数等を可逆符号化部1016に供給する。
 ループフィルタ1021は、フィルタ処理結果(以下、復号画像と称する)をデコードピクチャバッファ1022に供給する。
 デコードピクチャバッファ1022は、演算部1020から供給される再構成画像と、ループフィルタ1021から供給される復号画像とをそれぞれ記憶する。また、デコードピクチャバッファ1022は、その画像のビューIDおよびPOCを記憶する。
 デコードピクチャバッファ1022は、所定のタイミングにおいて、若しくは、イントラ予測部1024等の外部からの要求に基づいて、記憶している再構成画像並びに、その画像のビューIDおよびPOCを、選択部1023を介して、イントラ予測部1024に供給する。また、デコードピクチャバッファ1022は、所定のタイミングにおいて、若しくは、動き視差予測・補償部1025等の外部からの要求に基づいて、記憶している復号画像、並びに、その画像のビューIDおよびPOCを、選択部1023を介して、動き視差予測・補償部1025に供給する。
 選択部1023は、デコードピクチャバッファ1022から出力される画像の供給先を示す。例えば、イントラ予測の場合、選択部1023は、デコードピクチャバッファ1022からフィルタ処理されていない再構成画像を読み出し、予測処理対象領域の周辺に位置する周辺領域の画像である周辺画像として、イントラ予測部1024に供給する。
 また、例えば、インター予測の場合、選択部1023は、デコードピクチャバッファ1022からフィルタ処理された復号画像を読み出し、参照画像として、それを動き視差予測・補償部1025に供給する。
 イントラ予測部1024は、デコードピクチャバッファ1022から周辺画像を取得すると、その周辺画像の画素値を用いて、基本的にプレディクションユニット(PU)を処理単位として予測画像を生成するイントラ予測を行う。イントラ予測部1024は、このイントラ予測を予め用意された複数のイントラ予測モードで行う。
 イントラ予測部1024は、各イントラ予測モードの予測画像と、画面並べ替えバッファ1012から供給される画像とを用いて、各予測画像のコスト関数値を評価し、最適なイントラ予測モードを選択する。イントラ予測部1024は、最適なイントラ予測モードを選択すると、その最適なイントラ予測モードで生成された予測画像とコスト関数値を、予測画像選択部1026に供給する。
 また、イントラ予測部1024は、予測画像選択部1026によりイントラ予測部1024により生成された予測画像が選択された場合、最適なイントラ予測に関するイントラ予測情報を、可逆符号化部1016に供給する。
 動き視差予測・補償部1025は、画面並べ替えバッファ1012からの画像と、デコードピクチャバッファ1022からの参照画像とを用いて、基本的にPUを処理単位として、動き予測または視差予測(インター予測)を行う。
 具体的には、動き視差予測・補償部1025は、マージモードではない場合、画面並べ替えバッファ1012からの画像と参照画像とを用いて、動きベクトルまたは視差ベクトルを検出する。なお、以下では、動きベクトルと視差ベクトルを特に区別する必要がない場合、それらをまとめて動き視差ベクトルという。動き視差予測・補償部1025は、検出された動き視差ベクトルに基づいて参照画像に補償処理を施し、予測画像を生成する。
 マージモードである場合、動き視差予測・補償部1025は、図1の設定部1002から供給される制限識別情報に基づいて、マージのTMVPを行い、予測画像を生成する。動き視差予測・補償部1025は、このようなインター予測を予め用意された複数のインター予測モードで行う。
 動き視差予測・補償部1025は、各インター予測モードの予測画像と、画面並べ替えバッファ1012から供給される画像とを用いて、各予測画像のコスト関数値を評価し、最適なインター予測モードを選択する。動き視差予測・補償部1025は、最適なインター予測モードを選択すると、その最適なインター予測モードで生成された予測画像とコスト関数値を、予測画像選択部1026に供給する。
 また、動き視差予測・補償部1025は、予測画像選択部1026により動き視差予測・補償部1025により生成された予測画像が選択された場合、最適なインター予測に関するインター予測情報を可逆符号化部1016に供給する。
 予測画像選択部1026は、イントラ予測部1024と動き視差予測・補償部1025から供給されるコスト関数値に基づいて、演算部1013や演算部1020に供給する予測画像の供給元を選択する。
 例えば、イントラ予測部1024からのコスト関数値が、動き視差予測・補償部1025からのコスト関数値より小さい場合、予測画像選択部1026は、予測画像の供給元としてイントラ予測部1024を選択する。そして、予測画像選択部1026は、イントラ予測部1024から供給される予測画像を演算部1013や演算部1020に供給する。
 また、例えば、動き視差予測・補償部1025からのコスト関数値が、イントラ予測部1024からのコスト関数値より小さい場合、予測画像選択部1026は、予測画像の供給元として動き視差予測・補償部1025を選択する。そして、予測画像選択部1026は、動き視差予測・補償部1025から供給される予測画像を演算部1013や演算部1020に供給する。
 デコードピクチャバッファ1022は、処理対象の視点の画像、並びに、その画像のビューIDおよびPOCのみを記憶するが、多視点デコードピクチャバッファ1027は、各視点の画像、並びに、その画像のビューIDおよびPOCを記憶する。つまり、多視点デコードピクチャバッファ1027は、デコードピクチャバッファ1022に供給された復号画像、並びに、その復号画像のビューIDおよびPOCを取得し、デコードピクチャバッファ1022とともに記憶する。
 デコードピクチャバッファ1022は、処理対象の視点が変わると、前の処理対象の視点の復号画像を消去するが、多視点デコードピクチャバッファ1027は、そのまま保持する。そして、デコードピクチャバッファ1022などの要求に従って、記憶している復号画像、並びに、その画像のビューIDおよびPOCを、「処理対象ではない視点の復号画像、並びに、その復号画像のビューIDおよびPOC」として、デコードピクチャバッファ1022に供給する。デコードピクチャバッファ1022は、多視点デコードピクチャバッファ1027から読み出した「処理対象ではない視点の復号画像、並びに、その復号画像のビューIDおよびPOC」を、選択部1023を介して動き視差予測・補償部1025に供給する。
 (マージインター予測部の構成例)
 図3は、図2の動き視差予測・補償部1025のうちの、マージモードでインター予測を行うマージインター予測部1030の構成例を示すブロック図である。
 図3のマージインター予測部1030は、参照リスト生成部1031、選択部1032、マージ候補リスト生成部1033、予測画像生成部1034、算出部1035、および最適モード決定部1036により構成される。
 マージインター予測部1030の参照リスト生成部1031は、図1の設定部1002から供給される制限識別情報に基づいて、参照リストを生成する。
 具体的には、参照リスト生成部1031は、符号化対象の画像より表示順で前または後の画像を用いてインター予測を行う場合、即ち一方向予測を行う場合、その画像、および、符号化対象の画像と同一の時刻で視点の異なる画像を参照画像として特定する参照画像特定情報を登録する参照リストL0を生成する。
 一方、符号化対象の画像より表示順で前および後の画像を用いてインター予測を行う場合、即ち双方向予測を行う場合、参照リスト生成部1031は、符号化対象の画像より表示順で前の画像を参照画像として特定する参照画像特定情報を登録する参照リストL0を生成する。また、この場合、参照リスト生成部1031は、符号化対象の画像より表示順で後の画像を参照画像として特定する参照画像特定情報を登録する参照リストL1も生成する。なお、この参照リストL0と参照リストL1には、符号化対象の画像と同一の時刻で視点の異なる画像を参照画像として特定する参照画像特定情報も登録される。
 このような参照リストは、参照画像特定情報が1である場合ピクチャ単位で生成され、参照画像特定情報が0である場合スライス単位で生成される。
 参照リストの各エントリには、そのエントリを識別する情報として参照インデックスが付与されている。参照インデックス「0」のエントリには、符号化対象の画像の現在の処理対象の予測ブロックであるカレントブロックの参照ピクチャタイプと同一の参照ピクチャタイプの参照画像の参照画像特定情報が含まれる。
 参照画像特定情報は、例えば、参照画像が符号化対象の画像と同一の視点で異な時間の画像である場合参照画像のPOCを表す情報であり、参照画像が符号化対象の画像と同一の時間で異なる視点の画像である場合参照画像のビューIDである。
 また、参照ピクチャタイプには、Short-term(短時間参照ピクチャ)とLong-term(長時間参照ピクチャ)の2つのタイプがある。Short-termは、符号化対象の画像と時間的に近い同一の視点の参照画像のタイプである。一方、Long-termは、符号化対象の画像と時間的に遠い同一の視点の参照画像、または、符号化対象の画像と視点の異なる同一の時刻の参照画像のタイプである。
 参照リストは、参照リスト生成部1031に保持される。参照リストを生成するための情報は、例えば、図2の可逆符号化部1016により符号化され、ヘッダ情報の一部として符号化データに含まれる。
 選択部1032は、設定部1002からの制限識別情報に基づいて、参照リスト生成部1031に保持されている参照リストから、参照インデックス「0」の参照ピクチャタイプとは異なる参照ピクチャタイプの参照インデックスの最小値を選択する。即ち、選択部1032は、参照リストに登録されている、カレントブロックの参照ピクチャタイプとは異なる参照ピクチャタイプの参照画像の参照画像特定情報を含むエントリに付与された参照インデックスを選択する。選択部1032は、選択された参照インデックスの参照画像特定情報と参照インデックス「0」の参照画像特定情報を予測画像生成部1034に供給する。
 マージ候補リスト生成部1033は、設定部1002からの制限識別情報に基づいてマージ候補リストを生成する。マージ候補リストには、コロケーテッドブロック(詳細は後述する)の参照ピクチャタイプがエントリに登録されるとともに、そのコロケーテッドブロックの動き視差ベクトルが予測ベクトルの候補としてエントリに登録される。但し、参照ピクチャタイプがShort-termである場合、動き視差ベクトルは、参照画像と符号化対象の画像の時間的な距離または視点間距離に基づいてスケーリング処理され、予測ベクトルの候補とされる。
 コロケーテッドブロックとは、カレントブロックと同一の位置の異なる時刻または視点の予測ブロックである。また、説明の簡単のため、ここでは、コロケーテッドブロックの動き視差ベクトルのみが予測ベクトルの候補とされるが、実際には、カレントブロックの周辺の予測ブロックの動き視差ベクトルも予測ベクトルの候補とされる。
 マージ候補リストの各エントリには、そのエントリを識別するベクトルインデックスが付与される。マージ候補リスト生成部1033は、生成されたマージ候補リストを保持する。
 予測画像生成部1034は、マージ候補リスト生成部1033からマージ候補リストを読み出す。予測画像生成部1034は、マージ候補リストのエントリごとに、コロケーテッドピクチャの動き視差ベクトルと、選択部1032から供給される、そのコロケーテッドピクチャと同一の参照ピクチャタイプの参照画像特定情報で特定される参照画像とに基づいて、予測画像を生成する。
 具体的には、予測画像生成部1034は、エントリに含まれる参照ピクチャタイプがカレントブロックの参照ピクチャタイプと同一である場合、カレントブロックと同一の参照ピクチャタイプの参照画像特定情報である、参照インデックス「0」の参照画像特定情報を選択部1032から取得する。
 一方、エントリに含まれる参照ピクチャタイプがカレントブロックの参照ピクチャタイプと異なる場合、予測画像生成部1034は、カレントブロックとは異なる参照ピクチャタイプの参照画像特定情報である、参照インデックス「0」以外の参照インデックスの参照画像特定情報を選択部1032から取得する。
 予測画像生成部1034は、取得された参照画像特定情報で特定される参照画像を、選択部1023を介してデコードピクチャバッファ1022から取得する。そして、予測画像生成部1034は、エントリに含まれる動き視差ベクトルに基づいて、読み出された参照画像に補償処理を施し、予測画像を生成する。
 以上のようにして予測画像を生成する処理は、予め用意された全てのインター予測モードで行われる。即ち、サイズの異なるカレントブロックの予測画像が生成される。予測画像生成部1034は、生成された予測画像を、対応するインター予測モードおよびベクトルインデックスとともに算出部1035に供給する。
 算出部1035は、予測画像生成部1034から供給される予測画像、インター予測モード、およびベクトルインデックス、並びに、画面並べ替えバッファ1012から供給される画像に基づいて、予測画像ごとにコスト関数値を算出する。算出部1035は、予測画像、対応するコスト関数値、インター予測モード、およびベクトルインデックスを最適モード決定部1036に供給する。
 最適モード決定部1036は、算出部1035から供給されるコスト関数値が最小となる予測画像のインター予測モードを最適なインター予測モードに決定する。最適モード決定部1036は、最適なインター予測モードの予測画像とコスト関数値を予測画像選択部1026に供給する。
 また、最適モード決定部1036は、予測画像選択部1026によりマージインター予測部1030により生成された予測画像が選択された場合、最適なインター予測モードを示す情報と、動き視差ベクトル情報としてのベクトルインデックスとを含むインター予測情報を、可逆符号化部1016に供給する。
 (画像符号化装置の処理の説明)
 図4は、図1の画像符号化装置1000のストリーム生成処理を説明するフローチャートである。このストリーム生成処理は、多視点画像が入力されたとき、開始される。
 ステップS11において、画像符号化装置1000の符号化部1001は、設定部1002から供給されるユーザ入力等に基づいて設定された制限識別情報に基づいて、各視点の画像を符号化する符号化処理を行う。この符号化処理の詳細は、後述する図5を参照して説明する。
 ステップS12において、設定部1002は、制限識別情報を含むSPS,PPS等のパラメータセットを設定する。ステップS13において、設定部1002は、符号化部1001から供給される符号化データにパラメータセットを付加して符号化ストリームを生成し、伝送部1003に供給する。
 ステップS14において、伝送部1003は、設定部1002から供給される符号化ストリームを後述する復号装置に伝送する。
 図5は、図4のステップS11の符号化処理の詳細を説明するフローチャートである。この符号化処理は、多視点画像に対して視点ごとに行われる。
 ステップS101において、A/D変換部1011は入力された画像をA/D変換する。ステップS102において、画面並べ替えバッファ1012は、A/D変換された画像を記憶し、各ピクチャの表示する順番から符号化する順番への並べ替えを行う。
 ステップS103において、イントラ予測部1024は、予め用意された複数のイントラ予測モードのイントラ予測処理を行い、予測画像を生成する。また、イントラ予測部1024は、イントラ予測モードごとに、予測画像と画面並べ替えバッファ1012から供給される画像とに基づいてコスト関数値を算出する。そして、イントラ予測部1024は、コスト関数値が最小となるイントラ予測モードを最適なイントラ予測モードとして選択する。イントラ予測部1024は、その最適なイントラ予測モードで生成された予測画像とコスト関数値を、予測画像選択部1026に供給する。
 ステップS104において、動き視差予測・補償部1025は、設定部1002から供給される制限識別情報に基づいて、予め用意された複数のインター予測モードのインター予測処理を行い、予測画像を生成する。また、動き視差予測・補償部1025は、インター予測モードごとに予測画像と画面並べ替えバッファ1012から供給される画像とに基づいてコスト関数値を算出する。そして、動き視差予測・補償部1025は、コスト関数値が最小となるインター予測モードを最適なインター予測モードとして選択する。動き視差予測・補償部1025は、その最適なインター予測モードで生成された予測画像とコスト関数値を、予測画像選択部1026に供給する。
 ステップS105において、予測画像選択部1026は、イントラ予測部1024から供給される予測画像と、動き視差予測・補償部1025から供給される予測画像のうち、コスト関数値の小さい方を選択する。イントラ予測部1024から供給される予測画像が選択された場合、イントラ予測部1024は、イントラ予測情報を可逆符号化部1016に供給する。一方、動き視差予測・補償部1025から供給される予測画像が選択された場合、動き視差予測・補償部1025は、インター予測情報を可逆符号化部1016に供給する。
 ステップS106において、演算部1013は、ステップS102の処理により並び替えられた画像と、ステップS105の処理により選択された予測画像との差分を演算する。生成された差分情報は元の画像に較べてデータ量が低減される。したがって、画像をそのまま符号化する場合に比べて、データ量を圧縮することができる。
 ステップS107において、直交変換部1014は、ステップS106の処理により生成された差分情報を直交変換する。具体的には、離散コサイン変換、カルーネン・レーベ変換等の直交変換が行われ、直交変換係数が出力される。ステップS108において、量子化部1015は、ステップS107の処理により得られた直交変換係数を量子化する。
 ステップS108の処理により量子化された差分情報は、次のようにして局部的に復号される。すなわち、ステップS109において、逆量子化部1018は、ステップS108の処理により生成された量子化された直交変換係数を量子化部1015の特性に対応する特性で逆量子化する。ステップS110において、逆直交変換部1019は、ステップS109の処理により得られた直交変換係数を、直交変換部1014の特性に対応する特性で逆直交変換する。これにより差分情報が復元される。
 ステップS111において、演算部1020は、ステップS105において選択された予測画像を、ステップS110において生成された差分情報に加算し、再構成画像を生成する。
 ステップS112において、ループフィルタ1021は、ステップS111の処理により得られた再構成画像に対して、デブロックフィルタ処理や適応ループフィルタ処理等を含むフィルタ処理を適宜行い、復号画像を生成する。ループフィルタ1021は、フィルタ処理に用いられたフィルタ係数等を可逆符号化部1016に供給する。
 ステップS113において、デコードピクチャバッファ1022は、ステップS112の処理により生成された復号画像等、および、ステップS111の処理により生成された再構成画像等を記憶する。多視点デコードピクチャバッファ1027は、ステップS112の処理により生成された復号画像等を記憶する。
 ステップS114において、可逆符号化部1016は、ステップS108の処理により量子化された直交変換係数を可逆符号化し、符号化画像を生成する。また、可逆符号化部1016は、イントラ予測情報またはインター予測情報、フィルタ係数等を符号化し、ヘッダ情報を生成する。そして、可逆符号化部1016は、符号化画像とヘッダ情報から符号化データを生成する。
 ステップS115において、蓄積バッファ1017は、ステップS114の処理により得られた符号化データを蓄積する。蓄積バッファ1017に蓄積された符号化データは、適宜読み出され、図1の設定部1002に供給される。
 ステップS116において、量子化部1015は、ステップS115の処理により蓄積バッファ1017に蓄積された符号化データの符号量(発生符号量)に基づいて、オーバーフローあるいはアンダーフローが発生しないように、量子化動作のレートを制御する。
 ステップS116の処理が終了すると、処理は図4のステップS11に戻り、ステップS12の処理が行われる。
 図6は、図5のステップS104のインター予測処理のうちのマージモードのインター予測処理であるマージインター予測処理を説明するフローチャートである。このマージインター予測処理は、マージモードで多視点画像を符号化するときにピクチャ単位で行われる。
 ステップS1201において、マージインター予測部1030の参照リスト生成部1031(図3)は、設定部1002から供給される制限識別情報(restricted_ref_pic_lists_flag)が1であるかどうかを判定する。ステップS1201で制限識別情報が1であると判定された場合、処理はステップS1202に進む。
 ステップS1202において、参照リスト生成部1031は、ピクチャ単位の参照リストを生成し、保持する。この参照リストを生成するための情報は、例えば、図2の可逆符号化部1016により符号化され、ヘッダ情報の一部として符号化データに含まれる。
 ステップS1203において、選択部1032は、参照リスト生成部1031により生成された参照リストL0の中で、参照インデックス「0」の参照ピクチャタイプと異なる参照ピクチャタイプの参照インデックスの最小値を探索する。
 具体的には、選択部1032は、参照リストL0に対して、1以上の参照インデックスを昇順に探索し、参照インデックス「0」の参照ピクチャタイプと異なる参照ピクチャタイプの参照画像の参照画像特定情報が見つかるまで、探し続ける。
 例えば、参照インデックス「0」の参照ピクチャタイプがShort-termであるとき、選択部1032は、参照ピクチャタイプがLong-termである参照画像の参照画像特定情報をエントリに含む参照インデックスが見つかるまで、1以上の参照インデックスを昇順に探し続ける。
 一方、参照インデックス「0」に対応する参照ピクチャタイプがLong-termであるとき、選択部1032は、参照ピクチャタイプがShort-termである参照画像の参照画像特定情報をエントリに含む参照インデックスが見つかるまで、1以上の参照インデックスを昇順に探し続ける。選択部1032は、探索された参照インデックスのエントリに含まれる参照画像特定情報を予測画像生成部1034に供給する。
 ステップS1204において、選択部1032は、参照リスト生成部1031により参照リストL1が生成された場合、参照リストL0の場合と同様に、参照リストL1の中で、参照インデックス「0」の参照ピクチャタイプと異なる参照ピクチャタイプの参照インデックスの最小値を探索する。選択部1032は、探索された参照インデックスのエントリに含まれる参照画像特定情報を予測画像生成部1034に供給する。また、選択部1032は、参照インデックス「0」のエントリに含まれる参照画像特定情報を予測画像生成部1034に供給する。
 以降のステップS1205,S1206、およびS1209乃至S1212の処理は、各インター予測モードの予測ブロックごとに行われる。
 ステップS1205において、マージ候補リスト生成部1033は、全てのコロケーテッドブロックの参照ピクチャタイプとともに、対応する動き視差ベクトルを予測ベクトルの候補としてエントリに登録するマージ候補リストを生成し、保持する。
 ステップS1206において、予測画像生成部1034は、マージ候補リストのエントリごとに、カレントブロックの参照ピクチャタイプと、そのエントリに含まれるコロケーテッドブロックの参照ピクチャタイプとが、一致するかどうかを判定する。そして、予測画像生成部1034は、参照ピクチャタイプが異なる場合、選択部1032から供給される参照画像特定情報のうちの0以外の参照インデックスの参照画像特定情報を、カレントブロックの参照画像特定情報として選択する。
 一方、参照ピクチャタイプが同一である場合、予測画像生成部1034は、選択部1032から供給される参照画像特定情報のうちの参照インデックス「0」の参照画像特定情報を、カレントブロックの参照画像特定情報として選択する。そして、処理は、ステップS1210に進む。
 一方、ステップS1201で、制限識別情報が1ではないと判定された場合、即ち、制限識別情報が0である場合、ステップS1207において、参照リスト生成部1031は、スライス単位の参照リストを生成し、保持する。この参照リストを生成するための情報は、例えば、可逆符号化部1016により符号化され、ヘッダ情報の一部として符号化データに含まれる。
 ステップS1208において、選択部1032は、生成された参照リストの参照インデックス「0」の参照画像特定情報を予測画像生成部1034に供給する。予測画像生成部1034は、その参照画像特定情報をカレントブロックの参照画像特定情報とする。
 ステップS1209において、マージ候補リスト生成部1033は、カレントブロックの参照ピクチャタイプと各コロケーテッドブロックの参照ピクチャタイプが一致するかどうかを判定する。そして、マージ候補リスト生成部1033は、コロケーテッドブロックの参照ピクチャタイプがカレントブロックの参照ピクチャタイプと異なるときに、そのコロケーテッドブロックの動き視差ベクトルを、予測ベクトルの候補から除外して、マージ候補リストを生成し、保持する。そして、処理はステップS1210に進む。
 ステップS1210において、予測画像生成部1034は、カレントブロックの参照画像特定情報で特定される参照画像と、マージ候補リストの各エントリに含まれる予測ベクトルとに基づいて、予測画像を生成する。予測画像生成部1034は、生成された予測画像を、対応するインター予測モードおよびベクトルインデックスとともに算出部1035に供給する。
 ステップS1211において、算出部1035は、予測画像生成部1034からの予測画像、インター予測モード、およびベクトルインデックス、並びに、画面並べ替えバッファ1012から供給される画像に基づいて、予測画像ごとにコスト関数値を算出する。算出部1035は、予測画像、対応するコスト関数値、インター予測モード、およびベクトルインデックスを最適モード決定部1036に供給する。
 ステップS1212において、最適モード決定部1036は、算出部1035から供給されるコスト関数値が最小となる予測画像のインター予測モードを最適なインター予測モードとして選択する。最適モード決定部1036は、最適なインター予測モードの予測画像とコスト関数値を予測画像選択部1026に供給する。そして、処理は終了する。
 (画像復号装置の構成例)
 図7は、図1の画像符号化装置1000から伝送されてくる符号化ストリームを復号する、本開示を適用した画像処理装置としての画像復号装置の第1実施の形態の構成例を示すブロック図である。
 図7の画像復号装置1100は、受け取り部1101、抽出部1102、および復号部1103により構成される。
 画像復号装置1100の受け取り部1101は、画像符号化装置1000から伝送されてくる符号化ストリームを受け取り、抽出部1102に供給する。
 抽出部1102は、受け取り部1101から供給される符号化ストリームから、制限識別情報を含むSPS,PPS等のパラメータセットと多視点画像の符号化データを抽出し、復号部1103に供給する。
 復号部1103は、抽出部1102から供給される符号化データに対して、画像符号化装置1000に対応する方式で、イントラ復号、または、動き予測または視差予測によるインター復号を行う。具体的には、復号部1103は、抽出部1102から供給されるSPSに含まれる制限識別情報が1である場合、マージモード時に、非特許文献2に記載されている方法でマージのTMVPを行う。復号部1103は、復号の結果得られる多視点画像を出力する。
 (復号部の構成例)
 図8は、図7の復号部1103の構成例を示すブロック図である。
 図8の復号部1103は、図2の符号化部1001に対応する方式で、多視点画像を視点ごとに復号する。
 復号部1103は、蓄積バッファ1121、可逆復号部1122、逆量子化部1123、逆直交変換部1124、演算部1125、ループフィルタ1126、画面並べ替えバッファ1127、およびD/A変換部1128を有する。また、復号部1103は、デコードピクチャバッファ1129、選択部1130、イントラ予測部1131、動き視差補償部1132、選択部1133、および多視点デコードピクチャバッファ1134を有する。
 蓄積バッファ1121は、図7の抽出部1102から供給される符号化データを蓄積し、所定のタイミングにおいてその符号化データを可逆復号部1122に供給する。可逆復号部1122は、蓄積バッファ1121より供給された符号化データを、可逆符号化部1016の符号化方式に対応する方式で復号する。可逆復号部1122は、復号して得られた量子化された直交変換係数を、逆量子化部1123に供給する。
 また、可逆復号部1122は、符号化データを復号して得られたイントラ予測情報をイントラ予測部1131に供給し、インター予測情報等を動き視差補償部1132に供給する。可逆復号部1122は、符号化データを復号して得られたフィルタ係数等をループフィルタ1126に供給する。
 逆量子化部1123は、可逆復号部1122から供給される量子化された直交変換係数を、図2の量子化部1015の量子化方式に対応する方式で逆量子化し、得られた直交変換係数を逆直交変換部1124に供給する。逆直交変換部1124は、図2の直交変換部1014の直交変換方式に対応する方式で逆量子化部1123から供給される直交変換係数を逆直交変換する。
 逆直交変換されて得られた差分情報は、演算部1125に供給される。また、演算部1125には、選択部1133を介して、イントラ予測部1131または動き視差補償部1132から予測画像が供給される。
 演算部1125は、差分情報と予測画像とを加算し再構成画像を得る。演算部1125は、その再構成画像をループフィルタ1126とデコードピクチャバッファ1129に供給する。
 ループフィルタ1126は、可逆復号部1122から供給されるフィルタ係数等を用いて、演算部1125からの再構成画像に対して、図2のループフィルタ1021と同様にフィルタ処理を施し、復号画像を生成する。
 ループフィルタ1126は、復号画像を画面並べ替えバッファ1127およびデコードピクチャバッファ1129に供給する。
 画面並べ替えバッファ1127は、供給された復号画像の並べ替えを行う。すなわち、図2の画面並べ替えバッファ1012により符号化の順番に並べ替えられたフレームの順番が、元の表示の順番に並べ替えられる。D/A変換部1128は、画面並べ替えバッファ1127から供給された復号画像をD/A変換し、図示せぬディスプレイに出力し、表示させる。
 デコードピクチャバッファ1129は、供給される再構成画像、並びに、その画像のビューIDおよびPOCと、復号画像、並びに、その画像のビューIDおよびPOCとを記憶する。また、デコードピクチャバッファ1129は、所定のタイミングにおいて、若しくは、イントラ予測部1131等の外部の要求に基づいて、記憶している再構成画像、並びに、その画像のビューIDおよびPOCを、選択部1130を介してイントラ予測部1131に供給する。
 また、デコードピクチャバッファ1129は、所定のタイミングにおいて、若しくは、動き視差補償部1132等の外部の要求に基づいて、記憶している復号画像、並びに、その画像のビューIDおよびPOCを、選択部1130を介して動き視差補償部1132に供給する。
 イントラ予測部1131は、可逆復号部1122から供給されるイントラ予測モード情報が示すイントラ予測情報に基づいて、デコードピクチャバッファ1129から選択部1130を介して再構成画像を周辺画像として取得し、予測画像とする。イントラ予測部1131は、予測画像を、選択部1133を介して演算部1125に供給する。
 動き視差補償部1132は、可逆復号部1122から供給されるインター予測情報と抽出部1102から供給される制限識別情報とに基づいて、復号画像を参照画像として読み出し、補償処理を施す。動き視差補償部1132は、その結果生成される予測画像を、選択部1133を介して演算部1125に供給する。
 選択部1133は、イントラ予測部1131から供給される予測画像、または、動き視差補償部1132から供給される予測画像を演算部1125に供給する。
 デコードピクチャバッファ1129は、処理対象の視点の画像、並びに、その画像のビューIDおよびPOCのみを記憶するが、多視点デコードピクチャバッファ1134は、各視点の画像、並びに、その画像のビューIDおよびPOCを記憶する。つまり、多視点デコードピクチャバッファ1134は、デコードピクチャバッファ1129に供給された復号画像、並びに、その復号画像のビューIDおよびPOCを取得し、デコードピクチャバッファ1129とともに記憶する。
 デコードピクチャバッファ1129は、処理対象の視点が変わると、その復号画像を消去するが、多視点デコードピクチャバッファ1134は、そのまま保持する。そして、デコードピクチャバッファ1129などの要求に従って、記憶している復号画像、並びに、その復号画像のビューIDおよびPOCを、「処理対象ではない視点の復号画像」として、デコードピクチャバッファ1129に供給する。デコードピクチャバッファ1129は、多視点デコードピクチャバッファ1134から読み出した「処理対象ではない視点の復号画像、並びに、その復号画像のビューIDおよびPOC」を、選択部1130を介して動き視差補償部1132に供給する。
 (マージインター予測部の構成例)
 図9は、図8の動き視差補償部1132のうちの、マージモードでインター予測を行うマージインター予測部1150の構成例を示すブロック図である。
 図9のマージインター予測部1150は、参照リスト生成部1151、選択部1152、マージ候補リスト生成部1153、および予測画像生成部1154により構成される。
 マージインター予測部1150の参照リスト生成部1151は、可逆復号部1122から供給される参照リストを生成するための情報と制限識別情報とに基づいて、図3の参照リスト生成部1031で生成される参照リストと同一の参照リストを生成する。参照リストは、参照リスト生成部1151に保持される。
 選択部1152は、抽出部1102からの制限識別情報に基づいて、図3の選択部1032と同様に、参照リストから参照インデックス「0」の参照ピクチャタイプとは異なる参照ピクチャタイプの参照インデックスの最小値を選択する。選択部1152は、選択された参照インデックスの参照画像特定情報と参照インデックス「0」の参照画像特定情報を予測画像生成部1154に供給する。
 マージ候補リスト生成部1153は、図8の可逆復号部1122からのインター予測情報が示すインター予測モードの予測ブロックについて、図3のマージ候補リスト生成部1033と同様に、制限識別情報に基づいてマージ候補リストを生成する。マージ候補リスト生成部1153は、生成されたマージ候補リストを保持する。
 予測画像生成部1154は、インター予測情報に含まれるベクトルインデックスのエントリを、マージ候補リストから読み出す。予測画像生成部1154は、読み出されたエントリに含まれる参照ピクチャタイプがカレントブロックの参照ピクチャタイプと同一である場合、選択部1152から参照インデックス「0」の参照画像特定情報を取得する。
 一方、エントリに含まれる参照ピクチャタイプがカレントブロックの参照ピクチャタイプと異なる場合、予測画像生成部1154は、選択部1152から参照インデックス「0」以外の参照インデックスの参照画像特定情報を取得する。予測画像生成部1154は、取得された参照画像特定情報で特定される参照画像を、選択部1130を介してデコードピクチャバッファ1022から取得する。
 予測画像生成部1154は、エントリに含まれる動き視差ベクトルに基づいて、読み出された参照画像に補償処理を施し、予測画像を生成する。予測画像生成部1154は、生成された予測画像を選択部1133に供給する。
 (画像復号装置の処理の説明)
 図10は、図7の画像復号装置1100の画像生成処理を説明するフローチャートである。この画像生成処理は、例えば、画像符号化装置1000から符号化ストリームが送信されてきたとき、開始される。
 ステップS1221において、画像復号装置1100の受け取り部1101は、画像符号化装置1000から伝送されてくる符号化ストリームを受け取り、抽出部1102に供給する。
 ステップS1222において、抽出部1102は、受け取り部1101から供給される符号化ストリームから、制限識別情報を含むSPS,PPS等のパラメータセットと符号化データを抽出し、復号部1103に供給する。
 ステップS1223において、復号部1103は、抽出部1102から供給される符号化データに対して、視点ごとに画像符号化装置1000に対応する方式で復号処理を行う。この復号処理の詳細は、後述する図11を参照して説明する。ステップS1223の処理後、処理は終了する。
 図11は、図10のステップS1223の復号処理の詳細を説明するフローチャートである。この復号処理は、多視点画像の符号化データに対して視点ごとに行われる。
 ステップS1241において、蓄積バッファ1121は、抽出部1102から供給される符号化データを蓄積する。ステップS1242において、可逆復号部1122は、蓄積バッファ1121から供給される符号化データを可逆復号する。可逆復号部1122は、復号して得られた量子化された直交変換係数を、逆量子化部1123に供給する。
 また、可逆復号部1122は、符号化データを復号して得られたイントラ予測情報をイントラ予測部1131に供給し、インター予測情報等を動き視差補償部1132に供給する。可逆復号部1122は、符号化データを復号して得られたフィルタ係数等をループフィルタ1126に供給する。
 ステップS1243において、逆量子化部1123は、可逆復号部1122から供給される量子化された直交変換係数を、図2の量子化部1015の量子化方式に対応する方式で逆量子化し、得られた直交変換係数を逆直交変換部1124に供給する。
 ステップS1244において、逆直交変換部1124は、図2の直交変換部1014の直交変換方式に対応する方式で逆量子化部1123から供給される直交変換係数を逆直交変換する。逆直交変換部1124は、この逆直交変換により差分情報を得て、演算部1125に供給する。
 ステップS1245において、イントラ予測部1131は、可逆復号部1122からイントラ予測情報が供給されたとき、イントラ予測情報に基づいてイントラ予測処理を行う。また、動き視差補償部1132は、可逆復号部1122からインター予測情報が供給されたとき、インター予測情報と抽出部1102からの制限識別情報に基づいてインター予測処理を行う。イントラ予測処理またはインター予測処理の結果得られる予測画像は、選択部1133を介して演算部1125に供給される。
 ステップS1246において、演算部1125は、差分情報を予測画像と加算し、再構成画像を生成する。
 ステップS1247において、ループフィルタ1126は、可逆復号部1122から供給されるフィルタ係数等を用いて、演算部1125により生成された再構成画像に対してフィルタ処理を行う。これにより、復号画像が生成される。
 ステップS1248において、画面並べ替えバッファ1127は、ループフィルタ1126により生成された復号画像の並べ替えを行う。すなわち符号化部1001の画面並べ替えバッファ1012により符号化のために並べ替えられたフレームの順序が、元の表示の順序に並べ替えられる。
 ステップS1249において、D/A変換部1128は、画面並べ替えバッファ1127により並べ替えられた復号画像をD/A変換する。この復号画像が図示せぬディスプレイに出力され、表示される。
 ステップS1250において、デコードピクチャバッファ1129と多視点デコードピクチャバッファ1134は、ループフィルタ1126により生成された復号画像等を記憶する。この復号画像は、インター予測処理において参照画像として利用される。また、デコードピクチャバッファ1129は、演算部1125により生成された再構成画像等を記憶する。この再構成画像は、イントラ予測処理において周辺画像として利用される。
 ステップS1250の処理が終了すると、処理は図10のステップS1223に戻り、処理は終了する。
 図12は、図11のステップS1245の予測処理のうちのマージモードのインター予測処理であるマージインター予測処理を説明するフローチャートである。このマージインター予測処理は、マージモードで多視点画像を復号するときにピクチャ単位で行われる。
 図12のステップS1301において、マージインター予測部1150の参照リスト生成部1151(図9)は、抽出部1102から供給される制限識別情報(restricted_ref_pic_lists_flag)が1であるかどうかを判定する。ステップS1301で制限識別情報が1であると判定された場合、処理はステップS1302に進む。
 ステップS1302において、参照リスト生成部1151は、可逆復号部1122から供給される参照リストを生成するための情報に基づいて、ピクチャ単位の参照リストを生成し、保持する。
 ステップS1303において、選択部1152は、参照リスト生成部1151により生成された参照リストL0の中で、参照インデックス「0」の参照ピクチャタイプと異なる参照ピクチャタイプの参照インデックスの最小値を探索する。
 ステップS1304において、選択部1152は、参照リスト生成部1031により参照リストL1が生成された場合、参照リストL0の場合と同様に、参照リストL1の中で、参照インデックス「0」の参照ピクチャタイプと異なる参照ピクチャタイプの参照インデックスの最小値を探索する。
 以降のステップS1305,S1306,S1309、およびS1310の処理は、インター予測情報が示す最適なインター予測モードの予測ブロック単位で行われる。
 ステップS1305において、マージ候補リスト生成部1153は、全てのコロケーテッドブロックの参照ピクチャタイプとともに、対応する動き視差ベクトルを予測ベクトルの候補としてエントリに登録するマージ候補リストを生成し、保持する。
 ステップS1306において、予測画像生成部1154は、カレントブロックの参照ピクチャタイプと、インター予測情報に含まれるベクトルインデックスのマージ候補リストのエントリに含まれるコロケーテッドブロックの参照ピクチャタイプとが、一致するかどうかを判定する。そして、予測画像生成部1034は、参照ピクチャタイプが異なる場合、選択部1152から供給される参照画像特定情報のうちの0以外の参照インデックスの参照画像特定情報を、カレントブロックの参照画像特定情報として選択する。
 一方、参照ピクチャタイプが同一である場合、予測画像生成部1154は、選択部1152から供給される参照画像特定情報のうちの、参照インデックス「0」の参照画像特定情報を、カレントブロックの参照画像特定情報として選択する。
 そして、処理は、ステップS1310に進む。
 一方、ステップS1301で、制限識別情報が1ではないと判定された場合、即ち、制限識別情報が0である場合、ステップS1307において、参照リスト生成部1151は、可逆復号部1122から供給される参照リストを生成するための情報に基づいて、スライス単位の参照リストを生成し、保持する。
 ステップS1308において、選択部1152は、生成された参照リストの参照インデックス「0」の参照画像特定情報を予測画像生成部1154に供給する。予測画像生成部1154は、その参照画像特定情報をカレントブロックの参照画像特定情報とする。
 ステップS1309において、マージ候補リスト生成部1153は、カレントブロックの参照ピクチャタイプと、各コロケーテッドブロックの参照ピクチャタイプが一致するかどうかを判定する。そして、マージ候補リスト生成部1153は、コロケーテッドブロックの参照ピクチャタイプがカレントブロックの参照ピクチャタイプと異なるときに、そのコロケーテッドブロックの動き視差ベクトルを、予測ベクトルの候補から除外して、マージ候補リストを生成し、保持する。そして、処理はステップS1310に進む。
 ステップS1310において、予測画像生成部1154は、カレントブロックの参照画像特定情報で特定される参照画像と、インター予測情報に含まれるベクトルインデックスのマージ候補リストのエントリに含まれる予測ベクトルとに基づいて、予測画像を生成する。そして、処理を終了する。
 非特許文献2の発明では、スライス単位で、参照インデックス「0」の参照ピクチャタイプと異なる参照ピクチャタイプの最小の参照インデックスの探索が行われる。HEVC規格では、スライスは最大で600スライスまで分割できる。また、参照インデックスの数は、各リストで最大で16枚指定することができる。従って、非特許文献2の探索処理における探索回数は、Worst caseで、600(スライス枚数)x [15(L0の参照インデックス16枚-1(インデックス1から探索するため))+15((L1の参照インデックス16枚-1(インデックス1から探索するため)))]=18,000回となる。
 これに対して、第1の実施の形態では、制限識別情報が1である場合にのみ、ピクチャ単位で、参照インデックス「0」の参照ピクチャタイプと異なる参照ピクチャタイプの最小の参照インデックスの探索を行う。これにより、ワーストケースの探索回数が、1/600倍の30回に削減できる。
 <2.第2の実施の形態>
 (画像符号化装置の構成例)
 図13は、本開示を適用した画像処理装置としての画像符号化装置の第2実施の形態の構成例を示すブロック図である。
 図13の画像符号化装置1300は、符号化部1301、設定部1302、および伝送部1303により構成される。画像符号化装置1300は、参照リストが変更されることを識別する変更識別情報(lists_modification_present_flag)に基づいて、参照インデックス「0」の参照ピクチャタイプと異なる参照ピクチャタイプの最小の参照インデックスの探索を行う。
 具体的には、画像符号化装置1300の符号化部1301は、外部から入力される多視点画像に対して、イントラ符号化、または、動き予測または視差予測によるインター符号化を行う。インター符号化時、符号化部1301は、設定部1302から供給される変更識別情報を参照する。
 より詳細には、変更識別情報が、参照リストが変更されることを表す1である場合、符号化部1301は、マージモード時に、非特許文献2に記載されている方法でマージのTMVPを行う。即ち、符号化部1301は、参照インデックス「0」の参照ピクチャタイプと異なる参照ピクチャタイプの参照インデックスの最小値の探索を行う。
 一方、変更識別情報が、参照リストが変更されないことを表す0である場合、符号化部1301は、マージモード時に、参照インデックスの最小値の探索を行わず、所定の参照インデックスを、参照インデックス「0」の参照ピクチャタイプと異なる参照ピクチャタイプの参照インデックスとする。符号化部1301は、符号化の結果得られる符号化データを設定部1302に供給する。
 設定部1302は、ユーザ入力等に基づいて、変更識別情報、Short-termピクチャの数を含むRPS(Reference Picture Set)、Long-termピクチャの数、参照画像の数等を設定し、符号化部1301に供給する。Short-termピクチャとは、参照ピクチャタイプがShort-termである参照画像であり、Long-termピクチャとは、参照ピクチャタイプがLong-termである参照画像である。
 設定部1302は、Long-termピクチャの数、参照画像の数等を含むSPS、変更識別情報を含むPPS等を設定する。設定部1302は、符号化部1301から供給される符号化データに、SPS,PPS,RPS等のパラメータセットを付加して符号化ストリームを生成し、伝送部1303に供給する。
 伝送部1303は、設定部1302から供給される符号化ストリームを後述する復号装置に伝送する。
 (符号化部の構成例)
 図13の符号化部1301の構成は、動き視差予測・補償部1025のマージインター予測部を除いて、図2の符号化部1001の構成と同一である。従って、ここでは、符号化部1301のマージインター予測部の構成についてのみ説明する。
 (マージインター予測部の構成例)
 図14は、図13の符号化部1301のマージインター予測部1320の構成を示すブロック図である。
 図14に示す構成のうち、図3の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
 図14のマージインター予測部1320の構成は、参照リスト生成部1031、選択部1032、マージ候補リスト生成部1033の代わりに、参照リスト生成部1321、選択部1322、マージ候補リスト生成部1323が設けられる点が、図3のマージインター予測部1030の構成と異なる。
 マージインター予測部1320の参照リスト生成部1321は、スライス単位で参照リストを生成し、保持する。参照リストの生成方法としては、参照リスト生成部1031と同様の方法を用いることができる。
 選択部1322は、参照リスト生成部1321に保持されている参照リストから、参照インデックス「0」の参照画像特定情報を検出し、予測画像生成部1034に供給する。また、選択部1322は、設定部1302からの変更識別情報が1である場合、参照リストから、参照インデックス「0」の参照ピクチャタイプとは異なる参照ピクチャタイプの参照インデックスの最小値を選択する。選択部1032は、その参照インデックスの参照画像特定情報を予測画像生成部1034に供給する。
 一方、変更識別情報が0である場合、選択部1322は、設定部1302からのRPS、Long-termピクチャの数、参照画像の数等に基づいて、参照インデックス「0」と異なる参照ピクチャタイプに対応する参照インデックスの最小値を決定する。選択部1032は、その参照インデックスの参照画像特定情報を参照リストから検出し、予測画像生成部1034に供給する。
 マージ候補リスト生成部1323は、全てのコロケーテッドブロックの参照ピクチャタイプとともに、対応する動き視差ベクトルを予測ベクトルの候補としてエントリに登録するマージ候補リストを生成する。マージ候補リスト生成部1033は、生成されたマージ候補リストを保持する。
 (画像符号化装置の処理の説明)
 図15は、図13の画像符号化装置1300のストリーム生成処理を説明するフローチャートである。このストリーム生成処理は、多視点画像が入力されたとき、開始される。
 ステップS1321において、画像符号化装置1300の符号化部1301は、設定部1302から供給される変更識別情報に基づいて各視点の画像を符号化する符号化処理を行う。この符号化処理の詳細は後述する。
 ステップS1322において、設定部1302は、ユーザ入力等に基づいて、変更識別情報を設定して符号化部1301に供給するとともに、変更識別情報を含むPPSを設定する。また、設定部1302は、Long-termピクチャの数、参照画像の数を設定して符号化部1301に供給するとともに、Long-termピクチャの数、参照画像の数等を含むSPSを設定する。さらに、設定部1302は、Short-termピクチャの数を含むRPSを設定し、符号化部1301に供給する。
 ステップS1323において、設定部1302は、符号化部1301から供給される符号化データに、SPS,PPS,RPS等のパラメータセットを付加して符号化ストリームを生成し、伝送部1303に供給する。
 ステップS1324において、伝送部1303は、設定部1302から供給される符号化ストリームを後述する復号装置に伝送し、処理を終了する。
 図15のステップS1321の符号化処理は、マージインター予測処理を除いて図5の符号化処理と同様である。従って、以下では、マージインター予測処理についてのみ説明する。
 図16は、画像符号化装置1300のマージインター予測部1320(図14)により実行されるマージインター予測処理を説明するフローチャートである。このマージインター予測処理は、マージモードで多視点画像を符号化するときにスライス単位で行われる。
 図16のステップS1400において、マージインター予測部1320の参照リスト生成部1321は、参照リストを生成し、保持する。この参照リストを生成するための情報は、例えば、符号化され、ヘッダ情報の一部として符号化データに含まれる。
 ステップS1401において、選択部1322は、設定部1302から供給される変更識別情報(lists_modification_present_flag)が、参照リストが変更されないことを表す0であるかどうかを判定する。
 ステップS1401で変更識別情報が0であると判定された場合、処理はステップS1402に進む。ステップS1402において、選択部1322は、参照インデックス「0」の参照ピクチャタイプと異なる参照ピクチャタイプの参照インデックスの最小値を特定する参照インデックス特定処理を行う。この参照インデックス特定処理の詳細は、図17を参照して後述する。ステップS1402の処理後、処理は、ステップS1405に進む。
 一方、ステップS1401で変更識別情報が0ではないと判定された場合、即ち変更識別情報が1である場合、処理はステップS1403に進む。ステップS1403乃至S1409の処理は、図6のS1203乃至S1206およびS1210乃至S1212の処理と同様であるので、説明は省略する。ステップS1409の処理後、処理は終了する。
 図17は、図16のステップS1402の参照インデックス特定処理の詳細を説明するフローチャートである。
 図17のステップS1451において、選択部1322は、設定部1302から供給されるRPSに含まれるShort-termピクチャの数を取得する。ステップS1452において、選択部1322は、設定部1302から供給されるSPSに含まれるLong-termピクチャの数を取得する。なお、Long-termピクチャの数は、スライスヘッダに含まれてもよい。
 ステップS1453において、選択部1322は、設定部1302から供給されるPPSに含まれる参照画像の数を取得する。なお、参照画像の数は、スライスヘッダに含まれてもよい。また、以降のステップS1454乃至S1457の処理は、参照リストL0と参照リストL1のそれぞれについて行われる。
 ステップS1454において、選択部1322は、参照画像の枚数が2枚以上であるかどうかを判定する。ステップS1454で参照画像の枚数が2枚以上であると判定された場合、ステップS1455において、選択部1322は、Long-termピクチャの枚数が1枚以上であるかどうかを判定する。
 ステップS1455でLong-termピクチャの枚数が1枚以上であると判定された場合、ステップS1456において、選択部1322は、Short-termピクチャの数が1枚以上であるかどうかを判定する。
 ステップS1456でShort-termピクチャの数が1枚以上であると判定された場合、ステップS1457において、選択部1322は、Short-termピクチャの総数が、参照画像の枚数より小さいかどうかを判定する。
 ステップS1457でShort-termピクチャの総数が、参照画像の枚数より小さいと判定された場合、即ち、参照リストにShort-termピクチャとLong-termピクチャの両方の参照画像特定情報が登録されている場合、処理はステップS1458に進む。ステップS1458において、選択部1322は、最初のLong-termピクチャの参照インデックスを取得する。
 ここで、変更識別情報が0である場合、図18に示すように、Short-term、Long-termの順で、小さな参照インデックスが割り当てられている。従って、参照インデックス0は必ずShort-termであるので、選択部1322は、最初のLong-termピクチャの参照インデックスを検索すればよい。RPSから参照リスト内のShort-termピクチャの数が分かるので、選択部1322は、その数を、一番小さな参照インデックスを持つ最初のLong-termピクチャの参照インデックスとして取得する。選択部1322は、その参照インデックスと参照インデックス「0」の参照画像特定情報を予測画像生成部1034に供給する。そして、処理は、図16のステップS1402に戻り、ステップS1405に進む。
 一方、ステップS1454乃至S1457の処理でNoと判定された場合、処理は、ステップS1459に進む。
 ステップS1459において、選択部1322は、生成された参照リストの参照インデックス「0」の参照画像特定情報を予測画像生成部1034に供給する。予測画像生成部1034は、その参照画像特定情報をカレントブロックの参照画像特定情報とする。
 ステップS1460において、マージ候補リスト生成部1323は、参照インデックス「0」の参照ピクチャタイプと各コロケーテッドブロックの参照ピクチャタイプが一致するかどうかを判定する。そして、マージ候補リスト生成部1323は、コロケーテッドブロックの参照ピクチャタイプが参照インデックス「0」の参照ピクチャタイプと異なるときに、そのコロケーテッドブロックの動き視差ベクトルを、予測ベクトルの候補から除外して、マージ候補リストを生成する。そして、処理は図16のステップS1407に進み、以降の処理が行われる。
 (復号装置の構成例)
 図19は、図13の画像符号化装置1300から伝送されてくる符号化ストリームを復号する、本開示を適用した画像処理装置としての画像復号装置の第2実施の形態の構成例を示すブロック図である。
 図19の画像復号装置1400は、受け取り部1401、抽出部1402、および復号部1403により構成される。
 画像復号装置1400の受け取り部1401は、画像符号化装置1300から伝送されてくる符号化ストリームを受け取り、抽出部1402に供給する。
 抽出部1402は、受け取り部1401から供給される符号化ストリームから、SPS,変更識別情報を含むPPS,RPS等のパラメータセットと符号化データを抽出し、復号部1403に供給する。
 復号部1403は、抽出部1402から供給される符号化データに対して、画像符号化装置1300に対応する方式で、イントラ復号、または、動き予測または視差予測によるインター復号を行う。具体的には、復号部1103は、抽出部1102から供給されるPPSに含まれる変更識別情報が1である場合、マージモード時に、参照インデックス「0」の参照ピクチャタイプと異なる参照ピクチャタイプの参照インデックスの探索を行う。
 一方、変更識別情報が0である場合、符号化部1301は、マージモード時に、参照インデックスの探索を行わず、所定の参照インデックスを、参照インデックス「0」の参照ピクチャタイプと異なる参照ピクチャタイプの参照インデックスとする。復号部1403は、復号の結果得られる多視点画像を出力する。
 (復号部の構成例)
 図19の復号部1403の構成は、動き視差補償部1132のマージインター予測部を除いて、図8の復号部1103の構成と同一である。従って、ここでは、復号部1403のマージインター予測部の構成についてのみ説明する。
 (マージインター予測部の構成例)
 図20は、図19の復号部1403のマージインター予測部1420の構成を示すブロック図である。
 図20に示す構成のうち、図9の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
 図20のマージインター予測部1420の構成は、参照リスト生成部1151、選択部1152、マージ候補リスト生成部1153の代わりに、参照リスト生成部1421、選択部1422、マージ候補リスト生成部1423が設けられる点が、図9のマージインター予測部1150の構成と異なる。
 マージインター予測部1420の参照リスト生成部1421は、可逆復号部1122から供給される参照リストを生成するための情報に基づいて、図14の参照リスト生成部1321で生成される参照リストと同一の参照リストをスライス単位で生成する。参照リストは、参照リスト生成部1421に保持される。
 選択部1422は、抽出部1102からの変更識別情報に基づいて、図14の選択部1322と同様に、参照リストから参照インデックス「0」の参照ピクチャタイプとは異なる参照ピクチャタイプの参照インデックスの最小値を選択する。選択部1422は、選択された参照インデックスの参照画像特定情報と参照インデックス「0」の参照画像特定情報を予測画像生成部1154に供給する。
 マージ候補リスト生成部1423は、可逆復号部1122からのインター予測情報が示すインター予測モードの予測ブロックについて、図14のマージ候補リスト生成部1323と同様にマージ候補リストを生成する。マージ候補リスト生成部1423は、生成されたマージ候補リストを保持する。
 (画像復号装置の処理の説明)
 図21は、図19の画像復号装置1400の画像生成処理を説明するフローチャートである。この画像生成処理は、例えば、画像符号化装置1300から符号化ストリームが送信されてきたとき、開始される。
 ステップS1471において、画像復号装置1400の受け取り部1401は、画像符号化装置1300から伝送されてくる符号化ストリームを受け取り、抽出部1402に供給する。
 ステップS1472において、抽出部1402は、受け取り部1401から供給される符号化ストリームから、SPS,変更識別情報を含むPPS,RPS等のパラメータセットと符号化データを抽出し、復号部1403に供給する。
 ステップS1473において、復号部1403は、抽出部1402から供給される符号化データに対して、視点ごとに画像符号化装置1300に対応する方式で復号処理を行う。この復号処理の詳細は後述する。ステップS1473の処理後、処理は終了する。
 図21のステップS1473の復号処理は、マージインター予測処理を除いて図11の復号処理と同様である。従って、以下では、マージインター予測処理についてのみ説明する。
 図22は、図20のマージインター予測部1420により実行されるマージインター予測処理を説明するフローチャートである。このマージインター予測処理は、マージモードで多視点画像を復号するときにスライス単位で行われる。
 図22のステップS1500において、マージインター予測部1420の参照リスト生成部1421は、可逆復号部1122から供給される参照リストを生成するための情報に基づいて参照リストを生成し、保持する。
 ステップS1401において、選択部1422は、抽出部1402から供給される変更識別情報(lists_modification_present_flag)が0であるかどうかを判定する。ステップS1501で変更識別情報が0であると判定された場合、処理はステップS1502に進む。
 ステップS1502において、選択部1422は、図17の参照インデックス特定処理を行う。但し、ステップS1460の処理は、インター予測情報が示す最適なインター予測モードの予測ブロック単位で行われる。ステップS1502の処理後、処理はステップS1505に進む。
 ステップS1501で変更識別情報が1であると判定された場合、処理はステップS1503に進む。ステップS1503乃至S1507の処理は、図12のステップS1303乃至S1306およびS1310の処理と同様であるので、説明は省略する。ステップS1507の処理後、処理は終了する。
 以上のように、第2実施の形態では、変更識別情報が0である場合、参照インデックスを探索せずに、参照インデックス特定処理により参照インデックスを特定するので、処理量を削減することができる。
 なお、第1実施の形態と第2実施の形態を組み合わせることもできる。この場合、制限識別情報と変更識別情報に基づいてマージインター予測処理が行われる。また、第2実施の形態において、参照リストはピクチャ単位で生成されるようにしてもよい。
 また、上述した一連の処理は、階層画像符号化(空間スケーラビリティ)・階層画像復号(マルチレイヤのエンコーダ・デコーダ)にも適用することができる。つまり、階層画像符号化・階層画像復号を行う場合においても、処理量を削減することができる。
 また、本技術は、例えば、MPEG、H.26x等の様に、離散コサイン変換等の直交変換と動き補償によって圧縮された画像情報(ビットストリーム)を、衛星放送、ケーブルテレビジョン、インターネット、または携帯電話機などのネットワークメディアを介して受信する際に用いられる画像符号化装置および画像復号装置に適用することができる。また、本技術は、光、磁気ディスク、およびフラッシュメモリのような記憶メディア上で処理する際に用いられる画像符号化装置および画像復号装置に適用することができる。さらに、本技術は、それらの画像符号化装置および画像復号装置などに含まれる動き予測補償装置にも適用することができる。
 <3.第3の実施の形態>
 (コンピュータの構成例)
 上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な汎用のパーソナルコンピュータなどが含まれる。
 図23において、パーソナルコンピュータ1700のCPU(Central Processing Unit)1701は、ROM(Read Only Memory)1702に記憶されているプログラム、または記憶部1713からRAM(Random Access Memory)1703にロードされたプログラムに従って各種の処理を実行する。RAM1703にはまた、CPU1701が各種の処理を実行する上において必要なデータなども適宜記憶される。
 CPU1701、ROM1702、およびRAM1703は、バス1704を介して相互に接続されている。このバス1704にはまた、入出力インタフェース1710も接続されている。
 入出力インタフェース1710には、キーボード、マウスなどよりなる入力部1711、CRT(Cathode Ray Tube)やLCD(Liquid Crystal Display)などよりなるディスプレイ、並びにスピーカなどよりなる出力部1712、ハードディスクなどより構成される記憶部1713、モデムなどより構成される通信部1714が接続されている。通信部1714は、インターネットを含むネットワークを介しての通信処理を行う。
 入出力インタフェース1710にはまた、必要に応じてドライブ1715が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア1721が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部1713にインストールされる。
 上述した一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、ネットワークや記録媒体からインストールされる。
 この記録媒体は、例えば、図23に示されるように、装置本体とは別に、ユーザにプログラムを配信するために配布される、プログラムが記録されている磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc - Read Only Memory),DVD(Digital Versatile Disc)を含む)、光磁気ディスク(MD(Mini Disc)を含む)、若しくは半導体メモリなどよりなるリムーバブルメディア1721により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに配信される、プログラムが記録されているROM1702や、記憶部1713に含まれるハードディスクなどで構成される。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
 また、本明細書において、システムとは、複数のデバイス(装置)により構成される装置全体を表すものである。
 また、以上において、1つの装置(または処理部)として説明した構成を分割し、複数の装置(または処理部)として構成するようにしてもよい。逆に、以上において複数の装置(または処理部)として説明した構成をまとめて1つの装置(または処理部)として構成されるようにしてもよい。また、各装置(または各処理部)の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置(または処理部)の構成の一部を他の装置(または他の処理部)の構成に含めるようにしてもよい。つまり、本技術は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 <4.第4の実施の形態>
 上述した実施形態に係る画像符号化装置及び画像復号装置は、衛星放送、ケーブルTVなどの有線放送、インターネット上での配信、及びセルラー通信による端末への配信などにおける送信機若しくは受信機、光ディスク、磁気ディスク及びフラッシュメモリなどの媒体に画像を記録する記録装置、又は、これら記憶媒体から画像を再生する再生装置などの様々な電子機器に応用され得る。以下、4つの応用例について説明する。
 (第1の応用例:テレビジョン受像機)
 図24は、上述した実施形態を適用したテレビジョン装置の概略的な構成の一例を示している。テレビジョン装置1900は、アンテナ1901、チューナ1902、デマルチプレクサ1903、デコーダ1904、映像信号処理部1905、表示部1906、音声信号処理部1907、スピーカ1908、外部インタフェース1909、制御部1910、ユーザインタフェース1911、及びバス1912を備える。
 チューナ1902は、アンテナ1901を介して受信される放送信号から所望のチャンネルの信号を抽出し、抽出した信号を復調する。そして、チューナ1902は、復調により得られた符号化ビットストリームをデマルチプレクサ1903へ出力する。即ち、チューナ1902は、画像が符号化されている符号化ストリームを受信する、テレビジョン装置1900における伝送部としての役割を有する。
 デマルチプレクサ1903は、符号化ビットストリームから視聴対象の番組の映像ストリーム及び音声ストリームを分離し、分離した各ストリームをデコーダ1904へ出力する。また、デマルチプレクサ1903は、符号化ビットストリームからEPG(Electronic Program Guide)などの補助的なデータを抽出し、抽出したデータを制御部1910に供給する。なお、デマルチプレクサ1903は、符号化ビットストリームがスクランブルされている場合には、デスクランブルを行ってもよい。
 デコーダ1904は、デマルチプレクサ1903から入力される映像ストリーム及び音声ストリームを復号する。そして、デコーダ1904は、復号処理により生成される映像データを映像信号処理部1905へ出力する。また、デコーダ1904は、復号処理により生成される音声データを音声信号処理部1907へ出力する。
 映像信号処理部1905は、デコーダ1904から入力される映像データを再生し、表示部1906に映像を表示させる。また、映像信号処理部1905は、ネットワークを介して供給されるアプリケーション画面を表示部1906に表示させてもよい。また、映像信号処理部1905は、映像データについて、設定に応じて、例えばノイズ除去などの追加的な処理を行ってもよい。さらに、映像信号処理部1905は、例えばメニュー、ボタン又はカーソルなどのGUI(Graphical User Interface)の画像を生成し、生成した画像を出力画像に重畳してもよい。
 表示部1906は、映像信号処理部1905から供給される駆動信号により駆動され、表示デバイス(例えば、液晶ディスプレイ、プラズマディスプレイ又はOELD(Organic ElectroLuminescence Display)(有機ELディスプレイ)など)の映像面上に映像又は画像を表示する。
 音声信号処理部1907は、デコーダ1904から入力される音声データについてD/A変換及び増幅などの再生処理を行い、スピーカ1908から音声を出力させる。また、音声信号処理部1907は、音声データについてノイズ除去などの追加的な処理を行ってもよい。
 外部インタフェース1909は、テレビジョン装置1900と外部機器又はネットワークとを接続するためのインタフェースである。例えば、外部インタフェース1909を介して受信される映像ストリーム又は音声ストリームが、デコーダ1904により復号されてもよい。即ち、外部インタフェース1909もまた、画像が符号化されている符号化ストリームを受信する、テレビジョン装置1900における伝送部としての役割を有する。
 制御部1910は、CPUなどのプロセッサ、並びにRAM及びROMなどのメモリを有する。メモリは、CPUにより実行されるプログラム、プログラムデータ、EPGデータ、及びネットワークを介して取得されるデータなどを記憶する。メモリにより記憶されるプログラムは、例えば、テレビジョン装置1900の起動時にCPUにより読み込まれ、実行される。CPUは、プログラムを実行することにより、例えばユーザインタフェース1911から入力される操作信号に応じて、テレビジョン装置1900の動作を制御する。
 ユーザインタフェース1911は、制御部1910と接続される。ユーザインタフェース1911は、例えば、ユーザがテレビジョン装置1900を操作するためのボタン及びスイッチ、並びに遠隔制御信号の受信部などを有する。ユーザインタフェース1911は、これら構成要素を介してユーザによる操作を検出して操作信号を生成し、生成した操作信号を制御部1910へ出力する。
 バス1912は、チューナ1902、デマルチプレクサ1903、デコーダ1904、映像信号処理部1905、音声信号処理部1907、外部インタフェース1909及び制御部1910を相互に接続する。
 このように構成されたテレビジョン装置1900において、デコーダ1904は、上述した実施形態に係る画像復号装置の機能を有する。それにより、テレビジョン装置1900での画像の復号に際して、処理量を削減することができる。
 (第2の応用例:携帯電話機)
 図25は、上述した実施形態を適用した携帯電話機の概略的な構成の一例を示している。携帯電話機1920は、アンテナ1921、通信部1922、音声コーデック1923、スピーカ1924、マイクロホン1925、カメラ部1926、画像処理部1927、多重分離部1928、記録再生部1929、表示部1930、制御部1931、操作部1932、及びバス1933を備える。
 アンテナ1921は、通信部1922に接続される。スピーカ1924及びマイクロホン1925は、音声コーデック1923に接続される。操作部1932は、制御部1931に接続される。バス1933は、通信部1922、音声コーデック1923、カメラ部1926、画像処理部1927、多重分離部1928、記録再生部1929、表示部1930、及び制御部1931を相互に接続する。
 携帯電話機1920は、音声通話モード、データ通信モード、撮影モード及びテレビ電話モードを含む様々な動作モードで、音声信号の送受信、電子メール又は画像データの送受信、画像の撮像、及びデータの記録などの動作を行う。
 音声通話モードにおいて、マイクロホン1925により生成されるアナログ音声信号は、音声コーデック1923に供給される。音声コーデック1923は、アナログ音声信号を音声データへ変換し、変換された音声データをA/D変換し圧縮する。そして、音声コーデック1923は、圧縮後の音声データを通信部1922へ出力する。通信部1922は、音声データを符号化及び変調し、送信信号を生成する。そして、通信部1922は、生成した送信信号を、アンテナ1921を介して基地局(図示せず)へ送信する。また、通信部1922は、アンテナ1921を介して受信される無線信号を増幅し及び周波数変換し、受信信号を取得する。そして、通信部1922は、受信信号を復調及び復号して音声データを生成し、生成した音声データを音声コーデック1923へ出力する。音声コーデック1923は、音声データを伸張し及びD/A変換し、アナログ音声信号を生成する。そして、音声コーデック1923は、生成した音声信号をスピーカ1924に供給して音声を出力させる。
 また、データ通信モードにおいて、例えば、制御部1931は、操作部1932を介するユーザによる操作に応じて、電子メールを構成する文字データを生成する。また、制御部1931は、文字を表示部1930に表示させる。また、制御部1931は、操作部1932を介するユーザからの送信指示に応じて電子メールデータを生成し、生成した電子メールデータを通信部1922へ出力する。通信部1922は、電子メールデータを符号化及び変調し、送信信号を生成する。そして、通信部1922は、生成した送信信号を、アンテナ1921を介して基地局(図示せず)へ送信する。また、通信部1922は、アンテナ1921を介して受信される無線信号を増幅し及び周波数変換し、受信信号を取得する。そして、通信部1922は、受信信号を復調及び復号して電子メールデータを復元し、復元した電子メールデータを制御部1931へ出力する。制御部1931は、表示部1930に電子メールの内容を表示させると共に、電子メールデータを記録再生部1929の記憶媒体に記憶させる。
 記録再生部1929は、読み書き可能な任意の記憶媒体を有する。例えば、記憶媒体は、RAM又はフラッシュメモリなどの内蔵型の記憶媒体であってもよく、ハードディスク、磁気ディスク、光磁気ディスク、光ディスク、USB(Unallocated Space Bitmap)メモリ、又はメモリカードなどの外部装着型の記憶媒体であってもよい。
 また、撮影モードにおいて、例えば、カメラ部1926は、被写体を撮像して画像データを生成し、生成した画像データを画像処理部1927へ出力する。画像処理部1927は、カメラ部1926から入力される画像データを符号化し、符号化ストリームを記録再生部1929の記憶媒体に記憶させる。
 また、テレビ電話モードにおいて、例えば、多重分離部1928は、画像処理部1927により符号化された映像ストリームと、音声コーデック1923から入力される音声ストリームとを多重化し、多重化したストリームを通信部1922へ出力する。通信部1922は、ストリームを符号化及び変調し、送信信号を生成する。そして、通信部1922は、生成した送信信号を、アンテナ1921を介して基地局(図示せず)へ送信する。また、通信部1922は、アンテナ1921を介して受信される無線信号を増幅し及び周波数変換し、受信信号を取得する。これら送信信号及び受信信号には、符号化ビットストリームが含まれ得る。そして、通信部1922は、受信信号を復調及び復号してストリームを復元し、復元したストリームを多重分離部1928へ出力する。多重分離部1928は、入力されるストリームから映像ストリーム及び音声ストリームを分離し、映像ストリームを画像処理部1927、音声ストリームを音声コーデック1923へ出力する。画像処理部1927は、映像ストリームを復号し、映像データを生成する。映像データは、表示部1930に供給され、表示部1930により一連の画像が表示される。音声コーデック1923は、音声ストリームを伸張し及びD/A変換し、アナログ音声信号を生成する。そして、音声コーデック1923は、生成した音声信号をスピーカ1924に供給して音声を出力させる。
 このように構成された携帯電話機1920において、画像処理部1927は、上述した実施形態に係る画像符号化装置及び画像復号装置の機能を有する。それにより、携帯電話機1920での画像の符号化及び復号に際して、処理量を削減することができる。
 (第3の応用例:記録再生装置)
 図26は、上述した実施形態を適用した記録再生装置の概略的な構成の一例を示している。記録再生装置1940は、例えば、受信した放送番組の音声データ及び映像データを符号化して記録媒体に記録する。また、記録再生装置1940は、例えば、他の装置から取得される音声データ及び映像データを符号化して記録媒体に記録してもよい。また、記録再生装置1940は、例えば、ユーザの指示に応じて、記録媒体に記録されているデータをモニタ及びスピーカ上で再生する。このとき、記録再生装置1940は、音声データ及び映像データを復号する。
 記録再生装置1940は、チューナ1941、外部インタフェース部1942、エンコーダ1943、HDD(Hard Disk Drive)1944、ディスクドライブ1945、セレクタ1946、デコーダ1947、OSD(On-Screen Display)部1948、制御部1949、及びユーザインタフェース部1950を備える。
 チューナ1941は、アンテナ(図示せず)を介して受信される放送信号から所望のチャンネルの信号を抽出し、抽出した信号を復調する。そして、チューナ1941は、復調により得られた符号化ビットストリームをセレクタ1946へ出力する。即ち、チューナ1941は、記録再生装置1940における伝送部としての役割を有する。
 外部インタフェース部1942は、記録再生装置1940と外部機器又はネットワークとを接続するためのインタフェースである。外部インタフェース部1942は、例えば、IEEE1394インタフェース、ネットワークインタフェース、USBインタフェース、又はフラッシュメモリインタフェースなどであってよい。例えば、外部インタフェース部1942を介して受信される映像データ及び音声データは、エンコーダ1943へ入力される。即ち、外部インタフェース部1942は、記録再生装置1940における伝送部としての役割を有する。
 エンコーダ1943は、外部インタフェース部1942から入力される映像データ及び音声データが符号化されていない場合に、映像データ及び音声データを符号化する。そして、エンコーダ1943は、符号化ビットストリームをセレクタ1946へ出力する。
 HDD1944は、映像及び音声などのコンテンツデータが圧縮された符号化ビットストリーム、各種プログラムおよびその他のデータを内部のハードディスクに記録する。また、HDD1944は、映像及び音声の再生時に、これらデータをハードディスクから読み出す。
 ディスクドライブ1945は、装着されている記録媒体へのデータの記録及び読み出しを行う。ディスクドライブ1945に装着される記録媒体は、例えばDVDディスク(DVD-Video、DVD-RAM、DVD-R、DVD-RW、DVD+R、DVD+RW等)又はBlu-ray(登録商標)ディスクなどであってよい。
 セレクタ1946は、映像及び音声の記録時には、チューナ1941又はエンコーダ1943から入力される符号化ビットストリームを選択し、選択した符号化ビットストリームをHDD1944又はディスクドライブ1945へ出力する。また、セレクタ1946は、映像及び音声の再生時には、HDD1944又はディスクドライブ1945から入力される符号化ビットストリームをデコーダ1947へ出力する。
 デコーダ1947は、符号化ビットストリームを復号し、映像データ及び音声データを生成する。そして、デコーダ1947は、生成した映像データをOSD部1948へ出力する。また、デコーダ1904は、生成した音声データを外部のスピーカへ出力する。
 OSD部1948は、デコーダ1947から入力される映像データを再生し、映像を表示する。また、OSD部1948は、表示する映像に、例えばメニュー、ボタン又はカーソルなどのGUIの画像を重畳してもよい。
 制御部1949は、CPUなどのプロセッサ、並びにRAM及びROMなどのメモリを有する。メモリは、CPUにより実行されるプログラム、及びプログラムデータなどを記憶する。メモリにより記憶されるプログラムは、例えば、記録再生装置1940の起動時にCPUにより読み込まれ、実行される。CPUは、プログラムを実行することにより、例えばユーザインタフェース部1950から入力される操作信号に応じて、記録再生装置1940の動作を制御する。
 ユーザインタフェース部1950は、制御部1949と接続される。ユーザインタフェース部1950は、例えば、ユーザが記録再生装置1940を操作するためのボタン及びスイッチ、並びに遠隔制御信号の受信部などを有する。ユーザインタフェース部1950は、これら構成要素を介してユーザによる操作を検出して操作信号を生成し、生成した操作信号を制御部1949へ出力する。
 このように構成された記録再生装置1940において、エンコーダ1943は、上述した実施形態に係る画像符号化装置の機能を有する。また、デコーダ1947は、上述した実施形態に係る画像復号装置の機能を有する。それにより、記録再生装置1940での画像の符号化及び復号に際して、処理量を削減することができる。
 (第4の応用例:撮像装置)
 図27は、上述した実施形態を適用した撮像装置の概略的な構成の一例を示している。撮像装置1960は、被写体を撮像して画像を生成し、画像データを符号化して記録媒体に記録する。
 撮像装置1960は、光学ブロック1961、撮像部1962、信号処理部1963、画像処理部1964、表示部1965、外部インタフェース1966、メモリ1967、メディアドライブ1968、OSD1969、制御部1970、ユーザインタフェース1971、及びバス1972を備える。
 光学ブロック1961は、撮像部1962に接続される。撮像部1962は、信号処理部1963に接続される。表示部1965は、画像処理部1964に接続される。ユーザインタフェース1971は、制御部1970に接続される。バス1972は、画像処理部1964、外部インタフェース1966、メモリ1967、メディアドライブ1968、OSD1969、及び制御部1970を相互に接続する。
 光学ブロック1961は、フォーカスレンズ及び絞り機構などを有する。光学ブロック1961は、被写体の光学像を撮像部1962の撮像面に結像させる。撮像部1962は、CCD(Charge Coupled Device)又はCMOS(Complementary Metal Oxide Semiconductor)などのイメージセンサを有し、撮像面に結像した光学像を光電変換によって電気信号としての画像信号に変換する。そして、撮像部1962は、画像信号を信号処理部1963へ出力する。
 信号処理部1963は、撮像部1962から入力される画像信号に対してニー補正、ガンマ補正、色補正などの種々のカメラ信号処理を行う。信号処理部1963は、カメラ信号処理後の画像データを画像処理部1964へ出力する。
 画像処理部1964は、信号処理部1963から入力される画像データを符号化し、符号化データを生成する。そして、画像処理部1964は、生成した符号化データを外部インタフェース1966又はメディアドライブ1968へ出力する。また、画像処理部1964は、外部インタフェース1966又はメディアドライブ1968から入力される符号化データを復号し、画像データを生成する。そして、画像処理部1964は、生成した画像データを表示部1965へ出力する。また、画像処理部1964は、信号処理部1963から入力される画像データを表示部1965へ出力して画像を表示させてもよい。また、画像処理部1964は、OSD1969から取得される表示用データを、表示部1965へ出力する画像に重畳してもよい。
 OSD1969は、例えばメニュー、ボタン又はカーソルなどのGUIの画像を生成して、生成した画像を画像処理部1964へ出力する。
 外部インタフェース1966は、例えばUSB入出力端子として構成される。外部インタフェース1966は、例えば、画像の印刷時に、撮像装置1960とプリンタとを接続する。また、外部インタフェース1966には、必要に応じてドライブが接続される。ドライブには、例えば、磁気ディスク又は光ディスクなどのリムーバブルメディアが装着され、リムーバブルメディアから読み出されるプログラムが、撮像装置1960にインストールされ得る。さらに、外部インタフェース1966は、LAN又はインターネットなどのネットワークに接続されるネットワークインタフェースとして構成されてもよい。即ち、外部インタフェース1966は、撮像装置1960における伝送部としての役割を有する。
 メディアドライブ1968に装着される記録媒体は、例えば、磁気ディスク、光磁気ディスク、光ディスク、又は半導体メモリなどの、読み書き可能な任意のリムーバブルメディアであってよい。また、メディアドライブ1968に記録媒体が固定的に装着され、例えば、内蔵型ハードディスクドライブ又はSSD(Solid State Drive)のような非可搬性の記憶部が構成されてもよい。
 制御部1970は、CPUなどのプロセッサ、並びにRAM及びROMなどのメモリを有する。メモリは、CPUにより実行されるプログラム、及びプログラムデータなどを記憶する。メモリにより記憶されるプログラムは、例えば、撮像装置1960の起動時にCPUにより読み込まれ、実行される。CPUは、プログラムを実行することにより、例えばユーザインタフェース1971から入力される操作信号に応じて、撮像装置1960の動作を制御する。
 ユーザインタフェース1971は、制御部1970と接続される。ユーザインタフェース1971は、例えば、ユーザが撮像装置1960を操作するためのボタン及びスイッチなどを有する。ユーザインタフェース1971は、これら構成要素を介してユーザによる操作を検出して操作信号を生成し、生成した操作信号を制御部1970へ出力する。
 このように構成された撮像装置1960において、画像処理部1964は、上述した実施形態に係る画像符号化装置及び画像復号装置の機能を有する。それにより、撮像装置1960での画像の符号化及び復号に際して、処理量を削減することができる。
 なお、本明細書では、制限識別情報や変更識別情報などの様々な情報が、符号化ストリームのヘッダに多重化されて、符号化側から復号側へ伝送される例について説明した。しかしながら、これら情報を伝送する手法はかかる例に限定されない。例えば、これら情報は、符号化ビットストリームに多重化されることなく、符号化ビットストリームと関連付けられた別個のデータとして伝送され又は記録されてもよい。ここで、「関連付ける」という用語は、ビットストリームに含まれる画像(スライス若しくはブロックなど、画像の一部であってもよい)と当該画像に対応する情報とを復号時にリンクさせ得るようにすることを意味する。即ち、情報は、画像(又はビットストリーム)とは別の伝送路上で伝送されてもよい。また、情報は、画像(又はビットストリーム)とは別の記録媒体(又は同一の記録媒体の別の記録エリア)に記録されてもよい。さらに、情報と画像(又はビットストリーム)とは、例えば、複数フレーム、1フレーム、又はフレーム内の一部分などの任意の単位で互いに関連付けられてよい。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 なお、本開示は、以下のような構成もとることができる。
 (1)
 カレントピクチャの参照ピクチャを特定する参照ピクチャ特定情報のリストである参照リストが前記カレントピクチャ内で共通に用いられることを識別する制限識別情報に基づいて、前記参照リストに含まれる前記参照ピクチャ特定情報が表す前記参照ピクチャから参照ピクチャタイプが異なる複数の参照ピクチャを選択する選択部と、
 前記カレントピクチャと異なる時刻のコロケーテッドピクチャの動きベクトルと、前記選択部により選択された前記複数の参照ピクチャのうちの前記コロケーテッドピクチャの参照ピクチャタイプと同一の参照ピクチャタイプの参照ピクチャとに基づいて、前記カレントピクチャの予測画像を生成する予測画像生成部と
 を備える画像処理装置。
 (2)
 前記選択部は、前記制限識別情報が、前記参照リストが前記カレントピクチャ内で共通に用いられることを表す場合、前記カレントピクチャの参照ピクチャタイプと同一の参照ピクチャタイプの参照ピクチャと、前記カレントピクチャの参照ピクチャタイプとは異なる参照ピクチャタイプの参照ピクチャとを選択する
 前記(1)に記載の画像処理装置。
 (3)
 前記選択部は、前記参照リストのインデックスが0である参照ピクチャ特定情報が表す、前記カレントピクチャの参照ピクチャタイプと同一の参照ピクチャタイプの参照ピクチャと、前記参照リストのインデックスが0以外である参照ピクチャ特定情報が表す、前記カレントピクチャの参照ピクチャタイプとは異なる参照ピクチャタイプの参照ピクチャとを選択する
 前記(2)に記載の画像処理装置。
 (4)
 前記選択部は、前記参照リストのインデックスが0以外である参照ピクチャ特定情報が表す、前記カレントピクチャの参照ピクチャタイプとは異なる参照ピクチャタイプの参照ピクチャのうちの、前記インデックスが最小となる参照ピクチャを選択する
 前記(3)に記載の画像処理装置。
 (5)
 前記選択部は、前記参照リストが変更されることを識別する変更識別情報に基づいて、前記参照リストのインデックスが0である参照ピクチャ特定情報が表す、参照ピクチャタイプがShort-termである参照ピクチャと、前記参照リストに登録されている参照ピクチャタイプがShort-termである参照ピクチャの参照ピクチャ特定情報の数をインデックスとする参照ピクチャ特定情報が表す、参照ピクチャタイプがLong-termである参照ピクチャとを選択する
 前記(4)に記載の画像処理装置。
 (6)
 前記変更識別情報は、lists_modification_present_flagである
 前記(5)に記載の画像処理装置。
 (7)
 前記参照ピクチャタイプは、Long-termまたはShort-termである
 前記(1)乃至(6)のいずれかに記載の画像処理装置。
 (8)
 前記制限識別情報は、restricted_ref_pic_lists_flagである
 前記(1)乃至(7)のいずれかに記載の画像処理装置。
 (9)
 画像処理装置が、
 カレントピクチャの参照ピクチャを特定する参照ピクチャ特定情報のリストである参照リストが前記カレントピクチャ内で共通に用いられることを識別する制限識別情報に基づいて、前記参照リストに含まれる前記参照ピクチャ特定情報が表す前記参照ピクチャから参照ピクチャタイプが異なる複数の参照ピクチャを選択する選択ステップと、
 前記カレントピクチャと異なる時刻のコロケーテッドピクチャの動きベクトルと、前記選択ステップの処理により選択された前記複数の参照ピクチャのうちの前記コロケーテッドピクチャの参照ピクチャタイプと同一の参照ピクチャタイプの参照ピクチャとに基づいて、前記カレントピクチャの予測画像を生成する予測画像生成ステップと
 画像処理方法。
 (10)
 カレントピクチャの参照ピクチャを特定する参照ピクチャ特定情報のリストである参照リストが変更されることを識別する変更識別情報に基づいて、前記参照リストに含まれる前記参照ピクチャ特定情報が表す前記参照ピクチャから参照ピクチャタイプが異なる複数の参照ピクチャを選択する選択部と、
 前記カレントピクチャと異なる時刻のコロケーテッドピクチャの動きベクトルと、前記選択部により選択された前記複数の参照ピクチャのうちの前記コロケーテッドピクチャの参照ピクチャタイプと同一の参照ピクチャタイプの参照ピクチャとに基づいて、前記カレントピクチャの予測画像を生成する予測画像生成部と
 を備える画像処理装置。
 (11)
 前記選択部は、前記変更識別情報が、前記参照リストが変更されないことを表す場合、前記参照リストのインデックスが0である参照ピクチャ特定情報が表す、参照ピクチャタイプがShort-termである参照ピクチャと、前記参照リストに登録されている参照ピクチャタイプがShort-termである参照ピクチャの参照ピクチャ特定情報の数をインデックスとする参照ピクチャ特定情報が表す、参照ピクチャタイプがLong-termである参照ピクチャとを選択する
 前記(10)に記載の画像処理装置。
 (12)
 前記選択部は、前記参照リストに参照ピクチャタイプがLong-termである参照ピクチャの参照ピクチャ特定情報が登録されている場合、前記参照リストのインデックスが0である参照ピクチャ特定情報が表す、参照ピクチャタイプがShort-termである参照ピクチャと、前記参照リストに登録されている参照ピクチャタイプがShort-termである参照ピクチャの参照ピクチャ特定情報の数をインデックスとする参照ピクチャ特定情報が表す、参照ピクチャタイプがLong-termである参照ピクチャを選択する
 前記(11)に記載の画像処理装置。
 (13)
 画像処理装置が、
 カレントピクチャの参照ピクチャを特定する参照ピクチャ特定情報のリストである参照リストが変更されることを識別する変更識別情報に基づいて、前記参照リストに含まれる前記参照ピクチャ特定情報が表す前記参照ピクチャから参照ピクチャタイプが異なる複数の参照ピクチャを選択する選択ステップと、
 前記カレントピクチャと異なる時刻のコロケーテッドピクチャの動きベクトルと、前記選択ステップの処理により選択された前記複数の参照ピクチャのうちの前記コロケーテッドピクチャの参照ピクチャタイプと同一の参照ピクチャタイプの参照ピクチャとに基づいて、前記カレントピクチャの予測画像を生成する予測画像生成ステップと
 画像処理方法。
 1000 画像符号化装置, 1032 選択部, 1034 予測画像生成部, 1100 画像復号装置, 1152 選択部, 1154 予測画像生成部, 1300 画像符号化装置, 1322 選択部, 1400 画像復号装置, 1422 選択部

Claims (13)

  1.  カレントピクチャの参照ピクチャを特定する参照ピクチャ特定情報のリストである参照リストが前記カレントピクチャ内で共通に用いられることを識別する制限識別情報に基づいて、前記参照リストに含まれる前記参照ピクチャ特定情報が表す前記参照ピクチャから参照ピクチャタイプが異なる複数の参照ピクチャを選択する選択部と、
     前記カレントピクチャと異なる時刻のコロケーテッドピクチャの動きベクトルと、前記選択部により選択された前記複数の参照ピクチャのうちの前記コロケーテッドピクチャの参照ピクチャタイプと同一の参照ピクチャタイプの参照ピクチャとに基づいて、前記カレントピクチャの予測画像を生成する予測画像生成部と
     を備える画像処理装置。
  2.  前記選択部は、前記制限識別情報が、前記参照リストが前記カレントピクチャ内で共通に用いられることを表す場合、前記カレントピクチャの参照ピクチャタイプと同一の参照ピクチャタイプの参照ピクチャと、前記カレントピクチャの参照ピクチャタイプとは異なる参照ピクチャタイプの参照ピクチャとを選択する
     請求項1に記載の画像処理装置。
  3.  前記選択部は、前記参照リストのインデックスが0である参照ピクチャ特定情報が表す、前記カレントピクチャの参照ピクチャタイプと同一の参照ピクチャタイプの参照ピクチャと、前記参照リストのインデックスが0以外である参照ピクチャ特定情報が表す、前記カレントピクチャの参照ピクチャタイプとは異なる参照ピクチャタイプの参照ピクチャとを選択する
     請求項2に記載の画像処理装置。
  4.  前記選択部は、前記参照リストのインデックスが0以外である参照ピクチャ特定情報が表す、前記カレントピクチャの参照ピクチャタイプとは異なる参照ピクチャタイプの参照ピクチャのうちの、前記インデックスが最小となる参照ピクチャを選択する
     請求項3に記載の画像処理装置。
  5.  前記選択部は、前記参照リストが変更されることを識別する変更識別情報に基づいて、前記参照リストのインデックスが0である参照ピクチャ特定情報が表す、参照ピクチャタイプがShort-termである参照ピクチャと、前記参照リストに登録されている参照ピクチャタイプがShort-termである参照ピクチャの参照ピクチャ特定情報の数をインデックスとする参照ピクチャ特定情報が表す、参照ピクチャタイプがLong-termである参照ピクチャとを選択する
     請求項4に記載の画像処理装置。
  6.  前記変更識別情報は、lists_modification_present_flagである
     請求項5に記載の画像処理装置。
  7.  前記参照ピクチャタイプは、Long-termまたはShort-termである
     請求項1に記載の画像処理装置。
  8.  前記制限識別情報は、restricted_ref_pic_lists_flagである
     請求項1に記載の画像処理装置。
  9.  画像処理装置が、
     カレントピクチャの参照ピクチャを特定する参照ピクチャ特定情報のリストである参照リストが前記カレントピクチャ内で共通に用いられることを識別する制限識別情報に基づいて、前記参照リストに含まれる前記参照ピクチャ特定情報が表す前記参照ピクチャから参照ピクチャタイプが異なる複数の参照ピクチャを選択する選択ステップと、
     前記カレントピクチャと異なる時刻のコロケーテッドピクチャの動きベクトルと、前記選択ステップの処理により選択された前記複数の参照ピクチャのうちの前記コロケーテッドピクチャの参照ピクチャタイプと同一の参照ピクチャタイプの参照ピクチャとに基づいて、前記カレントピクチャの予測画像を生成する予測画像生成ステップと
     画像処理方法。
  10.  カレントピクチャの参照ピクチャを特定する参照ピクチャ特定情報のリストである参照リストが変更されることを識別する変更識別情報に基づいて、前記参照リストに含まれる前記参照ピクチャ特定情報が表す前記参照ピクチャから参照ピクチャタイプが異なる複数の参照ピクチャを選択する選択部と、
     前記カレントピクチャと異なる時刻のコロケーテッドピクチャの動きベクトルと、前記選択部により選択された前記複数の参照ピクチャのうちの前記コロケーテッドピクチャの参照ピクチャタイプと同一の参照ピクチャタイプの参照ピクチャとに基づいて、前記カレントピクチャの予測画像を生成する予測画像生成部と
     を備える画像処理装置。
  11.  前記選択部は、前記変更識別情報が、前記参照リストが変更されないことを表す場合、前記参照リストのインデックスが0である参照ピクチャ特定情報が表す、参照ピクチャタイプがShort-termである参照ピクチャと、前記参照リストに登録されている参照ピクチャタイプがShort-termである参照ピクチャの参照ピクチャ特定情報の数をインデックスとする参照ピクチャ特定情報が表す、参照ピクチャタイプがLong-termである参照ピクチャとを選択する
     請求項10に記載の画像処理装置。
  12.  前記選択部は、前記参照リストに参照ピクチャタイプがShort-termである参照ピクチャとLong-termである参照ピクチャの参照ピクチャ特定情報が登録されている場合、前記参照リストのインデックスが0である参照ピクチャ特定情報が表す、参照ピクチャタイプがShort-termである参照ピクチャと、前記参照リストに登録されている参照ピクチャタイプがShort-termである参照ピクチャの参照ピクチャ特定情報の数をインデックスとする参照ピクチャ特定情報が表す、参照ピクチャタイプがLong-termである参照ピクチャを選択する
     請求項11に記載の画像処理装置。
  13.  画像処理装置が、
     カレントピクチャの参照ピクチャを特定する参照ピクチャ特定情報のリストである参照リストが変更されることを識別する変更識別情報に基づいて、前記参照リストに含まれる前記参照ピクチャ特定情報が表す前記参照ピクチャから参照ピクチャタイプが異なる複数の参照ピクチャを選択する選択ステップと、
     前記カレントピクチャと異なる時刻のコロケーテッドピクチャの動きベクトルと、前記選択ステップの処理により選択された前記複数の参照ピクチャのうちの前記コロケーテッドピクチャの参照ピクチャタイプと同一の参照ピクチャタイプの参照ピクチャとに基づいて、前記カレントピクチャの予測画像を生成する予測画像生成ステップと
     画像処理方法。
PCT/JP2013/076485 2012-10-09 2013-09-30 画像処理装置および方法 WO2014057831A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201380051783.XA CN104704834B (zh) 2012-10-09 2013-09-30 图像处理装置及方法
JP2014540805A JP6274527B2 (ja) 2012-10-09 2013-09-30 画像処理装置および方法
EP13845096.0A EP2908528A4 (en) 2012-10-09 2013-09-30 IMAGE PROCESSING DEVICE AND METHOD
US14/433,210 US10291929B2 (en) 2012-10-09 2013-09-30 Image processing device and method
US16/289,202 US10873758B2 (en) 2012-10-09 2019-02-28 Image processing device and method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012224625 2012-10-09
JP2012-224625 2012-10-09

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US14/433,210 A-371-Of-International US10291929B2 (en) 2012-10-09 2013-09-30 Image processing device and method
US16/289,202 Continuation US10873758B2 (en) 2012-10-09 2019-02-28 Image processing device and method

Publications (1)

Publication Number Publication Date
WO2014057831A1 true WO2014057831A1 (ja) 2014-04-17

Family

ID=50477299

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/076485 WO2014057831A1 (ja) 2012-10-09 2013-09-30 画像処理装置および方法

Country Status (6)

Country Link
US (2) US10291929B2 (ja)
EP (1) EP2908528A4 (ja)
JP (1) JP6274527B2 (ja)
CN (1) CN104704834B (ja)
TW (1) TW201415898A (ja)
WO (1) WO2014057831A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104618715A (zh) * 2014-07-22 2015-05-13 腾讯科技(北京)有限公司 一种获取最小率失真代价的方法及装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201415898A (zh) 2012-10-09 2014-04-16 Sony Corp 影像處理裝置及方法
CN108347602B (zh) * 2017-01-22 2021-07-30 上海澜至半导体有限公司 用于无损压缩视频数据的方法和装置
US10726631B1 (en) * 2019-08-03 2020-07-28 VIRNECT inc. Augmented reality system and method with frame region recording and reproduction technology based on object tracking

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8115804B2 (en) * 2006-01-12 2012-02-14 Lg Electronics Inc. Processing multiview video
EP2174506A1 (en) * 2007-08-06 2010-04-14 Thomson Licensing Methods and apparatus for motion skip mode with multiple inter-view reference pictures
KR20120027194A (ko) * 2009-04-21 2012-03-21 엘지전자 주식회사 다시점 비디오 신호 처리 방법 및 장치
US8933989B2 (en) * 2009-04-22 2015-01-13 Lg Electronics Inc. Reference picture list changing method of multi-view video
JP2012023651A (ja) 2010-07-16 2012-02-02 Sony Corp 画像処理装置と画像処理方法
JP2012023652A (ja) 2010-07-16 2012-02-02 Sony Corp 画像処理装置と画像処理方法
JP2012169763A (ja) 2011-02-10 2012-09-06 Sony Corp 画像符号化装置と画像符号化方法およびプログラム
US9674525B2 (en) * 2011-07-28 2017-06-06 Qualcomm Incorporated Multiview video coding
TW201415898A (zh) 2012-10-09 2014-04-16 Sony Corp 影像處理裝置及方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
BENJAMIN BROSS; WOO-JIN HAN; JENS-RAINER OHM; GARY J. SULLIVAN; THOMAS WIEGAND: "High efficiency video coding (HEVC) text specification draft 8", JCTVC-J1003-D7, 28 July 2012 (2012-07-28)
HENDRY ET AL.: "AHG 9: On restricted reference picture list", JOINT COLLABORATIVE TEAM ON VIDEO CODING (JCT-VC) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11 LLTH MEETING, 1 October 2012 (2012-10-01), SHANGHAI, CN, XP030054829 *
IL-KOO KIM ET AL.: "Restricted usage of motion vectors for long-term reference picture in motion vector prediction process", JOINT COLLABORATIVE TEAM ON VIDEO CODING (JCT-VC) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11 10TH MEETING, July 2012 (2012-07-01), STOCKHOLM, SE, XP030112664 *
RICKARD SJOBERG ET AL.: "AHG21: Reference picture list restrictions", JOINT COLLABORATIVE TEAM ON VIDEO CODING (JCT-VC) OF ITU-T SG16 WP3 AND ISO/IEC JTC1/SC29/WG11 8TH MEETING, February 2012 (2012-02-01), SAN JOSE, CA, USA, XP030111439 *
See also references of EP2908528A4 *
YING CHEN ET AL.: "Temporal motion vector prediction hook for MV-HEVC", JOINT COLLABORATIVE TEAM ON VIDEO CODING (JCT-VC) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11 LLTH MEETING, 2 October 2012 (2012-10-02), SHANGHAI, CN, XP030130230 *
YING CHEN; LI ZHANG; VADIM SEREGIN; MARTA KARCZEWICZ: "Temporal modion vector prediction hook for MV-HEVC", JCTVC-K0239, 10 October 2012 (2012-10-10)
YOSHITOMO TAKAHASHI ET AL.: "High-level Syntax: Motion vector prediction issue for long-term reference picture", JOINT COLLABORATIVE TEAM ON VIDEO CODING (JCT-VC) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11 10TH MEETING, July 2012 (2012-07-01), STOCKHOLM, SE, XP030112433 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104618715A (zh) * 2014-07-22 2015-05-13 腾讯科技(北京)有限公司 一种获取最小率失真代价的方法及装置
CN104618715B (zh) * 2014-07-22 2018-10-30 腾讯科技(北京)有限公司 一种获取最小率失真代价的方法及装置

Also Published As

Publication number Publication date
JP6274527B2 (ja) 2018-02-07
US20190200034A1 (en) 2019-06-27
US10291929B2 (en) 2019-05-14
EP2908528A1 (en) 2015-08-19
EP2908528A4 (en) 2016-04-13
JPWO2014057831A1 (ja) 2016-09-05
US10873758B2 (en) 2020-12-22
TW201415898A (zh) 2014-04-16
CN104704834A (zh) 2015-06-10
US20150264389A1 (en) 2015-09-17
CN104704834B (zh) 2019-04-02

Similar Documents

Publication Publication Date Title
US20200296357A1 (en) Image processing apparatus and method thereof
US20200252648A1 (en) Image processing device and method
US20180027234A1 (en) Image processing apparatus and method
JP5954587B2 (ja) 画像処理装置および方法
US20230247217A1 (en) Image processing apparatus and method
US9961366B2 (en) Image processing apparatus and method that prohibits bi-prediction based on block size
US10873758B2 (en) Image processing device and method
TW201728179A (zh) 影像處理裝置及方法
US20140126641A1 (en) Image processing device and method
WO2012176684A1 (ja) 画像処理装置および方法
WO2012157538A1 (ja) 画像処理装置および方法
WO2014038330A1 (ja) 画像処理装置及び画像処理方法
US20150304678A1 (en) Image processing device and method
WO2012173022A1 (ja) 画像処理装置および方法
US10218969B2 (en) Image processing device and method using adjusted motion vector accuracy between sub-pixels of reference frames
JP2012019447A (ja) 画像処理装置および方法
WO2013002105A1 (ja) 画像処理装置および方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13845096

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014540805

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2013845096

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 14433210

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE