WO2015083575A1 - 画像復号装置、画像符号化装置、および、符号化データ変換装置 - Google Patents

画像復号装置、画像符号化装置、および、符号化データ変換装置 Download PDF

Info

Publication number
WO2015083575A1
WO2015083575A1 PCT/JP2014/081033 JP2014081033W WO2015083575A1 WO 2015083575 A1 WO2015083575 A1 WO 2015083575A1 JP 2014081033 W JP2014081033 W JP 2014081033W WO 2015083575 A1 WO2015083575 A1 WO 2015083575A1
Authority
WO
WIPO (PCT)
Prior art keywords
layer
encoded data
picture
unit
information
Prior art date
Application number
PCT/JP2014/081033
Other languages
English (en)
French (fr)
Inventor
山本 智幸
知宏 猪飼
健史 筑波
Original Assignee
シャープ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シャープ株式会社 filed Critical シャープ株式会社
Priority to JP2015551470A priority Critical patent/JP6229904B2/ja
Priority to CN201480061744.2A priority patent/CN105981386B/zh
Priority to KR1020167016343A priority patent/KR101782454B1/ko
Priority to EP14868412.9A priority patent/EP3068136B1/en
Publication of WO2015083575A1 publication Critical patent/WO2015083575A1/ja
Priority to US15/174,648 priority patent/US10142653B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Definitions

  • the present invention relates to an image decoding apparatus that decodes hierarchically encoded data in which an image is hierarchically encoded, and an image encoding apparatus that generates hierarchically encoded data by hierarchically encoding an image.
  • One of information transmitted in a communication system or information recorded in a storage device is an image or a moving image. 2. Description of the Related Art Conventionally, a technique for encoding an image for transmitting and storing these images (hereinafter including moving images) is known.
  • Non-patent Document 1 As video encoding methods, AVC (H.264 / MPEG-4 Advanced Video Coding) and HEVC (High-Efficiency Video Coding), which is a successor codec, are known (Non-patent Document 1).
  • a predicted image is usually generated based on a local decoded image obtained by encoding / decoding an input image, and obtained by subtracting the predicted image from the input image (original image).
  • Prediction residuals (sometimes referred to as “difference images” or “residual images”) are encoded.
  • examples of the method for generating a predicted image include inter-screen prediction (inter prediction) and intra-screen prediction (intra prediction).
  • predicted images in a picture are sequentially generated based on a locally decoded image in the same picture.
  • inter prediction a predicted image is generated by motion compensation between pictures.
  • a decoded picture used for predictive image generation in inter prediction is called a reference picture.
  • a technique for generating encoded data from a plurality of moving images by encoding a plurality of mutually related moving images into layers (hierarchies) is also known, which is called a hierarchical encoding technique .
  • the encoded data generated by the hierarchical encoding technique is also referred to as hierarchical encoded data.
  • SHVC Scalable HEVC
  • Non-patent Document 2 As a representative hierarchical encoding technique, SHVC (Scalable HEVC) based on HEVC is known (Non-patent Document 2).
  • SHVC supports spatial scalability, temporal scalability, and SNR scalability.
  • spatial scalability hierarchical encoded data is generated by dividing a plurality of moving images having different resolutions into layers. For example, an image downsampled from the original image to a desired resolution is encoded as a lower layer. Next, the original image is encoded as an upper layer after applying inter-layer prediction in order to remove redundancy between layers.
  • MV-HEVC Multi-View HEVC
  • HEVC based on HEVC
  • Non-patent Document 3 Another typical hierarchical coding technique
  • MV-HEVC supports view scalability.
  • view scalability a moving image corresponding to a plurality of different viewpoints (views) is divided into layers and encoded to generate hierarchical encoded data.
  • a moving image corresponding to a basic viewpoint (base view) is encoded as a lower layer.
  • a moving image corresponding to a different viewpoint is encoded as an upper layer after applying inter-layer prediction.
  • Inter-layer prediction in SHVC and MV-HEVC includes inter-layer image prediction and inter-layer motion prediction.
  • inter-layer image prediction a predicted image is generated using a decoded image of a lower layer.
  • inter-layer motion prediction motion information prediction values are derived using motion information of lower layers.
  • a picture used for prediction in inter-layer prediction is called an inter-layer reference picture.
  • a layer including an inter-layer reference picture is called a reference layer.
  • reference pictures used for inter prediction and reference pictures used for inter-layer prediction are generically referred to simply as reference pictures.
  • any of inter prediction, intra prediction, and inter-layer image prediction can be used to generate a predicted image.
  • One of the applications that use SHVC and MV-HEVC is a video application that considers the area of interest.
  • a video playback terminal normally plays back video in the entire area with a relatively low resolution.
  • the attention area When a part of the video displayed by the viewer of the video reproduction terminal is designated as the attention area, the attention area is displayed on the reproduction terminal with high resolution.
  • the video application considering the attention area as described above is a hierarchical code in which a relatively low resolution video of the entire area is encoded as lower layer encoded data, and a high resolution video of the attention area is encoded as upper layer encoded data.
  • This can be realized using the data. That is, when reproducing the entire region, only the encoded data of the lower layer is decoded and reproduced, and when reproducing the high-resolution video of the region of interest, the encoded data of the upper layer is converted into the encoded data of the lower layer.
  • the application can be realized with a smaller transmission band than when both encoded data for low-resolution video and encoded data for high-resolution video are sent. At that time, the transmission band can be further suppressed by extracting and transmitting the encoded data corresponding to the region including the region of interest from the upper layer and the lower layer, respectively.
  • Non-Patent Document 4 for the purpose of correcting the positional relationship between the pixels of the upper layer and the pixels of the lower layer, the phase correspondence information between layers is sent, and the lower layer corresponding to each pixel of the upper layer using the phase correspondence information between layers.
  • a method for calculating pixel positions on a layer is disclosed.
  • JCTVC-O0056 MV-HEVC / SHVC HLS On conversion to ROI-capablemulti-layer bitstream, Joint Collaborative Team on Video Coding (JCT-VC) of ITU-T SG 16 WP 3 and ISO / IEC JTC 1 / SC 29 / WG 11 15th Meeting: Geneva, CH, 23 Oct.-1 Nov. 2013 (released on October 11, 2013)
  • the present invention has been made in view of the above problems, and an object of the present invention is to draw a positional relationship between upper layer pixels and lower layer pixels using the same scale as the entire region hierarchically encoded data.
  • An object is to realize an image encoding device and an image decoding device capable of encoding / decoding encoded data.
  • the value of the inter-layer scale derived by the predicted image generation unit is an approximate value of a ratio between a virtual reference layer corresponding region size and a virtual reference layer size, and the virtual reference layer size Is preferably the sum of the reference layer picture size and the virtual reference layer size difference.
  • the value of the scale correction information is set so that the virtual reference layer size and the reference layer picture size match.
  • an image encoding device is an image encoding device that generates encoded data of an upper layer from an input image, a parameter set decoding unit that decodes a parameter set, and a reference A prediction image encoding unit that generates a prediction image by inter-layer prediction with reference to a decoded pixel of a layer picture, the parameter set decoding unit encodes scale correction information, and the prediction image encoding unit
  • the inter-layer scale value derived from the scale correction information is used to derive the corresponding reference position for the decoded pixel of the target layer, and the virtual reference layer size difference is derived based on the scale correction information.
  • a hierarchical encoded data conversion apparatus converts input hierarchical encoded data based on input attention area information, and generates attention area hierarchical encoded data.
  • An output hierarchical encoded data conversion apparatus including a parameter set correction unit, wherein the parameter set correction unit corrects the scale correction information so that the inter-layer scales derived from the hierarchical encoded data before and after conversion match. It is characterized by doing.
  • An image decoding apparatus (an image encoding apparatus) predicts by a parameter set decoding unit (encoding unit) that decodes (encodes) a parameter set, and inter-layer prediction with reference to decoded pixels of a reference layer picture
  • a predicted image generation unit for generating an image is provided.
  • the parameter set decoding unit (encoding) decodes (sets) scale correction information, and the predicted image generation unit responds to pixels on the target layer using an inter-layer scale value derived from the scale correction information.
  • a reference position is derived.
  • the image decoding apparatus (image encoding apparatus) can derive the same inter-layer scale before and after conversion even when converting hierarchically encoded data for the purpose of being represented by attention area extraction. Therefore, in the encoded data after conversion, the prediction residual of inter-layer prediction is reduced by maintaining the accuracy of the positional relationship between the upper layer pixels and the lower layer pixels. Therefore, the image decoding apparatus according to the present invention can decode encoded data with a smaller code amount and output a decoded picture of an upper layer. In addition, the image coding apparatus according to the present invention can output encoded data with a smaller code amount.
  • (C) shows the slice layer that defines the slice S
  • (d) shows the CTU layer that defines the coding tree unit CTU
  • (e) shows the code layer 3 shows a CU layer that defines a coding unit (Coding Unit; CU) included in a coding tree unit CTU.
  • CU Coding Unit
  • (A) shows a transmission device equipped with a hierarchical video encoding device, and (b) shows a reception device equipped with a hierarchical video decoding device. It is the figure which showed the structure of the recording device carrying the said hierarchy moving image encoder, and the reproducing
  • (A) shows a recording device equipped with a hierarchical video encoding device, and (b) shows a playback device equipped with a hierarchical video decoding device.
  • the hierarchical moving picture decoding apparatus 1 to 25 the hierarchical moving picture decoding apparatus 1, the hierarchical moving picture encoding apparatus 2 and the encoded data conversion apparatus 3 according to an embodiment of the present invention will be described as follows.
  • a hierarchical video decoding device (image decoding device) 1 decodes encoded data that has been hierarchically encoded by a hierarchical video encoding device (image encoding device) 2.
  • Hierarchical coding is a coding scheme that hierarchically encodes moving images from low quality to high quality.
  • Hierarchical coding is standardized in SVC and SHVC, for example.
  • the quality of a moving image here widely means an element that affects the appearance of a subjective and objective moving image.
  • the quality of the moving image includes, for example, “resolution”, “frame rate”, “image quality”, and “pixel representation accuracy”.
  • Hierarchical coding technology is classified into (1) spatial scalability, (2) temporal scalability, (3) SNR (Signal to Noise Ratio) scalability, and (4) view scalability from the viewpoint of the type of information layered.
  • Spatial scalability is a technique for hierarchizing resolution and image size.
  • Time scalability is a technique for layering at a frame rate (number of frames per unit time).
  • SNR scalability is a technique for layering in coding noise.
  • view scalability is a technique for hierarchizing at the viewpoint position associated with each image.
  • the encoded data conversion device 3 converts the encoded data that has been hierarchically encoded by the hierarchical moving image encoding device 2, and converts the encoded data related to a predetermined attention region (the attention region encoded data). ) Is generated.
  • the attention area encoded data can be decoded by the hierarchical moving picture decoding apparatus 1 according to the present embodiment.
  • the hierarchical video decoding device 1 Prior to detailed description of the hierarchical video encoding device 2, the hierarchical video decoding device 1, and the hierarchical encoded data conversion device 3 according to the present embodiment, first, (1) the hierarchical video encoding device 2 or the hierarchical code. A layer structure of hierarchically encoded data generated by the encoded data conversion device 3 and decoded by the hierarchical video decoding device 1 will be described, and then (2) a specific example of a data structure that can be adopted in each layer will be described.
  • FIG. 2 is a diagram schematically illustrating a case where a moving image is hierarchically encoded / decoded by three layers of a lower layer L3, a middle layer L2, and an upper layer L1. That is, in the example shown in FIGS. 2A and 2B, of the three layers, the upper layer L1 is the highest layer and the lower layer L3 is the lowest layer.
  • a decoded image corresponding to a specific quality that can be decoded from hierarchically encoded data is referred to as a decoded image of a specific hierarchy (or a decoded image corresponding to a specific hierarchy) (for example, in the upper hierarchy L1).
  • Decoded image POUT # A a decoded image of a specific hierarchy (or a decoded image corresponding to a specific hierarchy) (for example, in the upper hierarchy L1).
  • FIG. 2A shows a hierarchical moving image encoding apparatus 2 # A to 2 # C that generates encoded data DATA # A to DATA # C by hierarchically encoding input images PIN # A to PIN # C, respectively. Is shown.
  • FIG. 2B shows a hierarchical moving picture decoding apparatus 1 # A ⁇ that generates decoded images POUT # A ⁇ POUT # C by decoding the encoded data DATA # A ⁇ DATA # C, which are encoded hierarchically. 1 # C is shown.
  • the input images PIN # A, PIN # B, and PIN # C that are input on the encoding device side have the same original image but different image quality (resolution, frame rate, image quality, and the like).
  • the image quality decreases in the order of the input images PIN # A, PIN # B, and PIN # C.
  • the hierarchical video encoding apparatus 2 # B of the middle hierarchy L2 encodes the input image PIN # B of the middle hierarchy L2 with reference to the encoded data DATA # C of the lower hierarchy, and performs the middle hierarchy L2 Encoded data DATA # B is generated.
  • additional data necessary for decoding the decoded image POUT # B of the intermediate hierarchy is added to the encoded data DATA # B of the intermediate hierarchy L2.
  • Information (indicated by “B” in FIG. 2) is included.
  • the reference layers of the upper hierarchy L1 are the middle hierarchy L2 and the lower hierarchy L3.
  • the hierarchically encoded data can be configured so that it is not necessary to refer to all of the lower layers in decoding of the specific layer.
  • the hierarchical encoded data can be configured such that the reference layer of the upper hierarchy L1 is either the middle hierarchy L2 or the lower hierarchy L3.
  • a set of encoding parameters referred to by the hierarchical video decoding device 1 for decoding each picture in the target sequence is defined.
  • a plurality of PPS may exist in the encoded data. In that case, one of a plurality of PPSs is selected from each picture in the target sequence.
  • a PPS used for decoding a specific picture is also called an active PPS.
  • PPS means active PPS for the current picture.
  • the active SPS and the active PPS may be set to different SPSs and PPSs for each layer.
  • I slice that uses only intra prediction at the time of encoding (2) P slice that uses unidirectional prediction or intra prediction at the time of encoding, (3) B-slice using unidirectional prediction, bidirectional prediction, or intra prediction at the time of encoding may be used.
  • CTU layer In the CTU layer, a set of data referred to by the hierarchical video decoding device 1 for decoding a coding tree unit CTU to be processed (hereinafter also referred to as a target CTU) is defined.
  • the coding tree unit may be referred to as a coding tree block (CTB) or a maximum coding unit (LCU).
  • CTB coding tree block
  • LCU maximum coding unit
  • the coding tree unit CTU includes a CTU header CTUH and coding unit information CU 1 to CU NL (NL is the total number of coding unit information included in the CTU).
  • NL is the total number of coding unit information included in the CTU.
  • coding unit information (hereinafter referred to as CU information)
  • CU 1 to CU NL corresponds to each coding node (coding unit) obtained by recursively dividing the coding tree unit CTU into quadtrees. Information.
  • each coding node is half of the size of the coding node that is the parent node of the coding node (that is, the node that is one layer higher than the coding node).
  • the encoding node is a node at the root of a prediction tree (PT) and a transformation tree (TT).
  • PT prediction tree
  • TT transformation tree
  • PU partitioning There are roughly two types of partitioning in the prediction tree (hereinafter abbreviated as PU partitioning): intra prediction and inter prediction.
  • Prediction type information PType is information that specifies a predicted image generation method for the target PU. In the base layer, it is information that specifies whether intra prediction or inter prediction is used.
  • the intra prediction information PP_Intra includes an encoding parameter that is referred to when the hierarchical video decoding device 1 generates an intra predicted image by intra prediction. More specifically, the intra prediction information PP_Intra includes intra PU division information that specifies a division pattern of the target CU into each intra PU, and intra prediction parameters for each intra PU.
  • the intra prediction parameter is a parameter for designating an intra prediction method (prediction mode) for each intra PU.
  • each conversion block obtained by the division can take a size from 32 ⁇ 32 pixels to 4 ⁇ 4 pixels.
  • the PU partition type specified by the PU partition information includes the following eight patterns in total, assuming that the size of the target CU is 2N ⁇ 2N pixels. That is, 4 symmetric splittings of 2N ⁇ 2N pixels, 2N ⁇ N pixels, N ⁇ 2N pixels, and N ⁇ N pixels, and 2N ⁇ nU pixels, 2N ⁇ nD pixels, nL ⁇ 2N pixels, And four asymmetric splittings of nR ⁇ 2N pixels.
  • N 2 m (m is an arbitrary integer of 1 or more).
  • a prediction unit obtained by dividing the target CU is referred to as a prediction block or a partition.
  • enhancement layer encoded data For encoded data included in the layer representation of the enhancement layer (hereinafter, enhancement layer encoded data), for example, a data structure substantially similar to the data structure shown in FIG. 3 can be adopted. However, in the enhancement layer encoded data, additional information can be added or parameters can be omitted as follows.
  • spatial scalability, temporal scalability, SNR scalability, and view scalability hierarchy identification information may be encoded.
  • the CU type of the target CU is an intra CU, an inter-layer CU, an inter CU, or a skip CU.
  • the intra CU can be defined in the same manner as the intra CU in the base layer.
  • the inter-layer image prediction flag is set to “0”, and the prediction mode flag is set to “0”.
  • An inter-layer CU can be defined as a CU that uses a decoded image of a picture in a reference layer for generating a predicted image.
  • the inter-layer image prediction flag is set to “1” and the prediction mode flag is set to “0”.
  • the skip CU can be defined in the same manner as in the HEVC method described above. For example, in the skip CU, “1” is set in the skip flag.
  • the inter CU may be defined as a CU that applies non-skip and motion compensation (MC).
  • MC non-skip and motion compensation
  • the encoded data of the enhancement layer may be generated by an encoding method different from the encoding method of the lower layer. That is, the encoding / decoding process of the enhancement layer does not depend on the type of the lower layer codec.
  • the lower layer may be encoded by, for example, MPEG-2 or H.264 / AVC format.
  • the VPS may be extended to include a parameter representing a reference structure between layers.
  • SPS, PPS, and slice header are extended, and information related to a decoded image of a reference layer used for inter-layer image prediction (for example, an inter-layer reference picture set, an inter-layer reference picture list described later) , Syntax for deriving base control information or the like directly or indirectly).
  • a reference layer used for inter-layer image prediction for example, an inter-layer reference picture set, an inter-layer reference picture list described later
  • the parameters described above may be encoded independently, or a plurality of parameters may be encoded in combination.
  • an index is assigned to the combination of parameter values, and the assigned index is encoded.
  • the encoding of the parameter can be omitted.
  • FIG. 4B illustrates the relationship between tiles and slices in the configuration of encoded data.
  • encoded data includes a plurality of VCL (Video Coding Layer) NAL units and non-VCL (non-VCL) NAL units.
  • the encoded data of the video encoding layer corresponding to one picture is composed of a plurality of VCL NALs.
  • the encoded data corresponding to the picture includes encoded data corresponding to the tiles in the tile raster order. That is, as shown in FIG. 4A, when a picture is divided into tiles, encoded data corresponding to tiles is included in the order of tiles T00, T01, T02, T10, T11, and T12.
  • encoded data corresponding to a specific tile in a picture is associated with encoded data corresponding to one or more slices. Therefore, if a decoded image of a slice associated with a tile can be generated, a decoded image of a partial region in a picture corresponding to the tile can be generated.
  • FIG. 5 exemplifies a system SYS_ROI1 that performs transmission and reproduction of a hierarchical video that can be realized by combining the hierarchical video decoding device 1, the hierarchical video encoding device 2, and the encoded data conversion device 3.
  • Hierarchically encoded data BSALL includes encoded data corresponding to the entire high-quality input image PIN # H as hierarchically encoded data of an upper layer (enhancement layer).
  • the hierarchically encoded data BSALL includes encoded data corresponding to the entire low-quality input image PIN # L as hierarchically encoded data of the lower layer (base layer).
  • a decoded image DROI # H corresponding to the high quality input image PIN # H and corresponding to the region of interest ROI is output.
  • a decoded image DOUT # L corresponding to the low-quality input image PIN # L is output.
  • the description may be made assuming that the system SYS_ROI1 is used.
  • the usage of the apparatus is not limited to the system SYS_ROI1.
  • FIG. 6 is a functional block diagram showing a schematic configuration of the hierarchical video decoding device 1.
  • the hierarchical video decoding device 1 receives hierarchical encoded data DATA (hierarchical encoded data DATAF provided from the hierarchical video encoding device 2 or hierarchical encoded data DATAAR provided from the encoded data conversion device 3). Decoding is performed to generate a decoded image POUT # T of the target layer.
  • the target layer is an extension layer having the base layer as a reference layer. Therefore, the target layer is also an upper layer with respect to the reference layer. Conversely, the reference layer is also a lower layer with respect to the target layer.
  • the hierarchical video decoding device 1 includes a NAL demultiplexing unit 11, a parameter set decoding unit 12, a tile setting unit 13, a slice decoding unit 14, a base decoding unit 15, and a decoded picture management unit 16.
  • the NAL demultiplexing unit 11 demultiplexes the hierarchical encoded data DATA transmitted in units of NAL units in NAL (Network Abstraction Layer).
  • NAL is a layer provided to abstract communication between VCL (Video Coding Layer) and lower systems that transmit and store encoded data.
  • VCL Video Coding Layer
  • VCL is a layer that performs video encoding processing, and encoding is performed in VCL.
  • the lower system here corresponds to the H.264 / AVC and HEVC file formats and the MPEG-2 system.
  • Hierarchical encoded data DATA includes NAL including parameter sets (VPS, SPS, PPS), SEI, etc. in addition to NAL generated by VCL. Those NALs are called non-VCL NALs versus VCL NALs.
  • the NAL demultiplexing unit 11 demultiplexes the hierarchical encoded data DATA, and extracts the target layer encoded data DATA # T and the reference layer encoded data DATA # R. Further, the NAL demultiplexing unit 11 supplies non-VCL NAL to the parameter set decoding unit 12 and VCL NAL to the slice decoding unit 14 among NALs included in the target layer encoded data DATA # T.
  • the parameter set decoding unit 12 decodes the parameter set, that is, VPS, SPS, and PPS, from the input non-VCL NAL and supplies them to the tile setting unit 13 and the slice decoding unit 14. Details of processing highly relevant to the present invention in the parameter set decoding unit 12 will be described later.
  • the tile setting unit 13 derives the tile information of the picture based on the input parameter set and supplies it to the slice decoding unit 14.
  • the tile information includes at least tile division information of a picture. The detailed description of the tile setting unit 13 will be described later.
  • the slice decoding unit 14 generates a decoded picture or a partial area of the decoded picture based on the input VCL NAL, parameter set, tile information, and reference picture, and records them in a buffer in the decoded picture management unit 16. .
  • a detailed description of the slice decoding unit will be described later.
  • the decoded picture management unit 16 records the input decoded picture and the base decoded picture in an internal decoded picture buffer (DPB: “Decoded” Picture ”Buffer), and performs reference picture list generation and output picture determination. Also, the decoded picture management unit 16 outputs the decoded picture recorded in the DPB to the outside as an output picture POUT # T at a predetermined timing.
  • DPB internal decoded picture buffer
  • the base decoding unit 15 decodes the base decoded picture from the reference layer encoded data DATA # R.
  • the base decoded picture is a decoded picture of the reference layer used when decoding the decoded picture of the target layer.
  • the base decoding unit 15 records the decoded base decoded picture in the DPB in the decoded picture management unit 16.
  • FIG. 7 is a functional block diagram illustrating the configuration of the base decoding unit 15.
  • the base NAL demultiplexing unit 151 demultiplexes the reference layer encoded data DATA # R to extract VCL NAL and non-VCL NAL, non-VCL NAL to the base parameter set decoding unit 152, and VCL NAL to base slice Each is supplied to the decryption unit 154.
  • the base parameter set decoding unit 152 decodes the parameter set, that is, VPS, SPS, and PPS, from the input non-VCL NAL and supplies them to the base tile setting unit 153 and the base slice decoding unit 154.
  • the base slice decoding unit 154 generates a decoded picture or a partial area of the decoded picture based on the input VCL NAL, parameter set, tile information, and reference picture, and stores the decoded picture in the buffer in the base decoded picture management unit 156. Record.
  • the base decoded picture management unit 156 records the input decoded picture in the internal DPB, and performs reference picture list generation and output picture determination. Further, the base decoded picture management unit 156 outputs the decoded picture recorded in the DPB as a base decoded picture at a predetermined timing.
  • the parameter set output from the parameter set decoding unit 12 is a syntax value of syntax related to the parameter set (VPS, SPS, PPS) included in the encoded data, and a variable derived from the syntax value. It can also be expressed as a set of
  • the parameter set decoding unit 12 decodes picture information from input target layer encoded data.
  • the picture information is information that determines the size of the decoded picture of the target layer.
  • the picture information includes information indicating the width and height of the decoded picture of the target layer.
  • Picture information is included in SPS, for example.
  • the picture information decoded from the SPS includes the width of the decoded picture (pic_width_in_luma_samples) and the height of the decoded picture (pic_height_in_luma_samples).
  • the value of the syntax pic_width_in_luma_samples corresponds to the width of the decoded picture in luminance pixel units.
  • the value of the syntax pic_height_in_luma_samples corresponds to the height of the decoded picture in luminance pixel units.
  • the parameter set decoding unit 12 decodes the display area information from the input target layer encoded data.
  • the display area information is included in the SPS, for example.
  • the display area information decoded from the SPS includes a display area flag (conformance_flag).
  • the display area flag indicates whether information indicating the position of the display area (display area position information) is additionally included in the SPS. That is, when the display area flag is 1, it indicates that the display area position information is additionally included, and when the display area flag is 0, it indicates that the display area position information is not additionally included.
  • the display area information decoded from the SPS further includes display area left offset (conf_win_left_offset), display area right offset (conf_win_right_offset), display area upper offset (conf_win_top_offset), and display area. Contains the lower offset (conf_win_bottom_offset).
  • FIG. 8 is a diagram illustrating the relationship between the display area which is a partial area in the picture and the display area position information.
  • the display area is included in the picture
  • the display area offset is the distance between the picture upper edge and the display area upper edge
  • the display area left offset is the distance between the picture left edge and the display area left edge
  • the display area right offset Represents the distance between the right side of the picture and the right side of the display area
  • the lower offset of the display area represents the distance between the lower side of the picture and the lower side of the display area. Therefore, the position and size of the display area in the picture can be uniquely specified by the display area position information.
  • the display area information may be other information that can uniquely identify the position and size of the display area in the picture.
  • the parameter set decoding unit 12 decodes the inter-layer position correspondence information from the input target layer encoded data.
  • the inter-layer position correspondence information schematically indicates the positional relationship between corresponding areas of the target layer and the reference layer. For example, when an object (object A) in a picture of the target layer and a picture of the reference layer is included, an area corresponding to the object A on the picture of the target layer and an area corresponding to the object A on the picture of the reference layer , Corresponding to the regions corresponding to the target layer and the reference layer.
  • the inter-layer position correspondence information may not necessarily be information that accurately indicates the positional relationship between the corresponding regions of the target layer and the reference layer, but generally, in order to improve the accuracy of inter-layer prediction. The correct positional relationship between the corresponding layers of the target layer and the reference layer is shown.
  • the inter-layer position correspondence information includes inter-layer pixel correspondence information.
  • the inter-layer pixel correspondence information is information indicating a positional relationship between a pixel on the reference layer picture and a pixel on the corresponding target layer picture.
  • the inter-layer correspondence information may additionally include inter-layer phase correspondence information.
  • the inter-layer phase correspondence information is information representing the phase difference of the pixels whose correspondence is indicated by the inter-layer pixel correspondence information.
  • the inter-layer pixel correspondence information is included in, for example, an SPS extension (sps_estension) that is a part of the SPS of the higher layer, and is decoded according to the syntax table shown in FIG.
  • FIG. 9 is a part of a syntax table that the parameter set decoding unit 12 refers to when performing SPS decoding, and is a part related to inter-layer pixel correspondence information.
  • the inter-layer pixel correspondence information decoded from the SPS includes the number of inter-layer pixel correspondence information (num_scaled_ref_layer_offsets) included in the SPS extension.
  • the inter-layer pixel correspondence information includes an inter-layer pixel correspondence offset corresponding to the number of the inter-layer pixel correspondence information.
  • the offset corresponding to the pixel between layers includes the enlarged reference layer left offset (scaled_ref_layer_left_offset [i]), the enlarged reference layer upper offset (scaled_ref_layer_top_offset [i]), the enlarged reference layer right offset (scaled_ref_layer_right_offset [i]), and the enlarged reference layer below
  • the offset scaled_ref_layer_bottom_offset [i]
  • the inter-layer pixel correspondence offset is also referred to as an enlarged reference layer offset.
  • FIG. 10 is a diagram illustrating the relationship between the picture of the target layer, the picture of the reference layer, and the inter-layer pixel correspondence offset.
  • FIG. 10A shows an example in which the entire picture of the reference layer corresponds to a part of the picture of the target layer.
  • an area on the target layer corresponding to the entire reference layer picture (target layer corresponding area) is included in the target layer picture.
  • FIG. 10B illustrates an example in which a part of the reference layer picture corresponds to the entire picture of the target layer.
  • the target layer picture is included inside the reference layer corresponding area. Note that the entire target layer picture includes an offset.
  • the enlarged reference layer right offset represents the offset of the right side of the reference layer corresponding area to the right side of the target layer picture.
  • SRL right offset When the SRL right offset is larger than 0, it indicates that the right side of the reference layer corresponding region is located on the left side of the right side of the target layer picture.
  • the scale correction information decoded from the SPS includes a syntax element (A0).
  • A0 Number of scale correction information (num_scale_adjust_info)
  • the SPS includes a set of syntax elements (A1, A2L, A2T, A2R, A2B, A3W, A3H) indicated by the number of scale correction information.
  • the scale correction reference layer identifier (A1) is an identifier of a specific reference layer for the target layer.
  • the specific reference layer is a reference layer to be subjected to scale correction processing.
  • the virtual reference layer size (A3W, A3H) is a parameter used for calculating an inter-layer scale (correction scale).
  • a reference layer width reference layer picture width before hierarchical encoded data conversion is set.
  • the syntax (PPS tile information) related to tile information included in the PPS includes a multi-tile enabled flag (tiles_enabled_flag).
  • tile_enabled_flag When the value of the multi-tile valid flag is 1, it indicates that the picture is composed of two or more tiles. When the value of the flag is 0, the picture is composed of one tile, that is, the picture and the tile match.
  • Num_tile_columns_minus1 is a syntax corresponding to a value obtained by subtracting 1 from the number of tiles included in the horizontal direction of the picture.
  • Num_tile_rows_minus1 is a syntax corresponding to a value obtained by subtracting 1 from the number of tiles included in the vertical direction of the picture. Therefore, the number of tiles NumTilesInPic included in the picture is calculated by the following equation.
  • NumTilesInPic (num_tile_columns_minus1 + 1) * (num_tile_rows_minus1 + 1)
  • a uniform_spacing_flag value of 1 indicates that the tile size included in the picture is uniform, that is, the width and height of each tile are equal.
  • a uniform_spacing_flag value of 0 indicates that the tile sizes included in the picture are uneven, that is, the width and height of the tiles included in the picture do not necessarily match.
  • the PPS tile information includes information indicating the tile width (column_width_minus1 [i]) for each tile column included in the picture, and the picture For each tile row included, additional information (row_height_minus1 [i]) indicating the height of the tile is included.
  • the tile setting unit 13 derives tile structure information.
  • the tile structure information includes an array for deriving a tile scan CTB address from a raster scan CTB address (CtbAddrRsToTs [ctbAddrRs]), an array for deriving a raster scan CTB address from a tile scan CTB address (CtbAddrTsToRs [ctbAddrTs]), and a tile scan CTB address
  • Each tile identifier (TileId [ctbAddrTs])
  • the width of each tile column ColumnWidthInLumaSamples [i]
  • the height of each tile row RowHeightInLumaSamples [j]
  • each tile column is calculated based on the picture size and the number of tiles in the picture. For example, the width of the i-th tile column (ColumnWidthInLumaSamples [i]) is calculated by the following equation. Note that PicWidthInCtbsY represents the number of CTUs included in the horizontal direction of the picture.
  • colBd [i] indicating the boundary position of the i-th tile row and rowBd [j] indicating the boundary position of the j-th tile row are calculated by the following equations. Note that the values of colBd [0] and rowBd [0] are 0.
  • CtbAddrRsToTs includes the sum of CTUs contained in tiles that precede the tiles of (tileX, tileY) in the tile scan order, and (tbX-colBd [tileX], A value obtained by adding the positions of the raster scan order in the tile of the CTU located at tbY (-rowBd [tileY]) is set.
  • FIG. 15 is a functional block diagram illustrating a schematic configuration of the slice decoding unit 14.
  • the slice header decoding unit 141 decodes the slice header based on the input VCL NAL and the parameter set, and outputs the decoded slice header to the slice position setting unit 142, the skip slice determination unit 143, and the CTU decoding unit 144.
  • the slice position setting unit 142 specifies the slice position in the picture based on the input slice header and tile information, and outputs the slice position to the CTU decoding unit 144.
  • the slice position in the picture derived by the slice position setting unit 142 includes the position in the picture of each CTU included in the slice.
  • the generation process of the predicted pixel value of the target pixel included in the target CTU to which the inter-layer image prediction is applied is executed according to the following procedure.
  • a reference picture position derivation process is executed to derive a corresponding reference position.
  • the corresponding reference position is a position on the reference layer corresponding to the target pixel on the target layer picture. Since the pixels of the target layer and the reference layer do not necessarily correspond one-to-one, the corresponding reference position is expressed with an accuracy of less than the pixel unit in the reference layer.
  • the prediction pixel value of the target pixel is generated by executing the interpolation filter process using the derived corresponding reference position as an input.
  • currPicW and currPicH are the height and width of the target picture.
  • the target of the corresponding reference position derivation process is a luminance pixel, it matches the syntax values of pic_width_in_luma_samples and pic_height_in_luma_samples included in the SPS picture information in the target layer To do.
  • the object is a color difference, a value obtained by converting the syntax value according to the type of color format is used.
  • the virtual reference layer corresponding region size is calculated by the sum of the current picture size, the expanded reference layer offset, and the expanded reference layer additional offset.
  • rlVirtualW is the virtual reference layer width
  • rlVirtualH is the virtual reference layer height
  • rlVirtualW is the virtual reference layer width
  • rlVirtualH is the virtual reference layer height
  • the inter-layer scale is obtained by changing the virtual reference layer size (virtual reference layer width or virtual reference layer height) to the virtual reference layer corresponding region size (virtual reference layer corresponding region width or It is derived by dividing by the virtual reference layer corresponding area height).
  • the inter-layer scale is calculated as a ratio between the virtual reference layer size and the virtual reference layer corresponding region size.
  • the reference position is calculated based on the inter-layer pixel correspondence information and the inter-layer scale.
  • the horizontal component xRef and the vertical component yRef at the reference position corresponding to the target layer pixel are calculated by the following equations. Note that xRef represents the horizontal position with reference to the upper left pixel of the reference layer picture, and yRef represents the vertical position with reference to the upper left pixel in pixel units of the reference layer picture.
  • xRef (xP-SRLLOffset) * scaleX
  • yRef (yP-SRLTOffset) * scaleY
  • xP and yP represent the horizontal component and the vertical component of the target layer pixel with reference to the upper left pixel of the target layer picture, in pixel units of the target layer picture.
  • xRef16 ((xP-SRLLOffset) * scaleIntX + (1 ⁇ 11)) >> 12
  • yRef16 ((yP-SRLTOffset) * scaleIntY + (1 ⁇ 11)) >> 12
  • the position on the reference layer corresponding to the target pixel on the target layer picture can be derived as the corresponding reference position.
  • the ratio between the virtual reference layer size and the virtual reference layer corresponding region size derived based on the scale correction information is used for the inter-layer scale, not the ratio between the actual reference layer picture and the reference layer corresponding region size. As derived.
  • the virtual reference layer size equal to the reference layer size in the hierarchically encoded data before conversion and the reference in the hierarchically encoded data before conversion
  • An inter-layer scale can be derived by deriving a virtual reference layer corresponding region size equal to the layer corresponding region size when decoding the hierarchically encoded data after conversion. Therefore, the scale between layers can be maintained at the same value before and after conversion.
  • the pixel value at the position corresponding to the corresponding reference position derived in the corresponding reference position deriving process is applied to the decoded pixels of the pixels near the corresponding reference position on the reference layer picture. Generate.
  • xRef16 ((xP-SRLLOffset) * scaleIntX + addX + (1 ⁇ 11)) >> 12
  • yRef16 ((yP-SRLTOffset) * scaleIntY + addY + (1 ⁇ 11)) >> 12
  • addX and addY are the amounts corresponding to the phase shift in the vertical direction and the horizontal direction, respectively, phaseX which is the phase difference in the vertical direction expressed with quarter-pixel accuracy, and similarly the phase difference in the horizontal direction. Is calculated by the following equation using phaseY.
  • the hierarchical moving picture decoding apparatus 1 (hierarchical picture decoding apparatus) according to the present embodiment described above includes a parameter set decoding unit 12 that decodes a parameter set, and a prediction image by inter-layer prediction with reference to a decoded pixel of a reference layer picture. Is provided with a predicted image generation unit 1442.
  • the parameter set decoding unit 12 decodes the scale correction information, and the predicted image generation unit 1442 uses the inter-layer scale value derived from the scale correction information to derive the corresponding reference position for the pixel on the target layer.
  • the hierarchical moving picture decoding apparatus 1 can derive the same inter-layer scale before and after the conversion even when the hierarchical encoded data is converted for the purpose represented by the attention area extraction. Therefore, in the encoded data after conversion, the prediction residual of inter-layer prediction is reduced by maintaining the accuracy of the positional relationship between the pixels of the upper layer and the pixels of the lower layer. Can be decoded to output a decoded picture of an upper layer.
  • the parameter set decoding unit 12 decodes the scale correction information from the input target layer encoded data.
  • the scale correction information is included in the SPS extension, for example, and is decoded according to the syntax table shown in FIG. FIG. 16 is a part of a syntax table that the parameter set decoding unit 12 refers to when performing SPS decoding, and is a part related to scale correction information.
  • the alternative inter-layer scale is a parameter used for calculating the inter-layer scale.
  • the alternate inter-layer scale is used directly as the value of the inter-layer scale.
  • the SPS includes an alternative inter-layer scale horizontal component (alt_scale_x [i]) and an alternative inter-layer scale vertical component (alt_scale_y [i]) corresponding to a specific reference layer as the alternative inter-layer scale.
  • the array subscript ([i]) represents the number of parameters in the SPS.
  • the alternative inter-layer scale of the subscript i is an alternative inter-layer scale when the layer indicated by the scale correction reference layer identifier of the subscript i is the reference layer.
  • the scale between layers is calculated according to the following steps S201 to S203.
  • (S201) It is determined whether an alternative inter-layer scale is transmitted for a reference layer used for inter-layer prediction. Specifically, when the layer identifier of the reference layer is included in the scale correction reference layer identifier included in the scale correction information, it is determined that the alternative inter-layer scale is transmitted, and in other cases, It is determined that the alternate inter-layer scale is not transmitted. If the alternative inter-layer scale is transmitted, the process proceeds to S202, and if not transmitted, the process proceeds to S203.
  • the inter-layer scale is calculated as the ratio of the reference layer size to the reference layer corresponding region size, and the process is terminated.
  • the scale between layers is calculated by the following equation.
  • rlW and rlH represent the width and height of the reference layer picture, respectively
  • srlW and srlH represent the width and height of the reference layer corresponding area, respectively.
  • the range values of the horizontal component for the alternate layer scale and the vertical component for the alternate layer scale must be the same as the scale between layers when the alternate layer scale is not used.
  • the range of scaleX is an integer greater than or equal to 0 and less than or equal to (rlMaxW ⁇ 16). Therefore, the alternative inter-layer scale needs to be included in the parameter set with a code capable of expressing an equivalent range.
  • the reference layer picture width rlW (height rlH) is equal to or larger than the reference layer corresponding region width srlW (height srlH), and the maximum scaleX The value is when srlW is equal to rlW.
  • scaleX 1 ⁇ 16. Therefore, the value range of the scale between alternative layers is limited to an integer of 0 or more (1 ⁇ 16). Therefore, in such a case, it is preferable to include an alternative inter-layer scale in the parameter set using a 16-bit fixed length code.
  • an alternative inter-layer scale in a range corresponding to the limitation may be decoded and used.
  • a value obtained by subtracting minScale from the final alternative inter-layer scale value may be encoded as alt_scale_x [i] and alt_scale_y [i].
  • the alternate layer scales AltScaleX [i] and AltScaleY [i] that are actually used are derived from the alternate layer scales alt_scale_x [i] and alt_scale_y [i] included in the encoded data.
  • the predicted image generation unit 1442 uses (S202 ′) instead of (S202).
  • the parameter set decoding unit 12 decodes the scale correction information from the input target layer encoded data.
  • the scale correction information is included in the SPS extension, for example, and is decoded according to the syntax table shown in FIG. FIG. 17 is a part of a syntax table that the parameter set decoding unit 12 refers to when performing SPS decoding, and is a part related to scale correction information.
  • the alternative inter-layer scale difference is a parameter used to calculate the inter-layer scale.
  • the final inter-layer scale is calculated by adding the inter-alternative layer scale difference to the inter-layer scale derived from the ratio between the reference layer corresponding region size and the reference layer size.
  • the parameter set includes an alternate layer scale horizontal component difference (alt_scale_x_diff [i]) and an alternate layer scale vertical component difference (alt_scale_y_diff [i]) corresponding to a specific reference layer. It is.
  • the meaning of the subscript i is the same as in the case of the alternative inter-layer scale.
  • the scale between layers is calculated by the following equation.
  • scaleX (((rlW ⁇ 16) + (srlW >> 1)) / srlW) + alt_scale_x_diff [i]
  • scaleY (((rlH ⁇ 16) + (srlH >> 1)) / srlH) + alt_scale_y_diff [i] That is, the ratio between the reference layer corresponding region size and the reference layer size, and the sum of the alternative inter-layer scale differences are set as the inter-layer scale.
  • the alternative inter-layer scale difference is preferably included in the parameter set by a code that can express a positive or negative integer and that is assigned a shorter code with respect to a smaller absolute value.
  • the alternate layer scale difference horizontal component or vertical component can be included in the parameter set (SPS or VPS) using an exponential Golomb code (se (v)) for signed integers defined in HEVC.
  • the minimum value of the inter-alternate layer scale difference is considered to be -1 and the maximum value is 1, whether to use the inter-alternate layer scale difference instead of the inter-alternate layer scale difference alt_scale_x_diff [i] and alt_scale_x_diff [j] Encoding alt_scale_x_diff_present_flag [i], alt_scale_y_diff_present_flag [i], and flags alt_scale_x_diff_sign_flag [i] and alt_scale_y_diff_sign_flag [i] that indicate the sign of the scale difference between alternative layers when using the scale difference between alternative layers good.
  • the scale between layers is calculated by the following equation.
  • the scale correction information in this case is included in the SPS extension, for example, and is decoded according to the syntax table shown in FIG. FIG. 18 is a part of a syntax table that the parameter set decoding unit 12 refers to when performing SPS decoding, and is a part related to scale correction information.
  • the virtual reference layer corresponding region direct size (A5WH) is a parameter used for calculating the virtual reference layer corresponding region size used for the inter-layer scale calculation.
  • the virtual reference layer corresponding region direct size is directly used as a value of the virtual reference layer corresponding region size.
  • the value of the inter-layer scale is calculated as the ratio of the virtual reference layer size to the virtual reference layer corresponding region size by the same method as the processing described in the predicted image generation unit 1442.
  • the parameter set includes the virtual reference layer corresponding area width (srl_virtual_width [i]) and virtual reference layer corresponding area height (srl_virtual_height [i]) corresponding to a specific reference layer It is.
  • the meaning of the subscript i is the same as in the case of the alternative inter-layer scale.
  • the virtual reference layer corresponding region width and height are preferably encoded in the parameter set with the same code as the picture size height and width, respectively.
  • the virtual reference layer corresponding region size is calculated by the following equation.
  • the virtual reference layer corresponding area difference size (A5WHd) is a parameter used for calculating the virtual reference layer corresponding area size used for the inter-layer scale calculation.
  • the virtual reference layer corresponding region size is calculated by adding the virtual reference layer corresponding region difference size to the reference layer corresponding region size.
  • the value of the inter-layer scale is calculated as the ratio of the virtual reference layer size to the virtual reference layer corresponding region size by the same method as the processing described in the predicted image generation unit 1442.
  • the parameter set includes a virtual reference layer corresponding area difference width (srl_virtual_width_diff [i]) and a virtual reference layer corresponding area difference height (srl_virtual_height_diff [i]) corresponding to a specific reference layer. Is included. The meaning of the subscript i is the same as in the case of the alternative inter-layer scale.
  • the virtual reference layer corresponding region size is calculated by the following equation.
  • VSRLW currPicW-SRLLOffset-SRLROffset + srl_virtual_width_diff [i]
  • VSRLH currPicH-SRLTOffset-SRLBOffset + srl_virtual_height_diff [i]
  • the virtual reference layer size difference (A3WHd) is a parameter used for calculating a virtual reference layer size used for calculating an inter-layer scale.
  • the virtual reference layer size is calculated by adding the virtual reference layer corresponding region size difference to the reference layer size.
  • the value of the inter-layer scale is calculated as the ratio of the virtual reference layer size to the virtual reference layer corresponding region size by the same method as the processing described in the predicted image generation unit 1442.
  • the parameter set includes a virtual reference layer difference width (rl_virtual_width_diff [i]) and a virtual reference layer difference height (rl_virtual_height_diff [i]) corresponding to a specific reference layer.
  • the meaning of the subscript i is the same as in the case of the alternative inter-layer scale.
  • the virtual reference layer corresponding region size is calculated by the following equation.
  • refPicW refPicW + rl_virtual_width_diff [i]
  • rlVirtualH refPicH + rl_virtual_height_diff [i]
  • refPicW and refPicH correspond to the width and height of the reference layer picture size used for the predicted image generation processing, respectively.
  • both the width and height of the virtual reference layer size difference are set to 0.
  • the virtual reference layer size derived by the above formula matches the reference layer size.
  • A2TL Extended Reference Layer Upper Left Additional Offset
  • A2BR Extended Reference Layer Lower Right Additional Offset
  • A3WH Virtual Reference Layer Size
  • A3WHd Virtual Reference Layer Size Difference
  • A4S Substitute Layer Scale
  • A4Sd Substitute Layer Scale Difference
  • A5WH Virtual reference layer corresponding region size / A5WHd: Virtual reference layer corresponding region size difference
  • the upper left additional offset of the enlarged reference layer described with reference to FIG. 11 is used.
  • the enlarged reference layer upper left additional offset is a component of the scale correction information and a component of the inter-layer phase correspondence information.
  • xRef16 xRefOrg16-(xRefOffset ⁇ 4)
  • yRef16 yRefOrg16-(yRefOffset ⁇ 4)
  • scale correction information when the corresponding reference position is derived using the scale correction information and the inter-layer phase correspondence information
  • combinations of various parameters described in the first modification can be used.
  • the enlarged reference layer upper left additional offset can be shared between the use of the scale correction information and the use of the inter-layer phase correspondence information, and thus there is an advantage that the code amount of the parameter set is small.
  • the slice encoding unit 24 is a part of the input image corresponding to the slice constituting the picture. Is encoded to generate encoded data of the part, and the encoded data is supplied to the NAL multiplexer 21 as a part of the target layer encoded data DATA # T. Detailed description of the slice encoding unit 24 will be described later.
  • the slice header setting unit 241 generates a slice header used for encoding an input image input in units of slices based on the input parameter set and slice position information.
  • the generated slice header is output as a part of the slice encoded data, and is supplied to the CTU encoding unit 244 together with the input image.
  • the prediction image encoding unit 2442 determines a prediction method and prediction parameters of the target CTU included in the target slice, generates a prediction image based on the determined prediction method, and generates a prediction residual encoding unit 2441 and a CTU decoded image. Output to the unit 1443.
  • Information on the prediction method and prediction parameters is variable-length encoded as prediction information (PT information) and output as a part of slice data included in the slice encoded data.
  • the prediction methods that can be selected by the prediction image encoding unit 2442 include at least inter-layer image prediction.
  • the predicted image encoding unit 2442 When inter-layer image prediction is selected as the prediction method, the predicted image encoding unit 2442 performs a corresponding reference position derivation process, determines a reference layer pixel position corresponding to the prediction target pixel, and performs interpolation based on the position A predicted pixel value is determined by processing.
  • the corresponding reference position derivation process each process described for the predicted image generation unit 1442 of the hierarchical video decoding device 1 can be applied. For example, the process of deriving the corresponding reference pixel based on the scale correction information included in the parameter set described with reference to FIG. 1 is applied.
  • the hierarchical video encoding device 2 (hierarchical image encoding device) according to the present embodiment described above includes a parameter set encoding unit 22 that encodes a parameter set and an inter-layer referring to a decoded pixel of a reference layer picture.
  • a prediction image encoding unit 2442 that generates a prediction image by prediction is provided.
  • the parameter set encoding unit 22 encodes the scale correction information, and the prediction image encoding unit 2442 derives the corresponding reference position for the pixel on the target layer using the inter-layer scale value derived from the scale correction information. .
  • the hierarchical encoded data conversion device 3 includes a NAL demultiplexing unit 11, a NAL multiplexing unit 21, a parameter set decoding unit 12, a tile setting unit 13, a parameter set modification unit 32, and a NAL selection unit 34. including.
  • the attention area information is a partial area of a picture specified by a user (for example, a viewer of a reproduction moving image) in a picture constituting the moving image.
  • the attention area information is specified by a rectangular area, for example.
  • an offset of a position from the corresponding side (upper side, lower side, left side, or right side) of the entire picture of the upper side, the lower side, the left side, and the right side of the rectangle representing the target region can be designated as the attention region information.
  • an area having a shape other than a rectangle for example, a circle, a polygon, or an area indicating an object extracted by object extraction
  • a rectangular attention area is assumed below. To do.
  • a rectangle with the smallest area including the region of interest can be regarded as the region of interest in the following description.
  • the hierarchical encoded data conversion apparatus 3 removes tiles that do not have a region of interest and an overlapping region on the enhancement layer from the input pre-conversion hierarchically encoded data, and corrects the related parameter set. Then, the encoded hierarchical encoded data is generated.
  • the hierarchical moving image decoding apparatus can generate a decoded image related to a region of interest with the converted hierarchical encoded data as an input.
  • the parameter set correction unit 32 removes tiles unnecessary for decoding the tile extracted in the enhancement layer from the tiles included in the pre-conversion BL picture.
  • the base layer PPS tile information is updated so that the region on the enhancement layer corresponding to the converted BL picture (the converted reference layer corresponding region) includes the converted EL picture.
  • the parameter set correction unit 32 corrects the inter-layer pixel correspondence information included in the parameter set based on the change in the picture size. Specifically, all the inter-layer pixel correspondence offsets included in the inter-layer pixel correspondence information are corrected.
  • the enlarged reference layer left offset (scaled_ref_layer_left_offset [i]) constituting the inter-layer pixel corresponding offset is set to a value corresponding to the distance between the upper left pixel of the converted reference layer corresponding region and the upper left pixel of the converted EL picture.
  • the attention area display system SYS is generally provided by hierarchically encoding and storing input images having different qualities, and converting and providing the hierarchically encoded data accumulated according to attention area information from the user, By decoding the converted hierarchically encoded data, a high-quality reproduced image related to the region of interest (ROI) is displayed.
  • ROI region of interest
  • the hierarchical video encoding device 2 described above can be used for the hierarchical video encoding units SYS1A and SYS1B.
  • the hierarchically encoded data storage unit SYS2 stores hierarchically encoded data and supplies the hierarchically encoded data as required.
  • a computer having a recording medium (memory, hard disk, optical disk) can be used as the hierarchically encoded data storage unit SYS2.
  • the ROI notification unit SYS8 notifies attention area information designated by the user by a predetermined method. For example, the user can inform the ROI notification unit of the attention area by designating an area corresponding to the attention area on the display area where the entire display image is displayed. Note that the ROI notification unit SYS8 notifies information indicating that there is no attention area as attention area information when there is no user designation.
  • the hierarchical moving image encoding unit SYS1A encodes the input high-quality input image using the input hierarchical encoded data as encoded data of the reference layer, generates hierarchical encoded data, and generates a hierarchical code Output to the digitized data storage unit SYS2.
  • the hierarchically encoded data storage unit SYS2 attaches an appropriate index to the input hierarchically encoded data and records it on an internal recording medium.
  • the hierarchically encoded data is read from the hierarchically encoded data storage unit SYS2, converted into hierarchically encoded data corresponding to the attention area, and the converted hierarchically encoded data is decoded and reproduced and displayed. .
  • the attention area data generation / reproduction processing is executed in the following steps T201 to T205.
  • T201 The hierarchically encoded data related to the moving image selected by the user is supplied from the hierarchically encoded data storage unit SYS2 to the hierarchically encoded data conversion unit SYS3.
  • the hierarchical encoded data conversion unit SYS3 converts the input hierarchical encoded data based on the input attention area information, and outputs the converted hierarchical encoded data to the hierarchical video decoding unit SYS4.
  • the hierarchical video decoding unit SYS4 decodes the input hierarchical video encoded data (after conversion), and outputs the obtained decoded picture of the upper layer to the display unit SYS6.
  • the display unit SYS6 displays the input decoded image.
  • the attention area display system SYS includes an attention area notification section (ROI notification section SYS8) that supplies attention area information, and converts the hierarchically encoded data based on the attention area information and after conversion.
  • ROI notification section SYS8 that supplies attention area information, and converts the hierarchically encoded data based on the attention area information and after conversion.
  • a hierarchical encoded data conversion unit SYS3 that generates hierarchical encoded data
  • a hierarchical moving image decoding unit SYS4 that decodes the converted hierarchical encoded data and outputs decoded pictures of an upper layer and a lower layer
  • a display unit SYS6 I have.
  • the decoded picture of the area specified by the attention area information can be displayed.
  • the decoded picture of the area specified by the attention area information uses inter-layer image prediction using the inter-layer scale derived from the encoded data of the upper layer of the hierarchical encoded data based on the scale correction information. Therefore, the image quality is high.
  • the hierarchically encoded data converted based on the attention area has a smaller code amount than the hierarchically encoded data before conversion. Therefore, by using the attention area display system SYS described above, it is possible to reproduce a decoded picture with high image quality related to the attention area while reducing the bandwidth required for transferring the hierarchically encoded data.
  • the above-described hierarchical video encoding device 2 and hierarchical video decoding device 1 can be used by being mounted on various devices that perform transmission, reception, recording, and reproduction of moving images.
  • the moving image may be a natural moving image captured by a camera or the like, or may be an artificial moving image (including CG and GUI) generated by a computer or the like.
  • FIG. 24A is a block diagram illustrating a configuration of a transmission device PROD_A in which the hierarchical video encoding device 2 is mounted.
  • the transmission device PROD_A modulates a carrier wave with an encoding unit PROD_A1 that obtains encoded data by encoding a moving image and the encoded data obtained by the encoding unit PROD_A1.
  • a modulation unit PROD_A2 that obtains a modulation signal and a transmission unit PROD_A3 that transmits the modulation signal obtained by the modulation unit PROD_A2 are provided.
  • the hierarchical moving image encoding apparatus 2 described above is used as the encoding unit PROD_A1.
  • the transmission device PROD_A is a camera PROD_A4 that captures a moving image, a recording medium PROD_A5 that records the moving image, an input terminal PROD_A6 that inputs the moving image from the outside, as a supply source of the moving image input to the encoding unit PROD_A1.
  • An image processing unit A7 that generates or processes an image may be further provided.
  • FIG. 24A illustrates a configuration in which the transmission apparatus PROD_A includes all of these, but a part of the configuration may be omitted.
  • FIG. 24 is a block diagram illustrating a configuration of the receiving device PROD_B in which the hierarchical video decoding device 1 is mounted.
  • the reception device PROD_B includes a reception unit PROD_B1 that receives a modulation signal, a demodulation unit PROD_B2 that obtains encoded data by demodulating the modulation signal received by the reception unit PROD_B1, and a demodulation A decoding unit PROD_B3 that obtains a moving image by decoding the encoded data obtained by the unit PROD_B2.
  • the above-described hierarchical video decoding device 1 is used as the decoding unit PROD_B3.
  • the receiving device PROD_B has a display PROD_B4 for displaying a moving image, a recording medium PROD_B5 for recording the moving image, and an output terminal for outputting the moving image to the outside as a supply destination of the moving image output by the decoding unit PROD_B3.
  • PROD_B6 may be further provided.
  • FIG. 24B illustrates a configuration in which the reception apparatus PROD_B includes all of these, but a part of the configuration may be omitted.
  • the recording medium PROD_B5 may be used for recording a non-encoded moving image, or may be encoded using a recording encoding method different from the transmission encoding method. May be. In the latter case, an encoding unit (not shown) for encoding the moving image acquired from the decoding unit PROD_B3 according to the recording encoding method may be interposed between the decoding unit PROD_B3 and the recording medium PROD_B5.
  • the transmission medium for transmitting the modulation signal may be wireless or wired.
  • the transmission mode for transmitting the modulated signal may be broadcasting (here, a transmission mode in which the transmission destination is not specified in advance) or communication (here, transmission in which the transmission destination is specified in advance). Refers to the embodiment). That is, the transmission of the modulation signal may be realized by any of wireless broadcasting, wired broadcasting, wireless communication, and wired communication.
  • a terrestrial digital broadcast broadcasting station (broadcasting equipment or the like) / receiving station (such as a television receiver) is an example of a transmitting device PROD_A / receiving device PROD_B that transmits and receives a modulated signal by wireless broadcasting.
  • a broadcasting station (such as broadcasting equipment) / receiving station (such as a television receiver) of cable television broadcasting is an example of a transmitting device PROD_A / receiving device PROD_B that transmits and receives a modulated signal by cable broadcasting.
  • a server workstation etc.
  • Client television receiver, personal computer, smart phone etc.
  • VOD Video On Demand
  • video sharing service using the Internet is a transmitting device for transmitting and receiving modulated signals by communication.
  • PROD_A / reception device PROD_B usually, either a wireless or wired transmission medium is used in a LAN, and a wired transmission medium is used in a WAN.
  • the personal computer includes a desktop PC, a laptop PC, and a tablet PC.
  • the smartphone also includes a multi-function mobile phone terminal.
  • the video sharing service client has a function of encoding a moving image captured by the camera and uploading it to the server. That is, the client of the video sharing service functions as both the transmission device PROD_A and the reception device PROD_B.
  • FIG. 25A is a block diagram illustrating a configuration of a recording apparatus PROD_C in which the above-described hierarchical video encoding apparatus 2 is mounted.
  • the recording device PROD_C includes an encoding unit PROD_C1 that obtains encoded data by encoding a moving image, and the encoded data obtained by the encoding unit PROD_C1 on the recording medium PROD_M.
  • the hierarchical moving image encoding device 2 described above is used as the encoding unit PROD_C1.
  • the recording medium PROD_M may be of a type built in the recording device PROD_C, such as (1) HDD (Hard Disk Drive) or SSD (Solid State Drive), or (2) SD memory. It may be of the type connected to the recording device PROD_C, such as a card or USB (Universal Serial Bus) flash memory, or (3) DVD (Digital Versatile Disc) or BD (Blu-ray Disc: registration) For example, it may be loaded into a drive device (not shown) built in the recording device PROD_C.
  • the recording device PROD_C is a camera PROD_C3 that captures moving images as a supply source of moving images to be input to the encoding unit PROD_C1, an input terminal PROD_C4 for inputting moving images from the outside, and reception for receiving moving images.
  • the unit PROD_C5 and an image processing unit C6 that generates or processes an image may be further provided.
  • FIG. 25A illustrates a configuration in which the recording apparatus PROD_C includes all of these, but some of them may be omitted.
  • the receiving unit PROD_C5 may receive a non-encoded moving image, or may receive encoded data encoded by a transmission encoding scheme different from the recording encoding scheme. You may do. In the latter case, a transmission decoding unit (not shown) that decodes encoded data encoded by the transmission encoding method may be interposed between the reception unit PROD_C5 and the encoding unit PROD_C1.
  • Examples of such a recording device PROD_C include a DVD recorder, a BD recorder, and an HDD (Hard Disk Drive) recorder (in this case, the input terminal PROD_C4 or the receiving unit PROD_C5 is a main supply source of moving images).
  • a camcorder in this case, the camera PROD_C3 is a main source of moving images
  • a personal computer in this case, the receiving unit PROD_C5 or the image processing unit C6 is a main source of moving images
  • a smartphone in this case In this case, the camera PROD_C3 or the receiving unit PROD_C5 is a main supply source of moving images
  • the camera PROD_C3 or the receiving unit PROD_C5 is a main supply source of moving images
  • FIG. 25 is a block showing a configuration of a playback device PROD_D in which the above-described hierarchical video decoding device 1 is mounted.
  • the playback device PROD_D reads a moving image by decoding a read unit PROD_D1 that reads encoded data written to the recording medium PROD_M and a coded data read by the read unit PROD_D1. And a decoding unit PROD_D2 to be obtained.
  • the hierarchical moving image decoding apparatus 1 described above is used as the decoding unit PROD_D2.
  • the recording medium PROD_M may be of the type built into the playback device PROD_D, such as (1) HDD or SSD, or (2) such as an SD memory card or USB flash memory, It may be of a type connected to the playback device PROD_D, or (3) may be loaded into a drive device (not shown) built in the playback device PROD_D, such as DVD or BD. Good.
  • the playback device PROD_D has a display PROD_D3 that displays a moving image, an output terminal PROD_D4 that outputs the moving image to the outside, and a transmission unit that transmits the moving image as a supply destination of the moving image output by the decoding unit PROD_D2.
  • PROD_D5 may be further provided.
  • FIG. 25B illustrates a configuration in which the playback apparatus PROD_D includes all of these, but a part of the configuration may be omitted.
  • the transmission unit PROD_D5 may transmit an unencoded moving image, or transmits encoded data encoded by a transmission encoding method different from the recording encoding method. You may do. In the latter case, it is preferable to interpose an encoding unit (not shown) that encodes a moving image with an encoding method for transmission between the decoding unit PROD_D2 and the transmission unit PROD_D5.
  • Examples of such a playback device PROD_D include a DVD player, a BD player, and an HDD player (in this case, an output terminal PROD_D4 to which a television receiver or the like is connected is a main supply destination of moving images).
  • a television receiver in this case, the display PROD_D3 is a main supply destination of moving images
  • a digital signage also referred to as an electronic signboard or an electronic bulletin board
  • the display PROD_D3 or the transmission unit PROD_D5 is a main supply of moving images.
  • Desktop PC (in this case, the output terminal PROD_D4 or the transmission unit PROD_D5 is the main video image supply destination), laptop or tablet PC (in this case, the display PROD_D3 or the transmission unit PROD_D5 is a moving image)
  • a smartphone which is a main image supply destination
  • a smartphone in this case, the display PROD_D3 or the transmission unit PROD_D5 is a main moving image supply destination
  • the like are also examples of such a playback device PROD_D.
  • each block of the hierarchical video decoding device 1 and the hierarchical video encoding device 2 may be realized in hardware by a logic circuit formed on an integrated circuit (IC chip), or may be a CPU (Central It may be realized by software using a Processing Unit).
  • IC chip integrated circuit
  • CPU Central It may be realized by software using a Processing Unit
  • each of the devices includes a CPU that executes instructions of a control program that realizes each function, a ROM (Read Memory) that stores the program, a RAM (Random Access Memory) that expands the program, the program, and A storage device (recording medium) such as a memory for storing various data is provided.
  • An object of the present invention is to provide a recording medium in which a program code (execution format program, intermediate code program, source program) of a control program for each of the above devices, which is software that realizes the above-described functions, is recorded in a computer-readable manner This can also be achieved by supplying each of the above devices and reading and executing the program code recorded on the recording medium by the computer (or CPU or MPU (Micro Processing Unit)).
  • a program code execution format program, intermediate code program, source program
  • Examples of the recording medium include tapes such as magnetic tapes and cassette tapes, magnetic disks such as floppy (registered trademark) disks / hard disks, CD-ROMs (Compact Disc-Read-Only Memory) / MO (Magneto-Optical) / Discs including optical discs such as MD (Mini Disc) / DVD (Digital Versatile Disc) / CD-R (CD Recordable), cards such as IC cards (including memory cards) / optical cards, mask ROM / EPROM (Erasable) Programmable Read-only Memory / EEPROM (registered trademark) (ElectricallyErasable Programmable Read-only Memory) / Semiconductor memories such as flash ROM, or logic circuits such as PLD (Programmable Logic Device) and FPGA (Field Programmable Gate Array) Etc. can be used.
  • tapes such as magnetic tapes and cassette tapes
  • magnetic disks such as floppy (registered trademark) disks / hard disks
  • each of the above devices may be configured to be connectable to a communication network, and the program code may be supplied via the communication network.
  • the communication network is not particularly limited as long as it can transmit the program code.
  • the Internet intranet, extranet, LAN (Local Area Network), ISDN (Integrated Services Digital Network), VAN (Value-Added Network), CATV (Community Area Antenna Television) communication network, Virtual Private Network (Virtual Private Network), A telephone line network, a mobile communication network, a satellite communication network, etc. can be used.
  • the transmission medium constituting the communication network may be any medium that can transmit the program code, and is not limited to a specific configuration or type.
  • IEEE Institute of Electrical and Electronic Engineers 1394, USB, power line carrier, cable TV line, telephone line, ADSL (Asymmetric Digital Subscriber Line) line, etc. wired such as IrDA (Infrared Data Association) and remote control, Wireless such as Bluetooth (registered trademark), IEEE 802.11 wireless, HDR (High Data Rate), NFC (Near Field Communication), DLNA (Digital Living Network Alliance, registered trademark), mobile phone network, satellite line, terrestrial digital network, etc.
  • the present invention can also be realized in the form of a computer data signal embedded in a carrier wave in which the program code is embodied by electronic transmission.
  • Hierarchical video decoding device (image decoding device) 11 NAL Demultiplexing Unit 12 Parameter Set Decoding Unit 13 Tile Setting Unit 14 Slice Decoding Unit 141 Slice Header Decoding Unit 142 Slice Position Setting Unit 144 CTU Decoding Unit 1441 Prediction Residual Restoring Unit 1442 Predictive Image Generation Unit 1443 CTU Decoded Image Generation Unit DESCRIPTION OF SYMBOLS 15 Base decoding part 151 Base NAL demultiplexing part 152 Base parameter set decoding part 153 Base tile setting part 154 Base slice decoding part 156 Base decoded picture management part 16 Decoded picture management part 2 Hierarchical video coding apparatus (image coding apparatus) ) 21 NAL multiplexing unit 22 Parameter set encoding unit 23 Tile setting unit 24 Slice encoding unit 241 Slice header setting unit 242 Slice position setting unit 244 CTU encoding unit 2441 Prediction residual encoding unit 2442 Predictive image encoding unit 3 layers Encoded data converter (encoded data converter) 32 Parameter set correction unit 34 NAL selection unit

Abstract

 階層動画像復号装置(1)は、スケール補正情報を復号するパラメータセット復号部(12)と、前記スケール補正情報に基づいて予測画像を生成する予測画像生成部(1442)を備えている。

Description

画像復号装置、画像符号化装置、および、符号化データ変換装置
 本発明は、画像が階層的に符号化された階層符号化データを復号する画像復号装置、および画像を階層的に符号化することによって階層符号化データを生成する画像符号化装置に関する。
 通信システムで伝送される情報、あるいは蓄積装置に記録される情報の1つに画像あるいは動画像がある。従来、これらの画像(以降、動画像を含む)の伝送・蓄積のため、画像を符号化する技術が知られている。
 動画像符号化方式としては、AVC(H.264/MPEG-4 Advanced Video Coding)や、その後継コーデックであるHEVC(High-Efficiency Video Coding)が知られている(非特許文献1)。
 これらの動画像符号化方式では、通常、入力画像を符号化/復号することによって得られる局所復号画像に基づいて予測画像が生成され、当該予測画像を入力画像(原画像)から減算して得られる予測残差(「差分画像」または「残差画像」と呼ぶこともある)が符号化される。また、予測画像の生成方法としては、画面間予測(インター予測)、および、画面内予測(イントラ予測)が挙げられる。
 イントラ予測では、同一ピクチャ内の局所復号画像に基づいて、当該ピクチャにおける予測画像が順次生成される。
 インター予測では、ピクチャ間の動き補償により予測画像が生成される。インター予測で予測画像生成に用いられる復号済のピクチャは参照ピクチャと呼ばれる。
 また、複数の相互に関連性のある動画像をレイヤ(階層)に分けて符号化することで、複数の動画像から符号化データを生成する技術も知られており、階層符号化技術と呼ばれる。階層符号化技術により生成される符号化データは階層符号化データとも呼ばれる。
 代表的な階層符号化技術としてHEVCを基礎とするSHVC(Scalable HEVC)が知られている(非特許文献2)。
 SHVCでは、空間スケーラビリティ、時間スケーラビリティ、SNRスケーラビリティをサポートする。例えば空間スケーラビリティの場合、複数の異なる解像度の動画像をレイヤに分けて符号化して階層符号化データを生成する。例えば、原画像から所望の解像度にダウンサンプリングした画像を下位レイヤとして符号化する。次に原画像をレイヤ間の冗長性を除去するためにレイヤ間予測を適用した上で、上位レイヤとして符号化する。
 別の代表的な階層符号化技術としてHEVCを基礎とするMV-HEVC(Multi View HEVC)が知られている(非特許文献3)。
 MV-HEVCではビュースケーラビリティをサポートする。ビュースケーラビリティでは、複数の異なる視点(ビュー)に対応する動画像をレイヤに分けて符号化して階層符号化データを生成する。例えば、基本となる視点(ベースビュー)に対応する動画像を下位レイヤとして符号化する。次に、異なる視点に対応する動画像を、レイヤ間予測を適用した上で、上位レイヤとして符号化する。
 SHVCやMV-HEVCにおけるレイヤ間予測には、レイヤ間画像予測とレイヤ間動き予測がある。レイヤ間画像予測では、下位レイヤの復号画像を利用して、予測画像を生成する。レイヤ間動き予測では、下位レイヤの動き情報を利用して、動き情報の予測値を導出する。レイヤ間予測において予測に用いられるピクチャはレイヤ間参照ピクチャと呼ばれる。また、レイヤ間参照ピクチャを含むレイヤは参照レイヤと呼ばれる。なお、以下では、インター予測に用いられる参照ピクチャと、レイヤ間予測に用いられる参照ピクチャを総称して単に参照ピクチャと呼称する。
 SHVCやMV-HEVCでは、予測画像の生成に、インター予測、イントラ予測、レイヤ間画像予測のいずれかを利用できる。
 SHVCやMV-HEVCを利用するアプリーケーションの一つに、注目領域を考慮した映像アプリケーションがある。例えば、映像再生端末において、通常は全領域の映像を比較的低解像度で再生する。映像再生端末の視聴者が表示されている映像の一部を注目領域として指定した場合、当該注目領域が高解像度で再生端末に表示される。
 前記のような注目領域を考慮した映像アプリケーションは、全領域の比較的低解像度の映像を下位レイヤの符号化データとして、注目領域の高解像度映像を上位レイヤの符号化データとして符号化した階層符号化データを用いて実現できる。すなわち、全領域を再生する場合は下位レイヤの符号化データのみを復号して再生し、注目領域の高解像度映像を再生する場合は、上位レイヤの符号化データを前記下位レイヤの符号化データに追加して伝送することで、低解像度映像に対する符号化データと高解像度映像に対する符号化データを両方送る場合に較べて少ない伝送帯域で前記アプリケーションが実現できる。その際、注目領域を含む領域に対応する符号化データを上位レイヤおよび下位レイヤからそれぞれ抽出して伝送することで、さらに伝送帯域を抑制できる。
 上記のような注目領域を考慮した映像アプリケーションにおいて、注目領域を含む上位レイヤおよび下位レイヤの符号化データを生成する場合に、上位レイヤの画素と下位レイヤの画素の位置関係が変化し、その結果、下位レイヤの画素値に基づく上位レイヤの画素値を予測する場合の予測の正確さが低下するという課題がある。
 非特許文献4では、上位レイヤの画素と下位レイヤの画素の位置関係を補正する目的で、レイヤ間位相対応情報を送り、該レイヤ間位相対応情報を用いて上位レイヤの各画素に対応する下位レイヤ上の画素位置を計算する方法が開示されている。
「Recommendation H.265 (04/13)」, ITU-T (2013年6月7日公開) JCT3V-E1004_v6 「MV-HEVC Draft Text 5」, Joint CollaborativeTeam on 3D Video Coding Extension Development of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 115th Meeting: Vienna, AT, 27 Jul. -2 Aug. 2013 (2013年8月7日公開) JCTVC-N1008_v1 「SHVC Draft 3」, Joint Collaborative Team onVideo Coding (JCT-VC) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 14th Meeting: Vienna, AT, 25 July - 2 Aug. 2013 (2013年8月20日公開) JCTVC-O0056 「MV-HEVC/SHVC HLS: On conversion to ROI-capablemulti-layer bitstream」, Joint Collaborative Team on Video Coding (JCT-VC) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 15th Meeting: Geneva, CH, 23 Oct. - 1 Nov. 2013(2013年10月11日公開)
 しかしながら、注目領域を考慮した映像アプリケーションにおいて、全領域に相当する上位レイヤと下位レイヤの符号化データを含む階層符号化データ(全領域階層符号化データ)から、注目領域に相当する上位レイヤと下位レイヤの符号化データを含む階層符号化データ(注目領域階層符号化データ)を生成する場合に、全領域階層符号化データにおけるスケール(下位レイヤと上位レイヤの間の解像度の比)と、注目領域階層符号化データにおけるスケールが厳密には維持できないという課題があった。そのため、注目領域階層符号化データにおいて、上位レイヤの画素と下位レイヤの画素の位置関係の正確さが不十分な場合があるという課題があった。
 本発明は、上記問題に鑑みてされたものであり、その目的は、全領域階層符号化データと同一のスケールを用いて上位レイヤの画素と下位レイヤの画素の位置関係を導出可能な注目領域符号化データを符号化・復号できる画像符号化装置および画像復号装置を実現することにある。
 加えて、本発明の目的は、全領域階層符号化データと同一のスケールを用いて上位レイヤの画素と下位レイヤの画素の位置関係を導出可能な注目領域符号化データを、全領域階層符号化データを入力として生成する階層符号化データ変換装置を実現することにある。
 上記課題を解決するために、本発明に係る画像復号装置は、階層符号化された符号化データに含まれる上位レイヤの符号化データを復号し、対象レイヤである上位レイヤの復号ピクチャを復元する画像復号装置であって、パラメータセットを復号するパラメータセット復号部と、参照レイヤピクチャの復号画素を参照して、レイヤ間予測により予測画像を生成する予測画像生成部を備え、前記パラメータセット復号部は参照レイヤに関するスケール補正情報を復号し、前記予測画像生成部は、前記スケール補正情報にもとづいて導出されるレイヤ間スケールを用いて対象レイヤの画素に対する参照レイヤ上の対応参照位置を導出することを特徴としている。
 また、上記画像復号装置において、前記スケール補正情報にもとづいて、仮想参照レイヤサイズ差分が導出されることが好ましい。
 また、上記画像復号装置において、前記予測画像生成部で導出される前記レイヤ間スケールの値は、仮想参照レイヤ対応領域サイズと仮想参照レイヤサイズとの比の近似値であり、前記仮想参照レイヤサイズは、参照レイヤピクチャサイズと前記仮想参照レイヤサイズ差分の和であることが好ましい。
 また、上記画像復号装置において、前記スケール補正情報がパラメータセットに含まれない場合、前記仮想参照レイヤサイズと上記参照レイヤピクチャサイズが一致するよう上記スケール補正情報の値を設定することが好ましい。
 上記課題を解決するために、本発明に係る画像符号化装置は、入力画像から上位レイヤの符号化データを生成する画像符号化装置であって、パラメータセットを復号するパラメータセット復号部と、参照レイヤピクチャの復号画素を参照して、レイヤ間予測により予測画像を生成する予測画像符号化部を備え、前記パラメータセット復号部は、スケール補正情報を符号化し、前記予測画像符号化部は、前記スケール補正情報から導出されるレイヤ間スケールの値を用いて対象レイヤの復号画素に対する対応参照位置を導出し、前記スケール補正情報にもとづいて、仮想参照レイヤサイズ差分が導出されることを特徴としている。
 上記課題を解決するために、本発明に係る階層符号化データ変換装置は、入力される階層符号化データを入力される注目領域情報に基づいて変換し、注目領域階層符号化データを生成して出力する、パラメータセット修正部を備える階層符号化データ変換装置であって、前記パラメータセット修正部は、変換前後の階層符号化データで導出されるレイヤ間スケールが一致するようにスケール補正情報を修正することを特徴としている。
 本発明に係る画像復号装置(画像符号化装置)は、パラメータセットを復号(符号化)するパラメータセット復号部(符号化部)と、参照レイヤピクチャの復号画素を参照してレイヤ間予測により予測画像を生成する予測画像生成部を備えている。前記パラメータセット復号部(符号化)はスケール補正情報を復号(設定)し、前記予測画像生成部は、該スケール補正情報から導出されるレイヤ間スケールの値を用いて対象レイヤ上の画素に対する対応参照位置を導出する。
 したがって、上記画像復号装置(画像符号化装置)は、注目領域抽出に代表される目的で階層符号化データを変換する場合であっても、変換の前後で同一のレイヤ間スケールを導出できる。そのため、変換後の符号化データにおいて、上位レイヤの画素と下位レイヤの画素の位置関係の正確さを維持することでレイヤ間予測の予測残差が減少する。したがって、本発明に係る画像復号装置では、より少ない符号量の符号化データを復号して上位レイヤの復号ピクチャを出力できる。また、本発明に係る画像符号化装置では、より少ない符号量の符号化データを出力できる。
本実施形態に係る、階層動画像復号装置および階層動画像符号化装置において実行される対応参照位置導出処理のフロー図である。 本発明の実施形態に係る階層符号化データのレイヤ構造を説明するための図であって、(a)は、階層動画像符号化装置側について示しており、(b)は、階層動画像復号装置側について示している。 本発明の実施形態に係る階層符号化データの構成を説明するための図であって、(a)は、シーケンスSEQを規定するシーケンスレイヤを示しており、(b)は、ピクチャPICTを規定するピクチャレイヤを示しており、(c)は、スライスSを規定するスライスレイヤを示しており、(d)は、符号化ツリーユニットCTUを規定するCTUレイヤを示しており、(e)は、符号化ツリーユニットCTUに含まれる符号化単位(Coding Unit;CU)を規定するCUレイヤを示している。 本発明の実施形態に係る階層符号化データにおけるピクチャとタイル・スライスの関係を説明する図であり、(a)はピクチャをタイル・スライスにより分割する場合の分割領域を例示しており、(b)は符号化データの構成におけるタイルとスライスの関係を例示している。 本実施形態に係る、階層動画像復号装置、階層動画像符号化装置、および、符号化データ変換装置を組み合わせて実現する階層動画像の伝送と再生を行うシステムを例示する図である。 上記階層動画像復号装置の概略的構成を示す機能ブロック図である。 上記階層動画像復号装置に含まれるベース復号部の構成を例示する機能ブロック図である。 ピクチャ内の部分領域である表示領域と表示領域位置情報の関係を例示する図である。 SPS復号時に参照されるシンタックス表の一部であって、レイヤ間画素対応情報に係る部分である。 対象レイヤのピクチャ、参照レイヤのピクチャ、および、レイヤ間画素対応オフセットの関係を例示する図であり、(a)は、参照レイヤのピクチャ全体が対象レイヤのピクチャの一部に対応する場合の例を示し、(b)は、参照レイヤのピクチャの一部が対象レイヤのピクチャ全体に対応する場合の例を示す。 SPS復号時に参照されるシンタックス表の一部であって、スケール補正情報に係る部分である。 実参照レイヤ対応領域と仮想参照レイヤ対応領域と拡大参照レイヤ追加オフセットの関係を例示する図である。 PPSの復号時に参照されるシンタックス表の一部であって、タイル情報に係る部分である。 ピクチャをタイル分割した場合のタイル行とタイル列を例示した図である。 上記階層動画像復号装置に含まれるスライス復号部の構成を例示する機能ブロック図である。 SPS復号時に参照されるシンタックス表の一部であって、スケール補正情報に係る部分の別の例を示す。 SPS復号時に参照されるシンタックス表の一部であって、スケール補正情報に係る部分の別の例を示す。 SPS復号時に参照されるシンタックス表の一部であって、スケール補正情報に係る部分の別の例を示す。 本発明の一実施形態に係る階層動画像符号化装置の概略的構成を示す機能ブロック図である。 上記階層動画像符号化装置に含まれるスライス符号化部の構成を例示する機能ブロック図である。 本発明の一実施形態に係る階層符号化データ変換装置の概略的構成を示した機能ブロック図である。 変換前後の階層符号化データにおけるピクチャ、注目領域、および、タイルの関係を例示した図である。 上記階層動画像復号装置、階層動画像符号化装置、及び、階層符号化データ変換装置の組み合わせにより実現する注目領域表示システムの構成を示したブロック図である。 上記階層動画像符号化装置を搭載した送信装置、および、上記階層動画像復号装置を搭載した受信装置の構成を示した図である。(a)は、階層動画像符号化装置を搭載した送信装置を示しており、(b)は、階層動画像復号装置を搭載した受信装置を示している。 上記階層動画像符号化装置を搭載した記録装置、および、上記階層動画像復号装置を搭載した再生装置の構成を示した図である。(a)は、階層動画像符号化装置を搭載した記録装置を示しており、(b)は、階層動画像復号装置を搭載した再生装置を示している。
 図1~図25に基づいて、本発明の一実施形態に係る階層動画像復号装置1、階層動画像符号化装置2、および符号化データ変換装置3を説明すれば以下のとおりである。
 〔概要〕
 本実施の形態に係る階層動画像復号装置(画像復号装置)1は、階層動画像符号化装置(画像符号化装置)2によって階層符号化された符号化データを復号する。階層符号化とは、動画像を低品質のものから高品質のものにかけて階層的に符号化する符号化方式のことである。階層符号化は、例えば、SVCやSHVCにおいて標準化されている。なお、ここでいう動画像の品質とは、主観的および客観的な動画像の見栄えに影響する要素のことを広く意味する。動画像の品質には、例えば、“解像度”、“フレームレート”、“画質”、および、“画素の表現精度”が含まれる。よって、以下、動画像の品質が異なるといえば、例示的には、“解像度”等が異なることを指すが、これに限られない。例えば、異なる量子化ステップで量子化された動画像の場合(すなわち、異なる符号化雑音により符号化された動画像の場合)も互いに動画像の品質が異なるといえる。
 階層符号化技術は、階層化される情報の種類の観点から、(1)空間スケーラビリティ、(2)時間スケーラビリティ、(3)SNR(Signal to Noise Ratio)スケーラビリティ、および(4)ビュースケーラビリティに分類されることもある。空間スケーラビリティとは、解像度や画像のサイズにおいて階層化する技術である。時間スケーラビリティとは、フレームレート(単位時間のフレーム数)において階層化する技術である。SNRスケーラビリティは、符号化雑音において階層化する技術である。また、ビュースケーラビリティは、各画像に対応付けられた視点位置において階層化する技術である。
 また、本実施形態に係る符号化データ変換装置3は、階層動画像符号化装置2によって階層符号化された符号化データを変換し、所定の注目領域に関する符号化データを(注目領域符号化データ)を生成する。注目領域符号化データは、本実施形態に係る階層動画像復号装置1で復号できる。
 本実施形態に係る階層動画像符号化装置2、階層動画像復号装置1、及び階層符号化データ変換装置3の詳細な説明に先立って、まず(1)階層動画像符号化装置2または階層符号化データ変換装置3によって生成され、階層動画像復号装置1によって復号される階層符号化データのレイヤ構造を説明し、次いで(2)各レイヤで採用できるデータ構造の具体例について説明を行う。
 〔階層符号化データのレイヤ構造〕
 ここで、図2を用いて、階層符号化データの符号化および復号について説明すると次のとおりである。図2は、動画像を、下位階層L3、中位階層L2、および上位階層L1の3階層により階層的に符号化/復号する場合について模式的に表す図である。つまり、図2(a)および(b)に示す例では、3階層のうち、上位階層L1が最上位層となり、下位階層L3が最下位層となる。
 以下において、階層符号化データから復号され得る特定の品質に対応する復号画像は、特定の階層の復号画像(または、特定の階層に対応する復号画像)と称される(例えば、上位階層L1の復号画像POUT#A)。
 図2(a)は、入力画像PIN#A~PIN#Cをそれぞれ階層的に符号化して符号化データDATA#A~DATA#Cを生成する階層動画像符号化装置2#A~2#Cを示している。図2(b)は、階層的に符号化された符号化データDATA#A~DATA#Cをそれぞれ復号して復号画像POUT#A~POUT#Cを生成する階層動画像復号装置1#A~1#Cを示している。
 まず、図2(a)を用いて、符号化装置側について説明する。符号化装置側の入力となる入力画像PIN#A、PIN#B、およびPIN#Cは、原画は同じだが、画像の品質(解像度、フレームレート、および画質等)が異なる。画像の品質は、入力画像PIN#A、PIN#B、およびPIN#Cの順に低くなる。
 下位階層L3の階層動画像符号化装置2#Cは、下位階層L3の入力画像PIN#Cを符号化して下位階層L3の符号化データDATA#Cを生成する。下位階層L3の復号画像POUT#Cを復号するのに必要な基本情報が含まれる(図2において“C”にて示している)。下位階層L3は、最下層の階層であるため、下位階層L3の符号化データDATA#Cは、基本符号化データとも称される。
 また、中位階層L2の階層動画像符号化装置2#Bは、中位階層L2の入力画像PIN#Bを、下位階層の符号化データDATA#Cを参照しながら符号化して中位階層L2の符号化データDATA#Bを生成する。中位階層L2の符号化データDATA#Bには、符号化データDATA#Cに含まれる基本情報“C”に加えて、中位階層の復号画像POUT#Bを復号するのに必要な付加的情報(図2において“B”にて示している)が含まれる。
 また、上位階層L1の階層動画像符号化装置2#Aは、上位階層L1の入力画像PIN#Aを、中位階層L2の符号化データDATA#Bを参照しながら符号化して上位階層L1の符号化データDATA#Aを生成する。上位階層L1の符号化データDATA#Aには、下位階層L3の復号画像POUT#Cを復号するのに必要な基本情報“C”および中位階層L2の復号画像POUT#Bを復号するのに必要な付加的情報“B”に加えて、上位階層の復号画像POUT#Aを復号するのに必要な付加的情報(図2において“A”にて示している)が含まれる。
 このように上位階層L1の符号化データDATA#Aは、異なる複数の品質の復号画像に関する情報を含む。
 次に、図2(b)を参照しながら復号装置側について説明する。復号装置側では、上位階層L1、中位階層L2、および下位階層L3それぞれの階層に応じた復号装置1#A、1#B、および1#Cが、符号化データDATA#A、DATA#B、およびDATA#Cを復号して復号画像POUT#A、POUT#B、およびPOUT#Cを出力する。
 なお、上位の階層符号化データの一部の情報を抽出して、より下位の特定の復号装置において、当該抽出した情報を復号することで特定の品質の動画像を再生することもできる。
 例えば、中位階層L2の階層復号装置1#Bは、上位階層L1の階層符号化データDATA#Aから、復号画像POUT#Bを復号するのに必要な情報(すなわち、階層符号化データDATA#Aに含まれる“B”および“C”)を抽出して、復号画像POUT#Bを復号してもよい。言い換えれば、復号装置側では、上位階層L1の階層符号化データDATA#Aに含まれる情報に基づいて、復号画像POUT#A、POUT#B、およびPOUT#Cを復号できる。
 なお、以上の3階層の階層符号化データに限られず、階層符号化データは、2階層で階層符号化されていてもよいし、3階層よりも多い階層数にて階層符号化されていてもよい。
 また、特定の階層の復号画像に関する符号化データの一部または全部を他の階層とは独立して符号化し、特定の階層の復号の際に、他の階層の情報を参照しなくても済むように階層符号化データを構成してもよい。例えば、図2(a)および(b)を用いて上述した例では、復号画像POUT#Bの復号に“C”および“B”を参照すると説明したが、これに限られない。復号画像POUT#Bが“B”だけを用いて復号できるように階層符号化データを構成することも可能である。例えば、復号画像POUT#Bの復号に、“B”だけから構成される階層符号化データと、復号画像POUT#Cを入力とする階層動画像復号装置も構成できる。
 なお、SNRスケーラビリティを実現する場合、入力画像PIN#A、PIN#B、およびPIN#Cとして同一の原画を用いた上で、復号画像POUT#A、POUT#B、およびPOUT#Cが異なる画質となるよう階層符号化データを生成することもできる。その場合、下位階層の階層動画像符号化装置が、上位階層の階層動画像符号化装置に較べて、より大きい量子化幅を用いて予測残差を量子化することで階層符号化データを生成する。
 本書では、説明の便宜上、次のとおり用語を定義する。以下の用語は、特に断りがなければ、下記の技術的事項のことを表わすのに用いる。
 上位レイヤ : ある階層よりも上位に位置する階層のことを、上位レイヤと称する。例えば、図2において、下位階層L3の上位レイヤは、中位階層L2および上位階層L1である。また、上位レイヤの復号画像とは、より品質の高い(例えば、解像度が高い、フレームレートが高い、画質が高い等)復号画像のことをいう。
 下位レイヤ : ある階層よりも下位に位置する階層のことを、下位レイヤと称する。例えば、図2において、上位階層L1の下位レイヤは、中位階層L2および下位階層L3である。また、下位レイヤの復号画像とは、より品質の低い復号画像のことをいう。
 対象レイヤ : 復号または符号化の対象となっている階層のことをいう。なお、対象レイヤに対応する復号画像を対象レイヤピクチャと呼ぶ。また、対象レイヤピクチャを構成する画素を対象レイヤ画素と呼ぶ。
 参照レイヤ(reference layer) : 対象レイヤに対応する復号画像を復号するのに参照される特定の下位レイヤのことを参照レイヤと称する。なお、参照レイヤに対応する復号画像を参照レイヤピクチャと呼ぶ。また、参照レイヤを構成する画素を参照レイヤ画素と呼ぶ。
 図2(a)および(b)に示した例では、上位階層L1の参照レイヤは、中位階層L2および下位階層L3である。しかしながら、これに限られず、特定の上記レイヤの復号において、下位レイヤのすべてを参照しなくてもよいように階層符号化データを構成することもできる。例えば、上位階層L1の参照レイヤが、中位階層L2および下位階層L3のいずれか一方となるように階層符号化データを構成することも可能である。
 基本レイヤ(base layer;ベースレイヤ) : 最下層に位置する階層のことを基本レイヤと称する。基本レイヤの復号画像は、符号化データから復号され得るもっとも低い品質の復号画像であり、基本復号画像と呼称される。別の言い方をすれば、基本復号画像は、最下層の階層に対応する復号画像のことである。基本復号画像の復号に必要な階層符号化データの部分符号化データは基本符号化データと呼称される。例えば、上位階層L1の階層符号化データDATA#Aに含まれる基本情報“C”が基本符号化データである。
 拡張レイヤ : 基本レイヤの上位レイヤは、拡張レイヤと称される。
 レイヤ識別子 : レイヤ識別子は、階層を識別するためのものであり、階層と1対1に対応する。階層符号化データには特定の階層の復号画像の復号に必要な部分符号化データを選択するために用いられる階層識別子が含まれる。特定のレイヤに対応するレイヤ識別子に関連付けられた階層符号化データの部分集合は、レイヤ表現とも呼称される。
 一般に、特定の階層の復号画像の復号には、当該階層のレイヤ表現、および/または、当該階層の下位レイヤに対応するレイヤ表現が用いられる。すなわち、対象レイヤの復号画像の復号においては、対象レイヤのレイヤ表現、および/または、対象レイヤの下位レイヤに含まれる1つ以上階層のレイヤ表現が用いられる。
 レイヤ間予測 : レイヤ間予測とは、対象レイヤのレイヤ表現と異なる階層(参照レイヤ)のレイヤ表現に含まれるシンタックス要素値、シンタックス要素値より導出される値、および復号画像に基づいて、対象レイヤのシンタックス要素値や対象レイヤの復号に用いられる符号化パラメータ等を予測することである。動き予測に関する情報を参照レイヤの情報から予測するレイヤ間予測のことを動き情報予測と称することもある。また、下位レイヤの復号画像から予測するレイヤ間予測のことをレイヤ間画像予測(あるいはレイヤ間テクスチャ予測)と称することもある。なお、レイヤ間予測に用いられる階層は、例示的には、対象レイヤの下位レイヤである。また、参照レイヤを用いず対象レイヤ内で予測を行うことをレイヤ内予測と称することもある。
 なお、以上の用語は、飽くまで説明の便宜上のものであり、上記の技術的事項を別の用語にて表現してもかまわない。
 〔階層符号化データのデータ構造について〕
 以下、各階層の符号化データを生成する符号化方式として、HEVCおよびその拡張方式を用いる場合について例示する。しかしながら、これに限られず、各階層の符号化データを、MPEG-2や、H.264/AVCなどの符号化方式により生成してもよい。
 また、下位レイヤと上位レイヤとが異なる符号化方式によって符号化されていてもよい。また、各階層の符号化データは、互いに異なる伝送路を介して階層動画像復号装置1に供給されてもよいし、同一の伝送路を介して階層動画像復号装置1に供給されてもよい。
 例えば、超高精細映像(動画像、4K映像データ)を基本レイヤおよび1つの拡張レイヤによりスケーラブル符号化して伝送する場合、基本レイヤは、4K映像データをダウンスケーリングし、インタレース化した映像データをMPEG-2またはH.264/AVCにより符号化してテレビ放送網で伝送し、拡張レイヤは、4K映像(プログレッシブ)をHEVCにより符号化して、インターネットで伝送してもよい。
 (基本レイヤ)
 図3は、基本レイヤにおいて採用できる符号化データ(図2の例でいえば、階層符号化データDATA#C)のデータ構造を例示する図である。階層符号化データDATA#Cは、例示的に、シーケンス、およびシーケンスを構成する複数のピクチャを含む。
 階層符号化データDATA#Cにおけるデータの階層構造を図3に示す。図3の(a)~(e)は、それぞれ、シーケンスSEQを規定するシーケンスレイヤ、ピクチャPICTを規定するピクチャレイヤ、スライスSを規定するスライスレイヤ、符号化ツリーユニット(Coding Tree Unit;CTU)を規定するCTUレイヤ、符号化ツリーユニットCTUに含まれる符号化単位(Coding Unit;CU)を規定するCUレイヤを示す図である。
  (シーケンスレイヤ)
 シーケンスレイヤでは、処理対象のシーケンスSEQ(以下、対象シーケンスとも称する)を復号するために階層動画像復号装置1が参照するデータの集合が規定されている。シーケンスSEQは、図3の(a)に示すように、ビデオパラメータセットVPS(Video Parameter Set)、シーケンスパラメータセットSPS(Sequence Parameter Set)、ピクチャパラメータセットPPS(Picture Parameter Set)、ピクチャPICT~PICTNP(NPはシーケンスSEQに含まれるピクチャの総数)、及び、付加拡張情報SEI(Supplemental Enhancement Information)を含んでいる。
 ビデオパラメータセットVPSでは、符号化データに含まれるレイヤ数、レイヤ間の依存関係が規定されている。
 シーケンスパラメータセットSPSでは、対象シーケンスを復号するために階層動画像復号装置1が参照する符号化パラメータの集合が規定されている。SPSは符号化データ内に複数存在してもよい。その場合、対象シーケンス毎に復号に用いられるSPSが複数の候補から選択される。特定シーケンスの復号に使用されるSPSは、アクティブSPSとも呼ばれる。以下では、特に断りがなければ、対象シーケンスに対するアクティブSPSを意味する。
 ピクチャパラメータセットPPSでは、対象シーケンス内の各ピクチャを復号するために階層動画像復号装置1が参照する符号化パラメータの集合が規定されている。なお、PPSは符号化データ内に複数存在してもよい。その場合、対象シーケンス内の各ピクチャから複数のPPSの何れかを選択する。特定ピクチャの復号に使用されるPPSはアクティブPPSとも呼ばれる。以下では、特に断りがなければ、PPSは対象ピクチャに対するアクティブPPSを意味する。なお、アクティブSPSおよびアクティブPPSは、レイヤ毎に異なるSPSやPPSに設定してもよい。
  (ピクチャレイヤ)
 ピクチャレイヤでは、処理対象のピクチャPICT(以下、対象ピクチャとも称する)を復号するために階層動画像復号装置1が参照するデータの集合が規定されている。ピクチャPICTは、図3の(b)に示すように、スライスヘッダSH1~SHNS、及び、スライスS1~SNSを含んでいる(NSはピクチャPICTに含まれるスライスの総数)。
 なお、以下、スライスヘッダSH1~SHNSやスライスS1~SNSのそれぞれを区別する必要が無い場合、符号の添え字を省略して記述することがある。また、以下に説明する階層符号化データDATA#Cに含まれるデータであって、添え字を付している他のデータも同様である。
 スライスヘッダSHkには、対応するスライスSkの復号方法を決定するために階層動画像復号装置1が参照する符号化パラメータ群が含まれている。例えば、SPSを指定するSPS識別子(seq_parameter_set_id)や、PPSを指定するPPS識別子(pic_parameter_set_id)が含まれる。また、スライスタイプを指定するスライスタイプ指定情報(slice_type)は、スライスヘッダSHに含まれる符号化パラメータの一例である。
 スライスタイプ指定情報により指定可能なスライスタイプとしては、(1)符号化の際にイントラ予測のみを用いるIスライス、(2)符号化の際に単方向予測、又は、イントラ予測を用いるPスライス、(3)符号化の際に単方向予測、双方向予測、又は、イントラ予測を用いるBスライスなどが挙げられる。
  (スライスレイヤ)
 スライスレイヤでは、処理対象のスライスS(対象スライスとも称する)を復号するために階層動画像復号装置1が参照するデータの集合が規定されている。スライスSは、図3の(c)に示すように、符号化ツリーユニットCTU1~CTUNC(NCはスライスSに含まれるCTUの総数)を含んでいる。
  (CTUレイヤ)
 CTUレイヤでは、処理対象の符号化ツリーユニットCTU(以下、対象CTUとも称する)を復号するために階層動画像復号装置1が参照するデータの集合が規定されている。なお、符号化ツリーユニットのことを符号化ツリーブロック(CTB: Coding Tree block)、または、最大符号化単位(LCU:Largest Cording Unit)と呼ぶこともある。
 符号化ツリーユニットCTUは、CTUヘッダCTUHと、符号化単位情報CU~CUNL(NLはCTUに含まれる符号化単位情報の総数)とを含む。ここで、まず、符号化ツリーユニットCTUと、符号化単位情報CUとの関係について説明すると次のとおりである。
 符号化ツリーユニットCTUは、イントラ予測またはインター予測、および、変換の各処理ためのブロックサイズを特定するための単位に分割される。
 符号化ツリーユニットCTUの上記単位は、再帰的な4分木分割により分割されている。この再帰的な4分木分割により得られる木構造のことを以下、符号化ツリー(coding tree)と称する。
 以下、符号化ツリーの末端のノードであるリーフ(leaf)に対応する単位を、符号化ノード(coding node)として参照する。また、符号化ノードは、符号化処理の基本的な単位となるため、以下、符号化ノードのことを、符号化単位(CU)とも称する。
 つまり、符号化単位情報(以下、CU情報と称する)CU~CUNLは、符号化ツリーユニットCTUを再帰的に4分木分割して得られる各符号化ノード(符号化単位)に対応する情報である。
 また、符号化ツリーのルート(root)は、符号化ツリーユニットCTUに対応付けられる。換言すれば、符号化ツリーユニットCTUは、複数の符号化ノードを再帰的に含む4分木分割の木構造の最上位ノードに対応付けられる。
 なお、各符号化ノードのサイズは、当該符号化ノードの親ノードとなる符号化ノード(すなわち、当該符号化ノードの1階層上位のノード)のサイズの縦横とも半分である。
 また、符号化ツリーユニットCTUのサイズ、および、各符号化ユニットのとり得るサイズは、シーケンスパラメータセットSPSに含まれる、最小符号化ノードのサイズ指定情報、および最大符号化ノードと最小符号化ノードの階層深度の差分に依存する。例えば、最小符号化ノードのサイズが8×8画素であって、最大符号化ノードと最小符号化ノードの階層深度の差分が3である場合、符号化ツリーユニットCTUのサイズが64×64画素であって、符号化ノードのサイズは、4種類のサイズ、すなわち、64×64画素、32×32画素、16×16画素、および、8×8画素の何れかをとり得る。
  (CTUヘッダ)
 CTUヘッダCTUHには、対象CTUの復号方法を決定するために階層動画像復号装置1が参照する符号化パラメータが含まれる。具体的には、図3の(d)に示すように、対象CTUの各CUへの分割パターンを指定するCTU分割情報SP_CTU、および、量子化ステップの大きさを指定する量子化パラメータ差分Δqp(qp_delta)が含まれる。
 CTU分割情報SP_CTUは、CTUを分割するための符号化ツリーを表す情報であり、具体的には、対象CTUに含まれる各CUの形状、サイズ、および、対象CTU内での位置を指定する情報である。
 なお、CTU分割情報SP_CTUは、CUの形状やサイズを明示的に含んでいなくてもよい。例えばCTU分割情報SP_CTUは、対象CTU全体またはCTUの部分領域を四分割するか否かを示すフラグの集合であってもよい。その場合、CTUの形状やサイズを併用することで各CUの形状やサイズを特定できる。
  (CUレイヤ)
 CUレイヤでは、処理対象のCU(以下、対象CUとも称する)を復号するために階層動画像復号装置1が参照するデータの集合が規定されている。
 ここで、CU情報CUに含まれるデータの具体的な内容の説明をする前に、CUに含まれるデータの木構造について説明する。符号化ノードは、予測ツリー(prediction tree;PT)および変換ツリー(transform tree;TT)のルートのノードとなる。予測ツリーおよび変換ツリーについて説明すると次のとおりである。
 予測ツリーにおいては、符号化ノードが1または複数の予測ブロックに分割され、各予測ブロックの位置とサイズとが規定される。換言すれば、予測ブロックは、符号化ノードを構成する1または複数の重複しない領域である。また、予測ツリーは、上述の分割により得られた1または複数の予測ブロックを含む。
 予測処理は、この予測ブロックごとに行われる。以下、予測の単位である予測ブロックのことを、予測単位(prediction unit;PU)とも称する。
 予測ツリーにおける分割(以下、PU分割と略称する)の種類は、大まかにいえば、イントラ予測の場合と、インター予測の場合との2つがある。
 イントラ予測の場合、分割方法は、2N×2N(符号化ノードと同一サイズ)と、N×Nとがある。また、インター予測の場合、分割方法は、2N×2N(符号化ノードと同一サイズ)、2N×N、2N×nU、2N×nD、N×2N、nL×2N、および、nR×2Nなどがある。
 また、変換ツリーにおいては、符号化ノードが1または複数の変換ブロックに分割され、各変換ブロックの位置とサイズとが規定される。換言すれば、変換ブロックは、符号化ノードを構成する1または複数の重複しない領域のことである。また、変換ツリーは、上述の分割より得られた1または複数の変換ブロックを含む。
 変換ツリーにおける分割には、符号化ノードと同一のサイズの領域を変換ブロックとして割り付けるものと、上述したツリーブロックの分割と同様、再帰的な4分木分割によるものがある。
 変換処理は、この変換ブロックごとに行われる。以下、変換の単位である変換ブロックのことを、変換単位(transform unit;TU)とも称する。
  (CU情報のデータ構造)
 続いて、図3(e)を参照しながらCU情報CUに含まれるデータの具体的な内容を説明する。図3(e)に示すように、CU情報CUは、具体的には、スキップフラグSKIP、予測ツリー情報(以下、PT情報と略称する)PTI、および、変換ツリー情報(以下、TT情報と略称する)TTIを含む。
 スキップフラグSKIPは、対象のPUについて、スキップモードが適用されているか否かを示すフラグであり、スキップフラグSKIPの値が1の場合、すなわち、対象CUにスキップモードが適用されている場合、そのCU情報CUにおけるPT情報PTIの一部、および、TT情報TTIは省略される。なお、スキップフラグSKIPは、Iスライスでは省略される。
  [PT情報]
 PT情報PTIは、CUに含まれる予測ツリー(以下、PTと略称する)に関する情報である。言い換えれば、PT情報PTIは、PTに含まれる1または複数のPUそれぞれに関する情報の集合であり、階層動画像復号装置1により予測画像を生成する際に参照される。PT情報PTIは、図3(e)に示すように、予測タイプ情報PType、および、予測情報PInfoを含んでいる。
 予測タイプ情報PTypeは、対象PUについての予測画像生成方法を指定する情報である。ベースレイヤにおいては、イントラ予測を用いるのか、または、インター予測を用いるのかを指定する情報である。
 予測情報PInfoは、予測タイプ情報PTypeで指定される予測方法において用いられる予測情報である。ベースレイヤにおいては、イントラ予測の場合にイントラ予測情報PP_Intraが含まれる。また、インター予測の場合にはインター予測情報PP_Interを含む。
 インター予測情報PP_Interは、階層動画像復号装置1が、インター予測によってインター予測画像を生成する際に参照される予測情報を含む。より具体的には、インター予測情報PP_Interは、対象CUの各インターPUへの分割パターンを指定するインターPU分割情報、および、各インターPUについてのインター予測パラメータ(動き補償パラメータ)を含む。インター予測パラメータとしては、例えば、マージフラグ(merge_flag)、マージインデックス(merge_idx)、推定動きベクトルインデックス(mvp_idx)、参照ピクチャインデックス(ref_idx)、インター予測フラグ(inter_pred_flag)、および動きベクトル残差(mvd)を含む。
 イントラ予測情報PP_Intraは、階層動画像復号装置1が、イントラ予測によってイントラ予測画像を生成する際に参照される符号化パラメータを含む。より具体的には、イントラ予測情報PP_Intraには、対象CUの各イントラPUへの分割パターンを指定するイントラPU分割情報、および、各イントラPUについてのイントラ予測パラメータが含まれる。イントラ予測パラメータは、各イントラPUについてのイントラ予測方法(予測モード)を指定するためのパラメータである。
  [TT情報]
 TT情報TTIは、CUに含まれる変換ツリー(以下、TTと略称する)に関する情報である。言い換えれば、TT情報TTIは、TTに含まれる1または複数の変換ブロックそれぞれに関する情報の集合であり、階層動画像復号装置1により残差データを復号する際に参照される。
 TT情報TTIは、図3(e)に示すように、対象CUの各変換ブロックへの分割パターンを指定するTT分割情報SP_TT、および、量子化予測残差QD1~QDNT(NTは、対象CUに含まれるブロックの総数)を含んでいる。
 TT分割情報SP_TTは、具体的には、対象CUに含まれる各変換ブロックの形状、および、対象CU内での位置を決定するための情報である。例えば、TT分割情報SP_TTは、対象ノードの分割を行うのか否かを示す情報(split_transform_unit_flag)と、その分割の深度を示す情報(trafoDepth)とから実現できる。
 また、例えば、CUサイズが、64×64の場合、分割により得られる各変換ブロックは、32×32画素から4×4画素までのサイズをとり得る。
 各量子化予測残差QDは、階層動画像符号化装置2が以下の処理1~3を、処理対象の変換ブロックである対象ブロックに施すことによって生成した符号化データである。
 処理1:符号化対象画像から予測画像を減算した予測残差を周波数変換(例えば、DCT変換(Discrete Cosine Transform)およびDST変換(Discrete Sine Transform)等)する;
 処理2:処理1にて得られた変換係数を量子化する;
 処理3:処理2にて量子化された変換係数を可変長符号化する;
 なお、上述した量子化パラメータqpは、階層動画像符号化装置2が変換係数を量子化する際に用いた量子化ステップQPの大きさを表す(QP=2qp/6)。
  (PU分割情報)
 PU分割情報によって指定されるPU分割タイプには、対象CUのサイズを2N×2N画素とすると、次の合計8種類のパターンがある。すなわち、2N×2N画素、2N×N画素、N×2N画素、およびN×N画素の4つの対称的分割(symmetric splittings)、並びに、2N×nU画素、2N×nD画素、nL×2N画素、およびnR×2N画素の4つの非対称的分割(asymmetric splittings)である。なお、N=2(mは1以上の任意の整数)を意味している。以下、対象CUを分割して得られる予測単位のことを予測ブロック、または、パーティションと称する。
 (拡張レイヤ)
 拡張レイヤのレイヤ表現に含まれる符号化データ(以下、拡張レイヤ符号化データ)についても、例えば、図3に示すデータ構造とほぼ同様のデータ構造を採用できる。ただし、拡張レイヤ符号化データでは、以下のとおり、付加的な情報を追加したり、パラメータを省略できる。
 スライスレイヤでは、空間スケーラビリティ、時間スケーラビリティ、および、SNRスケーラビリティ、ビュースケーラビリティの階層の識別情報(それぞれ、dependency_id、temporal_id、quality_id、および、view_id)が符号化されていてもよい。
 また、CU情報CUに含まれる予測タイプ情報PTypeは、対象CUについての予測画像生成方法がイントラ予測、インター予測、または、レイヤ間画像予測のいずれかを指定する情報である。予測タイプ情報PTypeには、レイヤ間画像予測モードの適用有無を指定するフラグ(レイヤ間画像予測フラグ)を含む。なお、レイヤ間画像予測フラグは、texture_rl_flag、inter_layer_pred_flag、または、base_mode_flagと呼ばれることもある。
 拡張レイヤにおいて、対象CUのCUタイプが、イントラCU、レイヤ間CU、インターCU、スキップCUのいずれであるかが指定されていてもよい。
 イントラCUは、ベースレイヤにおけるイントラCUと同様に定義できる。イントラCUでは、レイヤ間画像予測フラグが“0”に、予測モードフラグが“0”に設定される。
 レイヤ間CUは、参照レイヤのピクチャの復号画像を予測画像生成に用いるCUと定義できる。レイヤ間CUでは、レイヤ間画像予測フラグが“1”に、予測モードフラグが“0”に設定される。
 スキップCUは、上述のHEVC方式の場合と同様に定義できる。例えば、スキップCUでは、スキップフラグに“1”が設定される。
 インターCUは、非スキップかつ動き補償(MC;Motion Compensation)を適用するCUと定義されていてもよい。インターCUでは、例えば、スキップフラグに“0”が設定され、予測モードフラグに“1”が設定される。
 また、上述のとおり拡張レイヤの符号化データを、下位レイヤの符号化方式と異なる符号化方式により生成しても構わない。すなわち、拡張レイヤの符号化・復号処理は、下位レイヤのコーデックの種類に依存しない。
 下位レイヤが、例えば、MPEG-2や、H.264/AVC方式によって符号化されていてもよい。
 拡張レイヤ符号化データでは、VPSが拡張されて、レイヤ間の参照構造を表すパラメータが含まれていてもよい。
 また、拡張レイヤ符号化データでは、SPS、PPS、スライスヘッダが拡張されて、レイヤ間画像予測に用いる参照レイヤの復号画像に係る情報(例えば、後述のレイヤ間参照ピクチャセット、レイヤ間参照ピクチャリスト、ベース制御情報等を直接、または、間接的に導出するためのシンタックス)が含まれていてもよい。
 なお、以上に説明したパラメータは、単独で符号化されていてもよいし、複数のパラメータが複合的に符号化されていてもよい。複数のパラメータが複合的に符号化される場合は、そのパラメータの値の組み合わせに対してインデックスが割り当てられ、割り当てられた当該インデックスが符号化される。また、パラメータが、別のパラメータや、復号済みの情報から導出可能であれば、当該パラメータの符号化を省略できる。
 〔ピクチャ、タイル、スライスの関係〕
 次に、本発明に係る重要な概念であるピクチャ、タイル、スライスについて、相互の関係および符号化データとの関係を図4を参照して説明する。図4は、階層符号化データにおけるピクチャとタイル・スライスの関係を説明する図である。タイルは、ピクチャ内の矩形の部分領域、および、該部分領域に係る符号化データに対応付けられる。スライスはピクチャ内の部分領域、および、該部分領域に係る符号化データ、すなわち、該部分領域に係るスライスヘッダおよびスライスデータに対応付けられる。
 図4(a)はピクチャをタイル・スライスにより分割する場合の分割領域を例示している。図4(a)では、ピクチャは矩形の6個のタイル(T00、T01、T02、T10、T11、T12)に分割されている。タイルT00、タイルT02、タイルT10、タイルT12は、それぞれ1個のスライス(順にスライスS00、スライスS02、スライスS10、スライスS12)を含む。一方、タイルT01は2個のスライス(スライスS01aとスライスS01b)を含み、タイルT11は2個のスライス(スライスS11aとスライスS11b)を含んでいる。
 図4(b)は符号化データの構成におけるタイルとスライスの関係を例示している。まず、符号化データは、複数のVCL(Video Coding Layer;ビデオ符号化レイヤ)NALユニットと非VCL(non-VCL)NALユニットから構成される。1枚のピクチャの相当するビデオ符号化レイヤの符号化データは、複数のVCL NALから構成される。ピクチャがタイルに分割される場合、ピクチャに相当する符号化データには、タイルのラスタ順にタイルに相当する符号化データが含まれている。すなわち、図4(a)で示したようにピクチャがタイルに分割される場合、タイルT00、T01、T02、T10、T11、T12の順にタイルに相当する符号化データが含まれる。タイルが複数のスライスに分割される場合、スライス先頭のCTUが、タイル内でのCTUラスタスキャン順で先に位置するスライスから順に、スライスに相当する符号化データがタイルに相当する符号化データに含まれる。例えば、図4(a)で示したようにタイルT01がスライスS01aとS01bを含む場合、スライスS01a、スライスS01bの順にスライスに相当する符号化データがタイルT01に相当する符号化データに順に含まれる。
 以上の説明から分かるように、ピクチャ内の特定のタイルに相当する符号化データには、1以上のスライスに対応する符号化データが関連付けられている。そのため、タイルに関連付けられるスライスの復号画像を生成できれば、該タイルに対応するピクチャ内の部分領域の復号画像を生成できる。
 以下では、特に追加の説明がなければ、上記のようなピクチャ、タイル、スライスと符号化データの関係を前提として説明を行う。
 〔復号装置、符号化装置、および変換装置を組み合わせたシステム〕
 本実施形態に係る階層動画像復号装置1、階層動画像符号化装置2、および、符号化データ変換装置3の説明に先立って、階層動画像復号装置1、階層動画像符号化装置2、および、符号化データ変換装置3を組み合わせて実現できるシステムの例を図5を参照して説明しておく。図5は、階層動画像復号装置1、階層動画像符号化装置2、および、符号化データ変換装置3を組み合わせて実現できる階層動画像の伝送と再生を行うシステムSYS_ROI1を例示している。
 システムSYS_ROI1は、入力される低品質の入力画像PIN#Lと高品質の入力画像PIN#Hを階層動画像符号化装置2#Lと階層動画像符号化装置2#Hで階層符号化して階層符号化データBSALLを生成する。
 階層符号化データBSALLは、上位レイヤ(拡張レイヤ)の階層符号化データとして、高品質の入力画像PIN#Hの全体に対応する符号化データを含んでいる。また、階層符号化データBSALLは、下位レイヤ(ベースレイヤ)の階層符号化データとして、低品質の入力画像PIN#Lの全体に対応する符号化データを含んでいる。階層符号化データBSALLが階層動画像復号装置1#Aに入力される場合、高品質の再生画像DOUT#Hと低品質の再生画像DOUT#Lが出力される。
 階層符号化データBSALLが符号化データ変換装置3に入力された場合、入力される注目領域ROIに基づいて、階層符号化データBSROIが生成される。階層符号化データBSROIは、上位レイヤ(拡張レイヤ)の階層符号化データとして、高品質の入力画像PIN#Hの注目領域ROIに相当する部分の符号化データを含んでいる。また、階層符号化データBSROIは、下位レイヤ(ベースレイヤ)の階層符号化データとして、低品質の入力画像PIN#Lの全体に対応する符号化データを含んでいる。階層符号化データBSROIを階層動画像復号装置1#Rに入力した場合、高品質の入力画像PIN#Hに対応し、かつ、注目領域ROIに対応する復号画像DROI#Hが出力される。加えて、低品質の入力画像PIN#Lに対応する復号画像DOUT#Lが出力される。
 以下の階層動画像復号装置1、階層動画像符号化装置2、および、符号化データ変換装置3の説明においては、上記システムSYS_ROI1での利用を想定して説明を行う場合があるが、必ずしも各装置の用途は上記システムSYS_ROI1に限定されない。
 〔階層動画像復号装置〕
 以下では、本実施形態に係る階層動画像復号装置1の構成について、図1~図15を参照して説明する。
 (階層動画像復号装置の構成)
 図6を用いて、階層動画像復号装置1の概略的構成を説明すると次のとおりである。図6は、階層動画像復号装置1の概略的構成を示した機能ブロック図である。階層動画像復号装置1は、階層符号化データDATA(階層動画像符号化装置2から提供される階層符号化データDATAF、または、符号化データ変換装置3から提供される階層符号化データDATAR)を復号して、対象レイヤの復号画像POUT#Tを生成する。なお、以下では、対象レイヤは基本レイヤを参照レイヤとする拡張レイヤであるとして説明する。そのため、対象レイヤは、参照レイヤに対する上位レイヤでもある。逆に、参照レイヤは、対象レイヤに対する下位レイヤでもある。
 図6に示すように階層動画像復号装置1は、NAL逆多重化部11、パラメータセット復号部12、タイル設定部13、スライス復号部14、ベース復号部15、復号ピクチャ管理部16を含む。
 NAL逆多重化部11は、NAL(Network Abstraction Layer)におけるNALユニット単位で伝送される階層符号化データDATAを逆多重化する。
 NALは、VCL(Video Coding Layer)と、符号化データを伝送・蓄積する下位システムとの間における通信を抽象化するために設けられる層である。
 VCLは、動画像符号化処理を行う層のことであり、VCLにおいて符号化が行われる。一方、ここでいう、下位システムは、H.264/AVCおよびHEVCのファイルフォーマットや、MPEG-2システムに対応する。
 なお、NALでは、VCLで生成されたビットストリームが、NALユニットという単位で区切られて、宛先となる下位システムへ伝送される。NALユニットには、VCLで符号化された符号化データ、および、当該符号化データが宛先の下位システムに適切に届けられるためのヘッダが含まれる。また、各階層における符号化データは、NALユニット格納されることでNAL多重化されて階層動画像復号装置1に伝送される。
 階層符号化データDATAには、VCLにより生成されたNALの他に、パラメータセット(VPS、SPS、PPS)やSEI等を含むNALが含まれる。それらのNALはVCL NALに対して非VCL NALと呼ばれる。
 NAL逆多重化部11は、階層符号化データDATAを逆多重化して、対象レイヤ符号化データDATA#Tおよび参照レイヤ符号化データDATA#Rを取り出す。また、NAL逆多重化部11は、対象レイヤ符号化データDATA#Tに含まれるNALのうち、非VCL NALをパラメータセット復号部12に、VCL NALをスライス復号部14にそれぞれ供給する。
 パラメータセット復号部12は、入力される非VCL NALからパラメータセット、すなわち、VPS、SPS、および、PPSを復号してタイル設定部13とスライス復号部14に供給する。なお、パラメータセット復号部12における本発明との関連性の高い処理の詳細について後述する。
 タイル設定部13は、入力されるパラメータセットに基づいてピクチャのタイル情報を導出してスライス復号部14に供給する。タイル情報は、少なくともピクチャのタイル分割情報を含む。タイル設定部13の詳細な説明は後述する。
 スライス復号部14は、入力されるVCL NAL、パラメータセット、タイル情報、および、参照ピクチャに基づいて復号ピクチャ、または、復号ピクチャの部分領域を生成して復号ピクチャ管理部16内のバッファに記録する。スライス復号部の詳細な説明は後述する。
 復号ピクチャ管理部16は、入力される復号ピクチャやベース復号ピクチャを内部の復号ピクチャバッファ(DPB: Decoded Picture Buffer)に記録するとともに、参照ピクチャリスト生成や出力ピクチャ決定を行う。また、復号ピクチャ管理部16は、DPBに記録されている復号ピクチャを、所定のタイミングで出力ピクチャPOUT#Tとして外部に出力する。
 ベース復号部15は、参照レイヤ符号化データDATA#Rからベース復号ピクチャを復号する。ベース復号ピクチャは、対象レイヤの復号ピクチャ復号時に利用される参照レイヤの復号ピクチャである。ベース復号部15は、復号したベース復号ピクチャを復号ピクチャ管理部16内のDPBに記録する。
 図7を用いて、ベース復号部15の詳細構成を説明する。図7は、ベース復号部15の構成について例示した機能ブロック図である。
 図7に示すように、ベース復号部15は、ベースNAL逆多重化部151、ベースパラメータセット復号部152、ベースタイル設定部153、ベーススライス復号部154、ベース復号ピクチャ管理部156を備える。
 ベースNAL逆多重化部151は、参照レイヤ符号化データDATA#Rを逆多重化して、VCL NALと非VCL NALを抽出し、非VCL NALをベースパラメータセット復号部152に、VCL NALをベーススライス復号部154にそれぞれ供給する。
 ベースパラメータセット復号部152は、入力される非VCL NALからパラメータセット、すなわち、VPS、SPS、および、PPSを復号してベースタイル設定部153とベーススライス復号部154に供給する。
 ベーススタイル設定部153は、入力されるパラメータセットに基づいてピクチャのタイル情報を導出してベーススライス復号部154に供給する。
 ベーススライス復号部154は、入力されるVCL NAL、パラメータセット、タイル情報、および、参照ピクチャに基づいて復号ピクチャ、または、復号ピクチャの部分領域を生成してベース復号ピクチャ管理部156内のバッファに記録する。
 ベース復号ピクチャ管理部156は、入力される復号ピクチャを内部のDPBに記録するとともに、参照ピクチャリスト生成や出力ピクチャ決定を行う。また、ベース復号ピクチャ管理部156は、DPBに記録されている復号ピクチャを、所定のタイミングでベース復号ピクチャとして出力する。
 (パラメータセット復号部12)
 パラメータセット復号部12は、入力される対象レイヤの符号化データから、対象レイヤの復号に用いられるパラメータセット(VPS、SPS、PPS)を復号して出力する。一般に、パラメータセットの復号は既定のシンタックス表に基づいて実行される。すなわち、シンタックス表の定める手順に従って符号化データからビット列を読み出して、シンタックス表に含まれるシンタックスのシンタックス値を復号する。また、必要に応じて、復号したシンタックス値に基づいて導出した変数を導出して、出力するパラメータセットに含めてもよい。したがって、パラメータセット復号部12から出力されるパラメータセットは、符号化データに含まれるパラメータセット(VPS、SPS、PPS)に係るシンタックスのシンタックス値、および、該シンタックス値より導出される変数の集合と表現することもできる。
 以下では、パラメータセット復号部12において復号に使用されるシンタックス表のうち、本発明との関連性が高い、ピクチャ情報、および、レイヤ間位置対応情報に係るシンタックス表の一部について詳しく説明する。
  (ピクチャ情報)
 パラメータセット復号部12は、入力される対象レイヤ符号化データからピクチャ情報を復号する。ピクチャ情報は、概略的には、対象レイヤの復号ピクチャのサイズを定める情報である。例えば、ピクチャ情報は、対象レイヤの復号ピクチャの幅や高さを表わす情報を含んでいる。
 ピクチャ情報は、例えば、SPSに含まれている。SPSから復号されるピクチャ情報には、復号ピクチャの幅(pic_width_in_luma_samples)と復号ピクチャの高さ(pic_height_in_luma_samples)が含まれている。シンタックスpic_width_in_luma_samplesの値は、輝度画素単位での復号ピクチャの幅に対応する。また、シンタックスpic_height_in_luma_samplesの値は、輝度画素単位での復号ピクチャの高さに対応する。
  (表示領域情報)
 パラメータセット復号部12は、入力される対象レイヤ符号化データから表示領域情報を復号する。表示領域情報は、例えば、SPSに含まれている。SPSから復号される表示領域情報は、表示領域フラグ(conformance_flag)を含む。表示領域フラグは表示領域の位置を表わす情報(表示領域位置情報)が追加でSPSに含まれるか否かを示す。すなわち、表示領域フラグが1の場合、表示領域位置情報が追加で含まれることを示し、表示領域フラグが0の場合、表示領域位置情報が追加で含まれないことを示す。
 SPSから復号される表示領域情報は、表示領域フラグが1の場合、さらに表示領域位置情報として表示領域左オフセット(conf_win_left_offset)、表示領域右オフセット(conf_win_right_offset)、表示領域上オフセット(conf_win_top_offset)、表示領域下オフセット(conf_win_bottom_offset)を含む。
 表示領域は、表示領域フラグが0の場合には、ピクチャ全体が設定される。一方、表示領域フラグが1の場合には、表示領域位置情報が示すピクチャ内の部分領域が設定される。なお、表示領域は、コンフォーマンス窓(conformance window)とも呼称される。
 図8を参照して表示領域位置情報と表示領域の関係を説明する。図8は、ピクチャ内の部分領域である表示領域と表示領域位置情報の関係を例示する図である。図に示したように、表示領域はピクチャ内に包含されており、表示領域上オフセットはピクチャ上辺と表示領域上辺の距離、表示領域左オフセットはピクチャ左辺と表示領域左辺の距離、表示領域右オフセットはピクチャ右辺と表示領域右辺の距離、表示領域下オフセットはピクチャ下辺と表示領域下辺の距離をそれぞれ表わしている。したがって、上記の表示領域位置情報により、表示領域のピクチャ内の位置およびサイズが一意に特定できる。なお、表示領域情報は、表示領域のピクチャ内の位置およびサイズが一意に特定できる他の情報であっても構わない。
  (レイヤ間位置対応情報)
 パラメータセット復号部12は、入力される対象レイヤ符号化データからレイヤ間位置対応情報を復号する。レイヤ間位置対応情報は、概略的には、対象レイヤと参照レイヤの対応する領域の位置関係を示す。例えば、対象レイヤのピクチャと参照レイヤのピクチャにある物体(物体A)が含まれる場合、対象レイヤのピクチャ上の物体Aに対応する領域と、参照レイヤのピクチャ上の物体Aに対応する領域が、前記対象レイヤと参照レイヤの対応する領域に相当する。なお、レイヤ間位置対応情報は、必ずしも上記の対象レイヤと参照レイヤの対応する領域の位置関係を正確に示す情報でなくてもよいが、一般的には、レイヤ間予測の正確性を高めるために正確な対象レイヤと参照レイヤの対応する領域の位置関係を示している。
 レイヤ間位置対応情報は、レイヤ間画素対応情報を含む。レイヤ間画素対応情報は、参照レイヤのピクチャ上の画素と、対応する対象レイヤのピクチャ上の画素との位置関係を示す情報である。また、レイヤ間対応情報は、レイヤ間位相対応情報を追加で含んでいてもよい。レイヤ間位相対応情報は、前記レイヤ間画素対応情報で対応が示された画素の位相差を表わす情報である。
   (レイヤ間画素対応情報)
 レイヤ間画素対応情報は、例えば、上位レイヤのSPSの一部であるSPS拡張(sps_estension)に含まれており、図9に示すシンタックス表に従って復号される。図9は、パラメータセット復号部12がSPS復号時に参照するシンタックス表の一部であって、レイヤ間画素対応情報に係る部分である。
 SPSから復号されるレイヤ間画素対応情報には、SPS拡張に含まれるレイヤ間画素対応情報の個数(num_scaled_ref_layer_offsets)が含まれる。加えて、レイヤ間画素対応情報には、前記レイヤ間画素対応情報の個数分のレイヤ間画素対応オフセットが含まれる。レイヤ間画素対応オフセットには、拡大参照レイヤ左オフセット(scaled_ref_layer_left_offset[i])、拡大参照レイヤ上オフセット(scaled_ref_layer_top_offset[i])、拡大参照レイヤ右オフセット(scaled_ref_layer_right_offset[i])、および、拡大参照レイヤ下オフセット(scaled_ref_layer_bottom_offset[i])が含まれる。レイヤ間画素対応オフセットは、拡大参照レイヤオフセットとも呼ばれる。
 レイヤ間画素対応オフセットに含まれる各オフセットの意味を、図10を参照して説明する。図10は、対象レイヤのピクチャ、参照レイヤのピクチャ、および、レイヤ間画素対応オフセットの関係を例示する図である。
 図10(a)は、参照レイヤのピクチャ全体が対象レイヤのピクチャの一部に対応する場合の例を示す。この場合、参照レイヤピクチャ全体に対応する対象レイヤ上の領域(対象レイヤ対応領域)は、対象レイヤピクチャの内部に含まれている。図10(b)は、参照レイヤのピクチャの一部が対象レイヤのピクチャ全体に対応する場合の例を示す。この場合、参照レイヤ対応領域の内部に対象レイヤピクチャが含まれている。なお、対象レイヤピクチャ全体にオフセットが含まれている。
 図10に示したように、拡大参照レイヤ左オフセット(図ではSRL左オフセット)は、参照レイヤ対応領域左辺の対象レイヤピクチャ左辺に対するオフセットを表わす。なお、SRL左オフセットが0より大きい場合、参照レイヤ対応領域左辺が対象レイヤピクチャ左辺の右側に位置することを表わす。
 拡大参照レイヤ上オフセット(図ではSRL上オフセット)は、参照レイヤ対応領域上辺の対象レイヤピクチャ上辺に対するオフセットを表わす。なお、SRL上オフセットが0より大きい場合、参照レイヤ対応領域上辺が対象レイヤピクチャ上辺の下側に位置することを表わす。
 拡大参照レイヤ右オフセット(図ではSRL右オフセット)は、参照レイヤ対応領域右辺の対象レイヤピクチャ右辺に対するオフセットを表わす。なお、SRL右オフセットが0より大きい場合、参照レイヤ対応領域右辺が対象レイヤピクチャ右辺の左側に位置することを表わす。
 拡大参照レイヤ下オフセット(図ではSRL下オフセット)は、参照レイヤ対応領域下辺の対象レイヤピクチャ下辺に対するオフセットを表わす。なお、SRL下オフセットが0より大きい場合、参照レイヤ対応領域下辺が対象レイヤピクチャ下辺の上側に位置することを表わす。
   (スケール補正情報)
 パラメータセット復号部12は、入力される対象レイヤ符号化データから、スケール補正情報を復号する。スケール補正情報は、例えば、SPS拡張に含まれており、図11に示すシンタックス表に従って復号される。図11は、パラメータセット復号部12がSPS復号時に参照するシンタックス表の一部であって、スケール補正情報に係る部分である。
 SPSから復号されるスケール補正情報には、シンタックス要素(A0)が含まれる。
・A0:スケール補正情報数(num_scale_adjust_info)
加えて、SPSには、シンタックス要素の組(A1、A2L、A2T、A2R、A2B、A3W、A3H)が、スケール補正情報数の示す個数含まれる。
・A1:スケール補正参照レイヤ識別子(scale_adjust_ref_layer_id[i])
・A2L:拡大参照レイヤ左追加オフセット(srl_add_left_offset[i])
・A2T:拡大参照レイヤ上追加オフセット(srl_add_top _offset[i])
・A2R:拡大参照レイヤ右追加オフセット(srl_add_right_offset[i])
・A2B:拡大参照レイヤ下追加オフセット(srl_add_bottom_offset[i])
・A3W:仮想参照レイヤ幅(rl_virtual_width[i])
・A3H:仮想参照レイヤ高(rl_virtual_height[i])
なお、上記A2L、A2T、A2R、A2Bを総称して、拡大参照レイヤ追加オフセットとも呼ぶ。また、上記A2LとA2Tを総称して、拡大参照レイヤ左上追加オフセットとも呼び、上記A2RとA2Bを総称して、拡大参照レイヤ右下追加オフセットとも呼ぶ。また、A3WとA3Hを総称して、仮想参照レイヤサイズとも呼ぶ。この定義を用いて換言すれば、スケール補正情報には、スケール補正情報数の示す個数の拡大参照レイヤ追加オフセットと仮想参照レイヤサイズが含まれている。
 シンタックス要素A0、A2L、A2T、A2R、A2B、A3W、A3HはそれぞれHEVCでも規定されている非負整数の0次指数ゴロム符号(ue(v))により符号化される。一方、シンタックス要素A1は6ビットの固定長符号(u(6))により符号化される。なお、これらの符号と同じ値域に対応する他の符号により符号化されていてもよい。
 スケール補正情報数(A0)は、SPSに含まれるスケール補正参照レイヤ識別子、拡大参照レイヤ追加オフセット、参照レイヤ補正サイズの数を表わす。なお、スケール補正情報数は、省略しても構わない。例えば、対象レイヤに対する参照レイヤ数が固定、または、既知である場合には、不要である。また、対象レイヤに対する参照レイヤ数が未知の場合であっても省略することは可能であるが、その場合、不必要な参照レイヤに対しても追加のシンタックス要素をSPSに含めるため符号量が増加する。
 スケール補正参照レイヤ識別子(A1)は、対象レイヤに対する特定の参照レイヤの識別子である。特定の参照レイヤとは、スケール補正処理の対象となる参照レイヤである。
 拡大参照レイヤ追加オフセット(A2L、A2T、A2R、A2B)は、レイヤ間スケール(補正スケール)の算出に用いるパラメータであって、拡大参照レイヤ補正サイズに係るパラメータである。概略的には、拡大参照レイヤ追加オフセットは、実際の参照レイヤ対応領域(実参照レイヤ対応領域)と、レイヤ間スケール算出に用いる参照レイヤ対応領域(仮想参照レイヤ対応領域)の差を表現するパラメータである。
 より具体的な拡大参照レイヤ追加オフセットの定義について、図12を参照して説明する。図12は、実参照レイヤ対応領域と仮想参照レイヤ対応領域と拡大参照レイヤ追加オフセットの関係を例示する図である。図に示す通り、拡大参照レイヤ左上追加オフセット(A2L、A2T)は、参照レイヤ対応領域(実参照レイヤ対応領域)の左上画素の位置に対する、仮想参照レイヤ対応領域の左上画素の位置を表わす。同様に、拡大参照レイヤ右下追加オフセット(A2R、A2B)は、実参照レイヤ対応領域の右下画素の位置に対する、仮想参照レイヤ対応領域の右下画素の位置を表わす。
 仮想参照レイヤサイズ(A3W、A3H)は、レイヤ間スケール(補正スケール)の算出に用いるパラメータである。仮想参照レイヤサイズには、例えば、階層符号化データ変換前の参照レイヤ幅(参照レイヤピクチャ幅)が設定されている。
 なお、対象レイヤに対する特定の参照レイヤに対して、上記のシンタックス要素がSPSに含まれない場合、拡大参照レイヤ追加オフセットの各値と仮想参照レイヤサイズの各値には規定値を設定する。その際、拡大参照レイヤ追加オフセットの規定値としては0の値を用い、仮想参照レイヤサイズ(仮想参照レイヤ幅と仮想参照レイヤ高)の規定値としては参照レイヤサイズ(参照レイヤ幅と参照レイヤ高)を用いることが好ましい。この場合、仮想参照レイヤ対応領域と参照レイヤ対応領域のサイズが一致し、加えて、仮想参照レイヤと参照レイヤのサイズが一致する。これは典型的な設定であるため、換言すると、前述の既定値を用いることで、典型的な設定の場合に拡大参照レイヤ追加オフセットや仮想参照レイヤサイズの情報を省略できるため、符号量を削減できる。
 (タイル設定部13)
 タイル設定部13は、入力されるパラメータセットに基づいてピクチャのタイル情報を導出して出力する。
 本実施形態において、タイル設定部13により生成されるタイル情報は、概略的には、タイル構造情報とタイル依存情報を含む。
 タイル構造情報は、ピクチャ内のタイルの個数と各タイルの大きさが示す情報である。なお、タイルがピクチャを格子状に分割して得られる部分領域に対応付ける場合、ピクチャ内のタイルの個数は、水平方向に含まれるタイルの個数と垂直方向に含まれるタイルの個数の積に等しい。
 タイル依存情報は、ピクチャ内のタイル復号時の依存性を示す情報である。ここで、タイル復号時の依存性は、タイルがタイル外の領域に係る復号画素やシンタックス値に依存する程度を示す。なお、タイル外の領域には、対象ピクチャ上のタイル外の領域、参照ピクチャ上のタイル外の領域、ベース復号ピクチャ上のタイル外の領域が含まれる。
 以下、タイル設定部13により生成されるタイル情報の詳細について、入力されるパラメータセットに基づく導出過程を含めて説明する。
 タイル情報は、パラメータセットに含まれるSPSやPPSに含まれるタイル情報に係るシンタックスの値に基づいて導出される。タイル情報に係るシンタックスについて図13を参照して説明する。
  (PPSタイル情報)
 図13はパラメータセットに含まれるPPSの復号時にパラメータ復号部12により参照されるシンタックス表の一部であって、タイル情報に係る部分である。
 PPSに含まれるタイル情報に係るシンタックス(PPSタイル情報)には、複数タイル有効フラグ(tiles_enabled_flag)が含まれる。複数タイル有効フラグの値が1の場合、ピクチャが2個以上のタイルから構成されることを示す。当該フラグの値が0の場合、ピクチャが1個のタイルから構成される、すなわちピクチャとタイルが一致することを示す。
 複数タイルが有効(tiles_enabled_flagが真)である場合、PPSタイル情報には、タイル列数を示す情報(num_tile_columns_minus1)、タイル行数を示す情報(num_tiles_rows_minus1)、および、タイルサイズの均等性を示すフラグ(uniform_spacing_flag)が追加で含まれる。
 num_tile_columns_minus1は、ピクチャの水平方向に含まれるタイルの数から1を引いた値に相当するシンタックスである。また、num_tile_rows_minus1は、ピクチャの垂直方向に含まれるタイルの数から1を引いた値に相当するシンタックスである。したがって、ピクチャに含まれるタイル数NumTilesInPicは次式により計算される。
  NumTilesInPic = (num_tile_columns_minus1+1) * (num_tile_rows_minus1+1)
 uniform_spacing_flagの値が1の場合、ピクチャに含まれるタイルサイズが均等、すなわち、各タイルの幅と高さが等しいことを示す。uniform_spacing_flagの値が0の場合、ピクチャに含まれるタイルサイズが不均等、すなわち、ピクチャに含まれるタイルの幅や高さが必ずしも一致しないことを示す。
 ピクチャに含まれるタイルサイズが不均等(uniform_spacing_flagが0)の場合、PPSタイル情報には、ピクチャに含まれる各タイル列に対して、タイル幅を示す情報(column_width_minus1[i])、および、ピクチャに含まれる各タイル行に対して、タイルの高さを示す情報(row_height_minus1[i])が追加で含まれる。
 また、複数タイルが有効である場合、PPSタイル情報には、タイル境界をまたぐループフィルタの適用有無を示すフラグ(loop_filter_across_tiles_enabled_flag)を追加で含む。
 ここで、図14を参照して、タイル行、タイル列とピクチャの関係を説明しておく。図14は、ピクチャをタイル分割した場合のタイル行とタイル列を例示した図である。図14の例では、ピクチャは4個のタイル列と3個のタイル行により分割されており、計12個のタイルを含んでいる。例えば、タイル列0(TileCol0)は、タイルT00、T10、T20を含んでいる。また、例えば、タイル行0(TileRow0)は、タイルT00、T01、T02、T03を含んでいる。タイル列iの幅はCTU単位でColWidth[i]と表記される。タイル行jの高さはCTU単位でRowHeight[j]と表記される。したがって、タイル行iに属し、かつ、タイル列jに属するタイルの幅はColWidth[i]、高さはRowHeight[j]となる。
 上記のPPSタイル情報に基づいて、タイル設定部13は、タイル構造情報を導出する。タイル構造情報には、ラスタスキャンCTBアドレスからタイルスキャンCTBアドレスを導出する配列(CtbAddrRsToTs[ctbAddrRs])、タイルスキャンCTBアドレスからラスタスキャンCTBアドレスを導出する配列(CtbAddrTsToRs[ctbAddrTs])、タイルスキャンCTBアドレス毎のタイル識別子(TileId[ctbAddrTs])、各タイル列の幅(ColumnWidthInLumaSamples[i])、および、各タイル行の高さ(RowHeightInLumaSamples[j])が含まれる。
 uniform_spacing_flagが1の場合、ピクチャサイズとピクチャ内のタイル数に基づいて各タイル列の幅が計算される。例えば、次式によりi番目のタイル列の幅(ColumnWidthInLumaSamples[i])が計算される。なお、PicWidthInCtbsYは、ピクチャの水平方向に含まれるCTUの数を表す。
  ColWidth[i] = ( (i+1) * PicWidthInCtbsY ) / ( num_tile_columns_minus1 + 1 ) - ( i * PicWidthInCtbsY ) / ( num_tile_columns_minus1 + 1 )
 つまり、ピクチャをタイル列数で等分して得られる(i+1)番目とi番目の境界位置の差分として、i番目のタイル列のCTU単位の幅であるColWidth[i]が計算される。
 一方、uniform_spacing_flagが0の場合、(column_width_minus1[i]+1)の値がi番目のタイル列のCTU単位の幅ColWidth[i]に設定される。
 ColumnWidthInLumaSamples[i]の値は、ColWidth[i]にCTUの画素単位の幅を乗じて得られる値を設定する。
 なお、タイル行のCTU単位の高さRowHeight[j]についても、上記タイル列の幅と同様の方法で計算される。PicWidthInCtbsYの代わりにPicHeightInCtbsY(ピクチャの垂直方向に含まれるCTU数)、num_tiles_columns_minus1の代わりにnum_tiles_row_minus1、column_width_minus1[i]の代わりにrow_height_minus1[i]を用いる。
 RowHeightInLumaSamples[j]の値は、RowHeight[j]にCTUの画素単位の高さを乗じて得られる値を設定する。
 次に、タイルスキャンCTBアドレスからラスタスキャンCTBアドレスを導出する配列(CtbAddrTsToRs[ctbAddrTs])の導出方法を説明する。
 まず、i番目のタイル列の境界位置を示すcolBd[i]、および、j番目のタイル行の境界位置を示すrowBd[j]を次式により計算する。なお、colBd[0]とrowBd[0]の値は0とする。
  colBd[i+1] = colBd[i] + colWidth[i]
  rowBd[j+1] = rowBd[j] + rowHeight[j]
 続いて、ピクチャに含まれるラスタスキャンCTUアドレス(ctbAddrRs)で識別されるCTUに関連付けられるタイルスキャンCTUアドレスを以下の手順で導出する。
 対象CTUのピクチャ内CTU単位での位置(tbX、tbY)をctbAddrRsから次式により計算する。ここで演算子「%」は剰余演算子であり、「A % B」は整数Aを整数Bで割った余りを意味する。
  tbX = ctbAddrRs % PicWidthInCtbsY
  tbY = ctbAddrRs / PicWidthInCtbsY
 続いて、対象CTUを含むタイルのピクチャ内のタイル単位の位置(tileX、tileY)を導出する。tileXには、評価式(tbX >= colBd[i])が真となる最大のiの値が設定される。同様に、tileYには、評価式(tbY >= rowBd[j])が真となる最大のjの値が設定される。
 CtbAddrRsToTs[ctbAddrRs]の値には、(tileX、tileY)のタイルよりもタイルスキャン順で先行するタイルに含まれるCTUの和と、(tileX、tileY)のタイル内で(tbX - colBd[tileX]、tbY - rowBd[tileY])に位置するCTUの当該タイル内ラスタスキャン順の位置を加算した値が設定される。
 CtbAddrTsToRs[ctbAddrTs]の値には、CtbAddrRsToTs[k]がctbAddrTsと一致する場合のkの値が設定される。
 TileId[ctbAddrTs]の値には、ctbAddrTsで示されるCTUが属するタイルのタイル識別子が設定される。ピクチャ内でタイル単位で(tileX、tileY)の位置にあるタイルのタイル識別子tileId(tileX、tileY)は、次式により計算される。
 tileId(tileX,tileY) = (tileY * (num_tile_cols_minus1 + 1)) + tileX
 (スライス復号部14)
 スライス復号部14は、入力されるVCL NAL、パラメータセット、および、タイル情報に基づいて復号ピクチャを生成して出力する。
 図15を用いて、スライス復号部14の概略的構成を説明する。図15は、スライス復号部14の概略的構成を示した機能ブロック図である。
 スライス復号部14は、スライスヘッダ復号部141、スライス位置設定部142、CTU復号部144を備えている。CTU復号部144は、さらに、予測残差復元部1441、予測画像生成部1442、および、CTU復号画像生成部1443を含んでいる。
  (スライスヘッダ復号部)
 スライスヘッダ復号部141は、入力されるVCL NALとパラメータセットに基づいてスライスヘッダを復号し、スライス位置設定部142、スキップスライス判定部143、および、CTU復号部144に出力する。
 スライスヘッダには、ピクチャ内のスライス位置に係る情報(SHスライス位置情報)、および、スキップスライスに係る情報(SHスキップスライス情報)が含まれる。
 スライスヘッダには、スライス位置情報として、ピクチャ内先頭スライスフラグ(first_slice_segment_in_pic_flag)が含まれる。ピクチャ内先頭スライスフラグが1の場合、対象スライスが復号順でピクチャ内の先頭に位置することを示す。ピクチャ内先頭スライスフラグが0の場合は、対象スライスが復号順でピクチャ内の先頭に位置しないことを示す。
 また、スライスヘッダには、スライス位置情報として、スライスPPS識別子(slice_pic_parameter_set_id)が含まれる。スライスPPS識別子は、対象スライスに関連付けられるPPSの識別子であり、当該PPS識別子を介して、対象スライスに関連付けるべきタイル情報が特定される。
  (スライス位置設定部)
 スライス位置設定部142は、入力されるスライスヘッダとタイル情報に基づいてピクチャ内のスライス位置を特定してCTU復号部144に出力する。スライス位置設定部142で導出されるピクチャ内のスライス位置は、スライスに含まれる各CTUのピクチャ内での位置を含む。
  (CTU復号部)
 CTU復号部144は、概略的には、入力されるスライスヘッダ、スライスデータ、および、パラメータセットに基づいて、スライスに含まれる各CTUに対応する領域の復号画像を復号することで、スライスの復号画像を生成する。スライスの復号画像は、入力されるスライス位置の示す位置に、復号ピクチャの一部として出力される。CTUの復号画像は、CTU復号部144内部の予測残差復元部1441、予測画像生成部1442、および、CTU復号画像生成部1443により生成される。予測残差復元部1441は、入力のスライスデータに含まれる予測残差情報(TT情報)を復号して対象CTUの予測残差を生成して出力する。予測画像生成部1442は、入力のスライスデータに含まれる予測情報(PT情報)の示す予測方法と予測パラメータに基づいて予測画像を生成して出力する。その際、必要に応じて、参照ピクチャの復号画像や符号化らメータが利用される。CTU復号画像生成部1443は、入力される予測画像と予測残差を加算して対象CTUの復号画像を生成して出力する。
   (予測画像生成部の詳細)
 前述の予測画像生成部1442による予測画像生成処理のうち、レイヤ間画像予測が選択された場合の予測画像生成処理の詳細を説明する。
 レイヤ間画像予測が適用される対象CTUに含まれる対象画素の予測画素値の生成処理は次の手順で実行される。まず、参照ピクチャ位置導出処理を実行し、対応参照位置を導出する。ここで、対応参照位置とは、対象レイヤピクチャ上の対象画素に対応する参照レイヤ上の位置である。なお、対象レイヤと参照レイヤの画素は必ずしも1対1に対応しないため、対応参照位置は、参照レイヤにおける画素単位未満の精度で表現される。次に、導出した対応参照位置を入力として補間フィルタ処理を実行することで、対象画素の予測画素値が生成される。
 対応参照位置導出処理では、パラメータセットに含まれるピクチャ情報、レイヤ間画素対応情報、および、スケール補正情報に基づいて、対応参照位置を導出する。対応参照位置導出処理の詳細手順について、図1を参照して説明する。図1は、対応参照位置導出処理のフロー図である。対応参照位置導出処理は、以下のS101~S103の処理を順次実行することで実現される。
 (S101)対象レイヤピクチャサイズ、参照レイヤピクチャサイズ、レイヤ間画素対応情報、および、スケール補正情報に基づいて仮想参照レイヤ対応領域サイズを計算する。
 仮想参照レイヤ対応領域サイズ、すなわち、仮想参照レイヤ対応領域の幅VSRLWと高さVSRLHが次式により計算される。
  VSRLW = currPicW - SRLLOffset + SRLAddLOffset - SRLROffset + SRLAddROffset
  VSRLH = currPicH - SRLTOffset + SRLAddTOffset - SRLBOffset + SRLAddBOffset
ここで、currPicWとcurrPicHは対象ピクチャの高さと幅であり、対応参照位置導出処理の対象が輝度画素の場合は、対象レイヤにおけるSPSのピクチャ情報に含まれるpic_width_in_luma_samplesとpic_height_in_luma_samplesの各シンタックス値と一致する。対象が色差の場合は、色フォーマットの種類に応じて前記シンタックス値を変換した値を使用する。例えば色フォーマットが4:2:2の場合、各シンタックス値の半分の値を使用する。また、refPicWとrefPicHは参照ピクチャの高さと幅であり、対象が輝度画素の場合、参照レイヤにおけるSPSのピクチャ情報に含まれるpic_width_in_luma_samplesとpic_height_in_luma_samplesの各シンタックス値と一致する。
 また、SRLLOffsetは拡大参照レイヤ左オフセット、SRLROffsetは拡大参照レイヤ右オフセット、SRLTOffsetは拡大参照レイヤ上オフセット、SRLBOffsetは拡大参照レイヤ下オフセットの値である。
 また、SRLAddLOffsetは拡大参照レイヤ左追加オフセット、SRLAddROffsetは拡大参照レイヤ右追加オフセット、SRLAddTOffsetは拡大参照レイヤ上追加オフセット、SRLAddBOffsetは拡大参照レイヤ下追加オフセットの値である。
 上記式によれば、概略的には、仮想参照レイヤ対応領域サイズが、現ピクチャサイズと拡大参照レイヤオフセットと拡大参照レイヤ追加オフセットとの和により算出されている。
 (S102)次に、S101で導出した仮想参照レイヤ対応領域サイズと、スケール補正情報に含まれる仮想参照レイヤサイズに基づいて、レイヤ間スケール水平成分scaleXとレイヤ間スケール垂直成分scaleYが次式により計算される。
  scaleX = rlVirtualW ÷ VSRLW
  scaleY = rlVirtualH ÷ VSRLH
ここで、rlVirtualWは仮想参照レイヤ幅、rlVirtualHは仮想参照レイヤ高であり、パラメータセット復号部12で復号されたスケール補正情報に含まれる。すなわち、変数rlVirtualWにはrl_virtual_width[i]の値が、変数rlVirtualHにはrl_virtual_height[i]の値が設定される。
 上記式によれば、概略的には、レイヤ間スケールは、仮想参照レイヤサイズ(仮想参照レイヤ幅、または、仮想参照レイヤ高)を仮想参照レイヤ対応領域サイズ(仮想参照レイヤ対応領域幅、または、仮想参照レイヤ対応領域高)で除算することで導出される。換言すると、レイヤ間スケールは、仮想参照レイヤサイズと仮想参照レイヤ対応領域サイズの比として計算される。
 なお、レイヤ間スケールの値として、除算の近似値を設定してもよい。例えば、整数表現でレイヤ間スケール(scaleIntX、scaleIntY)は次式により導出できる。
  scaleIntX = ((rlVirtualW << 16) + (VSRLW >> 1)) / VSRLW
  scaleIntY = ((rlVirtualH << 16) + (VSRLH >> 1)) / VSRLH
ここで、演算子「/」は割り算の商を表わす。「<< 16」の左シフト演算は算出されるレイヤ間スケールの整数表現の精度を維持するための処理であり、必ずしも16である必要はなく他の正の整数値の左シフト演算であってもよい。
 (S103)レイヤ間画素対応情報とレイヤ間スケールに基づいて参照位置を計算する。対象レイヤ画素に対応する参照位置の水平成分xRefと垂直成分yRefは次式により計算される。なお、xRefは参照レイヤピクチャの左上画素を基準とする水平方向の位置を、yRefは同左上画素を基準とする垂直方向の位置をそれぞれ参照レイヤピクチャの画素単位で表わす。
  xRef = (xP - SRLLOffset) * scaleX
  yRef = (yP - SRLTOffset) * scaleY
ここで、xPとyPは対象レイヤピクチャ左上画素を基準とする対象レイヤ画素の水平成分と垂直成分をそれぞれ対象レイヤピクチャの画素単位で表わす。
 上記の式では、参照レイヤ対応領域の左上画素に対する対象画素の位置をレイヤ間サイズ比率によりスケールした値を参照位置としている。なお、上記の計算を整数表現による近似演算により計算してもよい。例えば、前述のscaleIntXとscaleIntYを用いて16分の1画素精度の参照位置xRef16とyRef16を次式により計算できる。
  xRef16 = ((xP - SRLLOffset) * scaleIntX + (1 << 11) ) >> 12
  yRef16 = ((yP - SRLTOffset) * scaleIntY + (1 << 11) ) >> 12
 また、対象が色差の画素である場合に、輝度と色差の位相差を考慮した補正を行っても構わない。
 以上説明した対応参照位置導出処理により、対象レイヤピクチャ上の対象画素に対応する参照レイヤ上の位置を対応参照位置として導出できる。対応参照位置導出処理では、レイヤ間スケールを、実際の参照レイヤピクチャと参照レイヤ対応領域のサイズの比ではなく、スケール補正情報に基づき導出される仮想参照レイヤサイズと仮想参照レイヤ対応領域サイズの比として導出している。そのため、注目領域抽出に代表される目的で階層符号化データを変換する場合に、変換前の階層符号化データにおける参照レイヤサイズと等しい仮想参照レイヤサイズ、および、変換前の階層符号化データにおける参照レイヤ対応領域サイズと等しい仮想参照レイヤ対応領域サイズを、それぞれ変換後の階層符号化データの復号時に導出してレイヤ間スケールを導出できる。したがって、変換の前後でレイヤ間スケールを同一の値に維持できる。
 補間フィルタ処理では、上記対応参照位置導出処理で導出した対応参照位置に相当する位置の画素値を、参照レイヤピクチャ上の、前記対応参照位置近傍の画素の復号画素に補間フィルタを適用することで生成する。
 [付記事項1:位相補正項]
 上記の階層動画像復号装置1の予測画像生成部1442の処理や、変形例1、および、変形例2に記載の処理では、概略的には、拡張レイヤ(対象レイヤ)上の距離にレイヤ間スケールを乗算し、単位を調整した値を参照位置として導出している。特定の参照レイヤ上画素と対象レイヤの画素の間に整数画素以下の位相差がある場合、その位相差を補正するパラメータを追加して参照位置を計算してもよい。例えば、予測画像生成部1442の説明で上げた16分の1画素精度の参照位置は次式により計算できる。
  xRef16 = ((xP - SRLLOffset) * scaleIntX + addX + (1 << 11) ) >> 12
  yRef16 = ((yP - SRLTOffset) * scaleIntY + addY + (1 << 11) ) >> 12
ここで、addXとaddYはそれぞれ垂直方向と水平方向の位相のずれに対応する量であり、4分の1画素精度で表現された垂直方向の位相差であるphaseX、同様に水平方向の位相差であるphaseYを用いて次式により計算される。
  addX = ( ScaleFactorX * phaseX + 2 ) >> 2
  addY = ( ScaleFactorY * phaseY + 2 ) >> 2
対象レイヤと参照レイヤの間に位相差がある場合は、上記の手順で参照位置を導出することで、正確な参照位置を計算できる。
 (動画像復号装置1の効果)
 以上説明した本実施形態に係る階層動画像復号装置1(階層画像復号装置)は、パラメータセットを復号するパラメータセット復号部12と、参照レイヤピクチャの復号画素を参照してレイヤ間予測により予測画像を生成する予測画像生成部1442を備えている。パラメータセット復号部12はスケール補正情報を復号し、予測画像生成部1442は、該スケール補正情報から導出されるレイヤ間スケールの値を用いて対象レイヤ上の画素に対する対応参照位置を導出する。
 したがって、上記階層動画像復号装置1は、注目領域抽出に代表される目的で階層符号化データを変換する場合であっても、変換の前後で同一のレイヤ間スケールを導出できる。そのため、変換後の符号化データにおいて、上位レイヤの画素と下位レイヤの画素の位置関係の正確さを維持することでレイヤ間予測の予測残差が減少するため、より少ない符号量の符号化データを復号して上位レイヤの復号ピクチャを出力できる。
 [変形例1:別のスケール補正情報の例]
 上記階層動画像復号装置1の説明では、スケール補正情報に含まれる以下のパラメータに基づいてレイヤ間スケールを計算する例を説明した。
・A2TL:拡大参照レイヤ左上追加オフセット
・A2BR:拡大参照レイヤ右下追加オフセット
・A3WH:仮想参照レイヤサイズ
 上記とは異なるパラメータをスケール補正情報としてパラメータセットから復号し、該パラメータに基づきレイヤ間スケールを計算してもよい。例えば、以下のパラメータを用いることができる。
・A4S:代替レイヤ間スケール
・A4Sd:代替レイヤ間スケール差分
・A5WH:仮想参照レイヤ対応領域サイズ
・A5WHd:仮想参照レイヤ対応領域サイズ差分
・A3WHd:仮想参照レイヤサイズ差分
以下では、各パラメータの詳細を説明する。
  [変形例1A:代替レイヤ間スケール]
 パラメータセット復号部12は、入力される対象レイヤ符号化データから、スケール補正情報を復号する。スケール補正情報は、例えば、SPS拡張に含まれており、図16に示すシンタックス表に従って復号される。図16は、パラメータセット復号部12がSPS復号時に参照するシンタックス表の一部であって、スケール補正情報に係る部分である。
 代替レイヤ間スケール(A4S)は、レイヤ間スケールの算出に用いるパラメータである。概略的には、代替レイヤ間スケールは、直接レイヤ間スケールの値として用いられる。SPSには、代替レイヤ間スケールとして、特定の参照レイヤに対応する代替レイヤ間スケール水平成分(alt_scale_x[i])、および、代替レイヤ間スケール垂直成分(alt_scale_y[i])が含まれる。なお、配列の添え字([i])は、SPS中で何個目のパラメータかを表わす。添え字iの代替レイヤ間スケールは、添え字iのスケール補正参照レイヤ識別子が示すレイヤを参照レイヤとする場合の代替レイヤ間スケールである。
 予測画像生成部1442におけるスケール導出処理では、以下のS201~S203の手順によりレイヤ間スケールが計算される。
 (S201)レイヤ間予測に用いる参照レイヤに対して代替レイヤ間スケールが伝送されているか否かを判定する。具体的には、スケール補正情報に含まれるスケール補正参照レイヤ識別子の中に、参照レイヤのレイヤ識別子が含まれる場合に、代替レイヤ間スケールが伝送されていると判定し、それ以外の場合に、代替レイヤ間スケールが伝送されていないと判定する。代替レイヤ間スケールが伝送されている場合、S202に進み、伝送されていない場合、S203に進む。
 (S202)レイヤ間スケールを参照レイヤに対応する代替レイヤ間スケールを用いて設定して処理を終了する。レイヤ間スケールは次式により導出される。
  scaleX = alt_scale_x[i]
  scaleY = alt_scale_y[i]
ここで、参照レイヤのレイヤ間識別子をref_layer_idとした場合、i はref_layer_id = scale_adjust_ref_layer_id[i] を満たす。
 (S203)レイヤ間スケールを参照レイヤ対応領域サイズに対する参照レイヤサイズの比として算出して処理を終了する。レイヤ間スケールは次式により計算される。
  scaleX = ((rlW << 16) + (srlW >> 1)) / srlW
  scaleY = ((rlH << 16) + (srlH >> 1)) / srlH
ここで、rlWとrlHはそれぞれ参照レイヤピクチャの幅と高さを表し、srlWとsrlHはそれぞれ参照レイヤ対応領域の幅と高さを表わす。
 なお、代替レイヤ間スケール水平成分と代替レイヤ間スケール垂直成分の値域は、代替レイヤ間スケールを用いない場合のレイヤ間スケールと同等である必要がある。上記の手順S203に記載の式でレイヤ間スケールを導出する場合、参照レイヤピクチャの最大幅をrlMaxWとした場合、scaleXの値域は0以上、(rlMaxW << 16)以下の整数となる。したがって、代替レイヤ間スケールも同等の値域を表現可能な符号でパラメータセットに含まれている必要がある。なお、空間スケーラビリティの倍率が1以上という制約がある場合には、参照レイヤピクチャの幅rlW(高さrlH)は、参照レイヤ対応領域の幅srlW(高さsrlH)以上であるから、scaleXの最大値は、srlWがrlWに等しい場合であり、この場合、scaleX=1<<16となる。従って、代替レイヤ間スケールの値域は0以上(1<<16)以下の整数に制限される。したがって、そのような場合は、代替レイヤ間スケールを16ビットの固定長符号を用いてパラメータセットに含むことが好ましい。また、空間スケーラビリティの倍率(参照レイヤの解像度に対する対象レイヤの解像度の比)の最大値が制限されている場合に、制限に応じた値域の代替レイヤ間スケールを復号して用いてもよい。例えば、空間スケーラビリティの倍率が4以下という制約がある場合には、scaleXの最小値は、srlWが(rlW<<4)に等しい場合であり、この場合、scaleX=1<<12となる。従って、scaleXの範囲は1<<12以上、1<<16以下である。scaleYについても同様の範囲となる。scaleX、scaleYの最小値をminScaleと置いた場合、alt_scale_x[i]、alt_scale_y[i]として、最終的な代替レイヤ間スケールの値からminScaleを減算した値を符号化しても良い。この場合、符号化データに含まれる代替レイヤ間スケールalt_scale_x[i]、alt_scale_y[i]から実際に用いられる代替レイヤ間スケールAltScaleX[i]、AltScaleY[i]が導出される。このとき、予測画像生成部1442は、(S202)の代わりに(S202´)を用いる。
 (S202´)レイヤ間スケールを参照レイヤに対応する代替レイヤ間スケールを用いて設定して処理を終了する。レイヤ間スケールは次式により導出される。
  scaleX = alt_scale_x[i] + minScale
  scaleY = alt_scale_y[i] + minScale
上記のようにminScaleの値を減算した代替レイヤ間スケールをSPSから復号することで、代替レイヤ間スケールの値域を狭くできるため、代替レイヤ間スケールの符号量を抑制できる。
 代替レイヤ間スケールを用いる場合、階層符号化データの変換前後のレイヤ間スケールを維持できる利点に加え、復号時のレイヤ間スケール導出処理が簡略化できるという効果がある。
  [変形例1B:代替レイヤ間スケール差分]
 パラメータセット復号部12は、入力される対象レイヤ符号化データから、スケール補正情報を復号する。スケール補正情報は、例えば、SPS拡張に含まれており、図17に示すシンタックス表に従って復号される。図17は、パラメータセット復号部12がSPS復号時に参照するシンタックス表の一部であって、スケール補正情報に係る部分である。
 代替レイヤ間スケール差分(A4Sd)は、レイヤ間スケールの算出に用いるパラメータである。概略的には、代替レイヤ間スケール差分を、参照レイヤ対応領域サイズと参照レイヤサイズの比により導出されるレイヤ間スケールに加算することで、最終的なレイヤ間スケールを算出する。代替レイヤ間スケール差分として、パラメータセットには、特定の参照レイヤに対応する代替レイヤ間スケール水平成分差分(alt_scale_x_diff[i])、および、代替レイヤ間スケール垂直成分差分(alt_scale_y_diff[i])が含まれる。なお、添え字iの意味は代替レイヤ間スケールの場合と同じである。
 予測画像生成部1442におけるスケール導出処理では、次式によりレイヤ間スケールが計算される。
  scaleX = (((rlW << 16) + (srlW >> 1)) / srlW) + alt_scale_x_diff[i]
  scaleY = (((rlH << 16) + (srlH >> 1)) / srlH) + alt_scale_y_diff[i]
すなわち、参照レイヤ対応領域サイズと参照レイヤサイズの比と、代替レイヤ間スケール差分の和をレイヤ間スケールに設定している。
 代替レイヤ間スケール差分を用いる場合、代替レイヤ間スケールを用いる場合に較べてレイヤ間スケールの演算が増えるが、SPSに含まれる代替レイヤ間スケール差分の符号量が代替レイヤ間スケールに較べて少ないという効果がある。一般に、注目領域抽出を行う場合には、変換前後で参照レイヤ対応領域サイズと参照レイヤサイズの比が近くなるよう変換されるため、代替レイヤ間スケール差分の値は小さくなる。また、代替レイヤ間スケール差分は負の値も取りえる。したがって、代替レイヤ間スケール差分は、正負の整数を表現できる符号であって、より絶対値の小さい値に対してより短い符号が割り当てられる符号によりパラメータセットに含まれていることが好ましい。例えば、代替レイヤ間スケール差分水平成分または垂直成分は、HEVCで規定されている符号付き整数用の指数ゴロム符号(se(v))を用いてパラメータセット(SPSまたはVPS)に含めることができる。
 なお、代替レイヤ間スケール差分の最小値は-1、最大値は1と考えられることから、代替レイヤ間スケール差分alt_scale_x_diff[i]、alt_scale_x_diff[j]の代わりに、代替レイヤ間スケール差分を用いるかを示すフラグalt_scale_x_diff_present_flag[i]、alt_scale_y_diff_present_flag[i]と、代替レイヤ間スケール差分を用いる場合に代替レイヤ間スケール差分の符号を表すフラグalt_scale_x_diff_sign_flag[i]、alt_scale_y_diff_sign _flag[i]に分けて符号化しても良い。
 予測画像生成部1442におけるスケール導出処理では、次式によりレイヤ間スケールが計算される。
  scaleX = (((rlW << 16) + (srlW >> 1)) / srlW) + alt_scale_x_diff_present_flag[i] ? 1 - alt_scale_x_diff_sign_flag[i]*2 : 0
  scaleY = (((rlH << 16) + (srlH >> 1)) / srlH) + alt_scale_y_diff_present_flag[i] ? 1 - alt_scale_y_diff_sign_flag[i]*2 : 0
「?」は条件演算子であって、「 a ? b : c 」の値は、a が真ならば b、a が偽ならば cとなる。
 この場合のスケール補正情報は、例えば、SPS拡張に含まれており、図18に示すシンタックス表に従って復号される。図18は、パラメータセット復号部12がSPS復号時に参照するシンタックス表の一部であって、スケール補正情報に係る部分である。
  [変形例1C:仮想参照レイヤ対応領域直接サイズ]
 仮想参照レイヤ対応領域直接サイズ(A5WH)は、レイヤ間スケール算出に用いる仮想参照レイヤ対応領域サイズの算出に用いるパラメータである。概略的には、仮想参照レイヤ対応領域直接サイズは、仮想参照レイヤ対応領域サイズの値として直接用いられる。レイヤ間スケールの値は、予測画像生成部1442で説明した処理と同じ方法で、仮想参照レイヤ対応領域サイズに対する仮想参照レイヤサイズの比として計算される。
 仮想参照レイヤ対応領域直接サイズとして、パラメータセットには、特定の参照レイヤに対応する仮想参照レイヤ対応領域幅(srl_virtual_width[i])、および、仮想参照レイヤ対応領域高(srl_virtual_height[i])が含まれる。なお、添え字iの意味は代替レイヤ間スケールの場合と同じである。仮想参照レイヤ対応領域幅と高さはそれぞれピクチャサイズの高さや幅と同じ符号でパラメータセットに符号化することが好ましい。
 予測画像生成部1442におけるスケール導出処理では、次式により仮想参照レイヤ対応領域サイズが計算される。
  VSRLW = srl_virtual_width[i]
  VSRLH = srl_virtual_height[i]
 なお、レイヤ間予測画像生成処理に用いる参照レイヤに対応する仮想参照レイヤ対応領域直接サイズがパラメータセットに存在しない場合、参照レイヤ対応領域サイズの値を仮想参照レイヤ対応領域直接サイズの値として用いる。
 仮想参照レイヤ対応領域直接サイズを用いる場合、予測画像生成部1442で説明した方法に較べて、仮想参照レイヤ対応領域サイズの導出処理が簡略化できる利点がある。
  [変形例1D:仮想参照レイヤ対応領域差分サイズ]
 仮想参照レイヤ対応領域差分サイズ(A5WHd)は、レイヤ間スケール算出に用いる仮想参照レイヤ対応領域サイズの算出に用いるパラメータである。概略的には、仮想参照レイヤ対応領域差分サイズを、参照レイヤ対応領域サイズに加算することで、仮想参照レイヤ対応領域サイズを算出する。レイヤ間スケールの値は、予測画像生成部1442で説明した処理と同じ方法で、仮想参照レイヤ対応領域サイズに対する仮想参照レイヤサイズの比として計算される。
 仮想参照レイヤ対応領域差分サイズとして、パラメータセットには、特定の参照レイヤに対応する仮想参照レイヤ対応領域差分幅(srl_virtual_width_diff[i])、および、仮想参照レイヤ対応領域差分高(srl_virtual_height_diff[i])が含まれる。なお、添え字iの意味は代替レイヤ間スケールの場合と同じである。
 予測画像生成部1442におけるスケール導出処理では、次式により仮想参照レイヤ対応領域サイズが計算される。
  VSRLW = currPicW - SRLLOffset - SRLROffset + srl_virtual_width_diff[i]
  VSRLH = currPicH - SRLTOffset - SRLBOffset + srl_virtual_height_diff[i]
 なお、レイヤ間予測画像生成処理に用いる参照レイヤに対応する仮想参照レイヤ対応領域差分サイズがパラメータセットに存在しない場合、仮想参照レイヤ対応領域差分の幅と高さはともに0に設定される。この場合、上記の式で導出される仮想参照レイヤ対応領域サイズは、参照レイヤ対応領域サイズに一致する。
 仮想参照レイヤ対応領域差分サイズを用いる場合、予測画像生成部1442で説明した方法に較べて、仮想参照レイヤ対応領域サイズの導出処理が簡略化できる利点がある。
  [変形例1E:仮想参照レイヤサイズ差分]
 仮想参照レイヤサイズ差分(A3WHd)は、レイヤ間スケール算出に用いる仮想参照レイヤサイズの算出に用いるパラメータである。概略的には、仮想参照レイヤ対応領域サイズ差分を、参照レイヤサイズに加算することで、仮想参照レイヤサイズを算出する。レイヤ間スケールの値は、予測画像生成部1442で説明した処理と同じ方法で、仮想参照レイヤ対応領域サイズに対する仮想参照レイヤサイズの比として計算される。
 仮想参照レイヤサイズ差分として、パラメータセットには、特定の参照レイヤに対応する仮想参照レイヤ差分幅(rl_virtual_width_diff[i])、および、仮想参照レイヤ差分高(rl_virtual_height_diff[i])が含まれる。なお、添え字iの意味は代替レイヤ間スケールの場合と同じである。
 予測画像生成部1442におけるスケール導出処理では、次式により仮想参照レイヤ対応領域サイズが計算される。
  rlVirtualW = refPicW + rl_virtual_width_diff[i]
  rlVirtualH = refPicH + rl_virtual_height_diff[i]
ここで、refPicWとrefPicHは予測画像生成処理に用いられる参照レイヤピクチャサイズの幅と高さにそれぞれ相当する。
 なお、レイヤ間予測画像生成処理に用いる参照レイヤに対応する仮想参照レイヤサイズ差分がパラメータセットに存在しない場合、仮想参照レイヤサイズ差分の幅と高さはともに0に設定される。この場合、上記の式で導出される仮想参照レイヤサイズは、参照レイヤサイズに一致する。
 仮想参照レイヤ対応領域差分サイズを用いる場合、予測画像生成部1442で説明した仮想参照レイヤサイズを直接送る方法に較べて、パラメータセット内のスケール補正情報の符号量を低減できるという利点がある。
  [変形例1の付記事項:スケール補正情報のパラメータ組み合わせ]
 スケール補正情報に含まれる各種のレイヤ間スケール導出に係るパラメータについて説明したが、ここではパラメータの好適な組み合わせを列挙する。
 まず、既に説明したレイヤ間スケール導出に係るパラメータを再度列挙する。
・A2TL:拡大参照レイヤ左上追加オフセット
・A2BR:拡大参照レイヤ右下追加オフセット
・A3WH:仮想参照レイヤサイズ
・A3WHd:仮想参照レイヤサイズ差分
・A4S:代替レイヤ間スケール
・A4Sd:代替レイヤ間スケール差分
・A5WH:仮想参照レイヤ対応領域サイズ
・A5WHd:仮想参照レイヤ対応領域サイズ差分
 次に、上記の記号を用いて、スケール補正情報を構成する好適なパラメータの組み合わせを列挙する。
・Comb1:A2TL、A2BR、A3WH
・Comb2:A2TL、A2BR、A3WHd
・Comb3:A5WH、A3WH
・Comb4:A5WH、A3WHd
・Comb5:A5WHd、A3WH
・Comb6:A5WHd、A3WHd
・Comb7:A4S
・Comb8:A4Sd
 上記いずれかのパラメータの組み合わせを含むスケール補正情報をパラメータセットに含めることで、階層符号化データの変換前後でレイヤ間スケールを維持する機能を実現できる。
 なお、階層動画像復号装置1のパラメータセット復号部12の説明において図11を参照して説明したスケール補正情報は、上記のComb1に相当する。
 [変形例2:位相維持との組み合わせ]
 階層動画像復号装置1の予測画像生成部1442において、パラメータセットに含まれるスケール補正情報を用いて対応参照位置を導出する方法を説明した。ここでは、上位レイヤの画素と下位レイヤの画素の位置関係を整数画素未満の単位で補正する目的で伝送されるレイヤ間位相対応情報を追加で用いて、対応参照位置を導出する方法を説明する。
 レイヤ間位相対応情報としては、図11を参照して説明した拡大参照レイヤ左上追加オフセットを用いる。この場合、拡大参照レイヤ左上追加オフセットは、スケール補正情報の構成要素であり、かつ、レイヤ間位相対応情報の構成要素でもある。
 レイヤ間スケールは予測画像生成部1442で説明した方法で導出される。以下では、整数表現のレイヤ間スケール(scaleIntX、scaleIntY)を用いるものとして説明する。レイヤ間スケールを用いて、対応参照位置の16分の1画素精度の水平成分xRef16と垂直成分yRef16は以下の手順で計算される。
 (S401)仮想参照レイヤピクチャ上の対応参照位置の水平成分と垂直成分にそれぞれ相当するxRefOrg16とyRefOrg16を以下の式で導出する。
  xRefOrg16 = ((xP - SRLLOffset + srl_add_left_offset[i]) * scaleIntX 
         + (1 << 11)) >> 12
  yRefOrg16 = ((yP - SRLTOffset + srl_add_top_offset[i]) * scaleIntY 
         + (1 << 11)) >> 12
上記の式によれば、仮想参照レイヤ対応領域の左上画素を基準とする対象レイヤ上の対象画素の水平方向の位置(xP - SRLLOffset + srl_add_left_offset[i])をレイヤ間スケールの水平成分(scaleIntX)の値を乗じた値を16分の1画素精度に調整した値を仮想参照レイヤピクチャ上の対応参照位置の水平成分(xRefOrg16)に設定している。垂直成分も同様である。
 (S402)仮想参照レイヤピクチャ左上画素を基準とする参照レイヤピクチャ左上画素の位置の水平成分と垂直成分にそれぞれ相当するxRefOffsetとyRefOffsetを次式により導出する。
  xRefOffset = (srl_add_left_offset[i] * scaleIntX + (1 << 15)) >> 16
  yRefOffset = (srl_add_top_offset[i] * scaleIntY + (1 << 15)) >> 16
上記の式によれば、拡大参照レイヤ左オフセット(srl_add_left_offset[i])の値にレイヤ間スケールの水平成分(scaleIntX)を乗じた値を1画素精度に調整した値を参照レイヤピクチャ左上画素位置の水平成分(xRefOffset)に設定している。垂直成分も同様である。
 (S403)対応参照位置の16分の1画素精度の水平成分xRef16と垂直成分yRef16はそれぞれ以下の式で導出される。
  xRef16 = xRefOrg16 - (xRefOffset << 4)
  yRef16 = yRefOrg16 - (yRefOffset << 4)
以上で対応参照位置の導出処理を終了する。
 上記で説明した対応参照位置の導出処理では、スケール補正情報とレイヤ間位相対応情報を用いて対応参照位置を導出している。したがって、注目領域抽出に代表される目的で、階層符号化データが変換される場合であっても、変換の前後でレイヤ間スケールと対象レイヤの画素と参照レイヤ画素の位置関係を維持できる。
 なお、スケール補正情報とレイヤ間位相対応情報を用いて対応参照位置を導出する場合のスケール補正情報としては、変形例1で説明した各種のパラメータの組み合わせを用いることもできる。その中でも、特に、以上の説明で利用したComb1またはComb1に相当するスケール補正情報、すなわち、拡大参照レイヤ左上追加オフセットと拡大参照レイヤ右上追加オフセットを含むスケール補正情報を用いることが好適である。この場合、拡大参照レイヤ左上追加オフセットを、スケール補正情報の用途とレイヤ間位相対応情報の用途で共有できるため、パラメータセットの符号量が少ないという利点がある。
 (階層動画像符号化装置の構成)
 図19を用いて、階層動画像符号化装置2の概略構成を説明する。図19は、階層動画像符号化装置2の概略的構成を示した機能ブロック図である。階層動画像符号化装置2は、対象レイヤの入力画像PIN#Tを、参照レイヤ符号化データDATA#Rを参照しながら符号化して、対象レイヤの階層符号化データDATAを生成する。なお、参照レイヤ符号化データDATA#Rは、参照レイヤに対応する階層動画像符号化装置において符号化済みであるとする。
 図19に示すように階層動画像符号化装置2は、NAL多重化部21、パラメータセット符号化部22、タイル設定部23、スライス符号化部24、復号ピクチャ管理部16、および、ベース復号部15を備える。
 NAL多重化部21は、入力される対象レイヤ符号化データDATA#Tと、参照レイヤ符号化データDATA#RとをNALユニットに格納することでNAL多重化した階層動画像符号化データDATAを生成し、外部に出力する。
 パラメータセット符号化部22は、入力されるタイル情報と入力画像に基づいて、入力画像の符号化に用いるパラメータセット(VPS、SPS、および、PPS)を設定して、対象レイヤ符号化データDATA#Tの一部としてVCL NALの形式でパケット化してNAL多重化部21に供給する。
 パラメータセット符号化部22が符号化するパラメータセットには、階層動画像復号装置1に関連して説明したピクチャ情報、表示領域情報、および、スケール補正情報が少なくとも含まれる。
 タイル設定部23は、入力画像に基づいてピクチャのタイル情報を設定して、パラメータセット符号化部22とスライス符号化部24に供給する。例えば、ピクチャサイズをM×N個のタイルに分割することを示すタイル情報を設定する。ここで、M、Nは任意の正の整数である。
 スライス符号化部24は、入力される入力画像、パラメータセット、タイル情報、および、復号ピクチャ管理部16に記録されている参照ピクチャに基づいて、ピクチャを構成するスライスに対応する入力画像の一部を符号化して、当該部分の符号化データを生成し、対象レイヤ符号化データDATA#Tの一部としてNAL多重化部21に供給する。スライス符号化部24の詳細な説明は後述する。
 復号ピクチャ管理部16は、既に説明した階層動画像復号装置1の備える復号ピクチャ管理部16と同一の構成要素である。ただし、階層動画像符号化装置2の備える復号ピクチャ管理部16では、内部のDPBに記録されたピクチャを出力ピクチャとして出力する必要はないため、当該出力は省略できる。なお、階層動画像復号装置1の復号ピクチャ管理部16の説明において「復号」として説明した記載は「符号化」と置き換えることで、階層動画像符号化装置2の復号ピクチャ管理部16にも適用できる。
 ベース復号部15は、既に説明した階層動画像復号装置1の備えるベース復号部15と同一の構成要素であり、詳細説明は省略する。
 (スライス符号化部)
 次に図20を参照して、スライス符号化部24の構成の詳細を説明する。図20は、スライス符号化部24の概略的構成を示した機能ブロック図である。
 図20に示すように、スライス符号化部24は、スライスヘッダ設定部241、スライス位置設定部242、CTU符号化部244を含む。CTU符号化部244は、内部に予測残差符号化部2441、予測画像符号化部2442、CTU復号画像生成部1443を含む。
 スライスヘッダ設定部241は、入力されるパラメータセットとスライス位置情報に基づいてスライス単位で入力される入力画像の符号化に用いるスライスヘッダを生成する。生成されたスライスヘッダは、スライス符号化データの一部として出力されるとともに、入力画像と合わせてCTU符号化部244に供給される。
 スライスヘッダ設定部241で生成されるスライスヘッダには、SHスライス位置情報が少なくとも含まれる。
 スライス位置設定部242は、入力されるタイル情報に基づいてピクチャ内のスライス位置を決定してスライスヘッダ設定部241に供給する。
 CTU符号化部244は、入力されるパラメータセット、スライスヘッダに基づいて、入力画像(対象スライス部分)をCTU単位で符号化して、対象スライスに係るスライスデータおよび復号画像(復号ピクチャ)を生成して出力する。CTUの符号化は、予測画像符号化部2442、予測残差符号化部2441、CTU復号画像生成部により実行される。
 予測画像符号化部2442は、対象スライスに含まれる対象CTUの予測方式および予測パラメータを決定し、決定した予測方式に基づいて予測画像を生成して予測残差符号化部2441とCTU復号画像生成部1443に出力する。予測方式や予測パラメータの情報は予測情報(PT情報)として可変長符号化されて、スライス符号化データに含まれるスライスデータの一部として出力される。予測画像符号化部2442で選択可能な予測方式には、少なくともレイヤ間画像予測が含まれている。
 予測画像符号化部2442は、予測方式としてレイヤ間画像予測が選択された場合、対応参照位置導出処理を実行して、予測対象画素に対応する参照レイヤ画素位置を決定し、該位置に基づく補間処理により予測画素値を決定する。対応参照位置導出処理としては、階層動画像復号装置1の予測画像生成部1442について説明した各処理が適用できる。例えば、図1を参照して説明した、パラメータセットに含まれるスケール補正情報に基づいて対応参照画素を導出する処理が適用される。
 予測残差符号化部2441は、入力される入力画像と予測画像の差分画像を、変換・量子化して得られる量子化変換係数(TT情報)を、スライス符号化データに含まれるスライスデータの一部として出力する。また、量子化変換係数に逆変換・逆量子化を適用して予測残差を復元し、復元した予測残差をCTU復号画像生成部1443に出力する。
 CTU復号画像生成部1443は、階層動画像復号装置1の同名の構成要素と同じ機能を有しているため、同一の符号を付与して説明を省略する。
 (動画像符号化装置2の効果)
 以上説明した本実施形態に係る階層動画像符号化装置2(階層画像符号化装置)は、パラメータセットを符号化するパラメータセット符号化部22と、参照レイヤピクチャの復号画素を参照してレイヤ間予測により予測画像を生成する予測画像符号化部2442を備えている。パラメータセット符号化部22はスケール補正情報を符号化し、予測画像符号化部2442は、該スケール補正情報から導出されるレイヤ間スケールの値を用いて対象レイヤ上の画素に対する対応参照位置を導出する。
 したがって、上記階層動画像符号化装置1は、注目領域抽出に代表される目的で階層符号化データを変換する場合であっても、変換の前後で同一のレイヤ間スケールを導出できる符号化データを生成できる。そのため、変換後の符号化データにおいて、上位レイヤの画素と下位レイヤの画素の位置関係の正確さを維持することでレイヤ間予測の予測残差が減少するため、より少ない符号量の符号化データを生成できる。
 〔階層符号化データ変換装置3〕
 図21を用いて、階層符号化データ変換装置3の概略構成を説明する。図21は、階層符号化データ変換装置3の概略的構成を示した機能ブロック図である。階層符号化データ変換装置3は、入力される階層符号化データDATAを変換して、入力される注目領域情報に係る階層符号化データDATA-ROIを生成する。なお、階層符号化データDATAは階層動画像符号化装置2により生成された階層符号化データである。また、階層符号化データDATA-ROIを階層動画像復号装置1に入力することで注目領域情報に係る上位レイヤの動画像を再生できる。
 図21に示すように、階層符号化データ変換装置3は、NAL逆多重化部11、NAL多重化部21、パラメータセット復号部12、タイル設定部13、パラメータセット修正部32、NAL選択部34を含む。
 NAL逆多重化部11、パラメータセット復号部12、タイル設定部13は、それぞれ、階層動画像復号装置1が含む同名の構成要素と同じ機能を有するため、同一の符号を付与して説明を省略する。
 NAL多重化部21は、階層動画像符号化装置2が含む同名の構成要素と同じ機能を有するため、同一の符号を付与して説明を省略する。
 パラメータセット修正部32は、入力される注目領域情報とタイル情報に基づいて、入力されるパラメータセット情報を修正して出力する。パラメータセット修正部32は、概略的には、パラメータセットに含まれるピクチャ情報、表示領域情報、レイヤ間画素対応情報、スケール補正情報、PPSタイル情報を修正する。
 注目領域情報は、動画像を構成するピクチャにおいて、ユーザー(例えば再生動画像の視聴者)が指定するピクチャの部分領域である。注目領域情報は、例えば矩形の領域で指定される。その場合、例えば、注目領域を表わす矩形の上辺、下辺、左辺、右辺のピクチャ全体の対応する辺(上辺、下辺、左辺、または、右辺)からの位置のオフセットを注目領域情報として指定できる。なお、矩形以外の形状の領域(例えば、円、多角形、物体抽出により抽出した物体を示す領域)を注目領域として使用してもよいが、以下では説明の簡単のため矩形の注目領域を想定する。なお、矩形以外の領域に対して、以下に記載する内容を適用する場合、例えば、注目領域を包含する面積最小の矩形を以下の説明における注目領域とみなして適用できる。
  (変換処理の概略)
 始めに、階層符号化データ変換装置3による変換処理によるパラメータセット修正の概略について、図22を参照して説明する。図22は、変換前後の階層符号化データにおけるピクチャ、注目領域、および、タイルの関係を例示した図である。図22では、拡張レイヤとベースレイヤの2レイヤから構成される階層符号化データ(変換前階層符号化データ)を変換して注目領域を含む階層符号化データ(変換後階層符号化データ)を生成する場合の、変換前後のピクチャの関係を示している。変換前階層符号化データの拡張レイヤは変換前ELピクチャに相当するデータであり、ベースレイヤは変換前BLピクチャに相当するデータである。同様に、変換後階層符号化データの拡張レイヤは変換後ELピクチャに相当するデータであり、ベースレイヤは変換後BLピクチャに相当するデータである。
 概略的には、階層符号化データ変換装置3は、入力される変換前階層符号化データから、拡張レイヤ上で注目領域と重複領域を持たないタイルを取り除き、関連するパラメータセットを修正することで、変換後の階層符号化データを生成する。階層動画像復号装置は、変換後階層符号化データを入力として、注目領域に係る復号画像を生成できる。
  (タイル情報の修正)
 パラメータセット修正部32は、入力される注目領域情報とタイル情報を参照して、対応する領域の一部が注目領域と重複するタイル(抽出対象タイル)のみを含むよう拡張レイヤのPPSタイル情報を更新する。抽出対象タイルの情報に基づいて、拡張レイヤのPPSタイル情報を更新する。まず、抽出対象タイルが1個の場合、tiles_enabled_flagを0に修正する。なお、抽出対象タイルが2個以上の場合は修正処理は省略できる。次に、ピクチャの水平方向と垂直方向に含まれる抽出対象タイルの個数に基づいて、タイル行数を表わす(num_tile_columns_minus1)とタイル列数を表わす(num_tile_rows_minus1)を修正する。次に、タイルサイズが不均等(uniform_spacing_flagが0)の場合には、抽出対象タイルを含まないタイル列の幅、抽出対象タイルを含まないタイル行の高さに係るシンタックスに対応するビット列をパラメータセットから削除する。
 加えて、パラメータセット修正部32は、変換前BLピクチャに含まれるタイルのうち、拡張レイヤで抽出したタイルの復号に不要なタイルを取り除く。例えば、変換後BLピクチャに対応する拡張レイヤ上の領域(変換後参照レイヤ対応領域)が、変換後ELピクチャを包含するようにベースレイヤのPPSタイル情報を更新する。
  (ピクチャ情報の修正)
 パラメータセット修正部32は、拡張レイヤの抽出対象タイルの集合に対応する領域を変換後ELピクチャサイズとしてピクチャ情報を修正する。変換後ELピクチャの幅と高さを拡張レイヤSPSのpic_width_in_luma_samplesとpic_height_in_luma_samplesの値としてそれぞれ設定する。
 加えて、パラメータセット修正部32は、ベースレイヤの抽出対象タイルの集合に対応する領域を変換後BLピクチャサイズとしてピクチャ情報を修正する。変換後BLピクチャの幅と高さをベースレイヤSPSのpic_width_in_luma_samplesとpic_height_in_luma_samplesの値としてそれぞれ設定する。
  (レイヤ間画素対応情報の修正)
 パラメータセット修正部32は、ピクチャサイズの変更を踏まえて、パラメータセットに含まれるレイヤ間画素対応情報を修正する。具体的には、レイヤ間画素対応情報に含まれる全てのレイヤ間画素対応オフセットを修正する。レイヤ間画素対応オフセットを構成する拡大参照レイヤ左オフセット(scaled_ref_layer_left_offset[i])は、変換後参照レイヤ対応領域の左上画素と変換後ELピクチャ左上画素の間の距離に相当する値が設定される。例えば、変換後参照レイヤ対応領域が変換後ELピクチャを包含する場合には拡大参照レイヤ左オフセットは負値に設定され、拡大参照レイヤ左オフセットの単位は2画素単位である場合には、前記距離を2画素単位で表現した値を絶対値とする負の整数が拡大参照レイヤ左オフセットの値に設定される。他の上、右、下に対応する拡大参照レイヤオフセットの値も同様に設定される。
  (スケール補正情報の修正)
 パラメータセット修正部32は、ピクチャサイズの変更を踏まえて、パラメータセットに含まれるスケール補正情報を修正する。スケール補正情報は、概略的には、変換前後の階層符号化データの復号時に導出されるレイヤ間スケールが一致するように更新される。
 例えば、レイヤ間スケールが仮想参照レイヤ対応領域サイズと仮想参照レイヤサイズの比として導出される場合、仮想参照レイヤ対応領域サイズが変換前ELピクチャのサイズと一致し、仮想参照レイヤサイズが変換前BLピクチャのサイズと一致するように修正される。
 また、例えば、スケール補正情報としては、図11を参照して説明した定義を用いる場合、変換前ELピクチャ左上画素と変換後参照レイヤ対応領域左上画素の間の距離に相当する値が拡大参照レイヤ左上追加オフセットの値として設定される。同様に、変換前ELピクチャ右下画素と変換後参照レイヤ対応領域右下画素の間の距離に相当する値が拡大参照レイヤ右下追加オフセットの値として設定される。仮想参照レイヤ幅と高さには、変換前BLピクチャの幅と高さがそれぞれ設定される。
  (表示領域情報の修正)
 パラメータセット修正部32は、入力される注目領域情報の示す注目領域と一致するように、入力されるパラメータセットに含まれるSPSの表示領域情報を書き換える。表示領域情報は、例えば、次のS301からS303の手順で書き換えられる。
 (S301)注目領域がピクチャ全体と一致するか否かを判定する。一致する場合、S302に進み、一致しない場合、S303に進む。
 (S302)上書き前の表示領域フラグの値が1であった場合には、当該表示領域フラグの値を0に上書きし、かつ、表示領域オフセット(conf_win_left_offset、conf_win_right_offset、conf_win_top_offset、conf_win_bottom_offset)をSPSから取り除いて処理を終了する。
 (S303)表示領域フラグの値を1に上書きする。表示領域オフセットの各オフセットを注目領域を表わす矩形の各辺のピクチャの対応する辺との位置のオフセットの値に設定する。例えば、注目領域上辺のピクチャ上辺に対する位置オフセットを表示領域上オフセット(conf_win_top_offset)の値に設定する。なお、書き換え前の表示領域フラグの値が1であった場合には、上記設定した注目領域オフセットの値を用いて、元の注目領域オフセットの値を上書きする。書き換え前の表示領域フラグの値が1であった場合には、上記設定した注目領域オフセットをSPSの表示領域フラグの直後に挿入する。
 NAL選択部34は、入力される注目領域情報とタイル情報に基づいて、入力されるビデオ符号化レイヤNAL(VCL NAL)の選択を行う。選択されたVCL NALはNAL多重化部21に順次出力され、選択されなかったVCL NALは破棄される。
 NAL選択部34で選択されるVCL NALは、抽出対象タイルに含まれるスライスに関するスライスヘッダおよびスライスデータを含むVCL NALである。NAL選択部34は、スライスヘッダに含まれるスライスアドレスとタイル情報から、スライスが抽出対象タイルに含まれているかを判定し、含まれている場合は当該スライスを含むVCL NALを選択し、含まれていない場合は該VCL NALを破棄する。
  (階層符号化データ変換処理フロー)
 階層符号化データ変換装置3による階層符号化データ変換処理は、S501~S506に示す手順を順次実行することで実現される。
 (S501)NAL逆多重化部11は、入力された階層符号化データDATAを逆多重化する。パラメータセットに係る部分(非VCL NAL)をパラメータ復号部12に出力し、スライスレイヤ(スライスヘッダ、スライスデータ)に係る部分であるビデオ符号化レイヤNAL(VCL NAL)をNAL選択部34に出力する。
 (S502)パラメータセット復号部12は、入力された非VCL NALからパラメータセット(VPS、SPS、PPS)を復号して、パラメータセット修正部32とタイル設定部13に出力する。
 (S503)タイル設定部13は、入力されるパラメータセットからタイル情報を導出してパラメータセット修正部32とNAL選択部34に出力する。
 (S504)パラメータセット修正部32は、入力される注目領域情報とタイル情報に基づいて入力されるパラメータセットを修正して出力する。
 (S505)NAL選択部34は、入力されるタイル情報と注目領域情報に基づいて、入力されるVCL NALの一部を選択し、選択したVCL NALをNAL多重化部21に出力する。
 (S506)NAL多重化部21は、入力される修正後のパラメータセットと修正後のスライスヘッダとスライスデータを修正後の対象レイヤの符号化データとして、入力される参照レイヤ符号化データDATA#Rと多重化して階層符号化データDATA-ROIとして外部に出力する。
 (階層符号化データ変換装置3の効果)
 以上説明した本実施形態に係る階層符号化データ変換装置3は、対象レイヤ(上位レイヤ)の符号化データに含まれるビデオレイヤの符号化データ(VCL NAL)の一部を注目領域情報に基づいて修正するNAL選択部34と、パラメータセット修正部32を備えている。NAL選択部34は、注目領域情報の示す注目領域に基づいて、注目領域と重複する領域をもつタイルを抽出対象タイルとして選択し、前記選択した抽出対象タイルに含まれるスライスに係るビデオレイヤの符号化データが変換後の階層符号化データに含まれる。パラメータセット修正部32は、注目領域情報とタイル情報に基づいて、ピクチャ情報、PPSタイル情報、表示情報、レイヤ間画素対応情報、および、スケール補正情報を修正する。
 上記の階層符号化データ変換装置3によれば、入力された階層符号化データを変換して、上位レイヤにおいて抽出対象タイル(注目領域と重複した領域を持つタイル)に係るVCL NALを抽出して、変換後の階層符号化データを構成できる。注目領域と重複領域を持たないタイルに係るVCL NALは破棄されるため、変換後の階層符号化データの符号量は、変換前の階層符号化データに較べて少ない。また、上記の階層符号化データ変換装置3によれば、パラメータセットを、抽出対象タイルに合わせてピクチャ情報、PPSタイル情報、表示情報を修正するため、変換後の階層符号化データは階層動画像復号装置により復号でき、注目領域に係る復号ピクチャを表示できる。加えて、レイヤ間画素対応情報とスケール補正情報が修正されるため、変換前後の階層符号化データでレイヤ間スケールと上位レイヤの画素と参照レイヤの画素の対応関係が維持される。そのため、変換前の符号化データにより生成されるレイヤ間予測の予測画像と変換後の符号化データにより生成されるレイヤ間予測の予測画像が同程度に維持できる。
 〔注目領域表示システム〕
 上述した階層動画像復号装置1、階層動画像符号化装置2、及び、階層符号化データ変換装置3を組み合わせて、注目領域情報を表示するシステム(注目領域表示システムSYS)を構成できる。
 図23に基づいて、上述した階層動画像復号装置1、階層動画像符号化装置2、及び、階層符号化データ変換装置3の組み合わせにより、注目領域表示システムが構成できることを説明する。図23は、階層動画像復号装置1、階層動画像符号化装置2、及び、階層符号化データ変換装置3の組み合わせによる注目領域表示システムの構成を示したブロック図である。注目領域表示システムSYSは、概略的には、品質の異なる入力画像を階層符号化して蓄積しておき、ユーザーからの注目領域情報に応じて蓄積された階層符号化データを変換して提供し、変換した階層符号化データを復号することで注目領域(ROI)に係る高品質の再生画像を表示する。
 図23に示すように、注目領域表示システムSYSは、階層動画像符号化部SYS1A、階層動画像符号化部SYS1B、階層符号化データ蓄積部SYS2、階層符号化データ変換部SYS3、階層動画像復号部SYS4、表示部SYS6、ROI通知部SYS8を構成要素として含む。
 階層動画像符号化部SYS1A、SYS1Bには、前述の階層動画像符号化装置2を利用できる。
 階層符号化データ蓄積部SYS2は、階層符号化データを蓄積し、要求に応じて階層符号化データを供給する。階層符号化データ蓄積部SYS2として、記録媒体(メモリ、ハードディスク、光学ディスク)を備えたコンピュータが利用できる。
 階層符号化データ変換部SYS3には、前述の階層符号化データ変換部3が利用できる。したがって、階層符号化データ変換部SYS3は、入力される階層符号化データに含まれるスケール情報を、入力される注目領域に合わせて適切な値に設定できる。
 階層動画像復号部SYS4には、前述の階層動画像復号装置1が利用できる。したがって、階層動画像復号部SYS4は、パラメータセットからスケール情報を復号して、該スケール情報を参照してレイヤ間予測を実行できる。
 表示部SYS6は、復号画像を所定の表示領域の所定の表示位置に表示する。例えば、表示領域はテレビの画面であり、表示位置はその全体である。なお、表示部SYS6は、入力される復号画像を表示領域のサイズに一致するサイズに拡大または縮小して表示することが好ましい。
 ROI通知部SYS8は、所定の方法でユーザーが指定した注目領域情報を通知する。例えば、ユーザーは全体表示画像が表示された表示領域上で、注目領域に相当する領域を指定することでROI通知部に注目領域を伝えることができる。なお、ROI通知部SYS8は、ユーザーの指定がない場合は、注目領域が無いことを示す情報を注目領域情報として通知する。
  (注目領域表示システムのフロー)
 注目領域表示システムによる処理は、階層符号化データ生成蓄積処理と注目領域データ生成再生処理に分けることができる。
 階層符号化データ生成蓄積処理では、異なる品質の入力画像から階層符号化データを生成して蓄積する。階層符号化データ生成蓄積処理は、T101からT103の手順で実行される。
 (T101)階層動画像符号化部SYS1Bは、入力される低品質の入力画像を符号化し、生成された階層符号化データを階層動画像符号化部SYS1Aに供給する。つまり、階層動画像符号化部SYS1Bは、入力画像から、階層動画像符号化部SYS1Aにおいて参照レイヤ(下位レイヤ)として使用される階層符号化データを生成して出力する。
 (T102)階層動画像符号化部SYS1Aは、入力される高品質の入力画像を、入力された階層符号化データを参照レイヤの符号化データとして符号化し、階層符号化データを生成して階層符号化データ蓄積部SYS2に出力する。
 (T103)階層符号化データ蓄積部SYS2は、入力された階層符号化データに適切なインデックスを付けて内部の記録媒体に記録する。
 注目領域データ生成再生処理では、階層符号化データ蓄積部SYS2から階層符号化データを読み出し、注目領域に相当する階層符号化データに変換し、変換した階層符号化データを復号して再生及び表示する。注目領域データ生成再生処理は、以下のT201~T205の手順で実行される。
 (T201)ユーザーの選択した動画像に関する階層符号化データが階層符号化データ蓄積部SYS2から階層符号化データ変換部SYS3に供給される。
 (T202)ROI通知部SYS8は、ユーザーの指定した注目領域情報を階層符号化データ変換部SYS3に通知する。
 (T203)階層符号化データ変換部SYS3は、入力された注目領域情報に基づいて、入力された階層符号化データを変換して、階層動画像復号部SYS4に出力する。
 (T204)階層動画像復号部SYS4は、入力された階層動画像符号化データ(変換後)を復号して、得られた上位レイヤの復号ピクチャを表示部SYS6に出力する。
 (T205)表示部SYS6は、入力された復号画像を表示する。
  (注目領域表示システムSYSの効果)
 以上説明した本実施形態に係る注目領域表示システムSYSは、注目領域情報を供給する注目領域通知部(ROI通知部SYS8)と、前記注目領域情報に基づいて階層符号化データを変換して変換後階層符号化データを生成する階層符号化データ変換部SYS3と、上記変換後階層符号化データを復号して上位レイヤ及び下位レイヤの復号ピクチャを出力する階層動画像復号部SYS4と、表示部SYS6を備えている。
 上記の注目領域表示システムSYSによれば、注目領域情報により指定された領域の復号ピクチャを表示できる。その際、注目領域情報により指定された領域の復号ピクチャは、階層符号化データの上位レイヤの符号化データから、スケール補正情報に基づいて導出されるレイヤ間スケールを使ったレイヤ間画像予測を用いて復号されるため、画質が高い。加えて、注目領域に基づいて変換された階層符号化データは、変換前の階層符号化データよりも符号量が少ない。したがって、上記の注目領域表示システムSYSを用いることで、階層符号化データの転送に要する帯域を削減しつつ、注目領域に係る画質の高い復号ピクチャを再生できる。
 (他の階層動画像符号化/復号システムへの適用例)
 上述した階層動画像符号化装置2及び階層動画像復号装置1は、動画像の送信、受信、記録、再生を行う各種装置に搭載して利用できる。なお、動画像は、カメラ等により撮像された自然動画像であってもよいし、コンピュータ等により生成された人工動画像(CGおよびGUIを含む)であってもよい。
 図24に基づいて、上述した階層動画像符号化装置2および階層動画像復号装置1を、動画像の送信および受信に利用できることを説明する。図24の(a)は、階層動画像符号化装置2を搭載した送信装置PROD_Aの構成を示したブロック図である。
 図24の(a)に示すように、送信装置PROD_Aは、動画像を符号化することによって符号化データを得る符号化部PROD_A1と、符号化部PROD_A1が得た符号化データで搬送波を変調することによって変調信号を得る変調部PROD_A2と、変調部PROD_A2が得た変調信号を送信する送信部PROD_A3とを備えている。上述した階層動画像符号化装置2は、この符号化部PROD_A1として利用される。
 送信装置PROD_Aは、符号化部PROD_A1に入力する動画像の供給源として、動画像を撮像するカメラPROD_A4、動画像を記録した記録媒体PROD_A5、動画像を外部から入力するための入力端子PROD_A6、及び、画像を生成または加工する画像処理部A7を更に備えていてもよい。図24の(a)においては、これら全てを送信装置PROD_Aが備えた構成を例示しているが、一部を省略しても構わない。
 なお、記録媒体PROD_A5は、符号化されていない動画像を記録したものであってもよいし、伝送用の符号化方式とは異なる記録用の符号化方式で符号化された動画像を記録したものであってもよい。後者の場合、記録媒体PROD_A5と符号化部PROD_A1との間に、記録媒体PROD_A5から読み出した符号化データを記録用の符号化方式に従って復号する復号部(不図示)を介在させるとよい。
 図24の(b)は、階層動画像復号装置1を搭載した受信装置PROD_Bの構成を示したブロック図である。図24の(b)に示すように、受信装置PROD_Bは、変調信号を受信する受信部PROD_B1と、受信部PROD_B1が受信した変調信号を復調することによって符号化データを得る復調部PROD_B2と、復調部PROD_B2が得た符号化データを復号することによって動画像を得る復号部PROD_B3とを備えている。上述した階層動画像復号装置1は、この復号部PROD_B3として利用される。
 受信装置PROD_Bは、復号部PROD_B3が出力する動画像の供給先として、動画像を表示するディスプレイPROD_B4、動画像を記録するための記録媒体PROD_B5、及び、動画像を外部に出力するための出力端子PROD_B6を更に備えていてもよい。図24の(b)においては、これら全てを受信装置PROD_Bが備えた構成を例示しているが、一部を省略しても構わない。
 なお、記録媒体PROD_B5は、符号化されていない動画像を記録するためのものであってもよいし、伝送用の符号化方式とは異なる記録用の符号化方式で符号化されたものであってもよい。後者の場合、復号部PROD_B3と記録媒体PROD_B5との間に、復号部PROD_B3から取得した動画像を記録用の符号化方式に従って符号化する符号化部(不図示)を介在させるとよい。
 なお、変調信号を伝送する伝送媒体は、無線であってもよいし、有線であってもよい。また、変調信号を伝送する伝送態様は、放送(ここでは、送信先が予め特定されていない送信態様を指す)であってもよいし、通信(ここでは、送信先が予め特定されている送信態様を指す)であってもよい。すなわち、変調信号の伝送は、無線放送、有線放送、無線通信、及び有線通信の何れによって実現してもよい。
 例えば、地上デジタル放送の放送局(放送設備など)/受信局(テレビジョン受像機など)は、変調信号を無線放送で送受信する送信装置PROD_A/受信装置PROD_Bの一例である。また、ケーブルテレビ放送の放送局(放送設備など)/受信局(テレビジョン受像機など)は、変調信号を有線放送で送受信する送信装置PROD_A/受信装置PROD_Bの一例である。
 また、インターネットを用いたVOD(Video On Demand)サービスや動画共有サービスなどのサーバ(ワークステーションなど)/クライアント(テレビジョン受像機、パーソナルコンピュータ、スマートフォンなど)は、変調信号を通信で送受信する送信装置PROD_A/受信装置PROD_Bの一例である(通常、LANにおいては伝送媒体として無線又は有線の何れかが用いられ、WANにおいては伝送媒体として有線が用いられる)。ここで、パーソナルコンピュータには、デスクトップ型PC、ラップトップ型PC、及びタブレット型PCが含まれる。また、スマートフォンには、多機能携帯電話端末も含まれる。
 なお、動画共有サービスのクライアントは、サーバからダウンロードした符号化データを復号してディスプレイに表示する機能に加え、カメラで撮像した動画像を符号化してサーバにアップロードする機能を有している。すなわち、動画共有サービスのクライアントは、送信装置PROD_A及び受信装置PROD_Bの双方として機能する。
 図25に基づいて、上述した階層動画像符号化装置2および階層動画像復号装置1を、動画像の記録および再生に利用できることを説明する。図25の(a)は、上述した階層動画像符号化装置2を搭載した記録装置PROD_Cの構成を示したブロック図である。
 図25の(a)に示すように、記録装置PROD_Cは、動画像を符号化することによって符号化データを得る符号化部PROD_C1と、符号化部PROD_C1が得た符号化データを記録媒体PROD_Mに書き込む書込部PROD_C2と、を備えている。上述した階層動画像符号化装置2は、この符号化部PROD_C1として利用される。
 なお、記録媒体PROD_Mは、(1)HDD(Hard Disk Drive)やSSD(Solid State Drive)等のように、記録装置PROD_Cに内蔵されるタイプのものであってもよいし、(2)SDメモリカードやUSB(Universal Serial Bus)フラッシュメモリ等のように、記録装置PROD_Cに接続されるタイプのものであってもよいし、(3)DVD(Digital Versatile Disc)やBD(Blu-ray Disc:登録商標)等のように、記録装置PROD_Cに内蔵されたドライブ装置(不図示)に装填されるものであってもよい。
 また、記録装置PROD_Cは、符号化部PROD_C1に入力する動画像の供給源として、動画像を撮像するカメラPROD_C3、動画像を外部から入力するための入力端子PROD_C4、動画像を受信するための受信部PROD_C5、及び、画像を生成または加工する画像処理部C6を更に備えていてもよい。図25の(a)においては、これら全てを記録装置PROD_Cが備えた構成を例示しているが、一部を省略しても構わない。
 なお、受信部PROD_C5は、符号化されていない動画像を受信するものであってもよいし、記録用の符号化方式とは異なる伝送用の符号化方式で符号化された符号化データを受信するものであってもよい。後者の場合、受信部PROD_C5と符号化部PROD_C1との間に、伝送用の符号化方式で符号化された符号化データを復号する伝送用復号部(不図示)を介在させるとよい。
 このような記録装置PROD_Cとしては、例えば、DVDレコーダ、BDレコーダ、HDD(Hard Disk Drive)レコーダなどが挙げられる(この場合、入力端子PROD_C4又は受信部PROD_C5が動画像の主な供給源となる)。また、カムコーダ(この場合、カメラPROD_C3が動画像の主な供給源となる)、パーソナルコンピュータ(この場合、受信部PROD_C5又は画像処理部C6が動画像の主な供給源となる)、スマートフォン(この場合、カメラPROD_C3又は受信部PROD_C5が動画像の主な供給源となる)なども、このような記録装置PROD_Cの一例である。
 図25の(b)は、上述した階層動画像復号装置1を搭載した再生装置PROD_Dの構成を示したブロックである。図25の(b)に示すように、再生装置PROD_Dは、記録媒体PROD_Mに書き込まれた符号化データを読み出す読出部PROD_D1と、読出部PROD_D1が読み出した符号化データを復号することによって動画像を得る復号部PROD_D2と、を備えている。上述した階層動画像復号装置1は、この復号部PROD_D2として利用される。
 なお、記録媒体PROD_Mは、(1)HDDやSSDなどのように、再生装置PROD_Dに内蔵されるタイプのものであってもよいし、(2)SDメモリカードやUSBフラッシュメモリなどのように、再生装置PROD_Dに接続されるタイプのものであってもよいし、(3)DVDやBDなどのように、再生装置PROD_Dに内蔵されたドライブ装置(不図示)に装填されるものであってもよい。
 また、再生装置PROD_Dは、復号部PROD_D2が出力する動画像の供給先として、動画像を表示するディスプレイPROD_D3、動画像を外部に出力するための出力端子PROD_D4、及び、動画像を送信する送信部PROD_D5を更に備えていてもよい。図25の(b)においては、これら全てを再生装置PROD_Dが備えた構成を例示しているが、一部を省略しても構わない。
 なお、送信部PROD_D5は、符号化されていない動画像を送信するものであってもよいし、記録用の符号化方式とは異なる伝送用の符号化方式で符号化された符号化データを送信するものであってもよい。後者の場合、復号部PROD_D2と送信部PROD_D5との間に、動画像を伝送用の符号化方式で符号化する符号化部(不図示)を介在させるとよい。
 このような再生装置PROD_Dとしては、例えば、DVDプレイヤ、BDプレイヤ、HDDプレイヤなどが挙げられる(この場合、テレビジョン受像機等が接続される出力端子PROD_D4が動画像の主な供給先となる)。また、テレビジョン受像機(この場合、ディスプレイPROD_D3が動画像の主な供給先となる)、デジタルサイネージ(電子看板や電子掲示板等とも称され、ディスプレイPROD_D3又は送信部PROD_D5が動画像の主な供給先となる)、デスクトップ型PC(この場合、出力端子PROD_D4又は送信部PROD_D5が動画像の主な供給先となる)、ラップトップ型又はタブレット型PC(この場合、ディスプレイPROD_D3又は送信部PROD_D5が動画像の主な供給先となる)、スマートフォン(この場合、ディスプレイPROD_D3又は送信部PROD_D5が動画像の主な供給先となる)なども、このような再生装置PROD_Dの一例である。
 (ハードウェア的実現およびソフトウェア的実現について)
 最後に、階層動画像復号装置1、階層動画像符号化装置2の各ブロックは、集積回路(ICチップ)上に形成された論理回路によってハードウェア的に実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェア的に実現してもよい。
 後者の場合、上記各装置は、各機能を実現する制御プログラムの命令を実行するCPU、上記プログラムを格納したROM(Read Only Memory)、上記プログラムを展開するRAM(Random Access Memory)、上記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである上記各装置の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記各装置に供給し、そのコンピュータ(またはCPUやMPU(Micro Processing Unit))が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
 上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ類、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD-ROM(Compact Disc Read-Only Memory)/MO(Magneto-Optical)/MD(Mini Disc)/DVD(Digital Versatile Disk)/CD-R(CD Recordable)等の光ディスクを含むディスク類、ICカード(メモリカードを含む)/光カード等のカード類、マスクROM/EPROM(Erasable Programmable Read-only Memory)/EEPROM(登録商標)(ElectricallyErasable and Programmable Read-only Memory)/フラッシュROM等の半導体メモリ類、あるいはPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等の論理回路類などを用いることができる。
 また、上記各装置を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークは、プログラムコードを伝送可能であればよく、特に限定されない。例えば、インターネット、イントラネット、エキストラネット、LAN(Local Area Network)、ISDN(Integrated Services Digital Network)、VAN(Value-Added Network)、CATV(Community Antenna Television)通信網、仮想専用網(Virtual Private Network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、この通信ネットワークを構成する伝送媒体も、プログラムコードを伝送可能な媒体であればよく、特定の構成または種類のものに限定されない。例えば、IEEE(Institute of Electrical and Electronic Engineers)1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL(Asymmetric DigitalSubscriber Line)回線等の有線でも、IrDA(Infrared Data Association)やリモコンのような赤外線、Bluetooth(登録商標)、IEEE802.11無線、HDR(High Data Rate)、NFC(Near Field Communication)、DLNA(Digital Living Network Alliance、登録商標)、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
 本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
 本発明は、画像データが階層的に符号化された符号化データを復号する階層画像復号装置、および、画像データが階層的に符号化された符号化データを生成する階層画像符号化装置に好適に適用できる。また、階層画像符号化装置によって生成され、階層画像復号装置によって参照される階層符号化データのデータ構造に好適に適用できる。
 1     階層動画像復号装置(画像復号装置)
 11    NAL逆多重化部
 12    パラメータセット復号部
 13    タイル設定部
 14    スライス復号部
 141   スライスヘッダ復号部
 142   スライス位置設定部
 144   CTU復号部
 1441  予測残差復元部
 1442  予測画像生成部
 1443  CTU復号画像生成部
 15    ベース復号部
 151   ベースNAL逆多重化部
 152   ベースパラメータセット復号部
 153   ベースタイル設定部
 154   ベーススライス復号部
 156   ベース復号ピクチャ管理部
 16    復号ピクチャ管理部
 2     階層動画像符号化装置(画像符号化装置)
 21    NAL多重化部
 22    パラメータセット符号化部
 23    タイル設定部
 24    スライス符号化部
 241   スライスヘッダ設定部
 242   スライス位置設定部
 244   CTU符号化部
 2441  予測残差符号化部
 2442  予測画像符号化部
 3     階層符号化データ変換装置(符号化データ変換装置)
 32    パラメータセット修正部
 34    NAL選択部

Claims (6)

  1.  階層符号化された符号化データに含まれる上位レイヤの符号化データを復号し、対象レイヤである上位レイヤの復号ピクチャを復元する画像復号装置であって、
     パラメータセットを復号するパラメータセット復号部と、
     参照レイヤピクチャの復号画素を参照して、レイヤ間予測により予測画像を生成する予測画像生成部を備え、
     前記パラメータセット復号部は参照レイヤに関するスケール補正情報を復号し、
     前記予測画像生成部は、前記スケール補正情報にもとづいて導出されるレイヤ間スケールを用いて対象レイヤの画素に対する参照レイヤ上の対応参照位置を導出することを特徴とする画像復号装置。
  2.  前記スケール補正情報にもとづいて、仮想参照レイヤサイズ差分が導出されることを特徴とする請求項1に記載の画像復号装置。
  3.  前記予測画像生成部で導出される前記レイヤ間スケールの値は、仮想参照レイヤ対応領域サイズと仮想参照レイヤサイズとの比の近似値であり、
     前記仮想参照レイヤサイズは、参照レイヤピクチャサイズと前記仮想参照レイヤサイズ差分の和であることを特徴とする、請求項2に記載の画像復号装置。
  4.  前記スケール補正情報がパラメータセットに含まれない場合、前記仮想参照レイヤサイズと上記参照レイヤピクチャサイズが一致するよう上記スケール補正情報の値を設定することを特徴とする、請求項3に記載の画像復号装置。
  5.  入力画像から上位レイヤの符号化データを生成する画像符号化装置であって、
     パラメータセットを復号するパラメータセット復号部と、
     参照レイヤピクチャの復号画素を参照して、レイヤ間予測により予測画像を生成する予測画像符号化部を備え、
     前記パラメータセット復号部は、スケール補正情報を符号化し、
     前記予測画像符号化部は、前記スケール補正情報から導出されるレイヤ間スケールの値を用いて対象レイヤの復号画素に対する対応参照位置を導出し、
     前記スケール補正情報にもとづいて、仮想参照レイヤサイズ差分が導出される
    ことを特徴とする画像符号化装置。
  6.  入力される階層符号化データを入力される注目領域情報に基づいて変換し、注目領域階層符号化データを生成して出力する、パラメータセット修正部を備える階層符号化データ変換装置であって、
     前記パラメータセット修正部は、変換前後の階層符号化データで導出されるレイヤ間スケールが一致するようにスケール補正情報を修正することを特徴とする階層符号化データ変換装置。
PCT/JP2014/081033 2013-12-06 2014-11-25 画像復号装置、画像符号化装置、および、符号化データ変換装置 WO2015083575A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2015551470A JP6229904B2 (ja) 2013-12-06 2014-11-25 画像復号装置、画像符号化装置、および、符号化データ変換装置
CN201480061744.2A CN105981386B (zh) 2013-12-06 2014-11-25 图像解码装置、图像编码装置及编码数据变换装置
KR1020167016343A KR101782454B1 (ko) 2013-12-06 2014-11-25 이미지 복호화 장치, 이미지 부호화 장치, 및 부호화된 데이터 변환 장치
EP14868412.9A EP3068136B1 (en) 2013-12-06 2014-11-25 Image decoding device
US15/174,648 US10142653B2 (en) 2013-12-06 2016-06-06 Image decoding apparatus, image coding apparatus, and coded data transformation apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013253259 2013-12-06
JP2013-253259 2013-12-06

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/174,648 Continuation US10142653B2 (en) 2013-12-06 2016-06-06 Image decoding apparatus, image coding apparatus, and coded data transformation apparatus

Publications (1)

Publication Number Publication Date
WO2015083575A1 true WO2015083575A1 (ja) 2015-06-11

Family

ID=53273338

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/081033 WO2015083575A1 (ja) 2013-12-06 2014-11-25 画像復号装置、画像符号化装置、および、符号化データ変換装置

Country Status (6)

Country Link
US (1) US10142653B2 (ja)
EP (1) EP3068136B1 (ja)
JP (1) JP6229904B2 (ja)
KR (1) KR101782454B1 (ja)
CN (1) CN105981386B (ja)
WO (1) WO2015083575A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018221368A1 (ja) * 2017-05-31 2018-12-06 シャープ株式会社 動画像復号装置、及び動画像符号化装置

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9185387B2 (en) 2012-07-03 2015-11-10 Gopro, Inc. Image blur based on 3D depth information
CN103927767B (zh) * 2014-04-18 2018-05-04 北京智谷睿拓技术服务有限公司 图像处理方法及图像处理装置
US10074013B2 (en) 2014-07-23 2018-09-11 Gopro, Inc. Scene and activity identification in video summary generation
US9685194B2 (en) 2014-07-23 2017-06-20 Gopro, Inc. Voice-based video tagging
US9734870B2 (en) 2015-01-05 2017-08-15 Gopro, Inc. Media identifier generation for camera-captured media
EP3099072A1 (en) * 2015-05-28 2016-11-30 Parabola Research Limited Method, system and device for image and video coding
US9639560B1 (en) 2015-10-22 2017-05-02 Gopro, Inc. Systems and methods that effectuate transmission of workflow between computing platforms
US10078644B1 (en) 2016-01-19 2018-09-18 Gopro, Inc. Apparatus and methods for manipulating multicamera content using content proxy
US9871994B1 (en) 2016-01-19 2018-01-16 Gopro, Inc. Apparatus and methods for providing content context using session metadata
US9787862B1 (en) 2016-01-19 2017-10-10 Gopro, Inc. Apparatus and methods for generating content proxy
US10129464B1 (en) 2016-02-18 2018-11-13 Gopro, Inc. User interface for creating composite images
US9972066B1 (en) 2016-03-16 2018-05-15 Gopro, Inc. Systems and methods for providing variable image projection for spherical visual content
US10402938B1 (en) 2016-03-31 2019-09-03 Gopro, Inc. Systems and methods for modifying image distortion (curvature) for viewing distance in post capture
US9838730B1 (en) 2016-04-07 2017-12-05 Gopro, Inc. Systems and methods for audio track selection in video editing
US10229719B1 (en) * 2016-05-09 2019-03-12 Gopro, Inc. Systems and methods for generating highlights for a video
US9953679B1 (en) 2016-05-24 2018-04-24 Gopro, Inc. Systems and methods for generating a time lapse video
US9967515B1 (en) 2016-06-15 2018-05-08 Gopro, Inc. Systems and methods for bidirectional speed ramping
US9922682B1 (en) 2016-06-15 2018-03-20 Gopro, Inc. Systems and methods for organizing video files
US10045120B2 (en) 2016-06-20 2018-08-07 Gopro, Inc. Associating audio with three-dimensional objects in videos
US10395119B1 (en) 2016-08-10 2019-08-27 Gopro, Inc. Systems and methods for determining activities performed during video capture
US9953224B1 (en) 2016-08-23 2018-04-24 Gopro, Inc. Systems and methods for generating a video summary
US10282632B1 (en) 2016-09-21 2019-05-07 Gopro, Inc. Systems and methods for determining a sample frame order for analyzing a video
US10268898B1 (en) 2016-09-21 2019-04-23 Gopro, Inc. Systems and methods for determining a sample frame order for analyzing a video via segments
US10397415B1 (en) 2016-09-30 2019-08-27 Gopro, Inc. Systems and methods for automatically transferring audiovisual content
US10044972B1 (en) 2016-09-30 2018-08-07 Gopro, Inc. Systems and methods for automatically transferring audiovisual content
US11106988B2 (en) 2016-10-06 2021-08-31 Gopro, Inc. Systems and methods for determining predicted risk for a flight path of an unmanned aerial vehicle
US10002641B1 (en) 2016-10-17 2018-06-19 Gopro, Inc. Systems and methods for determining highlight segment sets
US10339443B1 (en) 2017-02-24 2019-07-02 Gopro, Inc. Systems and methods for processing convolutional neural network operations using textures
US9916863B1 (en) 2017-02-24 2018-03-13 Gopro, Inc. Systems and methods for editing videos based on shakiness measures
US10360663B1 (en) 2017-04-07 2019-07-23 Gopro, Inc. Systems and methods to create a dynamic blur effect in visual content
US10395122B1 (en) 2017-05-12 2019-08-27 Gopro, Inc. Systems and methods for identifying moments in videos
CN116248866A (zh) * 2017-07-03 2023-06-09 汉阳大学校产学协力团 利用包含追加区域的分割单位的影像解码方法以及装置
US10402698B1 (en) 2017-07-10 2019-09-03 Gopro, Inc. Systems and methods for identifying interesting moments within videos
US10614114B1 (en) 2017-07-10 2020-04-07 Gopro, Inc. Systems and methods for creating compilations based on hierarchical clustering
KR102229410B1 (ko) 2017-09-18 2021-03-17 주식회사 엘지화학 배터리 모듈 및 이를 포함하는 배터리 팩
WO2019103126A1 (en) * 2017-11-22 2019-05-31 Sharp Kabushiki Kaisha Systems and methods for signaling tile structures for pictures of coded video
CN115103184A (zh) * 2018-12-21 2022-09-23 华为技术有限公司 一种使用基于历史的运动矢量预测的编码器、解码器及相应方法
WO2020141904A1 (ko) * 2019-01-02 2020-07-09 주식회사 엑스리스 영상 신호 부호화/복호화 방법 및 이를 위한 장치
KR102259186B1 (ko) * 2019-01-16 2021-06-01 텔레호낙티에볼라게트 엘엠 에릭슨(피유비엘) 나머지를 갖는 균일한 타일 분열을 포함하는 비디오 코딩
KR20220079983A (ko) * 2019-11-18 2022-06-14 엘지전자 주식회사 필터링을 위한 정보의 시그널링 기반 영상 코딩 장치 및 방법
WO2021121418A1 (en) 2019-12-19 2021-06-24 Beijing Bytedance Network Technology Co., Ltd. Joint use of adaptive colour transform and differential coding of video
CN115152220A (zh) * 2020-01-05 2022-10-04 抖音视界有限公司 自适应颜色变换编解码工具的偏移的使用
CN115176470A (zh) 2020-01-18 2022-10-11 抖音视界有限公司 图像/视频编解码中的自适应颜色变换
KR20220137903A (ko) 2020-02-21 2022-10-12 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 비디오 코딩의 슬라이스 및 타일 파티셔닝
AU2021226551A1 (en) * 2020-02-28 2022-09-29 Huawei Technologies Co., Ltd. An encoder, a decoder and corresponding methods simplifying signalling slice header syntax elements

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006109988A1 (en) * 2005-04-13 2006-10-19 Lg Electronics Inc. Method and apparatus for decoding video signal using reference pictures

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060109247A (ko) 2005-04-13 2006-10-19 엘지전자 주식회사 베이스 레이어 픽처를 이용하는 영상신호의 엔코딩/디코딩방법 및 장치
KR20070084002A (ko) * 2004-11-05 2007-08-24 마츠시타 덴끼 산교 가부시키가이샤 스케일러블 복호화 장치 및 스케일러블 부호화 장치
US20080056373A1 (en) * 2006-08-29 2008-03-06 Newlin John B Method and system for dynamic frequency adjustment during video decoding
WO2008060125A1 (en) * 2006-11-17 2008-05-22 Lg Electronics Inc. Method and apparatus for decoding/encoding a video signal
CN101395922A (zh) * 2006-11-17 2009-03-25 Lg电子株式会社 用于解码/编码视频信号的方法及装置
EP2051527A1 (en) 2007-10-15 2009-04-22 Thomson Licensing Enhancement layer residual prediction for bit depth scalability using hierarchical LUTs
US8797903B2 (en) * 2009-12-01 2014-08-05 Qualcomm Incorporated Method and apparatus of utilizing uplink synchronization shift command bits in TD-SCDMA uplink transmission
EP2833633A4 (en) * 2012-03-29 2015-11-11 Lg Electronics Inc METHOD FOR PREDICTION BETWEEN LAYERS, AND ENCODING DEVICE AND DECODING DEVICE USING THE SAME
US10225567B2 (en) 2013-10-08 2019-03-05 Sharp Kabushiki Kaisha Image decoder, image encoder, and encoded data converter

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006109988A1 (en) * 2005-04-13 2006-10-19 Lg Electronics Inc. Method and apparatus for decoding video signal using reference pictures

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
"MV-HEVC Draft Text 5", JOINT COLLABORATIVETEAM ON 3D VIDEO CODING EXTENSION DEVELOPMENT OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11 5TH MEETING, 27 July 2013 (2013-07-27)
"MV-HEVC/SHVC HLS: On conversion to ROI-capablemulti-layer bitstream", JOINT COLLABORATIVE TEAM ON VIDEO CODING (JCT-VC) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11 15TH MEETING, 23 October 2013 (2013-10-23)
"SHVC Draft 3", JOINT COLLABORATIVE TEAM ONVIDEO CODING (JCT-VC) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11 14TH MEETING, 25 July 2013 (2013-07-25)
JIANLE CHEN ET AL.: "High efficiency video coding (HEVC) scalable extension Draft 4", JOINT COLLABORATIVE TEAM ON VIDEO CODING (JCT-VC) OF ITU-T SG 16 WP3 AND ISO/IEC JTC1/SC29/WG11 JCTVC-O1008_V1(VERSIONL), ITU-T, 14 November 2013 (2013-11-14), pages 15,30 - 31,35, XP008181482, Retrieved from the Internet <URL:http://phenix.int-evry.fr/jct/doc_end_user/ current_document.php?id=8527> [retrieved on 20150120] *
RECOMMENDATION H.265 (04/13, 7 June 2013 (2013-06-07)
See also references of EP3068136A4
TOMOYUKI YAMAMOTO ET AL.: "MV-HEVC/SHVC HLS: On conversion to ROI-oriented multi-layer bitstream", JOINT COLLABORATIVE TEAM ON VIDEO CODING (JCT-VC) OF ITU-T SG 16 WP3 AND ISO/IECJTC 1/SC 29/WG11 ,15TH MEETING ,JCTVC-00056, 23 October 2013 (2013-10-23), pages 1 - 5, XP030115029 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018221368A1 (ja) * 2017-05-31 2018-12-06 シャープ株式会社 動画像復号装置、及び動画像符号化装置

Also Published As

Publication number Publication date
EP3068136A4 (en) 2016-11-02
US20160286235A1 (en) 2016-09-29
CN105981386B (zh) 2019-02-26
US10142653B2 (en) 2018-11-27
EP3068136A1 (en) 2016-09-14
KR20160085895A (ko) 2016-07-18
KR101782454B1 (ko) 2017-09-28
EP3068136B1 (en) 2022-01-05
JP6229904B2 (ja) 2017-11-15
JPWO2015083575A1 (ja) 2017-03-16
CN105981386A (zh) 2016-09-28

Similar Documents

Publication Publication Date Title
JP6229904B2 (ja) 画像復号装置、画像符号化装置、および、符号化データ変換装置
JP6363088B2 (ja) 画像復号装置、画像復号方法、画像符号化装置、および画像符号化方法
JP6542201B2 (ja) 画像復号装置および画像復号方法
JP6800837B2 (ja) 画像復号装置、及び画像復号方法
US10841600B2 (en) Image decoding device, an image encoding device and a decoding method
US20160249056A1 (en) Image decoding device, image coding device, and coded data
WO2015137237A1 (ja) 画像復号装置
US10136161B2 (en) DMM prediction section, image decoding device, and image coding device
WO2014162954A1 (ja) 画像復号装置、および画像符号化装置
JP2015073213A (ja) 画像復号装置、画像符号化装置、符号化データ変換装置、および、注目領域表示システム
WO2015098713A1 (ja) 画像復号装置および画像符号化装置
JP2015177318A (ja) 画像復号装置、画像符号化装置
JP2016072941A (ja) Dmm予測装置、画像復号装置、および画像符号化装置
JP2016143962A (ja) 領域分割画像生成装置、画像復号装置、および符号化装置。
JP2016076904A (ja) Dcオフセット情報復号装置、画像復号装置、およびdcオフセット情報符号化装置。
JP2015126508A (ja) 画像復号装置、画像符号化装置、符号化データ変換装置、領域再生装置
JP2015050506A (ja) 画像復号装置および画像符号化装置
JP2015002495A (ja) 画像復号装置、および画像符号化装置
JP2015076807A (ja) 画像復号装置、画像符号化装置、および符号化データのデータ構造
JP2015076806A (ja) 画像復号装置および画像符号化装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14868412

Country of ref document: EP

Kind code of ref document: A1

REEP Request for entry into the european phase

Ref document number: 2014868412

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2014868412

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2015551470

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 20167016343

Country of ref document: KR

Kind code of ref document: A