WO2021193428A1 - 情報処理装置及び情報処理方法 - Google Patents

情報処理装置及び情報処理方法 Download PDF

Info

Publication number
WO2021193428A1
WO2021193428A1 PCT/JP2021/011360 JP2021011360W WO2021193428A1 WO 2021193428 A1 WO2021193428 A1 WO 2021193428A1 JP 2021011360 W JP2021011360 W JP 2021011360W WO 2021193428 A1 WO2021193428 A1 WO 2021193428A1
Authority
WO
WIPO (PCT)
Prior art keywords
sub
picture
information
pictures
size
Prior art date
Application number
PCT/JP2021/011360
Other languages
English (en)
French (fr)
Inventor
充 勝股
遼平 高橋
平林 光浩
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to EP21776661.7A priority Critical patent/EP4102841A4/en
Priority to CN202180022845.9A priority patent/CN115398916A/zh
Priority to JP2022510421A priority patent/JPWO2021193428A1/ja
Priority to KR1020227031490A priority patent/KR20220158700A/ko
Priority to US17/911,677 priority patent/US20230179801A1/en
Publication of WO2021193428A1 publication Critical patent/WO2021193428A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding

Definitions

  • This disclosure relates to an information processing device and an information processing method.
  • VVC Very Video Coding
  • each image (picture) is divided into one or more slices (see, for example, Non-Patent Document 1).
  • VVC it is also possible to divide each picture into one or more sub-pictures.
  • the sub-picture is rectangular and is divided into one or more slices.
  • This sub-picture function is expected to be used, for example, in partial decoding of spherical images and the like, and in merging in which a plurality of pictures are combined into one picture.
  • Sub-picture mapping information such as the position and size of each sub-picture in the picture is stored in the sequence parameter set (SPS (Sequence Parameter Set)) as a parameter in units of CTU (Coding Tree Unit), which is the minimum unit of encoding. Will be done.
  • SPS Sequence Parameter Set
  • CTU Coding Tree Unit
  • Non-Patent Document 1 since the sub-picture mapping information is in CTU units based on the resolution, redundant bits may be generated, which causes a problem that the bit efficiency may be lowered. bottom.
  • this disclosure is made in view of such a situation, and proposes an information processing device and an information processing method capable of suppressing a decrease in bit efficiency.
  • the information processing device of one aspect of the present technology includes a coding unit that encodes a picture composed of two or more subpictures to generate encoded data, and a first subpicture of the two or more subpictures.
  • Sub-picture mapping information including the first size information and the second size information of each of one or more second sub-pictures other than the first sub-picture is regarded as the same as the first size information of the first sub-picture. It is provided with a metadata generation unit for generating the above, and a bit stream generation unit for generating a bit stream including the coded data and the sub-picture mapping information.
  • the information processing apparatus on the other aspect of the present technology includes an extraction unit that acquires coded data and sub-picture mapping information from the bit stream, and the restored picture by decoding the coded data and restoring the picture.
  • the sub-picture mapping information includes a decoding unit that divides the picture into two or more sub-pictures based on the sub-picture mapping information, and a rendering unit that renders the picture according to the two or more sub-pictures.
  • the first size information of the first subpicture of the subpictures and the second size information of each of one or more second subpictures other than the first subpicture are the same as the first size information of the first subpicture. Includes what is considered.
  • Non-Patent Document 1 (described above)
  • Non-Patent Document 1 the syntax and decoding process of the Sequence Parameter Set described in Non-Patent Document 1 are not directly defined in the items described in the present disclosure, they are within the scope of the present disclosure and support the scope of claims. Shall meet the requirements.
  • technical terms such as Parsing, Syntax, and Semantics are also within the scope of the present disclosure, even if they are not directly defined in the description of the present disclosure. Yes, and shall meet the support requirements of the scope of the claim.
  • a "block” (not a block indicating a processing unit) used in the description as a partial area of an image (picture) or a processing unit indicates an arbitrary partial area in the picture unless otherwise specified. Its size, shape, characteristics, etc. are not limited.
  • “block” includes TB (Transform Block), TU (Transform Unit), PB (Prediction Block), PU (Prediction Unit), SCU (Smallest Coding Unit), and CU described in the above-mentioned non-patent documents.
  • the block size may be specified using the identification information that identifies the size.
  • the block size may be specified by the ratio or difference with the size of the reference block (for example, LCU, SCU, etc.).
  • the designation of the block size also includes the designation of the range of the block size (for example, the designation of the range of the allowable block size).
  • a function called a sub-picture is implemented in which an image area corresponding to a picture is divided into a plurality of partial areas and used.
  • FIG. 1 is a diagram showing a main configuration example of a VVC bit stream, which is a bit stream generated by encoding an image by a VVC coding method.
  • the VVC bit stream 10 shown in FIG. 1 is coded data of a moving image composed of a plurality of frame images.
  • the VVC bitstream 10 is composed of a set of coded data 11 of CVS (Coded Video Sequence).
  • a CVS is a collection of pictures within a period of time. A certain period does not have to be a fixed period, and may be different for each coded data 11.
  • a picture is a frame image at a certain time. That is, the CVS coded data 11 is composed of a set of coded data 12 of the pictures at each time within a certain period.
  • the picture coding data 12 is composed of a set of sub-picture coding data 13.
  • a sub-picture is a partial area obtained by dividing a picture (that is, an image area corresponding to a picture).
  • the picture and the sub-picture have the following features.
  • the pictures and sub-pictures are rectangular. There are no pixels in the picture that do not have coded data. There is no overlap between sub-pictures. There are no picture pixels that are not included in any sub-picture.
  • the sub-picture is a function that aims to realize decoding (distributed processing) for each sub-picture, or to reduce the number of decoder instances by merging a plurality of pictures or sub-pictures into one picture.
  • the images of the six faces of each Cube of the spherical image (3DoF (Degree of Freedom) content) projected by the Cube map method are processed independently.
  • Various controls such as merging and processing are facilitated.
  • the sub-picture is not a coding unit such as a slice or a tile, for example, another sub-picture can be referred to at the time of coding.
  • the picture division information (sub-picture mapping information) is signaled (that is, transmitted from the coding side device to the decoding side device).
  • Sub-picture mapping information is fixed information (information that cannot be changed) in CVS.
  • the sub-picture mapping information is signaled in a sequence parameter set (SPS (Sequence Parameter Set)), which is a parameter set for each sequence, as in the syntax shown in FIG.
  • SPS Sequence Parameter Set
  • sps_num_subpics_minus1 indicates the number of sub-pictures in which each picture of CLVS (Coded Layer Video Sequence) includes a value obtained by adding 1.
  • the value of “sps_num_subpics_minus1” can be included in the range of the value “Ceil (pic_width_max_in_luma_samples ⁇ CtbSizeY) ⁇ Ceil (pic_height_max_in_luma_samples ⁇ CtbSizeY) -1” obtained from zero using the ceiling function. If “sps_num_subpics_minus1” is not included in the semantics, its value is estimated to be zero.
  • Subpic_ctu_top_left_x [i] indicates the horizontal position of the CTU at the upper left corner of the i-th sub-picture in the CtbSizeY unit.
  • the bit length of the relevant syntax element in the semantics is the bit length obtained by "Ceil (((pic_width_max_in_luma_samples + CtbSizeY-1) >> CtbLog2SizeY))”. If “subpic_ctu_top_left_x [i]” is not included in the semantics, the value is estimated to be zero.
  • Subpic_ctu_top_left_y [i] indicates the vertical position of the CTU at the upper left corner of the i-th sub-picture in the CtbSizeY unit.
  • the bit length of the syntax element in the semantics is the bit length obtained by "Ceil (((pic_height_max_in_luma_samples + CtbSizeY-1) >> CtbLog2SizeY))”. If “subpic_ctu_top_left_y [i]” is not included in the semantics, the value is estimated to be zero.
  • Subpic_width_minus1 [i] indicates the width of the i-th sub-picture in the unit whose value plus 1 is CtbSizeY.
  • the bit length of the syntax element in the semantics is the bit length obtained by "Ceil (((pic_width_max_in_luma_samples + CtbSizeY-1) >> CtbLog2SizeY))". If “subpic_width_minus1 [i]” is not included in the semantics, its value is estimated to be equal to "((pic_width_max_in_luma_samples + CtbSizeY-1) >> CtbLog2SizeY) -subpic_ctu_top_left_x [i] -1".
  • subpic_height_minus1 [i] the value obtained by adding 1 indicates the height of the i-th sub-picture in the unit of CtbSizeY.
  • the bit length of the syntax element in the semantics is the bit length obtained by "Ceil (((pic_height_max_in_luma_samples + CtbSizeY-1) >> CtbLog2SizeY))".
  • CtbSizeY indicates the CTB size of the CTU (unit is sample)
  • CtbLog2SizeY indicates the value of Log2 of CtbSizeY
  • picture_width_max_in_luma_samples is the width of the picture (unit is sample).
  • picture_height_max_in_luma_samples indicates the height of the picture (unit is sample).
  • Such sub-picture mapping information is information indicating the layout of each sub-picture to be a sub-picture.
  • the sub-picture mapping information is based on the position information (for example, XY coordinates, hereinafter also referred to as the reference position) of the reference pixel (for example, the upper leftmost pixel) of each partial region and the size information for each sub-picture.
  • the position information for example, XY coordinates, hereinafter also referred to as the reference position
  • the reference position for example, the upper leftmost pixel
  • the size information for each sub-picture To express.
  • the horizontal position (subpic_ctu_top_left_x) and the vertical position (subpic_ctu_top_left_y) of the upper left end pixel of each division area are shown in CTU units as the position information of the reference pixel of each subpicture.
  • the width (subpic_width_minus1) and the height (subpic_height_minus1) of each divided area are shown in CTU units
  • the bit length of the parameter (for example, the position information and size information of the reference pixel) for specifying the partial area corresponding to each sub-picture is the width and height of the picture and the CTB constituting the CTU. It can be calculated from the size.
  • the size of the CTB that constitutes the CTU (hereinafter, also referred to as the CTU size) is usually one of 32sample, 64sample, and 128sample.
  • FIG. 4 is a diagram showing a case where a picture having a size of 3072 ⁇ 2048 pixels is divided into six sub-pictures of equal size.
  • FIG. 5 is a diagram showing the bit length of each parameter in the semantics of the sub-picture mapping information in the case of being illustrated in FIG. In FIGS. 4 and 5, the CTU size is 128.
  • the bit length of “subpic_ctu_top_left_x [i]” in semantics is 5 bits
  • the bit length of “subpic_ctu_top_left_y [i]” is 4 bits
  • the bit length of “subpic_height_minus1 [i]” is 5 bits.
  • the bit length of "subpic_height_minus1 [i]” is 4 bits.
  • the number of bits required to express up to 3072 with a CTU size of 128 is 5 bits.
  • the total bit length of the parameters in that case is 9 bits.
  • the parameters of the upper left coordinate position and size information (width and height) for each sub-picture are signaled in CTU units.
  • the CTU is a unit area defined based on the resolution of the picture, it is very small as compared with the picture and the sub-picture. Therefore, if the parameters for each sub-picture are specified in CTU units, the bit length required to describe the parameters becomes long, and the bit efficiency may decrease.
  • the width and height of the partial regions of a plurality of sub-pictures that divide one picture are the same, in other words, this is applied to one picture.
  • the parameters that specify the width and height of the second and subsequent subpictures in the sequence parameter set (SPS) that is, subpic_width_minus1. Since [i] and subpic_height_minus1 [i]) can be omitted, it is possible to reduce the number of bits of the parameter in the sub-picture mapping information and suppress the reduction of bit efficiency.
  • FIG. 6 is a diagram showing an example of a sequence parameter set (SPS) in which sub-picture mapping information according to the present embodiment is signaled.
  • SPS sequence parameter set
  • “Fixed_subpic_width_height_flag” is a flag indicating whether or not the width and height of all subpictures are the same. For example, when “fixed_subpic_width_height_flag” is '1', the width and height of all subpictures are the same. If it is '0', it means that the width and height of at least one of the subpictures are different from those of the other subpictures.
  • subpic_width_minus1 [i] that defines the width and height of the second and subsequent sub-pictures.
  • subpic_height_minus1 [i] can be omitted, so that the number of bits of the parameter in the sub-picture mapping information can be reduced. As a result, it is possible to suppress a decrease in bit efficiency.
  • the reference position of each sub-picture (for example, the XY coordinates of the reference pixel located at the upper left corner of each sub-picture) is set to each. It can be easily obtained by calculation from the size (width and height) of the sub-picture.
  • the syntax that defines the XY coordinates (subpic_ctu_top_left_x [i], subpic_ctu_top_left_y [i]) of the reference pixel of each sub-picture shown in the 7th to 10th lines of FIG. 6 may be replaced with the syntax illustrated in FIG. good.
  • FIG. 8 is a block diagram showing an example of a configuration of an image coding device, which is an aspect of an information processing device to which the technique according to the present embodiment is applied.
  • the image coding device 100 shown in FIG. 8 is an example of a coding side device, and is a device that encodes an image.
  • the image coding apparatus 100 performs coding by applying, for example, a VVC-compliant coding method described in Non-Patent Document 1. At that time, the image coding apparatus 100 performs coding by applying the method described with reference to FIGS. 6 to 9 and the like.
  • FIG. 8 shows the main things such as the processing unit and the data flow, and not all of them are shown in FIG. That is, in the image coding apparatus 100, there may be a processing unit that is not shown as a block in FIG. 8, or there may be a processing or data flow that is not shown as an arrow or the like in FIG.
  • the image coding device 100 includes a coding unit 101, a metadata generation unit 102, and a bitstream generation unit 103.
  • the coding unit 101 performs processing related to image coding. For example, the coding unit 101 acquires each picture of the moving image input to the image coding device 100. The coding unit 101 encodes the acquired picture by applying, for example, a VVC-compliant coding method described in Non-Patent Document 1.
  • the coding unit 101 supplies the coded data generated by coding the image to the bitstream generation unit 103.
  • the coding unit 101 can exchange arbitrary information with the metadata generation unit 102 as appropriate at the time of coding.
  • the metadata generation unit 102 performs processing related to metadata generation. For example, the metadata generation unit 102 exchanges arbitrary information with the coding unit 101 to generate metadata. For example, the metadata generation unit 102 may generate metadata such as information on whether all sub-pictures have the same resolution, sub-picture reference pixel positions, sub-picture resolution, and various other information as sub-picture mapping information. The various other information may include, for example, information indicating whether all the sub-pictures can be independently processed, information such as sub-picture ID mapping information, and the like. The metadata generation unit 102 supplies the generated metadata to the bitstream generation unit 103.
  • the bitstream generation unit 103 performs processing related to bitstream generation. For example, the bitstream generation unit 103 acquires the coded data supplied from the coding unit 101. Further, the bitstream generation unit 103 acquires the metadata supplied from the metadata generation unit 102. The bitstream generation unit 103 generates a bitstream including the acquired encoded data and metadata. The bit stream generation unit 103 outputs the bit stream to the outside of the image coding device 100. The output bit stream is supplied to the decoding side device via, for example, a storage medium or a communication medium. The decoding side device executes the decoding process based on the information signaled in the bit stream.
  • the coding unit 101 of the image coding device 100 divides the picture into sub-pictures in step S101.
  • step S102 the coding unit 101 encodes the picture according to the sub-picture divided in step S101.
  • step S103 the metadata generation unit 102 generates metadata including sub-picture mapping information. At that time, the metadata generation unit 102 generates sub-picture mapping information with improved bit efficiency by using the above-mentioned method.
  • step S104 the bitstream generation unit 103 generates a bitstream using the coded data generated in step S102 and the metadata including the sub-picture mapping information generated in step S103. That is, the bitstream generation unit 103 generates a bitstream including the information.
  • the coding process ends when the bitstream is generated.
  • the decoding side device can perform the decoding process based on the information signaled in the bit stream.
  • FIG. 10 is a block diagram showing an example of a configuration of an image decoding device, which is an aspect of an information processing device to which the technique according to the present embodiment is applied.
  • the image decoding device 200 shown in FIG. 10 is an example of a decoding side device, and is a device that decodes coded data and generates an image.
  • the image decoding device 200 performs decoding by applying, for example, a decoding method based on VVC described in Non-Patent Document 1. At that time, the image decoding device 200 performs decoding by applying the method described with reference to FIGS. 6 to 9 and the like.
  • FIG. 10 shows the main things such as the processing unit and the data flow, and not all of them are shown in FIG. That is, in the image decoding apparatus 200, there may be a processing unit that is not shown as a block in FIG. 10, or there may be a processing or data flow that is not shown as an arrow or the like in FIG.
  • the image decoding device 200 has an analysis unit 201, an extraction unit 202, a decoding unit 203, and a rendering unit 204.
  • Analysis unit 201 performs processing related to metadata analysis. For example, the analysis unit 201 acquires a bit stream input to the image decoding device 200. The analysis unit 201 analyzes the metadata contained in the bit stream. Then, the analysis unit 201 supplies the metadata analysis result and the bit stream to the extraction unit 202.
  • the extraction unit 202 extracts desired information from the bit stream supplied from the analysis unit 201 based on the analysis result supplied from the analysis unit 201. For example, the extraction unit 202 extracts metadata including image coding data, sub-picture mapping information, and the like from the bit stream. Then, the extraction unit 202 supplies the information or the like extracted from the bit stream to the decoding unit 203.
  • Decoding unit 203 performs processing related to decoding. For example, the decoding unit 203 acquires the information supplied from the extraction unit 202. The decoding unit 203 decodes the acquired encoded data based on the acquired metadata to generate a picture. At that time, the decoding unit 203 divides the generated picture into sub-pictures by appropriately applying the methods described with reference to FIGS. 6 to 9 and the like. Then, the decoding unit 203 supplies the generated picture (image of each sub-picture) to the rendering unit 204. Further, the decoding unit 203 can supply the sub-picture rendering information to the rendering unit 204.
  • Rendering unit 204 performs processing related to rendering. For example, the rendering unit 204 acquires the picture or sub-picture rendering information supplied from the decoding unit 203. The rendering unit 204 renders a desired sub-picture in the picture based on the sub-picture rendering information, and generates a display image. Then, the rendering unit 204 outputs the generated display image to the outside of the image decoding device 200. This display image is supplied to and displayed on an image display device (not shown) via an arbitrary storage medium, communication medium, or the like.
  • the image decoding device 200 analyzes various information including the sub-picture mapping information signaled from the coding side device, and performs decoding processing based on the information.
  • the analysis unit 201 of the image decoding device 200 analyzes the metadata included in the bit stream in step S201.
  • step S202 the extraction unit 202 extracts the encoded data and the metadata including the sub-picture mapping information from the bit stream based on the analysis result of step S201.
  • step S203 the decoding unit 203 decodes the coded data extracted from the bitstream in step S202 based on the metadata extracted from the bitstream in step S202, and a picture (each subpicture included in the picture). To generate.
  • step S204 the decoding unit 203 divides the picture decoded in step S203 into a plurality of sub-pictures based on the sub-picture mapping information extracted in step S202.
  • step S205 the rendering unit 204 renders the picture divided into sub-pictures in step S204 to generate a display image.
  • Decoding process ends when the display image is generated.
  • decoding and rendering are performed based on the metadata including the signaled sub-picture mapping information.
  • FIG. 12 is a block diagram showing a configuration example of computer hardware that programmatically executes a series of processes executed by the information processing apparatus according to the above-described embodiment.
  • the CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the input / output interface 910 is also connected to the bus 904.
  • An input unit 911, an output unit 912, a storage unit 913, a communication unit 914, and a drive 915 are connected to the input / output interface 910.
  • the input unit 911 includes, for example, a keyboard, a mouse, a microphone, a touch panel, an input terminal, and the like.
  • the output unit 912 includes, for example, a display, a speaker, an output terminal, and the like.
  • the storage unit 913 includes, for example, a hard disk, a RAM disk, a non-volatile memory, or the like.
  • the communication unit 914 includes, for example, a network interface.
  • the drive 915 drives a removable medium 921 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 901 loads the program stored in the storage unit 913 into the RAM 903 via the input / output interface 910 and the bus 904 and executes the above-described series. Is processed.
  • the RAM 903 also appropriately stores data and the like necessary for the CPU 901 to execute various processes.
  • the program executed by the computer can be recorded and applied to the removable media 921 as a package media or the like, for example.
  • the program can be installed in the storage unit 913 via the input / output interface 910 by mounting the removable media 921 in the drive 915.
  • This program can also be provided via wired or wireless transmission media such as local area networks, the Internet, and digital satellite broadcasting. In that case, the program can be received by the communication unit 914 and installed in the storage unit 913.
  • this program can be installed in advance in ROM 902 or storage unit 913.
  • This technique can be applied to any image coding / decoding method. That is, as long as it does not contradict the above-mentioned technology, the specifications of various processes related to image coding / decoding such as conversion (inverse transformation), quantization (inverse quantization), coding (decoding), and prediction are arbitrary. It is not limited to the example. In addition, some of these processes may be omitted as long as they do not contradict the present technology described above.
  • this technology can be applied to a multi-viewpoint image coding / decoding system that encodes / decodes a multi-viewpoint image including images of a plurality of viewpoints (views).
  • the present technology may be applied to the coding / decoding of each viewpoint (view).
  • this technology is applied to a hierarchical image coding (scalable coding) / decoding system that encodes / decodes a hierarchical image that is layered (layered) so as to have a scalability function for a predetermined parameter. can do.
  • the present technology may be applied in the coding / decoding of each layer.
  • the image coding device 100, the image decoding device 200, and the image processing system 500 have been described, but the present technology is optional. Can be applied to the configuration of.
  • this technology is a transmitter or receiver (for example, a television receiver or mobile phone) for satellite broadcasting, wired broadcasting such as cable TV, distribution on the Internet, and distribution to terminals by cellular communication, or It can be applied to various electronic devices such as devices (for example, hard disk recorders and cameras) that record images on media such as optical disks, magnetic disks, and flash memories, and reproduce images from these storage media.
  • devices for example, hard disk recorders and cameras
  • a processor as a system LSI (Large Scale Integration) or the like (for example, a video processor), a module using a plurality of processors (for example, a video module), a unit using a plurality of modules (for example, a video unit)
  • a processor as a system LSI (Large Scale Integration) or the like
  • a module using a plurality of processors for example, a video module
  • a unit using a plurality of modules for example, a video unit
  • it can be implemented as a configuration of a part of the device, such as a set (for example, a video set) in which other functions are added to the unit.
  • this technology can be applied to a network system composed of a plurality of devices.
  • the present technology may be implemented as cloud computing that is shared and jointly processed by a plurality of devices via a network.
  • this technology is implemented in a cloud service that provides services related to images (moving images) to arbitrary terminals such as computers, AV (Audio Visual) devices, portable information processing terminals, and IoT (Internet of Things) devices. You may try to do it.
  • the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and a device in which a plurality of modules are housed in one housing are both systems. ..
  • Systems, devices, processing departments, etc. to which this technology is applied can be used in any field such as transportation, medical care, crime prevention, agriculture, livestock industry, mining, beauty, factories, home appliances, weather, nature monitoring, etc. .. Moreover, the use is arbitrary.
  • this technology can be applied to systems and devices used for providing ornamental contents and the like.
  • the present technology can be applied to systems and devices used for traffic such as traffic condition supervision and automatic driving control.
  • the present technology can be applied to systems and devices used for security purposes.
  • the present technology can be applied to a system or device used for automatic control of a machine or the like.
  • the present technology can be applied to systems and devices used for agriculture and livestock industry.
  • the present technology can also be applied to systems and devices for monitoring natural conditions such as volcanoes, forests and oceans, and wildlife. Further, for example, the present technology can be applied to systems and devices used for sports.
  • the "flag” is information for identifying a plurality of states, and is not only information used for identifying two states of true (1) or false (0), but also three or more states. It also contains information that can identify the state. Therefore, the value that this "flag” can take may be, for example, 2 values of 1/0 or 3 or more values. That is, the number of bits constituting this "flag” is arbitrary, and may be 1 bit or a plurality of bits.
  • the identification information (including the flag) is assumed to include not only the identification information in the bit stream but also the difference information of the identification information with respect to a certain reference information in the bit stream. In, the "flag” and “identification information” include not only the information but also the difference information with respect to the reference information.
  • various information (metadata, etc.) related to the coded data may be transmitted or recorded in any form as long as it is associated with the coded data.
  • the term "associate" means, for example, to make the other data available (linkable) when processing one data. That is, the data associated with each other may be combined as one data or may be individual data.
  • the information associated with the coded data (image) may be transmitted on a transmission path different from the coded data (image).
  • the information associated with the coded data (image) may be recorded on a recording medium (or another recording area of the same recording medium) different from the coded data (image). good.
  • this "association" may be a part of the data, not the entire data.
  • the image and the information corresponding to the image may be associated with each other in an arbitrary unit such as a plurality of frames, one frame, or a part within the frame.
  • the embodiment of the present technology is not limited to the above-described embodiment, and various changes can be made without departing from the gist of the present technology.
  • the configuration described as one device (or processing unit) may be divided and configured as a plurality of devices (or processing units).
  • the configurations described above as a plurality of devices (or processing units) may be collectively configured as one device (or processing unit).
  • a configuration other than the above may be added to the configuration of each device (or each processing unit).
  • a part of the configuration of one device (or processing unit) may be included in the configuration of another device (or other processing unit). ..
  • the above-mentioned program may be executed in any device.
  • the device may have necessary functions (functional blocks, etc.) so that necessary information can be obtained.
  • each step of one flowchart may be executed by one device, or may be shared and executed by a plurality of devices.
  • the plurality of processes may be executed by one device, or may be shared and executed by a plurality of devices.
  • a plurality of processes included in one step can be executed as processes of a plurality of steps.
  • the processes described as a plurality of steps can be collectively executed as one step.
  • the processing of the steps for writing the program may be executed in chronological order in the order described in the present specification, and the calls may be made in parallel or in parallel. It may be executed individually at the required timing such as when it is broken. That is, as long as there is no contradiction, the processing of each step may be executed in an order different from the above-mentioned order. Further, the processing of the step for writing this program may be executed in parallel with the processing of another program, or may be executed in combination with the processing of another program.
  • a plurality of technologies related to this technology can be independently implemented independently as long as there is no contradiction.
  • any plurality of the present technologies can be used in combination.
  • some or all of the techniques described in any of the embodiments may be combined with some or all of the techniques described in other embodiments.
  • a part or all of any of the above-mentioned techniques may be carried out in combination with other techniques not described above.
  • a plurality of technologies related to this technology can be independently implemented independently as long as there is no contradiction.
  • any plurality of the present technologies can be used in combination.
  • some or all of the techniques described in any of the embodiments may be combined with some or all of the techniques described in other embodiments.
  • a part or all of any of the above-mentioned techniques may be carried out in combination with other techniques not described above.
  • the present technology can also have the following configurations.
  • a coding unit that encodes a picture composed of two or more sub-pictures to generate coded data, and a coding unit.
  • the first size information of the first sub-picture of the two or more sub-pictures and the second size information of each of the one or more second sub-pictures other than the first sub-picture are the first size information of the first sub-picture.
  • a metadata generator that generates sub-picture mapping information, including what is considered the same as size information.
  • a bitstream generator that generates a bitstream containing the coded data and the subpicture mapping information, and a bitstream generator.
  • Information processing device equipped with is equipped with.
  • the information processing apparatus (2) The information processing apparatus according to (1) above, wherein the first size information is defined in units of CTU (Coding Tree Unit). (3) The information processing apparatus according to (1) or (2), wherein the first sub-picture is a sub-picture located at the upper left end of the picture. (4) The information processing apparatus according to any one of (1) to (3), wherein the first size information includes information on the width and height of the first subpicture. (5) The sub-picture mapping information includes any one of (1) to (4) above, further including position information indicating the position of each of the first sub-picture and the one or more second sub-pictures in the picture. The information processing device described.
  • the sub-picture mapping information includes first position information indicating the position of the first sub-picture in the picture and second position information indicating the position of each of the one or more second sub-pictures in the picture.
  • the information processing apparatus according to any one of (1) to (4), further including calculating based on the first position information and the first size information.
  • An extraction unit that acquires coded data and sub-picture mapping information from the bitstream, A decoding unit that decodes the coded data to restore the picture, and divides the restored picture into two or more sub-pictures based on the sub-picture mapping information.
  • a rendering unit that renders the picture according to the two or more sub-pictures, and a rendering unit.
  • the sub-picture mapping information includes the first size information of the first sub-picture of the two or more sub-pictures and the second size information of each of the one or more second sub-pictures other than the first sub-picture.
  • An information processing device including the same as the first size information of one sub-picture.
  • the first size information is defined in units of CTU (Coding Tree Unit).
  • the first sub-picture is a sub-picture located at the upper left corner of the picture.
  • the sub-picture mapping information includes any one of the above (7) to (10) further including position information indicating the position of each of the first sub-picture and the one or more second sub-pictures in the picture.
  • the sub-picture mapping information includes first position information indicating the position of the first sub-picture in the picture and second position information indicating the position of each of the one or more second sub-pictures in the picture. Further including the calculation based on the first position information and the first size information, The decoding unit calculates the second position information indicating the position of each of the one or more second sub-pictures in the picture based on the first position information and the first size information (7).
  • the information processing device according to any one of (10).
  • a picture composed of two or more sub-pictures is encoded to generate coded data, and the coded data is generated.
  • the first size information of the first sub-picture of the two or more sub-pictures and the second size information of each of the one or more second sub-pictures other than the first sub-picture are the first size information of the first sub-picture.
  • (14) Obtains coded data and sub-picture mapping information from the bitstream The coded data is decoded to restore the picture, and the restored picture is divided into two or more sub-pictures based on the sub-picture mapping information.
  • the sub-picture mapping information includes the first size information of the first sub-picture of the two or more sub-pictures and the second size information of each of the one or more second sub-pictures other than the first sub-picture.
  • An information processing method including the same as the first size information of one subpicture.
  • Image coding device 101 Coding unit 102 Metadata generation unit 103 Bitstream generation unit 200 Image decoding device 201 Analysis unit 202 Extraction unit 203 Decoding unit 204 Rendering unit

Abstract

ビット効率の低下を抑制する。情報処理装置は、2以上のサブピクチャで構成されたピクチャを符号化して符号化データを生成する符号化部(101)と、前記2以上のサブピクチャのうちの第1サブピクチャの第1サイズ情報と、前記第1サブピクチャ以外の1以上の第2サブピクチャそれぞれの第2サイズ情報を前記第1サブピクチャの前記第1サイズ情報と同じとみなすこととを含むサブピクチャマッピング情報を生成するメタデータ生成部(102)と、前記符号化データ及び前記サブピクチャマッピング情報を含むビットストリームを生成するビットストリーム生成部(103)と、を備える。

Description

情報処理装置及び情報処理方法
 本開示は、情報処理装置及び情報処理方法に関する。
 画像符号化方式の標準仕様として策定中であるVVC(Versatile Video Coding)では、各画像(ピクチャ)が1つ以上のスライスに分割される(例えば、非特許文献1参照)。また、VVCでは、各ピクチャを1つ以上のサブピクチャに分割することも可能である。
 VVCにおいて、サブピクチャは矩形であり、1つ以上のスライスに分割される。このサブピクチャ機能は、例えば、全天球映像などの部分デコードや、複数のピクチャを1つのピクチャに結合するマージなどで利用されることが想定される。
 ピクチャ内の各サブピクチャの位置および大きさといったサブピクチャマッピング情報は、エンコードの最小単位であるCTU(Coding Tree Unit)を単位としたパラメータとしてシーケンスパラメータセット(SPS(Sequence Parameter Set))内に格納される。
Benjamin Bross, Jianle Chen, Shan Liu, Ye-Kui Wang, "Versatile Video Coding (Draft 8)", JVET-Q2001-vE, Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 17th Meeting: Brussels, BE, 7-17 January 2020
 しかしながら、非特許文献1に記載の方法では、サブピクチャマッピング情報が解像度に基づいたCTU単位であるため、冗長なビットが発生する場合が存在し、それによりビット効率が低下し得るという課題が存在した。
 そこで本開示では、このような状況に鑑みてなされたものであり、ビット効率の低下を抑制することが可能な情報処理装置及び情報処理方法を提案する。
 本技術の一側面の情報処理装置は、2以上のサブピクチャで構成されたピクチャを符号化して符号化データを生成する符号化部と、前記2以上のサブピクチャのうちの第1サブピクチャの第1サイズ情報と、前記第1サブピクチャ以外の1以上の第2サブピクチャそれぞれの第2サイズ情報を前記第1サブピクチャの前記第1サイズ情報と同じとみなすこととを含むサブピクチャマッピング情報を生成するメタデータ生成部と、前記符号化データ及び前記サブピクチャマッピング情報を含むビットストリームを生成するビットストリーム生成部と、を備える。
 本技術の他の一側面の情報処理装置は、ビットストリームから符号化データ及びサブピクチャマッピング情報を取得する抽出部と、前記符号化データを復号してピクチャを復元し、復元された前記ピクチャを前記サブピクチャマッピング情報に基づいて2以上のサブピクチャに分割する復号部と、前記ピクチャを前記2以上のサブピクチャに従ってレンダリングするレンダリング部と、を備え、前記サブピクチャマッピング情報は、前記2以上のサブピクチャのうちの第1サブピクチャの第1サイズ情報と、前記第1サブピクチャ以外の1以上の第2サブピクチャそれぞれの第2サイズ情報を前記第1サブピクチャの前記第1サイズ情報と同じとみなすこととを含む。
ビットストリームの構成例を示す図である。 サブピクチャマッピング情報がシグナリングされるシーケンスパラメータセットの一例を示す図である。 サブピクチャマッピング情報が示す各部分領域の基準画素の位置情報とサイズ情報との例を示す図である。 サイズが3072×2048ピクセルのピクチャを均等なサイズの6つのサブピクチャに分割する場合を示す図である。 サブピクチャマッピング情報のセマンティクスにおける各パラメータのbit長の一例を示す図である。 本開示の一実施形態に係るサブピクチャマッピング情報がシグナリングされるシーケンスパラメータセットの一例を示す図である。 本開示の一実施形態の変形例に係るサブピクチャマッピング情報がシグナリングされるシーケンスパラメータセットの一部の一例を示す図である。 本開示の一実施形態に係る技術を適用した情報処理装置の一態様である画像符号化装置の構成の一例を示すブロック図である。 本開示の一実施形態に係る技術を適用した情報処理装置の一態様である画像符号化装置により実行される符号化処理の流れの例を示すフローチャートである。 本開示の一実施形態に係る技術を適用した情報処理装置の一態様である画像復号装置の構成の一例を示すブロック図である。 本開示の一実施形態に係る技術を適用した情報処理装置の一態様である画像復号装置により実行される復号処理の流れの例を示すフローチャートである。 本開示の実施形態に係る情報処理装置が実行する一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 以下、本開示を実施するための形態について説明する。なお、説明は以下の順序で行う。
  1.はじめに
  2.一実施形態
   2.1 サブピクチャマッピング情報のシンタックス
   2.2 各サブピクチャの基準位置を示すパラメータの省略によるビット効率の向上(変形例)
   2.3 画像符号化装置の構成例
    2.3.1 符号化処理の流れ
   2.4 画像復号装置の構成例
    2.4.1 復号処理の流れ
  3.付記
 1.はじめに
 本技術で開示される範囲は、実施形態に記載されている内容だけではなく、出願当時において公知となっている以下の非特許文献等に記載されている内容や以下の非特許文献において参照されている他の文献の内容等も含まれる。
 非特許文献1:(上述)
 つまり、上述の非特許文献に記載されている内容もサポート要件を判断する際の根拠となる。例えば、非特許文献1に記載されているSequence Parameter Setのシンタックス、復号処理が本開示の記載事項において直接的に定義されていない場合でも、本開示の範囲内であり、請求の範囲のサポート要件を満たすものとする。また、例えば、パース(Parsing)、シンタックス(Syntax)、セマンティクス(Semantics)等の技術用語についても同様に、本開示の記載事項において直接的に定義されていない場合でも、本開示の範囲内であり、請求の範囲のサポート要件を満たすものとする。
 また、本明細書において、画像(ピクチャ)の部分領域や処理単位として説明に用いる「ブロック」(処理部を示すブロックではない)は、特に言及しない限り、ピクチャ内の任意の部分領域を示し、その大きさ、形状、及び特性等は限定されない。例えば、「ブロック」には、上述の非特許文献に記載されているTB(Transform Block)、TU(Transform Unit)、PB(Prediction Block)、PU(Prediction Unit)、SCU(Smallest Coding Unit)、CU(Coding Unit)、LCU(Largest Coding Unit)、CTB(Coding Tree Block)、CTU(Coding Tree Unit)、サブブロック、マクロブロック、タイル、又はスライス等、任意の部分領域(処理単位)が含まれるものとする。
 また、このようなブロックのサイズを指定するに当たって、直接的にブロックサイズを指定するだけでなく、間接的にブロックサイズを指定するようにしてもよい。例えばサイズを識別する識別情報を用いてブロックサイズを指定するようにしてもよい。また、例えば、基準となるブロック(例えばLCUやSCU等)のサイズとの比又は差分によってブロックサイズを指定するようにしてもよい。例えば、シンタックス要素等としてブロックサイズを指定する情報を伝送する場合に、その情報として、上述のような間接的にサイズを指定する情報を用いるようにしてもよい。このようにすることにより、その情報の情報量を低減させることができ、符号化効率を向上させることができる場合もある。また、このブロックサイズの指定には、ブロックサイズの範囲の指定(例えば、許容されるブロックサイズの範囲の指定等)も含む。
  <サブピクチャ>
 非特許文献1に記載のVVCでは、ピクチャに相当する画像領域を複数の部分領域に分割して使用するサブピクチャと称する機能が実装された。
 図1は、画像をVVC符号化方式で符号化することにより生成されるビットストリームであるVVCビットストリームの主な構成例を示す図である。図1に示されるVVCビットストリーム10は、複数のフレーム画像からなる動画像の符号化データである。VVCビットストリーム10は、CVS(Coded Video Sequence)の符号化データ11の集合により構成される。1つのCVSは、ある期間内のピクチャの集合である。ある期間は一定の期間である必要はなく、符号化データ11ごとに異なっていてもよい。ピクチャは、ある時刻のフレーム画像である。つまり、CVSの符号化データ11は、ある期間内の各時刻のピクチャの符号化データ12の集合により構成される。
 そしてピクチャの符号化データ12は、サブピクチャの符号化データ13の集合により構成される。サブピクチャは、ピクチャ(つまり、ピクチャに相当する画像領域)を分割した部分領域である。
 非特許文献1に記載のVVCにおいて、ピクチャ及びサブピクチャは、次のような特徴を有する。ピクチャ及びサブピクチャは矩形である。ピクチャに符号化データの存在しない画素は存在しない。サブピクチャ同士の重なりは存在しない。ピクチャの画素でどのサブピクチャにも含まれない画素は存在しない。
 サブピクチャは、サブピクチャ毎の復号(分散処理)を実現したり、複数のピクチャ又はサブピクチャを1つのピクチャにマージすることによりデコーダのインスタンスを削減したりすることを目的とする機能である。
 例えば、Cube map方式でプロジェクションされた全天球映像(3DoF(Degree of Freedom)コンテンツ)の各Cubeの面の6面の画像をそれぞれサブピクチャに割り当てることにより、各面の画像を独立に処理したり、マージして処理したりする等、多様な制御が容易になる。なお、サブピクチャは、スライスやタイルのような符号化単位ではないので、符号化の際に例えば他のサブピクチャを参照することもできる。
 このようなサブピクチャを実現するために、ピクチャの分割情報(サブピクチャマッピング情報)がシグナリングされる(つまり、符号化側装置から復号側装置に伝送される)。
 サブピクチャマッピング情報はCVSで固定の情報(変更不可の情報)である。例えば、サブピクチャマッピング情報は、図2に示されるシンタックスのように、シーケンス単位のパラメータセットであるシーケンスパラメータセット(SPS(Sequence Parameter Set))においてシグナリングされる。
 図2に示すセマンティクスにおいて、“sps_num_subpics_minus1”は、1を加えた値が、CLVS(Coded Layer Video Sequence)の各ピクチャに含まれるサブピクチャの数を示す。“sps_num_subpics_minus1”の値は、ゼロからシーリング関数を用いて求まる値“Ceil(pic_width_max_in_luma_samples÷CtbSizeY)×Ceil(pic_height_max_in_luma_samples÷CtbSizeY)-1”の範囲内に含まれ得る。セマンティクス中に“sps_num_subpics_minus1”が含まれていない場合、その値はゼロと推定される。
 “subpic_ctu_top_left_x[i]”は、CtbSizeYのユニットにおけるi番目のサブピクチャの左上端のCTUの水平位置を示す。セマンティクス中の当該シンタックス要素(syntax element)のbit長は、“Ceil(Log2((pic_width_max_in_luma_samples+CtbSizeY-1)>>CtbLog2SizeY))”で求まるbit長となる。セマンティクス中に“subpic_ctu_top_left_x[i]”が含まれていない場合、その値はゼロと推定される。
 “subpic_ctu_top_left_y[i]”は、CtbSizeYのユニットにおけるi番目のサブピクチャの左上端のCTUの垂直位置を示す。セマンティクス中の当該シンタックス要素のbit長は、“Ceil(Log2((pic_height_max_in_luma_samples+CtbSizeY-1)>>CtbLog2SizeY))”で求まるbit長となる。セマンティクス中に“subpic_ctu_top_left_y[i]”が含まれていない場合、その値はゼロと推定される。
 “subpic_width_minus1[i]”は、1を加えた値がCtbSizeYのユニットにおけるi番目のサブピクチャの幅を示す。セマンティクス中の当該シンタックス要素のbit長は、“Ceil(Log2((pic_width_max_in_luma_samples+CtbSizeY-1)>>CtbLog2SizeY))”で求まるbit長となる。セマンティクス中に“subpic_width_minus1[i]”が含まれていない場合、その値は“((pic_width_max_in_luma_samples+CtbSizeY-1)>>CtbLog2SizeY)-subpic_ctu_top_left_x[i]-1”に等しいと推定される。
 “subpic_height_minus1[i]”は、1を加えた値が、CtbSizeYのユニットにおけるi番目のサブピクチャの高さを示す。セマンティクス中の当該シンタックス要素のbit長は、“Ceil(Log2((pic_height_max_in_luma_samples+CtbSizeY-1)>>CtbLog2SizeY))”で求まるbit長となる。セマンティクス中に“subpic_height_minus1[i]”が含まれていない場合、その値は“((pic_height_max_in_luma_samples+CtbSizeY-1)>>CtbLog2SizeY)-subpic_ctu_top_left_y[i]-1”に等しいと推定される。
 なお、図2に例示するセマンティクスにおいて、“CtbSizeY”はCTUのCTBサイズ(単位はsample)を示し、“CtbLog2SizeY”はCtbSizeYのLog2の値を示し、“pic_width_max_in_luma_samples”はピクチャの幅(単位はsample)を示し、“pic_height_max_in_luma_samples”はピクチャの高さ(単位はsample)を示す。
 このようなサブピクチャマッピング情報は、サブピクチャとする各部分領域のレイアウトを示す情報である。サブピクチャマッピング情報は、図3に示されるように、各部分領域の基準画素(例えば左上端の画素)の位置情報(例えばXY座標。以下、基準位置ともいう)とサイズ情報とにより各サブピクチャを表現する。図2及び図3の例の場合、各サブピクチャの基準画素の位置情報として、各分割領域の左上端画素の水平方向位置(subpic_ctu_top_left_x)と垂直方向位置(subpic_ctu_top_left_y)とがCTU単位で示されている。また、各サブピクチャのサイズ情報として、各分割領域の幅(subpic_width_minus1)と高さ(subpic_height_minus1)とがCTU単位で示されている。
 各サブピクチャに対応する部分領域を特定するためのパラメータ(例えば、基準画素の位置情報及びサイズ情報)のbit長は、ピクチャの幅(width)及び高さ(height)とCTUを構成するCTBのサイズとから計算により求めることができる。CTUを構成するCTBのサイズ(以下、CTUサイズともいう)は、通常では、32sample、64sample及び128sampleのいずれかである。
 ここで、サイズが3072×2048ピクセルのピクチャを、サイズが1024×1024ピクセルで均等な6つのサブピクチャに分割する場合におけるパラメータ“subpic_ctu_top_left_x[i]”、“subpic_ctu_top_left_y[i]”、“subpic_width_minus1[i]”、“subpic_height_minus1[i]”それぞれのセマンティクス中のbit長について説明する。これは、例えば、Cubmapの全天球映像の6面それぞれをサブピクチャにする場合などを想定した例であってよい。図4は、サイズが3072×2048ピクセルのピクチャを均等なサイズの6つのサブピクチャに分割する場合を示す図である。図5は、図4に例示する場合にサブピクチャマッピング情報のセマンティクスにおける各パラメータのbit長を示す図である。なお、図4及び図5では、CTUサイズを128としている。
 図5に示すように、セマンティクス中の“subpic_ctu_top_left_x[i]”のbit長は5bitであり、“subpic_ctu_top_left_y[i]”のbit長は4bitであり、“subpic_height_minus1[i]”のbit長は5bitであり、“subpic_height_minus1[i]”のbit長は4bitである。これを“subpic_ctu_top_left_x[i]”を例にとって説明すると、CTUサイズを128として3072まで表現するために必要なbit数は、5bitであるということである。
 したがって、図4に示すように、サイズが3072×2048ピクセルのピクチャをサイズが1024×1024ピクセルで均等な6つのサブピクチャに分割する場合、サブピクチャそれぞれのパラメータの合計bit長は、18bit(=5bit+4bit+5bit+4bit)となる。ただし、左上に位置するサブピクチャP1については、“subpic_ctu_top_left_x[0]”及び“subpic_ctu_top_left_y[0]”が省略可能であるため、その場合のパラメータの合計bit長は9bitとなる。同様に、右下に位置するサブピクチャP6については、“subpic_width_minus1[5]”及び“subpic_height_minus1[5]”が省略可能であるため、その場合のパラメータの合計bit長は9bitとなる。その結果、1つのピクチャ全体でのパラメータのbit長は、合計で90bit(=9bit+18bit+18bit+18bit+18bit+9bit)となる。
 このように、サブピクチャマッピング情報では、サブピクチャごとの左上の座標位置とサイズ情報(幅及び高さ)とのパラメータがCTU単位でシグナリングされる。ここで、CTUは、ピクチャの解像度に基づいて規定された単位領域であるため、ピクチャやサブピクチャと比べると非常に小さい。そのため、サブピクチャごとのパラメータをCTU単位で規定すると、パラメータの記述に要するbit長が長くなり、ビット効率が低下してしまう場合がある。
 そこで本開示では、サブピクチャに対するパラメータを条件に応じて省略可能とすることで、ビット効率の低下を抑制し得る手法について、例を挙げて説明する。
 2.一実施形態
 本開示の一実施形態では、1つのピクチャを分割する複数のサブピクチャの部分領域の幅(width)及び高さ(height)が同じであること、言い換えれば、1つのピクチャについてこれを等分割することでサブピクチャが規定されていることを条件とし、この条件を満たす場合、2番目以降(i=1以上の整数番目)のサブピクチャについては、既存のsubpic_width_minus1[0]及びsubpic_height_minus1[0]を流用すること、すなわち、ピクチャにおいて左上に位置する1番目(i=0)のサブピクチャで定義した幅(width)と高さ(height)とを流用することを、シーケンスパラメータセット(SPS)内のサブピクチャマッピング情報において定義する。それにより、サブピクチャの幅(width)及び高さ(height)が同じである場合には、シーケンスパラメータセット(SPS)において2番目以降のサブピクチャの幅及び高さを規定するパラメータ(すなわち、subpic_width_minus1[i]及びsubpic_height_minus1[i])を省略することが可能となるため、サブピクチャマッピング情報におけるパラメータのbit数を削減してビット効率の低減を抑制することが可能となる。
 2.1 サブピクチャマッピング情報のシンタックス
 図6は、本実施形態に係るサブピクチャマッピング情報がシグナリングされるシーケンスパラメータセット(SPS)の一例を示す図である。図6に示すように、本実施形態に係るSPSでは、図2を用いて説明したSPSに対して、5行目の“fixed_subpic_width_height_flag”が追加され、11行目のif文に対して“&&(!fixed_subpic_width_height_flag||(fixed_subpic_width_height_flag && i==0))”が追加され、13行目のif文に対して“&&(!fixed_subpic_width_height_flag||(fixed_subpic_width_height_flag && i==0))”が追加されている。
 “fixed_subpic_width_height_flag”は、全てのサブピクチャの幅と高さとが同じであるか否かを示すフラグであり、例えば、“fixed_subpic_width_height_flag”が‘1’の場合、全てのサブピクチャの幅と高さとが同じであることを示し、‘0’の場合、サブピクチャのうちの少なくとも1つの幅と高さとが他のサブピクチャのそれらとは異なることを示す。
 11行目のif文に対して追加された“&&(!fixed_subpic_width_height_flag||(fixed_subpic_width_height_flag && i==0))”及び12行目は、“fixed_subpic_width_height_flag”が‘1’の場合、iが0より大きい“subpic_width_minus1[i]”の値は“subpic_width_minus1[0]”の値と同じとみなすことを規定する。
 同様に、13行目のif文に対して追加された“&&(!fixed_subpic_width_height_flag||(fixed_subpic_width_height_flag && i==0))”及び14行目は、“fixed_subpic_width_height_flag”が‘1’の場合、iが0より大きい“subpic_height_minus1[i]”の値は“subpic_height_minus1[0]”のと同じとみなすことを規定する。
 以上のようなシンタックスとすることで、サブピクチャの幅(width)及び高さ(height)が同じである場合には、2番目以降のサブピクチャの幅及び高さを規定するsubpic_width_minus1[i]及びsubpic_height_minus1[i]を省略することが可能となるため、サブピクチャマッピング情報におけるパラメータのbit数を削減することが可能となる。それにより、ビット効率の低減を抑制することが可能となる。
 なお、全てのサブピクチャの幅(width)及び高さ(height)が同じである場合とは、例えば、全天球映像(3DoF(Degree of Freedom)コンテンツ)の6面の画像をそれぞれサブピクチャに割り当てる場合などが想定される。ただし、これに限定されず、サブピクチャの幅(width)及び高さ(height)を同じとする種々の形態に対して上記手法を適用することが可能である。
 2.2 各サブピクチャの基準位置を示すパラメータの省略によるビット効率の向上(変形例)
 また、全てのサブピクチャの幅(width)及び高さ(height)が同じである場合、各サブピクチャの基準位置(例えば、各サブピクチャの左上端に位置する基準画素のXY座標)は、各サブピクチャのサイズ(幅及び高さ)から計算により容易に求めることが可能である。その場合、図6の7~10行目に示す各サブピクチャの基準画素のXY座標(subpic_ctu_top_left_x[i]、subpic_ctu_top_left_y[i])を規定する構文は、図7に例示する構文に置き換えられてもよい。
 図7において、7行目のif文に対して追加された“&& !fixed_subpic_width_height_flag)”及び8行目は、“fixed_subpic_width_height_flag”が‘1’の場合、iが0より大きい“subpic_ctu_top_left_x[i]”の値はピクチャの幅(width)である“pic_width_max_in_luma_samples”とサブピクチャの幅(width)である“subpic_width_minus1[0]”の値に基づいて算出することを規定する。
 同様に、9行目のif文に対して追加された“&& !fixed_subpic_width_height_flag)”及び10行目は、“fixed_subpic_width_height_flag”が‘1’の場合、iが0より大きい“subpic_ctu_top_left_y[i]”の値はピクチャの幅(width)である“pic_width_max_in_luma_samples”とサブピクチャの幅(width)である“subpic_width_minus1[0]”の値から水平方向のサブピクチャの数を求めたうえで、ピクチャの高さ(height)である“pic_height_max_in_luma_samples”とサブピクチャの高さ(height)である“subpic_height_minus1[0]”の値に基づいて算出することを規定する。
 以上のようなシンタックスとすることで、サブピクチャの幅(width)及び高さ(height)が同じである場合には、元々のシンタックスで省略される1番目だけでなく2番目以降のサブピクチャの基準位置を規定するsubpic_ctu_top_left_x[i]及びsubpic_ctu_top_left_y[i]を省略することが可能となるため、サブピクチャマッピング情報におけるパラメータのbit数を削減することが可能となる。それにより、ビット効率の低減を抑制することが可能となる。
 2.3 画像符号化装置の構成例
 上述において説明したビット効率の低減を抑制するための手法は、任意の装置に対して適用することができる。例えば符号化側装置に適用することができる。図8は、本実施形態に係る技術を適用した情報処理装置の一態様である画像符号化装置の構成の一例を示すブロック図である。図8に示される画像符号化装置100は、符号化側装置の一例であり、画像を符号化する装置である。画像符号化装置100は、例えば、非特許文献1に記載のVVCに準拠した符号化方式を適用して符号化を行う。その際、画像符号化装置100は、図6~図9等を参照して説明した手法を適用して符号化を行う。
 なお、図8においては、処理部やデータの流れ等の主なものを示しており、図8に示されるものが全てとは限らない。つまり、画像符号化装置100において、図8においてブロックとして示されていない処理部が存在したり、図8において矢印等として示されていない処理やデータの流れが存在したりしてもよい。
 図8に示されるように、画像符号化装置100は、符号化部101、メタデータ生成部102、ビットストリーム生成部103を有する。
 符号化部101は、画像の符号化に関する処理を行う。例えば、符号化部101は、画像符号化装置100に入力される動画像の各ピクチャを取得する。符号化部101は、取得したピクチャを、例えば非特許文献1に記載のVVCに準拠した符号化方式を適用して符号化する。
 符号化部101は、画像を符号化して生成した符号化データをビットストリーム生成部103に供給する。また、符号化部101は、符号化の際、適宜、任意の情報を、メタデータ生成部102と授受することができる。
 メタデータ生成部102は、メタデータの生成に関する処理を行う。例えば、メタデータ生成部102は、符号化部101と任意の情報を授受し、メタデータを生成する。例えば、メタデータ生成部102は、メタデータとして、サブピクチャマッピング情報として全てのサブピクチャが同じ解像度であるかの情報、サブピクチャ基準画素位置、サブピクチャ解像度やその他各種情報を生成し得る。その他各種情報には、例えば、全てのサブピクチャが独立処理可能であるかを示す情報や、サブピクチャIDマッピング情報等の情報が含まれ得る。メタデータ生成部102は、生成したメタデータをビットストリーム生成部103に供給する。
 ビットストリーム生成部103は、ビットストリームの生成に関する処理を行う。例えば、ビットストリーム生成部103は、符号化部101から供給される符号化データを取得する。また、ビットストリーム生成部103は、メタデータ生成部102から供給されるメタデータを取得する。ビットストリーム生成部103は、取得した符号化データとメタデータを含むビットストリームを生成する。ビットストリーム生成部103は、そのビットストリームを画像符号化装置100の外部に出力する。出力されたビットストリームは、例えば、記憶媒体や通信媒体を介して、復号側装置に供給される。復号側装置は、ビットストリームにおいてシグナリングされた情報に基づいて復号処理を実行する。
 2.3.1 符号化処理の流れ
 次に、この画像符号化装置100により実行される符号化処理の流れの例を、図9のフローチャートを参照して説明する。
 符号化処理が開始されると、画像符号化装置100の符号化部101は、ステップS101において、ピクチャをサブピクチャに分割する。
 ステップS102において、符号化部101は、ピクチャをステップS101で分割したサブピクチャに従って符号化する。
 ステップS103において、メタデータ生成部102は、サブピクチャマッピング情報を含むメタデータを生成する。その際、メタデータ生成部102は、上述した手法を用いてビット効率が改善されたサブピクチャマッピング情報を生成する。
 ステップS104において、ビットストリーム生成部103は、ステップS102において生成された符号化データと、ステップS103において生成されたサブピクチャマッピング情報を含むメタデータとを用いてビットストリームを生成する。つまり、ビットストリーム生成部103は、それらの情報を含むビットストリームを生成する。
 ビットストリームが生成されると符号化処理が終了する。
 一方、復号側装置は、ビットストリームにおいてシグナリングされた情報に基づいて復号処理を行うことができる。
 2.4 画像復号装置の構成例
 本実施形態に係る技術は、復号側装置にも適用し得る。図10は、本実施形態に係る技術を適用した情報処理装置の一態様である画像復号装置の構成の一例を示すブロック図である。図10に示される画像復号装置200は、復号側装置の一例であり、符号化データを復号し、画像を生成する装置である。画像復号装置200は、例えば、非特許文献1に記載のVVCに準拠した復号方式を適用して復号を行う。その際、画像復号装置200は、図6~図9等を参照して説明した手法を適用して復号を行う。
 なお、図10においては、処理部やデータの流れ等の主なものを示しており、図10に示されるものが全てとは限らない。つまり、画像復号装置200において、図10においてブロックとして示されていない処理部が存在したり、図10において矢印等として示されていない処理やデータの流れが存在したりしてもよい。
 図10に示されるように、画像復号装置200は、解析部201、抽出部202、復号部203、及びレンダリング部204を有する。
 解析部201は、メタデータの解析に関する処理を行う。例えば、解析部201は、画像復号装置200に入力されるビットストリームを取得する。解析部201は、そのビットストリームに含まれるメタデータを解析する。そして、解析部201は、メタデータの解析結果やビットストリームを抽出部202に供給する。
 抽出部202は、解析部201から供給された解析結果に基づいて、解析部201から供給されたビットストリームから、所望の情報を抽出する。例えば、抽出部202は、ビットストリームから、画像の符号化データや、サブピクチャマッピング情報等を含むメタデータを抽出する。そして、抽出部202は、ビットストリームから抽出した情報等を復号部203に供給する。
 復号部203は、復号に関する処理を行う。例えば、復号部203は、抽出部202から供給される情報を取得する。復号部203は、取得したメタデータに基づいて、取得した符号化データを復号し、ピクチャを生成する。その際、復号部203は、図6~図9等を参照して説明した手法を適宜適用することで、生成されたピクチャをサブピクチャに分割する。そして、復号部203は、生成したピクチャ(各サブピクチャの画像)をレンダリング部204に供給する。また、復号部203は、サブピクチャレンダリング情報をレンダリング部204に供給しうる。
 レンダリング部204は、レンダリングに関する処理を行う。例えば、レンダリング部204は、復号部203から供給されるピクチャやサブピクチャレンダリング情報を取得する。レンダリング部204は、そのサブピクチャレンダリング情報に基づいて、ピクチャ内の所望のサブピクチャをレンダリングし、表示用画像を生成する。そして、レンダリング部204は、生成した表示用画像を画像復号装置200の外部に出力する。この表示用画像は、任意の記憶媒体又は通信媒体等を介して、図示せぬ画像表示装置に供給され、表示される。
 以上のように画像復号装置200は、符号化側装置からシグナリングされたサブピクチャマッピング情報を含む各種情報を解析し、その情報に基づいて復号処理を行う。
 2.4.1 復号処理の流れ
 次に、この画像復号装置200により実行される復号処理の流れの例を、図11のフローチャートを参照して説明する。
 復号処理が開始されると、画像復号装置200の解析部201は、ステップS201において、ビットストリームに含まれるメタデータを解析する。
 ステップS202において、抽出部202は、ステップS201の解析結果に基づいて、ビットストリームから符号化データと、サブピクチャマッピング情報を含むメタデータとを抽出する。
 ステップS203において、復号部203は、ステップS202においてビットストリームから抽出されたメタデータに基づいて、ステップS202においてビットストリームから抽出された符号化データを復号し、ピクチャ(ピクチャに含まれる各サブピクチャ)を生成する。
 ステップS204において、復号部203は、ステップS203で復号されたピクチャを、ステップS202で抽出されたサブピクチャマッピング情報に基づいて複数のサブピクチャに分割する。
 ステップS205において、レンダリング部204は、ステップS204においてサブピクチャに分割されたピクチャレンダリングし、表示用画像を生成する。
 表示用画像が生成されると復号処理が終了する。
 このように復号処理が行われることにより、シグナリングされたサブピクチャマッピング情報を含むメタデータに基づいて、復号やレンダリングが行われる。
 3.付記
  <コンピュータ>
 上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここでコンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータ等が含まれる。
 図12は、上述した実施形態に係る情報処理装置が実行する一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 図12に示されるコンピュータ900において、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、RAM(Random Access Memory)903は、バス904を介して相互に接続されている。
 バス904にはまた、入出力インタフェース910も接続されている。入出力インタフェース910には、入力部911、出力部912、記憶部913、通信部914、及びドライブ915が接続されている。
 入力部911は、例えば、キーボード、マウス、マイクロホン、タッチパネル、入力端子などよりなる。出力部912は、例えば、ディスプレイ、スピーカ、出力端子などよりなる。記憶部913は、例えば、ハードディスク、RAMディスク、不揮発性のメモリなどよりなる。通信部914は、例えば、ネットワークインタフェースよりなる。ドライブ915は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア921を駆動する。
 以上のように構成されるコンピュータでは、CPU901が、例えば、記憶部913に記憶されているプログラムを、入出力インタフェース910及びバス904を介して、RAM903にロードして実行することにより、上述した一連の処理が行われる。RAM903にはまた、CPU901が各種の処理を実行する上において必要なデータなども適宜記憶される。
 コンピュータが実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア921に記録して適用することができる。その場合、プログラムは、リムーバブルメディア921をドライブ915に装着することにより、入出力インタフェース910を介して、記憶部913にインストールすることができる。
 また、このプログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することもできる。その場合、プログラムは、通信部914で受信し、記憶部913にインストールすることができる。
 その他、このプログラムは、ROM902や記憶部913に、あらかじめインストールしておくこともできる。
  <本技術の適用対象>
 本技術は、任意の画像符号化・復号方式に適用することができる。つまり、上述した本技術と矛盾しない限り、変換(逆変換)、量子化(逆量子化)、符号化(復号)、予測等、画像符号化・復号に関する各種処理の仕様は任意であり、上述した例に限定されない。また、上述した本技術と矛盾しない限り、これらの処理の内の一部を省略してもよい。
 また本技術は、複数の視点(ビュー(view))の画像を含む多視点画像の符号化・復号を行う多視点画像符号化・復号システムに適用することができる。その場合、各視点(ビュー(view))の符号化・復号において、本技術を適用するようにすればよい。
 さらに本技術は、所定のパラメータについてスケーラビリティ(scalability)機能を有するように複数レイヤ化(階層化)された階層画像の符号化・復号を行う階層画像符号化(スケーラブル符号化)・復号システムに適用することができる。その場合、各階層(レイヤ)の符号化・復号において、本技術を適用するようにすればよい。
 また、以上においては、本技術の適用例として、画像符号化装置100、画像復号装置200、並びに、画像処理システム500(ファイル生成装置501及びクライアント装置503)について説明したが、本技術は、任意の構成に適用することができる。
 例えば、本技術は、衛星放送、ケーブルTVなどの有線放送、インターネット上での配信、及びセルラー通信による端末への配信などにおける送信機や受信機(例えばテレビジョン受像機や携帯電話機)、又は、光ディスク、磁気ディスク及びフラッシュメモリなどの媒体に画像を記録したり、これら記憶媒体から画像を再生したりする装置(例えばハードディスクレコーダやカメラ)などの、様々な電子機器に応用され得る。
 また、例えば、本技術は、システムLSI(Large Scale Integration)等としてのプロセッサ(例えばビデオプロセッサ)、複数のプロセッサ等を用いるモジュール(例えばビデオモジュール)、複数のモジュール等を用いるユニット(例えばビデオユニット)、又は、ユニットにさらにその他の機能を付加したセット(例えばビデオセット)等、装置の一部の構成として実施することもできる。
 また、例えば、本技術は、複数の装置により構成されるネットワークシステムにも適用することもできる。例えば、本技術を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングとして実施するようにしてもよい。例えば、コンピュータ、AV(Audio Visual)機器、携帯型情報処理端末、IoT(Internet of Things)デバイス等の任意の端末に対して、画像(動画像)に関するサービスを提供するクラウドサービスにおいて本技術を実施するようにしてもよい。
 なお、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、全ての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
  <本技術を適用可能な分野・用途>
 本技術を適用したシステム、装置、処理部等は、例えば、交通、医療、防犯、農業、畜産業、鉱業、美容、工場、家電、気象、自然監視等、任意の分野に利用することができる。また、その用途も任意である。
 例えば、本技術は、観賞用コンテンツ等の提供の用に供されるシステムやデバイスに適用することができる。また、例えば、本技術は、交通状況の監理や自動運転制御等、交通の用に供されるシステムやデバイスにも適用することができる。さらに、例えば、本技術は、セキュリティの用に供されるシステムやデバイスにも適用することができる。また、例えば、本技術は、機械等の自動制御の用に供されるシステムやデバイスに適用することができる。さらに、例えば、本技術は、農業や畜産業の用に供されるシステムやデバイスにも適用することができる。また、本技術は、例えば火山、森林、海洋等の自然の状態や野生生物等を監視するシステムやデバイスにも適用することができる。さらに、例えば、本技術は、スポーツの用に供されるシステムやデバイスにも適用することができる。
  <その他>
 なお、本明細書において「フラグ」とは、複数の状態を識別するための情報であり、真(1)又は偽(0)の2状態を識別する際に用いる情報だけでなく、3以上の状態を識別することが可能な情報も含まれる。したがって、この「フラグ」が取り得る値は、例えば1/0の2値であってもよいし、3値以上であってもよい。すなわち、この「フラグ」を構成するbit数は任意であり、1bitでも複数bitでもよい。また、識別情報(フラグも含む)は、その識別情報をビットストリームに含める形だけでなく、ある基準となる情報に対する識別情報の差分情報をビットストリームに含める形も想定されるため、本明細書においては、「フラグ」や「識別情報」は、その情報だけではなく、基準となる情報に対する差分情報も包含する。
 また、符号化データ(ビットストリーム)に関する各種情報(メタデータ等)は、符号化データに関連づけられていれば、どのような形態で伝送又は記録されるようにしてもよい。ここで、「関連付ける」という用語は、例えば、一方のデータを処理する際に他方のデータを利用し得る(リンクさせ得る)ようにすることを意味する。つまり、互いに関連付けられたデータは、1つのデータとしてまとめられてもよいし、それぞれ個別のデータとしてもよい。例えば、符号化データ(画像)に関連付けられた情報は、その符号化データ(画像)とは別の伝送路上で伝送されるようにしてもよい。また、例えば、符号化データ(画像)に関連付けられた情報は、その符号化データ(画像)とは別の記録媒体(又は同一の記録媒体の別の記録エリア)に記録されるようにしてもよい。なお、この「関連付け」は、データ全体でなく、データの一部であってもよい。例えば、画像とその画像に対応する情報とが、複数フレーム、1フレーム、又はフレーム内の一部分などの任意の単位で互いに関連付けられるようにしてもよい。
 なお、本明細書において、「合成する」、「多重化する」、「付加する」、「一体化する」、「含める」、「格納する」、「入れ込む」、「差し込む」、「挿入する」等の用語は、例えば符号化データとメタデータとを1つのデータにまとめるといった、複数の物を1つにまとめることを意味し、上述の「関連付ける」の1つの方法を意味する。
 また、本技術の実施形態は、上述した実施形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、1つの装置(又は処理部)として説明した構成を分割し、複数の装置(又は処理部)として構成するようにしてもよい。逆に、以上において複数の装置(又は処理部)として説明した構成をまとめて1つの装置(又は処理部)として構成されるようにしてもよい。また、各装置(又は各処理部)の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置(又は処理部)の構成の一部を他の装置(又は他の処理部)の構成に含めるようにしてもよい。
 また、例えば、上述したプログラムは、任意の装置において実行されるようにしてもよい。その場合、その装置が、必要な機能(機能ブロック等)を有し、必要な情報を得ることができるようにすればよい。
 また、例えば、1つのフローチャートの各ステップを、1つの装置が実行するようにしてもよいし、複数の装置が分担して実行するようにしてもよい。さらに、1つのステップに複数の処理が含まれる場合、その複数の処理を、1つの装置が実行するようにしてもよいし、複数の装置が分担して実行するようにしてもよい。換言するに、1つのステップに含まれる複数の処理を、複数のステップの処理として実行することもできる。逆に、複数のステップとして説明した処理を1つのステップとしてまとめて実行することもできる。
 また、例えば、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。つまり、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。
 また、例えば、本技術に関する複数の技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施形態において説明した本技術の一部又は全部を、他の実施形態において説明した本技術の一部又は全部と組み合わせて実施することもできる。また、上述した任意の本技術の一部又は全部を、上述していない他の技術と併用して実施することもできる。
 また、例えば、本技術に関する複数の技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術の一部又は全部を、他の実施の形態において説明した本技術の一部又は全部と組み合わせて実施することもできる。また、上述した任意の本技術の一部又は全部を、上述していない他の技術と併用して実施することもできる。
 なお、本技術は以下のような構成も取ることができる。
(1)
 2以上のサブピクチャで構成されたピクチャを符号化して符号化データを生成する符号化部と、
 前記2以上のサブピクチャのうちの第1サブピクチャの第1サイズ情報と、前記第1サブピクチャ以外の1以上の第2サブピクチャそれぞれの第2サイズ情報を前記第1サブピクチャの前記第1サイズ情報と同じとみなすこととを含むサブピクチャマッピング情報を生成するメタデータ生成部と、
 前記符号化データ及び前記サブピクチャマッピング情報を含むビットストリームを生成するビットストリーム生成部と、
 を備える情報処理装置。
(2)
 前記第1サイズ情報は、CTU(Coding Tree Unit)単位で規定されている
 前記(1)に記載の情報処理装置。
(3)
 前記第1サブピクチャは、前記ピクチャの左上端に位置するサブピクチャである
 前記(1)又は(2)に記載の情報処理装置。
(4)
 前記第1サイズ情報は、前記第1サブピクチャの幅と高さとの情報を含む
 前記(1)~(3)の何れか1つに記載の情報処理装置。
(5)
 前記サブピクチャマッピング情報は、前記第1サブピクチャ及び前記1以上の第2サブピクチャそれぞれの前記ピクチャ内での位置を示す位置情報をさらに含む
 前記(1)~(4)の何れか1つに記載の情報処理装置。
(6)
 前記サブピクチャマッピング情報は、前記第1サブピクチャの前記ピクチャ内での位置を示す第1位置情報と、前記1以上の第2サブピクチャそれぞれの前記ピクチャ内での位置を示す第2位置情報を前記第1位置情報と前記第1サイズ情報とに基づいて算出することとをさらに含む
 前記(1)~(4)の何れか1つに記載の情報処理装置。
(7)
 ビットストリームから符号化データ及びサブピクチャマッピング情報を取得する抽出部と、
 前記符号化データを復号してピクチャを復元し、復元された前記ピクチャを前記サブピクチャマッピング情報に基づいて2以上のサブピクチャに分割する復号部と、
 前記ピクチャを前記2以上のサブピクチャに従ってレンダリングするレンダリング部と、
 を備え、
 前記サブピクチャマッピング情報は、前記2以上のサブピクチャのうちの第1サブピクチャの第1サイズ情報と、前記第1サブピクチャ以外の1以上の第2サブピクチャそれぞれの第2サイズ情報を前記第1サブピクチャの前記第1サイズ情報と同じとみなすこととを含む
 情報処理装置。
(8)
 前記第1サイズ情報は、CTU(Coding Tree Unit)単位で規定されている
 前記(7)に記載の情報処理装置。
(9)
 前記第1サブピクチャは、前記ピクチャの左上端に位置するサブピクチャである
 前記(7)又は(8)に記載の情報処理装置。
(10)
 前記第1サイズ情報は、前記第1サブピクチャの幅と高さとの情報を含む
 前記(7)~(9)の何れか1つに記載の情報処理装置。
(11)
 前記サブピクチャマッピング情報は、前記第1サブピクチャ及び前記1以上の第2サブピクチャそれぞれの前記ピクチャ内での位置を示す位置情報をさらに含む
 前記(7)~(10)の何れか1つに記載の情報処理装置。
(12)
 前記サブピクチャマッピング情報は、前記第1サブピクチャの前記ピクチャ内での位置を示す第1位置情報と、前記1以上の第2サブピクチャそれぞれの前記ピクチャ内での位置を示す第2位置情報を前記第1位置情報と前記第1サイズ情報とに基づいて算出することとをさらに含み、
 前記復号部は、前記1以上の第2サブピクチャそれぞれの前記ピクチャ内での位置を示す前記第2位置情報を前記第1位置情報と前記第1サイズ情報とに基づいて算出する
 前記(7)~(10)の何れか1つに記載の情報処理装置。
(13)
 2以上のサブピクチャで構成されたピクチャを符号化して符号化データを生成し、
 前記2以上のサブピクチャのうちの第1サブピクチャの第1サイズ情報と、前記第1サブピクチャ以外の1以上の第2サブピクチャそれぞれの第2サイズ情報を前記第1サブピクチャの前記第1サイズ情報と同じとみなすこととを含むサブピクチャマッピング情報を生成し、
 前記符号化データ及び前記サブピクチャマッピング情報を含むビットストリームを生成する
 ことを含む情報処理方法。
(14)
 ビットストリームから符号化データ及びサブピクチャマッピング情報を取得し、
 前記符号化データを復号してピクチャを復元し、復元された前記ピクチャを前記サブピクチャマッピング情報に基づいて2以上のサブピクチャに分割し、
 前記ピクチャを前記2以上のサブピクチャに従ってレンダリングする
 ことを含み、
 前記サブピクチャマッピング情報は、前記2以上のサブピクチャのうちの第1サブピクチャの第1サイズ情報と、前記第1サブピクチャ以外の1以上の第2サブピクチャそれぞれの第2サイズ情報を前記第1サブピクチャの前記第1サイズ情報と同じとみなすこととを含む
 情報処理方法。
 100 画像符号化装置
 101 符号化部
 102 メタデータ生成部
 103 ビットストリーム生成部
 200 画像復号装置
 201 解析部
 202 抽出部
 203 復号部
 204 レンダリング部

Claims (14)

  1.  2以上のサブピクチャで構成されたピクチャを符号化して符号化データを生成する符号化部と、
     前記2以上のサブピクチャのうちの第1サブピクチャの第1サイズ情報と、前記第1サブピクチャ以外の1以上の第2サブピクチャそれぞれの第2サイズ情報を前記第1サブピクチャの前記第1サイズ情報と同じとみなすこととを含むサブピクチャマッピング情報を生成するメタデータ生成部と、
     前記符号化データ及び前記サブピクチャマッピング情報を含むビットストリームを生成するビットストリーム生成部と、
     を備える情報処理装置。
  2.  前記第1サイズ情報は、CTU(Coding Tree Unit)単位で規定されている
     請求項1に記載の情報処理装置。
  3.  前記第1サブピクチャは、前記ピクチャの左上端に位置するサブピクチャである
     請求項1に記載の情報処理装置。
  4.  前記第1サイズ情報は、前記第1サブピクチャの幅と高さとの情報を含む
     請求項1に記載の情報処理装置。
  5.  前記サブピクチャマッピング情報は、前記第1サブピクチャ及び前記1以上の第2サブピクチャそれぞれの前記ピクチャ内での位置を示す位置情報をさらに含む
     請求項1に記載の情報処理装置。
  6.  前記サブピクチャマッピング情報は、前記第1サブピクチャの前記ピクチャ内での位置を示す第1位置情報と、前記1以上の第2サブピクチャそれぞれの前記ピクチャ内での位置を示す第2位置情報を前記第1位置情報と前記第1サイズ情報とに基づいて算出することとをさらに含む
     請求項1に記載の情報処理装置。
  7.  ビットストリームから符号化データ及びサブピクチャマッピング情報を取得する抽出部と、
     前記符号化データを復号してピクチャを復元し、復元された前記ピクチャを前記サブピクチャマッピング情報に基づいて2以上のサブピクチャに分割する復号部と、
     前記ピクチャを前記2以上のサブピクチャに従ってレンダリングするレンダリング部と、
     を備え、
     前記サブピクチャマッピング情報は、前記2以上のサブピクチャのうちの第1サブピクチャの第1サイズ情報と、前記第1サブピクチャ以外の1以上の第2サブピクチャそれぞれの第2サイズ情報を前記第1サブピクチャの前記第1サイズ情報と同じとみなすこととを含む
     情報処理装置。
  8.  前記第1サイズ情報は、CTU(Coding Tree Unit)単位で規定されている
     請求項7に記載の情報処理装置。
  9.  前記第1サブピクチャは、前記ピクチャの左上端に位置するサブピクチャである
     請求項7に記載の情報処理装置。
  10.  前記第1サイズ情報は、前記第1サブピクチャの幅と高さとの情報を含む
     請求項7に記載の情報処理装置。
  11.  前記サブピクチャマッピング情報は、前記第1サブピクチャ及び前記1以上の第2サブピクチャそれぞれの前記ピクチャ内での位置を示す位置情報をさらに含む
     請求項7に記載の情報処理装置。
  12.  前記サブピクチャマッピング情報は、前記第1サブピクチャの前記ピクチャ内での位置を示す第1位置情報と、前記1以上の第2サブピクチャそれぞれの前記ピクチャ内での位置を示す第2位置情報を前記第1位置情報と前記第1サイズ情報とに基づいて算出することとをさらに含み、
     前記復号部は、前記1以上の第2サブピクチャそれぞれの前記ピクチャ内での位置を示す前記第2位置情報を前記第1位置情報と前記第1サイズ情報とに基づいて算出する
     請求項7に記載の情報処理装置。
  13.  2以上のサブピクチャで構成されたピクチャを符号化して符号化データを生成し、
     前記2以上のサブピクチャのうちの第1サブピクチャの第1サイズ情報と、前記第1サブピクチャ以外の1以上の第2サブピクチャそれぞれの第2サイズ情報を前記第1サブピクチャの前記第1サイズ情報と同じとみなすこととを含むサブピクチャマッピング情報を生成し、
     前記符号化データ及び前記サブピクチャマッピング情報を含むビットストリームを生成する
     ことを含む情報処理方法。
  14.  ビットストリームから符号化データ及びサブピクチャマッピング情報を取得し、
     前記符号化データを復号してピクチャを復元し、復元された前記ピクチャを前記サブピクチャマッピング情報に基づいて2以上のサブピクチャに分割し、
     前記ピクチャを前記2以上のサブピクチャに従ってレンダリングする
     ことを含み、
     前記サブピクチャマッピング情報は、前記2以上のサブピクチャのうちの第1サブピクチャの第1サイズ情報と、前記第1サブピクチャ以外の1以上の第2サブピクチャそれぞれの第2サイズ情報を前記第1サブピクチャの前記第1サイズ情報と同じとみなすこととを含む
     情報処理方法。
PCT/JP2021/011360 2020-03-27 2021-03-19 情報処理装置及び情報処理方法 WO2021193428A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP21776661.7A EP4102841A4 (en) 2020-03-27 2021-03-19 INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
CN202180022845.9A CN115398916A (zh) 2020-03-27 2021-03-19 信息处理装置和信息处理方法
JP2022510421A JPWO2021193428A1 (ja) 2020-03-27 2021-03-19
KR1020227031490A KR20220158700A (ko) 2020-03-27 2021-03-19 정보 처리 장치 및 정보 처리 방법
US17/911,677 US20230179801A1 (en) 2020-03-27 2021-03-19 Information processing device and information processing method

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202063000565P 2020-03-27 2020-03-27
US63/000,565 2020-03-27
US202063026901P 2020-05-19 2020-05-19
US63/026,901 2020-05-19

Publications (1)

Publication Number Publication Date
WO2021193428A1 true WO2021193428A1 (ja) 2021-09-30

Family

ID=77892559

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/011360 WO2021193428A1 (ja) 2020-03-27 2021-03-19 情報処理装置及び情報処理方法

Country Status (6)

Country Link
US (1) US20230179801A1 (ja)
EP (1) EP4102841A4 (ja)
JP (1) JPWO2021193428A1 (ja)
KR (1) KR20220158700A (ja)
CN (1) CN115398916A (ja)
WO (1) WO2021193428A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018221368A1 (ja) * 2017-05-31 2018-12-06 シャープ株式会社 動画像復号装置、及び動画像符号化装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018221368A1 (ja) * 2017-05-31 2018-12-06 シャープ株式会社 動画像復号装置、及び動画像符号化装置

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
BENJAMIN BROSSJIANLE CHENSHAN LIUYE-KUI WANG: "Versatile Video Coding (Draft 8", JVET-Q2001-VE, JOINT VIDEO EXPERTS TEAM (JVET) OF ITU-T SG 16 WP 3
BROSS, BENJAMIN ET AL.: "Versatile Video Coding (Draft 6)", JOINT VIDEO EXPERTS TEAM (JVET) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11 15TH MEETING, no. JVET-02001, 3 July 2019 (2019-07-03), Gothenburg, SE, pages 1 - 423, XP030208564 *
BROSS, BENJAMIN ET AL.: "Versatile Video Coding (Draft 8)", JOINT VIDEO EXPERTS TEAM (JVET) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11 17TH MEETING, no. Q2001, 7 January 2020 (2020-01-07), Brussels, BE, pages 1 - 489, XP030224280 *
M. ZHOU (TI): "AHG4: Sub-stream entry points SEI message", 11. JCT-VC MEETING; 20121010 - 20121019; SHANGHAI; (JOINT COLLABORATIVE TEAM ON VIDEO CODING OF ISO/IEC JTC1/SC29/WG11 AND ITU-T SG.16 ), 13 October 2012 (2012-10-13), XP030235999 *
R. SJöBERG (ERICSSON), M. PETTERSSON (ERICSSON), M. DAMGHANIAN (ERICSSON): "AHG12: On Uniform Tile Partitioning", 14. JVET MEETING; 20190319 - 20190327; GENEVA; (THE JOINT VIDEO EXPLORATION TEAM OF ISO/IEC JTC1/SC29/WG11 AND ITU-T SG.16 ), no. JVET-N0498, 13 March 2019 (2019-03-13), XP030203148 *
See also references of EP4102841A4
Y. -K. WANG (QUALCOMM), A. K. RAMASUBRAMONIAN (QUALCOMM), Y. CHEN (QUALCOMM), M. COBAN (QUALCOMM), M. KARCZEWICZ (QUALCOMM): "Tile groups", 8. JCT-VC MEETING; 20120201 - 20120210; SAN JOSE; (JOINT COLLABORATIVE TEAM ON VIDEO CODING OF ISO/IEC JTC1/SC29/WG11 AND ITU-T SG.16 ), no. JCTVC- H0520, 31 January 2012 (2012-01-31), XP030231917 *

Also Published As

Publication number Publication date
US20230179801A1 (en) 2023-06-08
EP4102841A1 (en) 2022-12-14
EP4102841A4 (en) 2023-07-12
CN115398916A (zh) 2022-11-25
JPWO2021193428A1 (ja) 2021-09-30
KR20220158700A (ko) 2022-12-01

Similar Documents

Publication Publication Date Title
US11611774B2 (en) Image processing apparatus and image processing method for 3D data compression
US10419801B2 (en) Information processing apparatus and method
US11699248B2 (en) Image processing apparatus and method
JPWO2019142666A1 (ja) 画像処理装置および方法
US11405644B2 (en) Image processing apparatus and method
JP7432032B2 (ja) ビデオエンコードおよびデコード方法、および装置
CN113519162B (zh) 数字视频中的参数集信令
WO2021117802A1 (ja) 画像処理装置および方法
US11399189B2 (en) Image processing apparatus and method
CN110100442B (zh) 图像处理装置和方法
KR20230125722A (ko) 비디오 코딩에서의 서브픽쳐 시그널링
KR20230125723A (ko) 비디오 코딩에서의 서브픽쳐 시그널링
CN115699751A (zh) 信息处理装置和方法
US20210006836A1 (en) Image encoding apparatus, image encoding method, image decoding apparatus, and image decoding method
WO2020071115A1 (ja) 画像処理装置および方法
WO2022255395A1 (ja) 画像処理装置および方法
WO2021193428A1 (ja) 情報処理装置及び情報処理方法
US20210400295A1 (en) Null tile coding in video coding
WO2020175908A1 (ko) 시그널링된 정보에 기반한 픽처 파티셔닝 방법 및 장치
WO2022138231A1 (ja) 画像処理装置および方法
WO2021117866A1 (ja) 画像処理装置および方法
WO2022075078A1 (ja) 画像処理装置および方法
WO2022050088A1 (ja) 画像処理装置および方法
CN117981322A (zh) 图像处理装置和方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21776661

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022510421

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2021776661

Country of ref document: EP

Effective date: 20220904

NENP Non-entry into the national phase

Ref country code: DE