WO2021002303A1 - Information processing device, information processing method, playback processing device, and playback processing method - Google Patents

Information processing device, information processing method, playback processing device, and playback processing method Download PDF

Info

Publication number
WO2021002303A1
WO2021002303A1 PCT/JP2020/025379 JP2020025379W WO2021002303A1 WO 2021002303 A1 WO2021002303 A1 WO 2021002303A1 JP 2020025379 W JP2020025379 W JP 2020025379W WO 2021002303 A1 WO2021002303 A1 WO 2021002303A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
gra
area
file
display
Prior art date
Application number
PCT/JP2020/025379
Other languages
French (fr)
Japanese (ja)
Inventor
平林 光浩
遼平 高橋
優 池田
勇司 藤本
矢ケ崎 陽一
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Publication of WO2021002303A1 publication Critical patent/WO2021002303A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream

Definitions

  • the present invention relates to an information processing device, an information processing method, a reproduction processing device, and a reproduction processing method.
  • H.H. which is one of the standard specifications of the image coding method.
  • 265 / HEVC the following is stipulated.
  • a sequence that corresponds to the entire compressed moving image contains a plurality of images, and each image is called a picture.
  • Each picture is divided into one or more slices.
  • a slice is the smallest decoding unit. Then, each slice is classified into one of I slice (Intra Slice), P slice (Predictive Slice) and B slice (Bipredictive Slice).
  • the I slice is a slice that is independently decoded without referring to other images.
  • a P-slice is a slice that is decoded by referencing a single other image.
  • a B slice is a slice that is decoded by referencing a plurality of other images.
  • the picture at the beginning of the sequence consisting of only I slices is called an IDR (Instantaneous Decoding Refresh) picture.
  • the IDR picture is identified by the value of the NAL (Network Abstraction Layer) unit type.
  • the pictures in the same sequence that follow the IDR picture do not refer to the pictures before the IDR picture in the decoding order (decoding order), but in the decoding order (decoding Order) or display order (presentation Order) than the IDR picture. Located behind.
  • the video when attempting to randomly access a time point in the middle of the video of a certain coded stream, the video can be appropriately decoded from the IDR picture in the vicinity of the specified time point.
  • the random access is not a decoding process from the beginning of the stream, but a process of decoding and reproducing the stream from the middle of the stream.
  • GAA Gradual Random Access
  • sync sample is stored in sync sample box.
  • VVC Very Video Coding
  • SERIES H AUDIOVISUAL AND MULTIMEDIA SYSEMS.
  • the present disclosure provides an information processing device, an information processing method, a reproduction processing device, and a reproduction processing method that provide a user with a high-quality viewing experience.
  • the coding unit encodes an image in an image sequence to generate a coded stream.
  • the determination unit determines one or more decoding start images in the image sequence that can be used as the image to start decoding at the time of Gradual Random Access (GRA).
  • GAA Gradual Random Access
  • the file generation unit inserts GRA information regarding the decoding start image determined by the determination unit into the header area of the file format including the header area and the data area, and inserts the coded stream into the data area.
  • Non-Patent Document 1 (above)
  • Non-Patent Document 2 ITU-T H.264.
  • SERIES H AUDIOVISUAL AND MULTIMEDIA SYSEMS.
  • Non-Patent Document 3 m48053, Versatile Video Coding (Draft 5), B. Bross, J. Chen, S. Liu, Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO / IEC JTC 1 / SC 29/WG 11 14th Meeting: Geneva, CH, 19-27 Mar.
  • Non-Patent Document 4 m48054, Algorithm description for Versatile Video Coding and Test Model 5 (VTM 5), J. Chen, Y. Ye, S. Kim, Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO / IEC JTC 1 / SC 29/WG 11 14th Meeting: Geneva, CH, 19-27 Mar. 2019
  • Non-Patent Document 5 m47100, AHG12: Loop filter disabled across virtual boundaries, S.-Y. Lin, L. Liu, J.-L. Lin, Y.-C. Chang, C.-C. Ju (Media Tek) ), P. Hanhart, Y.
  • Non-Patent Document 6 m47986, Gradual Random Access, S. Deshpande (Sharp), Y.-K. Wang, Hendry (Huawei), R. Sjoberg, M. Pettersson (Ericsson), L. Chen (Media Tek), Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO / IEC JTC 1 / SC 29/WG 11 14th Meeting: Geneva, CH, 19-27 Mar.
  • Non-Patent Document 6 m47986, Gradual Random Access, S. Deshpande (Sharp), Y.-K. Wang, Hendry (Huawei), R. Sjoberg, M. Pettersson (Ericsson), L. Chen (Media Tek), Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO / IEC JTC 1 / SC 29/WG 11 14th Meeting: Geneva, CH, 19-27 Mar.
  • Non-Patent Document 7 ISO / IEC 14496-12: 2015 Information technology. Coding of audio-visual object.
  • Part 12 ISO base media file format
  • Non-Patent Document 8 ISO / IEC 14496-12: 2017 Information technology. Coding of audio-visual object.
  • Part 15 Carriage of network abstraction layer (NAL) unit structured video in the ISO base media file format, 2017-02
  • CRA Create Random Access
  • BLA Broken Link Access
  • a picture equivalent to IDR / CRA / BLA of HEVC can be stored in the sync sample box of the ISOBMFF file.
  • the GRA picture is an image that displays a part of the entire display image, and it is not appropriate to treat it in the same manner as the IDR picture, and it is difficult to store it in the sync sample box.
  • recovery_poc_cnt which is the number of frames until recovery is completed, can be stored in the "roll" sample group of the ISOBMFF file and used as a roll-distance that represents the period until the complete image can be displayed. It is possible.
  • the processing method of slices other than the I slice is implementation-dependent, and in this case, the appearance of the content becomes device-dependent. Therefore, the quality of the viewing experience of the user may be impaired.
  • FIG. 1 is a system configuration diagram of an example of a distribution system.
  • the distribution system 100 includes a file generation device 1 which is an information processing device, a client device 2 which is a reproduction processing device, and a Web server 3.
  • the file generation device 1, the client device 2, and the Web server 3 are connected to the network 4. Then, the file generation device 1, the client device 2, and the Web server 3 can communicate with each other via the network 4.
  • the distribution system 100 may include a plurality of file generation devices 1 and a plurality of client devices 2, respectively.
  • the file generation device 1 generates video content which is data for providing video.
  • the file generation device 1 uploads the generated video content to the Web server 3.
  • the Web server 3 provides the video content to the client device 2
  • the distribution system 100 can adopt another configuration.
  • the file generation device 1 may include the functions of the Web server 3, store the generated video content in its own device, and provide it to the client device 2.
  • the Web server 3 holds the video content uploaded from the file generation device 1. Then, the Web server 3 provides the designated video content according to the request from the client device 2.
  • the client device 2 transmits a video content transmission request to the Web server 3. Then, the client device 2 acquires the video content specified in the transmission request from the Web server 3. Then, the client device 2 decodes the video content to generate a video, and displays the video on a display device such as a monitor.
  • FIG. 2 is a block diagram of the file generator.
  • the file generation device 1 which is an information processing device has a file generation processing unit 10, a control unit 11, and a transmission unit 12.
  • the control unit 11 executes a process related to the control of the file generation processing unit 10.
  • the control unit 11 performs integrated control such as the operation timing of each unit of the file generation processing unit 10.
  • the file generation processing unit 10 includes a data acquisition unit 101, an encoding unit 102, a metadata generation unit 103, a determination unit 104, and a file generation unit 105.
  • the data acquisition unit 101 accepts the input of the original data of the video content for displaying the video.
  • the original data of the video content includes image data and control information of each image included in an image sequence which is a series of images.
  • the control information includes, for example, time information information of each image data.
  • the data acquisition unit 101 outputs the image data included in the image sequence of the acquired video content to the coding unit 102. Further, the data acquisition unit 101 outputs the control information included in the original data of the acquired video content to the metadata generation unit 103.
  • the coding unit 102 receives input of image data of each image included in the image sequence. Then, the coding unit 102 encodes the image data of each image in the image sequence to generate a coded stream. At this time, the encoding unit 102 encodes so that the pictures 111 to 116 for realizing the reproduction return of the picture by GRA as shown in FIG. 3 are formed.
  • FIG. 3 is a diagram for explaining a picture display process at the time of RGA.
  • the pictures 111 to 116 are images for enabling the picture to be reproduced by using the refresh area of the intra-stripe.
  • the refresh area is an area that can be reproduced without referring to other images.
  • the clean area is an area that can be accurately regenerated by GRA.
  • the dirty area is an area that refers to a picture before the start of GRA, and is an area in which it is difficult to accurately reproduce the picture after the start of GRA.
  • Pictures 111 to 116 have refresh areas 121 to 126, respectively.
  • Refresh areas 121-126 include one or more slices. When all the refresh areas 121 to 126 are combined, an image that covers the entire area of one picture is obtained.
  • the picture 111 is a decoding start image in which decoding is started when the picture is returned to playback by GRA, and the reproduction start point of the picture 111, which is referred to here as a “GRA picture”, is a random access point in GRA.
  • the picture 116 is a picture in which the entire screen of the picture is regenerated by the GRA started from the picture 111, and the reproduction start point of the picture 116 is called a recovery point.
  • Picture 111 has an intra-stripe refresh area 121.
  • the refresh area 121 directly corresponds to the clean area 131.
  • the area other than the refresh area 121 is the dirty area 141.
  • Picture 112 has an intra-stripe refresh area 122.
  • the refresh area 121 of the picture 111 is referred to, and together with the refresh area 122, it becomes a clean area 132.
  • the area other than the clean area 132 is the dirty area 142.
  • the dirty area 142 is smaller than the dirty area 141 by the newly added refresh area 122.
  • Picture 113 has an intra-stripe refresh area 123.
  • the refresh area 121 of the picture 111 and the refresh area 122 of the picture 112 are referred to, and together with the refresh area 123, the clean area 133 is formed.
  • the area other than the clean area 133 is the dirty area 143.
  • the dirty area 143 is smaller than the dirty area 142 by the amount of the newly added refresh area 123.
  • the picture 114 has a clean area 134 including a refresh area 124 and a dirty area 144. Further, the picture 115 has a clean area 135 including a refresh area 125 and a dirty area 145.
  • the picture 116 serving as a recovery point has an intra-stripe refresh area 126.
  • the refresh areas 121 to 125 of the pictures 111 to 115 are referred to, and the clean area 136 is formed together with the refresh areas 126.
  • the clean area 136 is the entire screen of the picture, and there is no dirty area. As a result, the reproduction of the picture is completed in the picture 116. In this way, in GRA, the screen of the picture gradually returns to playback.
  • the refresh area is an area extending in the lateral direction of the picture toward the paper surface, and the clean area may increase from the bottom to the top.
  • the shape and position of the refresh area are not particularly limited as long as they are continuous areas, and the order in which the areas in the clean area increase is not particularly limited.
  • FIG. 4 is a diagram showing a GRA picture standard adopted in JVET-N0865.
  • recovery_per_cnt in line 152 of FIG. 4 is a value indicating the frame number at which the reproduction / return of the picture is completed from the random access point, and this value can be used as a role.
  • the coding unit 102 outputs a coded stream containing image data encoded so that GRA can be executed to the file generation unit 105. More specifically, a VCL buffer and a non-VCL buffer are provided between the encoding unit 102 and the file generation unit 105.
  • the image data includes visual data that is video and audio data that is audio. Then, the data on the visual side output from the coding unit 102 is sent to the file generation unit 105 via the VCL buffer, and the data on the audio side is sent to the file generation unit 105 via the non-VCL buffer.
  • the determination unit 104 confirms the encoding result of the encoding unit 102. Then, the determination unit 104 identifies the GRA picture, which is the decoding start image in GRA, from each picture included in the coded stream. Further, the determination unit 104 identifies a random access point and a recovery point in the GRA executed from the specified GRA picture. Then, the determination unit 104 obtains the number of frames from the next frame of the random access point to the frame of the recovery point as a role. This number of frames corresponds to recovery_per_cnt specified in JVET-N086. After that, the determination unit 104 outputs the GRA picture information and the role information to the file generation unit 105.
  • the metadata generation unit 103 receives input of control information from the data acquisition unit 101. Then, the metadata generation unit 103 generates metadata for image reproduction using the control information.
  • the metadata includes control information related to image generation and reproduction such as what kind of codec is used for compression.
  • the metadata generation unit 103 outputs the generated metadata to the file generation unit 105.
  • the file generation unit 105 receives the input of the coded stream including the image data encoded so that the GRA can be executed from the code unit 102. Further, the file generation unit 105 receives the input of the metadata from the metadata generation unit 103. Further, the file generation unit 105 receives input of GRA picture information and role information from the determination unit 104.
  • FIG. 5 is a diagram showing an example of a sample group of GRA pictures.
  • the file generation unit 105 generates GRA information representing information about the GAR picture. For example, the file generation unit 105 generates a sample group of GRA pictures as GRA information. In that case, the file generation unit 105 generates GraSyncSampleGroupEntry (), which is a new group of VisualSampleGroup, as a sample group of GRA pictures. Then, the file generation unit 105 sets the information about GRA in GraSyncSampleGroupEntry ().
  • the file generation unit 105 sets a GRA picture in GraSyncSampleGroupEntry (), and roll_distance in GraSyncSampleGroupEntry () represents a role in GRA. For example, the file generation unit 105 sets the number of frames from the random access point of GRA to the recovery point as the value of roll_distance by using recovery_per_cnt defined by JVET-N086.
  • the file generation unit 105 provides gradual display permission information which is information indicating whether or not to execute the gradual display (Gradual output) which displays the clean area so as to gradually expand.
  • gradual display permission information is information indicating whether or not to execute the gradual display (Gradual output) which displays the clean area so as to gradually expand.
  • the information on whether or not to allow the gradual display for displaying the clean area so as to gradually expand may be preset in the file generation device 1 by the user, or the file generation unit 105 may display the gradual display. You may receive input when setting permission information.
  • the file generation unit 105 acquires information on how the refresh area transitions in the picture by using the image data included in the acquired coded stream. Then, the file generation unit 105 generates gradual display type information representing the transition of the display of the refresh area from the acquired information. Then, the file generation unit 105 sets the display control information regarding the clean area when executing GRA as GradualOutputInformationStruct () in GraSyncSampleGroupEntry ().
  • the file generation unit 105 sets dirty area interpolation information indicating how to interpolate the dirty area as InterpolationStruct () in GraSyncSampleGroupEntry ().
  • Information on how to interpolate the dirty area may be preset in the file generation device 1 by the user, for example, or the file generation unit 105 receives input when setting the dirty area interpolation information. May be good.
  • the file generation unit 105 creates a file by storing the generated GRA picture sample group for each segment in the ISOBMFF file together with the image data and metadata included in the coded stream, and generates a segment file of the video content. Specifically, the file generation unit 105 generates an ISOBMFF file including video information (mdat) and management information (moov). mdat is a data area in the ISOBMFF file. Further, moov is a header area in ISOBMFF.
  • the file generation unit 105 stores GRA information, which is information about the GRA picture, in the moov of ISOBMFF. Specifically, the file generation unit 105 sets the GraSyncSampleGroupBox that stores the GraSyncSampleGroupEntry () in the moov of the ISOBMFF. For example, the file generation unit 105 sets the GraSyncSampleGroupBox in the BOX 161 in the moov indicated by the BOX 160, as shown in FIG. FIG. 6 is a diagram showing a storage example of the GraSyncSampleGroupBox.
  • FIG. 7 is a diagram showing a storage state of the GraSyncSampleGroupBox according to the presence or absence of a movie fragment.
  • the file generation unit 105 stores one GraSyncSampleGroupBox indicated by BOX171 in moov.
  • the file generation unit 105 stores one GraSyncSampleGroupBox in each moof as shown by BOX181 to 183.
  • the file generation unit 105 outputs the segment file of the video content including the sample group of the GRA picture to the transmission unit 12.
  • the transmission unit 12 receives the input of the video data segment file from the file generation unit 105. Then, the transmission unit 12 uploads the acquired video data segment file to the Web server 3.
  • FIG. 8 is a block diagram of the client device. As shown in FIG. 8, the client device 2 has a reproduction processing unit 20 and a control unit 21.
  • the control unit 21 controls the operation of each unit of the reproduction processing unit 20.
  • the control unit 21 comprehensively controls the operation timing of each unit of the reproduction processing unit 20.
  • the control unit 21 receives an input of a command from the operator. Then, the control unit 21 controls the reproduction processing unit 20 according to a command input from the user using an input device (not shown).
  • control unit 21 receives an input of a random access instruction. Then, the control unit 21 causes the reproduction processing unit 20 to execute the random access. At that time, the control unit 21 causes the file processing unit 202 to determine whether or not the random access sample is GRA, and determines whether to execute GRA as random access or normal decoding processing. In this normal decoding process, random access using the IDR picture is executed.
  • the reproduction processing unit 20 decodes and displays the image data. Further, when the operator instructs the random access, the reproduction processing unit 20 receives the control from the control unit 21 and executes the random access. The details of the reproduction processing unit 20 will be described below.
  • the reproduction processing unit 20 includes a file acquisition unit 201, a file processing unit 202, a GRA information acquisition unit 203, a decoding processing unit 204, a display information generation unit 205, and a display unit 206.
  • the file acquisition unit 201 acquires the segment file of the video content to be reproduced from the Web server 3 according to the video reproduction instruction input from the user. Then, the file acquisition unit 201 outputs the segment file of the acquired video content to the file processing unit 202.
  • the file processing unit 202 receives the input of the segment file in which the data of the video content to be played is stored from the file acquisition unit 201.
  • the file processing unit 202 parses the acquired segment file. Then, the file processing unit 202 acquires image data and metadata. After that, the file processing unit 202 outputs the image data to the decoding processing unit 204. Further, the file processing unit 202 outputs the metadata to the display information generation unit 205.
  • the file processing unit 202 receives an instruction from the control unit 21 to confirm the random access sample. Then, the file processing unit 202 confirms whether or not there is a sample group of the GRA picture represented by the GraSyncSampleGroupEntryBox, confirms whether or not the random access sample is GRA, and whether or not to use GRA as the random access. To judge.
  • the file processing unit 202 When GRA is not used, the file processing unit 202 causes the file processing unit 202 to execute a normal decoding process. In this case, the file processing unit 202 identifies an IDR picture that is a random access point corresponding to the random access specified by the user. Then, the file processing unit 202 outputs the image data following from the image data of the specified IDR picture to the decoding processing unit 204, and causes random access using the IDR picture.
  • the file processing unit 202 when GRA is used, the file processing unit 202 outputs the GraSyncSampleGroupEntryBox, which is a sample group of GRA pictures, to the GRA information acquisition unit 203. Further, the file processing unit 202 identifies a GRA picture that is a random access point corresponding to the random access specified by the user. Then, the file processing unit 202 outputs the image data following from the specified GRA picture, and instructs the decoding processing unit 204 to execute the GRA.
  • the GRA information acquisition unit 203 acquires a GraSyncSampleGroupEntryBox, which is a sample group of GRA pictures, from the file processing unit 202 when a random access instruction is input by the user and GRA is used. Then, the GRA information acquisition unit 203 acquires the information of GradualOutputStruct (), the information of GradualOutputInformationStruct (), the information of IntarpolationSturct (), and the information of roll_disntance from GraSyncSampleGroupEntry () which is a sample group of GRA pictures.
  • the GRA information acquisition unit 203 determines whether or not gradual display is permitted from the value of GradualOutputStruct (). When the gradual display is permitted, the GRA information acquisition unit 203 acquires the gradual display type information from the value of the GradualOutputInformationStruct (). Further, the GRA information acquisition unit 203 acquires dirty region interpolation information from the value of IntarpolationSturct (). Further, the GRA information acquisition unit 203 acquires a role which is the number of frames from the value of roll_disntance to the picture next to the GRA picture to the picture as the recovery point. Then, the GRA information acquisition unit 203 outputs the gradual display type information, the dirty area interpolation information, and the roll information to the decoding processing unit 204 together with the instruction of the gradual display.
  • the GRA information acquisition unit 203 acquires a role which is the number of frames from the next frame of the GRA picture to the picture which is the recovery point from the value of roll_disntance. Then, the GRA information acquisition unit 203 outputs to the decoding processing unit 204 an instruction for displaying after full-screen decoding, which is displayed after the entire screen of the picture can be decoded in the clean area, together with the roll information.
  • the decoding processing unit 204 receives the input of image data from the file processing unit 202. Then, the decoding processing unit 204 performs a decoding process on the acquired image data. After that, the decoding processing unit 204 outputs the decrypted 3DoF image data to the display information generation unit 205.
  • the decoding processing unit 204 inputs the image data continuing from the IDR picture serving as the random access point to the file processing unit 202. Receive from. Then, the decoding processing unit 204 decodes the image data following the IDR picture and outputs the decoded image data to the display information generation unit 205. As a result, the image is reproduced from the IDR picture which is the random access point designated by the user, and the random access is executed.
  • the decoding processing unit 204 inputs the image data following from the GRA picture serving as the random access point to the file processing unit 202. Receive from.
  • the decoding processing unit 204 receives the input of the following information from the GRA information acquisition unit 203 together with the instruction of the gradual display. For example, the decoding processing unit 204 receives input from the GRA information acquisition unit 203 of the gradual display type information, the dirty area interpolation information, and the roll information which is the number of frames from the next frame of the GRA picture to the picture as the recovery point. ..
  • the decoding processing unit 204 identifies what kind of gradual display is to be performed from the roll information and the gradual display type information. Then, the decoding processing unit 204 starts decoding from the image data of the GRA picture. After that, the decoding processing unit 204 decodes each frame so that the gradual display is executed while interpolating the dirty area according to the dirty area interpolation information until the last frame of the gradual display.
  • the decoding processing unit 204 sequentially outputs the image data from the decoded GRA picture to the last frame of the subsequent gradual display to the display information generation unit 205. After the output of the last frame of the gradual display is completed, the decoding processing unit 204 returns to the normal decoding processing. Then, the decoding processing unit 204 continues to output the image data obtained by normal decoding to the display information generation unit 205.
  • the decoding processing unit 204 receives the input of the display instruction after full-screen decoding from the GRA information acquisition unit 203 together with the roll information. Then, the decoding processing unit 204 starts decoding from the GRA picture. Next, the decoding processing unit 204 identifies the last picture in the GRA from the number of frames specified as the role. Then, the decoding processing unit 204 executes decoding up to the specified last picture, and generates the decoded image data with the entire screen of the picture as a clean area. After that, the decoding processing unit 204 outputs the decoded image data to the display information generation unit 205 with the entire screen of the picture as a clean area.
  • the display information generation unit 205 receives the input of the decoded image data from the decoding processing unit 204. Further, the display information generation unit 205 receives the input of metadata from the file processing unit 202. Then, the display information generation unit 205 generates a display image from the image data by using the information at the time specified in the metadata. After that, the display information generation unit 205 provides the generated display image to the display unit 206 for display.
  • the display information generation unit 205 receives input of image data following from the GRA picture that performs gradual display from the decoding processing unit 204. Then, the display information generation unit 205 generates a display image for gradual display according to the display method of the gradual display in which the clean area is designated and the processing method of the dirty area. Then, the display information generation unit 205 outputs the generated display image to the display unit 206 for display, thereby performing gradual display.
  • the display information generation unit 205 presents the user with information indicating that the display is gradual display.
  • the display information generation unit 205 may display information indicating that the gradual display is being displayed on the display unit 206.
  • the display information generation unit 205 receives the input of the image data decoded by using the entire screen of the picture as a clean area from the decoding processing unit 204. Then, the display information generation unit 205 generates a display image in which the reproduction / return of the entire screen is completed. Then, the display information generation unit 205 outputs the generated display image to the display unit 206 and displays it, so that the video content is displayed from the state in which the reproduction / return of the entire screen is completed.
  • the display unit 206 has a display device such as a monitor.
  • the display unit 206 receives the input of the display image generated by the display information generation unit 205. Then, the display unit 206 causes the display device to display the acquired display image.
  • FIG. 9 is a flowchart of a file generation process by the file generation device.
  • the data acquisition unit 101 acquires the original data of the video content from the Web server 3.
  • the original data includes image data and control information of a plurality of images.
  • the data acquisition unit 101 outputs the image data included in the acquired original data to the coding unit 102.
  • the data acquisition unit 101 outputs the control information included in the acquired original data to the metadata generation unit 103.
  • the coding unit 102 receives an input of image data from the data acquisition unit 101.
  • the coding unit 102 executes the coding of the image data so that the GRA can be executed (step S101).
  • the coding unit 102 outputs the coded image data to the file generation unit 105.
  • the metadata generation unit 103 generates metadata from the control information input from the data acquisition unit 101 and outputs the metadata to the file generation unit 105.
  • the determination unit 104 identifies a role that is the number of frames from the GRA picture of the GRA and the frame next to the GRA picture to the frame of the recovery point from the image data encoded by the coding unit 102. After that, the determination unit 104 outputs the GRA picture information and the role information to the file generation unit 105.
  • the file generation unit 105 receives the input of image data from the encoding unit 102. Further, the file generation unit 105 receives input of GRA picture and role information from the determination unit 104. Then, the file generation unit 105 newly defines the GraSyncSampleGroupEntryBox as a sample group of the GRA picture. Next, the file generation unit 105 sets the roll information in the roll_distance of GraSyncSampleGroupEntry () (step S102).
  • the file generation unit 105 acquires the transition information of the refresh area using the image data (step S103).
  • the file generation unit 105 generates the gradual display type information from the transition information of the refresh area and sets it as the GradualOutputInformationStruct () of GraSyncSampleGroupEntry () (step S104).
  • the file generation unit 105 sets the gradual display permission information as the GradualOutputOutputStruct () of GraSyncSampleGroupEntry (). Further, the file generation unit 105 sets the dirty area interpolation information as InterpolationStruct () of GraSyncSampleGroupEntry () (step S105).
  • the file generation unit 105 sets the GraSyncSampleGroupEntryBox in the moov including other management information in the ISOBMFF file (step S106).
  • the file generation unit 105 is a segment file of video content including mdat which is video information and moov which is management information, or a segment file of video content which includes mdat which is video information and moov and moof which is management information. Is generated (step S107).
  • the transmission unit 108 uploads the segment file of the video content generated by the file generation unit 105 to the Web server 3.
  • FIG. 10 is a flowchart of the reproduction process executed by the client device.
  • the file acquisition unit 201 acquires the segment file of the video content to be played back from the Web server 3.
  • the file processing unit 202 parses the segment file of the video content acquired by the file acquisition unit 201. Then, the file processing unit 202 outputs the image data to the decoding processing unit 204. Further, the file processing unit 202 outputs the metadata to the display information generation unit 205.
  • the decoding processing unit 204 decodes the acquired image data and outputs it to the display information generation unit 205.
  • the display information generation unit 205 generates a display image using image data and metadata and outputs the display image to the display unit 206 to display the display image.
  • the control unit 21 determines whether or not a random access instruction has been detected (step S201). When the random access instruction is not detected (step S201: negation), the control unit 21 causes the file acquisition unit 201 to continue the process as it is. Then, the reproduction process proceeds to step S208.
  • step S201 when the random access instruction is detected (step S201: affirmative), the control unit 21 instructs the file processing unit 202 to execute the random access.
  • the file processing unit 202 determines whether or not the random access sample is GRA (step S202).
  • the file processing unit 202 transmits the GraSyncSampleGroupEntryBox to the GRA information acquisition unit 203.
  • the GRA information acquisition unit 203 acquires the information of the GraSyncSampleGroupEntryBox (step S203). Specifically, the GRA information acquisition unit 203 acquires GRA picture information, gradual display permission information, gradual display type information, dirty area interpolation information, and role information.
  • the GRA information acquisition unit 203 determines whether or not the gradual display is permitted by using the gradual display permission information (step S204).
  • the GRA information acquisition unit 203 When the gradual display is permitted (step S204: affirmative), the GRA information acquisition unit 203 outputs the GRA picture information, the gradual display type information, the dirty area interpolation information, and the roll information to the decoding processing unit 204. ..
  • the decoding processing unit 204 decodes the image data following from the GRA picture so that the images are displayed in the display order indicated by the gradual display type information while interpolating the dirty area according to the dirty area interpolation information to generate the display information.
  • the display information generation unit 205 generates a display image for gradual display using the image data acquired from the decoding processing unit 204, and provides the display information unit 206 for display. At that time, the display information generation unit 205 presents the user with information indicating that the display is gradual display (step S205).
  • the decoding processing unit 204 determines whether or not the gradual display is completed by using the roll information and the like (step S206). If the gradual display is not completed (step S206: negative), the video reproduction process returns to step S205. On the other hand, when the gradual display is completed (step S206: affirmative), the video reproduction process returns to step S201.
  • the GRA information acquisition unit 203 outputs the GRA picture information and the roll to the decoding processing unit 204 after full-screen decoding.
  • the decoding processing unit 204 decodes from the GRA picture in response to the instruction of displaying after full-screen compounding, and confirms that the entire screen of the picture can be decoded as a clean screen by using the roll information. Then, after all the screens of the picture are decoded as the clean area, the decoding processing unit 204 outputs the image data in which the entire screen of the picture is decoded as the clean area to the display information generation unit 205.
  • the display information generation unit 205 generates a display image obtained by decoding the entire screen of the picture as a clean area and provides it to the display unit 206 for display (step S207). After that, the video reproduction process returns to step S201.
  • step S202 determines whether the random access sample is GRA (step S202: negative). If the random access sample is not GRA (step S202: negative), the video playback process proceeds to step S208.
  • the file processing unit 202, the decoding processing unit 204, the display information generation unit 205, and the display unit 206 execute normal decoding and display on the input image (step S208).
  • random access random access using an IDR picture is performed in normal decoding.
  • the file processing unit 202, the decoding processing unit 204, and the display information generation unit 205 determine whether or not all the image data of the video content has been decoded (step S209). If the image data to be decoded remains (step S209: negative), the video reproduction process returns to step S201. On the other hand, when the decoding of all the image data of the video content is completed (step S209: affirmative), the file processing unit 202, the decoding processing unit 204, and the display information generation unit 205 end the video reproduction processing.
  • the GRA is executablely encoded, the GRA picture is specified from the encoded image data, and the sample group of the GRA picture is newly created. Define and store role information. As a result, the maximum coding amount is suppressed, the code delay is reduced by the coding process and the transmission process, the image distortion due to the reproduction of the dirty area is prevented, and the same content is reproduced by any reproduction device. GRA can be executed properly. That is, the file generation device according to the present embodiment can provide the user with a high-quality viewing experience.
  • FIG. 11 is a diagram showing an example of the syntax of GradualOutputStruct ().
  • the file generation unit 105 generates a GradualOutputStruct () that stores the gradual display permission information in the GRA sample group by using the syntax shown in FIG.
  • the file generation unit 105 stores the gradual_output_flag in the GradualOutputStruct () as shown in FIG. Then, the file generation unit 105 defines the value of the gradual_output_flag as shown in FIG. FIG. 12 is a diagram of an example of the contents indicated by each value of gradual_output_flag. For example, the file generation unit 105 defines that the gradual display is valid when the value of gradual_output_flag is 0, and the gradual display is invalid when the value of gradual_output_flag is 1. The fact that the gradual display is valid means that the gradual display is permitted to be executed at the time of random access. On the other hand, when the gradual display is invalid, it means that it is prohibited to execute the gradual display at the time of random access. Then, the file generation unit 105 sets the generated GradualOutputStruct () in the GraSyncSampleGroupEntryBox to generate an ISOBMFF file.
  • a flag called gradual_output_flag is newly defined to indicate permission or prohibition of gradual display, but the setting method of this gradual permission information is not limited to this.
  • the file generation unit 105 sets the picture as the recovery point in GraSyncSampleGroupEntry (). Then, the file generation unit 105 may explicitly prohibit the gradual display by setting the number of frames from the picture one frame before the picture as the recovery point to the GRA picture as a role as a role.
  • the file generation device stores information indicating either permission or prohibition of gradual display by using the flag set in GradualOutputStruct ().
  • GRA is premised on gradual display because it aims to reduce the code delay in the coding process and the transmission process by suppressing the maximum coding amount, but it is possible to suppress image distortion depending on the user's request. It is possible to provide a viewing experience that meets the needs of users.
  • FIG. 13 is a diagram showing an example of the syntax of GradualOutputInformationStruct ().
  • the file generation unit 105 generates a GradualOutputInformationStruct () that stores the gradual display type information in the GRA sample group by using the syntax shown in FIG.
  • the file generation unit 105 stores the gradual_output_type in the GradualOutputInformationStruct () as shown in FIG. Then, the file generation unit 105 defines the value of gradual_output_type as shown in FIG.
  • FIG. 14 is a diagram of an example of the contents indicated by each value of gradual_output_type.
  • the file generation unit 105 defines that when the value of gradual_output_type is 0, it indicates that the refresh area moves from left to right or right to left on the picture display screen. In this case, the image is gradually displayed from left to right or from right to left on the screen. Further, the file generation unit 105 defines that when the value of gradual_output_type is 1, it indicates that the refresh area moves from the top to the bottom or from the bottom to the top of the picture display screen. In this case, the image is gradually displayed from the top to the bottom of the screen or from the bottom to the top. Further, the file generation unit 105 defines that when the value of gradual_output_type is 2, it means that the refresh area moves from the center to the edge of the picture display screen.
  • the image is gradually displayed from the center of the screen toward the outer edge of the screen.
  • the file generation unit 105 defines that when the value of gradual_output_type is 3, the refresh area moves in the order of the raster scan of the picture display screen. In this case, the images are gradually displayed in the order of raster scan. Further, the file generation unit 105 defines that when the value of gradual_output_type is 4, it means that the refresh area moves randomly on the picture display screen. In this case, the images are displayed randomly and gradually. Further, the file generation unit 105 sets the value of gradual_output_type to 5 when the transition order of the refresh area is not specified.
  • the six types of gradual display patterns shown in FIG. 14 are shown together with the undefined ones, but if it can be expressed by one bit other than this, the file generation unit 105 has a gradient_output_type. Other patterns may be defined.
  • the file generator stores the gradual display type information indicating how the gradual display is performed using the flag set in the GradualOutputInformationStruct ().
  • the client device may figure out without analyzing Parmeter_set and slice_header, performs advance what graph dual display before decoding can do. This makes it easy to distinguish between the accurately decoded area and the other areas, and the client device is suitable for displaying other information such as information indicating that the gradual display is being executed. The area can be easily specified.
  • the file generation unit 105 can also define GradualOutputInformationStruct () using information other than gradual_output_type.
  • FIG. 15 is a diagram showing a first example of GradualOutputInformationStruct () using other definitions. Here, the case where the gradual display is gradually displayed at a constant ratio and linearly will be described.
  • the file generation unit 105 stores the information of the display area of the clean area that is first output to GradualOutputInformationStruct () as shown in FIG.
  • First_output_clean_region_x, first_output_clean_region_y, first_output_clean_region_width, and first_output_clean_region_height in FIG. 15 represent the x-coordinate, Y-coordinate, width, and height of the reference point of the display area of the clean area that is output first, respectively.
  • the file generation unit 105 can also set the gradual display type information in the GradualOutputInformationStruct () by using the syntax shown in FIG.
  • FIG. 16 is a diagram showing a second example of GradualOutputInformationStruct () using another definition.
  • the gradual display is gradually displayed at a constant ratio and linearly will be described.
  • the file generation unit 105 stores the information of the display area of the first and last refresh areas in GradualOutputInformationStruct () as shown in FIG.
  • the first_output_refresh_region_x, first_output_refresh_region_y, first_output_refresh_region_width, and first_output_refresh_region_height in FIG. 16 represent the x-coordinate, Y-coordinate, width, and height of the reference point of the display area of the refresh area that is output first, respectively.
  • last_output_refresh_region_x, last_output_refresh_region_y, last_output_refresh_region_width, and last_output_refresh_region_height in FIG. 16 represent the x-coordinate, Y-coordinate, width, and height of the reference point of the display area of the refresh area that is output last, respectively.
  • the client device 2 When the gradual display is performed linearly at a constant ratio, the client device 2 knows the display areas of the first and last refresh areas, and how the gradual display is performed based on the roll information. Can be identified. Therefore, the file generation unit 105 can also set the gradual display type information in the GradualOutputInformationStruct () by using the syntax shown in FIG.
  • FIG. 17 is a diagram showing a third example of GradualOutputInformationStruct () using other definitions.
  • the gradual display the case where the amount of information for each frame increases monotonically in the lecture, but the amount of increase is not a constant ratio will be described.
  • the file generation unit 105 stores the information of all the clean areas of each frame used in GRA in the GradualOutputInformationStruct () as table information.
  • the first_output_clean_region_x, first_output_clean_region_y, first_output_clean_region_width, and first_output_clean_region_height in FIG. 17 represent the x-coordinate, Y-coordinate, width, and height of the reference point of the display area of the clean area in the i-th frame with the GRA picture as the 0th frame, respectively.
  • the amount of information for each frame is a monotonous increase in the lecture, but if the amount of increase is not a constant ratio and gradual display is performed, the client device 2 can display the gradual display if the clean area of each frame can be grasped. It is possible to identify what is done. Therefore, the file generation unit 105 can also set the gradual display type information in the GradualOutputInformationStruct () by using the syntax shown in FIG. By using such a definition for GradualOutputInformationStruct (), it is possible to notify the client device 2 how the gradual display is performed even when the transition of the refresh area is complicated.
  • FIG. 18 is a diagram showing a fourth example of GradualOutputInformationStruct () using other definitions.
  • the amount of information for each frame increases monotonically in the lecture, but the amount of increase is not a constant ratio will be described.
  • the file generation unit 105 stores the information of all the refresh areas of each frame used in GRA in the GradualOutputInformationStruct () as table information as shown in FIG.
  • the first_output_clean_region_x, first_output_clean_region_y, first_output_clean_region_width, and first_output_clean_region_height in FIG. 18 represent the x-coordinate, Y-coordinate, width, and height of the reference point of the display area of the refresh area in the i-th frame with the GRA picture as the 0th frame, respectively.
  • the amount of information for each frame is a monotonous increase in the lecture, but if the amount of increase is not a constant ratio and gradual display is performed, the client device 2 can display the gradual display if the refresh area of each frame can be grasped. It is possible to identify what is done. Therefore, the file generation unit 105 can also set the gradual display type information in the GradualOutputInformationStruct () by using the syntax shown in FIG. By using such a definition for GradualOutputInformationStruct (), it is possible to notify the client device 2 how the gradual display is performed even when the transition of the refresh area is complicated.
  • the client device 2 does not refer to the values of the VVC parameter_set and slice_header in the display process after decoding, and the clean area and dirty. It becomes possible to distinguish from the area. Further, the client device 2 can also utilize the information that identifies the clean area and the dirty area for the interpolation process.
  • the information on how the gradient is displayed at the time of GRA can be identified by the client device before decoding.
  • the client device can use the identified information for UX (User Experience) such as notification to the user at the time of random access.
  • UX User Experience
  • the client device can identify information as to which area is displayed in the gradient by GRA without using parameter_set, it can be used for the interpolation processing of the dirty area.
  • FIG. 19 is a diagram showing an example of the syntax of InterpolationStruct ().
  • the file generation unit 105 generates InterpolationStruct (), which stores dirty region interpolation information in the GRA sample group, using the syntax shown in FIG.
  • the file generation unit 105 stores interpolation_type in InterpolationStruct () as information indicating how to interpolate the dirty area as shown in FIG. Then, the file generation unit 105 defines the value of interpolation_type as shown in FIG. FIG. 20 is a diagram of an example of the contents indicated by each value of interpolation_type.
  • the file generation unit 105 defines that when the value of interpolation_type is 0, the dirty area is interpolated with the set color. In this case, the user determines the color to interpolate the dirty area. By interpolating the dirty area with an appropriate color in this way, the image is graduated like a frame-in at the time of GRA random access. Further, the file generation unit 105 defines that when the value of interpolation_type is 1, the image of the frame before the start of random access is displayed as a still image in the dirty area. By interpolating the dirty area with the image before the start of the random access in this way, the image is gradually displayed like a crossfade at the time of the GRA random access. Further, the file generation unit 105 sets the value of interpolation_type to 2 when the interpolation method of the dirty area is not determined. In this case, the method of interpolating the dirty region depends on the mounting state of the video reproduction function in the client device 2.
  • the file generation device stores dirty area interpolation information indicating how to perform dirty area interpolation using the flag set in InterpolationStruct ().
  • the dirty area interpolation information is performed by the same method regardless of the client device, and image distortion at the time of random access is suppressed. And the appearance can be unified.
  • the content creator can set the optimum display method for the dirty area, and the gradual display can be used as a UX such as fade-in or crossfade to realize the same content playback method regardless of the playback device. It is possible to provide a high-quality viewing experience.
  • FIG. 21 is a diagram showing the format of the Matroska Media Container.
  • the file generation unit 105 stores the transition identification information, the transition execution area information, and the transition trigger information in the element newly defined in the Track Entry element.
  • FIG. 22 is a hardware configuration diagram of the computer.
  • the file generation device 1 and the client device 2 can be realized by the computer 90 shown in FIG.
  • the processor 91, the memory 92, the network interface 93, the non-volatile storage 94, the input / output interface 95, and the display interface 86 are connected to each other via a bus.
  • External devices such as an input device, an output device, a storage device, and a drive are connected to the input / output interface 95.
  • the input device is, for example, a keyboard, a mouse, a microphone, a touch panel, an input terminal, or the like.
  • the output device is, for example, a speaker, an output terminal, or the like.
  • the storage device is, for example, a hard disk, a RAM (Random Access Memory) disk, or the like.
  • the drive drives removable media such as magnetic disks, optical disks, magneto-optical disks, or semiconductor memories.
  • a display 98 which is a display device, is connected to the display interface 96.
  • the network interface 93 is connected to an external network.
  • the file generation device 1 and the client device 2 are connected to each other via the network interface 93. Further, the file generation device 1 and the client device 2 are connected to the Web server 3 via the network interface 93.
  • the non-volatile storage 94 is a built-in auxiliary storage device such as a hard disk or SSD (Solid State Drive).
  • the processor 91 for example, loads the program stored in the non-volatile storage 94 into the memory 92 via the bus and executes the series of processing described above. Is done.
  • the memory 92 also appropriately stores data and the like necessary for the processor 91 to execute various processes.
  • the program executed by the processor 91 can be recorded and applied to removable media such as package media, for example.
  • the program can be installed in the non-volatile storage 94 via the input / output interface 95 by mounting the removable media in the drive which is the external device 97.
  • This program can also be provided via wired or wireless transmission media such as local area networks, the Internet, and digital satellite broadcasting. In that case, the program can be received at the network interface 93 and installed in the non-volatile storage 94.
  • this program can be installed in advance in the non-volatile storage 94.
  • a coding unit that encodes an image in an image sequence to generate a coded stream, and A determination unit that determines one or more decoding start images in the image sequence that can be used as an image to start decoding during Gradual Random Access (GRA).
  • the header area of the file format including the header area and the data area is provided with a file generation unit that inserts GRA information regarding the decoding start image determined by the determination unit and inserts the coded stream into the data area.
  • Information processing device (2) The information processing device according to the appendix (1), wherein the file generation unit includes gradual display permission information indicating permission or disapproval of gradual display in the GRA information.
  • the file generation unit includes gradual display type information on how to perform the gradual display in the GRA information.
  • the information processing device sets the position and area information of a clean area in each of the images displayed at the time of executing the gradual display as the gradual display type information.
  • the information processing device sets the position of a refresh area in each of the images displayed when the gradual display is executed as the gradual display type information.
  • the information processing apparatus according to the appendix (2), wherein the file generation unit includes dirty area interpolation information indicating a dirty area area information and a display method in the GRA information.
  • the images in the image sequence are encoded to generate an encoded stream. Determine one or more decoding start images in the image sequence that can be used as the image to initiate decoding during gradual random access.
  • GAA Gradual Random Access
  • a GRA information acquisition unit that acquires GRA information for identifying the start image
  • a reproduction processing apparatus including a decoding processing unit that decodes the coded stream based on the GRA information acquired by the GRA information acquisition unit.
  • (9) Obtain a file generated according to a file format including a header area and a data area containing a coded stream containing data of a series of encoded images. From the header area of the acquired file, GRA information for identifying one or more decoding start images that can be used as an image to start decoding at the time of gradual random access in the series of images is acquired.
  • a reproduction processing method in which a computer executes a process of decoding the coded stream based on the acquired GRA information.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

An information processing device, an information processing method, a playback processing device, and a playback processing method, which provide a user with a high-quality audiovisual experience, are provided. An encoding unit encodes images in an image sequence to generate an encoded stream. A determination unit determines one or more decoding start images in the image sequence that can be used as images for starting decoding during gradual random access (GRA). A file generation unit inserts GRA information, which is related to the decoding start image determined by the determination unit, into a header region and inserts the encoded stream into a data region of a file format containing the header region and the data region.

Description

情報処理装置、情報処理方法、再生処理装置及び再生処理方法Information processing device, information processing method, reproduction processing device and reproduction processing method
 本発明は、情報処理装置、情報処理方法、再生処理装置及び再生処理方法に関する。 The present invention relates to an information processing device, an information processing method, a reproduction processing device, and a reproduction processing method.
 画像符号化方式の標準仕様の1つであるH.265/HEVCでは、以下のように規定がされている。圧縮された動画全体にあたるシーケンスの中には複数の画像が含まれ、各画像はピクチャと呼ばれる。各ピクチャは1つ以上のスライスに分割される。スライスは、最小のデコード単位である。そして、各スライスは、Iスライス(Intra Slice)、Pスライス(Predictive Slice)及びBスライス(Bipredictive Slice)のいずれかに分類される。 H.H., which is one of the standard specifications of the image coding method. In 265 / HEVC, the following is stipulated. A sequence that corresponds to the entire compressed moving image contains a plurality of images, and each image is called a picture. Each picture is divided into one or more slices. A slice is the smallest decoding unit. Then, each slice is classified into one of I slice (Intra Slice), P slice (Predictive Slice) and B slice (Bipredictive Slice).
 Iスライスは、他の画像を参照することなく独立して復号されるスライスである。Pスライスは、単一の他の画像を参照することにより復号されるスライスである。Bスライスは、複数の他の画像を参照することにより復号されるスライスである。 The I slice is a slice that is independently decoded without referring to other images. A P-slice is a slice that is decoded by referencing a single other image. A B slice is a slice that is decoded by referencing a plurality of other images.
 Iスライスのみからなる、シーケンスの先頭のピクチャは、IDR(Instantaneous Decoding Refresh)ピクチャと呼ばれる。IDRピクチャは、NAL(Network Abstraction Layer)ユニットタイプの値によって識別される。IDRピクチャに後続する同一シーケンス内のピクチャは、復号順(decoding order)でIDRピクチャよりも前のピクチャを参照せず、復号順(decoding Order)又表示順(presentation Order)で、IDRピクチャよりも後に位置する。 The picture at the beginning of the sequence consisting of only I slices is called an IDR (Instantaneous Decoding Refresh) picture. The IDR picture is identified by the value of the NAL (Network Abstraction Layer) unit type. The pictures in the same sequence that follow the IDR picture do not refer to the pictures before the IDR picture in the decoding order (decoding order), but in the decoding order (decoding Order) or display order (presentation Order) than the IDR picture. Located behind.
 そのため、ある符号化ストリームの映像の途中の時点にランダムアクセスしようとする場合、指定される時点の近傍のIDRピクチャから映像を適切に復号することができる。ここで、ランダムアクセスとは、ストリームの先頭からの復号ではなく、ストリームの途中からの復号及び再生する処理である。 Therefore, when attempting to randomly access a time point in the middle of the video of a certain coded stream, the video can be appropriately decoded from the IDR picture in the vicinity of the specified time point. Here, the random access is not a decoding process from the beginning of the stream, but a process of decoding and reproducing the stream from the middle of the stream.
 また近年、ランダムアクセスポイントにIDRピクチャを用いずに、Iストライプによるリフレッシュ範囲(refresh region)を用いて徐々に全ピクチャを再生復帰する手法が提案されている。この手法は、グラデュアルランダムアクセス(GRA:Gradual Random Access)と呼ばれる。ここでは、GRAにおけるアクセスポイントに対応する復号開始画像をGRAピクチャと呼ぶ。 Further, in recent years, a method has been proposed in which all pictures are gradually replayed and restored by using the refresh region by I stripe without using the IDR picture for the random access point. This method is called Gradual Random Access (GRA). Here, the decoding start image corresponding to the access point in GRA is called a GRA picture.
 ランダムアクセスポイントの開始画像となる画像は、HEVC(High Efficiency Video Coding)規格ではMPEG-4におけるsync sampleとして取り扱われる。sync sampleは、sync sample boxに格納される。 The image that becomes the start image of the random access point is treated as a sync sample in MPEG-4 in the HEVC (High Efficiency Video Coding) standard. sync sample is stored in sync sample box.
 HEVC規格では、GRAを実現するために、エンコーダ側でいくつか符号化処理の制御を加えてIストライプ方式でのランダムアクセスが実現されている。これは、ピクチャの最大符号化量を抑えて、符号化及び伝送の全体でコード遅延を削減することを目的としている。IDRピクチャでは参照がないため符号化効率が悪くビット発生量が大きいが、Iスライスを用いて画像全体を再生復帰させる場合、各ピクチャが参照を有するため最大符号化量を抑えることができる。 In the HEVC standard, in order to realize GRA, random access by the I stripe method is realized by adding some control of coding processing on the encoder side. This is intended to reduce the maximum amount of coded picture and reduce code delay in the overall coding and transmission. Since there is no reference in the IDR picture, the coding efficiency is poor and the amount of bits generated is large. However, when the entire image is reproduced and restored using the I slice, the maximum coding amount can be suppressed because each picture has a reference.
 これに対して、VVC(Versatile Video Coding)規格では、Iストライプによるリフレッシュ領域を用いての再生復帰を、エンコーダの制限ではなく規格で対応する手法が検討されている。これにより、VVCでは、ランダムアクセスポイントとしてGRAピクチャを設定することが可能となる。 On the other hand, in the VVC (Versatile Video Coding) standard, a method is being studied in which the playback / return using the refresh area by the I stripe is handled by the standard instead of the encoder limitation. This makes it possible to set a GRA picture as a random access point in VVC.
 しかしながら、GRAを用いて再生を行う場合、リフレッシュ領域による再生復帰が完了した領域であるクリーン領域については正しいデコードと表示とが可能となるが、再生復帰が未完了であるダーティ領域は、正しくデコードすることが困難である。そのため、GRAを用いた再生では、表示画像の乱れが発生するおそれがある。表示画像の乱れを利用者に提供することを抑制するためには、機器実装で対応することが考えられるが、機器毎に対応が異なる可能性があり、コンテンツの見栄えが機器依存になってしまう。そのため、利用者の視聴体験の品質を損ねるおそれがある。 However, when playback is performed using GRA, it is possible to correctly decode and display the clean area, which is the area where playback recovery by the refresh area is completed, but correctly decode the dirty area where playback recovery is not completed. Difficult to do. Therefore, in the reproduction using GRA, the display image may be distorted. In order to suppress the distorted display image from being provided to the user, it is conceivable to implement it by device mounting, but the correspondence may differ depending on the device, and the appearance of the content becomes device-dependent. .. Therefore, the quality of the viewing experience of the user may be impaired.
 そこで、本開示では、利用者に高品質な視聴体験を提供する情報処理装置、情報処理方法、再生処理装置及び再生処理方法を提供する。 Therefore, the present disclosure provides an information processing device, an information processing method, a reproduction processing device, and a reproduction processing method that provide a user with a high-quality viewing experience.
 本開示によれば、符号化部は、画像シーケンス内の画像を符号化して、符号化ストリームを生成する。判定部は、グラデュアルランダムアクセス(GRA:Gradual random access)の際に復号を開始する画像として使用可能な前記画像シーケンス内の1つ以上の復号開始画像を判定する。ファイル生成部は、ヘッダ領域及びデータ領域を含むファイルフォーマットの前記ヘッダ領域に、前記判定部により判定された前記復号開始画像に関するGRA情報を挿入し、前記データ領域に前記符号化ストリームを挿入する。 According to the present disclosure, the coding unit encodes an image in an image sequence to generate a coded stream. The determination unit determines one or more decoding start images in the image sequence that can be used as the image to start decoding at the time of Gradual Random Access (GRA). The file generation unit inserts GRA information regarding the decoding start image determined by the determination unit into the header area of the file format including the header area and the data area, and inserts the coded stream into the data area.
配信システムの一例のシステム構成図である。It is a system configuration diagram of an example of a distribution system. ファイル生成装置のブロック図である。It is a block diagram of a file generator. GRA時のピクチャの表示処理を説明するための図である。It is a figure for demonstrating the display process of a picture at the time of GRA. JVET-N0865で採用されたGRAピクチャの規格を表す図である。It is a figure which shows the standard of the GRA picture adopted in JVET-N0865. GRAピクチャのサンプルグループの一例を表す図である。It is a figure which shows an example of the sample group of a GRA picture. GraSyncSampleGroupBoxの格納例を示す図である。It is a figure which shows the storage example of GraSyncSampleGroupBox. ムービーフラグメントの有無に応じたGraSyncSampleGroupBoxの格納状態を表す図である。It is a figure which shows the storage state of GraSyncSampleGroupBox according to the presence or absence of a movie fragment. クライアント装置のブロック図である。It is a block diagram of a client device. ファイル生成装置によるファイル生成処理のフローチャートである。It is a flowchart of a file generation process by a file generation apparatus. クライアント装置により実行される再生処理のフローチャートである。It is a flowchart of the reproduction process executed by a client device. GradualOutputStruct()のシンタックスの一例を表す図である。It is a figure which shows an example of the syntax of GradualOutputStruct (). gradual_output_flagの各値が示す内容の一例の図である。It is a figure of an example of the content which each value of gradual_output_flag shows. GradualOutputInformationStruct()のシンタックスの一例を表す図である。It is a figure which shows an example of the syntax of GradualOutputInformationStruct (). gradual_output_typeの各値が示す内容の一例の図である。It is a figure of an example of the content which each value of gradual_output_type shows. 他の定義を用いたGradualOutputInformationStruct()の第1の例を表す図である。It is a figure which shows the 1st example of GradualOutputInformationStruct () using another definition. 他の定義を用いたGradualOutputInformationStruct()の第2の例を表す図である。It is a figure which shows the 2nd example of GradualOutputInformationStruct () using another definition. 他の定義を用いたGradualOutputInformationStruct()の第3の例を表す図である。It is a figure which shows the 3rd example of GradualOutputInformationStruct () using another definition. 他の定義を用いたGradualOutputInformationStruct()の第4の例を表す図である。It is a figure which shows the 4th example of GradualOutputInformationStruct () using another definition. InterpolationStruct()のシンタックスの一例を表す図である。It is a figure which shows an example of the syntax of InterpolationStruct (). interpolation_typeの各値が示す内容の一例の図である。It is a figure of an example of the content which each value of interpolation_type shows. Matroska Media Containerのフォーマットを表す図である。It is a figure which shows the format of Matroska Media Container. コンピュータのハードウェア構成図である。It is a hardware block diagram of a computer.
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付すことにより重複する説明を省略する。また、本技術で開示される範囲は、実施形態の内容に限定されるものではなく、出願当時において公知となっている以下の非特許文献におき記載されている内容も含まれる。 The embodiments of the present disclosure will be described in detail below with reference to the drawings. In each of the following embodiments, the same parts are designated by the same reference numerals, so that duplicate description will be omitted. Further, the scope disclosed in the present technology is not limited to the contents of the embodiment, but also includes the contents described in the following non-patent documents known at the time of filing.
 非特許文献1:(上述)
 非特許文献2:ITU-T H.264. SERIES H: AUDIOVISUAL AND MULTIMEDIA SYSEMS. Infrastructure of audiovisual services - Coding of moving video. Advanced video coding for generic audiovisual services, 2017-04
 非特許文献3:m48053, Versatile Video Coding (Draft 5), B. Bross, J. Chen, S. Liu, Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 14th Meeting: Geneva, CH, 19-27 Mar. 2019
 非特許文献4:m48054, Algorithm description for Versatile Video Coding and Test Model 5 (VTM 5), J. Chen, Y. Ye, S. Kim, Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 14th Meeting: Geneva, CH, 19-27 Mar. 2019
 非特許文献5:m47100, AHG12: Loop filter disabled across virtual boundaries, S.-Y. Lin, L. Liu, J.-L. Lin, Y.-C. Chang, C.-C. Ju (Media Tek), P. Hanhart, Y. He (InterDigital), Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 14th Meeting: Geneva, CH, 19-27 Mar. 2019
 非特許文献6:m47986, Gradual Random Access, S. Deshpande (Sharp), Y.-K. Wang, Hendry (Huawei), R. Sjoberg, M. Pettersson (Ericsson), L. Chen (Media Tek), Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 14th Meeting: Geneva, CH, 19-27 Mar. 2019
 非特許文献7:ISO/IEC 14496-12:2015 Information technology. Coding of audio-visual object. Part 12: ISO base media file format, 2015-12
 非特許文献8:ISO/IEC 14496-12:2017 Information technology. Coding of audio-visual object. Part 15: Carriage of network abstraction layer (NAL) unit structured video in the ISO base media file format, 2017-02
Non-Patent Document 1: (above)
Non-Patent Document 2: ITU-T H.264. SERIES H: AUDIOVISUAL AND MULTIMEDIA SYSEMS. Infrastructure of audiovisual services-Coding of moving video. Advanced video coding for generic audiovisual services, 2017-04
Non-Patent Document 3: m48053, Versatile Video Coding (Draft 5), B. Bross, J. Chen, S. Liu, Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO / IEC JTC 1 / SC 29/WG 11 14th Meeting: Geneva, CH, 19-27 Mar. 2019
Non-Patent Document 4: m48054, Algorithm description for Versatile Video Coding and Test Model 5 (VTM 5), J. Chen, Y. Ye, S. Kim, Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO / IEC JTC 1 / SC 29/WG 11 14th Meeting: Geneva, CH, 19-27 Mar. 2019
Non-Patent Document 5: m47100, AHG12: Loop filter disabled across virtual boundaries, S.-Y. Lin, L. Liu, J.-L. Lin, Y.-C. Chang, C.-C. Ju (Media Tek) ), P. Hanhart, Y. He (InterDigital), Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO / IEC JTC 1 / SC 29/WG 11 14th Meeting: Geneva, CH, 19-27 Mar. 2019
Non-Patent Document 6: m47986, Gradual Random Access, S. Deshpande (Sharp), Y.-K. Wang, Hendry (Huawei), R. Sjoberg, M. Pettersson (Ericsson), L. Chen (Media Tek), Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO / IEC JTC 1 / SC 29/WG 11 14th Meeting: Geneva, CH, 19-27 Mar. 2019
Non-Patent Document 7: ISO / IEC 14496-12: 2015 Information technology. Coding of audio-visual object. Part 12: ISO base media file format, 2015-12
Non-Patent Document 8: ISO / IEC 14496-12: 2017 Information technology. Coding of audio-visual object. Part 15: Carriage of network abstraction layer (NAL) unit structured video in the ISO base media file format, 2017-02
 上述の非特許文献に記載されている内容も、参照により本実施例に組み込まれる。つまり、上述の非特許文献に記載されている内容もサポート要件について判断する際の根拠となる。例えば、非特許文献2に記載されているQuad-Tree Block Structure、非特許文献3に記載されているQTBT(Quad Tree Plus Binary Tree) Block Structure、非特許文献4及び5に記載されているMTT(Multi-type Tree) Block Structureが発明の詳細な説明において直接的に定義されていない場合でも、本開示の範囲内であり、請求の範囲のサポート要件を満たすものとする。また、例えば、パース(Parsing)、シンタックス(Syntax)、セマンティクス(Semantics)などの技術用語についても同様に、発明の詳細な説明において直接的に定義されていない場合でも、本開示の範囲内であり、請求の範囲のサポート要件を満たすものとする。 The contents described in the above-mentioned non-patent documents are also incorporated into this embodiment by reference. In other words, the contents described in the above-mentioned non-patent documents are also the basis for determining the support requirements. For example, Quad-Tree Block Structure described in Non-Patent Document 2, QTBT (Quad Tree Plus Binary Tree) Block Structure described in Non-Patent Document 3, and MTT described in Non-Patent Documents 4 and 5 (MTT (Quad Tree Plus Binary Tree) Block Structure. Even if the Multi-type Tree) Block Structure is not directly defined in the detailed description of the invention, it is within the scope of this disclosure and shall meet the support requirements of the claims. Similarly, technical terms such as Parsing, Syntax, and Semantics are also within the scope of the present disclosure, even if they are not directly defined in the detailed description of the invention. Yes, and shall meet the support requirements of the claims.
 また、以下に示す項目順序に従って本開示を説明する。
  1.第1の実施形態
   1.1 第1の実施形態の変形例(1)
   1.2 第1の実施形態の変形例(2)
   1.3 第1の実施形態の変形例(3)
  2.第2の実施形態
In addition, the present disclosure will be described according to the order of items shown below.
1. 1. First Embodiment 1.1 Modifications of the first embodiment (1)
1.2 Modified example of the first embodiment (2)
1.3 Modified example of the first embodiment (3)
2. 2. Second embodiment
[1.第1の実施形態]
 HEVCでは、IDRピクチャ以外にも、少しの依存関係を有するCRA(Clean Random Access)ピクチャやBLA(Broken Link Access)ピクチャもsync sampleとして用いることができる。HEVCのIDR/CRA/BLAと同等のピクチャは、ISOBMFFファイルのsync sample boxに格納することができる。これに対して、GRAピクチャは表示画像全体の一部を表示する画像であり、IDRピクチャなどと同等に取り扱うことは適切ではなく、sync sample boxに格納することは困難である。
[1. First Embodiment]
In HEVC, in addition to IDR pictures, CRA (Clean Random Access) pictures and BLA (Broken Link Access) pictures having a slight dependency can also be used as sync samples. A picture equivalent to IDR / CRA / BLA of HEVC can be stored in the sync sample box of the ISOBMFF file. On the other hand, the GRA picture is an image that displays a part of the entire display image, and it is not appropriate to treat it in the same manner as the IDR picture, and it is difficult to store it in the sync sample box.
 また、NALユニットタイプ毎にサンプルグループを設定するsync sample group entryでGRA_NATを格納することは可能である。しかし、NALユニットタイプ固有の情報をsync sample group entryに格納することは困難であり、このようなサンプルグループをGRAピクチャの情報の格納に用いることは実用的ではない。 It is also possible to store GRA_NAT in sync sample group entry, which sets a sample group for each NAL unit type. However, it is difficult to store the information specific to the NAL unit type in the sync sample group entry, and it is not practical to use such a sample group for storing the information of the GRA picture.
 また、リカバリが完了するまでのフレーム数であるrecovery_poc_cntをISOBMFFファイルの”roll” sample groupに格納して、完全な形の画像が表示可能となるまでの期間を表すroll-distanceとして使用することは可能である。しかし、この方法であっても、Iスライス以外のスライスの処理方法は実装依存であり、この場合はコンテンツの見栄えが機器依存になってしまう。そのため、利用者の視聴体験の品質を損ねるおそれがある。このように、既存の構造では、GRAピクチャの情報を適切に格納し、利用者にGRAを用いたランダムアクセスによる高品質な視聴体験を提供することは困難である。 In addition, recovery_poc_cnt, which is the number of frames until recovery is completed, can be stored in the "roll" sample group of the ISOBMFF file and used as a roll-distance that represents the period until the complete image can be displayed. It is possible. However, even with this method, the processing method of slices other than the I slice is implementation-dependent, and in this case, the appearance of the content becomes device-dependent. Therefore, the quality of the viewing experience of the user may be impaired. As described above, in the existing structure, it is difficult to appropriately store the information of the GRA picture and provide the user with a high-quality viewing experience by random access using GRA.
(第1の実施形態に係る配信システムの構成)
 図1は、配信システムの一例のシステム構成図である。配信システム100は、情報処理装置であるファイル生成装置1、再生処理装置であるクライアント装置2及びWebサーバ3を含む。ファイル生成装置1、クライアント装置2及びWebサーバ3は、ネットワーク4に接続される。そして、ファイル生成装置1、クライアント装置2及びWebサーバ3は、ネットワーク4を介して相互に通信可能である。ここで、図1においては、各装置を1台ずつ示しているが、配信システム100は、ファイル生成装置1及びクライアント装置2をそれぞれ複数台含んでもよい。
(Configuration of Distribution System According to First Embodiment)
FIG. 1 is a system configuration diagram of an example of a distribution system. The distribution system 100 includes a file generation device 1 which is an information processing device, a client device 2 which is a reproduction processing device, and a Web server 3. The file generation device 1, the client device 2, and the Web server 3 are connected to the network 4. Then, the file generation device 1, the client device 2, and the Web server 3 can communicate with each other via the network 4. Here, although each device is shown one by one in FIG. 1, the distribution system 100 may include a plurality of file generation devices 1 and a plurality of client devices 2, respectively.
 ファイル生成装置1は、映像を提供するデータである映像コンテンツを生成する。ファイル生成装置1は、生成した映像コンテンツをWebサーバ3にアップロードする。ここで、本実施形態では、Webサーバ3が映像コンテンツをクライアント装置2に提供する構成について説明するが、配信システム100は他の構成を採ることも可能である。例えば、ファイル生成装置1が、Webサーバ3の機能を含み、生成した映像コンテンツを自装置内に格納し、クライアント装置2に提供する構成であってもよい。 The file generation device 1 generates video content which is data for providing video. The file generation device 1 uploads the generated video content to the Web server 3. Here, in the present embodiment, the configuration in which the Web server 3 provides the video content to the client device 2 will be described, but the distribution system 100 can adopt another configuration. For example, the file generation device 1 may include the functions of the Web server 3, store the generated video content in its own device, and provide it to the client device 2.
 Webサーバ3は、ファイル生成装置1からアップロードされた映像コンテンツを保持する。そして、Webサーバ3は、クライアント装置2からの要求にしたがい指定された映像コンテンツを提供する。 The Web server 3 holds the video content uploaded from the file generation device 1. Then, the Web server 3 provides the designated video content according to the request from the client device 2.
 クライアント装置2は、映像コンテンツの送信要求をWebサーバ3へ送信する。そして、クライアント装置2は、送信要求で指定した映像コンテンツをWebサーバ3から取得する。そして、クライアント装置2は、映像コンテンツをデコードして映像を生成して、その映像をモニタなどの表示装置に表示させる。 The client device 2 transmits a video content transmission request to the Web server 3. Then, the client device 2 acquires the video content specified in the transmission request from the Web server 3. Then, the client device 2 decodes the video content to generate a video, and displays the video on a display device such as a monitor.
(第1の実施形態に係るファイル生成装置の構成)
 次に、ファイル生成装置1の詳細について説明する。図2は、ファイル生成装置のブロック図である。情報処理装置であるファイル生成装置1は、図2に示すように、ファイル生成処理部10、制御部11及び送信部12を有する。制御部11は、ファイル生成処理部10の制御に関する処理を実行する。例えば、制御部11は、ファイル生成処理部10の各部の動作タイミングなどの統括制御を行う。ファイル生成処理部10は、データ取得部101、符号化部102、メタデータ生成部103、判定部104及びファイル生成部105を有する。
(Configuration of File Generation Device According to First Embodiment)
Next, the details of the file generation device 1 will be described. FIG. 2 is a block diagram of the file generator. As shown in FIG. 2, the file generation device 1 which is an information processing device has a file generation processing unit 10, a control unit 11, and a transmission unit 12. The control unit 11 executes a process related to the control of the file generation processing unit 10. For example, the control unit 11 performs integrated control such as the operation timing of each unit of the file generation processing unit 10. The file generation processing unit 10 includes a data acquisition unit 101, an encoding unit 102, a metadata generation unit 103, a determination unit 104, and a file generation unit 105.
 データ取得部101は、映像を表示させる映像コンテンツの元データの入力を受け付ける。映像コンテンツの元データには、一連の画像である画像シーケンスに含まれる各画像の画像データ及び制御情報が含まれる。制御情報は、例えば、各画像データの時間情報の情報などを含む。データ取得部101は、取得した映像コンテンツの画像シーケンスに含まれる画像データを符号化部102へ出力する。また、データ取得部101は、取得した映像コンテンツの元データに含まれる制御情報をメタデータ生成部103へ出力する。 The data acquisition unit 101 accepts the input of the original data of the video content for displaying the video. The original data of the video content includes image data and control information of each image included in an image sequence which is a series of images. The control information includes, for example, time information information of each image data. The data acquisition unit 101 outputs the image data included in the image sequence of the acquired video content to the coding unit 102. Further, the data acquisition unit 101 outputs the control information included in the original data of the acquired video content to the metadata generation unit 103.
 符号化部102は、画像シーケンスに含まれる各画像の画像データの入力を受ける。そして、符号化部102は、画像シーケンス内の各画像の画像データを符号化して符号化ストリームを生成する。この時、符号化部102は、図3に示すようなGRAによるピクチャの再生復帰を実現するためのピクチャ111~116が形成されるようにエンコードを行う。 The coding unit 102 receives input of image data of each image included in the image sequence. Then, the coding unit 102 encodes the image data of each image in the image sequence to generate a coded stream. At this time, the encoding unit 102 encodes so that the pictures 111 to 116 for realizing the reproduction return of the picture by GRA as shown in FIG. 3 are formed.
 図3は、RGA時のピクチャの表示処理を説明するための図である。ピクチャ111~116は、イントラストライプのリフレッシュ領域を用いてピクチャを再生できるようにするための画像である。リフレッシュ領域とは、他の画像を参照せずに再生可能な領域である。また、クリーン領域とは、GRAにより正確に再生可能となった領域である。ダーティ領域とは、GRA開始以前のピクチャを参照する領域であり、GRA開始以降のピクチャでは正確に再生することが困難な領域である。 FIG. 3 is a diagram for explaining a picture display process at the time of RGA. The pictures 111 to 116 are images for enabling the picture to be reproduced by using the refresh area of the intra-stripe. The refresh area is an area that can be reproduced without referring to other images. The clean area is an area that can be accurately regenerated by GRA. The dirty area is an area that refers to a picture before the start of GRA, and is an area in which it is difficult to accurately reproduce the picture after the start of GRA.
 ピクチャ111~116は、それぞれ、リフレッシュ領域121~126を有する。リフレッシュ領域121~126は、1つ以上のスライスを含む。リフレッシュ領域121~126を全て合わせると、1つのピクチャの全体の領域を覆う画像となる。 Pictures 111 to 116 have refresh areas 121 to 126, respectively. Refresh areas 121-126 include one or more slices. When all the refresh areas 121 to 126 are combined, an image that covers the entire area of one picture is obtained.
 ピクチャ111は、GRAによるピクチャの再生復帰の際に、復号が開始される復号開始画像であり、ここでは「GRAピクチャ」と呼ぶ、ピクチャ111の再生開始地点がGRAにおけるランダムアクセスポイントとなる。また、ピクチャ116は、ピクチャ111から開始されたGRAによりピクチャの全画面が再生復帰するピクチャであり、ピクチャ116の再生開始地点がリカバリポイントと呼ばれる。 The picture 111 is a decoding start image in which decoding is started when the picture is returned to playback by GRA, and the reproduction start point of the picture 111, which is referred to here as a “GRA picture”, is a random access point in GRA. Further, the picture 116 is a picture in which the entire screen of the picture is regenerated by the GRA started from the picture 111, and the reproduction start point of the picture 116 is called a recovery point.
 ピクチャ111は、イントラストライプのリフレッシュ領域121を有する。ピクチャ111では、リフレッシュ領域121がそのままクリーン領域131にあたる。そして、リフレッシュ領域121以外の領域がダーティ領域141である。 Picture 111 has an intra-stripe refresh area 121. In picture 111, the refresh area 121 directly corresponds to the clean area 131. The area other than the refresh area 121 is the dirty area 141.
 ピクチャ112は、イントラストライプのリフレッシュ領域122を有する。ピクチャ112ではピクチャ111のリフレッシュ領域121が参照され、リフレッシュ領域122と合わせてクリーン領域132となる。そして、クリーン領域132以外の領域がダーティ領域142である。ダーティ領域142は、ダーティ領域141に比べて、新たに増えたリフレッシュ領域122の分小さくなる。 Picture 112 has an intra-stripe refresh area 122. In the picture 112, the refresh area 121 of the picture 111 is referred to, and together with the refresh area 122, it becomes a clean area 132. The area other than the clean area 132 is the dirty area 142. The dirty area 142 is smaller than the dirty area 141 by the newly added refresh area 122.
 ピクチャ113は、イントラストライプのリフレッシュ領域123を有する。ピクチャ113ではピクチャ111のリフレッシュ領域121及びピクチャ112のリフレッシュ領域122が参照され、リフレッシュ領域123と合わせてクリーン領域133となる。そして、クリーン領域133以外の領域がダーティ領域143である。ダーティ領域143は、ダーティ領域142に比べて、新たに増えたリフレッシュ領域123の分小さくなる。 Picture 113 has an intra-stripe refresh area 123. In the picture 113, the refresh area 121 of the picture 111 and the refresh area 122 of the picture 112 are referred to, and together with the refresh area 123, the clean area 133 is formed. The area other than the clean area 133 is the dirty area 143. The dirty area 143 is smaller than the dirty area 142 by the amount of the newly added refresh area 123.
 その後、時間経過に応じてGRAにより各フレームのピクチャが再生される毎にリフレッシュ領域が追加されてクリーン領域が増加し、ダーティ領域が減る。そして、ピクチャ114は、リフレッシュ領域124を含むクリーン領域134とダーティ領域144を有する。また、ピクチャ115は、リフレッシュ領域125を含むクリーン領域135とダーティ領域145を有する。 After that, a refresh area is added every time the picture of each frame is played by GRA according to the passage of time, the clean area increases, and the dirty area decreases. Then, the picture 114 has a clean area 134 including a refresh area 124 and a dirty area 144. Further, the picture 115 has a clean area 135 including a refresh area 125 and a dirty area 145.
 そして、リカバリポイントとなるピクチャ116は、イントラストライプのリフレッシュ領域126を有する。ピクチャ116ではピクチャ111~115のリフレッシュ領域121~125が参照され、リフレッシュ領域126と合わせてクリーン領域136が形成される。ピクチャ116では、クリーン領域136がピクチャの画面全体となり、ダーティ領域は存在しない。これにより、ピクチャ116でピクチャの再生復帰が完了する。このように、GRAでは、ピクチャの画面が徐々に再生復帰していく。 Then, the picture 116 serving as a recovery point has an intra-stripe refresh area 126. In the picture 116, the refresh areas 121 to 125 of the pictures 111 to 115 are referred to, and the clean area 136 is formed together with the refresh areas 126. In the picture 116, the clean area 136 is the entire screen of the picture, and there is no dirty area. As a result, the reproduction of the picture is completed in the picture 116. In this way, in GRA, the screen of the picture gradually returns to playback.
 ここでは、紙面に向かって左端から右端へ順にクリーン領域が増加する場合で説明したが、リフレッシュ領域の配置はこれに限らない。例えば、リフレッシュ領域が紙面に向かってピクチャの横方向に延びる領域であり、クリーン領域が下から上に向けて増加しても良い。リフレッシュ領域は、連続した領域であればその形や位置に特に制限はなく、またクリーン領域における領域が増加する順番も特に制限はない。 Here, the case where the clean area increases in order from the left end to the right end toward the paper is explained, but the arrangement of the refresh area is not limited to this. For example, the refresh area is an area extending in the lateral direction of the picture toward the paper surface, and the clean area may increase from the bottom to the top. The shape and position of the refresh area are not particularly limited as long as they are continuous areas, and the order in which the areas in the clean area increase is not particularly limited.
 ピクチャ111の再生開始地点であるランダムアクセスポイントからからピクチャ116の再生開始地点であるリカバリポイントまでの期間をロールと呼ぶ。GRAは、図4に示したシンタックスで規定される形でJVET-N0865で採用されている。図4は、JVET-N0865で採用されたGRAピクチャの規格を表す図である。GRAピクチャのVCL(Video Coding Layer) NALは、図4の行151におけるNalUnitType==GRA_NUTとしてJVET-N0865で規定されている。さらに、図4の行152におけるrecovery_per_cntが、ランダムアクセスポイントから何フレーム目でピクチャの再生復帰が完了するかを示す値であり、この値をロールとして用いることができる。 The period from the random access point, which is the playback start point of picture 111, to the recovery point, which is the playback start point of picture 116, is called a roll. GRA is adopted in JVET-N0865 in the form defined by the syntax shown in FIG. FIG. 4 is a diagram showing a GRA picture standard adopted in JVET-N0865. The VCL (Video Coding Layer) NAL of the GRA picture is defined by JVET-N0865 as NalUnitType == GRA_NUT in line 151 of FIG. Further, recovery_per_cnt in line 152 of FIG. 4 is a value indicating the frame number at which the reproduction / return of the picture is completed from the random access point, and this value can be used as a role.
 符号化部102は、GRAを実行可能なようにエンコードした画像データを含む符号化ストリームをファイル生成部105へ出力する。より詳細には、符号化部102とファイル生成部105の間には、VCLバッファと非VCLバッファとが設けられる。画像データには、映像であるビジュアルのデータと音声であるオーディオのデータとが含まれる。そして、符号化部102から出力されたビジュアル側のデータはVCLバッファ経由でファイル生成部105に送られ、オーディオ側のデータは非VCLバッファ経由でファイル生成部105に送られる。 The coding unit 102 outputs a coded stream containing image data encoded so that GRA can be executed to the file generation unit 105. More specifically, a VCL buffer and a non-VCL buffer are provided between the encoding unit 102 and the file generation unit 105. The image data includes visual data that is video and audio data that is audio. Then, the data on the visual side output from the coding unit 102 is sent to the file generation unit 105 via the VCL buffer, and the data on the audio side is sent to the file generation unit 105 via the non-VCL buffer.
 判定部104は、符号化部102のエンコード結果を確認する。そして、判定部104は、符号化ストリームに含まれる各ピクチャの中から、GRAにおける復号開始画像であるGRAピクチャを特定する。さらに、判定部104は、特定したGRAピクチャから実行されるGRAにおけるランダムアクセスポイント及びリカバリポイントを特定する。そして、判定部104は、ロールとして、ランダムアクセスポイントの次のフレームからリカバリポイントのフレームまでのフレーム数を求める。このフレーム数は、JVET-N086で規定されたrecovery_per_cntにあたる。その後、判定部104は、GRAピクチャの情報及びロールの情報をファイル生成部105へ出力する。 The determination unit 104 confirms the encoding result of the encoding unit 102. Then, the determination unit 104 identifies the GRA picture, which is the decoding start image in GRA, from each picture included in the coded stream. Further, the determination unit 104 identifies a random access point and a recovery point in the GRA executed from the specified GRA picture. Then, the determination unit 104 obtains the number of frames from the next frame of the random access point to the frame of the recovery point as a role. This number of frames corresponds to recovery_per_cnt specified in JVET-N086. After that, the determination unit 104 outputs the GRA picture information and the role information to the file generation unit 105.
 メタデータ生成部103は、制御情報の入力をデータ取得部101から受ける。そして、メタデータ生成部103は、制御情報を用いて画像再生のためのメタデータを生成する。メタデータは、どのようなコーデックで圧縮するかなどの画像生成及び再生に関する制御情報などを含む。メタデータ生成部103は、生成したメタデータをファイル生成部105へ出力する。 The metadata generation unit 103 receives input of control information from the data acquisition unit 101. Then, the metadata generation unit 103 generates metadata for image reproduction using the control information. The metadata includes control information related to image generation and reproduction such as what kind of codec is used for compression. The metadata generation unit 103 outputs the generated metadata to the file generation unit 105.
 ファイル生成部105は、GRAを実行可能なようにエンコードした画像データを含む符号化ストリームの入力を符号化部102から受ける。また、ファイル生成部105は、メタデータの入力をメタデータ生成部103から受ける。さらに、ファイル生成部105は、GRAピクチャの情報及びロールの情報の入力を判定部104から受ける。 The file generation unit 105 receives the input of the coded stream including the image data encoded so that the GRA can be executed from the code unit 102. Further, the file generation unit 105 receives the input of the metadata from the metadata generation unit 103. Further, the file generation unit 105 receives input of GRA picture information and role information from the determination unit 104.
 そして、ファイル生成部105は、図5のシンタックスで表されるGRAピクチャのサンプルグループを新たに定義して生成する。図5は、GRAピクチャのサンプルグループの一例を表す図である。 Then, the file generation unit 105 newly defines and generates a sample group of GRA pictures represented by the syntax of FIG. FIG. 5 is a diagram showing an example of a sample group of GRA pictures.
 ここでは、ファイル生成部105は、GARピクチャに関する情報を表すGRA情報を生成する。例えば、ファイル生成部105は、GRA情報としてGRAピクチャのサンプルグループを生成する。その場合、ファイル生成部105は、GRAピクチャのサンプルグループとして、VisualSampleGroupの新しいグループであるGraSyncSampleGroupEntry()を生成する。そして、ファイル生成部105は、GRAに関する情報をGraSyncSampleGroupEntry()に設定する。 Here, the file generation unit 105 generates GRA information representing information about the GAR picture. For example, the file generation unit 105 generates a sample group of GRA pictures as GRA information. In that case, the file generation unit 105 generates GraSyncSampleGroupEntry (), which is a new group of VisualSampleGroup, as a sample group of GRA pictures. Then, the file generation unit 105 sets the information about GRA in GraSyncSampleGroupEntry ().
 具体的には、ファイル生成部105は、GraSyncSampleGroupEntry()にGRAピクチャを設定し、GraSyncSampleGroupEntry()におけるroll_distanceでGRAにおけるロールを表す。例えば、ファイル生成部105は、JVET-N086で規定されたrecovery_per_cntを用いて、GRAのランダムアクセスポイントからリカバリポイントまでのフレーム数をroll_distanceの値として設定する。 Specifically, the file generation unit 105 sets a GRA picture in GraSyncSampleGroupEntry (), and roll_distance in GraSyncSampleGroupEntry () represents a role in GRA. For example, the file generation unit 105 sets the number of frames from the random access point of GRA to the recovery point as the value of roll_distance by using recovery_per_cnt defined by JVET-N086.
 また、ファイル生成部105は、GraSyncSampleGroupEntry()におけるGradualoutputStruct()として、クリーン領域が徐々に拡大するように表示するグラデュアル表示(Gradual output)の実行の許否を表す情報であるグラデュアル表示許可情報を設定する。クリーン領域が徐々に拡大するように表示するグラデュアル表示を許可するか否かの情報は、例えば、利用者によりファイル生成装置1に予め設定されてもよいし、ファイル生成部105がグラデュアル表示許可情報を設定する際に入力を受けてもよい。 Further, the file generation unit 105, as GradualoutputStruct () in GraSyncSampleGroupEntry (), provides gradual display permission information which is information indicating whether or not to execute the gradual display (Gradual output) which displays the clean area so as to gradually expand. Set. The information on whether or not to allow the gradual display for displaying the clean area so as to gradually expand may be preset in the file generation device 1 by the user, or the file generation unit 105 may display the gradual display. You may receive input when setting permission information.
 また、ファイル生成部105は、取得した符号化ストリームに含まれる画像データを用いて、ピクチャにおいてリフレッシュ領域がどのように遷移するかの情報を取得する。そして、ファイル生成部105は、取得した情報からリフレッシュ領域の表示の遷移を表すグラデュアル表示種別情報を生成する。そして、ファイル生成部105は、GraSyncSampleGroupEntry()におけるGradualOutputInformationStruct()として、GRAを実行する場合のクリーン領域に関する表示制御情報を設定する。 Further, the file generation unit 105 acquires information on how the refresh area transitions in the picture by using the image data included in the acquired coded stream. Then, the file generation unit 105 generates gradual display type information representing the transition of the display of the refresh area from the acquired information. Then, the file generation unit 105 sets the display control information regarding the clean area when executing GRA as GradualOutputInformationStruct () in GraSyncSampleGroupEntry ().
 また、ファイル生成部105は、GraSyncSampleGroupEntry()におけるInterpolationStruct()として、ダーティ領域をどのように補間するかを表すダーティ領域補間情報を設定する。ダーティ領域をどのように補間するかの情報は、例えば、利用者によりファイル生成装置1に予め設定されてもよいし、ファイル生成部105が、ダーティ領域補間情報を設定する際に入力を受けてもよい。 Further, the file generation unit 105 sets dirty area interpolation information indicating how to interpolate the dirty area as InterpolationStruct () in GraSyncSampleGroupEntry (). Information on how to interpolate the dirty area may be preset in the file generation device 1 by the user, for example, or the file generation unit 105 receives input when setting the dirty area interpolation information. May be good.
 ファイル生成部105は、符号化ストリームに含まれる画像データ及びメタデータとともに、生成したGRAピクチャのサンプルグループをセグメント毎にISOBMFFファイルへ格納することでファイル化し、映像コンテンツのセグメントファイルを生成する。具体的には、ファイル生成部105は、映像情報である(mdat)と管理情報である(moov)とを含むISOBMFFファイルを生成する。mdatは、ISOBMFFファイルにおけるデータ領域である。また、moovは、ISOBMFFにおけるヘッダ領域である。 The file generation unit 105 creates a file by storing the generated GRA picture sample group for each segment in the ISOBMFF file together with the image data and metadata included in the coded stream, and generates a segment file of the video content. Specifically, the file generation unit 105 generates an ISOBMFF file including video information (mdat) and management information (moov). mdat is a data area in the ISOBMFF file. Further, moov is a header area in ISOBMFF.
 そして、ファイル生成部105は、ISOBMFFのmoovにGRAピクチャに関する情報であるGRA情報を格納する。具体的には、ファイル生成部105は、ISOBMFFのmoovにGraSyncSampleGroupEntry()を格納するGraSyncSampleGroupBoxを設定する。例えば、ファイル生成部105は、図6に示すように、BOX160で示されるmoovの中のBOX161にGraSyncSampleGroupBoxを設定する。図6は、GraSyncSampleGroupBoxの格納例を示す図である。 Then, the file generation unit 105 stores GRA information, which is information about the GRA picture, in the moov of ISOBMFF. Specifically, the file generation unit 105 sets the GraSyncSampleGroupBox that stores the GraSyncSampleGroupEntry () in the moov of the ISOBMFF. For example, the file generation unit 105 sets the GraSyncSampleGroupBox in the BOX 161 in the moov indicated by the BOX 160, as shown in FIG. FIG. 6 is a diagram showing a storage example of the GraSyncSampleGroupBox.
 ここで、MPEG-4のファイルには、1つのコンテンツを複数に分割するムービーフラグメントが行われていない場合と、ムービーフラグメントが行われている場合が考えられる。図7は、ムービーフラグメントの有無に応じたGraSyncSampleGroupBoxの格納状態を表す図である。 Here, it is conceivable that the MPEG-4 file does not have a movie fragment that divides one content into a plurality of pieces, or that a movie fragment is performed. FIG. 7 is a diagram showing a storage state of the GraSyncSampleGroupBox according to the presence or absence of a movie fragment.
 ムービーフラグメントが行われていない場合は、図7のファイル170に示すように、1つの映像コンテンツに対してmoovとmdatとがそれぞれ1つずつ存在する。この場合、ファイル生成部105は、moovにBOX171で示す1つのGraSyncSampleGroupBoxを格納する。 When the movie fragment is not performed, as shown in the file 170 of FIG. 7, one moov and one mdat exist for one video content. In this case, the file generation unit 105 stores one GraSyncSampleGroupBox indicated by BOX171 in moov.
 これに対して、ムービーフラグメントが行われた場合、図7のファイル180に示すように、1つの映像コンテンツに対して1つのmoov及び、moofとmdatとの組がそれぞれ複数ずつ存在する。この場合、ファイル生成部105は、各moofにBOX181~183で示すように1つずつGraSyncSampleGroupBoxを格納する。 On the other hand, when a movie fragment is performed, as shown in file 180 of FIG. 7, one moov and a plurality of pairs of moof and mdat exist for one video content. In this case, the file generation unit 105 stores one GraSyncSampleGroupBox in each moof as shown by BOX181 to 183.
 図2に戻って説明を続ける。その後、ファイル生成部105は、GRAピクチャのサンプルグループを含む映像コンテンツのセグメントファイルを送信部12へ出力する。 Return to Fig. 2 and continue the explanation. After that, the file generation unit 105 outputs the segment file of the video content including the sample group of the GRA picture to the transmission unit 12.
 送信部12は、映像データのセグメントファイルの入力をファイル生成部105から受ける。そして、送信部12は、取得した映像データのセグメントファイルをWebサーバ3にアップロードする。 The transmission unit 12 receives the input of the video data segment file from the file generation unit 105. Then, the transmission unit 12 uploads the acquired video data segment file to the Web server 3.
(クライアント装置の構成)
 図8は、クライアント装置のブロック図である。図8に示すように、クライアント装置2は、再生処理部20及び制御部21を有する。
(Configuration of client device)
FIG. 8 is a block diagram of the client device. As shown in FIG. 8, the client device 2 has a reproduction processing unit 20 and a control unit 21.
 制御部21は、再生処理部20の各部の動作を制御する。例えば、制御部21は、再生処理部20の各部の動作のタイミングを統括制御する。さらに、制御部21は、操作者からのコマンドの入力を受ける。そして、制御部21は、図示しない入力装置を用いて利用者から入力されたコマンドにしたがい再生処理部20を制御する。 The control unit 21 controls the operation of each unit of the reproduction processing unit 20. For example, the control unit 21 comprehensively controls the operation timing of each unit of the reproduction processing unit 20. Further, the control unit 21 receives an input of a command from the operator. Then, the control unit 21 controls the reproduction processing unit 20 according to a command input from the user using an input device (not shown).
 例えば、制御部21は、ランダムアクセスの指示の入力を受ける。そして、制御部21は、ランダムアクセスを再生処理部20に実行させる。その際、制御部21は、ファイル処理部202にランダムアクセスのサンプルがGRAか否かの判定を実行させ、ランダムアクセスとしてGRAを実行するか、通常のデコード処理を実行するかを判定させる。この通常のデコード処理では、IDRピクチャを用いたランダムアクセスが実行される。 For example, the control unit 21 receives an input of a random access instruction. Then, the control unit 21 causes the reproduction processing unit 20 to execute the random access. At that time, the control unit 21 causes the file processing unit 202 to determine whether or not the random access sample is GRA, and determines whether to execute GRA as random access or normal decoding processing. In this normal decoding process, random access using the IDR picture is executed.
 再生処理部20は、画像データのデコード及び表示を行う。さらに、操作者によりランダムアクセスが指示された場合、再生処理部20は、制御部21からの制御を受けて、ランダムアクセスを実行する。以下に、再生処理部20の詳細について説明する。再生処理部20は、ファイル取得部201、ファイル処理部202、GRA情報取得部203、復号処理部204、表示情報生成部205及び表示部206を有する。 The reproduction processing unit 20 decodes and displays the image data. Further, when the operator instructs the random access, the reproduction processing unit 20 receives the control from the control unit 21 and executes the random access. The details of the reproduction processing unit 20 will be described below. The reproduction processing unit 20 includes a file acquisition unit 201, a file processing unit 202, a GRA information acquisition unit 203, a decoding processing unit 204, a display information generation unit 205, and a display unit 206.
 ファイル取得部201は、利用者から入力された映像再生の指示にしたがい、再生する映像コンテンツのセグメントファイルをWebサーバ3から取得する。そして、ファイル取得部201は、取得した映像コンテンツのセグメントファイルをファイル処理部202へ出力する。 The file acquisition unit 201 acquires the segment file of the video content to be reproduced from the Web server 3 according to the video reproduction instruction input from the user. Then, the file acquisition unit 201 outputs the segment file of the acquired video content to the file processing unit 202.
 ファイル処理部202は、再生する映像コンテンツのデータが格納されたセグメントファイルの入力をファイル取得部201から受ける。ファイル処理部202は、取得したセグメントファイルをパースする。そして、ファイル処理部202は、画像データ、メタデータを取得する。その後、ファイル処理部202は、画像データを復号処理部204へ出力する。また、ファイル処理部202は、メタデータを表示情報生成部205へ出力する。 The file processing unit 202 receives the input of the segment file in which the data of the video content to be played is stored from the file acquisition unit 201. The file processing unit 202 parses the acquired segment file. Then, the file processing unit 202 acquires image data and metadata. After that, the file processing unit 202 outputs the image data to the decoding processing unit 204. Further, the file processing unit 202 outputs the metadata to the display information generation unit 205.
 また、ファイル処理部202は、利用者からランダムアクセスの指示の入力があった場合、制御部21からランダムアクセスのサンプルの確認の指示を受ける。そして、ファイル処理部202は、GraSyncSampleGroupEntryBoxで表されるGRAピクチャのサンプルグループの有無を確認して、ランダムアクセスのサンプルがGRAであるか否かを確認して、ランダムアクセスとしてGRAを用いるか否かを判定する。 Further, when the user inputs a random access instruction, the file processing unit 202 receives an instruction from the control unit 21 to confirm the random access sample. Then, the file processing unit 202 confirms whether or not there is a sample group of the GRA picture represented by the GraSyncSampleGroupEntryBox, confirms whether or not the random access sample is GRA, and whether or not to use GRA as the random access. To judge.
 GRAを用いない場合、ファイル処理部202は、通常のデコードの処理をファイル処理部202に実行させる。この場合、ファイル処理部202は、利用者により指定されたランダムアクセスに対応するランダムアクセスポイントとなるIDRピクチャを特定する。そして、ファイル処理部202は、特定したIDRピクチャの画像データから続く画像データを復号処理部204へ出力して、IDRピクチャを用いたランダムアクセスを行わせる。 When GRA is not used, the file processing unit 202 causes the file processing unit 202 to execute a normal decoding process. In this case, the file processing unit 202 identifies an IDR picture that is a random access point corresponding to the random access specified by the user. Then, the file processing unit 202 outputs the image data following from the image data of the specified IDR picture to the decoding processing unit 204, and causes random access using the IDR picture.
 これに対して、GRAを用いる場合、ファイル処理部202は、GRAピクチャのサンプルグループであるGraSyncSampleGroupEntryBoxをGRA情報取得部203へ出力する。さらに、ファイル処理部202は、利用者により指定されたランダムアクセスに対応するランダムアクセスポイントとなるGRAピクチャを特定する。そして、ファイル処理部202は、特定したGRAピクチャから続く画像データを出力するとともに、GRAの実行を復号処理部204に指示する。 On the other hand, when GRA is used, the file processing unit 202 outputs the GraSyncSampleGroupEntryBox, which is a sample group of GRA pictures, to the GRA information acquisition unit 203. Further, the file processing unit 202 identifies a GRA picture that is a random access point corresponding to the random access specified by the user. Then, the file processing unit 202 outputs the image data following from the specified GRA picture, and instructs the decoding processing unit 204 to execute the GRA.
 GRA情報取得部203は、利用者によりランダムアクセスの指示が入力され、且つ、GRAを用いる場合に、GRAピクチャのサンプルグループであるGraSyncSampleGroupEntryBoxをファイル処理部202から取得する。そして、GRA情報取得部203は、GRAピクチャのサンプルグループであるGraSyncSampleGroupEntry()からGradualOutputStruct()の情報、GradualOutputInformationStruct()の情報、IntarpolationSturct()の情報及びroll_disntanceの情報を取得する。 The GRA information acquisition unit 203 acquires a GraSyncSampleGroupEntryBox, which is a sample group of GRA pictures, from the file processing unit 202 when a random access instruction is input by the user and GRA is used. Then, the GRA information acquisition unit 203 acquires the information of GradualOutputStruct (), the information of GradualOutputInformationStruct (), the information of IntarpolationSturct (), and the information of roll_disntance from GraSyncSampleGroupEntry () which is a sample group of GRA pictures.
 次に、GRA情報取得部203は、GradualOutputStruct()の値から、グラデュアル表示が許可されているか否かを判定する。グラデュアル表示が許可されている場合、GRA情報取得部203は、GradualOutputInformationStruct()の値からグラデュアル表示種別情報を取得する。また、GRA情報取得部203は、IntarpolationSturct()の値からダーティ領域補間情報を取得する。さらに、GRA情報取得部203は、roll_disntanceの値からGRAピクチャの次のフレームからリカバリポイントとなるピクチャまでのフレーム数であるロールを取得する。そして、GRA情報取得部203は、グラデュアル表示種別情報、ダーティ領域補間情報及びロールの情報をグラデュアル表示の指示とともに復号処理部204へ出力する。 Next, the GRA information acquisition unit 203 determines whether or not gradual display is permitted from the value of GradualOutputStruct (). When the gradual display is permitted, the GRA information acquisition unit 203 acquires the gradual display type information from the value of the GradualOutputInformationStruct (). Further, the GRA information acquisition unit 203 acquires dirty region interpolation information from the value of IntarpolationSturct (). Further, the GRA information acquisition unit 203 acquires a role which is the number of frames from the value of roll_disntance to the picture next to the GRA picture to the picture as the recovery point. Then, the GRA information acquisition unit 203 outputs the gradual display type information, the dirty area interpolation information, and the roll information to the decoding processing unit 204 together with the instruction of the gradual display.
 これに対して、グラデュアル表示が許可されていない場合、GRA情報取得部203は、roll_disntanceの値からGRAピクチャの次のフレームからリカバリポイントとなるピクチャまでのフレーム数であるロールを取得する。そして、GRA情報取得部203は、ロールの情報とともに、ピクチャの画面全体が全てクリーン領域に復号できてから表示を行う全画面復号後表示の指示を復号処理部204へ出力する。 On the other hand, when the gradual display is not permitted, the GRA information acquisition unit 203 acquires a role which is the number of frames from the next frame of the GRA picture to the picture which is the recovery point from the value of roll_disntance. Then, the GRA information acquisition unit 203 outputs to the decoding processing unit 204 an instruction for displaying after full-screen decoding, which is displayed after the entire screen of the picture can be decoded in the clean area, together with the roll information.
 復号処理部204は、画像データの入力をファイル処理部202から受ける。そして、復号処理部204は、取得した画像データのデータに対して復号処理を施す。その後、復号処理部204は、復号処理を施した3DoF画像データを表示情報生成部205へ出力する。 The decoding processing unit 204 receives the input of image data from the file processing unit 202. Then, the decoding processing unit 204 performs a decoding process on the acquired image data. After that, the decoding processing unit 204 outputs the decrypted 3DoF image data to the display information generation unit 205.
 また、利用者からランダムアクセスの実行の指示が入力され、且つ、ランダムアクセスとしてGRAを用いない場合、復号処理部204は、ランダムアクセスポイントとなるIDRピクチャから続く画像データの入力をファイル処理部202から受ける。そして、復号処理部204は、IDRピクチャから続く画像データの復号を行い、復号した画像データを表示情報生成部205へ出力する。これにより、利用者から指定されたランダムアクセスポイントとなるIDRピクチャからの画像再生が行われ、ランダムアクセスが実行される。 Further, when an instruction to execute random access is input from the user and GRA is not used as random access, the decoding processing unit 204 inputs the image data continuing from the IDR picture serving as the random access point to the file processing unit 202. Receive from. Then, the decoding processing unit 204 decodes the image data following the IDR picture and outputs the decoded image data to the display information generation unit 205. As a result, the image is reproduced from the IDR picture which is the random access point designated by the user, and the random access is executed.
 一方、利用者からランダムアクセスの実行の指示が入力された場合で、ランダムアクセスとしてGRAを用いる場合、復号処理部204は、ランダムアクセスポイントとなるGRAピクチャから続く画像データの入力をファイル処理部202から受ける。 On the other hand, when an instruction to execute random access is input from the user and GRA is used as random access, the decoding processing unit 204 inputs the image data following from the GRA picture serving as the random access point to the file processing unit 202. Receive from.
 さらに、グラデュアル表示が許可されている場合、復号処理部204は、グラデュアル表示の指示とともに以下の情報の入力をGRA情報取得部203から受ける。例えば、復号処理部204は、グラデュアル表示種別情報、ダーティ領域補間情報及びGRAピクチャの次のフレームからリカバリポイントとなるピクチャまでのフレーム数であるロールの情報の入力をGRA情報取得部203から受ける。 Further, when the gradual display is permitted, the decoding processing unit 204 receives the input of the following information from the GRA information acquisition unit 203 together with the instruction of the gradual display. For example, the decoding processing unit 204 receives input from the GRA information acquisition unit 203 of the gradual display type information, the dirty area interpolation information, and the roll information which is the number of frames from the next frame of the GRA picture to the picture as the recovery point. ..
 次に、復号処理部204は、ロールの情報及びグラデュアル表示種別情報からどのようなグラデュアル表示を行うかを識別する。そして、復号処理部204は、GRAピクチャの画像データから復号を開始する。その後、復号処理部204は、グラデュアル表示の最後のフレームまで、ダーティ領域補間情報にしたがってダーティ領域の補間を行いつつ、グラデュアル表示が実行させるように各フレームを復号する。 Next, the decoding processing unit 204 identifies what kind of gradual display is to be performed from the roll information and the gradual display type information. Then, the decoding processing unit 204 starts decoding from the image data of the GRA picture. After that, the decoding processing unit 204 decodes each frame so that the gradual display is executed while interpolating the dirty area according to the dirty area interpolation information until the last frame of the gradual display.
 復号処理部204は、復号したGRAピクチャから続くグラデュアル表示の最後のフレームまでの画像データを表示情報生成部205へ順次出力する。グラデュアル表示の最後のフレームの出力完了後、復号処理部204は、通常の復号の処理に復帰する。そして、復号処理部204は、通常の復号を行った画像データを表示情報生成部205への出力を続ける。 The decoding processing unit 204 sequentially outputs the image data from the decoded GRA picture to the last frame of the subsequent gradual display to the display information generation unit 205. After the output of the last frame of the gradual display is completed, the decoding processing unit 204 returns to the normal decoding processing. Then, the decoding processing unit 204 continues to output the image data obtained by normal decoding to the display information generation unit 205.
 これに対して、グラデュアル表示が許可されていない場合、復号処理部204は、ロールの情報とともに全画面復号後表示の指示の入力をGRA情報取得部203から受ける。そして、復号処理部204は、GRAピクチャから復号を開始する。次に、復号処理部204は、ロールとして指定されたフレーム数からGRAにおける最後のピクチャを特定する。そして、復号処理部204は、特定した最後のピクチャまでの復号を実行して、ピクチャの画面全体をクリーン領域として復号した画像データを生成する。その後、復号処理部204は、ピクチャの画面全体をクリーン領域として復号した画像データを表示情報生成部205へ出力する。 On the other hand, when the gradual display is not permitted, the decoding processing unit 204 receives the input of the display instruction after full-screen decoding from the GRA information acquisition unit 203 together with the roll information. Then, the decoding processing unit 204 starts decoding from the GRA picture. Next, the decoding processing unit 204 identifies the last picture in the GRA from the number of frames specified as the role. Then, the decoding processing unit 204 executes decoding up to the specified last picture, and generates the decoded image data with the entire screen of the picture as a clean area. After that, the decoding processing unit 204 outputs the decoded image data to the display information generation unit 205 with the entire screen of the picture as a clean area.
 表示情報生成部205は、復号された画像データの入力を復号処理部204から受ける。また、表示情報生成部205は、メタデータの入力をファイル処理部202から受ける。そして、表示情報生成部205は、メタデータで指定された時刻の情報などを用いて、画像データから表示用画像を生成する。その後、表示情報生成部205は、生成した表示用画像を表示部206に提供して表示させる。 The display information generation unit 205 receives the input of the decoded image data from the decoding processing unit 204. Further, the display information generation unit 205 receives the input of metadata from the file processing unit 202. Then, the display information generation unit 205 generates a display image from the image data by using the information at the time specified in the metadata. After that, the display information generation unit 205 provides the generated display image to the display unit 206 for display.
 特に、GRAを用い且つグラデュアル表示を行う場合、表示情報生成部205は、グラデュアル表示を行うGRAピクチャから続く画像データの入力を復号処理部204から受ける。そして、表示情報生成部205は、クリーン領域が指定されたグラデュアル表示の表示方法及びダーティ領域の処理方法にしたがってグラデュアル表示される表示用画像を生成する。そして、表示情報生成部205は、生成した表示用画像を表示部206へ出力して表示させることで、グラデュアル表示を行わせる。 In particular, when GRA is used and gradual display is performed, the display information generation unit 205 receives input of image data following from the GRA picture that performs gradual display from the decoding processing unit 204. Then, the display information generation unit 205 generates a display image for gradual display according to the display method of the gradual display in which the clean area is designated and the processing method of the dirty area. Then, the display information generation unit 205 outputs the generated display image to the display unit 206 for display, thereby performing gradual display.
 その際、表示情報生成部205は、グラデュアル表示であることを示す情報を利用者に提示する。例えば、表示情報生成部205は、グラデュアル表示を表示中であることを示す情報を表示部206に表示させてもよい。 At that time, the display information generation unit 205 presents the user with information indicating that the display is gradual display. For example, the display information generation unit 205 may display information indicating that the gradual display is being displayed on the display unit 206.
 また、GRAを用い且つグラデュアル表示を行わない場合、表示情報生成部205は、ピクチャの画面全体をクリーン領域として復号した画像データの入力を復号処理部204から受ける。そして、表示情報生成部205は、画面全体の再生復帰が完了した表示用画像を生成する。そして、表示情報生成部205は、生成した表示用画像を表示部206へ出力して表示させることで、画面全体の再生復帰が完了した状態から映像コンテンツの表示を行わせる。 Further, when GRA is used and gradual display is not performed, the display information generation unit 205 receives the input of the image data decoded by using the entire screen of the picture as a clean area from the decoding processing unit 204. Then, the display information generation unit 205 generates a display image in which the reproduction / return of the entire screen is completed. Then, the display information generation unit 205 outputs the generated display image to the display unit 206 and displays it, so that the video content is displayed from the state in which the reproduction / return of the entire screen is completed.
 表示部206は、モニタなどの表示装置を有する。表示部206は、表示情報生成部205により生成された表示用画像の入力を受ける。そして、表示部206は、取得した表示用画像を表示装置に表示させる。 The display unit 206 has a display device such as a monitor. The display unit 206 receives the input of the display image generated by the display information generation unit 205. Then, the display unit 206 causes the display device to display the acquired display image.
(第1の実施形態に係るファイル生成手順)
 次に、図9を参照して、ファイル生成装置1によるファイル生成処理の流れについて詳細に説明する。図9は、ファイル生成装置によるファイル生成処理のフローチャートである。
(File generation procedure according to the first embodiment)
Next, with reference to FIG. 9, the flow of the file generation process by the file generation device 1 will be described in detail. FIG. 9 is a flowchart of a file generation process by the file generation device.
 データ取得部101は、映像コンテンツの元データをWebサーバ3から取得する。この元データには、複数の画像の画像データ及び制御情報が含まれる。そして、データ取得部101は、取得した元データに含まれる画像データを符号化部102へ出力する。また、データ取得部101は、取得した元データに含まれる制御情報をメタデータ生成部103へ出力する。符号化部102は、画像データの入力をデータ取得部101から受ける。そして、符号化部102は、GRAを実行可能に画像データの符号化を実行する(ステップS101)。そして、符号化部102は、符号化した画像データをファイル生成部105へ出力する。また、メタデータ生成部103は、データ取得部101から入力された制御情報からメタデータを生成してファイル生成部105へ出力する。 The data acquisition unit 101 acquires the original data of the video content from the Web server 3. The original data includes image data and control information of a plurality of images. Then, the data acquisition unit 101 outputs the image data included in the acquired original data to the coding unit 102. Further, the data acquisition unit 101 outputs the control information included in the acquired original data to the metadata generation unit 103. The coding unit 102 receives an input of image data from the data acquisition unit 101. Then, the coding unit 102 executes the coding of the image data so that the GRA can be executed (step S101). Then, the coding unit 102 outputs the coded image data to the file generation unit 105. Further, the metadata generation unit 103 generates metadata from the control information input from the data acquisition unit 101 and outputs the metadata to the file generation unit 105.
 判定部104は、符号化部102により符号化された画像データの中からGRAのGRAピクチャ及びGRAピクチャの次のフレームからリカバリポイントのフレームまでのフレーム数であるロールを特定する。その後、判定部104は、GRAピクチャの情報及びロールの情報をファイル生成部105へ出力する。ファイル生成部105は、画像データの入力を符号化部102から受ける。また、ファイル生成部105は、GRAピクチャ及びロールの情報の入力を判定部104から受ける。そして、ファイル生成部105は、新たにGRAピクチャのサンプルグループとしてGraSyncSampleGroupEntryBoxを定義する。次に、ファイル生成部105は、GraSyncSampleGroupEntry()のroll_distanceにロールの情報を設定する(ステップS102)。 The determination unit 104 identifies a role that is the number of frames from the GRA picture of the GRA and the frame next to the GRA picture to the frame of the recovery point from the image data encoded by the coding unit 102. After that, the determination unit 104 outputs the GRA picture information and the role information to the file generation unit 105. The file generation unit 105 receives the input of image data from the encoding unit 102. Further, the file generation unit 105 receives input of GRA picture and role information from the determination unit 104. Then, the file generation unit 105 newly defines the GraSyncSampleGroupEntryBox as a sample group of the GRA picture. Next, the file generation unit 105 sets the roll information in the roll_distance of GraSyncSampleGroupEntry () (step S102).
 次に、ファイル生成部105は、画像データを用いて、リフレッシュ領域の遷移の情報を取得する(ステップS103)。 Next, the file generation unit 105 acquires the transition information of the refresh area using the image data (step S103).
 そして、ファイル生成部105は、リフレッシュ領域の遷移の情報からグラデュアル表示種別情報を生成してGraSyncSampleGroupEntry()のGradualOutputInformationStruct()として設定する(ステップS104)。 Then, the file generation unit 105 generates the gradual display type information from the transition information of the refresh area and sets it as the GradualOutputInformationStruct () of GraSyncSampleGroupEntry () (step S104).
 次に、ファイル生成部105は、グラデュアル表示許可情報をGraSyncSampleGroupEntry()のGradualOutputOutputStruct()として設定する。また、ファイル生成部105は、ダーティ領域補間情報をGraSyncSampleGroupEntry()のInterpolationStruct()として設定する(ステップS105)。 Next, the file generation unit 105 sets the gradual display permission information as the GradualOutputOutputStruct () of GraSyncSampleGroupEntry (). Further, the file generation unit 105 sets the dirty area interpolation information as InterpolationStruct () of GraSyncSampleGroupEntry () (step S105).
 その後、ファイル生成部105は、ISOBMFFファイルにおける他の管理情報を含むmoovにGraSyncSampleGroupEntryBoxを設定する(ステップS106)。 After that, the file generation unit 105 sets the GraSyncSampleGroupEntryBox in the moov including other management information in the ISOBMFF file (step S106).
 次に、ファイル生成部105は、映像情報であるmdat及び管理情報であるmoovを含む映像コンテンツのセグメントファイル、または、映像情報であるmdat及び管理情報であるmoovとmoofを含む映像コンテンツのセグメントファイルを生成する(ステップS107)。送信部108は、ファイル生成部105により生成された映像コンテンツのセグメントファイルをWebサーバ3にアップロードする。 Next, the file generation unit 105 is a segment file of video content including mdat which is video information and moov which is management information, or a segment file of video content which includes mdat which is video information and moov and moof which is management information. Is generated (step S107). The transmission unit 108 uploads the segment file of the video content generated by the file generation unit 105 to the Web server 3.
(第1の実施形態に係る再生処理手順)
 次に、図10を参照して、クライアント装置2により実行される再生処理の流れを説明する。図10は、クライアント装置により実行される再生処理のフローチャートである。
(Regeneration processing procedure according to the first embodiment)
Next, with reference to FIG. 10, the flow of the reproduction process executed by the client device 2 will be described. FIG. 10 is a flowchart of the reproduction process executed by the client device.
 ファイル取得部201は、再生する映像コンテンツのセグメントファイルをWebサーバ3から取得する。ファイル処理部202は、ファイル取得部201により取得された映像コンテンツのセグメントファイルをパースする。そして、ファイル処理部202は、画像データを復号処理部204へ出力する。また、ファイル処理部202は、メタデータを表示情報生成部205へ出力する。復号処理部204は、取得した画像データを復号して表示情報生成部205へ出力する。表示情報生成部205は、画像データ及びメタデータを用いて表示用画像を生成して表示部206に出力して、表示用画像の表示を行わせる。制御部21は、ランダムアクセスの指示を検出したか否かを判定する(ステップS201)。ランダムアクセスの指示を検出しない場合(ステップS201:否定)、制御部21は、そのままファイル取得部201に処理を継続させる。そして、再生処理は、ステップS208へ進む。 The file acquisition unit 201 acquires the segment file of the video content to be played back from the Web server 3. The file processing unit 202 parses the segment file of the video content acquired by the file acquisition unit 201. Then, the file processing unit 202 outputs the image data to the decoding processing unit 204. Further, the file processing unit 202 outputs the metadata to the display information generation unit 205. The decoding processing unit 204 decodes the acquired image data and outputs it to the display information generation unit 205. The display information generation unit 205 generates a display image using image data and metadata and outputs the display image to the display unit 206 to display the display image. The control unit 21 determines whether or not a random access instruction has been detected (step S201). When the random access instruction is not detected (step S201: negation), the control unit 21 causes the file acquisition unit 201 to continue the process as it is. Then, the reproduction process proceeds to step S208.
 これに対して、ランダムアクセスの指示を検出した場合(ステップS201:肯定)、制御部21は、ランダムアクセスの実行をファイル処理部202に指示する。ファイル処理部202は、ランダムアクセスのサンプルがGRAか否かを判定する(ステップS202)。 On the other hand, when the random access instruction is detected (step S201: affirmative), the control unit 21 instructs the file processing unit 202 to execute the random access. The file processing unit 202 determines whether or not the random access sample is GRA (step S202).
 ランダムアクセスのサンプルがGRAの場合(ステップS202:肯定)、ファイル処理部202は、GraSyncSampleGroupEntryBoxをGRA情報取得部203へ送信する。GRA情報取得部203は、GraSyncSampleGroupEntryBoxの情報を取得する(ステップS203)。具体的には、GRA情報取得部203は、GRAピクチャの情報、グラデュアル表示許可情報、グラデュアル表示種別情報、ダーティ領域補間情報及びロールの情報を取得する。 When the random access sample is GRA (step S202: affirmative), the file processing unit 202 transmits the GraSyncSampleGroupEntryBox to the GRA information acquisition unit 203. The GRA information acquisition unit 203 acquires the information of the GraSyncSampleGroupEntryBox (step S203). Specifically, the GRA information acquisition unit 203 acquires GRA picture information, gradual display permission information, gradual display type information, dirty area interpolation information, and role information.
 そして、GRA情報取得部203は、グラデュアル表示許可情報を用いてグラデュアル表示が許可されているか否かを判定する(ステップS204)。 Then, the GRA information acquisition unit 203 determines whether or not the gradual display is permitted by using the gradual display permission information (step S204).
 グラデュアル表示が許可されている場合(ステップS204:肯定)、GRA情報取得部203は、GRAピクチャの情報、グラデュアル表示種別情報、ダーティ領域補間情報及びロールの情報を復号処理部204へ出力する。復号処理部204は、グラデュアル表示種別情報で示される表示順にしたがって映像が表示されるようにGRAピクチャから続く画像データを、ダーティ領域補間情報にしたがってダーティ領域を補間しつつ復号して表示情報生成部205へ出力する。そして、表示情報生成部205は、復号処理部204から取得した画像データを用いてグラデュアル表示を行う表示用画像を生成し、表示部206に提供して表示させる。その際、表示情報生成部205は、グラデュアル表示であることを示す情報を利用者に提示する(ステップS205)。 When the gradual display is permitted (step S204: affirmative), the GRA information acquisition unit 203 outputs the GRA picture information, the gradual display type information, the dirty area interpolation information, and the roll information to the decoding processing unit 204. .. The decoding processing unit 204 decodes the image data following from the GRA picture so that the images are displayed in the display order indicated by the gradual display type information while interpolating the dirty area according to the dirty area interpolation information to generate the display information. Output to unit 205. Then, the display information generation unit 205 generates a display image for gradual display using the image data acquired from the decoding processing unit 204, and provides the display information unit 206 for display. At that time, the display information generation unit 205 presents the user with information indicating that the display is gradual display (step S205).
 その後、復号処理部204は、ロールの情報などを用いて、グラデュアル表示が完了したか否かを判定する(ステップS206)。グラデュアル表示が完了していない場合(ステップS206:否定)、映像再生処理はステップS205へ戻る。これに対して、グラデュアル表示が完了した場合(ステップS206:肯定)、映像再生処理はステップS201へ戻る。 After that, the decoding processing unit 204 determines whether or not the gradual display is completed by using the roll information and the like (step S206). If the gradual display is not completed (step S206: negative), the video reproduction process returns to step S205. On the other hand, when the gradual display is completed (step S206: affirmative), the video reproduction process returns to step S201.
 これに対して、グラデュアル表示が禁止されている場合(ステップS204)、GRA情報取得部203は、GRAピクチャの情報及びロールを全画面復号後表示の情報を復号処理部204へ出力する。復号処理部204は、全画面複合後表示の指示を受けて、GRAピクチャから復号を行い、ロールの情報を用いてピクチャの画面全体がクリーン画面として復号できたことを確認する。そして、ピクチャの画面が全てクリーン領域として復号された後に、復号処理部204は、ピクチャの画面全体がクリーン領域として復号された画像データを表示情報生成部205へ出力する。表示情報生成部205は、ピクチャの画面全体がクリーン領域として復号された表示用画像を生成して表示部206へ提供して表示させる(ステップS207)。その後、映像再生処理は、ステップS201へ戻る。 On the other hand, when the gradual display is prohibited (step S204), the GRA information acquisition unit 203 outputs the GRA picture information and the roll to the decoding processing unit 204 after full-screen decoding. The decoding processing unit 204 decodes from the GRA picture in response to the instruction of displaying after full-screen compounding, and confirms that the entire screen of the picture can be decoded as a clean screen by using the roll information. Then, after all the screens of the picture are decoded as the clean area, the decoding processing unit 204 outputs the image data in which the entire screen of the picture is decoded as the clean area to the display information generation unit 205. The display information generation unit 205 generates a display image obtained by decoding the entire screen of the picture as a clean area and provides it to the display unit 206 for display (step S207). After that, the video reproduction process returns to step S201.
 一方、ランダムアクセスのサンプルがGRAでない場合(ステップS202:否定)、映像再生処理は、ステップS208へ進む。 On the other hand, if the random access sample is not GRA (step S202: negative), the video playback process proceeds to step S208.
 ファイル処理部202、復号処理部204、表示情報生成部205及び表示部206は、入力された画像に対して通常のデコード及び表示を実行する(ステップS208)。ここで、ランダムアクセスの場合、通常のデコードではIDRピクチャを用いたランダムアクセスが行われる。 The file processing unit 202, the decoding processing unit 204, the display information generation unit 205, and the display unit 206 execute normal decoding and display on the input image (step S208). Here, in the case of random access, random access using an IDR picture is performed in normal decoding.
 その後、ファイル処理部202、復号処理部204及び表示情報生成部205は、映像コンテンツの全ての画像データの復号が完了したか否かを判定する(ステップS209)。復号する画像データが残っている場合(ステップS209:否定)、映像再生処理は、ステップS201に戻る。これに対して、映像コンテンツの全ての画像データの復号が完了した場合(ステップS209:肯定)、ファイル処理部202、復号処理部204及び表示情報生成部205は、映像再生処理を終了する。 After that, the file processing unit 202, the decoding processing unit 204, and the display information generation unit 205 determine whether or not all the image data of the video content has been decoded (step S209). If the image data to be decoded remains (step S209: negative), the video reproduction process returns to step S201. On the other hand, when the decoding of all the image data of the video content is completed (step S209: affirmative), the file processing unit 202, the decoding processing unit 204, and the display information generation unit 205 end the video reproduction processing.
 以上に説明したように、本実施形態に係るファイル生成装置は、GRAが実行可能に符号化を行い、符号化された画像データの中からGRAピクチャを特定し、GRAピクチャのサンプルグループを新たに定義してロールの情報を格納する。これにより、最大符号化量を抑えて符号化処理及び伝送処理によりコード遅延を削減するとともに、ダーティ領域を再生することによる画像乱れを防ぎ、どのような再生装置でも同一のコンテンツの再生を行わせてGRAを適切に実行することができる。すなわち、本実施形態に係るファイル生成装置は、利用者に高品質な視聴体験を提供することができる。 As described above, in the file generation device according to the present embodiment, the GRA is executablely encoded, the GRA picture is specified from the encoded image data, and the sample group of the GRA picture is newly created. Define and store role information. As a result, the maximum coding amount is suppressed, the code delay is reduced by the coding process and the transmission process, the image distortion due to the reproduction of the dirty area is prevented, and the same content is reproduced by any reproduction device. GRA can be executed properly. That is, the file generation device according to the present embodiment can provide the user with a high-quality viewing experience.
[1.1 第1の実施形態の変形例(1)]
 次に、第1の実施形態の変形例(1)について説明する。本変形例では、グラデュアル表示許可情報について詳細に説明する。図11は、GradualOutputStruct()のシンタックスの一例を表す図である。
[1.1 Modifications of the First Embodiment (1)]
Next, a modified example (1) of the first embodiment will be described. In this modification, the gradual display permission information will be described in detail. FIG. 11 is a diagram showing an example of the syntax of GradualOutputStruct ().
 ファイル生成部105は、GRAのサンプルグループにおけるグラデュアル表示許可情報を格納するGradualOutputStruct()を、図11に示すシンタックスを用いて生成する。 The file generation unit 105 generates a GradualOutputStruct () that stores the gradual display permission information in the GRA sample group by using the syntax shown in FIG.
 具体的には、ファイル生成部105は、図11に示すようにGradualOutputStruct()にgradual_output_flagを格納する。そして、ファイル生成部105は、gradual_output_flagの値を図12に示すように定義する。図12は、gradual_output_flagの各値が示す内容の一例の図である。例えば、ファイル生成部105は、gradual_output_flagの値が0の場合、グラデュアル表示が有効であり、gradual_output_flagの値が1の場合、グラデュアル表示が無効であると規定する。グラデュアル表示が有効であるとは、ランダムアクセス時にグラデュアル表示を実行することが許可されていることを示す。これに対して、グラデュアル表示が無効であるとは、ランダムアクセス時にグラデュアル表示を実行することが禁止されていることを示す。そして、ファイル生成部105は、生成したGradualOutputStruct()をGraSyncSampleGroupEntryBoxに設定してISOBMFFファイルを生成する。 Specifically, the file generation unit 105 stores the gradual_output_flag in the GradualOutputStruct () as shown in FIG. Then, the file generation unit 105 defines the value of the gradual_output_flag as shown in FIG. FIG. 12 is a diagram of an example of the contents indicated by each value of gradual_output_flag. For example, the file generation unit 105 defines that the gradual display is valid when the value of gradual_output_flag is 0, and the gradual display is invalid when the value of gradual_output_flag is 1. The fact that the gradual display is valid means that the gradual display is permitted to be executed at the time of random access. On the other hand, when the gradual display is invalid, it means that it is prohibited to execute the gradual display at the time of random access. Then, the file generation unit 105 sets the generated GradualOutputStruct () in the GraSyncSampleGroupEntryBox to generate an ISOBMFF file.
 ここで、本実施例では、新たにgradual_output_flagというフラグを定義してグラデュアル表示の許可または禁止を示したが、このグラデュアル許可情報の設定方法はこれに限らない。例えば、ファイル生成部105は、リカバリポイントとなるピクチャをGraSyncSampleGroupEntry()に設定する。そして、ファイル生成部105は、ロールとして、リカバリポイントとなるピクチャの1フレーム前のピクチャからGRAピクチャまでのフレーム数をマイナス設定して、明示的にグラデュアル表示を禁止してもよい。 Here, in this embodiment, a flag called gradual_output_flag is newly defined to indicate permission or prohibition of gradual display, but the setting method of this gradual permission information is not limited to this. For example, the file generation unit 105 sets the picture as the recovery point in GraSyncSampleGroupEntry (). Then, the file generation unit 105 may explicitly prohibit the gradual display by setting the number of frames from the picture one frame before the picture as the recovery point to the GRA picture as a role as a role.
 以上に説明したように、本実施例に係るファイル生成装置は、GradualOutputStruct()に設定したフラグを用いてグラデュアル表示の許可又は禁止のいずれかを示す情報を格納する。このように、グラデュアル表示を禁止できるようにすることで、補間処理の実行を回避でき、且つ、ランダムアクセス時に発生する復号による画像乱れなどの問題を回避することが可能である。GRAは最大符号化量を抑えて符号化処理と伝送処理とでコード遅延を削減することを目的とするためグラデュアル表示を前提とするが、利用者の要望によっては、画像乱れを抑制することができ、利用者の要望に合った視聴体験を提供することができる。 As described above, the file generation device according to this embodiment stores information indicating either permission or prohibition of gradual display by using the flag set in GradualOutputStruct (). By making it possible to prohibit the gradual display in this way, it is possible to avoid the execution of the interpolation processing and to avoid problems such as image distortion due to decoding that occurs at the time of random access. GRA is premised on gradual display because it aims to reduce the code delay in the coding process and the transmission process by suppressing the maximum coding amount, but it is possible to suppress image distortion depending on the user's request. It is possible to provide a viewing experience that meets the needs of users.
[1.2 第1の実施形態の変形例(2)]
 次に、第1の実施形態の変形例(2)について説明する。本変形例では、グラデュアル表示種別情報について詳細に説明する。図13は、GradualOutputInformationStruct()のシンタックスの一例を表す図である。
[1.2 Modification example (2) of the first embodiment]
Next, a modified example (2) of the first embodiment will be described. In this modification, the gradual display type information will be described in detail. FIG. 13 is a diagram showing an example of the syntax of GradualOutputInformationStruct ().
 ファイル生成部105は、GRAのサンプルグループにおけるグラデュアル表示種別情報を格納するGradualOutputInformationStruct()を、図13に示すシンタックスを用いて生成する。 The file generation unit 105 generates a GradualOutputInformationStruct () that stores the gradual display type information in the GRA sample group by using the syntax shown in FIG.
 具体的には、ファイル生成部105は、図13に示すようにGradualOutputInformationStruct()にgradual_output_typeを格納する。そして、ファイル生成部105は、gradual_output_typeの値を図14に示すように定義する。図14は、gradual_output_typeの各値が示す内容の一例の図である。 Specifically, the file generation unit 105 stores the gradual_output_type in the GradualOutputInformationStruct () as shown in FIG. Then, the file generation unit 105 defines the value of gradual_output_type as shown in FIG. FIG. 14 is a diagram of an example of the contents indicated by each value of gradual_output_type.
 例えば、ファイル生成部105は、gradual_output_typeの値が0の場合、ピクチャの表示画面の左から右又は右から左にリフレッシュ領域が移動することを表すと規定する。この場合、映像は画面の左から右へ向かって又は右から左に向かって徐々に表示される。また、ファイル生成部105は、gradual_output_typeの値が1の場合、ピクチャの表示画面の上から下又は下から上にリフレッシュ領域が移動することを表すと規定する。この場合、映像は画面の上から下へ向かって又は下から上に向かって徐々に表示される。また、ファイル生成部105は、gradual_output_typeの値が2の場合、ピクチャの表示画面の中央から端に向かってリフレッシュ領域が移動することを表すと規定する。この場合、映像は画面中央から画面の外側端部へ向かって徐々に表示される。また、ファイル生成部105は、gradual_output_typeの値が3の場合、ピクチャの表示画面のラスタースキャンの順にリフレッシュ領域が移動することを表すと規定する。この場合、映像はラスタースキャンの順に徐々に表示される。また、ファイル生成部105は、gradual_output_typeの値が4の場合、ピクチャの表示画面でランダムにリフレッシュ領域が移動することを表すと規定する。この場合、映像はランダムに徐々に表示される。また、ファイル生成部105は、リフレッシュ領域の遷移順が規定されていない場合は、gradual_output_typeの値を5とする。 For example, the file generation unit 105 defines that when the value of gradual_output_type is 0, it indicates that the refresh area moves from left to right or right to left on the picture display screen. In this case, the image is gradually displayed from left to right or from right to left on the screen. Further, the file generation unit 105 defines that when the value of gradual_output_type is 1, it indicates that the refresh area moves from the top to the bottom or from the bottom to the top of the picture display screen. In this case, the image is gradually displayed from the top to the bottom of the screen or from the bottom to the top. Further, the file generation unit 105 defines that when the value of gradual_output_type is 2, it means that the refresh area moves from the center to the edge of the picture display screen. In this case, the image is gradually displayed from the center of the screen toward the outer edge of the screen. Further, the file generation unit 105 defines that when the value of gradual_output_type is 3, the refresh area moves in the order of the raster scan of the picture display screen. In this case, the images are gradually displayed in the order of raster scan. Further, the file generation unit 105 defines that when the value of gradual_output_type is 4, it means that the refresh area moves randomly on the picture display screen. In this case, the images are displayed randomly and gradually. Further, the file generation unit 105 sets the value of gradual_output_type to 5 when the transition order of the refresh area is not specified.
 ここで、本実施例では、未定義を合わせて図14に示す6種類のグラデュアル表示のパターンを示したが、これ以外にも1ビットで表現可能であれば、ファイル生成部105は、gradual_output_typeの他のパターンを定義してもよい。 Here, in this embodiment, the six types of gradual display patterns shown in FIG. 14 are shown together with the undefined ones, but if it can be expressed by one bit other than this, the file generation unit 105 has a gradient_output_type. Other patterns may be defined.
 以上のように、本実施例に係るファイル生成装置は、GradualOutputInformationStruct()に設定したフラグを用いてどのようにグラデュアル表示が行われるかを示すグラデュアル表示種別情報を格納する。このように、GRAピクチャのサンプルグループにグラデュアル表示種別情報を格納することで、クライアント装置は、Parmeter_set及びslice_headerを解析しなくても、復号前に予めどのようなグラデュアル表示を行うかを把握することができる。これにより、正確に復号された領域とそれ以外の領域とを区別することが容易となり、クライアント装置は、グラデュアル表示を実行中であることを示す情報など他の情報を表示するのに適した領域を容易に特定することが可能となる。 As described above, the file generator according to this embodiment stores the gradual display type information indicating how the gradual display is performed using the flag set in the GradualOutputInformationStruct (). Thus, by storing the graph dual display type information to a sample group of GRA picture, the client device may figure out without analyzing Parmeter_set and slice_header, performs advance what graph dual display before decoding can do. This makes it easy to distinguish between the accurately decoded area and the other areas, and the client device is suitable for displaying other information such as information indicating that the gradual display is being executed. The area can be easily specified.
 さらに、ファイル生成部105は、GradualOutputInformationStruct()をgradual_output_type以外の他の情報を用いて定義することも可能である。図15は、他の定義を用いたGradualOutputInformationStruct()の第1の例を表す図である。ここでは、グラデュアル表示が一定の比率で且つ線形に徐々に表示される場合で説明する。 Furthermore, the file generation unit 105 can also define GradualOutputInformationStruct () using information other than gradual_output_type. FIG. 15 is a diagram showing a first example of GradualOutputInformationStruct () using other definitions. Here, the case where the gradual display is gradually displayed at a constant ratio and linearly will be described.
 この場合、ファイル生成部105は、図15に示すようにGradualOutputInformationStruct()に最初に出力されるクリーン領域の表示領域の情報を格納する。図15におけるfirst_output_clean_region_x、first_output_clean_region_y、first_output_clean_region_width、first_output_clean_region_heightは、それぞれ最初に出力されるクリーン領域の表示領域の基準点のx座標及びY座標、幅、並びに、高さを表す。 In this case, the file generation unit 105 stores the information of the display area of the clean area that is first output to GradualOutputInformationStruct () as shown in FIG. First_output_clean_region_x, first_output_clean_region_y, first_output_clean_region_width, and first_output_clean_region_height in FIG. 15 represent the x-coordinate, Y-coordinate, width, and height of the reference point of the display area of the clean area that is output first, respectively.
 一定の比率で且つ線形にグラデュアル表示が行われる場合、クライアント装置2は、最初に出力されるクリーン領域の表示領域がわかると、ロールの情報を踏まえて、どのようにグラデュアル表示が行われるかを識別することが可能である。したがって、ファイル生成部105は、図15に示したシンタックスをも用いてGradualOutputInformationStruct()にグラデュアル表示種別情報を設定することも可能である。 When the gradual display is performed linearly at a constant ratio, when the client device 2 knows the display area of the clean area to be output first, how the gradual display is performed based on the roll information. It is possible to identify the client. Therefore, the file generation unit 105 can also set the gradual display type information in the GradualOutputInformationStruct () by using the syntax shown in FIG.
 図16は、他の定義を用いたGradualOutputInformationStruct()の第2の例を表す図である。ここでも、グラデュアル表示が一定の比率で且つ線形に徐々に表示される場合で説明する。 FIG. 16 is a diagram showing a second example of GradualOutputInformationStruct () using another definition. Here, too, the case where the gradual display is gradually displayed at a constant ratio and linearly will be described.
 この場合、ファイル生成部105は、図16に示すようにGradualOutputInformationStruct()に最初と最後のリフレッシュ領域の表示領域の情報を格納する。図16におけるfirst_output_refresh_region_x、first_output_refresh_region_y、first_output_refresh_region_width、first_output_refresh_region_heightは、それぞれ最初に出力されるリフレッシュ領域の表示領域の基準点のx座標及びY座標、幅、並びに、高さを表す。また、図16におけるlast_output_refresh_region_x、last_output_refresh_region_y、last_output_refresh_region_width、last_output_refresh_region_heightは、それぞれ最後に出力されるリフレッシュ領域の表示領域の基準点のx座標及びY座標、幅、並びに、高さを表す。 In this case, the file generation unit 105 stores the information of the display area of the first and last refresh areas in GradualOutputInformationStruct () as shown in FIG. The first_output_refresh_region_x, first_output_refresh_region_y, first_output_refresh_region_width, and first_output_refresh_region_height in FIG. 16 represent the x-coordinate, Y-coordinate, width, and height of the reference point of the display area of the refresh area that is output first, respectively. Further, last_output_refresh_region_x, last_output_refresh_region_y, last_output_refresh_region_width, and last_output_refresh_region_height in FIG. 16 represent the x-coordinate, Y-coordinate, width, and height of the reference point of the display area of the refresh area that is output last, respectively.
 一定の比率で且つ線形にグラデュアル表示が行われる場合、クライアント装置2は、最初と最後のリフレッシュ領域の表示領域がわかると、ロールの情報を踏まえて、どのようにグラデュアル表示が行われるかを識別することが可能である。したがって、ファイル生成部105は、図16に示したシンタックスをも用いてGradualOutputInformationStruct()にグラデュアル表示種別情報を設定することも可能である。 When the gradual display is performed linearly at a constant ratio, the client device 2 knows the display areas of the first and last refresh areas, and how the gradual display is performed based on the roll information. Can be identified. Therefore, the file generation unit 105 can also set the gradual display type information in the GradualOutputInformationStruct () by using the syntax shown in FIG.
 図17は、他の定義を用いたGradualOutputInformationStruct()の第3の例を表す図である。ここでは、グラデュアル表示において、フレーム毎の情報量は講義単調増加であるがその増加量が一定の比率ではない場合で説明する。 FIG. 17 is a diagram showing a third example of GradualOutputInformationStruct () using other definitions. Here, in the gradual display, the case where the amount of information for each frame increases monotonically in the lecture, but the amount of increase is not a constant ratio will be described.
 この場合、ファイル生成部105は、図17に示すようにGradualOutputInformationStruct()にGRAで使用する各フレームの全てのクリーン領域の情報をテーブル情報として格納する。図17におけるfirst_output_clean_region_x、first_output_clean_region_y、first_output_clean_region_width、first_output_clean_region_heightは、それぞれ、GRAピクチャを0番目としたi番目のフレームにおけるクリーン領域の表示領域の基準点のx座標及びY座標、幅、並びに、高さを表す。 In this case, as shown in FIG. 17, the file generation unit 105 stores the information of all the clean areas of each frame used in GRA in the GradualOutputInformationStruct () as table information. The first_output_clean_region_x, first_output_clean_region_y, first_output_clean_region_width, and first_output_clean_region_height in FIG. 17 represent the x-coordinate, Y-coordinate, width, and height of the reference point of the display area of the clean area in the i-th frame with the GRA picture as the 0th frame, respectively.
 フレーム毎の情報量は講義単調増加であるがその増加量が一定の比率ではなくグラデュアル表示が行われる場合、クライアント装置2は、各フレームのクリーン領域が把握できれば、どのようにグラデュアル表示が行われるかを識別することが可能である。したがって、ファイル生成部105は、図17に示したシンタックスをも用いてGradualOutputInformationStruct()にグラデュアル表示種別情報を設定することも可能である。GradualOutputInformationStruct()に対してこのような定義を用いることで、リフレッシュ領域の遷移が複雑な場合にも、どのようにグラデュアル表示が行われるかをクライアント装置2に通知することができる。 The amount of information for each frame is a monotonous increase in the lecture, but if the amount of increase is not a constant ratio and gradual display is performed, the client device 2 can display the gradual display if the clean area of each frame can be grasped. It is possible to identify what is done. Therefore, the file generation unit 105 can also set the gradual display type information in the GradualOutputInformationStruct () by using the syntax shown in FIG. By using such a definition for GradualOutputInformationStruct (), it is possible to notify the client device 2 how the gradual display is performed even when the transition of the refresh area is complicated.
 図18は、他の定義を用いたGradualOutputInformationStruct()の第4の例を表す図である。ここでも、グラデュアル表示において、フレーム毎の情報量は講義単調増加であるがその増加量が一定の比率ではない場合で説明する。 FIG. 18 is a diagram showing a fourth example of GradualOutputInformationStruct () using other definitions. Here, too, in the gradual display, the case where the amount of information for each frame increases monotonically in the lecture, but the amount of increase is not a constant ratio will be described.
 この場合、ファイル生成部105は、図18に示すようにGradualOutputInformationStruct()にGRAで使用する各フレームの全てのリフレッシュ領域の情報をテーブル情報として格納する。図18におけるfirst_output_clean_region_x、first_output_clean_region_y、first_output_clean_region_width、first_output_clean_region_heightは、それぞれ、GRAピクチャを0番目としたi番目のフレームにおけるリフレッシュ領域の表示領域の基準点のx座標及びY座標、幅、並びに、高さを表す。 In this case, the file generation unit 105 stores the information of all the refresh areas of each frame used in GRA in the GradualOutputInformationStruct () as table information as shown in FIG. The first_output_clean_region_x, first_output_clean_region_y, first_output_clean_region_width, and first_output_clean_region_height in FIG. 18 represent the x-coordinate, Y-coordinate, width, and height of the reference point of the display area of the refresh area in the i-th frame with the GRA picture as the 0th frame, respectively.
 フレーム毎の情報量は講義単調増加であるがその増加量が一定の比率ではなくグラデュアル表示が行われる場合、クライアント装置2は、各フレームのリフレッシュ領域が把握できれば、どのようにグラデュアル表示が行われるかを識別することが可能である。したがって、ファイル生成部105は、図18に示したシンタックスをも用いてGradualOutputInformationStruct()にグラデュアル表示種別情報を設定することも可能である。GradualOutputInformationStruct()に対してこのような定義を用いることで、リフレッシュ領域の遷移が複雑な場合にも、どのようにグラデュアル表示が行われるかをクライアント装置2に通知することができる。 The amount of information for each frame is a monotonous increase in the lecture, but if the amount of increase is not a constant ratio and gradual display is performed, the client device 2 can display the gradual display if the refresh area of each frame can be grasped. It is possible to identify what is done. Therefore, the file generation unit 105 can also set the gradual display type information in the GradualOutputInformationStruct () by using the syntax shown in FIG. By using such a definition for GradualOutputInformationStruct (), it is possible to notify the client device 2 how the gradual display is performed even when the transition of the refresh area is complicated.
 以上に説明した図15~18のいずれで示した定義方法であっても、クライアント装置2は、復号後のお表示処理において、VVCのparameter_set及びslice_headerの値を参照せずに、クリーン領域とダーティ領域とを識別することが可能となる。さらに、クライアント装置2は、クリーン領域とダーティ領域とを識別した情報を、補間処理に活用することもできる。 In any of the definition methods shown in FIGS. 15 to 18 described above, the client device 2 does not refer to the values of the VVC parameter_set and slice_header in the display process after decoding, and the clean area and dirty. It becomes possible to distinguish from the area. Further, the client device 2 can also utilize the information that identifies the clean area and the dirty area for the interpolation process.
 以上に説明したように、本変形例に係る配信システムでは、GRA時にどのようにグラデュアル表示されるかという情報は、クライアント装置が復号前に識別できる。クライアント装置は、識別した情報をランダムアクセス時における利用者への通知などのUX(User Experience)に利用することが可能である。また、クライアント装置は、parameter_setを用いずに、GRAによりどの領域がグラデュアルに表示されるかという情報を識別できるので、ダーティ領域の補間処理に用いることが可能である。 As described above, in the distribution system according to this modification, the information on how the gradient is displayed at the time of GRA can be identified by the client device before decoding. The client device can use the identified information for UX (User Experience) such as notification to the user at the time of random access. Further, since the client device can identify information as to which area is displayed in the gradient by GRA without using parameter_set, it can be used for the interpolation processing of the dirty area.
[1.3 第1の実施形態の変形例(3)]
 次に、第1の実施形態の変形例(3)について説明する。本変形例では、ダーティ領域補間情報について詳細に説明する。図19は、InterpolationStruct()のシンタックスの一例を表す図である。
[1.3 Modified example of the first embodiment (3)]
Next, a modified example (3) of the first embodiment will be described. In this modification, the dirty area interpolation information will be described in detail. FIG. 19 is a diagram showing an example of the syntax of InterpolationStruct ().
 ファイル生成部105は、GRAのサンプルグループにおけるダーティ領域補間情報を格納するInterpolationStruct()を、図19に示すシンタックスを用いて生成する。 The file generation unit 105 generates InterpolationStruct (), which stores dirty region interpolation information in the GRA sample group, using the syntax shown in FIG.
 具体的には、ファイル生成部105は、図19に示すようにInterpolationStruct()にダーティ領域をどのように補間するかを表す情報としてinterpolation_typeを格納する。そして、ファイル生成部105は、interpolation_typeの値を図20に示すように定義する。図20は、interpolation_typeの各値が示す内容の一例の図である。 Specifically, the file generation unit 105 stores interpolation_type in InterpolationStruct () as information indicating how to interpolate the dirty area as shown in FIG. Then, the file generation unit 105 defines the value of interpolation_type as shown in FIG. FIG. 20 is a diagram of an example of the contents indicated by each value of interpolation_type.
 例えば、ファイル生成部105は、interpolation_typeの値が0の場合、ダーティ領域を設定された色で補間すると規定する。この場合、利用者がダーティ領域を補間する色を決定する。このようにダーティ領域を適当な色で補間することで、GRAランダムアクセスの際に、映像がフレームインのようにグラデュアル表示される。また、ファイル生成部105は、interpolation_typeの値が1の場合、ランダムアクセスの開始前のフレームの画像を静止画でダーティ領域に表示すると規定する。このようにダーティ領域をランダムアクセスの開始前の画像で補間することで、GRAランダムアクセスの際に、映像がクロスフェードのようにグラデュアル表示される。また、ファイル生成部105は、ダーティ領域の補間方法が決定されていない場合は、interpolation_typeの値を2とする。この場合、ダーティ領域の補間方法は、クライアント装置2における映像再生機能の実装状態に依存する。 For example, the file generation unit 105 defines that when the value of interpolation_type is 0, the dirty area is interpolated with the set color. In this case, the user determines the color to interpolate the dirty area. By interpolating the dirty area with an appropriate color in this way, the image is graduated like a frame-in at the time of GRA random access. Further, the file generation unit 105 defines that when the value of interpolation_type is 1, the image of the frame before the start of random access is displayed as a still image in the dirty area. By interpolating the dirty area with the image before the start of the random access in this way, the image is gradually displayed like a crossfade at the time of the GRA random access. Further, the file generation unit 105 sets the value of interpolation_type to 2 when the interpolation method of the dirty area is not determined. In this case, the method of interpolating the dirty region depends on the mounting state of the video reproduction function in the client device 2.
 以上のように、本実施例に係るファイル生成装置は、InterpolationStruct()に設定したフラグを用いてどのようにダーティ領域の補間を行うかを示すダーティ領域補間情報を格納する。このように、GRAピクチャのサンプルグループにダーティ領域補間情報を格納することで、どのようなクライアント装置であっても、ダーティ領域の補間は同一の方法で行われ、ランダムアクセス時の画像乱れを抑えて且つ見栄えを統一することができる。また、コンテンツ作成者がダーティ領域の最適な表示方法を設定でき、グラデュアルな表示をフェードインやクロスフェードのようなUXとして、再生機器によらない同一のコンテンツ再生方法を実現して、利用者に高品質な視聴体験を提供することが可能となる。 As described above, the file generation device according to this embodiment stores dirty area interpolation information indicating how to perform dirty area interpolation using the flag set in InterpolationStruct (). By storing the dirty area interpolation information in the GRA picture sample group in this way, the dirty area interpolation is performed by the same method regardless of the client device, and image distortion at the time of random access is suppressed. And the appearance can be unified. In addition, the content creator can set the optimum display method for the dirty area, and the gradual display can be used as a UX such as fade-in or crossfade to realize the same content playback method regardless of the playback device. It is possible to provide a high-quality viewing experience.
[2.第2の実施形態]
 以上の各実施形態及びそれらの各変形例ではISOBMFFに格納する場合を説明した。ただし、図21に示すMatroska Media Container(http://www.matroska.org/)を用いて伝送する場合でもグラデュアル表示許可情報、グラデュアル表示種別情報及びダーティ領域補間情報を提供することが可能である。図21は、Matroska Media Containerのフォーマットを表す図である。その場合、ファイル生成部105は、Track Entry elementに新しく定義したelementに遷移識別情報、遷移実行領域情報及び遷移トリガ情報を格納する。
[2. Second Embodiment]
In each of the above embodiments and their modifications, the case of storing in ISOBMFF has been described. However, even when transmitting using the Matroska Media Container (http://www.matroska.org/) shown in FIG. 21, it is possible to provide gradual display permission information, gradual display type information, and dirty area interpolation information. Is. FIG. 21 is a diagram showing the format of the Matroska Media Container. In that case, the file generation unit 105 stores the transition identification information, the transition execution area information, and the transition trigger information in the element newly defined in the Track Entry element.
[ハードウェア構成]
 図22は、コンピュータのハードウェア構成図である。ファイル生成装置1及びクライアント装置2は、図22に示すコンピュータ90によって実現可能である。コンピュータ90において、プロセッサ91、メモリ92、ネットワークインタフェース93、不揮発性ストレージ94、入出力インタフェース95及びディスプレイインタフェース86は、バスを介して相互に接続される。
[Hardware configuration]
FIG. 22 is a hardware configuration diagram of the computer. The file generation device 1 and the client device 2 can be realized by the computer 90 shown in FIG. In the computer 90, the processor 91, the memory 92, the network interface 93, the non-volatile storage 94, the input / output interface 95, and the display interface 86 are connected to each other via a bus.
 入出力インタフェース95には、例えば、入力装置、出力装置、記憶装置及びドライブといった外部デバイスが接続される。入力装置は、例えば、キーボード、マウス、マイクロホン、タッチパネル、入力端子などである。出力装置は、例えば、スピーカ、出力端子などである。記憶装置は、例えば、ハードディスク、RAM(Random Access Memory)ディスクなどである。ドライブは、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブルメディアを駆動する。また、ディスプレインタフェース96には、表示装置であるディスプレイ98が接続される。 External devices such as an input device, an output device, a storage device, and a drive are connected to the input / output interface 95. The input device is, for example, a keyboard, a mouse, a microphone, a touch panel, an input terminal, or the like. The output device is, for example, a speaker, an output terminal, or the like. The storage device is, for example, a hard disk, a RAM (Random Access Memory) disk, or the like. The drive drives removable media such as magnetic disks, optical disks, magneto-optical disks, or semiconductor memories. A display 98, which is a display device, is connected to the display interface 96.
 ネットワークインタフェース93は、外部のネットワークに接続される。ファイル生成装置1及びクライアント装置2は、ネットワークインタフェース93を介して相互に接続される。また、ファイル生成装置1及びクライアント装置2は、ネットワークインタフェース93を介してWebサーバ3に接続する。不揮発性ストレージ94は、ハードディスクやSSD(Solid State Drive)などの内蔵の補助記憶装置である。 The network interface 93 is connected to an external network. The file generation device 1 and the client device 2 are connected to each other via the network interface 93. Further, the file generation device 1 and the client device 2 are connected to the Web server 3 via the network interface 93. The non-volatile storage 94 is a built-in auxiliary storage device such as a hard disk or SSD (Solid State Drive).
 以上のように構成されるコンピュータ90では、プロセッサ91が、例えば、不揮発性ストレージ94に記憶されているプログラムを、バスを介して、メモリ92にロードして実行することにより、上述した一連の処理が行われる。メモリ92にはまた、プロセッサ91が各種の処理を実行する上において必要なデータなども適宜記憶される。 In the computer 90 configured as described above, the processor 91, for example, loads the program stored in the non-volatile storage 94 into the memory 92 via the bus and executes the series of processing described above. Is done. The memory 92 also appropriately stores data and the like necessary for the processor 91 to execute various processes.
 プロセッサ91が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディアに記録して適用することができる。その場合、プログラムは、リムーバブルメディアを外部デバイス97であるドライブに装着することにより、入出力インタフェース95を介して、不揮発性ストレージ94にインストールすることができる。 The program executed by the processor 91 can be recorded and applied to removable media such as package media, for example. In that case, the program can be installed in the non-volatile storage 94 via the input / output interface 95 by mounting the removable media in the drive which is the external device 97.
 また、このプログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することもできる。その場合、プログラムは、ネットワークインタフェース93で受信し、不揮発性ストレージ94にインストールすることができる。 This program can also be provided via wired or wireless transmission media such as local area networks, the Internet, and digital satellite broadcasting. In that case, the program can be received at the network interface 93 and installed in the non-volatile storage 94.
 その他、このプログラムは、不揮発性ストレージ94に、予めインストールしておくこともできる。 In addition, this program can be installed in advance in the non-volatile storage 94.
 以上、本開示の実施形態について説明したが、本開示の技術的範囲は、上述の実施形態そのままに限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、異なる実施形態及び変形例にわたる構成要素を適宜組み合わせてもよい。 Although the embodiments of the present disclosure have been described above, the technical scope of the present disclosure is not limited to the above-described embodiments as they are, and various changes can be made without departing from the gist of the present disclosure. In addition, components covering different embodiments and modifications may be combined as appropriate.
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また他の効果があってもよい。 Note that the effects described in the present specification are merely examples and are not limited, and other effects may be obtained.
 なお、本技術は以下のような構成を取ることもできる。 Note that this technology can also have the following configuration.
(1)画像シーケンス内の画像を符号化して、符号化ストリームを生成する符号化部と、
 グラデュアルランダムアクセス(GRA:Gradual Random Access)の際に復号を開始する画像として使用可能な前記画像シーケンス内の1つ以上の復号開始画像を判定する判定部と、
 ヘッダ領域及びデータ領域を含むファイルフォーマットの前記ヘッダ領域に、前記判定部により判定された前記復号開始画像に関するGRA情報を挿入し、前記データ領域に前記符号化ストリームを挿入するファイル生成部と
 を備えた情報処理装置。
(2)前記ファイル生成部は、グラデュアル表示の許否を表すグラデュアル表示許可情報を前記GRA情報に含ませる付記(1)に記載の情報処理装置。
(3)前記ファイル生成部は、どのように前記グラデュアル表示を行うかのグラデュアル表示種別情報を前記GRA情報に含ませる付記(2)に記載の情報処理装置。
(4)前記ファイル生成部は、前記グラデュアル表示種別情報として前記グラデュアル表示実行時に表示される画像のそれぞれにおけるクリーン領域の位置及び領域情報を設定する付記(3)に記載の情報処理装置。
(5)前記ファイル生成部は、前記グラデュアル表示種別情報として前記グラデュアル表示実行時に表示される画像のそれぞれにおけるリフレッシュ領域の位置を設定する付記(3)に記載の情報処理装置。
(6)前記ファイル生成部は、ダーティ領域の領域情報及び表示方法を示すダーティ領域補間情報を前記GRA情報に含ませる付記(2)に記載の情報処理装置。
(7)画像シーケンス内の画像を符号化して、符号化ストリームを生成し、
 グラデュアルランダムアクセスの際に復号を開始する画像として使用可能な前記画像シーケンス内の1つ以上の復号開始画像を判定し、
 ヘッダ領域及びデータ領域を含むファイルフォーマットの前記ヘッダ領域に、判定した前記復号開始画像に関するGRA情報を挿入し、前記データ領域に前記符号化ストリームを挿入する
 処理をコンピュータに実行させる情報処理方法。
(8)ヘッダ領域及び符号化された一連の画像のデータを含む符号化ストリームが格納されたデータ領域を含むファイルフォーマットにしたがって生成されたファイルを取得するファイル取得部と、
 前記ファイル取得部により取得された前記ファイルの前記ヘッダ領域から前記一連の画像のうちのグラデュアルランダムアクセス(GRA:Gradual Random Access)の際に復号を開始する画像として使用可能な1つ以上の復号開始画像を識別するためのGRA情報を取得するGRA情報取得部と、
 前記GRA情報取得部により取得された前記GRA情報を基に、前記符号化ストリームを復号する復号処理部と
 を備えた再生処理装置。
(9)ヘッダ領域及び符号化された一連の画像のデータを含む符号化ストリームが格納されたデータ領域を含むファイルフォーマットにしたがって生成されたファイルを取得し、
 取得した前記ファイルの前記ヘッダ領域から前記一連の画像のうちのグラデュアルランダムアクセスの際に復号を開始する画像として使用可能な1つ以上の復号開始画像を識別するためのGRA情報を取得し、
 取得した前記GRA情報を基に、前記符号化ストリームを復号する
 処理をコンピュータに実行させる再生処理方法。
(1) A coding unit that encodes an image in an image sequence to generate a coded stream, and
A determination unit that determines one or more decoding start images in the image sequence that can be used as an image to start decoding during Gradual Random Access (GRA).
The header area of the file format including the header area and the data area is provided with a file generation unit that inserts GRA information regarding the decoding start image determined by the determination unit and inserts the coded stream into the data area. Information processing device.
(2) The information processing device according to the appendix (1), wherein the file generation unit includes gradual display permission information indicating permission or disapproval of gradual display in the GRA information.
(3) The information processing device according to the appendix (2), wherein the file generation unit includes gradual display type information on how to perform the gradual display in the GRA information.
(4) The information processing device according to the appendix (3), wherein the file generation unit sets the position and area information of a clean area in each of the images displayed at the time of executing the gradual display as the gradual display type information.
(5) The information processing device according to the appendix (3), wherein the file generation unit sets the position of a refresh area in each of the images displayed when the gradual display is executed as the gradual display type information.
(6) The information processing apparatus according to the appendix (2), wherein the file generation unit includes dirty area interpolation information indicating a dirty area area information and a display method in the GRA information.
(7) The images in the image sequence are encoded to generate an encoded stream.
Determine one or more decoding start images in the image sequence that can be used as the image to initiate decoding during gradual random access.
An information processing method in which a computer is made to execute a process of inserting GRA information about a determined decoding start image into the header area of a file format including a header area and a data area and inserting the coded stream into the data area.
(8) A file acquisition unit for acquiring a file generated according to a file format including a header area and a data area containing a coded stream containing coded series of image data, and a file acquisition unit.
One or more decodings that can be used as an image to start decoding at the time of Gradual Random Access (GRA) of the series of images from the header area of the file acquired by the file acquisition unit. A GRA information acquisition unit that acquires GRA information for identifying the start image,
A reproduction processing apparatus including a decoding processing unit that decodes the coded stream based on the GRA information acquired by the GRA information acquisition unit.
(9) Obtain a file generated according to a file format including a header area and a data area containing a coded stream containing data of a series of encoded images.
From the header area of the acquired file, GRA information for identifying one or more decoding start images that can be used as an image to start decoding at the time of gradual random access in the series of images is acquired.
A reproduction processing method in which a computer executes a process of decoding the coded stream based on the acquired GRA information.
 1 ファイル生成装置
 2 クライアント装置
 3 Webサーバ
 10 ファイル生成処理部
 11 制御部
 12 送信部
 20 再生処理部
 21 制御部
 100 配信システム
 101 データ取得部
 102 符号化部
 103 メタデータ生成部
 104 判定部
 105 ファイル生成部
 201 ファイル取得部
 202 ファイル処理部
 203 GRA情報取得部
 204 復号処理部
 205 表示情報生成部
 206 表示部
1 File generation device 2 Client device 3 Web server 10 File generation processing unit 11 Control unit 12 Transmission unit 20 Playback processing unit 21 Control unit 100 Distribution system 101 Data acquisition unit 102 Coding unit 103 Metadata generation unit 104 Judgment unit 105 File generation Part 201 File acquisition part 202 File processing part 203 GRA information acquisition part 204 Decoding processing part 205 Display information generation part 206 Display part

Claims (9)

  1.  画像シーケンス内の画像を符号化して、符号化ストリームを生成する符号化部と、
     グラデュアルランダムアクセス(GRA:Gradual Random Access)の際に復号を開始する画像として使用可能な前記画像シーケンス内の1つ以上の復号開始画像を判定する判定部と、
     ヘッダ領域及びデータ領域を含むファイルフォーマットの前記ヘッダ領域に、前記判定部により判定された前記復号開始画像に関するGRA情報を挿入し、前記データ領域に前記符号化ストリームを挿入するファイル生成部と
     を備えた情報処理装置。
    An encoding unit that encodes an image in an image sequence to generate an encoded stream,
    A determination unit that determines one or more decoding start images in the image sequence that can be used as an image to start decoding during Gradual Random Access (GRA).
    The header area of the file format including the header area and the data area is provided with a file generation unit that inserts GRA information regarding the decoding start image determined by the determination unit and inserts the coded stream into the data area. Information processing device.
  2.  前記ファイル生成部は、グラデュアル表示の許否を表すグラデュアル表示許可情報を前記GRA情報に含ませる請求項1に記載の情報処理装置。 The information processing device according to claim 1, wherein the file generation unit includes gradual display permission information indicating permission or disapproval of gradual display in the GRA information.
  3.  前記ファイル生成部は、どのように前記グラデュアル表示を行うかのグラデュアル表示種別情報を前記GRA情報に含ませる請求項2に記載の情報処理装置。 The information processing device according to claim 2, wherein the file generation unit includes gradual display type information on how to perform the gradual display in the GRA information.
  4.  前記ファイル生成部は、前記グラデュアル表示種別情報として前記グラデュアル表示実行時に表示される画像のそれぞれにおけるクリーン領域の位置及び領域情報を設定する請求項3に記載の情報処理装置。 The information processing device according to claim 3, wherein the file generation unit sets the position and area information of a clean area in each of the images displayed when the gradual display is executed as the gradual display type information.
  5.  前記ファイル生成部は、前記グラデュアル表示種別情報として前記グラデュアル表示実行時に表示される画像のそれぞれにおけるリフレッシュ領域の位置を設定する請求項3に記載の情報処理装置。 The information processing device according to claim 3, wherein the file generation unit sets the position of a refresh area in each of the images displayed when the gradual display is executed as the gradual display type information.
  6.  前記ファイル生成部は、ダーティ領域の領域情報及び表示方法を示すダーティ領域補間情報を前記GRA情報に含ませる請求項2に記載の情報処理装置。 The information processing device according to claim 2, wherein the file generation unit includes dirty area interpolation information indicating a dirty area area information and a display method in the GRA information.
  7.  画像シーケンス内の画像を符号化して、符号化ストリームを生成し、
     グラデュアルランダムアクセスの際に復号を開始する画像として使用可能な前記画像シーケンス内の1つ以上の復号開始画像を判定し、
     ヘッダ領域及びデータ領域を含むファイルフォーマットの前記ヘッダ領域に、判定した前記復号開始画像に関するGRA情報を挿入し、前記データ領域に前記符号化ストリームを挿入する
     処理をコンピュータに実行させる情報処理方法。
    Encode the images in the image sequence to generate a coded stream,
    Determine one or more decoding start images in the image sequence that can be used as the image to initiate decoding during gradual random access.
    An information processing method in which a computer is made to execute a process of inserting GRA information about a determined decoding start image into the header area of a file format including a header area and a data area and inserting the coded stream into the data area.
  8.  ヘッダ領域及び符号化された一連の画像のデータを含む符号化ストリームが格納されたデータ領域を含むファイルフォーマットにしたがって生成されたファイルを取得するファイル取得部と、
     前記ファイル取得部により取得された前記ファイルの前記ヘッダ領域から前記一連の画像のうちのグラデュアルランダムアクセス(GRA:Gradual Random Access)の際に復号を開始する画像として使用可能な1つ以上の復号開始画像を識別するためのGRA情報を取得するGRA情報取得部と、
     前記GRA情報取得部により取得された前記GRA情報を基に、前記符号化ストリームを復号する復号処理部と
     を備えた再生処理装置。
    A file acquisition unit that acquires a file generated according to a file format including a header area and a data area containing a coded stream containing data of a series of encoded images, and a file acquisition unit.
    One or more decodings that can be used as an image to start decoding at the time of Gradual Random Access (GRA) of the series of images from the header area of the file acquired by the file acquisition unit. A GRA information acquisition unit that acquires GRA information for identifying the start image,
    A reproduction processing apparatus including a decoding processing unit that decodes the coded stream based on the GRA information acquired by the GRA information acquisition unit.
  9.  ヘッダ領域及び符号化された一連の画像のデータを含む符号化ストリームが格納されたデータ領域を含むファイルフォーマットにしたがって生成されたファイルを取得し、
     取得した前記ファイルの前記ヘッダ領域から前記一連の画像のうちのグラデュアルランダムアクセスの際に復号を開始する画像として使用可能な1つ以上の復号開始画像を識別するためのGRA情報を取得し、
     取得した前記GRA情報を基に、前記符号化ストリームを復号する
     処理をコンピュータに実行させる再生処理方法。
    Gets the file generated according to the file format containing the header area and the data area containing the coded stream containing the coded series of image data.
    From the header area of the acquired file, GRA information for identifying one or more decoding start images that can be used as an image to start decoding at the time of gradual random access in the series of images is acquired.
    A reproduction processing method in which a computer executes a process of decoding the coded stream based on the acquired GRA information.
PCT/JP2020/025379 2019-07-03 2020-06-26 Information processing device, information processing method, playback processing device, and playback processing method WO2021002303A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201962870367P 2019-07-03 2019-07-03
US62/870,367 2019-07-03

Publications (1)

Publication Number Publication Date
WO2021002303A1 true WO2021002303A1 (en) 2021-01-07

Family

ID=74101077

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/025379 WO2021002303A1 (en) 2019-07-03 2020-06-26 Information processing device, information processing method, playback processing device, and playback processing method

Country Status (1)

Country Link
WO (1) WO2021002303A1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006527927A (en) * 2003-06-19 2006-12-07 ノキア コーポレイション Stream switching based on gradual decoder refresh

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006527927A (en) * 2003-06-19 2006-12-07 ノキア コーポレイション Stream switching based on gradual decoder refresh

Similar Documents

Publication Publication Date Title
KR102450781B1 (en) Method and apparatus for encoding media data comprising generated content
JP6292495B2 (en) Reproduction method and reproduction apparatus
US9124858B2 (en) Content processing apparatus for processing high resolution content and content processing method thereof
KR101703179B1 (en) Switching between adaptation sets during media streaming
GB2462732A (en) Simultaneous recording of multiple broadcast programs on a digital video recorder
JP6508206B2 (en) INFORMATION PROCESSING APPARATUS AND METHOD
JP7238948B2 (en) Information processing device and information processing method
JP2010011154A (en) Image generation apparatus and image reproducing apparatus
WO2018142946A1 (en) Information processing device and method
JP2005094145A (en) Image recorder and image reproducer
JP2008167061A (en) Encoding device and encoding method
JP4577409B2 (en) Playback apparatus, playback method, program, and data structure
KR101199166B1 (en) A apparatus generating interpolated frames
JP6269734B2 (en) Movie data editing device, movie data editing method, playback device, and program
WO2021002303A1 (en) Information processing device, information processing method, playback processing device, and playback processing method
JP2008072182A (en) Moving picture decoding device, moving picture decoding method, moving picture decoding program, moving picture encoding device, moving picture encoding method, moving picture encoding program, and moving picture encoding and decoding device
KR20110019955A (en) Scalable video playing system and method using resolution signaling
KR20070061149A (en) Interactive contents terminal wherein object of media data can be substituted
JP2004312743A (en) Digital data copying apparatus and method therefor
WO2021002142A1 (en) Information processing device, information processing method, reproduction processing device, and reproduction processing method
US20240086451A1 (en) Information processing apparatus, reception apparatus, information processing method, and storage medium
JP2011078068A (en) System for video transmission
KR101684705B1 (en) Apparatus and method for playing media contents
JP2007180692A (en) Video audio editing method, apparatus, program, and medium
JP2017536027A (en) Encoded video data processing method and apparatus, encoded video data generation method and apparatus

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20834532

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20834532

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP