WO2019181493A1 - 受信装置、受信方法、送信装置および送信方法 - Google Patents

受信装置、受信方法、送信装置および送信方法 Download PDF

Info

Publication number
WO2019181493A1
WO2019181493A1 PCT/JP2019/008772 JP2019008772W WO2019181493A1 WO 2019181493 A1 WO2019181493 A1 WO 2019181493A1 JP 2019008772 W JP2019008772 W JP 2019008772W WO 2019181493 A1 WO2019181493 A1 WO 2019181493A1
Authority
WO
WIPO (PCT)
Prior art keywords
image data
image
container
display
video stream
Prior art date
Application number
PCT/JP2019/008772
Other languages
English (en)
French (fr)
Inventor
塚越 郁夫
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Publication of WO2019181493A1 publication Critical patent/WO2019181493A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/438Interfacing the downstream path of the transmission network originating from a server, e.g. retrieving encoded video stream packets from an IP network

Definitions

  • the present technology relates to a receiving device, a receiving method, a transmitting device, and a transmitting method, and more particularly to a receiving device that receives and processes a video stream in which cut-out position information is inserted.
  • Patent Document 1 imaging is performed in a back-to-back manner to obtain a front image and a rear image with a super wide viewing angle having a viewing angle of 180 ° or more, and these two images Describes that an equirectangular cylindrical image is created from the image and transmitted to a communication terminal.
  • the front image and the rear image with an ultra-wide viewing angle having a viewing angle of 180 ° or more constitute a spherical capture image (360 ° VR image)
  • the equirectangular method is one of plane packing methods.
  • VR content distribution is effective with VR display compatible receivers.
  • a conventional VR display incompatible receiver receives VR content
  • a distorted image is displayed in the VR display incompatible receiver. It is necessary to ensure backward compatibility with conventional receivers that do not support VR display.
  • An object of the present technology is to make it possible to easily acquire appropriate display image data even in a receiver that does not have display capability corresponding to the received image data.
  • a receiving unit for receiving a container including a video stream obtained by encoding image data;
  • a processor that decodes the video stream to obtain image data, and obtains display image data from the image data; Cutout position information indicating the cutout position of the image data is inserted into the video stream layer.
  • instruction information indicating whether or not to cut out image data based on the cut-out position information in relation to the display capability is inserted,
  • the processing unit is in a receiving apparatus that selectively uses the cut-out position information based on the instruction information.
  • a container including a video stream obtained by encoding image data is received by the receiving unit.
  • the processing unit decodes the video stream to obtain image data, and the image data is processed to obtain display image data.
  • cut-out position information indicating the cut-out position of the image data is inserted in the video stream layer.
  • instruction information indicating whether or not image data extraction based on the extraction position information is essential in relation to the display capability is inserted.
  • the cutting position information is selectively used based on the instruction information. For example, when the processing unit determines that the extraction based on the extracted position information is essential based on the instruction information, the processing unit extracts the image data at the position indicated by the extracted position information from the image data obtained by decoding the video stream. Display image data may be obtained.
  • the image data may be image data of a rectangular projection image obtained by cutting out a part or all of a spherical capture image and performing plane packing.
  • the rendering meta information of the projection image is inserted into the container layer and / or the video stream layer, and the center of the clipping position indicated by the clipping position information is indicated by the rendering meta information. It may be made to coincide with the reference point of the projection image.
  • the projection image may be composed of a plurality of regions including a default region centered on the reference point, and the position indicated by the cutout position information may coincide with the position of the default region.
  • the rendering meta information may have position information of the reference point of the projection image.
  • the rendering meta information has backward compatibility information indicating that the center of the cutout position indicated by the cutout position information matches the reference point of the projection image indicated by the rendering metainformation. Also good.
  • a descriptor in which instruction information is described in association with a video stream may be inserted in the container layer.
  • the container may be ISOBMFF, and the descriptor may be inserted into the moov box.
  • the container may be MPEG2-TS, and the descriptor may be inserted into the program map table.
  • the container may be an MMT stream, and the descriptor may be inserted into the MMT package table.
  • the video stream is based on the instruction information inserted in the container layer.
  • the cut-out position information inserted in the layer is selectively used. Therefore, appropriate display image data can be easily acquired even in a receiver that does not have a display capability corresponding to the received image data.
  • a container generation unit that generates a container including a video stream obtained by encoding image data; Cutout position information indicating the cutout position of the image data is inserted into the video stream layer.
  • An information insertion unit that inserts into the container layer, instruction information indicating whether or not image data extraction based on the extraction position information is essential in relation to the display capability of the reception side;
  • the transmission apparatus further includes a transmission unit that transmits the container in which the instruction information is inserted.
  • a container including a video stream obtained by encoding image data is generated by the container generation unit.
  • Cutout position information indicating the cutout position of the image data is inserted into the layer of the video stream.
  • the information insertion unit inserts instruction information indicating whether or not the extraction of the image data based on the extraction position information is essential in relation to the display capability on the receiving side into the container layer. Then, the container in which the instruction information is inserted is transmitted by the transmission unit.
  • the cut-out position information indicating the cut-out position of the image data is inserted in the video stream layer, and the image data based on the cut-out position information is related to the container layer in relation to the display capability on the receiving side.
  • the instruction information indicating whether or not to make the cutout is essential is inserted. Therefore, on the receiving side, when obtaining the display image data from the image data obtained by decoding the video stream included in the container, the clipping position information can be selectively used based on the instruction information. Appropriate display image data can be easily acquired without having display capability corresponding to the above.
  • FIG. 1 is a block diagram illustrating a configuration example of an MPEG-DASH-based stream distribution system.
  • FIG. It is a figure which shows an example of the relationship of each structure arrange
  • FIG. 1 It is a figure which shows the content of the main structural information in the structural example of the display window activation descriptor, and the structural example. It is a figure which shows an example of the MP4 stream as a delivery stream. It is a figure which shows the example of a description of a MPD file. It is a figure which shows the "Value" semantics of "SupplementaryDescriptor". It is a figure which shows the propriety of reception of the VR service stream by a receiver type, and the propriety of VR display. It is a figure for demonstrating the process of the VR display corresponding
  • Embodiment> [Outline of MPEG-DASH based stream distribution system] First, an outline of an MPEG-DASH-based stream distribution system to which the present technology can be applied will be described. Distribution may be performed by broadcasting or may be performed by communication.
  • FIG. 1A shows a configuration example of an MPEG-DASH-based stream distribution system 30A.
  • a media stream and an MPD (Media Presentation Description) file are transmitted through a communication network transmission path (communication transmission path).
  • N service receivers 33-1, 33-2,..., 33-N connect a CDN (Content ⁇ ⁇ ⁇ ⁇ ⁇ Delivery Network) 34 to the DASH stream file server 31 and the DASH MPD server 32. It is a connected configuration.
  • CDN Content ⁇ ⁇ ⁇ ⁇ ⁇ Delivery Network
  • the DASH stream file server 31 generates a DASH specification stream segment (hereinafter referred to as “DASH segment” as appropriate) based on media data (video data, audio data, caption data, etc.) of predetermined content, and receives a service. A segment is sent in response to an HTTP request from the machine.
  • the DASH stream file server 31 may be a dedicated streaming server or may be used as a web server.
  • the DASH stream file server 31 responds to a request for a segment of a predetermined stream sent from the service receiver 33 (33-1, 33-2,..., 33-N) via the CDN 34, The segment of the stream is transmitted to the requesting receiver via the CDN 34.
  • the service receiver 33 refers to the rate value described in the MPD (Media Presentation Description) file and selects the stream with the optimum rate according to the state of the network environment where the client is located. And make a request.
  • the DASH MPD server 32 is a server that generates an MPD file for acquiring a DASH segment generated in the DASH stream file server 31.
  • An MPD file is generated based on content metadata from a content management server (not shown) and the segment address (url) generated in the DASH stream file server 31.
  • the DASH stream file server 31 and the DASHDAMPD server 32 may be physically the same.
  • each attribute is described using an element called “Representation” for each stream such as video and audio.
  • representations are described by dividing the representation. The service receiver 33 can select an optimum stream according to the state of the network environment in which the service receiver 33 is placed as described above with reference to the rate value.
  • FIG. 1B shows a configuration example of an MPEG-DASH-based stream distribution system 30B.
  • the media stream and the MPD file are transmitted through an RF transmission path (broadcast transmission path).
  • This stream distribution system 30B includes a broadcast transmission system 36 to which a DASH stream file server 31 and a DASH-MPD server 32 are connected, and M service receivers 35-1, 35-2,..., 35-M. It is configured.
  • the broadcast transmission system 36 puts the DASH specification stream segment (DASH segment) generated by the DASH stream file server 31 and the MPD file generated by the DASH MPD server 32 on the broadcast wave. Send.
  • DASH segment DASH specification stream segment
  • FIG. 2 shows an example of the relationship between the structures arranged hierarchically in the MPD file.
  • a media presentation Media Presentation
  • a media presentation includes a plurality of periods (Periods) separated by time intervals. For example, the first period starts from 0 seconds, the next period starts from 100 seconds, and so on.
  • AdaptationSet there are a plurality of adaptation sets (AdaptationSet) in the period.
  • Each adaptation set depends on differences in media types such as video and audio, differences in language and viewpoints even with the same media type.
  • FIG. 2 (c) there are a plurality of representations (Representation) in the adaptation set.
  • Each representation depends on stream attributes, such as differences in rates.
  • the representation includes segment info (SegmentInfo).
  • SegmentInfo As shown in FIG. 2D, the representation includes segment info (SegmentInfo).
  • SegmentInfo As shown in FIG. 2E, an initialization segment (InitializationMediaSegment) and a plurality of media segments (Media) in which information for each segment (Segment) obtained by further dividing a period is described. Segment) exists.
  • the media segment includes address (url) information and the like for actually acquiring segment data such as video and audio.
  • stream switching can be freely performed between a plurality of representations included in the adaptation set.
  • an optimal rate stream can be selected according to the state of the network environment on the receiving side, and video distribution without interruption is possible.
  • FIG. 3 shows a configuration example of the transmission / reception system 10 as an embodiment.
  • the transmission / reception system 10 includes a service transmission system 100 and a service receiver 200.
  • the service transmission system 100 corresponds to the DASH stream file server 31 and the DASH MPD server 32 of the stream distribution system 30A shown in FIG.
  • the service transmission system 100 corresponds to the DASH stream file server 31, the DASH MPD server 32, and the broadcast transmission system 36 of the stream distribution system 30B shown in FIG.
  • the service receiver 200 is connected to the service receivers 33 (33-1, 33-2,..., 33-N) of the stream distribution system 30A shown in FIG. Correspond.
  • the service receiver 200 is connected to the service receiver 35 (35-1, 35-2,..., 35-M) of the stream distribution system 30B shown in FIG. Correspond.
  • the service transmission system 100 uses DASH / MP4, that is, an MPD file as a metafile, and MP4 (ISOBMFF) including a media stream (media segment) such as video and audio, as a communication network transmission path (see FIG. 1A). ), Or through an RF transmission path (see FIG. 1B).
  • DASH / MP4 that is, an MPD file as a metafile
  • ISOBMFF MP4
  • media stream media segment
  • FIG. 1B RF transmission path
  • the media stream includes a video stream obtained by encoding image data of a rectangular projection image (Projection picture).
  • the projection image is obtained by cutting out a part or all of the spherical capture image and packing it in a plane.
  • the meta information for rendering projection images is inserted in the container layer and / or the video stream layer.
  • the rendering meta information can be dynamically changed regardless of the container type.
  • cutout position information indicating the cutout position of the image data is inserted.
  • the center of the cutout position indicated by the cutout position information is made to coincide with the reference point of the projection image indicated by the rendering meta information, but the present invention is not necessarily limited to this.
  • the projection image includes a plurality of regions including a default region having the reference point as the center position, and the position indicated by the cut-out position information is made to coincide with the position of the default region.
  • the rendering meta information has position information of the reference point of the projection image.
  • the rendering meta information has backward compatibility information. This backward compatibility information indicates that there is almost no distortion in the image data at the cutout position indicated by the cutout position information, and that backward compatibility with a receiver that does not support VR display can be secured. In this sense, in this embodiment, the backward compatibility information indicates that the center of the cutout position indicated by the cutout position information matches the reference point of the projection image indicated by the rendering meta information.
  • identification information indicating that rendering meta information is inserted in the container and / or video stream layer, backward compatibility information, and format type information of the projection image are inserted.
  • instruction information indicating whether or not to cut out image data based on cutout position information is inserted in the container layer in relation to the VR display capability.
  • a descriptor in which instruction information is described in association with the video stream is inserted in the container layer.
  • the service receiver 200 receives the above-described MP4 (ISOBMFF) transmitted from the service transmission system 100 through a communication network transmission line (see FIG. 1A) or an RF transmission line (see FIG. 1B).
  • the service receiver 200 acquires meta information related to the video stream from the MPD file.
  • the service receiver 200 is a receiver for VR display
  • identification information indicating that the rendering meta information is inserted in the container and / or video stream layer from the MPD file, and backward compatibility Information, and further, format type information of the projection image is acquired.
  • the service receiver 200 When the service receiver 200 is a VR display compatible receiver, the service receiver 200 decodes the video stream to obtain a projection image, renders the projection image based on the rendering meta information, and renders the rendered image (first display image). obtain.
  • the service receiver 200 when the service receiver 200 is a receiver for VR display, the service receiver 200 further extracts a partial image (second display image) from the projection image based on the extraction position information, A rendering image or a cut-out image is selectively displayed. Note that the cut-out image (second display image) is obtained by cutting out the projection image based on the cut-out position information, and can be an image with relatively little distortion.
  • the service receiver 200 is a receiver that does not support VR display
  • the video stream is decoded to obtain a projection image
  • extraction based on the extraction position information is indispensable based on the instruction information inserted in the container layer.
  • cutting out from the projection image based on the cut-out position information to obtain a cut-out image (second display image).
  • the center of the cutout position indicated by the inserted cutout position information is made to coincide with the reference point of the projection image indicated by the rendering meta information. Therefore, the cut-out image becomes common with the rendering image, and thus a common image can be obtained between the VR display compatible receiver and the VR display non-compatible receiver.
  • FIG. 4 schematically shows a configuration example of the entire system of the transmission / reception system 10.
  • the service transmission system 100 includes a camera 102, a plane packing unit 103, a video encoder 104, and a container encoder 105.
  • the camera 102 images a subject and obtains image data of a spherical capture image (360 ° VR image). For example, the camera 102 captures images in a back-to-back manner, and has a super-wide viewing angle with a viewing angle of 180 ° or more captured using a fisheye lens as a spherical capture image. A front image and a rear image are obtained.
  • the plane packing unit 103 cuts out part or all of the spherical captured image obtained by the camera 102 and plane-packs it to obtain a rectangular projection image.
  • the format type of the projection image for example, Equirectangular, Cross-cubic, or the like is selected.
  • the projection image is scaled as necessary to obtain a projection image having a predetermined resolution.
  • FIG. 5A shows an example of a front image and a rear image with an ultra-wide viewing angle as a spherical capture image obtained by the camera 102.
  • FIG. 5B shows an example of a projection image obtained by the plane packing unit 103. This example is an example in which the format type of the projection image is equirectangular. Moreover, this example is an example in the case where each image shown in FIG. 5A is cut out at the latitude indicated by the broken line.
  • FIG. 5C shows an example of the projection image after scaling.
  • the video encoder 104 performs encoding such as HEVC on the image data of the projection image from the plane packing unit 103 to obtain encoded image data, and includes the encoded image data. Generate a video stream. Cutout position information is inserted in the SPS NAL unit of the video stream. For example, “default_display_window” corresponds to HEVC encoding.
  • FIG. 6 shows a structural example (Syntax) of the SPS NAL unit in HEVC encoding.
  • a field of “pic_width_in_luma_samples” indicates the resolution (pixel size) in the horizontal direction of the projection image.
  • a field of “pic_height_in_luma_samples” indicates the resolution (pixel size) in the vertical direction of the projection image.
  • def_disp_win_left_offset indicates the left end position of the cutout position.
  • def_disp_win_right_offset indicates the right end position of the cutout position.
  • def_disp_win_top_offset indicates the upper end position of the cutout position.
  • def_disp_win_bottom_offset indicates the lower end position of the cutout position.
  • the center of the cutout position indicated by the cutout position information is made to coincide with the reference point of the projection image.
  • the center of the cutout position is O (p, q)
  • p and q are respectively expressed by the following equations.
  • FIG. 7 shows that the center O (p, q) of the cutout position coincides with the reference point RP (x, y) of the projection image.
  • projection_pic_size_horizontal indicates the horizontal pixel size of the projection image
  • projection_pic_size_vertical indicates the vertical pixel size of the projection image.
  • the VR display-compatible receiver can render a projection image to obtain a display view (display image), but the default view is centered on the reference point RP (x, y).
  • the position indicated by the cutout position information matches the position of the default region. Is done.
  • the center O (p, q) of the cutout position indicated by the cutout position information coincides with the reference point RP (x, y) of the projection image.
  • FIG. 8A shows that the position indicated by the cutout position information matches the position of the default region.
  • the projection image is composed of nine regions from region 0 (Region 0) to region 8 (Region 8), and region 4 (Region 4) is the default region.
  • region 0 region 0
  • region 8 region 8
  • region 4 region 4
  • the default view corresponds to the default region. It is said.
  • FIG. 8B shows how the cut position information is set based on the default region position information.
  • the upper end position “def_disp_win_top_offset” of the cutout position is set equal to the upper end position “proj_reg_top” of the default region.
  • the left end position “def_disp_win_left_offset” of the cutout position is set equal to the left end position “proj_reg_left” of the default region.
  • the lower end position “def_disp_win_bottom_offset” of the cutout position is equal to the upper end position “proj_reg_top” of the default region plus the vertical size “proj_reg_height” of the default region.
  • the right end position “def_disp_win_right_offset” of the cutout position is equal to the left end position “proj_reg_left” of the default region plus the horizontal size “proj_reg_width” of the default region.
  • the video encoder 104 inserts an SEI message (SEI message) having rendering metadata (rendering meta information) into the “SEIs” portion of the access unit (AU).
  • SEI message SEI message
  • FIG. 9 shows a structural example (Syntax) of rendering metadata (Rendering_metadata). In this example, position information of the reference point RP (x, y) is transmitted.
  • FIG. 11 shows another example structure (Syntax) of rendering metadata (Rendering_metadata). In this example, the position information of the reference point RP (x, y) is not transmitted.
  • FIG. 13 shows the contents (Semantics) of main information in each structural example.
  • a 16-bit field of “rendering_metadata_id” is an ID for identifying a rendering metadata structure.
  • a 16-bit field of “rendering_metadata_length” indicates a rendering metadata structure byte size.
  • Each 16-bit field of “start_offset_sphere_latitude”, “start_offset_sphere_longitude”, “end_offset_sphere_latitude”, and “end_offset_sphere_longitude” indicates information on a cutting range when the spherical capture image is plane-packed (see FIG. 10A).
  • the field of “start_offset_sphere_latitude” indicates the latitude (vertical direction) of the cutoff start offset from the spherical surface.
  • the field of “start_offset_sphere_longitude” indicates the longitude (horizontal direction) of the cutting start offset from the spherical surface.
  • the field of “end_offset_sphere_latitude” indicates the latitude (vertical direction) of the cutoff end offset from the spherical surface.
  • the field of “end_offset_sphere_longitude” indicates the longitude (horizontal direction) of the cutoff end offset from the spherical surface.
  • Each 16-bit field of “projection_pic_size_horizontal” and “projection_pic_size_vertical” indicates size information of a projection picture (see FIG. 10B).
  • the field “projection_pic_size_horizontal” indicates the horizontal pixel count from the top-left in the size of the projection image.
  • the field “projection_pic_size_vertical” indicates the vertical pixel count from the top-left in the size of the projection image.
  • Each 16-bit field of “scaling_ratio_horizontal” and “scaling_ratio_vertical” indicates a scaling ratio from the original size of the projection image (see FIGS. 5B and 5C).
  • a field of “scaling_ratio_horizontal” indicates a horizontal scaling ratio from the original size of the projection image.
  • the field “scaling_ratio_vertical” indicates the vertical scaling ratio from the original size of the projection image.
  • Each 16-bit field of “reference_point_horizontal” and “reference_point_vertical” indicates position information of the reference point RP (x, y) of the projection image (see FIGS. 10B and 10C).
  • the field “reference_point_horizontal” indicates the horizontal pixel position “x” of the reference point RP (x, y).
  • the field “reference_point_vertical” indicates the vertical pixel position “y” of the reference point RP (x, y).
  • the reference point RP (x, y) is designated and set as the center of the default view.
  • the region position is defined so that the reference point RP (x, y) is the center of the default region.
  • “5-bit field of“ format_type ” indicates the format type of the projection image. For example, “0” indicates an Equirectangular, “1” indicates a cross-cubic, and “2” indicates a partitioned cross-cubic.
  • the 1-bit field of “backwardcompatible” indicates whether or not backward compatibility is set, that is, the center O (p, q) of the cutout position indicated by the cutout position information inserted in the layer of the video stream is the reference of the projection image It indicates whether or not the point RP (x, y) is set to coincide. For example, “0” indicates that backward compatibility is not set, and “1” indicates that backward compatibility is set.
  • the 8-bit field of“ number_of_regions ” indicates the number of regions in the projection image.
  • region_id [i] “start_offset_horizontal_region [i]”, “start_offset_vertical_region [i]”, “width_region [i]”, “height_region [i]”, “default_region_flag [i]”
  • the 8-bit field “region_id [i]” indicates the region identification number.
  • the 16-bit field of “start_offset_horizontal_region [i]” indicates the horizontal start pixel offset of the i-th region.
  • the 16-bit field of “start_offset_vertical_region [i]” indicates the vertical start pixel offset of the i-th region.
  • the 16-bit field of “width_region [i]” indicates the horizontal width of the i-th region by the number of pixels.
  • the 16-bit field of “height_region [i]” indicates the vertical width of the i-th region by the number of pixels.
  • a 1-bit field of “default_region_flag [i]” indicates whether or not it is a default region. For example, “0” indicates that it is not the default region, and “1” indicates that it is the default region.
  • a 16-bit field of “rendering_metadata_id” is an ID for identifying a rendering metadata structure.
  • a 16-bit field of “rendering_metadata_length” indicates a rendering metadata structure byte size.
  • Each 16-bit field of “start_offset_sphere_latitude”, “start_offset_sphere_longitude”, “end_offset_sphere_latitude”, and “end_offset_sphere_longitude” indicates a cut-out range when the spherical capture image is plane-packed as in the structure example of FIG. 9 (FIG. 12A). reference).
  • Each 16-bit field of “projection_pic_size_horizontal” and “projection_pic_size_vertical” indicates the size information of the projection picture (projection picture), as in the structure example of FIG. 9 (see FIG. 12B).
  • Each 16-bit field of “scaling_ratio_horizontal” and “scaling_ratio_vertical” indicates the scaling ratio from the original size of the projection image (see FIGS. 5B and 5C), as in the structural example of FIG.
  • “5-bit field of“ format_type ” indicates the format type of the projection image.
  • a 1-bit field “backwardcompatible” indicates whether backward compatibility is set.
  • An 8-bit field of “number_of_regions” indicates the number of regions in the projection image. When the number of regions is 2 or more, as in the structure example of FIG. 9, “region_id [i]”, “start_offset_horizontal_region [i]”, “start_offset_vertical_region [i]”, “width_region [i]”, “height_region [i ] ”And“ default_region_flag [i] ”are repeated as many times as there are fields.
  • the structure example shown in FIG. 11 is obtained by removing the “reference_point_horizontal” and “reference_point_vertical” 16-bit fields indicating the position information of the reference point RP (x, y) of the projection image from the structure example shown in FIG. It is.
  • the center of the projection image is regarded as the center of the reference point RP (x, y) and hence the default view, as shown in FIG.
  • the region position is defined so that the center of the default region is the reference point RP (x, y) as shown in FIG.
  • the container encoder 105 generates a container including the video stream generated by the video encoder 104, here an MP4 stream, as a distribution stream STM.
  • the container encoder 105 inserts rendering metadata (see FIGS. 9 and 11) into the container layer.
  • rendering metadata is inserted into both the video stream layer and the container layer, but it is also conceivable to insert the rendering metadata into only one of them.
  • the container encoder 105 inserts descriptors having various information in association with the video stream in the container layer.
  • this descriptor there is a conventionally known component descriptor (component_descriptor), and there is also a newly defined display window activate descriptor (display_window_activate_descriptor).
  • FIG. 14A shows a structural example (syntax) of a component descriptor
  • FIG. 14B shows contents (semantics) of main information in the structural example.
  • the 4-bit field of “stream_content” indicates the encoding method of the video / audio subtitle.
  • “0x9” is set, which indicates HEVC encoding.
  • the 4-bit field of “stream_content_ext” indicates the details of the encoded content by using it in combination with the above-mentioned “stream_content”.
  • “0x2” is set, which indicates “VR Partial displaying Service”, that is, a VR service that can be partially cut out and viewed.
  • the 8-bit field of“ component_type ” indicates a variation in each encoding method. In this embodiment, for example, “UHD 16: 9” is indicated.
  • stream_content_ext is “0x2” and “VR“ Partial displaying Service ”
  • the display window activate descriptor is arranged.
  • FIG. 15A shows a structure example (syntax) of the display window activate descriptor
  • FIG. 15B shows contents (semantics) of main information in the structure example.
  • the 1-bit field of “display_window_activate_flag” is instruction information indicating whether or not extraction based on the extraction position information is essential in relation to the VR display capability. For example, “1” indicates that when a receiver not supporting VR display performs partial display, clipping according to “default_display_window” of the video stream VUI is essential, and “0” corresponds to “default_display_window”. Indicates that clipping is not required.
  • the MP4 distribution stream STM obtained by the container encoder 105 is sent to the service receivers 200A and 200B on broadcast waves or net packets.
  • FIG. 16 shows an example of an MP4 stream as the distribution stream STM.
  • the entire service stream is fragmented and transmitted so that an image sound is output in the middle of transmission such as general broadcasting.
  • Each random access period begins with an initialization segment (IS: initialization segment), which is further followed by “styp”, “sidx (Segment index box)”, “ssix (Sub-segment index box)”, “moof (Movie fragment) box) ”and“ mdat (Media data box) ”.
  • the initialization segment has a box structure based on ISOBMFF (ISO Base Media Media Format).
  • ISOBMFF ISO Base Media Media Format
  • a “ftyp” box indicating a file type (File type) is arranged at the top, followed by a “moov” box for control.
  • “moov” box for control.
  • “trak” box, “mdia” box, “minf” box, “stbl” box, “stsd” box and “schi” box are arranged hierarchically.
  • rendering metadata see FIG. 9 and FIG. 11
  • component descriptor see FIG. 14
  • display window activate descriptor see FIG. 15
  • Control information is entered in the“ moof ”box.
  • the “mdat” box contains the actual signal (transmission media) such as video and audio.
  • a movie fragment is composed of the “moof” box and the “mdat” box. Since the “mdat” box of one movie fragment contains a fragment obtained by fragmenting the transmission medium, the control information entering the “moof” box becomes control information related to the fragment.
  • encoded image data (access unit) of the projection image is arranged for a predetermined number of pictures, for example, 1 GOP (Group of picture).
  • each access unit is composed of NAL units such as “VPS”, “SPS”, “PPS”, “PSEI”, “SLICE”, “SSEI”, and the like. Note that “VPS” and “SPS” are inserted in the first picture of the GOP, for example.
  • FIG. 17 shows a description example of the MPD file.
  • FIG. 18 illustrates the “Value” semantics of “SupplementaryDescriptor”.
  • an adaptation set (AdaptationSet) for the video stream exists, and the video stream is supplied in the MP4 file structure.
  • the presence of a HEVC video stream (encoded image data) of Lxxx level is shown.
  • This MPD file has a representation (Representation) corresponding to the video stream.
  • the service receiver 200A is a VR display compatible receiver.
  • the service receiver 200A can receive a VR service stream (HEVC UHD 16: 9 VR Partial displaying Service) and supports VR display. That is, the service receiver 200A performs display by rendering.
  • the VR service stream is determined by the “stream_content_ext”, “stream_content”, and “component_type” fields of the component descriptor (see FIG. 14).
  • the service receiver 200B is a receiver that does not support VR display.
  • the service receiver 200B can receive the VR service stream, but cannot display by rendering, and displays a partial image by clipping. In this case, the service receiver 200 performs clipping according to whether “display_window_activate_flag” of the display window activate descriptor (see FIG. 15) is “1” or “0”.
  • FIG. 19 shows whether or not the VR service stream can be received and whether or not the VR display is possible depending on the receiver type.
  • the VR service stream can be identified by the component descriptor as a VR service stream, and a receiver that can receive the VR service receives it, but a receiver that does not support VR service reception does not receive it.
  • the VR display-compatible receiver (service receiver 200A) performs display by rendering.
  • the VR display non-compliant receiver (service receiver 200B) displays a partial image by clipping, but responds to the clipping position information “default_display_window” by the display window activate descriptor. It is instructed whether or not to cut out is necessary.
  • the service receiver 200 ⁇ / b> A that is a VR display compatible receiver includes a container decoder 203, a video decoder 204, and a renderer 205.
  • the container decoder 203 extracts a video stream from the received MP4 distribution stream STM and sends it to the video decoder 204.
  • the video decoder 204 performs a decoding process on the video stream extracted by the container decoder 203 to obtain a projection image (image data).
  • the renderer 205 performs rendering processing on the projection image (image data) based on the rendering metadata (rendering meta-information) inserted in the container and / or the video stream layer, and converts the rendered image (image data) into a rendering image (image data). obtain.
  • the renderer 205 generates a rendering image corresponding to the default view centered on the reference point RP (x, y) of the projection image, and renders corresponding to another view according to a user operation or a user operation. Images can also be generated. For example, when the projection image includes a plurality of regions, a rendering image of a view corresponding to another region designated by the user can be generated in addition to generating a rendering image of a default view corresponding to the default region.
  • the service receiver 200A can obtain a partial image (image data) from the projection image (image data) by performing a clipping process using the clipping position information inserted in the layer of the video stream. It is said.
  • the service receiver 200A can selectively display a rendered image or a cut-out image as a display image in accordance with a user switching operation.
  • the service receiver 200B which is a VR display incompatible receiver, includes a container decoder 233, a video decoder 234, and a partial picture unit 235.
  • the container decoder 233 extracts a video stream from the received MP4 distribution stream STM and sends it to the video decoder 234.
  • the video decoder 234 performs a decoding process on the video stream extracted by the container decoder 233 to obtain a projection image (image data).
  • the partial picture unit 235 performs a cutting process from the projection image (image data) to obtain a cut image (image data).
  • “display_window_activate_flag” of the display window activate descriptor is “1”
  • extraction is performed based on the extraction position information of “default_display_window” of the video stream VUI.
  • the service receiver 200B can display this cut-out image.
  • FIG. 20A shows an example of a projection image that is an output of the video decoders 204 and 234.
  • the center O (p, q) of the cutout position “default_display_window” indicated by the cutout position information inserted into the layer of the video stream is made to coincide with the reference point RP (x, y) of the projection image. Yes.
  • FIG. 20B shows that the service receiver 200A, which is a VR display compatible receiver, can selectively display a rendering image or a cut-out image obtained by processing a projection image.
  • the rendering image is obtained by performing a rendering process on the projection image.
  • the default rendering image corresponds to the default view centered on the reference point RP (x, y) of the projection image.
  • the cut-out image is obtained by cutting out the area of the cut-out position “default_display_window” from the projection image.
  • FIG. 20C shows that the cut-out image can be displayed in the service receiver 200B which is a receiver that does not support VR display.
  • this cut-out image is obtained by cutting out the area of the cut-out position “default_display_window” from the projection image.
  • the center O (p, q) of the cutout position “default_display_window” coincides with the reference point RP (x, y) of the projection image. Therefore, when the service receiver 200B cuts out the area of the cutout position “default_display_window” from the projection image, the rendering image corresponding to the default view displayed on the service receiver 200A and the cutout image displayed on the service receiver 200B are It becomes a common image. That is, a common image can be obtained between the service receiver 200A that is a VR display-compatible receiver and the service receiver 200B that is a VR display-incompatible receiver.
  • FIG. 21 shows a configuration example of the service transmission system 100.
  • the service transmission system 100 includes a control unit 101, a user operation unit 101a, a camera 102, a plane packing unit 103, a video encoder 104, a container encoder 105, and a transmission unit 106.
  • the control unit 101 includes a CPU (Central Processing Unit) and controls the operation of each unit of the service transmission system 100 based on a control program.
  • the user operation unit 101a is a keyboard, a mouse, a touch panel, a remote controller, or the like for the user to perform various operations.
  • the camera 102 images a subject and obtains image data of a spherical capture image (360 ° VR image). For example, the camera 102 captures images in a back-to-back manner, and has a super-wide viewing angle with a viewing angle of 180 ° or more captured using a fisheye lens as a spherical capture image. A front image and a rear image are obtained (see FIG. 5A).
  • the plane packing unit 103 cuts out part or all of the spherical captured image obtained by the camera 102 and plane-packs it to obtain a rectangular projection image (Projection picture) (see FIG. 5B).
  • a rectangular projection image Projection picture
  • the format type of the projection image for example, Equirectangular, Cross-cubic, or the like is selected.
  • the projection image is scaled as necessary to obtain a projection image having a predetermined resolution (see FIG. 5C).
  • the video encoder 104 performs encoding such as HEVC on the image data of the projection image from the plane packing unit 103 to obtain encoded image data, and generates a video stream including the encoded image data. Cutout position information is inserted in the SPS NAL unit of the video stream (see information of “default_display_window” in FIG. 6).
  • the center O (p, q) of the cutout position indicated by the cutout position information is made to coincide with the reference point RP (x, y) of the projection image (see FIG. 7).
  • the position indicated by the cutout position information matches the position of the default region. (See FIG. 8).
  • the center O (p, q) of the cutout position indicated by the cutout position information coincides with the reference point RP (x, y) of the projection image.
  • the video encoder 104 inserts an SEI message (SEI message) having rendering metadata (rendering meta information) in the “SEIs” portion of the access unit (AU).
  • the rendering metadata includes information on a clipping range when the spherical capture image is plane-packed, information on a scaling ratio from the original size of the projection image, information on the format type of the projection image, and a center O (p, Information indicating whether or not the backward compatibility is set to match q) with the reference point RP (x, y) of the projection image is inserted (see FIGS. 9 and 11).
  • the position information of the reference point RP (x, y) is inserted into the rendering metadata (see FIG. 9) and where it is not inserted (see FIG. 11).
  • the center of the projection image is regarded as the reference point RP (x, y) (see FIG. 12B), or the center of the default region is regarded as the reference point RP (x, y) (FIG. 12 ( c)).
  • the container encoder 105 generates a container including the video stream generated by the video encoder 104, here, an MP4 stream as a distribution stream STM (see FIG. 16). In this case, the container encoder 105 inserts rendering metadata (see FIGS. 9 and 11) into the container layer.
  • the container encoder 105 inserts descriptors having various information in association with the video stream in the container layer.
  • this descriptor there is a component descriptor (see FIG. 14), and there is also a display window activation descriptor (see FIG. 15) that is newly defined.
  • the component descriptor also includes information indicating that the video stream is a VR service stream.
  • the display window activate descriptor includes instruction information indicating whether or not extraction based on the extraction position information is essential in relation to the VR display capability.
  • the transmission unit 106 transmits the MP4 distribution stream STM obtained by the container encoder 105 on a broadcast wave or a network packet, and transmits it to the service receivers 200A and 200B.
  • FIG. 22 shows a configuration example of a service receiver 200A which is a VR display compatible receiver.
  • the service receiver 200A includes a control unit 201, a user operation unit 201a, a reception unit 202, a container decoder 203, a video decoder 204, a renderer 205, a partial picture unit 206, a changeover switch 207, and a scaling unit. 208 and a display portion 209.
  • the control unit 201 includes a CPU (Central Processing Unit) and controls the operation of each unit of the service receiver 200A based on a control program.
  • the user operation unit 201 a is a keyboard, a mouse, a touch panel, a remote controller, or the like for a user to perform various operations, and user operation information is supplied to the control unit 231.
  • the control unit 201 is also supplied with sensor information from a sensor that senses a user action (not shown).
  • the receiving unit 202 receives the MP4 distribution stream STM transmitted from the service transmission system 100 on broadcast waves or net packets.
  • the container decoder (multiplexer) 103 converts the MP4 distribution stream STM received by the receiving unit 202 into control information such as a “moov” block and a “moof” block of the initialization segment under the control of the control unit 201. Based on this, the video stream is extracted and sent to the video decoder 204. Further, the container decoder 203 extracts information such as “moov” block from the distribution stream STM and sends it to the control unit 201. Rendering metadata (see FIGS. 9 and 11) exists as one piece of information of the “moov” block. In addition, as one of the information of the “moov” block, there are a component descriptor (see FIG. 14) and a display window activate descriptor (see FIG. 15).
  • the video decoder 204 performs a decoding process on the video stream extracted by the container decoder 203 to obtain a projection image (image data).
  • the video decoder 204 extracts the parameter set and SEI message inserted in the video stream extracted by the container decoder 203 and sends them to the control unit 201.
  • This extracted information includes information on the cut-out position “default_display_window” inserted in the SPS NAL packet, and also an SEI message having rendering metadata (see FIGS. 9 and 11).
  • the renderer 205 performs rendering processing on the projection image (image data) based on the rendering metadata under the control of the control unit 201 to obtain a rendered image (image data).
  • the renderer 205 generates a rendering image corresponding to the default view centered on the reference point RP (x, y) of the projection image, and renders corresponding to another view according to a user operation or a user operation. Images can also be generated. For example, when the projection image includes a plurality of regions, a rendering image of a view corresponding to another region designated by the user can be generated in addition to generating a rendering image of a default view corresponding to the default region.
  • the partial picture unit 206 obtains a cut-out image (image data) by performing cut-out processing on the projection image with cut-out position information inserted in the layer of the video stream under the control of the control unit 201.
  • the changeover switch 207 is a rendering image (image data) obtained by the renderer 205 or a cutout image (image obtained by the partial picture unit 206) in accordance with sensor information or a user switching operation under the control of the control unit 201. Data) is selectively extracted and output.
  • the scaling unit 208 performs a scaling process on the image (image data) extracted by the changeover switch 207 so as to match the size of the display unit 209.
  • the display unit 209 displays the rendered image or the cut image that has been subjected to the scaling process.
  • the display unit 209 includes, for example, a display panel or an HMD (Head-Mounted Display).
  • FIG. 23 shows a display switching sequence in the service receiver 200A.
  • This display switching sequence is an example, and the present invention is not limited to this.
  • the display state is roughly divided into a basic display state for displaying a cut-out image, a VR display (default view) state for displaying a rendered image corresponding to a default view (or default region), and There are three VR display (other view) states.
  • the basic display state When starting up or switching channels, the basic display state is set. In this case, a cutout image (image data) is obtained by the partial picture unit 206, and this cutout image (image data) is taken out by the changeover switch 207 and supplied to the display unit 209 through the scaling unit 208 to display the cutout image.
  • the VR display (default view) state is set.
  • a rendering image (image data) corresponding to the default view (or default region) is obtained by the renderer 205, and this rendering image (default view) is taken out by the changeover switch 207 and displayed through the scaling unit 208. 209 to display a rendering image corresponding to the default view (or default region).
  • a VR display (other view) state is set.
  • a rendering image (image data) corresponding to another view (or region) selected by the renderer 205 is obtained, and this rendering image (other view) is taken out by the changeover switch 207 and displayed through the scaling unit 208.
  • a rendering image corresponding to another view (or region) is displayed by being supplied to the unit 209.
  • the VR display (default view) state when the default regression is selected in this VR display (other view) state, the VR display (default view) state is set.
  • a basic display state when a return selection is made by a user operation, a basic display state is set. It is also possible to shift directly from the VR display (other view) state to the basic display by the user's return operation.
  • FIG. 24 illustrates a configuration example of a service receiver 200B that is a receiver that does not support VR display.
  • the service receiver 200B includes a control unit 231, a user operation unit 231a, a reception unit 232, a container decoder 233, a video decoder 234, a partial picture unit 235, a scaling unit 236, and a display unit 237. ing.
  • the control unit 231 includes a CPU (Central Processing Unit) and controls the operation of each unit of the service receiver 200B based on a control program.
  • the user operation unit 231a is a keyboard, a mouse, a touch panel, a remote controller, or the like for a user to perform various operations, and user operation information is supplied to the control unit 231.
  • the control unit 231 is also supplied with sensor information from a sensor that senses a user action (not shown).
  • the receiving unit 232 receives the MP4 distribution stream STM transmitted from the service transmission system 100 on broadcast waves or net packets.
  • the container decoder (multiplexer) 233 converts the MP4 distribution stream STM received by the reception unit 232 into control information such as the “moov” block and the “moof” block of the initialization segment. Based on this, the video stream is extracted and sent to the video decoder 234. In addition, the container decoder 233 extracts “moov” block information and the like from the distribution stream STM and sends the information to the control unit 231. As information of the “moov” block, there are also a component descriptor (see FIG. 14) and a display window activate descriptor (see FIG. 15).
  • the video decoder 234 performs a decoding process on the video stream extracted by the container decoder 233 to obtain a projection image (image data).
  • the video decoder 234 extracts the parameter set and SEI message inserted in the video stream extracted by the container decoder 233 and sends the parameter set and SEI message to the control unit 231.
  • This extracted information includes information of the cut-out position “default_display_window” inserted in the SPS NAL packet.
  • the partial picture unit 235 performs a cutting process on the projection image under the control of the control unit 231 to obtain a cut image (image data).
  • “display_window_activate_flag” of the display window activate descriptor is “1”
  • extraction is performed based on the extraction position information of “default_display_window” of the video stream VUI.
  • the scaling unit 236 performs a scaling process on the cut image (image data) obtained by the partial picture unit 235 so as to fit the size specified by the display unit 237.
  • the display unit 237 displays the cut-out image that has been subjected to the scaling process.
  • the display unit 237 includes, for example, a display panel or an HMD (Head-Mounted Display).
  • the display window activate descriptor in which “display_window_activate_flag” is described is inserted and transmitted. Therefore, when the “display_window_activate_flag” is “1”, the service receiver 200B that is a receiver that does not support VR display performs image extraction on the projection image based on the extraction position information of “default_display_window” of the video stream VUI. Thus, it is possible to easily provide the user with an appropriate image with no distortion or little distortion.
  • the center O (p, q) of the cutout position “default_display_window” indicated by the cutout position information inserted in the layer of the video stream is the reference point RP (x, y) of the projection image.
  • the rendering image corresponding to the default view displayed by the service receiver 200A that is a VR display-compatible receiver and the cut-out image displayed by the service receiver 200B that is a VR display-incompatible receiver are common images, and accordingly. It is possible to obtain a common image between the VR display compatible receiver and the VR display non-compatible receiver.
  • the container encoder 105 of the service transmission system 100 shown in FIG. 4 generates a transport stream including a video stream.
  • the container encoder 105 includes rendering metadata (see FIGS. 9 and 11) in a video elementary stream loop corresponding to a video stream of a program map table (PMT: ProgramPMap Table).
  • a descriptor (Rendering_metadata_descriptor) is inserted, and a component descriptor (see FIG. 14) and a display window activate descriptor (see FIG. 15) are also inserted.
  • FIG. 25 shows a configuration example of the transport stream.
  • the payload of the PES packet “video PES1” includes an access unit (encoded image data) of each picture.
  • a video elementary stream loop (video ES1 loop) corresponding to the PES packet “video PES1” exists in the PMT.
  • video elementary stream loop (video ES1 loop) information such as stream type and packet identifier (PID) is arranged corresponding to the video stream (video PES1), and information related to the video stream is described.
  • PID packet identifier
  • a descriptor is also arranged.
  • This stream type is “0x24” indicating a video stream.
  • a rendering metadata descriptor including rendering metadata is inserted, and a component descriptor and a display window activation descriptor are also inserted.
  • the container encoder 105 of the service transmission system 100 shown in FIG. 4 generates an MMT stream (MMT ⁇ ⁇ Stream) including a video stream.
  • the container encoder 105 includes rendering metadata including rendering metadata (see FIGS. 9 and 11) in a video asset loop corresponding to an extended video stream of an MMT package table (MPT: MMT Package Package).
  • a descriptor (Rendering_metadata_descriptor) is inserted, and a component descriptor (see FIG. 14) and a display window activate descriptor (see FIG. 15) are also inserted.
  • FIG. 26 shows a configuration example of the MMT stream.
  • the payload of this MPU packet “video MPU1” includes an access unit (encoded image data) of each picture.
  • a video asset loop (video (asset1 ⁇ ⁇ loop) corresponding to the MPU packet “video MPU1” exists in MPT.
  • information such as a stream type and a packet identifier (PID) is arranged corresponding to the video stream (video MPU1), and a descriptor describing information related to the video stream. Also arranged.
  • This asset type is “0x24” indicating a video stream.
  • a rendering metadata descriptor including rendering metadata is inserted, and a component descriptor and a display window activation descriptor are also inserted.
  • FIG. 27 shows a projection image whose format type is cross-cubic. In this projection image, there are six views, “top”, “front”, “bottom”, “right”, “back”, and “left”.
  • FIG. 28A shows the specification of the reference point RP (x, y) and the cut-out position “default_display_window” in Case 1 in which the “front” view (indicated by a dashed rectangle in FIG. 27) is the default view (Default view). Indicates the specification.
  • x and y of the reference point RP (x, y) are specified as in the following mathematical formula.
  • x projection_pic_size_horizontal * 1/8
  • y projection_pic_size_vertical * 1/2
  • the cut-out position “default_display_window” is specified as in the following equation so that the center thereof coincides with the reference point RP (x, y).
  • def_disp_win_left_offset 0
  • def_disp_win_right_offset projection_pic_size_horizontal * 1/4
  • def_disp_win_top_offset projection_pic_size_vertical * 1/3
  • def_disp_win_bottom_offset projection_pic_size_vertical * 2/3
  • FIG. 28B shows the designation of the reference point RP ′ (x, y) and the cut-out position “default_display_window” in Case 2 in which the “left” view (indicated by the alternate long and short dash line in FIG. 27) is the default view (Default view). "Is shown.
  • x and y of the reference point RP ′ (x, y) are specified as in the following formula.
  • x projection_pic_size_horizontal * 7/8
  • y projection_pic_size_vertical * 1/2
  • the cut-out position “Conformance_window” is specified as in the following equation so that the center thereof coincides with the reference point RP ′ (x, y).
  • def_disp_win_left_offset projection_pic_size_horizontal * 3/4
  • def_disp_win_right_offset projection_pic_size_horizontal
  • def_disp_win_top_offset projection_pic_size_vertical * 1/3
  • def_disp_win_bottom_offset projection_pic_size_vertical * 2/3
  • the present technology is applied to a transmission / reception system that handles projection images.
  • the present technology can be similarly applied to a transmission / reception system that handles other images, for example, stereoscopic images and panoramic view images (multi-view images).
  • FIG. 29A shows an example of a stereoscopic image (image data) that is a decoder output.
  • the stereoscopic image is a side-by-side image, but is not limited thereto, and may be, for example, a top-and-bottom image.
  • the cut-out position “default_display_window” is set corresponding to the left eye image, but may be set corresponding to the right eye image.
  • FIG. 29B shows that a 3D (3 Dimension) display receiver renders image data of a stereoscopic image to generate left-eye image data and right-eye image data, and displays a 3D image.
  • FIG. 29C illustrates that the 2D (2 ⁇ ⁇ ⁇ Dimension) display receiver enlarges the image data extracted at the extraction position “default_display_window” and displays a 2D image.
  • “display_window_activate_flag” is “1”
  • FIG. 30A shows an example of a panoramic view image (image data) that is a decoder output.
  • This panorama view image is an image extending in the horizontal direction, but is not limited thereto.
  • the cut-out position “default_display_window” is set corresponding to the image in the center portion.
  • FIG. 30B illustrates a panorama view display receiver that renders image data of a panorama view image and displays a predetermined number of images of a display area set on the panorama view image, three screens in the illustrated example. A predetermined number of image data to be displayed is generated and displayed on the screen.
  • FIG. 30C shows that the image data extracted at the extraction position “default_display_window” is enlarged and displayed in the 2D display receiver. In this case, when “display_window_activate_flag” is “1”, it indicates that clipping according to “default_display_window” is essential when the 2D display receiver performs partial display.
  • this technique can also take the following structures.
  • a receiving unit that receives a container including a video stream obtained by encoding image data;
  • a processing unit for decoding the video stream to obtain image data and processing the image data to obtain display image data;
  • Cutout position information indicating the cutout position of the image data is inserted into the video stream layer.
  • instruction information indicating whether or not to cut out image data based on the cut-out position information in relation to the display capability is inserted,
  • the receiving unit that selectively uses the cut-out position information based on the instruction information.
  • the processing unit determines that clipping based on the clipping position information is essential based on the instruction information, the position indicated by the clipping position information from image data obtained by decoding the video stream.
  • the receiving device wherein the display image data is obtained by cutting out the image data.
  • the image data is image data of a rectangular projection image obtained by cutting out a part or all of a spherical capture image and performing plane packing.
  • the rendering meta information for the projection image is inserted into the container layer and / or the video stream layer, The center of the cut-out position indicated by the cut-out position information coincides with the reference point of the projection image indicated by the rendering meta-information.
  • the projection image is centered on the reference point.
  • Consists of multiple regions including the default region The receiving device according to (4), wherein the position indicated by the cutout position information matches the position of the default region.
  • the rendering meta information includes position information of a reference point of the projection image.
  • the rendering meta information has backward compatibility information indicating that the center of the cutout position indicated by the cutout position information matches the reference point of the projection image indicated by the rendering metainformation.
  • a descriptor in which the instruction information is described is inserted into the container layer in association with the video stream.
  • the container is ISOBMFF, The receiving device according to (8), wherein the descriptor is inserted in a moov box.
  • the container is MPEG2-TS, The receiving device according to (8), wherein the descriptor is inserted into a program map table.
  • the container is an MMT stream, The receiving device according to (8), wherein the descriptor is inserted into an MMT package table.
  • instruction information indicating whether or not to cut out image data based on the cut-out position information in relation to the display capability is inserted,
  • a reception method that selectively uses the cut-out position information based on the instruction information.
  • a position indicated by the extraction position information from image data obtained by decoding the video stream The receiving method according to (12), wherein the display image data is obtained by cutting out the image data.
  • the reception method according to (12) or (13), wherein the image data is image data of a rectangular projection image obtained by cutting out a part or all of a spherical capture image and performing plane packing.
  • Meta information for rendering the projection image is inserted into the container layer and / or the video stream layer, The center of the cutout position indicated by the cutout position information coincides with the reference point of the projection image indicated by the rendering meta information.
  • the reception method according to (14) (16) The projection image is centered on the reference point. Consists of multiple regions including the default region The reception method according to (15), wherein a position indicated by the cutout position information matches a position of the default region.
  • the rendering meta information has backward compatibility information indicating that a center of the cutout position indicated by the cutout position information coincides with a reference point of the projection image indicated by the rendering metainformation.
  • the reception method according to any one of (12) to (18), wherein a descriptor in which the instruction information is described is inserted in the container layer in association with the video stream.
  • the container is ISOBMFF, The receiving method according to (19), wherein the descriptor is inserted in a moov box.
  • the container is MPEG2-TS, The receiving method according to (19), wherein the descriptor is inserted into a program map table.
  • the container is an MMT stream, The receiving method according to (19), wherein the descriptor is inserted into an MMT package table.
  • a container generation unit that generates a container including a video stream obtained by encoding image data; Cutout position information indicating the cutout position of the image data is inserted into the video stream layer.
  • An information insertion unit that inserts into the container layer, instruction information indicating whether or not image data extraction based on the extraction position information is essential in relation to the display capability of the reception side;
  • a transmission device further comprising a transmission unit for transmitting the container in which the instruction information is inserted.
  • (24) Generate and transmit a container including a video stream obtained by encoding image data, Cutout position information indicating the cutout position of the image data is inserted into the video stream layer, Instruction information indicating whether or not image data extraction based on the extraction position information is essential in relation to the display capability on the receiving side is inserted in the container layer.
  • the main feature of the present technology is that, when obtaining the display image data from the image data obtained by decoding the video stream included in the container, the video stream based on the instruction information inserted in the container layer.
  • the cut-out position information inserted in the layer it is possible to easily obtain appropriate display image data even in a receiver that does not have display capability corresponding to the received image data ( (See FIGS. 4, 19, and 20).
  • DESCRIPTION OF SYMBOLS 10 ... Transmission / reception system 100 ... Service transmission system 101 ... Control part 101a ... User operation part 102 ... Camera 103 ... Plane packing part 104 ... Video encoder 105 ... Container encoder 106: transmitting unit 200, 200A, 200B ... service receiver 201, 231 ... control unit 201a, 231a ... user operation unit 202, 232 ... receiving unit 203, 233 ... container decoder 204, 234 ... Video decoder 205 ... Renderer 206, 235 ... Partial picture part 207 ... Changeover switch 208, 236 ... Scaling part 209, 237 ... Display part

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

受信画像データに対応した表示能力を持たない受信機においても適切な表示用画像データを容易に取得可能とする。 画像データを符号化して得られたビデオストリームを含むコンテナを受信する。ビデオストリームを復号化して画像データを得、この画像データから表示用画像データを得る。ビデオストリームのレイヤには、画像データの切出し位置を示す切出し位置情報が挿入されている。コンテナのレイヤには、表示能力との関連で切出し位置情報による画像データの切出しを必須とするか否かを示す指示情報が挿入されている。表示用画像データを得る際に、指示情報に基づいて切出し位置情報を選択的に使用する。

Description

受信装置、受信方法、送信装置および送信方法
 本技術は、受信装置、受信方法、送信装置および送信方法に関し、詳しくは、切出し位置情報が挿入されたビデオストリームを受け取って処理する受信装置等に関する。
 近時、VR(Virtual Reality)コンテンツの配信が考えられている。例えば、特許文献1には、バック・ツー・バック(Back to Back)方式で撮像を行って180°以上の視野角を持つ超広視野角の前面画像および後面画像を得、これらの2つの画像から正距円筒画像を作成して通信端末に送信することが記載されている。ここで、180°以上の視野角を持つ超広視野角の前面画像および後面画像は球面キャプチャ画像(360°VR画像)を構成し、正距円筒法は平面パッキングの方法の一つである。
特開2016-194784号公報
 VRコンテンツの配信は、VR表示対応受信機でその効果を発揮する。しかし、従来のVR表示非対応受信機がVRコンテンツを受信する場合の配慮を行わないと、このVR表示非対応受信機では歪んだ画像が表示されることになる。従来のVR表示非対応受信機に対する後方互換性を確保する必要がある。
 本技術の目的は、受信画像データに対応した表示能力を持たない受信機においても適切な表示用画像データを容易に取得可能とすることにある。
 本技術の概念は、
 画像データを符号化して得られたビデオストリームを含むコンテナを受信する受信部と、
 上記ビデオストリームを復号化して画像データを得、該画像データから表示用画像データを得る処理部を備え、
 上記ビデオストリームのレイヤには、画像データの切出し位置を示す切出し位置情報が挿入されており、
 上記コンテナのレイヤには、表示能力との関連で上記切出し位置情報による画像データの切出しを必須とするか否かを示す指示情報が挿入されており、
 上記処理部は、上記指示情報に基づいて上記切出し位置情報を選択的に使用する
 受信装置にある。
 本技術において、受信部により、画像データを符号化して得られたビデオストリームを含むコンテナが受信される。処理部により、ビデオストリームが復号化されて画像データが得られ、この画像データが処理されて表示用画像データが得られる。ここで、ビデオストリームのレイヤには、画像データの切出し位置を示す切出し位置情報が挿入されている。また、コンテナのレイヤには、表示能力との関連で切出し位置情報による画像データの切出しを必須とするか否かを示す指示情報が挿入されている。
 処理部では、指示情報に基づいて切出し位置情報が選択的に使用される。例えば、処理部は、指示情報に基づいて切出し位置情報による切出しが必須であると判断するとき、ビデオストリームを復号化して得られた画像データから切出し位置情報で示される位置の画像データを切出して表示用画像データを得る、ようにされてもよい。
 例えば、画像データは、球面キャプチャ画像の一部または全部を切り取って平面パッキングして得られた長方形のプロジェクション画像の画像データである、ようにされてもよい。そして、この場合、例えば、コンテナのレイヤおよび/またはビデオストリームのレイヤに、プロジェクション画像のレンダリング用メタ情報が挿入されており、切出し位置情報で示される切出し位置の中心はレンダリング用メタ情報で示されるプロジェクション画像の基準点と一致する、ようにされてもよい。
 例えば、プロジェクション画像は、基準点を中心位置とするデフォルトリージョンを含む複数のリージョンからなり、切出し位置情報で示される位置は、デフォルトリージョンの位置と一致する、ようにされてもよい。また、例えば、レンダリング用メタ情報は、プロジェクション画像の基準点の位置情報を持つ、ようにされてもよい。また、例えば、レンダリング用メタ情報は、切出し位置情報で示される切出し位置の中心はレンダリング用メタ情報で示されるプロジェクション画像の基準点と一致することを示す後方互換性情報を持つ、ようにされてもよい。
 例えば、コンテナのレイヤに、ビデオストリームに対応付けて、指示情報が記述されたデスクリプタが挿入されている、ようにされてもよい。この場合、例えば、コンテナは、ISOBMFFであり、デスクリプタは、moovボックスに挿入されている、ようにされてもよい。また、この場合、例えば、コンテナは、MPEG2-TSであり、デスクリプタは、プログラム・マップ・テーブルに挿入されている、ようにされてもよい。また、この場合、例えば、コンテナは、MMTストリームであり、デスクリプタは、MMT・パッケージ・テーブルに挿入されている、ようにされてもよい。
 このように本技術においては、コンテナに含まれるビデオストリームを復号化して得られた画像データから表示用画像データを得る際に、コンテナのレイヤに挿入されている指示情報に基づいて、ビデオストリームのレイヤに挿入されている切出し位置情報を選択的に使用するものである。そのため、受信画像データに対応した表示能力を持たない受信機においても適切な表示用画像データを容易に取得可能となる。
 また、本技術の他の概念は、
 画像データを符号化して得られたビデオストリームを含むコンテナを生成するコンテナ生成部を備え、
 上記ビデオストリームのレイヤには、画像データの切出し位置を示す切出し位置情報が挿入されており、
 上記コンテナのレイヤに、受信側の表示能力との関連で上記切出し位置情報による画像データの切出しを必須とするか否かを示す指示情報を挿入する情報挿入部と、
 上記指示情報が挿入された上記コンテナを送信する送信部をさらに備える
 送信装置にある。
 本技術において、コンテナ生成部により、画像データを符号化して得られたビデオストリームを含むコンテナが生成される。このビデオストリームのレイヤには、画像データの切出し位置を示す切出し位置情報が挿入されている。情報挿入部により、コンテナのレイヤに、受信側の表示能力との関連で切出し位置情報による画像データの切出しを必須とするか否かを示す指示情報が挿入される。そして、送信部により、指示情報が挿入されたコンテナが送信される。
 このように本技術においては、ビデオストリームのレイヤには画像データの切出し位置を示す切出し位置情報が挿入されており、コンテナのレイヤに、受信側の表示能力との関連で切出し位置情報による画像データの切出しを必須とするか否かを示す指示情報を挿入するものである。そのため、受信側においては、コンテナに含まれるビデオストリームを復号化して得られた画像データから表示用画像データを得る際に、指示情報に基づいて切出し位置情報を選択的に使用でき、受信画像データに対応した表示能力を持たなくても適切な表示用画像データを容易に取得可能となる。
 本技術によれば、受信画像データに対応した表示能力を持たない受信機においても適切な表示用画像データを容易に取得できる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
MPEG-DASHベースのストリーム配信システムの構成例を示すブロック図である。 MPDファイルに階層的に配置されている各構造体の関係の一例を示す図である。 実施の形態としての送受信システムの構成例を示すブロック図である。 送受信システムのシステム全体の構成例を概略的に示す図である。 球面キャプチャ画像からプロジェクション画像を得る平面パッキングを説明するための図である。 HEVCの符号化におけるSPS NALユニットの構造例を示す図である。 切出し位置の中心O(p,q)をプロジェクション画像の基準点RP(x,y)と一致させることを説明するための図である。 切出し位置情報で示される位置をデフォルトリージョンの位置と一致させることを説明するための図である。 レンダリングメタデータの構造例を示す図である。 図9の構造例における各情報を説明するための図である。 レンダリングメタデータの他の構造例を示す図である。 図11の構造例における各情報を説明するための図である。 図9、図11に示す構造例における主要な情報の内容を示す図である。 コンポーネントデスクリプタの構造例と、その構造例における主要な情報の内容を示す図である。 ディスプレイ・ウインドウ・アクティベートデスクリプタの構造例と、その構造例における主要な情報の内容を示す図である。 配信ストリームとしてのMP4ストリームの一例を示す図である。 MPDファイルの記述例を示す図である。 “SupplementaryDescriptor”の「Value」セマンティスクスを示す図である。 受信機タイプによるVRサービスストリームの受信可否とVR表示の可否を示す図である。 プロジェクション画像に対するVR表示対応受信機およびVR表示非対応受信機の処理を説明するための図である。 サービス送信システムの構成例を示すブロック図である。 サービス受信機(VR表示対応受信機)の構成例を示すブロック図である。 サービス受信機(VR表示対応受信機)における表示切り替えシーケンスを示す図である。 サービス受信機(VR表示非対応受信機)の構成例を示すブロック図である。 トランスポートストリームの構成例を示す図である。 MMTストリームの構成例を示す図である。 フォーマットタイプがクロスキュービックであるプロジェクション画像を示す図である。 基準点RP(x,y)の指定および切出し位置「default_display_window」の指定について説明するための図である。 ステレオスコピック画像の場合についての本技術の適用を説明するための図である。 パノラマビュー画像の場合についての本技術の適用を説明するための図である。
 以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明は以下の順序で行う。
 1.実施の形態
 2.変形例
 <1.実施の形態>
 [MPEG-DASHベースのストリーム配信システムの概要]
 最初に、本技術を適用し得るMPEG-DASHベースのストリーム配信システムの概要を説明する。なお、配信は、放送で行ってもよく、あるいは通信で行ってもよい。
 図1(a)は、MPEG-DASHベースのストリーム配信システム30Aの構成例を示している。この構成例では、メディアストリームとMPD(Media Presentation Description )ファイルが、通信ネットワーク伝送路(通信伝送路)を通じて送信される。このストリーム配信システム30Aは、DASHストリームファイルサーバ31およびDASH MPDサーバ32に、N個のサービス受信機33-1,33-2,・・・,33-Nが、CDN(Content Delivery Network)34を介して、接続された構成となっている。
 DASHストリームファイルサーバ31は、所定のコンテンツのメディアデータ(ビデオデータ、オーディオデータ、字幕データなど)に基づいて、DASH仕様のストリームセグメント(以下、適宜、「DASHセグメント」という)を生成し、サービス受信機からのHTTP要求に応じてセグメントを送出する。このDASHストリームファイルサーバ31は、ストリーミング専用のサーバであってもよいし、また、ウェブ(Web)サーバで兼用されることもある。
 また、DASHストリームファイルサーバ31は、サービス受信機33(33-1,33-2,・・・,33-N)からCDN34を介して送られてくる所定ストリームのセグメントの要求に対応して、そのストリームのセグメントを、CDN34を介して、要求元の受信機に送信する。この場合、サービス受信機33は、MPD(Media Presentation Description)ファイルに記載されているレートの値を参照して、クライアントの置かれているネットワーク環境の状態に応じて、最適なレートのストリームを選択して要求を行う。
 DASH MPDサーバ32は、DASHストリームファイルサーバ31において生成されるDASHセグメントを取得するためのMPDファイルを生成するサーバである。コンテンツマネジメントサーバ(図示せず)からのコンテンツメタデータと、DASHストリームファイルサーバ31において生成されたセグメントのアドレス(url)をもとに、MPDファイルを生成する。なお、DASHストリームファイルサーバ31とDASH MPDサーバ32は、物理的に同じものであってもよい。
 MPDのフォーマットでは、ビデオやオーディオなどのそれぞれのストリーム毎にリプレゼンテーション(Representation)という要素を利用して、それぞれの属性が記述される。例えば、MPDファイルには、レートの異なる複数のビデオデータストリーム毎に、リプレゼンテーションを分けてそれぞれのレートが記述される。サービス受信機33では、そのレートの値を参考にして、上述したように、サービス受信機33の置かれているネットワーク環境の状態に応じて、最適なストリームを選択できる。
 図1(b)は、MPEG-DASHベースのストリーム配信システム30Bの構成例を示している。この構成例では、メディアストリームとMPDファイルが、RF伝送路(放送伝送路)を通じて送信される。このストリーム配信システム30Bは、DASHストリームファイルサーバ31およびDASH MPDサーバ32が接続された放送送出システム36と、M個のサービス受信機35-1,35-2,・・・,35-Mとで構成されている。
 このストリーム配信システム30Bの場合、放送送出システム36は、DASHストリームファイルサーバ31で生成されるDASH仕様のストリームセグメント(DASHセグメント)およびDASH MPDサーバ32で生成されるMPDファイルを、放送波に載せて送信する。
 図2は、MPDファイルに階層的に配置されている各構造体の関係の一例を示している。図2(a)に示すように、MPDファイル全体としてのメディア・プレゼンテーション(Media Presentation)には、時間間隔で区切られた複数のピリオド(Period)が存在する。例えば、最初のピリオドはスタートが0秒から、次のピリオドはスタートが100秒から、などとなっている。
 図2(b)に示すように、ピリオドには、複数のアダプテーションセット(AdaptationSet)が存在する。各アダプテーションセットはビデオやオーディオ等のメディアタイプの違いや、同じメディアタイプでも言語の違い、視点の違い等に依存する。図2(c)に示すように、アダプテーションセットには複数のリプレゼンテーション(Representation)が存在する。各リプレゼンテーションはストリーム属性、例えばレートの違い等に依存する。
 図2(d)に示すように、リプレゼンテーションには、セグメントインフォ(SegmentInfo)が含まれている。このセグメントインフォには、図2(e)に示すように、イニシャライゼーション・セグメント(Initialization Segment)と、ピリオドをさらに細かく区切ったセグメント(Segment)毎の情報が記述される複数のメディア・セグメント(Media Segment)が存在する。メディアセグメントには、ビデオやオーディオなどのセグメントデータを実際に取得するためのアドレス(url)の情報等が存在する。
 なお、アダプテーションセットに含まれる複数のリプレゼンテーションの間では、ストリームのスイッチングを自由に行うことができる。これにより、受信側のネットワーク環境の状態に応じて、最適なレートのストリームを選択でき、途切れのないビデオ配信が可能となる。
 [送受信システムの構成例]
 図3は、実施の形態としての送受信システム10の構成例を示している。この送受信システム10は、サービス送信システム100とサービス受信機200により構成されている。この送受信システム10において、サービス送信システム100は、上述の図1(a)に示すストリーム配信システム30AのDASHストリームファイルサーバ31およびDASH MPDサーバ32に対応する。また、この送受信システム10において、サービス送信システム100は、上述の図1(b)に示すストリーム配信システム30BのDASHストリームファイルサーバ31、DASH MPDサーバ32および放送送出システム36に対応する。
 また、この送受信システム10において、サービス受信機200は、上述の図1(a)に示すストリーム配信システム30Aのサービス受信機33(33-1,33-2,・・・,33-N)に対応する。また、この送受信システム10において、サービス受信機200は、上述の図1(b)に示すストリーム配信システム30Bのサービス受信機35(35-1,35-2,・・・,35-M)に対応する。
 サービス送信システム100は、DASH/MP4、つまりメタファイルとしてのMPDファイルと、ビデオやオーディオなどのメディアストリーム(メディアセグメント)が含まれるMP4(ISOBMFF)を、通信ネットワーク伝送路(図1(a)参照)、またはRF伝送路(図1(b)参照)を通じて、送信する。
 この実施の形態においては、メディアストリームとして、長方形のプロジェクション画像(Projection picture)の画像データを符号化して得られたビデオストリームが含まれる。プロジェクション画像は、球面キャプチャ画像の一部または全部を切り取って平面パッキングして得られたものである。
 コンテナのレイヤおよび/またはビデオストリームのレイヤには、プロジェクション画像のレンダリング用メタ情報が挿入されている。レンダリング用メタ情報がビデオストリームのレイヤに挿入されることで、コンテナの種類によらず、レンダリング用メタ情報の動的な変更が可能となる。
 ビデオストリームのレイヤには、画像データの切り出し位置を示す切り出し位置情報が挿入されている。この実施の形態においてはこの切出し位置情報で示される切出し位置の中心は、レンダリング用メタ情報で示されるプロジェクション画像の基準点と一致するようにされるが、必ずしもこれに限定されるものではない。例えば、プロジェクション画像は、基準点を中心位置とするデフォルトリージョンを含む複数のリージョンからなり、切出し位置情報で示される位置はデフォルトリージョンの位置と一致するようにされる。
 レンダリング用メタ情報は、プロジェクション画像の基準点の位置情報を持っている。また、レンダリング用メタ情報は、後方互換性情報を持っている。この後方互換性情報は、切出し位置情報で示される切出し位置の画像データに歪みがほとんどなく、VR表示非対応受信機に対する後方互換性を確保できることを示すものである。その意味で、この実施の形態では、後方互換性情報は、切出し位置情報で示される切出し位置の中心はレンダリング用メタ情報で示されるプロジェクション画像の基準点と一致することを示している。
 MPDファイルには、コンテナおよび/またはビデオストリームのレイヤにレンダリング用メタ情報の挿入があることを示す識別情報、後方互換性情報、さらにはプロジェクション画像のフォーマットタイプ情報が挿入されている。
 また、コンテナのレイヤには、VR表示能力との関連で切出し位置情報による画像データの切り出しを必須とするか否かを示す指示情報が挿入されている。この場合、コンテナのレイヤに、ビデオストリームに対応付けて、指示情報が記述されたデスクリプタが挿入されている。
 サービス受信機200は、サービス送信システム100から通信ネットワーク伝送路(図1(a)参照)またはRF伝送路(図1(b)参照)を通じて送られてくる上述のMP4(ISOBMFF)を受信する。サービス受信機200は、MPDファイルから、ビデオストリームに関するメタ情報を取得する。
 また、サービス受信機200は、VR表示対応受信機であるときは、MPDファイルから、さらに、コンテナおよび/またはビデオストリームのレイヤにレンダリング用メタ情報の挿入があることを示す識別情報、後方互換性情報、さらにはプロジェクション画像のフォーマットタイプ情報を取得する。
 サービス受信機200は、VR表示対応受信機であるとき、ビデオストリームを復号化してプロジェクション画像を得、このプロジェクション画像をレンダリング用メタ情報に基づいてレンダリングしてレンダリング画像(第1の表示画像)を得る。なお、この実施の形態において、サービス受信機200は、VR表示対応受信機であるときは、さらに、プロジェクション画像から切出し位置情報に基づいて切出して部分画像(第2の表示画像)を得て、レンダリング画像あるいは切出し画像を選択的に表示する。なお、切出し画像(第2の表示画像)は、プロジェクション画像から切出し位置情報に基づいて切出して得られるものであり、比較的歪みの少ない画像とすることが可能となる。
 また、サービス受信機200は、VR表示非対応受信機であるとき、ビデオストリームを復号化してプロジェクション画像を得、コンテナのレイヤに挿入されている指示情報に基づいて、切出し位置情報による切出しが必須であると判断し、このプロジェクション画像から切出し位置情報に基づいて切出して切出し画像(第2の表示画像)を得る。
 上述したように、この実施の形態においては、挿入されている切出し位置情報で示される切出し位置の中心は、レンダリング用メタ情報で示されるプロジェクション画像の基準点と一致するようにされている。そのため、切出し画像はレンダリング画像と共通のものとなり、従ってVR表示対応受信機とVR表示非対応受信機との間で共通の画像が得られる。
 図4は、送受信システム10のシステム全体の構成例を概略的に示している。サービス送信システム100は、カメラ102と、平面パッキング部103と、ビデオエンコーダ104と、コンテナエンコーダ105を有している。
 カメラ102は、被写体を撮像して、球面キャプチャ画像(360°VR画像)の画像データを得る。例えば、カメラ102は、バック・ツー・バック(Back to Back)方式で撮像を行って、球面キャプチャ画像として、それぞれ魚眼レンズを用いて撮像された180°以上の視野角を持つ、超広視野角の前面画像および後面画像を得る。
 平面パッキング部103は、カメラ102で得られた球面キャプチャ画像の一部または全部を切り取って平面パッキングして長方形のプロジェクション画像(Projection picture)を得る。この場合、プロジェクション画像のフォーマットタイプとしては、例えば、エクイレクタングラー(Equirectangular)、クロスキュービック(Cross-cubic)などが選択される。なお、平面パッキング部では、プロジェクション画像に必要に応じてスケーリングを施し、所定の解像度のプロジェクション画像を得る。
 図5(a)は、カメラ102で得られる球面キャプチャ画像としての、超広視野角の前面画像および後面画像の一例を示している。図5(b)は、平面パッキング部103で得られるプロジェクション画像の一例を示している。この例は、プロジェクション画像のフォーマットタイプがエクイレクタングラーである場合の例である。また、この例は、図5(a)に示す各画像において破線で示す緯度で切出した場合の例である。図5(c)は、スケーリング後のプロジェクション画像の一例を示している。
 図4に戻って、ビデオエンコーダ104は、平面パッキング部103からのプロジェクション画像の画像データに対して、例えば、HEVCなどの符号化を施して符号化画像データを得、この符号化画像データを含むビデオストリームを生成する。ビデオストリームのSPS NALユニットには、切出し位置情報が挿入されている。例えば、HEVCの符号化では「default_display_window」が対応する。
 図6は、HEVCの符号化におけるSPS NALユニットの構造例(Syntax)を示している。「pic_width_in_luma_samples」のフィールドは、プロジェクション画像の水平方向の解像度(画素サイズ)を示している。「pic_height_in_luma_samples」のフィールドは、プロジェクション画像の垂直方向の解像度(画素サイズ)を示している。そして、「default_display_window_flag」が立っているとき、切出し位置情報「default_display_window」が存在する。この切出し位置情報は、デコード画像の左上を基点(0,0)としたオフセット情報とされる。
 「def_disp_win_left_offset」のフィールドは、切出し位置の左端位置を示している。「def_disp_win_right_offset」のフィールドは、切出し位置の右端位置を示している。「def_disp_win_top_offset」のフィールドは、切出し位置の上端位置を示している。「def_disp_win_bottom_offset」のフィールドは、切出し位置の下端位置を示している。
 この実施の形態において、この切出し位置情報で示される切出し位置の中心は、プロジェクション画像の基準点と一致するようにされる。ここで、切出し位置の中心をO(p,q)とすると、p,qは、それぞれ、以下の数式で表される。
 p = ( def_disp_win_right_offset - def_disp_win_left_offset ) * 1/2
                         + def_disp_win_left_offset
 q = ( def_disp_win_bottom_offset - def_disp_win_top_offset ) * 1/2
                         + def_disp_win_top_offset
 図7は、切出し位置の中心O(p,q)がプロジェクション画像の基準点RP(x,y)と一致するようにされることを示している。図示の例において、「projection_pic_size_horizontal」はプロジェクション画像の水平画素サイズを示し、「projection_pic_size_vertical」はプロジェクション画像の垂直画素サイズを示している。なお、VR表示対応受信機ではプロジェクション画像をレンダリングして表示ビュー(表示画像)を得ることが可能とされるが、デフォルトビューは基準点RP(x,y)を中心としたものとされる。
 この場合、例えば、プロジェクション画像が、基準点RP(x,y)を中心位置とするデフォルトリージョンを含む複数のリージョンからなるとき、切出し位置情報で示される位置はデフォルトリージョンの位置と一致するようにされる。この場合、切出し位置情報で示される切出し位置の中心O(p,q)は、プロジェクション画像の基準点RP(x,y)と一致する。
 図8(a)は、切出し位置情報で示される位置がデフォルトリージョンの位置と一致するようにされることを示している。図示の例においては、プロジェクション画像はリージョン0(Region 0)からリージョン8(Region 8)までの9つのリージョンからなっており、リージョン4(Region 4)がデフォルトリージョンであるとする。VR表示対応受信機ではプロジェクション画像をレンダリングして表示ビュー(表示画像)を得ることが可能とされ、表示ビューをリージョンの指定で切り替えることが可能であるが、デフォルトビューはデフォルトリージョンに対応したものとされる。
 図8(b)は、切出し位置情報がデフォルトリージョン位置情報に基づいてどのように設定されるかを示している。切出し位置の上端位置「def_disp_win_top_offset」は、デフォルトリージョンの上端位置「proj_reg_top」と等しくされる。また、切出し位置の左端位置「def_disp_win_left_offset」は、デフォルトリージョンの左端位置「proj_reg_left」と等しくされる。また、切出し位置の下端位置「def_disp_win_bottom_offset」は、デフォルトリージョンの上端位置「proj_reg_top」にデフォルトリージョンの垂直サイズ「proj_reg_height」が加算されたものと等しくされる。また、切出し位置の右端位置「def_disp_win_right_offset」は、デフォルトリージョンの左端位置「proj_reg_left」にデフォルトリージョンの水平サイズ「proj_reg_width」が加算されたものと等しくされる。
 図4に戻って、ビデオエンコーダ104は、アクセスユニット(AU)の“SEIs”の部分に、レンダリングメタデータ(レンダリング用メタ情報)を持つSEIメッセージ(SEI message)を挿入する。図9は、レンダリングメタデータ(Rendering_metadata)の構造例(Syntax)を示している。この例は、基準点RP(x,y)の位置情報を伝送する例である。また、図11は、レンダリングメタデータ(Rendering_metadata)の他の構造例(Syntax)を示している。この例は、基準点RP(x,y)の位置情報を伝送しない例である。図13は、各構造例における主要な情報の内容(Semantics)を示している。
 最初に、図9のレンダリングメタデータの構造例について説明する。「rendering_metadata_id」の16ビットフィールドは、レンダリングメタデータ構造体を識別するIDである。「rendering_metadata_length」の16ビットフィールドは、レンダリングメタデータ構造体バイトサイズを示す。
 「start_offset_sphere_latitude」、「start_offset_sphere_longitude」、「end_offset_sphere_latitude」、「end_offset_sphere_longitude」の各16ビットフィールドは、球面キャプチャ画像を平面パッキングする場合の切り取り範囲の情報を示す(図10(a)参照)。「start_offset_sphere_latitude」のフィールドは、球面からの切り取り開始オフセットの緯度(垂直方向)を示す。「start_offset_sphere_longitude」のフィールドは、球面からの切り取り開始オフセットの経度(水平方向)を示す。「end_offset_sphere_latitude」のフィールドは、球面からの切り取り終了オフセットの緯度(垂直方向)を示す。「end_offset_sphere_longitude」のフィールドは、球面からの切り取り終了オフセットの経度(水平方向)を示す。
 「projection_pic_size_horizontal」、「projection_pic_size_vertical」の各16ビットフィールドは、プロジェクション画像(projection picture)のサイズ情報を示す(図10(b)参照)。「projection_pic_size_horizontal」のフィールドは、プロジェクション画像のサイズでトップ・レフト(top-left)からの水平画素カウントを示す。「projection_pic_size_vertical」のフィールドは、プロジェクション画像のサイズでトップ・レフト(top-left)からの垂直画素カウントを示す。
 「scaling_ratio_horizontal」、「scaling_ratio_vertical」の各16ビットフィールドは、プロジェクション画像の元のサイズからのスケーリング比を示す(図5(b)、(c)参照)。「scaling_ratio_horizontal」のフィールドは、プロジェクション画像の元のサイズからの水平スケーリング比を示す。「scaling_ratio_vertical」のフィールドは、プロジェクション画像の元のサイズからの垂直スケーリング比を示す。
 「reference_point_horizontal」、「reference_point_vertical」の各16ビットフィールドは、プロジェクション画像の基準点RP(x,y)の位置情報を示す(図10(b),(c)参照)。「reference_point_horizontal」のフィールドは、基準点RP(x,y)の水平画素位置“x”を示す。「reference_point_vertical」のフィールドは、基準点RP(x,y)の垂直画素位置“y”を示す。
 図10(b)に示すように、プロジェクション画像にリージョンが設定されていない場合、基準点RP(x,y)を指定して、デフォルトビューの中心とする。一方、図10(c)に示すように、プロジェクション画像にリージョンが設定される場合、基準点RP(x,y)がデフォルトリージョンの中心となるようにリージョン位置を定義する。
 「format_type」の5ビットフィールドは、プロジェクション画像のフォーマットタイプを示す。例えば、“0”はエクイレクタングラー(Equirectangular)を示し、“1”はクロスキュービック(Cross-cubic)を示し、“2”はパーティションド・クロスキュービック(partitioned cross cubic)を示す。
 「backwardcompatible」の1ビットフィールドは、後方互換性の設定がなされているかどうか、つまりビデオストリームのレイヤに挿入される切出し位置情報で示される切出し位置の中心O(p,q)がプロジェクション画像の基準点RP(x,y)と一致するように設定されているか否かを示す。例えば、“0”は後方互換性の設定がなされていないことを示し、“1”は後方互換性の設定がなされていることを示す。
 「number_of_regions」の8ビットフィールドは、プロジェクション画像の中のリージョン数を示す。リージョン数が2以上であるとき、「region_id[i]」、「start_offset_horizontal_region[i]」、「start_offset_vertical_region[i]」、「width_region[i]」、「height_region[i]」、「default_region_flag[i]」の各フィールドが、その数だけ繰り返し存在する。
 「region_id[i]」の8ビットフィールドは、リージョンの識別番号を示す。「start_offset_horizontal_region[i]」の16ビットフィールドは、i番目のリージョンの水平開始画素オフセットを示す。「start_offset_vertical_region[i]」の16ビットフィールドは、i番目のリージョンの垂直開始画素オフセットを示す。
 「width_region[i]」の16ビットフィールドは、i番目のリージョンの水平幅を画素数で示す。「height_region[i]」の16ビットフィールドは、i番目のリージョンの垂直幅を画素数で示す。「default_region_flag[i]」の1ビットフィールドは、デフォルトリージョンであるか否かを示す。例えば、“0”はデフォルトリージョンでないことを示し、“1”はデフォルトリージョンであることを示す。
 次に、図11のレンダリングメタデータの構造例について説明する。「rendering_metadata_id」の16ビットフィールドは、レンダリングメタデータ構造体を識別するIDである。「rendering_metadata_length」の16ビットフィールドは、レンダリングメタデータ構造体バイトサイズを示す。
 「start_offset_sphere_latitude」、「start_offset_sphere_longitude」、「end_offset_sphere_latitude」、「end_offset_sphere_longitude」の各16ビットフィールドは、図9の構造例と同様に、球面キャプチャ画像を平面パッキングする場合の切り取り範囲を示す(図12(a)参照)。「projection_pic_size_horizontal」、「projection_pic_size_vertical」の各16ビットフィールドは、図9の構造例と同様に、プロジェクション画像(projection picture)のサイズ情報を示す(図12(b)参照)。「scaling_ratio_horizontal」、「scaling_ratio_vertical」の各16ビットフィールドは、図9の構造例と同様に、プロジェクション画像の元のサイズからのスケーリング比を示す(図5(b)、(c)参照)。
 「format_type」の5ビットフィールドは、プロジェクション画像のフォーマットタイプを示す。「backwardcompatible」の1ビットフィールドは、後方互換性の設定がなされているかどうかを示す。「number_of_regions」の8ビットフィールドは、プロジェクショ画像の中のリージョン数を示す。リージョン数が2以上であるとき、図9の構造例と同様に、「region_id[i]」、「start_offset_horizontal_region[i]」、「start_offset_vertical_region[i]」、「width_region[i]」、「height_region[i]」、「default_region_flag[i]」の各フィールドが、その数だけ繰り返し存在する。
 図11に示す構造例においては、図9に示す構造例から、プロジェクション画像の基準点RP(x,y)の位置情報を示す「reference_point_horizontal」、「reference_point_vertical」の各16ビットフィールが除かれたものである。
 プロジェクション画像にリージョンが設定されていない場合、図12(b)に示すように、プロジェクション画像の中心を基準点RP(x,y)、従ってデフォルトビューの中心と見なす。一方、プロジェクション画像にリージョンが設定されていない場合、図12(c)に示すように、デフォルトリージョンの中心が基準点RP(x,y)となるようにリージョン位置を定義する。
 図4に戻って、コンテナエンコーダ105は、ビデオエンコーダ104で生成されたビデオストリームを含むコンテナ、ここではMP4ストリームを、配信ストリームSTMとして生成する。この場合、コンテナエンコーダ105は、コンテナのレイヤに、レンダリングメタデータ(図9、図11参照)を挿入する。なお、この実施の形態においては、ビデオストリームのレイヤとコンテナのレイヤの双方にレンダリングメタデータを挿入するものであるが、いずれか一方のみに挿入することも考えられる。
 また、コンテナエンコーダ105は、コンテナのレイヤに、ビデオストリームに対応付けて、種々の情報を持つデスクリプタを挿入する。このデスクリプタとして、従来周知のコンポーネントデスクリプタ(component_descriptor)が存在し、さらに新規定義するディスプレイ・ウインドウ・アクティベートデスクリプタ(display_window_activate_descriptor)が存在する。
 図14(a)は、コンポーネントデスクリプタの構造例(syntax)を示し、図14(b)は、その構造例における主要な情報の内容(semantics)を示している。「stream_content」の4ビットフィールドは、ビデオ・オーディオ・サブタイトルの符号化方式を示す。この実施の形態では、“0x9”とされ、HEVC符号化であることが示される。
 「stream_content_ext」の4ビットフィールドは、上述の「stream_content」との組み合わせで用いることで、符号化内容の詳細を示す。この実施の形態では、“0x2”とされ、“VR Partial displaying Service”であること、つまりVRサービスであって部分的に切り取って見ることができるサービスであることが示される。
 「component_type」の8ビットフィールドは、各符号化方式の中のバリエーションを示す。この実施の形態では、例えば、“UHD 16:9”であることが示される。なお、「stream_content_ext」が“0x2”であって“VR Partial displaying Service”である場合に、ディスプレイ・ウインドウ・アクティベートデスクリプタが配置される。
 図15(a)は、ディスプレイ・ウインドウ・アクティベートデスクリプタの構造例(syntax)を示し、図15(b)は、その構造例における主要な情報の内容(semantics)を示している。「display_window_activate_flag」の1ビットフィールドは、VR表示能力との関連で切出し位置情報による切出しが必須であるか否かを示す指示情報である。例えば、“1”は、VR表示非対応受信機が部分表示を行う場合、ビデオストリームVUIの「default_display_window」に応じた切出しを必須とすることを示し、“0”は、「default_display_window」に応じた切出しを必須としないことを示す。
 ここで、「display_window_activate_flag」が“1”である場合、ビデオストリームVUIの「default_display_window_flag」(図6参照)は“1”に設定され、「default_display_window」を含むようにされる。なお、「cropping_window_flag」は、常に、0とされる。
 このようにコンテナエンコーダ105で得られたMP4の配信ストリームSTMは、放送波あるいはネットのパケットに載せて、サービス受信機200A,200Bに送信される。
 図16は、配信ストリームSTMとしてのMP4ストリームの一例を示している。一般の放送など、送信の途中から画音が出るように、サービスストリーム全体がフラグメント化されて送信される。各ランダムアクセス期間は、イニシャライゼーション・セグメント(IS:initialization segment)から始まり、それに、“styp”、“sidx(Segment index box)”、“ssix(Sub-segment index box)”、“moof(Movie fragment box)”、“mdat(Media data box)”のボックスが続いた構成となっている。
 イニシャライゼーション・セグメント(IS)は、ISOBMFF(ISO Base Media File Format)に基づくボックス(Box)構造を持つ。先頭に、ファイルタイプ(File type)を示す“ftyp”ボックスが配置され、それに続いて制御用の“moov”ボックスが配置されている。詳細説明は省略するが、この“moov”ボックス内に、“trak”ボックス、“mdia”ボックス、“minf”ボックス、“stbl”ボックス、“stsd”ボックスおよび“schi”ボックスが階層的に配置される。そして、この“schi”ボックスに、レンダリングメタデータ(図9、図11参照)、コンポーネントデスクリプタ(図14参照)およびディスプレイ・ウインドウ・アクティベートデスクリプタ(図15参照)あるいはそれらのデスクリプタに含まれる要素が挿入される。
 “styp”ボックスにはセグメントタイプ情報が入る。 “sidx”ボックスには、各トラック(track)のレンジ情報が入り、“moof”/“mdat”の位置が示され、“mdat”内の各サンプル(ピクチャ)の位置も示される。“ssix”ボックスには、トラック(track)の区分け情報が入り、I/P/Bタイプの区分けがされる。
 “moof”ボックスには制御情報が入る。“mdat”ボックスにはビデオ、オーディオなどの信号(伝送メディア)の実体そのものが入る。“moof”ボックスと“mdat”ボックスによりムービーフラグメント(Movie fragment)が構成されている。1つのムービーフラグメントの“mdat”ボックスには、伝送メディアがフラグメント化(断片化)されて得られた断片が入るので、“moof”ボックスに入る制御情報はその断片に関する制御情報となる。
 各ムービーフラグメントの“mdat”ボックスには、プロジェクション画像の符号化画像データ(アクセスユニット)が所定ピクチャ数分、例えば1GOP(Group of picture)分だけ配置される。ここで、各アクセスユニットは、「VPS」、「SPS」、「PPS」、「PSEI」、「SLICE」、「SSEI」などのNALユニットにより構成される。なお、「VPS」、「SPS」は、例えば、GOPの先頭ピクチャに挿入される。
 SPS NALユニットには、切出し位置情報としての「default_display_window」の情報が挿入される(図6参照)。また、「SSEI」のNALユニットとして、レンダリングメタデータ(Rendering_metadata)(図9、図11参照)を持つSEIメッセージが挿入される。
 図17は、MPDファイルの記述例を示している。ここでは、説明の簡単化のためにビデオストリームに関する情報のみが記述されている例を示しているが、実際には他のメディアストリームに関する情報も記述されている。図18は、“SupplementaryDescriptor”の「Value」セマンティスクスを示している。
 「<AdaptationSet mimeType=“video/mp4” codecs=“hev1.xx.xx.Lxxx,xx”」の記述により、ビデオストリームに対するアダプテーションセット(AdaptationSet)が存在し、そのビデオストリームはMP4ファイル構造で供給され、LxxxのレベルのHEVCのビデオストリーム(符号化画像データ)の存在が示されている。
 このMPDファイルには、ビデオストリームに対応したリプレゼンテーション(Representation)が存在する。このリプレゼンテーションにおいて、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:video:renderingmetadata” value=“1”/>」の記述により、レンダリングメタデータ(Rendering_metadata)の存在が示される。
 また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:video:projectiontype” value=“0”/>」の記述により、プロジェクション画像のフォーマットタイプがエクイレクタングラー(Equirectangular)であることが示される。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:video:backwardcompatible” value=“1”/>」の記述により、後方互換性の設定がなされていること、つまりビデオストリームのレイヤに挿入される切出し位置情報で示される切出し位置の中心O(p,q)がプロジェクション画像の基準点RP(x,y)と一致するように設定されていることが示される。
 また、「width=“” height=“” frameRate=“”」、「codecs="hev1.xx.xx.Lxxx,xx"」、「level= “0”」の記述により、解像度、フレームレート、コーデックの種類が示され、タグ情報としてレベル“0”が付与されることが示され、さらにビデオストリーム(符号化ストリーム)のレベルが“Lxxx”であることが示される。また、「<BaseURL>videostreamVR.mp4</BaseURL>」の記述により、このビデオストリームのロケーション先が、「videostreamVR.mp4」として示されている。
 図4に戻って、サービス受信機200Aは、VR表示対応受信機である。このサービス受信機200Aは、VRサービスストリーム(HEVC UHD 16:9 VR Partial displaying Service)の受信が可能であって、VR表示にも対応している。つまり、このサービス受信機200Aは、レンダリングによる表示をする。なお、VRサービスストリームであることは、上述したように、コンポーネントデスクリプタ(図14参照)の「stream_content_ext」、「stream_content」、「component_type」のフィールドで判断される。
 また、サービス受信機200Bは、VR表示非対応受信機である。このサービス受信機200Bは、VRサービスストリームの受信は可能であるが、レンダリングによる表示は行うことができず、切出しによる部分画像表示をする。この場合、サービス受信機200は、ディスプレイ・ウインドウ・アクティベートデスクリプタ(図15参照)の「display_window_activate_flag」が“1”であるか“0”であるかに応じた切出しをする。
 すなわち、サービス受信機200Bは、「display_window_activate_flag」が“1”であるときは、ビデオストリームVUIの「default_display_window」の切出し位置情報に基づいた切出しをする。一方、サービス受信機200Bは、「display_window_activate_flag」が“0”であるときは、「default_display_window」の切出し位置情報に制約されることなく切出しを行い得る。
 図19は、受信機タイプによるVRサービスストリームの受信可否とVR表示の可否を示している。VRサービスストリームは、コンポーネントデスクリプタでVRサービスストリームであることを識別でき、VRサービス受信可能な受信機は受信するが、VRサービス受信非対応の受信機は受信しない。
 また、VRサービス受信可能な受信機のうち、VR表示対応受信機(サービス受信機200A)は、レンダリングによる表示をする。一方、VRサービス受信可能な受信機のうち、VR表示非応受信機(サービス受信機200B)は、切出しによる部分画像表示をするが、ディスプレイ・ウインドウ・アクティベートデスクリプタで切出し位置情報「default_display_window」に応じた切出しが必須か否かの指示がされる。
 図4に戻って、VR表示対応受信機であるサービス受信機200Aは、コンテナデコーダ203と、ビデオデコーダ204と、レンダラ205を有している。コンテナデコーダ203は、受信されたMP4の配信ストリームSTMからビデオストリームを取り出し、ビデオデコーダ204に送る。
 ビデオデコーダ204は、コンテナデコーダ203で取り出されたビデオストリームに復号化処理を施して、プロジェクション画像(画像データ)を得る。レンダラ205は、コンテナおよび/またはビデオストリームのレイヤに挿入されているレンダリングメタデータ(レンダリング用メタ情報)に基づいて、プロジェクション画像(画像データ)にレンダリング処理を施して、レンダリング画像(画像データ)を得る。
 この場合、レンダラ205は、プロジェクション画像の基準点RP(x,y)を中心とするデフォルトビューに対応したレンダリング画像を生成する他、ユーザ操作あるいはユーザの動作に応じて他のビューに対応したレンダリング画像も生成し得る。例えば、プロジェクション画像が複数のリージョンからなる場合、デフォルトリージョンに対応したデフォルトビューのレンダリング画像を生成する他、ユーザにより指定された他のリージョンに対応したビューのレンダリング画像も生成し得る。
 なお、図示していないが、サービス受信機200Aは、プロジェクション画像(画像データ)から、ビデオストリームのレイヤに挿入される切出し位置情報で切出し処理をして部分画像(画像データ)を得ることも可能とされる。そして、サービス受信機200Aにおいては、ユーザの切り替え操作に応じて、表示画像としてレンダリング画像または切出し画像を選択的に表示できる。
 また、VR表示非対応受信機であるサービス受信機200Bは、コンテナデコーダ233と、ビデオデコーダ234と、パーシャルピクチャ部235を有している。コンテナデコーダ233は、受信されたMP4の配信ストリームSTMからビデオストリームを取り出し、ビデオデコーダ234に送る。
 ビデオデコーダ234は、コンテナデコーダ233で取り出されたビデオストリームに復号化処理を施して、プロジェクション画像(画像データ)を得る。パーシャルピクチャ部235は、プロジェクション画像(画像データ)から、切出し処理をして、切出し画像(画像データ)を得る。この場合、ディスプレイ・ウインドウ・アクティベートデスクリプタの「display_window_activate_flag」が“1”であるときは、ビデオストリームVUIの「default_display_window」の切出し位置情報に基づいた切出しをする。サービス受信機200Bにおいては、この切出し画像を表示できる。
 図20(a)は、ビデオデコーダ204,234の出力であるプロジェクション画像の一例を示している。ここで、ビデオストリームのレイヤに挿入される切出し位置情報で示される切出し位置「default_display_window」の中心O(p,q)は、プロジェクション画像の基準点RP(x,y)と一致するようにされている。
 図20(b)は、VR表示対応受信機であるサービス受信機200Aにおいて、プロジェクション画像を処理して得られたレンダリング画像あるいは切出し画像を選択的に表示できることを示している。ここで、レンダリング画像は、プロジェクション画像にレンダリング処理を施して得られたものである。そして、デフォルトのレンダリング画像は、プロジェクション画像の基準点RP(x,y)を中心とするデフォルトビューに対応したものとなる。また、切出し画像は、プロジェクション画像から切出し位置「default_display_window」の領域が切出されて得られたものである。
 図20(c)は、VR表示非対応受信機であるサービス受信機200Bにおいて、切出し画像を表示できることを示している。図示の例では、この切出し画像は、プロジェクション画像から切出し位置「default_display_window」の領域が切出されて得られたものである。
 上述したように切出し位置「default_display_window」の中心O(p,q)はプロジェクション画像の基準点RP(x,y)と一致する。そのため、サービス受信機200Bにおいてプロジェクション画像から切出し位置「default_display_window」の領域を切り出す場合には、サービス受信機200Aで表示されるデフォルトビューに対応したレンダリング画像とサービス受信機200Bで表示される切出し画像は共通の画像となる。つまり、VR表示対応受信機であるサービス受信機200AとVR表示非対応受信機であるサービス受信機200Bとの間で共通の画像を得ることができる。
 「サービス送信システムの構成例」
 図21は、サービス送信システム100の構成例を示している。このサービス送信システム100は、制御部101と、ユーザ操作部101aと、カメラ102と、平面パッキング部103と、ビデオエンコーダ104と、コンテナエンコーダ105と、送信部106を有している。
 制御部101は、CPU(Central Processing Unit)を備えて構成され、制御プログラムに基づいて、サービス送信システム100の各部の動作を制御する。ユーザ操作部101aは、ユーザが種々の操作を行うためのキーボード、マウス、タッチパネル、リモコンなどである。
 カメラ102は、被写体を撮像して、球面キャプチャ画像(360°VR画像)の画像データを得る。例えば、カメラ102は、バック・ツー・バック(Back to Back)方式で撮像を行って、球面キャプチャ画像として、それぞれ魚眼レンズを用いて撮像された180°以上の視野角を持つ、超広視野角の前面画像および後面画像を得る(図5(a)参照)。
 平面パッキング部103は、カメラ102で得られた球面キャプチャ画像の一部または全部を切り取って平面パッキングして長方形のプロジェクション画像(Projection picture)を得る(図5(b)参照)。この場合、プロジェクション画像のフォーマットタイプとしては、例えば、エクイレクタングラー(Equirectangular)、クロスキュービック(Cross-cubic)などが選択される。なお、平面パッキング部では、プロジェクション画像に必要に応じてスケーリングを施し、所定の解像度のプロジェクション画像を得る(図5(c)参照)。
 ビデオエンコーダ104は、平面パッキング部103からのプロジェクション画像の画像データに対して、例えばHEVCなどの符号化を施して符号化画像データを得、この符号化画像データを含むビデオストリームを生成する。ビデオストリームのSPS NALユニットには、切出し位置情報が挿入されている(図6の「default_display_window」の情報参照)。
 ここで、切出し位置情報で示される切出し位置の中心O(p,q)は、プロジェクション画像の基準点RP(x,y)と一致するようにされる(図7参照)。この場合、例えば、プロジェクション画像が、基準点RP(x,y)を中心位置とするデフォルトリージョンを含む複数のリージョンからなるとき、切出し位置情報で示される位置はデフォルトリージョンの位置と一致するようにされる(図8参照)。この場合、切出し位置情報で示される切出し位置の中心O(p,q)は、プロジェクション画像の基準点RP(x,y)と一致する。
 また、ビデオエンコーダ104は、アクセスユニット(AU)の“SEIs”の部分に、レンダリングメタデータ(レンダリング用メタ情報)を持つSEIメッセージ(SEI message)を挿入する。レンダリング用メタデータには、球面キャプチャ画像を平面パッキングする場合の切り取り範囲の情報、プロジェクション画像の元のサイズからのスケーリング比の情報、プロジェクション画像のフォーマットタイプの情報、切出し位置の中心O(p,q)をプロジェクション画像の基準点RP(x,y)と一致させるという後方互換性の設定がなされているかどうかを示す情報などが挿入されている(図9、図11参照)
 また、レンダリングメタデータに、基準点RP(x,y)の位置情報が挿入される場合(図9参照)と、挿入されない場合(図11参照)がある。挿入されない場合、プロジェクション画像の中心が基準点RP(x,y)とみなされ(図12(b)参照)、あるいはデフォルトリージョンの中心が基準点RP(x,y)とみなされる(図12(c)参照)。
 コンテナエンコーダ105は、ビデオエンコーダ104で生成されたビデオストリームを含むコンテナ、ここではMP4ストリームを、配信ストリームSTMとして生成する(図16参照)。この場合、コンテナエンコーダ105は、コンテナのレイヤに、レンダリングメタデータ(図9、図11参照)を挿入する。
 また、コンテナエンコーダ105は、コンテナのレイヤに、ビデオストリームに対応付けて、種々の情報を持つデスクリプタを挿入する。このデスクリプタとしてコンポーネントデスクリプタ(図14参照)が存在し、さらに新規定義するディスプレイ・ウインドウ・アクティベートデスクリプタ(図15参照)が存在する。コンポーネントデスクリプタには、ビデオストリームがVRサービスストリームであることを示す情報も存在する。また、ディスプレイ・ウインドウ・アクティベートデスクリプタには、VR表示能力との関連で切出し位置情報による切出しが必須であるか否かを示す指示情報が存在する。送信部106は、コンテナエンコーダ105で得られたMP4の配信ストリームSTMを、放送波あるいはネットのパケットに載せて、サービス受信機200A,200Bに送信する。
 「サービス受信機(VR表示対応受信機)の構成例」
 図22は、VR表示対応受信機であるサービス受信機200Aの構成例を示している。このサービス受信機200Aは、制御部201と、ユーザ操作部201aと、受信部202と、コンテナデコーダ203と、ビデオデコーダ204と、レンダラ205と、パーシャルピクチャ部206と、切り替えスイッチ207と、スケーリング部208と、表示部209を有している。
 制御部201は、CPU(Central Processing Unit)を備えて構成され、制御プログラムに基づいて、サービス受信機200Aの各部の動作を制御する。ユーザ操作部201aは、ユーザが種々の操作を行うためのキーボード、マウス、タッチパネル、リモコンなどであり、ユーザ操作情報は制御部231に供給される。また、制御部201には図示しないユーザの動作を感知するセンサからのセンサ情報も供給される。受信部202は、サービス送信システム100から放送波あるいはネットのパケットに載せて送られてくるMP4の配信ストリームSTMを受信する。
 コンテナデコーダ(マルチプレクサ)103は、制御部201の制御のもと、受信部202で受信されたMP4の配信ストリームSTMから、イニシャラゼイションセグメントの“moov”ブロックや“moof”ブロックなどの制御情報に基づいて、ビデオストリームを取り出し、ビデオデコーダ204に送る。また、コンテナデコーダ203は、配信ストリームSTMから“moov”ブロックの情報などを取り出し、制御部201に送る。“moov”ブロックの情報の一つとしてレンダリングメタデータ(図9、図11参照)が存在する。また、“moov”ブロックの情報の一つとして、コンポーネントデスクリプタ(図14参照)やディスプレイ・ウインドウ・アクティベートデスクリプタ(図15参照)も存在する。
 ビデオデコーダ204は、コンテナデコーダ203で取り出されたビデオストリームに復号化処理を施して、プロジェクション画像(画像データ)を得る。また、ビデオデコーダ204は、コンテナデコーダ203で取り出されたビデオストリームに挿入されているパラメータセットやSEIメッセージを抽出し、制御部201に送る。この抽出情報には、SPS NALパケットに挿入されている切出し位置「default_display_window」の情報、さらにはレンダリングメタデータ(図9、図11参照)を持つSEIメッセージも含まれる。
 レンダラ205は、制御部201の制御のもと、レンダリングメタデータに基づいて、プロジェクション画像(画像データ)にレンダリング処理を施して、レンダリング画像(画像データ)を得る。
 この場合、レンダラ205は、プロジェクション画像の基準点RP(x,y)を中心とするデフォルトビューに対応したレンダリング画像を生成する他、ユーザ操作あるいはユーザの動作に応じて他のビューに対応したレンダリング画像も生成し得る。例えば、プロジェクション画像が複数のリージョンからなる場合、デフォルトリージョンに対応したデフォルトビューのレンダリング画像を生成する他、ユーザにより指定された他のリージョンに対応したビューのレンダリング画像も生成し得る。
 パーシャルピクチャ部206は、制御部201の制御のもと、ビデオストリームのレイヤに挿入される切出し位置情報で、プロジェクション画像に切出し処理を施して、切出し画像(画像データ)を得る。切り替えスイッチ207は、制御部201の制御のもと、センサ情報あるいはユーザの切り替え操作に応じて、レンダラ205で得られたレンダリング画像(画像データ)またはパーシャルピクチャ部206で得られた切出し画像(画像データ)を選択的に取り出して出力する。
 スケーリング部208は、切り替えスイッチ207で取り出された画像(画像データ)に対して、表示部209のサイズに合うようにスケーリング処理を行う。表示部209は、スケーリング処理されたレンダリング画像または切出し画像を表示する。この表示部209は、例えば、表示パネルやHMD(Head Mounted Display)などで構成される。
 図23は、サービス受信機200Aにおける表示切り替えシーケンスを示している。この表示切り替えシーケンスは一例であって、これに限定されるものではない。
 図示の表示切り替えシーケンスにおいては、表示状態として、大きく分けて、切出し画像を表示する基本表示状態と、デフォルトビュー(あるいはデフォルトリージョン)に対応したレンダリング画像を表示するVR表示(デフォルトビュー)状態と、VR表示(他のビュー)状態の3つが存在する。
 起動時やチャネル切り換え時には、基本表示状態となる。この場合、パーシャルピクチャ部206で切出し画像(画像データ)が得られ、この切出し画像(画像データ)が切り替えスイッチ207で取り出され、スケーリング部208を通じて表示部209に供給されて、切出し画像が表示される。
 この基本表示状態において、ユーザ操作によりVRモードが選択されると、VR表示(デフォルトビュー)状態となる。この場合、最初は、レンダラ205でデフォルトビュー(あるいはデフォルトリージョン)に対応したレンダリング画像(画像データ)が得られ、このレンダリング画像(デフォルトビュー)が切り替えスイッチ207で取り出され、スケーリング部208を通じて表示部209に供給されて、デフォルトビュー(あるいはデフォルトリージョン)に対応したレンダリング画像が表示される。
 また、この基本表示状態において、ユーザ操作あるいはユーザの動作により他のビュー(あるいは他のリージョン)が選択されると、VR表示(他のビュー)状態となる。この場合、レンダラ205で選択された他のビュー(あるいはリージョン)に対応したレンダリング画像(画像データ)が得られ、このレンダリング画像(他のビュー)が切り替えスイッチ207で取り出され、スケーリング部208を通じて表示部209に供給されて、他のビュー(あるいはリージョン)に対応したレンダリング画像が表示される。
 また、このVR表示(他のビュー)状態において、デフォルト回帰選択がされると、VR表示(デフォルトビュー)状態となる。また、このVR表示(デフォルトビュー)状態において、ユーザ操作により復帰選択がされると、基本表示状態となる。なお、VR表示(他のビュー)状態からユーザの復帰操作により、直接基本表示に移行することも可能である。
 「サービス受信機(VR表示非対応受信機)の構成例」
 図24は、VR表示非対応受信機であるサービス受信機200Bの構成例を示している。このサービス受信機200Bは、制御部231と、ユーザ操作部231aと、受信部232と、コンテナデコーダ233と、ビデオデコーダ234と、パーシャルピクチャ部235と、スケーリング部236と、表示部237を有している。
 制御部231は、CPU(Central Processing Unit)を備えて構成され、制御プログラムに基づいて、サービス受信機200Bの各部の動作を制御する。ユーザ操作部231aは、ユーザが種々の操作を行うためのキーボード、マウス、タッチパネル、リモコンなどであり、ユーザ操作情報は制御部231に供給される。また、制御部231には図示しないユーザの動作を感知するセンサからのセンサ情報も供給される。受信部232は、サービス送信システム100から放送波あるいはネットのパケットに載せて送られてくるMP4の配信ストリームSTMを受信する。
 コンテナデコーダ(マルチプレクサ)233は、制御部231の制御のもと、受信部232で受信されたMP4の配信ストリームSTMから、イニシャラゼイションセグメントの“moov”ブロックや“moof”ブロック などの制御情報に基づいて、ビデオストリームを取り出し、ビデオデコーダ234に送る。また、コンテナデコーダ233は、配信ストリームSTMから“moov”ブロックの情報などを取り出し、制御部231に送る。“moov”ブロックの情報の一つとして、コンポーネントデスクリプタ(図14参照)やディスプレイ・ウインドウ・アクティベートデスクリプタ(図15参照)も存在する。
 ビデオデコーダ234は、コンテナデコーダ233で取り出されたビデオストリームに復号化処理を施して、プロジェクション画像(画像データ)を得る。また、ビデオデコーダ234は、コンテナデコーダ233で取り出されたビデオストリームに挿入されているパラメータセットやSEIメッセージを抽出し、制御部231に送る。この抽出情報には、SPS NALパケットに挿入されている切出し位置「default_display_window」の情報も含まれる。
 パーシャルピクチャ部235は、制御部231の制御のもと、プロジェクション画像に切出し処理を施して、切出し画像(画像データ)を得る。この場合、ディスプレイ・ウインドウ・アクティベートデスクリプタの「display_window_activate_flag」が“1”であるときは、ビデオストリームVUIの「default_display_window」の切出し位置情報に基づいた切出しをする。
 スケーリング部236は、パーシャルピクチャ部235で得られた切出し画像(画像データ)に対して、表示部237で指定されるサイズに合うようにスケーリング処理を行う。表示部237は、スケーリング処理された切出し画像を表示する。この表示部237は、例えば、表示パネルやHMD(Head Mounted Display)などで構成される。
 上述したように、図1に示す送受信システム10においては、ビデオストリームを含むコンテナのレイヤに、ビデオストリームに挿入された切出し位置情報による画像データの切出しを必須とするか否かを示す指示情報としての「display_window_activate_flag」が記述されたディスプレイ・ウインドウ・アクティベートデスクリプタが挿入されて送信される。そのため、VR表示非対応受信機であるサービス受信機200Bは、「display_window_activate_flag」が“1”である場合、プロジェクション画像にビデオストリームVUIの「default_display_window」の切出し位置情報に基づいた切出しを行って画像表示をして、歪みがないあるいは歪みの少ない適切な画像をユーザに容易に提供できる。
 また、図1に示す送受信システム10において、ビデオストリームのレイヤに挿入される切出し位置情報で示される切出し位置「default_display_window」の中心O(p,q)はプロジェクション画像の基準点RP(x,y)と一致するようにされている。そのため、VR表示対応受信機であるサービス受信機200Aで表示されるデフォルトビューに対応したレンダリング画像とVR表示非対応受信機であるサービス受信機200Bで表示される切出し画像は共通の画像となり、従ってVR表示対応受信機とVR表示非対応受信機との間で共通の画像を得ることが可能となる。
 <2.変形例>
 「MPEG-2 TS、MMTへの適用」
 なお、上述実施の形態においては、コンテナがMP4(ISOBMFF)である例を示した。しかし、本技術は、コンテナがMP4に限定されるものではなく、MPEG-2 TSやMMTなどの他のフォーマットのコンテナであっても同様に適用し得る。
 例えば、MPEG-2 TSの場合には、図4に示すサービス送信システム100のコンテナエンコーダ105では、ビデオストリームを含むトランスポートストリーム(Transport Stream)が生成される。
 この際、コンテナエンコーダ105では、プログラム・マップ・テーブル(PMT:Program Map Table)のビデオストリームに対応したビデオエレメンタリストリームループに、レンダリングメタデータ(図9、図11参照)を含むレンダリング・メタデータ・デスクリプタ(Rendering_metadata_descriptor)が挿入されると共に、コンポーネントデスクリプタ(図14参照)やディスプレイ・ウインドウ・アクティベートデスクリプタ(図15参照)も挿入される。
 図25は、トランスポートストリームの構成例を示している。この構成例では、PID1で識別されるビデオストリームのPESパケット「video PES1」が存在する。このPESパケット「video PES1」のペイロードには、各ピクチャのアクセスユニット(符号化画像データ)が含まれる。
 PESパケット「video PES1」でコンテナされるアクセスユニット(符号化画像データ)において、「SPS」には切出し位置「default_display_window」の情報が挿入されている。また、「SSEI」にはレンダリングメタデータ(図9、図11参照)を持つSEIメッセージが挿入されている。
 また、PMTに、PESパケット「video PES1」に対応したビデオエレメンタリストリームループ(video ES1 loop)が存在する。ビデオエレメンタリストリームループ(video ES1 loop)には、ビデオストリーム(video PES1)に対応して、ストリームタイプ、パケット識別子(PID)等の情報が配置されると共に、そのビデオストリームに関連する情報を記述するデスクリプタも配置される。
 このストリームタイプは、ビデオストリームを示す“0x24”とされる。また、デスクリプタの一つとして、レンダリングメタデータを含むレンダリング・メタデータ・デスクリプタが挿入されていると共に、コンポーネントデスクリプタやディスプレイ・ウインドウ・アクティベートデスクリプタも挿入されている。
 また、例えば、MMTの場合には、図4に示すサービス送信システム100のコンテナエンコーダ105では、ビデオストリームを含むMMTストリーム(MMT Stream)が生成される。
 この際、コンテナエンコーダ105では、MMT・パッケージ・テーブル(MPT:MMT Package Table)の拡張ビデオストリームに対応したビデオアセットループに、レンダリングメタデータ(図9、図11参照)を含むレンダリング・メタデータ・デスクリプタ(Rendering_metadata_descriptor)が挿入されると共に、コンポーネントデスクリプタ(図14参照)やディスプレイ・ウインドウ・アクティベートデスクリプタ(図15参照)も挿入される。
 図26は、MMTストリームの構成例を示している。この構成例では、ID1で識別されるビデオストリームのMPUパケット「video MPU1」が存在する。このMPUパケット「video MPU1」のペイロードには、各ピクチャのアクセスユニット(符号化画像データ)が含まれる。
 MPUパケット「video MPU1」でコンテナされるアクセスユニット(符号化画像データ)において、「SPS」には切出し位置「default_display_window」の情報が挿入されている。また、「SSEI」にはレンダリングメタデータ(図9、図11参照)を持つSEIメッセージが挿入されている。
 また、MPTに、MPUパケット「video MPU1」に対応したビデオアセットループ(video asset1 loop)が存在する。ビデオアセットループ(video asset1 loop)には、ビデオストリーム(video MPU1)に対応して、ストリームタイプ、パケット識別子(PID)等の情報が配置されると共に、そのビデオストリームに関連する情報を記述するデスクリプタも配置される。
 このアセットタイプは、ビデオストリームを示す“0x24”とされる。また、デスクリプタの一つとして、レンダリングメタデータを含むレンダリング・メタデータ・デスクリプタが挿入されていると共に、コンポーネントデスクリプタやディスプレイ・ウインドウ・アクティベートデスクリプタも挿入されている。
 また、上述実施の形態においては、プロジェクション画像のフォーマットタイプがエクイレクタングラー(Equirectangular)であることを想定した説明となっている(図5、図7、図8参照)。上述したように、プロジェクション画像のフォーマットタイプはエクイレクタングラーに限定されるものではなく、その他のフォーマットであってもよい。
 「フォーマットタイプがクロスキュービックである場合」
 図27は、フォーマットタイプがクロスキュービック(Cross-cubic)であるプロジェクション画像を示している。このプロジェクション画像には、「top」、「front」、「bottom」、「right」、「back」、「left」の6つのビューが存在する。
 図28(a)は、「front」ビュー(図27に破線矩形枠で示す)がデフォルトビュー(Default view)であるケース1における基準点RP(x,y)の指定および切出し位置「default_display_window」の指定について示している。
 この場合、基準点RP(x,y)のx,yは、以下の数式のように指定される。
  x = projection_pic_size_horizontal * 1/8
  y = projection_pic_size_vertical * 1/2
 また、この場合、切出し位置「default_display_window」は、その中心が基準点RP(x,y)と一致するように、以下の数式のように指定される。
  def_disp_win_left_offset  = 0
  def_disp_win_right_offset = projection_pic_size_horizontal * 1/4
  def_disp_win_top_offset  = projection_pic_size_vertical * 1/3
  def_disp_win_bottom_offset = projection_pic_size_vertical * 2/3
 図28(b)は、「left」ビュー(図27に一点鎖線矩形枠で示す)がデフォルトビュー(Default view)であるケース2における基準点RP´(x,y)の指定および切出し位置「default_display_window」の指定について示している。
 この場合、基準点RP´(x,y)のx,yは、以下の数式のように指定される。
  x = projection_pic_size_horizontal * 7/8
  y = projection_pic_size_vertical * 1/2
 また、この場合、切出し位置「Conformance_window」は、その中心が基準点RP´(x,y)と一致するように、以下の数式のように指定される。
  def_disp_win_left_offset  = projection_pic_size_horizontal * 3/4
  def_disp_win_right_offset = projection_pic_size_horizontal 
  def_disp_win_top_offset  = projection_pic_size_vertical * 1/3
  def_disp_win_bottom_offset = projection_pic_size_vertical * 2/3
 上述のフォーマットタイプがクロスキュービック(Cross-cubic)であるプロジェクション画像の場合、「top」、「front」、「bottom」、「right」、「back」、「left」の6つのビューをそれぞれリージョンとして扱うことも可能である。その場合、基準点RP(x,y)の情報を伝送する代わりに、いずれかのビューをデフォルトリージョンとし、その中心が基準点RP(x,y)であるとみなして、上述の要領で切出し位置「default_display_window」を指定する。
 また、上述実施の形態においては、本技術を、プロジェクション画像を取り扱う送受信システムに適用した例を示した。本技術は、その他の画像、例えば、ステレオスコピック画像やパノラマビュー画像(マルチビュー画像)を取り扱う送受信システムにも同様に適用することが可能である。
 最初に、ステレオスコピック画像の場合について説明する。図29(a)は、デコーダ出力であるステレオスコピック画像(画像データ)の一例を示している。このステレオスコピック画像はサイドバイサイド方式の画像であるが、これに限定されるものではなく、例えばトップアンドボトム法域の画像であってもよい。また、切出し位置「default_display_window」は、左眼画像に対応して設定されているが、右眼画像に対応して設定されていてもよい。
 図29(b)は、3D(3 Dimension)表示受信機において、ステレオスコピック画像の画像データをレンダリングして左眼画像データおよび右眼画像データを生成し、3D画像の表示を行うことを示している。図29(c)は、2D(2 Dimension)表示受信機において、切出し位置「default_display_window」で切出された画像データを拡大して、2D画像の表示を行うことを示している。この場合、「display_window_activate_flag」が“1”であるときは、2D表示受信機が部分表示を行う場合に「default_display_window」に応じた切出しを必須とすることを示すことになる。
 次に、パノラマビュー画像の場合について説明する。図30(a)は、デコーダ出力であるパノラマビュー画像(画像データ)の一例を示している。このパノラマビュー画像は水平方向に延びた画像であるが、これに限定されるものではない。切出し位置「default_display_window」は、中央部分の画像に対応して設定されている。
 図30(b)は、パノラマビュー表示受信機において、パノラマビュー画像の画像データをレンダリングして、パノラマビュー画像上に設定された表示領域の画像を所定数の画像、図示の例では3つのスクリーンにそれぞれ表示するための所定数の画像データを生成し、スクリーン表示することを示している。図30(c)は、2D表示受信機において、切出し位置「default_display_window」で切出された画像データを拡大して表示することを示している。この場合、「display_window_activate_flag」が“1”であるときは、2D表示受信機が部分表示を行う場合に「default_display_window」に応じた切出しを必須とすることを示すことになる。
 また、本技術は、以下のような構成を取ることもできる。
 (1)画像データを符号化して得られたビデオストリームを含むコンテナを受信する受信部と、
 上記ビデオストリームを復号化して画像データを得、該画像データを処理して表示用画像データを得る処理部を備え、
 上記ビデオストリームのレイヤには、画像データの切出し位置を示す切出し位置情報が挿入されており、
 上記コンテナのレイヤには、表示能力との関連で上記切出し位置情報による画像データの切出しを必須とするか否かを示す指示情報が挿入されており、
 上記処理部は、上記指示情報に基づいて上記切出し位置情報を選択的に使用する
 受信装置。
 (2)上記処理部は、上記指示情報に基づいて上記切出し位置情報による切出しが必須であると判断するとき、上記ビデオストリームを復号化して得られた画像データから上記切出し位置情報で示される位置の画像データを切出して上記表示用画像データを得る
 前記(1)に記載の受信装置。
 (3)上記画像データは、球面キャプチャ画像の一部または全部を切り取って平面パッキングして得られた長方形のプロジェクション画像の画像データである
 前記(1)または(2)に記載の受信装置。
 (4)上記コンテナのレイヤおよび/または上記ビデオストリームのレイヤに、上記プロジェクション画像のレンダリング用メタ情報が挿入されており、
 上記切出し位置情報で示される切出し位置の中心は上記レンダリング用メタ情報で示されるプロジェクション画像の基準点と一致する
 前記(3)に記載の受信装置
 (5)上記プロジェクション画像は、上記基準点を中心位置とするデフォルトリージョンを含む複数のリージョンからなり、
 上記切出し位置情報で示される位置は、上記デフォルトリージョンの位置と一致する
 前記(4)に記載の受信装置。
 (6)上記レンダリング用メタ情報は、上記プロジェクション画像の基準点の位置情報を持つ
 前記(4)または(5)に記載の受信装置。
 (7)上記レンダリング用メタ情報は、上記切出し位置情報で示される切出し位置の中心は上記レンダリング用メタ情報で示されるプロジェクション画像の基準点と一致することを示す後方互換性情報を持つ
 前記(4)から(6)のいずれかに記載の受信装置。
 (8)上記コンテナのレイヤに、上記ビデオストリームに対応付けて、上記指示情報が記述されたデスクリプタが挿入されている
 前記(1)から(7)のいずれかに記載の受信装置。
 (9)上記コンテナは、ISOBMFFであり、
 上記デスクリプタは、moovボックスに挿入されている
 前記(8)に記載の受信装置。
 (10)上記コンテナは、MPEG2-TSであり、
 上記デスクリプタは、プログラム・マップ・テーブルに挿入されている
 前記(8)に記載の受信装置。
 (11)上記コンテナは、MMTストリームであり、
 上記デスクリプタは、MMT・パッケージ・テーブルに挿入されている
 前記(8)に記載の受信装置。
 (12)受信部が、画像データを符号化して得られたビデオストリームを含むコンテナを受信する受信ステップと、
 処理部が、上記ビデオストリームを復号化して画像データを得、該画像データを処理して表示用画像データを得る処理ステップを有し、
 上記ビデオストリームのレイヤには、画像データの切出し位置を示す切出し位置情報が挿入されており、
 上記コンテナのレイヤには、表示能力との関連で上記切出し位置情報による画像データの切出しを必須とするか否かを示す指示情報が挿入されており、
 上記処理ステップでは、上記指示情報に基づいて上記切出し位置情報を選択的に使用する
 受信方法。
 (13)上記処理ステップでは、上記指示情報に基づいて上記切出し位置情報による切出しが必須であると判断するとき、上記ビデオストリームを復号化して得られた画像データから上記切出し位置情報で示される位置の画像データを切出して上記表示用画像データを得る
 前記(12)に記載の受信方法。
 (14)上記画像データは、球面キャプチャ画像の一部または全部を切り取って平面パッキングして得られた長方形のプロジェクション画像の画像データである
 前記(12)または(13)に記載の受信方法。
 (15)上記コンテナのレイヤおよび/または上記ビデオストリームのレイヤに、上記プロジェクション画像のレンダリング用メタ情報が挿入されており、
 上記切出し位置情報で示される切出し位置の中心は上記レンダリング用メタ情報で示されるプロジェクション画像の基準点と一致する
 前記(14)に記載の受信方法
 (16)上記プロジェクション画像は、上記基準点を中心位置とするデフォルトリージョンを含む複数のリージョンからなり、
 上記切出し位置情報で示される位置は、上記デフォルトリージョンの位置と一致する
 前記(15)に記載の受信方法。
 (17)上記レンダリング用メタ情報は、上記プロジェクション画像の基準点の位置情報を持つ
 前記(15)または(16)に記載の受信方法。
 (18)上記レンダリング用メタ情報は、上記切出し位置情報で示される切出し位置の中心は上記レンダリング用メタ情報で示されるプロジェクション画像の基準点と一致することを示す後方互換性情報を持つ
 前記(15)から(17)のいずれかに記載の受信方法。
 (19)上記コンテナのレイヤに、上記ビデオストリームに対応付けて、上記指示情報が記述されたデスクリプタが挿入されている
 前記(12)から(18)のいずれかに記載の受信方法。
 (20)上記コンテナは、ISOBMFFであり、
 上記デスクリプタは、moovボックスに挿入されている
 前記(19)に記載の受信方法。
 (21)上記コンテナは、MPEG2-TSであり、
 上記デスクリプタは、プログラム・マップ・テーブルに挿入されている
 前記(19)に記載の受信方法。
 (22)上記コンテナは、MMTストリームであり、
 上記デスクリプタは、MMT・パッケージ・テーブルに挿入されている
 前記(19)に記載の受信方法。
 (23)画像データを符号化して得られたビデオストリームを含むコンテナを生成するコンテナ生成部を備え、
 上記ビデオストリームのレイヤには、画像データの切出し位置を示す切出し位置情報が挿入されており、
 上記コンテナのレイヤに、受信側の表示能力との関連で上記切出し位置情報による画像データの切出しを必須とするか否かを示す指示情報を挿入する情報挿入部と、
 上記指示情報が挿入された上記コンテナを送信する送信部をさらに備える
 送信装置。
 (24)画像データを符号化して得られたビデオストリームを含むコンテナを生成して送信し、
 上記ビデオストリームのレイヤには、画像データの切出し位置を示す切出し位置情報が挿入され、
 上記コンテナのレイヤには、受信側の表示能力との関連で上記切出し位置情報による画像データの切出しを必須とするか否かを示す指示情報が挿入される
 送信方法。
 本技術の主な特徴は、コンテナに含まれるビデオストリームを復号化して得られた画像データから表示用画像データを得る際に、コンテナのレイヤに挿入されている指示情報に基づいて、ビデオストリームのレイヤに挿入されている切出し位置情報を選択的に使用することで、受信画像データに対応した表示能力を持たない受信機においても適切な表示用画像データを容易に取得可能としたことである(図4、図19、図20参照)。
 10・・・送受信システム
 100・・・サービス送信システム
 101・・・制御部
 101a・・・ユーザ操作部
 102・・・カメラ
 103・・・平面パッキング部
 104・・・ビデオエンコーダ
 105・・・コンテナエンコーダ
 106・・・送信部
 200,200A,200B・・・サービス受信機
 201,231・・・制御部
 201a,231a・・・ユーザ操作部
 202,232・・・受信部
 203,233・・・コンテナデコーダ
 204,234・・・ビデオデコーダ
 205・・・レンダラ
 206,235・・・パーシャルピクチャ部
 207・・・切り替えスイッチ
 208,236・・・スケーリング部
 209,237・・・表示部

Claims (24)

  1.  画像データを符号化して得られたビデオストリームを含むコンテナを受信する受信部と、
     上記ビデオストリームを復号化して画像データを得、該画像データを処理して表示用画像データを得る処理部を備え、
     上記ビデオストリームのレイヤには、画像データの切出し位置を示す切出し位置情報が挿入されており、
     上記コンテナのレイヤには、表示能力との関連で上記切出し位置情報による画像データの切出しを必須とするか否かを示す指示情報が挿入されており、
     上記処理部は、上記指示情報に基づいて上記切出し位置情報を選択的に使用する
     受信装置。
  2.  上記処理部は、上記指示情報に基づいて上記切出し位置情報による切出しが必須であると判断するとき、上記ビデオストリームを復号化して得られた画像データから上記切出し位置情報で示される位置の画像データを切出して上記表示用画像データを得る
     請求項1に記載の受信装置。
  3.  上記画像データは、球面キャプチャ画像の一部または全部を切り取って平面パッキングして得られた長方形のプロジェクション画像の画像データである
     請求項1に記載の受信装置。
  4.  上記コンテナのレイヤおよび/または上記ビデオストリームのレイヤに、上記プロジェクション画像のレンダリング用メタ情報が挿入されており、
     上記切出し位置情報で示される切出し位置の中心は上記レンダリング用メタ情報で示されるプロジェクション画像の基準点と一致する
     請求項3に記載の受信装置
  5.  上記プロジェクション画像は、上記基準点を中心位置とするデフォルトリージョンを含む複数のリージョンからなり、
     上記切出し位置情報で示される位置は、上記デフォルトリージョンの位置と一致する
     請求項4に記載の受信装置。
  6.  上記レンダリング用メタ情報は、上記プロジェクション画像の基準点の位置情報を持つ
     請求項4に記載の受信装置。
  7.  上記レンダリング用メタ情報は、上記切出し位置情報で示される切出し位置の中心は上記レンダリング用メタ情報で示されるプロジェクション画像の基準点と一致することを示す後方互換性情報を持つ
     請求項4に記載の受信装置。
  8.  上記コンテナのレイヤに、上記ビデオストリームに対応付けて、上記指示情報が記述されたデスクリプタが挿入されている
     請求項1に記載の受信装置。
  9.  上記コンテナは、ISOBMFFであり、
     上記デスクリプタは、moovボックスに挿入されている
     請求項8に記載の受信装置。
  10.  上記コンテナは、MPEG2-TSであり、
     上記デスクリプタは、プログラム・マップ・テーブルに挿入されている
     請求項8に記載の受信装置。
  11.  上記コンテナは、MMTストリームであり、
     上記デスクリプタは、MMT・パッケージ・テーブルに挿入されている
     請求項8に記載の受信装置。
  12.  受信部が、画像データを符号化して得られたビデオストリームを含むコンテナを受信する受信ステップと、
     処理部が、上記ビデオストリームを復号化して画像データを得、該画像データを処理して表示用画像データを得る処理ステップを有し、
     上記ビデオストリームのレイヤには、画像データの切出し位置を示す切出し位置情報が挿入されており、
     上記コンテナのレイヤには、表示能力との関連で上記切出し位置情報による画像データの切出しを必須とするか否かを示す指示情報が挿入されており、
     上記処理ステップでは、上記指示情報に基づいて上記切出し位置情報を選択的に使用する
     受信方法。
  13.  上記処理ステップでは、上記指示情報に基づいて上記切出し位置情報による切出しが必須であると判断するとき、上記ビデオストリームを復号化して得られた画像データから上記切出し位置情報で示される位置の画像データを切出して上記表示用画像データを得る
     請求項12に記載の受信方法。
  14.  上記画像データは、球面キャプチャ画像の一部または全部を切り取って平面パッキングして得られた長方形のプロジェクション画像の画像データである
     請求項12に記載の受信方法。
  15.  上記コンテナのレイヤおよび/または上記ビデオストリームのレイヤに、上記プロジェクション画像のレンダリング用メタ情報が挿入されており、
     上記切出し位置情報で示される切出し位置の中心は上記レンダリング用メタ情報で示されるプロジェクション画像の基準点と一致する
     請求項14に記載の受信方法
  16.  上記プロジェクション画像は、上記基準点を中心位置とするデフォルトリージョンを含む複数のリージョンからなり、
     上記切出し位置情報で示される位置は、上記デフォルトリージョンの位置と一致する
     請求項15に記載の受信方法。
  17.  上記レンダリング用メタ情報は、上記プロジェクション画像の基準点の位置情報を持つ
     請求項15に記載の受信方法。
  18.  上記レンダリング用メタ情報は、上記切出し位置情報で示される切出し位置の中心は上記レンダリング用メタ情報で示されるプロジェクション画像の基準点と一致することを示す後方互換性情報を持つ
     請求項15に記載の受信方法。
  19.  上記コンテナのレイヤに、上記ビデオストリームに対応付けて、上記指示情報が記述されたデスクリプタが挿入されている
     請求項12に記載の受信方法。
  20.  上記コンテナは、ISOBMFFであり、
     上記デスクリプタは、moovボックスに挿入されている
     請求項19に記載の受信方法。
  21.  上記コンテナは、MPEG2-TSであり、
     上記デスクリプタは、プログラム・マップ・テーブルに挿入されている
     請求項19に記載の受信方法。
  22.  上記コンテナは、MMTストリームであり、
     上記デスクリプタは、MMT・パッケージ・テーブルに挿入されている
     請求項19に記載の受信方法。
  23.  画像データを符号化して得られたビデオストリームを含むコンテナを生成するコンテナ生成部を備え、
     上記ビデオストリームのレイヤには、画像データの切出し位置を示す切出し位置情報が挿入されており、
     上記コンテナのレイヤに、受信側の表示能力との関連で上記切出し位置情報による画像データの切出しを必須とするか否かを示す指示情報を挿入する情報挿入部と、
     上記指示情報が挿入された上記コンテナを送信する送信部をさらに備える
     送信装置。
  24.  画像データを符号化して得られたビデオストリームを含むコンテナを生成して送信し、
     上記ビデオストリームのレイヤには、画像データの切出し位置を示す切出し位置情報が挿入され、
     上記コンテナのレイヤには、受信側の表示能力との関連で上記切出し位置情報による画像データの切出しを必須とするか否かを示す指示情報が挿入される
     送信方法。
PCT/JP2019/008772 2018-03-19 2019-03-06 受信装置、受信方法、送信装置および送信方法 WO2019181493A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018051118 2018-03-19
JP2018-051118 2018-03-19

Publications (1)

Publication Number Publication Date
WO2019181493A1 true WO2019181493A1 (ja) 2019-09-26

Family

ID=67987813

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/008772 WO2019181493A1 (ja) 2018-03-19 2019-03-06 受信装置、受信方法、送信装置および送信方法

Country Status (1)

Country Link
WO (1) WO2019181493A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180063505A1 (en) * 2016-08-25 2018-03-01 Lg Electronics Inc. Method of transmitting omnidirectional video, method of receiving omnidirectional video, device for transmitting omnidirectional video, and device for receiving omnidirectional video

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180063505A1 (en) * 2016-08-25 2018-03-01 Lg Electronics Inc. Method of transmitting omnidirectional video, method of receiving omnidirectional video, device for transmitting omnidirectional video, and device for receiving omnidirectional video

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"3rd Generation Partnership Project; Technical Specification Group Services and System Aspects; Virtual Reality (VR) media services over 3GPP (Release 15)", 3GPP TR 26.918, V2. 0. 0, vol. 09, 2017, pages 1 - 23, 37-49, 82-94, XP051336775, Retrieved from the Internet <URL:http://ftp.3gpp.org//Specs/archive/26_series/26.918/26918-200.zip> *
HYUN-MOOK OH ET AL.: "Omnidirectional fisheye video SEI message", JCTVC-AD0023R2, 24 January 2018 (2018-01-24), pages 1 - 5, XP030118340, Retrieved from the Internet <URL:http://phenix.it-sudparis.eu/jct/doc_end_user/documents/30_Gwangju/wgll/JCTVC-AD0023-v3.zip> *

Similar Documents

Publication Publication Date Title
US11109013B2 (en) Method of transmitting 360-degree video, method of receiving 360-degree video, device for transmitting 360-degree video, and device for receiving 360-degree video
CN109076255B (zh) 发送、接收360度视频的方法及设备
CN109691094B (zh) 发送全向视频的方法、接收全向视频的方法、发送全向视频的装置和接收全向视频的装置
CN109155874B (zh) 虚拟现实媒体内容的自适应流传输的方法、装置和计算机程序
KR102559862B1 (ko) 미디어 콘텐츠 전송을 위한 방법, 디바이스, 및 컴퓨터 프로그램
CN110999308B (zh) 发送装置、发送方法、接收装置和接收方法
EP3632124B1 (en) High-level signalling for fisheye video data
CN111034203A (zh) 处理具有动态逐区封装的全向媒体
WO2019139099A1 (ja) 送信装置、送信方法、受信装置および受信方法
US11341976B2 (en) Transmission apparatus, transmission method, processing apparatus, and processing method
WO2020107998A1 (zh) 视频数据的处理方法、装置、相关设备及存储介质
WO2019181493A1 (ja) 受信装置、受信方法、送信装置および送信方法
US20210006769A1 (en) Reception device, reception method, transmission device, and transmission method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19770742

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19770742

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP